Minish Lab lança Model2Vec: uma ferramenta de IA para extrair modelos pequenos e super-rápidos de qualquer conversor de frases

Minish Lab acaba de ser lançado Modelo2Vecuma ferramenta de transformação projetada para integrar modelos pequenos e rápidos de qualquer transformador de frases. Com esta inovação, o Minish Lab pretende fornecer aos pesquisadores e desenvolvedores uma maneira mais eficiente de lidar com tarefas de processamento de linguagem natural (PNL). Model2Vec permite o preenchimento rápido de modelos compactos sem sacrificar o desempenho, posicionando-o como uma solução poderosa para modelos de linguagem.

Visão geral do Model2Vec

Model2Vec é uma ferramenta de abstração que cria modelos pequenos, rápidos e eficientes para diversas tarefas de PNL. Ao contrário dos modelos tradicionais, que muitas vezes requerem uma grande quantidade de dados e tempo de treinamento, o Model2Vec funciona sem dados de treinamento, oferecendo um nível de simplicidade e velocidade antes inatingível.

Model2vec possui dois métodos:

Saída: funciona da mesma forma que um conversor de frases, usando um token de subpalavra para combinar todas as palavras. É rápido de criar e compacto (cerca de 30 MB), embora possa ter baixo desempenho para algumas tarefas.

Uma palavra: Funciona como GloVe ou vetores word2vec padrão, mas oferece desempenho aprimorado. Esses modelos são maiores, dependendo do tamanho da palavra, mas ainda são rápidos e perfeitos para situações onde você tem mais memória RAM, mas ainda precisa de velocidade.

Model2Vec envolve passar o vocabulário pelo modelo Sentence Transformer, reduzindo a dimensão de incorporação usando análise de componentes principais (PCA) e usando a escala Zipf para melhorar o desempenho. O resultado é um modelo compacto e estacionário que funciona extremamente bem em diversas tarefas, tornando-o ideal para configurações com recursos computacionais limitados.

Destilação e Inferência de Modelo

O processo de destilação com Model2Vec é incrivelmente rápido. De acordo com o comunicado, utilizando o backend MPS, o modelo pode ser instalado em menos de 30 segundos no MacBook 2024. Essa eficiência é alcançada sem dados de treinamento adicionais, um afastamento significativo dos modelos tradicionais de aprendizado de máquina que dependem de grandes conjuntos de dados para treinamento. O processo de destilação transforma o modelo Sentence Transformer em um modelo Model2Vec muito menor, reduzindo seu tamanho em 15, de 120 milhões de parâmetros para apenas 7,5 milhões. O modelo resultante tem apenas 30 MB em disco, tornando-o ideal para implantação em ambientes de recursos.

Uma vez refinado, o modelo pode ser usado para tarefas conceituais, como classificação de texto, agrupamento ou construção de sistemas de geração aumentada de recuperação (RAG). A inferência usando modelos Model2Vec é muito mais rápida que os métodos tradicionais. Os modelos podem rodar até 500 vezes mais rápido na CPU do que seus equivalentes maiores, fornecendo uma alternativa mais ecológica e eficiente às tarefas de PNL.

Principais recursos e benefícios

Uma das características marcantes do Model2Vec é sua flexibilidade. A ferramenta funciona com qualquer modelo de Transformador de Frases, o que significa que os usuários podem trazer seus próprios modelos e vocabulário. Essa flexibilidade permite que os usuários criem modelos específicos de domínio, como modelos biomédicos ou multilíngues, simplesmente inserindo o vocabulário apropriado. Model2Vec está totalmente integrado ao hub HuggingFace, tornando mais fácil para os usuários compartilhar e fazer upload de modelos diretamente do site. Outra vantagem do Model2Vec é sua capacidade de lidar com tarefas multilíngues. Quer a necessidade seja de um modelo em inglês, francês ou multilíngue, o Model2Vec pode atender a essas necessidades, expandindo continuamente sua funcionalidade em diferentes idiomas e domínios. A facilidade de teste também é uma grande vantagem. Os modelos Model2Vec são projetados para funcionar imediatamente em tarefas de benchmark, como o Massive Text Embedding Benchmark (MTEB), permitindo aos usuários medir rapidamente o desempenho de seus modelos incorporados.

Operação e testes

Model2Vec foi testado e rigorosamente testado, apresentando excelentes resultados. Os modelos Model2Vec superaram os modelos estáticos incorporados tradicionais, como GloVe e Word2Vec em testes de benchmark. Por exemplo, o modelo M2V_base_glove, baseado no vocabulário GloVe, mostrou melhor desempenho em uma série de tarefas do que a incorporação original do GloVe.

Foi demonstrado que os modelos Model2Vec competem com modelos de última geração, como o All-MiniLM-L6-v2, sendo muito menores e mais rápidos. A vantagem da velocidade é particularmente notável, com os modelos Model2Vec fornecendo desempenho de classificação comparável a modelos maiores, mas a uma fração do custo computacional. Esse equilíbrio entre velocidade e desempenho torna o Model2Vec uma boa escolha para desenvolvedores que buscam aumentar o tamanho e a eficiência do modelo.

Casos de uso e aplicativos

O lançamento do Model2Vec abre uma ampla gama de aplicações possíveis. Seu tamanho pequeno e tempos de processamento rápidos o tornam particularmente adequado para implantação em dispositivos de ponta, onde os recursos computacionais são limitados. A capacidade de construir modelos sem dados de treinamento o torna uma ferramenta valiosa para pesquisadores e desenvolvedores que trabalham em ambientes com escassez de dados. Model2Vec pode ser usado em ambientes comerciais para uma variedade de tarefas, incluindo análise de sentimentos, classificação de documentos e recuperação de informações. Sua compatibilidade com o hub HuggingFace o torna uma opção natural para organizações que já utilizam modelos HuggingFace em suas operações.

A conclusão

Model2Vec representa um avanço significativo na área de PNL, oferecendo uma solução poderosa e eficiente. Ao permitir o preenchimento de modelos pequenos e rápidos sem a necessidade de dados de treinamento, o Minish Lab criou uma ferramenta que pode democratizar o acesso à tecnologia PNL. Model2Vec fornece uma solução flexível e escalável para uma variedade de tarefas relacionadas a linguagem, seja para pesquisa acadêmica, aplicações de negócios ou uso em ambientes com uso intensivo de recursos.

Confira Página HF de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..

Não se esqueça de participar do nosso Mais de 50k ML SubReddit

⏩ ⏩ WEBINAR GRATUITO DE IA: 'Vídeo SAM 2: Como sintonizar seus dados' (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

⏩ ⏩ WEBINAR GRATUITO DE IA: 'Vídeo SAM 2: Como sintonizar seus dados' (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)

Source link

Você também pode gostar...

Apple AI lança Depth Pro: modelo básico para medição de profundidade monocular métrica Zero-Shot

Pesquisadores da UC Riverside propõem árvore Pkd (árvore kd paralela): uma árvore kd paralela que funciona bem tanto no conceito quanto na prática

BLIP3-KALE: um conjunto de dados de código aberto de 218 milhões de pares de imagens que transformam legendas com descrições densas e aumentadas por informações

Deixe um comentário Cancelar resposta