O uso de múltiplas linguagens e funções interlinguísticas é a base do processamento de linguagem natural (PNL) hoje, tornando essenciais modelos incorporados robustos. Esses modelos suportam sistemas como geração de recuperação aumentada e outras soluções baseadas em IA. No entanto, os modelos existentes muitas vezes enfrentam problemas com dados de treinamento ruidosos, diversidade limitada de domínios e baixo desempenho no tratamento de conjuntos de dados multilíngues. Essas limitações afetam o desempenho e a escalabilidade. Pesquisadores do Harbin Institute of Technology (Shenzhen) enfrentaram esses desafios com o KaLM-Embedding, um modelo que enfatiza a qualidade dos dados e métodos de treinamento inovadores.
KaLM-Embedding é um modelo de incorporação multilíngue construído em Qwen 2-0.5B e lançado sob a licença MIT. Projetado tendo em mente o tamanho compacto e a eficiência, ele é mais adequado para aplicações do mundo real onde os recursos de computação são limitados.
O design do modelo centrado em dados é um ponto forte. Inclui 550.000 amostras de dados sintéticos geradas usando técnicas humanas para garantir diversidade e consistência. Além disso, utiliza filtragem de nível de consistência para remover amostras ruidosas e ruins, o que melhora a qualidade e robustez dos dados de treinamento.
Recursos técnicos e benefícios
KaLM-Embedding inclui métodos avançados para fornecer incorporação robusta de texto em vários idiomas. Um recurso notável é o Matryoshka Representation Learning, que oferece suporte a taxas de incorporação variáveis. Essa flexibilidade permite que a incorporação seja otimizada para diferentes aplicações, de 64 a 896 pixels.
A estratégia de treinamento tem duas etapas: pré-treinamento não supervisionado e ajuste fino supervisionado. Mais de 70 conjuntos de dados diferentes foram usados durante a otimização, incluindo diferentes idiomas e origens. A combinação da tarefa semi-homogênea melhorou ainda mais o processo de treinamento, equilibrando os desafios apresentados pelas imprecisões no lote e o risco de falsos negativos.
KaLM-Embedding também se beneficia de sua base Qwen 2-0.5B, um modelo de linguagem pré-treinado. Esta estrutura permite adaptação e incorporação eficiente de tarefas, proporcionando uma vantagem sobre os modelos tradicionais do tipo BERT.
Resultados de desempenho e medição
O desempenho do KaLM-Embedding foi avaliado com o Massive Text Embedding Benchmark (MTEB). Recebeu pontuação média de 64,53 pontos, classificação elevada para modelos com menos de 1 bilhão de parâmetros. Pontuações de 64,13 em Chinês-MTEB e 64,94 em Inglês-MTEB destacam suas habilidades multilíngues. Apesar dos dados limitados de ajuste fino para algumas línguas, o modelo mostrou fortes capacidades de generalização.
Estudos de ablação forneceram informações adicionais. Foi demonstrado que recursos como aprendizado de representação Matryoshka e filtragem de nível de consistência melhoram o desempenho. No entanto, o estudo também destacou áreas para melhoria, como o refinamento de incorporações de baixa dimensão para melhorar a eficiência.
Conclusão: um passo à frente na incorporação multilíngue
KaLM-Embedding representa um grande avanço em modelos de incorporação multilíngues. Ao abordar desafios como dados ruidosos e estruturas inconsistentes, consegue-se um equilíbrio entre eficiência e eficácia. Uma versão de código aberto sob licença do MIT convida pesquisadores e profissionais a explorar e desenvolver este trabalho.
Com sua forte funcionalidade multilíngue e métodos inovadores, o KaLM-Embedding está bem posicionado para ser usado de diversas maneiras, desde sistemas de recuperação aumentada até tarefas em vários idiomas. À medida que a demanda por soluções de PNL multilíngues continua a crescer, o KaLM-Embedding serve como uma prova do impacto dos dados de alta qualidade e do design criterioso de modelos.
Confira Papel, modelos e código. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
✅ [Recommended Read] Nebius AI Studio se expande com modelos de visão, novos modelos de linguagem, incorporados e LoRA (Aprimorado)