Llama-3-Nanda-10B-Chat: um modelo de linguagem hindi grande e produtivo aberto com parâmetros 10B com recursos de PNL de ponta e tokenização avançada

O Processamento de Linguagem Natural (PNL) concentra-se na construção de modelos de computador para interpretar e construir a linguagem humana. Com o desenvolvimento de modelos baseados em transformadores, os modelos linguísticos de grande escala (LLMs) mostraram capacidades impressionantes de PNL para o inglês, permitindo aplicações que vão desde resumo de texto e análise de sentimentos até tarefas complexas de raciocínio. No entanto, a PNL em hindi ainda precisa ser desenvolvida, principalmente devido à necessidade de dados em hindi de alta qualidade e de modelos específicos do idioma. Como o hindi é a quarta língua mais falada no mundo, com mais de 572 milhões de falantes, um modelo de hindi dedicado e de alto desempenho tem grande potencial para aplicações no mundo real.

Um desafio importante no desenvolvimento de ferramentas de PNL para hindi são os dados limitados disponíveis em comparação com o inglês, com muitas empresas ultrapassando 15 bilhões de tokens. Devido a esta escassez, modelos multilíngues como Llama-2 e Falcon são frequentemente usados para hindi, mas precisam de ajuda com questões de desempenho, pois distribuem serviços em vários idiomas. Apesar de abrangerem mais de 50 idiomas, esses modelos não funcionam bem em tarefas específicas do hindi porque não conseguem concentrar-se suficientemente no hindi sem afetar outras línguas. Isto limita a precisão e a fluência destes modelos em Hindi, dificultando o desenvolvimento de aplicações concebidas para o público de língua Hindi. A comunidade de investigação identificou, portanto, uma necessidade urgente de um modelo concebido exclusivamente para Hindi, utilizando conjuntos de dados e arquitecturas de modelos em Hindi de grande escala e alta qualidade.

Os modelos existentes de PNL em hindi geralmente dependem de modelos multilíngues de uso geral com dados limitados de pré-treinamento em hindi. Por exemplo, modelos como o Llama-2, que usam tokens de codificação de pares de bytes, dividem palavras que não sejam do inglês em várias subpalavras, causando ineficiências no processamento do hindi. Embora esses modelos tenham um bom desempenho em inglês, eles precisam de ajuda em hindi devido ao desequilíbrio dos tokens, o que aumenta os custos de processamento e reduz a precisão. Os LLMs multilíngues também sofrem frequentemente com a “maldição do multilinguismo”, onde o desempenho diminui à medida que tentam oferecer suporte a vários idiomas. Portanto, uma abordagem mais focada que aborde os desafios únicos do processamento de Hindi é essencial para melhorar o desempenho e a usabilidade.

Pesquisadores Mohamed bin Zayed Universidade de Inteligência Artificial dos Emirados Árabes Unidos, Inception Emirados Árabes Unidos e Cerebras Systems apresentaram Lhama-3-Nanda-10B-Chat (Nanda)LLM centrado em hindi e configurado por instrução com 10 bilhões de parâmetros. Desenvolvido a partir do modelo Llama-3-8B, o Nanda inclui extenso pré-treinamento em 65 bilhões de tokens em hindi e inclui opcionalmente inglês para suporte bilíngue. Ao contrário dos extensos modelos multilíngues, o Nanda oferece sua arquitetura em hindi, combinando conjuntos de dados hindi-inglês em uma proporção de 1:1 durante o treinamento para medir as habilidades linguísticas. Ao continuar o pré-treinamento, este modelo melhora sua proficiência em hindi, ao mesmo tempo em que mantém um bom desempenho em inglês, tornando-o um forte candidato para aplicações que exigem PNL bilíngue.

O layout deste modelo é baseado em um design apenas de decodificador com 40 blocos transformadores, acima dos 32 padrão do Llama-3. Esta extensão permite uma adaptação eficaz da linguagem, reduzindo a sobrecarga de treinamento em comparação com a inicialização. A infraestrutura de treinamento utilizou o supercomputador Condor Galaxy 2 AI, utilizando 16 sistemas CS-2 para lidar com extensos requisitos de dados. Os pesquisadores usaram a configuração AdamW com uma taxa de aprendizado de 1,5e-5 e um tamanho de cluster de 4 milhões, otimizando o modelo ajustando cuidadosamente os parâmetros. Para maximizar o aproveitamento dos dados, o treinamento de Nanda incluiu uma sequência de até 8.192 tokens, na ordem de marcação dos limites do texto, reduzindo assim a interferência de diferentes textos e garantindo o processamento de uma linguagem unificada.

Os testes de Nanda mostraram excelentes resultados tanto em benchmarks de hindi quanto de inglês, estabelecendo um novo padrão para LLMs em hindi. Em benchmarks específicos do hindi, como MMLU, HellaSwag, ARC-Easy e TruthfulQA, Nanda obteve pontuação de 47,88 em tarefas triviais, superando concorrentes como AryaBhatta-Gemma e Nemotron. O modelo se manteve competitivo no teste de inglês, alcançando pontuação de 59,45, um pouco inferior aos modelos ingleses dedicados, como o Qwen2.5-14B. Esses resultados ressaltam a adaptabilidade de Nanda, mostrando como um modelo centrado no hindi pode funcionar de maneira eficaz em todos os idiomas, sem sacrificar as competências essenciais em hindi.

As principais conclusões do estudo são:

Seleção de dados: Nanda foi pré-treinada em um grande conjunto de dados em hindi de 65 bilhões de tokens, derivados de fontes de alta qualidade, como Wikipedia, artigos de notícias e livros, e 21,5 milhões de tokens em inglês para suporte bilíngue. Essas fontes de dados garantem que o modelo tenha profundidade em hindi e flexibilidade bilíngue.
Arquitetura Funcional: Com 40 blocos transformadores, a arquitetura Nanda é otimizada para processamento da língua Hindi. A extensão de bloco funcional para melhor adaptação ao idioma pode superar os modelos multilíngues para tarefas em hindi.
Desempenho em benchmarks: Nanda pontuou 47,88 em tarefas de hindi de tiro zero e 59,45 em inglês, o que mostra que sua proficiência em hindi não afeta suas habilidades bilíngues.
Ajuste e instruções de segurança: Com um conjunto de dados robusto focado na segurança que inclui 50 mil alertas de ataque, a Nanda está equipada para lidar com conteúdo confidencial em hindi, reduzindo o risco de geração de conteúdo tendencioso ou prejudicial.
Funcionalidade de tokenização: Ao criar um token de escrita Hindi-Inglês equilibrado com uma taxa de juros baixa (1,19 para Hindi), a Nanda obteve processamento eficiente, reduziu custos de tokenização e melhorou a velocidade de resposta em comparação com tokens multilíngues convencionais.

Concluindo, Nanda representa um grande avanço na PNL em hindi, preenchendo lacunas críticas no processamento da linguagem e fornecendo um modelo único que se destaca tanto em tarefas em hindi quanto em inglês. Ao focar em dados centrados em hindi e adotar arquiteturas avançadas, Nanda enfrenta desafios de longa data na PNL em hindi, estabelecendo um novo padrão para aplicações bilíngues. Este modelo fornece aos investigadores, programadores e empresas uma ferramenta poderosa para expandir as capacidades da língua hindi, apoiando a crescente procura de aplicações de IA inclusivas e culturalmente sensíveis.

Confira Modelo de rosto abraçando papel.. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Trending] LLMWare apresenta Model Depot: uma coleção abrangente de modelos de linguagem pequena (SLMs) para PCs Intel

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

OpenAI apresenta recurso de 'resultados previstos': acelerando o GPT-4o em aproximadamente 5x para tarefas como edição de documentos ou refatoração de código

O transformador diferencial: uma arquitetura básica para modelos de linguagem em larga escala que reduz o ruído de atenção e obtém benefícios significativos em eficiência e precisão

Este aprendizado de máquina revela como grandes modelos de linguagem LLM funcionam como cadeias de Markov para desbloquear seu poder oculto

Deixe um comentário Cancelar resposta