O processamento de linguagem natural (PNL) tem visto um crescimento contínuo com o surgimento de modelos linguísticos de grande escala (LLMs), que são usados em diversas aplicações, como geração de texto, tradução e agentes de conversação. Esses modelos podem processar e compreender linguagens humanas em um nível sem precedentes, permitindo uma comunicação perfeita entre máquinas e usuários. Porém, apesar do sucesso, o uso desses modelos em muitas linguagens apresenta desafios significativos devido aos recursos computacionais necessários. A complexidade dos ambientes multilingues, que envolvem diferentes estruturas linguísticas e diferenças lexicais, dificulta a implementação de LLMs de uma forma eficaz e no mundo real.
O alto tempo de processamento é um grande problema ao implantar LLMs em contextos multilíngues. O tempo de geração refere-se ao tempo que um modelo precisa para gerar respostas com base em uma determinada entrada, e isso aumenta significativamente em ambientes multilíngues. Um fator que contribui para esse problema é a diferença no tamanho dos tokens e do vocabulário entre os idiomas, o que leva a diferenças no comprimento da codificação. Por exemplo, idiomas com estruturas linguísticas complexas ou grandes conjuntos de caracteres, como o japonês ou o russo, exigem mais tokens para cobrir a mesma quantidade de informações que o inglês. Como resultado, os LLMs tendem a apresentar tempos de resposta lentos e altos custos computacionais ao processar tais idiomas, dificultando a manutenção de um desempenho consistente entre bilíngues.
Os pesquisadores exploraram várias maneiras de melhorar a eficácia do LLM para superar esses desafios. Técnicas como filtragem de informações e compactação de modelos reduzem o tamanho de modelos grandes, treinando modelos menores para replicar seus resultados. Uma abordagem promissora é o registro conceitual, que utiliza um modelo assistente – o “editor” – para produzir um primeiro rascunho dos resultados pretendidos do LLM. Este modelo preliminar pode ser muito menor que o LLM principal, reduzindo o custo computacional. No entanto, os métodos de gravação propostos são geralmente concebidos com foco num único idioma e não cobrem eficazmente situações multilingues, resultando num desempenho muito limitado quando utilizados em idiomas diferentes.
Pesquisadores da KAIST AI e da KT Corporation introduziram um novo método para gravação preditiva multilíngue, usando uma técnica de pré-treinamento e ajuste fino. A metodologia começa com o pré-treinamento de modelos classificadores usando conjuntos de dados multilíngues em uma tarefa de modelagem de linguagem padrão. Posteriormente, os modelos foram ajustados para cada idioma para melhor alinhamento com as previsões alvo do LLM. Este processo de duas etapas permite que os desenhistas se especializem no tratamento das características únicas de cada idioma, resultando em rascunhos mais precisos. Os pesquisadores validaram o método testando vários idiomas e avaliando o desempenho dos editores em tarefas de tradução, incluindo alemão, francês, japonês, chinês e russo.
A metodologia apresentada pela equipe de pesquisa envolve um processo de três etapas conhecido como paradigma rascunho-confirmação-aceitação. Durante a primeira fase de “rascunho”, o modelo de rascunho gera possíveis tokens futuros com base na sequência de entrada. A fase de “validação” compara esses tokens escritos com as previsões feitas pelo LLM principal para garantir consistência. Se a produção do artista corresponder às previsões do LLM, os tokens serão aceitos; caso contrário, são descartados ou reparados e o ciclo se repete. Esse processo reduz efetivamente a carga computacional principal do LLM, filtrando antecipadamente os tokens ruins, permitindo que ele se concentre apenas na validação e no refinamento do rascunho fornecido pelo modelo assistente.
A eficácia deste método foi exaustivamente testada e resultados surpreendentes foram produzidos. A equipe de pesquisa observou uma redução significativa no tempo de inferência, alcançando uma aceleração média de 1,89 vezes em comparação com métodos de gravação automatizados padrão. Para algumas tarefas de tradução multilíngue, o método proposto registrou uma taxa de aceleração de até 2,42 vezes quando aplicado a pares de idiomas como alemão-inglês e francês-inglês. Esses resultados foram obtidos utilizando o modelo Vicuna 7B como principal LLM, sendo os modelos do editor os menores. Por exemplo, o modelo do editor alemão contém apenas 68 milhões de parâmetros, mas acelerou com sucesso o processo de tradução sem comprometer a precisão. Em relação aos resultados do julgamento do GPT-4o, os pesquisadores relataram que os modelos de editores especiais superaram consistentemente as técnicas de previsão existentes em vários conjuntos de dados de tradução.
Outra análise do desempenho de aceleração revelou que os modelos especiais preliminares obtiveram uma razão de aceleração de 1,19 na configuração determinística (T=0) e uma razão de 1,71 na configuração de amostragem diferencial (T=1), indicando sua robustez a diferentes condições. Além disso, os resultados mostraram que a estratégia proposta de pré-treinamento e ajuste fino melhora muito a capacidade do compilador de prever tokens futuros com precisão, especialmente em situações multilíngues. Essas descobertas são importantes para sistemas que priorizam a manutenção da consistência funcional entre idiomas, como plataformas globais de suporte ao cliente e sistemas de IA de chat multilíngue.
O estudo apresenta uma nova estratégia para melhorar a eficiência do LLM em aplicações multilíngues com modelos de framework especiais. Os pesquisadores melhoraram com sucesso o entendimento entre o coordenador e o diretor do LLM usando um processo de treinamento em duas etapas, conseguindo uma redução significativa no tempo de decisão. Estes resultados sugerem que a pré-formação direcionada e o aperfeiçoamento dos programadores podem ser mais eficazes do que simplesmente aumentar o tamanho dos modelos, estabelecendo assim uma nova referência para a implantação prática de LLMs em vários contextos linguísticos.
Confira Papel de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..
Não se esqueça de participar do nosso SubReddit de 52k + ML.
Convidamos startups, empresas e institutos de pesquisa que trabalham em modelos de microlinguagem para participar deste próximo projeto Revista/Relatório 'Modelos de Linguagem Pequena' Marketchpost.com. Esta revista/relatório será lançada no final de outubro/início de novembro de 2024. Clique aqui para agendar uma chamada!
Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.