Modelos linguísticos em larga escala (LLMs) construídos usando arquiteturas de transformadores dependem fortemente de pré-treinamento com dados em grande escala para prever tokens de sequência. Este processo complexo e que exige muitos recursos requer uma grande infraestrutura computacional e pipelines de dados bem desenvolvidos. A crescente demanda por LLMs eficientes e acessíveis levou os pesquisadores a explorar estratégias que equilibrem o uso de recursos e o desempenho, enfatizando a obtenção de resultados competitivos sem depender de recursos em escala industrial.
O desenvolvimento de LLMs está repleto de desafios, especialmente em termos de eficiência computacional e de dados. Modelos de pré-treinamento com bilhões de parâmetros requerem técnicas avançadas e infraestrutura concreta. Dados de alta qualidade e métodos de treinamento robustos são essenciais, pois os modelos sofrem instabilidades de gradiente e degradação de desempenho durante o treinamento. Os LLMs de código aberto muitas vezes lutam para se igualar aos seus equivalentes proprietários devido ao acesso limitado ao poder de computação e aos conjuntos de dados de alta qualidade. Portanto, o desafio reside na criação de modelos eficientes e altamente eficazes, permitindo que pequenos grupos de investigação participem ativamente no desenvolvimento da tecnologia de IA. A resolução deste problema requer inovação na gestão de dados, reforço da formação e desenho arquitetónico.
A pesquisa existente em treinamento LLM enfatiza pipelines de dados estruturados, usando técnicas como limpeza de dados, programação adaptativa e aprendizagem curricular para melhorar os resultados da aprendizagem. No entanto, a estabilidade ainda é um problema constante. O treinamento em larga escala é vulnerável a explosões de gradientes, picos de perdas e outras dificuldades técnicas, que precisam ser cuidadosamente preparadas. O treinamento de modelos de contexto longo introduz complexidade adicional, pois as demandas computacionais dos mecanismos de atenção quadruplicam com o comprimento da sequência. Os métodos existentes, como otimizações avançadas, técnicas de inicialização e geração de dados sintéticos, ajudam a aliviar esses problemas, mas muitas vezes ficam aquém quando escalados para modelos em tamanho real. A necessidade de abordagens escaláveis, sustentáveis e eficazes para a formação LLM é mais urgente do que nunca.
Pesquisadores da Escola de Inteligência Artificial Gaoling, Universidade Renmin da China, desenvolveram YuLan-Mini. Com 2,42 bilhões de parâmetros, este modelo de linguagem melhora a eficiência computacional e os métodos de economia de dados. Ao usar dados disponíveis publicamente e focar em estratégias de treinamento baseadas em dados, YuLan-Mini atinge um desempenho impressionante comparável aos principais modelos da indústria.
YuLan-MiniA arquitetura inclui muitos recursos novos para melhorar a eficiência do treinamento. Seu design de transformador somente decodificador usa ligação incorporada para reduzir o tamanho dos parâmetros e melhorar a estabilidade do treinamento. O modelo usa Rotary Positional Embedding (ROPE) para lidar com instâncias longas de maneira eficaz, estendendo seu comprimento de contexto para 28.672 tokens, uma melhoria em relação aos modelos convencionais. Outros recursos importantes incluem funções de ativação SwiGLU para melhor representação de dados e uma estratégia de clustering cuidadosamente projetada que estabiliza o treinamento enquanto aumenta a eficiência do aprendizado. Os dados sintéticos foram importantes, incluindo 1,08 trilhão de tokens de dados de treinamento encontrados em páginas da web abertas, trechos de código e conjuntos de dados estatísticos. Esses recursos são fortalecedores YuLan-Mini proporcionando desempenho robusto com um orçamento de computação limitado.
YuLan-MiniDesempenho de 64,00 no HumanEval no cenário de tiro zero, 37,80 no MATH-500 na configuração de quatro tiros e 49,10 no MMLU nas cinco tarefas. Estes resultados sublinham a sua vantagem competitiva, uma vez que o desempenho do modelo é comparado com o dos seus homólogos de serviços públicos de maior dimensão. Nova extensão de comprimento de contexto para tokens de 28K é permitida YuLan-Mini para se destacar em situações de texto longo, mantendo alta precisão em tarefas de texto curto. Esta dupla capacidade o diferencia de muitos modelos existentes, que muitas vezes sacrificam um pelo outro.
As principais conclusões do estudo incluem:
- Usando um pipeline de dados cuidadosamente projetado, YuLan-Mini reduz a dependência de grandes conjuntos de dados, garantindo ao mesmo tempo uma aprendizagem de alta qualidade.
- Técnicas como otimização sistemática e mitigação de problemas comuns, como perdas crescentes e gradientes de ruptura.
- Estender o comprimento do contexto para 28.672 tokens melhora o desempenho do modelo em tarefas complexas de texto longo.
- Apesar de seus requisitos computacionais mínimos, YuLan-Mini alcança resultados comparáveis aos de modelos maiores, demonstrando a eficiência do seu design.
- A integração de dados sintéticos melhora os resultados do treinamento e reduz a necessidade de conjuntos de dados proprietários.
Para concluir, YuLan-Mini é uma excelente adição ao desenvolvimento de LLMs ativos. A sua capacidade de oferecer alto desempenho com recursos limitados elimina barreiras significativas ao acesso à IA. O foco da equipe de pesquisa em novas técnicas, desde a eficiência dos dados até a sustentabilidade do treinamento, destaca o potencial da pesquisa em pequena escala para contribuir para o campo. Com apenas tokens 1.08T, YuLan-Mini ele estabelece a referência para LLMs eficazes.
Confira eu Papel de novo Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)