Modelos linguísticos de grande escala (LLMs) têm sido a espinha dorsal de muitos sistemas de IA, contribuindo enormemente para o desenvolvimento do processamento de linguagem natural (PNL), da visão computacional e da pesquisa científica. No entanto, esses modelos apresentam seu próprio conjunto de desafios. À medida que cresce a procura por melhores capacidades de IA, também cresce a procura por modelos maiores e mais avançados. O tamanho e os requisitos computacionais dos LLMs tornam o treinamento e a especificação caros, levando os pesquisadores a explorar estruturas mais eficientes. Uma solução que ganhou popularidade é o modelo Mixture of Experts (MoE), que melhora o desempenho ativando seletivamente componentes especializados. Apesar da sua promessa, muito poucos modelos de MoE em grande escala estão abertos ao uso público, limitando a inovação e as aplicações práticas.
A Tencent deu um passo significativo ao lançar o Hunyuan-Large, que é considerado o maior modelo MoE baseado em Transformer atualmente disponível na indústria. Com um total de 389 bilhões de parâmetros, dos quais 52 bilhões estão ativos, o Hunyuan-Large foi projetado para lidar com instâncias muito grandes de tokens de 256 mil. Este modelo inclui uma combinação sem precedentes de técnicas de ponta para lidar com PNL e tarefas gerais de IA, competindo e, em alguns casos, superando outros modelos líderes, como LLama3.1-70B e LLama3.1-405B. A contribuição da Tencent é importante para a comunidade de IA, pois fornece um recurso que combina alto desempenho e escalabilidade, ajudando especialistas e pesquisadores do setor a ampliar os limites das capacidades de IA.
Hunyuan-Large alcança seu desempenho impressionante através de vários avanços tecnológicos. O modelo é pré-treinado em sete bilhões de tokens, incluindo 1,5 trilhão de tokens de dados sintéticos que melhoram o aprendizado em áreas tão diversas como matemática, codificação e multilinguismo. Esses dados extensos e variados permitem que o modelo se adapte de forma eficaz, superando outros modelos de tamanho comparável. O uso de uma estratégia especializada de roteamento híbrido, combinada com inovações como compactação de cache de valor-chave (KV) e uma taxa especial de aprendizagem especializada, distingue Hunyuan-Large em termos de eficiência. A compactação do cache KV reduz a sobrecarga de memória durante a previsão, possibilitando o ajuste fino do modelo e mantendo respostas de alta qualidade. Além disso, a taxa de aprendizagem orientada a especialistas permite que as partes dos diferentes modelos sejam treinadas de forma mais eficiente, equilibrando a carga entre especialistas compartilhados e especializados.
O lançamento do Hunyuan-Large é importante por vários motivos. Não só apresenta a oportunidade de trabalhar com um modelo MoE realmente grande, mas também vem com uma base de código de código aberto e ambientes de teste pré-treinados, tornando-o acessível para futuras pesquisas e desenvolvimento. Os benchmarks mostram que Hunyuan-Large supera os modelos existentes nas principais tarefas da PNL, como resposta a perguntas, raciocínio lógico, codificação e compreensão de leitura. Por exemplo, ele supera o modelo LLama3.1-405B no benchmark MMLU em 88,4 pontos em comparação com 85,2 do LLama. Esta conquista destaca a eficácia do treinamento e da arquitetura Hunyuan-Large, apesar de ter poucos parâmetros eficazes. Ao se destacar em tarefas que exigem a compreensão de conteúdo longo, o Hunyuan-Large também aborda uma lacuna significativa nas habilidades atuais de LLM, tornando-o particularmente útil para aplicações que precisam lidar com sequências estendidas de texto.
O Hunyuan-Large da Tencent é um marco no desenvolvimento de modelos MoE baseados em Transformer. Com 389 bilhões de parâmetros e melhorias técnicas, como compactação de cache KV e taxas de aprendizado específicas para especialistas, ele fornece à comunidade de IA uma ferramenta poderosa para pesquisas e aplicações contínuas. O lançamento deste modelo representa um passo no sentido de tornar a IA em grande escala mais acessível e capaz, impulsionando a inovação numa variedade de campos.
Confira Papel, O códigode novo Modelos. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Sponsorship Opportunity with us] Promova sua pesquisa/produto/webinar para mais de 1 milhão de leitores mensais e mais de 500 mil membros da comunidade
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️