Modelos de linguagem em larga escala (LLMs) e modelos de linguagem visual (VLMs) transformam a compreensão da linguagem natural, a integração multimodal e tarefas complexas de raciocínio. Contudo, permanece uma limitação importante: os modelos actuais não conseguem lidar bem com casos muito grandes. Este desafio motivou os investigadores a explorar novos métodos e estruturas para melhorar a medição, eficiência e eficácia destes modelos.
Os modelos existentes normalmente suportam comprimentos de contexto de token entre 32.000 e 256.000, o que limita sua capacidade de lidar com situações que exigem janelas de contexto maiores, como instruções de programa estendidas ou tarefas lógicas de várias etapas. Aumentar o tamanho do contexto é computacionalmente caro devido à complexidade quadrática dos processos convencionais de atenção softmax. Os investigadores exploraram outras abordagens à atenção, tais como a atenção passiva, a atenção direta e os modelos espaciais, para enfrentar estes desafios, mas a implementação em larga escala permanece limitada.
A atenção mínima concentra-se em entradas paralelas para reduzir a sobrecarga de computação, enquanto a atenção nas linhas simplifica a atenção da matriz pela simplicidade. No entanto, a adoção tem sido lenta devido a problemas de compatibilidade com as arquiteturas existentes e ao fraco desempenho no mundo real. Por exemplo, os modelos de espaço de estados processam efetivamente sequências longas, mas muitas vezes carecem da robustez e precisão dos sistemas baseados em transformadores para tarefas complexas.
Pesquisadores da MiniMax introduziram a série MiniMax-01, incluindo duas variações para resolver essas limitações:
- MiniMax-Texto-01: MiniMax-Text-01 contém 456 bilhões de parâmetros, com 45,9 bilhões ativados por token. Ele usa uma abordagem de atenção mista para processamento ativo de conteúdo de longo alcance. Sua janela de conteúdo é de até 1 milhão de tokens durante o treinamento e 4 milhões de tokens durante a previsão.
- MiniMax-VL-01: O MiniMax-VL-01 incorpora um módulo leve Vision Transformer (ViT) e processa 512 bilhões de tokens de linguagem de visão por meio de um pipeline de treinamento de quatro estágios.
Os modelos usam um novo método de atenção relâmpago, que reduz a complexidade computacional do processamento de sequências longas. Além disso, a integração da estrutura da Mistura de Peritos (MoE) melhora a eficiência e a eficácia. Os modelos MiniMax incluem 456 bilhões de parâmetros, dos quais 45,9 bilhões são ativados por token. Essa combinação permite que os modelos processem janelas de contexto de até 1 milhão de tokens durante o treinamento e produzam 4 milhões de tokens durante a previsão. Usando técnicas de computação avançadas, a série MiniMax-01 oferece potência sem precedentes no processamento de conteúdo de longo alcance, mantendo o desempenho alinhado com modelos de última geração, como GPT-4 e Claude-3.5.
O método de atenção relâmpago atinge complexidade computacional linear, permitindo que o modelo seja dimensionado de forma eficaz. Uma mistura de estruturas de atenção alterna entre as camadas de atenção relâmpago e softmax, garantindo um equilíbrio entre eficiência computacional e poder de recuperação. Os modelos também incluem um algoritmo aprimorado de Paralelismo de Sequência de Atenção Linear (LASP+), que lida bem com sequências amplas. Além disso, o modelo de linguagem de visão MiniMax-VL-01 inclui um módulo transformador de visão leve, permitindo processar 512 bilhões de tokens de linguagem de visão por meio de um processo de treinamento em quatro estágios. Essas inovações são acompanhadas por kernels CUDA aprimorados e técnicas de paralelização, que alcançam mais de 75% de utilização de Model Flops em GPUs Nvidia H20.
Os testes de desempenho revelam que os modelos MiniMax alcançam os melhores resultados em todos os diversos benchmarks:
- Por exemplo, MiniMax-Text-01 tem 88,5% de precisão em MMLU e tem desempenho competitivo em relação a modelos como GPT-4.
- O modelo de linguagem de visão MiniMax-VL-01 supera a maioria dos concorrentes, com uma taxa de precisão de 96,4% em DocVQA e 91,7% em benchmarks AI2D.
Esses modelos também oferecem uma janela de contexto 20 a 32 vezes maior do que seus equivalentes tradicionais, o que melhora muito seu uso em aplicações de contexto longo.
Concluindo, a série MiniMax-01, que inclui o MiniMax-Text-01 e o MiniMax-VL-01, representa sucesso no enfrentamento dos desafios de durabilidade e condições de longo prazo. Combina tecnologias inovadoras, como atenção relâmpago e arquitetura híbrida. Usando estruturas de computação avançadas e técnicas de otimização, os pesquisadores introduziram uma solução que amplia a capacidade do contexto para 4 milhões de tokens sem precedentes e iguala ou supera o desempenho de modelos avançados como o GPT-4.
Confira Papel e modelos na mesma face. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.
🚨 Recomendar plataforma de código aberto: Parlant é uma estrutura que está mudando a forma como os agentes de IA tomam decisões em situações voltadas para o cliente. (Promovido)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
📄 Conheça 'Height': ferramenta independente de gerenciamento de projetos (patrocinado)