Os Modelos de Linguagem de Grande Escala (LLMs) possuem processamento de linguagem natural muito avançado, mas as arquiteturas baseadas em tokens apresentam limitações significativas. Esses modelos contam com tokens de vocabulário fixo, como Byte Pair Encoding (BPE), para classificar o texto em tokens predefinidos antes do treinamento. Embora eficaz, a tokenização pode introduzir ineficiências e preconceitos, especialmente quando se trata de dados multilíngues, entradas ruidosas ou distribuições de cauda longa. Além disso, a tokenização impõe a mesma alocação computacional para todos os tokens, independentemente da complexidade, limitando a escalabilidade e a generalização de vários tipos de dados.
O treinamento de sequência em nível de byte era computacionalmente caro devido ao longo comprimento de sequência necessário. Mesmo com o desenvolvimento de métodos de atenção, a tokenização continua a ser um gargalo, reduzindo a robustez e a flexibilidade em operações de alta entropia. Estes desafios realçam a necessidade de uma abordagem flexível e eficaz.
Meta AI apresenta transformador latente de byte (BLT)
O Byte Latent Transformer (BLT) da Meta AI busca resolver esses problemas eliminando completamente a tokenização. BLT é uma arquitetura sem tokenizer que processa sequências de bytes brutos e as divide dinamicamente em patches com base na complexidade dos dados. Essa abordagem permite dimensionar, combinar ou exceder com eficiência o desempenho de LLMs baseados em tokens, ao mesmo tempo que melhora a robustez e a eficiência computacional.
O núcleo da metodologia do BLT é a sua abordagem flexível. Em vez de depender de tokens estáticos, o BLT codifica bytes em patches de tamanho variável usando particionamento baseado em entropia. Esta abordagem aloca recursos computacionais de forma eficiente, concentrando-se em regiões de dados complexas. Ao contrário de um token de vocabulário fixo, o método de codificação flexível do BLT permite lidar com uma variedade de entradas com alta eficiência.
O BLT demonstra escalonamento com modelos contendo até 8 bilhões de parâmetros e conjuntos de dados abrangendo 4 bilhões de bytes. Este design sem token prova que o treinamento em bytes brutos é viável e benéfico, proporcionando melhorias significativas na eficiência e robustez teórica.
Detalhes técnicos e benefícios
A estrutura BLT consiste em três partes principais:
- Codificador de localização: este módulo leve combina sequências de bytes em representações de blocos, usando atenção inversa e incorporação de hash de n-gramas. O clustering de bytes baseado em entropia garante a alocação eficiente de recursos de computação.
- Transformador Latente: Este modelo global processa patches usando atenção causal de bloco, concentrando recursos computacionais em regiões de alta entropia para eficiência.
- Decodificador local: Este módulo reconstrói a sequência de bytes a partir das representações ocultas do patch, permitindo o treinamento ponta a ponta sem a necessidade de tokens.
A otimização dinâmica do tamanho do patch reduz a sobrecarga computacional associada aos tokens nativos. Tamanhos maiores de patches economizam recursos computacionais durante o processo de determinação, permitindo que mais parâmetros sejam alocados para a variável latente. Esse design melhora o dimensionamento e a capacidade do modelo de lidar com distribuições de cauda longa e entradas ruidosas.
Detalhes de desempenho
O BLT apresenta desempenho superior em comparação aos modelos tradicionais baseados em BPE em todas as diversas medições. Um estudo de benchmark controlado por flop destaca que o BLT alcança resultados comparáveis ou melhores do que o LLaMA 3, o principal modelo baseado em token, enquanto usa até 50% menos flops especulativos. Essa eficiência permite que o BLT meça com eficácia sem comprometer a precisão.
Em benchmarks como MMLU, HumanEval e PIQA, o BLT apresenta forte desempenho, especialmente em tarefas cognitivas e de nível de caráter. Para tarefas que exigem sensibilidade a informações ortográficas ou dados ruidosos, o BLT supera os modelos baseados em tokens. Sua capacidade de ajustar dinamicamente os tamanhos dos patches também permite o processamento eficiente de dados estruturados e repetitivos, como código.
A robustez do modelo se estende a tarefas de alta variância e linguagens de poucos recursos. A representação em nível de byte do BLT fornece uma compreensão muito refinada dos dados, tornando-o eficiente em contextos multilíngues. Suas vantagens de eficiência também levam a uma computação mais rápida e a custos computacionais reduzidos, tornando-o uma escolha viável para aplicações em larga escala.
A conclusão
O Byte Latent Transformer da Meta AI representa um avanço conceitual na arquitetura LLM, demonstrando que os modelos sem token podem competir e superar as arquiteturas baseadas em token. Ao codificar bytes em patches, o BLT aborda as limitações dos tokens estáticos, proporcionando maior eficiência, robustez e durabilidade. Sua capacidade de escalar até milhões de parâmetros e bilhões de bytes de treinamento sublinha sua capacidade de transformar a linguagem.
À medida que cresce a procura por sistemas de IA flexíveis e eficientes, as inovações da BLT fornecem uma estrutura atraente para o futuro do processamento de linguagem natural. Ao ultrapassar as barreiras da tokenização, a Meta AI introduziu um modelo funcional e escalonável que estabelece um novo padrão na arquitetura em nível de byte.
Confira eu Papel de novo Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que são tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)