O campo da manufatura planejada tornou-se importante com o crescimento dos LLMs. Esses modelos, capazes de produzir texto semelhante ao humano, agora têm a tarefa de produzir resultados que sigam formatos rígidos, como JSON, SQL e outras linguagens específicas de domínio. Aplicações como geração de código, controle de robôs e investigação estruturada dependem fortemente dessas habilidades. No entanto, garantir que a produção esteja em conformidade com arquiteturas específicas sem comprometer a velocidade ou a eficiência continua a ser um grande desafio. Resultados sistemáticos permitem o processamento contínuo de fluxos, mas a dificuldade de obter esses resultados requer novas soluções.
Apesar dos avanços nos LLMs, a fabricação de produtos estruturados continua a sofrer de ineficiências. Um grande desafio é gerenciar os requisitos do computador para aderir às restrições gramaticais durante a geração de resultados. Os métodos tradicionais, como a interpretação da gramática livre de contexto (CFG), exigem o processamento de cada token possível no vocabulário do modelo, que pode exceder 128.000 tokens. Além disso, manter pilhas para rastrear regras gramaticais pode aumentar os atrasos no tempo de execução. Como resultado, os sistemas existentes muitas vezes apresentam alta latência e maior utilização de recursos, tornando-os inadequados para aplicações em tempo real ou em grande escala.
As atuais ferramentas de fabricação automatizada usam métodos de registro atrasado para garantir que a saída esteja em conformidade com regras predefinidas. Esses métodos filtram tokens inválidos definindo suas probabilidades como zero em cada etapa de codificação. Embora eficiente, a codificação restrita geralmente precisa melhorar sua eficiência devido à verificação de cada token em relação ao estado inteiro da pilha. Além disso, a natureza iterativa dos CFGs também é difícil de processar em tempo de execução. Esses desafios limitaram a escalabilidade e o desempenho dos sistemas existentes, especialmente ao lidar com estruturas complexas ou grandes nomes.
Pesquisadores da Carnegie Mellon University, NVIDIA, Shanghai Jiao Tong University e University of California Berkeley o desenvolveram. XGramáticamecanismo de produção sistemático para lidar com essas limitações. XGrammar introduz uma nova abordagem dividindo os tokens em duas categorias: tokens independentes de contexto que não podem ser validados e tokens dependentes de contexto que requerem validação em tempo de execução. Essa separação reduz bastante a carga computacional durante a geração de resultados. Além disso, o sistema inclui um mecanismo de gramática e indexação co-projetado, permitindo sobrepor a computação gramatical com operações LLM baseadas em GPU, reduzindo assim a sobrecarga.
A implementação técnica do XGrammar inclui inovações importantes. Ele usa um autômato pushdown em nível de byte para processar CFGs de forma eficiente, permitindo lidar com limites de token irregulares e estruturas aninhadas. Um cache de máscara de token dinâmico pré-calcula e mantém a validação de token independente, cobrindo mais de 99% dos tokens na maioria dos casos. Os tokens dependentes de conteúdo, que representam menos de 1% do valor total, são processados usando uma pilha de eliminação contínua que permite operações rápidas de ramificação e desfazer. A fase de pré-processamento do XGrammar se sobrepõe ao processamento rápido do LLM, garantindo latência quase zero para produção programada.
Os testes de desempenho revelam os principais benefícios do XGrammar. Com operações de gramática JSON, o sistema atinge um tempo de geração de máscara inferior a 40 microssegundos, proporcionando uma aceleração de 100x em comparação aos métodos convencionais. Combinado com o modelo Llama 3.1, o XGrammar permite uma melhoria de 80x na geração de saída estruturada de ponta a ponta na GPU NVIDIA H100. Além disso, as técnicas de otimização de memória reduzem os requisitos de armazenamento para apenas 0,2% do tamanho original, de 160 MB para 0,46 MB. Esses resultados demonstram a capacidade do XGrammar de lidar com tarefas grandes com eficiência sem precedentes.
Os esforços dos pesquisadores envolvem vários passos importantes a serem dados:
- Classificação de token: Ao pré-computar tokens independentes de contexto e reduzir a avaliação em tempo de execução de tokens dependentes de contexto, o XGrammar reduz significativamente a sobrecarga computacional.
- Desempenho de memória: Um cache de máscara de token dinâmico reduz o uso de memória para apenas 0,2% dos requisitos reais, tornando-o muito escalonável.
- Desempenho aprimorado: Com uma aceleração de 100x no processamento CFG e uma melhoria de 80x na geração de resultados estruturados, a XGrammar estabelece um novo padrão de eficiência.
- Implantação entre plataformas: XGrammar suporta diversas plataformas, incluindo navegadores do lado do cliente, permitindo seu uso em dispositivos portáteis como smartphones.
- Integração com estruturas LLM: O sistema integra-se facilmente com modelos LLM populares, como o Llama 3.1, garantindo compatibilidade e fácil adoção.
Concluindo, o XGrammar representa um passo revolucionário na criação sistemática de grandes modelos linguísticos. A resolução de ineficiências no processamento tradicional de CFG e na decodificação limitada fornece uma solução confiável e de alto desempenho para a produção de resultados estruturados. Suas técnicas inovadoras, como tokenização, otimização de memória e compatibilidade entre plataformas, tornam-no uma ferramenta essencial para o desenvolvimento de aplicações de IA. Com resultados de até 100x de aceleração e latência reduzida, o XGrammar estabelece um novo padrão para produtividade estruturada, permitindo que os LLMs atendam com eficácia às demandas dos sistemas modernos de IA.
Confira Papel de novo Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferência Virtual GenAI gratuita com. Meta, Mistral, Salesforce, Harvey AI e mais. Junte-se a nós em 11 de dezembro para este evento de visualização gratuito para aprender o que é necessário para construir grande com pequenos modelos de pioneiros em IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face e muito mais.
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'