Este artigo sobre IA propõe TALE: uma estrutura de IA que reduz a redundância de tokens em consultas de cadeia de pensamento (CoT), incorporando conscientização sobre orçamento de tokens

Modelos de Linguagem em Grande Escala (LLMs) têm mostrado grande potencial em tarefas de raciocínio, usando métodos como Cadeia de Pensamento (CoT) para dividir problemas complexos em etapas gerenciáveis. No entanto, essa habilidade traz desafios. As informações CoT tendem a aumentar o consumo de tokens, levando a maiores custos computacionais e consumo de energia. Essa ineficiência é uma preocupação para aplicações que exigem precisão e eficiência de recursos. Os LLMs atuais produzem frequentemente resultados desnecessariamente longos, que nem sempre se traduzem numa melhor precisão, mas incorrem em custos adicionais. O principal desafio é encontrar um equilíbrio entre desempenho conceitual e eficiência de recursos.

Pesquisadores da Universidade de Nanjing, da Universidade Rutgers e da UMass Amherst apresentaram a estrutura de raciocínio LLM Token-Budget-Aware. Esta estrutura estima dinamicamente os orçamentos simbólicos com base na complexidade da tarefa de raciocínio e utiliza essas estimativas para orientar o processo. Conhecida como TALE (raciocínio Token-Budget-Aware LLM), essa abordagem busca minimizar o uso de tokens sem comprometer a precisão das respostas. Ao integrar o orçamento de tokens nas notificações CoT, a TALE fornece uma solução eficiente para melhorar a economia de custos para LLMs, mantendo seu desempenho.

Detalhes técnicos e benefícios

A TALE opera em duas fases principais: estimativa do orçamento e reflexão do orçamento simbólico. Inicialmente, ele estima o orçamento de tokens apropriado para o problema usando métodos como previsão zero-shot ou estimativas baseadas em regressão. Este orçamento é então incorporado na notificação para incentivar o LLM a produzir respostas curtas mas precisas.

Uma inovação importante no TALE é o conceito de “Elasticidade de Token”, que identifica uma gama ideal de orçamentos de tokens que minimiza o consumo de tokens enquanto preserva a precisão. Usando métodos de pesquisa iterativos, como pesquisa binária, o TALE determina o orçamento ideal para várias funções e estruturas LLM. Em média, a estrutura atinge uma redução de 68,64% no uso de tokens com uma redução de menos de 5% na precisão, tornando-a uma forma útil e flexível de otimizar a tokenização.

Resultados e detalhes

Os testes mostram o desempenho da TALE em benchmarks como GSM8K e MathBench. Por exemplo, no conjunto de dados GSM8K, a TALE alcançou uma precisão de 84,46%, superando o método Vanilla CoT e reduzindo o custo do token de 318,10 para 77,26 em média. Para GSM8K-Zero, reduziu o custo do token em 91%, mantendo uma precisão de 98,72%.

TALE também se integra bem com todos os diferentes LLMs, como GPT-4o-mini e Yi-lightning. Quando aplicado ao conjunto de dados MathBench-College, o TALE reduziu os custos de tokens em até 70%, mantendo a precisão competitiva. Além disso, esta estrutura reduz significativamente os custos operacionais, reduzindo os custos em média 59% em comparação com o Vanilla CoT. Esses resultados destacam a capacidade da TALE de melhorar a eficiência sem sacrificar o desempenho, tornando-a adequada para uma variedade de aplicações.

A conclusão

O Token-Budget-Aware LLM Framework for Consulting aborda as ineficiências do uso de tokens em tarefas de raciocínio. Ao medir e usar dinamicamente orçamentos de tokens, a TALE atinge um equilíbrio entre precisão e eficiência de custos. Esta abordagem reduz custos computacionais e aumenta a acessibilidade de habilidades avançadas de LLM. À medida que a IA continua a evoluir, estruturas como o TALE fornecem um caminho para a utilização eficaz e sustentável de LLMs tanto em ambientes académicos como industriais.

Confira eu Papel de novo Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)

Source link

Detalhes técnicos e benefícios

Resultados e detalhes

A conclusão

Você também pode gostar...

FusionANNS: uma solução ANNS de última geração que combina processamento cooperativo de CPU/GPU para melhor desempenho, resiliência e economia

Este artigo sobre IA explora como os sistemas sistemáticos podem transformar a matemática LLM

CodeMaker AI Avanço no Desenvolvimento de Software: Alcança 91% de Precisão na Recriação de 90.000 Linhas de Código, Estabelece Nova Referência para Geração de Código Orientada por IA e Modelagem Afinada

Deixe um comentário Cancelar resposta