Este artigo sobre IA do Tencent AI Lab e da Shanghai Jiao Tong University testa superestimação em modelos de computação inteligente semelhantes a o1

Modelos linguísticos de grande escala (LLMs) tornaram-se ferramentas importantes para lidar com tarefas complexas de raciocínio e resolução de problemas. Entre eles, modelos como o1, inspirados na arquitetura O1 da OpenAI, demonstraram uma capacidade única de simular o pensamento humano, passo a passo. No entanto, uma ineficiência significativa nestes modelos é o “pensamento excessivo”. Isso se refere à tendência de usar recursos computacionais desnecessários em pequenos problemas ou de repetir o pensamento desnecessariamente. Por exemplo, ao resolver uma questão aritmética simples como “2 + 3”, modelos como o1 podem gerar um raciocínio mais detalhado, usando muito mais tokens do que os LLMs tradicionais. Esta ineficiência aumenta o custo computacional e limita a sua aplicabilidade a sistemas com recursos limitados.

Um novo artigo de pesquisa de IA do Tencent AI Lab e da Shanghai Jiao Tong University explora a questão do pensamento excessivo com modelos semelhantes a o1 e se concentra no desenvolvimento de recursos de computação para tempos de teste. O estudo fornece uma análise detalhada do ato de superestimar, mostrando que a superestimação muitas vezes agrega pouco valor à precisão dos resultados. Através de testes de conjuntos de dados como GSM8K, MATH500 e AIME, os investigadores destacaram que estes modelos muitas vezes geram soluções redundantes para problemas específicos. Para resolver isso, eles introduziram duas métricas – eficiência de resultados e eficiência de processos – para avaliar a utilização de recursos. Estas métricas proporcionam uma visão equilibrada, avaliando tanto a correcção das respostas como a consistência das medidas centrais de raciocínio.

Detalhes técnicos e benefícios

Para lidar com a superestimação, os pesquisadores propuseram um método de treinamento que integra métricas de desempenho diretamente no processo de treinamento do modelo. Esta abordagem reduz o pensamento redundante, enfatizando respostas precoces e precisas, preservando ao mesmo tempo o poder expressivo. Técnicas como First-Correct Solutions (FCS) e FCS+Reflection estão no centro deste método, facilitando os cálculos sem sacrificar a precisão. Por exemplo, a aplicação dessas técnicas ao modelo QwQ-32B-Preview reduziu o uso de tokens em 48,6% no conjunto de dados MATH500. Além da economia computacional, esses métodos melhoram a interpretação da lógica e permitem aplicações em situações onde os recursos computacionais são limitados.

Resultados e detalhes

Os resultados enfatizam a eficácia destas estratégias orientadas para a eficiência. Para o conjunto de dados MATH500, os métodos aprimorados reduziram significativamente o consumo de tokens, ao mesmo tempo que mantiveram ou melhoraram a precisão de operações simples. Por exemplo, a eficiência dos resultados aumentou de 52,3% para 75,8% com a técnica FCS+Reflection. Além disso, foi observada maior eficiência do processo, com menor redundância nas etapas de imagem. Para conjuntos de dados mais desafiadores, como GPQA e AIME, os modelos aprimorados mantêm um desempenho robusto com requisitos computacionais reduzidos. Essas descobertas sugerem que estratégias de treinamento direcionadas podem resolver disfunções e, ao mesmo tempo, preservar as habilidades do modelo em uma série de tarefas.

A conclusão

Esta pesquisa do Tencent AI Lab e da Shanghai Jiao Tong University destaca o desafio de pensar demais em modelos como o1 e apresenta soluções eficazes para usar recursos de forma eficiente. Ao propor novas métricas e métodos de treinamento, os pesquisadores mostram como equilibrar as demandas computacionais e o desempenho dos modelos. Esta informação é importante para melhorar a escalabilidade e a usabilidade dos modelos de pensamento avançado. À medida que os sistemas de IA continuam a evoluir, garantir a utilização eficiente dos recursos informáticos continuará a ser um foco fundamental, permitindo uma maior acessibilidade e uma utilização sustentável desta tecnologia.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)

Source link

Detalhes técnicos e benefícios

Resultados e detalhes

A conclusão

Você também pode gostar...

Conheça SynPO: um paradigma de autootimização usando dados de preferência artificial para alinhar modelos

LLM-CI: uma nova estrutura de aprendizado de máquina para avaliar princípios de privacidade codificados em LLMs

Podcastfy AI: um pacote Python de código aberto que transforma conteúdo da Web, PDFs e texto em conversas de áudio interativas e multilíngues usando GenAI

Deixe um comentário Cancelar resposta