ToolHop: um novo conjunto de dados projetado para avaliar LLMs em cenários de uso de ferramentas multi-hop
Inteligência artificial

ToolHop: um novo conjunto de dados projetado para avaliar LLMs em cenários de uso de ferramentas multi-hop


As consultas multi-hop sempre dificultaram os agentes LLM com suas soluções, exigindo várias etapas de raciocínio e informações de diferentes fontes. Eles são importantes para analisar a compreensão, o raciocínio e a capacidade do modelo de chamar uma função. Neste momento em que novos modelos grandes florescem todos os dias com reivindicações de capacidades incomparáveis, as ferramentas multi-hop realmente os testam, fornecendo uma questão complexa, um modelo que precisa ser decomposto em partes atômicas e resolvido iterativamente, chamando e usando as ferramentas apropriadas. . Além disso, a avaliação de ferramentas multi-hop emergiu como importante para o desenvolvimento de modelos de inteligência geral.

Os trabalhos existentes neste domínio não fornecem um método de avaliação fiável. Os métodos propostos até agora baseiam-se em métodos de construção de dados orientados por ferramentas, onde as consultas são modeladas por um conjunto específico de ferramentas. Essa deficiência aponta para uma lacuna na verificação das dependências de outras ferramentas agrupadas e no teste da lógica multi-hop. Além disso, a falta de respostas confirmatórias introduz vieses no modelo e erros de análise. Este artigo discute pesquisas recentes que apresentam um método confiável para avaliar as capacidades multi-hop de um modelo de linguagem grande.

Pesquisadores da Universidade Fudan e da ByteDance apresentaram o ToolHop, um conjunto de dados projetado expressamente para testes de ferramentas multi-hop com 995 consultas de usuários rigorosamente projetadas e 3.912 ferramentas relacionadas. Toolhop afirma resolver todos os problemas mencionados acima usando questionamentos cruzados, ferramentas utilizáveis ​​localmente, dependências lógicas, feedback detalhado e respostas verificáveis. Os autores propõem uma nova arquitetura de dados orientada a consultas que pode estender uma única consulta multi-hop em um caso de teste completo para usar uma ferramenta multi-hop.

O novo sistema proposto inclui três fases principais: desenvolvimento de ferramentas, refinamento da documentação e geração de código.

Criando uma ferramenta: O primeiro conjunto de documentos de ferramentas é criado de acordo com a consulta fornecida pelo usuário multi-hop. O documento foi projetado para mantê-lo interdependente e conveniente, dividindo as questões em partes atômicas e tratando-as individualmente. Desta forma, o documento capta a essência da questão e a própria estrutura para gerar questões semelhantes, garantindo flexibilidade e consistência.

Desenvolvimento de Documentos: O documento da ferramenta modificada é completamente filtrado para suportar o teste de modelos para cenários complexos de vários saltos. Aqui, novos recursos, como filtragem de resultados e formatos personalizados, são introduzidos para ampliar a funcionalidade e, ao mesmo tempo, manter a originalidade. Da mesma forma, o número de parâmetros está aumentando e seus tipos estão bem desenvolvidos.

Geração de código: Nesta fase, as funções executáveis ​​no ambiente são executadas pela ferramenta modificada. Com essas operações, as ferramentas são usadas externamente, permitindo uma interação contínua entre o modelo e as ferramentas.

A equipe de pesquisa aplicou este método a questões retiradas do conjunto de dados MoreHopQA. Além disso, para validar a avaliação com o ToolHop, foi realizada uma rigorosa análise pentadimensional. O ToolHop foi então testado em quatorze LLMs de cinco famílias, incluindo modelos de código aberto e não fechado. O método de teste foi projetado de forma que a precisão da resposta fosse garantida e os erros de pergunta fossem minimizados. Os autores observaram que o uso das ferramentas aumentou o desempenho dos modelos em até 12% em média e em até 23% para os modelos GPT. O modelo de melhor desempenho pode obter 49,04% de precisão de resposta mesmo após o dimensionamento. Além disso, sem o uso de ferramentas para responder a consultas multi-hop, os modelos são identificados cerca de 10% das vezes.

Conclusão:

Este artigo apresenta um conjunto de dados abrangente para resolver consultas multi-hop usando consultas e ferramentas especialmente projetadas. A principal conclusão do estudo foi que, embora os LLM tenham aumentado significativamente a sua capacidade de resolver questões complexas de múltiplas lojas através da utilização de ferramentas, a sua capacidade de utilizar ferramentas multi-lojas ainda deixa muito espaço para melhorias.


Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimentalParticipe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.


Adeeba Alam Ansari está atualmente cursando um diploma duplo no Instituto Indiano de Tecnologia (IIT) Kharagpur, cursando B.Tech em Engenharia Industrial e M.Tech em Engenharia Financeira. Com profundo interesse em aprendizado de máquina e inteligência artificial, ele é um leitor ávido e uma pessoa curiosa. A Adeeba acredita firmemente no poder da tecnologia para capacitar a sociedade e promover o bem-estar através de soluções inovadoras impulsionadas pela empatia e uma compreensão profunda dos desafios do mundo real.

✅ [Recommended Read] Nebius AI Studio se expande com modelos de visão, novos modelos de linguagem, incorporados e LoRA (Aprimorado)



Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *