FunctionChat-Bench: um teste abrangente de recursos de modelagem de linguagem em todos os contextos interativos
Inteligência artificial

FunctionChat-Bench: um teste abrangente de recursos de modelagem de linguagem em todos os contextos interativos


Call of Duty emergiu como uma força transformadora para a programação de IA, permitindo que modelos de linguagem interajam com ferramentas externas, produzindo um objeto JSON estruturado. No entanto, os métodos atuais enfrentam sérios desafios na simulação completa de situações de comunicação do mundo real. Os métodos existentes concentram-se principalmente na geração de mensagens de chamada específicas para ferramentas, levando em consideração as novas necessidades de interação humana com a IA. A complexidade das discussões sobre o uso de ferramentas vai além de uma simples aplicação da funcionalidade da máquina, exigindo uma abordagem abrangente que navegue perfeitamente pela interação da ferramenta e pelo usuário. Portanto, há necessidade de estruturas de chamada de tarefas mais sofisticadas e flexíveis que preencham a lacuna entre a precisão técnica e o poder da conversação natural.

A investigação recente concentrou-se em examinar como os modelos de linguagem utilizam ferramentas, levando ao desenvolvimento de diferentes escalas para avaliar as suas competências. Estruturas de teste proeminentes como APIBench, GPT4Tools, RestGPT e ToolBench concentram-se no desenvolvimento de métodos de teste sistemáticos para ferramentas. Inovações existentes, como o MetaTool, investigam a consciência do uso da ferramenta, enquanto o BFCL introduz a detecção de relevância de tarefas. Além desses desenvolvimentos, os métodos existentes concentram-se principalmente na produção de resultados do tipo ferramenta, que não interagem diretamente com os usuários. Esta abordagem de avaliação restrita revela uma lacuna importante na medição completa das capacidades interativas dos modelos linguísticos.

Pesquisadores da Kakao Corp./Sungnam, na Coreia do Sul, propuseram o FunctionChat-Bench, um método para testar as capacidades de modelagem de linguagem em vários cenários de interação. Esta abordagem aborda limitações importantes nos métodos de teste existentes, apresentando um conjunto de dados robusto que inclui 700 itens de teste e sistemas de teste automatizados. Além disso, o FunctionChat-Bench avalia o desempenho dos modelos de linguagem em todos os cenários de conversação 24 horas por dia e multivariáveis ​​com foco na dinâmica da chamada. Isso desafia seriamente a suposição de que o alto desempenho em cenários isolados de chamada de ferramenta está diretamente relacionado à interoperabilidade geral.

O benchmark FunctionChat-Bench apresenta uma estrutura sofisticada para testar dois subconjuntos para testar o desempenho de modelos de linguagem, (a) um conjunto de dados de chamada única e (b) um conjunto de dados de conversação. Os termos a seguir descrevem os itens de teste no conjunto de dados de chamada única:

  • A expressão de uma palavra do usuário deve conter todas as informações necessárias para chamar a função, levando diretamente à chamada da ferramenta.
  • A função adequada para atender a solicitação do usuário deve ser fornecida na lista de ferramentas disponíveis.

Em contraste, o conjunto de dados de caixa simula situações complexas de interação do mundo real, desafiando os modelos de linguagem a navegar em diferentes contextos de entrada. Os principais critérios de avaliação do método proposto incluem a capacidade do modelo de comunicar os resultados da solicitação da ferramenta, de solicitar informações faltantes quando necessário e de lidar com a interação do usuário.

Os resultados dos testes do FunctionChat-Bench revelam insights detalhados sobre o desempenho dos modelos de linguagem em uma variedade de cenários. A precisão dos modelos não diminuiu continuamente ao aumentar o número de candidatos a empregos entre 1 e 8 candidatos. Notavelmente, o modelo Gemini mostra maior precisão à medida que o número de candidatos a emprego aumenta. O GPT-4-turbo mostra uma diferença significativa de precisão de 10 pontos entre condições de tipo de tarefa aleatória e fechada. Além disso, o conjunto de dados de bate-papo fornece gerações de chamadas de ferramentas, saída de bate-papo, consultas de saturação e detecção de relevância de chamadas de ferramentas em interações multifala.

Neste artigo, os pesquisadores apresentaram o FunctionChat-Bench, um benchmark que avalia totalmente as capacidades de chamada de modelos de linguagem, indo além dos métodos de teste tradicionais. Eles fornecem insights detalhados sobre o desempenho generativo de modelos de linguagem, construindo um novo conjunto de dados com subconjuntos de chamada única e de diálogo, e um sistema de teste automatizado. Usando um LLM avançado como juiz de teste com rubricas refinadas, o FunctionChat-Bench fornece uma estrutura sofisticada para avaliar a experiência em chamadas telefônicas. No entanto, este benchmark tem limitações ao testar aplicativos de chamada avançados. A pesquisa estabelece as bases para pesquisas futuras, destacando a complexidade dos sistemas interativos de IA.


Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

🎙️ 🚨 'Avaliação de vulnerabilidade de um grande modelo de linguagem: uma análise comparativa dos métodos da Cruz Vermelha' Leia o relatório completo (Promovido)


Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA ​​com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.

🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *