Microsoft Research testa inconsistências GPT-4 na execução de tarefas prescritivas: analisando o impacto de pequenas mudanças no desempenho da IA

Modelos linguísticos de grande escala (LLMs), como o GPT-4, tornaram-se o foco da inteligência artificial devido à sua capacidade de lidar com uma variedade de tarefas, desde a geração de texto até a resolução de problemas matemáticos complexos. Esses modelos mostraram poder além de sua estrutura original, especialmente para prever a próxima palavra em uma sequência. Embora a sua utilização abranja muitas indústrias, como a automatização da análise de dados e a execução de tarefas criativas, o maior desafio reside na avaliação fiável do seu desempenho real. Compreender quão bem os LLMs lidam com tarefas prescritas, como calcular e fazer matemática básica, é muito importante porque estas tarefas fornecem resultados claros e mensuráveis. A complexidade surge quando essas tarefas simples apresentam inconsistências com a prática do LLM.

Um dos principais problemas enfrentados por este estudo é a dificuldade de avaliar a precisão de LLMs como o GPT-4. Funções determinísticas com solução exata são um campo de testes ideal para testar esses modelos. No entanto, o desempenho do GPT-4 pode variar muito, não apenas devido à dificuldade inerente da tarefa, mas também devido a diferenças sutis na forma como as questões são formuladas ou nas características dos dados de entrada. Estas características sutis podem levar a resultados que desafiam a capacidade de reproduzir as capacidades do modelo. Por exemplo, mesmo tarefas básicas, como listar itens, mostram variações significativas nas respostas do modelo, deixando claro que simples benchmarks podem não ser suficientes para julgar com precisão as verdadeiras capacidades do LLM.

Os métodos existentes de avaliação do desempenho do LLM geralmente envolvem a realização de tarefas determinísticas que permitem respostas claras e inequívocas. Neste estudo, os pesquisadores testaram a capacidade do GPT-4 de contar elementos em uma lista, realizar longas multiplicações e classificar números. Por exemplo, em uma tarefa de contagem em que o modelo precisava determinar quantas vezes a palavra “manga” aparecia em uma lista, o desempenho do GPT-4 foi inconsistente. Em 500 tentativas de listas de 20 longas, o GPT-4 obteve a resposta correta 48,2% das vezes, mas pequenas mudanças na frequência das frases ou dos itens levaram a resultados muito diferentes. Esta inconsistência sugere que os LLMs podem não ser tão capazes quanto o esperado ao executar tarefas básicas de aritmética ou lógica.

Uma equipe de pesquisadores da Microsoft Research introduziu um novo método para testar a sensibilidade dos LLMs às mudanças nos limites do trabalho. Eles se concentram em tarefas específicas, como contar e repetir por longos períodos de tempo, sob diversas condições. Por exemplo, um conjunto de testes pedia ao GPT-4 para contar ocorrências de palavras em listas de comprimentos variados, enquanto outro se concentrava na multiplicação de dois números de 4 dígitos. Para todas as tarefas, os pesquisadores realizaram 500 testes em cada condição, garantindo resultados estatisticamente significativos. Suas descobertas mostraram que pequenas mudanças, como renomear palavras nomeadas rapidamente ou alterar listas, resultaram em grandes diferenças no desempenho. Por exemplo, a taxa de sucesso na tarefa de matemática caiu de 89,0% em 10 itens para apenas 12,6% em 40 itens. Da mesma forma, a precisão do GPT-4 em tarefas de repetição de longo prazo foi de 100% para repetir dois números de 2 dígitos, mas caiu para 1,0% para repetir dois números de 4 dígitos.

Os pesquisadores também mediram o desempenho do GPT-4 em todas as tarefas, como encontrar o máximo e a mediana e classificar a ordem dos números em uma lista. Na tarefa de encontrar medianas, o GPT-4 obteve uma taxa de sucesso de apenas 68,4% para listas contendo números de ponto flutuante, e essa taxa diminuiu à medida que o número de itens na lista aumentou. Além disso, quando solicitado a classificar uma lista de números em palavras relacionadas, a precisão do GPT-4 caiu significativamente, com uma taxa de sucesso inferior a 55,0%. Este teste revela o quão frágil é o desempenho do modelo quando é dada uma tarefa que requer tratamento preciso de dados estruturados.

O estudo destaca um grande desafio na avaliação das habilidades de grandes amostras linguísticas. Embora o GPT-4 exiba uma série de comportamentos complexos, sua capacidade de lidar até mesmo com tarefas básicas é altamente dependente do número específico de consultas e da estrutura dos dados de entrada. Estas descobertas desafiam a noção de que se pode confiar nos LLMs para executar tarefas fielmente em todos os diferentes contextos. Por exemplo, a taxa de sucesso do GPT-4 para tarefas de contagem varia em mais de 70% dependendo do comprimento da lista e da quantidade do item que está sendo contado. Esta variabilidade sugere que a precisão observada em determinados testes pode não ser replicada em outras tarefas semelhantes, mas ligeiramente modificadas.

Em conclusão, este estudo esclarece as limitações do GPT-4 e de outros LLMs na execução de tarefas determinísticas. Embora estes modelos sejam promissores, o seu desempenho é muito sensível a pequenas mudanças nas condições de trabalho. Os pesquisadores mostraram que a precisão do GPT-4 pode cair de quase perfeita para quase aleatória, alterando os dados de entrada ou repetindo a pergunta. Por exemplo, a capacidade do modelo de multiplicar dois números de 2 dígitos era boa, mas a sua precisão para a multiplicação de 4 dígitos caiu para 1,0%. Os resultados sugerem que é necessária cautela ao interpretar afirmações sobre as capacidades dos LLMs. Embora possam ter um desempenho admirável em situações controladas, seu desempenho pode não incluir tarefas ligeiramente modificadas. É essencial desenvolver métodos de avaliação rigorosos para avaliar suas verdadeiras habilidades.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..

Não se esqueça de participar do nosso Mais de 50k ML SubReddit

⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)

Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.

⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)

Source link

Você também pode gostar...

Conjunto de dados sintético-GSM8K-Reflection-405B de código aberto Gretel AI: melhorando o treinamento do modelo de IA por meio de raciocínio em várias etapas, técnicas de inferência e cenários de solução de problemas do mundo real

Google DeepMind lança Omni×R: uma estrutura de teste abrangente para medir as habilidades de raciocínio de modelos de linguagem omnimodalidade em entrada de texto, áudio, imagem e vídeo

Transistores em nanoescala podem alimentar eletrônicos de alto desempenho Notícias do MIT

Deixe um comentário Cancelar resposta