A Teoria da Mente (ToM) é uma parte fundamental da inteligência social humana, que permite às pessoas descrever e prever as atitudes, intenções e crenças dos outros. Esta capacidade cognitiva é essencial para uma comunicação e colaboração eficazes, servindo como espinha dorsal de interações sociais complexas. O desenvolvimento de sistemas que imitem esse pensamento na IA é fundamental para a criação de agentes inteligentes que possam compreender e interagir perfeitamente com os humanos. Apesar dos avanços na IA, alcançar a ToM com modelos linguísticos de grande escala (LLMs) continua a ser um grande desafio, uma vez que estes sistemas muitas vezes lutam para capturar o raciocínio social dinâmico.
Os pesquisadores de IA enfrentam obstáculos significativos na avaliação das habilidades de ToM em LLMs. Os benchmarks existentes muitas vezes carecem de complexidade e diversidade, levando à superestimação das capacidades do modelo. Por exemplo, muitas medições baseiam-se em cenários simples e predefinidos que não conseguem replicar o raciocínio complexo que as pessoas usam para compreender os estados mentais. Estas limitações obscurecem o verdadeiro potencial dos LLMs e dificultam o progresso na construção de sistemas que possam envolver-se no verdadeiro pensamento ToM. Esta lacuna sublinha a necessidade de ferramentas robustas e sustentáveis para avaliar e desenvolver eficazmente a ToM em sistemas de IA.
As abordagens anteriores à avaliação da ToM baseavam-se em conjuntos de dados inspirados em testes cognitivos, como o teste Sally-Anne. Embora estes métodos proporcionem informações importantes, são limitados pelo seu âmbito restrito e pela gama limitada de ações. Os modelos treinados nesses benchmarks geralmente se destacam em situações específicas, mas falham em situações mais amplas do mundo real. Os métodos atuais também dependem fortemente de técnicas de reflexão, como a engenharia rápida, que melhoram o desempenho dos modelos em tarefas específicas sem resolver deficiências fundamentais nos dados de treinamento. Esta abordagem estreita destaca a necessidade crítica de uma mudança de paradigma na forma como a ToM é avaliada e desenvolvida nos LLMs.
Uma equipe de pesquisadores da FAIR at Meta, da Universidade de Washington e da Carnegie Mellon University apresentou ExploreToM (Explorar a Teoria da Mente)Uma poderosa estrutura A* projetada para revolucionar a avaliação e o treinamento de ToM. ExploreToM usa um algoritmo de pesquisa A* e linguagem específica de domínio para gerar conjuntos de dados diversos e desafiadores que testam os limites das habilidades ToM do LLM. Ao contrário dos métodos anteriores, o ExploreToM cria cenários adversários, leva os modelos aos seus limites cognitivos e revela pontos fracos que os benchmarks tradicionais tendem a ignorar. ExploreToM fornece uma base sólida para o avanço do ToM em inteligência artificial, concentrando-se na geração de dados diversos e arriscados.
A estrutura começa construindo cenários de notícias complexos usando uma linguagem específica de domínio que descreve ações, estados e atualizações de crenças. Este método permite o rastreamento preciso dos estados mentais ao longo do ensaio, garantindo que cada ensaio examine aspectos específicos do pensamento ToM. O algoritmo de busca A* identifica situações que provavelmente desafiarão os modelos existentes, criando um conjunto de dados diversificado e contraditório. Além disso, o ExploreToM introduz atualizações de crenças assimétricas, o que permite a simulação de interações sociais complexas onde diferentes atores mantêm diferentes perspectivas sobre a mesma situação. Este nível de detalhe diferencia o ExploreToM como uma ferramenta completa de avaliação de ToM.
Na análise de desempenho, modelos como GPT-4o e Llama-3.1-70B mostraram precisões surpreendentemente baixas de 9% e 0% nos conjuntos de dados gerados pelo ExploreToM.destacando as deficiências dos atuais LLMs no tratamento do pensamento complexo da ToM. No entanto, o ajuste fino desses modelos aos dados do ExploreToM resultou em melhorias dramáticas. Por exemplo, um ganho de precisão de 27 pontos foi observado no benchmark ToMi clássico. Isto enfatiza o importante papel dos dados de treinamento desafiadores e diversificados no desenvolvimento de habilidades de ToM em LLMs. Além disso, o método ExploreToM revelou lacunas persistentes nas capacidades de rastreamento de estado dos modelos, o que é um requisito fundamental para o pensamento ToM.
As principais conclusões do estudo ExploreToM incluem o seguinte:
- ExploreToM usa um algoritmo de pesquisa A* para criar conjuntos de dados que revelam pontos cegos no raciocínio ToM, garantindo testes completos e treinamento rigoroso.
- O fraco desempenho de modelos como GPT-4o (9% de precisão) e Llama-3.1-70B (0% de precisão) ressalta a necessidade de melhores benchmarks e dados.
- O ajuste fino no conjunto de dados ExploreToM rendeu uma melhoria de precisão de 27 pontos no benchmark ToMi, demonstrando a eficácia da estrutura.
- ExploreToM suporta cenários complexos seguindo uma teoria assimétrica, que enriquece o processo de exploração e simula melhor as interações sociais do mundo real.
- A estrutura permite a geração de dados em larga escala, suportando uma variedade de cenários e ações que desafiam até mesmo os LLMs mais avançados.
Concluindo, o ExploreToM aborda lacunas nos benchmarks existentes e introduz uma abordagem escalonável e adversária para a geração de dados. A estrutura fornece a base para avanços significativos na capacidade da IA de se envolver em raciocínios sociais complexos. O estudo destaca as limitações dos modelos atuais e o potencial de dados de formação direcionados e de alta qualidade para preencher estas lacunas. Ferramentas como o ExploreToM garantirão que as máquinas possam compreender e interagir de forma eficaz e inteligente com os humanos em aplicações centradas no ser humano.
Confira eu Papel, O códigode novo Os dados. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)