Desenvolvimentos recentes em modelos de linguagem em larga escala (LLMs) mostraram quão bem esses modelos executam tarefas cognitivas complexas, como codificação, compreensão de linguagem e resolução de problemas matemáticos. Contudo, pouco se sabe sobre a eficácia destes modelos em termos de planeamento, especialmente em situações em que um objetivo deve ser alcançado através de uma sequência de ações interligadas. Como a programação muitas vezes recorre a modelos para compreender restrições, lidar com decisões sequenciais, operar em ambientes dinâmicos e reter memória de operações anteriores, é um tópico particularmente difícil de ser tratado pelos LLMs.
Em um estudo recente, uma equipe de pesquisadores da Universidade do Texas em Austin testou os recursos de programação do modelo O1 do OpenAI, um recém-chegado ao campo do LLM que foi criado com habilidades avançadas de raciocínio. O estudo avaliou o desempenho do modelo de acordo com três dimensões principais: completude, eficiência e viabilidade, utilizando diversas funções comparativas.
A capacidade de um modelo fornecer um plano viável e consistente com as necessidades e restrições da tarefa é chamada de viabilidade. Por exemplo, tarefas em ambientes como Barman e Tireworld são altamente estruturadas, exigindo o uso de recursos ou ações em uma ordem específica, e o não cumprimento dessas instruções resulta em fracasso. A este respeito, o modelo o1-preview mostrou alguns pontos fortes surpreendentes, especialmente na sua capacidade de autoavaliar os seus planos e cumprir certos limites de trabalho. As capacidades de autoavaliação do modelo melhoram as suas probabilidades de sucesso, permitindo-lhe determinar com maior precisão se as medidas produtivas estão alinhadas com as necessidades da tarefa.
Embora criar projetos viáveis seja um primeiro passo importante, a execução ou o quão bem o modelo conclui o trabalho também é importante. Encontrar uma solução por si só é muitas vezes insuficiente em muitas situações do mundo real, uma vez que a solução também precisa de ser eficiente em termos de quantidade de tempo, recursos utilizados e processos necessários. O estudo descobriu que, embora o modelo de visualização o1 tenha um desempenho melhor que o GPT-4 nos parâmetros a seguir, ele geralmente produzia designs menores do que os ideais. Isto mostra que o modelo incluía frequentemente ações irracionais ou indesejadas, que resultavam em soluções ineficazes.
Por exemplo, as respostas do modelo foram funcionais, mas incluíram repetições desnecessárias que poderiam ter sido evitadas de uma forma mais otimizada em áreas como Floortile e Grippers, que requerem melhor pensamento espacial e sequenciamento de trabalho.
A capacidade de um modelo de aplicar técnicas de programação recém-aprendidas a problemas únicos ou incomuns onde não recebeu nenhum treinamento específico é conhecida como generalização. Esta é uma característica importante em aplicações do mundo real, uma vez que as tarefas são frequentemente dinâmicas e requerem estratégias de planeamento flexíveis e adaptativas. O modelo de visualização o1 teve problemas para se adaptar a ambientes complexos como Termos, onde as tarefas envolvem o gerenciamento de espaços 3D ou vários objetos interativos. Seu desempenho diminuiu significativamente em tarefas espaciais novas e dinâmicas, embora tenha sido capaz de manter a estrutura em tarefas rotineiras.
Os resultados deste estudo mostraram os prós e os contras do modelo de visualização o1 em relação ao planejamento. Por outro lado, os pontos fortes do modelo em relação ao GPT-4 são vistos na sua capacidade de aderir a limites, controlar mudanças e avaliar o desempenho de seus sistemas. Por causa disso, é mais confiável em ambientes formais onde a conformidade é importante. No entanto, ainda existem muitas restrições na tomada de decisões e no gerenciamento de memória no modelo. Para tarefas que exigem um forte raciocínio espacial, em particular, o modelo de visualização o1 geralmente produz designs abaixo do ideal e tem dificuldade de adaptação a ambientes desconhecidos.
Este estudo exploratório estabelece uma estrutura para pesquisas futuras destinadas a superar as limitações declaradas dos LLMs no planejamento de atividades. As principais áreas que precisam de melhorias são as seguintes.
- Gerenciamento de memória: A redução do número de etapas desnecessárias e o aumento da eficiência das tarefas podem ser alcançados melhorando a capacidade do modelo de lembrar e usar tarefas anteriores com eficácia.
- Tomada de decisões: É necessário mais trabalho para melhorar as decisões sequenciais tomadas pelos LLMs, para garantir que cada ação mova o modelo no sentido de atingir o objetivo da melhor maneira possível.
- Generalização: Melhorar o pensamento abstrato e as técnicas de simplificação podem melhorar o desempenho do LLM em diferentes situações, especialmente aquelas que envolvem pensamento simbólico ou complexidade espacial.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)
Tanya Malhotra está em seu último ano na Universidade de Estudos de Petróleo e Energia, Dehradun, cursando BTech em Engenharia de Ciência da Computação com especialização em Inteligência Artificial e Aprendizado de Máquina.
Ele é um entusiasta de Data Science com forte pensamento analítico e crítico e grande interesse em adquirir novas habilidades, liderar equipes e gerenciar o trabalho de maneira organizada.