Os LLMs estão ganhando impulso à medida que trabalhadores de todas as áreas exploram a inteligência artificial e a automação para agilizar seu trabalho e tomar decisões críticas. Portanto, os modelos generativos e fundamentais são utilizados para tarefas de pensamento em várias etapas para alcançar o planeamento e a ação da equidade humana. Embora esta ambição ainda não tenha sido alcançada, precisamos de parâmetros de referência amplos e específicos para testar a inteligência dos nossos modelos no raciocínio e na tomada de decisões. Dada a atualidade da Gen AI e a curta evolução do LLM, é um desafio produzir métodos de validação que acompanhem o ritmo da inovação do LLM. Notavelmente, reivindicações independentes, como planejamento. a integridade da métrica de validação pode sempre ser questionável. Por um lado, mesmo que um modelo preencha as caixas de seleção da meta, podemos confirmar sua capacidade de programação? Em segundo lugar, em situações práticas, não existe apenas um sistema, mas muitos sistemas e outros. Isso torna a situação caótica. Felizmente, pesquisadores de todo o mundo estão trabalhando para aumentar as competências de LLM em planejamento industrial. Portanto, precisamos de uma boa referência que avalie se os LLMs adquiriram competências suficientes de pensamento e planeamento ou se é um sonho distante.
ACPBench é um teste de raciocínio LLM desenvolvido pela IBM Research que cobre 7 tarefas de raciocínio em 13 domínios de programação. Esta medida inclui as funções cognitivas necessárias para uma programação confiável, embaladas em uma linguagem estruturada que pode expressar múltiplos problemas e escalas sem intervenção humana. O nome ACPBench é derivado do tópico principal em que suas atividades de pensamento se concentram: UMAção, Cdesligue novamente Plançando. A complexidade das tarefas varia, algumas exigindo pensamento em uma única etapa e outras exigindo pensamento em várias etapas. Eles seguem questões booleanas e questões de múltipla escolha (MCQs) de todos os 13 domínios (12 são referências bem estabelecidas em planejamento e aprendizado por reforço, e o último foi projetado do zero). Os benchmarks anteriores na programação LLM eram limitados a apenas alguns domínios, o que causava um problema de escala.
Além de se aplicar a diversos domínios, o ACPBench se diferencia de seus contemporâneos por gerar conjuntos de dados a partir das definições formais da Linguagem de Definição de Domínio de Planejamento (PDDL), que é a mesma responsável por criar os problemas certos e medi-los sem intervenção humana.
As sete funções introduzidas no ACPBench são:
- Aplicabilidade – Determina as ações efetivas que estão disponíveis em determinada situação.
- Progresso – Compreender o resultado de uma ação ou mudança.
- Alcançabilidade – Testa se o modelo pode atingir o objetivo final a partir da situação atual, realizando múltiplas ações.
- Acessibilidade de ação – Identifique os requisitos de desempenho para executar uma tarefa específica.
- Validação – Verificar se uma sequência específica de ações é válida, eficaz e atinge efetivamente o objetivo pretendido.
- Correção – Determine se é necessária ação.
- Marcos – Encontre as submetas necessárias para atingir a meta.
Doze dos treze domínios acima funcionam em todos os domínios de programação usuais, como BlocksWorld, Logística e Rovers, e o último é uma nova categoria que os autores chamam de Mudança. Cada um desses domínios possui uma representação formal no PDDL.
ACPBench foi testado em 22 LLMs de código aberto e de fronteira. Alguns dos mais populares estão incluídos. GPT-4o, CHORARmodelos, Mixtrale outros. Os resultados mostraram que mesmo os modelos mais eficientes (GPT-4o de novo LAMA-3.1 405B) lutou com certas tarefas, especialmente em acessibilidade da ação de novo confirmação. Alguns modelos menores, semelhantes Codestral 22Bteve um bom desempenho em questões booleanas, mas ficou para trás em questões de múltipla escolha. A precisão média do GPT 4o caiu 52% para essas tarefas. Os autores do pós-teste também ajustaram o Granite-code 8B, um pequeno modelo e processo que levou a melhorias significativas. Este modelo ajustado é feito para caber em grandes LLMs e também é perfeito para domínios abstratos!
As descobertas do ACPBench provaram que os LLMs não têm um bom desempenho no trabalho de planejamento, independentemente do tamanho e da complexidade. No entanto, com comandos habilmente projetados e boas técnicas de ajuste, eles podem se sair melhor na programação.
Confira Papel, GitHub de novo O projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)
Adeeba Alam Ansari está atualmente cursando um diploma duplo no Instituto Indiano de Tecnologia (IIT) Kharagpur, cursando B.Tech em Engenharia Industrial e M.Tech em Engenharia Financeira. Com profundo interesse em aprendizado de máquina e inteligência artificial, ele é um leitor ávido e uma pessoa curiosa. Adeeba acredita firmemente no poder da tecnologia para capacitar a sociedade e promover o bem-estar através de soluções inovadoras impulsionadas pela empatia e uma compreensão profunda dos desafios do mundo real.