Pesquisadores da Universidade de Maryland e da Adobe apresentam o DynaSaur: um agente LLM que se torna mais inteligente ao criar scripts para seus trabalhos
Inteligência artificial

Pesquisadores da Universidade de Maryland e da Adobe apresentam o DynaSaur: um agente LLM que se torna mais inteligente ao criar scripts para seus trabalhos


Os sistemas tradicionais de agentes de modelagem de linguagem em larga escala (LLM) enfrentam desafios significativos quando aplicados a situações do mundo real devido à sua flexibilidade e adaptabilidade limitadas. Os agentes LLM existentes normalmente selecionam ações de um conjunto predefinido de possibilidades em cada ponto de decisão, uma estratégia que funciona bem em ambientes fechados com tarefas de escopo restrito, mas falha em ambientes complexos e dinâmicos. Esta forma estática de trabalhar não só limita as capacidades do agente, mas também requer muito esforço humano para prever e implementar antecipadamente todas as ações possíveis, o que se torna ineficaz em ambientes complexos ou dinâmicos. Como resultado, estes agentes não conseguem adaptar-se eficazmente a tarefas novas e imprevisíveis ou resolver problemas de longo horizonte, realçando a necessidade de competências fortes e adaptativas nos agentes LLM.

Pesquisadores da Universidade de Maryland e da Adobe apresentam DinaSaur: uma estrutura de agente LLM que permite a criação e design dinâmico de ações online. Ao contrário dos programas tradicionais que dependem de um conjunto fixo de ações predefinidas, o DynaSaur permite que os agentes gerem, implementem e refinem novas funções Python em tempo real sempre que as funções existentes se mostrarem inadequadas. O agente mantém uma biblioteca crescente de funções reutilizáveis, melhorando sua capacidade de responder a diversas situações. Esta capacidade dinâmica de criar, usar e manter novas ferramentas permite que os agentes de IA se adaptem aos desafios do mundo real.

Detalhes técnicos

O núcleo técnico do DynaSaur gira em torno do uso de funções Python para representar ações. Cada ação é encapsulada em Python, um agente que a gera, executa e avalia em seu ambiente. Se os trabalhos existentes não forem suficientes, o agente cria novos e os adiciona à sua biblioteca para uso futuro. Este programa usa a padronização e consistência do Python, o que permite uma forma flexível de representar ações. Além disso, o método de recuperação permite que o agente recupere ações adequadas de sua biblioteca acumulada usando uma busca focada por correspondências, lidando com limitações de comprimento de contexto e melhorando a eficiência.

O DynaSaur também se beneficia da integração com o ecossistema Python, dando ao agente a capacidade de interagir com diversas ferramentas e sistemas. Seja para acessar dados da web, gerenciar o conteúdo de arquivos ou realizar tarefas computacionais, um agente pode escrever ou reutilizar tarefas para atender a essas demandas sem intervenção humana, o que mostra um alto grau de adaptabilidade.

A importância do DynaSaur reside na sua capacidade de superar as limitações dos conjuntos de ações predefinidos e, assim, melhorar a flexibilidade dos agentes LLM. Nos testes de benchmark do GAIA, que testam a flexibilidade e generalidade dos agentes de IA em uma ampla gama de tarefas, o DynaSaur superou o restante da linha de base. Usando GPT-4, encontrou uma precisão média de 38,21%do que os métodos existentes. Ao combinar ferramentas feitas pelo homem com suas ações manufaturadas, o DynaSaur demonstrou 81,59% desenvolvimento, destacando a interação entre ferramentas projetadas por especialistas e ferramentas produzidas dinamicamente.

Notavelmente, foi observado um forte desempenho em tarefas complexas classificadas no Nível 2 e no Nível 3 do benchmark GAIA, onde a capacidade do DynaSaur de criar novas ações permitiu-lhe adaptar e resolver problemas além do escopo das bibliotecas de ações predefinidas. Ao alcançar a primeira posição na tabela de classificação da comunidade GAIA, a DynaSaur estabeleceu um novo padrão para agentes LLM em termos de flexibilidade e eficiência no tratamento de desafios inesperados.

A conclusão

DynaSaur representa um grande desenvolvimento no campo de sistemas de agentes LLM, oferecendo uma nova abordagem onde os agentes não são apenas entidades passivas seguindo scripts predefinidos, mas criadores ativos de suas próprias ferramentas e capacidades. Ao gerar funções Python dinamicamente e construir uma biblioteca de funções reutilizáveis, o DynaSaur melhora a flexibilidade, adaptabilidade e capacidade de resolução de problemas dos LLMs, tornando-os mais eficazes em tarefas do mundo real. Esta abordagem aborda as limitações dos atuais sistemas de agentes LLM e abre novas maneiras de desenvolver agentes de IA que podem evoluir automaticamente e evoluir ao longo do tempo. O DynaSaur abre assim o caminho para aplicações de IA eficientes, robustas e flexíveis em uma ampla gama de domínios.


Confira Papel de novo Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferência Virtual GenAI gratuita com. Meta, Mistral, Salesforce, Harvey AI e mais. Junte-se a nós em 11 de dezembro para este evento de visualização gratuito para aprender o que é necessário para construir grande com pequenos modelos de pioneiros em IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face e muito mais.


Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.

🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *