WEBRL: Uma estrutura de aprendizagem de autodesenvolvimento para currículo on-line para treinamento de agentes da Web altamente eficazes com LLMs abertos
Inteligência artificial

WEBRL: Uma estrutura de aprendizagem de autodesenvolvimento para currículo on-line para treinamento de agentes da Web altamente eficazes com LLMs abertos


Modelos linguísticos de grande escala (LLMs) demonstraram capacidades excepcionais na compreensão, raciocínio e aquisição de informação da linguagem humana, sugerindo a sua capacidade de funcionar como agentes autónomos. No entanto, treinar agentes web eficazes com base em LLMs abertos em ambientes online, como o WebArena, enfrenta vários desafios significativos. O desafio é começar com atividades de formação predefinidas que sejam inadequadas para benchmarks online. O próximo desafio é avaliar o sucesso de tarefas arbitrárias de navegação na web devido à abundância e ao alto custo dos sinais de feedback. Finalmente, a ausência de um conjunto de formação pré-definido exige testes online, levando a uma inundação de difusão de políticas e a um esquecimento potencialmente catastrófico, o que pode reduzir o desempenho do agente a longo prazo.

As abordagens existentes incluem a adoção de LLMs como Agentes e Aprendizagem por Reforço (RL) para LLMs. A pesquisa atual sobre LLMs como agentes tem duas categorias principais: abordagens baseadas em treinamento e abordagens baseadas em treinamento. Embora alguns estudos tenham utilizado LLMs poderosos como o GPT-4 para demonstrações, a precisão desses métodos permanece insuficiente para tarefas complexas. Os pesquisadores exploraram técnicas de RL para enfrentar esse desafio, usando a tomada de decisão sequencial para controlar dispositivos e interagir com ambientes complexos. Os métodos existentes baseados em RL, como AgentQ, que usa DPO para atualizações de políticas, e arquiteturas críticas para atores, mostraram confiabilidade em tarefas complexas de controle de dispositivos. No entanto, os sinais de feedback são limitados e raramente binários de sucesso ou fracasso após múltiplas rodadas de interação em tarefas baseadas na web.

Pesquisadores da Universidade de Tsinghua e da Zhipu AI propuseram o WEBRL, uma estrutura de RL online automatizada projetada para treinar agentes da web de alto desempenho usando LLMs abertos. Aborda os principais desafios no desenvolvimento de agentes web LLM, incluindo a falta de atividades de formação, sinais de feedback limitados e difusão de políticas na aprendizagem online. Além disso, utiliza três componentes principais:

  • Um currículo auto-mudável que cria novos empregos através de tentativas fracassadas.
  • Modelo robusto de recompensa supervisionada (ORM)
  • As técnicas de RL adaptativas garantem uma melhoria consistente.

Além disso, WEBRL preenche a lacuna entre agentes web formais e informais baseados em LLM, criando um caminho para programas de colaboração independentes mais acessíveis e poderosos.

WEBRL usa um currículo on-line individualizado que usa um processo de tentativa e erro derivado de testes para resolver a escassez de empregos de treinamento de agentes da web. Em cada fase de treinamento, o WEBRL cria automaticamente novas tarefas a partir das tentativas fracassadas da fase anterior, proporcionando uma curva de aprendizado contínua. Também incorpora um termo de separação KL entre políticas de referência e de actor no seu algoritmo de aprendizagem para reduzir a mudança na distribuição de políticas causada pela VR baseada no currículo. Este compromisso com a revisão das políticas promove a estabilidade e evita fracassos catastróficos. Além disso, o WEBRL utiliza um buffer de reprodução aprimorado com uma nova técnica de filtragem de confiança do ator.

Os resultados obtidos para o Llama-3.1-8B treinado com WEBRL alcançam uma precisão média de 42,4%, superando todos os métodos de linha de base, incluindo informações e alternativas de treinamento. WEBRL se destaca em determinadas tarefas como Gitlab (46,7%) e CMS (54,3%), mostrando sua capacidade de lidar de forma eficaz com tarefas complexas da web. Além disso, supera os métodos de aprendizagem baseados em simulação, como SFT e Filtered BC. Além disso, ele supera consistentemente o DigiRL, um método anterior de última geração que executa atualizações de políticas em um conjunto fixo e predefinido de funções, que pode não corresponder ao nível de habilidade atual do modelo. O WEBRL aborda isso usando um sistema de autoaprendizagem, ajustando a complexidade das tarefas com base nas capacidades do modelo, promovendo testes extensivos e apoiando a melhoria contínua.

Neste artigo, os pesquisadores apresentaram o WEBRL, uma estrutura de RL individualizada on-line para um currículo de treinamento de agentes da web baseado em LLM. Ele aborda os principais desafios na criação de agentes web LLM bem-sucedidos, incluindo a falta de atividades de treinamento, a extensão dos sintomas de feedback e a disseminação de políticas para a distribuição de aprendizagem on-line. Os resultados mostram que o WEBRL permite que os agentes web baseados em LLM superem os métodos existentes, incluindo APIs proprietárias do LLM, e essas descobertas ajudam a melhorar os recursos de código aberto dos LLMs para tarefas baseadas na web, abrindo caminho para aplicações web colaborativas mais acessíveis e poderosas. O uso bem-sucedido do WEBRL em todos os tipos de arquiteturas LLM, como Llama-3.1 e GLM-4, confirma a robustez e flexibilidade do framework proposto.


Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Sponsorship Opportunity with us] Promova sua pesquisa/produto/webinar para mais de 1 milhão de leitores mensais e mais de 500 mil membros da comunidade


Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA ​​com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *