Modelos linguísticos de grande escala (LLMs) demonstraram capacidades excepcionais na compreensão, raciocínio e aquisição de informação da linguagem humana, sugerindo a sua capacidade de funcionar como agentes autónomos. No entanto, treinar agentes web eficazes com base em LLMs abertos em ambientes online, como o WebArena, enfrenta vários desafios significativos. O desafio é começar com atividades de formação predefinidas que sejam inadequadas para benchmarks online. O próximo desafio é avaliar o sucesso de tarefas arbitrárias de navegação na web devido à abundância e ao alto custo dos sinais de feedback. Finalmente, a ausência de um conjunto de formação pré-definido exige testes online, levando a uma inundação de difusão de políticas e a um esquecimento potencialmente catastrófico, o que pode reduzir o desempenho do agente a longo prazo.
As abordagens existentes incluem a adoção de LLMs como Agentes e Aprendizagem por Reforço (RL) para LLMs. A pesquisa atual sobre LLMs como agentes tem duas categorias principais: abordagens baseadas em treinamento e abordagens baseadas em treinamento. Embora alguns estudos tenham utilizado LLMs poderosos como o GPT-4 para demonstrações, a precisão desses métodos permanece insuficiente para tarefas complexas. Os pesquisadores exploraram técnicas de RL para enfrentar esse desafio, usando a tomada de decisão sequencial para controlar dispositivos e interagir com ambientes complexos. Os métodos existentes baseados em RL, como AgentQ, que usa DPO para atualizações de políticas, e arquiteturas críticas para atores, mostraram confiabilidade em tarefas complexas de controle de dispositivos. No entanto, os sinais de feedback são limitados e raramente binários de sucesso ou fracasso após múltiplas rodadas de interação em tarefas baseadas na web.
Pesquisadores da Universidade de Tsinghua e da Zhipu AI propuseram o WEBRL, uma estrutura de RL online automatizada projetada para treinar agentes da web de alto desempenho usando LLMs abertos. Aborda os principais desafios no desenvolvimento de agentes web LLM, incluindo a falta de atividades de formação, sinais de feedback limitados e difusão de políticas na aprendizagem online. Além disso, utiliza três componentes principais:
- Um currículo auto-mudável que cria novos empregos através de tentativas fracassadas.
- Modelo robusto de recompensa supervisionada (ORM)
- As técnicas de RL adaptativas garantem uma melhoria consistente.
Além disso, WEBRL preenche a lacuna entre agentes web formais e informais baseados em LLM, criando um caminho para programas de colaboração independentes mais acessíveis e poderosos.
WEBRL usa um currículo on-line individualizado que usa um processo de tentativa e erro derivado de testes para resolver a escassez de empregos de treinamento de agentes da web. Em cada fase de treinamento, o WEBRL cria automaticamente novas tarefas a partir das tentativas fracassadas da fase anterior, proporcionando uma curva de aprendizado contínua. Também incorpora um termo de separação KL entre políticas de referência e de actor no seu algoritmo de aprendizagem para reduzir a mudança na distribuição de políticas causada pela VR baseada no currículo. Este compromisso com a revisão das políticas promove a estabilidade e evita fracassos catastróficos. Além disso, o WEBRL utiliza um buffer de reprodução aprimorado com uma nova técnica de filtragem de confiança do ator.
Os resultados obtidos para o Llama-3.1-8B treinado com WEBRL alcançam uma precisão média de 42,4%, superando todos os métodos de linha de base, incluindo informações e alternativas de treinamento. WEBRL se destaca em determinadas tarefas como Gitlab (46,7%) e CMS (54,3%), mostrando sua capacidade de lidar de forma eficaz com tarefas complexas da web. Além disso, supera os métodos de aprendizagem baseados em simulação, como SFT e Filtered BC. Além disso, ele supera consistentemente o DigiRL, um método anterior de última geração que executa atualizações de políticas em um conjunto fixo e predefinido de funções, que pode não corresponder ao nível de habilidade atual do modelo. O WEBRL aborda isso usando um sistema de autoaprendizagem, ajustando a complexidade das tarefas com base nas capacidades do modelo, promovendo testes extensivos e apoiando a melhoria contínua.
Neste artigo, os pesquisadores apresentaram o WEBRL, uma estrutura de RL individualizada on-line para um currículo de treinamento de agentes da web baseado em LLM. Ele aborda os principais desafios na criação de agentes web LLM bem-sucedidos, incluindo a falta de atividades de treinamento, a extensão dos sintomas de feedback e a disseminação de políticas para a distribuição de aprendizagem on-line. Os resultados mostram que o WEBRL permite que os agentes web baseados em LLM superem os métodos existentes, incluindo APIs proprietárias do LLM, e essas descobertas ajudam a melhorar os recursos de código aberto dos LLMs para tarefas baseadas na web, abrindo caminho para aplicações web colaborativas mais acessíveis e poderosas. O uso bem-sucedido do WEBRL em todos os tipos de arquiteturas LLM, como Llama-3.1 e GLM-4, confirma a robustez e flexibilidade do framework proposto.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Sponsorship Opportunity with us] Promova sua pesquisa/produto/webinar para mais de 1 milhão de leitores mensais e mais de 500 mil membros da comunidade
Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️