O Aprendizado por Reforço é agora usado em quase todas as atividades científicas e tecnológicas, seja como método central ou para aprimorar processos e sistemas existentes. Apesar da adoção generalizada, mesmo nas áreas mais avançadas, a RL fica atrás em algumas competências básicas. A ineficiência da amostragem é um desses problemas que limita o seu potencial. Em termos simples, RL precisa de milhares de episódios para aprender razoavelmente tarefas básicas, como avaliação, que as pessoas dominam em apenas algumas tentativas (por exemplo, imagine uma criança finalmente aprendendo matemática básica no ensino médio). Meta-RL supera o problema acima capacitando um agente com conhecimento prévio. O agente lembra os acontecimentos dos episódios anteriores para se adaptar a novas situações e alcançar o desempenho ideal da amostra. Meta-RL é melhor que RL padrão porque aprende a explorar e aprender técnicas mais complexas além das capacidades do RL padrão, como aprender novas habilidades ou realizar experimentos para aprender sobre o ambiente atual.
Depois de discutir o quão bom é o Meta-RL baseado em memória no espaço RL, vamos discutir quais são as limitações. Os métodos tradicionais de Meta-RL visam maximizar a recompensa acumulativa para todos os episódios em uma sequência hipotética, o que significa que atinge o equilíbrio perfeito entre exploração e exploração. Em geral, esse equilíbrio significa priorizar testes nos primeiros episódios para uso posterior. O problema agora é que mesmo métodos sofisticados são apanhados em vantagens locais durante a avaliação, especialmente se o agente tiver de sacrificar uma recompensa imediata em busca do próximo prémio mais elevado. Neste artigo, discutimos pesquisas recentes que afirmam ser capazes de eliminar esse problema no Meta-RL.
Pesquisadores da Universidade da Colúmbia Britânica introduziram “Primeiro Explorar, Depois Usar”, um método Meta-RL que separa a exploração da exploração, aprendendo duas políticas diferentes. A política de fiscalização informa primeiro a política de exploração, o que aumenta a recuperação do episódio; e não tenta maximizar os retornos individuais, mas combina treino após treino para maximizar a recompensa cumulativa. Uma vez que a política de avaliação é treinada para informar apenas a política de exploração, a actual exploração negativa já não resulta em recompensas imediatas para desencorajar a exploração. A política de avaliação cria primeiro episódios sequenciais onde é fornecido o contexto da sequência de avaliação atual, incluindo ações anteriores, prêmios e observações. É motivado a gerar episódios que, somados ao contexto atual, resultam em episódios subsequentes de política de exploração altamente lucrativa. A política de exploração retira então o contexto da política de avaliação para que as n parcelas produzam as parcelas com o maior retorno.
A implementação formal do First-Explore é feita com uma estrutura de transformador causal estilo GPT-2. Ambas as políticas compartilham os mesmos parâmetros e diferem apenas no cabeçalho da última camada.
Para testes, os autores compararam o First-Explore com três ambientes RL: One-Armed Bandits, Dark Treasure Rooms e Ray Maze, todos com desafios diferentes. One Arm Fixed Bandit é um problema de bandido multi-armado projetado para sacrificar recompensas rápidas sem ter valor de exploração. O segundo domínio é o mundo da grade, onde o agente pode ver ao seu redor em busca de recompensas colocadas aleatoriamente. A última área é a mais desafiadora e destaca as capacidades de aprendizagem do First-Explore além do Meta-RL. Consistia em labirintos gerados aleatoriamente com três posições de recompensa.
O Primeiro Teste ganhou o dobro de prêmios meta-RL no domínio Fixed Arm Bandit. Esse número também aumentou 10 vezes na segunda colocação e 6 vezes na última colocação. Além dos métodos Meta-RL, o First-Explore também é mais eficaz do que outros métodos RL quando se trata de deixar uma recompensa imediata.
A conclusão: Primeiros experimentos revelaram uma solução prática para o problema de recompensa imediata que assola os métodos tradicionais de meta-RL. A dupla testagem e manipulação para aprender duas políticas independentes, combinadas com o pós-treinamento, aumentaram o efeito cumulativo, que o meta-RL não conseguiu alcançar independentemente do método de treinamento. No entanto, também enfrenta alguns desafios, abrindo caminho para pesquisas futuras. Entre esses desafios estavam a incapacidade de prever o futuro, ignorando recompensas negativas e modelagem sequencial. No futuro, será interessante ver como estas questões são resolvidas e se têm um impacto positivo no desempenho global da RL.
Confira eu Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Adeeba Alam Ansari está atualmente cursando um diploma duplo no Instituto Indiano de Tecnologia (IIT) Kharagpur, cursando B.Tech em Engenharia Industrial e M.Tech em Engenharia Financeira. Com profundo interesse em aprendizado de máquina e inteligência artificial, ele é um leitor ávido e uma pessoa curiosa. Adeeba acredita firmemente no poder da tecnologia para capacitar a sociedade e promover o bem-estar através de soluções inovadoras impulsionadas pela empatia e uma compreensão profunda dos desafios do mundo real.
🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)