O Aprendizado por Reforço, apesar de sua popularidade em diversas áreas, enfrenta algumas dificuldades que impedem os usuários de utilizar todo o seu potencial. Primeiro, algoritmos como o PPO, que são amplamente utilizados, sofrem com a maldição das ineficiências de amostragem (a necessidade de muitos episódios para aprender as operações básicas). Indo além, métodos fora da política como SAC e DrQ fornecem alguma imunidade ao problema acima. Eles trabalham no mundo real enquanto trabalham em computadores, mas têm desvantagens. As abordagens não políticas exigem frequentemente sinais de recompensa densos, o que significa que o seu desempenho subestima a magnitude das recompensas ou a atratividade do ambiente. Esta redução na precisão pode ser atribuída a esquemas de testes arbitrários, como os testes ε-gananciosos e de Boltzmann. A escalabilidade e a simplicidade desses algoritmos são atraentes o suficiente para que os usuários aceitem compensações em termos de eficiência.
Experimentos internos recentes têm mostrado grande potencial nesse sentido, onde sinais de recompensa como aquisição de conhecimento e curiosidade melhoram a avaliação dos agentes de RL. Métodos para aumentar o ganho de informação apresentam grande potencial teórico e alcançaram até mesmo o estado da arte empírico (SOTA). Embora esta abordagem pareça promissora em teoria, existe uma lacuna no equilíbrio entre os objectivos da avaliação interna e externa. Este artigo discute pesquisas recentes que encontram um equilíbrio entre avaliação interna e externa na prática.
Pesquisadores da ETH Zurich e da UC Berkeley lançaram o MAXINFORL, que aprimora as antigas e ingênuas técnicas de teste e as alinha com a teoria e as recompensas intrínsecas. MAXINFORL é uma nova classe de algoritmos fora da política para espaços de ação de estado contínuo que aumentam os métodos RL existentes com avaliação direcionada. É necessário o método usual de teste de Boltzmann e melhora com recompensa interna. Os autores propõem um processo eficiente de autoajuste que facilita o equilíbrio entre avaliação e recompensas. Portanto, os algoritmos elaborados pela MAXINFORL avaliam visitando as trajetórias que alcançam o maior ganho de informação enquanto resolvem a tarefa com sucesso. Os autores também mostram que os algoritmos propostos se beneficiam de todos os recursos teóricos de soma e convergência que valem para outros algoritmos RL de máxima entropia, como o SAC.
Vamos analisar e revisar as recompensas internas, que são os benefícios diretos da informação, para acertar o básico. Permite que os agentes da RL obtenham informações de forma mais objetiva, direcionando os agentes para áreas menos exploradas. No MAXINFORL, os autores utilizam recompensas internas para orientar o experimento para que, em vez de amostras aleatórias, o experimento seja informado para cobrir bem as áreas de ação do Estado. Nesse caso, os autores alteram a escolha ε-ganancioso para estudar o Q Ótimo para recompensas extrínsecas e intrínsecas, que determinam a ação a ser tomada. Assim, ε–MAXINFORL complementa a estratégia de Exploração de Boltzmann. Contudo, a política melhorada introduz um compromisso entre a maximização do valor da actividade e a entropia dos estados, recompensas e acções. MAXINFORL introduz dois bônus de teste para esta otimização: entropia de política e ganho de informação. Além disso, nesta estratégia, a função Q e as regras de atualização de políticas combinam-se numa política ótima.
A equipe de pesquisa testou o MAXINFORL com testes de Boltzmann em vários benchmarks profundos de RL em tarefas de controle visual e baseadas em estado. O método SAC foi utilizado para tarefas baseadas em estado e, para tarefas de controle visual, os autores combinaram o algoritmo com DrQ. Os autores compararam o MAXINFORL com vários frameworks em tarefas de diferentes dimensões. Foi observado que o MAXINFORLSAC tem um desempenho consistente em todas as tarefas, enquanto outras estruturas lutam para manter um desempenho consistente. Mesmo em áreas que exigem testes complexos, a MAXINFORL obteve o melhor desempenho. O artigo também comparou o desempenho do SAC com e sem MAXINFORL e encontrou melhorias significativas na velocidade. Para operações virtuais, a MAXINFORL também obteve ganhos significativos em desempenho e eficiência de amostragem.
Conclusão: Os pesquisadores introduziram algoritmos MAXINFORL que melhoraram as técnicas de avaliação externa não intuitiva para encontrar recompensas internas, identificando alta entropia nas recompensas e ações do estado. Em várias tarefas de medição que envolvem controlo e observação baseados no governo, tem sido mais bem sucedido do que bases não políticas. Porém, por exigir o treinamento de diversos modelos, foi sobrecarregado por sobrecarga computacional.
Confira eu Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Adeeba Alam Ansari está atualmente cursando um diploma duplo no Instituto Indiano de Tecnologia (IIT) Kharagpur, cursando B.Tech em Engenharia Industrial e M.Tech em Engenharia Financeira. Com profundo interesse em aprendizado de máquina e inteligência artificial, ele é um leitor ávido e uma pessoa curiosa. A Adeeba acredita firmemente no poder da tecnologia para capacitar a sociedade e promover o bem-estar através de soluções inovadoras impulsionadas pela empatia e uma compreensão profunda dos desafios do mundo real.
🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)