GaLiTe e AGaLiTe: métodos transformadores eficazes para estudar o reforço da Internet de baixo nível

Em ambientes do mundo real, os agentes enfrentam frequentemente uma visibilidade limitada do ambiente, o que dificulta a tomada de decisões. Por exemplo, um agente dirigindo um carro deve se lembrar de sinais de trânsito de épocas anteriores para ajustar sua velocidade, porém manter todas as observações é incalculável devido a limitações de memória. Em vez disso, os agentes devem aprender representações visuais comprimidas. Este desafio é agravado pelas atividades em curso, onde informações importantes do passado só podem ser retidas de forma eficaz. A formação incremental de estados é importante na aprendizagem por reforço on-line (RL) de baixo reconhecimento, onde redes neurais convencionais (RNNs), como LSTMs, lidam com sequências de maneira eficaz, embora sejam difíceis de treinar. Os transformadores capturam a dependência de longo prazo, mas acarretam altos custos computacionais.

Várias abordagens estenderam os transformadores lineares para resolver suas limitações no tratamento de dados lineares. Uma arquitetura usa uma técnica de portas escalares para acumular valores ao longo do tempo, enquanto outras adicionam atualizações iterativas e não lineares para melhorar o aprendizado de dependência sequencial, embora isso possa reduzir a eficiência do paralelismo. Além disso, alguns modelos optam por optar por uma pequena atenção ou armazenamento temporário da ativação anterior, o que lhes permite atender longas sequências sem custos significativos de memória. Outra inovação recente é reduzir a complexidade da atenção, melhorando a capacidade dos transformadores de processar corretamente as condições de longo prazo. Embora os transformadores sejam frequentemente usados na aprendizagem por reforço offline, seu uso em ambientes livres ainda está emergindo.

Pesquisadores da Universidade de Alberta e da Amii desenvolveram duas novas arquiteturas de transformadores projetadas para aprendizagem por reforço on-line de baixa resolução, atendendo ao alto custo computacional e aos requisitos de memória dos transformadores tradicionais. Os modelos propostos, GaLiTe e AGaLiTe, usam um mecanismo de atenção fechada para gerenciar e atualizar informações de forma eficiente, fornecendo custos lógicos independentes e melhor desempenho de confiabilidade de longo alcance. Testes em ambientes 2D e 3D, como T-Maze e Craftax, mostraram que esses modelos são tão eficientes ou semelhantes ao GTrXL moderno, reduzindo memória e computação em mais de 40%, AGaLiTe alcançou melhor desempenho até 37% é complicado. atividades.

O Gated Linear Transformer (GaLiTe) melhora os transformadores lineares abordando as principais limitações, especialmente a falta de métodos para remover informações desatualizadas e a dependência da seleção de recursos do mapa do kernel. GaLiTe introduz um mecanismo de registro para gerenciar o fluxo de informações, permitindo armazenamento seletivo de memória e mapeamento de recursos parametrizados para calcular chaves e vetores de consulta sem exigir operações específicas do kernel. Para maior eficiência, o Transformador Linear Aproximado (AGaLiTe) usa escalonamento de baixo nível para reduzir as demandas de memória, armazenando os estados iterativos como vetores em vez de matrizes. Este método consegue economias significativas de espaço e tempo em comparação com outras estruturas, especialmente em tarefas complexas de aprendizagem por reforço.

O estudo avalia o modelo AGaLiTe proposto para todas as funções RL sub-reconhecidas. Nesses ambientes, os agentes precisam de memória para lidar com diferentes níveis de visualização, como lembrar pistas únicas no T-Maze, integrar informações ao longo do tempo no CartPole ou navegar em ambientes complexos como Mystery Path, Craftax e Memory Maze. O AGaLiTe, instalado de forma simples para sua atenção, atinge alto desempenho, superando modelos tradicionais como GTrXL e GRU em eficiência e eficiência computacional. Os resultados mostram que a arquitetura AGaLiTe reduz significativamente o desempenho e o uso de memória, proporcionando benefícios para tarefas RL com amplos requisitos de contexto.

Concluindo, os Transformers são muito eficientes no processamento sequencial de dados, mas enfrentam limitações no aprendizado por reforço online devido aos altos requisitos computacionais e à necessidade de armazenar todos os dados históricos para atenção. Este estudo apresenta duas alternativas eficazes para atenção de transformadores, GaLiTe e AGaLiTe, que são suportadas de forma redundante e projetadas para aplicações RL de baixa visibilidade. Ambos os modelos têm desempenho competitivo ou melhor que o GTrXL, com custo mais de 40% menor e uso de memória mais de 50% reduzido. Pesquisas futuras poderiam melhorar o AGaLiTe com atualizações de aprendizagem em tempo real e aplicações em métodos RL baseados em modelos, como o Dreamer V3.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[FREE AI WEBINAR] Usando processamento inteligente de documentos e GenAI em serviços financeiros e transações imobiliárias– Da estrutura à produção

Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a interseção entre IA e soluções da vida real.

🐝🐝 O próximo evento ao vivo do LinkedIn, 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão reinventando o processo de desenvolvimento de dados para ajudar as equipes a construir modelos de IA revolucionários , rápido.

Source link

Você também pode gostar...

Mais de 40 ferramentas interessantes de IA que você deve conferir (outubro de 2024)

Os robôs podem aprender com os sonhos das máquinas? | Notícias do MIT

Conheça a simulação de fluxo estocástico: uma estrutura de IA para mapear espaço latente de baixa resolução, combinando com eficiência alvos de alta resolução

Deixe um comentário Cancelar resposta