Estudos recentes destacam que os Transformers, embora bem-sucedidos em tarefas como aritmética e algoritmos, precisam de ajuda na integração de comprimentos, onde os modelos lidam com entradas de comprimento invisível. Isto é importante para tarefas algorítmicas como codificação ou raciocínio, onde o comprimento da entrada é frequentemente proporcional à complexidade do problema. Grandes modelos de linguagem sofrem desta limitação mesmo quando dimensionados devido à sua profundidade constante. Métodos de pensamento como Cadeia de Pensamento e métodos de rascunho oferecem algumas melhorias. Uma solução promissora é o Looped Transformer, que processa a entrada iterativamente, permitindo etapas adaptativas baseadas na complexidade do problema e melhorando a generalização das funções algorítmicas.
Pesquisadores da Universidade de Wisconsin-Madison, MIT e UC Berkeley mostram que os transformadores em loop com etapas variáveis melhoram a execução de tarefas algorítmicas. Focando em tarefas com soluções iterativas utilizando funções RASP-L, eles treinam Loop Transformers sem supervisão central, contando apenas com entradas, saídas e contagens de passos. Conceitualmente, o modelo determina as etapas necessárias para resolver a tarefa. Sua abordagem mostra que os Loop Transformers sincronizam vários loops durante o corte, permitindo uma adaptação eficiente do comprimento. O estudo apresenta problemas de n-RASP-L e mostra melhor desempenho em tarefas como cópia, ajuste e adição em comparação aos métodos básicos.
A pesquisa explora incorporações hierárquicas, RNNs, hierarquia de Chomsky, transformadores universais, representações de entrada e pensamento de cadeia de pensamento (CoT) em extensão geral. A incorporação espacial melhora a capacidade dos Transformers de realizar operações normais, mas não é usada em operações RASP-L. A pesquisa mostra que RNNs e Transformers lutam com tarefas não rotineiras, enquanto os recursos de memória estruturada geralmente são livres de contexto. O Loop Transformer sincroniza o Universal Transformer com monitoramento dependente de etapas, melhorando o desempenho. Além disso, pensar sobre o CoT pode simplificar as previsões, mas os seus passos podem introduzir complexidade que impede a generalização. O estudo também distingue entre os métodos de previsão do próximo token (NTP) e previsão de resposta completa (FAP).
A estrutura n-RASP-L aborda operações algorítmicas usando transformadores somente decodificadores de profundidade fixa sem loops, tornando desafiadores problemas como integração ou escalonamento. Uma arquitetura “Loop Transformer” é proposta para resolver isso, que reutiliza os blocos do decodificador em múltiplas iterações com base no comprimento da entrada. Isso permite resolver operações como adição de n dígitos e multiplicação por operações de multiplicação. O modelo é supervisionado ponta a ponta durante o treinamento, utilizando pares de entrada-saída sem etapas intermediárias. Quando consideradas, regras de parada dinâmica, como passo oracle ou confiança, são usadas para decidir quando encerrar o processo em loop.
A pesquisa examina a eficiência dos transformadores de loop em aplicações que exigem um comprimento padrão. Várias operações foram testadas, incluindo paridade, cópia, adição, soma binária e multiplicação. A configuração do teste envolve o aprendizado do currículo, e o modelo integrado apresenta alta adaptabilidade, principalmente no tratamento de sequências longas que excedem a duração do treinamento. Comparações com métodos básicos como vanilla NTP, NTP com tokens de pausa e camadas limitadas ponderadas mostram que o modelo limitado com profundidade variável supera significativamente esses métodos. A pesquisa em ablação destaca o impacto positivo da injeção do implante e da profundidade variável no desempenho, com critérios de posicionamento baseados em alta confiança que garantem bons resultados.
Este trabalho tem várias limitações, incluindo requisitos computacionais para treinamento específico de log ao lidar com múltiplas etapas e dados de treinamento limitados devido a restrições de recursos. O uso da incorporação posicional simples (NoPE) também deixa espaço para melhorias. Além de exigir números de etapas verdadeiros para monitoramento, o método leva menos que o treinamento CoT. Concluindo, os transformadores integrados com direcionalidade dependente do passo melhoram efetivamente o desempenho a longo prazo, especialmente em tarefas desafiadoras de n-RASP-L. Embora os modelos anteriores lutassem com comprimentos de entrada abstratos, este método otimiza o número de etapas no tempo de decisão, demonstrando o potencial para desempenho extensivo em tarefas de raciocínio complexas.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..
Não se esqueça de participar do nosso SubReddit de 52k + ML.
Convidamos startups, empresas e institutos de pesquisa que trabalham em modelos de microlinguagem para participar deste próximo projeto Revista/Relatório 'Modelos de Linguagem Pequena' Marketchpost.com. Esta revista/relatório será lançada no final de outubro/início de novembro de 2024. Clique aqui para agendar uma chamada!
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a interseção entre IA e soluções da vida real.