Rotary Positional Embeddings (RoPE) é uma técnica avançada em inteligência artificial que melhora a codificação espacial em modelos de transformadores, especialmente para dados sequenciais, como linguagem. Os modelos de transformadores lutam naturalmente com a ordenação posicional porque lidam com cada token individualmente. Os pesquisadores exploraram métodos de incorporação que incluem as posições dos tokens em uma sequência para resolver isso, permitindo que esses modelos lidem com dados ordenados de maneira eficaz. Os métodos tradicionais concentram-se na codificação senoidal ou de correlação, que altera a incorporação com base na posição do token, mas não tem flexibilidade para lidar com dependências de sequência complexas que geralmente envolvem contexto longo, especialmente em tarefas automatizadas.
Os modelos de transformadores enfrentam um grande desafio na manutenção de informações de contexto em sequências estendidas, especialmente em sistemas que exigem dependências de longo prazo, como compreensão e produção de linguagem. À medida que evoluem sequencialmente, os transformadores tendem a perder o foco nos componentes anteriores, afetando a sua capacidade de lidar com situações complexas ou extensas. Essa deterioração da memória representa um grande desafio para tarefas automatizadas, que exigem que o modelo armazene informações temporais e espaciais em todos os lugares. Enfrentar esse desafio é fundamental para melhorar a precisão e o desempenho do modelo em aplicações do mundo real.
Embora os métodos tradicionais, como a codificação senoidal e posicional, forneçam aos transformadores um certo grau de consciência de sequência, eles geralmente ficam aquém de tarefas de sequência complexas. Alternativas como o Transformer-XL expandem a capacidade de memória para lidar com dependências de longo alcance, mas ainda não fornecem uma modulação clara da frequência de incorporação, limitando sua eficácia no tratamento de dependências temporais complexas. Essas técnicas representam um progresso fundamental na área de codificação em arquiteturas de transformadores, mas carecem da profundidade necessária para manter uma memória precisa de longo prazo e uma codificação baseada em vários níveis.
Pesquisadores da Universidade Sapienza de Roma investigaram como a incorporação modulada por RoPE se encaixa em modelos de transformadores, particularmente com componentes de rede feed-forward (FFN). Em vez de introduzir um novo método, os pesquisadores analisaram como a função de ativação dentro dos FFNs interage com os embeddings processados pelo RoPE para produzir harmônicos baseados em frequência. Esses harmônicos resultam em interferência construtiva ou destrutiva causada por desalinhamento de fase ou desalinhamento incorporado. Ao examinar essas interações, a equipe fornece novos insights sobre o funcionamento interno do RoPE, mostrando como o alinhamento de fases na incorporação aumenta significativamente o foco do modelo e a retenção de memória, aumentando a ativação relevante. Em contraste, a ambiguidade de fase reduz a atenção do modelo aos detalhes posicionais.
A pesquisa incluiu análises teóricas e empíricas para examinar os efeitos do RoPE em modelos de transformadores autorregressivos, como LLaMA 2 e LLaMA 3, onde RoPE atua como um método de codificação espacialmente invariante. Por meio de experimentos incorporados após usar rotações baseadas em RoPE, os pesquisadores observaram como as mudanças de fase simuladas influenciam os escores de atenção. A equipe usou mais de 1.000 amostras de texto com 200 tokens cada e projetou uma sequência sintética para testar interações de classe em FFNs. Métricas como variância, curtose e entropia foram calculadas nas diferentes camadas para identificar diferenças comportamentais em segmentos alinhados versus desalinhados. O alinhamento geralmente resultou em padrões de ativação estáveis, enquanto o desalinhamento apresentou maior entropia, sugerindo maior instabilidade.
A incorporação modulada do RoPE introduz oscilações dinâmicas, fazendo com que a incorporação varie em magnitude com base na localização. Esta dinâmica, que cria uma mudança de fase, enriquece o mecanismo de atenção do modelo, adicionando sensibilidade às diferenças posicionais. A interferência construtiva ocorre em embeddings alinhados por fase, aumentando a ativação no modelo e permitindo atenção a padrões específicos. Se as fases estiverem desalinhadas, ocorrerão interferências destrutivas, enfraquecendo a atenção a parâmetros específicos e tornando difícil para o modelo manter a dependência a longo prazo.
Por meio de testes detalhados, os pesquisadores observaram comportamentos diferentes entre sequências diretas e indiretas em termos de estabilidade e distribuição de ativação. No LLaMA 2, sequências alinhadas tendem a apresentar ativação média estável, enquanto sequências desalinhadas apresentam maior curtose e entropia à medida que as camadas se aprofundam, sugerindo mais instabilidade. Este comportamento faz com que os transformadores tenham grande dificuldade em processar a informação espacial quando esta não está bem especificada, o que prejudica o armazenamento da informação em longas sequências.
Em resumo, este estudo revela que a capacidade do RoPE de introduzir harmônicos baseados em frequência na incorporação do transformador tem um impacto significativo no foco de atenção e na retenção de memória. Ao investigar os efeitos do alinhamento de fase e da interferência, os pesquisadores forneceram insights sobre como os transformadores podem lidar melhor com dados sequenciais, especialmente em operações que exigem dependências de curto e longo prazo.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Trending] LLMWare apresenta Model Depot: uma coleção abrangente de modelos de linguagem pequena (SLMs) para PCs Intel
Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️