Desvendando a memória de Schrödinger: abordagens de memória dinâmica para modelos de linguagem baseados em transformadores

Os LLMs demonstram habilidades linguísticas notáveis, o que levanta questões sobre seus processos de memória. Ao contrário dos humanos, que usam a memória para realizar tarefas diárias, a “memória” dos LLMs é baseada em entradas e não em armazenamento externo. Os esforços de pesquisa visam melhorar a retenção de LLMs, aumentando o comprimento do contexto e integrando sistemas de memória externos. No entanto, estes métodos não explicam completamente como a memória funciona nestes modelos. O fornecimento ocasional de informações desatualizadas pelos LLMs indica uma forma de memória, embora a sua natureza precisa não seja clara. Compreender como a memória LLM difere da memória humana é fundamental para o avanço da pesquisa em IA e suas aplicações.

Pesquisadores da Universidade Politécnica de Hong Kong usam o Teorema de Aproximação Universal (UAT) para descrever a memória em LLMs. Eles sugerem que a memória do LLM, chamada de “memória de Schrödinger”, só é visível quando questionada, uma vez que a sua existência permanece invisível. Usando o UAT, eles argumentam que os LLMs são capazes de aproximar o conhecimento passado com base em características de entrada, como a memória. Sua pesquisa apresenta uma nova maneira de avaliar as habilidades de memória do LLM e compara a memória e as habilidades cognitivas do LLM com as dos humanos, destacando semelhanças e diferenças. O estudo também fornece evidências teóricas e experimentais que apoiam a capacidade de memória dos LLMs.

O UAT forma a base para o aprendizado profundo e define a memória em LLMs baseados em Transformer. O UAT mostra que as redes neurais podem estimar qualquer tarefa contínua. Nos modelos Transformer, este princípio é aplicado dinamicamente com base nos dados de entrada. As camadas do transformador ajustam seus parâmetros à medida que processam informações, permitindo que o modelo ajuste funções em resposta a diferentes entradas. Especificamente, um mecanismo de atenção com múltiplas cabeças altera parâmetros para gerenciar e reter informações de maneira eficaz. Este ajuste adaptativo permite que os LLMs demonstrem habilidades semelhantes às da memória, permitindo-lhes recordar e usar informações passadas ao responder perguntas.

A pesquisa examina a capacidade de memória dos LLMs. Primeiro, ele define a memória como exigindo entrada e saída: a memória é acionada pela entrada e a saída pode ser correta, incorreta ou esquecida. Os LLMs mostram a memória combinando a entrada com a saída, como a memória humana. Experimentos usando conjuntos de dados de poesia chinesa e inglesa testaram o poder dos modelos de repetição de poesia baseados em informações esparsas. Os resultados mostraram que modelos maiores com melhor conhecimento linguístico tiveram melhor desempenho. Além disso, textos de entrada mais longos diminuíram a precisão da memória, indicando uma correlação entre o comprimento da entrada e o desempenho da memória.

A pesquisa diz que os LLMs têm habilidades de memória e pensamento semelhantes à cognição humana. Tal como as pessoas, os LLMs produzem resultados baseados no conhecimento aprendido, em vez de reter o conhecimento estático. Os pesquisadores sugerem que o cérebro humano e os LLMs atuam como modelos adaptativos que se adaptam às informações, promovendo a criatividade e a flexibilidade. As limitações à hipótese LLM são atribuídas ao tamanho do modelo, qualidade dos dados e arquitetura. A abordagem cognitiva dinâmica do cérebro, exemplificada por casos como o de Henry Molaison, permite aprendizagem contínua, criatividade e inovação, os mesmos pontos fortes dos LLMs para o pensamento complexo.

Concluindo, a pesquisa mostra que os LLMs, apoiados por sua arquitetura baseada em Transformer, exibem capacidades de memória semelhantes à consciência humana. A memória do LLM, chamada de “memória de Schrödinger”, só é revelada quando alguma entrada a aciona, mostrando o UAT em seu estado dinâmico. A pesquisa valida experimentalmente a memória do LLM e a compara ao funcionamento do cérebro humano, encontrando semelhanças em seus mecanismos de resposta dinâmica. O estudo sugere que a memória dos LLMs funciona como a memória humana, apenas para ser identificada por certas questões, e explora as semelhanças e diferenças entre os processos cognitivos humanos e LLM.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..

Não se esqueça de participar do nosso Mais de 50k ML SubReddit

⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)

Sana Hassan, consultora da Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a interseção entre IA e soluções da vida real.

⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)

Source link

Você também pode gostar...

Nous Research lança dois novos projetos: Forge Reasoning API Beta e Nous Chat

NotebookLM apresenta integração de áudio com o YouTube e melhora o compartilhamento de revisão de áudio

Do ONNX à incorporação estática: o que torna os conversores de frases v3.2.0 uma virada de jogo?

Deixe um comentário Cancelar resposta