Os Modelos de Linguagem em Grande Escala (LLMs) revolucionaram as capacidades de geração de texto, mas enfrentam o grande desafio das ilusões visuais, que geram informações falsas, especialmente para conteúdos longos. Os pesquisadores desenvolveram a Geração Aumentada Recuperada (RAG) para resolver esse problema, o que melhora a precisão factual ao combinar documentos relevantes de fontes confiáveis em informações de entrada. Embora o RAG tenha se mostrado promissor, vários métodos de avaliação, como FLARE e Self-RAG, surgiram para melhorar ainda mais a precisão. No entanto, estes métodos ainda são limitados pela sua dependência da arquitetura RAG tradicional, onde o contexto retornado é a única forma de feedback online combinado com a string de entrada.
Os métodos tradicionais de geração de texto evoluíram de várias maneiras importantes para melhorar a precisão factual e a relevância contextual. Os métodos de recuperação iterativa geram respostas em segmentos com cada segmento usando informações recém-adquiridas. ITER-RETGEN é um exemplo deste método ao usar saídas anteriores para formar consultas para posterior recuperação de informações. Sistemas de recuperação convencionais como FLARE e DRAGIN melhoraram esse processo usando sentenças e geração de sentenças com validação baseada em confiança. Além disso, LLMs de longo prazo exploraram métodos baseados em memória, como Memory3, que combina informações usando caches KV como memórias. Outros sistemas, como Memorizing Transformers e LongMem, tentaram métodos de recuperação de memória.
Uma equipe de pesquisadores da Meta FAIR propôs EWE (Exact Working Memory), um novo método de IA que melhora a precisão da geração de texto longo usando um sistema de memória de trabalho. Este sistema integra exclusivamente feedback em tempo real de recursos externos e utiliza métodos de verificação de factos online para atualizar continuamente a sua memória. A principal inovação está na capacidade de detectar e corrigir alegações falsas durante o próprio processo de produção, em vez de confiar apenas em informações previamente adquiridas. Além disso, a eficácia do EWE foi demonstrada através de testes abrangentes em conjuntos de dados que geram quatro formulários de apuração de factos, mostrando melhorias significativas nas métricas de apuração de factos, mantendo ao mesmo tempo a qualidade da resposta.
A arquitetura EWE representa uma estrutura flexível que pode se adaptar a diversas configurações, mantendo a eficiência. Basicamente, o EWE usa um módulo de memória com várias unidades que pode ser atualizado dinamicamente durante a produção. Este design permite que o EWE opere em diferentes modos, desde um simples RAG ao usar uma única unidade de memória sem parar, até uma operação semelhante ao FLARE ao usar a validação em nível de frase. Ao contrário de métodos semelhantes, como Memory3, o EWE não requer pré-codificação de todos os episódios e inclui especificamente atualizações dinâmicas de memória durante o processo de produção. Esta flexibilidade permite o processamento simultâneo de diferentes tipos de feedback externo por diferentes unidades de memória.
Os resultados do teste mostram uma melhoria significativa na precisão em vários conjuntos de dados. Usando o modelo básico Llama-3.1 70B, o aumento dos retornos melhora consistentemente as métricas verdadeiras. Embora os métodos concorrentes mostrem resultados mistos, com o Nest apresentando bom desempenho apenas em conjuntos de dados de Biografia e o DRAGIN mostrando desempenho semelhante no aprimoramento de recuperação básica, o EWE atinge o VeriScore F1 mais alto em todos os conjuntos de dados. O CoVe, apesar da alta precisão, produz respostas curtas que levam a um baixo desempenho de recuperação. O EWE mantém um desempenho comparável ao modelo básico, com taxas de ganhos úteis de cerca de 50%, medidas pela AlpacaEval.
Concluindo, a equipe da Meta FAIR apresentou EWE (Exact Working Memory), que representa um grande avanço no enfrentamento do desafio da precisão factual na geração de textos longos. A abordagem de memória ativa do sistema, que opera com pausas periódicas e atualizações de memória com base na recuperação e verificação de fatos, demonstra o potencial para conteúdo gerado por IA mais confiável. Este estudo identificou fatores críticos de sucesso, incluindo atualizações oportunas de memória, mecanismos de atenção focada e armazenamento de dados de recuperação de alta qualidade, abrindo caminho para desenvolvimentos futuros em sistemas de geração de texto autêntico.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.
Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.
🧵🧵 Siga-nos no X (Twitter) para pesquisas gerais sobre IA e atualizações de desenvolvimento aqui…