Autores Pesquisadores apresentam Writing at the Edges (WiM): um novo padrão conceitual para grandes modelos de linguagem projetados para melhorar o gerenciamento de longas sequências de entrada em tarefas orientadas para recuperação

A inteligência artificial (IA) e o processamento de linguagem natural (PNL) registaram avanços significativos nos últimos anos, particularmente no desenvolvimento e implementação de modelos linguísticos de grande escala (LLMs). Esses modelos são úteis para diversas tarefas, como criar texto, responder perguntas e resumir documentos. No entanto, embora os LLMs tenham mostrado um potencial notável, eles encontram limitações ao processar longas sequências de entrada. As janelas de contexto fixas encontradas em muitos modelos restringem a sua capacidade de lidar com grandes conjuntos de dados, o que pode impactar negativamente o seu desempenho em tarefas que requerem o armazenamento de informações complexas e amplamente distribuídas. Este desafio requer o desenvolvimento de novos métodos para estender as janelas de contexto ativo dos modelos sem sacrificar o desempenho ou exigir recursos computacionais excessivos.

O principal problema dos LLMs é manter a precisão ao lidar com grandes quantidades de dados de entrada, especialmente para tarefas orientadas à recuperação. À medida que o tamanho da entrada aumenta, os modelos muitas vezes lutam para se concentrar nas informações relevantes, levando à degradação do desempenho. A tarefa torna-se mais difícil quando informações confidenciais estão enterradas entre dados irrelevantes ou menos importantes. Com uma máquina que direciona o modelo para as partes críticas da entrada, recursos computacionais significativos são frequentemente gastos no processamento de seções desnecessárias. Os métodos tradicionais de gerenciamento de conteúdo longo, como simplesmente aumentar o tamanho da janela de contexto, são computacionalmente caros e nem sempre produzem a melhoria desejada no desempenho.

Várias abordagens foram propostas para resolver essas limitações. Um dos métodos mais comuns é a atenção escassa, que concentra especificamente a atenção do modelo em pequenos conjuntos de entradas, o que reduz a carga computacional. Outras técnicas incluem extrapolação de comprimento, que tenta estender o comprimento efetivo de entrada do modelo sem aumentar drasticamente sua complexidade computacional. Técnicas como a compressão de contexto, que resume as informações mais importantes de um determinado texto, também têm sido utilizadas. Técnicas de informação como a Cadeia de Pensamento (CoT) dividem tarefas complexas em etapas pequenas e gerenciáveis. Esses métodos alcançaram vários graus de sucesso, mas muitas vezes envolvem uma compensação entre eficiência computacional e precisão do modelo.

Pesquisadores da Writer, Inc. introduziu um novo padrão de indexação chamado Escrevendo nas Margens (WiM). Este método visa melhorar o desempenho dos LLMs em tarefas que requerem recuperação de conteúdo longo, utilizando um novo método de processamento de segmentação. Em vez de processar toda a sequência de entrada de uma só vez, o WiM divide o contexto em partes menores e gerenciáveis. Durante o processamento de cada peça, notas na margem central orientam o modelo. Essas notas ajudam o modelo a identificar informações relevantes e a fazer previsões informadas. Ao incorporar esta abordagem de componentes, o WiM melhora muito a eficiência e a precisão do modelo sem exigir ajustes finos.

O método WiM divide a entrada em pedaços de tamanho fixo durante a fase de pré-preenchimento. Isso permite que o cache do modelo de valor-chave (KV) seja preenchido de forma incremental, permitindo que o modelo processe a entrada com mais eficiência. Este processo produz notas de margem, que são resumos baseados em perguntas. Essas notas são então recombinadas no resultado final, fornecendo ao modelo informações detalhadas para orientar seu pensamento. Essa abordagem reduz a sobrecarga computacional e, ao mesmo tempo, melhora a compreensão do modelo sobre cenários de longo prazo. Os investigadores descobriram que esta abordagem melhora o desempenho do modelo e aumenta a clareza do seu processo de tomada de decisão, uma vez que os utilizadores finais podem visualizar as notas de margem e compreender como o modelo chega às suas conclusões.

Em termos de desempenho, o WiM oferece resultados impressionantes em vários benchmarks. Para tarefas de inferência como HotpotQA e MultiHop-RAG, o método WiM melhora a precisão do modelo em uma média de 7,5%. Ainda mais notável, em tarefas que envolvem integração de dados, como o benchmark Common Words Extraction (CWE), o WiM proporciona um aumento de mais de 30% na pontuação F1, demonstrando sua eficácia em tarefas que exigem que o modelo integre informações de grandes conjuntos de dados. Os pesquisadores relataram que o WiM oferece uma vantagem significativa em aplicações em tempo real, pois reduz a latência das respostas do modelo, permitindo que os usuários visualizem o progresso como os processos de entrada. Este recurso permite a saída antecipada do estágio de processamento se uma resposta satisfatória for recebida antes que toda a entrada tenha sido processada.

Os pesquisadores também implementaram o WiM usando a biblioteca Hugging Face Transformers, tornando-o acessível a um público mais amplo de desenvolvedores de IA. Ao lançar o código como código aberto, eles incentivam mais testes e desenvolvimento da metodologia WiM. Esta estratégia está alinhada com a tendência crescente de tornar as ferramentas de IA transparentes e autoexplicativas. A capacidade de visualizar resultados intermediários, como notas de margem, torna mais fácil para os usuários confiarem nas decisões do modelo, pois podem compreender o raciocínio por trás do resultado. Em termos práticos, isto pode ser especialmente importante em domínios como a análise de documentos jurídicos ou a investigação académica, onde a clareza das decisões em matéria de IA é importante.

Concluindo, Writing on the Edge oferece uma solução nova e prática para um dos desafios mais importantes dos LLMs: a capacidade de lidar com cenários longos sem sacrificar a funcionalidade. Ao introduzir o processamento de fase inteligente e a geração de notas de margem, o método WiM aumenta a precisão e a eficiência em tarefas de conteúdo longas. Melhora as habilidades de raciocínio, conforme evidenciado por um aumento de 7,5% na precisão em tarefas de raciocínio multi-hop, e é mais eficaz em tarefas de integração, com um aumento de 30% na pontuação F1 do CWE. Além disso, o WiM proporciona transparência à tomada de decisões de IA, tornando-o uma ferramenta valiosa para aplicações que requerem resultados interpretáveis. O sucesso do WiM sugere que é uma direção promissora para pesquisas futuras, especialmente porque a IA continua a ser usada em tarefas complexas que exigem o processamento de grandes conjuntos de dados.

Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..

Não se esqueça de participar do nosso Mais de 50k ML SubReddit

⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)

Source link

Você também pode gostar...

SynSUM: uma referência prática para sintetizar notas clínicas e dados estruturados

5 padrões de design eficazes trabalhando com agentes LLM em aplicações do mundo real

CodeJudge: uma estrutura de aprendizado de máquina usando LLMs para medir a produção de código sem a necessidade de casos de teste

Deixe um comentário Cancelar resposta