A recuperação de texto em aprendizado de máquina enfrenta grandes desafios no desenvolvimento de métodos eficientes de indexação e extração de documentos. Os métodos tradicionais dependiam de métodos de correspondência de pequenos dicionários, como o BM25, que usava frequências de n gramas. Contudo, esses modelos estatísticos apresentam limitações na captura de relações semânticas e contextuais. O principal mecanismo neural, a arquitetura do codificador binário, codifica documentos e consultas em um denso espaço latente para recuperação. No entanto, é necessário melhorar a capacidade de utilizar facilmente estatísticas de corpus anteriores, como a frequência inversa de documentos (IDF). Esta limitação torna os modelos neurais menos adaptáveis a domínios de recuperação específicos, pois requerem mais dependência do contexto do que os modelos estatísticos.
Os pesquisadores têm feito vários esforços para enfrentar os desafios na recuperação de texto. Modelos de incorporação de texto biencoder, como DPR, GTR, Contriever, LaPraDoR, Instructor, Nomic-Embed, E5 e GTE, foram desenvolvidos para melhorar o desempenho de recuperação. Alguns esforços estão focados em transformar esses modelos em novas empresas durante os testes, propondo soluções como amostragem não supervisionada, treinamento em corpora de teste e destilação de reparceiros. Além disso, outros métodos incluem agrupar as questões antes do treinamento e considerar uma amostra de um conjunto diferente como um problema global. Também foram testadas técnicas de adaptação ao tempo de teste, como correspondência de respostas fictícias, onde documentos relevantes são usados para melhorar a representação das questões.
Pesquisadores da Universidade Cornell propuseram uma maneira de resolver as limitações dos modelos atuais de recuperação de texto. Os pesquisadores argumentam que os embeddings de documentos existentes carecem de contexto para os casos de uso de recuperação pretendidos e sugerem que os embeddings de documentos devem considerar tanto o próprio documento quanto os documentos vizinhos. Dois métodos complementares são desenvolvidos para conseguir isso, para criar embeddings contextuais de documentos. A primeira abordagem introduz um objetivo de aprendizagem diferente que adiciona implicitamente vizinhos de documentos à perda de contexto intralote. A segunda abordagem introduz uma nova estrutura de contexto que integra diretamente informações vizinhas na representação.
O método proposto utiliza um método de treinamento em duas fases: uma grande fase de pré-treinamento bem supervisionada e uma curta fase supervisionada. A configuração de teste inicial usa uma configuração pequena com um transformador de seis camadas, comprimento máximo de sequência de 64 e até 64 tokens adicionais. Isto é testado com uma versão reduzida do benchmark BEIR, com vários clusters e tamanhos de cluster. No cenário principal, um modelo é treinado em uma sequência de 512 documentos de comprimento e 512 documentos de contexto e testado no benchmark MTEB completo. Os dados de treinamento incluem 200 milhões de pontos de dados fracamente supervisionados de fontes da Internet e 1,8 milhões de pares de consultas escritas por humanos de conjuntos de dados de recuperação. O modelo usa o NomicBERT como núcleo, que possui 137 milhões de parâmetros.
O método de agrupamento mostrou uma forte correlação entre a complexidade do cluster e o desempenho downstream, onde clusters que são mais fortes na aprendizagem reversa levam a uma melhor estimativa de gradiente e a uma aprendizagem mais eficiente. A arquitetura de contexto melhorou o desempenho em todos os conjuntos de dados downstream, com melhorias em conjuntos de dados menores e fora do domínio, como ArguAna e SciFact. O modelo atinge alto desempenho quando treinado em escala total após quatro épocas no conjunto de dados de metadados BGE. O modelo “cde-small-v1” alcançou resultados de última geração no benchmark MTEB em comparação com modelos do mesmo tamanho, mostrando melhor desempenho de incorporação em vários domínios, como clustering, segmentação e similaridade semântica.
Neste artigo, pesquisadores da Universidade Cornell propuseram uma maneira de abordar as limitações dos modelos atuais de recuperação de texto. Este artigo contém duas melhorias importantes nos modelos tradicionais de “biencoder” para produção embarcada. A primeira melhoria introduz um algoritmo para reordenar pontos de dados de treinamento para criar clusters mais desafiadores, melhorando o treinamento básico com modificações mínimas. Um segundo desenvolvimento introduz uma arquitetura de recuperação com reconhecimento de corpus, que permite o treinamento de um modelo moderno de incorporação de texto. Esta estrutura de contexto integra eficazmente informações de documentos vizinhos, abordando as limitações da incorporação independente.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)
Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.