pEBR: um novo modelo de recuperação probabilística incorporada para enfrentar os desafios da sub-recuperação de consultas principais e recuperação insignificante de consultas finais
Inteligência artificial

pEBR: um novo modelo de recuperação probabilística incorporada para enfrentar os desafios da sub-recuperação de consultas principais e recuperação insignificante de consultas finais


Criar um espaço semântico comum onde consultas e objetos possam ser representados como vetores densos é o principal objetivo da recuperação baseada em incorporação. Em vez de depender da correspondência exata de palavras-chave, esta abordagem permite a correspondência ativa com base na similaridade semântica. Os itens semânticos relacionados são colocados próximos uns dos outros em um local comum, à medida que a pesquisa e os itens são incorporados dessa forma. Os métodos do vizinho mais próximo aproximado (ANN), que melhoram muito a velocidade e a eficiência de localização de características importantes em grandes conjuntos de dados, são possibilitados por isso.

Os sistemas de recuperação são projetados para recuperar um número específico de itens por consulta na maioria das aplicações industriais. No entanto, esta estratégia de recuperação consistente tem limitações. Consultas populares ou importantes, como aquelas relacionadas a marcas conhecidas, podem, por exemplo, exigir uma gama mais ampla de resultados para capturar totalmente uma série de fatores importantes. A baixa recordação pode resultar do encerramento sistemático desta pesquisa, o que pode deixar de fora outros itens importantes. Por outro lado, o sistema pode retornar muitos resultados irrelevantes para consultas muito focadas ou direcionadas, que muitas vezes contêm poucos itens importantes, diminuindo a precisão. O uso comum de técnicas frequentistas para criar funções de perda, que muitas vezes não levam em conta a diversidade entre os diferentes tipos de questões, é uma das principais causas desta dificuldade.

Para superar essas limitações, a equipe de pesquisa introduziu a recuperação baseada em incorporação probabilística (pEBR), uma abordagem probabilística que substitui a abordagem frequentista. Em vez de tratar todas as consultas da mesma maneira, o pEBR altera dinamicamente o processo de recuperação de acordo com a distribuição dos elementos-chave que suportam cada consulta. Em particular, o pEBR usa uma função de distribuição cumulativa probabilística (CDF) para determinar um limite de similaridade de cosseno personalizado para cada consulta. O sistema de recuperação é capaz de definir limites variáveis ​​que melhor atendam aos requisitos exclusivos de cada consulta, modelando a probabilidade de fatores relevantes para cada consulta. Isso permite que o sistema de recuperação capture os itens mais relevantes para as consultas principais e filtre os irrelevantes com as consultas finais.

A equipe compartilhou que de acordo com as descobertas experimentais, este possível método melhora a recordação, ou seja, o alinhamento dos resultados, e a precisão, ou seja…, a consistência dos resultados. Além disso, experimentos de ablação, que eliminam sistematicamente partes do modelo para avaliar seus efeitos, mostraram que a eficácia do PEBR é altamente dependente de sua capacidade de distinguir dinamicamente entre consultas iniciais e finais. O pEBR superou as limitações dos limites fixos, capturando uma distribuição diferente de valores para cada consulta, proporcionando uma experiência de recuperação mais precisa e adaptável para vários padrões de consulta.

A equipe resume suas principais contribuições da seguinte forma.

  1. Um paradigma de duas torres, no qual objetos e questões são representados no mesmo espaço semântico, foi introduzido como método geral para recuperação baseada em foco.
  1. Funções pontuais de perda e fluxo binário em sistemas de recuperação são identificadas como técnicas básicas.
  1. A pesquisa propôs funções de perda baseadas em escala diferencial e alta probabilidade para melhorar o desempenho de recuperação.
  1. A utilidade do método proposto foi demonstrada por experimentos, que mostraram ganhos significativos na precisão da recuperação.
  1. O estudo Ablation examinou os componentes do modelo para compreender como cada componente afeta o desempenho geral.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Sponsorship Opportunity with us] Promova sua pesquisa/produto/webinar para mais de 1 milhão de leitores mensais e mais de 500 mil membros da comunidade


Tanya Malhotra está em seu último ano na Universidade de Estudos de Petróleo e Energia, Dehradun, cursando BTech em Engenharia de Ciência da Computação, com especialização em Inteligência Artificial e Aprendizado de Máquina.
Ele é um entusiasta de Data Science com forte pensamento analítico e analítico, e grande interesse em adquirir novas habilidades, liderar equipes e gerenciar o trabalho de forma organizada.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *