LLM-KT: uma estrutura flexível para o desenvolvimento de modelos de filtragem interativos com recursos incorporados desenvolvidos por LLM

A Filtragem Colaborativa (CF) é amplamente usada em sistemas de recomendação para combinar as preferências do usuário com os objetos, mas muitas vezes enfrenta problemas com relacionamentos complexos e adaptação às mudanças nas interações do usuário. Recentemente, os pesquisadores exploraram o uso de LLMs para melhorar as recomendações usando suas habilidades de raciocínio. Os LLMs são integrados em diferentes fases, desde a criação de conhecimento até a colocação de candidatos. Embora eficaz, esta integração pode ser cara, e os métodos existentes, como KAR e LLM-CF, apenas melhoram os modelos de CF sensíveis ao contexto ao adicionar recursos textuais capturados pelo LLM.

Pesquisadores da HSE University, MIPT, Ural Federal University, Sber AI Lab, AIRI e ISP RAS desenvolveram LLM-KT, uma estrutura dinâmica projetada para melhorar modelos de CF incorporando recursos gerados por -LLM em modelos intermediários. Ao contrário dos métodos anteriores que dependem da entrada direta de recursos capturados pelo LLM, o LLM-KT integra esses recursos dentro do modelo, permitindo reconstruir e usar os recursos incorporados. Esta abordagem flexível não requer alterações estruturais, tornando-a adequada para uma variedade de modelos de FC. Experimentos no MovieLens e no conjunto de dados da Amazon mostram que o LLM-KT melhora significativamente os modelos de linha de base, alcançando um aumento de 21% no NDCG@10 e superando os métodos de reconhecimento de contexto de última geração.

O método proposto apresenta um método de transferência de conhecimento que melhora os modelos de CF ao incorporar os recursos gerados pelo LLM na camada interna estabelecida. Essa abordagem permite que os modelos CF aprendam com precisão as preferências do usuário sem alterar suas propriedades, criando perfis baseados nas interações usuário-objeto. Os LLMs usam informações adaptadas aos dados de interação de cada usuário para criar resumos de preferências, ou “perfis”, que são convertidos em incorporações com um modelo de texto pré-treinado, como “text-embedding-ada-002”. Para melhorar esta integração, o modelo CF é treinado com uma função auxiliar de identificação, que combina a perda do modelo original com a perda de reconstrução que alinha os embeddings do perfil com a reflexão interna do modelo CF. Esta configuração usa UMAP para alinhamento de dimensionalidade e RMSE para perda de reconstrução, garantindo que o modelo represente com precisão as preferências do usuário.

A estrutura LLM-KT, construída em RecBole, suporta configurações de teste flexíveis, permitindo aos pesquisadores definir pipelines detalhados com um único arquivo de configuração. Os principais recursos incluem suporte para combinação de perfis gerados por LLM de várias fontes, um sistema de configuração flexível e testes em lote com ferramentas analíticas para comparar resultados. A estrutura interna da estrutura inclui o Model Wrapper, que supervisiona componentes-chave como o Hook Manager para acessar representações centrais, o Weight Manager para controle de ajuste fino e o Loss Manager para personalizar as perdas. Este design modular facilita a transferência e otimização de informações, permitindo que os pesquisadores testem e refinem modelos de FC de maneira eficaz.

A configuração experimental avalia o mecanismo de transferência de conhecimento proposto dos modelos CF de duas maneiras: para modelos convencionais que usam apenas dados de interação usuário-objeto e para modelos sensíveis ao contexto que podem usar recursos de entrada. Os experimentos foram realizados nos conjuntos de dados “CD e Vinil” e MovieLens da Amazon, usando uma divisão de teste de validação de trem de 70-10-20%. Os modelos básicos de CF incluem NeuMF, SimpleX e MultVAE, enquanto KAR, DCN e DeepFM foram usados para comparações sensíveis ao contexto. O método foi avaliado com métricas de classificação (NDCG@K, Hits@K, Recall@K) e AUC-ROC de funções de taxa de cliques. Os resultados mostraram melhorias consistentes de desempenho em todos os modelos, com versatilidade e precisão comparáveis aos métodos existentes, como o KAR.

A estrutura LLM-KT fornece uma maneira flexível de desenvolver modelos de CF incorporando recursos gerados pelo LLM na camada intermediária, permitindo que os modelos usem essas incorporações internamente. Ao contrário dos métodos tradicionais que incluem LLM diretamente, o LLM-KT permite a transferência contínua de conhecimento para todos os tipos de estruturas de CF sem alterar sua estrutura. Construída na plataforma RecBole, a estrutura permite configuração flexível para fácil integração e adaptação. Experimentos com MovieLens e o conjunto de dados da Amazon confirmam ganhos significativos de desempenho, mostrando que o LLM-KT é competitivo com métodos avançados em modelos sensíveis ao contexto e funciona em uma ampla gama de modelos CF.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Sponsorship Opportunity with us] Promova sua pesquisa/produto/webinar para mais de 1 milhão de leitores mensais e mais de 500 mil membros da comunidade

Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a interseção entre IA e soluções da vida real.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Pesquisadores da UC Riverside propõem árvore Pkd (árvore kd paralela): uma árvore kd paralela que funciona bem tanto no conceito quanto na prática

Meissonic: um modelo de síntese de texto para imagem não autorregressivo que pode produzir imagens de alta resolução

IA e direito contratual: contratos inteligentes e tomada de decisão automatizada

Deixe um comentário Cancelar resposta