No rápido desenvolvimento de sistemas de recomendação personalizados, o uso de vários métodos de dados tornou-se essencial para fornecer recomendações precisas e relevantes aos usuários. Os modelos de recomendação tradicionais baseiam-se frequentemente em fontes de dados únicas, o que limita a sua capacidade de compreender totalmente a natureza complexa e multifacetada do comportamento do utilizador e das características do produto. Esta limitação limita a sua eficácia na entrega de recomendações de alta qualidade. O desafio está em combinar vários métodos de dados para melhorar o desempenho do sistema, garantindo uma compreensão profunda e abrangente das preferências do usuário e das características dos objetos. Abordar esta questão continua sendo um foco importante para os pesquisadores.
Os esforços para melhorar os sistemas de recomendação levaram ao desenvolvimento de sistemas de recomendação multicomportamentais (MBRS) e abordagens baseadas no Large Language Model (LLM). MBRS utiliza dados de assistência comportamental para desenvolver recomendações direcionadas, usando métodos baseados em sequências, como transformações de gráficos temporais e técnicas baseadas em gráficos, como MBGCN, KMCLR e MBHT. Além disso, os sistemas baseados em LLM melhoram as representações de objetos do usuário usando dados contextuais ou avaliando a aprendizagem no contexto para fazer recomendações específicas. No entanto, embora métodos como o ChatGPT ofereçam novas oportunidades, a precisão das suas recomendações muitas vezes fica aquém em comparação com os sistemas tradicionais, destacando os desafios contínuos para alcançar o desempenho ideal.
Pesquisadores do Walmart propuseram uma nova estrutura chamada Triple Modality Fusion (TMF) para recomendações multimodalidades. Esta abordagem usa uma combinação de métodos de dados visuais, textuais e gráficos em alinhamento com LLMs. Os dados visuais capturam características contextuais e estéticas do objeto, os dados textuais fornecem experiência detalhada do usuário e características do objeto, e os dados gráficos mostram relacionamentos em gráficos de vários comportamentos de objetos. Além disso, os pesquisadores desenvolveram um módulo de fusão de modalidades baseado em modalidades de atenção e autoatenção para combinar diferentes modalidades de outros modelos no mesmo ambiente de incorporação e combiná-los com o LLM.
A estrutura TMF proposta é treinada em dados reais de comportamento do cliente da plataforma de comércio eletrônico do Walmart, que inclui categorias como Eletrônicos, Animais de estimação e Esportes. As ações do cliente, como visualizar, adicionar ao carrinho e comprar, definem uma sequência de comportamentos. Outros dados além do comportamento de compra não são incluídos; cada categoria cria um conjunto de dados que é analisado quanto à complexidade do comportamento do usuário. TMF usa Llama2-7B como modelo de backbone, CLIP para codificadores de imagem e texto e MHBT para incorporação de comportamento de objeto. O teste usa métricas como a identificação da verdade básica dos conjuntos de candidatos, o que garante um teste robusto da precisão da recomendação. TMF e outros modelos básicos são testados para encontrar o objeto de verdade no conjunto de candidatos.
Os resultados experimentais revelam que a estrutura TMF supera todos os modelos de referência em todos os conjuntos de dados. Ele atinge mais de 38% no HitRate@1 nos conjuntos de dados de Eletrônicos e Esportes, demonstrando sua eficácia no tratamento de interações complexas entre usuário e objeto. Mesmo para o conjunto de dados simples de animais de estimação, o TMF supera a linha de base do Llama2 usando integração de modo, o que melhora a precisão da recomendação. No entanto, o TMF com integração de modalidade pode melhorar o desempenho com a mesma proporção #Item/#User válida para qualidade de produção. O módulo AMSA proposto melhora muito o desempenho, sugerindo que a inclusão de vários métodos de informações de objetos no modelo permite que o recomendador baseado em LLM compreenda melhor os objetos integrando dados de imagem, texto e gráfico.
Concluindo, os pesquisadores apresentam uma estrutura de fusão tripla de modalidade (TMF) que melhora os sistemas de recomendação multimodal combinando dados visuais, textuais e gráficos com LLMs. Essa integração permite uma compreensão mais profunda do comportamento do usuário e das características do produto, levando a recomendações mais precisas e contextuais. O TMF usa um módulo de fusão de modalidades baseado em sua atenção e modalidades de atenção para alinhar diferentes dados com sucesso. Testes extensivos confirmam o alto desempenho do TMF em tarefas de recomendação, enquanto os estudos de extração destacam a importância de cada método e confirmam a eficácia do método de atenção cruzada na melhoria da precisão do modelo.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.
Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.
✅ [Recommended Read] Nebius AI Studio se expande com modelos de visão, novos modelos de linguagem, incorporados e LoRA (Aprimorado)