Desenvolvimento do alinhamento MLLM com MM-RLHF: data de pessoa multimondal

Centenas de grandes idiomas (MLLMs) recebem atenção notável à sua capacidade de tratar tarefas complexas envolvendo visão, linguagem e integração de ruído. No entanto, eles não têm coesão total do que a base para uma boa orientação (SFT). Os tipos atuais de ponta são frequentemente esmagadores das seções de alinhamento constante, deixando aspectos importantes como autênticos, segurança e identificação de uma pessoa considerada. Os métodos existentes destinam -se apenas a domínios específicos, como a redução do desenvolvimento de alucinação ou variável, um curto cruzamento para melhorar o modelo e a confiança completos. Esse pequeno foco sugere as perguntas de que a probabilidade de uma pessoa pode melhorar os MLMMs em todo o trabalho mais amplo.

Nos últimos anos, vi um grande progresso no MLKMS, construído nos edifícios do GPTS, como GPTs, Llama, Alpaca, Vestido e Mistral. Esses modelos vêm do final do final, enfrentando o complexo treinamento multimodal envolvendo o alinhamento de documentos de imagem, pensamento e as seguintes instruções. Poucos MLLMs estão abertos, incluindo lontra, mppug-awl, illva, qwen-vl, Navita, emergem para enfrentar desafios multimodais básicos. No entanto, os esforços de alinhamento permaneceram limitados. Enquanto algoritmos como a verdade – rlHF e llavarit mostram alucinações reduzidas e melhorando as habilidades de conversação, elas não melhoraram as habilidades regulares. Uma estrutura de check -up como MME, MBekent e o banco de sementes foi desenvolvido para examinar esses modelos.

Investigadores KuaiShou, Casia, UTC, PKU, Daddy e Meta AI propuseram o conjunto de dados completo para o tamanho dos 50 dados. A metodologia está apresentando coisas novas: um modelo crítico baseado em uma crítica detalhada antes da pontuação e na renovação motivacional da renovação dos sinais de amostra. Promove a interpretação das decisões do modelo e a eficiência do processo de alinhamento, abordando as restrições dos processos tradicionais de recompensa de Scala em condições multimrais.

A implementação do MM-RLHF inclui o complexo processo de preparação e classificação de dados nos três domínios principais: o entendimento da imagem, compreensão de vídeo e segurança multimodal. A imagem da imagem inclui dados de muitas fontes, incluindo llava-ov, vlfeedback, Nellava-rlvhf, com muitas conversas convertidas em formato de uma volta. Essa combinação resulta em mais de 10 milhões de amostras, incluindo uma variedade de atividades, desde discussão básica até pensamentos complexos. O processo de filtragem de dados usa três instrumentos especificados: perguntas preferidas para insistência e compreensão, perguntas longas para explorar as habilidades e breves perguntas para imagens básicas.

O teste MM-RLHF e MM-DPO mostra melhorias importantes em todo o tamanho quando é incluído no Malava-Vover-7b e um interL. 1b. As habilidades de conversa são atualizadas em mais de 10%e as existências inseguras são reduzidas pelo menos 50%. Os modelos compreendidos mostram melhores resultados na redução adequada, pensamento matemático e muitas ilustrações, ou sem certas informações de treinamento. No entanto, a especificação do modelo especificada é visível, com diferentes modelos que requerem diferentes configurações de funcionalidade de hiperpaders. Além disso, os empregos mais altos da decisão exibem benefícios limitados devido a problemas de dados e estratégias de classificação não intencionais.

Nesta página, os pesquisadores trazem MM-RLHF, método de dados e alinhamento e como mostrar importante desenvolvimento no desenvolvimento do MLLM. Ao contrário dos métodos anteriores baseados no trabalho, esse método adota uma abordagem perfeita para melhorar o desempenho dos modelos em todo o tamanho. O adjetivo do adjetivo do dicionário do dicionário, incluindo pontuações por disposição e áreas de alta qualidade, fornece energia desagradável. Indicadores futuros de pesquisa se concentrarão em aplicar isso a estratégias de gastos avançados, incluindo altos limites de dados, e para expandir os dados de dados no semi padrão, que podem ser estabelecidos pela fundação das estruturas de aprendizado multimodais Mulkost.

Enquete Papel e projeto de papel. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, fique à vontade para segui -lo Sane E não se esqueça de se juntar ao nosso 75k + ml subreddit.

🚨 Pesquisa recomendada recomendada para nexo

SAJJAD ANSARI O último ano menor que as qualificações do IIT Kharagpur. Como entusiasmo de tecnologia, ele se estende a aplicativos práticos de IA que se concentram no entendimento do impacto tecnológico da IA e seus verdadeiros impactos no mundo. Com a intenção de especificar os conceitos de uma maneira complexa de AI clara e acessível.