Os modelos multimodais de IA são ferramentas poderosas, capazes de compreender e gerar conteúdo visual. No entanto, os métodos existentes utilizam frequentemente um único codificador virtual para ambas as tarefas, resultando num fraco desempenho devido às necessidades muito diferentes de compreensão e processamento. A compreensão requer abstração semântica de alto nível, enquanto a geração se concentra em detalhes locais e na coerência global. Essa incompatibilidade causa atrito que reduz a eficiência geral e a precisão do modelo.
Pesquisadores da DeepSeek-AI, da Universidade de Hong Kong e da Universidade de Pequim propõem Janus, uma nova estrutura autônoma que integra compreensão e geração multimodal usando dois métodos diferentes de texto visual. Ao contrário dos modelos anteriores que utilizam um único encoder, Janus introduz um método especial para cada função, ambos processados por um conversor integrado. Este design exclusivo alivia o atrito inerente aos modelos anteriores e proporciona maior flexibilidade, permitindo diferentes métodos de codificação mais adequados para cada método. O nome “Janus” representa melhor esta unidade, como o deus romano, com duas faces representando mudança e coexistência.
A arquitetura Janus consiste em dois componentes principais: Understanding Encoder e Generation Encoder, cada um com a tarefa de tratar a entrada multimodal separadamente. Para compreensão multimodal, Janus usa um método de extração de características semânticas de alta dimensão com SigLIP, que transforma as características em sequências correspondentes ao modelo de linguagem. Para criar visualizações, Janus utiliza um token VQ que transforma dados visuais em representações discretas, permitindo a integração de imagens detalhadas. Ambas as funções são processadas por um transformador compartilhado, permitindo que o modelo opere automaticamente. Esta abordagem permite que o modelo isole os requisitos de cada função virtual, simplificando a implementação e melhorando a escalabilidade.
O treinamento é dividido em três categorias: adaptadores de treinamento, pré-treinamento integrado e ajuste fino supervisionado, que melhoram suas habilidades multitarefa enquanto mantêm a consistência em diferentes tarefas.
Os resultados dos testes mostram que o Janus supera os modelos anteriores em vários benchmarks. Com a compreensão multimodal, Janus alcançou resultados impressionantes, superando o LLaVA-v1.5 e outros modelos combinados, ao mesmo tempo que igualou ou superou modelos específicos de tarefas em alguns casos. Especificamente, Janus obteve pontuação de 69,4, 63,7 e 87,0 em benchmarks multimodais como MMBench, SEED-Bench e POPE, respectivamente, o que supera modelos maiores como Qwen-VL-Chat (7B). Em tarefas de geração visual, o Janus também apresentou alto desempenho, alcançando uma Distância de Incepção Fréchet (FID) de 8,53 no MSCOCO-30K, mostrando melhor concordância com as informações do usuário do que modelos concorrentes como DALL-E 2 e SDXL. Notavelmente, estes resultados mostram que o Janus fornece capacidades equilibradas para compreender e gerar conteúdo visual, ao mesmo tempo que é parametricamente eficiente.
Concluindo, Janus apresenta um grande avanço no desenvolvimento de modelos integrados de IA multimodais, resolvendo o conflito entre percepção e ação. Seu método de classificação mostra-se eficaz e eficiente, permitindo compreensão semântica de alta qualidade e geração visual detalhada. Esta flexibilidade torna o Janus um candidato promissor para desenvolvimentos futuros em IA multimodal, com aplicações que podem estender-se a modalidades adicionais, como nuvens de pontos ou dados de áudio. A extensibilidade, flexibilidade e desempenho robusto do Janus destacam o seu potencial para servir de inspiração para a próxima geração de modelos multimodais integrados.
Confira Papel, Cartão modelo em rosto abraçadode novo Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.
[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.