O campo da imagem e da inteligência orientadas pela IA tem registado um progresso rápido, mas desafios significativos impedem o desenvolvimento de uma abordagem unificada e contínua. Atualmente, os modelos que se destacam na compreensão da fotografia muitas vezes lutam para produzir imagens de qualidade e vice-versa. A necessidade de manter estruturas separadas para cada tarefa não só aumenta a complexidade, mas também limita a eficiência, dificultando o tratamento de tarefas que exigem compreensão e execução. Além disso, muitos modelos existentes dependem fortemente de modificações estruturais ou componentes pré-treinados para executar qualquer tarefa de forma eficaz, levando a compensações de desempenho e desafios de integração.
DeepSeek AI lançou JanusFlow: uma estrutura de IA poderosa que combina compreensão e geração de imagens em um único modelo. JanusFlow visa resolver as principais ineficiências mencionadas anteriormente, combinando reconhecimento de imagem e execução de arquitetura unificada. Essa nova estrutura usa um design minimalista que oferece suporte a modelos de linguagem automatizados em conjunto com um fluxo de trabalho simplificado – um método de produção de última geração. Ao eliminar a necessidade de LLM e componentes de fabricação separados, o JanusFlow alcança funcionalidades mais integradas e reduz a complexidade arquitetônica. Ele introduz uma arquitetura de decodificador duplo que separa tarefas de compreensão e execução e alinha representações para garantir coerência funcional em um esquema de treinamento unificado.
Detalhes técnicos
JanusFlow integra fluxos configurados com um modelo de linguagem em larga escala (LLM) de forma simples e eficiente. A arquitetura contém codificadores separados para funções de compreensão e produção. Durante o treinamento, esses codificadores são alinhados para melhorar a coerência semântica, permitindo que o sistema se destaque tanto na geração de imagens quanto nas tarefas de compreensão visual. Esta separação de codificadores evita a interrupção da operação, melhorando assim as capacidades de cada módulo. O modelo também utiliza a orientação livre do classificador (CFG) para controlar o alinhamento das imagens geradas com as condições textuais, resultando em melhoria da qualidade da imagem. Comparado aos sistemas integrados tradicionais que utilizam modelos de distribuição como ferramentas externas ou utilizam técnicas de estimativa vetorial, o JanusFlow oferece um processo de produção simples e direto, com poucas limitações. O desempenho da arquitetura se reflete na sua capacidade de igualar ou até mesmo superar o desempenho de muitos modelos específicos de tarefas em vários benchmarks.
Por que o JanusFlow é importante
A importância do JanusFlow reside na sua funcionalidade e flexibilidade, colmatando uma lacuna crítica no desenvolvimento de modelos multiobjetivos. Ao eliminar a necessidade de módulos separados de produção e compreensão, o JanusFlow permite que pesquisadores e desenvolvedores usem uma única estrutura multitarefa, reduzindo significativamente a complexidade e o consumo de recursos. Os resultados do benchmark mostram que o JanusFlow supera muitos modelos híbridos existentes, pontuando 74,9, 70,5 e 60,3 no MMBench, SeedBench e GQA, respectivamente. Em termos de reprodução de imagens, o JanusFlow supera modelos como SDv1.5 e SDXL, com pontuação de 9,51 no MJHQ FID-30k e 0,63 no GenEval. Essas métricas mostram seu alto potencial na produção de imagens de alta qualidade e no tratamento de tarefas multimodais complexas com apenas 1,3B de parâmetros. Notavelmente, o JanusFlow alcança esses resultados sem depender de personalização extensa ou arquiteturas excessivamente complexas, fornecendo uma solução mais acessível para aplicações gerais de IA.
A conclusão
JanusFlow é um passo importante no desenvolvimento de modelos coletivos de IA capazes de compreensão e geração de imagens. Sua abordagem minimalista – que se concentra na combinação de recursos autônomos com fluxo otimizado – não apenas melhora o desempenho, mas também simplifica o design do modelo, tornando-o mais eficiente e acessível. Ao extrair codificadores da visão e alinhar representações durante o treinamento, o JanusFlow preenche efetivamente a lacuna entre a compreensão e a execução da imagem. À medida que a pesquisa em IA continua a ampliar os limites do que os modelos podem alcançar, o JanusFlow representa um marco importante na criação de sistemas de IA gerais e versáteis.
Confira Papel e modelo na face oposta. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Upcoming Live LinkedIn event] 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão revitalizando o processo de desenvolvimento de dados para ajudar as equipes a construir modelos de IA multimodais revolucionários, rapidamente'
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️