DeepSeek-AI Série DeepSeek-VL2 de código aberto: três modelos de parâmetros 3B, 16B e 27B com arquitetura de mistura de especialistas (MoE) redefinindo a IA de linguagem de visão

A combinação de capacidades de visão e linguagem em IA levou ao desenvolvimento de Modelos de Linguagem Visual (VLMs). Esses modelos visam processar e interpretar dados visuais e textuais simultaneamente, permitindo aplicações como legendagem de imagens, resposta visual a consultas, reconhecimento visual de caracteres e análise de conteúdo multimodal. Os VLMs desempenham um papel importante na construção de sistemas autônomos, na melhoria da interação humano-computador e em ferramentas eficazes de processamento de documentos, preenchendo a lacuna entre esses dois fluxos de dados. No entanto, a complexidade do tratamento de dados visuais de alta resolução juntamente com diversas entradas textuais continua a ser um grande desafio neste domínio.

A pesquisa existente abordou algumas dessas limitações usando codificadores de visão estática que não possuem flexibilidade de alta resolução e tamanhos de entrada variados. Modelos de linguagem pré-treinados usados com codificadores de visão geralmente apresentam ineficiências, pois não são otimizados para multitarefa. Embora alguns modelos incorporem técnicas computacionais para gerenciar a complexidade, muitas vezes eles precisam melhorar a precisão em diversos conjuntos de dados. Além disso, os conjuntos de dados de treinamento usados nesses modelos geralmente exigem mais diversidade e granularidade específica da tarefa, o que prejudica mais desempenho. Por exemplo, muitos modelos não funcionam bem em tarefas especializadas, como interpretação de gráficos ou análise de documentos densos, devido a essas restrições.

Pesquisadores da DeepSeek-AI introduziram o Série DeepSeek-VL2uma nova geração de modelos de opinião de mix de especialistas (MoE) de código aberto. Esses modelos desenvolvem inovações de última geração, incluindo ladrilhos variáveis para codificação perceptiva, a abordagem de atenção latente multicabeças para tarefas de linguagem e a estrutura DeepSeek-MoE. O DeepSeek-VL2 oferece três configurações e diferentes parâmetros ativados (parâmetros abertos referem-se a um subconjunto de parâmetros de modelo que são usados dinamicamente durante uma operação ou cálculo específico.):

DeepSeek-VL2-Tiny com 3,37 bilhões de parâmetros (1,0 bilhão de parâmetros ativados)
DeepSeek-VL2-Small com 16,1 bilhões de parâmetros (2,8 bilhões de parâmetros ativados)
DeepSeek-VL2 com 27,5 bilhões de parâmetros (4,5 bilhões de parâmetros ativados)

Essa calibração garante flexibilidade para diversas necessidades de aplicações e orçamentos de computação.

A arquitetura DeepSeek-VL2 foi projetada para melhorar o desempenho e, ao mesmo tempo, reduzir as demandas de computação. O método de mosaico dinâmico garante que as imagens de alta resolução sejam processadas sem perder detalhes críticos, tornando-as particularmente eficazes para análise de documentos e tarefas de suporte visual. Além disso, a abordagem de atenção latente multicabeças permite que o modelo lide com grandes volumes de dados textuais de forma eficiente, reduzindo a sobrecarga de computação normalmente associada ao processamento de entradas linguísticas densas. A estrutura DeepSeek-MoE, que ativa apenas um pequeno conjunto de parâmetros durante a execução, também melhora a aderência e a eficiência. O treinamento DeepSeek-VL2 inclui um conjunto de dados multimodal diversificado e abrangente, permitindo que o modelo se destaque em uma variedade de tarefas, incluindo reconhecimento óptico de caracteres (OCR), resposta visual a consultas e interpretação de gráficos.

Enquanto assistia às apresentações, a parada mínima, por exemplo, alcançou uma precisão impressionante de 92,3% em tarefas de OCR, superando os modelos existentes por uma margem significativa. Em benchmarks visuais básicos, o modelo apresentou uma melhoria de 15% na precisão em comparação com seus antecessores. Além disso, o DeepSeek-VL2 demonstrou uma eficiência notável, exigindo 30% menos recursos computacionais do que modelos comparáveis, mantendo ao mesmo tempo uma precisão de última geração. Os resultados também destacaram a capacidade do modelo de integrar todas as tarefas, com a sua variante Padrão alcançando as melhores pontuações em benchmarks de raciocínio multimodal. Estas conquistas enfatizam a eficácia dos modelos propostos na resolução dos desafios associados ao processamento de imagens e textos de alta resolução.

Várias conclusões da série de modelos DeepSeek-VL2 são as seguintes:

Ao dividir imagens de alta resolução em blocos menores, os modelos melhoram a extração de recursos e reduzem a sobrecarga computacional. Este método é útil para analisar documentos densos e estruturas visuais complexas.
A disponibilidade de configurações pequenas (3B), pequenas (16B) e padrão (27B) garantem adaptabilidade a uma variedade de aplicações, desde aplicações leves até tarefas que consomem muitos recursos.
O uso de um conjunto de dados abrangente que inclui funções de OCR e de piso físico melhora a generalização do modelo e o desempenho específico da tarefa.
Um pequeno quadro de computador funciona apenas com os parâmetros necessários, o que permite uma redução no custo computacional sem comprometer a precisão.

Para concluir, DeepSeek-VL2 é uma série de modelos de visão de código aberto com três variantes (parâmetros ativados 1,8B, 2,8B e 4,5B). A equipe de pesquisa apresentou uma série de modelos que se destacam em aplicações do mundo real, abordando limitações significativas em escalabilidade, eficiência computacional e flexibilidade de trabalho. Seu inovador mosaico dinâmico e atenção latente de múltiplas cabeças permitem processamento preciso de imagens e captura de texto, alcançando resultados de alta qualidade em todas as tarefas, como OCR e foco visual. A série de modelos estabelece um novo padrão de desempenho de IA com configurações escalonáveis e conjuntos de dados multimodais.

Confira eu Modelos abraçando o rosto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)

Source link

Você também pode gostar...

Microsoft Research testa inconsistências GPT-4 na execução de tarefas prescritivas: analisando o impacto de pequenas mudanças no desempenho da IA

AutoRAG: uma ferramenta automatizada para desenvolver pipelines de produção com recuperação aumentada

Conheça o FluidML: uma estrutura genérica de gerenciamento e otimização de memória em tempo de execução para inferência de aprendizado de máquina mais rápida e inteligente

Deixe um comentário Cancelar resposta