Os modelos de linguagem visual (VLMs) já percorreram um longo caminho, mas ainda enfrentam grandes desafios quando se trata de generalizar de forma eficaz em diferentes tarefas. Esses modelos geralmente lidam com diferentes tipos de dados de entrada, como imagens de diferentes resoluções ou informações textuais que requerem compreensão sutil. Além disso, encontrar um equilíbrio entre eficiência computacional e calibração do modelo não é fácil. Esses desafios tornam os VLMs difíceis de usar para muitos usuários, especialmente aqueles que precisam de soluções flexíveis que tenham um desempenho consistentemente bom em muitos tipos de aplicações do mundo real, desde o reconhecimento de documentos até a codificação detalhada de imagens.
Google DeepMind acaba de lançar PaliGemma 2: uma nova família de exemplos de linguagem de peso aberto (3B, 10B e 28B) introduzida recentemente Pali Gemma 2 série, uma nova família de modelos de linguagem de visão (VLMs) com tamanhos de parâmetros de 3 bilhões (3B), 10 bilhões (10B) e 28 bilhões (28B). Os modelos suportam resoluções de 224×224 pixels, 448×448 e 896×896 pixels. Esta versão inclui nove modelos pré-treinados com diferentes combinações de tamanhos e resoluções, tornando-os versáteis para diversos casos de uso. Ambos os modelos também estão bem ajustados ao conjunto de dados DOCCI, que contém pares de legendas de imagem-texto, com tamanhos de parâmetro de suporte de 3B e 10B com resolução de 448×448 pixels. Como esses modelos são de peso aberto, eles podem ser facilmente adotados como uma substituição direta ou atualização do PaliGemma original, dando aos usuários mais flexibilidade para transferência de aprendizagem e ajuste fino.
Detalhes técnicos
PaliGemma 2 baseia-se no modelo PaliGemma original combinando o codificador de visão SigLIP-So400m e os modelos de linguagem Gemma 2. Os modelos são treinados em três fases, usando diferentes resoluções de imagem (224px, 448px e 896px) para permitir flexibilidade e robustez com base em especificações específicas. necessidades de cada trabalhador. PaliGemma 2 foi testado em mais de 30 tarefas de transferência, incluindo legendagem de imagens, resposta visual a perguntas (VQA), tarefas de vídeo e tarefas relacionadas a OCR, como reconhecimento de estrutura de tabela e identificação de estrutura molecular. Diferentes variantes do PaliGemma 2 apresentam bom desempenho em diferentes condições, com modelos maiores e resoluções mais altas geralmente apresentando melhor desempenho. Por exemplo, a variante 28B oferece desempenho muito alto, mesmo que exija muitos recursos computacionais, tornando-a adequada para situações de alta demanda onde a latência não é uma grande preocupação.
A série PaliGemma 2 é notável por vários motivos. Primeiro, fornecer modelos com diferentes dimensões e resoluções permite que pesquisadores e desenvolvedores adaptem o desempenho de acordo com suas necessidades específicas, recursos computacionais e o equilíbrio desejado entre eficiência e precisão. Em segundo lugar, os modelos demonstraram um desempenho robusto numa série de tarefas desafiantes. Por exemplo, o PaliGemma 2 obteve pontuações altas em benchmarks, incluindo reconhecimento de texto, reconhecimento visual de partituras musicais e geração de relatórios radiográficos. No benchmark de OCR da HierText, a variante de 896px do PaliGemma 2 superou os modelos anteriores em precisão de reconhecimento de nível de palavra, mostrando melhorias tanto na precisão quanto na recuperação. Os resultados do benchmark também sugerem que aumentar o tamanho e a resolução do modelo geralmente leva a um melhor desempenho em várias tarefas, destacando a combinação eficaz de representação de dados visuais e textuais.
A conclusão
O lançamento do PaliGemma 2 pelo Google representa um avanço significativo nos modelos de linguagem visual. Ao oferecer nove modelos em todas as três balanças com disponibilidade de peso aberto, o PaliGemma 2 atende a uma ampla gama de aplicações e necessidades do usuário, desde situações de recursos limitados até projetos de pesquisa de alto desempenho. A versatilidade destes modelos e a sua capacidade de lidar com diversas funções de transferência tornam-nos ferramentas valiosas para aplicações académicas e industriais. Como muitos casos de uso envolvem entrada multimodal, o PaliGemma 2 está bem posicionado para fornecer soluções flexíveis e eficazes para o futuro da IA.
Confira Papel e modelos na mesma face. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 [Must Attend Webinar]: 'Transforme provas de conceito em aplicativos e agentes de IA prontos para produção' (Promovido)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
🚨🚨 WEBINAR DE IA GRATUITO: 'Acelere suas aplicações LLM com deepset e Haystack' (promovido)