BM AI libera granito-vision-3.1-2b: idioma de idioma de pequeno idioma para prejudicar exercícios em vários trabalhos

A combinação de informações visuais e de texto em inteligência artificial está produzindo um desafio complexo. As espécies tradicionais geralmente lutam para traduzir documentos formais visíveis formais, como mesas, gráficos, infográficos e desenhos com precisão. Esse limite que afeta o conteúdo padrão e compreensivo, o que é muito importante para os aplicativos na revisão de dados, recuperando informações e tomada de decisão. Como as organizações são altamente dependentes da clareza da IA, a necessidade de modelos é capaz de processar efetivamente informações visíveis e visuais.

A IBM lida com esse desafio com granito-vision-3.1-2bO modelo de compacto e linguagem para um entendimento de documentos. Este modelo é capaz de remover o conteúdo de vários formatos, incluindo tabelas, gráficos e desenhos. Ele é treinado em um conjunto de dados bem escolhido que contém fontes públicas e foi projetado para gerenciar trabalhos mais amplos relacionados ao documento. Ajustado de um modelo grande de granito, o granito-visão-3.1-2b integra modalidades de imagem e texto para melhorar seus recursos interpretáveis, tornando-se adequado para várias aplicações práticas.

O modelo contém três coisas importantes:

Encoder de visão: Usando o Siglip para processar e carregar dados visuais.
Figura Connector – Idioma: Multicamada com homossexualidade de Percepron (MLP) com trabalhos de ativação de Gelu, projetados para fechar as informações visuais e de texto.
Modelo maior da linguagemConstruído no granito -3.1b – Ensino, com 128 mil contextos de manuseio complexo e amplo.

O processo de treinamento cria uma fração e inclui vários recursos do codificador e a solução de grade para qualquer coisa. Esses aprimoramentos melhoram a capacidade do modelo de entender o conteúdo visual do conteúdo visual. Esse estado permite que o modelo execute várias funções do documento de exibição, como analisar tabelas e gráficos, usar caracteres ópticos (OCR) e responder aos documentos com base em documentos.

A espionagem indica que o granito-visão-3.1-2b tem um bom desempenho em todos os muitos bancos, especialmente na documentação do documento. Por exemplo, ganhou 0,86 pontos no Benchmark ChartQA, passando alguns modelos no parâmetro 1B-4B. No Bacon TextVQQQA, ele ganhou 0,76 pontos, o que indica um forte desempenho na tradução e respostas com base nas informações do texto estão incluídas nas imagens. Esses resultados destacam o poder do modelo de aplicativo de negócios que requer processamento de dados direto e de gravação.

O granito-vision-3.1-2 da IBM representa um desenvolvimento significativo com modelos de idiomas, fornecendo uma maneira equilibrada de entender o documento visível. Seu método de construção e treinamento permite interpretar bem e analisar dados complexos e de texto. No suporte tradicional para convertidos e VLLM, o modelo concorda com facilmente útil e pode ser enviado aos locais baseados em nuvem, como o COLAB T4. Esse acesso o torna uma ferramenta prática para os pesquisadores e os especialistas que estão ansiosos para desenvolver as habilidades para processar a IA.

Enquete IBM-Granite / Granite-Vision-3.1-2b-View incluindo BM-Granite / Granite-3.1-2b-Stendard. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 75k + ml subreddit.

🚨 Registre a plataforma de IA de código aberto: 'Sistema de código aberto interestagente com muitas fontes para testar o programa difícil' _(Atualizado)

O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.

✅ [Recommended] Junte -se ao nosso canal de telégrafo

Source link

Você também pode gostar...

Pixtral 12B lançado pela Mistral AI: modelo revolucionário de IA multimodal que transforma indústrias com linguagem avançada e recursos de processamento visual

Neural Magic Release 2:4 Sparse Llama 3.1 8B: Modelos pequenos para design de GPU ativo

KVSharer: um método de aprendizado de máquina plug-and-play compartilha cache KV entre camadas para obter compactação inteligente de camadas

Deixe um comentário Cancelar resposta