NVIA AI Emite a série Eagle2-Language de texto: encontrando resultados SOTA em todos os diferentes bancos multimodais

Os modelos pertencentes à linguagem de identidade (VLMs) são a capacidade da IA altamente expandida de processar informações multimedais, mas sofrem mais desafios. Modelos relacionados ao GPT-4V e Gemini-1.5-Pro para alcançar um desempenho incrível, mas não fizeram nada, reduzindo sua mudança. Outras maneiras abertas geralmente se esforçam para corresponder a esses tipos devido a problemas para variação de dados, métodos de treinamento e recursos do computador. Além disso, os documentos são limitados ao banco de dados de treinamento dos dados de treinamento após a escrita. Lidando com essas postagens, a Unvidia AI apresenta Águia 2O VLM projetado em um sistema sistemático, transparente na transformação e moderação do modelo e do treinamento.

Nvidia AI apresenta Eagle 2: VLM expresso

O Eagle 2 oferece um novo método por priorização ao seu plano de dados. Ao contrário da maioria dos modelos que fornecem apenas treinamento, os detalhes da coleção Eagle 2 de processos de dados, classificação, adicionados e seleção. O programa tem como objetivo equipar as ferramentas de desenvolvimento da Sociedade Open-Open e Vlama sem depender dos conjuntos de dados relacionados.

O EAGLE2-9B, o modelo da mais alta qualidade da Eagle 2 Series, faz várias vezes e modela seu tamanho, como aqueles com parâmetros de 70b. Ao ser explicado pelas técnicas de treinamento após o treinamento, o Eagle 2 aumenta a operação sem a necessidade de recursos sociais.

Estabelecimento importante em Eagle 2

Eagle 2 Stem Power de um novo metrato: estratégia ridicularizada para dados, treinamento multilíngue e construção ventic.

Estratégia de dados
- O modelo segue um Diferenças – primeiro e qualidade Chega perto, simplifique dados de mais 180 fontes Antes de listá -lo filtrando e seleção.
- Um tubo formal de análise de dados inclui análise de erros, descrições de cadeia (COT), produção de controle de qualidade com base no controle de qualidade e formato de dados.
A estrutura de treinamento de três classes
- Seção 1 Inscreva -se nos idiomas de visão e idioma treinando o conector MLP.
- Seção 1.5 A introdução de uma variedade de dados enfatiza a base do modelo.
- Seção 2 Modelo Fine Runs, usando conjuntos de dados de remessa mais altos.
Uma combinação de azulejos de codificadores de visão (movimento)
- O modelo se encontra Siglip e Convextxt Como dois textos para ver, melhore a compreensão da imagem.
- A resolução da TIL-resolução confirma que bons detalhes são bem conservados.
- A maneira mais rigorosa – a mochila Aving -Pill reduz o gerenciamento de dados, reduzindo os custos de treinamento e melhorando o desempenho da amostra.

Essas coisas tornam o Eagle 2 poderosas e se adaptaram a diferentes programas.

Trabalhando e luz de referência

As habilidades do Eagle 2 são testadas firmemente, mostrando um forte desempenho em todos os muitos bancos:

Eagle2-9b alcance 92,6% de precisão em docvqqaExcedendo um interL2-8b (91,6%) e GPT-4V (88,4%).
Em OcrbelchEagle 2 pontuações 868QWENFORMF-VL-7B (845) e MINICM-V-2.6 (852), destaca sua capacidade de contratar texto.
Operação de Mathvista Promove over 10 pontos Comparado com sua base, enfatiza a eficácia do método de três classes.
Atividades de consulta ChartQA, OCR e QA e multimodal Mostrar melhorias significativas, o GPT-4V se destacando em áreas-chave.

Além disso, o processo de treinamento foi projetado para funcionar corretamente. As principais técnicas de download demonstraram o tamanho dos dados de 12,7m a 4,6 milhões de amostrasManter a precisão enquanto desenvolve a eficácia dos dados.

Loja

O Eagle 2 representa um passo à frente para tornar os VLMs muito facilmente acessíveis e cany. Por ênfase A forma dos dados transparentesFechando a lacuna entre o código aberto e o funcionamento dos modelos relativos aos modelos. Novos modelos de coisas em Esquema de dados, métodos de treinamento e a construção da visão Torne isso uma força para coerção e aprimoramentos.

Ao compartilhar na ordem de sua estrada, Nvidia Ai Toununders Localização de pesquisa de IAPermitindo que o público se baseie nessas coisas discretas sem depender dos modelos de código fechado. Como a AI continua a aparecer, a EA é um exemplo de que estratégias de compreensão e treinamento podem levar a modelos fortes, que eles fazem idiomas não obtidos.

Enquete Página, página do github e modelos em massas face. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 70k + ml subreddit.

🚨 Conheça o trabalho: um código aberto aberto com várias fontes para verificar o programa difícil AI ^(Atualizado)

O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.

✅ [Recommended] Junte -se ao nosso canal de telégrafo

Source link

Nvidia AI apresenta Eagle 2: VLM expresso

Estabelecimento importante em Eagle 2

Trabalhando e luz de referência

Loja

Você também pode gostar...

Alibaba Research apresenta XiYan-SQL: uma estrutura de IA para conjunto multigerador para texto para SQL

Microsoft Asia Research lança SPEED: uma estrutura de IA para alinhar micromodelos de código aberto (8B) para geração eficiente de dados incorporados em grande escala

Pesquisadores da CMU propõem XGrammar: uma biblioteca de código aberto para geração funcional, flexível e portátil

Deixe um comentário Cancelar resposta