Os modelos pertencentes à linguagem de identidade (VLMs) são a capacidade da IA altamente expandida de processar informações multimedais, mas sofrem mais desafios. Modelos relacionados ao GPT-4V e Gemini-1.5-Pro para alcançar um desempenho incrível, mas não fizeram nada, reduzindo sua mudança. Outras maneiras abertas geralmente se esforçam para corresponder a esses tipos devido a problemas para variação de dados, métodos de treinamento e recursos do computador. Além disso, os documentos são limitados ao banco de dados de treinamento dos dados de treinamento após a escrita. Lidando com essas postagens, a Unvidia AI apresenta Águia 2O VLM projetado em um sistema sistemático, transparente na transformação e moderação do modelo e do treinamento.
Nvidia AI apresenta Eagle 2: VLM expresso
O Eagle 2 oferece um novo método por priorização ao seu plano de dados. Ao contrário da maioria dos modelos que fornecem apenas treinamento, os detalhes da coleção Eagle 2 de processos de dados, classificação, adicionados e seleção. O programa tem como objetivo equipar as ferramentas de desenvolvimento da Sociedade Open-Open e Vlama sem depender dos conjuntos de dados relacionados.
O EAGLE2-9B, o modelo da mais alta qualidade da Eagle 2 Series, faz várias vezes e modela seu tamanho, como aqueles com parâmetros de 70b. Ao ser explicado pelas técnicas de treinamento após o treinamento, o Eagle 2 aumenta a operação sem a necessidade de recursos sociais.
Estabelecimento importante em Eagle 2
Eagle 2 Stem Power de um novo metrato: estratégia ridicularizada para dados, treinamento multilíngue e construção ventic.
- Estratégia de dados
- O modelo segue um Diferenças – primeiro e qualidade Chega perto, simplifique dados de mais 180 fontes Antes de listá -lo filtrando e seleção.
- Um tubo formal de análise de dados inclui análise de erros, descrições de cadeia (COT), produção de controle de qualidade com base no controle de qualidade e formato de dados.
- A estrutura de treinamento de três classes
- Seção 1 Inscreva -se nos idiomas de visão e idioma treinando o conector MLP.
- Seção 1.5 A introdução de uma variedade de dados enfatiza a base do modelo.
- Seção 2 Modelo Fine Runs, usando conjuntos de dados de remessa mais altos.
- Uma combinação de azulejos de codificadores de visão (movimento)
- O modelo se encontra Siglip e Convextxt Como dois textos para ver, melhore a compreensão da imagem.
- A resolução da TIL-resolução confirma que bons detalhes são bem conservados.
- A maneira mais rigorosa – a mochila Aving -Pill reduz o gerenciamento de dados, reduzindo os custos de treinamento e melhorando o desempenho da amostra.
Essas coisas tornam o Eagle 2 poderosas e se adaptaram a diferentes programas.
Trabalhando e luz de referência
As habilidades do Eagle 2 são testadas firmemente, mostrando um forte desempenho em todos os muitos bancos:
- Eagle2-9b alcance 92,6% de precisão em docvqqaExcedendo um interL2-8b (91,6%) e GPT-4V (88,4%).
- Em OcrbelchEagle 2 pontuações 868QWENFORMF-VL-7B (845) e MINICM-V-2.6 (852), destaca sua capacidade de contratar texto.
- Operação de Mathvista Promove over 10 pontos Comparado com sua base, enfatiza a eficácia do método de três classes.
- Atividades de consulta ChartQA, OCR e QA e multimodal Mostrar melhorias significativas, o GPT-4V se destacando em áreas-chave.
Além disso, o processo de treinamento foi projetado para funcionar corretamente. As principais técnicas de download demonstraram o tamanho dos dados de 12,7m a 4,6 milhões de amostrasManter a precisão enquanto desenvolve a eficácia dos dados.
Loja
O Eagle 2 representa um passo à frente para tornar os VLMs muito facilmente acessíveis e cany. Por ênfase A forma dos dados transparentesFechando a lacuna entre o código aberto e o funcionamento dos modelos relativos aos modelos. Novos modelos de coisas em Esquema de dados, métodos de treinamento e a construção da visão Torne isso uma força para coerção e aprimoramentos.
Ao compartilhar na ordem de sua estrada, Nvidia Ai Toununders Localização de pesquisa de IAPermitindo que o público se baseie nessas coisas discretas sem depender dos modelos de código fechado. Como a AI continua a aparecer, a EA é um exemplo de que estratégias de compreensão e treinamento podem levar a modelos fortes, que eles fazem idiomas não obtidos.
Enquete Página, página do github e modelos em massas face. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 70k + ml subreddit.
🚨 Conheça o trabalho: um código aberto aberto com várias fontes para verificar o programa difícil AI (Atualizado)
O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.
✅ [Recommended] Junte -se ao nosso canal de telégrafo