Os agentes multimodais de IA são projetados para processar e integrar vários tipos de dados, como imagens, texto e vídeos, para executar trabalhos em cortinas e áreas físicas. Eles são usados em robôs, assistentes visíveis e na autora visual do usuário, onde precisam entender e fazer com base na instalação multimodal. Esses programas buscam a inteligência verbal e vegetal, instalando estratégias de aprendizado profundo, o que torna a interação com todos os múltiplos domínios.
Os programas de IA geralmente se concentram em entender o ensino de idiomas ou o engano robótico, mas estão lutando para combinar essas habilidades em um modelo. Muitos modelos de IA são projetados para atividades específicas de domínio, como a Ferrovia da UI em áreas digitais ou decisões físicas sobre robôs, reduzindo suas diferentes negociações para todas as aplicações diferentes. O desafio está na criação de um modelo United para entender e fazê -lo além de várias maneiras, garante a eficácia do sucesso em áreas formais e aleatórias.
Modelos existentes-Idiomas-Os modelos Atos-Ação-Ação estão tentando lidar com atividades multimodais, tomando enormes conjuntos de dados no idioma seguido pelas informações da trajetória de ação. No entanto, esses modelos geralmente se enquadram em diferentes flexibilidade. Os exemplos incluem Pix2ACT e Webgum, passando a percorrer de navegação na interface do usuário, OpenVLA e RT-2, projetados para enganar robóticos. Esses modelos geralmente requerem processos de treinamento exclusivos e falham em fazer o desempenho geral das áreas digitais e físicas. Além disso, os modelos multimodais comuns estão lutando e combinando inteligência local e inteligência temporária, reduzindo seu poder para operações complexas de forma independente.
Investigadores da Microsoft Research, na Universidade de Maryland, na Universidade de Wisconsin-Madison Kaist, junto com a Universidade de Washington CordaO modelo de base projetado para combinar o entendimento multimodal com a pérola de ação permite que os agentes trabalhem fora das costuras nas áreas digitais e físicas. O Magma foi projetado para superar os modelos de VLA existentes, arquivando um poderoso método de treinamento para incluir muito entendimento, a base dos verbos e o planejamento. O magma é treinado usando uma variedade de 39 milhões de dados, incluindo fotos, vídeos e ação robática. Inclui duas estratégias com o romance,
- Conjunto de marcas (YOR): Alguns permitem que um modelo rotule material visual, como botões nas áreas da interface do usuário
- Trace-Maka (Tom): Tom permite rastrear o movimento do item mais tarde e organizar ações futuras de acordo
O Magma usa uma combinação de leitura profunda e propriedades maiores da eficácia de todos os domínios. O modelo usa um backbile do Connext-xxl Vision Buckse para processar fotos e vídeos, enquanto o idioma llama-3-8bb trata a entrada de texto. Esse estado capacita a magma a combinar o entendimento da morte do assassinato sem costura. Treinamento sobre dados selecionados, incluindo dados de navegação da interface do usuário da Seclick e Vision2UI, os conjuntos de dados de mania robottuman de Open-x-Embadims do EG2D, Something V2 e Epic-Kitchen. Ao suavizar o YOM e o TOM, o magma pode estudar com sucesso a ação das capturas de tela da interface do usuário e dados do robô enquanto desenvolve o poder de prever retornos visíveis. Durante o treinamento, o modelo processa 27 examinadores de interface do usuário, 970.000 trajetórias e mais de 25 milhões de amostras de vídeo para garantir uma leitura multimodal firme.
Nas atividades da navegação na interface do usuário zero-shut, o magma atingiu a precisão das opções de elementos de 57,2%, os modelos EfterFormByPord são como GPT-4V-OMNIPARER e SEECLICK. Em Macisuição Robótica, o Magma é encontrado os 52,3% dos 52,3%. O modelo é bem feito nas atividades do Multimolor para entender, acessar 80,0% da precisão V2, 66,5% no TextVQQA e 87,4% no teste do papa. O magma também mostrou fortes habilidades de consulta local, objetivos 74,8% no conjunto de dados do Blink e 80,1% no benchmark de consulta (VSR). Em resposta às perguntas do vídeo, o Magma atingiu a precisão de 88,6% na IntentQA e 72,9% na NextQA, enfatiza suas informações efetivas energéticas.
Várias chave retiradas da pesquisa com o Magma:
- O Magma foi treinado em 39 milhões de amostras multimodais, incluindo 2,7 examinadores de interface do usuário, 970.000 trajetórias e 25 milhões de amostras de vídeo.
- O modelo inclui uma visão, linguagem e ação na estrutura integrada, superando as limitações dos modelos especiais de IA.
- Som capacita um rótulo preciso de cólicas, enquanto Tom permite rastrear o movimento do item mais tarde, para melhorar as habilidades de planejamento de longo prazo.
- O magma foi alcançado para a precisão de 57,2% em opções eletrônicas, 52.3.3.3% de taxa de decaimento e 80,0% de taxa de precisão.
- O Magma está fora do modelo de IA existente acima de 19,6% em bancos de consulta local e está até 28% nos modelos anteriores em modelos baseados em vídeo.
- O magma mostrou empregos gerais de alta qualidade sem exigir uma boa conversão, tornando-o agente de A-I-Greement.
- O poder da Magma pode aumentar o desempenho das decisões de tomada de decisão e robô, sistemas independentes, automatizados, adversários digitais e IAs industriais.
Enquete Papel e projeto de papel. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, fique à vontade para segui -lo Sane E não se esqueça de se juntar ao nosso 75k + ml subreddit.
🚨 Pesquisa recomendada recomendada para nexo

O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.
