Infinigence AI lança Megrez-3B-Omni: um modelo de linguagem multimodal 3B para um dispositivo MLLM multimodal

A integração da inteligência artificial na vida quotidiana enfrenta obstáculos significativos, especialmente na compreensão multimodal – a capacidade de processar e analisar dados através de modalidades de texto, áudio e visuais. Muitos modelos exigem recursos computacionais significativos, muitas vezes dependendo de infraestrutura baseada em nuvem. Esta dependência cria desafios em termos de latência, eficiência energética e privacidade de dados, o que pode limitar a sua utilização em dispositivos como smartphones ou sistemas IoT. Além disso, manter um desempenho consistente em vários métodos costuma ser acompanhado por um comprometimento da precisão ou da eficiência. Esses desafios incentivaram esforços para desenvolver soluções leves e eficientes.

Megrez-3B-Omni: 3B em um dispositivo LLM multimodal

Lançada IA Infinigence Megrez-3B-OmniO dispositivo de 3 bilhões de parâmetros é um modelo de linguagem grande (LLM). Este modelo baseia-se em seu antecessor Megrez-3B-Instruct e foi projetado para analisar entrada de texto, áudio e imagem simultaneamente. Ao contrário dos modelos dependentes da nuvem, o Megrez-3B-Omni enfatiza o desempenho do dispositivo, tornando-o mais adequado para aplicações que exigem baixa latência, forte privacidade e utilização eficiente de recursos. Ao fornecer uma solução otimizada para implantação em dispositivos de hardware, o modelo visa tornar os recursos avançados de IA acessíveis e utilizáveis.

Detalhes técnicos

O Megrez-3B-Omni incorpora vários recursos técnicos importantes que melhoram seu desempenho em todos os modos. Em sua essência, funciona SigLip-400M criação de tokens de imagem, permitindo recursos aprimorados de reconhecimento de imagem. Isso permite que o modelo tenha sucesso em tarefas como compreensão de cena e reconhecimento visual de caracteres (OCR), os modelos mais eficientes com contagens de parâmetros muito grandes, como LLaVA-NeXT-Yi-34B, em benchmarks como MME, MMMU e OCRBench .

Em termos de processamento de linguagem, o Megrez-3B-Omni atinge um nível mais elevado de precisão com menos compromissos em comparação com o seu raro antecessor, o Megrez-3B-Instruct. Testes em benchmarks como C-EVAL, MMLU/MMLU Pro e AlignBench confirmam seu sólido desempenho.

Para compreensão da fala, o modelo inclui i Codificador de cabeça Qwen2-Audio/whisper-large-v3o que permite processar entrada de fala em chinês e inglês. Ele suporta múltiplas conversas e consultas baseadas em voz, proporcionando novas oportunidades para aplicações interativas, como pesquisa visual ativada por voz e transcrição em tempo real. Essa combinação de métodos aprimora seu uso em situações do mundo real onde voz, texto e imagens interagem.

Resultados e detalhes de desempenho

O Megrez-3B-Omni apresenta bons resultados em todos os benchmarks padrão, destacando sua força em operações multimodais. No reconhecimento de imagens, ele supera consistentemente modelos maiores em tarefas como reconhecimento de cena e OCR. Na análise de texto, o modelo mantém alta precisão em todos os benchmarks ingleses e chineses, mantendo níveis de desempenho comparáveis aos do seu homólogo não modificado.

No processamento de fala, apresenta bom desempenho em situações bilíngues, destacando-se em tarefas que envolvem entrada de voz e resposta de texto. Sua capacidade de lidar com conversas em um ambiente multidimensional aumenta sua atratividade para aplicações de IA conversacional. A comparação com modelos mais antigos e com mais parâmetros enfatiza sua eficiência e eficácia.

O desempenho do modelo no aparelho também o diferencia. Eliminar a necessidade de processamento baseado em nuvem reduz a latência, melhora a privacidade e reduz os custos operacionais. Estas qualidades tornam-no particularmente valioso em áreas como a saúde e a educação, onde a análise multimodal segura e eficaz é essencial.

A conclusão

O lançamento do Megrez-3B-Omni representa um avanço considerado no desenvolvimento da IA multimodal. Ao combinar funcionalidades robustas nos modos de texto, áudio e imagem em uma arquitetura eficiente no dispositivo, o modelo aborda os principais desafios de escalabilidade, privacidade e acessibilidade. Os resultados do Megrez-3B-Omni em vários benchmarks mostram que o alto desempenho não precisa ser feito às custas da eficiência ou da usabilidade. À medida que a IA multimodal continua a evoluir, este modelo constitui um exemplo prático de como as capacidades avançadas podem ser integradas nos dispositivos do dia a dia, abrindo caminho para a adoção generalizada e contínua da tecnologia de IA.

Confira eu Modelo na página Hugging Face e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)

Source link

Megrez-3B-Omni: 3B em um dispositivo LLM multimodal

Detalhes técnicos

Resultados e detalhes de desempenho

A conclusão

Você também pode gostar...

Este artigo sobre IA da KAIST AI apresenta uma nova abordagem para melhorar o desempenho conceitual do LLM em ambientes multilíngues

Replicação de pensamento: uma estrutura de IA para melhorar as respostas de LLM, gerando alertas acionadores de “pensamento”

Kinetix: um universo aberto de atividades baseadas na física para aprendizagem por reforço

Deixe um comentário Cancelar resposta