OpenBMB acaba de lançar MiniCPM-o 2.6: novos parâmetros para 8B, qualquer modelo multimodal que possa compreender visão, fala e linguagem e funcione em dispositivos Edge

A inteligência artificial fez progressos significativos nos últimos anos, mas permanecem desafios na medição da eficiência da computação e das aplicações. Modelos multimodais modernos, como o GPT-4, muitas vezes requerem grandes recursos computacionais, o que limita seu uso em servidores de última geração. Isto cria barreiras ao acesso e deixa os dispositivos periféricos, como smartphones e tablets, incapazes de utilizar essa tecnologia de forma eficaz. Além disso, o processamento em tempo real de tarefas como análise de vídeo ou conversão de fala em texto continua a enfrentar obstáculos técnicos, destacando ainda mais a necessidade de modelos de IA eficientes e flexíveis que possam funcionar perfeitamente em hardware limitado.

OpenBMB lança MiniCPM-o 2.6: um modelo dinâmico multimodal

O MiniCPM-o 2.6 do OpenBMB aborda esses desafios com sua arquitetura de 8 bilhões de parâmetros. Este modelo oferece recursos multimodais completos, suportando processamento de visão, fala e linguagem, ao mesmo tempo que funciona bem em dispositivos periféricos, como smartphones, tablets e iPads. MiniCPM-o 2.6 apresenta um design modular:

SigLip-400M percepção visual.
Sussurro-300M com processamento de fala multilíngue.
Bate-papoTTS-200M com habilidades de conversação.
Q2.5-7B para melhor compreensão do texto.

O modelo alcança pontuação média de 70,2 pontos no benchmark OpenCompass, superando o GPT-4V em tarefas visuais. Seu suporte multilíngue e sua capacidade de execução em dispositivos de consumo tornam-no uma escolha viável para uma variedade de aplicações.

Detalhes técnicos e benefícios

MiniCPM-o 2.6 combina tecnologias avançadas em uma estrutura compacta e eficiente:

Desenvolvimento de Parâmetros: Apesar do tamanho, o modelo é otimizado para dispositivos periféricos com estruturas como llama.cpp e vLLM, mantendo a precisão e reduzindo a demanda de recursos.
Processamento multimodal: processa imagens de até 1,8 milhão de pixels (resolução de 1344×1344) e inclui recursos de OCR em benchmarks líderes, como o OCRBench.
Suporte de streaming: O modelo suporta processamento contínuo de vídeo e áudio, permitindo aplicações em tempo real, como vigilância e transmissão ao vivo.
Características da fala: Fornece compreensão de fala bilíngue, síntese de fala e controle de emoções, facilitando interações naturais e em tempo real.
Fácil montagem: a compatibilidade com plataformas como Gradio facilita o uso e seu ambiente comercial oferece suporte a aplicativos com menos de um milhão de usuários ativos diariamente.

Esses recursos tornam o MiniCPM-o 2.6 acessível para desenvolvedores e empresas, permitindo-lhes implementar soluções complexas de IA sem depender de uma infraestrutura extensa.

Insights de desempenho e aplicações do mundo real

MiniCPM-o 2.6 trouxe resultados de desempenho significativos:

Atividades Físicas: O alto desempenho do GPT-4V no OpenCompass com uma pontuação média de 70,2 sublinha a sua força no raciocínio visual.
Processamento de fala: O diálogo inglês/chinês em tempo real, o controle de emoções e a síntese de voz fornecem habilidades avançadas de comunicação natural.
Eficiência multimodal: O processamento contínuo de vídeo/áudio oferece suporte a casos de uso como tradução ao vivo e ferramentas de aprendizagem interativas.
O maior número de OCRs: O processamento de alta resolução garante digitalização precisa de documentos e outras operações de OCR.

Essas habilidades podem impactar setores que vão da educação à saúde. Por exemplo, o reconhecimento de fala e emoções em tempo real pode melhorar as ferramentas de acesso, enquanto o processamento de vídeo e áudio oferece novas oportunidades na criação de conteúdo e mídia.

A conclusão

O MiniCPM-o 2.6 representa um avanço significativo na tecnologia de IA, abordando os desafios de longa data de modelos com uso intensivo de recursos e compatibilidade de dispositivos. Ao combinar recursos multimodais avançados e eficiência em dispositivos de consumo, o OpenBMB criou um modelo poderoso e acessível. À medida que a IA se torna cada vez mais importante na vida cotidiana, o MiniCPM-o 2.6 destaca como as inovações podem preencher a lacuna entre eficiência e eficácia, capacitando desenvolvedores e usuários de todos os setores a usarem tecnologia de ponta de forma mais eficaz.

Confira Modelo abraçando o rosto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.

🚨 Plataforma de IA de código aberto recomendada: 'Parlant é uma estrutura que muda a maneira como os agentes de IA tomam decisões em situações voltadas para o cliente.' ^(Promovido)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

📄 Conheça 'Height': ferramenta independente de gerenciamento de projetos (patrocinado)

Source link

OpenBMB lança MiniCPM-o 2.6: um modelo dinâmico multimodal

Detalhes técnicos e benefícios

Insights de desempenho e aplicações do mundo real

A conclusão

Você também pode gostar...

Este artigo sobre IA da Amazon e da Michigan State University apresenta uma nova abordagem de IA para melhorar a coerência de longo prazo em modelos de linguagem.

Novas técnicas de química computacional aceleram a previsão de moléculas e materiais | Notícias do MIT

LongRAG: uma estrutura RAG robusta para respostas longas a consultas de conteúdo

Deixe um comentário Cancelar resposta