A inteligência artificial fez progressos significativos nos últimos anos, mas permanecem desafios na medição da eficiência da computação e das aplicações. Modelos multimodais modernos, como o GPT-4, muitas vezes requerem grandes recursos computacionais, o que limita seu uso em servidores de última geração. Isto cria barreiras ao acesso e deixa os dispositivos periféricos, como smartphones e tablets, incapazes de utilizar essa tecnologia de forma eficaz. Além disso, o processamento em tempo real de tarefas como análise de vídeo ou conversão de fala em texto continua a enfrentar obstáculos técnicos, destacando ainda mais a necessidade de modelos de IA eficientes e flexíveis que possam funcionar perfeitamente em hardware limitado.
OpenBMB lança MiniCPM-o 2.6: um modelo dinâmico multimodal
O MiniCPM-o 2.6 do OpenBMB aborda esses desafios com sua arquitetura de 8 bilhões de parâmetros. Este modelo oferece recursos multimodais completos, suportando processamento de visão, fala e linguagem, ao mesmo tempo que funciona bem em dispositivos periféricos, como smartphones, tablets e iPads. MiniCPM-o 2.6 apresenta um design modular:
- SigLip-400M percepção visual.
- Sussurro-300M com processamento de fala multilíngue.
- Bate-papoTTS-200M com habilidades de conversação.
- Q2.5-7B para melhor compreensão do texto.
O modelo alcança pontuação média de 70,2 pontos no benchmark OpenCompass, superando o GPT-4V em tarefas visuais. Seu suporte multilíngue e sua capacidade de execução em dispositivos de consumo tornam-no uma escolha viável para uma variedade de aplicações.
Detalhes técnicos e benefícios
MiniCPM-o 2.6 combina tecnologias avançadas em uma estrutura compacta e eficiente:
- Desenvolvimento de Parâmetros: Apesar do tamanho, o modelo é otimizado para dispositivos periféricos com estruturas como llama.cpp e vLLM, mantendo a precisão e reduzindo a demanda de recursos.
- Processamento multimodal: processa imagens de até 1,8 milhão de pixels (resolução de 1344×1344) e inclui recursos de OCR em benchmarks líderes, como o OCRBench.
- Suporte de streaming: O modelo suporta processamento contínuo de vídeo e áudio, permitindo aplicações em tempo real, como vigilância e transmissão ao vivo.
- Características da fala: Fornece compreensão de fala bilíngue, síntese de fala e controle de emoções, facilitando interações naturais e em tempo real.
- Fácil montagem: a compatibilidade com plataformas como Gradio facilita o uso e seu ambiente comercial oferece suporte a aplicativos com menos de um milhão de usuários ativos diariamente.
Esses recursos tornam o MiniCPM-o 2.6 acessível para desenvolvedores e empresas, permitindo-lhes implementar soluções complexas de IA sem depender de uma infraestrutura extensa.
Insights de desempenho e aplicações do mundo real
MiniCPM-o 2.6 trouxe resultados de desempenho significativos:
- Atividades Físicas: O alto desempenho do GPT-4V no OpenCompass com uma pontuação média de 70,2 sublinha a sua força no raciocínio visual.
- Processamento de fala: O diálogo inglês/chinês em tempo real, o controle de emoções e a síntese de voz fornecem habilidades avançadas de comunicação natural.
- Eficiência multimodal: O processamento contínuo de vídeo/áudio oferece suporte a casos de uso como tradução ao vivo e ferramentas de aprendizagem interativas.
- O maior número de OCRs: O processamento de alta resolução garante digitalização precisa de documentos e outras operações de OCR.
Essas habilidades podem impactar setores que vão da educação à saúde. Por exemplo, o reconhecimento de fala e emoções em tempo real pode melhorar as ferramentas de acesso, enquanto o processamento de vídeo e áudio oferece novas oportunidades na criação de conteúdo e mídia.
A conclusão
O MiniCPM-o 2.6 representa um avanço significativo na tecnologia de IA, abordando os desafios de longa data de modelos com uso intensivo de recursos e compatibilidade de dispositivos. Ao combinar recursos multimodais avançados e eficiência em dispositivos de consumo, o OpenBMB criou um modelo poderoso e acessível. À medida que a IA se torna cada vez mais importante na vida cotidiana, o MiniCPM-o 2.6 destaca como as inovações podem preencher a lacuna entre eficiência e eficácia, capacitando desenvolvedores e usuários de todos os setores a usarem tecnologia de ponta de forma mais eficaz.
Confira Modelo abraçando o rosto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.
🚨 Plataforma de IA de código aberto recomendada: 'Parlant é uma estrutura que muda a maneira como os agentes de IA tomam decisões em situações voltadas para o cliente.' (Promovido)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
📄 Conheça 'Height': ferramenta independente de gerenciamento de projetos (patrocinado)