InternLM-XComposer2.5-OmniLive: um sistema de IA multimodal completo para streaming de longo prazo de interação de vídeo e áudio
Inteligência artificial

InternLM-XComposer2.5-OmniLive: um sistema de IA multimodal completo para streaming de longo prazo de interação de vídeo e áudio


Os sistemas de IA estão avançando no sentido de simular a cognição humana, permitindo interações em tempo real com ambientes dinâmicos. Os pesquisadores que trabalham em IA pretendem desenvolver sistemas que integrem perfeitamente dados multimodais, como áudio, vídeo e entrada escrita. Eles podem ter aplicações em assistentes virtuais, ambientes dinâmicos e análise contínua em tempo real, simulando a percepção, o pensamento e a memória humanos. Avanços recentes em modelos linguísticos de grande escala (MLLMs) levaram a melhorias significativas na compreensão do mundo aberto e no processamento em tempo real. No entanto, ainda é necessário enfrentar desafios no desenvolvimento de sistemas que possam simultaneamente perceber, raciocinar e debater ideias sem alternar ineficientemente entre estas tarefas.

Muitos modelos gerais precisam ser desenvolvidos devido à ineficiência de armazenamento de grandes quantidades de dados históricos e à necessidade de capacidades de processamento simultâneo. Estruturas de sequência a sequência, que são comuns em muitos MLLMs, forçam uma mudança entre ver e pensar, pois não podemos pensar enquanto vemos o que nos rodeia. Além disso, contar com janelas de contexto estendidas para armazenar dados históricos pode ser um avanço em aplicações de longo prazo, já que dados multimodais, como fluxos de vídeo e áudio, geram grandes volumes de tokens em horas, para não mencionar dias. Esta ineficiência limita a escalabilidade de tais modelos e a sua aplicabilidade a aplicações do mundo real onde as interações contínuas são importantes.

Os métodos existentes usam várias técnicas para processar entradas multimodais, como subamostragem, interpolação temporal, tokens de vídeo compactados e bancos de memória. Embora essas técnicas proporcionem melhorias em certas áreas, elas não conseguem alcançar uma compreensão verdadeiramente humana. Por exemplo, modelos como Mini-Omni e VideoLLM-Online tentam preencher a lacuna entre a compreensão de texto e vídeo. No entanto, eles são prejudicados pela dependência do processamento sequencial e pela integração limitada da memória. Além disso, os sistemas atuais armazenam dados em formatos não gerenciáveis ​​e dependentes do contexto que exigem mais flexibilidade e robustez para interações contínuas. Esta deficiência é gritante a necessidade de uma nova abordagem que divida a percepção, o pensamento e a memória em módulos separados, mas interativos.

Pesquisadores do Laboratório de Inteligência Artificial de Xangai, Universidade Chinesa de Hong Kong, Universidade Fudan, Universidade de Ciência e Tecnologia da China, Universidade Tsinghua, Universidade Beihang e Grupo SenseTime apresentam esta aplicação. InternLM-XComposer2.5-OmniLive (IXC2.5-OL)uma estrutura abrangente de IA projetada para interação multimodal em tempo real para enfrentar esses desafios. Este programa inclui técnicas avançadas para simular a cognição humana. A estrutura IXC2.5-OL consiste em três módulos principais:

  • Módulo de percepção de transmissão
  • Módulo multimodal de longa memória
  • Módulo de Consulta

Esses componentes funcionam em harmonia para processar fluxos de dados multimodais, compactar e recuperar memória e responder a consultas com eficiência e precisão. Esta abordagem modular, inspirada na funcionalidade única do cérebro humano, garante flexibilidade e adaptabilidade em ambientes em mudança.

O Streaming Perception Module lida com processamento de áudio e vídeo em tempo real. Usando modelos avançados como Whisper para codificação de áudio e OpenAI CLIP-L/14 para visualização de vídeo, este módulo captura recursos de alta dimensão de fluxos de entrada. Ele identifica e armazena informações importantes, como fala humana e sons naturais. junto, o Módulo Multimodal de Memória Longa comprime a memória de curto prazo em representações eficientes de longo prazocombinando-os para melhorar a precisão da recuperação e reduzir os custos de memória. Por exemplo, ele pode combinar milhões de quadros de vídeo em unidades de memória compactas, melhorando significativamente o desempenho do sistema. O Módulo de Consulta, equipado com algoritmos avançados, recupera informações relevantes do módulo de memória para realizar tarefas complexas e esclarecer dúvidas dos usuários. Isso permite que o sistema IXC2.5-OL perceba, pense e memorize ao mesmo tempo, superando as limitações dos modelos tradicionais.

O IXC2.5-OL foi testado em vários benchmarks. No processamento de áudio, o sistema alcançou uma taxa de erro de palavras (WER) de 7,8% na rede de testes chinesa da Wenetspeech e de 8,4% na reunião de testes, superando concorrentes como VITA e Mini-Omni. Em benchmarks ingleses como o LibriSpeech, alcançou um WER de 2,5% em conjuntos de dados limpos e 9,2% em ambientes ruidosos. No processamento de vídeo, o IXC2.5-OL se destacou em subjetividade e atenção abstrata, alcançando uma pontuação M-Avg de 66,2% no MLVU e uma pontuação máxima de 73,79% no StreamingBench. O processamento simultâneo de fluxos de dados multimodais do sistema garante alta interação em tempo real.

As principais conclusões deste estudo incluem o seguinte:

  • A arquitetura do sistema imita o cérebro humano, dividindo a percepção, a memória e o pensamento em módulos separados, garantindo escalabilidade e eficiência.
  • Alcançou excelentes resultados em benchmarks de reconhecimento de áudio, como Wenetspeech e LibriSpeech, e tarefas de vídeo, como detecção de anomalias e raciocínio de ação.
  • O sistema lida com milhões de tokens de forma eficiente, compactando a memória de curto prazo em formatos de longo prazo, reduzindo a sobrecarga computacional.
  • Todos os códigos, modelos e estruturas de referência estão disponíveis para uso público.
  • A capacidade do sistema de processar, armazenar e receber fluxos de dados multimodais simultaneamente permite uma colaboração dinâmica e contínua em ambientes dinâmicos.

Para concluir, a estrutura InternLM-XComposer2.5-OmniLive supera as limitações de longa data de simultaneidade, lógica e memória. O sistema alcança incrível eficiência e adaptabilidade através de um design modular inspirado na inteligência humana. Ele alcança desempenho de última geração em benchmarks como Wenetspeech e StreamingBench, demonstrando reconhecimento de áudio superior, compreensão de vídeo e capacidades de integração de memória. Portanto, o InternLM-XComposer2.5-OmniLive fornece interação multimodal em tempo real incomparável e uma estranha consciência semelhante à humana.


Confira eu Artigo, página GitHub, de novo Página de rosto do abraço. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….


Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *