Os modelos de linguagem de áudio (ALMs) desempenham um papel importante em uma variedade de aplicações, desde transcrição e tradução em tempo real até sistemas controlados por voz e tecnologias assistivas. No entanto, a maioria das soluções existentes enfrenta limitações como alta latência, demandas computacionais significativas e dependência de processamento baseado em nuvem. Esses problemas representam desafios para a implantação na borda, onde o baixo consumo de energia, a baixa latência e o processamento local são importantes. Em ambientes com recursos limitados ou requisitos rígidos de privacidade, esses desafios tornam ineficazes modelos grandes e centralizados. Abordar estas questões é fundamental para desbloquear todo o potencial dos ALMs em situações críticas.
A Nexa AI anunciou o OmniAudio-2.6B, um modelo de linguagem de áudio desenvolvido especificamente para implantação na borda. Ao contrário das arquiteturas tradicionais que separam o Reconhecimento Automático de Fala (ASR) e os modelos de linguagem, OmniAudio-2.6B combina Gemma-2-2b, Whisper Turbo e um projetor personalizado em uma estrutura unificada. Esse design elimina as ineficiências e os atrasos associados à ligação de diferentes componentes, tornando-os adequados para dispositivos com recursos computacionais limitados.
OmniAudio-2.6B visa fornecer uma solução prática e eficiente para aplicações de ponta. Focando nas necessidades específicas dos ambientes edge, a Nexa AI oferece um modelo que equilibra o desempenho com as limitações de recursos, demonstrando o seu compromisso em melhorar a acessibilidade da IA.
Detalhes técnicos e benefícios
A arquitetura OmniAudio-2.6B foi projetada para oferecer velocidade e eficiência. A combinação do Gemma-2-2b, um LLM refinado, e do Whisper Turbo, um sistema ASR robusto, garante um pipeline de processamento de áudio suave e eficiente. Um projetor personalizado combina esses componentes, reduzindo a latência e melhorando a eficiência. Os destaques de desempenho incluem:
- Velocidade de processamento: Em um Mac Mini M4 Pro 2024, OmniAudio-2.6B atinge 35,23 tokens por segundo no formato FP16 GGUF e 66 tokens por segundo no formato Q4_K_M GGUF, usando o Nexa SDK. Em comparação, Qwen2-Audio-7B, outro método excelente, executa apenas 6,38 tokens por segundo no mesmo hardware. Essa diferença representa uma melhoria significativa na velocidade.
- Desempenho do serviço: O design compacto deste modelo reduz sua dependência de serviços em nuvem, tornando-o ideal para aplicações em wearables, sistemas automotivos e dispositivos IoT onde a potência e a largura de banda são limitadas.
- Precisão e flexibilidade: Apesar do foco na velocidade e eficiência, o OmniAudio-2.6B oferece alta precisão, tornando-o versátil para tarefas como transcrição, tradução e resumo.
Essas melhorias tornam o OmniAudio-2.6B uma escolha viável para desenvolvedores e empresas que buscam soluções de processamento de áudio discretas e responsivas baseadas em borda.
Detalhes de desempenho
Os testes de benchmark confirmam o desempenho impressionante do OmniAudio-2.6B. No Mac Mini M4 Pro 2024, o modelo funciona a até 66 tokens por segundo, superando significativamente os 6,38 tokens por segundo do Qwen2-Audio-7B. Este aumento na velocidade aumenta as possibilidades de aplicações de áudio em tempo real.
Por exemplo, o OmniAudio-2.6B pode melhorar os assistentes virtuais, permitindo respostas instantâneas no dispositivo, sem os atrasos associados à dependência da nuvem. Em setores como o de saúde, onde a transcrição e a interpretação em tempo real são essenciais, a velocidade e a precisão do modelo podem melhorar os resultados e a eficiência. Seu design amigável também aumenta seu apelo em situações que exigem processamento de superfície.
A conclusão
OmniAudio-2.6B representa um avanço significativo na modelagem de linguagem de áudio, abordando desafios importantes como latência, consumo de recursos e dependências de nuvem. Ao integrar componentes avançados em uma estrutura unificada, a Nexa AI desenvolveu um modelo que equilibra a velocidade, a eficiência e a precisão dos ambientes de borda.
Com métricas de desempenho mostrando uma melhoria de 10,3x em relação às soluções existentes, o OmniAudio-2.6B oferece uma opção robusta e escalável para uma variedade de aplicações de ponta. Este modelo reflete a ênfase crescente em soluções de IA locais e eficazes, que abrem caminho para avanços no processamento de linguagem de áudio que atendem às necessidades das aplicações modernas.
Confira eu Detalhes de novo O modelo do tamanho do rosto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)