Nexa AI lança OmniAudio-2.6B: um modelo de linguagem de áudio rápido para uso no Edge

Os modelos de linguagem de áudio (ALMs) desempenham um papel importante em uma variedade de aplicações, desde transcrição e tradução em tempo real até sistemas controlados por voz e tecnologias assistivas. No entanto, a maioria das soluções existentes enfrenta limitações como alta latência, demandas computacionais significativas e dependência de processamento baseado em nuvem. Esses problemas representam desafios para a implantação na borda, onde o baixo consumo de energia, a baixa latência e o processamento local são importantes. Em ambientes com recursos limitados ou requisitos rígidos de privacidade, esses desafios tornam ineficazes modelos grandes e centralizados. Abordar estas questões é fundamental para desbloquear todo o potencial dos ALMs em situações críticas.

A Nexa AI anunciou o OmniAudio-2.6B, um modelo de linguagem de áudio desenvolvido especificamente para implantação na borda. Ao contrário das arquiteturas tradicionais que separam o Reconhecimento Automático de Fala (ASR) e os modelos de linguagem, OmniAudio-2.6B combina Gemma-2-2b, Whisper Turbo e um projetor personalizado em uma estrutura unificada. Esse design elimina as ineficiências e os atrasos associados à ligação de diferentes componentes, tornando-os adequados para dispositivos com recursos computacionais limitados.

OmniAudio-2.6B visa fornecer uma solução prática e eficiente para aplicações de ponta. Focando nas necessidades específicas dos ambientes edge, a Nexa AI oferece um modelo que equilibra o desempenho com as limitações de recursos, demonstrando o seu compromisso em melhorar a acessibilidade da IA.

Detalhes técnicos e benefícios

A arquitetura OmniAudio-2.6B foi projetada para oferecer velocidade e eficiência. A combinação do Gemma-2-2b, um LLM refinado, e do Whisper Turbo, um sistema ASR robusto, garante um pipeline de processamento de áudio suave e eficiente. Um projetor personalizado combina esses componentes, reduzindo a latência e melhorando a eficiência. Os destaques de desempenho incluem:

Velocidade de processamento: Em um Mac Mini M4 Pro 2024, OmniAudio-2.6B atinge 35,23 tokens por segundo no formato FP16 GGUF e 66 tokens por segundo no formato Q4_K_M GGUF, usando o Nexa SDK. Em comparação, Qwen2-Audio-7B, outro método excelente, executa apenas 6,38 tokens por segundo no mesmo hardware. Essa diferença representa uma melhoria significativa na velocidade.
Desempenho do serviço: O design compacto deste modelo reduz sua dependência de serviços em nuvem, tornando-o ideal para aplicações em wearables, sistemas automotivos e dispositivos IoT onde a potência e a largura de banda são limitadas.
Precisão e flexibilidade: Apesar do foco na velocidade e eficiência, o OmniAudio-2.6B oferece alta precisão, tornando-o versátil para tarefas como transcrição, tradução e resumo.

Essas melhorias tornam o OmniAudio-2.6B uma escolha viável para desenvolvedores e empresas que buscam soluções de processamento de áudio discretas e responsivas baseadas em borda.

Detalhes de desempenho

Os testes de benchmark confirmam o desempenho impressionante do OmniAudio-2.6B. No Mac Mini M4 Pro 2024, o modelo funciona a até 66 tokens por segundo, superando significativamente os 6,38 tokens por segundo do Qwen2-Audio-7B. Este aumento na velocidade aumenta as possibilidades de aplicações de áudio em tempo real.

Por exemplo, o OmniAudio-2.6B pode melhorar os assistentes virtuais, permitindo respostas instantâneas no dispositivo, sem os atrasos associados à dependência da nuvem. Em setores como o de saúde, onde a transcrição e a interpretação em tempo real são essenciais, a velocidade e a precisão do modelo podem melhorar os resultados e a eficiência. Seu design amigável também aumenta seu apelo em situações que exigem processamento de superfície.

A conclusão

OmniAudio-2.6B representa um avanço significativo na modelagem de linguagem de áudio, abordando desafios importantes como latência, consumo de recursos e dependências de nuvem. Ao integrar componentes avançados em uma estrutura unificada, a Nexa AI desenvolveu um modelo que equilibra a velocidade, a eficiência e a precisão dos ambientes de borda.

Com métricas de desempenho mostrando uma melhoria de 10,3x em relação às soluções existentes, o OmniAudio-2.6B oferece uma opção robusta e escalável para uma variedade de aplicações de ponta. Este modelo reflete a ênfase crescente em soluções de IA locais e eficazes, que abrem caminho para avanços no processamento de linguagem de áudio que atendem às necessidades das aplicações modernas.

Confira eu Detalhes de novo O modelo do tamanho do rosto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)

Source link

Detalhes técnicos e benefícios

Detalhes de desempenho

A conclusão

Você também pode gostar...

AMD lança AMD ROCm 6.3: uma plataforma de código aberto com ferramentas e aprimoramentos aprimorados para otimizar cargas de trabalho de IA, ML e HPC

SelfCodeAlign: uma estrutura de IA aberta e transparente para LLMs de código de treinamento que supera modelos maiores sem reduzir custos ou anotações

Os 4 principais desafios de reconhecimento de fala em 2024 e soluções eficazes

Deixe um comentário Cancelar resposta