A comunicação por IA é agora a base da tecnologia, mas conseguir uma comunicação rápida, eficiente e em tempo real continua a ser um desafio. A latência – o atraso entre a entrada e a resposta – limita aplicativos como bots de atendimento ao cliente e assistentes virtuais, tornando as interações lentas. Os modelos existentes geralmente exigem um poder computacional significativo, colocando a IA em tempo real no domínio de pequenas configurações e desenvolvedores independentes. Ainda é necessária uma solução acessível, poderosa e eficaz.
O Standard Intelligence Lab recentemente abordou essa lacuna ao lançar o Hertz-Dev: um modelo de áudio de código aberto de 8,5 bilhões de parâmetros para conversas de IA em tempo real. A Hertz-Dev pretende revolucionar os aplicativos em tempo real com métricas de desempenho impressionantes, alcançando uma latência teórica de 80 milissegundos e uma latência real de 120 milissegundos, tudo em uma única GPU NVIDIA RTX 4090. Ao tornar a IA avançada mais acessível, a Hertz-Dev traz modelagem de áudio de alto desempenho para desenvolvedores e pesquisadores sem infraestrutura extensa, democratizando o campo da IA conversacional.
A Hertz-Dev se destaca em velocidade e capacidade de resposta, com 8,5 bilhões de parâmetros otimizados para latência mínima. Alcançar uma latência de 80 ms em teoria e 120 ms no uso no mundo real garante uma experiência de bate-papo fluida, com respostas que parecem mais rápidas em vez de atrasadas. Funciona bem no RTX 4090, usando os mais recentes desenvolvimentos de GPU sem exigir uma configuração multi-GPU. Esta eficiência permite que a Hertz-Dev trabalhe para desenvolvedores independentes, start-ups e grandes empresas que buscam otimizar custos enquanto mantêm o alto desempenho. A estrutura central inclui novas técnicas de otimização, reduzindo a sobrecarga de computação e mantendo a qualidade da saída.
A importância da Hertz-Dev reside não apenas na sua força técnica, mas também na sua capacidade de impulsionar uma adoção mais ampla da IA conversacional em tempo real. O processamento de áudio em tempo real tem aplicações que vão desde automação de suporte ao cliente até colaboradores interativos de IA e ferramentas de acessibilidade para pessoas com deficiência. Ao manter a latência dentro de 120 ms – quase imperceptível para a visão humana – a Hertz-Dev permite interações que parecem naturais, tornando a IA uma extensão natural da comunicação humana. Os primeiros testes mostram um desempenho consistente em vários casos de uso, com benchmarks mostrando uma redução de até 40% no tempo de resposta em comparação com modelos de código aberto anteriores. Essa flexibilidade torna a Hertz-Dev adequada para uma ampla gama de aplicações, incluindo automação de atendimento ao cliente e conectividade residencial inteligente.
O lançamento do Standard Intelligence Lab da Hertz-Dev é uma virada de jogo para IA conversacional em tempo real. Ao fornecer um modelo de código aberto e de alto parâmetro que combina acessibilidade e desempenho de ponta, a Hertz-Dev democratiza o acesso à tecnologia avançada de IA. Reduz a latência a tal ponto que as interações homem-máquina são quase indistinguíveis das interações homem-máquina. À medida que mais desenvolvedores e pesquisadores adotam o Hertz-Dev, podemos esperar uma nova onda de aplicativos de IA conversacionais que sejam responsivos, acessíveis e perfeitamente integrados à vida cotidiana – ampliando os limites do que é possível nas interações humano-IA.
Confira Página GitHub de novo Detalhes. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Trending] LLMWare apresenta Model Depot: uma coleção abrangente de modelos de linguagem pequena (SLMs) para PCs Intel
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️