Kyutai lança o Hibiki: uma conversa de 2,7 bilhões sobre o tempo real e o texto a texto ao texto na qualidade mais próxima do país e na qualidade imediata do país
Inteligência artificial

Kyutai lança o Hibiki: uma conversa de 2,7 bilhões sobre o tempo real e o texto a texto ao texto na qualidade mais próxima do país e na qualidade imediata do país


A conversa em tempo real reflete um desafio complexo, exigindo uma compilação de reconhecimento de fala, uma tradução mecânica e a integração da fala. As formas tradicionais com os Cascods geralmente lançam erros mistos, não conseguem manter a propriedade do falante e sofrerem com processamento lento, o que os torna bem paga aplicativos em tempo real como uma explicação ao vivo. Além disso, os modelos de tradução existentes que existem ao mesmo tempo lutando para medir a precisão e a latência, dependendo de programas complexos para medir a medição. Um importante obstáculo que permanecemos em atalhos da fala, discretamente, que reduz a capacidade de treinar modelos que podem produzir precisão natural e menos atraso.

Kyutai é avançado ConfusãoDecodificador de um modelo de decodificador de 2,7 milhões projetado para a tradução real (S2ST) e a tradução expressa-to-text (S2TT). Trabalha em Quadro de 12,5Hz com 2,2kbps BillaleAtualmente, o Umibiki suporta Francês-para-mesmo-inglês Ele também foi projetado para manter as palavras da tradução na tradução. Uma versão caída, Hibiki-m (parâmetro 1,7b), Está preparado para o tempo real em smartphones, o que facilita a tradução do dispositivo.

Técnico e benefícios

Hibichi's Decódia de Decors apenas Permite falar ao mesmo tempo usando um modelo de professores para prever ambos Tokens de texto e áudio. Usa a Codec de áudio neural (i) Pressionar o som, mantendo a honestidade, garante a punição de uma tradução eficaz. Uma característica importante de seu design Alinhamentomaneira de cumprir a confusão do modelo de texto para encontrar o momento certo para evacuar o discurso, permitindo que o hibiki Corrija o atraso da tradução vigorosa Enquanto ele continua concordando. Além disso, um hibichi suporta lote para mentirprocessamento até 320 sequências semelhantes às GPUs H100tornando as aplicações dificilmente grandes. O modelo é treinado 7m horas de áudio, 450 mil horas da França e 40k de dados SynathaContribuiu para todos os padrões de fala de uma variedade.

Trabalho e avaliação

O Hibiki mostrou forte desempenho na qualidade da tradução e na autenticidade do falante. Alcance ASR-BLEU Pontuação de 30,5Passando as fundações, incluindo modelos offline. Teste de medidas de pessoas Natureza em 3,73 / 5para se aproximar 4.12/5 Os Pontos Transformation Translators. Modelo e funciona bem em Alto -falante correspondepor 0,52 pontuação de correspondências comparado com 0,43 de sem costura. Comparado com As costuras e nubladoOs Hibichi se movem de forma consistente Alta tradução média incluindo A transmissão de uma voz melhorEnquanto é mantido um Latência para competição. Tocha Hibichi-m Diversidade, embora seja pouco baixa nos mesmos alto -falantes, é sempre eficaz para a aplicação real do serviço.

Loja

Hiiiika oferece uma abordagem prática para a tradução de tempo real, incluindo Corresponder ao conteúdo, estresse eficaz e tendência real Melhorando a qualidade da tradução, mantendo aspectos naturais de falar. Contribuindo com Liberação de código aberto sob a licença CCHiisiki tem o poder de contribuir significativamente para o desenvolvimento multilíngue.


Enquete Página, modelos em massas de face, notebook Github e Colab. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 75k + ml subreddit.

🚨 Junte -se à nossa comunidade de aprendizado de máquina no Twitter /X


O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.

✅ [Recommended] Junte -se ao nosso canal de telégrafo



Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *