Os modelos linguísticos de grande escala (LLMs) surgiram como poderosos solucionadores de tarefas de uso geral, capazes de ajudar as pessoas em vários aspectos da vida diária através do diálogo. No entanto, a dependência primária de interfaces baseadas em texto limitou severamente o seu uso em situações onde a entrada e a saída de texto são incorretas. Embora desenvolvimentos recentes, como o GPT4o, tenham introduzido a capacidade de comunicação por fala com latência muito baixa, melhorando a experiência do usuário, a comunidade de código aberto ainda precisa de uma avaliação completa na construção de modelos conversacionais baseados em LLMs. Um desafio urgente que os pesquisadores estão tentando resolver é como conseguir interação de fala de baixa latência e alta qualidade com LLMs, aumentando sua acessibilidade e desempenho em uma variedade de casos de uso.
Várias abordagens foram tentadas para permitir a interação de fala com LLMs, cada uma com limitações. O método mais simples envolve um sistema em cascata usando modelos de reconhecimento automático de fala (ASR) e conversão de texto em fala (TTS). No entanto, esta abordagem sequencial leva a uma alta latência devido ao processamento passo a passo do texto escrito, da resposta do texto e da resposta da fala. Modelos multilíngues de fala foram propostos, dividindo a fala em tokens e estendendo a terminologia LLM para apoiar a entrada e saída de fala. Embora estes modelos permitam teoricamente a produção direta de fala para fala com baixa latência, a implementação prática muitas vezes envolve a produção de texto intermediário para manter a alta qualidade, sacrificando alguma velocidade de resposta. Outros esforços incluem o treinamento de modelos de linguagem em tokens semânticos ou acústicos, o treinamento conjunto de tokens de fala e de texto e a adição de codificadores de fala aos LLMs. No entanto, estes métodos geralmente requerem muitos dados e recursos computacionais ou focam apenas na compreensão da fala sem capacidades de produção.
Apresentado por pesquisadores da Universidade da Academia Chinesa de Ciências LLaMA-Omnimodelo arquitetônico, proposto para superar o desafio de alcançar baixa latência e interação de fala de alta qualidade com LLMs. Essa abordagem inovadora combina um codificador de fala, um adaptador de fala, um LLM e um extrator de fala de transmissão para permitir uma comunicação perfeita entre fala e fala. O modelo processa a entrada de fala diretamente através do codificador e do adaptador antes de inseri-la no LLM, evitando a necessidade de transcrição intermediária. O transformador de streaming incontrolável funciona como um gravador de voz, utilizando programação temporal para prever as unidades discretas correspondentes à resposta de fala. Este recurso permite a produção simultânea de texto e fala, reduzindo bastante a latência de resposta. Para apoiar o desenvolvimento e teste deste modelo, os pesquisadores criaram o conjunto de dados InstructS2S-200K, voltado especificamente para casos de uso de fala.
A estrutura LLaMA-Omni consiste em quatro componentes principais: um codificador de falaum adaptador de falaeu LLMe um vídeo de discurso. O codificador de fala, baseado em Whisper-large-v3, extrai representações audíveis da entrada de fala do usuário. Essas representações são então processadas pelo adaptador de fala, que as alimenta na incorporação do LLM por redução da resolução e no perceptron de duas camadas. O LLM, baseado no Llama-3.1-8B-Instruct, gera respostas de texto diretamente de uma mensagem de fala. O decodificador de fala, um transformador de streaming não controlado, pega os estados ocultos do LLM e usa classificação temporal conectista (CTC) para prever as diferentes unidades correspondentes à resposta de fala.
O modelo usa uma estratégia de treinamento em dois estágios. Na primeira fase, aprende a gerar respostas de texto a partir de comandos de fala. A segunda etapa concentra-se na produção de respostas de fala, apenas o vídeo de fala é treinado. Durante a consideração, o LLaMA-Omni gera simultaneamente respostas de texto e fala. À medida que o LLM gera o texto, o gravador de voz gera unidades coerentes separadas, que são então convertidas em ondas de fala em tempo real. Este método permite comunicação de voz com latência muito baixa, com os usuários capazes de ouvir as respostas antes que o texto completo seja gerado.
O conjunto de dados InstructS2S-200K foi criado para treinar LLaMA-Omni na interação de fala. Ele contém 200.000 trigêmeos de comandos de fala, respostas de texto e respostas de fala. O processo de construção envolveu a transcrição das instruções do texto para fala usando Llama-3-70B-Instruct, gerando respostas curtas adequadas para fala e sintetizando a fala usando CozyVoice-300M-SFT para instruções e VITS para respostas. O conjunto de dados inclui 50.000 entradas do Alpaca e 150.000 do UltraChat, cobrindo uma variedade de tópicos. Este conjunto de dados especial fornece uma base sólida para o treinamento do LLaMA-Omni em tarefas baseadas em fala, garantindo interação natural e eficiência.
O LLaMA-Omni supera os modelos anteriores em tarefas de fala interativa, como mostram os resultados do benchmark InstructS2S-Eval. É muito eficaz tanto no conteúdo quanto no estilo de ensino da fala para texto e da fala para fala, conseguindo um melhor alinhamento entre a fala e as respostas de texto. O modelo oferece uma compensação entre qualidade de fala e latência de resposta, com latência tão baixa quanto 226ms. A geração paralela de texto e fala do LLaMA-Omni resulta em tempos de decodificação significativamente mais rápidos em comparação com outros modelos. Estudos de caso mostram que o LLaMA-Omni fornece respostas concisas, detalhadas e úteis, adequadas a situações de uso da fala, superando modelos anteriores neste contexto.
LLaMA-Omni, um novo modelo arquitetônico, foi desenvolvido para permitir comunicação de voz de alta qualidade e baixa latência com LLMs. Construído no modelo Llama-3.1-8B-Instruct, o LLaMA-Omni combina um codificador de fala para compreensão e um extrator de fala de transmissão para geração simultânea de texto e resposta de fala. O alinhamento do modelo com os casos de uso de fala foi alcançado por meio da criação da InstruçãoS2S-200K, um conjunto de dados contendo 200.000 instruções e respostas de fala. Os resultados dos testes mostram o desempenho superior do LLaMA-Omni tanto no conteúdo quanto no estilo em comparação aos modelos de linguagem de fala existentes, com um tempo de resposta significativamente menor de 226 ms. O eficiente processo de treinamento do modelo, que requer menos de 3 dias em 4 GPUs, facilita o rápido desenvolvimento de modelos conversacionais baseados em LLMs avançados.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..
Não se esqueça de participar do nosso Mais de 50k ML SubReddit
⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)
Asjad é consultor estagiário na Marktechpost. Ele está cursando B.Tech em engenharia mecânica no Instituto Indiano de Tecnologia, Kharagpur. Asjad é um entusiasta do aprendizado de máquina e do aprendizado profundo que pesquisa regularmente a aplicação do aprendizado de máquina na área da saúde.
⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)