VITA-1.5: Um modelo de linguagem integrado que integra visão, linguagem e fala por meio de uma metodologia de treinamento em três fases cuidadosamente projetada
Inteligência artificial

VITA-1.5: Um modelo de linguagem integrado que integra visão, linguagem e fala por meio de uma metodologia de treinamento em três fases cuidadosamente projetada


O desenvolvimento de grandes modelos linguísticos multimodais (MLLMs) trouxe novas oportunidades para a inteligência artificial. No entanto, os principais desafios continuam a incluir as modalidades visuais, linguísticas e de fala. Embora a maioria dos MLLMs se saiam bem com recursos visuais e textuais, a integração da fala continua a ser um obstáculo. A fala, uma forma natural de interação humana, desempenha um papel importante nos sistemas de conversação, mas a diferença entre os métodos – exibição de dados espaciais versus temporais – cria conflitos durante o treinamento. Os sistemas tradicionais que dependem de módulos de reconhecimento automático de fala (ASR) e conversão de texto em fala (TTS) costumam ser lentos e ineficazes em aplicações em tempo real.

Pesquisadores da NJU, Tencent Youtu Lab, XMU e CASIA apresentaram o VITA-1.5, um grande modelo de linguagem multimodal que integra visão, linguagem e fala por meio de um método de treinamento de três fases cuidadosamente projetado. Ao contrário do seu antecessor, VITA-1.0, que depende de módulos TTS externos, o VITA-1.5 utiliza uma estrutura ponta a ponta, reduzindo a latência e as interações direcionais. O modelo inclui codificadores de visão e fala e um decodificador de fala, permitindo interação quase em tempo real. Através de treinamento multimodal contínuo, aborda o conflito entre modalidades, mantendo o desempenho. Os pesquisadores também disponibilizaram publicamente o treinamento e o código de referência, incentivando a inovação na área.

Detalhes técnicos e benefícios

VITA-1.5 foi projetado para equilibrar eficiência e capacidade. Ele usa codificadores visuais e de áudio, usa patch dinâmico de entrada de imagem e técnicas de redução de resolução de áudio. O gravador de voz combina os modos não automático (NAR) e automático (AR) para garantir uma produção de fala suave e de alta qualidade. O processo de treinamento é dividido em três etapas:

  1. Treinamento em linguagem visual: Esta seção concentra-se no alinhamento de percepção e compreensão, usando vocabulário descritivo e atividades visuais de resposta a perguntas (QA) para estabelecer conexões entre modalidades visuais e linguísticas.
  2. Ajuste de entrada de áudio: um codificador de áudio é alinhado a um modelo de linguagem usando dados de transcrição de fala, permitindo um processamento eficiente de entrada de áudio.
  3. Ajuste de saída de som: um gravador de fala é treinado em dados de conversão de texto em fala emparelhados, permitindo uma saída de fala consistente e uma interação perfeita de fala para fala.

Essas técnicas lidam efetivamente com conflitos de processo, permitindo que o VITA-1.5 lide com dados de imagem, vídeo e fala com facilidade. A abordagem integrada melhora a sua usabilidade em tempo real, eliminando obstáculos comuns nos sistemas tradicionais.

Resultados e detalhes

Os testes do VITA-1.5 em vários benchmarks demonstram suas fortes capacidades. O modelo apresenta desempenho competitivo em tarefas de reconhecimento de imagem e vídeo, alcançando resultados semelhantes aos melhores modelos de código aberto. Por exemplo, em benchmarks como MMBench e MMStar, as capacidades de linguagem visual do VITA-1.5 estão no mesmo nível de modelos proprietários como o GPT-4V. Além disso, é excelente em tarefas de fala, alcançando baixas taxas de erro de caracteres (CER) em mandarim e taxas de erro de palavras (WER) em inglês. É importante ressaltar que a inclusão do processamento de áudio não interfere nas suas capacidades de pensamento visual. O desempenho consistente do modelo em todos os métodos destaca o seu potencial para aplicações práticas.

A conclusão

VITA-1.5 representa uma abordagem conceitual para resolver os desafios da integração multimodal. Ao abordar o conflito entre percepção, linguagem e métodos de comunicação, fornece uma solução coerente e eficaz para interação em tempo real. Sua disponibilidade de código aberto garante que pesquisadores e desenvolvedores possam desenvolver sua base, avançando no campo da IA ​​multimodal. VITA-1.5 não apenas melhora as capacidades atuais, mas também aponta para o futuro integrado e interativo dos sistemas de IA.


Confira eu Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimentalParticipe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.


Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.

🧵🧵 Siga-nos no X (Twitter) para pesquisas gerais sobre IA e atualizações de desenvolvimento aqui…





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *