NVIDIA AI revela Fugatto: um modelo de som de 2,5 bilhões de parâmetros que gera música, voz e áudio a partir de entrada de texto e áudio

Criar, editar e modificar músicas e sons apresenta desafios técnicos e criativos. Os modelos atuais de IA muitas vezes lutam com flexibilidade, concentram-se em pequenas tarefas ou não têm capacidade de integração eficaz. Isto limita a produção assistida por IA e dificulta a flexibilidade criativa. Para que a IA desempenhe um papel na produção musical e sonora, ela deve ser versátil, sintetizar e responder às contribuições artísticas, permitindo que os artistas criem sons únicos. Há uma clara necessidade de um modelo generalista que possa navegar pelas nuances do áudio e do texto, fazer mudanças criativas e fornecer resultados de alta qualidade.

A NVIDIA apresentou o Fugatto, um modelo de IA com 2,5 bilhões de parâmetros projetados para gerar e manipular músicas, vozes e sons. Fugatto combina informações de texto com recursos avançados de síntese de áudio, tornando as entradas de áudio mais flexíveis para experimentos criativos – como transformar uma linha de piano em uma voz humana ou fazer um trompete emitir sons inesperados.

O modelo suporta opções de entrada de áudio e texto, permitindo criar e manipular sons de maneiras que vão além dos modelos padrão de geração de áudio. Esta abordagem versátil permite experimentação em tempo real, permitindo que artistas e engenheiros produzam novos tipos de sons ou modifiquem sons existentes dinamicamente. A ênfase da NVIDIA na flexibilidade permite que o Fugatto se destaque em tarefas que envolvem conversões complexas, tornando-o uma ferramenta essencial para artistas e produtores de áudio.

Detalhes técnicos

Fugatto trabalha com um novo método de geração de dados que vai além do tradicional aprendizado supervisionado. Seu treinamento inclui não apenas conjuntos de dados comuns, mas também métodos especiais de geração de conjuntos de dados para criar uma ampla gama de funções de áudio e transição. Utiliza modelos linguísticos de grande escala (LLMs) para melhorar a produção de instrução, permitindo compreender e interpretar melhor a relação entre informações de áudio e texto. Esta estratégia de enriquecimento de conjunto de dados deu a Fugatto a capacidade de aprender em diferentes contextos, criando uma base sólida para a aprendizagem multitarefa.

Uma inovação importante é o Composable Audio Representation Transformation (ComposableART), um método de tempo de previsão projetado para estender a orientação livre do classificador para comandos de composição. Isso permite que o Fugatto combine, traduza ou contradiga diferentes comandos de produção sonora de maneira integrada, abrindo novas possibilidades na criação sonora. ComposableART oferece um alto nível de controle sobre a composição, permitindo aos usuários navegar com precisão na paleta sonora do Fugatto, combinar diferentes sons e produzir eventos sonoros únicos.

A arquitetura Fugatto melhora os modelos do Transformer com melhorias como Adaptive Layer Normalization, que ajuda a manter a consistência entre múltiplas entradas e oferece suporte a instruções de composição melhor do que os modelos existentes. Isto se traduz em um modelo capaz de realizar tarefas como mixagem, manipulação de áudio e manipulação de efeitos, tornando-o adequado para uma ampla gama de aplicações de áudio.

A versatilidade da Fugatto reside na sua capacidade de atuar na intersecção entre arte e tecnologia. Os modelos personalizados tradicionalmente exigem intervenção manual ou tarefas mal definidas, muitas vezes sem a flexibilidade necessária para testes criativos. Fugatto, porém, pode ser adaptado para diversos fins, trazendo seu uso à tona no âmbito da criação sonora. Os primeiros testes do Fugatto mostram que ele tem um desempenho competitivo com outros modelos especializados em benchmarks regulares, mas a sua verdadeira força reside nas suas capacidades emergentes.

Os resultados têm sido promissores: os testes do Fugatto mostram desempenho competitivo ou superior em relação aos modelos especializados para integração e conversão de áudio. Quando encarregado de sintetizar novos sons ou seguir instruções de composição, Fugatto superou vários benchmarks. Por exemplo, demonstrou capacidades como a criação de sons novos, como a criação de um saxofone com características incomuns ou a produção de fala que combina bem com sons de fundo – tarefas que têm sido desafiadoras para outros modelos.

Além disso, a capacidade do Fugatto de gerar sons emergentes – fenômenos sonoros que transcendem os dados de treinamento convencionais – abre novas possibilidades para o design sonoro criativo. O uso do ComposableART para síntese composicional significa que os usuários podem combinar vários atributos de maneira flexível, tornando-o uma ferramenta essencial para produtores de áudio que desejam controle criativo.

A conclusão

Fugatto é um avanço significativo na IA de produção de áudio, oferecendo recursos que desafiam as limitações convencionais e aprimoram a manipulação criativa de áudio. A NVIDIA combinou modelos de linguagem grandes e complexos de áudio e música, resultando em uma ferramenta poderosa e flexível. A capacidade do Fugatto de lidar com tarefas de áudio diferenciadas, desde a geração direta de áudio até ajustes complexos de composição, o torna um contribuidor importante para o futuro das ferramentas criativas de IA. Este modelo tem implicações importantes não só para os artistas, mas também para indústrias como a dos jogos, do entretenimento e da educação, onde as ferramentas de IA apoiam e incentivam cada vez mais a criatividade humana.

Confira Artigo e Blog da NVIDIA. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

🎙️ 🚨 'Avaliação de vulnerabilidade de um grande modelo de linguagem: uma análise comparativa dos métodos da Cruz Vermelha' Leia o relatório completo _(Promovido)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'

Source link

Detalhes técnicos

A conclusão

Você também pode gostar...

A Microsoft AI Research gerou 1 milhão de instruções de execução de comandos, incluindo várias habilidades

Comet apresenta Opik: uma ferramenta completa de código aberto para testes LLM ponta a ponta, rastreamento rápido e testes de pré-implantação com integração perfeita.

Compreensão em nível local e compressão de informações em redes neurais profundas

Deixe um comentário Cancelar resposta