Os modelos básicos multimodais são cada vez mais alimentados por inteligência artificial, permitindo que os sistemas processem e sintetizem vários tipos de dados – como imagens, texto e áudio – para realizar uma variedade de tarefas. No entanto, estes programas enfrentam desafios significativos. Os modelos existentes muitas vezes têm dificuldade em generalizar para uma ampla variedade de métodos e tarefas devido à sua dependência de conjuntos de dados e métodos limitados. Além disso, a concepção de muitos modelos actuais sofre do problema da fraca transferibilidade, onde o desempenho de algumas tarefas se deteriora à medida que novos métodos são adicionados. Estes desafios dificultam a robustez e a capacidade de fornecer resultados consistentes, sublinhando a necessidade de estruturas que possam integrar diversas representações de dados, mantendo ao mesmo tempo o desempenho operacional.
Pesquisadores da EPFL lançaram 4M, uma estrutura de código aberto projetada para treinar modelos básicos multimodo que vão além da linguagem. A 4M aborda as limitações dos métodos existentes, permitindo a previsão através de uma variedade de métodos, integrando dados de fontes como imagens, texto, características semânticas e metadados geométricos. Ao contrário dos frameworks tradicionais que atendem a um conjunto limitado de funções, o 4M se expande para suportar 21 métodos, três vezes mais do que a maioria dos seus antecessores.
Uma inovação fundamental da 4M é o uso de tokens discretos, que transforma vários métodos em uma sequência unificada de tokens. Essa representação integrada permite que o modelo use a arquitetura baseada em Transformer para ser treinado de forma colaborativa em vários tipos de dados. Ao simplificar o processo de formação e eliminar a necessidade de determinadas partes do trabalho, a 4M consegue um equilíbrio entre durabilidade e eficiência. Como um projeto de código aberto, é acessível a uma comunidade de pesquisa mais ampla, incentivando a colaboração e o desenvolvimento adicional.
Detalhes técnicos e benefícios
A estrutura 4M usa uma arquitetura Transformer codificador-decodificador projetada para um modelo latente multimodal. Durante o treinamento, os métodos são tokenizados usando codificadores especiais apropriados para seus tipos de dados. Por exemplo, os dados de imagem usam VAEs espaciais diferentes, enquanto o texto e os metadados estruturados são processados usando o token WordPiece. Este método consistente de tokenização garante integração perfeita de vários tipos de dados.
Uma característica notável da 4M é a sua capacidade de gerar dados refinados e gerenciáveis. Ao atribuir resultados a características específicas, como a posição de uma pessoa ou metadados, o modelo proporciona um alto grau de controle sobre o conteúdo gerado. Além disso, os recursos de recuperação da 4M permitem consultas em um formato (por exemplo, texto) para recuperar informações relevantes em outro (por exemplo, imagens).
A força do quadro é outra força. Treinado em grandes conjuntos de dados, como COYO700M e CC12M, o 4M inclui mais de 0,5 bilhão de amostras e escala até 3 bilhões de parâmetros. Ao compactar dados densos em uma sequência de pequenos tokens, aumenta a memória e a eficiência computacional, tornando-se uma escolha viável para tarefas multimodais complexas.
Resultados e detalhes
As capacidades da 4M são evidentes no seu desempenho numa ampla gama de atividades. Na análise apresentou forte desempenho em todos os 21 métodos sem comprometer os resultados em comparação aos modelos especiais. Por exemplo, o modelo XL da 4M alcançou uma pontuação de segmentação semântica de 48,1 milhões de UI, igualando ou superando os benchmarks e lidando com três vezes mais tarefas do que os modelos anteriores.
A estrutura também é bem-sucedida na aprendizagem por transferência. Testes em tarefas posteriores, como detecção de objetos 3D e classificação semântica multimodal, mostram que os codificadores pré-treinados 4M mantêm alta precisão em tarefas familiares e novas. Estes resultados destacam o seu potencial para trabalhar em áreas como sistemas privados e cuidados de saúde, onde a integração de dados multimodais é essencial.
A conclusão
A estrutura 4M marca um importante passo em frente no desenvolvimento de modelos básicos multimodais. Ao abordar os desafios da robustez e os desafios da integração de vários métodos, a contribuição da EPFL prepara o terreno para sistemas de IA flexíveis e eficientes. Seu lançamento de código aberto incentiva a comunidade de pesquisa a desenvolver esse trabalho, ampliando os limites do que a IA multimodal pode alcançar. À medida que o campo evolui, estruturas como a 4M desempenharão um papel importante na viabilização de novas aplicações e no desenvolvimento de capacidades de IA.
Confira eu Artigo, página do projeto, página do GitHub, demonstração e blog. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
✅ [Recommended Read] Nebius AI Studio se expande com modelos de visão, novos modelos de linguagem, incorporados e LoRA (Aprimorado)