Pesquisadores da CMU lançam Pangea-7B: modelos multilíngues totalmente abertos para MLLMs em 39 idiomas

Apesar do recente progresso nos modelos linguísticos de grande escala (MLLMs), o desenvolvimento destes modelos centrou-se principalmente em conjuntos de dados centrados no inglês e no Ocidente. Esta ênfase resultou numa grande lacuna na representação linguística e cultural, uma vez que muitas línguas e origens culturais em todo o mundo continuam sub-representadas. Por conseguinte, os modelos existentes funcionam muitas vezes mal em ambientes multilingues e não conseguem acompanhar as normas sociais e culturais das línguas sub-representadas. Isto apresenta uma grande limitação, especialmente dada a crescente adoção destes modelos em todo o mundo, onde a representação igualitária é essencial para aplicações práticas no mundo real.

Uma equipe de pesquisadores da Carnegie Mellon University lançou o PANGEA, um LLM multilíngue projetado para preencher lacunas linguísticas e culturais em tarefas de compreensão visual. PANGEA é treinado em um conjunto de dados recém-selecionado, PANGEAINS, que contém um milhão de exemplos de frases em 39 idiomas. O conjunto de dados foi projetado especificamente para melhorar a acessibilidade intercultural, combinando instruções em inglês de alta qualidade, instruções traduzidas automaticamente e atividades multimétodos culturalmente relevantes. Além disso, para testar as capacidades do PANGEA, os investigadores lançaram o PANGEABENCH, uma plataforma de teste que inclui 14 conjuntos de dados abrangendo 47 idiomas. Esta avaliação abrangente fornece informações sobre o desempenho do modelo em tarefas multigênero e multilíngues, mostrando que o PANGEA supera muitos modelos existentes em contextos multilíngues.

PANGEA foi desenvolvido usando PANGEAINS, um conjunto de dados rico e diversificado que inclui instruções para compreensão visual geral, consulta de documentos e gráficos que respondem a legendas de imagens e muito mais. O conjunto de dados foi concebido para enfrentar os principais desafios do multilinguismo: escassez de dados, diferenças culturais, esquecimento catastrófico e dificuldades de teste. Para criar o PANGEAINS, os pesquisadores usaram diversas estratégias: traduzir instruções em inglês de alta qualidade, produzir tarefas culturalmente sensíveis e integrar conjuntos de dados multimodais existentes de código aberto. Os pesquisadores também desenvolveram um pipeline complexo para filtrar imagens culturalmente diversas e gerar legendas multilíngues e interculturais detalhadas, garantindo que o modelo compreenda e responda adequadamente a diferentes contextos linguísticos e culturais.

Os resultados dos testes da PANGEA no PANGEABENCH mostram o seu potencial. PANGEA-7B, um modelo de 7 bilhões de parâmetros, apresentou melhorias significativas em relação aos modelos de código aberto existentes, alcançando uma melhoria média de 7,3 pontos em tarefas de inglês e 10,8 pontos em tarefas multilíngues. A PANGEA também se destaca na compreensão intercultural, como evidenciado pelo seu desempenho nos benchmarks CVQA e xChat. Curiosamente, o desempenho do modelo em ambientes multilingues não se degradou tão significativamente como outros modelos, indicando as suas capacidades multilingues. Além disso, o PANGEA iguala ou até supera modelos proprietários como Gemini-1.5-Pro e GPT4o em diversas áreas, indicando que é um forte concorrente no espaço MLLM multilíngue.

PANGEA representa um importante passo em frente na criação de LLMs multilingues inclusivos e robustos. Os investigadores abordaram com sucesso os desafios da escassez de dados e da representação cultural, utilizando tradução automática e técnicas de geração de dados culturalmente conscientes, criando um conjunto de dados abrangente em 39 idiomas. Espera-se que a disponibilização aberta dos modelos PANGEAINS, PANGEABENCH e PANGEA impulsione o desenvolvimento e a inovação neste domínio, promovendo a equidade e a acessibilidade através das fronteiras linguísticas e culturais. Apesar do seu desempenho promissor, ainda há áreas a melhorar, como a melhoria do desempenho na comunicação multimodal e em tarefas de raciocínio complexas, que os investigadores esperam abordar em iterações futuras.

Confira Papel, folha de projeto e cartão modelo no rosto abraçado. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.

[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Pesquisadores da Intel e da Salesforce propõem SynthKG: um fluxo de trabalho de síntese de gráficos de conhecimento sem ontologia em nível de documento em várias etapas baseado em LLMs.

Otimização adaptativa de dados (ADO): um novo algoritmo para distribuição de dados dinâmicos em aprendizado de máquina, reduzindo a complexidade e melhorando a precisão do modelo

Nous Research lança dois novos projetos: Forge Reasoning API Beta e Nous Chat

Deixe um comentário Cancelar resposta