Pesquisadores da MBZUAI lançam Atlas-Chat (2B, 9B e 27B): uma família de instruções de modelos abertos preparadas para Darija (árabe marroquino)
Inteligência artificial

Pesquisadores da MBZUAI lançam Atlas-Chat (2B, 9B e 27B): uma família de instruções de modelos abertos preparadas para Darija (árabe marroquino)


O processamento de linguagem natural (PNL) fez grandes avanços nos últimos anos, particularmente com o uso de modelos linguísticos de larga escala (LLMs). No entanto, um dos principais problemas desses LLMs é que eles se concentram demais em idiomas ricos em dados, como o inglês, deixando para trás muitos idiomas e dialetos sub-representados. O árabe marroquino, também conhecido como Darija, é um desses dialetos que recebe pouca atenção, apesar de ser a principal forma de comunicação diária para mais de 40 milhões de pessoas. Devido à falta de conjuntos de dados abrangentes, padrões de programação adequados e medições adequadas, Darija é classificada como uma linguagem de poucos recursos. Por causa disso, muitas vezes é esquecido pelos desenvolvedores das principais linguagens. O desafio de incorporar Darija nos LLMs é ainda agravado pela sua mistura única de Árabe Padrão Moderno (MSA), Amazigh, Francês e Espanhol, bem como pela sua forma escrita emergente que ainda não foi confirmada. Isto levou a uma assimetria onde o dialectal árabe como o Darija é marginalizado, apesar da sua utilização generalizada, o que afectou a capacidade dos modelos de IA para satisfazer eficazmente as necessidades destes falantes.

Conheça o Atlas-Chat!!

A MBZUAI (Universidade Mohamed bin Zayed de Inteligência Artificial) lançou o Atlas-Chat, uma família de modelos de código aberto habilitados para instrução, projetados especificamente para Darija – o tradicional árabe marroquino. O lançamento do Atlas-Chat marca um passo importante na abordagem dos desafios colocados pelas línguas com poucos recursos. O Atlas-Chat contém três modelos com tamanhos de parâmetros diferentes – 2 bilhões, 9 bilhões e 27 bilhões – oferecendo uma gama de recursos aos usuários, dependendo de suas necessidades. Modelos ativados por instrução, que lhes permitem ser eficazes em todas as diferentes tarefas, como comunicação conversacional, tradução, resumo e criação de conteúdo em Darija. Além disso, pretendem melhorar a investigação cultural através de uma melhor compreensão do património linguístico marroquino. Esta mudança é particularmente notável porque está alinhada com o objetivo de tornar a IA avançada acessível a comunidades sub-representadas no espaço da IA, ajudando assim a preencher a lacuna entre línguas ricas e pobres em recursos.

Detalhes técnicos e benefícios do Atlas-Chat

Os modelos Atlas-Chat são desenvolvidos combinando recursos existentes da linguagem Darija e criando novos conjuntos de dados através de métodos manuais e sintéticos. Notavelmente, o conjunto de dados Darija-SFT-Mixture consiste em 458.000 comandos de amostra, coletados de recursos existentes e por meio de inteligência artificial em plataformas como Wikipedia e YouTube. Além disso, conjuntos de dados de instrução em inglês de alta qualidade são traduzidos para Darija com rigoroso controle de qualidade. Os modelos foram ajustados neste conjunto de dados usando uma seleção de modelo base diferente dos modelos Gemma 2. Este design cuidadoso resultou no Atlas-Chat superando outros LLMs específicos do árabe, como Jais e AceGPT, por margens significativas. Por exemplo, no recém-lançado benchmark DarijaMMLU – o conjunto de testes abrangente da Darija que inclui funções discriminativas e generativas – o Atlas-Chat obteve uma melhoria de desempenho de 13% em um modelo de 13 bilhões de parâmetros. Isso mostra sua habilidade superior em seguir instruções, gerar respostas culturalmente apropriadas e realizar tarefas padrão de PNL em Darija.

Por que o Atlas-Chat é importante

O lançamento do Atlas-Chat é importante por vários motivos. Primeiro, aborda uma lacuna de longa data no desenvolvimento da IA, concentrando-se na linguagem mal representada. O árabe marroquino, com a sua complexa composição cultural e linguística, é frequentemente negligenciado em favor do MSA ou de outros dialectos mais ricos em dados. Através do Atlas-Chat, o MBZUAI forneceu uma ferramenta poderosa para melhorar a comunicação e a criação de conteúdo em Darija, apoiando aplicações como agentes de chat, resumo automático e pesquisa intercultural. Em segundo lugar, ao oferecer modelos com diferentes tamanhos de parâmetros, o Atlas-Chat garante flexibilidade e acessibilidade, atendendo a uma ampla gama de necessidades do usuário – desde aplicações simples que requerem poucos recursos computacionais até tarefas complexas. Os resultados do teste Atlas-Chat destacam sua eficácia; por exemplo, o Atlas-Chat-9B obteve pontuação de 58,23% no benchmark DarijaMMLU, superando significativamente modelos de última geração como o AceGPT-13B. Tais desenvolvimentos demonstram o potencial do Atlas-Chat no fornecimento de insights de alta qualidade aos falantes de árabe marroquino.

A conclusão

Atlas-Chat representa o desenvolvimento dinâmico do árabe marroquino e de outros dialetos de origem baixa. Ao construir uma solução robusta e aberta para Darija, a MBZUAI está a dar um grande passo no sentido de tornar a IA avançada acessível a um público mais vasto, capacitando os utilizadores a interagir com a tecnologia na sua própria língua e contexto cultural. Este trabalho não apenas aborda as assimetrias observadas no suporte de IA para línguas sub-representadas, mas também estabelece um precedente para desenvolvimentos futuros em domínios linguísticos sub-representados. À medida que a IA continua a evoluir, iniciativas como o Atlas-Chat são essenciais para garantir que os benefícios da tecnologia estejam disponíveis para todos, independentemente do idioma. Com desenvolvimento e melhoria contínuos, o Atlas-Chat está pronto para preencher a lacuna de comunicação e melhorar a experiência digital para milhões de falantes de Darija.


Confira Papel de novo Modelos abraçando o rosto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Sponsorship Opportunity with us] Promova sua pesquisa/produto/webinar para mais de 1 milhão de leitores mensais e mais de 500 mil membros da comunidade


Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *