Cohere for AI lança Aya Expanse (8B e 32B): uma família multilíngue de última geração para preencher a lacuna linguística na IA

Apesar dos rápidos avanços na tecnologia linguística, ainda existe uma grande lacuna na representação em muitas línguas. Grande parte do progresso no processamento de linguagem natural (PNL) concentrou-se em línguas bem utilizadas, como o inglês, deixando muitas outras sub-representadas. Esta desigualdade significa que apenas uma pequena parte da população mundial pode beneficiar plenamente das ferramentas de IA. A falta de modelos linguísticos fortes para línguas com poucos recursos, juntamente com o acesso desigual à IA, aumenta as disparidades na educação, no acesso à informação e na capacitação tecnológica. Enfrentar estes desafios requer um esforço concertado para desenvolver e implementar estratégias linguísticas que sirvam todas as comunidades de forma igual.

Cohere for AI apresenta Aya Expanse: uma família de modelos de código aberto para ajudar a preencher a lacuna linguística com a IA. Aya Expanse foi projetada para expandir a cobertura linguística e a inclusão no espaço de IA, fornecendo modelos de código aberto que podem ser acessados e desenvolvidos por pesquisadores e desenvolvedores em todo o mundo. Disponíveis em vários tamanhos, incluindo Aya Expanse-8B e Aya Expanse-32B, esses modelos são adaptáveis a uma ampla gama de tarefas de linguagem natural, como processamento de texto, tradução e resumo. Diferentes tamanhos oferecem flexibilidade para vários casos de uso, desde aplicações grandes até aplicações simples. Aya Expanse usa uma arquitetura de transformador avançada para capturar a diversidade linguística e a riqueza semântica e é ajustada para lidar com cenários multilíngues de maneira eficaz. Os modelos aproveitam o poder de diversos conjuntos de dados de idiomas menos usados, como suaíli, bengali e galês, para garantir desempenho igual em todas as condições linguísticas.

Aya Expanse desempenha um papel importante na redução da divisão linguística, garantindo que as línguas sub-representadas tenham as ferramentas necessárias para se beneficiarem do desenvolvimento da IA. O modelo Aya Expanse-32B, em particular, mostrou melhorias significativas em muitos benchmarks de compreensão linguística, superando modelos como o Gemma 2 27B, Mistral 8x22B e Llama 3.1 70B – um modelo com mais que o dobro do seu tamanho. Na análise, o Aya Expanse-32B alcançou uma precisão média 25% maior em todos os benchmarks de idiomas com poucos recursos em comparação com outros modelos líderes. Da mesma forma, o Aya Expanse-8B supera os modelos líderes em sua classe de parâmetros, incluindo Gemma 2 9B, Llama 3.1 8B e o recentemente lançado Ministral 8B, com taxas de vitória variando de 60,4% a 70,6%. Estes resultados destacam o potencial da Aya Expanse para apoiar comunidades carentes e promover uma melhor inclusão linguística.

O desenvolvimento do Aya Expanse da Cohere for AI se concentra em expandir a forma como a IA funciona para idiomas em todo o mundo. Ao repensar os principais blocos de construção para o sucesso do aprendizado de máquina, incluindo processamento de dados, preferências de treinamento para desempenho geral e segurança e integração de modelos, o Cohere for AI deu uma contribuição significativa para preencher a lacuna linguística. Disponibilizar abertamente os pesos dos modelos incentiva um ecossistema inclusivo de pesquisadores e desenvolvedores, garantindo que a modelagem de linguagem se torne um esforço conduzido pela comunidade, em vez de ser controlado por algumas agências.

Concluindo, Aya Expanse representa um passo importante para democratizar a IA e abordar a lacuna linguística na PNL. Ao fornecer modelos multilíngues poderosos com pesos abertos, o Cohere for AI aproveita o conhecimento linguístico ao mesmo tempo que melhora a inclusão e a colaboração. Aya Expanse capacita desenvolvedores, educadores e inovadores de diversas origens linguísticas para criar aplicativos que sejam acessíveis e benéficos para a comunidade em geral, contribuindo, em última análise, para um mundo mais conectado e equitativo. Este movimento alinha-se bem com os valores fundamentais da inteligência artificial – acessibilidade, integração e inovação sem fronteiras.

Confira Detalhes, Modelo 8B e Modelo 32B. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Nvidia Open Sources Nemotron-Mini-4B-Instruct: um modelo de 4.096 tokens de uma minilinguagem projetada para simulação, tarefas e implementação eficiente em um dispositivo com 32 chefes de atenção e 9.216 MLP

Claude agora disponível no GitHub Copilot: uma nova era de codificação assistida por IA

Meta AI lança LayerSkip: uma nova abordagem de IA para acelerar a indução a modelos de linguagem em larga escala (LLMs)

Deixe um comentário Cancelar resposta