No mundo em constante evolução da inteligência artificial (IA), grandes modelos linguísticos provaram ser úteis na resolução de muitos desafios, desde a execução de tarefas complexas até à melhoria dos processos de tomada de decisão. No entanto, o dimensionamento destes modelos também introduz complexidades, tais como elevados custos computacionais, acessibilidade reduzida e o impacto ambiental de extensos requisitos de recursos. O grande tamanho das linguagens padrão, como GPT ou LLaMA-70B, torna-as um desafio para muitas instituições adquirirem devido a problemas na infraestrutura computacional. Arcee AI reconheceu esses desafios e tentou preencher a lacuna entre o poder do modelo e a acessibilidade introduzindo o SuperNova-Medius – um modelo de linguagem pequena que visa manter o resultado de alta qualidade de seus equivalentes maiores sem suas limitações.
SuperNova-Medius: Um modelo de linguagem pequena 14B que busca romper as noções convencionais de tamanho versus desempenho em modelos de IA. O 70B SuperNova-Medius vem após o lançamento do SuperNova-70B pela Arcee AI, seguido pelo 8B SuperNova-Lite. O SuperNova-Medius foi projetado para corresponder à potência de modelos muito grandes, competindo com aqueles com parâmetros de até 70 bilhões. Ele faz isso mantendo um tamanho gerenciável de 14 bilhões de parâmetros, o que o torna muito adequado para uma variedade de casos de uso sem grande carga computacional. Ao combinar técnicas de desenvolvimento de baixo nível com projetos arquitetônicos inovadores, o SuperNova-Medius introduz uma nova perspectiva sobre como os modelos de linguagem podem ser projetados para uso no mundo real, garantindo ao mesmo tempo que pequenas organizações possam aproveitá-los.
O SuperNova-Medius é construído sobre uma arquitetura Transformer bem projetada, combinada com técnicas avançadas de calibração que permitem manter precisão e eficiência impressionantes. O desenvolvimento do SuperNova-Medius envolveu um processo complexo de muitos professores, um processo de destilação com as seguintes etapas importantes:
- Destilação Logit de Llama 3.1 405B: Os logs do Llama 3.1 405B foram desmontados usando o método offline. Um máximo de K logs de cada token são armazenados para capturar a probabilidade máxima enquanto controlam os requisitos de armazenamento.
- Adaptação entre arquiteturas: Usando mergekit-tokensurgeon, uma versão Qwen2.5-14B foi criada usando o vocabulário Llama 3.1 405B. Isso permitiu o uso do log Llama 3.1 405B para treinar o modelo baseado em Qwen.
- Destilação na Arquitetura Qwen: O modelo Qwen2.5-14B modificado foi treinado usando os logs 405B armazenados como alvos.
- Destilação Qwen Paralela: Em um processo diferente, Qwen2-72B foi excluído do modelo 14B.
- Fusão final e ajuste fino: O vocabulário do modelo Qwen destilado em lhama retornou ao vocabulário Qwen. Depois de realinhar as palavras, foi realizada uma etapa final de integração e ajuste fino usando um conjunto de dados especial do EvolKit para garantir que o SuperNova-Medius mantenha consistência, fluência e compreensão do contexto em uma ampla gama de tarefas.
Apesar de ser pequeno em comparação com modelos maiores, o SuperNova-Medius foi otimizado usando um conjunto de dados diversificado e expansivo, cobrindo vários domínios e idiomas. Este extenso treinamento permite que o SuperNova-Medius demonstre uma forte compreensão do contexto, gere respostas coerentes e execute tarefas complexas de raciocínio com sucesso. Além disso, ao utilizar novas técnicas de alocação de parâmetros e técnicas leves, o modelo fornece resultados semelhantes aos modelos com contagens de parâmetros mais altas. As principais vantagens do SuperNova-Medius residem em seus recursos equilibrados: ele fornece produção de linguagem de alta qualidade e, ao mesmo tempo, sua implantação é econômica, tornando-o adequado para aplicações que exigem soluções confiáveis, porém eficientes.
O SuperNova-Medius é excelente em seguir instruções (IFEval) e tarefas de raciocínio complexo (BBH), superando o Qwen2.5-14B e o SuperNova-Lite na maioria dos benchmarks. Isso o torna uma solução poderosa e eficiente para aplicações de IA de produtividade de alta qualidade.
Concluindo, o SuperNova-Medius é uma prova do compromisso da Arcee AI em ultrapassar os limites do que é possível com modelos de linguagem, ao mesmo tempo em que torna a IA avançada mais inclusiva e sustentável. Ao reduzir com sucesso o tamanho dos modelos sem comprometer o desempenho, a Arcee AI forneceu uma solução que atende às necessidades de uma variedade de setores, desde startups e pequenas empresas até instituições educacionais e muito mais. À medida que a IA continua a moldar o nosso futuro, inovações como o SuperNova-Medius são fundamentais para garantir que os benefícios das tecnologias de aprendizagem automática sejam acessíveis a todos, abrindo caminho para aplicações equitativas e impactantes da IA em todo o mundo.
Confira O modelo do tamanho do rosto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.