AMD lança AMD-135M: a primeira série de modelos de linguagem pequena da AMD treinada do zero em aceleradores AMD Instinct™ MI250 usando tokens 670B

A AMD apresentou recentemente seu novo modelo de linguagem, AMD-135M ou AMD-Llama-135Mo que é uma adição importante ao cenário dos modelos de IA. Baseado no modelo de arquitetura LLaMA2, este modelo de linguagem possui uma estrutura robusta com 135 milhões de parâmetros e é otimizado para rodar nas mais recentes GPUs AMD, especialmente a MI250. Este lançamento representa um marco importante para a AMD em sua busca para estabelecer uma posição forte na competitiva indústria de IA.

Antecedentes e Especificações Técnicas

O AMD-135M é construído na arquitetura do modelo LLaMA2 e está integrado com recursos avançados para suportar diversas aplicações, especialmente na geração de texto e compreensão de linguagem. O modelo foi projetado para funcionar perfeitamente com a biblioteca Hugging Face Transformers, tornando-o acessível a desenvolvedores e pesquisadores. O modelo pode lidar com operações complexas com tamanho oculto de 768, 12 camadas (blocos) e 12 cabeças de atenção, mantendo alta eficiência. A função de ativação utilizada é a função Swiglu, e a normalização da camada é baseada no RMSNorm. Sua incorporação espacial é projetada usando o método RoPE, melhorando sua capacidade de compreender e gerar informações contextuais com precisão.

O lançamento deste modelo não envolve apenas as especificações de hardware, mas também o software e os conjuntos de dados que o alimentam. O AMD-135M é pré-treinado em dois conjuntos de dados importantes: SlimPajama e o conjunto de dados do Project Gutenberg. SlimPajama é uma versão lançada do RedPajama, que inclui fontes como Commoncrawl, C4, GitHub, Books, ArXiv, Wikipedia e StackExchange. O conjunto de dados do Project Gutenberg fornece acesso a um grande arquivo de textos antigos, permitindo ao modelo capturar várias estruturas e termos linguísticos.

Principais recursos do AMD-135M

O AMD-135M possui recursos incríveis que o diferenciam de outros modelos do mercado. Alguns desses recursos importantes incluem:

Tamanho do parâmetro: 135 milhões de parâmetros, permitindo processamento e geração de texto eficientes.
Número de camadas: 12 camadas com 12 cabeças de atenção para análise profunda e compreensão da situação.
Tamanho oculto: 768, que fornece a capacidade de lidar com uma variedade de tarefas de modelagem de linguagem.
Tipo de Atenção: Atenção Multi-Head, que permite ao modelo focar em diferentes aspectos dos dados de entrada simultaneamente.
Tamanho da janela de conteúdo: 2048, para garantir que o modelo possa lidar efetivamente com grandes sequências de dados de entrada.
Conjuntos de dados de pré-treinamento e ajuste fino: Os conjuntos de dados SlimPajama e Project Gutenberg são usados para pré-treinamento, e o conjunto de dados StarCoder é usado para correção, para garantir uma compreensão completa da linguagem.
Configuração de treinamento: O modelo usa uma taxa de aprendizagem 6e-4 com uma programação de taxa de aprendizagem cosseno e passou por muitos períodos de treinamento ativo e ajuste fino.

Distribuição e uso

O AMD-135M pode ser facilmente implantado e implementado com a biblioteca Hugging Face Transformers. Para implementação, os usuários podem carregar o modelo usando os módulos `LlamaForCausalLM` e `AutoTokenizer`. Essa facilidade de integração o torna a escolha ideal para desenvolvedores que buscam incorporar recursos de modelagem de linguagem em seus aplicativos. Além disso, o modelo é compatível com o modelo preditivo CodeLlama da AMD e estende sua aplicabilidade a tarefas de geração de código. Esse recurso torna o AMD-135M particularmente útil para desenvolvedores que trabalham na geração programática de texto ou em outros aplicativos de PNL.

Avaliação de Desempenho

O desempenho do AMD-135M foi testado usando lm-evaluation-harness em vários benchmarks de PNL, como SciQ, WinoGrande e PIQA. Os resultados mostram que o modelo é muito competitivo, proporcionando desempenho comparável a outros modelos em sua faixa de parâmetros. Por exemplo, alcançou uma taxa de aprovação de cerca de 32,31% no conjunto de dados Humaneval usando GPUs MI250, um forte indicador de desempenho para um modelo deste tamanho. Isto mostra que o AMD-135M pode ser um modelo confiável para pesquisa e aplicações comerciais em processamento de linguagem natural.

Concluindo, o lançamento do AMD-135M ressalta o compromisso da AMD com o avanço da tecnologia de IA e com o fornecimento de modelos acessíveis e de alto desempenho para a comunidade de pesquisa. Sua arquitetura robusta e métodos de treinamento avançados posicionam o AMD-135M como um concorrente formidável no campo de rápida evolução dos modelos de IA.

Confira O modelo do tamanho do rosto de novo Detalhes. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..

Não se esqueça de participar do nosso Mais de 50k ML SubReddit

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

Source link

Você também pode gostar...

Este artigo sobre IA do Google apresenta atenção seletiva: uma nova abordagem de IA para otimizar a eficiência de modelos transformativos

Tokenformer: a arquitetura de transformador de próxima geração que aproveita parâmetros tokenizados para escalonamento contínuo e rápido em aplicativos de IA

Google apresenta recurso de ‘Reminiscência’ no Gemini Advanced

Deixe um comentário Cancelar resposta