Zyphra lança Zamba2-7B: um modelo de microlinguagem de última geração

A Zyphra lançou oficialmente o Zamba2-7B, um modelo de microlíngua de última geração que promete desempenho sem precedentes na faixa de parâmetros 7B. Este modelo supera os concorrentes existentes, incluindo Mistral-7B, Gemma-7B do Google e Llama3-8B da Meta, tanto em qualidade quanto em velocidade. O Zamba2-7B foi projetado especificamente para ambientes que exigem recursos de linguagem poderosos, mas possuem limitações de hardware, como processamento no dispositivo ou GPUs de consumo. Ao focar na eficiência sem sacrificar a qualidade, a Zyphra se esforça para democratizar o acesso à IA avançada para um público amplo, desde empresas até desenvolvedores individuais.

A arquitetura Zamba2-7B incorpora inovações tecnológicas importantes que melhoram a eficiência e o som. Ao contrário do seu antecessor, Zamba1, Zamba2-7B utiliza dois blocos de atenção partilhada ligados através da rede, proporcionando uma forma complexa de fluxo de informação e dependências de sequência. Os blocos Mamba2 formam o núcleo da arquitetura, permitindo melhor utilização de parâmetros em comparação com modelos de transformadores tradicionais. O uso da aproximação LoRA (Low-Rank Adaptation) em blocos MLP compartilhados é outra melhoria que ajuda o modelo a se adaptar com mais precisão, aumentando assim a flexibilidade de cada camada e mantendo o tamanho do modelo compacto. Como resultado, o Zamba2-7B alcança uma redução de 25% no tempo inicial do token e uma melhoria de 20% nos tokens processados por segundo em comparação com seus concorrentes.

Zamba2-7B é muito importante devido à sua incrível eficiência e adaptabilidade, confirmada por testes rigorosos. O modelo foi treinado em um grande conjunto de dados de pré-treinamento de três bilhões de tokens, consistindo em conjuntos de dados abertos de alta qualidade e altamente filtrados. Além disso, o Zyphra incluiu uma fase de “recozimento” de pré-treinamento, que degrada rapidamente a taxa de aprendizado com um conjunto selecionado de tokens de alta qualidade. Esta estratégia resultou num desempenho de referência superior, uma vez que o modelo superou os seus concorrentes tanto em velocidade como em qualidade. Os resultados mostram que Zamba2-7B é particularmente adequado para tarefas que envolvem compreensão e processamento de linguagem natural sem a sobrecarga computacional significativa normalmente associada a modelos de alta qualidade.

Concluindo, Zamba2-7B representa um importante passo em frente no desenvolvimento de versões em pequenos idiomas que não comprometem a qualidade ou o desempenho. Ao combinar arquitetura inovadora e métodos de treinamento eficazes, a Zyphra conseguiu criar um modelo que não é apenas acessível, mas também altamente capaz de atender às diversas necessidades da PNL. Com o lançamento do Zamba2-7B sob uma licença de código aberto, a Zyphra convida pesquisadores, desenvolvedores e empresas a explorar suas capacidades, ultrapassando os limites do que os pequenos modelos podem alcançar. A disponibilidade aberta do Zamba2-7B pode tornar a PNL avançada acessível a uma comunidade mais ampla, avançando assim o campo de maneiras novas e emocionantes.

Confira Detalhes e uma compilação de Huggingface estão disponíveis aqui. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.

[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

Source link

Você também pode gostar...

Source2Synth: uma nova abordagem de IA para geração e edição de dados sintéticos com base em fontes de dados reais

Robustez Integrada em Modelos de Linguagem de Grande Escala (LLMs): Uma Abordagem de Codificação Probabilística

Desvendando a memória de Schrödinger: abordagens de memória dinâmica para modelos de linguagem baseados em transformadores

Deixe um comentário Cancelar resposta