Zyphra lança Zamba2-1.2B-Instruct e Zamba2-2.7B-Yala: uma nova série de modelos de linguagem pequena de última geração que supera Gemma2-2B-Yala

A empresa de pesquisa de IA Zyphra introduziu recentemente dois tipos de linguagens de domínio, Zamba2-1.2B-Yala de novo Zamba2-2.7B-Yala. Esses modelos fazem parte da série Zamba2 e representam grandes avanços no processamento de linguagem natural e no ensino baseado em IA. Zamba2-1.2B-Instruct e Zamba2-2.7B-Instruct foram projetados para fornecer recursos avançados de conversação dinâmica e recursos especializados de acompanhamento de instruções, fornecendo soluções de ponta para diversas aplicações no ambiente de IA.

Visão geral do Zamba2-1.2B-Yala e suas capacidades

O modelo Zamba2-1.2B-Instruct, como o nome sugere, contém 1,22 bilhão de parâmetros, permitindo lidar com operações complexas de linguagem natural enquanto mantém uma pegada computacional otimizada. Este modelo é uma versão bem ajustada do Zamba2-1.2B-Instruct, trabalhando com conjuntos de dados modernos como ultrachat_200k e Infinity-Instrut para melhor desempenho. O processo de ajuste fino inclui uma metodologia de dois estágios: Ajuste Fino Supervisionado (SFT) e Otimização de Preferência Direta (DPO) do ambiente de teste do modelo base. A plataforma DPO usa conjuntos de dados como ultrafeedback_binarized e OpenHermesPreferences para melhorar a capacidade do modelo de seguir as instruções com precisão.

Zamba2-1.2B-Instruct apresenta uma arquitetura exclusiva de modelo de espaço de estados híbrido (SSM), que combina elementos de espaço de estados (Mamba2) e blocos transformadores. Essa arquitetura híbrida oferece flexibilidade e eficiência computacional excepcionais. Ao combinar camadas Mamba2 com blocos transformadores, o Zamba2-1.2B-Instruct atinge tempos de geração rápidos e baixa latência de inferência, tornando-o adequado para aplicações que exigem respostas em tempo real.

Benchmarks de desempenho de Zamba2-1.2B-Yala

A instrução Zamba2-1.2B se destaca em muitos benchmarks, superando os principais modelos de sua classe. Por exemplo, nas pontuações MT-Bench e IFEval, Zamba2-1.2B-Instruct supera Gemma2-2B-Instruct, que é duas vezes maior, bem como outros modelos concorrentes, como StableLM-1.6B-Chat e SmolLM-1.7B – Comando. A arquitetura híbrida do SSM contribui enormemente para o seu desempenho robusto, proporcionando um compromisso equilibrado entre requisitos de recursos agregados e qualidade de saída.

O modelo tem pontuação elevada em várias métricas de teste, incluindo uma pontuação agregada MT-Bench de 59,53 e uma pontuação IFEval de 41,45. Esses resultados são notáveis, visto que o modelo mantém um tamanho compacto com muito menos memória do que seus equivalentes somente com transformador.

Zamba2-2.7B-Yala: Ultrapassando os Limites

A versão Zamba2-2.7B-Instruct, uma versão maior e mais avançada do Zamba2, traz mais potência e melhorias. Com 2,69 bilhões de parâmetros, este modelo usa a mesma estrutura híbrida de elementos do espaço de estados Mamba2 combinados com blocos transformadores e introduz melhorias em seus processos de atenção e estrutura geral. Zamba2-2.7B-Instruct foi obtido ajustando Zamba2-2.7B a partir do conjunto de dados de instruções e diálogo, tornando-o um modelo generalista poderoso adequado para várias aplicações.

Tal como o seu homólogo mais pequeno, o Zamba2-2.7B-Instruct utiliza um método de reparação em duas fases. A primeira fase envolve SFT em ultrachat_200k e Infinity-Instruct, enquanto a segunda fase aplica DPO a conjuntos de dados como orca_dpo_pairs e ultrafeedback_binarized. Um procedimento de ajuste fino é projetado para melhorar o desempenho do modelo em diálogos complexos de múltiplas voltas e tarefas instrucionais.

Análise Comparativa de Desempenho

Zamba2-2.7B-Instruct mostra um grande salto no desempenho em modelos do mesmo tamanho ou até maiores. Por exemplo, ele atinge uma pontuação agregada MT-Bench de 72,40 e uma pontuação IFEval de 48,02, superando Mistral-7B-Instruct e Gemma2-2B-Instruct, que têm pontuações agregadas MT-Bench de 66,4 e 51,69, respectivamente. A arquitetura híbrida exclusiva deste modelo garante baixa latência e tempos de produção rápidos, tornando-o uma solução ideal para aplicações no dispositivo onde os recursos computacionais são limitados.

Além disso, Zamba2-2.7B-Instruct tem uma vantagem distinta em termos de tempo até o primeiro token (TTFT) e velocidade de geração de saída. Essa eficiência é alcançada usando um backbone de camadas Mamba2 conectadas com camadas de atenção compartilhada. Zamba2-2.7B-Instruct pode manter o mesmo desempenho em várias profundidades de sua estrutura, reduzindo o custo dos parâmetros dessas camadas de atenção.

Estabelecimento de Edifícios

Ambos os modelos da série Zamba2 utilizam opções de design inovadoras que os diferenciam de outros na sua categoria. O núcleo da arquitetura consiste em camadas Mamba2 combinadas com camadas de atenção compartilhada, o que reduz o custo geral dos parâmetros. Esta estrutura híbrida e o uso de matrizes de projeção LoRA permitem que cada bloco alocado se concentre em sua própria localização única, mantendo uma sobrecarga adicional de parâmetros.

Essas inovações de design resultam em modelos poderosos e eficientes, proporcionando aos usuários o melhor dos dois mundos: alto desempenho e baixos requisitos de computação. Isso torna a série Zamba2 adequada para implantação em ambientes com memória e recursos de computação limitados, como dispositivos móveis e de borda.

Aplicações práticas e direções futuras

Com o lançamento do Zamba2-1.2B-Instruct e do Zamba2-2.7B-Instruct, a Zyphra fez avanços significativos em modelos de acompanhamento de instruções baseados em IA. Esses modelos têm muitas aplicações potenciais, incluindo chatbots, assistentes pessoais e outros sistemas de IA conversacional. Seu alto desempenho e baixa latência os tornam ideais para situações de comunicação em tempo real, enquanto sua pequena memória garante que possam ser implantados em ambientes com uso intensivo de recursos.

A Zyphra planeja continuar a desenvolver a série Zamba, com atualizações futuras que podem incluir melhorias adicionais e expansão do SSM híbrido e da arquitetura do transformador. Espera-se que este desenvolvimento impulsione as possibilidades de compreensão e produção de linguagem natural, fortalecendo a posição da Zyphra como líder em pesquisa e desenvolvimento de IA.

Concluindo, o lançamento do Zamba2-1.2B-Instruct e do Zamba2-2.7B-Instruct marca um novo marco para o Zyphra, oferecendo modelos que combinam desempenho avançado e uso eficiente de recursos computacionais. À medida que o campo da IA continua a evoluir, as inovações da Zyphra na arquitetura híbrida provavelmente servirão como base para avanços futuros em IA e processamento de linguagem natural.

Confira Comandos Zyphra/Zamba2-1.2B de novo Comandos Zyphra/Zamba2-2.7B. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit

Interessado em promover sua empresa, produto, serviço ou evento para mais de 1 milhão de desenvolvedores e pesquisadores de IA? Vamos trabalhar juntos!

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

Source link

Você também pode gostar...

Replicação de pensamento: uma estrutura de IA para melhorar as respostas de LLM, gerando alertas acionadores de “pensamento”

Analog Research apresenta Agent S: uma estrutura de IA de código aberto projetada para interagir automaticamente com computadores por meio de uma interface gráfica de usuário

Os modelos de microlinguagem são realmente o futuro dos modelos de linguagem? Allen Institute for Artificial Intelligence (Ai2) lança Molmo: uma família de modelos de linguagem multimodal de código aberto

Deixe um comentário Cancelar resposta