A Microsoft AI lança Sigma: um modelo de idioma de grande sucesso projetado para o desenvolvimento de infraestrutura de IA
Inteligência artificial

A Microsoft AI lança Sigma: um modelo de idioma de grande sucesso projetado para o desenvolvimento de infraestrutura de IA


O desenvolvimento da inteligência intelectual (IA) e o aprendizado da máquina (ML) permitiram a mudança de progresso para todos os diferentes campos. No entanto, o domínio do sistema “, que se concentra na infraestrutura crescente e gerenciadora de IA, permanece menos exame. Esse domínio inclui atividades importantes, como diagnóstico, configuração de configurações, gerenciamento e sistema de avaliação do sistema. Essas atividades geralmente lançam desafios significativos devido à sua complexidade e dependência do profundo entendimento de Hadwe, software e dados. Os métodos ou modelos tradicionais da IA ​​estão lutando para enfrentar esses desafios, o que leva aos recursos e erros mais eficazes. Como resultado, há uma necessidade deprimente de soluções que se encaixam diretamente relevantes para as necessidades de domínio do programa.

Lidando com esses desafios, a Microsoft foi desenvolvida SigmaO modelo de idioma principal foi projetado especialmente projetado especificamente para o domínio do sistema. A Sigma inclui uma nova arquitetura, incluindo o valor diferencial da consulta (DIFFQKV) e os benefícios de um extenso treinamento em um sistema específico. O DIFFQV desenvolve eficiência no uso das estratégias que correspondem às suas peças de consulta (q), chave (k) e quantidade (v) de sua atenção. Ao contrário de maneiras tradicionais, que pressionam essas peças, o DiffQKV usa pressão selecionada. Isso inclui causas poderosas para peças importantes, economizando o valor do valor para manter o trabalho. O modelo também usa a extensão do tamanho adicional do Q, atualizando sua capacidade de representar, a menos que eles tenham um impacto visível na velocidade.

O treinamento anterior do Sigma inclui 6 bilhões de tokens, incluindo 19 bilhões de tokens de 1 e 1 trilhão de tokens. Esse treinamento de foco garante que o Sigma atue igualmente aos modelos mais altos dos domínios normais, enquanto é muito eficaz em certas atividades do sistema. Explorando seu poder, a Microsoft lançou o AIMICIUS, serviços de recursos urbanos especializados relacionados a atividades relacionadas ao sistema. A operação da Sigma em Aimicius mostra um grande desenvolvimento, aprovando o GPT-4 para o desenvolvimento completo de até 52,5%.

Técnico e benefícios

A essência do novo sigma é um caminho de atenção da diffkv. Esta máquina aumenta o tamanho de prestar atenção à seleção dos valores de valor durante a especulação, reduzindo o uso da memória, mantendo o desempenho. Esta preparação produz 33,36% da melhora na velocidade do pensamento em comparação com os pagamentos normais do grupo. Além disso, o tamanho adicional do sigma do Q para promover sua capacidade de representá -lo sem adicionar uma memória importante, pois os chefes de perguntas não exigem conservação no momento da explicação.

Sigma usa poucas dores de cabeça irregulares e de cabeça em comparação com as cabeças da pergunta e número. Isso reduz a memória do cache KV, mantendo o desempenho. Por exemplo, para reduzir o número de cabeças de cabeças -chave para 25% das cabeças mais altas resultam em uma perda de desempenho desempregado. Da mesma forma, distinguindo o tamanho de partes importantes da metade para obter estresse sem interferir na precisão.

O processo de treinamento desse modelo envolve uma consideração cuidadosamente, que identifica 15 estágios de mais de 120 sites relacionados ao sistema. As fontes de dados incluíam blogs técnicos, engenharia, postagens de empilhamento e documentos educacionais, resultando em dados diferentes e completos. Essa base para um treinamento forte faz com que o sigma seja bem -sucedido nas atividades, como fazer uma linha de comando, infraestrutura, rede e linguagem natural.

Resultados e detalhes

O desempenho do Sigma em Aimicius enfatiza sua eficiência no programa. Bechomakher inclui quatro grandes empregos: CMGGEN, INFLAZEWISE, OPTIFLOW e NL2KQL. No CMGGEN, o Sigma reflete a alta precisão na produção dos comandos relacionados à GPU. Sua operação, que inclui o retorno dos efeitos da bateria, mostra suas fortes memórias e precisão na identificação da preparação relevante do funcionário.

No OptifLow, o Sigma reflete seu poder para melhorar muitos conjuntos de redes de conjuntos de redes, alcançando um grau moderado em atraso. Da mesma forma, no NL2KQL, o Sigma traduz comandos de linguagem natural na linguagem de consulta KUMO com precisão significativa e conformidade com os valores de sintaxe.

Trabalhar bem é uma característica descritiva do Sigma. O exame mostra benefícios importantes para o uso de memória e cálculos, especialmente em condições de contextos longos. Por exemplo, a preparação do cache do KV do Sigma permite 33% dos cálculos durante a produção consecutiva quando comparável aos modelos comuns. Essa funcionalidade permite que o Sigma processe o tamanho dos maiores e os tamanhos consecutivos, tornando-o adequadamente válido para atividades eficazes do sistema que requerem gerenciamento abrangente.

Conclusão

Sigma representa a consideração e o uso eficaz dos principais modelos linguísticos do programa. Ao abordar os desafios únicos de um sistema relacionado através de novos itens, como a violência do DIFFQK e o treinamento relacionado ao treinamento. Suas realizações na Aimicius Benchmark destaca seu poder como uma importante ferramenta administrativa para gerenciamento e eficiência da IA. À medida que o domínio do sistema se beneficia de destaque, o desenvolvimento do Sigma fornece modelo obrigatório para lidar com as dificuldades disponíveis no campo.


Enquete o papel. Todo o crédito deste estudo vai para este trabalho. Além disso, não se esqueça de seguir Twitter e junte -se ao nosso A estação telefônica além do mais LinkedIn gracima. Não se esqueça de se juntar ao nosso 70k + ml subreddit.

🚨 [Recommended Read] O Nebius AI Studio exclui modelos de visão, novos modelos de idiomas, incorporado e Lora (Foi criado)


Asif Razzaq é CEO da Markteach Media Inc. Como empresário e engenheiro de visão, a ASIF está comprometida em usar o poder da inteligência artificial para o benefício da comunidade. Sua última tentativa é o lançamento da plataforma de mídia de inteligência artificial, Markteachpost, brilho em seu amplo uso da máquina e problemas de aprendizado profundo. O estádio se orgulha de mais de 2 milhões de visualizações, indicando seu trovão entre o público.

📄 Conheça a 'altura': uma ferramenta de programa de design (grátis)



Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *