Os investigadores Moonson AI e UCLA emitidos: 3b / 16b-parâmetro de linha (MOE) (MOE)

Treinar grandes modelos de idiomas (LLMS) é a base da inteligência artificial, mas não há desafios. À medida que os tamanhos de modelo e os conjuntos de dados continuam a crescer, os métodos tradicionais de formação – igualmente ANAMW – eles começam a mostrar suas limitações. Uma das maiores dificuldades para gerenciar o custo da integração e garantir que o treinamento mais forte em todo o treinamento esteja em execução. Problemas como desaparecer ou bombardear gradientes, discordar e aumentar a matriz de vários parâmetros, bem como recursos pesados de áreas distribuídas. Na essência, como investigadores opressões de bilhões de parâmetros e bilhões de tokens, é necessário oprimir uma variedade de estratégias refinadas que podem tratar essas sofisticadas e fortes.

Em um esforço para lidar com esses desafios, a MONSHOT IA em parceria com a UCLA estabeleceu a luz solar – um modelo misto (MOE) usado usando um otimizador da lua. A iluminação mensal é fornecida com duas configurações: uma versão de 3 parâmetros ativados e 16 bilhões de parâmetros, treinados para 5,7 bilhões de tokens. Este trabalho foi construído sobre o otimizador da lua, originalmente construído para modelos pequenos, medindo seus princípios para atender às necessidades de grandes impérios de treinamento. A principal inovação do MUNO ENT Eleves ainda está levando a ortogonização matric através das iterações de Newton-Schulz. Esta opção ajuda a garantir que as atualizações de gradiente sejam usadas iguais ao longo do espaço de parâmetros do modelo. Lidando com as armadilhas comuns associadas a Adamw, a Lua fornece um método alternativo para desenvolver treinamento e força de treinamento.

Detalhes técnicos

Mais perto após a luz do mês reflete mudanças consideráveis feitas em um otimizador da lua. A conversão básica foi a chave para preparar uma lua para um ótimo treinamento. Primeiro, a combinação de peso do papel – o processo de processamento comumente usado está no controle da perda de peso, especialmente quando o treinamento em grandes modelos e tokens de torre. Além do peso da decaimento, os pesos e os resultados do plano de fundo podem estar aumentando excessivamente, o funcionamento prejudicial prejudicial a longo prazo.

O segundo reparo inclui uma taxa de atualização cada parâmetro. De fato, o tamanho de uma lua pode variar dependendo da matriz de massa. Sincroniza essas atualizações, como ele mede como um recurso igual à raiz quadrada de cada matriz. Essa alteração se adapta cuidadosamente do comportamento de Soon com a função ADAMW adequada e garante que todos os parâmetros sejam atualizados de forma consistente.

Além disso, a implementação da lua é criada a partir das estratégias do Zero-1, a partição mais alta do otimizador para os mesmos grupos. Essa metodologia reduz a memória múltipla e os limites dos custos de comunicação associados ao treinamento distrital. Embora as etapas adicionais-como gradientes e os gradientes e a necessidade de Newton-Schulz-Itinz-Items-das-alverações-, isso é feito corretamente para o seu impacto durante o treinamento completo. O resultado se torna um otimizador que mantém o desempenho competitivo, enquanto requer alguns processos dos processos.

Entendimento dos resultados empíricos e análise de dados

O exame mais forte da luz do mês enfatiza os benefícios práticos dessas tecnologias. De acordo com o ponto de verificação de 1,2 dias, a luz solar indicou um desenvolvimento modesto de seu parceiro treinado e Adamw (as chamadas pontuações de alta qualidade. Código, seus benefícios de trabalho eram mais visíveis, sugerindo que a revisão roxa da lua inclui um completamente melhor desempenho.

O teste de testes legais também reflete os benefícios de uma lua. Esses testes indicam que a Lua pode comparar a operação de modelos treinados por ADEMW, usando aproximadamente uma parte da taxa de treinamento. Essa eficiência é a principal consideração dos pesquisadores mediu obstáculos difíceis com o desejo de pressionar as habilidades do modelo. Além disso, a análise visual das matrizes de peso indica que o treinamento mensal é uma lua leva ao grau mais variável. Tais variações nos regulamentos de receita podem ajudar um modelo normal em várias atividades.

Cursos extensos durante uma boa fase planejada mostra que, quando ambos os bons planejamentos são realizados com um MION, os benefícios desse desastre continuam todo o pipeline de treinamento. Nos casos em que o otimizador é transformado em boa auto-estima e ordem, a diferença pode ser mais lenta, sugerindo que a consistência é benéfica.

Loja

Em suma, o desenvolvimento da Lua representa uma consideração de consideração no treinamento de modelos de grande língua. Ao aceitar um otimizador da lua, um grupo de IA da lua e a UCLA forneceu uma forma alternativa de maneiras tradicionais, como o ADAMW, mostrando melhorias na operação e na estabilidade do modelo. Os aprimoramentos importantes incluem a integração da perda de peso e as alterações em uma escala de renovação de parâmetros, ajudando a sincronizar atualizações de diferentes pesos da matriz de peso. A implementação da distribuição enfatiza os benefícios práticos desse método, especialmente na redução da memória e comunicação em grandes áreas de treinamento.

O entendimento do projeto mensal é exposto ao relatório tecnológico “, disse o trabalho. Em uma lua, não requer ampla ajuste, para simplificar o processo de reunir os pesquisadores.

Se você aguarda, espera-se que a aparência aberta da implementação do MION e dos modelos disponíveis e os computadores centrados no meio promovam pesquisas adicionais sobre estratégias de dinheiro. Trabalhos futuros podem ser avaliados para estender a lua a outros problemas familiares ou combinar sua estrutura integrada, incluindo todos os parâmetros do modelo. Tais esforços podem levar a estratégias de treinamento fortes e eficientes, criando gradualmente um novo padrão de desenvolvimento da LLM.

Enquete Papel, modelo no rosto e github. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, fique à vontade para segui -lo Sane E não se esqueça de se juntar ao nosso 75k + ml subreddit.

🚨 Pesquisa recomendada recomendada para nexo

O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.