MatMamba: um novo modelo de espaço regional que se baseia no Mamba2, incorporando uma estrutura de ninho estilo Matryoshka

O dimensionamento de modelos de alto nível para aplicações do mundo real geralmente requer o treinamento de diferentes tamanhos de modelos para se adaptarem a diferentes ambientes de computação. No entanto, treinar múltiplas versões de forma independente é computacionalmente caro e leva a ineficiências em aplicações onde modelos de tamanho médio são ideais. As soluções atuais, como compressão e destilação de modelos, têm limitações, muitas vezes exigindo dados adicionais e retreinamento, o que pode reduzir a precisão do modelo. Um novo artigo de pesquisa aborda esses desafios, permitindo a consideração dinâmica de grandes modelos de espaço de estados (SSMs), garantindo uma implantação eficiente em diferentes sistemas de computação sem perda significativa de precisão.

Pesquisadores da Scaled Foundations e da Universidade de Washington apresentam o MatMamba, um novo modelo espacial regional que se baseia no Mamba2, incorporando uma estrutura aninhada no estilo Matryoshka. Este conceito é inspirado no Matryoshka Representation Learning, que tem demonstrado sucesso ao permitir diferentes granularidades de submodelos dentro de um único modelo global. Uma grande contribuição do MatMamba é a arquitetura que permite que um modelo grande tenha muitos modelos menores “construídos” dentro dele. Isso proporciona flexibilidade para produzir modelos de vários tamanhos sem a necessidade de treinamento independente e separado. Ao usar estimadores aninhados, o modelo MatMamba alcança inferência dinâmica, o que é especialmente útil para tarefas grandes com recursos computacionais variáveis. Os pesquisadores treinaram modelos MatMamba com tamanhos de parâmetros que variam de 35 milhões a 1,4 bilhão, demonstrando seu desempenho em diversos cenários de implantação.

Estruturalmente, o MatMamba foi projetado para combinar vários blocos Mamba2, cada um representando uma granularidade de modelo diferente. Um bloco MatMamba consiste em uma série de blocos Mamba2 organizados de tal forma que existem blocos menores entre blocos maiores, permitindo flexibilidade no tempo de decisão. Cada modelo é treinado otimizando todas as granularidades simultaneamente, usando múltiplas passagens para frente seguidas de uma passagem para trás para atualizar os parâmetros. Essa abordagem de design não apenas permite o raciocínio dinâmico, mas também garante que diferentes granularidades dentro de um modelo compartilhem as mesmas métricas, o que preserva o espaço métrico em diferentes submodelos. É importante ressaltar que o MatMamba pode ser aplicado a qualquer tipo de modelo, incluindo estruturas de codificador-decodificador e multimodalidade, tornando-o versátil para linguagem, visão, áudio e outras tarefas de processamento de sequência.

Os pesquisadores realizaram testes extensivos, mostrando a eficácia do MatMamba tanto em tarefas de visão quanto de linguagem. Para visualização, eles aplicaram modelos MatMamba-Vision ao ImageNet e descobriram que esses modelos são comparáveis aos modelos tradicionais baseados em Mamba2, mantendo a expressão efetiva em diferentes resoluções. A flexibilidade do MatMamba permite a detecção dinâmica de imagens, onde modelos menores podem ser usados para escrever consultas, reduzindo significativamente os custos computacionais e mantendo a precisão. Para modelar a linguagem, os modelos MatMamba-LM foram treinados com diferentes tamanhos de parâmetros, de 130 milhões a 1,4 bilhão, no conjunto de dados FineWeb. Os resultados mostraram que os modelos aninhados se ajustam ao desempenho de bases Mamba2 treinadas de forma independente, mostrando escalonamento consistente e redução eficiente de parâmetros. Além disso, os recursos de reconhecimento de variáveis do MatMamba permitiram aos pesquisadores gerar facilmente um grande número de submodelos, que tiveram um bom desempenho em diferentes tarefas, incluindo precisão versus computação de curvas de Pareto.

Concluindo, MatMamba representa um avanço significativo ao permitir considerações dinâmicas em modelos de espaço de estados. Ao combinar a aprendizagem no estilo Matryoshka com a estrutura ativa do Mamba2; fornece uma solução eficiente para o uso flexível de modelos grandes sem comprometer a precisão. A capacidade de encontrar vários submodelos fechados em um único conjunto de pesos tem amplas implicações para a implantação de sistemas de IA em ambientes computacionais poderosos. O MatMamba oferece novas possibilidades, como registrar suposições com um pequeno rascunho de modelo e um grande modelo de validação, seleção de submodelos de entrada variável e interpretação híbrida da borda da nuvem, ao mesmo tempo em que aproveita o poder da modelagem espacial regional.

Confira Papel de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit

[Upcoming Event- Oct 17, 2024] RetrieveX – Conferência de recuperação de dados GenAI (promovida)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

Source link

Você também pode gostar...

Pesquisadores da JetBrains apresentam CoqPilot: um plug-in para geração de provas baseada em LLM

Pesquisadores da China apresentam INT-FlashAttention: arquitetura de quantização INT8 compatível com FlashAttention melhora a velocidade de quantização de FlashAttention em GPUs Ampere

Melhorando o monitoramento de árvores urbanas com gêmeos digitais alimentados por IA | Notícias do MIT

Deixe um comentário Cancelar resposta