Salesforce AI Research apresenta Moirai-MoE: um modelo MoE baseado em tempo que atinge automaticamente a especialização de modelo em nível de token

A previsão de séries temporais faz parte das finanças, da saúde, da meteorologia e do gerenciamento da cadeia de suprimentos há muito tempo. Seu principal objetivo é prever pontos de dados futuros com base em observações históricas, o que pode ser um desafio devido à natureza complexa e heterogênea dos dados de séries temporais. Avanços recentes no aprendizado de máquina, especialmente modelos básicos, revolucionaram esse domínio ao criar modelos gerais que podem lidar com séries temporais heterogêneas sem treinamento especial e específico para cada caso. Esses modelos básicos marcam uma mudança significativa em relação aos métodos tradicionais que exigem a criação de vários modelos para conjuntos de dados específicos. No entanto, a diversidade de características das séries temporais, tais como variações na frequência, sazonalidade e padrões subjacentes, continuam a colocar desafios significativos para a formação de modelos de conjuntos.

Um problema chave na previsão de séries temporais é lidar de forma eficaz com a heterogeneidade dos dados. Os dados de séries temporais de diferentes fontes variam amplamente em termos de frequência, distribuição e estrutura. Os actuais modelos de previsão baseiam-se frequentemente na experiência humana para lidar com esta variabilidade. No entanto, a frequência por si só não é um indicador confiável do padrão de uma série temporal, pois dados com frequências semelhantes podem apresentar comportamentos diferentes. Por outro lado, dados com frequências diferentes podem apresentar padrões semelhantes. Esta abordagem deve capturar a complexidade e a variabilidade presentes nas séries temporais do mundo real. Outro desafio reside na natureza não estacionária dos dados de séries temporais, onde as propriedades estatísticas dos dados mudam ao longo do tempo, dificultando a modelagem precisa com agrupamento baseado em frequência.

Os métodos existentes de previsão de séries temporais tentam lidar com a variabilidade dos dados de várias maneiras. Por exemplo, modelos como TEMPO e UniTime incluem comandos baseados em linguagem para ajudar o modelo a reconhecer diferentes fontes de dados, alcançando especificidade no nível do conjunto de dados. Alguns modelos, como o TimesFM, mantêm dicionários de incorporação específicos de frequência para ajudar a distinguir entre tipos de dados com base na frequência. No entanto, muitos modelos, incluindo a amplamente reconhecida série Chronos, escolhem uma arquitetura geral sem módulos especiais, o que aumenta a complexidade do modelo e os grandes requisitos de parâmetros. O desafio destes métodos é a sua incapacidade de capturar totalmente a variedade de dados de séries temporais, uma vez que a frequência por si só por vezes se correlaciona com padrões de dados subjacentes, levando a ineficiências e comprometendo a precisão do modelo.

Pesquisadores da Salesforce AI Research, da Universidade Nacional de Cingapura e da Universidade de Ciência e Tecnologia de Hong Kong introduziram um novo modelo chamado MOIRAI-MoE. MOIRAI-MoE incorpora uma mistura de especialistas (MoE) em sua arquitetura Transformer, que permite experiência em nível de token sem heurística de frequência definida por humanos. Essa abordagem baseada em dados reduz a dependência de múltiplas camadas baseadas em tempo e usa uma camada de previsão de entrada/saída, permitindo que o modelo capture e represente automaticamente vários padrões. Ao atingir experiência em nível de token, o MOIRAI-MoE fornece uma solução mais flexível e eficiente que pode representar melhor as características exclusivas de vários dados de série temporal sem exigir modelos separados para cada categoria de frequência.

A arquitetura MOIRAI-MoE desenvolve uma função de porta que atribui cada token ao especialista apropriado nas camadas do Transformer com base nas combinações de tokens encontradas no modelo pré-treinado. Este método de agrupamento é guiado pela distância euclidiana aos centróides, permitindo que tokens com padrões semelhantes sejam processados pelo mesmo especialista enquanto especialistas especializados lidam com tokens diferentes. Ao integrar 32 redes especializadas, cada uma focada em características únicas de séries temporais, o MOIRAI-MoE reduz efetivamente a sobrecarga computacional e melhora sua capacidade de generalização para todos os tipos de dados. Esta abordagem permite que o MOIRAI-MoE represente com sucesso dados de séries temporais não estacionários, adaptando-se dinamicamente às mudanças nos padrões dos dados.

Testes extensivos em todos os 39 conjuntos de dados mostraram alto desempenho do MOIRAI-MoE em cenários de previsão distributivos e não distributivos. Para previsão de distribuição, o MOIRAI-MoE superou seu modelo denso em até 17%, mostrando uma melhoria significativa na precisão ao usar até 65 parâmetros abertos do que outros modelos líderes, incluindo TimesFM e Chronos. Na previsão ingênua, quando o modelo foi testado em conjuntos de dados não incluídos nos dados de treinamento, o desempenho do MOIRAI-MoE superou os modelos convencionais. Nestes testes, o MOIRAI-MoE alcançou uma melhoria de 3-14% na pontuação de probabilidade contínua (CRPS) e uma melhoria de 8-16% no erro médio absoluto (MASE) em relação aos modelos anteriores. Estes resultados sublinham a capacidade robusta de produção do modelo sem exigir treinamento específico para tarefas.

Este estudo apresenta conclusões importantes que destacam os avanços que o MOIRAI-MoE traz para a previsão de séries temporais:

Experiência baseada em dados: Ao alcançar experiência em nível de token por meio de uma combinação de vários especialistas, o MOIRAI-MoE supera as limitações da especialização definida por humanos, permitindo uma representação mais sutil da variabilidade das séries temporais.
Desempenho do computador: A implementação multiespecializada deste modelo reduz bastante as demandas computacionais, até 65 vezes mais parâmetros ativados, mantendo alta precisão.
Benefícios Funcionais: Testes em vários conjuntos de dados confirmaram que o MOIRAI-MoE supera modelos densos e modelos básicos como TimesFM e Chronos, alcançando uma melhoria de 17% em relação aos seus homólogos densos em testes de distribuição interna.
Escalabilidade e Padronização: O MOIRAI-MoE exibe um desempenho robusto de disparo zero, tornando-o altamente eficaz em tarefas de previsão do mundo real, sem exigir treinamento especializado para cada aplicação, o que é importante para diversas aplicações, como finanças, saúde e modelagem climática.

Concluindo, o MOIRAI-MoE representa um grande avanço na previsão de séries temporais ao introduzir uma abordagem dinâmica e baseada em dados que supera as limitações da experiência baseada em frequência. Com sua combinação mínima de arquiteturas, o MOIRAI-MoE lida com a natureza heterogênea e aleatória dos dados de séries temporais e alcança grande eficiência computacional e benefícios de desempenho. Esta nova abordagem enfatiza o poder dos especialistas em nível de token, abrindo caminho para desenvolvimentos futuros em modelos baseados em séries temporais e expandindo o uso de previsões implícitas em uma variedade de setores e aplicações.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[AI Magazine/Report] Leia nosso último relatório sobre 'MODELOS DE TERRENO PEQUENOS'

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Melhorando o processamento de conteúdo de longo prazo com Role-RL: uma estrutura de aprendizagem por reforço para o uso eficaz de um modelo de idioma amplo

Decodificação Contrastiva Dinâmica (DCD): um novo método de IA que remove seletivamente logs infiéis para melhorar a precisão da resposta em modelos de percepção de linguagem em grande escala

ACPBench de pesquisadores da IBM: uma referência de IA para avaliação de empregos de consultoria no setor de planejamento

Deixe um comentário Cancelar resposta