A alta gestão de longas condições é um desafio de longo prazo na linguagem ambiental. À medida que os modelos de grande língua estendem seus poderes de aprendizagem, entendem e produzem texto, o centro de padrões e como processar a instalação – podem ser um gargalo. Na forma normal de transformador, esse método comparou todos os tokens a todos os outros tokens, o que resulta na quantidade de medição das artes. O problema está ficando muito estressante à medida que usamos os modelos de língua no trabalho que requer preços de informação mais altos: documentos longos, muitos livros ou recursos oficiais. Quando o modelo deve passear dezenas de milhares de token, o custo de ser negado em tempo integral.
Os esforços anteriores de lidar com esse problema geralmente dependem das sugestões de propriedades fixas ou das limitações que podem colocar em risco a qualidade em determinadas circunstâncias. Por exemplo, os métodos mecânicos de janela deslizante incluem tokens na área, que podem ocultar os relacionamentos mais importantes do mundo. Enquanto isso, ele se aproxima de uma grande mudança de propriedades básicas – como a substituição do Softmax Care Softmax completamente novo – pode exigir um retorno abrangente desde o início, dificultando a benefício de modelos profissionais treinados. Estudos que mantêm os principais benefícios do primeiro design do transformador – adaptação e capacidade de inclinar -se pesados - sem instalar mais do que um excesso tradicional.
Investigadores da Moonshot AI, Universidade de Tsinghua e Universidade de Zhejiang apóiam a tecnologia de bloco do bloco (MOE) no processo de atenção. Ao separar os “blocos” e usar um sistema de bloqueio profissional para determinar quais blocos são apropriados para cada pergunta, o MOBA está enfrentando comparando tokens com todos os outros tokens. Em contraste com os caminhos apertados da atenção local ou encontrados na janela, o MOBA permite que o modelo aprenda onde se concentrar. O projeto é guiado pelo princípio do “Construção de Terras”, que sua construção não significa que os tokens funcionem. Em vez disso, transfere essas decisões em uma rede de bloqueio instruída.
A principal característica do MOBA é o poder de nenhum suporte fora dos modelos de transformador baseados perfeitamente baseados no transformador. Em vez de despejar a interface comum, o MOBA funciona como um meio de “plug-in” ou substituição. Ele mantém a mesma quantidade de parâmetros e, portanto, não continua a construção de edifícios e mantém o mascaramento causal para garantir a precisão de uma geração. Em uso prático, o MOBA pode ser tomado entre pedestres e atenção total, permite que o modelo se beneficie de Speedsups ao armazenar cuidados completos ou categorias de treinamento onde podem estar.
Técnico e benefícios
MoMa pede a separação do contexto dos blocos, cada um dos quais gastou tokens de uma linha. O método de ging inclui os pontos de “unidade” entre o token da pergunta e cada bloco, geralmente comparando a pergunta com as teclas de bloco. Escolhe blocos superiores mais altos. Como resultado, eles são aqueles tokens apenas os blocos mais relevantes que dão na última distribuição. O bloco contém uma pergunta é sempre incluído, a verificação do ambiente é sempre acessível. Ao mesmo tempo, a Máscara de Causa é um tokens adicional para o futuro, mantendo a propriedade autoogrogravada esquerda.
Como resultado desse processo, a matriz tributária é mais esparsa do que na conversão original. No entanto, é sempre compatível o suficiente para permitir perguntas que podem acessar informações remotas quando necessário. Por exemplo, se a pergunta acusada do final do texto só poderá ser respondida apenas referindo detalhes ao original, a maneira de pilotar poderá aprender a fornecer os pontos mais altos no bloco certo. Na tecnologia, esse bloco é reduzido a quantidade de comparações com a escala quadrática, que traz benefícios práticos especialmente visíveis à medida que o status dos detalhes aumenta em centenas de milhares ou até milhões de tokens.
Outro objeto MOBA atraente é acompanhar os aceleradores modernos e os kerners especiais. Em particular, os autores incluem um MOBA com uma flashidade, o tablal mais eficiente para obter atenção rápida, lembre -se de se lembrar bem. Ao adicionar cuidadosamente à combinação do serviço de valor de Jay, dizendo que os blocos são selecionados, eles podem mover habilidades. Os autores relatam que em um milhão de tokens, o MOBO pode aumentar a velocidade de 6 em comparação com a atenção total, enfatizando sua funcionalidade nas cargas reais de uso da terra.

Resultados e compreensão
De acordo com o relatório técnico, o MOBA indica trabalho com paridade com plena atenção em vários trabalhos, enquanto fornece uma taxa de computador importante onde você trabalha em uma longa ordem. O teste de dados de idiomas mostra que a confusão da MOBA permanece mais próxima dessa mudança completa em uma linha de 8.192 ou 32.768 tokens. Obviamente, como pesquisadores, gradualmente estendidos em 128.000 e além, o MOBA mantém o fortalecimento de um longo contexto. Os autores retratam o teste de “token à direita”, concentrando -se nos tokens de previsão de modelos próximos ao final da área mais rápida – um local comum às fraquezas na medição mais poderosa. O MOMA controla com sucesso essas posições à direita sem maior perda de qualidade especulativa.
Eles também examinam a sensibilidade do método de bloqueio e tamanho de ging. Em alguns casos, brilha a hostilidade (ou seja, usando pequenos blocos, mas muitos deles) ajuda o modelo quase de correspondência. Embora as configurações em que o MOBA esteja deixando grandes componentes, a gificação adaptativa pode apontar para os blocos que realmente se preocupam com a pergunta. Naquela época, o estado do “híbrido” mostra uma abordagem equilibrada: algumas camadas continuam usando o MOBA em velocidade, enquanto a pequena quantidade de camadas retornam aos cuidados completos. Esse método de híbrido pode ser especialmente vantajoso ao fazer uma boa supervisão de supervisão, onde certas posições na entrada podem ser emitidas para fins de treinamento. Ao manter toda a atenção nos poucos dos componentes acima, o modelo pode eventualmente manter o uso generalizado do contexto, as atividades do beneficiário que exigem opinião adicional em todo o mundo.
No geral, essas descobertas sugerem que a MOBA está pronta para empregos envolvendo contextos amplos, como a leitura abrangente de documentos, a conclusão do código principal ou a conclusão de vários histórias de bate -papo quando todo histórico de bate -papo é importante. Sua operação ativa e desempenho mínimo de moba-offs
Loja
Em conclusão, uma combinação de atenção em bloco (MOBA) fornece uma maneira de processamento a longo prazo na posição de modelos grandes, sem uma conclusão mais ampla de estruturas ou diminuição do transformador. Ao aceitar uma mistura de idéias especializadas dentro de um padrão de atenção, o MOBO fornece um método informativo, mas reverso de focar nas partes relevantes da instalação mais longa. Considerado para a construção – especialmente suas mudanças não costeiras entre as escassas e completamente divulgadas – muito atraentes sobre treinamento ou futuros tubos. Os investigadores podem reduzir o padrão de atenção ou usar plena atenção aos trabalhos que exigem cobertura eficaz.
Embora a maior parte da atenção do MoMA se concentre em situações de texto, o método mais baixo é possível e mantém outros métodos de dados. Onde quer que a ordem da ordem seja maior o suficiente para aumentar o memoramento, a idéia de atribuir perguntas pode reduzir os botlenecks, mantendo o poder de gerenciar a dependência global. À medida que a ordem do idioma continua a crescer, fecha como o MOBA pode desempenhar um papel importante no desenvolvimento da pele e no custo da linguagem neural.
Enquete Página e papel do github. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, fique à vontade para segui -lo Sane E não se esqueça de se juntar ao nosso 75k + ml subreddit.
🚨 Pesquisa recomendada recomendada para nexo

O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.
