Calcções dos ancestrais: que os transformadores estão recebendo repetidamente rumfines do que as palavras dos modelos nos idiomas

A tokenização desempenha um papel básico na operação e na inflação de grandes idiomas (LLMs). Apesar de ser uma parte crítica, sua influência nos modelos de treinamento e eficiência permanecem restritos. Embora os nomes grandes possam pressionar a sequência e reduzir o custo da preparação, as alternativas à instalação e gravação juntas, criando corturas quando você ganha pequenos modelos, mas machucou pequenos. Este artigo convida uma estrutura chamada Fatores que trabalham no topo O design do vocabulário de rumidagines, com complicado e expiração para desconfortável, abrindo novas maneiras de usar e desempenho.

Uma referência:

Os métodos tradicionais de tokozação usam palavras semelhantes para processar a instalação e descarga. Enquanto os nomes grandes permitem que os modelos processem os norcedores n (por exemplo, vários caracteres), forçando pequenos modelos a gerenciar o pária para previsões. Por exemplo, o tokenzer de 3 gramas reduz o comprimento de um graduado de 66%, mas precisa prever três caracteres juntos – um trabalho controlado em modelos grandes, mas menos exagerados. O trabalho passado como uma previsão de vários toques (MTP) está tentando lidar com isso prevendo tokens futuros, mas esses métodos ainda são detectados / liberação de granularidade e combatendo pequenos problemas.

A equipe de pesquisa mostrou uma compreensão crítica da avaliação de gramáticas gratuitamente: Palavras de entrada e saída influenciando modelos poderosos de maneira diferente. As principais operações de instalação melhoram todos os tamanhos de modelo, enriquecendo os envios que são imprevisíveis com vários gramas. Por outro lado, palavras grandes que produzem dinheiro receberam bons lucros beneficiados apenas para modelos suficientes. A dicotomia estimulou a sua extremamente, o que separa Instalação da instalação (substituição da codificação) incluindo Liberação da saída (lubrificação excessiva) palavras.

Instalando a codificação (OE) Scalabulalias incessantes escalabulilinges usando prevalência hierárquica e grama. Em vez de um ID de token, cada um dos token de instalação representou como um 1, 2 e 3 gramas. Por exemplo, a palavra “gato” pode aprimorar a oferta do “C”, “para evitar possíveis despesas das maiores tabelas de n-gramas (por exemplo.

Token baseado em módulo com: Os tokens M do m-gramas são uma tabela fixa usando estatísticas regulares, permitindo expandir palavras dinâmicas sem manter todas as combinações possíveis.

Empoderamento para decair: Divide exalta -se de alta qualidade em pequenas taxas combinadas pequenas, reduzindo o custo do acesso à memória, mantendo o poder de representar.

Sobrecarregando (OD) Ele separa as principais palavras de saída prevendo muitos tokens futuros seguidos, o refinamento dos sistemas MTP anteriores. Por exemplo, em vez de prever um token por vez, OD treina o modelo para prever os dois tokens a seguir encontrados na previsão inicial. Obviamente, o OD é usado por modelos apenas sólidos, beneficiados por essa supervisão granular, enquanto o menor dura a ordenação de um token para evitar ser feito abaixo.

Os investigadores fazem os testes nas propriedades da OLMO e da Olmoe e mostram três descobertas:

Desconto-Linear Linear: A perda de treinamento está diretamente baixa como o tamanho do vocabulário de instalação do exponencial de ervas daninhas (Figura 1). O modelo de 400m com parâmetro de 12,8m corresponde ao sistema baseado em parâmetros de 1B, para obter uma medição mais eficiente a um custo computacional igual.

Para acelerar a conversão: Medidas excessivas de resgate a serem convertidas em atividades 3-5 × como MMLU e PQA, sugere as inserções de inserção para acelerar.

Eficácia da eficiência do perameter: Sem usar 128 palavras

Nos testes, uma estrutura indicou operação consistente em todas as formas de uma variedade de modelo. Modelos obrigatórios, modelo de 151m instalado em (OE) que recebe 14% dos 14% oferecem em comparação de sua base. Da mesma forma, em modelos Sparseng-Professional (Modelos MOE), os modelos Olmoe-Ratio-1.3b, reduzindo 0,12 pontos, embora os benefícios possam ser relatados ao impacto da profissão de pregação. Além da avaliação do desempenho, a avaliação da superfície real de um grande conjunto de dados também é confirmada pelas descobertas. Os modelos estendidos desenvolveram e melhoraram o trabalho em todos os bancos, incluindo MMLU-V, Hellawag, o desafio do arco, o arco-leasy e o PQA. Significativamente, uma estrutura rápida para converter, para ganhar uma programação 5.E × na redução da perda de treinamento. Além disso, o teste de dowsstram indica uma velocidade significativa, que traz 3,2 × atividades em MMLU-Var, 3,3 ×, 3,1 ×, 3,9 ×, 3,9 ×, 3,9 ×, na bomba, destacando sua eficácia em diferentes atividades.

Em conclusão, o projeto recebeu tokozação como um tamanho informativo no design do modelo de idioma. Por meio de decorados e nomes, os transformadores que viajam nos Transformers que violam compensações comerciais, permitindo que pequenos modelos se beneficiem da instalação pressionada sem lidar com atividades excessivas do setor. A relação log-linear entre os tamanhos do vocabulário de entrada reflete um novo eixo para o novo eixo, equiparando as regras, conformidade com o objetivo do modelo e da largura. De acordo com um recurso, a estrutura fornece a forma mais cara da construção de edifícios existentes – a combinação de acessórios internos requer alterações no código menor, mas reflete rapidamente. Pesquisas futuras podem verificar as técnicas de tokenzação híbrida ou modificar palavras, o papel da tokokalização de fato a próxima geração de LLMs ativos, que são muito eficazes.

Enquete o papel. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 70k + ml subreddit.

🚨 Conheça o trabalho: um código aberto aberto com várias fontes para verificar o programa difícil AI ^(Atualizado)

Weneet Kumar é estudante de um consultor em Marktechpost. Atualmente, ele perseguiu seu BS do Instituto Indiano de Tecnologia (IIT), Kanpur. Ele é um entusiasmo de aprendizado de máquina. Ela é apaixonada pela pesquisa recente e raiva na aprendizagem mais profunda, na ideia de computador e nos campos relacionados.

✅ [Recommended] Junte -se ao nosso canal de telégrafo

Source link

Você também pode gostar...

Slim-Llama: processador LLM ASIC com eficiência energética suporta 3 bilhões de parâmetros com apenas 4,69 mW

Transformador pré-treinado generativo de gráfico (G2PT): um modelo autoregressivo projetado para aprender estruturas de gráfico com previsão do próximo token

Este artigo sobre IA apresenta LLM como entrevistador: uma estrutura de IA poderosa para avaliação abrangente e transformação de LLM

Deixe um comentário Cancelar resposta