O estado da investigação em IA enfrenta grandes desafios devido às enormes exigências computacionais de grandes modelos de linguagem pré-treinados e modelos de percepção. O treinamento, mesmo de modelos modestos, requer grandes recursos; por exemplo, Pythia-1B requer 64 GPUs por três dias, enquanto RoBERTa requer 1.000 GPUs por um dia. Essa barreira computacional afeta os laboratórios acadêmicos, limitando sua capacidade de conduzir experimentos controlados de pré-treinamento. Além disso, a falta de transparência sobre os custos da formação prévia nas instituições de ensino superior cria barreiras adicionais, dificultando aos investigadores o planeamento de experiências, a obtenção de orçamentos realistas para subvenções e a atribuição adequada de recursos.
Tentativas anteriores de enfrentar os desafios computacionais na pesquisa de IA incluem experimentos computacionais que examinam o acesso a recursos e o impacto ambiental, mas estão mais focados nas comunidades de PNL. Em seguida, as técnicas de otimização de treinamento dependem de ajuste manual com conhecimento especializado, enquanto sistemas como o Deepspeed Autotune se concentram no tamanho do lote e na otimização do modelo de fragmentação baseado em zero. Alguns pesquisadores desenvolveram receitas de pré-treinamento eficientes para modelos como a variante BERT, que atingem tempos de treinamento rápidos em GPUs limitadas. Além disso, estudos de recomendação de hardware forneceram orientações detalhadas sobre a seleção de equipamentos, mas destacaram métricas de desempenho em vez de considerações práticas sobre o tempo de treinamento. Essas abordagens ainda precisam atender totalmente à necessidade de soluções independentes de modelo e orientadas para replicação que mantenham a integridade original da arquitetura.
Pesquisadores da Brown University propuseram uma abordagem abrangente para identificar habilidades de pré-treinamento em ambientes acadêmicos. Sua metodologia inclui um levantamento dos recursos computacionais de pesquisadores acadêmicos e estimativas de robustez dos tempos de iteração modelados. É desenvolvido um novo sistema de benchmark que avalia a duração do pré-treinamento em diferentes GPUs e identifica as configurações ideais para máxima eficiência de treinamento. Com testes extensivos envolvendo 2.000 horas de GPU, há uma melhoria significativa na utilização de recursos. Os resultados destacam a melhoria potencial do pré-treinamento acadêmico, mostrando que modelos como o Pythia-1B podem ser replicados usando menos dias de GPU do que o originalmente necessário.
O método proposto utiliza uma estratégia de otimização em dois estágios: métodos de almoço grátis e métodos de economia de memória. Os métodos de almoço grátis representam melhorias com melhor desempenho e possível redução de memória sem perda de desempenho ou necessidade de intervenção do usuário. Isso inclui integração de modelo, uso de scripts personalizados prontos para uso como substitutos dos módulos PyTorch e uso do modo TF32 para operações de matriz. Por outro lado, os métodos de economia de memória reduzem o uso de memória, introduzindo uma compensação de desempenho que inclui três componentes principais: teste de inicialização, particionamento de modelo e carregamento. O sistema avalia até 22 combinações exclusivas de métodos de economia de memória, mantendo a configuração de luz natural livre como base constante.
Os resultados do teste mostram uma melhoria significativa em relação às previsões da análise inicial, que são excessivamente otimistas por um fator de 6 vezes. Testes preliminares mostram que 9 entre 20 configurações do modelo de GPU não são viáveis, e Pythia-1B requer 41 dias em 4 GPUs A100 usando uma implementação ingênua. No entanto, após implementar métodos de configuração aprimorados, o estudo alcançou uma aceleração média de 4,3 vezes no tempo de treinamento, reduzindo o treinamento do Pythia-1B para apenas 18 dias na mesma configuração de hardware. Além disso, o estudo revelou um benefício surpreendente: métodos de economia de memória, anteriormente associados à redução de velocidade, às vezes melhoravam o tempo de treinamento em até 71%, especialmente em GPUs com memória limitada ou modelos grandes.
Em conclusão, investigadores da Brown University apresentam um passo importante para colmatar o fosso crescente entre a indústria e a academia na investigação em IA. A pesquisa mostra que as instituições acadêmicas podem treinar modelos de parâmetros multibilionários, apesar das limitações de recursos. A base de código desenvolvida e o sistema de benchmark fornecem ferramentas eficazes para os pesquisadores testarem e otimizarem suas configurações de hardware antes de fazerem grandes investimentos. Ele permite que as equipes educacionais encontrem as configurações de treinamento ideais específicas para os recursos disponíveis e conduzam experimentos iniciais em plataformas de nuvem. Este trabalho representa um marco importante ao permitir que os pesquisadores acadêmicos se envolvam mais no desenvolvimento de modelos de IA em larga escala.
Confira Papel de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Sponsorship Opportunity with us] Promova sua pesquisa/produto/webinar para mais de 1 milhão de leitores mensais e mais de 500 mil membros da comunidade
Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️