Frenzy: uma abordagem de computação com reconhecimento de memória para clusters de GPU heterogêneos

A Inteligência Artificial (IA) tem feito progressos significativos de forma cada vez maior, combinando grandes quantidades de dados e construindo grandes modelos linguísticos complexos (LLMs). O treinamento desses LLMs requer mais poder computacional e recursos para alocação de memória, consumo de energia e hardware. Otimizar o uso de memória para diferentes tipos e configurações de GPUs é complexo. Determinar os tipos e o número de GPUs necessárias para treinar um modelo específico tornou-se um processo sujeito a erros para os desenvolvedores. Além disso, as diferentes tarefas do LLM precisam ser bem planejadas em diferentes GPUs. A complexidade do LLM torna impossível garantir o uso eficiente dos recursos. Para resolver esses problemas, a equipe de pesquisa desenvolveu o Frenzy, que automatiza a alocação e agendamento de recursos.

Os métodos tradicionais alocam recursos de GPU estatisticamente sem se adaptar aos requisitos dinâmicos de memória durante o treinamento. A configuração deve ser feita manualmente, o que oferece flexibilidade limitada para diferentes tipos de GPUs e sua capacidade de memória. Isso leva a um menor uso de recursos de hardware, aumentando os custos e o tempo de treinamento. Portanto, há necessidade de um novo método para combater a alocação ineficiente de recursos, adaptar-se à heterogeneidade de hardware e aumentar a eficiência de LLMs complexos.

O método proposto, Frenzy, treina LLMs em vários clusters de GPU. Os principais recursos do Frenzy incluem:

Preditor de recursos com reconhecimento de memória (MARP): O MARP pode prever o pico de uso de memória analisando a estrutura do LLM.
Agendamento com reconhecimento de heterogeneidade (HAS): IYE distribui tarefas LLM de forma eficiente entre diferentes GPUs com base em sua capacidade de memória e poder de processamento.
Integração de servidor: os desenvolvedores não precisam especificar os requisitos de GPU; este programa pode fazer isso automaticamente.
Otimização Dinâmica de Memória: O sistema monitora constantemente o uso de memória e gargalos são evitados através da redistribuição de tarefas que consomem memória.

Os testes mostraram que a precisão da previsão do uso de memória do Frenzy excede 92%. Reduziu o tempo de processamento em 10 vezes em comparação aos métodos convencionais. O tempo médio de conclusão também diminuiu de 12% para 18%. Frenzy alcança alta alocação de recursos e se adapta dinamicamente aos clusters de GPU.

Em resumo, Frenzy aborda um gargalo crítico no treinamento de LLMs com um sistema sem servidor e com reconhecimento de memória construído para vários clusters de GPU. O agendamento dinâmico de recursos e a otimização com reconhecimento de memória proporcionam aumentos significativos em eficiência, robustez e economia. Esta pesquisa representa um passo em direção a soluções de treinamento LLM sustentáveis e escaláveis, fornecendo uma estrutura robusta para o uso eficaz de vários clusters de GPU. A adaptabilidade e o alto desempenho do Frenzy estabeleceram uma nova referência no treinamento LLM e abriram uma adoção mais ampla na pesquisa e na indústria.

Confira eu Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….

Afeerah Naseem é estagiária de consultoria na Marktechpost. Ele está cursando bacharelado em tecnologia no Instituto Indiano de Tecnologia (IIT), Kharagpur. Ele é apaixonado por Ciência de Dados e fascinado pelo papel da inteligência artificial na resolução de problemas do mundo real. Ele adora descobrir novas tecnologias e explorar como elas podem tornar as tarefas diárias mais fáceis e eficientes.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)

Source link

Você também pode gostar...

Quatro do MIT nomeados 2025 Rhodes Scholars | Notícias do MIT

Pesquisadores da UC Berkeley propõem DocETL: um sistema declarativo para o desenvolvimento de tarefas complexas de processamento de documentos usando LLMs

Kwai-STAR: uma estrutura de IA que transforma LLMs em reformadores de última geração para melhorar suas habilidades de pensamento lógico

Deixe um comentário Cancelar resposta