O aprendizado de máquina, especialmente o treinamento de grandes modelos de base, é altamente dependente da variedade e da qualidade dos dados. Esses modelos, pré-treinados em vários conjuntos de dados, são a base de muitas aplicações modernas de IA, incluindo processamento de linguagem, reconhecimento de imagens e muito mais. O desempenho dos modelos básicos depende de quão bem eles são treinados, o que é influenciado pelos dados nos quais são inseridos. Otimizar a seleção e utilização de dados durante o processo de treinamento é um desafio constante, principalmente quando os recursos computacionais são limitados. A estrutura de dados pré-treinamento, a distribuição e a capacidade de dimensionar modelos sem sobrecarga significativa são considerações importantes neste campo.
Um grande problema no treinamento desses modelos é a alocação de recursos computacionais limitados em diferentes conjuntos de dados ou domínios de dados. Um grande desafio é que não existem diretrizes claras sobre a seleção e calibração de dados para maximizar a aprendizagem do modelo. Os métodos tradicionais dependem de submodelos para experimentar diferentes distribuições de dados ou usam métodos de ajuste dinâmico de dados que dependem de modelos proxy. Ambos os métodos introduzem sobrecarga significativa em termos de tempo e esforço computacional. À medida que a escala dos modelos aumenta, estes métodos tornam-se menos eficientes e mais difíceis de generalizar, resultando num desempenho inferior para modelos maiores. Essa ineficiência cria um gargalo significativo no progresso do treinamento de modelos de grande escala.
Os métodos existentes para gerenciar a seleção de dados geralmente envolvem o pré-treinamento de pequenos modelos proxy para informar o processo de treinamento do modelo principal. Esses modelos proxy estimam a distribuição geral dos dados em diferentes domínios. No entanto, esse método traz seus próprios problemas. Primeiro, requer mais etapas no fluxo de trabalho, o que aumenta a complexidade do processo de treinamento. Em segundo lugar, estes modelos mais pequenos nem sempre são previsões fiáveis sobre como o modelo maior se comportará, conduzindo a custos acrescidos e a ineficiências. Por exemplo, o treinamento de um modelo de proxy para seleção de dados pode exigir 760 horas de GPU em 8 GPUs Nvidia A100 e, normalmente, vários ciclos de treinamento de proxy são necessários antes de aplicar as informações a modelos maiores.
Apresentado por pesquisadores da Carnegie Mellon University, Stanford University e Princeton University Otimização Adaptativa de Dados (ADO)um novo método que ajusta dinamicamente a distribuição de dados durante o treinamento. ADO é um algoritmo online que não requer pequenos modelos de proxy ou dados externos adicionais. Ele usa regras de escala para avaliar o potencial de aprendizagem de cada base de dados em tempo real e ajustar o mix de dados de acordo. Isso torna o ADO mais escalonável e mais fácil de integrar aos fluxos de trabalho existentes, sem exigir modificações complexas. A equipe de pesquisa mostrou que o ADO pode alcançar desempenho comparável ou até melhor do que os métodos anteriores, mantendo a eficiência computacional.
O núcleo do ADO reside na sua capacidade de usar regras de escala para prever qual valor um determinado conjunto de dados ou domínio fornecerá ao modelo à medida que o treinamento avança. Estas regras de escala estimam a melhoria potencial na aprendizagem em cada domínio e permitem que o ADO ajuste rapidamente a distribuição de dados. Em vez de depender de políticas de dados estáticos, o ADO otimiza o mix de dados com base no feedback em tempo real do modelo de treinamento. O sistema rastreia duas métricas principais: o poder de aprendizagem de um domínio, que mostra quanto o modelo pode ganhar com melhorias adicionais em um determinado domínio, e a pontuação de crédito, que mede a contribuição do domínio para a redução de perdas de treinamento. Essa configuração dinâmica torna o ADO uma ferramenta mais eficiente em comparação com as políticas tradicionais de dados estáticos.
O desempenho do ADO foi testado em vários modelos de linguagem grandes, incluindo modelos com 124 milhões e 1,3 bilhão de parâmetros. Esses testes revelam que o ADO pode melhorar o desempenho do modelo em vários benchmarks, ao mesmo tempo que adiciona apenas uma pequena carga computacional. Por exemplo, em um dos principais testes, o ADO adicionou menos de 0,4% a mais de tempo de relógio a um processo de treinamento de 3,5 dias para um modelo de 1,3 bilhão de parâmetros. Em termos de desempenho, o ADO melhorou a precisão do modelo em tarefas de baixo nível, superando a linha de base em seis dos sete benchmarks em uma escala de 124 milhões e quatro dos sete benchmarks em uma escala de 1,3 bilhão. Notavelmente, o ADO alcançou esse desempenho sem exigir pequenos modelos de proxy ou modificações extensas no processo de treinamento, tornando-o uma solução fácil de usar e econômica para o treinamento de modelos grandes.
Principais conclusões da pesquisa ADO:
- O ADO elimina a necessidade de modelos proxy, simplificando o processo de treinamento.
- A correção em tempo real da distribuição de dados com base nas leis de escalabilidade garante o desempenho ideal do modelo.
- O ADO adicionou apenas 0,4% ao tempo de treinamento do modelo de 1,3 bilhão de parâmetros.
- O melhor desempenho foi alcançado em 6 dos 7 benchmarks no modelo 124M e 4 dos 7 no modelo 1.3B.
- Eles reduzem bastante o custo computacional associado à seleção de dados no treinamento de modelos grandes.
Concluindo, o ADO mostra um sucesso significativo na melhoria da seleção de dados durante o treinamento de modelos grandes. O ADO simplifica o processo de treinamento e melhora o desempenho geral do modelo, eliminando a necessidade de modelos proxy e ajustando dinamicamente a distribuição de dados usando feedback em tempo real. A capacidade do método de se adaptar bem a diferentes tamanhos de modelos, de 124 milhões a 1,3 bilhão de parâmetros, o torna muito flexível. Além disso, o ADO reduz a sobrecarga computacional normalmente associada ao treinamento de modelos grandes, tornando-o uma solução eficiente para o desenvolvimento de modelos básicos sem custos adicionais. Esta pesquisa destaca a importância do gerenciamento inteligente de dados para melhorar a eficácia do aprendizado de máquina.
Confira Papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️