Nos últimos anos, a evolução da inteligência artificial deu origem a uma variedade de desenvolvimentos linguísticos em larga escala (LLMs). No entanto, treinar estes modelos ainda é um desafio complexo devido aos seus grandes requisitos computacionais. Tradicionalmente, o treinamento de tais modelos só era possível em ambientes centralizados com conexões de alta largura de banda, muitas vezes em grandes data centers controlados por alguns técnicos. Este paradigma centralizado limita a acessibilidade, pois requer recursos valiosos que apenas algumas organizações podem pagar. Estas restrições suscitaram preocupações sobre a igualdade de acesso às tecnologias avançadas de IA e o seu potencial domínio. Para resolver estas barreiras, os investigadores começaram a explorar métodos de formação interactivos e descentralizados. O desafio reside em superar problemas como a baixa largura de banda dos nós e a disponibilidade imprevisível dos nós, que tornam o treinamento descentralizado mais difícil do que o seu equivalente centralizado.
Lançamento do INTELECTO-1
A PRIME Intellect lançou o INTELECT-1 (Instruct + Base), o primeiro modelo de linguagem de 10 bilhões de parâmetros treinado colaborativamente do mundo. Este modelo demonstra a viabilidade do uso de recursos distribuídos e orientados pela comunidade para treinar LLMs avançados. PRIME Intellect usou aqueles Estrutura PRIMEprojetado especificamente para superar os desafios do treinamento distribuído, incluindo a falta de confiabilidade da rede e a adição ou remoção dinâmica de nós de computação. A estrutura foi executada em 112 GPUs H100 em três continentes e alcançou uma eficiência computacional de até 96% em condições ideais, mostrando que o treinamento distribuído pode corresponder aos níveis de desempenho de uma configuração convencional. Esta abordagem amplia o acesso a modelos de IA de alto desempenho e promove um ambiente de pesquisa colaborativa onde colaboradores de todo o mundo podem participar no desenvolvimento da IA.
Detalhes técnicos
De acordo com o comunicado oficial, o INTELECT-1 foi desenvolvido utilizando uma combinação diversificada de conjuntos de dados de alta qualidade, incluindo dados disponíveis publicamente e conjuntos de dados proprietários selecionados pela PRIME Intellect e seus parceiros. O modelo foi treinado em 1 trilhão de tokens, garantindo um amplo entendimento de vários domínios. O processo de treinamento envolveu 14 locais simultâneos espalhados por três continentes, com patrocinadores de informática entrando e saindo conforme necessário. Esta abordagem flexível permitiu uma flexibilidade significativa, o que é importante em situações de implantação do mundo real. O PRIME Intellect também garantiu a estabilidade do treinamento usando inovações como testes ao vivo e comunicação tolerante a falhas, possibilitadas pela estrutura PRIME.
Tecnicamente, a formação INTELECT-1 foi possível através da utilização das inovações da estrutura PRIME, que abordou as restrições dos nós distribuídos geograficamente. PRIME inclui ElasticDeviceMesh, uma abstração que gerencia a comunicação em toda a Internet e o compartilhamento local de dados tolerantes a falhas entre nós. Foram utilizados métodos de treinamento híbrido, incluindo técnicas Fully Sharded Data Parallel (FSDP) para eficiência intra-nós e algoritmos Distributed Low-Communication (DiLoCo) para baixa comunicação entre nós. Para reduzir os requisitos de largura de banda, a estrutura PRIME inclui uma estratégia de quantização de 8 bits para transmissão gradiente, reduzindo a sobrecarga de comunicação em até 400 vezes em comparação com o treinamento paralelo de dados padrão. A tolerância a falhas foi controlada pelo gerenciamento dinâmico de nós, permitindo que novos nós se unissem perfeitamente e que nós com falha fossem removidos com o mínimo de interrupção. Esses novos métodos permitiram o treinamento eficiente de modelos distribuídos, mantendo a eficiência computacional.
Resultados e Resultados de Referência
O lançamento do INTELLECT-1 marca um passo significativo para tornar o treinamento LLM acessível além das grandes corporações. Os resultados do programa de treinamento revelam um modelo que compete com modelos do mesmo tamanho treinados em configurações médias. Por exemplo, o INTELECT-1 alcançou 37,5% de precisão no benchmark MMLU e 72,26% no HellaSwag. Além disso, o INTELECT-1 superou vários outros modelos de código aberto em alguns benchmarks, incluindo 65,82% no desafio WinoGrande. Embora estas estatísticas fiquem ligeiramente atrás de outros modelos de ponta, os resultados são notáveis, dados os desafios da formação distribuída. Mais importante ainda, esta experiência estabelece um precedente para uma maior colaboração e abre caminho para um maior desenvolvimento em projetos de IA liderados pela comunidade. Uma rede global de 30 doadores independentes de computadores não só garantiu o sucesso do projecto, mas também destacou a robustez de tais esforços. À medida que os modelos descentralizados aumentam em escala e à medida que as estratégias de comunicação melhoram, a lacuna entre a formação centralizada e a descentralizada provavelmente continuará a diminuir.
A conclusão
O lançamento do INTELECT-1 representa um marco na busca por pesquisas em IA mais acessíveis. Ao utilizar recursos descentralizados para treinar um modelo de linguagem de 10 mil milhões de parâmetros, a PRIME Intellect e os seus colaboradores demonstraram que o desenvolvimento avançado de IA não tem de ser limitado a algumas empresas de elite. Através da inovação em sistemas de formação distribuídos e da colaboração global, o INTELECT-1 estabelece um novo padrão para o que é possível na investigação aberta e inclusiva em IA. A estrutura PRIME, juntamente com o modelo INTELECT-1 disponível publicamente e os dados de treinamento, inspirará mais projetos conduzidos pela comunidade, ajudando a nivelar o campo de atuação no espaço de IA e abrindo as portas para diversas contribuições. Este é um passo importante para tornar a IA um recurso acessível e inclusivo.
Confira Papel, Detalhes e modelos em faces iguais (Ordem e base). Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 59k + ML.
🎙️ 🚨 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de técnicas de clustering vermelho' Leia o relatório completo (Promovido)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)