ByteDance Research apresenta FLUX de 1,58 bits: um novo método de IA que encontra 99,5% dos parâmetros do transformador limitados a 1,58 bits

Os Vision Transformers (ViTs) se tornaram a base da visão computacional, fornecendo desempenho robusto e adaptabilidade. No entanto, o seu grande tamanho e os requisitos de computação criam desafios, especialmente para a implementação em dispositivos com recursos limitados. Modelos como FLUX Vision Transformers, com bilhões de parâmetros, exigem grande armazenamento e memória, tornando-os impraticáveis para muitos casos de uso. Essas limitações limitam a aplicação no mundo real de modelos avançados de manufatura. Enfrentar esses desafios exige novas maneiras de reduzir a carga computacional sem comprometer o desempenho.

Pesquisadores da ByteDance apresentam FLUX de 1,58 bits

Os pesquisadores da ByteDance apresentaram o modelo FLUX de 1,58 bits, uma edição limitada do FLUX Vision Transformer. Este modelo reduz 99,5% dos seus parâmetros (11,9 mil milhões no total) para 1,58 bits, reduzindo significativamente os requisitos computacionais e de armazenamento. O processo é diferente porque não depende de dados de imagem, mas sim de um método de automonitoramento baseado no modelo FLUX.1-dev. Ao incorporar um kernel personalizado otimizado para desempenho de 1,58 bits, os pesquisadores alcançaram uma redução de 7,7x no armazenamento e uma redução de 5,1x no uso de memória de inferência, facilitando a implantação em ambientes com recursos limitados.

Detalhes técnicos e benefícios

O núcleo do FLUX de 1,58 bits está em seu método de escalonamento, que limita os pesos do modelo a três valores: +1, -1 ou 0. Este método compacta parâmetros de precisão de 16 bits para 1,58 bits. Ao contrário dos métodos convencionais, esta calibração sem dados depende apenas do conjunto de dados de calibração de comandos de texto, eliminando a necessidade de dados de imagem. Para lidar com a complexidade das operações de poucos bits, um kernel customizado foi desenvolvido para melhorar a computação. Esta melhoria leva a uma redução significativa nos requisitos de armazenamento e memória, mantendo a capacidade de produzir imagens com alta resolução de 1024 × 1024 pixels.

Resultados e detalhes

Testes extensivos do modelo FLUX de 1,58 bits em benchmarks como GenEval e T2I CompBench demonstraram seu desempenho. O modelo apresentou desempenho equivalente ao de seu equivalente de precisão total, com pequenos desvios observados em determinadas tarefas. Em termos de desempenho, o modelo alcançou uma redução de 7,7x no armazenamento e uma redução de 5,1x no uso de memória nas diversas GPUs. GPUs prontas para implantação, como L20 e A10, destacam ainda mais o desempenho do modelo com melhorias significativas de latência. Esses resultados mostram que o FLUX de 1,58 bits equilibra eficiência e desempenho com sucesso, tornando-o adequado para uma variedade de aplicações.

A conclusão

O desenvolvimento do FLUX de 1,58 bits aborda desafios críticos no uso de grandes transformadores de visão. Sua capacidade de reduzir significativamente os requisitos de armazenamento e memória sem sacrificar o desempenho representa um avanço no projeto de um modelo de IA eficiente. Embora haja espaço para melhorias, como melhorar a medição da ativação e o fornecimento de detalhes finos, este trabalho estabelece uma base sólida para desenvolvimentos futuros. À medida que a investigação prossegue, a perspetiva de utilização de modelos generativos de alta qualidade em dispositivos quotidianos torna-se cada vez mais realista, expandindo o acesso às poderosas capacidades da IA.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….

Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)

Source link

Pesquisadores da ByteDance apresentam FLUX de 1,58 bits

Detalhes técnicos e benefícios

Resultados e detalhes

A conclusão

Você também pode gostar...

Autores Pesquisadores apresentam Writing at the Edges (WiM): um novo padrão conceitual para grandes modelos de linguagem projetados para melhorar o gerenciamento de longas sequências de entrada em tarefas orientadas para recuperação

O copiloto de programação de IA do GitHub é gratuito para desenvolvedores de código VS

ScreenSpot-Pro: a primeira referência para impulsionar LLMs multimodais em agentes GUI profissionais de alta resolução e ambientes de desktop

Deixe um comentário Cancelar resposta