O desenvolvimento de modelos de IA eficazes é importante para a investigação em aprendizagem profunda, mas a obtenção de modelos arquitetónicos de alta qualidade continua a ser um desafio e um custo dispendioso. Os métodos manuais e automatizados convencionais muitas vezes não conseguem aumentar as oportunidades de projeto além de estruturas básicas, como transformadores ou híbridos, e o alto custo do desenvolvimento de modelos de teste limita a pesquisa extensiva. A otimização manual requer conhecimento e recursos significativos, enquanto os métodos automatizados são frequentemente limitados por áreas de pesquisa restritas, impedindo um progresso significativo nas operações. Para enfrentar esses desafios, as pesquisas mais recentes da Liquid AI oferecem uma solução eficaz.
Para enfrentar esses desafios, a Liquid AI desenvolveu o STAR (Synthesis of Tailored Architectures), uma estrutura que visa a evolução automática de arquiteturas de modelos para melhorar a eficiência e a eficácia. STAR repensa o processo de construção de modelos criando um novo espaço de busca para arquiteturas baseadas no conceito de sistemas lineares de variação de entrada (LIVs). Ao contrário dos métodos tradicionais que iteram em um conjunto limitado de padrões conhecidos, o STAR oferece uma nova maneira de representar estruturas modelo, permitindo testes em diferentes níveis de sequência através do que eles chamam de “genomas STAR”.
Esses genomas servem como codificação numérica de projetos arquitetônicos, a STAR em evolução usando princípios do desenvolvimento evolutivo. Ao combinar e testar esses genomas iterativamente, o STAR permite a recombinação e modificação, levando à melhoria contínua. A ideia principal é tratar os modelos arquitetônicos como objetos dinâmicos que podem mudar ao longo das gerações, otimizados para métricas como qualidade, eficiência, tamanho e cache de inferência – todos componentes-chave das aplicações modernas de IA.
Insights técnicos: arquitetura e benefícios da STAR
A base técnica do STAR reside na representação do modelo arquitetônico como sequências numéricas sequenciais – “genomas” – que definem unidades computacionais e suas conexões. O ambiente de pesquisa é inspirado nos sistemas LIV, que incluem muitos componentes comuns de arquiteturas de aprendizagem profunda, como camadas dinâmicas, mecanismos de atenção e unidades de repetição. O genoma STAR é composto por vários níveis de abstração, incluindo genomas de backbone, operador e featurer, que juntos determinam a estrutura e as propriedades das unidades computacionais utilizadas no modelo.
O STAR prepara esses genomas por meio de uma combinação de algoritmos evolutivos. O processo envolve uma série de atividades: testes, recombinação e modificação genética, que refinam uma série de estruturas ao longo do tempo. Cada arquitetura da população é avaliada com base em seu desempenho em determinadas métricas, e as de melhor desempenho são combinadas e modificadas para criar uma nova geração de arquiteturas.
Essa abordagem permite que a STAR produza uma variedade de projetos arquitetônicos. Ao dividir estruturas em componentes gerenciáveis e otimizá-los sistematicamente, o STAR é capaz de projetar modelos eficientes em termos de requisitos computacionais e de qualidade. Por exemplo, as arquiteturas geradas por STAR mostraram melhorias em relação aos modelos ajustados manualmente, como transformadores e projetos híbridos, especialmente quando avaliadas em parâmetros como tamanho, eficiência e requisitos de cache de inferência.
As implicações do STAR são dignas de nota, especialmente tendo em conta os desafios de dimensionar modelos de IA, equilibrando simultaneamente eficiência e qualidade. Os resultados do Liquid AI mostram que, ao ajustar a qualidade e o tamanho dos parâmetros, as arquiteturas otimizadas STAR superam consistentemente o desempenho do Transformer++ e dos modelos híbridos em benchmarks downstream. Especificamente, o STAR alcançou uma redução de 13% nas contagens de parâmetros, mantendo ou melhorando a qualidade geral, medida pela confusão, em diversas métricas e funções.
A redução do tamanho do cache é outro recurso importante dos recursos do STAR. Ao otimizar a qualidade e o tamanho do cache de inferência, descobriu-se que os modelos desenvolvidos com STAR têm tamanhos de cache até 90% menores do que os das arquiteturas Transformer, ao mesmo tempo que os igualam ou excedem em qualidade. Este desenvolvimento sugere que o método STAR de usar algoritmos evolutivos para integrar projetos arquitetônicos é eficaz e eficiente, especialmente ao otimizar múltiplas métricas simultaneamente.
Além disso, a capacidade do STAR de identificar motivos arquitetônicos repetitivos – padrões que emergem durante o processo evolutivo – fornece informações valiosas sobre os princípios de design que sustentam as melhorias observadas. Esta capacidade analítica pode servir como uma ferramenta para pesquisadores que desejam entender por que certas arquiteturas têm melhor desempenho, impulsionando, em última análise, futuras inovações na modelagem de IA.
A conclusão
STAR representa um avanço significativo na forma como abordamos o projeto de arquiteturas de IA. Utilizando princípios evolutivos e um espaço de busca bem definido, a Liquid AI criou uma ferramenta que pode gerar automaticamente estruturas adaptadas a necessidades específicas. Esta estrutura é muito importante para atender à necessidade de modelos eficientes, mas de alta qualidade, que possam atender às diversas necessidades das aplicações de IA do mundo real. À medida que os sistemas de IA continuam a crescer em complexidade, o método STAR oferece um caminho promissor – que combina automação, flexibilidade e insights para alcançar os limites do design do modelo de IA.
Confira Papel e detalhes. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🎙️ 🚨 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de técnicas de clustering vermelho' Leia o relatório completo (Promovido)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
🚨🚨 WEBINAR DE IA GRATUITO: 'Acelere suas aplicações LLM com deepset e Haystack' (promovido)