Dentro brevemente
- Os pesquisadores relatam o método QIANets que combina técnicas de inspiração quântica – como poda e decomposição de tensores – para reduzir os tempos de decisão das redes neurais, prometendo previsões mais rápidas sem sacrificar a precisão das aplicações em tempo real.
- Testado em DenseNet, GoogLeNet e ResNet-18, o QIANets demonstrou uma redução mensurável na latência em comparação com métodos de compressão tradicionais, abrindo caminho para análises rápidas de imagens e vídeos em áreas exigentes, como direção autônoma.
- Embora a QIANets ofereça desenvolvimentos promissores, são necessários mais testes em vários hardwares e arquiteturas flexíveis, como conversores, para explorar plenamente o seu potencial em aplicações mais amplas de IA.
Qualquer bom jardineiro lhe dirá que a poda é um dos segredos para uma colheita saudável. A equipe de pesquisa diz que a poda de inspiração quântica, junto com outras técnicas, pode ser o segredo para uma colheita saudável de redes neurais que podem ser ferramentas valiosas para desenvolver aplicações frutíferas no mundo real.
Em um estudo publicado no ArXiv, cientistas da Algoverse relatam que métodos de poda e decomposição de inspiração quântica, combinados com fatoração de matriz baseada em recozimento, prometem reduzir o tempo de toque – ou o tempo que leva para fazer uma previsão ou classificar novos dados – enquanto mantendo a precisão. Ou seja, técnicas, por exemplo, podem levar redes neurais a ajudar os computadores a “ver” objetos em fotos ou vídeos, trabalhando de forma rápida e sem perder a precisão.
A nova abordagem, chamada QIANets, combina princípios da computação quântica em redes neurais convolucionais (CNNs), como DenseNet, GoogLeNet e ResNet-18. Uma rede neural é simplesmente um modelo de computador inspirado no cérebro humano que aprende padrões em dados para fazer previsões ou classificações. Uma rede neural de inspiração quântica é uma rede neural que usa técnicas e conceitos de otimização da computação quântica para melhorar a eficiência da computação e a velocidade de processamento sem a necessidade de hardware quântico real.
Os pesquisadores relatam que seus primeiros experimentos mostram que os QIANets podem reduzir a latência sem sacrificar a precisão crítica em aplicações em tempo real, marcando uma melhoria potencial para CNNs em situações urgentes, de acordo com os pesquisadores.
Deve-se notar que essas funções de visão computacional são muito procuradas por pesquisadores que estão explorando seu uso em aplicações do mundo real que exigem resultados rápidos, especialmente carros autônomos e análise de vídeo em tempo real.
Rápido, mas preciso
Os cientistas escrevem que a estrutura QIANets atinge tempos de inferência baixos reconfigurando estruturas CNN usando três técnicas de inspiração quântica: poda, decomposição de tensores e fatoração de matriz com base em entradas simuladas. Cada abordagem visa agilizar os cálculos do modelo, mantendo a precisão necessária para tarefas complexas, como processamento de imagens.
Quando aplicado às arquiteturas DenseNet, GoogLeNet e ResNet-18, o método QIANets mostrou redução mensurável de latência, supostamente reduzindo os tempos de decisão em uma porcentagem em comparação aos métodos de compressão tradicionais. Embora os pesquisadores não tenham divulgado números específicos, eles enfatizaram que as técnicas de inspiração quântica atendem às expectativas de manutenção da precisão, marcando um equilíbrio notável entre desempenho e demanda computacional.
Além de acelerar essas arquiteturas convencionais de CNN, as novas técnicas representam uma revolução nos métodos estabelecidos. Os métodos tradicionais de compactação de modelos, incluindo remoção e cálculo da média, podem reduzir a latência, mas muitas vezes comprometem a precisão do modelo – um recurso importante em muitas tarefas de visão computacional. Em contraste, o método de poda inspirado no QIANets remove diretamente pesos de rede desnecessários, guiado por uma otimização de probabilidade que é quase idêntica aos algoritmos quânticos. Esta técnica minimiza o compromisso entre redução de tamanho e perda de precisão que muitas vezes prejudica CNNs densas.
A segunda descoberta
Além da latência reduzida, a integração da decomposição de tensores em CNNs ajuda a controlar a carga computacional, especialmente para tensores de alta dimensão, que muitas vezes contêm grandes quantidades de dados com muitas variáveis. Inspirada nas técnicas de computação quântica, a decomposição de tensores divide esses tensores em componentes menores sem perder informações valiosas. Os pesquisadores usaram decomposição de valores singulares (SVD) para reduzir a dimensão do tensor, transformando as matrizes de pesos originais em aproximações de baixo nível. O processo de decomposição resultou em uma redução significativa na complexidade computacional, o que se traduz em tempos de decisão mais rápidos durante os testes.
Além disso, a fatoração de matriz baseada em recozimento otimiza ainda mais a estrutura do modelo, retrabalhando os tensores de peso em representações mais eficientes. Os pesquisadores modelaram a fatoração como um problema de otimização, simulando um processo de recozimento quântico que reduz ligeiramente o cálculo necessário para a detecção. Essa abordagem reduziu o tamanho do modelo e os requisitos computacionais sem sacrificar o desempenho, proporcionando o duplo benefício de latência reduzida e maior precisão.
Métodos
QIANets usa uma combinação de técnicas de otimização de inspiração quântica adaptadas para CNNs. Na poda de inspiração quântica, os pesquisadores usaram um algoritmo probabilístico para determinar quais pesos eram importantes para um desempenho preciso e quais poderiam ser removidos. A decomposição de tensores – ou divisão de grades de dados grandes e complexas, ou tensores em componentes simples – é seguida, reduzindo o tamanho dos valores de peso com o SVD mencionado acima, selecionando um número limitado de valores exclusivos para cada camada na CNN. A fatoração de matriz baseada em recozimento foi então usada para concatenar as matrizes de peso em duas matrizes de baixa dimensão, imitando a situação de otimização de baixo consumo comum na integração quântica. Este processo iterativo minimizou a diferença entre os pesos originais e suas formas simplificadas, garantindo perda mínima de dados.
Os experimentos foram realizados em DenseNet, GoogLeNet e ResNet-18 com um número limitado de testes. O objetivo era quantificar as vantagens das técnicas de inspiração quântica sobre as CNNs em termos de latência e precisão. Os pesquisadores mostraram que o desempenho da estrutura foi mais promissor em ambientes controlados, com baixa variabilidade em condições experimentais.
Limitações e direções futuras
Pode-se esperar mais trabalhos para investigar QIANets, que enfrentam limitações. Os pesquisadores destacam que sua estrutura ainda não foi testada em diversas plataformas de hardware, como FPGAs ou GPUs customizadas, o que pode melhorar a latência e o poder de processamento. Além disso, a estrutura precisará ser flexível para todos os tipos de arquiteturas CNN, ou enfrentará restrições nas aplicações. Cada modelo arquitetônico requer alguns ajustes, limitando a escalabilidade do QIANets a todos os outros modelos de aprendizagem profunda. O escopo do experimento se limita às CNNs, com exceção de novas estruturas como os transformadores, que ganharam destaque no aprendizado de máquina.
Em estudos futuros, os pesquisadores poderão considerar a personalização dessas técnicas para diferentes unidades de processamento. Pesquisas futuras também podem explorar o desempenho escalável da QIANets para outras arquiteturas de redes neurais além das CNNs, especialmente arquiteturas que envolvem mecanismos de atenção, para maximizar os benefícios da otimização inspirada na quântica.
Algoverse é um programa online de pesquisa de IA para estudantes do ensino médio e universitários, com orientação de especialistas e profissionais do setor. A equipe de pesquisa inclui Zhumazhan Balapanov, Edward Magongo, Vanessa Matvei, Olivia Holmberg, Jonathan Pei e Kevin Zhu.