Dentro brevemente
- Pesquisadores da University College London desenvolveram uma estrutura quântica multimodal, chamada MultiQ-NLP, que combina dados de linguagem e imagem em um modelo quântico unificado e com reconhecimento de estrutura.
- Ao traduzir texto e imagens em circuitos quânticos, esta abordagem aproveita a capacidade natural da computação quântica para lidar com estruturas tensores complexas, melhorando potencialmente a visibilidade e a interpretação dos sistemas de IA.
- Testado na tarefa de segmentação de imagem padrão (SVO-Probes), o melhor modelo baseado em quântica desenvolvido de acordo com os melhores métodos clássicos, sugerindo que métodos quânticos avançados no futuro podem lidar com a compreensão de linguagem e imagem.
Pesquisadores de computação quântica da University College London introduziram uma nova estrutura que poderia ajudar a esclarecer a natureza da “caixa preta” dos grandes modelos de linguagem. Seu método, denominado MultiQ-NLP, combina texto e imagens em um modelo quântico unificado projetado para destacar e preservar as relações estruturais que tornam a linguagem significativa.
Os investigadores, que publicaram as suas descobertas no servidor de pré-impressão arXiv, relatam que o seu método poderá um dia corresponder a modelos avançados para distinguir pares imagem-texto, potencialmente estabelecendo as bases para sistemas de inteligência artificial (IA) mais interpretativos e robustos.
Modelos LLM carecem de transparência
Os modelos linguísticos modernos de grande escala fizeram grandes avanços no processamento da linguagem natural, mas os seus milhares de milhões de parâmetros formam uma teia espessa que é quase impossível de compreender completamente. Os seus processos de tomada de decisão permanecem obscuros, tornando difícil saber por que escolhem certas palavras ou como pensam sobre imagens combinadas com texto.
O trabalho da equipe da UCL visa enfrentar esse desafio tratando a linguagem e as imagens como estruturas matemáticas que os computadores quânticos são adequados para lidar. Em vez de confiar na correspondência de padrões de força bruta, os pesquisadores organizaram dados sobre sintaxe, gramática e significado composicional – coisas que eles dizem que podem ser modeladas naturalmente usando as ferramentas da teoria quântica.
Traduzindo Texto e Imagens para Reinos Quânticos
No cerne deste método de ensino está a ideia de que a linguagem e os seus elementos – palavras, frases e seus papéis gramaticais – podem ser representados como dez níveis superiores. Tensores são matrizes multidimensionais que capturam como as palavras se relacionam entre si. Tradicionalmente, treinar modelos baseados em tensores em hardware primitivo é muito caro. Mas num processador quântico, os tensores podem ser escritos como estados de qubits, proporcionando uma forma mais precisa e poderosa de lidar com relações linguísticas complexas.
A nova estrutura MultiQ-NLP estende a abordagem existente de processamento quântico de linguagem natural (QNLP) para processamento de imagens. Os pesquisadores propuseram “tipos” básicos e “homomorfismos de tipo” em seu modelo para explicar tanto texto quanto imagens. Ao representar imagens como vetores de características extraídos por uma rede neural clássica (ResNet-50) e transformar esses vetores em estados quânticos, o método coloca a linguagem e os recursos visuais na mesma estrutura matemática.
Resumindo, cada palavra e recurso de imagem corresponde a um conjunto de qubits, e o significado das sentenças associadas às imagens vem de como esses qubits interagem. Funções que ligam palavras – como “relações função-argumento” em linguística – são mapeadas em portas quânticas que combinam estados, que preservam a estrutura composicional da linguagem em formato quântico. Da mesma forma, as características da imagem sofrem redução de dimensionalidade em um pequeno vetor que pode ser codificado como uma rotação quântica, capturando características visuais que o circuito pode processar em conjunto com os dados da linguagem.
Correspondência de desempenho de alto nível
Para testar sua abordagem, os pesquisadores recorreram a uma tarefa padrão de classificação de imagens do conjunto de dados SVO-Probes do Google. Este conjunto de dados desafia os modelos de correspondência de legendas de imagens, concentrando-se no papel dos sujeitos, ações e objetos. Uma frase como “O cachorro está sentado na rua” pode ser combinada com duas imagens: uma do cachorro sentado na rua e outra do cachorro fazendo outra coisa, como correr.
Os melhores modelos baseados em quântica, que incorporam totalmente a estrutura sintática, são desenvolvidos em paralelo com modelos clássicos de alto nível. Esta descoberta é digna de nota. Não só mostra que o método quântico pode ser compatível com métodos estabelecidos, como o faz ao mesmo tempo que revela a estrutura básica da linguagem e das imagens. Os pesquisadores argumentam que essa modelagem mais “transparente” poderia abrir caminho para uma IA mais interpretativa. Em vez de confiar apenas em padrões estatísticos encontrados em grandes conjuntos de treinamento, o método quântico codifica informações estruturais transparentes, dando aos desenvolvedores e usuários uma compreensão clara de como e por que o modelo chega às suas conclusões.
Dados estruturados versus dados aleatórios
A equipe testou seus modelos em dois tipos de tarefas. Na condição “informal”, o modelo simplesmente indica qual imagem corresponde à frase dada quando o uso do verbo é diferente. Na condição “construída”, o modelo enfrentou um problema linguístico muito difícil: a substituição do objeto sujeito. Em outro caso, o modelo pode encontrar tanto “Criança segurando a mão da mãe” quanto “Mãe segurando a mão da criança” ao lado de uma única imagem que corresponda a uma das sentenças. Os modelos quânticos com reconhecimento de estrutura estão na vanguarda aqui, enfatizando a ideia de que a captura da gramática e da sintaxe compensa à medida que a linguagem se torna mais complexa.
Curiosamente, mesmo o modelo quântico mais simples de “saco de palavras” – que ignora a sintaxe e trata cada frase como uma coleção híbrida de palavras – teve um desempenho muito bom em dados simples e não estruturados. Mas quando se trata de dados estruturados complexos, os modelos quânticos orientados pela sintaxe superam o método do vocabulário, de acordo com os investigadores, que sugerem que isto enfatiza a importância da modelação sensível à gramática.
Limitações e próximas etapas
Embora estes resultados sejam encorajadores, os investigadores reconhecem que ainda há muito trabalho a fazer e acrescentam que algumas limitações podem apontar para trabalhos futuros. Primeiro, os experimentos são realizados em simuladores em vez de hardware quântico real. Simulações quânticas em máquinas clássicas são computacionalmente caras, forçando a equipe a trabalhar com conjuntos de dados menores e tamanhos reduzidos de imagens. Os pesquisadores observam que usaram apenas cerca de 20 recursos das imagens, muito menos do que os milhares usados pelos modelos tradicionais de reconhecimento de imagem.
Eles também usaram um método de treinamento específico – um algoritmo de otimização chamado Simultaneous Perturbation Stochastic approximation (SPSA) – que introduz algum ruído e potencialmente limita o poder do modelo. Com estratégias de desenvolvimento mais refinadas, hardware melhor e conjuntos de treinamento maiores, a equipe acredita que o desempenho pode melhorar ainda mais.
A expansão parece ser o próximo grande desafio. Embora seu conjunto de dados já exceda o usado pelos primeiros artigos QNLP, ainda é pobre para os padrões atuais de aprendizado de máquina. Alcançar toda a promessa da linguagem quântica e do processamento de imagens pode exigir o trabalho em dispositivos quânticos mais avançados ou o uso da aceleração de GPU para simular circuitos quânticos maiores com mais eficiência.
Implicações da IA e da computação quântica
Se esta abordagem se expandir, contudo, as consequências poderão ser de longo alcance. Os modelos linguísticos de grande escala revolucionaram campos como a pesquisa, os sistemas de recomendação e a geração de conteúdos, mas o seu estatuto de caixa negra continua a ser uma preocupação em áreas de elite como os cuidados de saúde, as finanças e o direito. Uma abordagem quântica interpretável pode fornecer uma forma de garantir aos utilizadores e reguladores que estes sistemas estão a tomar decisões racionais e justificáveis.
A combinação de representações estruturadas com estados quânticos também pode abrir novos rumos para o aprendizado de máquina quântica. Os computadores quânticos ainda são jovens, mas este trabalho se enquadra na ideia mais ampla de usar dispositivos quânticos não apenas como computadores rápidos, mas como motores para novos tipos de solução de problemas – usando estruturas quânticas para representar e manipular dados nos moldes das máquinas clássicas. . ele não vai.
No caminho para uma IA mais transparente
Esta nova estrutura MultiQ-NLP mostra que os métodos quânticos podem resistir aos modelos clássicos em tarefas multimodais desafiadoras. Talvez o mais importante seja que isso seja feito preservando uma estrutura de design que pode tornar os modelos mais interpretáveis e confiáveis. À medida que a computação quântica se desenvolve e os investigadores encontram formas mais inteligentes de codificar e processar dados, métodos como o MultiQ-NLP podem desempenhar um papel importante na construção de um futuro onde a IA seja poderosa e transparente.
A equipe de pesquisa incluiu Hala Hawashin e Mehrnoosh Sadrzadeh, ambos da University College London. Dimitri Kartsaklis, ou Quantinuum, também deu detalhes sobre o projeto à equipe.
Para uma profundidade mais profunda e técnica – que este artigo não pode fornecer – leia o artigo aqui. Observe também que servidores de pré-impressão, como o arXiv, oferecem uma maneira para os pesquisadores receberem feedback rapidamente sobre novos trabalhos, mas não são formalmente revisados por pares, um passo importante no processo científico.