Modelos de linguagem em larga escala (LLMs) fazem parte de vários sistemas de inteligência artificial, demonstrando capacidades em processamento de linguagem natural, tomada de decisões e tarefas de composição. No entanto, permanecem sérios desafios na compreensão e previsão do seu comportamento. Tratar os LLM como caixas negras complica os esforços para avaliar a sua fiabilidade, especialmente em situações em que os erros podem ter consequências significativas. Os métodos tradicionais geralmente dependem de condições ou gradientes internos do modelo para interpretar o comportamento, que não estão disponíveis em modelos de código fechado baseados em API. Esta limitação levanta uma questão importante: como podemos avaliar eficazmente o comportamento do LLM apenas com acesso à caixa preta? O problema também é agravado por influências conflitantes e potenciais distorções de modelos por meio de APIs, destacando a necessidade de soluções robustas e não convencionais.
Para enfrentar esses desafios, os pesquisadores da Carnegie Mellon University fizeram progressos QueRE (Questão de Representação). Este método foi projetado para LLMs de caixa preta e gera representações não visuais e de baixa dimensão de modelos questionáveis com instruções de acompanhamento sobre seus resultados. Estas representações, baseadas nas probabilidades associadas às respostas solicitadas, são utilizadas para treinar as previsões de desempenho do modelo. Notavelmente, o QueRE tem um desempenho comparável ou melhor que outras técnicas de caixa branca em termos de confiabilidade e desempenho geral.
Ao contrário dos métodos que dependem de condições de modelo interno ou de distribuições completas de saída, o QueRE depende de saídas acessíveis, como as k principais probabilidades disponíveis por meio de muitas APIs. Se tais probabilidades não estiverem disponíveis, elas podem ser estimadas por amostragem. Os recursos do QueRE também permitem experimentos como a detecção de modelos induzidos pelo adversário e a distinção entre estruturas e tamanhos, tornando-o uma ferramenta versátil para compreender e implementar LLMs.
Detalhes técnicos e benefícios do QueRE
QueRE funciona criando vetores de recursos derivados de perguntas de consulta feitas no LLM. Com uma perspectiva específica e uma resposta de modelo, essas questões avaliam fatores como confiança e precisão. Perguntas como “Você está confiante em sua resposta?” ou “Você pode explicar sua resposta?” permitem a extração de probabilidades que refletem as premissas do modelo.
Os recursos extraídos são então usados para treinar preditores lineares para várias funções:
- Previsão de desempenho: Verificando se a saída do modelo está correta no nível da instância.
- Detecção de adversário: Identificar onde as respostas são influenciadas por comandos maliciosos.
- Diferenças de modelo: Diferenciar entre diferentes estruturas ou configurações, como identificar pequenos modelos distorcidos como maiores.
Ao confiar em operações de baixa dimensão, o QueRE suporta uma forte generalização entre as operações. Sua simplicidade garante robustez e reduz o risco de overfitting, tornando-o uma ferramenta eficaz para avaliar e extrair LLMs de diferentes programas.
Resultados e detalhes
Testes experimentais demonstram a eficácia do QueRE em diversas dimensões. Ao prever o desempenho do LLM em tarefas de resposta a perguntas (QA), o QueRE continuou a superar as linhas de base que dependem de estados internos. Por exemplo, em benchmarks abertos de controle de qualidade, como SQuAD e Natural Queries (NQ), o QueRE alcançou uma área sob a curva característica operacional do receptor (AUROC) superior a 0,95. Da mesma forma, teve mais sucesso na detecção de modelos influenciados pelo inimigo, superando outros métodos de caixa preta.
O QueRE também provou ser robusto e transferível. Seus recursos têm sido utilizados com sucesso em atividades não-distributivas e em diferentes ambientes de LLM, o que garante sua flexibilidade. Representações de baixa dimensão facilitam o treinamento eficiente de modelos simples, garantindo viabilidade computacional e parâmetros de convergência robustos.
Outro resultado notável foi a capacidade do QueRE de usar sequências aleatórias de linguagem natural como comandos de consulta. Essas sequências geralmente correspondem ou excedem o desempenho de consultas estruturadas, destacando a flexibilidade e o potencial do método para aplicações multifuncionais sem extensa engenharia manual de informações.
A conclusão
QueRE fornece uma maneira eficiente e eficaz de compreender e otimizar LLMs de caixa preta. Ao converter respostas persuasivas em recursos acionáveis, o QueRE fornece uma estrutura intuitiva e robusta para prever o comportamento do modelo, detectar influências contra-intuitivas e classificar estruturas. O seu sucesso nos testes do equipamento sugere que se trata de uma ferramenta importante para investigadores e profissionais que pretendem melhorar a fiabilidade e segurança dos LLMs.
À medida que os sistemas de IA evoluem, métodos como o QueRE desempenharão um papel fundamental para garantir a transparência e a confiança. Trabalhos futuros podem explorar a extensão do desempenho do QueRE para outros métodos ou a modificação de suas técnicas para obter melhor desempenho. Atualmente, o QueRE representa uma resposta cuidadosa aos desafios colocados pelos modernos sistemas de IA.
Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.
🚨 Recomende uma plataforma de código aberto: Parlant é uma estrutura que muda a forma como os agentes de IA tomam decisões em situações voltadas para o cliente. (Promovido)
Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.
📄 Conheça 'Height': ferramenta independente de gerenciamento de projetos (patrocinado)