Apesar de suas incríveis capacidades, grandes modelos de linguagem não são de forma alguma perfeitos. Esses modelos de inteligência artificial às vezes “surpreendem” ao produzir informações incorretas ou sem suporte na resposta a uma pergunta.
Devido a este problema de ilusão, as respostas do LLM são frequentemente verificadas por verificadores de factos, especialmente quando o modelo é utilizado numa área de destaque, como cuidados de saúde ou finanças. No entanto, os processos de validação muitas vezes exigem que as pessoas leiam longos documentos citados pelo modelo, uma tarefa muito difícil e propensa a erros que pode impedir que alguns utilizadores produzam modelos de IA produtivos.
Para ajudar os verificadores humanos, os pesquisadores do MIT criaram um sistema fácil de usar que permite às pessoas verificar as respostas do LLM muito rapidamente. Com essa ferramenta, chamada SymGen, o LLM gera respostas com citações que apontam diretamente para um local do documento de origem, como uma determinada célula de um banco de dados.
Os usuários passam o mouse sobre as partes destacadas de sua resposta de texto para ver os dados que o modelo usou para gerar aquela palavra ou frase específica. Ao mesmo tempo, as partes não destacadas mostram aos usuários quais frases precisam de mais atenção para serem verificadas e verificadas.
“Damos às pessoas a capacidade de se concentrarem nas partes do texto com as quais precisam se preocupar. “Em última análise, o SymGen pode dar às pessoas maior confiança nos resultados do modelo porque podem verificar facilmente para garantir que os dados sejam confirmados”, disse Shannon Shen, estudante de graduação em engenharia elétrica e ciência da computação e principal autor do livro. artigo no SymGen.
Por meio de pesquisas com usuários, Shen e seus colaboradores descobriram que o SymGen acelerou o tempo de verificação em cerca de 20%, em comparação com processos manuais. Ao tornar mais rápido e fácil para as pessoas validarem os resultados do modelo, o SymGen pode ajudar as pessoas a detectar erros em LLMs usados em uma variedade de situações do mundo real, desde a produção de notas clínicas até o resumo de relatórios do mercado financeiro.
Shen é acompanhado no artigo pelo coautor e estudante de pós-graduação do EECS, Lucas Torroba Hennigen; o estudante de pós-graduação do EECS, Aniruddha “Ani” Nrusimha; Bernhard Gapp, presidente da Good Data Initiative; e os autores seniores David Sontag, professor do EECS, membro da Clínica Jameel do MIT e líder do Grupo Clínico de Aprendizado de Máquina do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL); e Yoon Kim, professor assistente do EECS e membro do CSAIL. A pesquisa foi recentemente apresentada na Language Modeling Conference.
Referências simbólicas
Para auxiliar na validação, muitos LLMs são projetados para criar citações, referir-se a documentos externos e suas respostas baseadas no idioma para que os usuários possam verificá-los. No entanto, esses sistemas de verificação são muitas vezes concebidos como uma reflexão tardia, sem considerar o esforço necessário para as pessoas analisarem múltiplas citações, disse Shen.
“A IA generativa tem como objetivo reduzir o tempo do usuário para concluir uma tarefa. “Se você precisa passar horas lendo todos esses documentos para ter certeza de que o modelo diz algo que faz sentido, não é muito útil fazer as gerações funcionarem”, disse Shen.
Os pesquisadores abordaram o problema da validação a partir da perspectiva das pessoas que farão o trabalho.
O usuário do SymGen primeiro fornece ao LLM dados aos quais ele pode se referir em sua resposta, como uma tabela contendo as estatísticas de um jogo de basquete. Então, em vez de pedir imediatamente ao modelo para completar uma tarefa, como fazer um resumo do jogo a partir desses dados, os pesquisadores realizaram uma etapa intermediária. Eles incentivam o modelo a gerar sua resposta de forma simbólica.
Com essas informações, toda vez que o modelo quiser citar palavras em sua resposta, ele deverá escrever uma célula específica na tabela de dados que contenha as informações a que se refere. Por exemplo, se o modelo quiser mencionar a palavra “Portland Trailblazers” em sua resposta, ele substituirá esse texto pelo nome da célula na tabela de dados que contém essas palavras.
“Por termos essa etapa intermediária com o texto em forma simbólica, conseguimos ter referências muito bem analisadas. Podemos dizer que, cada vez que há um texto na saída, há um dado correspondente”, disse Torroba Hennigen.
O SymGen então resolve cada referência usando uma ferramenta baseada em regras que copia o texto correspondente da tabela de dados para a resposta do modelo.
“Dessa forma, sabemos que se trata de uma cópia literal, portanto sabemos que não haverá erros na parte do texto correspondente às alterações dos dados originais”, acrescenta Shen.
Fortalecendo a autenticação
Um modelo pode gerar respostas simbólicas devido à forma como é treinado. Grandes modelos de linguagem são restos de dados da Internet, e alguns dados são registrados em um “formato proxy”, onde os códigos substituem os valores reais.
Quando SymGen solicita que um modelo gere uma resposta simbólica, ele usa a mesma estrutura.
“Projetamos o conteúdo de uma forma específica para aproveitar as habilidades do LLM”, acrescentou Shen.
Durante a pesquisa com usuários, a maioria dos participantes disse que o SymGen facilitou a verificação do texto produzido pelo LLM. Eles podem confirmar as respostas do modelo cerca de 20% mais rápido do que se usassem métodos convencionais.
No entanto, o SymGen é limitado pela qualidade dos dados de origem. O LLM pode dizer a coisa errada e um verificador humano pode não ser muito inteligente.
Além disso, o usuário deve ter os dados de origem em um formato estruturado, como uma tabela, para inserir no SymGen. Atualmente, o programa funciona apenas com dados tabulares.
No futuro, os pesquisadores aprimoraram o SymGen para lidar com texto simples e outros tipos de dados. Com esse recurso, pode ajudar a verificar partes de resumos de documentos jurídicos gerados por IA, por exemplo. Eles também planejam testar o SymGen com médicos para saber como ele pode detectar erros em resumos clínicos gerados por IA.
Este trabalho foi financiado, em parte, pela Liberty Mutual e pela Quest for Intelligence Initiative do MIT.