DeepMind Research lança tabela de classificação FACTS Grounding: medindo a capacidade dos LLMs de fornecer respostas a informações longas.

Modelos linguísticos de larga escala (LLMs) revolucionaram o processamento de linguagem natural, permitindo aplicações que vão desde digitação automática até ferramentas complexas de tomada de decisão. No entanto, garantir que estes modelos produzam respostas precisas ainda é um grande desafio. Às vezes, os LLMs produzem resultados que parecem confiáveis, mas na verdade são incorretos, algo frequentemente chamado de “alucinação”. Esta questão torna-se particularmente problemática em situações que exigem respostas extensas baseadas em documentos específicos do contexto. Em áreas como direito, medicina e finanças, onde a precisão é importante, a imprecisão pode ter consequências graves. Enfrentar estes desafios requer medições rigorosas e métodos de avaliação fiáveis.

Para responder a esses desafios, os pesquisadores do Google DeepMind desenvolveram o FACTS Focusing Leaderboard, uma estrutura de benchmarking para avaliar como os LLMs concentram suas respostas em situações de entrada específicas. Ao contrário dos benchmarks tradicionais, o FACT Focus Leaderboard se concentra em tarefas que exigem modelos para gerar respostas baseadas exclusivamente em documentos de até 32.000 tokens. Este método visa testar quão bem os modelos se combinam de forma eficaz e respondem fielmente à entrada do usuário sem se desviar do contexto determinado.

A tabela de classificação combina conjuntos de dados públicos e privados para equilibrar visibilidade e segurança. Os conjuntos de dados públicos convidam à participação e melhoria externas, enquanto os conjuntos de dados privados garantem a validade dos parâmetros de referência, evitando o excesso de enchimento. O teste usa modelos de julgamento automático em um processo de duas etapas: primeiro, filtra as respostas que não atendem às solicitações do usuário e, segundo, encontra a verdadeira precisão por meio de testes combinados de vários modelos. Esta abordagem multicamadas minimiza o preconceito individual do avaliador, levando a resultados mais confiáveis.

Especificações Técnicas e Aplicações Práticas

A tabela de classificação FACTS Grounding é construída em um conjunto de dados que inclui 860 exemplos públicos e 859 privados em áreas como finanças, direito, medicina e tecnologia. Cada exemplo combina um documento de contexto detalhado com uma solicitação do usuário, o que exige que as respostas sejam sempre baseadas nas informações fornecidas. As atividades incluem resumo, apuração de fatos e análise comparativa.

Anotadores humanos projetaram e revisaram as instruções para garantir consistência e excluir aquelas que exigem pensamento subjetivo ou de nível especializado. Esta definição rigorosa garante que o índice de referência avalie uma base factual em vez de respostas hipotéticas ou especulativas. LLMs avançados, incluindo Gemini 1.5 Pro, Claude 3.5 Sonnet e GPT-4o, atuam como juízes automáticos. Esses modelos avaliam o nível base da frase e atribuem pontos com base no alinhamento verdadeiro com o documento de contexto. O processo de pontuação leva em conta tanto as pontuações dos fatos brutos quanto as correções para respostas inadequadas – aquelas que, embora precisas, não atendem à solicitação do usuário.

Com foco no suporte, o conselho incentiva o desenvolvimento de LLMs que priorizem a precisão e a confiabilidade na localização de materiais. Esse foco é importante para aplicações que exigem resultados confiáveis, como resumo de documentos legais ou geração de dados de pesquisas médicas.

Resultados e Observações

Os resultados do benchmark fornecem informações importantes sobre os atuais pontos fortes e limitações dos LLMs. Modelos como Gemini 1.5 Flash e Gemini 2.0 Flash Experimental alcançaram pontuações altas, com média de precisão superior a 85% em conjuntos de dados públicos e privados. No entanto, a remoção de respostas inadequadas alterou a classificação, destacando a importância da adesão às instruções do usuário e da precisão factual.

Também surgiram diferenças específicas de domínio no desempenho. Os modelos são bem-sucedidos em carreiras técnicas e financeiras, mas enfrentam situações médicas e jurídicas, indicando áreas de melhoria. O uso de modelos com múltiplos juízes reduziu o viés, com pontuações compostas mostrando maior confiabilidade em comparação com avaliações com um único juiz. Estas conclusões enfatizam a necessidade de quadros de avaliação abrangentes para melhorar a validade dos LLMs.

A conclusão

A tabela de classificação focada em FACTS faz uma contribuição significativa para enfrentar os desafios dos fatos nos LLMs. Com foco no contexto e na precisão factual, fornece uma estrutura sistemática para testar e melhorar o desempenho do modelo. Esta etapa não apenas demonstra as capacidades atuais, mas também serve como base para pesquisas futuras sobre fundamento e validade. À medida que os LLMs continuam a desenvolver-se, ferramentas como o FACTS Grounding Leaderboard serão essenciais para promover a sua credibilidade, especialmente em domínios de alto valor onde a precisão e a fiabilidade são importantes.

Confira eu Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.

Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.

✅ [Recommended Read] Nebius AI Studio se expande com modelos de visão, novos modelos de linguagem, incorporados e LoRA (Aprimorado)

Source link

Especificações Técnicas e Aplicações Práticas

Resultados e Observações

A conclusão

Você também pode gostar...

Desvendando a memória de Schrödinger: abordagens de memória dinâmica para modelos de linguagem baseados em transformadores

Pesquisadores de Stanford apresentam UniTox: um conjunto de dados integrado de 2.418 medicamentos aprovados pela FDA com resumos e estimativas de toxicidade induzida por medicamentos usando GPT-4o para processar rótulos de medicamentos da FDA

Permite que a IA explique suas previsões em linguagem simples | Notícias do MIT

Deixe um comentário Cancelar resposta