Expondo vulnerabilidades em benchmarks automatizados de LLM: a necessidade de fortes mecanismos anti-trapaça

Benchmarks automatizados como AlpacaEval 2.0, Arena-Hard-Auto e MTBench ganharam popularidade na avaliação de LLMs devido à sua acessibilidade e escalabilidade em comparação com a avaliação humana. Esses benchmarks usam anotações automáticas baseadas em LLM, que estão bem alinhadas com as preferências humanas, para fornecer avaliação oportuna de novos modelos. No entanto, as taxas máximas de ganho nestes benchmarks podem ser alteradas alterando a duração ou o estilo da saída, embora tenham sido tomadas medidas para controlar estes factores. Isto levanta a preocupação de que os adversários possam utilizar estas medidas propositadamente para aumentar o impacto das promoções e enganar a análise de desempenho.

Testar a produção de texto aberto é um desafio porque apenas uma saída correta é necessária. A avaliação humana é confiável, mas cara e demorada, por isso os LLMs são frequentemente usados como avaliadores para tarefas como feedback de IA, resumo e identificação de hipóteses. Benchmarks recentes, como G-eval e AlpacaEval, sugerem LLMs para avaliar o desempenho do modelo de forma eficaz. No entanto, estão surgindo contra-ataques aos testes baseados em LLM, que permitem a manipulação de alertas irrelevantes ou sequências melhoradas para distorcer os resultados. Embora existam proteções como reescritas rápidas, os adversários continuam a encontrar maneiras de explorar essas vulnerabilidades, destacando a necessidade de métodos de teste mais robustos.

Pesquisadores do Sea AI Lab e da Singapore Management University mostraram que mesmo um “modelo nulo” que produz respostas insignificantes e consistentes pode alterar benchmarks automatizados de LLM, como AlpacaEval 2.0, Arena-Hard-Auto e MT-Bench para taxas de vitória mais altas. . Ao explorar os pontos fracos nas anotações automatizadas, como o GPT-4, as respostas sistemáticas ao plágio podem atingir taxas de vitória de 86,5%. Embora a sua investigação seja uma prova de conceito, mostra o potencial dos adversários utilizarem LLMs para realizar técnicas de manipulação subtis para obter benefícios promocionais ilegais. Este estudo enfatiza a necessidade urgente de métodos anti-cheat para garantir a confiabilidade dos benchmarks automatizados de LLM.

O estudo apresenta um método para manipular anotações automáticas usadas para avaliar resultados de LLM. Esta abordagem combina duas técnicas principais de plágio: respostas sistemáticas de plágio e primers contra-intuitivos gerados por pesquisas aleatórias. Foram criadas respostas sistemáticas de plágio para corresponder aos critérios de avaliação, utilizando modelos de pontuação e anotações automatizadas. Enquanto isso, prefixos contraditórios são sistematicamente inseridos no início das respostas para influenciar o sistema de pontuação. Essas técnicas, testadas em sistemas como o AlpacaEval 2.0, aumentam significativamente as taxas de vitória, mostram como os métodos de avaliação podem ser facilmente manipulados e destacam os riscos nos programas de orientação LLM.

Extensas pesquisas sobre ablação são feitas em anotadores automáticos de código aberto, especialmente os modelos Llama-3-Instruct (parâmetros 8B, 70B). Esses modelos demonstraram capacidades de avaliação em nível humano semelhantes ao ChatGPT e GPT-4. O método de resposta fixa teve pouco efeito no modelo Llama-3-8B, mas o Llama-3-70B mostrou um forte viés de orientação, especialmente nas configurações modificadas. A busca aleatória aumentou significativamente as taxas de vitória para ambos os modelos, com Llama-3-8B aumentando de 2,9% para 95,4% e Llama-3-70B de 0,4% para 95,1%, destacando o desempenho como a melhor forma de melhorar o desempenho de trapaça.

Concluindo, o estudo mostra que mesmo “modelos vazios”, que sempre dão respostas não significativas, podem explorar pontos fracos em benchmarks automatizados de LLM e alcançar altas taxas de vitória, como 86,5% no AlpacaEval 2.0. Esses benchmarks, incluindo Arena-Hard-Auto e MT-Bench, são econômicos para testar modelos de linguagem, mas são vulneráveis à falsificação. O estudo ressalta a necessidade de métodos anti-cheat robustos para garantir a confiabilidade dos testes de modelo. Os trabalhos futuros devem concentrar-se em métodos automatizados para gerar resultados que sejam defesas robustas e robustas, uma vez que as técnicas actuais, como o controlo do comprimento e estilo da saída, são insuficientes.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit

[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)

Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.

Source link

Você também pode gostar...

Logic-of-Caught: Aprimorando o raciocínio lógico em modelos de grandes linguagens, estendendo a lógica proposicional

Difusão discreta com remoção de ruído planejada (DDPD): uma nova estrutura de aprendizado de máquina para decompor um processo de geração discreta em planejamento e remoção de ruído

FTP do modelo de previsão de token futuro: um novo método de treinamento de IA para preditores futuros de vários tokens

Deixe um comentário Cancelar resposta