Pesquisadores da JetBrains apresentam CoqPilot: um plug-in para geração de provas baseada em LLM

Nos últimos anos, a verificação formal de software ganhou destaque, especialmente em áreas onde a confiabilidade do software é importante, como engenharia aeroespacial, finanças e saúde. Assistentes de prova como Coq contribuíram para a validação de software, permitindo que os desenvolvedores criassem provas matemáticas para validar seu código. No entanto, redigir tais provas legais é uma tarefa difícil e demorada, que requer muita experiência. Este desafio levou à necessidade de ferramentas automatizadas que possam simplificar a produção de provas, reduzir erros e acelerar o processo.

Os pesquisadores da JetBrains introduziram o CoqPilot, uma extensão do VS Code que automatiza a geração de provas Coq. O CoqPilot coleta evidências incompletas, conhecidas como buracos de evidência, marcadas com admit estratégia em arquivos Coq e utiliza LLMs e métodos tradicionais para gerar possíveis soluções. Em seguida, verifica se a prova gerada está correta, retornando automaticamente a porta de prova se for bem-sucedida. O foco do CoqPilot é duplo: fornecer uma experiência perfeita para desenvolvedores que trabalham com Coq, integrando vários métodos de produção e criando uma plataforma de teste com geração de provas Coq baseada em LLM. O CoqPilot requer configuração mínima, tornando-o acessível a usuários interessados em autenticação formal sem exigir configuração extensa da ferramenta.

Tecnicamente, a arquitetura do CoqPilot é modular, projetada para acomodar uma variedade de métodos de geração de evidências. Inclui LLMs populares como GPT-4 e GPT-3.5, bem como ferramentas de automação como CoqHammer e Tactician, permitindo aos usuários combinar vários métodos. CoqPilot fornece serviços como prova de conceito e conclusão usando diferentes parâmetros de modelo, incluindo design rápido e configurações de temperatura de LLMs. Sua natureza modular facilita a adaptação a novos modelos ou linguagens diferentes do Coq. O CoqPilot também lida com a geração de provas de forma amigável, permitindo que buracos de prova sejam resolvidos automaticamente e, se necessário, usando múltiplas rodadas de tratamento de erros e também tentando melhorar a exatidão da prova gerada.

O valor do CoqPilot reside na sua capacidade de melhorar significativamente a eficiência da geração de evidências para os usuários do Coq. Em sua análise, os pesquisadores da JetBrains testaram vários LLMs, incluindo GPT-4, GPT-3.5, Anthropic Claude e LLaMA-2, comparando seu desempenho na geração de evidências para Coq. Os resultados foram promissores: o GPT-4, combinado com o CoqPilot, produziu com sucesso 34% de evidências, enquanto um esforço combinado usando vários modelos comprovou 39% de crenças em seu conjunto de dados. Além disso, a integração do CoqPilot com ferramentas como Tactician e CoqHammer melhorou ainda mais o seu desempenho, com uma taxa de sucesso global de 51% quando todas as ferramentas disponíveis foram utilizadas. Esses resultados demonstram o poder do CoqPilot para simplificar o processo de redação de provas, permitindo que os desenvolvedores se concentrem em questões mais importantes enquanto o plugin lida com tarefas repetitivas.

Concluindo, o CoqPilot representa um avanço significativo na automatização do processo de geração de evidências para usuários do Coq. Ao utilizar LLMs e integrar várias ferramentas de geração de evidências, o CoqPilot não apenas reduz o tempo e o esforço necessários para a verificação formal, mas também melhora a qualidade das evidências. Sua estrutura modular e suporte à caixa de ferramentas o tornam uma excelente escolha para desenvolvedores e pesquisadores que buscam automatizar processos formais de validação. Com a sua capacidade de trabalhar perfeitamente com vários modelos e ferramentas, o CoqPilot fornece uma solução robusta para os desafios associados à geração de provas legais, tornando-o uma ferramenta inestimável para aqueles que trabalham em domínios de confiança de software e garantia legal.

Confira Repositório GitHub de novo Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Trending] LLMWare apresenta Model Depot: uma coleção abrangente de modelos de linguagem pequena (SLMs) para PCs Intel

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Google AI apresenta LAuReL (camada residual aumentada aprendida): transformando redes neurais com conectividade residual aprimorada para modelagem eficiente

O aprendizado de máquina encontra a física: o argumento para o Prêmio Nobel de 2024

Pleias apresenta Common Corpus: um grande conjunto de dados multilíngues para treinamento de modelos de linguagem

Deixe um comentário Cancelar resposta