A Inteligência Artificial está avançando exponencialmente e os Modelos Avançados de Linguagem demonstraram uma capacidade incrível de compreender a entrada de texto humana. Além da simples análise de texto e geração de código, os LLMs têm mostrado resultados promissores no desenvolvimento de software. No entanto, com o aumento da complexidade, fornecer testes de qualidade de código torna-se um desafio. Este artigo tem como objetivo apresentar o CodeJudge, que pode resolver esse problema de avaliação de código com uma estrutura robusta.
Testes unitários e revisões manuais de código foram usados para garantir a funcionalidade do código. Esses métodos são geralmente independentes e limitados ao nível da sintaxe e da estrutura do código. No entanto, muitas vezes há problemas como erros lógicos ou desempenho abaixo do esperado, levando a uma análise muito superficial. Além disso, o código gerado não é validado em um ambiente separado, o que limita seu uso. Além disso, o teste manual pode levar mais tempo e menos integração ao teste geral.
Uma equipe de pesquisadores da Universidade de Ciência e Tecnologia Huazhong e da Universidade Purdue apresentou o CodeJudge para tornar a solução ainda melhor, permitindo um design automático e em múltiplas camadas, o que permitirá que os problemas do sistema sejam analisados mais profundamente. Também pode servir como uma forma de fornecer uma visão geral da qualidade do código e verificar se ele satisfaz ou não a sintaxe e tem a forma correta de pensar, utilizando uma série de dimensões. Esta é uma sugestão muito boa e cobre muitos problemas relacionados ao teste de código.
A estrutura segue um processo de duas etapas: a primeira é a correspondência de sintaxe e a segunda é o alinhamento de acordo com a entrada do usuário final. Seguir essas etapas é verificar o código testando-o em vários ambientes para melhorar o desempenho geral. Além disso, quanto aos critérios de desempenho, estão incluídas a medição do tempo de execução do código e a quantidade de memória utilizada no processo. A abordagem geral de análise estática e dinâmica do código foi testada e considerada útil no controle da área do problema.
Outros testes realizados em vários LLMs revelaram 25% de erros cognitivos perdidos por testes unitários padrão. Testes rigorosos são realizados em muitos problemas que envolvem desafios algorítmicos em aplicações do mundo real. Vários modelos de geração de código foram usados para testar a robustez do modelo.
Concluindo, esta estrutura provou ser eficaz para testar trechos de código. Tanto a solidez estrutural como a lógica profunda receberam igual importância, transcendendo as limitações dos métodos tradicionais. Esta abordagem é mais abrangente, mas apresenta uma desvantagem devido à sua dependência de testes predefinidos que limitam a flexibilidade de estilos de codificação não padronizados. Esta pesquisa fornece uma ferramenta importante para melhorar a qualidade e a confiabilidade do código produzido pelo LLM e dos fluxos de trabalho de desenvolvimento de software.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.
[Upcoming Live Webinar- Oct 29, 2024] Melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (avançado)
Afeerah Naseem é estagiária de consultoria na Marktechpost. Ele está cursando bacharelado em tecnologia no Instituto Indiano de Tecnologia (IIT), Kharagpur. Ele é apaixonado por Ciência de Dados e fascinado pelo papel da inteligência artificial na resolução de problemas do mundo real. Ele adora descobrir novas tecnologias e explorar como elas podem tornar as tarefas diárias mais fáceis e eficientes.