Os Modelos de Linguagem de Código (CodeLLMs) concentram-se muito nas funções abertas de geração de código, muitas vezes negligenciando o aspecto importante da compreensão e compreensão do código. Os métodos de teste convencionais podem precisar ser atualizados e são propensos ao vazamento de dados, levando a testes não confiáveis. Além disso, o uso prático dos CodeLLMs revela limitações como preconceitos e alucinações.
Para resolver esses problemas, um grupo de pesquisadores da FPT Software AI Center, Vietnã, Universidade de Ciência e Tecnologia de Hanói, VNU-HCM- Universidade de Ciência propôs CodeMMLU, uma questão de referência de múltipla escolha projetada para avaliar a profundidade do software e a compreensão do código em LLMs. Ao contrário dos benchmarks tradicionais, o CodeMMLU avalia a capacidade dos modelos de pensar através do código em vez de apenas aparecer, fornecendo insights mais profundos sobre sua compreensão de conceitos e sistemas complexos de software. Enfatizando a relação crítica entre a compreensão e a execução da codificação, CodeMMLU é um recurso essencial para o avanço do desenvolvimento de software assistido por IA, com o objetivo de criar assistentes de codificação confiáveis e competentes.
CodeMMLU fornece um método robusto e facilmente testável com dois recursos principais:
- Entendimento: CodeMMLU contém mais de 10.000 perguntas selecionadas de vários recursos. CodeMMLU é imparcial porque o conjunto de dados é extenso e não há escopo de seleção.
- Diversidade de trabalho, formação e idioma: o conjunto de dados abrange uma ampla gama de conhecimentos de software, incluindo controle de qualidade geral, geração de código, detecção de erros e manutenção de código em mais de 10 domínios e linguagens de programação.
CodeMMLU destaca o impacto de fatores como tamanho do modelo, família de modelos e métodos de entrada. Ele fornece informações valiosas à comunidade sobre a aplicação bem-sucedida de LLMs em carreiras e áreas específicas da engenharia de software.
Está dividido em duas categorias principais. Primeiros conjuntos de testes baseados em conhecimento contendo tarefas sintáticas e semânticas, e segundos problemas de programação do mundo real. Conjunto baseado em conhecimento cobre uma ampla gama de tópicos, desde princípios de software de alto nível até linguagens de programação de baixo nível. Vários MCQs relacionados ao programa são coletados de fontes de alta qualidade, como GeeksforGeeks W3Schools.
É ainda dividido no conjunto Sintático, que se concentra na gramática de programação como um formato para replicar o uso da biblioteca. Ao mesmo tempo, a Semântica é mais orientada para algoritmos, OOPS e estruturas de dados. Um modelo de aprendizagem profunda filtra questões irrelevantes ou de baixa qualidade, como perguntas duplicadas ou sem sentido. As questões restantes foram refinadas usando métodos de aprendizagem práticos e intensivos.
O benchmark inclui cinco tipos de perguntas de múltipla escolha que testam as principais habilidades de codificação: conclusão de código, reparo de código, descoberta de recursos e preenchimento de lacunas.
Algumas experiências revelaram uma forte correlação entre o desempenho em tarefas baseadas no conhecimento e os desafios de codificação do mundo real. Em particular, a pontuação de correlação de Pearson r = 0,61 entre as classificações do modelo em um conjunto de testes de conhecimento e seu desempenho em problemas do mundo real, derivado da precisão de 43 LLMs em 10 famílias de modelos, mostrou concordância moderada e mostrou que uma compreensão profunda dos princípios de software é consistentemente bem-sucedida na codificação do mundo real tarefas. . Além disso, a precisão do LLM varia entre diferentes permutações ( Δ𝜎 = 36,66), o que mostra o quão crítico pode ser na concepção e organização das respostas.
Concluindo, os CodeMMLUs relacionam fortemente o conhecimento de software com o desempenho no mundo real. CodeMMLU fornece os padrões mais precisos e detalhados para LLMs, especialmente para modelos de código aberto. Focando na compreensão e não apenas na geração, ele fornece uma avaliação flexível e abrangente das capacidades do modelo em uma ampla gama de conhecimentos de software e tarefas de programação do mundo real. No entanto, existem limitações, como questões de múltipla escolha, que não podem testar totalmente a capacidade de um modelo de codificar de forma criativa. Além disso, o benchmark pode incluir áreas especiais adicionais de desenvolvimento de software para testar variações do modelo. Em trabalhos futuros, os pesquisadores planejam focar na adição de tarefas mais complexas e refinar o equilíbrio entre situações do mundo real e conhecimento teórico.
Confira Papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)
Nazmi Syed é estagiária de consultoria na MarktechPost e está cursando bacharelado em ciências no Instituto Indiano de Tecnologia (IIT) Kharagpur. Ele tem uma profunda paixão pela Ciência de Dados e está explorando ativamente a ampla aplicação da inteligência artificial em vários setores. Fascinada pelos avanços tecnológicos, a Nazmi está comprometida em compreender e aplicar inovações de ponta em situações do mundo real.