OpenIAI apresenta SWE-Lancer: um banco de teste de modelo em engenharia de engenharia de software do mundo real

Lidando com os desafios que despertam na engenharia de software primeiro, vendo os bancos tradicionais que geralmente caem. O software Software The World Freakaven é complexo, envolvendo mais do que atividades de codificação. Engenheiros independentes se aplicam a todos os códigos, combinam diferentes sistemas e tratam requisitos complexos de atendimento ao cliente. Métodos de testes gerais, que enfatizam os testes de unidade, tomando aspectos sensíveis como operação de pilha completa e o impacto financeiro real das soluções. Essa lacuna entre a avaliação do desempenho e a aplicação prática emitiu a necessidade de métodos de avaliação de som.

OpenIAI Introduce Swe-Lancer, um banco de testes de modelo na engenharia de engenharia de software do mundo real. O banco é baseado em mais de 1.400 trabalhos magníficos recebidos do Upwork e mais repositório, pelo pagamento total de US $ 1 milhão. As atividades variam desde a preparação de pequenos insetos até o fato de facilitar a execução. O SWE-Lancer foi projetado para verificar o código do código e as opções administrativas, onde os modelos são obrigados a selecionar a melhor sugestão de várias opções. Essa abordagem melhor mostra duas funções encontradas em grupos de engenharia reais.

Um dos principais poder do Swer-Lancer é o uso no final das extremidades finais, em vez de um teste de unidade. Esses testes são cuidadosamente projetados e garantidos com engenheiros de software treinados. Diga a todos o usuário que funciona com o desempenho do usuário da identificação e corrigindo o erro na qualidade do pool. Usando uma imagem mista de documentos, o benchmark confirma que todo o modelo é testado sob controle semelhante. Esta lista de testes difíceis ajuda a expressar que a solução de modelo pode ser suficientemente forte na entrega aplicável.

Os detalhes técnicos do SWE-Lancer são projetados para indicar os fatos do trabalho freelancer. Os trabalhos exigem vários arquivos e combinações com APIs e pegam plataformas móveis e web. Além de produzir patches de código, os modelos são desafiados a revisar e escolher entre recomendações competitivas. Esse foco nas habilidades e gestão tecnológica reflete os fatores de engenharia de solidol verdadeiros. O instrumento do usuário simboliza as interações reais do usuário promove a inspeção, promovendo reparos e reparos de erros.

Os resultados do SWE-Lancer fornecem um entendimento valioso dos modelos de idiomas atuais na engenharia de software. Em atividades provinciais individuais, modelos como GPT-4O e Claude 3,5 sonetos alcançaram 8,0% e 26,2%. Nas atividades administrativas, o melhor modelo atingiu um nível de aprovação de 44,9%. Esses números sugerem que, embora os modelos do país-arte do the-theert possam fornecer soluções promissoras, ainda existe um ambiente visível. Testes extras indicam que permitir muitas tentativas ou melhorar a avaliação do tempo pode melhorar a eficiência, especialmente em atividades muito difíceis.

Em conclusão, o SWE-Lancer retrata a maneira atenciosa e lógica de testar a IA do engenheiro de software. Ao vincular diretamente o desempenho do modelo em valor monetário real e sublinhar todos os desafios, o benchmark fornece a imagem mais precisa do modelo ativo. Este trabalho promove movimentos para longe do teste métrico realizado no teste, mostrando os fatos econômicos e técnicos da tecnologia. À medida que o campo continua a aparecer, o SWE-Lancer trabalha como uma ferramenta importante para pesquisadores e médicos, fornece uma compreensão clara das limitações atuais e dos possíveis processos. Finalmente, o benchmark ajuda a desativar a combinação segura e eficaz de IA no processo de engenharia de software.

Enquete o papel. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, fique à vontade para segui -lo Sane E não se esqueça de se juntar ao nosso 75k + ml subreddit.

🚨 Pesquisa recomendada recomendada para nexo

O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.

🚨 Plataforma de IA de código aberto recomendado: 'Interestagente Sistema de código aberto com várias fontes para testar o sistema de IA difícil (promovido)

Source link

Você também pode gostar...

Estude para editar um 7b 7b de qlora usando axlotl com treinamento eficaz de LLM

Para criar uma poderosa equipe de tarefas de IA usando o banco de dados Vector e o GRAQ para reembolso (RAG): guia passo a passo

Alibaba acaba de lançar Marco-o1: promovendo inteligência aberta em IA

Deixe um comentário Cancelar resposta