Lidando com os desafios que despertam na engenharia de software primeiro, vendo os bancos tradicionais que geralmente caem. O software Software The World Freakaven é complexo, envolvendo mais do que atividades de codificação. Engenheiros independentes se aplicam a todos os códigos, combinam diferentes sistemas e tratam requisitos complexos de atendimento ao cliente. Métodos de testes gerais, que enfatizam os testes de unidade, tomando aspectos sensíveis como operação de pilha completa e o impacto financeiro real das soluções. Essa lacuna entre a avaliação do desempenho e a aplicação prática emitiu a necessidade de métodos de avaliação de som.
OpenIAI Introduce Swe-Lancer, um banco de testes de modelo na engenharia de engenharia de software do mundo real. O banco é baseado em mais de 1.400 trabalhos magníficos recebidos do Upwork e mais repositório, pelo pagamento total de US $ 1 milhão. As atividades variam desde a preparação de pequenos insetos até o fato de facilitar a execução. O SWE-Lancer foi projetado para verificar o código do código e as opções administrativas, onde os modelos são obrigados a selecionar a melhor sugestão de várias opções. Essa abordagem melhor mostra duas funções encontradas em grupos de engenharia reais.
Um dos principais poder do Swer-Lancer é o uso no final das extremidades finais, em vez de um teste de unidade. Esses testes são cuidadosamente projetados e garantidos com engenheiros de software treinados. Diga a todos o usuário que funciona com o desempenho do usuário da identificação e corrigindo o erro na qualidade do pool. Usando uma imagem mista de documentos, o benchmark confirma que todo o modelo é testado sob controle semelhante. Esta lista de testes difíceis ajuda a expressar que a solução de modelo pode ser suficientemente forte na entrega aplicável.
Os detalhes técnicos do SWE-Lancer são projetados para indicar os fatos do trabalho freelancer. Os trabalhos exigem vários arquivos e combinações com APIs e pegam plataformas móveis e web. Além de produzir patches de código, os modelos são desafiados a revisar e escolher entre recomendações competitivas. Esse foco nas habilidades e gestão tecnológica reflete os fatores de engenharia de solidol verdadeiros. O instrumento do usuário simboliza as interações reais do usuário promove a inspeção, promovendo reparos e reparos de erros.

Os resultados do SWE-Lancer fornecem um entendimento valioso dos modelos de idiomas atuais na engenharia de software. Em atividades provinciais individuais, modelos como GPT-4O e Claude 3,5 sonetos alcançaram 8,0% e 26,2%. Nas atividades administrativas, o melhor modelo atingiu um nível de aprovação de 44,9%. Esses números sugerem que, embora os modelos do país-arte do the-theert possam fornecer soluções promissoras, ainda existe um ambiente visível. Testes extras indicam que permitir muitas tentativas ou melhorar a avaliação do tempo pode melhorar a eficiência, especialmente em atividades muito difíceis.

Em conclusão, o SWE-Lancer retrata a maneira atenciosa e lógica de testar a IA do engenheiro de software. Ao vincular diretamente o desempenho do modelo em valor monetário real e sublinhar todos os desafios, o benchmark fornece a imagem mais precisa do modelo ativo. Este trabalho promove movimentos para longe do teste métrico realizado no teste, mostrando os fatos econômicos e técnicos da tecnologia. À medida que o campo continua a aparecer, o SWE-Lancer trabalha como uma ferramenta importante para pesquisadores e médicos, fornece uma compreensão clara das limitações atuais e dos possíveis processos. Finalmente, o benchmark ajuda a desativar a combinação segura e eficaz de IA no processo de engenharia de software.
Enquete o papel. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, fique à vontade para segui -lo Sane E não se esqueça de se juntar ao nosso 75k + ml subreddit.
🚨 Pesquisa recomendada recomendada para nexo

O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.
🚨 Plataforma de IA de código aberto recomendado: 'Interestagente Sistema de código aberto com várias fontes para testar o sistema de IA difícil (promovido)