Este artigo sobre IA apresenta o SWE-Gym: um centro de treinamento completo para agentes reais de desenvolvimento de software.
Inteligência artificial

Este artigo sobre IA apresenta o SWE-Gym: um centro de treinamento completo para agentes reais de desenvolvimento de software.


Os agentes de engenharia de software são essenciais para gerenciar tarefas complexas de codificação, especialmente para grandes ambientes de armazenamento. Esses agentes usam modelos de linguagem avançados para interpretar descrições de linguagem natural, analisar bases de código e fazer alterações. Seus programas de trabalho incluem correções de bugs, melhorias de recursos e otimizações. A eficácia destes sistemas depende da sua capacidade de lidar com desafios do mundo real, como interagir com extensas bases de dados e realizar testes para validar soluções, tornando o desenvolvimento de tais agentes ao mesmo tempo emocionante e desafiador.

A falta de instalações de formação adequadas é um dos principais desafios neste domínio. Muitos conjuntos de dados e benchmarks existentes, como SWE-Bench e R2E, concentram-se em problemas isolados ou dependem de instruções sintéticas que não representam a complexidade das tarefas de codificação do mundo real. Por exemplo, embora o SWE-Bench forneça casos de teste para validação, seu conjunto de dados de treinamento não contém executáveis ​​e configurações de dependência. Essas diferenças limitam o uso de benchmarks existentes para treinar agentes que possam enfrentar desafios de engenharia de aplicações menos exigentes em termos computacionais.

Os esforços para enfrentar estes desafios basearam-se anteriormente em ferramentas como HumanEval e APPS, que apoiam avaliações de empregos individuais, mas não incorporam a complexidade ao nível da base de dados. Muitas vezes, essas ferramentas não possuem o vínculo entre definições de problemas de linguagem natural, bases de código executáveis ​​e estruturas de teste abrangentes. Como resultado, existe uma necessidade urgente de uma plataforma que possa preencher estas lacunas, fornecendo funcionalidades do mundo real em ambientes funcionais e utilizáveis.

Pesquisadores da UC Berkeley, UIUC, CMU e Apple criaram o SWE-Gym, um novo ambiente projetado para treinar agentes de engenharia de software. SWE-Gym inclui 2.438 funções Python retiradas de problemas do GitHub em 11 repositórios, fornece executáveis ​​pré-configurados e casos de teste validados por especialistas. Esta plataforma apresenta uma abordagem muito valiosa ao combinar a complexidade das tarefas do mundo real com métodos de teste automatizados, criando um ecossistema de treinamento mais eficiente para modelos de linguagem.

A metodologia SWE-Gym concentra-se na replicação de cenários de codificação do mundo real. As tarefas são retiradas de problemas do GitHub e combinadas com resumos de repositório e testes de unidade correspondentes. As dependências de cada função são cuidadosamente configuradas, o que garante a precisão da área útil. Essa configuração foi verificada manualmente por meio de procedimentos rigorosos envolvendo aproximadamente 200 horas de anotação humana e 10.000 horas de CPU, resultando em um conjunto de dados de treinamento robusto. Os pesquisadores também introduziram um subconjunto de 230 funções, SWE-Gym Lite, que visa problemas simples e independentes, permitindo prototipagem e testes rápidos.

A avaliação de desempenho do SWE-Gym tem demonstrado seu impacto significativo na formação de agentes de engenharia de software. Usando o modelo Qwen-2.5 Coder, agentes bem ajustados alcançaram melhorias significativas na resolução de tarefas nos benchmarks SWE-Bench. Especificamente, as taxas de resolução aumentaram de 20,6% para 32,0% no SWE-Bench Verified e de 15,3% para 26,0% no SWE-Bench Lite. Esses ganhos representam um salto significativo em relação aos benchmarks anteriores para modelos de linguagem ponderados abertos. Além disso, os agentes apoiados pelo SWE-Gym reduziram as taxas de falha em situações de travamento em 18,6% e melhoraram as taxas de conclusão de tarefas em ambientes do mundo real.

Os pesquisadores também testaram a escalabilidade do tempo de inferência usando um validador treinado nas trajetórias dos agentes retiradas do SWE-Gym. Essa abordagem permitiu que os agentes gerassem múltiplas trajetórias de solução para um determinado problema, selecionando as mais promissoras por meio de um modelo de recompensa. O verificador recebeu a melhor pontuação @K de 32,0% no SWE-Bench Verified, demonstrando o poder inerente de melhorar o desempenho do agente com técnicas de computação responsivas. Estes resultados enfatizam o potencial do SWE-Gym para melhorar tanto o desenvolvimento quanto o teste de agentes de engenharia de software.

O SWE-Gym é uma importante ferramenta para o desenvolvimento de pesquisas sobre agentes de engenharia de software. Abordar as limitações dos benchmarks anteriores e fornecer um ambiente escalável e realista equipa os pesquisadores com os recursos necessários para desenvolver modelos robustos capazes de resolver desafios complexos de software. Com seu lançamento de código aberto, o SWE-Gym abre caminho para um desenvolvimento significativo na área, estabelecendo novos padrões para treinamento e teste de agentes de engenharia de software.


Confira eu Papel de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimentalParticipe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.


Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.

🧵🧵 Siga-nos no X (Twitter) para pesquisas gerais sobre IA e atualizações de desenvolvimento aqui…





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *