O desenvolvimento de software de hoje lida com muitos desafios que o cancelam mais do que uma simples geração de código ou detecção de bugs. Os desenvolvedores devem ser capazes de navegar pelo código complexo, lidar com os planos da propriedade e problemas sutis que estão familiarizados com o comum de ignorar. Os métodos tradicionais da programação padrão dependem em grande parte de estratégias de aprendizado supervisionadas ou sistemas relacionados que não são facilmente internacionais. Esses métodos, embora bem -sucedidos em áreas controladas, combatem a diversidade e o ruído nos pós -condutores cotidianos. Por exemplo, puxar aplicativos nas plataformas como Githubs geralmente adicionam alterações significativas, como a formatação de dependentes de formatação ou solavancos, pode ocultar problemas básicos. Isso levou a uma refeição crescente de programas e procedimentos variáveis que podem aprender com o aparecimento de aparência completa de projetos de software e não instantâneos únicos.
A Meta AI apresenta SWE-RL: AI designada para desenvolver a capacidade de consultar grandes idiomas (LLMs) das atividades de engenharia de software do mundo real. Este método detecta informações ricas e variadas da abertura do software aberto, especialmente para aplicativos de arrasto do GitTub. Ao gravar dados completos que incluem descrições detalhadas das definições, instantâneos de arquivo de arquivo e ajustes correspondentes (Oracle Patches), o SWE-RL permite que o modelo veja a vida útil completa do código. Essa exposição está permitindo que o modelo aprenda não apenas a reciclar, mas também entenda seus antecedentes. Ao fazer isso, o SWE-RL se afasta da diversidade de treinamento e aceitou a visão completa do desenvolvimento de software, importante para enfrentar os desafios recebidos.
Técnico e benefícios
A implementação do SWE-RL inclui uma série de etapas cuidadosas. A princípio, o processo começa com a coleção de aplicações maçantes do Gitub, extraindo de fontes como Gharchives e Clones Direct. Esses dados completos foram purificados para eliminar o som do som e as não descritos de decoração da bota-para garantir a qualidade do treinamento.
A parte principal do SWE-RL é o trabalho de exposição baseado na decisão. Em vez de passar em um sistema binário ou de falha, o método usa o Glassib.Neventatcher do Python para calcular os mesmos pontos entre o patch produzido e uma solução boa conhecida. Essa recompensa contínua, de 0 a 1, permite que o modelo encontre uma boa resposta à sua funcionalidade, aceitando certas conquistas e progride gradualmente. Se o formato do formato for produzido não atender aos padrões estabelecidos, usando uma multa, garante que a precisão da semântica e o estilo de codificação apropriado seja salvo.
A ênfase no aprendizado é usada pela Política do Grupo (GRPO), o processo que prepara previsões do modelo comparando os efeitos do mesmo problema. Essa abordagem promove o modelo para avaliar uma variedade de soluções e assumir o processo de tomar decisões. O treinamento em um modelo sólido, como a llama-3.3-70b, o ensino do GRPO é indicado para ajudar o modelo interno e um pensamento considerativo e deliberado e deliberado e deliberado. Isso resulta apenas na revista de software, mas também funciona com o primeiro domínio de treinamento, incluindo compreensão geral e entendimento matemático.

Os benefícios deste método são claros. Ao vincular dados do mundo real e fornece uma boa resposta contínua, a SWE-RL reserva o modelo para realizar melhor as empresas diárias de engenharia. A metodologia promove o equilíbrio entre as habilidades aderentes e a adesão aos padrões de codificação, tornando as soluções funcionais e bem organizadas.
Resultados e compreensão
O uso do SWE-RL revelou resultados promissores. O Modelo Seward, Illoma3-SWE-RL-70B, mostra a taxa de liquidação de 41,0% no banco de SWE confirmado-um banco artificial contém o GitTub real. Isso se aplica, obtido pelo modelo central, enfatiza o poder da competitividade, em outros casos, as competições de norma nos principais programas relevantes.
Uma análise detalhada da análise mostra que o número de reparos e renovação está em primeiro lugar, leva a um grande desenvolvimento no modelo. Embora esses pecados estejam no final, o sistema superior superior é a idéia de que uma amostragem mais ampla permite que o modelo inspecione uma ampla faixa de solução. Além disso, o uso do Gropo refere -se ao que pode ser descrito como “The Times of Ahah” durante o treinamento. Essas ocasiões mostram a capacidade do modelo de corrigir seu plano estratégico estratégico e de melhorar melhor a dificuldade da correção do código.
Outra compreensão notável do desempenho do modelo aprimorado em atividades fora do domínio. Embora treinados principalmente na solução de estratégias de software, o Lilloma3-SWE-RL-70B mostra habilidades avançadas em áreas como códigos, uso da biblioteca e uso matemático. Isso geralmente é importante, indicando que a confirmação de aprendizado usada nos dados de software pode promover habilidades dolorosas de transmissão que se estendem mais do que a primeira taxa de treinamento.

Loja
O SWE-RL identifica uma maneira positiva e ordenada de melhorar grandes modelos de sociedades do mundo real. Ao inserir os dados completos do ciclo de vida do ciclo de vida do programa de aplicação e consolidação do Gitubul Dull, esse método fornece maneiras boas e eficazes de lidar com desafios multipacizados. O uso de alternativas de aprendizado, especialmente por meio de estratégias como o GRPO, promove modelos para melhorar a capacidade profunda – o que lhes permite resolver certos problemas, mas também eliminar essas habilidades do trabalho amplo.
Resultados obtidos por LLAMA3-SWED-RL-70B, especialmente para 41,0% Resolva um chefe garantido de uma pessoa, destaque o poder do método de servir de base para o desenvolvimento futuro na preparação de software automatizado. Embora os desafios sejam deixados – como o equilíbrio contínuo, pois a pesquisa contínua continua a drenar essas estratégias, a integração do processamento de aprendizagem da engenharia de software pode ser a ferramenta mais importante para os desenvolvedores.
Em resumo, o SWE-RL inclui uma integração equilibrada de dados aplicáveis, uma resposta contínua é desenvolvida e estratégias de aprendizado avançado. Essa abordagem não se limita ao desenvolvimento do estado da codificação, mas também fornece uma estrutura de avaliação futura para quantos idiomas são alterados para a engenharia moderna.
Enquete Página e papel do github. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, fique à vontade para segui -lo Sane E não se esqueça de se juntar ao nosso 80k + ml subreddit.
🚨 Pesquisa recomendada recomendada para nexo

O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.
🚨 Plataforma de IA de código aberto recomendado: 'Interestagente Sistema de código aberto com várias fontes para testar o sistema de IA difícil (promovido)