O desejo de acelerar a descoberta científica com a IA está ansiosa pela aparição de Oak Ridge para pipelines automáticos retornados em 1979. Revitalizando as AIs que funcionam bem para resenhas de livros, criando hipóteses, testes de construção, analisam os efeitos e produzem documentos científicos. Além disso, eles podem enviar as flutuações científicas alterando tarefas repetidas, permitindo que os investigadores se concentrem no trabalho mais alto. No entanto, apesar dessas promessas, o estudo da manutenção da IA é sempre um desafio devido à falta de bancos comuns pode avaliar adequadamente suas várias habilidades em todas as suas várias habilidades.
Estudos recentes experimentaram esse espaço, informando os bancos de teste da AIS em várias operações de software e atividades de aprendizado em língua de máquina. Enquanto a estrutura está nos testes de agentes de IA em problemas bem definidos, como a produção e a criação de modelos, muitos bancos não suportam totalmente os desafios de pesquisa abertos, onde muitas soluções surgem. Além disso, essas estruturas geralmente carecem de flutuações em uma variedade de alturas de pesquisa, como algoritmos com o romance, estruturas de modelos ou previsões. Para promover a IA, é necessário testar programas que incluam trabalhos de transmissão, facilitem os exames com diferentes algoritos de aprendizado e para acomodar vários métodos de doações de pesquisa. Ao estabelecer tais estruturas, o campo pode melhorar de perto os sistemas de IA que são independentes da independência.
Investigadores da University College London, Universidade de Wisconsin-Madison, Universidade de Oxford, Meta e outras instalações lançaram uma nova estrutura e o banco de testes e melhorando os agentes cristãos. Este programa, o primeiro ML National Gym Functions, ajuda a estudar as estratégias de treinamento da RL para os agentes IA. Bench, MLGYM-banco, inclui 13 empregos possivelmente concluídos, PNL, RL e teoria dos jogos, requer verdadeiras habilidades de pesquisa no mundo. A estrutura separa as habilidades do agente de resean, com o banco de MLGYM para se concentrar no nível 1: desenvolvimento da linha de base, onde o LLMS está se preparando para modelos científicos, mas não possui documentos científicos, mas não.
MLGYM O sistema foi projetado para avaliar e desenvolver agentes de LM nas atividades de pesquisa de ML, permitindo a natureza da concha usando instruções consecutivas para instruções consecutivas. Ele contém quatro componentes importantes: agentes, natureza, conjuntos de dados e empregos. Os agentes emitiram as instruções do Bash, gerenciarem histórico e integrar modelos estrangeiros. A natureza fornece um ambiente de trabalho seguro com base no Docker com acesso controlado. Os bancos de dados são descritos separadamente e atividades, permitindo reutilizar todos os exercícios. As atividades incluem documentos de avaliação e configuração de vários desafios de ML. Além disso, o MLGYM oferece a busca de livros, lojas de memória e verificação eficaz, para garantir uma conversão eficaz e desempenho harmonioso da IA.
Esta lição usa o modelo SWE-Agent, projetado para a natureza do MLGYM, seguindo um loop para tomar decisões tomadas em grande estilo. AMAMODELI AMAHLANU-E-ART-AURT-AURT-ART, GEMINI 1.5 Pro, Claude-3,5 Sonetos, LLAMA-3-405B-UKUFUNDISA, KANYE NE-GPT-4O-AHLOLLOLWE NGAPHANSI KWEZILUNGISELOLOLO-JAYEKILILE. Trabalhando testado usando pontuações de AUP e perfis de operação, comparando modelos com base no melhor esforço e nas melhores métricas de importação. O OpenAI O1-PREVIEW tem acesso ao desempenho mais alto, por Gemini 1.5 Pro e Claude-3.5, seguidos. Os estudos destacam os perfis eficazes como um método eficaz de avaliação, indicando que as visualizações abertas de O1 atingem entre modelos altos em várias atividades.
Em conclusão, a lição enfatiza as chances e os desafios do uso do LLMS como uma agência científica. Mlgym e Mlgymbezung desencadeia o acordo nos convertidos em várias medidas de medição, mas expressando melhora. Expandir em toda a ML, a avaliação integrada geral, bem como avaliar a boa personalidade científica são importantes instalações de crescimento. A lição enfatiza a importância da abertura de dados para melhorar a interação e a obtenção. À medida que a pesquisa da IA continua, o desenvolvimento nos métodos de consulta, edifícios de agentes e avaliação será importante. A cooperação interdiciiplinar pode garantir que os agentes da IA acelerem a descoberta científica, mantendo a reciclagem, a verificação e a integridade.
Enquete Página e papel do github. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, fique à vontade para segui -lo Sane E não se esqueça de se juntar ao nosso 80k + ml subreddit.
🚨 Pesquisa recomendada recomendada para nexo

Sana Hassan, um contato em Marktechpost com um aluno do estudante de dual-grau no IIIT Madras, adora usar a tecnologia e a IA para lidar com os verdadeiros desafios do mundo. Estou muito interessado em resolver problemas práticos, traz uma nova visão da solução de IA para a IA e soluções reais.
🚨 Plataforma de IA de código aberto recomendado: 'Interestagente Sistema de código aberto com várias fontes para testar o sistema de IA difícil (promovido)