Pesquisadores da OpenAI apresentam benchmark MLE: um novo benchmark para medir a eficácia de agentes de IA em engenharia de aprendizado de máquina
Inteligência artificial

Pesquisadores da OpenAI apresentam benchmark MLE: um novo benchmark para medir a eficácia de agentes de IA em engenharia de aprendizado de máquina


Os modelos de aprendizado de máquina (ML) mostraram resultados promissores em várias tarefas de codificação, mas ainda há uma lacuna na medição bem-sucedida das capacidades dos agentes de IA na engenharia de ML. Os benchmarks de codificação existentes testam principalmente habilidades de codificação discretas, sem medir totalmente a capacidade de executar tarefas complexas de ML, como preparação de dados, treinamento de modelo e depuração.

Pesquisadores da OpenAI apresentam benchmark MLE

Para colmatar esta lacuna, os investigadores da OpenAI desenvolveram o benchmark MLE, um benchmark abrangente que testa agentes de IA numa vasta gama de desafios de engenharia de ML inspirados em cenários do mundo real. O benchmark MLE é um novo benchmark que visa testar quão bem os agentes de IA podem executar a engenharia de aprendizado de máquina. Ele foi construído usando uma coleção de 75 competições de engenharia de ML disponíveis na Kaggle. Essas competições cobrem diversos domínios, como processamento de linguagem natural, visão computacional e processamento de sinais. As competições são cuidadosamente selecionadas para testar as principais habilidades de ML, incluindo modelos de treinamento, pré-processamento de dados, execução de experimentos e envio de resultados para avaliação. Para fornecer uma linha de base precisa, as métricas de desempenho humano são coletadas das tabelas de classificação publicamente disponíveis do Kaggle, permitindo comparações entre as habilidades dos agentes de IA e dos participantes humanos especialistas.

Estrutura e detalhes da bancada MLE

A bancada MLE inclui vários recursos de design para testar com eficácia a engenharia de ML. Cada uma das 75 tarefas competitivas do Kaggle representa desafios de engenharia do mundo real, tornando o benchmarking dinâmico e realista. Cada competição Kaggle na bancada MLE consiste em uma descrição do problema, um conjunto de dados, ferramentas de avaliação locais e código de classificação usado para avaliar o desempenho do agente. Para garantir a comparabilidade, o conjunto de dados de cada competição é dividido em conjuntos de treino e de teste, que são frequentemente reconstruídos para evitar qualquer sobreposição ou problemas de contaminação. As postagens são avaliadas em relação aos esforços humanos por meio de tabelas de classificação competitivas, e os agentes recebem medalhas (bronze, prata, ouro) com base em seu desempenho em relação a benchmarks humanos. O método de classificação depende de métricas de avaliação padrão, como a área sob a característica operacional do receptor (AUROC), erro quadrático médio e outras funções de perda específicas do domínio, que fornecem uma comparação justa com os participantes do Kaggle. Agentes de IA, como o modelo de visualização o1 da OpenAI integrado ao framework AIDE, foram testados nessas tarefas, obtendo resultados comparáveis ​​à medalha de bronze Kaggle em 16,9% das competições. O desempenho melhorou significativamente com tentativas repetidas, indicando que embora os agentes sejam capazes de seguir caminhos conhecidos, eles lutam para se recuperar dos erros iniciais ou ter um bom desempenho sem repetições repetidas. Isso destaca os pontos fortes e as limitações dos atuais sistemas de IA na execução de tarefas complexas de engenharia de ML.

Resultados de testes e análise de desempenho

O teste de diferentes estruturas e modelos de IA na bancada MLE revela descobertas interessantes. O modelo de visualização o1 da OpenAI com andaimes AIDE emergiu como a configuração mais eficiente, ganhando prêmios em 16,9% das competições, e o desempenho melhorou significativamente na maioria das tentativas. Os agentes tendem a ter um melhor desempenho ao iterar as suas soluções, destacando a importância das múltiplas passagens na abordagem dos desafios e no desenvolvimento de soluções. Ao receberem mais recursos, como aumento de tempo de computação e hardware, os agentes apresentaram melhores resultados, enfatizando o efeito da alocação de recursos. Por exemplo, o desempenho do GPT-4o dobrou de 8,7% quando administrado por 24 horas para 11,8% quando administrado por 100 horas por competição. Além disso, o teste revelou que o aumento do número de tentativas (pass@k) teve um efeito significativo na taxa de sucesso, com o pass@6 atingindo quase o dobro do desempenho do pass@1. Além disso, experimentos de escalonamento de recursos e estruturas de agentes mostram variações no desempenho com base na disponibilidade de recursos e estratégias de otimização. Em particular, agentes como o o1 preview mostraram melhorias significativas em competições que exigem extenso treinamento de modelo e ajuste de parâmetros quando recebem tempos de execução mais longos ou melhores configurações de hardware. Esses testes fornecem informações valiosas sobre os pontos fortes e fracos dos atuais agentes de IA, especialmente na depuração, no tratamento de conjuntos de dados complexos e no uso eficaz dos recursos disponíveis.

Conclusão e direções futuras

O benchmark MLE representa um avanço significativo no teste das capacidades de engenharia de ML dos agentes de IA, concentrando-se em métricas de desempenho holísticas de ponta a ponta, em vez de habilidades de codificação isoladas. O benchmark fornece uma estrutura robusta para testar vários aspectos da engenharia de ML, incluindo pré-processamento de dados, treinamento de modelo, ajuste multiparâmetro e depuração, que são importantes em aplicações de ML do mundo real. O objetivo é facilitar pesquisas futuras para compreender os pontos fortes e as limitações dos agentes de IA na automação de tarefas de engenharia de ML. Ao abrir o código-fonte do benchmark MLE, a OpenAI espera incentivar a colaboração, permitir que pesquisadores e desenvolvedores contribuam com novas funcionalidades, melhorem os benchmarks existentes e testem técnicas de andaimes. Espera-se que este esforço colaborativo acelere o progresso no terreno, contribuindo, em última análise, para a implantação segura e fiável de sistemas avançados de IA. Além disso, o benchmark MLE serve como uma ferramenta importante para identificar áreas-chave onde os agentes de IA precisam de maior desenvolvimento, fornecendo uma direção clara para futuros esforços de pesquisa na melhoria das capacidades de engenharia de ML orientadas por IA.

Configurar

Alguns dados de benchmark MLE são armazenados usando Git-LFS. Depois de baixar e instalar o LFS, execute:

git lfs fetch --all
git lfs pull

Você pode instalar mlebench Com pip:

pip install -e .

Confira Papel de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit

[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)


Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *