Modelos instrucionais em larga escala (LLMs) redefiniram o processamento de linguagem natural (PNL), proporcionando melhorias significativas na geração de respostas coerentes e conscientes do contexto. No entanto, permanece um desafio premente: o acesso a conjuntos de dados de resposta de comando de alta qualidade, diversificados e específicos para cada tarefa. As abordagens tradicionais de planejamento de ensino geralmente dependem de conjuntos de dados selecionados cujo desenvolvimento é caro e demorado. Além disso, esses conjuntos de dados podem não ter a amplitude e a profundidade necessárias para abordar adequadamente os LLMs em muitos domínios, incluindo edição de texto, escrita criativa e codificação. Esta limitação impede a distribuição de LLMs otimizados para uso prático, deixando uma lacuna na obtenção de flexibilidade e padronização.
Para enfrentar esses desafios, a Microsoft Research lançou um conjunto de dados significativo de um milhão de pares de respostas artificiais, apropriadamente nomeados. Instrução do Agente-1M-v1. Este conjunto de dados, gerado usando a nova estrutura AgentInstruct, representa uma coleção de tarefas totalmente executadas. Abrangendo diversas habilidades, como edição de texto, escrita criativa, codificação e compreensão de leitura, este conjunto de dados é um avanço significativo para permitir o ajuste instrucional de modelos básicos de linguagem. Usando sementes de texto da web disponíveis publicamente, a Microsoft Research cria um corpus que não é apenas extensível, mas também representativo de casos de uso do mundo real.
AgentInstruct-1M-v1 serve como um subconjunto de um conjunto de dados maior que inclui aproximadamente 25 milhões de pares instrução-resposta. Notavelmente, este grande conjunto contribuiu para o pós-treinamento do modelo Mistral-7b, que resultou no desenvolvimento. Orca-3-Mistral modelo. Esses conjuntos de dados sintéticos abordam o duplo problema de escala e diversidade, fornecendo uma base sólida para melhorar o desempenho do LLM em benchmarks.
Detalhes técnicos e benefícios
A estrutura AgentInstruct, a espinha dorsal deste conjunto de dados, combina pares instrução-resposta processando sementes de script da web. Esta abordagem garante escalabilidade, permitindo a geração de grandes conjuntos de dados sem intervenção manual. Os dados resultantes incluem uma rica variedade de atividades e notificações, capturando nuances nos domínios artístico, técnico e matemático.
O uso mais notável do conjunto de dados é seu papel no treinamento Orca-3-Mistralderivado de Mistral-7b. Comparado ao seu antecessor, o Orca-3-Mistral apresenta melhorias de desempenho impressionantes em vários benchmarks. Os principais benefícios incluem uma melhoria de 40% em AGIEval (Avaliação de Inteligência Geral), 19% em MMLU (Massive Multitask Language Understanding), 54% em GSM8K (solução de problemas matemáticos), 38% em BBH (Big Bench Hard) e 45% em AlpacaEval. Estas métricas enfatizam o impacto dinâmico dos conjuntos de dados sintéticos nos métodos de programação instrucional.
Significado e consequências
O lançamento do AgentInstruct-1M-v1 é de grande importância para as comunidades de PNL e IA. Primeiro, democratiza o acesso a dados de alta qualidade para o planeamento do ensino, abrindo caminho para que investigadores e programadores experimentem e desenvolvam LLMs sem as barreiras de recursos associadas à criação manual de conjuntos de dados. Em segundo lugar, a natureza sintética do conjunto de dados contorna as questões de privacidade e licenciamento frequentemente associadas à utilização de dados proprietários, garantindo a conformidade com os princípios éticos e legais.
As melhorias de desempenho alcançadas com o Orca-3-Mistral destacam os benefícios práticos do conjunto de dados. Por exemplo, a melhoria de 54% no GSM8K demonstra o seu potencial para melhorar as competências de resolução de problemas do modelo, o que é um requisito importante em ambientes académicos e profissionais. Da mesma forma, um ganho de 40% no AGIEval indica melhoria da inteligência geral, tornando os modelos mais confiáveis nas tarefas de tomada de decisão. Esses resultados validam a estrutura do conjunto de dados e sua capacidade de gerar melhorias tangíveis no desempenho do LLM.
Conclusão: um passo em direção a uma IA mais inteligente
O lançamento de um milhão de pares de instruções artificiais pela Microsoft Research representa um momento significativo na pesquisa de IA. Ao abordar as limitações dos conjuntos de dados existentes para planejamento de instruções, o conjunto de dados AgentInstruct-1M-v1 permite o desenvolvimento de LLMs versáteis, eficientes e competentes. Os benefícios complementares, evidenciados pelo desempenho do índice de referência Orca-3-Mistral, realçam o valor dos conjuntos de dados sintéticos na superação dos desafios de crescimento.
À medida que o campo da PNL continua a evoluir, programas como este não só ultrapassam os limites do que os LLMs podem realizar, mas também reduzem as barreiras à inovação. Para pesquisadores, desenvolvedores e usuários finais, os pares de inteligência artificial da Microsoft representam um passo promissor na construção de sistemas de IA mais inteligentes e confiáveis que lidam com os desafios do mundo real.
Confira Conjunto de dados. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[FREE AI WEBINAR] Usando processamento inteligente de documentos e GenAI em serviços financeiros e transações imobiliárias– Da estrutura à produção
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
🐝🐝 Evento do LinkedIn, 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão reinventando o processo de desenvolvimento de dados para ajudar o modelo de suas equipes – a IA está mudando o jogo, rápido.