Os principais modelos linguísticos (LLMs) fizeram progressos significativos na produção linguística, mas as suas capacidades de raciocínio continuam inadequadas para resolver problemas complexos. Tarefas como questões de matemática, codificação e ciências continuam a representar o maior desafio. Desenvolver as habilidades de pensamento dos LLMs é importante para desenvolver suas habilidades além da simples produção de texto. O principal desafio reside na combinação de estratégias de aprendizagem avançadas com estratégias cognitivas eficazes para abordar estes défices cognitivos.
Apresentando o OpenR
Pesquisadores da University College London, da Universidade de Liverpool, da Shanghai Jiao Tong University, da Universidade de Ciência e Tecnologia de Hong Kong (Guangzhou) e da Westlake University apresentam o OpenR, uma estrutura de código aberto que integra computação computacional em tempo real, aprendizado por reforço e orientação processo para desenvolver o pensamento LLM. Inspirado no modelo O1 da OpenAI, o OpenR visa replicar e melhorar as habilidades de pensamento observadas nesses LLMs de próxima geração. Ao focar em técnicas básicas como aquisição de dados, modelos de recompensa de processo e métodos de direcionamento eficazes, o OpenR representa a primeira solução de código aberto a fornecer suporte tão complexo para LLMs. OpenR foi projetado para integrar vários aspectos do processo de raciocínio, incluindo treinamento de aprendizagem por reforço online e offline e codificação não autorregressiva, com o objetivo de acelerar o desenvolvimento de LLMs orientados ao raciocínio.
Recursos importantes:
- Dados orientados ao processo
- Treinamento Online de Aprendizagem por Reforço (RL).
- Gen e PRM discriminativo
- Múltiplas técnicas de pesquisa
- Hora de verificar a contagem e medição
Estrutura e componentes principais do OpenR
A arquitetura OpenR gira em torno de vários componentes principais. Na sua essência, utiliza a prospeção de dados, a aprendizagem de políticas e a pesquisa orientada no tempo para reforçar as competências de raciocínio. OpenR usa um Processo de Decisão Markov (MDP) para modelar tarefas de raciocínio, onde o processo de raciocínio é dividido em uma série de etapas que são avaliadas e otimizadas para orientar o LLM para a solução correta. Este método de ensino não só permite a aprendizagem direta de habilidades de pensamento, mas também facilita o exame de múltiplos métodos de pensamento em cada seção, permitindo um forte processo de pensamento. A estrutura baseia-se em Modelos de Recompensa de Processo (PRMs) que fornecem feedback indireto sobre etapas intermediárias de pensamento, permitindo que o modelo ajuste sua tomada de decisão de forma mais eficaz do que depender apenas do monitoramento do resultado final. Esses recursos trabalham juntos para refinar a capacidade do LLM de raciocinar passo a passo, usando técnicas de raciocínio inteligente durante os testes, em vez de simplesmente estimar os parâmetros do modelo.
Em seus experimentos, os pesquisadores mostraram uma melhoria significativa no desempenho de raciocínio dos LLMs usando OpenR. Usando o conjunto de dados MATH como referência, o OpenR alcançou uma melhoria de cerca de 10% na precisão da inferência em comparação com os métodos convencionais. Orientações de pesquisa testadas ao longo do tempo e a implementação de PRMs desempenharam um papel importante na melhoria da precisão, especialmente sob orçamentos de computação limitados. Métodos como “Best-of-N” e “Beam Search” foram usados para testar vários métodos de raciocínio durante o processo de inferência, com o OpenR mostrando que ambos os métodos têm melhor desempenho do que muitas técnicas simples de votação. Os métodos de aprendizagem por reforço, especialmente os aplicados pelos PRM, demonstraram ser eficazes em situações de aprendizagem política online, permitindo aos LLM melhorar o seu pensamento ao longo do tempo.
A conclusão
OpenR apresenta um importante passo na busca de capacidades avançadas de raciocínio em modelos de linguagem de grande escala. Ao combinar técnicas avançadas de aprendizagem por reforço e pesquisa direcionada no tempo de índice, o OpenR fornece uma plataforma abrangente e aberta para pesquisa cognitiva LLM. O ambiente de código aberto do OpenR permite a colaboração da comunidade e o desenvolvimento contínuo de habilidades de pensamento, preenchendo a lacuna entre respostas rápidas e automáticas e pensamento profundo e deliberado. O trabalho futuro no OpenR terá como objetivo expandir as suas capacidades para cobrir uma gama mais ampla de tarefas cognitivas e melhorar ainda mais os seus processos preditivos, contribuindo para a visão de longo prazo do desenvolvimento de agentes de IA cognitivos e de autodesenvolvimento.
Confira Papel de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
[Upcoming Event- Oct 17, 2024] RetrieveX – Conferência de recuperação de dados GenAI (promovida)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.