Alibaba acaba de lançar Marco-o1: promovendo inteligência aberta em IA

O campo da IA está a desenvolver-se rapidamente, especialmente em áreas que requerem competências de pensamento profundo. No entanto, muitos dos modelos maiores que existem têm um foco restrito e funcionam melhor em áreas com resultados claros e mensuráveis, como estatísticas, codificação ou processos de tomada de decisão bem definidos. Esta limitação torna-se aparente quando os modelos enfrentam desafios do mundo real, que muitas vezes exigem pensamento aberto e resolução de problemas. Essas tarefas são difíceis de avaliar porque não existem respostas “certas” universalmente aceitas ou recompensas fáceis de escapar. Surge a questão: um modelo de IA pode ser treinado para navegar neste caminho misterioso e ainda produzir resultados confiáveis?

Alibaba lança Marco-o1

Alibaba lançou o Marco-o1, um novo modelo de IA projetado para avançar na resolução de problemas abertos. Desenvolvido pela equipe MarcoPolo do Alibaba, Marco-o1 é um Large Reference Model (LRM) construído com base nas lições aprendidas com o modelo O1 da OpenAI. Embora o modelo o1 tenha demonstrado fortes capacidades conceituais em plataformas como AIME e CodeForces, o Marco-o1 pretende expandir-se além dos desafios estruturados. O principal objetivo do Marco-o1 é generalizar para muitos domínios, especialmente aqueles onde não estão disponíveis métricas de avaliação robustas. Isso é conseguido combinando técnicas como otimização de cadeia de pensamento (CoT), Monte Carlo Tree Search (MCTS) e técnicas de pensamento de ação que permitem ao Marco-o1 lidar com tarefas complexas de resolução de problemas com eficiência.

Detalhes técnicos

Marco-o1 usa vários métodos avançados de IA para melhorar suas habilidades de raciocínio. O modelo usa uma configuração de Cadeia de Pensamento (CoT), um método que permite controlar melhor os processos de raciocínio passo a passo, rastreando claramente seus padrões de pensamento. Essa abordagem ajuda o modelo a resolver problemas, tornando o processo de solução transparente e sistemático. Além disso, o Monte Carlo Tree Search (MCTS) é empregado para testar múltiplas hipóteses, atribuindo pontuações de confiança a outros tokens durante o processo de resolução de problemas. Este processo orienta Marco-o1 para a solução ideal, selecionando a cadeia lógica mais promissora. Além disso, Marco-o1 inclui uma estratégia de ação cognitiva que altera dinamicamente a granularidade das ações tomadas durante a resolução de problemas, melhorando a eficiência e a precisão da pesquisa. Esta combinação de técnicas garante que o Marco-o1 seja capaz de enfrentar tanto tarefas estruturadas como desafios diversos e abertos.

Marco-o1 aborda as limitações observadas em outros modelos de raciocínio, incorporando um mecanismo de reflexão que incentiva o modelo a avaliar autocriticamente suas soluções. Ao incorporar frases auto-reflexivas, o modelo é encorajado a reexaminar e refinar o seu processo de pensamento, melhorando a sua precisão em problemas complexos. Os resultados do conjunto de dados MGSM mostram a força do Marco-o1: o modelo mostrou uma melhoria de precisão de 6,17% no conjunto de dados MGSM (inglês) e uma melhoria de 5,60% no conjunto de dados MGSM (chinês) em comparação com versões anteriores. Além disso, Marco-o1 mostrou resultados significativos em tarefas de tradução, como traduzir com precisão expressões coloquiais de forma a refletir diferenças culturais. Esta capacidade de lidar tanto com a resolução sistemática de problemas quanto com as sutilezas da linguagem natural destaca os avanços significativos que Marco-o1 representa na pesquisa e aplicação de IA.

A conclusão

Marco-o1 representa um avanço lógico no pensamento de IA, especialmente para problemas complexos e abertos do mundo real. Usando técnicas eficazes, como otimização de cadeia de pensamento, pesquisa em árvore de Monte Carlo e estratégia de pensamento de ação, Marco-o1 demonstrou melhorias em relação aos modelos existentes, tanto em conjuntos de dados estruturados quanto em tarefas de interpretação difusa. No futuro, o Alibaba planeja melhorar o Marco-o1, melhorando seus métodos de recompensa com Modelagem de Recompensa de Resultados e Processos, que visa reduzir a aleatoriedade em seu processo de tomada de decisão. Isto permitirá que o Marco-o1 resolva uma ampla gama de problemas com alta confiabilidade e precisão.

Confira eu artigo, modelo em Hugging Face e código-fonte no GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferência Virtual GenAI gratuita com. Meta, Mistral, Salesforce, Harvey AI e mais. Junte-se a nós em 11 de dezembro para este evento de visualização gratuito para aprender o que é necessário para construir grande com pequenos modelos de pioneiros em IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face e muito mais.

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'

Source link

Alibaba lança Marco-o1

Detalhes técnicos

A conclusão

Você também pode gostar...

Modelos de recompensa generativos (GenRM): uma abordagem integrada para reforçar a aprendizagem humana e o feedback de IA, resolvendo desafios de padronização e coleta de feedback

Kwai-STAR: uma estrutura de IA que transforma LLMs em reformadores de última geração para melhorar suas habilidades de pensamento lógico

IA a Z da anotação de dados

Deixe um comentário Cancelar resposta