DIFFUSEARCH: Revolucionando a IA do xadrez com pesquisa difusa e modelo de classificação diferencial

Modelos de linguagem em larga escala (LLMs) têm recebido atenção significativa na pesquisa de IA devido às suas capacidades notáveis. No entanto, sua limitação reside no planejamento de longo prazo e na resolução de problemas complexos. Embora métodos de pesquisa implícitos, como o Monte Carlo Tree Search (MCTS), tenham sido usados para melhorar a tomada de decisões em vários sistemas de IA, incluindo motores de xadrez e algoritmos de jogo, eles apresentam desafios quando aplicados a LLMs. A utilização repetida de modelos de valor durante a busca leva ao acúmulo de erros e ao aumento dos custos de cálculo, principalmente em operações de longo prazo. Portanto, é necessário capacitar os LLMs para prever e utilizar conhecimentos futuros sem depender de métodos de busca específicos, visando melhorar seu desempenho em tarefas complexas que exigem planejamento e tomada de decisões de longo prazo.

As abordagens existentes para os desafios do xadrez e dos sistemas de tomada de decisão alimentados por IA incluem redes neurais de xadrez, modelos de distribuição e modelos globais. Na IA do xadrez, o campo evoluiu de algoritmos de busca e heurísticas artesanais para métodos baseados em redes neurais. AlphaZero marcou uma grande mudança no uso da aprendizagem por reforço profundo com MCTS para desenvolver suas próprias heurísticas. Os modelos de difusão surgiram como uma classe poderosa de modelos generativos usados em uma variedade de campos, incluindo geração de imagens e texto e aprendizagem por reforço. Além disso, os modelos globais na aprendizagem por reforço baseada em modelos visam capturar a dinâmica natural e prever resultados futuros; no entanto, os modelos globais convencionais baseiam-se frequentemente na previsão de uma etapa, levando a erros agravados.

Este artigo apresenta um método, denominado DIFFUSEARCH, que realiza busca fuzzy prevendo condições futuras usando modelagem de difusão diferencial. Este método é utilizado no jogo de xadrez, um domínio onde a busca implícita tem sido tradicionalmente considerada importante. Além disso, DIFFUSEARCH apresenta desempenho significativamente superior em comparação com políticas sem busca e aquelas otimizadas com estratégias de busca implícitas. Ele também supera a política de uma etapa em 19,2% e a política aprimorada de Monte Carlo Tree Search (MCTS) em 14% em precisão operacional. Além disso, o modelo mostra uma melhoria de 30% nas habilidades de resolução de quebra-cabeças em comparação com os métodos de pesquisa óbvios, com um aumento significativo de 540 Elo no teste de habilidade de jogo.

A arquitetura do DIFFUSEARCH é baseada no modelo de transformador GPT-2 somente decodificador, modificado para usar atenção total em vez de atenção causal. É comparado a três modelos básicos de Transformer, (a) Estado-ação (SA), (b) Estado-valor (SV) e (c) Ação-valor (SA-V), onde os modelos SA e SV que são combinado. no Monte Carlo Tree Search (MCTS) seguindo o método de comparação AlphaZero. Os modelos de difusão, incluindo o DIFFUSEARCH, são treinados para um máximo de 200 épocas devido à sua lenta taxa de convergência, permitindo uma comparação robusta entre o DIFFUSEARCH e os métodos existentes. Além disso, as três métricas de avaliação de políticas são Action Accuracy, Puzzle Accuracy e Tournament Elo, onde as estimativas de Elo são calculadas usando BayesElo.

DIFFUSEARCH mostra melhorias notáveis de desempenho em comparação com modelos de linha de base em termos de precisão de previsão e desempenho. O modelo supera o modelo (SA) com uma pontuação significativa de 653 pontos Elo e 19% na precisão da ação, destacando sua eficácia em melhorar a previsão da próxima ação usando a previsão futura. Além disso, atinge uma precisão de ação 10% maior do que o modelo (SA-V), apesar de usar 20 vezes mais dados de treinamento. Comparado ao agente baseado em MCTS, o DIFFUSEARCH apresenta desempenho superior com um aumento na classificação Elo de 542 e uma melhoria de 14% na precisão da ação. Isto realça a capacidade do modelo para simular cenários de múltiplas etapas, que contornam a política avançada de MCTS que se baseia em combinações cuidadosamente calibradas de modelos de política e de valor.

Concluindo, o artigo apresenta DIFFUSEARCH, um modelo que mostra a possível transição da busca implícita em políticas de uma etapa para a busca implícita em políticas conscientes do futuro no domínio do xadrez. DIFFUSEARCH substitui políticas de não pesquisa e aquelas desenvolvidas por métodos de pesquisa transparentes, conforme evidenciado por testes e análises. Os princípios e métodos desenvolvidos neste trabalho supervisionado podem ser aplicados em ambientes de linguagem natural, para melhorar a previsão atual do próximo token em LLMs. No entanto, o DIFFUSEARCH depende de um oráculo (Stockfish) para monitoramento futuro, e integrá-lo com métodos de auto-jogo seria uma direção interessante para trabalhos futuros. Além disso, a profundidade de pesquisa do modelo é limitada pelo comprimento do contexto; portanto, o uso de modelos de contexto longos pode permitir treinamento eficiente e pesquisa profunda.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.

[Upcoming Live Webinar- Oct 29, 2024] Melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (avançado)

Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Meta AI apresenta AdaCache: um método de treinamento gratuito para acelerar transformadores de difusão de vídeo (DiTs)

Pareidolia de IA: as máquinas podem reconhecer rostos em objetos inanimados? | Notícias do MIT

Descobrindo biomarcadores de AVC isquêmico: o aprendizado de máquina encontra a transcriptômica unicelular

Deixe um comentário Cancelar resposta