O Aprendizado por Reforço (RL) permite que as máquinas aprendam com suas ações e tomem decisões por tentativa e erro, semelhante à forma como os humanos aprendem. É a base de sistemas de IA que podem resolver tarefas complexas, como jogar ou controlar robôs, sem serem claramente programados. Aprender RL é importante porque abre portas para a construção de sistemas inteligentes e autônomos e avança nossa compreensão da IA. Este artigo, portanto, lista os principais cursos de Aprendizado por Reforço que fornecem informações abrangentes, implementação prática e projetos práticos, ajudando os alunos a compreender os principais conceitos, algoritmos e aplicações do mundo real da RL.
Especialização em Aprendizagem por Reforço (Universidade de Alberta)
Esta série de cursos de Aprendizado por Reforço ensina como construir sistemas de IA adaptativos por meio de tentativa e erro. Você explorará conceitos básicos, como processos de decisão de Markov, funções de valor e algoritmos RL principais, como Q-learning e estimadores de políticas. Eventualmente, você será capaz de implementar uma solução RL completa e aplicá-la a problemas do mundo real, como desenvolvimento de jogos, interação com o cliente e muito mais.
Tomada de decisão e aprendizagem por reforço (Universidade de Columbia)
Este curso apresenta a tomada de decisão sequencial e o aprendizado por reforço. Começa com a teoria da utilidade e modela problemas simples, como problemas de ladrões armados. Você explorará processos de decisão de Markov (MDPs), microobservações e POMDPs. O curso aborda métodos RL importantes, como Monte Carlo e aprendizagem por diferença temporal, enfatizando algoritmos e exemplos práticos.
Aprendizado profundo e aprendizado por reforço (IBM)
Este curso apresenta aprendizado profundo e aprendizado por reforço, duas áreas importantes do aprendizado de máquina. Você começará com redes neurais e arquiteturas de aprendizado profundo e, em seguida, explorará o aprendizado por reforço, onde algoritmos aprendem sobre recompensas.
Aprendizagem por Reforço (RWTHx)
Este curso apresenta o mundo do Aprendizado por Reforço (RL), onde as máquinas aprendem interagindo com seu ambiente, semelhante à forma como os humanos aprendem por tentativa e erro. Você começará construindo uma base matemática sólida de conceitos de RL, seguida por algoritmos de RL modernos. Por meio de exercícios práticos e exemplos de programação, você obterá uma compreensão mais profunda dos principais métodos de RL, como processos de decisão de Markov, programação adaptativa e métodos de diferença temporal.
Aprendizagem por reforço da resposta humana (Deeplearning.ai)
Este curso fornece uma introdução ao Aprendizado por Reforço com Feedback Humano (RLHF) para alinhar modelos linguísticos de grande escala (LLMs) com valores humanos. Você testará o processo RLHF, trabalhará com preferências e conjuntos de dados de informações e usará as ferramentas do Google Cloud para ajustar o modelo Llama 2. Por fim, comparará o modelo ajustado com o LLM básico usando curvas de perda e o lado a lado. método (SxS).
Fundamentos do aprendizado por reforço profundo (LVx)
Este curso fornece uma introdução ao Aprendizado por Reforço (RL), começando pelos conceitos básicos e avançando até o Q-learning, a chave do algoritmo RL. Na Parte II, você implementará Q-learning usando redes neurais, explorando a “Profundidade” no Deep Reinforcement Learning. O curso cobre os fundamentos teóricos da RL, aplicações práticas em Python, a Equação de Bellman e melhorias no algoritmo Q-Learning.
Aprimorando o aprendizado individualizado – IA em Python (Udemy)
Este curso tem como objetivo fornecer uma compreensão completa do paradigma de Aprendizagem por Reforço (RL) e aplicações relevantes. Você aprenderá a abordar e resolver tarefas mentais usando RL e explorar diferentes métodos de RL para escolher o mais adequado. O curso ensina como implementar algoritmos RL do zero, compreender seus processos de aprendizagem, depurá-los e estendê-los e explorar novos algoritmos RL a partir de artigos de pesquisa para aprendizagem avançada.
Inteligência Artificial 2.0: Prêmio AI, Python, DRL + ChatGPT (Udemy)
Este curso se concentra em técnicas avançadas em Deep Reinforcement Learning (DRL). Você aprenderá algoritmos importantes, como Q-Learning, Deep Q-Learning, Policy Gradient, Actor-Critic, Deep Deterministic Policy Gradient (DDPG) e Twin-Delayed DDPG (TD3). Este curso enfatiza técnicas básicas de DRL e ensina como aplicar modelos avançados de IA a aplicações do mundo real.
Aprendizagem por Reforço – Playlist do YouTube (YouTube)
Esta lista de reprodução do YouTube fornece uma introdução passo a passo ao Q-Learning, um algoritmo de aprendizagem importante. Tudo começa com a construção de uma tabela Q para lidar com pares de ação de estado em lugares como o MountainCar do OpenAI Gym. A série cobre a implementação da teoria Q-learning em Python prático e avança para tópicos mais avançados, como Deep Q-learning e Deep Q Networks (DQN). Focado em explicar conceitos básicos, Python é usado para construir agentes que aprendem estratégias apropriadas ao longo do tempo.
Aprendizado profundo para reforço (Udacity)
Este programa se concentra no domínio de técnicas de aprendizagem por reforço profundo (DRL). Por meio de cursos de RL multiagentes baseados em valor, baseados em políticas, os alunos aprendem métodos de solução clássicos, como Monte Carlo e diferença temporal, e aplicam arquiteturas de aprendizagem profunda a problemas do mundo real. Os projetos incluem o treinamento de agentes para tarefas como navegação virtual, negociação financeira e competição multiagente. Por meio de projetos práticos, os alunos ganham ampla experiência em técnicas avançadas de RL, como métodos Proximal Policy Optimization (PPO) e Actor-Critic, que preparam aplicações complexas em IA.
Tutorial do AWS DeepRacer (Udacidade)
Este curso fornece uma introdução prática ao Reinforcement Learning (RL) por meio de um divertido programa de direção automatizada com AWS DeepRacer. Você explorará os principais conceitos de RL, como agentes, ações, localização, regiões e recompensas, e verá como eles se combinam para treinar um veículo virtual. Ao experimentar diferentes parâmetros, parâmetros variáveis e funções de recompensa, você aprenderá como melhorar o desempenho do seu modelo. Finalmente, você usará seu modelo em configurações do mundo real, preenchendo a lacuna entre a simulação e o mundo real.
Obtemos um pequeno lucro nas compras feitas através Links de referência/afiliados anexados a cada curso mencionado na lista acima.
Se você quiser sugerir algum curso que faltou nesta lista, envie-nos um email [email protected]
Shobha é um analista de dados com histórico comprovado no desenvolvimento de soluções de aprendizado de máquina que geram valor comercial.
⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)