强化学习入门

原文：www.kdnuggets.com/2022/05/reinforcement-learning-newbies.html

作者提供的图片

什么是强化学习（RL）

我们的前三个课程推荐

1. 谷歌网络安全证书 - 快速开启网络安全职业生涯。

强化学习（RL）是一种机器学习模型，代理通过试错法学习以实现目标。这是一种以目标为导向的算法，当代理执行正确的动作时会获得奖励。这些奖励帮助代理在复杂的环境中导航以实现最终目标。就像幼儿通过试错法学习走路一样，机器也能在没有人工干预的情况下学习执行复杂任务。

RL 与其他机器学习算法有很大不同。它从环境中学习，并比人类表现更好。而监督学习和无监督学习模型依赖于从人类那里收集的现有数据，受限于人类智能。例如，Deepmind 的AlphaGo自行学习了各种策略以击败围棋世界冠军。

强化学习如何工作？

以一个马里奥游戏为例。在游戏开始时，代理（马里奥）处于状态零，基于其状态，代理将采取一个动作。在这种情况下，马里奥将向前移动。现在代理处于新状态（新帧）。代理会因为向前移动而获得奖励。代理将继续移动，直到完成关卡或在过程中死亡。RL 的主要目标是通过最小化步骤来最大化奖励的收集。

RL 的应用是什么？

目前，机器学习应用仅限于单一任务，并依赖于现有数据。但未来一切将发生变化，我们将把 RL 与计算机视觉、机器翻译以及各种模型结合起来，以实现超人类的表现，例如：

自动驾驶汽车：旅行变得更安全和快速
行业自动化：仓库管理
交易和金融：股票价格预测
自然语言处理（NLP）：文本摘要、问答和机器翻译
医疗保健：有效的疾病检测和治疗
工程：优化大规模生产。
推荐系统：提供更好的新闻、电影和产品推荐。
游戏：制作更好的游戏关卡以优化玩家的参与度。
营销与广告：识别个人并根据需求通过广告进行精准投放。
机器人技术：执行复杂和重复的任务。

强化学习的关键组件

在我们开始构建自己的系统之前，有很多关于强化学习的知识需要学习。在这一部分，我们将学习强化学习的关键组件以及每个组件如何相互作用。

代理：可以是游戏角色、机器人或汽车。代理是一个执行动作的算法。在现实生活中，代理是人类。
动作（A）：是代理可以执行的所有可能移动的集合。例如，马里奥可以跳跃、向左移动、向右移动和蹲下。
折扣因子：未来的奖励会被折扣，所以它的价值低于即时行动，以便对代理施加短期享乐主义。
环境：这是一个与代理交互的世界。在马里奥游戏中，环境就是地图。它将当前状态和代理的动作作为输入，并返回奖励和下一个状态。
状态（S）：就像一个帧。当代理采取一个动作时，状态从当前帧改变到马里奥游戏中的下一帧。当前状态和下一个状态由环境提供。
奖励（R）：是基于之前动作给予代理的反馈或奖励。如果代理完成了任务，奖励可能是正面的；如果失败，奖励可能是负面的。奖励也可以是即时的或延迟的。
策略（？）：是代理为了基于状态和动作获得最高奖励而采取的策略。简单来说，它定义了代理如何根据当前状态采取行动。
价值（V）：是带有折扣的预期长期回报。
轨迹：是状态和由这些状态影响的动作的序列。
回合：代理的一个完整周期，从开始到结束。例如，马里奥从开始处开始，当当前阶段完成时，第一个回合结束。当马里奥死亡时，回合也结束。
利用：采取最佳行动以最大化奖励收集。
探索：采取随机行动以探索环境，而不考虑奖励。

学习资源

这只是一个开始，如果你想深入了解强化学习，可以从学习基础知识开始。观看 YouTube 教程或完成一个课程。之后，开始进行一个项目或参加竞赛。我通过参与 Kaggle 竞赛学习了所有关于 RL 的知识，如果在过程中遇到困难，我会阅读博客或各种教程来扩展我的知识。

教程

训练 AI 玩蛇 – 强化学习课程（Python, PyTorch, Pygame）
25 分钟 Python 强化学习教程
MIT 6.S091: 深度强化学习导论 (Deep RL)
强化学习教程 | 斯坦福汽车研究中心

课程

CS234: 强化学习 | 2019 冬季
Hugging Face 深度强化学习课程
金融中的强化学习
深度强化学习在线课程

竞赛

Connect X
IJCAI 2022 - 神经 MMO 挑战
Kore 2022
石头剪子布

书籍

强化学习：智能体的工业应用
深度强化学习实战
深度强化学习实操
深度强化学习精要

博客

强化学习简介
强化学习简要介绍
什么是强化学习？奖励与惩罚
深度强化学习初学者指南

Abid Ali Awan（@1abidaliawan）是一位认证的数据科学专业人士，热衷于构建机器学习模型。目前，他专注于内容创作和撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为遭受心理疾病困扰的学生构建一个 AI 产品。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

reinforcement-learning-newbies.md

reinforcement-learning-newbies.md

强化学习入门

什么是强化学习（RL）

我们的前三个课程推荐

强化学习如何工作？

RL 的应用是什么？

强化学习的关键组件

学习资源

更多相关话题

Files

reinforcement-learning-newbies.md

Latest commit

History

reinforcement-learning-newbies.md

File metadata and controls

强化学习入门

什么是强化学习（RL）

我们的前三个课程推荐

强化学习如何工作？

RL 的应用是什么？

强化学习的关键组件

学习资源

更多相关话题