Skip to content

Latest commit

 

History

History
153 lines (77 loc) · 9.28 KB

reinforcement-learning-newbies.md

File metadata and controls

153 lines (77 loc) · 9.28 KB

强化学习入门

原文:www.kdnuggets.com/2022/05/reinforcement-learning-newbies.html

强化学习入门

作者提供的图片

什么是强化学习(RL)


我们的前三个课程推荐

1. 谷歌网络安全证书 - 快速开启网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升您的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持您组织中的 IT 工作


强化学习(RL)是一种机器学习模型,代理通过试错法学习以实现目标。这是一种以目标为导向的算法,当代理执行正确的动作时会获得奖励。这些奖励帮助代理在复杂的环境中导航以实现最终目标。就像幼儿通过试错法学习走路一样,机器也能在没有人工干预的情况下学习执行复杂任务。

RL 与其他机器学习算法有很大不同。它从环境中学习,并比人类表现更好。而监督学习和无监督学习模型依赖于从人类那里收集的现有数据,受限于人类智能。例如,Deepmind 的AlphaGo自行学习了各种策略以击败围棋世界冠军。

强化学习如何工作?

以一个马里奥游戏为例。在游戏开始时,代理(马里奥)处于状态零,基于其状态,代理将采取一个动作。在这种情况下,马里奥将向前移动。现在代理处于新状态(新帧)。代理会因为向前移动而获得奖励。代理将继续移动,直到完成关卡或在过程中死亡。RL 的主要目标是通过最小化步骤来最大化奖励的收集。

RL 的应用是什么?

目前,机器学习应用仅限于单一任务,并依赖于现有数据。但未来一切将发生变化,我们将把 RL 与计算机视觉、机器翻译以及各种模型结合起来,以实现超人类的表现,例如:

  1. 自动驾驶汽车:旅行变得更安全和快速

  2. 行业自动化:仓库管理

  3. 交易和金融:股票价格预测

  4. 自然语言处理(NLP):文本摘要、问答和机器翻译

  5. 医疗保健:有效的疾病检测和治疗

  6. 工程:优化大规模生产。

  7. 推荐系统:提供更好的新闻、电影和产品推荐。

  8. 游戏:制作更好的游戏关卡以优化玩家的参与度。

  9. 营销与广告:识别个人并根据需求通过广告进行精准投放。

  10. 机器人技术:执行复杂和重复的任务。

强化学习的关键组件

在我们开始构建自己的系统之前,有很多关于强化学习的知识需要学习。在这一部分,我们将学习强化学习的关键组件以及每个组件如何相互作用。

  • 代理:可以是游戏角色、机器人或汽车。代理是一个执行动作的算法。在现实生活中,代理是人类。

  • 动作(A):是代理可以执行的所有可能移动的集合。例如,马里奥可以跳跃、向左移动、向右移动和蹲下。

  • 折扣因子:未来的奖励会被折扣,所以它的价值低于即时行动,以便对代理施加短期享乐主义。

  • 环境:这是一个与代理交互的世界。在马里奥游戏中,环境就是地图。它将当前状态和代理的动作作为输入,并返回奖励和下一个状态。

  • 状态(S):就像一个帧。当代理采取一个动作时,状态从当前帧改变到马里奥游戏中的下一帧。当前状态和下一个状态由环境提供。

  • 奖励(R):是基于之前动作给予代理的反馈或奖励。如果代理完成了任务,奖励可能是正面的;如果失败,奖励可能是负面的。奖励也可以是即时的或延迟的。

  • 策略(?):是代理为了基于状态和动作获得最高奖励而采取的策略。简单来说,它定义了代理如何根据当前状态采取行动。

  • 价值(V):是带有折扣的预期长期回报。

  • 轨迹:是状态和由这些状态影响的动作的序列。

  • 回合:代理的一个完整周期,从开始到结束。例如,马里奥从开始处开始,当当前阶段完成时,第一个回合结束。当马里奥死亡时,回合也结束。

  • 利用:采取最佳行动以最大化奖励收集。

  • 探索:采取随机行动以探索环境,而不考虑奖励。

强化学习的关键组件

学习资源

这只是一个开始,如果你想深入了解强化学习,可以从学习基础知识开始。观看 YouTube 教程或完成一个课程。之后,开始进行一个项目或参加竞赛。我通过参与 Kaggle 竞赛学习了所有关于 RL 的知识,如果在过程中遇到困难,我会阅读博客或各种教程来扩展我的知识。

教程

课程

竞赛

书籍

博客

Abid Ali Awan@1abidaliawan)是一位认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作和撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为遭受心理疾病困扰的学生构建一个 AI 产品。

更多相关话题