打印本文 打印本文  关闭窗口 关闭窗口  
基于云ModelArts的PPO算法玩“超级马里奥兄弟”【华为云至简致远
作者:佚名  文章来源:本站原创  点击数  更新时间:2022/11/28 22:16:08  文章录入:admin  责任编辑:admin

  【摘要】 一.前言我们利用PPO算法来玩“Super Mario Bros”(超级马里奥兄弟)。目前来看,对于绝大部分关卡,智能体都可以在1500个episode内学会过关。 二.PPO算法的基本结构PPO算法有两种主要形式:PPO-Penalty和PPO-Clip(PPO2)。在这里,我们讨论PPO-Clip(OpenAI使用的主要形式)。 PPO的主要特点如下:PPO属于on-policy算法P...

  更新策略:探索策略 PPO采用随机探索策略。优势函数 表示在状态s下采取动作a,相较于其他动作有多少优势,如果0,则当前动作比平均动作好,反之,则差我们进入页面,先需要等待,等待30s之后弹出如下页面,让我们选择合适的运行环境,我们选择免费的就好,点击切换规格。等待切换规格完成:等待初始化完成…如下图,等待初始化完成。一切就绪

  我们利用PPO算法来玩“Super Mario Bros”(超级马里奥兄弟)。目前来看,对于绝大部分关卡,智能体都可以在1500个episode内学会过关。

  PPO算法有两种主要形式:PPO-Penalty和PPO-Clip(PPO2)。在这里,我们讨论PPO-Clip(OpenAI使用的主要形式)。 PPO的主要特点如下:PPO属于on-policy算法PPO同时适用于离散和连续的动作空间损失函数 PPO-Clip算法最精髓的地方就是加入了一项比例用以描绘新老策略的差异,通过超参数ϵ限制策略的更新步长:

  我们需要先进入我们的华为云实例网址,使用PPO算法玩超级马里奥兄弟我们需要登录华为云账号,点击订阅这个实例,然后才能点击Run in ModelArts,进入 JupyterLab 页面。

  这里比较费时间哈,多等待,正在训练模型中…我这里花了2.6分钟哈,还是比较快的,如图:

打印本文 打印本文  关闭窗口 关闭窗口