基于云ModelArts的PPO算法玩“超级马里奥兄弟”【华为云至简致远--打印文章

基于云ModelArts的PPO算法玩“超级马里奥兄弟”【华为云至简致远

作者：佚名文章来源：本站原创点击数更新时间：2022/11/28 22:16:08 文章录入：admin 责任编辑：admin

　　【摘要】一.前言我们利用PPO算法来玩“Super Mario Bros”（超级马里奥兄弟）。目前来看，对于绝大部分关卡，智能体都可以在1500个episode内学会过关。二.PPO算法的基本结构PPO算法有两种主要形式：PPO-Penalty和PPO-Clip(PPO2)。在这里，我们讨论PPO-Clip（OpenAI使用的主要形式）。 PPO的主要特点如下：PPO属于on-policy算法P...

　　更新策略：探索策略 PPO采用随机探索策略。优势函数表示在状态s下采取动作a，相较于其他动作有多少优势，如果0,则当前动作比平均动作好，反之，则差我们进入页面，先需要等待，等待30s之后弹出如下页面，让我们选择合适的运行环境，我们选择免费的就好，点击切换规格。等待切换规格完成：等待初始化完成…如下图，等待初始化完成。一切就绪

　　我们利用PPO算法来玩“Super Mario Bros”（超级马里奥兄弟）。目前来看，对于绝大部分关卡，智能体都可以在1500个episode内学会过关。

　　PPO算法有两种主要形式：PPO-Penalty和PPO-Clip(PPO2)。在这里，我们讨论PPO-Clip（OpenAI使用的主要形式）。 PPO的主要特点如下：PPO属于on-policy算法PPO同时适用于离散和连续的动作空间损失函数 PPO-Clip算法最精髓的地方就是加入了一项比例用以描绘新老策略的差异,通过超参数ϵ限制策略的更新步长：

　　我们需要先进入我们的华为云实例网址，使用PPO算法玩超级马里奥兄弟我们需要登录华为云账号，点击订阅这个实例，然后才能点击Run in ModelArts，进入 JupyterLab 页面。

　　这里比较费时间哈，多等待，正在训练模型中…我这里花了2.6分钟哈，还是比较快的，如图：

打印本文

关闭窗口