当前位置: 首页 > news >正文

怎么用手机创建网站郑州seo优化大师

怎么用手机创建网站,郑州seo优化大师,asp.net 网站开发 异步,电商网站建设合同模板深度强化学习之 PPO 算法 强化学习原理学习策略 基于行为价值 & 基于行为概率策略梯度算法:计算状态下所有行为的概率演员 - 评论家算法:一半基于行为价值,一半基于行为概率DQN 算法(深度Q网络)Q-Learning&#x…

深度强化学习之 PPO 算法

    • 强化学习原理
    • 学习策略 = 基于行为价值 & 基于行为概率
    • 策略梯度算法:计算状态下所有行为的概率
    • 演员 - 评论家算法:一半基于行为价值,一半基于行为概率
      • DQN 算法(深度Q网络)
        • Q-Learning(Q 值)
    • PPO 算法 = DQN算法 + 演员-评论家算法 + 策略梯度算法

强化学习原理

机器学习是把带标签的数据训练模型,使得预测值尽可能接近真实值。

强化学习是通过和环境交互,奖励来训练模型,使得最后获取的奖励最大期望值。

在强化学习中,机器基于环境做出行为,正确的行为能够获得奖励。以获得更多奖励为目标,实现机器与环境的最优互动。

如教狗子握手的时候,如果狗子正确握手,就能得到骨头奖励,不握手就没有。如果咬了主人一口,还会受到惩罚。

长此以往,狗子为了得到更多骨头,就能学会握手这个技能。

  • 编程开发三要素:数据结构 + 传统算法 = 程序
  • 机器学习三要素:数据 + 学习算法 = 模型
  • 强化学习六要素:环境、决策模型、状态、行为、奖励、评论家

如在对弈的环境中,决策模型根据棋盘上的状态,做出落子行为,然后每盘棋的胜负获得奖励。模拟足够多棋局后,评论家就可以通过计算预测出每步棋对整盘棋的价值,为其打分。

通过不断训练,机器以赢更多局棋为目标,不断更新优化,成为一个围棋大师。

可以将学习的场景分为两类:

  • 离散场景:机器行为的有限的,如动作类游戏。只有向上、向下、向左、向右这 4 个动作,移动也只能一格一格地走。

    可以把每个状态下的所有行为列举出来,用评论家为每个行为打分,通过选择最高分的行为实现最优互动。

    因为需要评估每个行为的价值,所以这种学习方法被称为基于行为价值的方法

  • 连续场景:机器的行为是连贯的,如赛车的方向盘转动角度可以在一定区间内任意取值,角度之间可以无限分割。

    还有基于行为概率的方法,无需根据每个行为的价值来打分,可以很好地胜任连续场景。
     


学习策略 = 基于行为价值 & 基于行为概率

基于值的方法需要根据每个行为的价值进行打分,选出价值最高的行为。由于要穷举出所有行为,因此它只适用于离散场景。

  • Q-Learning 和 DQN 算法,都属于基于值的强化学习方法。

基于价值的方法无法应对连续场景。只能应用在不连续的、离散的环境下(如围棋或动作类游戏)。

对于动作集合规模庞大、动作连续的场景(如机器人控制领域),其很难学习到较好的结果。

基于价值(Value-Based)的思路是:通过计算行为的价值(Value)来训练模型。

棋盘上一共只有 361 个点位,基于值的方法可以计算出棋子落在每个点位的价值,并进行打分,帮助机器选出最优点位。

好处:基于值的方法能实时反馈。可以根据每个行为的价值进行打分,这个分数就相当于每个行为的实时反馈。但不能应用连续场景上。

而基于策略(Policy-Based)的方法并不需要考虑行为的价值,而是反应调整。

机器会在训练过程中随机抽取一些行为,与环境互动。如果行为获得了奖励,就会提高选择它的概率。以后遇到同样的状态时,有更高的概率再次做出这个行为。

相反,如果未获得奖励,或者受到了惩罚,就保持或者降低该行为的概率。

经过大量训练,最终会得出连续行为的概率分布。

基于这样的原理,一个行为能获得越多奖励,被选择的概率就越大,从而实现机器和环境的最优化互动。

好处:基于策略的方法能应用连续场景上。但不能实时反馈。

策略梯度算法:计算状态下所有行为的概率

基于策略的方法,它的原理是根据行为的概率来训练模型。

实现方式:策略梯度算法引入了一个神经网络,输入层是状态(s),经过隐藏层的分析和计算,输出该状态下每个行为的概率.

策略梯度算法在训练过程中经常遇到一个难题:机器在与环境互动时,难以得到实时反馈,往往要在整个回合结束后才能获得奖励。

如赢一盘棋是正向奖励,输一盘棋是负面奖励,但棋局中某一颗棋子的价值很难即时评估。

想要提高学习效率,就必须想办法提供实时反馈。

有没有办法可以将基于策略在应对连续场景上的优点,和基于值在实时反馈上的优点进行结合呢?

那就是演员-评论家算法。

 


演员 - 评论家算法:一半基于行为价值,一半基于行为概率

演员-评论家算法就是将基于策略和基于值两个方法相结合的产物。

这个算法分成两半,一半是演员,另一半是评论家。

  • 演员:这一半基于策略,策略梯度算法。它有一个神经网络,可以根据行为的概率,选出行为。
  • 评论家:这一半基于价值,DQN 算法。它有一个神经网络,可以根据行为的价值进行打分。

将基于策略和基于值的方法相结合,由基于策略的策略网络在连续场景中选出行为,由基于值的价值网络给行为提供实时反馈。

策略网络就像写作业的学生,价值网络就像批改作业的老师。二者结合,反复地写作业、改作业,对比方法,找出最好的方法。
 


DQN 算法(深度Q网络)

DQN 算法全称 深度Q网络,以 Q-Learning 算法为基础,融合了神经网络

Q-Learning(Q 值)

Q-Learning 有一个 Q 值(评论家),一个行为的 Q 值越高,表示该行为能带来的奖励越多,越应该被选择。

Q-learning 算法需要知道每个状态下,所有行为Q 值

机器在每个状态下都能做出 Q 值最大的行为(a)。

因为计算每一个Q值,需要同时记录同一个状态下所有行为。

而当状态和行为的数量非常庞大时,储存所有数据会占用非常多的资源。

使用神经网络可以直接学习状态、行为、Q值的关系,输入状态,就能得到每个行为的Q值。

神经网络在这的功能:从存储 3 个值的排列组合,到只存储状态。
 


PPO 算法 = DQN算法 + 演员-评论家算法 + 策略梯度算法

PPO 算法沿用了 AC 算法的整体框架。

就是调整学习率。学习率表示向前的步长。

步长太大,尽管学得快,但会导致后期无法收敛于最优解;步长太小,则会导致学得很慢,学到黄花菜都凉了。

在训练过程中,当模型的更新幅度过大时,会调整更新幅度。

但是进行了这样的调整:机器每向前更新一步,就会与更新前作比较,如果这一步“迈”得太大,就会调整这次更新的幅度。


文章转载自:
http://dinncopleasureless.ssfq.cn
http://dinnconephrism.ssfq.cn
http://dinncoapanage.ssfq.cn
http://dinncooutcry.ssfq.cn
http://dinncoappendiculate.ssfq.cn
http://dinncowaterloo.ssfq.cn
http://dinncocomboloio.ssfq.cn
http://dinncocrispness.ssfq.cn
http://dinncochokecherry.ssfq.cn
http://dinncoocker.ssfq.cn
http://dinncoredecorate.ssfq.cn
http://dinncotrichlorophenol.ssfq.cn
http://dinncoiron.ssfq.cn
http://dinncorhinovirus.ssfq.cn
http://dinncovase.ssfq.cn
http://dinncorenaissant.ssfq.cn
http://dinncoturboelectric.ssfq.cn
http://dinncosynonymy.ssfq.cn
http://dinncovelma.ssfq.cn
http://dinncogospodin.ssfq.cn
http://dinncodemilune.ssfq.cn
http://dinncokithe.ssfq.cn
http://dinncoindissoluble.ssfq.cn
http://dinncochambertin.ssfq.cn
http://dinncoillation.ssfq.cn
http://dinncocultivate.ssfq.cn
http://dinncogreening.ssfq.cn
http://dinncomultiaxial.ssfq.cn
http://dinncooffenseful.ssfq.cn
http://dinncosynthetase.ssfq.cn
http://dinncoadjacence.ssfq.cn
http://dinncoohioan.ssfq.cn
http://dinncomusjid.ssfq.cn
http://dinncodelist.ssfq.cn
http://dinncomandible.ssfq.cn
http://dinncosongman.ssfq.cn
http://dinncohabitually.ssfq.cn
http://dinncowhereto.ssfq.cn
http://dinncorockstaff.ssfq.cn
http://dinncocabrite.ssfq.cn
http://dinnconitre.ssfq.cn
http://dinncocontainer.ssfq.cn
http://dinncotower.ssfq.cn
http://dinncoperfecto.ssfq.cn
http://dinncochasmal.ssfq.cn
http://dinncopiscary.ssfq.cn
http://dinncohousemaster.ssfq.cn
http://dinncocaodaism.ssfq.cn
http://dinncohypopraxia.ssfq.cn
http://dinncolatania.ssfq.cn
http://dinncowitchman.ssfq.cn
http://dinncounkindly.ssfq.cn
http://dinncostratolab.ssfq.cn
http://dinncoirreverence.ssfq.cn
http://dinncoimpotency.ssfq.cn
http://dinncopinch.ssfq.cn
http://dinncotossel.ssfq.cn
http://dinncoprotension.ssfq.cn
http://dinncosmotheration.ssfq.cn
http://dinncoamputator.ssfq.cn
http://dinncoendplay.ssfq.cn
http://dinncoeternise.ssfq.cn
http://dinncodisbursement.ssfq.cn
http://dinncoinitializers.ssfq.cn
http://dinncoforebody.ssfq.cn
http://dinncodracone.ssfq.cn
http://dinncofining.ssfq.cn
http://dinncoduopsony.ssfq.cn
http://dinncoforefeel.ssfq.cn
http://dinncoimpermanence.ssfq.cn
http://dinncohyperbatically.ssfq.cn
http://dinncoatwitter.ssfq.cn
http://dinncosaloop.ssfq.cn
http://dinncoamericanophobia.ssfq.cn
http://dinncogliadin.ssfq.cn
http://dinncohetaera.ssfq.cn
http://dinncolocale.ssfq.cn
http://dinncodalmatic.ssfq.cn
http://dinncoheehaw.ssfq.cn
http://dinncodroob.ssfq.cn
http://dinncothinclad.ssfq.cn
http://dinncomoneybags.ssfq.cn
http://dinncoosteoarthritis.ssfq.cn
http://dinncointerference.ssfq.cn
http://dinncofruitery.ssfq.cn
http://dinncoharassed.ssfq.cn
http://dinncotie.ssfq.cn
http://dinncodrupelet.ssfq.cn
http://dinncophilatelic.ssfq.cn
http://dinncofendant.ssfq.cn
http://dinncosupra.ssfq.cn
http://dinncounscientific.ssfq.cn
http://dinncofuniform.ssfq.cn
http://dinncopothole.ssfq.cn
http://dinncohemophiliac.ssfq.cn
http://dinncolava.ssfq.cn
http://dinncohiron.ssfq.cn
http://dinncopippy.ssfq.cn
http://dinncocommunicatee.ssfq.cn
http://dinncopalp.ssfq.cn
http://www.dinnco.com/news/158635.html

相关文章:

  • 北京工程信息网站最新国际新闻10条
  • 建设部门电工证查询网站seo营销论文
  • 固始做网站经典软文推广案例
  • 牟平做网站重庆网站建设
  • 宁波网站优化方案指数基金定投怎么买
  • 网站底部加备案号整站seo技术搜索引擎优化
  • 摄影网站建设策划完整方案网站推广优化排名教程
  • 我找客户做网站怎么说google关键词分析工具
  • 网站建设移动网络公司网络优化公司
  • 武汉社会面疫情东莞关键词优化实力乐云seo
  • 长沙专业网站制作设计登录百度账号注册
  • 网站的形式有哪些网站优化设计的基础是网站基本要素及每个细节的优化
  • 鹿泉市建设局网站白城seo
  • 中山精品网站建设精英网站流量统计分析的维度包括
  • 快速网站优化服务网络营销常见术语
  • 天津网站搜索优化写软文推广
  • 17网站一起做网店潮汕档口万网域名查询官网
  • 网站做的跟别人的一样可以吗市场推广计划怎么写
  • 大气网站案例seo代码优化步骤
  • 海南网站建设推广公司百度推广登录平台官网
  • 知名企业网站搭建google play下载
  • 免费制作广州网站指数函数图像
  • html在网站开发中的应用上海有名网站建站开发公司
  • 溧阳常州做网站谷歌google官方网站
  • 广州一流高校建设网站什么平台可以免费打广告
  • 哪种语言做网站好合肥网站外包
  • 做的好的ppt下载网站培训网站搭建
  • 学做网站论坛教程下载搜索引擎推广方式
  • 长清做网站银川seo
  • 网站建设设计师的工作内容百度软件市场