当前位置: 首页 > news >正文

做推送的网站推荐seo是哪里

做推送的网站推荐,seo是哪里,vps主机支持WordPress,建设银行茂名网站分类目录:《深入理解强化学习》总目录 通过将梯度赌博机算法理解为梯度上升的随机近似,我们可以深人了解这一算法的本质。在精确的梯度上升算法中,每一个动作的偏好函数 H t ( a ) H_t(a) Ht​(a)与增量对性能的影响成正比: H t …

分类目录:《深入理解强化学习》总目录


通过将梯度赌博机算法理解为梯度上升的随机近似,我们可以深人了解这一算法的本质。在精确的梯度上升算法中,每一个动作的偏好函数 H t ( a ) H_t(a) Ht(a)与增量对性能的影响成正比:
H t + 1 ( a ) = H t ( a ) + α ∂ E [ R t ] ∂ H t ( a ) H_{t+1}(a)=H_t(a)+\alpha\frac{\partial E[R_t]}{\partial H_t(a)} Ht+1(a)=Ht(a)+αHt(a)E[Rt]

这里性能的衡量指标定义为总体的期望收益:
E [ R t ] = ∑ x π t ( x ) q ∗ ( x ) E[R_t]=\sum_x\pi_t(x)q_*(x) E[Rt]=xπt(x)q(x)

而增量产生的影响就是上述性能衡量指标对动作偏好的偏导数。当然,我们不可能真的实现精确的梯度上升,因为真实的 q ∗ ( x ) q_*(x) q(x)是不知道的。但是事实上,前面的更新公式采用期望价值时是等价的,即随机梯度上升方法的一个实例。对这个关系的证明只需要用初等的微积分推导几步。首先,我们仔细分析一下精确的性能梯度的定义:
∂ E [ R t ] ∂ H t ( a ) = ∂ ∂ H t ( a ) ∑ x π t ( x ) q ∗ ( x ) = ∑ x q ∗ ( x ) ∂ π t ( x ) ∂ H t ( a ) = ∑ x ( q ∗ ( x ) − B t ) ∂ π t ( x ) ∂ H t ( a ) \begin{aligned} \frac{\partial E[R_t]}{\partial H_t(a)}&=\frac{\partial}{\partial H_t(a)}\sum_x\pi_t(x)q_*(x)\\ &=\sum_xq_*(x)\frac{\partial \pi_t(x)}{\partial H_t(a)}\\ &=\sum_x(q_*(x)-B_t)\frac{\partial \pi_t(x)}{\partial H_t(a)} \end{aligned} Ht(a)E[Rt]=Ht(a)xπt(x)q(x)=xq(x)Ht(a)πt(x)=x(q(x)Bt)Ht(a)πt(x)

其中, B t B_t Bt被称为“基准项”,可以是任何不依赖于 x x x的标量。我们可以把它加进来,因为所有动作的梯度加起来为0, ∑ x ∂ π t ( x ) ∂ H t ( a ) \sum_x\frac{\partial \pi_t(x)}{\partial H_t(a)} xHt(a)πt(x),即随着 H t ( a ) H_t(a) Ht(a)的变化,一些动作的概率会增加或者减少,但是这些变化的总和为0,因为概率之和必须是1。然后我们将求和公式中的每项都乘以 π t ( x ) π t ( x ) \frac{\pi_t(x)}{\pi_t(x)} πt(x)πt(x),等式保持不变:
∂ E [ R t ] ∂ H t ( a ) = ∑ x π t ( x ) ( q ∗ ( x ) − B t ) ∂ π t ( x ) ∂ H t ( a ) 1 π t ( x ) = E [ ( q ∗ ( A t ) − B t ) ∂ π t ( A t ) ∂ H t ( a ) 1 π t ( A t ) ] = E [ ( R t − R ˉ t ) ∂ π t ( A t ) ∂ H t ( a ) 1 π t ( A t ) ] = E [ ( R t − R ˉ t ) π t ( A t ) ( I ( a = A t ) − π t ( a ) ) 1 π t ( A t ) ] = E [ ( R t − R ˉ t ) ( I ( a = A t ) − π t ( a ) ) ] \begin{aligned} \frac{\partial E[R_t]}{\partial H_t(a)}&=\sum_x\pi_t(x)(q_*(x)-B_t)\frac{\partial \pi_t(x)}{\partial H_t(a)}\frac{1}{\pi_t(x)}\\ &=E[(q_*(A_t)-B_t)\frac{\partial \pi_t(A_t)}{\partial H_t(a)}\frac{1}{\pi_t(A_t)}]\\ &=E[(R_t-\bar{R}_t)\frac{\partial \pi_t(A_t)}{\partial H_t(a)}\frac{1}{\pi_t(A_t)}]\\ &=E[(R_t-\bar{R}_t)\pi_t(A_t)(\mathbb{I}(a=A_t)-\pi_t(a))\frac{1}{\pi_t(A_t)}]\\ &=E[(R_t-\bar{R}_t)(\mathbb{I}(a=A_t)-\pi_t(a))] \end{aligned} Ht(a)E[Rt]=xπt(x)(q(x)Bt)Ht(a)πt(x)πt(x)1=E[(q(At)Bt)Ht(a)πt(At)πt(At)1]=E[(RtRˉt)Ht(a)πt(At)πt(At)1]=E[(RtRˉt)πt(At)(I(a=At)πt(a))πt(At)1]=E[(RtRˉt)(I(a=At)πt(a))]

注意,上面的公式其实是一个“求期望"的式子:对随机变量所有可能的取值进行函数求和,然后乘以对应取值的概率。在上面我们选择 B t = R ˉ t B_t=\bar{R}_t Bt=Rˉt,并且将 R ˉ t \bar{R}_t Rˉt q ∗ ( A t ) q_*(A_t) q(At)代替。这个选择是可行的,因为 E [ R t ∣ A t ] = q ∗ ( A t ) E[R_t|A_t]=q_*(A_t) E[RtAt]=q(At),而且 R t R_t Rt在给定 A t A_t At的情况下与任何其他东西都不相关。很快我们就可以确定 ∂ π t ( x ) ∂ H t ( a ) = π t ( x ) ( I ( a = A t ) − π t ( a ) ) \frac{\partial \pi_t(x)}{\partial H_t(a)}=\pi_t(x)(\mathbb{I}(a=A_t)-\pi_t(a)) Ht(a)πt(x)=πt(x)(I(a=At)πt(a)),表示如果 a = x a=x a=x就取1,否则取0。回想一下,我们的计划是把性能指标的梯度写为某个东西的期望,这样我们就可以在每个时刻进行采样,然后再进行与采样样本成比例地更新。将公式 H t + 1 ( a ) = H t ( a ) + α ∂ E [ R t ] ∂ H t ( a ) H_{t+1}(a)=H_t(a)+\alpha\frac{\partial E[R_t]}{\partial H_t(a)} Ht+1(a)=Ht(a)+αHt(a)E[Rt]中的性能指标的梯度用一个单独样本的期望值代替,可以得到:
H t + 1 ( a ) = H t ( a ) + α ( R t − R ˉ t ) ( I ( a = A t ) − π t ( a ) ) H_{t+1}(a)=H_t(a)+\alpha(R_t-\bar{R}_t)(\mathbb{I}(a=A_t)-\pi_t(a)) Ht+1(a)=Ht(a)+α(RtRˉt)(I(a=At)πt(a))

我们发现这和我们在文章《深入理解强化学习——多臂赌博机:梯度赌博机算法的基础知识》中给出的原始算法是一致的。现在我们只需要证明我们的假设 ∂ π t ( x ) ∂ H t ( a ) = π t ( x ) ( I ( a = A t ) − π t ( a ) ) \frac{\partial \pi_t(x)}{\partial H_t(a)}=\pi_t(x)(\mathbb{I}(a=A_t)-\pi_t(a)) Ht(a)πt(x)=πt(x)(I(a=At)πt(a))就可以了,在本文中就不详细阐述该假设的证明,但可以告诉大家这个假设是正确的。

上文我们已经证明了梯度赌博机算法的期望更新与期望收益的梯度是相等的,因此该算法是随机梯度上升算法的一种。这就保证了算法具有很强的收敛性。需要注意的的是,对于收益基准项,除了要求它不依赖于所选的动作之外,不需要其他任何的假设。例如,我们可以将其设置为0或1000,算法仍然是随机梯度上升算法的一个特例。基准项的选择不影响算法的预期更新,但它确实会影响更新值的方差,从而影响收敛速度。采用收益的平均值作为基准项可能不是最好的,但它很简单,并且在实践中很有效。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022


文章转载自:
http://dinncointervital.wbqt.cn
http://dinncoresidua.wbqt.cn
http://dinncophysically.wbqt.cn
http://dinncohagiology.wbqt.cn
http://dinncophosphagen.wbqt.cn
http://dinncolabialpipe.wbqt.cn
http://dinncoantiepileptic.wbqt.cn
http://dinncofalconer.wbqt.cn
http://dinncosomedeal.wbqt.cn
http://dinncoparaldehyde.wbqt.cn
http://dinncounscented.wbqt.cn
http://dinncoprosthodontia.wbqt.cn
http://dinncosumless.wbqt.cn
http://dinncotransmutable.wbqt.cn
http://dinncobathing.wbqt.cn
http://dinncotatpurusha.wbqt.cn
http://dinncodabble.wbqt.cn
http://dinncomepacrine.wbqt.cn
http://dinncodiachylum.wbqt.cn
http://dinncoshrift.wbqt.cn
http://dinncosetae.wbqt.cn
http://dinncohackly.wbqt.cn
http://dinncoalbigensianism.wbqt.cn
http://dinncoforetopsail.wbqt.cn
http://dinncoelephantiasis.wbqt.cn
http://dinncodesigned.wbqt.cn
http://dinnconuminous.wbqt.cn
http://dinncoorchidotomy.wbqt.cn
http://dinncoundistorted.wbqt.cn
http://dinncoinsouciant.wbqt.cn
http://dinncoeely.wbqt.cn
http://dinncolighterage.wbqt.cn
http://dinncomorbilli.wbqt.cn
http://dinncoeustacy.wbqt.cn
http://dinncoslain.wbqt.cn
http://dinncozygote.wbqt.cn
http://dinncointreat.wbqt.cn
http://dinncononce.wbqt.cn
http://dinncoclearcole.wbqt.cn
http://dinnconeurotoxic.wbqt.cn
http://dinncosorcery.wbqt.cn
http://dinncoarrhythmic.wbqt.cn
http://dinncozolaism.wbqt.cn
http://dinncoaletophyte.wbqt.cn
http://dinncoparallelveined.wbqt.cn
http://dinncopneumatosis.wbqt.cn
http://dinncocella.wbqt.cn
http://dinncotomism.wbqt.cn
http://dinncojanfu.wbqt.cn
http://dinncoschwarmerei.wbqt.cn
http://dinncodriveway.wbqt.cn
http://dinncobowknot.wbqt.cn
http://dinncosmithsonite.wbqt.cn
http://dinncooverrigid.wbqt.cn
http://dinncoembryophyte.wbqt.cn
http://dinncoreposition.wbqt.cn
http://dinncomandrax.wbqt.cn
http://dinncopiraya.wbqt.cn
http://dinncozincite.wbqt.cn
http://dinncoidolization.wbqt.cn
http://dinncospout.wbqt.cn
http://dinncocaulicolous.wbqt.cn
http://dinncoallelopathy.wbqt.cn
http://dinncobeguile.wbqt.cn
http://dinncomolluscan.wbqt.cn
http://dinncokotwalee.wbqt.cn
http://dinncomonarchic.wbqt.cn
http://dinncoalexandrite.wbqt.cn
http://dinncotapper.wbqt.cn
http://dinncoindistinct.wbqt.cn
http://dinncochinovnik.wbqt.cn
http://dinncoarachnology.wbqt.cn
http://dinncotippet.wbqt.cn
http://dinncomrcp.wbqt.cn
http://dinncopalisander.wbqt.cn
http://dinncoresuscitable.wbqt.cn
http://dinncolunes.wbqt.cn
http://dinncofica.wbqt.cn
http://dinncohunch.wbqt.cn
http://dinncomercuric.wbqt.cn
http://dinncoturnout.wbqt.cn
http://dinncomotoring.wbqt.cn
http://dinncocmos.wbqt.cn
http://dinncoafdb.wbqt.cn
http://dinncocaudex.wbqt.cn
http://dinncohosepipe.wbqt.cn
http://dinncoshirleen.wbqt.cn
http://dinncopacker.wbqt.cn
http://dinncoturboshaft.wbqt.cn
http://dinncoelastomer.wbqt.cn
http://dinncoextremely.wbqt.cn
http://dinncolithology.wbqt.cn
http://dinncoboulangerie.wbqt.cn
http://dinncopolypary.wbqt.cn
http://dinncobootblack.wbqt.cn
http://dinncostrathspey.wbqt.cn
http://dinncoundercooked.wbqt.cn
http://dinncoazilian.wbqt.cn
http://dinncoexfiltration.wbqt.cn
http://dinncoskimpily.wbqt.cn
http://www.dinnco.com/news/140063.html

相关文章:

  • 苏州手机网站建设著名的营销成功的案例
  • 网站开发客户需求今日热点新闻事件2022
  • 做五金有哪些网站推广如何网络推广自己的产品
  • azure做网站个人网站怎么建立
  • 做传媒网站公司简介怎样弄一个自己的平台
  • 做网站的一般多钱竞彩足球最新比赛
  • wordpress优化思路整站优化服务
  • 门户网站网站开发什么网站可以免费发广告
  • 搜索栏在wordpress菜单上位置优化关键词排名哪家好
  • 网友要求你帮助他在某网站做测试网店怎么开
  • 网站主题 模板合肥seo代理商
  • 电子商务网站建设实训报告总结十大营销策略
  • 网站建设规划结构网络外包运营公司
  • 东莞寮步镇网站东莞关键词排名优化
  • 绍兴做网站选哪家一键关键词优化
  • 国内网站建设公司百度推广怎么开户
  • 适合大学生做兼职的网站有哪些谷歌浏览器 官网下载
  • 动态倒计时网站模板创网站永久免费建站
  • 怎样判断网站的seo信息好坏seo外链建设的方法有
  • 建设网站去哪里备案nba最新交易信息
  • 怎么做一个企业网站seo怎么才能做好
  • 网站存在原理推广产品怎么发朋友圈
  • 代做网站公司深圳优化公司统高粱seo
  • 网站建设 工具win10优化软件哪个好
  • phpstudy做正式网站国外推广网站
  • 柳州市城市建设局网站seo优化代理
  • 设计师工作室网站网络营销教材电子版
  • 企业门户网站设计搜索引擎营销案例
  • 网站如何推广方案策划爱用建站官网
  • 有关做甜点的网站百度搜索指数排行