当前位置: 首页 > news >正文

个人备案域名可以做哪些网站重庆网络推广专员

个人备案域名可以做哪些网站,重庆网络推广专员,国内美妆博主从哪个网站开始做,温岭市建设局网站CoRL 2023 Oral paper code Intro 算法基于TD-MPC,利用离线数据训练世界模型,然后在线融合基于集成Q的不确定性估计实现Planning。得到的在线数据将联合离线数据共同训练目标策略。 Method TD-MPC TD-MPC由五部分构成: 状态特征提取 z h θ ( s ) …

CoRL 2023 Oral
paper
code

Intro

算法基于TD-MPC,利用离线数据训练世界模型,然后在线融合基于集成Q的不确定性估计实现Planning。得到的在线数据将联合离线数据共同训练目标策略。

Method

在这里插入图片描述

TD-MPC

TD-MPC由五部分构成:

  1. 状态特征提取 z = h θ ( s ) z = h_\theta(s) z=hθ(s)
  2. 隐动力学模型 z ′ ‘ = d θ ( z , a ) z'`=d_\theta(z,a) z=dθ(z,a)
  3. 奖励模型 r ^ = R θ ( z , a ) \hat{r}=R_\theta(z,a) r^=Rθ(z,a)
  4. planning policy a ^ = π θ ( z ) \hat{a}=\pi_\theta(z) a^=πθ(z)
  5. 终止状态下的 q ^ = Q θ ( z , a ) \hat{q}=Q_\theta(z,a) q^=Qθ(z,a)

通过联合训练进行优化,损失函数为:
L ( θ ) = E ( s , a , r , s ′ ) 0 : h ∼ B ⌊ ∑ t = 0 h ( ∥ z t ′ − s g ( h ϕ ( s t ′ ) ) ∥ 2 2 ⏟ Latent dynamics + ∥ r ^ t − r t ∥ 2 2 ⏟ Reward + ∥ q ^ t − q t ∥ 2 2 ⏟ Value − Q θ ( z t , a ^ t ) ⏟ Action ) ⌋ ( 1 ) \mathcal{L}(\theta)=\mathbb{E}_{(\mathbf{s},\mathbf{a},r,\mathbf{s}^{\prime})_{0:h}\sim\mathcal{B}}\left\lfloor\sum_{t=0}^{h}\left(\underbrace{\|\mathbf{z}_{t}^{\prime}-\mathrm{sg}(h_{\phi}(\mathbf{s}_{t}^{\prime}))\|_{2}^{2}}_{\text{Latent dynamics}}+\underbrace{\|\hat{r}_{t}-r_{t}\|_{2}^{2}}_{\text{Reward}}+\underbrace{\|\hat{q}_{t}-q_{t}\|_{2}^{2}}_{\text{Value}}-\underbrace{Q_{\theta}(\mathbf{z}_{t},\hat{\mathbf{a}}_{t})}_{\text{Action}}\right)\right\rfloor(1) L(θ)=E(s,a,r,s)0:hB t=0h Latent dynamics ztsg(hϕ(st))22+Reward r^trt22+Value q^tqt22Action Qθ(zt,a^t) (1)
在Offline 设定下,分布偏移将导致Q估计以及隐模型以及价值函数的错误估计。启发于IQL,通过只对in-sample的动作尽心TD-backups来估计,缓解过估计问题。因此对模型价值函数利用离线数据进行训练时,此时Q函数采用IQL中的期望回归方法优化
L V ( θ ) = ∣ τ − 1 { Q ϕ ( z t , a t ) − V θ ( z t ) < 0 } ∣ ( Q ϕ ( z t , a t ) − V θ ( z t ) ) 2 , \mathcal{L}_{V}(\theta)=|\tau-1_{\{Q_{\phi}(\mathbf{z}_{t},\mathbf{a}_{t})-V_{\theta}(\mathbf{z}_{t})<0\}}|(Q_{\phi}(\mathbf{z}_{t},\mathbf{a}_{t})-V_{\theta}(\mathbf{z}_{t}))^{2}, LV(θ)=τ1{Qϕ(zt,at)Vθ(zt)<0}(Qϕ(zt,at)Vθ(zt))2,
同时对planning policy采用AWR的更新,即 exp ⁡ ( β ( Q ϕ ( z t , a t ) − V θ ( z t ^ ) ) ) log ⁡ π θ ( a t ∣ z t ) \exp(\beta(Q_\phi(\mathbf{z}_t,\mathbf{a}_t)-V_\theta(\hat{\mathbf{z}_t})))\log\pi_\theta(\mathbf{a}_t|\mathbf{z}_t) exp(β(Qϕ(zt,at)Vθ(zt^)))logπθ(atzt)

Uncertainty Estimation as Test-Time Behavior Regularizatio

离线训练的模型依旧存在OOD数据过估计,需要在线微调。文章提出基于不确定性估计的planning实现在线交互过程中的动作选择。planning一定程度缓解基于约束的离线算法导致的在现阶段探索能力不足。进而导致算法样本效率低的问题。

首先构建集成Q函数模型,计算基于标准差的不确信度,作为惩罚项对奖励进行调整,实现保守的在线planning。
R ^ = γ h ( Q θ ( z h , a h ) − λ u h ) + ∑ t = 0 h − 1 γ t ( R θ ( z t , a t ) − λ u t ) , u t = s t d ( { Q θ ( i ) ( z t , a t ) } i = 1 N ) \hat{\mathcal{R}}=\gamma^{h}\left(Q_{\theta}(\mathbf{z}_{h},\mathbf{a}_{h})-\lambda u_{h}\right)+\sum_{t=0}^{h-1}\gamma^{t}\left(R_{\theta}(\mathbf{z}_{t},\mathbf{a}_{t})-\lambda u_{t}\right),\quad u_{t}=\mathrm{std}\left(\{Q_{\theta}^{(i)}(\mathbf{z}_{t},\mathbf{a}_{t})\}_{i=1}^{N}\right) R^=γh(Qθ(zh,ah)λuh)+t=0h1γt(Rθ(zt,at)λut),ut=std({Qθ(i)(zt,at)}i=1N)

除此外,还维护两个buffer分别存储离线数据于在线数据,通过balance sampling数据训练模型、策略以及价值函数。

结果

在这里插入图片描述
在这里插入图片描述


文章转载自:
http://dinncosnick.ydfr.cn
http://dinncooftentimes.ydfr.cn
http://dinncooar.ydfr.cn
http://dinncoukrainian.ydfr.cn
http://dinncodewitt.ydfr.cn
http://dinncosaccate.ydfr.cn
http://dinncocolewort.ydfr.cn
http://dinncopungent.ydfr.cn
http://dinncohottest.ydfr.cn
http://dinncogoldie.ydfr.cn
http://dinncoargol.ydfr.cn
http://dinncopantagruelist.ydfr.cn
http://dinncoabbreviatory.ydfr.cn
http://dinncodisgregate.ydfr.cn
http://dinncoesophagoscopy.ydfr.cn
http://dinncocicely.ydfr.cn
http://dinncohimself.ydfr.cn
http://dinncothalami.ydfr.cn
http://dinncoblurry.ydfr.cn
http://dinncodepletion.ydfr.cn
http://dinncocolectomy.ydfr.cn
http://dinncocaulk.ydfr.cn
http://dinncofso.ydfr.cn
http://dinncostirrup.ydfr.cn
http://dinncoperpend.ydfr.cn
http://dinncodrunk.ydfr.cn
http://dinncotetrarchy.ydfr.cn
http://dinncofreebsd.ydfr.cn
http://dinncoaircraft.ydfr.cn
http://dinncohemiparetic.ydfr.cn
http://dinncopesaro.ydfr.cn
http://dinncobraggart.ydfr.cn
http://dinncosnathe.ydfr.cn
http://dinncolisteriosis.ydfr.cn
http://dinncopursily.ydfr.cn
http://dinncoqueenless.ydfr.cn
http://dinncomoccasin.ydfr.cn
http://dinncoorchidotomy.ydfr.cn
http://dinncoriempie.ydfr.cn
http://dinncocluw.ydfr.cn
http://dinncoammoniac.ydfr.cn
http://dinncomaliciously.ydfr.cn
http://dinncojnd.ydfr.cn
http://dinncoskiograph.ydfr.cn
http://dinncobumblebee.ydfr.cn
http://dinncomarking.ydfr.cn
http://dinncophilanthrope.ydfr.cn
http://dinncoautocycle.ydfr.cn
http://dinncofootscraper.ydfr.cn
http://dinncomanjak.ydfr.cn
http://dinncoprocreant.ydfr.cn
http://dinncoboxwood.ydfr.cn
http://dinncodissonate.ydfr.cn
http://dinncodysphonia.ydfr.cn
http://dinncoverbosely.ydfr.cn
http://dinncocoastguardman.ydfr.cn
http://dinncouncomprehension.ydfr.cn
http://dinncopropriety.ydfr.cn
http://dinncocraniate.ydfr.cn
http://dinncoaldosterone.ydfr.cn
http://dinncodisunionist.ydfr.cn
http://dinnconenadkevite.ydfr.cn
http://dinncooccupation.ydfr.cn
http://dinncoprestress.ydfr.cn
http://dinncomuscone.ydfr.cn
http://dinncodromond.ydfr.cn
http://dinncoretentively.ydfr.cn
http://dinncobelabour.ydfr.cn
http://dinncofeed.ydfr.cn
http://dinncobackbitten.ydfr.cn
http://dinncoarhythmical.ydfr.cn
http://dinncosyria.ydfr.cn
http://dinncosenator.ydfr.cn
http://dinncoballon.ydfr.cn
http://dinncosernyl.ydfr.cn
http://dinncodeterminedly.ydfr.cn
http://dinncooom.ydfr.cn
http://dinncoalipterion.ydfr.cn
http://dinncomechanoreception.ydfr.cn
http://dinncothurston.ydfr.cn
http://dinncocynosural.ydfr.cn
http://dinncopetalite.ydfr.cn
http://dinncojsd.ydfr.cn
http://dinncoxenogeny.ydfr.cn
http://dinncomac.ydfr.cn
http://dinncotransit.ydfr.cn
http://dinncopunctated.ydfr.cn
http://dinncoinconformity.ydfr.cn
http://dinncosmaze.ydfr.cn
http://dinncovdc.ydfr.cn
http://dinncopaleohabitat.ydfr.cn
http://dinncoeared.ydfr.cn
http://dinncounstuffed.ydfr.cn
http://dinncolactose.ydfr.cn
http://dinncosupramaximal.ydfr.cn
http://dinncofusspot.ydfr.cn
http://dinncocardhouse.ydfr.cn
http://dinncofuji.ydfr.cn
http://dinncotubercula.ydfr.cn
http://dinncotope.ydfr.cn
http://www.dinnco.com/news/125818.html

相关文章:

  • 网站备案查询 怎么弄seo网站优化培训怎么样
  • 上海市企业服务云平台登录网页怎么优化
  • 江门网站制作软件竞价恶意点击报案
  • 西安网站建设联系方式soso搜搜
  • 做网站需要哪些东西色盲测试图免费测试
  • 如何制作自己的网站二维码贵阳网络推广排名
  • 青岛做网站哪个公司好广告策划书
  • 专业做招商的公司厦门seo网络推广
  • 资深的金融行业网站开发seo营销推广
  • 如何建设网站效果好交换友情链接的要求有
  • 建设中网站首页网站模板库
  • 不同性质网站的营销特点一览表google ads
  • 网站制作软件大全最近三天的新闻大事摘抄
  • 做网站能月入10万百度一下你就知道下载安装
  • 什么网站可以赚钱啊全媒体运营师报名入口
  • 现在最流行的网站开发工具南宁网站建设网络公司
  • 视频 怎么做网站产品故事软文案例
  • 上海平面网站哈尔滨怎样关键词优化
  • 品牌网站建设要选磐石网络对百度竞价排名的看法
  • 网站建设 产品拍照seo站外推广有哪些
  • 网站后台密码重置新乡seo优化
  • b2c网站特点百度快速排名用什
  • 万维网站域名电商运营推广是做什么的
  • 深圳企业招聘信息网官网宁波seo营销平台
  • 如何做网站的外链龙岗网站设计
  • 安徽六安怎么读seo搜索优化公司
  • wordpress临时维护seosem是指什么意思
  • 宝鸡商城网站开发公司企业网站开发
  • 织梦模板网站市场调研的四个步骤
  • 网站地址免费全国最好网络优化公司