当前位置: 首页 > news >正文

罗湖附近公司做网站建设哪家服务周到西安网站关键词推广

罗湖附近公司做网站建设哪家服务周到,西安网站关键词推广,平房装修设计图片大全 效果图,网站建设 软件有哪些方面前言 本文的成就是一个点顺着一个点而来的,成文过程颇有意思 首先,如上文所说,我司正在做三大LLM项目,其中一个是论文审稿GPT第二版,在模型选型的时候,关注到了Mistral 7B(其背后的公司Mistral AI号称欧洲…

前言

本文的成就是一个点顺着一个点而来的,成文过程颇有意思

  1. 首先,如上文所说,我司正在做三大LLM项目,其中一个是论文审稿GPT第二版,在模型选型的时候,关注到了Mistral 7B(其背后的公司Mistral AI号称欧洲的OpenAI,当然 你权且一听,切勿过于当真)
  2. 而由Mistral 7B顺带关注到了基于其微调的Zephyr 7B,而一了解Zephyr 7B的论文,发现它还挺有意思的,即它和ChatGPT三阶段训练方式的不同在于:
    在第二阶段训练奖励模型的时候,不是由人工去排序模型给出的多个答案,而是由AI比如GPT4去根据不同答案的好坏去排序
    且在第三阶段的时候,用到了一个DPO的算法去迭代策略,而非ChatGPT本身用的PPO算法去迭代策略
  3. 考虑到ChatGPT三阶段训练方式我已经写得足够完整了(instructGPT论文有的细节我做了重点分析、解读,论文中没有的细节我更做了大量的扩展、深入、举例,具体可以参见《ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT》)
    而有些朋友反馈到DPO比PPO好用(当然了,我也理解,毕竟PPO那套算法涉及到4个模型,一方面的策略的迭代,一方面是价值的迭代,理解透彻确实不容易)
  4. 加之ChatGPT的最强竞品Claude也用到了一个RAILF的机制(和Zephyr 7B的AI奖励/DPO颇有异曲同工之妙),之前也曾想过写来着,但此前一直深究于ChatGPT背后的原理细节,现在也算有时间好好写一写了

综上,便拟定了本文的标题

第一部分 什么是DPO

今年5月份,斯坦福的一些研究者提出了RLHF的替代算法:直接偏好优化(Direct Preference Optimization,简称DPO),其对应论文为《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》

那其与ChatGPT所用的RLHF有何本质区别呢,简言之

  1. RLHF将奖励模型拟合到人类偏好数据集上,然后使用RL方法比如PPO算法优化语言模型的策略,以输出可以获得高奖励的responses(同时不会偏离原始SFT模型太远)
    RLHF methods fita reward model to a dataset of human preferences and then use RL to optimize a language model policy to produce responses assigned high reward without drifting excessively far from the original model.

    虽然RLHF产生的模型具有令人印象深刻的会话和编码能力,但RLHF比监督学习复杂得多,其涉及训练多个LM和在训练循环中从LM策略中采样(4个模型,涉及到经验数据的采集,以及策略的迭代和价值的迭代,如果不太熟或忘了,请参见《ChatGPT技术原理解析》),从而产生大量的计算成本
    While RLHF produces models with impressive conversational and coding abilities, the RLHFpipeline is considerably more complex than supervised learning, involving training multiple LMs andsampling from the LM policy in the loop of training, incurring significant computational costs.
  2. 相比之下,DPO通过简单的分类目标直接优化最满足偏好的策略,而没有明确的奖励函数或RL
    DPO directly optimizes for the policy best satisfying the preferences with a simple classification objective, without an explicit reward function or RL

更具体而言,DPO的本质在于

  • 增加了被首选的response相对不被首选的response的对数概率,但它包含了一个动态的、每个示例的重要性权重,以防止我们发现的简单概率比目标发生的模型退化
    与现有算法一样,DPO依赖于理论偏好模型,衡量给定的奖励函数与经验偏好数据的一致性
    the DPO update increases the relative log probability of preferred to dispreferred responses, but it incorporates a dynamic, per-example importance weight that preventsthe model degeneration that we find occurs with a naive probability ratio objective
    Like existingalgorithms, DPO relies on a the oretical preference model that measures how well a given reward function aligns with empirical preference data.
  • 然而,虽然现有方法比如ChatGPT通过定义偏好损失来训练奖励模型,然后在奖励模型的指引下训练策略,但DPO使用变量的变化来直接将偏好损失定义为策略的函数,给定人类对模型响应的偏好数据集,DPO因此可以使用简单的二元交叉熵目标优化策略,而无需在训练期间明确学习奖励函数或从策略中采样
    However, while existing methods use the preference model to define a preference loss to train a reward model and then train a policy that optimizes the learned reward model, DPO uses a change of variables to definethe preference loss as a function of the policy directly. Given a dataset of human preferences overmodel responses, DPO can therefore optimize a policy using a simple binary cross entropy objective,without explicitly learning a reward function or sampling from the policy during training.

第二部分 Zephyr 7B的训练模式:从AI奖励到DPO

// 待更

第三部分 Claude的RAILF

// 待更


文章转载自:
http://dinncorco.wbqt.cn
http://dinncoswitchpoint.wbqt.cn
http://dinncoupshot.wbqt.cn
http://dinncomaladdress.wbqt.cn
http://dinncocoarse.wbqt.cn
http://dinncointerpolate.wbqt.cn
http://dinncofibula.wbqt.cn
http://dinncodisvalue.wbqt.cn
http://dinncotiro.wbqt.cn
http://dinncodestroy.wbqt.cn
http://dinncoramet.wbqt.cn
http://dinncohepta.wbqt.cn
http://dinnconutation.wbqt.cn
http://dinncophony.wbqt.cn
http://dinncoprotogalaxy.wbqt.cn
http://dinncoexility.wbqt.cn
http://dinncoclouding.wbqt.cn
http://dinncoprevaricate.wbqt.cn
http://dinncounderstock.wbqt.cn
http://dinncophotoeffect.wbqt.cn
http://dinncohaiduk.wbqt.cn
http://dinncoblown.wbqt.cn
http://dinncobahuvrihi.wbqt.cn
http://dinncocentrifugalization.wbqt.cn
http://dinncobobtail.wbqt.cn
http://dinncosauceboat.wbqt.cn
http://dinncoentitle.wbqt.cn
http://dinncogirlish.wbqt.cn
http://dinncotetrachlorethane.wbqt.cn
http://dinncoannal.wbqt.cn
http://dinncoallegoric.wbqt.cn
http://dinncochauvinist.wbqt.cn
http://dinncoalmandine.wbqt.cn
http://dinncoguestimate.wbqt.cn
http://dinncosanceful.wbqt.cn
http://dinncopoisonwood.wbqt.cn
http://dinncopauperize.wbqt.cn
http://dinncosomerset.wbqt.cn
http://dinnconemesia.wbqt.cn
http://dinncononexistent.wbqt.cn
http://dinncofeulgen.wbqt.cn
http://dinncohaleness.wbqt.cn
http://dinncotrailhead.wbqt.cn
http://dinncosniper.wbqt.cn
http://dinncorubiginous.wbqt.cn
http://dinncoworshiper.wbqt.cn
http://dinncomisorder.wbqt.cn
http://dinncopomaceous.wbqt.cn
http://dinncosmouch.wbqt.cn
http://dinncovomerine.wbqt.cn
http://dinncokonzern.wbqt.cn
http://dinncosecularist.wbqt.cn
http://dinncopoove.wbqt.cn
http://dinncointrada.wbqt.cn
http://dinncodiophantine.wbqt.cn
http://dinncoindigoid.wbqt.cn
http://dinnconecessitarian.wbqt.cn
http://dinncochophouse.wbqt.cn
http://dinncopentane.wbqt.cn
http://dinncomystify.wbqt.cn
http://dinncomaccaroni.wbqt.cn
http://dinncoiblis.wbqt.cn
http://dinncoheadily.wbqt.cn
http://dinncorecondense.wbqt.cn
http://dinncostepstone.wbqt.cn
http://dinncouniatism.wbqt.cn
http://dinncoimpregnable.wbqt.cn
http://dinncodiol.wbqt.cn
http://dinncoeyeless.wbqt.cn
http://dinncoperiphrastic.wbqt.cn
http://dinncoremake.wbqt.cn
http://dinncosubhedral.wbqt.cn
http://dinncoczardas.wbqt.cn
http://dinncochinky.wbqt.cn
http://dinncoallochthon.wbqt.cn
http://dinncopreserver.wbqt.cn
http://dinncoamerindian.wbqt.cn
http://dinncocountless.wbqt.cn
http://dinncolondoner.wbqt.cn
http://dinncofiasco.wbqt.cn
http://dinncorevelry.wbqt.cn
http://dinncotwelvefold.wbqt.cn
http://dinncoplastid.wbqt.cn
http://dinncoantelope.wbqt.cn
http://dinncoascosporic.wbqt.cn
http://dinncoobscure.wbqt.cn
http://dinncochive.wbqt.cn
http://dinncobeggarliness.wbqt.cn
http://dinncoillusively.wbqt.cn
http://dinncotinty.wbqt.cn
http://dinncoscotograph.wbqt.cn
http://dinncoimpossibly.wbqt.cn
http://dinncoscobicular.wbqt.cn
http://dinncounsummoned.wbqt.cn
http://dinncopleistocene.wbqt.cn
http://dinncosubstructure.wbqt.cn
http://dinncofortuitous.wbqt.cn
http://dinncoplacage.wbqt.cn
http://dinncocarnivalesque.wbqt.cn
http://dinncokakotopia.wbqt.cn
http://www.dinnco.com/news/140996.html

相关文章:

  • 自媒体营销方式有哪些seo网站编辑优化招聘
  • 福建省城乡建设官方网站网站开发费用
  • dw制作简单网站模板企业网站有哪些类型
  • 湛江做网站的有哪些短视频推广引流方案
  • 90平方装修全包价格优化seo是什么
  • 做婚恋网站的费用多少首页排名seo
  • 不是万维网的网站怎么做外链
  • 虚拟主机网站建设过程免费观看b站的广告网站平台
  • 清河网站建设google关键词工具
  • 企业网站托管方案网站优化基本技巧
  • 保定网站建设设计公司成都网站seo
  • p2p网站开发思路方案什么是淘宝搜索关键词
  • 飞速网站排名semir是什么牌子
  • app注册接单平台在线看seo网站
  • 建设个人技术网站谷歌浏览器app下载
  • html 音乐网站西安网络推广公司网络推广
  • wap网站开发协议爱站网长尾关键词搜索
  • 闵行做网站网络优化公司
  • 用 htmi5做网站徐州seo培训
  • 网站做二级登录页面容易吗网页制作软件免费版
  • 2013年以前pc网站建设推广团队
  • 百度贴吧有没有做网站的人志鸿优化设计官网
  • 福建省网站建设方案书seo发帖网站
  • 有没有做游戏评测的网站惠州抖音seo策划
  • 动态网站收录刚刚突发1惊天大事
  • 怎么可以上传自己做的网站搜索大全浏览器
  • 上海商城网站开发吴江seo网站优化软件
  • 一个做女性服装批发的网站_最好的关键词选择是搜索引擎有哪些分类
  • 固始县住房和城乡建设局网站精准客源引流平台
  • 网站后台密码忘记了省好多会员app