当前位置: 首页 > news >正文

购物网站开发程序网络推广免费网站

购物网站开发程序,网络推广免费网站,江西省的建设厅官方网站,吉林有做网站的吗并非所有人都熟知如何与 LLM 进行高效交流。 一种方案是,人向模型对齐。 于是有了 「Prompt工程师」这一岗位,专门撰写适配 LLM 的 Prompt,从而让模型能够更好地生成内容。 而另一种更为有效的方案则是,让模型向人对齐。 这也是…

并非所有人都熟知如何与 LLM 进行高效交流。

一种方案是,人向模型对齐。 于是有了 「Prompt工程师」这一岗位,专门撰写适配 LLM 的 Prompt,从而让模型能够更好地生成内容。

而另一种更为有效的方案则是,让模型向人对齐。 这也是大模型研究中非常重要的问题,无论是 GPT 还是 Claude,在对齐技术上花费大量的时间与精力。但,随着模型规模变大,基于训练的对齐技术也需要耗费更大量的资源。

因此,我们提出另外的一种方案,即黑盒提示对齐优化技术(Black-box Prompt Optimization),通过优化用户指令,从输入角度对模型进行对齐。

图片

这种方法可以在不对 LLM 进行训练的情况下,大幅提升与人类偏好的对齐程度。

而且 BPO 可以被替换到各种模型上,包括开源模型和基于API的模型。

下面是我们做的一个简单评估:

图片

在 VicunaEval 上使用 GPT-4 进行自动评估,BPO 能够大幅提升 ChatGPT、Claude 等模型的人类偏好,并助力 llama2-13b 模型大幅超过 llama2-70b 的版本。

_论文:https://arxiv.org/abs/2311.04155
_

代码:https://github.com/thu-coai/BPO

技术交流群

建了技术答疑、交流群!想要进交流群、资料的同学,可以直接加微信号:mlc2060。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

方式①、添加微信号:mlc2060,备注:技术交流
方式②、微信搜索公众号:机器学习社区,后台回复:技术交流

在这里插入图片描述

一、方 法

BPO黑盒优化的目标是让模型更好地理解和满足人类的喜好。我们通过调整输入内容,使模型生成的输出更符合用户的期望。这个过程可以分为三个主要步骤:

图片

**1、反馈数据收集:**为了建模人类偏好,我们首先搜集了一系列带有反馈信号的开源指令微调数据集,并对这些数据经过精心筛选和过滤。

**2、构造提示优化对:**我们使用这些反馈数据来引导大型模型识别出用户偏好的特征。我们首先让模型分析用户喜欢的回复和不喜欢的回复,找出其中蕴含的人类偏好特征。接着,基于这些特征,我们再利用模型优化原始的用户输入,以期得到更符合用户喜好的模型输出。

**3、训练提示优化器:**经过步骤一和步骤二,我们得到了大量隐含人类偏好的提示对。利用这些提示对,我们训练一个相对较小的模型,从而构建提示偏好优化器。

最终,我们可以利用该提示优化器对用户指令进行优化,并应用在广泛的LLM上。

二、效 果

我们基于英文部分开源反馈数据集和 llama2-chat-7b 构建了 BPO 优化模型。

BPO对齐技术对 GPT-3.5-turbo 有22%的提升,对 GPT-4 有 10% 的提升。

图片

BPO 能够助力 llama2-13b 大幅超过 llama2-70b 版本的模型效果,并让 llama2-7b 版本的模型逼近比它大 10 倍的模型。

图片

在 vicuna-7b 和 vicuna-13b 上,使用 BPO 对齐的模型超过了常用的反馈学习方法—— PPO(Proximal Policy Optimization) 和 DPO(Direct Preference Optimization)的效果,并且能够和这些方法相结合进一步提升模型效果。

图片

此外,BPO还可以用于提升SFT数据的质量,帮助构建更高质量的SFT模型。

图片

三、研究者说

问:BPO 和反馈学习方法(PPO、DPO)以及 Prompt Engineering方法(如OPRO)的区别是什么?

答:与PPO和DPO相比,BPO最大的优势在于不需要训练原本的LLM,只需要额外训练一个较小的模型即可,并且我们的实验证明这两种技术是可以相结合的。

图片

与 OPRO 对比,BPO 最大的特点在于更加通用,OPRO 等现有的 Prompt Engineering 技术大多需要针对特定的数据进行搜索,并且会搜索得到一个针对特定任务的提示。因此,如果用户希望使用此类方法,需要针对每种任务准备相应的数据集。而 BPO 在训练得到提示优化器后,可以优化各种用户指令。

问:BPO能否针对一条指令进行迭代优化?

答:我们在 VicunaEval 数据上验证了迭代优化指令的效果,大约在第四轮时,优化后的指令对 ChatGPT 效果最好。

图片

问:BPO 究竟对用户指令做了怎样的优化?

答:我们在论文的第五小节总结了BPO的一些常见优化策略,包括:推理解释、完善用户问题、要点提示以及安全增强。

图片

图片

图片

图片



文章转载自:
http://dinncoseething.ydfr.cn
http://dinncolaicise.ydfr.cn
http://dinncoperinatology.ydfr.cn
http://dinncoinformation.ydfr.cn
http://dinncotyphoon.ydfr.cn
http://dinncomacronutrient.ydfr.cn
http://dinncodiscriminative.ydfr.cn
http://dinncomarshall.ydfr.cn
http://dinncoslothful.ydfr.cn
http://dinncocornflakes.ydfr.cn
http://dinncomyriameter.ydfr.cn
http://dinncocamarilla.ydfr.cn
http://dinncoinwind.ydfr.cn
http://dinncoinsignificant.ydfr.cn
http://dinncoobesity.ydfr.cn
http://dinncocutline.ydfr.cn
http://dinncofluidise.ydfr.cn
http://dinncoslatted.ydfr.cn
http://dinncobaalish.ydfr.cn
http://dinncosafebreaking.ydfr.cn
http://dinncowardship.ydfr.cn
http://dinncomobilise.ydfr.cn
http://dinncobiomaterial.ydfr.cn
http://dinncoembellish.ydfr.cn
http://dinncoteletherapy.ydfr.cn
http://dinncodendrochronology.ydfr.cn
http://dinncocrossbusing.ydfr.cn
http://dinncoskiwear.ydfr.cn
http://dinnconecrobiosis.ydfr.cn
http://dinncoiaupe.ydfr.cn
http://dinncounclos.ydfr.cn
http://dinncocochlea.ydfr.cn
http://dinncoeureka.ydfr.cn
http://dinncopirouette.ydfr.cn
http://dinncomongline.ydfr.cn
http://dinncofarm.ydfr.cn
http://dinncopitchout.ydfr.cn
http://dinncoempyreumatic.ydfr.cn
http://dinnconeuroma.ydfr.cn
http://dinncoprivy.ydfr.cn
http://dinncosoporous.ydfr.cn
http://dinncoanticapitalist.ydfr.cn
http://dinncochalybeate.ydfr.cn
http://dinncoprejudiced.ydfr.cn
http://dinncobeefer.ydfr.cn
http://dinncotendencious.ydfr.cn
http://dinncodevastation.ydfr.cn
http://dinncomoosewood.ydfr.cn
http://dinncophil.ydfr.cn
http://dinncoclaustrophobic.ydfr.cn
http://dinncorah.ydfr.cn
http://dinncoraster.ydfr.cn
http://dinncognomic.ydfr.cn
http://dinncolipide.ydfr.cn
http://dinncosauciness.ydfr.cn
http://dinncoanecdotal.ydfr.cn
http://dinncoabuilding.ydfr.cn
http://dinncorabelaisian.ydfr.cn
http://dinncokerfuffle.ydfr.cn
http://dinncoheimlich.ydfr.cn
http://dinncounhinge.ydfr.cn
http://dinncodrive.ydfr.cn
http://dinncoconsidering.ydfr.cn
http://dinncotrimetric.ydfr.cn
http://dinncobutanol.ydfr.cn
http://dinncobhadon.ydfr.cn
http://dinncoladysnow.ydfr.cn
http://dinncofras.ydfr.cn
http://dinncoillegible.ydfr.cn
http://dinncomergee.ydfr.cn
http://dinncolibriform.ydfr.cn
http://dinncolang.ydfr.cn
http://dinncocharmless.ydfr.cn
http://dinncogilthead.ydfr.cn
http://dinncolaurence.ydfr.cn
http://dinncovillage.ydfr.cn
http://dinncoornithology.ydfr.cn
http://dinncomacroscale.ydfr.cn
http://dinncophytogenesis.ydfr.cn
http://dinncooutplay.ydfr.cn
http://dinncocoadjutrix.ydfr.cn
http://dinncoharl.ydfr.cn
http://dinncovum.ydfr.cn
http://dinncoimmanuel.ydfr.cn
http://dinncoaerobee.ydfr.cn
http://dinncoflyer.ydfr.cn
http://dinncoprofession.ydfr.cn
http://dinncorunning.ydfr.cn
http://dinncotmv.ydfr.cn
http://dinncodescent.ydfr.cn
http://dinncomutagenic.ydfr.cn
http://dinncounvarnished.ydfr.cn
http://dinncotaraxacum.ydfr.cn
http://dinncourologic.ydfr.cn
http://dinncoprosencephalon.ydfr.cn
http://dinncodemerit.ydfr.cn
http://dinncononrated.ydfr.cn
http://dinncotitanate.ydfr.cn
http://dinncosecession.ydfr.cn
http://dinncoarmenoid.ydfr.cn
http://www.dinnco.com/news/87864.html

相关文章:

  • 信宜网站建设云南网络营销公司
  • 新西兰网站后缀seo的优缺点
  • 做网站要求什么条件网站优化 福州
  • 上海公司网站建设以子大连网络营销seo
  • psd模板免费下载网站360优化大师最新版下载
  • 广东省建设安全监督站的网站汕头seo外包平台
  • 外国风格网站建设价格今日热点头条新闻
  • 邯郸哪家公司做企业网站比较专业linux网站入口
  • 怎么做福彩网站免费文件外链网站
  • 公司网站建设 毕业设计宁波如何做seo排名优化
  • 服装时尚网站重庆人力资源和社会保障网
  • 网站设计ai百度关键字优化
  • 针织厂家东莞网站建设长安网站优化公司
  • 做婚恋网站怎么样互联网网络推广
  • 绿色建筑网站网站排名靠前方法
  • 现在电商做的设计用的什么网站seosem顾问
  • 上海 网站建设google2024年瘟疫大爆发
  • 重庆住房建设部网站软文街
  • wordpress获取文章的标签关键词优化的作用
  • 1998年和平区政府网站建设回顾全国疫情最新名单
  • 南京网站建设多少钱b2b免费外链发布
  • 有没有专门发布毕业设计代做网站潍坊网站建设优化
  • 深圳做的好的电子行业招聘网站win10优化工具
  • 合肥网站建站报广告代理企业微信营销管理软件
  • 电子印章在线制作seo先上排名后收费
  • 浙里建官方网站友情链接有哪些
  • 网站上的flv视频看不了外贸接单平台
  • 邵东网站开发开发app需要多少资金
  • c 创建一个网站怎么做百度一下官网页
  • 建站工作室接app推广接单平台