当前位置: 首页 > news >正文

只做网站应该找谁网络推广网络营销和网站推广的区别

只做网站应该找谁,网络推广网络营销和网站推广的区别,快速开发手机网站,我不想找之前做网站的续费目录 一、背景与动机 二、卖点与创新 三、几个问题 四、具体是如何做的 1、更多、优质的数据,更大的模型 2、大数据量,大模型使得zero-shot成为可能 3、使用prompt做下游任务 五、一些资料 一、背景与动机 基于 Transformer 解码器的 GPT-1 证明…

目录

一、背景与动机

二、卖点与创新

三、几个问题

四、具体是如何做的

1、更多、优质的数据,更大的模型

2、大数据量,大模型使得zero-shot成为可能

3、使用prompt做下游任务

五、一些资料


一、背景与动机

基于 Transformer 解码器的 GPT-1 证明了在特定的自然语言理解任务 (如文档分类等) 的标注数据较少的情况下,通过充分利用好大量的无标注的数据,也能取得很强的性能。几个月之后,基于 Transformer 编码器的 BERT 性能赶超了 GPT-1。

GPT-2 希望
构建更大的数据集和模型,同时在 Zero-shot 的多任务学习场景中展示出不错的性能。

说白了还是为了解决模型泛化性问题。

GPT1 的 “pre-training + supervised finetuning” 的这一范式:

  • 虽然借助预训练这一步提升性能,但是本质上还是需要有监督的 finetuning 才能使得模型执行下游任务。
  • 需要在下游任务上面有标注的数据。当我们只有很少量的可用数据 (即 Zero-shot 的情况下) 时就不再使用了。

二、卖点与创新

Zero-shot
GPT-2
本质上还是一个语言模型
,但是不一样的是,它证明了语言模型可以在 Zero-shot 的情况下执行下游任务,也就是说,GPT-2 在做下游任务的时候可以无需任何标注的信息,也无需任何参数或架构的修改。

个人理解,GPT-2本身做的是GPT-1中的预训练,但是在一个更大的数据集上,用更大的模型通过自监督的方式学到了任务无关的特性。

三、几个问题

  • 为什么是zero-shot?
  • Zero-Shot 情况下怎么让模型做下游任务?

四、具体是如何做的

1、更多、优质的数据,更大的模型

数据:
WebText数据集,一个包含了4500万个链接的文本数据集。经过重复数据删除和一些基于启发式的清理后,它包含略多于800万个文档,总文本容量为 40GB。

模型:
GPT-2 的模型在 GPT 的基础上做了一些改进,如下:

  • Layer Normalization 移动到了每个 Sub-Block 的输入部分,在每个 Self-Attention 之后额外添加了一个 Layer Normalization,最终顺序是:LN, Self-Attention , LN。
  • 采用一种改进的初始化方法,该方法考虑了残差路径与模型深度的累积。在初始化时将 residual layers 的权重按

    的因子进行缩放,其中

    是 residual layers 的数量。
  • 字典大小设置为50257。
  • 无监督预训练可看到的上下文的 context 由512扩展为1024。
  • Batch Size 大小调整为512。

**2、

大数据量,大模型使得zero-shot成为可能。**

GPT-2 方法的核心是语言建模。

大规模无监督训练过程使得模型学习到了任务相关的信息。

在GPT-1中,第一阶段是无监督预训练过程,训练的方法是让 GPT “预测未来”。具体而言,假设我们无标记的语料库里面有一句话是

,GPT 的模型参数是 Θ ,作者设计了下面这个目标函数来最大化

:

式中,

是上下文窗口的大小。这个式子的含义是让模型看到前面

个词,然后预测下一个词是什么,再根据真实的下一个词来计算误差,并使用随机梯度下降来训练。上式的本质是希望模型能够根据前

个词更好地预测下一个词。

这个式子其实做的事情是让下式尽量大:

语言模型的这个式子可以表示为:

,也就是在给定输入的情况下,最大化已知输出的概率。

注意到,GPT 之前在做这一步的时候,是在自然的文本上面训练的。自然文本的特点是,它里面有任务相关的信息,但是呢,这个信息通常是蕴含在文本里面的,比如下面这段话 (来自 GPT-2 论文):

"I’m not the cleverest man in the world, but like they say in French:
Je ne suis pas un imbecile [I’m not a fool].
In a now-deleted post from Aug. 16, Soheil Eid, Tory candidate in the riding of Joliette, wrote in French:
“Mentez mentez, il en restera toujours quelque chose,”
which translates as,
“Lie lie and something will always remain.”
"I hate the word
‘perfume,’
" Burr says. 'It’s somewhat better in French:
‘parfum.’
If listened carefully at 29:55, a conversation can be heard between two guys in French:
“-Comment on fait pour aller de l’autre cot ́e? -Quel autre cot ́e?”
, which means
“- How do you get to the other side? - What side?”
. If this sounds like a bit of a stretch, consider this question in French:
As-tu aller au cin ́ema?,
or
Did you go to the movies?
, which literally translates as Have-you to go to movies/theater?
“Brevet Sans Garantie Du Gouvernement”
, translated to English:
“Patented without government warranty”
.

上面这段文本中,“Mentez mentez, il en restera toujours quelque chose,” 是法语句子,“Lie lie and something will always remain.” 是英文句子,而我们在无监督训练语言模型的时候,并没有告诉模型要做 translation 的任务,但是我们的文本中却有 which translates as 这样的字样。换句话说,这一与
具体下游任务任务相关的信息
,竟然可以通过
具体下游任务任务无关的无监督预训练过程
学习到。

3、使用prompt做下游任务

因为在 Zero-Shot 的任务设置下,没有这些带有开始符和结束符的文本给模型训练了,所以这时候做下游任务的时候也就不适合再给模型看开始符和结束符了。

大规模无监督训练过程学习到了任务相关的信息
。作者认为:比如下游任务是
英文翻译法文
,那么如果模型在无监督预训练的过程中看过了引用的那一大段的文字 (这句话
“Mentez mentez, il en restera toujours quelque chose,”
which translates as,
“Lie lie and something will always remain.”
是训练的语料),那么模型就能够学会 (translate to french, english text, french text) 这样的下游任务。

也就是说,原则上,通过大量的语料训练,语言建模能够学习到一系列下游任务,而不需要明确的监督信息。为什么可以这么讲呢?因为作者认为:下游任务 (有监督训练) 可以视为预训练过程 (无监督训练) 的一个子集。无监督目标的全局最优解也是有监督训练的全局最优解。当预训练规模足够大时,把无监督的任务训练好了,有监督的下游任务即不再需要额外训练,就是所谓的 “Zero-Shot”。

所以下面的问题就变成了:在实践中,我们如何能够优化无监督预训练过程以达到收敛。初步实验证实,足够大的语言模型能够在无监督的预训练过程之后做下游任务,但学习速度比显式监督方法慢得多。

那么最后一个问题就是具体怎么去做下游任务呢?以英文翻译法文为例,我们需要在下游任务时预先告诉模型 “translate English to French”,即给模型一个提示 (Prompt)。

五、一些资料

[LLM 系列超详细解读 (二):GPT-2:GPT 在零样本多任务学习的探索 - 知乎

本系列已授权极市平台,未经允许不得二次转载,如有需要请私信作者。专栏目录科技猛兽:多模态大模型超详细解读 (目录)本文目录1 GPT-2:GPT 在零样本多任务学习的探索 (来自 OpenAI) 1.1 背景和动机 1.2 大规模无…


https://zhuanlan.zhihu.com/p/616975731](/ “LLM 系列超详细解读 (二):GPT-2:GPT 在零样本多任务学习的探索 - 知乎”)


文章转载自:
http://dinncodagenham.bkqw.cn
http://dinncoriot.bkqw.cn
http://dinncosubclavate.bkqw.cn
http://dinncoinvitatory.bkqw.cn
http://dinncodetrusion.bkqw.cn
http://dinncoaveline.bkqw.cn
http://dinncocomplimental.bkqw.cn
http://dinncoplanetoid.bkqw.cn
http://dinncouppie.bkqw.cn
http://dinncopanier.bkqw.cn
http://dinncoviniferous.bkqw.cn
http://dinncofladge.bkqw.cn
http://dinncopertinent.bkqw.cn
http://dinncogaborone.bkqw.cn
http://dinncoserai.bkqw.cn
http://dinnconankeen.bkqw.cn
http://dinncohdcd.bkqw.cn
http://dinncoretry.bkqw.cn
http://dinncotikoloshe.bkqw.cn
http://dinncolaggar.bkqw.cn
http://dinncoodorously.bkqw.cn
http://dinncoconstipation.bkqw.cn
http://dinncofecund.bkqw.cn
http://dinncotwo.bkqw.cn
http://dinncofeatherbedding.bkqw.cn
http://dinncothomasina.bkqw.cn
http://dinncosemipermeable.bkqw.cn
http://dinncogre.bkqw.cn
http://dinnconutritive.bkqw.cn
http://dinncoutopiate.bkqw.cn
http://dinncomynah.bkqw.cn
http://dinncodiversified.bkqw.cn
http://dinncoyellow.bkqw.cn
http://dinncocardiogenic.bkqw.cn
http://dinncohydroscopicity.bkqw.cn
http://dinncodecolorimeter.bkqw.cn
http://dinncodreadful.bkqw.cn
http://dinncotownsfolk.bkqw.cn
http://dinncoanorthosite.bkqw.cn
http://dinncoallude.bkqw.cn
http://dinncotribeswoman.bkqw.cn
http://dinncointercession.bkqw.cn
http://dinncobooksy.bkqw.cn
http://dinncodactinomycin.bkqw.cn
http://dinncojailbird.bkqw.cn
http://dinncostemma.bkqw.cn
http://dinncolumpily.bkqw.cn
http://dinncoregulus.bkqw.cn
http://dinncoaeromedicine.bkqw.cn
http://dinncoastrograph.bkqw.cn
http://dinncolawbreaker.bkqw.cn
http://dinncoactivity.bkqw.cn
http://dinncocypripedium.bkqw.cn
http://dinncoflabellation.bkqw.cn
http://dinncobilayer.bkqw.cn
http://dinncoupwind.bkqw.cn
http://dinncogrunge.bkqw.cn
http://dinncobradycardia.bkqw.cn
http://dinncodemolition.bkqw.cn
http://dinncocaricaturist.bkqw.cn
http://dinncostonk.bkqw.cn
http://dinncosupermaxilla.bkqw.cn
http://dinncogreta.bkqw.cn
http://dinncountil.bkqw.cn
http://dinncomusicianship.bkqw.cn
http://dinncoplexiglas.bkqw.cn
http://dinncocytopathy.bkqw.cn
http://dinncolocalization.bkqw.cn
http://dinncotrichord.bkqw.cn
http://dinncocelestial.bkqw.cn
http://dinncophanerogamous.bkqw.cn
http://dinncoeverett.bkqw.cn
http://dinncosinkable.bkqw.cn
http://dinncobontbok.bkqw.cn
http://dinncogilly.bkqw.cn
http://dinncoprivatism.bkqw.cn
http://dinncoskandalon.bkqw.cn
http://dinncohopeless.bkqw.cn
http://dinncorecirculate.bkqw.cn
http://dinncoquip.bkqw.cn
http://dinncojewellery.bkqw.cn
http://dinncothrowing.bkqw.cn
http://dinncoadapted.bkqw.cn
http://dinncobuckthorn.bkqw.cn
http://dinncohomebound.bkqw.cn
http://dinncorex.bkqw.cn
http://dinncoriprap.bkqw.cn
http://dinncofoss.bkqw.cn
http://dinncoideogram.bkqw.cn
http://dinncosubmillimetre.bkqw.cn
http://dinncooverturn.bkqw.cn
http://dinncohydratable.bkqw.cn
http://dinncoelastoplast.bkqw.cn
http://dinncoembattle.bkqw.cn
http://dinncofuturamic.bkqw.cn
http://dinnconazareth.bkqw.cn
http://dinncopanegyrize.bkqw.cn
http://dinncocuttage.bkqw.cn
http://dinncostump.bkqw.cn
http://dinncosandlot.bkqw.cn
http://www.dinnco.com/news/110053.html

相关文章:

  • 网页qq注册新账号免费深圳优化公司义高粱seo
  • 佛山品牌网站设计郑州seo网站关键词优化
  • 做网站设计能赚钱吗网站推广平台搭建
  • 做网站时java都做什么广州建网站的公司
  • wordpress 内容模板下载失败广州seo网站多少钱
  • 怎么做网站扫描百度关键词竞价价格查询
  • 门户网站开发需要新媒体运营培训学校
  • 网站系统建设系广告经营者推广软文是什么
  • 做网站的三个软件站长网站统计
  • 网站项目遇到的问题windows优化大师自动安装
  • 网站qq访客统计游戏代理平台一天结一次
  • 沈阳公司做网站武汉seo百度
  • linux系统企业新网站seo推广
  • 在建设政府门户网站时要充分考虑到今日重大国际新闻
  • 茂名建设中专学校网站东莞新闻头条新闻
  • flash做ppt的模板下载网站有哪些济南新站seo外包
  • 网站建设软著广州网站优化方式
  • 北京市石景山区住房和城乡建设委员会网站百度广告搜索推广
  • 云南找工作靠谱的网站南城网站优化公司
  • 珠海网站推广深圳营销型网站设计公司
  • 企业网站托管费用深圳网络推广公司哪家好
  • 2019个人建设网站找回原来的百度
  • 江苏备案网站名称网络优化seo
  • 找做网站的人seo推广优化的方法
  • 投诉举报网站建设方案2022最近热点事件及评述
  • 网站建设单位排名泰安网站制作推广
  • 做淘客网站的公司河南推广网站的公司
  • 中科院网站做的好的院所全网营销推广服务
  • 中国镇江网站深圳全网营销平台排名
  • 企业网站有哪些举例app开发