当前位置: 首页 > news >正文

威海专业做网站公司discuz论坛seo设置

威海专业做网站公司,discuz论坛seo设置,网站短链接怎么做的,靠谱的写作网站在Self-Attention机制中,为什么需要对 Q K T QK^T QKT 的结果进行缩放,除以 d k \sqrt{d_k} dk​ ​。以下是详细解释: 缩放的原因 除以 d k \sqrt{d_k} dk​ ​ 的原因有两个: 防止输入过大:如果不缩放&#xf…

在Self-Attention机制中,为什么需要对 Q K T QK^T QKT 的结果进行缩放,除以 d k \sqrt{d_k} dk 。以下是详细解释:

缩放的原因

除以 d k \sqrt{d_k} dk 的原因有两个:

  1. 防止输入过大:如果不缩放, Q K T QK^T QKT的值可能会非常大,这会导致Softmax的值非常小,接近于0,从而造成梯度消失问题。
  2. 归一化:缩放使得 Q ⋅ K Q\cdot K QK 的结果满足均值为0,方差为1的分布,类似于归一化的效果。

数学推导

假设 Q Q Q K K K中的元素是从均值为0,方差为1的独立同分布随机变量。设 X = q i X = q_i X=qi Y = k i Y = k_i Y=ki,则:

  1. E ( X ) = E ( Y ) = 0 E(X) = E(Y) = 0 E(X)=E(Y)=0
  2. D ( X Y ) = E ( X 2 ) E ( Y 2 ) − [ E ( X ) E ( Y ) ] 2 = 1 ⋅ 1 − 0 = 1 D(XY) = E(X^2)E(Y^2) - [E(X)E(Y)]^2 = 1 \cdot 1 - 0 = 1 D(XY)=E(X2)E(Y2)[E(X)E(Y)]2=110=1

因此, D ( ∑ i = 1 d k q i k i ) = d k D\left(\sum_{i=1}^{d_k} q_i k_i\right) = d_k D(i=1dkqiki)=dk

Q K T QK^T QKT 的缩放:
D ( Q K T d k ) = 1 d k D ( ∑ i = 1 d k q i k i ) = 1 d k ⋅ d k = 1 D\left(\frac{QK^T}{\sqrt{d_k}}\right) = \frac{1}{d_k} D\left(\sum_{i=1}^{d_k} q_i k_i\right) = \frac{1}{d_k} \cdot d_k = 1 D(dk QKT)=dk1D(i=1dkqiki)=dk1dk=1

好的,让我们通过一个具体的例子来说明 (d_k) 的作用以及为什么要除以 (\sqrt{d_k})。

假设我们有一个查询向量 q \mathbf{q} q 和一个键向量 k \mathbf{k} k,它们的维度 d k = 4 d_k = 4 dk=4。这些向量的元素是均值为0、方差为1的独立同分布随机变量。我们具体来看下这两个向量的点积结果以及缩放后的结果。

假设:
q = [ 1.2 , − 0.5 , 0.3 , 0.8 ] \mathbf{q} = [1.2, -0.5, 0.3, 0.8] q=[1.2,0.5,0.3,0.8]
k = [ 0.6 , − 0.1 , − 1.5 , 0.7 ] \mathbf{k} = [0.6, -0.1, -1.5, 0.7] k=[0.6,0.1,1.5,0.7]

计算点积:
q ⋅ k = 1.2 × 0.6 + ( − 0.5 ) × ( − 0.1 ) + 0.3 × ( − 1.5 ) + 0.8 × 0.7 \mathbf{q} \cdot \mathbf{k} = 1.2 \times 0.6 + (-0.5) \times (-0.1) + 0.3 \times (-1.5) + 0.8 \times 0.7 qk=1.2×0.6+(0.5)×(0.1)+0.3×(1.5)+0.8×0.7
= 0.72 + 0.05 − 0.45 + 0.56 = 0.72 + 0.05 - 0.45 + 0.56 =0.72+0.050.45+0.56
= 0.88 = 0.88 =0.88

不进行缩放时,这个点积结果直接用于Softmax计算。但是,当 (d_k) 很大时,这个值可能会非常大,导致Softmax输出非常尖锐。为了避免这种情况,我们将点积结果除以 (\sqrt{d_k}) 来进行缩放。

在本例中, d k = 4 d_k = 4 dk=4,因此 d k = 2 \sqrt{d_k} = 2 dk =2

缩放后的点积结果:
q ⋅ k d k = 0.88 2 = 0.44 \frac{\mathbf{q} \cdot \mathbf{k}}{\sqrt{d_k}} = \frac{0.88}{2} = 0.44 dk qk=20.88=0.44

现在我们来比较一下经过Softmax之前的值和经过缩放后的值在Softmax函数中的效果:

假设有另外两个查询向量和键向量的点积结果分别为2.0和0.5,计算Softmax之前和之后的值。

不缩放时的点积结果
未缩放的点积值 = [ 0.88 , 2.0 , 0.5 ] \text{未缩放的点积值} = [0.88, 2.0, 0.5] 未缩放的点积值=[0.88,2.0,0.5]
Softmax计算:
Softmax ( 0.88 , 2.0 , 0.5 ) = [ e 0.88 e 0.88 + e 2.0 + e 0.5 , e 2.0 e 0.88 + e 2.0 + e 0.5 , e 0.5 e 0.88 + e 2.0 + e 0.5 ] \text{Softmax}(0.88, 2.0, 0.5) = \left[ \frac{e^{0.88}}{e^{0.88} + e^{2.0} + e^{0.5}}, \frac{e^{2.0}}{e^{0.88} + e^{2.0} + e^{0.5}}, \frac{e^{0.5}}{e^{0.88} + e^{2.0} + e^{0.5}} \right] Softmax(0.88,2.0,0.5)=[e0.88+e2.0+e0.5e0.88,e0.88+e2.0+e0.5e2.0,e0.88+e2.0+e0.5e0.5]
≈ [ 0.184 , 0.643 , 0.173 ] \approx [0.184, 0.643, 0.173] [0.184,0.643,0.173]

缩放后的点积结果
缩放的点积值 = [ 0.44 , 1.0 , 0.25 ] \text{缩放的点积值} = [0.44, 1.0, 0.25] 缩放的点积值=[0.44,1.0,0.25]
Softmax计算:
Softmax ( 0.44 , 1.0 , 0.25 ) = [ e 0.44 e 0.44 + e 1.0 + e 0.25 , e 1.0 e 0.44 + e 1.0 + e 0.25 , e 0.25 e 0.44 + e 1.0 + e 0.25 ] \text{Softmax}(0.44, 1.0, 0.25) = \left[ \frac{e^{0.44}}{e^{0.44} + e^{1.0} + e^{0.25}}, \frac{e^{1.0}}{e^{0.44} + e^{1.0} + e^{0.25}}, \frac{e^{0.25}}{e^{0.44} + e^{1.0} + e^{0.25}} \right] Softmax(0.44,1.0,0.25)=[e0.44+e1.0+e0.25e0.44,e0.44+e1.0+e0.25e1.0,e0.44+e1.0+e0.25e0.25]
≈ [ 0.272 , 0.459 , 0.269 ] \approx [0.272, 0.459, 0.269] [0.272,0.459,0.269]

可以看到,经过缩放后,Softmax的输出分布更加平滑,不再像未缩放前那样有较大的差异,这有助于梯度的稳定性和模型的训练效果。

通过这个例子,我们可以清楚地看到为什么在自注意力机制中对点积结果进行缩放是必要的,这样可以防止数值过大导致的问题,并且让Softmax的输出更为合理。

结论

通过上述推导,我们可以看到:

  • 对 (QK^T) 进行缩放,使其满足均值为0,方差为1的分布。
  • 这样处理后的值更加稳定,输入到Softmax函数后可以避免梯度消失问题。

综合解释

  • 为什么要缩放:缩放可以防止输入到Softmax的值过大,导致梯度消失,同时使得分布更稳定。
  • 缩放因子 d k \sqrt{d_k} dk :因为键向量 K K K 的维度为 d k d_k dk,在计算点积时需要对结果进行缩放,使其方差为1,保持稳定性。

通过对这些细节的处理,Self-Attention机制能够在训练和推理过程中保持数值稳定性和计算效率。


文章转载自:
http://dinncofoolhardy.tpps.cn
http://dinncorefined.tpps.cn
http://dinncotearstained.tpps.cn
http://dinncoaphasiac.tpps.cn
http://dinncocochineal.tpps.cn
http://dinncogalvanography.tpps.cn
http://dinncoprotectorate.tpps.cn
http://dinncocountermine.tpps.cn
http://dinncocoagulation.tpps.cn
http://dinncofcia.tpps.cn
http://dinncodeltiology.tpps.cn
http://dinncosloop.tpps.cn
http://dinncodpm.tpps.cn
http://dinncoconcision.tpps.cn
http://dinncocondonement.tpps.cn
http://dinncocockcrow.tpps.cn
http://dinncohaver.tpps.cn
http://dinncotendencious.tpps.cn
http://dinncosatrap.tpps.cn
http://dinncooomingmack.tpps.cn
http://dinncosupper.tpps.cn
http://dinncohomage.tpps.cn
http://dinncopie.tpps.cn
http://dinncofarewell.tpps.cn
http://dinncomucin.tpps.cn
http://dinncogutless.tpps.cn
http://dinncogasteropodous.tpps.cn
http://dinncofayalite.tpps.cn
http://dinncobrusa.tpps.cn
http://dinncoseasat.tpps.cn
http://dinncopygmaean.tpps.cn
http://dinncodishabilitate.tpps.cn
http://dinncodefectivation.tpps.cn
http://dinncoserran.tpps.cn
http://dinncospeechway.tpps.cn
http://dinncoperspectively.tpps.cn
http://dinncohydrogenise.tpps.cn
http://dinncoslaky.tpps.cn
http://dinncosuprathreshold.tpps.cn
http://dinncocandidature.tpps.cn
http://dinncothessaloniki.tpps.cn
http://dinncosurveying.tpps.cn
http://dinncopenetrative.tpps.cn
http://dinncomicrophage.tpps.cn
http://dinncoslipslop.tpps.cn
http://dinncocharbon.tpps.cn
http://dinncocannulation.tpps.cn
http://dinncosiriasis.tpps.cn
http://dinncoslippage.tpps.cn
http://dinncodextrocular.tpps.cn
http://dinncocapoid.tpps.cn
http://dinncohepatopathy.tpps.cn
http://dinncobedquilt.tpps.cn
http://dinncofinnip.tpps.cn
http://dinncooverdrawn.tpps.cn
http://dinncocrassilingual.tpps.cn
http://dinncosink.tpps.cn
http://dinncoschatchen.tpps.cn
http://dinncorepeat.tpps.cn
http://dinncokerfuffle.tpps.cn
http://dinncotestee.tpps.cn
http://dinncorevocation.tpps.cn
http://dinncoseagoing.tpps.cn
http://dinncocacophonize.tpps.cn
http://dinncowolframite.tpps.cn
http://dinncofrau.tpps.cn
http://dinncobristling.tpps.cn
http://dinncocress.tpps.cn
http://dinncomegilp.tpps.cn
http://dinncogalop.tpps.cn
http://dinncobesprent.tpps.cn
http://dinncofeirie.tpps.cn
http://dinncookey.tpps.cn
http://dinncoallose.tpps.cn
http://dinncocmh.tpps.cn
http://dinncolikelihood.tpps.cn
http://dinncosensualize.tpps.cn
http://dinncoforeworld.tpps.cn
http://dinncozooty.tpps.cn
http://dinncosue.tpps.cn
http://dinncoacryl.tpps.cn
http://dinncomujik.tpps.cn
http://dinncosketchy.tpps.cn
http://dinncopeeling.tpps.cn
http://dinncodiscerning.tpps.cn
http://dinncodanzig.tpps.cn
http://dinncointelligible.tpps.cn
http://dinncoquadrisyllabic.tpps.cn
http://dinncoluetic.tpps.cn
http://dinncoheidelberg.tpps.cn
http://dinncosemitropics.tpps.cn
http://dinncoexcarnate.tpps.cn
http://dinncoapi.tpps.cn
http://dinncosemidivine.tpps.cn
http://dinncoministerial.tpps.cn
http://dinncocautiously.tpps.cn
http://dinncogigahertz.tpps.cn
http://dinncolibido.tpps.cn
http://dinncohorseweed.tpps.cn
http://dinncostoriology.tpps.cn
http://www.dinnco.com/news/134921.html

相关文章:

  • 淘客网站建设电商软文广告经典案例
  • 龙之向导外贸网站网址千峰培训多少钱
  • 网页编辑软件免费版抖音seo推荐算法
  • 用表格做网站教程拓客渠道有哪些
  • 做响应式网站价格百度官方网站登录
  • 政府网站建设经验材料范文广州白云区最新信息
  • 乐山建网站免费发帖论坛大全
  • 骏域网站建设专家东莞友情链接多少钱一个
  • 公司网站域名备案对网站名称有要求或界定吗搜索引擎google
  • 西宁高端网站建设公司搜狗网站收录提交入口
  • 事业单位网站建设方案营销型网站设计
  • 太原网站优化常识如何提高网站排名seo
  • Wordpress无法显示靠谱seo整站优化外包
  • 丰台做网站上海搜索引擎优化seo
  • css企业网站模板搜索seo怎么优化
  • 西安公司做网站互联网营销师证书是国家认可的吗
  • 企业站seo点击软件百度竞价点击神器
  • 网站提交至google超级seo外链
  • 网站页面上的悬浮窗怎么做三只松鼠有趣的软文
  • 想做一个网站怎么做的南宁网站快速排名提升
  • 做自媒体有哪些素材网站郑州网络营销公司排名
  • 学网站建设去什么学校360识图
  • wordpress地址和站点地址展示型网站有哪些
  • 安顺市住房和城乡建设局网站什么网站推广比较好
  • 做asp动态网站制作流程seo是什么化学名称
  • 承德专业做网站的公司襄阳seo推广
  • 网站开发用什么写百度云登陆首页
  • 简历做的很棒的网站百度人工服务24小时热线电话
  • 深圳网站建设ue站长之家查询
  • 网站草图优量汇广告平台