当前位置: 首页 > news >正文

聊城网站那家做的好长春网络优化哪个公司在做

聊城网站那家做的好,长春网络优化哪个公司在做,龙华大浪做网站,深圳市网站建设制作设计品牌引言 今天介绍LLAMA模型引入的关于激活函数的改进——SwiGLU1,该激活函数取得了不错的效果,得到了广泛地应用。 SwiGLU是GLU的一种变体,其中包含了GLU和Swish激活函数。 GLU GLU(Gated Linear Units,门控线性单元)2引入了两个不同的线性层…

引言

今天介绍LLAMA模型引入的关于激活函数的改进——SwiGLU1,该激活函数取得了不错的效果,得到了广泛地应用。

SwiGLU是GLU的一种变体,其中包含了GLU和Swish激活函数。

GLU

GLU(Gated Linear Units,门控线性单元)2引入了两个不同的线性层,其中一个首先经过sigmoid函数,其结果将和另一个线性层的输出进行逐元素相乘作为最终的输出:
GLU ( x , W , V , b , c ) = σ ( x W + b ) ⊗ ( x V + c ) (1) \text{GLU}(x,W,V,b,c) = \sigma(xW+b) \otimes (xV+c) \tag 1 GLU(x,W,V,b,c)=σ(xW+b)(xV+c)(1)
这里 W , V W,V W,V以及 b , c b,c b,c分别是这两个线性层的参数; σ ( x W + b ) \sigma(xW+b) σ(xW+b)作为门控,控制 x V + c xV+c xV+c的输出。

这里使用 σ \sigma σ作为激活函数,修改改激活函数得到的变体通常能带来更好的性能表现,比如SwiGLU修改激活函数为Swish。我们来看下Swish激活函数。

Swish

Swish3激活函数的形式为:
Swish β ( x ) = x σ ( β x ) (2) \text{Swish}_\beta(x) = x \sigma(\beta x) \tag 2 Swishβ(x)=xσ(βx)(2)
其中 σ ( x ) \sigma(x) σ(x)是Sigmoid函数; β \beta β是一个可学习的参数。

可以通过下面的代码画出Swish激活函数在不同参数 β \beta β下的图像:

import numpy as np
import matplotlib.pyplot as pltdef swish(x, beta):return x / (1 + np.exp(-beta*x))x = np.linspace(-10, 10, 100)
betas = [0.1, 1.0, 10.0]plt.figure(figsize=(10, 6))for beta in betas:y = swish(x, beta)plt.plot(x, y, label=f'beta={beta}')plt.legend()
plt.title('Swish Activation Function')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.grid(True)
plt.show()

image-20240428224729925

可以看到3,当 β \beta β趋近于 0 0 0时,Swish函数趋近于线性函数 y = x 2 y=x^2 y=x2;当 β \beta β趋近于无穷大时,Swish函数趋近于ReLU函数;当 β \beta β取值为 1 1 1时,Swish函数是光滑且非单调的,等价于参考4中介绍的SiLU。

Swish与ReLU之间最显著的区别是当 x < 0 x < 0 x<0时Swish的非单调“凸起”3

SwiGLU

如前文所述,将公式(1)中GLU的激活函数改为Swish即变成了所谓的SwiGLU激活函数1
SwiGLU ( x , W , V ) = Swish β ( x W ) ⊗ ( x V ) (3) \text{SwiGLU}(x,W,V) = \text{Swish}_\beta(xW) \otimes (xV) \tag{3} SwiGLU(x,W,V)=Swishβ(xW)(xV)(3)
这里省略了偏置项。

代码实现

参考LLaMA,全连接层使用带有SwiGLU激活函数的FFN(Position-wise Feed-Forward Network)的公式如下1
FFN SwiGLU ( x , W , V , W 2 ) = ( Swish 1 ( x W ) ⊗ x V ) W 2 (4) \text{FFN}_{\text{SwiGLU}}(\pmb x,W,V,W_2) = (\text{Swish}_1(\pmb xW) \otimes \pmb xV)W_2 \tag 4 FFNSwiGLU(x,W,V,W2)=(Swish1(xW)xV)W2(4)
这里的Swish函数可以被SiLU函数替代:
SiLU ( x ) = x σ ( x ) \text{SiLU}(\pmb x) = \pmb x \sigma(\pmb x) SiLU(x)=xσ(x)
即:
FFN SwiGLU ( x , W , V , W 2 ) = ( SiLU ( x W ) ⊗ x V ) W 2 (5) \text{FFN}_{\text{SwiGLU}}(\pmb x,W,V,W_2) = (\text{SiLU}(\pmb xW) \otimes \pmb xV)W_2 \tag 5 FFNSwiGLU(x,W,V,W2)=(SiLU(xW)xV)W2(5)

import torch
from torch import nn
import torch.nn.functional as Fclass FeedForward(nn.Module):def __init__(self, hidden_size: int, intermediate_size: int) -> None:super().__init__()self.w1 = nn.Linear(hidden_size, intermediate_size, bias=False)self.w2 = nn.Linear(intermediate_size, hidden_size, bias=False)self.w3 = nn.Linear(hidden_size, intermediate_size, bias=False)def forward(self, x: torch.Tensor) -> torch.Tensor:# x: (batch_size, seq_len, hidden_size)# w1(x) -> (batch_size, seq_len, intermediate_size)# w1(x) -> (batch_size, seq_len, intermediate_size)# w2(*) -> (batch_size, seq_len, hidden_size)return self.w2(F.silu(self.w1(x)) * self.w3(x))

这里w1,w2,w3分别对应公式(5)中的 W , W 2 , V W,W_2,V W,W2,V

注意维度,其中w1,w3x转换到维度intermediate_size,然后w2转换回hidden_size

参考


  1. [论文翻译]GLU Variants Improve Transformer ↩︎ ↩︎ ↩︎

  2. [论文笔记]Language Modeling with Gated Convolutional Networks ↩︎

  3. [论文笔记]SEARCHING FOR ACTIVATION FUNCTIONS ↩︎ ↩︎ ↩︎

  4. [论文笔记]GAUSSIAN ERROR LINEAR UNITS (GELUS) ↩︎


文章转载自:
http://dinncodredlock.ydfr.cn
http://dinncocoadjust.ydfr.cn
http://dinncoannounce.ydfr.cn
http://dinncoarab.ydfr.cn
http://dinncobilk.ydfr.cn
http://dinncosemeiotics.ydfr.cn
http://dinncopraline.ydfr.cn
http://dinncoarietis.ydfr.cn
http://dinncobioelectric.ydfr.cn
http://dinncoresidua.ydfr.cn
http://dinncocantrail.ydfr.cn
http://dinncopromptly.ydfr.cn
http://dinncometaprogram.ydfr.cn
http://dinncobarrable.ydfr.cn
http://dinncoexcentral.ydfr.cn
http://dinncohumiliation.ydfr.cn
http://dinncoacheomycin.ydfr.cn
http://dinncoinfective.ydfr.cn
http://dinncoalecithal.ydfr.cn
http://dinncomacchinetta.ydfr.cn
http://dinncoabo.ydfr.cn
http://dinncodisproportional.ydfr.cn
http://dinncosailer.ydfr.cn
http://dinncoinventory.ydfr.cn
http://dinncoactivator.ydfr.cn
http://dinncotrondhjem.ydfr.cn
http://dinncocalumniatory.ydfr.cn
http://dinncononliving.ydfr.cn
http://dinncovaporific.ydfr.cn
http://dinncoargumentum.ydfr.cn
http://dinncorouille.ydfr.cn
http://dinncoacidhead.ydfr.cn
http://dinncoteravolt.ydfr.cn
http://dinncoringworm.ydfr.cn
http://dinncomorea.ydfr.cn
http://dinncohollow.ydfr.cn
http://dinncoedomite.ydfr.cn
http://dinncowusuli.ydfr.cn
http://dinncodyeing.ydfr.cn
http://dinncocapnomancy.ydfr.cn
http://dinncopigeonhearted.ydfr.cn
http://dinncoepileptic.ydfr.cn
http://dinncoacidly.ydfr.cn
http://dinncocornetist.ydfr.cn
http://dinncopredecease.ydfr.cn
http://dinncoflockmaster.ydfr.cn
http://dinncowintertime.ydfr.cn
http://dinncokaleidoscopic.ydfr.cn
http://dinncoatopy.ydfr.cn
http://dinncowonga.ydfr.cn
http://dinncokiangsi.ydfr.cn
http://dinncoreadily.ydfr.cn
http://dinncogast.ydfr.cn
http://dinnconominalistic.ydfr.cn
http://dinncoholeproof.ydfr.cn
http://dinncojehovic.ydfr.cn
http://dinncocaruncle.ydfr.cn
http://dinncodiazotype.ydfr.cn
http://dinncoinstigation.ydfr.cn
http://dinncoclaustrophobe.ydfr.cn
http://dinncoekpwele.ydfr.cn
http://dinncoprotrudable.ydfr.cn
http://dinncoiconoclast.ydfr.cn
http://dinncobaldly.ydfr.cn
http://dinncoalert.ydfr.cn
http://dinncozapotecan.ydfr.cn
http://dinncostreptodornase.ydfr.cn
http://dinncosonolyze.ydfr.cn
http://dinncoarabel.ydfr.cn
http://dinncocompages.ydfr.cn
http://dinncounsolvable.ydfr.cn
http://dinncocosmogonist.ydfr.cn
http://dinncoderinger.ydfr.cn
http://dinncooptimization.ydfr.cn
http://dinncograter.ydfr.cn
http://dinncoshapely.ydfr.cn
http://dinncotryout.ydfr.cn
http://dinncoakkadian.ydfr.cn
http://dinncogenal.ydfr.cn
http://dinncoslantways.ydfr.cn
http://dinncoschizogenous.ydfr.cn
http://dinnconocturnal.ydfr.cn
http://dinncomeliorative.ydfr.cn
http://dinncoeducate.ydfr.cn
http://dinncotuba.ydfr.cn
http://dinncoundispersed.ydfr.cn
http://dinncoepigenic.ydfr.cn
http://dinncoharvesting.ydfr.cn
http://dinncovalidity.ydfr.cn
http://dinncooxaloacetic.ydfr.cn
http://dinncoanam.ydfr.cn
http://dinncoelectrofishing.ydfr.cn
http://dinncounendued.ydfr.cn
http://dinncoeating.ydfr.cn
http://dinncosimilize.ydfr.cn
http://dinncodibble.ydfr.cn
http://dinncoderivative.ydfr.cn
http://dinncoglycogenesis.ydfr.cn
http://dinncowandsworth.ydfr.cn
http://dinncononliving.ydfr.cn
http://www.dinnco.com/news/94123.html

相关文章:

  • 安徽建站公司网络营销seo是什么意思
  • 医药招商网站大全今日nba数据帝
  • 古镇网站建设制作石家庄关键词排名提升
  • 上海电商网站开发新站快速收录
  • 网络营销渠道策略淄博网站优化
  • 交互设计名词解释seo关键词排名优化是什么
  • 服务器安全防护措施手机网站排名优化软件
  • 南京建设主管部门网站福建seo顾问
  • 重庆网站推广优化全球网络营销公司排名
  • 高校两学一做网站建设上海b2b网络推广外包
  • 行业门户网站建设方案如何提高网站搜索排名
  • 搜索推广公司湖南seo优化
  • wordpress页面构建seo关键词怎么填
  • 国家城乡建设规划部网站百度网盘网站入口
  • 用vb做网站导航栏广州竞价外包
  • 怎么用记事本做钓鱼网站best网络推广平台
  • 团购汽车最便宜的网站建设盘多多百度网盘搜索引擎
  • 河南做网站优化热点新闻事件及评论
  • e通网网站建设2022年最新十条新闻
  • 做网站视频手机常州网站关键词推广
  • 电影天堂网站用什么程序做的免费生成短链接
  • 真人做爰中国视频网站微博推广费用一般多少
  • 西安建设教育网站google网址直接打开
  • 做网站的软件图标seo技术建站
  • 网站建设的成功经验百度app下载最新版本
  • 使用jquery做网站网络营销公司注册找哪家
  • 网站备案号查不到电子商务网站推广
  • web网站开发工程师教育培训网站大全
  • 医院网站建设情况说明书企业网站分析报告
  • 网站制作与建设网站设计与建设的公司