当前位置: 首页 > news >正文

专注建设高端网站中山谷歌推广

专注建设高端网站,中山谷歌推广,网站建设挣钱的需要什么,中小微企业纳税申报视觉语言模型在各种多模态任务上取得了显著的成功,但经常受到有限上下文窗口和处理高分辨率图像输入和视频的高计算成本的瓶颈。视觉压缩可以通过减少视觉令牌数量避免该问题。先前方法使用额外模块压缩视觉令牌并强制LLM理解压缩的令牌。然而,LLM对视觉…

视觉语言模型在各种多模态任务上取得了显著的成功,但经常受到有限上下文窗口和处理高分辨率图像输入和视频的高计算成本的瓶颈。视觉压缩可以通过减少视觉令牌数量避免该问题。先前方法使用额外模块压缩视觉令牌并强制LLM理解压缩的令牌。然而,LLM对视觉令牌的理解范式在压缩学习过程中没有充分利用。本文提出了VoCo-LLaMA,这是第一种使用LLM压缩视觉视觉令牌的方法。通过在视觉指令调整过程中引入视觉压缩令牌并利用注意力蒸馏,本文方法蒸馏了LLM如何将LLM视觉令牌理解到它们对VoCo令牌的处理。

VoCo-LLaMA

本文VoCo-LLaMA算法引入特殊的视觉压缩(Vision Compression,VoCo)令牌,以利用LLM压缩和理解图像压缩表示的能力。大语言模型输入序列由连接视觉令牌,特殊的VoCo令牌和文本令牌形成。

X = ( V , V o C o , T ) = ( V 0 , … , V n , V o C o , T 0 , … , T m ) \mathcal{X}=(\mathcal{V},VoCo,\mathcal{T})=(V_{0},\ldots,V_{n},VoCo,T_{0},\ldots,T_{m}) X=(V,VoCo,T)=(V0,,Vn,VoCo,T0,,Tm)

在训练阶段,使用两阶段注意力机制。最初,本文对文本令牌施加一个约束,明确阻止它们关注原始视觉令牌,同时强迫它们只关注压缩和蒸馏的VoCo令牌。随后由于casual Transformer,视觉令牌受到VoCo令牌的持续关注。这种刻意的设计保证了文本令牌只捕捉VoCo令牌中编码的蒸馏视觉信息,而不是直接与原始视觉令牌交互,实现了从视觉令牌到压缩令牌的压缩蒸馏。

VoCo-LLaMA的压缩过程可以战略性地通过调整注意力掩码优雅地实现。具体地,将文本令牌和视觉令牌之间注意力权重设置为False。 M ∈ R ( m + n − 1 ) × ( m + n − 1 ) \mathbf{M}\in \mathbb{R}^{(m+n-1)\times (m+n-1)} MR(m+n1)×(m+n1) 为注意力掩码。定义调整后注意力掩码为:

M i j = { True,  if  i ∈ T and  j ∈ V o C o , False,  if  i ∈ T and  j ∈ V , True,  otherwise.  M_{i j}=\left\{\begin{array}{ll} \text { True, } & \text { if } i \in \mathcal{T} \text { and } j \in V o C o, \\ \text { False, } & \text { if } i \in \mathcal{T} \text { and } j \in \mathcal{V}, \\ \text { True, } & \text { otherwise. } \end{array}\right. Mij=  True,  False,  True,  if iT and jVoCo, if iT and jV, otherwise. 

值得注意的是本文对注意力掩码的修改是基于仅解码器模型(如LLaVA)中casual注意力掩码实现,该模型被初始化为左下三角矩阵。实践中,VoCo-LLaMA可以在标准的监督微调范式下进行有效训练,利用VLM中现成的大量图像文本数据。此外,VoCo令牌可以紧凑地表示为一组Transformer激活,允许缓存它们以提高推理效率。

VoCo-LLaMA使得大语言模型能够学习视觉令牌的压缩过程 V o C o ( V ) VoCo(\mathcal{V}) VoCo(V),通过学习理解压缩的VoCo令牌,例如学习分布 p V o C o ( y ∣ V o C o ( V ) , T ) p_{VoCo}(y|VoCo(\mathcal{V}),\mathcal{T}) pVoCo(yVoCo(V),T)。优化目标可以描述为:
L ( V L M o , V o C o ) = E V , T [ D K L ( p V L M o ( y ∣ V , T ) ) ∣ ∣ p V o C o ( y ∣ V o C o ( V ) , T ) ) ] L(VLM_{o},VoCo)=E_{\mathcal{V},\mathcal{T}}[D_{KL}(p_{VLM_{o}}(y|\mathcal{V},\mathcal{T}))||p_{VoCo}(y|VoCo(\mathcal{V}),\mathcal{T}))] L(VLMo,VoCo)=EV,T[DKL(pVLMo(yV,T))∣∣pVoCo(yVoCo(V),T))]

另外本文的设计还提供了一个额外的优势:VoCo令牌在压缩过程中专门与输入文本交互,在视觉与文本模态之间建立无缝通道。这使得本文算法能够毫不费力地将压缩视觉信息与文本模态对齐,无需专门的文本视觉感知多模态对齐模块设计

http://www.dinnco.com/news/67863.html

相关文章:

  • 宜昌市工程造价信息网seo查询 站长之家
  • php做网站的支付功能手机百度搜索
  • wordpress书本目录模板seo常用工具包括
  • 网络营销岗位有哪些聊城优化seo
  • 网加商学院网站怎么做军事新闻最新消息今天
  • 用asp.net做网站搜索引擎营销概念
  • 动易学校网站系统武汉网站推广优化
  • 凡科建站电话咨询发帖秒收录的网站
  • 团购网站 网上 收费 系统快手流量推广免费网站
  • 邯郸哪有做网站的公司聊城seo整站优化报价
  • 做动效很好的网站北京网络营销推广公司
  • 惠州招聘网手机seo快速排名
  • win8网站设计torrentkitty磁力天堂
  • 龙华网站制作公司搜外友链
  • 国外网站推广公司百家号自媒体平台注册
  • 湘潭做网站 m磐石网络seo测试
  • 东莞微网站建设多少钱营销策划机构
  • 网站建设哪里最好接单子免费个人网站服务器
  • 网站建设费税率是多少钱淘宝怎么设置关键词搜索
  • 零售网站建设chatgpt 链接
  • 做县城门户网站彩虹云商城网站搭建
  • 上海网站建设到诺然单页关键词优化费用
  • 政府网站建设专业公司大数据培训
  • 献县做网站域名批量查询注册
  • 十大装饰公司排名谷歌sem和seo区别
  • 网页设计小白做网站百度首页排名代发
  • 网上如何做任务赚钱的网站网络推广员
  • 公司网站在哪里做深圳网页设计公司
  • 盾思途旅游网站建设百度助手app免费下载
  • 做网站什么公司好com域名注册