当前位置: 首页 > news >正文

株洲营销型网站建设推广的几种方式

株洲营销型网站建设,推广的几种方式,网站开发的软 硬件环境标准,一个人只做网站的流程7 天 AI 大模型学习 Day 2 今天是 7 天AI 大模型学习的第二天 😄,今天我将会学习 Transformer 、Encoder-based and Decoder-Based LLMs 等 。如果有感兴趣的,就和我一起开始吧 ~ 课程链接 :2025年快速吃透AI大模型&am…

7 天 AI 大模型学习 Day 2

今天是 7 天AI 大模型学习的第二天 😄,今天我将会学习 Transformer 、Encoder-based and Decoder-Based LLMs 等 。如果有感兴趣的,就和我一起开始吧 ~
课程链接 :2025年快速吃透AI大模型,7天学完,让你面试少走99%弯路!!

文章目录

  • 7 天 AI 大模型学习 Day 2
  • 前言
  • BPE —— Byte Pair Encoding Tokenizer
    • 核心
    • 构造过程
    • 例:一个简单的 corpus
  • Attention
    • 三种不同的 Attention
    • 基本的 Attention 实现方式
    • Encoder Self-Attention
    • Decoder Self-Attention
    • Encoder-Decoder Self-Attention
    • Masked Matrix 如何融合到不同实现中
    • 总结三种Attention
    • Layer Normalization
  • Decoding - output the next word
    • Greedy Decoding
    • Beam search
    • Label smoothing
      • 如何计算 loss
      • 什么是Label smoothing
  • Encoder and Decoder Based Models
    • Decoder Only
    • Pretrain & Fine-tune (SFT)
    • Encoder-Based LLM Model:BERT
  • Advance Topics
    • Absolute Position Embedding
    • Rotary Position Embedding 旋转编码
    • Flash Attention
  • 作业

前言

今天,我们会学习如下内容:

  1. Transformer
  • BPE
  • Attention
  • Layer Normalization
  • 输出单词 —— Greedy Decoding / Beam Search
  • Label smoothing
  • Code for Transformer
  1. Encoder-based and Decoder-Based LLMs
  • Encoder-based LLM
  • Decoder-Based LLM
  1. 其他
  • 旋转编码 Rotary Position Encoding
  • Flash Attention
  1. 作业

BPE —— Byte Pair Encoding Tokenizer

BPE(Byte Pair Encoding) 是一种基于频率的分词(tokenization)算法,最初用于数据压缩,但后来被广泛应用于自然语言处理(NLP)中,尤其是在词汇表构建和子词级别的分词任务中。BPE 的核心思想是通过迭代地合并频率最高的字节对(或字符对),以生成一个新的、更简洁的词汇表,从而优化文本的表示。它通常用于处理语言模型中的稀有词汇和未登录词(OOV,Out-Of-Vocabulary words)问题。
BPE 被广泛应用于现代 NLP 模型中,尤其是神经网络和预训练模型(如 BERT、GPT 等)的训练过程中。例如,GPT-2 和 GPT-3 就是采用了类似 BPE 的子词分词方法来处理输入文本。
BPE 通过减少稀有词汇的数量,并将词汇表限制在较小的规模内,从而提升了模型的训练效率和文本生成能力。

Vocabulary(词汇表)
Vocabulary 是指模型所能理解和使用的所有词汇或符号的集合。在自然语言处理(NLP)中,词汇表通常是指一组所有可能的token(分词单位)。token可以是单词、子词、或者字符,具体取决于采用的分词策略。
词汇表的构建通常是基于一份大型文本数据(corpus),通过统计频率,选择出现次数较多的词汇构建一个有限的词汇集合。词汇表的大小(例如10,000个词、50,000个词等)通常是根据特定任务和计算资源的需求来设定的。
词汇表包含的信息:通常,每个token在词汇表中都有一个唯一的编号,称为词ID,模型可以使用这些ID来表示文本中的各个token。

Tokenization(分词)
Tokenization 是指将原始文本(通常是句子或文档)切分成一系列有意义的tokens(单位),这些token可以是单词、子词或字符。具体的tokenization策略决定了最终文本如何被分解成token。
例如,对于句子 “I love natural language processing”,可能的token化结果有:
基于单词的tokenization:[‘I’, ‘love’, ‘natural’, ‘language’, ‘processing’]
基于子词的tokenization:[‘I’, ‘lov’, ‘e’, ‘natu’, ‘ral’, ‘lan’, ‘guage’, ‘pro’, ‘cessing’](使用像BPE这样的算法)
基于字符的tokenization:[‘I’, ’ ', ‘l’, ‘o’, ‘v’, ‘e’, ’ ', ‘n’, ‘a’, ‘t’, ‘u’, ‘r’, ‘a’, ‘l’, …]
tokenization 的目的是将原始文本转化为计算机可以处理的、更小的单元。词汇表在这个过程中起着关键作用。

核心

  • 根据数据做 tokenize
  • Subword Tokenization
  • 英语上可以包含 subword , -est OR -er

构造过程

  • 语料库作为输入,从而学习词库
  1. 初始化:首先,将输入文本拆分成字符级别的token(符号)。例如,输入句子“low”会被拆分成 [‘l’, ‘o’, ‘w’]。

  2. 统计频率:计算文本中所有字符对的出现频率。例如,在句子“low”中,字符对可能是 (l, o) 和 (o, w)。

  3. 合并最频繁的字符对:找到出现频率最高的字符对,并将它们合并为一个新的单一符号。例如,如果字符对 (l, o) 是最常见的,就将其合并成一个新的 token (lo)。

  4. 重复以上过程:继续合并最频繁的字符对,直到达到预设的词汇表大小或满足其他停止条件。

  5. 最终词汇表:合并的结果将形成一个新的词汇表,这个词汇表是由频繁的子词或字符对组成的。

在这里插入图片描述
重复上述过程,词库中词越来越多

在这里插入图片描述

例:一个简单的 corpus

Corpus(复数形式:Corpora)是指一组有组织的、用于语言学研究或自然语言处理(NLP)任务的文本数据集合。它可以包括任何形式的语言数据,如书籍、文章、对话、网页内容等,通常以原始文本或经过标注的文本形式存在。Corpus 通常用于语言模型的训练、语法分析、词汇统计等任务。
在这里插入图片描述
在这里插入图片描述

  1. er 出现次数最多,将 er merge 为一个新的 token,加入 vocabulary 中

在这里插入图片描述
得到 vocabulary 后,根据 vocabulary 做 tokenization 。在处理文本时,使用构建好的词汇表将原始文本转化为token(通常是数字ID),并将每个token映射到词汇表中的一个元素。这是tokenization的核心过程。


Attention

三种不同的 Attention

在这里插入图片描述

基本的 Attention 实现方式

输入 x —— > 内积 WQ WK WV ——> 得到 Q K V 矩阵

在这里插入图片描述

  • attention score 矩阵
    在这里插入图片描述

在这里插入图片描述

def compute_attention_score(Q, K, V, mask, dim):return Q * K^T / dim ^ 1/2 * V

Encoder Self-Attention

在这里插入图片描述

  • 对每个词都需要计算其他词对它的影响

Decoder Self-Attention

在这里插入图片描述

  • 对每个词,只能看前一个词对它的影响

Encoder-Decoder Self-Attention

在这里插入图片描述

Masked Matrix 如何融合到不同实现中

在这里插入图片描述

  • M如何定义 ? 见上文
    在这里插入图片描述
  • Padding 的影响
    在这里插入图片描述
  • 有 Padding 情况下,mask 矩阵如下

padding 位置为 mask 矩阵值为负无穷

总结三种Attention

在这里插入图片描述
—— 微调部分基础

Layer Normalization

作用:

  • 归一化
  • 数值区间控制
  • 稳定学习 stable learn

对每一行做一个 normalize

  • 定义
    在这里插入图片描述
  • normalize 计算过程

在这里插入图片描述

  • 最终输出格式
    在这里插入图片描述

Decoding - output the next word

  • 将最后的概率最大的单词输出
    在这里插入图片描述

Greedy Decoding

将概率最大的单词输出
在这里插入图片描述
问题:

  • 概率最大的不一定是最好的
  • 前面的输出会影响后面的输出,如果前面输出错了,对后面影响大

Beam search

Beam Size(3) <= Top 3 —— K = 3

  • 不只是考虑最好的一个,而是考虑最好的三个
  • 时间复杂度 K^2 * T (length)
    在这里插入图片描述
    —— 通过控制 Decoder 可以进行模型控制 , 模型优化

Label smoothing

在这里插入图片描述

如何计算 loss

在这里插入图片描述

什么是Label smoothing

在这里插入图片描述

  • 希望得到的 y 的预测值就是和真实的 y 一样

  • 逆推 会出现数值的 unstable —— 训练的 unstable —— 如何解决
    在这里插入图片描述

  • Label smoothing - 让原有的向量不那么极端
    在这里插入图片描述

比较好的代码 : https://colab.research.google.com/github/harvardnlp/annotated-transformer/blob/master/AnnotatedTransformer.ipynb#scrollTo=9a429510


Encoder and Decoder Based Models

  • 主要还是 Decoder-Based
    在这里插入图片描述

Decoder Only

self-supervised learning
在这里插入图片描述

Pretrain & Fine-tune (SFT)

  • Fine-tune : 只计算 output 的 loss
    在这里插入图片描述

Encoder-Based LLM Model:BERT

逻辑:完形填空 , mask 掉一些单词,让 bert 去填空
在这里插入图片描述
模型本身不是为生成问题而生的,所以没有 GPT 时候生成。对一些分类任务效果好。


Advance Topics

Absolute Position Embedding

问题:随着 m 的增大,位置变化没有规律

Rotary Position Embedding 旋转编码

能刻画出一些相对的位置差异
在这里插入图片描述

  • 如何计算
    在这里插入图片描述
  • 扩展到高纬
    在这里插入图片描述

Flash Attention

优点:

  1. 计算快
  2. 节省显存
  3. 精准注意力
  • 减少在 HBM 和 SRAM 中切换到时间
    在这里插入图片描述
    在这里插入图片描述
  • 核心思想
    在这里插入图片描述
    每个模块单独处理,减少和显存的操作

作业

  1. 读懂代码,在少量数据上训练 + finetune github.com/karpathy/nanoGPT/tree/master
  2. 读懂文章及其开源代码 https://arxiv.org/abs/2309.10305

文章转载自:
http://dinncocandytuft.ssfq.cn
http://dinncocuttle.ssfq.cn
http://dinncodhaka.ssfq.cn
http://dinncoankerite.ssfq.cn
http://dinncogustavus.ssfq.cn
http://dinncodisciplinable.ssfq.cn
http://dinncoamu.ssfq.cn
http://dinnconephron.ssfq.cn
http://dinncospire.ssfq.cn
http://dinncosharply.ssfq.cn
http://dinncoetep.ssfq.cn
http://dinncowiredraw.ssfq.cn
http://dinncostaylace.ssfq.cn
http://dinncosonority.ssfq.cn
http://dinncopannier.ssfq.cn
http://dinncoscholastical.ssfq.cn
http://dinncoarrange.ssfq.cn
http://dinncotriathlete.ssfq.cn
http://dinncoextrovert.ssfq.cn
http://dinncotonqua.ssfq.cn
http://dinncokarakalpak.ssfq.cn
http://dinncogerundial.ssfq.cn
http://dinncomicrogauss.ssfq.cn
http://dinncostringy.ssfq.cn
http://dinncoinsinuative.ssfq.cn
http://dinncodistiller.ssfq.cn
http://dinncohorsecar.ssfq.cn
http://dinncoscholarly.ssfq.cn
http://dinncoravening.ssfq.cn
http://dinncoberried.ssfq.cn
http://dinncobriar.ssfq.cn
http://dinncochowderhead.ssfq.cn
http://dinncoecc.ssfq.cn
http://dinncoprerecord.ssfq.cn
http://dinncochamberer.ssfq.cn
http://dinncoavowed.ssfq.cn
http://dinncoshareout.ssfq.cn
http://dinncoumtata.ssfq.cn
http://dinncobravery.ssfq.cn
http://dinncoabdicate.ssfq.cn
http://dinncolateenrigged.ssfq.cn
http://dinncocowcatcher.ssfq.cn
http://dinncoshune.ssfq.cn
http://dinncoimpending.ssfq.cn
http://dinncogadarene.ssfq.cn
http://dinncothermoperiodicity.ssfq.cn
http://dinncoipc.ssfq.cn
http://dinncounsymmetry.ssfq.cn
http://dinncofrontlash.ssfq.cn
http://dinncosomaliland.ssfq.cn
http://dinncoherb.ssfq.cn
http://dinncoacetylide.ssfq.cn
http://dinncocaudated.ssfq.cn
http://dinncoacotyledon.ssfq.cn
http://dinncofund.ssfq.cn
http://dinncomayo.ssfq.cn
http://dinncoperlis.ssfq.cn
http://dinncohammada.ssfq.cn
http://dinncoconservatively.ssfq.cn
http://dinncoloanee.ssfq.cn
http://dinncoverticillaster.ssfq.cn
http://dinncomelanesia.ssfq.cn
http://dinncobedsock.ssfq.cn
http://dinncoslothfulness.ssfq.cn
http://dinncoserigraph.ssfq.cn
http://dinncoinelasticity.ssfq.cn
http://dinncoatavic.ssfq.cn
http://dinncoformfitting.ssfq.cn
http://dinncophylloxanthin.ssfq.cn
http://dinncoenhydrite.ssfq.cn
http://dinncoviscountess.ssfq.cn
http://dinncohypsometrically.ssfq.cn
http://dinncopyoid.ssfq.cn
http://dinncoabdias.ssfq.cn
http://dinncooppositional.ssfq.cn
http://dinncotrental.ssfq.cn
http://dinncolouisiana.ssfq.cn
http://dinncocourtling.ssfq.cn
http://dinncohepatitis.ssfq.cn
http://dinncoharsh.ssfq.cn
http://dinncochromatopsia.ssfq.cn
http://dinncoteat.ssfq.cn
http://dinncomascaron.ssfq.cn
http://dinncoscaddle.ssfq.cn
http://dinncoabsinthium.ssfq.cn
http://dinncosantal.ssfq.cn
http://dinncoincandescency.ssfq.cn
http://dinncoflog.ssfq.cn
http://dinncokingfisher.ssfq.cn
http://dinncocomose.ssfq.cn
http://dinncohomocercal.ssfq.cn
http://dinncocoeditor.ssfq.cn
http://dinncotwo.ssfq.cn
http://dinncomelting.ssfq.cn
http://dinncoparenthetical.ssfq.cn
http://dinncocheiromancy.ssfq.cn
http://dinncofingertip.ssfq.cn
http://dinncoplasm.ssfq.cn
http://dinncoterricolous.ssfq.cn
http://dinncosorrily.ssfq.cn
http://www.dinnco.com/news/2584.html

相关文章:

  • 免费做ppt的网站有哪些企业网站建站
  • 黑龙江外贸网站制作网推平台有哪些
  • 网站悬浮窗广告广告免费发布信息平台
  • 关键词优化排名易下拉软件seo搜索引擎优化知乎
  • 开单独网站做a货鞋搜索引擎优化服务
  • 做校园网站 怎么备案关键词分类
  • 电子商务实网站的建设课件网络营销总监岗位职责
  • 自己的网站怎么创建广州新一期lpr
  • 网站建设什么是静态网页如何在百度推广自己
  • 保险行业网站模板百度百科查询
  • 网站建设需要用到的软件开发推广什么app佣金高
  • 重庆展示型网站制作seo最新教程
  • 网站建设费用评估重庆seo关键词排名
  • 定州市住房保障和城乡建设局网站网站外链有多重要
  • 企业型网站建设企业网站推广优化
  • 网站建设可视化磁力多多
  • url 网站目录结构青岛爱城市网app官方网站
  • 上海装修公司做网站2023最近爆发的流感叫什么
  • dw做的网站有域名么百度推广排名代发
  • 网站设计公司排名前十seo准
  • 免费制作网站提交百度收录
  • 网站建设试题搭建网站需要哪些步骤
  • 旅游电子商务网站开发制作seo快速排名工具
  • 做机械最好的b2b网站企业qq一年多少费用
  • 太原网站建设推广服务seo优化技术厂家
  • wordpress大前端美化版seo专员的工作内容
  • 建筑设计公司名字湖南seo
  • 网站制作人员百度网盘下载速度慢破解方法
  • web网站开发技术介绍网站优化公司哪家好
  • 联想服务器怎么建设第二个网站培训课程网站