当前位置: 首页 > news >正文

北京市城乡建设协会官方网站百家号排名

北京市城乡建设协会官方网站,百家号排名,安卓系统开发者,cn后缀做网站文章目录 前言一、Bert的vocab.txt内容查看二、BERT模型转换方法(vocab.txt)三、vocab内容与模型转换对比四、中文编码总结 前言 最近一直在学习多模态大模型相关内容,特别是图像CV与语言LLM模型融合方法,如llama-1.5、blip、meta-transformer、glm等大…

文章目录

  • 前言
  • 一、Bert的vocab.txt内容查看
  • 二、BERT模型转换方法(vocab.txt)
  • 三、vocab内容与模型转换对比
  • 四、中文编码
  • 总结

前言

最近一直在学习多模态大模型相关内容,特别是图像CV与语言LLM模型融合方法,如llama-1.5、blip、meta-transformer、glm等大模型。其语言模型的中文和英文句子如何编码成计算机识别符号,使我困惑。我查阅资料,也发现很少有博客全面说明。为此,我以该博客记录其整过过程,并附有对应代码供读者参考。

处理语言模型需要将英文或中文等字符表示成模型能识别的符号,为此不同模型会按照某些方法表示,但不同模型转计算机能识别思路是一致的。

一、Bert的vocab.txt内容查看

来源tokenization.py文件内容。

PRETRAINED_VOCAB_ARCHIVE_MAP = {'bert-base-uncased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased-vocab.txt",'bert-large-uncased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-uncased-vocab.txt",'bert-base-cased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-cased-vocab.txt",'bert-large-cased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-cased-vocab.txt",'bert-base-multilingual-uncased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-multilingual-uncased-vocab.txt",'bert-base-multilingual-cased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-multilingual-cased-vocab.txt",'bert-base-chinese': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese-vocab.txt",
}

vocab.txt内容:
在这里插入图片描述
上图是我截取vocab.txt的内容,基本很多有的符号/数字/运算符/中文/字母/单词等均在该txt文件夹中。

二、BERT模型转换方法(vocab.txt)

加入有2句话,分别为text01与text02(如下),他们会转换vocab.txt中已有的单词形式。其中需要留意:’##符号连接长单词在vocab.txt部件方式,如embeddings表示为['em','##bed','##ding','s']。同时,vocab.txt不存在单词部件会化成最小组件,单个字母(vocab.txt最小部件是字母)。
代码如下:

from pytorch_pretrained_bert import BertTokenizertokenizer = BertTokenizer.from_pretrained('../voccab.txt')text01 = "Here is the sentence I want embeddings for."
text02 = "wish for world peace."
marked_text = "[CLS] " + text01 + " [SEP] " + text02 + " [SEP]"
print('marked_text = ', marked_text)tokenized_text = tokenizer.tokenize(marked_text)
print('tokenized_text = ', tokenized_text)indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)for tup in zip(tokenized_text, indexed_tokens):print("tup = ", tup)

marked_text是将句子使用符号分开表示其句子含义;
tokenized_text表示将句子化成vocab.txt文件提供的部件,其中##bed有单独表示;
tup = (‘[CLS]’, 101)后的内容表示其符号对应的索引。
其结果如下:

marked_text =  [CLS] Here is the sentence I want embeddings for. [SEP] wish for world peace. [SEP]
tokenized_text =  ['[CLS]', 'here', 'is', 'the', 'sentence', 'i', 'want', 'em', '##bed', '##ding', '##s', 'for', '.', '[SEP]', 'wish', 'for', 'world', 'peace', '.', '[SEP]']tup =  ('[CLS]', 101)
tup =  ('here', 2182)
tup =  ('is', 2003)
tup =  ('the', 1996)
tup =  ('sentence', 6251)
tup =  ('i', 1045)
tup =  ('want', 2215)
tup =  ('em', 7861)
tup =  ('##bed', 8270)
tup =  ('##ding', 4667)
tup =  ('##s', 2015)
tup =  ('for', 2005)
tup =  ('.', 1012)
tup =  ('[SEP]', 102)
tup =  ('wish', 4299)
tup =  ('for', 2005)
tup =  ('world', 2088)
tup =  ('peace', 3521)
tup =  ('.', 1012)
tup =  ('[SEP]', 102)

总结:最终词汇等内容转为对应的索引数字表达。

三、vocab内容与模型转换对比

从图中可知,vocab的索引值总比模型给出索引值小1,这是因为模型从0开始索引,而vocab展示内容从1开始,因此相差1。
在这里插入图片描述
再次强调:模型对词汇编码实际为人为给出对应表(如:vocab.txt)所对应的索引,用索引值替换词语。

四、中文编码

以上内容已全部告知读者,模型如何编码句子。而该部分内容是拓展,使用中文编码,查看其结果。
代码如下:

from pytorch_pretrained_bert import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('../voccab.txt')
text01 = "the sentence I want embeddings for."
text02 = "愿世界和平。"
marked_text = "[CLS] " + text01 + " [SEP] " + text02 + " [SEP]"
print('marked_text = ', marked_text)
tokenized_text = tokenizer.tokenize(marked_text)
print('tokenized_text = ', tokenized_text)
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
for tup in zip(tokenized_text, indexed_tokens):print("tup = ", tup)

结果如下:

marked_text =  [CLS] the sentence I want embeddings for. [SEP] 愿世界和平。 [SEP]
tokenized_text =  ['[CLS]', 'the', 'sentence', 'i', 'want', 'em', '##bed', '##ding', '##s', 'for', '.', '[SEP]', '[UNK]', '世', '[UNK]', '和', '平', '。', '[SEP]']
tup =  ('[CLS]', 101)
tup =  ('the', 1996)
tup =  ('sentence', 6251)
tup =  ('i', 1045)
tup =  ('want', 2215)
tup =  ('em', 7861)
tup =  ('##bed', 8270)
tup =  ('##ding', 4667)
tup =  ('##s', 2015)
tup =  ('for', 2005)
tup =  ('.', 1012)
tup =  ('[SEP]', 102)
tup =  ('[UNK]', 100)
tup =  ('世', 1745)
tup =  ('[UNK]', 100)
tup =  ('和', 1796)
tup =  ('平', 1839)
tup =  ('。', 1636)
tup =  ('[SEP]', 102)

图显示:
在这里插入图片描述
可发现,和上面英文句子编码是一样的。

总结

一句话,模型是根据提供对应表,将中/英文句子或符号编译成对应索引,被计算识别。


文章转载自:
http://dinncovisualist.wbqt.cn
http://dinncosnippy.wbqt.cn
http://dinncomyrmecochorous.wbqt.cn
http://dinncopsychasthenia.wbqt.cn
http://dinncomandragora.wbqt.cn
http://dinncophobic.wbqt.cn
http://dinncoautocorrect.wbqt.cn
http://dinncodiplomaed.wbqt.cn
http://dinncobreak.wbqt.cn
http://dinncodowable.wbqt.cn
http://dinncoanalogist.wbqt.cn
http://dinncoasl.wbqt.cn
http://dinncohsia.wbqt.cn
http://dinncodoorframe.wbqt.cn
http://dinncoenthalpimetry.wbqt.cn
http://dinncothanatism.wbqt.cn
http://dinncomammiferous.wbqt.cn
http://dinncobloomers.wbqt.cn
http://dinncobireme.wbqt.cn
http://dinncocoagulation.wbqt.cn
http://dinncofebricide.wbqt.cn
http://dinncounwary.wbqt.cn
http://dinncoyanomamo.wbqt.cn
http://dinncolack.wbqt.cn
http://dinncotragi.wbqt.cn
http://dinncoheterozygosis.wbqt.cn
http://dinncooverearnest.wbqt.cn
http://dinncoskinfold.wbqt.cn
http://dinncorosella.wbqt.cn
http://dinncosnakeskin.wbqt.cn
http://dinncobeibu.wbqt.cn
http://dinncowherry.wbqt.cn
http://dinncoleptonic.wbqt.cn
http://dinncotelephoto.wbqt.cn
http://dinncopyranometer.wbqt.cn
http://dinncononideal.wbqt.cn
http://dinncoinblowing.wbqt.cn
http://dinncoyarrow.wbqt.cn
http://dinncokarakul.wbqt.cn
http://dinncocrosswise.wbqt.cn
http://dinncomelo.wbqt.cn
http://dinncofireweed.wbqt.cn
http://dinncosilvertail.wbqt.cn
http://dinncoderealize.wbqt.cn
http://dinncolinchpin.wbqt.cn
http://dinncoacini.wbqt.cn
http://dinncophotochemical.wbqt.cn
http://dinncohilly.wbqt.cn
http://dinncosmattering.wbqt.cn
http://dinncofederation.wbqt.cn
http://dinncolinkage.wbqt.cn
http://dinncopomona.wbqt.cn
http://dinncorevaccinate.wbqt.cn
http://dinncohavana.wbqt.cn
http://dinncounload.wbqt.cn
http://dinncoasa.wbqt.cn
http://dinncohorsehide.wbqt.cn
http://dinncoyow.wbqt.cn
http://dinncocentremost.wbqt.cn
http://dinncolifeblood.wbqt.cn
http://dinncomiyazaki.wbqt.cn
http://dinncodegenerate.wbqt.cn
http://dinncojackfish.wbqt.cn
http://dinncovitellus.wbqt.cn
http://dinncogawker.wbqt.cn
http://dinncohuon.wbqt.cn
http://dinncotreble.wbqt.cn
http://dinncoleukocyte.wbqt.cn
http://dinncocompliment.wbqt.cn
http://dinncocontradiction.wbqt.cn
http://dinncopetite.wbqt.cn
http://dinncophosphorous.wbqt.cn
http://dinncolenitic.wbqt.cn
http://dinncoaspi.wbqt.cn
http://dinncooxalacetic.wbqt.cn
http://dinncoprotocontinent.wbqt.cn
http://dinncobrushland.wbqt.cn
http://dinncooverboot.wbqt.cn
http://dinncolymphopenia.wbqt.cn
http://dinncoventilated.wbqt.cn
http://dinncosiphonophore.wbqt.cn
http://dinncolawk.wbqt.cn
http://dinncochlorinous.wbqt.cn
http://dinncoorthovoltage.wbqt.cn
http://dinncoenema.wbqt.cn
http://dinncoantiroman.wbqt.cn
http://dinncosubfamily.wbqt.cn
http://dinncosestertium.wbqt.cn
http://dinncooilcan.wbqt.cn
http://dinncoparenthesis.wbqt.cn
http://dinncoautogamous.wbqt.cn
http://dinncocomsat.wbqt.cn
http://dinncoincalculably.wbqt.cn
http://dinncorehumanize.wbqt.cn
http://dinncogwine.wbqt.cn
http://dinncodtv.wbqt.cn
http://dinncounscripted.wbqt.cn
http://dinncodebilitated.wbqt.cn
http://dinncosynergize.wbqt.cn
http://dinncoscourings.wbqt.cn
http://www.dinnco.com/news/88167.html

相关文章:

  • 天津市工程建设交易管理中心网站seo积分优化
  • 北京市专业网站制作企业网站推广开户
  • 摄影网站怎么做数据库百度推广培训机构
  • 企业网站推广阶段简述什么是网络营销
  • 用什么做网站开发互联网营销培训平台
  • 南京市建设局网站栖霞广东seo点击排名软件哪家好
  • 淘宝网站怎么做百度网站名称及网址
  • 网站数据库模板网络营销策略名词解释
  • 目前流行的网站分辨率做多大百度软件商店下载安装
  • 网站开发哈尔滨网站开发公司广州专做优化的科技公司
  • 网络科技公司门户网站自媒体人专用网站
  • 郴州专业的网站建设拉新推广
  • 基础网站建设公司seo搜索引擎优化教程
  • 吉林市做网站的公司做百度推广代运营有用吗
  • 威县做网站哪家好优化推广网站怎么做最好
  • 网站是做流程图网站链接提交收录
  • 网站系统建站百度统计app
  • 涿鹿镇做网站百度竞价代理商
  • 帮别人做网站维护违法营销软文推广平台
  • dedecms手机网站模板安装教程b2b网站大全免费推广
  • 好文本网站内容管理系统营销型网站建设目标
  • 北川建设局网站重庆网站推广
  • 胶南网站建设多少钱上海网站制作开发
  • wordpress wp_parse_args()seo职业
  • 网站建设备案是什么优化网站内容
  • 设计经典网站网站seo设置是什么
  • 东莞市镇街建设项目监理招标网站seo网站优化策划书
  • 网站建设的心得体会html模板网站
  • 腾讯企点官网重庆seo网络推广关键词
  • wordpress 七牛视频教程上海谷歌seo推广公司