当前位置: 首页 > news >正文

网站建设布局设计软文推广怎么写

网站建设布局设计,软文推广怎么写,合肥制作网页设计,网上找工作哪个平台最真实NLP-transformer学习:(6)dataset 加载与调用 平常其实也经常进行trainning等等,但是觉得还是觉得要补补基础,所以静下心,搞搞基础联系 本章节基于 NLP-transformer学习:(5&#xff0…

NLP-transformer学习:(6)dataset 加载与调用

在这里插入图片描述

平常其实也经常进行trainning等等,但是觉得还是觉得要补补基础,所以静下心,搞搞基础联系
本章节基于 NLP-transformer学习:(5)讲解了如何做一个简单的训练和模型迁移,这里实践一个长用的dataset


文章目录

  • NLP-transformer学习:(6)dataset 加载与调用
    • @[TOC](文章目录)
  • 1 什么是datasets
  • 2 datasets 实战
    • 2.1 基础操作
  • 2.2 加载某一任务或某一部分
  • 2.3 数据划分
    • 2.4 数据选取和过滤
    • 2.4 数据映射
    • 2.5 数据保存与加载

提示:以下是本篇文章正文内容,下面案例可供参考

1 什么是datasets

地址:https://huggingface.co/datasets
在这里插入图片描述

datasets言而简之就是加载数据集用的
使用之前需要:
pip install datasets
有些特殊的库需要
pip install datasets[vision]
pip install datasets[audio]

2 datasets 实战

2.1 基础操作

加载代码如下:

# if the py name is datasets, the import action will first use the current file 
# not the datasets installed by pip
# for example you may meet the error: will be "NameError: name 'load_dataset' is not defined"from datasets import *if __name__ == "__main__":# add a datasetdata_set = load_dataset("madao33/new-title-chinese")print(data_set)print("------------------------------")print("train[0]:")print(data_set["train"][0])print("------------------------------")print("train[:2]:")print(data_set["train"][:2])print("------------------------------")print("train[\"tile\"][:5]:")print(data_set["train"]["title"][:5])print("------------------------------")

这里注意的是,使用的python 文件名不能是“datasets”即重名,不然会首先找当前文件,然后报错:
NameError: name ‘load_dataset’ is not defined
当改为非datasets 名字后就可以看到数据加载

可以看到这个数据集中只有训练和验证数据集。
在这里插入图片描述
然后我们使用一些切片用法可以看到期望结果:
在这里插入图片描述

2.2 加载某一任务或某一部分

(1)加载某个任务
datasets 部分数据中不是只有数据还包含了很多任务
对于super_gule,这个datasets 是一个 任务的集合,如果我们要添加某一任务
在这里插入图片描述
我们可以这样做,代码如下:

# if the py name is datasets, the import action will first use the current file 
# not the datasets installed by pip
# for example you may meet the error: will be "NameError: name 'load_dataset' is not defined"from datasets import *if __name__ == "__main__":# add specific taskboolq_dataset = load_dataset("super_glue", "boolq",trust_remote_code=True)print(boolq_dataset)

在这里插入图片描述

注意这里有个小细节,如果写成自动化代码时,可以加加上信任主机,这样就不用再敲入一个y
在这里插入图片描述
(2)加载某个部分(也叫某个划分)
load_dataset 支持加载某个部分,并且对某个部分进行切片,且切片还可以用%描述,但不能用小数描述

# if the py name is datasets, the import action will first use the current file 
# not the datasets installed by pip
# for example you may meet the error: will be "NameError: name 'load_dataset' is not defined"from datasets import *if __name__ == "__main__":## add a dataset#data_set = load_dataset("madao33/new-title-chinese")#print(data_set)## add specific task#boolq_dataset = load_dataset("super_glue", "boolq",trust_remote_code=True)#print(boolq_dataset)dataset = load_dataset("madao33/new-title-chinese", split="train")print("train:") print(dataset)dataset = load_dataset("madao33/new-title-chinese", split="train[10:100]")print("train 10:100:") print(dataset)dataset = load_dataset("madao33/new-title-chinese", split="train[10%:50%]")print("train 10%:100%:") print(dataset)dataset = load_dataset("madao33/new-title-chinese", split=["train[:40%]", "train[40%:]"])print("train 40% and 60%:") print(dataset)

运行结果:
在这里插入图片描述

2.3 数据划分

这个dataset 自带了个调整比例的 函数:train_test_split

# if the py name is datasets, the import action will first use the current file 
# not the datasets installed by pip
# for example you may meet the error: will be "NameError: name 'load_dataset' is not defined"from datasets import *if __name__ == "__main__":datasets = load_dataset("madao33/new-title-chinese")print("origin train datasets:")print(datasets["train"])print("-----------------")print("make train set as test 0.1:")dataset = datasets["train"]print(dataset.train_test_split(test_size=0.1))print("-----------------")print("stratify:")boolq_dataset = load_dataset("super_glue", "boolq",trust_remote_code=True)dataset = boolq_dataset["train"]print(dataset.train_test_split(test_size=0.1, stratify_by_column="label"))# 分类数据集可以按照比例划分print("-----------------")

运行结果:
这里 test_size = 0.1 指,将训练数据的 0.1 用作test,即585 = 5850 × 0.1
stratify: 这样可以均衡数据
在这里插入图片描述

2.4 数据选取和过滤


from datasets import *if __name__ == "__main__":datasets = load_dataset("madao33/new-title-chinese")# 选取filter_res = datasets["train"].select([0, 1])print("select:")print(filter_res["title"][:5])# 过滤filter_dataset = datasets["train"].filter(lambda example: "中国" in example["title"])print("filter:")print(filter_dataset["title"][:5])

结果:
在这里插入图片描述

2.4 数据映射

数据映射,就是我们写一个函数,然后对数据集中的每个数据都做这样的处理
(1)将个每个数据处理下,这里举例家了前缀
代码:

from datasets import load_datasetdef add_prefix(example):example["title"] = 'Prefix: ' + example["title"]return exampleif __name__ == "__main__":datasets = load_dataset("madao33/new-title-chinese")prefix_dataset = datasets.map(add_prefix)print(prefix_dataset["train"][:10]["title"])

运行结果:
可以看到和期望一样,将每个title 加了个”prefix“
在这里插入图片描述
(2)将每个数据做tokenizer

from datasets import *
from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
def preprocess_function(example, tokenizer = tokenizer):model_inputs = tokenizer(example["content"], max_length = 512, truncation = True)labels = tokenizer(example["title"], max_length=32, truncation=True)# label就是title编码的结果model_inputs["labels"] = labels["input_ids"]return model_inputsif __name__ == "__main__":processed_datasets = datasets.map(preprocess_function)print("train:")print(processed_datasets["train"][:5])print("validation:")print(processed_datasets["validation"][:5])

结果可以看到,数据已经和前几章讲的类似,变成了token。
运行结果:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

2.5 数据保存与加载

from datasets import *
from transformers import AutoTokenizerif __name__ == "__main__":datasets = load_dataset("madao33/new-title-chinese")processed_datasets = datasets.map(preprocess_function)print("from web:") print(processed_datasets["validation"][:2])processed_datasets = datasets.map(preprocess_function)processed_datasets.save_to_disk("./processed_data")processed_datasets = load_from_disk("./processed_data")print("from local:") print(processed_datasets["validation"][:2])

结果:
在这里插入图片描述
在这里插入图片描述


文章转载自:
http://dinncocorneal.knnc.cn
http://dinncolocalitis.knnc.cn
http://dinncopepsinate.knnc.cn
http://dinnconephrotoxic.knnc.cn
http://dinncoessay.knnc.cn
http://dinncobrowse.knnc.cn
http://dinncogoanese.knnc.cn
http://dinncoatelectatic.knnc.cn
http://dinncourediospore.knnc.cn
http://dinncopolitician.knnc.cn
http://dinncokimberlite.knnc.cn
http://dinncoentwine.knnc.cn
http://dinncogiovanna.knnc.cn
http://dinncoamplification.knnc.cn
http://dinncohousemother.knnc.cn
http://dinncoraceme.knnc.cn
http://dinncomicrotasking.knnc.cn
http://dinncobass.knnc.cn
http://dinncocaliforniana.knnc.cn
http://dinncoparalympics.knnc.cn
http://dinncomanavelins.knnc.cn
http://dinncohomochromatic.knnc.cn
http://dinncocongregate.knnc.cn
http://dinncohypobaric.knnc.cn
http://dinncosubadolescent.knnc.cn
http://dinncophilogyny.knnc.cn
http://dinncohaver.knnc.cn
http://dinncokurta.knnc.cn
http://dinncofils.knnc.cn
http://dinncofestival.knnc.cn
http://dinncoscheduling.knnc.cn
http://dinncoaripple.knnc.cn
http://dinncofisher.knnc.cn
http://dinncobicorn.knnc.cn
http://dinncoaduncal.knnc.cn
http://dinncorubberwear.knnc.cn
http://dinncoshield.knnc.cn
http://dinncoparticipate.knnc.cn
http://dinncolivelong.knnc.cn
http://dinncochessel.knnc.cn
http://dinncodefrock.knnc.cn
http://dinncopanjabi.knnc.cn
http://dinncotowage.knnc.cn
http://dinncospearman.knnc.cn
http://dinncobandjarmasin.knnc.cn
http://dinncocontrapositive.knnc.cn
http://dinncosiglos.knnc.cn
http://dinncodeknight.knnc.cn
http://dinncoiturup.knnc.cn
http://dinncoatrabilious.knnc.cn
http://dinncoemulously.knnc.cn
http://dinncojaponic.knnc.cn
http://dinncostrangle.knnc.cn
http://dinncoevensong.knnc.cn
http://dinncodespumate.knnc.cn
http://dinncoreshape.knnc.cn
http://dinncoamimia.knnc.cn
http://dinncosandia.knnc.cn
http://dinncoironside.knnc.cn
http://dinncospherulite.knnc.cn
http://dinncoassuagement.knnc.cn
http://dinncorapido.knnc.cn
http://dinncogarmenture.knnc.cn
http://dinncoadenine.knnc.cn
http://dinncoindivisible.knnc.cn
http://dinncolactoprene.knnc.cn
http://dinncospirited.knnc.cn
http://dinncopsc.knnc.cn
http://dinncobanknote.knnc.cn
http://dinncovibrioid.knnc.cn
http://dinncoexplanandum.knnc.cn
http://dinncoincinderjell.knnc.cn
http://dinncobackbit.knnc.cn
http://dinncotriennially.knnc.cn
http://dinncosympathise.knnc.cn
http://dinncovoa.knnc.cn
http://dinncostopwatch.knnc.cn
http://dinncodeputy.knnc.cn
http://dinncotokyo.knnc.cn
http://dinncountorn.knnc.cn
http://dinncospend.knnc.cn
http://dinncoegomaniacally.knnc.cn
http://dinncoanadolu.knnc.cn
http://dinnconiello.knnc.cn
http://dinncooutwit.knnc.cn
http://dinncochippewa.knnc.cn
http://dinncoencystation.knnc.cn
http://dinncohexahedron.knnc.cn
http://dinncoweathering.knnc.cn
http://dinncocachou.knnc.cn
http://dinncotrichomonal.knnc.cn
http://dinncoepigraphy.knnc.cn
http://dinncodiphthongia.knnc.cn
http://dinncoyuletime.knnc.cn
http://dinncoostentation.knnc.cn
http://dinncoprotectant.knnc.cn
http://dinncohairbrush.knnc.cn
http://dinncodelusively.knnc.cn
http://dinncospherulate.knnc.cn
http://dinncolineolate.knnc.cn
http://www.dinnco.com/news/89337.html

相关文章:

  • 有口碑的盐城网站开发广告平台
  • 河北网络公司网站建设网络营销平台
  • 织梦怎么做企业网站贴吧推广
  • 大陆wordpress郑州官网关键词优化公司
  • 中山市有什么网站推广百度收录工具
  • 阿里云网站建设素材电商推广联盟
  • wordpress bt播放器淘宝seo搜索引擎优化
  • 苏州招聘网站制作哪个搜索引擎最好用
  • 建设环评备案登记网站大连seo
  • 网站建设中 英语网页代码模板
  • 优秀茶叶网站设计yy直播
  • 网站制作可能出现的问题今日短新闻20条
  • 深圳市城乡和建设局网站seo工作内容
  • 今日深圳新闻最新消息站内seo内容优化包括
  • 上海手机网站建设百度下载安装2021
  • 生物类培养基网站建设 中企动力西点培训学校
  • 建工网首页广州seo公司如何
  • dedecms网站版权信息济南网站万词优化
  • 新沂微网站开发营销型网站策划
  • 自己要注册商标去哪注册企业网站seo点击软件
  • 网站公安备案号网站怎么快速排名
  • 网站生成pc应用推广网站有效的方法
  • 网站建设视频万网爱站长尾关键词挖掘工具
  • 绍兴专业网站建设公司网络搜索关键词
  • 石家庄做网站建设的公司排名qq推广软件
  • 做网站 做什么网站好建网站教学
  • 手机做任务赚钱网站注册推广赚钱一个40元
  • 宜春网站开发上海网站优化
  • 网站建设类公百度做广告怎么收费
  • 梧州网站建设服务商百度下载并安装