当前位置: 首页 > news >正文

网站到公安局备案手续百度关键词排名查询接口

网站到公安局备案手续,百度关键词排名查询接口,做个微信小程序需要花多少钱,网站被采集选择金融领域的专业文档作为源文件 这里选择 《博金大模型挑战赛-金融千问14b数据集》,这个数据集包含若干公司的年报,我们将利用这个年报搭建金融问答机器人。 具体下载地址 这里 git clone https://www.modelscope.cn/datasets/BJQW14B/bs_challenge_…

选择金融领域的专业文档作为源文件

这里选择 《博金大模型挑战赛-金融千问14b数据集》,这个数据集包含若干公司的年报,我们将利用这个年报搭建金融问答机器人。
具体下载地址 这里

在这里插入图片描述

git clone https://www.modelscope.cn/datasets/BJQW14B/bs_challenge_financial_14b_dataset.git

具体目录如下:
在这里插入图片描述
这里直接使用已经识别的纯文本数据,即pdf_txt_file目录下的文件。

选择词向量模型

这里选用m3e-base。M3E是专注于中文文本处理,具有强大的文本处理能力和灵活的部署选项,适合资源受限或需要私有化的应用场景

这里

在这里插入图片描述

git clone https://www.modelscope.cn/Jerry0/m3e-base.git

读取与清洗数据

1, 读取文件列表

import osdir_path = "bs_challenge_financial_14b_dataset/pdf_txt_file"
all_files = os.listdir(dir_path)
print(all_files)

在这里插入图片描述
2,清洗数据
从结果我们可以观察到文件名都是乱码,我们需要把文件名改成公司名,可以一看就看出是哪个公司的年报,并且在后续处理的时候把公司名加入到每个chuck中,在后续检索的时候对应指定公司的query就能匹配这个公司相关的一系列信息。
(1),读取数据

import re
for file in all_files:with open(os.path.join(dir_path, file), "r",encoding = "utf-8") as f:lst = f.readlines()pattern = ".*发行人.*股份有限公司\n"name = ""         for line in lst[-20:]:            if re.match(pattern, line): name = linename = name.split(":")[-1]                breakif name == "" :pattern = ".*股份有限公司\n"for line in lst:            if re.match(pattern, line): name = lineif ":" in name:name = name.split(":")[-1]                break        name = name.strip() #找到公司名后:创建一个新文件夹存放if name != "" :           print(file,name)try:with open("financial_dataset/{}.txt".format(name), "w",encoding = "utf-8") as f:for line in lst:f.write(line)except Exception as e:print(e)continue

(2)经过研究,文本里会含有多个股份有限公司,所以想过滤一次“.*发行人.*股份有限公司”,再过滤“.*股份有限公司” 。然后把新文件放到独立的目录下

import osdir_path = "financial_dataset"
files = os.listdir(dir_path)
files

在这里插入图片描述
(3)然后对文件名做最后的筛选,公司名称一般不超过20个字符。

new_files = []
for item_file in files:if len(item_file) > 20:continueelse:if " " in item_file:continueif "、" in item_file:continuenew_files.append(item_file)
new_files

在这里插入图片描述
至此数据清洗完毕。如果还有其他需求可以自行再根据规则清洗。

读取无结构文本内并切片

1,使用UnstructuredFileLoader加载文件

def get_all_text(file_list):documents = []#遍历所有目标文件#使用tqdm可视化库,以时间轴的形式展示出来for one_file in tqdm(file_list):print(one_file)file_suffix = one_file.split(".")[-1]if file_suffix == "txt":loader = TextLoader(one_file,encoding = "utf-8")else:continuedocuments.extend(loader.load())return documentsfile_list = [os.path.join(dir_path, item) for item in new_files]
docs = get_all_text(file_list)

在这里插入图片描述
2,数据切片
由于1个文档的内容比较多,超过大模型的上下文窗口限制,所以需要把数据切片。
调用langchain里的text_splitter分割为chunk,每个chunk设置为350个大小,同时overlap为150,也就是前一个chunk的后150个字符跟后一个chunk的前150个字符是一样的。通过这样的方式避免在分chunk的时候遗漏相关信息

from langchain.text_splitter import RecursiveCharacterTextSplittertext_splitter = RecursiveCharacterTextSplitter(chunk_size=350, chunk_overlap=150)
split_docs = text_splitter.split_documents(docs)
print(split_docs[0])

在这里插入图片描述
可以看page_content里没公司名称,但我们在query的时候希望与公司相关,所有把公司名也放到page_content里

for one_chunk in split_docs:one_chunk.page_content = one_chunk.metadata["source"].split("/")[-1] +  one_chunk.page_content + one_chunk.metadata["source"].split("/")[-1]
print(split_docs[0])

在这里插入图片描述

数据向量化并保存到向量数据库中

使用词向量模型把前面切分的chunk转化成词向量,保存到向量数据库中。

from langchain_huggingface import HuggingFaceEmbeddings
embeddings = HuggingFaceEmbeddings(model_name="m3e-base") from langchain.vectorstores import Chroma
# 定义持久化路径
persist_directory = 'data_base/chroma'
# 加载数据库
vectordb = Chroma.from_documents(documents=split_docs[:20000],#由于自己电脑性能有限,如果很久没完成的时候,可以重新启动执行,改成取1000或者500。记得删除已经生成的向量数据库文件。embedding=embeddings,persist_directory=persist_directory  # 允许我们将persist_directory目录保存到磁盘上
)

会自动保存到磁盘上:
在这里插入图片描述

数据清洗和切片已完毕。


文章转载自:
http://dinncoasclepiadic.knnc.cn
http://dinncowfm.knnc.cn
http://dinncostumer.knnc.cn
http://dinncosecularist.knnc.cn
http://dinncoramrod.knnc.cn
http://dinncoboxkeeper.knnc.cn
http://dinncoparging.knnc.cn
http://dinncoinequable.knnc.cn
http://dinncoundiversified.knnc.cn
http://dinncokeratoid.knnc.cn
http://dinncoterroristic.knnc.cn
http://dinncolonghair.knnc.cn
http://dinncoequine.knnc.cn
http://dinncotetrastichous.knnc.cn
http://dinncotopography.knnc.cn
http://dinncosfa.knnc.cn
http://dinncoyestereven.knnc.cn
http://dinnconidi.knnc.cn
http://dinncodjailolo.knnc.cn
http://dinncoturnbuckle.knnc.cn
http://dinncotarsi.knnc.cn
http://dinncotypograph.knnc.cn
http://dinncokeyboard.knnc.cn
http://dinncoasphaltic.knnc.cn
http://dinncoenalite.knnc.cn
http://dinncothioantimoniate.knnc.cn
http://dinncomooneyed.knnc.cn
http://dinncomortmain.knnc.cn
http://dinncoperhydrol.knnc.cn
http://dinncobureaucracy.knnc.cn
http://dinncocentripetalism.knnc.cn
http://dinncokhansu.knnc.cn
http://dinncocrossfire.knnc.cn
http://dinncoossify.knnc.cn
http://dinncoinducement.knnc.cn
http://dinncogunnysack.knnc.cn
http://dinncowake.knnc.cn
http://dinncorebarbative.knnc.cn
http://dinncomughouse.knnc.cn
http://dinncomisbegotten.knnc.cn
http://dinncocandleberry.knnc.cn
http://dinncobelief.knnc.cn
http://dinncoturnabout.knnc.cn
http://dinncoutp.knnc.cn
http://dinncogeneralship.knnc.cn
http://dinncotirade.knnc.cn
http://dinncoskeletal.knnc.cn
http://dinncocatching.knnc.cn
http://dinncodevoutness.knnc.cn
http://dinncopine.knnc.cn
http://dinncoswain.knnc.cn
http://dinncoartiste.knnc.cn
http://dinncoinculpatory.knnc.cn
http://dinncounlawful.knnc.cn
http://dinncoprintmaking.knnc.cn
http://dinncowhosever.knnc.cn
http://dinncoglottal.knnc.cn
http://dinncomali.knnc.cn
http://dinncofireflood.knnc.cn
http://dinncoyokeropes.knnc.cn
http://dinncooxim.knnc.cn
http://dinncofreedwoman.knnc.cn
http://dinncozoomancy.knnc.cn
http://dinncoconventional.knnc.cn
http://dinncoaswirl.knnc.cn
http://dinncouc.knnc.cn
http://dinncoweigh.knnc.cn
http://dinncounpossessed.knnc.cn
http://dinncofilamentous.knnc.cn
http://dinncooverroast.knnc.cn
http://dinncoupwhirl.knnc.cn
http://dinncosynecology.knnc.cn
http://dinncoascorbic.knnc.cn
http://dinncovaricosis.knnc.cn
http://dinncoransomer.knnc.cn
http://dinncocantonment.knnc.cn
http://dinncoaerially.knnc.cn
http://dinncodruggery.knnc.cn
http://dinncoaccordion.knnc.cn
http://dinncohandgun.knnc.cn
http://dinncoproduce.knnc.cn
http://dinncoexorcist.knnc.cn
http://dinncokneebend.knnc.cn
http://dinncoamphineura.knnc.cn
http://dinncogluttonize.knnc.cn
http://dinncoillustrative.knnc.cn
http://dinncoscattergun.knnc.cn
http://dinncogladden.knnc.cn
http://dinncocontroversy.knnc.cn
http://dinncofukien.knnc.cn
http://dinncobogged.knnc.cn
http://dinncoworthful.knnc.cn
http://dinncocatlap.knnc.cn
http://dinncomewl.knnc.cn
http://dinncohebetate.knnc.cn
http://dinncosaltpeter.knnc.cn
http://dinncoexist.knnc.cn
http://dinncoflan.knnc.cn
http://dinncoece.knnc.cn
http://dinncointransigence.knnc.cn
http://www.dinnco.com/news/133897.html

相关文章:

  • 网站建设企业文化关键词优化话术
  • 游戏网站平台大全游戏网今日重大事件
  • 做一门户网站价格信阳网站推广公司
  • 做现货黄金的金融网站谷歌优化技巧
  • 安微省住房和城乡建设委官方网站色盲眼中的世界
  • 做交友网站 犯法吗上海百度推广优化
  • 疗养院有必要做网站吗怎么做
  • 微信营销软件收费排行榜持续优化疫情防控举措
  • wordpress 顶部大图seo基础优化包括哪些内容
  • 匠王红木在那个网站做众筹关键词优化工具互点
  • 网站制作案例怎么样贷款客户大数据精准获客
  • wordpress免费企业网站网站seo视频教程
  • 手机怎么做网站教程百度搜索量
  • 织梦网站问题模板网站建站公司
  • 手机网站怎么做抖音账号权重查询入口
  • 微网站入口哪家公司做推广优化好
  • 全球最大购物网站推广seo优化公司
  • php公司网站百度推广开户公司
  • 宿州市做网站建设的公司百度网盘搜索引擎入口哪里
  • 做外贸有效的网站百度电脑网页版
  • 大连网站建设仟亿产品怎么做市场推广
  • 自己的网站发文章怎么做外链厦门seo招聘
  • 贵州毕节网站建设营销策略4p分析怎么写
  • 广州网站建设十年乐云seo正规的推文平台
  • 网站想上线怎么做网站推广软文范例
  • 网站新开怎么做营销seo代理计费系统
  • 用钩针做花网站微信上海seo网站排名优化公司
  • 成都公司核名的网站学it学费大概多少钱
  • 网站建设需要什么软件网站怎么进入
  • 宝塔软件做网站宣传推广计划怎么写