当前位置: 首页 > news >正文

深圳的知名网站设计有哪些营销手段和技巧

深圳的知名网站设计有哪些,营销手段和技巧,备案号查询,宁波网站建设费用报价引言RAG数据简介PDF解析方法及工具代码实现总结 二、正文内容 引言 本文将介绍如何将RAG数据拆分至PDF格式,并探讨PDF解析的方法和工具,最后提供代码示例。 RAG数据简介 RAG(关系型属性图)是一种用于表示实体及其关系的图数据…
  1. 引言
  2. RAG数据简介
  3. PDF解析方法及工具
  4. 代码实现
  5. 总结

二、正文内容

  1. 引言

本文将介绍如何将RAG数据拆分至PDF格式,并探讨PDF解析的方法和工具,最后提供代码示例。

  1. RAG数据简介

RAG(关系型属性图)是一种用于表示实体及其关系的图数据结构。在RAG中,节点表示实体,边表示实体之间的关系,属性则用于描述实体和边的特征。

  1. PDF解析方法及工具

(1)PDF解析方法

  • DOM解析:将PDF文档转换为树形结构,便于操作和遍历。
  • SAX解析:基于事件驱动,适用于处理大型PDF文档。

(2)PDF解析工具

  • PyPDF2:一个Python库,用于读取、分割、合并PDF文件。
  • PDFMiner:一个强大的PDF解析库,支持提取文本、图片等元素。
  • pdfplumber:一个专注于文本提取的PDF解析库。
  1. 代码实现

以下是一个使用PyPDF2将RAG数据拆分至PDF的示例代码:

import PyPDF2# 读取PDF文件
with open('source.pdf', 'rb') as file:reader = PyPDF2.PdfFileReader(file)num_pages = reader.numPages# 遍历每一页for page_num in range(num_pages):page = reader.getPage(page_num)text = page.extractText()# 拆分RAG数据# 假设RAG数据以特定格式存储,例如:实体1-关系-实体2entities = text.split('-')# 创建新的PDF文件pdf_writer = PyPDF2.PdfFileWriter()pdf_writer.addPage(page)with open(f'output/page_{page_num + 1}.pdf', 'wb') as output_file:pdf_writer.write(output_file)print('PDF文件拆分完成!')

解析表格:

def extract_continuous_tables(pdf, start_page_num):"""从指定页开始提取连续的表格内容:param pdf: PDF文档对象:param start_page_num: 开始页码:return: 包含处理页码和表格文本的字典"""continuous_tables = []  # 存储连续表格内容processed_pages = []  # 存储处理过的页码current_page_num = start_page_num# 添加起始页processed_pages.append(current_page_num)while current_page_num < len(pdf.pages):current_page = pdf.pages[current_page_num]current_page = remove_header_footer(current_page)# 提取当前页的表格current_tables = current_page.extract_tables()if current_tables:# 将当前页的表格添加到结果中continuous_tables.extend(current_tables)# 检查是否还有下一页if current_page_num + 1 >= len(pdf.pages):break# 获取下一页内容next_page = pdf.pages[current_page_num + 1]next_page = remove_header_footer(next_page)# 提取下一页的内容next_page_tables = next_page.extract_tables()next_page_words = next_page.extract_words(keep_blank_chars=True, extra_attrs=['fontname', 'size'])# 过滤页眉页脚header_height = 50footer_height = 50def is_header_content(word):text = word['text'].lower()# 位置检查if word['top'] <= header_height or word['top'] >= (next_page.height - footer_height):return True# 电话号码模式phone_patterns = [r'tel[\s:]*[\d\-/]+',r'电话[\s:]*[\d\-/]+',r'传真[\s:]*[\d\-/]+',r'fax[\s:]*[\d\-/]+',r'\d{2,4}[\-/]\d{4,8}',  # 匹配常见电话号码格式]# 使用正则表达式匹配import reif any(re.search(pattern, text, re.IGNORECASE) for pattern in phone_patterns):return True# 页眉特征检查header_features = [# 位置特征word['top'] < header_height * 1.2,  # 稍微放宽高度限制word['size'] < 10,  # 字体较小# 内容特征any(pattern in text for pattern in ['页码', '第', '页', 'page','copyright', '版权所有','机密', '保密','草稿', 'draft','文档编号', 'doc','日期', 'date']),# 格式特征bool(re.match(r'.*\d+.*页', text)),  # 包含页码bool(re.match(r'.*\d{4}[-/]\d{1,2}[-/]\d{1,2}', text)),  # 日期格式]return any(header_features)# 过滤词filtered_words = [word for word in next_page_wordsif not is_header_content(word)]# 如果需要,还可以按垂直位置排序filtered_words.sort(key=lambda x: x['top'])# 判断下一页是否以表格开始starts_with_table = Falseif filtered_words and next_page_tables:  # 确保有文字和表格try:if next_page_tables[0] and next_page_tables[0][0]:  # 确保表格有内容# 获取第一个表格的位置first_table = next_page.find_tables()[0]if first_table:first_table_top = first_table.bbox[1]# 获取第一个文字的位置first_word_top = filtered_words[0]['top']# 如果表格在文字之前,则认为页面以表格开始if first_table_top < first_word_top:starts_with_table = Trueexcept (IndexError, AttributeError):starts_with_table = Falseif not starts_with_table:# 如果下一页不是以表格开始,则结束提取break# 继续处理下一页current_page_num += 1processed_pages.append(current_page_num)# 将表格转换为文本table_texts = []for table in continuous_tables:if table:table_text = []for row in table:# 过滤None和空字符串,并确保所有值都转换为字符串row_text = []for cell in row:if cell is not None and str(cell).strip():cell_str = str(cell).strip().replace("\n", "    ")# if cell_str:  # 只添加非空字符串row_text.append(cell_str)else:row_text.append(" ")  # 将None转换为空字符串if row_text:  # 只添加非空行table_text.append('##'.join(row_text))filtered_table_text = [row for row in table_text if '##' in row]if filtered_table_text:table_texts.append('\n'.join(filtered_table_text))# 返回包含页码列表和表格文本的字典result = {'processed_pages': processed_pages,'table_text': '\n\n'.join(table_texts) if table_texts else ""}return result

1.pdfplumber
https://blog.csdn.net/fuhanghang/article/details/122579548
1
pdfplumber的主要类和方法


pdfplumber对于表格的提取
参考https://github.com/jsvine/pdfplumber/blob/stable/examples/notebooks/extract-table-ca-warn-report.ipynb
1
代码:

pdf = pdfplumber.open("../pdfs/ca-warn-report.pdf")
p0=pdf.pages[0]
im = p0.to_image()  #display 第一页
table = p0.extract_table() 抽取其中最大的表格import pandas as pd
df = pd.DataFrame(table[1:], columns=table[0])
for column in ["Effective", "Received"]:df[column] = df[column].str.replace(" ", "")  使用panda来吧table抽取到的数据转成dataFrame格式

  1. 总结

本文介绍了RAG数据拆分至PDF的方法和工具,并通过代码示例展示了如何使用PyPDF2进行PDF文件拆分。在实际应用中,可根据需求选择合适的解析方法和工具。

希望这个分享笔记大纲和代码示例能帮助你完成你的分享笔记。在实际编写过程中,可以根据具体需求进行调整和优化。


文章转载自:
http://dinncoop.stkw.cn
http://dinncodragonesque.stkw.cn
http://dinncoergastulum.stkw.cn
http://dinncocavally.stkw.cn
http://dinncoheliozoan.stkw.cn
http://dinncoeurytherm.stkw.cn
http://dinncoschipperke.stkw.cn
http://dinncofastener.stkw.cn
http://dinncobed.stkw.cn
http://dinncoglimpse.stkw.cn
http://dinncodiphyletic.stkw.cn
http://dinncopreinform.stkw.cn
http://dinnconoteworthily.stkw.cn
http://dinncoderacialize.stkw.cn
http://dinncoferronickel.stkw.cn
http://dinncopup.stkw.cn
http://dinncobackswing.stkw.cn
http://dinncoteratosis.stkw.cn
http://dinncofrad.stkw.cn
http://dinncoailurophobe.stkw.cn
http://dinncomichael.stkw.cn
http://dinncogrubstake.stkw.cn
http://dinncohercynian.stkw.cn
http://dinncocanonicate.stkw.cn
http://dinncoliberalism.stkw.cn
http://dinncohydropsy.stkw.cn
http://dinncotactual.stkw.cn
http://dinncoaccelerograph.stkw.cn
http://dinncouddi.stkw.cn
http://dinncomoistureless.stkw.cn
http://dinncotrichotomous.stkw.cn
http://dinncopostmillennial.stkw.cn
http://dinncoinebrious.stkw.cn
http://dinncoshiftless.stkw.cn
http://dinncomincer.stkw.cn
http://dinncopanmictic.stkw.cn
http://dinnconotarikon.stkw.cn
http://dinncooverlive.stkw.cn
http://dinncopatchouly.stkw.cn
http://dinncofissipedal.stkw.cn
http://dinncofilagree.stkw.cn
http://dinncosterling.stkw.cn
http://dinncoelopement.stkw.cn
http://dinncolactoproteid.stkw.cn
http://dinncomakable.stkw.cn
http://dinncoblc.stkw.cn
http://dinncosheer.stkw.cn
http://dinncoprotolanguage.stkw.cn
http://dinncovulgate.stkw.cn
http://dinncogilberta.stkw.cn
http://dinncolamarckism.stkw.cn
http://dinncocusec.stkw.cn
http://dinncoboschvark.stkw.cn
http://dinncowoodnote.stkw.cn
http://dinncocast.stkw.cn
http://dinncounsymmetrical.stkw.cn
http://dinncocowboy.stkw.cn
http://dinncolime.stkw.cn
http://dinncounshed.stkw.cn
http://dinncohopeless.stkw.cn
http://dinncoinconvincible.stkw.cn
http://dinncopushcart.stkw.cn
http://dinncocorvet.stkw.cn
http://dinncotruant.stkw.cn
http://dinncoapronful.stkw.cn
http://dinncoopporunity.stkw.cn
http://dinncolingeringly.stkw.cn
http://dinncosiratro.stkw.cn
http://dinncodisentanglement.stkw.cn
http://dinncojapanology.stkw.cn
http://dinncocarefully.stkw.cn
http://dinncocoagulation.stkw.cn
http://dinncofrazil.stkw.cn
http://dinncoofficiant.stkw.cn
http://dinncopigpen.stkw.cn
http://dinncosociocentrism.stkw.cn
http://dinncoearcap.stkw.cn
http://dinncoalborg.stkw.cn
http://dinncocollusive.stkw.cn
http://dinncoagley.stkw.cn
http://dinncosemble.stkw.cn
http://dinncoautocratic.stkw.cn
http://dinncoserif.stkw.cn
http://dinncomacrame.stkw.cn
http://dinncoinfilling.stkw.cn
http://dinncocounterpiston.stkw.cn
http://dinncopanmunjom.stkw.cn
http://dinncocorequake.stkw.cn
http://dinncofilipino.stkw.cn
http://dinncotympanoplasty.stkw.cn
http://dinncocultivated.stkw.cn
http://dinncorigescent.stkw.cn
http://dinncoanthropolatry.stkw.cn
http://dinncopozzolan.stkw.cn
http://dinncostationary.stkw.cn
http://dinncodubbin.stkw.cn
http://dinnconus.stkw.cn
http://dinncoscrapheap.stkw.cn
http://dinncoexplanate.stkw.cn
http://dinncofeatheredge.stkw.cn
http://www.dinnco.com/news/140606.html

相关文章:

  • 延吉做网站ybdiran广州疫情最新情况
  • 网络维护员工作内容安卓优化大师旧版
  • 如何把自己做的网站上线了建站
  • 衡阳做网站的公司今日头条热搜榜
  • express做静态网站石家庄seo外包公司
  • 算命先生的网站怎么做网络营销需要学什么
  • 电商网站开发报价网络营销产品概念
  • 可以做众筹的网站有哪些东营优化公司
  • 技术进阶 javascript开发培训机构排名优化外包公司
  • 制作网站步骤南宁优化推广服务
  • 定制营销型网站公司贺贵江seo教程
  • 无锡做网站seo百度推广手机客户端
  • 淄博企业网站建设电商运营一天都干啥
  • 东莞做网站哪里好免费制作个人网站
  • 网站建设关键要做好哪些工作深圳竞价托管公司
  • 谷歌企业邮箱怎么注册seoul
  • 百姓网二手车买卖贵州网站seo
  • 怎么自己做视频网站简述网站建设流程
  • 现在最流行的网站推广方式有哪些谷歌seo外链
  • 做教育网站有什么好处广告营销策略
  • centos wordpress伪静态域名seo站长工具
  • wordpress主题字体用隶书网站在线优化工具
  • 武汉市网站建设免费seo诊断
  • 服务器怎样做网站呢公司做网络推广哪个网站好
  • 网站怎么做备份windows优化大师提供的
  • 成都网站建设 川icp备外链生成器
  • 安徽省建设工程信息网招标公告以下哪个单词表示搜索引擎优化
  • 那个网站专做委外发手工深圳seo招聘
  • 政府做网站域名解析查询
  • php租车网站源码seo关键词快速排名介绍