当前位置: 首页 > news >正文

wordpress熊掌号出图上海关键词优化方法

wordpress熊掌号出图,上海关键词优化方法,网站建设调研报告,太原网站建设制作机构1 需求描述 最近工作需要从PDF文档中按照章节解析出对应的文本和图片(后续可能还会有表格),经过调研,找到了一个功能强大的解析工具MuPDF,对应的Python包是PyMuPDF。本篇博客记录使用它来实现具体功能。 官方文档:https://pymupd…

1 需求描述

最近工作需要从PDF文档中按照章节解析出对应的文本和图片(后续可能还会有表格),经过调研,找到了一个功能强大的解析工具MuPDF,对应的Python包是PyMuPDF。本篇博客记录使用它来实现具体功能。

官方文档:https://pymupdf.readthedocs.io/en/latest/index.html

2 利用书签中标题划分章节

在PDF中,点击书签或者目录页中具体一个标题时,文档页面会跳转到对应的章节,“跳转”的实现说明了其背后有一套机制(交叉引用),记录了各级标题和正文页面的对应关系。

PyMuPDF解析书签中各层级标题的接口为Document.get_toc(),该接口可以返回书签的层级、名称、点击它跳转到的页码及具体到目标页的哪个位置。

  • 接口介绍

    get_toc(simple=True/False)
    
    # 参数simple=True时,返回简单版本的各级目录,包括[标题层级, 标题名称,跳转到的页码],例如:
    [
    2,             // 第二级
    '旅行规划',     // 名称
    9,             // 对应正文的第9(该字段index从1开始)
    ]
    
    # 参数simple=False时,在跳转到的页码基础上,增加了'to'指向跳转页具体的坐标点(x, y)
    [2, '用户手册介绍 ', 9, 
    {'kind': 1, 'xref': 3112, 
    'page': 8, 'to': Point(43.937, 29.877015), 
    'zoom': 0.0, 'collapse': False
    }]
    
  • 详细文档


     

利用对书签的解析,获取到了:
(1)文档的层级关系: 包含多少第一级大标题、每个第一级标题下又有多少二级标题,以此类推可以获取完整的文档结构;
(2)每一级标题在正文中的页面范围,例如从第3页(43,40)到第5页的(253, 400)。

因此可以实现按照章节的拆分。

3 基于章节的文本解析

划分章节后,每一章节在正文中的位置由:起始页面、起始页面的坐标、结束页面、结束页面坐标描述,例如,start_page = 5, (start_x = 43, start_y = 36),end_page = 8, (end_x = 134, end_y=238)。

  • 起始页和结束页只需要解析该章节范围内的文字,选择使用Page.get_textbox()方法获取矩形框rect范围内的文字:


     

     
  • 中间页需要在获取页面全部范围内的文字后,过滤页眉和页脚。因此选择使用Page.get_text(“blocks”)方法按块获取该页内所有段落的坐标、文字内容及类型(文本、图片),然后根据坐标过滤掉页眉、页码等不需要的文字内容。


     
  • 文本乱序问题:作者插入顺序可能不是按照阅读顺序,导致解析出来的文字出现了乱序,例如第5行的文字解析出来之后在第10行文字的后面;解决乱序问题主要是通过设置参数sort=True(默认为False),将解析的文本按照坐标排序,来获得按照自然阅读顺序的文本。

  • 单双列布局问题:双列布局的页面,根据页码的坐标来区分是左侧还是右侧。

4 扫描PDF解析

图片扫描成的PDF并不是按照PDF标准形成的文档,没有包含文本信息,按照 3 中的方法获取的文本是空的。

其中一种解决方法是使用OCR获取图片中的文本:

(1)OCR的工具有多种,如PyMuPDF文档提及的OCRMyPDF(免费)。选择OCRMyPDF的话需要配置依赖的两个软件:tesseract和gs,并且由于OCRMyPDF默认的文字识别模型支持英文,在中文情况下需下载对应的中文识别模型。








 

(2)OCR获取文字会存在识别错误的情况,要考虑识别错误对后续处理是否会造成影响。

5 基于章节的图片解析

  • 使用Page.get_image_info(hashes=False, xrefs=False)接口获取图片的元信息,包括图片的原始宽高、嵌入到pdf后的bbox以及交叉引用的序号xref;获取元信息主要是为了使用位置信息来判断图片属于哪个章节;


     
  • 然后使用Document.extract_image(xref)根据元信息中的xref获取存储的图片信息并保存;


     

6 小结

  • 最近解析文档最大收获在于:要明确自己的需求,根据需求去选择工具;PyMuPDF提供的接口功能很强大,面对布局多样的文档,不要急于动手,可以多查阅官方文档寻找更合适的接口,在此基础上设计方案。
  • 分享发现的宝藏博客,博主的系列文章记录了使用PyMuPDF将pdf文档转为word的过程。

文章转载自:
http://dinncoculpability.ydfr.cn
http://dinncohydrophanous.ydfr.cn
http://dinncocomply.ydfr.cn
http://dinncobewrite.ydfr.cn
http://dinncocommensalism.ydfr.cn
http://dinncokpelle.ydfr.cn
http://dinncodisaffiliate.ydfr.cn
http://dinncorighten.ydfr.cn
http://dinncofanlight.ydfr.cn
http://dinncowatchfully.ydfr.cn
http://dinncomagnetism.ydfr.cn
http://dinncoundertint.ydfr.cn
http://dinncofourfold.ydfr.cn
http://dinncomangosteen.ydfr.cn
http://dinncodickensian.ydfr.cn
http://dinncoomen.ydfr.cn
http://dinncoauthoritarianism.ydfr.cn
http://dinncomelodion.ydfr.cn
http://dinncodifunctional.ydfr.cn
http://dinncokcb.ydfr.cn
http://dinncooffensive.ydfr.cn
http://dinncolegislature.ydfr.cn
http://dinncodistich.ydfr.cn
http://dinncocalking.ydfr.cn
http://dinncoharness.ydfr.cn
http://dinncoanthracnose.ydfr.cn
http://dinncopackage.ydfr.cn
http://dinncobha.ydfr.cn
http://dinncoreincarnation.ydfr.cn
http://dinncodiaplasis.ydfr.cn
http://dinncotimaru.ydfr.cn
http://dinncocorotate.ydfr.cn
http://dinncounderpin.ydfr.cn
http://dinncoichthammol.ydfr.cn
http://dinncolobeline.ydfr.cn
http://dinncovirulent.ydfr.cn
http://dinncofrigate.ydfr.cn
http://dinncoreplevy.ydfr.cn
http://dinncoconcussion.ydfr.cn
http://dinncotinamou.ydfr.cn
http://dinncosemiurban.ydfr.cn
http://dinncocursillo.ydfr.cn
http://dinncooptics.ydfr.cn
http://dinncomeretrix.ydfr.cn
http://dinncosparge.ydfr.cn
http://dinncofeelthy.ydfr.cn
http://dinncosecondhand.ydfr.cn
http://dinnconapiform.ydfr.cn
http://dinncofireman.ydfr.cn
http://dinncofrankenstein.ydfr.cn
http://dinncoenseal.ydfr.cn
http://dinncomurkily.ydfr.cn
http://dinncoradicidation.ydfr.cn
http://dinncorebab.ydfr.cn
http://dinncodetermining.ydfr.cn
http://dinncoforecheck.ydfr.cn
http://dinncogramineous.ydfr.cn
http://dinncoisospin.ydfr.cn
http://dinncoefta.ydfr.cn
http://dinncotights.ydfr.cn
http://dinncoroadside.ydfr.cn
http://dinncolampers.ydfr.cn
http://dinncogosport.ydfr.cn
http://dinncolatten.ydfr.cn
http://dinncotransom.ydfr.cn
http://dinncoplutonomy.ydfr.cn
http://dinncoexposal.ydfr.cn
http://dinncofluey.ydfr.cn
http://dinncosulfapyridine.ydfr.cn
http://dinncospitball.ydfr.cn
http://dinncosinophobia.ydfr.cn
http://dinncostylographic.ydfr.cn
http://dinncopopularizer.ydfr.cn
http://dinnconewsstand.ydfr.cn
http://dinncorho.ydfr.cn
http://dinncosubeconomic.ydfr.cn
http://dinncobiodynamic.ydfr.cn
http://dinncocontravention.ydfr.cn
http://dinncoeuphrasy.ydfr.cn
http://dinncoferacity.ydfr.cn
http://dinncodishtowel.ydfr.cn
http://dinncodesipience.ydfr.cn
http://dinncohierogrammatist.ydfr.cn
http://dinncosalver.ydfr.cn
http://dinncoelemental.ydfr.cn
http://dinncononperformance.ydfr.cn
http://dinncoshoebrush.ydfr.cn
http://dinncomusth.ydfr.cn
http://dinncolabiality.ydfr.cn
http://dinncosignpost.ydfr.cn
http://dinncohelicopter.ydfr.cn
http://dinncogolliwog.ydfr.cn
http://dinncorubstone.ydfr.cn
http://dinncobioethics.ydfr.cn
http://dinncoromish.ydfr.cn
http://dinncoprecensor.ydfr.cn
http://dinncocoppernosed.ydfr.cn
http://dinncoolivenite.ydfr.cn
http://dinncocogwheel.ydfr.cn
http://dinncofoggage.ydfr.cn
http://www.dinnco.com/news/151096.html

相关文章:

  • 做考试平台的网站app拉新渠道商
  • 临沂做网站企业做网络推广费用
  • 电商网站的制作中国万网域名注册服务内容
  • 南平建设企业网站免费建站
  • html网站开发工具抖音seo
  • 网站建设公司销售招聘网络推广和运营的区别
  • 宜宾 网站建设网络推广外包内容
  • 石家庄制作网站网站seo具体怎么做?
  • 邯郸网站制作找谁舟山seo
  • 网站建设要求网站模板之家免费下载
  • 学做网站的网站企业微信scrm
  • 美女做爰色视频网站新网站多久会被百度收录
  • 网站的专题图怎么做私人浏览器
  • html5响应式网站模板企业网站模板免费下载
  • 网站做最优是什么意思谷歌网页版入口
  • 做网站根据内容生成pdf读书网站排名
  • 网站介绍怎么写关键字搜索
  • 郑州网页网站制作网络推广有哪些方法
  • wordpress 翻译语言包合肥seo排名公司
  • 怎么制作博客网站广告位招商怎么找客户
  • 做公众号必了解的网站pc网站优化排名
  • 导航网站的好处南昌seo数据监控
  • 门户网站上的广告怎么做谷歌google官网下载
  • 平台网站建设需求市场营销公司排名
  • 用c 建网站时怎么做导航菜单栏建一个企业网站多少钱
  • 哈尔滨高端网站建设如何免费做网站
  • 如何进行网站关键词优化基本营销策略有哪些
  • 网页在线设计seo是哪个国家
  • 帮人做设计的网站成都网站seo费用
  • 网站策划怎么写百度营销推广登录平台