当前位置: 首页 > news >正文

芯互联大厦做网站的免费直链平台

芯互联大厦做网站的,免费直链平台,遵义网红,电商网站有什么特点前言 从PDF中提取内容能帮助我们获取文件中的信息,以便进行进一步的分析和处理。此外,在遇到类似项目时,提取出来的文本或图片也能再次利用。要在Python中通过代码提取PDF文件中的文本和图片,可以使用 Spire.PDF for Python 这个…

前言

从PDF中提取内容能帮助我们获取文件中的信息,以便进行进一步的分析和处理。此外,在遇到类似项目时,提取出来的文本或图片也能再次利用。要在Python中通过代码提取PDF文件中的文本和图片,可以使用 Spire.PDF for Python 这个第三方库。具体操作方法查阅下文。

  • Python 提取PDF文本
  • Python 提取PDF页面中指定矩形区域的文本
  • Python 提取PDF图片

安装 Spire.PDF for Python

本文中用到的Python PDF库支持在各种 Python 程序中创建、读取、编辑、转换和保存 PDF 文档。要安装此产品,可使用以下 pip 命令。

pip install Spire.PDF

要了解详细安装教程,参考: 如何在 VS Code 中安装 Spire.PDF for Python

使用 Python 提取PDF文本

Spire.PDF for Python 提供的 PdfPageBase.ExtractText() 方法能提取一个 PDF 页面中文本。根据你的具体需求,你可以选择仅提取某页中的文本,或者遍历所有页面以提取整个PDF文件中的文本。完整Python代码如下:

from spire.pdf import \*
from spire.pdf.common import \*# 创建PdfDocument类的实例
pdf = PdfDocument()# 加载PDF文档
pdf.LoadFromFile("大数据.pdf")# 创建一个TXT文件来保存提取的文本
extractedText = open("Output/提取文本.txt", "w", encoding="utf-8")# 遍历文档的每一页
for i in range(pdf.Pages.Count):# 获取页面page = pdf.Pages.get\_Item(i)# 从页面提取文本text = page.ExtractText()# 将文本写入TXT文件extractedText.write(text + "\\n")extractedText.close()
pdf.Close()

使用 Python 提取PDF页面中指定矩形区域的文本

如果你只需要提取某个PDF页面中指定区域的文本,你可以指定一个矩形范围然后使用 PdfPageBase.ExtractText(RectangleF rectangleF) 方法提取其中的文本内容。完整Python代码如下:

from spire.pdf import \*
from spire.pdf.common import \*# 创建PdfDocument类的对象
pdf = PdfDocument()# 加载PDF文档
pdf.LoadFromFile("大数据.pdf")# 获取第一页
page = pdf.Pages.get\_Item(0)# 从页面的指定矩形区域提取文本
text = page.ExtractText(RectangleF(0.0, 400.0, 770.0, 180.0))# 将提取的文本保存到TXT文件中
extractedText = open("Output/PDF文本.txt", "w", encoding="utf-8")
extractedText.write(text)
extractedText.close()
pdf.Close()

使用 Python 提取PDF图片

除了提取文本外,Spire.PDF for Python 还提供了 PdfPageBase.ExtractImages() 方法来提取PDF文件中的图片。要提取一个PDF文件中的所有图片并保存到指定路径,参考以下Python代码。

from spire.pdf import \*
from spire.pdf.common import \*# 创建PdfDocument类的实例
pdf = PdfDocument()# 加载PDF文档
pdf.LoadFromFile("大数据.pdf")# 创建一个列表来存储图篇
images = \[\]# 遍历文档的每一页
for i in range(pdf.Pages.Count):# 获取页面page = pdf.Pages.get\_Item(i)# 从页面提取图片并存储在创建的列表中for img in page.ExtractImages():images.append(img)# 保存图像
i = 0
for image in images:i += 1image.Save("Output/图片/图片-{0:d}.png".format(i), ImageFormat.get\_Png())pdf.Close()

后话

如果你也喜欢编程,想通过学习Python获取更高薪资,这里给大家分享一份Python学习资料。

👉Python所有方向的学习路线👈
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(全套教程文末领取)

在这里插入图片描述

👉Python学习视频600合集👈

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉Python70个实战练手案例&源码👈

在这里插入图片描述

👉Python副业兼职路线&方法👈
在这里插入图片描述

👉 这份完整版的Python全套学习资料已经上传,朋友们如果需要可以直接下方领取
【保证100%免费】
在这里插入图片描述

http://www.dinnco.com/news/48121.html

相关文章:

  • 门源网站建设公司苏州排名搜索优化
  • 重庆网站建设公司 十年seo教程最新
  • 微信优惠券网站怎么做站长seo综合查询
  • 丹东网站建设公司网络推广策划方案怎么写
  • 企业网站开发合同小红书软文推广
  • 创业谷网站建设方案手机百度电脑版入口
  • wordpress 3.9.2 漏洞广州网站优化方式
  • 网站开发所遵循广州网站seo地址
  • 重庆一次可以备案多少个网站网站的营销推广方案
  • 网站分站的实现方法营销渠道名词解释
  • 做兼职什么网站比较好黄页88网
  • 做舞台灯光的在哪些网站接订单呢网络舆情监测与研判
  • 成都淮洲新城建设投资有限公司网站现在什么app引流效果好
  • 带网站的图片素材网站推广代理
  • 浙江 网站建设唐山百度搜索排名优化
  • 适合初学者做的网站百度网盘app下载安装电脑版
  • 外国媒体新闻网站抖音搜索引擎优化
  • 常熟有没有做阿里巴巴网站百度关键词推广怎么做
  • 手机商城网站制作公司网络营销五个主要手段
  • 网站搭建福州公司视频号排名优化帝搜软件
  • 淘宝做促销的网站简易网站制作
  • 甘肃省庆阳市合水县疫情最新消息南昌seo推广公司
  • 牛 网站建设宁波seo外包引流推广
  • 高端网站设计哪家好网站推广的工作内容
  • 各类网站网站建设的目标是什么意思招商外包公司
  • wordpress 做音乐网站网络推广如何收费
  • 固阳网站建设收录网站有哪些
  • 如何在阿里云云服务器上搭建网站seo技术分享
  • 贵州企业网站建设百度一下打开
  • b2b网站举例广告关键词