当前位置: 首页 > news >正文

网站里的图片是怎么做的镇江seo快速排名

网站里的图片是怎么做的,镇江seo快速排名,网站建设结课总结,Wordpress启动mysql文章目录 六、PyMuPDF的OCR识别6.1 使用 Tesseract进行OCR6.2 使用MuPDF进行OCR6.3 使用 Python 包easyocr进行OCR识别6.4 使用 Python ocrmypdf包进行OCR识别6.5 将图像批量OCR并转换为PDF七、PDF附加、嵌入、批注等7.1 附加文件7.2 嵌入文件7.3 从文档中获取所有批注六、PyMu…

文章目录

  • 六、PyMuPDF的OCR识别
    • 6.1 使用 Tesseract进行OCR
    • 6.2 使用MuPDF进行OCR
    • 6.3 使用 Python 包easyocr进行OCR识别
    • 6.4 使用 Python ocrmypdf包进行OCR识别
    • 6.5 将图像批量OCR并转换为PDF
  • 七、PDF附加、嵌入、批注等
    • 7.1 附加文件
    • 7.2 嵌入文件
    • 7.3 从文档中获取所有批注

六、PyMuPDF的OCR识别

https://github.com/pymupdf/PyMuPDF-Utilities/tree/master/OCR
在这里插入图片描述

使用 PyMuPDF 和 OCR 的演示脚本
从 1.18.0 版本开始,MuPDF 支持动态调用 Tesseract OCR 来解释页面或图像上的文本。从其版本 1.19.0 开始,PyMuPDF 已开始支持此接口。

6.1 使用 Tesseract进行OCR

此演示脚本读取包含无法解释的字符的文档文本。这些字符被编码为 MuPDF。在每次遇到与此字符的文本跨度时,都会通过 Python 调用 Tesseract OCR 进行解释。脚本和 Tesseract 安装之间没有其他/直接连接。chr(65533)subprocess

脚本的方法是这样的

  • 将页面的文本解压缩到 via .dictget_text(“dict”, flags=0)[“blocks”]
  • 遍历字典并检查 span 文本是否包含 .chr(65533)
  • 在这种情况下,请创建跨度的 bbox 的像素图,并调用 Tesseract 来对此图像进行 OCR。
  • 打印新旧文本以进行视觉比较。

每个此类 OCR 操作的平均持续时间约为 0.65 秒(Windows 10,64 位,

http://www.dinnco.com/news/75853.html

相关文章:

  • 思行做网站网站在线客服系统 免费
  • 建站公司都是如何为建站服务定价的网站建设的意义和目的
  • 新东方线下培训机构官网深圳百度seo代理
  • 免费推广网站入口2023附近有学电脑培训班吗
  • 网站开发进度缓慢流量推广怎么做
  • 专业的营销型网站建设朝阳区seo搜索引擎优化怎么样
  • 网站建设行业企业发展前景免费可用的网站源码
  • 磁力猫最佳搜索引擎入口百度seoo优化软件
  • 残疾人无障碍网站怎么做软文发布平台
  • 企业网站优化分为哪两个方向广州seo服务外包
  • 旅游网站开发论文关键词在线听
  • 软件和网站开发99个创意营销方案
  • 儿童编程培训班百度排名优化工具
  • 庆阳手机网站设计seo优化分析
  • discuz开放平台黄山seo推广
  • 网站建设海报设计全国疫情最新报告
  • 诸城做网站公司seo推广的常见目的有
  • 佛山企业自助建站系统怎么引流到微信呢
  • 郑州做网站元辰惠州seo外包公司
  • 高明网站设计平台如何创建自己的个人网站
  • 如何免费制作企业网站网络营销意思
  • 响应式网站特点2024年新闻摘抄
  • 东莞市永铭装饰有限公司厦门seo推广公司
  • 定西市建设局网站传媒公司
  • 杭州网络公司网站百度关键词排名点
  • 北京最大的网站建设有限公司做seo必须有网站吗
  • 做网站 源码合肥正规的seo公司
  • 网页视频下载到本地太原seo关键词排名优化
  • 做网站哪里网络营销的特点有几个
  • 兰州做it网站运营的怎么样新闻热点素材