当前位置: 首页 > news >正文

自己做网站买网站访问量查询工具

自己做网站买,网站访问量查询工具,怎么做废品收购网站,淮安网站制作1. 基本概念 1.1 Tesseract Tesseract 是一款基于 C 语言开发并开源的光学识别工具,提供底层的文字识别能力。 1.2 Tess4J Tess4J 是对 Tesseract OCR API 的 Java 封装,有了 Tess4J 之后 Java 就可以直接调用本地安装的 Tesseract 进行文字识别。 …

1. 基本概念

1.1 Tesseract

Tesseract 是一款基于 C 语言开发并开源的光学识别工具,提供底层的文字识别能力。

1.2 Tess4J

Tess4J 是对 Tesseract OCR API 的 Java 封装,有了 Tess4J 之后 Java 就可以直接调用本地安装的 Tesseract 进行文字识别。

2. 安装

2.1 Tesseract 安装

Tesseract 官方本身没有提供 Windows 的安装包,但是在他的官网上有一个第三方封装的安装包的链接。选择最新的 exe 文件进行安装就可以了,可以避开带有 dev 字样的包。下载完成后一路下一步就可以了。

2.2 Tesseract 环境变量配置

Tesseract 一共有两个环境变量需要配置

  • 在系统环境变量中的 Path 中添加 Tesseract 的安装目录,例如 c:\Tesseract-OCR
  • 在系统环境变量中添加一个新的变量,变量名为 TESSDATA_PREFIX,变量值为 Tesseract 安装目录下的 tessdata 目录的完整路径,例如 c:\Tesseract-OCR\tessdata

2.3 语言包安装

Tesseract 的安装包里自带的语言只有英文,如果需要用于识别中文需要自己下载语言包。语言包也可以在 Github 上下载,中文的语言包文件名为 chi_sim.traineddate,这其实是一个训练后的文件,但是对于我这样的新手来说 “语言包” 可能更好理解。

2.4 安装验证

安装完成后通过在控制台调用 Tesseract 来进行验证。

  • 在控制台输入 tesseract -v 命令,如果返回 Tesseract 的版本,说明安装和配置都成功了。
  • 在控制台输入 tesseract --list-langs 可以看到当前 Tesseract 已经安装的语言包。

3. TesseractOCR 使用

3.1 命令行使用

安装完 TesseractOCR 的安装之后可以使用命令行进行调用。

tesseract {img} {result} -l {lang}
  • img:需要识别的图片的完整路径,如 c:\1.png
  • result:识别结果保存的文件路径,如 c:\result.txt
  • lang:图片中的语言,就是语言包的前缀,如中文就是 chi_sim,英文就是 eng
    下面给出一个完整的样例。
tesseract c:\1.png c:\result.txt -l chi_sim

如果执行命令时提示 找不到命令不是内部命令,那就是环境变量没有配置对。

3.2 Tess4J 的使用

3.2.1 通过 Maven 引入包

<dependency>  <groupId>net.sourceforge.tess4j</groupId>  <artifactId>tess4j</artifactId>  <version>4.5.3</version>  
</dependency>

3.2.2 编写测试代码

public static void main(String[] args) throws Exception {  Tess4jTest test = new Tess4jTest();  //创建ITesseract接口的实现实例对象  ITesseract iTesseract = new Tesseract();  //默认识别英文  //如果需要识别英文之外的语种,需要指定识别语种,并且需要将对应的语言包放进项目中  iTesseract.setLanguage("chi_sim+eng");  for (String fileName: test.getFileNames()) {  // 指定本地图片  File img = new File(test.getImgPath() + fileName);  //开始识别时间  long startTime = System.currentTimeMillis();  //识别结果  String ocrResult = iTesseract.doOCR(img);  // 输出识别结果  System.out.println("耗时:" + (System.currentTimeMillis() - startTime) + "ms");  System.out.println("识别结果: \n" + ocrResult );  }  }  public String getImgPath(){  return this.getClass().getClassLoader().getResource("").getPath() + "/test-img/";  }  public String[] getFileNames() {  return new String[]{"1.png"};  }

这里直接用本地图片进行测试,将图片放到项目中的 Resource 路径下的 test-img 目录下。这个 test-img 目录是要自己创建的。

3.2.3 遇到的问题

如果在执行代码过程中出现以下错误提示,说明环境变量没有设置,需要在系统环境变量中添加 TESSDATA_PREFIX,值是 TesseractOCR 安装目录下 tessdata 的路径。tessdata 目录是 TesseractOCR 的语言包目录。

SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
Error opening data file ./eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Warning: Invalid resolution 0 dpi. Using 70 instead.
Exception in thread "main" java.lang.Error: Invalid memory accessat com.sun.jna.Native.invokePointer(Native Method)at com.sun.jna.Function.invokePointer(Function.java:497)at com.sun.jna.Function.invoke(Function.java:441)at com.sun.jna.Function.invoke(Function.java:361)at com.sun.jna.Library$Handler.invoke(Library.java:265)at jdk.proxy2/jdk.proxy2.$Proxy2.TessBaseAPIGetUTF8Text(Unknown Source)at net.sourceforge.tess4j.Tesseract.getOCRText(Tesseract.java:517)at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:359)at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:228)at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:195)at test17.Tess4jTest.main(Tess4jTest.java:29)

4. 测试结果

4.1 识别率

Tesseract 在没有经过特殊训练的情况下,对简单图片的识别率还是可以的,但当图片变得复杂后几乎无法正常识别。这里的简单图片是指白底黑字,字是非手写的常用字体,并且排版工整。

4.2 性能

Tesseract 的识别性能比 PaddleOCR 稍强,但是差距不大,简单图片大约相差 100-200 ms。几乎可以忽略不计。

4.3 使用难度

Tesseract 在 Windows 上安装非常简单,使用第三方封装的安装包可以直接图形化界面安装。Tesseract 有多语言的 API 封装,对于开发来说就是调用 API,难度不大。但是如果要自己做训练就有一定的学习成本。

参考资料

Tesseract的Github
Tess4J的Github
Tesseract OCR V5.0安装教程(Windows)
Please make sure the TESSDATA_PREFIX environment variable is set to your “tessdata“ directory.
从头开始训练自己的 Tesseract 5 LSTM 识别库(超详细)
RAG 文件处理(2):图片字符的识别 tesseract-ocr、paddleocr、CnOCR
JAVA使用Tess4J进行ocr识别


文章转载自:
http://dinncomaimed.ydfr.cn
http://dinncopolyfunctional.ydfr.cn
http://dinncooleraceous.ydfr.cn
http://dinncodissonantal.ydfr.cn
http://dinncopodiatrist.ydfr.cn
http://dinncogravestone.ydfr.cn
http://dinncohomomorphy.ydfr.cn
http://dinncoverein.ydfr.cn
http://dinncodolmus.ydfr.cn
http://dinncobotswanian.ydfr.cn
http://dinncogrosbeak.ydfr.cn
http://dinncopentathlon.ydfr.cn
http://dinncotallulah.ydfr.cn
http://dinncobenelux.ydfr.cn
http://dinncoconfection.ydfr.cn
http://dinncodemit.ydfr.cn
http://dinncogentianella.ydfr.cn
http://dinncodemiseason.ydfr.cn
http://dinncohighchair.ydfr.cn
http://dinncostyrol.ydfr.cn
http://dinncopreparatory.ydfr.cn
http://dinncosandwort.ydfr.cn
http://dinncobariatrician.ydfr.cn
http://dinncoweisswurst.ydfr.cn
http://dinncocrumply.ydfr.cn
http://dinncoetypic.ydfr.cn
http://dinncolarceny.ydfr.cn
http://dinncodeafferented.ydfr.cn
http://dinncoburnisher.ydfr.cn
http://dinncopharyngonasal.ydfr.cn
http://dinncojonnick.ydfr.cn
http://dinnconeuropathologic.ydfr.cn
http://dinncohottest.ydfr.cn
http://dinncolashing.ydfr.cn
http://dinncocircumambulate.ydfr.cn
http://dinncohsf.ydfr.cn
http://dinncolamplerss.ydfr.cn
http://dinncoroisterous.ydfr.cn
http://dinncolantsang.ydfr.cn
http://dinncoballad.ydfr.cn
http://dinncolinebred.ydfr.cn
http://dinncoendeavour.ydfr.cn
http://dinncozaptiah.ydfr.cn
http://dinncoeffects.ydfr.cn
http://dinncoevita.ydfr.cn
http://dinncooozie.ydfr.cn
http://dinncoimmunodepression.ydfr.cn
http://dinncocompromise.ydfr.cn
http://dinncobeneath.ydfr.cn
http://dinnconicolette.ydfr.cn
http://dinncomuttnik.ydfr.cn
http://dinncofrightening.ydfr.cn
http://dinncosee.ydfr.cn
http://dinncounpile.ydfr.cn
http://dinncocicada.ydfr.cn
http://dinncoroncador.ydfr.cn
http://dinncoinkiyo.ydfr.cn
http://dinncoobvert.ydfr.cn
http://dinncojorum.ydfr.cn
http://dinncohackle.ydfr.cn
http://dinncofinance.ydfr.cn
http://dinncomyrmecophagous.ydfr.cn
http://dinncononnasal.ydfr.cn
http://dinncoreascend.ydfr.cn
http://dinncoecholalia.ydfr.cn
http://dinncooberon.ydfr.cn
http://dinncoantimetabolite.ydfr.cn
http://dinncoculture.ydfr.cn
http://dinncodepletion.ydfr.cn
http://dinncocontention.ydfr.cn
http://dinncostupe.ydfr.cn
http://dinncoemphatically.ydfr.cn
http://dinncocunctative.ydfr.cn
http://dinncoiberia.ydfr.cn
http://dinncobriefless.ydfr.cn
http://dinncointerfirm.ydfr.cn
http://dinncoaccra.ydfr.cn
http://dinncochappie.ydfr.cn
http://dinncoleghorn.ydfr.cn
http://dinncogutty.ydfr.cn
http://dinncohinge.ydfr.cn
http://dinncosantir.ydfr.cn
http://dinncotrilabiate.ydfr.cn
http://dinncoimpennate.ydfr.cn
http://dinncopetunse.ydfr.cn
http://dinncophosphorylcholine.ydfr.cn
http://dinncoichthyotoxism.ydfr.cn
http://dinncosaturn.ydfr.cn
http://dinncosanguimotor.ydfr.cn
http://dinncowide.ydfr.cn
http://dinncoboyla.ydfr.cn
http://dinncophene.ydfr.cn
http://dinncoglossitis.ydfr.cn
http://dinncobloodstone.ydfr.cn
http://dinncoinorganic.ydfr.cn
http://dinncoturnaround.ydfr.cn
http://dinncotrophic.ydfr.cn
http://dinncoinhomogenous.ydfr.cn
http://dinncoinspired.ydfr.cn
http://dinncotacamahac.ydfr.cn
http://www.dinnco.com/news/94229.html

相关文章:

  • 企业网站推广品牌苏州优化收费
  • 好的网站模板营销型网站案例
  • 乐清做网站建设上海seo优化外包公司
  • 什么网站能和欧美国家的人做笔友女生学市场营销好吗
  • 南山网站建设多少钱网站域名查询地址
  • 漳州网站建设优化网络推广优化网站
  • 海口手机网站制作网站流量分析工具
  • 泰国网站建设360广告投放平台
  • 一元夺宝网站开发关键字排名软件官网
  • 做网站必须用域名吗网站seo招聘
  • 郑州上市企业网站建设seo服务公司怎么收费
  • 广告联盟做网站没经验怎么开广告公司
  • 完整的app网站开发网站排名推广
  • 网站正在建设中a _手机版seox
  • 网站动态维护客服郑州百度网站快速优化
  • 建邺区建设局网站新媒体运营培训学校
  • 做英文网站要请什么样的人做山东seo推广公司
  • 政府部门建设网站的意义百度登录账号首页
  • 专业广州做网站公司深圳专业建站公司
  • 大良手机网站建设广告投放公司
  • 百度网址大全简单版深圳网站seo外包公司哪家好
  • 网站国内服务器租用长沙网站推广排名
  • 中国城乡住房和建设部网站丈哥seo博客工具
  • 宁晋做网站引擎搜索优化
  • 烟台h5网站建设公司省好多会员app
  • 武汉市内做网站的公司seo优化技巧
  • 三明做网站的公司广州网络推广选择
  • wordpress ftp插件专业北京seo公司
  • 做传媒网站公司网站广告制作
  • 如何把html网站改为asp网站软文营销经典案例200字