【OCR】Tesseract-OCR的安装使用(Windows)

文章目录

一、 前言二、 安装配置1.tesseract-OCR安装2. 添加环境变量3.查看tesseract的版本4. 查询安装的语言
三、其他3.1.OCR识别应用3.2.Python中的应用

一、 前言

昨天在使用selenium处理图片验证码问题时,突然发现之前电脑上安装的OCR识别不见了(应该是误删了),于是乎,只能再次安装一个,为了防止以后在此需要安装使用时找不到,写一个笔记记录下,各位小伙伴需要的可以参考参考。

二、 安装配置

1.tesseract-OCR安装

1.1.安装之前,我们需要先下载安装包,大家可以使用下面连接下载,我这里下载的是24年6月的版本。https://digi.bib.uni-mannheim.de/tesseract/
图片[1] - 【OCR】Tesseract-OCR的安装使用(Windows) - 鹿快
1.2.双击下载好的.exe安装文件,弹出页面一致点下一步;
图片[2] - 【OCR】Tesseract-OCR的安装使用(Windows) - 鹿快
1.3.点击下一步;
图片[3] - 【OCR】Tesseract-OCR的安装使用(Windows) - 鹿快
1.4.点击同意;
图片[4] - 【OCR】Tesseract-OCR的安装使用(Windows) - 鹿快
1.5.点击下一步;
图片[5] - 【OCR】Tesseract-OCR的安装使用(Windows) - 鹿快
1.6.这里默认安装的语言是英语,如果后续需要识别中文,勾选【Additional language data(download)】添加语言;
图片[6] - 【OCR】Tesseract-OCR的安装使用(Windows) - 鹿快
1.7.这里我添加的两个中文;
图片[7] - 【OCR】Tesseract-OCR的安装使用(Windows) - 鹿快
1.8.修改安装路径,默认一般在C盘下面,这里我修改为D盘下一个我自己新建的路径;
图片[8] - 【OCR】Tesseract-OCR的安装使用(Windows) - 鹿快
1.9.等待安装完成。

2. 添加环境变量

2.1.安装完成后,将自己的安装目录添加到环境变量中;
图片[9] - 【OCR】Tesseract-OCR的安装使用(Windows) - 鹿快
2.2.环境变量添加完之后,做简单测试;. esseract,输出下面界面;

3.查看tesseract的版本

3.1.输入 “tesseract –version”,若能正确显示 Tesseract-OCR 的版本信息,说明安装和环境变量配置成功;这里显示我安装的是V5.4.0.20240606的版本。

4. 查询安装的语言

4.1.输入 “tesseract –list-langs”,若能正确显示语言信息,说明语言安装配置成功;这里显示我查询之后,没显示安装的语言,应该是有问题。(注意:没有下载语言,会导致识别图片时有问题,不能正常显示识别出的文字)
图片[10] - 【OCR】Tesseract-OCR的安装使用(Windows) - 鹿快
4.2.通过你安装路径下tessdata文件夹中查看,中文已经添加成功
图片[11] - 【OCR】Tesseract-OCR的安装使用(Windows) - 鹿快
4.3.使用桌面上的一张图片测试识别,显示如下报错;
图片[12] - 【OCR】Tesseract-OCR的安装使用(Windows) - 鹿快
4.4.根据报错信息【Tesseract-OCR 报错:Error opening data file chi_sim.traineddata​
当出现 “Error opening data file C:Program FilesTesseract-OCR essdata/chi_sim.traineddata”】
可知,这个报错问题的本质是TESSDATA_PREFIX 环境变量未配置或配置错误,导致程序找不到语言数据目录。
解决办法:在「系统变量」区域(注意:不是用户变量),点击「新建」:​
变量名:必须严格填写 TESSDATA_PREFIX(区分大小写,不能多空格)​
变量值:填写你的 tessdata 文件夹完整路径(tessdata路径需填写完整)。
图片[13] - 【OCR】Tesseract-OCR的安装使用(Windows) - 鹿快
4.5.再次输入【tesseract –list-langs】查看安祖行的语言,成功显示出来,说明语言已经可以正常使用。 图片[14] - 【OCR】Tesseract-OCR的安装使用(Windows) - 鹿快
4.6.再次识别刚刚那张测试图片,成功识别出内容;

三、其他

3.1.OCR识别应用

在进行 OCR 识别时,通过 “-l” 参数指定语言。
tesseract C:UserszytDesktopcs.png stdout -l chi_sim
#:识别一张桌面上名为 “cs.png”的图片,其中 “stdout” 表示将识别结果输出到命令行界面,“chi_sim” 为简体中文的语言代码。​

3.2.Python中的应用

Python 编程方式(若通过 Python 使用 Tesseract-OCR):如果你使用 Python 的pytesseract库调用 Tesseract-OCR,需在代码中指定语言。首先确保已安装pytesseract库,可通过命令 “pip install pytesseract” 安装。在代码中,例如识别一张图片 “image.png” 中的简体中文,代码如下:


import pytesseract​
from PIL import Image​
​
pytesseract.pytesseract.tesseract_cmd = r'D:3.zytpythonTesseract-OCR	esseract.exe'  # 根据实际安装路径修改​
image = Image.open('cs.png')​
text = pytesseract.image_to_string(image, lang='chi_sim')​
print(text)
© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
买封冬册信_的头像 - 鹿快
评论 抢沙发

请登录后发表评论

    暂无评论内容