【OCR】Tesseract-OCR的安装使用（Windows）

文章目录

一、前言二、安装配置1.tesseract-OCR安装2. 添加环境变量3.查看tesseract的版本4. 查询安装的语言
三、其他3.1.OCR识别应用3.2.Python中的应用

一、前言

昨天在使用selenium处理图片验证码问题时，突然发现之前电脑上安装的OCR识别不见了（应该是误删了），于是乎，只能再次安装一个，为了防止以后在此需要安装使用时找不到，写一个笔记记录下，各位小伙伴需要的可以参考参考。

二、安装配置

1.tesseract-OCR安装

1.1.安装之前，我们需要先下载安装包，大家可以使用下面连接下载，我这里下载的是24年6月的版本。https://digi.bib.uni-mannheim.de/tesseract/
图片[1] - 【OCR】Tesseract-OCR的安装使用（Windows） - 鹿快
1.2.双击下载好的.exe安装文件，弹出页面一致点下一步；
图片[2] - 【OCR】Tesseract-OCR的安装使用（Windows） - 鹿快
1.3.点击下一步；
图片[3] - 【OCR】Tesseract-OCR的安装使用（Windows） - 鹿快
1.4.点击同意；
图片[4] - 【OCR】Tesseract-OCR的安装使用（Windows） - 鹿快
1.5.点击下一步；
图片[5] - 【OCR】Tesseract-OCR的安装使用（Windows） - 鹿快
1.6.这里默认安装的语言是英语，如果后续需要识别中文，勾选【Additional language data(download)】添加语言；
图片[6] - 【OCR】Tesseract-OCR的安装使用（Windows） - 鹿快
1.7.这里我添加的两个中文；
图片[7] - 【OCR】Tesseract-OCR的安装使用（Windows） - 鹿快
1.8.修改安装路径，默认一般在C盘下面，这里我修改为D盘下一个我自己新建的路径；
图片[8] - 【OCR】Tesseract-OCR的安装使用（Windows） - 鹿快
1.9.等待安装完成。

2. 添加环境变量

2.1.安装完成后，将自己的安装目录添加到环境变量中；
图片[9] - 【OCR】Tesseract-OCR的安装使用（Windows） - 鹿快
2.2.环境变量添加完之后，做简单测试；. esseract，输出下面界面；

3.查看tesseract的版本

3.1.输入 “tesseract –version”，若能正确显示 Tesseract-OCR 的版本信息，说明安装和环境变量配置成功；这里显示我安装的是V5.4.0.20240606的版本。

4. 查询安装的语言

4.1.输入 “tesseract –list-langs”，若能正确显示语言信息，说明语言安装配置成功；这里显示我查询之后，没显示安装的语言，应该是有问题。（注意：没有下载语言，会导致识别图片时有问题，不能正常显示识别出的文字）
图片[10] - 【OCR】Tesseract-OCR的安装使用（Windows） - 鹿快
4.2.通过你安装路径下tessdata文件夹中查看，中文已经添加成功
图片[11] - 【OCR】Tesseract-OCR的安装使用（Windows） - 鹿快
4.3.使用桌面上的一张图片测试识别，显示如下报错；
图片[12] - 【OCR】Tesseract-OCR的安装使用（Windows） - 鹿快
4.4.根据报错信息【Tesseract-OCR 报错：Error opening data file chi_sim.traineddata
当出现 “Error opening data file C:Program FilesTesseract-OCR essdata/chi_sim.traineddata”】
可知，这个报错问题的本质是TESSDATA_PREFIX 环境变量未配置或配置错误，导致程序找不到语言数据目录。
解决办法：在「系统变量」区域（注意：不是用户变量），点击「新建」：
变量名：必须严格填写 TESSDATA_PREFIX（区分大小写，不能多空格）
变量值：填写你的 tessdata 文件夹完整路径（tessdata路径需填写完整）。
图片[13] - 【OCR】Tesseract-OCR的安装使用（Windows） - 鹿快
4.5.再次输入【tesseract –list-langs】查看安祖行的语言，成功显示出来，说明语言已经可以正常使用。图片[14] - 【OCR】Tesseract-OCR的安装使用（Windows） - 鹿快
4.6.再次识别刚刚那张测试图片，成功识别出内容；

三、其他

3.1.OCR识别应用

在进行 OCR 识别时，通过 “-l” 参数指定语言。
tesseract C:UserszytDesktopcs.png stdout -l chi_sim
#：识别一张桌面上名为 “cs.png”的图片，其中 “stdout” 表示将识别结果输出到命令行界面，“chi_sim” 为简体中文的语言代码。

3.2.Python中的应用

Python 编程方式（若通过 Python 使用 Tesseract-OCR）：如果你使用 Python 的pytesseract库调用 Tesseract-OCR，需在代码中指定语言。首先确保已安装pytesseract库，可通过命令 “pip install pytesseract” 安装。在代码中，例如识别一张图片 “image.png” 中的简体中文，代码如下：


import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r'D:3.zytpythonTesseract-OCR	esseract.exe'  # 根据实际安装路径修改
image = Image.open('cs.png')
text = pytesseract.image_to_string(image, lang='chi_sim')
print(text)

文章版权归作者所有，未经允许请勿转载。如内容涉嫌侵权，请在本页底部进入<联系我们>进行举报投诉!

THE END