文章目录
一、 前言二、 安装配置1.tesseract-OCR安装2. 添加环境变量3.查看tesseract的版本4. 查询安装的语言
三、其他3.1.OCR识别应用3.2.Python中的应用
一、 前言
昨天在使用selenium处理图片验证码问题时,突然发现之前电脑上安装的OCR识别不见了(应该是误删了),于是乎,只能再次安装一个,为了防止以后在此需要安装使用时找不到,写一个笔记记录下,各位小伙伴需要的可以参考参考。
二、 安装配置
1.tesseract-OCR安装
1.1.安装之前,我们需要先下载安装包,大家可以使用下面连接下载,我这里下载的是24年6月的版本。https://digi.bib.uni-mannheim.de/tesseract/
1.2.双击下载好的.exe安装文件,弹出页面一致点下一步;
1.3.点击下一步;
1.4.点击同意;
1.5.点击下一步;
1.6.这里默认安装的语言是英语,如果后续需要识别中文,勾选【Additional language data(download)】添加语言;
1.7.这里我添加的两个中文;
1.8.修改安装路径,默认一般在C盘下面,这里我修改为D盘下一个我自己新建的路径;
1.9.等待安装完成。
2. 添加环境变量
2.1.安装完成后,将自己的安装目录添加到环境变量中;
2.2.环境变量添加完之后,做简单测试;. esseract,输出下面界面;
3.查看tesseract的版本
3.1.输入 “tesseract –version”,若能正确显示 Tesseract-OCR 的版本信息,说明安装和环境变量配置成功;这里显示我安装的是V5.4.0.20240606的版本。
4. 查询安装的语言
4.1.输入 “tesseract –list-langs”,若能正确显示语言信息,说明语言安装配置成功;这里显示我查询之后,没显示安装的语言,应该是有问题。(注意:没有下载语言,会导致识别图片时有问题,不能正常显示识别出的文字)
4.2.通过你安装路径下tessdata文件夹中查看,中文已经添加成功
4.3.使用桌面上的一张图片测试识别,显示如下报错;
4.4.根据报错信息【Tesseract-OCR 报错:Error opening data file chi_sim.traineddata
当出现 “Error opening data file C:Program FilesTesseract-OCR essdata/chi_sim.traineddata”】
可知,这个报错问题的本质是TESSDATA_PREFIX 环境变量未配置或配置错误,导致程序找不到语言数据目录。
解决办法:在「系统变量」区域(注意:不是用户变量),点击「新建」:
变量名:必须严格填写 TESSDATA_PREFIX(区分大小写,不能多空格)
变量值:填写你的 tessdata 文件夹完整路径(tessdata路径需填写完整)。
4.5.再次输入【tesseract –list-langs】查看安祖行的语言,成功显示出来,说明语言已经可以正常使用。
4.6.再次识别刚刚那张测试图片,成功识别出内容;
三、其他
3.1.OCR识别应用
在进行 OCR 识别时,通过 “-l” 参数指定语言。
tesseract C:UserszytDesktopcs.png stdout -l chi_sim
#:识别一张桌面上名为 “cs.png”的图片,其中 “stdout” 表示将识别结果输出到命令行界面,“chi_sim” 为简体中文的语言代码。
3.2.Python中的应用
Python 编程方式(若通过 Python 使用 Tesseract-OCR):如果你使用 Python 的pytesseract库调用 Tesseract-OCR,需在代码中指定语言。首先确保已安装pytesseract库,可通过命令 “pip install pytesseract” 安装。在代码中,例如识别一张图片 “image.png” 中的简体中文,代码如下:
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r'D:3.zytpythonTesseract-OCR esseract.exe' # 根据实际安装路径修改
image = Image.open('cs.png')
text = pytesseract.image_to_string(image, lang='chi_sim')
print(text)
暂无评论内容