生活中我们可能会遇到需要从图片上获取文本内容的情况,人工去核对的话非常头疼,今天小千就来教大家使用Python一行代码就能实现文本识别,下面来看看吧。
Python图片文本识别
这里我们需要用到两个库:pytesseract和PIL,同时我们还需要安装识别引擎tesseract-ocr
安装这两个包可以借助pip
pip install PIL
pip install pytesseract
然后我们还需要安装识别引擎tesseract-ocr和中文语言包,默认是不支持中文识别的,所以需要同学们额外安装一个中文语言包,网络上下载安装即可。
安装完成tesseract-ocr后,我们还需要做一下配置关联到Python中:
在你安装Python的文件夹中C:\Users\huxiu\AppData\Local\Programs\Python\Python35\Lib\site-packages\pytesseract找到pytesseract.py文件,打开之后在里面添加下面的操作。
CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
#tesseract_cmd = 'tesseract'
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'
可以看到里面有一个路径就是你安装Tesseract-OCR的路径,注意不要填错了。
配置完成之后就可以使用它们了,代码如下,其中denggao.jpeg为图片,同学们替换成自己想要的图片即可。
好了同学们赶紧去自己试试吧,最后欢迎大家来到千锋了解一下我们的Python培训课程,涵盖了Python爬虫、Python web、Python人工智能等领域,欢迎同学们前来试听学习。