一、安装tesseract-ocr
1、首先安装依赖的leptonica库:
wget http://www.leptonica.com/source/leptonica-1.74.4.tar.gztar -xvf leptonica-1.74.4.tar.gzcd leptonica-1.74.4./configure && make &&sudo make install复制代码
2、安装tesseract-ocr
tar xzf tesseract-ocr-3.02.02.tar.gzcd tesseract-3.01./autogen.sh./configuremakesudo make installsudo ldconfig复制代码
3、下载语言库
Wget https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddataWget https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata复制代码
将下载后的语言库存放至:/usr/local/share/tessdata/ 下面
cp/mv *.traineddata /usr/local/share/tessdata/
至此,已可以进行字符的识别了,利用以下类似命令进行识别:
tesseract imagename out -l eng/chi_sim
二、安装pytesseract
tesseract-ocr是c++编写的,默认提供的是c++ libs,如果用python开发,还需要安装pytesseract
1、安装
pip install pytesseract
2、测试
在python 环境下编写代码:
了解更多请参考:https://pypi.python.org/pypi/pytesseract