Mac安装ocrmypdf以及使用命令
使用brew安装ocrmypdf
brew install ocrmypdf
下载语言库,地址github语言库
注意:此github库完全clone下来,大小达到了 4.86GB。可以直接在github上,单独下载中文语言包(42MB)。
选择简体中文chi_sim.traineddata
、英文eng.traineddata
将文件拷贝到:/usr/local/Cellar/tesseract/4.1.1/share/tessdata
目录下
使用命令转换,将图片式的PDF 转换成文本式的PDF
ocrmypdf -l chi_sim your_image_version.pdf output_file_name.pdf
注意这里要指定语言版本-l chi_sim
,否则转换后的文字版pdf,文字复制出来会是乱码。
tesseract --help
命令可以查看Tesseract使用
esseract --list-langs
命令查看本地存在的语言库
jbarlow83/OCRmyPDF
ocrmypdf最全使用命令
将图片转成文本 使用上述安装好ocrmypdf之后,其实也默认安装好了tesseract。直接使用即可。
1 tesseract -l chi_sim test.png result
将文字版PDF转换成txt数据 环境:python3.7+pycharm
操作系统:Mac
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 from pdfminer.pdfinterp import PDFPageInterpreter, PDFResourceManagerfrom pdfminer.converter import TextConverter, PDFPageAggregatorfrom pdfminer.layout import LAParamsfrom pdfminer.pdfparser import PDFParserfrom pdfminer.pdfdocument import PDFDocumentfrom pdfminer.pdfdevice import PDFDevicefrom pdfminer.pdfpage import PDFPageimport codecsfp = open('zh2003.pdf' , 'rb' ) parser = PDFParser(fp) doc = PDFDocument(parser=parser) parser.set_document(doc=doc) resource = PDFResourceManager() laparam = LAParams() device = PDFPageAggregator(resource, laparams=laparam) interpreter = PDFPageInterpreter(resource, device) for page in PDFPage.get_pages(fp): interpreter.process_page(page) layout = device.get_result() for out in layout: if hasattr(out, 'get_text' ): fw = codecs.open('zh2003.txt' , 'aw' , 'utf-8' ) fw.write(out.get_text()) if not fw.closed: fw.close()
参考文档
tesseract-ocr/tessdata
Mac安装使用tesseract-ocr
mac上文字识别(Tesseract-OCR for mac )