tesseract 是個專業的、開放原碼、命令行運作的OCR引擎,支援超過一百種語言文字辨識。
專業是說他的正確率不輸商業產品。
開原代表可以免費使用並且可能被遺直到其他作業平台。
命令行指出它可以批次處理,哪怕有上千張圖片需要辨識也是一行指令搞定。
使用語法:
tesseract 圖片檔名 輸出文字檔 -l 語言
- 圖片檔可以是任何常見的格式
- 輸出檔除非有特別設定,預設都會自動加上 .txt
- 語言我們會用到的就是 正體中文 HanT, 簡體中文 HanS, 英文 eng
如果是中英夾雜可以寫成 -l HanT+eng
省略這個參數預設為英文
它本身不支援 pdf, 但是對於 Linux 使用者不是問題,對於掃描圖檔的 pdf 可以先轉檔:
convert 圖檔.pdf 圖片.png
它會分頁轉成 png 或其他指定的格式,我們把它做成列表:
ls *.png > list
指令李的 圖片檔名 就變成 list,
全部辨識的結果都會整合輸出到 輸出文字檔.txt
要安裝軟體請參見你的 Linux 發行版本的套件倉庫。
要知道更多使用細節, Linux 使用者都知道要去找男人 (man).
以前讀過幾本好書,可惜的是程式碼用圖片呈現只好放棄。
現在有了這個工具他們又能復活了。