[分享] Linux 好物介紹： tesseract

tesseract 是個專業的、開放原碼、命令行運作的OCR引擎，支援超過一百種語言文字辨識。

專業是說他的正確率不輸商業產品。
開原代表可以免費使用並且可能被遺直到其他作業平台。
命令行指出它可以批次處理，哪怕有上千張圖片需要辨識也是一行指令搞定。

使用語法：
tesseract 圖片檔名輸出文字檔 -l 語言

它本身不支援 pdf, 但是對於 Linux 使用者不是問題，對於掃描圖檔的 pdf 可以先轉檔：
convert 圖檔.pdf 圖片.png
它會分頁轉成 png 或其他指定的格式，我們把它做成列表：
ls *.png > list

指令李的圖片檔名就變成 list,
全部辨識的結果都會整合輸出到輸出文字檔.txt

要安裝軟體請參見你的 Linux 發行版本的套件倉庫。
要知道更多使用細節， Linux 使用者都知道要去找男人 (man).

以前讀過幾本好書，可惜的是程式碼用圖片呈現只好放棄。
現在有了這個工具他們又能復活了。

[分享] Linux 好物介紹： tesseract - 討論區