[分享] Linux 好物介紹: tesseract - 討論區

[分享] Linux 好物介紹: tesseract

文章瀏覽次數 452 文章回覆數 7

coscell

coscell圖像(預設)

2021-02-20 23:04:19

From:180.176.111.5

tesseract 是個專業的、開放原碼、命令行運作的OCR引擎,支援超過一百種語言文字辨識。

專業是說他的正確率不輸商業產品。
開原代表可以免費使用並且可能被遺直到其他作業平台。
命令行指出它可以批次處理,哪怕有上千張圖片需要辨識也是一行指令搞定。

使用語法:
tesseract 圖片檔名 輸出文字檔 -l 語言

  • 圖片檔可以是任何常見的格式
  • 輸出檔除非有特別設定,預設都會自動加上 .txt
  • 語言我們會用到的就是 正體中文 HanT, 簡體中文 HanS, 英文 eng
    如果是中英夾雜可以寫成 -l HanT+eng
    省略這個參數預設為英文

它本身不支援 pdf, 但是對於 Linux 使用者不是問題,對於掃描圖檔的 pdf 可以先轉檔:
convert 圖檔.pdf 圖片.png
它會分頁轉成 png 或其他指定的格式,我們把它做成列表:
ls *.png > list

指令李的 圖片檔名 就變成 list,
全部辨識的結果都會整合輸出到 輸出文字檔.txt

要安裝軟體請參見你的 Linux 發行版本的套件倉庫。
要知道更多使用細節, Linux 使用者都知道要去找男人 (man).

以前讀過幾本好書,可惜的是程式碼用圖片呈現只好放棄。
現在有了這個工具他們又能復活了。

留言

#1

特種兵

特種兵圖像(預設)

2021-02-22 21:35:40

From:211.23.21.202

真的是好物喔
最近都必須找明眼人幫我念公文
今天試了一下效果非常好
有三個留言的話我就分享在debian的操作與效果
不然我就自己慢慢享用了

#2

阿慶

阿慶圖像

2021-02-23 10:04:51

From:211.23.21.202

想知道辨識效果如何
我常常遇到想知道照片裡面有沒有文字

#3

coscell

coscell圖像(預設)

2021-02-23 15:02:03

From:180.176.111.5

這是第三個留言

#4

特種兵

特種兵圖像(預設)

2021-02-23 18:11:59

From:211.23.21.202

我自己不算

#5

coscell

coscell圖像(預設)

2021-02-23 22:40:19

From:180.176.111.5

這次應該算了

#6

阿慶

阿慶圖像

2021-02-25 09:13:45

From:211.23.21.202

我看我乾脆自己先來用用就知道了XD

#7

特種兵

特種兵圖像(預設)

2021-02-25 13:57:47

From:211.23.21.202

那樣最好