在 CentOS 6.7 上安裝 Tesseract OCR

安裝

參考至: Centos5.5 安装Tesseract-OCR (本機備份)

CentOS 5.5 和 6.7 實在有些差距,不過還好要安裝的軟體變化不大,最後安裝的選擇是

  1. leptonica-1.69.tar.gz
  2. tesseract-ocr-3.02.02.tar.gz
  3. tesseract-ocr-3.02.eng.tar.gz
  4. tesseract-ocr-3.02.chi_tra.tar.gz

確實按照安裝步驟將相依性程式先安裝後編譯即可順利安裝

特別寫出來是因為,我以為我的環境安裝一堆軟體應該不缺這種基礎元件,結果還是少了 …. = =a

使用

就敲指令就對了

tesseract 辨識圖檔 產生文字檔案名稱 -l 使用辨識字體

輸出的檔案會自動加上 .txt 副檔名

phototest.tif 是內附的測試圖檔,可以到 這裡

因為有安裝正體中文字體辨識檔案,當然也可以換成這樣辨識

不過辨識正確率就相當差了,結果如

看不懂的人請看 eng 辨識結果,如

 

有關辨識率提昇

免安裝

安裝後的檔案即可複製出來使用,使用上會遇到的問題就是 tessdata 路徑指定

測試結果

  • 不同的版本語言辨識檔案無法共用
  • 不同的辨識檔辨識率不同
  • 以上的問題可以藉由免安裝的方式解決
  • 4.0 程式可以套用 3.05 辨識檔案

Windows 以及訓練

 

554 total views, 1 views today

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。