オープンソース OCR システムの OCRopus を CentOS 5 で試す
Google Code にある OCR プロジェクトは tesseract-ocr と OCRopus がある。後者が後発で tesseract の文字認識プラグインを使っているらしい。ということで、TIFF ファイルの OCR を OCRopus で試してみる。
今回は CentOS 5 に入れてみた。ただ開発しているのは Ubuntu 上だそうだ。
- ocropus - The OCRopus(tm) open source document analysis and OCR system - Google Project Hosting
- tesseract-ocr - An OCR Engine that was developed at HP Labs between 1985 and 1995... and now at Google. - Google Project Hosting
GNU Aspell をインストール
GNU Aspell からソースをダウンロード。
$ gunzip -c aspell-0.60.5.tar.gz | tar xvf - $ cd aspell-0.60.5 $ ./configure && make $ sudo make install
libtiff をインストール
LibTIFF - TIFF Library and Utilities からソースをダウンロード。
$ gunzip -c tiff-3.8.2.tar.gz | tar xvf - $ cd tiff-3.8.2 $ ./configure && make $ sudo make install
libpng をインストール
libpng Home Page からソースをダウンロード。
$ gunzip -c libpng-1.2.24.tar.gz | tar xvf - $ cd libpng-1.2.24 $ ./configure && make $ sudo make install
libjpeg をインストール
Independent JPEG Group からソースをダウンロード。
$ gunzip -c jpegsrc.v6b.tar.gz | tar xvf - $ cd jpeg-6b $ ./configure && make $ sudo make install $ sudo make install-lib
Tesseract をインストール
$ gunzip -c tesseract-2.01.tar.gz | tar xvf - $ cd tesseract-2.01 $ ./configure && make $ sudo make install
辞書データ tesseract-2.00.eng.tar.gz をインストール
$ gunzip -c tesseract-2.00.eng.tar.gz | tar xvf - $ sudo cp tessdata/* /usr/local/share/tessdata/
ocropus をインストール
ocropus - The OCRopus(tm) open source document analysis and OCR system - Google Project Hosting からソースをダウンロード。 ※ Jam が必要。
$ gunzip -c ocropus-0.1.1.tar.gz | tar xvf - $ cd ocropus-0.1.1 $ ./configure $ jam $ sudo make install
実行
HTML が出力される。結構処理が重い。TIFF ファイルが認識されなかった。PNG は実行できた。TIFF ができなかったのは、また今度調べようかな…。
$ ocrocmd test.png > test.html Ocropus Alpha (sauvola, rast, curved, tesseract) 0.1.1; 2007年 12月 23日 日曜日 08:03:39 JST; Linux red 2.6.18-53.1.4.el5 #1 SMP Fri Nov 30 00:45:16 EST 2007 i686 i686 i386 GNU/Linux