オープンソース OCR システムの OCRopus を CentOS 5 で試す

Google Code にある OCR プロジェクトは tesseract-ocr と OCRopus がある。後者が後発で tesseract の文字認識プラグインを使っているらしい。ということで、TIFF ファイルの OCR を OCRopus で試してみる。
今回は CentOS 5 に入れてみた。ただ開発しているのは Ubuntu 上だそうだ。

GNU Aspell をインストール

GNU Aspell からソースをダウンロード。

$ gunzip -c aspell-0.60.5.tar.gz | tar xvf -
$ cd aspell-0.60.5
$ ./configure && make
$ sudo make install

libtiff をインストール

LibTIFF - TIFF Library and Utilities からソースをダウンロード。

$ gunzip -c tiff-3.8.2.tar.gz | tar xvf -
$ cd tiff-3.8.2
$ ./configure && make
$ sudo make install

libpng をインストール

libpng Home Page からソースをダウンロード。

$ gunzip -c libpng-1.2.24.tar.gz | tar xvf -
$ cd libpng-1.2.24
$ ./configure && make
$ sudo make install

libjpeg をインストール

Independent JPEG Group からソースをダウンロード。

$ gunzip -c jpegsrc.v6b.tar.gz | tar xvf -
$ cd jpeg-6b
$ ./configure && make
$ sudo make install
$ sudo make install-lib

Tesseract をインストール

tesseract-ocr - An OCR Engine that was developed at HP Labs between 1985 and 1995... and now at Google. - Google Project Hosting からソースをダウンロード。

$ gunzip -c tesseract-2.01.tar.gz | tar xvf -
$ cd tesseract-2.01
$ ./configure && make
$ sudo make install

辞書データ tesseract-2.00.eng.tar.gz をインストール

$ gunzip -c tesseract-2.00.eng.tar.gz | tar xvf -
$ sudo cp tessdata/* /usr/local/share/tessdata/

ocropus をインストール

ocropus - The OCRopus(tm) open source document analysis and OCR system - Google Project Hosting からソースをダウンロード。 ※ Jam が必要。

$ gunzip -c ocropus-0.1.1.tar.gz | tar xvf -
$ cd ocropus-0.1.1
$ ./configure
$ jam
$ sudo make install

実行

HTML が出力される。結構処理が重い。TIFF ファイルが認識されなかった。PNG は実行できた。TIFF ができなかったのは、また今度調べようかな…。

$ ocrocmd test.png > test.html
Ocropus Alpha (sauvola, rast, curved, tesseract)
0.1.1; 2007年 12月 23日 日曜日 08:03:39 JST; Linux red 2.6.18-53.1.4.el5 #1 SMP Fri Nov 30 00:45:16 EST 2007 i686 i686 i386 GNU/Linux