Namazu で PDF取扱い その5

Namazu の検索機能を改良するため、
PDF変換について調べてみました
スキャナーで取り込んだだけでは
Namazu で検索しても文字を認識して検索することができませんでした
この機能を改善するべく、検索して見た結果
PDF を HTML に変換する
にあるように、PDFファイルをHTMLへ変換してしまうか
もしくはOCRというものを使って、検索可能なタイプのPDFへ変換する
という方法になるようです
PDFファイルからHTMLへ変換するのに便利な
クセロ Reader ZERO
は、残念ながら配布が終了してしまったため
残る方法(GMail、pdftohtml)となるようです
もっとも、検索すれば他に方法があるのかもしれませんが…
それはさておき、もう一つのOCRについて調べてみました
私のメイン環境は Linux ですが、一応 Windows もあります
Linux の OCRソフトとしては
Tesseract OCR
というソフトがあるようです
ただ、まだ使ったことはないので、今回は説明は省きます
今回使った解決方法は、

を使った方法です
いちおう、Linux でも機体の認識はするのですが
なぜか両面スキャンができませんでした
しかたがないので、一旦 windows xp で両面スキャンをして
PDFファイルとして保存します
次に、このPDFファイルを付属のソフトウェアである
Scan Snap Organizer を使って検索可能なPDFへと変換します
そして、 FileZilla を使って FTPで Namazu を構築したサーバへ
送ります
あとは、一度サーバにログインし、
mknmz /var/www/html/snow -O /usr/local/var/namazu/index/snow/|nkf -w
として
インデックスを更新し、検索可能対象にします
ちなみに、/var/www/html/snow の部分については、
自分で作成した検索対象ファイルに置き換えてください
これで、PDFの中の文字列でも、ほぼ検索することができます
もっとも、スキャナーの解像度やOCRの変換などにも依存しますので
一概にすべてできますとは言えません
残る問題点としては、
検索対象がみつかっても
Namazu での検索結果が文字化けしてしまうこと
Linux でのドキュメントスキャナーがまだないこと
そして、Linux 環境での OCR 変換がまだできていないことです
まだまだすべて Linux とはいきませんが
徐々に改善していこうと思います

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です