fedora13 へ Namazu をインストールしてみました
現状、いろいろなサーバーの構築実験をしてきましたが
実際にホームサーバーとして稼働したときに、
どこまでスペックが必要なのかを調べてみようと思い
デスクトップとして使用している fedora13 へ
サーバー機能を追加してみました
雑誌をPDFにした後、FTPでアップロードし、Namazu で検索するというようにして
みようと思います
CentOS のときとは異なり
サイト内検索システム構築(Namazu)
にもあるように、yum コマンドをつかって簡単にインストールできます
また、namazuでPDF,Office文書を検索可能にする
にあった xpdf の追加についても
yum install xpdf
を実行することで簡単にインストールできました
いままでは実験でしたが、これからは運用をしていくうえの問題点などを
書き込んでいこうと思います
もっとも、まだDNSなどの実験、tomcat サーバーの十件なども残っていますので
こちらも引き続き構築していこうと思います
カテゴリー: Namazu
Namazu で PDF取扱い その5
Namazu の検索機能を改良するため、
PDF変換について調べてみました
スキャナーで取り込んだだけでは
Namazu で検索しても文字を認識して検索することができませんでした
この機能を改善するべく、検索して見た結果
PDF を HTML に変換する
にあるように、PDFファイルをHTMLへ変換してしまうか
もしくはOCRというものを使って、検索可能なタイプのPDFへ変換する
という方法になるようです
PDFファイルからHTMLへ変換するのに便利な
クセロ Reader ZERO
は、残念ながら配布が終了してしまったため
残る方法(GMail、pdftohtml)となるようです
もっとも、検索すれば他に方法があるのかもしれませんが…
それはさておき、もう一つのOCRについて調べてみました
私のメイン環境は Linux ですが、一応 Windows もあります
Linux の OCRソフトとしては
Tesseract OCR
というソフトがあるようです
ただ、まだ使ったことはないので、今回は説明は省きます
今回使った解決方法は、
を使った方法です
いちおう、Linux でも機体の認識はするのですが
なぜか両面スキャンができませんでした
しかたがないので、一旦 windows xp で両面スキャンをして
PDFファイルとして保存します
次に、このPDFファイルを付属のソフトウェアである
Scan Snap Organizer を使って検索可能なPDFへと変換します
そして、 FileZilla を使って FTPで Namazu を構築したサーバへ
送ります
あとは、一度サーバにログインし、
mknmz /var/www/html/snow -O /usr/local/var/namazu/index/snow/|nkf -w
として
インデックスを更新し、検索可能対象にします
ちなみに、/var/www/html/snow の部分については、
自分で作成した検索対象ファイルに置き換えてください
これで、PDFの中の文字列でも、ほぼ検索することができます
もっとも、スキャナーの解像度やOCRの変換などにも依存しますので
一概にすべてできますとは言えません
残る問題点としては、
検索対象がみつかっても
Namazu での検索結果が文字化けしてしまうこと
Linux でのドキュメントスキャナーがまだないこと
そして、Linux 環境での OCR 変換がまだできていないことです
まだまだすべて Linux とはいきませんが
徐々に改善していこうと思います
Namazu で PDF取扱い その34
Namazu で PDF を取り扱えるように設定をしたのですが
欠点が発覚しました
まず、初期の設定から変えないと、
2MBを超えるファイルは無条件に索引データベースに含まれなくなります
また、600KBを超えるファイルは無条件に索引データベースに含まれなくなります
この問題を解決するには
索引データベース作成用設定ファイル”mknmzrc”の編集
の
$FILE_SIZE_MAX~処理対象のファイルサイズの上限
と
$TEXT_SIZE_MAX~処理対象のテキストサイズの上限
を変更する必要性があります
vi /usr/local/etc/namazu/mknmzrc
でファイルを開き、
# $FILE_SIZE_MAX = 2000000;
の部分を変更します
このままだと、取扱い可能なのは2MBしかありません
かなり大きなファイルを使いたいので
$FILE_SIZE_MAX = 20000000000;
としました
さらに、
# $TEXT_SIZE_MAX = 600000;
では 600KBしか使えないので
$TEXT_SIZE_MAX = 60000000000;
としました
これで、検索対象から除外されることはなくなりました
もう一つの問題のほうが面倒で、こちらについてはまだ検討中です
スキャナーで取り込んだ雑誌をPDFに変換し
これをローカルサーバに入れておけば、本を探す手間が省けると
おもったのですが、
残念ながらただたんに、スキャナーで取り込んだだけでは
Namazu で検索しても文字を認識して検索することができませんでした
なんらかの方法で、この問題を解決して見ようと思います
Namazu で PDF取扱い その3
Namazu で PDF取扱い その2
での問題点
cgi 検索(ブラウザでの検索)での問題点が解決しました
このときの問題点は
なぜか
/var/www/html
に同じファイルが存在しないと、
Not Found
The requested URL /helllo.html was not found on this server.
となってしまうことでした
解決方法は
vi /usr/local/etc/namazu/namazurc
で namazurc を開き、
Replace /var/www/html/snow/ http://192.168.10.67/
の部分を
Replace /var/www/html/snow/ http://192.168.10.67/wiki/
とすることで解決できました
解決するにあたりNamazu のcgi 確認について
を参考にしました
これにより、Namazu の問題点が解決しました
コンテンツのアップロードには
FTP サーバ構築
のときに使った FileZilla を使い、アップロードします
Namazu で PDF取扱い その2
Namazu での PDF 取扱いに成功しました
PDFファイルを検索対象とする
を参考に行ってみました
NamazuでPDFを検索対象とするにはxpdfといったソフトウェアが必要らしいです
まず xdf をインストールします
wget ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02.tar.gz
tar xzvf xpdf-3.02.tar.gz
cd xpdf-3.02
./configure
make
make install
次に、xpdf-japanese をインストールします
wget ftp://ftp.foolabs.com/pub/xpdf/xpdf-japanese.tar.gz
mv xpdf-japanese.tar.gz /home/wiki/
cd /home/wiki/
tar zxvf xpdf-japanese.tar.gz
cd xpdf-japanese
mkdir -p /usr/local/share/xpdf/japanese
cp -R * /usr/local/share/xpdf/japanese/
cat add-to-xpdfrc >> /usr/local/etc/xpdfrc
これで、pdf が検索可能になりますが、
拡張子に .pdf がついていないと検索できませんでした
ためしに、.pdf がないファイルを検索してみましたが
検索できませんでした
どうやら、拡張子で検索しているようです
mknmz -C | grep pdf
で、成功しているかどうかがわかります
mknmzrcファイルに pdf を検索対象として加えるには
サイト内検索システム構築(Namazu)
をもとに行っているなら
$ALLOW_FILE = “.*\\.(?:$HTML_SUFFIX)”;
の部分を
$ALLOW_FILE = “.*\\.(?:$HTML_SUFFIX)”.
“|.*\\.pdf|.*\\.ps”;
とすれば、検索対象になります
もっとも、まだこの段階では、cgi 検索(ブラウザでの検索)
のときに問題が残っているので、解決したらまとめようと思います
Namazu の導入に成功
いろいろと手間がかかりましたが、なんとかNamazu 単体の
インストールと設定はできました
FTP サーバ構築
まで完成した状態で
サイト内検索システム構築(Namazu)
を参考にすすめます
このサイトのように行うときの注意点は
あらかじめ
mkdir /var/www/html/wiki
というように、ディレクトリをつくっておくこと、
そして、
chown wiki. /var/www/html/wiki
というように、パーミッションも変更しておいて
それから実行することです
ちなみに、用意するコンテンツに関しては
ユーザーディレクトリ作成(/~ユーザー名/)
で作成した
index.html などのファイルをコピーしておくと楽です
例えば
cp -p /home/wiki/public_html/* /var/www/html/wiki
というようにすると。試験的に導入するためのコンテンツを用意しなくても
実験できます
今回、私が行った設定が異なるところは
(2)namazuコマンド設定
インデックスをもとに検索を行うnamazuコマンドを設定する
というところで
Replace /var/www/html/centos/ http://centossrv.com/ ← 追加(/var/www/html/centos/をhttp://centossrv.com/に置換する)
となっているところを
Replace /var/www/html/snow/ http://192.168.10.67/
としたところぐらいです
/var/www/html/snow
の部分は検索対象で
http://192.168.10.67
については。いつもどおりDNSサーバがないのでIPで行っています
あと、文字コードがUTF-8 を使っているぐらいです
ブラウザ、コマンドラインからの検索については
成功が確認できましたので、次にテキストではなく
PDFの取扱いを行ってみようと思います
再インストール時のトラブル
どうしても Namazu がうまくいかないので
一度再インストールしてやり直すことにしました
幸い、仮想環境で行っているので、そこまで不便は感じません
ただ、WebサーバーSSL確認
にてトラブルが発生しました
削除したサーバーと同じIPアドレスのためなのか。それとも同じ証明書に
なっているのかはわかりませんが、警告がでてしまいます
これを回避するために
sec_error_reused_issuer_and_serial
を検索してみました
結果、Firefoxのsec_error_reused_issuer_and_serial対策
を参考に対処することができました
「編集」→「設定」→「詳細」→「暗号化」→「証明書を表示」→「認証局証明書」→「SomeOrganization」→目的の証明書を削除することで、問題は解決しました
ただ、Namazu は未だに解決していませんが
Namazu で PDF取扱い
現在、Namazu の取扱いで苦戦してます
そんななか、Nmazu での本来の目的であるPDF閲覧について
発見しました
PDFファイルを検索対象とする
という内容です
どうやら、そのままではPDF などを取扱いできないようです
まだ実験はしていないので、結果ができましたら
また書き込もうと思います
Namazu の設定でまだ少し理解不能
昨日に引き続き。Namazu の導入を行っています
目指すべきは Namazu を使って PDF 閲覧ですが、まだまだ先は長いです
昨日の失敗であるNamazuの設定で失敗の反省点である
/var/www/html の下にディレクトリをつくり忘れ
そのうえ、中身のコンテンツをつくっていなかった
という点を踏まえて再度挑戦です
行った手順を記述しておこうと思います
サイト内検索システム構築(Namazu)
を参考にすすめます
namazuコマンド設定 の部分で文字コードをUTFー8
にした場合、どうなるかな?と
実験してみました
Lang ja_JP.eucJP
を
Lang ja_JP.utf8
にしてみましたが、見事文字化けしてしまい、無理でした
そのため、ここはそのまま
Lang ja_JP.eucJP
という設定にしてあります
ここからの変更点は、ユーザを示す centos を wiki に置き換えてあります
また、DNSはいつもどおりなしなので、IPアドレスである
192.168.10.67
を設定します
このため、 http://centossrv.com/ なら http://192.168.10.67
としてあります
あとはそのままなのですが、ここで理解不能な点が
発生しました
なぜか
namazu.cgi確認
のところで
http://192.168.10.67/cgi-bin/namazu.cgi?idxname=wiki
でアクセスし、検索結果をみると
/var/www/html/wiki
の内容ではなく
/var/www/html
の内容を調べてるようです
もう少し調べてみようと思います
Namazuの設定で失敗
サイト内検索システム構築(Namazu)
を参考に構築してみましたが、なぜか
インデックス作成の対象ファイルがみつからないので、
なぜかな?と調べてみたら
検索対象のWebコンテンツは/var/www/html/centosに格納されているものとする。
とかかれていました
まったく読んでいなかったので、
/var/www/html の下にディレクトリをつくり忘れ
そのうえ、中身のコンテンツをつくっていなかったので
これではさすがになにもでてきません
明日もう一度やりなおしてみようとおもいます