オレオレ検索窓(by Tokyo Cabinet)

| コメント(0) | トラックバック(1)

今日はSolrの勉強会に参加するので、少しは触っておこうかなとTutorialをやってみんですが、こりゃ動かすだけなら簡単だ。しかし何か意味のある検索をするためには、それなりの量のデータを用意しなければいけません。

今読ミの全文検索でも調査しようとデータの作り方を調べようとしたのだけど英語だし面倒くさくなってきた。その辺の話は勉強会でされたりするかもしれないと考え、今回は先日読んだmixi Engineers’ Blog » オレオレ検索窓を設置しようをやってみた。

「はい、今から10分です。」というところでいきなり2時間(笑)

いや、済みません。これは当然で今読ミはユーザも少ないしデータ量もかなり少ないサイトだと思うのだけど、特にチューンしていないRailsのサイトでページ取得が遅いためデフォルトの指定である1万ページでも2時間くらいかかる上に全部取り切れない。

本番環境で実行すると負荷が高そうなので、データ取得は開発環境に移動してじっくり待つこと2時間...やっとデータができた。

本当はMongrelを複数立ちあげて、wgettsvスクリプトも-allow、-denyオプションを上手に指定して複数実行すれば、同時実行した分だけ速くデータが作れそうなんだけど、分割してできたデータをマージする方法もまだ知らないし、とりあえず失敗せず試したいので待った。

URLが開発環境のローカルになってるので、サクっとsedで置き換えたら、あとはホントにもう10分もかからずラクチンでCGI設置まで完了。あんまり頑張ってるとSolr勉強会に遅刻してしまうので、サンプルのCGIをそのまんま使用...

ってあれ? MacOSXでは普通にビルドできたのにCentOSのサーバでTokyoCabinetのビルドでこける。リンク時か。オプションが足らないようだけど、さすがに本当にもう準備して家を出ないと遅刻する。残念。



トラックバック(1)

トラックバックURL: http://www.iwazer.com/mt/mt-tb.cgi/279

yasu: 検索結果 続きを読む

コメントする

このブログ記事について

このページは、iwazerが2009年7月21日 16:30に書いたブログ記事です。

ひとつ前のブログ記事は「ヱヴァンゲリヲン新劇場版:破」です。

次のブログ記事は「今更ですが今読ミをAutoPagerizeに対応」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。