雑記 久々にプログラミング

| | コメント(0) | トラックバック(0)

私が愛用しているサイトにはてブニュースというのがあって、暇なときはそれを最新から眺めていくのですが、いかんせん情報が多いし、忙しいときは読めないので、情報がどんどん流れていってしまいます。

幸いRSSを提供しているので、RSSを定期的に取得して、特定のキーワードがあったページだけ保存して後から読もうと思ったのですが、そういうことができるツールがないようで、ないならいっそ作ってしまえということで、ちまちまと作ってました。

サーバ側で動かさないといけないとでPerlであれば良かったのですが、検索したひっかかった結果だとPHPの方が簡単そうだったので、初めてPHPで組んでみました。ちなみに参考になったのは次のサイトです。

アルゴリズムは単純で、次のような感じです。

  1. RSSを読み出す
  2. キーワードでマッチング
  3. 該当するリンク先があった場合、すでに収集されてるログとマッチング
  4. ログになければ、ログに書き出す

これをcronジョブでサーバ側で定期的に走らせればOKということです。

ログファイルでなく、データベースに格納してしまえば、今後の利用方法も広がると思ったのですが、そこまで大げさにするのもなぁというのと、PHPでデータベース扱ったことないから勉強するのが大変そう、という理由からやってません。

そんなわけで、ただいまテスト運用中です。HPで公開しようとも思ったのですが、探すキーワードが趣味丸出しなので、今回はちょっと控えさせてもらいました。成果がでて便利そうだったら、公開します。

まぁ、ちょっと問題もあって、はてブニュースは15分おきにクロールしてるのに対して、設置したXREAは1時間置きでないとcronジョブを走らせることができないので、どれだけ情報の取りこぼしがあるかが気になるところです。

トラックバック(0)

このブログ記事を参照しているブログ一覧: 久々にプログラミング

このブログ記事に対するトラックバックURL: http://gin.s44.xrea.com/x/mt-tb.cgi/89

コメントする


画像の中に見える文字を入力してください。