雑記 久々にプログラミング
私が愛用しているサイトにはてブニュースというのがあって、暇なときはそれを最新から眺めていくのですが、いかんせん情報が多いし、忙しいときは読めないので、情報がどんどん流れていってしまいます。
幸いRSSを提供しているので、RSSを定期的に取得して、特定のキーワードがあったページだけ保存して後から読もうと思ったのですが、そういうことができるツールがないようで、ないならいっそ作ってしまえということで、ちまちまと作ってました。
サーバ側で動かさないといけないとでPerlであれば良かったのですが、検索したひっかかった結果だとPHPの方が簡単そうだったので、初めてPHPで組んでみました。ちなみに参考になったのは次のサイトです。
- RSSの特定記事取得方法 - 教えて!goo
- WEB版のRSSリーダーのソースコード(フリーのPHP・CGIなど)を出来るだけ多く紹介してください。PHPやCGIプログラムを利用する以外にも、自サーバに自分専用のオンラインRSS.. - 人力検索はてな
アルゴリズムは単純で、次のような感じです。
- RSSを読み出す
- キーワードでマッチング
- 該当するリンク先があった場合、すでに収集されてるログとマッチング
- ログになければ、ログに書き出す
これをcronジョブでサーバ側で定期的に走らせればOKということです。
ログファイルでなく、データベースに格納してしまえば、今後の利用方法も広がると思ったのですが、そこまで大げさにするのもなぁというのと、PHPでデータベース扱ったことないから勉強するのが大変そう、という理由からやってません。
そんなわけで、ただいまテスト運用中です。HPで公開しようとも思ったのですが、探すキーワードが趣味丸出しなので、今回はちょっと控えさせてもらいました。成果がでて便利そうだったら、公開します。
まぁ、ちょっと問題もあって、はてブニュースは15分おきにクロールしてるのに対して、設置したXREAは1時間置きでないとcronジョブを走らせることができないので、どれだけ情報の取りこぼしがあるかが気になるところです。
トラックバック(0)
このブログ記事を参照しているブログ一覧: 久々にプログラミング
このブログ記事に対するトラックバックURL: http://gin.s44.xrea.com/x/mt-tb.cgi/89
コメントする