テキストマイニング

メインマシンが壊れて各種解析が出来ないので面白そうなもの、ということで、ニュースの自動収集スクリプトみたいなのを組んでみた。収集して、類似関係を算出して、似たニュースを抽出するというもの。目指すべきはgoogle news(http://news.google.jp/)やCeekz news(http://news.ceek.jp/)みたいな感じ。最終的にはblogの巡回とかもさせて、「今話題のニュース」みたいなもの作ってみたい、と思ってます。

が、うちのサーバーだと処理速度が遅すぎることが発覚。200MHzだもんなぁ…。perlからCで書き直したらそれなりに動くようになるんだろうけど、それはめんどいしｗ。

さーてどうするかな。