文章の特徴によるユーザ識別

まえからやりたいと思ってたのですが、やってみますｗ。

ある属性を持つ人と、持たない人がいて、その二グループの送るメールに差があるのかどうか調べて見るテスト。わたちたち人には、その「グループ」という単位では相関関係ってのは感じられないけど、コンピュータでチェックしてみたら実は差があるってことも結構ある。ない場合も多いけど。その差を検出してみよう、と。というか、とりあえず面白そうなことを思いついてしまって、なんとなくやる機会ができてしまったので、やってみる、ということで。

方法は、一部の人たちのメールを特定のフォルダに振り分けて、そこに行ったメールで学習させる。そのあと、その学習させたルールを適用させてみて、識別できるかどうかテスト。ヘッダー入れると反則な気がするので、本文のみということで。署名は簡易なアルゴリズムで自動で取り除いてみるけど、取り除けなかったら主導では取り除かない。

で、実際に使う学習アルゴリズムは、そっち系の論文あさったら面白そうなのたくさんあるみたいだけど、実装めんどくさいのでとりあえずベイジアンでｗ。おもしろそうだったら、徐々に改良していきます。

果たして、ちゃんと二グループの識別ができるのだろうか…。