トラックバック SPAM と日本語形態素解析

運用しているサイトの一つに、トラックバック SPAM が比較的大量に来るようになり、一時期は正規表現による単語マッチングでしのいでいましたが、本格的な対策を考えなければいけない域に入ってきました。

ベイジアンフィルターによるアプローチを検討していますが、日本語形態素解析をどうしようというところで、ChaSenMeCab あたりを検討することになります。Java ですと Sen ですか。

一方、先日公開された Yahoo! 日本語形態素解析Webサービスは、語彙が豊富とのことで、こちらも試してみようと思います。Web サービスですので速度はそれほど期待できませんが、今回の目的では問題ありません。プログラミング言語に対してフラットなので使いやすいです。

MECAPI を 182倍高速にしてみたでは、MeCab の Web Service の MECAPI を高速化したとのこと(http://api.chasen.org/mecapi/)。

ここにきて、使える環境が増えてきましたので、その記事の分類(何のカテゴリの記事らしいか)を自動化したり、質問サイトでの質問の検索精度を上げたりだとか、色々と検索を改善できることが思い浮かびます。

SPAM はそれはそれで困っていますが・・・。

森田::