検索エンジンが理解できるように会社情報を記述する1
検索エンジンのクローラーが会社情報を取得し、それを検索エンジンが解析する場合、どの項目が何を意味しているのかを教えてやる必要があります。
会社情報ですと、「会社名」、「資本金」といった具合に、項目を意味する言葉が限定されていますので、幾つかのルールを教えてやることにより、ある程度は自動的に解析することも可能です。
しかしながら、元の会社情報のページには、検索エンジンが理解できる形で、この項目は何を意味している、とは書かれておらず、経験的な (統計的な) 出現パターンや、辞書の使用といった、幾つものテクニックを組み合わせて、元のページに不足している属性を補って、検索しやすい形に加工します。
- RDF を定義し、会社情報として link rel で XHTML 文書中から指定する。
- microformats のように属性を定義して、会社情報の表組みに付け加える。
といった方法が考えられます。前者は少し面倒ですが、後者は比較的簡単です。
こういったちょっとしたことが実現できると、検索の精度は今よりも一段上のレベルに上がることができます。
本当は、Lightweight なオントロジーというのが本命の一つだと思っているのですが、こちらもなかなか難しいようです。
森田::