検索エンジンが理解できるように会社情報を記述する1

検索エンジンクローラーが会社情報を取得し、それを検索エンジンが解析する場合、どの項目が何を意味しているのかを教えてやる必要があります。

会社情報ですと、「会社名」、「資本金」といった具合に、項目を意味する言葉が限定されていますので、幾つかのルールを教えてやることにより、ある程度は自動的に解析することも可能です。

しかしながら、元の会社情報のページには、検索エンジンが理解できる形で、この項目は何を意味している、とは書かれておらず、経験的な (統計的な) 出現パターンや、辞書の使用といった、幾つものテクニックを組み合わせて、元のページに不足している属性を補って、検索しやすい形に加工します。

  • RDF を定義し、会社情報として link rel で XHTML 文書中から指定する。
  • microformats のように属性を定義して、会社情報の表組みに付け加える。

といった方法が考えられます。前者は少し面倒ですが、後者は比較的簡単です。

こういったちょっとしたことが実現できると、検索の精度は今よりも一段上のレベルに上がることができます。

本当は、Lightweight なオントロジーというのが本命の一つだと思っているのですが、こちらもなかなか難しいようです。

森田::