もう少しセマンティックに1

フィードは、当初ネットをセマンティックにする「メタデータ」として期待していましたが、現在の使われ方ですと、せいぜい、発行日と発行者程度がメタデータとしては確実で、あとはコンピューティングしにくいデータのカタマリです。

それでも、言語学的な解析による、文中での言葉の共起性(ある言葉とある言葉とが同時に現れている)や、特徴となる文脈の抽出など、高度な技術を使って分析し、計算可能な形へと変換しています。検索エンジンでも、クローラーが集めてきたドキュメントをインデックス化する前処理で、さまざまな解析を行い、元のドキュメントに意味づけを行ってから処理しています。

ドキュメントなどをもう少しコンピューティング可能にする、ということで OWL (Web Ontology Language) がありますが、一部では有効なものの雑多なウェブの世界には、そのまま適用するのは難しいようです(Heavy weight Ontology と言われます。)。もっと Lightweight なオントロジーであれば、ツールのサポートにより、自動的にメタデータが付加される可能性はあります。

少しツール側が頑張れば、今のウェブと透過的に実現できる規格に Microformats があります。名前の情報、カレンダーの情報、場所の情報、・・・などなど、XHTML 1.x の各種タグ要素に class 属性として特定の名前を使うことにより、コンピューティング可能にしてくれます。つまり、先の例のような高度な分析(日本語の文書で、0A0- のパターンだから携帯電話番号だろうとか、¥ の後の数字は金額だろうとか、これは会社の名前、これは日本人によくある苗字・・・)を行わずとも、これは電話番号、これは人の名前、これは場所・・・といった判断ができ、上手にメタデータとして取り込むことができるわけです。Microformats を使った事例で印象的だったのは、2006 年3月の Ray Ozzie による Live Clipboard です。このデモに影響を受けたアプリケーションは少なくないと思います。

ネットとコンピュータは、人の扱えるデータ量を飛躍的に伸ばしましたが、意味づけされたデータが流通することにより、もう一段上のレベルのコンピューティングが可能となり、さらに人の能力を広げてくれるものと思っています。

森田::