セマンティックwebは 情報検索をどう変えるか?semantic webとは...

53
All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd. 2003.3.4 DEWS2003チュートリアル セマンティックWebは 情報検索をどう変えるか? 富士通研究所 ITメディア研究所 (INTAPセマンティックWeb委員会) 津田 E-mail: [email protected] URL: http://www.net.intap.or.jp/INTAP/s-web/

Upload: others

Post on 06-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

2003.3.4 DEWS2003チュートリアル

セマンティックWebは情報検索をどう変えるか?

富士通研究所 ITメディア研究所(INTAPセマンティックWeb委員会)

津田 宏E-mail: [email protected]

URL: http://www.net.intap.or.jp/INTAP/s-web/

Page 2: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

2

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

歴史は繰り返す?

1990 1995 2000ICOT

知識ベースアプローチ自然言語処理

EDR知識ベース?

コーパスベースアプローチ

統計 機械学習

Webは量もあるがゴミばかり

量(Web)があればなんかできないか?

共通辞書作りは大変

誰かがルールを書けば動くのだが….

XMLがすべて解決?

Quixote(DOOD)

Webマイニング

SemWebTelescript(mobile Agent)

??中身仕掛け入れ物

Page 3: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

3

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

目次

Semantic Webとはメタデータ、RDF、RDFスキーマ, オントロジー

Semantic Webの応用:検索はどう変わるかメタデータの現状

検索に関する応用事例: RSS, ODP, TAP, KM適用Semantic Webの課題と方向性トピック: 収集, Trust, Agent, Semantic Web Miningおわりに

Page 4: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

4

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

Semantic WebとはWebの発明者であるT.Berners-Leeが提唱。エージェントが意味的に処理できる次世代Webを目指す(1998-)。現在、実用に向けたプロジェクトが各所で開始されている米: W3C(規格群策定中:右図), DARPA DAMLプロジェクト(2000-)欧: EU-ISTプログラム, 各国電子政府日本: 遅れているが注目度は高い

キー技術:メタデータ、オントロジー

WWW2002, W3C trackより

Page 5: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

5

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

Webのこれから(予想)Webページ数の増加:情報過多はますますひどくなる

3.2億(98.4)→8億(99.7) → 10億(00.1) → 21億(00.7) → 40億以上? (01~)

XML,メタデータ比率が増加

HTML50%

0%

XMLDAML

2000 2005 2010(by Mury Burke,

SWMU2, 2001.11http://www.daml.org/meetings/2001/11/swmu2/)

Page 6: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

6

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

セマンティックWebの階層メタデータ、ロジックの一連の記述階層と記述手段(入れ物)を規定

流通フォーマット

メタデータ三つ組みモデル

クラス階層定義

各種制約定義

論理式基盤

論理、推論 証明、説明

信頼性

OWL, DAML+OIL(W3Cドラフト)

RDF Schema (RDF Vocabulary Description Language) (W3Cドラフト)

RDF model & syntax(1999.2 W3C勧告)

(WWW2002, W3C trackよりhttp://www.w3.org/)

RDF = Resource Description Framework

Page 7: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

7

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

関連する標準化の流れDublinCore

XML RDF RDFS

DAML DAML+OIL

OWL

RSS0.9CDFプッシュ技術

書誌情報メタデータ要素

トピックマップ

オントロジー

サービスメタデータ

メタデータフォーマット

メタデータクラス定義

MIReG, e-GMF, AGSL, …電子政府メタデータ

米DARPAエージェント言語

RSS1.0サイトメタデータ

SGML

DAML-SOIL

EU-ISTOn-To-Knowledge

TopicMap XTM

Page 8: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

8

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

RDF (Resource Description Framework)

メタデータを記述するモデル、シンタックス3つ組モデル

XML, N3シンタックス個々のメタデータではなく、入れ物を規定

cf. XMLもW3Cはフォーマットのみ。DTDなど現実の運用はOASISや業界団体が行なっている。

RDFはどこに書くか?ページ内 (URI単位)

cf. HTML Metaタグ, PICSラベル独立したページ

cf. ODP, RSS, PICSラベル

Page 9: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

9

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

RDF (model)・ (リソース, プロパティ, 値) の三つ組み

リソース: URI(Uniform Resource Identifier)で表現制限:二項関係のみ cf. TopicMap値の構造として、コンテナ(bag, seq)

http://www. intap.or.jp/s-web/intro.html

http://purl.org/dc/elements/1.1/creator

清水

E-mail

[email protected]リソース

プロパティ

Dublin Coreのcreator属性(dc:creator)

age値ステートメント

55

Page 10: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

10

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

RDF (syntax)交換・流通のためのXML構文

<rdf:RDF><rdf:Description about=“http://www.intap.or.jp/s-web/”><dc:creator>清水</dc:creator>

</rdf:Description></rdf:RDF> 値がさらにリソースとなる場合

このURLに関して次の属性/関係が

ある

<dc:creatorrdf:resource=“http://ww.intap.or.jp/id/1716/”v:name=“清水” v:Email=shimizu@intap/>

<dc:creator><rdf:Description about=“http://ww.intap.or.jp/id/1716/”><v:name>清水</v:name><v:Email>shimizu@intap</v:Email>

</rdf:Description></dc:creator>

or

Page 11: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

11

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

RDF N3シンタックス学習者用の3つ組み表示形式。論文などでしばしば使われる。http://www.w3.org/2000/10/swap/Primer.html

<#pat> <#child> <#al>. (AlはPatの子供)<#pat> has <#child> <#al>.<#al> is <#child> of <#pat>. も可能

<#pat> <#child> <#al>, <#chaz>, <#mo>;<#age> “24”; <#eyecolor> “blue”.

<> <http://purl.org/dc/elements/1.1/creator> “津田宏”. @prefix dc: <http://purl.org/ec/elements/1.1/> .<> dc:creator “津田宏”.

カンマで複数値 セミコロンで複数プロパティ

この文書

ダブリンコアのcreator要素namespace

Page 12: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

12

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

RDF スキーマ (RDFS)RDF Vocabulary Description Languageクラス階層、プロパティ階層、値の制約(range, domain)など

http://intap.or.jp/s-web/ 清水

Document Person

author

rdfs:domain

rdfs:range

rdfs:type rdfs:type

RDF

RDFS

creator

rdfs:rangeWork

rdfs:subClassOfrdfs:subPropertyOf

rdfs:type

author

Page 13: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

13

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

OWLOIL: 欧EU,メタデータ交換における情報交換

ISTプロジェクト、On-To-Knowledge (-2001)DAML (DARPA Agent Markup Language)米 2000-DAML-ONT DAML+OIL

OWL (Ontology Web Language)2002.7 W3CドラフトDAML+OILとほぼ同一内容 (OWL-Full)。そのサブセットのOWL-DL (Description Logic), OWL-Lightもある

オントロジー(category, catalogue)マッチビジネス上結構重要なテーマ

Page 14: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

14

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

OWLRDFSでは記述しきれない、クラス間の関係やプロパティの制約を定義できる言語(入れ物)を提供クラス:

exhaustive enumeration, intersection, union, complementequivalentClass, 排他 disjointWith

プロパティ同値equivalentProperty, 反対inverseOf推移性: TransitiveProperty対照性: SymmetricProperty値のcardinality: minCardinality, maxCardinality

個体 (Individual)sameIndividualAs, diferentFrom, Alldifferent

Page 15: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

15

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

SemanticWebとTopicMapTopic Map (XTM=XML Topic Map)

1991 SGMLコミュニティ, 2000 ISO, TopicMaps.org~OASIS対象:検索、ポータル、コンテンツマネジメント、EAI(Enterprise Application Integration)、e-commerce, KMSemantic Webとの比較目的やアプローチはかなり類似。やっている人はかなり違う。XTMは一つの規格で階層化されていない : RDF+RDFS+OWLの一部に相当構文: SGML, XMLの両方があるリンクが双方向、多項関係URIとして、subject indicator/subject addressを区別cf. L. M. Garshol, "Topic maps, RDF, DAML, OIL -- A Comparison" , http://www.ontopia.net/topicmaps/materials/tmrdfoildaml.html

Page 16: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

16

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

国内でのSemantic Webへの取り組み

INTAPセマンティックWeb委員会 [Web系]慶応SFC)斎藤信男, 萩野達也 : W3CディレクタNEC, 富士通, 東芝, NTT, 三菱, 沖, …

次世代Web研究委員会 [AI系]AI学会セマンティックウェブとオントロジー研究会阪大)溝口理一郎 : 日本のOntologyの草分. AI系NII) 武田英明 : オントロジー、AI系産総研) 橋田浩一, 和泉憲明 : サイバーアシスト研究所

XMLコンソーシアム、XMLテクノロジー部会、Semantic Web WG [XML系]法政大) 野村直之: デジタルドキュメント, XML系

他京大)石田先生

Page 17: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

17

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

Semantic Webへの期待と思惑

・・・・等など

AI系

Web系

XML系Webサービス系

検索エンジン

KM

コンテンツ系

オントロジ、知識表現、エージェントなら本家

現実世界で面白いことができれば

検索サービス vs.Search Engin Optimizerの新たな局面?

プロトコルの中身?オントロジーマッチも

重要

e-learning, DAM, DRM

知識管理のブレイクスルー?

良い規格でイニシアティブ

Topic Mapの方が現実的

EAI

異種システム連携が楽になる?

W3C

TheSemanticWeb

TheSemanticWeb

Page 18: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

18

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

Semantic Webの応用もう「まだまだ先の技術」ではない

Adobe XMP(eXtensible Metadata Platform): PDFなどの作成時にアプリが自動でメタデータをRDFで付与RSS : ニュースサイト、ブロッグ(Webログ)

2003/2/16 GoogleがPyra Labs社(blogger.comを運営)を買収

応用分野情報検索

W3C/Stanford TAPRSSニュースポータルOpen Directory Projectユビキタス検索

統合/利用Dublin Core~各国電子政府, e-learning

Page 19: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

19

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

情報検索とSemantic Web検索:何が問題か?量の爆発的増加

Webの文書量: 年々倍増(問題) 収集、管理の困難。検索結果の絶対量の増大

質の爆発的低下色々な意味での雑多さ

HTML …表示形式HTMLフォーマットのいい加減さ、ワードスパム(本文に関係のない文字列を入れる), リンクのスパム(動的ページで大量のリンクを作るなど)(問題) 検索ゴミの増加、情報の組合せ、再利用の困難

80億(?)

40億(?)10-20億

8億

3.2億

98 99 2000 01 02

Page 20: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

20

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

メタデータとは

メタデータ: データに関する情報を表すデータ

例: 書誌情報 (専門家であるlibrarianが付与)

Web情報過多の質の低下を食い止めるため、再びメタデータが脚光

実際の書籍(大量、サイズ、異種フォーマット、内容雑多、分散した書庫に置いてある)

…………

著者タイトル出版社出版年…

メタデータ(図書カード)

同一形態、フォーマット、スキーマ(要素セット)で整理

メタデータ検索

図書館情報検索etc.

全文検索

メタデータ+全文検索

サーチエンジンetc. Semantic Web検索?

Page 21: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

21

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

メタデータを使った検索の効果

「今日開いている藤沢の歯医者を探したい」

現在: 「藤沢 AND 歯医者」で結果を一つ一つ調べていくしかないゴミ: 藤沢医院、個人の日記

Googleで引いてみると…(笑)

名称、住所、開業日、…

メタデータ付与

•精度(適合率・再現率)向上:ゴミやもれが減る•従来検索しづらかった要求への対応

•「この近くの」「明日開いている」:状況に応じた(ユビキタス)検索

•検索結果と関連情報の連携

Page 22: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

22

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

検索例(1)「歯医者」のページ

メタデータ(意味)の世界

「歯医者」

文書=bag of wordsの世界

歯医者

例えば歯医者のように

山本歯科

田中デンタルクリニック

藤沢で開業30年の歯医者です

職種=歯科医

職種=歯科医

職種=歯科医

タイプ=日記

職種=歯科医

Page 23: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

23

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

検索例(2)「今日開いている」

「今日」

文書=bag of wordsの世界

水曜休診

歯科診察日:月水眼科診察日:木金

土日休診

2002/11/1オープン予定

休診:第1,3水曜

Close=Wed

メタデータ(意味)の世界

Close=1st Wed, 3rd Wed

OpenDate=2002-11-1

Open=Mon,Wed

Close=Sat,Sun

Date=2002-10-23

DOW=Wed

【背景知識】・一週間は月火水木金土日・Open, Closeは反対・カレンダーマッチング

Page 24: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

24

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

検索例(3)「近くの」

「近くの」

文書=bag of wordsの世界

住所:東京都世田谷区祖師谷3-5-6

千代田区神保町3~8

アクセス:東急東横線中目黒駅内

Address=東京都世田谷区祖師谷3丁目5番地6号

Address=東京都千代田区神保町3丁目8番Address=

東京都目黒区中目黒

POINT=(東経140.50,北緯35.44)

【背景知識】・地図(緯度経度変換)

マッチング

住所:左京区西木屋町四条上ル

メタデータ(意味)の世界

Address_Kyoto=京都府京都市左京区西木屋町四条上ル

Page 25: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

25

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

Dublin Core (ダブリン・コア)書誌情報、ネットワーク資源などの情報資源の、基本的なメタデータ要素(エレメント)。15の属性: (Dublin Core Metadata Element Set:DCMES)

Title, Creator, Subject, Description, Publisher, Contributor, Date, Type, Format, Identifier, Source, Language, Relation, Coverage, Rights特定の表現形式はもたないが、XML,RDFにより記述可能

1995年、米オハイオ州ダブリンで開催された国際会議の結果が元となり、このように命名わずか15ではあるが、世界的に合意されたことに意義

DCMI (Dublin Core Metadata Initiative)がメンテナンスhttp://dublincore.org/

Page 26: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

26

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

各国電子政府メタデータ

行政公開文書の、国/省庁横断的管理各国で、DCMESを拡張してエレメントを定義

(欧州)英e-GMS (e-Government Metadata Standard)EU MIReG (Managing Information Resources for e-Government)デンマーク OIO-metadata (Offentlig Information Online)アイルランドIPSMS

(豪州)オーストラリア AGLS (Australian Government Locator Service)ニュージーランド NZGLS (New Zealand GLS)

(米)GILS (Government Information Locator Service)

さて、日本は? cf. 電子政府の総合窓口

Page 27: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

27

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

メタデータ規格色々汎用

DC(Dublin Core), RSS, マルチメディア

MPEG7電子政府

MIReG, e-GMS, AGLS, e-GovE-learning

LOM(Learning Object Metadata), SCORM, LIPニュース、テレビ放送

XMLNews, NewsML, TV Anytime, ARIB, ….音楽

MusicBrainz, …地理・観光情報

G-XML, JMP, …フィルタリング

PICSユーザプロファイル

P3Pコンテンツ管理

cIDF (Content ID Forum), …..

現実には、これらの規格でRDFに準じたものはまだ数少ない

今後、メタデータ間の連携、二次利用がすすめばRDFの有難み

がでてくる

Page 28: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

28

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

メタデータの課題: 誰が書くのか?メタデータデッドロック「メタデータがあればこんな良いサービスが作れるのに…」 VS 「こんなサービスがあるのだったら、ちょっと大変だけどメタデータを作っても良いのに…」

費用対効果が見えない。(HTMLとの相違。ontologyも同様)そこで、 メタデータ(半)自動作成技術メタデータエディタ

メタデータジェネレータ: 情報抽出、自動分類技術 (自然言語処理技術, AI技術)の応用ターゲット半自動生成 サービスを早期立ち上げ メタデータがさらに増える サービスさらに発展 … というポジティブフィードバッ

Page 29: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

29

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

Semantic Webの検索適用事例1. RSS (RDF Site Summary)2. ODP (Open Directory Project)3. TAP (Stanford大)4. KM応用

Page 30: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

30

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

(例1) RSS(RDF Site Summary / Rich Site Summary)

http://web.resource.org/rss/1.0/specチャンネル (サマリーとする対象)の以下のようなメタデータを記述

URI, タイトル, 画像更新頻度、間隔 (syndication モジュール)

日本では、http://rss-jp.net/x/ など。海外でも、ニュースポータルが多数存在。Weblogのツールの多くも、RSSでメタデータを出力可能。メリット: (作成者) 宣伝, one source, multi use, (ポータル側) 自動処理による運営コスト減

ニュースサイト

ニュースタイトル

新着情報

自動収集

RSS

ニュースポータルサイト

Page 31: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

31

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

(例2) Open Directory ProjectODP: 8000人以上のボランティアにより、Yahoo的なWebディレクトリを運用するプロジェクト

Netscape, Google (ディレクトリ) 等にもデータを提h供http://dmoz.org/

ODPのデータは、RDFによりダウンロード可能カテゴリ階層、カテゴリ毎のURL一覧、各URLのメタ情報(dc:title, dc:description)再利用、研究などに利用されている。

現時点では、Web上で最大のRDFリソース他にprincetonがやっているWordnetのRDF化プロジェクトなどがあるが、それ以外にはあまりRDFリソースはないcf. A. Eberheart, Survey of RDF data on the Web, 2002 http://www.i-u.de/schools/eberhart/

Page 32: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

32

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

(例3) TAP (Stanford大)Semantic Webを用いた検索プロジェクト

http://tap.stanford.edu/

Stanford KSL + IBM (Guha) + W3C がメンバー

TAP-KB : 様々なジャンルにおける知識ベースMusic, Movie, Author, Sports, ….

ODPと同様のライセンスで公開

Cyc: 深い知識を記述。「チェリスト=チェロを持っている、チェロをよく演奏する」

TAP-KB: Cyc, UpperOntologyを補完「Yo-Yo-Maはチェリストである」

TAPache: RDFを公開するサーバ。GetDataプロトコル

TAP Semantic Search (Activity Based Search): 一般の検索エンジン

(Google)を補完し、対象人物に関連した情報を表示

Page 33: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

33

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

Eric Millerの関連情報

TAP KB (Semantic Search)

“Miller”の検索例

http://tap.stanford.edu/w3c.html

Page 34: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

34

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

TAP ABS (Activity Based Search)

“Yo-Yo-Ma” を検索 : TAP-KBより関連情報 (ミュージシャンなら、コンサート、チケット、アルバム)を芋づる式に取得

http://tap.stanford.edu/tap/ss.html より

Page 35: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

35

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

TAP-KBにおける自動メタデータ化• W3C内情報の自動獲得の試み

Queryhttp://www.w3.org/2002/Talks/www2002-w3ct-swdemo-em/

人手XHTML(規格書)

TAP-KB(RDF)

Semantic SearchHTML RDF(XSLT)

RDB schema RDF(dbview)

RDB-人-アクティビティ(WG, ドラフト, …)

Page 36: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

36

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

(例4) KMへの応用Swill Life社

2000-2002 EU-IST, On-To-KnowledgeプロジェクトOILを使って、従業員のスキルDBを構築

Haystack (MIT)スケジューラ、メーラーなど、個人情報の管理にRDFを利用http://http://haystack.lcs.mit.edu/

Know Who検索 (富士通研)スケジューラ、文書からユーザプロファイルを自動生成、検索と視覚化

片山etc., Semantic Web利用による次世代グループウェアWorkWare++, インタラクション2003

Page 37: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

37

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

メタデータによる人・コンテンツ・トピックの連携

スケジュールを中心とした業務管理~自動獲得

グループ

会議対話

書類(メール,資料,論文,…)

サービス 人

ログ

どんな情報をアウトプットしてるか?

(= スキル情報、作成コンテンツ情報)

どんな情報をインプットしてるか?

(= 興味情報)

コンテンツ

メタデータ(RDF*/XML)

自動獲得

どんな人達と一緒に仕事をしているか?

(= 人脈情報)

自然言語処理技術

WorkWare++

Page 38: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

38

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

メタデータによる人・コンテンツ・トピックなどの柔軟な活用

ハイパースケジューラ

カレンダービュー(スケジュール * 文書)

ミーティングビュー(スケジュール, 関連文書)

ユーザビュー(プロファイル, 作成文書)

日付

イベント「あ、これ」(メール/News/Webページ)

Know Who

人脈関連マップ

技術関連マップ

文書

コミュニティ

メタデータによる意味的連携メタデータによる意味的連携

- XML全文検索-視覚化(text mining)

Page 39: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

39

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

Know Who=人の検索

多面的である「人」を探すのは結構大変

人・トピック・時間による柔軟な検索+分析要望: XMLに関する商談で決め手となる、研究所における差別化技術を知りたいそのスキルを持った人にアクセスしたい

要望: XMLに関する商談で決め手となる、研究所における差別化技術を知りたいそのスキルを持った人にアクセスしたい

XMLに関連して、研究所にどんな技術がある?XMLに関連して、研究所にどんな技術がある?

各技術の関係者のマップは?各技術の関係者のマップは?

この人はこれまでどんな研究をしていた?この人はこれまでどんな研究をしていた?

来週のスケジュールは?メールアドレスは?

来週のスケジュールは?メールアドレスは? その人にアクセス

Page 40: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

40

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

Semantic Webの応用:今後ビジネス領域コンテンツマネジメント : メタデータ管理、資産管理(DAM)、著作権管理(DRM)EAI (Enterprise Application Integration)KM, 情報共有: P2Pとの組合せ

Webサービス技術の補完オントロジーマッチングによる異種データの連携 (B2B) Semantic Web Services, Semantic Web enables Web Services (SWWS)

e-learning教材の活用や効率的作成に、LOMは今後有望。Web情報と連携が増えればRDF化するメリットも。

Page 41: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

41

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

トピック

1. Semantic Webにおける収集2. (Semantic) Webにおけるトラスト3. エージェントは陽の目を見るか?4. Semantic Webマイニングへ

Page 42: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

42

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

[Topic] SWにおける収集の問題RDFをどう集め運用するか?仕様、規格は決まっていない

cf. WebサービスにおけるUDDI、Dublin CoreのMetadata Harvesting (OAI)

Webロボットと同様:DAML Crawlerなど全HTTPトラフィックの7%がロボットによる (Web Side Story, 2001.9) 収集スピード限界による更新の遅れ。1日=約85000秒。

Push (smart pull) : RSSなどWeblogのように自然に作る仕組みが重要

登録制RDFWeb (http://rdfweb.org/)Web ringを利用

Page 43: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

43

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

[Topic] Webにおけるトラストは大きな壁

メタデータのトラストHTML METAタグはなぜ機能しなかったか? ワードスパム攻撃

良く検索される語をMETAタグに大量に入れることで、サーチエンジンの結果を騙してページ露出度を上げる攻撃

Internet: 性悪説なので、Tim Berners-Leeの階層最上位の「Trust」が伴わないとだめ。

検索ならまだ良く、エージェントによる推論でスパムが入ったら?

「RDFスパム」は多分おこるが、どう対処する?

Web流の解決手段が急務PKI Google PageRank, PGP mail (Key Free Trust, http://www.w3.org/2002/03/key-free-trust.html)大量の人、リソースを基本にした信用

Page 44: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

44

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

[Topic] エージェントは陽の目を見るか?

エージェント系アプリはSW応用の本命Telescript(by J. White, General Magic社,1995)など、エージェントによる自動処理は昔から話題

cf. 山崎・津田編訳, 「Telescript言語入門」ASCII, 1996 (絶版:-)エージェントがフライト時刻をモニタして、飛行機が遅れたら教えてくれ、時間を無駄にしないで済む

家の近くのカメラ屋で希望の品が一番安いところを探してくれ、お金を無駄にしない。

会議日程に合わせてホテル・交通手段(乗継ぎ)をまとめて検索・予約してくれる(オーケストレーション)

話題にはなるものの、今だに実用化されていないのは何故?

place

Agent

Page 45: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

45

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

エージェント系アプリ(続)現時点のSemantic Web +Web Servicesではやはりうまく行かないどのようにしてエージェントに要求を与えるか?

どこで間違ったかトレースが必要(Proof)だとしても、そもそも無矛盾ではないので、解が正しいかは利用者が一つ一つ確認

Trustがないので、どこかの情報が嘘・誤りかもcf. Telescriptを始め、これまでのエージェントでは、閉じた信頼できる世界を相手にしていた

約款、課金など、さらに利用者が一つ一つ判断

Page 46: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

46

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

[Topic] Semantic Webマイニングへ

データマイニング

大量生Text(mail, コールセンター, …)

テキストマイニング

ルール etc.

rule, メタデータ、同義語, etc. Ontology ?

ルール etc.

大量生データ(POS, …)

Semantic WebマイニングWebマイニング

Semantic Web大量Web

Page 47: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

47

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

Webマイニングによる自動メタデータ/オントロジー生成

Webマイニング大量のWeb情報から、有益な知識を抽出、マイニング研究紹介津田他, Webディレクトリのためのページメタデータの自動付与の試み, 情報学シンポジウム2002

自動ディレクトリページ人気度の時系列変化同義語辞書の構築

大規模Web (数億URL) 自動メタデータ/オントロジWeb mining

Page 48: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

48

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

(例)toto

夏ごろから失速

ページメタデータ(リンク人気度)の時系列分析

Webの動きを分析

第1回(いきなり1億円があたって話題に)

Page 49: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

49

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

….…

….…

www.nec.co.jp

….…

….… ….

….NEC…

NEC

….…

….…….…

….日本電気…

日本電気

こちら

….…

….…

….…

….…

….…….

….

…. ….….nec.co.jp

に特徴的なキーワード nec.co.jp

も指すが他も指すキーワード

ホーム

戻る

コーパスとしてのWeb

企業URLを指すアンカー文字列の分析• 多くの人々がどう呼んでいるか 企業名辞書

Page 50: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

50

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

例:企業名辞書

http://www.panahome.co.jpナショナル住宅産業,ナショナル住宅産業(株),パナホーム,ナショナル住宅,ナショナル住宅産業株式会社,ナショ住,PANAHOME,…

http://www.rkb.inf.ne.jpRKBテレビ,RKB,RKB毎日放送,RKB毎日放送(株),RKB毎日放送(TBS系),RKB毎日放送(1278KHZ),アールケービー毎日放送,…

Webマイニングでここまでできる

今後、よりゴミの少ないメタデータから行うことで、精度向上 (オントロジー構築の半自動化)

Semantic Webマイニングへ

Page 51: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

51

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

おわりに

Semantic Webは「将来の技術」ではなくなりつつあるRDF, RSS などはすでに活用されているオントロジー(OWL)はこれからエージェントはまだ遠いかも

Semantic Webは「魔法のような技術」ではないメタデータ・オントロジーをちゃんと書けば、それに見合った便利な検索ができるなど、ごくまっとうな考え方。

AI系の人も多く参入しているが、話を複雑にせず、現実的なアプローチを(自戒)RDFのDB、QueryはODB系の人ももっと参入しては

ともあれ、メタデータ/オントロジー作成の省力化が当面の課題自然言語処理、Webマイニング

Page 52: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

52

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

3月の国内SemWeb関連アクティビティ

3/7 NEDO ワークショップ「情報マネージメント技術の戦略的活用 ~知の共創のための自然言語技術と知的生産性の向上~」

3/10,11 大阪大学産研国際シンポジウム知識処理の新しい潮流~データマイニング・セマンティックウェッブ・コンピュテーショナルサイエンス~

J. Hendlerなど著名人も来日http://www.ei.sanken.osaka-u.ac.jp/ss/

3/12 SWAFT (SEMANTIC WEB FOUNDATIONS AND APPLICATION TECHNOLOGIES),奈良

http://www-kasm.nii.ac.jp/SWFAT/

3/25-27 情報処理学会全国大会(東京工科大学)特別トラック: セマンティックWebとWebサービスパネル*3, 招待講演、一般発表など

Page 53: セマンティックWebは 情報検索をどう変えるか?Semantic Webとは zメタデータ、RDF、RDFスキーマ, オントロジー Semantic Webの応用:検索はどう変わるか

53

All rights reserved, Copyright 2003 Fujitsu Laboratories Ltd.

参考URL

W3C http://www.w3.org/2001/sw/DAML http://www.daml.org/Dublin Core Metadata Initiative http://dublincore.org/INTAPセマンティックWeb委員会: http://www.net.intap.or.jp/INTAP/s-web/委員による各種文書翻訳、解説(情報処理7月号原稿)、セマンティックWebコンファレンス資料などを公開

Web Kanzaki http://www.kanzaki.com/docs/sw/