台東区生涯学習センター・2003小中学生向け ...yamana/index-data/20030… · ppt...
TRANSCRIPT
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 1
-インターネットで世界を探検しよう!-インターネットで世界を探検しよう!--21日:「インターネットを知ろう」21日:「インターネットを知ろう」22日:「サーチエンジンを使ってみよう」22日:「サーチエンジンを使ってみよう」23日:「自分自身の世界旅行を計画してみよ23日:「自分自身の世界旅行を計画してみよう」う」山名早人 大塚崇志早稲田大学 理工学部 コンピュータ・ネットワーク工学科
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 2
•山名早人 (http://www.yama.info.waseda.ac.jp/~yamana/)– 早稲田大学 理工学部 助教授– 山口県生まれ
• 平成5年早稲田大学大学院博士後期課程了。博士(工学)• 平成 5 ~ 12 年通産省工業技術院電子技術総合研究所• 平成 11 年成蹊大学大学院非常勤講師• 平成 12 年理工学部助教授、現在に至る• サーチエンジン等の情報検索の研究に従事
•大塚崇志– 早稲田大学大学院理工学研究科 情報科学専攻 修士2年生– 群馬県生まれ
• 平成14年 早大 教育学部理学科数学専修 卒業• 現在、情報検索の研究に従事
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 3
別のスライドが開きます
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 4
講義・実習の進め方• 一日目(今日)
– インターネットを知ろう• 講義:「インターネットとサーチエンジン-裏の技術に迫る-」• 実習:サーチエンジンを使って地図を検索してみよう
• 二日目(明日22日)– サーチエンジンを使ってみよう
• 実習:• 三日目(明後日23日)
– 自分自身の世界旅行(国内旅行)を計画してみよう• 実習:
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 5
山名 早人山名 早人早稲田大学 理工学部早稲田大学 理工学部http://www.yama.info.waseda.ac.jp/http://www.yama.info.waseda.ac.jp/
講義
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 6
1. インターネットって何?2. 世界中にはどのくらいの情報がある?3. サーチエンジンで検索できる情報量は?4. サーチエンジンで何ができる?5. サーチエンジンの仕組みは?6. サーチエンジンが持つ課題は?7. Google (グーグル)って何?
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 7
「 Google で「インターネットって何?」で検索」
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 8
インターネット• 電話やテレビのように、生活を便利に快適にする情報通信(じょうほうつうしん)メディア• 世界各国のコンピュータが網(あみ)の目のようにつながり、日本にいながらにして時間と空間を超え、海外の情報を手に入れたり、情報交換(じょうほうこうかん)することができる。• 最近はコンピュータだけでなく、車やテレビ、電子レンジなど家電にもインターネットがつながるようになり、電気のように生活のあらゆるところで使われるようになってきている。 (総務省 情報通信白書 for Kids より引用)
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 9
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 10
コンピュータ台数と Web ページ数
総 Web ページ数 =コンピュータ台数 × 1台のコンピュータの平均 Web ページ数
数える単位 → Webページを基準にしよう! 例:生涯学習センターのWebページ
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 11
0
20,000,000
40,000,000
60,000,000
80,000,000
100,000,000
120,000,000
140,000,000
160,000,000
180,000,000
200,000,000
Jul-
93
Jul-
94
Jul-
95
Jul-
96
Jul-
97
Jul-
98
Jul-
99
Jul-
00
Jul-
01
Jan-
03
0
5,000,000
10,000,000
15,000,000
20,000,000
25,000,000
30,000,000
35,000,000
40,000,000
Num.of HostsNum.of WWW servers
コンピュータ台数
インターネットに接続するコンピュータ台数とWWWサーバ数の推移Internet Software Consortium(http://www.isc.org/) の Internet Domain Survey 及び Netcraft 社 (http://www.netcraft.co.uk/) の WWW Server Survey の公開データから作成
3500万台( 2003/1)4200万台(2003/8)
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 12
Web ページ数の推定• 全世界の Web ページ数
– 1997 年 12 月: 3.2 億 [1]– 1999 年 2 月: 8 億 [2]– 200 3年 8月:約 78 億と推定
• 各サーバ毎のページ数は、 [1] では 190 ページ、 [2] では 186 ページ。• 186 ページ ×4200 万 Web サイト [3]≒78 億
[1]S.Lawrence, C.L.Giles:"Searching the World Wide Web", Science, Vol.280, No.5360, pp.98-100 (1998)[2] S.Lawrence, C.L.Giles:"Accessibility of Information on the Web", Nature, Vol.400, pp.107-109 (1999)[3] -: Netcraft Home Page, http://www.netcraft.co.uk/
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 13
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 14
0500,000,000
1,000,000,0001,500,000,0002,000,000,0002,500,000,0003,000,000,0003,500,000,000
Google FAST Altavista Inktomi
サーチエンジンのデータ規模
2003年8月現在の大規模サーチエンジンのインデックス規模
Docomo AOL(’03/7)Excite
AOL('02/5)Yahoo! JAPAN@Nifty('01/4)
Yahoo!( 米 )('00/6)Biglobe('00/2)
Netscape('99/6)…
HotbotGoo
MSN Search
Lycos…
約30億(全体の約40%)
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 15
サーチエンジンの仕組みを知ろう(総務省のページが開きます)
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 16
サーチエンジンはこんなに便利• 宿題の強い味方 • 電車や映画などの時間や料金もすぐわかる • 待ち合わせの地図がすぐに手に入る • 好きな歌手やタレントの情報がたくさん見つかる • 旅行に出かける前に、事前(じぜん)に行き先の情報が手に入る • などなど… (総務省 情報通信白書 for Kids より引用 )
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 17
サーチエンジンの分類• キーワードで検索 (例: Google)キーワードを入れるだけで、その言葉(ことば)がふくまれているウェブページを見つけ出してくれます。• ディレクトリーで検索 (例: Yahoo! JAPAN)分野(ぶんや)ごとに分類整理(ぶんるいせいり)されクリックするだけで欲(ほ)しい情報にたどりつくことできます。
(総務省 情報通信白書 for Kids より引用 )
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 18
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 19
クローラークローラークローラー
サーチエンジンの仕組み
一般的なサーチエンジンの仕組み
検索語受付クローラー
並べ替え(ランキング)索引
検索語
検索結果
Web ページを自動的に集める
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 20
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 21
検索エンジンの主な課題• 頻繁(ひんぱん)に更新(こうしん)されるWebページをどうやって効率よく集めるか
• 検索結果をいかに並べ替えるか(ランキングするか)
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 22
• 次のようなWebページとクローラ(Webページを収集するシステム)があります。• 新しいWebページが検索できるようにするには、それぞれのWebページをどのような頻度(ひんど)で集めれば、もっとも効率がよいでしょう?
ページ a : 1日に1回更新されるページ b : 1日に2回更新されるページ c : 1日に3回更新されるページ d : 1日に4回更新されるページ e : 1日に5回更新される クローラ: 1日に最大5ページしか集められない
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 23
答え• 1日に1回更新されるページは平均1.15回/日集める• 1日に2回更新されるページは平均1.35回/日集める• 1日に3回更新されるページは平均1.35回/日集める• 1日に4回更新されるページは平均1.15回/日集める• 1日に5回更新されるページは集めない
一日の平均収集回数 文献 [10] より引用
一日の更新頻度[10] J.Cho and H.G.Molina:"Synchronizing a database to improve freshness", Proc. of International Conf. on Management of Data, pp.117-128 (2000)
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 24
検索結果の並べ替え例: 全国の小学校数を知りたくて「小学校数」で検索した場合
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 25
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 26
http://www.google.co.jp/
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 27
起業(きぎょう)• 1998 年 9 月
– アメリカ スタンフォード大学 博士課程コースの学生 ラリー・ページ と サルゲイ・ブリン(ロシア生まれ) (当時 25歳 ) が起業– アメリカ カリフォルニア州 マウンテンビュー
• 従業員約 1000 名 (2003.8) (内日本人の技術者 10 名程度)
2001.3 Photo by H.Yamana
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 28
Google の会社に入ると…
at 受付2001.3 Photo by H.Yamana
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 29
数々の賞• Time magazine 「 Best Cybertech of 1999 」• Time Digital magazine 「 Top Ten Sites 2000 」でトップ。• 1999 PC Magazine Technical Excellent Award• 2000 Search Engine Watch Awards
– Outstanding Search Service– Most Webmaster Friendly
• …
Photo by H.Yamana
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 30
企業までの歴史(1)• 学生時代
– サルゲイがデータマイニングの研究を大学でしていたところに、ラリーが加わる。– ラリーが Web ページを対象として研究を進める。
Web データに非常に興味を引かれ……– 「多くのコンピュータがなければ研究が続けられない」というところから起業を決心。– 2人で 1.5 万ドル (180 万円 ) のお金を出し、 TB( テラバイト )オーダーのハードディスクを購入。– その後、ビジネスプランを2年間書き続ける。
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 31
• アンディ ( サン・マイクロシステムズ社の共同設立者)との出会い– 10 万ドル (1200 万円 ) を即決で小切手でもらう。
• 2大ベンチャー・キャピタルからの資金– 25MUS ドル (30 億円)の投資 ( とうし )
•他のサーチエンジンとの差別化(さべつか)– Google は検索というコア技術に専念(せんねん)
企業までの歴史(2)
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 32
Google の技術担当者• 技術担当取締役 クレイグさん(左)• ハーバード大卒業後、 Xeroxパルアルト研究所へ、現在スタンフォード大学で博士課程。2001.3 Photo by H.Yamana
Googleの人物像
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 33
チーフ運用エンジニア: ジム・リーズ• コンピュータは独学• 医学博士• ハーバード大学卒業 → エール医科大学大学院 → スタンフォード大学で神経外科専門
(3.5 年 ) → スタンフォードSRI International(1.5 年 )
• スタンフォード SRI で脳のMRI 画像を鮮明にするコンピュータソフト開発に従事
• 上記のプロジェクト後、リーズは UNIX コンピュータのコンサルタントとして病院以外で活躍引用: http://www.interex.org/hpworldnews/hpw009/02nt.html
Googleの人物像
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 34
ジム・リーズ(その2)• SRI を去る半年前に Google の検索のスピード、正確さに非常に感動。• Google に履歴書を提出。• Google では、神経外科からの応募に戸惑い、最初は採用を考えていなかった。• Google はスタンフォード大学のツテを使ってリーズが医学博士であることを確認した後、電話インタビューを実施。• 2回目の面接で1時間以上にわたる激論(げきろん)の末、 ラリーと サルゲイが出した( Google が当時直面していた)難題に対し、リーズが解決策を示したことで無事採用決定。• その面接の翌日から Google で勤務。
Googleの人物像
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 35
コンピュータ台数と収集ページ数の推移 ( すいい )
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000Au
g-98
Feb-
99
Aug-
99
Feb-
00
Aug-
00
Feb-
01
Aug-
01
Feb-
02
2001.3 8000台
2000.12 Biglobe と提携
1998.8 30台
1999.6 Netscapeと提携
2000.6 Yahoo!と提携
/平均33台 日で増加
2億
4億
6億
8億
10億
12億
14億収集Webペー
ジ数
PC台数
16億
18億
20億2001.4 @Niftyと提携
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 36
コンピュータの構成(1)• 19inch ラック( 210cmH
x 60cmW x 75cmD )に 1U の PC80 台を設置。 (Rackable Systems の技術:ラックの全面と背面の両方に奥行半分の PC を設置 )
• 2 Fast Ethernet Switch / 筐体
• 4 筐体を GigaEther にて接続し1クラスタを構成。
空調
2x44port Fast Ethernet Switch
PCラック前面に20台裏面に20台
PCラック前面に20台裏面に20台
空調
2x44port Fast Ethernet Switch
PCラック前面に20台裏面に20台
PCラック前面に20台裏面に20台
参考
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 37
• PC (as of 2001.3) →現在は更新!– RAIS(Redundant Arrays of Inexpensive Servers)– PentiumIII 533 ~ 800MHz– 256 ~ 512MB RAM– 40-80GB IDE Disk× 2台 ( 各 Disk に1 chanel)– Intel EtherExpressPro 100 (100BaseT)– Red Hat Linux (stripped-down version)
• (標準ディストリビューション)-(グラフィック)
コンピュータの構成(2)参考
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 38
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 39
検索結果の並べ替え技術• ページランク ( Google が特許を持つランキングシステム)
– 考え方•多くの人がリンクしているページは「素晴らしい」ページ•「素晴らしい」ページからリンクされているページは「素晴らしい」ページ
沢山ありますが……、一つ挙げるとすると:
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 40
ページランク法あるページから別のあるページの推薦(すいせん)
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 41
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 42
ビジネスモデル• 広告
– 最小限の広告– アドワーズ広告
• 特定の Web サイトや同一経営社の複数Web サイトに対する検索エンジン提供
• サーチエンジンのバックエンド300社以上( as of 2002.5)
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 43
Google - まとめ• Google は現在 30 億の Web ページを検索でき、規模、性能で世界一。• 世界第2位は、ノルウェーの Fast
Search社で 20 億ページを検索可能(オスロ工科大学の学生が 1997/7 に起業)
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 44
Google Hacks (2003.8)参考資料
Google Hacks ― プロが使うテクニック & ツール 100 選
Tara Calishain, Rael Dornfest 著山名 早人 監訳田中 裕子 訳 2003 年 8 月発行本体価格 2,900 円ISBN4-87311-136-6
オライリー・ジャパン発行オーム社販売
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 45
Google での検索法(1)
intitle: でタイトルに限定して検索
参考資料
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 46
Google での検索法(2)• intitle:
– タイトル内の文字に限定して検索例: intitle:waseda
allintitle: 早稲田 理工• inurl:
– URL 内の文字に限定して検索例 inurl:faq
allinurl:faq microsoft• inanchor:
– アンカー文字に限定して検索
参考資料
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 47
Google での検索法(3)• site:
– 特定のサイトに限定して検索例 コンピュータ site:waseda.ac.jp
• link:– バックリンクを検索例 link:www.yama.info.waseda.ac.jp
• filetype:– ファイル形式を指定して検索 (ps,pdf,doc,xls,ppt,rtf)例 filetype:pdf
• related:– 関連ページを検索例 related:www.yama.info.waseda.a
c.jp
参考資料
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 48
Google での検索法(4)• info: 各種情報を表示
参考資料
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 49
Google での検索法(4)• その他
– intext: HTML BODY に限定して検索– cache: キャッシュを表示– datarange: ユリウス歴で日付を指定
参考資料
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 50
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 51
実習内容①生涯学習センターを地図上で見つける 経度・緯度を確認(以下はオプション)②自分の家を地図上で探す 経度・緯度を確認
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 52
①生涯学習センターを地図上で見つける1. http://www.google.co.jp/ を開く2. 検索ボックスに「日本地図」を入れて検索。
ここをクリック
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 53
①生涯学習センターを地図上で見つける3.(財)日本地図センターをクリック
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 54
①生涯学習センターを地図上で見つける4.サービスの下にある「2万5千分1地形図を選択5.次の画面で「地図閲覧システムへ」を選択して地図(台東区)を表示しよう(ヒント)東京首都北西6.生涯学習センターの位置にマウスを移動させクリックしよう
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 55
①生涯学習センターを地図上で見つける7.経度・緯度が表示される。
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 56
①生涯学習センターを地図上で見つける8. Yahoo! の地図でも探
してみよう。http://map.yahoo.co.jp/
ここに、検索語として「区教育研究所」を入れて検索
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 57
①生涯学習センターを地図上で見つける9.地図が表示される
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 58
②自分の家を地図上で見つける(早く終わって時間がある人は挑戦してみよう)1.同じ手順で、2万5千分1の地図上で自分の家の位置を確認しよう2.同じ手順で、 Yahoo! の地図で自分の家の位置を確認しよう
05/10/23 (C) 2003 All Rights Reserved Hayato YAMANA 59
宿題• いつも不思議に思っていること、知りたいことを2~3つ考えてきてください。