bixo web mining toolkit
DESCRIPTION
Bixoウェブ・マイニング・ツールキットのご紹介TRANSCRIPT
『Bixo』 について
Web Mining Toolkit
株式会社 ロンウイット RONDHUIT Co., Ltd. ;Professional Search Engine Consulting Services for Lucene/Solr
アッタチョー トウンポン ATTACHOT Tuangphon
目次
■ Bixoとは
■ 4ステップ・イン・Bixo
■ Bixoを用いたウェブ・マイニングのサンプル
■ Bixoがさらに使える
■ Bixoの有益性
■ (参考)Cascadingとは
■ Bixoとは
ウェブからの情報を抽出し、分析するオープンソース・ウェブ・マイニング
ウェブページ
データベース
Bixo
情報抽出・分析
The MIT Licenseの下でリリースされた Hadoopクラス上でデータ処理するCascadingをベースにして開発された 「収集」、「抽出」、「分析」、「生成」というプロセスで情報を検証する
ユーザが検索した情報を研究するツールではありません。
Input Tap(s) Bixo Pipe(s) Custom Operations
Output Tap(s)
Cascading
Hadoop
Tika Parsers
Internal Cluster Single JVM EC2 Cluster
Architecture
Bixo
ユーザの行動/コンペティターの状況等を研究し、ビジネスの成功を支援するツール
■ 4ステップ・イン・Bixo
1) 収集
2) 抽出
3) 分析
4) 生成
ウェブページ ------ -------- Webからのコンテンツを取出し、収集する。
フォーマットからのデータを抽出する。
抽出したデータをトークナイズ・レート・分類・ グルーピングする。
インデックス/レポートを作成する。
抽出
■ Bixoを用いたウェブ・マイニングのサンプル
「合計スコア、メールアドレス、名前」 インデックスを作成する。
抽出したテキスト
「ありがとう」= 15 「色がきれい」= 20 「わかりにくい」= -5 「おすすめしない」= -15
生成 Score
400 350 300 250 200
Mail Address
[email protected] [email protected] [email protected] [email protected] [email protected]
Name
Mark Lily Shy Cole Tom
キーワードを検索し、スコアを付ける。
メール内容からテキストを抽出する。
テキスト
ありがとう。 この本、とても楽しかったです。
メーリングリスト
収集 メーリングリストを使い、全ての ユーザーのメールを収集する。
分析
1
2
3
4
■ Bixoがさらに使える!
■ Bixoの有益性
商用プロジェクトのニーズへの答え!
▼ Bixoのことをもっと知りたい! Homepage: http://bixo.101tec.com/
■ (参考)Cascadingとは
Hadoopクラス上でデータ処理するワークフローAPI。
ネームフィールドを持つタプル上で操作する。
パイプから作られるワークフロー。
困難な低レベルであるMRの詳細を減少する。
複雑な/確かな処理ワークフローをサポートする。
パイプは、これから行われるデータ処理を定義するステップ
MR= Map Reduce
詳しくは: http://www.cascading.org/
ご清聴 ありがとうございました