bixo web mining toolkit

9
Bixoについて Web Mining Toolkit 株式会社 ロンウイット RONDHUIT Co., Ltd. ;Professional Search Engine Consulting Services for Lucene/Solr アッタチョー トウンポン ATTACHOT Tuangphon

Upload: rondhuit

Post on 25-May-2015

2.075 views

Category:

Technology


4 download

DESCRIPTION

Bixoウェブ・マイニング・ツールキットのご紹介

TRANSCRIPT

Page 1: Bixo Web Mining Toolkit

『Bixo』 について

Web Mining Toolkit

株式会社 ロンウイット RONDHUIT Co., Ltd. ;Professional Search Engine Consulting Services for Lucene/Solr

アッタチョー  トウンポン ATTACHOT Tuangphon

Page 2: Bixo Web Mining Toolkit

目次

■ Bixoとは

■ 4ステップ・イン・Bixo

■ Bixoを用いたウェブ・マイニングのサンプル

■ Bixoがさらに使える

■ Bixoの有益性

■ (参考)Cascadingとは

Page 3: Bixo Web Mining Toolkit

■ Bixoとは

ウェブからの情報を抽出し、分析するオープンソース・ウェブ・マイニング

ウェブページ

データベース

Bixo

情報抽出・分析

  The MIT Licenseの下でリリースされた   Hadoopクラス上でデータ処理するCascadingをベースにして開発された   「収集」、「抽出」、「分析」、「生成」というプロセスで情報を検証する

ユーザが検索した情報を研究するツールではありません。

Input Tap(s) Bixo Pipe(s) Custom Operations

Output Tap(s)

Cascading

Hadoop

Tika Parsers

Internal Cluster Single JVM EC2 Cluster

Architecture

 Bixo

ユーザの行動/コンペティターの状況等を研究し、ビジネスの成功を支援するツール

Page 4: Bixo Web Mining Toolkit

■ 4ステップ・イン・Bixo

1)  収集

2)  抽出

3)  分析

4)  生成

ウェブページ ------ -------- Webからのコンテンツを取出し、収集する。

フォーマットからのデータを抽出する。

抽出したデータをトークナイズ・レート・分類・ グルーピングする。

インデックス/レポートを作成する。

Page 5: Bixo Web Mining Toolkit

抽出

■ Bixoを用いたウェブ・マイニングのサンプル

「合計スコア、メールアドレス、名前」 インデックスを作成する。

      抽出したテキスト

「ありがとう」= 15 「色がきれい」= 20 「わかりにくい」= -5 「おすすめしない」= -15 

生成 Score

400 350 300 250 200

Mail Address

[email protected] [email protected] [email protected] [email protected] [email protected]

Name

Mark Lily Shy Cole Tom

 キーワードを検索し、スコアを付ける。

 メール内容からテキストを抽出する。

          テキスト

  ありがとう。   この本、とても楽しかったです。

        メーリングリスト         

  [email protected]

収集  メーリングリストを使い、全ての ユーザーのメールを収集する。

分析

1

2

3

4

Page 6: Bixo Web Mining Toolkit

■ Bixoがさらに使える!

Page 7: Bixo Web Mining Toolkit

■ Bixoの有益性

      商用プロジェクトのニーズへの答え!  

▼ Bixoのことをもっと知りたい!            Homepage: http://bixo.101tec.com/

Page 8: Bixo Web Mining Toolkit

■ (参考)Cascadingとは 

Hadoopクラス上でデータ処理するワークフローAPI。

ネームフィールドを持つタプル上で操作する。

パイプから作られるワークフロー。

困難な低レベルであるMRの詳細を減少する。

複雑な/確かな処理ワークフローをサポートする。

パイプは、これから行われるデータ処理を定義するステップ

MR= Map Reduce

詳しくは: http://www.cascading.org/

Page 9: Bixo Web Mining Toolkit

ご清聴 ありがとうございました