データマイニング入門 -...

15
データマイニング入門 データウェアハウスの構築と活用に携わる方々へ Arlene Zaima Data Mining Marketing Manager Teradata 協力 : James Kashner CTO Teradata Advanced Analytics Center of Expertise

Upload: others

Post on 15-Oct-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: データマイニング入門 - jpn.teradata.jpjpn.teradata.jp/solution/images/TDMK5022_0710_DataminingIntroductory.pdf · 3 データマイニング入門 データマイニングとは一体何か?

データマイニング入門データウェアハウスの構築と活用に携わる方々へ

Arlene ZaimaData Mining Marketing ManagerTeradata

協力 :James KashnerCTOTeradata Advanced Analytics Center of Expertise

Page 2: データマイニング入門 - jpn.teradata.jpjpn.teradata.jp/solution/images/TDMK5022_0710_DataminingIntroductory.pdf · 3 データマイニング入門 データマイニングとは一体何か?

2

データマイニング入門

概要………………………………2

データマイニングとは一体何か ?………………………3

ビジネスに適用されるデータマイニング………………3

ビジネスにどのように役立てることが出来るか ? ……4

OLAP とデータマイニングの相違点……4

データマイニングの仕組み……5

データマイニングの流れ………5

データマイニングとデータウェアハウス構築の関係…6

データマイニングの用語とテクニック………………6

データマイニングが直面する課題……………………7

Teradata を利用したデータマイニング……12

Teradata Warehouse Miner…13

アドバンスド・アナリティクス COE…………13

データマイニング・サービスの提供 ………………14

データマイニングをはじめよう ……………………14

より大きな投資対効果を………14

まとめ …………………………15

概要

多くの方々は、データマイニングが企業活動にもたらしてくれる

価値について話を聞いたり、資料を読んだりしたことがあると思

います。しかしながら、それらの多くは IT 部門を対象としておら

ず、ビジネスインテリジェンスの一部としてデータマイニングを

実装するときに直面する課題について、触れられていません。こ

の資料では IT 部門の観点からデータマイニングを解説します。デ

ータマイニングのプロジェクトを成功に導くための技術、そして

その課題と解決策について概観していきます。

本資料では、データマイニングの中でも次のような点について解

説していきます。また IT 部門でも特に、データウェアハウスの構

築や実装、そしてその活用推進に取り組んでいる方々に馴染み深

い用語を用いることとします :

> 今日、データマイニングはどのような分野に適用され、

ビジネスに活用されているか ?

> データマイニングとデータウェアハウスの

( 切っても切れない ) 関係

> データマイニングに取り組み始めると直面する課題

> データマイニングを始めていくための手順と方法

Page 3: データマイニング入門 - jpn.teradata.jpjpn.teradata.jp/solution/images/TDMK5022_0710_DataminingIntroductory.pdf · 3 データマイニング入門 データマイニングとは一体何か?

3

データマイニング入門

データマイニングとは一体何か?明細データを企業間競争に役立て、将来

の傾向や行動に関する予測や知識へと変

えてくれる強力なテクノロジー - それがデ

ータマイニングです。データマイニングを

単なるツール、もしくはアルゴリズムをデ

ータに適用することに限定して定義する

ベンダーもありますが、データマイニング

の概念は、単なるツールやアルゴリズムの

範疇で捉えられるものでは決してありませ

ん。データマイニングは、データの中に存

在している未知のパターンを見いだし、解

釈し、ビジネス上直面している課題に対

処するためのプロセスです。データマイニ

ングとは反復的に実行されるプロセスであ

り、その反復サイクルを経ることによって、

既に得ている結果を利用し、得られる知

識を充実させ、純化させ、より現実を説

明できるように改善していきます。これは

ときに複雑なプロセスとなりますが、この

プロセスを進めるために活用可能なツー

ルセットも提供されています。

IT部門の観点から考えた場合、データ

マイニングのプロセスは、データの調査、

分析データセットの作成、モデルの構築

とテスト、そして結果のビジネス・アプリ

ケーションへの実装というステップで定

義されます。従って、IT部門の役目は次

のような課題に対処できる環境を整える

ことになります :

> 膨大になるデータをしらみ潰しに調

べ、事前処理をこなせること

> 多くの変数 ( カラム ) や行を時間的制

約下の中で効率的に分析できること、

そしてそれに充分な処理能力

> データマイニングから得られた知識を

ビジネスプロセスに組み込むことが

出来ること

> 拡張可能でありながらも、管理可能

なデータマイニング環境であること

ビジネスに適用されるデータマイニング1980 年代の半ばから、データマイニ

ングは医療診断、科学研究、行動プ

ロファイリングといった限定された分

野において、大きな効果を挙げてきま

した。また直近の 10 年間は、科学及

び学術分野からビジネス分野への適

用が進展した時代と位置づけること

が可能であり、予測分析のレベルを

新たな次元へと導いています。しかし

ながらデータマイニングのプロセスを

ビジネスに適用するためには、時間的

な効率を重視した形でモデルを構築

できなければならず、そのための進

展が必要となっていました。現在では

データが存在するデータベースの中で

データマイニングを完遂できる手法が

出現しています。そして、これに伴っ

Page 4: データマイニング入門 - jpn.teradata.jpjpn.teradata.jp/solution/images/TDMK5022_0710_DataminingIntroductory.pdf · 3 データマイニング入門 データマイニングとは一体何か?

4

データマイニング入門

て多くの企業で、このテクノロジーが

非常に強力であるという点、複雑な

予測業務に有用であるという点が理

解されるようになってきています。

ビジネスにどのように役立てることが出来るか?データから有用な情報を導き出すため

に、企業は長年の間レポーティングや、

非定型検索のツールに頼ってきました。

しかしながら、データ量が増大し続け

る中で、そこから貴重な情報を見つけ

出すことは非常に困難な作業となって

きています。データマイニングの技術

は、詳細な履歴データをふるいにかけ、

人間やその仮説に基づいたクエリー・

ツールでは明らかにできない、隠れた

パターンを特定します。そして、隠れ

ていたパターンから多くの知識が導か

れ、ビジネスプロセスへと連繁し、戦

略的な意思決定に利用可能な予測を

展開することが可能となります。

データマイニングから得られる知識は、

既に知られているような知識を確認する

ものではありません。新たな知見を生み

出し、CRMのようなビジネス・アプリケ

ーションでの分析作業を一層強力なもの

とします。データマイニングを用いてビ

ジネス・アプリケーションを向上させる

ことは、データウェアハウスに対してな

された投資から、より大きな収益を生み

出すことを意味します ( 図 1参照 )。

OLAPとデータマイニングの相違点「データマイニングとOLAP(On Line

Analytical Processing)、 この 2 つ

はどう違うの ?」という質問を良く受け

ます。OLAP は、特定のビジネステー

マを分析し、理解するために役立て

ることができる、ビジネスインテリジ

ェンス・ツールです。一般に具体的な

回答、もしくは事実を回答として得る

ために、問い合わせの内容を設定し、

自らが思っていた仮説が正しかったの

か、それとも間違っていたのかを検証

することになります。OLAP から得ら

れる結果は、事実そのものに関する回

答です。例えば 「サイズ 7 の靴は、過

去 3 ヶ月間に何足売れたのか ?」という

問い合わせをすると、データベースに

蓄積されたデータからその事実に即す

る部分を拾い上げ、回答してくれます。

これによって利用者は、思っていたよ

りも売れたのか、売れなかったのかを

理解したり、発注数量が正しかったの

か、間違っていたのかを検証したりす

ることができます。しかしながら、分

析の対象となる変数が数百となる場合

にも、このような分析手法で対応でき

るでしょうか ? 充分な仮説を準備した

り、データ間に存在している関係性を

問い合わせの条件として形式化したり

することは難しくなります。さらに言え

ば、OLAP ツールは、予測や推定値

そのものを生み出しません。得られた

事実から人間に類推させることは可能

ですが、それがデータから論理的に導

き出された、精度を期待できるもので

あるかどうかは分かりません。

一方でデータマイニングは、発見主導

型の分析手法です。統計や機械学習の

手法を利用し、ある結果や傾向を事前

に予測します。データマイニングの手法

は、それまで複雑で突き止めることの

出来なかった、有意なパターンを見つ

けるために利用されます。例えば 「 次

のシーズンに備えて、サイズ7の靴を何

足注文すべきか ?」との問いに対して、

明細データを利用してモデルを構築し、

特定期間に売れるサイズ 7の靴の量を

予測します。一般に OLAP の分析手

法は多次元キューブのように事前定義さ

れた、要約もしくは集約済みのデータ

を利用します。これに対してデータマイ

ニングは、明細行レベルのデータをそ

のまま集め、分析に用います。

Page 5: データマイニング入門 - jpn.teradata.jpjpn.teradata.jp/solution/images/TDMK5022_0710_DataminingIntroductory.pdf · 3 データマイニング入門 データマイニングとは一体何か?

5

データマイニング入門

この2 つのテクノロジーは、それぞれ異

なる目的に適用されますが、相互補完の

関係にもあります。データマイニングの調

査、探索段階において、OLAPを用い

てデータを理解することは非常に有用で

す。そしてデータマイニングの結果、つ

まり新たな予測変数やスコアリング結果

をOLAP のディメンション、もしくは属

性として組み込むことも有効な利用方法

と言えます。例えば企業が顧客の収益性

を説明してくれる変数 「 顧客価値 」を新

たに作成し、計算するとします。データ

マイニングで計算されたこの分析結果は、

OLAPツールにおいて属性として利用す

ることが可能です。小売業が数多くの商

品から、在庫を準備すべき商品を特定し

たいときには、この「 顧客価値 」の高い

顧客を惹き付けている商品をその候補と

することができます ( 図 2 参照 )。

データマイニングの仕組みデータマイニングはモデル構築時に人工

知能や統計的手法を利用します。まず、

既に結果が判明しているデータを利用して

モデルが構築されます。その後、まだ結

果が判明していないデータに対してこのモ

デルを適用します。例えばデータウェアハ

ウスで過去のマーケティング・キャンペー

ンに反応した顧客を特定し、これら顧客

群の特性を説明してくれるモデルが作成

されます。作成されたモデルは、この他

の広範囲な顧客群に適用され、同一の特

性を有する顧客が識別されます。これら

の顧客は同様のマーケティング・キャンペ

ーンに反応する可能性が高い顧客と想定

されます。従って、これらの顧客にキャン

ペーン対象顧客を絞り込むことによって、

レスポンス率の向上とマーケティング経費

の節減が実現されます。

データマイニングが解決可能なビジネス

課題は、予測や記述といった課題です。

予測モデルは、データセットに存在して

いる他の変数値を用い、結果 ( 従属変

数、もしくは目的変数と呼びます ) を予

測します。例えば 「 顧客がある商品を購

入する可能性 」を考えた場合、顧客の

所得、子供の数、現在契約している商

品や負債に基づいて可能性を予測しま

す。予測モデルを構築する際には、既

に購入した顧客のデータ、つまり「トレ

ーニング」データセットが用いられます。

この際、アルゴリズムはデータセットに

与えられた全ての入力変数を分析し、ど

の変数が結果を予測するのに重要な意

味を持つかを判断します。

これに対して記述モデルは、既知の結果

を利用して変数を予測するのではなく、

未知の特定パターンを記述します。一般

的な手法は、データ・ビジュアライゼー

ションと呼ばれるものです。大量のデー

タを理解しやすい図やイメージに集約表

現します。そしてもう1つの一般的な記

述手法は、クラスタリングです。共通の

属性値を持つデータをグループ化します。

例えば記述手法を利用して、顧客セグメ

ントを構築することも、そのセグメントが

持つ属性値を理解することも可能です。

多くの場合、記述モデル、予測モデルの

両方を利用して、ビジネス課題の解決に

取り組みます。例えば、記述モデルを利

用して、収益性の高い顧客セグメントを

把握します。これに対して特定の顧客セ

グメントが競合他社に奪取されてしまう

可能性を理解するためには、予測モデル

を利用可能です。記述モデルの結果を

ベースに顧客の離反予測を行なうことに

より、収益性の高い顧客が離反してしま

う可能性を理解し、それを防ぐための必

要な施策を講ずることが可能となります。

データマイニングの流れデータマイニングの製品を購入し、デ

ータを適用すれば有効なモデルがで

きあがる訳ではありません。データマ

イニングにおいて構築されるモデルは、

データマイニングが持つプロセスの一

Page 6: データマイニング入門 - jpn.teradata.jpjpn.teradata.jp/solution/images/TDMK5022_0710_DataminingIntroductory.pdf · 3 データマイニング入門 データマイニングとは一体何か?

6

データマイニング入門

データウェアハウスは、データマイニング

にふさわしい基盤を提供してくれます。

データウェアハウスを導入しなくてもデー

タマイニングは可能ですが、複数のデー

タソースからデータを収集し、クレンジ

ングや変換を行なうことを考えた場合、

大変な労力を要することが想定されま

す。データウェアハウスがない場合、単

一のモデルに関してこのプロセスを完遂

することだけでなく、その次のデータマ

イニング・プロジェクトも同じプロセスを

はじめから繰り返す必要があります。デ

ータマイニング・プロセスの 70% はデー

タへのアクセス、調査、事前準備に費

やされます。データの重複やシステム管

理にまつわる多くの問題を回避してくれ

るデータウェアハウスは、データマイニン

グの作業を簡素化してくれます。このた

め、データマイニングの担当者は分析に

集中できるのです。

データマイニングの用語とテクニックここでは、データマイニングの用語、

そして予測や記述を行なうために一般

的に利用される手法を、幾つか簡単に

ご紹介します。

分析モデル

分析モデルは、幾つかの論理的なルー

ルの集合、もしくはデータから導き出さ

れたビジネスに活用できるパターンを数

式化したものです。データに基づいて構

築されたモデルは、他のデータに対して

適用することによって、そのデータが持

つパターンの発見に利用可能です。モデ

ルに基づいて見出されたパターンから、

続く行動を特定できるため、これを予測

モデルと呼ぶ場合もあります。

アソシエーション

一般に関連性分析とも呼ばれ、ある特

定の発生事象に対して、一緒に発生す

る事象を特定するために利用可能な手

法です。例えば関連性分析は、一緒に

購入される可能性の高い商品の組み合

わせを理解するために用いられます。ま

たこの手法では、順序を検討すること

も可能です。これは関連性分析を変形

させたものであり、顧客が商品をどのよ

うな順番で購入するかを示してくれます。

ここで得られた知識は、クロスセリング

を意図的に仕掛ける際、初期段階の理

解を得るために利用可能です。

クラスタリング

クラスタリングは、同様な特性を持つデ

ータをグループ化するために利用可能な

モデル構築手法です。クラスタリングの

目的は、ある特定の属性が近似である

という事実から単一のグループに含める

ことにあり、また逆にある特定の属性

が全く異なる場合には異なるグループに

配置することにあります。クラスタリング

は、顧客行動や属性に基づいてセグメン

トを作成するのによく利用されます。同

一セグメントに属する顧客は同様な特性

を有し、似たような行動をする傾向があ

ります。特定セグメントの一般的な行動

を理解することによって、そのセグメン

トが将来引き起こす顧客行動を予測す

ることが可能となります。

データ・ビジュアライゼーション

このプロセスは、大量のデータを分かり

やすいグラフやチャート等で表現するも

のです。膨大な数値をそのまま表示させ

るのではなく、意味合いが分かる「絵 」

に集約表現し、理解を容易にします。

環として構築されます。そしてデータマ

イニング・プロセスは一方通行のプロ

セスではありません。場合によっては

反復的な作業を繰り返したり、必要に

応じて前の作業へと立ち戻ったりしな

ければなりません。例えば最初に構築

したモデルの出来によっては、データ

の事前準備段階に立ち返り、新たな

変数を追加し、モデルを構築しなおす

必要があります。

データマイニングのプロセスは、大きく4

つのステップによって構成されています。

ビジネス課題の定義、データの調査と事

前準備、モデルの構築、そして知識の

展開の 4 つです。追って Teradataのデ

ータマイニング・メソドロジーをご紹介

する際に詳しく説明しますが、図 3 にデ

ータマイニング・プロセスの概要、そし

て各ステップにおける作業を記述してい

ます。いずれのステップも重要ですが、

時間が最もかかるのはデータの調査と事

前準備のステップです。データウェアハ

ウスを上手に構築すれば、このステップ

における労力を大幅に軽減できます。

データマイニングとデータウェアハウス構築の関係データマイニングの成否は、全てデー

タにかかっています。矛盾したデータ

や汚れたデータを用いてデータマイニン

グを行なってもパターンは形作られま

す。しかし利用しているデータがモデ

ル化しようとしているビジネスを正しく

反映していないのであれば、そのパタ

ーンは無意味です。データマイニングの

鍵は、クレンジングされ、品質の高い、

一貫したデータ基盤を用意することに

かかっているのです。

Page 7: データマイニング入門 - jpn.teradata.jpjpn.teradata.jp/solution/images/TDMK5022_0710_DataminingIntroductory.pdf · 3 データマイニング入門 データマイニングとは一体何か?

7

データマイニング入門

デシジョンツリー

(決定木、もしくは意思決定ツリー )

この手法では、幾つもの意思決定 ( 判

定基準 ) を順に枝分かれさせ、樹木の

枝葉のような形で目的変数の値を予測し

ます。このアルゴリズムでは幾つかの手

法を用い、ルールに基づく形でデータを

枝葉に振り分けます。デシジョンツリー

は人間が簡単に理解できるルールで表

現されるため、リスクの大小やローンの

承認 / 否認といったモデルを構築する

のに広く利用されています。それぞれの

ルールはシンプルなものですが、それら

が組み合わさり、数千の分岐となって単

一のモデルを構築する場合もあります。

このような膨大にわたるルール群を解釈

するためには、データマイニング・ツー

ルに視覚化の機能が必要となります。

線形回帰

数値データとなっている目的変数と、そ

の目的変数を予測するために用いられ

る変数群の間に存在する、直線的な相

関関係を導き出すために用いられる統

計手法です。線形回帰の適用例として、

口座残高、契約年数、および他の変数

を利用して、顧客に対して提示する貸越

限度額を導き出すことが挙げられます。

ロジスティック回帰

質的データ ( イエス /ノー形式のデー

タ等 ) となっている目的変数と、その

目的変数を予測するために用いられ

る変数群の間に存在する、非直線的

な相関関係を導き出すために用いら

れる統計手法です。ある取引が不正

なものである可能性等、イエス /ノー

形式での予測を行なうために、広く利

用されています。

ニューラルネットワーク

トレーニングを通じて学習する人間の頭

脳構造をベースにして開発された手法で

あり、非線形の予測モデルを構築しま

す。この手法は履歴データを利用して今

後の結果を予測するためによく利用され

る手法です。作成されたモデルから得

られた意思決定や予測の根拠を理解す

るために、多くの場合は専門知識を必

要とします。ニューラルネットワークが生

み出すモデルは一般に他の手法よりも正

確ですが、難解でもあるため、ブラック

ボックスと呼ばれることもあります。

スコア

スコアとは、モデルによって生み出され

た値を意味します。ある変数に関する予

測、もしくは推論をした結果であり、ス

コアはモデルの結果と考えることができ

ます。例えば顧客の収益価値を算出す

るモデルを考えた場合、各顧客の収益

価値それぞれが 「スコア」となります。

データマイニングが直面する課題データウェアハウスを導入した企業が、次

に進むべきステップとしてデータマイニング

を選択するのは自然な流れと言えます。し

かしながら一方、現実問題として多くの企

業がデータマイニング・プロジェクトから成

果を生み出すのに苦労しています。データ

マイニングを成功に導くためには、適切な

チーム作り、適切なメソドロジー、適切な

アーキテクチャー、適切な技術が必要です。

適切なチーム作り

データマイニング・チームを設立し、企業

内に向けてサービスを提供していくとき、

必要なスキルを準備することが大きな課

題となります。データマイニング・プロジェ

クトは、ビジネス部門の専門家が主導し、

分析モデルの作成担当者が展開し、IT

部門がサポートする形で進められる、共

同作業です。時間をかけて社内の人員に

スキルアップさせる場合には、データマイ

ニングのコンサルタントを雇い、データマ

イニングを実施していくうえで必要になる

能力や知識を移転させることも考えられま

す。データマイニングから充分な成果をあ

げるためには、以下に示すような専門家を

チームに参画させる必要があります。

・ビジネス部門の専門家

ビジネス部門で分析を行なっている方

をデータマイニング・プロジェクトに参

加させることが不可欠です。この方々

が主役となり、データマイニング・プロ

ジェクトを積極的に推進しなければな

りません。この方々は一般にそれぞれ

のビジネス部門において成果を導き出

す必要があり、そのために必要な答え

や知識を得る必要があります。従って

この方々が解決したいと考えているビジ

ネス課題が明確にならなければなりま

せん。ビジネス部門の専門家は、デー

タマイニング・プロジェクトの成果に対

して最終的な責任を負うべきです。

ビジネス部門の専門家に求められるスキ

ルセットには、以下のものが含まれます :

> 戦略的な質問の設定と、回答に関す

る知識を有すること

> 企業データに関する深い理解 (データ

にアクセスし、分析や予測を行なう)

を有すること

> 達成すべき結果や期待すべきことを

明確にでき、それに基づいて分析モ

デルの評価と検証を行なえること

> 特定のデータ分析ツール(Excel、OLAP

Page 8: データマイニング入門 - jpn.teradata.jpjpn.teradata.jp/solution/images/TDMK5022_0710_DataminingIntroductory.pdf · 3 データマイニング入門 データマイニングとは一体何か?

8

データマイニング入門

等 ) に関する専門知識を有すること

> 予測や戦略企画に関する統計手法の

バックグラウンドを有すること

・IT部門 ( 情報システム部門 )

IT 部門はデータマイニング・プロジェク

トを成功に導くために、非常に重要な

役割を果たします。IT 部門は一般に多

くのシステムに携わっていますが、多く

はデータウェアハウスのチームが責任を

持つことになります。ただしデータクレ

ンジングや、モデルの業務システムへ

の統合等、幾つかのステップにおいて

は IT 部門内における他のチームから

の支援も必要です。

IT 部門に求められるスキルセットには、

以下のものが含まれます :

> データ、そしてデータとビジネスの関

連性を含めた専門知識を有すること

> データの特定、アクセス、操作に関

するスキルを有すること

> データ構造と変換方法に関する詳細

な理解を有すること

> ツールや環境を評価し、導入し、維

持管理するための技術的専門知識を

有すること

> 分析モデルを各種システム ( データウ

ェアハウス、業務システムやアプリケ

ーション環境 ) へ展開するための専門

知識を有すること

・分析モデルの作成担当者/データマイ

ニング担当者

この方々はデータの準備、モデル設計、

モデル構築、そしてデータへの適用を

担当します。IT 部門と協力しながら、

モデルをシステムやビジネスプロセスに

組み入れる役割を担います。

分析モデルの作成担当者/データマイニ

ング担当者に求められるスキルセットに

は、以下のものが含まれます :

> 統計や人工知能に関する専門知識を

有すること

> 高度なアルゴリズムを現実世界に適用

できること

> ビジネス分野に対する理解を有する

こと ( ビジネス部門の専門家がこれを

支援する )

適切なメソドロジー

データマイニングはデータウェアハウジン

グ同様継続的なプロセスであり、ビジネ

スが置かれた環境の変化に合わせた形で

維持され、必要に応じて変更されなけれ

ばなりません。データマイニング・プロジ

ェクトを成功に導くための鍵は、実績に

基づいたメソドロジーを選択することで

す。ここで説明するTeradataのデータマ

イニング・メソドロジーは、顧客企業が数

百万ドルに及ぶ売上増加、コスト削減の

実現に寄与してきた、実証済みのメソドロ

ジーです。いずれのステップも重要なもの

ですが、本資料の目的に基づいて主にデ

ータウェアハウスに影響を与える作業に重

点を置くこととします ( 図 4 参照 )。

・プロジェクトマネジメント

あらゆるプロジェクトに共通して、成功の

ためには目標、要件、成果物、そしてリ

ソースが明確に定義される必要がありま

す。データマイニングのプロジェクトも例

外ではありません。プロジェクトを実施し

ている期間中は、ずっとプロジェクトマネ

ジメントの対象となります。プロジェクト・

マネジャーは技術的な観点、そしてビジネ

ス上の観点から充分な成果物が生み出さ

れるよう管理を行ないます。基本的なプロ

ジェクトマネジメントには以下の業務が含

まれます :

> プロジェクトの範囲、期待すべき成果

のすり合わせ

> チームメンバー間での意思伝達

> プロジェクト計画の策定

> ドキュメント作成、中間成果物の

コーディネイト

> アプリケーション開発や作業の

コーディネイト

> プロジェクト効果の査定

> プロジェクトを成功裏に導く

Page 9: データマイニング入門 - jpn.teradata.jpjpn.teradata.jp/solution/images/TDMK5022_0710_DataminingIntroductory.pdf · 3 データマイニング入門 データマイニングとは一体何か?

9

データマイニング入門

うなモデルもありますが、異常値に基づ

いてモデルを構築することもあります。例

えば、野球場の観客数と売上を予測す

る場合、野球選手がストライキを行った

1994 年の観客数データ等、異常な観客

数を除外する必要があるでしょう。別のケ

ース、例えば不正検知の場合、異常値を

含めるべきです。これは不正なトランザク

ションを表していることがあるためです。

データ選定ののち、ある程度の変換を必

要とする場合があります。データウェアハ

ウスに蓄積されている明細データが必ずし

もそのままデータマイニングに利用できる

とは限らないためです。ときにはより良い

モデルを構築するために、最適な集計を

行なうことも、新たな変数として派生させ

ることも必要となります。例えば負債と所

得の比率は、単純な所得額や負債額より

も優れた予測の判断材料となります。ま

た統計手法やアルゴリズムが数値データ、

もしくは一定範囲内に収まるデータである

ことを求める場合もあります。このような

変数をデータマイニングで利用するために

は、再コード化や変換を行い適切な入力

変数に加工する必要があります。

・モデルの構築とテスト、検証

続いてのステップは、分析モデルを構築

することです。これは分析手法をデータセ

ットに適用し、数式として解釈させるプロ

セスです。このプロセスを繰り返し実施す

ることによって、数式が充実していきます。

この繰り返しの過程を経ることによって、

得られる結果の信頼性が、統計的にも、

概念的にも向上していくことになります。

データマイニング・プロセスの初期段

階で暫定的に、ビジネス課題を解決す

ェアハウスを導入しているならコトは容易

ですが、それでも様 な々データを集める

必要があります。データソースを調査し、

念頭においているビジネス課題に対応し

ていくために、どのデータを利用するこ

とが可能かを判断していきます。続いて

データが有効であるか、そしてデータが

一貫しているかを確かめる必要がありま

す。例えば異なるデータソースからデータ

を集めてきた場合、データ間に存在する

矛盾を解決しなければなりません。これ

は大変な作業となります。このような問

題を回避するためには、データ間の矛盾

を事前に解決しておくべきであり、その

ためにはまず、データウェアハウスから取

り組むことを強くお勧めします。

異なるソースからデータの収集を終えた

ら、次のステップはデータを調べることで

す。これは探索的なデータ分析と称されま

す。データ・ビジュアライゼーションや、記

述統計の手法を利用することによってデー

タ品質上の問題を明らかにし、データが保

持している特性をより深く理解します。分

析モデルを構築する上で整合性に支障をき

たすデータ品質の問題、もしくはデータの

欠落が発見されることもあります。仮にデ

ータに関する問題を解消しなくとも、何ら

かの対応をしなければならない場合もあり

ます。例えば値が設定されていない場合、

欠落データを埋めるための最善の方法を

決定しなければなりません。欠落している

変数の値が何であるかを特定するために、

データマイニング手法を利用して他のデー

タから予測が可能か否か検討しなければ

ならない場合もあります。

次に、特定のモデルを構築するためのデ

ータを準備します。異常値を除外できるよ

・ビジネス課題の定義

データマイニング成功のためには、まず

ビジネス上の目標が明確に設定されな

ければなりません。これが明確に設定

されていなければ、プロジェクトはどこ

に進むべきかわかりません。例えば顧

客数を拡大することと、利益価値の高

い顧客を増やすことは、全く異なる目標

です。データの事前処理からモデルの

選定まで、全ての業務がビジネス目標

に従って推進されます。また、ビジネス

上の課題を通常業務で使用している用

語で記述することによって、当初必要に

なるデータやそのために必要な分析手法

を決定することが容易となります。

・アーキテクチャーとテクノロジーの

準備

データマイニングに取り組む前に、どん

な分析モデルを開発し、導入すべきかと

いう要件を理解する必要があります。こ

こで設定された要件によって、モデルの

構築方法、必要なソフトウェア、ハード

ウェア追加の必要性等が確定されます。

多くの場合において開発環境と本番環

境は異なります。しかしながら適切なリ

ソースを用意することによって、同じ環

境を利用できます。モデル構築には幾

つか方法があり、与えられた環境と要件

に基づいて、クライアント/ サーバー型

のツールを選択するか、In-Database 型

のツールを選択するか等の選択をしなけ

ればなりません。

・データの準備

このステップは最も時間がかかり、また

最も重要なステップです。最初に、プロ

ジェクトが必要とする全てのデータを収

集しなければなりません。もしデータウ

Page 10: データマイニング入門 - jpn.teradata.jpjpn.teradata.jp/solution/images/TDMK5022_0710_DataminingIntroductory.pdf · 3 データマイニング入門 データマイニングとは一体何か?

10

データマイニング入門

るための分析手法を特定しておきます

が、この段階でモデル構築に最適なア

ルゴリズム、もしくは統計手法の最終

選択を行ないます。具体的な分析手法

に落とし込むことによって、前のステッ

プで行なったデータ準備に不備が発見

され、この処理に戻らなければならな

い場合もあります。

アルゴリズムを選択した段階でモデル構

築が始まります。分析モデルを構築する

ためには少なくとも、次の3 つのステッ

プ - (a)トレーニングもしくはフィッティン

グ (b)テスト(c) 検証 - が必要となります。

これはすなわち、データセットを少なくと

も各ステップの3 つに分けなければなら

ないことを意味します。モデルはまず、ト

レーニングデータを利用して構築されま

す。続いてテストデータを適用してテスト

を行ないます。これによってモデルの精

度を評価することが可能となります。こ

こまでのプロセスでモデルの具体的な長

所、そして欠点を把握するために、デー

タマイニング・ツールには充分な診断機

能を備えていることが求められ、モデル、

パラメーター、そして行レベルに至るま

での診断を行える必要があります。この

診断に基づいてモデル精度の向上がなさ

れ、モデル検証のプロセスに進みます。

モデル検証プロセスにおいて、分析モデ

ル作成担当者は、モデル構築の元となっ

たデータセットを超えて利用できるように、

一般的なモデルを構築します。モデル構

築とは関係のない検証用のデータを利用

して、モデル精度がどの程度過度に依存

しているかを判断します。過度に特定の

データセットに依存したモデルはオーバー

フィッティングと呼ばれます。オーバーフィ

ッティングしたモデルはスコアリングの対

象データよりもトレーニングデータ、テスト

データに過剰に即した形でモデル構築さ

れています。オーバーフィッティングはモ

デルの利用価値、そして有効性に直接的

な悪影響を与えます。例えばルールや数

式が特定データセットの傾向を過剰に反

映しすぎた場合 ( 例 : 所得 =50,000ドル、

性別 = 女性、結婚状況 = 離婚、年齢

=28、名前 =“June”、髪の色= 赤、子

供の数=3、飼い猫の数=0、飼い犬の数

=2)、トレーニングデータやテストデータに

関しては100%の精度を期待できるかもし

れませんが、このモデルを別のデータセッ

トに適用すればどうしようもない精度に落

ち着くことは言うまでもありません。モデ

ルが持つルールや数式が特定のデータセ

ットに大きく依存している場合、そのモデ

ルを利用してスコアリングを行い、スコア

リング結果を信頼するという本来の目的に

活用することができなくなります。モデル

の有効性が最大限に高まるよう努力すれ

ば、その分だけ期待したビジネス成果に

近づくことになります。

モデルは統計手法を利用してテストされ

ます ; 異なる分析手法を用いて構築され

た複数のモデルを、プロジェクトが目的

としているビジネス上の基準に照らし合

わせ、比較検証を行ないます。モデル

構築後は、データの変化に合わせてモ

デルを検証していき、継続的に精度を

向上させるプロセスも確立する必要があ

ります。またモデルの有効性を継続的

にモニタリングする必要もあります。

・知識の発見と配備

モデルから導き出された知識こそが、デ

ータウェアハウスに対してなされた投資

を収益へと変えるものです。モデル展

開の方法は幾つか考えられます。IT 部

門がモデルを実行し、得られた結果を

ビジネス部門の利用者に対して送ること

によって、意思決定に役立たせることも

可能です。モデル、もしくはモデルから

導きだされた知識をCRMや分析アプリ

ケーションに組み込み、ビジネス部門の

利用者が結果を利用することも考えられ

ます。データマイニングの実施方法に関

わらず、得られた知識はスコア、予測、

記述、そしてプロファイルという形でビ

ジネス展開されます。

・知識の移転

Teradata のデータマイニング・メソドロ

ジーが持つ独自の要素、この1つが知

識の移転に関するステップです。知識

の移転は、データマイニング・チームの

各メンバーがプロジェクトの最初に話し

合い、それぞれのメンバーが持つ知識

移転目標を決定することから始まりま

す。ここで設定された目標に基づいて、

プロジェクト期間を通じて指導や教育

が行なわれます。これによってデータマ

イニング・チームの各メンバーは、結果

の解釈、モデル作成環境の維持、モデ

ルのモニタリング等、モデル構築に関

するプロセスと知識を蓄え、活用するこ

とが可能となります。

適切なアーキテクチャー

今日、一般的に利用されているデータ

マイニングのアーキテクチャーが幾つ

か存在します。それは分散独立型デ

ータマート、従属型データマートを備

えたデータウェアハウス、集中型デー

タウェアハウス / データマイニングの

アーキテクチャーです ( 図 5 参照 )。

Page 11: データマイニング入門 - jpn.teradata.jpjpn.teradata.jp/solution/images/TDMK5022_0710_DataminingIntroductory.pdf · 3 データマイニング入門 データマイニングとは一体何か?

11

データマイニング入門

それぞれのアーキテクチャーについ

て、以降で説明を加えます。

・分散独立型データマート

この方式において、それぞれの分散した

データソースでは、それぞれの分析サー

バー向けにデータを抽出する必要があり

ます。各ソースから収集されたデータは、

共通の、一貫したフォーマットに変換し

た上でデータマートに統合されなければ

なりません。データマイニングは繰り返し

行なわれるプロセスです。データマイニン

グを行なう上でデータウェアハウスは必須

ではありませんが、データウェアハウスが

ない場合、データマイニング・プロジェク

トはデータの移動やデータの管理に数ヶ

月分余計な手間を要することになります。

データマイニング・ツールのベンダー、そ

してデータベースのベンダーは、もしデー

タマイニングをビジネスインテリジェンス

に統合することを計画しているなら、デ

ータウェアハウスからはじめることを推奨

しています。分析担当者が分散データマ

ートを選択する1つの理由には、データ

の自律性が挙げられます。データを1度

ソースから抽出してしまえば、分析を行

なうための環境を完全にコントロールで

きるからです。別の方法、つまり次に述

べる従属型データマートを備えたデータ

ウェアハウスでも、データに関する自律性

を維持できます。

・従属型データマートを備えたデータウ

ェアハウス

データウェアハウスを利用することによっ

て、データ管理上の問題がシンプルに

なります。既にデータが収集されており、

データウェアハウスが持つ基準に基づい

てクレンジングされ、変換されているた

めです。単一のソースからデータを抽出

することになりますが、それでもデータ

ウェアハウスから分析サーバーにデータ

を移動させなければならないことには変

わりなく、サンプリングによって人的エラ

ーが発生する危険性は増大し、分析サ

ーバーそのものを管理する問題も発生し

ます。データ全体の傾向を反映していな

いサンプルを利用してモデルを構築すれ

ば、不完全なモデルが生まれます。この

ような不完全なモデルの原因は全てデー

タに基づいているのです。このような方

法よりも、より効率的な方法があります。

・集中型データウェアハウス /データマ

イニング

データマイニング・プロジェクトを全社

的に展開していくのに伴い、モデル利

用者の数は増え続け、大規模なデー

タ基盤にアクセスする必要性も増大し

ていくことになります。データウェアハ

ウスを提供しているベンダーはこのよう

な状況を認識し、データベース機能の

拡張としてデータマイニング機能を組み

込み、集中型のデータマイニング・ア

ーキテクチャーを提供しています。In-

Databaseで実行されるデータマイニン

グは、データベース内外におけるデー

タ移動を最小限に抑え、データベース

の並列処理機能を最大限に活用しま

す。超並列型のデータベース・エンジン

であれば、分析モデルの構築、テスト、

実装展開の全てに利用可能です。

データウェアハウスはデータ、データマイ

ニング・モデル、データマイニング結果

の集中的な倉庫となり、データマイニン

グ・プロジェクトにおける理想的な基盤

を提供します。データは社内各所で実

施されている様々なプロジェクトで利用

Page 12: データマイニング入門 - jpn.teradata.jpjpn.teradata.jp/solution/images/TDMK5022_0710_DataminingIntroductory.pdf · 3 データマイニング入門 データマイニングとは一体何か?

12

データマイニング入門

可能です。そしてモデルはデータウェア

ハウス内に存在する顧客テーブル全体に

対して適用することが可能です。データ

マイニングから得られたモデル、そして

その結果を顧客の明細行データと組み

合わせることによって、顧客収益価値、

購入パターン、嗜好性等についての知見

を得ることが可能となります。

従属型データマートを備えたデータウ

ェアハウスは、今日最も一般的なアー

キテクチャーです。理由はデータベー

ス、そしてデータマイニング・ツールに

限界があるためです。多くのデータマ

イニング・ツール・ベンダーは、データ

を効率的に処理するために、それぞれ

独自のフォーマットに変換するようなア

ーキテクチャーを採用しています。こ

の技術的な限界については以降で解

説します。

適切な技術

適切な技術は適切な基盤、つまりデータ

ウェアハウスから始まります。モデル構

築に役立つ属性を予測することは難しく、

効果的にデータマイニングを進めるため

には、集約されたデータマートではなく、

包括的で強力なデータウェアハウスが必

要になります。加えて、データウェアハウ

スとして適切な基盤を選択しなければな

りません。OLTP、つまり高速トランザク

ションの業務処理用に設計されたデータ

ベースでデータウェアハウスを導入しよう

としている企業もあります。OLTP で実

行される作業は一般的に行の追加、削

除、修正といった行レベルの作業となり、

膨大な履歴データの分析とは全く異なり

ます。従って、非常に異なるデータベー

ス機能を必要とするのです。

・拡張性とパフォーマンス

データウェアハウスへの投資から高い効

果を獲得するために、データウェアハウ

スの利用者は大量のデータに対して、複

雑な問い合わせを行ないます。データ量

が増加し、ビジネス課題がより複雑にな

っていくにつれ、分析に関わる時間は必

然的に増加し、データマイニング・プロ

セスを加速化させる必要があります。数

テラバイト規模のデータウェアハウスに

対して分析を行なう利用者は、デスクト

ップやクライアント/ サーバーベースの

データマイニング・ツールが持つ拡張性

の限界と、ますます増加する要件の狭

間で苦労しています。これを解決するた

めには、データマイニング・ツールをデ

スクトップもしくはクライアント/ サーバ

ー構成の汎用ツールから、超並列処理

(MPP: Massively Parallel Processing)

の展開が可能な全社規模のアプリケー

ションへと移行する必要があります。残

念ながら、多くのデータマイニング・ツー

ル・ベンダーは効率的にデータ処理を行

なえる並列技術に対応していません。し

かし、これに対応できる、In-Database

方式のデータマイニングを提供するデー

タベース・ベンダーも存在します。データ

ベースの中で直接的にデータマイニング

を行なえば、データマイニング・プロセ

スが簡素化されます。データの移動を回

避しながら、膨大な明細データを分析

するために必要なパフォーマンス、そし

て拡張性を利用できることになります。

・データI/O

膨大なデータを処理し、モデルを全社的

に展開していくと、多くのツールが頻繁

な I/Oを発生させることになり、ネット

ワーク帯域幅への影響を与えることにな

ります。ギガバイトレベル、もしくはテラ

バイトレベルのデータをデータベースから

分析サーバーに移動させるようになれば、

そこでのI/O が企業ネットワーク全体に

負担をかけます。In-Databaseデータマイ

ニングは、分析機能がある場所へデータ

を移動させるのではなく、分析機能をデ

ータがある場所に適用させるため、I/O

に関する問題を考える必要がありません。

・ツール

適切な技術には、統計や機械学習と

いった分析手法、データ・ビジュアラ

イゼーションや事前準備等が含まれま

す。多くのツールは分析アルゴリズムや

グラフィカル・インターフェースの高度

なパッケージを提供していますが、デ

ータ・ビジュアライゼーションやデータ

の事前準備に関する強力な機能を提

供していません。データマイニング・プ

ロセスの大半はデータの調査や条件設

定に費やされるため、調査に関連する

機能、データ・ビジュアライゼーション、

変換、データ管理を行なえることが必

要不可欠となります。またツールには

大量データを処理し、モデルを他のア

プリケーションに組み込めるインターフ

ェースが必要となります。

Teradataを利用したデータマイニングデータウェアハウス・ソリューション

を提供しているTeradata は、今日

の企業が抱えているデータマイニン

グ上の課題を充分に理解しています。

Teradata が 提 供 する In-Database

のデータマイニング方式は、他のデー

タマイニング・ソリューションを提供し

ている企業とは際立った違いを生み出

Page 13: データマイニング入門 - jpn.teradata.jpjpn.teradata.jp/solution/images/TDMK5022_0710_DataminingIntroductory.pdf · 3 データマイニング入門 データマイニングとは一体何か?

13

データマイニング入門

しています。Teradata は集中化され

たアーキテクチャーとなっており、利

用者がデータの調査から処理、モデ

ル構築、スコアリング、そして展開を

全てデータベース内部で、SQLで行

なうことを可能としています。そして

その際、Teradata データベースが持

つ無限にも近い拡張性と、並外れた

パフォーマンスを活用することができ

ます。データベース内部でデータマイ

ニングを完遂させることによって、デ

ータの移動、分散環境下でデータや

システムを管理する煩わしさを回避で

き、プロセス全体の簡素化をもたらし

ます。また In-Database のデータマ

イニング方式はデータの重複を減らし

ます。これはデータの信頼性が向上

することを意味します。

Teradata Warehouse MinerTeradata Warehouse Miner は

Windows®クライアント上で稼動し、

Teradata に対して SQL 文をダイナミ

ックに発行します。この SQL は、利

用者がグラフィカル・インターフェー

スを介して設定したオプション、テー

ブルやカラムに基づいて自動的に作

成されます。Teradata Warehouse

Miner はアルゴリズムをステップ毎

に分割し、データアクセスを要する

ステップに関しては SQL を実行し、

他の演算処理を伴う処理に関しては

Teradata Warehouse Miner の ク

ライアント側で行なうようにさせるオ

プションも有しています。Teradata

Warehouse Miner は、Teradata デ

ータベースが有している並列処理を最

大限に活用して処理を完遂させること

が可能です。

従来、データマイニングの技術を考える

場合、データウェアハウスから、データ

マイニング・ツール独自の形式、もしく

はフラットファイルの形式にデータを移

動させる必要がありました。この方法を

続けていけば、様々な分析サーバーや

データマートにデータのコピーが氾濫す

ることになります。テラバイト規模のデ

ータベースサンプルを20 個作成し、異

なる場所に抽出を行い、異なるフォーマ

ットに変換し、最後にデータマイニング・

ツールの管理下に置くまでの手間と時

間を想像してみてください。多くの方は、

このような方法に必要となる時間や非効

率性を我慢できないはずです。

Teradata Warehouse Miner が 指

示する操作は、Teradata データベー

ス内のデータ全てに対して実行するこ

とが可能です。分析結果は全社型デ

ータウェアハウスに保存され、全ての

利用者が必要に応じてアクセス可能

です ( 図 6 参照 )。

アドバンスド・アナリティクスCOETeradata が提供するデータマイニング

のサービスは、顧客企業の売上成長、

コスト低減、顧客サービスの向上、競

合優位の強化に対して、データマイニ

ングという観点から支援します。米国

サンディエゴをベースとしたアドバンス

ド・アナリティクス COE(Center Of

Expertise: 専門家チーム ) は全世界に

サービスを提供しており、データマイニ

ングが複雑なビジネス課題の解決にど

Page 14: データマイニング入門 - jpn.teradata.jpjpn.teradata.jp/solution/images/TDMK5022_0710_DataminingIntroductory.pdf · 3 データマイニング入門 データマイニングとは一体何か?

14

データマイニング入門

のように役立つかを顧客企業が把握す

るための環境を提供できます。

Teradata のアドバンスド・アナリティク

スCOE 担当者は、統計や人工知能に

関して多くの経験を有している、モデル

構築のエキスパートです。技術的で専門

的な知識と、ビジネス上の知識を兼ね

備えており、顧客企業が高度な技術を

活用して分析を行い、ビジネス課題を解

決できるよう支援します。

アドバンスド・アナリティクスCOE が提

供するサービスは、コンサルティングサ

ービス、トレーニングサービス、そして

モデル構築そのものを含みます。顧客

企業が予測モデルをビジネスプロセスに

組み込むための包括的なサービスを提

供しています。

データマイニング・サービスの提供また、Teradataを既にお使いの企業が、

自社の環境でデータマイニングの可能性を

評価するためのサービスも提供しています。

このサービスはPOC(Proof Of Concept:

実証実験 )と呼ばれ、少ないリスクで大

きな価値を生み出すことができる確実なサ

ービスです。複雑なビジネス上の問い合わ

せに対して、データマイニングで何ができ

るかを理解することが可能となります。

データマイニングの POC プロジェクト

は、顧客企業の要件によって実施期

間が異なります。通常、適切なビジネ

ス課題を選定して解決すべき点を明

確にし、必要なデータを探し出すため

に 2 週間を要します。そしてデータの

準備とモデルの構築に 4 - 8 週間の時

間をかけます。作業期間は様々な変

動要因によって異なります。特にデー

タの品質、データの利用可能性、そ

して解決すべき課題の明確度合いの

3 つが大きな変動要因です。

データマイニングをはじめよう多くの企業はデータマイニングに関心

を抱いていますが、それをビジネス

インテリジェンスへと上手に統合する

ためのステップを理解していません。

Teradata は顧客企業が、自身のデー

タを用い、データマイニングの方法を

確実に学ぶことが出来る教育サービス

を提供しています。以下にご紹介する

パッケージは、その構成例です :

> 探索 / 調査パッケージ : このパッケー

ジは、データマイニングをどのように

自社のビジネスに役立てることが出

来るかを理解したい企業向けに設計

されています。例えば既にレポーテ

ィングツールや OLAP ツールを利用

しており、データウェアハウスに存在

するデータをさらに深く分析したい

場合に最適です。

> 拡張パッケージ : このパッケージは、

データマイニングをビジネスプロセス

に組み込むための体制作りに着手済

みの企業向けです。現状のデータウェ

アハウス利用をさらに高度化させるた

めに組織的な取り組みを指向している

場合に最適です。

> 専門パッケージ: このパッケージは、

既にクライアント/ サーバーベースの

データマイニング・ツールを利用した

経験のある、分析モデル作成担当

者がいらっしゃる場合に利用可能で

す。In-Database の統合された環境

下でデータマイニングを行なう点に

主眼を置き、既存のデータマイニン

グ手法と、In-Database の手法両方

の長所を活かせるよう取り組みます。

より大きな投資対効果を経済活動のグローバルな統合に伴い、企

業はデータウェアハウスからより大きな効

果を生み出すための、新たな方法を追求

するようになってきています。データウェ

アハウスを導入した後、次に重要となる

ステップは、投下資本収益率を改善でき、

知見や予測を生み出すことが可能なテク

ノロジーを採用することです。

データマイニングは、予測、スコア、記述、

及びプロファイルの形で知識を導きだ

します。データマイニングが優れている

点は、そこで得られた知識を CRM や

分析アプリケーションに展開できる点

です。これらのアプリケーションがより

賢くなり、より大きな力を発揮できるよ

う支援してくれるテクノロジーなのです。

業務プロセスから発生した全ての事実

は大量のデータとなりデータウェアハウ

スに蓄積されます。そしてこの大量の

履歴データを分析することによって、未

来、つまり今後起こる事象の予測に適

用できるのです。

データマイニングは、最も急速に進展し

ているビジネスインテリジェンス分野の1

つです。そしてこのテクノロジーは、定量

的な価値を生成します。例えば Teradata

データマイニングを導入した企業では、

以下のような実績を導いています :

> あるヨーロッパの金融事業者では、

顧客のATM 利用動向について深い

Page 15: データマイニング入門 - jpn.teradata.jpjpn.teradata.jp/solution/images/TDMK5022_0710_DataminingIntroductory.pdf · 3 データマイニング入門 データマイニングとは一体何か?

データマイニング入門

ある消費財メーカーでは、提携している小売業者と共に、顧客ロイヤル

ティ・プログラムを展開しています。この取り組みでは、各小売業者か

らデータが収集され、得られたデータを元に、マーケットバスケット分

析や、プロモーション評価、自社商品の販売状況や他社商品との販売

状況比較等 5 つの分析プログラムを行い、得られた分析結果を小売業

者にフィードバックしています。それまで分析は IBM AIX のサーバー

と、データマイニング用の分析サーバーを用いて行なわれていました。

分析プロセスでは、データの抽出、コード化処理、データのコピー時間

を除いても 312 時間かかっており、このプロセスを完了させるために多

大な手間とコストがかかっていました。Teradata は SQL ベースで同様

のプログラムを作成し、Teradata データベース内部でこの処理を実施

しました。結果、このプロセスはわずか 12 時間で完了し、顧客ロイヤ

ルティ・プログラムの実施コストを大きく引き下げることになりました。

ベンチマークテストによって実証されたパフォーマンス

理解を得て、8,200 万ドルの節減に成

功しました。これは ATM 端末の配

備場所、利用手数料の調整等によっ

てもたらされ、また顧客ロイヤルティ

の向上にも役立ちました。

> ある南米の通信事業者では、規制緩

和の逆風にも関わらず、収益性の高

い優良顧客に関して 98% の維持率を

実現しました。収益性の高い顧客を

識別し、当該顧客のプロファイルや、

顧客満足度に影響を与える要素を理

解し、それらを施策に取り込みました。

> ある米国の通信事業者では、ターゲッ

トマーケティングにデータマイニングを

活用し、適切に顧客を絞り込むことに

よって、キャンペーンのレスポンス率を

10 倍に高めました。

まとめ全社規模で利用可能な分析環境を構

築し、利用していくためには、そのた

めの強力な基盤が必要となります。収

集されるデータはときに、数千の変

数、1 日あたり数百万のトランザクシ

ョン、数百万の顧客となり、この量の

膨大さが、意思決定を進める上で障

害となってしまいます。競合優位性を

維持するために、データをタイムリー

に、正確に、そして高度に分析する必

然性は増してきました。レポーティング

や OLAP の手法は、大量のデータウ

ェアハウスに対して検索を実行する機

能を提供しますが、競合他社に先んず

るために必要な知識は提供してくれま

せん。Teradata データベースをデータ

マイニングに利用することによって、全

社型データウェアハウスから知識を導

き出すための基盤を提供します。

本資料は、Teradata Corporation にて

データマイニングに関するマーケティン

グ業務を担当するマネジャー、Arlene

Zaima が、アドバンスド・アナリティク

ス COE チームでチーフ・テクノロジー・

オフィサーを務めるJames Kashner の

協力を得て作成しました。さらに詳細

な情報については、当社 Web サイト

www.teradata-j.com へアクセス下さい。