オラクルのマシン学習と高度な分析のためのデータ...

オラクルのマシン学習と高度な分析のためのデータ管理プラットフォームデータではなくアルゴリズムを移動する

1 | Oracle Advanced Analyticsによるビッグ・データベース分析

免責事項

下記事項は、弊社の一般的な製品の方向性に関する概要を説明するものです。また、情報提供を唯一の目的とするものであり、いかなる契約にも組み込むことはできません。マテリアルやコード、機能の提供をコミットメント（確約）するものではなく、購買を決定する際の判断材料になさらないで下さい。オラクルの製品に関して記載されている機能の開発、リリース、および時期については、弊社の裁量により決定されます。

Oracle Advanced Analyticsによるビッグ・データベース分析

目次

免責事項 ........................................................................................................................................................... 1

概要：データ管理プラットフォームに組込まれたマシン学習アルゴリズム .................................. 1

ビッグ・データと分析 - 新たな機会と課題 ............................................................................................. 4

予測分析 ........................................................................................................................................................... 5

データではなくアルゴリズムを移動する ................................................................................................. 6

SQL と R のサポート ...................................................................................................................................... 7

Oracle Advanced Analytics によるインデータベース処理 .................................................................. 8

自動データ準備、データの種類、スター・スキーマ、および"ネストした表" ................................. 10

Oracle Data Miner ワークフローGUI、SQL Developer の拡張機能 ................................................. 11

Oracle R Enterprise - オープン・ソースの R と Oracle Database の統合 ....................................... 12

Hadoop、Oracle Big Data Appliance、および Big Data SQL ........................................................... 14

全社的予測分析アプリケーションを開発するためのプラットフォーム ........................................ 15

結論 ................................................................................................................................................................. 18


「基本的に、すべてのモデルは間違っている、...しかし中には有用なものもある」。

ジョージ・ボックス

20 世紀の有名な統計学者

概要：データ管理プラットフォームに組込まれたマシン学習アルゴリズム

企業は、この"ビッグ・データ"と"クラウド"の時代にあって変化を余儀なくされています。時代についてゆくためだけに、新しいスキルについて学習し、その新しいデータソースとテクノロジーを利用した新しい手法を導入する必要があります。顧客とのやり取りを改善し、知覚価値を高めることと引き換えに、企業とのデジタル出力の共有に対する顧客の期待が増大しており、そのような期待が企業を後押しする力となっています。これらの新しい要件を満たすための鍵が、ビッグ・データや分析に関連したテクノロジーです。企業は、クラウド、競合、ビッグ・データ分析、および次世代の"予測"などのアプリケーションにより、”実用的なインサイト"の質を改善してより有用な結果を得るという、新たな目標の達成に向けて突き動かされています。従来のビジネス・インテリジェンスや分析の手法によっては、これらの詳細な予測的インサイトを得ることができず、ビッグ・データやクラウドによって創出されたこの新しい世界秩序の中で新しい顧客の期待に応えることはできません。

ビッグ・データの場合には、データが 3 つの V（velocity（速度）、volume（量）、variety（多様性）（データ型））に応じて増大および膨張するため、さらに問題が生じます。たとえば、データ量が増えると、データを管理および移動することが困難になります。スケーラビリティ、セキュリティ、および情報の遅延も新たな問題となります。非構造化データ、センサー・データ、および空間データを扱うことになれば、新しいデータ型により、処理はより一層複雑になります。

従来の高度な分析手法には、情報テクノロジーに特有の弱点がいくつかあります。たとえば、データが抽出、移動、複製されると、関係するデータ分析者/サイエンティストのスキル、複数の分析ツール（商用およびオープン・ソース）、および言語（SAS、R、SQL、Python、SPSS など）に応じて、唯一の真の情報源が失われ、データのセキュリティが脅かされ、分離され、量が何倍にもなります。問題は、デプロイメント・フェーズの期間、特にデータ分析と情報管理の世界が競合する場合に顕著になります。

従来のデータ分析は、別々の分析サーバーとツール（SAS、R、Python、SPSS など）にエクスポートされる代表的なサンプル・データまたはデータ・サブセットから開始されます。それらのサーバーやツールは、統計担当者やデータ・サイエンティストによるデータ分析のために特別に設計されています。実施する分析の範囲は、単純な記述統計分析から、高度な予測的や処方的分析にまで及びます。有用で価値があることが確かな予測モデルをデータ・サイエンティストが構築したら、IT の観点からデプロイメントと企業


デプロイメントについて見極める必要があります。次の大きな課題は、アプリケーション統合です。予測モデル、およびそれに関連付けられたデータの準備および変換ステップのすべては何らかの方法で SQL に変換し、データベース内部で再作成されるようにする必要があります。これは、モデルを適用し、データウェアハウス内部に保持されているサイズの大きなデータセットに基づいて予測を行うためです。このモデル変換フェーズでは、手間と時間とコストのかかる手動でのコーディング手順を行って、元の統計言語（SAS、R、および Python）を SQL に変換します。DBA と IT は、企業全体に配布するため、データベースまたはデータウェアハウスの内部でこれら別々の統計モデルを何らかの方法で"実用化可能にする"必要があります。ベンダーによっては、予測モデルのデプロイメントのためだけに、特殊な製品とオプションに課金することもあります。この段階で、多くの高度な分析プロジェクトが失敗します。Hadoop の追加、センサー・データ、ツイート、および膨張するビッグ・データ・リザーバ、および"データから実用的なインサイト"を得るプロセス全体の難易度がさらに高くなります。

オラクルの場合はそうではありません。オラクルは、抽出、移動、ロード、分析、エクスポート、負荷移動という従来式のパラダイムを排除したビッグ・データ分析プラットフォームを提供します。Oracle Database 12c および Oracle Advanced Analytics オプションでは、ビッグ・データ管理とビッグ・データ分析の機能が最初からデータ管理プラットフォームに組込まれています。業界を牽引するデータ管理プラットフォームの開発における長年に渡る研究開発投資、Oracle SQL、Big Data SQL、Oracle Exadata、Oracle Big Data Appliance、およびオープン・ソース R との統合が、シームレスに組み合わされてOracle Database という単一プラットフォームとして統合されています。

オラクルのビジョンは、ビッグ・データとクラウドの時代のビッグ・データ分析プラットフォームを構築し、以下を実現することです。

• ビッグ・データと分析をシンプルにする（任意の組み合わせにおける、すべてのデータ・サイズ、すべてのコンピュータ・インフラストラクチャおよびデータのあらゆる多様性について）および

• ビッグ・データと分析のデプロイメントをシンプルにする（サービスとして、プラットフォームとして、アプリケーションとして）

Oracle Advanced Analyticsでは、データ移動が排除され、ビッグ・データ管理とビッグ・データ分析を組み合わせています。


Oracle Advanced Analytics には、広範で強力なインデータベース・アルゴリズムのライブラリが用意されており、オープン・ソース R と統合されています。これらを一緒に使用することによってさまざまな業務上の問題を解決することができ、SQL、R、またはGUI を介してアクセスできます。Oracle Database Enterprise Edition 12c のオプションである Oracle Advanced Analytics は、顧客離れの予測、顧客セグメンテーション、不正および異常検出などのデータから読み取れる問題を扱えるようにデータベースを拡張した全社的な分析プラットフォームで、クロスセルとアップセルの機会の特定、マーケット・バスケット分析、およびテキスト・マイニングとセンチメント分析を実行します。Oracle Advanced Analytics により、データ分析者、データ・サイエンティスト、およびビジネス・アナリストは、より正確な知識を獲得し、新たなインサイトを見い出し、情報に基づいた予測を行い、Oracle Database の大量データを直接処理することができます。

データ分析者/サイエンティストは、Oracle Advanced Analytics とのやり取りの方法を柔軟に選択できます。Oracle Data Miner は、データ分析用に設計された Oracle SQL Developer の拡張機能で、Oracle Advanced Analytics SQL のデータ・マイニング関数（Oracle Data Mining）との使いやすい"ドラッグ・アンド・ドロップ"ワークフローGUIとして機能します。Oracle SQL Developer は、従来のデプロイとクラウド・デプロイメントの両方において、Oracle Database の開発と管理を簡素化した無償の統合開発環境です。Oracle Data Miner ユーザーは、使用している分析手法に満足している場合には、他の分析者とワークフローを共有したり、DBA に手渡す SQL スクリプトを生成してモデルのデプロイメントを加速したりすることができます。Oracle Data Miner には、ワークフローのスケジューリングと自動化のための PL/SQL API が用意されています。

R プログラマーとデータ・サイエンティストは、使い慣れたオープン・ソースの R 統計プログラミング言語コンソール、RStudio、または任意の IDE を使用して、データベース内部のデータを直接処理し、データベース（Oracle R Enterprise）との Oracle Advanced Analytics の R 統合を利用できます。Oracle Advanced Analytics の Oracle R Enterprise では、SQL から同等の R への変換を透過的に実行し、インデータベース・パフォーマンス、並列処理性能、およびスケーラビリティを向上させる Oracle Data Mining の機能を提供することにより、企業で R を利用できるようにします。

アプリケーション開発者は、Oracle Data Mining の SQL データ・マイニング関数とOracle R Enterprise の R 統合を使用し、データベースの特長と R の柔軟性を利用してOracle Advanced Analytics 分析ソリューションを BI ダッシュボードとエンタープライズ・アプリケーションに組み込んだ完全に自動化された予測分析ソリューションを構築できます。

オラクルでは、ビッグ・データ管理とビッグ・データ分析を同じ強力な Oracle Database 12.2c データ管理プラットフォームに統合することにより、データ移動を排除し、総所有コストを削減し、全社的な予測分析ソリューションとアプリケーションをもっとも迅速に提供します。


ビッグ・データと分析 - 新たな機会と課題

Gartner によれば、ビッグ・データとは、”意志決定の強化、ビジネスに対するインサイト、または処理の最適化のために、新しく革新的な処理形態が要求される、大量、高速、または多様性の豊富な情報資産"です。ただし、多くの人にとってこれは新しい考えではありません。企業は、これまで長年に渡り、大量のデータのデータ・マイニングを行ってきました。より困難で新しい課題は、"ビッグ・データ"の量、速度、およびソースの多様性が増大するペースが速まっており、それに加えて、新しい"実用的なインサイト"による成果に対して顧客の側に新しい期待があることです。このため、情報テクノロジー（IT）部門、データ・サイエンティストとデータ分析者、およびマーケティング、カスタマー・サービス、サポート、研究開発、オペレーションなどをサポートする部門および基幹業務に、新たな要求が突きつけられています。

ビッグ・データは、データが時間の経過とともに 3 つの V（velocity（速度）、volume（量）、variety（多様性））に応じて増大および膨張するため、さらに問題が生じます。データ量が増大し、最終的にほとんど移動不能になります。いずれは、データ分析のために大量のデータを異なるサーバーに移動することは実現困難になります。ビッグ・データが爆発的に増大する間に、データ移動、データ複製、セキュリティ、"データ分析スプロールマート"の作成、データ分析からのデータ管理の分離などの多くの問題が生じ、さらに悪いことに情報の遅延が引き延ばされ、しばしば何日間、何週間にも及びます。

従来のデータ分析方法は、これらの問題の一因となっています。データ分析者とデータ・サイエンティストは通常、それぞれ自分で使用法を学んだ独自の特殊な"ツール"（SAS、R、SPSS、Pythonなど）を使用しているため、データベース/データウェアハウスからデータを抽出し、異なる専用分析サーバーに変換およびロードする必要があります。データ・サイエンティストが"優れた"予測モデルを構築すると、新たな問題が発生します。もっとも必要とされるタイミングと状況に対するそのモデルのデプロイメント、および BI ダッシュボード、コール・センター、Web サイト、ATM、およびモバイル・デバイスなどのアプリケーションへの統合が、IT にとっての次の大きな課題となります。予測モデル、およびそれに関連付けられたデータの準備と変換ステップのすべては、移動先のプラットフォームで再作成され、サイズの大きなデータ表に基づいて予測が行われるようにする必要があります。Oracle 環境の場合は、エクスポート、データ分析、およびインポート結果によるこの外側のループによって、データ分析が不必要に複雑になり、時間とコストのかかるモデル・デプロイメント・フェーズが必要になります。IT は、モデルを"実用化可能"にし、データベース内部で SQL を使用してそれらのモデルを再実装することを求められます。

課題は、モデルは元々統計プログラミング言語（SAS、R、SPSS、Python）を使用して作成されたものの、それらのモデルを実用化可能にするには、データベース内部で SQL 関数として実行する必要があるということです。この部分が大きな時間の無駄となり、エラーが入り込む可能性があります。リーダーとなることを目指す組織が成功するための鍵は、効率的なデータ収集、データ管理、分析、予測モデルのデプロイメント、インサイト、および実用的なビジネス・インテリジェンスです。従来のデータ分析方法では、とにかく十分ではありません。Hadoop の追加、センサー・データ、ツイート、膨張し続ける新しいデータ・リザーバ、および問題全体が悪化するだけです。


予測分析

予測分析は、大量のデータを自動的に選別して以前は隠されていたパターンを見つけ、価値ある新しいインサイトを発見し、次のようなデータから読み取れる問題について情報に基づいた予測を行うプロセスです。

• 顧客の行動を予測し、クロスセルとアップセルの機会を識別する

• 顧客離れ、従業員の減少、学生の在籍継続率を予測する

• 異常を検出し、税、医療、または経費の潜在的不正を検出する

• 非表示の顧客セグメントを把握し、顧客センチメントを理解する

• 成果を生み出す主な要因を識別し、品質を改善する

テクノロジーとしての予測分析により、これまで何年もの間、かなりの価値が生み出されてきました。予測分析は、Gartner の新興テクノロジーのハイプ・サイクルを駆け上り、2013 年に羨望のGartner の"生産性の台地"に到達しました。2015 年の今日、予測分析は企業やアプリケーションに実装および導入されており、その範囲は、顧客離れや従業員の離職の予測から、医療上の不正と税の非コンプライアンスに対するフラグ設定や目標販売エンジンとリアルタイムのレコメンデーション・エンジンに及びます。ビッグ・データの分析テクノロジーが進歩し、ユーザーによる導入が進むにつれ、成熟し拡張された予測分析のユースケース、および"可能なことを実行する技術"を後押しする統合"予測"アプリケーションが毎日のように登場し、ユーザーが期待するレベルは絶えず上昇しています。

Oracle Advanced Analytics は、リレーショナル・データベース環境（RDBMS）に導入されている強力で有用なデータ・マイニング・アルゴリズムを幅広く提供することによって、これらのデータから読み取れる問題に対処します。アルゴリズムは、データベースの内部に SQL 関数として実装されています。したがって Oracle Advanced Analytics のデータ・マイニング・アルゴリズムでは、関連するすべての SQL 機能を利用し、標準の構造化表とビュー、トランザクション・データと集約、（Oracle Text を使用して"トークン"を解析する）非構造化すなわち CLOB データ型、および空間データを含む元々のスター・スキーマ表現のデータをマイニングできます。Oracle Advanced Analytics のインデータベース SQL データ・マイニング関数では、モデル構築とモデル適用の両方でデータベース内部の並列処理を利用し、すべてのセキュリティ・スキームとユーザー特権スキームに従い、リビジョン・コントロールと監査追跡のデータベース機能を固守します。また、それ本来のデータと、Oracle Database 内部で暗号形式になっている可能性があるデータをマイニングできます。


Oracle Advanced Analytics 12.2cのデータ・マイニング関数は、SQL、PL/SQL、R、およびOracle Data MinerのGUIによってアクセス可能なSQL関数として

実装されています。

データではなくアルゴリズムを移動する

データは大きいですが、アルゴリズムは小さいです。したがって、データをアルゴリズムに移動するよりも、アルゴリズムをデータに移動するほうが理にかなっています。オラクルでは、Thinking Machines Corporation のデータ・マイニング・テクノロジーと開発チームを獲得した 1999 年に、このビッグ・データと分析データに関係する課題を認識しました。その時点でオラクルは、従来の最先端マシン学習アルゴリズムと統計機能を、SQL 言語を完全サポートしたネイティブ SQL 関数として開発する戦略を実行に移し始めました。Oracle Advanced Analytics のデータ・マイニング・アルゴリズムは、PL/SQL スクリプト、コールアウト、または拡張フレームワークのアドインとしてではなく、ネイティブ SQL 関数として実行されます。モデルは、構築、適用、共有、監査することができる、もっとも重要なデータベース・オブジェクトです。

2000 年代初期の Oracle Data Mining Release 9.2i から始めて、オラクルの最初のデータ・マイニング・アルゴリズムには、Database の中核技術、特に集計、並列処理、スケーラビリティ、およびその他のデータベース・アーキテクチャ基盤が活用されています。基本的に、オラクルの最初の 2 つのデータ・マイニング・アルゴリズムである Naïve Bayes および Apriori アルゴリズムは、集計原理を基盤としています。これらのアルゴリズムでは、すべてが極めて高速に集計されて条件付き確率予測モデルが組み立てられ、データベース内で 100%の処理が完結します。データ、予測モデル、または結果のいずれであれ、データベースを離れることはありません。

OAA の Naïve Bayes アルゴリズムでは、予測モデルをすばやく構築して、"離れるのはどのような顧客か”、"製品 A を購入する確率がもっとも高いのはどのような顧客か"、”品目で不具合が発生する確率はどれほどか"といった点について予測することができます。理解を促すため、もう少し具体的

オラクルのマシン学習アルゴリズムと高度な分析アルゴリズム

種別 − Naïve Bayes − ロジスティック回帰（GLM） − 意思決定ツリー − ランダム・フォレスト − ニューラル・ネットワーク − サポート・ベクター・マシン − 混合ガウス・モデル

クラスタリング − 階層型K-Means − 階層型O-Cluster − 期待値最大化（EM）

異常検出 − 1クラスSVM

時系列 − 単純、二重指数平滑法

回帰 − 線形モデル − 一般化線形モデル − サポート・ベクター・マシン（SVM） − 段階的線形回帰 − ニューラル・ネットワーク − LASSO

属性評価 A1 A2 A3 A4 A5 A6

− 最小記述長 − 主要成分分析（PCA） − 非管理型ペアワイズKLダイバージェンス

相関ルール – Apriori/マーケット・

バスケット

予測問合せ – 予測、クラスタ、検出、機能

SQL 分析 – SQLウィンドウ、SQLパターン、

SQL集計

特徴抽出 − 主要成分分析（PCA） − 非負行列因子分析 − 特異値分解（SVD） − 明示的セマンティック分析（ESA）

テキスト・マイニングのサポート − アルゴリズム・サポート・テキスト・タイプ − トークナイゼーションとテーマ抽出 − ドキュメント類似度の明示的

セマンティック分析（ESA）

統計関数 − 基本統計：min、max、median、

stdev、t-test、F-test、Pearson’s、 Chi-Sq、ANOVAなど

R パッケージ − 埋込みRの実行による − CRAN R アルゴリズムパッケージ − Spark MLlibアルゴリズム統合

• OAA（Oracle Data MiningとOracle R Enterprise）とORAAHの組合せ • OAAでは、パーティション化モデル、トランザクション、非構造化、地理空間、グラフなどのデータがサポートされています。

Copyright © 2017, Oracle and/or its affiliates.All rights reserved. |


な例で考えてみましょう。製品 A（自動二輪車や 500 ドルの靴など）を売ることに関心があるとします。Oracle Advanced Analytics のデータ・マイニング・アルゴリズム（特に Naïve Bayes アルゴリズム）では、製品 A を購入したすべての顧客について、購入者の男女の比率を集計します。アパートを賃貸している顧客と持ち家の顧客の比率はどれほどでしょうか。子どものいる顧客の数、およびその子どもの数は何人でしょうか。これらの問いに対する答えのそれぞれに集計処理が関係しており、全部をまとめて複合的な条件付き確率モデルが形成されます。このモデルにより、製品A の販売数の増加に繋がる可能性が高いターゲットを正確に予測することができます。

OAA の Apriori "マーケット・バスケット分析"アルゴリズムでは、共起項目（製品 A と B が共起することが頻繁にある、など）を探しながら各顧客のトランザクション"バスケット"内の項目を集計して、条件付き確率 AR ルールを導き出します。次に例を示します。

IF：”シリアル"と"バナナ"が同じ顧客のバスケット内に含まれる場合

THEN：そのバスケットには"牛乳"も含まれる可能性が高い。

確率 = 87 %、および支持度 = 11 %。

Oracle Advanced Analytics によって得られるこの新しいタイプの顧客についてのインサイトに基づいて、ストアでは、牛乳をシリアルとバナナの近くに並べ、プロモーション用の新しい"朝食キット"を提供したり、支払い時にその顧客向けの特別なお勧め商品をリアルタイムで紹介したりすることができます。これは、ビッグ・データ分析によってデータから"実用的なインサイト"を得る方法を示すほんの一例にすぎません。明らかに、データが多いほど、高度な分析方法が多いほど、また全社的デプロイメントが迅速に行われるほど、ビッグ・データと分析用の数多くの新しいアプリケーションおよびソリューションの可能性が広がります。

SQLとRのサポート

データ管理の分野では、40 年以上に渡って SQL が標準言語であり続けていますが、データ分析の分野では、R、SAS、Python、SQL その他のさまざまな言語が競い合うようになっています。SAS、S+、SQL、SPSS、および Matlab が長年好まれてきましたが、最近の何年かの間に特にオープン・ソースの R がトップに躍り出、Python その他の言語も登場しています。KDD Nuggets データ・マイニング業界コミュニティの年次調査（http://www.kdnuggets.com/polls/）によると、現在、R とSQL がそれぞれ 1 位と 2 位の座を争っています。

朗報は、Oracle Advanced Analytics では、SQL と R の両方の言語がサポートされていることです。オラクルでは、データ管理のための SQL に精通した開発者が大勢働いており、Oracle Advanced Analytics の SQL データ・マイニング関数によってデータ・マイニングと高度な分析をサポートし、業界を牽引する、オープン・ソースの R 統計プログラミング言語との緊密な統合を支援しています。

オラクルのほとんどのお客様は、構造化データの問合せ、レポート、および分析のための言語として、SQL に非常によく精通しています。SQL は、分析のための事実上の標準であり、ほとんどの BIツールの基盤となっているテクノロジーです。R は、広く普及したオープン・ソースの統計分析用プログラミング言語で、無償であることから、ほとんどのデータ・サイエンス教育プログラムで教えられています。ますます多くのデータ分析者、データ・サイエンティスト、研究者、および教育機関が R の使用法を学習するようになっており、SQL または R のいずれかの言語を使用して Oracle Database 内部のデータを処理できる R プログラマーの数も増えています。

http://www.kdnuggets.com/polls/


Oracle Advanced Analytics は、これまでの 15 年以上に渡る開発で成熟の域に達しており、現在のOracle 12c に搭載されています。Oracle Advanced Analytics オプションには、スケーラブルで、並列処理され、データベース内に実装される 20 近くの有用な予測分析アルゴリズムが用意されています。Oracle Advanced Analytics は、SQL、R 言語、および Oracle Data Miner の GUI を介してアクセス可能な SQL 関数として、これらのデータ・マイニング・アルゴリズムを公開しています。Oracle Data Miner は、もっとも一般的なデータから読み取れる問題（クラスタリング、回帰、予測、関連付け、テキスト・マイニング、関連付け分析など）のための Oracle SQL Developer の拡張機能提供します。Oracle Advanced Analytics のすべてのアルゴリズムは、データベースの内部深くに実装され、Oracle Database の業界を牽引するスケーラビリティ、セキュリティ、SQL 関数、統合、ETL、クラウド、構造化、非構造化、および空間データ型の機能と特長が十分に活用されており、SQL と R の両方、および GUI からアクセスすることができます。

したがって、Oracle Advanced Analytis は、次のようなものとして捉えることができます。

Oracle Advanced Analyticsにより、SQL言語の機能が拡張され、predict、detect、associate、clusterなどの強力な分析用動詞が追加されています。

Oracle Advanced Analyticsによるインデータベース処理

Oracle Advanced Analytics は、データベースの機能を拡張した、ビッグ・データ分析のための包括的で高度な分析プラットフォームです。Oracle 製品では、データベース内のデータに対して直接、高度な分析処理を実行します。結果、インサイト、およびリアルタイムの予測モデルは、データベースによって使用可能になり、管理されます。

データ・マイニング・モデルは、データベース内のスキーマ・オブジェクトで、データを準備するPL/SQL API によって構築され、隠れたパターンを学習して OAA モデルを構築します。その OAA モデルは、組込み OAA のデータ・マイニング SQL 関数を介してスコアリングすることができます。モデルを構築する際、Oracle Advanced Analytics は、既存のスケーラブル・テクノロジー（並列実行、ビットマップ索引、集計手法など）と、新しく開発された Oracle Advanced Analytics と Oracle Database の追加テクノロジー（並列インフラストラクチャ内での再帰、IEEE 浮動小数点、ビニング用の自動データ準備、欠損値の処理、非構造化データ（すなわちテキスト）のサポートなど）を利用します。


Oracle Advanced Analytics 12.2では、パフォーマンスが著しく向上しており、何億ものレコードと何百もの属性についてのマシン学習モデルを秒または分単

位の時間で構築することができます。

データベース内に SQL 関数として組み込まれたデータ・マイニング関数の真価は、データ・マイニング・モデルのスコアリング時にもっとも明らかになります。履歴データの隠されたパターンを学習することによってモデルを構築した後、そのモデルをデータベース内部の新しいデータに適用すると、超高速で処理されます。スコアリングは、単に行単位の機能になります。したがって、Oracle Advanced Analytics により何百万ものレコードを何秒かで"スコアリング"することができます。OAAは、オンライン・トランザクション処理（OLTP）環境に対応できるように設計されています。

Exadata の"スマート・スキャン"テクノロジーを使用すると、さらにパフォーマンスを高めることができます。Oracle Advanced Analytics が Exadata 環境で実行されている場合、SQL 条件モデルとOAA 予測モデルは、ハードウェアの実行レイヤーにプッシュダウンされます。

• Oracle Exadata 環境の場合は、Exadata ストレージの実行レベルにプッシュされる

• Oracle Big Data Appliance（Hadoop）環境の場合は、BDA ストレージの実行レベルにプッシュされる

両方の場合に、条件を満たすレコードのみがディスクから引き出され、データベース内部でさらに処理されます。たとえば、解約する可能性のある米国の顧客を検索するとします。


1411 秒/144

188 秒/72

404 秒/512

84 秒/256

640

640

サポート・ベクター・マシン（IPM ソルバー）

サポート・ベクター・マシン（SGD ソルバー）

44 秒/72

268 秒/144

588 秒/144

23 秒/72

363 秒/144

93 秒/144

28 秒/512

161 秒/256

455 秒/512

17 秒/256

154 秒/512

55 秒/512

640

640

159

320

640

640

属性の重要性

k-Means クラスタリング期待値

最大化

Naïve Bayes の種別

GLM の種別

GLM の回帰

モデル構築時間（秒/並列度）行数（Ms） OAA 12.2 のアルゴリズム X5-4（Intel および Linux） T7-4（Sparc および Solaris）

Oracle Advanced Analytics 12.2 モデル構築時間（パフォーマンス）


自動データ準備、データの種類、スター・スキーマ、および"ネストした表"

分析者は通常、データの分析を適正に実行するため、データの"ビニング”方法、欠損値の処理方法、および多くの場合にモデルで使用される変数（機能選択）の数を減らす方法を明確に決めておく必要があります。Oracle Advanced Analytics は、これまで 15 年以上をかけて進化してきており、データ・マイニング・プロジェクトで通常必要とされる手順のほとんどを自動化することができます。今日、自動データ準備（ADP）では、デフォルトおよびユーザー・カスタマイズ可能なビニング戦略（等幅、等数、ユーザー定義など）を使用して数値属性を自動的にビニングし、同様に、カテゴリ属性を上位 N 個の値にビニングし、"その他"またはユーザー定義ビンにビニングします。欠損値は、そのレコードを分析から除外する代わりに、統計値（平均値、中央値、最頻値など）によって自動的に置き換えられます。ADP は、モデルの構築と、その後の新しいデータへのモデルの適用の両方で使用されます。もちろんユーザーは、任意で ADP 設定をオーバーライドできます。

Oracle Advanced Analytics では、属性削減（最小記述長アルゴリズムを使用した属性の重要性）と機能削減手法（主成分分析と非負行列因子分解）に対応することができます。ただし、Oracle Advanced Analytics の各アルゴリズム（意思決定ツリー、一般化線形回帰、サポート・ベクター・マシン、Naïve Bayes、k-Means クラスタリング、期待値最大化クラスタリング、異常検出、1 クラス SVM など）には、属性削減と選択のための独自の組込み自動化戦略があるため、明示的な変数の削減手順は任意であり、必須ではありません。もちろんユーザーは、アルゴリズムとデータ準備の設定を制御したり、インテリジェント・デフォルトに同意したりすることができます。

購入、トランザクション、イベントなどのトランザクション・データは、優れた予測モデルを構築するのに重要なデータの多くを表します。Oracle Advanced Analytics では、そのネイティブのトランザクション・フォームでこのデータをマイニングし、データベースの集計関数を使用して結果を要約してからデータ（商品の購入など）のベクターを供給し、他の顧客 2-D データに結合してあらゆる角度から見た顧客像を導き出すことができます。Oracle Advanced Analytics のモデル（種別、回帰、クラスタリング・モデルなど）では、この集計されたトランザクション属性を"ネストした表"として取り込みます。レコードは、Oracle Advanced Analytics のインデータベース処理の深層において、Unique_ID、Attribute_name、および Attribute_value で成る 3 つ 1 組のデータとして処理されます。これは、Oracle Advanced Analytics で利用されている Oracle Database の中核技術のほんの一部です。マーケット・バスケット分析では、当然、（通常は集計されない）ネイティブのトランザクション・データ・フォームでこのデータをマイニングして、バスケット内の共起品目を検索します。

非構造化データ、すなわちテキストも、データベース内部で同様の方法で処理されます。Oracle Advanced Analytics では、Oracle Text のテキスト処理機能と多言語サポートを使用して、テキスト、Word、Adobe Acrobat などのすべての CLOB データ型を"トークン化"します。Oracle Text はすべての Oracle Database に付属の無償機能なので、Oracle Advanced Analytics ではこの機能を利用して非構造化データの前処理を行い、ワードのベクターとワード係数（TFIDF - 単語の出現頻度、逆文書頻度）をアルゴリズムに入力します。Oracle Advanced Analytics では、非構造化属性を追加の入力属性（警察のコメント、医師のメモ、履歴書、電子メール、記事、抜粋など）として扱います。それらの属性は、その他のすべて（年齢、年収、職業など）と連結され、Oracle Advanced Analyticsのデータ・マイニング・アルゴリズムに入力されます。空間データ、Web クリック、および他のデータ型も、Oracle Advanced Analytics のデータ・マイニング・モデルに連結して組み込むことができます。


Oracle Data MinerワークフローGUI、SQL Developerの拡張機能

Oracle SQL Developer 4.2 の拡張機能である Oracle Data Miner GUI は、データ分析用に使いやすいGUI を好み、SQL と R のどちらであってもプログラミングの方法を知る必要がない（つまり、コードを記述する必要がない）ユーザーを対象に設計されています。Oracle Data Miner により、データ分析者、ビジネス・アナリスト、およびデータ・サイエンティストは、Oracle Data Miner のグラフィカルな"ドラッグ・アンド・ドロップ”ワークフロー・パラダイムを使用して、データベース内部のデータを直接操作することができます。

データ分析者は、Oracle Data Miner の使用法を容易に学習して、データをすばやくグラフィカルに視覚化して考察し、必要に応じてデータの準備と変換を行い、包括的なモデル表示ビューアとモデル評価ビューアを使用して複数のデータ・マイニング・モデルを構築および評価できます。その後、Oracle Data Mining モデルを新しいデータに適用してデプロイしたり、SQL および PL/SQL スクリプトを生成して企業全体に Oracle Data Mining の予測モデルをデプロイしたりできます。

Oracle Data Miner のワークフローでは、ユーザーの分析方法を捕捉して文書化し、保存して他のユーザーと共有して、高度な分析方法を自動化および公開することができます。データ分析者が分析を完了すると、Oracle Data Miner では、データ管理と予測分析を組み合わせるための Oracle Database を使用して、即座にデプロイするために DBA に渡す SQL スクリプトを生成します。アプリケーション開発者は、Oracle Data Miner PL/SQL のワークフローAPI を使用してワークフローをプログラムによって呼び出し、新しいビジネス・インテリジェンスと実用的なインサイトの発見と配布を完全に自動化し、予測方法をアプリケーションに組み込んで企業全体で幅広く使用することができます。

SQL Developerの拡張機能であるOracle Data Minerには、データ分析者向けのドラッグ・アンド・ドロップ式ワークフロー・ユーザー・インタフェースが装

備されており、データの探索、予測モデルの構築、評価、適用、およびSQとPL/SQLスクリプトとしての高度な分析方法のデプロイを行うことができます。


データ分析者は、Oracle Data Miner を使用して、非常にシンプルな分析方法から複雑で高度な分析方法に至るまで、分析方法を検証して確立することができます。たとえばデータ分析者は、トランザクション・データ、人口統計データ、顧客サービス・データ、および顧客のコメントを組み合わせて、あらゆる角度から見た顧客像を導き出すことができます。また、顧客のクラスタリングを実行してそれらの顧客を顧客セグメントに事前に割り当て、その後セグメントごとに、別々の種別モデル、回帰モデル、または異常検出モデルを構築して、精度と有用性を向上させることができます。

データ分析者は、簡単なものから複雑なものまで、Oracle Database内でアクセス権を持っているデータをマイニングするための分析方法を迅速に構築できま

す。すべてのデータ、モデル、および結果は、データベース内部に残されます。

Oracle R Enterprise - オープン・ソースのRとOracle Databaseの統合

Oracle R Enterprise は、Oracle Advanced Analytics オプションのコンポーネントの 1 つで、オープン・ソースの R 統計プログラミング言語とその環境で企業データやビッグ・データを扱えるようにしています。"R では、さまざまな統計手法（線形および非線形モデル化、従来型の統計テスト、時系列分析、種別、クラスタリング）とグラフィカル手法を利用することができ、拡張性に優れています”（https://www.r-project.org/を参照）。R の特長は、無償（オープン・ソース）でありながら強力で拡張性に優れ、広範なグラフィカル・パッケージと統計パッケージが提供されており、R "パッケージ"の作者であり R "パッケージ"を提供している R ユーザー・コミュニティによって常に拡張されていることです。R の課題は、メモリの制約を受け、シングル・スレッドで、処理速度を低下させる可能性がある外部ループを実行し、一般的に"産業使用に耐え得る"とはみなされていないことです。提供された R パッケージの品質はさまざまです。

Oracle R Enterprise では、R と Oracle Database が統合されており、R 関数を同等の SQL 関数とOracle Data Mining の SQL 関数にマッピングし、大量のデータが関係する問題を処理するように設計されています。R パッケージ（Oracle R Enterprise）のセットと Oracle Database の機能で構成され、これにより R ユーザーは、SQL を使用せずにデータベース内に存在するデータを操作し、デー

分析方法の迅速な構築、評価、デプロイさまざまなデータのソースと種類を利用

SQL 結合と任意の SQL の変換および問合せ - SQL の力

トランザクション POS データ

モデル化手法

インライン予測モデルによる入力データの補強

考慮事項： • 顧客層 • 購入履歴 • 最近の購入

非構造化データもアルゴリズムによってマイニング

デプロイするための SQLスクリプトとワークフローAPI を生成


• コメントとツイート

https://www.r-project.org/


タベース・サーバーで動作する 1 つ以上の埋込み R エンジンで R スクリプトを実行することができます。データ分析者とデータ・サイエンティストは、データベースの並列処理とスケーラビリティ、および SQL データ・マイニング関数を利用する R スクリプトを開発、改良、およびデプロイし、SQL について学習しなくても、1 ステップでデータ分析を自動化することができます。

Oracle R Enterprise には、標準 R 構文を SQL に透過的に変換するオープン・ソース R のメソッドと関数がオーバーロードされています。これらのメソッドと関数は、Orcle R Enterprise の透過層を実装する Oracle R Enterprise パッケージに含まれています。R プログラマーは、これらの関数とメソッドにより、データベース内に存在するデータにアクセスし、分析と操作を行う R オブジェクトを作成することができます。データベースでは、SQL コードが自動的に最適化され、問合せの効率が向上します。Oracle R Enterprise では、基本の R、Oracle SQL 統計関数、Oracle Data Mining SQL関数、および選択した利用頻度の高い R パッケージをインデータベース実行できるように、関数のプッシュダウンを実行します。Oracle R Enterprise は、Oracle Database の埋込みコンポーネントとして実行されるため、関数プッシュダウンを行うか、R エンジンに入力されたデータをデータベースで管理するときの"埋込み R モード"において、任意の R パッケージを実行できます。この"埋込みR モード"の機能により開発者は、Oracle Advanced Analytics のネイティブでサポートされるツールキットを任意のオープン・ソース R パッケージによって拡張し、データベースによって完全に管理される、広範囲の自動化された高度な分析方法を開発することができます。

Oracle Advanced AnalyticsのOracle R Enterpriseコンポーネントは、スケーラビリティを向上させ、並列処理を可能にするため、R関数を同等のインデータ

ベースSQL関数にプッシュダウンします。Oracle R Enterpriseのユーザーは、"埋込みRモード"で任意のRパッケージを利用することもできます。


• データベース管理の並列処理のためOracle DBに

よって起動されるRエンジン

• ore.groupApply高パフォーマンス・スコアリング

• 起動されたRエンジンに効率よくデータを転送

• map-reduce方式のアルゴリズムと

アプリケーションをエミュレート

• Rスクリプトの本番デプロイメントと自動実行を有効化

• 30以上の強力なデータ・マイニング・アルゴリズム

（回帰、クラスタリング、AR、DTなど）

• Oracle Data Mining SQLデータ・マイニング関数の実行（ORE.odmSVM、ORE.odmDTなど）

• "R"で記述されていても、独自のインデータベースSQL関数（マシン学習アルゴリズムと統計関数）として実行

• SQL並列処理、大規模なデータベースへの拡張、セキュリティなど、データベースの特長を利用

• SQL、R、およびBig Data SQLを介してOracle DatabaseとHadoopのビッグ・データにアクセス

• データベースとの相互作用が可能なR言語

• R-SQL透過フレームワークにより、スケーラブルなインデータベース実行のためのR関数をオーバーロード

• データの選択、操作、および変換での関数オーバーロード

• 標準Rの場合と同様にグラフィカルな結果とフロー制御を

インタラクティブに表示

• Oracle Databaseによって制御されているデータベース・サーバーで、実行するユーザー定義R関数を送信

2 インデータベースの高度な分析の SQL 関数 3 埋込み R パッケージのコールアウト 1 R -> SQL 透過"プッシュダウン"

結果結果

その他の R パッケージ R エンジン R R ->

その他の R パッケージ

Oracle Database 12c

Oracle Cloud Oracle Advanced Analytics Oracle R Enterprise の計算エンジンの仕組み

Oracle R Enterprise のパッケージ Oracle R Enterprise のパッケージ


データへのアクセスとその分析で R を使用することを好むユーザーは、RStudio または任意の R GUI を使用し、Oracle Database に接続して Oracle Advanced Analytics の R 統合機能（Oracle R Enterprise）にアクセスすることができます。接続が確立されると、OAA/Oracle R Enterprise セッションでユーザーのメタデータが同期されるため、データベース内部のすべての表とビューが表示されます。いずれかの基本 R 言語関数を実行すると、同等の SQL 関数に透過的にマッピングされます。OAA/Oracle Data Mining アルゴリズムと OAA/Oracle R Enterprise アルゴリズムを使用する Rユーザーは、データベースでスケーラブルなデータ・マイニングを実行することができます。

Oracle Advanced AnalyticsのOracle R EnterpriseコンポーネントによるRStudioコンソールからのインデータベースOracle Data Miningアルゴリズム

（サポート・ベクター・マシンなど）の呼び出し

Hadoop、Oracle Big Data Appliance、およびBig Data SQL

ビッグ・データは現在、多くの場合に Hadoop サーバーに保存されています。データベース外部の別個のデータ環境により、データ管理とデータ分析の新しい課題が提起されています。Big Data SQL では、Oracle Big Data Appliance を介して SQL 処理を Hadoop まで拡張することによって、この課題に対処します。Big Data SQL では、Exadata 用に開発された"スマート・スキャン"テクノロジーを使用し、Hive 表で使用できるように SQL ロジックをプッシュダウンします。これでデータ分析者は、ビッグ・データのリザーバに保存されている価値が不明なデータの新しいビッグ・データソースを利用しやすくなり、そのデータを、データベースまたはデータウェアハウスの内部で管理されている価値が明白なデータと組み合わせることができます。

ただし、Hadoop に保存されているデータは、大量のスパース表現（トランザクション形式）であり、情報密度が不足している可能性があります。データの多くが、センサー、モノのインターネット、"ツイート"、および他の大容量ソースから収集されるのであれば、ユーザーは、Big Data SQLを利用して、集計、最大値、最小値、ユーザー定義値の上下のしきい値集計、平均、短期の平均と



集計、長期の平均と集計、スライディング SQL ウィンドウの平均と集計、およびそれらの値の相互比較を収集することができます。その後、Oracle Big Data SQL を使用して、"ビッグ・データ"をフィルタリングし、削減し、他のデータベースのデータに結合してから、Oracle Advanced Analyticオプションを使用して Oracle Database 内部の"すべて"をマイニングします。

SQLおよびBig Data SQLによりデータ分析者は、HadoopサーバーとOracle Databaseの両方のデータにアクセスし、それらのデータを要約、フィルタリング、

および集計し、結果を組み合わせてあらゆる角度から見た顧客像を導き出し、Oracle Advanced Analyticsを使用して予測モデルを構築できます。

全社的予測分析アプリケーションを開発するためのプラットフォーム

ビッグ・データおよびビッグ・データ分析を簡素化するオラクルの戦略により、予測分析アプリケーションの開発、改良、およびデプロイ（すべてがデータベースの機能の一部になっている）が容易になっています。すべてのデータ、ユーザー・アクセス、セキュリティと暗号化、スケーラビリティ、アプリケーション開発環境、および強力で高度な分析は、Oracle Database というデータ管理およびデータ分析のためのプラットフォームで実現できます。今では、予測インサイトとリアルタイムの実用的なインサイトを、任意のエンタープライズ・アプリケーション、BI ダッシュボード、または Oracle Database に SQL で問い合わせることができるツールに容易に追加できます。


Oracle Advanced Analyticsは、Oracle Databaseとは別にライセンスが供与される機能で、ビッグ・データとビッグ・データ分析の両方を扱えるようデータ

ベースを拡張し、予測分析アプリケーションの開発およびデプロイに理想的で強力な分析プラットフォームです。

オラクルでは、予測分析アプリケーションの開発を継続的に行っており、オンプレミスとクラウドで使用する次のような次世代の予測アプリケーションを提供しています。

• Oracle Human Capital Management ワークフォース予測

• Oracle Customer Relationship Management 売上予測エンジン

• Oracle Adaptive Access Manager の ID 管理

• Oracle Retail Customer Analytics

• Oracle Predictive Incident Monitoring プレミアム・サービス

• Oracle Communications の業界別データ・モデル

• Oracle Retail の業界別データ・モデル

• Oracle Airlines の業界別データ・モデル

• Oracle Utilities の業界別データ・モデル


Database Cloud “Oracle Machine Learning”データベース・エディション

マシン学習アルゴリズム、スケーラブルで並列処理される分散インデータベース実行の

ための統計関数と R の統合

Big Data Cloud Service “Oracle Machine Learning” Big Data Cloud

ORAAH - マシン学習アルゴリズム

スケーラブルで並列処理される分散実行の

ための統計関数と R の統合

データ管理と高度な分析のためのプラットフォーム Big Data SQL

機能ユーザー（HCM、CRM） BI 分析者、マネージャー “分析コンシューマー

“分析プロデューサー” データ・サイエンティスト、R ユーザー、市民データ・サイエンティスト

オラクルのマシン学習/高度な分析プラットフォームデータ管理プラットフォームに組み込まれたマシン学習アルゴリズム


Oracle HCMワークフォース予測アプリケーションでは、事前に組込まれたOAAにより、従業員の減少と従業員の実績の予測分析、

および"What-if”分析を実行できます。

Oracle Communicationsのデータ・モデルには、顧客離れや顧客プロファイリングのための予測モデルが事前に組込まれており、顧客離れの要因、クロスセ

ル、顧客のライフタイム・バリュー（LTV）、および顧客センチメントを特定できます。


結論

従来の BI や分析手法では、"ビッグ・データ"と"クラウド"の時代の要件を満たし続けることができないことは明らかです。業界のリーダーを目指す組織にとっては、これらの新しいテクノロジーを駆使して、価値が明白なデータと不明なデータを迅速に捕捉および収集し、データ管理を適正に行い、関連データを組み立てて詳細な分析を容易にこなし、実用的なインサイトの自動化とデプロイメントを行えるかどうかが、成功のための鍵となります。

Oracle Database 12.2c の有料オプションである Oracle Advanced Analytics では、今日ではごく当然の、抽出、移動、ロード、分析、エクスポート、移動、ロード/インポートによる従来のパラダイムが崩壊しています。Oracle Advanced Analytics には、Oracle Database 12c 内の SQL 関数として、スケーラブルで、並列処理され、データベース内に実装される有用な予測分析アルゴリズム（クラスタリング、回帰、予測、関連付け、テキスト・マイニング、関連付け分析、異常検出など）の広範なライブラリが用意されています。Oracle Advanced Analytics では、これらの予測アルゴリズムを SQL 関数として公開しており、SQL（Oracle Data Mining OAA SQL API コンポーネント）、Oracle SQL Developer 4.2 の拡張機能である Oracle Data Miner の"ドラッグ・アンド・ドロップ"ワークフローGUI、およびオープン・ソースの R との緊密な統合（Oracle R Enterprise 統合コンポーネント）を介してアクセスできます。

Oracle Advanced Analytics のインデータベース・データ・マイニング・マシン学習/予測分析アルゴリズムは Oracle Database のインサイド・アウトから構築されており、Oracle Database のスケーラビリティ、セキュリティ、統合、クラウド、構造化および非構造化のデータ・マイニング機能が十分に活用されているため、Oracle のシステムは、オンプレミスまたは Oracle Cloud 上のビッグ・データと分析のためのソリューションおよびアプリケーションに理想的なプラットフォームとなっています。

Oracle でのデータ管理、および記述的、予測的、および処方的なビッグ・データ分析は、最初からプラットフォームに組込まれています。オラクルの数十年に及ぶ最先端のデータ管理および SQL とBig Data SQL のすべてには、"アルゴリズムをデータに移動する"と"データをアルゴリズムに移動する"というオラクルの設計開発アプローチが利用されており、それらのアプローチと組み合わされています。オラクルのビジョンは、ビッグ・データとクラウドの時代のためのビッグ・データ分析プラットフォームを構築し、以下を実現することです。

ビッグ・データと分析をシンプルにする：

• すべてのデータ・サイズ、すべてのコンピュータ・インフラストラクチャにおいて

• データのあらゆる多様性、任意の組み合わせにおいて

ビッグ・データと分析のデプロイメントをシンプルにする：

• サービスとして、プラットフォームとして、アプリケーションとして

オラクルでは、ビッグ・データ管理とビッグ・データ分析の両方を 1 つの統一された Oracle Database プラットフォームに統合することにより、総所有コストを削減し、データ移動をなくし、全社的な予測分析ソリューションとアプリケーションを最速で提供します。

Oracle Corporation, World Headquarters

500 Oracle Parkway

Redwood Shores, CA 94065, USA

海外からのお問い合わせ窓口

電話：+1.650.506.7000

ファクシミリ：+1.650.506.7200

C O N N E C T W I T H U S

blogs.oracle.com/oracle

facebook.com/oracle

twitter.com/oracle

oracle.com

Copyright © 2017, Oracle and/or its affiliates.All rights reserved.本文書は情報提供のみを目的として提供されており、ここに記載される内容は予告なく

変更されることがあります。本文書は、その内容に誤りがないことを保証するものではなく、また、口頭による明示的保証や法律による黙示的保証

を含め、商品性ないし特定目的適合性に関する黙示的保証および条件などのいかなる保証および条件も提供するものではありません。オラクルは本

文書に関するいかなる法的責任も明確に否認し、本文書によって直接的または間接的に確立される契約義務はないものとします。本文書はオラクル

の書面による許可を前もって得ることなく、いかなる目的のためにも、電子または印刷を含むいかなる形式や手段によっても再作成または送信する

ことはできません。

Oracle および Java は Oracle およびその子会社、関連会社の登録商標です。その他の名称はそれぞれの会社の商標です。

Intel および Intel Xeon は Intel Corporation の商標または登録商標です。すべての SPARC 商標はライセンスに基づいて使用される SPARC International,

Inc.の商標または登録商標です。AMD、Opteron、AMD ロゴおよび AMD Opteron ロゴは、Advanced Micro Devices の商標または登録商標です。

UNIX は、The Open Group の登録商標です。0115

ホワイト・ペーパー・タイトル 2017 年 7 月

著者：Charlie Berger、Sr. Director Product Management、Oracle Machine Learning & Advanced Analytics

（[email protected]）

共著者：[オプション]

オラクルのマシン学習と高度な分析のための データ...

Documents

オラクルのマシン学習と高度な分析のためのデータ...