Microsoft独自のアルゴリズムにより、Excel上でデータマイニング
Power BIの連載も本格導入編に入り、これまで3回にわたってPower BIの本格導入の方法(=SQL Serverの導入方法)をお伝えしてきました。本格導入の実施により、エクセルからデータマイニングの機能が使えるようになったのが大きなメリットです。本日はそのデータマイニングでできることの全体像を紹介します。
データマイニング機能でできること
データマイニング玄人用と初心者用の2つのメニューが存在
SQL Serverを導入後に、データマイニングアドインをインストールすると(インストール方法は後述)、通常のエクセル上に『データマイニング』メニューが表示されるようになります(A)。
さらにエクセルシートの任意のテーブルを選択すると、『テーブルツール』というメニューが現れ、その下に『分析』というメニューが表示され、『テーブル分析ツール』が並びます(B)。
このように実施できる分析の選択肢が、突然大きく増えました。何ができるかを構造的に整理して使いこなせるようにしていきましょう。
まず(A)のデータマイニングメニューと(B)のテーブル分析ツールの違いからです。(A)のデータマイニングメニューは正式には『Excel用のデータマイニングクライアント』と呼ばれます。この機能はデータマイニングのヘルプでは以下のように説明されています。
Analysis Services のインスタンスに備わっている高度なデータ マイニング アルゴリズム、構造、およびビューアーと同じものを使用でき、ソース データとテスト データを Excel テーブルに保存できます。 このデータ マイニング クライアントを使用すると、Excel でテーブルを開く操作と同じように、複雑なデータセットの分析や予測を容易に行うことができます。 さらに、データと結果を Excel に格納できるので、モデルによって発見されたパターンを迅速に利用して表示できます。
一方で(B)のテーブル分析ツールは正式には『Excel用テーブル分析ツール』と呼ばれます。こちらもデータマイニングのヘルプから機能説明を引用しましょう。
データの分布と種類が自動的に分析され、妥当な結果を得るための最適なデータ処理が推測されます。 ユーザー自身がアルゴリズムを選択したり、複雑なパラメーターを構成したりする必要はありません。
意訳すると、(A)のデータマイニングメニューは従来SQL Serverのみで実施できた高度な分析をエクセルから実施できるようにした機能、一方の(B)のテーブル分析ツールは、統計分析の初心者でも目的に合わせてボタンさえ押せばとりあえず何かしらの結果を出してくれるというツールに頼りきりの機能、ということになります。(A)はある程度のデータモデリングの玄人用、(B)はデータモデリングに造詣のない初心者用のメニューと言えるかと思います。
アルゴリズムと分析メニューを紐づける
次に、(A)、(B)各々の配下にある分析アイコンをクリックするとどのようなことができるのでしょうか。ヘルプに、適用されているアルゴリズムとその内容、及び分析メニューの関係性が述べられているので、それを再構成してまとめました。
(出所:Microsoft Excel データマイニング ヘルプ よりギックス再構成)
全てのアルゴリズムに”Microsoft”という言葉が接頭語のようについていることからも明らかですが、これらのアルゴリズムは何かしらMicrosoft特有のものになっています。(A)データマイニングと(B)テーブル分析ツールの両方で実施できるのがアソシエーションルール、クラスタリング、タイムシリーズの3つのアルゴリズム。デシジョンツリーは(A)データマイニングのみで実施可能。ロジスティック回帰とナイーブベイズは(B)テーブル分析ツールのみで実施可能となっています。
各アルゴリズムについては、このレベルのアルゴリズムの説明では、内容がざっくりし過ぎているのと日本語訳が分かりにくいのが相まって、どのようなアルゴリズムが適用され、どんなアウトプット形式なのか詳細は分かりません。
ただ幸いにも、これらのアルゴリズムは、オープンソースの統計解析ツールのRなどでも実施できる有名なものばかりです。これらのアルゴリズムについて同じデータでRとMicrosoftデータマイニングでの適用結果を比較して報告しながら、このデータマイニング機能をどのように使っていくのがよいか考察していきたいと思います。
(参考) データマイニングのセットアップ/インストール手順
参考までに、データマイニング機能のセットアップ/インストール手順を紹介しておきます。データマイニング機能はエクセルのアドインですので該当ファイルをダウンロードしてインストールするとエクセルからデータマイニング機能が利用できるようになります。
1.データマイニングアドインのダウンロード
以下のサイトからデータマイニング アドインをダウンロードするためにダウンロードボタンします。
http://www.microsoft.com/ja-jp/download/details.aspx?id=35578
ダウンロードの際には自分のWindowsのバージョンに合わせて32bit/64bitを選んでください。
2.データマイニングのインストーラの起動
ダウンロードされた「SQL_AS_DMAddin.msi」がデータマイニングアドインのインストーラになります。このファイルをダブルクリックしてインストーラーを起動させてください。以下手順通り進めるとデータマイニング アドインがインストールされ、上述のように通常のエクセル上に『データマイニング』メニューが表示されるようになり、任意のテーブルを選択すると『テーブル分析ツール』が利用できるようになります。
本特集の記事一覧はコチラから