本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
データマート(DM)とは「データベースの用途の名前」です。
本日は「データマート(DM)」という言葉を解説します。
DMはデータベースの用途の名前です。どんな用途でしょうか?
その用途は「データの市場(いちば)」
データマートを理解するにあたって、まずデータウェアハウス(DWH)を理解してしておくとよいでしょう。データウェアハウスは「分析用途で使われるデータベース」です。これを表現するために「データの倉庫」という表現が用いられます。(詳しくはこちらの記事をご参照ください)
これに対してデータマートの用途は、同じく「分析用途で使われるデータベース」ではあるものの、「データの市場(いちば)」という表現がなされます。その意味は「データを見たい人(=利用者)がすぐモノを手にする為のデータベースの用途」ということになります。要するに、「市場に行けばすぐカレーの材料がそろう」というニュアンスがこめられています。
倉庫であるデータウェアハウスには大量のデータが蓄積されていますが、あくまでも「倉庫」ですので、利用者が直接その中に入っても、膨大な敷地に整然と並べられた棚に格納された”在庫の山”に当惑することでしょう。そんな食品倉庫に、今夜の夕食にカレーを作りたい奥さんが入り、肉の棚…野菜の棚…ルーの棚…と歩き回るには労力も時間もかかります。データマートは「カレーの材料が格納されたデータベース(の表)」「から揚げの材料が格納されたデータベース(の表)」などを利用者がデータを欲しいと思ったときに取り出したいという用途で用いられるデータベースなのです。
実際には「商品分析におけるキャンペーン対象商品売上」「会員データ分析における退会予備軍顧客」などをデータウェアハウスから抽出してデータマート上にデータを格納し、分析担当者は可視化ツール等でそのテータベースに対して様々な抽出条件・集計条件を指定して分析作業を行うという利用用途が想定されます。
データマートに求められるデータベースの要件とは
上記のような用途で利用されるデータマートには以下のような要件が求められます。
利用者が検索ボタンを押してから画面に結果が表示されるまでの応答速度
→利用者は瞬間的に思いついた条件から結果を得て気づきや意思決定を行うことを求めています。データベースからの応答速度はなによりも重要であるといえるでしょう。逆にこれがなければ、そもそもデータマートは必要とされず利用者はデータウェアハウスに対して検索を行えば目的を達成できるはずです。
利用者が指定する抽出条件・集計条件をできるだけ自由に指定できる
→これは「多次元分析」という機能で表現されます。
このあたりの技術的な話は関連記事にも掲載しておりますので、よろしければご覧になってください。
データ分析用語:索引