本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
目次
エクセルでも「結構できる」
いま、ビックデータ分析が流行しており、様々な業界・企業において、高価なシステムを構築したり、専門的なツールを導入したりして、企業が抱える経営課題や新しいインサイトを何とかしようとしています。graffeはそのような流れと理念は同じくしておりますが、分析はツール・スキルであり、本来的に企業が力を入れなければならないのは、データから出てきた結果を見、いかにアウトカムを得ることと考えています。そのため、アウトカムを得ることができれば、高価なツールにこだわることなく、また高度な統計解析理論にこだわることはないと考えています。
Excelと普通のノートPCでどこまでできるのか
その為、今回は、多くの人にとってもなじみが深いExcelと普通のノートPCでどこまでの大きさのデータが分析できるかを試してみました。
関係するのはデータ量、PCスペック
実はgraffeサービスが開発される前から、ビックデータからSQLでデータをある程度絞り込んで抜き出してきたものをExcelで分析、グラフ化するという行為自体は弊社でもよく行っています。(もちろんデータベースをTableauに読み込んでグラフを描画したほうが多くのデータを素早くハンドリングできることや、Rなどの統計解析ソフトによって、大量のデータから高度な示唆出しができることは知っています)Excel+ノートPCで分析をする場合、ネックになってくるのはデータ量と分析の速度です。ご存知のように最近のExcelは、横方向にはA列からXFD列(=16,384列)、縦方向は1行から1,048,576行までのデータ量が1シートで読み込める最大量です。この量に対して、計算式、ピボットテーブル、グラフなどを付け加えていくことで、Excel Bookの容量は大きくなっていき、ファイルを開くのにも時間がかかる(しまいには開かなくなる、突然落ちるなどの現象が起きる)ようになっていきます。それを防ぐにはある程度のPCスペックが必要なのはいうまでもありません。
アナリテイクスベンチマークテスト
では、実際にベンチマークテストを行った結果を検証してみましょう。
今回用意したデータは、
1)会員データ)10万行×170列
2)POSデータ)63万行×5列
のデータ。また、今回用意したPCは、
A)Thinkpad X1 Carbon (CPU:Core i7(2.4GHz)、メモリ8GB)
B)let’s note (CPU:Core i5(1.8GHz)、メモリ4GB)
さて、まずさっそくデータを取り込んでみました。
データ1をPC-AでExcelに取り込み:9.8秒
データ1をPC-BでExcelに取り込み:47秒
データ2をPC-AでExcelに取り込み:25秒
データ2をPC-BでExcelに取り込み:66秒
次に、データからピボットテーブルを作成し、分析しました。
データ1をPC-A+Excelで分析:2.6秒
データ1をPC-B+Excelで分析:8.7秒
データ2をPC-A+Excelで分析:3.3秒
データ2をPC-B+Excelで分析:13.8秒
ベンチマークテストの結果からは、最新鋭のノートPCであれば、比較的多くのデータをスムーズに分析することが可能という結果でした。(最新鋭でなくとも、取り込みは1分超かかるものの、分析は対して気にならないレベルの速度でした)また、ピボットテーブル数個であれば、Excelサイズがそれほど大きくならないこともわかりました。
いかにアナリティクスをスマートに設計するのか
しかし、いくらデータが読込めたからと言って、前述のとおり、計算式、ピボットテーブル、グラフをつけたしていけば、際限なくファイルのサイズは拡大の一歩を辿ることになるでしょう。
そこで、次回は、データ容量が多い中、コンパクトなサイズのExcelを作る(不必要なファイルサイズの拡大を防ぐ)にはどうすればいいのかを簡単なTipsにはなりますが、お話ししたいと思います。
【連載、検証:エクセルでどこまでビックデータ分析ができるのか?】
- エクセルは”かなり”使える (本編)
- エクセルで大量データを回すためのコツ
- ファイルサイズを押さえるコツ
【連載:クロス集計の落とし穴】
ギックスの書籍が発売されました
コチラの書籍では、分析の前に、果たして何を考えるべきかを中心に解説されています。売上データを用いた分析事例をケーススタディとして収録しています。是非、ご一読ください。
数字力×EXCELで最強のビジネスマンになる本