本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
目次
データベースとは「ある規則で並べられたデータの集まり」
本日は「データベース」という言葉を解説します。
データベースはデータの集まり。でもデータの集まりはデータベースであるとはかぎりません。
データベースとは何か?この質問の答えは「”データベース”というソフト」や「”データベース”というキーワード」があまりに一般的であるという理由から、かえってあいまいなものになっています。私たちはこれを「ある規則で並べられたデータの集まり」であると考えています。その意味を今回は考えていきましょう。
データの集まりはこんな感じ
前回は「データ」という言葉について触れましたが、そこで初代内閣総理大臣伊藤博文さんのデータを例に挙げました。
[①伊藤博文さんのデータ]
伊藤 博文
いとう ひろぶみ
1841年10月16日
周防国熊毛郡
松下村塾
1909年10月26日
中国黒龍江省
今回はこれに加えて第二代総理の黒田清隆さん、第三代総理の山縣有朋さんのデータを示します。
[②黒田清隆さんのデータ]
黒田 清隆
くろだ きよたか
1840年11月9日
薩摩国鹿児島郡
1900年8月23日
東京府
[③山縣有朋さんのデータ]
山縣 有朋
やまがた ありとも
生年月日 1838年6月14日
長門国阿武郡川島村
松下村塾
1922年2月1日
神奈川県小田原市
ここで、上記3人のデータをまとめてみると、以下のような集まりができあがります。
─────────────
伊藤 博文
いとう ひろぶみ
1841年10月16日
周防国熊毛郡束荷村
松下村塾
1909年10月26日
中国黒龍江省
黒田 清隆
くろだ きよたか
1840年11月9日
薩摩国鹿児島郡
1900年8月23日
東京府
山縣 有朋
やまがた ありとも
1838年6月14日
長門国阿武郡川島村
松下村塾
1922年2月1日
神奈川県小田原市
─────────────
ここで、申し上げたいのが、「これはデータの集まりではあるが、データベースではない」ということです。なぜなら「データの並びに規則がない」からです。例えば一番最後の行に書いてある「神奈川県小田原市」これはなんでしょう?人間は頭がいいので地名である事はおそらくわかりますが、何の地名なのでしょうか。実はこれは山縣総理が亡くなった地名なのですが、それはこの集まりからだけではわかりません。これを明らかにするためにはこの集まりを作る際に規則が必要なのです。そして、それこそがデータベースの存在意義なのです。ではこれからこの集まりをデータベースにするために規則を与えていきます。
データベースはこんな感じ(規則を与える)
まず、出来上がりの「データベース」を先にお見せします。
氏名 | ふりがな | 出生日 | 出生地 | 出身校 | 死没日 | 死没地 |
伊藤博文 | いとうひろぶみ | 1841年10月16日 | 周防国熊毛郡 | 松下村塾 | 1909年10月26日 | 中国黒龍江省 |
黒田清隆 | くろだきよたか | 1840年11月9日 | 薩摩国鹿児島郡 | 1900年8月23日 | 東京府 | |
山縣有朋 | やまがたありとも | 1838年6月14日 | 長門国阿武郡 | 松下村塾 | 1922年2月1日 | 神奈川県小田原市 |
与えた規則を以下に示します。
- 総理お一人が持つデータを1行で表す。
- 氏名、出生日など各項目に順番をつける。(この例では項目に名前も与えています。)
「なんだExcelみたいな表にしただけじゃないか?」と思われる方もいらっしゃるかもしれません?まさにそのとおりです。なぜなら表にはデータを並べるための規則があって、これが「単なるデータの集まり」を「データベース」にする初めの一歩だからです。こうすることで我々はデータの集まりから欲しいデータを迅速に正確に取り出すことができるのです。
おまけ
ここまで読んでお気づきの方もいらっしゃると思いますが、Excelもデータベースです。Excelというソフトウェアは「表計算ソフト」というカテゴリに分類されるソフトウェアですが、その中で皆さんが作成・管理をなさっているデータのほとんどは、「単なるデータの集まり」ではなく「データベース化されたデータ」という性格をすでに色濃く持っているのです。
このあたりは関連記事でも詳しく触れていますので、よろしければご覧になってください。(リンク先で取り上げているデータはすべて「データベース」であるといえます。)
データ分析用語:索引