本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
データから一意となる項目を判断しないと正しい集計が行えない
データ分析を行う上で、データの一意となる情報を常に把握しておく必要があります。データを一意にするデータ項目は1つとは限りません。複数の場合もあります。
データが「一意となる」とは
「一意」は「意味や値が一つに確定していること。」という意味です。データの一意とは、大量にあるデータから、1つの情報が特定できる状態を意味します。また、データ分析の中で「一意性があるテーブル」とは「一意になる情報をキー情報を保有したデータ群(テーブル)」を指します。(参考:データベースのテーブルとは)
単一項目でデータの一意を判断する
単一項目でデータの一意を判断するものとしては、会員番号、運転免許証番号、クレジットカード番号などがあります。ただし、氏名は同姓同名が存在する可能性があるため、一意とはなりません。基本的に一意となる情報は、氏名や商品名など人間が判断して付けた名前ではなく、機械的に付けた番号やコードになります。
余談ですが、個人を判断する情報として、DNA情報が知名度が高いですが、一卵性の双子は同一のDNA情報になるため、個人を判断する情報にはなりません。日本では、全国民から個人を完全に特定する情報は「マイナンバー」ぐらいしかありません。
複数項目でデータの一意を判断する
会員番号のように、桁数が多く、機械的に重複しないように割り振られた情報の場合は、単一項目でデータを特定できますが、桁数の少ない伝票番号では、データを特定できません。それは、桁数が少ないため、伝票番号を巡回して使用している場合があるためです。この場合、下記のように会計時間と伝票番号でデータを特定できます。伝票番号と会計時間で一意となる理由として、同時刻に同じ伝票番号がオペレーションで発生する可能性がないためです。
一意となる項目がない
一意となる項目がないデータとして、一番代表的なデータは、ログデータです。ログデータは、発生タイミングで作成されます。ログデータには、ログ(行)が記載された時間が含まれますが、同じ時間に複数のログが記載されることもあります。このような一致となる情報がない場合、ログファイルの行数を「一意となる」情報とする場合があります。
一意となる情報を判断するのは難しい
このように一意となる情報は、会員番号のような1つの項目で判断できるデータもありますが、複数項目から判断するデータや、一意となる項目をプログラムなどで意図的に作成が必要なデータがあります。
データ分析用語:索引