本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
今更、聞けないデータベースのデータ型。Excelとはここが違う
データ分析を行う上でデータ型は、基礎中の基礎ですが、データ分析に携わらない人にとっては、データ型は、ほとんど意識する必要はありません。これから記載する内容は、Excelと比較しながら、データベースのデータ型について、判断するポイントを解説します。
データベースのデータ型とは
データ型について、Wikipediaの内容を引用します。
データ型(データがた、data type)とは、コンピュータにおけるデータの扱いに関する形式のことである。データタイプとも。データ型は、プログラミングなどにおいて変数そのものや、その中に代入されるオブジェクトや値が対象となる。
出所:Wikipedia
要するに、データベースのデータ型とは、登録された値が「どのように扱われるか」を定義したものです。よって、データ分析側の担当者から見た場合、非常に重要な事項ですが、データ分析依頼側の担当者から見た場合、データファイルの中の同じ文字情報のため、重要な事項ではありません。これから代表的なデータ型について記載します。
数値型
データベースの数値型は、四則演算や集計などで扱われる項目に設定します。数値型は、数値として扱うことができる値である必要があるため、カンマ文字などが途中に含まれている値は、数値としては扱うことができません。Excelで大きな数を入力すると「1E+21」などと表示され、正しい計算が行われない事がありますが、データベースでは、設定したデータ型の数値型より大きな値を登録しようとするとエラーが発生します。また、Excelで細かい値(小数点以下の桁数が多い)を入力すると小数点以下のある部分から事がありますが、データベースのデータ型も同様に切り落とします。
データベースの数値型には、登録できる数字の範囲、小数点以下が持てる/持てないデータ型など数種類のデータ型があります。
文字型
データベースの文字型は、文字情報として扱われる項目に設定します。文字型は、登録できる文字数をバイト単位で設定します。バイト単位とは、パソコン上の1文字を表現するデータ量ですので、日本語などの全角文字を扱う場合は、注意が必要です。設定したバイト数より大きな長い文字列を登録しようとした場合、データベースのエラーが発生します。文字型には、固定長と可変長があります。
日付型/時刻型
データベースの日付型と時刻型は、日付型や時刻型として扱われ、日付計算や曜日表示を行う項目に設定します。Excelにも日付型などがあり、文字型と違う振る舞いが行われます。データベースの日付型も同様ですが、データベースの日付型や時刻型には、世界の時差情報としてタイムゾーンが含まれています。
バイナリ型
データベースには、文字情報や数字情報以外に画像などのドキュメントも保存できます。これらは、ドキュメントの種類にかかわらずバイナリ型に保存されます。
その他のデータ型
データベースのデータ型には、これらの他にフラグ型、貨幣金額などデータベースブランドごとに独自のデータ型を持っている場合があります。
データベースのデータ型はデータ分析の基礎だからこそ重要
データベースのデータ型は、何種類もあります。それらのデータ型でデータ分析の精度や作業効率が変わります。これらの設定には、高い技術力が必要です。
尚、弊社のgraffeのクレンジング処理は、頂いたデータを100%生かせるように、最適なデータ型を設定しています。是非、関連記事もご参照ください。
データ分析用語:索引