分析しやすい「ファイル形式」|データ分析のお作法

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

BIツールに合わせて分析しやすいファイル形式でデータ出力する

BIツールを使用し、データ分析を行う場合、BIツールから直接DBを照会する方法が多いと思います。しかし、オフラインでの作業などでは、DBに接続することができません。そのため、DBからBIツールで分析するためのデータをファイル出力する必要が出てきます。これから説明するのは、このBIツールで分析しやすいデータファイルのファイル形式についてポイントを説明します。

文字コードはUTF-8コード

文字コードは、日本語や英語のように、各国、各OSによって様々な種類があります。通常、日本語のWindowsで使用している文字コードはShift-JISコードが一般的です。そのため、Windowsのメモ帳の文章や、Excelで加工したCSVファイルは、Shift-JISコードで保存されることが多いです。
しかし、BIツールは、海外製のツールが多く、Shift-JISコードを読み取れない場合もあります。そのため、世界で最も多く使われているUTF-8コードにする必要があります。この、UTF-8コードは、一般的なツールなら殆ど読み取ることができるため、UTF-8コードでファイル保存すれば間違いないと思います。
(文字コードについてはこちらを参照)

ファイル形式はCSVではなくTSV

「TSV(Tab Separated Values)ファイル」とは、一般的に多く知られている「CSV(Comma Separated Values)ファイル」の区切り文字を「カンマ」から「タブ文字」に置き換えただけのファイル形式で、DBやExcelのインポートファイルのファイル形式と使われる場面が多いです。
TSVファイルのメリットとして、データ項目の文字情報として「カンマ」や「ダブルクォーテーション(“)」が含まれていても、気にしないで読み込めるということです。
CSVファイルは、カンマによって、データ項目同士の区切り文字としています。そのため、データ項目の中にカンマが含まれていた場合、1つのデータ項目を2つのデータ項目と誤った解釈をしてしまいます。そのため、データ項目の文字列の両端をダブルクォーテーションで括って1つのデータ項目とする事があります。しかし、データ項目の中にダブルクォーテーションが含まれていた場合は、それに対しての何らかの対処を行う必要があります。
このように、CSVファイルは、カンマやダブルクォーテーションの扱いが、非常に面倒になります。しかし、TSVファイルの区切り文字のタブ文字は、データ項目の文字情報に中に含まれることは滅多にありません。そのため、文字情報を扱ったデータファイルとして、TSVファイルの方が扱いやすいのです。

タイトル行を付ける

BIツールでは、データファイルの最初の行をタイトル行として設定することにより、そのままデータ項目名として表示できることが多いです。そのため、タイトル行は、BIツールの設定の手間を省くために重要です。(BIツールでは、全角文字を扱えない場合があるため、半角文字のタイトルを考慮してください)
また、データファイルを作成して、外部にデータ分析を委託する場合は、タイトル行がデータファイルの設計書の代わりにもなります。

数値項目にカンマはNG

BIツールでは、数値項目の途中にカンマ文字が入っている場合、数値情報ではなく、文字情報としてしか扱えない場合があります。そのため、データファイルを作成する際、数値項目には、カンマや通貨文字などの数字以外の情報は入れないでください。

データファイルは取り込むツールやDBに合わせる

今回、ご紹介したポイント以外に、日時情報などの文字列の表記方法がありますが、取込先のツールやDBによって、扱える表記方法が異なります。そのため、今回、ご紹介したポイントに注意して、データファイルの取込先のツールやDBに最適なデータファイルの形式を作っていく必要があります。

連載/関連記事リスト:データ分析のお作法
SERVICE