メモ帳じゃダメなの?データ分析時にテキストエディターの助けが必要|分析環境を考える
f t p h l
本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
分析データファイルを確認・編集するためにはテキストエディターは必須アイテム
お客様から受領した分析用のファイルをメモ帳で確認を行った際に「文字化けしている」、「改行を無視して表示されてしまった」などの経験はないでしょうか? テキストエディター(以下、エディター)を使うことによって、それらの問題を回避することが出来ます。数あるエディターの中で、今回は、Windowsのソフトウェアの中でメジャーな「サクラエディタ」を一例として、エディターを紹介していきます。
エディターがメモ帳より優れている3つの理由
エディターがメモ帳よりも優れている点として、「様々な文字コード、改行コードに対応している」、「空白文字の種類を確認できる」、「ユーザーインターフェースが優れている」という3点が挙げられます。
様々な文字コード、改行コードに対応している
メモ帳でテキストファイルを開くと「文字化けしている」、「改行が無視されている」といった問題が度々発生します。これは、メモ帳が、Windows標準の文字コードと改行コードにしか対応していない為、発生してしまう問題です。
なぜ、このような問題が発生してしまうか? それは、テキストファイルを作成・編集したOSやツールによって、そこで扱える文字コードと改行コードになってしまうからです。例えば、Mac OSやLinuxで作成されたファイルだった場合、Windowsでは扱えないケースがあります。
そのため、受領したデータの確認をする場合は、どんな文字コードでも対応できるエディターが必要になります。
(文字コードについてはこちらを参照)
空白文字の種類を確認できる
データ分析では分析するファイルに含まれている空白文字を厳密に判断する必要があります。
メモ帳ではファイルの中に存在する空白文字がスペースなのかタブ文字なのか見ただけでは判断がつきません。しかし、エディターでファイルの表示を行った場合、空白文字が全角スペース、半角スペース、もしくはタブ文字であるかを見ただけで判断することが出来ます。
エディターの種類によっては、全角スペース、タブ文字などの目には見えない文字について、ユーザー設定で行えることが多いです。ぜひ、自身にあった設定を行い、これらの文字を性格に判断できるようにしておきましょう。
ユーザーインターフェースが優れている
エディターはメモ帳よりも画面上に表示している情報が多く、行数、桁数、文字コードなどによって、カーソルが立っている場所の情報が「文字情報」として分かります。また、エディターは行数やルーラーも表示しているため、カーソルが立っている場所の情報が「視覚情報」としても分かります。
そのため、文字数などの情報を把握や文字の位置調整をメモ帳よりも容易に行うことが出来ます。エディターでこれらの機能を用いることにより、メモ帳よりも効率的に作業を行うことが出来ます。
データ分析を行うなら、ちゃんとしたエディターを使おう
エディターには様々な種類がありますが、どのエディターも上記で述べられている基本的な機能は搭載されています。Windows標準のメモ帳の機能だけでは、様々な分析データファイルに対応することは難しいです。そのため、エディターの機能が必要になってきます。
今後、データ分析を行うファイルを確認、編集を行う際には、データ分析に適したエディターを使用しましょう。
f t p h l