本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
RAID機能があるNASに大規模データを保存することで、データ損失を防ぐ
データ分析を行う場合、クライアントからCSVファイルなどの大規模データ受領します。これらを一般的なパソコンに保存した場合、近い将来、パソコンの保存領域を圧迫します。また、パソコンの記憶装置であるハードディスク、またはSSDは、精密機械であるため、不慮の事故で壊れる場合があります。このような事態にならないように、大規模データをNASに登録します。
NASとは
NAS(ネットワークアタッチトストレージ)について、Wikipediaの内容を引用します。
ネットワークアタッチトストレージ (Network Attached Storage) とは、コンピュータネットワークに直接接続して使用するファイルサーバ。TCP/IPネットワークに直接接続して使用する補助記憶装置であり、その実体はコントローラとハードディスクから成るファイルサービス専用コンピュータである。OSもファイルサービス用にチューニングまたは独自開発されている。
出所:Wikipedia
要するにネットワーク上のファイル保存だけに機能を絞ったサーバーです。
NAS環境を構築するためには、専門的な知識はほとんど必要ありません。NASにネットワークケーブルを挿し、ネットワークに接続されたパソコンから最低限の設定を行うだけで環境構築できます。また、記憶容量も1TB(1GBの1,000倍)以上の製品が多く、値段を数万円から購入できるため、小規模オフィスでも導入しやすいです。
RAIDとは
NASの上位機種には、RAID機能が備わっている製品があります。RAIDについて、Wikipediaの内容を引用します。
RAID(Redundant Arrays of Inexpensive Disks、または Redundant Arrays of Independent Disks、レイド)は、複数台のハードディスクを組み合わせることで仮想的な1台のハードディスクとして運用し冗長性を向上させる技術。ディスクアレイの代表的な実装形態で、主に信頼性・可用性の向上を目的として用いられるものである。
出所:Wikipedia
NASでは、RAIDの冗長性を活かして、仮にNASのハードディスクが1台壊れてもデータが失われない状態を保つことができます。そして、壊れたハードディスクを交換するだけで、再度、冗長性を保つことができます。ハードディスクを交換する場合、既存のRAID構成を行っているハードディスクの性能(記憶容量と書込み速度)が同じ、または、それ以上の性能のハードディスクにする必要があります。
RAIDには、主に3種類(レベル)あり、それぞれの特性がありますので注意が必要です。
RAID0(ストライピング)とは
RAID0は、複数台のハードディスクにデータを分散して読み書きし高速化したもので方式です。そのため、冗長性がなく、複数台のハードディスクの1台でも故障した場合、RAID構成した全てのハードディスクのデータは失われます。そのため、NASで重要なデータを保存する場合、使用しない事をお勧めします。
RAID1(ミラーリング)とは
RAID1は、2台のハードディスクに同時に同じデータを書き込む方式です。ハードディスクが2台同時に故障した場合、RAID構成した全てのハードディスクのデータは失われますが、通常の運用では滅多に発生しない状況のため、高い信頼性があります。欠点としては、2台のハードディスクに同じデータを書き込むため、RAID構成のハードディスクの半分の記憶容量しか保存できない事です。
RAID5とは
RAID5は、水平パリティを使用して複数(最低3台)のハードディスクに誤り訂正符号データと共に分散させて記録する方式です。RAID構成中のハードディスクが1つが故障した場合、誤り訂正符号データからデータを復元可能です。また、RAID0と同様に複数台のハードディスクにデータを分散して書き込むため高速です。
記憶領域について、誤り訂正符号データとして、ハードディスク1台分の領域が必要になりますので、RAID構成のハードディスクから1台分の記憶領域を引いた値が、RAID全体の保存可能領域になります。
データ分析用語:索引