「データレイク」のコンセプトを理解しよう|Treasure Data(トレジャーデータ)は、まさにデータレイクだ
データレイクは登場したばかり。既存のサービスと比べて理解を深めよう! こんにちは、技術チームの岩谷です。前回、データレイクについての記事を執筆させていただきましたところ、何人かの方々から「それならデータレイクはトレジャーデータのソリューシ...
データレイクは登場したばかり。既存のサービスと比べて理解を深めよう! こんにちは、技術チームの岩谷です。前回、データレイクについての記事を執筆させていただきましたところ、何人かの方々から「それならデータレイクはトレジャーデータのソリューシ...
データレイク(Data Lake)はファイル置き場 こんにちは、技術チームの岩谷です。先日とある方より「このごろデータレイクって言葉をよく聞くけど、"Data Lake→データの湖"ってどういう事?」という質問をいただきました。この場を借...
第2回は「文字化けあるある」です。 前回は文字コード関する基本的な知識をまとめてみました。第2回の今回は「じゃあ文字化けはどういった場合に起こるの?」という場面についてパターン分けして説明していきたいと思います。皆さんも心当たりがあったら...
データベースの「タイプ」を知ってますか? こんにちは、ギックス技術チームの岩谷です。 先日とある方より「ビッグデータ分析処理で、Tableauはキューブを作成しないからシステムの運用がしやすいって聞いたんだけど、どういう事なのかな?...
データマートとキューブの違いって? こんにちは、ギックス技術チームの岩谷です。 先日とある方より「データマートとキューブの違いって?」という質問をいただきました。この手の質問を時折耳にしますので、この場を借りて、ちょっと解説させてく...
文字コード?文字化け?このモヤモヤ、気になっていませんか? こんにちは、技術チームの岩谷です。前回のデータフォーマットに関する連載で私は文字コードについて少しだけふれました。あれから何人かの方から「文字コードについて"ああ~あらためて言わ...
統計的検定とは? (第2回)と(第3回)で全量分析の優位点について、(第4回)で全量データを分析する際の注意点①を紹介しました。本日は、2つ目の注意すべき点である以下について説明します・ 注意点②:標本統計を前提とした統計的検定は、ビッ...
購買系のビッグデータには「べき分布」が多く注意が必要 (第2回)と(第3回)で全量分析の優位点について紹介しました。本日からは、全量データに注意すべき点を説明します。本日は注意点①の以下のポイントです。 注意点①:サンプルデータは中...
本日は、全量分析の優位性②にあたる、以下のポイントについて説明します。 優位性②:性別、年齢、居住地、嗜好など、非常に多くの要素による多重クロス集計を行うことができる。 購買行動や意識などを分析する時、性・年代別ごとのクロス集計を取...
「ロングテール」に代表される確率が低い事象には全量データ分析 本日は、全量データ分析の優位性①にあたる、以下のポイントについて説明します。 優位性①:確率が低い事象を扱う場合に、サンプルデータでは得られない知見が得られるという点で、...