ビッグデータを考える|ツイッターはビッグデータなのか、を考える (副題:” ツイート分析 ” の勘所を押さえよう)
- TAG : Garbage in Big “X” Out | ギックス総研 | ビッグデータを考える
- POSTED : 2014.10.13 10:52
f t p h l
ツイートデータは「ビッグデータ」か
ギックスは、創業当時からソーシャルリスニングに取り組んできました。
実際に、2012年夏には「ギックス総研」というボランタリーな活動も立上げ、50本以上のソーシャルリスニングレポートを無料公開しています。
関連記事:ギックス総研のご紹介
この分析を踏まえ、「ツイッター=ツイートデータ」について考察を進めたいと思います。
実は「BIGサイズ」なデータではない。
ビッグデータときくと、その語感から「ビッグサイズデータ」のことだと思われがちです。
ビッグデータの定義は、一般的に3Vと呼ばれています(IBMは4Vと提唱)。以下の3+1つです。
- 容量(Volume)⇒大きい、たくさんある
- 種類(Variety)⇒種類が多くて複雑
- 頻度・スピード(Velocity)⇒リアルタイムなど高頻度更新
- 正確さ(Veracity)⇒IBMが提唱。曖昧さの排除などが重要という「データそのもの」の話ではなく分析の方向性の話
最後のV=Veracityについては、正直「他の3つとレベル感が違う」と思いますので、データの性質を示す従来の3V(Volume/Variety/Velocity)の観点で、ツイートデータを見てみましょう。
3Vの視点で考えてみると・・・
ツイートデータは、種類(Variety)という意味では、いわゆる定型データではなく「非定型」データです。また、情報もイチゼロで語れる定量データではなく「定性データ」となりますので、分析の複雑性という意味ではバッチリ「ビッグデータ」です。
また、頻度・スピード(Velocity)についても、文句なし「ビッグデータ」です。リアルタイム更新ですし、その更新も「ユーザーが勝手に更新する」というタイプのデータですから、定期的に更新されるものよりも不規則性も高いと言えます。
しかし、データサイズ=容量(Volume)という観点では、実は、それほど大きなものではありません。
容量(Volume)は、意外と小さい
ツイッター全体では、アカウント数は10億アカウントを超えると言われています。(そのうち半分弱は、一度もツイートしていない、という情報もありますが)全世界での1日当たりのツイート数は、2013年に公開されたIPO資料では、1日に5億ツイートと言われています。
日本国内でも、月間20億ツイートと言われており、1日あたり6~7000万件程度と想定されます。
しかし、これはあくまでも「全体」の話です。
確かに、世の中の全ての人がつぶやいた情報を拾って分析しようとすると、この規模のデータを扱うことになりますので、間違いなく「BIG Volume=BIGサイズ」なデータになるでしょう。一方、実際に「ツイッターを分析する」という話になると、そんなことにはなりません。
A.テーマ(キーワード)で絞る
ITproでの連載「ソーシャルリスニングで何ができるか」(第2回)においてご説明した通り、そもそも「知りたいことに届く”分析対象”ツイート」を絞りこむことが分析の初手として非常に重要です。
それはつまり、一般的な企業がソーシャルリスニングを行う際に「全件=10億件/dayなんて規模での分析を行うことはない」ということを意味します。
もちろん、新たな医薬品の開発を進めたいという製薬会社が「病気のトレンド」を知りたい、だとか、天気予報をリアルタイム更新していく企業がツイートデータを活用したい、というような場合には、膨大な量のツイートが収集されてしまうでしょう。(それでも、全量から比べると、数万分の1程度になってしまうでしょう)
しかし、自社の特定商品・特定ブランドについての調査の場合、そこまで大きなボリュームになることは稀です。(自社の商品が「ツイッターとの親和性が低い」場合には、「誰にもつぶやいてもらえていない」ということさえも起こり得ます。)そうすると、競合含めて過去1年分のツイートデータを集めたのに、10社合わせて3万件でした。であるとか、自社に関しては2千件でした。というようなことが起こります。
ツイートデータそのものは、テキストデータで140字が上限です。ここに、ツイートID、投稿日時、アカウント名、プロフィール、RT有無、RT元記事情報などの情報が付与されてくるわけですが、正直なところエクセルで扱えるデータ量です。(現在のエクセルは100万件超まで扱えますので、10万件や20万件くらいならデータ量という観点に限ればエクセルでも十分ハンドリングできます)
B.期間で絞る
さらに、どれくらいの期間のデータが必要か、という観点もデータ量に影響します。
例えば、新商品に関する反応調査なら、発売後3カ月程度で十分かもしれません。テレビCM(あるいはテレビ番組)や、駅などでの広告看板ならば、放映・掲載期間に合わせて取得すればよいでしょう。なんらかのイベントを企画した場合には、その企画の開催期間が中心になるでしょうね。
それらを考えると、長くても数か月、場合によっては数日程度で十分だったりします。
もちろん、大きな集客力のあるイベントであれば、1日当たりのツイート数が大きいことも考えられますが、それでも数日ということであれば、100万件を超えることは、まずないでしょう。例えば、先日の東京ゲームショーの場合、ピークが9/21で約6万、コンスタンスに集客力のある件。4日間で19万件です。ここから、前述のA.テーマで絞る によって、自社に関するキーワードのみを抽出すると、この数十分の一=4日間でせいぜい1万件程度に収まるだろうと思います。(*)
あるいは、オリエンタルランド(東京ディズニーリゾート)のような「恒常的に集客力のある場所」であっても、「ディズニーランド」で1日5千件程度、「ディズニーシー」だとその半分(2,500件/日)という感じです。「ディズニーリゾート」は数百件/日。ということで、全て足して1日せいぜい1万件弱(8千件くらい)というのが通常のツイート量です。スペシャルイベント時にはもっと増えるでしょうから、1日平均1万件として、1年通して分析すると360万件と非常に大きなボリュームになりますが、1ヵ月と限れば30万件ですみます。1週間なら7万件です。(*)
トランザクションデータとしてみると、7万件というのは小さな数字です。例えば、セブンイレブンの平均売り上げが67万円/日(**)で、コンビニの来店客一人あたり売り上げが600円程度と言われていますので、一店舗当たり約1,000件/日の購買情報が存在するわけですね。全国に16,000店(***)ありますから、毎日1,600万件の購買データが存在しています。さらに、このデータを「何を買ったか」というレベルに落とし込めば、2~3倍の「購入商品」情報があります。これらに比べると、やはり「ビッグサイズ」ということにはならないでしょう。
問題はデータサイズではない
ご覧いただいた通り、ソーシャルリスニングにおける分析のむずかしさは「容量(Volume)」ではありません。
「自由記述のテキスト情報」である(Variety)、という一点に尽きます。ここが「ツイートデータがビッグデータと呼ばれる所以」があります。
この分析は非常に難しいので、正直な話をすると、数百件程度なら全件を目検(つまり、普通に読む)したほうが確実ですし手っ取り早いです。もし可能なら、2千件程度でも、時系列に並べてツラツラと目検しても良いとさえ思います。その際、目検の量が増えてくると「印象に残ったもの」だけを無意識にピックアップしてしまうので、正しい傾向を捉えるために、適切な分類フラグを各ツイートに付けていく作業をしておけば、後から分析し易くなります。
たしだ、この作業を1回限りではなく、複数回繰り返そうとするならば、効率の面でも正確性の面でも(そして、作業者の精神衛生上も)分析ツールの導入や、分析のプロへの外注などを検討すべきだと思います。
関連記事:ソーシャルリスニングにおけるデータアーティストの役割
というわけで、ツイート分析に際して、非常なる困難さはあるものの、「ビッグデータ」という言葉から最初に想起される「データの大きさ」が鍵なわけではない、ということを憶えておいていただければと思います。データサイズが大きいと、その時点でプロに頼むしか選択肢が無くなりますが、データサイズがエクセルでハンドル可能である限りは、一般企業の企画部門などでも「分析に着手できる」のですからね。
———— ご参考 ————
尚、自社におけるビッグデータ活用でお困りの方は、弊社CEOの著書「会社を強くするビッグデータ活用入門」を是非ご一読ください。(僕も本書内で「ソーシャルリスニング」に関するコラムを執筆しております。)
会社を強くする ビッグデータ活用入門 基本知識から分析の実践まで
出所/参考URL:
- *|「Yahooリアルタイム検索」 http://realtime.search.yahoo.co.jp/
- **|http://president.jp/articles/-/11579
- ***|http://www.sej.co.jp/company/suii.html
f t p h l