ギックスの考えるデータサイエンスとは
- TAG : Advent Calendar | D&S Div | Science | Tech & Science
- POSTED : 2020.12.21 09:00
f t p h l
この記事は GiXo アドベントカレンダー の 21 日目の記事です。
昨日は、 データ分析におけるデザインの重要性 でした。
Design & Science Div. 山田です。昨日の記事では、 Design & Science のうち “Design” について書きましたが、今日は “Science” の方です。もう少しお付き合いください。
昨日の記事の冒頭に書いたように、データ分析において Science という単語からは「データサイエンス」という言葉を思い浮かべる人が多いと思います。ただ、ギックスの “Science” は、世の中の「データサイエンス」とは少しだけギャップがあると考えています。このあたりについて、本記事では書いていきます。
目次
ギックスのデータサイエンスは Science with Big Data
データサイエンスって何?
データサイエンスやデータサイエンティストという言葉を聞くようになってから久しいです。でも、いまだにこの言葉に対して、正直あまりピンときていません。
Wikipedia によると、
データサイエンス(英: data science、略称: DS)またはデータ科学とは、データを用いて新たな科学的および社会に有益な知見を引き出そうとするアプローチのことであり、その中でデータを扱う手法である情報科学、統計学、アルゴリズムなどを横断的に扱う。
データサイエンス – Wikipedia
とのことですが、科学にはデータがつきものです。科学では、実験や調査を通してデータを取得し、取得したデータを分析して知見を得ていきます。大学や会社で科学の分野に関わっていた/関わっている方なら、データを扱うというのは当たり前のことですよね。
データサイエンスという言葉が生まれたのは、「データ」が大量かつ複雑になってきて、その大量・複雑なデータを扱うための分野が必要になってきたからなのだと思います。それが上の引用の中の「情報科学、統計学、アルゴリズムなどを横断的に扱う」という部分でしょう。大切なのは「横断的に」という部分ですね。
Science with Big Data
というわけで、データサイエンスという言葉がなんとなくわかってきましたが、改めて、ギックスにおけるデータサイエンスについて考えていきます。
昨日の記事で、
分析のアウトプットが確からしいものであるという裏付けが必要です。そのために、統計という分野があり、ギックスでももちろん統計は大切にしていますが、それよりも Science という要素を重視しています。
データ分析におけるデザインの重要性
と書きましたが、この部分を詳しく説明していきます。
データ分析をしていると、分析から出てきた結果を本当に信じていいのか、という場面に出会うことがあると思いますが、本当に信じていいのか、すなわち結果が確からしいものかどうかについて検証するには統計が使えます。しかしながら、統計は一つの手段であって、それよりも重要なことは、出てきた結果が納得感があるかどうかだと考えます。「納得感がある」というのは、目の前にあるデータの向こうにある実世界(そのデータが取得されている現場)で起きている現象と照らし合わせて整合性が取れている、という状態です。納得感があれば、分析結果は実世界の現象を確からしく表現できているといえます。統計的に確からしくても、納得感がなければ何かがおかしいと疑うべきです。疑似相関(2つの事象に直接的な因果関係がないのに、見えない要因によって因果関係があるかのように推測される相関)は、統計的には確からしいが納得感が出ないという例になるでしょう。
データ分析における主役はデータではなく、データの向こうにある実世界です。データ分析によって、実世界の現象の裏側に存在するメカニズムを明らかにしていくことができます。まさに Science ですね。データサイエンスは、 Science with Data と表現するのがギックスとしてはしっくりくるのかなと思います。データサイエンスの「データ」の部分を強調するなら、 Science with Big Data でしょうか。
Science は観察から始まる
分析結果が実世界の現象と整合性が取れているかどうかが大事であると上で書きましたが、そのためには世の中で起きていることをよく観察することが大事です。観察は Science の始まりのステップです。観察し、仮説を立て、実験し、考察する、というのが Science の進め方です。「データサイエンス」では、実験の部分を「分析」と考えれば良いでしょう。実世界を観察すればするほど、多くの仮説を立てることができ、幅広い視点での分析につながり、より多くの知見を得ることができます。
ギックスでは、クライアントからデータ分析の依頼を受けると、できるだけ「データが取得される現場」を見にいくように心がけています。マーケティング系のデータ分析ではクライアントのサービスを自分で体験するようにしますし、業務改善系のデータ分析であればクライアントの業務の行われている場を見学させていただくこともあります。
データサイエンティストと聞くと、PCに向かって黙々と作業するというイメージを持つ方も多いでしょうが、私は違うと思います。いや、世の中の「データサイエンティスト」はそれで良いかもしれませんが、ギックスの “Scientist” は違います。現場百遍です。嘘です。一遍でも十分ですが、データが集まっている現場をこの目で見にいくというのが、データ分析からより有益な知見を得るためには重要なことだと考えます。早くコロナがおさまってほしい。。。
以上をまとめると、ギックスでは、データサイエンスとは「ビッグデータに対して統計やアルゴリズムを適用することで、実世界の裏側に存在するメカニズムを明らかにすること」であると考えます。
Science を活かすための Design
書いてきたように、ビッグデータを使った Science からは、多くの知見を得られます。データが豊富であれば豊富であるほど、得られる知見は多くなります。豊富である、というのは量というだけでなく、バラエティさという意味でもです。バラエティ豊かなデータを組み合わせて分析していくことで、より多くの知見を得られてきます。
その豊富なデータを使いこなすだけの、統計やデータエンジニアリングのスキルも当然ながら大事ですが、昨日の記事で説明した “Design” が重要となるわけです。豊富であるがゆえに、どんな分析が役立つかという視点を持って、分析を Design していかないと、発散してしまい、ただ「おもしろい」というだけの分析結果になってしまいます。これが、 Design & Science Div. 紹介 の記事にある
Garbage を X (something valuable) に変えるため、 プロジェクト初期段階でGarbageと対峙し、 Design および Science を用い”整流化”の方向づけを行う
Design & Science Div. 紹介
という部分です。ちなみに、 Garbage とは「ゴミのようなデータ」ですが、「取得したままの生データ」や「手に負えないくらいの大量のデータ」と考えていただくと、よりイメージできるかと思います。
Garbage から Design と Science により X (something valuable)への道筋を立てる工程は、冶金における砂金採りみたいな感じですね。砂金採り、大変。でも砂金を見つけた時の喜びはひとしおです。砂金採り、したことないけど。
好奇心の強い人、募集中
最後に、採用の案内を。
昨日の Design と今日の Science 、いずれも好奇心が重要です。 Design には、どのような機能や見た目を持たせるとクライアントに有益な分析になるのかという視点が大事で、そのためにはクライアントのビジネスや業務に対する興味が必要です。一方の Science は、世の中がどのようなメカニズムで動いているのかを知りたいという動機付けが必要です。ギックスで扱う分析テーマは多岐にわたるので、世の中のありとあらゆることに対する好奇心が Design & Science DIv. の業務には必要です。逆にいえば、好奇心の強い人は、世の中のあらゆることを業務を通して知っていくことができるので、楽しく働けると思います。
ギックスの Design & Science Div. に興味を持っていただけた方、ぜひ、下記リンク先を覗いてみてください。一緒に、Design と Science を駆使して世の中をより良くしていきましょう!
明日の GiXo アドベントカレンダー では、「少人数の開発で Kubernetes を活用するための設計戦略」をお送りします。
Hiroshi Yamada
Design & Science Div. 所属
大学での専門分野は有機化学。ケイ素、リン、ホウ素あたりも詳しいです。ホウ素の空のp軌道をうまく使っていきたいです。
f t p h l