ビッグデータ、ビジネスインテリジェンス、人工知能(AI)と、ここのところデータ活用を軸にした話題に事欠きません。かつて “Data is the new oil.” と謳われ、データが持つ潜在価値と将来性がクローズアップされました。データを持つことは競争力の格差につながると考える企業は、その収集と集約に躍起になっているところです。
データのどこに価値があるのかと言えば、それは人間には見えないもの、感じ取れないものまで含めて、事象をデジタル化して記録するところにあるのでしょう。
事象によっては、すべてを捉えようとすればそのデータ量は膨大になることがあります。または、ものによっては一瞬で完了してしまうような事象もあります。膨大であっても高速であっても、データにすることで利用が容易なかたちで収めることができる。データが事象を説明しているので、観察や分析ができる。結果として、新しい知識の発見につながる。こういうことが価値となるのだろうと思います。
そのように考えると、事象を捉えたデータというのは、きわめて客観性が高いもののように思えてきます。私見では、多くの企業が「データは客観性が高く、正しい」という理解をしているのではないかと感じています。
しかしそれは、大いなる誤解です。データは、実際には「主観の産物」です。
データは、オイルと違って天然に存在する資源ではありません。データは、取得すべくして人間が設計するから、取得できるモノです。どのようにデータ化するかの設計は、人間の主観で行っています。そうである以上、得られるデータも、主観の域を脱することはありません。
例えば、「気温」はどうでしょう。気象庁が公式に各地の気温を発表しています。疑いようのない、正確なデータです。ところで気温はどのように計測されているかご存知でしょうか。日本の気象庁では、地表面から1.5mの高さで測定することが基準とされています。
この ”1.5m” というのは、人間の主観です。そもそも気温は、地表面から成層圏までスペクトル状に分布し、両端では大きく異なります。夏場において、ベビーカーに乗った幼児が感じる「気温」は、気象庁発表の「気温」よりもかなり高い、とはよく聞く話です。それでも気温を1.5mの高さで測定する「主観的」な判断に誰も文句を言わないのは、多くの人にとって生活実用上問題がないからにすぎません。
主観的に設計した結果としてデータが取れるのであって、設計しなかったデータはもちろん取れません。そういえば、もうすぐサッカーのW杯が始まりますが、サッカーにおいてはフォーメーションが重要だと言われます。選手をどのような配置でフィールドに並べ、局面に応じてどのような連動をさせるかが、勝敗に大きく影響するというわけです。
これが理解できているサッカー玄人の分析者なら、効果的な戦術を導こうとするとき、試合中のボールの動きだけでなく、ボールを持っていない選手の動きまでを含めてデータを取得し、分析しようとするでしょう。玄人にとっては何のことはない話です。
一方で、わたしのようなサッカーの素人だったらどうでしょうか。戦いかたを知らない素人に試合をさせると、往々にしてほぼ全員がボールに寄っていく動きをするものです。ボールにしか注目していないのです。そういう素人がサッカーの試合を分析しようとしたら、ボールを持った選手とボールの動きのデータしか取らないかもしれません。仮に玄人が取ったデータを利用して分析するとしても、素人は興味も関心もないので、ボールを持っていない選手の動きなど見ようともしないと思われます。この場合、ボールを持たない選手の動きに関する知見は、どんなに頑張って分析しても得られないでしょう。
こうしたことは、ビジネスの現場でも多数起こっているのではないかと推察します。つまり、設計時点で考えが及んでいないデータは、分析されないどころか存在さえできないということです。それは、データが「主観の産物」だからです。
別の観点でもうひとつ。データは取得が終わった時点で「過去のもの」になり、必ずしも「いま」の分析に有効ではないかもしれません。
例えば、顧客向けに満足度評価のアンケートを継続的に取っているとします。あるとき、アンケートの質問を改善したとします。そうすると、回答する顧客が質問に対して感じることが変わり、結果として回答の傾向に影響が出ます。
こうなると、前のバージョンのアンケートで取得してきたデータとは、単純比較できなくなります。アンケートを変えたいと思うということは、何らかの形で評価したいことが変わったということです。その時点で、蓄積してきたデータはもう使えなくなります。設計を主観的に行っている以上、その主観が変われば、取るデータの意味合いも変わり、どれだけの蓄積があろうとも過去のデータは無用になるのです。
このように、データは「主観の産物」です。あなたが想像できないものは見えません。森羅万象が取れることもありません。他人が取ったデータは、自分が欲しいデータではないかもしれません。自分でよく考えることなく単にかき集めているだけでは「使えるデータ」は手に入らないと認識することが、データ活用の始めの一歩になるのではないかと思います。