こんにちは、荒井(@yutakarai)です。
「データドリブン」てお聞きになったことありますか?「データドリブン・マーケティング」や「データドリブン経営」なんていうキーワードもあります。データ駆動型とも言われますが、ざっくり言ってしまうとデータから得られた情報をビジネスに活用しようというものです。
今回は、データを活用するために大切な「ノイズ」と「バイアス」について書いてみます。
データは完璧な状態ではない
社内には様々なデータが蓄積されていると思います。
蓄積されているデータは、いわば会社のノウハウの結晶です。それを有効活用しない手はありません。
しかし、それらのデータは決して完璧な状態ではありません。「完璧な状態ではない」というのは、そのままでは正しく分析できない状態という意味です。
どんなデータであろうと、ノイズやバイアスが入り込んでいます。
コンピュータサイエンスの世界で「ゴミを入れてもゴミしか出てこない(garbage in, garbage out)」という言葉があります。
ノイズやバイアスが入り込んでいるデータは、いくら大量に集めても使えない状態です。
データを活用するためには、データを綺麗な使える状態にする必要があります。
これは、AIをビジネスに導入するときも同じです。入力データの質が、非常に大切です。データを活用するためにはデータの質を上げておくべきで、質を上げるためにはノイズとバイアスについて理解しておく必要があります。
データのノイズとは
データのノイズというのは、データに潜むエラーや不正確性のことを指します。
データにノイズが紛れ込んでいるせいで、出力の精度が低くなる場合があります。ノイズに対して事前に適切な処理をすることが、出力結果の精度に大きな影響を与えます。
ただ、データは元々ノイズを持っているものだということも理解しておくべきです。
気温といった超シンプルなデータでさえも、ノイズが入ることがあります。これに対応するためには、ノイズの原因というものを見極める必要があります。
・そのノイズは、時間を掛けて発生してしまうのか
・そのノイズは、データ処理を行うシステムが原因なのか
・そのノイズは、出力結果にどのような影響を与えるのか
完全にノイズを取り去るということは不可能です。データに潜むノイズはどういったものなのかを知ることが大切です。
データのバイアスとは
データのバイアスとは、埋め合わせが効くデータの中に潜む不正確性です。
バイアスは、データ収集の段階に紛れ込むケースが多いです。なので、早期にバイアスとなるような潜在的な情報を特定して、修正することがポイントになります。
バイアスの例として、「ネガティブなデータ」があります。
ネガティブなデータというのは、何かに失敗したデータだったり、ビジネス上あまり表立って言いたくないようなデータです。
誰だってネガティブな情報は言いたくないものです。しかし、これがバイアスが入り込む隙になってしまうわけです。
ネガティブ情報を公表しないことを「出版バイアス(publication bias)」と言います。これは、データサイエンスの世界では、よくあるの問題のひとつです。
とはいえ、ネガティブなデータもポジティブなデータと同じくらい重要なわけです。
データの内容がネガティブであろうとポジティブであろうと、それは正しいデータです。データを活用する上では必要な情報です。
まとめ
今回は、データのノイズとバイアスについて書きました。
社内のデータは非常に価値のあるデータの原石です。現在、様々な業種業態の企業が自社データを有効活用しようと取り組んでいます。
データの活用を考えた際には、ぜひこのノイズとバイアスについても考慮しておくことが大切です。