fbpx
共著書籍「データ分析の進め方 及び AI・機械学習の導入の指南」が出版されました

社内データは価値のあるノウハウ。データを活用するためにノイズとバイアスを理解しておく

AI・機械学習・ディープラーニング

こんにちは、荒井(@yutakarai)です。

「データドリブン」てお聞きになったことありますか?「データドリブン・マーケティング」や「データドリブン経営」なんていうキーワードもあります。データ駆動型とも言われますが、ざっくり言ってしまうとデータから得られた情報をビジネスに活用しようというものです。

今回は、データを活用するために大切な「ノイズ」と「バイアス」について書いてみます。

データは完璧な状態ではない

社内には様々なデータが蓄積されていると思います。

蓄積されているデータは、いわば会社のノウハウの結晶です。それを有効活用しない手はありません。

しかし、それらのデータは決して完璧な状態ではありません。「完璧な状態ではない」というのは、そのままでは正しく分析できない状態という意味です。

どんなデータであろうと、ノイズやバイアスが入り込んでいます。

コンピュータサイエンスの世界で「ゴミを入れてもゴミしか出てこない(garbage in, garbage out)」という言葉があります。

ゴミ

ノイズやバイアスが入り込んでいるデータは、いくら大量に集めても使えない状態です。

データを活用するためには、データを綺麗な使える状態にする必要があります。

綺麗な出力

これは、AIをビジネスに導入するときも同じです。入力データの質が、非常に大切です。データを活用するためにはデータの質を上げておくべきで、質を上げるためにはノイズとバイアスについて理解しておく必要があります。

データのノイズとは

データのノイズというのは、データに潜むエラーや不正確性のことを指します。

データにノイズが紛れ込んでいるせいで、出力の精度が低くなる場合があります。ノイズに対して事前に適切な処理をすることが、出力結果の精度に大きな影響を与えます。

ただ、データは元々ノイズを持っているものだということも理解しておくべきです。

気温といった超シンプルなデータでさえも、ノイズが入ることがあります。これに対応するためには、ノイズの原因というものを見極める必要があります。

・そのノイズは、時間を掛けて発生してしまうのか
・そのノイズは、データ処理を行うシステムが原因なのか
・そのノイズは、出力結果にどのような影響を与えるのか

完全にノイズを取り去るということは不可能です。データに潜むノイズはどういったものなのかを知ることが大切です。

データのバイアスとは

データのバイアスとは、埋め合わせが効くデータの中に潜む不正確性です。

バイアスは、データ収集の段階に紛れ込むケースが多いです。なので、早期にバイアスとなるような潜在的な情報を特定して、修正することがポイントになります。

バイアスの例として、「ネガティブなデータ」があります。

ネガティブなデータというのは、何かに失敗したデータだったり、ビジネス上あまり表立って言いたくないようなデータです。

誰だってネガティブな情報は言いたくないものです。しかし、これがバイアスが入り込む隙になってしまうわけです。

ネガティブ情報を公表しないことを「出版バイアス(publication bias)」と言います。これは、データサイエンスの世界では、よくあるの問題のひとつです。

とはいえ、ネガティブなデータもポジティブなデータと同じくらい重要なわけです。

データの内容がネガティブであろうとポジティブであろうと、それは正しいデータです。データを活用する上では必要な情報です。

まとめ

今回は、データのノイズとバイアスについて書きました。

社内のデータは非常に価値のあるデータの原石です。現在、様々な業種業態の企業が自社データを有効活用しようと取り組んでいます。

データの活用を考えた際には、ぜひこのノイズとバイアスについても考慮しておくことが大切です。

ビジネスはアイデアをパクることから始めると成功しやすい。海外のAIスタートアップ事例まとめ【随時更新中】
こんにちは、荒井(@yutakarai)です。 当ブログでは、僕が個人的に気になった海外スタートアップも時々紹介しています。 どうして海外のビジネス事例を紹介しているかというと、海外のスタートアップの事例を通して新しいビジネスアイデアのきっ...

【ロカラボからのお知らせ】
自社事業にAIを活用しようとする前にこれだけは押さえておいてください。

【無料ダウンロード】成功するAIプロジェクトに共通する3つの最重要ポイント

事業でAIを活用する企業様が多くなってきました。
弊社でも主に製造業・医療業を中心にAIシステムの開発や導入支援をおこなってきました。

その中で見えてきた、成功するAIプロジェクトに共通する最重要ポイントをまとめたPDFファイルを無料で配布しています。

AI導入プロジェクトをスタートする際には是非ご参考にいただけたらと思います。
こちらのページからダウンロードしてください。

AI・機械学習・ディープラーニング
シェアする
ロカラボをフォローする
タイトルとURLをコピーしました