プログラマとプロマネのあいだ

プログラマもやるし、プロマネもやるし、たまに似非アーキとか営業っぽいこともやる

「数式を使わないデータマイニング入門 隠れた法則を発見する」読了

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)

こないだ読んだ「iPhone 衝撃のビジネスモデル」の著者ですね。
他にも「暗証番号はなぜ4桁なのか? セキュリティを本質から理解する」という本も書いてる方です。
こっちもいつか読みます。


さて本書ですが、データマイニングの概要を説明する入門書です。
データマイニングとは」から始まって、その手法、応用例の考察などからなっています。
データマイニングっていうと、紙おむつとビールの話が有名ですが、それ以上の知見を与えてくれることは間違いありません。


データマイニングの定義ですが、この部分の説明が分かりやすかったです。

 データマイニングを特徴づけているのは、取り扱い情報量の桁違いの大きさであると述べた。この事実は、情報の中に混ざっているノイズもまた、極めて大きいことを示している。
 マイニングとは、「採鉱」を指す言葉である。データマイニングにおけるマイニングは、二段階のプロセスに分かれる。
 一段階目は、大量の情報から隠れた法則を見つけ出すこと。一般的にはこれがデータマイニングであると認識されている。
 二段階目は、そこで見つかった法則の中から、使えるものを探し出すこと。これは以外に認知されていない。多くの人は法則さえ見つかれば、それが有意で、お金にもなると考えている。しかし、実際には役に立たない法則の方が多い。この事実は見過ごされがちだ。

役に立たない法則として、

  • 月曜日の次には火曜日がくることが分かった
  • 雨が降り出すと人が傘をさすことが分かった

とか挙げられてますが、確かに意味ないですね。


じゃあ、使える法則が見つかったからそれで良いかというと、そうではなくて、

 さらに注意しておかなければならないのは、データマイニングはどんな局面にどのような法則が存在しているかを発見してくれはするものの、その原因を説明してはくれないことだ。

例として書いてあるのが、これまた有名な「風が吹けば桶屋が儲かる」ですが、
データマイニングによって、「風が吹けば桶屋が儲かる」という隠れた法則が見つかったとしても、
じゃあなんでそうなるのか?という原因は分からないということです。
ここは、人間の判断によって、解答を導くしかないということです。


つまり、

  • 大量の情報から隠れた法則を見つけ出す
  • そこで見つかった法則の中から、使えるものを探し出す
  • 法則の原因を人間の判断によって導く

というステップを踏むことで、集めたデータをビジネスに活かせるということのようです。


あとは具体的なデータマイニングの手法(手順)の話になるのですが、
タイトルに「数式を使わない」とあるだけあって、一見難解な以下の手法を
分かりやすい図解と丁寧な説明で解説してくれています。

この本の価値はここにあるのでしょうね。
データマイニングのとっかかりをつかみたいのであれば、おすすめです。