Dribs and Drabs

ランダムな読書歴と音楽にまつわる備忘録

ネイト・シルバー『シグナル&ノイズ:天才データアナリストの「予測学」』日経BP社

これまたなんともダサいサブタイトルにしたもんだが(もともとは「why so many predictions fail but some don't」),めっちゃ示唆的。もっと早く読むべきだった。

著者のスタンスとしては「ベイズの定理,最高」ってとこなんだけど,要するに「事前確率があって,新たな情報を得て,それをもとに事後確率を出す」というプロセスで,まぁそれを技術的にも使うし,さらにそこにある「その新たな情報はシグナルなのかノイズなのか,その見極めがポイント」というスタンスだったり,そもそも「(事前から事後への)確率を見直す」ということ自体が,予測を外す大きな要因となる「うぬぼれを排除する」ということに思想的に響き合う……って感じなのかな。

本の中にいろんな事例が出てくるけど,その中のひとつ,NBLで賭けている人,「とにかく人が知らない・気づかないような情報を集めるのがポイントだ」ということで,それでも良くて勝率は57%らしいんだけど,その「とにかく情報を集める」というのは,この本の著者にも言えることであって,そのおかげでめっちゃ分厚い本になっているのである。

  • predictとforecastは今ではほぼ同じ意味で使われるが,シェイクスピアの時代には違う意味を持っていた。predictionは預言者の言葉であり,forecastは不確実な状況で計画を立てることを意味する。
  • 4年間でさまざまな分野の専門家100人以上と話をし,論文や書籍を読みあさり,ラスベガスからコペンハーゲンまで探求の旅に出てわかったことは,ビッグデータ時代の予測はあまり当たらないということだった。
  • たとえ1日250京バイトずつ情報量が増えていったとしても,有益な情報は同じようには増えない。そのほとんどはノイズであり,ノイズはシグナルより急速に増える。
  • S&Pやムーディーズは,もっぱらウォール街の一流投資銀行に就職できなかったような人材を雇っているにもかかわらず,その特権的地位を利用して巨額の収益を手にしてきた。
  • 「失敗するかもしれないことと,失敗するはずがないことの一番の違いは,失敗するはずがないことが失敗した場合,たいてい修正不能になることだ」と『銀河ヒッチハイク・ガイド』シリーズのダグラス・アダムスは言っている。
  • ムーディーズは小数点第2位まで計算した。しかし現実からは乖離していた。ターゲットとは違う場所なのに,いつも同じ場所に当てることができるから,自分は射撃がうまいと言っているようなものだ。
  • ハリネズミとキツネというのは,アイザイア・バーリンがトルストイについて書いたエッセイ『ハリネズミと狐』に由来する。「キツネはたくさんの小さなことを知っているが,ハリネズミは大きなことを1つ知っている」。手とロックは,キツネの方がハリネズミより予測する能力に秀でていることに気づいた。
  • 『マネー・ボール』が出版されてから10年たっているが,この問題はずっとくすぶり続けている。……とはいっても,統計オタクの一方的な勝利ではない。統計オタクがその真価を発揮したように,スカウトもまた自分の価値を示したのである。
  • 革新者というのは,大きく考えると同時に小さく考える。新しいアイデアは,ほかの人が面倒くさがって取り組まない問題の細部に宿っているものだ。
  • ニューオーリンズの人々が誇りを持って拒否することが2つある。迅速に行動することと権力者を信用することだ。ハリケーンが来るというときにもっとも必要なこの2つの行動を拒まなければ,ニューオーリンズはカトリーナに備えることができただろう。
  • ホークは次のように説明してくれた。優秀な予報官になるには,コンピュータから出てくる大量のデータを区分しながら,視覚的に,そして抽象的に考えることができなくてはならない。さらに,システムが動的で非線形であることを理解する必要がある。
  • 民間企業の天気予報に関しては,どれほど性格化という統計的な現実は必ずしも重要ではない。消費者が性格だと認識することに価値がある。
  • アメリカ地質調査所も私もある意味,言葉遊びをしている。予測(prediction)と予想(forecast)という言葉は,さまざまな分野でさまざまな形で使われている。しかし地震学の世界ほど,その違いに敏感な分野はないだろう。地震学者は次のように区分している。
    • 予測(prediction)とは,いつ,どこで自身が発生するか限定したものをいう。
    • 予想(forecast)は,長期間にわたる確率論的な事象を表す用語である。
  • 私達が過剰適合したモデルをつくってしまうのは,データが制限されていてノイズがあるとき,そして,基本的な関係についての知識が乏しいときだ。地震予測は,どちらも当てはまる。
  • (ヤン・)ハチウスは,見るからに思慮深そうなドイツ人で,入社して8年後の2005年にゴールドマン・サックスのチーフエコノミストになっている。大銀行に批判的な立場をとる人でさえ,彼には信頼を寄せている。
  • ハチウスが言うように,経済予測には3つの難問が立ちはだかる。1つは経済統計だけから因果関係を見つけるのが困難だということ。2つ目は,経済は常に動いているので,ある景気循環では有効な経済行為の説明が,別の景気循環でも使えるとは限らないこと。そして最後は,エコノミストが使用するデータがそれほど有用なものではないということである。
  • 次の3つの条件を満たす地域は,豚インフルエンザを培養するのに最適な場所となる。「1 人間と豚が近接して生活している地域。すなわち,豚肉がよく食べられている地域。」「2 豚と渡り鳥が接する可能性がある海の近くの場所。」「3 貧困のために衛生状態に問題があり,動物のウイルスが人間に移りやすい環境にある発展途上国。」これらの条件をすべて満たしているのが,中国,インドネシア,タイ,ベトナムといった東南アジアの国々である(中国には世界の豚の半分がいる)。
  • 頻度主義のアプローチは,本質的には,予測がうまくいかない理由であるヒューマン・エラーに背を向けたものだ。そこでは不確実性を,世界を理解する人間の能力に付随するものではなく,実験に付随するものとしてとらえている。また,データを集めれば集めるほど間違いは減り,ゼロに近づくとしている。
  • イオアニダスが言うように,ビッグデータの時代は,偽陽性の問題を難しくしているだけのように見える。
  • 「カスパロフはコンピュータと戦っているのではない。過去のグランドマスターの亡霊と戦っているののだ」このことを意識したカスパロフが,1997年の対ディープ・ブルー6回戦の第1戦で試みたのは,相手のデータベースから引き離すことだった。
  • 非常に競争の激しい分野であれば,利益をあげるには些細な部分で苦しい努力を重ねるしかない。競争によって設定される“水面”があり,あなたの利益は水面に浮かぶ氷山の一角のようなものだ。競争優位に立つことで水面の上に浮かぶわずかな利益を手にすることができるが,水面下にはそれを支える巨大な努力の塊がある。
  • ポーカーをプレーするとき,判断をくだすプロセスはコントロールできるが,どのカードが来るかはコントロールできない。たとえ相手のブラフを見抜いたとしても,相手に都合のよいカードが開いて負けるかもしれない。そんなときには起こるのではなく,喜ぶべきだ。最良の戦いかたをしたのだから。皮肉なことだが,結果へのこだわりがなくなるにつれて,よい結果が出るようになるだろう。