最近話題のClaude,その名前の由来はクロード・シャノン──ということで,これを読んでみた。流し読みなので数式は追ってないけど,エッセンスは掴んだつもりでいる。
- x
- 第1章 情報科学の歴史
- 第2章 情報とはなにか
- 第3章 情報の価値?
- 第4章 通信量を減らす?:情報源符号化定理
- 第5章 伝言ゲームでは困る──誤りを減らす
- 第6章 情報科学の歴史の中の情報理論
- x
x
まえがき
第1章 情報科学の歴史
コンピュータが人だった頃
今でこそ人工知能などと言い、コンピュータが人間のように振る舞うなどという話がありますが、もともとはコンピュータは人間だったのです。
計算する機械としてのコンピュータの歴史
こういう歴史を垣間見てみると,これらの計算機を発明したのは物理の研究,数学の研究をしていた人たちで、天体の計算だとか、数学の難しい方程式を解くために必要にせまられて計算機が発明されていったらしいということが分かると思います。コンピュータと物理・数学は切っても切れない縁なのです。
20世紀前半の情報科学者たち
しかしコンピュータは「計算機」であり、そこには「情報」という概念は存在しなかったのです。この「情報」という概念を作ったのが、クロード・シャノン(1916~2001)であると言われていますが,「シャノン理論」という造語を作ったのは、1948年『サイバネティックス──動物と機械における制と通信』を出版したノーバート・ウィーナー(1894~1964)という人だそうです。ウィーナーは天才数学者と呼ばれ,1920年代には最初の現代的計算機の設計に取り組み、「情報」と呼ばれる新素材の本質を認識した最初の人物です。他にも人間の神経系の通信用待号を解読したりなど、情報時代の父と言ってもよい人でしよう。
シャノンはエジソン(1847〜1931)の遠縁にあたると言われています。1932年に地元のミシガン大学で電気工学と数学を専攻しますが、ここで学んだジョージ・ブールの記号論理学(ブール代数)は、後に彼の情報理論に大きな役割を果たすことになりました。第二次世界大戦中の1941年にベル研究所に入り、戦後もベル研究所に残り、情報通理論の研究をすることになりました。そして、この時代に情報理論の基礎的な仕事をしました。シャノンの業績は簡単に言えば、情報を号化(コード化:処理・伝達など効率よく行うために、本来の形から変換すること)したこと、そして情報の最小単位を提唱したことです。さらに,情報をなるべく速く正確に伝達するためにどうすればよいか考え、圧縮や誤り検知や誤り訂正などの基礎理論を打ち立てます。シャノンは2001年に亡くなりました。それほど昔の人ではなかったのです。
シャノンは、1948年に32歳の若さで,「A Mathematical Theory of Communication」(『通信の数学的理論』)という題名の論文で、この「もやもや」の部分を取り去って、「あらゆる情報は数値に置き換えて表すことができる」ということを提唱しました。
シャノンの情報理論について、彼の信念である「価値ある情報を高速に、正確に送りたい」という部分を、この本では大きく二つに分けて考えていきます。 まず一つ目は、情報というものの持つ価値を測る尺度について、情報量、情報エントロピー,情報源などについて紹介します。ここまでの話で,シャノンの情報理論の世界と、情報が持つ価値(人間の思惑が入らない範囲での),データ圧縮,符号化という概念が結びつくことでしょう。 次に、情報を高速に、正確に送るという角度から、通信ということに焦点を当てます。現代における通言技術の基盤となっている定理である、「情報源待号化定理」「通信路符号化定理」「誤りの検出と訂正」について紹介します。 後半部分では、前半部分のデータの圧縮や符号化が通にとって重要な役割を果たしていること、そして通信分野でもシャノンの情報理論が生きていることが実感できることでしょう。
第2章 情報とはなにか
情報とはなにか
「情報」とはとらえどころのない概念(現在でも物理的実体があるわけではない)ですが、情報をディジタル化したことにより、「情報」が具体的な形で表現できるようになりました。そして、具体的な形で表現できるようになったものは、具体的な形で伝達できるようになったのです。
情報の定義
(辞書での〈情報〉の定義)
情報の最小単位
1024個の情報はスイッチが10個必要,2の10乗……。シャノンは情報の最小単位をこのスイッチのように、2通りの情報が表せるものと定義し、binary digit,つまりビットと呼ぶことにしたのです。
シャノンの情報理論のエッセンス:高速で正確な通信を担う役者たち
シャノンは、ある情報(メッセージ)が、電話やインターネットなどの通信路を通って相手に送られていく枠組みを6つの要素に分解し、それぞれを数学的に定義しました。その根底には「通信を高速に、正確に」という、シャノンの信念がありました。
価値ある情報を高速に、正確に送る」ためには/ ①情報源から送される通信の量を減らす/ ②通信路の中で誤りを減らす/ という2つの目的を達成する必要があります。
情報源符号化
送信機は、まず情報源から送信される通信の量をできるだけ減らすために、情報源から送られたメッセージに作用してディジタル化を行い,通信路を通して送るのに適した信号に変換します。例えば、電話で言えば、音圧を電流に変換する過程,モールス信号であれば、メッセージをある決められた方式で短点・長点・空白の列にする符号化という操作にあたります。音声であれば、アナログの値をある一定の時間間隔で選び取り、ディジタルな値に変換,そして最終的に 2進法で表し,圧縮を行う過程を示します。放送授業の例で言えば、講師(の身体)が「授業をシナリオ化」する作業にあたります。
情報源から通路に出される記号を符号化することを「情報源符号化」と呼び、通の量をできるだけ減らすために効率的に待号化して圧縮できる限界を数学的に示した理論を「情報源符号化定理(シャノンの第1基本定理)」と呼びます。
通信路符号化
「価値ある情報を高速に、正確に送る」ための2番目の目的「②通信路の中で誤りを減らす」は、先ほどの放送授業の例での「分かりやすく工夫する」部分にあたります。
情報を符号化して送る場合、「間違いの起こりやすさ」とトレードオフの関係にあるのは、「伝える速さ」ではなくて「符号化するときの手間」にあるというのです。
分かりやすく言うと、間違いを起こしがちなパターンをあらかじめ分析しておいて、「情報を受け取った側が、送られて来る間に起こった間違いを直せるような仕組みを、符号化の手順の中に組み込んでおく」ということなのです。 情報源から出された情報源符号が、雑音によって通信路で誤って送られてしまう、このことに対処するために別な符号語に変換する操作が「通信路符号化」です。
受信機と受信者
最後に,符号化されたメッセージをもとの情報源の記号(最初に送信されたもとの記号)に戻す復号を行うのが、「情報源復号」という処理になります。例で言えば、最後の「解釈する」の部分にあたります。情報源符号化の処理も、後で復号するということを考慮に入れて処理が行われているのです。
第3章 情報の価値?
「価値ある情報」をどう表現する?
つまり、情報の価値とは、その情報を手に入れたときと,手に入っていない状態と比べてどれだけ価値があるかということです。これを数式化する方法を発見したのがシャノンであり、これから学ぶ「情報エントロピー」の概念に結び付きます。
期待値
似たようなことが情報にも言えます。情報も「期待値の高いモノの方が価値がある」という考え方をしてみると,分かりやすいかもしれません。これこそ「情報エントロピ一」の考え方なのです。
情報エントロピー
情報エントロピーというのは、情報量の世界の期待値にあたります。その情報源の面白みを表す尺度という説明もあります。ということは、情報エントロピーの値が大きければ、その情報源には面白みがあるということになります。逆に情報エントロピーの値が小さければ、その情報源はあまり面白みがないということになります。別の言い方をすれば「情報エントロピーが大きい情報源」が「価値が高い情報源」、「情報エントロピーが小さい情報源」が「価値が低い情報源」となります。 つまり、ある情報源の価値を判断するのが「情報エントロピー」で、これが情報の世界の期待値と考えると分かりやすいのです。この期待値を計算するためには、統計学の期待値と同様、情報源に入っている「個々の情報の大きさ」と、「その情報が出現する確率」を使うことになります。
個々の情報が持つ大きさ:情報量
起こる確率(横)が小さければ自己情報量が大きくなります。情報量とはその情報の「ビックリ度の大きさを表す」とか「ありがた味の大きさを表す」などと説明されていることが多い理由が分かると思います。
ここまでで分かったと思いますが、情報の世界でできることは1回で1ビットの操作、つまり二者択一であり、その操作が何回必要であるかを表したものが、シャノンの定義した「情報量」なのです。「手間の大きさ」と考えてもいいのではないでしょうか。
情報が出現する確率
ここまでの話で,情報エントロピーというのは、どの事象が起こるのか予測がまったくつかない(つまり等確率)場合に最大値をとることが分かります。
エントロピーが大きい状態とはこれから得る情報のありがたさが非常に大きいということになります。これから得る情報の期待値が高いというわけです。ですから情報を受ける側としてエントロピーが大きい事象に関する情報はありがたい情報なわけです。反対に情報エントロピーが小さいということは、予測がしやすいことでもあり、すでに十分な情報が与えられているので,これからそのことに関して情報を受け取ってもちっとも嬉しくないというわけです。
情報エントロピーと通信路容量
モールス信号は図3-6のように短点(トン)と長点(ツー)の組み合わせでアルファベットを表しますが、短点を・,長点を一と置くと、待号化がされます。よく使われるアルファベットのE,Tには1桁の符号、あまり使われないQなどには4桁分の符号が割り当てられています。 適切に符号化することで、通信路に出る容量を減らせることを統計的に示せるだろうと,シャノンは考えました。そして、情報源から通信路に出て行く情報の量を示す尺度として「情報量」を定義しようと考えたわけです。
アルファベットの記号が出現する確率
シャノンは、実際の文書や本などから、26文字と空白の計27記号からなる「アルファベット」が出現する確率を調べました。アルファベットはランダムに使われるのではなく、当然,単語・文章を構成するために使われますから、文字によって情報量には違いが出ると予想されます。
実際はもっと複雑で,文字同士の関係だけでなく、品詞間のつながりかたなど、多くの確率的要因を含んでいます。このように、前に出現した情報により出現確率が影響を受ける情報源を「マルコフ情報源」といいます。
第4章 通信量を減らす?:情報源符号化定理
できあがった情報を圧縮する方法を考えるのも良いですが、表現方法を考える前に圧縮しやすい方法を考えたら良いのです。シャノンは、情報を待号化するとき、どこまで圧縮できるか、つまりそれ以上は圧縮できない限界を数学的に示しました。それが「情報源符号化定理」です。
符号化と情報量
もともとシャノンが「情報量」を定義した背景をもう一度考えてみますと、「情報を定義すること」が最終目的ではなく、「通信」という大きな枠組みの中で「情報」を提えて、その尺度を定義したところから始まっているのでした。シャノンが最初に提示した通信システムにおける「送信機」は、情報源から送られたメッセージに作用して待号化などを行い、通信路を通して送るのに適した信号に変換します。送信機では、標本化,量子化,圧縮,符号化などが行われます。
図4-3のように,元の波形は時間および振幅ともに連統量ですが、この連続した波形を一定の時間で区切ります。このように一定間隔で区切ることを標本化(サンプリング)と呼びます。区切る間隔のことを標本化周期(サンプリング周期)と言い、1秒間に何回標本化をするかを示したものを標本化周波数(サンプリング周波数)と呼びます。標本化周期が短ければ短いほど、つまり、標本化周波数が大きければ大きいほど元のアナログ波形を忠実に再現できますが、その分ディジタル化した数値で表される量は多くなります。
図4-4のように、標本化された波形を離散的な値に変換する操作を量子化とよびます。簡単に言えば、振幅の値を整数値にするのです。標本化は時間に対して一定の間隔で区切り、量子化は振幅に対して一定の間隔で区切って標本点の値に最も近い整数値を求めるのです。
0と1の世界ですから,区切る間隔が2段階なら1ビット必要です。4段階なら2ビット、8段階なら3ビットのように、それぞれ量子化したデータを何ビットの数値で表現するかを表したものを、量子化ビット数と呼びます。この場合は8段階なので量子化ビット数は3ビットとなります。
量子化で得られた数値は整数や有限の小数なので,これを「2進法=0と1で表す」作業が必要になります。これを符号化と呼びます。
復号可能──一意復号可能と瞬時符号
パターン2や4は、複数の復号候補が出てきてしまいました。これを「一意には復号できない」,または「一意復号可能でない」と言います。さらにパターン3のように符号語が受(側に渡った瞬間に復号できないものは手間がかかりますが、パターン1のように符号語が受信側に渡った瞬間に復号できる符号を「瞬時符号」と言います。符号化において重要な要件は「一意復号可能」と「瞬時符号」であるということです。
符号化を行うにあたって、重要な点がもう一つあります。一意復号可能であり瞬時符号であればなんでもよいというわけではありません。それに加えて平均符号長ができるだけ短いことが必要です。次にそのことについて見てゆきましょう。
平均符号長
出現確率が等確率である場合,各記号に等しい長さの符号を割り当てる(等長符号化)と,平均待号長はその情報源の情報エントロピーと等しくなりますが、瞬時復号可能な不等長(符号化された符号の長さがすべて等しいわけではない)符号を割り当てると、平均待号長はその情報源の情報エントロピー以上の値になってしまいます。
情報源符号化定理といろいろな符号化法
ここまでの話で,情報を符号化するには、出現確率が小さい記号を待号長の長いもの,出現確率が大きい記号を符号長の短いものに効率よく割り当てると、平均符号長がその情報源の情報エントロピーまで抑えられそうであることが分かりました。実際、ある特定の情報源について,瞬時復号可能ないかなる符号の平均符号長も,その情報源のエントロピー以下にはならないことをシャノンは数学的に証明しました。これが、「情報源符号化定理」の本質です。
シャノン・ファノ符号化法
瞬時復号可能で、出現確率の大きな記号に短いビット列を割り当て、平均符号長がなるべく小さくなるようにする符号化の方法として最初に発明されたのは、シャノンとMIT のファノが、1948年頃に別々に考えた符号化法です。
ハフマン符号化法
シャノン・ファノ符号化法ではある程度情報源のエントロピーに近い平均符号長を割り当てることができますが、その数年後に開発されたハフマン符号化法が現在もっとも効率の良い符号化法として知られていますので、それを紹介しましょう。
情報源符号化定理についてのまとめ
情報源から通信路に出される記号は,符号化されます。情報源符号化の目的は、情報をできるだけコンパクトにして「高速な通信」を目指すことです。ですからモールス信号のように,使う頻度の高い記号はなるべく短い待号に変換し,全体の平均待号長をどこまで短くできるかということを数学的に解いたということです。この情報源符号化の限界を示した定理を「情報源符号化定理(シャノンの第1基本定理)」と呼びます。どんな定理だったかといいますと,
ある情報源から出される符号語が、受信側に渡った瞬間に復号できる符号(これを瞬時符号というのでした)であれば、その符号語の平均符号長は、情報源のエントロピー以下にはならない
ということです。平均符号長は必ず情報源のエントロピーに限りなく近づくのですが、それ以下になることはないということです。これはデータ圧縮の超えられない壁を示しています。情報エントロピーという数学的に表される量が、符号化という工学的な操作から得られる符号長の限界を導いたことになります。この定理は,映像/音声/文字データなどの符号化の基本となっています。
第5章 伝言ゲームでは困る──誤りを減らす
第4章では「価値ある情報を高速に,正確に送る」ための第1段階である「①情報源から送信される通信の量をできるだけ減らす」ためにはどうしたらよいかということを考えました。この章では、第2段階である「②通信路の中で誤りを減らすためにはどうしたらよいか」ということを考えます。そのためにまず、/ ・通信路はどれくらいの処理スピードを持つのか/ ・誤りを減らすためにはどう送ればよいか/ について考えてみましょう。
5-1 通信路はどれくらいの処理スピードを持つのか
通信路と相互情報量
雑音が少なければ、その通信路は良い通信路と言えます。ということは、「受信側で受けとる情報量としての情報エントロピーをなるべく大きくできる通信路が良い通信路」であるとも言えます。雑音や受信側の情報エントロピーを数式で表すことができれば、通信路の性能を表すことができそうです。
「ある質問をした後では、その情報源の情報エントロピーは減少している」ことになります。曖味性が減るのですから然ですね。この減少した情報エントロピーのことを相互情報量と呼びます。ですから、相互情報量が大きければ(情報エントロピーの減少が大きければ),その情報の価値は大きいということになることを、ここでは覚えてください。 さらに送信号と受信信号の相互情報量,つまり、送信信号と受信信号の情報エントロピーの差を知ることで,通信路の評価の尺度にも使えます。となれば、「相互情報量を大きくできるような通信路は良い通信路だ」ということが分かると思います。
相互情報量とデータマイニング
データマイニングにおけるデータ分析の手法にはいくつかありますが、その中に「決定木」と言われる分析手法があります。与えられたデータの分類モデルを決定木と呼ばれる形式で表現するのです。 決定木を作るということは、「なにかを決定づける条件分岐」を木構造で表すことです。二者択一の Yes かNoかで分岐する質問を繰り返していく構造を、木構造で表したものだと思ってください。ここで、意味のない決定木を作っても仕方がないので、なるべく良い決定木を作っていきたいということになります。そして、この「良い」決定木を作るために、条件と分岐地点(木構造におけるレベル)を的確に作るための尺度を「相互情報量」と言うのです。
シャノンの言うところの「相互情報量」とは、送出されたメッセージの情報が受信側で受け取った信号にどれだけ含まれるかを測る尺度です。どちらも同じことを言っているのですが、情報源を中心に考えるか(データマイニング),質問によってもたらされる情報を中心に考えるか(シャノン)の違いです。
通信路はどれくらいの処理スピードを持つのか──通信路容量
相互情報量は、記号が送られる確率と、通信路の誤り率から計算することができます。この場合,通信路の誤り率はその通信路特有のものですし,記号が送られる確率とは、送信側情報源特有のものです。ですから、記号を送る確率を適切に選んだ上で相互情報量を最大化すればその通信路が送ることができる最大の情報量を表すことができます。この最大値を通信路容量と呼びます。
相互情報量が通信路の評価基準となるわけ
良い通信路とは、たくさんの情報量を送ることができる通信路であると考えれば,相互情報量が多ければ多いほど良いのです。
相互情報量の計算の方法
誤り率によって相互情報量が変わることが実際の計算でも示されましたので、この相互情報量が通信路容量を定義できることが分かるのではないでしょうか。
通信路容量
ここまでで相互情報量は/ I(X;Y)=H(X)-H(X|Y)=H (Y)-H (Y|X)/ であり、これは送信される記号の出現確率と誤り率が与えられれば計算できるということが分かりました。記号の誤り率は通信路の特性であり、送される記号の出現確率は送信情報源の特性になります。ですから、相互情報量を最大化したものは、その通信路が送ることのできる最大の情報を表します。この最大値/ C=max I(X;Y)(ビット/記号)/ を通信路容量と呼びます。
5-2 誤りを減らすためにはどう送ればよいか
通信路符号化定理
雑音のある通信路にこの「情報そのもの」を送りだしたとしても、受信者に100%の確率で届くわけではありません。どこかで誤りが起きます。しかし,ある条件を付加すれば、誤りが起きたかどうかを送者に確かめなくても検出し訂正することは可能です。
この5行5列で表されるデータを送るとき、受側で受け取ったデータが間違っていないかどうかを検出する仕組みを、あらかじめ一緒に送ることができるのです。この例でいえば、送るべきデータに加えて,ある仕掛けをします。各行列の送信符号に含まれる"1"の数が偶数になるように,グレーで示した部分の縦。横の冗長記号を定めてあります。もし受情側で"1"の数が奇数になれば、通路で誤りが生じたことが分かります。これをパリティ検査(parity check)と呼び、もっとも簡単な誤り検査法です。
通信路を符号化すること
相互情報量を最大化したものは、その通信路が送ることのできる最大の情報を表すということを前節で学びました。通信路には雑音があります。どれくらいの情報がこの雑音によって失われるかは、受信側が記号を受信したときの情報源のエントロピーで表されることも学びました。つまり、情報速度Rは、送信信号の情報が受信信号にどれだけ含まれるかを測る尺度としての「相互情報量」のことです。情報源のエントロピーと記号を受信したときの情報源のエントロピーの差を計算すればよいのです。
通信路符号化定理の真髓
単純に情報速度を下げればもちろん誤り率は下がって行きますが、それよりも効率の良い方法があるということです。しかし,シャノンは「理想的な符号が存在すること」だけを示していて,具体的にどうやって待号を構成すべきかは、示していません。具体的にどんな符号化手法がよいのかなどは、後の数学者達によって提案されていきます。
通信路待号化定理では、通信の頼性を向上させるために、誤りを検出,訂正する目的があります。そのために,情報そのものに冗長性を付加して通信路に送り出すための条件を定義します。ある条件を満たせば、誤りが起きたかどうかを送信者に確かめなくても検出し訂正することが可能であるというのが、この通信路符号化定理の醍醐味です。
シャノンの残した課題は、「どうやって通路符号化定理の性能限界に近づけるか?」つまり、「どうやって誤り訂正能力を限界まで上げられるのか?」ということでした。
5-3 連続した情報を扱う──標本化定理
この節では、「元の信号が復元できる極限」を示した「標本化定理(サンプリング定理)」を中心に説明します。
波を周波数でとらえるか? 時間でとらえるか?
時間的に変化する周波数成分を分析するために、「フーリエ変換」を使います。フーリエ変換は、与えられた波形をたくさんの単純な波形に分解して、それぞれの波の,周波数,振幅,位相などを計算してくれる便利な変換です。簡単に言うと,複数の周波数の各々の特徴を周波数ごとに抽出することができるということです。
標本化定理
さて、ここで標本化した「情報」を伝送することを考えた場合、アナログ信号を忠実に再現したいがためにサンプリング周期を細かくしてしまうとそれだけデータ量が増え、処理時間が長くなります。というわけで,シャノンはこのサンプリング周期の目安を提唱したわけです。 答えはこれです。/ 「元のアナログ言号に含まれる最高周波数をf_mとするとき、2f_m以上の頻度で標本化すると元のアナログ信号の波形を完全に復元することができる」
なぜ2倍以上必要か?
(証明)
連続量への応用
シャノンはこれまで見てきたような離散的な通信路を取り扱ってきていましたが、この後,連続時間信号を伝送する通信路に応用し、離散的な通信路の場合と同様,連続的な通信路における情報伝送の速度を/ R=H(X) - H(X | Y)/ と定義しています。H(X)は通信路に入力されるエントロピーを表し,H(X I Y)は通信路出力Yを知った時の通路入力の条件付きエントロピーを表します
シャノンの情報理論のエッセンス
シャノンの情報理論について、本章では、情報というものの持つ価値を測る尺度について,情報量,情報エントロピー,情報源などについて紹介しました。
第6章 情報科学の歴史の中の情報理論
情報科学の中の情報理論
情報科学という学問分野があります。情報科学の分野は、この本で扱った情報理論を含む,もっと大きな分野です。人間が実際の世界で生きていくために獲得した知的能力,つまりパターン情報を認識・知覚し、判断し,それに基づいて行動する、それらの能力を「情報処理」と呼びますが、この情報処理の機能の一部である「計算」と「通信」を機械化したものが「情報処理技術」であると言えばよいでしょうか。つまり情報処理技術とは、人間の情報処理機能を助ける技術です。その情報処理技術を支える理論から、情報社会と人間との関係までを大きく扱う学問分野、それが情報科学だと思います。そう考えますと、今回紹介したシャノンの情報理論は「情報処理技術」のうちの特に「通信」を目的とした理論であるといってもよいと思います。
コンピュータ史からのアプローチ
歴史的に見ると、「情報エントロピー」のような考えを持っていた数学者はほかにもいたようですが、シャノンの場合は、それを拡張して、相互情報量というところまで定義しただけではなく、それらを使って深い理論体系を作ったところが凄いのだと言えるでしょう。実際,それまでと大きな違いは、理論だけでなく、実際の社会を数学的に定義したというところなんだと思います。「今回紹介した」という表現になっているのは、実はシャノンの仕事はそれだけではなかったからです。
チューリングとシャノン
チューリングは,チューリング・マシンを用いれば人間の思考を代替できることを示したのですが、「どうやればチューリング・マシンを実現できるのか」までは行き着きませんでした。しかしシャノンが、電気回路でチューリング・マシン、つまりは現代のコンピュータを構成できることを示したというわけです。今回紹介したシャノンの仕事とはまた別の成果です。
チューリング・マシンと計算可能生
計算を反映するようなモデルを考えると、いつも必ず、そのモデルにおける計算可能性が、チューリング・マシンによる計算可能性と等価になることが分かっています。したがってチューリング・マシンによる計算可能性を、計算可能性の定義と考えることが妥当だろうというものです。これらの共通する理論は、「機械にできることは何か?」を考察するための理論と言ったらいいでしょうか。
チューリング・マシンからフォン・ノイマン型コンピュータへ
チューリング・マシンは、テープとヘッドと「有限状態機械」の3つの部分から成り立つ計算モデルですが、現実のコンピュータはテープではなくメモリ上にプログラムとデータを保持し、プログラムに従って計算を進めます。これをプログラム内蔵方式と言い,プログラム内蔵方式のコンピュータを「フォン・ノイマン型コンピュータ」と言います。 しかし、実際にプログラム内蔵方式を考案したのはフォン・ノイマンではないという話もあります。
「最初のコンピュータ」は?
最初のフォン・ノイマン型コンピュータ、つまりプログラム内蔵式コンピュータは、1948年マンチェスター大学のフレデリック・ウィリアムス (1911~1977)とトム・キルバーン(1921~2001)の2人によって開発されたThe Baby ですが、機能的に実験機のレベルであったということです。そんなわけで,「フォン・ノイマン型コンピュー夕」としての「最初のコンピュータ」はEDSACというのがもっとも一般的のようです。
コンピュータの万能性
ここで言うコンピュータの万能性とは、プログラムもデータとして扱えること、つまりプログラム内蔵方式であることに起因しています。データのように見えたメールに悪意を持ったプログラムをデータ化して埋め込むことができるので、コンピュータウイルスの存在を可能としてしまうのは、この原理を悪用した例です。
シャノンの情報理論の応用
今回紹介したシャノンの打ち立てた理論は、彼が携わった数学や工学分野だけでなく、他の自然科学領域の理学、医学や生物学、更には人文・社会科学分野の言語学、心理学,経済学,そして芸術のような領域にまで今や広く浸透しています。例えば、その一つは社会生物学という分野で,エドワード・ウィルソンという人が相互情報量のことを書いています。また,これからの研究分野である量子情報理論は、シャノンの思想を踏襲して類似の理論を構成し、そこから新しい概念を生み出す手法を取っています。量子の世界では、シャノンの情報で測れるものと測れないものがあるということですから,この先の情報科学はシャノンも思ってもみなかった方向に進むのかもしれません。
x
あとがき
この本では、クロード・シャノンが1948年にベル研究所にいたときに発表した論文『通信の数学的理論』のエッセンスについて、いわゆる「シャノンの情報理論」について難しい概念をなるべく使わないようにして紹介しました。
現在,私も含め、情報理工学科、情報工学科、情報科学科など「情報」が付く学科で教鞭をとっている先生のほとんどは数学、物理の出身です。そしてシャノンの生きた20世紀半ば前後も,情報科学は,フォン・ノイマンやアラン・チューリングに代表される数学者、物理学者たちによって大きく発展したのです。 その意味で,今回この本で扱った情報理論は、それまで曖味な概念だった情報を数量的に扱い,新しい数学的理論の始まりとなったわけですが、同時に21世紀に工学と数学を結びつけるお手本と言ってもいいのかもしれません。実際,現代盛んに研究が行われている量子情報理論はシャノンの情報理論思想を踏襲しているそうですし,言語学,心理学、経済学、芸術などの領域にも浸透しているということですから。
参考文献
さくいん
シャノンの情報理論入門 : 価値ある情報を高速に、正確に送る (ブルーバックス ; B-1795) | NDLサーチ | 国立国会図書館
