ディープラーニング(深層学習)…中間層を多段階に重ねることで学習精度をあげようとするニューラルネット。
ニューラルネットは、人間の脳のニューロンのふるまいをモデル化したあたり、可能性は感じつつも結局、トイプログラム以上のものにはならないなあと思ってたのも今は昔(って何十年も前)。
2012年に物体認識のコンテストILSVRC(ImageNet Large Scale Visual Recognition Challenge)でトロント大学のチームがディープラーニングのモデルをひっさげて圧勝したのが転機になったでしょうか…それ以来、こと画像認識や音声認識、自然言語処理、ゲームなどの分野では、ディープラーニングが席巻してしまうといった、まさかまさかの急展開が繰り広げられる状況になったわけです。
それから10年、ディープラーニング*1は、問題点が露呈したり*2して、さまざまな批判は受けつつも着実に根はおろしてきていると言えるでしょう。ここではディープラーニングの特徴について私なりの考えをまとめておきたいと思います。
*1:最近の風潮… AI=ディープラーニング になっているような気が …笑
*2:たとえば、こんなこと 焦点:アマゾンがAI採用打ち切り、「女性差別」の欠陥露呈で
ディープラーニングは、入力と出力の間で多段のネットワークを構成し、あとはひたすら学習、エッジの重みづけを最適化していく…そういった機械学習のしくみ。実はそこに「何がこうなったからこう」といった数理論理的な論理処理は介在していません*3。
*3:ちなみに一応念のためですが、ニューラルネットのメカニズムを支えるプログラムの中ではif-thenやfor、whileループなどの論理的な処理はありありですが、ここで言っているのはより高次のニューラルネットワークのモデルレベルの話
一方、従来のコンピュータは、ほぼ理屈(論理)で処理する方式。たとえば
今日は25日だから給料振り込むよ
とか
最高血圧が○○以上だから通常より保険料が△△円高くなる
とか、仮に結論に至るまでに何段階も(たとえば~ならば~であるといった)論理を積み重ねることになったとしても必ずその筋道は明確に決められているはずのものです。きちんと説明できるはずのものです。
ところで、画像の認識や音声の認識について、人間は理屈というよりも本来直感で決めてませんか?
ちょっと前にも書きましたが、人が猫を認識するとき、猫は猫であってそれ以上でもそれ以下でもない。西川きよしさんを西川きよしさんと認識するとき単純に目が大きいからということだけから認識するわけではないでしょう。目が大きいということだけだったら、もしかして今田美桜さんかもしれない。
画像を、言葉で論理的に説明しつくせるのであれば、「百聞は一見に如かず」*4 のことわざもないかもしれません。
*4:ちなみにこれには続きもあるそうで…本記事の意図とは全然違いますが、興味のある方は「百聞は一見にしかず 続き」ででも調べてください。
つまるところ、現在のディープラーニングの本質は、理屈を超えたパターン認識…そういったところにあるのだろうと思います。現在のディープラーニング(第3世代AI)が、即応するAI、右脳のAIなどと言われるゆえんでしょう。
実際に使われているところをみると、製造業であれば不良品/検品の目視検査であったり、機械の異常を音・振動によって検知したり、医療であればX線写真から異常を発見したり…。
本日テレビでは、雑踏の中を行き交う人々が正しくマスクをしているかを示す映像を放映していましたが、結局現在のディープラーニングの使いどころも人間の目や耳の機能を代替したり、人間の勘などといった理屈を超えたところがその使いどころなのだろうなと思います。
最近、XAI(説明可能なAI)の研究が流行っていますが、すくなくとも現在のディープラーニングは、あのゴッドファーザー、ヒントンも言う通り、そもそもが説明できないところへ適用されて成功を収めたわけで、あまり過剰な期待を持つのもどうかと…。
もっとも、人間も後付けで理屈をつけたりして、それがきっかけで進歩したりするところもあるので、XAIのようなやり方もありと言えばありかなと…。そういった意味ではXAIも適切に守備範囲を理解したうえで使うことが肝要かなあと思う次第。
以上、現在のディープラーニングについて思うところを書いてきました。ここで「現在の」とあえて修飾をつけているのは、将来的に、第4世代AIなど、もう少し本質的なところでディープラーニングと論理が結びつくなどありそうだから…。また、ディープラーニングが学習を続けていくことで、言語が、論理が創発してくるとか…実用性はともかく、研究的な面ではおもしろいかもですね。もし、そうなったらそれがシンギュラリティということなのでしょうけど。
コメント