いまさら聞けないITの常識

今の「AI」は特定問題の解決策 機械学習で長足の進歩 中央大学国際情報学部教授 岡嶋 裕史

記事保存

日経BizGate会員の方のみご利用になれます。保存した記事はスマホやタブレットでもご覧いただけます。

 決めるもとになるのは、過去に指された将棋の記録「棋譜」です。「この場面ではこう指す。そうであるならば、歩の価値はもうちょっと上げた方がいい」などと棋譜を評価し、パラメータをいじる作業を自動化しています。

 ボナンザはぽっと出てきたわけではなく、過去の膨大な棋譜がきちんと整備されていたからこそ、世に現れたといっていいでしょう。プロの棋譜に学んだのです。プロの良い手を模倣している、ともいえます。

 「模倣」というと、プロの棋士を凌駕できないと思うかもしれませんが、一度プロと同程度の知見を確立してしまえば、見落としや錯覚のなさ、疲労や緊張がないなどの特性によって、プロよりも優位に立つことができます。既存の棋譜からでも、人間が発見できていない棋理を見つけ出すかもしれませんし、機械学習以外の他の手法と組み合わせることで、プロよりずっと強くなることが可能です。

 機械学習を利用して、飛躍的な向上を続けてきた一時期と同程度の棋力の伸びが今後も続くかどうかはともかくとして、「AI」を使った囲碁や将棋のソフトはまだまだ強くなっていくでしょう。

機械学習の分類

 機械学習は、教師あり学習教師なし学習強化学習深層学習などに分類することができます。

(1)教師あり学習

 お手本のデータがあり、それに適合するようにシステムを再構成していきます。「この入力があったときには、この出力が得られるとよい」というお手本データがあれば、関数を作ることができます。その関数の出来がよければ、未知の入力に対しても、適切な出力を得ることができます。前項の将棋ソフトの例は、典型的な教師あり学習です。相手がこう指してきたとき(入力)、強い人はこう指した(出力)、だから同じ振る舞いができるように関数のパラメータを調整する、ということです。言葉にすると簡単ですが、パラメータは数億に上ることも珍しくなく、この手をうまく模倣できるようになったら、あの手は指せなくなった、といった気の遠くなるような試行錯誤の繰り返しが求められます。

 気象予測にも、教師あり学習が使われています。この気候条件が整うと明日は雨になるとか、このパターンで気象が推移すると明後日は台風が東へ進路を変えるとか、学習によって導くことができるようになります。

 将棋でも気象でもそうですが、「教師あり」というくらいですから、正解のデータがあることが前提になっています。正解がない分野では使えないこと、お手本データの質によっては、学習効果が低くなることが注意点です。

(2)教師なし学習

 お手本のデータがない状態で、学習を行う機械学習です。教師なし学習は、入力しかないようなデータをもとに学習していきます。お手本がなくても、グルーピングなどはできますから、特徴Aのデータを集めた、特徴Bのデータを集めた、とやっていくと、犬と猫を判別できる画像処理エンジンを作れたりします。

 教師なし学習は、たとえばマーケティングなどの分野で使われています。この年齢、性別、住所、学歴、職歴の人は、何を買ってくれるのだろう? と考えたときに、そうそう都合のいいお手本データはありません。しかし、これは買った、これは買わなかったという事実を積み上げてグループ化することで、次に買いそうな商品のパターン、商品グループ、買いそうにない商品のパターン、商品グループを分けられるようになっていきます。

(3)強化学習

 自分(エージェントと呼びます)の周囲を環境と捉え、環境に働きかけるような行動を選択していきます。行動すると環境に変化が起きますが、その変化が望ましいものだった場合は報酬が大きく、望ましくないものだと報酬が小さくなります。エージェントは、試行錯誤を繰り返すことによって、報酬を最大化する行動を学んでいきます。

 強化学習は近年とても注目を浴びています。優秀な学習方法であることはもちろんですが、その学習の仕方が人間や動物に似ていることも一因でしょう。

 発達障害のあるお子さんにABA(応用行動分析学)という療育が行われることがあります。これは一種の強化学習です。たとえば、自閉スペクトラム症の子どもはなかなか言葉が出ず、お菓子が欲しいときに叫んだりします。このとき、叫んでもお菓子は与えない、「お菓子」と言うことができればお菓子を与える、言葉が出なければジェスチャーを促し、うまくジェスチャーできたらやはりお菓子を与える。こうした練習を繰り返します。

 すると、叫んでもお菓子はもらえない(報酬なし)、ジェスチャーをすればお菓子をもらえる(報酬あり)ことを学習して、報酬がもらえる行動を取ることが多くなって(強化されて)いきます。

 情報分野での強化学習も同じ発想に基づいています。うまくいった(報酬が大きかった)行動を、望ましい行動として覚えさせておいて、次に同じ状況に直面したときにまた望ましい行動を繰り返せるようにシステムを強化していくのです。

 「報酬」は「教師」よりも用意しやすいので、汎用性が高いのが特徴です。たとえば、強化学習の事例として、ギャンブルに勝つ方法がよく取り上げられます。ポーカーやブラックジャックは不完全情報ゲームです。完全に相手の手の内がわかる将棋など(完全情報ゲーム)と比べて、相手にどんな手札があるのかがわからず、手持ちの情報の中で必勝法を考慮するのは不可能です。正解がないのです。

 とはいえ、「この札を出せば正解だ」というお手本の情報はなくとも、ポーカーの場合は、この手を出したら結果として勝った(負けた)、いくらもらった(支払った)情報はすぐに得ることができます。ギャンブルの目的は持ち金の最大化ですから、試行を繰り返すことで、持ち金を最大化できる賭け方は学習することができます。

閲覧履歴

    クリッピングした記事

    会員登録後、気になる記事をクリッピングできます。