強化学習
「強化学習」は明確な正解がないときに、どの行動が「最適」か選択するように学習させる手法です。
ここでは囲碁AIの「Alpha Go」を例に説明をします。囲碁は手のパターンが膨大過ぎて、既存の最新のコンピュータでも、手を読み切ることは不可能です。
よって、強化学習により、勝ちまでの手を読み切る代わりに、どの手を打てば勝ちに近づくかを学習させています。
試合を繰り返し行い学習させると、最適な行動のみを選択するようになります。こうして「Alpha Go」は強くなっていったのです。
「強化学習」は明確な正解がないときに、どの行動が「最適」か選択するように学習させる手法です。
ここでは囲碁AIの「Alpha Go」を例に説明をします。囲碁は手のパターンが膨大過ぎて、既存の最新のコンピュータでも、手を読み切ることは不可能です。
よって、強化学習により、勝ちまでの手を読み切る代わりに、どの手を打てば勝ちに近づくかを学習させています。
試合を繰り返し行い学習させると、最適な行動のみを選択するようになります。こうして「Alpha Go」は強くなっていったのです。