AI・人工知能

強化学習の特徴とは？ディープラーニングとの違いと活用事例

「強化学習（Reinforcement Learning）」という言葉を聞いたことはあるでしょうか。人工知能（AI）の学習方法の一つであり、ディープラーニングとともにコンピュータの学習性能を飛躍的に高めたことで熱い注目を集めています。

AIやディープラーニング、機械学習など似たような内容でよくわからないですよね。そこで今回は、これら類似用語との違いや関係を踏まえて強化学習の基礎知識と導入事例をご紹介します。

ゲームにも活用される強化学習とは？

ゲームにも活用される強化学習の概要について解説します。強化学習やディープラーニング（Deep Learning、深層学習）、人工知能（Artificial Intelligence、AI）、機械学習などの違いや関係性を理解しましょう。

強化学習の基礎知識

強化学習（Reinforcement Learning）とは、機械学習の一種です。AIを作るアルゴリズム（手順、手法）の一つが機械学習であり、強化学習はその方法の一つとも言い換えられます。単純な正解・不正解ではなく、将来的な価値を最大化するような行動を試行錯誤によって学習するのが強化学習です。

強化学習は、将来の価値の最大化を目的とするタスク、すなわちゲームと相性がよいと考えられています。たとえば2015年から2017年にかけて、Googleに買収されたテクノロジー企業であるGoogle DeepMindの開発した「AlphaGo」が囲碁のトップ棋士3名に圧勝しました。AlphaGoのAIには強化学習が活用されています。

機械学習のアルゴリズムには、強化学習以外にも「教師あり学習」と「教師なし学習」があります。強化学習の仕組み、特にプログラミングのポイントや手法については後ほど詳しく紹介しますので、まずは教師あり学習および教師なし学習について簡単に理解しましょう。

教師あり学習

教師あり学習とは、AIに対して事前に正解を提示しながらデータを入力するタイプの学習法です。AIが学ぶためには大量のデータを必要とします。
データを与えるときに、データに「正解ラベル」を付けて学習させます。たとえば肉料理の名前を答えるAIを作ろうと思ったら、肉料理の画像ファイルを読み込ませるだけではなく、その画像ファイルに対して「しょうが焼き」「ハンバーグ」「サーロインステーキ」「鶏の唐揚げ」などのラベルを付けておきます。
こうしたラベル付きのデータ＝教師データを大量にAIへ読み込ませることで、画像認識の精度を高めていきます。教師あり学習は、確固とした正解のある問題を自動的に解決させたいときに有効な学習法であると言えます。

教師なし学習

一方の教師なし学習は、正解ラベルを付けることなくデータを投入する学習法です。AIが入力データの規則性や傾向を分析し、大量のデータの中から似ているものをグルーピングします。教師なし学習の典型例としては、購買情報を基に顧客を分類するタイプが挙げられます。
教師なし学習は、正解のないタスクに適用されます。膨大なデータから特徴を把握し、大まかにグルーピングしたい場合に有効な学習法であると言えます。

強化学習とディープラーニングの違い

強化学習とディープラーニング（深層学習）は、どちらもAIに学習させるための手段です。ただしその学習方法が若干異なっています。

強化学習は、コンピュータを動かすために人間の命令を必要としています。何を学習するかまではコンピュータが判断するわけではありません。それに対してディープラーニングでは、コンピュータ自身が注目すべきポイントを入力データの中に見つけ出し、自ら分析して学習を進めます。

強化学習では学習プロセスに人間の手を必要とするのに対し、ディープラーニングでは必要としません。この点が両者の違いです。ディープラーニングでは、人間の脳を模倣した「ニューラルネットワーク」というネットワーク構造が使用されているため、ディープラーニングの方がより人間の学習スタイルに近いと言えます。

結果を最大化する強化学習の仕組み

強化学習についてもう少し詳しく見ていきましょう。特にプログラミングの考え方、具体的な手法について紹介します。

強化学習のプログラミングのポイント

強化学習には、状態・行動・報酬の3要素が必要です。

状態：現在の環境がどうなっているか把握する
行動：現在の環境に対してどのような行動ができるのかを表す
報酬：行動を起こした結果、どのくらいの報酬が得られるかを表す

状態と行動を踏まえて、将来的に最大の報酬を実現できるような行動を選択していくように学習させるのが強化学習となります。目先の利益ではなく、未来を見据えたときの利益の最大化を目的とすることがポイントです。

強化学習は特定の環境を与えることで機能します。学習するプレイヤーを「エージェント」と呼びます。

強化学習の主な手法

強化学習の具体的なアルゴリズムにはいくつかありますが、ここでは代表例としてQ学習・Sarsa・モンテカルロ法の3つを紹介します。いずれも「ある状態である行動を採用したときの価値＝報酬」を「Q値」と呼び、このQ値の最大化を目的とした関数です。これらのアルゴリズムを実装するプログラミング言語として、「Python」がよく知られています。

・Q学習

Q学習では、ある状態で取ることのできる行動の価値として数字を計算して評価し、その中から最大の値を「次のQ値」とします。最初の段階ではある状態と行動の組み合わせに対するQ値は分かっていませんから、試行錯誤を繰り返すことで正しいQ値を学習していくわけです。これによってQ値の推定能力を高めます。
先ほど紹介したAlphaGoでは、ディープラーニングを用いてQ学習を行わせる「Deep Q-Network（DQN）」というAIが採用されていました。全く囲碁の定石を知らないところから人知を越えたスピードで試行錯誤を進め、あっという間にトップ棋士を超える実力を身に付けたことでその名を世界にとどろかせたのでした。

・Sarsa

SarsaもQ学習と同じように最大のQ値を探索するアルゴリズムですが、その方法論がやや異なっています。
見積もりを行った際の期待値で判断するQ学習に対し、Sarsaでは実際に行動した際の値を使います。現在の「最大のQ値」を更新するには、実際に一回ずつ行動させる必要があります。

・モンテカルロ法

モンテカルロ法では、Q学習やSarsaのように「次の状態におけるQ値」を使って更新するわけではありません。最初に試行錯誤を繰り返し、報酬を得られた段階で状態と行動の組み合わせに対するQ値を更新します。

強化学習が活用されている事例

強化学習が囲碁のAI以外でどのような分野に活用されているのでしょうか。強化学習の導入事例について紹介します。

自動車の自動運転

関係者が強化学習に大きな期待を寄せている分野として、自動車の自動運転技術が挙げられます。自動車が搭載するコンピュータにQ学習のアルゴリズムを実装し、このコンピュータが周囲の道路状況や気温、天候などの状態と行動のデータを蓄積します。最終的には、人間の手を介さずに運転することを目標としています。

ハンズフリーで走行できるようになれば、運転者の負担が大きく軽減されます。その一方で、事故が発生した際の責任の所在をどこに置くのか、法的・倫理的な課題も残されています。

エレベーターの制御システム

エレベーターの制御システムに強化学習を取り入れることも考えられています。昨今のマンションやオフィスでは高層化が進んでおり、その結果としてエレベーターの待ち時間が長くなっています。エレベーターの増設が最善の解決策ではありますが、多くの高層ビルでは現実的な選択肢とは言えません。

こうした状況を踏まえて、エレベーターの台数と定員は変えずに待ち時間を減らす方策として強化学習を実装した制御システムの導入に期待が集まっています。平均待ち時間を最適化するようにエレベーターの動きを制御することで、待ち時間短縮や利用者の満足度向上を目指します。

広告配信

広告配信の分野も、強化学習と相性がよいとされています。顧客の長期的な購買金額をQ値として、これを最適化するような対象や場所、タイミングなどを推測します。

広告配信の最適化はマーケティングの大きな課題となっているため、強化学習で成果を上げれば一気に普及する可能性があります。

ゲーム

勝負の明確なゲームの領域では、強化学習の導入がしやすいといえます。
囲碁、将棋に限らず、チェスやオセロなどのボードゲーム、シューティングゲームやシミュレーションゲームなどビデオゲームに対応したコンピュータも、強化学習で作成可能と考えられます。

強化学習がビジネスを変える日も近い？

囲碁をはじめとしたゲーム分野で注目を集めた強化学習ですが、最後に紹介したとおりビジネス分野でも多様な応用可能性を秘めています。「試行錯誤を通じて将来の価値を予測する」というのは経営判断にも近く、ビジネスの生産性を大きく高めることも期待されます。

フィンテックとは？金融×テクノロジーがもたらす企業と暮らしの未来

人工知能の活用例と今後の課題｜飛躍的な進化の先に広がる未来とは？

強化学習の特徴とは？ディープラーニングとの違いと活用事例