EITC/AI/ARL Advanced Reinforcement Learning は、人工知能における強化学習に対する DeepMind のアプローチに関するヨーロッパの IT 認定プログラムです。
EITC/AI/ARL 高度強化学習のカリキュラムは、DeepMind の観点から見た強化学習テクニックの理論的側面と実践的なスキルに焦点を当てており、以下の構造内で編成されており、この EITC 認定資格の参考となる包括的なビデオ教育コンテンツが含まれています。
強化学習(RL)は、累積報酬の概念を最大化するために、インテリジェントエージェントが環境内でどのように行動を起こすかに関する機械学習の領域です。 強化学習は、教師あり学習および教師なし学習と並んで、XNUMXつの基本的な機械学習パラダイムのXNUMXつです。
強化学習は、ラベル付きの入力/出力ペアを提示する必要がないこと、および次善のアクションを明示的に修正する必要がないことにおいて、教師あり学習とは異なります。 代わりに、(未知の領域の)探査と(現在の知識の)搾取の間のバランスを見つけることに焦点が当てられています。
このコンテキストの多くの強化学習アルゴリズムは動的計画法を使用するため、環境は通常、マルコフ決定過程(MDP)の形式で記述されます。 古典的な動的計画法と強化学習アルゴリズムの主な違いは、後者はMDPの正確な数学的モデルの知識を前提とせず、正確な方法が実行不可能になる大規模なMDPを対象としていることです。
その一般性により、強化学習は、ゲーム理論、制御理論、オペレーションズリサーチ、情報理論、シミュレーションベースの最適化、マルチエージェントシステム、群知能、統計など、多くの分野で研究されています。 オペレーションズリサーチと制御の文献では、強化学習は近似動的計画法または神経動的計画法と呼ばれています。 強化学習で関心のある問題は、最適制御の理論でも研究されています。これは、主に最適解の存在と特性評価、およびそれらの正確な計算のためのアルゴリズムに関係し、特に学習や近似がない場合は学習や近似には関係しません。環境の数学的モデル。 経済学とゲーム理論では、強化学習を使用して、限定合理性の下で均衡がどのように発生するかを説明できます。
基本的な強化は、マルコフ決定過程(MDP)としてモデル化されます。 数学では、マルコフ決定過程(MDP)は離散時間確率制御過程です。 これは、結果が部分的にランダムで、部分的に意思決定者の制御下にある状況で意思決定をモデル化するための数学的フレームワークを提供します。 MDPは、動的計画法によって解決される最適化問題を研究するのに役立ちます。 MDPは、少なくとも1950年代には知られていました。 マルコフ決定過程に関する研究の中核は、ロナルド・ハワードの1960年の著書、動的プログラミングとマルコフ過程から生まれました。 それらは、ロボット工学、自動制御、経済学、製造など、多くの分野で使用されています。 MDPの名前は、マルコフ連鎖の延長であるため、ロシアの数学者アンドレイマルコフに由来します。
各タイムステップで、プロセスはある状態Sにあり、意思決定者は状態Sで使用可能な任意のアクションaを選択できます。プロセスは次のタイムステップでランダムに新しい状態S 'に移動し、意思決定者は対応する報酬Ra(S、S ')。
プロセスが新しい状態S 'に移行する確率は、選択したアクションaの影響を受けます。 具体的には、状態遷移関数Pa(S、S ')で与えられます。 したがって、次の状態S 'は、現在の状態Sおよび意思決定者の行動に依存する。 しかし、Sとaが与えられると、それは条件付きで以前のすべての状態とアクションから独立しています。 言い換えると、MDPの状態遷移はマルコフ性を満たします。
マルコフ決定過程はマルコフ連鎖の拡張です。 違いは、アクション(選択を許可する)と報酬(モチベーションを与える)の追加です。 逆に、各状態に対してXNUMXつのアクションのみが存在し(「待機」など)、すべての報酬が同じである場合(「ゼロ」など)、マルコフ決定過程はマルコフ連鎖になります。
強化学習エージェントは、離散時間ステップでその環境と相互作用します。 各時間tで、エージェントは現在の状態S(t)を受け取り、r(t)に報酬を与えます。 次に、使用可能なアクションのセットからアクションa(t)を選択します。これは、その後環境に送信されます。 環境は新しい状態S(t + 1)に移行し、遷移に関連付けられた報酬r(t + 1)が決定されます。 強化学習エージェントの目標は、期待される累積報酬を最大化するポリシーを学習することです。
MDPとして問題を定式化することは、エージェントが現在の環境状態を直接観察することを前提としています。 この場合、問題は完全に観察可能であると言われます。 エージェントが状態のサブセットにしかアクセスできない場合、または観測された状態がノイズによって破損している場合、エージェントは部分観測可能性を持っていると言われ、正式には問題は部分観測可能マルコフ決定過程として定式化する必要があります。 どちらの場合も、エージェントが使用できる一連のアクションを制限できます。 たとえば、アカウントの残高の状態をプラスに制限することができます。 状態の現在の値が3で、状態遷移が値を4減らしようとすると、遷移は許可されません。
エージェントのパフォーマンスを最適に動作するエージェントのパフォーマンスと比較すると、パフォーマンスの違いが後悔の概念を引き起こします。 ほぼ最適に行動するために、エージェントはその行動の長期的な結果について推論する必要があります(つまり、将来の収入を最大化する)が、これに関連する即時の報酬はマイナスになる可能性があります。
したがって、強化学習は、長期的な報酬と短期的な報酬のトレードオフを含む問題に特に適しています。 ロボット制御、エレベータスケジューリング、電気通信、バックギャモン、チェッカー、Go(AlphaGo)など、さまざまな問題にうまく適用されています。
XNUMXつの要素により、強化学習が強力になります。パフォーマンスを最適化するためのサンプルの使用と、大規模な環境を処理するための関数近似の使用です。 これらのXNUMXつの主要コンポーネントのおかげで、強化学習は次のような大規模な環境で使用できます。
- 環境のモデルはわかっていますが、分析ソリューションは利用できません。
- 環境のシミュレーションモデルのみが示されています(シミュレーションベースの最適化の対象)。
- 環境に関する情報を収集する唯一の方法は、環境と対話することです。
これらの問題の最初のXNUMXつは計画の問題と見なすことができ(何らかの形式のモデルが利用可能であるため)、最後の問題は真の学習の問題と見なすことができます。 ただし、強化学習は両方の計画問題を機械学習問題に変換します。
探索と搾取のトレードオフは、多腕バンディット問題を通じて、Burnetas and Katehakis(1997)の有限状態空間MDPについて最も徹底的に研究されています。
強化学習には、巧妙な探索メカニズムが必要です。 推定された確率分布を参照せずにアクションをランダムに選択すると、パフォーマンスが低下します。 (小さな)有限マルコフ決定過程の場合は比較的よく理解されています。 ただし、状態の数に応じて適切にスケーリングする(または無限の状態空間の問題にスケーリングする)アルゴリズムがないため、単純な探索方法が最も実用的です。
探査の問題が無視され、状態が観察可能であったとしても、問題は、過去の経験を使用して、どのアクションがより高い累積報酬につながるかを見つけることです。
認定カリキュラムについて詳しく知るために、以下の表を展開して分析することができます。
EITC/AI/ARL 高度強化学習認定カリキュラムでは、ビデオ形式のオープンアクセスの教育資料を参照しています。 学習プロセスは、関連するカリキュラム部分をカバーする段階的な構造 (プログラム -> レッスン -> トピック) に分かれています。 ドメイン専門家による無制限のコンサルティングも提供されます。
認定手続きの確認について詳しくは 仕組み.
カリキュラムリファレンスリソース
Deep ReinforcementLearningの出版物による人間レベルの制御
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
カリフォルニア大学バークレー校での深層強化学習に関するオープンアクセスコース
http://rail.eecs.berkeley.edu/deeprlcourse/
Manifold.aiからのKアームベッドバンディット問題に適用されたRL
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
EITC/AI/ARL Advanced Reinforcement Learning プログラムの完全なオフライン自己学習準備資料を PDF ファイルでダウンロードします