[強化学習]連続した行動空間を扱えるPPO

強化学習】実装しながら学ぶPPO【CartPoleで棒立て:1ファイルで完結】を参考にして、連続したaction空間を扱えるPPOを作ろうとしたのですが、今のところ上手くいっていません。メモ代わりに記事を残しておきます。もし、何か修正点を見つけてくださった場合は、コメント欄でこっそり教えてください。

AINOW
人工知能専門メディアAINOW(エーアイナウ)です。人工知能を知り・学び・役立てることができる国内最大級の人工知能専門メディアです。2016年7月に創設されました。取材のご依頼もどうぞ。https://form.run/@ainow-interview
サイト名: Qiita

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する