強化学習におけるモンテカルロ法とTD法を数学で理解する

価値関数、Bellman方程式、モンテカルロ法、TD(0)、n-step TD、TD(λ) を数式ベースで整理し、偏り・分散・収束の違いを解説する

2026年4月5日
約15分で読めます
記事
記事を読み込み中...
記事一覧