Yusuke Blog
home
Profile
Articles
Books
お問い合わせ
検索
⌘
K
シェア
修正を提案する
修正を提案する
強化学習におけるモンテカルロ法とTD法を数学で理解する
価値関数、Bellman方程式、モンテカルロ法、TD(0)、n-step TD、TD(λ) を数式ベースで整理し、偏り・分散・収束の違いを解説する
2026年4月5日
約15分で読めます
記事
#reinforcement-learning
#mathematics
#machine-learning
記事を読み込み中...
記事一覧
この記事をシェア