Yusuke Blog
home
Profile
Articles
Books
お問い合わせ
検索
⌘
K
machine-learning
2026年4月5日
強化学習におけるモンテカルロ法とTD法を数学で理解する
価値関数、Bellman方程式、モンテカルロ法、TD(0)、n-step TD、TD(λ) を数式ベースで整理し、偏り・分散・収束の違いを解説する
#reinforcement-learning
#mathematics
#machine-learning