04ReinforcementLearning3.5, Multiple time steps

views comments

Policy gradient methods for problems that extend over multiple time steps are derived here.

Related Media