强化学习(reinforcement learning,RL)通过从反复试验中不断试错来学习,并根据收 到的奖励和惩罚来更新最佳行动策略。强化学习算法可以用于需要连续采取行动并且立 即获得奖励的环境,比如用于计算机游戏中。
最后更新于7个月前