强化学习

强化学习（reinforcement learning，RL）通过从反复试验中不断试错来学习，并根据收到的奖励和惩罚来更新最佳行动策略。强化学习算法可以用于需要连续采取行动并且立即获得奖励的环境，比如用于计算机游戏中。