【学习笔记】强化学习
定义强化学习主要由智能体agent和环境environment两部分组成。agent代表有行为能力的物体。环境指agent执行动作所处的场景。外部环境提供的信息很少,且没有带标签的监督信息,agent需不断试错来尝试不同的动作,根据采取的策略在交互过程中获得的奖励或惩罚信号,自主发现和选择最大回报的动作。强化学习的目的是寻找一个最优策略,使智能体在运行过程中所获得的累积奖励达到最大。强化学习可用四元组<S,A,P,R><S,A,P,R>&a