基于Qlearning强化学习的倒立摆控制系统matlab仿真1.算法描述2.仿真效果预览3.MATLAB部分代码预览4.完整MATLAB程序
强化学习通常包括两个实体agent和environment。两个实体的交互如下,在environment的statestst下,agent采取actionatat进而得到rewardrtrt 并进入statest+1st+1。Q-learning的核心是Q-table。Q-table的行和列分别表示state和action的值,Q-table的值Q(s,a)Q(s,a)衡量当前states采取actiona到底有多好。