UCT(信心上限树算法)解四子棋问题——蒙特卡罗法模拟人机博弈
说蒙特卡罗规划方法的思想挺简洁的,但我在理解它的实现过程时我还是费了些功夫。这里主要以简单的四子棋为例描述一下蒙特卡罗方法是如何解决人机博弈这一类问题的。 UCT算法是蒙特卡罗规划方法的改进,是将UCB1算法(信心上限算法)思想用于蒙特卡罗规划的特定算法,它比单纯的蒙特卡罗规划更容易获得最优解。首先贴一段伪代码:这段伪代码来自于一本我也不知道名字的书的第八章——蒙特卡罗博弈方法。首...