强化学习第二:epsilon贪心算法
接着考虑前文的10臂老虎机问题。假设我们可以与老虎机交互TTT次,显然我们每次采取的行动(action)不必一成不变。记我们在ttt时刻采取行动为ata_tat,获得的回报为R(at)R(a_t)R(at)。那么,我们的目标是maxa1,a2,...,aT∑t=1TE[R(at)].\max_{a_1,a_2,...,a_T} \sum_{t=1}^T E[R(a_t)].a1,a2...