
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
随着互联网的不断发展,越来越多的人都在学习人工智能等互联网新技术,而本文我们就通过案例分析来简单了解一下,人工智能强化学习常用方法都有哪些。
一、环境的状态S,t时刻环境的状态StSt是它的环境状态集中某一个状态。
二、个体的动作A,t时刻个体采取的动作AtAt是它的动作集中某一个动作。
三、环境的奖励R,t时刻个体在状态StSt采取的动作AtAt对应的奖励Rt+1Rt+1会在t+1时刻得到。
下面是稍复杂一些的模型要素。
四、个体的策略(policy)ππ,它代表个体采取动作的依据,即个体会依据策略ππ来选择动作。常见的策略表达方式是一个条件概率分布π(a|s)π(a|s),即在状态ss时采取动作aa的概率。即π(a|s)=P(At=a|St=s)π(a|s)=P(At=a|St=s).此时概率大的动作被个体选择的概率较高。
五、个体在策略ππ和状态ss时,采取行动后的价值(value),一般用vπ(s)vπ(s)表示。这个价值一般是一个期望函数。虽然当前动作会给一个延时奖励Rt+1Rt+1,但是光看这个延时奖励是不行的,因为当前的延时奖励高,不代表到了t+1,t+2,...时刻的后续奖励也高。比如下象棋,我们可以某个动作可以吃掉对方的车,这个延时奖励是很高,但是接着后面我们输棋了。此时吃车的动作奖励值高但是价值并不高。因此我们的价值要综合考虑当前的延时奖励和后续的延时奖励。价值函数vπ(s)vπ(s)一般可以表示为下式,不同的算法会有对应的一些价值函数变种,但思路相同。:
vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+...|St=s)vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+...|St=s)
其中γγ是六个模型要素,即奖励衰减因子,在[0,1]之间。如果为0,则是贪婪法,即价值只由当前延时奖励决定,如果是1,则所有的后续状态奖励和当前奖励一视同仁。大多数时候,我们会取一个0到1之间的数字,即当前延时奖励的权重比后续奖励的权重大。
七、环境的状态转化模型,可以理解为一个概率状态机,它可以表示为一个概率模型,即在状态ss下采取动作aa,转到下一个状态s′s′的概率,表示为Pass′Pss′a。
八、探索率ϵϵ,这个比率主要用在强化学习训练迭代过程中,由于我们一般会选择使当前轮迭代价值大的动作,但是这会导致一些较好的但我们没有执行过的动作被错过。因此我们在训练选择优动作时,会有一定的概率ϵϵ不选择使当前轮迭代价值大的动作,而选择其他的动作。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请加抖音太原达内IT培训学习了解。