的操作接收反馈。医疗保健领域的一些强化学习应用主要涉及寻找最佳治疗策略。深度学习科学家正在研究用于医疗设备、药物剂量和两阶段临床试验的强化学习应用。
渠道营销优化和在线展示广告的实时竞价系统。
强化学习理论的方法
强化学习有很多方法。这里 手机号数据库列表 ,我讨论了三种最著名的方法:基于价值的学习、基于策略的学习和基于模型的学习方法。
-
基于价值的学习方法:
基于价值的学习估计最优价值函数,即任何策略下可实现的最大值。存储价值函数(或)策略可能不太现实,尤其是在状态-动作对维度较高的情况下。因此,通常会使用函数逼近器,例如线性回归、神经网络。在基于价值的强化学习中,目标是优化价值函数 V(s)。价值函数告诉我们智能体在每个状态下将获得的最大预期未来奖励。
每个状态的价值是代理从该状态开始,预期在未来累积的奖励总额。然后,代理会使用这个价值函数来选择每一步要选择的状态。代理最终会选择价值最大的状态。
-
基于策略的学习方法:
基于策略的学习直接寻找能够实现最大未来奖励的最优策略。在基于策略的方法中,我们希望直接优化策略函数π(s),而不使用价值函数。策略定义了代理在给定时间的行为。我们学习一个策略函数。这使我们能够将每个状态映射 如何实施以客户为中心的战略 到最佳的对应动作。
这种方法有两种类型的策略:
- 确定性:给定状态下的策略将始终返回相同的动作。
- 随机:输出动作的分布概率。
-
基于模型的学习方法:
在基于模型的强化学 巴哈马商业指南习中,环境被视为学习的模型。这意味着环境行为的模型会被创建。这是一个很好的方法,直到你发现每个环境都需要不同的模型表示。