Skip to content
  • 恩博娱乐
  • 恩博娱乐注册
  • 恩博娱乐网址
  • 恩博平台
logo

恩博娱乐 | 恩博平台 | 恩博娱乐注册 | 恩博娱乐网址

恩博娱乐-邀请您体验K8娱乐
  • Home
  • 恩博娱乐
  • 88老虎机:强化学习——多臂老虎机问题
恩博娱乐
2023年7月21日

88老虎机:强化学习——多臂老虎机问题

强化学习——多臂老虎机问题

作者:oneraynyday

编译:Bot

编者按:无论有没有去过赌场,相信大多数人都不会对老虎机感到陌生。作为赌场里最常见的娱乐设备,老虎机不仅在现实中广受人们欢迎,它也频繁出现在电视电影乃至动画片中,连一些常见的APP里都有它的身影。

往机器里投入硬币后,玩家需要拉下拉把转动玻璃框中的图案,如果三个图案一致,玩家能获得所有累积奖金;如果不一致,投入的硬币就会被吞入累积奖金池。这个问题看似简单,但很多人也许都忽视了,其实它和围棋、游戏一样,也是个强化学习问题。

首先,我们要明确一点——老虎机问题是表格型解决方案工具的一种。之所以这么说,是因为我们可以把所有可能的状态放进一个表格中,然后让表格告诉我们需要了解的问题状态,继而为解决问题找出切实的解决方案。

单臂老虎机:只有一根侧面拉杆

假设我们有一台K臂老虎机,每根拉杆都能提供固定的一定数额的金钱,一次只能拉下一根拉杆,但我们不知道它们的具体回报是多少。在这个情景中,k根拉杆可以被视为k种不同的动作(action),拉下拉杆的总次数T是我们的总timestep。整个任务的目标是实现收益的最大化。

设在第 t 次拉下拉杆时,我们采取的动作是 A_t ,当时获得的回报是 R_t 。那么对于任意动作 a ,它的动作值(value) q_∗(a) 是:

这个等式表示的是无论何时,如果我们选择动作 a ,我们获得的实际回报就应该等于动作 a 的预期回报。

把上面这个句子再读三四遍,你觉得它行得通吗?如果我们事先已经知道拉下这个拉杆的最大收益是多少,那出于贪婪的目的,我们肯定每次都会选最好的动作,然后使最终回报最大化。但在强化学习问题中,贪婪算法并不一定等同于最优策略,这一步的贪婪可能会对下一步产生负面影响。

虽然很困难,但我们真的很想实现 q_∗(a) ,所以对于timestep t ,设 Q_t(a) 是 q_∗(a) 的近似值:

那么我们又该怎么获得 Q_t(a) ?

注:上文中的回报(reward)和动作值(value)不是同一个概念。回报指的是执行动作后的当场回报,动作值是一个长期的回报。如果你吸毒了,一小时内你很high,回报很高,但长期来看,你获得的动作值就很可怕了。需要注意的是,因为老虎机只需要一个动作,所以这里的 q_∗(a) 不是未来回报之和,只是期望回报,它和其他地方的 q_∗(a) 也不一样(虽然有滥用符号之嫌,但还是请多包涵啦)。

函数 Q_π(x, a) 表示从状态 x 出发,执行动作 a 后再使用策略 π 带来的累计奖赏,称为“状态-动作值函数”(state-action value function)。——周志华《机器学习》

首先,我们需要估计动作值,再据此决定要采取的行动。

估算动作值

求解 q_∗(a) 近似值的一种简单方法是使用样本平均值:

上述等式看起来好像有什么说法,但它其实很简单——选择动作 a 时,我们获得的平均回报是多少。这个均值可以被视为 q_∗(a) 的近似值,因为换几个符号,我们就能发现这就是强大数定律(SLLN)的表达式。

换句话说,它意味着 Q_t(a) 必须收敛于 q_∗(a) :

比起概率收敛,这种收敛更强大,但它其实也没法保证 Q_t(a) 一定能收敛。

动作选择规则:贪婪

“贪婪者总是一贫如洗。”当面对巨大诱惑时,一些人会因为贪婪越过自己的底线,去吸毒,去犯罪,但他们在获得短暂快感的同时也失去了更多东西。强化学习中同样存在类似的问题,如果它是贪婪的,它会找出迄今为止最大的动作值:

并依据这个动作值去选择每一步动作。这样做的后果是智能体从头到尾只会选择同一套动作,而从不去尝试其他动作,在很多情况下,这样的策略并不是最优策略。

动作选择规则:ϵ-Greedy

那么我们该怎么纠正它的贪婪?之前我们在《强化学习——蒙特卡洛方法介绍》一文中已经介绍过 ε-greedy :对于任何时刻 t 的执行exploration小概率 ε<1 ,我们会有 ε 的概率会进行exploration,有 1-ε 的概率进行exploitation。这可以简单理解成抛硬币,除了正面和反面,它还有一个极小的立起来的概率。

虽然当智能体“头脑发热”时,它还是会义无反顾地贪婪,但相比贪婪策略, ϵ-greedy 随机选择策略(不贪婪)的概率是 \frac{ε}{|A(s)|} 。

导致这种现象的主要原因是动作值会随时间推移发生变化,即之前我们研究的是静态的拉杆,而不是随机的、动态的拉杆。以动作值为例,比起我们之前假设的 q_∗(a) ,它更应该被表示成 q_∗(a, t) 。

依据之前的动作值估计,我们有:

它也可以被写成:

看起来SGD可以在这里发挥一些作用。如果它是平稳的,那 q_∗(a) 收敛的概率就是100%;如果它不平稳,我们一般不希望 R_n=R_{n-1} ,因为当前回报会影响当前的动作值。

这里我们把权重 \frac{1}{n} 替换成 α(α∈(0,1]) :

这是一个指数平均值,它在几何上衰减之前回报的权重。设函数 α_n(a) 是第 n 个timestep,也就是第 n 次拉下拉杆时某个特定回报的权重。因为老虎机问题只需考虑动作 a ,所以这个函数也可以简化成 α(a) 。

为了保证上式能收敛,我们还需要一些其他条件。

条件一

上式表示对于任何初始值 Q_1∈ℜ ,它都满足 q_∗(a)∈ℜ 。这个条件要求保证timestep足够大,以最终克服任何初始条件或随机波动

条件二

这个式子表示这些timestep将“足够小以确保能收敛到一个小值”。简而言之,第二个条件保证最终timestep会变小,以保证收敛。

既然如此,我们之前为什么要设 α_n(a)=α∈(0,1] 呢?它不是一个常数吗?这样的阈值会不会影响收敛?

这些猜想都是正确的,但 (0,1] 这个阈值也有它存在的价值。我们在之前的 Q_{n+1}=Q_n+α_n(R_n+Q_n) 上继续计算,最后可以获得一项 α(1-α)_{n-i}R_i ,因为 α 小于1,所以给予 R 的权重随着介入奖励次数的增加而减少。

最佳动作值时非平稳的,我们不想收敛到一个特定的价值。

到目前为止,我们必须随机设定 Q_1(a) 的初始值,它本质上是一组用于初始化的超参数。这里有个小诀窍,我们可以设初始值 Q_1(a)=C∀a ,其中 C>q_∗(a)∀a 。

这样之后,因为 Q_n(a) 偏高,这时智能体会积极探索其他动作,当它越来越接近 q_∗(a) 时,智能体就开始贪婪了。换句话说,假设我们设当前拉杆的乐观回报是3,但它实际上最高能获得的回报只有2.5,智能体尝试一次后,发现回报只有1,低于乐观值,于是它会把其他拉杆全部尝试一遍。虽然前期效率很低,但到后期,智能体已经掌握哪些拉杆会产生高值,效果就接近“贪婪”了。

这种方法是可行的,在某种程度上,如果时间充裕,这个过程也可以被看作是模拟退火。但从整体来看,乐观初始值前期的大量“exploration”是不必要的,它对于非平稳问题来说不是最好的答案。

在机器学习系统中,Bias与Variance往往不可兼得:如果要降低模型的Bias,就一定程度上会提高模型的Variance;如果要降低Variance,Bias就会不可避免地提高。针对两者间的trade-off,下面的式子是一个很好的总结:

其中,

88老虎机:强化学习——多臂老虎机问题

  • R(f) 是假设 f 的(理论上)的风险;
  • R(f*) 是在假设集 H 中,假设 f 的最小风险;
  • M 是假设集 |H| 的大小;
  • N 是其中的样本数;
  • δ 是一个常数(如果非要知道这个常数是什么,只能说它是我们选择一个差的假设的概率)。

这里有两个重点:

  1. 样本数量非常少,我们的边界非常松散。我们不知道目前的假设是否是最好的假设。
  2. 我们的假设越大,PAC(近似正确)学习的约束就越松散。

置信上限(UCB)是一个非常强大的算法,它可以用类似Bias-Variance权衡的方法来解决不同的问题。在老虎机问题中,我们可以把timestep t 当成假设集大小 M ,因为随着t逐渐增加, a_n 也会逐渐增加,相应的 A_t 就很难选择。

每选一次 a ,不确定项就会减少,分母 N_t(a) 增加;另一方面,每一次选择了 a 以外的动作, t 会增加但 N_t(a) 不会改变,不确定评估值会增加。

截至目前,我们一直在努力估计 q_∗(a) ,但如果说这个问题还有除了行动值以外的解决方法呢?比如我们该如何学习一个动作的偏好?

设动作偏好为 H_t(a) ,它和回报无关,只是一个动作相对于另一个动作的重要性。那么 A_t 应该符合gibbs分布(也就是机器学习的softmax分布):

对于这个式子,我们该怎么基于梯度计算最大似然估计?首先,我们对 H_t(a) 做梯度上升,因为它是我们的变量。我们想最大化 E(R_t) :

H_t(a) 的更新规则如下所示:恩博娱乐

gibbs分布分解:

这只是整个梯度的一个偏导数。那么 b≠a 的动作呢?下面是省略计算过程的结果:

由此可得:

因为:

相应的,这个等式也是成立的:

由上述等式可得:

因为 q_∗(a,t) 被包含在动作a的预期值内,它也可以被写成 R_t 。现在就只剩一个问题了:等式里的 X_t 是什么?坦率地说,你想它是什么它就是什么,严谨起见,我们可以把 X_t 当成 R_t 的平均值。

计算梯度后获得新的更新规则:

其中 a 是 t 时采取的动作。由于找到 a 的期望值 E_a 很困难,我们可以用随机值来更新:

选择动作的简单方法是计算 argmax_aπ_t(a) ,问题就解决了。

下面是上述算法的一个比较图:

88老虎机

88老虎机

尽管简单的方法表现不太好,但对很多强化学习问题来说,它们也称得上是最先进的算法了。

相关文章 :

  • XX70KI29F
    宝乐娱乐:2021年中国KTV行业市场现状与发展痛点分析 娱乐群体变化导致行业发展进入冰冻期
恩博娱乐

文章导航

Previous Post
Next Post
zc
新会员奖金 $5

最新文章

  • 畅享安鑫娱乐活动网址,尽情体验精彩游戏世界
  • 探索澳门太阳城娱乐:尽享奢华与刺激的完美结合
  • 2025年澳门新彩开奖结果及开奖记录详细图片解析
  • 揭秘澳门发牌机会作假的潜规则与影响
  • 探索澳门2025现金分享新机遇与投资策略

分类

  • NEWS
  • 恩博娱乐
  • 恩博娱乐注册
  • 恩博娱乐网址
  • 恩博平台

相关文章 :

  • 宝乐娱乐:2021年中国KTV行业市场现状与发展痛点分析 娱乐群体变化导致行业发展进入冰冻期
2025 年 9 月
一二三四五六日
1234567
891011121314
15161718192021
22232425262728
2930 
« 6 月    

恩博娱乐 恩博娱乐注册 恩博娱乐网址 恩博平台

恩博娱乐 | 恩博平台 | 恩博娱乐注册 | 恩博娱乐网址

欢迎来到:恩博娱乐

恩博娱乐作为在线娱乐的佼佼者,以其丰富的游戏类型和便捷的注册方式受到了广大玩家的青睐。在本文中,我们将对恩博娱乐进行更为详细的介绍。恩博娱乐是一家知名的在线娱乐公司,其恩博平台提供丰富的真人娱乐、电子游戏、体育电竞等多种在线娱乐服务。该平台的游戏类型多样,包括传统的赌场游戏如百家乐、轮盘等,也有现代的电子游戏,如老虎机、彩票等,满足了不同玩家的需求。此外,恩博娱乐还提供体育投注和电竞游戏,为爱好这些项目的玩家提供了更多选择。恩博娱乐注册简单便捷,用户只需访问恩博娱乐网址,填写相关信息即可完成注册。此外,该平台支持多种加密货币和语言,方便不同地区的玩家使用。玩家在注册后,可以享受到恩博娱乐平台的各种服务和优惠活动,如首存优惠、周周返水等。同时,恩博娱乐的客服团队也提供了24小时在线客服,帮助玩家解决任何问题。在恩博娱乐平台进行存取款也是非常方便的。平台提供了多种支付方式,包括信用卡、电子钱包等,支持多种加密货币,如比特币、以太坊等。此外,平台的存取款速度也非常快,让玩家可以轻松快捷地进行游戏。恩博娱乐平台的安全性也是值得称赞的。平台采用了先进的加密技术,保障了玩家的个人信息和资金安全。平台还配备了专业的防作弊系统,确保游戏的公平性和透明度。总之,恩博娱乐平台以其丰富的游戏类型、简单便捷的注册方式、多种支付方式、24小时在线客服和安全性高等优势,成为了在线娱乐领域的佼佼者,为玩家带来了全新的游戏体验。

恩博娱乐应用近期版本更新


2022年7月11日 版本5.3.3

1.恩博娱乐移动项目组根据近期赛事类型,综合考虑玩家对不同赛事的参与热情,决定提升电子竞技类型赛事在界面中的显示顺序。

2022年6月28日 版本5.3.2

1.恩博娱乐近期将针对新兴赛事投放部分定向奖励,以鼓励用户在传统赛事的夏季休赛期期间尝试参与一些更具有活力的体育项目。

2022年5月17日 版本5.3.1

1.恩博娱乐体育应用内投放有关欧冠赛事的红利红包。
2.恩博娱乐移动业务技术团队计划降低手机应用大版本更新频率,通过热更新的方式完成日常更新,提升用户体验。

2022年4月17日 版本5.3.0

1.完整修复恩博娱乐手机应用内欧冠赛事板块的部分显示错误,并调整显示顺序。

2022年4月13日 版本5.2.9.2

1.修复恩博娱乐手机应用内欧冠赛事板块的部分显示错误。
2.恩博娱乐体育应用内进行"欧冠欧足联红包雨"活动,于4月12日至4月15日期间合计发放14波红包雨。

2022年3月15日 版本5.2.9

1.恩博娱乐体育应用调整部分欧洲体育赛事板块顺序。
2.修复恩博娱乐手机应用内部分屏幕显示适配错误。

2022年1月30日 版本5.2.7

1.金虎迎新春,恩博娱乐上下全体员工祝各位用户2022壬寅年新春快乐。
2.恩博娱乐体育推出多项春节活动。

2022年1月9日 版本5.2.6

1.恩博娱乐体育应用内上线英雄联盟2022赛季LPL春季赛相关活动。
2.修复恩博娱乐手机应用在夜间模式下的部分显示错误。

2021年12月24日 版本5.2.4

1.恩博娱乐手机应用上线圣诞系列赛事活动。
2.更新部分线路,提升用户连接稳定性。

2021年12月1日 版本5.2.2

1.恩博娱乐体育手机应用内根据五大足球联赛的相应热度进行页面排版布局的优化。

2021年10月28日 版本5.2.1

1.恩博娱乐体育电竞板块迎接S11英雄联盟全球总决赛,上线部分红包活动。
2.在恩博娱乐体育预测英雄联盟赛事胜负,获取额外奖励。

2021年9月28日 版本5.1.2

1.月迎中秋,喜迎国庆,恩博娱乐手机应用内上线部分红包活动。
2.上调欧冠赛事在左侧选项卡中的显示顺序。

2021年9月10日 版本5.1.1

1.恩博娱乐体育更新部分线路,提升用户连接稳定性。

2021年8月10日 版本4.7.3

1.东京奥运会圆满结束,庆祝中国体育健儿获得第二名的好成绩,恩博娱乐投放最后一波奥运主题红包。

2021年7月28日 版本4.7.2

1.恩博娱乐手机应用内根据东京奥运会的项目热门程度,对整体显示顺序进行调整。

2021年7月16日 版本4.7.1

1.恩博娱乐体育上线"传递奥运圣火,助力东京奥运"活动。
2.更新部分线路,提升用户连接稳定性。

2021年7月11日 版本4.6.7

1.恩博娱乐体育上线"冠军之路,闯关拿奖"活动,预祝欧洲杯圆满结束。
2.更新部分线路,提升用户连接稳定性。

2021年7月7日 版本4.6.6

1.恩博娱乐体育提前上线"助威欧洲杯决赛,分享红包雨"活动,决赛对阵队伍出炉后开始推送。
2.更新部分线路,提升用户连接稳定性。

2021年7月4日 版本4.6.5

1.恩博娱乐各线路运营趋向稳定,删除了部分备用线路,保留响应较快的线路以提升用户连接速度。
2.修复部分软件Bug。

2021年6月30日 版本4.6.4

1.由于近期银行整体风控水平加剧,为避免等待时间过长,恩博娱乐普通提款通道提款金额范围由原来100-49000调整为5001-49000,5001以下金额提款可使用方便又快捷的【恩博娱乐极速提款】通道进行提款。
2.增加部分线路,提升恩博娱乐用户连接速度与稳定性。

2021年6月24日 版本4.6.3

1.更新并增添恩博娱乐手机应用内部分用于解析的域名,提升用户使用稳定性。
2.在恩博娱乐应用内增加转账异常自动处理入口,更好更快解决部分订单转账后入账慢的问题。
3.提升恩博娱乐全渠道加密货币USDT存款充值奖励。泰达币(USDT)是基于美元(USD)的加密货币,用户可以随时使用USDT与USD进行1:1兑换,加密货币的低手续费、快转账速度特性比传统货币联网交易的模式有极大优势。

2021年6月18日 版本4.6.2

1.增加欧洲杯相关活动的红包和奖励通知。
2.恩博娱乐全站及体育应用增加大量内嵌线路,力求为用户在欧洲杯期间提供稳定服务。
3.修复部分软件Bug。

2021年6月8日 版本4.6.1

1.迎接欧洲杯活动,恩博娱乐体育增加大量内嵌线路。
2.伴随防火墙技术升级,近期恩博娱乐将频繁出现域名更换现象,请及时关注最新更新信息。

2021年5月28日 版本4.5.9

1.伴随英雄联盟Msi季中赛结束,恩博娱乐更改部分显示顺序和入口优先级,对部分Msi赛事玩家投放红包。
2.增加部分线路应对大规模DNS污染活动。

2021年5月6日 版本4.5.8

1.迎接英雄联盟Msi季中赛,恩博娱乐更改部分显示顺序和入口优先级。

2021年4月30日 版本4.5.7

1.迎接五一,恩博娱乐增加部分优惠信息。

2021年4月7日 版本4.5.6

1.增加部分线路,提升恩博娱乐用户连接速度与稳定性。

2021年3月25日 版本4.5.5

1.庆祝恩博娱乐与AC米兰达成赞助合作,为相关合作活动内容预留展示窗口。
2.修复部分软件Bug。

2021年3月7日 版本4.5.4

1.更新部分财务界面,提升用户存提款效率。
2.优化项目内容排版。

2021年2月20日 版本4.5.3

1.更新部分线路,提升用户连接稳定性。
2.优化界面前端排版。

2021年2月8日 版本4.5.2

1.庆祝农历新年,全站和体育应用内增加部分优惠及彩蛋内容。
2.修复部分软件Bug。

2021年1月7日 版本4.5.1

1.更新部分线路,提升用户连接稳定性。
Back to top
Proudly powered by K8 Gaming Group | Copyright © 2023 | 恩博娱乐. 版权所有
恩博娱乐 | 恩博平台 | 恩博娱乐注册 | 恩博娱乐网址
  • 恩博娱乐
  • 恩博娱乐注册
  • 恩博娱乐网址
  • 恩博平台
Add your widget here
转到手机版