让我们考虑以下情况:


您正在教一个机器人打乒乓球
您正在教一个计算平方根的程序
您正在教数学在学校读书的孩子

这些情况(即监督学习)和许多其他情况(在其他情况中)有共同点:学习者根据其表现获得奖励。

我的问题是,奖励函数应该是什么样的?是否有“最佳”答案,还是取决于情况?如果视情况而定,如何确定要选择哪种奖励函数?

例如,采用以下三个奖励函数:




功能A表示:


在特定点以下,不好或不好是相同的:您什么也得不到。完美


功能B表示:


与性能成正比的奖赏


功能C说:


如果你的表现不好,没关系,你尽了最大努力:你仍然会得到一些回报
完美与几乎良好之间没有什么区别
直观上,我认为A可以使机器人非常专注并学习确切的模式,但是在处理类似模式时会变得愚蠢,而C会使它更适应变化以丧失完美为代价。

人们可能还会想到更多复杂的功能,只是显示而很少:



那么,如何知道选择哪个功能呢?至少从基本的ABC函数中会知道会出现哪种行为吗?


附带的问题是,这对于机器人和人类孩子而言会根本不同吗?

评论

我怀疑机器人会一遍又一遍地执行相同或类似的事情而变得愚蠢,除非是控制论的。

@ott,那不是我的意思。我的意思是说,如果使用类似于A的奖励功能,则机器人在完成确切的任务时可能会变得非常擅长,但在相似但略有不同的任务上却会很糟糕。不过那只是我的猜测。

啊,好的,我明白了。您在想网球,例如

也许背后的理论可能很复杂,但是一个回答说“我认为许多机器人执行不同的任务并且经常使用X可以给我最好的结果”,即使不是完全正确,也会给出很好的经验法则。 />

#1 楼

简短答案:最强的强化效果来自在间歇性(随机)时间表上提供有价值的奖励。

较长的版本:您的问题的一个方面是关于运算条件的,至少在数学教学中如此复杂的生物。将其应用于机器学习称为强化学习。

经济学(根据jwpat7的回答)仅涉及强化故事的一部分。效用函数告诉您在给定的上下文中哪种奖励具有最强的强化作用(对行为的最大影响)。是赞美吗?巧克力?可卡因?直接电刺激大脑的某些区域?大多数情况下,我的答案是关于上下文的影响,并假设给定了奖励效用。

对于复杂的生物/行为,奖励计划至少与奖励效用一样重要:


“固定间隔的奖励时间表”是在给定数量的奖励下改变行为的最无效方法(如果您保持卧室整洁,我会每周给您10美元)。
固定比例的奖励计划(每7天给您10美元,您有一个整洁的卧室)比固定间隔更有效,但是它们有一个有效上限(对象会整理房间)饿了10日元的时候,有7次,但没有其他情况)。想想雇佣兵吧。
最有影响力的方式是通过“可变间隔加固时间表”来提供给定的奖励(例如,每天收拾房间,您就有1/7的机会获得10美元)。想想扑克机。

如果您是具有固定奖励预算的学习主管,则对于给定的学习情况,奖励大小(效用)和频率之间将达到最佳平衡。这可能不是很高频率的一小部分奖励,也不是很少提供的很大一部分奖励。甚至可能是随机调度的随机大小奖励-最佳方案通常是针对特定情况通过实验确定的。

最后,“最佳”调度(随机频率,随机数量{p(reward) ,p(value)})在学习过程的不同阶段可能会有所不同。例如,一个新生可能会受到“首要”效应的影响(欢迎使用!有一个软心豆粒糖),如果您重复重复,很快就会变成固定间隔的奖励。可能存在“新近”效应,该效应会从最后一次试用中获得的奖励(“高音完成”)获得更多的强化价值。在两者之间,可能会有累积的“信念效应”,随着学习者变得越来越有经验,随着时间的流逝,最佳效应可能会朝着更低的概率,更高的效用转移。同样,根据您的情况根据经验确定更多内容。

评论


$ \ begingroup $
非常有趣的答案。这很有道理。
$ \ endgroup $
– Shahbaz
13年6月3日,9:41

$ \ begingroup $
我正在再次阅读此答案,我再次想说这个答案有多棒!实际上,让我给您一些赏赐!
$ \ endgroup $
– Shahbaz
13年8月8日在18:12

#2 楼

“最佳学习”是一个非常模糊的术语,它完全取决于您正在处理的特定问题。您要查找的术语是“过度拟合”:


(绿线是在训练数据上预测结果的错误,紫线是模型的质量,红线是“在生产中”使用的学习模型的错误)

换句话说:当要使您的学习行为适应相似的问题时,如何奖励您的系统就不那么重要了而不是您获得奖励的次数–您想减少训练数据中的错误,但又不想一直保持训练太久,以至于失去了在类似模型上工作的能力。

一种解决方法这个问题是将您的训练数据减少一半:用一半来继续学习,另一半来验证训练。它可以帮助您识别何时开始过度拟合。

非线性奖励函数

大多数监督学习算法都期望奖励函数的应用会产生凸输出。换句话说,在该曲线中具有局部最小值将阻止您的系统收敛到正确的行为。该视频显示了成本/奖励功能背后的一些数学原理。

#3 楼

这些问题在一定程度上通过经济学中效用函数的研究得以解决。效用函数表示一件事物的有效价值或感知价值。 (虽然问题中显示的曲线是奖励函数,并表示将针对各种绩效水平提供多少奖励,但是外观相似的效用函数可以表示各种奖励水平产生的绩效多少。)

奖励功能能否发挥最佳效果取决于付款人和表演者之间的平衡。 Wikipedia合同曲线文章使用Edgeworth框说明了如何找到Pareto有效分配。冯·诺依曼-摩根斯坦效用定理描述了确保代理具有VNM理性并可以表征为具有效用功能的条件。维基百科上双曲线绝对风险规避文章的“由HARA效用产生的行为预测”部分描述了某些效用函数的行为后果。

摘要:这些主题已成为经济学中大量研究的主题。和微观经济学。不幸的是,摘录一个简短而有用的摘要来回答您的问题也可能需要大量的工作,或者需要比我更专业的人的注意。

评论


$ \ begingroup $
这很复杂,我不确定是否理解。但是您确定经济学的效用函数也适用于机器人技术吗?在(机器人的)监督学习中,付款人实际上没有损失任何东西。奖励通常只是告诉机器人完成任务的能力的数字。
$ \ endgroup $
– Shahbaz
13年5月7日在16:11

#4 楼

最佳奖励函数取决于学习目标,即要学习的内容。对于简单的问题,有可能找到最佳奖励函数的封闭形式表示。实际上,对于非常简单的问题,我相信这是有可能的,尽管我不知道这样做的正式方法(我怀疑效用理论会解决这个问题)。对于更复杂的问题,我认为不可能找到封闭形式的解决方案。

不是寻求最佳函数,我们可以向专家寻求好的奖励函数。这样做的一种方法是一种称为逆向强化学习(IRL)的技术。它将学习问题表述为强化学习问题,其中奖励函数未知且学习过程的目标不明确。 Pieter Abbeel和Andrew Ng撰写的《通过逆向强化学习进行学徒制学习》是开始学习IRL的好地方。

#5 楼

任何形式的监督学习都是在策略空间中进行的定向搜索。您尝试找到该策略-采取哪种措施-提供最大的奖励期望。在您的问题中,您根据绩效给予奖励。只要此函数是单调的,那么任何收敛的方法最终都将最终为您提供最佳性能(与术语无关)。

该方法收敛的速度是另一回事,并且很可能取决于曲线。但是我认为这在方法之间会有所不同。

一个完全不同的问题是,对于更复杂的场景,性能不是简单的标量,并且定义它可能非常困难。善于数学的奖励功能是什么?

评论


$ \ begingroup $
方法的收敛速度是另一回事,并且很可能取决于曲线。我试图了解曲线如何影响学习(而不是影响曲线,因为我已经知道它会影响)。
$ \ endgroup $
– Shahbaz
13年5月8日在7:37