按照萨顿和巴托书进行强化学习后,我确实解决了一个涉及赛道的运动问题在汽车经纪人中学会了不要偏离轨道并调节速度。但是,该运动问题使代理人学习了如何在其所训练的轨道上进行导航。代理商是否绝对必须具有竞赛线路或路径的地图?我可以在状态空间中使用哪些参数?
#1 楼
任何机器学习算法的关键指标之一就是它的泛化能力(即将其学到的知识应用于以前未曾观看过的场景)。强化学习者(RL)可以很好地进行概括,但是根据我的经验,这种能力在某种程度上取决于状态空间公式。这意味着,如果您能找到正确的设置,那么RL学习者将不需要竞赛电路图。这留下了使用哪些参数的问题。在不了解机器人上可用传感器的更多信息的情况下,我只能推测。我的第一个倾向是尝试对线条和机器人的相对方向进行编码(即,机器人趋向于向右,向左移动,或只是简单地平行于线条移动)。这样做将导致一个很小的状态空间。尽管不是绝对必要的,但这将实现快速简单的实现。此外,如果机器人不会以恒定的速度运动,则可能有助于编码机器人的速度,因为当以更高的速度运动时,机器人需要更快地做出反应。
评论
$ \ begingroup $
如果没有地图,状态空间就是机器人从其当前位置可以感知到的。因此,在某种程度上,地图只是一种“向前看”的方式。在没有地图的情况下,学习到的行为本质上将是“做与以前相同的事情,但是会变慢,因为我们不知道这次转弯在哪里”。 (大概,您将能够分辨出轨迹的边缘在哪里。)
$ \ endgroup $
–伊恩
13年8月27日在18:40
$ \ begingroup $
政策告诉我们在特定状态下要应用哪种控制。如果状态空间适合RL代理,则明显不同的场景在状态空间中可能看起来相同,并且产生相同的行为。这称为概括,如果正确完成,则是理想的。机器人将根据其控制环的速度获得最大速度。学到的行为不一定会减慢速度。如果奖励与运行时间长短成反比,则代理将倾向于相对于其控制环的速度最大化其速度。
$ \ endgroup $
– DaemonMaker
13年8月27日在19:07
#2 楼
我不确定您拥有哪种类型的机器人,但几年来我一直在进行机器人抢救线。我已经意识到,如果您想使用PID很好地遵循一条路线,是一个不错的选择。让我对此进行扩展。如果您想像一下线条两侧的两个光传感器,则希望它们的值相等,以使线条位于中间。然后,您可以使用两个传感器的值之差来更改机器人的转动百分比。利用这种技术,可以使机器人以超快的速度跟随一条直线。我就像您一直在考虑使机器人学会提高其线跟踪能力一样。我想出的是从您的初始PID值开始高于您想要的初始PID值,然后使用陀螺仪传感器来测量机器人在跟踪直线时的振荡频率。您可以从那里创建自己的函数来确定要降低多少值才能获得稳定的系统,这不完全是人工智能,更像是自动化优化算法,但是嘿,我18岁,我学会了如何从互联网。我希望这有帮助。如果您有任何疑问,请给我发送电子邮件,这不是我的主要电子邮件地址,因此我不会定期检查。69darkeagle@sigaint.org
评论
我不知道怎么做,但是我敢肯定,可以教它如何保持自己在一条路径中,而不管它的形状如何。在这种情况下,教学的目标应该是机器人根据其即时输入(或某些历史记录)做出的本地决策。这样,路径的形状并不重要,因为所有决策都是局部的。@Shahbaz-您会建议我在状态空间中使用什么?
我实际上不确定。即使我在大学学习过AI,也从来都不是我的工作/研究领域。您接受的答案似乎很合理!
您是否正在使用答案来测试Markdown?您可以只写所需内容,然后在其下看到立即渲染,然后不发布。