我目前正在研究线路跟随器越野车,并设法手动调整PID常数。越野车以适中的速度行驶。

我现在想进一步了解新事物。我阅读了有关Q学习的信息,并想问一下我要实现的目标是否正确。 :线传感器的最后三个位置
三个奖励:中间位置,轨迹结束和较少的摆动(用陀螺仪测量)。
四个动作:$ Kp $,$ Ki $,$ Kd $和Max

通过无线连接机器人将在PC上进行计算。


我在正确的轨道上吗?
如何做我使这3个常量具有“状态”,因为据我所知,这些动作必须是非模拟的? Q学习决定哪个最好? (仅尝试随机数是无效的)




#1 楼

我目前正在从事一个非常相似的项目,唯一的区别是,我使用的是仿真程序包(MATLAB Simmechanics),在其中,我模拟了带有2个驱动轮和一个脚轮的移动机器人。我有4个传感器,因此,我没有使用“中间位置”作为奖励,但是我可以轻松对其进行修改。

我的模型考虑了摩擦,反冲和电动机常数等参数,因此将模型应用于现实生活中应该非常简单-就像您一样。由于我的线性跟随器机器人是计算机模拟,因此我可以尝试Kp,Ki和Kd的随机值,这无疑是一个优势。物理模型中的Kp,Ki,Kd和最大电动机速度(PWM)值。