通过Q学习调整线路跟随器PID常数

机器人 | 2021-01-12 | 编程黑洞网 | 0条评论 | 903 人阅读

我目前正在研究线路跟随器越野车，并设法手动调整PID常数。越野车以适中的速度行驶。

我现在想进一步了解新事物。我阅读了有关Q学习的信息，并想问一下我要实现的目标是否正确。：线传感器的最后三个位置
三个奖励：中间位置，轨迹结束和较少的摆动（用陀螺仪测量）。
四个动作：$ Kp $，$ Ki $，$ Kd $和Max

通过无线连接机器人将在PC上进行计算。

我在正确的轨道上吗？
如何做我使这3个常量具有“状态”，因为据我所知，这些动作必须是非模拟的？ Q学习决定哪个最好？（仅尝试随机数是无效的）

#1 楼

我目前正在从事一个非常相似的项目，唯一的区别是，我使用的是仿真程序包（MATLAB Simmechanics），在其中，我模拟了带有2个驱动轮和一个脚轮的移动机器人。我有4个传感器，因此，我没有使用“中间位置”作为奖励，但是我可以轻松对其进行修改。

我的模型考虑了摩擦，反冲和电动机常数等参数，因此将模型应用于现实生活中应该非常简单-就像您一样。由于我的线性跟随器机器人是计算机模拟，因此我可以尝试Kp，Ki和Kd的随机值，这无疑是一个优势。物理模型中的Kp，Ki，Kd和最大电动机速度（PWM）值。