博文

智行千里，预轨先知：一种基于社会力嵌入图神经网络的多智能体轨迹预测方法

已有 1185 次阅读 2024-6-16 21:48 |个人分类:自动驾驶|系统分类:论文交流

一导读

在复杂高动态的交通场景中，准确预测道路交通参与者的轨迹是一项极具挑战的任务。智能体的运动模式复杂多变，其行为不仅受到自身历史轨迹的影响，还与周围其他交通参与者的社会互动密切相关。为了应对这一挑战，安徽大学王晓教授及其团队提出了一种新颖的基于社会力嵌入的混合图神经网络方法来进行多类别智能体轨迹预测。该方法通过考虑交通参与者之间的社会力关系来构建基于社会感知信息的混合图拓扑结构；在此基础上，利用时空图卷积神经网络捕捉动态的时空交互关系，通过时序卷积神经网络来获取多类交通参与者的预测轨迹。该研究形成了名为“Social Force Embedded Mixed Graph Convolutional Network for Multi-class Trajectory Prediction”的论文成果，已被《IEEE Transactions on Intelligent Vehicles》期刊接受并发表。

引用格式：

1. Du et al. Social Force Embedded Mixed Graph Convolutional Network for Multi-class Trajectory Prediction[J]. IEEE Transactions on Intelligent Vehicles, 2024

2. Du, Quancheng and Wang, Xiao and Yin, Shouguo and Li, Lingxi and Ning, Huansheng. Social Force Embedded Mixed Graph Convolutional Network for Multi-class Trajectory Prediction [J]. IEEE Transactions on Intelligent Vehicles, 2024.

全文链接： https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10415371

二 论文介绍

1 研究背景

自动驾驶技术的发展对提高道路交通安全、减少拥堵和提供便捷交通方式具有重要意义。在自动驾驶技术中，轨迹预测技术尤为关键，它通过分析和预测周围交通参与者的行为，使自动驾驶车辆能够在复杂的交通环境中进行安全导航。然而，在处理多类道路使用者（如行人、汽车和自行车等）时，由于场景的复杂性和交互行为的多样性，轨迹预测面临重大挑战。现有的工作主要集中在传统的深度学习方法上，这些方法利用相对距离来预测单一类别智能体的运动轨迹。但在复杂交通场景中，不同类型交通参与者的运动模式具有固有的随机性和不确定性，仅依靠相对距离可能无法充分捕捉不同道路使用者之间的复杂交互模式，进而导致预测模型的准确性受限，无法精确反映交通参与者的动态行为和潜在意图。这种情况下，自动驾驶系统可能无法及时做出适当的反应，增加了交通事故的风险。

2 框架概览

本研究提出了一种名为社会力嵌入混合图卷积网络（SFEM-GCN）的新型多类别智能体轨迹预测方法。如图1所示，SFEM-GCN包含三种图拓扑：语义图（SG）、位置图（PG）和速度图（VG），这些图编码了复杂场景中不同类别智能体之间的社会力关系。具体来说，SG利用智能体类别信息的独热编码来指导基于语义信息的图邻接矩阵的构建。PG和VG通过智能体之间的速度和位置创建邻接矩阵以捕捉不同类别智能体之间的运动交互关系。这些图结构随后被整合到一个混合图中，通过使用时空图卷积神经网络（ST-GCNN）进行学习。为了进一步提高预测性能，我们采用时间卷积网络（TCNs）以更少的参数生成预测轨迹。在公开可用数据集上的实验结果表明，SFEM-GCN在准确性和鲁棒性方面实现了最好的效果。

图1 SFEM-GCN的总体架构

3 实验设计及验证

3.1 实验设计

（1）社会力模型：该模型考虑了个体执行某种运动的内部动机以及周围智能体对行人运动的影响。具体来说，智能体的位置和速度分别表示为变量p和r。位置p是一个表示行人在空间中的位置的向量，速度r是一个表示行人在空间中的运动速度的向量。智能体的质量m是一个标量，表示智能体的惯性和对外力的响应能力。f表示智能体之间的社会力，通过计算行人与周围环境和其他行人之间的相互作用力，来模拟行人的运动行为。例如不同智能体的路径选择、避让障碍物和与其他智能体的交互等。社会力模型公式如下：

（2）位置图拓扑表示：根据社会力模型，我们了解到邻近智能体之间的相对距离越近，它们之间的相互影响就越大。因此，我们利用智能体之间的相对位置构建基于位置的图交互关系。我们首先构建一组空间图$G_{t}^{p}$，用于表示场景中每个时间$t$中智能体的相对位置。$G_{t}^{p}$被定义为$G_{t}^{p}=(V_{t},E_{t}^{p})$,其中，$V_{t}=\left \{p_{t}^{i}|\forall i\in \left \{ 1,...,M \right \} \right \}$。观测位置$\left ( x_{t}^{i}, y_{t}^{i} \right )$ 是$v_{t}^{i}$的属性。$E_{t}^{p}$是图$G_{t}^{p}$边的集合，是由邻接矩阵$A_{t}^{p}$定义的边集，表示为$E_{t}^{p}=\left \{ e_{t}^{ij} \mid \forall i,j \epsilon \left \{1,...,M\right \} \right \} $。如果$v_{t}^{i}$和 $v_{t}^{j}$ 相互连接时，$e_{t}^{ij}=1$,否则$e_{t}^{ij}=0$。为了准确建模时间步t时相邻智能体之间相互影响的程度，我们引入以下核函数来进行计算：

（3）速度图拓扑表示：速度信息作为智能体固有的先验信息，在建模智能体之间的交互关系中发挥着重要作用。在实际场景中，移动速度较快的智能体往往会引起周围智能体更大的注意力。这是因为快速移动的智能体可能会更快地接近其他智能体，导致潜在的碰撞风险增加。为了综合考虑智能体的速度信息，并更准确地预测未来的交互行为，我们构建了基于速度的图网络结构作为第二个子图，用于建模智能体之间的关系。与上节中基于位置的图网络构建相似，我们构建了速度图$G_{v}^{t} =\left ( V^{t},E_{v}^{t} \right ) $ 来建模智能体之间的交互关系. 其中，$V_{t}=\left \{v_{t}^{i}|\forall i\epsilon \left \{ 1,...,M\right \} \right \} $是具有$M$个节点的顶点集。$E_{v}^{t}$表示对速度图$G_{v}^{t}$节点之间的几何相关性进行建模的边集，由$N\times N$的邻接矩阵$A_{t}^{v}$定义：

（4）语义图拓扑表示：语义图是将不同类别的主体（例如汽车、行人以及骑自行车的人等）通过构建基于标签信息引导的邻接矩阵来实现。考虑到不同类别的交通参与者对目标智能体的影响是不同的，在复杂交通场景下，行人关注更多的是对面行驶来的汽车而并不是行人。因此，对不同类别的主体分配不同的注意力是有必要的。受先前方法的启发，我们首先采用one-hot编码将不同类别的对象编码为长度为L的向量，其中，L取决于场景中实体类别的数量。在长度为L的列表中，one-hot将对应的实体对象编码为1，其余位置为0。通过循环遍历M次（假设场景中智能体为M）来创建L*M的张量T。其次，为了根据标签信息构建图关系，我们在实体对象之间创建一个基于标签的邻接矩阵。具体来说，我们通过将T及其转置矩阵T'的列表中的行和列通过one-hot进行重复编码，得到M×M大小的两个张量。其中，每个张量的大小为L。然后，我们对这两个张量进行reshape操作，并在标签维度L上进行连接，生成一个大小为M×M×2L的张量C，该张量表示了对象之间的交叉关系。最后，我们使用全连接层来获取C中有用的标签特征，并生成一个具有可训练参数的语义邻接矩阵$A^{s}$。$A^{s}$能够自动对标签信息中的有用特征进行编码，进一步获取对轨迹预测有用的语义信息。

3.2 实验结果分析

（1）数据集与评价指标：为了验证该方法的有效性，我们对广泛使用的基准数据集进行评估实验，并将结果与其他最先进的方法进行比较。具体来说，我们在斯坦福无人机数据集（SDD）上评估我们的模型，该数据集提供各种对象类别的轨迹数据和类别标签。SDD包括六个不同的类别：骑自行车的人、行人、汽车、手推车、公共汽车和溜冰者。遵循其他基准方法，我们使用平均位移误差（mADE）和最终位移误差（mFDE）指标来评估模型的性能。为了更加精准对比实验结果，我们引入一种最新的评估指标aADE和aFDE来评估模型的性能。

表1 mAE和mFDE的定量比较（最小误差）

表2 开aADE 和 aFDE 进行定量分析（平均误差）

表3模型参数量和推理时间对比

（2）性能分析

l 定量结果分析：通过表1可以看出，我们的方法取得了最佳性能。具体来说，线性模型因假设智能体运动属性线性相关，导致轨迹预测结果最差。基于LSTM的方法由于循环神经网络在预测轨迹时会产生误差导致效果不佳，表明其无法在复杂交互场景中正确提取交互特征。CAR-Net尽管融合了场景信息，但在复杂的社会交互中表现一般。DESIRE采用条件变分自编码器进行多模态轨迹预测，预测结果中等。Trajectron++凭借其先进的预测框架和独特的建模方法，在mADE和mFDE指标上表现优异。我们的方法在SSTGCN和Semantics-STGCNN基础上改进，涵盖行人交互的先验知识，通过嵌入智能体之间的社会力关系，使模型更好地学习行人之间的社会交互。与SSTGCN相比，我们的方法在mADE和mFDE上分别减少了11%和17%；与Semantics-STGCNN相比，分别降低了3%和4%。在表2中，我们详细对比了最新的aADE和aFDE评价指标。由于模型充分考虑了位置、速度和语义信息对智能体交互的影响，在aADE和aFDE指标上分别实现了8%和13%的显著改善。我们还特别关注了模型的推理时间，这对于自动驾驶系统的安全性至关重要。在表3中，我们比较了模型的参数量和推理时间。我们的方法参数更少，推理速度更快，使其成为最佳选择。尽管我们使用多个混合图统一建模智能体交互关系，这并未影响模型的推理性能，反而进一步证明了其在轨迹预测任务中的优越性。

l 定性结果分析：在图2中，我们展示了Semantics-STGCNN和SFEM-GCN在SDD数据集上三种场景中的预测结果。总体来看，我们的模型预测结果优于Semantics-STGCNN，能产生更真实的预测轨迹。具体来说，图2最左侧的图像中，即使智能体的运动轨迹呈现简单的线性关系，Semantics-STGCNN也无法很好地处理不同位置的智能体之间的行为，导致预测结果与真实轨迹存在偏差。图2中间的图像中，智能体的运动方向大多相反，存在明显的交互行为。Semantics-STGCNN的预测存在方向偏差，导致路径与真实轨迹相比有较大误差，例如预测骑自行车者的目的地为草坪，而我们的模型预测结果与真实轨迹基本一致。图2最右侧的图像展示了拥挤场景下多类智能体之间的动态交互。虽然两种方法在环形道路中心左转的场景下均出现预测错误，但SFEM-GCN通过结合位置图和速率图，利用语义图为不同智能体分配标签信息，更有效地学习多类型智能体轨迹间的差异，实现了更好的预测结果。综上所述，图2中三个不同场景的可视化结果表明，我们的方法能够有效模拟多类型智能体之间的社交互动，实现更真实的轨迹预测结果。

图2场景可视化结果分析

4 总结

本文提出了一种名为SFEM-GCN的多智能体轨迹预测方法。该方法综合考虑社会与场景交互因素，构建基于社会感知信息的混合图拓扑结构，以获得更准确的预测轨迹。在处理智能体之间的社会交互信息时，我们利用坐标数据计算智能体的位置和速度，以此构建邻接矩阵衡量智能体之间的影响力。同时，通过构建基于语义信息引导的图邻接矩阵，突显不同类别智能体在场景中的影响力，并结合标签信息计算不同类别智能体之间的注意力权重。我们将这些混合图拓扑结构输入带有残差结构的GCN网络中进行学习，并结合TCN网络输出预测的轨迹。在公共数据集SSD上的实验表明，SFEM-GCN在轨迹预测的准确性和泛化能力上优于现有方法，能够提供更合理的预测结果。定性分析也证明了SFEM-GCN能够准确预测场景中多类智能体的运动轨迹，产生更合理的预测结果。尽管SFEM-GCN在SSD数据集上表现出色，但在高动态拥挤场景下准确预测多类智能体未来的运动轨迹仍然存在部分不足。例如，我们的方法在智能体的转向意图推测上存在失误，导致预测结果不理想。因此，我们认为对这类场景的进一步研究是必要的。此外，未来的工作可以探索使用深度学习中的注意力机制，加强对关键智能体的关注，从而更准确地捕捉其运动模式，实现更合理的轨迹预测。

转载本文请联系原作者获取授权，同时请注明本文来自王晓科学网博客。
链接地址：https://blog.sciencenet.cn/blog-951291-1438449.html

上一篇：智绘轨迹，认知未来：一种考虑驾驶风险认知的轨迹规划方法

Kara0807的个人博客分享 http://blog.sciencenet.cn/u/Kara0807

博文

智行千里，预轨先知：一种基于社会力嵌入图神经网络的多智能体轨迹预测方法

当前推荐数：1 推荐人：杨正瓴

该博文允许注册用户评论请点击登录评论 (0 个评论)

王晓

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

Kara0807的个人博客分享 http://blog.sciencenet.cn/u/Kara0807

博文

智行千里，预轨先知：一种基于社会力嵌入图神经网络的多智能体轨迹预测方法

当前推荐数：1 推荐人： 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

王晓

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

当前推荐数：1 推荐人：杨正瓴

该博文允许注册用户评论请点击登录评论 (0 个评论)