百度Apollo Day的PNC相关技术解读

黛家小炮儿 · 发表于 2023-1-7 20:56:17

1、PNC融入深度学习预测决策联合建模
基于学习的规控系统（PNC）是业界大家普遍关注的问题，很多人会开玩笑说，业界的规控代码就是一些if-else的堆砌。其实这样的比喻并不夸张。PNC一般包括了预测、决策、轨迹规划和控制四个部分，预测、决策和轨迹规划都是非常困难的问题。
经典的预测方法是基于地图规则和动力学模型的。过去几年，轨迹预测模块逐渐引入了一系列深度学习的方案如TNT、SceneTransformer，都使得预测能力显著提升。
经典的决策方案会根据场景进行拆分，例如高速、路口、环岛，然后根据每一种场景下的车辆状态进行规则拆分，例如匀速、减速、变道、加塞。这样我们就有了一个复杂的有限状态机，状态机的节点是行为决策，边是状态变化的条件。
如何拆分是每个公司自己积累的“手艺”，如果拆分的好，整个图的结构会比较清晰，如果拆分的不好，往往随着系统更新、策略分叉，变成一个规则补丁系统。更困难的是，随着驾驶城市的扩展，不同城市的同样场景可能有差异，需要不同决策，最终导致决策分叉爆炸，难以维护。
经典的轨迹规划方案通常先根据可行区域进行路径搜索，然后对得到的粗略轨迹进行优化，求解出一条安全和可行的时空轨迹。
百度的学习型PNC方案是将预测和决策两个模块联合建模，然后送入到轨迹规划和控制模块中。具体来说：

先提取场景里自车特征，环境车辆的特征，地图的特征，使用一个Scene Transformer来融合特征；
输出两个分支，一个分支输出环境车的决策和轨迹；
另一个分支输出自车规划的轨迹初始值（trajectory seeds）；
将轨迹初始值输入到轨迹规划模块，进行进一步的搜索和优化，得到最终的轨迹。

以上的方案是一个比较端到端的方法，搭建端到端的模型并不是最困难的，更难的问题是，在没有规则约束下（如“红灯停绿灯行”），如何保证模型的输出决策的合理性呢？百度给出的答案是，利用经验系统来初始化决策模型，让模型的表现接近规则系统，然后让模型利用真实数据进行迭代，逐渐超越经验系统。此外，由于轨迹规划模块的存在，仍然可以兜底确保最后轨迹的安全性。

图预测决策大模型结构

后面可以阅读一下apollo7.0相关的learn base planner 以及预测相关的东西，进一步理解将预测与决策相结合的思想来源。

百度Apollo Day的PNC相关技术解读

浏览过的版块