陈黎明：2025年自动驾驶将迎来ChatGPT 时刻

日期：2024-07-15 14:06 / 作者：6kYzQ!yIEmp_M6UkZ

　　汽势 Auto-First| 刘天鸣发自上海

　　地平线总裁陈黎明在 7 月 12 召开的 2024 中国汽车论坛上表示，2025 年，自动驾驶将迎来 ChatGPT 时刻。什么是 ChatGPT 时刻？地平线认为它不光是整个的性能，最关键的是产品的体验，是产品的可用性与好用性。

　　目前，城区 NOA 大部分还处于可用阶段，还没有达到好用的阶段。主要的问题还是在于比较 " 怂 "，比较鲁莽，通过率比较低。

　　如何实现城区 NOA 从可用到好用的进阶，陈黎明认为，首先要解决自动驾驶的 scale up 和 scale out 的难题。所谓 scale up，在特定、固定、受控的小 ODD 范围内实现性能最优，已经达到了很高的性能，能够处理很多复杂的场景。但是在广泛的场景应用里面，我们能够看到性能的上限非常的低，就是刚才我们讲的怂、鲁莽这些行为。使得整个自动驾驶的应用还受限于一些相对小的范围，在大范围上体验不好。

　　要解决这个问题核心的要素就是四个：算法、算力、数据、工程能力。算法是决定了整个系统的性能的上限，然后算力和数据是决定了技术迭代速度。工程能力决定了整个量产化的规模和用户的体验。

　　陈黎明表示，采用一个端到端和交互博弈的解决方案，能够比较好地解决 scale out 和 scale up 的难题。地平线采用了 " 三网合一 " 的端到端大模型，在这个大模型里面它能够把传感器的数据和地图和导航信息输入大模型进行训练。在这个模型里面它通过不丢失信息的情况下对周边世界进行更好的感知，通过动静态的推理还有数据的训练，能够产生出动静态目标。除此之外还能够输出一个机器能读懂的高维特征级信息，给到下一个模块，也就是交互博弈模块。这个模块有两个部分组成：一个是神经网络的模块，再一个是基于 Rule-based 的模块。神经网络能够提高整个系统上限，同时基于 Rule-based 的模块可以做好安全兜底，确保系统下限。

　　2022 年地平线提出了 Sparse4D 的架构，它是行业比较领先的高性能，高效率，长时序、纯稀疏融合感知架构，它通过长时序纯稀疏还有端到端很好解决了之前或者现在用的 BEV+Transformer 架构里面的感知范围和精度以及与计算效率的矛盾，打造了一个比较好的端到端的感知基座。同时它在各方面的性能表现都远好于其他的架构，特别是在 nuScenes 公开数据集排行榜第一。所以它是接棒 "BEV+Transformer" 的下一代架构。通过和 BEVFormer 的对比，可以看到在夜间城区密集人群的精准感知、远距离及时感知的场景下，Sparse4D 的感知结果都更精准。

　　另外地平线学者在 2022 年底的时候发表了一篇自动驾驶大模型 UniAD 的文章，也是首次实现了整体框架下的端到端训练。UniAD 它首次将检测、跟踪、建图、轨迹预测、占据网格预测以及规划整合到一个基于 Transformer 框架里面的大模型里面，实现感知的一体化，相对于黑盒的端到端，它更可控、可解释、可拓展，是一个比较好的架构。

　　陈黎明说，除此之外，地平线还采用了模仿强化混合学习技术，使得整个自动驾驶更拟人、更安全。基于模仿的开环学习方式不能很好的解决长尾问题。交互式的规控学习采用混合强化学习方式，一方面通过模仿学习提高学习效率，另一方面通过闭环强化学习克服模仿学习在长尾等方面存在的缺陷，可以很好地解决长尾问题。

　　硬件的架构、软件中间层的优化、算法的创新上，地平线都聚焦于软硬协同，永远以更低的成本去获得更高的计算性能。

　　陈黎明指出，软硬结合，超越摩尔定律。基于软硬结合的 " 新摩尔定律 "，我们 BPU 的计算性能对于传统主流的 CNN 神经网络它在 6 年里面提升了 246 倍。对于现在的 Transformer 来讲，在三年里面提升了 27 倍。实际上我们通过软件和硬件的优化，远超摩尔定律提升的速度。

　　软硬结合的技术实力推动智能驾驶从 " 可用 " 到 " 好用 " 最后到 " 爱用 "，陈黎明总结道。