一文让你搞清楚国内的“端到端”乱想，看看究竟谁在adas上使用真正的端到端模型：$比亚迪(SZ002594)$ $特斯拉...

一文让你搞清楚国内的“端到端”乱想，看看究竟谁在adas上使用真正的端到端模型：$比亚迪(SZ002594)$ $特斯拉(TSLA)$ $赛力斯(SH601127)$
1. 国内智驾行业为何在2024年集体喊出了端到端？
一个直观的回答是，因为特斯拉这么干了。去年年初，马斯克在推特上透露特斯拉已经开启端到端自动驾驶方案的开发。8月，马斯克首次直播亲测FSD V12，系统呈现出的类人驾驶效果引发热议：自动驾驶看起来真有希望了（尽管中途接管了一次）。
FSD V12的类人操作：前方车道已经拥堵，那就不要开过去堵住路口
但更接近现实情况的答案是，端到端是诸多企业在进行过大量实践、试错后，逐渐认同的一种方法。或者说，如果智能驾驶的技术问题主要是一个AI问题，那么端到端是一个通用解。
端到端并不是一个全新的概念。在人工智能领域，它是一种普遍使用的方法。比如在各种AI翻译、语音转文字应用中，基本都使用端到端：原始数据被送进一张神经网络中，经过一系列运算后，直接给出最终结果。
在智能驾驶领域，行业对端到端的探索也不鲜见，比如英伟达、Waymo都组建过团队进行预研，美国的初创公司如Comma.ai和Drive.ai，则选择All in端到端。但早年间算力、算法性能尚低，基于此开发的神经网络规模与能力有限，自动驾驶的任务又高度复杂，端到端方案的表现并不好。
因此，在实际量产中，行业前些年更普遍的做法是分而治之：
将智能驾驶的技术栈切成多个模块，每个模块有独立的算法（有的模块如感知多使用神经网络，有的模块使用传统算法），众模块前后接力，协作完成智能驾驶任务。直到目前，市面上大多L2及其以下的智能驾驶仍然使用这套技术栈，并且运行得不错，因为任务相对简单。
但问题在于，当企业的目标是实现高阶智驾乃至自动驾驶时，这种模块化的方法就不够用了——一个关键原因是，“中间人”太多了。
几乎所有地球人都参与过的“传话游戏”中，一个必然会发生的情况是，当参与游戏的传话人越多，最后一个人说出的结果与最初传下去的话差别就越离谱。
就像这样
这与智能驾驶模块化技术栈的问题共通：当信息流转的层级越多、传递的链路越长，失真情况就越严重。人类会发挥主观能动性胡乱脑补，而智驾各模块不仅对信息有损压缩、传递并累计误差，还会面临并行模块信息相互打架的问题。
面对人员冗杂、难以配合、效率低下的问题，一家企业惯常的操作是精简组织，付4.5倍工资招3个能力强的干6个人的活。
同样的事情也发生在智驾技术栈中。车企与智驾公司们不断整合智驾技术栈原来相对细碎的模块，打包成感知预测、决策规划、控制执行三大模块（也有企业将预测拆出构成四大模块）。
然而，做到这一步实际上只是让高阶智驾能用，难题依然层出不穷。
在大多已上市的智驾车型的决策规划模块中，有大量人类工程师手写的if else规则去应对不同场景。在不复杂的场景下，这些规则能运行得不错，但当场景高度复杂比如在城区智驾时，靠if else很难精确地描述并处理场景，规则与规则之间也会冲突。
就像一个刚拿证不久，反应总是会慢半拍的新手，常常会在心中默念交规开车，在车流较少时还能应付，遇到早晚高峰就原形毕露。不少智驾车型的鲁莽、笨拙、机械感，和这有分不开的关系。
为了解决这个问题，国内智驾系统开发进度靠前的企业都在进行一项工作：在决策规划模块中，逐渐用神经网络替换掉手写规则，靠数据驱动解决人工无法穷尽的弊端。
比如华为在北京车展期间发布的ADS 3.0，将原本有不少手写规则的预测决策规划模块替换为了一整张PDP神经网络；小鹏即将在五月推送的天玑系统，也会在相应模块引入神经网络模型Xplanner。
但做到这一步依然不够好。因为感知神经网络与决策规划神经网络的仍然相对独立，且任务并不相同，两者之间依然存在人工设计的通信接口，有一个信息筛选过程，也自然意味着存在信息的有损压缩——好比一个乘客负责看路，来指挥蒙着眼的司机如何开车。
在理论上，取消所有“中间人”，让一张庞大的神经网络负责整个驾驶任务，才是充分利用信息的最优解，这就是端到端智能驾驶。
智驾技术栈的演进方向
而眼下，智驾行业正处于激烈的城市NOA开城竞赛中。以人类为模板，智驾系统如果要做到全国都能开，驾驶感类人、丝滑，需要的当然不是几个人协作，而是单个足够强大的大脑在正确理解环境后，指挥腿脚做出正确的动作。
端到端就是打造出这颗AI大脑的关键路径。这是智驾行业今年对它前赴后继的根本原因。
2. 到底哪端到哪端
略显喜感的是，在这场端到端的热潮中，要么是因为中文博大精深，要么是一些企业有意为之，尽管不同企业异口同声地在说端到端，他们表达的可能完全不是一个意思。
比如华为在非智驾领域讲端到端时，表达的是“从客户端来，到客户端去”的流程。
当某些智驾算法供应商在讲感知端到端时，表示的意思其实是“将感知模块原本数张负责不同任务的神经网络整合成了一张”，而不是完全实现了端到端智能驾驶。
某些车企在宣传端到端时，实际所做的工作是“把智驾技术栈的模块合并了一些”。
实际上，严格意义上的端到端自动驾驶，指的是传感器数据进入神经网络处理后，直接输出方向盘、油门、刹车等执行器的控制信号。
严格意义上的端到端智驾
不过，稍微宽泛一点的定义目前也受到认可：车辆的控制模块不需要改造成神经网络，只要一张神经网络接管感知与决策规划，能输出正确的行驶轨迹，也可以被叫做端到端。图森未来CTO王乃岩日前就发文呼吁，业界要避免陷入狭义端到端的误区，因为这对智驾量产不利。
宽泛意义上的端到端
元戎启行CEO周光持有类似的观点，他对此的解释是：
相对于感知和决策规划，汽车的控制自由度较低，难度不高，传统算法经过长期发展已经有非常成熟的解决方案。在传统算法可以精确控制车辆按轨迹行驶的情况下，将其改造为神经网络并无明显收益，反而可能带来不同车辆的适配问题。
在这两种狭义与广义的端到端之外，一些企业试图将端到端定义为“把感知模块与决策规划模块，改造成感知神经网络和决策规划神经网络”。
宣称自己是端到端（其实不是）
相比传统的模块化架构，用两张神经网络解决智驾的思路的确更先进，能更好地实现数据驱动。但正如上文所说，两张神经网络之间仍有人工设计数据结构的接口，这个中间人的存在必然伴随信息损失，与端到端“充分利用信息”的思路有差距。
由两张大神经网络驱动的智驾，只能说是在感知与决策规划环节各自完成了端到端，能在这两个环节各自获得局部最优解，但智驾需要的是全局最优解。
在此之外，还有各种各样的端到端则有些像车企的自研榜单，只要定语加得多，哪款车都可以是最畅销车型；同样只要定义的范围足够小，任何企业都能掌握某种端到端。
类似的重新定义其实在智驾的无（高精地）图竞赛中已经广泛上演过，不少公司宣称自己的方案是无图，但实际上纷纷在导航地图上打补丁、堆先验、定制图层，更像是一种变相的高精地图。
而真正的“无图”，应该是仅采用导航电子地图（不用地图不可能），业界传闻只有极少数供应商能真正提供无图智驾方案。
不同企业此前对无图，如今对端到端千差万别的理解和运用的区别，反映出他们截然不同的出发点与目的地。查看图片

作者：andyding

引用：

全部讨论