发布于: 修改于: 雪球转发:0回复:1喜欢:2
一文让你搞清楚国内的“端到端”乱想,看看究竟谁在adas上使用真正的端到端模型:$比亚迪(SZ002594)$ $特斯拉(TSLA)$ $赛力斯(SH601127)$
1. 国内智驾行业为何在2024年集体喊出了端到端?
一个直观的回答是,因为特斯拉这么干了。去年年初,马斯克在推特上透露特斯拉已经开启端到端自动驾驶方案的开发。8月,马斯克首次直播亲测FSD V12,系统呈现出的类人驾驶效果引发热议:自动驾驶看起来真有希望了(尽管中途接管了一次)。
FSD V12的类人操作:前方车道已经拥堵,那就不要开过去堵住路口
但更接近现实情况的答案是,端到端是诸多企业在进行过大量实践、试错后,逐渐认同的一种方法。或者说,如果智能驾驶的技术问题主要是一个AI问题,那么端到端是一个通用解。
端到端并不是一个全新的概念。在人工智能领域,它是一种普遍使用的方法。比如在各种AI翻译、语音转文字应用中,基本都使用端到端:原始数据被送进一张神经网络中,经过一系列运算后,直接给出最终结果。
在智能驾驶领域,行业对端到端的探索也不鲜见,比如英伟达、Waymo都组建过团队进行预研,美国的初创公司如Comma.ai和Drive.ai,则选择All in端到端。但早年间算力、算法性能尚低,基于此开发的神经网络规模与能力有限,自动驾驶的任务又高度复杂,端到端方案的表现并不好。
因此,在实际量产中,行业前些年更普遍的做法是分而治之:
将智能驾驶的技术栈切成多个模块,每个模块有独立的算法(有的模块如感知多使用神经网络,有的模块使用传统算法),众模块前后接力,协作完成智能驾驶任务。直到目前,市面上大多L2及其以下的智能驾驶仍然使用这套技术栈,并且运行得不错,因为任务相对简单。
但问题在于,当企业的目标是实现高阶智驾乃至自动驾驶时,这种模块化的方法就不够用了——一个关键原因是,“中间人”太多了。
几乎所有地球人都参与过的“传话游戏”中,一个必然会发生的情况是,当参与游戏的传话人越多,最后一个人说出的结果与最初传下去的话差别就越离谱。
就像这样
这与智能驾驶模块化技术栈的问题共通:当信息流转的层级越多、传递的链路越长,失真情况就越严重。人类会发挥主观能动性胡乱脑补,而智驾各模块不仅对信息有损压缩、传递并累计误差,还会面临并行模块信息相互打架的问题。
面对人员冗杂、难以配合、效率低下的问题,一家企业惯常的操作是精简组织,付4.5倍工资招3个能力强的干6个人的活。
同样的事情也发生在智驾技术栈中。车企与智驾公司们不断整合智驾技术栈原来相对细碎的模块,打包成感知预测、决策规划、控制执行三大模块(也有企业将预测拆出构成四大模块)。
然而,做到这一步实际上只是让高阶智驾能用,难题依然层出不穷。
在大多已上市的智驾车型的决策规划模块中,有大量人类工程师手写的if else规则去应对不同场景。在不复杂的场景下,这些规则能运行得不错,但当场景高度复杂比如在城区智驾时,靠if else很难精确地描述并处理场景,规则与规则之间也会冲突。
就像一个刚拿证不久,反应总是会慢半拍的新手,常常会在心中默念交规开车,在车流较少时还能应付,遇到早晚高峰就原形毕露。不少智驾车型的鲁莽、笨拙、机械感,和这有分不开的关系。
为了解决这个问题,国内智驾系统开发进度靠前的企业都在进行一项工作:在决策规划模块中,逐渐用神经网络替换掉手写规则,靠数据驱动解决人工无法穷尽的弊端。
比如华为在北京车展期间发布的ADS 3.0,将原本有不少手写规则的预测决策规划模块替换为了一整张PDP神经网络;小鹏即将在五月推送的天玑系统,也会在相应模块引入神经网络模型Xplanner。
但做到这一步依然不够好。因为感知神经网络与决策规划神经网络的仍然相对独立,且任务并不相同,两者之间依然存在人工设计的通信接口,有一个信息筛选过程,也自然意味着存在信息的有损压缩——好比一个乘客负责看路,来指挥蒙着眼的司机如何开车。
在理论上,取消所有“中间人”,让一张庞大的神经网络负责整个驾驶任务,才是充分利用信息的最优解,这就是端到端智能驾驶。
智驾技术栈的演进方向
而眼下,智驾行业正处于激烈的城市NOA开城竞赛中。以人类为模板,智驾系统如果要做到全国都能开,驾驶感类人、丝滑,需要的当然不是几个人协作,而是单个足够强大的大脑在正确理解环境后,指挥腿脚做出正确的动作。
端到端就是打造出这颗AI大脑的关键路径。这是智驾行业今年对它前赴后继的根本原因。
2. 到底哪端到哪端
略显喜感的是,在这场端到端的热潮中,要么是因为中文博大精深,要么是一些企业有意为之,尽管不同企业异口同声地在说端到端,他们表达的可能完全不是一个意思。
比如华为在非智驾领域讲端到端时,表达的是“从客户端来,到客户端去”的流程。
当某些智驾算法供应商在讲感知端到端时,表示的意思其实是“将感知模块原本数张负责不同任务的神经网络整合成了一张”,而不是完全实现了端到端智能驾驶。
某些车企在宣传端到端时,实际所做的工作是“把智驾技术栈的模块合并了一些”。
实际上,严格意义上的端到端自动驾驶,指的是传感器数据进入神经网络处理后,直接输出方向盘、油门、刹车等执行器的控制信号。
严格意义上的端到端智驾
不过,稍微宽泛一点的定义目前也受到认可:车辆的控制模块不需要改造成神经网络,只要一张神经网络接管感知与决策规划,能输出正确的行驶轨迹,也可以被叫做端到端。图森未来CTO王乃岩日前就发文呼吁,业界要避免陷入狭义端到端的误区,因为这对智驾量产不利。
宽泛意义上的端到端
元戎启行CEO周光持有类似的观点,他对此的解释是:
相对于感知和决策规划,汽车的控制自由度较低,难度不高,传统算法经过长期发展已经有非常成熟的解决方案。在传统算法可以精确控制车辆按轨迹行驶的情况下,将其改造为神经网络并无明显收益,反而可能带来不同车辆的适配问题。
在这两种狭义与广义的端到端之外,一些企业试图将端到端定义为“把感知模块与决策规划模块,改造成感知神经网络和决策规划神经网络”。
宣称自己是端到端(其实不是)
相比传统的模块化架构,用两张神经网络解决智驾的思路的确更先进,能更好地实现数据驱动。但正如上文所说,两张神经网络之间仍有人工设计数据结构的接口,这个中间人的存在必然伴随信息损失,与端到端“充分利用信息”的思路有差距。
由两张大神经网络驱动的智驾,只能说是在感知与决策规划环节各自完成了端到端,能在这两个环节各自获得局部最优解,但智驾需要的是全局最优解。
在此之外,还有各种各样的端到端则有些像车企的自研榜单,只要定语加得多,哪款车都可以是最畅销车型;同样只要定义的范围足够小,任何企业都能掌握某种端到端。
类似的重新定义其实在智驾的无(高精地)图竞赛中已经广泛上演过,不少公司宣称自己的方案是无图,但实际上纷纷在导航地图上打补丁、堆先验、定制图层,更像是一种变相的高精地图。
而真正的“无图”,应该是仅采用导航电子地图(不用地图不可能),业界传闻只有极少数供应商能真正提供无图智驾方案。
不同企业此前对无图,如今对端到端千差万别的理解和运用的区别,反映出他们截然不同的出发点与目的地。查看图片
引用:
2024-04-20 13:16
$比亚迪(SZ002594)$ $特斯拉(TSLA)$ $长城汽车(SH601633)$ 特斯拉在无人驾驶上又遥遥领先,华为的端到端方案呢?国内元戎似乎已经跑到了前头。
《晚点 Auto》独家获悉,长城汽车引入元戎启行做为第二家智能驾驶供应商,元戎将为长城提供端到端的智能驾驶方案,今年计划落地三款车。

全部讨论