首页 > 纯视觉 VS 激光雷达,不是非此即彼的问题

纯视觉 VS 激光雷达,不是非此即彼的问题

辅助驾驶里面到底用纯视觉,还是激光雷达,是个既陈旧又新鲜的话题。2022年特斯拉成为坚定的视觉派,大多数国内车企站在他的对面。到了2024年,有些已经推出多款搭载激光雷达产品的品牌,开始转而推纯视觉产品。今年3月之后,好像这个“烧饼”又翻过来了,激光雷达派又..

辅助驾驶里面到底用纯视觉,还是激光雷达,是个既陈旧又新鲜的话题。2022年特斯拉成为坚定的视觉派,大多数国内车企站在他的对面。到了2024年,有些已经推出多款搭载激光雷达产品的品牌,开始转而推纯视觉产品。今年3月之后,好像这个“烧饼”又翻过来了,激光雷达派又开始占优。

看似折腾,实则和掌握的技术阶段(算力和算法、传感器的技术水平)有关系。因此可以预见,这个话题还将持续下去,直到没有明显的技术瓶颈。

机器学习的四阶段

先要澄清一下,不存在“纯视觉 PK激光雷达”这个对决关系。没有哪一辆车只装了激光雷达不装摄像头。激光雷达定位就是打辅助的角色。所以合适的对垒双方,应该是纯视觉VS视觉+激光雷达。

乍一看,后者的传感器组合多了一个“帮手”,就像二郎神有三只眼一样,多少会对眼神有帮助吧。不过问题比“乍一看”要麻烦得多。

最初像Waymo尝试做L4、L5一步到位的企业,测试车上都顶着“花盆”——昂贵的机械旋扫雷达,价格当时高达10万美元,比街上跑的绝大多数车都贵。当时不仅是摄像头能力不行的问题,而在于当时的算法认知,还停留在“专家学习系统”层面,就是将知识和规则,用算法的方式定好,交给机器去执行。

后来往前走了一步,简称为“特征工程”。就是将特征提取出来,交给机器去学习。这和人开车的思路,开始有点像了,因为人类天生对变化特别敏感。比如颜色、形状、大小、位置变了,对注意力影响大。注意力机制也是构建AI架构的灵感来源。人倾向于将车窗外的场景变化,简化为“可驾驶”、“不可驾驶”两种状态,再叠加常识(运动推断)和交通规则,决定驾驶行为。

到了第三阶段,即“机器学习”,可以直接将原始数据和少数标签交给机器,让机器自己学习特征。这一阶段,AI取得了惊人的发展。机器在图像(语音)识别、分类能力上开始超过人类。

这个时候,特斯拉发明了一个算法,叫“Occupancy NetWork”(占用网络)。简单说,就是将运动路径上三维空间虚拟切割无数立体小方块,如果检测到某个小方块被占用,还分为移动和非移动,那么就可以规避。不会出现以前那种、只有识别出是啥东西才能响应的弊端。以前特斯拉有过无视翻倒的货车、突然出现的牛等“非结构性”障碍等负面案例。

这一技术是特斯拉走纯视觉路线的最大底气。不过马斯克说,既然人能用两只眼开车,纯视觉就没什么问题。

这属于偷换概念。原因在于,机器尚未达到第四阶段,即机器可以像人一样感知和理解世界;像人一样在几乎所有环境当中进行学习和适应,即实现“通用人工智能”。因此,纯视觉至少现在还比人的能力低。

纯视觉不如人眼,问题在于大脑

这种前提下,讨论AEB(主动刹车)的速度上限,其实没有太大价值。可以理解为商业话术。

纯视觉劣于人的能力,已经不再是“眼神”(也就是传感器能力)问题。人的大脑,出生时自带一个模型,准确说只有一个模型框架,数据量非常少。比如出生3个月的婴儿,视觉已经没大问题(能感知5米外的物体,但缺乏细节),从未见过蛇。当其见到蛇的视频之后,表现出明显不安——瞳孔收缩、肢体语言僵硬、哭闹等。这就是模型残留的少量参数。大量参数都是后天习得,而且在此过程中(0-3岁),人类裁剪了大量不活跃的脑神经连接——代价是人丧失了这段时间的长期记忆。

相对人的能力,智能机器很难预测行为的所有潜在后果。其行为经常出现“不可解释”的现象,因为它缺乏人类的经验。任何形式化的方法,不可能为所有对象和行为建立模型。比如,如何与其他智能体互动、合作,并预料到会导致什么。机器智能仍有重大缺陷。这不是训练量可以解决的。

端到端的中间结果,往往不可解释。对这类不可控的可能性,我们都是直接上硬规则来做兜底约束。比如,告诉机器,不管如何动作,绝对不能闯红灯。但是救护车、消防车就可以在确认安全前提下闯红灯。为了避免规则的复杂化,应用场景必然受限。

所以,尽管摄像头对于强光、照度快速变化、低照度、视线受阻(雨雪雾风)的应对能力提高了很多,但大问题在脑子里(算力和算法),因此也别指望当前阶段纯视觉能够替代人。

激光雷达是个好辅助吗?

这个时候,外挂(激光雷达)再度有了用武之地。预测能力不行没关系,真实世界是三维的,纯视觉的本质是三维世界的投影(二维图像)。缺少的信息维度(深度),激光雷达直接测得。而且,视觉是被动接受光信号,光线的影响不可控。其实人眼也有这个问题,同样一辆车,夜晚和白天看起来可能完全不同。激光雷达是主动照射,不受可见光影响。

视觉感知的是颜色和亮度,激光雷达感知的是轮廓。对同一辆车,外形轮廓往往更稳定,而颜色和亮度,在不同光线下是不稳定的。理论上,激光雷达测得的数据更可信。

但是,激光雷达的成本虽然压下来了(仍然比摄像头贵15倍),但激光雷达的缺陷也与其主动工作方式有关。距离远了,激光的发散角扩大,能量密度降低很快(和距离的平方成反比衰减)。

目前的技术水平,光照好的时候,对200米以外的物体,192线激光雷达可以获得的信息,其实不如800万像素的摄像头。这样的条件下,纯视觉算法可以轻易识别出类型,但视觉+激光雷达,花费大量算力处理点云-图像融合数据,结果辨识能力反而不如纯视觉。

一线的技术高管告诉我们,和刻板印象相反,激光雷达对天气非常敏感。如果不是特别大的雪,不会过于遮挡视线(人类大脑和视觉算法都会自动滤除),但这些半透明的小玩意,会在激光雷达几米处形成一团噪点,很难穿透雪花这种本该无视的障碍物。

真正能无视各种极端天气的,其实是毫米波雷达(波长:毫米波>摄像头>激光雷达),因为波长越长,绕射性越好。但也因为这一点,毫米波雷达的精度相当感人,无法精确测距。

实际应用中,激光雷达会扫射到很多物体,产生很多回波(多径效应),信号混叠在一起,给辨识带来困难。激光雷达处理的帧率,远不及摄像头。低帧率看远距离的高速物体,误差比摄像头大。这其实是算力的锅。激光雷达的信息密度大,无用信息多,吃算力也多。

也因为这些缺陷,激光雷达不能单独挑大梁,只用来补盲。这样一来,问题就变成激光雷达只作为特殊条件下辅助,值不值得。所谓特殊条件,低照度、简单路况、高速行驶,即摄像头看不了太远,但又需要系统提供较长“接管窗口”的时候,激光雷达是不错的补盲手段。

碰到这样的场景, 纯视觉辅助的驾驶者,想确保安全,有两种选择:一种是使用辅助驾驶,速度放慢(低照度时必须降至100公里时速以下),给可能的接管留出5~10秒的时间;另一种选择是人工开,不进入辅助驾驶。

激光雷达能解决类似的困境。综合成本贵上1~2万。何去何从,可以自己选择了。无论如何,理智的驾驶者会避免自身处于危险边缘。激光雷达的确能在某些场景带来更大的自由度。

当然,如果天气过于极端,如果多数人不敢出行的天气(比如超级大风、大雪大雨等),建议靠边等待,而非仰仗辅助驾驶,行人所不能之事。

如此看来,将两种不同适应宽度、不同成本的方案放在一起互掐,即便形成了结论,也要加繁琐的限定条件。而且,随着技术的发展,结论可能改变。

比如算力变得廉价,根本不在乎激光雷达吃掉一部分,或者滤波算法可以解决各种融合问题,能处理的极端场景也会增加。未来也可能出现其他传感器,低成本下实现更宽泛的视觉+3D测量,但至少目前我们还看不到。

注:图片部分来源网络,如有侵权,联系删除。

来源:新浪汽车

微信分享

微信分享二维码

扫描二维码分享到微信或朋友圈

链接已复制