首页 > 实测理想VLA,终于摆脱“猴子开车”困境了

实测理想VLA,终于摆脱“猴子开车”困境了

会思考,懂决策作者|王磊编辑|秦章勇很多人没注意到的是,凭借增程抢占市场心智的理想,品牌底色已经开始变化。理想i8前不久正式上市,这款车是理想向主流纯电市场的战略产品,竞争对手都是各企业的拳头产品,这意味着理想开始走向纯电深水区。i8所依仗的,除了理想L..

会思考,懂决策

作者|王磊

编辑|秦章勇

很多人没注意到的是,凭借增程抢占市场心智的理想,品牌底色已经开始变化。

理想i8前不久正式上市,这款车是理想向主流纯电市场的战略产品,竞争对手都是各企业的拳头产品,这意味着理想开始走向纯电深水区。

i8所依仗的,除了理想L系列带来的产品经验以及关于纯电方面的创新,有个关键技术突破,那就是VLA(视觉-语言-行为)司机大模型。

相比于智能座舱,辅助驾驶技术迭代发展更快,方向调转的也更频繁,稍不注意就有押错宝的风险,去年由特斯拉引领的端到端大模型变革,让智能驾驶进入AI大模型时代。

但随着时间推移,端到端AI大模型的弊端也逐渐显露出来,比如其本质属于模仿学习,对于一个驾驶行为,知其然而不知其所以然,也就是说,它解决不了没有学习过的场景。

VLA司机大模型的本质,则是强化学习,具备自主思考的能力,就像一个会思考、能推理的大脑。

在理想i8上市前夕,超电实验室在理想汽车总部深度体验了理想VLA司机大模型,从整体逻辑来看,可以完成很多端到端大模型做不到的动作,安全性和流畅性也提高了不少。

我们还和理想汽车自动驾驶研发高级副总裁郎咸朋博士进行了深入交流,包括VLA司机大模型的核心研发成员,聊了聊关于VLA的难点和突破。

一个明显的感受是,理想对于辅助驾驶的思考,可能是行业中最深并且落地最快的品牌了。

01 解决猴子开车 的困局

首先需要知道的是,什么是理想VLA司机大模型?

现在大家熟知的,也目前市面上最主流,应该是端到端大模型,它可以从一端输入,从另一端输出,你给的数据越多,这时候训练模型的性能就会非常好。

但是到了1000万Clips之后,我们发现一个问题:只增长数据量是没有用的,有价值的数据越来越少。理想辅助驾驶负责人郎咸朋说。

其实不难理解,端到端+VLM就像猴子开车一样,它会按照你的意图做一些行为,当一只猴子看 1000万段人类开车的视频,它能学会模仿人的动作,比如在什么情况下打方向盘,什么时候踩刹车等等。

也正是靠着这种模仿,理想汽车在 7 个月内,就将辅助驾驶的平均接管里程从12公里提升到了 120公里。

但问题是,猴子并不知道自己为什么要做这些行为,一敲锣它就过来,一打鼓它就跳舞,但不知道为什么要跳舞,这样就导致有价值的数据量少了之后,性能提升就会慢下来。

究其原因,是现在端到端的这套模仿学习并不具备深度的逻辑思考能力,猴子只知道刻板的固定行为,比如当遇到一个从未见过的拐角,黑暗桥洞下窜出的行人等,当其处于一个违反常理的行驶行为下,这只猴子的大脑就宕机了。

VLA司机大模型应运而生。

从端到端+VLM转变到VLA,本质上从模仿学习变成强化学习,用生成数据,结合仿真环境来训练模型,通过各类传感器或者导航信息的输入,让模型对个空间有一个具体的感知,这也是V所代表的含义。

然后把感知到的空间理解,像人一样总结、翻译、压缩、编码成一种大模型能听懂的语言,是VLA中的L。

而A则是根据L对场景的编码,生成行为策略,就是模型该怎么开这个车。其中的关键就是,语言(Language),像是一个会思考、能推理的大脑。

这样链路下的结果,一个显著的效果就莫过于言出法随的指令,用语言可以直接跟它交流,比如开快点,左转右转等等。

02 VLA实际体验怎么样?

这一点,超电实验室在体验理想i8 VLA司机模型就有非常直观的感受。

体验时长虽然不长,但场景已经相对丰富,你可以用语音来操控理想汽车的驾驶行为。

当你在车内正常行驶时,你可以对它说理想同学,开快点,然后车内的理想同学会回应你收到,我将调快速度。

你可以明显到车辆有加速的感觉,从中控台上能看到时速从63km/h推到了70km/h。

你甚至不用说具体的加减速幅度,它可以根据周围的路况来选择合适的加减速幅度,比如让理想同学慢一点时,也会根据当时正处于施工的路段,将速度从40km/h减到了35km/h。

除此以外,你还可以通过语音控制完成靠边停车、指挥行驶,左右转向等操作。

当你需要临时停车时,同样是呼叫理想同学,发出靠边停车的指令,然后它就会马上回应,好的,靠边停车,然后会选择慢慢减速,并不会因为突发的指令而急刹车,从中控屏上能看到,当时是29km/h的速度,大概是经过了30米的距离,将速度降到了0,并完成靠边停车。

而且是一边减速,一边慢慢向路边靠近,这就很符合我们人类驾驶的习惯,在停好后,理想同学会说,完成停靠。然后让你接管车辆。

如果你觉得这个地方临时停车不方便,你还可以跟理想同学说,往前行驶20米,它同样可以执行,而且确实是只往前走20米,在停下后,同样会提示完成停靠,请接管车辆的提醒。

即便是靠边停车接管车辆了,你想再继续走时,仍可以0帧起手说出继续行驶的指令,然后它就会观察路况,并快速并入主道。

不光是临时停靠,它也可以定点停车,比如你可以描述一个前方的标志物,它就可以理解然后停在那个标志物的旁边,比如现在发出了一个指令停在前面红色三轮车的旁边,它就可以完全能理解,同理,如果你是临时接人,你就完全可以将要接的那个人当做标志物。

道路上的变道操作也可以直接用语音控制,直接跟理想同学说,向左向右的变道,理想同学可以快速识别并执行。

深度思维能力的加持下,不光是赋予了VLA司机言出法随的能力,还有深度记忆的能力,比如在开到某条熟悉的路上时,理想同学会说这条路以前你是按照多少时速开的,现在给你调到这个速度。

它会记住你的偏好和选择,这点和别的车企只会刻板地根据地图里的限速调整不同,比如这条路限速可能开60km/h,但你每次都是以开75km/h的速度行驶,VLA大模型就自主记忆下来,即使已经超越了这条路的限速。

如果你觉得之前在这条路上开的有点慢了,你还可以接着给他下达新的指令。

在到达路口时,可以看到,这个路口的行人相当多,而且不是按照斑马线上的标识行走,理想同学会把车平稳停在斑马线前,等待行人通过,甚至中间还和行人博弈了一下,然后选择礼让行人。

在经过路口时,可以看到还会绕开行人,保持一个安全距离,而且停下和起步的状态也相当丝滑,等行人过去后,再快速通过路口。

在和对向来车博弈时,也是处理的相当到位,先判断,然后迅速调整方向通过,经过博弈车辆后,会快速并入自己的车道,相当的人性化。

在掉头的处理上,也相当丝滑,用了三点式掉头,给驾驶者更稳的安全感,而且在大幅度方向的调整上,不拖泥带水,几秒钟的时间就可以完成掉头。

理想VLA能做的还不仅这些,在理想总部的园区里,无人驾驶的理想i8VLA穿梭巴士能接收到从A区到星巴克,再去充电站,最后到C区地库的复杂指令,全程自主穿梭,遇到窄路会把后视镜贴墙通过,在地库里能跟着文字导航走,甚至会自己停进5C超充站等待充电等。

03 为什么理想能快速落地VLA?

在郎咸朋看来,这不是运气使然的结果,是四个维度下厚积薄发的成就,分别是数据、算法、算力和工程。

其表示,虽然 VLA 的数据、算法等可能跟之前不太一样,但是这些仍然是要建立在之前的基础上的。

如果没有完整的通过实车采集的数据闭环,是没有数据能够去训练世界模型的。理想汽车之所以能够落地 VLA 模型,是因为我们有 12 亿公里数据,只有在充分了解这些数据的基础上,才能够更好的生成数据郎咸朋表示。

而且当传统实车数据无法再提供更多的提升,理想又大规模引入仿真数据,你可以把它理解成一个为 AI 司机量身打造的、无限逼真的驾驶模拟器。在这个虚拟世界里,AI 不再是单纯模仿,而是通过一次次试错,去探索和学习。

而郎咸朋在采访中对仿真数据的效果表示非常自信,我们现在的仿真效果完全可以媲美实车测试。

另外就是算法和算力,郎咸朋表示,当前理想拥有总计13 EFLOPS的训练平台,其中 10 EFLOPS 分配给训练,3 EFLOPS 用于推理。据理想内部估算,其目前所拥有的推理资源等效于 3 万张英伟达 L20 的推理卡。

算力也是支撑海量数据的基础,在VLA的强化训练当中,如果没有推理卡,不能生成仿真的训练环境,海量的训练自然无法进行。

如果说数据、算力、算法都是软实力,那么能将这些软实力量化的就是其工程能力,毕竟没有良好的工程能力,模型训练再好,部署不到芯片和车上,毫无价值。

要知道,如今的VLA大模型还只是初代,随着时间的迭代,或许要不了多久,辅助驾驶真的要摘掉帽子了。

原文标题:实测理想VLA,终于摆脱“猴子开车”困境了

来源:OFweek

微信分享

微信分享二维码

扫描二维码分享到微信或朋友圈

链接已复制