日前,理想汽车董事长兼CEO李想开启第二季AI Talk,描述了理想汽车关于智能驾驶辅助方面接下来的发展方向,并重点分享了对于人工智能的最新思考,VLA司机大模型的作用、训练方法和挑战,以及对于创业和个人成长的见解。李想将AI工具分为三个层级,分别是信息工具、辅助..
日前,理想汽车董事长兼CEO李想开启第二季AI Talk,描述了理想汽车关于智能驾驶辅助方面接下来的发展方向,并重点分享了对于人工智能的最新思考,VLA司机大模型的作用、训练方法和挑战,以及对于创业和个人成长的见解。
李想将AI工具分为三个层级,分别是信息工具、辅助工具和生产工具。目前,大多数人将AI作为信息工具使用,但信息工具常伴随大量无效信息、无效结果和无效结论,仅具参考价值。成为辅助工具后,AI可以提升效率,例如现在的辅助驾驶,但仍需人类参与。未来,AI发展为生产工具后,将能独立完成专业任务,显著提升效率与质量。李想表示:“判断Agent(智能体)是否真正智能,关键在于它是否成为生产工具。只有当人工智能变成生产工具,才是其真正爆发的时刻。就像人类会雇佣司机,人工智能技术最终也会承担类似职责,成为真正的生产工具。”
● VLA的实现不是突变的过程,是进化的过程
目前的L2、L2+组合驾驶辅助仍属于辅助工具阶段,而VLA(Vision-Language-Action Model,视觉语言行动模型)能够让AI真正成为司机,成为交通领域的专业生产工具。对理想汽车而言, 未来的VLA就是一个像人类司机一样工作的司机大模型。
VLA的实现不是一个突变的过程,是进化的过程,经历了三个阶段,对应理想汽车辅助驾驶的昨天、今天和明天。第一阶段,理想汽车自2021年起自研依赖规则算法和高精地图的辅助驾驶,类似“昆虫动物智能”。第二阶段,理想汽车自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,视觉语言模型)辅助驾驶,接近“哺乳动物智能”。
端到端模型在处理复杂问题时存在局限,虽可借助VLM视觉语言模型辅助,但VLM使用开源模型,使其在交通领域的能力有限。同时端到端模型也难以与人类沟通。为了解决这些问题并提升用户的智能体验,理想汽车自2024年起开展VLA研究,并在多项顶级学术会议上发表论文,夯实了理论基础。
在端到端的基础上,到第三阶段,VLA将开启“人类智能”的阶段。它能通过3D和2D视觉的组合,完整地看到物理世界,而不像VLM仅能解析2D图像。同时,VLA拥有完整的脑系统,具备语言、CoT(Chain of Thought,思维链)推理能力,既能看,也能理解并真正执行行动,符合人类的运作方式。
● VLA训练过程模拟人类学习,对齐人类价值观
VLA的训练分为预训练、后训练和强化训练三个环节,类似于人类学习驾驶技能的过程。预训练相当于人类学习物理世界和交通领域的常识,通过大量高清2D和3D Vision(视觉)数据、交通相关的Language(语言)语料,以及与物理世界相关的VL(Vision-Language,视觉和语言)联合数据,训练出云端的VL基座模型,并通过蒸馏转化为在车端高效运行的端侧模型。
后训练相当于人类去驾校学习开车的过程。随着Action(动作)数据的加入——即对周围环境和自车驾驶行为的编码,VL基座变为VLA司机大模型。得益于短链条的CoT,以及Diffusion扩散模型对于他车轨迹和环境的预测,VLA具备实时性的特点,实现了在复杂交通环境中的博弈能力。
强化训练类似于人类在社会中实际开车练习,目标是让VLA司机大模型更加安全、舒适,对齐人类价值观,甚至超越人类驾驶水平。强化训练包含两部分:一是通过RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)完成安全对齐,使模型遵守交通规则,贴合中国用户的驾驶习惯;二是将纯强化学习模型放入世界模型中训练,提升舒适性,避免碰撞事故,遵守交通规则。经过预训练、后训练和强化训练后,VLA司机大模型即可部署至车端运行。
VLA司机大模型以“司机Agent(智能体)”的产品形态呈现,用户可通过自然语言与司机Agent沟通,跟人类司机怎么说,就跟司机Agent怎么说。简单通用的短指令由端侧的VLA直接处理,复杂指令则先由云端的VL基座模型解析,再交由VLA处理。
● 超级对齐确保AI决策安全,世界模型破解AI黑盒难题
除了提升专业能力,VLA司机大模型还需解决安全性和模型黑盒的问题。
模型能力越强,越需要职业性约束,以确保能力下限。为了保障VLA司机大模型能够实现职业司机般的安全和舒适,避免学习加塞等违规行为,理想汽车在强化训练环节投入大量资源,并于2024年底组建超过100人的超级对齐团队,相当于为司机Agent注入职业素养。
为解决模型的黑盒问题,理想汽车结合重建和生成两种路径,打造了真实、符合物理世界规律的世界模型,覆盖所有交通参与者和要素。基于世界模型的仿真能力,VLA可以在世界模型中低成本、准确地验证现实问题,提升解决问题的效率,有效应对模型黑盒带来的挑战。
判断司机Agent是否是个好司机,有三个关键标准:专业能力、职业能力和构建信任的能力。VLA司机大模型提升了专业能力,超级对齐增强了职业能力,VLA通过理解自然语言、具备记忆能力提升了构建信任的能力。
● 人工智能时代,扎实的基本功比走捷径重要
理想汽车实现技术快速跃迁的背后,是从研究、研发到能力表达,再到将能力变成业务价值的基本功积累。研究是关键,研究突破后,研发的效率会大幅提升,且注重价值转化,最终实现业务落地。
理想汽车坚持自研,通过技术赋能用户价值。例如,在辅助驾驶方面,由于英伟达Orin-X芯片无法直接运行语言模型,端到端+VLM的辅助驾驶方案对部分企业来说仍具挑战。理想汽车依托自有编译团队,自研底层推理引擎,使芯片可通过INT4(4比特整型)量化的方式运行VLM。同时,凭借芯片、控制器设计和自研汽车操作系统等综合能力,理想汽车实现了让双Orin-X芯片和Thor-U芯片运行同等规模的VLA司机大模型。李想表示,大型企业的基本功和能力永远无法被逾越。
得益于DeepSeek的开源,理想汽车在VLA司机大模型的语言能力研发上提速显著,节省了近9个月的时间和数亿元成本。尽管如此,理想汽车仍选择加大投入,在基座模型上投入超预期3倍的训练卡,专注打造适配多场景的自研模型。李想表示:“我们可以站在巨人的肩膀上,但它只是其中的一部分。”在受益开源的同时,理想汽车也选择开源自研的汽车操作系统——理想星环OS,回馈社会。
● 成长带来能量,在痛苦中保持正能量
今年7月,理想汽车将迎来成立十周年。李想表示,创业路上苦多于甜,他选择保留那些有价值的美好片段,用来激励自己保持正能量。“创业确实不容易,但是没必要苦哈哈的。苦和甜是一个硬币的正反面,取决于看哪一面。”他将企业遭遇的打击视为必须面对的挑战,也正是这些挑战,赋予了理想汽车更多的能力。也正因这份积极乐观的创业心态,理想汽车才能快速成长为千亿营收规模、百万交付量的新势力企业。
谈及如何成为更有能量的人,李想认为,关键在于关注自我,接受自身的优点和不足,并用成长替代改变——成长意味着增强能力。除此之外,李想强调亲密关系同样重要,关注他人的成长也能带来能量,家人和同事能够和他形成互补,相互支撑。“我需要家人和同事甚至超过了他们需要我,首先是我需要他们,然后才是他们需要我,我们在一起能够形成非常强的脑力和心力。”李想表示。
回顾几次创业经历,李想表示,从高中创办个人网站至今,自己的思维方式没有什么变化:遇到问题解决问题,解决别人不愿解决的难题,解决用户的痛点,不断向他人学习。不同的是,如今面临的问题更复杂、服务的用户群体更多、公司规模和组织也更庞大。“几次创业一路走来,最难时有人相助,遇坑也能迅速爬出,一帮人齐心协力变得更好,这是种幸运,也没什么可后悔的。”
面对AI的发展,李想认为,在AI面前所有的人性都应被保留,无论好坏,因为一切人性都是文化、生命、性格、能力的特质,也是人类真正的生命力所在。
从使用增程电动和5C超充技术解决电池成本高、充电难、充电慢的问题,到自研汽车操作系统攻克传统汽车操作系统性能差、开发缓慢、芯片匹配周期长等挑战,理想汽车始终以技术创新解决行业无法解决的问题。自研VLA时,理想汽车更是踏入了人工智能的无人区。当前,辅助驾驶走到了新的十字路口上,理想汽车将不断挑战成长的极限,持续为行业和用户创造价值。
● Agent(智能体)应该怎么定价?
李想表示,我们雇用人类费用的几分之一,至于几分之一最后还是看把成本都算出来以后,我觉得比如说我一个月,我雇一个司机,1万块钱,我是否愿意?2千到3千雇佣一个司机。我觉得这个其实是一个,可能是一个比较重要的一个判断,当然它也会带来其他商业模式的不同。比如说你花2千到3千块钱雇佣一个司机,那可能你对车而言,你可能也不需要付保险费了,保险费也包在这里边了,保险的费用就财产的保险,这个财产险的费用也包含在里边了。也可能一定的这种,因为它可能会自动去充电,可能一定的充电的金额,对应一定里程的充电金额也放在里面了。所以可能到最后算下来,还可能是个更划算的一个事情。
● 以下是实录内容:
1. 距离上次的AI talk过去了130天,你最大的进步是什么?你有成为一个更智能的李想吗?
我觉得这130天我觉得我更高兴看到的是整个中国的进步,对吧?我觉得包括DeepSeek,包括千问在内的,可以让中国无论是基座模型,还是reasoning推理模型,还是后边的多模态,已经跟美国的距离基本上拉近了,或者基本上在一个水平线上了。而且中国的企业做出来这些模型效率也更高,无论是在预训练上,在训练的层面,还是在后边的整个推理层面,我们做了很多的深层的工程的改造。我觉得也让整个的中国的人工智能领域更有信心。也包含后边我看到一些比较惊喜的,在Agent(智能体)上面的一些突破,无论是Manus还是这个还是Genspark,我觉得其实这些方面做的都非常的好。
嗯,所以我说这个其实是非常惊喜的,那如果从我们自己个人而言,这也树立了我们把 AI 做得更好的这个信心。今天大家在讲语言模型,但我还是认为语言模型只是世界的一个重要的组成部分,但并不是全部,我们要想去理解物理世界,我们要想让一个终端或者一个机器人能够在物理世界和数字世界里运行,其实要做的工作还有非常多。我觉得这个其实是让我们也更加坚信,这条路走下去是对的。
2. 那你有变成一个更智能的李想吗?
我觉得没有那么大的变化。如果从实际的角度而言,人工智能发展这么好,但我每天工作时间并没有减少,还是在增加。
3. 是啊,这是为什么?
大部分人在使用,或者说我见到的几乎所有人,其实还是在把它当成一个信息工具来使用。那如果是信息工具的话,其实AI作为一个信息工具不是完美的,因为它最后一定要给你个next token(下个词元),一定要给你一个结果。而且大家今天使用的时候会先点上联网搜索,先去通过Rag(检索增强生成)联网搜索一些索引信息。但往往其实索引的信息源,就已经失真和不准确了,所以最后推理的过程,(虽然)很认真地在做推理,但是你明显都看到这个过程和结果已经开始有问题了。所以某种程度而言,如果我们不对这套机制进行一个改造的话,它某种程度仍然是在做熵增,在增加大量的无效信息、无效结果、无效结论。
我觉得这是一个很大的挑战,我就在思考一个问题,还是要站在真正用户价值的角度,如果大家在拼命地使用AI,大家在为AI做投资,但是我的工作时长并没有减少,我的工作结果也没有变好,那这个问题到底在哪里?所以这也是过去几个月我跟很多人在聊,在思考,我们内部在讨论非常多的一个问题。我觉得很多时候不要把东西缠绕到一起,我们可以先做一个分类,因为人类历史上也会有类似这些的分类。今天,通过一个对话的方式,无论文本多么长,其实它都是个信息工具,我觉得信息工具对大家而言更重要的其实是参考作用。
再往下,AI变好了以后,它会变成一些辅助工具。比如我们今天做的辅助驾驶,大家在车上用人工智能的语音方式来进行导航,来查找美团,来调取音乐,它会让我们的效率更高,但它仍然离不开我们。所以这时候,这种角色比较像什么呢?它确实比原来的使用体验会更好了,但它是个辅助的一个工具。
我觉得什么时候才能真正改变我们的工作的成果以及减少我们的工作时长,我觉得它必须变成生产工具。我自己认为Agent(智能体)最重要的评判条件是它是否是个生产工具、它是否真正能替代我去完成专业的工作、它是否真的在产生有效的生产力、它是否真的在解决我工作中那最重要的8小时的时间。对,我觉得这个是我接下来对Agent(智能体)最重要的衡量,也是我觉得Agent(智能体)的意义所在。
4. 这是你对于工具的三个分级,信息工具、辅助工具和生产工具。
对,我觉得人工智能变成生产工具,然后才是真正人工智能爆发的时刻。
5. 所以最过去130天其实最大的变化是外部的环境。
对,国际环境在发生重大的变化。然后技术也在发生变化,但技术最大的变化还是中国在人工智能方面带来的变化。美国的变化反而没那么大。
6. 你从DeepSeek身上学到了什么?
我觉得DeepSeek我能学到最好的一个方式是DeepSeek运用了人类的最佳实践,它极简的运用了人的最佳实践。比如说其实他在做DeepSeek V3的时候,其实V3是一个MoE(混合专家模型)的,671B的一个模型。我觉得MoE(混合专家模型)是个非常好的架构。它相当于把一堆专家组合在一起,然后每一个是一个专家能力。它做这个专家能力是怎么来构建的?其实挺明显的,就当我们想去构建能力的时候,DeepSeek给你展示了一个最佳实践,第一步一定要先搞研究。我觉得这是非常重要的。就是任何的时候,当我们想去改变能力和提升能力的时候,第一步一定是搞研究,搞完研究以后其实才搞研发。然后搞完研发以后,我觉得第三步是要把能力表达出来。然后第四步是能力变成业务的价值。
这四个步骤是个极简的人类最佳实践,但我们经常做着就忘掉了,看到什么东西就直接去启动研发,而没有去搞研究。我们自己也很受益,其实无论我们是在端到端和VLM(视觉语言模型)上,还是今天做VLA(视觉语言行动模型)的时候,我们的研究团队其实表现得非常好。
包括你可以看国外的像李飞飞,其实她在引用辅助驾驶的时候,也经常会引用我们的关于辅助驾驶方面的这些研究的论文。那我觉得这个其实挺重要。那研究跑通了以后,研发效率会变得非常的高。但是研发又非常在意价值,他能够把价值表达出来,然后变成业务,那我觉得这是一个很重要的过程。
7. 我很好奇在就是DeepSeek全球爆火的时候,你这个春节是怎么过的?
春节过得挺好的,还带着孩子去看哪吒2。那其实我印象应该是1月20号然后DeepSeek R1上线的,然后到后边开源,我们也在对DeepSeek做了很多的这个整个的研究,就是我们也在研究DeepSeek很多东西为什么做得好。包括整个的训练和推理的效率,也包括这些一个MoE(混合专家模型)模型部署上去对内存占用的这些挑战。
其实我们自己已经开始在芯片上来写FP8(8 位浮点数格式)的整个的工程的优化了。因为我们自己有编译团队。那比较有意思的一点是,我没有上来敢跟模型团队直接聊,我先跟谢炎(理想汽车CTO)聊了一下,我说我们本身要做VLA(视觉语言行动模型),然后VLA一个很重要的计划是到今年的这个9月份的时候能够做一个非常好的语言模型出来,才能再往下去训练VLA(视觉语言行动模型)。
但是今天看的话说我们自己预测的我们到9月份做的模型,能力是否比DeepSeek V3加R1更强?我说至少我听到你们说的东西,我说不如那个强,对吧?而且它开源开得如此的彻底。然后我们是否应该基于它的开源,去做我们的 VLA(视觉语言行动模型)的L(language 语言)的部分,并且我们基于这个L(language 语言)的部分,比如说其实我在理想同学用的话可能就是个VL(视觉和语言),它没有A(action 行动),对吧?就把vision(视觉)和language(语言)其实放在一起,包括要做成端到端的,然后语音的这样的一个方式。
我觉得我们原来本来应该是9月份以后才能做这些工作,我们是否应该站在巨人的肩膀上就去做了?然后谢炎(理想汽车CTO)说肯定应该这么做。
那时候我们比较担心陈伟(理想汽车基座模型负责人)会怎么想,对吧?因为这个压力是挺大的。然后我们发现陈伟比我们还坚决。他说这个会加速我们往下一步的这个工作,我们应该以这个为基础,加速VLA(视觉语言行动模型),加速端到端的多模态这样的一个进展,然后研究团队也都在研究我们如何在芯片上也跑到同样的训练和推理的效率,大家都在同步地进行工作。
我跟谢炎(理想汽车CTO)打的最多的电话,我们还有一个专门的人工智能的战略小组,我们就在里边不停地聊,发现大家并不纠结,因为我们知道我们家企业的基因,还是要为用户推出最好的产品和服务。
整个拥抱DeepSeek的这个过程比我们想象得要快,所以这是今天其实我们VLA(视觉语言行动模型)推出的速度也会比原来的预期的要快。
8. 你怎么看梁文锋(DeepSeek创始人)啊?你觉得他是怎么找到你说的这个人类最佳实践呢?
我只跟他聊过一次,是去年的9月份,印象特别深,应该是ChatGPT的o1发布前的几天。我自己个人感觉,两个特点,第一他是个特别自律的人。明显你跟他沟通的过程中其实能够看到,第二个是我个人认为其实他是会在全世界范围之内去研究和学习最佳实践和最好的方法论的这样一个人。
9. 怎么理解自律?
我觉得自律的最大特点就是能够坚守这些你相信的东西,能够坚守这些最佳实践,能跟人性的一些懒惰、走捷径,这些方面做对抗。
我觉得让我们更加敬佩他,包括我们的开源。我觉得DeepSeek的出现对我们加速做VLA(视觉语言行动模型)是巨大的帮助。过去我们打算要到今年年底才能做出一个像样的,能够满足我们需求的语言模型,但DeepSeek一开源,我们就加速了9个月的时间,所以给我们带来了巨大的收益和帮助,我们受到了那么大的帮助,所以我们在想我们能对社会做点什么贡献,所以我们就把自研的整车操作系统理想星环OS给开源了。没有大家想的那么复杂,我自己内心,包括谢炎(理想汽车CTO)的内心就是DeepSeek给我们带来那么大的帮助,我们应该给对社会贡献点什么。不让行业那么卷。说白了纯粹是感谢DeepSeek。
10. 自研了四年吗?
对,那真的是做得好,明显得好。如果你做的不好的东西出去开源不就丢人吗?
11. 所以这是一种情怀,而不是一个公司战略,对吗?
不是公司战略。
12. 这很有意思。 DeepSeek感觉带来了更多的善良和善意。
是的。
13. 你有没有想过DeepSeek为什么不是你做的?
我觉得我只能做最好的自己。我的人生经历,我进入了汽车行业,我做汽车的网站,我其实一直在自己的长板的延长线上继续来做。从最开始做个人网站,到做产品的IT网站,到做汽车网站,最后希望能够改变汽车行业,推出更好的产品,汽车叠加下一代的信息技术。这个其实是我的一个延长线。他(梁文锋 DeepSeek创始人)的延长线其实就是从人工智能开始的,他在浙大学的就是人工智能,那是他的延长线,本身我也相信,量化交易的公司,对于整个模型的能力,对模型的理解,对于本身工程的能力,不会比任何互联网公司差,甚至可能还要更强。
14. 在春节之后很多人都来问我这个问题,就说理想还做基座模型。既然都有DeepSeek,为什么还要做基座模型?
因为我们的业务,意味着其实我们并不是说只是做好语言模型就够了,我们车上其实要有对话,然后又有多模态,那这个仍然其实需要我们自己去训练一个根据我们自己需要的一个基座模型,包括我要去做VLA(视觉语言行动模型),因为这个VLA里边,哪怕V(vision 视觉)和L(language 语言)都和正常的是不一样的,就是这个我需要3D的vision(视觉),还有高清的2D的vision(视觉)的,然后token(词元)要用预训练,必须得涉及到更专业的车领域的语义语料,交通领域的语义语料,我们面向的家庭用户的语义语料,然后来做训练,还有也包含其实还有很多的时候,一个重要的是说大家在做VLA(视觉语言行动模型)训练的时候,很多时候在做基座的时候说我要把VL(视觉和语言)也要连在一起,然后把VL(视觉和语言)的组合语料放进去,那这些无论是OpenAI还是DeepSeek,它都没有这样的数据,它也没有这样的场景和需求,也不去解决这样的问题,那只能我自己来做了。只是好处是说VLA(视觉语言行动模型)里边的这个language(语言),我可以站在巨人的肩膀上,但是它只是我其中的一部分。
15. 所以一方面是拥抱了DeepSeek,另一方面你们把基座模型的团队还拆出去了,并且加大了投入,是吗?
我觉得首先训练卡比他们今年的预期我们应该多买了3倍。
16. 你要训多大的模型?
并不是一个固定的,就是我们现在的话,做出来的一个不同的版本,比如说我们给理想同学用的,会是一个300B的模型,就大概是个3000亿(参数)的一个模型,我们给辅助驾驶运用的VLA(视觉语言行动模型)的,其实VL(视觉和语言)的部分,是个32B的模型。那包含其实我们真正工作中用的也会去用那个3000亿的这个模型,就大概现在是这样的两个版本。
17. 你现在觉得给基座模型打多少分?你希望2025年提升到多少?
结果还没呈现呢。这才几月啊?我觉得没有什么捷径,我觉得还是我认为其实虽然我们借用了一些能力,但是你没有办法直接去吃第十个包子。如果你规则算法都做不好,你根本不知道怎么去做端到端,如果你端到端没有做到一个非常极致的水平,你连VLA(视觉语言行动模型)怎么去训练都不知道。
18. 那今年2月5号,也就是春节之后,你们的第一个AI的例会,你说DeepSeek更像是Linux推出,而你们要去追逐安卓时刻,你们准备怎么去争夺安卓时刻?
这个东西是一个比喻,比如说安卓其实是基于Linux开发出来的一个手机操作系统。那我们以语言作为基础,我们的VLA(视觉语言行动模型)就是把vision(视觉)这部分做成最强的,然后把action(行动)也做好,然后借助了L(language),就是语言的这个能力。那其实我觉得VLA(视觉语言行动模型)就比较像在汽车或者交通领域的更重要的一个大模型或者操作系统,我觉得这是我们的机会所在。
19. 我们来聊聊你们最近在做的VLA(视觉语言行动模型)的架构。今天的辅助驾驶其实走到了一个新的十字路口上,有的人说甚至觉得辅助驾驶应该被叫停。你怎么想?
我觉着我们这么多年,从规则算法,做到了端到端+VLM,然后今天真正的迈入到了VLA(视觉语言行动模型)的阶段,我觉得比较像什么?比较像黎明前的黑暗吧。我觉得黎明马上就要来了。但是会先经历一个黑暗的过程,之所以有黑暗是因为要迎来黎明。我觉得这是今天这么一个阶段。
正因为辅助驾驶行业遇到了问题,我最喜欢、最开心的方式,就是去解决行业解决不了的问题,我觉得这是我们自己坚决相信的。就跟我们推出增程,就是为了解决电池成本高、充电难的问题。我们推出5C也是为了解决充电慢、等待时间长这样的问题。我们愿意去解决各种行业遇到的问题,包括我们做操作系统,也是因为过去的时候,传统的那种车控和智控的操作系统性能差,开发缓慢,芯片匹配周期长的这些问题。我觉得这些问题(存在)恰恰是我们的价值所在。
20. 为什么人类一定需要辅助驾驶呢?为什么科技不能就此止步呢?
只要人类会雇佣专业司机。我觉得人工智能技术其实就是把类似这样的一些功能和角色,去变成真正的生产力、生产工具,然后去进行替代。
21. 什么是VLA(视觉语言行动模型)?你能从用户语言来讲,不要用技术语言。
我觉得VLA(视觉语言行动模型)我们定义的一个方式是叫,因为VLA(视觉语言行动模型)机器人领域也在讲,对于我们理想汽车而言,VLA是一个司机大模型,像人类的司机一样去工作的一个模型。那我觉得到达VLA(司机大模型)它不是一个突变的过程,其实它是一个进化的过程。
经历了三个阶段。我觉得第一个阶段是我们从2021年开始,通过机器学习的感知,配合后边的规则算法,包括规划、控制、执行这些规则算法分段式的。我觉得第一个阶段比较像什么?比较像昆虫动物的智能。它有既定的规则,还要依赖于高精地图,就比较像蚂蚁的行动和完成任务的一个方式。
22. 它能理解的世界也很有限。
非常之有限,我觉得这是第一个阶段,而且效率比较低,也是个很麻烦的事情。它(规则算法)就这样一个规模的脑子,包括它的整个模型规模大概就只有几百万的一个参数,它就那么小的一个脑子,你让它去完成复杂的事情,几乎不可能的。所以你就不停地限定、限定,几乎把它做成了一个有轨交通的方式。这跟蚂蚁非常相似。
第二个阶段就是我们从2023年开始搞研究,2024年推出的端到端。端到端比较像什么呢?端到端比较像哺动物的智能,比如像马戏团里的一些动物,向人类学习怎么骑自行车。它学了人类的这些行为,人类怎么去做出各种的行为的开车。但是它对物理世界并不理解,它只是看到了一个什么样的三维的图像,知道自身的速度,并给出了一个什么样的轨迹,所以它应付大部分的泛化是没有问题的,去面对它从来没有学到的、特别复杂的,其实就会遇到问题。所以这时候我们也会配合,视觉语言模型 VLM,然后放进来。但是我们能够用到的视觉语言模型这些开源的,用在交通上的能力都非常的有限,所以只能起到一些非常有限的辅助的一个作用。我觉得第二个阶段就是哺乳动物智能运作的一个方式。
我觉得到了VLA(司机大模型),就是完全人类的运作方式了。它会像人类一样的,用3D的vision(视觉)和2D的组合,去看整个真实的物理世界,也包含它能够去看懂导航软件,这样的软件是怎么在运行的,而不是像VLM(视觉语言模型)那样只能看到一张图片。另外一方面,它有自己的整个脑系统,不但要看到物理世界,还能够理解这个物理世界。它有它的language(语言),然后它也有它的CoT(思维链),有推理的一个能力。我觉得第三个,它能够像人类一样的,真正地去执行这样的行动。我觉得这个其实是VLA(视觉语言行动模型)产生的一个,放在我们的汽车,辅助驾驶领域,我们把它称之为VLA的司机大模型。
23. 你也可以讲讲VLA(司机大模型)这三个它的关系是什么,以及怎么训的。
我还是讲一下怎么训的,并把这个关系表达清楚了。我觉得第一个其实是训练的环节。训练环节第一个部分是什么呢?要训出来一个VL(视觉和语言)的基座,就vision(视觉)和language(语言)的基座。我们目前在训的,当前的这个版本,是一个32B的,就是320亿云端的一个基座模型,所以先训这个。这里边的话,跟过去的时候这些语言模型的差异在于什么呢?第一在于我要放入更多vision(视觉)的语料,放入vision(视觉)的token(词元)。vision(视觉)里面包含两个部分,一部分是3D上的vision(视觉),物理世界3D的 vision(视觉) 要放进去,第二个是高清的、2D的vision(视觉)。因为今天的话,大家看到各种多模态的开源 VLM(视觉语言模型) 里边,它整个2D vision(视觉)的清晰度太低,所以看的距离不够。那我们放进去的基本上图像分辨率提升了10倍。我觉得这是非常之重要的。这是一个部分,是vision(视觉)的token(词元)和语料。
第二个是要放入language(语言),跟交通、驾驶相关的足够多的这方面的语料。这是language(语言)的部分。
第三个还有一个很重要的,是大家可能容易忽略的,就我们必须放入很多VL(视觉和语言)联合的语料,就是三维图像和对世界的理解语义要同时产生的。比如我举一个例子,我要把导航的地图和车辆对导航地图的理解一起放进去。
24. 这是原始的数据吗?
没有原始的数据。
25. 这是你们自己的?
比如我要放入一个,看到导航以后人类做了一个什么判断,然后这个判断我们的车辆是怎么记录的。把这个语料放进去。其实整个 VL (视觉和语言)基座模型训练的时候,包含了三个部分,数据是vision(视觉)的数据,language(语言)的数据和VL(视觉和语言)联合的数据。然后它形成一个VL(视觉和语言)的一个基座。同时我要把这个基座干什么呢?我要蒸馏下来,然后变成一个 3.2B 端侧的蒸馏模型。因为我要保证它运行速度足够得快,然后无论是两个Orin-X还是Thor-U上能够流畅地运行。蒸馏下来是一个3.2B,8个专家组成的MoE(混合专家模型)模型。如果直接跑3.2B一个完整模型的话,双Orin-X和Thor-U的帧率是达不到的,token(词元)的整个输出率是达不到的这是第一个步骤,这是预训练的环节。
第二个步骤是什么?第二个步骤是做后训练。后训练是什么呢?后训练其实是我把它变成VLA(司机大模型)。我要把action(行动)放进来。action(行动)的部分后训练什么呢?其实仍然是一种模仿学习。特别像你去驾校学开车,就相当于我训练VLA(司机大模型),把它组合成一个VLA(司机大模型)的端到端的一个方式,这是第二个部分。这个时候大概模型规模就会从3.2B大概扩大到接近4B,大概这么一个规模。
同时,它一方面是个VLA(司机大模型),能够直接从视觉,到理解,到最后的输出。但是我们的CoT(思维链)就会很短,我不会做超长的CoT(思维链),我的CoT(思维链)链条一般两步到三步,我不会再做更多的,否则延时太长,没有办法满足交通或者机器人的安全。另外当我 action(行动)做完以后,我还会做一个diffusion(扩散模型)的预测,就是下边会发生什么样的时长的一个场景。这个主要根据性能会做出来4到8秒的一个diffusion(扩散模型)的轨迹和环境的预测。我觉得这是第二个部分,比较像人去驾校学开车这样的一个环节。
第三个部分是什么?是强化,是要做强化的训练,比较像人到社会上开车了。所以强化我们分成两个部分,第一个部分先做RLHF(基于人类反馈的强化学习学习),带有人类反馈的,所以我们有很多人类数据。就是当它这样的话,人类就会接管,当它那样的话,人类不会接管。包括人类的一些习惯,所以拿这块来做一个带有人类反馈的强化训练。包括我们安全的对齐都是在这个强化的环节完成的,你除了要遵守交通规则以外,你要遵守比如中国的,大家的驾驶习惯。你的开车习惯能够融入社会,首先要开得跟整个社会环境上的大家一样好,不能给别人带来麻烦,对吧?而不是个新手在路上的时候,你变成一个阻碍。第二个部分是纯粹的RL(强化学习),是(拿RL模型放到)我们的世界模型来做训练。这块儿的目的什么呢?就是开得比人类更好。这块儿的话,我们中间不会给人类的反馈,只会给一个结果,就是从a点到b点要开过去。但是会有三类的训练要求,第一个是我们可以通过G 值(加速度数值)来判断它的舒适性,给舒适性的反馈。第二个是做碰撞的反馈,它碰撞了这个强化就没有完成。第三个是交通规则的反馈,如果它违反交通规则就没有完成。所以是舒适、交通规则和碰撞事故,让它自己来做整个强化的训练。当这三个步骤完成了以后,VLA(司机大模型)能够跑在车端的模型其实就产生了。
大概是这么一个方式。跟人非常像,先学习世界、交通和人类的这些知识,这是预训练的环节。后训练的环节相当于去驾校,认真地去学开车。第三个环节相当于到社会上来开车,也是我们训练的一个过程,要通过人类的RLHF(基于人类反馈的强化学习学习)跟人类做对齐,然后跟社会的环境来对齐。另外一方面,通过纯RL(强化学习)的强化,以及我们自己在世界模型里生成的数据拿它做强化训练,从而开得比人类更好,能够解决更复杂的问题,或者说,比人类的平均值要好得多,大概是这么一个过程。
这还没有完,这时有了VLA(司机大模型)。但人类是怎么跟VLA(司机大模型)工作的时候,其实我要搭建一个司机的Agent(智能体)。司机的Agent(智能体)是什么呢?是人类以自然语言的方式,就是你跟一个司机怎么说话,你跟一个正常的驾驶员,假设你有男朋友,你男朋友在开车,你怎么跟他说,你就怎么跟司机Agent来说。或者一个代驾,你怎么跟他说就说了。这里边的话,如果是一些短指令,通用的短指令VLA(司机大模型)直接就处理了,不需要再经过云端。如果是一些复杂的指令,其实先要到云端的32B那里,VL(视觉和语言)处理完以后,(因为它理解交通的一切) ,整个交给VLA(司机大模型)来进行处理,大概这么运行的一个过程。
说白了它最后的一个好处是说它能够像人类司机一样去理解物理世界,能够像人类司机一样去开车,去处理复杂的问题,也能像人类司机一样跟其他人类进行沟通。这是最后我们交付到用户那里的产品。
26. 这其中这些步骤里面哪个是最难的呀?
没法预测,我觉得没有办法预测。因为这些东西我们前面没有任何人走过这条路。DeepSeek也没走过这条路,然后OpenAI也没有走过这条路,谷歌、Waymo也没有走过这条路。我们其实走的是一个无人区。
27. 那你们为什么就bet(下注),为什么就押注了这条路呢?因为我最近做了一个技术播客,就是讲 VLA(视觉语言行动模型),我就感觉这个技术路线还没有收敛。为什么你们觉得你们可以?
我觉得交通领域应该是VLA(视觉语言行动模型)最早实现的。因为一是规则清楚,包括你说做强化是非常容易的。按照每个来讲,交通的世界,一个车会跑到哪里?其实是有的,虽然它很复杂,但是确定的,对吧?车又不能开到水里,车也不能开到空中,车只能开到有路的地方,所以它是复杂但具备确定性,对吧?我觉得这是一点。
第二其实车的控制,其实车是个3 DoF(自由度),车有三个自由度,对吧?左右是一个自由度,前后是个自由度,某种程度上还有一点轻微的旋转,是个自由度,对吧?甚至辅助驾驶某种程度就控制两个多,撑死就三个自由度。如果这个都不能实现,机器人的上来就是40多个自由度,那个挑战就更大了。
所以这时候,我们进行模仿学习是特别容易的。所以车看到的就是人看到的,人操作的其实就是车操作的,所以我觉得第二个它能做特别好的模仿学习。
第三个它还能做特别好的强化,对吧?就是大家在使用的过程中不满意的时候就接管了,其实这个就是跟人类没有对齐,对吧?它就告诉你不应该这么做,以及告诉你该怎么做,这是非常清晰的指标,对吧?包含哪怕其实不做,包括后边我不做人类监督,我靠生成数据来做训练的时候也非常清晰。因为什么是舒适,G值(加速度数值)是可以表达的。什么是符合交通规则是能够表达出来的,交通规则是个清晰的规则。第三个是否发生碰撞是可以表达的。如果它很舒适,又不违反交通规则,然后第三个,又没有发生碰撞,a点到b点它就会开得越来越好。我觉得它是一个最好的 VLA(视觉语言行动模型)的,第一个重要的实验场。
28. VLA(视觉语言行动模型)还有包括VL,它的哪个数据获取难度是最大的?
vision(视觉)和action(行动)的数据是因为车,我们装满传感器是可以收集物理世界数据的,还有人在车上开车是我们可以收集到action(行动)的数据的,这两个其实是最难的,而且也没有任何公司可以替代。
29. 其他的车企不行吗?其他车企也可以啊。
但是我觉得其他车企你有没有建立整个基座模型的、预训练的能力,后训练的能力,以及后边强化的能力,因为强化还需要世界模型的能力,我觉得这是不一样的,对吧?包括我刚才讲的说,其实本身我们怎么去解决很多的问题,比如说我讲一个问题,第一个如何提升能力刚才讲清楚了,第二个是说我如何向人类安全对齐,我如果让它像一个职业司机一样足够的安全,足够的舒适,所以我们本身能够要建立强化学习的体系,对吧?我们的RLHF(基于人类反馈的强化学习学习)是很重要的,我们其实有一个成规模的团队了。
因为很多时候一家公司如果模型能力不强的时候,根本不知道怎么去做对齐,对吧?因为你模型能力强的时候,你才发现对齐的重要性,你才知道Ilya(伊尔亚·苏茨克维,OpenAI联合创始人)原来想得那么远。Ilya把很多事情想得那么远。
30. 怎么说?
因为模型能力越强,也就意味着它胡来的可能性越高,就跟一个人能力越强,其实我要需要他的职业性越强。公司规模越大,越需要职业性。公司小时候不需要职业性,对吧?然后因为一个人能力强的时候,他干好事也很强,他干坏事能力也很强,所以这时候就需要职业性来约束。
比如举个例子,我不可能雇用一个职业赛车手来每天给我开车,但我要雇一个职业司机,所以他除了开车能力不错以外,他有非常强的职业性,保证舒适、保证安全,保证像人类开车的,价值观能够对齐,所以这个其实是很重要的工作,我们就能做得非常好。
我觉得第三个还有最大的一个挑战,就是模型是一个黑盒子。怎么解决?所以我们做了世界模型,对吧?然后我们把VLA(司机大模型)放在世界模型里,一个交通世界模型,它是一个如果不跟你说的话,你看的跟一个真实世界是一样的。
31. 模型是一个黑盒,怎么解决它?
我们很早的时候在做端到端的时候就意识到,然后模型的黑盒子问题必须得一起解决。所以我们当时然后做的世界模型,或者说是叫交通世界模型,就是我们用重建加生成的一个方式,借助我们的数据,然后来构建了一个真的、交通的一个物理世界,包含有所有的参与者、参与物,所有的固定的这些物体,我觉得这是非常重要的。
所以我们就可以让无论是最开始的这个端到端还是今天的VLA(司机大模型),在模型里边进行考试,它会模拟真实的交通的参与,包括真实的这些城市,来进行考试,而且考试有点像我刚才,跟我刚才讲的然后强化训练其实非常类似。它考什么呢?考a点到b点。然后考什么呢?考这个它的舒适性、它的交通的合规性和它的安全性。
我觉得这是我们要一直在做的这方面的一个工作。那这时候就能够非常好的还原了,而且基于这样的一个 我们的模型或者真实的物理世界的仿真的能力。我们还把整个的验证的成本大幅的下降,过去的时候我们靠人类司机来做一万公里的验证,这个每一万公里的成本大概在17万到18万人民币,算上车的各种费用,今天的话我们大概只需要花4000多块钱人民币,就每一万公里。那这4000多块钱基本上都是算力为主的成本,而且解决问题的效率还提升的多得多。
为什么呢?比如说其实今天的时候,我们要解决一个问题的时候,这个问题产生的时候,是我们自身的车辆跟多个交通参与物在不同的位置上,还有不同的道路上,出现了一个问题,但是如果你靠人类去验证我有没有解决这个问题?要把这几个交通参与物,相同的位置、相同的速度,其实凑在一起,几乎没有可能,所以只能模糊的验证。但今天,然后我们有了世界模型以后,我们可以非常准确地验证。我们修正以后的模型有没有解决这方面的问题,可以100%还原一模一样的、真实的场景,在世界模型里,进行验证。
32. 我们在说司机Agent(智能体)的时候,它其实是涉及到action(行动)进入了外部世界,进入了物理世界。那怎么解决安全问题呢?这个非常重要。
所以我们其实从去年年底成立了超级对齐的团队,比如说模型能力很强,但不遵守交通规则,然后模型能力很强,但模型经常去加塞,去在交通拥堵中去加塞,对吧?它做出来一些让人类坐在车上感觉到不安全的行为,对吧?那我觉得这个其实,至于是否让它碰撞,是模型能力的问题,是否产生这些问题,其实是这个价值观,是这个模型要去做的对齐的这方面的。
所以这也是刚才我讲的,就是说我们要在做强化,训练的第一个环节,是我们必须把人类的这些规则、习俗、驾驶习惯,对于很多东西的判断,其实变成它整个的要训练的反馈。我觉得这个其实我们必须要做的,所以我们有一个挺大规模的,我们有一个100多人的超级对齐团队。
因为你能力越强、责任越大,我觉得这是责任,或者你还可以用另外一种方式,我们把超级对齐如果拿一个人举例子的话,模型相当于是这个人的专业能力,然后超级对齐,是这个人的职业性。
是他的综合职业性。然后司机Agent(智能体),包括司机背后的这种记忆能力是如何和使用者建立信任的,所以我们比如说我招一个员工,或者我是否认可一个员工,同样是看他三个,第一个,是看他的专业能力,然后第二是看他的职业性,然后我觉得第三个是看他其实对别人理解和构建信任的能力,比如这三个都很好,我觉得就是最卓越的员工。
33. 超级对齐,是什么时候开始做的呀?
是我们做到了1000万Clips(视频片段)以后开始来做的,因为我发现这时候怎么去有效的运用模型的能力就很关键了,比如就举个例子,它经常一拥堵就去加塞,然后这个包括它做的很多行为,虽然效率很高,但是人坐在车上是很不舒服的,因为跟人类的一些处理方式或者跟正常人类处理方式不一样,它可能学到了一些不该学的司机的行为。
34. 我听你说我有一个感受,就是刚开始大模型火的时候,大家都说创业要做AI是造人,你们这个其实就是在造司机。
对,是的。我一个很重要的感觉就是,我们只有让它变成一个真正的司机,它才是一个生产力工具,不只是一个辅助工具,对吧?今天L2,L2+其实是个辅助工具,辅助工具其实还需要人大量的参与。但是我觉得如果想变成一个生产工具,我个人认为并不会出现通用的 Agent(智能体),而是每个专业领域做专业的Agent(智能体)。就我刚才讲的一样,其实要想开好车,它所有的vision(视觉)的语料, language(语言)的语料,和action(行动)其实都是不一样的。你想做好一个医生,你想做好一个律师,其实背后的整个思维链,所有的数据其实都是完全不同的。所以我觉得这是判断。
另外一方面,如果你想变成一个生产工具,这时候就会和专业的人进行比较,比如说你是否比一个专业的司机开得更好?你是否比一个专业的医生表现得更好?你是否比一个专业的律师表现得更好?你是否比一个专业的程序员表现得更好?因为你会影响到它的整个生产,它的整个业绩,它的工作结果,甚至它的财产和生命安全。我觉得这是我们看到的这个终点,所以这也是为什么我们必须很耐心、很深入地去解决,哪怕一个司机的问题。它并不可能通过一个泛化的大基座模型,或者一个大语言模型,这些东西都能实现了,我觉得这是不现实。
35. 什么是一个好的司机大模型的北极星指标(终极指标)?
我觉得还是把司机大模型和Agent(智能体)放在一起,这才是一个真正用户能够使用的一个产品,那如果是一个,我觉得如果是一个司机大模型,好的,我觉得跟人的判断是一样,就我判断一个司机,就我们家雇用了一个司机,第一是他开车水平好不好?其实是他模型能力强不强?第二个还是说他是否职业?然后我觉得那他是否职业,很重要的一点其实就是我们的超级对齐这方面的工作,包括强化训练,是否做得足够的好?然后我觉得第三个,是否安全,对吧?、我觉得第三个是他跟我之间的信任的关系,我是跟他说什么他都听不明白?还是我说上半句他就知道下半句,甚至我很多东西不说,他已经对我的记忆里边都可以独自去完成了。
其实就我们如何去通过Agent(智能体)和记忆来构建一个更好的信任的一个关系和理解的一个关系。如果我什么都不说,他都知道我要干什么了,这个司机要同时又满足了他开车不错,又很职业,他又对我特别了解,特别理解,我就会一直雇佣他。对,我觉得最后我们对司机的Agent(智能体),对整个的这一个司机大模型,司机Agent(智能体)的判断也是一样的。我觉得以后所有的AI的或者Agent(智能体)的判断都应该是这样的,它的专业能力,它的职业能力,然后以及它给你构建信任的这个能力。
36. 你觉得这个Agent(智能体)应该怎么定价呢?
我们雇用人类费用的几分之一,至于几分之一最后还是看把成本都算出来以后,我觉得比如说我一个月,我雇一个司机,1万块钱,我是否愿意?2千到3千雇佣一个司机。然后我觉得这个其实是一个,可能是一个比较重要的一个判断,当然它也会带来其他商业模式的不同。比如说你花2千到3千块钱雇佣一个司机,那可能你对车而言,你可能也不需要付保险费了,保险费也包在这里边了,保险的费用就财产的保险,这个财产险的费用也包含在里边了。也可能一定的这种,因为它可能会自动去充电,可能一定的充电的金额,对应一定里程的充电金额也放在里面了。所以可能到最后算下来,还可能是个更划算的一个事情。
37. 我们刚刚在聊 VLA(视觉语言行动模型) 嘛,那是不是意味着端到端才出来一年,你们就要换架构了?这个是不是太快了?去年端到端就被放弃了吗?
我觉得也没有放弃,还是我刚才讲的,其实端到端是VLA(视觉语言行动模型)的一部分基础。如果你把端到端想象成一个一个具身智能执行的环节,那它其实就是我们VLA(视觉语言行动模型)的A(action 行动)的部分,就我A(action 行动)的部分其实仍然是在拿这个数据在做训练的。其实它就组成了我的A(action 行动)的部分了。只是我要多语言的部分,还要多更强的3D vision(视觉)和高清2D vision(视觉)的部分。
38. 有可能一步直达 VLA(视觉语言行动模型)吗?就比如说去年不推出端到端加VLM(视觉语言模型)那个版本,然后直接推 VLA,直接研发VLA。
没有可能,至少从我们自己的体验上其实没有可能。我说不太好听的话,就是没有办法直接吃第十个包子。虽然可能大家觉得第十个包子吃饱了,但前面每个包子其实都跳不过去。我觉得往往很多时候,如果大家不想做前面任何包子的积累,只想吃第十个包子,很多时候非常像练葵花宝典。我觉得今天包括DeepSeek的出现并不是练葵花宝典练出来的,过去的时候它很早就构建这种集群的能力去做这些链路、基建的优化,我觉得都是非常之重要的。所以才有了它的低成本和效率啊。所以我说其实我们特别喜欢讲这种,有一个人很聪明直接吃到了第十个包子,但现实中其实,至少今天这个社会整个的知识文明发展得越来越好了,不是胆大大于一切,我看不到什么捷径。包括今天很多企业做端到端都很吃力,因为在规则算法时候都没做好。
39. 但是大家就觉得李想才是摘第十个包子的人,因为你们做辅助驾驶的时间比别人晚。
但我们自研的时间并不短啊。我们从2021年,上地平线征程Journey3芯片的时候就开始做自研。然后我们研究做得也很扎实。我觉得中国的所有企业里边,关于辅助驾驶的论文我们应该是发表,以及被大的会议,大的社区录取和引用的其实应该也是最多的。我觉得这个阶段我们还是做的挺扎实。
因为我们是个用户导向的公司,我们认为技术是一种能力,所以我们更多的时候讲的是用户的价值,今天大家讲我们是冰箱、彩电、大沙发,对吧?但是背后的话,我们的这个冰箱、彩电、大沙发的智能化背后的基础,今天大家看仍然是非常强的,体验起来是完全不一样。
40. 背后的基础是什么?
就是大型软件的能力。我们后边很多能力其实还是很扎实的。比如举一个例子,就为什么今天大家做端到端和VLM(视觉语言模型)很难?是因为这个Orin芯片并不支持直接跑语言模型。我们是自己的编译团队,所以我们特别理解DeepSeek,一看就看明白了,比如它做FP8(8位浮点数格式)的优化,能够跑它的整个训练的一个架构。我们做相同的事情,我们直接然后是写了 Orin-X底层,因为英伟达没时间,我们自己写的底层(推理引擎),让它用 INT4量化的方式来跑 VLM(视觉语言模型)。那这跟谁(DeepSeek)做 FP8(8位浮点数格式) 的训练其实一个道理。包括今天的话,我们为什么能做到双Orin-X跟Thor-U 都能跑VLA(司机大模型),可能对很多团队是个非常大的挑战,为什么呢?因为我们自己有非常强的能力,我们有编译团队,然后我们有芯片的能力,然后我们有板子设计能力,有操作系统能力,所以我们是能够把两个 Orin-X带宽足够的大,它同样可以跑同等规模的VLA的模型。我觉得我们这方面的技术都是非常之扎实的。因为我自己还是认为,其实就是你规模小的时候无所谓,你规模大的时候基本功和能力永远是无法逾越的。
41. 所以什么样的corner case(长尾案例)是可能端到端加VLM(视觉语言模型)架构无法解决,而VLA(视觉语言行动模型)是可以解决的。能不能给大家举个例子。
我觉得有两个。过去的时候端到端有两个麻烦的问题。第一个问题是它对复杂东西的理解,比如这有一个复杂的修路,如果是规则算法可能就会撞上了,如果是端到端可能停下来,但它不知道该怎么干了。如果是VLA(司机大模型)就能轻松解决了,而且这些我不需要有真实的场景,甚至我可以直接生成,然后来数据来进行训练,对吧?因为它能够有理解能力了,它并不是只是看到一个景象,就做出一个结果。规则算法其实往往可能就会出现,遇到一个复杂路况,复杂的、没见过的,或者规则之外的它就会出现事故。如果是端到端的,它可能停下来,但它不知道该怎么办了,我们经常遇到修路状况,它在那不知道犹犹豫豫,不知道该怎么办,对吧?但是如果VLA(司机大模型),它其实就能够有效地去处理了,而且不需要通过海量的数据训练。哪怕最开始这个场景没有办法处理,但我保证三天之内相关的这种场景都能处理,因为我可以拿这东西来生成数据,生成让数据来进行训练。我觉得这是一方面。
另外一方面其实还有很难的一点是跟人沟通。今天端到端怎么做?就跟猴子一样,你影响不了它,对吧?比如说我们会经常遇到一个什么样的状况,就是在一条路上三条道,最右侧的车道是公交车道,然后又是限行,但是公交车道长久没有维护了,那个印刷已经不清楚了,所以它就会在那跑,虽然你可以通过一个调整说,回到中间车道,但它过一阵又跑到那条车道上去了。如果是人类有了Agent(智能体)以后,因为有了VLA(司机大模型)才有Agent(智能体)能跟VLA沟通,对吧?所以我可以跟一个Agent(智能体)讲说,接下来这条道路一直在中间行驶,直到它在导航的时候走了下一个。包含如果跟导航错失了以后,端到端就不知该怎么办了,但是VLA(司机大模型)在小区里可以漫游。在一个开放空间里,它可以先处理完以后,最后再跟导航调整以后的进行汇合,它跟人类完全一样的了。只是今天可能它作为一个人类,能力还没那么强,作为一个人类能力还有一个成长的过程,比如它今天像一个刚从驾校学完的新手司机,有可能是这么一个状况。
42. 今年都会是这个状态吗?
我觉得还是看整个训练的一个进度了。但它泛化能力是完全不在一个量级上了。
43. 你觉得VLA(视觉语言行动模型)是终极的架构吗,解决自动驾驶的?还会有下一代吗?会不会明年这个时候又是新的架构了呢?
我自己认为VLA(司机大模型)能够解决到全自动驾驶,但是VLA(司机大模型)是否是一个效率最高的方式?是否有效率更高的架构出现?我打个问号,我认为大概率还是会有的啊。因为VLA(司机大模型)还是基于Transformer这样子的,那Transformer是不是一个效率最高的一个架构,对吧?那我觉得这个其实后边不知道。
44. 它是现阶段效率最高的架构,在你看来?
我觉得它是能力最强的架构。对,因为现在能力差距太大了,就跟人类合格开车。今天这个辅助驾驶的这些规则算法、端到端跟人类差距还是太大了。对,然后那我觉得它是最接近人类的,甚至有机会超过人类能力的一种,就关于开车超越人类的一种方式。那它是不是效率最高的方式?其实是打个问号,因为它今天对算力的要求还是很高的。
45. VLA(司机大模型)跟最后可能形成的最终大统一模型的关系是什么呀?它是那个大统一吗?
我觉得还是会有一个效率的问题,对吧?我讲的意思是,其实我们虽然有模型,但我们从来不放弃工具,然后因为工具是增加确定性和提高效率的。我还是举一个挺清晰的一个例子,因为团队很多时候太想用模型解决一切问题,对吧?然后那这时候就会出现类似一个现象,比如我举一个例子,那今天当然VLA(司机大模型)会解决很好了,其实我们在使用 VLM在解决ETC时候并不好。
因为VLM(视觉语言模型)对于位置的判断是很糟糕的,所以它如果其实是两到三个ETC,然后我怎么进入其实非常容易判断,其实就是这个左中右。但如果像京承高速这样的机场高速那样的十几个ETC,它很多时候就不知道怎么处理了,就开始非常混乱了,因为它没有位置的判断的这个能力,我们团队太希望用模型去解决问题,就是说不停地去给VLM(视觉语言模型)喂更多的语料,更多的东西,其实都没有解决这个问题,因为这是VLM(视觉语言模型)的那个架构问题。
然后我跟团队说,那解决ETC为什么不能用规则算法?因为最多的也有15个口,对吧?15个口对于你们而言,写一个程序基本上一周之内就能完成,甚至三天就能完成。但是我说很多时候我们心里有个心结,对吧?因为人类很多运行的时候其实是大模型运行,但是我说我们作为一个这个正常的人,我们其实也会背乘法口则,乘法口则就是个规则算法,对吧?但是乘法口则的结果是我们消耗的脑力更少,对,我们消耗的token(词元)更少。
然后以及我们的准确性更高,所以它就是个好东西,它就是个工具,对吧?然后如果是一个确定性的,能够拿规则去解决的,其实它意味着更低的能量消耗、更低的算力消耗和更高的准确性,对吧?那我觉得为什么不用?所以团队很快就把问题解决了,所以我们在ETC就非常的稳了。其实一周都不到就解决了,过去的时候解决了三四个月都解决不了的,成本很高的方式解决不了的。所以我说就是我觉得真正往下去落的时候,很多时候还是要考虑效率,就是今天DeepSeek之所以受到全世界的瞩目,很重要的一个原因还是因为它的效率变得更高了。
45. VLA(司机大模型)跟最后可能形成的最终大统一模型的关系是什么呀?它是那个大统一吗?
我觉得还是会有一个效率的问题,对吧?我讲的意思是,其实我们虽然有模型,但我们从来不放弃工具,然后因为工具是增加确定性和提高效率的。我还是举一个挺清晰的一个例子,因为团队很多时候太想用模型解决一切问题,对吧?然后那这时候就会出现类似一个现象,比如我举一个例子,那今天当然VLA(司机大模型)会解决很好了,其实我们在使用VLM在解决ETC时候并不好。
因为VLM(视觉语言模型)对于位置的判断是很糟糕的,所以它如果其实是两到三个ETC,然后我怎么进入其实非常容易判断,其实就是这个左中右。但如果像京承高速这样的机场高速那样的十几个ETC,它很多时候就不知道怎么处理了,就开始非常混乱了,因为它没有位置的判断的这个能力,我们团队太希望用模型去解决问题,就是说不停地去给VLM(视觉语言模型)喂更多的语料,更多的东西,其实都没有解决这个问题,因为这是VLM(视觉语言模型)的那个架构问题。
然后我跟团队说,那解决ETC为什么不能用规则算法?因为最多的也有15个口,对吧? 15个口对于你们而言,写一个程序基本上一周之内就能完成,甚至三天就能完成。但是我说很多时候我们心里有个心结,对吧?因为人类很多运行的时候其实是大模型运行,但是我说我们作为一个这个正常的人,我们其实也会背乘法口则,乘法口则就是个规则算法,对吧?但是乘法口则的结果是我们消耗的脑力更少,对,我们消耗的token(词元)更少。
然后以及我们的准确性更高,所以它就是个好东西,它就是个工具,对吧?然后如果是一个确定性的,能够拿规则去解决的,其实它意味着更低的能量消耗、更低的算力消耗和更高的准确性,对吧?那我觉得为什么不用?所以团队很快就把问题解决了,所以我们在ETC就非常的稳了。其实一周都不到就解决了,过去的时候解决了三四个月都解决不了的,成本很高的方式解决不了的。所以我说就是我觉得真正往下去落的时候,很多时候还是要考虑效率,就是今天DeepSeek之所以受到全世界的瞩目,很重要的一个原因还是因为它的效率变得更高了。
46. 特斯拉FSD真实的进入了中国,对你有没有什么影响?
我们认为,我们自己一个判断的话,从实测过来的话,他们大概在用12.5之前的模型。对,在用12.5之前的模型,然后并不是特斯拉真实能力,距离特斯拉真实能力还有巨大的差距。特斯拉13.0以后的能力还是非常强的。而且 12.5之前的话应该其实是这个半规则算法的能力。所以我说不是特斯拉真实能力的体现,但是我们能看到特斯拉基本功是非常扎实的。它的整个的感知的距离,它整个运行的帧率,它整个的车辆的整个的控制的稳定性。
47. 为什么没有释放真实的能力?
我觉得因为如果直接上端到端的话,有中国的这些路况什么的,其实刚才我就像我讲的,它在美国没有学习到这些东西,然后再遇到这些复杂的,是还是会遇到挑战的。
48. 你们现在还学特斯拉学的多吗?最近从他身上学到了什么呀?
我觉得美国的很多的顶级的公司,像苹果,像特斯拉这种企业,就是他们基本功特别扎实。然后我觉得这个是我们真正要去学的,尤其是在今天这种内卷的环境下,然后包括外部的不确定的环境下,我觉得这时候更是每个企业扎扎实实练基本功的最好的时候,而且到了人工智能时代的话,基本功就更是不可能、不可跳跃的。所以我觉得如果很多企业做了很多的创新,但是没有基本功,不扎实,所以很多创新就会昙花一现就过去了,所以这会是很大的问题。因为就它虽然拥有很多钱,能发明了很多东西,就创造、创新了一些很多的功能的组合。但是你会发现能力强的公司复制的东西基本上在人工智能时代都是按周计算的就能复制过来,所以那个能力的基本功还是非常重要的。
49. 为什么是学苹果呢?它也不是一家AI公司啊。
我觉得最重要的是学能力。我们在小的时候没有看明白,没有看懂苹果,那这个阶段的时候我们可能又去认真研究苹果,发现苹果还有很多能力其实值得我们去学习的。
所以到今天为止,你去看一个苹果作为一个全世界市值第一的公司,当你做到千亿收入,你再去看这种万亿收入公司的能力的时候,你开始模模糊糊能看懂一些了。但是我们小的时候,我们很小规模的时候,我们看不懂苹果为什么这么做。我觉得最后其实是规模,因为规模是一个可以确定衡量的变化,也会带来用户规模和用户需求的变化,技术和产品的变化,也会带来组织和能力的变化。
50. 你有试驾过上了VLA(司机大模型)的车吗?体验怎么样?有经历过什么aha moment(惊喜时刻)吗?
我觉得挺难有什么aha moment(惊喜时刻),因为你已经理解它的原理了,其实就是它就变得跟人很像了。
51. 就更像人了。
就真的像人了。它变成更像人其实没什么惊奇的。对吧?相反一个动物忽然会的一些东西,你觉得挺惊讶,但一个人做好东西,你认为其实是正常的。
52. 你之前对内说过一句话,说理想的智驾原创性超过了增程,这句话是不是太自信了?
我自己觉着就我们在这方面的研究工作真的做得很深。所以你看到我们的各种的论文,而且我们为了,然后我们为了做好,我们为了做好这个辅助驾驶,我们还做了操作系统。然后我们为了做辅助驾驶,我们构建了完整的训练体系,我们为了做辅助驾驶,甚至我们自己去直接去改芯片的,然后这个底层的软件,对吧?然后我觉得我们做了很多这方面的这些工作。然后那这方面工作肯定,然后肯定做的比这个增程更多,比增程做的工作量更多。然后我觉得还有一个比较好的一个评价方式。就是我们历史上从来没有遇到过,然后任何一个周期,比如2024年和2025今年年初,我们每一个辅助驾驶团队的核心人员可能基本上都会接到20个以上的猎头电话。
53. 7月份是理想的十周年,站在今天回顾理想这十年走过的路,你脑海里浮现的最深刻的场景画面是什么?
我的第一个最重要的画面,是2018年理想ONE第一次发布,一直延续到2019年的4月份,上海车展第一次正式的展示,带有价格的。我觉得那是一个非常重要的时刻,我们真的能做出来一辆车,而且这个车特别受用户喜欢。在上海车展的展馆里面,我们是人流量最大的一个展台。因为我们是从什么都没有开始来做的。另一个是2022年发布理想L9的时候,我觉得那真的是一个全世界最卓越的产品。到了今天2025年,能看到至少有5个以上的企业是因为当时理想L9的成功,在打造跟理想L9相同的产品。
54. 你脑海里浮现的都是幸福的时候,而不是痛苦的时候。你会回忆到痛苦的时候吗?
太多了,刚经历了L9的幸福就出现了。全网的黑公关都说理想汽车倒闭,那一个季度我们亏了十几亿,将近二十亿,原来从没亏过那么多。忽然从巅峰掉到谷底,好处还是我说的,我们认识到很多能力不足,我们就去补了很多能力。但正是因为这件事情,我们的调整又带来了2023年获得接近三倍的增长,我们直接做到了1200亿的收入。反正我创业那么多年了,当问题来的很多时候,又是一个更大的机会的到来。所以我对这方面其实也没那么纠结。我对于不正常的事情耐受力很差,但我对于一些不好的东西解决完以后,整个记忆能力也很差,会把它忘掉,但你让我回顾还是能回顾过来的。
55. 刻意删掉的记忆片段会是什么呢?
为了让自己有更好的正能量,我还是尽可能的只保留那些有价值、美好的片段。哪怕是一个不好的东西,比如刚才讲的我们被黑、被打击,我会转变成“看,正是因为这件事情我们增长了三倍,我们获取了其他新势力所没有的能力,我们面临其他新势力所没有的挑战。”这样的方式来表达,这是一种心态。创业确实不容易,但是没必要苦哈哈的。苦和甜。是一个硬币的正反面,取决于你选择看哪一面。如果按时间轴而言,肯定是苦更多,但是吃苦多了也就习惯了。
56. 余凯博士(地平线创始人兼CEO)回忆跟你第一次见面是在杭州一起去爬山,他记得你那天穿了一个军大衣。我很好奇余凯博士见到的那个军大衣里包裹的是一个怎样的灵魂?它跟今天发生了什么样的变化?
我觉得没什么变化。我甚至认为我今天90%的状态、思维方式跟我上高中的时候差不多。遇到问题去解决问题、解决别人不愿意解决的问题、解决消费者遇到的最大的问题、去找更多的人学习。那时候我是个人网站站长,但是我又有合伙人,是少数的有小团队的站长。靠自己能力不行的时候还要靠别人,然后继续完善能力。我觉得到今天为止我没变化,只是解决的问题在变大、服务的用户群体在变大、公司的规模在变大、组织在变大。
57. 过去十年中所有的记忆里如果能改变一个记忆,改变一个程序,你想改变什么?
我觉得没什么要改变的。能赶上这么一个时代,几次创业还能一路走下来,在最难的时候都有人来帮你,当遇到问题的时候,总是能从坑里快速爬出来,一帮人齐心竭力变得更好,我觉得挺幸运的了。无论是从运气层面,还是从能够创造出来的价值层面,我觉得没什么可后悔的。挺好的。
58. 你刚才说一个词是能量,怎么让自己成为一个更有能量的人,更强大的人,或者是能吸引到更多能量的人?
我觉得就是关注人,尤其是关注那些离你最近的人,关注亲密关系的人。关注人的时候首先你得先关注自己,作为我自己,我会怎么来看待自己?第一,我会接受自己所有的优点。我很多身上的特质,这么多年的积累,从DNA里带来的,其实它就是我的优势,我应该怎么去发扬自己的优势。第二个是要能接受自己的不足。往往不足就是优势的另外一面。比如这个人很擅长决策,他可能就没有办法其实去做很细致的运营,因为这两件事是冲突的。有的人非常擅长运营,他可能就很难跳出来,或者跳好几个维度来去做决策。一个人很懒,但可能是个极品的产品经理,但如果他很勤奋,应该是个非常好的业务运营。我觉得每个人是不一样的,往往我们如果要改的话,会变成一个更差的别人,以及一个更糟糕的自己。所以我说要接受自己的不足。第三个是用成长替代改变。更重要的是我有没有成长,我们在做汽车之家的时候,我说做好业务就行了,资本根本不重要,最后我们其实折在了资本上。
在做理想汽车的时候就非常注重资本,请最好的FA(财务顾问),请最好的律所,股权架构的设计、投票权,今天大家可以看到所有的新势力企业里面,理想汽车的股权架构、治理结构、资本现金管理都是做得最好的。我并没有改变我的业务,其实是增强了一个能力,所以它是个成长。我们会面临方方面面的能力成长,就能给自己带来能量。你的成长有自己的能量,然后你又不跟自己纠结,当有这个能力的时候,我们再看待别人其实也是一样,我会先看别人的优点,这非常重要。这个优点怎么让他发挥出来?这优点能带来什么?这优点怎么让他发挥?我觉得第二个,其实当看到别人不足的时候,其实根本不是问题。我从创业开始就有合伙人。樊铮就是我的互补,是我所不具备的,秦致是我所不具备的,李铁、马东辉、谢炎、邹良军就是我所不具备的。当看到大家这些不足的时候,反而其实是我的价值,我有价值能帮助到他,他有价值能帮助到我,我觉得第三个一样,去看别人的成长,你能看到孩子的成长,你能看到爱人的成长,你能看到身边每个同事的成长,其实这就有能量了。
因为变好就有能量嘛。而且你关注的是人的成长,不是那些事儿。所以,第一你能自己产生能量,第二你能够带给别人能量,第三你能从别人那获取能量,因为别人给你能量,别人也不会丢掉能量,它是个辐射作用。所以这是我一些随着自己的成长,开始有效的一些理解。然后另外一方面其实很重要的是亲密关系,我觉得亲密关系里边特别重要的一点,是要关注人,我需要我的爱人,我需要我的孩子,我需要李铁、马东辉,我需要刘杰、解卫国、范皓宇,甚至超过了他们需要我。首先是我需要他们,才是他们需要我,这时候这些人之间的连接就不一样了,我们在一起就能形成一个非常强的脑力、非常强的心力,形成特别好的能量,我觉得这个是特别重要的,而不是说我对他们没有需求。
我觉得在我的家里非常有意思的一点,过去我和我老婆之间的相互支撑还是有限的,从去年年底春节过后一个最大的变化是我们家大女儿她形成了我们的第三个支撑。她14岁了,她对事情的理解在发生巨大的变化。她自己的三观开始有效、特别完善地形成,而且超出了我们的预期。而且她有能力跟我们做特别好的沟通了,关于她自己的人生规划,她自己的喜好,她自己对人和事物的理解,这个特别有意思,我们家里实现了一个三人的支撑,这是个让家里的能量大幅地提升。因为这些能量会影响到其他的孩子,虽然他们还没有办法做成支撑。我每次跟我老婆聊,在聊到大女儿的时候都是非常的高兴,就没想到她14岁就能和我们两个人形成一个三人的支撑了。
我们能跟她一起去讨论很多问题了。我们可以讨论事情,可以讨论人,可以讨论不同的见解,也可以讨论她的规划,可以讨论怎么出去玩,可以讨论家里要解决一些什么问题,都可以的,我觉得这个特别好。
59. 我之前跟一个教授聊天啊,他说他几年前跟你聊过,然后感觉你的心灵观就是家庭观,这个也反映到你的公司上,要创造幸福的家。那他想问的是你有没有更大的宇宙观、世界观?
我们从人出生开始,我们上学到大学毕业到开始工作,我们有多少自己想去做的事情没有去做?我们有多少想接触的万物没有去接触?我每天都在忙着去工作,去在做事儿。嗯,对,但什么是智慧呢?智慧就是我们跟万物的接触。
如果你没有去过森林,没有在森林里,认真的玩儿、住过几天,那你可能觉得木头就是做筷子的,就是做纸的,就是做桌子的,而并不是意味着它是一个生命,它是跟我们不同的生命,对吧?你不能没有跟孩子在一起、长时间的生活体验跟他们一起去玩,你可能就不知道什么是亲密的关系,你就没法真正的去理解孩子,去了解孩子,对吧?那我觉得什么是智慧?我觉得智慧就是我们和万物的关系。但是怎么去提升我跟万物的关系?首先要有足够的时间跟万物去接触。所以我在讲的一个很重要的一个问题,就是今天我们很卷,但是我觉得这是恰恰是真正的人工智能的意义。
60. 在AI面前,什么是值得被保留的人性?
我觉得所有的人性都应该得以保留。对,然后无论是好的和坏的。
61. 为什么呀啊?为什么要好把我的坏的(保留下来)。
就没有坏的,其实就没有好的。那就跟刚才我讲的一样,就是说一个人的优点的另外一面,其实就是它的缺点,对吧?然后一个好的另外一面其实就是它的不好。对,以后我们如果只想要好的东西,而这个说我只想要好的东西,但放弃所有不好的东西。对,我觉得这件事情并不成立。对,所以你可以把好的东西和不好的东西都当成一种特质。对,然后它是文化的特质,然后它是生命的特质,它是性格的特质,它是能力的特质。对,我觉得这个其实这样的,这样我觉得才是活生生的,才是一个有生命力的世界,才是活生生的人。(编译/汽车之家 秦超)
来源:汽车之家扫描二维码分享到微信或朋友圈