2025年7月22日,在第八届智能辅助驾驶大会上,极佳科技合伙人副总裁毛继明提出,构建世界模型的目标在于实现General Physical AI。他指出,人类具备生物共通的直觉认知层和特有的高级思考与推理能力,而当前机器智能在底层直觉认知方面尚显不足。世界模型作为Physical A..
2025年7月22日,在第八届智能辅助驾驶大会上,极佳科技合伙人副总裁毛继明提出,构建世界模型的目标在于实现General Physical AI。他指出,人类具备生物共通的直觉认知层和特有的高级思考与推理能力,而当前机器智能在底层直觉认知方面尚显不足。世界模型作为Physical AI的底层操作系统,能够弥补这一缺陷,通过空间理解、感知与操作能力,使逻辑智能得以作用于物理世界,世界模型是通往通用物理世界人工智能的必经之路。
毛继明进一步介绍了世界模型平台与具身基础模型的双轮驱动策略,强调世界模型与智能体的联合优化。他提到,世界模型不仅为智能体提供数据支持,还随智能体能力的进化而不断提升精度和泛化能力。极佳科技通过层次化世界模型设计,将世界划分为表观层、几何层和物理属性层,并采用神经网络与生成式技术实现各层的建模与渲染,显著减小了Sim2Real差距。
展望未来,毛继明认为世界模型将成为智能的核心载体,需推动云端与端侧世界模型的深度融合。他提出,云侧世界模型应强化反事实推理能力,端侧世界模型则需解决推理速度迟缓的问题,追求瞬时推理。此外,持续学习机制对世界模型的进化至关重要,通过观察现实世界不断纠正认知偏差,是模型进化的关键环节。
毛继明|极佳科技合伙人副总裁
以下为演讲内容整理:
通向General Physical AI之路
我们构建世界模型的目标并非世界模型本身,而是期望基于世界模型,使Physical AI达到General Physical AI的层级,即实现通用人工智能。如果以通用人工智能为探讨对象,最直接的参照便是人类。
若将通用机器智能与人类进行对比,首先需对人类进行较为细致的分析。人类具备所有生物共通的直觉认知层,这一层次是生物历经千百万年进化沉淀而来,体现了生物对环境的自然理解与认知。在此基础上,人类发展出了特有的高级思考与推理能力。将此映射至通用机器智能领域,我们发现,人类特有的高级智能已有较为成熟的产品形态,即大语言模型,如ChatGPT、DeepSeek等均表现出色。然而,对于生物共通的“底层直觉认知”这一人类平时鲜少关注的能力,目前尚无较为理想的产品对应。
这一产品聚焦于如何理解空间、如何对空间进行建模以及如何实现空间生成等一系列能力,这些能力可归结为Special Intelligence的综合体现,而此类能力的集合最终被定义为世界模型。可以说,世界模型是Physical AI的底层操作系统。
当前我们已具备较为强大的逻辑智能,但其应用范围仅限于比特世界,仅能操控字符流。如何使此类智能得以作用于物理世界?为此,我们需引入具备空间理解、感知与操作能力的世界模型作为中介。逻辑智能与世界模型共同构成General Physical AI的完整体系。因此,可以说世界模型是通往通用物理人工智能的必经之路。
世界模型平台x具身基础模型双轮驱动
传统意义上,世界模型仍表现为对环境乃至整个世界的刻画。其中,智能体作为本体,与环境共同构成一种飞轮式的相互促进的合作模式。我们认为,这是一种能够同时驱动两者共同进步的有效范式。一方面,世界模型可以为智能体的进化提供更多数据支持。另一方面,随着智能体能力的进化,其对世界模型也提出了更高要求,例如对精度和泛化能力的要求不断提升。我们将这种不断进化的智能体对世界模型提供的反馈称为Sim2Real Alignment。
在初始阶段,世界模型这一环境模型与智能体作为两个独立组件,存在合作关系。长远来看,世界模型将与智能体深度融合,在第一阶段,即World Model FOR Intelligence,世界模型主要发挥辅助作用,助力智能体进化;而在第二阶段,即World Model AS Intelligence,世界模型将融入智能体本身,参与智能决策过程。
图源:演讲嘉宾素材
我们认为应以世界模型与智能体的联合优化作为起点,最终实现端侧世界模型、云侧世界模型及其算法的深度融合。我们团队自世界模型领域起步,目前正同步开展世界模型与本体智能的研发工作,内部切实遵循着世界模型与本体智能联合驱动、联合优化的逻辑来推进算法演进。
回顾辅助驾驶算法的发展,我们可清晰观察到世界模型对辅助驾驶算法进化的驱动作用,以及辅助驾驶算法对世界模型逐步完善的反向推动作用。如下表所示,伴随算法的逐步迭代,从2D感知时代到BEV时代,再到模仿学习、强化学习,直至端侧世界模型的终极形态,算法对世界模型的要求也逐步提升。从最初仅需具备2D感知数据的生成能力,到必须拥有精确的3D几何约束;从要求具备更强的泛化能力,到需要嵌入更多交通流信息;最终,要求世界模型能全面、深入地理解与认知世界,具备强大的反事实推理能力及极致的低延迟特性。在此过程中,世界模型在驱动算法前进的同时,也因算法的反向推动而在内核层面发生了一系列进化。
图源:演讲嘉宾素材
极佳科技的层次化世界模型之路
世界模型是对现实世界的建模,那么世界应如何划分或分层为不同的层级以分别进行建模呢?世界可拆分为以下三层,且围绕世界规律的设计均可能在这三层中找到对应映射。
第一层为表观层,即我们如何感知这个世界,涵盖世界的光影效果、光的反射等一系列现象。其底层为几何层,关注物体在世界环境中的空间位置、几何形状等空间信息,这些仍是可视化的表征。而更深层次则涉及物体的物理属性,如重力、摩擦力等,这些属性虽难以通过直接观察物体得出,但确实是物体固有的物理特性。
基于上述三层架构,传统仿真引擎针对每一层均具备相应的实现逻辑,涵盖人工制作的3D资产、传统物理引擎等,这些构成了传统仿真针对表观、几何与物理属性三层的实现方式。而对于基于世界模型的新一代仿真而言,虽然仍沿用这三层架构,但每层的实现逻辑均发生了显著变化,即全部基于神经网络与生成式技术。
在表观层面,我们采用Diffusion与Gaussian Splitting联合优化的方式,实现了该层面的计算,即实现了基于神经网络的“渲染”。资产层面,我们通过一系列生成式方法完成了背景资产、前景资产以及环境的生成,包括物体布局与人体动作生成等,均依赖于生成式模型。至于物理引擎,传统方法主要基于牛顿三大定律等物理规则进行实现,而如今,我们更多地借助神经网络,通过推理式方法推断物体在现实世界中的运行规律。
整个世界模型不仅涵盖了一系列生成模型,更重要的是,需包含一种整合这些模型的方法,以使它们协同作用,实现最小的Sim2Real差距。为此,我们引入了一种新的可学习范式,Real2SimReal。它着重解决的问题是,如何快速令仿真引擎的产生的仿真结果与真实世界高度对齐。
在传统仿真领域,为使仿真输出与真实世界相符,往往需耗费大量时间调整参数,且最终结果未必能达到理想的一致性。因此,我们将从实采视频到仿真视频的整个流程构建为一个学习循环,优化目标是最小化输出视频与输入视频之间的视频损失。通过这一训练过程,我们可以学习到资产生成、物理驱动和表征渲染三个部分内部的向量值。通过这种方式,我们实现了仿真输出与真实世界的全自动、低成本对齐。经过这一过程,我们最终能获得一个Sim2Real差距足够小的高质量仿真器。
因此,基于世界模型的Sim2.0完整版应包含一系列生成模型以及一个学习循环,二者共同确保最终效果的优良。
图源:演讲嘉宾素材
从分层的世界模型设计视角出发,极佳团队在进行内部产品设计时,遵循了这一思路逐步推进。我们构建了针对视频生成场景的生成式导航世界模型,同时,还设计了一种将生成模型与重建模型相结合的导航世界模型,即引入了3D几何的生成+重建范式。
如果要将这些模型应用于强化学习场景,则需在世界模型之上叠加交通参与者的信息,包括其交通行为风格和驾驶偏好等,这些信息作为世界知识层的一部分。因此,基于世界模型的多层划分方式,我们相应地开发了多个适用于辅助驾驶场景的世界模型产品。这体现了从模型分层设计到具体产品实现的对应关系。
图源:演讲嘉宾素材
对于生成+重建这一范式,目前已有许多公司在内部开展相关尝试。极佳科技凭借在国内大量的商业化量产经验上,在将生成+重建新范式应用于世界模型时,完成了一系列深度工程化改造,率先达到了这套范式的性能上限。
例如,实现良好的重建效果通常需基于高质量数据。然而,在与各合作伙伴合作过程中,我们发现量产车的数据质量远低于大家平时使用的Waymo等公开数据集。我们针对国内主机厂量产车的数据现状进行了大量适配工作,我们当前的生成+重建范式,能够在仅使用低线数前视雷达甚至无雷达的条件下完成场景重建,可接受量产车辆传感器的噪声、标注误差以及标定误差。
例如,我们当前的生成+重建范式,能够支持横向/纵向更大范围视角偏移时的高质量场景重建和渲染,同时在运行效率方面进行了诸多优化,包括显存优化和显卡使用率优化等,这些都是商业落地场景中来自客户的核心诉求,也体现了极佳在商业化推进过程中深刻的技术沉淀。
下图是我们RL-ready世界模型的初步成效。在RL体系下,traffic是新的关注重点。用于RL的仿真器与与用于验证的仿真器有所不同,RL体系更关注具备足够多样性的车辆交互行为。基于这一需求,我们在世界模型中嵌入了基于强化学习方法的多智能体行为。基于强化学习范式,智能体自发的学习到基于规则的传统交通流仿真无法出现的博弈行为。如在复杂道路结构和场景下的抢行、绕行、让行、跟行的一系列拟人化的行为。
图源:演讲嘉宾素材
过去,现在,未来
在过去约一年半的时间里,我们致力于将世界模型技术与各主机厂的应用场景相结合,以满足其本地业务需求。在绝大多数与主机厂的合作过程中,我们主要围绕客户数据质量、客户需求质量以及客户的时间和算力资源三个核心要点进行讨论,以寻求平衡点。
我们投入的时间较长,积累了丰富的经验,因此能够应对不同分辨率、时长和背景的模型需求。我们将这些沉淀下来的成果称为“世界模型框架加组件库”的搭配方案。我们的目标是,在面对新客户时,能够以最低的成本满足或适配客户多样化的需求。
下图是我们将世界模型迁移至机器人场景所开展的一系列工作。事实上,机器人场景对世界模型的要求远高于辅助驾驶场景。右侧所列的诸多信息,在辅助驾驶中往往无需关注,但在机器人场景中均为必要项,包括背景资产生成、前景资产生成、动作生成、可信仿真,以及在外观层面进行数据泛化等。这些要求与辅助驾驶场景存在显著差异,且要求更高。目前,上述所有功能均已在我们面向具身智能的GigaWorld产品线中形成初步雏形,预计将于今年9月底正式发布。
图源:演讲嘉宾素材
未来,世界模型终将演变为智能的核心载体,我们需推动云端世界模型与端侧世界模型的深度融合。
云侧世界模型需重点强化反事实推理能力,这意味着事件模型需达到能力涌现的临界点。我们将继续坚持分层架构设计与知识注入策略,助力世界模型快速掌握世界运行规律。以物理规律为例,相关内容已系统记录于教材之中,无需强制要求模型仅从视频数据中学习。我们只需探索合适的知识注入方式,即可将物理规律有效融入模型。此外,遵循Scaling Law仍是提升模型泛化能力的根本途径,探索低质量的internet video数据如何应用,探索更更高效的并行训练等方面,也成为做好世界模型的关键。
端侧世界模型需解决当前推理速度迟缓、实时性不足的问题。要想将世界模型与智能本身完成融合,真正成为“直觉模型”“本能模型”,其本质就是降低世界模型的延迟。我们的目标不仅是实现实时推理,更要追求瞬时推理。为此,后续将开展一系列工作,包括模型蒸馏、多模型融合、推理架构优化等,并最终实现与计算硬件的深度协同,根据硬件特性定向优化模型设计。
此外,持续学习机制同样至关重要。世界模型需像孩童般,通过观察现实世界中多样化物体的运动,不断纠正自身认知偏差,这一持续学习过程将是模型进化的关键环节。
(以上内容来自极佳科技合伙人副总裁毛继明于2025年7月22日在第八届智能辅助驾驶大会发表的《世界模型平台x具身基础模型,开启物理世界通用智能新时代》主题演讲。)
关于极佳视界
极佳视界是一家物理世界人工智能公司,专注「世界模型平台 x 具身基础模型」,双轮闭环走向物理世界通用智能。公司产品覆盖世界模型平台(驾驶+具身)、具身基础模型等Physical AI全栈系列产品。
极佳视界是国内第一家专注「世界模型 + VLA大模型」的科技公司,并领跑「世界模型 + VLA大模型」。在世界模型方向持续引领技术创新和产业落地,并已经和多个自动驾驶、具身智能方向龙头企业达成签约合作;在端到端VLA具身基础模型方向拥有行业领先的真机效果、行业最优的模型架构设计、行业最高的数据利用效率,并已经开始迈向量产落地。
极佳视界核心团队来自清华、中科院、中科大等知名院校顶尖研究人员,以及百度、地平线、微软等知名企业高管和产业专家,在Physical AI方向兼具世界级的研究能力、超大规模产品架构工程经验、超大规模量产落地经验。
来源:盖世汽车扫描二维码分享到微信或朋友圈