2025年,智能驾驶行业出现“名词过载”现象,从VLA、VA、到WA,分化出多个派别,争鸣不断。
理想汽车智驾团队从端到端+世界模型全面切向VLA(Vision Language Action),在算法架构中引入大语言模型(LLM)。和理想一样坚定选择VLA的还有智驾供应商元戎启行。
行业里也有坚定的VLA反对派。华为表示,不会走向VLA,而是会坚定选择WA(World Action,世界模型)。和华为一样尝试去掉Language环节的还有小鹏。
而在这场争鸣中,端到端仍展现出巨大的潜力,小米汽车就是在这一方向持续深耕的企业。
“现在竞争太激烈,大家会产生一些焦虑,倾向于通过各种方式或技术让用户觉得更先进。”小米汽车端到端负责人陈光告诉《21汽车·一见Auto》,“但无论VA、WA还是VLA,在我看来其实都一样,都是看如何让模型的智能密度最大。”
现有头部新势力中,小米汽车启动端到端研发较晚。2024年,小米在内部正式整合成立“端到端算法与功能部”,负责量产方案开发。而理想、蔚来都比小米早了至少3个月。
但小米追赶很快。今年2月,小米正式向用户全量推送了300万Clips的端到端(HAD),7月再次推送了1000万Clips版本的端到端。11月21日,小米汽车在广州车展正式发布Xiaomi HAD增强版。
陈光介绍,新版本相较前两个版本,最大的不同是引入世界模型+强化学习。“在HAD增强版中,模型不但要知道去模拟老司机开车,而且知道为什么这样做。从认知层面上,这个模型具备开放世界的知识性,以及推断复杂场景因果的能力。”
但在端到端算法中引入世界模型和强化学习,小米并不是第一个。陈光认为,小米会把世界模型+强化学习做得“更坚决”。
他补充,强化学习作为一种出现多年的技术,在智能驾驶里用好它会面临两个难题:一是世界模型很难做到完全保真,这就需要在世界模型里放入大量、可编辑的数字资产; 二是并行探索的效率会面临很大挑战,因为算力需要合理分配。
“在一个模拟环境里,你会希望模型能少探索简单的场景,以节省算力;在复杂场景下,你又希望它多探索,以探寻最优路径。”
坚定选择端到端,并不意味着小米就放弃了其他路线的预研。当前小米的智能驾驶团队主要分成了三拨团队:
《21汽车·一见Auto》独家获悉,除开端到端、VLA,市面上的所有路线,包含WA、VA,在小米内部都有预研。除开VLA由陈龙负责外,剩下做路线预研的团队都由陈光管理。
陈光是小米端到端研发大部门的第一位负责人,此前该部门都由小米汽车智能驾驶业务负责人叶航军直管。
在加入小米前,陈光在一汽研究院待了四年,2024年初成为一汽研究院的总架构师,带领着近600人的团队。
陈光称,面对技术路径的选择上,小米从来不是“一刀切”。他认为,新技术的引入需要循序渐进,技术是否先进,并不代表体验一定更好,最终能否被用户感知、信任和长期使用,才是判断标准。
“从技术上来说,有时候你不一定能找到最强的技术,但你一定能找到最适合你的技术。大家讲一大堆新的名词,最终还是会落到用户体验上。用户体验不好,大家不会觉得是技术的问题,只会觉得是你出了问题。”
相较其他新势力,小米智驾团队有自己的独特性。一方面,它虽然不是成立最早的智驾团队,却是组建最快、追赶最猛的团队。
2021年3月30日晚,小米官宣造车,当天晚上,小米集团董事长雷军钦点时任小米技术委员会主席叶航军博士总领智能驾驶团队。成立第一年,小米组建了500人团队——那时,理想组建700人智驾团队已花费两年,小鹏花费3年。
4年间,小米智能驾驶团队已经超1800名成员,2024年3月SU7上市以来,小米从高精度地图进化到无图,近一年间又推送了三个版本的端到端,实现了在智驾技术方案上“一年追三代”。而此前其他新势力在智能驾驶路线上的摸索都至少经历了三年的时间。
“基建做得好,找新方向时不用投入太多人。”陈光告诉《21汽车·一见Auto》,“而本身科技企业的属性,使得小米天然就有一些优势。”截至三季度,小米2025年已经投入了235亿元研发费用,其中1/4的资金用于AI研发。
“云端的基建能力是可以相互借鉴的,而且经验可复制。就好比做饭,已经有人告诉你每一步应该怎么干,做起来就会很快。”陈光说。
另一面,当下社会对辅助驾驶的讨论常伴批判与谴责,作为后来者的小米辅助驾驶团队,更遭遇了国内同行未曾经历的舆论危机。
陈光认为,这是备受外界关注的公司不可避免需要经历的课题,“不能只享受聚光灯下的掌声,而不承受台后各种困难带来的千锤百炼。得扛住压力继续向前。”
质疑与压力之下,小米从没有想过“跳代”。叶航军此前在采访中表示,小米智驾一直都是沿着“规则驱动——数据驱动——认知驱动”的行业发展阶段一步一脚印去做拓展,“从有图到无图,端到端、世界模型、VLA等主流技术栈,小米都有参与,且有不少论文产出。”
而眼下,摆在陈光面前最重要的任务是在年内完成Xiaomi HAD增强版的量产。
今年11月,时值Xiaomi HAD增强版发布前夕,《21汽车·一见Auto》和小米汽车端到端负责人陈光做了一次专访,我们谈了谈技术分野、行业未来的发展趋势、小米的基建能力、仿真能力。
《21汽车·一见Auto》:小米HAD增强版和去掉“L”的VLA路线有何区别?
陈光:无论是VA、WA还是VLA,在我看来其实都一样,最后就是看你怎么使模型的智能密度最大。因为算力是有限的,在相同算力下如何让可承载的信息量对不同场景的理解能力更强,这是各家努力的方向。
无论是世界模型加强化学习,还是VLA大模型,说明大家发现了靠单纯的数据驱动解决不了所有问题,大家需要走向认知驱动的阶段。而数据驱动,你无法覆盖所有长尾场景,你也很难去平衡不同场景下的数据分布以及优化方式。
虽然我们这个版本叫增强版,但实际上已经走进认知驱动阶段了。这次的新版本,我们希望给用户扎实的体验。
陈光:一个简单的端到端,只是模仿学习,它一定只是数据驱动。但一旦走到强化学习、世界模型、VLA阶段,一定是认知驱动。因为他不是简单模仿,而是知道为什么这么做以及应该怎么做,让他们自主去探索可能性,学会推理因果逻辑,这个能力是世界模型、强化学习或者VLA独有的。
可能不需要纠结于用哪个技术比哪个技术更好,或者哪个技术是谁的升级。大家还是围绕着一个目标、用一些认知驱动的技术方案去探索。
《21汽车·一见Auto》:但我们也看到小米内部另一个团队在预研VLA,你们这两个团队是怎么配合的?
陈光:“端到端+强化学习+世界模型”这一整套系统,更多还是解决直觉的问题。我们认为针对更多中等难度或者非极端困难场景,本能的反应是更快的。人遇到突然冲出来的行人,下意识肯定是先踩刹车。而不会是我要想个几秒,看看我是不是旁边借道。
《21汽车·一见Auto》:端到端+世界模型是不是对现阶段行业来说智能驾驶路线的最好解法?
陈光:是一个很好的解法,但我不能说最好,因为我们也在探索有没有更好的思路。从技术上来说,有时候你不一定能找到最强的技术,但你一定能找到最适合你的系统方案。其实各家解的问题不一样,比方说我们可能遇到一些问题,我们觉得用端到端来解更好;另外一些车企可能觉得VLA或者一些不一样的技术去解更好。
这都是大家的选择。大家讲一大堆新的名词,最终还是会落到用户体验上。用户体验不好,大家不会觉得是技术出了问题,只会觉得是你出了问题。
《21汽车·一见Auto》:既然多种方案有互补性,为什么行业里其他友商会执着地只选择一种路线?
陈光:行业竞争比较激烈,大家有时候会陷入技术焦虑上,希望找到一种方式把问题全解决。
友商只是探索一种新的开发方式。他们当前遇到一些问题,需要用新的方式去更好地解决。小米HAD增强版也是一样的。
无论是小米还是友商,大家其实心里都比较清晰,技术先进性未必能带来产品体验上的绝对进步。毕竟智驾是一个系统工程,你需要仔细考虑它的收益和潜在问题,在这中间取得一个平衡,最终落地的还是产品的体验感。
如果不能给用户带来更好产品体验,这个技术短期可能不具备成熟量产的必要性。
《21汽车·一见Auto》:目前市场主流的VLA、VA、WA在内的主流技术方案你们都有在看,如何分配研发资源?
陈光:主流方案都在看。除了VLA,其他方案都是我这个团队在做,WA和VA都是我们在做。我们的WA,这版增强版可能更强调在仿真器/模拟器里面使用。其它方向的应用,内部会有一个小的精英团队在做方案的探索。
这么大一个团队,里面优秀的人挺多。但对于一个新的方向,不需要有大量的人一下子全投入。因为数据驱动和基建是一致的,你只需要有少量人在这方面做一些快速的探索,人多了不一定解决事。
《21汽车·一见Auto》:端到端方案能保证能力下限,但它的一个缺点是没有办法保证能力上限,所以需要世界模型。之前跟智驾供应商的人聊天,从去年年底今年年初,智驾供应商就坚决不做VLA。因为他们觉得在很多时候只需要用直觉判断,不需要去通过L(语言)那个环节。
陈光:只有特别复杂的场景下才需要调用思维链,否则会很累。就跟看轻喜剧和悬疑片一样。看轻喜剧,会很轻松;但看悬疑片,需要动脑子。这就需要你得有一个比较大的算力,或者有一个比较强劲的硬件去提升。
还是跟马斯克说的一样,怎么在有限的硬件条件下,能训练出来一个智能密度最大的模型,大家不要过分卷一些算力。
《21汽车·一见Auto》:为什么友商还是会选择走大模型、大算力的路线?
陈光:只要成本能cover住就行。如果成本cover不住,就需要在有限算力下做更多事。
你看各家都在讲不同算力,但是最终对于用户来说,用户不关心你有多大的算力,最终就是你体验能否更好。华为什么时候讲过华为的算力?即使特斯拉的算力非常大,特斯拉也从来不讲自己到底有多少算力。
只要我的体验足够好,我给用户带来足够愉悦的产品使用体验,就没有必要向外宣传自己的算力到底多大。
《21汽车·一见Auto》:端到端的下一步,会是VLA吗?还是说技术路线也不一定?
陈光:双方能打配合。端到端加世界模型加强化学习,主要解决直觉问题。VLA要解决的就是长序思考的问题。
但我们会不会一步就走到了VLA?我觉得一方面得看VLA技术迭代的速度和最终效果,如果VLA在各种场景下都比端到端好,那我们全面切向新方案。
《21汽车·一见Auto》:现在有一些友商在做VLA之后,会把所有资源都投入到新的技术方案上,原来的端到端就不做了。这会是一种很好的解法吗?
陈光:把所有问题都依赖于新方案来解决,有一定风险。不过,做任何技术判断都有风险。主要看各家的技术判断。他们觉得VLA是未来,全面切没问题。
《21汽车·一见Auto》:小米不是第一个做端到端的车企,相比于友商,小米HAD增强版的优势在哪里?
陈光:奖惩制度上做得比较好,算法会在世界模型里反复练习,走错了就扣分,对了就加分,在奖励机制下不断尝试,找到更优的开车思路。我来之后,对这版本主要做了一些配合数据驱动的基建或者流程的优化,现在这套方案的数据驱动更加顺畅、效率更高了。
陈光:如果整个研发架构是高效的,技术方案就不用大改。理想去年端到端做得很好,也是因为底层基建做得比较高效。
今天有人说VLA,有人说世界模型,对于底层的数据驱动来说是一致的。只要你的基建够强大,我可以快速尝试不同方案,看哪个方案对你当前遇到的困难有帮助。
《21汽车·一见Auto》:怎么判断一个基建好还是不好、效率高还是不高?
陈光:比方说我发现一个问题,我能多快地把类似问题从已有数据挖掘出来,并且形成标注过的高质量数据,以及整个模型训练够不够快,评测够不够自动化,都是判断基建好坏的维度。只要自动化率做上来,效率也可以很高。
《21汽车·一见Auto》:基建,很像之前智能驾驶团队里数据闭环团队做的事情。
陈光:可以这么理解。这一定是各家的knowhow(技术诀窍)。特斯拉什么时候吹过自己是端到端,什么时候吹过自己是VLA,他每次跟你讲都是说我当前遇到什么问题,做了什么样的方案,这个迭代效率有多快,这才是符合正常研发的逻辑——遇到问题,当前的哪一段需要调整,调整之后进行测试实验,看好不好,不好再调,好了就用。一定是这种快速迭代、小步快跑的思路。
《21汽车·一见Auto》:但小米2024年才发布了第一款车,智驾到今天也只是进展了一年,一年干了别人三年的活,小米是怎么在短时间之内把这个基建能力建设起来的?
陈光:云端的基建能力是可以相互借鉴的。小米的其他业务底层基建打得很扎实,汽车业务能够对其他业务进行快速复用。
就好比做饭。如果现在厨房里,已经有人告诉你,洗好的菜在哪、案板在哪、锅在哪、油盐酱醋在哪,每一步应该怎么干,你难道还需要从头学一遍吗?
基建的经验是可复刻的。不然大三牛注册链接家做云,没有意义。做云的意义就在于,能共用的东西尽量共用。现在智驾的整个开发其实跟大模型的开发越来越类似了。整个开发效率快,基建能力能不能吞吐掉这么多的数据,这个能力其实是共用的。
《21汽车·一见Auto》:除了基建能力强大,还有没有其他的优势让小米在一年之内快速追赶友商?
陈光:小米汽车测试资源、数据资源非常充沛。对我们来说,很容易拿到高质量的场景数据。
《21汽车·一见Auto》:小米经常处于舆论风暴的中心,这些舆论有影响你的决策吗?
陈光:没有。任何个人团队或者企业,你不可能只享受台前聚光灯下的掌声,而避免承受台后各种困难带来的千锤百炼。
《21汽车·一见Auto》:面对外界对于小米辅助驾驶的质疑,团队当时的心态是什么?
陈光:团队会有一些紧张和担心,也会很有压力。我作为负责人,还是希望大家能用长线思维去思考这个问题。比如,针对这个问题有没有可以快速的新解决方式?新方案引入的代价、收益分别是什么?如果它的代价大于它的收益,那我们就不要着急在短期立刻按照新的方案进行调整。试试看看有没有更好的方案可以平衡最后的收益,同时降低风险。
陈光:当时可能主要是先找到当前技术方案的性能短板,分析背后的技术路线是否合理,同时要看是否有可以调整的机会。
《21汽车·一见Auto》:之前端到端的整个团队都是叶航军博士自己在带,你是第一个接替他管理端到端的人,也是小米智能驾驶成立以来第二个端到端大业务部门的负责人。作为空降高管,你在管理上有什么方法论吗?比如每个月会定一个目标去达成?
陈光:我个人偏共创共识型。如果有一个比较好的方案或者研发范式,我会先和核心骨干、核心主管反复沟通,把共创共识做得扎实一些。希望核心方向、这个组聚焦的方向要保持一致。
对于这种大的技术方案,我们强调初期要抓大放小,不要把所有的困难揉在一起,想靠一条路给他走通。这个可能不一定合适,但是你的主线任务一旦确定,主线方案一旦聚焦,这是最核心的点。
陈光:共创共识最开始肯定是各个部门的主管,他们要先商量,遇到不行的地方,也需要更大老板来做出决定。
《21汽车·一见Auto》:我们这次的Xiaomi HAD增强版本在推出的过程中,在共创共识上是否遇到过比较大的分歧?有没有记印象特别深刻的那一两个场景?
陈光:会有一些讨论,但非常激烈的场景没有。小米这边都挺nice的,整个公司文化就是peace and love。
但我们有时候会拒绝一些新的需求。比方我们觉得某个需求,业务的时间确实有点赶不上。产品同事的第一反应可能是,是不是你不想干。但你只要跟他讲清楚,为什么当前我做不了这件事,拿一些指标性的数据去做证明。产品同事也不会只听我们,他们也会挑战我们,比如他们会说,其他家做到了,为什么小米不可以?
陈光:看需求、看事情的紧急程度。七月交完了新版本之后,我们共创频次相对高一些。因为要迅速地找到当前方案存在的问题,并开始布局下一个方案。
《21汽车·一见Auto》:友商会为了超车也会进行一些封闭式训练,你们是这个打法吗?
陈光:封闭式训练,是传统科技企业或者互联网企业强调的war room文化。我们历史上应该经历过,但不多。一般在一些特别急的产品方案交付过程中,需要把隶属于不同小团队或者小部门的核心骨干聚在一起,让大家交流更加快速。
《21汽车·一见Auto》:把强化学习应用在智驾系统上,小米不是第一个。和友商相比,小米的独特性在哪里?
陈光:强化学习不是新的技术,它是非常经典的机器学习理论,大家过去把它应用在了不同的方向上。在世界模型的模拟器、强化学习的使用上,我们比一般友商要坚决。
如果要用强化学习对已经训练好的系统做一些后训练,需要比较好的模拟系统能看到这些原始的信息。这就需要我们使用世界模型去构建高保真的虚拟环境,让智能体或者智驾系统在世界模型构建的虚拟环境去自由探索,我们同时还得保证这个虚拟环境和真实道路上的探索没有差别。
陈光:开发者希望强化学习能在相同场景下通过使用不同的奖励和惩罚措施,来找到该场景下最优的驾驶行为,这就需要场景必须具有一定的可复现性。
但特别危险的场景,很难遇到,而且也很难在这种场景下不停地测试算法的性能、去做数据的增强,这就需要先做一个比较好的仿真环境,让智能体或者强化学习的算法进行自由探索。
陈光:一是世界模型要做得足够保真、同时场景容易编辑生成。二是并行探索的效率要高。
陈光:首先,它需要足够逼真、真实,符合几何和物理的规律。同时还需要有比较强的场景编辑能力,比如可以改变一些环境要素,包括光照、天气、路面的湿滑程度、引入交通参与者等。
大家说仿真不好,主要原因是有些企业的生成质量不高。我们这一代仿真数据的生成质量很强。
陈光:我们会有一些评价指标,我们根据真实指标,对仿真环境中规模化生成的图像和对应点云进行评估保证一致性要好。
过去游戏引擎做得很真,那种真是把所有的事物都做得很完美的。但对于智驾业务来说,你希望他能模拟道路里面的一些残缺的真实性。
比如智驾会很害怕相机的脏污,激光雷达在一些水面反射会消失,这个水会吸掉激光一些点,这些东西都希望模拟器能进行仿线汽车·一见Auto》:原来用仿真更多侧重于未出现场景的模拟,但现在用仿真,好像更多是对已经发生的真实场景的还原。
陈光:还原只是其中一环。自动化生成新场景,使得它变得更加的广泛。比方说同样都是一个雨天,你可能希望这个场景里可以插入一些交通事故,同时也会希望插入到不同湿滑程度地面对传感器的影响。
《21汽车·一见Auto》:在我们这次推出的Xiaomi HAD增强版里,仿真数据占据了多少比例?
陈光:仿真测试、场地测试和实车测试。从一个完美的测试理论来说,仿真测试能帮你做一个快速验证,这是最核心的。
《21汽车·一见Auto》:训练的话,仿真数据和真实数据会怎么分配比例?
陈光:在做一些,但是最开始业务没有那么聚焦,我来之后就帮大家一起梳理了一下。
《21汽车·一见Auto》:在你刚加入小米的时候,仿真是你在分析完当前系统之后决定大力投入的事情吗?
陈光:是的,我觉得需要投入。但是当时遇到的问题,仿真可能没办法解决,问题出在整个系统方案上,得需要做重新梳理。
陈光:看需求,看是不是划算。做芯片的好处就是首先做出来,做好之后,它的成本会相对可控一些。因为你要自己用,BOM成本还会低。第二个,软硬件的配合上可能会好一点。
《21汽车·一见Auto》:如果自研的第一代智能驾驶芯片上车,一般来说会遇到哪些问题?
陈光:从一颗芯片迁移到另一颗芯片时,往往会面临“部署偏差”的问题。一方面,不同芯片在算子支持和优化方式上存在差异,部分模型结构需要相应调整;另一方面,由于计算精度和实现机制不同,同一模型在不同芯片上运行时,其数值分布和输出结果也可能出现不一致。因此,在模型上车前,需要基于目标芯片的实际特性进行针对性的优化和校准,确保模型在不同芯片平台上的表现一致、稳定。
陈光:需要6~10个月,甚至更久的时间。假设我在A芯片跑得很好,有个B芯片我需要切过来,原封不动切换芯片,可能也需要六个月。
《21汽车·一见Auto》:那小米从Orin迁移到Thor上,花了多少时间?
陈光:我加入小米之前,有很长一段时间做Robotaxi。但在上一家企业,也做了不少辅助驾驶相关工作。
陈光:目前还是L2挑战更大。因为它受限于车上有限的算力、有限的传感器,以及需要不停地平衡用户的驾乘习惯跟驾乘体验,这就要求我们在做系统设计时候,更加仔细、优化更彻底。
《21汽车·一见Auto》:最近路权放开了,很多Robotaxi的公司都开始上市了。比如小马智行,文远知行。你怎么看待Robotaxi这波回春潮?
陈光:这是一个很好的现象。2016年,以百度阿波罗为代表,很多企业都在发力Robotaxi,大家进行了大量方案的设计探索。2020年开始,L4公司发现当时的技术方案已经解决不了遗留下的超长尾的问题,行业就进入了一段时间的低谷。
相关新闻热文排行1海天味业承诺80%分红震惊市场,比例反超贵州茅台豪横无敌
