参数规模1200亿毫末智行发布业内首个DriveGPT 新视野

4月11日，技术氛围拉满的第八届HAOMO AI DAY如约而至。

(相关资料图)

这次，毫末发布业了内首个自动驾驶生成式大模型DriveGPT，并把它命名为雪湖·海若。同时，毫末宣布推出的重感知、不依赖高精地图的城市NOH已开启泛化测试，将最先落地北京、上海、保定等城市，2024年有序落地100城。商业化层面，毫末也获得了3家车企的定点合同。

拿下三大主机厂定点合同

现阶段对高阶智能驾驶企业而言，最重要的就是商业落地能力，只有商业化闭环完成，才能带来源源不断的海量数据加以训练和不断迭代。

这一点上，毫末智行董事长张凯深有感触，张凯表示，2023年是非常关键的一年。城市导航辅助进入到真实用户覆盖和多城市落地的比拼。乘用车行泊一体将迎来前装量产潮，末端物流自动配送车在商超、快递等场景迎来爆发，2023年将在这些场景实现可持续商业化闭环。

在行业全面发力、更多产品落地的背景下，毫末HPilot整体已搭载近20款车型。用户辅助驾驶行驶里程突破4000万公里。首款搭载HPilot3.0的新摩卡DHT-PHEV（参数丨图片）即将重磅上市，第二款搭载毫末HPilot3.0的车型魏牌蓝山也将在今年发布。

毫末自动驾驶数据智能体系MANA的学习时长已经超56万小时，相当于人类司机6.8万年。毫末DriveGPT雪湖·海若，已经完成基于4000万公里驾驶数据的训练，参数规模达1200亿。

发布会上，张凯向外界公布了毫末6P开放合作的重要进展，目前已与3家主机厂签署定点合同，相关项目正在交付中。

毫末DriveGPT雪湖·海若发布参数规模1200亿

发布会上，毫末智行CEO顾维灏向外界讲解了毫末自动驾驶生成式大模型DriveGPT雪湖·海若，并做了部分展示。

顾维灏表示，毫末DriveGPT雪湖·海若通过引入驾驶数据建立RLHF（人类反馈强化学习）技术，对自动驾驶认知决策模型进行持续优化。它的最终目标是实现端到端自动驾驶。

“现阶段DriveGPT主要用于解决自动驾驶的认知决策问题，参数规模达已经达到1200亿，预训练阶段引入4000万公里量产车驾驶数据，RLHF阶段引入5万段人工精选的困难场景接管Clips。”

顾维灏进一步介绍到，DriveGPT雪湖·海若的底层模型采用GPT生成式预训练大模型，与ChatGPT使用自然语言进行输入与输出不同，DriveGPT输入是感知融合后的文本序列，输出是自动驾驶场景文本序列，即将自动驾驶场景Token化，形成“Drive Language”，最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。

具体到实现过程，DriveGPT雪湖·海若在预训练阶段通过引入量产驾驶数据，训练初始模型，再通过引入驾驶接管Clips数据完成反馈模型（Reward Model）的训练，然后再通过强化学习的方式，使用反馈模型去不断优化迭代初始模型，形成对自动驾驶认知决策模型的持续优化。

同时，DriveGPT雪湖·海若还会根据输入端的提示语以及毫末CSS自动驾驶场景库的决策样本去训练模型，让模型学习推理关系，从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程，完成可理解、可解释的推理逻辑链生成。

发布会现场，毫末宣布DriveGPT雪湖·海若首发车型是新摩卡DHT-PHEV，即将量产上市。

顾维灏表示，有了DriveGPT雪湖·海若的加持，车辆行驶会更安全，动作更人性、更丝滑，并有合理的逻辑告诉驾驶者，车辆为何选择这样的决策动作。对于普通用户来说，车辆越来越像老司机，用户对智能产品的信任感会更强，理解到车辆的行为都是可预期、可理解的。

目前，毫末DriveGPT雪湖·海若已正式对外开放，开启对限量首批客户的合作，北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、魏牌新能源、英特尔等已经加入。

单帧图片标注成本降到0.5元

具体到应有场景，毫末DriveGPT雪湖·海若会先探索四大能力，智能驾驶、驾驶场景识别、驾驶行为验证、困难场景脱困。

当前，毫末在使用数据过程中，逐步建立起一套基于4D Clips驾驶场景识别方案，具备极高性价比。在行业上，给出正确的标注结果，一张图片需要约5元；如果使用DriveGPT雪湖·海若的场景识别服务，一张图片的价格将下降到0.5元。单帧图片整体标注成本仅相当于行业的1/10。

顾维灏介绍，毫末在2023年1月发布的智算中心MANA OASIS（雪湖· 绿洲），算力优化等层面升级了三大能力，进一步支持DriveGPT雪湖·海若的算力。

毫末与火山引擎全新搭建了“全套大模型训练保障框架”，实现了异常任务分钟级捕获和恢复能力，可以保证千卡任务连续训练数个月没有任何非正常中断,有效保证了大模型训练稳定性；

毫末研发出以真实数据回传为核心的增量学习技术，并将其推广到了大模型训练，构建了一个大模型持续学习系统，自主研发任务级弹性伸缩调度器，分钟级调度资源，集群计算资源利用率达到95%；

MANA OASIS通过提升数据吞吐量来降本增效，满足Transformer大模型训练效率，通过引入火山引擎提供的Lego算子库实现算子融合，端到端吞吐提升84%。

MANA架构视觉感知再次升级

据顾维灏介绍，MANA的视觉感知能力持续提升，一方面可同时学习三维空间结构和图片纹理，并将纯视觉测距精度超过了超声波雷达，BEV方案也拥有了更强的通用性和适配性；另一方面可实现单趟和多趟纯视觉NeRF三维重建，道路场景更逼真，肉眼几乎看不出差异。通过NeRF进行场景重建后，可以编辑合成真实环境难以收集到的Corner Case。

基于更强的视觉感知能力，毫末也开始验证使用鱼眼相机代替超声波雷达进行测距，以满足泊车要求。

毫末把视觉BEV感知框架引入到了车端鱼眼相机，做到了在15米范围内达到30cm的测量精度，2米内精度高于10cm的视觉精度效果。泊车场景使用纯视觉测距来取代超声波雷达，将进一步降低整体智驾成本。

这几年高阶智能驾驶在技术、政策、商业化上都取得了快速进展，虽然毫末成立到现在还不足三年半，但其已经举办了8届AI DAY，每一次都会带来高密度的技术输出，这背后是毫末对技术的坚定投入，是对AI改变人类出行的笃定，也是对自动驾驶行业的热爱，毫末速度也早已经成为汽车智能化产业赛道的一个样板。