3月25日-27日,第八届电动汽车百人会论坛在北京召开,本届百人会论坛以“迎接新能源汽车市场化发展新阶段”为主题,就新能源汽车市场化发展新阶段政策调整、碳中和目标下国际合作与政策协同、下一代动力电池产业化及产业投资与创新等话题展开深度研讨。
其中在27日上午举办的全球智能汽车前沿峰会中,清华大学教授邓志东发表了演讲。
清华大学教授 邓志东
以下为演讲实录:
大家好!我今天分享的报告是“走出中国智能汽车创新发展与商业化落地之路”。我是来自于清华大学智能技术与系统国家重点实验室,同时也是清华大学人工智能研究院视觉智能研究中心的邓志东。
今天要分享的内容主要有三个方面:
第一个方面,就是我们通过人工智能超算与预训练的巨量模型能否实现L3+的纯视觉的自动驾驶。
第二方面,是走出单车智能与网联新基建的协同创新发展与商业化落地之路。
最后,我们探讨如何从L2辅助驾驶迈向L3+自动驾驶,它的技术实现路径。
首先看第一个方面。我们现在看到特斯拉L2的纯视觉的FSD自动辅助驾驶,它获得了较好的用户体验,目前仅仅是对特定地区的少量推送就获得了超过5万规模的普通终端用户,也是目前全球最大的L2车队。它使用的纯视觉,可以说也有优势的地方,就是避免了使用多模态的融合感知所带来的技术挑战,它实际使用了8个摄像头。从2020年10月份启动FSD的Beta测试版本以来,到目前还没有出现什么事故。但是它毕竟是个L2的自动辅助驾驶,并非是L3、L4的纯视觉的自动驾驶。我们认为要提升到L3、L4的自动驾驶,需要最大限度地使用目前已有的数据驱动的人工智能,包括面向限定区域的自动驾驶应用场景,极限使用巨量的标签大数据还有人工智能的超算,以及预训练的巨量模型。比如说充分利用具有自注意力学习机制的新一代神经网络,即用视觉Transformer模型,在这种超强算力支撑下,在巨量标签数据的驱动下,去使用现有的数据智能的方法。
为什么要使用这个Transformer神经网络模型?因为它具有性能的可扩展性和通用性。性能扩展就是它的模型规模增加,性能还有充分提高的可能,但这需要足够的算力,同时还可以容纳足够巨量的数据,通过这种模型来结合深度强化学习,去构建一个驾驶阅历、驾驶技巧甚至优于人类的人工智能自动驾驶。
第二方面,就是我们怎么走出一条协同创新发展与商业化落地之路?我们认为,就是把单车智能与网联新基建进行协同。
单车智能其实是基础,发展单车智能可以说是当务之急。我们需要鼓励各种自动驾驶解决方案,并进行探索和创新。要追求L4甚至是L5级别的单车智能,鼓励纯视觉、视觉主导以及激光雷达主导的L3+传感器解决方案,各种方案都要进行探索、创新。
我们都知道,视觉主导甚至是纯视觉的解决方案,主要代表就是特斯拉的FSD。因为它是最早通过与Mobileye合作开始单目或者纯视觉技术的研发,去年它甚至取消了毫米波雷达的使用,这是一个方面。另外一方面,我们看到其实目前绝大多数自动驾驶传感器的解决方案都是采用激光雷达主导的技术方案。
具体采用哪种方案呢?我们觉得衡量感知方案的关键,就是能否带来更高的安全性,这是最重要的。就是不论采用激光雷达、毫米波雷达还是摄像头,基本上不是成本的考量,本质上不论使用哪种感知方案,最核心的挑战是:能否有效地解决制约自动驾驶落地的最大瓶颈,也就是我们常说的长尾感知问题、边缘事件,还有由对抗性干扰样本所带来的安全问题。这个方面才是关键,不管什么样的感知方案,就是你能带来安全的增益,这是最重要的。我们看到的最新进展,除了特斯拉的FSD已经发展到10.11版本,通用公司Super Cruise的Origin已经没有方向盘,并且开始预生产了。另外,今年3月4日,美国交通部国家公路交通安全管理局发布了《无驾驶控制装置车辆乘客保护安全标准》,它历史性地允许取消自动驾驶汽车的方向盘等手动驾驶控制装置。
所以,我国在单车智能相对落后的情况下怎么发挥我们的独特优势,加快推进面向L3、L4自动驾驶的5G-V2X新基建,特别是限定区域智能路网的构建,通过单车智能与智能网联协同,走出中国L3+自动驾驶创新发展与商业化落地之路。
最后一个方面,我们探索一下如何从L2辅助驾驶迈向L3+自动驾驶,它的技术实现路径。
按照新的标准,L2与L3+或者说辅助驾驶与自动驾驶的关键区别,就是通过判断主驾位置是否还有安全驾驶员。如果主驾位置没有安全驾驶员了,而是放在副驾位置或者后座,甚至是车外或完全不用安全驾驶员,这才是真正的L3+自动驾驶。按照2021年5月国际汽车工程师学会SAE与国际标准化组织ISO发布的自动驾驶新的分级标准来判断,实际上L2还属于自动辅助驾驶,只有L3及以上才能称之为自动驾驶。L3+显然是不允许主驾驶位置还有安全驾驶员的。因为一旦主驾驶位置还有安全驾驶员,在技术上就相当于把人类驾驶员的感知与决策能力引入到了智能汽车的感知闭环和决策闭环中,就是在感知闭环或者决策闭环中,是人在回路、人在闭环里面。因此借助人的认知能力,就可以有效地解决感知的长尾问题,还有决策边缘问题这样一些核心挑战,也能够处理由对抗性干扰样本所带来的安全问题,原因是有人的感知进去,有人的决策在里面,特别是借助了人的认知能力,这是一个方面。
但是对于L3的自动驾驶,因为主驾驶位置没有人了,可能无法导入人类的具有知觉的感知能力在这个闭环里面。对于L4的自动驾驶,因为它完全不需要人的接管,不仅没有人类的感知闭环,甚至还没有人类导入的决策闭环。因此撤销车载安全驾驶员,无疑会让我们去直面真正的关键核心技术,从而去推动自动驾驶大规模的商业化落地实践。
具体来说,它的技术实现路径会怎么样呢?就是用边云接管。这是辅助驾驶迈向自动驾驶的一个有效的技术路径,涉及到的关键核心技术包括5G、6G支撑的AI边缘服务,还有基于数字孪生与临场感场景数据的平行驾驶,就是这个场景里面既有数字孪生系统也有临场感现场来的场景数据,而且两者之间、虚实之间还可以相互进行交叉验证与预测,尤其是预测。这个预测就可以让我们的边云接管,我们的安全员在边云上面,这样有什么好处呢?通过平行驾驶、通过接管预测,可能刚开始一个边云安全员代管一辆车,经过技术迭代以后,可能一个云边的安全接管员就可以去接管10台车,然后再进一步可以接管50台车,甚至接管100台车,最后就变成了完全不需要任何远程的安全接管员了,这样我们就真正实现了L4的自动驾驶。
另外,还有一个方面就是,我们有了数字孪生系统以后,还可以进行自动驾驶最优决策规划的深度强化学习。让自动驾驶的规划与决策能力像一个老司机一样,当然这其中还涉及到最优策略怎么去进行虚-实的迁移。
我们说撤销车载安全驾驶员的主要依据是,不管你是做RoboTaxi,还是做降维应用的无人干线/支线货运或者无人公交汽车,在确保绝对安全的前提下,为什么说这是一个近期的主要目标呢?除了前面所说的,可以倒逼长尾问题、5G应用、AI边缘、数字孪生、边云接管、下一代人工智能等关键核心技术的攻关以外,其实这也是一个商业模式迭代的真实需要。因为在一辆L2的车上,用一个算法工程师去做安全驾驶员,其成本肯定超过普通的网约车司机,因此这种商业模式是无法迭代下去的。同时,通过关键技术的真正突破、商业模式的不断创新,才能去有效推动中国自动驾驶产业的落地之路。
谢谢!