3月25日-27日,第八届电动汽车百人会论坛在北京召开,本届百人会论坛以“迎接新能源汽车市场化发展新阶段”为主题,就新能源汽车市场化发展新阶段政策调整、碳中和目标下国际合作与政策协同、下一代动力电池产业化及产业投资与创新等话题展开深度研讨。
其中在27日上午举办的全球智能汽车前沿峰会中,地平线总裁陈黎明发表了演讲。
地平线总裁 陈黎明
以下为演讲实录:
各位嘉宾、业界各位同仁,女士们、先生们:
大家上午好。我是地平线陈黎明。首先非常感谢百人会的邀请,参加今天的全球智能汽车前沿峰会,同时也非常抱歉,由于疫情原因不能前往北京参加这次盛会。
今天我要给大家分享的题目是“拥抱高性能中央计算时代,助力智能汽车技术的跃迁”。
首先让我们一起来看一下汽车电子电气架构的演进。目前大部分汽车用的还是传统的分布式电子电气架构,面对智能汽车的发展,这个架构遇到的最大挑战就是可扩展性不好,软件的开发环境不一致,那么硬件资源协调也非常的困难,在数据传输的带宽上遇到了很大的瓶颈。
这些年我们看到,一个新的控制架构叫做域架构,也开始在汽车中得到应用。它的特点是按照功能进行划分,设计域控制器,它是一个更支持面向服务的架构,整个资源可以更好地集中使用,可以根据不同的域来划分它的安全和可靠性等级,使得整个硬件达到比较优的架构,千兆以太网的引入也加速了数据的传输。
但是随着智能汽车的发展,特别是高阶自动驾驶技术的需求,对整个软件算力和数据传输提出了更高的要求,域控制器和域架构已不能满足高阶自动驾驶的发展需求,中央计算架构由此孕育而生。这个架构的特点是中央控制器加上区控制器的架构,它把计算与执行进行分离,同时也是一个更加开放的软件开发平台。通过硬件资源的虚拟化和容器化,使得开发者能够更加便捷地在这个架构上开发软件,也更好地支持了10G以太网以及高速接口的应用,大大提升了整个算法的计算效率以及数据传输能力,来更好地支持整个高阶自动驾驶的发展。
接下来,我们一起来看下智能汽车AI计算架构的演进。在目前的传统架构中,AI的计算基本上分割成两个部分,主要是在自动驾驶和智能座舱方面,它应用的还是传统计算芯片,AI的算力非常有限,所以很多功能得不到实现,也就造成了一些体验不够顺畅。这个问题在域架构中得到了比较好的解决。智能汽车在域架构状态下分成了驾驶域和座舱域,同时引用了算力较大的AI芯片。这样的话,性能得到了进一步提升,使得整个自动驾驶的安全性还有体验得到更好地保障。
我们知道,随着智能汽车,特别是高阶自动驾驶的发展,对AI算法提出了更高的要求,在复杂性和算力方面也提出了更高的要求,域控制器远远不能满足这方面的需求,孕育而生的是中央计算平台。所以我们非常相信整个AI的发展需要由中央计算平台来进行支持。在这个中央平台架构下,整个AI的计算融为一体:人、路、车的数据统一都接入AI计算平台,进行一体化的感知,使这个感知更加精确和及时,在自动驾驶和人机交互方面也更加地顺畅,性能更加提升。同时,它的硬件可以插拔,也就是它的算力可以进一步扩张。
接下来我再给大家介绍一下地平线去年发布的征程5芯片。它是一款面向全场景整车智能的中央计算平台芯片,可以说是一个强算力、高性能、低延迟和低功耗的芯片,具有128 TOPS的AI算力,在Microsoft CoCo(数据)集上,能够处理1283帧/每秒的计算,目前在业界属于最强性能的计算芯片,同时它在处理延迟方面只有60毫秒,也是业界最低。在125度的环境下,它的功耗只有30瓦。
我想再给大家介绍一下AI芯片的算力以及真实AI效能之间的区别。我们平时所说的AI算力是指TOPS/Watt(每瓦多少TOPS)或者TOPS/Dollar(每一美金多少TOPS),这个是由整个硬件设计来决定的,它代表了AI芯片的理论峰值,但并不代表在实际使用中,我们能够用到所有的计算能力。这里有一个有效利用率的问题,它取决于整个芯片的硬件架构设计以及编译器的编译能力。编译器是否能够把AI算法编译成最适配硬件架构和硬件的能力。除了这两个因素之外,我们还要考虑第三个因素,就是AI算法本身的效能。它以FPS/TOPS(每TOPS能够处理多少帧频)来代表,这个代表了算法本身的先进性和复杂性,同时也体现在AI算法工程化的过程中,也就是说编译器是否能够把很好的AI算法转换成非常适合硬件架构以及硬件能够最适配的计算方法和计算能力,最终把整个AI芯片最高地利用计算效能。综合三个因素,最后才能得出真实的AI效能,也就是说我们表达的FPS/Watt(每瓦能够处理多少帧频),或者FPS/Dollar(每一美金能够处理多少帧频)。
接下来我想给大家再分享一下地平线最新的贝叶斯BPU处理器。这是地平线具有自主知识产权的处理器,它是通过几个方面的突破来达到高性能和低延迟。首先,它是通过一个本地的数据计算,也就是利用高带宽、灵活互联的近存计算方式,就是片内的存、算在一起,来减少对外界存储器的数据传输和读写,大大提升运算效率。第二,是通过对一些常用的算子算法,包括脉动卷积、向量处理、数据重塑、深度学习、内存读写等等,通过硬件来加速这些运算的进行,实现一个高度可并行的计算的硬件架构。同时,在软件方面,也对指令进行并行化,对AI模型进行分层融合,使得模型能够并行运转,最高效率地利用整个计算单元的每一个时段来进行软件的计算高度并行化。通过三个措施,我们就实现了高性能和低延迟,也就是达到了128 TOPS的算力和在Microsoft CoCo(数据)集上1283帧/每秒的效能,同时延迟只有60毫秒。
接下来再给大家介绍一下地平线的整体技术和解决方案。底层是地平线的征程系列芯片J2(征程2)、J3(征程3)和J5(征程5),在这之上是高效能的TogetherOS操作系统。同时它也可以兼容其他的常用操作系统,包括Linux、QNX、安卓等操作系统。在操作系统之上是一个AI算法集,相当于一个算法库,这里集中了目前通用的和最先进的算法。有了好的芯片、操作系统和算法还不够,还需要有非常好的开发工具链,来帮助开发者更快、更好地使用芯片。天工开物就是一个非常强大的开发工具链,大家可以看到我们开发工具链已经有100多个客户在使用,使用效果也是非常得好,它的精度损失率小于1%,同时在首次使用时成功率超过了80%。另外,我们还有一个艾迪云平台,这也是一个完整的开发工具链和 AI模型云训练平台,利用这个平台可以完整地使用我们的芯片,包括工具链以及 AI模型的训练,形成一个数据闭环,使得开发者能够更好、更快速地应用我们的芯片,并且同时开发他们的应用。
在这些基础之上是我们的解决方案,它包括智能驾驶,还有智能座舱、人机交互,这只是一个可选的,同时支持在我们的芯片、操作系统、算法开发工具上来支持客户的应用,所以我们可以更多地去兼容所有客户的一个应用场景。
接下来我想给大家介绍一下地平线的芯片是如何助力智能汽车快速落地的。在最下面一层是征程2、征程3还有征程5芯片,最左边是征程2和征程3,在自动驾驶辅助方面的应用。目前,我们在很多ADAS项目上已经进行了量产,它主要能够支持2兆(百万像素)和8兆(百万像素)的摄像头,主要是前视辅助驾驶。在智能座舱方面,它能够支持30多个模型来实现多模的交互,增加感知体验。
在中间这部分是我们基于3J3(3颗征程3芯片)的一个域控解决方案。目前我们已经拿到了客户的定点,在自动驾驶方面它能够支持8兆(百万像素)和2兆(百万像素),6到11个摄像头,算力能够达到15 TOPS,最主要是应用在高速领航辅助驾驶这个方面。在智能座舱方面,它能够支持50多个模型,它能够使得多模交互更加流畅、更加平顺。
右边部分是我们最新的征程5芯片,它可以有双J5(2颗征程5芯片)和4J5(4颗征程5芯片)的组合。根据客户自动驾驶的需求,它在自动驾驶方面能够支持8兆(百万像素)和2兆(百万像素),12到19个摄像头,它的算力能够从256(TOPS)到512(TOPS),根据客户需求进行选择,最主要是它能够支持高速和城区的高度自动驾驶。在智能座舱方面,它能够支持100多个模型和功能安全,以及舱内的360°感知,使得人机共驾进行更流畅的人机共驾和实现一个真正的第三空间。
上面介绍了我们的芯片技术和一些解决方案,来如何支持我们的客户和主机厂实现智能汽车的快速落地。这里我想再把我们的商业模式做个简单介绍。我们整体的商业模式是一个丰俭由人的开放共赢商业模式,我们定位是Tier-2,根据主机厂和Tier-1的需求,我们提供芯片、开发工具链和AI训练平台,也可以提供量产级的算法,当然这个是完全根据主机厂的需求来提供。对于硬件客户来讲,我们来提供芯片和硬件参考设计方案,帮助硬件客户快速地开发量产级的硬件,来支持主机厂的需求。对于软件客户来讲,我们提供参考算法、开发板,还有开发工具链,使他们能够在我们的芯片基础上很快地开发出量产级的算法和系统软件算法,来支持主机厂的项目。
我们开放共赢的商业合作模式,得到了业界广泛的认可,目前我们与超过17家主机厂在进行深度合作,前装项目超过了45个,正在开发当中。去年我们的征程芯片出货超过了100万,也是在中国唯一一家实现了车规级芯片量产的企业。我们定位Tier-2,是作为行业的一个赋能者,我们希望以征程芯片作为基石,打造智能汽车产业界的一个全局生态。目前我们与很多主流的主机厂还有新势力都有深度合作,同时跟Tier-1还有硬件、传感器以及软件合作伙伴进行广泛深入的合作,来共同打造智能汽车的发展。
我们坚定地相信,只有共创共赢,我们一起才能走得更远。只有开放才能够共赢。我们愿意与所有的合作伙伴一起,为中国智能汽车的发展和快速落地共同努力。我的分享到这里结束,谢谢大家。