2021HMI大会丨周阳霖：智能时代下场景化HMI交互设计思考

2021年4月13日，由盖世汽车、慕尼黑上海电子展联合主办的“2021中国汽车人机交互HMI创新大会”隆重召开。本次大会旨在聚集汽车HMI领域的杰出人才、UX/UI设计师以及前瞻规划研究人员分享全方位汽车人机交互领域的创新理念、技术趋势、行业焦点、现实挑战及应用解决方案。会议期间，摩斯智联产品与运营高级总监周阳霖发表了“智能时代下场景化HMI交互设计思考”的主题演讲。

人机交互,

以下为演讲实录：

感谢主办方的盛情邀请，我是摩斯智联的周阳霖，今天我给大家带来的分享题目是《智能时代下场景化HMI交互设计思考》。

在主题演讲开始之前，我简要为大家介绍一下摩斯智联。

摩斯智联科技有限公司是一汽-大众与大众中国合资成立、由一汽-大众控股的、从事智能网联产品研发的科技公司。公司自2019年4月落户成都天府新区以来，目前正在承担一汽-大众多个智能网联产品的研发工作。接下来，我们进入到演讲的第一部分内容：智能时代的新挑战。

今天人类社会已经迈入人工智能时代，在这个无比精彩的时代，我们面临着怎样的挑战呢？

在回答这个问题之前，我们先简要回顾一下人工智能的发展历史。自1956年第一次提出“人工智能”概念以来，人工智能一共经历了三次浪潮。当前，我们正处在开始于2007年的第三次人工智能浪潮中。那么回溯2007年，那一年发生了哪些事情，又给我们带来了什么呢？

2007年1月9日苹果公司发布了第一代iphone、2007年11月5日谷歌正式向外界展示安卓操作系统，同样是2007年，比特币开始研究数字货币和支付系统。学术界与产业界把2007年定义为移动互联网和第三次人工智能浪潮的元年，这一年，人类正式跨入全球数字经济。新经济模式带来了新的挑战，让我们一同看看这个新挑战是什么？

三度普利策奖得主，托马斯.弗里德曼用右边这张图为我们描绘了人类适应性与科技发展的关系，我们看到，数万年以来人类的适应性一直在平稳地进化，但是自从2007年第三次人工智能浪潮兴起，科技的发展呈现加速状态，人类适应性与科技之间形成了越来越大的逆差，两者的背离趋势带来了难以熨平的数字鸿沟，这就是智能时代下人类面临的最大挑战。面对新挑战，我们怎么办？

为什么是交互设计来回答智能时代的新挑战呢？我们先来看看交互设计的发展历史。

整个交互设计的发展分为四个阶段：

1、前交互是交互设计的史前时代，此时没有交互设计的概念。人们通常使用工业设计与人机工程去解决相关的问题，如按键、旋钮。

2、伴随着计算机技术的发展，人们完成了最初的交互设计定义。通过提供简单易懂的图形界面使计算机等数字产品能够与人类交互。

3、实体交互，通过物理实体和物理环境，与数字信息进行交流互动的界面，这里的介质主要是物理层面的交流互动，如鼠标、触屏。

4、智能交互，运用智能传感设备与算法，通过语音、手势、表情等自然交互方式，突破硬件界限，实现人与机器之间的交流与沟通。

通过回顾看到，交互设计发展是伴随着科技发展衍生的介质改变而演进。

（动效切换）

因此，设计哲学家理查德.布坎南将交互设计定义为：通过产品的媒介（实体的、虚拟的、服务、甚至是系统）来策划和支持人的行为。

通过交互设计的定义，我们会发现交互设计由传统的对实物的设计转换为对用户行为的非物质设计；与此同时人与设备沟通的主题也从功能逻辑转换为行为逻辑。

那功能逻辑与行为逻辑有什么不同之处呢？

那么功能逻辑与行为逻辑有何区别？交互设计之父阿兰库珀提到过一个比喻：想象有一架客机，客机有两个舱门，左边是飞行员的驾驶舱，右边是乘客舱。

机组需要了解复杂状况下的所有功能，应对各种突发局面；而乘客只想简单渡过几小时后安全舒适抵达目的地，虽然机组和乘客的目的地是相同的，但是涉及不同的是决策复杂度及复杂度背后的心智模型。机组与乘客可以喻指功能逻辑与行为逻辑，功能逻辑复杂强大，强调面面俱到；行为逻辑则在意降低认知成本，关注用户易用爱用。

认知心理学将人类决策过程归纳为自主心智、算法心智和反省心智三种。对心智模型的充分了解可以帮助我们理解如何降低认知成本。

第一个问题，用户的决策几乎是无意识的，不需要消耗注意力，凭直觉做出反应；

第二个问题，用户根据经验，有意识的去分析解决，并且一次只能专注一个任务；

第三个问题，用户无法直接做出决策，需要研究一定的规则、知识，寻求外界手段辅助决策过程。

这三类问题对应了自主心智、算法心智和反省心智

大脑最喜欢自主心智，它有最好的人类适应性

交互设计是通过对行为的设计，以更低认知资源消耗达成用户目标的设计方法。

面对智能时代，交互设计着重关注人类适应性、让人们以更轻松的心智模型应对复杂的科技变化，熨平巨大的数字鸿沟，从而回答了这个时代的挑战。

接下来我们进入场景化HMI交互设计探索

一般而言交互设计一定是在具体场景下进行的，为何格外强调场景化，这就需要从交互设计五要素谈起。

左图是辛向阳博士提出的交互设计五要素。

为了便于理解，我们将交互五要素整合为右图。

这里的主线是用户采取什么样的行为、利用什么样的媒介与工具，在什么样的场景下达成目的。

我们看到，用户与用户目的是相对固定，而行为因场景、媒介的改变而有所不同。

在智能座舱领域，因密闭性、复杂性与多样性，场景因素显得尤为突出。

实事求是的讲，因人类活动的复杂性与多样性，场景化分类远不止以上几种。

在智能座舱的交互设计探索过程中，我们发现需要特别关注这三个场景——驾驶场景、路况场景与乘员场景。前两者关乎注意力，后者关乎用户隐私。

为什么智能交互的时代需要特别关注注意力与隐私呢？这源于智能交互的特征？

多模态、主被动响应、拟人化与个性化是智能交互的3个重要特征。稍加思索就能发现，在不同的场景下，注意力与隐私对这几个特征影响深远。

比如说没有人希望在商务出行的场景下暴露过多个人隐私。

接下来，我们谈一下对这些特征的具体探索。

多模态交互设计的目的是帮助驾驶者降低认知载荷，改善人车交互体验。

多模态设计实践的核心在于注意力带宽的最大节约与重新分配。

因此，与注意力密切相关的驾驶场景和路况场景就显得格外重要。

尤其是在座舱内屏幕显示权重日益增长的今天，显示什么信息、如何显示信息，成为无法回避的重点问题。

接下来，我们先从与显示密切相关的视觉说起。

与互联网、移动互联网等领域已经存在较为统一、成熟的设计标准相比，车内屏幕的显示规范仍在探索发展之中。

但是，共性的理论原则依然可以遵循。

接下来，我们看两个视觉设计实践。

PPI在150以上的液晶仪表与中控屏幕可以带给用户精致感，双屏布局在124°双眼视角之内可以让用户感到一目了然；这些都属于视觉感知原则的实现；

再向细节深挖，我们发现这两块显示屏上的视觉流动也有所不同。

（翻页动画）

左边是液晶仪表遵循的古腾堡图表模式；人类视觉流动从左上至右下，液晶仪表的设计中将重要信息按照这条动线排布，会让用户更快速的获取信息。

右边是中控屏遵循的是F模式和Z路径，中控屏幕的设计把菜单集中在左侧以提升视觉聚焦速度。

以上努力可以有效降低用户认知成本，但驾驶者视线仍难免脱离路面。面对这种情况，让我们进入AR-HUD探索。

AR-HUD的出现是为了帮助驾驶者减轻认知负荷，提高态势感知能力。它秉持“少即是多”的设计原则，简化信息层级，减轻视觉重量。

1、在信息布局上，根据米勒组块理论与希克定律，AR-HUD所呈现的主要设计元素应保持在3个以内

2、在导航信息上，应用格式塔连续性法则，使用视觉重量较轻的蓝色虚线，具备较好的用户体验。

3、在限速与速度信息方面，依据最小努力原则，限速信息使用图标，速度使用文本数字。

接下来我们谈谈听觉这个模态

这里和大家分享一下，听觉交互设计中需要重视的两个方面：语音技能设计和声音情感化设计

在语音技能设计时，需要重视这三点：

1、关注语音的参数设置细节，比如语音终止超时一般是1.5秒，而当用户开始念“手机号码”时，可以将语音终止超时设置的长一些，甚至可以根据不同年龄段的用户设置不同的语音终止超时。

2、常用表达提供的越多，意图理解越准确，我们在设计探索中发现，意图的常用表达下限是30条，上限当然越多越好。

3、有了丰富的技能，还要教会用户怎么说，说什么，关于这点，不仅取决于产品设计，也是一项运营工作。

在声音情感化方面，我们有如下探索发现：

1、在语调方面，30岁左右的女性，柔和、亲切、干练的声音，听感最佳。

2、在语速方面，238-248的字数为舒适区间

3、在语句间停顿方面，0.3-0.4秒让用户感觉最为舒适的。

在我们把视觉和听觉的单一模态做了详尽分析以后，接下来探讨基于不同模态组合的多模态交互设计。

我们将多模态交互分为两大类——融合型多模态交互和递进型多模态交互。

融合型多模态交互指的是多种模态同步协同工作，如听觉+视觉方式。该形式通过对语音和唇语的融合分析，可以降低误唤醒率。同时因视觉识别的引入，人们可以用手指、眼动进行更好的指代，如人们经常说的“这边的空调风小一点，关上那边的窗户”

递进型多模态交互指的是某一模态在前，另一模态在后。比如先监控到驾驶人疲劳，再释放清新香氛。

进行多模态交互设计，必须要了解人类器官的五感能力

左图是来自美国哈佛大学的研究，人的大脑通过五感接受外部信息的比例是不同的，我们看到视觉占比最高。右图显示的是人类对五感的大脑反应速度也是不等的，语音反应最快

多模交互需要多感官协同，这必然导致设计复杂化，那么如何管理这种复杂呢？

第一种方法是感官任务能力分析，我们将感官设计的任务类型分为五类。

在不同任务类型下，感官能力有不同的精度，利用这个框架找到最适合任务的模态通道或模态通道组合。但是，这种方法仅是一个定性的框架，对设计者经验要求较高。下面我们介绍另外一种基于定量的方法。

第二种方法多模态平衡设计，通过VACP模型进行评估计算.

VACP模型是基于人们的视觉、听觉、认知与运动构建的一个数据模型。每一个字母代表不同的通道，V代表是视觉、A代表听觉、C代表认知、P代表运动，每一个通道中有0-7分，分数越高代表占用通道越高。

以分析开车场景为例，驾驶员需要通过视觉来判断目前的方位，通过听觉判断后方是否有鸣笛，在通过认知分析前方交通标记，通过动作进行行车操作。根据这个分析可以充分利用占用级别低的通道进行方案设计。

通过这两个方法可以帮助我们良好的管理客观世界中的复杂场景。

简单小节一下，多模态的交互是基于场景，基于人类生理适应性边界的交互。

接下来我们进行主动响应式交互探索。

先来看看几个主动响应交互的例子。

左图，人们走向车辆，汽车以语音、灯光、全息影像、车外屏等形式来给我们来打招呼，这是迎宾场景

中图，当检测到我们情绪低落时，主动播放有趣的内容；这是心情场景

右图，当监控到我们疲劳时，会发出蜂鸣，利用听觉提醒刺激；这是安全场景

这些场景下的交互存在一个共性——即关怀；体现关怀的主动响应本质上是感知智能，基本对隐私脱敏，也是从业者比较易于发挥的方向。

然而，人工智能更大的舞台是认知智能——即预测，精准的预测推荐需要用户的个性化数据，而这类数据恰恰与隐私高度重合，完善个性化数据才是主动响应交互的深水区。

接下来我们看看如何完善个性化数据。

这是一个关于加油推荐的理想预测模型，梳理一下可以得知，在这个完美案例中，除了油量预警阀值，系统还要知道用户品牌偏好、优惠偏好和时间灵活度。但实事求是的讲，在初始训练样本有限、个性化数据积累困难的实际条件下，这样的主动响应交互很难实现。

为此同济大学的孙效华教授优化了预测模型，将矛盾聚焦在 “用户使用习惯与行为偏好” 、“上下文语境”、“预测正误反馈” 这三类信息获取上。

(过场动效)

其主要思路为：通过多模态交互与拟人化交互，在保证低打扰性的前提下，避免用户一次经历过多交互流程，逐次引导积累用户的偏好输入。把每一次交互，当做人工智能学习的一次起点。

最后我们看一下拟人化与个性化探索

没有人格的语音界面是不存在的，但是在考虑如何设计人格之前，首先要回答三个问题

1、你会让用户问系统自身相关的问题吗？（例如：“你最喜欢的是什么颜色”）

2、你如何处理粗鲁和粗俗的行为？

3、你介意打破用户把VUI看作人类的幻想吗？

认真对待这三个问题，一方面它支撑着人格设定的一些原则，更为重要的是，其背后不但有产品和公司目标，也存在道德和社会目标。

人物模型设计是拟人化交互的关键所在，一般说来分为助手型与伴侣型。助手型的特征是提供便捷高效的服务，伴侣型的特征是提供更多知心关怀。设计中选取哪个类型的拟人化隐喻，需要结合品牌调性、企业形象、产品定位来选择，需要注意的是不同类型的人物模型，在对话脚本、语气、语调、语速、停顿等方面都有明显差异

VUI提供何种可视化反馈，是在设计探索中经常遇到的问题对于一个成功的语音交互而言，虚拟形象并不是一个必选项，亚马逊、谷歌都使用了比较简单抽象的图形表达，抽象图形同样可以产生移情，提供视觉动效反馈。当然，也不是说虚拟角色一无是处，虚拟角色的引入会增强用户的参与度，但凡事有两面性，可视化形象的个性越鲜明，用户反应也会越极端。此外虚拟角色的设计和开发需要投入大量精力，还得谨防掉进恐怖谷陷阱，因此要慎重。

个性化设计是我们本次探索的最后方向。个性化交互不再是所有人学习使用同一系统，而是系统学习不同用户的需求。在智能汽车时代，用户身份识别已成为基础能力。因此，座舱环境、界面展示、交互逻辑、甚至语音语调都将展示出用户的个性化特征。

回顾汽车诞生的一百多年来，个性化一直都是用户需求，并引领设计趋势。在智能时代随着灯语、全息影像、车外屏、智能表面等技术的逐渐普及，越来越个性化的展示也正在实现。右侧这两个概念车，个性化所展示的是车辆与环境交互。人类正在进入自动驾驶的XMI设计时代。

XMI设计是HMI与EMI设计融合。对于下一代自动驾驶汽车，需要将驾驶状态信息传递给环境，从而确保其他车辆和周围的行人也可以对其作出恰当反应，此时整个交互过程就包含了XMI设计。XMI设计对整个交互系统提出了更广泛的要求，如何应对这种要求并将设计体验推向新的高度，这是智能时代留给我们的一个至关重要的思考。

最后总结一下，交互设计是系统设计的顶层，在技术飞速发展的今天，它越来越融入生理学、心理学、AI算法、软件逻辑等各个专业的知识，今天在这里抛砖引玉，期望和大家共同研讨，一起努力把产品做的更好，满足客户对我们的期望，不负这个变革的时代。

我的演讲到此结束，谢谢大家！