1946 年, 世界上第一台通用计算机 ENIAC 诞生, 它是一个重达 30吨,占地 170 平方的庞然大物( 图一左),计算速度为每秒 5000 次加法运算, 最早被美国国防部应用于弹道计算。自此人机交互领域登上历史舞台,此后我们不断思索,人类与计算机究竟应该如何进行“ 交流”呢?人机交互( Human–Machine Interaction)是一门研究用户与系统之间
交互关系的领域, 服务于我们生活的方方面面( 图一右) , 系统可以是机器, 也可以是计算机化的系统和软件。
图一
1964 年美国人道格发明实际意义上的鼠标, 标志着第一代人机交互登上历史舞台, 深刻影响着科技发展的方向。其强调增强人的智能, 把人而不是机器放在人机交互的中心位置, 奠定人机交互的发展基调, 程序员职业就此“ 诞生”。如今键盘和鼠标仍然作为人机交互的重要手段,极大推动了个人计算机的应用, 成就个人电脑时代的辉煌。
“ 集成电路上可以容纳晶体管数目每经过 18 个月便会增加一倍” ,在摩尔定律的预言下, 集成电路的发展推动着第二代人机交互的历史车轮滚滚前行, 现如今最新的 3nm 制程的集成芯片即将量产落地。与此同时, 交互方式也由最初的命令行交互过渡到以窗口( Windows) 、菜单
( Menu)、图符( Icons) 和指示装置( Pointing Devices) 为基础的图形用户交互( 图二上) , 也称 WIMP 交互。相比第一代交互方式, 其增加多个模态建立与人们的联系途径, 极大提升人机交互的便携性, 人们不再需要面向冰冷的键盘。交互媒介可以是戴在手上的运动手表, 可以是躺在卧室书桌上的智能语音音箱,亦或是路上行驶的自动辅助驾驶汽车,飞入寻常百姓家。
步入二十一世纪二十年代, 我们不断探索第三代人机交互方式。科幻电影《阿凡达》中呈现三维交互方式( 图二下) , 人们可以用手直接移动虚拟三维立体画面的转动与放缩; 同样, 在电影《钢铁侠》中, 眼动交互控制查看信息同样吸引人们眼球, 不难发现他们都是贴近最自然的交互方式,而后者钢铁侠使用到的眼动追踪技术便是本次科普的主角。
图二
眼动追踪是指通过对眼球运动信息的实时获取, 利用光线信息进行三维建模的技术。当前眼动追踪大多是基于眼球视频分析( VOG,Video graphic) 的“ 非侵入式” 方法, 将一束近红外光线对准被试者的眼睛,通过检测瞳孔区域与红外光反射点建立空间向量映射关系, 推测被试者注视的方位, 把我们的视觉注意点显示在电子屏幕上。除此之外, 还有眼电图法、机器学习等方法, 但由于眼动追踪需要极强的稳定性, 因此基于眼球视频分析仍然是目前的主流方法。
基于视频的眼动追踪系统通常包括一个可见光摄像机, 近红外光发射器以及用于瞳孔中心检测的实时算法处理平台。在可见光摄像机获取眼部图像后, 首要解决是寻找瞳孔区域位置。常用的近红外瞳孔检测技术分为明瞳和暗瞳, 通常我们使用暗瞳作为主要的检测方法( 图三蓝色区域) 。它们的差异基于近红外光源相对于光学系统的位置。如果照明与光路同轴, 则当光从视网膜反射时, 眼睛将充当反射器, 从而产生类似于红眼的明亮瞳孔效果。如果近红外光源偏离光路, 则瞳孔会变暗。
图三
瞳孔区域检测完成后, 我们使用计算机视觉算法锁定瞳孔区域中心位置, 由于蓝色瞳孔区域近似于圆形, 所以我们将瞳孔区域的圆心作为视线基准中心坐标( 图三白色直线交点)。随后计算近红外光反射点( 图三黄色斑点) 与基准坐标间的相对位置, 建立向量映射关系。当眼球观察至不同方位时, 计算后的向量方位也会发生改变, 根据向量方位的移动就可以实时获取人眼的真实注视点位置, 实现眼动追踪。
国防军事一直是科技发展的急先锋, 眼动追踪技术诞生以来受到了各国军方的高度重视。2021 年 1 月, 央视军事频道详细介绍已批量列装的直-10 第二代头瞄系统,其大曲面目镜上集成了直升机飞行员所需信息和功能, 这意味着飞行员第一时间获取飞行信息, 增强飞行员与机载航电系统的交互能力。更重要的是,直- 10 头瞄系统搭载眼动追踪功能( 图四左) , 飞行员只需要目视攻击目标就能将其锁定先发制人, 引导机炮或导弹对其发起精准攻击, 实现“ 看哪儿打哪儿” 。
除此之外, 眼动追踪技术已经广泛应用于汽车疲劳驾驶检测中( 图四右) , 当人们在驾驶过程中查看手机或产生疲劳状态, 眼动追踪技术检测出眼部视线偏离前方道路, 系统会实时给予警示, 实时保障驾驶员的行驶安全。
图四
于是, 一个冬日的清晨, 你挥一挥手, 窗帘便缓缓拉开, 第一缕阳光倾泻而下; 当你身处山峦叠嶂之中, 眨一眨眼, 佩戴的智能眼镜便会进行拍照, 美丽的风景便会定格成照片, 成为永恒记忆。我们有理由相信, 借助全新的第三代人机交互技术, 只需要挥动手指、转动眼睛、生活就会变得轻松而写意。