简单、准确、高效:改进计算机手势识别的方法

文章正文
发布时间:2024-11-09 22:48

本研究中九个互动的手势图片。(图片来源:zhang等人;Doi:10.1117/1.JEI.30.6.063026.)

在2002年科幻大片《少数派报告》(Minority Report)中,由Tom Cruise扮演的John Anderton用他戴着特殊手套的手与墙一般大小的透明电脑屏幕对接,电脑可以识别出他的手势,放大或轻扫。尽管这种人机互动的畅想距今已有20年,但人们今天仍然需要通过鼠标、键盘遥控器或小型的触摸屏与计算机互动。研究人员为了免去用户与设备之间的接触,已经投入大量的精力以解锁更自然的互动方式。语音指令是一个显而易见的例子,它已经被应用到手机和虚拟助手中,它可以让我们通过语音的方式控制设备或进行互动。

手势是人机交流的另一种重要模式。照相系统、图像分析与机器学习领域最新的进展使得基于光学的手势识别在大多数情况下,成为一个比Anderton在《少数派报告》中使用的手套(该手套依靠可穿戴传感器或数据)更有吸引力的选择。然而,目前存在计算的复杂性、低速度、准确性差或可识别的手势数量少等各方面上的限制。为了解决这些问题,由中国中山大学的Zhiyi Yu教授领导的团队最近开发了一种新的手势识别算法,它在复杂性、准确性与适用性之间取得了良好的平衡。正如他们发表在《电子成像杂志》(Journal of Electronic Imaging)的论文中所叙述的那样,该团队采用了创新的策略以克服关键的挑战,并且实现了一种可以轻松应用于消费级设备的算法。

(图片来源:Pixabay)

该算法的主要特点之一是对不同手型的适应性。该算法首先尝试根据手掌宽度、手掌长度以及手指长度间的关系,将用户的手型分为纤细、正常或宽大三类。如果分类成功的话,手势识别的后续过程中只需要将输入手势与存储的相同手型的样本进行比较。Yu解释道:“由于无法应对不同的手型,传统简单的算法往往会出现识别率低的问题。而先通过手型对输入的手势进行分类,之后再使用与其类型相匹配的样本库,这种方法可以在几乎忽略不记的资源消耗率下,提高总体的识别率。”

(图片来源:Pixabay)

该团队方法的另一关键之处在于使用了“快捷功能”来执行预识别步骤。尽管识别算法能够从九个可能的手势中识别出我们所需的,但将输入手势的所有特征与所有的样本进行比较将非常耗时。为了解决这一问题,预识别步骤将计算手部面积的比率,在可能的九个手势中选择三个最可能的手势,将候选量减小到三个。在这三个手势中,基于“Hu不变矩”提取更为复杂且精准的特征,以决定最终的手势。Yu说:“手势预识别步骤不仅减少了所需的计算量和硬件资源,还在不影响准确率的情况下提高了识别速度。”

该团队在商用PC处理器以及使用USB摄像头的FPGA平台中测试了他们的算法。他们让40名志愿者多次作出九种手势以建立样本库,并让另外的40名志愿者检测系统的准确性。从结果看来,该方法可以实时的识别手势,且即使输入的手势图像被旋转,变形或缩放,它的准确率仍高于93%。据研究人员称,未来的工作将集中于改善该算法在恶劣光线条件下的性能,并且增加可能的手势数量。

手势识别具有广阔的应用前景,它可以为控制电子设备的新方法开辟道路,一场人机互动的革命可能尽在眼前!

翻译:彭琛

审校:汪茹

引进来源:SPIE(The international society for optics and photonics)

本文来自:中国数字科技馆

特别声明:本文转载仅仅是出于科普传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或其它相关事宜,请与我们接洽。