CN102426483B

CN102426483B - 一种面向触控设备的多通道精确目标定位方法

Info

Publication number: CN102426483B
Application number: CN 201110445164
Authority: CN
Inventors: 姜映映; 田丰; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2011-12-27
Filing date: 2011-12-27
Publication date: 2013-12-25
Anticipated expiration: 2031-12-27
Also published as: CN102426483A

Abstract

本发明属于人机交互领域，具体涉及一种面向触控设备的多通道精确目标定位方法。本发明利用触控输入和语音输入进行目标定位，触控输入提供可能的目标对象候选集合，语音输入同样提供可能的目标对象候选集合，通过多通道融合算法定位到精确的目标对象。本发明支持触控和语音两种自然的输入通道和自然的交互方式；可以进行更加精确的目标定位，提高触控设备上目标定位相关任务的效率。

Description

一种面向触控设备的多通道精确目标定位方法

所属技术领域

本发明属于人机交互领域，具体涉及一种面向触控设备的多通道精确目标定位方法。

背景技术

在触控设备上，一些任务往往需要用户先定位到目标对象之后进行后续操作。例如，文本编辑操作中，往往需要先将光标定位到目标位置，然后再进行***、删除等操作；地图的浏览过程中，需要先定位到目标位置进行放大后查看；在多个小对象中对单个对象的操作，需要先选择出目标对象。然而，由于手指与触控屏的接触面积较大(参考文献：Fat fingerworries：How older and younger users physically interact with PDAs.In Proc.INTERACT 2005，267-280.)，往往不能精确地选择或定位到目标对象。因此，为用户提供有效、精确的目标定位技术变得尤为重要。

高精度的触摸屏交互技术被广泛研究。Vogel和Baudisch(参考文献：Shift：A technique foroperating pen-based interfaces using touch.In Proc.CHI 2007，657-666.)利用光标偏移技术来解决触控交互中手指输入较大的问题。Olwal等(参考文献：Rubbing and tapping for precise andrapid selection on touch-screen displays.In Proc.CHI 2008，295-304.)、Roudaut等(参考文献：TapTap and MagStick：Improving one-handed target acquisition on small touch-screens.In Proc.AVI 2008，146-153.)、Yang等(参考文献：TouchCuts and TouchZoom：Enhanced target selectionfor touch displays using finger proximity sensing.In Proc.CHI 2011，2585-2594.)和

等(参考文献：FingerGlass：Efficient multiscale interaction on multitouch screens.In Proc.CHI 2011，1343-1352.)利用放缩技术来支持精确的交互。Yatani等(参考文献：Escape：A target selectiontechnique using visually-cued gestures.In Proc.CHI 2008，285-294.)采用具有视觉提示的手势来加快选择目标对象时的速度。Benko等(参考文献：Precise selection techniques for multi-touchscreens.In Proc.CHI 2006，1263-1272.)和Olwal等(参考文献：Rubbing and tapping for preciseand rapid selection on touch-screen displays.In Proc.CHI 2008，295-304.)使用双手指选择来帮助精确定位。Albinsson和Zhai(参考文献：High precision touch screen interaction.In Proc.CHI2003，105-112.)设计了一些交互工具来支持精确的交互。Froehlich等(参考文献：Barrierpointing：using physical edges to assist target acquisition on mobile device touch screens.In Proc.ASSETS 2007，19-26.)则利用移动设备的物理边框来辅助目标的获取。尽管这些技术支持触控设备上更加精确的交互，在一次触摸点击操作后，它们往往需要额外的调整操作。

多个输入通道可以提供互补的和冗余的信息，可被用于设计新的交互技术。例如，Hinckley和Song(参考文献：Sensor Synaesthesia：Touch in Motion，and Motion in Touch.In Proc.CHI 2011，801-810.)将结合多点触摸和运动感知的优势，支持更丰富的触摸交互。Wigdor和Balakrishman(参考文献：TiltText：using tilt for text input to mobile phones.In Proc.UIST 2003，81-90.)设计了TiltText，支持用户在按键的同时倾斜手机以输入目标字符。Jiang等(参考文献：Multimodal Chinese text entry with speech and keypad on mobile devices.In Proc.IUI 2008，341-344.)结合语音和键盘输入，支持移动设备上更加高效的中文文本输入。这些方法在提供更丰富的交互技术和提高效率等方面非常有用，但它们并不是为精确目标定位问题而设计，不能被简单得应用于该问题的解决中。

发明内容

本发明的目的在于利用多通道输入，提供一种触控设备上的目标定位方法，从而提高触控输入目标定位的准确性。该方法融合了触控输入和语音输入：非精确的触控输入提供目标对象的一系列可能位置，语音输入用于确定目标的精确位置；通过对触控输入和语音输入进行多通道融合而定位到最终的目标对象，如图1所示。

具体来说，本发明采用的技术方案如下：

一种面向触控设备的多通道精确目标定位方法，其步骤包括：

1)采集触控设备上的触控输入和语音输入，得到触控输入对应的目标候选集合和语音输入对应的目标候选集合；

2)通过多通道融合算法计算所述目标候选的可信度，将可信度最高的目标候选的位置确定为最终的定位位置。

进一步地，所述触控设备需要既支持触控输入，也支持语音输入。可以是触控手机，如iPhone、Google Phone等，可以是各类触控平板电脑，如iPad、乐Pad等，也可以是触控桌面等。本发明的目标定位方法不受限于用于定位的形式，如光标、小按钮等。

进一步地，所述触控输入指向目标对象的位置，触控输入的采集可以基于现有触控操作***(如Android，iOS，Windows Phone等)提供的接口获得。获得的信息包括***计算得到的当前触控点的位置、触控区域的面积等。手指触摸覆盖区域包含了可能的目标位置，它们组成目标对象候选集合。每个目标候选的可信度与该目标位置与***检测到的触控点的距离的大小成反比，距离触控点越近的目标候选的可信度越大。在符合该原则的基础上，候选集合和可信度的具体定义可以由开发者定义。例如，在光标定位时，可由***检测到的光标位置获得周边的光标位置，组成光标位置候选集合，光标位置的可信度随着距离***得到的光标位置的变大而降低。

进一步地，所述语音输入的内容为目标对象相关的语音。例如，语音输入可以是目标对象的名称或者其它相关属性。与触控输入时间上最邻近的语音输入为当前触控输入对应的语音输入。语音输入可以由语音识别引擎识别得到一些识别结果的候选以及它们的可信度。语音识别引擎可以是现有触控操作***提供的语音识别引擎(如Google的Speech API)，也可以是第三方的语音识别引擎(如iSpeech等)。

进一步地，所述多通道融合算法的计算公式为：

p(c_i)＝a*p(c_i|T)+(1-a)*p(c_i|S) (1)

其中，T为触控输入对应的目标候选集合；S为语音输入对应的目标候选集合；c_i是T中的第i个候选；p(c_i|T)是触控输入情况下目标位置c_i的可信度；p(c_i|S)是语音输入情况下目标位置c_i的可信度；p(c_i)是c_i作为最终目标对象的可信度；a和(1-a)是触控输入和语音输入在决定目标对象时所占的比重，可以依据不同类型的用户进行调整。根据公式(1)计算得到的可信度最高的目标候选的位置即为最终的定位位置，如图2所示。

与现有技术相比，本发明具有的优点和积极效果如下：

1)本发明支持更加精确的目标定位，从而可以提高触控设备上目标定位的效率。

2)本发明采用触控和语音两种自然的输入通道，因而可以支持自然的交互。

3)本发明采用语音输入和触控输入，由于大部分触控设备支持语音输入，该技术可以方便地被触控设备所采用。

附图说明

图1为本发明面向触控设备的多通道精确目标定位方法的示意图。

图2为本发明触控输入和语音输入的多通道融合算法的示意图。

图3为本发明实施例的文本编辑中光标定位方法的示意图。

图4为本发明实施例中采用光标进行定位的实例(定位到“touchscreen”中的字符‘h’与‘s’之间)的示意图，其中：(a)触摸目标位置并用语音说出目标位置后面的第一个字符‘s’；(b)手指覆盖的较大的区域；(c)可能的光标位置；(d)通过语音输入确定精确的光标位置。

具体实施方式

为使本发明的目的、特征和优点能更明显易懂，下文通过具体实施例，并结合附图，做详细的说明。

目前移动设备上基于触控的交互目前非常常见，在这些设备上用户常常使用短信、邮件、记事本等应用。在这些应用中，光标常常被用于指定文本输入和编辑任务执行的具***置。由于移动设备上的文本较小而用于触控交互的手指则相对较大，手指的触摸区域可能覆盖在不同行和列的多个字符，这使得将光标定位于目标位置的效率变得低下并且易于出错。此外，触摸屏上的字符往往较小并且互相邻近，将光标定位于两个邻近的窄字符(如“ij”)之间变得尤为困难。本发明方法为该问题提供了一种解决方法。

本实施例支持用户在触控手机上进行更加有效、精确的光标定位操作；具体实施在GoogleNexus S手机上，其屏幕大小为4.0寸，分辨率为480×800，操作***为Android 2.3。

图3给出该实施方式的示意图。在定位光标时，用户在触摸屏幕的目标光标位置的同时用语音说出目标光标位置后面的字符。此实施例中，语音输入的内容设定为目标光标位置后面的第一个字符，但本发明并不限于此，其它设定(如目标光标位置前面的字符等)具有类似的效果。Android***采集得到手指触摸屏幕的光标位置，取得该光标周围(上、下、左、右)的字符，组成光标位置的候选集合；基于Google Speech API的语音识别引擎得到语音输入的字符候选集。通过融合触控输入的候选集合和语音候选集(p(ci)的计算公式中a的值设定为0.5)，得到手指触控光标候选集合中每个光标位置的可信度。可信度最高的光标位置为最终的光标位置。

图4给出上述实施例中对光标进行定位的一个实例。当用户试图定位光标到“touchscreen”中‘h’和‘s’之间时，用户用手指点击该光标位置，并且同时用语音说出‘s’(图4a)。用户的手指覆盖了多个字符(图4b和图4c)。此时，Android***根据用户手指的触控输入得到的光标位置位于“touchscreen”中的‘c’和‘h’之间，与用户的意图并不相同。通过利用语音输入并进行多通道融合，可以将光标正确地定位到‘h’与‘s’之间(图4d)。

针对图4中的实例，下面进一步介绍其多通道融合算法。触控输入生成了12个候选的光标位置，光标可以位于‘h’、‘c’、‘s’、‘u’、‘c’、‘’、‘d’、‘l’、‘e’、‘e’、‘e’、‘e’之前，它们依据可信度由高到低排序。该可信度随着候选光标位置与***得到的光标位置的距离的变大而降低。通过语音识别引擎识别得到语音识别结果的候选‘s’、‘f’和‘a’，并按可信度由高到低排列。语音输入的可信度一种方式是由语音识别引擎直接提供；另外一种方式是由技术开发人员根据语音识别引擎返回的识别候选结果的顺序定义可信度，需要满足如下原则：在候选结果序列中越靠前的识别候选的可信度越高。然后经过融合算法，即采用公式(1)，可计算得到按照可信度由高到低排序的触控输入的光标位置为：‘s’、‘h’、‘c’、‘u’、‘c’、‘’、‘d’、‘l’、‘e’、‘e’、‘e’、‘e’。因此，具有最高可信的光标位置为字符‘s’前，它将作为最终的光标位置，即用户期望的光标位置。

在上述实施例中，应用公式(1)时，a和(1-a)是触控输入和语音输入在决定目标对象时所占的比重，可以依据不同类型的用户进行调整。当用户的语音输入比较不规范或者环境噪音较大时，语音识别正确率降低，可以将a的值设定得大一些，这样定位方法对触控输入的依赖就大一些；反之，当语音输入规范且环境安静时，可以调高语音输入在定位中的作用，即将a的值设定的小一些。本实施例中对触控输入和语音输入同等考虑，将a设为0.5。

以上通过实施例对本发明所述的面向触控设备的多通道精确目标定位的方法进行了详细的说明，但本发明的具体实现形式并不局限于此。本领域的一般技术人员，可以在不背离本发明所述方法的精神和原则的情况下对其进行各种显而易见的变化与修改。本发明的保护范围应以权利要求书所述为准。

Claims

1.一种面向触控设备的多通道精确目标定位方法，其步骤包括：

1）采集触控设备上的触控输入和语音输入，得到所述触控输入对应的目标候选集合和所述语音输入对应的目标候选集合；

2）通过多通道融合算法计算所述目标候选的可信度，将可信度最高的目标候选的位置确定为最终的定位位置；所述多通道融合算法的计算公式为：

p (c_{i}) = a * p (c_{i} | T) + (1 - a) * p (c_{i} | S)

其中，T为触控输入对应的目标候选集合，S为语音输入对应的目标候选集合，ci是T中的第i个候选，p(ci|T)是触控输入情况下目标位置ci的可信度，p(ci|S)是语音输入情况下目标位置ci的可信度，p(ci)是ci作为最终目标对象的可信度，a和(1-a)是触控输入和语音输入在决定目标对象时所占的比重。

2.如权利要求1所述的方法，其特征在于，所述触控设备是支持触控输入和语音输入的触控手机、触控平板电脑或触控桌面。

3.如权利要求2所述的方法，其特征在于，所述触控设备采用光标或小按钮进行所述定位。

4.如权利要求2所述的方法，其特征在于，所述触控输入基于触控操作***提供的接口获得，所述触控操作***包括Android、iOS和Windows Phone。

5.如权利要求4所述的方法，其特征在于，通过所述触控输入获得的信息包括：触控点的位置、触控区域的面积。

6.如权利要求1所述的方法，其特征在于，所述触控输入对应的目标候选集合中每个目标候选的可信度与从该目标位置至***检测到的触控点的距离的大小成反比。

7.如权利要求1所述的方法，其特征在于，所述语音输入的内容与目标对象相关。

8.如权利要求7所述的方法，其特征在于，所述语音输入的内容为目标对象的名称。

9.如权利要求1所述的方法，其特征在于，通过语音识别引擎识别所述语音输入并得到所述语音输入的可信度。

10.如权利要求9所述的方法，其特征在于，所述语音识别引擎是现有触控操作***提供的语音识别引擎，包括Google的Speech API；或是第三方的语音识别引擎，包括iSpeech。