CN107132961A

CN107132961A - 定点支持装置和定点支持方法

Info

Publication number: CN107132961A
Application number: CN201710096283.8A
Authority: CN
Inventors: 中山宽; 小田切淳; 小田切淳一; 中岛哲; 村濑健太郎; 田中正清
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-02-29
Filing date: 2017-02-22
Publication date: 2017-09-05
Anticipated expiration: 2037-02-22
Also published as: CN107132961B; JP6597397B2; JP2017156839A; US10228905B2; US20170249124A1

Abstract

本公开提供了一种定点支持装置和定点支持方法，该定点支持装置包括存储器和处理器，该处理器耦接至存储器并且被配置成：检测用户在画面上的视线位置；提取画面的关于视线位置的搜索范围中包括的命令；生成表，在该表中，命令和该命令的语音信息彼此关联；以及当接受来自外部的语音信息时，基于所识别的语音信息与表中的语音信息的比较来决定命令。

Description

定点支持装置和定点支持方法

相关申请的交叉引用

本申请基于并且要求于2016年2月29日提交的第2016-037415号在先日本专利申请的优先权的权益，其全部内容通过引用而并入本文。

技术领域

本实施方式涉及定点支持装置和定点支持方法。

背景技术

近些年，包括图形用户接口(GUI)的信息装置例如个人计算机(PC)、平板终端或智能电话已经变得普及。用户通过定点到位于GUI的任意位置处的诸如图标、按钮或命令选项卡的目标来操作信息装置。

到信息装置的定点是通过由该信息装置的用户的上肢对鼠标进行的操作或通过由手指在触摸板或触摸面板上进行的操作来执行的。因此，具有不能良好工作的上肢或手指的身体残疾的人、老年人等难以操作包括GUI的信息装置。

关于这个问题，存在一种传统技术，即使用户不通过上肢或手指执行直接操作，该传统技术也执行用户的语音识别并且可以执行定点。

图19是示出传统技术的图。根据该传统技术，如果在窗口10A处于打开的状态下识别出用户说出“显示数字”，则执行以下处理。传统技术给与可以由鼠标在窗口10A上选择的按钮、图标、命令选项卡等对应的区域分配唯一编号以被显示。用户说出分配给要选择的区域的编号，并且传统技术通过语音识别来决定所选择的区域。例如，如果用户查阅窗口10A中的每个编号并且想要选择图19中的编号“10”的区域，则用户说出“十”，并且传统技术通过语音识别来决定选择编号“10”的区域。

引用列表

[非专利文献]

[非专利文献1]微软“Method of Using Speech Recognition(使用语音识别的方法)”，[被检索于2016年2月10日]，因特网<URL:http://windows.microsoft.com/ja-jp/windows-8/using-speech-recognition>

发明内容

根据实施方式的一个方面，一种定点支持装置包括存储器和处理器，该处理器耦接至存储器并且被配置成：检测用户在画面上的视线位置；提取画面上的关于视线位置的搜索范围中包括的命令；生成表，在该表中，命令和该命令的语音信息彼此关联；以及当接受来自外部的语音信息时，基于所识别的语音信息与表中的语音信息的比较来决定命令。

借助于权利要求书中具体指出的元素和组合来实现和达到本发明的目的和优点。

应当理解，如所要求保护的那样，前面的整体描述和下面的详细描述是示例性的和说明性的并且不限制本发明。

附图说明

图1是示出根据工作示例1的定点支持装置的处理的示例的图；

图2是图示根据工作示例1的定点支持装置的配置的功能框图；

图3是示出根据工作示例1的命令字典表的数据结构的示例的图；

图4是示出根据工作示例1的命令字典缓存表的数据结构的示例的图；

图5是示出根据工作示例1的定点支持装置的处理过程的流程图；

图6是示出根据工作示例1的定点支持装置的处理过程的流程图；

图7是示出路径定义表的数据结构的示例的图；

图8是示出第一路径定义的图；

图9是示出第二路径定义的图；

图10是示出第三路径定义的图；

图11是图示根据工作示例2的定点支持装置的配置的功能框图；

图12是示出状态画面图像的图；

图13是示出显示控制单元的处理的图；

图14是示出显示控制单元的处理的图；

图15是示出根据工作示例2的定点支持装置的处理过程的流程图；

图16是示出根据工作示例2的定点支持装置的处理过程的流程图；

图17是示出根据工作示例2的定点支持装置的处理过程的流程图；

图18是图示执行定点支持程序的计算机的示例的图；以及

图19是示出传统技术的图。

具体实施方式

上述传统技术具有难以高效地执行定点的问题。

由于存在识别率随着说话周期的减小而劣化的趋势，因此如果如在传统技术中一样说出编号，则说话周期有时太短以至于难以适当地决定用户期望的区域。此外，在传统技术中，由于每次向同一窗口中的同一按钮分配不同的编号，因此传统技术对于其用户的使用方便性不好。此外，在传统技术中，一直以与在图标、按钮或命令选项卡上显示的信息交叠的关系来显示编号，因此，还存在不能容易地注意到原始命令的问题。

在一个方面，本实施方式的目的是为了提供一种通过其可以高效地执行定点的定点支持装置、定点支持方法以及定点支持程序。

在下文中，参照附图详细描述根据实施方式的定点支持装置、定点装置方法以及定点支持程序的工作示例。应该注意，本实施方式不应当受限于工作示例。

[工作示例1]

图1是示出根据工作示例1的定点支持装置的处理的示例的图。图1中图示的应用画面图像50包括命令51a、51b、51c、51d、51e、51f和51g。定点支持装置执行对用户的视线检测以检测视线位置52。定点支持装置提取在以视线位置52的位置为中心的搜索范围53中包括的命令51c、51d、51e和51f。

定点支持装置生成要用于命令51c、51d、51e和51f的语音识别的命令字典表。例如，定点支持装置将以下信息登记到命令字典表中：该信息将命令51c与语音识别数据“noval”关联并且将命令51d与语音识别数据“reply(riplai)”关联。此外，定点支持装置将以下信息登记到命令字典表中：该信息将命令51e与语音识别数据“transfer”关联并且将命令51f与语音识别数据“search”关联。

例如，如果用户说出“reply(riplai)”，则定点支持装置执行语音识别。定点支持装置将语音识别的结果和命令字典表中的各个语音识别数据彼此进行比较以指定与语音识别的结果对应的语音识别数据的命令“reply”。然后，定点支持装置将指针的位置移动到针对reply的命令51d的位置。

当定点支持装置执行如图1中所示的这样的处理时，手臂、手或脚不便的身体残疾人、老年人等可以在不使用鼠标等的情况下没有压力地在GUI画面图像上对命令高效地执行高精度的选择。

现在描述根据工作示例1的定点支持装置的配置。图2是图示根据工作示例1的定点支持装置的配置的功能框图。如图2中所示，定点支持装置100包括视线输入单元110、输入单元120、语音输入单元130、显示单元140、存储单元150和控制单元160。

视线输入单元110是用于输入用户的视线的装置。例如，视线输入单元110与摄像装置对应。视线输入单元110拾取用户的脸部的图像并且将拾取的脸部图像的数据输出至控制单元160。

输入单元120是包括可以被用户按压的按钮的开关。输入单元120将表示按钮是否被按压的信号输出至控制单元160。

语音输入单元130是用于获取用户说出的语音的装置。例如，语音输入单元130与麦克风对应。语音输入单元130将用户的语音的数据输出至控制单元160。

显示单元140是显示从控制单元160输出的各种信息的显示装置。显示单元140与液晶显示单元、触摸面板等对应。

存储单元150包括命令字典表151和命令字典缓存表152。存储单元150与半导体存储元件比如随机存取存储器(RAM)、只读存储器(ROM)、或闪存或诸如硬盘驱动器(HDD)的存储装置对应。

命令字典表151与参照图1描述的命令字典表对应并且将命令的信息和命令的语音识别数据彼此关联。图3是示出根据工作示例1的命令字典表的数据结构的示例的图。如图3所示，命令字典表151将提取命令字符码串、位置坐标以及语音识别数据彼此关联。

参照图3，提取命令字符码串指示从画面图像上以视线位置的位置为中心的搜索范围内提取的命令的字符码串。位置坐标指示提取的命令在画面图像上的位置坐标。语音识别数据是用于识别命令的语音数据。例如，在图3的第一行的记录中，登记有“novel”的字符码串；登记有“novel”的命令的坐标“x1，y1”；并且登记有的语音识别数据。

命令字典缓存表152是用于使命令字典表151的生成高效的表。图4是示出根据工作示例1的命令字典缓存表的数据结构的示例的图。如图4所示，命令字典缓存表152将命令字符码串与语音识别数据彼此关联。

参照图4，命令字符码串指示在画面图像中包括的所有命令的字符码串。语音识别数据是用于识别每个命令的语音数据。例如，在图4的第一行的记录中，登记有“reception”的字符码串，并且登记有的语音识别数据。

返回参照图2，控制单元160包括视线位置检测单元161、命令提取单元162、生成单元163、决定单元164以及显示控制单元165。控制单元160与集成装置例如专用集成电路(ASIC)或现场可编程门阵列(FPGA)对应。此外，控制单元160与电子电路例如中央处理单元(CPU)和微处理单元(MPU)对应。

视线位置检测单元161是对用户在显示单元140的画面图像上的视线位置进行检测的处理单元。视线位置检测单元161将视线位置的信息输出至命令提取单元162。

视线位置检测单元161可以使用任何传统技术来检测用户的视线位置。例如，每当视线位置检测单元161从视线输入单元110获取面部图像数据时，视线位置检测单元161对面部图像数据执行图像分析以指定用户的眼部的移动点和参考点。视线位置检测单元161根据参考点与移动点之间的关系来检测用户的视线位置。参考点和移动点的集合对应于与用户的眼部相关的虹膜和内角的集合或者对应于与用户的眼部相关的瞳孔和角膜反射的集合。视线位置检测单元161可以使用在日本特开专利公布第2012-187190号中公开的技术来检测视线位置。

命令提取单元162是指定视线位置的初始位置并且提取画面图像上的相对于初始位置的搜索范围中包括的命令的处理单元。例如，命令提取单元162将在由用户按压输入单元120的时刻的视线位置指定为初始位置。命令提取单元162将所提取的命令的信息输出至生成单元163和显示控制单元165。例如，命令的信息是将命令的字符码串与命令的位置坐标彼此关联的信息。

命令提取单元162可以使用任何传统技术来提起在画面图像上的搜索范围内的命令。例如，彼此比较分别定义在画面图像上显示的命令的位置以及命令的字符码串、属性等的画面图像信息与相对于初始位置的搜索范围以提取命令的信息。

生成单元163是基于从命令提取单元162获取的命令的信息来生成命令字典表151的处理单元。以下描述生成单元163的处理。生成单元163在生成命令字典表151之前预先生成命令字典缓存表152。

描述当生成单元163生成命令字典缓存表152时进行的处理的示例。如果生成单元163检测到画面图像被呈现为可由用户操作，则生成单元163扫描活动画面图像的画面图像信息并且提取在画面图像中包括的所有命令的字符码串。生成单元163将提取的字符码串登记到命令字典缓存表152的命令字符码串中。

生成单元163生成与命令字典缓存表152中登记的字符码串对应的语音识别数据，并且将所生成的语音识别数据以与字符码串关联的关系登记到命令字典缓存表152中。

生成单元163可以使用任何传统技术来生成与字符码串对应的语音识别数据。例如，生成单元163对每个字符码串进行分析以指定读取的方式并且将与读取的方式的各个字符对应的声音进行组合以生成语音识别数据。

例如，生成单元163对字符码串“novel”进行分析以指定读取的方式并且将与各个字符“n”、“a”、“v”、和“l”对应的声音进行组合以生成字符码串“novel”的语音识别数据。应该注意，各个字符的声音被存储在未示出的声音数据库中并且生成单元163查阅声音数据库以获取各个字符的声音的数据。

应该注意，虽然前述描述涉及以下情况，但是命令字典表151的生成不限于此：生成单元163预先生成命令字典缓存表152，并且当生成单元163生成命令字典表151时，其使用命令字典缓存表152。例如，生成单元163可以在不生成命令字典缓存表152的情况下直接生成命令字典表151。

现在，描述当生成单元163利用命令字典缓存表152来生成命令字典表151时执行的处理的示例。如果生成单元163接受来自命令提取单元162的命令的信息，则生成单元163将命令的字符码串与命令的位置坐标以彼此关联的关系登记到命令字典表151中。

此外，生成单元163将命令的字符码串与命令字典缓存表152彼此进行比较，并且从命令字典缓存表152中获取与该命令的字符码串相同的字符码串关联的语音识别数据。生成单元163将所获取的语音识别数据以与字符码串关联的关系登记到命令字典表151中。

例如，假定生成单元163从命令提取单元162获取命令的字符码串“novel”。在这种情况下，生成单元163从命令字典缓存表152中获取与命令的字符码串“novel”对应的语音识别数据生成单元163将字符码串“novel”与语音识别数据以彼此关联的关系登记到命令字典表151中。

决定单元164是基于来自语音输入单元130的用户的语音的数据和命令字典表151来决定命令的处理单元。决定单元164将命令的位置坐标输出至显示控制单元165。在以下描述中，用户的语音的数据被合适地称为语音数据。

此处，具体地描述决定单元164的处理。决定单元164将语音数据与命令字典表151中的每条语音识别数据彼此进行比较并且计算它们之间的相似度。决定单元164指定呈现与语音数据的相似度最高的语音识别数据并且决定选择与所指定的语音识别数据关联的命令。决定单元164将与所指定的语音识别数据关联的命令的位置坐标输出至显示控制单元165。

例如，假定通过语音数据与每条语音识别数据彼此之间的比较以计算它们之间的相似度，决定单元164决定“riplai”的语音识别数据与语音数据指示最高相似度。在这种情况下，决定单元164决定选择命令“reply”并且将命令“reply”的位置坐标(x2，y2)输出至显示控制单元165。

应该注意，当决定单元164将语音数据与每条语音识别数据进行比较并且计算它们之间的相似度时，如果相似度均低于阈值，则决定单元164可以不执行用于决定命令的处理而可以从语音输入单元130再次获取语音数据并且执行上述处理。

显示控制单元165是执行以下处理的处理单元：将未图示的画面图像信息输出至显示单元140以使得画面图像信息被显示在显示单元140上的处理或者响应于输入单元120或决定单元164的操作而接受指针的移动或者对命令的选择的处理。显示控制单元165当其接受对命令的选择时根据对命令的选择执行处理并且使显示单元140显示处理的结果。

例如，如果显示控制单元165从决定单元164获取位置坐标，则显示控制单元165使指针移动至画面图像上的与该位置坐标对应的位置。如果显示控制单元165从输入单元120接受按钮被按压的信号，则显示控制单元165决定选择与指针交叠的位置处的命令并且根据该命令执行处理。

此外，显示控制单元165从命令提取单元162获取画面图像上的在搜索范围中包括的命令的信息，并且强调地显示在搜索范围中包括的命令的区域。

现在描述根据工作示例1的定点支持装置100的处理过程。图5和图6是示出根据工作示例1的定点支持装置的处理过程的流程图。如图5所示，定点支持装置100的生成单元163从呈现为可操作的画面图像中提取命令的字符码串并且生成命令字典缓存表152(步骤S101)。

定点支持装置100的视线位置检测单元161检测画面图像上的视线位置(步骤S102)。视线位置检测单元161决定是否接收到视线设置指令(步骤S103)。如果未接收到视线设置指令(步骤S103，否)，则视线位置检测单元161将处理前进至步骤S102。如果接收到视线设置指令(步骤S103，是)，则视线位置检测单元161将处理前进至步骤S104。例如，如果用户按压输入单元120的按钮，则视线位置检测单元161决定接收到视线设置指令。

定点支持装置100的命令提取单元162将视线位置设置为指针的初始位置(步骤S104)。命令提取单元162从以初始位置为中心的搜索范围内提取命令的字符码串和位置坐标(步骤S105)。命令提取单元162决定是否提取到一个或更多个命令的字符码串(步骤S106)。如果未提取一个或更多个命令的字符码串(步骤S106，否)，则命令提取单元162结束处理。如果提取到一个或更多个命令的字符码串(步骤S106，是)，则命令提取单元162将处理前进至步骤S107。

定点支持装置100的生成单元163基于由命令提取单元162提取的一个或更多个命令以及命令字典缓存表152来生成命令字典表151(步骤S107)。定点支持装置100的显示控制单元165强调地显示提取的一个或多个命令(步骤S108)并且将处理前进至图6的步骤S109。

显示控制单元165决定是否接收到结束指令(步骤S109)。如果接收到结束指令(步骤S109，是)，则显示控制单元165将处理前进至步骤S114。例如，如果显示控制单元165检测到输入单元120的按钮被很短地按压，则显示控制单元165决定接收到结束指令。或者，如果用户代替按压输入单元120的按钮而说出“结束”以及显示控制单元165执行语音识别并且识别到说出了“结束”，则显示控制单元165可以决定接收到结束指令。

如果存在强调显示，则显示控制单元165清除强调显示(步骤S114)并且结束处理。如果未接收到结束指令(步骤S109，否)，则显示控制单元165将处理前进至步骤S110。

定点支持装置100的决定单元164决定是否输入了某些语音数据(步骤S110)。如果未输入语音数据(步骤S110，否)，则决定单元164将处理前进至步骤S109。如果输入了某些语音数据(步骤S110，是)，则决定单元164将处理前进至步骤S111。

决定单元164将命令字典表151中的每条语音识别数据与语音数据彼此进行比较(步骤S111)。决定单元164决定语音数据是否命中了命令字典表151中的用于语音识别的某些数据(步骤S112)。如果语音数据未命中命令字典表151中的用于语音识别的任何数据(步骤S112，否)，则决定单元164将处理前进至步骤S109。如果语音数据命中了命令字典表151中的用于语音识别的某些数据(步骤S112，是)，则决定单元164将处理前进至步骤S113。

显示控制单元165将指针移动至画面图像上与命中的语音识别数据的命令对应的位置(步骤S113)并且将处理前进至步骤S109。

现在描述根据工作示例1的定点支持装置100的有利效果。定点支持装置100提取从用户的视线位置开始的搜索范围中包括的命令并且决定从提取的命令的语音识别数据中选择与用户的语音输入最相似的语音识别数据的命令。因此，具有不能良好工作的手臂、手或脚的身体残疾的人、老年人等可以在不使用鼠标等的情况下没有压力地对GUI画面图像有效地执行高精度命令选择。

定点支持装置100基于活动画面图像的画面图像信息来提取画面图像上的所有命令以预先生成命令字典缓存表152。当定点支持装置100提取在搜索范围中包括的命令并且生成命令字典表151时，定点支持装置100利用存储在命令字典缓存表152中的语音识别数据。为了生成语音识别数据，执行对字符码串进行分析以指定读取的方式并且将与所指定的读取的方式对应的字符的声音进行组合的处理，因此，处理负荷很重。因此，由于定点支持装置100预先生成命令字典缓存表152，因此定点支持装置100可以不在每当命令提取单元162提取命令时执行用于生成语音识别数据的处理。因此，可以减小处理负荷。

[工作示例2]

现在描述根据工作示例2的定点支持装置200。定点支持装置200可切换地应用通过对结合工作示例1描述的语音识别和视线输入的组合来支持定点的“处理1”以及支持定点的不同于处理1的“处理2”。与处理1相关的处理类似于参照图1等描述的工作示例1的处理，因此，此处省略了描述。

描述由定点支持装置200执行的“处理2”。定点支持装置200基于路径定义表来移动指针。路径定义表是保存路径定义信息的表，该路径定义信息对指针沿其移动的路径和路径的移动方式进行定义。图7是示出路径定义表的数据结构的示例的图。如图7所示，路径定义表253将路径定义识别信息与多个过程彼此关联。路径定义识别信息是用于唯一地识别路径定义的信息。每个过程指示用于移动路径的过程或者用于沿着路径移动指针的过程。虽然存在各种路径定义，但是此处，描述第一路径定义、第二路径定义和第三路径定义作为示例。

图8是示出第一路径定义的图。第一路径定义包括过程1和过程2。第一路径定义的过程1是显示从当前的指针位置10开始的线性移动条11并且围绕由指针位置10提供的中心旋转地移动线性移动条11的过程。

第一路径定义的过程2是用于在由线性移动条11指示的方向上线性地移动线性移动条11的过程，线性移动条11的方向由第一路径定义的过程1来设置。指针位置10a根据线性移动条11的移动而移动。根据第一路径定义，路径是线性移动条11。

图9是示出第二路径定义的图。第二路径定义包括过程1和过程2。第二路径定义的过程1是用于以当前的指针位置10为中心以同心关系来扩大圆12的过程。

第二路径定义的过程2是用于从由第二路径定义的过程1而设置的圆12上的任意位置沿圆12移动指针位置12a的过程。根据第二路径定义，路径是圆12。

图10是示出第三路径定义的图。第三路径定义包括过程1、过程2、过程3和过程4。第三路径定义的过程1是用于在竖直引导13a的情况下从当前的指针位置10a沿水平向右的方向移动指针的过程。

第三路径定义的过程2是用于在竖直引导13a的情况下从由过程1的移动而确定的指针位置10b沿水平向左的方向移动指针的过程。

第三路径定义的过程3是用于在水平引导13b的情况下从由过程2的移动而确定的指针位置10c沿竖直向上的方向移动指针的过程。

第三路径定义的过程4是用于在水平引导13b的情况下从由过程3的移动而确定的指针位置10d沿竖直向下的方向移动指针的过程。

应该注意，上文描述的第三路径定义是示例，可以从第三路径定义的过程1至过程4中省略过程2和过程4，或者可以省略过程1和过程3。

现在描述根据工作示例2的定点支持装置200的配置。图11是图示根据工作示例2的定点支持装置的配置的功能框图。如图11所示，定点支持装置200包括视线输入单元210、输入单元220、语音输入单元230、显示单元240、存储单元250以及控制单元260。

与视线输入单元210、输入单元220、语音输入单元230和显示单元240相关的描述类似于与参照图2描述的视线输入单元110、输入单元120、语音输入单元130和显示单元140相关的描述。因此，此处省略了重复描述。

存储单元250包括命令字典表251、命令字典缓存表252和路径定义表253。存储单元250与半导体存储元件比如RAM、ROM、或闪存或诸如HDD的存储装置对应。

对命令字典表251和命令字典缓存表252的描述类似于与参照图2描述的命令字典表151和命令字典缓存表152相关的描述。路径定义表253是保存路径定义信息的表，该路径定义信息定义指针沿其移动的路径以及路径的移动方式。路径定义表253的数据结构类似于参照图7描述的数据结构，因此，此处省略了描述。

控制单元260包括视线位置检测单元261、命令提取单元262、生成单元263、决定单元264以及显示控制单元265。控制单元260与集成装置例如ASIC或FPGA对应。此外，控制单元260与电子电路例如CPU或者MPU对应。

视线位置检测单元261、命令提取单元262、生成单元263和决定单元264执行与参照图2描述的由视线位置检测单元161、命令提取单元162、生成单元163和决定单元164执行的处理类似的处理。因此，此处省略了对这些处理的重复描述。

显示控制单元265是执行以下处理的处理单元：将未图示的画面图像信息输出至显示单元240以使得显示单元240能够显示画面图像信息的处理，或者接受指针移动或对命令的选择的处理。如果接受了对命令的选择，则显示控制单元265根据对命令的选择来执行处理并且使显示单元240显示该处理的结果。

此处，显示控制单元265从用户接受对关于是要基于处理1支持定点还是要基于处理2支持定点的选择。显示控制单元265基于所接受的选择的处理1或处理2来支持定点。

例如，显示控制单元265使显示单元240显示状态画面图像以使用户能够选择要基于处理1支持定点还是要基于处理2支持定点。图12是示出状态画面图像的图。如图12所示，状态画面图像241被显示在显示单元240的角落区域中。此外，状态画面图像241包括用于定点的命令241a、用于语音输入的命令241b以及用于多模式的命令241c。

例如，如果用户选择了用于定点的命令241a，则显示控制单元265基于处理2来支持定点。如果用户选择了用于语音输入的命令241b，则显示控制单元265基于处理1来支持定点。

如果选择了用于多模式的命令241c，则显示控制单元265在处理1与处理2之间动态地切换以支持定点。例如，显示控制单元265在从用户接受到切换指令的时刻执行从处理1到处理2的切换或者从处理2到处理1的切换。用户可以以任何方式执行切换指令。例如，用户可以对输入单元220的按钮执行长按压以向显示控制单元265发出切换指令，或者用户可以说出“切换”以向显示控制单元265发出切换指令。

此处，用户可以通过显示控制单元265接收用于定点的支持以选择各个命令241a至命令241c中之一，或者可以通过语音来选择各个命令241a至命令241c中之一。例如，如果显示控制单元265通过语音识别而识别到用户说出“定点”，则显示控制单元265决定选择命令241a。例如，如果显示控制单元265通过语音识别而识别到用户说出“语音输入”，则显示控制单元265决定选择命令241b。此外，如果显示控制单元265通过语音识别而识别到用户说出“多模式”，则显示控制单元265决定选择命令241c。

现在描述两者都由显示控制单元265执行的处理1的定点支持和处理2的定点支持的示例。

“处理1”的定点支持类似于图2中图示的显示控制单元165的定点支持。例如，当显示控制单元265从决定单元264获取位置坐标时，显示控制单元265将指针移动至画面图像上的与该位置坐标对应的位置。如果显示控制单元265从输入单元220接受对按钮的按压信号，则显示控制单元265决定选择与指针交叠的位置处的命令并且根据该命令执行处理。

描述“处理2”的定点支持。图13和图14是示出显示控制单元的处理2的图。图13和图14示出了在显示控制单元265基于路径定义表253的第一路径定义执行处理的情况的示例。

描述图13的步骤S10处的处理。显示单元240的画面图像240a具有定点的目标30以及其上的视线位置20。显示控制单元265基于从视线位置检测单元261获取的视线位置20的信息来指定视线位置20的位置。显示控制单元265每当从视线位置检测单元261获取视线位置20的信息时更新视线位置20直到按压输入单元220的按钮之后为止。

描述图13的步骤S11处的处理。如果用户按压输入单元220的按钮并且显示控制单元265从输入单元220接受信号，则显示控制单元265将视线位置20确定为指针的初始位置。例如，当输入单元220的按钮保持按压时，显示控制单元265使得显示线性移动条21并且围绕指针的初始位置20旋转。

当显示控制单元265使线性移动条21被旋转时，显示控制单元265可以响应于输入单元220的按钮的按压强度来调节旋转的速度。显示控制单元265从输入单元220获取按钮的按压强度的信息。当按钮的按压强度等于或高于阈值时，显示控制单元265使线性移动条21以第一旋转速度旋转。当按钮的按压强度低于阈值时，显示控制单元265使线性移动条21以第二旋转速度旋转。第一旋转速度高于第二旋转速度。

描述图13的步骤S12处的处理。在线性移动条21与目标30交叠的时刻处，用户查阅画面图像240a并且释放输入单元220的按钮。如果显示控制单元265检测到输入单元220的按钮不再被按压，则显示控制单元265使线性移动条21停止旋转。然后，显示控制单元265使线性移动条21在由线性移动条21指示的方向上线性地移动。

描述图13的步骤S13处的处理。在线性移动条21的起始点(指针位置20)与目标30交叠的时间点处，用户查阅画面图像240a并且按压输入单元220的按钮。当显示控制单元265检测到在线性移动条21的起始点(指针位置20)与目标30交叠的时间点处输入单元220的按钮被按压时，显示控制单元265决定选择目标30。显示控制单元265响应于对目标30的选择而执行给定处理。

当显示控制单元265执行在图13的步骤S10至步骤S13处的处理时，可以响应于视线输入而适当地执行定点。例如，每当输入单元220的按钮被按压时，可以通过设置指针的初始位置、线性移动条21的旋转以及线性移动条21的线性移动的过程来选择目标30。因此，即使视线位置的精度为低，也可以适当地选择目标30。此外，由于按压输入单元220的按钮的操作是简单的，因此即使身体残疾的人、老人等也可以操作输入单元220。

现在，参照图14给出描述。描述图14的步骤S20处的处理。显示单元240的画面图像230a具有定点的目标30和视线位置20。显示控制单元265基于从视线位置检测单元261获取的视线位置20的信息来指定视线位置20的位置。显示控制单元265每当从视线位置检测单元261获取视线位置20的信息时更新画面图像230a上的视线位置20，直到输入单元220的按钮被单击之后为止。

描述图14的步骤S21处的处理。如果用户单击输入单元220的按钮并且显示控制单元265从输入单元220接受信号，则显示控制单元265将视线位置20确定为指针的初始位置。例如，当输入单元220的按钮持续被按压时，显示控制单元265使线性移动条21保持显示并且围绕指针的初始位置20旋转。

描述图14的步骤S22处的处理。用户在某时刻查阅画面图像230a并且释放输入单元220的按钮。如果显示控制单元265检测到输入单元220的按钮不再被按压，则显示控制单元265使线性移动条21停止旋转。然后，显示控制单元265使线性移动条21在由线性移动条21指示的方向上线性地移动。

描述图14的步骤S23处的处理。如果在线性移动条21被线性移动时用户单击输入单元220的按钮，则显示控制单元265决定选择在执行单击的时刻处线性移动条21的起始点(指针位置20)，与图13的步骤S13处类似。然后，显示控制单元265结束处理。

另一方面，如果当线性移动条21线性地移动时用户双击输入单元220的按钮，则显示控制单元265将当前的指针位置20设置为指针的初始位置。

描述图14的步骤S24处的处理。当输入单元220的按钮被保持按压时，显示控制单元265使线性移动条21被显示并且围绕指针的初始位置20旋转。例如，当执行双击时，用户通过第二次继续按钮按压来继续按钮按压。

显示控制单元265可以使线性移动条21在步骤S24处的旋转速度低于线性移动条21在步骤S21处的旋转速度。针对第二次的指针位置与目标30之间的距离短于针对第一次的指针位置与目标30之间的距离。因此，通过使从作为针对第二次和后续次的指针位置的起始点开始的线性移动条21的旋转的速度降低，可以将线性移动条21的方向容易地调节至目标30。

描述图14的步骤S25处的处理。用户在某时刻查阅画面图像230a并且释放输入单元220的按钮。当显示控制单元265检测到输入单元220的按钮不再被按压时，显示控制单元265使线性移动条21停止旋转。然后，显示控制单元265使线性移动条21在由线性移动条21指示的方向上线性地移动。如果在线性移动条21被线性移动时用户单击输入单元220的按钮，则显示控制单元265决定选择在执行单击的时间点处定位在线性移动条21的起始点(指针位置20)处的目标30，与在图13的步骤S13处类似。

附带地，虽然当输入单元220的按钮在步骤S23处被双击时显示控制单元265再次根据第一路径定义来执行在步骤S24和步骤S25处的处理，但是显示控制单元265的处理不限于此。例如，每当双击输入单元220的按钮时，显示控制单元265可以将该路径切换至第二路径定义或第三路径定义以执行随后的处理。由用户对定点支持装置200预先设置过程是否被切换至另一路径定义。

现在描述根据工作示例2的定点支持装置200的处理过程。图15、图16和图17是示出根据工作示例2的定点支持装置的处理过程的流程图。如图15所示，定点支持装置200的生成单元263从呈现为可操作的画面图像中提取命令的字符码串并且生成命令字典缓存表252(步骤S201)。

定点支持装置200的视线位置检测单元261检测画面图像上的视线位置(步骤S202)。视线位置检测单元261决定是否接收到视线设置指令(步骤S203)。如果未接收到视线设置指令(步骤S203，否)，则视线位置检测单元261将处理前进至步骤S202。如果接收到视线设置指令(步骤S203，是)，则视线位置检测单元261将处理前进至步骤S204。例如，如果用户按压输入单元220的按钮，则视线位置检测单元261决定接收到视线设置指令。

定点支持装置200的命令提取单元262将视线位置设置为指针的初始位置(步骤S204)。命令提取单元262从以初始位置为中心的搜索范围内提取命令的字符码串和位置坐标(步骤S205)。命令提取单元262决定是否提取到一个或更多个命令的字符码串(步骤S206)。如果未提取一个或更多个命令的字符码串(步骤S206，否)，则命令提取单元262结束处理。如果提取到一个或更多个命令的字符码串(步骤S206，是)，则命令提取单元262将处理前进至步骤S207。

定点支持装置200的生成单元263基于由命令提取单元262提取的一个或更多个命令以及命令字典缓存表252来生成命令字典表251(步骤S207)。定点支持装置200的显示控制单元265使提取的一个或多个命令被强调地显示(步骤S208)并且将处理前进至图16的步骤S209。

定点支持装置200的显示控制单元265决定是否接收到切换指令(步骤S209)。如果接收到切换指令(步骤S209，是)，则显示控制单元265将处理前进至图17的步骤S216。另一方面,如果未接收到切换指令(步骤S209，否)，则显示控制单元265将处理前进至步骤S210。

首先描述从图16的步骤S210开始的步骤处的处理。显示控制单元265决定是否接收到结束指令(步骤S210)。如果接收到结束指令(步骤S210，是)，则显示控制单元265将处理前进至步骤S215。例如，如果显示控制单元265检测到很短地按压输入单元220的按钮，则显示控制单元265决定接收到结束指令。或者，当用户代替按压输入单元220的按钮而说出“结束”以及显示控制单元265执行语音识别并且识别到说出了“结束”时，显示控制单元265可以决定接收到结束指令。

如果存在强调显示，则显示控制单元265清除强调显示(步骤S215)并且结束处理。如果未接收到结束指令(步骤S210，否)，则显示控制单元265将处理前进至步骤S211。

定点支持装置200的决定单元264决定是否输入了某些语音数据(步骤S211)。如果未输入语音数据(步骤S211，否)，则决定单元264将处理前进至步骤S209。如果输入了某些语音数据(步骤S211，是)，则决定单元264将处理前进至步骤S212。

决定单元264将命令字典表251中的每条语音识别数据与语音数据彼此进行比较(步骤S212)。决定单元264决定语音数据是否命中了命令字典表251的用于语音识别的某些数据(步骤S213)。如果语音数据未命中命令字典表251的用于语音识别的任何数据(步骤S213，否)，则决定单元264将处理前进至步骤S209。如果语音数据命中了命令字典表251的用于语音识别的某些数据(步骤S213，是)，则决定单元264将处理前进至步骤S214。

显示控制单元265将指针移动至画面图像上与命中的语音识别数据的命令对应的位置(步骤S214)并且将处理前进至步骤S209。

现在描述从图17的步骤S216开始的步骤处的处理。显示控制单元265将视线位置设置为指针的初始位置(步骤S216)。显示控制单元265查阅路径定义表253并且将路径定义的第一过程设置为当前的过程(步骤S217)。

显示控制单元265根据当前的过程而使路径被显示在画面图像上并且移动路径或指针位置(步骤S218)。如果输入单元220的按钮未被按压(步骤S219，否)，则显示控制单元265将处理再次前进至S218。

另一方面，如果输入单元220的按钮被按压(步骤S219，是)，则显示控制单元265决定是否存在下一过程(步骤S220)。如果存在下一过程(步骤S220，是)，则显示控制单元265将路径定义的下一过程设置为当前的过程(步骤S221)并且将处理前进至步骤S218。

另一方面,如果不存在下一过程(步骤S220，否)，则显示控制单元265将移动之后的指针位置确定为最终指针位置(步骤S222)。

现在描述根据工作示例2的定点支持装置200的有利效果。定点支持装置200在将视线输入与语音识别进行组合以支持定点的处理1和将视线输入与路径定义表253用于支持定点的处理2之间执行切换。因此，如果处理1未能成功地执行语音识别，则可以通过切换至处理2来适当地选择命令。

此处，在上文中结合工作示例1和工作示例2描述的定点支持装置100和定点支持装置200的处理是示例，并且定点支持装置100和定点支持装置200可以执行一些其他处理。在下文中描述定点支持装置100和定点支持装置200的其他处理(1)至(3)。在以下描述中，为了便于描述，参照图11所示的定点支持装置200的功能框图来描述处理。

描述定点支持装置的其他处理(1)。当定点支持装置200的生成单元263生成命令字典缓存表252时，生成单元263可以针对每个画面图像分别生成命令字典缓存表252。例如，如图1所示，当应用画面图像50呈现为可操作时，生成单元263提取在应用画面图像50中包括的命令51a至51g并且生成与应用画面图像50对应的命令字典缓存表252。然后，例如，如果针对reply的命令51d被选择并且显示新画面图像，则生成单元263提取新显示的画面图像中包括的所有命令并且生成与新画面图像对应的命令字典缓存表252。每当新画面图像被呈现为可操作时，生成单元263重复地执行以上描述的处理。

由于生成单元263以这种方式针对每个画面图像生成命令字典缓存表252，因此可以改善在命令字典表251中使用的语音识别数据的搜索效率。例如，当生成单元263生成命令字典表251时，通过将包括搜索范围中的命令的画面图像信息设置为关键字，生成单元263可以缩小要被作为搜索目标的命令字典缓存表252。这改善了搜索效率。

描述定点支持装置的其他处理(2)。在定点支持装置200的生成单元263生成命令字典缓存表252之后，生成单元263可以执行如下处理：当擦除其他记录时留下具有高使用频率的命令字符码串的记录。例如，每当命令被用户选择时，生成单元263通过上文中描述的处理1或处理2将与命令字典缓存表252中的命令对应的字符码串的使用次数的数量递增一。生成单元263重复地执行上述处理，计算每个字符码串的使用频率，并且将具有相对高使用频率的n条记录留在命令字典缓存表252中同时删除其余记录。在生成单元263执行如刚才所述的这样的处理的情况下，可以有效地利用存储单元250的资源。

描述定点支持装置的其他处理(3)。如果预先指定了具有高使用频率的命令，则定点支持装置200的生成单元263可以将具有高使用频率的命令的语音识别数据预先存储到命令字典缓存表252中。例如，生成单元263将与文件、主页、复制、粘贴、打开、关闭和存储命令等对应的语音识别数据预先存储在命令字典缓存表252中。通过执行这样的处理，可以降低在生成语音识别数据时的处理负荷。

现在描述执行定点支持程序的计算机的示例，该定点支持程序实现与上文在工作示例中描述的定点支持装置100和定点支持装置200的功能类似的功能。图18是图示执行定点支持程序的计算机的示例的图。

如图18所示，计算机300包括执行各种算术运算处理的CPU 301、从用户接受数据的输入的输入装置302以及显示单元303。此外，计算机300包括：从存储介质读取程序等的读取装置304、通过网络将数据发送至另一计算机并且从另一计算机接收数据的接口装置305a、摄像装置305b以及麦克风305c。计算机300还包括临时存储各种信息的RAM 306以及硬盘装置307。装置301至装置307中的每个装置均耦接至总线308。

硬盘装置307包括视线位置检测程序307a、命令提取程序307b、生成程序307c、决定程序307d、选择程序307e以及显示控制程序307f。CPU 301读出视线位置检测程序307a、命令提取程序307b、生成程序307c、决定程序307d、选择程序307e以及显示控制程序307f并且将它们部署到RAM 306。

视线位置检测程序307a用作视线位置检测处理306a。命令提取程序307b用作命令提取处理306b。生成程序307c用作生成处理306c。决定程序307d用作决定处理306d。选择程序307e用作选择处理306e。显示控制程序307f用作显示控制处理306f。

视线位置检测处理306a的处理与视线位置检测单元161和视线位置检测单元261的处理对应。命令提取处理306b的处理与命令提取单元162和命令提取单元262的处理对应。生成处理306c的处理与生成单元163和生成单元263的处理对应。决定处理306d的处理与决定单元164和决定单元264的处理对应。显示控制处理306f的处理与显示控制单元165和显示控制单元265的处理对应。

应该注意，程序307a至程序307f中的每个程序均可以不必从一开始就存储在硬盘装置307中。例如，将每个所述程序存储到要被***计算机300的诸如软盘(FD)、致密盘(CD)-ROM、数字通用盘(DVD)盘、磁光盘或集成电路(IC)卡的“便携式物理介质”中。然后，计算机300可以读出程序307a至程序307f并且执行程序307a至程序307f中的每个程序。

本文中记载的所有示例和条件性语言旨在用于教导的目的以帮助读者理解本发明和由发明人贡献的用于改进现有技术的概念，并且应当被解释为不限于这样的具体记载的示例和条件，在说明书中对这样的示例的组织也不与对本发明的优势和劣势的示出相关。虽然详细地描述了本发明的实施方式，但应当理解，可以在不背离本发明的精神和范围的情况下进行各种改变、替换和变更。

Claims

1.一种定点支持装置，包括：

存储器；以及

处理器，所述处理器耦接至所述存储器并且被配置成：

检测用户在画面上的视线位置；

提取所述画面的关于所述视线位置的搜索范围中包括的命令；

生成表，在所述表中，所述命令和所述命令的语音信息彼此关联；以及

当识别出来自外部的语音信息时，基于所识别的语音信息与所述表中的语音信息的比较来决定命令。

2.根据权利要求1所述的定点支持装置，

其中，所述处理器将所述视线位置设置为指针的初始位置，基于对所述指针沿其移动的路径和所述路径的移动方式进行定义的路径定义信息来使其起始点由所述初始位置给出的所述路径显示在所述画面上，并且使所述指针沿着所述路径移动。

3.根据权利要求2所述的定点支持装置，

其中，所述处理器接受对第一处理和第二处理中之一的选择并且在所述第一处理与所述第二处理之间切换处理以执行所述处理，所述第一处理用于将所述指针移动至所述命令的位置，所述第二处理用于基于所述路径定义信息来移动所述指针。

4.根据权利要求1所述的定点支持装置，

其中，所述处理器生成所述画面上存在的所有命令的语音信息，将所生成的语音信息存储在所述存储器中，并且基于从存储在所述存储器中的语音信息中对与所述命令对应的语音信息的获取来生成所述表。

5.根据权利要求4所述的定点支持装置，

其中，所述处理器生成第一画面上存在的所有命令的第一语音信息，将所述第一语音信息存储在所述存储器中，当所述第一画面上的命令被选择并且第二画面被显示时生成所述第二画面上存在的所有命令的第二语音信息，并且以区别于所述第一语音信息的关系将所述第二语音信息存储在所述存储器中。

6.根据权利要求4所述的定点支持装置，

其中，每次提取所述命令中之一时，所述处理器从存储在所述存储器中的语音信息内增加与所述命令的语音信息对应的语音信息的使用频率，并且将其使用频率高的语音信息优先留在所述存储器中。

7.一种定点支持方法，包括：

由处理器检测用户在画面上的视线位置；

由处理器提取在所述画面的关于所述视线位置的搜索范围中包括的命令；

由处理器将表存储到存储器，在所述表中，所述命令和所述命令的语音信息彼此关联；以及

当接受来自外部的语音信息时，由处理器基于所识别的语音信息与存储在所述存储器中的所述表中的语音信息的比较来决定命令。