CN104464720A

CN104464720A - 以语音识别来选择控制客体的装置及方法

Info

Publication number: CN104464720A
Application number: CN201410098136.0A
Authority: CN
Inventors: 申宗元; 金涩幂; 郑姜理; 多全仁; 尹延森; 金桂松
Original assignee: Diotek Co Ltd
Current assignee: Diotek Co Ltd
Priority date: 2013-09-12
Filing date: 2014-03-17
Publication date: 2015-03-25
Also published as: TW201510774A; US20150073801A1; EP2849054A1; KR101474854B1

Abstract

本发明涉及一种以语音识别来选择控制客体的装置及方法，本发明的控制客体选择装置是以语音识别来选择控制客体的装置，其特征在于，包括一个以上的处理装置，所述一个以上的处理装置，其构成为，基于用户的语音获取输入信息，基于控制客体获取的至少一个的第一识别信息及与第一识别信息对应的第二识别信息与输入信息匹配，在第一识别信息及第二识别信息中获取与输入信息匹配的匹配识别信息，在匹配识别信息中选择对应的控制客体；在使用用户事前未内置控制指令的应用程序时，也可以通过语音识别来控制电子装置，具有可提高该电子装置的用户接近性的效果。

Description

以语音识别来选择控制客体的装置及方法

技术领域

本发明涉及一种以语音识别来选择控制客体的装置和方法，尤其是利用基于控制客体显示信息的第一识别信息来选择控制客体的装置和方法。

背景技术

随着使用电脑、笔记本电脑、智能手机、平板电脑、汽车导航仪等电子装置的用户越来越多，这些电子装置与用户间易于人机交互的用户界面的重要性也越来越高。

一般的用户界面多是通过键盘、鼠标、触控屏幕等输入装置进行物理性输入，但是对于无法看到显示画面的视觉残疾人，或是不便于使用操作键盘、鼠标、触控屏幕等输入装置的用户来说，通过上述的用户界面来操作电子装置是不容易的。

另外，对于没有残疾的人来说，在驾驶中或是双手拿着行李不便于或是很难对电子装置进行操作时，通过上述用户界面不易于操作电子装置。

由此可见，开发出可提高电子装置接近性的用户界面势在必行。可提高电子装置接近性的用户界面中，如分析用户语音控制电子装置的语音识别技术就属其一。

为了实现电子装置利用语音识别技术，通过用户的语音来进行控制，需要事先将可与用户语音匹配的控制指令内置在电子装置中。

在将可与用户语音匹配的控制指令内置在平台端时，通过语音识别，可对相关电子装置的基本设定，如电子装置的音量或亮度等进行控制。

此外，为了通过语音识别对个性的应用程序进行控制，在各个应用程序上，必须内置可与用户语音匹配的控制指令。

因此，为了在不支持语音识别的应用程序中进行语音识别，或是为了添加语音识别功能，需要对应用程序进行新的开发或是Update，以便在相关的应用程序上内置与用户语音匹配的控制指令。

但是，电子装置和各个电子装置所搭载的应用程序日新月异、多种多样，在所有的应用程序上内置与用户语音匹配的控制指令并不容易，在多种多样的应用程序中实现可联动通用的语音识别***就更为不易。

综上所述，支持语音识别的应用程序很少，即使支持语音识别，通过语音识别而执行的动作也很有限，实质上提高电子装置的接近性也是非常有限的。

由此可见，开发通过语音识别来提高电子装置接近性的技术，是势在必行的。

发明内容

为了解决上述技术问题，本发明的目的在于，提供一种在使用用户事前未内置控制指令的应用程序时，也可以通过语音识别控制电子装置的装置及方法。

为了解决上述技术问题，本发明的另一目的在于，提供一种不论用户使用何种语言，都可以通过语音识别来选择由多种语言构成的控制客体的装置及方法。

本发明的发明目的并不局限于此，在此未提及的其他发明目的通过本说明书的记载，是本技术领域的技术人员显而易见的。

本发明实现上述目的的技术方案是：一种控制客体选择装置，是以语音识别来选择控制客体的装置，其特征在于，包括一个以上的处理装置；所述一个以上的处理装置的构成为，基于用户的语音获取输入信息，基于控制客体获取的至少一个的第一识别信息及与所述第一识别信息对应的第二识别信息和所述输入信息进行匹配，在所述第一识别信息及所述第二识别信息中获取与所述输入信息匹配的匹配识别信息，在所述匹配识别信息中选择对应的控制客体。

本发明的另一技术特征是，所述第二识别信息包括作为所述第一识别信息近义词的近义识别信息。

本发明的另一技术特征是，所述第二识别信息包括由所述第一识别信息以基准语言翻译而成的翻译识别信息及由所述第一识别信息以基准语言标音的标音识别信息中的至少一个。

本发明的另一技术特征是，所述第二识别信息包括作为所述第一识别信息的发音列的发音列识别信息。

本发明的另一技术特征是，所述一个以上的处理装置显示所述第二识别信息。

本发明的另一技术特征是，所述第一识别信息是基于所述控制客体的显示信息而获取的。

本发明的另一技术特征是，所述第一识别信息是基于应用程序画面信息而获取的。

本发明的另一技术特征是，所述第一识别信息是通过光学字符识别（OCR:opticalcharacter recognition）而获取的。

本发明的另一技术特征是，所述第一识别信息与基于所述控制客体而获取的符号对应。本发明的另一技术特征是，所述输入信息包括分析所述用户的语音特征而获取的语音模式信息；所述识别信息和所述输入信息的匹配包括所述识别信息和所述语音模式信息的匹配。

本发明的另一技术特征是，所述输入信息包括通过语音识别，由所述用户的语音而识别的文本（Text）；所述识别信息和所述输入信息的匹配包括所述识别信息和所述文本的匹配。

本发明实现上述目的的另一技术方案是：一种控制客体选择方法，是通过语音识别来选择控制客体的方法，其特征在于，包括：基于用户的语音获取输入信息的步骤；基于控制客体获取的至少一个的第一识别信息及与所述第一识别信息对应的第二识别信息和所述输入信息匹配的步骤；在所述第一识别信息和所述第二识别信息中，获取与所述输入信息匹配的匹配识别信息的步骤；在所述匹配识别信息中选择对应的控制客体的步骤。

本发明的另一技术特征是，还包括显示所述第二识别信息的步骤。

本发明实现上述目的的另一技术方案是：一种可电脑判读的媒体，是储存指令集的可电脑判读的媒体，其特征在于，所述指令集因电脑装置而被执行时，可让所述电脑装置获取基于用户语音的输入信息，基于控制客体获取的至少一个的第一识别信息及与所述第一识别信息对应的第二识别信息和所述输入信息匹配，在所述第一识别信息和第二识别信息中，获取与所述输入信息匹配的匹配识别信息，在所述匹配识别信息中选择对应的控制客体。

其他实施方式的具体内容包含在本发明的详细说明及说明书附图中。

本发明的有益效果是：依据本发明，在使用用户事前未内置控制指令的应用程序时，也可以通过语音识别控制电子装置，具有提高相关电子装置接近性的效果。

依据本发明，不论用户使用何种语言，都可以通过语音识别来选择由多种语言构成的控制客体，提高用户使用的便利性。

本发明的效果并不局限于上述内容，本发明还具有其他多种效果。

附图说明

图1是本发明一实施方式的控制客体选择装置的方块图；

图2是本发明一实施方式的控制客体选择方法的流程图；

图3图示了基于控制客体的显示信息而获取的第一识别信息及与第一识别信息对应的第二识别信息（近义识别信息）；

图4图示了图3中所获取的第一识别信息和与第一识别信息对应的第二识别信息（翻译识别信息）；

图5图示了图3中所获取的第一识别信息和与第一识别信息对应的第二识别信息（发音列识别信息）；

图6图示了本发明一实施方式的控制客体选择装置中所获取的第一识别信息和与第一识别信息对应的第二识别信息；

图7图示了本发明另一实施方式的控制客体选择装置中所获取的第一识别信息和与第一识别信息对应的第二识别信息；

图8图示了本发明一实施方式的控制客体选择装置中显示识别信息的画面；

图9图示了本发明一实施方式的与符号对应的第一识别信息和与第一识别信息对应的第二识别信息；

图10是符号和与符号对应的第一识别信息的示例图。

附图符号说明

100、控制客体选择装置；110、界面；120、处理器；122、内存控制器；124、内存；130、显示部；140、话筒；142、扬声器；150、160、170、应用程序；152、154、156、158、161、162、163、164、165、172、174、176、控制客体；200、控制客体的信息；242、244、246、248、控制客体的文本信息；252、252A、252B、254、254A、254B、256、256A、256B、258、258A、258B、272、272A、272B、274、274A、274B、276、276A、276B、控制客体的显示信息；300、352、354、356、358、368、符号；400、452、454、456、458、468、第一识别信息

具体实施方式

本发明的优点及特征，以及实现其优点及特征的方法，将结合本发明的附图，通过以下的实施方式进行明确的说明。但是，本发明并不局限于以下的实施方式，可为多种形态，本发明的实施方式用于说明本发明的特征，用于在本发明的技术领域，向相关技术人员说明本发明的范围，本发明的范围取决于本发明的权利要求项的范围。

“第一”、“第二”等表现用于说明多种构成要素，但是本发明的构成要素并不局限于此。这中表现只用来区分不同的构成要素，也就是说，本发明中的第一构成要素也可以被称为第二构成要素。

在说明书中所标记的相同的符号是指相同的构成要素。

本发明的多个实施方式的各自特征可部分或全部的结合或组合，本发明技术领域的技术人员可通过充分理解其内容，进行多种多样的技术性联动或驱动，各实施方式可相对独立，也可结合实施。

在本说明书中，在任何一个构成要素向其他构成要素“传送”数据或信号时，可以是直接传送所述数据或信号，也可以是通过至少一个以上的其他构成要素来传送数据和信号。

“语音识别”一般是指用户所发出的声音被电子装置分析，并以文本来识别的作业。具体来说，用户所发出声音的波形被输入电子装置时，参照音响型号等，语音波形被分析，从而获取语音模式信息。另外，所获取的语音模式信息与识别信息进行对比，从而识别出识别信息中一致概率最高的文本。

在本说明书中，“控制客体”是指在控制客体选择装置的画面上显示出来，可接收用户输入的按键等界面，在显示出来的控制客体上，完成用户输入后，控制客体选择装置可执行事先决定的控制动作。

控制客体可以是用户通过对按键、确认栏、文字输入栏等的点击、输入来选择的界面，但并不局限于此，也可以是用户通过鼠标或触控屏等输入装置来选择的所有界面。

在本说明书中，“输入信息”是指基于用户的语音，经过前述的部分或是全部的语音识别过程而获取的信息。比如说，输入信息可以是分析用户的语音波形而获取的语音模式信息。这种语音模式信息为了表现声学特征，由按照短区间从用户的语音中提取的语音特征系数构成。

在本说明书中，“第一识别信息”是指通过控制客体选择装置，基于控制客体自动获取的文本；“第二识别信息”是指获取的与第一识别信息对应的文本。

第二识别信息可包括：第一识别信息的近义词的“近义识别信息”，由第一识别信息以基准语言翻译的“翻译识别信息”，由第一识别信息以基准语言标音的“标音识别信息”，作为第一识别信息的发音列“发音列识别信息”等。

第一识别信息可基于控制客体的显示信息、应用程序的画面信息、控制客体的文本信息或控制客体的说明信息等而获取，与此相关的详细说明参照图3将另行后述。

本说明书中，“控制客体的显示信息”是指显示特定控制客体时使用的信息。比如说，客体的图像、符号、控制客体的大小或位置等信息可为显示信息。基于构成显示信息的各项目的值或该值的属性，控制客体被显示在控制客体选择装置的画面上。

在本说明书中，“应用程序的画面信息”是指在控制客体选择装置所执行的应用程序中，显示特定画面时所使用的信息。

在本说明书中，“控制客体的文本信息”是指指代控制客体的文字列，该文字列可与控制客体一起被显示。

另外，第一识别信息可与基于控制客体而获取的符号对应，此时，符号和第一识别信息可以一对一、一对多、多对一或多对多对应。与符号对应的第一识别信息将参照图9及图10后述说明。

本说明书中，“符号”不包括文本，是指以特定意义来解释的图形、记号或图像。以符号标记的控制客体，该控制客体的符号一般可暗示该控制客体在应用程序中应执行哪种功能。比如说，“”符号一般是指播放声音或影像等，“+”符号或“-”符号是指添加或删减项目等。

这些符号可基于前述的控制客体的显示信息或应用程序的画面信息而获取。

接下来，参照说明书附图，对本发明的多种实施方式进行详细的说明。

图1是本发明一实施方式的控制客体选择装置的方块图。

如图1所示，本发明的一实施方式的控制客体选择装置100包括：处理器120、内存控制器122、内存124。还包括：界面110、话筒140、扬声器142、显示部130。

本发明一实施方式的控制客体选择装置100是可通过语音识别选择控制客体的电脑装置，包括一个以上的处理装置，可以是具备音响输入功能的电脑、笔记本电脑、智能手机、平板电脑、汽车导航仪、掌上电脑、便携式媒体播放器、MP3播放器、电子词典等终端设备，或是与这些终端设备连接的服务器或由多个电脑构成的分散电脑***。在此，一个以上的处理装置可包括至少一个以上的处理器120和内存124，复数个处理器120可共享相互的内存124。

处理装置基于用户的语音获取输入信息，基于控制客体而获取的至少一个的第一识别信息及与第一识别信息对应的第二识别信息和输入信息匹配，在第一识别信息及第二识别信息中获取与输入信息匹配的匹配识别信息，对应于匹配识别信息的控制客体被选择。

基本上，分析用户语音而获取的语音模式信息与文本的第一识别信息匹配时，第一识别信息内一致概率最高的“匹配识别信息”被识别。

在第一识别信息内，与用户的语音一致概率最高的“匹配识别信息”被识别时，与所识别的“匹配识别信息”对应的控制客体被选择。因此，即使未内置于用户语音匹配的控制指令，通过控制客体选择装置也可以选择控制客体。

但是，控制客体选择装置100为了选择控制客体，仅利用第一识别信息时，因用户的语言习惯或环境等多种要素的影响，也可能不会选择用户所要的控制客体。

因此，考虑到用户的语言习惯或环境等多种要素，控制客体选择装置100不仅可以利用第一识别信息，还可以利用与第一识别信息对应的第二识别信息。

由此可见，分析用户的语音而获取的语音模式信息与文本的第一识别信息及第二识别信息匹配，在第一识别信息和第二识别信息内，一致概率最高的识别信息被识别，与所识别的识别信息对应的控制客体被选择。

另外，可体现为第二识别信息的获取时期、其储存与否等多种方式。比如说，第一识别信息基于控制客体被获取时，与所获取的第一识别信息对应的第二识别信息也会随之被获取并被储存，然后，采用一起利用所储存的第二识别信息及第一识别信息的方式，体现出控制客体选择装置100。

内存124储存程序或指令集等，内存124可包括随机存取存储器（RAM;random accessmemory）、只读存储器（ROM;read-only memory）、磁盘装置、光盘装置、闪存等。在此，内存124可储存提供与语音模式信息对应的文本的语言模式数据库或提供与第一识别信息对应的第二识别信息的数据库。另外，这种数据库可存在在以控制客体选择装置100和网络连接的外部。

内存控制器122控制处理器120或界面110等其他组件被格式化成内存124。

处理器120可执行储存在内存124上的程序或指令集进行实行等的演算。

界面110将控制客体选择装置100的话筒140或扬声器142等输入输出装置100连接在处理器120及内存124上。

话筒140可接收语音信号，将接收的语音信号转换成电子信号，提供给界面110。扬声器142接收来自界面110的电子信号，并将其转换成语音信号后输出。

显示部130向用户显示视觉性的图像信息，显示部130可包括侦测触控输入的触控屏幕显示。

本发明的一实施方式的控制客体选择装置100是利用储存在内存124上，由处理器120而实行的程序（以下称为“控制客体选择引擎”），通过语音识别来选择控制客体的。

控制客体引擎是在控制客体选择装置100的背景或格式下而实行的，自应用程序获取控制客体的信息，利用基于控制客体的信息获取的第一识别信息和与第一识别信息对应的第二识别信息，让控制客体选择装置100通过语音识别来选择控制客体。

图2是本发明一实施方式的控制客体选择方法的流程图；为了便于说明，同时参照图3进行说明。

图3图示了基于控制客体的显示信息而获取的第一识别信息及与第一识别信息对应的第二识别信息（近义识别信息）。

控制客体选择装置基于用户的语音获取输入信息S100。

在此，输入信息是指分析用户语音的特征而获取的语音模式信息，但输入信息并不局限于此。

获取输入信息后，控制客体选择装置将基于控制客体获取的至少一个的第一识别信息和与第一识别信息对应的第二识别信息与输入信息进行匹配S110。

如图3所示，在控制客体选择装置100上实行地铁应用程序150时，“路线按键152”、“时间表按键154”、“路径搜索按键156”、“Update按键158”属于控制客体。

依据本发明的一实施方式，基于控制客体的显示信息，可获取并实现第一识别信息。

如图3所示，在控制客体的信息200中，显示信息252、254、256、258可包括决定控制客体大小和位置的项目252A、254A、256A、258A的“width”项目、“height”项目、“left”项目及“left”项目及“top”项目，及提供控制客体的图像链接的“img”项目252B、254B、256B、258B等的值。

前述的项目252A、254A、256A、258A、252B、254B、256B、258B是为了便于说明任意定义的，构成控制客体的显示信息252、254、256、258的项目的种类、数量、项目名称等可做多种多样的变形来体现。

如图3所示，提供控制客体152、154、156、158的图像链接的“img”项目252B、254B、256B、258B的值由该控制客体152、154、156、158的图像文件路径（“x.jpg”,“y.jpg”,“z.jpg”，“u.jpg”）或显示图像的文字列构成。

决定控制客体大小和位置的项目252A、254A、256A、258A中的“width”项目及“height”项目的值，决定控制客体152、154、156、158的图像宽度和高度；“left”项目及“top”项目的值，决定控制客体152、154、156、158的显示位置，从而可决定该控制客体152、154、156、158被显示的领域。

如图3所示，“路线按键152”因“img”项目252B的“x.jpg”显示成图像。在此，“x.jpg”仅为一实施例，控制客体可由多种形式的文件显示成图像。

如图3所示，该图像包括可识别为“路线”的文本时，该图像的光学字符识别被执行，图像所包括的“路线”文本被识别。

如上所述，“路线按键152”的图像被光学字符识别后，所识别的“路线”文本属于第一识别信息。也就是说，基于“路线按键152”获取的第一识别信息属于“路线”，依此类推，基于“时间表按键154”而获取的第一识别信息属于“时间表”，基于“路径搜索按键156”而获取的第一识别信息属于“路径搜索”，基于“Update按键158”而获取的第一识别信息属于“Update”。

第二识别信息作为与第一识别信息对应而获取的文本，第二识别信息如图3所示，可以是第一识别信息的近义词的近义识别信息。也就是说，对应于“路线”第一识别信息的第二识别信息可以是“线路”、“路”等“路线”第一识别信息近义词的近义识别信息。另外，由英语构成的“Update”第一识别信息对应的第二识别信息可以是“renew”、“revise”等“Update”第一识别信息的近义词的近义识别信息。在此，若第一识别信息为复数个词构成时，可获取各个词的第二识别信息。

在此，近义识别信息可通过储存词的近义词的数据库提供给控制客体选择装置。这种近义词数据库可包括在控制客体选择装置上，通过网络等与控制客体选择装置连接，在控制客体选择装置上提供近义识别信息。

另外，近似识别信息不仅仅是第一识别信息箱内共同的语言内的近似词，也包括不同语言内的近似词，在此，不同语言内的近似词参照图5将在后面说明，近似识别信息也可以是以基准语言翻译的。

第二识别信息如上所述，可以是第一识别信息的近似识别信息，也可以是由第一识别信息以基准语言翻译而成的翻译识别信息，或是由第一识别信息以基准语言标音的标音识别信息。多种类型的第二识别信息参照图4及图5将后述。

第一识别信息及第二识别信息和输入信息的匹配，也就是说，通过第一识别信息及第二识别信息和语音模式信息的匹配，将所获取的语音模式与第一识别信息和第二识别信息进行比较，在第一识别信息和第二识别信息内，判断具有与该语音模式相同或最近似的音模式的匹配识别信息。

另外，来自用户语音的语音模式信息以代码化的方式，将第一识别信息及第二识别信息代码化为音素或特定区间单位，可使语音模式信息和第一识别信息及第二识别信息互相匹配。第一识别信息及第二识别信息和语音模式信息在匹配时，可利用静态匹配（staticmatching）、余弦相似度（cosine similarity）、弹性匹配（elastic matching）等。

控制客体选择装置依据所获取的第一识别信息及第二识别信息和输入信息的匹配结果，来判断是否有与输入信息匹配的匹配识别信息S120。

如上所述，在第一识别信息和第二识别信息内，判断具有与所获取的语音模式相同或最近似的模式的识别信息是否是匹配识别信息。

如果判断出没有与输入信息匹配的识别信息时，控制客体选择装置在重新获取输入信息前会待机或体现出要求用户重新发出语音的要求。

如果判断出有与输入信息相匹配的识别信息时，控制客体选择装置获取该匹配的识别信息S130。

如图3所示，从用户的语音中获取“找路”的输入信息时，在“路线”、“时间表”、“路径搜索”、“Update”第一识别信息及与第一识别信息对应的第二识别信息内，“路径搜索”第一识别信息对应的“找路”第二识别信息属于匹配的识别信息。

获取匹配的识别信息后，控制客体选择装置选择与匹配的识别信息相对应的控制客体S140。

也就是说，如上所述，“找路”第二识别信息属于匹配识别信息时，控制客体选择装置100选择“路径搜索按键156”。

在此，控制客体的选择是可通过输入事件或选择事件来实现的。

“事件”是指程序中所侦测的活动或事件，按照事件的类型，举例来说有用于处理输入的输入事件、用于处理输出的输出事件、用于选择特定客体的选择事件等。

输入事件通常是通过鼠标、触控板、触控屏幕、键盘等输入装置，进行点击、触控、键入等输入时而发生的，但是即使不通过上述输入装置进行实际输入，也可以处理虚拟的输入，发生输入事件。

另外，选择事件是为了选择特定控制客体而发生的，依据特定控制客体的上述输入事件，如双击或键入事件的发生，来实现特定控制客体的选择。

如上所述，依据本发明的一实施方式的控制客体选择装置，即使事前未内置控制指令的应用程序，也可以通过语音识别来控制电子装置，具有提高该电子装置的用户接近性的效果。

另外，依据本发明的一实施方式，第一识别信息可通过多种方法获取。比如说，第一识别信息基于控制客体的文本信息而被获取。

如图3所示，控制客体的信息200可包括控制客体的文本信息242、244、246。

当控制客体的图像上包括文本时，通过光学字符识别等手段识别文本，从而可获取第一识别信息；但是在存在控制客体的文本信息时，可从该文本信息马上获取作为文本的第一识别信息。

在此，控制客体的文本信息的一部分可作为第一识别信息被获取。比如说，文本信息由复数个词构成时，各词可作为该控制客体对应的个别第一识别信息而被获取。

另外，依据本发明的一实施方式，第一识别信息可基于控制客体的说明信息而被获取。

但是，说明信息与前述的文本信息不同，是记入控制客体说明的，与文本信息相比，由大量的文本构成，此时，该说明自身以第一识别信息被获取时，与输入信息匹配的准确度或匹配速度都会降低。

由此可见，控制客体的说明信息为复数个词时，该说明信息的一部分以第一识别信息被获取。另外，该说明信息的各个部分以对应该控制客体的个别性的第一识别信息而被获取。

另外，第一识别信息可基于应用程序的画面信息而被获取。

应用程序画面的光学文字字符识别被执行，在该应用程序画面内，可显示出所有的文本，在应用程序的画面上获取文本时，需要决定该文本是否属于特定的控制客体的对应第一识别信息。

由此以来，控制客体选择装置判断在应用程序画面内显示文本的第一领域和与第一领域对应的第二领域内所显示的控制客体，在第一领域中将文本作为识别信息实现与控制客体的关联。

在此，与显示文本的第一领域相对应的第二领域，可以是包括显示文本的区段（block）的至少一部分的领域、与显示文本的区段最临近的领域、显示文本的区段上端或下端的领域。在此，与第一领域对应的第二领域并不局限于上述内容，可为多种多样的方式。另外，为了判断在第二领域中所显示的控制客体，可参照控制客体的显示信息。

如上所述，第一识别信息可通过多种方法获取，第一识别信息没有必要对于控制客体来说仅存在一个，一个控制客体可以对应复数个第一识别信息。

另外，第一识别信息可通过控制可提选择引擎来获取，但并不局限于此，也可由实行的应用程序来获取。

图4图示了图3中所获取的第一识别信息和与第一识别信息对应的第二识别信息。

第二识别信息就可以是由第一识别信息以基准语言翻译而成的翻译识别信息，为了便于说明，在此将基准语言定为英语，来举例说明。

如图4所示，基于控制客体152而获取“路线”第一识别信息时，“路线”第一识别信息对应的第二识别信息是如“route”、“line”等由第一识别信息以英语翻译成的翻译识别信息。

另外，基准语言可以基于控制客体选择装置的位置信息或用户所设定的语言或地区信息等地点信息而设定。

另外，基准语言可根据第一识别信息进行相对决定。比如说，第一识别信息是韩国语时，翻译成英语；第一识别信息是英语时，翻译成韩国语。

也就是说，在图4中，基于控制客体158，由英语构成的“Update”第一识别信息被获取时，该第一识别信息对应的第二识别信息可以是“升级”、“更新”等由第一识别信息翻译而成的翻译识别信息。

在此，翻译识别信息是通过储存有词语翻译词的事前数据库提供给控制客体选择装置的。事前数据库可以包括词库和语料库，第一识别信息的翻译信息，也就是为了提供词语的翻译词的词库。

这种事前数据库可包括在控制客体选择装置上，通过网络等与控制客体选择装置连接，向控制客体选择装置提供翻译识别信息。

另外，第二识别信息可以是由第一识别信息以基准语言标音的标音识别信息。为了便于说明，将基准语言定为韩国语来说明。

如图4所示，基于一控制客体158，获取“Update”第一识别信息时，“Update”第一识别信息对应的第二识别信息是“奥格雷特”、“奥普代特”等由第一识别信息以基准语言标音的标音识别信息。

另外，基准语言可根据第一识别信息进行相对决定。比如说，第一识别信息是韩国语时，标音成英语；第一识别信息是英语时，标音成韩国语。

也就是说，在图4中，基于控制客体152，获取韩国语“路线”的第一识别信息时，该第一识别信息对应的第二识别信息是“noeson”、“noson”、“nosun”等由“路线”第一识别信息以英语标音的标音识别信息。

在此，标音识别信息可以通过储存标音词的标音语数据库提供给控制客体选择装置，第一识别信息经过标音译码，提供给控制客体选择装置。标音语数据库可设置在控制客体选择装置上，通过网络等连接到控制客体选择装置上，向控制客体选择装置提供标音识别信息。标音译码可以单独使用，也可以在标音语数据库中不存在标音识别信息时辅助使用。对于标音译码，比如说，第一识别信息由大写英文字母构成时，可以是按照各个字母发音的译码。举例来说，“ABC”这个第一识别信息以韩国语标音时的标音识别信息属于“EIBI CI”。

另外，标音译码可以是如图5中后述的获取发音列识别信息对应的发音列的文字的译码。

图5图示了本发明一实施方式的控制客体选择装置所获取的第一识别信息和与第一识别信息对应的第二识别信息。

第二识别信息可以是第一识别信息的发音列的发音列识别信息。

发音列识别信息可参照第一识别信息的发音记号而获取。在此，发音记号可对应于国际音标表（International Phonetic Alphabet）。

如图5所示，第二识别信息根据国际音标表可为第一识别信息的发音列，在此，发音列识别信息因依据国际音标表，可获取仅显示第一识别信息发音列的第二识别信息。

也就是说，如上所述，第二识别信息仅显示为发音列时，可判断用户的发音和第二识别信息的发音列的匹配程度，从而不管用户的发音语音属于哪一种语言，都可以通过语音识别选择控制客体。

另外，自发音列识别信息，在基准语言中可获取与发音列对应的文字，这种所获取的文字可以是图4中所述的标音识别信息。

在此，发音列识别信息可以通过储存标词语的发音列的数据库提供给控制客体选择装置，这种发音列数据库可设置在控制客体选择装置上，通过网络等连接到控制客体选择装置上，向控制客体选择装置提供发音识别信息。

如上所述，基于第一识别信息可获取多种类型的第二识别信息，第二识别信息可由用户任意指定。另外，进一步，第二识别信息可以是第一识别信息的近似识别信息以基准语言翻译而成的识别信息，或是由第一识别信息以第一语言翻译后，按照基准语言翻译的识别信息，或是第一识别信息以第一语言翻译后按照基准语言翻译的识别信息。第一识别信息通过一个以上过程获取第二识别信息的内容，参照图6及图7进行详细说明。

图6图示了本发明一实施方式的控制客体选择装置中所获取的第一识别信息和与第一识别信息对应的第二识别信息。

如图6所示，在控制客体选择装置100上，实行网页浏览160，该网页浏览160包括控制客体161、162、163、164、165时，基于一控制客体161可获取“朝鮮の由来”这一第一识别信息。

“朝鮮の由来”第一识别信息被获取时，该第一识别信息的近似词的近似识别信息如图6所示，可为“朝鮮の歴史”、“韓国の由来”、“韓国の歴史”。

如图6所示，设定韩国语为基准语言时，第一识别信息以韩国语翻译成“ ”、第一识别信息的近似识别信息翻译成的韩国语“（朝鲜的历史）”、“（韩国的由来）”、“（韩国的历史）”属于第二识别信息。

图7图示了本发明另一实施方式的控制客体选择装置中所获取的第一识别信息和与第一识别信息对应的第二识别信息。

依据本发明的实施方式，第二识别信息是第一识别信息以第一基准语言翻译而成的翻译识别信息或该翻译识别信息以第二基准语言翻译而成的翻译识别信息。

如图7所示，基于一控制客体161获取“朝鮮の由来”第一识别信息时，该第一识别信息以第一基准语言，比如说英语，翻译成“origin of Joseon(Korea),genesis of Joseon(Korea),history of Joseon(Korea)”等翻译识别信息。

进一步，该翻译识别信息以第二基准语言，比如说韩国语翻译成“ （朝鲜（韩国、大韩民国）的由来）”、“（朝鲜（韩国、大韩民国）的起源）、“（朝鲜（韩国、大韩民国）的历史）”等翻译识别信息。

图8图示了本发明一实施方式（图4中）的控制客体选择装置中显示第二识别信息的画面。

如图8所示，本发明的一实施方式的控制客体选择装置100可显示控制客体152、154、156、158所对应的第二识别信息。

如图8所示，第二识别信息（“Route”、“Schedule”、“Route search”、“Update”）邻近对应的控制客体152、154、156、158显示，也可以在第一识别信息对应的文本（“路线”、“时间表”、“路径搜索”、“Update”参照图4）或符号所在领域内显示，也可以和第一识别信息所识别的文本一起显示。

因此，用户确认在控制客体选择装置100上显示的第二识别信息，从而可以知道控制客体选择装置100所识别的词等具体是什么。

另外，依据本发明一实施方式的控制客体选择装置可将控制客体的第一识别信息及第二识别信息或匹配识别信息以语音输出。

控制客体的第一识别信息及第二识别信息以语音输出时，控制客体选择装置所识别的词等具体是什么，可提供给用户，匹配识别信息以语音输出，自用户发音的语音最终所识别的文本被提供给用户，用户可以不看控制客体选择装置的画面就能便利的选择控制客体。

图9图示了本发明一实施方式的与符号对应的第一识别信息和与第一识别信息对应的第二识别信息。

依据本发明的一实施方式，第一识别信息可与基于控制客体获取的符号对应。

如图9所示，在控制客体选择装置100上实行媒体播放应用程序170时，“快退按键172”、“快进按键174”、“播放按键176”属于控制客体。

如图9所示，控制客体172、174、176不包括文本时，该控制客体172、74、176包括符号时，本发明一实施方式的控制客体选择装置100基于控制客体172、174、176获取符号，并可获取该符号对应的第一识别信息“快退”、“快进”、“播放”。

这种符号，如同第一识别信息基于控制客体的显示信息而获取那样，可基于该控制客体的显示信息而被获取。

如图9所示，“快退按键172”以“img”项目272B的“bwd.jpg”显示为图像。“bwd.jpg”的相关图像模式匹配或光学字符识别被实行后，可获取符号。以此类推，“play.jpg”和“fwd.jpg”的相关图像模式匹配或光学字符识别被实行后，可获取符号和符号。

在此，“图像模式匹配”是指对象图像，如从前述的“bwd.jpg”、“play.jpg”、或“fwd.jpg”等图像提取特征（feature）后，通过事先设定或是用户事后的说明或经验方式，在所生成的对比群中，获得具有相同或是近似模式的图像，为了进行图像模式匹配，可利用模板匹配（template matching）、神经式网络（neural network）、隐马尔可夫模型（HMM;hidden Markov model）等，但并不局限于所列举的方法，可利用多种多样的方法。

符号通过控制客体选择引擎来获取，可储存在内存上，但并不局限于此，也可以通过所执行的应用程序来获取储存在内存上。

如上所述，基于控制客体而获取的符号，与识别信息对应。有关对应于符号的识别信息，参照图10进行详细说明。

图10图示了符号和符号对应的第一识别信息的示例图。

“快退按键172”（图9）、“快进按键174”（图9）、“播放按键176”（图9）的符号，分别可获取

如图10所示，所获取的符号分别与第一识别信息对应。符号372获取“快退”第一识别信息472；符号374获取“快进”第一识别信息474；符号376获取“播放”第一识别信息476。

接着，所获取的第一识别信息472、474、476所对应的第二识别信息，比如说，可获取第一识别信息的翻译识别信息。如图9所示，“快退”、“播放”、“快进”第一识别信息用英语翻译后的“backward”、“play”、“forward”翻译识别信息被获取。不仅可为这种翻译识别信息，还可以是第二识别信息如图3至图7中所述，第一识别信息的近似识别信息、标音识别信息、发音列识别信息等。

另外，图10所示的符号300或与符号对应的识别信息400仅为示例，符号的种类、数量及其对应的识别信息可多种多样。

也就是说，没有必要一定是一个符号对应一个识别信息，根据应用程序，符号意义可为多种多样的，一个符号可以对应多个具有不同意义的识别信息。

如上所述，一个符号对应复数个识别信息时，该复数个识别信息间具有优先顺序，从而来决定匹配的识别信息。

也就是说，对于一个符号，根据应用程序可对应不同的第一识别信息，比如说，符号356，在媒体播放应用程序中对应“播放”第一识别信息，在网页浏览或电子书中对应“下一页”第一识别信息。

另外，依据本发明一实施方式，符号可基于应用程序的画面信息而被获取。

在应用程序的画面上显示控制客体时，会实行与应用程序画面相关的光学字符识别，在该应用程序的画面内，可获取可识别为文本或文字记号的信息。

但是，应用程序的画面上，仅获取被识别成文本或文字记号的信息时，必须决定该信息是否是符号，若是符号应对应哪一个控制客体。这与在应用程序画面中，获取到文本时，决定该文本是否属于于控制客体对应的第一识别信息的方式是相同的。

另外，依据本发明一实施方式，输入信息也可以是通过自用户语音获取的语音模式信息与语言模式数据库对比后所识别的文本。这种语言模式数据库可设在控制选择装置上，通过控制客体选择装置和网络连接。

输入信息是通过语音识别而识别的用户的语音文本时，输入信息和第一识别信息的匹配因所识别的文本和第一识别信息的自身比较而被实行。

参附的方块图的各方块和流程图的各步骤的组合，可因电脑指令而实行。这些电脑指令可以搭载在常用电脑、特殊电脑或其它软件数据处理装备的处理机上，通过电脑或其它软件数据处理装备的处理机而实行的指令生成在方块图的各方块或流程图的各步骤中实行说明功能的手段。这些电脑软件指令为了以特定的方式体现功能，可在电脑或其它软件数据处理装备的可用于电脑或电脑可读的内存上储存，因此，在可用于电脑或电脑可读的内存上所储存的指令包括各方块图的方块或流程图的各步骤中实行的说明功能的指令手段。电脑软件指令也可搭载在电脑或其它软件数据处理装备上，电脑或其它软件数据处理装备上，相关的动作步骤被实行，生成电脑实行的处理器，实行电脑或其它软件数据处理装备的指令可提供方块图各方块及流程图各步骤中用于说明功能的步骤。

在本说明书中，各方块可以为包括用于实现特定的论理功能的一个以上可实行指令的模组、程序或代码的一部分。另外，在几种代替实行的举例中，在方块图中所提及的功能也可以是脱离顺序而发生的。举例来说，陆续被图示的两个方块也可能是实质上同时实行的，也可以是该方块有时随着功能而逆顺序实行。

与本说明书中所记载的实施方式相关，并被说明的方法或译码的步骤，可以是处理器实行的硬件、软件模组或其结合直接体现的。软件模组可为在RAM内存、闪存、ROM内存、EPROM内存、EEPROM内存、寄存器、硬盘、装拆性盘、CD-ROM或本技术领域内供知的任意形态的储存媒体。示例性的储存媒体在处理器上联合，处理器可判读来自媒体的信息，并在储存媒体上记入信息。采用其他方法，储存媒体可与处理器为一体形。处理器及储存媒体可设在ASIC集成电路内。ASIC可设置的用户终端机内。采用其他方法，处理器及储存媒体可各自设置在用户终端机内。

以上结合本发明的实施方式，对本发明作了更加详细的说明，但是本发明并不局限于此，在本发明技术思想的范围内可进行多种变形。由此可见，本发明所记载的实施方式并不用于限定本发明的思想，仅用于说明本发明，本发明的技术思想并不受实时方式的限制。本发明的保护范围在权利要求书中的权利要求项内，在其同等范围内的所有技术思想均被看作属于本发明的权利范畴之内。

Claims

1.一种控制客体选择装置，是以语音识别来选择控制客体的装置，其特征在于，包括一个以上的处理装置；

所述一个以上的处理装置的构成为，基于用户的语音获取输入信息，基于控制客体获取的至少一个的第一识别信息及与所述第一识别信息对应的第二识别信息和所述输入信息进行匹配，在所述第一识别信息及所述第二识别信息中获取与所述输入信息匹配的匹配识别信息，在所述匹配识别信息中选择对应的控制客体。

2.根据权利要求1所述的控制客体选择装置，其特征在于，所述第二识别信息包括作为所述第一识别信息近义词的近义识别信息。

3.根据权利要求1所述的控制客体选择装置，其特征在于，所述第二识别信息包括由所述第一识别信息以基准语言翻译而成的翻译识别信息及由所述第一识别信息以基准语言标音的标音识别信息中的至少一个。

4.根据权利要求1所述的控制客体选择装置，其特征在于，所述第二识别信息包括作为所述第一识别信息的发音列的发音列识别信息。

5.根据权利要求1所述的控制客体选择装置，其特征在于，所述一个以上的处理装置显示所述第二识别信息。

6.根据权利要求1所述的控制客体选择装置，其特征在于，所述第一识别信息是基于所述控制客体的显示信息而获取的。

7.根据权利要求6所述的控制客体选择装置，其特征在于，所述第一识别信息是基于应用程序画面信息而获取的。

8.根据权利要求6或7所述的控制客体选择装置，其特征在于，所述第一识别信息是通过光学字符识别（OCR:optical character recognition）而获取的。

9.根据权利要求6所述的控制客体选择装置，其特征在于，所述第一识别信息与基于所述控制客体而获取的符号对应。

10.根据权利要求1所述的控制客体选择装置，其特征在于,所述输入信息包括分析所述用户的语音特征而获取的语音模式信息；所述识别信息和所述输入信息的匹配包括所述识别信息和所述语音模式信息的匹配。

11.根据权利要求1所述的控制客体选择装置，其特征在于，所述输入信息包括通过语音识别，由所述用户的语音而识别的文本（Text）；所述识别信息和所述输入信息的匹配包括所述识别信息和所述文本的匹配。

12.一种控制客体选择方法，是通过语音识别来选择控制客体的方法，其特征在于，包括：基于用户的语音获取输入信息的步骤；基于控制客体获取的至少一个的第一识别信息及与所述第一识别信息对应的第二识别信息和所述输入信息匹配的步骤；在所述第一识别信息和所述第二识别信息中，获取与所述输入信息匹配的匹配识别信息的步骤；在所述匹配识别信息中选择对应的控制客体的步骤。

13.根据权利要求12所述的控制客体选择方法，其特征在于，所述第二识别信息包括作为所述第一识别信息近义词的近义识别信息。

14.根据权利要求12所述的控制客体选择方法，其特征在于，所述第二识别信息包括由所述第一识别信息以基准语言翻译而成的翻译识别信息及由所述第一识别信息以基准语言标音的标音识别信息中的至少一个。

15.根据权利要求12所述的控制客体选择方法，其特征在于，所述第二识别信息包括作为所述第一识别信息的发音列的发音列识别信息。

16.根据权利要求12所述的控制客体选择方法，其特征在于，还包括显示所述第二识别信息的步骤。

17.一种可电脑判读的媒体，是储存指令集的可电脑判读的媒体，其特征在于，所述指令集因电脑装置而被执行时，可让所述电脑装置获取基于用户语音的输入信息，基于控制客体获取的至少一个的第一识别信息及与所述第一识别信息对应的第二识别信息和所述输入信息匹配，在所述第一识别信息和第二识别信息中，获取与所述输入信息匹配的匹配识别信息，在所述匹配识别信息中选择对应的控制客体。