CN106878566A

CN106878566A - 语音操控方法、移动终端装置及语音操控***

Info

Publication number: CN106878566A
Application number: CN201710165987.6A
Authority: CN
Inventors: 张国峰
Original assignee: Via Technologies Inc
Current assignee: Via Technologies Inc
Priority date: 2013-04-10
Filing date: 2013-08-12
Publication date: 2017-06-20
Anticipated expiration: 2033-08-12
Also published as: CN106878566B; CN103442130A; CN103200329A; TWI511125B; US20140310004A1; US10074365B2; TW201440037A

Abstract

一种语音操控方法、移动终端装置及语音操控***，其中语音操控方法包括以下步骤。应用程序提供至少一操作参数至语音软件开发模块。语音软件开发模块接收语音信号并解析此语音信号，以获得语音识别结果。语音软件开发模块判断语音识别结果是否符合操作参数。当语音识别结果符合操作参数时，语音软件开发模块提供操作指令至应用程序。

Description

语音操控方法、移动终端装置及语音操控***

本申请是申请日为2013年8月12日、申请号为201310349203.7、发明名称为“语音操控方法、移动终端装置及语音操控***”的发明专利申请的分案申请。

技术领域

本发明涉及一种语音操控方法，特别是涉及一种通过语音操控应用程序的语音操控方法、移动终端装置及语音操控***。

背景技术

随着科技的发展，具有语音***的移动终端装置已日渐普及。上述的语音***是通过语音理解技术，让使用者与移动终端装置进行沟通。举例来说，使用者只要对上述的移动终端装置讲出某项要求，例如想要查车次、查天气或是欲拨打电话等，***便会依据使用者的语音信号，采取对应的动作。

基于语音理解技术的实用性，目前许多开发者已推出语音软件开发包(SpeechSoftware Development Kit,SDK)来执行上述语音理解技术，例如实现从语音中识别出汉字，进行语音合成，实现语音朗读等等。通过语音软件开发包，开发者或使用者需将会被使用到的功能函数或应用程序加入语音软件开发包，而语音软件开发包便可根据使用者的语音信号来执行对应的动作。

虽然使用者可通过语音软件开发包来操控移动终端装置，然而对于未加入语音软件开发包的功能函数或应用程序，则会失去与使用者进行语音交互的能力。换言之，倘若应用程序未被加入语音软件开发包，则使用者将无法通过语音来操控应用程序执行对应的动作，故对于使用者来说将造成许多的不便。

基此，如何改进上述的这些缺点，成为亟待解决的议题。

发明内容

本发明提供一种语音操控方法、移动终端装置以及语音操控***，其可让使用者通过语音的方式来操控移动终端装置中的应用程序，藉以提升使用移动终端装置的便利性。

本发明提出一种语音操控方法，用于移动终端装置，其中移动终端装置具有第一应用程序。在语音操控方法中，第一应用程序提供至少一操作参数至语音软件开发模块。接收语音信号并传送至语音软件开发模块，语音软件开发模块解析语音信号以获得语音识别结果，当语音识别结果符合操作参数时，语音软件开发模块根据语音识别结果提供操作指令至应用程序。应用程序接收操作指令并执行对应操作。

本发明还提出一种语音操控方法，用于语音软件开发模块。在语音操控方法中，自应用程序接收至少一操作参数。接收并解析语音信号，以获得语音识别结果。判断语音识别结果是否符合操作参数。当语音识别结果符合操作参数时，根据语音识别结果，提供操作指令至应用程序。

本发明还提出一种语音操控方法，用于移动终端装置与语音软件开发模块，其中移动终端装置具有应用程序。在语音操控方法中，应用程序提供至少一操作参数至语音软件开发模块。语音软件开发模块通过语音接收单元接收语音信号并解析语音信号，以获得语音识别结果。语音软件开发模块判断语音识别结果是否符合操作参数。当语音识别结果符合操作参数时，语音软件开发模块根据语音识别结果，提供操作指令至应用程序。

本发明还提出一种语音操控***，其包括移动终端装置以及伺服器。移动终端装置包括语音接收单元以及应用程序模块。语音接收单元用以接收语音信号，而应用程序模块用以提供应用程序。伺服器适与移动终端装置连线，且伺服器具有语音软件开发模块。其中，应用程序提供至少一操作参数至语音软件开发模块。语音软件开发模块通过语音接收单元接收语音信号，并解析语音信号以获得语音识别结果。语音软件开发模块判断语音识别结果是否符合操作参数。当语音识别结果符合操作参数时，语音软件开发模块根据语音识别结果，提供操作指令至应用程序。

本发明还提出一种移动终端装置，其连线于语音软件开发模块。移动终端装置包括语音接收单元以及应用程序模块。语音接收单元用以接收语音信号。应用程序模块用以提供应用程序。其中，应用程序提供至少一操作参数至语音软件开发模块。语音软件开发模块自语音接收单元接收语音信号并解析语音信号，以获得语音识别结果。语音软件开发模块判断语音识别结果是否符合操作参数。当语音识别结果符合操作参数时，语音软件开发模块根据语音识别结果，提供操作指令至应用程序。

基于上述，在本发明的语音操控方法、移动终端装置以及语音操控***中，应用程序会提供操作参数至语音软件开发模块，而语音软件开发模块会解析来自使用者的语音信号而获得语音识别结果。当语音软件开发模块判断语音识别结果符合操作参数时，语音软件开发模块则会提供操作指令至所述应用程序。藉此，本发明可让使用者以语音的方式来操控应用程序，藉以提升移动终端装置的使用便利性。

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并结合附图详细说明如下。

附图说明

图1是依照本发明一实施例所绘示的语音操控***的方块图。

图2是依照本发明一实施例所绘示的语音操控方法的流程图。

图3是依照本发明一实施例所绘示的语音操控方法的流程图。

图4是依照本发明一实施例所绘示的语音操控方法的方块图。

图5是依照本发明一实施例所绘示的移动终端装置的流程图。

附图符号说明

100、500：移动终端装置

110、510：语音接收单元

120、520：应用程序模块

122、124、126、522、524、526：应用程序

130、530：语音软件开发模块

132、532：呼叫接口

134、534：通知接口

136、536：语义数据库

40：伺服器

4000：语音操控***

P1、P2、P3：操作参数

S：操作指令

S202、S204、S206、S302、S304、S306、S308、S310、S402、S404、S406、S408、S410、S412、S414：语音操控方法的各步骤

具体实施方式

虽然现今的移动终端装置已可提供语音***，以让使用者发出语音来和移动终端装置沟通，但若应用程序本身不具有语音理解功能，则使用者无法通过语音的方式来操控应用程序执行对应的操作功能。为此，本发明提出一种语音操控方法、移动终端装置及语音操控***，让使用者能够更便捷地通过语音的方式来操控移动终端装置中的应用程序，以提升使用移动终端装置的便利性。为了使本发明的内容更为明了，以下特举实施例作为本发明确实能够据以实施的范例。

图1是依照本发明一实施例所绘示的语音操控***1000的方块图。请参照图1，语音操控***1000具有移动终端装置100以及伺服器10，且移动终端装置100可连线于伺服器10。伺服器10例如是云端伺服器，而伺服器10包括语音软件开发模块130。移动终端装置100例如为移动电话(Cell phone)、个人数字助理(Personal Digital Assistant，PDA)手机、智能型手机(Smart phone)，或是安装有通讯软件的掌上型计算机(Pocket PC)、平板型计算机(Tablet PC)或笔记型计算机等等。移动终端装置100可以是任何具备通讯功能的便携式(Portable)移动装置，在此并不限制其范围。此外，移动终端装置100包括语音接收单元110以及应用程序模块120。

在语音操控***1000中，一个或多个操作参数由移动终端装置100传送至伺服器10的语音软件开发模块130。当移动终端装置100通过语音接收单元110接收到来自使用者的语音信号时，移动终端装置100可将此语音信号传送至伺服器10中的语音软件开发模块130，而语音软件开发模块130便可对此语音信号进行解析而获得语音识别结果。此时，语音软件开发模块130可根据语音识别结果，判断此语音识别结果是否符合上述的操作参数，若是，语音软件开发模块130便会发送对应的操作指令至移动终端装置100中的应用程序模块120，使得应用程序模块120启动对应此操作指令的应用程序，或使此应用程序执行对应的操作功能。下面将详述上述模块的功能。

语音接收单元110用以接收来自使用者的语音信号，此语音接收单元110例如为麦克风(Microphone)等接收音讯的装置。

应用程序模块120用以提供一个或多个应用程序。应用程序例如桌面应用程序、浏览器应用程序、文书处理应用程序或影像撷取应用程序等，不限于上述。图1绘示应用程序122、124及126为例，但本实施例并不限制应用程序的数量。

语音软件开发模块130例如为语音软件开发工具包(software development kit,SDK)。语音软件开发模块130可提供语音识别(Speech Recognition)、语音合成(SpeechSynthesis)或其他语音编译等功能。

需说明的是，上述的应用程序模块120与语音软件开发模块130可由一个或数个逻辑门组合而成的硬件电路来实作，亦可以是以计算机程序码来实作，并藉由移动终端装置100的中央处理器来执行。

伺服器10中的语音软件开发模块130用以根据语音信号而产生操作指令。详细而言，语音软件开发模块130可提供呼叫接口132、通知接口134以及语义数据库136。其中，呼叫接口132用以接收来自应用程序122、124及126的多个操作参数。通知接口134用以输出操作指令至应用程序122、124及126，使应用程序122、124及126依据操作指令来执行对应的操作功能。语音软件开发模块130可根据语义数据库136而解析出语音信号中的请求信息。具体来说，应用程序122、124及126会提供操作参数至语音软件开发模块130，而语音软件开发模块130可将语音接收单元110所接收的语音信号根据语义数据库136进行解析，而获得语音识别结果，并且判断此语音识别结果是否符合应用程序122、124及126所提供的操作参数。倘若此语音识别结果符合操作参数，则语音软件开发模块130会通过通知接口134来输出对应于语音识别结果的操作指令至应用程序122、124及126。其中，操作指令具有对应于音信号中的请求信息的命令，因此应用程序122、124及126接收操作指令，可执行对应的操作功能。举例来说，当语音软件开发模块130所产生的操作指令为「Previous」时，表示控制应用程序执行翻上一页的动作。或者，当操作指令为「Goto，3」时，表示控制应用程序执行翻到第“3”页的动作。或者，当操作指令为「Brighter」时，表示控制应用程序执行将显示器的亮度调亮一点的动作。或者，当操作指令为「Darker」时，表示控制应用程序执行将显示器的亮度调暗一点的动作。或者，当操作指令为「Colorful」时，表示控制应用程序执行将显示器的亮度调鲜艳一点的动作。上述的操作指令为举例说明，本实施例的操作指令并不限于此。在此说明的是，上述的操作指令例如是应用程序122、124及126可执行的文件或程序档，例如是具有「*exe」、「*lib」或「*obj」文档格式的文档。因此，当语音识别结果符合应用程序122、124及126至少其中之一所提供的操作参数时，语音软件开发模块130可根据此语音识别结果产生对应的操作指令，并传送至移动终端装置100中对应的应用程序，使得此应用程序载入并执行这个操作指令，藉以控制这个应用程序。

值得一提的是，开发者或使用者也可自行定义语音软件开发模块130的功能函数，来对移动终端装置100进行语音命令控制或对话。在此，开发者可定义语音软件开发模块130依据语音识别结果，通过通知接口134传送定义的操作指令至应用程序模块120，使得应用程序模块120启动对应于定义的操作指令的应用程序。举例来说，开发者可使语音软件开发模块130根据具有相同请求信息的语音识别结果，来输出一个特定的操作指令至应用程序模块120，以启动此特定的操作指令所对应的应用程序，并且使此应用程序执行对应于特定的操作指令的操作功能。例如，当使用者说「我看完了」、「换页」、「下张」或「下一页」等用以命令浏览器应用程序进行切换网页页面的语音信号时，语音软件开发模块130可解析出上述的语音信号是包括具有「命令浏览器应用程序进行切换页面」这个请求信息的语音识别结果，则语音软件开发模块130会产生一个特定的操作指令(例如「Next」)(亦即，对应于「命令浏览器应用程序进行切换页面」的这个操作指令)。并且，语音软件开发模块130会将此操作指令传送至应用程序模块120中的浏览器应用程序，以使浏览器应用程序进行切换页面。又例如，当使用者说「第一页」、「第一张」、「第一首」等用以命令媒体播放应用程序播放第一个影音文档时，语音软件开发模块130可解析出上述的语音信号是包括具有「媒体播放应用程序播放第一个影音文档」这个请求信息的语音识别结果，则语音软件开发模块130会产生一个特定的操作指令(例如「First」)(亦即，对应于「命令媒体播放应用程序播放第一个影音文档」的这个操作指令)。并且，语音软件开发模块130会将此操作指令传送至应用程序模块120中的媒体播放应用程序，以使媒体播放应用程序播放第一个影音文档。

也就是说，当使用者以多种语音信号来表达同一种请求信息时，语音软件开发模块130便可传送单一个特定的操作命令至对应的应用程序，而此对应的应用程序可根据这个特定操作命令来执行对应的操作功能。故本实施例的应用程序本身可不需提供语音理解的功能(例如语音识别或语音合成等)，而当使用者欲通过语音来操控应用程序时，语音软件开发模块130会解析使用者的语音，藉以判断是否输出对应的指令至应用程序。如此一来，当应用程序接收到来自语音软件开发模块130的操作指令时，应用程序可进而执行对应的操作功能。换言之，虽然应用程序本身可具备或不具备接收(或解析)语音信号功能，但应用程序载入语音软件开发模块130所产生的操作指令之后，便如同一个具有接收(或解析)语音信号功能的应用程序，藉此，使用者可便利地通过语音的方式来操控应用程序。

以下即结合上述的语音操控***1000来说明语音操控方法，其中以应用程序122为例来进行说明。图2是依照本发明一实施例所绘示的语音操控方法的流程图。请同时参照图1及图2，于步骤S202中，应用程序122会提供至少一操作参数P1至语音软件开发模块130。在本实施例中，应用程序122可通过提供操作参数P1来呼叫语音软件开发模块130，而当语音软件开发模块130接收到语音信号后可开始进行语音理解。此外，应用程序开发者可自行设定使用者可能会使用到的应用程序122的操作参数，使得应用程序122依据所述设定的操作参数来提供至语音软件开发模块130。

上述操作参数P1例如是应用程序122用以表示其可接收到的命令、文字序列或物件的位置信息等输入值，例如命令、字串参数以及位置参数，不限于此。因此，语音软件开发模块130根据应用程序122所提供的操作参数P1，可判断出应用程序122所需要的输入值是属于命令、文字序列或位置信息。举例来说，假设应用程序122为浏览器应用程序，则应用程序122所提供的操作参数P1例如是对应于「上一页」、「下一页」、「放大页面」或「缩小页面」等命令，不限于此。假设应用程序122为笔记本应用程序，则应用程序122所提供的操作参数P1例如是对应于「新增笔记」、「删除笔记」等命令，或者是对应于读取文字序列的字串参数，不限于此。此外，假设应用程序122为邮件应用程序，则应用程序122所提供的操作参数P1例如是对应于「新增邮件」等命令、对应于读取文字序列的字串参数，或者是上载文档时所需的文档的位置参数，不限于此。

接着，于步骤S204中，移动终端装置100会通过语音接收单元110接收语音信号，并传送至语音软件开发模块130。其中语音软件开发模块130会解析语音信号以获得语音识别结果，且当语音识别结果符合操作参数P1时，语音软件开发模块130根据语音识别结果提供操作指令S。上述的语音信号例如是来自使用者所说的语音，且语音信号具有使用者的请求信息。具体而言，来自使用者的语音信号可以是命令句或询问句等，例如「看上一页」、「放大第三行第四列」、「声音稍微大一点」、「把照片发送到我的微博」、「把这条简讯发送给王大同」或「今天会不会下雨？」等等。

最后，于步骤S206中，应用程序122会接收操作指令S。在此，由于语音软件开发模块130依据语音识别结果中所符合的操作参数P1来产生不同的操作指令S，藉以控制应用程序122，因此应用程序122载入语音软件开发模块130所产生的操作指令S之后，便如同一个具有接收(或解析)语音信号功能的应用程序122，藉此，使用者可便利地通过语音的方式来操控应用程序122。

下面再举一实施例来详细说明本实施例的语音操控方法。以下仍结合上述的语音操控***1000来说明语音操控方法，其中仍以应用程序122为例来进行说明。图3是依照本发明一实施例所绘示的语音操控方法的流程图。请同时参照图1及图3，于步骤S302中，语音软件开发模块130会自应用程序122接收至少一操作参数P1。

于步骤S304中，语音软件开发模块130会接收并解析语音信号，以获得语音识别结果。

在本实施例中，语音软件开发模块130会解析来自使用者的语音信号而获得语音信号的一个或多个特征语义，并且语音软件开发模块130会根据这些特征语义来产生语音识别结果。具体而言，特征语义例如是语音软件开发模块130解析语音信号后所得到的关键词等，而语音软件开发模块130根据特征语义可获得使用者的请求信息。举例来说，当语音信号为「看上一页」时，语音软件开发模块130经解析所获得的特征语义例如是「『看』、『上一页』」。又例如，当语音信号为「声音稍微大一点」时，语音软件开发模块130经解析所获得的特征语义例如是「『声音』、『稍微』、『大一点』」。或者，当语音信号为「把照片发送到我的微博」时，语音软件开发模块130经解析所获得的特征语义例如是「『照片』、『发送到』、『我的微博』」。

进一步地说，语音软件开发模块130可依据特征语义自语义数据库136查询此特征语义对应的类别，其中类别例如是命令、物件、时间、文字序列或位置信息等。更具体而言，语义数据库136可记录有特征语义与对应的类别的关系。因此，语音软件开发模块130可根据语义数据库136而解析出语音信号中的请求信息，据以做为语音识别结果。

举例来说，当语音信号为「看上一页」时，语音软件开发模块130会先解析出特征语义分别为「『看』、『上一页』」，接着，语音软件开发模块130可根据语义数据库136而判断出「『看』、『上一页』」是使移动终端装置100执行「将网页回到上一页」的命令。又例如，当语音信号为「声音稍微大一点」时，语音软件开发模块130会先解析出特征语义分别为「『声音』、『稍微』、『大一点』」，且语音软件开发模块130可根据语义数据库136而判断出此语音信号，是使移动终端装置100执行「调升音量」的命令。

接后，于步骤S306中，语音软件开发模块130会判断语音识别结果是否符合操作参数P1。具体来说，本实施例的语义数据库136也可储存特征语义所对应的类别与操作参数之间的关系，例如，语义数据库136可记录特征语义所对应的类别是对应于哪一种操作参数。因此，语音软件开发模块130便可藉由查询语义数据库136，来判断出语音识别结果是否符合操作参数P1。

举例来说，当应用程序122提供给语音软件开发模块130的操作参数P1包括「调升音量」、「调降音量」、「静音」、「调升亮度」或「调降亮度」，而语音识别结果为使移动终端装置100执行「调升音量」的命令时，语音软件开发模块130则会判断「调升音量」这个命令，是否符合「调升音量」、「调降音量」、「静音」、「调升亮度」或「调降亮度」这些操作参数P1的其中之一。

当语音软件开发模块130判断语音识别结果符合操作参数时，则如步骤S308所示，语音软件开发模块130会根据语音识别结果，提供操作指令S至应用程序122。详细而言，由于语音软件开发模块130可提供不同的功能函数，而这些功能函数可接收不同的输入值以产生对应的输出，因此依据不同的语音识别结果中所符合的操作参数P1，语音软件开发模块130会产生不同的操作指令S。

在本实施例中，语音软件开发模块130所提供的功能函数可根据开发者或使用者而被定义，亦即，开发者或使用者可定义语音软件开发模块130依据不同的语音识别结果，而产生语音识别结果所对应的操作指令S。藉此，当语音识别结果符合操作参数P1时，语音软件开发模块130可将所产生的操作指令S，传送至提供操作参数P1的应用程序122，进而通过操作指令S来操控应用程序122。

在本实施例中，应用程序接收到操作指令S之后，可依据操作指令S而执行对应的操作功能。由于操作功能是对应于应用程序所提供的操作参数，因此语音软件开发模块130会通过操作指令S来操控应用程序122，使应用程序122执行对应于操作参数P1的操作功能。举例而言，当语音识别结果为使移动终端装置100执行「调升音量」的命令，且此命令符合操作参数P1时，移动终端装置100则会产生对应于「调升音量」的操作指令S，并将此操作指令S传送至应用程序122，使应用程序122进行音量的调升。值得一提的是，应用程序122接收到操作指令S之后，可依据应用程序122目前的状态，以判断是否进行操作指令S所对应的操作功能。举例而言，倘若应用程序判断移动终端装置100目前的音量已达最大值，则应用程序122不会依据操作指令S而对音量进行调升。

返回步骤S306，当语音软件开发模块130判断语音识别结果不符合操作参数P1时，则如步骤S310所示，语音软件开发模块130会依据语音识别结果传送预设指令至应用程序模块124，使其依据预设指令启动另一应用程序并接收此预设指令。举例来说，当语音信号为「明天会下雨吗？」(其语音识别结果例如是使移动终端装置100执行查询天气的命令)，倘若应用程序122未提供对应于「查询天气」的操作参数P1至语音软件开发模块130，则语音软件开发模块130便会判断语音识别结果不符合操作参数P1。在此，语音软件开发模块130会传送预设指令至应用程序模块124，而应用程序模块124便会启动搜寻引擎应用程序(例如在移动终端装置100的屏幕上显示搜寻引擎应用程序)，以查询明天的天气。如此一来，若使用者所启动的应用程序122未提供符合语音识别结果的操作参数P1，移动终端装置100可自动传送预设指令至符合语音识别结果的应用程序。

为了详细说明本实施例的语音操控方法，下面举一实施例来详细说明。假设使用者启动应用程序122，此应用程序122例如为浏览器应用程序。首先，应用程序122会提供「看上一页」、「看下一页」、「放大页面」或「缩小页面」等类别为命令的操作参数P1至语音软件开发模块130。接着，若使用者的语音信号为「看上一页」，则语音软件开发模块130解析此语音信号后，可判断出这个语音信号是使应用程序122执行回到上一个网页的命令(即语音识别结果)。由于此语音识别结果符合「看上一页」这个操作参数P1，因此语音软件开发模块130会传送操作指令S至应用程序122，其中操作指令S用以操控应用程序122执行回到上一个网页的动作。如此一来，使用者可通过语音的方式，来操控应用程序122返回上一个网页。

在另一实施例中，语音软件开发模块130在提供操作指令S至应用程序122时，还可将语音信号中所对应的文字序列传送至应用程序122，使得应用程序122读取语音信号中所对应的文字序列，并使应用程序122依据此文字序列来执行对应于操作指令S的操作功能。下面即结合图1的语音操控***1000与图3的语音操控方法各步骤，并以应用程序122为例来进行说明。

首先，语音软件开发模块130会自应用程序122接收至少一操作参数P1(步骤S302)。接着，语音软件开发模块130会接收并解析此语音信号，以获得语音识别结果(步骤S304)。语音软件开发模块130在判断语音识别结果是否符合操作参数P1时(步骤S306)，语音软件开发模块130可进一步判断应用程序122所提供的操作参数P1是否具有字串参数，亦即判断应用程序122所需要的输入值是否属于文字序列。

详细而言，当应用程序122所提供的操作参数P1具有字串参数时，语音软件开发模块130可将解析后的语音信号视为文字序列，并依据此文字序列提供操作指令S至应用程序122。此外，于一实施例中，语音软件开发模块130可进一步判断语音识别结果中是否具有对应于字串参数的文字序列。在此，倘若语音软件开发模块130判断语音识别结果中有对应于字串参数的文字序列，则语音软件开发模块130在提供操作指令S至应用程序122时(步骤S308)，会将语音识别结果中的文字序列传送至提供的应用程序122。

另一方面，倘若语音软件开发模块130判断语音识别结果不具有对应于字串参数的文字序列，语音软件开发模块130不会将此文字序列传送至应用程序122。或者，当语音软件开发模块130判断语音识别结果不符操作参数P1时，语音软件开发模块130不会传送操作指令S至应用程序，或者传送预设指令至另一应用程序(步骤S310)。如此一来，使用者不仅可通过语音来操控应用程序，且亦可操控应用程序122读取语音中对应的文字序列。

举例来说，假设应用程序122为笔记本应用程序，则当使用者启动应用程序122时(例如点选应用程序122或者通过语音方式来唤醒应用程序122)，应用程序122会提供「新增笔记」、「删除笔记」、「修改笔记」、「标记笔记」等类别为命令的操作参数P1以及类别为字串参数的操作参数P1至语音软件开发模块130。上述操作参数P1为举例说明，并不限于此。此时，若语音接收单元110接收到使用者的语音信号为「新增笔记，内容为『明天下午一点开会』」，则语音软件开发模块130会将语音接收单元110所接收的语音信号进行解析而获得「『新增』、『笔记』、『内容为』、『明天』、『下午』、『一点』、『开会』」这些特征语义。在此，语音软件开发模块130会判断「『新增』、『笔记』、『内容为』」这些特征语义是类别为命令的操作参数P1(即「新增笔记」)，且语音软件开发模块130可判断出现在「内容为」之后的语音信号(即「明天下午一点开会」)为对应于字串参数的文字序列，即语音识别结果符合类别为字串参数的操作参数P1。之后，语音软件开发模块130会依据语音识别结果中相符合的操作参数P1(即「新增笔记」)传送操作指令S，以及传送语音识别结果中的文字序列(即「明天下午一点开会」)至应用程序122。由于操作指令S是对应于「新增笔记」这个操作参数，因此应用程序122会新增一个笔记数据，并且在此笔记中记录「明天下午一点开会」这个文字序列。如此一来，使用者可直接通过语音的方式，命令应用程序122读取使用者说的语音所对应的文字序列。

在另一实施例中，上述语音软件开发模块130在提供操作指令S至应用程序122时，还可将语音信号中所指的物件的位置信息传送给应用程序122，使得应用程序122可取得此物件所在的物件路径。下面即结合图1的语音操控***1000与图3的语音操控方法各步骤，并以应用程序122为例来进行说明。

首先，语音软件开发模块130会自应用程序122接收至少一操作参数P1(步骤S302)。接着，语音软件开发模块130会接收并解析此语音信号，以获得语音识别结果(步骤S304)。语音软件开发模块130在判断语音识别结果是否符合操作参数P1时(步骤S306)，可进一步判断应用程序122所提供的操作参数P1是否具有位置参数，亦即判断应用程序122所需要的输入值是否属于路径(例如地址或网址等)。并且，语音软件开发模块130会进一步判断语音识别结果中所解析出的特征语义是否具有位置信息。

在此说明的是，若语音软件开发模块130解析语音信号而识别出物件，则上述所指的位置信息指的是表示此物件相对于应用程序122的位置。举例来说，若应用程序122为影像浏览应用程序，则其位置信息可以是指应用程序122显示当前的影像的位置(例如应用程序122的显示画面中的中间区域)。又例如，位置信息可以是指应用程序122显示部分区域的位置，不限上述。

在本实施例中，语音软件开发模块130解析语音信号时，可查询语义数据库136来获取位置信息。具体来说，本实施例的语义数据库136中可记录位置关键词与位置信息的关系，其中位置关键词例如是使用者指称此物件时所说的关键词。例如，若使用者正在操作影像浏览应用程序并开启多个影像，则上述的位置关键词例如是「这张」、「全部」或「左上角」等。在此，语义数据库136可记录哪些位置关键词是对应于应用程序122所指的哪个位置。例如，当位置关键词为「这张」时，语义数据库136会记录「这张」是对应于应用程序122在其显示画面当前所显示的影像，而此影像例如是位于应用程序122的显示画面中的中间区域。又例如，当位置关键词为「左上角」时，语义数据库136会记录「左上角」是对应于应用程序122在其显示画面的左上角所显示的影像。藉此，根据语音信号中所述物件的位置关键词，语音软件开发模块130可判断出语音信号中所指的物件是位在相对于应用程序122的哪个位置(即物件的位置信息)。

在本实施例中，当语音识别结果具有位置信息，则语音软件开发模块130会依据位置信息取得物件的物件路径。物件路径是表示此物件的位置来源(例如物件所在的地址或网址等)。举例来说，对于储存在移动终端装置100的物件来说，其物件路径例如是物件的文档路径。对于因特网中的物件来说，其物件路径例如是开启此物件的网址。换言之，语音软件开发模块130可根据位置信息而取得应用程序122中的物件的物件路径。

如此一来，当应用程序122所提供的操作参数P1具有位置参数，且语音软件开发模块130判断语音识别结果符合应用程序122所提供的操作参数P1时(即语音识别结果中具有对应于位置参数的位置信息)，语音软件开发模块130会提供操作指令S至应用程序122，使应用程序122取得对应于位置信息的物件路径，并根据物件路径取得物件。值得一提的是，由于语音软件开发模块130解析语音信号后，可获得不同的特征语义，因此依据特征语义，语音软件开发模块130可判断语音信号中所指的目标信息，其中目标信息中具有目标端的信息。藉此，语音软件开发模块130可提供操作指令S至应用程序122，使得应用程序122根据上述物件路径取得物件，以及依据目标信息将此物件传送至目标端。下面再举一例来进行说明。

假设应用程序122为影像浏览应用程序，则使用者在启动此应用程序122来浏览影像时，应用程序122会将「新增影像」、「删除影像」、「传送影像」或「编辑影像」等这些操作参数P1传送至语音软件开发模块130。若使用者所说的语音信号为「把当前的照片传送到我的微博」，语音软件开发模块130可从语音信号解析出「『当前的』、『照片』、『传送到』、『我的微博』」这些特征语义。在此，由于语义数据库136中可记录特征语义所对应的关键词与命令、位置信息或目标信息等之间的关系，因此语音软件开发模块130会根据特征语义所对应的关键词，而解析出哪些特征语义是对应于命令、哪些特征语义是对应于物件的位置信息，或者哪些特征语义是对应于目标信息的这些语音识别结果。故对于上述的语音信号而言，语音软件开发模块130可解析出「当前的」为位置信息，「照片」为物件，「传送到」为命令，以及「我的微博」为目标信息。亦即，语音软件开发模块130解析语音信号所得到的语音识别结果符合应用程序122所提供的操作参数P1(即「传送影像」)，且语音识别结果中所解析出的特征语义是对应于物件、位置信息以及目标信息。

接着，语音软件开发模块130可传送操作指令S至应用程序122(步骤S308)，其中操作指令S具有上述命令、物件的位置信息以及目标信息。因此，应用程序122会依据位置信息(即「当前的」)取得物件的物件路径(例如是照片储存在移动终端装置100的文档路径，或者应用程序122开启此照片的网址)，并将物件传送到目标端(即「我的微博」)。如此一来，使用者可直接通过语音的方式，命令应用程序122取得物件的物件路径，藉以执行应用程序122的操作功能。

值得一提的是，当语音软件开发模块130判断语音识别结果不符合操作参数时，语音软件开发模块130可根据语音识别结果，提供操作指令S至符合语音识别结果的另一应用程序，进而操控所述另一应用程序执行对应于操作指令S的操作功能。下面再举一实施例来进行说明。

图4是依照本发明一实施例所绘示的语音操控方法的流程图。请同时参照图1、图3与图4，本实施例的语音操控方法与图3的步骤相似(图4的步骤S402～S408对应于图3的步骤S302～S308)，其不同之处在于：于图4的步骤S406中，当语音软件开发模块130判断语音识别结果不符合操作参数P1时，则如步骤S410所示，语音软件开发模块130会判断语音识别结果是否符合其他应用程序(例如为应用程序124)所提供的操作参数P2，其中应用程序124例如是已被使用者启动而在背景模式中执行。

当语音软件开发模块130判断语音识别结果符合应用程序124所提供的操作参数P2时，则如步骤S412所示，语音软件开发模块130会提供操作指令S至应用程序124，进而使应用程序124执行对应的操作功能。

反之，当语音软件开发模块130判断语音识别结果不符合应用程序122、124及其他应用程序所提供的操作参数时，则如步骤S414所示，语音软件开发模块130会自因特网下载符合语音识别结果的应用程序(例如为应用程序126)，其中应用程序126可提供符合语音识别结果的操作参数P3。并且，语音软件开发模块130会提供操作指令S至应用程序126，使应用程序126执行对应的操作功能。下面再举一例来进行说明。

在此，假设使用者所说的语音信号为「把当前的照片传送到我的微博」，其中语音软件开发模块130解析语音信号所获得的语音识别结果具有「传送到」这个命令。并且，假设应用程序122提供至语音软件开发模块130的操作参数P1不具有对应于「传送到」这个操作参数。在本实施例中，语音软件开发模块130会判断其他应用程序所提供的操作参数是否具有对应于「传送到」这个命令的这个操作参数。倘若应用程序124已被使用者启动而已提供符合「传送到」这个命令的操作参数P2至语音软件开发模块130，则语音软件开发模块130会提供操作指令S至应用程序124。另一方面，倘若应用程序122、124或其他应用程序未提供对应于「传送到」这个命令的这个操作参数至语音软件开发模块130，则语音软件开发模块130会依据「传送到」这个命令，自因特网下载可提供符合「传送到」的操作参数的应用程序126。藉此，语音软件开发模块130便可提供操作指令S至应用程序126。如此一来，语音软件开发模块130可依据解析语音信号所获得的语音识别结果，自动判断符合语音识别结果的操作参数所对应的应用程序，并将操作指令传送至应用程序，藉以让使用者可更方便的通过语音的方式来操控应用程序。

需说明的是，上诸实施例中的语音软件开发模块130也可配置于移动终端装置上，据以实现本发明的语音操控方法。下面再举一实施例来进行说明。

图5是依照本发明一实施例所绘示的移动终端装置500的方块图。请参照图5与图1，移动终端装置500与图1的移动终端装置100相似，惟不同之处在于：语音软件开发模块530是配置于移动终端装置500中。本实施例的移动终端装置500亦可执行图2的步骤S202～S206、图3的步骤S302～S310与图4的步骤S402～S414，故其详细内容在此不再赘述。

值得一提的是，上诸实施例中的语音软件开发模块也可结合其他具有应用程序的电子装置进行运作，或者配置于此电子装置中，而此电子装置例如是电器设备，例如：洗衣机、洗碗机、冷机机、吸尘器、电视机、冰箱等等，不限于上述。也就是说，使用者可直接通过语音来控制电子装置执行对应的操作功能。具体而言，上述电子装置提供一个语音接收装置，比如麦克风；一个网络连接装置以及一个存储有应用程序的存储装置即可。其中的应用程序可提供操作参数至语音软件开发模块(例如，语音软件开发模块可以伺服器端，通过WiFi(Wireless Fidelity)通讯协定与电子装置连接，或者直接置于上述电子装置的上述存储装置中)，而当使用者提供语音信号时，语音软件开发模块便可接收并解析此语音信号以获得语音识别结果。倘若语音软件开发模块判断此语音识别结果符合应用程序所提供的操作参数，则可产生操作指令并传送至对应的应用程序，进而使应用程序执行对应的操作功能。举例来说，对于冷气机而言，冷气机中的应用程序可提供对应于「调高温度」这个操作参数至语音软件开发模块，而当使用者说「温度调高一点」这个语音信号时，语音软件开发模块便可判断此语音信号是对应于「调高温度」这个操作参数，故会产生对应的操作指令至冷气机中的应用程序，而冷气机中的应用程序载入此操作参数之后，便可会将冷气机的设定温度调升。如此一来，对于一般具有简易功能或特殊功能的电器设备而言，电器设备只需要接收语音软件开发模块所产生的操作指令，便可根据使用者的语音来运作。藉此，使用者可方便地通过语音的方式来操控电器设备。

综上所述，在本发明的语音操控方法、移动终端装置以及语音操控***中，应用程序会提供操作参数至语音软件开发模块，而语音软件开发模块会解析来自使用者的语音信号而获得语音识别结果。在此，语音软件开发模块会判断语音识别结果是否符合操作参数，因此当语音识别结果符合时，语音软件开发模块则会提供操作指令至所述应用程序。其中，语音软件开发模块可依据语音识别结果中的命令、文字序列、物件的位置信息等请求讯息传送至所述应用程序，使此应用程序执行对应于操作指令的操作功能。由于语音软件开发模块会进行语音识别，据以提供指令来操控应用程序，因此应用程序在不进行语音理解(例如语音识别或者语音合成)的情况下，亦可执行使用者的语音信号所对应的操作功能。如此一来，通过语音软件开发模块，本发明可让使用者以语音的方式来操控应用程序，进而可执行各种应用程序所提供的动作与工作，藉以提升使用移动终端装置的便利性。

虽然本发明已以实施例揭示如上，然其并非用以限定本发明，本领域技术人员，在不脱离本发明的精神和范围的前提下，可作些许的更动与润饰，故本发明的保护范围是以本发明的权利要求为准。

Claims

1.一种语音操控方法，用于一移动终端装置，其中该移动终端装置具有一第一应用程序，该方法包括：

该第一应用程序提供至少一操作参数至一语音软件开发模块；

该移动终端装置接收一语音信号并传送至该语音软件开发模块，其中该语音软件开发模块根据语义数据库解析该语音信号以获得一语音识别结果，且当该语音识别结果符合该第一应用程序提供的该操作参数之一时，该语音软件开发模块根据该语音识别结果提供一操作指令；以及

该第一应用程序接收该操作指令，

其中该操作参数包括一命令、一字串参数以及一位置参数至少其中之一，该字串参数用于接收该语音识别结果中的文字序列，该位置参数用于接收该语音识别结果中的位置信息。

2.如权利要求1所述的语音操控方法，还包括：

该第一应用程序根据该操作指令执行对应于该操作指令的一操作功能。

3.如权利要求1所述的语音操控方法，其中当该操作参数具有该字串参数，且该语音识别结果具有对应于该字串参数的一文字序列时，该第一应用程序接收该操作指令的步骤还包括接收该语音识别结果中的该文字序列。

4.如权利要求1所述的语音操控方法，其中当该操作参数具有该位置参数，且该语音识别结果具有对应于该位置参数的一位置信息时，该第一应用程序接收该操作指令的步骤还包括根据该操作指令取得对应于该位置信息的一物件路径，以及根据该物件路径取得一物件。

5.如权利要求4所述的语音操控方法，其中该语音识别结果还具有一目标信息，该语音操控方法还包括：

该第一应用程序根据该操作指令，执行对应于该语音识别结果的该操作功能，其中该操作功能包括依据该目标信息将该物件传送至一目标端。

6.如权利要求1所述的语音操控方法，其中该移动终端装置还具有一第二应用程序，且当该语音识别结果不符合该第一应用程序所提供的该操作参数时，该语音操控方法还包括：

该第二应用程序接收该操作指令，并执行对应于该操作指令的该操作功能，其中该第二应用程序符合该语音识别结果。

7.如权利要求1所述的语音操控方法，其中当该语音识别结果不符合该操作参数时，该语音操控方法还包括：

该移动终端装置自该语音软件开发模块接收符合该语音识别结果的一第三应用程序；以及

该第三应用程序接收该操作指令，并执行对应于该操作指令的该操作功能。

8.一种语音操控方法，用于一语音软件开发模块，该方法包括：

自一第一应用程序接收至少一操作参数；

接收并根据语义数据库解析一语音信号，以获得一语音识别结果；

判断该语音识别结果是否符合该操作参数；以及

当该语音识别结果符合该操作参数时，根据该语音识别结果，提供一操作指令至该第一应用程序，

9.如权利要求8所述的语音操控方法，还包括：

10.如权利要求8所述的语音操控方法，还包括：

判断该第一应用程序所提供的该操作参数是否具有该字串参数；以及

当该操作参数具有该字串参数，且该语音识别结果具有对应于该字串参数的一文字序列时，将该语音识别结果中的该文字序列传送至该第一应用程序。

11.如权利要求8所述的语音操控方法，还包括：

判断该第一应用程序所提供的该操作参数是否具有该位置参数；以及

当该操作参数具有该位置参数，且该语音识别结果具有对应于该位置参数的一位置信息时，提供该操作指令至该第一应用程序，使该第一应用程序取得对应于该位置信息的一物件路径，并根据该物件路径取得一物件。

12.如权利要求11所述的语音操控方法，其中该语音识别结果还具有一目标信息，该语音操控方法还包括：

13.如权利要求8所述的语音操控方法，还包括：

当该语音识别结果不符合该第一应用程序所提供的该操作参数时，提供该操作指令至符合该语音识别结果的一第二应用程序，使该第二应用程序执行对应于该操作指令的该操作功能。

14.如权利要求8所述的语音操控方法，还包括：

当该语音识别结果不符合该操作参数时，自一因特网下载符合该语音识别结果的一第三应用程序，并提供该操作指令至该第三应用程序，使该第三应用程序执行对应于该操作指令的该操作功能。

15.一种语音操控***，包括：

一种移动终端装置，包括：

一语音接收单元，用以接收一语音信号；以及

一应用程序模块，用以提供一第一应用程序；以及

一伺服器，适与该移动终端装置连线，该伺服器具有一语音软件开发模块，其中该第一应用程序提供至少一操作参数至该语音软件开发模块，该语音软件开发模块通过该语音接收单元接收该语音信号，并根据语义数据库解析该语音信号以获得一语音识别结果，该语音软件开发模块判断该语音识别结果是否符合该操作参数，以及当该语音识别结果符合该操作参数时，该语音软件开发模块根据该语音识别结果，提供一操作指令至该第一应用程序，其中该操作参数包括一命令、一字串参数以及一位置参数至少其中之一，该字串参数用于接收该语音识别结果中的文字序列，该位置参数用于接收该语音识别结果中的位置信息。

16.如权利要求15所述的语音操控***，其中该第一应用程序根据该操作指令执行对应于该操作指令的一操作功能。

17.如权利要求15所述的语音操控***，其中该语音软件开发模块判断该第一应用程序所提供的该操作参数的是否具有该字串参数，以及当该操作参数具有该字串参数，且该语音识别结果具有对应于该字串参数的一文字序列时，该语音软件开发模块将该语音识别结果中的该文字序列传送至该第一应用程序。

18.如权利要求15所述的语音操控***，其中该语音软件开发模块判断该第一应用程序所提供的该操作参数的是否具有该位置参数，以及当该操作参数具有该位置参数，且该语音识别结果具有对应于该位置参数的一位置信息时，该语音软件开发模块提供该操作指令至该第一应用程序，使该第一应用程序取得对应于该位置信息的一物件路径，并根据该物件路径取得一物件。

19.如权利要求18所述的语音操控***，其中该语音识别结果还具有一目标信息，且该第一应用程序根据该操作指令，执行对应于该语音识别结果的该操作功能，其中该操作功能包括依据该目标信息将该物件传送至一目标端。

20.如权利要求15所述的语音操控***，其中当该语音识别结果不符合该第一应用程序所提供的该操作参数时，该语音软件开发模块提供该操作指令至符合该语音识别结果的一第二应用程序，使该第二应用程序执行对应于该操作指令的该操作功能。

21.如权利要求15所述的语音操控***，其中当该语音识别结果不符合该操作参数时，该语音软件开发模块自一因特网下载符合该语音识别结果的一第三应用程序至该移动终端装置，并提供该操作指令至该第三应用程序，使该第三应用程序执行对应于该操作指令的该操作功能。

22.一种移动终端装置，连线于一语音软件开发模块，该移动终端装置包括：

一语音接收单元，用以接收一语音信号；以及

一应用程序模块，用以提供一第一应用程序，其中该第一应用程序提供至少一操作参数至该语音软件开发模块，该语音软件开发模块自该语音接收单元接收该语音信号并根据语义数据库解析该语音信号，以获得一语音识别结果，该语音软件开发模块判断该语音识别结果是否符合该操作参数，以及当该语音识别结果符合该操作参数时，该语音软件开发模块根据该语音识别结果，提供一操作指令至该第一应用程序，

23.如权利要求22所述的移动终端装置，其中该第一应用程序根据该操作指令执行对应于该操作指令的一操作功能。

24.如权利要求22所述的移动终端装置，其中该语音软件开发模块判断该应用程序所提供的该操作参数的是否具有该字串参数，以及当该操作参数具有该字串参数，且该语音识别结果具有对应于该字串参数的一文字序列时，该语音软件开发模块将该语音识别结果中的该文字序列传送至该第一应用程序。

25.如权利要求22所述的移动终端装置，其中该语音软件开发模块判断该应用程序所提供的该操作参数的是否具有该位置参数，以及当该操作参数具有该位置参数，且该语音识别结果具有对应于该位置参数的一位置信息时，该语音软件开发模块提供该操作指令至该应用程序，使该应用程序取得对应于该位置信息的一物件路径，并根据该物件路径取得一物件。

26.如权利要求25所述的移动终端装置，其中该语音识别结果还具有一目标信息，且该应用程序根据该操作指令，执行对应于该语音识别结果的该操作功能，其中该操作功能包括依据该目标信息将该物件传送至一目标端。

27.如权利要求22所述的移动终端装置，其中当该语音识别结果不符合该第一应用程序所提供的该操作参数时，该语音软件开发模块提供该操作指令至符合该语音识别结果的一第二应用程序，使该第二应用程序执行对应于该操作指令的该操作功能。

28.如权利要求22所述的移动终端装置，其中当该语音识别结果不符合该操作参数时，该语音软件开发模块自一因特网下载符合该语音识别结果的一第三应用程序，并提供该操作指令至该第三应用程序，使该第三应用程序执行对应于该操作指令的该操作功能。