CN111754996A - 基于语音模拟遥控器的控制方法、装置及电子设备 - Google Patents
基于语音模拟遥控器的控制方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111754996A CN111754996A CN201910251168.2A CN201910251168A CN111754996A CN 111754996 A CN111754996 A CN 111754996A CN 201910251168 A CN201910251168 A CN 201910251168A CN 111754996 A CN111754996 A CN 111754996A
- Authority
- CN
- China
- Prior art keywords
- voice
- remote controller
- recognition
- server
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000004088 simulation Methods 0.000 title claims abstract description 47
- 238000004590 computer program Methods 0.000 claims description 10
- 230000006978 adaptation Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000013067 intermediate product Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42204—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
- H04N21/42206—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
- H04N21/42212—Specific keyboard arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Selective Calling Equipment (AREA)
Abstract
公开了一种基于语音模拟遥控器的控制方法、装置和电子设备。该基于语音模拟遥控器的控制方法包括:接收与遥控器的按键命令对应的语音输入;基于所述语音输入获得用于指示所述按键命令的语音识别结果;基于所述语音识别结果生成所述按键命令对应的按键事件;以及,发送所述按键事件。这样,可以在不需要语音的特别适配的情况下实现语音的全局操控。
Description
技术领域
本申请涉及控制技术领域,且更为具体地,涉及一种基于语音模拟遥控器的控制方法、基于语音模拟遥控器的控制装置和电子设备。
背景技术
语音输入是一种对于用户来说很方便的操控方式,其更符合人的日常习惯,也更自然、更高效。基于用户的语音输入,可以使用语音来控制设备的运行,其相对于手动控制来说更加快捷、方便。
具体地,根据麦克风等收集的用户的语音,通过识别和理解过程把语音信号转变为相应的文本或命令,从而进行控制。其中,语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
目前,随着互联网电视等终端设备越来越普及,对这些终端设备的操控需求也越来越重视,希望能够进行语音搜索,以及通过语音全局地操控电视,从而彻底释放双手。
因此,期望提供改进的基于语音的控制方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于语音模拟遥控器的控制方法、装置和电子设备,其能够获得语音输入对应的语音识别结果,并相应地生成对应于遥控器的按键命令的按键事件,从而可以在不需要语音的特别适配的情况下实现语音的全局操控。
根据本申请的一方面,提供了一种基于语音模拟遥控器的控制方法,包括:接收与遥控器的按键命令对应的语音输入;基于所述语音输入获得用于指示所述按键命令的语音识别结果;基于所述语音识别结果生成所述按键命令对应的按键事件;以及,发送所述按键事件。
在上述基于语音模拟遥控器的控制方法中,进一步包括:响应于所述发送的按键事件,执行与所述按键事件对应的操作。
在上述基于语音模拟遥控器的控制方法中,进一步包括:显示所述操作的操作结果。
在上述基于语音模拟遥控器的控制方法中,基于所述语音输入获得用于指示所述按键命令的语音识别结果包括:将所述语音输入发送到第一服务器;以及,从第一服务器接收用于指示所述按键命令的语音识别结果;其中,所述服务器对所述语音输入进行文字识别以获得文本结果,并对所述文本结果进行意图识别以获得所述语音识别结果。
在上述基于语音模拟遥控器的控制方法中,基于所述语音输入获得用于指示所述按键命令的语音识别结果包括:将所述语音输入发送到第二服务器;从所述第二服务器接收对所述语音输入进行文字识别而获得的文本结果;将所述文本结果发送到第三服务器;以及,从所述第三服务器接收对所述文本结果进行意图识别而获得的所述语音识别结果。
在上述基于语音模拟遥控器的控制方法中,基于所述语音输入获得用于指示所述按键命令的语音识别结果包括:对所述语音输入进行意图识别以获得所述语音识别结果。
根据本申请的另一方面,提供了一种基于语音模拟遥控器的控制装置,包括:输入单元,用于接收与遥控器的按键命令对应的语音输入;识别单元,用于基于所述语音输入获得用于指示所述按键命令的语音识别结果;生成单元,用于基于所述语音识别结果生成所述按键命令对应的按键事件;以及,发送单元,用于发送所述按键事件。
在上述基于语音模拟遥控器的控制装置中,进一步包括:执行单元,用于响应于所述发送的按键事件,执行与所述按键事件对应的操作。
在上述基于语音模拟遥控器的控制装置中,进一步包括:显示单元,用于显示所述操作的操作结果。
在上述基于语音模拟遥控器的控制装置中,所述识别单元包括:第一发送子单元,用于将所述语音输入发送到第一服务器;以及,第一接收子单元,用于从第一服务器接收用于指示所述按键命令的语音识别结果;其中,所述服务器对所述语音输入进行文字识别以获得文本结果,并对所述文本结果进行意图识别以获得所述语音识别结果。
在上述基于语音模拟遥控器的控制装置中,所述识别单元包括:第二发送子单元,用于将所述语音输入发送到第二服务器;第二接收子单元,用于从所述第二服务器接收对所述语音输入进行文字识别而获得的文本结果;第三发送子单元,用于将所述文本结果发送到第三服务器;以及,第三接收子单元,用于从所述第三服务器接收对所述文本结果进行意图识别而获得的所述语音识别结果。
在上述基于语音模拟遥控器的控制装置中,所述识别单元包括:意图识别子单元,用于对所述语音输入进行意图识别以获得所述语音识别结果。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于语音模拟遥控器的控制方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的基于语音模拟遥控器的控制方法。
本申请提供的基于语音模拟遥控器的控制方法、装置和电子设备,通过获得语音输入对应的语音识别结果,并相应地生成对应于遥控器的按键命令的按键事件,可以在不需要语音的特别适配的情况下实现语音的全局操控。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1图示了现有的基于语音的控制方案的示意图。
图2图示了根据本申请实施例的基于语音模拟遥控器的控制方法的流程图。
图3图示了根据本申请实施例的语音输入的识别过程的第一示例的示意图。
图4图示了根据本申请实施例的语音输入的识别过程的第二示例的示意图。
图5图示了根据本申请实施例的语音输入的识别过程的第三示例的示意图。
图6图示了根据本申请实施例的基于语音模拟遥控器的控制方法的应用示例的示意图。
图7图示了根据本申请实施例的基于语音模拟遥控器的控制方法的执行过程的示意图。
图8图示了根据本申请实施例的基于语音模拟遥控器的控制装置的框图。
图9图示了根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
如上所述,在目前的基于语音的控制方案中,通过对语音进行识别来生成控制命令。但是,这必须要进行语音和应用或者***的约定。
图1图示了现有的基于语音的控制方案的示意图。如图1所示,这种语音通过和应用或***约定的方案进行操控的缺陷在于:
1)必须和应用和***做特定的约定并适配;
2)无法操控未预定适配的应用和***;
3)即便做约定和适配也很难做到应用内每个可点击可操控位置做适配,适配成本比较高;
4)对***控的应用,需要额外做一些和原本业务无关的开发工作。
针对上述技术问题,本申请的基本构思是基于目前大多数设备都能够通过遥控器来进行全局操控的现实,通过语音来模拟遥控器的按键事件来实现语音的全局操控。
具体地,本申请提供的基于语音模拟遥控器的控制方法、装置和电子设备首先接收与遥控器的按键命令对应的语音输入,然后基于所述语音输入获得用于指示所述按键命令的语音识别结果,再基于所述语音识别结果生成所述按键命令对应的按键事件,最后发送所述按键事件。
因为应用遥控器控制的***或者应用中,遥控器按键是***或者应用必定会适配的,而且应用内所有可操作内容必定会适配遥控器按键事件,因此通过语音模拟遥控器来进行操控,不需要在***或者应用中再进行特别约定和适配,也不需要进行语音的特别定制,就可以实现通过遥控器可以达成的全局操控。
值得注意的是,在本申请提供的基于语音模拟遥控器的控制方法、装置和电子设备中,语音的控制对象可以是可以使用遥控器控制的各种终端设备,包括互联网电视、机顶盒等。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图2图示了根据本申请实施例的基于语音模拟遥控器的控制方法的流程图。
如图2所示,根据本申请实施例的基于语音模拟遥控器的控制方法包括:S110,接收与遥控器的按键命令对应的语音输入;S120,基于所述语音输入获得用于指示所述按键命令的语音识别结果;S130,基于所述语音识别结果生成所述按键命令对应的按键事件;以及S140,发送所述按键事件。
在步骤S110中,接收与遥控器的按键命令对应的语音输入。也就是,在进行操控时,用户做出与遥控器的按键命令对应的语音输入,例如,用户说出遥控器的按键名称,比如向上、向下、确认等。具体地,可以通过***的语音客户端来接收麦克风收音,以获取所述语音输入的音频。
这里,本领域技术人员可以理解,按键命令指的是遥控器或键盘等设备上的按钮对应的命令。例如,遥控器的主要按键有:上、下、左、右、确认、返回、待机、音量+,音量-等。
在步骤S120中,基于所述语音输入获得用于指示所述按键命令的语音识别结果。具体地,可以通过各种语音识别模型来获得语音识别结果。并且,在本申请实施例中,所述语音识别结果可以本地或者远程地获得,也就是说,可以在***本地进行语音识别,也可以发送到远程的服务器进行语音识别,这将在下文中进一步详细说明。
在步骤S130中,基于所述语音识别结果生成所述按键命令对应的按键事件。也就是,通过所述语音识别结果,例如识别出所述语音输入对应的按键命令为“向上”,则生成与遥控器的按键“向上”对应的按键事件。
这里,按键事件指的是当用户按压例如遥控器等输入设备上的按键时,在客户端设备的***,例如,互联网电视的操作***中触发的事件,具体地,按键事件可以包括按键按下事件,按键弹起事件等。
在步骤S140中,发送所述按键事件。具体地,所述按键事件可以发送到***或者应用的控制部分。也就是,在本申请实施例中,实际上并没有实际触发遥控器的按键操作,而是通过语音的识别模拟遥控器触发按键事件,从而对***或者应用进行操控。
因此,在根据本申请实施例的基于语音模拟遥控器的控制方法中,通过获得语音输入对应的语音识别结果,并相应地生成对应于遥控器的按键命令的按键事件并发送,可以通过语音模拟遥控器来触发按键事件,从而实现与使用遥控器效果相同的全局操控。
并且,在本申请实施例中,通过发送所述按键事件,可以控制***或者应用响应于所述按键事件执行相应的操作。例如,响应于按键事件“音量+”,当***或者应用侦听到该按键事件时,会响应处理,即,***或者应用会增大音量。
也就是,在根据本申请实施例的基于语音模拟遥控器的控制方法中,进一步包括:响应于所述发送的按键事件,执行与所述按键事件对应的操作。
此外,针对诸如互联网电视等终端设备,可以通过显示单元向用户显示基于按键事件的操作结果,例如,对于按键事件“向上”,可以将屏幕上显示的复选框上移,从而使得用户清晰地了解所发出的语音输入的操控结果,增强用户使用的便利性。
当然,如果所述终端设备没有显示单元,也可以通过其它方式,例如语音提示、振动提示等方式向用户反馈操控结果。
因此,在根据本申请实施例的基于语音模拟遥控器的控制方法中,进一步包括:显示所述操作的操作结果。
如上所述,可以通过多种方式实现对于所述语音输入的语音识别,下面将对几种示例方式进行进一步说明。
图3图示了根据本申请实施例的语音输入的识别过程的第一示例的示意图。
如图3所示,在与本地***或者应用分开的服务器端进行语音的识别。具体地,在通过语音客户端接收到用户的语音输入,例如“向上”之后,所述语音客户端将用户的语音的音频发送到服务器端,由服务器端通过语音识别技术,例如通过使用语音识别模型来将所述语音输入识别为文字,即,“向上”,然后再通过例如自然语音处理等技术对所述文字进行意图识别,从而获得用于指示按键命令“向上”的语音识别结果,并将该语音识别结果返回给语音客户端。
因此,在根据本申请实施例的基于语音模拟遥控器的控制方法中,基于所述语音输入获得用于指示所述按键命令的语音识别结果包括:将所述语音输入发送到第一服务器;以及,从第一服务器接收用于指示所述按键命令的语音识别结果;其中,所述服务器对所述语音输入进行文字识别以获得文本结果,并对所述文本结果进行意图识别以获得所述语音识别结果。
图4图示了根据本申请实施例的语音输入的识别过程的第二示例的示意图。
如图4所示,与如图3所示的示例不同的是,分别在与本地***或者应用分开的两个服务器端进行语音到文字的识别和文字到意图的识别。具体地,在通过语音客户端接收到用户的语音输入,例如“向上”之后,所述语音客户端将用户的语音的音频发送到服务器端,由服务器端通过语音识别技术,例如通过使用语音识别模型来将所述语音输入识别为文字,即,“向上”,然后发送回本地语音客户端。然后,本地语音客户端再将识别出的文字,例如“向上”发送到另一服务器,再由该另一服务器通过例如自然语音处理等技术对所述文字进行意图识别,从而获得用于指示按键命令“向上”的语音识别结果,并将该语音识别结果返回给语音客户端。
也就是,在根据本申请实施例的基于语音模拟遥控器的控制方法中,基于所述语音输入获得用于指示所述按键命令的语音识别结果包括:将所述语音输入发送到第二服务器;从所述第二服务器接收对所述语音输入进行文字识别而获得的文本结果;将所述文本结果发送到第三服务器;以及,从所述第三服务器接收对所述文本结果进行意图识别而获得的所述语音识别结果。
值得注意的是,在本申请实施例中,所述第二服务器和所述第三服务器也可能是相同服务器,也就是说,即使在同一服务器上执行语音到文字的识别和文字到意图的识别过程时,也可以将作为中间产物的文字发送回语音客户端。例如,所述语音客户端可以基于本地的模板直接将识别出的文字和按键事件进行匹配以生成按键事件,或者,语音客户端可以在一段时间之后将文字发送到服务器进行识别。
图5图示了根据本申请实施例的语音输入的识别过程的第三示例的示意图。
如图5所示,在该示例中,在语音客户端直接进行语音识别,从而不转化为文字而直接识别与语音输入对应的用户意图,从而获得语音识别结果。当然,本领域技术人员可以理解,虽然在图5中没有示出,也可以在服务器端进行语音到意图的直接识别。
因此,在根据本申请实施例的基于语音模拟遥控器的控制方法中,基于所述语音输入获得用于指示所述按键命令的语音识别结果包括:对所述语音输入进行意图识别以获得所述语音识别结果。
可以看到,在本申请实施例中,可以有多种语音识别的调用方式,并且文字识别和意图识别也可以通过不同调用流程实现。例如,在由服务器将语音识别为文字之后,也可以由该服务器调用另一服务器识别文字对应的意图。因此,无论是服务器端调用服务器端,或者是客户端调用服务器端,本申请实施例并不意在进行任何限制。
因此,通过根据本申请实施例的基于语音模拟遥控器的控制方法,因为遥控器按键是***或者应用必定会适配的,而且***或者应用内所有可操作内容必定会适配遥控器按键事件,因此不需要再特别约定和适配,也不需要特别定制,遥控器能够实现的操控,都可以通过语音的方式自然、高效、快捷和方便地实现。
应用示例
下面,以根据本申请实施例的基于语音模拟遥控器的控制方法应用于互联网电视为例来描述根据本申请实施例的基于语音模拟遥控器的控制方法的应用示例。
图6图示了根据本申请实施例的基于语音模拟遥控器的控制方法的应用示例的示意图。
如图6所示,当用户U想要控制互联网电视TV时,说出按键名称,如向上、向下、确认等。然后,互联网电视TV接收麦克风收音,并将音频发送给服务器S。
接下来,服务器S对接收到的音频进行文字识别,然后对识别出的文字进行内容分析,以识别用户的意图。之后,服务器将识别出的用户的意图返回给互联网电视TV。
互联网电视TV对识别出的用户的意图进行处理,以生成按键事件,例如“确定”事件,并且,响应于发送的按键事件执行操作,例如用户的“确定”操作。然后,将操作结果,例如通过用户的“确定”操作所显示的内容反馈给用户,如图7所示。图7图示了根据本申请实施例的基于语音模拟遥控器的控制方法的执行过程的示意图。
示例性装置
图8图示了根据本申请实施例的基于语音模拟遥控器的控制装置的框图。
如图8所示,根据本申请实施例的基于语音模拟遥控器的控制装置200包括:输入单元210,用于接收与遥控器的按键命令对应的语音输入;识别单元220,用于基于所述输入单元210所接收的所述语音输入获得用于指示所述按键命令的语音识别结果;生成单元230,用于基于所述识别单元220所获得的所述语音识别结果生成所述按键命令对应的按键事件;以及发送单元240,用于发送所述生成单元230所生成的所述按键事件。
在一个示例中,在上述基于语音模拟遥控器的控制装置200中,进一步包括:执行单元,用于响应于所述发送单元240所发送的按键事件,执行与所述按键事件对应的操作。
在一个示例中,在上述基于语音模拟遥控器的控制装置200中,进一步包括:显示单元,用于显示所述执行单元所执行的所述操作的操作结果。
在一个示例中,在上述基于语音模拟遥控器的控制装置200中,所述识别单元220包括:第一发送子单元,用于将所述输入单元210所接收的所述语音输入发送到第一服务器;以及,第一接收子单元,用于从第一服务器接收用于指示所述按键命令的语音识别结果;其中,所述服务器对所述第一发送子单元所发送的语音输入进行文字识别以获得文本结果,并对所述文本结果进行意图识别以获得所述语音识别结果。
在一个示例中,在上述基于语音模拟遥控器的控制装置200中,所述识别单元220包括:第二发送子单元,用于将所述输入单元210所接收的所述语音输入发送到第二服务器;第二接收子单元,用于从所述第二服务器接收对所述第二发送子单元所发送的所述语音输入进行文字识别而获得的文本结果;第三发送子单元,用于将所述第二接收子单元所接收的文本结果发送到第三服务器;以及,第三接收子单元,用于从所述第三服务器接收对所述第三发送子单元所发送的所述文本结果进行意图识别而获得的所述语音识别结果。
在一个示例中,在上述基于语音模拟遥控器的控制装置200中,所述识别单元220包括:意图识别子单元,用于对所述输入单元210所接收的所述语音输入进行意图识别以获得所述语音识别结果。
这里,本领域技术人员可以理解,上述基于语音模拟遥控器的控制装置200中的各个单元和模块的具体功能和操作已经在上面参考图2到图5的基于语音模拟遥控器的控制方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的基于语音模拟遥控器的控制装置200可以实现在各种终端设备中,例如互联网电视、机顶盒等。在一个示例中,根据本申请实施例的基于语音模拟遥控器的控制装置200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于语音模拟遥控器的控制装置200可以是该终端设备的操作***中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于语音模拟遥控器的控制装置200同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于语音模拟遥控器的控制装置200与该终端设备也可以是分立的设备,并且该基于语音模拟遥控器的控制装置200可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图9来描述根据本申请实施例的电子设备。
图9图示了根据本申请实施例的电子设备的框图。
如图9所示,电子设备10包括一个或多个处理器11和存储器12。
处理器13可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的基于语音模拟遥控器的控制方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如语音音频、文字内容、意图识别结果等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括基于按键命令的操控结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图9中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于语音模拟遥控器的控制方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在第一用户计算设备上执行、部分地在第一用户设备上执行、作为一个独立的软件包执行、部分在第一用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于语音模拟遥控器的控制方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (13)
1.一种基于语音模拟遥控器的控制方法,其特征在于,包括:
接收与遥控器的按键命令对应的语音输入;
基于所述语音输入获得用于指示所述按键命令的语音识别结果;
基于所述语音识别结果生成所述按键命令对应的按键事件;以及
发送所述按键事件。
2.根据权利要求1所述的基于语音模拟遥控器的控制方法,其特征在于,进一步包括:
响应于所述发送的按键事件,执行与所述按键事件对应的操作。
3.根据权利要求2所述的基于语音模拟遥控器的控制方法,其特征在于,进一步包括:
显示所述操作的操作结果。
4.根据权利要求1所述的基于语音模拟遥控器的控制方法,其特征在于,基于所述语音输入获得用于指示所述按键命令的语音识别结果包括:
将所述语音输入发送到第一服务器;以及
从第一服务器接收用于指示所述按键命令的语音识别结果;
其中,所述服务器对所述语音输入进行文字识别以获得文本结果,并对所述文本结果进行意图识别以获得所述语音识别结果。
5.根据权利要求1所述的基于语音模拟遥控器的控制方法,其特征在于,基于所述语音输入获得用于指示所述按键命令的语音识别结果包括:
将所述语音输入发送到第二服务器;
从所述第二服务器接收对所述语音输入进行文字识别而获得的文本结果;
将所述文本结果发送到第三服务器;以及
从所述第三服务器接收对所述文本结果进行意图识别而获得的所述语音识别结果。
6.根据权利要求1所述的基于语音模拟遥控器的控制方法,其特征在于,基于所述语音输入获得用于指示所述按键命令的语音识别结果包括:
对所述语音输入进行意图识别以获得所述语音识别结果。
7.一种基于语音模拟遥控器的控制装置,其特征在于,包括:
输入单元,用于接收与遥控器的按键命令对应的语音输入;
识别单元,用于基于所述语音输入获得用于指示所述按键命令的语音识别结果;
生成单元,用于基于所述语音识别结果生成所述按键命令对应的按键事件;以及
发送单元,用于发送所述按键事件。
8.根据权利要求7所述的基于语音模拟遥控器的控制装置,其特征在于,进一步包括:
执行单元,用于响应于所述发送的按键事件,执行与所述按键事件对应的操作。
9.根据权利要求8所述的基于语音模拟遥控器的控制装置,其特征在于,进一步包括:
显示单元,用于显示所述操作的操作结果。
10.根据权利要求7所述的基于语音模拟遥控器的控制方法,其特征在于,所述识别单元包括:
第一发送子单元,用于将所述语音输入发送到第一服务器;以及
第一接收子单元,用于从第一服务器接收用于指示所述按键命令的语音识别结果;
其中,所述服务器对所述语音输入进行文字识别以获得文本结果,并对所述文本结果进行意图识别以获得所述语音识别结果。
11.根据权利要求7所述的基于语音模拟遥控器的控制装置,其特征在于,所述识别单元包括:
第二发送子单元,用于将所述语音输入发送到第二服务器;
第二接收子单元,用于从所述第二服务器接收对所述语音输入进行文字识别而获得的文本结果;
第三发送子单元,用于将所述文本结果发送到第三服务器;以及
第三接收子单元,用于从所述第三服务器接收对所述文本结果进行意图识别而获得的所述语音识别结果。
12.根据权利要求7所述的基于语音模拟遥控器的控制装置,其特征在于,所述识别单元包括:
意图识别子单元,用于对所述语音输入进行意图识别以获得所述语音识别结果。
13.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-6中任一项所述的基于语音模拟遥控器的控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910251168.2A CN111754996A (zh) | 2019-03-29 | 2019-03-29 | 基于语音模拟遥控器的控制方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910251168.2A CN111754996A (zh) | 2019-03-29 | 2019-03-29 | 基于语音模拟遥控器的控制方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111754996A true CN111754996A (zh) | 2020-10-09 |
Family
ID=72671744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910251168.2A Pending CN111754996A (zh) | 2019-03-29 | 2019-03-29 | 基于语音模拟遥控器的控制方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111754996A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6629077B1 (en) * | 2000-11-22 | 2003-09-30 | Universal Electronics Inc. | Universal remote control adapted to receive voice input |
CN103456306A (zh) * | 2012-05-29 | 2013-12-18 | 三星电子株式会社 | 用于在电子装置中执行语音命令的方法和设备 |
CN103714816A (zh) * | 2012-09-28 | 2014-04-09 | 三星电子株式会社 | 电子装置、服务器及其控制方法 |
CN108172223A (zh) * | 2017-12-14 | 2018-06-15 | 深圳市欧瑞博科技有限公司 | 语音指令识别方法、装置及服务器和计算机可读存储介质 |
-
2019
- 2019-03-29 CN CN201910251168.2A patent/CN111754996A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6629077B1 (en) * | 2000-11-22 | 2003-09-30 | Universal Electronics Inc. | Universal remote control adapted to receive voice input |
CN103456306A (zh) * | 2012-05-29 | 2013-12-18 | 三星电子株式会社 | 用于在电子装置中执行语音命令的方法和设备 |
CN103714816A (zh) * | 2012-09-28 | 2014-04-09 | 三星电子株式会社 | 电子装置、服务器及其控制方法 |
CN108172223A (zh) * | 2017-12-14 | 2018-06-15 | 深圳市欧瑞博科技有限公司 | 语音指令识别方法、装置及服务器和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7111682B2 (ja) | 非表音文字体系を使用する言語のための音声支援型アプリケーションプロトタイプの試験中の音声コマンドマッチング | |
CN109618202B (zh) | 控制外设的方法、电视及可读存储介质 | |
KR20190088945A (ko) | 전자장치, 서버 및 그 제어방법 | |
JP7203865B2 (ja) | ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 | |
JP2019102063A (ja) | ページ制御方法および装置 | |
WO2020029500A1 (zh) | 语音命令定制方法、装置和设备及计算机存储介质 | |
US20180182399A1 (en) | Control method for control device, control method for apparatus control system, and control device | |
CN111627436B (zh) | 一种语音控制的方法及装置 | |
JP2011065467A (ja) | 会議中継装置及びコンピュータプログラム | |
JP2008145769A (ja) | 対話シナリオ生成システム,その方法およびプログラム | |
CN111144138A (zh) | 一种同声传译方法及装置、存储介质 | |
US20190026266A1 (en) | Translation device and translation system | |
US20080109227A1 (en) | Voice Control System and Method for Controlling Computers | |
JP6832503B2 (ja) | 情報提示方法、情報提示プログラム及び情報提示システム | |
CN111538812A (zh) | 一种用于自然语言内容标题消歧的方法、设备和*** | |
US10438582B1 (en) | Associating identifiers with audio signals | |
CN111754996A (zh) | 基于语音模拟遥控器的控制方法、装置及电子设备 | |
CN110706704A (zh) | 用于生成语音交互原型的方法、装置和计算机设备 | |
WO2003079188A1 (fr) | Procede de fonctionnement d'un objet logiciel au moyen d'une langue naturelle et programme correspondant | |
KR20220140304A (ko) | 학습자의 음성 명령을 인식하는 화상 학습 시스템 및 그 방법 | |
US9613311B2 (en) | Receiving voice/speech, replacing elements including characters, and determining additional elements by pronouncing a first element | |
CN113852849A (zh) | 一种酒店客房智能管理方法 | |
CN106653026A (zh) | 基于语音控制的智能机器人家庭影院***及其控制方法 | |
Schnelle-Walka et al. | Multimodal dialogmanagement in a smart home context with SCXML | |
CN112040326A (zh) | 弹幕控制方法、***、电视机及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240621 Address after: Room 201, No. 9 Fengxiang East Street, Yangsong Town, Huairou District, Beijing Applicant after: Youku Culture Technology (Beijing) Co.,Ltd. Country or region after: China Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands Applicant before: ALIBABA GROUP HOLDING Ltd. Country or region before: Cayman Islands |