CN110136718A - 语音控制的方法和装置 - Google Patents

语音控制的方法和装置 Download PDF

Info

Publication number
CN110136718A
CN110136718A CN201910473077.3A CN201910473077A CN110136718A CN 110136718 A CN110136718 A CN 110136718A CN 201910473077 A CN201910473077 A CN 201910473077A CN 110136718 A CN110136718 A CN 110136718A
Authority
CN
China
Prior art keywords
image
control
interface
target
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910473077.3A
Other languages
English (en)
Inventor
童宗伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Core Electronics Co Ltd
Original Assignee
Shenzhen Core Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Core Electronics Co Ltd filed Critical Shenzhen Core Electronics Co Ltd
Priority to CN201910473077.3A priority Critical patent/CN110136718A/zh
Publication of CN110136718A publication Critical patent/CN110136718A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例提供了一种语音控制的方法和装置,涉及语音控制技术领域,所述方法包括获取与当前显示界面对应的界面图像;根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像;根据所述目标控件图像在所述界面图像中的位置,确定与所述目标控件图像对应的目标可触发控件在所述当前显示界面中的目标位置;将所述光标移动至所述目标位置。本发明实施例基于图像识别技术实现语音控制光标移动,以提高语音识别技术与操作界面的交互性。

Description

语音控制的方法和装置
技术领域
本发明涉及语音控制技术领域,特别是涉及一种语音控制的方法和一种语音控制的装置。
背景技术
随着通讯技术的不断发展,终端的控制方式越来越丰富,也越来越智能。在人机交互应用中,语音识别技术逐渐进入我们的日常生活,如现有的智能手机、平板电脑、智能电视等都附带有语音识别功能。虽然现有的语音识别技术可以实现指定范围内较为简单的单一指令任务,例如“打开相机”的操作。但是,现有的语音识别技术与当前操作界面上显示的内容无关,交互性小,且不能控制光标在操作界面上移动,也不能直接触发当前操作界面上对应的可触发控件。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音控制的方法和相应的一种语音控制的装置。
为了解决上述问题,本发明实施例公开了一种语音控制的方法,包括
获取与当前显示界面对应的界面图像;
根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像;
根据所述目标控件图像在所述界面图像中的位置,确定与所述目标控件图像对应的目标可触发控件在所述当前显示界面中的目标位置;
将所述光标移动至所述目标位置。
在一优选实施方式中,所述根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像的步骤,包括:
识别所述界面图像,对所述界面图像包含的控件图像匹配对应的语音标识;其中,所述控件图像与所述当前显示界面中可触发控件一一对应;
将与所述语音指令匹配的语音标识对应的控件图像确定为目标控件图像。
在一优选实施方式中,在所述根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像的步骤之前,包括:
将所述界面图像划分为若干区域;
在所述区域内显示对应的区域标识。
在一优选实施方式中,所述语音指令包括区域语音和控件语音;所述根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像的步骤,包括:
通过解析所述语音指令中的区域语音,确定对应的目标区域;
识别所述界面图像中的目标区域,对所述目标区域包含的控件图像匹配对应的语音标识;其中,所述控件图像与所述当前显示界面中对应区域的可触发控件一一对应;
将与所述语音指令中的控件语音匹配的语音标识对应的控件图像确定为目标控件图像。
在一优选实施方式中,所述根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像的步骤,还包括:
当与所述语音指令对应的控件图像包含两个以上时,在所述界面图像中对两个以上的控件图像进行编号;
接收包含编号的语音选择指令;
根据所述语音选择指令中的编号确定对应编号的控件图像为目标控件图像。
在一优选实施方式中,所述获取与当前显示界面对应的界面图像的步骤的步骤,包括:
启动语音控制模式;
对当前显示界面截屏,获得与当前显示界面对应的界面图像。
在一优选实施方式中,在所述根据所述目标控件图像在所述界面图像中的位置,确定与所述目标控件图像对应的目标可触发控件在所述当前显示界面中的目标位置的步骤之前,包括:
获取所述当前显示界面的显示分辨率;
根据所述显示分辨率建立与所述界面图像对应的图像坐标系。
根据所述图像坐标系,确定所述目标控件图像的坐标。
在一优选实施方式中,在所述将所述光标移动至所述目标位置的步骤之后,还包括:
接收方位语音指令;
根据所述方位语音指令移动所述光标。
在一优选实施方式中,在所述将所述光标移动至所述目标位置的步骤之后,包括:
触发所述目标位置的目标可触发控件。
为了解决上述问题,本发明实施例公开了一种语音控制光标移动的装置,包括:
界面图像获取模块,用于获取与当前显示界面对应的界面图像;
图像识别模块,用于根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像;
目标位置确定模块,用于根据所述目标控件图像在所述界面图像中的位置,确定与所述目标控件图像对应的目标可触发控件在所述当前显示界面中的目标位置;
光标控制模块,用于将所述光标移动至所述目标位置。
与现有技术相比,本发明实施例包括以下优点:
本发明实施例中,通过获取与当前显示界面对应的界面图像;然后根据接收的语音指令识别界面图像中包含的控件图像,并确定与语音指令对应的目标控件图像,接着根据目标控件图像在界面图像中的位置,确定与目标控件图像对应的目标可触发控件在当前显示界面中的目标位置,最后将所述光标移动至目标位置;本发明实施例通过将图像识别技术与语音识别技术结合,实现语音控制光标移动,以提高语音识别技术与操作界面的交互性。
附图说明
图1是本发明实施例一的一种语音控制的方法的步骤流程图;
图2是本发明实施例二的一种语音控制的方法的步骤流程图;
图3是本发明实施例二中的其中一种示例的步骤流程图;
图4a-4b是与图3对应的语音控制的方法的界面图像示意图;
图5是本发明实施例二中的另一种示例的步骤流程图;
图6a-6b是与图5对应的语音控制的方法的界面图像示意图;
图7是本发明实施例语音控制的方法的界面图像示意图;
图8是本发明实施例三的一种语音控制的装置的结构框图;
图9是本发明实施例四的一种语音控制的装置的结构框图;
图10是本发明实施例四中的其中一种示例的结构框图;
图11是本发明实施例四中的另一种示例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例的核心构思之一在于,通过获取与当前显示界面对应的界面图像;然后根据接收的语音指令识别界面图像中包含的控件图像,并确定与语音指令对应的目标控件图像,接着根据目标控件图像在界面图像中的位置,确定与目标控件图像对应的目标可触发控件在当前显示界面中的目标位置,最后将所述光标移动至目标位置;从而实现语音控制光标移动,以提高语音识别技术与操作界面的交互性。
下面,通过以下具体实施例分别对本发明的方案进行详细介绍。
实施例一:
参照图1,示出了本发明的一种语音控制的方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤101,获取与当前显示界面对应的界面图像。
在本发明实施例中,终端的显示器可以支持鼠标模式和/或支持触控模式。光标也称为游标,用于显示光标控制输入设备在操作界面上的位置,光标一般分为显式光标和隐式光标。在鼠标模式下,光标一般为显式光标,即光标显示在当前显示界面的上层,且可以移动到显示器的任意位置;在触控模式下,显示器为触控显示器,所述触控显示器包括触摸屏、手写屏等,光标一般为隐式光标,可以移动到显示器的任意位置,当符合一定条件时,隐式光标可见。当前显示界面包括至少一个可触发控件,可触发控件用于与用户进行交互,以实现相应的功能。具体的,可触发控件可以是带链接的图片或文字,也可以是工具图标等。界面图像是与当前显示界面大小图形一一对应的图像,可以通过对当前显示界面截屏得到,也可以复制当前显示界面得到,界面图像半透明呈现在当前显示界面的顶层。
步骤102,根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像。
在本发明实施例中,终端可以实现语音输入功能,以接收语音指令。根据接收的语音指令,通过图像识别技术对界面图像的整体或界面图像中的局部进行处理,从而识别出界面图像的整体或界面图像的局部中包含的控件图像,控件图像与当前显示界面或当前显示界面对应的局部的可触发控件一一对应。当控件图像中包含文字时,通过图像识别技术直接获取对应的文字作为该控件图像的语音标识,并存入预设语音库中;当控件图像不包含文字时,预设该控件图像对应的语音标识,并存入预设语音库中。语音指令中包含控件语音,将语音指令中的控件语音与预设语音库中的语音标识进行匹配,若匹配成功,且该语音标识对应的控件图像为一个时,则将该控件图像作为目标控件图像;若该语音标识对应的控件图像为两个以上时,则在界面图像中对该语音标识对应的两个以上的控件图像进行第一视觉标识,第一视觉标识可以是对控件图像进行放大显示、高亮显示或编号显示;通过移动光标或继续接收语音选择指令以确定唯一一个控件图像作为目标控件图像。
步骤103,根据所述目标控件图像在所述界面图像中的位置,确定与所述目标控件图像对应的目标可触发控件在所述当前显示界面中的目标位置。
在确定目标控件图像之后,确定目标控件图像在界面图像中的位置,可以通过建立图像坐标系或者相机坐标系或世界坐标系等方式计算目标控件图像在界面图像中的位置。由于界面图像是与当前显示界面大小图形一一对应的图像,目标控件图像是唯一的,且与目标控件图像对应的目标可触发控件也是唯一的,因此,确定目标控件图像在界面图像中的位置,就可以确定目标可触发控件在当前显示界面的目标位置。
步骤104,将所述光标移动至所述目标位置。
本实施例中,目标位置是当前显示界面中的目标可触发控件的任意位置,即光标移动至目标可触发控件的任意位置;当光标为隐式光标时,还可以将目标位置的确定预设为隐式光标可见的条件,此时,目标位置是当前显示界面中的目标可触发控件,对目标可触发控件提供第二视觉标识,该第二视觉标识为隐式光标的可见形式,第二视觉标识可以是对目标可触发控件进行放大显示、高亮显示、涂色显示等。需要说明的是,第一视觉标识和第二视觉标识需要进行区分,例如,当第一视觉标识采用编号显示时,第二视觉标识可以采用除编号显示外的其他显示方式,如放大显示、高亮显示、涂色显示等。
本发明实施例通过获取与当前显示界面对应的界面图像;然后根据接收的语音指令识别界面图像中包含的控件图像,并确定与语音指令对应的目标控件图像,接着根据目标控件图像在界面图像中的位置,确定与目标控件图像对应的目标可触发控件在当前显示界面中的目标位置,最后将所述光标移动至目标位置;本发明实施例通过将图像识别技术与语音识别技术结合,实现语音控制光标移动,以提高语音识别技术与操作界面的交互性。
实施例二:
参照图2,示出了本发明的一种语音控制的方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤201,启动语音控制模式。
终端启动语音控制模式后,用户可以向终端输入语音指令,实现语音控制功能。用户可以通过触发终端相应的按键启动语音控制模式,也可以通过对终端语音输入模块发出语音控制模式启动命令以启动语音控制模式。所述语音控制模式启动命令可以由终端提前预设,也可以由用户自定义设置后存储到终端中。
步骤202,对当前显示界面截屏,获得与所述当前显示界面对应的界面图像。
当终端启动语音控制模式后,自动启动全屏截屏程序,对当前显示界面截屏,获得的当前显示界面的截图即为与当前显示界面对应的界面图像;作为一种示例,界面图像恰好完全覆盖当前显示界面,且界面图像的透明度为半透明状态。例如,以透明度为100作为透明状态的理解标准,半透明状态可以理解为透明度在30~70之间。本实施例中,界面图像由当前显示界面全屏截屏所得,且呈半透明状态并切好完全覆盖当前显示界面,以便于用户根据界面图像中的信息对当前显示界面进行操作,起到提示和引导的作用。
步骤203,根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像。
请参照图3,作为一种示例,所述根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像的步骤,包括如下子步骤:
步骤2031,识别所述界面图像,对所述界面图像包含的控件图像匹配对应的语音标识;其中,所述控件图像与所述当前显示界面中可触发控件一一对应。
终端接收到语音指令后,即对界面图像进行图像识别,图像识别是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术。通过图像识别技术获取界面图像中的控件图像,控件图像与当前显示界面中可触发控件一一对应,可以理解,界面图像中的控件图像即为当前显示界面中可触发控件的图像;当控件图像中包含文字时,通过图像识别技术直接获取对应的文字作为该控件图像的语音标识,并存入预设语音库中;当控件图像不包含文字时,预设该控件图像对应的语音标识,并存入预设语音库中。
如图4a,界面图像1中包括第一控件图像41、第二控件图像42、第三控件图像43,其中,第一控件图像41和第二控件图像42包含相同的文字“科学”,第三控件图像43包含文字“技术”,通过图像识别技术获得第一控件图像41和第二控件图像42匹配的语音标识为“科学”,第三控件图像43匹配的语音表示为“技术”,并将语音标识为“科学”和“技术”存入预设语音库中。
步骤2032,将与所述语音指令匹配的语音标识对应的控件图像确定为目标控件图像。
预设语音库中包括界面图像中所有控件图像对应的语音标识,解析语音指令中的控件语音,将控件语音与预设语音库中的语音标识进行匹配,若匹配成功,则将该语音标识对应的控件图像确定为目标控件图像。
具体的,当该语音标识对应的控件图像为一个时,则将该控件图像确定为目标控件图像;如图4a中,当语音标识为“技术”时仅对应一个控件图像,即第三控件图像43,则将第三控件图像43确定为目标控件图像。
当该语音标识对应的控件图像为两个以上时,在界面图像中对两个以上的控件图像进行编号;接收包含标号的语音选择指令;根据语音选择指令中的编号确定对应编号的控件图像为目标控件图像。如图4a中,当语音标识为“科学”时,对应两个控件图像,即第一控件图像41和第二控件图像42,此时,在界面图像1中对两个控件图像进行编号,如图4b所示,将编号显示在对应控件图像的相应位置;该相应位置可以是在控件图像的旁边,也可以覆盖控件图像;然后接收包含编号的语音选择指令,例如,语音选择指令中包含编号1,根据语音选择指令中的编号1确定编号1的控件图像,即第一控件图像41为目标控件图像。
请参照图5,作为另一种示例,在所述根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像的步骤之前,包括如下子步骤:
步骤2033,将所述界面图像划分为若干区域。
本实施例中,可以在***预设一个固定的分区方式,按照预设的固定的分区方式将界面图像进行划分,并在界面图像中显示区域的分界线;例如,预设一个固定的分区方式为将界面图像等分为9个呈矩阵分布的区域。也可以根据接收的分区识别指令将界面图像划分为若干区域,并在界面图像中显示区域的分界线,其中分区识别指令中包括区域的数量,例如,当接收的分区识别指令包括区域的数量为4时,将界面图像等分或随机划分为4个区域。
步骤2034,在所述区域内显示对应的区域标识。
本实施例中,区域标识可以是数字、字母等,区域标识与对应的区域相关联且一一对应。如图6a,界面图像1被划分为3个区域,在第一区域61内显示区域标识1,在第二区域62内显示区域标识2,在第三区域63内显示区域标识3。通过设定与区域对应的区域标识,并将区域标识显示在对应的区域内,可以提高语音控制的精确性。
本实施例中,语音指令包括区域语音和控件语音,所述根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像的步骤,包括如下子步骤:
步骤2035,通过解析所述语音指令中的区域语音,确定对应的目标区域。
解析语音指令中的区域语音,将区域语音与区域标识的集合进行匹配,当匹配成功时,将与该区域语音匹配的区域标识对应的区域确定为目标区域。如图6a,当语音指令中的区域语音对应的目标区域为第二区域62时,将第二区域62确定为目标区域。
步骤2036,识别所述界面图像中的目标区域,对所述目标区域包含的控件图像匹配对应的语音标识;其中,所述控件图像与所述当前显示界面中对应区域的可触发控件一一对应。
目标区域为所述界面图像中的其中一部分,通过图像识别技术获取目标区域中的控件图像,并对控件图像匹配对应的语音标识,将语音标识存入预设语音库中,控件图像与所述当前显示界面中对应区域的可触发控件一一对应。
如图6b,通过图像识别技术获取目标区域中的控件图像,即获取第二区域62中的控件图像,第二区域62中包括第二控件图像42,且第二控件图像42匹配的语音标识为“科学”,并将语音标识为“科学”存入预设语音库中。
步骤2037,将与所述语音指令中的控件语音匹配的语音标识对应的控件图像确定为目标控件图像。
预设语音库中包括目标区域中所有控件图像对应的语音标识,解析语音指令中的控件语音,将控件语音与预设语音库中的语音标识进行匹配,若匹配成功,则将该语音标识对应的控件图像确定为目标控件图像。
如图6b,当语音标识为“科学”时,在第二区域62中仅对应一个控件图像,即第二控件图像42,则将第二控件图像42确定为目标控件图像。
若在目标区域中,语音标识对应的控件图像不止一个时,可以参考上述步骤2032中的描述,进一步筛选确定出唯一的控件图像为目标控件图像,此处不再赘述。
步骤204,获取所述当前显示界面的显示分辨率。
显示分辨率是显示器在显示图像时的分辨率,用像素来衡量。显示分辨率的数值是指整个显示器所有可视面积上水平像素和垂直像素的数量。例如,1920*1080的显示分辨率,是指显示器显示的当前显示界面的水平像素有1920个,垂直像素有1080个。
步骤205,根据所述显示分辨率建立与所述界面图像对应的图像坐标系。
本实施例中,以界面图像的左下角为原点建立以像素为单位的直角坐标系,可以理解,图像坐标系中的横坐标和纵坐标的单位长度为界面图像中的一个像素的宽度。如图7,界面图像1的左下角坐标为(0,0),右下角坐标为(1920,0),左上角坐标为(0,1080),右上角坐标为(1920,1080)。
步骤206,根据所述图像坐标系,确定所述目标控件图像的坐标。
目标控件图像的坐标可以是指目标控件图像中任意一点的坐标,或者指目标控件图像的边缘的坐标,也可以特指目标控件图像中心点的坐标。一般控件图像呈矩形,通过计算顶点的坐标即可得到对应控件图像的高度和宽度,以及计算控件图像的边缘点的坐标和中心点的坐标。
如图7,当目标控件图像为第二控件图像42时,第二控件图像42的左下角坐标为(700,428),左上角坐标为(700,612),右上角坐标为(980,612),右下角坐标为(980,428),计算得到中心点的坐标为(840,520)。
步骤207,根据所述目标控件图像在所述界面图像中的位置,确定与所述目标控件图像对应的目标可触发控件在所述当前显示界面中的目标位置。
由于界面图像是与当前显示界面大小图形一一对应的图像,目标控件图像是唯一的,且与目标控件图像对应的目标可触发控件也是唯一的,因此,确定目标控件图像在界面图像中的位置,就可以确定目标可触发控件在当前显示界面的目标位置。
步骤208,将所述光标移动至所述目标位置。
根据上述步骤确定的目标位置,将光标移动至与目标可触发控件对应的目标位置,可参考上述步骤104的描述,因此不再赘述。
优选地,在所述将所述光标移动至所述目标位置的步骤之后,还包括如下子步骤:
接收方位语音指令;
根据所述方位语音指令移动所述光标。
方位语音指令包括方向指令和数字指令,光标根据接收到的方位语音指令朝方向指令对应的方向移动与数字指令对应的步数。单位步数可以设为相隔可触发控件的数量,或者一个像素的宽度,此处不作限定。如图4,当接收的方位指令为“右1时”,光标从图4中的第一控件图像41位置移动到第二控件图像42位置。
优选地,在所述将所述光标移动至所述目标位置的步骤之后,还包括如下子步骤:
触发所述目标位置的目标可触发控件。
本实施例中,触发所述目标可触发控件包括调出目标可触发控件相应的功能菜单、进入目标可触发控件链接的界面等;在鼠标模式下,触发所述目标可触发控件的操作包括单击鼠标左键、双击鼠标左键、单击鼠标邮件等操作;在触控模式下,显示器为包括触摸屏或手写屏等,触发所述目标可触发控件的操作包括单击屏幕、双击屏幕、长按屏幕等操作。当触发目标可触发控件时,取消界面图像,即界面图像从当前显示界面的顶层移除。
优选地,所述语音控制的方法还包括:
退出语音控制模式。
本实施例中,退出语音控制模式的操作可以在启动语音控制模式后的任意一个时刻进行,用户可以通过触发终端相应的按键退出语音控制模式,也可以通过对终端语音输入模块发出语音控制模式退出命令以退出语音控制模式。所述语音控制模式退出命令可以由终端提前预设,也可以由用户自定义设置后存储到终端中。当接收到退出语音控制模式的操作时,取消界面图像,即界面图像从当前显示界面的顶层移除。
本实施例通过启动语音控制模式,对当前显示界面截屏,获得与当前显示界面对应的界面图像;根据接收的语音指令识别界面图像中包含的控件图像,并确定与语音指令对应的目标控件图像;通过获取当前显示界面的显示分辨率,并根据所述显示分辨率建立与界面图像对应的图像坐标系,根据图像坐标系,确定目标控件图像的坐标,根据目标控件图像在界面图像中的位置,确定与目标控件图像对应的目标可触发控件在当前显示界面中的目标位置,最后将所述光标移动至所述目标位置,本发明实施例通过将图像识别技术与语音识别技术结合,实现语音控制光标移动,以提高语音识别技术与操作界面的交互性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例三:
参照图8,示出了本发明实施例三的一种语音控制的装置的结构框图,具体可以包括以下模块:
界面图像获取模块301,用于获取与当前显示界面对应的界面图像;
图像识别模块302,用于根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像;
目标位置确定模块303,用于根据所述目标控件图像在所述界面图像中的位置,确定与所述目标控件图像对应的目标可触发控件在所述当前显示界面中的目标位置;
光标控制模块304,用于将所述光标移动至所述目标位置。
本实施例的装置用于执行上述实施例中的方法步骤,在此不再赘述。
本发明实施例通过界面图像获取模块获取与当前显示界面对应的界面图像,然后通过图像识别模块根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像,接着通过目标位置确定模块根据所述目标控件图像在所述界面图像中的位置,确定与所述目标控件图像对应的目标可触发控件在所述当前显示界面中的目标位置,最后,通过光标控制模块将所述光标移动至所述目标位置;本发明实施例通过将图像识别技术与语音识别技术结合,实现语音控制光标移动,以提高语音识别技术与操作界面的交互性。
实施例四:
参照图9,示出了本发明实施例四的一种语音控制的装置的结构框图,具体可以包括以下模块:
语音控制启动模块401,用于启动语音控制模式。
终端启动语音控制模式后,用户可以向终端输入语音指令,实现语音控制功能。用户可以通过触发终端相应的按键启动语音控制模式,也可以通过对终端语音输入模块发出语音控制模式启动命令以启动语音控制模式。所述语音控制模式启动命令可以由终端提前预设,也可以由用户自定义设置后存储到终端中。
界面截屏模块402,用于对当前显示界面截屏,获得与所述当前显示界面对应的界面图像。
当终端启动语音控制模式后,自动启动全屏截屏程序,对当前显示界面截屏,获得的当前显示界面的截图即为与当前显示界面对应的界面图像;作为一种示例,界面图像恰好完全覆盖当前显示界面,且界面图像的透明度为半透明状态。例如,以透明度为100作为透明状态的理解标准,半透明状态可以理解为透明度在30~70之间。本实施例中,界面图像由当前显示界面全屏截屏所得,且呈半透明状态并切好完全覆盖当前显示界面,以便于用户根据界面图像中的信息对当前显示界面进行操作,起到提示和引导的作用。
图像识别模块403,用于根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像。
请参照图10,作为一种示例,所述图像识别模块403包括如下子模块:
全屏识别子模块4031,用于识别所述界面图像,对所述界面图像包含的控件图像匹配对应的语音标识;其中,所述控件图像与所述当前显示界面中可触发控件一一对应。
终端接收到语音指令后,即对界面图像进行图像识别,图像识别是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术。通过图像识别技术获取界面图像中的控件图像,控件图像与当前显示界面中可触发控件一一对应,可以理解,界面图像中的控件图像即为当前显示界面中可触发控件的图像;当控件图像中包含文字时,通过图像识别技术直接获取对应的文字作为该控件图像的语音标识,并存入预设语音库中;当控件图像不包含文字时,预设该控件图像对应的语音标识,并存入预设语音库中。
全屏目标控件图像确定子模块4032,用于将与所述语音指令匹配的语音标识对应的控件图像确定为目标控件图像。
预设语音库中包括界面图像中所有控件图像对应的语音标识,解析语音指令中的控件语音,将控件语音与预设语音库中的语音标识进行匹配,若匹配成功,则将该语音标识对应的控件图像确定为目标控件图像。
具体的,当该语音标识对应的控件图像为一个时,则将该控件图像确定为目标控件图像;当该语音标识对应的控件图像为两个以上时,在界面图像中对两个以上的控件图像进行编号;接收包含标号的语音选择指令;根据语音选择指令中的编号确定对应编号的控件图像为目标控件图像。
请参照图11,作为另一种示例,所述装置还包括如下子模块:
图像划分子模块4033,用于将所述界面图像划分为若干区域。
本实施例中,可以在***预设一个固定的分区方式,按照预设的固定的分区方式将界面图像进行划分,并在界面图像中显示区域的分界线;例如,预设一个固定的分区方式为将界面图像等分为9个呈矩阵分布的区域。也可以根据接收的分区识别指令将界面图像划分为若干区域,并在界面图像中显示区域的分界线,其中分区识别指令中包括区域的数量,例如,当接收的分区识别指令包括区域的数量为4时,将界面图像等分或随机划分为4个区域。
区域标识显示子模块4034,用于在所述区域内显示对应的区域标识。
本实施例中,区域标识可以是数字、字母等,区域标识与对应的区域相关联且一一对应。
本实施例中,语音指令包括区域语音和控件语音,所述图像识别模块403包括如下子模块:
目标区域确定子模块4035,用于通过解析所述语音指令中的区域语音,确定对应的目标区域。
解析语音指令中的区域语音,将区域语音与区域标识的集合进行匹配,当匹配成功时,将与该区域语音匹配的区域标识对应的区域确定为目标区域。
目标区域识别子模块4036,用于识别所述界面图像中的目标区域,对所述目标区域包含的控件图像匹配对应的语音标识;其中,所述控件图像与所述当前显示界面中对应区域的可触发控件一一对应。
目标区域为所述界面图像中的其中一部分,通过图像识别技术获取目标区域中的控件图像,并对控件图像匹配对应的语音标识,将语音标识存入预设语音库中,控件图像与所述当前显示界面中对应区域的可触发控件一一对应。
区域目标控件图像确定子模块4037,用于将与所述语音指令中的控件语音匹配的语音标识对应的控件图像确定为目标控件图像。
预设语音库中包括目标区域中所有控件图像对应的语音标识,解析语音指令中的控件语音,将控件语音与预设语音库中的语音标识进行匹配,若匹配成功,则将该语音标识对应的控件图像确定为目标控件图像。若在目标区域中,语音标识对应的控件图像不止一个时,在界面图像的目标区域中的控件图像进行编号;接收包含标号的语音选择指令;根据语音选择指令中的编号确定对应编号的控件图像为目标控件图像。
分辨率获取模块404,用于获取所述当前显示界面的显示分辨率。
显示分辨率是显示器在显示图像时的分辨率,用像素来衡量。显示分辨率的数值是指整个显示器所有可视面积上水平像素和垂直像素的数量。例如,1920*1080的显示分辨率,是指显示器显示的当前显示界面的水平像素有1920个,垂直像素有1080个。
图像坐标系建立模块405,用于根据所述显示分辨率建立与所述界面图像对应的图像坐标系。
本实施例中,以界面图像的左下角为原点建立以像素为单位的直角坐标系,可以理解,图像坐标系中的横坐标和纵坐标的单位长度为界面图像中的一个像素的宽度。
目标控件图像坐标确定模块406,用于根据所述图像坐标系,确定所述目标控件图像的坐标。
目标控件图像的坐标可以是指目标控件图像中任意一点的坐标,或者指目标控件图像的边缘的坐标,也可以特指目标控件图像中心点的坐标。一般控件图像呈矩形,通过计算顶点的坐标即可得到对应控件图像的高度和宽度,以及计算控件图像的边缘点的坐标和中心点的坐标。
目标位置确定模块407,用于根据所述目标控件图像在所述界面图像中的位置,确定与所述目标控件图像对应的目标可触发控件在所述当前显示界面中的目标位置。
由于界面图像是与当前显示界面大小图形一一对应的图像,目标控件图像是唯一的,且与目标控件图像对应的目标可触发控件也是唯一的,因此,确定目标控件图像在界面图像中的位置,就可以确定目标可触发控件在当前显示界面的目标位置。
光标控制模块408,用于将所述光标移动至所述目标位置。
根据上述目标位置确定模块407确定的目标位置,将光标移动至与目标可触发控件对应的目标位置。
优选地,所述装置还包括如下模块:
方位语音接收模块,用于接收方位语音指令;
方位语音控制模块,用于根据所述方位语音指令移动所述光标。
方位语音指令包括方向指令和数字指令,光标根据接收到的方位语音指令朝方向指令对应的方向移动与数字指令对应的步数。单位步数可以设为相隔可触发控件的数量,或者一个像素的宽度,此处不作限定。
优选地,所述装置还包括如下模块:
触发模块,用于触发所述目标位置的目标可触发控件。
本实施例中,触发所述目标可触发控件包括调出目标可触发控件相应的功能菜单、进入目标可触发控件链接的界面;触发所述目标可触发控件的操作包括单击、双击、长按等操作。当触发目标可触发控件时,取消界面图像,即界面图像从当前显示界面的顶层移除。
优选地,所述装置还包括如下模块:
退出模块,用于退出语音控制模式。
本实施例中,退出语音控制模式的操作可以在启动语音控制模式后的任意一个时刻进行,用户可以通过触发终端相应的按键退出语音控制模式,也可以通过对终端语音输入模块发出语音控制模式退出命令以退出语音控制模式。所述语音控制模式退出命令可以由终端提前预设,也可以由用户自定义设置后存储到终端中。当接收到退出语音控制模式的操作时,取消界面图像,即界面图像从当前显示界面的顶层移除。
本发明实施例四通过语音控制启动模块启动语音控制模式,通过界面截屏模块对当前显示界面截屏,获得与当前显示界面对应的界面图像;通过图像识别模块根据接收的语音指令识别界面图像中包含的控件图像,并确定与语音指令对应的目标控件图像;通过分辨率获取模块获取当前显示界面的显示分辨率,通过图像坐标系建立模块根据所述显示分辨率建立与界面图像对应的图像坐标系,通过目标控件图像坐标确定模块根据图像坐标系,确定目标控件图像的坐标,通过目标位置确定模块根据目标控件图像在界面图像中的位置,确定与目标控件图像对应的目标可触发控件在当前显示界面中的目标位置,最后通过光标控制模块将所述光标移动至所述目标位置,本发明实施例通过将图像识别技术与语音识别技术结合,实现语音控制光标移动,以提高语音识别技术与操作界面的交互性。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的一种语音控制的方法和一种语音控制的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种语音控制的方法,其特征在于,包括:
获取与当前显示界面对应的界面图像;
根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像;
根据所述目标控件图像在所述界面图像中的位置,确定与所述目标控件图像对应的目标可触发控件在所述当前显示界面中的目标位置;
将所述光标移动至所述目标位置。
2.根据权利要求1所述的方法,其特征在于,所述根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像的步骤,包括:
识别所述界面图像,对所述界面图像包含的控件图像匹配对应的语音标识;其中,所述控件图像与所述当前显示界面中可触发控件一一对应;
将与所述语音指令匹配的语音标识对应的控件图像确定为目标控件图像。
3.根据权利要求1所述的方法,其特征在于,在所述根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像的步骤之前,包括:
将所述界面图像划分为若干区域;
在所述区域内显示对应的区域标识。
4.根据权利要求3所述的方法,其特征在于,所述语音指令包括区域语音和控件语音;所述根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像的步骤,包括:
通过解析所述语音指令中的区域语音,确定对应的目标区域;
识别所述界面图像中的目标区域,对所述目标区域包含的控件图像匹配对应的语音标识;其中,所述控件图像与所述当前显示界面中对应区域的可触发控件一一对应;
将与所述语音指令中的控件语音匹配的语音标识对应的控件图像确定为目标控件图像。
5.根据权利要求1或2或4所述的方法,其特征在于,所述根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像的步骤,还包括:
当与所述语音指令对应的控件图像包含两个以上时,在所述界面图像中对两个以上的控件图像进行编号;
接收包含编号的语音选择指令;
根据所述语音选择指令中的编号确定对应编号的控件图像为目标控件图像。
6.根据权利要求1或2或4所述的方法,其特征在于,所述获取与当前显示界面对应的界面图像的步骤的步骤,包括:
启动语音控制模式;
对当前显示界面截屏,获得与当前显示界面对应的界面图像。
7.根据权利要求1或2或4所述的方法,其特征在于,在所述根据所述目标控件图像在所述界面图像中的位置,确定与所述目标控件图像对应的目标可触发控件在所述当前显示界面中的目标位置的步骤之前,包括:
获取所述当前显示界面的显示分辨率;
根据所述显示分辨率建立与所述界面图像对应的图像坐标系。
根据所述图像坐标系,确定所述目标控件图像的坐标。
8.根据权利要求7所述的方法,其特征在于,在所述将所述光标移动至所述目标位置的步骤之后,还包括:
接收方位语音指令;
根据所述方位语音指令移动所述光标。
9.根据权利要求1所述的方法,其特征在于,在所述将所述光标移动至所述目标位置的步骤之后,包括:
触发所述目标位置的目标可触发控件。
10.一种语音控制装置,其特征在于,包括:
界面图像获取模块,用于获取与当前显示界面对应的界面图像;
图像识别模块,用于根据接收的语音指令识别所述界面图像中包含的控件图像,并确定与所述语音指令对应的目标控件图像;
目标位置确定模块,用于根据所述目标控件图像在所述界面图像中的位置,确定与所述目标控件图像对应的目标可触发控件在所述当前显示界面中的目标位置;
光标控制模块,用于将所述光标移动至所述目标位置。
CN201910473077.3A 2019-05-31 2019-05-31 语音控制的方法和装置 Pending CN110136718A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910473077.3A CN110136718A (zh) 2019-05-31 2019-05-31 语音控制的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910473077.3A CN110136718A (zh) 2019-05-31 2019-05-31 语音控制的方法和装置

Publications (1)

Publication Number Publication Date
CN110136718A true CN110136718A (zh) 2019-08-16

Family

ID=67579595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910473077.3A Pending CN110136718A (zh) 2019-05-31 2019-05-31 语音控制的方法和装置

Country Status (1)

Country Link
CN (1) CN110136718A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675874A (zh) * 2019-09-29 2020-01-10 深圳欧博思智能科技有限公司 一种基于智能音箱的虚拟角色与ui交互的实现方法
CN111263236A (zh) * 2020-02-21 2020-06-09 广州欢网科技有限责任公司 电视机应用的语音适配方法和装置及语音控制方法
CN111968639A (zh) * 2020-08-14 2020-11-20 北京小米松果电子有限公司 语音控制方法、装置、电子设备及存储介质
CN112445450A (zh) * 2019-08-30 2021-03-05 比亚迪股份有限公司 基于语音控制终端的方法、装置、存储介质和电子设备
CN112732379A (zh) * 2020-12-30 2021-04-30 智道网联科技(北京)有限公司 智能终端上应用程序的运行方法、终端和存储介质
CN114467140A (zh) * 2020-08-05 2022-05-10 互动解决方案公司 基于语音来改变图像的***
WO2023103917A1 (zh) * 2021-12-09 2023-06-15 杭州逗酷软件科技有限公司 语音控制方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263308A (ja) * 2002-12-27 2003-09-19 Nec Infrontia Corp 画面制御装置とその方法
US20130046537A1 (en) * 2011-08-19 2013-02-21 Dolbey & Company, Inc. Systems and Methods for Providing an Electronic Dictation Interface
CN104184890A (zh) * 2014-08-11 2014-12-03 联想(北京)有限公司 一种信息处理方法及电子设备
CN104360805A (zh) * 2014-11-28 2015-02-18 广东欧珀移动通信有限公司 应用程序图标管理方法及装置
CN104965596A (zh) * 2015-07-24 2015-10-07 上海宝宏软件有限公司 语音操控***
CN107358953A (zh) * 2017-06-30 2017-11-17 努比亚技术有限公司 语音控制方法、移动终端及存储介质
US9922651B1 (en) * 2014-08-13 2018-03-20 Rockwell Collins, Inc. Avionics text entry, cursor control, and display format selection via voice recognition
CN109213470A (zh) * 2018-09-11 2019-01-15 昆明理工大学 一种基于语音识别的光标控制方法
CN109391833A (zh) * 2018-09-13 2019-02-26 苏宁智能终端有限公司 一种智能电视的语音控制方法及智能电视
CN109471678A (zh) * 2018-11-07 2019-03-15 苏州思必驰信息科技有限公司 基于图像识别的语音中控方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263308A (ja) * 2002-12-27 2003-09-19 Nec Infrontia Corp 画面制御装置とその方法
US20130046537A1 (en) * 2011-08-19 2013-02-21 Dolbey & Company, Inc. Systems and Methods for Providing an Electronic Dictation Interface
CN104184890A (zh) * 2014-08-11 2014-12-03 联想(北京)有限公司 一种信息处理方法及电子设备
US9922651B1 (en) * 2014-08-13 2018-03-20 Rockwell Collins, Inc. Avionics text entry, cursor control, and display format selection via voice recognition
CN104360805A (zh) * 2014-11-28 2015-02-18 广东欧珀移动通信有限公司 应用程序图标管理方法及装置
CN104965596A (zh) * 2015-07-24 2015-10-07 上海宝宏软件有限公司 语音操控***
CN107358953A (zh) * 2017-06-30 2017-11-17 努比亚技术有限公司 语音控制方法、移动终端及存储介质
CN109213470A (zh) * 2018-09-11 2019-01-15 昆明理工大学 一种基于语音识别的光标控制方法
CN109391833A (zh) * 2018-09-13 2019-02-26 苏宁智能终端有限公司 一种智能电视的语音控制方法及智能电视
CN109471678A (zh) * 2018-11-07 2019-03-15 苏州思必驰信息科技有限公司 基于图像识别的语音中控方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445450A (zh) * 2019-08-30 2021-03-05 比亚迪股份有限公司 基于语音控制终端的方法、装置、存储介质和电子设备
CN110675874A (zh) * 2019-09-29 2020-01-10 深圳欧博思智能科技有限公司 一种基于智能音箱的虚拟角色与ui交互的实现方法
CN111263236A (zh) * 2020-02-21 2020-06-09 广州欢网科技有限责任公司 电视机应用的语音适配方法和装置及语音控制方法
CN111263236B (zh) * 2020-02-21 2022-04-12 广州欢网科技有限责任公司 电视机应用的语音适配方法和装置及语音控制方法
CN114467140A (zh) * 2020-08-05 2022-05-10 互动解决方案公司 基于语音来改变图像的***
US11568877B2 (en) 2020-08-05 2023-01-31 Interactive Solutions Corp. System to change image based on voice
CN111968639A (zh) * 2020-08-14 2020-11-20 北京小米松果电子有限公司 语音控制方法、装置、电子设备及存储介质
CN112732379A (zh) * 2020-12-30 2021-04-30 智道网联科技(北京)有限公司 智能终端上应用程序的运行方法、终端和存储介质
CN112732379B (zh) * 2020-12-30 2023-12-15 智道网联科技(北京)有限公司 智能终端上应用程序的运行方法、终端和存储介质
WO2023103917A1 (zh) * 2021-12-09 2023-06-15 杭州逗酷软件科技有限公司 语音控制方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110136718A (zh) 语音控制的方法和装置
US7107079B2 (en) Cellular phone set
CN103488413B (zh) 触控设备及在触控设备上显示3d界面的控制方法和装置
EP2068235A2 (en) Input device, display device, input method, display method, and program
US20140123079A1 (en) Drawing control method, apparatus, and mobile terminal
CN103593136A (zh) 单手操作大屏幕触控终端的方法、装置及触控终端
WO2012169155A1 (en) Information processing terminal and method, program, and recording medium
CN110471584A (zh) 一种手持输入设备的鼠标光标控制方法和装置
US10732808B2 (en) Information processing device, information processing method, and program
CN107066176A (zh) 一种终端单手模式的控制方法及装置
KR20110025520A (ko) 휴대단말기의 제어 장치 및 방법
CN110007826A (zh) 语音控制光标移动的方法和装置
CN103970269A (zh) 遥控***和装置
CN113298212A (zh) 图形码显示方法及装置
CN109165033B (zh) 一种应用更新方法及移动终端
CN105242776A (zh) 一种智能眼镜的控制方法及智能眼镜
CN107728988A (zh) 用于墨水屏的内容显示方法及装置
EP2544082A1 (en) Image display system, information processing apparatus, display apparatus, and image display method
CN111414115A (zh) 按键控制方法、计算机可读存储介质及其终端
CN108845756B (zh) 触控操作方法、装置、存储介质及电子设备
CN102693084B (zh) 移动终端及其响应操作的方法
CN106155452A (zh) 一种单手操作的实现方法及终端
CN103914228A (zh) 一种移动终端及其触摸屏的操作方法
CN106909272A (zh) 一种显示控制方法及移动终端
US20140168106A1 (en) Apparatus and method for processing handwriting input

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190816

RJ01 Rejection of invention patent application after publication