CN106710598A - 语音识别方法及装置 - Google Patents
语音识别方法及装置 Download PDFInfo
- Publication number
- CN106710598A CN106710598A CN201710182776.3A CN201710182776A CN106710598A CN 106710598 A CN106710598 A CN 106710598A CN 201710182776 A CN201710182776 A CN 201710182776A CN 106710598 A CN106710598 A CN 106710598A
- Authority
- CN
- China
- Prior art keywords
- imagebutton
- switch
- words identification
- word
- display interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000005516 engineering process Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims description 39
- 238000005538 encapsulation Methods 0.000 claims description 30
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 7
- 238000004891 communication Methods 0.000 abstract description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000010297 mechanical methods and process Methods 0.000 description 2
- 230000005226 mechanical processes and functions Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/271—Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及通信领域,公开了一种语音识别方法及装置。本发明中,语音识别方法包括:提取显示界面中每个开关的文字标识;在接收到语音信息时,通过语音识别技术将语音信息转换成文字;将转换的所述文字与提取的各所述文字标识进行匹配;在匹配成功时,直接调用与匹配成功的所述文字标识相对应的开关点击事件。本发明还公开了一种语音识别装置。与现有技术相比,本发明使得可以针对每个开关的文字标识,直接调用与文字标识相对应的开关点击事件,而无需去做操作类接口或针对apk去做语音适配接口,就能实现对终端设备的完全语音远程操控,拓展应用较为广泛。
Description
技术领域
本发明涉及通信领域,特别涉及语音识别方法及装置。
背景技术
近年来,随着通信技术的不断发展以及科技的不断进步,手机、笔记本电脑、平板电脑等移动终端已成为人们日常生活中必不可少的使用工具;这是因为其携带便捷,使用简单且给人们的生活带来了极大的便利。
目前,智能语音***在移动终端中应用越来越广泛,如,将语音转换为文字、根据语音控制第三方应用或确定与语音信息匹配的控件;生成控件的控制指令,以实现对终端设备的控制等。
但是发明人在实现本发明的过程中,发现现有技术中还存在以下技术缺陷:一、当前的智能语音***,只能尽量多的去做操作类接口,例如打开某APP(AP指的是应用程序)、打开记事本等相对较固定的操作,而不能完全做到对手机的语音控制,应用较为局限。二、在实现将语音转换为文字时,需要每个apk(apk指的是安装包)去做语音适配接口,这对于第三方apk来说几乎是无法实现的。三、在确定与语音信息匹配的控件;生成控件的控制指令,以实现对终端设备的控制时,会导致语音文本无法和各控件的文字描述相匹配,很多控件是图片类的没有对应的文字信息,即使针对图片类控件匹配到相应的控件也不一定能作出相应的操作。
发明内容
本发明实施例的目的在于提供一种语音识别方法及装置,使得可以针对每个开关的文字标识,直接调用与文字标识相对应的开关点击事件,而无需去做操作类接口或针对apk去做语音适配接口,就能实现对终端设备的完全语音远程操控,拓展应用较为广泛。
为解决上述技术问题,本发明实施例提供了一种语音识别方法,包括:提取显示界面中每个开关的文字标识;在接收到语音信息时,通过语音识别技术将语音信息转换成文字;将转换的所述文字与提取的各所述文字标识进行匹配;在匹配成功时,直接调用与匹配成功的所述文字标识相对应的开关点击事件。
本发明实施例还提供了一种语音识别装置,包括:第一提取模块,用于提取显示界面中每个开关的文字标识;第一判断模块,用于判断是否接收到语音信息;转换模块,用于在接收到语音信息时,通过语音识别技术将语音信息转换成文字;匹配模块,用于将转换的所述文字与提取的各所述文字标识进行匹配;第二判断模块,用于判断是否匹配成功;调用模块,用于在匹配成功时,直接调用与匹配成功的所述文字标识相对应的开关点击事件。
本发明实施例相对于现有技术而言,通过提取显示界面中每个开关的文字标识,在接收到语音信息时,通过语音识别技术将语音信息转换成文字,将转换的所述文字与提取的各所述文字标识进行匹配,在匹配成功时,直接调用与匹配成功的所述文字标识相对应的开关点击事件,使得可以针对每个开关的文字标识,直接调用与文字标识相对应的开关点击事件,而无需去做操作类接口或针对apk去做语音适配接口,就能实现对终端设备的完全语音远程操控,拓展应用较为广泛。
另外,所述提取显示界面中每个开关的文字标识之后,所述在接收到语音信息时,通过语音识别技术将语音信息转换成文字之前,所述语音识别方法还包括:将提取的各所述文字标识以数据块的方式进行显示;在将转换的所述文字与提取的各所述文字标识进行匹配时,具体为:将转换的所述文字与各所述数据块中的文字标识进行匹配。通过这种方式,提供了一种将转换的文字与提取的各文字标识进行匹配的具体实现方式,从而有助于保证本发明的进一步可行性。
另外,所述提取显示界面中每个开关的文字标识之前,所述语音识别方法还包括:对显示界面中每个开关的属性进行识别;在所述开关的属性为文本开关button时,所述提取显示界面中每个开关的文字标识,具体为:根据所述button的文本text属性获取所述button对应的文字标识。通过这种方式,提供了一种获取button的文字标识的具体实现方式,并且通过button的文本text属性获取button对应的文字标识,使得获取的文字标识较为精确。
另外,所述提取显示界面中每个开关的文字标识之前,所述语音识别方法还包括:对显示界面中每个开关的属性进行识别;在所述开关的属性为图片开关imagebutton时,判断所述imagebutton是否为单一性imagebutton;在所述imagebutton为单一性imagebutton时,所述提取显示界面中每个开关的文字标识,具体为:根据所述图片开关的路径src属性找到相应的图片,通过图片识别技术OCR识别所述图片中的文字,将识别到的所述文字作为所述单一性imagebutton的文字标识。通过这种方式,提供了一种获取单一性imagebutton的文字标识的具体实现方式,并且通过这种方式获取的文字标识较为精确。在所述imagebutton为非单一性imagebutton时,所述提取显示界面中每个开关的文字标识,具体为:获取所述非单一性imagebutton的上层封装,从所述上层封装的布局layout中获取text属性,根据获取的所述text属性获取所述非单一性imagebutton对应的文字标识。通过这种方式,提供了一种获取非单一性imagebutton的文字标识的具体实现方式,并且通过这种方式获取的文字标识较为精确。
另外,通过以下方式判断所述imagebutton是否为单一性imagebutton:在所述imagebutton的上层封装中具有至少两个图片时,所述imagebutton为单一性imagebutton;在所述imagebutton的上层封装中具有一个图片时,所述imagebutton为非单一性imagebutton。通过这种方式提供了一种判断imagebutton是否为单一性imagebutton的一种具体实现方式,并且通过根据上层封装中具有的图片个数判断imagebutton是否为单一性imagebutton使得判定结果更加精确。
另外,所述语音识别装置还包括:显示模块,用于在所述提取显示界面中每个开关的文字标识之后,所述在接收到语音信息时,通过语音识别技术将语音信息转换成文字之前,将提取的各所述文字标识以数据块的方式进行显示;所述匹配模块,在将转换的所述文字与提取的各所述文字标识进行匹配时,具体为:将转换的所述文字与各所述数据块中的文字标识进行匹配。
另外,所述语音识别装置还包括:识别模块,用于在所述提取显示界面中每个开关的文字标识之前,对显示界面中每个开关的属性进行识别;第二提取模块,用于提取所述开关的属性;所述第一提取模块,用于在所述开关的属性为文本开关button时,提取显示界面中每个开关的文字标识,具体为:根据所述button的文本text属性获取所述button对应的文字标识。
另外,所述语音识别装置还包括:识别模块,用于在所述提取显示界面中每个开关的文字标识之前,对显示界面中每个开关的属性进行识别;第二提取模块,用于提取所述开关的属性;第三判断模块,用于在所述开关的属性为图片开关imagebutton时,判断所述imagebutton是否为单一性imagebutton;所述第一提取模块,用于在所述imagebutton为单一性imagebutton时,提取显示界面中每个开关的文字标识,具体为:根据所述图片开关的路径src属性找到相应的图片,通过图片识别技术OCR识别所述图片中的文字,将识别到的所述文字作为所述单一性imagebutton的文字标识;所述第一提取模块,用于在所述imagebutton为非单一性imagebutton时,提取显示界面中每个开关的文字标识,具体为:获取所述非单一性imagebutton的上层封装,从所述上层封装的布局layout中获取text属性,根据获取的所述text属性获取所述非单一性imagebutton对应的文字标识。
另外,所述第三判断模块包括:判断子模块,用于判断在所述imagebutton的上层封装中是否具有至少两个图片;判定子模块,用于在所述imagebutton的上层封装中具有至少两个图片时,判定所述imagebutton为单一性imagebutton;判断子模块,还用于判断在所述imagebutton的上层封装中是否具有一个图片;判定子模块,还用于在所述imagebutton的上层封装中具有一个图片时,判定所述imagebutton为非单一性imagebutton。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明第一实施方式中语音识别方法的流程图;
图2是根据本发明第二实施方式中语音识别方法的流程图;
图3是根据本发明第三实施方式中语音识别装置的方框图;
图4是根据本发明第四实施方式中语音识别装置的方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种语音识别方法。具体流程如图1所示,语音识别方法包括:
步骤101,终端设备提取显示界面中每个开关的文字标识。
值得一提的是,终端设备的每一个界面中都具有多个图标,如,日历、时钟、邮件、咨询、相机等图标,并且界面中的图标实质上是开关。在对终端设备上的图标进行操作时,实质上是通过点击开关来实现的。在实际应用中,界面上的开关包括两类,一类是文本开关button(button中文释义为文本开关,此处文本开关为button的同位语)、另一类是图片开关imagebutton(imagebutton中文释义为图片开关,此处图片开关为imagebutton的同位语)。无论是button还是imagebutton都具有对应的用于描述开关用途的文字标识。在执行语音识别方法的步骤时,终端设备可以提取界面中每个button或imagebutton的文字标识。
步骤102,终端设备判断是否接收到语音信息。如果是,则进入步骤103;否则,返回步骤102。
值得一提的是,终端设备自带有话筒,话筒可以用来接收语音信息,当用户对着话筒发出语音时,终端设备可以通过话筒接收到用户发出的语音。
步骤103,终端设备通过语音识别技术将语音信息转换成文字。
步骤104,终端设备将转换的文字与提取的各文字标识进行匹配。
步骤105,终端设备判断是否匹配成功。如果是,则进入步骤106;否则,结束。
此外,值得一提的是,在终端设备判定匹配不成功时,终端设备还可以发出提示信息,用来提示用户语音不匹配,请重新输入。这是因为,实际操作过程中,可能会由于用户发音不准确等原因造成转换的文字与提取的各文字标识都不匹配。
步骤106,终端设备判断匹配成功的文字标识的个数是否为一个。如果是,则进入步骤107;否则,进入步骤108。
步骤107,终端设备直接调用与匹配成功的文字标识相对应的开关点击事件。
值得一提的是,在我们使用终端设备进行操作时,实质上无非需要做如下操作:点击(点击包括单击、双击或长按)、返回、上划以及下滑等操作。故,在调用与匹配成功的文字标识相对应的开关点击事件时,可以完成与button或imagebutton相对应的单击、双击或长按等操作。
步骤108,终端设备发出提示信息。
值得一提的是,终端设备发出的提示信息用于提示用户加长语音信息之后,重新录入加长后的语音信息,以进一步限定语音信息的准确性。
此外,需要说明的是,在步骤108之后,还可以返回步骤102,继续判断是否接收到语音信息,或直接结束。
通过上述内容,不难发现,本实施方式可以针对每个开关的文字标识,直接调用与文字标识相对应的开关点击事件,而无需去做操作类接口或针对apk去做语音适配接口,就能实现对终端设备的完全语音远程操控,拓展应用较为广泛。
本发明的第二实施方式涉及一种语音识别方法。第二实施方式是在第一实施方式的基础上做了改进。
在本实施方式中,语音识别方法具体包括:
步骤201,终端设备对显示界面中每个开关的属性进行识别。
步骤202,终端设备判断开关的属性是否为button。如果是,进入步骤203;否则,说明开关的属性是imagebutton,进入步骤204。
步骤203,终端设备根据button的text属性获取button对应的文字标识。其中,text中文释义为文本。
值得一提的是,text属性中具有文字描述,所以可以根据button的text属性获取button对应的文字标识。通过这种方式,提供了一种获取button的文字标识的具体实现方式,并且通过button的文本text属性获取button对应的文字标识,使得获取的文字标识较为精确。
步骤204,判断imagebutton是否为单一性imagebutton。如果是,进入步骤205;否则,说明imagebutton为非单一性imagebutton,进入步骤207。
具体而言,通过以下方式判断imagebutton是否为单一性imagebutton:在imagebutton的上层封装中具有至少两个图片时,imagebutton为单一性imagebutton;在imagebutton的上层封装中具有一个图片时,imagebutton为非单一性imagebutton。通过这种方式提供了一种判断imagebutton是否为单一性imagebutton的一种具体实现方式,并且通过根据上层封装中具有的图片个数判断imagebutton是否为单一性imagebutton使得判定结果更加精确。
步骤205,根据图片开关的src属性找到相应的图片。
步骤206,通过OCR识别图片中的文字,将识别到的文字作为单一性imagebutton的文字标识。其中,src的中文释义为路径,OCR的中文释义为图片识别技术。通过这种方式,提供了一种获取单一性imagebutton的文字标识的具体实现方式,并且通过这种方式获取的文字标识较为精确。
步骤207,获取非单一性imagebutton的上层封装。
步骤208,从上层封装的layout中获取text属性。其中,layout的中文释义为布局。
步骤209,根据获取的text属性获取非单一性imagebutton对应的文字标识。通过这种方式,提供了一种获取非单一性imagebutton的文字标识的具体实现方式,并且通过这种方式获取的文字标识较为精确。
值得一提的是,在步骤203、步骤206以及步骤209之后,均执行步骤210。
步骤210,终端设备将获取的各文字标识以数据块的方式进行显示。
步骤211,终端设备判断是否接收到语音信息。如果是,则进入步骤212;否则,返回步骤211。
值得一提的是,终端设备自带有话筒,话筒可以用来接收语音信息,当用户对着话筒发出语音时,终端设备可以通过话筒接收到用户发出的语音。
步骤212,终端设备通过语音识别技术将语音信息转换成文字。
步骤213,终端设备将转换的文字与各数据块中的文字标识进行匹配。通过这种方式,提供了一种将转换的文字与提取的各文字标识进行匹配的具体实现方式,从而有助于保证本发明的进一步可行性。
步骤214,终端设备判断是否匹配成功。如果是,则进入步骤215;否则,结束。
此外,值得一提的是,在终端设备判定匹配不成功时,终端设备还可以发出提示信息,用来提示用户语音不匹配,请重新输入。这是因为,实际操作过程中,可能会由于用户发音不准确等原因造成转换的文字与提取的各文字标识都不匹配。
步骤215,终端设备判断匹配成功的文字标识的个数是否为一个。如果是,则进入步骤216;否则,进入步骤217。
步骤216,终端设备直接调用与匹配成功的文字标识相对应的开关点击事件。
值得一提的是,在我们使用终端设备进行操作时,实质上无非需要做如下操作:点击(点击包括单击、双击或长按)、返回、上划以及下滑等操作。故,在调用与匹配成功的文字标识相对应的开关点击事件时,可以完成与button或imagebutton相对应的单击、双击或长按等操作。
步骤217,终端设备发出提示信息。
值得一提的是,终端设备发出的提示信息用于提示用户加长语音信息之后,重新录入加长后的语音信息,以进一步限定语音信息的准确性。
此外,需要说明的是,在步骤217之后,还可以返回步骤211,继续判断是否接收到语音信息,或直接结束。
通过上述内容,不难发现,本实施方式可以针对每个开关的文字标识,直接调用与文字标识相对应的开关点击事件,而无需去做操作类接口或针对apk去做语音适配接口,就能实现对终端设备的完全语音远程操控,拓展应用较为广泛。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种语音识别装置,如图3所示,包括:第一提取模块31,用于提取显示界面中每个开关的文字标识;第一判断模块32,用于判断是否接收到语音信息;转换模块33,用于在接收到语音信息时,通过语音识别技术将语音信息转换成文字;匹配模块34,用于将转换的所述文字与提取的各所述文字标识进行匹配;第二判断模块35,用于判断是否匹配成功;调用模块36,用于在匹配成功时,直接调用与匹配成功的所述文字标识相对应的开关点击事件。
本实施方式为与第一实施方式相对应的装置实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
通过上述内容,不难发现,本实施方式可以针对每个开关的文字标识,直接调用与文字标识相对应的开关点击事件,而无需去做操作类接口或针对apk去做语音适配接口,就能实现对终端设备的完全语音远程操控,拓展应用较为广泛。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第四实施方式涉及一种语音识别装置。第四实施方式是在第三实施方式的基础上做的改进。
具体如图4所示,语音识别装置包括:第一提取模块31,用于提取显示界面中每个开关的文字标识;第一判断模块32,用于判断是否接收到语音信息;转换模块33,用于在接收到语音信息时,通过语音识别技术将语音信息转换成文字;匹配模块34,用于将转换的所述文字与提取的各所述文字标识进行匹配;第二判断模块35,用于判断是否匹配成功;调用模块36,用于在匹配成功时,直接调用与匹配成功的所述文字标识相对应的开关点击事件。
另外,所述语音识别装置还包括:显示模块37,用于在所述提取显示界面中每个开关的文字标识之后,所述在接收到语音信息时,通过语音识别技术将语音信息转换成文字之前,将提取的各所述文字标识以数据块的方式进行显示;所述匹配模块34,在将转换的所述文字与提取的各所述文字标识进行匹配时,具体为:将转换的所述文字与各所述数据块中的文字标识进行匹配。
另外,所述语音识别装置还包括:识别模块38,用于在所述提取显示界面中每个开关的文字标识之前,对显示界面中每个开关的属性进行识别;第二提取模块39,用于提取所述开关的属性;所述第一提取模块31,用于在所述开关的属性为文本开关button时,提取显示界面中每个开关的文字标识,具体为:根据所述button的文本text属性获取所述button对应的文字标识。
另外,所述语音识别装置还包括:识别模块38,用于在所述提取显示界面中每个开关的文字标识之前,对显示界面中每个开关的属性进行识别;第二提取模块39,用于提取所述开关的属性;第三判断模块310,用于在所述开关的属性为图片开关imagebutton时,判断所述imagebutton是否为单一性imagebutton;所述第一提取模块31,用于在所述imagebutton为单一性imagebutton时,提取显示界面中每个开关的文字标识,具体为:根据所述图片开关的路径src属性找到相应的图片,通过图片识别技术OCR识别所述图片中的文字,将识别到的所述文字作为所述单一性imagebutton的文字标识;所述第一提取模块31,用于在所述imagebutton为非单一性imagebutton时,提取显示界面中每个开关的文字标识,具体为:获取所述非单一性imagebutton的上层封装,从所述上层封装的布局layout中获取text属性,根据获取的所述text属性获取所述非单一性imagebutton对应的文字标识。
另外,所述第三判断模块310包括:判断子模块,用于判断在所述imagebutton的上层封装中是否具有至少两个图片;判定子模块,用于在所述imagebutton的上层封装中具有至少两个图片时,判定所述imagebutton为单一性imagebutton;判断子模块,还用于判断在所述imagebutton的上层封装中是否具有一个图片;判定子模块,还用于在所述imagebutton的上层封装中具有一个图片时,判定所述imagebutton为非单一性imagebutton。
由于第二实施方式与本实施方式相互对应,因此本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效,在第二实施方式中所能达到的技术效果在本实施方式中也同样可以实现,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第二实施方式中。
通过上述内容,不难发现,本实施方式可以针对每个开关的文字标识,直接调用与文字标识相对应的开关点击事件,而无需去做操作类接口或针对apk去做语音适配接口,就能实现对终端设备的完全语音远程操控,拓展应用较为广泛。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
提取显示界面中每个开关的文字标识;
在接收到语音信息时,通过语音识别技术将语音信息转换成文字;
将转换的所述文字与提取的各所述文字标识进行匹配;
在匹配成功时,直接调用与匹配成功的所述文字标识相对应的开关点击事件。
2.根据权利要求1所述的语音识别方法,其特征在于,所述提取显示界面中每个开关的文字标识之后,所述在接收到语音信息时,通过语音识别技术将语音信息转换成文字之前,所述语音识别方法还包括:
将提取的各所述文字标识以数据块的方式进行显示;
在将转换的所述文字与提取的各所述文字标识进行匹配时,具体为:将转换的所述文字与各所述数据块中的文字标识进行匹配。
3.根据权利要求1或2所述的语音识别方法,其特征在于,所述提取显示界面中每个开关的文字标识之前,所述语音识别方法还包括:
对显示界面中每个开关的属性进行识别;
在所述开关的属性为文本开关button时,所述提取显示界面中每个开关的文字标识,具体为:根据所述button的文本text属性获取所述button对应的文字标识。
4.根据权利要求1或2所述的语音识别方法,其特征在于,所述提取显示界面中每个开关的文字标识之前,所述语音识别方法还包括:
对显示界面中每个开关的属性进行识别;
在所述开关的属性为图片开关imagebutton时,判断所述imagebutton是否为单一性imagebutton;
在所述imagebutton为单一性imagebutton时,所述提取显示界面中每个开关的文字标识,具体为:根据所述图片开关的路径src属性找到相应的图片,通过图片识别技术OCR识别所述图片中的文字,将识别到的所述文字作为所述单一性imagebutton的文字标识;
在所述imagebutton为非单一性imagebutton时,所述提取显示界面中每个开关的文字标识,具体为:获取所述非单一性imagebutton的上层封装,从所述上层封装的布局layout中获取text属性,根据获取的所述text属性获取所述非单一性imagebutton对应的文字标识。
5.根据权利要求4所述的语音识别方法,其特征在于,通过以下方式判断所述imagebutton是否为单一性imagebutton:
在所述imagebutton的上层封装中具有至少两个图片时,所述imagebutton为单一性imagebutton;
在所述imagebutton的上层封装中具有一个图片时,所述imagebutton为非单一性imagebutton。
6.一种语音识别装置,其特征在于,包括:
第一提取模块,用于提取显示界面中每个开关的文字标识;
第一判断模块,用于判断是否接收到语音信息;
转换模块,用于在接收到语音信息时,通过语音识别技术将语音信息转换成文字;
匹配模块,用于将转换的所述文字与提取的各所述文字标识进行匹配;
第二判断模块,用于判断是否匹配成功;
调用模块,用于在匹配成功时,直接调用与匹配成功的所述文字标识相对应的开关点击事件。
7.根据权利要求6所述的语音识别装置,其特征在于,所述语音识别装置还包括:
显示模块,用于在所述提取显示界面中每个开关的文字标识之后,所述在接收到语音信息时,通过语音识别技术将语音信息转换成文字之前,将提取的各所述文字标识以数据块的方式进行显示;
所述匹配模块,在将转换的所述文字与提取的各所述文字标识进行匹配时,具体为:将转换的所述文字与各所述数据块中的文字标识进行匹配。
8.根据权利要求6或7所述的语音识别装置,其特征在于,所述语音识别装置还包括:
识别模块,用于在所述提取显示界面中每个开关的文字标识之前,对显示界面中每个开关的属性进行识别;
第二提取模块,用于提取所述开关的属性;
所述第一提取模块,用于在所述开关的属性为文本开关button时,提取显示界面中每个开关的文字标识,具体为:根据所述button的文本text属性获取所述button对应的文字标识。
9.根据权利要求6或7所述的语音识别装置,其特征在于,所述语音识别装置还包括:
识别模块,用于在所述提取显示界面中每个开关的文字标识之前,对显示界面中每个开关的属性进行识别;
第二提取模块,用于提取所述开关的属性;
第三判断模块,用于在所述开关的属性为图片开关imagebutton时,判断所述imagebutton是否为单一性imagebutton;
所述第一提取模块,用于在所述imagebutton为单一性imagebutton时,提取显示界面中每个开关的文字标识,具体为:根据所述图片开关的路径src属性找到相应的图片,通过图片识别技术OCR识别所述图片中的文字,将识别到的所述文字作为所述单一性imagebutton的文字标识;
所述第一提取模块,用于在所述imagebutton为非单一性imagebutton时,提取显示界面中每个开关的文字标识,具体为:获取所述非单一性imagebutton的上层封装,从所述上层封装的布局layout中获取text属性,根据获取的所述text属性获取所述非单一性imagebutton对应的文字标识。
10.根据权利要求9所述的语音识别装置,其特征在于,所述第三判断模块包括:
判断子模块,用于判断在所述imagebutton的上层封装中是否具有至少两个图片;
判定子模块,用于在所述imagebutton的上层封装中具有至少两个图片时,判定所述imagebutton为单一性imagebutton;
判断子模块,还用于判断在所述imagebutton的上层封装中是否具有一个图片;
判定子模块,还用于在所述imagebutton的上层封装中具有一个图片时,判定所述imagebutton为非单一性imagebutton。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710182776.3A CN106710598A (zh) | 2017-03-24 | 2017-03-24 | 语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710182776.3A CN106710598A (zh) | 2017-03-24 | 2017-03-24 | 语音识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106710598A true CN106710598A (zh) | 2017-05-24 |
Family
ID=58886904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710182776.3A Pending CN106710598A (zh) | 2017-03-24 | 2017-03-24 | 语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106710598A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109326290A (zh) * | 2018-12-10 | 2019-02-12 | 苏州思必驰信息科技有限公司 | 语音识别方法及装置 |
CN109545223A (zh) * | 2017-09-22 | 2019-03-29 | Tcl集团股份有限公司 | 应用于用户终端的语音识别方法及终端设备 |
CN109634935A (zh) * | 2018-11-07 | 2019-04-16 | 重庆海特科技发展有限公司 | 语音处理方法、存储介质和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923432A (zh) * | 2010-06-10 | 2010-12-22 | 北京捷通华声语音技术有限公司 | 一种移动终端中应用程序的调用方法及装置 |
CN104965596A (zh) * | 2015-07-24 | 2015-10-07 | 上海宝宏软件有限公司 | 语音操控*** |
CN105161106A (zh) * | 2015-08-20 | 2015-12-16 | 深圳Tcl数字技术有限公司 | 智能终端的语音控制方法、装置及电视机*** |
US20160110159A1 (en) * | 2014-10-15 | 2016-04-21 | Fujitsu Limited | Input information support apparatus, method for supporting input information, and computer-readable recording medium |
CN105551492A (zh) * | 2015-12-04 | 2016-05-04 | 青岛海信传媒网络技术有限公司 | 语音控制的方法、装置与终端 |
CN105957530A (zh) * | 2016-04-28 | 2016-09-21 | 海信集团有限公司 | 一种语音控制方法、装置和终端设备 |
-
2017
- 2017-03-24 CN CN201710182776.3A patent/CN106710598A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923432A (zh) * | 2010-06-10 | 2010-12-22 | 北京捷通华声语音技术有限公司 | 一种移动终端中应用程序的调用方法及装置 |
US20160110159A1 (en) * | 2014-10-15 | 2016-04-21 | Fujitsu Limited | Input information support apparatus, method for supporting input information, and computer-readable recording medium |
CN104965596A (zh) * | 2015-07-24 | 2015-10-07 | 上海宝宏软件有限公司 | 语音操控*** |
CN105161106A (zh) * | 2015-08-20 | 2015-12-16 | 深圳Tcl数字技术有限公司 | 智能终端的语音控制方法、装置及电视机*** |
CN105551492A (zh) * | 2015-12-04 | 2016-05-04 | 青岛海信传媒网络技术有限公司 | 语音控制的方法、装置与终端 |
CN105957530A (zh) * | 2016-04-28 | 2016-09-21 | 海信集团有限公司 | 一种语音控制方法、装置和终端设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109545223A (zh) * | 2017-09-22 | 2019-03-29 | Tcl集团股份有限公司 | 应用于用户终端的语音识别方法及终端设备 |
CN109545223B (zh) * | 2017-09-22 | 2022-03-01 | Tcl科技集团股份有限公司 | 应用于用户终端的语音识别方法及终端设备 |
CN109634935A (zh) * | 2018-11-07 | 2019-04-16 | 重庆海特科技发展有限公司 | 语音处理方法、存储介质和装置 |
CN109326290A (zh) * | 2018-12-10 | 2019-02-12 | 苏州思必驰信息科技有限公司 | 语音识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10210154B2 (en) | Input method editor having a secondary language mode | |
WO2021135611A1 (zh) | 一种语音识别的方法、装置、终端以及存储介质 | |
US9043300B2 (en) | Input method editor integration | |
CN109656512A (zh) | 基于语音助手的交互方法、装置、存储介质及终端 | |
US20130018998A1 (en) | Managing application interactions using distributed modality components | |
US20040243415A1 (en) | Architecture for a speech input method editor for handheld portable devices | |
KR20190061706A (ko) | 복수의도를 포함하는 명령어를 분석하는 음성 인식 시스템 및 방법 | |
CN103945044A (zh) | 一种信息处理方法和移动终端 | |
CN106710598A (zh) | 语音识别方法及装置 | |
CN104462058B (zh) | 字符串识别方法及装置 | |
CN108682421B (zh) | 一种语音识别方法、终端设备及计算机可读存储介质 | |
CN109753560A (zh) | 智能问答***的信息处理方法及装置 | |
CN107885826A (zh) | 多媒体文件播放方法、装置、存储介质及电子设备 | |
CN104375845A (zh) | 一种启动应用程序的方法、装置及终端 | |
CN112035630A (zh) | 结合rpa和ai的对话交互方法、装置、设备及存储介质 | |
US20040176139A1 (en) | Method and wireless communication device using voice recognition for entering text characters | |
CN105353957A (zh) | 一种信息显示方法及终端 | |
CN111722893A (zh) | 一种电子设备图形用户界面交互方法、装置和终端设备 | |
CN109660672A (zh) | 语音类型的转换方法、设备及计算机可读存储介质 | |
CN103475779B (zh) | 通信终端和向其提供统一界面的方法 | |
CN105893345A (zh) | 一种信息处理方法和电子设备 | |
Noura et al. | Natural language goal understanding for smart home environments | |
CN106506805A (zh) | 联系人头像图片生成方法及装置 | |
CN107645613A (zh) | 服务转接的方法和装置 | |
CN116306685A (zh) | 一种面向电力业务场景的多意图识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170524 |
|
WD01 | Invention patent application deemed withdrawn after publication |