CN111801731A - 语音控制方法、语音控制装置以及计算机可执行非易失性存储介质 - Google Patents

语音控制方法、语音控制装置以及计算机可执行非易失性存储介质 Download PDF

Info

Publication number
CN111801731A
CN111801731A CN201980000085.4A CN201980000085A CN111801731A CN 111801731 A CN111801731 A CN 111801731A CN 201980000085 A CN201980000085 A CN 201980000085A CN 111801731 A CN111801731 A CN 111801731A
Authority
CN
China
Prior art keywords
control
voice command
voice
character string
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980000085.4A
Other languages
English (en)
Other versions
CN111801731B (zh
Inventor
李英杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Publication of CN111801731A publication Critical patent/CN111801731A/zh
Application granted granted Critical
Publication of CN111801731B publication Critical patent/CN111801731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/42Graphical user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种语音控制方法,包括:获取语音输入信息;对所述语音输入信息进行识别,以得到语音命令;基于所述语音命令,利用测试框架调用单元,确定与所述语音命令对应的控件,其中,所述测试框架调用单元不在所述控件所在的应用程序中;执行所述控件对应的功能。该方法在不修改***源码和不需要针对特定APP进行适配的情况下,实现对三方APP的控制,更加灵活方便和普适性更强。还提供了语音控制装置和计算机可执行非易失性存储介质。

Description

语音控制方法、语音控制装置以及计算机可执行非易失性存 储介质
技术领域
本公开实施例涉及一种语音控制方法、与该语音控制方法对应的语音控制装置以及计算机可执行非易失性存储介质。
背景技术
随着智能手机的迅速普及,移动互联网也在迅速发展,在智能操作***和移动互联网共同快速发展的情况下,安卓操作***由于其开源,可以深度定制的优点,已经成为各类智能设备使用最多的操作***,运行安卓***的设备种类最为繁多,这些设备使用语音交互的方式越来越普遍。
然而,虽然安卓生态中已经有大量的应用程序(APP)可以免费安装使用,但是这些APP大都采用用户对手机设备的触摸操作输入,要想使用语音自然交互控制,就需要重新开发APP。这样除了工作量大,可能还涉及到与第三方APP公司合作的问题,时间和经济成本都很高。
另外,也可以通过修改操作***源码对指定的第三方APP进行指令和控件之间的适配,来实现不修改三方APP源码的情况下对其进行控制。但这种方法需要做适配工作,对三方APP的使用还是有一定的限制,另外修改操作***源码也增加了开发难度。
发明内容
本公开实施例的目的在于提供一种语音控制方法、语音控制装置以及非易失性存储介质,以解决上述技术问题。
根据本公开至少一个实施例,提供了一种语音控制方法,包括:获取语音输入信息;对所述语音输入信息进行识别,以得到语音命令;基于所述语音命令,利用测试框架调用单元,确定与所述语音命令对应的控件,其中,所述测试框架调用单元不在所述控件所在的应用程序中,执行所述控件对应的功能。
例如,所述基于所述语音命令,利用测试框架调用单元,确定与所述语音命令对应的控件包括:利用所述测试框架调用单元,获取当前用户界面上处于前台运行状态的应用程序中的控件;获取所述控件上的字符串或控件的描述字符串;将所述语音命令与所述控件上的字符串或控件的描述字符串相匹配,以确定与所述语音命令对应的控件。
例如,所述语音命令还包括命令参数,其中,所述基于所述语音命令,利用测试框架调用单元,确定与所述语音命令对应的控件还包括:利用所述测试框架调用单元,获取在当前用户界面上处于前台运行状态的应用程序中的所述控件的位置;利用所述测试框架调用单元,确定与所述控件的位置相邻的至少一个位置上是否有编辑框,当确定有一个或多个所述编辑框时,将所述命令参数输入到任一所述编辑框中;其中,执行所述控件对应的功能包括:基于所述命令参数执行所述控件对应的功能。
例如,确定与所述控件的位置相邻的至少一个位置上是否有编辑框包括:查找所述当前用户界面上的所有编辑框;识别各所述编辑框的边界;基于所述边界确定与所述控件的位置相邻的至少一个位置上的编辑框的位置。
例如,所述对所述语音输入信息进行识别,以得到语音命令包括:将所述语音输入信息转换成字符串;将转换的字符串与预设语音命令相匹配;基于匹配结果确定所述语音输入信息对应的语音命令。
例如,将转换的字符串与预设语音命令相匹配包括:建立字符串与预设的语音命令的对应关系集合;基于模板匹配或深度学习确定转换的字符串在所述集合中所相匹配的语音命令;将所述字符串与所述确定的语音命令相匹配。
例如,所述基于所述语音命令,利用测试框架调用单元,确定与所述语音命令对应的控件包括:基于所述测试框架调用单元调用的测试框架,获取当前用户界面中的处于前台运行状态的应用程序的图像;对所述图像进行识别,以确定所述图像中的控件图标;将所述语音命令与所述控件图标相匹配,以确定与所述语音命令对应的控件。
例如,所述基于所述语音命令,利用测试框架调用单元,确定与所述语音命令对应的控件还包括:当所述将所述语音命令与所述控件上的字符串或控件的描述字符串相匹配不成功时,基于所述测试框架调用单元调用的测试框架,获取当前用户界面中的处于前台运行状态的应用程序的图像;对所述图像进行识别,以确定所述图像中的控件图标;将所述语音命令与所述控件图标相匹配,以确定与所述语音命令对应的控件。
例如,所述基于所述语音命令,利用测试框架调用单元,确定与所述语音命令对应的控件还包括:当所述将所述语音命令与所述控件图标相匹配不成功时,利用所述测试框架调用单元,获取当前用户界面上处于前台运行状态的应用程序中的控件;获取所述控件上的字符串或控件的描述字符串;将所述语音命令与所述控件上的字符串或控件的描述字符串相匹配,以确定与所述语音命令对应的控件。
例如,对所述图像进行识别,以确定所述图像中的控件图标包括:对所述屏幕图像进行轮廓提取,获取至少一个控件区域;对所述至少一个控件区域进行图像识别,以确定所述控件区域中控件图标。
例如,所述将所述语音命令与所述控件图标相匹配,以确定与所述语音命令对应的控件包括:将所述控件图标转换成与该控件功能对应的字符串;将所述语音命令与所述对应的字符串相匹配;或者,将所述语音命令转换成与所述语音命令对应的图标,并将所述对应的图标与所述控件图标相匹配。
例如,在所述获取语音输入信息的步骤之前,所述方法还包括:获取应用程序开启命令;基于所述应用程序开启命令,启动所述控件所在的应用程序。
根据本公开的至少一个实施例,提供了一种语音控制装置,包括:语音识别和语义理解单元,被配置为获取语音输入信息,并对所述语音输入信息进行识别,以得到语音命令;测试框架调用单元,被配置为基于所述语音命令,确定与所述语音命令对应的控件,其中,所述测试框架调用单元不在所述控件所在的应用程序中;执行单元,被配置为执行所述控件对应的功能。
例如,所述的装置还包括:图像识别单元,被配置为对当前用户界面中所述控件所在应用程序中的图像进行识别,以确定所述图像中的控件图标;所述测试框架调用单元进一步被配置为,将所述语音命令与所述控件图标相匹配,以确定与所述语音命令对应的控件。
例如,所述语音识别和语义理解单元在第一模块中,所述测试框架调用单元以及图像识别单元分别在第二模块中,所述第一模块与所述第二模块之间通过进程间通信的方式进行通信。
根据本公开的至少一个实施例,提供了一种语音控制装置,包括存储器和处理器,所述存储器中存储指令,所述处理器处理所述指令时执行前述方法。
根据本公开的至少一个实施例,提供了一种计算机可执行非易失性存储介质,存储有计算机程序指令,处理器处理所述程序指令时执行前述方法。
本公开在不修改***源码和不需要针对特定APP进行适配的情况下,实现对三方APP的控制,更加灵活方便和普适性更强。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例的描述中所需要使用的附图作简单的介绍。下面描述中的附图仅仅是本公开的示例性实施例。
图1示出了根据本公开实施例的语音控制方法流程图;
图2示出了根据本公开实施例的语音控制装置结构示意图;
图3示出了根据本公开实施例的语音控制装置的一个示例的结构图;
图4示出了根据本公开实施例的语音控制装置的架构图;
图5示出了根据本公开实施例的另一语音控制装置结构示意图。
具体实施方式
在下文中,将参考附图详细描述本公开的优选实施例。注意,在本说明书和附图中,具有基本上相同步骤和元素用相同的附图标记来表示,且对这些步骤和元素的重复解释将被省略。
在本公开实施例中,语音控制方法和语音控制装置,非易失性存储介质可以应用于电子设备,电子设备例如是移动终端、个人计算机,便携式电脑等。电子设备上可以执行本公开实施例的语音控制方法。例如,将本公开实施例的语音控制方法制作成应用程序,电子设备上安装实现该语音控制方法的应用程序,或安装一个包括本公开实施例的语音控制装置或存储介质的芯片或处理器。这样,当本公开实施例的语音控制方法、装置或存储介质被执行后,可以对电子设备中安装的任何一个其他的应用程序(或称作第三方应用程序)进行语音控制,实现语音交互,即便该第三方应用程序本身没有语音控制功能。当第三方应用程序具有语音控制功能时,用户也可以选择不应用第三方应用程序本身的语音控制功能,选择应用本公开实施例的语音控制功能,从而给予用户更多的选择体验。这样,本公开实施例的语音控制方法或装置在不修改第三方应用程序代码,也不修改操作***程序代码的情况下,就可以实现对第三方应用程序的语音控制和管理,增强了电子设备的功能,方便了用户的使用。
图1描述了根据本公开实施例的语音控制方法100的流程图。下面将参照图1来描述本公开的实施例的语音控制方法。参见图1,语音控制方法100可以包括步骤S101-S104。
在步骤S101中,获取语音输入信息。根据本公开的一个示例,可以通过电子设备的麦克风设备接收用户的语音输入作为语音输入信息,该语音输入信息用于控制第三方应用程序中的控件,使得用户可以通过该语音信息与该第三方应用程序进行交互。例如,通过麦克风,获取用户输入的“搜索”、“上滑”等语音,作为语音输入信息。
在一个示例中,在获取用户用于控制第三方应用程序中的控件的语音输入信息之前,可以首先通过语音开启该第三方应用程序。例如,首先,通过电子设备的语音输入接口获取用户输入的应用程序开启语音命令,基于该语音控制方法的程序开启语音命令,启动第三方应用程序。例如,通过该语音控制方法的程序输入语音“打开微信”来开启“微信”这个第三方应用程序。当然也可以通过触摸或点击应用程序图标的方式来开启第三方应用程序。
在步骤S102中,对语音输入信息进行识别,以得到语音命令。根据本公开的一个示例,可以将语音输入信息转换成字符串,并将转换的字符串与预设语音命令相匹配,基于匹配结果确定语音输入信息对应的语音命令。例如,语音命令可以是能够控制电子设备的控制命令。例如,可以预先定义字符串与语音命令的对应关系集合。例如语音命令“上滑”对应{“向上滑动”、“上拉”、“上滑”}这样一组字符串,对应语音命令的操作是对可滑动控件的上拉操作,如果用户的语音输入信息包括字符串“向上滑动”、“上拉”、“上滑”中的至少一种,就可以匹配“上滑”的语音命令。还例如,语音命令“搜索”对应{“搜索”、“查找”}这样一组字符串,对应的操作是点击搜索控件。如果用户的语音输入信息包括“搜索”,“查找”中的至少一种,就可以匹配“搜索”的语音命令。
在一个示例中,在将转换的字符串与语音命令相匹配时,可以基于模板匹配或深度学习确定转换的字符串在集合中所匹配的语音命令,并将字符串转换成确定的语音命令。此外,这些支持的语音命令以及对应的字符串均是可以无限扩展的,可以根据需要增加语音命令对应的字符串集合中的元素。
根据本公开的实施例,语音命令可以仅包括一个命令,还可以包括语音命令和命令参数。在将转换的字符串与预设语音命令相匹配时,可以在匹配语音命令的同时,识别并匹配该语音命令包括的命令参数。例如,匹配结果可以包括至少三类,第一类只有匹配的语音命令,如“向上滑动”,解析结果为命令:上滑。第二类包含语音命令和该语音命令对应的命令参数,如“我要搜索刘德华”的字符串,则匹配结果为命令:搜索,参数“刘德华”。还例如,“播放忘情水”的字符串,则匹配结果为语音命令:播放,命令参数:忘情水。第三类对于匹配不到预置语音命令的操作,比如“忘情水”的字符串,则认为语音命令是“忘情水”。
在步骤S103中,基于语音命令,利用测试框架调用单元,确定与语音命令对应的控件,其中,所述测试框架调用单元不在所述控件所在的应用程序中。也就是说,所述控件所在的应用程序在与测试框架调用单元所在的程序不同。
测试框架调用单元,是指用于调用测试框架功能的程序。测试框架是一个用来做自动化测试的软件库,是安卓等操作***本身具有的一个功能。例如用户界面自动测试框架(uiautomator)。uiautomator测试框架可以获取当前用户界面上的控件或控件的属性信息。例如获取当前窗口的控件层次关系及属性信息,并查找到目标控件。如果是点击事件,还可以计算出该控件的中心点坐标等等。此外,uiautomator还可以通过隐藏接口来注入用户事件(例如点击、输入类操作),从而实现跨进程自动化的目的。此外,除了uiautomator测试框架之外,还有appium测试框架等其他测试框架,本公开对此不做限定。
在本公开实施例中,需要进行语音控制的控件在电子设备中的第三方应用程序中,而用于调用测试框架的测试框架调用单元在第三方应用程序之外的一个程序中,因此,控件所在的应用程序与测试框架调用单元所在的程序不是同一个应用程序。
根据本公开的一个示例,在利用测试框架调用单元,确定与语音命令对应的控件过程中,可以首先利用测试框架调用单元,获取当前用户界面上的控件对象。例如,通过uiautomator测试框架,获取第三方应用程序窗口中所有的控件对象。然后获取控件对象上的字符串或控件的描述字符串。例如,通过光学字符识别(OCR)来识别控件对象上的字符串或控件描述字符串。例如,识别控件对象上的文字字符串“搜索”、“复制”、“退出”。之后将语音命令与控件对象上的字符串或控件的描述字符串相匹配,以确定与语音命令对应的控件。例如,将“搜索”等语音命令与控件对象上的文字字符串“搜索”、“复制”、“退出”相匹配,从而确定匹配的“搜索”控件。
根据本公开的一个示例,当语音命令还包括命令参数时,在利用测试框架调用单元,确定与语音命令对应的控件的过程中,还需要进一步对命令参数进行处理。例如,在利用测试框架调用单元调用测试框架确定了控件之后,进一步利用测试框架调用单元,获取控件在当前用户界面或第三方应用程序窗口上的位置。然后利用测试框架调用单元,确定与控件位置相邻的至少一个位置上是否有编辑框。例如,确定控件的上方区域是否有编辑框,如果上方区域没有,确定控件左侧区域是否有编辑框。当确定找到编辑框时,将命令参数输入到编辑框中;然后基于命令参数对控件进行操作,以执行控件对应的功能。例如,在编辑框中输入“忘情水”之后,执行点击控件“搜索”的操作以搜索“忘情水”。
在一个示例中,在确定与控件位置相邻的至少一个位置上是否有编辑框时可以使用uiautomator的查找对象(find Objects)功能找到第三方应用程序窗口中所有编辑框,然后针对每一个编辑框获取编辑框的边界,这样就得到了编辑框的位置坐标,根据编辑框的位置坐标确定其与控件之间的位置关系。
由于某些控件上并没有文字而是图标,例如,“搜索”控件上往往是一个放大镜的图标,而不是“搜索”两字,因此根据本公开一个示例,还可以选择通过图像识别的方式来查找语音命令对应的控件。例如,通过字符串匹配方式无法找到控件的情况下,或者即便找到控件,但在控件附近找不到编辑框的情况下,都可以采用图像识别的方式查找控件。当然,本领域技术人员了解,也可以任意选择或同时选择字符串方式匹配控件以及图像识别方式匹配控件,来确定语音命令对应的控件,二者没有优先顺序。
根据本公开的一个示例,通过图像识别方式匹配控件时,可以首先基于测试框架调用单元调用的测试框架,获取当前用户界面上的图像。例如,获取当前用户界面中处于前台运行状态的应用程序中的图像。然后对图像进行识别,定位图像中处于前台运行状态的第三方应用程序中的一个或多个控件图标。例如,对图像进行轮廓提取,先获取一个或多个控件区域。然后对获取的一个或多个控件区域进行图像识别,以确定控件区域中控件描述字符串或控件图标。通过首先获取控件区域的方式,可以缩小控件图标的识别范围,减小计算量,提高识别效率。
如果识别得到的是控件字符串,将语音命令对应的字符串与控件字符串相匹配,确定与语音命令对应的控件。如果得到的是控件图标,将语音命令与控件图标相匹配,以确定与语音命令对应的控件。例如,将控件图标转换成与该控件功能对应的字符串;将语音命令对应的字符串与控件图标对应的字符串相匹配,以确定语音命令对应的控件。还例如,也可以将语音命令转换成与该语音命令对应的图标,将语音命令对应的图标与控件图标相匹配,确定语音命令对应的控件。例如,语音命令“搜索”对应的字符串包括“搜索”、“查找”的同时,还包括多个图标,例如“放大镜图标”。将“放大镜图标”与控件图标相匹配,当确定某个控件图标是“放大镜图标”时,则可以确定该控件为“搜索控件”。
在一个示例中,语音命令图标与控件图标的匹配技术可以使用图像特征匹配,深度学习等图像识别方式。图像特征匹配时,可以分别提取语音命令图标以及空间图标的图像特征,例如轮廓特征,将二者的图像特征进行匹配,当匹配率大于匹配阈值时,例如80%,则认为二者是相同的图标。
在一个示例中,在对控件区域进行识别后,如果没有识别出文字,再对该控件区域进行图像识别,如果识别出文字,则不再对该控件区域进行图像识别,以避免不必要的计算,提高识别效率。在语音命令能够和控件区域的图标或字符串匹配上时,则确定该控件区域为控件。例如,当将语音命令与控件上的字符串或控件的描述字符串相匹配不成功时,可以基于测试框架调用单元调用的测试框架来获取当前用户界面中的处于前台运行状态的应用程序的图像,然后对图像进行识别,来确定图像中的控件图标;再将语音命令与控件图标相匹配,以确定与语音命令对应的控件。
在另一个示例中,可以先通过图像识别的方式来查找语音命令对应的控件,当通过图像识别方式没有识别出图像时,再使用文字识别方式对控件区域进行识别,同样可以避免不必要的计算,节省***资源。例如,当将语音命令与控件图标相匹配不成功时,可以利用测试框架调用单元获取当前用户界面上处于前台运行状态的应用程序中的控件;然后获取控件上的字符串或控件的描述字符串;将语音命令与控件上的字符串或控件的描述字符串相匹配,来确定与语音命令对应的控件。
在步骤S104中,执行控件对应的功能。根据本公开的一个示例,可以根据控件的属性,根据语音命令,执行控件的单击、双击或拖动等操作。当语音命令还包括命令参数时,可以根据命令参数对控件进行操作。例如,当编辑框中有命令参数“忘情水”时,执行单击“搜索”控件并搜索“忘情水”。
本公开实施例的语音控制方法,通过调用操作***的测试框架,可以无需修改第三方应用程序以及操作***的代码,就可以实现对第三方应用程序的语音控制,扩展了电子设备的功能,方便了用户的使用。
以上介绍了根据本公开实施例的语音控制方法,下面将进一步介绍根据本公开实施例的语音控制装置,该语音控制装置与前述实施例的语音控制方法对应,为了说明书的简洁,以下仅作简要介绍。具体参见前述所有实施例。
图2示出了根据本公开实施例的语音控制装置结构示意图,参见图2,语音控制装置200包括语音识别和语义理解单元201,测试框架调用单元202以及执行单元203。其中语音识别和语义理解单元201被配置为获取语音输入信息,并对语音输入信息进行识别,以得到语音命令。测试框架调用单元202,被配置为基于语音命令,确定与语音命令对应的控件,其中,所述测试框架调用单元不在所述控件所在的应用程序中,也就是说,控件所在的程序与测试框架调用单元所在的应用程序不同。执行单元203,被配置为执行控件对应的功能。在本公开实施中,上述语音识别和语义理解单元201,测试框架调用单元202以及执行单元203可以通过软件、硬件或固件的形式来实现,例如可以通过计算机程序、可编程逻辑电路、芯片或芯片组来实现。
图3示出了根据本公开实施例的语音控制装置的一个示例的结构图。参见图3,为了将用户界面上的图像进行识别,语音控制装置200还可以包括图像识别单元204。图像识别单元204被配置为对用户界面上的图像进行识别,例如,对当前用户界面中处于前台运行状态的应用程序中的图像进行识别,以确定图像中该应用程序中的控件图标。此外,测试框架调用单元202进一步被配置为,将语音命令与控件图标相匹配,以确定与语音命令对应的控件。在本公开实施中,上述语音识别和语义理解单元201,测试框架调用单元202,执行单元203以及图像识别单元204可以通过软件、硬件或固件的形式来实现,例如可以通过计算机程序、可编程逻辑电路、芯片或芯片组来实现。
图4示出了根据本公开实施例的语音控制装置的架构图,参见图4,语音识别和语义理解单元201在第一模块中,测试框架调用单元202以及图像识别单元204分别在第二模块中,第一模块与第二模块之间通过进程间通信的方式进行通信。此外,执行单元203可以在第三模块中。例如,执行单元203可以调用操作***本身自带的控件执行功能。
图5示出了根据本公开实施例的另一语音控制装置结构示意图。参见图5,语音控制装置500包括存储器501和处理器502。存储器501中存储计算机程序指令,处理器502执行程序指令时执行前述实施例中的语音控制方法。
根据本公开实施例,还提供了一种计算机可执行非易失性存储介质,该非易失性存储介质存储计算机程序指令,当计算机中的处理器执行程序指令时执行前述实施例中的语音控制方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现。并且软件模块可以置于任意形式的计算机存储介质中。为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
本领域技术人员应该理解,可依赖于设计需求和其它因素对本公开进行各种修改、组合、部分组合和替换,只要它们在所附权利要求书及其等价物的范围内。

Claims (17)

1.一种语音控制方法,包括:
获取语音输入信息;
对所述语音输入信息进行识别,以得到语音命令;
基于所述语音命令,利用测试框架调用单元,确定与所述语音命令对应的控件,其中,所述测试框架调用单元不在所述控件所在的应用程序中;
执行所述控件对应的功能。
2.根据权利要求1所述的方法,其中,所述基于所述语音命令,利用测试框架调用单元,确定与所述语音命令对应的控件包括:
利用所述测试框架调用单元,获取当前用户界面上处于前台运行状态的应用程序中的控件;
获取所述控件上的字符串或控件的描述字符串;
将所述语音命令与所述控件上的字符串或控件的描述字符串相匹配,以确定与所述语音命令对应的控件。
3.根据权利要求2所述的方法,其中,所述语音命令还包括命令参数,
其中,所述基于所述语音命令,利用测试框架调用单元,确定与所述语音命令对应的控件还包括:
利用所述测试框架调用单元,获取在当前用户界面上处于前台运行状态的应用程序中的所述控件的位置;
利用所述测试框架调用单元,确定与所述控件的位置相邻的至少一个位置上是否有编辑框,当确定有一个或多个所述编辑框时,将所述命令参数输入到任一所述编辑框中;
其中,执行所述控件对应的功能包括:
基于所述命令参数执行所述控件对应的功能。
4.根据权利要求3所述的方法,其中,确定与所述控件的位置相邻的至少一个位置上是否有编辑框包括:
查找所述当前用户界面上的所有编辑框;
识别各所述编辑框的边界;
基于所述边界确定与所述控件的位置相邻的至少一个位置上的编辑框的位置。
5.根据权利要求1-4任一所述的方法,所述对所述语音输入信息进行识别,以得到语音命令包括:
将所述语音输入信息转换成字符串;
将转换的字符串与预设语音命令相匹配;
基于匹配结果确定所述语音输入信息对应的语音命令。
6.根据权利要求5所述的方法,将转换的字符串与预设语音命令相匹配包括:
建立字符串与预设语音命令的对应关系集合;
基于模板匹配或深度学习确定转换的字符串在所述集合中所相匹配的语音命令;
将所述字符串与所述确定的语音命令相匹配。
7.根据权利要求1所述的方法,其中,所述基于所述语音命令,利用测试框架调用单元,确定与所述语音命令对应的控件包括:
基于所述测试框架调用单元调用的测试框架,获取当前用户界面中的处于前台运行状态的应用程序的图像;
对所述图像进行识别,以确定所述图像中的控件图标;
将所述语音命令与所述控件图标相匹配,以确定与所述语音命令对应的控件。
8.根据权利要求2-6任一所述的方法,其中,所述基于所述语音命令,利用测试框架调用单元,确定与所述语音命令对应的控件还包括:
当所述将所述语音命令与所述控件上的字符串或控件的描述字符串相匹配不成功时,基于所述测试框架调用单元调用的测试框架,获取当前用户界面中的处于前台运行状态的应用程序的图像;
对所述图像进行识别,以确定所述图像中的控件图标;
将所述语音命令与所述控件图标相匹配,以确定与所述语音命令对应的控件。
9.根据权利要求7所述的方法,其中,所述基于所述语音命令,利用测试框架调用单元,确定与所述语音命令对应的控件还包括:
当所述将所述语音命令与所述控件图标相匹配不成功时,利用所述测试框架调用单元,获取当前用户界面上处于前台运行状态的应用程序中的控件;
获取所述控件上的字符串或控件的描述字符串;
将所述语音命令与所述控件上的字符串或控件的描述字符串相匹配,以确定与所述语音命令对应的控件。
10.根据权利要求7-9任一所述的方法,其中,对所述图像进行识别,以确定所述图像中的控件图标包括:
对所述图像进行轮廓提取,获取至少一个控件区域;
对所述至少一个控件区域进行图像识别,以确定所述控件区域中控件图标。
11.根据权利要求10所述的方法,其中,所述将所述语音命令与所述控件图标相匹配,以确定与所述语音命令对应的控件包括:
将所述控件图标转换成与该控件功能对应的字符串,并将所述对应的字符串与所述语音命令相匹配;
或者,
将所述语音命令转换成与所述语音命令对应的图标,并将所述对应的图标与所述控件图标相匹配。
12.根据权利要求1-11任一所述的方法,在所述获取语音输入信息的步骤之前,所述方法还包括:
获取应用程序开启命令;
基于所述应用程序开启命令,启动所述控件所在的应用程序。
13.一种语音控制装置,包括:
语音识别和语义理解单元,被配置为获取语音输入信息,并对所述语音输入信息进行识别,以得到语音命令;
测试框架调用单元,被配置为基于所述语音命令,确定与所述语音命令对应的控件,其中,所述测试框架调用单元不在所述控件所在的应用程序中;
执行单元,被配置为执行所述控件对应的功能。
14.根据权利要求13所述的装置,还包括:
图像识别单元,被配置为对当前用户界面中所述控件所在应用程序中的图像进行识别,以确定所述图像中的控件图标;
所述测试框架调用单元进一步被配置为,将所述语音命令与所述控件图标相匹配,以确定与所述语音命令对应的控件。
15.根据权利要求14所述的装置,其中,所述语音识别和语义理解单元在第一模块中,所述测试框架调用单元以及图像识别单元分别在第二模块中,所述第一模块与所述第二模块之间通过进程间通信的方式进行通信。
16.一种语音控制装置,包括存储器和处理器,所述存储器中存储指令,所述处理器处理所述指令时执行权利要求1-12任一所述的方法。
17.一种计算机可执行非易失性存储介质,存储有计算机程序指令,处理器处理所述程序指令时执行权利要求1-12任一所述的方法。
CN201980000085.4A 2019-01-22 2019-01-22 语音控制方法、语音控制装置以及计算机可执行非易失性存储介质 Active CN111801731B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/072693 WO2020150899A1 (zh) 2019-01-22 2019-01-22 语音控制方法、语音控制装置以及计算机可执行非易失性存储介质

Publications (2)

Publication Number Publication Date
CN111801731A true CN111801731A (zh) 2020-10-20
CN111801731B CN111801731B (zh) 2024-02-13

Family

ID=71736471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980000085.4A Active CN111801731B (zh) 2019-01-22 2019-01-22 语音控制方法、语音控制装置以及计算机可执行非易失性存储介质

Country Status (3)

Country Link
US (1) US11482218B2 (zh)
CN (1) CN111801731B (zh)
WO (1) WO2020150899A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732379A (zh) * 2020-12-30 2021-04-30 智道网联科技(北京)有限公司 智能终端上应用程序的运行方法、终端和存储介质
CN113507500A (zh) * 2021-06-04 2021-10-15 上海闻泰信息技术有限公司 终端控制方法、装置、计算机设备和计算机可读存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151029A (zh) * 2020-09-04 2020-12-29 深圳创维-Rgb电子有限公司 语音唤醒与识别自动化测试方法、存储介质及测试终端
US11908382B1 (en) * 2022-11-30 2024-02-20 Mediatek Inc. Seamless switching control for foldable or flip devices

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278440A1 (en) * 2013-03-14 2014-09-18 Samsung Electronics Co., Ltd. Framework for voice controlling applications
CN104599669A (zh) * 2014-12-31 2015-05-06 乐视致新电子科技(天津)有限公司 一种语音控制方法和装置
CN106101789A (zh) * 2016-07-06 2016-11-09 深圳Tcl数字技术有限公司 终端的语音交互方法及装置
US20170133009A1 (en) * 2015-11-10 2017-05-11 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
US20180315428A1 (en) * 2017-04-27 2018-11-01 3Play Media, Inc. Efficient transcription systems and methods
CN108763068A (zh) * 2018-05-15 2018-11-06 福建天泉教育科技有限公司 一种基于机器学习的自动化测试方法及终端
CN109117358A (zh) * 2017-06-23 2019-01-01 百度在线网络技术(北京)有限公司 用于电子设备的测试方法和测试装置

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5890122A (en) * 1993-02-08 1999-03-30 Microsoft Corporation Voice-controlled computer simulateously displaying application menu and list of available commands
US6965863B1 (en) * 1998-11-12 2005-11-15 Microsoft Corporation Speech recognition user interface
WO2007055610A1 (en) * 2005-11-11 2007-05-18 Intel Corporation Iterative search with data accumulation in a cognitive control framework
US8171406B1 (en) * 2009-08-19 2012-05-01 Symantec Corporation Automating user interface navigation
US20110208822A1 (en) * 2010-02-22 2011-08-25 Yogesh Chunilal Rathod Method and system for customized, contextual, dynamic and unified communication, zero click advertisement and prospective customers search engine
KR20120080069A (ko) * 2011-01-06 2012-07-16 삼성전자주식회사 디스플레이 장치 및 그 음성 제어 방법
KR101809750B1 (ko) * 2011-06-22 2018-01-18 엘지전자 주식회사 스캔 이미지 편집 방법, 이의 표시기기
US9031847B2 (en) * 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
JP5987299B2 (ja) * 2011-11-16 2016-09-07 ソニー株式会社 表示制御装置、表示制御方法およびプログラム
EP2608504B1 (en) * 2011-12-19 2018-07-18 Orange Method for notification of events on a device running multiple user identities
CN103915095B (zh) * 2013-01-06 2017-05-31 华为技术有限公司 语音识别的方法、交互设备、服务器和***
US20150355829A1 (en) * 2013-01-11 2015-12-10 Koninklijke Philips N.V. Enabling a user to control coded light sources
US9292254B2 (en) * 2013-05-15 2016-03-22 Maluuba Inc. Interactive user interface for an intelligent assistant
US9946516B2 (en) * 2014-03-14 2018-04-17 Starbucks Corporation Application workflow framework
KR102390853B1 (ko) * 2015-03-26 2022-04-27 삼성전자주식회사 컨텐츠 제공 방법 및 이를 수행하는 전자 장치
CN106157955A (zh) 2015-03-30 2016-11-23 阿里巴巴集团控股有限公司 一种语音控制方法及装置
US10367834B2 (en) * 2015-05-12 2019-07-30 CloudPassage, Inc. Systems and methods for implementing intrusion prevention
US20170060264A1 (en) * 2015-08-24 2017-03-02 Apple Inc. Efficient handling of different remote controllerd using a single media application rule system device by a user electronic device
US10613707B2 (en) * 2015-12-10 2020-04-07 International Business Machines Corporation Auditing icons via image recognition to provide individualized assets to software project teams
CN106098061B (zh) 2016-06-01 2020-07-03 Tcl科技集团股份有限公司 一种基于安卓***的语音交互方法和装置
CN106504748A (zh) * 2016-10-08 2017-03-15 珠海格力电器股份有限公司 一种语音控制方法和装置
CN108279839A (zh) * 2017-01-05 2018-07-13 阿里巴巴集团控股有限公司 基于语音的交互方法、装置、电子设备及操作***
KR101894928B1 (ko) * 2017-02-14 2018-09-05 (주)스톤아이 방문 횟수를 이용한 보너스 정산 시스템의 보너스 금액 산출 장치 및 방법
US11237635B2 (en) * 2017-04-26 2022-02-01 Cognixion Nonverbal multi-input and feedback devices for user intended computer control and communication of text, graphics and audio
US10936288B2 (en) * 2017-05-26 2021-03-02 Sap Se Voice-enabled user interface framework
CN109089140A (zh) * 2017-06-14 2018-12-25 北京优朋普乐科技有限公司 一种语音控制方法及装置
US9959027B1 (en) * 2017-07-03 2018-05-01 Essential Products, Inc. Displaying an image on an irregular screen
JP6513749B2 (ja) * 2017-08-09 2019-05-15 レノボ・シンガポール・プライベート・リミテッド 音声アシストシステム、サーバ装置、その音声アシスト方法、及びコンピュータが実行するためのプログラム
US11113027B2 (en) * 2017-12-28 2021-09-07 Sharp Kabushiki Kaisha Apparatus, system, and method that support operation to switch to input terminal to be activated among input terminals included in display apparatus
KR102527082B1 (ko) * 2018-01-04 2023-04-28 삼성전자주식회사 디스플레이장치 및 그 제어방법
US10832678B2 (en) * 2018-06-08 2020-11-10 International Business Machines Corporation Filtering audio-based interference from voice commands using interference information
US11054370B2 (en) * 2018-08-07 2021-07-06 Britescan, Llc Scanning devices for ascertaining attributes of tangible objects
KR102563314B1 (ko) * 2018-08-30 2023-08-04 삼성전자주식회사 전자 장치 및 단축 명령어의 바로가기 생성 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278440A1 (en) * 2013-03-14 2014-09-18 Samsung Electronics Co., Ltd. Framework for voice controlling applications
CN104599669A (zh) * 2014-12-31 2015-05-06 乐视致新电子科技(天津)有限公司 一种语音控制方法和装置
US20170133009A1 (en) * 2015-11-10 2017-05-11 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
CN106101789A (zh) * 2016-07-06 2016-11-09 深圳Tcl数字技术有限公司 终端的语音交互方法及装置
WO2018006489A1 (zh) * 2016-07-06 2018-01-11 深圳Tcl数字技术有限公司 终端的语音交互方法及装置
US20180315428A1 (en) * 2017-04-27 2018-11-01 3Play Media, Inc. Efficient transcription systems and methods
CN109117358A (zh) * 2017-06-23 2019-01-01 百度在线网络技术(北京)有限公司 用于电子设备的测试方法和测试装置
CN108763068A (zh) * 2018-05-15 2018-11-06 福建天泉教育科技有限公司 一种基于机器学习的自动化测试方法及终端

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732379A (zh) * 2020-12-30 2021-04-30 智道网联科技(北京)有限公司 智能终端上应用程序的运行方法、终端和存储介质
CN112732379B (zh) * 2020-12-30 2023-12-15 智道网联科技(北京)有限公司 智能终端上应用程序的运行方法、终端和存储介质
CN113507500A (zh) * 2021-06-04 2021-10-15 上海闻泰信息技术有限公司 终端控制方法、装置、计算机设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN111801731B (zh) 2024-02-13
US11482218B2 (en) 2022-10-25
US20210151045A1 (en) 2021-05-20
WO2020150899A1 (zh) 2020-07-30

Similar Documents

Publication Publication Date Title
CN111801731B (zh) 语音控制方法、语音控制装置以及计算机可执行非易失性存储介质
CN107644642B (zh) 语义识别方法、装置、存储介质及电子设备
CN103456296A (zh) 提供语音识别功能的方法及其电子设备
US10678682B2 (en) Intelligent batch job testing
US11468881B2 (en) Method and system for semantic intelligent task learning and adaptive execution
CN109787957B (zh) 配置文件的配置方法及相关装置
CN110808031A (zh) 一种语音识别方法、装置和计算机设备
CN107894882B (zh) 一种移动终端的语音输入方法
CN111144132B (zh) 一种语义识别方法及装置
CN107291460B (zh) 电视终端及编译服务器代码控制方法和存储介质
CN111722893A (zh) 一种电子设备图形用户界面交互方法、装置和终端设备
CN105353957A (zh) 一种信息显示方法及终端
CN117216222A (zh) 一种智能问答方法、装置及相关设备
CN112784024A (zh) 一种人机对话的方法、装置、设备以及存储介质
CN105930332A (zh) 代码发布查询方法及终端
CN106197394A (zh) 导航方法及装置
CN110727436A (zh) 操作界面的脚本执行方法、装置、终端设备及存储介质
CN113849415A (zh) 控件测试方法、装置、存储介质及电子设备
CN114064010A (zh) 前端代码生成方法、装置、***及存储介质
CN113807698A (zh) 一种工单生成方法、装置、电子设备及可读存储介质
KR102034220B1 (ko) 인공지능 컴퓨팅 플랫폼 및 그 개인화 설정 방법
CN112486523A (zh) 容器镜像创建方法和装置、存储介质和电子设备
CN110989876A (zh) 一种应用程序适配方法、移动终端及存储介质
CN111324213A (zh) 终端的信息输入方法和终端
CN116974922B (zh) 深度学习模型的性能分析方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant