CN114049890A

CN114049890A - 语音控制方法、装置以及电子设备

Info

Publication number: CN114049890A
Application number: CN202111296079.3A
Authority: CN
Inventors: 曾理; 张晓帆
Original assignee: Hangzhou Douku Software Technology Co Ltd
Current assignee: Hangzhou Douku Software Technology Co Ltd
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-02-15
Also published as: WO2023077878A1

Abstract

本申请实施例公开了一种语音控制方法、装置以及电子设备，方法包括：获取第一拼音内容以及获取多个第二拼音内容，第一拼音内容为所获取的语音控制指令对应的拼音内容，多个第二拼音内容包括待选的描述信息的拼音内容，描述信息为用于描述对应操作的信息；第二拼音内容与所述第一拼音内容未成功匹配时获取第三拼音内容，第三拼音内容为与第一拼音内容相似的拼音内容；将第三拼音内容与多个第二拼音内容进行匹配，并将对应的第二拼音内容与第三拼音内容成功匹配的描述信息作为目标描述信息；执行目标描述信息对应控制操作。从而通过上述方式提升了用户触发的语音控制指令成功匹配到描述信息的概率，进而有利于提升准确执行语音控制的概率。

Description

语音控制方法、装置以及电子设备

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种语音控制方法、装置以及电子设备。

背景技术

结合人工智能技术以及虚拟个人助理(语音助手)，可以使得电子设备通过听觉模态接收用户发出的语音控制指令而实现对电子设备进行语音控制。但是，在相关语音控制过程中，还存在准确执行语音控制的概率有待提升的问题。

发明内容

鉴于上述问题，本申请提出了一种语音控制方法、装置以及电子设备，以实现改善上述问题。

第一方面，本申请提供了一种语音控制方法，所述方法包括：获取第一拼音内容以及获取多个第二拼音内容，所述第一拼音内容为所获取的语音控制指令对应的拼音内容，所述多个第二拼音内容包括待选的描述信息的拼音内容，所述描述信息为用于描述对应操作的信息；第二拼音内容与所述第一拼音内容未成功匹配时获取第三拼音内容，所述第三拼音内容为与所述第一拼音内容相似的拼音内容；将所述第三拼音内容与所述多个第二拼音内容进行匹配，并将对应的第二拼音内容与所述第三拼音内容成功匹配的描述信息作为目标描述信息；执行所述目标描述信息对应控制操作。

第二方面，本申请提供了一种语音控制装置，所述装置包括：第一拼音内容以及第二拼音内容获取单元，用于获取第一拼音内容以及获取多个第二拼音内容，所述第一拼音内容为所获取的语音控制指令对应的拼音内容，所述多个第二拼音内容包括待选的描述信息的拼音内容，所述描述信息为用于描述对应操作的信息；第三拼音内容获取单元，用于第二拼音内容与所述第一拼音内容未成功匹配时获取第三拼音内容，所述第三拼音内容为与所述第一拼音内容相似的拼音内容；拼音内容匹配单元，用于将所述第三拼音内容与所述多个第二拼音内容进行匹配，并将对应的第二拼音内容与所述第三拼音内容成功匹配的描述信息作为目标描述信息；控制操作执行单元，用于执行所述目标描述信息对应控制操作。

第三方面，本申请提供了一种电子设备，包括一个或多个处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第四方面，本申请提供的一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。

第五方面，本申请提供了本申请提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述方法的步骤。

本申请提供的一种语音控制方法、装置、电子设备、计算机程序产品以及存储介质，在获取语音控制指令对应的拼音内容作为第一拼音内容以及获取待选的描述信息的拼音内容作为多个第二拼音内容后，若确定没有第二拼音内容与所述第一拼音内容成功匹配，再获取与所述第一拼音内容相似的拼音内容作为第三拼音内容，然后将第三拼音内容与所述多个第二拼音内容进行匹配，并将对应的第二拼音内容与所述第三拼音内容成功匹配的描述信息作为目标描述信息，执行所述目标描述信息对应控制操作。

从而通过上述方式使得在获取得到由语音控制指令直接转换而来的音频内容后，在直接转换而来的音频内容与待选的描述信息的拼音内容无法成功匹配的情况下，可以再基于直接转换来的语音内容获取对应的相似的拼音内容与待选的描述信息的拼音内容进行匹配，从而使得提升了用户触发的语音控制指令成功匹配到描述信息的概率，进而有利于提升准确执行语音控制的概率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提出的一种语音控制方法的一种应用场景的示意图；

图2示出了本申请实施例提出的另一种语音控制方法的一种应用场景的示意图；

图3示出了本申请实施例提出的一种语音控制方法的流程图；

图4示出了本申请图3中S120的一种实施例方式的流程图；

图5示出了本申请另一实施例提出的一种语音控制方法的流程图；

图6示出了本申请图5中S230的一种实施例方式的流程图；

图7示出了本申请提出的一种获取每个音素对对应的第一替换拼音内容的示意图；

图8示出了本申请提出的一种获取每个指定音素对应的第二替换拼音内容的示意图；

图9示出了本申请再一实施例提出的一种语音控制方法的流程图；

图10示出了本申请图9中S340的一种实施例方式的流程图；

图11示出了本申请图9中S350的一种实施例方式的流程图；

图12示出了本申请提出的一种语音控制方法实现流程的示意图；

图13示出了本申请实施例提出的一种语音控制装置的结构框图；

图14示出了本申请提出的一种电子设备的结构框图；

图15是本申请实施例的用于保存或者携带实现根据本申请实施例的语音控制方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

结合人工智能技术以及虚拟个人助理(语音助手)，可以使得电子设备通过听觉模态接收用户发出的语音控制指令，再将用户语音控制指令通过自动语音识别(AutomaticSpeech Recognition，ASR)技术转换为文本信息，再进行后续理解和映射，进而实现对电子设备进行语音控制。

但是，发明人发现，在相关语音控制过程中，由于不同地域的用户口音、语言习惯、下达指令过程中的噪声干扰等各种因素的复杂影响，还存在准确执行语音控制的概率待提升的问题。例如，将用户语音控制指令识别为相似音字符串，如：“上划”识别为“韶华”、“上划”识别为“笑话”等。

因此，发明人提出了本申请中的一种语音控制方法、装置、电子设备以及计算机程序产品，该方法在获取语音控制指令对应的拼音内容作为第一拼音内容以及获取待选的描述信息的拼音内容作为多个第二拼音内容后，若确定没有第二拼音内容与所述第一拼音内容成功匹配，再获取与所述第一拼音内容相似的拼音内容作为第三拼音内容，然后将第三拼音内容与所述多个第二拼音内容进行匹配，并将对应的第二拼音内容与所述第三拼音内容成功匹配的描述信息作为目标描述信息，执行所述目标描述信息对应控制操作。

下面先对本申请实施例所涉及的应用场景进行介绍。

在本申请实施例中，所提供的语音控制方法可以由电子设备执行。在由电子设备执行的这种方式中，本申请实施例提供的语音控制方法中所有步骤可以均由电子设备执行。例如，如图1所示，通过电子设备100的语音采集装置可以采集语音控制指令，并将采集到的语音采集指令以及待选的描述信息均传输给处理器，使得处理器可以获取到第一拼音内容以及获取多个第二拼音内容，进而处理器再利用获取到的第一拼音内容、获取多个第二拼音内容以及与第一拼音内容相似的拼音内容(第三拼音内容)执行本申请提供的语音控制方法涉及的步骤。

再者，本申请实施例提供的语音控制方法也可以由服务器进行执行。对应的，在由服务器执行的这种方式中，可以由电子设备采集语音控制指令，并将采集的语音控制指令同步发送给服务器，然后由服务器来执行本申请实施例提供的语音控制方法中以确定目标描述信息，然后由服务器根据目标描述信息生成操作指令。另外，还可以由电子设备和服务器协同执行。在由电子设备和服务器协同执行的这种方式中，本申请实施例提供的语音控制方法中的部分步骤由电子设备执行，而另外部分的步骤则由服务器来执行。

示例性的，如图2所示，电子设备100可以执行语音控制方法包括的：获取第一拼音内容以及获取多个第二拼音内容，然后由服务器200来执行后续的步骤。需要说明的是，在由电子设备和服务器协同执行的这种方式中，电子设备和服务器分别执行的步骤不限于上述示例中所介绍的方式，在实际应用中，可以根据实际情况动态的调整电子设备和服务器分别执行的步骤。

下面将结合附图来介绍本申请所涉及的实施例。

请参阅图3，本申请提供的一种语音控制方法，所述方法包括：

S110：获取第一拼音内容以及获取多个第二拼音内容，所述第一拼音内容为所获取的语音控制指令对应的拼音内容，所述多个第二拼音内容包括待选的描述信息的拼音内容，所述描述信息为用于描述对应操作的信息。

在本申请实施例中，用户可以通过语音来表达自己的控制意图。对应的，电子设备可以将用户所发出的语音作为语音控制指令。可选的，此处指令是指用户对所见交互界面或交互界面上的元素进行操控的指令，语音控制指令可以包括：左划、打开今日头条、哔哩哔哩、播放XXX、第二排第三个、返回、上划、安装抖音、下一首、桌面等等。

作为一种方式，可以通过自动语音识别(Automatic Speech Recognition，ASR)技术和自然语言理解(Natural Language Processing，NLP)技术获取第一拼音内容。

可选的，电子设备在获取到语音控制指令后，可以将用户的语音控制指令传送给ASR模块以得到语音控制指令对应的指令文本，再将指令文本所对应的拼音内容作为第一拼音内容。可选的，在得到指令文本后，还可以通过NLP模块抽取指令文本中的用户意图、控制对象和对象附属信息，整合为形式为{action,object,information}的三元组，其中，action表征用户意图，object表征控制对象，information表征对象附属信息。

在三元组中，用户意图是指用户希望进行的操作，如：点击、滑动、长按等。附属信息是指可能伴随控制对象的信息，如：进行输入时，文本框为控制对象，待填入的文字为附属信息。需要说明的是，控制对象和附属信息不一定是必须的。在将指令文本转换为三元组的这种方式中，在获取到语音控制指令所对应的三元组后，可以将三元组中的控制对象所对应的拼音作为第一拼音内容，若三元组的控制对象为空，则可以将用户意图所对应的内容作为第一拼音内容。示例性的，用户的语音控制指令可以为“打开今日头条”，通过ASR模块和NLP模块可以得到的三元组为：{点击，今日头条，Φ}，其中，用户意图为：“点击”，控制对象为“今日头条”，对象附属信息为空，则第一拼音内容为“jin ri tou tiao”。再例如：用户指令可以为“上划”，通过ASR模块和NLP模块可以得到的三元组为：{上划，Φ，Φ}，其中，用户意图为“上划”，控制对象为空，对象附属信息也为空，则第一拼音内容为“shang hua”。

再者，在本申请实施例中，待选描述信息可以为在获取到语音控制指令时，电子设备可以进行的操作的描述信息的集合。其中，电子设备可以进行的操作可以为对电子设备整体所进行的操作，例如，关机、切换运行模式或者拍照等。再者，电子设备可以进行的操作可以包括针对目标界面所进行的操作。该目标界面可以为电子设备当前所显示的界面。再者，针对目标界面所进行的操作的这种方式中，待选描述信息可以包括的目标界面中的多个控件各自的描述信息，例如：“烽火抗大”、“奥运集锦”、“孤独的美食家第八季”等。待选描述信息还可以有所有界面整体操作指令对应的描述信息，例如：左划、右划、上划、下划、返回、桌面、双击、长按等。

作为一种方式，可以通过获取所有待选描述信息对应的拼音内容来作为第二拼音内容的获取。可选的，可以获取目标界面所包括的多个控件各自的描述信息作为待选描述信息，再将所述待选描述信息转换为对应的拼音内容，以得到多个第二拼音内容。可选的，还可以获取所有界面整体操作指令对应的描述信息作为待选描述信息，再将该待选描述信息转换为对应的拼音内容，以得到多个第二拼音内容。再者，多个第二拼音内容也可以包括界面整体操作指令对应的描述信息对应的拼音内容以及目标界面所包括的多个控件各自的描述信息对应的拼音内容。

其中，在本申请实施例中，可以通过***程序获取目标界面所包括的多个控件各自的描述信息，在这种方式中，电子设备可以利用***程序解析目标界面所对应的代码，可以获得每一个控件的类型、位置、大小等信息作为控件的描述信息。

需要说明的是，可以有多种方式得到文本所对应的拼音，例如：Python库中的pypinyin、xpinyin，Java库中的pinyin4J等，可以根据实际开发环境选择使用何种方式实现文本转拼音的操作。

S120：第二拼音内容与所述第一拼音内容未成功匹配时获取第三拼音内容，所述第三拼音内容为与所述第一拼音内容相似的拼音内容。

在获取得到第一拼音内容和第二拼音内容后，可以检测多个第二拼音内容中是否有与第一拼音内容成功匹配的第二拼音内容。可选的，若有第二拼音内容与第一拼音内容完全相同则确定该第二拼音内容与该第一拼音内容成功匹配。示例性的，若第一拼音内容为“shao hua”，当前与“shao hua”进行匹配的第二拼音内容为“shang hua”，那么因为第一拼音内容中的“ao”和第二拼音内容中的“ang”不同，则确定第一拼音内容“shao hua”和第二拼音内容“shang hua”不匹配。

在本申请实施例中，如图4所示，作为一种方式，获取第三拼音内容，包括：

S121：获取所述第一拼音内容中的指定音素对应的相似音素。

其中，作为一种方式，可以通过查询第一拼音内容所包括的音素在音素扩展表中是否有对应的音素对应关系，每一个所述音素对应关系表征一对相似的音素；将确定有所述音素对应关系的音素作为指定音素，并基于所述音素对应关系确定指定音素对应的相似音素。

其中，音素(phone)是根据语音的自然属性划分出来的最小语音单位，一个发音动作形成一个音素。在汉语中，可以将音素分为声母和韵母。在汉语拼音记法规则中，在韵母i和以i开头的复韵母(如：i、ia、ie、iao、iou、ian、in、iang、iong等)的前面加y时，可以记为yi、ya、ye、yao、you、yan、yin、yang、yong等；在韵母ü所对应的声母为j、q、x或没有声母时，可以省略ü上面两点记为u，如：yu、yue、yuan、yun、ju、qu、xu；而当韵母ü所对应的声母为n、l时，则可以写成nü、lü，因此，在一些情况下，可用u替代ü。

并且，由于不同地域的用户口音、语言习惯等的影响，用户可能会将一些相似音素混淆，从而导致用户语音控制指令识别不准确的情况。因此，可以结合汉语拼音记法规则和汉语发音常见错误，形成如表1所示的一种音素扩展表。

表1

示例性的，当用户语音控制指令“上划”被识别为谐音词“韶华”并将“shao hua”作为第一拼音内容时，因为该第一拼音内容所包括的音素为：sh、ao、h、ua，所以根据音素扩展表可以得到以下音素对应关系：[sh，s]、[sh，c]、[sh，xi]、[sh，zh]、[ao，ou]、[ao，iao]、[ao，ang]、[h，f]，则可以将sh、ao、h作为指定音素，并基于上述音素对应关系确定指定音素对应的相似音素为：s、c、xi、zh、ou、iao、ang、f。

S122：用所述相似音素替换第一拼音内容中的所述指定音素，得到第三拼音内容。

作为另外一种方式，还可以从整体上获取与第一拼音内容相似的拼音内容作为第三拼音内容。在这种方式中，可以直接预先获取多个词语所对应拼音内容的特征作为参考特征，在得到第一拼音内容后，可以通过同样的方式获取得到第一拼音内容的特征，然后将第一拼音内容的特征与预先获取的参考特征分别进行比对，将对比成功的参考特征所对应的拼音内容作为第三拼音内容。其中，比对成功的参考特征与第一拼音内容的特征相同。在这种方式中，相关的获取数据特征的方式均可以适用于获取拼音内容的特征，对于具体获取拼音内容的特征的方式在本申请实施例中不做具体限定。例如，可以通过文本向量的方式来获取拼音内容的特征。

S130：将所述第三拼音内容与所述多个第二拼音内容进行匹配，并将对应的第二拼音内容与所述第三拼音内容成功匹配的描述信息作为目标描述信息。

示例性的，第三拼音内容可以为：{“sao hua”，“cao hua”，“xiao hua”，“zhaohua”，“shou hua”，“shiao hua”，“shang hua”，“shao fua”}，第二拼音内容可以为：{“fenghuo kang da(烽火抗大)”，“ao yun ji jin(奥运集锦)”，“gu du de mei shi jia di baji(孤独的美食家第八季)”，...，“zuo hua”,“you hua”,“shang hua”，“xia hua”，“fanhui”，“zhuo mian”，“shuang ji”，“chang an”}，则将上述第三拼音内容与第二拼音内容进行匹配，可以得到目标描述信息“shang hua”。

S140：执行所述目标描述信息对应控制操作。

其中，作为一种方式，目标描述信息可以为目标界面中控件所对应描述信息，可以结合目标描述信息对应控件所属的三元组中的用户意图和对象附属信息，以事件注入或模拟点击的方式在电子设备执行与目标描述信息对应控制操作。例如：若目标描述信息为“sou suo kuang”，则可以结合三元组{查找，搜索框，快乐的大脚}中的用户意图和对象附属信息，通过注入事件：在搜索框中输入快乐的大脚，可以在电子设备执行与目标描述信息“sou suo kuang”对应控制操作。再例如：若目标描述信息为“ao yun ji jin”，则可以结合三元组{点击，奥运集锦，Φ}中的用户意图，通过点击奥运集锦控件的方式在电子设备执行与目标描述信息“ao yun ji jin”对应控制操作。

作为另一种方式，目标描述信息可以为界面整体操作指令对应的描述信息。例如：若目标描述信息为“shang hua”，则可以直接在电子设备执行上划的操作。

本实施例提供的一种语音控制方法，该方法在获取语音控制指令对应的拼音内容作为第一拼音内容以及获取待选的描述信息的拼音内容作为多个第二拼音内容后，若确定没有第二拼音内容与所述第一拼音内容成功匹配，再获取与所述第一拼音内容相似的拼音内容作为第三拼音内容，然后将第三拼音内容与所述多个第二拼音内容进行匹配，并将对应的第二拼音内容与所述第三拼音内容成功匹配的描述信息作为目标描述信息，执行所述目标描述信息对应控制操作。

从而通过上述方式使得在获取得到由语音控制指令直接转换而来的音频内容后，在直接转换而来的音频内容与待选的描述信息的拼音内容无法成功匹配的情况下，可以再基于直接转换来的语音内容获取对应的相似的拼音内容与待选的描述信息的拼音内容进行匹配，从而使得提升了用户触发的语音控制指令成功匹配到描述信息的概率，进而有利于提升准确执行语音控制的概率。并且，在本实施例中，结合语言学、声学中音素的概念，根据汉语普通话中常见错误，建立声母、韵母混淆扩展表，将无法精确匹配的拼音进行模糊扩展，再进行匹配，从而还解决语音识别过程中出现谐音字错误的问题，还可以有效解决用户发音不标准导致的语音识别错误。

请参阅图5，本申请提供的一种语音控制方法，所述方法包括：

S210：获取第一拼音内容以及获取多个第二拼音内容，所述第一拼音内容为所获取的语音控制指令对应的拼音内容，所述多个第二拼音内容包括待选的描述信息的拼音内容，所述描述信息为用于描述对应操作的信息。

S220：获取所述第一拼音内容中的指定音素对应的相似音素。

S230：第二拼音内容与所述第一拼音内容未成功匹配时，用所述相似音素替换第一拼音内容中的所述指定音素，得到第三拼音内容。

其中，在本申请实施例中，所述指定音素可以有多个.作为一种方式，可以分别用多个所述相似音素对所述第一拼音内容中的指定音素进行替换，得到多个所述相似音素各自对应的进行音素替换后的第一拼音内容，以作为第三拼音内容。

示例性的，第一拼音内容可以为“shao hua”，则由表1可知，第一拼音内容“shaohua”的指定音素可以为sh、ao、h，其中，sh所对应的相似音素为s、c、xi、zh，ao所对应的相似音素为ou、iao、ang，h所对应的相似音素为f。分别用多个所述相似音素对所述第一拼音内容中的指定音素进行替换，可以得到的第三拼音内容为{“sao hua”，“cao hua”，“xiaohua”，“zhao hua”，“shou hua”，“shiao hua”，“shang hua”，“shao fua”}。

作为另一种方式，如图6所示，用所述相似音素替换第一拼音内容中的所述指定音素，得到第三拼音内容，包括：

S231：将至少两个指定音素各自对应的相似音素相互进行组合，得到多个音素对，其中，每个音素对包括有所述至少两个指定音素各自对应的一个相似音素。

其中，在本申请实施例中，可以按照图7所示的组合方式对至少两个指定音素各自对应的相似音素相互进行组合。请参阅图5，指定音素A对应有相似音素O、P、Q，指定音素B对应有相似音素R、S、T，第一拼音内容为ABC，则可以将指定音素A的每一个相似音素与指定音素B的所有相似音素进行逐一组合，得到以下音素对：OR、OS、OT、PR、PS、PT、QR、QS、QT。示例性的，第一拼音内容可以为“shao hua”，可以选择将第一拼音内容“shao hua”对应指定音素中的sh、ao各自对应的相似音素以图5中的组合方式相互进行组合，得到以下音素对：sou、siao、sang、cou、ciao、cang、xiou、...、zhang。

S232：分别基于所述多个音素对第一拼音内容中所对应的指定音素进行替换，得到每个音素对对应的第一替换拼音内容。

其中，在本申请实施例中，如图7所示，在得到多个音素对(OR、OS、OT、PR、PS、PT、QR、QS、QT)后，通过分别基于上述多个音素对第一拼音内容ABC中所对应的指定音素进行替换，可以得到的第一替换拼音内容为：ORC、OSC、OTC、PRC、PSC、PTC、QRC、QSC、QTC。示例性的，若音素对为sou，则对应的第一替换拼音内容为“sou hua”，若音素对为cang，则对应的第一替换拼音内容为“cang hua”。

S233：用多个指定音素各自对应的相似音素对所述第一拼音内容中所对应的指定音素进行替换，得到每个指定音素对应的第二替换拼音内容。

其中，在本申请实施例中，可以按照图8所示的方式对第一拼音内容中的指定音素进行替换，得到每个指定音素对应的第二替换拼音内容。请参阅图8，指定音素A对应有相似音素O、P、Q，指定音素B对应有相似音素R、S、T，第一拼音内容为ABC，则可以用相似音素O、P、Q逐一对指定音素A进行替换，得到指定音素A对应的第二替换拼音内容OBC、PBC、QBC，再用相似音素R、S、T对指定音素B进行替换得到指定音素B对应的第二替换拼音内容ARC、ASC、ATC。示例性的，由表1可知，第一拼音内容可以为“shao hua”的指定音素为sh、ao、h，则sh对应的第二替换拼音内容为{“sao hua”，“cao hua”，“xiao hua”，“zhao hua”}，ao对应的第二替换拼音内容为{“shou hua”，“shiao hua”，“shang hua”，h对应的第二替换拼音内容为{“shao fua”}。

S234：将所述第一替换拼音内容和所述第二替换拼音内容作为第三拼音内容。

与第一种得到第三拼音内容的方式相比，通过将第一替换拼音内容和第二替换拼音内容都作为第三拼音内容，可以进一步对第一拼音内容进行相似性扩充，使得与第二拼音内容进行匹配的范围进一步扩大，从而提高了匹配成功的概率。

S240：将所述第三拼音内容与所述多个第二拼音内容进行匹配，并将对应的第二拼音内容与所述第三拼音内容成功匹配的描述信息作为目标描述信息。

S250：执行所述目标描述信息对应控制操作。

本实施例提供的一种语音控制方法，通过上述方式使得在获取得到由语音控制指令直接转换而来的音频内容后，在直接转换而来的音频内容与待选的描述信息的拼音内容无法成功匹配的情况下，可以再基于直接转换来的语音内容获取对应的相似的拼音内容与待选的描述信息的拼音内容进行匹配，从而使得提升了用户触发的语音控制指令成功匹配到描述信息的概率，进而有利于提升准确执行语音控制的概率。并且，在本实施例中，可以通过查询音素扩展表得到指定音素的相似音素，并通过多种方式利用相似音素对多个指定音素进行替换得到第三拼音内容，由于第三拼音内容是在第一拼音内容的基础上进行的相似扩充，使得匹配范围增大，提高了匹配成功的概率，进而提高了准确执行语音控制的概率。

请参阅图9，本申请提供的一种语音控制方法，应用于电子设备，所述方法包括：

S310：获取第一拼音内容以及获取多个第二拼音内容，所述第一拼音内容为所获取的语音控制指令对应的拼音内容，所述多个第二拼音内容包括待选的描述信息的拼音内容，所述描述信息为用于描述对应操作的信息。

S320：第二拼音内容与所述第一拼音内容未成功匹配时获取第三拼音内容，所述第三拼音内容为与所述第一拼音内容相似的拼音内容。

S330：将所述第三拼音内容与所述多个第二拼音内容进行匹配，第二拼音内容与所述第三拼音内容成功匹配时将对应的第二拼音内容与所述第三拼音内容成功匹配的描述信息作为目标描述信息。

S340：第二拼音内容与所述第三拼音内容未成功匹配时，获取多个第二拼音内容分别与所述第一拼音内容的相似度，以得到每个第二拼音内容对应的相似度。

其中，如图10所示，获取多个第二拼音内容分别与所述第一拼音内容的相似度，以得到每个第二拼音内容对应的相似度，可以包括：

S341：基于最长公共子序列的方式获取多个第二拼音内容分别与所述第一拼音内容的第一参考相似度，以得到每个第二拼音内容对应的第一参考相似度。

其中，在本申请实施例中，可以通过最长公共子序列(Longest CommonSubsequence,LCS)衡量多个第二拼音内容分别与第一拼音内容的第一参考相似度，LCS的计算公式可以为：

其中，A_i可以表示由字符串A的前i个字符组成的字符串，i的取值范围为0～字符串A最大长度，同理，B_j可以表示由字符串B的前j个字符组成的字符串，j的取值范围为0～字符串B最大长度，a_i、b_j可以分别表示A、B中的第i、j个字符。示例性的，可以用字符串A表示第一拼音内容，字符串B表示一个第二拼音内容，第一拼音内容的长度为10，第二拼音内容的长度为9，则i的取值范围为0～10，j的取值范围为0～9，若a₁₀＝b₉，则LCS(A₁₀,B₉)＝LCS(A₉,B₈)+a₁₀，否则LCS(A₁₀,B₉)＝max{LCS(A₁₀,B₈)，LCS(A₉,B₉)}。

LCS相似度可以定义为：

其中，|A|、|B|可以分别表示字符串A、B的长度，即A、B中所有字符的个数。示例性的，字符串A可以为”APPLE13”，则|A|＝7。

S342：基于编辑距离的方式获取多个第二拼音内容分别与所述第一拼音内容的第二参考相似度，以得到每个第二拼音内容对应的第二参考相似度。

其中，在本申请实施例中，可以通过编辑距离(Levenshtein Distance，LEV)衡量多个第二拼音内容分别与第一拼音内容之间的差异程度，由于相似度与差异程度反相关，可以通过下述公式衡量多个第二拼音内容分别与第一拼音内容的第二参考相似度。

其中，LEV的计算公式可以为：

其中，A_i可以表示由字符串A的前i个字符组成的字符串，i的取值范围为0～字符串A最大长度，同理，B_j可以表示由字符串B的前j个字符组成的字符串，j的取值范围为0～字符串B最大长度。示例性的，可以用字符串A表示第一拼音内容，字符串B表示一个第二拼音内容，第一拼音内容的长度为10，第二拼音内容的长度为9，则i的取值范围为0～10，j的取值范围为0～9，若a₁₀＝b₉，则LEV(A₁₀,B₉)＝min{LEV(A₉,B₁₀)+1，LEV(A₁₀,B₉)+1，LEV(A₉,B₈)}，否则LEV(A₁₀,B₉)＝min{LEV(A₉,B₁₀)+1，LEV(A₁₀,B₉)+1，LEV(A₉,B₈)+1}。

S343：将每个第二拼音内容对应的第一参考相似度和第二参考相似度相加，得到每个第二拼音内容对应的相似度。

其中，作为一种方式，可以直接将第一参考相似度和第二参考相似度相加得到每个第二拼音内容对应的相似度，其计算公式如下：

S(A,B)＝S_LCS(A,B)+S_LEV(A,B)

作为另一种方式，可以分别赋予第一参考相似度和第二参考相似度各自对应的权重，对第一参考相似度和第二参考相似度加权后再相加得到每个第二拼音内容对应的相似度，其计算公式如下：

S(A,B)＝X×S_LCS(A,B)+Y×S_LEV(A,B)

其中，X+Y＝1。

S350：将对应的相似度最大的第二拼音内容对应的描述信息作为目标描述信息。

其中，如图11所示，将对应的相似度最大的第二拼音内容对应的描述信息作为目标描述信息，包括：

S351：若对应的相似度最大的第二拼音内容有一个，则将对应的相似度最大的第二拼音内容对应的描述信息作为目标描述信息。

S352：若对应的相似度最大的第二拼音内容有多个，获取所述语音控制指令对应的文本内容的文本向量作为第一文本向量。

其中，在本申请实施例中，用户的语音控制指令中可能会出现一些缩略语或者简称，这可能会导致通过最长公共子序列和编辑距离的方式得到多个最相似的结果。例如：用户语音控制指令为“复联”，第二拼音内容集合中包括{“复仇者联盟4”，“复印几张对联”}，“复联”与两个待匹配对象的最长公共子序列都为“复联”，编辑距离都为4，因此计算出的相似度相同，无法确定出唯一结果。再例如：用户语音控制指令为“B站”，而第二拼音内容集合中包括{哔哩哔哩、Q音乐、A云音乐、B音乐}，无法得到匹配结果。在这种情况下，可以基于语义相似度来衡量多个第二拼音内容分别与第一拼音内容的相似度，从而得出一个最相似的第二拼音内容。

其中，作为一种方式，可以通过预训练模型BERT获得文本向量。BERT是一个深度神经网络，可以将需处理的文本输入BERT的编码器部分，得到对应的文本向量。

其中，在本申请实施例中，第一文本向量所对应的文本输入可以为通过ASR模块获取到的语音控制指令对应的文本内容，也可以为通过ASR模块和NLP模块获取到的语音控制指令对应的三元组的文本内容，还可以为第三拼音所对应的文本内容。

S353：获取多个相似度最大的第二拼音内容各自对应的描述信息对应的文本向量，以得到多个第二文本向量。

其中，在本申请实施例中，第二文本向量所对应的文本输入可以为通过***程序获取到的目标界面中多个控件各自的文本描述信息，也可以为界面整体操作指令的文本描述信息，例如：左划、右划、上划、下划、返回、桌面、双击、长按等。

需要说明的是，文本向量所对应的文本输入可以为汉字字符串，也可以为拼音字符串。

再者，需要说明的是，本申请实施例还可以通过Doc2Vec(文档转向量)等工具，或者RoBERTA、UniLM、ELECTRA、XLNet等开源预训练模型来获取文本向量。

S354：分别计算得到多个第二文本向量与所述第一文本向量的向量距离。

其中，作为一种方式，通过余弦相似度计算每个第二文本向量与第一文本向量的向量距离，其计算公式如下：

S355：将对应的向量距离最小的一个第二文本向量对应的描述信息作为目标描述信息。

其中，作为一种方式，在得到多个第二文本向量与第一文本向量的向量距离后，可以对多个向量距离的大小进行排序，将向量距离最小的一个第二文本向量对应的描述信息作为目标描述信息。

需要说明的是，由于文本向量在高维空间中连续分布，出现两个相似度数值上完全相同的文本向量的概率微乎不计，因此，可确定唯一的第二文本向量对应的描述信息作为目标描述信息。

通过上述方式使得，当因用户的语音控制指令中存在缩略语或者简称而得不到唯一匹配结果时，可以计算多个第二文本向量与所述第一文本向量的向量距离，得到唯一匹配结果所对应的目标描述信息，以便执行目标描述信息对应控制操作，进一步地提高了语义识别的成功率。

S360：执行所述目标描述信息对应控制操作。

需要说明的是，在本申请实施例中，在执行S450的过程中若确定对应的相似度最大的第二拼音内容有多个的情况下，也可以获取第一拼音内容对应的文本向量作为第一文本向量。再者，也可以获取第三拼音内容对应的文本向量作为第一文本向量。而在获取第三拼音内容对应的文本向量作为第一文本向量的这种方式中，所获取到的第一文本向量可能会有多个，则计算多个第一文本向量各自与多个第二文本向量中每个第二文本向量之间的向量距离，进而将对应的向量距离最短的一个第二文本向量对应的描述信息作为目标描述信息。例如，若基于第三拼音内容来获取得到的多个第一文本向量包括第一文本向量L1、第一文本向量L2以及第一文本向量L3，多个第二文本向量包括第二文本向量L4以及第二文本向量L5。在计算向量距离的过程中，会计算第一文本向量L1分别与第二文本向量L4以及第二文本向量L5之间的距离，计算第一文本向量L2分别与第二文本向量L4以及第二文本向量L5之间的距离，以及第一文本向量L3分别与第二文本向量L4以及第二文本向量L5之间的距离。

本实施例提供的一种语音控制方法，通过上述方式使得在获取得到由语音控制指令直接转换而来的音频内容后，在直接转换而来的音频内容与待选的描述信息的拼音内容无法成功匹配的情况下，可以再基于直接转换来的语音内容获取对应的相似的拼音内容与待选的描述信息的拼音内容进行匹配，从而使得提升了用户触发的语音控制指令成功匹配到描述信息的概率，进而有利于提升准确执行语音控制的概率。并且，在本实施例中，在没有第二拼音内容与所述第三拼音内容成功匹配的情况下，可以通过获取多个第二拼音内容分别与所述第一拼音内容的相似度，以得到每个第二拼音内容对应的相似度，将对应的相似度最大的第二拼音内容对应的描述信息作为目标描述信息，从而实现了解决用户对界面控件的描述出现删、改而难以匹配的问题，以及解决用户通过缩略语、别称的方式指代控件导致的难以匹配问题，进而使得可以执行目标描述信息对应控制操作，提高了准确执行语音控制的概率。

再者，本专利方案采用语义相似度的方式进行语音控制指令与描述信息进行匹配，通过大规模预训练模型对需要匹配的指令文本(语音控制指令所转换得到的文本)进行向量化，用向量的相似度来完成匹配，可以解决语音控制指令与描述信息的差异较大，但含义相同的问题。

为了更好地理解本申请的所有实施例的方案，下面对本申请语音控制方法的一种实现流程进行介绍。

请参阅图12，在执行步骤S4010获取第一拼音内容以及获取多个第二拼音内容后，可以将第一拼音内容与多个第二拼音内容进行匹配，第二拼音内容与所述第一拼音内容成功匹配时，则可以将对应的第二拼音内容与第一拼音内容成功匹配的描述信息作为目标描述信息，执行目标描述信息对应控制操作；第二拼音内容与所述第一拼音内容未成功匹配时，则可以执行获取第三拼音内容的操作。其中，可以根据表1查询第一拼音内容所包括的音素在音素扩展表中是否有对应的音素对应关系，将确定有音素对应关系的音素作为指定音素，并基于音素对应关系确定指定音素对应的相似音素，再用相似音素替换第一拼音内容中的指定音素，得到第三拼音内容。

在执行步骤S4050获取第三拼音内容后，可以将第三拼音内容与多个第二拼音内容进行匹配，若有第二拼音内容与第三拼音内容成功匹配，则将对应的第二拼音内容与第三拼音内容成功匹配的描述信息作为目标描述信息；第二拼音内容与所述第三拼音内容未成功匹配时，则可以执行步骤S4090获取多个第二拼音内容分别与所述第一拼音内容的相似度，以得到每个第二拼音内容对应的相似度，再将对应的相似度最大的第二拼音内容对应的描述信息作为目标描述信息，执行目标描述信息对应控制操作。

其中，可以基于最长公共子序列和编辑距离的方式获取多个第二拼音内容分别与第一拼音内容的参考相似度，以得到每个第二拼音内容对应的参考相似度，若对应的相似度最大的第二拼音内容有一个，则将对应的相似度最大的第二拼音内容对应的描述信息作为目标描述信息，执行目标描述信息对应控制操作；若对应的相似度最大的第二拼音内容有多个，则可以获取语音控制指令对应的文本内容的文本向量作为第一文本向量和多个相似度最大的第二拼音内容各自对应的描述信息对应的文本向量以得到多个第二文本向量，再分别计算得到多个第二文本向量与第一文本向量的向量距离，以将对应的向量距离最小的一个第二文本向量对应的描述信息作为目标描述信息，执行目标描述信息对应控制操作。

请参阅图13，本申请提供的一种语音控制装置600，所述装置600包括：

第一拼音内容以及第二拼音内容获取单元610，用于获取第一拼音内容以及获取多个第二拼音内容，所述第一拼音内容为所获取的语音控制指令对应的拼音内容，所述多个第二拼音内容包括待选的描述信息的拼音内容，所述描述信息为用于描述对应操作的信息。

第三拼音内容获取单元620，第二拼音内容与所述第一拼音内容未成功匹配时，用于获取第三拼音内容，所述第三拼音内容为与所述第一拼音内容相似的拼音内容。

拼音内容匹配单元630，用于将所述第三拼音内容与所述多个第二拼音内容进行匹配，并将对应的第二拼音内容与所述第三拼音内容成功匹配的描述信息作为目标描述信息。

控制操作执行单元640，用于执行所述目标描述信息对应控制操作。

作为一种方式，第一拼音内容以及第二拼音内容获取单元610，具体用于获取目标界面所包括的多个控件各自的描述信息作为待选描述信息；将所述待选描述信息转换为对应的拼音内容，以得到多个第二拼音内容。

作为一种方式，第三拼音内容获取单元620，具体用于获取所述第一拼音内容中的指定音素对应的相似音素；用所述相似音素替换第一拼音内容中的所述指定音素，得到第三拼音内容。其中，所述相似音素有多个，可选的，第三拼音内容获取单元620，具体用于分别用多个所述相似音素对所述第一拼音内容中的指定音素进行替换，得到多个所述相似音素各自对应的进行音素替换后的第一拼音内容，以作为第三拼音内容。可选的，第三拼音内容获取单元620，具体用于将至少两个指定音素各自对应的相似音素相互进行组合，得到多个音素对，其中，每个音素对包括有所述至少两个指定音素各自对应的一个相似音素；分别基于所述多个音素对第一拼音内容中所对应的指定音素进行替换，得到每个音素对对应的第一替换拼音内容；用多个指定音素各自对应的相似音素对所述第一拼音内容中所对应的指定音素进行替换，得到每个指定音素对应的第二替换拼音内容；将所述第一替换拼音内容和所述第二替换拼音内容作为第三拼音内容。

作为另一种方式，第三拼音内容获取单元620，具体用于查询第一拼音内容所包括的音素在音素扩展表中是否有对应的音素对应关系，每一个所述音素对应关系表征一对相似的音素；将确定有所述音素对应关系的音素作为指定音素，并基于所述音素对应关系确定指定音素对应的相似音素。

作为一种方式，拼音内容匹配单元630，具体用于将第一拼音内容与多个第二拼音内容进行匹配；第二拼音内容与所述第一拼音内容未成功匹配时，执行所述获取第三拼音内容。可选的，拼音内容匹配单元630，具体用于第二拼音内容与所述第一拼音内容成功匹配时，将对应的第二拼音内容与所述第一拼音内容成功匹配的描述信息作为目标描述信息；执行所述目标描述信息对应控制操作。

作为另一种方式，拼音内容匹配单元630，具体用于将所述第三拼音内容与所述多个第二拼音内容进行匹配，第二拼音内容与所述第三拼音内容成功匹配时将对应的第二拼音内容与所述第三拼音内容成功匹配的描述信息作为目标描述信息；第二拼音内容与所述第三拼音内容未成功匹配时，获取多个第二拼音内容分别与所述第一拼音内容的相似度，以得到每个第二拼音内容对应的相似度；将对应的相似度最大的第二拼音内容对应的描述信息作为目标描述信息。可选的，拼音内容匹配单元630，具体用于基于最长公共子序列的方式获取多个第二拼音内容分别与所述第一拼音内容的第一参考相似度，以得到每个第二拼音内容对应的第一参考相似度；基于编辑距离的方式获取多个第二拼音内容分别与所述第一拼音内容的第二参考相似度，以得到每个第二拼音内容对应的第二参考相似度；将每个第二拼音内容对应的第一参考相似度和第二参考相似度相加得到，每个第二拼音内容对应的相似度。可选的，拼音内容匹配单元630，具体用于若对应的相似度最大的第二拼音内容有一个，则将对应的相似度最大的第二拼音内容对应的描述信息作为目标描述信息；若对应的相似度最大的第二拼音内容有多个，获取所述语音控制指令对应的文本内容的文本向量作为第一文本向量；获取多个相似度最大的第二拼音内容各自对应的描述信息对应的文本向量，以得到多个第二文本向量；分别计算得到多个第二文本向量与所述第一文本向量的向量距离；将对应的向量距离最小的一个第二文本向量对应的描述信息作为目标描述信息。

下面将结合图14对本申请提供的一种电子设备进行说明。

请参阅图14，基于上述的语音控制方法、装置，本申请实施例还提供的一种可以执行前述语音控制方法的电子设备1000。电子设备1000包括相互耦合的一个或多个(图中仅示出一个)处理器102、存储器104、摄像头106以及音频采集装置108。其中，该存储器104中存储有可以执行前述实施例中内容的程序，而处理器102可以执行该存储器104中存储的程序。

其中，处理器102可以包括一个或者多个处理核。处理器102利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器104内的指令、程序、代码集或指令集，以及调用存储在存储器104内的数据，执行电子设备1000的各种功能和处理数据。可选地，处理器102可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器102中，单独通过一块通信芯片进行实现。作为一种方式，处理器102可以为神经网络芯片。例如，可以为嵌入式神经网络芯片(NPU)。

存储器104可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。

再者，电子设备1000除了前述所示的器件外，还可以包括网络模块110以及传感器模块112。

所述网络模块110用于实现电子设备1000与其他设备之间的信息交互，例如，传输设备控制指令、操纵请求指令以及状态信息获取指令等。而当电子设备200具体为不同的设备时，其对应的网络模块110可能会有不同。

传感器模块112可以包括至少一种传感器。具体地，传感器模块112可包括但并不限于：水平仪、光传感器、运动传感器、压力传感器、红外热传感器、距离传感器、加速度传感器、以及其他传感器。

其中，压力传感器可以检测由按压在电子设备1000产生的压力的传感器。即，压力传感器检测由用户和电子设备之间的接触或按压产生的压力，例如由用户的耳朵与移动终端之间的接触或按压产生的压力。因此，压力传感器可以用来确定在用户与电子设备1000之间是否发生了接触或者按压，以及压力的大小。

其中，加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备1000姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。另外，电子设备1000还可配置陀螺仪、气压计、湿度计、温度计等其他传感器，在此不再赘述。

音频采集装置110，用于进行音频信号采集。可选的，音频采集装置110包括有多个音频采集器件，该音频采集器件可以为麦克风。

作为一种方式，电子设备1000的网络模块为射频模块，该射频模块用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。所述射频模块可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。例如，该射频模块可以通过发送或者接收的电磁波与外部设备进行交互。例如，射频模块可以向目标设备发送指令。

请参考图15，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

综上所述，本申请提供的一种语音控制方法、装置以及电子设备，在获取语音控制指令对应的拼音内容作为第一拼音内容以及获取待选的描述信息的拼音内容作为多个第二拼音内容后，若确定没有第二拼音内容与所述第一拼音内容成功匹配，再获取与所述第一拼音内容相似的拼音内容作为第三拼音内容，然后将第三拼音内容与所述多个第二拼音内容进行匹配，并将对应的第二拼音内容与所述第三拼音内容成功匹配的描述信息作为目标描述信息，执行所述目标描述信息对应控制操作。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音控制方法，其特征在于，所述方法包括：

获取第一拼音内容以及获取多个第二拼音内容，所述第一拼音内容为所获取的语音控制指令对应的拼音内容，所述多个第二拼音内容包括待选的描述信息的拼音内容，所述描述信息为用于描述对应操作的信息；

第二拼音内容与所述第一拼音内容未成功匹配时获取第三拼音内容，所述第三拼音内容为与所述第一拼音内容相似的拼音内容；

将所述第三拼音内容与所述多个第二拼音内容进行匹配，并将对应的第二拼音内容与所述第三拼音内容成功匹配的描述信息作为目标描述信息；

执行所述目标描述信息对应控制操作。

2.根据权利要求1所述的方法，其特征在于，所述获取第三拼音内容，包括：

获取所述第一拼音内容中的指定音素对应的相似音素；

用所述相似音素替换第一拼音内容中的所述指定音素，得到第三拼音内容。

3.根据权利要求2所述的方法，其特征在于，所述相似音素有多个，所述用所述相似音素替换第一拼音内容中的所述指定音素，得到第三拼音内容，包括：

分别用多个所述相似音素对所述第一拼音内容中的指定音素进行替换，得到多个所述相似音素各自对应的进行音素替换后的第一拼音内容，以作为第三拼音内容。

4.根据权利要求2所述的方法，其特征在于，所述指定音素有多个，所述利用所述相似音素替换第一拼音内容中的所述指定音素，得到第三拼音内容，包括：

将至少两个指定音素各自对应的相似音素相互进行组合，得到多个音素对，其中，每个音素对包括有所述至少两个指定音素各自对应的一个相似音素；

分别基于所述多个音素对第一拼音内容中所对应的指定音素进行替换，得到每个音素对对应的第一替换拼音内容；

用多个指定音素各自对应的相似音素对所述第一拼音内容中所对应的指定音素进行替换，得到每个指定音素对应的第二替换拼音内容；

将所述第一替换拼音内容和所述第二替换拼音内容作为第三拼音内容。

5.根据权利要求2所述的方法，其特征在于，所述获取所述第一拼音内容中的指定音素对应的相似音素包括：

查询第一拼音内容所包括的音素在音素扩展表中是否有对应的音素对应关系，每一个所述音素对应关系表征一对相似的音素；

将确定有所述音素对应关系的音素作为指定音素，并基于所述音素对应关系确定指定音素对应的相似音素。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

第二拼音内容与所述第一拼音内容成功匹配时，将对应的第二拼音内容与所述第一拼音内容成功匹配的描述信息作为目标描述信息；

执行所述目标描述信息对应控制操作。

7.根据权利要求1所述的方法，其特征在于，所述将所述第三拼音内容与所述多个第二拼音内容进行匹配，并将对应的第二拼音内容与所述第三拼音内容成功匹配的描述信息作为目标描述信息，包括：

将所述第三拼音内容与所述多个第二拼音内容进行匹配，第二拼音内容与所述第三拼音内容成功匹配时，将对应的第二拼音内容与所述第三拼音内容成功匹配的描述信息作为目标描述信息；

第二拼音内容与所述第三拼音内容未成功匹配时，获取多个第二拼音内容分别与所述第一拼音内容的相似度，以得到每个第二拼音内容对应的相似度；

将相似度最大的第二拼音内容对应的描述信息作为目标描述信息。

8.根据权利要求7所述的方法，其特征在于，所述获取多个第二拼音内容分别与所述第一拼音内容的相似度，以得到每个第二拼音内容对应的相似度，包括：

基于最长公共子序列的方式获取多个第二拼音内容分别与所述第一拼音内容的第一参考相似度，以得到每个第二拼音内容对应的第一参考相似度；

基于编辑距离的方式获取多个第二拼音内容分别与所述第一拼音内容的第二参考相似度，以得到每个第二拼音内容对应的第二参考相似度；

将每个第二拼音内容对应的第一参考相似度和第二参考相似度相加，得到每个第二拼音内容对应的相似度。

9.根据权利要求7所述的方法，其特征在于，所述将对应的相似度最大的第二拼音内容对应的描述信息作为目标描述信息，包括：

若对应的相似度最大的第二拼音内容有一个，则将对应的相似度最大的第二拼音内容对应的描述信息作为目标描述信息；

若对应的相似度最大的第二拼音内容有多个，获取所述语音控制指令对应的文本内容的文本向量作为第一文本向量；

获取多个相似度最大的第二拼音内容各自对应的描述信息对应的文本向量，以得到多个第二文本向量；

分别计算得到多个第二文本向量与所述第一文本向量的向量距离；

将对应的向量距离最小的一个第二文本向量对应的描述信息作为目标描述信息。

10.根据权利要求1所述的方法，其特征在于，所述获取多个第二拼音内容，包括：

获取目标界面所包括的多个控件各自的描述信息作为待选描述信息；

将所述待选描述信息转换为对应的拼音内容，以得到多个第二拼音内容。

11.一种语音控制装置，其特征在于，所述装置包括：

第一拼音内容以及第二拼音内容获取单元，用于获取第一拼音内容以及获取多个第二拼音内容，所述第一拼音内容为所获取的语音控制指令对应的拼音内容，所述多个第二拼音内容包括待选的描述信息的拼音内容，所述描述信息为用于描述对应操作的信息；

第三拼音内容获取单元，用于第二拼音内容与所述第一拼音内容未成功匹配时获取第三拼音内容，所述第三拼音内容为与所述第一拼音内容相似的拼音内容；

拼音内容匹配单元，用于将所述第三拼音内容与所述多个第二拼音内容进行匹配，并将对应的第二拼音内容与所述第三拼音内容成功匹配的描述信息作为目标描述信息；

控制操作执行单元，用于执行所述目标描述信息对应控制操作。

12.一种电子设备，其特征在于，包括一个或多个处理器以及存储器；

一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-10任一所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行权利要求1-10任一所述的方法。

14.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-10任一所述方法的步骤。