CN112289312B - 语音指令的识别方法、装置、电子设备及计算机可读介质 - Google Patents
语音指令的识别方法、装置、电子设备及计算机可读介质 Download PDFInfo
- Publication number
- CN112289312B CN112289312B CN202010663954.6A CN202010663954A CN112289312B CN 112289312 B CN112289312 B CN 112289312B CN 202010663954 A CN202010663954 A CN 202010663954A CN 112289312 B CN112289312 B CN 112289312B
- Authority
- CN
- China
- Prior art keywords
- voice
- call
- template
- sub
- intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000001914 filtration Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 230000000875 corresponding effect Effects 0.000 description 70
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 238000013518 transcription Methods 0.000 description 10
- 230000035897 transcription Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000010438 heat treatment Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000001816 cooling Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及一种语音指令的识别方法、装置、电子设备及计算机可读介质,属于语音识别技术领域。该方法包括:获取用户的语音信息,并根据所述语音信息得到对应的语音话术,其中,所述语音话术包括一个或多个子意图话术;获取单意图话术模板集合中的各个单意图话术模板,并将所述语音话术与所述单意图话术模板进行匹配,确定所述语音话术中的子意图话术对应的子意图话术模板;根据所述子意图话术模板识别所述子意图话术对应的子意图语音指令,并根据所述子意图语音指令得到所述语音信息对应的完整的语音指令。本公开通过使用单意图话术模板匹配多意图的语音话术,不需要添加多意图的话术模板,就可以同时识别用户语音信息中的多个语音指令。
Description
技术领域
本公开涉及语音识别技术领域,具体而言,涉及一种语音指令的识别方法、语音指令的识别装置、电子设备及计算机可读介质。
背景技术
随着智能家居设备的普及,用户可以通过语音对各种设备下发对应的控制指令,这样的语音控制操作给生活带来了极大的便利。
但是现有的语音指令识别方法中,单次的语音只能局限于单个设备的单个意图的识别,无法同时控制两个或两个以上的设备,或者对同一设备同时下发多个指令,语音识别的效率较低。
鉴于此,本领域亟需一种能够识别同一条语音中的多个控制意图的方法,提高语音识别的效率。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种语音指令的识别方法、语音指令的识别装置、电子设备及计算机可读介质,进而至少在一定程度上提高语音识别的效率。
根据本公开的第一个方面,提供一种语音指令的识别方法,包括:
获取用户的语音信息,并根据所述语音信息得到对应的语音话术,其中,所述语音话术包括一个或多个子意图话术;
获取单意图话术模板集合中的各个单意图话术模板,并将所述语音话术与所述单意图话术模板进行匹配,确定所述语音话术中的子意图话术对应的子意图话术模板;
根据所述子意图话术模板识别所述子意图话术对应的子意图语音指令,并根据所述子意图语音指令得到所述语音信息对应的完整的语音指令。
在本公开的一种示例性实施例中,所述根据所述语音信息得到对应的语音话术,包括:
对所述语音信息进行语音识别,得到所述语音信息对应的语音文字信息;
对所述语音文字信息进行预处理,得到所述语音信息对应的语音话术。
在本公开的一种示例性实施例中,所述对所述语音文字信息进行预处理,包括:
获取标点符号库,并将所述语音文字信息与所述标点符号库中的各个标点符号依次进行比对,过滤所述语音文字信息中的标点符号;
获取虚词库,并将所述语音文字信息与所述虚词库中的各个虚词依次进行比对,过滤所述语音文字信息中的虚词。
在本公开的一种示例性实施例中,所述将所述语音话术与所述单意图话术模板进行匹配,确定所述语音话术中的子意图话术对应的子意图话术模板,包括:
根据所述单意图话术模板得到与所述单意图话术模板对应的待匹配话术模板;
将所述语音话术与所述单意图话术模板和所述待匹配话术模板进行匹配,确定所述语音话术中的各个子意图话术对应的子意图话术模板。
在本公开的一种示例性实施例中,所述根据所述单意图话术模板得到与所述单意图话术模板对应的待匹配话术模板,包括:
删除所述单意图话术模板的结尾符,得到所述单意图话术模板对应的待匹配话术模板。
在本公开的一种示例性实施例中,所述将所述语音话术与所述单意图话术模板和所述待匹配话术模板进行匹配,确定所述语音话术中的各个子意图话术对应的子意图话术模板,包括:
将所述语音话术与所有单意图话术模板依次进行匹配;
若所述语音话术与所述单意图话术模板匹配成功,则将匹配到的所述单意图话术模板作为所述语音话术中的子意图话术对应的子意图话术模板,并结束所述语音话术的匹配过程;
若所述语音话术与所述单意图话术模板匹配失败,则将所述语音话术与所有待匹配话术模板依次进行匹配;
若所述语音话术与所述待匹配话术模板匹配成功,则将匹配到的所述待匹配话术模板作为所述子意图话术对应的子意图话术模板;
移除所述语音话术中与所述待匹配话术模板匹配成功的子意图话术,得到所述语音话术中的剩余子意图话术;
将所述剩余子意图话术重新与所有单意图话术模板依次进行匹配,以确定所述剩余子意图话术中的子意图话术对应的子意图话术模板;
若所述语音话术与所述待匹配话术模板匹配失败,则将所述语音话术确定为无效的语音话术。
在本公开的一种示例性实施例中,在所述获取单意图话术模板集合中的各个单意图话术模板之前,所述方法还包括:
确定所述单意图话术模板中的索引词汇;
根据所述索引词汇建立不同类型的单意图话术模板,并根据所述不同类型的单意图话术模板得到所述单意图话术模板集合。
根据本公开的第二方面,提供一种语音指令的识别装置,包括:
语音话术获取模块,用于获取用户的语音信息,并根据所述语音信息得到对应的语音话术,其中,所述语音话术包括一个或多个子意图话术;
话术模板匹配模块,用于获取单意图话术模板集合中的各个单意图话术模板,并将所述语音话术与所述单意图话术模板进行匹配,确定所述语音话术中的子意图话术对应的子意图话术模板;
语音指令识别模块,用于根据所述子意图话术模板识别所述子意图话术对应的子意图语音指令,并根据所述子意图语音指令得到所述语音信息对应的完整的语音指令。
根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的语音指令的识别方法。
根据本公开的第四方面,提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的语音指令的识别方法。
本公开示例性实施例可以具有以下有益效果:
本公开示例实施方式的语音指令的识别方法中,通过使用单意图话术模板匹配语音信息中的一个或多个子意图话术,不需要添加或扩展多意图的话术模板,就可以同时识别同一条用户语音信息中的一个或多个语音指令。通过一次性获取包含多条指令的语音信息,就可以同时控制两个或两个以上的设备,或者对同一设备同时下发多个指令。通过本公开示例实施方式中的语音指令的识别方法,可以提高语音指令识别的效率以及识别的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开示例实施方式的语音指令的识别方法的流程示意图;
图2示出了本公开示例实施方式的根据语音信息得到对应的语音话术的流程示意图;
图3示出了本公开示例实施方式的确定子意图话术模板的流程示意图;
图4示出了本公开示例实施方式的子意图话术模板匹配的流程示意图;
图5示出了根据本公开的一个具体实施方式中双意图语音指令的识别方法的流程示意图;
图6示出了本公开示例实施方式的语音指令的识别装置的框图;
图7示出了适于用来实现本公开实施方式的电子设备的计算机***的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本示例实施方式首先提供了一种语音指令的识别方法。参考图1所示,上述语音指令的识别方法可以包括以下步骤:
步骤S110.获取用户的语音信息,并根据语音信息得到对应的语音话术,其中,语音话术包括一个或多个子意图话术。
步骤S120.获取单意图话术模板集合中的各个单意图话术模板,并将语音话术与单意图话术模板进行匹配,确定语音话术中的子意图话术对应的子意图话术模板。
步骤S130.根据子意图话术模板识别子意图话术对应的子意图语音指令,并根据子意图语音指令得到语音信息对应的完整的语音指令。
本示例实施方式的语音指令的识别方法可以应用于一些具有语音识别功能的智能设备,例如,可以接收语音信息并控制其他智能家居设备的智能音箱或智能手机等。其中,智能家居设备可以包括电视、空调、热水器等常见的家用电器,智能音箱可以直接接收用户的语音信息,智能手机可以通过手机上某一对应的应用软件来接收用户的语音信息,从而转化为对应的语音指令并执行。举例而言,用户可以在手机的应用软件上给各个智能家居设备进行命名,比如将空调命名为“空调”,将卧室的电视命名为“卧室电视”等等,在通过语音去控制这些智能家居设备的时候,只需要输入例如“打开空调”、“空调打开制热模式”、“卧室电视声音大一点”等类似的语音信息,就可以控制对应的电器执行对应的动作。
本公开示例实施方式中的语音指令的识别方法是在单意图语音话术识别的基础上实现的,主要是基于模板匹配的方式,即用正则表达式类型的模板作为单意图话术模板,并且在不新增模板的情况下,直接使用单意图话术模板来实现多意图话术的准确识别。
本示例实施方式的语音指令的识别方法中,通过使用单意图话术模板匹配语音信息中的一个或多个子意图话术,不需要添加或扩展多意图的话术模板,就可以同时识别同一条用户语音信息中的一个或多个语音指令。用户通过一次性输入包含多条指令的语音信息,就可以同时控制两个或两个以上的设备,或者对同一设备同时下发多个指令。通过本公开示例实施方式中的语音指令的识别方法,可以提高语音指令识别的效率以及识别的准确率。
下面,结合图2至图5对本示例实施方式的上述步骤进行更加详细的说明。
在步骤S110中,获取用户的语音信息,并根据语音信息得到对应的语音话术,其中,语音话术包括一个或多个子意图话术。
本示例实施方式中,语音话术可以为单意图话术或多意图话术,其中,单意图话术指的是仅有一个指令意图的语音话术,例如“打开空调”等;多意图话术包含两个或两个以上的子意图话术,例如“打开空调关闭灯”即为多意图话术,“打开空调”和“关闭灯”分别为其中的两个子意图话术。
用户的语音信息可以通过智能手机上的应用软件,或者智能音箱等能够进行语音识别的智能设备获取。获取用户的语音信息之后,如图2所示,根据语音信息得到对应的语音话术,具体可以包括以下几个步骤:
步骤S210.对语音信息进行语音识别,得到语音信息对应的语音文字信息。
在获取到语音信息之后,首先通过智能设备的语音识别功能,将用户的语音信息转化为对应的文字信息。
步骤S220.对语音文字信息进行预处理,得到语音信息对应的语音话术。
本示例实施方式中,由于标点符号和虚词在文本表达中并没有实际含义,因此,为了降低匹配复杂度,可以通过预处理的过程去除语音文字信息中的标点符号和虚词,具体方法为:获取标点符号库,并将语音文字信息与标点符号库中的各个标点符号依次进行比对,过滤语音文字信息中的标点符号;获取虚词库,并将语音文字信息与虚词库中的各个虚词依次进行比对,过滤语音文字信息中的虚词。
其中,虚词指的是一些与指令不相关的无意义的词汇,比如句首的“请”、“帮我”以及句尾的“呢”、“了”等词汇。
通过建立标点符号库的方式并进行语音文字信息的比对,可以把语音文字信息中所包含的标点符号去除,比如:“打开空调,关闭灯”在处理后就变为“打开空调关闭灯”。通过建立虚词库,可以通过遍历虚词库的方法来对语音文字信息进行虚词过滤,比如“帮我打开空调关闭灯吧”在过滤后就变成了“打开空调关闭灯”。
通过步骤S110得到语音信息对应的语音话术之后,再通过模板匹配的方法,识别对应的语音指令。
在步骤S120中,获取单意图话术模板集合中的各个单意图话术模板,并将语音话术与单意图话术模板进行匹配,确定语音话术中的子意图话术对应的子意图话术模板。
本示例实施方式中,可以通过设定不同类型的索引词汇,建立各种类型丰富的单意图话术模板,从而得到单意图话术模板集合,具体方法为:确定单意图话术模板中的索引词汇;根据索引词汇建立不同类型的单意图话术模板,并根据不同类型的单意图话术模板得到单意图话术模板集合。
通过索引词汇建立的单意图话术模板例如“^【open】【device】$”,其中,位于模板句首“^”符号和句尾的“$”符号分别表示匹配开始符和结尾符,“open”和“device”均为同义词集合索引,比如“open”可以表示全部打开类的同义词集合“打开|开启|启动”等,“device”表示所有设备名称的集合,包括空调、电视等,上述模板可以匹配的单意图话术为“打开空调”、“开启电视”等语音话术。
另外,还有关闭设备类的模板,比如:“^【close】【device】$”、“^【device】【close】$”等,可以匹配“关闭空调”、“空调关上”等关闭设备类的单意图语音话术。
除此之外,还有设置模式、调整参数等类型的模板,比如“^【device】【open】【模式值】【模式字】$”类型的模板,其中“模式值”表示“制冷|制热|睡眠”等不同模式类的同义词集合,“模式字”表示“模式|功能”等同义词,该模板可以匹配的单意图话术为“空调打开制冷模式”、“空调打开制热功能”等设置模式类型的语音话术。
通过建立丰富的单意图话术模板集合,可以包含用户指令信息的绝大多数情况,一些常用的语音指令都能在单意图话术模板集合找到对应的模板进行匹配。
获取单意图话术模板集合中的各个单意图话术模板之后,就可以根据单意图话术模板对语音话术进行匹配。如图3所示,将语音话术与单意图话术模板进行匹配,确定语音话术中的子意图话术对应的子意图话术模板,具体可以包括以下几个步骤:
步骤S310.根据单意图话术模板得到与单意图话术模板对应的待匹配话术模板。
本示例实施方式中,可以通过删除单意图话术模板的结尾符,得到单意图话术模板对应的待匹配话术模板。待匹配话术模板可以用于匹配多意图话术中除最后一个子意图话术以外的前半部分的子意图话术。
步骤S320.将语音话术与单意图话术模板和待匹配话术模板进行匹配,确定语音话术中的各个子意图话术对应的子意图话术模板。
如图4所示,在步骤S320中,子意图话术模板的匹配过程具体可以包括以下几个步骤:
步骤S410.将语音话术与所有单意图话术模板依次进行匹配。
本示例实施方式中,由于语音话术既可能为单意图话术也可能为多意图话术,因此,首先将语音话术与所有单意图话术模板依次进行匹配,也就是说,遍历单意图话术模板集合中的所有单意图话术模板,判断是否有模板能够与该语音话术匹配成功。
步骤S420.若语音话术与单意图话术模板匹配成功,则将匹配到的单意图话术模板作为语音话术中的子意图话术对应的子意图话术模板,并结束语音话术的匹配过程。
若语音话术与单意图话术模板匹配成功,则说明进行匹配的子意图话术是带有结尾符的部分,有可能该子意图话术为语音话术中的最后一部分,也有可能该语音话术为单意图话术,只有一个对应的子意图话术。因此,直接将匹配成功的单意图话术模板作为该子意图话术对应的子意图话术模板,并结束语音话术的匹配过程。
步骤S430.若语音话术与单意图话术模板匹配失败,则将语音话术与所有待匹配话术模板依次进行匹配。
若语音话术与单意图话术模板匹配失败,则说明进行匹配的子意图话术不带有结尾符,可能是多意图话术前半部分的子意图话术,因此,将语音话术与所有已经去掉结尾符的待匹配话术模板进行匹配。
步骤S440.若语音话术与待匹配话术模板匹配成功,则将匹配到的待匹配话术模板作为子意图话术对应的子意图话术模板。
若语音话术与待匹配话术模板匹配成功,则将匹配到的待匹配话术模板作为当前匹配的子意图话术对应的子意图话术模板,并且,该子意图话术的后面还有未匹配完的其他子意图话术。
步骤S450.移除语音话术中与待匹配话术模板匹配成功的子意图话术,得到语音话术中的剩余子意图话术。
将已经匹配成功的子意图话术从整个语音话术中移除并记录下来,剩下的部分即为语音话术中未匹配完成的剩余子意图话术。
步骤S460.将剩余子意图话术重新与所有单意图话术模板依次进行匹配,以确定剩余子意图话术中的子意图话术对应的子意图话术模板。
将语音话术中还未匹配的剩余子意图话术按照从步骤S410到步骤S450中的方法再次进行匹配,直到语音话术中所有的子意图话术匹配完成。
步骤S470.若语音话术与待匹配话术模板匹配失败,则将语音话术确定为无效的语音话术。
若语音话术与单意图话术模板和待匹配话术模板都匹配失败,则说明是一个无效的语音话术,在模板集合中无法匹配到对应的模板。在这种情况下,可以提示用户所输入的语音指令是一个无效的指令,并提醒用户重新进行语音输入。
在步骤S130中,根据子意图话术模板识别子意图话术对应的子意图语音指令,并根据子意图语音指令得到语音信息对应的完整的语音指令。
确定语音话术中所有子意图话术对应的子意图话术模板后,根据子意图话术模板即可识别出对应的子意图语音指令。将所有的子意图语音指令组合在一起,就可以得到语音信息对应的完整的语音指令,然后根据该语音指令控制对应的设备执行指令中的内容。
如图5所示是本公开的一个具体实施方式中双意图话术识别的完整流程图,是对本示例实施方式中的上述步骤的举例说明,该流程图的具体步骤如下:
步骤S510.用户话术输入。
例如用户输入的语音为“帮我打开空调,关闭灯”。
步骤S520.话术预处理。
获取标点符号库501和虚词库502,去除用户语音话术中的标点符号和虚词。经过预处理后,得到“打开空调关闭灯”。
步骤S530.构建单意图模板。
建立单意图模板集合503,用于解析用户输入的语音话术。
步骤S540.去掉单意图模板的结尾符匹配话术。
首先把所有的单意图模板尾部的结尾符“$”去掉进行模板匹配,则可以通过模板“^【open】【device】$”去掉结尾符“$”后的“^【open】【device】”匹配到话术的前半部分“打开空调”。
步骤S550.用完整的单意图模板匹配剩余话术。
然后把所有的单意图模板的结尾符“$”加上,再用模板去匹配剩余的话术部分,此时,可以通过模板“^【close】【device】$”匹配到剩余的话术“关闭灯”。到此为止,一个双意图的用户话术就被准确地识别出了两个意图,分别是打开空调,关闭灯。
步骤S560.匹配结果输出。
将匹配的结果输出,并控制对应的设备执行指令中的内容,将空调打开,并将灯关闭。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
进一步的,本公开还提供了一种语音指令的识别装置。参考图6所示,该语音指令的识别装置可以包括语音话术获取模块610、话术模板匹配模块620以及语音指令识别模块630。其中:
语音话术获取模块610可以用于获取用户的语音信息,并根据语音信息得到对应的语音话术,其中,语音话术包括一个或多个子意图话术;
话术模板匹配模块620可以用于获取单意图话术模板集合中的各个单意图话术模板,并将语音话术与单意图话术模板进行匹配,确定语音话术中的子意图话术对应的子意图话术模板;
语音指令识别模块630可以用于根据子意图话术模板识别子意图话术对应的子意图语音指令,并根据子意图语音指令得到语音信息对应的完整的语音指令。
在本公开的一些示例性实施例中,语音话术获取模块610可以包括语音文字识别单元以及语音话术预处理单元。其中:
语音文字识别单元可以用于对语音信息进行语音识别,得到语音信息对应的语音文字信息;
语音话术预处理单元可以用于对语音文字信息进行预处理,得到语音信息对应的语音话术。
在本公开的一些示例性实施例中,语音话术预处理单元可以包括标点符号过滤单元以及虚词过滤单元。其中:
标点符号过滤单元可以用于获取标点符号库,并将语音文字信息与标点符号库中的各个标点符号依次进行比对,过滤语音文字信息中的标点符号;
虚词过滤单元可以用于获取虚词库,并将语音文字信息与虚词库中的各个虚词依次进行比对,过滤语音文字信息中的虚词。
在本公开的一些示例性实施例中,话术模板匹配模块620可以包括待匹配话术模板确定单元以及子意图话术模板匹配单元。其中:
待匹配话术模板确定单元可以用于根据单意图话术模板得到与单意图话术模板对应的待匹配话术模板;
子意图话术模板匹配单元可以用于将语音话术与单意图话术模板和待匹配话术模板进行匹配,确定语音话术中的各个子意图话术对应的子意图话术模板。
在本公开的一些示例性实施例中,待匹配话术模板确定单元可以包括结尾符删除单元,可以用于删除单意图话术模板的结尾符,得到单意图话术模板对应的待匹配话术模板。
在本公开的一些示例性实施例中,子意图话术模板匹配单元可以包括单意图话术模板匹配单元、第一子意图话术模板确定单元、待匹配话术模板匹配单元、第二子意图话术模板确定单元、匹配成功子意图移除单元、剩余子意图话术匹配单元以及无效语音话术确定单元。其中:
单意图话术模板匹配单元可以用于将语音话术与所有单意图话术模板依次进行匹配;
第一子意图话术模板确定单元可以用于若语音话术与单意图话术模板匹配成功,则将匹配到的单意图话术模板作为语音话术中的子意图话术对应的子意图话术模板,并结束语音话术的匹配过程;
待匹配话术模板匹配单元可以用于若语音话术与单意图话术模板匹配失败,则将语音话术与所有待匹配话术模板依次进行匹配;
第二子意图话术模板确定单元可以用于若语音话术与待匹配话术模板匹配成功,则将匹配到的待匹配话术模板作为子意图话术对应的子意图话术模板;
匹配成功子意图移除单元可以用于移除语音话术中与待匹配话术模板匹配成功的子意图话术,得到语音话术中的剩余子意图话术;
剩余子意图话术匹配单元可以用于将剩余子意图话术重新与所有单意图话术模板依次进行匹配,以确定剩余子意图话术中的子意图话术对应的子意图话术模板;
无效语音话术确定单元可以用于若语音话术与待匹配话术模板匹配失败,则将语音话术确定为无效的语音话术。
在本公开的一些示例性实施例中,本公开提供的一种语音指令的识别装置还可以包括索引词汇确定模块以及话术模板集合建立模块。其中:
索引词汇确定模块可以用于确定单意图话术模板中的索引词汇;
话术模板集合建立模块可以用于根据索引词汇建立不同类型的单意图话术模板,并根据不同类型的单意图话术模板得到单意图话术模板集合。
上述语音指令的识别装置中各模块/单元的具体细节在相应的方法实施例部分已有详细的说明,此处不再赘述。
图7示出了适于用来实现本发明实施例的电子设备的计算机***的结构示意图。
需要说明的是,图7示出的电子设备的计算机***700仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机***700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有***操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的***中限定的各种功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (7)
1.一种语音指令的识别方法,其特征在于,包括:
获取用户的语音信息,并根据所述语音信息得到对应的语音话术,其中,所述语音话术包括一个或多个子意图话术;
获取单意图话术模板集合中的各个单意图话术模板,并将所述语音话术与所述单意图话术模板进行匹配,确定所述语音话术中的子意图话术对应的子意图话术模板;
根据所述子意图话术模板识别所述子意图话术对应的子意图语音指令,并根据所述子意图语音指令得到所述语音信息对应的完整的语音指令;
其中,所述将所述语音话术与所述单意图话术模板进行匹配,确定所述语音话术中的子意图话术对应的子意图话术模板,包括:
删除所述单意图话术模板的结尾符,得到所述单意图话术模板对应的待匹配话术模板;
将所述语音话术与所有单意图话术模板依次进行匹配;
若所述语音话术与所述单意图话术模板匹配成功,则将匹配到的所述单意图话术模板作为所述语音话术中的子意图话术对应的子意图话术模板,并结束所述语音话术的匹配过程;
若所述语音话术与所述单意图话术模板匹配失败,则将所述语音话术与所有待匹配话术模板依次进行匹配;
若所述语音话术与所述待匹配话术模板匹配成功,则将匹配到的所述待匹配话术模板作为所述子意图话术对应的子意图话术模板;
移除所述语音话术中与所述待匹配话术模板匹配成功的子意图话术,得到所述语音话术中的剩余子意图话术;
将所述剩余子意图话术重新与所有单意图话术模板依次进行匹配,以确定所述剩余子意图话术中的子意图话术对应的子意图话术模板;
若所述语音话术与所述待匹配话术模板匹配失败,则将所述语音话术确定为无效的语音话术。
2.根据权利要求1所述的语音指令的识别方法,其特征在于,所述根据所述语音信息得到对应的语音话术,包括:
对所述语音信息进行语音识别,得到所述语音信息对应的语音文字信息;
对所述语音文字信息进行预处理,得到所述语音信息对应的语音话术。
3.根据权利要求2所述的语音指令的识别方法,其特征在于,所述对所述语音文字信息进行预处理,包括:
获取标点符号库,并将所述语音文字信息与所述标点符号库中的各个标点符号依次进行比对,过滤所述语音文字信息中的标点符号;
获取虚词库,并将所述语音文字信息与所述虚词库中的各个虚词依次进行比对,过滤所述语音文字信息中的虚词。
4.根据权利要求1所述的语音指令的识别方法,其特征在于,在所述获取单意图话术模板集合中的各个单意图话术模板之前,所述方法还包括:
确定所述单意图话术模板中的索引词汇;
根据所述索引词汇建立不同类型的单意图话术模板,并根据所述不同类型的单意图话术模板得到所述单意图话术模板集合。
5.一种语音指令的识别装置,其特征在于,包括:
语音话术获取模块,用于获取用户的语音信息,并根据所述语音信息得到对应的语音话术,其中,所述语音话术包括一个或多个子意图话术;
话术模板匹配模块,用于获取单意图话术模板集合中的各个单意图话术模板,并将所述语音话术与所述单意图话术模板进行匹配,确定所述语音话术中的子意图话术对应的子意图话术模板;
语音指令识别模块,用于根据所述子意图话术模板识别所述子意图话术对应的子意图语音指令,并根据所述子意图语音指令得到所述语音信息对应的完整的语音指令;
其中,所述将所述语音话术与所述单意图话术模板进行匹配,确定所述语音话术中的子意图话术对应的子意图话术模板,包括:
删除所述单意图话术模板的结尾符,得到所述单意图话术模板对应的待匹配话术模板;
将所述语音话术与所有单意图话术模板依次进行匹配;
若所述语音话术与所述单意图话术模板匹配成功,则将匹配到的所述单意图话术模板作为所述语音话术中的子意图话术对应的子意图话术模板,并结束所述语音话术的匹配过程;
若所述语音话术与所述单意图话术模板匹配失败,则将所述语音话术与所有待匹配话术模板依次进行匹配;
若所述语音话术与所述待匹配话术模板匹配成功,则将匹配到的所述待匹配话术模板作为所述子意图话术对应的子意图话术模板;
移除所述语音话术中与所述待匹配话术模板匹配成功的子意图话术,得到所述语音话术中的剩余子意图话术;
将所述剩余子意图话术重新与所有单意图话术模板依次进行匹配,以确定所述剩余子意图话术中的子意图话术对应的子意图话术模板;
若所述语音话术与所述待匹配话术模板匹配失败,则将所述语音话术确定为无效的语音话术。
6.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至4中任一项所述的语音指令的识别方法。
7.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至4中任一项所述的语音指令的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010663954.6A CN112289312B (zh) | 2020-07-10 | 2020-07-10 | 语音指令的识别方法、装置、电子设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010663954.6A CN112289312B (zh) | 2020-07-10 | 2020-07-10 | 语音指令的识别方法、装置、电子设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112289312A CN112289312A (zh) | 2021-01-29 |
CN112289312B true CN112289312B (zh) | 2024-04-05 |
Family
ID=74419686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010663954.6A Active CN112289312B (zh) | 2020-07-10 | 2020-07-10 | 语音指令的识别方法、装置、电子设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112289312B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105074816A (zh) * | 2013-02-25 | 2015-11-18 | 微软公司 | 促进口述自然语言接口的开发 |
CN109388700A (zh) * | 2018-10-26 | 2019-02-26 | 广东小天才科技有限公司 | 一种意图识别方法及*** |
CN109859752A (zh) * | 2019-01-02 | 2019-06-07 | 珠海格力电器股份有限公司 | 一种语音控制方法、装置、存储介质及语音联控*** |
CN110704641A (zh) * | 2019-10-11 | 2020-01-17 | 零犀(北京)科技有限公司 | 一种万级意图分类方法、装置、存储介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309254A (zh) * | 2018-03-01 | 2019-10-08 | 富泰华工业(深圳)有限公司 | 智能机器人与人机交互方法 |
-
2020
- 2020-07-10 CN CN202010663954.6A patent/CN112289312B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105074816A (zh) * | 2013-02-25 | 2015-11-18 | 微软公司 | 促进口述自然语言接口的开发 |
CN109388700A (zh) * | 2018-10-26 | 2019-02-26 | 广东小天才科技有限公司 | 一种意图识别方法及*** |
CN109859752A (zh) * | 2019-01-02 | 2019-06-07 | 珠海格力电器股份有限公司 | 一种语音控制方法、装置、存储介质及语音联控*** |
CN110704641A (zh) * | 2019-10-11 | 2020-01-17 | 零犀(北京)科技有限公司 | 一种万级意图分类方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112289312A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10489112B1 (en) | Method for user training of information dialogue system | |
CN108520743B (zh) | 智能设备的语音控制方法、智能设备及计算机可读介质 | |
CN111402861B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN110047481B (zh) | 用于语音识别的方法和装置 | |
KR20180025121A (ko) | 메시지 입력 방법 및 장치 | |
KR20160015218A (ko) | 온라인 음성 번역 방법 및 장치 | |
WO2015014122A1 (zh) | 语音交互的方法、***以及交互终端 | |
KR20070090642A (ko) | 음성 대화 서비스 장치 및 방법 | |
WO2020233363A1 (zh) | 语音识别的方法、装置、电子设备和存储介质 | |
CN109036406A (zh) | 一种语音信息的处理方法、装置、设备和存储介质 | |
JP2021140134A (ja) | 音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN111399629B (zh) | 一种终端设备的操作引导方法、终端设备及存储介质 | |
CN112669842A (zh) | 人机对话控制方法、装置、计算机设备及存储介质 | |
CN114330371A (zh) | 基于提示学习的会话意图识别方法、装置和电子设备 | |
CN112562670A (zh) | 语音智能识别方法、语音智能识别装置及智能设备 | |
CN110211576B (zh) | 一种语音识别的方法、装置和*** | |
CN112163084B (zh) | 问题反馈方法、装置、介质以及电子设备 | |
CN113012683A (zh) | 语音识别方法及装置、设备、计算机可读存储介质 | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN111508481B (zh) | 语音唤醒模型的训练方法、装置、电子设备及存储介质 | |
CN112289312B (zh) | 语音指令的识别方法、装置、电子设备及计算机可读介质 | |
CN112002325B (zh) | 多语种语音交互方法和装置 | |
CN111161735A (zh) | 一种语音编辑方法及装置 | |
CN104966513B (zh) | 语言命令处理方法和装置 | |
CN111797636B (zh) | 离线语义解析方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |