CN104282301A - 一种语音命令处理方法以及*** - Google Patents

一种语音命令处理方法以及*** Download PDF

Info

Publication number
CN104282301A
CN104282301A CN201310287147.9A CN201310287147A CN104282301A CN 104282301 A CN104282301 A CN 104282301A CN 201310287147 A CN201310287147 A CN 201310287147A CN 104282301 A CN104282301 A CN 104282301A
Authority
CN
China
Prior art keywords
service
decoding
institute
class
decoding network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310287147.9A
Other languages
English (en)
Inventor
陈盛
何婷婷
刘俊峰
马冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201310287147.9A priority Critical patent/CN104282301A/zh
Publication of CN104282301A publication Critical patent/CN104282301A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开了一种语音命令处理方法以及***,用于提高用户语音命令输入的响应效率,改善用户体验。本发明实施例包括:获取用于业务请求的语音命令;根据语音命令,提取语音特征序列;根据预置的业务类别解码网络对语音命令进行解码,确定当前请求的业务类别;确定与业务类别相对应的业务解码网络;根据确定的业务解码网络对所述语音命令进行二次解码,确定语音命令的完整内容。

Description

一种语音命令处理方法以及***
技术领域
本发明涉及通讯和计算机技术领域,尤其是涉及一种语音命令处理方法以及***。
背景技术
在现有语音命令控制***中,***接收用户输入的语音命令信号并提取相应的声学特征序列;随后***在预设的命令词解码网络中搜索相应于所述声学特征序列的最优路径,获取用户命令内容。所述预设的命令词解码网络通常由***支持的所有语音命令及相应的语音命令参数确定。也就是说对用户的语音输入,***需要在一个完整的命令词解码网络内计算所有可能路径的概率,确定最优的识别结果。显然随着语音命令控制***支持的语音响应功能日益增多,解码网络规模也日渐扩大,在所述命令词解码网络内解码的运行效率也会受到一定影响。
特别是对用户简单的操作命令,如“打电话给张三”等,由于***依然需要对所有语音命令及相关参数解码,从而耽误了时间,大大影响了用户体验;可一并参考图1所示的一种现有命令词解码网络的词级示意图,对用户的语音命令输入,***需要从起始节点开始,逐帧计算所述提取的声学特征序列和所有语音命令及相关参数对应模型的相似度;如对“打电话给张三”的语音命令输入,***需要在“打电话”命令相关的路径、“导航到”命令相关的路径、“点播”命令相关的路径及其他命令相关的路径构成的空间内计算声学特征序列的相似度。该传统***在整体网络内解码的方式容易导致***响应较慢,特别是对具有小规模语音参数的命令输入,其解码时间容易超过用户预期,进而影响用户体验。比如,对于用户语音输入“打电话给张三”的解码,***分别将其和导航业务相关的命令参数(如一百万兴趣点(POI,Pointof Interest)数据)以及电话业务相关的命令参数(如一千个人名参数)以及音乐业务相关的命令参数(如两千首歌)分别进行匹配,其***的响应时间大约统计为一百万POI词条加一千个人名以及两千首歌的解码时间,影响了对命令的快速响应。此外在这种基于大规模解码网络解码的方式下,由于混淆词汇增多,其识别率可能也会受到一定的影响。
发明内容
本发明实施例提供了一种语音命令处理方法以及***,用于提高用户语音命令输入的响应效率,改善用户体验。
本发明第一方面提供一种语音命令处理方法,其中,可包括:
获取用于业务请求的语音命令;
根据所述语音命令,提取语音特征序列;
根据预置的业务类别解码网络对所述语音命令进行解码,确定当前请求的业务类别;
确定与所述业务类别相对应的业务解码网络;
根据确定的业务解码网络对所述语音命令进行二次解码,确定所述语音命令的完整内容。
优选地,所述根据预置的业务类别解码网络对所述语音命令进行解码,确定当前请求的业务类别,包括:
在预置的业务类别解码网络内,搜索并确定与所述语音特征序列具有最大相似度的第一解码路径;
根据所述第一解码路径确定当前请求的业务类别。
优选地,所述根据确定的业务解码网络对所述语音命令进行二次解码,确定所述语音命令的完整内容,包括:
在确定的与所述业务类别相对应的业务解码网络内,选择并确定与所述语音特征序列具有最大相似度的第二解码路径;
根据所述第二解码路径确定所述语音命令的完整内容。
优选地,所述在确定的业务解码网络内对语音命令进行二次解码,确定所述语音命令的完整内容,包括:
获取经过预置的业务类别解码网络解码后的语音命令中关键词所对应的语音段信息;
获取与所述语音命令中命令参数部分对应的语音信号;
确定所述业务解码网络对应的业务参数解码网络;
在所述业务参数解码网络内对所述语音信号进行解码,选择并确定与所述语音特征序列具有最大相似度的第三解码路径;
根据所述第三解码路径确定所述语音信号所对应的语音命令参数。
根据所述语音段信息和所述语音命令参数,确定所述语音命令的完整内容。
本发明第二方面提供一种语音命令处理***,其中,包括:
获取模块,用于获取用于业务请求的语音命令;
提取模块,用于根据所述语音命令,提取语音特征序列;
第一解码模块,用于根据预置的业务类别解码网络对所述语音命令进行解码,确定当前请求的业务类别;
确定模块,用于确定与所述业务类别相对应的业务解码网络;
第二解码模块,用于根据确定的业务解码网络对解码后的语音命令进行二次解码,确定所述语音命令的完整内容。
优选地,所述第一解码模块,具体用于在预置的业务类别解码网络内,搜索并确定具有与所述语音特征序列最大相似度的第一解码路径;根据所述第一解码路径确定当前请求的业务类别。
优选地,所述第二解码模块,具体用于在确定的与所述业务类别相对应的业务解码网络内,选择并确定与所述语音特征序列具有最大相似度的第二解码路径,所述业务解码网络为包含业务相关命令关键词和命令参数的解码网络;根据所述第二解码路径确定所述语音命令的完整内容。
优选地,所述第二解码模块,具体用于获取经过预置的业务类别解码网络解码后的语音命令中命令关键词所对应的语音段信息;获取与所述语音命令中命令参数部分对应的语音信号;在所述业务参数解码网络内对所述语音信号进行解码,选择并确定与所述语音特征序列具有最大相似度的第三解码路径;根据所述第三解码路径确定所述语音信号所对应的语音命令参数;根据所述语音段信息和所述语音命令参数,确定所述语音命令的完整内容。
从以上技术方案可以看出,本发明实施例提供的一种语音命令处理方法以及***,具有以下优点:对获取的用于业务请求的语音命令进行首次解码,确定该请求的业务类别,其后根据所述业务类别相对应的业务解码网络对所述语音命令进行二次解码,从而确定语音命令的完整内容;在与业务类别相对应的业务解码网络内进行二次解码,可实现对语音命令的快速响应,特别是提高了用于支持多种参数规模不等语音命令控制***的实用性,也提高了词汇识别率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种语音命令处理方法的流程示意图;
图2为本发明实施例提供的语音命令处理方法的另一流程示意图;
图3为本发明实施例提供的语音命令处理方法的另一流程示意图;
图4为本发明实施例提供的语音命令处理方法的另一流程示意图;
图5为本发明实施例中采用的解码网络搜索示意图;
图6为本发明实施例中对一种业务的响应示意图;
图7a为本发明实施例中一种业务相关的业务类别网络解码示意图;
图7b为本发明实施例中一种业务相关的业务网络解码示意图;
图8为本发明实施例中一种业务相关的业务参数解码网络示意图;
图9为本发明实施例提供的一种语音命令处理***的结构示意图。
具体实施方式
本发明实施例提供了一种语音命令处理方法以及***,用于提高用户语音命令输入的响应效率,改善用户体验。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
以下分别进行详细说明。
请参考图1,图1为本发明实施例提供的一种语音命令处理方法的流程示意图,其中,所述语音命令处理方法包括:
步骤101、获取用于业务请求的语音命令;
其中,所述语音命令包括与命令关键词部分相对应的语音信号和命令参数部分相对应的语音信号;
可以理解的是,所述语音命令为用户输入的语音命令,所述语音命令用于业务请求,如“打电话给张三”、“点播歌曲《朋友》”等。
步骤102、根据所述语音命令,提取语音特征序列;
步骤103、根据预置的业务类别解码网络对所述语音命令进行解码,确定当前请求的业务类别;
可以理解的是,所述根据预置的业务类别解码网络对所述语音命令进行解码后,可以确定所述语音命令的命令关键词。
步骤104、确定与所述业务类别相对应的业务解码网络;
其中,确定与所述业务类别相对应的业务解码网络的一种可选实施方式为:根据确定出来的当前请求的业务类别,在预置的业务类别与业务解码网络的关系对应表中查找,获取并确定出与所述业务类别相对应的业务解码网络。
可以理解的是,业务类别与业务解码网络的关系对应表是预先设置在语音命令处理***中的;在本实施方式中,所述业务类别可以包括电话通讯业务、歌曲点播业务、以及地方导航业务等业务中的至少一个。
另外,本发明实施例还可以使用可扩展标记语言(Extensible MarkupLanguage,XML)配置文件的方式来记录业务类别与业务解码网络,或者,本发明实施例还可以由确定的业务类别携带的业务参数,生成并确定出与所述业务类别相对应的业务解码网络,此处不作具体限定。
步骤105、根据确定的业务解码网络对解码后的语音命令进行二次解码,确定所述语音命令的完整内容。
由上述可知,本发明实施例提供的一种语音命令处理方法,对获取的用于业务请求的语音命令进行首次解码,确定该请求的业务类别,其后根据所述业务类别相对应的业务解码网络对所述语音命令进行二次解码,从而确定语音命令的完整内容;在与业务类别相对应的业务解码网络内进行二次解码,可实现对语音命令的快速响应,特别是提高了用于支持多种参数规模不等语音命令控制***的实用性,也提高了词汇识别率。
可选地,请参考图2,图2为本发明实施例提供的一种语音命令处理方法的流程示意图,其中,根据预置的业务类别解码网络对所述语音命令进行解码,确定当前请求的业务类别(步骤103),可以包括:
步骤1031、在预置的业务类别解码网络内,搜索并确定与所述语音特征序列具有最大相似度的第一解码路径;
步骤1032、根据所述第一解码路径确定当前请求的业务类别。
其中,根据与所述语音特征序列具有最大相似度的第一解码路径确定当前请求的业务类别,也就是确定了所述语音命令的业务类型,可以针对性地缩小了解码空间,提高了解码效率;本发明实施例中,所述最大相似度的第一解码路径可以认为是该实施方式中确定当前请求的业务类别的最优路径。
可选地,请参考图3,图3为本发明实施例提供的一种语音命令处理方法的流程示意图,在一种可实施方式中,根据确定的业务解码网络对解码后的语音命令进行二次解码,确定所述语音命令的完整内容(步骤105),可以具体包括:
步骤1051-a、在确定的与所述业务类别相对应的业务解码网络内,选择并确定与所述语音特征序列具有最大相似度的第二解码路径;
可以理解的是,该实施方式中,所述业务解码网络为包含业务相关命令关键词和命令参数的解码网络;
步骤1052-a、根据所述第二解码路径确定所述语音命令的完整内容;
本实施方式中,由于该业务解码网络包含了所述语音命令中对应的命令关键词和命令参数,即所述步骤1051-a与所述步骤1052-a是对所述语音命令的整体进行解码,因此,该二次解码的结果是语音命令的完整内容。
可以理解的是,利用与所述业务类别相对应的业务解码网络以及与所述语音特征序列具有最大相似度的第二解码路径,对所述语音命令进行二次解码,确定所述语音命令的完整内容,更加有针对性地缩小了解码空间,提高了解码效率,所述最大相似度的第二解码路径可以认为是该实施方式中确定所述语音命令的完整内容的最优路径。
另需要说明的是,本发明实施例中,第一次解码过程使用的解码路径为第一解码路径,第二次解码过程使用的解码路径为第二解码路径,所述第一解码路径和所述第二解码路径均是为了表示当前处理方法中,与述语音特征序列具有最大相似度的解码路径,所述第一解码路径和所述第二解码路径可以相同,也可以不同,本发明实施例对此不作具体限定。
可选地,请参考图4,图4为本发明实施例提供的一种语音命令处理方法的流程示意图,在另一种可实施方式中,根据确定的业务解码网络对解码后的语音命令进行二次解码,确定所述语音命令的完整内容(步骤105),可以具体包括:
步骤1051-b、获取经过预置的业务类别解码网络解码后的语音命令中命令关键词所对应的语音段信息;
步骤1052-b、获取与所述语音命令中命令参数部分对应的语音信号;
步骤1053-b、确定与所述业务解码网络对应的业务参数解码网络;
步骤1054-b、在所述业务解码网络内对所述语音信号进行解码,选择并确定与所述语音特征序列具有最大相似度的第三解码路径;
步骤1055-b、根据所述第三解码路径确定所述语音信号所对应的语音命令参数;
步骤1056-b、根据所述语音段信息和所述语音命令参数,确定所述语音命令的完整内容。
本实施方式中,根据业务解码网络,对语音命令中命令参数部分对应的语音信号进行解码,得到的语音命令参数与所述命令关键词所对应的语音段信息结合得到语音命令的完整内容。
可以理解的是,利用与所述业务类别相对应的业务解码网络以及与所述语音特征序列具有最大相似度的第三解码路径,对所述语音命令中命令参数部分对应的语音信号进行解码,确定所述语音命令的完整内容,更加有针对性地缩小了解码空间,提高了解码效率,所述最大相似度的第三解码路径可以认为是该实施方式中确定所述语音命令的完整内容的最优路径。
另需要说明的是,本发明实施例中,第二次解码过程的一种可实施方式中使用的解码路径为第二解码路径,另一种可实施方式中使用的解码路径为第三解码路径,所述第二解码路径和所述第三解码路径均是为了表示在对语音命令进行第二次解码的过程中,与述语音特征序列具有最大相似度的解码路径,所述第二解码路径和所述第三解码路径可以相同,也可以不同,本发明实施例对此不作具体限定。
由上述可知,本发明实施例提供的一种语音命令处理方法,对获取的用于业务请求的语音命令进行首次解码,确定该请求的业务类别,其后根据所述业务类别相对应的业务解码网络对所述语音命令进行二次解码,从而确定语音命令的完整内容;在与业务类别相对应的业务解码网络内进行二次解码,可实现对语音命令的快速响应,特别是提高了用于支持多种参数规模不等语音命令控制***的实用性,也提高了词汇识别率。
为了更好地理解本发明提供的一种语音命令处理方法,以下以一应用场景为例子进行具体说明:
首先,可进行***初始化,生成语音命令业务类别的解码网络及各命令相关参数的解码网络。所述语音命令业务类别的解码网络用于对诸如“打电话”,“导航到”,“点播”,“打开”,“搜索”等操作命令的识别,而命令相关参数的解码网络是根据各命令要求订制而成,比如对“打电话”业务,***可能根据***预存的联系人名构建,还可进一步包含数字识别网络等;其次,接收用户输入的语音命令,提取语音特征序列,所述语音命令用于业务请求;接着,使用业务类别解码网络解码确定业务类别;然后,确定出与所述业务类别相对应的业务解码网络;最后,在所述业务解码网络内的搜索最优路径,确定语音命令内容。
请结合参考图5,图5为本发明实施例中采用的解码网络搜索示意图。***首先在业务类别解码网络内确定单一的业务类型,随后从该业务类型相关的业务解码网络内确定最优路径。比如对“打电话给张三”的输入,***首先在业务类别解码网络内解码确定业务类型,比如“打电话”业务,随后获取该业务对应的业务解码网络,并在所述业务解码网络内确定完整的语音命令内容。这种分级处理的方式大大减少了解码搜索代价,提高了解码效率。
如图6所示,图6为本发明实施例中对“打电话”业务的响应示意图,显然对用户输入的语音命令,***首先确认业务类型为“打电话”业务,随后对业务相关的一千人名解码,确定命令参数,获取完整的解码结果。该***的响应时间为一千词条的响应时间,且由于解码在受限的一千人名解码空间内开展,其识别准确率也得到进一步的提高。
本发明实施例中,首先根据用户输入的语音命令确定可能的业务类型,具体的***在如图7a所示的业务类别解码空间内搜索最优路径,选择具有最大相似度的解码路径为最优结果,其中,图示吸收模型用于模拟非语音命令的其他语音信号的分布;在获取业务类型后,***选择确定的业务类型相关的业务解码网络作为新的解码网络,并在所述业务解码网络内选择具有最大路径相似度的结果作为解码结果,如图7b所示,为“打电话”业务相关的业务网络解码示意图。
如上所述***在分级解码框架下,分别在业务类别解码网络内及业务解码网络内对语音命令进行二次解码。进一步的,为了提高***的解码效率,本案还提出了一种新的算法:
在业务类别解码网络内对用户语音信号解码,获取最优路径及命令关键词所对应的语音段信息;获取语音命令中命令参数部分对应的语音信号作为新的语音命令输入,由于在业务类别解码网络解码时,语音命令参数部分的语音信号被吸收模型吸收了,因此将其作为新的语音命令输入;获取业务解码网络对应的业务参数解码网络;在所述业务参数解码网络内对所述新的语音命令输入进行解码,获取语音命令参数;根据语音段信息及语音命令参数确定语音命令完整内容。在该实施方式下,业务参数解码网络仅包含语音命令参数,避免了对语音命令的重复解码,提高了解码效率。如图8所示,为“打电话”业务相关的业务参数解码网络示意图。
由上述可知,本发明实施提供的语音命令处理方法,实现了对用户语音信号的分级处理,通过简单高效的解码方法首先确定业务命令类型,随后在业务相关的解码空间内对具体命令内容解码,实现了对不同规模语音命令的同步支持响应,提高了***效率和识别准确率。
为便于更好的实施本发明实施例的技术方案,本发明实施例还提供用于实施上述语音命令处理方法的相关***。其中名词的含义与上述语音命令处理方法中相同,具体实现细节可以参考方法实施例中的说明。
请参考图9,图9为本发明实施例提供的一种语音命令处理***的结构示意图,其中,所述语音命令处理***包括获取模块901、提取模块902、第一解码模块903、确定模块904和第二解码模块905:
所述获取模块901,用于获取用于业务请求的语音命令;
其中,所述语音命令包括与命令关键词部分相对应的语音信号和命令参数部分相对应的语音信号;
可以理解的是,所述语音命令为用户输入的语音命令,所述语音命令用于业务请求,如“打电话给张三”、“点播歌曲《朋友》”等。
所述提取模块902,用于根据所述语音命令,提取语音特征序列;
所述第一解码模块903,用于根据预置的业务类别解码网络对所述语音命令进行解码,确定当前请求的业务类别;
可以理解的是,所述根据预置的业务类别解码网络对所述语音命令进行解码后,可以确定所述语音命令的命令关键词。
所述确定模块904,用于确定与所述业务类别相对应的业务解码网络;
所述第二解码模块905,用于根据确定的业务解码网络对解码后的语音命令进行二次解码,确定所述语音命令的完整内容。
其中,确定与所述业务类别相对应的业务解码网络的一种可选实施方式为:根据确定出来的当前请求的业务类别,在预置的业务类别与业务解码网络的关系对应表中查找,获取并确定出与所述业务类别相对应的业务解码网络。
可以理解的是,业务类别与业务解码网络的关系对应表是预先设置在语音命令处理***中的;在本实施方式中,所述业务类别可以包括电话通讯业务、歌曲点播业务、以及地方导航业务等业务中的至少一个。
另外,本发明实施例还可以使用可扩展标记语言XML配置文件的方式来记录业务类别与业务解码网络,或者,本发明实施例还可以由确定的业务类别携带的业务参数,生成并确定出与所述业务类别相对应的业务解码网络,此处不作具体限定。
由上述可知,本发明实施例提供的一种语音命令处理***,对获取的用于业务请求的语音命令进行首次解码,确定该请求的业务类别,其后根据所述业务类别相对应的业务解码网络对所述语音命令进行二次解码,从而确定语音命令的完整内容;在与业务类别相对应的业务解码网络内进行二次解码,可实现对语音命令的快速响应,特别是提高了用于支持多种参数规模不等语音命令控制***的实用性,也提高了词汇识别率。
可选地,在某些实施方式中,所述第一解码模块903,可具体用于在预置的业务类别解码网络内,搜索并确定具有与所述语音特征序列最大相似度的第一解码路径;根据所述第一解码路径确定当前请求的业务类别。
其中,根据与所述语音特征序列具有最大相似度的第一解码路径确定当前请求的业务类别,也就是确定了所述语音命令的业务类型,可以针对性地缩小了解码空间,提高了解码效率;本发明实施例中,所述最大相似度的第一解码路径可以认为是该实施方式中确定当前请求的业务类别的最优路径。
可选地,在某些实施方式中,所述第二解码模块905,可具体用于在确定的与所述业务类别相对应的业务解码网络内,选择并确定与所述语音特征序列具有最大相似度的第二解码路径,所述业务解码网络为包含业务相关命令关键词和命令参数的解码网络;根据所述第二解码路径确定所述语音命令的完整内容。
本实施方式中,由于该业务解码网络包含了所述语音命令中对应的命令关键词和命令参数,即所述第二解码模块905是对所述语音命令的整体进行解码,因此,该二次解码的结果是语音命令的完整内容。
可以理解的是,利用与所述业务类别相对应的业务解码网络以及与所述语音特征序列具有最大相似度的第二解码路径,对所述语音命令进行二次解码,确定所述语音命令的完整内容,更加有针对性地缩小了解码空间,提高了解码效率,所述最大相似度的第二解码路径可以认为是该实施方式中确定所述语音命令的完整内容的最优路径。
进一步可选地,在另一实施方式下,所述第二解码模块905,可具体用于获取经过预置的业务类别解码网络解码后的语音命令中命令关键词所对应的语音段信息;获取与所述语音命令中命令参数部分对应的语音信号;在所述业务参数解码网络内对所述语音信号进行解码,选择并确定与所述语音特征序列具有最大相似度的第三解码路径;根据所述第三解码路径确定所述语音信号所对应的语音命令参数;根据所述语音段信息和所述语音命令参数,确定所述语音命令的完整内容。
本实施方式中,根据业务解码网络,对语音命令中命令参数部分对应的语音信号进行解码,得到的语音命令参数与所述命令关键词所对应的语音段信息结合得到语音命令的完整内容。
可以理解的是,利用与所述业务类别相对应的业务解码网络以及与所述语音特征序列具有最大相似度的第三解码路径,对所述语音命令中命令参数部分对应的语音信号进行解码,确定所述语音命令的完整内容,更加有针对性地缩小了解码空间,提高了解码效率,所述最大相似度的第三解码路径可以认为是该实施方式中确定所述语音命令的完整内容的最优路径。
另需要说明的是,本发明实施例中,第一次解码过程使用的解码路径为第一解码路径,第二次解码过程使用的解码路径为第二解码路径或第三解码路径,所述第一解码路径、所述第二解码路径和所述第三解码路径均是为了表示当前处理方法中,与述语音特征序列具有最大相似度的解码路径,所述第一解码路径、所述第二解码路径和所述第三解码路径可以相同,也可以不同,本发明实施例对此不作具体限定。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***及***中的各功能模块的具体工作过程和应用场景,可以参考前述方法实施例中的对应过程,在此不再赘述。
由上述可知,本发明实施例提供的一种语音命令处理***,对获取的用于业务请求的语音命令进行首次解码,确定该请求的业务类别,其后根据所述业务类别相对应的业务解码网络对所述语音命令进行二次解码,从而确定语音命令的完整内容;在与业务类别相对应的业务解码网络内进行二次解码,可实现对语音命令的快速响应,特别是提高了用于支持多种参数规模不等语音命令控制***的实用性,也提高了词汇识别率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本发明所提供的一种语音命令处理方法以及***进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种语音命令处理方法,其特征在于,包括:
获取用于业务请求的语音命令;
根据所述语音命令,提取语音特征序列;
根据预置的业务类别解码网络对所述语音命令进行解码,确定当前请求的业务类别;
确定与所述业务类别相对应的业务解码网络;
根据确定的业务解码网络对所述语音命令进行二次解码,确定所述语音命令的完整内容。
2.根据权利要求1所述的方法,其特征在于,所述根据预置的业务类别解码网络对所述语音命令进行解码,确定当前请求的业务类别包括:
在预置的业务类别解码网络内,搜索并确定与所述语音特征序列具有最大相似度的第一解码路径;
根据所述第一解码路径确定当前请求的业务类别。
3.根据权利要求1或2所述的方法,其特征在于,所述根据确定的业务解码网络对所述语音命令进行二次解码,确定所述语音命令的完整内容,包括:
在确定的与所述业务类别相对应的业务解码网络内,选择并确定与所述语音特征序列具有最大相似度的第二解码路径,所述业务解码网络为包含业务相关命令关键词和命令参数的解码网络;
根据所述第二解码路径确定所述语音命令的完整内容。
4.根据权利要求1或2所述的方法,其特征在于,所述根据确定的业务解码网络对所述语音命令进行二次解码,确定所述语音命令的完整内容,包括:
获取经过预置的业务类别解码网络解码后的语音命令中命令关键词所对应的语音段信息;
获取与所述语音命令中命令参数部分对应的语音信号;
确定与所述业务解码网络对应的业务参数解码网络;
在所述业务参数解码网络内对所述语音信号进行解码,选择并确定与所述语音特征序列具有最大相似度的第三解码路径;
根据所述第三解码路径确定所述语音信号所对应的语音命令参数。
根据所述语音段信息和所述语音命令参数,确定所述语音命令的完整内容。
5.一种语音命令处理***,其特征在于,包括:
获取模块,用于获取用于业务请求的语音命令;
提取模块,用于根据所述语音命令,提取语音特征序列;
第一解码模块,用于根据预置的业务类别解码网络对所述语音命令进行解码,确定当前请求的业务类别;
确定模块,用于确定与所述业务类别相对应的业务解码网络;
第二解码模块,用于根据确定的业务解码网络对解码后的语音命令进行二次解码,确定所述语音命令的完整内容。
6.根据权利要求5所述的***,其特征在于,所述第一解码模块,具体用于在预置的业务类别解码网络内,搜索并确定具有与所述语音特征序列最大相似度的第一解码路径;根据所述第一解码路径确定当前请求的业务类别。
7.根据权利要求5或6所述的***,其特征在于,所述第二解码模块,具体用于在确定的与所述业务类别相对应的业务解码网络内,选择并确定与所述语音特征序列具有最大相似度的第二解码路径,所述业务解码网络为包含业务相关命令关键词和命令参数的解码网络;根据所述第二解码路径确定所述语音命令的完整内容。
8.根据权利要求5或6所述的***,其特征在于,所述第二解码模块,具体用于获取经过预置的业务类别解码网络解码后的语音命令中命令关键词所对应的语音段信息;获取与所述语音命令中命令参数部分对应的语音信号;在所述业务参数解码网络内对所述语音信号进行解码,选择并确定与所述语音特征序列具有最大相似度的第三解码路径;根据所述第三解码路径确定所述语音信号所对应的语音命令参数;根据所述语音段信息和所述语音命令参数,确定所述语音命令的完整内容。
CN201310287147.9A 2013-07-09 2013-07-09 一种语音命令处理方法以及*** Pending CN104282301A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310287147.9A CN104282301A (zh) 2013-07-09 2013-07-09 一种语音命令处理方法以及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310287147.9A CN104282301A (zh) 2013-07-09 2013-07-09 一种语音命令处理方法以及***

Publications (1)

Publication Number Publication Date
CN104282301A true CN104282301A (zh) 2015-01-14

Family

ID=52257124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310287147.9A Pending CN104282301A (zh) 2013-07-09 2013-07-09 一种语音命令处理方法以及***

Country Status (1)

Country Link
CN (1) CN104282301A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426357A (zh) * 2015-11-06 2016-03-23 武汉卡比特信息有限公司 语音快速选择方法
WO2016202064A1 (zh) * 2015-06-18 2016-12-22 中兴通讯股份有限公司 指令处理方法及装置
CN106653013A (zh) * 2016-09-30 2017-05-10 北京奇虎科技有限公司 语音识别方法及装置
CN106683662A (zh) * 2015-11-10 2017-05-17 中国电信股份有限公司 一种语音识别方法和装置
CN107293294A (zh) * 2016-03-31 2017-10-24 腾讯科技(深圳)有限公司 一种语音识别处理方法及装置
CN107437416A (zh) * 2017-05-23 2017-12-05 阿里巴巴集团控股有限公司 一种基于语音识别的咨询业务处理方法及装置
CN108899028A (zh) * 2018-06-08 2018-11-27 广州视源电子科技股份有限公司 语音唤醒方法、搜索方法、装置和终端
CN108932944A (zh) * 2017-10-23 2018-12-04 北京猎户星空科技有限公司 解码方法及装置
WO2021072955A1 (zh) * 2019-10-16 2021-04-22 科大讯飞股份有限公司 解码网络构建方法、语音识别方法、装置、设备及存储介质

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016202064A1 (zh) * 2015-06-18 2016-12-22 中兴通讯股份有限公司 指令处理方法及装置
CN105426357A (zh) * 2015-11-06 2016-03-23 武汉卡比特信息有限公司 语音快速选择方法
CN106683662A (zh) * 2015-11-10 2017-05-17 中国电信股份有限公司 一种语音识别方法和装置
CN107293294B (zh) * 2016-03-31 2019-07-16 腾讯科技(深圳)有限公司 一种语音识别处理方法及装置
CN107293294A (zh) * 2016-03-31 2017-10-24 腾讯科技(深圳)有限公司 一种语音识别处理方法及装置
CN106653013B (zh) * 2016-09-30 2019-12-20 北京奇虎科技有限公司 语音识别方法及装置
CN106653013A (zh) * 2016-09-30 2017-05-10 北京奇虎科技有限公司 语音识别方法及装置
CN107437416A (zh) * 2017-05-23 2017-12-05 阿里巴巴集团控股有限公司 一种基于语音识别的咨询业务处理方法及装置
CN107437416B (zh) * 2017-05-23 2020-11-17 创新先进技术有限公司 一种基于语音识别的咨询业务处理方法及装置
CN112802459A (zh) * 2017-05-23 2021-05-14 创新先进技术有限公司 一种基于语音识别的咨询业务处理方法及装置
CN112802459B (zh) * 2017-05-23 2024-06-18 创新先进技术有限公司 一种基于语音识别的咨询业务处理方法及装置
CN108932944A (zh) * 2017-10-23 2018-12-04 北京猎户星空科技有限公司 解码方法及装置
CN108932944B (zh) * 2017-10-23 2021-07-30 北京猎户星空科技有限公司 解码方法及装置
CN108899028A (zh) * 2018-06-08 2018-11-27 广州视源电子科技股份有限公司 语音唤醒方法、搜索方法、装置和终端
WO2021072955A1 (zh) * 2019-10-16 2021-04-22 科大讯飞股份有限公司 解码网络构建方法、语音识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN104282301A (zh) 一种语音命令处理方法以及***
US10043520B2 (en) Multilevel speech recognition for candidate application group using first and second speech commands
KR101418163B1 (ko) 컨텍스트 정보를 이용한 음성 인식 복구
Reddy et al. Speech to text conversion using android platform
CN106683677B (zh) 语音识别方法及装置
CN107644638B (zh) 语音识别方法、装置、终端和计算机可读存储介质
US7818170B2 (en) Method and apparatus for distributed voice searching
US20140350933A1 (en) Voice recognition apparatus and control method thereof
KR102046486B1 (ko) 정보 입력 방법
JP2018005218A (ja) 自動通訳方法及び装置
CN110097870B (zh) 语音处理方法、装置、设备和存储介质
CN107507615A (zh) 界面智能交互控制方法、装置、***及存储介质
CN107039038A (zh) 学习个性化实体发音
CN103903619A (zh) 一种提高语音识别准确率的方法及***
CN103377652A (zh) 一种用于进行语音识别的方法、装置和设备
CN101636732A (zh) 用于语言独立语音索引和搜索的方法和装置
CN101415259A (zh) 嵌入式设备上基于双语语音查询的信息检索***及方法
CN110956955B (zh) 一种语音交互的方法和装置
JP2015004754A (ja) 対話装置、対話方法および対話プログラム
US20170301346A1 (en) Hierarchical speech recognition decoder
KR102140391B1 (ko) 검색 방법 및 이 방법을 적용하는 전자 장치
WO2015119267A1 (en) Uttered sentence collection apparatus and method
CN105487668A (zh) 终端设备的展示方法和装置
CN113113024A (zh) 语音识别方法、装置、电子设备和存储介质
KR102280439B1 (ko) 질의의도를 분석하기 위한 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150114