CN106205610B

CN106205610B - 一种语音信息识别方法和设备

Info

Publication number: CN106205610B
Application number: CN201610500446.XA
Authority: CN
Inventors: 杨大业
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2016-06-29
Filing date: 2016-06-29
Publication date: 2019-11-26
Anticipated expiration: 2036-06-29
Also published as: CN106205610A

Abstract

本发明实施例公开了一种语音信息识别方法，所述方法包括：获取待识别语音流信息；对所述待识别语音流信息进行分析，提取所述待识别语音流信息对应的第一向量；将所述第一向量进行分段整理，得到第二向量；按照预设分类原则对所述第一向量进行分类得到第三向量；根据每一分段的所述第二向量与每一类别所述第三向量之间的关系，将所述待识别语音流信息与用户进行匹配。本发明实施例同时还公开可一种语音信息识别设备。

Description

一种语音信息识别方法和设备

技术领域

本发明涉及通信领域中的语音信息识别技术，尤其涉及一种语音信息识别方法和设备。

背景技术

随着智能电子设备的不断更新，语音识别的应用越来与广泛；但是，日常应用场景中经常会出现电子设备会同时接收到多个用户发送的语音信息的问题,此时，电子设备无法匹配语音信息至对应的说话者，进而不知道究竟应该执行哪一个语音信息对应的操作。

现有技术中的可以根据不同语音的属性将语音信息与用户进行匹配，但是，用于描述语音信息的属性较多，如果需要识别的语音信息较长且包括的用户数较多，计算量比较大，实际操作起来比较复杂而且难度较大，导致用户体验较差。

发明内容

为解决上述技术问题，本发明实施例期望提供一种语音信息识别方法和设备，解决了现有技术中的语音信息识别方案的计算量较大且操作复杂难度较大的问题，降低了语音信息识别的难度，减少了计算量；同时，提高了用户的体验效果。

本发明的技术方案是这样实现的：

一种语音信息识别方法，所述方法包括：

获取待识别语音流信息；

对所述待识别语音流信息进行分析，提取所述待识别语音流信息对应的第一向量；

将所述第一向量进行分段整理，得到第二向量；

按照预设分类原则对所述第一向量进行分类得到第三向量；

根据每一分段的所述第二向量与每一类别所述第三向量之间的关系，将所述待识别语音流信息与用户进行匹配。

可选的，所述将所述第一向量进行分段整理，得到第二向量，包括：

根据所述待识别语音流信息的播放时间，按照所述预设时间间隔将所述第一向量进行分段整理，得到所述第二向量。

可选的，所述按照预设分类原则对所述第一向量进行分类得到第三向量，包括：

对所述第一向量进行主成分分析，得到第四向量；

根据所述第四向量对所述第一向量进行分类整理，得到所述第三向量。

可选的，所述根据所述第四向量对所述第一向量进行分类整理，得到所述第三向量，包括：

根据所述第四向量对所述第一向量进行变分贝叶斯高斯混合模型聚类，得到所述第三向量。

可选的，所述根据每一分段的所述第二向量与每一类别所述第三向量之间的关系，将所述待识别语音流信息与用户身份信息进行匹配，包括：

将每一分段中的每一所述第二向量与每一类别中的每一所述第三向量进行匹配；

若每一分段中的每一所述第二向量与每一类别中的每一所述第三向量完全匹配，则分别对每一分段中的所述第二向量对应的待识别语音流信息进行声纹信息识别，得到所述待识别语音流信息对应的用户的身份信息。

可选的，所述方法还包括：

若每一分段中的每一所述第二向量与每一类别中的每一所述第三向量不完全匹配，则对所述第二向量中的分段进行重新分段处理同时采用维特彼算法对所述第三向量进行重新分类，直到重新分段之后的每一段中的所述第二向量与重新分类之后的每一所述第三向量完全匹配；

分别对每一分段中的所述第二向量对应的待识别语音流信息进行声纹信息识别，得到所述待识别语音流信息对应的用户的身份信息。

一种语音信息识别设备，所述设备包括：第一获取单元、第二获取单元、第三获取单元和处理单元，其中：

所述第一获取单元，用于获取待识别语音流信息；

所述第一获取单元，还用于对所述待识别语音流信息进行分析，提取所述待识别语音流信息对应的第一向量；

所述第二获取单元，用于将所述第一向量进行分段整理，得到第二向量；

所述第三获取单元，用于按照预设分类原则对所述第一向量进行分类得到第三向量；

所述处理单元，用于根据每一分段的所述第二向量与每一类别所述第三向量之间的关系，将所述待识别语音流信息与用户进行匹配。

可选的，所述第二获取单元具体用于：

可选的，所述第三获取单元包括：分析模块和第一处理模块，其中：

所述分析模块，用于对所述第一向量进行主成分分析，得到第四向量；

所述第一处理模块，用于根据所述第四向量对所述第一向量进行分类整理，得到所述第三向量。

可选的，所述第一处理模块具体用于：

可选的，所述处理单元包括：匹配模块和第二处理模块，其中：

所述匹配模块，用于将每一分段中的每一所述第二向量与每一类别中的每一所述第三向量进行匹配；

所述第二处理模块，用于若每一分段中的每一所述第二向量与每一类别中的每一所述第三向量完全匹配，则分别对每一分段中的所述第二向量对应的待识别语音流信息进行声纹信息识别，得到所述待识别语音流信息对应的用户的身份信息。

可选的，所述处理单元还包括：第三处理模块和第四处理模块，其中：

所述第三处理模块，用于若每一分段中的每一所述第二向量与每一类别中的每一所述第三向量不完全匹配，则对所述第二向量中的分段进行重新分段处理同时采用维特彼算法对所述第三向量进行重新分类，直到重新分段之后的每一段中的所述第二向量与重新分类之后的每一所述第三向量完全匹配；

所述第四处理模块，用于分别对每一分段中的所述第二向量对应的待识别语音流信息进行声纹信息识别，得到所述待识别语音流信息对应的用户的身份信息。

本发明的实施例所提供的语音信息识别方法和设备，可以获取待识别语音流信息，并对待识别语音流信息进行分析，提取待识别语音流信息对应的第一向量，然后将第一向量进行分段整理，得到第二向量，同时按照预设分类原则对第一向量进行分类得到第三向量，最后，根据每一分段的第二向量与每一类别第三向量之间的关系，将待识别语音流信息与用户进行匹配，这样，可以根据待识别语音流信息对应的向量来得到与待识别语音流信息匹配的用户，解决了现有技术中的语音信息识别方案的计算量较大且操作复杂难度较大的问题，降低了语音信息识别的难度，减少了计算量；同时，提高了用户的体验效果。

附图说明

图1为本发明的实施例提供的一种语音信息识别方法的流程示意图；

图2为本发明的实施例提供的另一种语音信息识别方法的流程示意图；

图3为本发明的实施例提供的又一种语音信息识别方法的流程示意图；

图4为本发明的实施例提供的一种语音信息识别设备的结构示意图；

图5为本发明的实施例提供的另一种语音信息识别设备的结构示意图；

图6为本发明的实施例提供的又一种语音信息识别设备的结构示意图；

图7为本发明的另一实施例提供的一种语音信息识别设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明的实施例提供一种语音信息识别方法，参照图1所示，该方法包括以下步骤：

步骤101、获取待识别语音流信息。

具体的，步骤101获取待识别语音流信息可以是由语音信息识别设备来实现的。待识别语音流信息可以是用户输入至电子设备的需要进行语音识别的语音信息，需要识别的语音信息可以是通过电子设备的语音采集器例如话筒等获取得到的。

步骤102、对待识别语音流信息进行分析，提取待识别语音流信息对应的第一向量。

具体的，步骤102对待识别语音流信息进行分析，提取待识别语音流信息对应的第一向量可以是由语音信息识别设备来实现的；可以将需要识别的语音流信息在初始分段条件下进行提取向量并标准化来得到第一向量。

步骤103、将第一向量进行分段整理，得到第二向量。

具体的，步骤103将第一向量进行分段整理，得到第二向量可以是由语音信息识别设备来实现的。其中，第一向量的分段可以是按照预先设置好的时间段进行均匀的分段，也可以是根据具体的需求进行非均匀的分段。

步骤104、按照预设分类原则对第一向量进行分类得到第三向量。

具体的，步骤104按照预设分类原则对第一向量进行分类得到第三向量可以是由语音信息识别设备来实现的。

步骤105、根据每一分段的第二向量与每一类别第三向量之间的关系，将待识别语音流信息与用户进行匹配。

具体的，步骤105根据每一分段的第二向量与每一类别第三向量之间的关系，将待识别语音流信息与用户进行匹配可以是由语音信息识别设备来实现的；可以比较分段之后得到的每一段中的第二向量与分类之后每一类中的第三向量之间的匹配关系，并根据比较结果获取需要识别的语音信息对应的用户的信息，实现待识别语音流信息与用户的匹配。

本发明的实施例所提供的语音信息识别方法，可以获取待识别语音流信息，并对待识别语音流信息进行分析，提取待识别语音流信息对应的第一向量，然后将第一向量进行分段整理，得到第二向量，同时按照预设分类原则对第一向量进行分类得到第三向量，最后，根据每一分段的第二向量与每一类别第三向量之间的关系，将待识别语音流信息与用户进行匹配，这样，可以根据待识别语音流信息对应的向量来得到与待识别语音流信息匹配的用户，解决了现有技术中的语音信息识别方案的计算量较大且操作复杂难度较大的问题，降低了语音信息识别的难度，减少了计算量；同时，提高了用户的体验效果。

本发明的实施例提供一种语音信息识别方法，参照图2所示，该方法包括以下步骤：

步骤201、语音信息识别设备获取待识别语音流信息。

步骤202、语音信息识别设备对待识别语音流信息进行分析，提取待识别语音流信息对应的第一向量。

具体的，第一向量可以是在初始分段条件下对需要识别的语音流信息进行i向量的提取并标准化得到的；例如可以按照需要识别的语音信息播放的时间，并以每1秒为单位进行初始分段得到需要识别的语音信息对应的第一向量。

步骤203、语音信息识别设备根据待识别语音流信息的播放时间，按照预设时间间隔将第一向量进行分段整理，得到第二向量。

其中，该预设时间间隔可以是用户根据具体应用场景中需要识别的语音信息的播放时长、需要识别的语音信息中对应的用户的数量、识别成功的比率等因素预先设定的一个时间间隔，例如可以是以一分钟或者五分钟等时间间隔为单元，按照需要识别的语音信息实际的播放时间和顺序，每一分钟或者每五分钟时长内的语音信息为一段，分段之后每一段需要识别的语音信息其对应的向量组成的向量集合即为第二向量。

需要说明的是，本实施例中说的是可以根据预设时间间隔对第一向量进行分段整理得到第二向量，同样可以按照不同的时间间隔对第一向量进行分段整理来得到第二向量，具体的分段方案可以根据实际的应用场景来确定。

步骤204、语音信息识别设备对第一向量进行主成分分析，得到第四向量。

具体的，对第一向量进行主成分分析可以是基于一定的因素分析第一向量，具体的主成分分析的实现过程可以参照现有技术中关于主成分分析的相关技术方案。

步骤205、语音信息识别设备根据第四向量对第一向量进行分类整理，得到第三向量。

具体的，对第一向量进行分类的可以是以第四向量为基准，将第一向量映射到每一第四向量中，之后根据实际的映射结果分类得到第三向量。

步骤206、根据每一分段的第二向量与每一类别第三向量之间的关系，将待识别语音流信息与用户进行匹配。

需要说明的是，本实施例中与其它实施例中相同步骤或概念的解释，可以参照其它实施例中的描述，此处不再赘述。

本发明的实施例提供一种语音信息识别方法，参照图3所示，该方法包括以下步骤：

步骤301、语音信息识别设备获取待识别语音流信息。

步骤302、语音信息识别设备对待识别语音流信息进行分析，提取待识别语音流信息对应的第一向量。

步骤303、语音信息识别设备根据待识别语音流信息的播放时间，按照预设时间间隔将第一向量进行分段整理，得到第二向量。

步骤304、语音信息识别设备对第一向量进行主成分分析，得到第四向量。

步骤305、语音信息识别设备根据第四向量对第一向量进行变分贝叶斯高斯混合模型聚类，得到第三向量。

具体的，语音信息识别设备可以是以第四向量为基准形成一个坐标系，将每一个第一向量映射到第四向量形成的坐标系中，之后采用变分贝叶斯高斯混合模型聚类对映射后的第一向量进行分类，得到第三向量。

步骤306、语音信息识别设备将每一分段中的每一第二向量与每一类别中的每一第三向量进行匹配。

具体的，可以将分段得到的每一个第二向量中的所有的向量与分类得到的每一个第三向量中的所有向量进行匹配度的判断，其中，一个第二向量对应一个第三向量。

需要说明的是，步骤306将每一分段中的每一第二向量与每一类别中的每一第三向量进行匹配之后可以根据匹配结果选择执行步骤307或者步骤308～309，如果每一分段中的每一第二向量与每一类别中的每一第三向量完全匹配则执行步骤307，如果每一分段中的每一第二向量与每一类别中的每一第三向量不完全匹配则执行步骤308～309；

步骤307、若每一分段中的每一第二向量与每一类别中的每一第三向量完全匹配，则语音信息识别设备分别对每一分段中的第二向量对应的待识别语音流信息进行声纹信息识别，得到待识别语音流信息对应的用户的身份信息。

具体的，如果每一分段中的第二向量中的所有向量均与对应的第三向量中的所有向量都匹配，说明每一分段中的每一第二向量与每一类别中的每一第三向量完全匹配，此时可以认为对第一向量的分段是比较准确的，可以认为一个分段中的第二向量对应的需要识别的语音信息对应的是一个用户的语音信息，可以直接根据每一用户自身的声纹特征信息等将第二向量对应的待识别语音流信息与用户的信息进行匹配，得到其对应的用户的身份信息。其中，声纹特征信息可以包括用户的音色、声调、音质、音量等能够唯一识别用户的特征信息。

步骤308、若每一分段中的每一第二向量与每一类别中的每一第三向量不完全匹配，则语音信息识别设备对第二向量中的分段进行重新分段处理同时采用维特彼算法对第三向量进行重新分类，直到重新分段之后的每一段中的第二向量与重新分类之后的每一第三向量完全匹配。

具体的，如果每一分段中的第二向量中的向量存在与对应的第三向量中的向量不匹配的向量，说明每一分段中的每一第二向量与每一类别中的每一第三向量并不是完全匹配的，此时需要对分段结果进行重新分段，同时需要对分类结果采用维特比算法进行重新分类，然后比较重新分段之后的第二向量与重新分类之后的第三向量是否完全匹配，如果仍然存在不匹配的向量，则继续对重新分段之后的第二向量进行分段，同时对重新分类之后的第三向量采用维特比算法进行重新分类直至重新分段之后的每一段中的第二向量与重新分类之后的每一第三向量完全匹配；重新分段之后的每一段中的第二向量与重新分类之后的每一第三向量完全匹配后，可以认为对第一向量进行重新分段的分段结果是比较准确的，可以认为一个分段中的第二向量对应的需要识别的语音信息对应的是一个用户的语音信息，可以根据每一用户自身的声纹特征信息等将第二向量对应的待识别语音流信息与用户的信息进行匹配，得到其对应的用户的身份信息。

步骤309、语音信息识别设备分别对每一分段中的第二向量对应的待识别语音流信息进行声纹信息识别，得到待识别语音流信息对应的用户的身份信息。

本发明的实施例提供的语音信息识别方法，可以获取待识别语音流信息，并对待识别语音流信息进行分析，提取待识别语音流信息对应的第一向量，然后将第一向量进行分段整理，得到第二向量，同时按照预设分类原则对第一向量进行分类得到第三向量，最后，根据每一分段的第二向量与每一类别第三向量之间的关系，将待识别语音流信息与用户进行匹配，这样，可以根据待识别语音流信息对应的向量来得到与待识别语音流信息匹配的用户，解决了现有技术中的语音信息识别方案的计算量较大且操作复杂难度较大的问题，降低了语音信息识别的难度，减少了计算量；同时，提高了用户的体验效果。

本发明的实施例提供一种语音信息识别设备4，该语音信息识别设备可以应用于图1～3对应的实施例提供的一种语音信息识别方法中，参照图4所示，该设备可以包括：第一获取单元41、第二获取单元42、第三获取单元43和处理单元44，其中：

第一获取单元41，用于获取待识别语音流信息。

第一获取单元41，还用于对待识别语音流信息进行分析，提取待识别语音流信息对应的第一向量。

第二获取单元42，用于将第一向量进行分段整理，得到第二向量。

第三获取单元43，用于按照预设分类原则对第一向量进行分类得到第三向量。

处理单元44，用于根据每一分段的第二向量与每一类别第三向量之间的关系，将待识别语音流信息与用户进行匹配。

本发明的实施例提供的语音信息识别设备，可以获取待识别语音流信息，并对待识别语音流信息进行分析，提取待识别语音流信息对应的第一向量，然后将第一向量进行分段整理，得到第二向量，同时按照预设分类原则对第一向量进行分类得到第三向量，最后，根据每一分段的第二向量与每一类别第三向量之间的关系，将待识别语音流信息与用户进行匹配，这样，可以根据待识别语音流信息对应的向量来得到与待识别语音流信息匹配的用户，解决了现有技术中的语音信息识别方案的计算量较大且操作复杂难度较大的问题，降低了语音信息识别的难度，减少了计算量；同时，提高了用户的体验效果。

具体的，第二获取单元42具体用于执行以下步骤：

根据待识别语音流信息的播放时间，按照预设时间间隔将第一向量进行分段整理，得到第二向量。

进一步，参照图5所示，第三获取单元43包括：分析模块431和第一处理模块432，其中：

分析模块431，用于对第一向量进行主成分分析，得到第四向量。

第一处理模块432，用于根据第四向量对第一向量进行分类整理，得到第三向量。

具体的，第一处理模块432还用于执行以下步骤：

根据第四向量对第一向量进行变分贝叶斯高斯混合模型聚类，得到第三向量。

进一步，参照图6所示，处理单元44包括：匹配模块441和第二处理模块442，其中：

匹配模块441，用于将每一分段中的每一第二向量与每一类别中的每一第三向量进行匹配。

第二处理模块442，用于若每一分段中的每一第二向量与每一类别中的每一第三向量完全匹配，则分别对每一分段中的第二向量对应的待识别语音流信息进行声纹信息识别，得到待识别语音流信息对应的用户的身份信息。

进一步，参照图7所示，处理单元44还包括：第三处理模块443和第四处理模块444，其中：

第三处理模块443，用于若每一分段中的每一第二向量与每一类别中的每一第三向量不完全匹配，则对第二向量中的分段进行重新分段处理同时采用维特彼算法对第三向量进行重新分类，直到重新分段之后的每一段中的第二向量与重新分类之后的每一第三向量完全匹配。

第四处理模块444，用于分别对每一分段中的第二向量对应的待识别语音流信息进行声纹信息识别，得到待识别语音流信息对应的用户的身份信息。

需要说明的是，本发明实施例中各个单元和模块之间的交互过程，可以参照图1～3对应的实施例提供的一种语音信息识别方法中的交互过程，此处不再赘述。

在实际应用中，所述第一获取单元41、第二获取单元42、第三获取单元43、处理单元44、分析模块431、第一处理模块432、匹配模块441、第二处理模块442、第三处理模块443和第四处理模块444均可由位于无线数据发送设备中的中央处理器(Central ProcessingUnit，CPU)、微处理器(Micro Processor Unit，MPU)、数字信号处理器(Digital SignalProcessor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种语音信息识别方法，所述方法包括：

获取待识别语音流信息；

将所述第一向量进行分段整理，得到第二向量；

按照预设分类原则对所述第一向量进行分类得到第三向量；

2.根据权利要求1所述的方法，其特征在于，所述将所述第一向量进行分段整理，得到第二向量，包括：

根据所述待识别语音流信息的播放时间，按照预设时间间隔将所述第一向量进行分段整理，得到所述第二向量。

3.根据权利要求1所述的方法，其特征在于，所述按照预设分类原则对所述第一向量进行分类得到第三向量，包括：

对所述第一向量进行主成分分析，得到第四向量；

4.根据权利要求3所述的方法，其特征在于，所述根据所述第四向量对所述第一向量进行分类整理，得到所述第三向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据每一分段的所述第二向量与每一类别所述第三向量之间的关系，将所述待识别语音流信息与用户进行匹配，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.一种语音信息识别设备，其特征在于，所述设备包括：第一获取单元、第二获取单元、第三获取单元和处理单元，其中：

所述第一获取单元，用于获取待识别语音流信息；

8.根据权利要求7所述的设备，其特征在于，所述第二获取单元具体用于：

9.根据权利要求7所述的设备，其特征在于，所述第三获取单元包括：分析模块和第一处理模块，其中：

10.根据权利要求9所述的设备，其特征在于，所述第一处理模块具体用于：

11.根据权利要求7所述的设备，其特征在于，所述处理单元包括：匹配模块和第二处理模块，其中：

12.根据权利要求11所述的设备，其特征在于，所述处理单元还包括：第三处理模块和第四处理模块，其中：