CN111583906B

CN111583906B - 一种语音会话的角色识别方法、装置及终端

Info

Publication number: CN111583906B
Application number: CN201910119870.3A
Authority: CN
Inventors: 高莹莹
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2023-08-15
Anticipated expiration: 2039-02-18
Also published as: CN111583906A

Abstract

本发明提供一种语音会话的角色识别方法、装置及终端，该角色识别方法包括：获取待识别语音会话；对所述待识别语音会话进行切分，得到多个语音片段；利用预先训练的多个语言模型和多个声学模型，识别得到所述多个语音片段中的每个语音片段的说话人身份；其中，所述多个语言模型是区分角色的，每个语言模型对应于一个角色；所述多个声学模型是区分角色的，每个声学模型对应于一个角色。本发明的实施例，可以利用已知说话人身份的语音信息，充分考虑声学特征以及文本特征，实现对语音会话的识别，从而实现对相应语音片段的说话人身份的有效识别。

Description

一种语音会话的角色识别方法、装置及终端

技术领域

本发明涉及数据处理技术领域，尤其涉及一种语音会话的角色识别方法、装置及终端。

背景技术

目前，在对记录的语音会话进行角色识别时，主要涉及两个模块：切分模块和聚类模块。其中，切分模块主要负责检测语音会话中说话人身份的改变点，并利用这些改变点将语音会话分割成多个语音片段；聚类模块通常采用k-means等聚类方法，将属于同一说话人身份的语音片段聚类在一起，并根据聚类结果，得到该语音会话中说话人个数以及各说话人的语音。

然而，由于聚类模块采用的聚类方法通常为无监督的，仅基于语音片段的特征进行聚类，而不同说话人的语音片段之间的特征差异可能非常小，几乎没有，因此得到的聚类结果的效果往往较差，造成无法对相应语音片段的说话人身份进行有效识别。

发明内容

本发明实施例提供一种语音会话的角色识别方法、装置及终端，以解决现有的语音会话的角色识别方法中，无法对语音片段的说话人身份进行有效识别的问题。

第一方面，本发明实施例提供了一种语音会话的角色识别方法，包括：

获取待识别语音会话；

对所述待识别语音会话进行切分，得到多个语音片段；

利用预先训练的多个语言模型和多个声学模型，识别得到所述多个语音片段中的每个语音片段的说话人身份；

其中，所述多个语言模型是区分角色的，每个语言模型对应于一个角色；所述多个声学模型是区分角色的，每个声学模型对应于一个角色。

第二方面，本发明实施例提供了一种语音会话的角色识别装置，包括：

第一获取模块，用于获取待识别语音会话；

第一切分模块，用于对所述待识别语音会话进行切分，得到多个语音片段；

识别模块，用于利用预先训练的多个语言模型和多个声学模型，识别得到所述多个语音片段中的每个语音片段的说话人身份；

第三方面，本发明实施例提供了一种终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述计算机程序被所述处理器执行时实现上述语音会话的角色识别方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现上述语音会话的角色识别方法的步骤。

本发明实施例中，利用预先训练的区分角色的语言模型和声学模型，识别得到待识别语音会话中的每个语音片段的说话人身份，可以利用已知说话人身份的语音信息，充分考虑声学特征以及文本特征，实现对语音会话的识别，从而相比于无监督的聚类方法，可控性更高，实现对相应语音片段的说话人身份的有效识别。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的语音会话的角色识别方法的流程图；

图2A为本发明实施例中确定语音片段的说话人身份的过程示意图之一；

图2B为本发明实施例中确定语音片段的说话人身份的过程示意图之二；

图3为本发明实施例中利用声学模型确定语音片段的得分的过程示意图；

图4为本发明实施例的语音会话的角色识别装置的结构示意图；

图5为本发明实施例的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，图1是本发明实施例提供的一种语音会话的角色识别方法的流程图，该方法应用于终端，如图1所示，该方法包括如下步骤：

步骤101：获取待识别语音会话。

本实施例中，上述待识别语音会话可以理解为多个即至少两个角色的语音会话，可选为电话录音、会议录音等。

步骤102：对所述待识别语音会话进行切分，得到多个语音片段。

其中，上述对待识别语音会话进行切分的方式可采用现有方式，本发明实施例不对此进行限制。优选的，可采用静音检测技术对待识别语音会话进行切分，以保证语句的完整性。上述步骤102可包括：

通过静音检测技术，对待识别语音会话进行切分，得到多个语音片段。

步骤103：利用预先训练的多个语言模型和多个声学模型，识别得到所述多个语音片段中的每个语音片段的说话人身份。

本发明实施例的角色识别方法，利用预先训练的区分角色的语言模型和声学模型，识别得到待识别语音会话中的每个语音片段的说话人身份，可以利用已知说话人身份的语音信息，充分考虑声学特征以及文本特征，实现对语音会话的识别，从而相比于无监督的聚类方法，可控性更高，实现对相应语音片段的说话人身份的有效识别。

本发明实施例中，上述多个语言模型和多个声学模型可利用训练数据集预先训练得到，而为了保证后续识别的准确性，语言模型和声学模型所需的训练数据集优选保持一致。可选的，上述步骤101之前，所述方法还可包括：

获取训练数据集；其中，所述训练数据集中包括多个角色的语音会话；至于每个语音会话中的角色个数可依情况而定；

对所述多个角色的语音会话进行切分，得到每个角色的语音片段；此切分的方式可采用现有方式，优选可通过静音检测技术进行切分；

利用所述每个角色的语音片段，分别训练预先构建的语言模型，得到每个角色对应的语言模型；

利用所述每个角色的语音片段，分别训练预先构建的声学模型，得到每个角色对应的声学模型。

这样，可预先训练得到多个区分角色的语言模型和声学模型。

需说明的是，在利用语音片段训练语言模型时，可首先结合语音对话中所有角色的对话文本(即语音对话的标注文本)以及一些领域相关或无关的其他文本(增强模型普适性)，训练不区分角色的语言模型，用于语音识别引擎对语音对话进行文本转写，然后分别利用每个角色的对话文本，训练得到对应的语言模型，即一个角色对应一个语言模型。具体应用中，通过语言模型可获得对应语音片段(即文本片段)的困惑度值(可在困惑度值前面添加一个负号，使其与角色判断可能性成正比，作为语言模型的得分)，困惑度值越低获得的得分越高，困惑度值越低说明该语音片段属于对应角色的可能性越高。

在利用语音片段训练声学模型时，可首先将语音片段分割为多个语音帧，并提取多个语音帧中每个语音帧的谱特征；然后分别利用每个角色的语音帧的谱特征，训练得到对应的声学模型，即一个角色对应一个声学模型。上述语音帧的谱特征可选为梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)，和/或，梅尔频率分析值(Mel-Frequency Analysis，FBank)等。具体应用中，通过声学模型可获得每个语音帧的声学似然概率，而对相应语音片段中所有语音帧的声学似然概率进行相乘，可以得到该语音片段针对该声学模型的概率得分。

本发明实施例中，可选的，当利用预先训练的多个语言模型和多个声学模型，识别得到切分后的语音片段的说话人身份时，可以基于区分角色的语言模型和声学模型，分别计算切分后的语音片段针对不同角色的语言模型和声学模型的得分，并综合得分结果判断相应语音片段所属于的说话人角色。

具体的，上述步骤103可包括：

针对多个语音片段中的每个语音片段，分别执行如下步骤：

将所述语音片段分别输入到所述多个语言模型中，得到所述语音片段属于每个角色时的第一得分；

将所述语音片段分别输入到所述多个声学模型中，得到所述语音片段属于每个角色时的第二得分；

根据所述第一得分和所述第二得分，确定所述语音片段的说话人身份。

可理解的，该第一得分可选为困惑度值，该第二得分可选为声学似然概率乘积(为避免乘积值过小，可取对数)，本发明实施例不对此进行限制，由相应模型的设置决定。

这样，根据语音片段属于每个角色时的得分，确定该语音片段的说话人身份，可以提高角色识别的准确性。

进一步的，上述根据所述第一得分和所述第二得分，确定所述语音片段的说话人身份的过程可包括：

针对每个角色，对所述第一得分和所述第二得分进行加权求和，得到所述语音片段属于每个角色时的第三得分；其中，此加权过程中所需的权重值可以基于实际情况预先设置；

将所述第三得分中的最高得分对应的角色，确定为所述语音片段的说话人身份。

可理解的，由于不同模型的得分的值域可能相差较大，比如声学模型的得分一般为概率值乘积(或乘积值取对数)，语言模型的得分一般为困惑度值，即声学模型得分与语言模型得分的值域可能相差较大，因此当针对每个角色进行得分比较时，需首先基于尺度因子对相应得分进行调整，然后利用设定的权重值(或称为融合因子)对相应得分即第一得分和第二得分进行加权求和，得到每个角色的得分，选取得分最高的角色为相应语音片段的说话人身份。

或者，上述根据所述第一得分和所述第二得分，确定所述语音片段的说话人身份的过程可包括：

将所述第一得分中的最高得分对应的角色，确定为所述语音片段的第一说话人身份；

将所述第二得分中的最高得分对应的角色，确定为所述语音片段的第二说话人身份；

当所述第一说话人身份与所述第二说话人身份相同时，将所述第一说话人身份或所述第二说话人身份确定为所述语音片段的说话人身份；

或者，

当所述第一说话人身份与所述第二说话人身份不相同时，计算第一差值与第一最高得分的第一比值，计算第二差值与第二最高得分的第二比值，和将所述第一比值和所述第二比值中的最大比值对应的说话人身份，确定为所述语音片段的说话人身份；

其中，所述第一差值为所述第一得分中的最高得分和最小得分的差值，所述第一最高得分为所述第一得分中的最高得分；所述第二差值为所述第二得分中的最高得分和最小得分的差值，所述第二最高得分为所述第二得分中的最高得分。

这样，通过语音片段的得分的比较判断，可准确确定相应语音片段的说话人身份。

比如，参见图2A和图2B所示，若存在两个声学模型，分别为对应于角色1的AM1和对应于角色2的AM2，以及存在两个语言模型，分别为对应于角色1的LM1和对应于角色2的LM2；某语音片段s分别输入到AM1和AM2中，得到s属于角色1时的得分为Af1(即第二得分)，和s属于角色2时的得分为Af2(即第二得分)；s分别输入到LM1和LM2中，得到s属于角色1时的得分为Lf1(即第一得分)，和s属于角色2时的得分为Lf2(即第一得分)，则：根据Af1、Af2、Lf1和Lf2，确定s的说话人身份的过程可为：

如图2A，可首先针对角色1，对Af1和Lf1进行加权求和，得到s属于角色1时的得分(即第三得分)为M1，同时针对角色2，对Af2和Lf2进行加权求和，得到s属于角色2时的得分(即第三得分)为M2；然后将M1和M2中的最高得分对应的角色，确定为s的说话人身份，比如若M1高于M2，则s的说话人身份为角色1，而若M2高于M1，则s的说话人身份为角色2。

或者，如图2B，可首先将Af1和Af2中的最高得分对应的角色，确定为s的说话人身份1，及将Lf1和Lf2中的最高得分对应的角色，确定为s的说话人身份2；然后若s的说话人身份1和说话人身份2相同，比如是角色1，则可确定s的说话人身份为角色1；而若s的说话人身份1和说话人身份2不相同，比如确定的说话人身份1为角色1，说话人身份2为角色2，则可以计算差值1(Af1和Af2的差值绝对值)与最高得分1(Af1和Af2中的最高得分)的比值1，计算差值2(Lf1和Lf2的差值绝对值)与最高得分2(Lf1和Lf2中的最高得分)的比值2，和将比值1和比值2中的最大比值对应的说话人身份，确定为s的说话人身份。

本发明实施例中，可选的，上述将所述语音片段分别输入到所述多个声学模型中，得到所述语音片段属于每个角色时的第二得分的过程可包括：

对所述语音片段进行分帧，得到多个语音帧；

对所述多个语音帧进行特征提取，获得所述多个语音帧中每个语音帧的谱特征；

将所述每个语音帧的谱特征分别输入到所述多个声学模型中，得到所述每个语音帧属于每个角色时的第四得分；

根据所述第四得分，确定所述语音片段属于每个角色时的第二得分。

可理解的，上述声学模型可利用语音帧的谱特征训练得到。上述语音帧的谱特征可选为MFCC，和/或FBank等。而训练和识别过程中，所使用的谱特征需要保持一致。

进一步的，上述根据所述第四得分，确定所述语音片段属于每个角色时的第二得分的过程可包括：

针对每个角色，对所述第四得分进行相乘，或者相乘取对数，得到所述语音片段属于每个角色时的第二得分。

这样，借助语音片段中语音帧的谱特征，确定语音片段属于每个角色时的得分，可提高确定的角色得分的准确性。

比如，参见图3所示，本发明具体实施例中，根据声学模型比如对应于角色1的AM1和对应于角色2的AM2，确定某语音片段s属于每个角色时的得分的过程可包括如下步骤：

首先，对语音片段s进行分帧，将s分割为n个语音帧，并提取n个语音帧中每个语音帧的谱特征，获得第f1帧特征、第f2帧特征、第f3帧特征、……、第fn帧特征；

然后，将每个语音帧的谱特征分别输入到AM1和AM2，得到每个语音帧属于角色1时的得分Af1(帧似然概率)，即得到n个Af1，和每个语音帧属于角色2时的得分Af2(帧似然概率)，即得到n个Af2；

最后，针对角色1，对n个Af1进行相乘取对数，得到s属于角色1时的得分；和针对角色2，对n个Af2进行相乘取对数，得到s属于角色2时的得分。

本发明实施例中，可选的，所述将所述语音片段分别输入到所述多个语言模型中，得到所述语音片段属于每个角色时的第一得分的过程可包括：

将所述语音片段转化为文本片段；其中，此文本片段的转化过程可利用预先训练的语音识别引擎执行；

将所述文本片段分别输入到所述多个语言模型中，得到所述语音片段属于每个角色时的第一得分。

这样，利用语言模型可考虑语音片段的文本特征，准确得到相应语音片段的角色得分。

请参见图4，图4是本发明实施例提供的一种语音会话的角色识别装置的结构示意图，如图4所示，该装置包括：

第一获取模块41，用于获取待识别语音会话；

第一切分模块42，用于对所述待识别语音会话进行切分，得到多个语音片段；

识别模块43，用于利用预先训练的多个语言模型和多个声学模型，识别得到所述多个语音片段中的每个语音片段的说话人身份；

本发明实施例的角色识别装置，利用预先训练的区分角色的语言模型和声学模型，识别得到待识别语音会话中的每个语音片段的说话人身份，可以利用已知说话人身份的语音信息，充分考虑声学特征以及文本特征，实现对语音会话的识别，从而相比于无监督的聚类方法，可控性更高，实现对相应语音片段的说话人身份的有效识别。

本发明实施例中，可选的，所述识别模块43具体用于：

针对所述多个语音片段中的每个语音片段，分别执行如下步骤：

可选的，所述识别模块43具体用于：

针对每个角色，对所述第一得分和所述第二得分进行加权求和，得到所述语音片段属于每个角色时的第三得分；

可选的，所述识别模块43具体用于：

或者，

可选的，所述识别模块43具体用于：

对所述语音片段进行分帧，得到多个语音帧；

可选的，所述识别模块43具体用于：

针对每个角色，对所述第四得分进行相乘，得到所述语音片段属于每个角色时的第二得分。

可选的，所述识别模块43具体用于：

将所述语音片段转化为文本片段；

可选的，切分模块42具体用于：

通过静音检测技术，对所述待识别语音会话进行切分，得到多个语音片段。

可选的，所述装置40还包括：

第二获取模块，用于获取训练数据集；其中，所述训练数据集中包括多个角色的语音会话；

第二切分模块，用于对所述多个角色的语音会话进行切分，得到每个角色的语音片段；

第一训练模块，用于利用所述每个角色的语音片段，分别训练预先构建的语言模型，得到每个角色对应的语言模型；

第二训练模块，用于利用所述每个角色的语音片段，分别训练预先构建的声学模型，得到每个角色对应的声学模型。

此外，本发明实施例还提供了一种终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述计算机程序被所述处理器执行时可实现上述语音会话的角色识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

具体的，参见图5所示，本发明实施例还提供了一种终端，包括总线51、收发机52、天线53、总线接口54、处理器55和存储器56。

在本发明实施例中，所述终端还包括：存储在存储器56上并可在处理器55上运行的计算机程序。其中，所述计算机程序被处理器55执行时可实现上述语音会话的角色识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

在图5中，总线架构(用总线51来代表)，总线51可以包括任意数量的互联的总线和桥，总线51将包括由处理器55代表的一个或多个处理器和存储器56代表的存储器的各种电路链接在一起。总线51还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口54在总线51和收发机52之间提供接口。收发机52可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器55处理的数据通过天线53在无线介质上进行传输，进一步，天线53还接收数据并将数据传送给处理器55。

处理器55负责管理总线51和通常的处理，还可以提供各种功能，包括定时，***接口，电压调节、电源管理以及其他控制功能。而存储器56可以被用于存储处理器55在执行操作时所使用的数据。

可选的，处理器55可以是CPU、ASIC、FPGA或CPLD。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音会话的角色识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音会话的角色识别方法，其特征在于，包括：

获取待识别语音会话；

对所述待识别语音会话进行切分，得到多个语音片段；

其中，所述多个语言模型是区分角色的，每个语言模型对应于一个角色；所述多个声学模型是区分角色的，每个声学模型对应于一个角色；

其中，所述利用预先训练的多个语言模型和多个声学模型，识别得到所述多个语音片段中的每个语音片段的说话人身份，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一得分和所述第二得分，确定所述语音片段的说话人身份，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一得分和所述第二得分，确定所述语音片段的说话人身份，包括：

或者，

4.根据权利要求1所述的方法，其特征在于，所述将所述语音片段分别输入到所述多个声学模型中，得到所述语音片段属于每个角色时的第二得分，包括：

对所述语音片段进行分帧，得到多个语音帧；

5.根据权利要求4所述的方法，其特征在于，所述根据所述第四得分，确定所述语音片段属于每个角色时的第二得分，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述语音片段分别输入到所述多个语言模型中，得到所述语音片段属于每个角色时的第一得分，包括：

将所述语音片段转化为文本片段；

7.根据权利要求1所述的方法，其特征在于，所述对所述待识别语音会话进行切分，得到多个语音片段，包括：

8.根据权利要求1所述的方法，其特征在于，所述获取待识别语音会话之前，所述方法还包括：

获取训练数据集；其中，所述训练数据集中包括多个角色的语音会话；

对所述多个角色的语音会话进行切分，得到每个角色的语音片段；

9.一种语音会话的角色识别装置，其特征在于，包括：

第一获取模块，用于获取待识别语音会话；

其中，所述识别模块具体用于：

10.一种终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的语音会话的角色识别方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的语音会话的角色识别方法的步骤。