CN118098263A

CN118098263A - 一医多患的语音分离方法和电子设备

Info

Publication number: CN118098263A
Application number: CN202311873262.4A
Authority: CN
Inventors: 张丽; 刘景瑞; 井明; 张国钰; 张广委; 刘涛; 禹继国
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-05-28

Abstract

本发明涉及语音信号处理技术领域，尤其是提供了一医多患的语音分离方法和电子设备。该方法包括将同一医生对应的不同患者的多个问诊源音频输入到声纹分割聚类模型，得到每个问诊源音频对应的RTTM文件；根据RTTM文件将对应的问诊原始音频进行裁剪拼接，得到每个问诊原始音频对应的子分离音频；对每个问诊原始音频对应的子分离音频进行声纹识别，确定出现多次的为医生音频，出现一次的为患者音频；将医生音频进行拼接，得到不同患者与医生的多个分离音频，并将每个分离音频以身份和说话者标签的命名，该方法在实现对医患的交流音频进行分离的同时，能够根据时序标签实现获取语音样本，并且确定说话者的身份信息。

Description

一医多患的语音分离方法和电子设备

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一医多患的语音分离方法和电子设备。

背景技术

在对医生和患者的交流音频进行语音识别以及自然语言处理时，区别医生和患者的音频内容有着至关重要的作用。例如，患者由于缺乏专业的医学知识，其对疾病的描述不够准确，而最终的治疗方案，一定是由医生制定的。通过声纹分割聚类区分医生与患者的声音，能够帮助我们更好的生成结构化信息，以完善电子病历或进行自动诊断分析等。

另外，语音数据包含可以被机器学习模型识别的声学和语言特征，以衡量说话人的行为健康状况。而且语音数据的收集对于患者来说相对简单方便以及便宜，只需要一个麦克风、一个安静的地方和一个采集音频样本的设备。因此，基于语音的生物标记物可以对疾病进行预先筛查，监测病情进展和对治疗的反应，并在知情同意的情况下成为临床研究的有用替代标记物，但这一过程的前提同样是在采集音频样本时需要将医生和患者的音频进行区分。在实际情况中，大部分医生与患者的语音并不是单独采集的，而是混合在一起的。现有技术中，通常将说话人的日志用于分离时域上的声音，然而，该分离方法无法根据时序标签获取语音样本，并且也无法确定说话人的身份信息。

发明内容

有鉴于此，本发明提供了一医多患的语音分离方法和电子设备，用以在实现对医患的交流音频进行分离的同时，能够根据时序标签实现获取语音样本，并且确定说话者的身份信息。

第一方面，本发明提供了一医多患的语音分离方法，所述方法包括：

步骤一、将同一医生对应的不同患者的多个问诊源音频输入到声纹分割聚类模型，得到每个问诊源音频对应的RTTM文件；

步骤二、根据所述RTTM文件将对应的问诊原始音频进行裁剪拼接，得到每个问诊原始音频对应的子分离音频；

步骤三、对每个问诊原始音频对应的所述子分离音频进行声纹识别，确定出现多次的为医生音频，出现一次的为患者音频；将所述医生音频进行拼接，得到不同患者与医生的多个分离音频，并将每个所述分离音频以身份和说话者标签的命名。

可选地，所述步骤一包括：

步骤S11、通过语音活动检测模型，将每个问诊源音频帧逐帧分为语音信号音频和非语音信号音频两个类别；

步骤S12、根据步骤S11中分类的两个类别，将语音信号音频分割成N个片段，并对语音信号音频中说话者转换检测，获得说话者发生转换的时间点，其中，N为正整数；

步骤S13、根据步骤S12中分割的N个片段，计算N个片段对应的声纹嵌入码；

步骤S14、对步骤S13中的每个声纹嵌入码进行聚类分析，将每个声纹嵌入码归入一个类别中，得到声纹分割聚类的初步数据，其中一个类别对应一个说话者；

步骤S15、将步骤S14中的初步数据作为训练数据，得到训练后的分类器模型；对语音信号音频进行二次分割，得到M个片段；将所述分类器模型应用到所述M个片段上，得到声纹分割聚类的分类数据，其中，M为正整数且M＞N；

步骤S16、将步骤S15中M个片段对应的开始时间、截止时间与说话者标签保存至RTTM文件中，获得RTTM文件。

可选地，所述步骤二包括：

步骤S21、根据RTTM文件中的开始时间、截止时间以及说话者标签，在循环体内保存单次开始时间与截至时间；

步骤S22、根据步骤S21中的开始时间与截至时间将对应的问诊原始音频进行裁剪，保存临时分割文件；

步骤S23、判断保存目录中是否存在以步骤S21中说话者标签命名的音频文件；

步骤S24、若判断出保存目录中不存在以所述说话者标签命名的音频文件，则将步骤S22中临时分割文件按说话者标签进行命名并保存；

步骤S25、若判断出保存目录中存在以所述说话者标签命名的音频文件，则在存在的以所述说话者标签命名的音频文件之后，拼接步骤S22中临时分割文件；继续执行步骤S21，遍历完成RTTM文件中的开始时间、截止时间以及说话者标签后，得到两个以说话者标签命名的子音频文件。

可选地，所述步骤三包括：

步骤S31、将每个问诊原始音频对应的所述子分离音频提取出任意3秒的连续片段；

步骤S32、提取步骤S31中任意3秒的连续片段中的声纹嵌入码，并对所述声纹嵌入码进行聚类分析，得到各个时间片段的身份识别序号；

步骤S33、将身份重复出现的子音频文件进行拼接，并以医生和身份识别序号命名文件，身份只出现一次的子音频文件，以患者和身份识别序号命名文件。

可选地，所述步骤S11中的语音活动检测模型采用高斯混合模型(GMM-VAD)；

高斯混合模型进行语音活动检测的公式为：

其中，w₁为语音信号的权重；w₂为非语音信号的权重；μ₁为语音信号的均值；为语音信号的方差；μ₂为非语音信号的均值；/>为非语音信号的方差。

可选地，所述步骤S12说话者转换检测采用左右窗比较，其中所述左右窗比较包括：

步骤S121、对每个问诊源音频帧选取大小相同的左右两个窗口，计算左右两个窗口的声纹嵌入码以及左右两个声纹嵌入码的余弦相似度，以获得一个以音频帧的时间为x轴，以所述余弦相似度为y轴的二维曲线；

步骤S122、对步骤S121中的二维曲线进行峰值检测，选取所有的局部极小值点，并判断局部极小值点对应的余弦相似度是否小于特定阈值；

步骤S123、若判断处局部极小值点对应的余弦相似度小于特定阈值，则说话者发生转换。

可选地，所述步骤S13声纹嵌入码的计算采用基于身份向量i-vector因子分析，给定说话者语音片段,与其对应的高斯均值超矢量定义为:

s＝m+T w；

其中，s为给定说话者语音片段的高斯均值超矢量；m为与说话者和信道均无关的超向量；T为全局差异空间矩阵；w为一个服从标准多元正态分布的随机向量{x_i}，维度通常选取在400到600之间。

可选地，所述步骤S14中聚类分析采用K-均值聚类；所述K-均值聚类包括：

步骤S141、将N则随机向量w{x_i}划分为K个子集S＝{S1，···，Sk}，使得类内平方和最小，选取初始的K个类的中心，其中1≤i≤N；

步骤S142、计算每一个数据与步骤S141中K个类的中心的余弦相似度，将其分配至余弦相似度最高的类；

步骤S143、根据步骤S142分配到每个类的数据，计算数据的均值向量，将其作为类的中心，继续执行步骤S142，直至满足收敛准则，类内平方和的变化小于阈值。

第二方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在电子设备执行第一方面或第一方面任一可能的实现方式中的一医多患的语音分离方法。

第三方面，本发明提供一种电子设备，包括：一个或多个处理器；存储器；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行第一方面或第一方面任一可能的实现方式中的一医多患的语音分离方法。

本发明提供的技术方案中，该方法包括将同一医生对应的不同患者的多个问诊源音频输入到声纹分割聚类模型，得到每个问诊源音频对应的RTTM文件；根据RTTM文件将对应的问诊原始音频进行裁剪拼接，得到每个问诊原始音频对应的子分离音频；对每个问诊原始音频对应的子分离音频进行声纹识别，确定出现多次的为医生音频，出现一次的为患者音频；将医生音频进行拼接，得到不同患者与医生的多个分离音频，并将每个分离音频以身份和说话者标签的命名，该方法在实现对医患的交流音频进行分离的同时，能够根据时序标签实现获取语音样本，并且确定说话者的身份信息。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一医多患的语音分离方法的流程图；

图2为本发明实施例提供的语音分割的示意图；

图3为本发明实施例提供的声纹分割聚类模型的框架图；

图4为本发明实施例提供的获得子分离音频方法的流程图；

图5为本发明实施例提供的身份识别方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，甲和/或乙，可以表示：单独存在甲，同时存在甲和乙，单独存在乙这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

图1为本发明实施例提供的一医多患的语音分离方法的流程图，如图1所示，该方法包括：

步骤一、将同一医生对应的不同患者的多个问诊源音频输入到声纹分割聚类模型，得到每个问诊源音频对应的RTTM文件。

本发明实施例中，RTTM文件包括开始时间、截止时间以及说话者标签。

RTTM文件是以空格分隔的文本文件，每行包含一圈，每行包含十个字段：

·type——段类型；应始终为SPEAKER。

·文件ID——文件名；记录的基本名称减去扩展名(例如，rec1_a)。

·Channel ID——通道索引；应始终为1。

·转换开始——从录音开始开始以秒为单位的转换开始。

·持续时间——语音持续时间(以秒为单位)。

·正字法字段--应始终为<NA>。

·扬声器类型-应始终为<NA>。

·发言者姓名——本轮发言者的姓名；在每个文件的范围内应该是唯一的。

·置信度——***认为信息正确的置信度(概率)；应始终为<NA>。

·信号超前时间-应始终为<NA>。

图2为本发明实施例提供的声纹分割聚类模型的框架图，如图2所示，步骤一包括：

步骤S11、通过语音活动检测模型，将每个问诊源音频帧逐帧分为语音信号音频和非语音信号音频两个类别。

本发明实施例中，步骤S11中的语音活动检测模型采用高斯混合模型(GMM-VAD)；

高斯混合模型进行语音活动检测p(x)的公式为：

本发明实施例中，高斯混合模型进行语音检测的原理是假设语音信号与非语音信号都符合高斯分布，并且假设非语音信号比语音信号平稳，能量小于语音。即非语音信号均值方差小于语音信号。根据上述公式所示，GMM-VAD中包括6个参数：语音信号的均值、方差和权重，非语音信号的均值、方差和权重。将信号分成6个频带：80Hz～250Hz，250Hz～500Hz，500Hz～1KHz，1KHz～2KHz，2KHz～3KHz，3KH_z～4KHz。每个频带均用GMM去拟合信号。在GMM-VAD对象初始化时，上述的6个参数会使用默认值，当信号来时，根据目前的GMM模型计算相似概率并判断当前帧是语音还是噪声；然后根据判断，用极大似然估计去更新上述6个参数，更新GMM模型。

步骤S12、根据步骤S11中分类的两个类别，将语音信号音频分割成N个片段，并对语音信号音频中说话者转换检测，获得说话者发生转换的时间点，其中，N为正整数。

本发明实施例中，在完成语音活动检测之后，需要将包含语音信号的音频分割成许多的片段，以便计算声纹嵌入码并进行聚类。越短的片段，包含的信息越少；而越长的片段，越容易包含多个说话者。通过说话者转换检测，检测说话者发生变化的具体时间点，使分割得到的片段同时满足以上两个条件。

本发明实施例中，步骤S12说话者转换检测采用左右窗比较，其中所述左右窗比较包括：

步骤S121、对每个问诊源音频帧选取大小相同的左右两个窗口，计算左右两个窗口的声纹嵌入码以及左右两个声纹嵌入码的余弦相似度，以获得一个以音频帧的时间为x轴，以所述余弦相似度为y轴的二维曲线。

步骤S122、对步骤S121中的二维曲线进行峰值检测，选取所有的局部极小值点，并判断局部极小值点对应的余弦相似度是否小于特定阈值。

本发明实施例中，音频频帧的检测密度设置为100毫秒，左右窗大小分别为2秒，峰值检测的窗口为1秒。

步骤S13、根据步骤S12中分割的N个片段，计算N个片段对应的声纹嵌入码。

本发明实施例中，步骤S13声纹嵌入码的计算采用基于身份向量(identificationvector，i-vector)因子分析，给定说话者语音片段，与其对应的高斯均值超矢量定义为：

s＝m+Tw；

本发明实施例中，w也被称为“身份向量”，简写为i-vector。通过计算目标说话者对应的Baum-Welch统计量，估计全局差异空间矩阵T，计算w的后验均值，即为i-vector。

步骤S14、对步骤S13中的每个声纹嵌入码进行聚类分析，将每个声纹嵌入码归入一个类别中，得到声纹分割聚类的初步数据，其中一个类别对应一个说话者。

本发明实施例中，步骤S14中聚类分析采用K-均值聚类；所述K-均值聚类包括：

步骤S141、将N则随机向量w{x_i}划分为K个子集S＝{S1，···，Sk}，使得类内平方和最小，选取初始的K个类的中心，其中1≤i≤N。

本发明实施例中，K取值为2。

步骤S142、计算每一个数据与步骤S141中K个类的中心的余弦相似度，将其分配至余弦相似度最高的类。

本发明实施例中，余弦相似度的余弦距离公式为：

其中cos(x，μ_i)表示x与μ_i两向量夹角对应的余弦值，此余弦值就可以用来表示这两个向量的相似性。夹角越小，趋近于0度，余弦值越接近于1，它们的方向更加吻合，则越相似；当两个向量的方向完全相反夹角余弦取最小值-1；当余弦值为0时，两向量正交，夹角为90度。

本发明实施例中，优化的初始化策略，能够大大减少收敛所需的分配与更新的次数。因此初始化策略选用K-Means++方法：

(1)初始点。从所有数据中按照均匀分布随机选一个作为第一个类的中心。

(2)计算距离。对于数据中的每一个点，计算其到已有的类的中心的距离，并取这些距离的最小值。

(3)随机采样。从所有数据中随机选取一个点作为下一个类的中心，其概率与上述计算距离最小值的平方成正比。

(4)迭代。重复上述第2～3步，直至所有K个中心都被选取为止。

从以上步骤可见，K-Means++方法的好处在于，可以避免将距离过于接近的点同时选为初始类的中心，并能够照顾到距离大部分数据较远的点。

步骤S15、将步骤S14中的初步数据作为训练数据，得到训练后的分类器模型；对语音信号音频进行二次分割，得到M个片段；将所述分类器模型应用到所述M个片段上，得到声纹分割聚类的分类数据，其中，M为正整数且M＞N。

本发明实施例中，在完成聚类分析之后，每一个片段就已经得到了对应的说话者，但这时的结果可能依然不够理想。二次分割便是在聚类完成之后的一种后处理方法，用来对片段的边界及聚类的结果进行进一步调整，从而得到更优的结果。

二次分割采用最简单的基于分类的二次分割，即将聚类算法的结果作为训练数据，训练出一个分类器模型，再将该分类器应用到同样的数据上，得到分类结果。初始的分割聚类结果为{(x_i，y_i)}，其中1≤i≤N，也就是每个说话者所对应的固定长度音频片段(总共有N个片段)。如图2所示，从更加密集的M＞N个音频片段中提取特征{z_j}，其中1≤j≤M，找到这些特征所对应的说话者，由此训练一个二类分类器。最后，将该训练好的分类器应用到这M个密集的特征{z_j}上，得到新的分类结果，作为二次分割的最终结果,将每个分割片段对应的开始时间、截止时间与说话者标签保存在RTTM文件当中。

步骤二、根据RTTM文件将对应的问诊原始音频进行裁剪拼接，得到每个问诊原始音频对应的子分离音频。

步骤三、对每个问诊原始音频对应的子分离音频进行声纹识别，确定出现多次的为医生音频，出现一次的为患者音频；将医生音频进行拼接，得到不同患者与医生的多个分离音频，并将每个所述分离音频以身份和说话者标签的命名。

本发明实施例中，如图1所示，00和01为说话者标签或身份识别序号，身份和说话者标签如医生00，患者00，患者01。

图3为本发明实施例提供的获得子分离音频方法的流程图，如图3所示，步骤二包括：

步骤S21、根据RTTM文件中的开始时间、截止时间以及说话者标签，在循环体内保存单次开始时间与截至时间。

步骤S22、根据步骤S21中的开始时间与截至时间将对应的问诊原始音频进行裁剪，保存临时分割文件。

步骤S23、判断保存目录中是否存在以步骤S21中说话者标签命名的音频文件，若否，则执行步骤S24；若是，则执行步骤S25。

步骤S24、将步骤S22中临时分割文件按说话者标签进行命名并保存；

步骤S25、在存在的以所述说话者标签命名的音频文件之后，拼接步骤S22中临时分割文件；继续执行步骤S21，遍历完成RTTM文件中的开始时间、截止时间以及说话者标签后，得到两个以说话者标签命名的子音频文件。

本发明实施例中，裁剪拼接函数调用pydub函数库中的AudioSegment。判断目录同名文件调用os库。

图4为本发明实施例提供的身份识别方法的流程图，如图4所示，步骤三包括：

步骤S31、将每个问诊原始音频对应的所述子分离音频提取出任意3秒的连续片段。

步骤S32、提取步骤S31中任意3秒的连续片段中的声纹嵌入码，并对所述声纹嵌入码进行聚类分析，得到各个时间片段的身份识别序号。

本发明实施例中，各步骤可以由电子设备执行。例如，电子设备包括但不限于平板电脑、便携式PC、台式PC等。

本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在电子设备执行上述一医多患的语音分离方法的实施例。

图5为本发明实施例提供的一种电子设备的示意图，如图5所示，电子设备21包括：处理器211、存储器212以及存储在存储器212中并可在处理器211上运行的计算机程序213，该计算机程序213被处理器211执行时实现实施例中的一医多患的语音分离方法，为避免重复，此处不一一赘述。

电子设备21包括，但不仅限于，处理器211、存储器212。本领域技术人员可以理解，图5仅仅是电子设备21的示例，并不构成对电子设备21的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如电子设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器211可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器212可以是电子设备21的内部存储单元，例如电子设备21的硬盘或内存。存储器212也可以是电子设备21的外部存储设备，例如电子设备21上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器212还可以既包括电子设备21的内部存储单元也包括外部存储设备。存储器212用于存储计算机程序以及网络设备所需的其他程序和数据。存储器212还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种一医多患的语音分离方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤一包括：

3.根据权利要求1所述的方法，其特征在于，所述步骤二包括：

4.根据权利要求1所述的方法，其特征在于，所述步骤三包括：

5.根据权利要求2所述的方法，其特征在于，所述步骤S11中的语音活动检测模型采用高斯混合模型(GMM-VAD)；

高斯混合模型进行语音活动检测p(x)的公式为：

6.根据权利要求2所述的方法，其特征在于，所述步骤S12说话者转换检测采用左右窗比较，其中所述左右窗比较包括：

7.根据权利要求2所述的方法，其特征在于，所述步骤S13声纹嵌入码的计算采用基于身份向量i-vector因子分析，给定说话者语音片段,与其对应的高斯均值超矢量定义为:

s＝m+Tw；

8.根据权利要求2所述的方法，其特征在于，所述步骤S14中聚类分析采用K-均值聚类；所述K-均值聚类包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在电子设备执行权利要求1至8中任一项所述的一医多患的语音分离方法。

10.一种电子设备，其特征在于，包括：一个或多个处理器；存储器；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行权利要求1至8中任一项所述的一医多患的语音分离方法。