CN114464198B

CN114464198B - 一种可视化人声分离***、方法以及装置

Info

Publication number: CN114464198B
Application number: CN202111437237.2A
Authority: CN
Inventors: 屈丹; 杨绪魁; 李静涛; 闫红刚; 李喜坤; 陈琦; 邱泽宇
Original assignee: Information Engineering University of PLA Strategic Support Force; Zhengzhou Xinda Institute of Advanced Technology
Current assignee: Information Engineering University of PLA Strategic Support Force; Zhengzhou Xinda Institute of Advanced Technology
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2023-06-06
Anticipated expiration: 2041-11-30
Also published as: CN114464198A

Abstract

本发明属于人工智能人声分离技术领域，特别涉及一种可视化人声分离***、方法以及装置，该方法包括打开可视化人声分离***，把要分离的音/视频文件导入***中；把音/视频转换成和人声分离算法相匹配的音频格式；把要处理的音频文件进行逻辑切分，按时间先后顺序进行分句，最终形成每句话包含说话人名称、开始时间和结束时间的json文件；把分离后的结果在界面上进行展示，音频文件以波形形式展示在上半部分，解析后的json文件以列表形式展示在下半部分；在结果展示界面进行每句话的播放和调整，实现精准人声分离；把分离好的人声分句，根据需求进行选中导出。本发明在人工智能人声分离算法基础上，进行界面可视化的手动调整，达到精准人声分离效果。

Description

一种可视化人声分离***、方法以及装置

技术领域

本发明属于人工智能人声分离技术领域，特别涉及一种可视化人声分离***、方法以及装置。

背景技术

随着经济社会的发展，电信诈骗案件呈逐年上升趋势，通话记录中一般是包含两个人声音的单通道文件，为进一步确定犯罪分子的身份，需要把两个人的通话记录进行分离，形成一个说话人一份音频文件这种形式，便于以后从声纹库中检索犯罪嫌疑人或进行1:1的声纹鉴定。

因为涉及犯罪嫌疑人身份认定，就需要更精准的人声分离方法，随着人工智能的发展，使用深度学习多层神经网络模式，已经使人声分离正确率有了很大的提高，但是还不能保证100%的准确性。在人工智能算法正确率基础上，有没有更精准的人声分离方法，成为了亟待解决的问题。

发明内容

针对现有技术中存在的问题，本发明提出一种可视化人声分离***、方法以及装置，在人工智能人声分离算法基础上，进行界面可视化的手动调整，达到精准的人声分离效果。

为了实现上述目的，本发明采用以下的技术方案：

本发明提供了一种可视化人声分离***，该***包括：

音/视频格式转换模块，用于把上传到***中的文件转换为和人声分离算法模块匹配的音频格式；

人声分离算法模块，用于把要处理的音频文件进行逻辑切分，按照时间先后顺序进行分句，形成每句话包含说话人名称、开始时间和结束时间的json文件；

分离结果展示模块，用于把人声分离算法模块分割的结果在界面上展示，界面上半部分展示波形，下半部分展示分句的列表信息；

可视化人声分离调整模块，用于通过播放/暂停控制列表中每个分句的单独播放，观察波形图上语音能量有无及大小，反复微调每个分句的开始时间和结束时间从而调整时间边界；

人声分离任务管理模块，用于管理上传的人声分离任务，用户每次上传的音/视频作为一个单独的任务来管理。

进一步地，所述人声分离算法模块采用人工智能的处理方式，通过基于梅尔频率倒谱系数和伽马频率倒谱系数混合特征的语音分割聚类，实现自动分离人声。

本发明还提供了一种可视化人声分离方法，包括以下步骤：

打开可视化人声分离***，把要分离的音/视频文件导入***中；

把音/视频转换成和人声分离算法相匹配的音频格式；

把要处理的音频文件进行逻辑切分，按时间先后顺序进行分句，最终形成每句话包含说话人名称、开始时间和结束时间的json文件；

把分离后的结果在界面上进行展示，音频文件以波形形式展示在上半部分，解析后的json文件以列表形式展示在下半部分；

在结果展示界面进行每句话的播放和调整，实现精准人声分离；

把分离好的人声分句，根据需求进行选中导出。

进一步地，所述要分离的音/视频文件存放到U盘、移动硬盘、光驱或者电脑硬盘这些存储介质中。

进一步地，所述把音/视频转换成和人声分离算法相匹配的音频格式，包括：

人声分离算法在训练的时候能识别的音频格式是固定的，为了适配人声分离算法，必须把导入的音/视频格式转换为训练时候的音频格式。

进一步地，所述把要处理的音频文件进行逻辑切分，按时间先后顺序进行分句，最终形成每句话包含说话人名称、开始时间和结束时间的json文件，包括：

调用***中的人声分离算法把转换后的音频文件进行逻辑上的切分，把音频文件进行分句后标记，每一个分句中包括说话人名称、开始时间、结束时间和单句时长，分句以文本形式进行保存，分句是按照时间先后顺序进行排列的，所有分句最后合并后形成一个json文件。

进一步地，所述把分离后的结果在界面上进行展示，音频文件以波形形式展示在上半部分，解析后的json文件以列表形式展示在下半部分，包括：

所述json文件中的每一个分句和音频文件的开始时间和结束时间有对应关系，在界面上不但要展示音频波形，还要展示json文件中的每一个分句以及分句与波形的对应关系；展示界面分为上下两个部分，上半部分展示音频波形，下半部分展示解析后的json文件，以列表形式按时间先后顺序排列。

进一步地，所述在结果展示界面进行每句话的播放和调整，实现精准人声分离，包括：

在波形图上根据json文件解析出的每句话开始时间和结束时间，覆盖一层半透明的标识层，通过标识层标识出波形界面上每句话的时间边界；通过播放/暂停控制列表中每个分句的单独播放，并观察波形图上语音能量有无及大小，从而对每句话的标识层通过左右拖动整体改变开始时间和结束时间，或者单独左右拖动边界来调整每句话的开始时间和结束时间，时间调整以后***自动保存；

列表中的每句话和波形图上的标识层有对应关系，选中列表中的一句话后，波形图上的标识层也会被选中，在列表中通过播放/暂停控制每行的语音播放，通过删除、新增和修改操作来调整每句话的内容。

进一步地，所述把分离好的人声分句，根据需求进行选中导出，包括：

把***中分离好的人声进行导出操作，导出的人声会根据时间先后顺序进行合并，以列表中的说话人名称为准，同一个说话人合并成一个音频文件，如果选择的分句中包含多个说话人，导出压缩文件，包含多个音频文件内容，一个说话人对应一个音频文件。

本发明还提供了一种可视化人声分离装置，包括处理器、存储器、用户接口、网络接口和数据总线，所述数据总线把处理器、存储器、用户接口和网络接口连接在一起，所述存储器存储操作***，所述操作***中安装可视化人声分离***、用户接口模块和网络通讯模块。

与现有技术相比，本发明具有以下优点：

为了解决目前人声分离的精准性不高的问题，本发明提出了一种可视化人声分离方法，首先通过人工智能人声分离算法自动对音频文件进行切分，形成每句话包含说话人名称、开始时间和结束时间的json文件，在人工智能人声分离算法高分离正确率的基础上，如果想要再进一步提高人声分离准确性，需要进行界面可视化的手动调整，通过调整每个分句的开始时间和结束时间来调整时间边界，从而达到精准的人声分离效果，本发明适用于两个人或多人通话的单通道文件。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的可视化人声分离***的结构示意图，图1中101表示音/视频格式转换模块，102表示人声分离算法模块，103表示分离结果展示模块，104表示可视化人声分离调整模块，105表示人声分离任务管理模块；

图2是本发明实施例的可视化人声分离装置的结构示意图，图2中201表示处理器，202表示数据总线，203表示用户接口，204表示网络接口，205表示存储器；

图3是本发明实施例的可视化人声分离方法的流程示意图；

图4是本发明实施例的可视化人声分离调整示意图；

图5是本发明实施例的可视化人声分离调整界面。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，要实现可视化的人声分离，必须构建一套软件***作为支撑，软件***可以是B/S架构的，也可以是C/S架构的，如果是B/S架构的，***可以在任何浏览器中打开使用。本实施例的可视化人声分离***，该***可以是页面版或者安装版，在电脑PC机中进行操作。该***包括音/视频格式转换模块101、人声分离算法模块102、分离结果展示模块103、可视化人声分离调整模块104和人声分离任务管理模块105。

音/视频格式转换模块101，用于把上传到***中的文件转换为和人声分离算法模块匹配的音频格式，每一种人工智能算法训练的时候都有默认的音频格式，只有转换为与之相匹配的格式，才能最大限度提高自动分离识别正确率。

人声分离算法模块102，用于把要处理的音频文件进行逻辑切分，按照时间先后顺序进行分句，形成每句话包含说话人名称、开始时间和结束时间的json文件，算法采用人工智能的处理方式，通过基于梅尔频率倒谱系数（MFCC）和伽马频率倒谱系数（GFCC）混合特征的语音分割聚类，来实现自动分离人声，算法识别率提升有两种途径，一种是不断标注新的数据进行迭代训练，另一种是进行算法本身的迭代升级，通过这两种方法不断提高自动人声分割的识别率。

分离结果展示模块103，用于把人声分离算法模块分割的结果在界面上展示，界面上半部分展示波形，下半部分展示分句的列表信息。

可视化人声分离调整模块104，用于通过播放/暂停控制列表中每个分句的单独播放，观察波形图上语音能量有无及大小，反复微调每个分句的开始时间和结束时间从而调整时间边界；通过删除、新增和修改操作来调整每句话的内容，这样就可以达到可视化调节的目的。

人声分离任务管理模块105，用于管理上传的人声分离任务，用户每次上传的音/视频作为一个单独的任务来管理，默认的任务名称就是用户上传的音/视频名称，也可以手动修改，任务上传的时候可以填写文件中包含的说话人人数，辅助人声分离算法进行更好的分离，分离以后的任务和***中的登录工号进行绑定，每次登录都可以看到历史的人声分离任务。

如图3所示，基于上述的可视化人声分离***，本实施例还提出一种可视化人声分离方法，包括以下步骤：

步骤S301，打开可视化人声分离***，把要分离的音/视频文件导入***中；

步骤S302，把音/视频转换成和人声分离算法相匹配的音频格式；

步骤S303，把要处理的音频文件进行逻辑切分，按时间先后顺序进行分句，最终形成每句话包含说话人名称、开始时间和结束时间的json文件；

步骤S304，把分离后的结果在界面上进行展示，音频文件以波形形式展示在上半部分，解析后的json文件以列表形式展示在下半部分；

步骤S305，在结果展示界面进行每句话的播放和调整，以达到精准的人声分离效果；

步骤S306，把分离好的人声分句，根据需求进行选中导出。

步骤S301中，把要分离的音/视频文件存放到U盘、移动硬盘、光驱或者电脑硬盘等这些存储介质中，可视化人声分离***安装在电脑的操作***中，如果想使用可视化人声分离***，需要提供人机交互功能，本实例提供页面上传导入功能，选择连接于电脑PC机上的任何存储介质，选中要操作的音/视频文件，文件格式通过校验后就可以导入***中进行处理。

步骤S302中，要处理的音/视频格式千差万别，市面上常见的格式有mp3、ogg、wav、mp4、avi、m4a等，但是这些格式上传到***中以后，不能直接拿来使用，因为要调用人工智能人声分离算法先进行自动区分，***中的人声分离算法要提前训练完成，保证有较高的自动人声分离识别正确率，该算法是在固定音频格式上进行训练完成的，涉及到音频的采样率和量化率，想要适配***中的人声分离算法，必须把导入的音/视频格式转换为与之相匹配的音频格式，比如训练中的语音采样率8K和量化率16bit，那么导入***中的音/视频需要调用格式转换功能，把采样率和量化率转换成8K和16bit，这样才能使算法有更好的识别率。该格式转换功能可以把市面上大部分的音/视频格式都转换为算法需要的格式。

步骤S303中，调用***中的人声分离算法把转换后的音频文件进行分句，本实例的分句对音频文件来说是逻辑分句不是物理分句，也就是说音频本身不会被切割，只是根据音频中的语音特征，按照时间先后顺序进行分句标记，每一个分句中包括说话人名称、开始时间、结束时间和单句时长，分句以文本形式进行保存，如果上传音频时候填写的文件中说话人数为2，那么说话人名称默认为说话人1和说话人2，通过名称把每一句话的说话人进行区分，开始时间和结束时间是每一句相对于音频总时长的时间。分句是按时间先后顺序进行排列的，所有分句最后合并后形成一个json文件，作为调用算法的输出。人工智能算法更新迭代速度比较快，为提升自动人声分离的正确率需要不断优化，在更新优化算法基础上为不影响其他模块使用，算法输出结果使用了json文本模式，这样既保证了算法独立性又兼顾了灵活性。

步骤S304中，调用人声分离算法以后，需要把分离的结果和音频文件在界面上展示出来，以便于后续的调整操作；json文件中的每一个分句和音频文件的开始时间和结束时间有对应关系，这就要求在界面上不但要展示音频波形，还要展示json文件中的每一个分句以及分句与波形的对应关系；本实例提供可视化调整界面，展示界面分为上下两个部分，上半部分展示音频波形，下半部分展示解析后的json文件，以列表形式按时间先后顺序排列，如图4和图5所示；其中波形展示区加载要处理的音频文件，在波形上可以清晰的看到语音能量的大小，也就是哪个地方有静音哪个地方有语音，声音能量大的波形上下幅度大，声音能量小的波形上下幅度不明显，以图像化形式展示的波形方便选取和调整每一句的开始时间和结束时间。

步骤S305中，在波形图上根据json文件解析出的每句话开始时间和结束时间，覆盖一层半透明的标识层，能看到波形的同时，可以很清晰的标识出在波形界面上每句话的时间边界；通过播放/暂停控制列表中每个分句的单独播放，并观察波形图上语音能量有无及大小，从而对每句话的标识层通过左右拖动整体改变开始时间和结束时间，或者单独左右拖动边界来调整每句话的开始时间和结束时间，时间调整以后***自动保存。json文件解析成功后，在分句列表区根据时间先后从小到大顺序排列，每一行的展示内容包括说话人名称、开始时间、结束时间、时长和操作信息，列表中的每句话和波形图上的标识层有对应关系，选中列表中的一句话后，波形图上的标识层也会被选中；在列表中可以控制播放的操作信息，点击播放/暂停可以控制当前行的语音播放，另外还提供删除操作，如果一句话之中有很长空白或噪音很多这些无效的语音，可以进行删除操作，只是删除下面列表中的分句，并不删除音频文件本身。如果当前分句的说话人名称自动识别的不准确或者想要修改默认说话人名称，***提供修改说话人名称功能。通过可视化界面功能的调整，可以实现精准的人声分离，可以把单通道通话记录中的两个或者多个人非常精确的区分出来。

步骤S306中，***分离以后的人声只是以列表形式存放在***中，要想供外部***使用，需要提供导出功能，作为整个可视化人声分离的输出。导出的人声会根据时间先后顺序进行合并，以列表中的说话人名称为准，同一个说话人合并成一个音频文件，如果选择的分句中包含多个说话人，导出压缩文件，包含多个音频文件内容，一个说话人对应一个音频文件。

如图2所示，本实施例还提供一种可视化人声分离装置，包括处理器201、存储器205、用户接口203、网络接口204和数据总线202，所述数据总线202把处理器201、存储器205、用户接口203和网络接口204连接在一起，形成一整套可以使用的硬件资源。处理器201是电脑上的CPU，不限制于国外品牌，也包括目前所有的国产品牌。用户接口203提供和用户进行交互的接口，包括鼠标接口、键盘接口、显示器接口等。所述存储器205存储操作***，所述操作***中安装可视化人声分离***、用户接口模块和网络通讯模块。

本发明在人工智能人声分离算法高分离正确率的基础上，进行界面可视化的手动调整，能够达到预想的精准分离效果。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种可视化人声分离***，其特征在于，该***包括：

分离结果展示模块，用于把人声分离算法模块分割的结果在界面上展示，界面上半部分展示波形，下半部分展示分句的列表信息；列表中的每句话和波形图上的标识层有对应关系，选中列表中的一句话后，波形图上的标识层也会被选中，在列表中通过播放/暂停控制每行的语音播放，通过删除、新增和修改操作来调整每句话的内容；

可视化人声分离调整模块，用于通过播放/暂停控制列表中每个分句的单独播放，观察波形图上语音能量有无及大小，反复微调每个分句的开始时间和结束时间从而调整时间边界；具体包括：在波形图上根据json文件解析出的每句话开始时间和结束时间，覆盖一层半透明的标识层，通过标识层标识出波形界面上每句话的时间边界；通过播放/暂停控制列表中每个分句的单独播放，并观察波形图上语音能量有无及大小，从而对每句话的标识层通过左右拖动整体改变开始时间和结束时间，或者单独左右拖动边界来调整每句话的开始时间和结束时间，时间调整以后***自动保存；

2.根据权利要求1所述的可视化人声分离***，其特征在于，所述人声分离算法模块采用人工智能的处理方式，通过基于梅尔频率倒谱系数和伽马频率倒谱系数混合特征的语音分割聚类，实现自动分离人声。

3.一种可视化人声分离方法，其特征在于，包括以下步骤：

步骤1，打开可视化人声分离***，把要分离的音/视频文件导入***中；

步骤2，把音/视频转换成和人声分离算法相匹配的音频格式；

步骤3，把要处理的音频文件进行逻辑切分，按时间先后顺序进行分句，最终形成每句话包含说话人名称、开始时间和结束时间的json文件；

步骤4，把分离后的结果在界面上进行展示，音频文件以波形形式展示在上半部分，解析后的json文件以列表形式展示在下半部分；列表中的每句话和波形图上的标识层有对应关系，选中列表中的一句话后，波形图上的标识层也会被选中，在列表中通过播放/暂停控制每行的语音播放，通过删除、新增和修改操作来调整每句话的内容；

步骤5，在结果展示界面进行每句话的播放和调整，实现精准人声分离；具体包括：在波形图上根据json文件解析出的每句话开始时间和结束时间，覆盖一层半透明的标识层，通过标识层标识出波形界面上每句话的时间边界；通过播放/暂停控制列表中每个分句的单独播放，并观察波形图上语音能量有无及大小，从而对每句话的标识层通过左右拖动整体改变开始时间和结束时间，或者单独左右拖动边界来调整每句话的开始时间和结束时间，时间调整以后***自动保存；

步骤6，把分离好的人声分句，根据需求进行选中导出。

4.根据权利要求3所述的可视化人声分离方法，其特征在于，所述要分离的音/视频文件存放到U盘、移动硬盘、光驱或者电脑硬盘这些存储介质中。

5.根据权利要求3所述的可视化人声分离方法，其特征在于，所述把音/视频转换成和人声分离算法相匹配的音频格式，包括：

6.根据权利要求3所述的可视化人声分离方法，其特征在于，所述把要处理的音频文件进行逻辑切分，按时间先后顺序进行分句，最终形成每句话包含说话人名称、开始时间和结束时间的json文件，包括：

7.根据权利要求3所述的可视化人声分离方法，其特征在于，所述把分离后的结果在界面上进行展示，音频文件以波形形式展示在上半部分，解析后的json文件以列表形式展示在下半部分，包括：

8.根据权利要求3所述的可视化人声分离方法，其特征在于，所述把分离好的人声分句，根据需求进行选中导出，包括：

9.一种可视化人声分离装置，其特征在于，包括处理器、存储器、用户接口、网络接口和数据总线，所述数据总线把处理器、存储器、用户接口和网络接口连接在一起，所述存储器存储操作***，所述操作***中安装可视化人声分离***、用户接口模块和网络通讯模块；所述可视化人声分离***包括音/视频格式转换模块、人声分离算法模块、分离结果展示模块、可视化人声分离调整模块和人声分离任务管理模块；

所述分离结果展示模块，用于把人声分离算法模块分割的结果在界面上展示，界面上半部分展示波形，下半部分展示分句的列表信息；列表中的每句话和波形图上的标识层有对应关系，选中列表中的一句话后，波形图上的标识层也会被选中，在列表中通过播放/暂停控制每行的语音播放，通过删除、新增和修改操作来调整每句话的内容；

所述可视化人声分离调整模块，用于通过播放/暂停控制列表中每个分句的单独播放，观察波形图上语音能量有无及大小，反复微调每个分句的开始时间和结束时间从而调整时间边界；具体包括：在波形图上根据json文件解析出的每句话开始时间和结束时间，覆盖一层半透明的标识层，通过标识层标识出波形界面上每句话的时间边界；通过播放/暂停控制列表中每个分句的单独播放，并观察波形图上语音能量有无及大小，从而对每句话的标识层通过左右拖动整体改变开始时间和结束时间，或者单独左右拖动边界来调整每句话的开始时间和结束时间，时间调整以后***自动保存。