CN113051426A

CN113051426A - 音频信息分类方法、装置、电子设备及存储介质

Info

Publication number: CN113051426A
Application number: CN202110292019.8A
Authority: CN
Inventors: 李亚桐; 彭子娇; 张伟彬
Original assignee: Voiceai Technologies Co ltd
Current assignee: Voiceai Technologies Co ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-06-29

Abstract

本申请公开了一种音频信息分类方法、装置、电子设备及存储介质，涉及语音识别技术领域，包括，首先获取混合音频信息，并分割混合音频信息至少获得第一音频信息和第二音频信息，然后识别第一音频信息和/或第二音频信息获得第二目标文本，再将目标文本与预设文本进行匹配，获得匹配结果，其中，预设文本为标准坐席对应的话术文本，根据匹配结果，从第一音频信息和第二音频信息中确定一个音频信息作为坐席音频信息，以及确定另一个音频信息作为用户音频信息，实现了对混合音频信息的准确分类。

Description

音频信息分类方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别技术领域，更具体地，涉及一种音频信息分类方法、装置、电子设备及存储介质。

背景技术

如今，各类大数据已成为信息时代发展的重要支撑。数据信息本身存在体量大、种类多等特点，因此，需要对数据信息进行分类处理等操作，才便于数据信息的管理，分类后的数据信息才会具有更高的价值，更强的决策力。数据信息中的声音信息亦是如此。目前，通常采用对声纹识别的方式对声音信息进行分类，但是，该方式在说话人的声纹未预先注册时，可能会导致声音信息的分类错误。

发明内容

鉴于上述问题，本申请提出了一种音频信息分类方法、装置、电子设备及存储介质，能够解决上述问题。

第一方面，本申请实施例提供了一种音频信息分类方法，获取混合音频信息，并分割所述混合音频信息至少获得第一音频信息和第二音频信息；根据所述第一音频信息和/或所述第二音频信息获得目标文本；将所述目标文本与预设文本进行匹配，获得匹配结果，其中，所述预设文本为标准坐席对应的话术文本；根据所述匹配结果，从所述第一音频信息和所述第二音频信息中确定一个音频信息作为坐席音频信息，以及确定另一个音频信息作为用户音频信息。

第二方面，本申请实施例提供了一种音频信息分类装置，所述装置包括：分割模块，用于获取混合音频信息，并分割所述混合音频信息至少获得第一音频信息和第二音频信息；获取模块，用于根据所述第一音频信息和/或所述第二音频信息获得目标文本；匹配模块，用于将所述目标文本与预设文本进行匹配，获得匹配结果，其中，所述预设文本为标准坐席对应的话术文本；确定模块，用于根据所述匹配结果，从所述第一音频信息和所述第二音频信息中确定一个音频信息作为坐席音频信息，以及确定另一个音频信息作为用户音频信息。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述方法。

本申请提供的音频信息分类方法、装置、电子设备及存储介质，首先获取混合音频信息，并分割混合音频信息至少获得第一音频信息和第二音频信息，然后识别第一音频信息和/或第二音频信息获得目标文本，再将目标文本与预设文本进行匹配，获得匹配结果，其中，预设文本为标准坐席对应的话术文本，根据匹配结果，从第一音频信息和第二音频信息中确定一个音频信息作为坐席音频信息，以及确定另一个音频信息作为用户音频信息，实现了对混合音频信息的准确分类。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的音频信息分类方法的流程示意图；

图2示出了本申请另一实施例提供的音频信息分类方法的流程示意图；

图3示出了本申请的图2所示的音频信息分类方法的步骤S230的流程示意图；

图4示出了本申请又一实施例提供的音频信息分类方法的流程示意图；

图5示出了本申请再一实施例提供的音频信息分类方法的流程示意图；

图6示出了本申请一实施例提供的音频信息分类装置的框图；

图7是本申请实施例的用于执行根据本申请实施例的音频信息分类方法的电子设备的框图；

图8是本申请实施例的用于保存或者携带实现根据本申请实施例的音频信息分类方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如今，各类大数据已成为信息时代发展的重要支撑。数据信息本身存在体量大、种类多等特点，因此，需要对数据信息进行分类处理等操作，才便于数据信息的管理，分类后的数据信息才会具有更高的价值，更强的决策力。数据信息中的声音信息亦是如此。目前，通常采用对声纹识别的方式对声音信息进行分类，该方式在说话人的声纹信息需要预先注册时，才能实现准确分类，但是，当说话的人的声纹信息未预先注册时，可能会导致声音信息的分类错误，并且，由于用户的数量庞大，要求用户主动注册声纹信息的难度大。

针对上述技术问题，发明人经过长期的研究发现，并提出了本申请提供的音频信息分类方法、装置、电子设备及存储介质，根据第一音频信息获取第一目标文本，根据第二音频信息获取第二目标文本，将第一目标文本和/或第二目标文本与预设文本匹配，获得匹配结果，根据匹配结果确定两个音频信息分别对应的用户，以此对上述音频信息进行分类。

图1示出了本申请一实施例提供的音频信息分类方法的流程示意图，需要对音频信息进行分类时，识别音频信息获得目标文本，将目标文本与预设文本进行匹配，获得匹配结果，根据匹配结果确定音频信息对应的分类。在具体的实施例中，所述音频信息分类方法可以应用于如图6所示的音频信息分类装置100、配置有音频信息分类装置100的电子设备200(图7)和服务器。下面将以电子设备为例，说明本实施例的具体流程，当然，可以理解的，本实施例所应用的电子设备可以为手机、平板电脑、台式电脑、笔记本电脑等，在此不做限定。下面将针对图1所示的流程进行详细的阐述，所述音频信息分类方法具体可以包括如下步骤：

步骤S110、获取混合音频信息，并分割所述混合音频信息至少获得第一音频信息和第二音频信息。

多个声源发出的音频信息混合在一起，形成了混合音频信息，其中，多个声源至少包括坐席和用户，获取该混合音频信息。由于混合音频信息是多种音频信息混杂在一起，其可用价值低，因此将该混合音频信息按照声源进行分割，至少获得两条独立的音频信息，即第一音频信息和第二音频信息，但是，难以区分第一音频信息和第二音频信息中，哪一条是坐席音频信息哪一条用户音频信息。

在一些实施方式中，混合音频信息为实时采集的。例如，混合音频信息通过电子设备的拾音设备采集的。可选地，拾音设备可以为麦克风，通过麦克风采集环境中的混合音频信息。

在另一些实施中，混合音频信息可以为提前采集的。例如，混合音频信息可以为电子设备中预先存储，具体可以为电子设备中的录音机采集并存储的混合音频信息，也可以是在电话录音，还可以为电子设备从服务器获取的混合音频信息。

步骤S120、根据所述第一音频信息和/或所述第二音频信息获得目标文本。

其中，目标文本包括第一目标文本和第二目标文本中的至少一个。根据所述第一音频信息获得所述第一目标文本，和/或根据所述第二音频信息获得所述第二目标文本。可以理解的是，当目标文本包括第一目标文本时，根据第一音频信息获得第一目标文本；当目标文本包括第二目标文本时，根据第二音频信息获得第二目标文本；当目标文本包括第一目标文本和第二目标文本时，根据第一音频信息获得第一目标文本，以及根据第二音频信息获得第二目标文本。

可选地，可以通过预先训练好的语音识别模型识别音频信息获得目标文本，如通过预先训练好的语音识别模型识别第一音频信息，获得第一目标文本，通过预先训练好的语音识别模型识别第二音频信息获得第二目标文本。

由于坐席的语音信息存在一定的规律，具有固定的话术，因此，在一些可能的实施方式中，可以通过坐席的语音信息训练模型，具体为，获取多个行业坐席的语音信息，将多个行业坐席的语音信息训练多个坐席通用类语音识别模型，其中，每一个行业坐席的语音信息分别用于训练一个坐席通用类语音识别模型。将多个训练好的坐席通用类语音识别模型合语音识别模型，可以理解的是，该语音识别模型为训练好的语音识别模型。

步骤S130、将所述目标文本与预设文本进行匹配，获得匹配结果。

其中，所述预设文本为标准坐席对应的话术文本。

将目标文本与预设文本匹配，包括如下情况：当目标文本包括第一目标文本时，将第一目标文本与预设目标文本进行匹配；当目标文本包括第二目标文本时，将第二目标文本与预设目标文本进行匹配；当目标文本包括第一目标文本和第二目标文本，将第一目标文本和第二目标文本分别与预设目标文本进行匹配。

在一些实施方式中，为了根据声源对音频信息进行分类，预设文本包括第一预设文本，在一种可能的实现方式中，获取不同行业的标准坐席的话术，提取不同行业的标准话术的关键词作为第一预设文本，例如，标准坐席的话术可能包括“您好，我是A公司的保险顾问”，或者包括“您好，我是B公司的理财经理”，因此，提取不同行业的标准坐席话术的关键词，获得第一预设文本可以为“您好，我是xx销售/顾问/经理/总监/平台”。

在另一种可能的实现方式中，直接收录不同的坐席的话术作为第一预设文本，即将上述的标准坐席的话术均收纳在第一预设文本中，可以获得一个庞大的第一预设文本。

在另一些实施方式中，为了对混合音频信息中的关键信息进行提取，预设文本还包括第二预设文本，根据用户输入的关键信息，不同行业的坐席关键信息不同，例如，贷款平台的坐席的关键信息可能包括“利息是a1”、“利率是a2”等，保险行业的关键信息可能包括“赔付比例是a3”，将关键信息作为第二预设文本，其中，a1、a2和a3均为数字。

可选地，匹配结果包括第一匹配结果、第二匹配结果和第三匹配结果。

将第一目标文本与预设文本进行匹配，获得第一匹配结果。其中，第一匹配结果包括两种：第一目标文本与预设文本匹配，或第一目标文本与预设文本不匹配。可以理解的是，由于在两个音频信息中既包含了用户音频信息，又包含了坐席音频信息，在第一目标文本与预设文本匹配时，则说明第二目标文本与预设文本不匹配。在第一目标文本与预设文本不匹配时，则说明第二目标文本与预设文本匹配。

例如，第一目标文本为“李小姐，您好，我们是M信用贷款平台，请问您最近是否有***的需要”，第二目标文本为“不需要”，第一预设文本为“您好，我们是xx信用贷款平台”，将上述第一目标文本与预设文本进行匹配，获得第一匹配结果。将上述第二预设文本与预设文本进行匹配，获得第二匹配结果。

再例如，第一目标文本为“我们的赔付比例通常是60％”，第二目标文本为“请问你们的赔付比例是多少呢”，第二预设文本为“赔付比例是a”，其中a是数字，将第一目标文本与预设文本进行匹配，获得第一匹配结果。

将第二目标文本与预设文本进行匹配，获得第二匹配结果。其中，第二匹配结果包括两种：第二目标文本与预设文本匹配，或第二目标文本与预设文本不匹配。可以理解的是，由于在两个音频信息中既包含了用户音频信息，又包含了坐席音频信息，在第二目标文本与预设文本匹配时，则说明第一目标文本与预设文本不匹配。在第二目标文本与预设文本不匹配时，则说明第一目标文本与预设文本匹配。

将第一目标文本和第二目标文本分别与预设目标文本进行匹配，获得第三匹配结果。其中，第三匹配结果包括两种：第一目标文本与预设文本匹配且第二目标文本与预设文本不匹配，或第一目标文本与预设文本不匹配且第二目标文本与预设文本匹配。

步骤S140、根据所述匹配结果，从所述第一音频信息和所述第二音频信息中确定一个音频信息作为坐席音频信息，以及确定另一个音频信息作为用户音频信息。

在本步骤中，可以根据匹配结果，区分第一音频信息和第二音频信息中，哪一条是坐席音频信息哪一条用户音频信息。

当第一匹配结果为第一目标文本与预设文本匹配时，根据第一匹配结果，确定第一目标文本与预设文本匹配，则第二目标文本与预设文本不匹配，确定第一目标文本对应的第一音频信息作为坐席音频信息，则另一个音频信息即第二音频信息作为用户音频信息，可以理解的是，第一音频信息是坐席发出的，第二音频信息是用户发出的。或者是，当第一匹配结果为第一目标文本与预设文本不匹配时，根据第一匹配结果，确定第一目标文本与预设文本不匹配，则第二目标文本与预设文本匹配，确定第一目标文本对应的第一音频信息作为用户音频信息，则另一个音频信息即第二音频信息作为坐席音频信息，可以理解的是，第一音频信息是用户发出的，第二音频信息是坐席发出的。

或者是，当第二匹配结果为第二目标文本与预设文本匹配时，根据第二匹配结果，确定第二目标文本与预设文本匹配，则第一目标文本与预设文本不匹配，确定第二目标文本对应的第二音频信息作为坐席音频信息，则另一个音频信息即第一音频信息作为用户音频信息，可以理解的是，第一音频信息是用户发出的，第二音频信息是坐席发出的。当第二匹配结果为第二目标文本与预设文本不匹配时，根据第二匹配结果，确定第二目标文本与预设文本不匹配，则第一目标文本与预设文本匹配，确定第二目标文本对应的第二音频信息作为用户音频信息，则另一个音频信息即第一音频信息作为坐席音频信息，可以理解的是，第一音频信息是坐席发出的，第二音频信息是用户发出的。

或者是，当第三匹配结果为第一目标文本与预设文本匹配且第二目标文本与预设文本不匹配时，确定所述第一目标文本对应的所述第一音频信息作为所述坐席音频信息，以及所述第二目标文本对应的所述第二音频信息作为所述用户音频信息。当第三匹配结果为第一目标文本与预设文本不匹配且第二目标文本与预设文本匹配，确定所述第一目标文本对应的所述第一音频信息作为所述用户音频信息，以及所述第二目标文本对应的所述第二音频信息作为所述坐席音频信息。

在本实施例中，结合第一预设文本对混合音频信息中提取的第一音频信息和第二音频信息进行分类。可以实现对音频信息的分类保存，便于音频信息的管理。也可以对分类后的音频信息中的坐席信息进行删除，仅保留用户音频信息，便于用户的管理，以及通过用户的音频信息掌握用户的需求。结合第二预设文本对混合音频信息中提取的第一音频信息和第二音频信息进行分类，可以提取用户的需求便于后期跟进。管理人员也可以提取坐席的话术，便于对坐席的工作情况进行打分。

本实施例提供的一种音频信息分类方法，首先获取混合音频信息，并分割混合音频信息至少获得第一音频信息和第二音频信息，然后识别第一音频信息获得第一目标文本，以及识别第二音频信息获得第二目标文本，再将第一目标文本和/或第二目标文本与预设文本进行匹配，获得匹配结果，其中，预设文本为标准坐席对应的话术文本，根据匹配结果，从第一音频信息和第二音频信息中确定一个音频信息作为坐席音频信息，以及确定另一个音频信息作为用户音频信息，实现了对混合音频信息的准确分类。

在上一实施例的基础上，本实施例提供了一种音频信息分类方法，用于对混合音频信息进行分割，图2示出了本申请另一实施例提供的音频信息分类方法的流程示意图，请参阅图2，所述音频信息分类方法具体可以包括如下步骤：

步骤S210、获取所述混合音频信息。

混合音频信息可是通过拾音设备采集的，也可以是预先存储的录音。

步骤S220、提取所述混合音频信息中的声纹信息，所述声纹信息至少包括第一声纹信息和第二声纹信息。

不同的人的声纹信息不相同，并且声纹信息具有稳定性，可以保证一个声纹信息唯一对应一个说话的人。提取混合音频信息中的第一声纹信息和第二声纹信息。

步骤S230、依据所述第一声纹信息从所述混合音频信息中提取所述第一音频信息，以及依据所述第二声纹信息从所述混合音频信息中提取所述第二音频信息。

根据第一声纹信息，从混合音频信息中将第一声纹信息对应的第一音频信息全部提取出来，以及，根据第二声纹信息，从混合音频信息中将第二声纹信息对应的第二音频信息全部提取出来。并且，第一音频信息和第二音频信息均为两条独立的音频信息。

可选地，图3示出了本申请的图2所示的音频信息分类方法的步骤S230的流程示意图，请参阅图3，步骤S230包括如下子步骤：

步骤S231、依据所述第一声纹信息，从所述混合音频信息中分割出多个第一时间段对应的多个第一音频片段，其中，所述多个第一音频片段与所述多个第一时间段之间一一对应。

在多个连续的时刻采集混合音频信息，由于坐席与用户进行交谈，因此，在混合音频信息中，坐席音频信息与用户音频信息交替存在，通过第一声纹信息，从混合音频信息中分割出多个第一时间段对应的多个第一音频片段。例如，在9:01-9:06对应的混合音频信息中，识别到第一声纹信息存在于9:01-9:02和9:03-9:05的时间段中，将该时间段的第一音频片段分割出来。

步骤S232、按照时间的先后顺序，将所述多个第一时间段对应的所述多个第一音频片段进程合成处理，获得所述第一音频信息。

继续结合上述例子，按照时间的先后顺序，将9:01-9:02和9:03-9:05对应的两个第一音频片段进行合成处理，获得第一音频信息。

步骤S233、以及依据所述第二声纹信息，从所述混合音频信息中分割出多个第二时间段对应的多个第二音频片段，其中，所述多个第二音频片段与所述多个第二时间段之间一一对应。

类似的，通过第一声纹信息，从混合音频信息中分割出多个第一时间段对应的多个第一音频片段，例如，识别到第二声纹信息存在于9:02-9:03和9:05-9:06的时间段中，将该时间段的第二音频片段分割出来。

步骤S234、按照时间的先后顺序，将所述多个第二时间段对应的所述多个第二音频片段进行合成处理，获得所述第二音频信息。

继续结合上述例子，按照时间的先后顺序，将9:02-9:03和9:05-9:06对应的两个第二音频片段进行合成处理，获得第二音频信息。

需要说明的是，步骤S231-步骤S232和步骤S233-步骤S234执行顺序可以交换。

步骤S240、根据所述第一音频信息和/或所述第二音频信息获得目标文本。

步骤S250、将所述目标文本与预设文本进行匹配，获得匹配结果，其中，所述预设文本为标准坐席对应的话术文本。

步骤S260、根据所述匹配结果，从所述第一音频信息和所述第二音频信息中确定一个音频信息作为坐席音频信息，以及确定另一个音频信息作为用户音频信息。

其中，步骤S240-步骤S260的具体描述请参阅步骤S120-步骤S140，在此不再赘述。

在本实施例中，对混合音频信息进行分割，至少获得第一音频信息和第二音频信息，一方面，实现对混合音频信息中环境噪声的剔除，另一方面，便于对不同的音频信息进行分类管理。

可选地，图4示出了本申请又一实施例提供的音频信息分类方法的流程示意图，请参阅图4，所述音频信息分类方法具体可以包括如下步骤：

步骤S310、获取混合音频信息，并分割所述混合音频信息至少获得第一音频信息和第二音频信息。

其中，步骤S310的具体描述请参阅步骤S110，在此不再赘述。

步骤S320、根据所述第一音频信息提取第一目标音频片段，并根据第一目标音频片段获取第一目标文本。

在所述第一音频信息中提取第一预设时间段对应的所述第一目标音频片段，其中，所述第一预设时间段至少包括所述第一音频信息的起始时间和所述第一音频信息的结束时间。

在对话内容的开始和结束两段音频信息能够体现标准坐席的话术，可选地，可以选择第一音频信息的前N秒和后N秒作为第一预设时间段，在第一音频信息中提取前N秒和后N秒对应的第一目标音频片段。例如，第一音频信息对应的时间段为9:01-9:02和9:03-9:05，N秒为30秒，则第一预设时间段为9点零30秒至9点零1分和9点零4分30秒至9点零5分。

通过已经训练好的语音识别模型，识别第一目标音频片段获取第一目标文本。

和/或步骤S330、根据所述第二目标音频片段获取所述第二目标文本，并根据所述第二目标音频片段获取第二目标文本。

在所述第二音频信息中提取第二预设时间段对应的所述第二目标音频片段，其中，所述第二预设时间段至少包括所述第二音频信息的起始时间和所述第二音频信息的结束时间，起始时间对应的音频片段和结束时间对应的音频片段都一般具有话术特征，通过这两段音频片段，可以高效、快速的识别用户和坐席。

可选地，提取第二音频信息的前N秒和后N秒作为第二预设时间段，在第二音频信息中提取前N秒和后N秒对应的第二目标音频片段。例如，第二音频信息对应的时间段为9:02-9:03和9:05-9:06，N秒为30秒，则第二预设时间段为9点零2分30秒至9点零2分和9点零5分30秒至9点零6分。

通过已经训练好的语音识别模型识别第二目标音频片段获取第二目标文本。

需要说明的是，当目标文本包括第一目标文本时，在步骤S320和步骤S330中，只执行步骤S320；当目标文本包括第二目标文本时，在步骤S320和步骤S330中，只执行步骤S330；当目标文本包括第一目标文本和第二目标文本时，在步骤S320和步骤S330中，执行步骤S320和步骤S330。

步骤S340、将所述第一目标文本和/或所述第二目标文本与预设文本进行匹配，获得匹配结果，其中，所述预设文本为标准坐席对应的话术文本。

步骤S350、根据所述匹配结果，从所述第一音频信息和所述第二音频信息中确定一个音频信息作为坐席音频信息，以及确定另一个音频信息作为用户音频信息。

其中，步骤S340-步骤S350的具体描述请参阅步骤S130-步骤S140，在此不再赘述。

在本实施例中，根据第一音频信息提取第一目标音频片段，以及根据第二音频信息提取第二目标音频片段，再识别第一目标音频片段获得第一目标文本，识别第二目标音频片段获得第二目标文本，在一整段的音频信息中提取目标音频片段进行识别，加快了分类进程。

可选地，本实施例提供了一种音频信息分类方法，由于不同的坐席说话的顺序不相同，为了提高分类的准确度，可以结合目标词组进行分类，图5示出了本申请再一实施例提供的音频信息分类方法的流程示意图，请参阅图5，所述音频信息分类方法具体可以包括如下步骤：

步骤S410、获取混合音频信息，并分割所述混合音频信息至少获得第一音频信息和第二音频信息。

步骤S420、根据所述第一音频信息和/或所述第二音频信息获得目标文本，其中，所述目标文本包括第一目标文本和第二目标文本中的至少一个。

其中，步骤S410-步骤S420的具体描述请参阅步骤S110-步骤S120，在此不再赘述。

步骤S430、对所述第一目标文本进行分词，获得第一目标词组，并将所述第一目标词组与所述预设词组进行匹配，和/或对所述第二目标文本进行分词，获得第二目标词组，并将所述第二目标词组与所述预设词组进行匹配，获得所述匹配结果。

可选地，对第一目标文本进行分词，获得第一目标词组。在一些实施方式中，可以通过预先训练好的分词模型对第一目标文本进行分词，获得第一目标词组，其中，预先训练好的分词模型可以为隐式马尔科夫模型(Hidden Markov Model，简称HMM)。在另一些实施方式中，可以通过目标分词算法对第一目标文本进行分词，获得第一目标词组，其中，目标分词算法可以为，但不限于最大长度算法、正向最大匹配分词算法等。例如，第一目标文本为“李小姐，您好，我们是M平台的”，对该第一目标文本进行分词后，获得的第一目标词组包括：“李小姐”、“您好”、“我们”“是”“M平台”和“的”。在分词后的第一目标词组中的每个词语之间设置分词标识，例如，设置顿号、逗号、分号或者空格等符号作为分词标识。

为了进一步提高分词的准确率，可以先过滤第一目标词组中的非关键词，具体为，对所述第一目标文本进行分词，获得第一中间词组，其中，第一中间词组是由第一目标文本分词后获得的多个词语组成，再过滤所述第一中间词组中的非关键词，获得所述第一目标词组，其中，非关键词包括用户标注的语气词和助词，例如，非关键词可以包括“啊”、“呀”、“的”、“地”、“是”等。继续结合上述例子，对第一目标文本“李小姐，您好，我们是M平台的”进行分词，获得第一中间词组：“李小姐”、“您好”、“我们”“是”“M平台”和“的”，过滤所述第一中间词组中的非关键词“是”和“的”，获得第一目标词组“李小姐”、“您好”、“我们”和“M平台”。

将所述第一目标词组与所述预设词组进行匹配，获得第一匹配结果。在一些实施方式中，第一目标词组包括多个第一目标词语，预设词组包括多个预设词语，在第一目标词组中，预设个数的第一目标词语与预设个数的预设词语匹配，获得第一预设结果，例如，预设个数为2个，当2个第一目标词语与2个预设词语匹配，获得第一预设结果，第一预设结果表征第一目标词组与预设词组匹配。

在另一些实施方式中，第一匹配结果为第一目标词组的第一匹配率，当第一匹配率大于预设匹配率，则第一匹配结果表征第一目标文本与预设文本匹配，其中，第一匹配率为匹配的第一目标词语的个数与第一目标词语的总个数之间的比值。例如，第一目标词组“李小姐”、“您好”、“我们”和“M平台”，如果第一目标词语“李小姐”、“您好”和“M平台”与预设词语匹配，则计算第一匹配率为3/4＝75％，当预设匹配率为60％，第一匹配率75％大于预设匹配率60％，则第一目标文本与预设文本匹配。

在本实施例中，如果不过滤非关键词“是”和“的”，则获得的第一匹配率较低，过滤第一目标文本中的非关键词，减少了非关键词的干扰，获得的第一匹配率更能表征实际的匹配情况。

可选地，为了进一步的提高准确率，防止无关词语的干扰，可以对第一目标词组进行词频统计，确定排名在前M的第一目标词语作为第一目标词组，而舍弃排名在前M以后的第一目标词语，其中，M为正整数。

类似的，对第二目标文本进行分词，获得第二目标词组。在一些实施方式中，可以通过预先训练好的分词模型对第二目标文本进行分词，获得第二目标词组，其中，预先训练好的分词模型可以为隐式马尔科夫模型(Hidden Markov Model，简称HMM)。在另一些实施方式中，可以通过目标分词算法对第二目标文本进行分词，获得第二目标词组，其中，目标分词算法可以为，但不限于最大长度算法、正向最大匹配分词算法等。

为了进一步提高分词的准确率，可以先过滤第二目标词组中的非关键词，具体为，对所述第二目标文本进行分词，获得第二中间词组，其中，第二中间词组是由第二目标文本分词后获得的多个词语组成，再过滤所述第二中间词组中的所述非关键词，获得所述第二目标词组。

将所述第二目标词组与所述预设词组进行匹配，获得所述第二匹配结果。在一些实施方式中，第二目标词组包括多个第一目标词语，在第二目标词组中，预设个数的第二目标词语与预设个数的预设词语匹配，获得第二预设结果，例如，预设个数为2个，当2个第二目标词语与2个预设词语匹配，获得第二预设结果，第二预设结果表征第二目标词组与预设词组匹配。

在另一些实施方式中，第二匹配结果为第二目标词组的第二匹配率，当第二匹配率大于预设匹配率，则第二匹配结果表征第二目标文本与预设文本匹配，其中，第二匹配率为匹配的第二目标词语的个数与第二目标词语的总个数之间的比值。

步骤S440、根据所述匹配结果，从所述第一音频信息和所述第二音频信息中确定一个音频信息作为坐席音频信息，以及确定另一个音频信息作为用户音频信息。

其中，步骤S430-步骤S440的具体描述请参阅步骤S130-步骤S140，在此不再赘述。

在本实施例中，对第一目标文本进行分词，获得第一中间词组，并过滤第一中间词组中的非关键词，获得第一目标词组，并将第一目标词组与预设词组进行匹配获得第一匹配结果，和/或对第二目标文本进行分词，获得第二中间词组，并过滤第二中间词组中的非关键词，获得第二目标词组，并将第二目标词组与预设词组进行匹配，获得匹配结果，通过该匹配结果可以准确的判断两个音频信息代表的是坐席音频信息还是用户音频信息。

可选地，为了实现上述方法类实施例，本实施例提供了一种音频分类装置，图6示出了本申请一实施例提供的音频信息分类装置的框图，请参阅图6，音频分类装置100包括：分割模块110、获取模块120、匹配模块130和确定模块140。

分割模块110，用于获取混合音频信息，并分割所述混合音频信息至少获得第一音频信息和第二音频信息；

获取模块120，用于根据所述第一音频信息和/或所述第二音频信息获得目标文本；

匹配模块130，用于将所述目标文本与预设文本进行匹配，获得匹配结果，其中，所述预设文本为标准坐席对应的话术文本；

确定模块140，用于根据所述匹配结果，从所述第一音频信息和所述第二音频信息中确定一个音频信息作为坐席音频信息，以及确定另一个音频信息作为用户音频信息。

可选地，获取模块120包括：目标文本获取子模块。

目标文本获取子模块，用于根据所述第一音频信息获得所述第一目标文本，和/或根据所述第二音频信息获得所述第二目标文本。

可选地，确定模块140包括：第一确定子模块和第二确定子模块。

第一确定子模块，用于当所述第一目标文本与所述预设文本匹配时，确定所述第一目标文本对应的所述第一音频信息作为所述坐席音频信息，以及所述第二目标文本对应的所述第二音频信息作为所述用户音频信息；或

第二确定子模块，用于当所述第二目标文本与所述预设文本匹配时，确定所述第一目标文本对应的所述第一音频信息作为所述用户音频信息，以及所述第二目标文本对应的所述第二音频信息作为所述坐席音频信息。

可选地，匹配模块130包括：匹配子模块。

匹配子模块，用于对所述第一目标文本进行分词，获得第一目标词组，并将所述第一目标词组与所述预设词组进行匹配，和/或对所述第二目标文本进行分词，获得第二目标词组，并将所述第二目标词组与所述预设词组进行匹配，获得所述匹配结果。

可选地，匹配子模块包括：第一非关键词过滤子模块和第二非关键词过滤子模块。

第一非关键词过滤子模块，用于对所述第一目标文本进行分词，获得第一中间词组，并过滤所述第一中间词组中的非关键词，获得所述第一目标词组。

第二非关键词过滤子模块，用于对所述第二目标文本进行分词，获得第二中间词组，并过滤所述第二中间词组中的所述非关键词，获得所述第二目标词组。

可选地，分割模块110包括：混合音频信息子模块、分割子模块和合成子模块。

混合音频信息子模块，用于获取所述混合音频信息；

分割子模块，用于提取所述混合音频信息中的声纹信息，所述声纹信息至少包括第一声纹信息和第二声纹信息；

合成子模块，用于依据所述第一声纹信息从所述混合音频信息中提取所述第一音频信息，以及依据所述第二声纹信息从所述混合音频信息中提取所述第二音频信息。

可选地，合成子模块包括：第一音频片段分割子模块、第一音频信息合成子模块、第二音频片段分割子模块和第二音频信息合成子模块。

第一音频片段分割子模块，用于依据所述第一声纹信息，从所述混合音频信息中分割出多个第一时间段对应的多个第一音频片段，其中，所述多个第一音频片段与所述多个第一时间段之间一一对应；

第一音频信息合成子模块，用于按照时间的先后顺序，将所述多个第一时间段对应的所述多个第一音频片段进程合成处理，获得所述第一音频信息；以及

第二音频片段分割子模块，用于依据所述第二声纹信息，从所述混合音频信息中分割出多个第二时间段对应的多个第二音频片段，其中，所述多个第二音频片段与所述多个第二时间段之间一一对应；

第二音频信息合成子模块，用于按照时间的先后顺序，将所述多个第二时间段对应的所述多个第二音频片段进行合成处理，获得所述第二音频信息。

获取模块120包括：第一获取子模块和第二获取子模块。

第一获取子模块，用于根据所述第一音频信息提取第一目标音频片段，以及根据所述第二音频信息提取第二目标音频片段；

第二获取子模块，用于根据所述第一目标音频片段获取所述第一目标文本，以及根据所述第二目标音频片段获取所述第二目标文本。

可选地，第二获取子模块包括：第一目标音频片段提取子模块和第二目标音频片段提取子模块。

第一目标音频片段提取子模块，用于在所述第一音频信息中提取第一预设时间段对应的所述第一目标音频片段，其中，所述第一预设时间段至少包括所述第一音频信息的起始时间和所述第一音频信息的结束时间；

第二目标音频片段提取子模块，用于在所述第二音频信息中提取第二预设时间段对应的所述第二目标音频片段，其中，所述第二预设时间段至少包括所述第二音频信息的起始时间和所述第二音频信息的结束时间。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

图7是本申请实施例的用于执行根据本申请实施例的音频信息分类方法的电子设备的框图，请参阅图7，其示出了本申请实施例提供的一种电子设备200的结构框图。该电子设备200可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备200可以包括一个或多个如下部件：处理器210、存储器220以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器220中并被配置为由一个或多个处理器210执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

其中，处理器210可以包括一个或者多个处理核。处理器210利用各种接口和线路连接整个电子设备200内的各个部分，通过运行或执行存储在存储器220内的指令、程序、代码集或指令集，以及调用存储在存储器220内的数据，执行电子设备200的各种功能和处理数据。可选地，处理器210可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器210可集成中央处理器(CentralProcessing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责待显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器210中，单独通过一块通信芯片进行实现。

存储器220可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器220可用于存储指令、程序、代码、代码集或指令集。存储器220可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以电子设备200在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

图8是本申请实施例的用于保存或者携带实现根据本申请实施例的音频信息分类方法的程序代码的存储单元，请参阅8，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质300中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质300包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质300具有执行上述方法中的任何方法步骤的程序代码310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码310可以例如以适当形式进行压缩。

综上所述，本申请提供一种音频信息分类方法、装置、电子设备及存储介质，首先获取混合音频信息，并分割混合音频信息至少获得第一音频信息和第二音频信息，然后识别第一音频信息获得第一目标文本，以及识别第二音频信息获得第二目标文本，再将第一目标文本和/或第二目标文本与预设文本进行匹配，获得匹配结果，其中，预设文本为标准坐席对应的话术文本，根据匹配结果，从第一音频信息和第二音频信息中确定一个音频信息作为坐席音频信息，以及确定另一个音频信息作为用户音频信息，实现了对混合音频信息的准确分类。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音频信息分类方法，其特征在于，所述方法包括：

获取混合音频信息，并分割所述混合音频信息至少获得第一音频信息和第二音频信息；

根据所述第一音频信息和/或所述第二音频信息获得目标文本；

将所述目标文本与预设文本进行匹配，获得匹配结果，其中，所述预设文本为标准坐席对应的话术文本；

根据所述匹配结果，从所述第一音频信息和所述第二音频信息中确定一个音频信息作为坐席音频信息，以及确定另一个音频信息作为用户音频信息。

2.根据权利要求1所述的方法，其特征在于，所述目标文本包括第一目标文本和第二目标文本中的至少一个，所述根据所述第一音频信息和/或所述第二音频信息获得目标文本，包括：

根据所述第一音频信息获得所述第一目标文本，和/或根据所述第二音频信息获得所述第二目标文本。

3.根据权利要求2所述的方法，其特征在于，所述根据所述匹配结果，从所述第一音频信息和所述第二音频信息中确定一个音频信息作为坐席音频信息，以及确定另一个音频信息作为用户音频信息，包括：

当所述第一目标文本与所述预设文本匹配时，确定所述第一目标文本对应的所述第一音频信息作为所述坐席音频信息，以及所述第二目标文本对应的所述第二音频信息作为所述用户音频信息；或

当所述第一目标文本与所述预设文本不匹配时，确定所述第一目标文本对应的所述第一音频信息作为所述用户音频信息，以及所述第二目标文本对应的所述第二音频信息作为所述坐席音频信息；或

当所述第二目标文本与所述预设文本匹配时，确定所述第一目标文本对应的所述第一音频信息作为所述用户音频信息，以及所述第二目标文本对应的所述第二音频信息作为所述坐席音频信息；或

当所述第二目标文本与所述预设文本不匹配时，确定所述第一目标文本对应的所述第一音频信息作为所述坐席音频信息，以及所述第二目标文本对应的所述第二音频信息作为所述用户音频信息。

4.根据权利要求2所述的方法，其特征在于，所述根据所述匹配结果，从所述第一音频信息和所述第二音频信息中确定一个音频信息作为坐席音频信息，以及确定另一个音频信息作为用户音频信息，包括：

当所述第一目标文本与所述预设文本匹配且所述第二目标文本与所述预设文本不匹配时，确定所述第一目标文本对应的所述第一音频信息作为所述坐席音频信息，以及所述第二目标文本对应的所述第二音频信息作为所述用户音频信息；或

当所述第一目标文本与所述预设文本不匹配且所述第二目标文本与所述预设文本匹配时，确定所述第一目标文本对应的所述第一音频信息作为所述用户音频信息，以及所述第二目标文本对应的所述第二音频信息作为所述坐席音频信息。

5.根据权利要求2所述的方法，其特征在于，所述预设文本包括预设词组，所述将所述目标文本与预设文本进行匹配，获得匹配结果，包括：

对所述第一目标文本进行分词，获得第一目标词组，并将所述第一目标词组与所述预设词组进行匹配，和/或对所述第二目标文本进行分词，获得第二目标词组，并将所述第二目标词组与所述预设词组进行匹配，获得所述匹配结果。

6.根据权利要求5所述的方法，其特征在于，所述对所述第一目标文本进行分词，获得第一目标词组，包括：

对所述第一目标文本进行分词，获得第一中间词组，并过滤所述第一中间词组中的非关键词，获得所述第一目标词组；

所述对所述第二目标文本进行分词，获得第二目标词组，包括：

对所述第二目标文本进行分词，获得第二中间词组，并过滤所述第二中间词组中的所述非关键词，获得所述第二目标词组。

7.根据权利要求1所述的方法，其特征在于，所述获取混合音频信息，并分割所述混合音频信息至少获得第一音频信息和第二音频信息，包括：

获取所述混合音频信息；

提取所述混合音频信息中的声纹信息，所述声纹信息至少包括第一声纹信息和第二声纹信息；

依据所述第一声纹信息从所述混合音频信息中提取所述第一音频信息，以及依据所述第二声纹信息从所述混合音频信息中提取所述第二音频信息。

8.根据权利要求7所述的方法，其特征在于，所述依据所述第一声纹信息从所述混合音频信息中提取所述第一音频信息，以及依据所述第二声纹信息从所述混合音频信息中提取所述第二音频信息，包括：

依据所述第一声纹信息，从所述混合音频信息中分割出多个第一时间段对应的多个第一音频片段，其中，所述多个第一音频片段与所述多个第一时间段之间一一对应；

按照时间的先后顺序，将所述多个第一时间段对应的所述多个第一音频片段进程合成处理，获得所述第一音频信息；以及

依据所述第二声纹信息，从所述混合音频信息中分割出多个第二时间段对应的多个第二音频片段，其中，所述多个第二音频片段与所述多个第二时间段之间一一对应；

按照时间的先后顺序，将所述多个第二时间段对应的所述多个第二音频片段进行合成处理，获得所述第二音频信息。

9.根据权利要求2所述的方法，其特征在于，所述根据所述第一音频信息获得所述第一目标文本，和/或根据所述第二音频信息获得所述第二目标文本，包括：

根据所述第一音频信息提取第一目标音频片段，并根据所述第一目标音频片段获取所述第一目标文本；和/或

根据所述第二音频信息提取第二目标音频片段，并根据所述第二目标音频片段获取所述第二目标文本。

10.根据权利要求9所述的方法，其特征在于，所述根据所述第一音频信息提取第一目标音频片段，以及根据所述第二音频信息提取第二目标音频片段，包括：

在所述第一音频信息中提取第一预设时间段对应的所述第一目标音频片段，其中，所述第一预设时间段至少包括所述第一音频信息的起始时间和所述第一音频信息的结束时间；

在所述第二音频信息中提取第二预设时间段对应的所述第二目标音频片段，其中，所述第二预设时间段至少包括所述第二音频信息的起始时间和所述第二音频信息的结束时间。

11.一种音频信息分类装置，其特征在于，所述装置包括：

分割模块，用于获取混合音频信息，并分割所述混合音频信息至少获得第一音频信息和第二音频信息；

获取模块，用于根据所述第一音频信息和/或所述第二音频信息获得目标文本；

匹配模块，用于将所述目标文本与预设文本进行匹配，获得匹配结果，其中，所述预设文本为标准坐席对应的话术文本；

确定模块，用于根据所述匹配结果，从所述第一音频信息和所述第二音频信息中确定一个音频信息作为坐席音频信息，以及确定另一个音频信息作为用户音频信息。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-10任一项所述的方法。

13.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-10任一项所述的方法。