CN112087726B

CN112087726B - 彩铃识别的方法及***、电子设备及存储介质

Info

Publication number: CN112087726B
Application number: CN202010953701.2A
Authority: CN
Inventors: 邓艳江; 罗超; 胡泓; 李巍
Original assignee: Ctrip Travel Network Technology Shanghai Co Ltd
Current assignee: Ctrip Travel Network Technology Shanghai Co Ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2022-08-23
Anticipated expiration: 2040-09-11
Also published as: CN112087726A

Abstract

本发明公开了一种彩铃识别的方法及***、电子设备及存储介质。其中，彩铃识别的方法包括以下步骤：将输入的音频信号转换为文本；判断是否存在与所述文本匹配的关键词；若是，则将所述音频信号识别为彩铃；若否，则将所述音频信号输入至彩铃分类模型，并根据所述彩铃分类模型的预测结果确定所述音频信号是否为彩铃；其中，所述彩铃分类模型基于训练样本训练得到，所述训练样本包括彩铃样本以及包括人声的非彩铃样本。本发明通过对音频信号转换得到的文本进行关键词匹配以识别彩铃，若未成功匹配，则将音频信号输入彩铃分类模型进行二次识别，即同时利用文本和音频进行彩铃的识别，提高了彩铃识别的准确率。

Description

彩铃识别的方法及***、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种彩铃识别的方法及***、电子设备及存储介质。

背景技术

随着人工智能技术的发展，很多重复性的工作将交由机器完成，客服机器人就是一种实例。彩铃是个性化多彩回铃音业务的简称，是一项由被叫客户为呼叫自己移动电话的其他主叫客户设定特殊音效(音乐、歌曲、故事情节、人物对话)的回铃音的业务。

客服机器人在使用过程中，通过语音识别功能会误将彩铃中包含的文字内容识别出来，从而导致下游的意图识别以及会话管理实效，进而使整个会话流程发生错误。因此，识别出彩铃并不让其进入下游的意图识别以及会话管理变得十分必要。

目前的彩铃大致可以分为三类：其一是纯背景音乐；其二是纯人声播报，例如：欢迎您致电某某大酒店等；其三是伴随有背景音乐的人声播报。对于前两类彩铃，可以使用传统文本匹配的方法进行识别。而对于第三类彩铃，由于背景音乐的存在，导致客服机器人无法识别出完整的句子，因此利用文本匹配的方法无法准确地将其识别出来，从而导致彩铃识别的准确率降低。

发明内容

本发明要解决的技术问题是为了克服现有技术中无法准确识别伴随有背景音乐的人声播报的彩铃的缺陷，提供一种彩铃识别方法及***、电子设备及存储介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明的第一方面提供一种彩铃识别的方法，包括以下步骤：

将输入的音频信号转换为文本；

判断是否存在与所述文本匹配的关键词；

若是，则将所述音频信号识别为彩铃；

若否，则将所述音频信号输入至彩铃分类模型，并根据所述彩铃分类模型的预测结果确定所述音频信号是否为彩铃；其中，所述彩铃分类模型基于训练样本训练得到，所述训练样本包括彩铃样本以及包括人声的非彩铃样本。

较佳地，所述将所述音频信号输入至彩铃分类模型，根据所述彩铃分类模型的预测结果确定所述音频信号是否为彩铃，具体包括：

对所述音频信号进行分帧处理，得到若干帧子音频信号；

分别对各帧子音频信号进行检测，得到有效帧，其中，所述有效帧为包括语音区的子音频信号；

将所述有效帧输入至彩铃分类模型，得到所述有效帧的预测结果；

根据所有有效帧的预测结果确定所述音频信号是否为彩铃。

较佳地，所述根据所有有效帧的预测结果确定所述音频信号是否为彩铃，具体包括：

若有效帧为彩铃的帧数与所有有效帧的帧数之比大于预设值，则确定所述音频信号为彩铃，否则，确定所述音频信号不为彩铃。

较佳地，所述将所述有效帧输入至彩铃分类模型具体包括：

对所述有效帧进行加窗和傅里叶变换的预处理，得到所述有效帧的频谱特征；

将所述有效帧的频谱特征输入至彩铃分类模型。

较佳地，所述彩铃分类模型为神经网络模型。

本发明的第二方面提供一种彩铃识别的***，包括转换模块、判断模块、分类模块；

所述转换模块用于将输入的音频信号转换为文本；

所述判断模块用于判断是否存在与所述文本匹配的关键词，并在是的情况下将所述音频信号识别为彩铃，以及在否的情况下调用所述分类模块；

所述分类模块用于将所述音频信号输入至彩铃分类模型，并根据所述彩铃分类模型的预测结果确定所述音频信号是否为彩铃；其中，所述彩铃分类模型基于训练样本训练得到，所述训练样本包括彩铃样本以及包括人声的非彩铃样本。

较佳地，所述分类模块具体包括：

分帧单元，用于对所述音频信号进行分帧处理，得到若干帧子音频信号；

检测单元，用于分别对各帧子音频信号进行检测，得到有效帧，其中，所述有效帧为包括语音区的子音频信号；

输入单元，用于将所述有效帧输入至彩铃分类模型，得到所述有效帧的预测结果；

确定单元，用于根据所有有效帧的预测结果确定所述音频信号是否为彩铃。

较佳地，所述确定单元具体用于在有效帧为彩铃的帧数与所有有效帧的帧数之比大于预设值的情况下，确定所述音频信号为彩铃，否则确定所述音频信号不为彩铃。

本发明的第三方面提供一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的彩铃识别的方法。

本发明的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的彩铃识别的方法。

本发明的积极进步效果在于：通过对音频信号转换得到的文本进行关键词匹配以识别彩铃，若未成功匹配，则将音频信号输入彩铃分类模型进行二次识别，即同时利用文本和音频进行彩铃的识别，提高了彩铃识别的准确率。

附图说明

图1为本发明实施例1提供的一种彩铃识别的方法流程图。

图2为本发明实施例1提供的一种步骤S104的流程图。

图3为本发明实施例2提供的彩铃识别的***的结构框图。

图4为本发明实施例3提供的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种彩铃识别的方法，如图1所示，包括以下步骤：

步骤S101、将输入的音频信号转换为文本。

在将本实施例提供的彩铃识别的方法应用于客服机器人的例子中，客服机器人具有语音识别功能，用于将输入的音频信号转换为文本。

步骤S102、判断是否存在与所述文本匹配的关键词，若是，则执行步骤S103，若否，则执行步骤S104。

步骤S102中的关键词是一个集合，基于历史彩铃中的文本收集得到，可以包括中文、英文、电话号码等。在一个具体的例子中，关键词包括“关于您致电”、“热忱为您服务”、“Thanks for calling”、“400-820”等。

在具体实施的一个例子中，关键词预先存储在本地，在实际使用的过程中将关键词与步骤S101得到的文本进行匹配。在具体实施的另一个例子中，关键词预先存储在服务器，在实际使用的过程中将步骤S101得到的文本传输至服务器，在服务器端进行关键词匹配，并将匹配结果回传至本地。

在步骤S102可选的一种实施方式中，对步骤S101得到的文本进行关键词提炼，得到目标关键词，利用目标关键词与预先存储的关键词进行匹配，得到与目标关键词匹配度最高的关键词，若匹配度大于预设值例如90％，则认为存在与步骤S101得到的文本匹配的关键词，否则，认为不存在与步骤S101得到的文本匹配的关键词。

在步骤S102可选的另一种实施方式中，依次判断步骤S101得到的文本是否包括预先存储的关键词，若是，则认为存在与所述文本匹配的关键词，否则，认为不存在与所述文本匹配的关键词。在一个例子中，预先存储的关键词包括“关于您致电”、“热忱为您服务”以及“Thanks for calling”，依次判断步骤S101得到的文本“您好，****酒店热忱为您服务”中是否上述关键词，判断结果为包括“热忱为您服务”的关键词，即存在与上述文本匹配的关键词。

步骤S103、将所述音频信号识别为彩铃。

步骤S104、将所述音频信号输入至彩铃分类模型，并根据所述彩铃分类模型的预测结果确定所述音频信号是否为彩铃。其中，所述彩铃分类模型基于训练样本训练得到，所述训练样本包括彩铃样本以及包括人声的非彩铃样本。

需要说明的是，包括人声的非彩铃样本为用户正常说话的音频样本。在具体实施的例子中，用户正常说话的音频包括“请帮我订一下10月1日****酒店的房间”、“我的订单从哪里可以看到”、“喂，您好”等。

在步骤S104的具体实施中，彩铃分类模型的预测结果为0～1之间的数值。在一个例子中，若预测结果小于0.5，确定音频信号不为彩铃，若预测结果大于0.5，确定音频信号为彩铃。在另一个例子中，若预测结果小于0.8，确定音频信号不为彩铃，若预测结果大于0.8，确定音频信号为彩铃。

在具体实施的一个例子中，利用如下步骤训练彩铃分类模型：

获取包括彩铃样本以及包括人声的非彩铃样本的训练样本；其中，彩铃样本中包括彩铃的音频信号以及对应的分类标签，非彩铃样本包括用户正常说话的音频信号以及对应的分类标签；

将训练样本输入至构建的彩铃分类模型，根据输出的预测结果以及训练样本的分类标签调整彩铃分类模型的参数，直至彩铃分类模型收敛。

在可选的一种实施方式中，上述彩铃分类模型为神经网络模型。在一个具体的例子中，上述彩铃分类模型包括三层神经网络，且使用Softmax函数(归一化指数函数)作为激活函数。

在可选的一种实施方式中，步骤S104包括：

步骤S104a、对所述音频信号进行分帧处理，得到若干帧子音频信号。在一个具体的例子中，将输入的长度为1s的音频信号分成10ms的定长子音频信号，即每帧子音频信号的长度为10ms。

步骤S104b、分别对各帧子音频信号进行检测，得到有效帧，其中，所述有效帧为包括语音区的子音频信号。

步骤S104b中，对各帧子音频信号进行语音区或静音区的检测，包括语音区的子音频信号为有效帧，不包括语音区即均为静音区的子音频信号为非有效帧。

在步骤S104b可选的一种实施方式中，利用VAD(Voice Activity Detection，语音活动检测)对各帧子音频信号进行检测。

步骤S104c、将所述有效帧输入至彩铃分类模型，得到所述有效帧的预测结果。

在步骤S104c可选的一种实施方式中，对步骤S104b得到的有效帧进行加窗和傅里叶变换的预处理，得到所述有效帧的频谱特征，将所述有效帧的频谱特征输入至彩铃分类模型。

步骤S104d、根据所有有效帧的预测结果确定所述音频信号是否为彩铃。

各个有效帧的预测结果可能为彩铃，也可能为人声，因此步骤S104d中需要根据所有有效帧的预测结果确定输入的音频信号是否为彩铃。

在步骤S104d可选的一种实施方式中，若有效帧为彩铃的帧数与所有有效帧的帧数之比大于预设值，则确定所述音频信号为彩铃，否则，确定所述音频信号不为彩铃。其中，预设值可以根据实际情况进行设置，例如将预设值设为80％，即在有效帧为彩铃的帧数与所有有效帧的帧数之比大于80％的情况下确定输入的音频信号为彩铃，而非人声。

图2是用于示出一种步骤S104的流程图。如图2所示，对输入的音频信号进行分帧处理，得到若干帧子音频信号，遍历每帧子音频信号，进行如下处理：对子音频信号进行VAD检测，根据检测结果判断该子音频信号是否为有效帧，若是有效帧，则将其输入至彩铃分类模型，根据模型预测结果判断有效帧是否为彩铃，若是，则记录有效帧为彩铃的帧数。所有子音频信号遍历结束之后，根据有效帧为彩铃的帧数与所有有效帧的帧数识别输入的音频信号是否为彩铃，若有效帧为彩铃的帧数与所有有效帧的帧数之比大于预设值，则识别输入的音频信号为彩铃。

本实施方式中，通过对音频信号转换得到的文本进行关键词匹配以识别彩铃，若未成功匹配，则将音频信号输入彩铃分类模型进行二次识别，即同时利用文本和音频进行彩铃的识别，提高了彩铃识别的准确率。

下面以输入的音频信号为伴随有背景音乐的人声播报彩铃“欢迎您致电****酒店，我们将为您提供最优质的服务”为例，具体说明本实施方式。首先，将输入的音频信号转换为文本，由于背景音乐的存在，转换得到的文本为“欢迎****酒店，我们为您提优质服务”，利用该文本进行关键词匹配，未发现有匹配的关键词。然后，将输入的音频信号输入至训练好的彩铃分类模型，根据彩铃分类模型的预测结果确定该音频为彩铃。也即，本实施方式提供的彩铃识别方法能够成功识别伴随有背景音乐的人声播报彩铃，与现有技术相比，提高了彩铃识别的准确率。

在将本实施例提供的彩铃识别的方法应用于客服机器人的例子中，若客服机器人将输入的音频信号识别为彩铃，则对该音频信号进行屏蔽，即不进入下游的意图识别以及会话管理，从而防止彩铃干扰正常的会话。

实施例2

本实施例提供一种彩铃识别的***20，如图3所示，包括转换模块21、判断模块22、分类模块23。

转换模块21用于将输入的音频信号转换为文本。

判断模块22用于判断是否存在与所述文本匹配的关键词，并在是的情况下将所述音频信号识别为彩铃，以及在否的情况下调用所述分类模块；

分类模块23用于将所述音频信号输入至彩铃分类模型，并根据所述彩铃分类模型的预测结果确定所述音频信号是否为彩铃；其中，所述彩铃分类模型基于训练样本训练得到，所述训练样本包括彩铃样本以及包括人声的非彩铃样本。

在可选的一种实施方式中，上述彩铃分类模型为神经网络模型。

在可选的一种实施方式中，如图3所示，分类模块23具体包括分帧单元、检测单元、输入单元以及确定单元。

分帧单元用于对所述音频信号进行分帧处理，得到若干帧子音频信号。

检测单元用于分别对各帧子音频信号进行检测，得到有效帧，其中，所述有效帧为包括语音区的子音频信号。

输入单元用于将所述有效帧输入至彩铃分类模型，得到所述有效帧为彩铃或人声的预测结果。

在可选的一种实施方式中，输入单元具体用于对所述有效帧进行加窗和傅里叶变换的预处理，得到所述有效帧的频谱特征；并将所述有效帧的频谱特征输入至彩铃分类模型。

确定单元用于根据所有有效帧的预测结果确定所述音频信号是否为彩铃。

在可选的一种实施方式中，上述确定单元具体用于在有效帧为彩铃的帧数与所有有效帧的帧数之比大于预设值的情况下，确定所述音频信号为彩铃，否则确定所述音频信号不为彩铃。

实施例3

图4为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器、存储在存储器上并可在处理器上运行的计算机程序以及实现不同功能的多个子***，所述处理器执行所述程序时实现实施例1的彩铃识别的方法。图4显示的电子设备3仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

电子设备3的组件可以包括但不限于：上述至少一个处理器4、上述至少一个存储器5、连接不同***组件(包括存储器5和处理器4)的总线6。

总线6包括数据总线、地址总线和控制总线。

存储器5可以包括易失性存储器，例如随机存取存储器(RAM)和/或高速缓存存储器，还可以进一步包括只读存储器(ROM)。

存储器5还可以包括具有一组(至少一个)程序模块的程序/实用工具，这样的程序模块包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器4通过运行存储在存储器5中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1的彩铃识别的方法。

电子设备3也可以与一个或多个外部设备7(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口8进行。并且，电子设备3还可以通过网络适配器9与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图4所示，网络适配器9通过总线6与电子设备3的其它模块通信。应当明白，尽管图4中未示出，可以结合电子设备3使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)***、磁带驱动器以及数据备份存储***等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1的彩铃识别的方法。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1的彩铃识别的方法。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种彩铃识别的方法，其特征在于，包括以下步骤：

将输入的音频信号转换为文本；

判断是否存在与所述文本匹配的关键词；

若是，则将所述音频信号识别为彩铃；

若否，则将所述音频信号输入至彩铃分类模型，并根据所述彩铃分类模型的预测结果确定所述音频信号是否为彩铃；其中，所述彩铃分类模型基于训练样本训练得到，所述训练样本包括彩铃样本以及包括人声的非彩铃样本；通过所述彩铃分类模型确定为彩铃的所述音频信号为伴随有背景音乐的人声播报彩铃；

所述将所述音频信号输入至彩铃分类模型，根据所述彩铃分类模型的预测结果确定所述音频信号是否为彩铃，具体包括：

对所述音频信号进行分帧处理，得到若干帧子音频信号；

根据所有有效帧的预测结果确定所述音频信号是否为彩铃。

2.如权利要求1所述的方法，其特征在于，所述根据所有有效帧的预测结果确定所述音频信号是否为彩铃，具体包括：

3.如权利要求1所述的方法，其特征在于，所述将所述有效帧输入至彩铃分类模型具体包括：

将所述有效帧的频谱特征输入至彩铃分类模型。

4.如权利要求1-3中任一项所述的方法，其特征在于，所述彩铃分类模型为神经网络模型。

5.一种彩铃识别的***，其特征在于，包括转换模块、判断模块、分类模块；

所述转换模块用于将输入的音频信号转换为文本；

所述分类模块用于将所述音频信号输入至彩铃分类模型，并根据所述彩铃分类模型的预测结果确定所述音频信号是否为彩铃；其中，所述彩铃分类模型基于训练样本训练得到，所述训练样本包括彩铃样本以及包括人声的非彩铃样本；通过所述彩铃分类模型确定为彩铃的所述音频信号为伴随有背景音乐的人声播报彩铃；

所述分类模块具体包括：

6.如权利要求5所述的***，其特征在于，所述确定单元具体用于在有效帧为彩铃的帧数与所有有效帧的帧数之比大于预设值的情况下，确定所述音频信号为彩铃，否则确定所述音频信号不为彩铃。

7.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的彩铃识别的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的彩铃识别的方法。