CN114666618B

CN114666618B - 音频审核方法、装置、设备及可读存储介质

Info

Publication number: CN114666618B
Application number: CN202210254907.5A
Authority: CN
Inventors: 吴文亮; 马金龙; 徐志坚; 谢睿; 陈光尧; 邓其春; 王伟喆; 张政统; 曾锐鸿; 黎子骏
Original assignee: Guangzhou Huancheng Culture Media Co ltd
Current assignee: Guangzhou Huancheng Culture Media Co ltd
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2023-10-13
Anticipated expiration: 2042-03-15
Also published as: CN114666618A

Abstract

本申请公开了音频审核方法、装置、设备及可读存储介质，该方法包括：对音频流进行切片，得到多个音频片段，并对音频片段进行排序；获取每一音频片段对应的文本信息；若文本信息中包含敏感词，将与敏感词对应的音频片段确定为目标音频片段，并获取敏感词对应的敏感词信息、目标音频片段对应的第一音频特征，及排在目标音频片段前后的各个音频片段对应的第二音频特征及第三音频特征；对目标音频片段进行评分，得到审核分值；若审核分值大于拦截阈值，对目标音频片段进行拦截。可见，本申请可以提高音频审核的准确性。此外，确定审核分值时，既考虑目标音频片段，又考虑播放顺序在目标音频片段前后的音频片段，进一步提高了音频审核的准确率。

Description

音频审核方法、装置、设备及可读存储介质

技术领域

本申请涉及互联网技术领域，更具体地说，涉及一种音频审核方法、装置、设备及可读存储介质。

背景技术

为了规范网络环境，符合互联网规定，及出于对实际业务需求的考虑，对音频及音视频的审核是必须的，也是十分重要的。

现有技术中，通过语音识别，将音频转换为文本信息，并对该文本信息进行审核，直接将对文本信息的审核结果作为该音频的审核结果。这种方案，仅仅考虑了文本内容，并没有有效地利用音频本身，以至于现有的音频审核方法中仍存在没有精准识别违规内容的问题。

综上所述，亟需一种音频审核方法，用于进一步提高音频审核的准确性。

发明内容

有鉴于此，本申请提供了一种音频审核方法、装置、设备及可读存储介质，用于进一步提高音频审核的准确性。

为了实现上述目的，现提出的方案如下：

一种音频审核方法，包括：

获取待审核的音频流；

对所述音频流进行切片，得到多个音频片段，并基于各个音频片段在所述音频流中的播放顺序，对所述音频片段进行排序；

获取每一音频片段对应的文本信息；

判断每一文本信息中是否包含敏感词；

若所述文本信息中包含敏感词，将与所述敏感词对应的音频片段确定为目标音频片段，并获取所述敏感词对应的敏感词信息、所述目标音频片段对应的第一音频特征、排序在目标音频片段之前的各个音频片段对应的第二音频特征，及排序在目标音频片段后一位的音频片段对应的第三音频特征；

根据所述第一音频特征、所述第二音频特征、所述第三音频特征及所述敏感词信息，对所述目标音频片段进行评分，得到审核分值；

判断所述审核分值是否大于预置的拦截阈值；

若所述审核分值大于所述拦截阈值，则对所述目标音频片段进行拦截。

可选的，获取所述敏感词对应的敏感词信息，包括：

通过预设的敏感词与类型及等级一一对应的敏感词表，确定所述敏感词对应的敏感词等级及敏感词类型。

可选的，所述文本信息中包含多个敏感词；

所述通过预设的敏感词与类型及等级一一对应的敏感词表，确定所述敏感词对应的敏感词等级及敏感词类型，包括：

通过所述敏感词表，确定每一敏感词对应的敏感词等级；

将敏感词等级最高的敏感词，确定为目标敏感词；

查询所述敏感词表，获取所述目标敏感词对应的敏感词类型，所述敏感词信息中包括所述目标敏感词对应的敏感词类型及敏感词等级。

可选的，获取所述目标音频片段对应的第一音频特征，包括：

获取所述目标音频片段对应的第一情绪类型及第一短时能量值；

获取排序在目标音频片段之前的各个音频片段对应的第二音频特征，包括：

获取排序在目标音频片段之前的各个音频片段对应的第二短时能量值；

获取排序在目标音频片段前一位的音频片段对应的第二情绪类型；

获取排序在目标音频片段后一位的音频片段对应的第三音频特征，包括：

获取排序在目标音频片段后一位的音频片段对应的第三短时能量值；

获取排序在目标音频片段后一位的音频片段对应的第三情绪类型；

根据所述第一音频特征、所述第二音频特征、所述第三音频特征及所述敏感词信息，对所述目标音频片段进行评分，得到审核分值，包括：

根据所述第一情绪类型、所述第一短时能量值、所述第二短时能量值、所述第二情绪类型、所述第三短时能量值、所述第三情绪类型及所述敏感词信息，对所述目标音频片段进行评分，得到审核分值。

可选的，根据所述第一情绪类型、所述第一短时能量值、所述第二短时能量值、所述第二情绪类型、所述第三短时能量值、所述第三情绪类型及所述敏感词信息，对所述目标音频片段进行评分，得到审核分值，包括：

计算所述第二短时能量值的平均值，作为短时能量平均值；

将所述第一短时能量值与所述短时能量平均值之差的平方，作为情绪波动值；

确定与所述第一情绪类型的激烈程度匹配的分值，作为第一情绪分值；

确定与所述第二情绪类型的激烈程度匹配的分值，作为第二情绪分值；

确定与所述情绪波动值的大小程度匹配的分值，作为第三情绪分值；

确定与所述第三情绪类型的激烈程度匹配的分值，作为第四情绪分值；

确定与所述第一短时能量值的大小程度匹配的分值，作为第一短时能量分值；

确定与排序在目标音频片段前一位的音频片段对应的第二短时能量值大小程度匹配的分值，作为第二短时能量分值；

确定与所述短时能量平均值的大小程度匹配的分值，作为第三短时能量分值；

确定与所述第三短时能量值的大小程度匹配的分值，作为第四短时能量分值；

确定与所述敏感词信息匹配的分值，作为敏感分值；

将所述第一情绪分值、所述第二情绪分值、所述第三情绪分值、所述第四情绪分值、所述第一短时能量分值、所述第二短时能量分值、第三短时能量分值、所述第四短时能量分值及所述敏感分值相加，得到审核分值。

可选的，获取所述目标音频片段对应的第一情绪类型，包括：

将所述目标音频片段输入至情绪分类模型中，得到目标音频片段对应的第一情绪类型；

获取排序在目标音频片段前一位的音频片段对应的第二情绪类型，包括：

将排序在目标音频片段前一位的音频片段输入至情绪分类模型中，得到所述排序在目标音频片段前一位的音频片段对应的第二情绪类型；获取排序在目标音频片段后一位的音频片段对应的第三情绪类型，包括：

将排序在目标音频片段后一位的音频片段输入至情绪分类模型中，得到所述排序在目标音频片段后一位的音频片段对应的第三情绪类型；

其中，所述情绪分类模型，以音频为训练样本，以音频对应的情绪类型为样本标签训练得到。

可选的，所述获取每一音频片段对应的文本信息，包括：

对所述每一音频片段进行编码，得到编码结果；

将所述编码结果输入至声学模型中，得到所述编码结果对应的文字信息，所述声学模型，以音频为训练样本，以音频对应的文字为样本标签，训练得到；

将所述文字信息输入至语言模型中，得到所述文字信息所组成的语句，所述语言模型，以文字集合为训练样本，以文字集合所组成的语句为样本标签，训练得到。

一种音频审核装置，包括：

音频流获取单元，用于获取待审核的音频流；

音频切片单元，用于对所述音频流进行切片，得到多个音频片段，并基于各个音频片段在所述音频流中的播放顺序，对所述音频片段进行排序；

文本信息获取单元，用于获取每一音频片段对应的文本信息；

敏感词判断单元，用于判断每一文本信息中是否包含敏感词；

特征获取单元，用于若所述文本信息中包含敏感词，将与所述敏感词对应的音频片段确定为目标音频片段，并获取所述敏感词对应的敏感词信息、所述目标音频片段对应的第一音频特征、排序在目标音频片段之前的各个音频片段对应的第二音频特征，及排序在目标音频片段后一位的音频片段对应的第三音频特征；

音频评分单元，用于根据所述第一音频特征、所述第二音频特征、所述第三音频特征及所述敏感词信息，对所述目标音频片段进行评分，得到审核分值；

分值比较单元，用于将所述审核分值与拦截阈值进行比较；

音频拦截单元，用于若所述审核分值大于所述风险阈值，则对所述目标音频片段进行拦截。

一种音频审核设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述的音频审核方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述的音频审核方法的各个步骤。

从上述的技术方案可以看出，本申请提供的音频审核方法，可以先获取待审核的音频流；随后，可以对所述音频流进行切片，得到多个音频片段，并基于各个音频片段在所述音频流中的播放顺序，对所述音频片段进行排序，如此，能够按顺序快速地对各个音频片段进行审核；随后，可以获取每一音频片段对应的文本信息；然后，可以判断每一文本信息中是否包含敏感词，同一文本信息中可以包括一个及以上敏感词，也可以不包含敏感词。若文本信息中存在敏感词，才需要进行后续处理；因而，若所述文本信息中包含敏感词，将与所述敏感词对应的音频片段确定为目标音频片段，并获取所述敏感词对应的敏感词信息、所述目标音频片段对应的第一音频特征、排序在目标音频片段之前的各个音频片段对应的第二音频特征，及排序在目标音频片段后一位的音频片段对应的第三音频特征；随后，可以根据所述第一音频特征、所述第二音频特征、所述第三音频特征及所述敏感词信息，对所述目标音频片段进行评分，得到审核分值，如此，可以综合考虑目标音频片段本身的文本内容及音频特征，目标音频片段之前的音频片段以及目标音频片段后一位的音频片段的音频特征，对目标音频片段进行评分。通过多模态结合，即，既考虑目标音频片段对应的文本信息，又考虑目标音频片段的音频特征，对目标音频片段进行评分，使得审核分值更为准确，从而，使得音频审核结果更为准确；随后，可以判断所述审核分值是否大于预置的拦截阈值，如此，通过将多模态判断得到的审核分值与预置的拦截阈值进行比较，判断是否需要对目标音频片段进行拦截；最后，若所述审核分值大于所述拦截阈值，则对所述目标音频片段进行拦截。可见，通过本申请的音频审核方法，可以提高音频审核的准确性。

进一步地，在本申请中，确定审核分值时，既考虑目标音频片段，又考虑播放顺序在目标音频片段之前的音频片段，还考虑播放顺序在目标音频片段之后的音频片段，如此，能够根据音频前后的变化和联系，对目标音频片段进行审核，进一步提高了音频审核的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种音频审核方法流程图；

图2a-图2b为本申请公开的音频流审核前后对比示意图；

图3为本申请公开的情绪分类模型的结构示意图；

图4为本申请公开的音频片段转换为文本信息的语音识别过程示意图；

图5为本申请公开的一种音频审核装置结构框图；

图6为本申请实施例公开的一种音频审核设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

接下来结合图1对本申请的音频审核方法进行详细介绍，包括如下步骤：

步骤S1、获取待审核的音频流。

具体地，待审核的音频流可以为用户上传的一段连续的音频信息。

步骤S2、对所述音频流进行切片，得到多个音频片段，并基于各个音频片段在所述音频流中的播放顺序，对所述音频片段进行排序。

具体地，可以有多种方式对待审核的音频流进行切片，例如，可以随机选取切片时间节点，基于各个切片时间节点，对音频流进行切片，示例如，同一音频流的音频片段的时长可以为5s和10s等；又如，可以根据音频片段的时间长短与审核效率之间的关系，确定音频片段的切片时长，将音频流切片成时长为切片时长的音频片段，示例如，切片时长为10s时，切片后，可得多个时长为10s的音频片段。

步骤S3、获取每一音频片段对应的文本信息。

具体地，可以通过多种方式将音频片段转换为文本信息，例如，可以训练语音识别模型，实现获取每一音频片段对应的文本信息；又如，可以通过ASR(语音识别)算法，实现获取每一音频片段对应的文本信息。

步骤S4、判断每一文本信息中是否包含敏感词，若判断结果为是，则执行步骤S5。

具体地，可以预先建立敏感词表，在敏感词表中，可以记录需要拦截的敏感词。基于此，可以检测文本信息中的每一词语，是否能与敏感词表中的敏感词匹配，若匹配，则包含该词语的文本信息中包含敏感词。

若一个文本信息中包含敏感词，则可能包含一个或多个敏感词。

其中，敏感词可以为具有侮辱性、粗俗、暗示性等网络环境禁止出现的词语。

步骤S5、将与所述敏感词对应的音频片段确定为目标音频片段，并获取所述敏感词对应的敏感词信息、所述目标音频片段对应的第一音频特征、排序在目标音频片段之前的各个音频片段对应的第二音频特征，及排序在目标音频片段后一位的音频片段对应的第三音频特征。

具体地，敏感词对应的音频片段为需要判断是否拦截的音频片段，因而，可以将其确定为目标音频片段，打上标记。

在此基础上，可以获取敏感词对应的敏感词信息，其中，敏感词信息可以为敏感词等级、敏感词词性及敏感词类型等。

在本申请中，第一音频特征指的是目标音频片段对应的音频特征，第二音频特征指的是排序在目标音频片段之前的音频片段对应的音频特征，第三音频特征指的是排序在目标音频片段后一位的音频片段对应的音频特征。随着审核的目标音频片段的不同，第一音频特征可以作为其中一个第二音频特征或第三音频特征，某一个第二音频特征也可以作为第一音频特征或第三音频特征，第三音频特征可以作为第一音频特征，也可以作为其中一个第二音频特征，本申请并不加以限定。

其中，第一音频特征、第二音频特征与第三音频特征所指代的特征类型可以是相同的，也可以是不同的。

步骤S6、根据所述第一音频特征、所述第二音频特征、所述第三音频特征及所述敏感词信息，对所述目标音频片段进行评分，得到审核分值。

具体地，可以通过多种方式，实现根据所述第一音频特征、所述第二音频特征、所述第三音频特征及所述敏感词信息，对所述目标音频片段进行评分，得到审核分值。

例如，可以训练一个评分模型，通过将第一音频特征、第二音频特征、所述第三音频特征及敏感词信息的具体数值及类型输入至评分模型中，即可得到审核分值，其中，该评分模型，以第一音频特征、第二音频特征、所述第三音频特征及敏感词信息的具体数值及类型为训练样本，以分数为样本标签，训练得到，其中，敏感词信息可以是多个敏感词的敏感词信息，也可以是一个敏感词的敏感词信息。

又如，可以根据实际场景的需求，制定评分公式，以第一音频特征、第二音频特征、所述第三音频特征及敏感词信息作为变量，基于此，计算得到审核分值，其中，敏感词信息可以是多个敏感词的敏感词信息，也可以是一个敏感词的敏感词信息。

步骤S7、判断所述审核分值是否大于预置的拦截阈值，若判断结果为是，则执行步骤S8。

具体地，可以预先根据实际场景的需求，确定拦截阈值。其中，拦截阈值的设定是为了避免语音识别的不准确，导致拦截错误；也是为了避免用户的口头禅，导致拦截错误。

步骤S8、对所述目标音频片段进行拦截。

具体地，当对该目标音频片段进行拦截时，可以对该目标音频片段进行消音。示例如图2，为本申请公开的音频流审核前后对比示意图。

图2a中记录了各个音频片段对应的文本信息。在未拦截前包括敏感词1及敏感词2，即，该音频流中存在需要拦截的目标音频片段。使用本申请拦截后的结果如图2b所示，当拦截了敏感词1对应的目标音频片段后，该目标音频片段被消音了，在音频流不再存在该目标音频片段，即，在该目标音频片段对应的时间段内，无任何声音，敏感词2对应的目标音频片段也同理。

从上述的技术方案可以看出，本申请实施例提供的音频审核方法，可以先获取待审核的音频流；随后，可以对所述音频流进行切片，得到多个音频片段，并基于各个音频片段在所述音频流中的播放顺序，对所述音频片段进行排序，如此，能够按顺序快速地对各个音频片段进行审核；随后，可以获取每一音频片段对应的文本信息；然后，可以判断每一文本信息中是否包含敏感词，同一文本信息中可以包括一个及以上敏感词，也可以不包含敏感词。若文本信息中存在敏感词，才需要进行后续处理；因而，若所述文本信息中包含敏感词，将与所述敏感词对应的音频片段确定为目标音频片段，并获取所述敏感词对应的敏感词信息、所述目标音频片段对应的第一音频特征、排序在目标音频片段之前的各个音频片段对应的第二音频特征，及排序在目标音频片段后一位的音频片段对应的第三音频特征；随后，可以根据所述第一音频特征、所述第二音频特征、所述第三音频特征及所述敏感词信息，对所述目标音频片段进行评分，得到审核分值，如此，可以综合考虑目标音频片段本身的文本内容及音频特征，以及目标片段之前的音频片段的音频特征，对目标音频片段进行评分。通过多模态结合，即，既考虑目标音频片段对应的文本信息，又考虑目标音频片段的音频特征，对目标音频片段进行评分，使得审核分值更为准确，从而，使得音频审核结果更为准确；随后，可以判断所述审核分值是否大于预置的拦截阈值，如此，通过将多模态判断得到的审核分值与预置的拦截阈值进行比较，判断是否需要对目标音频片段进行拦截；最后，若所述审核分值大于所述拦截阈值，则对所述目标音频片段进行拦截。可见，通过本申请的音频审核方法，可以提高音频审核的准确性。

在本申请的一些实施例中，对步骤S5中获取所述敏感词对应的敏感词信息的过程进行详细说明，具体步骤如下：

S10、通过预设的敏感词与类型及等级一一对应的敏感词表，确定所述敏感词对应的敏感词等级及敏感词类型。

具体地，可以预先建立敏感词表，在敏感词表中存在各个敏感词的情况下，还在敏感词表中记录了每一敏感词对应的类型及等级。

因而，可以通过敏感词表确定步骤S4中识别到的每一敏感词对应的敏感词类型及敏感词等级。

从上述技术方案可以看出，本实施例相比于上一实施例提供了一种确定敏感词信息的可选的方式，具体方式为可以基于预先设置的敏感词表，确定敏感词类型及敏感词等级。可见，通过上述的技术方案，可以更好地确定敏感词信息，从而更好地对目标音频片段进行评分。

在本申请的一些实施例中，考虑到一个目标音频片段对应的文本信息中可能存在多个敏感词，基于此，需要确定，若文本信息中存在多个敏感词时，如何对目标音频片段进行评分。因而，将对该过程进行详细说明。接下来，对步骤S10、通过预设的敏感词与类型及等级一一对应的敏感词表，确定所述敏感词对应的敏感词等级及敏感词类型的过程进行详细说明，步骤如下：

S100、通过所述敏感词表，确定每一敏感词对应的敏感词等级。

具体地，可以将每一敏感词与预先建立的敏感词表进行匹配，确定该敏感词的等级。

S101、将敏感词等级最高的敏感词，确定为目标敏感词。

具体地，可以对文本信息对应的敏感词等级进行排序，选取敏感词等级最高的敏感词确定为目标敏感词。敏感词表中的敏感词等级根据其的粗俗、侮辱及暗示程度进行设定，敏感词等级越高，其被拦截的可能性越大。

为了便于音频审核人员检查，可以在显示屏幕中显示文本信息对应多个敏感词，并显示目标敏感词对应的等级。

S102、查询所述敏感词表，获取所述目标敏感词对应的敏感词类型，所述敏感词信息中包括所述目标敏感词对应的敏感词类型及敏感词等级。

具体地，在确定了目标敏感词后，需要确定目标敏感词的敏感词类型，并将敏感词类型及敏感词等级记录为敏感词信息。

从上述技术方案可以看出，相比于上一实施例，本实施例提供了一种针对文本信息中包含多个敏感词时，确定敏感词信息的可选的方式。通过上述的技术方案，可以更好地对文本信息中包含多个敏感词时的审核场景进行音频审核。

在本申请的一些实施例中，对步骤S5中获取所述目标音频片段对应的第一音频特征的过程进行详细说明，具体步骤如下：

S20、获取所述目标音频片段对应的第一情绪类型及第一短时能量值。

具体地，可以用x(n)表示音频片段，w(n-m)表示窗序列，h(n)表示与w(n-m)有关的滤波器。基于此，音频片段对应的短时能量值的计算方式如下所示

如此，可以采用x(n)表示目标音频片段，并使用计算方式(1)进行计算，可以得到目标音频片段对应的第一短时能量值。

随后，可以根据目标音频片段的短时能量值的高低，目标音频片段的分贝值，或利用情绪分类模型确定目标音频片段对应的第一情绪类型。

为了便于音频审核人员检查，可以在显示屏幕中显示第一情绪类型及第一短时能量值。

在此基础上，对步骤S5中获取排序在目标音频片段之前的各个音频片段对应的第二音频特征的过程进行详细说明，具体步骤如下：

S21、获取排序在目标音频片段之前的各个音频片段对应的第二短时能量值。

具体地，每一音频片段可以采用x(n)表示，并使用公式(1)得到每一音频片段对应的第二短时能量值。

S22、获取排序在目标音频片段前一位的音频片段对应的第二情绪类型。

具体地，可以采用多种方式获取音频片段对应的情绪类型，可以根据目标音频片段的短时能量值的高低，音频片段的分贝值，或利用情绪分类模型确定音频片段对应的情绪类型。因而，可以根据目标音频片段的短时能量值的高低，音频片段的分贝值，或利用情绪分类模型确定排序在目标音频片段前一位的音频片段对应的第二情绪类型。

为了便于音频审核人员检查，可以在显示屏幕中显示第二情绪类型及第二短时能量值。

在此基础上，对步骤S5中获取排序在目标音频片段后一位的音频片段对应的第三音频特征的过程进行详细说明，具体步骤如下：

S23、获取排序在目标音频片段后一位的音频片段对应的第三短时能量值。

具体地，每一音频片段可以采用x(n)表示，并使用公式(1)得到排序在目标音频片段后一位的音频片段对应的第三短时能量值。

在本申请中，第一短时能量值指的是目标音频片段对应的短时能量值，第二短时能量值指的是排序在目标音频片段之前的音频片段对应的短时能量值，第三短时能量值指的是排序在目标音频片段后一位音频片段对应的短时能量值。随着审核的目标音频片段的不同，第一短时能量值可以作为其中一个第二短时能量值或第三短时能量值，某一个第二短时能量值也可以作为第一短时能量值或第三短时能量值，第三短时能量值也可以作为第一短时能量值或第二短时能量值，本申请并不加以限定。

S24、获取排序在目标音频片段后一位的音频片段对应的第三情绪类型。

在本申请中，第一情绪类型指的是目标音频片段对应的情绪类型，第二情绪类型指的是排序在目标音频片段前一位的音频片段对应的情绪类型，第三情绪类型指的是排序在目标音频片段后一位的音频片段对应的情绪类型。随着审核的目标音频片段的不同，第一情绪类型可以作为第二情绪类型或第三情绪类型，第二情绪类型也可以作为第一情绪类型或第三情绪类型，第三情绪类型也可以作为第一情绪类型或第二情绪类型，本申请并不加以限定。

为了便于音频审核人员检查，可以在显示屏幕中显示第三情绪类型及第三短时能量值。

进一步地，在此基础上，对步骤S6、根据所述第一音频特征、所述第二音频特征及所述敏感词信息，对所述目标音频片段进行评分，得到审核分值的过程进行详细说明，步骤如下：

S25、根据所述第一情绪类型、所述第一短时能量值、所述第二短时能量值、所述第二情绪类型、所述第三短时能量值、所述第三情绪类型及所述敏感词信息，对所述目标音频片段进行评分，得到审核分值。

具体地，可以预先设置不同的情绪类型对应不同的分值，且预设不同的短时能量值对应不同的分值，并预设不同的敏感词信息对应不同的分值。基于此，可以确定所述第一情绪类型、所述第一短时能量值、所述第二短时能量值、所述第二情绪类型、所述第三短时能量值、所述第三情绪类型及所述敏感词信息分别对应的分值，并将确定的分值进行相加，可以得到审核分值。

其中，可以预设审核分值的计算函数，将第一情绪类型、第一短时能量值、第二短时能量值、第二情绪类型、所述第三短时能量值、所述第三情绪类型及敏感词信息作为变量。当获知了第一情绪类型、第一短时能量值、第二短时能量值、第二情绪类型、所述第三短时能量值、所述第三情绪类型及敏感词信息的具体信息后，将其输入至计算函数中，可以得到审核分值。

从上述技术方案可以看出，本实施例相比于上一实施例，提供了一种获取音频特征的可选的方式，音频特征中可以包括短时能量值及情绪类型。通过上述的过程，可以更好地确定审核分值。

在本申请的一些实施例中，对步骤S20中获取所述目标音频片段对应的第一情绪类型的过程进行详细说明，步骤如下：

S200、将所述目标音频片段输入至情绪分类模型中，得到目标音频片段对应的第一情绪类型。

具体地，可以预先训练一个情绪分类模型，该情绪分类模型可以为深度置信网络，以音频为训练样本，以音频对应的情绪类型为样本标签训练得到。

接下来将结合图3，对该情绪分类模型的结构进行详细说明。在该情绪分类模型中包含时域特征提取层，对输入的音频片段进行时域特征提取。随后，该情绪分类模型还包括主成分分析层，对时域特征及进行主成分分析。然后，该情绪分类模型还包括受限波尔兹曼机，提高情绪分类模型的学***静、激动、愤怒等。

在此基础上，对步骤S22、获取排序在目标音频片段前一位的音频片段对应的第二情绪类型的过程进行详细说明，步骤如下：

S220、将排序在目标音频片段前一位的音频片段输入至情绪分类模型中，得到所述排序在目标音频片段前一位的音频片段对应的第二情绪类型。

具体地，可以将排序在目标音频片段前一位的音频片段输入至步骤S200提及的情绪分类模型中，该情绪分类模型可以输出与排序在目标音频片段前一位的音频片段对应的第二情绪类型。

在此基础上，对步骤S24、获取排序在目标音频片段后一位的音频片段对应的第三情绪类型的过程进行详细说明，步骤如下：

具体地，可以将排序在目标音频片段后一位的音频片段输入至步骤S200提及的情绪分类模型中，该情绪分类模型可以输出与排序在目标音频片段后一位的音频片段对应的第三情绪类型。

从上述技术方案可以看出，相比于上一实施例，本实施例增加了一种可以利用情绪分类模型，获取目标音频片段及音频片段的情绪类型的可选的方式。通过上述的步骤，可以更快且更准确地获知目标音频片段及音频片段的情绪类型，从而提高音频审核的效率及准确率。

在本申请的一些实施例中，对步骤S25、根据所述第一情绪类型、所述第一短时能量值、所述第二短时能量值、所述第二情绪类型、所述第三短时能量值、所述第三情绪类型及所述敏感词信息，对所述目标音频片段进行评分，得到审核分值的过程进行详细说明，步骤如下：

S250、计算所述第二短时能量值的平均值，作为短时能量平均值。

具体地，可以将排序在目标音频片段之前的各个音频片段对应的第二短时能量值进行相加，并将相加后的结果除以排序在目标音频片段之前的音频片段个数，得到短时能量平均值。

为了便于音频审核人员检查，可以在显示屏幕中显示计算得到的短时能量平均值。

S251、将所述第一短时能量值与所述短时能量平均值之差的平方，作为情绪波动值。

具体地，当用户的情绪波动越大时，越容易触发敏感词。因而，可以将第一短时能量值与短时能量平均值之差的平方，作为情绪波动值，以便后续确定目标音频片段中是否包含敏感词。

为了便于音频审核人员检查，可以在显示屏幕中显示计算得到的情绪波动值。

S252、确定与所述第一情绪类型的激烈程度匹配的分值，作为第一情绪分值。

具体地，当情绪越激动时，越容易触发敏感词。因而，可以预先根据情绪类型的激烈程度，确定每一情绪类型对应的分值。基于此，当获知目标音频片段对应的第一情绪类型时，可以确定其对应的第一情绪分值。

S253、确定与所述第二情绪类型的激烈程度匹配的分值，作为第二情绪分值。

具体地，当预先设定有每一情绪类型对应的分值时，若获知了排序在目标音频片段前一位的音频片段对应的第二情绪类型，则可以确定第二情绪类型对应的第二情绪分值。

S254、确定与所述情绪波动值的大小程度匹配的分值，作为第三情绪分值。

具体地，情绪波动值越大，越容易触发敏感词。因而，可以预先设定情绪波动值的大小与分值之间的对应关系。基于此，当步骤S231中得到情绪波动值时，可以基于情绪波动值的大小与分值之间的对应关系，确定第三情绪分值。

S255、确定与所述第三情绪类型的激烈程度匹配的分值，作为第四情绪分值。

具体地，情绪波动值越大，越容易触发敏感词。因而，可以预先设定情绪波动值的大小与分值之间的对应关系。基于该对应关系，确定第四情绪分值。

S256、确定与所述第一短时能量值的大小程度匹配的分值，作为第一短时能量分值。

具体地，可以预先设定短时能量值的大小与分值之间的对应关系。当获知第一短时能量值时，可以基于短时能量值的大小与分值之间的对应关系，确定与第一短时能量值对应的第一短时能量分值。

S257、确定与排序在目标音频片段前一位的音频片段对应的第二短时能量值大小程度匹配的分值，作为第二短时能量分值。

具体地，当获知第二短时能量值时，可以基于短时能量值的大小与分值之间的对应关系，确定与第二短时能量值对应的第二短时能量分值。

S258、确定与所述短时能量平均值的大小程度匹配的分值，作为第三短时能量分值。

具体地，当获知短时能量平均值时，可以基于短时能量值的大小与分值之间的对应关系，确定与短时能量平均值对应的第三短时能量分值。

S259、确定与所述第三短时能量值的大小程度匹配的分值，作为第四短时能量分值。

具体地，当获知第三短时能量值时，可以基于短时能量值的大小与分值之间的对应关系，确定与第三短时能量值对应的第四短时能量分值。

S260、确定与所述敏感词信息匹配的分值，作为敏感分值。

具体地，敏感词信息中可以包括敏感词类型及敏感词等级，可以预先设定敏感词类型与分值之间的对应关系，并预设敏感词等级的大小与分值之间的对应关系，基于此，可以确定敏感词类型对应的分值及敏感词等级对应的分值，并将敏感词类型对应的分值及敏感词等级对应的分值进行相加，可以得到敏感词信息匹配的敏感分值。

若文本信息中包含多个敏感词时，可以仅关注敏感词等级最高的敏感词，即，敏感分值中可以仅包含敏感词等级最高的敏感词所对应的分值，也可以根据所有敏感词对应的敏感词等级及敏感词类型，确定敏感分值。

S261、将所述第一情绪分值、所述第二情绪分值、所述第三情绪分值、所述第四情绪分值、所述第一短时能量分值、所述第二短时能量分值、第三短时能量分值、所述第四短时能量分值及所述敏感分值相加，得到审核分值。

具体地，将上述所得到的第一情绪分值、第二情绪分值、第三情绪分值、第四情绪分值、第一短时能量分值、第二短时能量分值、第三短时能量分值、第四短时能量分值及敏感分值相加，可以得到审核分值。

其中，为了便于音频审核人员检查，可以在显示屏幕中显示第一情绪分值、第二情绪分值、第三情绪分值、第四情绪分值、第一短时能量分值、第二短时能量分值、第三短时能量、第四短时能量分值及敏感分值。

由上述的技术方案可以看出，相比于上一实施例，本实施例提供了一种根据第一情绪类型、第一短时能量值、第二短时能量值、第二情绪类型、第三短时能量值、第三情绪类型及敏感词信息，对目标音频片段进行评分，得到审核分值的可选的方式。通过上述的过程，可以更好地利用第一情绪类型、第一短时能量值、第二短时能量值、第二情绪类型、第三短时能量值、第三情绪类型及敏感词信息对目标音频片段进行评分。且，在本实施例地评分过程中，不仅仅只是参考情绪类型及敏感词，还进一步针对用户的情绪波动值进行评分，如此，能够更好地、更准确地对目标音频片段进行审核。

在本申请的一些实施例中，对步骤S3、获取每一音频片段对应的文本信息的过程进行详细说明，步骤如下：

S30、对所述每一音频片段进行编码，得到编码结果。

具体地，在排序后，可以按照音频片段的排序顺序，逐一对音频片段进行编码，得到每一音频片段的编码结果。

接下来将结合图4，对编码的过程进行说明。

参见图4，在编码过程中，先对音频片段进行信号截取，并将每一个截取的信号转换为对应信号帧，并对每一信号帧进行特征提取，得到特征向量，并以特征向量作为编码结果。

S31、将所述编码结果输入至声学模型中，得到所述编码结果对应的文字信息。

具体地，可以训练声学模型，用以获知每一音频片段对应的字或字母。其中，该声学模型，以音频为训练样本，以音频对应的文字为样本标签，训练得到。

在训练过程中，样本集可以为时长不同的音频，且音频所对应的语言也可以不同，可以为中文，也可以为英文、法语等语言。

参见图4，当训练完成后，可以将步骤S30中得到的特征向量输入至声学模型中，可以输出与音频片段对应的字或字母。

S32、将所述文字信息输入至语言模型中，得到所述文字信息所组成的语句语言模型，以文字集合为训练样本，以文字集合所组成的语句为样本标签，训练得到。

具体地，可以训练语言模型，用以获知每一音频片段对应的文本信息。其中，该语言模型，以文字集合为训练样本，以文字集合所组成的语句为样本标签，训练得到。

在训练过程中，样本集可以为长短不一的文字集合，该文字集合可以为一个完整的句子，也可以由字词及短语组成一个文字集合。

由上述技术方案可以看出，本实施例提供了一种获取每一音频片段对应的文本信息的可选的方式。通过上述的步骤，可以准确地，客观地获取每一音频片段对应的文本信息，从而准确地，客观地进行音频审核。

下面对本申请提供的音频审核装置进行描述，下文描述的音频审核装置与上文描述的音频审核方法可相互对应参照。

参见图5，图5为本申请公开的一种音频审核装置结构框图。

音频流获取单元1，用于获取待审核的音频流；

音频切片单元2，用于对所述音频流进行切片，得到多个音频片段，并基于各个音频片段在所述音频流中的播放顺序，对所述音频片段进行排序；

文本信息获取单元3，用于获取每一音频片段对应的文本信息；

敏感词判断单元4，用于判断每一文本信息中是否包含敏感词；

特征获取单元5，用于若所述文本信息中包含敏感词，将与所述敏感词对应的音频片段确定为目标音频片段，并获取所述敏感词对应的敏感词信息、所述目标音频片段对应的第一音频特征、排序在目标音频片段之前的各个音频片段对应的第二音频特征，及排序在目标音频片段后一位的音频片段对应的第三音频特征；

音频评分单元6，用于根据所述第一音频特征、所述第二音频特征、所述第三音频特征及所述敏感词信息，对所述目标音频片段进行评分，得到审核分值；

分值比较单元7，用于将所述审核分值与拦截阈值进行比较；

音频拦截单元8，用于若所述审核分值大于所述风险阈值，则对所述目标音频片段进行拦截。

进一步地，该特征获取单元可以包括：

等级及类型获取单元，用于通过预设的敏感词与类型及等级一一对应的敏感词表，确定所述敏感词对应的敏感词等级及敏感词类型。

进一步地，该等级及类型获取单元可以包括：

第一等级及类型获取单元，用于通过所述敏感词表，确定每一敏感词对应的敏感词等级；

第二等级及类型获取单元，用于将敏感词等级最高的敏感词，确定为目标敏感词；

第三等级及类型获取单元，用于查询所述敏感词表，获取所述目标敏感词对应的敏感词类型，所述敏感词信息中包括所述目标敏感词对应的敏感词类型及敏感词等级。

进一步地，该特征获取单元可以包括：

情绪及能量值获取单元，用于获取所述目标音频片段对应的第一情绪类型及第一短时能量值；

短时能量值获取单元，用于获取排序在目标音频片段之前的各个音频片段对应的第二短时能量值；

情绪类型获取单元，用于获取排序在目标音频片段前一位的音频片段对应的第二情绪类型；

能量值获取单元，用于获取排序在目标音频片段后一位的音频片段对应的第三短时能量值；

情绪获取单元，用于获取排序在目标音频片段后一位的音频片段对应的第三情绪类型；

在此基础上，该音频评分单元可以包括：

审核分值获取单元，用于根据所述第一情绪类型、所述第一短时能量值、所述第二短时能量值、所述第二情绪类型、所述第三短时能量值、所述第三情绪类型及所述敏感词信息，对所述目标音频片段进行评分，得到审核分值。

进一步地，该审核分值获取单元可以包括：

第一审核分值获取单元，用于计算所述第二短时能量值的平均值，作为短时能量平均值；

第二审核分值获取单元，用于将所述第一短时能量值与所述短时能量平均值之差的平方，作为情绪波动值；

第三审核分值获取单元，用于确定与所述第一情绪类型的激烈程度匹配的分值，作为第一情绪分值；

第四审核分值获取单元，用于确定与所述第二情绪类型的激烈程度匹配的分值，作为第二情绪分值；

第五审核分值获取单元，用于确定与所述情绪波动值的大小程度匹配的分值，作为第三情绪分值；

第六审核分值获取单元，用于确定与所述第三情绪类型的激烈程度匹配的分值，作为第四情绪分值；

第七审核分值获取单元，用于确定与所述第一短时能量值的大小程度匹配的分值，作为第一短时能量分值；

第八审核分值获取单元，用于确定与排序在目标音频片段前一位的音频片段对应的第二短时能量值大小程度匹配的分值，作为第二短时能量分值；

第九审核分值获取单元，用于确定与所述短时能量平均值的大小程度匹配的分值，作为第三短时能量分值；

第十审核分值获取单元，用于确定与所述第三短时能量值的大小程度匹配的分值，作为第四短时能量分值；

第十一审核分值获取单元，用于确定与所述敏感词信息匹配的分值，作为敏感分值；

第十二审核分值获取单元，用于将所述第一情绪分值、所述第二情绪分值、所述第三情绪分值、所述第四情绪分值、所述第一短时能量分值、所述第二短时能量分值、第三短时能量分值、所述第四短时能量分值及所述敏感分值相加，得到审核分值。

进一步地，该等级及类型获取单元可以包括：

第一情绪类型得到单元，用于将所述目标音频片段输入至情绪分类模型中，得到目标音频片段对应的第一情绪类型；

在此基础上，该情绪类型获取单元可以包括：

第二情绪类型得到单元，用于将排序在目标音频片段前一位的音频片段输入至情绪分类模型中，得到所述排序在目标音频片段前一位的音频片段对应的第二情绪类型；

在此基础上，该情绪获取单元可以包括：

第三情绪类型得到单元，用于将排序在目标音频片段后一位的音频片段输入至情绪分类模型中，得到所述排序在目标音频片段后一位的音频片段对应的第三情绪类型；

进一步地，该文本信息获取单元可以包括：

音频片段编码单元，用于对所述每一音频片段进行编码，得到编码结果；

声学模型利用单元，用于将所述编码结果输入至声学模型中，得到所述编码结果对应的文字信息，所述声学模型，以音频为训练样本，以音频对应的文字为样本标签，训练得到；

语言模型利用单元，用于将所述文字信息输入至语言模型中，得到所述文字信息所组成的语句，所述语言模型，以文字集合为训练样本，以文字集合所组成的语句为样本标签，训练得到。

本申请提供的音频审核装置可应用于音频审核设备，如移动终端、PC终端、ipad等。可选的，图6示出了音频审核设备的硬件结构框图，参照图6，音频审核设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取待审核的音频流；

获取每一音频片段对应的文本信息；

判断每一文本信息中是否包含敏感词；

判断所述审核分值是否大于预置的拦截阈值；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取待审核的音频流；

获取每一音频片段对应的文本信息；

判断每一文本信息中是否包含敏感词；

判断所述审核分值是否大于预置的拦截阈值；

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。本申请的各个实施例之间可以相互结合。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频审核方法，其特征在于，包括：

获取待审核的音频流；

获取每一音频片段对应的文本信息；

判断每一文本信息中是否包含敏感词；

若所述文本信息中包含敏感词，将与所述敏感词对应的音频片段确定为目标音频片段，并获取所述敏感词对应的敏感词信息、所述目标音频片段对应的第一情绪类型和第一短时能量值、排序在目标音频片段之前的各个音频片段对应的第二短时能量值、排序在目标音频片段前一位的音频片段对应的第二情绪类型，以及，排序在目标音频片段后一位的音频片段对应的第三短时能量值和第三情绪类型；

计算各个所述第二短时能量值的平均值，作为短时能量平均值；

确定与所述敏感词信息匹配的分值，作为敏感分值；

将所述第一情绪分值、所述第二情绪分值、所述第三情绪分值、所述第四情绪分值、所述第一短时能量分值、所述第二短时能量分值、第三短时能量分值、所述第四短时能量分值及所述敏感分值相加，得到审核分值；

判断所述审核分值是否大于预置的拦截阈值；

2.根据权利要求1所述的方法，其特征在于，获取所述敏感词对应的敏感词信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述文本信息中包含多个敏感词；

通过所述敏感词表，确定每一敏感词对应的敏感词等级；

将敏感词等级最高的敏感词，确定为目标敏感词；

4.根据权利要求1所述的方法，其特征在于，获取所述目标音频片段对应的第一情绪类型，包括：

将排序在目标音频片段前一位的音频片段输入至情绪分类模型中，得到所述排序在目标音频片段前一位的音频片段对应的第二情绪类型；

获取排序在目标音频片段后一位的音频片段对应的第三情绪类型，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取每一音频片段对应的文本信息，包括：

对所述每一音频片段进行编码，得到编码结果；

6.一种音频审核装置，其特征在于，包括：

音频流获取单元，用于获取待审核的音频流；

特征获取单元，用于若所述文本信息中包含敏感词，将与所述敏感词对应的音频片段确定为目标音频片段，并获取所述敏感词对应的敏感词信息、所述目标音频片段对应的第一情绪类型和第一短时能量值、排序在目标音频片段之前的各个音频片段对应的第二短时能量值、排序在目标音频片段前一位的音频片段对应的第二情绪类型，以及，排序在目标音频片段后一位的音频片段对应的第三短时能量值和第三情绪类型；

音频评分单元，用于计算各个所述第二短时能量值的平均值，作为短时能量平均值；将所述第一短时能量值与所述短时能量平均值之差的平方，作为情绪波动值；确定与所述第一情绪类型的激烈程度匹配的分值，作为第一情绪分值；确定与所述第二情绪类型的激烈程度匹配的分值，作为第二情绪分值；确定与所述情绪波动值的大小程度匹配的分值，作为第三情绪分值；确定与所述第三情绪类型的激烈程度匹配的分值，作为第四情绪分值；确定与所述第一短时能量值的大小程度匹配的分值，作为第一短时能量分值；确定与排序在目标音频片段前一位的音频片段对应的第二短时能量值大小程度匹配的分值，作为第二短时能量分值；确定与所述短时能量平均值的大小程度匹配的分值，作为第三短时能量分值；确定与所述第三短时能量值的大小程度匹配的分值，作为第四短时能量分值；确定与所述敏感词信息匹配的分值，作为敏感分值；将所述第一情绪分值、所述第二情绪分值、所述第三情绪分值、所述第四情绪分值、所述第一短时能量分值、所述第二短时能量分值、第三短时能量分值、所述第四短时能量分值及所述敏感分值相加，得到审核分值；

分值比较单元，用于将所述审核分值与拦截阈值进行比较；

音频拦截单元，用于若所述审核分值大于所述拦截阈值，则对所述目标音频片段进行拦截。

7.一种音频审核设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-5中任一项所述的音频审核方法的各个步骤。

8.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-5任一项的音频审核方法的各个步骤。