CN114125506B

CN114125506B - 语音审核方法及装置

Info

Publication number: CN114125506B
Application number: CN202010887653.1A
Authority: CN
Inventors: 雒晓帆; 余帆帆; 费凡
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2024-03-19
Anticipated expiration: 2040-08-28
Also published as: CN114125506A

Abstract

本说明书实施例提供了语音审核方法及装置，其中，所述语音审核方法包括获取待识别的语音数据；对所述语音数据进行文本处理，获得所述语音数据的文本信息；对所述语音数据进行音质处理，获得所述语音数据的音质信息；在所述文本信息和所述音质信息满足预设审核要求的情况下，确定所述语音数据通过审核；所述语音审核方法通过对待识别的语音数据的文本信息和音质信息获取，以所述语音数据对应的文本信息和音质信息这两项判别标准，实现对该语音数据的快速、准确审核，以保证该语音数据可以作为安全的、合规的语音弹幕展示在视频中，提升用户在观看视频时的参与体验。

Description

语音审核方法及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种语音审核方法。本说明书一个或者多个实施例同时涉及一种语音审核装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

弹幕是一种显示在视频中的用户评论，在视频领域的弹幕可以给观众一种实时互动的感觉，会极大的提高观众的视频观看兴趣和参与感；目前在视频领域主要为文字弹幕的形式，视频播放方会通过对观众发送的文字评论内容进行审核，实现将用户的评论以文字弹幕的形式展示给主播或者其他用户，而对于用户发送的语音弹幕，当前还没有特别合适的审核方案，以保证用户发送的语音弹幕的合规性。

因此需要提供一种可以快速、准确的对语音弹幕进行审核的语音审核方法。

发明内容

有鉴于此，本说明书施例提供了一种语音审核方法。本说明书一个或者多个实施例同时涉及一种语音审核装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中无法对语音弹幕进行审核，以保证语音弹幕合规性的技术缺陷。

根据本说明书实施例的第一方面，提供了一种语音审核方法，包括：

获取待识别的语音数据；

对所述语音数据进行文本处理，获得所述语音数据的文本信息；

对所述语音数据进行音质处理，获得所述语音数据的音质信息；

在所述文本信息和所述音质信息满足预设审核要求的情况下，确定所述语音数据通过审核。

根据本说明书实施例的第二方面，提供了一种语音审核装置，包括：

获取模块，被配置为获取待识别的语音数据；

文本信息获得模块，被配置为对所述语音数据进行文本处理，获得所述语音数据的文本信息；

音质信息获得模块，被配置为对所述语音数据进行音质处理，获得所述语音数据的音质信息；

审核模块，被配置为在所述文本信息和所述音质信息满足预设审核要求的情况下，确定所述语音数据通过审核。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述语音审核方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述语音审核方法的步骤。

本说明书一个实施例实现了一种语音审核方法及装置，其中，所述语音审核方法包括获取待识别的语音数据；对所述语音数据进行文本处理，获得所述语音数据的文本信息；对所述语音数据进行音质处理，获得所述语音数据的音质信息；在所述文本信息和所述音质信息满足预设审核要求的情况下，确定所述语音数据通过审核；所述语音审核方法通过对待识别的语音数据的文本信息和音质信息获取，以所述语音数据对应的文本信息和音质信息这两项判别标准，实现对该语音数据的快速、准确审核，以保证该语音数据可以作为安全的、合规的语音弹幕展示在视频中，提升用户在观看视频时的参与体验。

附图说明

图1是本说明书一个实施例提供的一种语音审核方法的***架构图；

图2是本说明书一个实施例提供的一种语音审核方法的流程图；

图3是本说明书一个实施例提供的一种所述语音审核方法应用在对视频领域的语音弹幕的审核的流程图；

图4是本说明书一个实施例提供的一种所述语音审核方法中模型训练以及模型应用的具体流程示意图。

图5是本说明书一个实施例提供的一种语音审核装置的结构示意图；

图6是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

语音弹幕：弹幕通常指在观看视频时，随视频播放时间轴出现的评论，通常为文字类型，语音弹幕特指通过发送语音生成的包含音频内容的弹幕。

弹幕审核：由于弹幕均为用户自主发送，内容不受限制，因此为了创造和维护健康的网络环境，视频播放方通常都会对弹幕的内容进行审核通过后才将弹幕展示在视频界面，实现用户开放浏览。

在本说明书中，提供了一种语音审核方法。本说明书一个或者多个实施例同时涉及一种语音审核装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

本说明书实施例提供的所述语音审核方法可以应用于任何需要对语音进行审核的领域，例如对视频领域的语音弹幕的审核、对音频领域的语音弹幕的审核、对通信领域的语音对话审核、对自媒体领域的语音留言的审核等等；为了便于理解，本说明书实施例以所述语音审核方法应用于对视频领域的语音弹幕的审核为例进行详细介绍，但不局限于此。

那么在所述语音审核方法应用于对视频领域的语音弹幕的审核为例的情况下，所述语音审核方法中获取的待识别的语音数据即可以理解为语音弹幕。

具体实施时，本说明书实施例的语音弹幕可以呈现于大型视频播放设备、游戏机、台式计算机、智能手机、平板电脑、MP3(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)播放器，MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机、电子书阅读器以及其它显示终端等客户端。

此外，本说明书实施例的语音弹幕可以应用于任何可呈现语音弹幕的视频、音频中，例如在直播、点播、录播类的视频中可呈现语音弹幕，在线或离线听歌、听书等的音频中可呈现语音弹幕。

参见图1，图1示出了根据本说明书一个实施例提供的一种语音审核方法的***架构图。

图1中，用户A通过客户端A观看视频A，在该视频A的播放界面，用户A通过客户端A发送语音弹幕，客户端A将该语音弹幕传输到视频A对应的服务器，服务器对该语音弹幕进行文本处理、音质处理后，获得该语音弹幕对应的文本信息和音质信息，服务器根据该语音弹幕对应的文本信息和音质信息对该语音弹幕进行审核，在确定该语音弹幕满足当前视频A的审核要求的情况下，将该语音弹幕发送至通过客户端B同时观看视频A的用户B以及通过客户端C同时观看视频A的用户C。

参见图2，图2示出了根据本说明书一个实施例提供的一种语音审核方法的流程图，包括以下步骤：

步骤202：获取待识别的语音数据。

其中，待识别的语音数据可以理解为待识别的语音弹幕，包括但不限于任何语言、方言生成的语音数据。

以所述语音审核方法应用于对视频领域的语音弹幕的审核为例，若该视频为直播视频，那么待识别的语音数据可以为用户观看该直播视频的情况下，触发其客户端即时生成的语音弹幕，而获取该语音弹幕的则为该直播视频的服务器；实际应用中，该视频不仅限于直播视频，还可以包括点播视频、录播视频等。

具体实施时，该直播视频可能会面向多个客户端，同一时刻该直播视频的服务器可能会接收到多个客户端发送的语音弹幕，此时服务器会将多个客户端发送的语音弹幕进行顺序存储，形成审核队列，然后再从该审核队列中获取每一个待识别的语音弹幕进行后续审核。

步骤204：对所述语音数据进行文本处理，获得所述语音数据的文本信息。

由于对语音数据的审核没有文字直观，并且直接对语音数据进行审核，可能存在审核效率慢的问题(需要人工审核的方式一点一点听取语音数据对应的音频文件实现审核)，因此将获取到的待识别的语音数据转换为文本信息进行审核，可以提升对语音数据的审核速度；具体的，将待识别的语音数据转换为文本信息的具体方式如下所述：

所述对所述语音数据进行文本处理，获得所述语音数据的文本信息包括：

对所述语音数据进行预处理，提取预处理后的语音数据的语音特征；

将所述语音特征输入声学模型，获得所述语音特征对应的音素信息；

基于预设的搜索算法在文字库中确定所述音素信息对应的文字，并根据语言模型对所述文字进行语义分析，以获得所述语音数据的文本信息。

其中，所述对所述语音数据进行预处理，提取预处理后的语音数据的语音特征包括：

对所述语音数据进行静音点检测，根据所述静音点将所述语音数据切分为多个语音片段；

基于预设的特征提取算法提取每个语音片段的语音特征。

实际应用中，较长的语音数据的内部结构较为复杂，若是直接基于声学模型获得整句语音数据对应的音素信息，声学模型在识别时需要考虑整句的语音数据中每个字或词之间的先后顺序或者因果关系等，其识别效率较低，且在该语音数据的语速较快的情况下，识别错误率也会较高。

本说明书实施例中，在获取待识别的语音数据后，对该语音数据进行静音点检测，以根据静音点对该语音数据进行切分，将该语音数据切分为较短的多个语音片段，可以实现每个语音片段为一个语音帧的效果，然后基于预设的提取算法提取每个语音片段的语音特征，后续可以基于声学模型对每个语音片段的语音特征进行更为快速、准确的识别，获得每个语音片段的语音特征对应的音素信息，那么在保证该语音数据的音素信息准确的基础上，才可以确保后续基于该语音数据的音素信息对该语音数据的文本信息识别的准确性。

具体实施时，预设的特征提取算法包括线性预测倒谱系数算法或者梅尔频率倒谱系数算法。

实际应用中，语音数据是声音，而声音为模拟信号，声音的时域波形只代表声压随时间变化的关系，不能很好的代表声音的特征，因此通过线性预测倒谱系数算法或者梅尔频率倒谱系数将声音波形转换为声学特征向量可以更加有效的接近与真实的语音数据，不会造成语音数据的失真，并且线性预测倒谱系数算法或者梅尔频率倒谱系数算法均是基于倒谱的，更符合人的听觉原理，是比较有效的声音特征提取算法。

实际应用中，所述将所述语音特征输入声学模型，获得所述语音特征对应的音素信息之前，还包括：

获取语音数据样本；

对所述语音数据样本进行静音点检测，根据所述静音点将所述语音数据样本切分为多个语音片段样本；

基于预设的特征提取算法提取每个语音片段样本的语音特征样本；

根据所述语音特征样本以及所述语音特征样本对应的音素信息样本对初始声学模型进行训练，获得所述声学模型。

其中，所述声学模型输入所述语音特征样本，输出所述语音特征样本对应的音素信息样本。

其中，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。

本说明书实施例中，音素信息是用于表示发音的标识组成的信息，例如，对于汉语来说，音素信息为汉字对应的拼音。音素信息可以包括一个或多个音素单元，每个音素单元对应一个字，每个音素单元可以由一个或多个发音的标识组成；对于汉语来说，发音的标识为每个拼音中的声母和韵母，例如，“我”这个汉字对应的音素单元为“wo”。

具体的，为了更加快速、准确的获得语音特征对应的音素信息，本说明书实施例采用深度学习模型的方式，实现对语音特征对应的音素信息的获取，其中声学模型为隐马尔科夫模型HMM(Hidden Markov Model)、深度神经网络DNN(Deep Neural Networks)-HMM(Hidden Markov Model)模型，卷积神经网络CNN(Convolutional Neural Networks)。

具体实施时，从预先存在的样本数据库中获取语音数据，然后通过上述方式对获取语音数据的语音特征，通过人工经验为语音特征确定对应的音素信息，其中，语音数据为语音数据样本，语音数据对应的语音特征为语音特征样本，作为样本输入数据，音素信息为音素信息样本，作为样本输出数据，由语音特征样本和每个语音特征样本对应的音素信息样本组成训练样本，对初始声学模型进行训练，得到训练后的声学模型，基于该声学模型，输入语音特征，输出该语音特征对应的音素信息。

实际应用中，训练样本的数量越多，声学模型的训练效果就会越好，那么本说明书实施例中，通过对语音数据样本进行静音点检测，基于静音点将语音数据样本切分为多个语音片段样本，再通过预设的特征提取算法准确的提取切分后的每个语音片段样本的语音特征样本，基于多组语音特征样本以及语音特征样本对应的音素信息可以实现对声学模型的训练，不仅会增强声学模型的训练效果，还会提高声学模型的识别准确率；其中，预设的特征提取算法与上述实施例的预设的特征提取算法相同，在此不做赘述。

具体的，在基于声学模型获得语音特征对应的音素信息后，即可基于预设的搜索算法在文字库中确定每个音素信息对应的文字，然后将所有的文字输入到语言模型中，基于该语言模型实现对文字的语音分析，以获得语义准确的语音数据的文本信息。

其中，预设的搜索算法包括但不限于帧同步(Time-synchronous)的宽度优先搜索(Breadth First Search)算法或者帧异步(Time-asynchronous)的深度优先搜索(DepthFirst Search)算法，其中，帧同步的宽度优先搜索算法包括但不限于帧同步Viterbi搜索算法，帧异步的深度优先搜索算法包括但不限于帧异步的堆栈搜索算法和A*算法；文本库为预先设置的文本数据库，可以理解为电子字典等，文本库中包括每个音素信息对应文字或词，例如音素信息为“wo”，那么在该文本库中该音素信息“wo”对应的文字包括我、窝、握等文字。

而语言模型则为预先通过大量文本信息训练的语言模型，基于该语言模型可以获得单个字或者词相互关联的概率，该语言模型可以通过上下文结构对一段语音数据的语义语法进行合理分析，以确定出一段语音数据对应的准确的文本信息。

具体的，获得某个语音数据的语音特征对应的音素信息后，基于预设的搜索算法确定一条最佳搜索路径在文本库中快速的查找到每个音素信息对应的文字，然后将这些文字输入到语言模型中进行语义分析，以获得该语音数据的准确的文本信息。

本说明书实施例中，对语音数据的切分、特征提取可以实现基于声学模型对音素信息的准确获取，而对音素信息的准确获取进而影响到基于搜索算法在文本库中确定音素信息的文字的准确性，那么在语音数据的音素信息对应的文字准确的基础上，才可以保证语言模型进行语义分析后获得的语音数据的文本信息的准确性。

步骤206：对所述语音数据进行音质处理，获得所述语音数据的音质信息。

具体的，为了可以高效率的获取到语音数据的音质信息，可以采用预先训练的音质检测模型实现对语音数据进行音质处理，以获得语音数据的音质信息，具体实现方式如下所述：

所述对所述语音数据进行音质处理，获得所述语音数据的音质信息包括：

将所述语音数据输入预先训练的音质检测模型，获得所述语音数据的音质信息。

具体实施时，所述将所述语音数据输入预先训练的音质检测模型，获得所述语音数据的音质信息之前，还包括：

获取语音数据样本以及所述语音数据样本对应的音质信息，其中，所述音质信息包括所述语音数据样本的音量、音色以及波形包络；

基于所述语音数据样本以及所述语音数据样本对应的音质信息对初始音质检测模型进行训练，以获得所述音质检测模型。

其中，所述音质检测模型输入所述语音数据样本，输出所述语音数据样本对应的音质信息。

其中，波形包络指声音发声时，单个音振幅起始和结束的瞬态，也就是波形的包络。这些波形包络变化也影响声音的音色。

实际应用中，从预先建立的样本数据库中获取语音数据样本以及每个语音数据样本对应的音质信息，或者是互联网上获取语音数据样本，并通过人工经验确定每个语音数据样本对应的音质信息，将语音数据样本以及每个语音数据样本对应的音质信息组成训练样本，基于该训练样本对初始音质检测模型进行训练，以获得训练得到的音质检测模型。

具体实施时，仅通过语音数据的文本信息实现对语音数据的审核是不够的，很多时候虽然语音数据对应的文本信息没有问题，但是语音数据中的声音中可能会存在惊悚、刺耳等低质量的音质，会对接收到这些语音数据的用户造成心理障碍，那么为了保证语音数据的安全性，因此不仅需要语音数据对应的文本信息进行审核，还要对语音数据的声音的音质进行审核。

本说明书实施例中，通过预先建立音质检测模型，在后续使用中直接基于该音质检测模型即可快速、准确的获得语音数据对应的音质信息，实现通过对音质信息的判断，保证语音数据的审核质量，增强用户体验。

本说明书另一种可实现方案中，所述对所述语音数据进行音质处理，获得所述语音数据的音质信息包括：

对所述语音数据进行音质处理，确定所述语音数据的声音的振幅、频谱、振幅开始和结束的瞬态；

根据所述语音数据的声音的振幅，获得所述语音数据的音量；

根据所述语音数据的声音的频谱，获得所述语音数据的音色；

根据所述语音数据的声音的振幅开始和结束的瞬态，获得所述语音数据的波形包络。

具体的，通过获取语音数据的声音的振幅、频谱、振幅开始和结束的瞬态等，实现对语音数据的音量、音色以及波形包络等音质信息的获取。

其中，对语音数据进行音质处理之前，还可以对该语音数据进行去噪音等处理，以保证获得语音数据更为准确的音质信息。

本说明书实施例中，通过对语音数据进行音质处理，以获得该语音数据的声波图，根据该语音数据的声波图中的声音的振幅获得语音数据的音量，通过声波图中声音的频谱获得语音数据的音色，以及通过声波图中的声音的振幅开始和结束的瞬间形态获得语音数据的波形包络，实现后续通过语音数据的音量、音色以及波形包络等实现对语音数据的声音的快速、准确的审核。

步骤208：在所述文本信息和所述音质信息满足预设审核要求的情况下，确定所述语音数据通过审核。

其中，预设审核要求可以根据实际应用场景进行设置，仍以所述语音审核方法应用于对视频领域的语音弹幕审核的场景中，那么该预设审核要求则可以是符合当前播放视频的文本信息和音质信息的审核要求，例如该文本信息不能包含当前播放视频的预设敏感词库中的敏感词，音质信息要与当前播放视频的音质信息相匹配等。

具体的，所述在所述文本信息和所述音质信息满足预设审核要求的情况下，确定所述语音数据通过审核包括：

在所述文本信息与预设词库中的关键词匹配，以及所述音质信息与预设音质信息匹配的情况下，确定所述语音数据通过审核。

其中，预设词库可以理解为预设敏感词库，该词库中包含预设设置的多个关键敏感词，例如涉及不健康色彩的敏感词以及存在暴利倾向的敏感词等；预设音质信息则可以根据实际的应用场景进行确定，例如若在视频播放场景中，预设音质信息则为当前播放视频的音质信息或者优于当前播放视频的音质信息等；若在音乐播放场景中，预设音质信息则为当前播放音乐的音质信息或者优于当前播放音乐的音质信息等。

实际应用中，可以从互联网上获取音质音调较好的语音数据，通过大数据分析出这些好的语音数据具有哪些音质信息，基于不同场景，例如唱歌、配音等从性别、音色等维度确定一些优质语音数据的音质信息，建立语音数据样本库，实际使用中，可以通过将获取到的语音数据的音质信息与同一场景下的优质的音质信息进行匹配，以实现对语音数据的审核。

举例说明，获取到的语音数据的应用场景为唱歌视频，那么在获得该语音数据对应的音质信息后，将该音质信息与语音数据样本库中唱歌场景下的优质的音质信息进行匹配(即该语音数据的音调与当前的唱歌视频的音调匹配，音色匹配以及波形包络匹配，又或者音乐节奏匹配)，若匹配，则可以实现对语音数据的审核。

在其他可实现场景中，也可以为预先设置音质信息阈值，在语音数据中的音质信息均大于等于预先设置的音质信息阈值的情况下，确定语音数据通过审核。

除此之外，由于存在违规的关键词远远少于非违规的关键词，故所述预设审核要求还可以设置为检测文本信息和音质信息中是否不存在违规关键词；基于此，可以根据预设的违规关键词创建违规预设词库，之后判断所述文本信息是否与所述违规预设词库匹配，以及所述音质信息与预设音质信息是否匹配；

若所述文本信息与所述违规预设词库不匹配，以及所述音质信息与所述预设音质信息匹配，说明所述文本信息和所述音质信息满足所述预设审核要求，进一步表明所述语音数据是合规的，则此时即可确定所述语音数据通过审核。

若所述文本信息与所述违规预设词库匹配，以及所述音质信息与所述预设音质信息匹配或不匹配，说明所述文本信息不满足所述预设审核要求，进一步表明所述语音数据中存在不合规的语音内容，例如存在广告或辱骂等内容，此时可以直接将语音数据进行驳回，无需再进行审核，很大程度上减少了审核工作量。

本说明书实施例提供的所述语音审核方法，通过对待识别的语音数据的文本信息和音质信息获取，以所述语音数据对应的文本信息和音质信息这两项判别标准，实现对该语音数据的快速、准确审核，以保证该语音数据可以作为安全的、合规的语音弹幕展示在视频中，提升用户在观看视频时的参与体验。

本说明书另一实施例中，所述确定所述语音数据通过审核之后，还包括：

将所述语音数据发送至对应的视频播放平台。

具体的，在语音数据通过审核的情况下，实现将语音数据发送至对应的视频播放平台，使得该视频播放平台的其他客户端均可以接收到该语音数据，实现用户互动，提升用户参与感。

参见图3，以本说明书实施例提供的所述语音审核方法应用在对视频领域的语音弹幕的审核的应用为例，对所述语音审核方法进行进一步说明。其中，图3示出了本说明书一个实施例提供的一种语音审核方法的处理过程流程图，具体包括以下步骤：

其中，待识别的语音数据即为语音弹幕。

步骤302：客户端接收用户点击其视频观看界面上的语音弹幕录制按钮进行语音录制，生成的语音弹幕。

步骤304：客户端将该语音弹幕发送至视频服务端，视频服务端接收到该语音弹幕后，将该语音弹幕进行文件存储。

步骤306：视频服务端将该语音弹幕添加至审核队列中。

步骤308：视频服务端从审核队列中获取该语音弹幕，通过对该语音弹幕进行文本处理，获得该语音弹幕的文本信息，以及通过对该语音弹幕进行音质处理，获得该语音弹幕的音质信息。

参见图4，图4是本说明书一个实施例提供的一种所述语音审核方法中模型训练以及模型应用的具体流程示意图。

具体的，图4示出了本说明书实施例的所述语音审核方法中视频服务端对声学模型、语言模型的训练步骤以及基于训练后的声学模型、语言模型将语音弹幕转换为文本信息的具体步骤。

其中，对声学模型、语言模型的训练步骤如下：

步骤一：从语音数据库中获取语音数据样本。

步骤二：对获取的语音数据样本进行切分以及特征提取，获得语音数据样本对应的语音特征样本以及每个语音特征样本对应的音素信息样本，形成声学模型训练数据。

步骤三：根据声学模型训练数据对初始声学模型进行训练，获得训练后的声学模型。

步骤四：从文本数据库中获取文本样本以及每个文本样本中单个字或者词相互关联的概率，形成语言模型训练数据。

步骤五：基于语言模型训练数据对初始语言模型进行训练，获得训练后的语言模型。

其中，步骤一至步骤三的声学模型训练，以及步骤四至步骤五的语言模型训练无先后执行顺序，也可同时执行，本说明书实施例对此不做任何限定。

基于训练后的声学模型、语言模型将语音弹幕转换为文本信息的步骤如下：

步骤六：获取语音弹幕，且基于该语音弹幕的静音点将该语音弹幕切分为多个语音片段。

步骤七：基于特征提取算法提取语音片段对应的语音特征。

步骤八：将语音特征输入由声学模型、字典、语言模型构成的识别网络中进行通过声学模型对语音特征的语音解码获得语音特征的音素信息、基于搜索算法在字典中获取音素信息对应的文字，最后将文字输入语言模型获得该语音弹幕最终的文本信息。

其中，字典可以理解为预设的文本库，也可以为其他的电子字典，即可以基于音素信息实现文字查询的文本库均可以。

步骤九：输出该文本信息，以实现后续对该文本信息的审核。

步骤310：视频服务端基于该语音弹幕的文本信息和音质信息对该语音弹幕的审核。

实际应用中，为了进一步的保证语音弹幕的审核准确性，在通过步骤308实现对语音弹幕的审核的同时，还可以对语音弹幕的文本信息进行语句是否通顺或者语义是否存在歧义的审核，实现从语音弹幕的文本信息中筛选出语句不通顺或者语义不清楚的文本信息，并确定该文本信息对应的语音弹幕，最后通过人工试听的方式进行深度审核；不仅可以提高审核效率，还能够基于人工经验对该语音弹幕进行加强审核，从而促进语音弹幕场景更加规范。

步骤312：视频服务端将审核通过的该语音弹幕添加至弹幕列表，以在弹幕列表中顺序的展示在用户客户端的视频观看界面。

本说明书实施例提供的所述审核方法，通过对视频观看时的客户端的语音弹幕的审核，避免该语音弹幕中出现广告、不健康的词语或者是与当前播放的视频不合时宜的内容；具体的，一方面会通过人工智能的方式将语音弹幕转换为文本信息，对敏感词库中的敏感词进行过滤；另一方面，会对语音弹幕的音质信息进行审核，避免语音弹幕中出现一些惊悚、高亢、会给收听者造成不适感的语音，实际应用中也可以通过训练获得的机器学习模型，快速的检测语音弹幕的音质信息等，实现对语音弹幕的过滤；并且为了保证筛选质量，通过筛选后的语音弹幕该可以通过人工经验进行再次试听，进一步的保证语音弹幕的合规性、安全性，为视频观看的用户营造一个较好的视频观看环境，增强用户观看以及互动体验。

与上述方法实施例相对应，本说明书还提供了语音审核装置实施例，图5示出了本说明书一个实施例提供的一种语音审核装置的结构示意图。如图5所示，该装置包括：

获取模块502，被配置为获取待识别的语音数据；

文本信息获得模块504，被配置为对所述语音数据进行文本处理，获得所述语音数据的文本信息；

音质信息获得模块506，被配置为对所述语音数据进行音质处理，获得所述语音数据的音质信息；

审核模块508，被配置为在所述文本信息和所述音质信息满足预设审核要求的情况下，确定所述语音数据通过审核。

可选的，所述文本信息获得模块504，进一步被配置为：

基于预设的特征提取算法提取每个语音片段的语音特征。

可选的，所述装置，还包括：

第一样本获取模块，被配置为获取语音数据样本；

切分模块，被配置为对所述语音数据样本进行静音点检测，根据所述静音点将所述语音数据样本切分为多个语音片段样本；

提取模块，被配置为基于预设的特征提取算法提取每个语音片段样本的语音特征样本；

声学模型训练模块，被配置为根据所述语音特征样本以及所述语音特征样本对应的音素信息样本对初始声学模型进行训练，获得所述声学模型。

可选的，所述音质信息获得模块506，进一步被配置为：

可选的，所述装置，还包括：

第二样本获取模块，被配置为获取语音数据样本以及所述语音数据样本对应的音质信息，其中，所述音质信息包括所述语音数据样本的音量、音色以及波形包络；

音质检测模型训练模块，被配置为基于所述语音数据样本以及所述语音数据样本对应的音质信息对初始音质检测模型进行训练，以获得所述音质检测模型。

可选的，所述音质信息获得模块506，进一步被配置为：

可选的，所述审核模块508，进一步被配置为：

可选的，所述装置，还包括：

发送模块，被配置为将所述语音数据发送至对应的视频播放平台。

可选的，所述预设的特征提取算法包括线性预测倒谱系数算法或者梅尔频率倒谱系数算法。

本说明书实施例提供的所述语音审核装置，通过对待识别的语音数据的文本信息和音质信息获取，以所述语音数据对应的文本信息和音质信息这两项判别标准，实现对该语音数据的快速、准确审核，以保证该语音数据可以作为安全的、合规的语音弹幕展示在视频中，提升用户在观看视频时的参与体验。

上述为本实施例的一种语音审核装置的示意性方案。需要说明的是，该语音审核装置的技术方案与上述的语音审核方法的技术方案属于同一构思，语音审核装置的技术方案未详细描述的细节内容，均可以参见上述语音审核方法的技术方案的描述。

图6示出了根据本说明书一个实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620用于执行如下计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述语音审核方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的语音审核方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述语音审核方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述语音审核方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的语音审核方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述语音审核方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种语音审核方法，包括：

获取待识别的语音数据；

获取所述语音数据的语音特征对应的音素信息，其中，音素信息是用于表示发音的标识组成的信息，所述音素信息包括一个或多个音素单元，每个所述音素单元对应一个文字；

基于预设的搜索算法在文字库中确定所述音素信息对应的文字，并根据语言模型对所述文字进行语义分析，以获得所述语音数据的文本信息；

在所述文本信息和所述音质信息满足预设审核要求的情况下，确定所述语音数据通过审核；其中，所述预设审核要求包括所述音质信息与预设音质信息匹配，所述预设音质信息为基于所述语音数据的播放场景确定的音质信息。

2.根据权利要求1所述的语音审核方法，所述获取所述语音数据的语音特征对应的音素信息包括：

将所述语音特征输入声学模型，获得所述语音特征对应的音素信息。

3.根据权利要求2所述的语音审核方法，所述对所述语音数据进行预处理，提取预处理后的语音数据的语音特征包括：

基于预设的特征提取算法提取每个语音片段的语音特征。

4.根据权利要求2或3所述的语音审核方法，所述将所述语音特征输入声学模型，获得所述语音特征对应的音素信息之前，还包括：

获取语音数据样本；

5.根据权利要求1、2或3所述的语音审核方法，所述对所述语音数据进行音质处理，获得所述语音数据的音质信息包括：

6.根据权利要求5所述的语音审核方法，所述将所述语音数据输入预先训练的音质检测模型，获得所述语音数据的音质信息之前，还包括：

7.根据权利要求1、2或3所述的语音审核方法，所述对所述语音数据进行音质处理，获得所述语音数据的音质信息包括：

8.根据权利要求1、2或3所述的语音审核方法，所述在所述文本信息和所述音质信息满足预设审核要求的情况下，确定所述语音数据通过审核包括：

9.根据权利要求1、2或3所述的语音审核方法，所述确定所述语音数据通过审核之后，还包括：

将所述语音数据发送至对应的视频播放平台。

10.根据权利要求3所述的语音审核方法，所述预设的特征提取算法包括线性预测倒谱系数算法或者梅尔频率倒谱系数算法。

11.一种语音审核装置，包括：

获取模块，被配置为获取待识别的语音数据；

文本信息获得模块，被配置为获取所述语音数据的语音特征对应的音素信息，其中，音素信息是用于表示发音的标识组成的信息，所述音素信息包括一个或多个音素单元，每个所述音素单元对应一个文字；基于预设的搜索算法在文字库中确定所述音素信息对应的文字，并根据语言模型对所述文字进行语义分析，以获得所述语音数据的文本信息；

审核模块，被配置为在所述文本信息和所述音质信息满足预设审核要求的情况下，确定所述语音数据通过审核；其中，所述预设审核要求包括所述音质信息与预设音质信息匹配，所述预设音质信息为基于所述语音数据的播放场景确定的音质信息。

12.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现权利要求1-10任一项所述语音审核方法的步骤。

13.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1-10任一项所述语音审核方法的步骤。