CN110990534B

CN110990534B - 一种数据处理方法、装置和用于数据处理的装置

Info

Publication number: CN110990534B
Application number: CN201911207691.1A
Authority: CN
Inventors: 朱紫薇; 潘逸倩; 刘忠亮; 唐文琦; 杨岩
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2024-02-06
Anticipated expiration: 2039-11-29
Also published as: CN110990534A

Abstract

本发明实施例提供了一种数据处理方法、装置和用于数据处理的装置。其中的方法具体包括：对语音数据进行音频事件检测，识别所述语音数据中的音频事件；确定所述音频事件对应的事件类型；根据所述音频事件在所述语音数据中的相关位置、以及所述音频事件对应的事件类型，对所述语音数据进行标记。本发明实施例便于用户在语音数据中可以快速定位到所需事件类型对应音频事件的位置，可以提高用户体验和语音数据的处理效率。

Description

一种数据处理方法、装置和用于数据处理的装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据处理方法、装置和用于数据处理的装置。

背景技术

在用户的日常自然言语中，会出现哈欠、掌声、笑声等非文字类的音频事件，对语音数据进行音频事件检测，在语音处理领域具有重要意义。

通过对语音数据进行音频事件检测，可以检测出语音数据中的笑声事件，不仅可以提取语音数据中的精彩片段，使得用户能够更便捷的找到自己感兴趣的语音片段，而且该笑声事件在一定程度上可以反映聊天的气氛、说话人的情感状态、情绪变化、以及性格等重要信息，有助于为用户定制差异化的体验方案。

然而，用户的语音数据中可能包含一些无意义的笑声事件，例如有些用户在说话时习惯性地加一声“呵呵”，对于检测出的此类无意义的笑声事件，不但对后续语音数据处理过程没有帮助，反而会影响语音数据处理的效率以及用户的体验。

发明内容

本发明实施例提供一种数据处理方法、装置和用于数据处理的装置，可以提高用户在语音数据定位音频事件的效率。

为了解决上述问题，本发明实施例公开了一种数据处理方法，所述方法包括：

对语音数据进行音频事件检测，识别所述语音数据中的音频事件；

确定所述音频事件对应的事件类型；

根据所述音频事件在所述语音数据中的相关位置、以及所述音频事件对应的事件类型，对所述语音数据进行标记。

另一方面，本发明实施例公开了一种数据处理装置，所述装置包括：

事件检测模块，用于对语音数据进行音频事件检测，识别所述语音数据中的音频事件；

类型确定模块，用于确定所述音频事件对应的事件类型；

数据标记模块，用于根据所述音频事件在所述语音数据中的相关位置、以及所述音频事件对应的事件类型，对所述语音数据进行标记。

再一方面，本发明实施例公开了一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

确定所述音频事件对应的事件类型；

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的数据处理方法。

本发明实施例包括以下优点：

本发明实施例对语音数据进行音频事件检测，在识别出语音数据中包含的音频事件的基础上，进一步确定该音频事件对应的事件类型，并根据所述音频事件在所述语音数据中的相关位置、以及所述音频事件对应的事件类型，对所述语音数据进行标记。由此，通过本发明实施例，使得用户通过语音数据中的标记信息即可区分不同事件类型的音频事件，便于用户在语音数据中可以快速定位到所需事件类型对应音频事件的位置，可以提高用户体验和语音数据的处理效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种数据处理方法实施例的步骤流程图；

图2是本发明的一种数据处理装置实施例的结构框图；

图3是本发明的一种用于数据处理的装置800的框图；及

图4是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参照图1，示出了本发明的一种数据处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101、对语音数据进行音频事件检测，识别所述语音数据中的音频事件；

步骤102、确定所述音频事件对应的事件类型；

步骤103、根据所述音频事件在所述语音数据中的相关位置、以及所述音频事件对应的事件类型，对所述语音数据进行标记。

本发明实施例的数据处理方法可适用于电子设备，所述电子设备包括但不限于：服务器、智能手机、录音笔、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

本发明实施例的数据处理方法可用于对语音数据进行音频事件检测并标记。具体地，本发明实施例在识别出语音数据中包含的音频事件的基础上，进一步确定该音频事件对应的事件类型，并根据该事件类型，对该语音数据进行标记。例如，若识别出语音数据中包含笑声事件，则进一步确定该笑声事件的事件类型是单人笑声还是多人笑声，并根据该笑声事件在该语音数据中的相关位置以及该笑声事件对应的事件类型对该语音数据进行标记，使得用户通过标记信息即可区分不同类型的音频事件，便于用户在语音数据中可以快速定位到所需音频事件对应的位置，可以提高用户体验和语音数据的处理效率。

需要说明的是，所述语音数据可以是一段连续的语音，例如一个句子、一段话等。可以理解，本发明实施例对所述语音数据的来源不加以限制。例如，所述语音数据可以是通过所述电子设备的录音功能实时采集的语音片段；或者，所述语音数据可以是从网络下载的音频文件；或者，所述语音数据还可以是从视频中提取的一段语音；或者，所述语音数据还可以是用户通过即时通讯应用输入或发送或接收的语音信息等。

在对语音数据进行音频事件检测之前，还可以对所述语音数据进行预处理，以消除由发声器官和采集设备所带来的混叠、高次谐波失真、高频等因素的影响，提高语音数据的质量。所述预处理可以包括预加重、分帧、加窗等操作。在对语音数据进行预处理之后，可以对预处理后的语音数据进行音频事件检测，识别所述语音数据中的音频事件。

本发明实施例可以预先训练用于检测语音数据中音频事件的事件检测模型，该事件检测模型的输入为语音特征，输出为检测出的n(n为正整数)个音频事件以及一个其它(other)信息。其中，n个音频事件为训练事件检测模型时样本数据中包含的n种音频事件，例如：笑声事件、掌声事件、欢呼声事件、鼓掌声事件、倒彩声事件、哭声事件等；other信息指的是语音数据中的非音频事件信息，例如说话声、背景声等。

可以理解，本发明实施例对所述事件检测模型的模型结构以及训练方法不加以限制。所述事件检测模型可以包括深度神经网络，所述深度神经网络可以融合多种神经网络，所述多种神经网络包括但不限于以下的至少一种或者至少两种的组合、叠加、嵌套：CNN(Convolutional Neural Network，卷积神经网络)、LSTM(Long Short-Term Memory，长短时记忆)网络、RNN(Simple Recurrent Neural Network，循环神经网络)、注意力神经网络等。

具体地，可以收集大量的样本数据，样本数据中包含音频事件、背景噪声、环境数据等，并且对样本数据中音频事件对应的语音帧进行标注。然后，利用标注好的样本数据训练事件检测模型。

首先，对样本数据进行分帧处理，得到预设长度的语音帧序列；然后，对所述预设长度的语音帧序列进行特征提取，得到对应的语音特征；接下来，将各预设长度的语音帧序列对应的语音特征输入初始的事件检测模型中，得到各时刻的语音帧对应各音频事件的后验概率；根据所述后验概率，预测所述各时刻的语音帧对应的音频事件。在训练过程中，根据初始的事件检测模型的输出结果与标注信息之间的差异，对初始的事件检测模型进行参数调整，直到损失函数达到收敛条件，得到训练完成的事件检测模型。

在实际应用中，一段语音数据中的音频事件的时长通常相对较短，因此，为了使得事件检测模型的训练更加准确，在收集样本数据时，可以控制正样例(事件数据)和负样例(非事件数据)之间的平衡，可选地，可以将正样例和负样例之间的比例控制在1:2-1:10之间。

需要说明的是，本发明实施例可以训练一个同时检测多种音频事件的事件检测模型，通过该模型可以同时检测出一个语音数据中包含的多个音频事件，如笑声事件、掌声事件、欢呼声事件、鼓掌声事件、倒彩声事件、哭声事件等；或者，还可以训练一个仅用于检测单个音频事件的事件检测模型，通过该模型可以检测出一个语音数据中包含某一种音频事件，如仅检测笑声事件。

在本发明的一种可选实施例中，所述对语音数据进行音频事件检测，识别所述语音数据中的音频事件，具体可以包括：

步骤S11、对所述语音数据进行分帧处理，得到预设长度的语音帧序列；

步骤S12、将所述语音帧序列对应的语音特征输入训练得到的事件检测模型中，得到各时刻的语音帧对应各音频事件的后验概率；

步骤S13、根据所述后验概率，确定所述各时刻的语音帧对应的音频事件。

在训练得到事件检测模型之后，可以利用该事件检测模型对语音数据进行音频事件检测。假设该事件检测模型的输入为语音特征，输出为n(n为正整数)个音频事件以及一个其它(other)信息。

首先，对语音数据进行分帧处理，得到预设长度的语音帧序列。例如，以某个固定的窗口长度(如400帧)对语音数据进行流式滑动，则得到预设长度为400帧的语音帧序列。

然后，将所述预设长度的语音帧序列对应的语音特征输入训练得到的事件检测模型中，可以得到各时刻的语音帧对应各音频事件的后验概率，根据所述后验概率，可以确定所述各时刻的语音帧对应的音频事件。

具体地，可以对所述各时刻的语音帧的后验概率进行中值滤波，判断中值滤波后得到的数值是否超过n个音频事件中各音频事件对应的阈值，若超过某个音频事件对应的阈值，则确定当前时刻的语音帧属于该音频事件。

在具体应用中，可能出现同一个语音帧对应多个音频事件的情况，因此，在对所述各时刻的语音帧的后验概率进行中值滤波之后，可以再进行一次中值滤波，将此次得到的音频事件检测结果作为最终的检测结果。在本发明的一种可选实施例中，所述确定所述音频事件对应的事件类型，具体可以包括：

步骤S21、确定所述音频事件在所述语音数据中对应的语音帧序列；

步骤S22、根据所述语音帧序列的基频特征和音强分布特征，确定所述音频事件的事件类型，所述事件类型包括：单人事件或多人事件。

需要说明的是，本发明实施例中的音频事件可以包括笑声事件、掌声事件、欢呼声事件、鼓掌声事件、倒彩声事件、哭声事件等任意场景的音频事件，为便于描述，本发明实施例均以笑声事件为例进行说明，其它场景的音频事件相互参照即可。

在具体应用中，对语音数据中的笑声事件进行检测，可用于标记前后语句的重要性和情感，在语音数据处理中具有重要意义。因此，本发明实施例的事件检测模型可以检测语音数据中是否出现笑声事件。

然而，在实际应用中，比如在演讲过程中，如果某一时刻只有一个人发出笑声，并不能说明此刻的演讲内容较为精彩；如果某一时刻有多个人同时发出笑声，则可以说明此刻的演讲内容较为精彩。可以看出，在语音数据中，单人笑声和多人笑声具有不同的实际意义，因此，本发明实施例在检测出语音数据中的音频事件之后，进一步区分该音频事件的事件类型为单人事件还是多人事件。例如，本发明实施例在检测出笑声事件的基础上，进一步区分笑声事件的事件类型，例如区分该笑声事件是单人笑声还是多人笑声。

可以理解，上述单人笑声和多人笑声仅作为笑声事件场景下的事件类型，本发明实施例对各个事件场景下的事件类型不加以限制。例如，对于鼓掌声事件，事件类型可以包括单人鼓掌声和多人鼓掌声。对于欢呼声事件，事件类型可以包括单人欢呼声和多人欢呼声。又如，对于喝彩声事件，事件类型可以包括单人喝彩声和多人喝倒彩声等。

本发明实施例可以利用事件检测模型检测语音数据中的音频事件，并且根据音频事件的起始帧和结束帧，确定音频事件在所述语音数据中对应的语音帧序列，再根据所述语音帧序列的基频特征和音强分布特征，确定所述音频事件的事件类型为单人事件还是多人事件。

具体地，以笑声事件场景为例，本发明实施例通过事件检测模型可以输出语音数据中每一个语音帧的音频事件检测结果。例如，对于一段语音数据，可以检测出该语音数据的第25秒的语音帧为非音频事件，而第26秒的语音帧为音频事件，如笑声事件，则可以确定第26秒的语音帧为该笑声事件的起始帧。同理，如果检测到第31秒的语音帧仍为笑声事件，而第32秒的语音帧为非音频事件，则可以确定第31秒的语音帧为该笑声事件的结束帧。由此，可以得到该笑声事件对应的语音帧序列包含从第26秒至第31秒的语音帧。

在检测出笑声事件并且确定笑声事件在语音数据中对应的语音帧序列之后，本发明实施例进一步确定所述笑声事件的事件类型是单人笑声还是多人笑声。由于单人笑声和多人笑声在基频和音强分布方面具有不同表现，因此，本发明实施例可以根据所述语音帧序列的基频特征和音强分布特征，确定所述笑声事件的事件类型为单人笑声还是多人笑声。

在本发明的一种可选实施例中，所述根据所述语音帧序列的基频特征和音强分布特征，确定所述音频事件的事件类型，包括：

步骤S31、计算所述语音帧序列中包含基频的语音帧的比例；

步骤S32、判断所述比例是否大于第一阈值，若大于，则确定所述音频事件的事件类型为单人事件；否则，计算所述语音帧序列中各语音帧的音强差平均绝对值；

步骤S33、判断所述音强差平均绝对值是否大于第二阈值，若大于，则确定所述音频事件的事件类型为单人事件；否则，确定所述音频事件的事件类型为多人事件。

仍以笑声事件为例，基音的频率即为基频(记为F0)，决定整个音的音高。在声音中，基频是指一个复音中基音的频率。在构成一个复音的若干个音中，基音的频率最低，强度最大。由于笑声的声音特点，单人笑声中通常包含F0，而多人笑声中，由于多个人的笑声综合了不同人的声音，基频会被抵消，因此，通常在多人笑声中不包含F0。

本发明实施例首先计算所述语音帧序列中包含基频(F0)的语音帧的比例，并且判断所述比例是否大于第一阈值，若大于，说明该语音帧序列中包含F0，则确定所述笑声事件的事件类型为单人笑声；否则，进一步计算所述语音帧序列中各语音帧的音强差平均绝对值。

在实际应用中，单人笑声的音强分布通常比较陡峭，而多人笑声由于综合了不同人的声音，笑声的音强分布通常比较稳定，同时，多人笑声中不包含F0。因此，在确定语音帧序列中包含F0的语音帧的比例不大于第一阈值的情况下，进一步计算所述语音帧序列中各语音帧的音强差平均绝对值，并且判断所述音强差平均绝对值是否大于第二阈值，若大于，则确定所述笑声事件的事件类型为单人笑声；否则，确定所述笑声事件的事件类型为多人笑声。其中，音强差平均绝对值为对当前帧的音强减前一帧的音强的绝对值取平均值所得到。

可以理解，通过上述步骤，本发明实施例还可以根据语音帧序列的基频特征和音强分布特征，确定掌声事件的事件类型为单人掌声还是多人掌声，或者确定欢呼声事件的事件类型为单人欢呼声还是多人欢呼声等。

可选地，本发明实施例还可以收集大量包含单人笑声的样本数据，以及包含多人笑声的样本数据，并且对收集的样本数据标注单人笑声或者多人笑声，根据标注的样本数据训练用于区分单人笑声和多人笑声的分类模型。这样，在使用事件检测模型检测到语音数据中包含笑声事件之后，可以确定笑声事件在该语音数据中对应的语音帧序列，将该语音帧序列输入该分类模型，通过该分类模型可以确定该语音帧序列对应的笑声事件的事件类型为单人笑声还是多人笑声。

可以理解，对于不同场景的音频事件，可以训练不同音频事件对应的分类模型。例如，对于掌声事件，可以训练用于区分单人掌声还是多人掌声的分类模型。对于欢呼声事件，可以训练用于区分单人欢呼声还是多人欢呼声的分类模型等。

可选地，在计算所述语音帧序列中包含基频的语音帧的比例的过程中，可以先将所述语音帧序列进行分段，然后对每个分段分别计算包含基频的语音帧的比例，再对每个分段的比例求和得到整个语音帧序列中包含基频的语音帧的比例。同样地，在计算所述语音帧序列中各语音帧的音强差平均值的过程中，可以对每个分段分别计算分段中各语音帧的音强差平均绝对值，再对每个分段的音强差平均绝对值求平均得到整个语音帧序列中各语音帧的音强差平均绝对值。这样，对语音帧序列细分为多个分段，对每个分段分别进行计算，可以避免单个语音帧产生的较大影响，以提高计算的准确性。

可选地，在具体应用中，音频事件最开始的一小段语音帧通常具有较强差异性，可能会影响上述比例和音强差平均绝对值的准确度，因此，在根据所述语音帧序列的基频特征和音强分布特征，确定所述笑声事件的事件类型的过程中，可以先对所述语音帧序列进行截取，去掉开始的一小段，然后对截取后的语音帧序列进行计算。

通过本发明实施例，在检测出语音数据中的笑声事件之后，还可以进一步确定该笑声事件对应的事件类型是单人笑声还是多人笑声。在对语音数据进行标记时，可以对单人笑声的笑声事件和多人笑声的笑声事件进行区别标记，使得用户通过标记信息即可区分单人笑声和多人笑声，为用户带来更多的便利。

在本发明的一种可选实施例中，所述根据所述语音帧序列的基频特征和音强分布特征，确定所述音频事件的事件类型之后，所述方法还包括：

步骤S41、将所述语音帧序列输入训练得到的识别模型中，得到所述语音帧序列对应的事件内容；

步骤S42、根据所述事件内容，确定对所述语音数据进行标记时使用的标记信息。

在实际应用中，虽然可以检测出语音数据中的音频事件，但是音频事件包含的不同的事件内容具有不同的含义。以笑声事件为例，不同的笑声内容可以表达用户不同的情绪、情感等。因此，为了使得音频事件对应的标记信息可以表达更多、更深层次的含义，本发明实施例在检测出语音数据中的音频事件之后，还可以进一步识别该音频事件对应的事件内容。

具体地，以笑声事件为例，将所述语音帧序列输入训练得到的识别模型中，可以得到所述语音帧序列对应的笑声内容。

本发明实施例可以收集大量包含不同笑声内容的样本数据，并且对收集的样本数据标注对应的笑声内容，根据标注的样本数据训练用于识别笑声内容的识别模型。这样，在使用事件检测模型检测到语音数据中包含笑声事件之后，可以确定笑声事件在该语音数据中对应的语音帧序列，将该语音帧序列输入该识别模型，通过该识别模型可以确定该语音帧序列对应笑声事件中的笑声内容。所述笑声内容可以包含笑声拟声词，例如“呵呵”，“哈哈”，“嘿嘿”和“扑哧”等。

需要说明的是，除了可以利用训练的识别模型识别所述语音帧序列对应的笑声内容之外，本发明实施例还可以对所述语音帧序列进行语音识别，得到对应的文本信息，根据该文本信息确定对应的笑声内容。例如，对语音帧序列进行语音识别，得到对应的文本信息为“呵呵”，则可以得知该语音帧序列对应的笑声内容为用户习惯性的呵呵笑。

在识别得到所述语音帧序列对应的事件内容之后，可以根据所述事件内容，确定对所述语音数据进行标记时使用的标记信息。例如，在识别得到所述语音帧序列对应的笑声内容之后，可以根据所述笑声内容，确定对所述语音数据进行标记时使用的标记信息。

在实际应用中，检测出的笑声事件不一定具有现实意义，比如有的人只是在说话时习惯的加一声“呵呵”，对于这样的笑声内容，可以设置不使用标记。对于具有不同现实意义的笑声内容，可以生成不同的标记信息。

在识别得到所述语音帧序列对应的笑声内容之后，可以将所述笑声内容作为所述笑声事件的事件类型，进而在对语音数据进行标记的过程中，可以根据不同的笑声内容，对语音数据中打上不同的标记。例如，对于笑声内容“呵呵”、“哈哈”、“嘿嘿”、“扑哧”等。其中“哈哈”可以表示前后语句的幽默性或者重要性，可以打上用于表示大笑的标记。“呵呵”表达更多是语句的附加词或者是一种不屑的情感，可以打上用于表示微笑的标记。“嘿嘿”可以表示一种不好意思的笑，可以打上用于表示憨笑的标记。“扑哧”表示一种惊讶的笑，可以打上用于表示惊讶的标记等。由此，本发明实施例可以将笑声内容与标记对应起来，使用户通过标记信息可以获取更多更深层的含义，可以增加用户体验，并且可以提高用户在语音数据中定位所需的音频事件的效率。

在本发明的一种可选实施例中，所述根据所述音频事件在所述语音数据中的相关位置、以及所述音频事件对应的事件类型，对所述语音数据进行标记，具体可以包括：

步骤S51、根据所述音频事件对应的事件类型，生成所述音频事件对应的标记信息，所述标记信息至少包括如下任意一种：文字、图片、以及符号；

步骤S52、在所述语音数据中所述音频事件对应的相关位置，显示所述标记信息。

可以理解，本发明实施例对语音数据如何进行标记，以及标记信息的具体形式均不做限制。所述标记信息可以是文字、图片、以及符号等任意形式。所述标记信息的位置可以是语音数据中音频事件对应的相关位置，例如，对于笑声事件，识别得到该笑声事件的事件类型为单人笑声，该笑声事件的笑声内容为“哈哈”，则可以生成一个表示大笑的表情符号，将该表情符号作为标记信息标记在该语音数据中该笑声事件的起始位置。

在本发明的一种可选实施例中，所述在所述语音数据中所述音频事件对应的相关位置，显示所述标记信息，具体可以包括：

步骤S61、根据所述音频事件对应的语音帧序列在所述语音数据中的第一位置，确定所述音频事件在所述语音数据的波形显示界面中对应的第二位置；

步骤S62、在所述第二位置，显示所述标记信息。

在具体应用中，为了使得语音数据的显示更加直观，可以在电子设备中以波形的方式显示语音数据。在这种情况下，本发明实施例可以根据所述音频事件对应的语音帧序列在所述语音数据中的第一位置，确定所述音频事件在所述语音数据的波形显示界面中对应的第二位置。所述第一位置可以是音频事件在语音数据中的起始位置，根据第一位置的时间，可以确定所述音频事件在所述语音数据的波形显示界面中对应的第二位置。所述第二位置可以是该音频事件在该语音数据的波形显示界面中的起始位置。在该语音数据的波形显示界面中的第二位置，可以显示所述标记信息。

步骤S71、对所述语音数据进行语音识别，得到所述语音数据对应的文本信息；

步骤S72、根据所述音频事件对应的语音帧序列在所述语音数据中的第一位置，确定所述音频事件在所述语音数据的文本信息的显示界面中对应的第三位置；

步骤S73、在所述第三位置，显示所述标记信息。

在实际应用中，语音数据需要播放以后用户才能得知其中的内容，为了便于用户快速定位语音数据中标记的音频事件位置，本发明实施例可以对所述语音数据进行语音识别，得到所述语音数据对应的文本信息，在该文本信息中对音频事件进行标记。

具体地，可以根据所述音频事件对应的语音帧序列在所述语音数据中的第一位置，确定所述音频事件在所述语音数据的文本信息的显示界面中对应的第三位置。所示第三位置可以是音频事件在语音数据的文本信息中的起始位置。在该语音数据的文本信息的显示界面中的第三位置，可以显示所述标记信息。由此，用户不仅可以直观看到语音数据中的文本信息，而且可以快速获取不同类型的音频事件在文本信息中的位置，使得用户在不方便播放语音的情况下，可以通过文本的方式进行查看，为用户提供更多的便利。

综上，本发明实施例对语音数据进行音频事件检测，在识别出语音数据中包含的音频事件的基础上，进一步确定该音频事件对应的事件类型，并根据所述音频事件在所述语音数据中的相关位置、以及所述音频事件对应的事件类型，对所述语音数据进行标记。由此，通过本发明实施例，使得用户通过语音数据中的标记信息即可区分不同事件类型的音频事件，便于用户在语音数据中可以快速定位到所需事件类型对应音频事件的位置，可以提高用户体验和语音数据的处理效率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图2，示出了本发明的一种数据处理装置实施例的结构框图，所述装置具体可以包括：

事件检测模块201，用于对语音数据进行音频事件检测，识别所述语音数据中的音频事件；

类型确定模块202，用于确定所述音频事件对应的事件类型；

数据标记模块203，用于根据所述音频事件在所述语音数据中的相关位置、以及所述音频事件对应的事件类型，对所述语音数据进行标记。

可选地，所述音频事件包括笑声事件，所述类型确定模块202，具体可以包括：

序列确定子模块，用于确定所述音频事件在所述语音数据中对应的语音帧序列；

类型确定子模块，用于根据所述语音帧序列的基频特征和音强分布特征，确定所述音频事件的事件类型，所述事件类型包括：单人事件或多人事件。

可选地，所述类型确定子模块，具体可以包括：

比例计算单元，用于计算所述语音帧序列中包含基频的语音帧的比例；

第一判断单元，用于判断所述比例是否大于第一阈值，若大于，则确定所述音频事件的事件类型为单人事件；否则，计算所述语音帧序列中各语音帧的音强差平均绝对值；

第二判断单元，用于判断所述音强差平均绝对值是否大于第二阈值，若大于，则确定所述音频事件的事件类型为单人事件；否则，确定所述音频事件的事件类型为多人事件。

可选地，所述装置还可以包括：

内容识别模块，用于将所述语音帧序列输入训练得到的识别模型中，得到所述语音帧序列对应的事件内容；

标记确定模块，用于根据所述事件内容，确定对所述语音数据进行标记时使用的标记信息。

可选地，所述数据标记模块203，具体可以包括：

标记生成子模块，用于根据所述音频事件对应的事件类型，生成所述音频事件对应的标记信息，所述标记信息至少包括如下任意一种：文字、图片、以及符号；

标记子模块，用于在所述语音数据中所述音频事件对应的相关位置，显示所述标记信息。

可选地，所述标记子模块，具体可以包括：

第一确定单元，用于根据所述音频事件对应的语音帧序列在所述语音数据中的第一位置，确定所述音频事件在所述语音数据的波形显示界面中对应的第二位置；

第一标记单元，用于在所述第二位置，显示所述标记信息。

可选地，所述标记子模块，具体可以包括：

语音识别单元，用于对所述语音数据进行语音识别，得到所述语音数据对应的文本信息；

第二确定单元，用于根据所述音频事件对应的语音帧序列在所述语音数据中的第一位置，确定所述音频事件在所述语音数据的文本信息的显示界面中对应的第三位置；

第二标记单元，用于在所述第三位置，显示所述标记信息。

可选地，所述事件检测模块201，具体可以包括：

分帧子模块，用于对所述语音数据进行分帧处理，得到预设长度的语音帧序列；

输入子模块，用于将所述语音帧序列对应的语音特征输入训练得到的事件检测模型中，得到各时刻的语音帧对应各音频事件的后验概率；

检测子模块，用于根据所述后验概率，确定所述各时刻的语音帧对应的音频事件。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：对语音数据进行音频事件检测，识别所述语音数据中的音频事件；确定所述音频事件对应的事件类型；根据所述音频事件在所述语音数据中的相关位置、以及所述音频事件对应的事件类型，对所述语音数据进行标记。

图3是根据一示例性实施例示出的一种用于数据处理的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图4是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的数据处理方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种数据处理方法，所述方法包括：对语音数据进行音频事件检测，识别所述语音数据中的音频事件；确定所述音频事件对应的事件类型；根据所述音频事件在所述语音数据中的相关位置、以及所述音频事件对应的事件类型，对所述语音数据进行标记。

本发明实施例公开了A1、一种数据处理方法，包括：

确定所述音频事件对应的事件类型；

A2、根据A1所述的方法，所述确定所述音频事件对应的事件类型，包括：

确定所述音频事件在所述语音数据中对应的语音帧序列；

根据所述语音帧序列的基频特征和音强分布特征，确定所述音频事件的事件类型，所述事件类型包括：单人事件或多人事件。

A3、根据A2所述的方法，所述根据所述语音帧序列的基频特征和音强分布特征，确定所述音频事件的事件类型，包括：

计算所述语音帧序列中包含基频的语音帧的比例；

判断所述比例是否大于第一阈值，若大于，则确定所述音频事件的事件类型为单人事件；否则，计算所述语音帧序列中各语音帧的音强差平均绝对值；

判断所述音强差平均绝对值是否大于第二阈值，若大于，则确定所述音频事件的事件类型为单人事件；否则，确定所述音频事件的事件类型为多人事件。

A4、根据A2所述的方法，所述根据所述语音帧序列的基频特征和音强分布特征，确定所述音频事件的事件类型之后，所述方法还包括：

将所述语音帧序列输入训练得到的识别模型中，得到所述语音帧序列对应的事件内容；

根据所述事件内容，确定对所述语音数据进行标记时使用的标记信息。

A5、根据A1所述的方法，所述根据所述音频事件在所述语音数据中的相关位置、以及所述音频事件对应的事件类型，对所述语音数据进行标记，包括：

根据所述音频事件对应的事件类型，生成所述音频事件对应的标记信息，所述标记信息至少包括如下任意一种：文字、图片、以及符号；

在所述语音数据中所述音频事件对应的相关位置，显示所述标记信息。

A6、根据A5所述的方法，所述在所述语音数据中所述音频事件对应的相关位置，显示所述标记信息，包括：

根据所述音频事件对应的语音帧序列在所述语音数据中的第一位置，确定所述音频事件在所述语音数据的波形显示界面中对应的第二位置；

在所述第二位置，显示所述标记信息。

A7、根据A5所述的方法，所述在所述语音数据中所述音频事件对应的相关位置，显示所述标记信息，包括：

对所述语音数据进行语音识别，得到所述语音数据对应的文本信息；

根据所述音频事件对应的语音帧序列在所述语音数据中的第一位置，确定所述音频事件在所述语音数据的文本信息的显示界面中对应的第三位置；

在所述第三位置，显示所述标记信息。

A8、根据A1所述的方法，所述对语音数据进行音频事件检测，识别所述语音数据中的音频事件，包括：

对所述语音数据进行分帧处理，得到预设长度的语音帧序列；

将所述语音帧序列对应的语音特征输入训练得到的事件检测模型中，得到各时刻的语音帧对应各音频事件的后验概率；

根据所述后验概率，确定所述各时刻的语音帧对应的音频事件。

本发明实施例公开了B9、一种数据处理装置，包括：

类型确定模块，用于确定所述音频事件对应的事件类型；

B10、根据B9所述的装置，所述音频事件包括笑声事件，所述类型确定模块，包括：

B11、根据B10所述的装置，所述类型确定子模块，包括：

B12、根据B10所述的装置，所述装置还包括：

B13、根据B9所述的装置，所述数据标记模块，包括：

B14、根据B13所述的装置，所述标记子模块，包括：

第一标记单元，用于在所述第二位置，显示所述标记信息。

B15、根据B13所述的装置，所述标记子模块，包括：

第二标记单元，用于在所述第三位置，显示所述标记信息。

B16、根据B9所述的装置，所述事件检测模块，包括：

本发明实施例公开了C17、一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

确定所述音频事件对应的事件类型；

C18、根据C17所述的装置，所述确定所述音频事件对应的事件类型，包括：

确定所述音频事件在所述语音数据中对应的语音帧序列；

C19、根据C18所述的装置，所述根据所述语音帧序列的基频特征和音强分布特征，确定所述音频事件的事件类型，包括：

计算所述语音帧序列中包含基频的语音帧的比例；

C20、根据C18所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C21、根据C17所述的装置，所述根据所述音频事件在所述语音数据中的相关位置、以及所述音频事件对应的事件类型，对所述语音数据进行标记，包括：

C22、根据C21所述的装置，所述在所述语音数据中所述音频事件对应的相关位置，显示所述标记信息，包括：

在所述第二位置，显示所述标记信息。

C23、根据C21所述的装置，所述在所述语音数据中所述音频事件对应的相关位置，显示所述标记信息，包括：

在所述第三位置，显示所述标记信息。

C24、根据C17所述的装置，所述对语音数据进行音频事件检测，识别所述语音数据中的音频事件，包括：

本发明实施例公开了D25、一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A8中一个或多个所述的数据处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种用于数据处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

确定所述音频事件对应的事件类型；

根据所述音频事件在所述语音数据中的相关位置、以及所述音频事件对应的事件类型，对所述语音数据进行标记；

其中，所述事件类型包括：单人事件或多人事件；所述确定所述音频事件对应的事件类型，包括：

确定所述音频事件在所述语音数据中对应的语音帧序列；

计算所述语音帧序列中包含基频的语音帧的比例；

2.根据权利要求1所述的方法，其特征在于，所述根据所述语音帧序列的基频特征和音强分布特征，确定所述音频事件的事件类型之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述音频事件在所述语音数据中的相关位置、以及所述音频事件对应的事件类型，对所述语音数据进行标记，包括：

4.根据权利要求3所述的方法，其特征在于，所述在所述语音数据中所述音频事件对应的相关位置，显示所述标记信息，包括：

在所述第二位置，显示所述标记信息。

5.根据权利要求3所述的方法，其特征在于，所述在所述语音数据中所述音频事件对应的相关位置，显示所述标记信息，包括：

在所述第三位置，显示所述标记信息。

6.根据权利要求1所述的方法，其特征在于，所述对语音数据进行音频事件检测，识别所述语音数据中的音频事件，包括：

7.一种数据处理装置，其特征在于，所述装置包括：

类型确定模块，用于确定所述音频事件对应的事件类型；

数据标记模块，用于根据所述音频事件在所述语音数据中的相关位置、以及所述音频事件对应的事件类型，对所述语音数据进行标记；

所述事件类型包括：单人事件或多人事件；其中，所述类型确定模块，包括：

类型确定子模块，用于计算所述语音帧序列中包含基频的语音帧的比例；判断所述比例是否大于第一阈值，若大于，则确定所述音频事件的事件类型为单人事件；否则，计算所述语音帧序列中各语音帧的音强差平均绝对值；判断所述音强差平均绝对值是否大于第二阈值，若大于，则确定所述音频事件的事件类型为单人事件；否则，确定所述音频事件的事件类型为多人事件。

8.根据权利要求7所述的装置，其特征在于，所述音频事件包括笑声事件。

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

10.根据权利要求7所述的装置，其特征在于，所述数据标记模块，包括：

11.根据权利要求10所述的装置，其特征在于，所述标记子模块，包括：

第一标记单元，用于在所述第二位置，显示所述标记信息。

12.根据权利要求10所述的装置，其特征在于，所述标记子模块，包括：

第二标记单元，用于在所述第三位置，显示所述标记信息。

13.根据权利要求7所述的装置，其特征在于，所述事件检测模块，包括：

14.一种用于数据处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

确定所述音频事件对应的事件类型；

所述事件类型包括：单人事件或多人事件；其中，所述确定所述音频事件对应的事件类型，包括：

确定所述音频事件在所述语音数据中对应的语音帧序列；

计算所述语音帧序列中包含基频的语音帧的比例；

15.根据权利要求14所述的装置，其特征在于，所述确定所述音频事件对应的事件类型，包括：

确定所述音频事件在所述语音数据中对应的语音帧序列；

16.根据权利要求15所述的装置，其特征在于，所述根据所述语音帧序列的基频特征和音强分布特征，确定所述音频事件的事件类型，包括：

计算所述语音帧序列中包含基频的语音帧的比例；

17.根据权利要求15所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

18.根据权利要求14所述的装置，其特征在于，所述根据所述音频事件在所述语音数据中的相关位置、以及所述音频事件对应的事件类型，对所述语音数据进行标记，包括：

19.根据权利要求18所述的装置，其特征在于，所述在所述语音数据中所述音频事件对应的相关位置，显示所述标记信息，包括：

在所述第二位置，显示所述标记信息。

20.根据权利要求18所述的装置，其特征在于，所述在所述语音数据中所述音频事件对应的相关位置，显示所述标记信息，包括：

在所述第三位置，显示所述标记信息。

21.根据权利要求14所述的装置，其特征在于，所述对语音数据进行音频事件检测，识别所述语音数据中的音频事件，包括：

22.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至6中一个或多个所述的数据处理方法。