CN112382310A

CN112382310A - 一种人声音频录制方法和装置

Info

Publication number: CN112382310A
Application number: CN202011258272.3A
Authority: CN
Inventors: 贾杨; 夏龙; 吴凡; 高强; 郭常圳
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-02-19
Anticipated expiration: 2040-11-12
Also published as: WO2022100692A9; CN112382310B; WO2022100692A1

Abstract

本申请提供一种人声音频录制方法和装置。所述方法包括：获得当前原始音频；获取所述当前原始音频中识别为人声的音频片段；将所述人声的音频片段按照时间顺序拼接得到拼接后的音频；存储或输出所述拼接后的音频。本申请提供的方案，能够从原始音频中提取出人声部分的音频，节约存储空间，节省用户重放语音内容的时间，并且保持了录音中人声的连续性。

Description

一种人声音频录制方法和装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种人声音频录制方法和装置。

背景技术

随着互联网技术的发展，线上教育等类似行业蓬勃发展，在线学习人数剧增。

学生在线学习过程中的语音作答需要被录制并进行输出，这种需求尤其出现在英语这类语言类学习中，也会出现在逻辑思维等可以通过语言交互的学习。一方面，老师通过录音了解学生学习的情况，例如英语的发音，以便提供指导；另一方面学生可以通过录音实现复习的目的。因而，需要一种满足上述场景需要的语音提取录制方法。

发明内容

本申请提供一种人声音频录制方法，包括：获得当前原始音频；获取所述当前原始音频中识别为人声的音频片段；将所述人声的音频片段按照时间顺序拼接得到拼接后的音频；存储或输出所述拼接后的音频。

上述方法中还包括：获得当前原始音频中非人声的音频片段时长的第一均值；利用所述均值，获得当前原始音频中非人声的音频片段时长的第一方差；述第一均值与所述第一方差的差值作为第一门限；若人声音频片段间存在时长小于所述第一门限的非人声音频片段，则将所述非人声音频判断与所述人声音频片段拼接。

并列的，上述方法中还包括：据所述原始音频对应的用户标识，获得该用户的至少一个历史原始音频的非人声音频片段的总时长，以及所述历史原始音频的非人声音频片段的方差和；利用当前原始音频非人声音频片段时长以及所述历史原始音频的非人声音频片段总时长，获得非人声音频片段时长的第二均值；利用当前原始音频非人声音频片段方差以及所述历史原始音频的非人声音频片段的方差和，获得非人声音频片段的第二方差；所述第二均值与所述第二方差的差值作为第二门限；若当前原始音频中，人声音频片段间存在时长小于所述第二门限的非人声音频片段，则将所述非人声音频判断与所述人声音频片段拼接。

以及，该方法还包括：获得当前原始音频非人声音频片段时长以及所述历史原始音频的非人声音频片段总时长的和，并保存；以及，获得当前原始音频非人声音频片段方差以及所述历史原始音频的非人声音频片段方差和的和，并保存。

并列的，上述方法还包括：获得当前原始音频中非人声的音频片段时长的第一均值；利用所述均值，获得当前原始音频中非人声的音频片段时长的第一方差；所述第一均值与所述第一方差的差值作为第一门限；取所述原始音频对应的用户标识；获取所述用户至少一个历史原始音频中非人声的音频片段时长的均值为第三均值；获得所述至少一个历史原始音频中非人声的音频片段的方差为第三方差；所述第三均值与所述第三方差的差值作为第三门限；利用预置的第三门限的权值对所述第一门限进行调整得到第四门限；若当前原始音频中，人声音频片段间存在时长小于所述第四门限的非人声音频片段，则将所述非人声音频判断与所述人声音频片段拼接。

以及，该方法还包括：获得当前原始音频非人声音频片段以及所述历史原始音频的非人声音频片段的时长均值，并保存；获得当前原始音频非人声音频片段以及所述历史原始音频的非人声音频片段的方差，并保存。

并列的，上述方法还包括：若当前原始音频中，相邻的人声的音频片段之间存在的时长小于第五门限的非人声音频片段，则将所述非人声音频判断与所述人声音频片段拼接。

以上实施例中，获得所述原始音频中识别为人声的音频片具体为：按照预置的方法对所述原始音频切分得到多个子音频；计算子音频的梅尔频率倒谱系数特征序列；神经网络根据梅尔频率倒谱系数特征序列得到子音频属于人声的概率；获取所述人声概率大于判决门限的子音频；获取原始音频中人声概率大于判决门限且相邻的子音频；获取由所述相邻子音频中确定时刻点组成的音频片段。

以上实施例中，所述按照预置的方法对所述原始音频切分得到多个子音频包括：获得原始音频，在所述原始音频头部之前添加第一时长的空数据，以及在所述原始音频尾部之后添加第二时长的空数据，得到扩展后的音频；以第一时长与第二时长之和的第三时长为切分窗口，以第一步长从所述扩展后的音频的首部开始，依次分窗后获得多个子音频。

以上实施例中，所述获得子音频属于人声概率之后，还包括：获得所述原始音频所有子音频属于人声概率的数组；以第一数量作为窗口对所述数组中的概率值进行滤波，得到滤波后的人声概率。

上述实施例中，获取所述人声概率大于判决门限的子音频之前还包括：获取原始音频中所述子音频中确定时刻点的音频能量值；以及根据所述音频能量值设置人声概率调节因子，包括：若音频能量值大于能量上限，该子音频的人声概率调节因子置为1；音频能量值小于能量下限，该子音频的人声概率调节因子置为0；若音频能量值不大于能量上限且不小于能量下限，则根据音频能量值将所述人声概率调节因子归一化为0至1之间；将子音频人声概率调节因子乘以所述子音频人声概率，得到修正后的子音频人声概率。

本申请还提供一种音频识别的装置，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

本申请利用人声识别，提取原始音频中的语音部分，仅对语音音频片段进行存储，删除非人声的音频片段，不仅去掉了杂音，而且由于删除了非人声的音频片段，因而节省存储空间。

进一步，基于人说话的特点，例如人类说话前后的延续性，尤其儿童在语音回答问题中经常出现短暂的停顿、换气等情况，本申请提供了多种算法实现宽容合并的方法，保留人声音频片段之间短暂的被非人声的部分，保持了录音中人声的连续性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细的描述，本申请的上述以及其它目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请实施例示出的一种人声音频录制方法的流程示意图；

图2是本申请实施例示出的原始音频切分预处理示意图；

图3是本申请实施例示出的滑动平均前音频人声概率分布图；

图4是本申请实施例示出的滑动平均后音频人声概率分布图；

图5是宽容合并处理示意图。

具体实施方式

下面将参照附图更详细地描述本申请的优选实施方式。虽然附图中显示了本申请的优选实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

本申请提供一种人声音频录制的方法。本申请对原始音频进行识别，将人声音频从原始音频提取出来后进行存储或者输出，由于存储的音频文件中去掉了大量的非人声部分，因而与相比现有技术节省了存储资源。

参照图1说明本发明具体实施例。

步骤11：获得原始音频。

获得原始音频文件，例如学生在线学习时，根据学习软件的提示进行语音的作答，智能设备通过麦克风获取学生语音作答时的原始音频。该原始音频可能既包含了所需的人声，还包括背景声、噪音等其他非人声的音频。

步骤12：获取所述当前原始音频中识别为人声的音频片段；

以下提供一种在当前原始音频中识别人声音频，进而提取出人声音频片段的方法，然而，本发明并不限制其他能够实现相同功能的其他实现方法。

步骤121，识别原始音频中人声的部分。

分别在所述原始音频头部之前以及尾部之后添加空数据，得到扩展后的音频；

在一种实施方式中，对原始音频进行细分度切分处理，将原始音频切分为更小的子音频，对原始音频首尾各增加一段空音频，得到扩展后的音频，对扩展后的音频基于切分窗口值进行子音频切分，空音频数值与切分窗口值保持1∶2的比例。

如图2所示本实施例中，为了实现开口时间节点的精确统计，子音频需要有更小的切分粒度。如图所示，a为原始的音频数组，在原始音频a的首、尾部各添加等时长的空数据，即480毫秒(ms)的零，得到扩展后的音频b。所述480ms中0的个数根据音频的采样频率而定，即480ms中的数据频率与采样频率相同。

本实施例中在原始音频首部之前和尾部之后添加的空数据时长为480ms仅为示例性的，本发明并不限制该时长的其他取值。

步骤122：以2倍上述时长为切分窗口，以第一步长从所述扩展后的音频的首部开始顺序获得多个子音频；

如图2所示，本实施例中，对原始音频切分获得子音频时，切分窗口采用960ms，即所述480ms的2倍。切分步长采用10ms，从而子音频的最小切分粒度为10ms。本发明不限制其他切分粒度的选择。

按照以上切分方法，得到了数个子音频，相邻子音频之间相差10ms，每个子音频的时长为960ms。

假设某一个子音频的起始时刻和截止时刻在原始音频中分别表示为t_i，t_i+0.96S，则在本发明实施例，将后续步骤中计算得到的该子音频特征图的人声概率作为时间点t_i+0.48S时刻音频对应的人声概率。因此，本方案根据第一个子音频计算得到的人声概率即作为原始音频起始时刻的人声概率；最后一个子音频计算得到的人声概率即作为原始音频结束时刻的人声概率。

通过上述原始音频的切分方法，近似计算某个时间点的人声概率，因此可以实现较为准确的开口片段检测。

步骤123：分别计算得到所述子音频的时序特征序列；

本实施例中采用梅尔频率倒谱系数(MFCC)，是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换得到的谱系数，表征声音所具备的频域特性。

对于每个切分得到的子音频，采用预设的窗口长度以及步长，计算其短时傅立叶变换的结果，得到梅尔频率倒谱系数特征序列。例如采用窗口长度25ms，步长10ms，计算其短时傅立叶变换的结果，得到MFCC特性。

步骤124：神经网络根据所述时序特征序列得到子音频属于特定分类的概率。

将梅尔频率倒谱系数特征序列输入已训练的神经网络模型，并获得神经网络模型输出的各音频片段对应的概率，在该实施例中，将得到的各音频片段按照时间顺序输入已训练的神经网络模型中，由已训练的神经网络模型预测各音频片段对应的概率。所述概率的取值范围在0到1之间。

例如，已训练的神经网络模型采用3x3的卷积核和pool层简化模型参数。神经网路的训练包括预训练和微调两个阶段。左图为500类分类模型，先使用声音数据集训练了500分类的音频分类模型。右图为二分类模型，该网络复用了500分类模型的底层网络结构和参数，通过反向传播算法使得模型收敛。通过此二分类模型来识别音频片段是否存在人声，则模型会输出当前音频片段存在人声的音频的概率。通过引入预训练和微调两个，使得本发明所训练的网络更加聚焦于人声、非人声的分类场景，提高了模型性能。

步骤125：将所述概率分别与判决门限进行比较判决子音频是否属于人声的分类；从而获取原始音频中人声概率大于判决门限的子音频。

设置所述判决门限作为判决是否为人声的依据，若所述概率大于判决门限，则判决为人声，若概率小于判决门限则判决为非人声。

经过以上步骤，原始音频a被分成了一个个人声或非人声的片段。通过累加所有片段的时长即可得到原始音频中人声的时长，

步骤126：对于原始音频中人声概率大于判决门限且相邻的子音频；获取由所述相邻子音频中的中心时刻点组成的音频片段，即为人声音频片段。

在采用上述获取人声音频片段的方法中，在原始音频头部之前以及尾部之后添加时间长度相等的空数据，例如均为480毫秒；以及采用2倍480毫秒即960毫秒时长的窗口对原始音频进行切分得到多个子音频。

步骤13：将所述人声的音频片段按照时间顺序拼接得到拼接后的音频。

将上述人声音频片段按照时间顺序拼接，得到拼接后的人声音频文件，即为所述原始音频中的人声部分音频。

步骤14：存储或输出所述拼接后得到的原始音频中的人声部分音频。从而该文件一方面占用的存储空间小；另一方面，由于该音频中不包含非人声的部分，因而音频时间较短，与原始音频相比，播放所需时间较短，用户重复收听语音内容不会产生时间的浪费。

在上述实施例基础上，还可以再神经网络得到子音频为人声概率后，在进行门限判决前还可以执行如下的预处理步骤，达到对概率值进行优化的目的。

1)对当前获得的概率进行滑动平均预处理。

由于切分粒度和噪声的原因，导致按照上文记载的方法得到的原始音频的人声概率数组中包含噪点。体现在如图3所示200毫秒的人声概率分布图中，纵坐标表示该音频点为人声的概率，横坐标代表时间，每个点表示10ms。在横轴时间轴所对应的0-1的概率值分布上存在很多概率值的突变，即毛刺。因此，需要对当前获得的概率进行滑动平均预处理，使得概率分布更加平滑，得到如图4所示的200毫秒的人声概率分布图。

滑动平均预处理，采用中值滑动滤波法，中值滤波后的第i个子音频为人声的概率为：

其中，原始音频中的所有子音频的人声概率数组

P＝{p₁，p₂，p₃，...，p_i...，p_n}，其中n为原始音频切分得到的子音频总数，p_i代表第i个子音频为人声的概率。

w_smooth是选定窗口大小。例如本实施例中选取所述窗口为31，即窗口为所述子音频的人声概率数组中的31个值。

针对于p_i，确定滑动平均的上、下限索引。

下限索引为：Lo＝max(0，i-15)，表示数组中的第一个概率值；

上限索引为：Hi＝min(n，i+15)，表示数组中的最后一个概率值。

本实施例中，中值滤波即是以相邻31个点的概率值进行平均后作为中间点的概率值；按照该方法，以步长为1，重新计算每个点的概率值。

对比图3和图4，可以看出经过滑动平均后子音频人声概率图的毛刺被有效修正，在一定程度上提高了开口片段切分的精度。

以上中值滤波为本发明的一种实现方式，本发明并不限制其他滤波方法的采用。

2)能量修正预处理。

经过滑动平均预处理后，由于本发明实施例中采用细粒度的子音频切分，以及由于子音频大幅重叠的策略导致一小部分非人声的音频概率在经过滤波时被周围点修正得更倾向于人声，即人声概率增加，但其本质为非人声。

为解决上述问题，本发明实施例利用噪声或者静音的能量相对人声较弱的特性，利用原始音频的能量对人声概率进行进一步修正，以提高精度。

经过滑动平均的音频人声概率数组为：

以10ms为窗口大小，10ms为步长，计算得到原始音频的能量数组：

P_ower＝{w₁，w₂，w₃，...，w_i，..w_n}

由于上文记载的实施例中，采用步长10ms对原始音频进行切片得到子音频，进而得到10ms为间隔的人声概率，因而，此处采用10ms的步长计算得到原始音频的能量数组，从而使得原始音频的能量数组的时刻与原始音频的人声概率数组时刻相应。

将P_ower数组的值归一化到0～1之间，确定能量上限P_up和能量下限P_down，则w_i可以按照以下方式归一化：

以上公式可以看到，当某时刻音频能量大于所述能量上限P_up时，w_i取值为1，若某时刻音频能量小于所述能量下限P_down时，w_i取值为0，得到

数组P^f和数组

时应值进行点积运算，得到能量修正后的音频人声概率值数组P^T。经过该运算，当某时刻音频能量大于所述能量上限P_up时，则该时刻人声概率值不变；若某时刻音频能量小于所述能量下限P_down时，则该时刻人声概率值取值为0。

在实施例中，若所述音频能量介于所述能量下限和能量上限之间(包含能量上限值和能量下限值)，则取得的概率调整因子介于0和1之间，通过该概率调整因子调整对应时刻点的人声概率值，最终得到能量修正后的音频人声概率值数组P^T。

以上可以看出，通过利用原始音频的能量矩阵，若某时刻音频能量低于能量下限，则认为该时刻音频为非人声，从而将该时刻的人声概率变为零，通过这种方法进一步去除了非人声的部分音频。

以上实施例将获得的概率先经过滑动平均预处理，再经过能量修正预处理，最后利用判决算法判别人声与非人声，确定人声开口片段，统计用户开口时长；对于对当前获取的概率进行能量修正和滑动平均两种预处理，没有先后顺序，亦可先进行能量修正预处理，再进行滑动平均预处理。

本发明也可以采用上述两种预处理方法中的其中一种达到提高人声识别准确率的目的。

上述实施例中，通过在原始音频头部之前以及尾部之后添加的等时长的空数据进行音频扩展后对原始音频进行切分得到子音频。然而，在原始音频头部之前以及尾部之后添加的空数据时间长度也可以不相等。即在所述原始音频头部之前添加第一时长的空数据，以及在所述原始音频尾部之后添加第二时长的空数据；并且以第一时长与第二时长之和的第三时长为切分窗口对原始音频进行切分得到子音频。

例如，第一时长为240毫秒，第二时长为720毫秒，切分窗口为第一时长与第二时长之和，即为960毫秒。可见，利用本方式得到的子音频时长与上文实施例相同，依然为960ms。

使用此种切分方式，将计算得到的子音频人声概率近似的作为子音频中在1/4时刻的人声概率值。假设某一个子音频的起始时刻和截止时刻在原始音频中分别表示为t_i，t_i+0.96s，则将子音频人声概率值近似作为子音频中t_i+0.24s时刻的人声概率值。以及，连续判决为人声的各子音频中第1/4时刻点组成的音频片段的得到原始音频中的人声片段。可知，由于采用第一步长对原始音频切分得到子音频，因而相邻的子音频的第1/4时刻之间相隔第一步长，例如上述实施例中采用的10ms。

以及，在对得到的子音频的人声概率数组进行音频能量修正预处理时，较优的方式是计算子音频中前1/4时刻的能量值。例如，假设某一个子音频的起始时刻和截止时刻在原始音频中分别表示为t_i，t_i+0.96s，则计算t_i+0.24s时刻的能量值，并根据该能量值得到该子音频(t_i，t_i+0.96s)的概率修正因子。

根据以上实施例的说明，可以将原始音频中的非人声去除后得到人声音频保存或者输出。

考虑到人类说话的前后延续性，尤其是儿童、青少年线上学习的场景，表达完整意思句子的单词间往往有短暂的停顿，通常用以换气或者表征某种情绪。

本实施例中，采用一定的宽容度以保持人声音频片段的前后连续性。这样可以输出质量更高的人声音频，为老师和学生提供更高内容质量的语料，方便老师和学生对人声录音内容的使用。

以下分别记载三种算法以保持人声音频片段的前后连续性。

第一方法实施例。

由于每条音频的内容不同、用户发声的心情、状态不同。基于原始音频中非人声的统计特性，动态调整宽容度。具体方法为：

对于一个原始音频，某个非人声片段的时长表示为l_i，且假设该原始音频中共有n个非人声音频片段。

首先，获得当前原始音频中识别为非人声的音频片段时长的第一均值m_l；

利用所述均值，获得当前原始音频中识别为非人声的音频片段时长的第一方差δ；

所述第一均值与所述第一方差的差值作为第一门限T；

T₁＝m_l-δ

将所述人声的音频片段以及音频片段时长小于所述第一门限T的非人声的音频片段进行拼接。即在原始音频中，若两个人声音频片段之间的非人声音频片段的时长小于第一门限T₁，则在保存或输出的音频中，保留该非人声音频片段。

第一种方法针对于不同的音频设定不同的片段拼接门限，动态调整拼接效果，计算简单。

第二方法实施例。

针对于每个用户，保存其非人声音频片段的统计特性。例如对于用户u而言，由已有数据统计得出的其非人声音频片段均值记为m_u、方差为δ_u、已有原始音频中的所有非人声音频片段数目N_u、已有原始音频中的所有非人声音频片段的时长总和为S_u、已有原始音频中的非人声片段的方差和S_δu。

从而，对于一个新用户u而言，由其第一条原始音频计算出其非人声音频片段的特性如下，并保存。

原始音频中识别为非人声的音频片段时长的均值：

已有原始音频中的非人声音频片段的时长总和：

原始音频中识别为非人声的音频片段时长的方差：

已有原始音频中识别为非人声的音频片段时长的方差和：

已有原始音频中的所有非人声音频片段数目N_u＝n，其中n代表该音频总共有n段非人声，每段的时长为l_i。

若该用户录制过至少一个原始音频后，当录制新的原始音频时，根据该用户已有原始音频的非人声音频片段的统计特性计算当前新的原始音频中非人声音频部分是否可以输出或保存，具体如下。

获取所述原始音频对应的用户标识；从而，获得以上所述已保存的该用户的非人声音频片段的特性。

利用该用户已保存的非人声音频片段的统计特性和新录制音频的非人声音频片段的统计特性计算得到如下参数。作为较佳的实施例，以下以已保存的该用户所有历史原始音频的非人声特性为例进行说明。

以下，角标old表示为该用户生成当前原始音频之前生成的所有历史原始音频的非人声片段统计参数，角标new表示获得当前原始音频后的非人声片段统计参数。

S_uold为该用户获得当前原始音频之前的所有原始音频非人声音频片段的时长总和；S_unew为获得当前原始音频之后的所有原始音频非人声音频片段的时长总和。

S_δuold为该用户获得当前原始音频之前的所有原始音频非人声音频片段的时长方差总和；S_δunew为获得当前原始音频之后的所有原始音频非人声音频片段的时长方差总和。

N_uold为该用户获得当前原始音频之前的所有原始音频非人声音频片段数量总和；N_unew为获得当前原始音频之后的所有原始音频非人声音频片段数量总和。

N_unew＝N_uold+n.

根据以上参数得到该用户获得当前原始音频之后所有原始音频非人声音频片段时长第二均值m_unew，以及第二方差δ_unew。

m_unew＝S_unew/(N_unew)

δ_unew＝S_δunew/(N_unew)

其中n为当前原始音频中共有n段非人声音频片段，每段的时长为l_i。

进而，第二均值与所述第二方差的差值得到第二门限。

T₂＝m_unew-δ_unew

所述当前原始音频中，若两个人声音频片段之间的非人声音频片段的时长小于第二门限T₂，则在保存或输出的音频中，保留该非人声音频片段，将该非人声音频片段与前后两人声音频片段拼接。

第二种方法实施例，考虑不同用户的发声习惯不同，进行用户粒度的拼接门限动态调整；以及，在此基础上流式地计算变量的均值和方差，节省计算和存储资源。

第三方法实施例。

针对于每个用户，保存其非人声音频片段的统计特性。例如对于用户u而言，其均值记为m_u、方差为δ_u、已有原始音频中的所有非人声音频片段数目N_u、已有原始音频中的所有非人声音频片段的时长总和为S_u、已有原始音频中的非人声片段的方差和S_δu。

从而，对于一个新用户u而言，由其第一条原始音频计算出其非人声音频片段的特性如下。

原始音频中识别为非人声的音频片段时长的均值：

已有原始音频中的非人声音频片段的时长总和：

原始音频中识别为非人声的音频片段时长的方差：

已有原始音频中识别为非人声的音频片段时长的方差和：

若该用户录制过至少一个原始音频后，当录制新的原始音频时，根据该用户已有原始音频的非人声音频片段的特性计算当前新的原始音频中非人声音频部分是否可以输出或保存，具体如下。

获取所述原始音频对应的用户标识；从而，获得以上所述已保存的该用户的历史原始音频中非人声音频片段的特性。具体的，S_uold为该用户获得当前原始音频之前的所有原始音频非人声音频片段的时长总和；S_δuold为该用户获得当前原始音频之前的所有原始音频非人声音频片段的时长方差总和；N_uold为该用户获得当前原始音频之前的所有原始音频非人声音频片段数量总和。

利用以上参数，并参照上文计算方法，得到当前原始音频之前已保存的该用户所有历史原始音频非人声的音频片段时长第三均值m_uold和第三方差δ_uold；进而得到第三门限值。

T₃＝m_uold-δ_uold

参照上文第一方法实施例记载的方法，根据当前原始音频获得所述第一门限T₁。

定义权值α，0＜α≤1。

利用该权值及所述第三门限值对所述第一门限T₁进行调整得到第四门限T₄。

原始音频中，若两个人声音频片段之间的非人声音频片段的时长小于第四门限T₄，则在保存或输出的音频中，保留该非人声音频片段，将该非人声音频片段与前后两人声音频片段拼接。

第三种方法实施例，在考虑用户整体的统计信息基础上，结合具体的音频统计信息动态调整非人声音频片段的拼接门限。

第四方法实施例。

由于原始音频a被分成了多个人声或非人声的片段。如果判决为人声的两个子音频之间间隔小于一个门限值(第五门限)，则进一步获取所述相邻的识别为人声的音频片段间的被判决为非人声的音频片段。以及，将当前原始音频中，所述人声的音频片段以及所述相邻的识别为人声的音频片段间的音频片段进行拼接。

以上记载了四种是否进行音频拼接的方法。参照图5所示，假设原始音频中包含有两个人声片段a_i，a_i+1，起止的时间节点分别为

假设利用上文记载的任一方法得到门限值为500ms。如果

则就将这两个片段合并为一个。可以看到，采用以上方法的处理所得到的人声音频保持了语音片段的前后连续性。

以上各种宽容合并的方法并无优劣之分，分别适配于不同场景和不同用户群体。例如，第一方法实施例适合于轻量级的录音、反馈***，不需要记录任何用户信息；第二方法实施例适合成人用户群体，因为成人录制时情绪较为稳定，用户的统计信息可以较好地描述大部分的音频特征；第三方法实施例适合幼儿群体，考虑到幼儿群体的情绪起伏较大，发生较为非规律化，可能相同文本在相邻较近不同时刻说出来的音频千差万别，因此需要在考虑用户统计特性的同时，参考音频的统计信息进行合理调整。

与前述应用功能实现方法实施例相对应，本申请还提供了一种人声音频录制装置。该装置包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行上文记载的方法。关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

本领域技术人员还将明白的是，结合这里的申请所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本申请的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种人声音频录制方法，其特征在于，包括：

获得当前原始音频；

获取所述当前原始音频中识别为人声的音频片段；

将所述人声的音频片段按照时间顺序拼接得到拼接后的音频；

存储或输出所述拼接后的音频。

2.根据权利要求1所述的方法，其特征在于，还包括：

获得当前原始音频中非人声的音频片段时长的第一均值；

利用所述均值，获得当前原始音频中非人声的音频片段时长的第一方差；

所述第一均值与所述第一方差的差值作为第一门限；

若人声音频片段间存在时长小于所述第一门限的非人声音频片段，则将所述非人声音频判断与所述人声音频片段拼接。

3.根据权利要求1所述的方法，其特征在于，还包括：

根据所述原始音频对应的用户标识，获得该用户的至少一个历史原始音频的非人声音频片段的总时长，以及所述历史原始音频的非人声音频片段的方差和；

利用当前原始音频非人声音频片段时长以及所述历史原始音频的非人声音频片段总时长，获得非人声音频片段时长的第二均值；

利用当前原始音频非人声音频片段方差以及所述历史原始音频的非人声音频片段的方差和，获得非人声音频片段的第二方差；

所述第二均值与所述第二方差的差值作为第二门限；

若当前原始音频中，人声音频片段间存在时长小于所述第二门限的非人声音频片段，则将所述非人声音频判断与所述人声音频片段拼接。

4.根据权利要求3所述的方法，其特征在于还包括：

获得当前原始音频非人声音频片段时长以及所述历史原始音频的非人声音频片段总时长的和，并保存；

以及，获得当前原始音频非人声音频片段方差以及所述历史原始音频的非人声音频片段方差和的和，并保存。

5.根据权利要求1所述的方法，其特征在于，还包括：

获得当前原始音频中非人声的音频片段时长的第一均值；

利用所述均值，获得当前原始音频中非人声的音频片段时长的第一方差；所述第一均值与所述第一方差的差值作为第一门限；

获取所述原始音频对应的用户标识；

获取所述用户至少一个历史原始音频中非人声的音频片段时长的均值为第三均值；

获得所述至少一个历史原始音频中非人声的音频片段的方差为第三方差；所述第三均值与所述第三方差的差值作为第三门限；

利用预置的第三门限的权值对所述第一门限进行调整得到第四门限；

若当前原始音频中，人声音频片段间存在时长小于所述第四门限的非人声音频片段，则将所述非人声音频判断与所述人声音频片段拼接。

6.根据权利要求5所述的方法，其特征在于，还包括：

获得当前原始音频非人声音频片段以及所述历史原始音频的非人声音频片段的时长均值，并保存；

获得当前原始音频非人声音频片段以及所述历史原始音频的非人声音频片段的方差，并保存。

7.根据权利要求1所述的方法，其特征在于，还包括：

若当前原始音频中，相邻的人声的音频片段之间存在的时长小于第五门限的非人声音频片段，则将所述非人声音频判断与所述人声音频片段拼接。

8.根据权利要求1至7其中之一所述的方法，其特征在于，获得所述原始音频中识别为人声的音频片具体为：

按照预置的方法对所述原始音频切分得到多个子音频；计算子音频的梅尔频率倒谱系数特征序列；

神经网络根据梅尔频率倒谱系数特征序列得到子音频属于人声的概率；

获取所述人声概率大于判决门限的子音频；

获取原始音频中人声概率大于判决门限且相邻的子音频；

获取由所述相邻子音频中确定时刻点组成的音频片段。

9.根据权利要求8所述的方法，其特征在于，所述按照预置的方法对所述原始音频切分得到多个子音频包括：

获得原始音频，在所述原始音频头部之前添加第一时长的空数据，以及在所述原始音频尾部之后添加第二时长的空数据，得到扩展后的音频；

以第一时长与第二时长之和的第三时长为切分窗口，以第一步长从所述扩展后的音频的首部开始，依次分窗后获得多个子音频。

10.根据权利要求9所述的方法，其特征在于，所述获得子音频属于人声概率之后，还包括：

获得所述原始音频所有子音频属于人声概率的数组；

以第一数量作为窗口对所述数组中的概率值进行滤波，得到滤波后的人声概率。

11.根据权利要求9或10所述的方法，其特征在于，获取所述人声概率大于判决门限的子音频之前还包括：

获取原始音频中所述子音频中确定时刻点的音频能量值；以及根据所述音频能量值设置人声概率调节因子，包括：

若音频能量值大于能量上限，该子音频的人声概率调节因子置为1；

若音频能量值小于能量下限，该子音频的人声概率调节因子置为0；

若音频能量值不大于能量上限且不小于能量下限，则根据音频能量值将所述人声概率调节因子归一化为0至1之间；

将子音频人声概率调节因子乘以所述子音频人声概率，得到修正后的子音频人声概率。

12.一种人声音频录制装置，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-11中任一项所述的方法。