CN112309404B

CN112309404B - 机器语音的鉴别方法、装置、设备及存储介质

Info

Publication number: CN112309404B
Application number: CN202011169295.7A
Authority: CN
Inventors: 张超; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2024-01-19
Anticipated expiration: 2040-10-28
Also published as: CN112309404A

Abstract

本发明涉及人工智能领域，公开了一种机器语音的鉴别方法、装置、设备及存储介质，用于提高机器语音的鉴别效率。机器语音的鉴别方法包括：获取用户输入的初始语音，并对初始语音进行预处理，得到目标语音，预处理包括音频切分处理、均值归一化处理、预增强处理、加窗处理与添加随机噪声；通过特征提取函数计算目标语音的功率能量谱，根据功率能量谱计算目标语音中的语音特征；通过预置深度神经网络模型中的卷积层、通道区块、过度区块、全连接层和分类网络层对语音特征进行计算，得到语音确信值；当语音确信值小于或等于辨别阈值时，确定目标语音为机器语音。此外，本发明还涉及区块链技术，用户输入的初始语音可存储于区块链中。

Description

机器语音的鉴别方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种机器语音的鉴别方法、装置、设备及存储介质。

背景技术

随着语音识别和AI技术在实际应用中越来越普遍，尤其是说话人确认技术和声纹技术普遍用于手机唤醒、语音解锁、智能音箱和语音支付领域。然而说话人确认或者声纹***本身并不具备识别假冒语音（机器语音）的能力，并且随着语音合成技术的成熟，导致语音端的假冒语音难以识别，具体的，假冒语音包括高质量录音设备录音重放、合成语音等，假冒语音的存在威胁着语音信息的安全性。

目前进行语音防伪冒的过程中，均由计算机通过简单的规则对电话号码进行过滤与筛查确定语音的真假性，导致机器语音的鉴别效率低下。

发明内容

本发明提供一种机器语音的鉴别方法、装置、设备及存储介质，用于提高机器语音的鉴别效率。

本发明第一方面提供了一种机器语音的鉴别方法，包括：获取用户输入的初始语音，并对所述初始语音进行预处理，得到目标语音，所述预处理包括音频切分处理、均值归一化处理、预增强处理、加窗处理与添加随机噪声；通过特征提取函数计算所述目标语音的功率能量谱，根据所述功率能量谱计算所述目标语音中的语音特征；将所述语音特征输入至预置深度神经网络模型，通过所述预置深度神经网络模型中的卷积层、通道区块、过度区块、全连接层和分类网络层对所述语音特征进行计算，得到语音确信值；当所述语音确信值小于或等于辨别阈值时，确定所述目标语音为机器语音。

可选的，在本发明第一方面的第一种实现方式中，所述获取用户输入的初始语音，并对所述初始语音进行预处理，得到目标语音，所述预处理包括音频切分处理、均值归一化处理、预增强处理、加窗处理与添加随机噪声包括：获取用户输入的初始语音，对所述初始语音中的音频进行音频切分处理，得到分帧语音；对所述分帧语音进行均值归一化处理，得到归一语音；通过预置增强公式对所述归一语音进行预增强处理，得到增强语音，所述预置增强公式为：，其中，/>为经过预增强后的第/>帧音频，/>为第/>帧音频，/>为预增强系数，/>为第/>帧音频，/>为每一帧的时间长度；利用预置加窗公式对所述增强语音进行加窗处理，得到加窗语音，所述预置加窗公式为：

其中，为经过加窗处理后的第/>帧音频，/>为经过预增强后的第/>帧音频；在所述加窗语音中，采用预置添加公式添加随机噪声，得到目标语音，所述预置添加公式为：/>，其中，/>为添加过随机噪声的第/>帧音频，/>为经过加窗处理后的第/>帧音频，/>为噪声强度系数，/>为随机数。

可选的，在本发明第一方面的第二种实现方式中，所述通过特征提取函数计算所述目标语音的功率能量谱，根据所述功率能量谱计算所述目标语音中的语音特征包括：利用特征提取函数对所述目标语音中每个音频的进行离散傅里叶变换，得到所述目标语音的频域信号；计算所述频域信号的功率能量谱，并利用预置的滤波器对所述功率能量谱进行滤波，得到滤波能量谱；对所述滤波能量谱进行对数计算，得到语音特征，所述语音特征为对数功率谱。

可选的，在本发明第一方面的第三种实现方式中，所述将所述语音特征输入至预置深度神经网络模型，通过所述预置深度神经网络模型中的卷积层、通道区块、过度区块、全连接层和分类网络层对所述语音特征进行计算，得到语音确信值包括：将所述语音特征输入至预置深度神经网络模型中的第一卷积层中，得到第一处理结果；将第一处理结果输入至第一通道区块中，通过将第一处理结果输入到第二卷积层与第一全连接层中，得到第二处理结果；将第二处理结果输入至第一过度区块中，通过将第二处理结果输入到第三卷积层与最大池化层中，得到第三处理结果；将第三处理结果输入至第二通道区块中得到第四处理结果，将第四处理结果输入至第二过度区块中得到第五处理结果，将第五处理结果输入至第三通道区块中得到第六处理结果；将所述第六处理结果输入至末层的全连接层和分类网络层中，得到语音确信值。

可选的，在本发明第一方面的第四种实现方式中，所述将第一处理结果输入至第一通道区块中，通过将第一处理结果输入到第二卷积层与第一全连接层中，得到第二处理结果包括：将第一处理结果输入至第一通道区块中的第一子卷积层中，得到输入处理结果，所述第二卷积层包括所述第一子卷积层；将所述输入处理结果按照排列顺序平均分为四组，得到四个均分子处理结果，将所述四个均分子处理结果分别输入至第二子卷积层中，得到四个卷积子处理结果；将所述四个卷积子处理结果进行结合得到汇总子处理结果，将所述汇总子处理结果输入至第三子卷积层和第一子全连接层，得到第一子处理结果，所述第一全连接层包括第一子全连接层；对所述第一子处理结果进行迭代，得到第二子处理结果，对所述第二子处理结果进行迭代，得到第三子处理结果，对所述第三子处理结果进行迭代，得到第二处理结果。

可选的，在本发明第一方面的第五种实现方式中，在所述当所述语音确信值小于或等于辨别阈值时，确定所述目标语音为机器语音之后，还包括：调整预置深度神经网络模型中的参数，得到更新的深度神经网络模型。

可选的，在本发明第一方面的第六种实现方式中，所述调整预置深度神经网络模型中的参数，得到更新的深度神经网络模型包括：将分类网络层替换为预置网络层，得到候选深度神经网络模型；减小所述候选深度神经网络模型中的学习率参数，得到更新的深度神经网络模型。

本发明第二方面提供了一种机器语音的鉴别装置，包括：预处理模块，用于获取用户输入的初始语音，并对所述初始语音进行预处理，得到目标语音，所述预处理包括音频切分处理、均值归一化处理、预增强处理、加窗处理与添加随机噪声；提取模块，用于通过特征提取函数计算所述目标语音的功率能量谱，根据所述功率能量谱计算所述目标语音中的语音特征；计算模块，用于将所述语音特征输入至预置深度神经网络模型，通过所述预置深度神经网络模型中的卷积层、通道区块、过度区块、全连接层和分类网络层对所述语音特征进行计算，得到语音确信值；确定模块，当所述语音确信值小于或等于辨别阈值时，用于确定所述目标语音为机器语音。

可选的，在本发明第二方面的第一种实现方式中，所述预处理模块301具体用于：获取用户输入的初始语音，对所述初始语音中的音频进行音频切分处理，得到分帧语音；对所述分帧语音进行均值归一化处理，得到归一语音；通过预置增强公式对所述归一语音进行预增强处理，得到增强语音，所述预置增强公式为：，其中，/>为经过预增强后的第/>帧音频，/>为第/>帧音频，/>为预增强系数，/>为第帧音频，/>为每一帧的时间长度；利用预置加窗公式对所述增强语音进行加窗处理，得到加窗语音，所述预置加窗公式为：

可选的，在本发明第二方面的第二种实现方式中，所述提取模块具体用于：利用特征提取函数对所述目标语音中每个音频的进行离散傅里叶变换，得到所述目标语音的频域信号；计算所述频域信号的功率能量谱，并利用预置的滤波器对所述功率能量谱进行滤波，得到滤波能量谱；对所述滤波能量谱进行对数计算，得到语音特征，所述语音特征为对数功率谱。

可选的，在本发明第二方面的第三种实现方式中，所述计算模块包括：第一处理单元，用于将所述语音特征输入至预置深度神经网络模型中的第一卷积层中，得到第一处理结果；第二处理单元，用于将第一处理结果输入至第一通道区块中，通过将第一处理结果输入到第二卷积层与第一全连接层中，得到第二处理结果；第三处理单元，用于将第二处理结果输入至第一过度区块中，通过将第二处理结果输入到第三卷积层与最大池化层中，得到第三处理结果；第四处理单元，用于将第三处理结果输入至第二通道区块中得到第四处理结果，将第四处理结果输入至第二过度区块中得到第五处理结果，将第五处理结果输入至第三通道区块中得到第六处理结果；第五处理单元，用于将所述第六处理结果输入至末层的全连接层和分类网络层中，得到语音确信值。

可选的，在本发明第二方面的第四种实现方式中，所述第二处理单元具体用于：将第一处理结果输入至第一通道区块中的第一子卷积层中，得到输入处理结果，所述第二卷积层包括所述第一子卷积层；将所述输入处理结果按照排列顺序平均分为四组，得到均分子处理结果，将所述均分子处理结果输入至第二子卷积层中，得到卷积子处理结果；将所述卷积子处理结果进行结合得到汇总子处理结果，将所述汇总子处理结果输入至第三子卷积层和第一子全连接层，得到第一子处理结果，所述第一全连接层包括第一子全连接层；对所述第一子处理结果进行迭代，得到第二子处理结果，对所述第二子处理结果进行迭代，得到第三子处理结果，对所述第三子处理结果进行迭代，得到第二处理结果。

可选的，在本发明第二方面的第五种实现方式中，所述机器语音的鉴别装置包括：调整模块，用于调整预置深度神经网络模型中的参数，得到更新的深度神经网络模型。

可选的，在本发明第二方面的第六种实现方式中，所述调整模块具体用于：将分类网络层替换为预置网络层，得到候选深度神经网络模型；减小所述候选深度神经网络模型中的学习率参数，得到更新的深度神经网络模型。

本发明第三方面提供了一种机器语音的鉴别设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述机器语音的鉴别设备执行上述的机器语音的鉴别方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的机器语音的鉴别方法。

本发明提供的技术方案中，获取用户输入的初始语音，并对所述初始语音进行预处理，得到目标语音，所述预处理包括音频切分处理、均值归一化处理、预增强处理、加窗处理与添加随机噪声；通过特征提取函数计算所述目标语音的功率能量谱，根据所述功率能量谱计算所述目标语音中的语音特征；将所述语音特征输入至预置深度神经网络模型，通过所述预置深度神经网络模型中的卷积层、通道区块、过度区块、全连接层和分类网络层对所述语音特征进行计算，得到语音确信值；当所述语音确信值小于或等于辨别阈值时，确定所述目标语音为机器语音。本发明实施例中，通过对初始语音进行预处理得到目标语音，再利用预置深度神经网络模型对目标语音的语音特征进行卷积计算，得到初始语音的语音确信值，比较语音确信值与辨别阈值，确定初始语音的类别，提高了机器语音的鉴别效率。

附图说明

图1为本发明实施例中机器语音的鉴别方法的一个实施例示意图；

图2为本发明实施例中机器语音的鉴别方法的另一个实施例示意图；

图3为本发明实施例中机器语音的鉴别装置的一个实施例示意图；

图4为本发明实施例中机器语音的鉴别装置的另一个实施例示意图；

图5为本发明实施例中机器语音的鉴别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种机器语音的鉴别方法、装置、设备及存储介质，通过对初始语音进行预处理得到目标语音，再利用预置深度神经网络模型对目标语音的语音特征进行卷积计算，得到初始语音的语音确信值，比较语音确信值与辨别阈值，确定初始语音的类别，提高了机器语音的鉴别效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中机器语音的鉴别方法的一个实施例包括：

101、获取用户输入的初始语音，并对初始语音进行预处理，得到目标语音，预处理包括音频切分处理、均值归一化处理、预增强处理、加窗处理与添加随机噪声；

可以理解的是，本发明的执行主体可以为机器语音的鉴别装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

服务器获取用户输入的初始语音，这里的初始语音指的是通过语音收集器收集到的语音，初始语音的内容可以为不同的业务内容，初始语音的格式可以为cda音轨索引格式（CD音频格式）、WAVE格式、音频交换文件格式（audio interchange file format，AIFF）与动态影像专家压缩标准音频层面3格式（moving picture experts group audio layerIII，MP3格式），在本申请中并不对初始语音的格式进行限定。

需要说明的是，服务器在接收到初始语音后需要对该语音信号进行预处理，经过预处理后的信号才能够被更好的分析，令服务器最终识别到更精准的信息。这里的预处理指的是音频切分处理、均值归一化处理、预增强处理、加窗处理与添加随机噪声。这些操作的目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量。

需要强调的是，为进一步保证上述初始语音的私密和安全性，上述初始语音还可以存储于一区块链的节点中。

102、通过特征提取函数计算目标语音的功率能量谱，根据功率能量谱计算目标语音中的语音特征；

服务器将经过预处理后得到的目标语音输入至特征提取函数中，需要对目标语音进行进一步的处理。由于人耳对声音频谱的响应是非线性的，因此计算机需要利用类似人耳处理声音的方式对音频进行处理，这里服务器采用特征提取函数对目标语音进行音频处理，特征提取函数具体指的是FilterBank分析函数，通过计算目标语音的功率能量谱，获取目标语音中的语音特征。

103、将语音特征输入至预置深度神经网络模型，通过预置深度神经网络模型中的卷积层、通道区块、过度区块、全连接层和分类网络层对语音特征进行计算，得到语音确信值；

服务器将语音特征输入到预置深度神经网络模型中，服务器通过预置深度神经网络模型中的卷积层、通道区块、过度区块、全连接层和分类网络层对语音特征进行卷积计算，得到初始语音的语音确信值。这里的预置深度神经网络模型指的是基于深度神经网络（deep neural networks，DNN）的创新网络模型，通过对传统深度神经网络的创新，可以使预置深度神经网络模型更准确的计算出语音特征的语音确信值。

104、当语音确信值小于或等于辨别阈值时，确定目标语音为机器语音。

服务器将初始语音经过预处理后得到目标语音，将目标语音输入到预置深度神经网络模型中，通过预置深度神经网络模型对目标语音的语音特征进行卷积计算，得到初始语音的语音确信值，服务器在得到语音确信值之后，语音确信值的数值越高，说明初始语音为自然语言的概率越大，语音确信值的数值越低，说明初始语音为机器语言的概率越大。因此，服务器需要将语音确信值与标准的辨别阈值相对比，当语音确信值大于辨别阈值时，确定初始语音为自然语音，当语音确信值小于或等于辨别阈值时，确定初始语音为机器语音。

需要说明的是，这里的辨别阈值为一个确定的数值，可以为0.80，也可以为60，本申请并不对辨别阈值的数值进行限定，可以根据具体的模型设定辨别阈值。

本发明实施例中，通过对初始语音进行预处理得到目标语音，再利用预置深度神经网络模型对目标语音的语音特征进行卷积计算，得到初始语音的语音确信值，比较语音确信值与辨别阈值，确定初始语音的类别，提高了机器语音的鉴别效率。

请参阅图2，本发明实施例中机器语音的鉴别方法的另一个实施例包括：

201、获取用户输入的初始语音，并对初始语音进行预处理，得到目标语音，预处理包括音频切分处理、均值归一化处理、预增强处理、加窗处理与添加随机噪声；

具体的，服务器首先获取用户输入的初始语音，对初始语音中的音频进行音频切分处理，得到分帧语音；其次服务器对分帧语音进行均值归一化处理，得到归一语音；然后服务器通过预置增强公式对归一语音进行预增强处理，得到增强语音，预置增强公式为：，其中，/>为经过预增强后的第/>帧音频，/>为第/>帧音频，/>为预增强系数，/>为第/>帧音频，/>为每一帧的时间长度；服务器利用预置加窗公式对增强语音进行加窗处理，得到加窗语音，预置加窗公式为：

其中，为经过加窗处理后的第/>帧音频，/>为经过预增强后的第/>帧音频；最后服务器在加窗语音中，采用预置添加公式添加随机噪声，得到目标语音，预置添加公式为：/>，其中，/>为添加过随机噪声的第/>帧音频，/>为经过加窗处理后的第/>帧音频，/>为噪声强度系数，/>为随机数。

服务器在获取到用户输入的初始语音后，由于获取到的初始语音存在声音小或存在环境因素干扰等问题，需要对初始语音进行预处理，令服务器对初始语音的分析更加准确。服务器对初始语音进行预处理的步骤包括：音频切分处理、均值归一化处理、预增强处理、加窗处理与添加随机噪声，具体的过程如下：

（1）音频切分语音

由于服务器获取到的初始语音的长度不同，服务器对不同长度的音频序列进行处理难度更大，因此服务器需要将初始语音切分成长度固定的小段音频，得到分帧语音。在对初始语音进行音频切分的过程中，切分的长度可以为10ms，也可以为1s，在本申请中并不对切分的长度进行限定，同时也不对切分的段数进行限定，可以根据具体的初始语音的长度设定不同的切分段数与切分长度。

例如：初始语音的音频长度为1s，设定音频切分的采样率为16kHz，则这段初始语音可以切分为帧音频，其中，每帧音频中有/>个数。

（2）均值归一化处理

初始语音进行音频切分后，由于服务器将模拟信号转化成数字信号的过程中可能会出现直流偏移，具体可能为初始语音的音频波形向上或向下移动，因此服务器需要以帧为单位对分帧语音进行均值归一化处理，从而得到归一语音。

（3）预增强处理

在得到归一语音之后，服务器需要利用预置增强公式对归一语音中的音频进行加强高频，得到增强语音，上述预置增强公式为：

其中，为经过预增强后的第/>帧音频，/>为第/>帧音频，/>为预增强系数，且，通常为0.97，/>为第/>帧音频，/>为每一帧的时间长度，需要说明的是每一帧中的第一个数需要进行特殊处理，防止每一帧中的数均为零。

（4）加窗处理

服务器得到增强语音后，需要采用预置加窗公式对帧与帧之间的平滑度进行处理，使得帧与帧之间的过度更加平滑，得到加窗语音。具体的，可以相当于一个类似sin或cos的对称函数与每帧音频做卷积计算，上述预置加窗公式为：

其中，为经过加窗处理后的第/>帧音频，/>为经过预增强后的第/>帧音频。

（5）添加随机噪声

服务器在得到加窗语音之后，服务器需要采用预置添加公式对加窗语言进行数据增强，由于在获取初始语音时，初始语音可能为利用音频软件合成的语音，因此初始语音中可能存在一些错误，服务器对加窗语音进行添加随机噪声的处理方法可解决这些错误。上述预置添加公式为：

其中，为添加过随机噪声的第/>帧音频，/>为经过加窗处理后的第/>帧音频，/>为噪声强度系数，/>为随机数，且随机数的范围为/>。

需要说明的是，为进一步保证上述初始语音的私密和安全性，上述初始语音还可以存储于一区块链的节点中。

202、通过特征提取函数计算目标语音的功率能量谱，根据功率能量谱计算目标语音中的语音特征；

具体的，服务器首先利用特征提取函数对目标语音中每个音频的进行离散傅里叶变换，得到目标语音的频域信号；然后服务器计算频域信号的功率能量谱，并利用预置的滤波器对功率能量谱进行滤波，得到滤波能量谱；最后服务器对滤波能量谱进行对数计算，得到语音特征，语音特征为对数功率谱。

服务器在利用特征提取函数提取目标语音中的语音特征时，服务器首先对目标语音中的每个音频进行离散傅里叶变换，服务器在对初始语音进行音频切分时得到的为时域信号，而在对目标语音进行语音特征提取时，需要将时域信号转化为频域信号，对音频进行离散傅里叶变化可以将时域信号转化为频域信号，由于初始语音为数字音频（非模拟音频），因此本申请中利用的是离散傅里叶变换，得到目标语音的频域信号。进一步说明的是，由于服务器需要将数字信号转换到模拟信号，因此在获取初始语音时需要以最高信号频率的2倍的采样频率进行采样。举例说明：一般情况下，人的声音的频率范围为3kHz~4kHz，因此通常初始语音的音频范围为8kHz~16kHz。

服务器在对目标语音进行离散傅里叶变换之后，得到频域信号，服务器需要再计算频域信号的功率能量谱，由于频域信号中每个频带中的能量大小不同，不同音素的能量谱不同，因此计算不同频域信号的功率能量谱的计算方式不同。计算频域信号的功率能量谱的计算方法为本领域中惯用的技术手段，因此不在此进行赘述。

服务器得到功率能量谱之后，需要利用预置的滤波器对功率能量谱进行滤波，这里预置的滤波器为梅尔滤波器，梅尔滤波器是一组包含20-40个（标准26个）三角滤波器的滤波器，这里利用的是包含23个三角滤波器的滤波器，通过梅尔滤波器对功率能量谱进行滤波后，可以屏蔽掉某些不需要或存在噪声的频率范围，得到滤波能量谱。服务器最后在对滤波能量谱进行自然对数的计算，即可得到目标语音的语音特征。

203、将语音特征输入至预置深度神经网络模型，通过预置深度神经网络模型中的卷积层、通道区块、过度区块、全连接层和分类网络层对语音特征进行计算，得到语音确信值；

具体的，服务器首先将语音特征输入至预置深度神经网络模型中的第一卷积层中，得到第一处理结果；其次服务器将第一处理结果输入至第一通道区块中，通过将第一处理结果输入到第二卷积层与第一全连接层中，得到第二处理结果；然后服务器将第二处理结果输入至第一过度区块中，通过将第二处理结果输入到第三卷积层与最大池化层中，得到第三处理结果；服务器将第三处理结果输入至第二通道区块中得到第四处理结果，将第四处理结果输入至第二过度区块中得到第五处理结果，将第五处理结果输入至第三通道区块中得到第六处理结果；最后服务器将第六处理结果输入至末层的全连接层和分类网络层中，得到语音确信值。

服务器在得到目标语音的语音特征之后需要通过预置深度神经网络模型对语音特征进行卷积计算，首先服务器将计算得到的语音特征（对数功率谱）输入到预置深度神经网络模型中的第一卷积层中，第一卷积层为卷积核为1×1的卷积层，得到第一处理结果；其次服务器将第一处理结果输入至第一通道区块中，通过将第一处理结果输入到第二卷积层与第一全连接层中，得到第二处理结果；然后服务器将第二处理结果输入至第一过度区块中，这里第一过度区块是由一个卷积层与一个最大化池组成的，也就是说通过将第二处理结果输入到第三卷积层与最大池化层中，得到第三处理结果；服务器将第三处理结果输入至第二通道区块中得到第四处理结果，这里的第二通道区块中的内部结构与第一通道区块中的内部结构相同，将第四处理结果输入至第二过度区块中得到第五处理结果，这里的第二过度区块中的内部结构与第一过度区块中的内部结构相同，将第五处理结果输入至第三通道区块中得到第六处理结果，这里的第三通道区块中的内部结构与第一通道区块中的内部结构相同；最后服务器将第六处理结果输入至末层的全连接层，再将得到的处理结果输入至分类网络层中，得到语音确信值。

进一步的，将第一处理结果输入至第一通道区块中，通过将第一处理结果输入到第二卷积层与第一全连接层中，得到第二处理结果，具体的，服务器首先将第一处理结果输入至第一通道区块中的第一子卷积层中，得到输入处理结果，第二卷积层包括第一子卷积层；其次将输入处理结果按照排列顺序平均分为四组，得到四个均分子处理结果，将四个均分子处理结果分别输入至第二子卷积层中，得到四个卷积子处理结果；然后服务器将四个卷积子处理结果进行结合得到汇总子处理结果，将汇总子处理结果输入至第三子卷积层和第一子全连接层，得到第一子处理结果，第一全连接层包括第一子全连接层；最后服务器对第一子处理结果进行迭代，得到第二子处理结果，对第二子处理结果进行迭代，得到第三子处理结果，对第三子处理结果进行迭代，得到第二处理结果。

服务器将第一处理结果输入到第一通道区块中的过程如下：首先服务器将第一处理结果输入至第一通道区块中的第一子卷积层中，这里的第一子卷积层为卷积核1×1的卷积层，得到输入处理结果，将输入处理结果按照从前到后的排列顺序均分为四组，得到四组均分子处理结果，服务器分别将四组均分子处理结果输入至卷积核为3×3的第二卷积层中，得到四组卷积子处理结果，然后服务器将四组卷积子处理结果进行结合得到汇总子处理结果，将将汇总子处理结果输入至第三子卷积层和第一子全连接层，得到第一子处理结果，这里的第三子卷积层为卷积核为1×1的卷积层。服务器得到第一子处理结果后，将第一子处理结果作为输入，再次进行上述迭代步骤得到第二子处理结果，将第二子处理结果作为输入，进行上述迭代步骤得到第三子处理结果，将第三子处理结果作为输入，进行上述迭代步骤得到第二处理结果。

204、当语音确信值小于或等于辨别阈值时，确定目标语音为机器语音；

服务器将初始语音经过预处理后得到目标语音，将目标语音输入到预置深度神经网络模型中，通过预置深度神经网络模型对目标语音的语音特征进行卷积计算，得到初始语音的语音确信值，服务器再得到语音确信值之后，语音确信值的数值越高，说明初始语音为自然语言的概率越大，语音确信值的数值越低，说明初始语音为机器语言的概率越大。因此，服务器需要将语音确信值与标准的辨别阈值相对比，当语音确信值大于辨别阈值时，确定初始语音为自然语音，当语音确信值小于或等于辨别阈值时，确定初始语音为机器语音。

205、调整预置深度神经网络模型中的参数，得到更新的深度神经网络模型。

具体的，服务器将分类网络层替换为预置网络层，得到候选深度神经网络模型；服务器减小候选深度神经网络模型中的学习率参数，得到更新的深度神经网络模型。

在进行模型训练的过程后需要对模型进行迁移学习，进一步对模型调整，使得模型在进行目标预测时得到的结果更加准确。这里服务器采用微调的方式对预置深度神经网络模型进行迁移学习，服务器首先将预置深度神经网络中分类网络层替换为预置网络层，得到候选深度神经网络模型，这里的预置网络层指的是与本申请所计算语音确信值相关的分类网络层，如：需要判断初始语音为自然语音还是为机器语音这两个类别，则预置网络层将由这两个类别的分类网络层组成。需要说明的是，服务器需要预先训练分类网络层中的权重，确保分类网络层只可以进行交叉验证。

然后服务器需要减小候选深度神经网络模型中的学习率参数，由于利用未进行迁移学习前分类网络层中的权重所计算得到的语音确信值已接近真实值，因此在减小学习率参数时，减小后的学习率参数比开始时的学习率参数小10倍。

上面对本发明实施例中机器语音的鉴别方法进行了描述，下面对本发明实施例中机器语音的鉴别装置进行描述，请参阅图3，本发明实施例中机器语音的鉴别装置一个实施例包括：

预处理模块301，用于获取用户输入的初始语音，并对所述初始语音进行预处理，得到目标语音，所述预处理包括音频切分处理、均值归一化处理、预增强处理、加窗处理与添加随机噪声；

提取模块302，用于通过特征提取函数计算所述目标语音的功率能量谱，根据所述功率能量谱计算所述目标语音中的语音特征；

计算模块303，用于将所述语音特征输入至预置深度神经网络模型，通过所述预置深度神经网络模型中的卷积层、通道区块、过度区块、全连接层和分类网络层对所述语音特征进行计算，得到语音确信值；

确定模块304，当所述语音确信值小于或等于辨别阈值时，用于确定所述目标语音为机器语音。

请参阅图4，本发明实施例中机器语音的鉴别装置的另一个实施例包括：

可选的，预处理模块301具体用于：

获取用户输入的初始语音，对所述初始语音中的音频进行音频切分处理，得到分帧语音；

对所述分帧语音进行均值归一化处理，得到归一语音；

通过预置增强公式对所述归一语音进行预增强处理，得到增强语音，所述预置增强公式为：，其中，/>为经过预增强后的第/>帧音频，/>为第/>帧音频，/>为预增强系数，/>为第/>帧音频，/>为每一帧的时间长度；

利用预置加窗公式对所述增强语音进行加窗处理，得到加窗语音，所述预置加窗公式为：

其中，为经过加窗处理后的第/>帧音频，/>为经过预增强后的第/>帧音频；

在所述加窗语音中，采用预置添加公式添加随机噪声，得到目标语音，所述预置添加公式为：，其中，/>为添加过随机噪声的第/>帧音频，/>为经过加窗处理后的第/>帧音频，/>为噪声强度系数，/>为随机数。

可选的，提取模块302具体用于：

利用特征提取函数对所述目标语音中每个音频的进行离散傅里叶变换，得到所述目标语音的频域信号；

计算所述频域信号的功率能量谱，并利用预置的滤波器对所述功率能量谱进行滤波，得到滤波能量谱；

对所述滤波能量谱进行对数计算，得到语音特征，所述语音特征为对数功率谱。

可选的，计算模块303包括：

第一处理单元3031，用于将所述语音特征输入至预置深度神经网络模型中的第一卷积层中，得到第一处理结果；

第二处理单元3032，用于将第一处理结果输入至第一通道区块中，通过将第一处理结果输入到第二卷积层与第一全连接层中，得到第二处理结果；

第三处理单元3033，用于将第二处理结果输入至第一过度区块中，通过将第二处理结果输入到第三卷积层与最大池化层中，得到第三处理结果；

第四处理单元3034，用于将第三处理结果输入至第二通道区块中得到第四处理结果，将第四处理结果输入至第二过度区块中得到第五处理结果，将第五处理结果输入至第三通道区块中得到第六处理结果；

第五处理单元3035，用于将所述第六处理结果输入至末层的全连接层和分类网络层中，得到语音确信值。

可选的，第二处理单元3032具体用于：

将第一处理结果输入至第一通道区块中的第一子卷积层中，得到输入处理结果，所述第二卷积层包括所述第一子卷积层；

将所述输入处理结果按照排列顺序平均分为四组，得到四个均分子处理结果，将所述四个均分子处理结果输入至第二子卷积层中，得到四个卷积子处理结果；

将所述四个卷积子处理结果进行结合得到汇总子处理结果，将所述汇总子处理结果输入至第三子卷积层和第一子全连接层，得到第一子处理结果，所述第一全连接层包括第一子全连接层；

对所述第一子处理结果进行迭代，得到第二子处理结果，对所述第二子处理结果进行迭代，得到第三子处理结果，对所述第三子处理结果进行迭代，得到第二处理结果。

可选的，机器语音的鉴别装置还包括：

调整模块305，用于调整预置深度神经网络模型中的参数，得到更新的深度神经网络模型。

可选的，调整模块305具体用于：

将分类网络层替换为预置网络层，得到候选深度神经网络模型；

减小所述候选深度神经网络模型中的学习率参数，得到更新的深度神经网络模型。

上面图3和图4从模块化功能实体的角度对本发明实施例中的机器语音的鉴别装置进行详细描述，下面从硬件处理的角度对本发明实施例中机器语音的鉴别设备进行详细描述。

图5是本发明实施例提供的一种机器语音的鉴别设备的结构示意图，该机器语音的鉴别设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）510（例如，一个或一个以上处理器）和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530（例如一个或一个以上海量存储设备）。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对机器语音的鉴别设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在机器语音的鉴别设备500上执行存储介质530中的一系列指令操作。

机器语音的鉴别设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作***531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的机器语音的鉴别设备结构并不构成对机器语音的鉴别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种机器语音的鉴别设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述机器语音的鉴别方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述机器语音的鉴别方法的步骤。

进一步地，所述计算机可用存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种机器语音的鉴别方法，其特征在于，所述机器语音的鉴别方法包括：

获取用户输入的初始语音，并对所述初始语音进行预处理，得到目标语音，所述预处理包括音频切分处理、均值归一化处理、预增强处理、加窗处理与添加随机噪声；

所述获取用户输入的初始语音，并对所述初始语音进行预处理，得到目标语音，所述预处理包括音频切分处理、均值归一化处理、预增强处理、加窗处理与添加随机噪声包括：

对所述分帧语音进行均值归一化处理，得到归一语音；

通过预置增强公式对所述归一语音进行预增强处理，得到增强语音，所述预置增强公式为：，其中，/>为经过预增强后的第/>帧音频，/>为第帧音频，/>为预增强系数，/>为第/>帧音频，/>为每一帧的时间长度；

在所述加窗语音中，采用预置添加公式添加随机噪声，得到目标语音，所述预置添加公式为：，其中，/>为添加过随机噪声的第/>帧音频，/>为经过加窗处理后的第/>帧音频，/>为噪声强度系数，/>为随机数；

通过特征提取函数计算所述目标语音的功率能量谱，根据所述功率能量谱计算所述目标语音中的语音特征；

将所述语音特征输入至预置深度神经网络模型，通过所述预置深度神经网络模型中的卷积层、通道区块、过度区块、全连接层和分类网络层对所述语音特征进行计算，得到语音确信值；

所述将所述语音特征输入至预置深度神经网络模型，通过所述预置深度神经网络模型中的卷积层、通道区块、过度区块、全连接层和分类网络层对所述语音特征进行计算，得到语音确信值包括：

将所述语音特征输入至预置深度神经网络模型中的第一卷积层中，得到第一处理结果；

将第一处理结果输入至第一通道区块中，通过将第一处理结果输入到第二卷积层与第一全连接层中，得到第二处理结果；

将第二处理结果输入至第一过度区块中，通过将第二处理结果输入到第三卷积层与最大池化层中，得到第三处理结果；

将第三处理结果输入至第二通道区块中得到第四处理结果，将第四处理结果输入至第二过度区块中得到第五处理结果，将第五处理结果输入至第三通道区块中得到第六处理结果；

将所述第六处理结果输入至末层的全连接层和分类网络层中，得到语音确信值；

所述将第一处理结果输入至第一通道区块中，通过将第一处理结果输入到第二卷积层与第一全连接层中，得到第二处理结果包括：

将所述输入处理结果按照排列顺序平均分为四组，得到四个均分子处理结果，将所述四个均分子处理结果分别输入至第二子卷积层中，得到四个卷积子处理结果；

对所述第一子处理结果进行迭代，得到第二子处理结果，对所述第二子处理结果进行迭代，得到第三子处理结果，对所述第三子处理结果进行迭代，得到第二处理结果；

当所述语音确信值小于或等于辨别阈值时，确定所述目标语音为机器语音。

2.根据权利要求1所述的机器语音的鉴别方法，其特征在于，所述通过特征提取函数计算所述目标语音的功率能量谱，根据所述功率能量谱计算所述目标语音中的语音特征包括：

3.根据权利要求1-2中任一项所述的机器语音的鉴别方法，其特征在于，在所述当所述语音确信值小于或等于辨别阈值时，确定所述目标语音为机器语音之后，还包括：

调整预置深度神经网络模型中的参数，得到更新的深度神经网络模型。

4.根据权利要求3所述的机器语音的鉴别方法，其特征在于，所述调整预置深度神经网络模型中的参数，得到更新的深度神经网络模型包括：

5.一种机器语音的鉴别装置，其特征在于，所述机器语音的鉴别装置包括：

预处理模块，用于获取用户输入的初始语音，并对所述初始语音进行预处理，得到目标语音，所述预处理包括音频切分处理、均值归一化处理、预增强处理、加窗处理与添加随机噪声；

对所述分帧语音进行均值归一化处理，得到归一语音；

提取模块，用于通过特征提取函数计算所述目标语音的功率能量谱，根据所述功率能量谱计算所述目标语音中的语音特征；

计算模块，用于将所述语音特征输入至预置深度神经网络模型，通过所述预置深度神经网络模型中的卷积层、通道区块、过度区块、全连接层和分类网络层对所述语音特征进行计算，得到语音确信值；

确定模块，当所述语音确信值小于或等于辨别阈值时，用于确定所述目标语音为机器语音。

6.一种机器语音的鉴别设备，其特征在于，所述机器语音的鉴别设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述机器语音的鉴别设备执行如权利要求1-4中任意一项所述的机器语音的鉴别方法。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-4中任一项所述机器语音的鉴别方法。