CN109003613A

CN109003613A - 结合空间信息的声纹识别支付信息防伪方法

Info

Publication number: CN109003613A
Application number: CN201811017603.7A
Authority: CN
Inventors: 苏永锋; 沈文临; 曾鸣; 曾一鸣; 杨敬锋
Original assignee: Zhuhai Hengqin Xianlian Finance Technology Co Ltd; Zhuhai Hengqin Xianliansheng Technology Development Co Ltd
Current assignee: Zhuhai Hengqin Xianlian Finance Technology Co Ltd; Zhuhai Hengqin Xianliansheng Technology Development Co Ltd
Priority date: 2018-09-02
Filing date: 2018-09-02
Publication date: 2018-12-14

Abstract

本发明公开了一种结合空间信息的声纹识别支付信息防伪方法，包括以下步骤：S1：建立代表说话人身份的语音特征模型，通过编程从语音数据中提取说话人特征，采用文本相关数据，在matlab环境中建立MFCC模型，首先使用wavread函数读入，然后以帧长256，帧移80进行分帧，接着由语句x＝filter([1‑0.9375],1,x)实现对高频的加重处理，滤除低频干扰，特别是50Hz到60Hz的工频干扰，对语音识别更为有用的高频部分进行频谱提升，接着，为了保持语音信号的短时平稳性。本发明能够进行多重验证，提高支付安全性，而且采用随机动态验证文字，通过人工语音读，然后语音验证获取声纹与***保存的声纹对比，从而避免单一声纹容易被盗用复制的问题，提高安全性。

Description

结合空间信息的声纹识别支付信息防伪方法

技术领域

本发明涉及声纹识别技术领域，尤其涉及一种结合空间信息的声纹识别支付信息防伪方法。

背景技术

所谓声纹是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。

声纹也是人体独特的个性生物特征，很难找到两个声纹完全一样的人，现有的支付方式多为静态密码验证支付，由于密码不变性，使得安全性低，密码容易泄露的问题，现有采用人脸识别技术，但是当光线不好时验证效果不理想，而且对设备的要求较高，从而成本高，并且现有的支付方式单一，单一验证较多，从而安全性也低，因此需要一种方便可以多重验证，而且对设备要求不高的验证方法来解决上述问题。

发明内容

本发明的目的是为了解决现有支付方式多为静态密码验证支付安全性低，并且人脸验证对设备要求高的缺点，而提出的一种结合空间信息的声纹识别支付信息防伪方法。

为了实现上述目的，本发明采用了如下技术方案：

结合空间信息的声纹识别支付信息防伪方法，包括以下步骤：

S1：建立代表说话人身份的语音特征模型，通过编程从语音数据中提取说话人特征，采用文本相关数据，在matlab环境中建立MFCC模型，首先使用wavread函数读入，然后以帧长256，帧移80进行分帧，接着由语句x＝filter([1-0.9375],1,x)实现对高频的加重处理，滤除低频干扰，特别是50Hz到60Hz的工频干扰，对语音识别更为有用的高频部分进行频谱提升，接着，为了保持语音信号的短时平稳性，利用汉明窗函数来减少由截断处理导致的Gibbs效应，最后提取出声音信号中的采样值，频率和采样位数；

S2：利用说话人特征建立说话人模型或声纹识别模型；

S3：进行端点检测vad；

S4：进行MFCC参数算法mfcc；

S5：进行HMM参数初始化inithmm；

S6：进行viterbit识别算法；

S7：进行训练过程train；

S8：进行识别主程序。

优选的，所述S1中，语音读入为在matlab环境中建立MFCC模型，首先使用wavread函数读入，分帧能减少计算量但相邻帧间变化不大，容易丢失信号特征，取帧长20ms，帧移为帧长的1/3～1/2，高频加重处理用于滤除低频干扰，加窗对语音的短时能量进行分析，描述语音的这种特征变化情况，定义短时能量为：其中N为窗长，最后提取出声音信号中的采样值，频率和采样位数。

优选的，所述S3中，采用双门限的算法，输入为采样语音数据x，输出X1，X2是起始端点和结束端点的帧数，并将xi到x2帧的语音数据存sample.wave结构数组中。

优选的，所述S4中，输入为采样语音数据x，输出为mfcc参数，取x1—2至x2—2帧的mfcc参数到sample.data结构数组中。

优选的，所述S5中，输入为samples和NX*1的数组M，N为状态数，M是每个状态包含的高斯混合个数。

优选的，所述S6中，输入删模型和mfcc参数，回溯最佳状态路径，返回输出概率和状态路径。

优选的，所述S7中，对一次迭代函数baum.m实施n次迭代，输出为训练后的HMM模型参数和总输出概率，将模型参数存入hmm{i}。

优选的，所述S8中，对输入待识别的语音用函数vad进行端点检测，计算出MFCC参数之后，交由识别函数viterbi.m计算得到其对数形式的输出概率，最后显示出识别结果。

优选的，对获取的语音片段上传***，并分析记录声波特性，用于在验证时调取声波进行比对。

本发明的有益效果是：

1、通过提出的方法，能够进行多重验证，提高支付安全性，而且采用随机动态验证文字，通过人工语音读，然后语音验证获取声纹与***保存的声纹对比，从而避免单一声纹容易被盗用复制的问题，提高安全性；

2、通过提出的方法，能够在提取验证时提高精确度，保证获取的验证声音更为精确，从而提高验证速度，保证验证信息的准确度和时效度。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

S2：利用说话人特征建立说话人模型或声纹识别模型；

S3：进行端点检测vad；

S4：进行MFCC参数算法mfcc；

S5：进行HMM参数初始化inithmm；

S6：进行viterbit识别算法；

S7：进行训练过程train；

S8：进行识别主程序。

本实施例中，首先，用户对录音设备读取一段随机语句，设备进行语音录入，语音读入为在matlab环境中建立MFCC模型，首先使用wavread函数读入，分帧能减少计算量但相邻帧间变化不大，容易丢失信号特征，取帧长20ms，帧移为帧长的1/3～1/2，高频加重处理用于滤除低频干扰，加窗对语音的短时能量进行分析，描述语音的这种特征变化情况，定义短时能量为：其中N为窗长，最后提取出声音信号中的采样值，频率和采样位数，采用双门限的算法，输入为采样语音数据x，输出X1，X2是起始端点和结束端点的帧数，并将xi到x2帧的语音数据存sample.wave结构数组中，输入为采样语音数据x，输出为mfcc参数，取x1—2至x2—2帧的mfcc参数到sample.data结构数组中，输入为samples和NX*1的数组M，N为状态数，M是每个状态包含的高斯混合个数，输入删模型和mfcc参数，回溯最佳状态路径，返回输出概率和状态路径，对一次迭代函数baum.m实施n次迭代，输出为训练后的HMM模型参数和总输出概率，将模型参数存入hmm{i}，所述S8中，对输入待识别的语音用函数vad进行端点检测，计算出MFCC参数之后，交由识别函数viterbi.m计算得到其对数形式的输出概率，最后显示出识别结果，对获取的语音片段上传***，并分析记录声波特性，用于在验证时调取声波进行比对；

当进行验证时，***内随机弹出一句30字的验证语句，使用者对着麦读出验证语句，***接受到语音后进行语音信号处理、声纹特征提取、声纹建模、声纹比对、判别决策，最后将整合好的语音片段声纹与库中的声纹基因段进行比对，从而验证是否为本人声纹，验证符合则通过，验证不符合则记录非法语音信息，用于保存在***，给与本人调取查证，从而了解非法使用者。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.结合空间信息的声纹识别支付信息防伪方法，其特征在于，包括以下步骤：

S2：利用说话人特征建立说话人模型或声纹识别模型；

S3：进行端点检测vad；

S4：进行MFCC参数算法mfcc；

S5：进行HMM参数初始化inithmm；

S6：进行viterbit识别算法；

S7：进行训练过程train；

S8：进行识别主程序。

2.根据权利要求1所述的结合空间信息的声纹识别支付信息防伪方法，其特征在于，所述S1中，语音读入为在matlab环境中建立MFCC模型，首先使用wavread函数读入，分帧能减少计算量但相邻帧间变化不大，容易丢失信号特征，取帧长20ms，帧移为帧长的1/3～1/2，高频加重处理用于滤除低频干扰，加窗对语音的短时能量进行分析，描述语音的这种特征变化情况，定义短时能量为：其中N为窗长，最后提取出声音信号中的采样值，频率和采样位数。

3.根据权利要求1所述的结合空间信息的声纹识别支付信息防伪方法，其特征在于，所述S3中，采用双门限的算法，输入为采样语音数据x，输出X1，X2是起始端点和结束端点的帧数，并将xi到x2帧的语音数据存sample.wave结构数组中。

4.根据权利要求1所述的结合空间信息的声纹识别支付信息防伪方法，其特征在于，所述S4中，输入为采样语音数据x，输出为mfcc参数，取x1—2至x2—2帧的mfcc参数到sample.data结构数组中。

5.根据权利要求1所述的结合空间信息的声纹识别支付信息防伪方法，其特征在于，所述S5中，输入为samples和NX*1的数组M，N为状态数，M是每个状态包含的高斯混合个数。

6.根据权利要求1所述的结合空间信息的声纹识别支付信息防伪方法，其特征在于，所述S6中，输入删模型和mfcc参数，回溯最佳状态路径，返回输出概率和状态路径。

7.根据权利要求1所述的结合空间信息的声纹识别支付信息防伪方法，其特征在于，所述S7中，对一次迭代函数baum.m实施n次迭代，输出为训练后的HMM模型参数和总输出概率，将模型参数存入hmm{i}。

8.根据权利要求1所述的结合空间信息的声纹识别支付信息防伪方法，其特征在于，所述S8中，对输入待识别的语音用函数vad进行端点检测，计算出MFCC参数之后，交由识别函数viterbi.m计算得到其对数形式的输出概率，最后显示出识别结果。

9.根据权利要求1～8任意一项所述的结合空间信息的声纹识别支付信息防伪方法，其特征在于，对获取的语音片段上传***，并分析记录声波特性，用于在验证时调取声波进行比对。