CN105575385A

CN105575385A - 语音密码设置及方法、语音密码验证及方法

Info

Publication number: CN105575385A
Application number: CN201510941420.4A
Authority: CN
Inventors: 李震; 温忠源; 李志刚; 黄壮杰; 黄凡玮
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2015-12-16
Filing date: 2015-12-16
Publication date: 2016-05-11

Abstract

本发明公开了一种语音密码设置***及方法、语音密码验证***及方法，其中，所述语音密码设置***包括：语音采集模块，采集第一录入语音和第二录入语音；特征参数提取模块，提取相关特征参数，所述相关特征参数包括从所述第一录入语音提取的第一相关特征参数、从所述第二录入语音提取的第二相关特征参数；模式匹配模块，以所述第一相关特征参数为模板，将所述第二相关特征参数与所述第一相关特征参数进行模式匹配；失真测度模块，根据模式匹配进行失真测度，得到失真度；判定模块，根据失真度判定语音密码设置是否成功。

Description

语音密码设置***及方法、语音密码验证***及方法

技术领域

本发明涉及一种语音密码设置***及方法、语音密码验证***及方法。

背景技术

随着移动互联网的快速发展，诸如微信、支付宝、易信等社交网络媒体平台以其庞大而快速增长的客户量、丰富多样的消息形式成为了各大银行抢滩移动金融服务的重要阵地。社交网络嵌入式金融服务可为客户提供便捷的文字账务信息查询。但由于微信、支付宝、易信等社交网络媒体平台无需登录，任何拿到客户手机的人都可查看客户的账务信息，客户的账务信息存在泄露的风险。

为增加安全性，传统的做法是增加一道由字符组成的文本查询密码。文本密码设置的越复杂(如至少几位字符以上、包含数字、字母、大小写等)，越不容易被破解，安全性越高。然而越复杂的文本密码输入时越繁琐，特别是在一些屏幕小的机型上做文本输入非常容易点错，便捷性大打折扣。

目前可对快捷账务信息查询功能设置文字密码，但设置文字密码需客户手动输入密码，为了提高密码的安全性，密码通常设置的比较复杂，手机上输入时可能需要在数字、字母、符号、大小写间来回切换，使得快捷账务查询不再快捷。

发明内容

鉴于现有技术的上述缺陷，本发明提供一种语音密码设置***及方法、语音密码验证***及方法。根据本发明，用户能够更加便捷、安全地设置以及使用语音密码。

本发明的实施方式提供了一种语音密码设置***，其中，包括：语音采集模块，用于采集第一录入语音和第二录入语音；特征参数提取模块，用于从所述第一录入语音和所述第二录入语音提取相关特征参数，所述相关特征参数包括从所述第一录入语音提取的第一相关特征参数、从所述第二录入语音提取的第二相关特征参数；模式匹配模块，用于执行下述操作：以所述第一相关特征参数为模板，将所述第二相关特征参数与所述第一相关特征参数进行模式匹配；失真测度模块，用于根据所述模式匹配进行失真测度，得到失真度；判定模块，用于根据所述失真度判定语音密码设置是否成功。

相应地，本发明实施方式还提供了一种语音密码设置方法，其中，包括：采集第一录入语音和第二录入语音；从所述第一录入语音和所述第二录入语音提取相关特征参数，所述相关特征参数包括从所述第一录入语音提取的第一相关特征参数、从所述第二录入语音提取的第二相关特征参数；以所述第一相关特征参数为模板，将所述第二相关特征参数与所述第一相关特征参数进行模式匹配；根据所述模式匹配进行失真测度，得到失真度；根据所述失真度判定语音密码设置是否成功。

相应地，本发明实施方式还提供了一种语音密码验证***，其中，具备语音采集模块，用于采集录入语音；特征参数提取模块，用于从所述录入语音提取相关特征参数；模式匹配模块，用于执行下述操作：以预定的相关特征参数为模板，将所述录入语音的相关特征参数与预定的相关特征参数进行模式匹配；失真测度模块，用于根据所述模式匹配进行失真测度，得到失真度；判定模块，用于根据所述失真度判定语音密码验证是否成功。

相应地，本发明实施方式还提供了一种语音密码验证方法，其中，包括：采集录入语音；从所述录入语音提取相关特征参数；以预定的相关特征参数为模板，将所述录入语音的相关特征参数与预定的相关特征参数进行模式匹配；根据所述模式匹配进行失真测度，得到失真度；根据所述失真度判定语音密码验证是否成功。

采用本发明实施方式具有下述有益效果：

根据本发明，可以提供顾便捷性和安全性的语音密码设置及密码验证。在便捷性上，语音密码录入比文本密码输入更加方便。安全性上，语音密码的发声集近似无限，几乎无法破解。

附图说明

图1是本发明一实施方式的语音密码设置***的框图；

图2是上述语音密码设置***进行语音密码设置的框图；

图3是根据本发明一实施方式的语音密码设置方法的流程图；

图4是本发明另一实施方式的语音密码验证***的框图；

图5是上述语音密码验证***进行语音密码验证的框图；

图6是根据本发明另一实施方式的语音密码验证方法的流程图。

具体实施方式

为了便于理解本发明技术方案的各个方面、特征以及优点，下面结合附图对本发明进行具体描述。应当理解，下述的各种实施方式只用于举例说明，而非用于限制本发明的保护范围。

图1示出了本发明实施方式的一种语音密码设置***1a。如图1所示，语音密码设置***1a可包括：语音采集模块10a、特征参数提取模块11a、模式匹配模块12a、失真测度模块13a、判定模块14a。语音采集模块10a用于采集语音。特征参数提取模块11a，从采集到的语音数据提取相关特征参数。模式匹配模块12a，将当前语音的相关特征参数与模板进行模式匹配。失真测度模块13a通过模式匹配，得到失真度。判定模块14a用于根据失真度判定语音密码设置是否成功。语音密码设置***1a还可包括预处理模块15a，预处理模块15a用于对语音采集模块10a采集到的语音进行预处理。

以下，对语音密码设置***1a及其中的各模块进行详细的说明。

客户可以通过语音密码设置***1a进行语音密码设置。语音密码设置***1a可在进行语音识别的基础上，增加说话人识别的双重保障。

语音密码设置的过程如图2所示。在进行语音密码设置时，让用户在规定时间段内发声，语音密码设置***1a的语音采集模块10a采集到该段语音(以下称为第一录入语音V1)，预处理模块15a对第一录入语音V1进行预处理后，特征参数提取模块11a针对该第一录入语音V1提取第一相关特征参数P1，并且将该第一相关特征参数P1作为语音密码的模板。然后让用户二次(或多次)录入同一语音密码，语音采集模块10a采集到该段语音(以下称为第二录入语音V2)。预处理模块15a对第二录入语音V2进行预处理后，特征参数提取模块11a针对该第二录入语音V2提取第二相关特征参数P2。随后，模式匹配模块12a以第一录入语音V1的第一相关特征参数P1为模板，将第二录入语音V2的第二相关特征参数P2与第一录入语音V1的第一相关特征参数P1进行模式匹配，失真测度模块13根据该模式匹配对失真进行测度，得到失真度D1。若该失真过大，超过预定的门限值，则判定模块14a判定录入的两次语音密码不一致，重新设置语音密码。若判定模块14a判定语音密码一致，则设置语音密码成功。

设置语音密码的过程完成后，语音密码设置***1a可将第一次录入提取的第一相关特征参数P1以及二次(或多次)录入获取的失真度D1发送给服务端(的模板库)，收录在个人账户信息数据库中。同时终端可以保存语音数据本身，也可以不保存。该第一相关特征参数P1例如还可用做后述的语音密码验证***及方法中的预定的相关特征参数，失真度D1例如还可用于后述的语音密码验证***及方法中的失真门限的设置。

语音采集模块10a可配置于终端，特征参数提取模块11a、模式匹配模块12a、失真测度模块13a、判定模块14a、预处理模块15a可配置于终端或服务端。

预处理模块15a对采集到的语音进行预处理。该预处理可包括语音信号分帧加窗、端点检测。采集到的语音信号是短时平稳信号，故对语音信号进行处理时，将其进行分帧，这样每一帧信号可以近似为平稳信号。因为分帧存在截断效应，故需对其进行加窗处理以减小截断效应。端点检测用于将连续的语音分成N个孤立词，它确定每个孤立词的起始点和终止点。将端点检测输出的第n个孤立词的时间段对应的语音数据送入特征参数提取模块11a，获取该孤立词相应的特征参数。端点检测算法主要是根据语音的一些特征参数来实现的，如能量、过零率、倒谱、谱熵等在语音段和非语音段有着明显的差异。

特征参数提取模块10a对预处理后的语音信号做特征参数提取。即语音信号完成分帧处理和端点检测后，就进入特征参数提取模块10a，特征参数提取模块10a对N个孤立词分别做特征参数提取。特征的选取应当反映语音的本质特征。由于语音密码设置***1a可在进行语音识别的基础上，进行说话人识别，因此相关特征参数除了含有语音识别的信息之外，还可含有说话人的信息。同时，特征参数要计算方便，优选高效的算法。语音识别选取的特征可以是能量、基音频率、共振峰值等，例如特征参数为线性预测倒谱系数(LPCC)与Mel倒谱系数(MFCC)。二者都是将语音从时域变换到倒谱域，前者从人声的发声模型角度出发，利用线性预测编码(LPC)技术求倒谱系数。后者则构造人的听觉模型，以语音通过该模型的输出为声学特征，直接通过离散傅里叶变换进行变换。考虑特征参数可量含有说话人的信息，因此更为优选使用共振峰、LPCC、MFCC等特征。

就模式匹配模块12a而言，在语音识别、说话人识别当中，模式匹配分类器方法有：基于Bayes规则的分类器、基于HMM分类器、基于DTW分类器、基于高斯混合模型(GMM)分类器、基于人工神经网络(ANN)分类器等。其中，动态时间规整模型(DTW)应用动态规划的方法解决了语音信号特征参数序列比较时时长不等的问题，在孤立词、中小词汇量识别中有良好的性能，***开销小，识别速度快，因而更为优选。

失真测度模块13a计算失真测度。即计算当前语音特征参数矢量与模板特征参数矢量之间的距离。对于不同的分类策略和不同的特征，一般采用不同的失真测度计算，如在DTW分类器中，采用线性预测系数作为特征参数时，采用Itakura失真测度来计算帧间距离；MFCC特征参数可采用欧式距离、切比雪夫距离、绝对值距离来计算。

本申请的语音密码设置***利用社交网络媒体平台可输入语音信息的特点，通过联合语音识别和说话人识别技术，可以不限制语音密码的语义、语种、发声时间段内的孤立词数，甚至可以是非语言的发声，发声集近似无限的(文本密码使用的字符集有限)，达到比文本密码更高的安全性。除去基于语音内容本身的验证外，语音密码还支持对说话人的识别，又增加了一道安全保障，另外，语音录入在便捷性上有着比文本输入无法比拟的优势。

以往的说话人识别力求挖掘出包含在语音信号中的说话人的个性因素，强调不同人之间的特征差异；以往的语音识别尽可能将不同人说话的差异淡化，保留共同点。就语音密码设置***1a在进行语音识别的基础上进行说话人识别而言，可以看成是说话人识别中的说话人确认在特定环境下的一种特殊应用，语音密码设置***1a与以往的说话人识别及以往的语音识别存在以下差异：

在模板库方面，语音密码设置***1a与二者的不同点在于模板库仅有一组特征参数(例如第一相关特征参数)，且对应的语音信息是仅有用户自己知道的语音密码，同时它不将语音与文本内容进行关联，即对语音携带的语义信息无要求，也可以是任意的非语言的发声。

在判定方面，以往的语音识别选择模板库中匹配度最高的模板做为输出，转化为文本信息。而语音密码设置***1a不将语音与文本内容进行关联。

在特征参数选取方面，优选选取能够挖掘出包含在语音信号中的说话人的个性因素、强调不同人之间差异的特征参数。

在模式匹配方面，以往语音识别是将语音提取的特征参数与模板库中众多参数进行匹配，耗时长。语音密码设置***1a是对一固定参数模板的匹配，根据相似度以失真门限输出判决结果，处理速度快。另外语音密码设置***1a优选判断语音信息及说话人的双重一致。

因此，根据语音密码设置***1a，可以提供顾便捷性和安全性的语音密码设置。在便捷性上，语音录入比文本输入更加方便。安全性上，语音密码的发声集近似无限，几乎无法破解，并且增加了说话人识别的双重保障。

参见图3，示出了本发明实施方式的一种语音密码设置方法的流程。基于上述实施方式的所述语音密码设置***，本发明提供的一种语音密码设置方法，其包括以下步骤：

S001.采集第一录入语音；

S002.从第一录入语音提取第一相关特征参数；

S003.采集第二录入语音；

S004.从第二录入语音提取第二相关特征参数；

S005.以第一相关特征参数为模板，将第二相关特征参数与第一相关特征参数进行模式匹配，从而进行失真测度，得到失真度；

S006.根据所述失真度判定语音密码设置是否成功。

在上述步骤中，第一相关特征参数、第二相关特征参数中含有语音识别的信息，并且还可含有说话人的信息。

根据本发明提供的语音密码设置方法，在进行密码设置时较为便捷，并且不限制语音密码的语义、语种、发声时间段内的孤立词数，甚至可以是非语言的发声，发声集近似无限的(文本密码使用的字符集有限)，达到比文本密码更高的安全性。除去基于语音内容本身的验证外，语音密码还支持对说话人的识别，又增加了一道安全保障。

图4示出了本发明的另一实施方式的语音密码验证***1b。如图4所示，语音密码验证***1b可包括：语音采集模块10b、特征参数提取模块11b、模式匹配模块12b、失真测度模块13b、判定模块14b。语音采集模块10b用于采集语音。特征参数提取模块11b，从采集到的语音数据提取相关特征参数。模式匹配模块12b，将当前语音的相关特征与模板进行模式匹配。失真测度模块13b通过模式匹配，得到失真度。判定模块14b根据失真度判定语音密码验证是否成功。语音密码验证***1b还可包括预处理模块15b，预处理模块15b用于对语音采集模块10b采集到的语音进行预处理。

以下，对语音密码验证***1b以及其中的各模块进行详细的说明。

客户可以通过语音密码验证***1b进行语音密码验证。语音密码验证***1b可在进行语音识别的基础上，增加说话人识别的双重保障。

语音密码验证的过程如图5所示。在进行语音密码验证时，用户在规定时间内将语音密码录入终端，语音采集模块10b采集到该段语音(以下称为第三录入语音V3)，预处理模块15b对第三录入语音V3进行预处理后，特征参数提取模块11b针对该第三录入语音V3提取第三相关特征参数P3，并且将第三相关特征参数P3发送给服务端，服务端读取数据库(的模板库)中相应账户的语音密码的预定的相关特征参数(例如预定的相关特征参数可以是第一相关特征参数P1)，模式匹配模块12b以该预定的相关特征参数模板作为模板，将预定的相关特征参数与第三相关特征参数P3进行模式匹配，失真测度模块13b依据模式匹配获取失真度D2后，判定模块14b根据失真度D2及数据库相应账户中的预定的失真度门限进行判定，判定语音密码验证是否成功。判定后，语音密码验证***1b将判定结果返回终端。其中，预定的失真度门限例如可根据语音密码设置时二次(或以上)录入获取的失真度D1计算得到，并且预定的失真度门限被限定在一个很小的范围内，优选只有在语音内容与语音密码完全一致且说话人相同时才能得到小于门限的失真度。

语音采集模块10b可配置于终端，特征参数提取模块11b、模式匹配模块12b、失真测度模块13b、判定模块14b、预处理模块15b可配置于终端或服务端。

预处理模块15b对采集到的语音进行预处理。该预处理可包括语音信号分帧加窗、端点检测。采集到的语音信号是短时平稳信号，故对语音信号进行处理时，将其进行分帧，这样每一帧信号可以近似为平稳信号。因为分帧存在截断效应，故需对其进行加窗处理以减小截断效应。端点检测用于将连续的语音分成N个孤立词，它确定每个孤立词的起始点和终止点。将端点检测输出的第n个孤立词的时间段对应的语音数据送入特征参数提取模块11b，获取该孤立词相应的特征参数。端点检测算法主要是根据语音的一些特征参数来实现的，如能量、过零率、倒谱、谱熵等在语音段和非语音段有着明显的差异。

特征参数提取模块10b对预处理后的语音信号做特征参数提取。即语音信号完成分帧处理和端点检测后，就进入特征参数提取模块10b，特征参数提取模块10b对N个孤立词分别做特征参数提取。特征的选取应当反映语音的本质特征。由于语音密码验证***1b可在进行语音识别的基础上，进行说话人识别，因此相关特征参数除了含有语音识别的信息之外，还可含有说话人的信息。同时，特征参数要计算方便，优选高效的算法。语音识别选取的特征可以是能量、基音频率、共振峰值等，例如特征参数为线性预测倒谱系数(LPCC)与Mel倒谱系数(MFCC)。二者都是将语音从时域变换到倒谱域，前者从人声的发声模型角度出发，利用线性预测编码(LPC)技术求倒谱系数。后者则构造人的听觉模型，以语音通过该模型的输出为声学特征，直接通过离散傅里叶变换进行变换。考虑特征参数可量含有说话人的信息，因此更为优选使用共振峰、LPCC、MFCC等特征。

就模式匹配模块12b而言，在语音识别、说话人识别当中，模式匹配分类器方法有：基于Bayes规则的分类器、基于HMM分类器、基于DTW分类器、基于高斯混合模型(GMM)分类器、基于人工神经网络(ANN)分类器等。其中，动态时间规整模型(DTW)应用动态规划的方法解决了语音信号特征参数序列比较时时长不等的问题，在孤立词、中小词汇量识别中有良好的性能，***开销小，识别速度快，因而更为优选。

失真测度模块13b计算失真测度。即计算当前语音特征参数矢量与模板特征参数矢量之间的距离。对于不同的分类策略和不同的特征，一般采用不同的失真测度计算，如在DTW分类器中，采用线性预测系数作为特征参数时，采用Itakura失真测度来计算帧间距离；MFCC特征参数可采用欧式距离、切比雪夫距离、绝对值距离来计算。

本申请的语音密码验证***利用社交网络媒体平台可输入语音信息的特点，通过联合语音识别和说话人识别技术，可以不限制语音密码的语义、语种、发声时间段内的孤立词数，甚至可以是非语言的发声，发声集近似无限的(文本密码使用的字符集有限)，达到比文本密码更高的安全性。除去基于语音内容本身的验证外，语音密码还支持对说话人的识别，又增加了一道安全保障，另外，语音录入在便捷性上有着比文本输入无法比拟的优势。

以往的说话人识别力求挖掘出包含在语音信号中的说话人的个性因素，强调不同人之间的特征差异；以往的语音识别尽可能将不同人说话的差异淡化，保留共同点。就语音密码验证***1b在进行语音识别的基础上进行说话人识别而言，可以看成是说话人识别中的说话人确认在特定环境下的一种特殊应用，语音密码验证***1b与以往的说话人识别及以往的语音识别存在以下差异：

在数据库中的模板库方面，语音密码验证***1b与二者的不同点在于模板库仅有一组特征参数，且对应的语音信息是仅有用户自己知道的语音密码，同时它不将语音与文本内容进行关联，即对语音携带的语义信息无要求，也可以是任意的非语言的发声。

在判决方面，以往的语音识别选择模板库中匹配度最高的模板做为输出，转化为文本信息。而语音密码验证***1b不将语音与文本内容进行关联。

在模式匹配方面，以往语音识别是将语音提取的特征参数与模板库中众多参数进行匹配，耗时长。语音密码验证***1b是对一固定参数模板的匹配，根据相似度以失真门限输出判决结果，处理速度快。另外语音密码验证***1b优选判断语音信息及说话人的双重一致。

因此，根据语音密码验证***1b，可以提供顾便捷性和安全性的语音密码验证。在便捷性上，语音录入比文本输入更加方便。安全性上，语音密码的发声集近似无限，几乎无法破解，并且增加了说话人识别的双重保障。

参见图6，示出了本发明实施方式的一种语音密码验证方法的流程。基于上述实施方式的所述语音密码验证***，本发明提供的一种语音密码验证方法，其包括以下步骤：

S101.采集录入语音；

S102.从所述录入语音提取相关特征参数；

S103.以预定的相关特征参数为模板，将所述录入语音的相关特征参数与预定的相关特征参数进行模式匹配；

S104.根据所述模式匹配进行失真测度，得到失真度；

S105.根据所述失真度判定语音密码验证是否成功。

在所述录入语音的相关特征参数和预定的相关特征参数中含有语音识别的信息，并且还可含有说话人的信息。

根据本发明提供的语音密码验证方法，不限制语音密码的语义、语种、发声时间段内的孤立词数，甚至可以是非语言的发声，发声集近似无限的(文本密码使用的字符集有限)，达到比文本密码更高的安全性。除去基于语音内容本身的验证外，语音密码还支持对说话人的识别，又增加了一道安全保障。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明说明书中使用的术语和措辞仅仅为了举例说明，并不意味构成限定。本领域技术人员应当理解，在不脱离所公开的实施方式的基本原理的前提下，对上述实施方式中的各细节可进行各种变化。因此，本发明的范围只由权利要求确定，在权利要求中，除非另有说明，所有的术语应按最宽泛合理的意思进行理解。

Claims

1.一种语音密码设置***，其特征在于，包括：

语音采集模块，用于采集第一录入语音和第二录入语音；

特征参数提取模块，用于从所述第一录入语音和所述第二录入语音提取相关特征参数，所述相关特征参数包括从所述第一录入语音提取的第一相关特征参数、从所述第二录入语音提取的第二相关特征参数；

模式匹配模块，用于执行下述操作：以所述第一相关特征参数为模板，将所述第二相关特征参数与所述第一相关特征参数进行模式匹配；

失真测度模块，用于根据所述模式匹配进行失真测度，得到失真度；

判定模块，用于根据所述失真度判定语音密码设置是否成功。

2.如权利要求1所述的语音密码设置***，其特征在于，

所述相关特征参数中含有语音识别的信息。

3.如权利要求1或2所述的语音密码设置***，其特征在于，

所述相关特征参数中还含有说话人的信息。

4.一种语音密码验证***，其特征在于，具备：

语音采集模块，用于采集录入语音；

特征参数提取模块，用于从所述录入语音提取相关特征参数；

模式匹配模块，用于执行下述操作：以预定的相关特征参数为模板，将所述录入语音的相关特征参数与预定的相关特征参数进行模式匹配；

判定模块，用于根据所述失真度判定语音密码验证是否成功。

5.如权利要求4所述的语音密码验证***，其特征在于，

在所述录入语音的相关特征参数和预定的相关特征参数中含有语音识别的信息。

6.如权利要求4或5所述的语音密码验证***，其特征在于，

在所述录入语音的相关特征参数和预定的相关特征参数中还含有说话人的信息。

7.一种语音密码设置方法，其特征在于，包括：

采集第一录入语音和第二录入语音；

从所述第一录入语音和所述第二录入语音提取相关特征参数，所述相关特征参数包括从所述第一录入语音提取的第一相关特征参数、从所述第二录入语音提取的第二相关特征参数；

以所述第一相关特征参数为模板，将所述第二相关特征参数与所述第一相关特征参数进行模式匹配；

根据所述模式匹配进行失真测度，得到失真度；

根据所述失真度判定语音密码设置是否成功。

8.如权利要求7所述的语音密码设置方法，其特征在于，

所述相关特征参数中含有语音识别的信息。

9.如权利要求7或8所述的语音密码设置方法，其特征在于，

所述相关特征参数中还含有说话人的信息。

10.一种语音密码验证方法，其特征在于，包括：

采集录入语音；

从所述录入语音提取相关特征参数；

以预定的相关特征参数为模板，将所述录入语音的相关特征参数与预定的相关特征参数进行模式匹配；

根据所述模式匹配进行失真测度，得到失真度；

根据所述失真度判定语音密码验证是否成功。

11.如权利要求10所述的语音密码验证方法，其特征在于，

12.如权利要求10或11所述的语音密码验证方法，其特征在于，