CN112331210B

CN112331210B - 一种语音识别装置

Info

Publication number: CN112331210B
Application number: CN202110005142.7A
Authority: CN
Inventors: 黄海峰
Original assignee: Taiji Computer Corp Ltd
Current assignee: Taiji Computer Corp Ltd
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2021-05-18
Anticipated expiration: 2041-01-05
Also published as: CN112331210A

Abstract

本发明公开了一种语音识别装置，包括预处理单元，核对数据生成单元，核对单元和注册语音更新单元，以及用户意图识别单元，通过对注册语音数据的及时自动更新和用户意图识别，能够有效地更新用户的注册数据，改善了在特定时期内的语音识别的准确性，有效地保障了对用户验证的便捷性和减少智能设备的错误触发，从而提高了用户在使用智能设备时的用户体验。

Description

一种语音识别装置

技术领域

本发明涉及一种网络信息安全领域，特别语音数据的识别装置。

背景技术

随着经济的发展，网络信息的传送极为常见，随着信息技术的发展与人工智能概念的普及，越来越多的客户服务正朝着智能化的方向发展，人们可以通过简单的语音输入与智能设备即可实现，人工与语音数据的识别。自然语言处理是计算机科学领域和人工智能领域中的一个重要方向，在现有智能设备普及的情形，通过自然语言语音的输入等，对于智能设备的安全验证执行开启验证等已经成为常见的情形。

现有自然语音的处理，在进行安全智能设备开启时，由于人的声音在注册时的样本时一般时间久远，但传统的验证安全考虑，在更新验证数据时，如银行***的数据库等，为保障安全性一般都注重原始采集的注册语音数据稳定性，导致注册语音数据的实时性不够，使得该注册样本在与真实的语音进行匹配识别时，存在匹配度低的情形，从而使得语音识别的语音辨识度低。更进一步而言，有时候用于在开启了语音智能设备开启时，如果语音智能设备忘记关闭或者持续处于开启状态时，容易误判。对于家居设备而言，一般都是待机和供电状态，当用户的语音特征信息出现变化了，如变声状态，如感冒了等，或在与人交谈或自我无意识发出的语音信息被智能设备识别后可能会因收音，将出现自动开启或拒绝开启的情形。即用户的与智能设备的交互过程中真实意图和较好的验证不能实现，从而影响了用户的对于智能设备的认可程度。

有鉴于以上情形。如何保障上述语音数据被准确识别，提供一种语音识别装置以提高用户体验度。

发明内容

本发明提供一种语音识别装置，所述语音识别装置，包括预处理单元，所述预处理对语音信号执行预加重，分帧和加窗的操作，对预处理后的语音信号，做归一化处理，发送给核对数据生成单元；核对数据生成单元根据由预处理单元获取的语音信号生成核对语音数据；注册数据存储单元中，保持预先登记的用户语音注册数据；

核对单元将由核对数据生成单元生成的核对数据与保存在注册数据存储单元中的用户的注册语音数据进行核对；核对单元在核对输入语音数据和注册数据之间的相似度等于或大于阈值时确定核对成功，在核对语音数据和注册语音数据之间的相似度小于阈值时确定核对失败；当用户与核对数据和登记数据的语音核对失败次数超过预定期限时，通过其他预先登记的方式进行安全认证，当其他方式安全认证通过时，将该语音核对失败和核对成功的数据予以登记为验证数据，形成验证数据与时间的分布关系；

注册语音更新单元，根据核对单元中的验证数据与时间的分布关系，进行注册语音数据的更新。

进一步，所述验证数据包括拒真率，所述拒真率是用户通过其他方式认证通过，而语音核对信号提示失败的验证数据。

进一步，所述语音注册更新单元，进行注册语音数据的更新是，提取时间参数通过时间参素来表征不同时间段的语音特征，通过验证数据与时间的分布关系，选择确定当前在语音特征点上没有差异，但是相似度在下降却稳定的用户输入语音数据，作为新的注册语音数据。

进一步，所述注册语音更新单元，当这次的相似度连续地等于或小于设定的阈值W时，更新注册语音，所述阈值W设定为表示需要全部更新。

进一步，当注册更新单元的这次的相似度连续地等于或小于设定的阈值P，却大于阈值W时，对注册语音数据进行部分更新。

进一步，注册语音更新单元，同时存储有两个注册数据，一个为原始的注册语音数据，一个更新后的新注册语音数据，通过与输入核对语音数据两两比对的分数，以判断是否更新非原始的注册语音数据。

进一步，所述预处理单元基于过零检测和断点检测，获得语音信号的起始点，通过语音检测算法MFCC获得语音信息。

进一步，所述语音识别装置，还包括一个意图识别单元，所述意图识别单元，用于在初始操作命令之前，对用户操作习惯语言命令的收集，通过分词工具及词频矩阵对领域分类正确的历史数据进行特征提取，形成特征词列表，通过用户历史匹配模板对用户的上下文意图进行判断。

进一步，所述其他注册方式，包括手机随机码验证，短信验证和邮箱激活验证。

进一步，所述意图识别单元，意图识别单元中意图的预测是通过神经网络进行训练得到用户历史匹配模板。

本发明通过设置注册语音更新单元和用户意图识别单元，能够有效地更新用户的注册数据，保障用于在特定时期内的语音识别的准确性，从而提高了用户在使用智能设备时的用户体验。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中

图1现有技术的语音识别框架图；

图2是本申请的装置语音装置的框架示意图。

具体实施方式

参看下面的说明以及附图，本发明的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解，其中说明和附图形成了说明书的一部分。然而，可以清楚地理解，附图仅用作说明和描述的目的，并不意在限定本发明的保护范围。可以理解的是，附图并非按比例绘制。本发明中使用了多种结构图用来说明根据本发明的实施例的各种变形。

实施例1

由于人机交互环境中可能存在各种噪声，噪声环境下的语音识别算法，如图1所示，主要分为训练和识别两个阶段，包括语音信号预处理、端点检测、特征提取、训练与识别等步骤。

图2所示的本发明的语音识别装置的主要功能模块示意图。本发明采用对语音信号执行预处理，在预处理单元，在预先处理中，可选的是，至少选择，预加重、分帧和加窗。预加重是为了加重语音的高频部分，使得整个频谱变得平坦；分帧是为了得到语音的短时平稳性，采用可移动的有限长度窗口进行加权的方法来实现，加窗是使主瓣尖锐，旁瓣更低。借助于端点检测是判断语音信号片段中有意义信号的起止端点，在噪声情况下，单纯使用短时能量或短时过零率不能检测出语音信号，判断在噪声环境下，借助于端点检测和过零率相结合，改善和增加了鲁棒性。语音特征选用Mel频率倒谱系数(Mel FrequencyCepstrum Coefficients，MFCC)。MFCC是一种基于人耳听觉模型的特征。它将信号的频谱在频域由线性刻度转换为Mel频率，再变换到倒谱域得到倒谱系数。

获得语音数据，核对数据生成单元根据由预处理单元获取的语音信息生成核对语音数据。注册数据存储单元中，保持预先登记的用户注册数据。核对单元将由核对数据生成单元生成的核对数据与保存在注册数据存储单元中的用户的注册语音数据进行核对。核对单元在核对数据和登记数据之间的相似度等于或大于阈值时确定核对成功，并且在核对数据和注意语音数据之间的相似度小于阈值时确定核对失败；当用户与核对数据和注册数据的语音核对失败次数超过预定期限或次数时，通过其他预先登记的方式进行安全认证，当其他方式安全认证通过时，将该预先语音核对失败和核对成功的数据予以登记记录为验证数据，以形成与事件相关的相似度时间流逝分布图形。所述其他方式包括预注册时候等级的联系方式的，随机码，邮箱，短信等验证方式。

开发中发现根据用户的不同，语音的发声状态会随时间变化，如果发声的状态下在一段时间内特征保证持续，若未及时更新注册数据，则核对失败率可能会增加中的据真率会上升，便利性可能会下降。为此本申请引入时间统计分布因素，当辅助的其他方式的方式认证接受上升而语音验证失败的拒真率上升时，需要对用户的语音特征信息进行更新处理。所述注册语音更新单元，在做更新处理时候，提取时间参数通过时间参数来表征不同时间段的语音特征，可选的可以细粒度区分为上午，中午，晚上，从大粒度角度而言可以以日为特征，选取长期的结果，来判断“核对数据存储用户”，不同相似度下的接受率和拒真率，通过时间选择可以确定当前在语音特征上没有差异但是长期而言在语音质量上具有暂时差异的用户作为新的“验证数据存储用户”即新的注册用户验证数据。上述选择方式，是过去每个固定时期分别计算语音特征数据，而不是使用长期平均值，有利于保持一段时间内的验证便捷性，比如用户声音变化的感冒期内，方便自动更新的获取用户的特征数据。

可选的，更进一步，核对单元中是基于语音数据与注册语音特征数据之间的相似度的计算，并根据相似度确定它们是否匹配。可选的，每次通过该语音核对生成单元计算配准语音和对照语音之间的相似度时，对应于时间的参数存储相似度，创建关于相似度的时间变化分布的相似度历史。当通过语音核对单元确定配准语音和核对语音匹配时，可以基于创建的相似度的时间变化分布来更新注册语音。更新判断意味着判断和当通过更新确定单元确定注册语音是可更新的时，注册语音更新装置将确定为与注册语音匹配的对照语音更新为新的注册语音。

语音注册更新单元，在当语音核对单元确定配准语音和核对语音匹配时，通过相似度的时间变化分布来计算相似度的平均值，来计算相似度。当由相似度平均值计算单元计算出的相似度的平均值和过往存储的相似度高于设定的阈值P时，或者相似度的平均值高于设定的阈值P时，可以不更新注册语音，当这次的相似度连续地等于或小于设定的阈值W时确定可以更新注册语音。当相似度的平均值高于所设置的阈值P并且这次相似度在所设置的阈值以下不连续时，则不更新注册语音。

可选的，为保障语音特征数据更新被准确预测触发，当确定“关于核对相似性的时间变化分布”数据的回归线的倾斜度大于预定角度时，且假设这次收集的核对语音数据的核对相似度显着低于设定阈值Th，则进一步确定失配判定的次数是否为K。然后，在下一步骤，确定这次收集的核对语音数据与登记注册语音特征数据不一致，并且用于“关于核对相似性的时间变化分布”数据的回归线的倾斜度倾斜超过预定角度。如果确定差异的数量已确定为K或更大，则确定注册人的语音数据已随时间发生显着变化，并且有必要重新注册。

本申请的方案的另一个关键点还在于，在进行注册语音数据进行更新时候，采用的是基于相似度这一参数，为此设置参数W 和P 两个参数。正如之前计算出来的相似度的平均值，当相似度的平均值高于阈值时P时，表明相似度很高，则无需进行主次阈值的更新，此刻进行语音数据更新无必要。只有当平均的相似度处于W和P之间时，采用相似度百分比的方式进行加权的方式进行更新。则采用相似度百分比的方式执行更新，假设此时相似度为C，以C和(1-C)为系数，加权此次输入的信号和注册的语音特征信号。也可以加权基于时间参数的多个高于W的信号的叠加后归一化的信号执行加权和注册语音特征信号。W阈值的含义是全部执行更新，而P是部分执行更新。

可选的语音信号是一个波形图像，可以在波形图形上进行加权叠加抽取相应的特征点的方式，进行比对。登记注册存储单元中寻找一与用户声音最接近的声音信号的更新后的特征数据，以判断是否与预先注册的特征数据所对应的声音信号相同，如果相似度相满足一设定值时，则确定所述语音信号正确。

可选的，所述注册语音更新单元，可以同时存储有两个注册数据，一个为原始的注册数据，一则为更新后的新注册数据，通过原始注册数据与语音输入数据的匹配以及更新后的注册数据执的匹配，以及更新后的新注册数据与原始注册数据进行匹配，其中两两匹配，综合获得分数来验证验证，是否需要将新存储的注册数据更新。通过该方式即能保障原始数据的完备性，又能实现验证信息的实时更新，提高了用户的体验。

可选的，在进行开启认证时，语音识别装置还包括一个意图识别单元，用于语音识别后的意图判断，在语音触发信号后，还需要对该认证信号做意图判断，即验证成功了，若意图判断不匹配时，将设备保持待机状态，可选的可以与用户进行交互，或等待用户的下一步触发，从而执行上下文的触发学习。可选的，在进行语音数据的获取开启认证操作模式，可以存在进一步包括一个对于语音数据的意图判决模板，在实际的开发过程中，一般是在无噪音的环境下，进行命令操作开启的操作，而实际中也会存在在验证开启中触发，因此采用用户历史语音数据命令，对用户涉及开启命令的语音，在判断中加入上下文的含义推测，而不是直接提取特征语音命令数据的方式。因此，本申请的方式是在初始操作命令之前，通过对之前验证命令之后的用户操作习惯语言命令的收集，通过分词工具及词频矩阵对大量领域分类正确的历史数据进行特征提取，形成特征词列表。

在实时语音转写过程中，对语气词过滤、自动分段，结合前后文语义、停顿时长等进行分段。所述关键词库是根据领域执行的关键词库，提供关键词优化功能，提前录入专业词汇等专有名词，就能有效提升该关键词的识别准确率。以用户开启空调为例，对于用户在单条请求文本语音命令中的和预设时间段内的文本进行关键词提取，和历史命令数据之间关键词出现的概率，执行匹配，做关键词提取，从而提高命令语音识别的正确率。示例性的，当用户发送了验证开启在预设时间内，为空调时，检测目前适配的历史数据，当提取到的数据为关键词匹配为“开启”则之后的是否出现“制冷”或“制热”，“温度”，“调低”，“调高”，“冷风”之类的词汇跳转概率。依据用户的使用习惯，获取标准用户的模板，当用户获取到用户的语音数据时，则进行意图匹配。从而提高正确率，防止误判率。

可选的是，根据历史统计数据设置一个转移概率图，采用一个多元组<S，A，T，R，>来描述，其含义为S：***的状态集合；A ：***的动作集合，T(s′，a，s) ：***的状态转移函数，描述的是当***在状态s 下执行动作a可能转移到s′的概率，R(s，a) ：***的报酬函数，描述的是当在状态s下执行动作a时，***获得的立即回报值，即根据历史用户的数据获知，每个时刻，***会处于一个隐状态s，***会根据当前的信念分布b，选择一个动作a，得到一个立即回报r，然后转移到下一个隐状态s′，s′依赖于s、a。可选的统计的概率，可用于确定转移到s′状态的置信度。

所述概率也可以相应的也可以采用机器学习的方式，进行输入训练获得预测的用户的跳转概率，如RNN算法，借助于历史学习知识作为训练样本和本身的的知识训练分类识别模型，获知预测概率，明确意图。

实施例2

一种语音识别装置，也可以通过计算软件的方式实现，所述装置包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行以实现实施例1中功能装置的方法步骤。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）、随机存储记忆体（Random AccessMemory，RAM）、快闪存储器（Flash Memory）、硬盘（Hard Disk Drive，缩写：HDD）或固态硬盘（Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

如在本申请所使用的，术语“组件”、“模块”、“***”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地***、分布式***中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它***进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种语音识别装置，其特征在于：

所述语音识别装置，包括预处理单元，所述预处理单元对语音信号执行预加重，分帧和加窗的操作，对预处理后的语音信号，做归一化处理，发送给核对数据生成单元；核对数据生成单元根据由预处理单元获取的语音信号生成核对语音数据；注册数据存储单元中，保持预先注册的用户注册语音数据；

核对单元将由核对数据生成单元生成的核对语音数据与保存在注册数据存储单元中的用户的注册语音数据进行核对；核对单元在核对输入的核对语音数据和注册语音数据之间的相似度等于或大于阈值时确定核对成功，在核对语音数据和注册语音数据之间的相似度小于阈值时确定核对失败；当用户的核对语音数据和注册语音数据核对失败次数超过预定次数时，通过其他预先登记的方式进行安全认证，当其他方式安全认证通过时，将预先语音核对失败的数据和核对成功的数据登记为验证数据，形成验证数据与时间的分布关系；

注册语音更新单元，根据核对单元中的验证数据与时间的分布关系，进行注册语音数据的更新；

其中，所述注册语音更新单元，进行注册语音数据的更新是，提取时间参数，通过时间参数来表征不同时间段的语音特征，通过验证数据与时间的分布关系，确定当前在语音特征点上没有差异，但是相似度在下降却稳定的用户输入的核对语音数据，作为新的注册语音数据。

2.如权利要求1所述的语音识别装置，其特征在于：所述注册语音更新单元用于，当这次的相似度连续地等于或小于设定的阈值W时，更新注册语音，所述阈值W设定为表示需要全部更新。

3.如权利要求2所述的语音识别装置，其特征在于：所述注册语音更新单元用于，当这次的相似度连续地等于或小于设定的阈值P，却大于阈值W时，对注册语音数据进行部分更新。

4.如权利要求3所述的语音识别装置，其特征在于：所述预处理单元基于过零检测和断点检测，获得语音信号的起始点，通过语音检测算法MFCC获得语音信息。

5.如权利要求4所述的语音识别装置，其特征在于：所述语音识别装置，还包括一个意图识别单元，所述意图识别单元，用于在初始操作命令之前，对用户操作习惯语言命令的收集，通过分词工具及词频矩阵对领域分类正确的历史数据进行特征提取，形成特征词列表，通过用户历史匹配模板对用户的上下文意图进行判断。

6.如权利要求1-5任一权利要求所述的语音识别装置，其特征在于：所述其他预先登记的方式，包括手机随机码验证，短信验证和邮箱激活验证。

7.如权利要求5所述的语音识别装置，其特征在于：所述意图识别单元中的用户历史匹配模板采用神经网络进行训练。