CN112233679A

CN112233679A - 一种人工智能语音识别***

Info

Publication number: CN112233679A
Application number: CN202011080042.2A
Authority: CN
Inventors: 程松林
Original assignee: Anhui Fastcall Information Technology Co ltd
Current assignee: Anhui Fastcall Information Technology Co ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2021-01-15
Anticipated expiration: 2040-10-10
Also published as: CN112233679B

Abstract

本发明公开了一种人工智能语音识别***，包括内容展示模块、语音录入模块、数据接收模块、数据储存终端、数据处理模块、总控模块与验证通过模块；所述内容展示模块用于展示用户进行语音识别时需要读出的内容信息，所述语音录入模块用于录入用户的实时语音信息，所述数据储存终端中储存有允许通行人员的语音信息，所述数据接收模块用于接收用户的实时语音信息与数据储存终端中的允许通行人员的语音信息，并将实时语音信息与允许通行人员的语音信息发送到数据处理模块；所述数据处理模块用于对实时语音信息与允许通行人员的语音信息进行处理将其处理为允许通行信息。本发明能够更加准确有效的进行语音识别更加值得推广使用。

Description

一种人工智能语音识别***

技术领域

本发明涉及语音识别领域，具体涉及一种人工智能语音识别***。

背景技术

语音识别技术，也被称为自动语音识别其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容，语音识别***即时进行语音内容识别的***。

现有的语音识别***，在使用时，多为单次验证，在验证过程中容易出现验证出错的状况发生，并且录入语音信息时容易受到噪音的影响，给语音识别***的使用带来了一定影响，因此，提出一种人工智能语音识别***。

发明内容

本发明所要解决的技术问题在于：如何解决现有的语音识别***，在使用时，多为单次验证，在验证过程中容易出现验证出错的状况发生，并且录入语音信息时容易受到噪音的影响，给语音识别***的使用带来了一定影响的问题，提供了一种人工智能语音识别***。

本发明是通过以下技术方案解决上述技术问题的，本发明包括内容展示模块、语音录入模块、数据接收模块、数据储存终端、数据处理模块、总控模块与验证通过模块；

所述内容展示模块用于展示用户进行语音识别时需要读出的内容信息，所述语音录入模块用于录入用户的实时语音信息，所述数据储存终端中储存有允许通行人员的语音信息，所述数据接收模块用于接收用户的实时语音信息与数据储存终端中的允许通行人员的语音信息，并将实时语音信息与允许通行人员的语音信息发送到数据处理模块；

所述数据处理模块用于对实时语音信息与允许通行人员的语音信息进行处理将其处理为允许通行信息，允许通行信息被发送到总控模块，所述总控模块接收到允许通行信息后控制验证通过模块进行放行操作。

优选的，所述数据处理模块在处理用户实时语音信息时对实时语音信息进行降噪处理。

优选的，所述降噪处理的具体过程如下：设计一个数字滤波器h(n)，使得输入的带噪语音信号与纯净语音信号的误差满足LMS准则，当输入为y(n)时，滤波器输出为

根据最小均方误差准则，要使得

取极小值，再经过推导，得到维纳滤波器谱估计器：

引入先验信噪比和后验信噪比，定义

谱估计器可以进一步写成：基于先验信噪比的维纳滤波器谱估计器

基于后验信噪比的维纳滤波器谱估计器

引入平滑参数得到先验信噪比和后验信噪比的关系：

(γi(k)-1)表明由地i-1帧的先验信噪比和第i帧的后验信噪比，就可求出第i帧的先验信噪比，一旦已知本帧的先验信噪比，即导出本帧的维纳滤波器传递函数Hi(k)，

进一步可导出维纳滤波器的输出：

最终得到经过降噪的实时语音信息。

优选的，提取出经过降噪的实时语音信息，对经过降噪的实时语音信息进行比对处理，其比对过程如下：

步骤一：提取出内容展示模块展示的内容信息，内容信息为预设文本内容；

步骤二：提取出用户读取第一个文本内容的时间点将其标记为T1时间点，提取出用户读取最后一个文本内容的时间点标记为T2时间点；

步骤三：计算出T2时间点与T1时间点之间的时间差得到实时读取时长Tt；

步骤四：提取出数据储存模块中储存的允许通行人员的语音信息，将其通过步骤一到步骤三得到预设读取时长T_预；

步骤五：再计算出实时读取时长Tt与预设读取时长T_预之间的差值得到T_差当T_差的绝对值大于预设值时即初步验证不通过，当T_差的绝对值小于预设值时即初步验证通过；

步骤六：初步验证通过之后进行二次验证，二次验证通过之后即生成验证通过信息，即允许通信信息。

优选的，所述二次验证的具体过程如下：

步骤一：提取出经过降噪的实时语音信息，将其进行声纹化处理，得到实时声纹；

步骤二：再提取出允许通行人员的语音信息，将其进行声纹化处理，得到预存声纹；

步骤三：对实时声纹与预存声纹进行相似度对比，得到实时声纹与预存声纹的相似度，将相似度标记为G，当相似度G大于预设相似度时即二次验证通过。

本发明相比现有技术具有以下优点：该人工智能语音识别***，设置了双重验证，能够对语音进行双重识别，有效的避免了验证出错导致的放行非允许通行的人员的状况发生，使得该***的验证效果更好，更加的安全，并且通过对语音内容进行降噪处理，有效减少了语音内容内的噪音对语音识别的影响，让该***能够更加安全准确的进行语音识别，更加值得推广使用。

附图说明

图1是本发明的***框图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例提供一种技术方案：一种人工智能语音识别***，包括内容展示模块、语音录入模块、数据接收模块、数据储存终端、数据处理模块、总控模块与验证通过模块；

所述数据处理模块在处理用户实时语音信息时对实时语音信息进行降噪处理。

所述降噪处理的具体过程如下：设计一个数字滤波器h(n)，使得输入的带噪语音信号与纯净语音信号的误差满足LMS准则，当输入为y(n)时，滤波器输出为

根据最小均方误差准则，要使得

取极小值，再经过推导，得到维纳滤波器谱估计器：

引入先验信噪比和后验信噪比，定义

基于后验信噪比的维纳滤波器谱估计器

引入平滑参数得到先验信噪比和后验信噪比的关系：

进一步可导出维纳滤波器的输出：

最终得到经过降噪的实时语音信息。

提取出经过降噪的实时语音信息，对经过降噪的实时语音信息进行比对处理，其比对过程如下：

所述二次验证的具体过程如下：

综上，本发明在使用时，内容展示模块用于展示用户进行语音识别时需要读出的内容信息，语音录入模块用于录入用户的实时语音信息，数据储存终端中储存有允许通行人员的语音信息，数据接收模块用于接收用户的实时语音信息与数据储存终端中的允许通行人员的语音信息，并将实时语音信息与允许通行人员的语音信息发送到数据处理模块，数据处理模块用于对实时语音信息与允许通行人员的语音信息进行处理将其处理为允许通行信息，允许通行信息被发送到总控模块，总控模块接收到允许通行信息后控制验证通过模块进行放行操作，数据处理模块在处理用户实时语音信息时对实时语音信息进行降噪处理。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。