CN112233679A - 一种人工智能语音识别*** - Google Patents

一种人工智能语音识别*** Download PDF

Info

Publication number
CN112233679A
CN112233679A CN202011080042.2A CN202011080042A CN112233679A CN 112233679 A CN112233679 A CN 112233679A CN 202011080042 A CN202011080042 A CN 202011080042A CN 112233679 A CN112233679 A CN 112233679A
Authority
CN
China
Prior art keywords
voice information
time
real
module
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011080042.2A
Other languages
English (en)
Other versions
CN112233679B (zh
Inventor
程松林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Fastcall Information Technology Co ltd
Original Assignee
Anhui Fastcall Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Fastcall Information Technology Co ltd filed Critical Anhui Fastcall Information Technology Co ltd
Priority to CN202011080042.2A priority Critical patent/CN112233679B/zh
Publication of CN112233679A publication Critical patent/CN112233679A/zh
Application granted granted Critical
Publication of CN112233679B publication Critical patent/CN112233679B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种人工智能语音识别***,包括内容展示模块、语音录入模块、数据接收模块、数据储存终端、数据处理模块、总控模块与验证通过模块;所述内容展示模块用于展示用户进行语音识别时需要读出的内容信息,所述语音录入模块用于录入用户的实时语音信息,所述数据储存终端中储存有允许通行人员的语音信息,所述数据接收模块用于接收用户的实时语音信息与数据储存终端中的允许通行人员的语音信息,并将实时语音信息与允许通行人员的语音信息发送到数据处理模块;所述数据处理模块用于对实时语音信息与允许通行人员的语音信息进行处理将其处理为允许通行信息。本发明能够更加准确有效的进行语音识别更加值得推广使用。

Description

一种人工智能语音识别***
技术领域
本发明涉及语音识别领域,具体涉及一种人工智能语音识别***。
背景技术
语音识别技术,也被称为自动语音识别其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容,语音识别***即时进行语音内容识别的***。
现有的语音识别***,在使用时,多为单次验证,在验证过程中容易出现验证出错的状况发生,并且录入语音信息时容易受到噪音的影响,给语音识别***的使用带来了一定影响,因此,提出一种人工智能语音识别***。
发明内容
本发明所要解决的技术问题在于:如何解决现有的语音识别***,在使用时,多为单次验证,在验证过程中容易出现验证出错的状况发生,并且录入语音信息时容易受到噪音的影响,给语音识别***的使用带来了一定影响的问题,提供了一种人工智能语音识别***。
本发明是通过以下技术方案解决上述技术问题的,本发明包括内容展示模块、语音录入模块、数据接收模块、数据储存终端、数据处理模块、总控模块与验证通过模块;
所述内容展示模块用于展示用户进行语音识别时需要读出的内容信息,所述语音录入模块用于录入用户的实时语音信息,所述数据储存终端中储存有允许通行人员的语音信息,所述数据接收模块用于接收用户的实时语音信息与数据储存终端中的允许通行人员的语音信息,并将实时语音信息与允许通行人员的语音信息发送到数据处理模块;
所述数据处理模块用于对实时语音信息与允许通行人员的语音信息进行处理将其处理为允许通行信息,允许通行信息被发送到总控模块,所述总控模块接收到允许通行信息后控制验证通过模块进行放行操作。
优选的,所述数据处理模块在处理用户实时语音信息时对实时语音信息进行降噪处理。
优选的,所述降噪处理的具体过程如下:设计一个数字滤波器h(n),使得输入的带噪语音信号与纯净语音信号的误差满足LMS准则,当输入为y(n)时,滤波器输出为
Figure BDA0002718430210000021
根据最小均方误差准则,要使得
Figure BDA0002718430210000022
取极小值,再经过推导,得到维纳滤波器谱估计器:
Figure BDA0002718430210000023
引入先验信噪比和后验信噪比,定义
Figure BDA0002718430210000024
Figure BDA0002718430210000025
谱估计器可以进一步写成:基于先验信噪比的维纳滤波器谱估计器
Figure BDA0002718430210000026
基于后验信噪比的维纳滤波器谱估计器
Figure BDA0002718430210000027
引入平滑参数得到先验信噪比和后验信噪比的关系:
Figure BDA0002718430210000028
(γi(k)-1)表明由地i-1帧的先验信噪比和第i帧的后验信噪比,就可求出第i帧的先验信噪比,一旦已知本帧的先验信噪比,即导出本帧的维纳滤波器传递函数Hi(k),
Figure BDA0002718430210000029
进一步可导出维纳滤波器的输出:
Figure BDA00027184302100000210
最终得到经过降噪的实时语音信息。
优选的,提取出经过降噪的实时语音信息,对经过降噪的实时语音信息进行比对处理,其比对过程如下:
步骤一:提取出内容展示模块展示的内容信息,内容信息为预设文本内容;
步骤二:提取出用户读取第一个文本内容的时间点将其标记为T1时间点,提取出用户读取最后一个文本内容的时间点标记为T2时间点;
步骤三:计算出T2时间点与T1时间点之间的时间差得到实时读取时长Tt;
步骤四:提取出数据储存模块中储存的允许通行人员的语音信息,将其通过步骤一到步骤三得到预设读取时长T
步骤五:再计算出实时读取时长Tt与预设读取时长T之间的差值得到T当T的绝对值大于预设值时即初步验证不通过,当T的绝对值小于预设值时即初步验证通过;
步骤六:初步验证通过之后进行二次验证,二次验证通过之后即生成验证通过信息,即允许通信信息。
优选的,所述二次验证的具体过程如下:
步骤一:提取出经过降噪的实时语音信息,将其进行声纹化处理,得到实时声纹;
步骤二:再提取出允许通行人员的语音信息,将其进行声纹化处理,得到预存声纹;
步骤三:对实时声纹与预存声纹进行相似度对比,得到实时声纹与预存声纹的相似度,将相似度标记为G,当相似度G大于预设相似度时即二次验证通过。
本发明相比现有技术具有以下优点:该人工智能语音识别***,设置了双重验证,能够对语音进行双重识别,有效的避免了验证出错导致的放行非允许通行的人员的状况发生,使得该***的验证效果更好,更加的安全,并且通过对语音内容进行降噪处理,有效减少了语音内容内的噪音对语音识别的影响,让该***能够更加安全准确的进行语音识别,更加值得推广使用。
附图说明
图1是本发明的***框图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本实施例提供一种技术方案:一种人工智能语音识别***,包括内容展示模块、语音录入模块、数据接收模块、数据储存终端、数据处理模块、总控模块与验证通过模块;
所述内容展示模块用于展示用户进行语音识别时需要读出的内容信息,所述语音录入模块用于录入用户的实时语音信息,所述数据储存终端中储存有允许通行人员的语音信息,所述数据接收模块用于接收用户的实时语音信息与数据储存终端中的允许通行人员的语音信息,并将实时语音信息与允许通行人员的语音信息发送到数据处理模块;
所述数据处理模块用于对实时语音信息与允许通行人员的语音信息进行处理将其处理为允许通行信息,允许通行信息被发送到总控模块,所述总控模块接收到允许通行信息后控制验证通过模块进行放行操作。
所述数据处理模块在处理用户实时语音信息时对实时语音信息进行降噪处理。
所述降噪处理的具体过程如下:设计一个数字滤波器h(n),使得输入的带噪语音信号与纯净语音信号的误差满足LMS准则,当输入为y(n)时,滤波器输出为
Figure BDA0002718430210000051
根据最小均方误差准则,要使得
Figure BDA0002718430210000052
取极小值,再经过推导,得到维纳滤波器谱估计器:
Figure BDA0002718430210000053
引入先验信噪比和后验信噪比,定义
Figure BDA0002718430210000054
Figure BDA0002718430210000055
谱估计器可以进一步写成:基于先验信噪比的维纳滤波器谱估计器
Figure BDA0002718430210000056
基于后验信噪比的维纳滤波器谱估计器
Figure BDA0002718430210000057
引入平滑参数得到先验信噪比和后验信噪比的关系:
Figure BDA0002718430210000058
(γi(k)-1)表明由地i-1帧的先验信噪比和第i帧的后验信噪比,就可求出第i帧的先验信噪比,一旦已知本帧的先验信噪比,即导出本帧的维纳滤波器传递函数Hi(k),
Figure BDA0002718430210000059
进一步可导出维纳滤波器的输出:
Figure BDA00027184302100000510
最终得到经过降噪的实时语音信息。
提取出经过降噪的实时语音信息,对经过降噪的实时语音信息进行比对处理,其比对过程如下:
步骤一:提取出内容展示模块展示的内容信息,内容信息为预设文本内容;
步骤二:提取出用户读取第一个文本内容的时间点将其标记为T1时间点,提取出用户读取最后一个文本内容的时间点标记为T2时间点;
步骤三:计算出T2时间点与T1时间点之间的时间差得到实时读取时长Tt;
步骤四:提取出数据储存模块中储存的允许通行人员的语音信息,将其通过步骤一到步骤三得到预设读取时长T
步骤五:再计算出实时读取时长Tt与预设读取时长T之间的差值得到T当T的绝对值大于预设值时即初步验证不通过,当T的绝对值小于预设值时即初步验证通过;
步骤六:初步验证通过之后进行二次验证,二次验证通过之后即生成验证通过信息,即允许通信信息。
所述二次验证的具体过程如下:
步骤一:提取出经过降噪的实时语音信息,将其进行声纹化处理,得到实时声纹;
步骤二:再提取出允许通行人员的语音信息,将其进行声纹化处理,得到预存声纹;
步骤三:对实时声纹与预存声纹进行相似度对比,得到实时声纹与预存声纹的相似度,将相似度标记为G,当相似度G大于预设相似度时即二次验证通过。
综上,本发明在使用时,内容展示模块用于展示用户进行语音识别时需要读出的内容信息,语音录入模块用于录入用户的实时语音信息,数据储存终端中储存有允许通行人员的语音信息,数据接收模块用于接收用户的实时语音信息与数据储存终端中的允许通行人员的语音信息,并将实时语音信息与允许通行人员的语音信息发送到数据处理模块,数据处理模块用于对实时语音信息与允许通行人员的语音信息进行处理将其处理为允许通行信息,允许通行信息被发送到总控模块,总控模块接收到允许通行信息后控制验证通过模块进行放行操作,数据处理模块在处理用户实时语音信息时对实时语音信息进行降噪处理。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (5)

1.一种人工智能语音识别***,其特征在于,包括内容展示模块、语音录入模块、数据接收模块、数据储存终端、数据处理模块、总控模块与验证通过模块;
所述内容展示模块用于展示用户进行语音识别时需要读出的内容信息,所述语音录入模块用于录入用户的实时语音信息,所述数据储存终端中储存有允许通行人员的语音信息,所述数据接收模块用于接收用户的实时语音信息与数据储存终端中的允许通行人员的语音信息,并将实时语音信息与允许通行人员的语音信息发送到数据处理模块;
所述数据处理模块用于对实时语音信息与允许通行人员的语音信息进行处理将其处理为允许通行信息,允许通行信息被发送到总控模块,所述总控模块接收到允许通行信息后控制验证通过模块进行放行操作。
2.根据权利要求1所述的一种人工智能语音识别***,其特征在于:所述数据处理模块在处理用户实时语音信息时对实时语音信息进行降噪处理。
3.根据权利要求2所述的一种人工智能语音识别***,其特征在于:所述降噪处理的具体过程如下:设计一个数字滤波器h(n),使得输入的带噪语音信号与纯净语音信号的误差满足LMS准则,当输入为y(n)时,滤波器输出为
Figure FDA0002718430200000011
根据最小均方误差准则,要使得
Figure FDA0002718430200000012
取极小值,再经过推导,得到维纳滤波器谱估计器:
Figure FDA0002718430200000013
引入先验信噪比和后验信噪比,定义
Figure FDA0002718430200000014
Figure FDA0002718430200000015
谱估计器可以进一步写成:基于先验信噪比的维纳滤波器谱估计器
Figure FDA0002718430200000016
基于后验信噪比的维纳滤波器谱估计器
Figure FDA0002718430200000017
引入平滑参数得到先验信噪比和后验信噪比的关系:
Figure FDA0002718430200000021
表明由地i-1帧的先验信噪比和第i帧的后验信噪比,就可求出第i帧的先验信噪比,一旦已知本帧的先验信噪比,即导出本帧的维纳滤波器传递函数Hi(k),
Figure FDA0002718430200000022
进一步可导出维纳滤波器的输出:
Figure FDA0002718430200000023
最终得到经过降噪的实时语音信息。
4.根据权利要求3所述的一种人工智能语音识别***,其特征在于:提取出经过降噪的实时语音信息,对经过降噪的实时语音信息进行比对处理,其比对过程如下:
步骤一:提取出内容展示模块展示的内容信息,内容信息为预设文本内容;
步骤二:提取出用户读取第一个文本内容的时间点将其标记为T1时间点,提取出用户读取最后一个文本内容的时间点标记为T2时间点;
步骤三:计算出T2时间点与T1时间点之间的时间差得到实时读取时长Tt;
步骤四:提取出数据储存模块中储存的允许通行人员的语音信息,将其通过步骤一到步骤三得到预设读取时长T
步骤五:再计算出实时读取时长Tt与预设读取时长T之间的差值得到T当T的绝对值大于预设值时即初步验证不通过,当T的绝对值小于预设值时即初步验证通过;
步骤六:初步验证通过之后进行二次验证,二次验证通过之后即生成验证通过信息,即允许通信信息。
5.根据权利要求4所述的一种人工智能语音识别***,其特征在于:所述二次验证的具体过程如下:
步骤一:提取出经过降噪的实时语音信息,将其进行声纹化处理,得到实时声纹;
步骤二:再提取出允许通行人员的语音信息,将其进行声纹化处理,得到预存声纹;
步骤三:对实时声纹与预存声纹进行相似度对比,得到实时声纹与预存声纹的相似度,将相似度标记为G,当相似度G大于预设相似度时即二次验证通过。
CN202011080042.2A 2020-10-10 2020-10-10 一种人工智能语音识别*** Active CN112233679B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011080042.2A CN112233679B (zh) 2020-10-10 2020-10-10 一种人工智能语音识别***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011080042.2A CN112233679B (zh) 2020-10-10 2020-10-10 一种人工智能语音识别***

Publications (2)

Publication Number Publication Date
CN112233679A true CN112233679A (zh) 2021-01-15
CN112233679B CN112233679B (zh) 2024-02-13

Family

ID=74111990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011080042.2A Active CN112233679B (zh) 2020-10-10 2020-10-10 一种人工智能语音识别***

Country Status (1)

Country Link
CN (1) CN112233679B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885168A (zh) * 2021-01-21 2021-06-01 绍兴市人民医院 一种基于ai的沉浸式言语反馈训练***

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853666A (zh) * 2009-03-30 2010-10-06 华为技术有限公司 一种语音增强的方法和装置
CN102238189A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及***
CN102708867A (zh) * 2012-05-30 2012-10-03 北京正鹰科技有限责任公司 一种基于声纹和语音的防录音假冒身份识别方法及***
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
CN103679452A (zh) * 2013-06-20 2014-03-26 腾讯科技(深圳)有限公司 支付验证方法、装置及***
CN103778921A (zh) * 2013-12-28 2014-05-07 中国人民解放军***乌鲁木齐总医院 消除雷达采集到的语音中的不均匀噪声的方法
CN105280193A (zh) * 2015-07-20 2016-01-27 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于mmse误差准则的先验信噪比估计方法
CN107967918A (zh) * 2016-10-19 2018-04-27 河南蓝信科技股份有限公司 一种增强语音信号清晰度的方法
CN108986288A (zh) * 2018-09-11 2018-12-11 黑龙江大学 一种实验室基于人脸识别和语音识别的双门禁***
CN110517697A (zh) * 2019-08-20 2019-11-29 中信银行股份有限公司 用于交互式语音应答的提示音智能打断装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853666A (zh) * 2009-03-30 2010-10-06 华为技术有限公司 一种语音增强的方法和装置
CN102238189A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及***
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
CN102708867A (zh) * 2012-05-30 2012-10-03 北京正鹰科技有限责任公司 一种基于声纹和语音的防录音假冒身份识别方法及***
CN103679452A (zh) * 2013-06-20 2014-03-26 腾讯科技(深圳)有限公司 支付验证方法、装置及***
CN103778921A (zh) * 2013-12-28 2014-05-07 中国人民解放军***乌鲁木齐总医院 消除雷达采集到的语音中的不均匀噪声的方法
CN105280193A (zh) * 2015-07-20 2016-01-27 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于mmse误差准则的先验信噪比估计方法
CN107967918A (zh) * 2016-10-19 2018-04-27 河南蓝信科技股份有限公司 一种增强语音信号清晰度的方法
CN108986288A (zh) * 2018-09-11 2018-12-11 黑龙江大学 一种实验室基于人脸识别和语音识别的双门禁***
CN110517697A (zh) * 2019-08-20 2019-11-29 中信银行股份有限公司 用于交互式语音应答的提示音智能打断装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885168A (zh) * 2021-01-21 2021-06-01 绍兴市人民医院 一种基于ai的沉浸式言语反馈训练***

Also Published As

Publication number Publication date
CN112233679B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
JP6857699B2 (ja) 音声対話設備のウェイクアップ方法、装置、設備、記憶媒体、及びプログラム
CN108766441B (zh) 一种基于离线声纹识别和语音识别的语音控制方法及装置
CN110827801B (zh) 一种基于人工智能的自动语音识别方法及***
CN106373575B (zh) 一种用户声纹模型构建方法、装置及***
US6671672B1 (en) Voice authentication system having cognitive recall mechanism for password verification
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
CN106790054A (zh) 基于人脸识别和声纹识别的交互式认证***及方法
US5664058A (en) Method of training a speaker-dependent speech recognizer with automated supervision of training sufficiency
US20060020460A1 (en) Voice authentication system
CN109036412A (zh) 语音唤醒方法和***
DE2918533A1 (de) Spracherkennungssystem
JPH06175680A (ja) 最も近い隣接距離を使用した発声者確認装置
JPH0354600A (ja) 不明人物の同一性検証方法
CN109616100A (zh) 语音识别模型的生成方法及其装置
TW546632B (en) System and method for efficient storage of voice recognition models
CN109785834B (zh) 一种基于验证码的语音数据样本采集***及其方法
WO2021007856A1 (zh) 一种身份验证方法、终端设备、存储介质
CN108074577A (zh) 身份认证方法及身份认证***
CN112233679B (zh) 一种人工智能语音识别***
US20030120490A1 (en) Method for creating a speech database for a target vocabulary in order to train a speech recorgnition system
JP2003535366A (ja) パターン分類のためのランクに基づく拒否
CN113611281A (zh) 一种语音合成方法、装置、电子设备及存储介质
CN110503943A (zh) 一种语音交互方法以及语音交互***
CN110298150B (zh) 一种基于语音识别的身份验证方法及***
CN112597889A (zh) 一种基于人工智能的情绪处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant