CN107393540A - 一种语音输入消除噪音的方法 - Google Patents
一种语音输入消除噪音的方法 Download PDFInfo
- Publication number
- CN107393540A CN107393540A CN201710593460.3A CN201710593460A CN107393540A CN 107393540 A CN107393540 A CN 107393540A CN 201710593460 A CN201710593460 A CN 201710593460A CN 107393540 A CN107393540 A CN 107393540A
- Authority
- CN
- China
- Prior art keywords
- sound
- sound spectrum
- authority
- user
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 10
- 238000001228 spectrum Methods 0.000 claims abstract description 46
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 230000035945 sensitivity Effects 0.000 claims description 6
- 230000001815 facial effect Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种语音输入消除噪音的方法,包括语音初始化和语音识别两个阶段,其特征是:在初始化阶段,先对具有语音输入权限的用户进行语音身份认证,感知其声谱;在语音识别阶段,只针对身份认证的权限用户的声谱进行识别,然后转化语音为文字输出,其他与权限用户声谱无关的声音一律作为噪音过滤除去。
Description
技术领域
本发明应用于台式电脑、笔记本电脑、手机、平板电脑及其他语音输入的平台。
背景技术
现在语音输入的产品越来越普及,语音输入的应用场景越来越普遍。但语音输入总是或多或少因受到应用场景下的噪音干扰而影响识别率,如何消除场景噪音提高语音识别率是个很关键的问题。
大家都知道,某户人家装置了门禁***,采用脸谱识别开门,用户首先要对门禁***进行初始化身份认证,即让门禁***采集用户脸谱,并感知和认证其脸谱。初始化身份认证后,用户就可以随时使用其脸谱来开门。而其他没有进行脸谱身份认证的人,无论他人在门禁***前如何晃悠,门禁***都不会打开房门。
本方法就是受门禁***脸谱识别的技术启发,语音输入***事先对权限用户进行初始化语音身份认证,感知并记忆其声谱,并合成应用场景噪音,培训语音输入在实际应用场景下侦测、识别和甄别权限用户声谱的灵敏度,这样当用户使用语音输入时,语音***只针对其声谱进行识别,然后转化为文字输出,其它与其声谱无关的声音一律作为背景噪音过滤除去,从而达到了消除噪音提高语音识别率的目的。
发明内容
一种语音输入消除噪音的方法,包括语音初始化和语音识别两个阶段,其特征是:在初始化阶段,先对具有语音输入权限的用户进行语音身份认证,感知其声谱;在语音识别阶段,只针对身份认证的权限用户的声谱进行识别,然后转化语音为文字输出,其他与权限用户声谱无关的声音一律作为噪音过滤除去。
初始化阶段,对权限用户进行语音身份认证,主要是在无人安静环境下对其语音输入的声音进行采集,生成权限用户的声谱。
声音采集分五级进行,分别为大声说、正常说、小声说、细语说、私语说五级,设定各级声音的振幅、频率、波长、声响、音调、音色、声源矢量等各种技术参数的阈值,生成安静环境权限用户的声谱,***感知并记忆权限用户的声谱。
安静环境下的声谱生成后,***自动将权限用户的声谱与事先采集到的各种不同的应用场景噪音进行合成,生成噪音背景下的权限用户声谱,并感知和记忆噪音背景下权限用户的声谱,自动培训语音输入在实际应用场景下侦测、识别和甄别权限用户声谱的灵敏度。
背景噪音的应用场景,有来自机场飞机起飞及降落的噪音场景,火车站售票厅及候车厅的噪音场景,公交、火车、地铁等乘坐时的噪音场景,工厂机器轰鸣的噪音场景,马路街道车水马龙的噪音场景,菜市场、超市的噪音场景、会场的噪音场景等多个场景。
***将安静环境下的权限用户的声谱与各个应用场景进行合成,生成各个应用场景噪音背景下的用户声谱,***就能自动培训感知、识别和甄别出这些噪音场景下的用户声谱的灵敏度。
使用阶段,权限用户在不同的场景下使用语音输入,语音***只针对其声谱进行识别,然后转化语音为文字输出,其它与权限用户声谱无关的声音一律作为背景噪音过滤除去。
例如,当用户在实际应用场景下使用语音输入时,如在机场候机室使用手机语音输入短信文字,或在乘坐地铁时使用手机语音细微声音输入短信文字,或在开会会场使用手机极低微声音发短信,语音输入都能以极高的灵敏度感知用户的声谱,不会受到场景的干扰。
本发明,语音输入不只针对一个权限用户进行语音身份认证,一台手机或一台电脑,多人具有使用权限时,可以随时添加其他权限用户并进行语音身份认证。
图1,语音初始化阶段流程图。
图2,语音识别阶段流程图。
图3,权限用户的声音采集及声谱生成流程图。
具体实施方式:
以用户使用手机为例,其手机中下载安装了本发明的语音输入法,在初次使用语音输入时,如果其没有进行语音初始化,点击语音输入图标进行语音输入时,***会弹出提示框要求用户先进入语音***进行初始化语音身份认证。
语音身份认证时,语音输入***会给定一句话,比如给定【开发智能语音输入法是项非常复杂而艰巨的任务】这句话,要求用户分别用标准普通话及习惯性日常方言述说,并分大声说、正常说、小声说、细语说、私语说五级进行声音采集,如果哪级声音不符合阈值要求,***会要求用户重说并提示提高或降低音量。
在用户完成语音身份认证的同时,***会自动生成安静环境下的用户声谱,感知并记忆其声谱。同时***会自动将用户的声谱与事先采集到的各种不同的应用场景噪音进行合成,生成噪音背景下的用户声谱,并感知和记忆噪音背景下用户的声谱,自动培训语音输入在实际应用场景下侦测、识别和甄别权限用户声谱的灵敏度。这些过程非常的短暂,在一两秒内完成。
当用户完成语音身份认证后,立马就可以使用手机在实地场景下进行语音输入,无论在什么场景下使用,无论采用多大或多小的声音说话,语言输入都能识别其声谱并仅且只识别其声谱,将其声音转换成文字输出,场景中的其他人声与非人声音,语音输入***一概当做噪音给过滤并消除掉。
Claims (1)
1.一种语音输入消除噪音的方法,包括语音初始化和语音识别两个阶段,其特征是:在初始化阶段,先对具有语音输入权限的用户进行语音身份认证,感知其声谱;在语音识别阶段,只针对身份认证的权限用户的声谱进行识别,然后转化语音为文字输出,其他与权限用户声谱无关的声音一律作为噪音过滤除去;
初始化阶段,对权限用户进行语音身份认证,主要是在无人安静环境下对其语音输入的声音进行采集,生成权限用户的声谱;
声音采集分五级进行,分别为大声说、正常说、小声说、细语说、私语说五级,设定各级声音的振幅、频率、波长、声响、音调、音色、声源矢量等各种技术参数的阈值,生成安静环境权限用户的声谱,***感知并记忆权限用户的声谱;
安静环境下的声谱生成后,***自动将权限用户的声谱与事先采集到的各种不同的应用场景噪音进行合成,生成噪音背景下的权限用户声谱,并感知和记忆噪音背景下权限用户的声谱,自动培训语音输入在实际应用场景下侦测、识别和甄别权限用户声谱的灵敏度;
使用阶段,权限用户在不同的场景下使用语音输入,语音***只针对其声谱进行识别,然后转化语音为文字输出,其它与权限用户声谱无关的声音一律作为背景噪音过滤除去。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710593460.3A CN107393540A (zh) | 2017-07-20 | 2017-07-20 | 一种语音输入消除噪音的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710593460.3A CN107393540A (zh) | 2017-07-20 | 2017-07-20 | 一种语音输入消除噪音的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107393540A true CN107393540A (zh) | 2017-11-24 |
Family
ID=60336242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710593460.3A Pending CN107393540A (zh) | 2017-07-20 | 2017-07-20 | 一种语音输入消除噪音的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107393540A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696564A (zh) * | 2020-06-05 | 2020-09-22 | 北京搜狗科技发展有限公司 | 语音处理方法、装置和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923855A (zh) * | 2009-06-17 | 2010-12-22 | 复旦大学 | 文本无关的声纹识别*** |
CN102194455A (zh) * | 2010-03-17 | 2011-09-21 | 博石金(北京)信息技术有限公司 | 一种与说话内容无关的声纹鉴别认证方法 |
CN104811559A (zh) * | 2015-05-05 | 2015-07-29 | 上海青橙实业有限公司 | 降噪方法、通信方法及移动终端 |
CN105684345A (zh) * | 2014-09-30 | 2016-06-15 | 华为技术有限公司 | 身份认证的方法、装置及用户设备 |
CN106926818A (zh) * | 2016-11-21 | 2017-07-07 | 德阳九鼎智远知识产权运营有限公司 | 一种具有记忆功能的智能汽车 |
-
2017
- 2017-07-20 CN CN201710593460.3A patent/CN107393540A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923855A (zh) * | 2009-06-17 | 2010-12-22 | 复旦大学 | 文本无关的声纹识别*** |
CN102194455A (zh) * | 2010-03-17 | 2011-09-21 | 博石金(北京)信息技术有限公司 | 一种与说话内容无关的声纹鉴别认证方法 |
CN105684345A (zh) * | 2014-09-30 | 2016-06-15 | 华为技术有限公司 | 身份认证的方法、装置及用户设备 |
CN104811559A (zh) * | 2015-05-05 | 2015-07-29 | 上海青橙实业有限公司 | 降噪方法、通信方法及移动终端 |
CN106926818A (zh) * | 2016-11-21 | 2017-07-07 | 德阳九鼎智远知识产权运营有限公司 | 一种具有记忆功能的智能汽车 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696564A (zh) * | 2020-06-05 | 2020-09-22 | 北京搜狗科技发展有限公司 | 语音处理方法、装置和介质 |
CN111696564B (zh) * | 2020-06-05 | 2023-08-18 | 北京搜狗科技发展有限公司 | 语音处理方法、装置和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104732978B (zh) | 基于联合深度学习的文本相关的说话人识别方法 | |
CN106778179B (zh) | 一种基于超声波唇语识别的身份认证方法 | |
CN106373575B (zh) | 一种用户声纹模型构建方法、装置及*** | |
CN107886957A (zh) | 一种结合声纹识别的语音唤醒方法及装置 | |
CN109119063A (zh) | 视频配音生成方法、装置、设备及存储介质 | |
CN106898355B (zh) | 一种基于二次建模的说话人识别方法 | |
CN106952649A (zh) | 基于卷积神经网络和频谱图的说话人识别方法 | |
CN107945790A (zh) | 一种情感识别方法和情感识别*** | |
CN107103903A (zh) | 基于人工智能的声学模型训练方法、装置及存储介质 | |
CN109215665A (zh) | 一种基于3d卷积神经网络的声纹识别方法 | |
CN103106717A (zh) | 基于声纹识别的智能仓库声控门卫***及其身份认证方法 | |
US20130304478A1 (en) | Speaker authentication methods and related methods and electronic devices | |
CN112820291A (zh) | 智能家居控制方法、***和存储介质 | |
CN107705791A (zh) | 基于声纹识别的来电身份确认方法、装置和声纹识别*** | |
CN111554302A (zh) | 基于声纹识别的策略调整方法、装置、终端及存储介质 | |
CN111583936A (zh) | 一种智能语音电梯控制方法及装置 | |
Wang et al. | Model-based speech enhancement in the modulation domain | |
CN105679323B (zh) | 一种号码发现方法及*** | |
WO2000077772A2 (en) | Speech and voice signal preprocessing | |
Saifan et al. | A machine learning based deaf assistance digital system | |
Sekkate et al. | Speaker identification for OFDM-based aeronautical communication system | |
CN107393540A (zh) | 一种语音输入消除噪音的方法 | |
CN112151016A (zh) | 一种保护隐私的语音交互***及方法 | |
CN103390406B (zh) | 说话人验证方法、说话人验证的准备方法及电子装置 | |
Vasquez-Correa et al. | Wavelet-based time-frequency representations for automatic recognition of emotions from speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171124 |