CN107393540A

CN107393540A - 一种语音输入消除噪音的方法

Info

Publication number: CN107393540A
Application number: CN201710593460.3A
Authority: CN
Inventors: 任文
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2017-11-24

Abstract

一种语音输入消除噪音的方法，包括语音初始化和语音识别两个阶段，其特征是：在初始化阶段，先对具有语音输入权限的用户进行语音身份认证，感知其声谱；在语音识别阶段，只针对身份认证的权限用户的声谱进行识别，然后转化语音为文字输出，其他与权限用户声谱无关的声音一律作为噪音过滤除去。

Description

一种语音输入消除噪音的方法

技术领域

本发明应用于台式电脑、笔记本电脑、手机、平板电脑及其他语音输入的平台。

背景技术

现在语音输入的产品越来越普及，语音输入的应用场景越来越普遍。但语音输入总是或多或少因受到应用场景下的噪音干扰而影响识别率，如何消除场景噪音提高语音识别率是个很关键的问题。

大家都知道，某户人家装置了门禁***，采用脸谱识别开门，用户首先要对门禁***进行初始化身份认证，即让门禁***采集用户脸谱，并感知和认证其脸谱。初始化身份认证后，用户就可以随时使用其脸谱来开门。而其他没有进行脸谱身份认证的人，无论他人在门禁***前如何晃悠，门禁***都不会打开房门。

本方法就是受门禁***脸谱识别的技术启发，语音输入***事先对权限用户进行初始化语音身份认证，感知并记忆其声谱，并合成应用场景噪音，培训语音输入在实际应用场景下侦测、识别和甄别权限用户声谱的灵敏度，这样当用户使用语音输入时，语音***只针对其声谱进行识别，然后转化为文字输出，其它与其声谱无关的声音一律作为背景噪音过滤除去，从而达到了消除噪音提高语音识别率的目的。

发明内容

初始化阶段，对权限用户进行语音身份认证，主要是在无人安静环境下对其语音输入的声音进行采集，生成权限用户的声谱。

声音采集分五级进行，分别为大声说、正常说、小声说、细语说、私语说五级，设定各级声音的振幅、频率、波长、声响、音调、音色、声源矢量等各种技术参数的阈值，生成安静环境权限用户的声谱，***感知并记忆权限用户的声谱。

安静环境下的声谱生成后，***自动将权限用户的声谱与事先采集到的各种不同的应用场景噪音进行合成，生成噪音背景下的权限用户声谱，并感知和记忆噪音背景下权限用户的声谱，自动培训语音输入在实际应用场景下侦测、识别和甄别权限用户声谱的灵敏度。

背景噪音的应用场景，有来自机场飞机起飞及降落的噪音场景，火车站售票厅及候车厅的噪音场景，公交、火车、地铁等乘坐时的噪音场景，工厂机器轰鸣的噪音场景，马路街道车水马龙的噪音场景，菜市场、超市的噪音场景、会场的噪音场景等多个场景。

***将安静环境下的权限用户的声谱与各个应用场景进行合成，生成各个应用场景噪音背景下的用户声谱，***就能自动培训感知、识别和甄别出这些噪音场景下的用户声谱的灵敏度。

使用阶段，权限用户在不同的场景下使用语音输入，语音***只针对其声谱进行识别，然后转化语音为文字输出，其它与权限用户声谱无关的声音一律作为背景噪音过滤除去。

例如，当用户在实际应用场景下使用语音输入时，如在机场候机室使用手机语音输入短信文字，或在乘坐地铁时使用手机语音细微声音输入短信文字，或在开会会场使用手机极低微声音发短信，语音输入都能以极高的灵敏度感知用户的声谱，不会受到场景的干扰。

本发明，语音输入不只针对一个权限用户进行语音身份认证，一台手机或一台电脑，多人具有使用权限时，可以随时添加其他权限用户并进行语音身份认证。

图1，语音初始化阶段流程图。

图2，语音识别阶段流程图。

图3，权限用户的声音采集及声谱生成流程图。

具体实施方式：

以用户使用手机为例，其手机中下载安装了本发明的语音输入法，在初次使用语音输入时，如果其没有进行语音初始化，点击语音输入图标进行语音输入时，***会弹出提示框要求用户先进入语音***进行初始化语音身份认证。

语音身份认证时，语音输入***会给定一句话，比如给定【开发智能语音输入法是项非常复杂而艰巨的任务】这句话，要求用户分别用标准普通话及习惯性日常方言述说，并分大声说、正常说、小声说、细语说、私语说五级进行声音采集，如果哪级声音不符合阈值要求，***会要求用户重说并提示提高或降低音量。

在用户完成语音身份认证的同时，***会自动生成安静环境下的用户声谱，感知并记忆其声谱。同时***会自动将用户的声谱与事先采集到的各种不同的应用场景噪音进行合成，生成噪音背景下的用户声谱，并感知和记忆噪音背景下用户的声谱，自动培训语音输入在实际应用场景下侦测、识别和甄别权限用户声谱的灵敏度。这些过程非常的短暂，在一两秒内完成。

当用户完成语音身份认证后，立马就可以使用手机在实地场景下进行语音输入，无论在什么场景下使用，无论采用多大或多小的声音说话，语言输入都能识别其声谱并仅且只识别其声谱，将其声音转换成文字输出，场景中的其他人声与非人声音，语音输入***一概当做噪音给过滤并消除掉。

Claims

1.一种语音输入消除噪音的方法，包括语音初始化和语音识别两个阶段，其特征是：在初始化阶段，先对具有语音输入权限的用户进行语音身份认证，感知其声谱；在语音识别阶段，只针对身份认证的权限用户的声谱进行识别，然后转化语音为文字输出，其他与权限用户声谱无关的声音一律作为噪音过滤除去；

初始化阶段，对权限用户进行语音身份认证，主要是在无人安静环境下对其语音输入的声音进行采集，生成权限用户的声谱；

声音采集分五级进行，分别为大声说、正常说、小声说、细语说、私语说五级，设定各级声音的振幅、频率、波长、声响、音调、音色、声源矢量等各种技术参数的阈值，生成安静环境权限用户的声谱，***感知并记忆权限用户的声谱；

安静环境下的声谱生成后，***自动将权限用户的声谱与事先采集到的各种不同的应用场景噪音进行合成，生成噪音背景下的权限用户声谱，并感知和记忆噪音背景下权限用户的声谱，自动培训语音输入在实际应用场景下侦测、识别和甄别权限用户声谱的灵敏度；