CN106653003A - 语音识别方法及装置 - Google Patents
语音识别方法及装置 Download PDFInfo
- Publication number
- CN106653003A CN106653003A CN201611214799.XA CN201611214799A CN106653003A CN 106653003 A CN106653003 A CN 106653003A CN 201611214799 A CN201611214799 A CN 201611214799A CN 106653003 A CN106653003 A CN 106653003A
- Authority
- CN
- China
- Prior art keywords
- tone
- posterior probability
- noise
- represent
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000001228 spectrum Methods 0.000 claims abstract description 31
- 230000009467 reduction Effects 0.000 claims abstract description 17
- 230000007613 environmental effect Effects 0.000 claims description 49
- 230000008569 process Effects 0.000 claims description 25
- 238000011946 reduction process Methods 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 210000004218 nerve net Anatomy 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/022—Demisyllables, biphones or triphones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明是关于一种语音识别方法及装置,其中,方法包括:接收用户输入的带噪声语音信息;将带噪声语音信息按照发音划分成至少一个单音子,计算得到每个单音子对应的第一后验概率;根据当前环境噪声和每个单音子对应的第一后验概率对带噪声语音信息进行降噪处理,得到降噪处理后的语音信息,以及语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比;根据第一后验概率和正常语音与环境噪音之间的能量比,对降噪处理后的语音信息进行识别,得到每个三音子对应的第二后验概率;根据第二后验概率确定目标识别结果,并对目标识别结果进行解码处理,得到对应的文字信息。通过该技术方案,可以避免损伤正常语音,从而提高语音识别的准确性。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法及装置。
背景技术
目前的远场语音识别***,在对语音信息进行识别之前,至进行一次降噪处理,即根据环境噪声对接收到的带噪语音进行降噪,然后对降噪后的语音进行内容识别,但是,在降噪的同时,有可能损伤正常语音,导致后续识别不准确。
发明内容
本发明实施例提供一种语音识别方法及装置,用以实现提高语音识别的准确性,从而提升用户的使用体验。
根据本发明实施例的第一方面,提供一种语音识别方法,包括:
接收用户输入的带噪声语音信息;
将所述带噪声语音信息按照发音划分成至少一个单音子,并计算得到每个单音子对应的第一后验概率;单音子是指如M、EI3、D、I2等,中文语音识别常使用的单音子为138个左右。
获取当前环境噪声,并根据所述当前环境噪声和所述每个单音子对应的第一后验概率对所述带噪声语音信息进行降噪处理,得到降噪处理后的语音信息,以及所述语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比;常用的语音频带数通常为40个。
根据所述第一后验概率和所述正常语音与环境噪音之间的能量比,对所述降噪处理后的语音信息进行识别,得到每个三音子对应的第二后验概率;其中,三音子如:SIL-M-EI3、EI3-D-I4等。
根据所述第二后验概率确定目标识别结果,并对所述目标识别结果进行解码处理,得到对应的文字信息。
在该实施例中,首先计算带噪声语音信息中每个单音子对应的第一后验概率,进而根据第一后验概率和当前环境噪声对带噪声语音信息进行降噪处理,得到降噪处理后的语音信息,再根据语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比,对降噪后的语音信息进行识别,得到每个三音子对应的第二后验概率,这样,根据语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比对降噪后的语音信息进行识别可以避免损伤正常语音,从而提高语音识别的准确性。
在一个实施例中,所述对所述目标识别结果进行解码处理,得到对应的文字信息,包括:
通过隐马尔可夫模型和Viterbi解码算法对所述目标识别结果进行解码处理得到对应的文字信息。
在该实施例中,通过隐马尔可夫模型和Viterbi解码算法对所述目标识别结果进行解码处理得到对应的文字信息,这样,可以进一步提高语音信息识别的准确性。
在一个实施例中,所述将所述带噪声语音信息按照发音划分成至少一个单音子,并计算得到每个单音子对应的第一后验概率,包括:
将所述带噪声语音信息按照发音划分成至少一个单音子,并通过第一深度神经网络模型计算得到所述每个单音子对应的第一后验概率,其中,所述第一后验概率的计算公式为:
p(si|xt),
其中,i=1-138,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率。
在一个实施例中,根据以下计算公式计算得到语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比:
p(rj,si|xt)=p(si|xt)p(rj|si,xt)
其中,i=1~138,j=1~40,其中,rj表示所述音频频谱中第j个频带中正常语音与环境噪音之间的能量比,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率,p(rj,si|xt)表示时刻t根据观测到的所述语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比。
在一个实施例中,根据以下计算公式计算得到每个三音子对应的第二后验概率:
p(ck,rj,si|xt)=p(si|xt)p(rj|si,xt)p(ck|rj,si,xt)
i=1~138,j=1~40,k=1~3513,其中,ck表示第k个三音子,rj表示所述音频频谱中第j个频带中正常语音与环境噪音之间的能量比,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率,p(rj,si|xt)表示时刻t根据观测到的所述语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比,p(ck,rj,si|xt)表示根据t时刻观测到的语音特征、第一后验概率、各个频带中正常语音与环境噪音之间的能量比得到的第k个三音子的第二后验概率。
根据本发明实施例的第二方面,提供一种语音识别装置,包括:
接收模块,用于接收用户输入的带噪声语音信息;
第一识别模块,用于将所述带噪声语音信息按照发音划分成至少一个单音子,并计算得到每个单音子对应的第一后验概率;
降噪模块,用于获取当前环境噪声,并根据所述当前环境噪声和所述每个单音子对应的第一后验概率对所述带噪声语音信息进行降噪处理,得到降噪处理后的语音信息,以及所述语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比;
第二识别模块,用于根据所述第一后验概率和所述正常语音与环境噪音之间的能量比,对所述降噪处理后的语音信息进行识别,得到每个三音子对应的第二后验概率;
处理模块,用于根据所述第二后验概率确定目标识别结果,并对所述目标识别结果进行解码处理,得到对应的文字信息。
在一个实施例中,所述处理模块用于:
通过隐马尔可夫模型和Viterbi解码算法对所述目标识别结果进行解码处理得到对应的文字信息。
在一个实施例中,所述第一识别模块用于:
将所述带噪声语音信息按照发音划分成至少一个单音子,并通过第一深度神经网络模型计算得到所述每个单音子对应的第一后验概率,其中,所述第一后验概率的计算公式为:
p(si|xt),
其中,i=1-138,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率。
在一个实施例中,根据以下计算公式计算得到语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比:
p(rj,si|xt)=p(si|xt)p(rj|si,xt)
其中,i=1~138,j=1~40,其中,rj表示所述音频频谱中第j个频带中正常语音与环境噪音之间的能量比,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率,p(rj,si|xt)表示时刻t根据观测到的所述语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比。
在一个实施例中,根据以下计算公式计算得到每个三音子对应的第二后验概率:
p(ck,rj,si|xt)=p(si|xt)p(rj|si,xt)p(ck|rj,si,xt)
i=1~138,j=1~40,k=1~3513,其中,ck表示第k个三音子,rj表示所述音频频谱中第j个频带中正常语音与环境噪音之间的能量比,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率,p(rj,si|xt)表示时刻t根据观测到的所述语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比,p(ck,rj,si|xt)表示根据t时刻观测到的语音特征、第一后验概率、各个频带中正常语音与环境噪音之间的能量比得到的第k个三音子的第二后验概率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种语音识别方法的流程图。
图2是根据一示例性实施例示出的另一种语音识别方法的流程图。
图3是根据一示例性实施例示出的一种语音识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种语音识别方法的流程图。该语音识别方法应用于终端设备中,该终端设备可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等任一具有语音控制功能的设备。如图1所示,该方法包括步骤S101-S105:
在步骤S101中,接收用户输入的带噪声语音信息;
在步骤S102中,将带噪声语音信息按照发音划分成至少一个单音子,并计算得到每个单音子对应的第一后验概率;音素是指如M、EI3、D、I4等,中文语音识别常使用的音素为138个左右。
在一个实施例中,将带噪声语音信息按照发音划分成至少一个单音子,并计算得到每个单音子对应的第一后验概率,包括:
将带噪声语音信息按照发音划分成至少一个单音子,并通过第一深度神经网络模型计算得到每个单音子对应的第一后验概率,其中,第一后验概率的计算公式为:
p(si|xt),
其中,i=1-138,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的语音特征得到的第i个单音子的第一后验概率。
在步骤S103中,获取当前环境噪声,并根据当前环境噪声和每个单音子对应的第一后验概率对带噪声语音信息进行降噪处理,得到降噪处理后的语音信息,以及语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比;常用的语音频带数通常为40个。
在一个实施例中,根据以下计算公式计算得到语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比:
p(rj,si|xt)=p(si|xt)p(rj|si,xt)
其中,i=1~138,j=1~40,其中,rj表示音频频谱中第j个频带中正常语音与环境噪音之间的能量比,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的语音特征得到的第i个单音子的第一后验概率,p(rj,si|xt)表示时刻t根据观测到的语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比。
在步骤S104中,根据第一后验概率和正常语音与环境噪音之间的能量比,对降噪处理后的语音信息进行识别,得到每个三音子对应的第二后验概率;其中,三音子如:SIL-M-EI3、EI3-D-I2等。
在一个实施例中,根据以下计算公式计算得到每每个三音子对应的第二后验概率:
p(ck,rj,si|xt)=p(si|xt)p(rj|si,xt)p(ck|rj,si,xt)
i=1~138,j=1~40,k=1~3513,其中,ck表示第k个三音子,rj表示音频频谱中第j个频带中正常语音与环境噪音之间的能量比,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的语音特征得到的第i个单音子的第一后验概率,p(rj,si|xt)表示时刻t根据观测到的语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比,p(ck,rj,si|xt)表示根据t时刻观测到的语音特征、第一后验概率、各个频带中正常语音与环境噪音之间的能量比得到的第二后验概率。
在步骤S105中,根据第二后验概率确定目标识别结果,并对目标识别结果进行解码处理,得到对应的文字信息。
在该实施例中,首先计算带噪声语音信息中每个单音子对应的第一后验概率,进而根据第一后验概率和当前环境噪声对带噪声语音信息进行降噪处理,得到降噪处理后的语音信息,再根据降噪处理后的语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比,对降噪后的语音信息进行识别,得到每个三音子对应的第二后验概率,这样,根据语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比对降噪后的语音信息进行识别可以避免损伤正常语音,从而提高语音识别的准确性。
图2是根据一示例性实施例示出的另一种语音识别方法的流程图。
如图2所示,在一个实施例中,上述步骤S105包括步骤S201:
在步骤S201中,通过隐马尔可夫模型对目标识别结果进行解码处理得到对应的文字信息。
在该实施例中,通过隐马尔可夫模型和Viterbi解码算法对所述目标识别结果进行解码处理得到对应的文字信息,这样,可以进一步提高语音信息识别的准确性。
下述为本发明装置实施例,可以用于执行本发明方法实施例。
图3是根据一示例性实施例示出的一种语音识别装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图3所示,该语音识别装置包括:
接收模块31,用于接收用户输入的带噪声语音信息;
第一识别模块32,用于将所述带噪声语音信息按照发音划分成至少一个单音子,并计算得到每个单音子对应的第一后验概率;
在一个实施例中,所述第一识别模块32用于:
将所述带噪声语音信息按照发音划分成至少一个单音子,并通过第一深度神经网络模型计算得到所述每个单音子对应的第一后验概率,其中,所述第一后验概率的计算公式为:
p(si|xt),
其中,i=1-138,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率。
降噪模块33,用于获取当前环境噪声,并根据所述当前环境噪声和所述每个单音子对应的第一后验概率对所述带噪声语音信息进行降噪处理,得到降噪处理后的语音信息,以及所述语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比;
在一个实施例中,根据以下计算公式计算得到语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比:
p(rj,si|xt)=p(si|xt)p(rj|si,xt)
其中,i=1~138,j=1~40,其中,rj表示所述音频频谱中第j个频带中正常语音与环境噪音之间的能量比,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率,p(rj,si|xt)表示时刻t根据观测到的所述语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比。
第二识别模块34,用于根据所述第一后验概率和所述正常语音与环境噪音之间的能量比,对所述降噪处理后的语音信息进行识别,得到每每个三音子对应的第二后验概率;
在一个实施例中,根据以下计算公式计算得到每每个三音子对应的第二后验概率:
p(ck,rj,si|xt)=p(si|xt)p(rj|si,xt)p(ck|rj,si,xt)
i=1~138,j=1~40,k=1~3513,其中,ck表示第k个三音子,rj表示所述音频频谱中第j个频带中正常语音与环境噪音之间的能量比,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率,p(rj,si|xt)表示时刻t根据观测到的所述语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比,p(ck,rj,si|xt)表示根据t时刻观测到的语音特征、第一后验概率、各个频带中正常语音与环境噪音之间的能量比得到的第k个三音子的第二后验概率。
处理模块35,用于根据所述第二后验概率确定目标识别结果,并对所述目标识别结果进行解码处理,得到对应的文字信息。
在该实施例中,首先计算带噪声语音信息中每个单音子对应的第一后验概率,进而根据第一后验概率和当前环境噪声对带噪声语音信息进行降噪处理,得到降噪处理后的语音信息,再根据降噪处理后的语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比,对降噪后的语音信息进行识别,得到的第二后验概率,这样,根据语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比对降噪后的语音信息进行识别可以避免损伤正常语音,从而提高语音识别的准确性。
在一个实施例中,所述处理模块35用于:
通过隐马尔可夫模型和Viterbi解码算法对所述目标识别结果进行解码处理得到对应的文字信息。
在该实施例中,通过隐马尔可夫模型和Viterbi解码算法对所述目标识别结果进行解码处理得到对应的文字信息,这样,可以进一步提高语音信息识别的准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
接收用户输入的带噪声语音信息;
将所述带噪声语音信息按照发音划分成至少一个单音子,并计算得到每个单音子对应的第一后验概率;
获取当前环境噪声,并根据所述当前环境噪声和所述每个单音子对应的第一后验概率对所述带噪声语音信息进行降噪处理,得到降噪处理后的语音信息,以及所述语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比;
根据所述第一后验概率和所述正常语音与环境噪音之间的能量比,对所述降噪处理后的语音信息进行识别,得到每个三音子对应的第二后验概率;
根据所述第二后验概率确定目标识别结果,并对所述目标识别结果进行解码处理,得到对应的文字信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标识别结果进行解码处理,得到对应的文字信息,包括:
通过隐马尔可夫模型和Viterbi解码算法对所述目标识别结果进行解码处理得到对应的文字信息。
3.根据权利要求1所述的方法,其特征在于,所述将所述带噪声语音信息按照发音划分成至少一个单音子,并计算得到每个单音子对应的第一后验概率,包括:
将所述带噪声语音信息按照发音划分成至少一个单音子,并通过第一深度神经网络模型计算得到所述每个单音子对应的第一后验概率,其中,所述第一后验概率的计算公式为:
p(si|xt),
其中,i=1-138,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率。
4.根据权利要求1所述的方法,其特征在于,根据以下计算公式计算得到语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比:
p(rj,si|xt)=p(si|xt)p(rj|si,xt)
其中,i=1~138,j=1~40,其中,rj表示所述音频频谱中第j个频带中正常语音与环境噪音之间的能量比,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率,p(rj,si|xt)表示时刻t根据观测到的所述语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比。
5.根据权利要求1所述的方法,其特征在于,根据以下计算公式计算得到每个三音子对应的第二后验概率:
p(ck,rj,si|xt)=p(si|xt)p(rj|si,xt)p(ck|rj,si,xt)
i=1~138,j=1~40,k=1~3513,其中,ck表示第k个三音子,rj表示所述音频频谱中第j个频带中正常语音与环境噪音之间的能量比,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率,p(rj,si|xt)表示时刻t根据观测到的所述语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比,p(ck,rj,si|xt)表示根据t时刻观测到的语音特征、第一后验概率、各个频带中正常语音与环境噪音之间的能量比得到的第k个三音子的第二后验概率。
6.一种语音识别装置,其特征在于,包括:
接收模块,用于接收用户输入的带噪声语音信息;
第一识别模块,用于将所述带噪声语音信息按照发音划分成至少一个单音子,并计算得到每个单音子对应的第一后验概率;
降噪模块,用于获取当前环境噪声,并根据所述当前环境噪声和所述每个单音子对应的第一后验概率对所述带噪声语音信息进行降噪处理,得到降噪处理后的语音信息,以及所述语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比;
第二识别模块,用于根据所述第一后验概率和所述正常语音与环境噪音之间的能量比,对所述降噪处理后的语音信息进行识别,得到每个三音子对应的第二后验概率;
处理模块,用于根据所述第二后验概率确定目标识别结果,并对所述目标识别结果进行解码处理,得到对应的文字信息。
7.根据权利要求6所述的装置,其特征在于,所述处理模块用于:
通过隐马尔可夫模型和Viterbi解码算法对所述目标识别结果进行解码处理得到对应的文字信息。
8.根据权利要求6所述的装置,其特征在于,所述第一识别模块用于:
将所述带噪声语音信息按照发音划分成至少一个单音子,并通过第一深度神经网络模型计算得到所述每个单音子对应的第一后验概率,其中,所述第一后验概率的计算公式为:
p(si|xt),
其中,i=1-138,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率。
9.根据权利要求6所述的装置,其特征在于,根据以下计算公式计算得到语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比:
p(rj,si|xt)=p(si|xt)p(rj|si,xt)
其中,i=1~138,j=1~40,其中,rj表示所述音频频谱中第j个频带中正常语音与环境噪音之间的能量比,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率,p(rj,si|xt)表示时刻t根据观测到的所述语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比。
10.根据权利要求6所述的装置,其特征在于,根据以下计算公式计算得到每个三音子对应的第二后验概率:
p(ck,rj,si|xt)=p(si|xt)p(rj|si,xt)p(ck|rj,si,xt)
i=1~138,j=1~40,k=1~3513,其中,ck表示第k个三音子,rj表示所述音频频谱中第j个频带中正常语音与环境噪音之间的能量比,xt表示t时刻观测到带噪声语音信息的语音特征,si表示第i个单音子,p(si|xt)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率,p(rj,si|xt)表示时刻t根据观测到的所述语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比,p(ck,rj,si|xt)表示根据t时刻观测到的语音特征、第一后验概率、各个频带中正常语音与环境噪音之间的能量比得到的第k个三音子的第二后验概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611214799.XA CN106653003A (zh) | 2016-12-26 | 2016-12-26 | 语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611214799.XA CN106653003A (zh) | 2016-12-26 | 2016-12-26 | 语音识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106653003A true CN106653003A (zh) | 2017-05-10 |
Family
ID=58827872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611214799.XA Pending CN106653003A (zh) | 2016-12-26 | 2016-12-26 | 语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106653003A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229659A (zh) * | 2017-12-29 | 2018-06-29 | 陕西科技大学 | 基于深度学习的钢琴单键音识别方法 |
CN108389576A (zh) * | 2018-01-10 | 2018-08-10 | 苏州思必驰信息科技有限公司 | 压缩后的语音识别模型的优化方法及*** |
WO2019214361A1 (zh) * | 2018-05-08 | 2019-11-14 | 腾讯科技(深圳)有限公司 | 语音信号中关键词的检测方法、装置、终端及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009123387A1 (en) * | 2008-03-31 | 2009-10-08 | Transono Inc. | Procedure for processing noisy speech signals, and apparatus and computer program therefor |
CN101710490A (zh) * | 2009-11-20 | 2010-05-19 | 安徽科大讯飞信息科技股份有限公司 | 语音评测的噪声补偿方法及装置 |
CN105869624A (zh) * | 2016-03-29 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
-
2016
- 2016-12-26 CN CN201611214799.XA patent/CN106653003A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009123387A1 (en) * | 2008-03-31 | 2009-10-08 | Transono Inc. | Procedure for processing noisy speech signals, and apparatus and computer program therefor |
CN101710490A (zh) * | 2009-11-20 | 2010-05-19 | 安徽科大讯飞信息科技股份有限公司 | 语音评测的噪声补偿方法及装置 |
CN105869624A (zh) * | 2016-03-29 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
Non-Patent Citations (1)
Title |
---|
MASATO MIMURA等: "《Deep autoencoders augmented with phone-class feature for reverberant speech recognition》", 《ICASSP2015》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229659A (zh) * | 2017-12-29 | 2018-06-29 | 陕西科技大学 | 基于深度学习的钢琴单键音识别方法 |
CN108389576A (zh) * | 2018-01-10 | 2018-08-10 | 苏州思必驰信息科技有限公司 | 压缩后的语音识别模型的优化方法及*** |
CN108389576B (zh) * | 2018-01-10 | 2020-09-01 | 苏州思必驰信息科技有限公司 | 压缩后的语音识别模型的优化方法及*** |
WO2019214361A1 (zh) * | 2018-05-08 | 2019-11-14 | 腾讯科技(深圳)有限公司 | 语音信号中关键词的检测方法、装置、终端及存储介质 |
US11341957B2 (en) | 2018-05-08 | 2022-05-24 | Tencent Technology (Shenzhen) Company Limited | Method for detecting keyword in speech signal, terminal, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106782536A (zh) | 一种语音唤醒方法及装置 | |
CN107871506A (zh) | 语音识别功能的唤醒方法及装置 | |
CN108922518A (zh) | 语音数据扩增方法和*** | |
CN106649694A (zh) | 语音交互中确定用户意图的方法及装置 | |
CN105895105B (zh) | 语音处理方法及装置 | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN110473525B (zh) | 获取语音训练样本的方法和装置 | |
CN106486126B (zh) | 语音识别纠错方法及装置 | |
US20240127798A1 (en) | Training speech recognition systems using word sequences | |
CN106653030A (zh) | 标点添加方法及装置 | |
CN106537493A (zh) | 语音识别***及方法、客户端设备及云端服务器 | |
US11562731B2 (en) | Word replacement in transcriptions | |
CN107170456A (zh) | 语音处理方法及装置 | |
CN106935239A (zh) | 一种发音词典的构建方法及装置 | |
CN106782529A (zh) | 语音识别的唤醒词选择方法及装置 | |
CN113299312A (zh) | 一种图像生成方法、装置、设备以及存储介质 | |
CN106649696A (zh) | 信息分类方法及装置 | |
CN107481715A (zh) | 用于生成信息的方法和装置 | |
CN108091323A (zh) | 用于自语音中识别情感的方法与装置 | |
CN106653003A (zh) | 语音识别方法及装置 | |
CN107623622A (zh) | 一种发送语音动画的方法及电子设备 | |
CN114093384A (zh) | 说话视频生成方法、装置、设备以及存储介质 | |
CN106649238A (zh) | 语音转写方法及装置 | |
CN107910021A (zh) | 一种符号***方法及装置 | |
CN110134235B (zh) | 一种引导式互动的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170510 |