CN108564940B - 语音识别方法、服务器及计算机可读存储介质 - Google Patents
语音识别方法、服务器及计算机可读存储介质 Download PDFInfo
- Publication number
- CN108564940B CN108564940B CN201810227474.8A CN201810227474A CN108564940B CN 108564940 B CN108564940 B CN 108564940B CN 201810227474 A CN201810227474 A CN 201810227474A CN 108564940 B CN108564940 B CN 108564940B
- Authority
- CN
- China
- Prior art keywords
- model
- neural network
- speech
- phoneme
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 56
- 238000003062 neural network model Methods 0.000 claims abstract description 53
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 238000001228 spectrum Methods 0.000 claims description 20
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 241001672694 Citrus reticulata Species 0.000 description 4
- 230000004913 activation Effects 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 238000009795 derivation Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种语音识别方法,该方法包括:构建声学模型;当获取到原始语音信号时,对语音信号进行预处理以提取出有效的语音部分;从有效的语音部分提取声学特征;将声学特征输入至声学模型,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至已经训练完成的基于记忆单元连接的混合神经网络模型;通过已经训练完成的基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与语音信息相对的文本信息。本发明还提供一种服务器及计算机可读存储介质。本发明提供的语音识别方法、服务器及计算机可读存储介质可以提高语音识别的准确率。
Description
技术领域
本发明涉及语音识别领域,尤其涉及一种语音识别方法、服务器及计算机可读存储介质。
背景技术
语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是让机器通过识别和理解,把语音信号变成文字,是现代人工智能发展的重要分支。语音识别技术的实现是自然语言处理的前提,并能有效推动声控交互相关领域的发展并极大方便人们的生活,如智能家居、语音输入,使得一些不适宜使用手和眼睛的人群如中老年人,和环境如开车、路上等场景进行命令操作成为现实。语音识别的准确度直接决定了技术应用的有效性,但是目前的语音识别的准确度没有达到用户的需求。
发明内容
有鉴于此,本发明提出一种语音识别方法、服务器及计算机可读存储介质,能够提高语音识别的准确率。
首先,为实现上述目的,本发明提出一种语音识别方法,包括:
构建声学模型,其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型;
当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分;
从所述有效的语音部分提取声学特征;
将所述声学特征输入至所述声学模型,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型;
通过所述已经训练完成的基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息。
可选地,所述当获取到语音信号时,对语音信号进行预处理以提取出有效的语音部分的步骤,具体包括:
预加重所述语音信号以提升所述语音信号中的高频部分;
对所述语音信号进行分帧加窗以将非平稳信号转换成短时平稳信号;
去除所述短时平稳信号的噪音,提取有效的语音部分,其中所述有效的语音部分为预设频率内的短时平稳信号。
可选地,所述从所述有效的语音部分提取声学特征的步骤,具体包括:
对所述有效的语音部分进行傅立叶变换,以将时域的所述语音部分转换成频域的能量频谱;
根据所述能量频谱通过一组梅尔尺度的三角滤波器组,突出所述语音部分的共振峰特征;
将所述三角滤波器组输出的能量频谱通过离散余弦变换得到声学特征。
可选地,所述音素训练模型包括单音素模型以及三音素模型,所述将所述声学特征输入至所述声学模型,通过音素训练模型以对声学特征进行识别并输出识别结果至所述基于记忆单元连接的混合神经网络模型的步骤,具体包括:
通过所述单音素模型根据所述声学特征比较不同音素发音的相似度,并输出对齐结果至所述三音素模型;
通过所述三音素模型结合当前音素的前后相关音素的影响,并输出强制音素对齐结果;
将所述强制音素对齐结果输出至所述基于记忆单元连接的混合神经网络模型。
可选地,所述声学特征为MFCC(mel frequency cepstrum coefficient)。
此外,为实现上述目的,本发明还提供一种服务器,所述服务器包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的语音识别***,所述语音识别***被所述处理器执行时实现如下步骤:
构建声学模型,其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型;
当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分;
从所述有效的语音部分提取声学特征;
将所述声学特征输入至所述声学模型,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型;
通过所述已经训练完成的基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息。
可选地,所述当获取到语音信号时,对语音信号进行预处理以提取出有效的语音部分的步骤,具体包括:
预加重所述语音信号以提升所述语音信号中的高频部分;
对所述语音信号进行分帧加窗以将非平稳信号转换成短时平稳信号;
去除所述短时平稳信号的噪音,提取有效的语音部分,其中所述有效的语音部分为预设频率内的短时平稳信号。
可选地,所述从所述有效的语音部分提取声学特征的步骤,具体包括:
对所述有效的语音部分进行傅立叶变换,以将时域的所述语音部分转换成频域的能量频谱;
根据所述能量频谱通过一组梅尔尺度的三角滤波器组,突出所述语音部分的共振峰特征;
将所述三角滤波器组输出的能量频谱,通过离散余弦变换得到声学特征,其中,所述声学特征为MFCC(mel frequency cepstrum coefficient)。
可选地,所述音素训练模型包括单音素模型以及三音素模型,所述将所述声学特征输入至所述声学模型,通过音素训练模型以对声学特征进行识别并输出识别结果至所述基于记忆单元连接的混合神经网络模型的步骤,具体包括:
通过所述单音素模型根据所述声学特征比较不同音素发音的相似度,并输出对齐结果至所述三音素模型;
通过所述三音素模型结合当前音素的前后相关音素的影响,并输出强制音素对齐结果;
将所述强制音素对齐结果输出至所述基于记忆单元连接的混合神经网络模型。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有语音识别***,所述语音识别***可被至少一个处理器执行,以使所述至少一个处理器执行如上述的语音识别方法的步骤。
相较于现有技术,本发明所提出的服务器、语音识别方法及计算机可读存储介质,构建的声学模型包括音素训练模型及混合神经网络模型。所述混合神经网络模型包括基于记忆单元连接的长短时递归神经网络HLSTM-RNN、卷积神经网络CNN、前馈神经网络DNN以及隐马尔可夫模型HMM,通过CNN-HMM减少说话人差异性,通过RNN-LSTM-HMM捕捉语音的时序信息、利用一句话中的历史信息进行上下文建模,并通过DNN-HMM区分不同的音素,分类输出对应输入语音信息的识别的音素,能够有效提高音素识别的准确率。所述方法在获取到原始语音信号时,对所述语音信号进行预处理提取出有效的语音部分,从所述有效的语音部分提取声学特征;接着,之后将所述声学特征输入至所述声学模型,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型。最后,通过所述已经训练完成的基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息,通过先对原始语音信号预处理后提取出声学特征再通过声学模型进行语音识别,提高了语音识别的正确率。
附图说明
图1是本发明服务器一可选的硬件架构的示意图;
图2是本发明语音识别***第一实施例的程序模块示意图;
图3是本发明语音识别***第二实施例的程序模块示意图;
图4为本发明语音识别方法第一实施例的流程示意图;
图5为本发明语音识别方法第二实施例的流程示意图。
附图标记:
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参阅图1所示,是服务器2一可选的硬件架构的示意图。本实施例中,所述服务器2可包括,但不仅限于,可通过***总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是,图1仅示出了具有组件11-13的服务器2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述服务器2的内部存储单元,例如该服务器2的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述服务器2的外部存储设备,例如该服务器2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述服务器2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述服务器2的操作***和各类应用软件,例如语音识别***200的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述服务器2的总体操作,例如执行与所述终端设备1进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行所述的语音识别***200等。
所述网络接口13可包括无线网络接口或有线网络接口,该网络接口13通常用于在所述服务器2与其他电子设备之间建立通信连接。本实施例中,所述网络接口13主要用于通过网络将所述服务器2与一个或多个其他电子装置相连,在所述服务器2与所述电子装置之间的建立数据传输通道和通信连接。
至此,己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面,将基于上述应用环境和相关设备,提出本发明的各个实施例。
首先,本发明提出一种语音识别***200。
参阅图2所示,是本发明语音识别***200第一实施例的程序模块图。
本实施例中,所述语音识别***200包括一系列的存储于存储器11上的计算机程序指令,当该计算机程序指令被处理器12执行时,可以实现本发明各实施例的语音识别操作。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,语音识别***200可以被划分为一个或多个模块。例如,在图2中,所述语音识别***200可以被分割成构建模块201、处理模块202、提取模块203,识别模块204、以及输出模块205。其中:
所述构建模块201,用于构建声学模型,其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型。
具体地,所述服务器2通过所述构建模块201构建声学模型。在本实施例中,所述模型包含有音素训练模型及基于记忆单元连接的混合神经网络的自动语音识别技术(Convolutional Long short recurrent Deep Neural Network,CLDNN),该技术采用基于记忆单元连接的长短时递归神经网络(Highway Long short-time recurrent NeuralNetwork,HLSTM-RNN)、卷积神经网络(Convoluntional Neural Network,CNN)、前馈神经网络(Feed-forward Deep Neural Network,DNN)以及隐马尔可夫模型HMM,融合的深度混合神经网络模型作为声学模型,通过CNN-HMM来减少说话人差异性(与声纹识别关注说话人的差异性不同,语音识别关注的是内容本身,即非差异性),通过RNN-LSTM-HMM来捕捉语音的时序信息(利用一句话中的历史信息进行上下文建模),再通过DNN-HMM来区分不同的音素,分类输出对应输入语音信息的识别的音素。比如普通话在中同音词,如(公式、工事、公示、攻势),如果用户仅仅是说了“gong-shi”发音的词,则很难判断具体是哪一个词,并且每个用户的发音会有一定的差异,因此在本实施例中,通过CNN-HMM来减少说话人差异性。通过RNN-LSTM-HMM来捕捉语音的时序信息,如果捕捉到时序信息为“利用公式计算时间的最大值”,通过“gong-shi”的上下文信息可以确定此句话中的“gong-shi”为“公式”一词。
所述处理模块202,用于当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分。
具体地,所述服务器2在获取到原始语音信号时,通过所述处理模块202对所述原始语音信号进行预处理。在本实施例中,所述预处理模块202首先对所述原始语音信号做预加重,以提升语音信号中的高频部分,使得频谱更平滑。接着所述处理模块202对预加重后的语音信号进行分帧加窗,将非平稳的语音信号转变为短时平稳信号。进一步地,所述处理模块202通过端点检测,区分语音与噪声,以去除短时平稳信号的中噪音,提取出有效的语音部分。人发声的频率大约在65~1100Hz,在本实施例中,所述处理模块202可以设定一频率范围为65~1100Hz的预设频率,去除该预设频率范围以外的声音(即为噪声),提取该预设频率范围内的短时平稳信号。
所述提取模块203,用于从所述有效的语音部分提取声学特征作为所述声学模型的输入。
具体地,所述服务器2通过所述提取模块203从所述有效的语音部分中提取声学特征。在本实施例中,所述提取模块203首先对所述有效的语音部分进行傅里叶变换,以将时域的语音信号转换为频域的能量谱。然后,所述提取模块203将所述能量谱通过一组梅尔尺度的三角滤波器组,突出语音的共振峰特征。进一步地,计算每个滤波器组输出的对数能量。在对数能量计算后,将所述三角滤波器组输出的能量频谱经离散余弦变换就可得到MFCC系数(mel frequency cepstrum coefficient),亦即MFCC声学特征。
所述识别模块204,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型。
具体地,所述识别模块204通过已经训练完成的音素训练模型以对声学特征进行音素识别,所述音素识别主要包括对句子中的字、词识别。在语音识别的过程中,根据HMM中状态的发生概率,即不同发音比较相似度,在解码网络中选择发生概率最大的路径作为最终输出结果。
所述输出模块205,用于通过已经训练完成的所述基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息。
具体地,所述服务器2通过已经训练完成的所述基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息。本实施例中,基于记忆单元连接的混合神经网络模型的所有结点均采用[-0.05~0.05]区间的均匀随机权重初始化,bias偏置初始为0。神经网络的训练采用交叉熵评判准则(corss-entropy,CE:反映训练输出与标准的训练评价准则),以及沿时间截断反向传播(truncated back-propagation-through-time,BPTT)的优化训练方法。其中,模型的每个segment包含20帧信息,每个minibatch包含40条发音语句。此外,在动量因子的选择上(momentum:控制神经网络训练加速的一个变量),第一个epoch采用0,之后的epoch采用0.9。
通过上述程序模块201-205,本发明所提出的语音识别***200,首先,构建声学模型,其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型;然后,当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分;进一步地,从所述有效的语音部分提取声学特征;接着,将所述声学特征输入至所述声学模型,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型;最后,通过所述已经训练完成的基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息,通过先对原始语音信号预处理后提取出声学特征再通过声学模型进行语音识别,提高了语音识别的正确率。
进一步地,基于本发明语音识别***200的上述第一实施例,提出本发明的第二实施例(如图3所示)。本实施例中,所述语音识别***200还包括及比较模块206及结合模块207,所述音素训练模型包括单音素模型以及三音素模型,其中,
所述比较模块206,用于通过所述单音素模型根据所述声学特征比较不同音素发音的相似度,并通过所述输出模块205输出单因素对齐结果至所述三音素模型。
通常地,每个人的发音有所差异,或带有地方口音导致发音不标准,因此,在本实施例中,所述比较模块206通过所述单音素模型根据所述声学特征比较不同音素发音与字典音素(标准发音)的相似度,并通过所述输出模块205输出单音素对齐结果至所述三音素模型。
在本实施例中,训练所述单音素模型的过程为:首先对输入的声学特征进行归一化,默认对对variance进行归一化;进而利用声学特征数据得到一个初始化的HMM-GMM模型和决策树;接着构造训练用的网络,对每个句子构造一个音素级别的FST网络用于解码,在训练的过程中通过不断对齐特征序列,反复训练得到中间统计量,其中HMM的统计量是两个音素在FST网络中互联的边Arc出现的次数,GMM的统计量是每个pdf-id对应的特征累计值和特征平方累计值,统计量跟GMM的方差均值两个充分统计量的更新相关,通过不断的更新模型完成解码网络的训练;最后再做一次强制对齐,用于解码输出结果或者进行下一阶段的模型训练。
所述结合模块207,用于通过所述三音素模型结合当前音素的前后相关音素的影响,输出强制音素对齐结果。
具体地,所述三音素模型对音素逐一对齐,并结合了当前音素,即当前正在对齐的音素的前后相关音素影响,能够得到更加准确的对齐效果,也就能产生更好的识别结果。比如普通话在中同音字比比皆是(静、净、竞、竟),还有同音词,如(公式、工事、公示、攻势)。通过三因素训练,能够结合当前音素的前后相关音素影响,即结合当前的语境及上下文本信息,达到更加准确的对其效果。例如,若用户说了“zen-me-li-yong-gong-shi-zheng-ming-deng-shi-cheng-li?”当正在识别的当前音素为“gong-shi”,因为gong-shi的同音词很多,则结合上下文,通过“zheng-ming”(证明)、deng-shi(等式)相关音素的语境,则可以确定“gong-shi”为公式。
在本实施例中,三音素模型训练选择的是基于delta+delta-delta特征变换的三音素模型,delta+delta-delta特征变换是对原始的MFCC特征添加了delta特征(delta即对MFCC特征进行求导,同理delta-delta就是求二阶导)进行的模型训练,原始的MFCC特征是13维,添加delta+delta-delta特征后输入特征变成39维。
所述输出模块205,还用于将所述强制音素对齐结果输出至所述基于记忆单元连接的混合神经网络模型。
具体地,所述服务器2通过所述输出模块205将所述强制音素对齐结果输出至所述基于记忆单元连接的混合神经网络模型。
在本实施例中,基于记忆单元连接的混合神经网络模型的处理为:将所述强制音素对齐结果输出至CNN模型中。该CNN模型具有一个卷积层(convolutional layer),含有256个卷积核(size 1*8的矩阵大小),每个卷积核产生1个特征图谱(feature map)用于提取不同特征;该CNN模型还具有一个非重叠的池化层(max-pooling layer),其窗口大小和stride(表示卷积时对输入进行每次移动一步,上下都是)都是3,池化的作用是对卷积层的输出结果进行降低维度。比如我们这里采用83维的特征向量输入,经过第一层convolutional layer后参数变成83*256,经过这层max-pooling layer参数变成(83/3)*256;尽管减少了1/3,该模型参数对于语音识别来说还是太大了,为此在max-poolinglayer后面连接一个(维度)投影层(projection layer),该投影层的作用是继续降维,将(83/3)*256降至256。
将CNN的输出送入基于记忆单元连接的RNN-LSTM之前,有一个连接层(concatenation layer),来增加输出的数量。这是因为输入到递归神经网络的特征向量一般采取前后拼接的方式,比如一般在当前帧按照时间顺序,前后各拼接5帧,用于时序模型RNN的训练,而CNN是一帧一帧输入处理的,因而需要对CNN的输出做concatenation才能输入到LSTM-RNN中。RNN-LSTM模型具有3层LSTM layer,每层LSTM有1024个神经元节点,后面带有512结点的投影层(同样用于降维)。最后,将最后一层LSTM的输出输入到一个全连接的前馈神经网络(fully-connected feed-forward layer)模型中,该DNN模型有两层,每层1024个隐含节点,激活函数采用修正的线性激活函数(rectified linear activationfunction,其函数表达式为f(x)=max(0,x)),DNN的结果之后会经过softmax层输出,用于分类判断。
通过上述程序模块206-207,本发明所提出的语音识别***200可以通过单音素模型对齐音素发音,进而通过三音素模型结合上下文强制对齐音素,提高语音识别的正确率。
此外,本发明还提出一种语音识别方法。
参阅图4所示,是本发明语音识别方法第一实施例的流程示意图。在本实施例中,根据不同的需求,图4所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
步骤S301,构建声学模型,其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型。
具体地,所述服务器2构建声学模型。在本实施例中,所述模型包含有音素训练模型及基于记忆单元连接的混合神经网络的自动语音识别技术(Convolutional Long shortrecurrent Deep Neural Network,CLDNN),该技术采用基于记忆单元连接的长短时递归神经网络(Highway Long short-time recurrent Neural Network,HLSTM-RNN)、卷积神经网络(Convoluntional Neural Network,CNN)、前馈神经网络(Feed-forward Deep NeuralNetwork,DNN)以及隐马尔可夫模型HMM,融合的深度混合神经网络模型作为声学模型,通过CNN-HMM来减少说话人差异性(与声纹识别关注说话人的差异性不同,语音识别关注的是内容本身,即非差异性),通过RNN-LSTM-HMM来捕捉语音的时序信息(利用一句话中的历史信息进行上下文建模),再通过DNN-HMM来区分不同的音素,分类输出对应输入语音信息的识别的音素。比如普通话在中同音词,如(公式、工事、公示、攻势),如果用户仅仅是说了“gong-shi”发音的词,则很难判断具体是哪一个词,并且每个用户的发音会有一定的差异,因此在本实施例中,通过CNN-HMM来减少说话人差异性。通过RNN-LSTM-HMM来捕捉语音的时序信息,如果捕捉到时序信息为“利用公式计算时间的最大值”,通过“gong-shi”的上下文信息可以确定此句话中的“gong-shi”为“公式”一词。
步骤S302,当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分。
具体地,所述服务器2在获取到原始语音信号时对所述原始语音信号进行预处理。在本实施例中,所述服务器2首先对所述原始语音信号做预加重,以提升语音信号中的高频部分,使得频谱更平滑。接着对预加重后的语音信号进行分帧加窗,将非平稳的语音信号转变为短时平稳信号。进一步地,通过端点检测,区分语音与噪声,以去除短时平稳信号的中噪音,提取出有效的语音部分。人发声的频率大约在65~1100Hz,在本实施例中,所述处理模块202可以设定一频率范围为65~1100Hz的预设频率,去除该预设频率范围以外的声音(即为噪声),提取该预设频率范围内的短时平稳信号。
步骤S303,从所述有效的语音部分提取声学特征作为所述声学模型的输入。
具体地,所述服务器2从所述有效的语音部分中提取声学特征。在本实施例中,所述服务器2首先对所述有效爹语音部分进行傅里叶变换,以将时域的语音信号转换为频域的能量谱。然后,所述服务器2将所述能量谱通过一组梅尔尺度的三角滤波器组,突出语音的共振峰特征。进一步地,计算每个滤波器组输出的对数能量。在对数能量计算后,将所述三角滤波器组输出的能量频谱经离散余弦变换就可得到MFCC系数(mel frequencycepstrum coefficient),亦即MFCC声学特征。
步骤S304,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型。
具体地,所述服务器2通过已经训练完成的音素训练模型以对声学特征进行音素识别,所述音素识别主要包括对句子中的字、词识别。在语音识别的过程中,根据HMM中状态的发生概率,即不同发音比较相似度,在解码网络中选择发生概率最大的路径作为最终输出结果。
步骤S305,通过已经训练完成的所述基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息。
具体地,所述服务器2通过已经训练完成的所述基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息。本实施例中,基于记忆单元连接的混合神经网络模型的所有结点均采用[-0.05~0.05]区间的均匀随机权重初始化,bias偏置初始为0。神经网络的训练采用交叉熵评判准则(corss-entropy,CE:反映训练输出与标准的训练评价准则),以及沿时间截断反向传播(truncated back-propagation-through-time,BPTT)的优化训练方法。其中,模型的每个segment包含20帧信息,每个minibatch包含40条发音语句。此外,在动量因子的选择上(momentum:控制神经网络训练加速的一个变量),第一个epoch采用0,之后的epoch采用0.9。
通过上述步骤S301-305,本发明所提出的语音识别方法,首先,构建声学模型,其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型;然后,当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分;进一步地,从所述有效的语音部分提取声学特征;接着,将所述声学特征输入至所述声学模型,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型;最后,通过所述已经训练完成的基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息,通过先对原始语音信号预处理后提取出声学特征再通过声学模型进行语音识别,提高了语音识别的正确率。
进一步地,基于本发明语音识别方法的上述第一实施例,提出本发明语音识别方法的第二实施例。
如图5所示,是本发明语音识别方法第二实施例的流程示意图。本实施例中,所述音素训练模型包括单音素模型以及三音素模型,所述通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型的步骤,具体包括如下步骤:
步骤S401,通过所述单音素模型根据所述声学特征比较不同音素发音的相似度,并通过所述输出模块205输出单因素对齐结果至所述三音素模型。
通常地,每个人的发音有所差异,或带有地方口音导致发音不标准,因此,在本实施例中,所述服务器2通过所述单音素模型根据所述声学特征比较不同音素发音与字典音素(标准发音)的相似度,并输出单音素对齐结果至所述三音素模型。
在本实施例中,训练所述单音素模型的过程为:首先对输入的声学特征进行归一化,默认对对variance进行归一化;进而利用声学特征数据得到一个初始化的HMM-GMM模型和决策树;接着构造训练用的网络,对每个句子构造一个音素级别的FST网络用于解码,在训练的过程中通过不断对齐特征序列,反复训练得到中间统计量,其中HMM的统计量是两个音素在FST网络中互联的边Arc出现的次数,GMM的统计量是每个pdf-id对应的特征累计值和特征平方累计值,统计量跟GMM的方差均值两个充分统计量的更新相关,通过不断的更新模型完成解码网络的训练;最后再做一次强制对齐,用于解码输出结果或者进行下一阶段的模型训练。
步骤S402,通过所述三音素模型结合当前音素的前后相关音素的影响,输出强制音素对齐结果。
具体地,所述三音素模型对音素逐一对齐,并结合了当前音素,即当前正在对齐的音素的前后相关音素影响,能够得到更加准确的对齐效果,也就能产生更好的识别结果。比如普通话在中同音字比比皆是(静、净、竞、竟),还有同音词,如(公式、工事、公示、攻势)。通过三因素训练,能够结合当前音素的前后相关音素影响,即结合当前的语境及上下文本信息,达到更加准确的对其效果。例如,若用户说了“zen-me-li-yong-gong-shi-zheng-ming-deng-shi-cheng-li?”当正在识别的当前音素为“gong-shi”,因为gong-shi的同音词很多,则结合上下文,通过“zheng-ming”(证明)、deng-shi(等式)相关音素的语境,则可以确定“gong-shi”为公式。
在本实施例中,三音素模型训练选择的是基于delta+delta-delta特征变换的三音素模型,delta+delta-delta特征变换是对原始的MFCC特征添加了delta特征(delta即对MFCC特征进行求导,同理delta-delta就是求二阶导)进行的模型训练,原始的MFCC特征是13维,添加delta+delta-delta特征后输入特征变成39维。
步骤S403,将所述强制音素对齐结果输出至所述基于记忆单元连接的混合神经网络模型。
具体地,所述服务器2将所述强制音素对齐结果输出至所述基于记忆单元连接的混合神经网络模型。
在本实施例中,基于记忆单元连接的混合神经网络模型的处理为:将所述强制音素对齐结果输出至CNN模型中。该CNN模型具有一个卷积层(convolutional layer),含有256个卷积核(size 1*8的矩阵大小),每个卷积核产生1个特征图谱(feature map)用于提取不同特征;该CNN模型还具有一个非重叠的池化层(max-pooling layer),其窗口大小和stride(表示卷积时对输入进行每次移动一步,上下都是)都是3,池化的作用是对卷积层的输出结果进行降低维度。比如我们这里采用83维的特征向量输入,经过第一层convolutional layer后参数变成83*256,经过这层max-pooling layer参数变成(83/3)*256;尽管减少了1/3,该模型参数对于语音识别来说还是太大了,为此在max-poolinglayer后面连接一个(维度)投影层(projection layer),该投影层的作用是继续降维,将(83/3)*256降至256。
将CNN的输出送入基于记忆单元连接的RNN-LSTM之前,有一个连接层(concatenation layer),来增加输出的数量。这是因为输入到递归神经网络的特征向量一般采取前后拼接的方式,比如一般在当前帧按照时间顺序,前后各拼接5帧,用于时序模型RNN的训练,而CNN是一帧一帧输入处理的,因而需要对CNN的输出做Concatenation才能输入到LSTM-RNN中。RNN-LSTM模型具有3层LSTM layer,每层LSTM有1024个神经元节点,后面带有512结点的投影层(同样用于降维)。最后,将最后一层LSTM的输出输入到一个全连接的前馈神经网络(fully-connected feed-forward layer)模型中,该DNN模型有两层,每层1024个隐含节点,激活函数采用修正的线性激活函数(rectified linear activationfunction,其函数表达式为f(x)=max(0,x)),DNN的结果之后会经过softmax层输出,用于分类判断。
通过上述步骤S401-S403,本发明所提出的语音识别方法,可以通过单音素模型对齐音素发音,进而通过三音素模型结合上下文强制对齐音素,提高语音识别的正确率。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种语音识别方法,应用于服务器,其特征在于,所述方法包括:
构建声学模型,其中所述声学模型包括音素训练模型及混合神经网络模型,所述混合神经网络模型包括基于记忆单元连接的长短时递归神经网络HLSTM-RNN、卷积神经网络CNN、前馈神经网络DNN以及隐马尔可夫模型HMM,通过CNN-HMM来减少说话人差异性,通过RNN-LSTM-HMM捕捉语音的时序信息、利用一句话中的历史信息进行上下文建模,并通过DNN-HMM区分不同的音素,分类输出对应输入语音信息的识别音素;
当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分;
从所述有效的语音部分提取声学特征;
将所述声学特征输入至所述声学模型,通过已经训练完成的音素训练模型对声学特征进行音素识别,并根据所述混合神经网络模型中的隐马尔可夫模型HMM中状态的发生概率,在解码网络中选择发生概率最大的路径作为识别结果输出至所述混合神经网络模型中基于记忆单元连接的RNN-LSTM模型,并将最后一层LSTM的输出输入至所述前馈神经网络DNN;
输出与所述语音信息相对应的文本信息。
2.如权利要求1所述的语音识别方法,其特征在于,所述当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分的步骤,具体包括:
预加重所述语音信号以提升所述语音信号中的高频部分;
对所述语音信号进行分帧加窗以将非平稳信号转换成短时平稳信号;
去除所述短时平稳信号的噪音,提取有效的语音部分,其中所述有效的语音部分为预设频率内的短时平稳信号。
3.如权利要求2所述的语音识别方法,其特征在于,所述从所述有效的语音部分提取声学特征的步骤,具体包括:
对所述有效的语音部分进行傅立叶变换,以将时域的所述语音部分转换成频域的能量频谱;
根据所述能量频谱通过一组梅尔尺度的三角滤波器组,突出所述语音部分的共振峰特征;
将所述三角滤波器组输出的能量频谱通过离散余弦变换得到声学特征。
4.如权利要求1-3任一项所述的语音识别方法,其特征在于,所述音素训练模型包括单音素模型以及三音素模型,所述在解码网络中选择发生概率最大的路径作为识别结果输出至所述混合神经网络模型中的基于记忆单元连接的RNN-LSTM模型,还包括:
通过所述单音素模型根据所述声学特征比较不同音素发音的相似度,并输出对齐结果至所述三音素模型;
通过所述三音素模型结合当前音素的前后相关音素的影响,并输出强制音素对齐结果至所述混合神经网络模型中的CNN模型;
将CNN模型的输出结果输出至所述RNN-LSTM模型。
5.如权利要求4所述的语音识别方法,其特征在于,所述声学特征为MFCC(melfrequency cepstrum coefficient)。
6.一种服务器,其特征在于,所述服务器包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的语音识别***,所述语音识别***被所述处理器执行时实现如下步骤:
构建声学模型,其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型,所述混合神经网络模型包括基于记忆单元连接的长短时递归神经网络HLSTM-RNN、卷积神经网络CNN、前馈神经网络DNN以及隐马尔可夫模型HMM,通过CNN-HMM减少说话人差异性,通过RNN-LSTM-HMM捕捉语音的时序信息、利用一句话中的历史信息进行上下文建模,并通过DNN-HMM区分不同的音素,分类输出对应输入语音信息的识别音素;
当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分;
从所述有效的语音部分提取声学特征;
将所述声学特征输入至所述声学模型,通过已经训练完成的音素训练模型对声学特征进行音素识别,并根据所述混合神经网络模型中的隐马尔可夫模型HMM中状态的发生概率,在解码网络中选择发生概率最大的路径作为识别结果输出至所述混合神经网络模型中的基于记忆单元连接的RNN-LSTM模型,并将最后一层LSTM的输出输入至所述前馈神经网络DNN;
输出与所述语音信息相对应的文本信息。
7.如权利要求6所述的服务器,其特征在于,所述当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分的步骤,具体包括:
预加重所述语音信号以提升所述语音信号中的高频部分;
对所述语音信号进行分帧加窗以将非平稳信号转换成短时平稳信号;
去除所述短时平稳信号的噪音,提取有效的语音部分,其中所述有效的语音部分为预设频率内的短时平稳信号。
8.如权利要求6所述的服务器,其特征在于,所述从所述有效的语音部分提取声学特征的步骤,具体包括:
对所述有效的语音部分进行傅立叶变换,以将时域的所述语音部分转换成频域的能量频谱;
根据所述能量频谱通过一组梅尔尺度的三角滤波器组,突出所述语音部分的共振峰特征;
将所述三角滤波器组输出的能量频谱通过离散余弦变换得到声学特征,其中,所述声学特征为MFCC(mel frequency cepstrum coefficient)。
9.如权利要求7-8任一项所述的服务器,其特征在于,所述音素训练模型包括单音素模型以及三音素模型,所述在解码网络中选择发生概率最大的路径作为识别结果输出至所述混合神经网络模型中的基于记忆单元连接的RNN-LSTM模型,还包括:
通过所述单音素模型根据所述声学特征比较不同音素发音的相似度,并输出对齐结果至所述三音素模型;
通过所述三音素模型结合当前音素的前后相关音素的影响,并输出强制音素对齐结果至所述混合神经网络模型中的CNN模型;
将CNN模型的输出结果输出至所述基于记忆单元连接的RNN-LSTM模型。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有语音识别***,所述语音识别***可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-5中任一项所述的语音识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810227474.8A CN108564940B (zh) | 2018-03-20 | 2018-03-20 | 语音识别方法、服务器及计算机可读存储介质 |
PCT/CN2018/102204 WO2019179034A1 (zh) | 2018-03-20 | 2018-08-24 | 语音识别方法、服务器及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810227474.8A CN108564940B (zh) | 2018-03-20 | 2018-03-20 | 语音识别方法、服务器及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108564940A CN108564940A (zh) | 2018-09-21 |
CN108564940B true CN108564940B (zh) | 2020-04-28 |
Family
ID=63531769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810227474.8A Active CN108564940B (zh) | 2018-03-20 | 2018-03-20 | 语音识别方法、服务器及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108564940B (zh) |
WO (1) | WO2019179034A1 (zh) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147775A (zh) * | 2018-10-18 | 2019-01-04 | 深圳供电局有限公司 | 一种基于神经网络的语音识别方法及装置 |
CN111210805A (zh) * | 2018-11-05 | 2020-05-29 | 北京嘀嘀无限科技发展有限公司 | 一种语种鉴别模型训练方法、装置及语种鉴别方法和装置 |
CN109376264A (zh) * | 2018-11-09 | 2019-02-22 | 广州势必可赢网络科技有限公司 | 一种音频检测方法、装置、设备及计算机可读存储介质 |
CN111191668B (zh) * | 2018-11-15 | 2023-04-28 | 零氪科技(北京)有限公司 | 一种在病历文本中识别出疾病内容的方法 |
CN109525787B (zh) * | 2018-12-13 | 2021-03-16 | 南京邮电大学 | 面向直播场景的实时字幕翻译及***实现方法 |
CN109616111B (zh) * | 2018-12-24 | 2023-03-14 | 北京恒泰实达科技股份有限公司 | 一种基于语音识别的场景交互控制方法 |
CN111402870B (zh) * | 2019-01-02 | 2023-08-15 | ***通信有限公司研究院 | 一种语音识别方法、装置及设备 |
CN109448726A (zh) * | 2019-01-14 | 2019-03-08 | 李庆湧 | 一种语音控制准确率的调整方法及*** |
CN109767765A (zh) * | 2019-01-17 | 2019-05-17 | 平安科技(深圳)有限公司 | 话术匹配方法及装置、存储介质、计算机设备 |
CN111489745A (zh) * | 2019-01-28 | 2020-08-04 | 上海菲碧文化传媒有限公司 | 一种应用于人工智能的汉语语音识别*** |
CN109767759B (zh) * | 2019-02-14 | 2020-12-22 | 重庆邮电大学 | 一种应用到端到端语音识别的cldnn结构的建立方法 |
CN110111774A (zh) * | 2019-05-13 | 2019-08-09 | 广西电网有限责任公司南宁供电局 | 机器人语音识别方法和装置 |
CN110189749B (zh) * | 2019-06-06 | 2021-03-19 | 四川大学 | 语音关键词自动识别方法 |
CN110211591B (zh) * | 2019-06-24 | 2021-12-21 | 卓尔智联(武汉)研究院有限公司 | 基于情感分类的面试数据分析方法、计算机装置及介质 |
CN111127699A (zh) * | 2019-11-25 | 2020-05-08 | 爱驰汽车有限公司 | 汽车缺陷数据自动录入方法、***、设备及介质 |
CN112990208B (zh) * | 2019-12-12 | 2024-04-30 | 北京搜狗科技发展有限公司 | 一种文本识别方法及装置 |
CN110970036B (zh) * | 2019-12-24 | 2022-07-12 | 网易(杭州)网络有限公司 | 声纹识别方法及装置、计算机存储介质、电子设备 |
CN113270091B (zh) * | 2020-02-14 | 2024-04-16 | 声音猎手公司 | 音频处理***和方法 |
CN113360869A (zh) * | 2020-03-04 | 2021-09-07 | 北京嘉诚至盛科技有限公司 | 启动应用的方法、电子设备和计算机可读介质 |
CN111354344B (zh) * | 2020-03-09 | 2023-08-22 | 第四范式(北京)技术有限公司 | 语音识别模型的训练方法、装置、电子设备及存储介质 |
CN111402891B (zh) * | 2020-03-23 | 2023-08-11 | 抖音视界有限公司 | 语音识别方法、装置、设备和存储介质 |
CN113571054B (zh) * | 2020-04-28 | 2023-08-15 | ***通信集团浙江有限公司 | 语音识别信号预处理方法、装置、设备及计算机存储介质 |
CN111798841B (zh) * | 2020-05-13 | 2023-01-03 | 厦门快商通科技股份有限公司 | 声学模型训练方法、***、移动终端及存储介质 |
CN111968622A (zh) * | 2020-08-18 | 2020-11-20 | 广州市优普科技有限公司 | 一种基于注意力机制的语音识别方法、***及装置 |
CN111951796B (zh) * | 2020-08-19 | 2024-03-12 | 北京达佳互联信息技术有限公司 | 语音识别方法及装置、电子设备、存储介质 |
CN112216270B (zh) * | 2020-10-09 | 2024-02-06 | 携程计算机技术(上海)有限公司 | 语音音素的识别方法及***、电子设备及存储介质 |
CN112651429B (zh) * | 2020-12-09 | 2022-07-12 | 歌尔股份有限公司 | 一种音频信号时序对齐方法和装置 |
CN112614485A (zh) * | 2020-12-30 | 2021-04-06 | 竹间智能科技(上海)有限公司 | 识别模型构建方法、语音识别方法、电子设备及存储介质 |
CN112885370B (zh) * | 2021-01-11 | 2024-05-31 | 广州欢城文化传媒有限公司 | 一种声音卡片有效性检测方法及装置 |
CN113299270B (zh) * | 2021-05-20 | 2024-05-31 | 平安科技(深圳)有限公司 | 语音合成***的生成方法、装置、设备及存储介质 |
CN113327616A (zh) * | 2021-06-02 | 2021-08-31 | 广东电网有限责任公司 | 声纹识别方法、装置、电子设备及存储介质 |
CN113658599A (zh) * | 2021-08-18 | 2021-11-16 | 平安普惠企业管理有限公司 | 基于语音识别的会议记录生成方法、装置、设备及介质 |
CN113870848B (zh) * | 2021-12-02 | 2022-04-26 | 深圳市友杰智新科技有限公司 | 语音建模单元的构建方法、装置和计算机设备 |
CN114550706B (zh) * | 2022-02-21 | 2024-06-18 | 苏州市职业大学 | 基于深度学习的智慧校园语音识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10235991B2 (en) * | 2016-08-09 | 2019-03-19 | Apptek, Inc. | Hybrid phoneme, diphone, morpheme, and word-level deep neural networks |
CN107785015A (zh) * | 2016-08-26 | 2018-03-09 | 阿里巴巴集团控股有限公司 | 一种语音识别方法及装置 |
CN107633842B (zh) * | 2017-06-12 | 2018-08-31 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN107680582B (zh) * | 2017-07-28 | 2021-03-26 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
CN107680602A (zh) * | 2017-08-24 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音欺诈识别方法、装置、终端设备及存储介质 |
-
2018
- 2018-03-20 CN CN201810227474.8A patent/CN108564940B/zh active Active
- 2018-08-24 WO PCT/CN2018/102204 patent/WO2019179034A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN108564940A (zh) | 2018-09-21 |
WO2019179034A1 (zh) | 2019-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564940B (zh) | 语音识别方法、服务器及计算机可读存储介质 | |
US8930196B2 (en) | System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands | |
Ghai et al. | Literature review on automatic speech recognition | |
US8762142B2 (en) | Multi-stage speech recognition apparatus and method | |
US9165555B2 (en) | Low latency real-time vocal tract length normalization | |
US20220262352A1 (en) | Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation | |
CN111341325A (zh) | 声纹识别方法、装置、存储介质、电子装置 | |
CN109036381A (zh) | 语音处理方法及装置、计算机装置及可读存储介质 | |
US8275619B2 (en) | Speech recognition | |
WO2003010753A1 (en) | Pattern recognition using an observable operator model | |
Mouaz et al. | Speech recognition of moroccan dialect using hidden Markov models | |
CN106548775B (zh) | 一种语音识别方法和*** | |
EP1675102A2 (en) | Method for extracting feature vectors for speech recognition | |
Mistry et al. | Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann) | |
Ranjan et al. | Isolated word recognition using HMM for Maithili dialect | |
Boite et al. | A new approach towards keyword spotting. | |
CN111798846A (zh) | 语音命令词识别方法、装置、会议终端及会议终端*** | |
Sinha et al. | On the use of pitch normalization for improving children's speech recognition | |
JP3535292B2 (ja) | 音声認識システム | |
CN112216270A (zh) | 语音音素的识别方法及***、电子设备及存储介质 | |
Yavuz et al. | A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model. | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
CN114171009A (zh) | 用于目标设备的语音识别方法、装置、设备及存储介质 | |
Zhuang et al. | The entropy of the articulatory phonological code: recognizing gestures from tract variables. | |
Trivedi | A survey on English digit speech recognition using HMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |