CN114187914A - 一种语音识别方法及*** - Google Patents
一种语音识别方法及*** Download PDFInfo
- Publication number
- CN114187914A CN114187914A CN202111556173.8A CN202111556173A CN114187914A CN 114187914 A CN114187914 A CN 114187914A CN 202111556173 A CN202111556173 A CN 202111556173A CN 114187914 A CN114187914 A CN 114187914A
- Authority
- CN
- China
- Prior art keywords
- sequence
- voice
- vector sequence
- module
- search space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 77
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000010845 search algorithm Methods 0.000 claims abstract description 17
- 238000010606 normalization Methods 0.000 claims description 24
- 230000004044 response Effects 0.000 claims description 13
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000019771 cognition Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,公开了一种语音识别方法及***,其方法通过识别用户输入的语音信号的语音波形,对语音波形进行编码,从而得到特征向量序列,利用声学模型和词典构建搜索空间,在语言模型给定的语言约束下,基于搜索算法在搜索空间中搜索特征向量序列对应的词语序列,从而将特征向量序列转换为文字序列,实现语音识别,提高了语音识别准确性,大大提高了语音识别效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种语音识别方法及***。
背景技术
目前,供电所营销、配网业务中的数据操作日渐繁琐,存在各级管理要求重复不一,现场重复性采集、***重复性录入工作多。传统的信息化建设仅按照业务需求设计、创建较为独立的数据存储模型,大部分现场数据采集规范未统一,依赖员工个人认知、习惯,导致部分同一数据在营销、配网业务中存在标准不一致、数据重复存储的情况。一线员工两极分化,信息***操作与现场业务能力脱节。
通过语音交互方式可以把智能化功能延伸到现场,去辅助或者替代人工作业,加强人机协同。全面提升基层供电所专业化、规范化、信息化、智能化水平,通过对电力业务客户、电网内部业务人员有关供电所营销业务领域问题的对话进行语音识别,识别客户或业务人员的语音信息,并结合行业特点对声学模型、语言模型进行场景性优化训练,识别出客户、业务人员想要办理的业务内容。然而市面上各种的语音识别仍存在各种各样的问题。
如授权公告号为CN107293291B所公开的一种基于自适应学习率的端到端的语音识别方法,其虽然实现了端到端的语音识别***抛弃了传统的隐马尔可夫模型,而是利用递归神经网络(recurrent neural network,RNN)在时间序列建模方面的优点,借助递归神经网络建立语音特征序列到对应音素或字符序列的直接映射。端到端的语音识别建模方法极大地简化了构建语音识别***的流程;使用CTC准则作为训练目标函数,引入了blank符号且其对似然函数的贡献远大于其他音素;再结合自适应学习率的方法ADADELTA,通过将神经网络中每个参数的梯度累积下来,可以减弱频繁出现的特征对网络权重的影响,但是,上述语音识别方法的准确性不高,导致语音识别效率也大大降低。
发明内容
本发明提供了一种语音识别方法及***,解决了语音识别准确性不高导致语音识别效率也大大降低的技术问题。
有鉴于此,本发明第一方面提供了一种语音识别方法,包括以下步骤:
通过声学前端接收用户输入的语音信号,识别语音波形,对所述语音波形进行编码,得到一系列的特征向量,从而构成特征向量序列;
利用声学模型和词典构建搜索空间,在语言模型给定的语言约束下,基于搜索算法在所述搜索空间中搜索所述特征向量序列对应的词语序列,从而将所述特征向量序列转换为文字序列。
优选地,通过声学前端接收用户输入的语音信号,识别语音波形,对所述语音波形进行编码,得到一系列的特征向量,从而构成特征向量序列的步骤具体包括:
通过声学前端接收用户输入的语音信号,基于录波技术识别所述语音信号的语音波形;
对所述语音波形按照预定尺度划分为多个具有时序性的子波形,对多个具有时序性的子波形分别进行分帧加窗处理,得到多个语音帧数据;
通过对多个所述语音帧数据进行频域离散傅里叶变换,从而得到各个所述语音帧数据分别对应的频谱数据;
将所述频谱数据按照Bark频带划分为多个Bark单元,利用滤波器对多个所述Bark单元进行滤波,计算每个滤波器对应的Bark单元中的幅值响应;
对所述幅值响应进行对数处理,从而转换为对数能量;
对所述对数能量进行离散余弦变换,得到一系列MFCC参数,取预定前N个参数得到一系列的MFCC特征向量;
对一系列的MFCC特征向量进行归一化处理,从而构成特征向量序列。
优选地,所述归一化处理的方式为倒谱均值归一化或全局特征标准化。
优选地,利用声学模型和词典构建搜索空间,在语言模型给定的语言约束下,基于搜索算法在所述搜索空间中搜索所述特征向量序列对应的词语序列,从而将所述特征向量序列转换为文字序列的步骤具体包括:
利用声学模型和词典构建搜索空间,通过语言模型给定的语言中的单词序列进行约束,基于搜索算法在所述搜索空间中搜索所述特征向量序列的最优的路径,以匹配到概率最大的词语,从而将所述特征向量序列转换为文字序列。
优选地,本方法还包括:
将所述特征向量序列对应的文字序列在预先构建的知识图谱中匹配语义相似度最高的关键词,从而得到相应的检索信息。
第二方面,本发明还提供了一种语音识别***,包括:
编码模块,用于通过声学前端接收用户输入的语音信号,识别语音波形,对所述语音波形进行编码,得到一系列的特征向量,从而构成特征向量序列;
文字转换模块,用于利用声学模型和词典构建搜索空间,在语言模型给定的语言约束下,基于搜索算法在所述搜索空间中搜索所述特征向量序列对应的词语序列,从而将所述特征向量序列转换为文字序列。
优选地,所述编码模块具体包括:
接收模块,用于通过声学前端接收用户输入的语音信号,基于录波技术识别所述语音信号的语音波形;
分帧模块,用于对所述语音波形按照预定尺度划分为多个具有时序性的子波形,对多个具有时序性的子波形分别进行分帧加窗处理,得到多个语音帧数据;
变换模块,用于通过对多个所述语音帧数据进行频域离散傅里叶变换,从而得到各个所述语音帧数据分别对应的频谱数据;
滤波模块,用于将所述频谱数据按照Bark频带划分为多个Bark单元,利用滤波器对多个所述Bark单元进行滤波,计算每个滤波器对应的Bark单元中的幅值响应;
对数模块,用于对所述幅值响应进行对数处理,从而转换为对数能量;
离散模块,用于对所述对数能量进行离散余弦变换,得到一系列MFCC参数,取预定前N个参数得到一系列的MFCC特征向量;
归一化模块,用于对一系列的MFCC特征向量进行归一化处理,从而构成特征向量序列。
优选地,所述归一化处理的方式为倒谱均值归一化或全局特征标准化。
优选地,所述文字转换模块具体用于利用声学模型和词典构建搜索空间,通过语言模型给定的语言中的单词序列进行约束,基于搜索算法在所述搜索空间中搜索所述特征向量序列的最优的路径,以匹配到概率最大的词语,从而将所述特征向量序列转换为文字序列。
优选地,本***还包括:
语义匹配模块,用于将所述特征向量序列对应的文字序列在预先构建的知识图谱中匹配语义相似度最高的关键词,从而得到相应的检索信息。
从以上技术方案可以看出,本发明具有以下优点:
本发明通过识别用户输入的语音信号的语音波形,对语音波形进行编码,从而得到特征向量序列,利用声学模型和词典构建搜索空间,在语言模型给定的语言约束下,基于搜索算法在搜索空间中搜索特征向量序列对应的词语序列,从而将特征向量序列转换为文字序列,实现语音识别,提高了语音识别准确性,大大提高了语音识别效率。
附图说明
图1为本发明实施例提供的一种语音识别方法的流程图;
图2为本发明实施例提供的一种语音识别***的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于理解,请参阅图1,本发明提供的一种语音识别方法,包括以下步骤:
步骤一、通过声学前端接收用户输入的语音信号,识别语音波形,对语音波形进行编码,得到一系列的特征向量,从而构成特征向量序列。
其中,声学前端可以为声音接收装置,以对用户的语音进行录制。
步骤二、利用声学模型和词典构建搜索空间,在语言模型给定的语言约束下,基于搜索算法在搜索空间中搜索特征向量序列对应的词语序列,从而将特征向量序列转换为文字序列。
本实施例提供了一种语音识别方法,通过识别用户输入的语音信号的语音波形,对语音波形进行编码,从而得到特征向量序列,利用声学模型和词典构建搜索空间,在语言模型给定的语言约束下,基于搜索算法在搜索空间中搜索特征向量序列对应的词语序列,从而将特征向量序列转换为文字序列,实现语音识别,提高了语音识别准确性,大大提高了语音识别效率。
在一个具体实施例中,步骤一具体包括:
1.1通过声学前端接收用户输入的语音信号,基于录波技术识别语音信号的语音波形。
可以理解的是,可以采用录波器对语音信号进行录波,以得到语音波形。
1.2对语音波形按照预定尺度划分为多个具有时序性的子波形,对多个具有时序性的子波形分别进行分帧加窗处理,得到多个语音帧数据。
可以理解的是,通过对语音波形在最前端以预定尺度进行划分直至其最后端,从而可以分割出多个具有时序性的子波形,语音波形可以为正弦波或余弦波。
1.3通过对多个语音帧数据进行频域离散傅里叶变换,从而得到各个语音帧数据分别对应的频谱数据。
1.4将频谱数据按照Bark频带划分为多个Bark单元,利用滤波器对多个Bark单元进行滤波,计算每个滤波器对应的Bark单元中的幅值响应。
1.5对幅值响应进行对数处理,从而转换为对数能量。
1.6对对数能量进行离散余弦变换,得到一系列MFCC参数,取预定前N个参数得到一系列的MFCC特征向量。
1.7对一系列的MFCC特征向量进行归一化处理,从而构成特征向量序列。
在一个具体实施例中,归一化处理的方式为倒谱均值归一化或全局特征标准化。
在一个具体实施例中,步骤二具体包括:
利用声学模型和词典构建搜索空间,通过语言模型给定的语言中的单词序列进行约束,基于搜索算法在搜索空间中搜索特征向量序列的最优的路径,以匹配到概率最大的词语,从而将特征向量序列转换为文字序列。
其中,声学模型采用隐马尔科夫模型以及延时神经网络,隐马尔科夫模型的隐藏状态上的观测序列是由延时神经网络进行描述的。
语言模型采用n-gram的语言模型,n-gram的语言模型将文本里面的内容按照字节进行大小为L的滑动窗口操作,形成了长度是L的字节片段序列。
在搜索过程中,在给定观察序列O,找到最有可能的单词序列W和声学-音素-语言模型,根据输入的特征在搜索空间中寻找最优的路径,以匹配到最优的词语。
在一个具体实施例中,本方法还包括:
将特征向量序列对应的文字序列在预先构建的知识图谱中匹配语义相似度最高的关键词,从而得到相应的检索信息。
其中,通过构建知识图谱包含不同类型实体,每一类别生成实体类词表,实体类词表中包含关键词与检索信息的映射关系,通过计算文字序列与关键词的相似度,从而进行语义匹配,得到相似度最高的关键词,进而得到相应的检索信息。
以上为本发明提供的一种语音识别方法的实施例的详细描述,以下为本发明提供的一种语音识别***的实施例的详细描述。
为了方便理解,请参阅图2,本发明提供的一种语音识别***,包括:
编码模块100,用于通过声学前端接收用户输入的语音信号,识别语音波形,对语音波形进行编码,得到一系列的特征向量,从而构成特征向量序列;
文字转换模块200,用于利用声学模型和词典构建搜索空间,在语言模型给定的语言约束下,基于搜索算法在搜索空间中搜索特征向量序列对应的词语序列,从而将特征向量序列转换为文字序列。
在一个具体实施例中,编码模块具体包括:
接收模块,用于通过声学前端接收用户输入的语音信号,基于录波技术识别语音信号的语音波形;
分帧模块,用于对语音波形按照预定尺度划分为多个具有时序性的子波形,对多个具有时序性的子波形分别进行分帧加窗处理,得到多个语音帧数据;
变换模块,用于通过对多个语音帧数据进行频域离散傅里叶变换,从而得到各个语音帧数据分别对应的频谱数据;
滤波模块,用于将频谱数据按照Bark频带划分为多个Bark单元,利用滤波器对多个Bark单元进行滤波,计算每个滤波器对应的Bark单元中的幅值响应;
对数模块,用于对幅值响应进行对数处理,从而转换为对数能量;
离散模块,用于对对数能量进行离散余弦变换,得到一系列MFCC参数,取预定前N个参数得到一系列的MFCC特征向量;
归一化模块,用于对一系列的MFCC特征向量进行归一化处理,从而构成特征向量序列。
在一个具体实施例中,归一化处理的方式为倒谱均值归一化或全局特征标准化。
在一个具体实施例中,文字转换模块具体用于利用声学模型和词典构建搜索空间,通过语言模型给定的语言中的单词序列进行约束,基于搜索算法在搜索空间中搜索特征向量序列的最优的路径,以匹配到概率最大的词语,从而将特征向量序列转换为文字序列。
在一个具体实施例中,本***还包括:
语义匹配模块,用于将特征向量序列对应的文字序列在预先构建的知识图谱中匹配语义相似度最高的关键词,从而得到相应的检索信息。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音识别方法,其特征在于,包括以下步骤:
通过声学前端接收用户输入的语音信号,识别语音波形,对所述语音波形进行编码,得到一系列的特征向量,从而构成特征向量序列;
利用声学模型和词典构建搜索空间,在语言模型给定的语言约束下,基于搜索算法在所述搜索空间中搜索所述特征向量序列对应的词语序列,从而将所述特征向量序列转换为文字序列。
2.根据权利要求1所述的语音识别方法,其特征在于,通过声学前端接收用户输入的语音信号,识别语音波形,对所述语音波形进行编码,得到一系列的特征向量,从而构成特征向量序列的步骤具体包括:
通过声学前端接收用户输入的语音信号,基于录波技术识别所述语音信号的语音波形;
对所述语音波形按照预定尺度划分为多个具有时序性的子波形,对多个具有时序性的子波形分别进行分帧加窗处理,得到多个语音帧数据;
通过对多个所述语音帧数据进行频域离散傅里叶变换,从而得到各个所述语音帧数据分别对应的频谱数据;
将所述频谱数据按照Bark频带划分为多个Bark单元,利用滤波器对多个所述Bark单元进行滤波,计算每个滤波器对应的Bark单元中的幅值响应;
对所述幅值响应进行对数处理,从而转换为对数能量;
对所述对数能量进行离散余弦变换,得到一系列MFCC参数,取预定前N个参数得到一系列的MFCC特征向量;
对一系列的MFCC特征向量进行归一化处理,从而构成特征向量序列。
3.根据权利要求2所述的语音识别方法,其特征在于,所述归一化处理的方式为倒谱均值归一化或全局特征标准化。
4.根据权利要求1所述的语音识别方法,其特征在于,利用声学模型和词典构建搜索空间,在语言模型给定的语言约束下,基于搜索算法在所述搜索空间中搜索所述特征向量序列对应的词语序列,从而将所述特征向量序列转换为文字序列的步骤具体包括:
利用声学模型和词典构建搜索空间,通过语言模型给定的语言中的单词序列进行约束,基于搜索算法在所述搜索空间中搜索所述特征向量序列的最优的路径,以匹配到概率最大的词语,从而将所述特征向量序列转换为文字序列。
5.根据权利要求1所述的语音识别方法,其特征在于,还包括:
将所述特征向量序列对应的文字序列在预先构建的知识图谱中匹配语义相似度最高的关键词,从而得到相应的检索信息。
6.一种语音识别***,其特征在于,包括:
编码模块,用于通过声学前端接收用户输入的语音信号,识别语音波形,对所述语音波形进行编码,得到一系列的特征向量,从而构成特征向量序列;
文字转换模块,用于利用声学模型和词典构建搜索空间,在语言模型给定的语言约束下,基于搜索算法在所述搜索空间中搜索所述特征向量序列对应的词语序列,从而将所述特征向量序列转换为文字序列。
7.根据权利要求6所述的语音识别***,其特征在于,所述编码模块具体包括:
接收模块,用于通过声学前端接收用户输入的语音信号,基于录波技术识别所述语音信号的语音波形;
分帧模块,用于对所述语音波形按照预定尺度划分为多个具有时序性的子波形,对多个具有时序性的子波形分别进行分帧加窗处理,得到多个语音帧数据;
变换模块,用于通过对多个所述语音帧数据进行频域离散傅里叶变换,从而得到各个所述语音帧数据分别对应的频谱数据;
滤波模块,用于将所述频谱数据按照Bark频带划分为多个Bark单元,利用滤波器对多个所述Bark单元进行滤波,计算每个滤波器对应的Bark单元中的幅值响应;
对数模块,用于对所述幅值响应进行对数处理,从而转换为对数能量;
离散模块,用于对所述对数能量进行离散余弦变换,得到一系列MFCC参数,取预定前N个参数得到一系列的MFCC特征向量;
归一化模块,用于对一系列的MFCC特征向量进行归一化处理,从而构成特征向量序列。
8.根据权利要求7所述的语音识别***,其特征在于,所述归一化处理的方式为倒谱均值归一化或全局特征标准化。
9.根据权利要求6所述的语音识别***,其特征在于,所述文字转换模块具体用于利用声学模型和词典构建搜索空间,通过语言模型给定的语言中的单词序列进行约束,基于搜索算法在所述搜索空间中搜索所述特征向量序列的最优的路径,以匹配到概率最大的词语,从而将所述特征向量序列转换为文字序列。
10.根据权利要求6所述的语音识别***,其特征在于,还包括:
语义匹配模块,用于将所述特征向量序列对应的文字序列在预先构建的知识图谱中匹配语义相似度最高的关键词,从而得到相应的检索信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111556173.8A CN114187914A (zh) | 2021-12-17 | 2021-12-17 | 一种语音识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111556173.8A CN114187914A (zh) | 2021-12-17 | 2021-12-17 | 一种语音识别方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114187914A true CN114187914A (zh) | 2022-03-15 |
Family
ID=80544471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111556173.8A Pending CN114187914A (zh) | 2021-12-17 | 2021-12-17 | 一种语音识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114187914A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115132209A (zh) * | 2022-09-01 | 2022-09-30 | 北京百度网讯科技有限公司 | 语音识别方法、装置、设备和介质 |
CN116705058A (zh) * | 2023-08-04 | 2023-09-05 | 贝壳找房(北京)科技有限公司 | 多模语音任务的处理方法、电子设备及可读存储介质 |
-
2021
- 2021-12-17 CN CN202111556173.8A patent/CN114187914A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115132209A (zh) * | 2022-09-01 | 2022-09-30 | 北京百度网讯科技有限公司 | 语音识别方法、装置、设备和介质 |
CN115132209B (zh) * | 2022-09-01 | 2022-11-08 | 北京百度网讯科技有限公司 | 语音识别方法、装置、设备和介质 |
CN116705058A (zh) * | 2023-08-04 | 2023-09-05 | 贝壳找房(北京)科技有限公司 | 多模语音任务的处理方法、电子设备及可读存储介质 |
CN116705058B (zh) * | 2023-08-04 | 2023-10-27 | 贝壳找房(北京)科技有限公司 | 多模语音任务的处理方法、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10978047B2 (en) | Method and apparatus for recognizing speech | |
CN101930735B (zh) | 语音情感识别设备和进行语音情感识别的方法 | |
Kumar et al. | A Hindi speech recognition system for connected words using HTK | |
CN114187914A (zh) | 一种语音识别方法及*** | |
WO2016119604A1 (zh) | 一种语音信息搜索方法、装置及服务器 | |
CN112885336B (zh) | 语音识别***的训练、识别方法、装置、电子设备 | |
CN110019741B (zh) | 问答***答案匹配方法、装置、设备及可读存储介质 | |
CN114360557B (zh) | 语音音色转换方法、模型训练方法、装置、设备和介质 | |
CN110503956B (zh) | 语音识别方法、装置、介质及电子设备 | |
CN104008132A (zh) | 语音地图搜索方法及*** | |
CN113436612B (zh) | 基于语音数据的意图识别方法、装置、设备及存储介质 | |
CN114818649A (zh) | 基于智能语音交互技术的业务咨询处理方法及装置 | |
CN115098765A (zh) | 基于深度学习的信息推送方法、装置、设备及存储介质 | |
CN111798846A (zh) | 语音命令词识别方法、装置、会议终端及会议终端*** | |
CN111209367A (zh) | 信息查找方法、信息查找装置、电子设备及存储介质 | |
Sahu et al. | A study on automatic speech recognition toolkits | |
CN117041430B (zh) | 一种提高智能协调外呼***的外呼质量及鲁棒方法和装置 | |
CN112382276A (zh) | 一种基于语音语义识别的电网物料信息采集方法及装置 | |
CN112634880A (zh) | 话者识别的方法、装置、设备、存储介质以及程序产品 | |
CN109862408B (zh) | 一种用于智能电视语音遥控器的用户语音识别控制方法 | |
CN115132178B (zh) | 一种基于深度学习的语义端点检测*** | |
CN113782005B (zh) | 语音识别方法及装置、存储介质及电子设备 | |
CN111506701B (zh) | 一种智能查询方法及相关装置 | |
CN112820274B (zh) | 一种语音信息识别校正方法和*** | |
CN116013256B (zh) | 一种语音识别模型构建及语音识别方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |