CN102063900A - 克服混淆发音的语音识别方法及*** - Google Patents

克服混淆发音的语音识别方法及*** Download PDF

Info

Publication number
CN102063900A
CN102063900A CN2010105682920A CN201010568292A CN102063900A CN 102063900 A CN102063900 A CN 102063900A CN 2010105682920 A CN2010105682920 A CN 2010105682920A CN 201010568292 A CN201010568292 A CN 201010568292A CN 102063900 A CN102063900 A CN 102063900A
Authority
CN
China
Prior art keywords
phoneme
pronunciation
speech
training set
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010105682920A
Other languages
English (en)
Inventor
朱维彬
***
祝真宇
肖云鹏
孔彦
宋新航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN2010105682920A priority Critical patent/CN102063900A/zh
Publication of CN102063900A publication Critical patent/CN102063900A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种克服混淆发音的语音识别方法及***。该方法包括:接收语音信号,提取声学特征,确定特征向量;利用声学模型、语言模型和音位混淆音标词典对接收到的所述特征向量进行识别;选择最佳词序列以描述所述输入语音信号,进而得到词解码序列。本发明改进了发音词典及其生成方法,有效地提高了语音识别中带有混淆发音的音字转换的精度。

Description

克服混淆发音的语音识别方法及***
技术领域
本发明涉及计算机人工智能及模式识别技术领域,尤其涉及一种克服混淆发音的语音识别方法及***。
背景技术
当今世界正处在信息时代,对于信息的有效利用,是关系到国家安全、经济发展、社会安定等方面的重大科学问题,这其中也包括了语音信息的利用。作为语言处理最为重要的研究领域之一,语音识别技术,无论是在理论方法还是技术手段上,都取得了一系列重要成果。但在应用过程中,语音识别技术也遇到了障碍,主要包括:背景噪声、信道不匹配、发音不准确、习惯性误读、自然口语发音。尽管一直连续不断地有局部性的技术改进,但对于口语识别来讲,任务还远未完成。
现在的语音识别***主要由声学特征提取模块,声学模型模块,语言模型模块和解码模块构成,如图1所示。
声学特征提取
声学特征提取是语音识别的一个重要环节,把语音信号按帧提取出表征信号声学特征的多维向量。
常用的声学特征有:Mel倒谱系数MFCC和感知线性预测PLP。
声学模型
隐马尔可夫模型(Hidden Markov Model,HMM):
马尔可夫模型是一个离散时域有限状态自动机,HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别***,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。
由于汉语的音节仅由声母和韵母构成,且声韵母的声学特性相差很大,所以汉语声学模型的常用建模单元是声韵母。通常把声母依照后续介母的不同细化为更多的细化声母作为建模的基本单元。
语言模型
语言模型主要分为基于规则的语言模型和基于统计的语言模型两种。统计语言模型是用概率统计的方法来揭示语言内在的统计规律,其中n-gram简单有效,被广泛使用。
n-gram:该模型基于这样一种假设,第n个词的出现只与前面n-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计n个词同时出现的次数得到。由于计算量太大,n一般取值不会很大,常用的是二元的bigram和三元的trigram。
发音词典
发音词典是联系声学模型和语言模型的重要部分,通常的发音词典形式是一个<词,模型序列>的二元组,如图2所示;
发音词典的词表部分是通过对文本语料的整理统计之后获取的,模型序列部分是通过自动注音与人工检查的方式生成全拼注音后改写为HMM模型名称序列,两部分得到后综合在一起形成了正则发音词表。
发音词典的规模直接影响了语音识别***的规模,词表中的词条越多,语音识别***可以识别的词就越多,词表中没有出现的词,是不会以词为单位被语音识别***识别出来的。这样就存在,对于个别不准确、习惯性误读的发音,由于发音词典中对应的词没有非正则(混淆)发音的音位注音,将会被识别成为其它的音位,的问题。这就意味着,***找不到对应的二元组描述非正则的发音音位,也就不能解码出对应的词序列,因而得不到正确的识别效果。
解码过程
有了特征提取模块,声学模型,语言模型和发音词典之后,语音识别***接收语音信号,提取声学特征后将语音信号的特征向量传入到识别***中,解码过程就是用声学模型和语言模型对接收到的特征向量进行打分,寻找一个最佳的词序列以描述输入语音信号,从而得到词解码序列。常用的解码算法是由基于动态规划的Viterbi算法与基于词树的n-best搜索算法构成的。
存在的问题
大词汇量连续汉语语音识别已取得了很大的进展,对于标准普通话,识别的准确率可达95%以上。但是,类似方言、口音、发音不准确、习惯性误读等问题影响着汉语语音识别***的发展。这也是当前语音识别技术亟待解决的问题。
现有的改进
现阶段一种针对方言的改进方法是基于方言发音规则改变生成的音节映射表,可以避免用大规模方言语料重复训练现有模型并做自适应。这种方案解决了收集非标准语音数据工作量巨大的问题和识别***之间共享数据的问题。这种方法的缺点是:
(1)基于规则的知识总结总是和真实情况有一定差异,特别是不能反映口语中发音不准确、非方言规则的习惯性误读的现象。
(2)无法自动生成音节映射表,工作量繁琐,易出错。
发明内容
本发明的目的在于提供一种克服混淆发音的语音识别方法及***。基于本发明,可以自动生成发音音标词典,以有效提高语音识别中带有混淆发音的音字转换的精度。
本发明一种克服混淆发音的语音识别方法,包括:提取步骤,接收语音信号,提取声学特征,确定特征向量;识别步骤,利用声学模型、语言模型和音位混淆音标词典对接收到的所述特征向量进行识别;选择步骤,选择最佳词序列以描述所述输入语音信号,进而得到词解码序列。
上述语音识别方法所述识别步骤中,所述音位混淆音标词典包括二维矩阵和音位混淆发音表,通过如下方式获取:训练集生成步骤,依据训练声学模型的语音数据库,生成音位混淆矩阵的训练集;二维矩阵记录步骤,采用音位识别器,对选取的所述训练集语料进行识别,记录得到的音位模型序列,根据标注信息统计对于每个音位被识别成其它音位的信息,以二维矩阵进行记录;音位混淆发音表获取步骤,根据所述二维矩阵,生成线性的音位混淆发音表;所述音位发音表中每一项包括:正则发音、所述正则发音对应的混淆发音以及混淆发音在所述训练集中出现的频次。
本发明还提供了一种克服混淆发音的语音识别***,包括:提取模块、识别模块和选择模块。其中,提取模块用于接收语音信号,提取声学特征,确定特征向量;识别模块用于利用声学模型、语言模型和音位混淆音标词典对接收到的所述特征向量进行识别;选择模块用于选择最佳词序列以描述所述输入语音信号,进而得到词解码序列。
上述语音识别***,优选所述识别模块包括:训练集生成单元、二维矩阵记录单元和音位混淆发音表获取单元。其中,训练集生成单元,采用训练声学模型的语音数据库,构成音位混淆矩阵的训练集;二维矩阵记录单元用于采用音位识别器,对选取的所述训练集语料进行识别,记录得到的音位模型序列,根据标注信息统计对于每个音位被识别成其它音位的信息,以二维矩阵进行记录;音位混淆发音表获取单元用于根据所述二维矩阵,生成线性的音位混淆发音表;所述音位发音表中每一项包括:正则发音、所述正则发音对应的混淆发音以及混淆发音在所述训练集中出现的频次。
本发明改进了现有技术中的发音词典及其生成方法,有效地提高了语音识别中带有混淆发音的音字转换的精度。
附图说明
图1为现有技术中语音识别***的结构示意图;
图2为现有技术中发音词典示意图;
图3为本发明克服混淆发音的语音识别方法实施例的步骤流程图;
图4为音位混淆矩阵示意图;
图5为音位混淆发音表示意图;
图6为加入音位混淆音标词典后的搜索树;
图7为采用音位混淆音标词典后的发音词典逻辑示意图;
图8为本发明克服混淆发音的语音识别***实施例的结构示意图;
图9为本发明克服混淆发音的语音识别***中,识别模块的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图3,图3为本发明克服混淆发音的语音识别方法实施例的步骤流程图,包括:
提取步骤310,接收语音信号,提取声学特征,确定特征向量;识别步骤320,利用声学模型、语言模型和音位混淆音标词典对接收到的所述特征向量进行识别;选择步骤330,选择最佳词序列以描述所述输入语音信号,进而得到词解码序列。
下面,对上述各个步骤进行详细的说明。
音位混淆音标词典的自动生成:
步骤1:选取训练集
将所有训练声学模型的语音数据库作为生成音位混淆矩阵的训练集。
步骤2:识别结果统计
对选取的语料用现有的音位识别器进行识别,记录得到的音位模型序列,根据标注信息统计对于每个音位i被识别成其它音位j的信息,以二维矩阵的形式记录下来。如图4所示,以汉语中平翘舌不分的现象为例,音位S在训练集中共出现了42次,其中识别正确31次,被识别成音位SH有11次,将频次信息按照行列记录在矩阵M(i,j)中。
步骤3:根据统计信息生成词典
根据统计的二维矩阵信息,生成线性的音位混淆发音表。如图5所示,把出现频率大于一定阈值的混淆发音保留下来记录在音位混淆发音表中,表中的每一项都是正则发音及其对应的混淆发音以及混淆发音在训练数据中出现的频次。例如,当阈值取1时,保留矩阵中所有大于1的数据项,表中Ts的数据项是(S,((SH,11),(S,31))),表明音位S在训练集中共出现了42次,其中识别正确31次,被识别成音位SH有11次,其它小于1的数据不予记录,这样有效的压缩了矩阵,节省了存储需要的空间和访问所需的时间。矩阵M和音位混淆发音表T构成了音位混淆音标词典。
音位混淆音标词典的使用方法:
根据音位混淆音标词典,搜索过程中向词表中加入一个新词W。识别器中一个词至少由三个属性构成:包括该词的标识码(ID)、汉字串、发音序列。加入的新词标识码和汉字串均不变,仅把该词的音节串替换为音位混淆音标词典中的发音序列,该步骤使得它具有一个新的读音;
按照已有的搜索树的创建方法,为加入了新词后的词表建立搜索树,参照图6。
检查搜索树中所有非叶子节点对应的有向弧,如果该有向弧中所标的音位在音位混淆音标词典中含有该音位的的混淆发音,则将该有向弧扩展出一个与之并列的有向弧。
在扩展搜索树后,音位混淆音标词典可以看成改进的发音词典,逻辑上如图7所示。此时无需修改现有的模型和识别搜索算法,即可完成带有音位混淆音标词典的语音识别任务。
另一方面,本发明还提供了一种克服混淆发音的语音识别***,参照图8,包括:
提取模块82,用于接收语音信号,提取声学特征,确定特征向量;识别模块84,用于利用声学模型、语言模型和音位混淆音标词典对接收到的所述特征向量进行识别;选择模块86,用于选择最佳词序列以描述所述输入语音信号,进而得到词解码序列。
参照图9,在一个实施例中,识别模块84进一步包括:训练集生成单元841,用于依据训练声学模型的语音数据库,生成音位混淆矩阵的训练集;二维矩阵记录单元842,用于采用音位识别器,对选取的所述训练集语料进行识别,记录得到的音位模型序列,根据标注信息统计对于每个音位被识别成其它音位的信息,以二维矩阵进行记录;音位混淆发音表获取步骤843,根据所述二维矩阵,生成线性的音位混淆发音表;所述音位发音表中每一项包括:正则发音、所述正则发音对应的混淆发音以及混淆发音在所述训练集中出现的频次。
上述***实施例与方法实施例原理相同,相关之处互相参照即可,在此不再赘述。
以上对本发明所提供的一种带有混淆发音的语音识别方法及***进行详细介绍,本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (4)

1.一种克服混淆发音的语音识别方法,其特征在于,包括:
提取步骤,接收语音信号,提取声学特征,确定特征向量;
识别步骤,利用声学模型、语言模型和音位混淆音标词典对接收到的所述特征向量进行识别;
选择步骤,选择最佳词序列以描述所述输入语音信号,进而得到词解码序列。
2.根据权利要求1所述的语音识别方法,其特征在于,所述识别步骤中,所述音位混淆音标词典包括二维矩阵和音位混淆发音表,通过如下方式获取:
训练集生成步骤,依据训练声学模型的语音数据库,生成音位混淆矩阵的训练集;
二维矩阵记录步骤,采用音位识别器,对选取的所述训练集语料进行识别,记录得到的音位模型序列,根据标注信息统计对于每个音位被识别成其它音位的信息,以二维矩阵进行记录;
音位混淆发音表获取步骤,根据所述二维矩阵,生成线性的音位混淆发音表;所述音位发音表中每一项包括:正则发音、所述正则发音对应的混淆发音以及混淆发音在所述训练集中出现的频次。
3.一种克服混淆发音的语音识别***,其特征在于,包括:
提取模块,用于接收语音信号,提取声学特征,确定特征向量;
识别模块,用于利用声学模型、语言模型和音位混淆音标词典对接收到的所述特征向量进行识别;
选择模块,用于选择最佳词序列以描述所述输入语音信号,进而得到词解码序列。
4.根据权利要求3所述的语音识别***,其特征在于,所述识别模块中,包括:
训练集生成单元,用于依据训练声学模型的语音数据库,生成音位混淆矩阵的训练集;
二维矩阵记录单元,用于采用音位识别器,对选取的所述训练集语料进行识别,记录得到的音位模型序列,根据标注信息统计对于每个音位被识别成其它音位的信息,以二维矩阵进行记录;
音位混淆发音表获取单元,用于根据所述二维矩阵,生成线性的音位混淆发音表;所述音位发音表中每一项包括:正则发音、所述正则发音对应的混淆发音以及混淆发音在所述训练集中出现的频次。
CN2010105682920A 2010-11-26 2010-11-26 克服混淆发音的语音识别方法及*** Pending CN102063900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105682920A CN102063900A (zh) 2010-11-26 2010-11-26 克服混淆发音的语音识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105682920A CN102063900A (zh) 2010-11-26 2010-11-26 克服混淆发音的语音识别方法及***

Publications (1)

Publication Number Publication Date
CN102063900A true CN102063900A (zh) 2011-05-18

Family

ID=43999147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105682920A Pending CN102063900A (zh) 2010-11-26 2010-11-26 克服混淆发音的语音识别方法及***

Country Status (1)

Country Link
CN (1) CN102063900A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578467A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
CN103578464A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
CN103810998A (zh) * 2013-12-05 2014-05-21 中国农业大学 基于移动终端设备的离线语音识别方法以及实现方法
CN103915092A (zh) * 2014-04-01 2014-07-09 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN105957518A (zh) * 2016-06-16 2016-09-21 内蒙古大学 一种蒙古语大词汇量连续语音识别的方法
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN107705787A (zh) * 2017-09-25 2018-02-16 北京捷通华声科技股份有限公司 一种语音识别方法及装置
CN107767858A (zh) * 2017-09-08 2018-03-06 科大讯飞股份有限公司 发音词典生成方法及装置、存储介质、电子设备
CN109616096A (zh) * 2018-12-29 2019-04-12 北京智能管家科技有限公司 多语种语音解码图的构建方法、装置、服务器和介质
CN109767763A (zh) * 2018-12-25 2019-05-17 苏州思必驰信息科技有限公司 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置
CN110797049A (zh) * 2019-10-17 2020-02-14 科大讯飞股份有限公司 一种语音评测方法及相关装置
CN112489646A (zh) * 2020-11-18 2021-03-12 北京华宇信息技术有限公司 语音识别方法及其装置
CN115206299A (zh) * 2022-09-15 2022-10-18 成都启英泰伦科技有限公司 一种基于命令词语音识别的易混淆词防误识别方法
CN117238277A (zh) * 2023-11-09 2023-12-15 北京水滴科技集团有限公司 意图识别方法、装置、存储介质及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0312209A2 (en) * 1987-10-12 1989-04-19 International Business Machines Corporation Speech recognition system using Markov models
CN1773606A (zh) * 2004-11-12 2006-05-17 中国科学院声学研究所 一种基于混淆网络的语音解码方法
US20070033044A1 (en) * 2005-08-03 2007-02-08 Texas Instruments, Incorporated System and method for creating generalized tied-mixture hidden Markov models for automatic speech recognition
CN101887725A (zh) * 2010-04-30 2010-11-17 中国科学院声学研究所 一种基于音素混淆网络的音素后验概率计算方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0312209A2 (en) * 1987-10-12 1989-04-19 International Business Machines Corporation Speech recognition system using Markov models
CN1773606A (zh) * 2004-11-12 2006-05-17 中国科学院声学研究所 一种基于混淆网络的语音解码方法
US20070033044A1 (en) * 2005-08-03 2007-02-08 Texas Instruments, Incorporated System and method for creating generalized tied-mixture hidden Markov models for automatic speech recognition
CN101887725A (zh) * 2010-04-30 2010-11-17 中国科学院声学研究所 一种基于音素混淆网络的音素后验概率计算方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《SIGIR "00 Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in informationretrieval》 20001231 Savitha Srinivasan,et al Phonetic confusion matrix based spoken document retrieval 81-87 1-4 , *
《中文信息学报》 20090131 倪崇嘉等 汉语大词汇量连续语音识别***研究进展 112-123,128 1-4 第23卷, 第1期 *
《中文信息学报》 20090131 倪崇嘉等 汉语大词汇量连续语音识别***研究进展 112-123,128 1-4 第23卷, 第1期 2 *
《声学学报》 20020131 刘明宽等 音节混淆字典及在汉语口音自适应中的应用研究 53-58 1-4 第27卷, 第1期 2 *
《福建电脑》 20081231 崔文迪等 语音识别综述 28-29 1-4 , 第1期 2 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578464A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
CN103578467A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
CN103810998A (zh) * 2013-12-05 2014-05-21 中国农业大学 基于移动终端设备的离线语音识别方法以及实现方法
CN103810998B (zh) * 2013-12-05 2016-07-06 中国农业大学 基于移动终端设备的离线语音识别方法以及实现方法
CN103915092B (zh) * 2014-04-01 2019-01-25 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN103915092A (zh) * 2014-04-01 2014-07-09 百度在线网络技术(北京)有限公司 语音识别方法和装置
WO2015149543A1 (zh) * 2014-04-01 2015-10-08 百度在线网络技术(北京)有限公司 语音识别方法和装置
US9805712B2 (en) 2014-04-01 2017-10-31 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for recognizing voice
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN105957518A (zh) * 2016-06-16 2016-09-21 内蒙古大学 一种蒙古语大词汇量连续语音识别的方法
CN105957518B (zh) * 2016-06-16 2019-05-31 内蒙古大学 一种蒙古语大词汇量连续语音识别的方法
CN107767858A (zh) * 2017-09-08 2018-03-06 科大讯飞股份有限公司 发音词典生成方法及装置、存储介质、电子设备
CN107767858B (zh) * 2017-09-08 2021-05-04 科大讯飞股份有限公司 发音词典生成方法及装置、存储介质、电子设备
CN107705787A (zh) * 2017-09-25 2018-02-16 北京捷通华声科技股份有限公司 一种语音识别方法及装置
CN109767763A (zh) * 2018-12-25 2019-05-17 苏州思必驰信息科技有限公司 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置
CN109616096B (zh) * 2018-12-29 2022-01-04 北京如布科技有限公司 多语种语音解码图的构建方法、装置、服务器和介质
CN109616096A (zh) * 2018-12-29 2019-04-12 北京智能管家科技有限公司 多语种语音解码图的构建方法、装置、服务器和介质
CN110797049A (zh) * 2019-10-17 2020-02-14 科大讯飞股份有限公司 一种语音评测方法及相关装置
CN112489646A (zh) * 2020-11-18 2021-03-12 北京华宇信息技术有限公司 语音识别方法及其装置
CN112489646B (zh) * 2020-11-18 2024-04-02 北京华宇信息技术有限公司 语音识别方法及其装置
CN115206299A (zh) * 2022-09-15 2022-10-18 成都启英泰伦科技有限公司 一种基于命令词语音识别的易混淆词防误识别方法
CN115206299B (zh) * 2022-09-15 2022-11-11 成都启英泰伦科技有限公司 一种基于命令词语音识别的易混淆词防误识别方法
CN117238277A (zh) * 2023-11-09 2023-12-15 北京水滴科技集团有限公司 意图识别方法、装置、存储介质及计算机设备
CN117238277B (zh) * 2023-11-09 2024-01-19 北京水滴科技集团有限公司 意图识别方法、装置、存储介质及计算机设备

Similar Documents

Publication Publication Date Title
CN102063900A (zh) 克服混淆发音的语音识别方法及***
CN105957518B (zh) 一种蒙古语大词汇量连续语音识别的方法
US9711139B2 (en) Method for building language model, speech recognition method and electronic apparatus
CN109410914B (zh) 一种赣方言语音和方言点识别方法
US9613621B2 (en) Speech recognition method and electronic apparatus
EP2862164B1 (en) Multiple pass automatic speech recognition
JP2021033255A (ja) 音声認識方法、装置、機器及びコンピュータ可読記憶媒体
CN106575502B (zh) 用于在合成语音中提供非词汇线索的***和方法
US20160300573A1 (en) Mapping input to form fields
US9704483B2 (en) Collaborative language model biasing
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
US8069042B2 (en) Using child directed speech to bootstrap a model based speech segmentation and recognition system
CN112599128B (zh) 一种语音识别方法、装置、设备和存储介质
Eyben et al. From speech to letters-using a novel neural network architecture for grapheme based ASR
Ahmed et al. End-to-end lexicon free arabic speech recognition using recurrent neural networks
Denisov et al. IMS-speech: A speech to text tool
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
Zhang et al. Wake-up-word spotting using end-to-end deep neural network system
Al-Anzi et al. The impact of phonological rules on Arabic speech recognition
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
KR20230156125A (ko) 룩업 테이블 순환 언어 모델
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
Rasipuram et al. Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic
Yang et al. German speech recognition: A solution for the analysis and processing of lecture recordings
Jyothi et al. Improved hindi broadcast ASR by adapting the language model and pronunciation model using a priori syntactic and morphophonemic knowledge.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110518