CN101777347A - 一种模型互补的汉语重音识别方法及*** - Google Patents
一种模型互补的汉语重音识别方法及*** Download PDFInfo
- Publication number
- CN101777347A CN101777347A CN200910250394A CN200910250394A CN101777347A CN 101777347 A CN101777347 A CN 101777347A CN 200910250394 A CN200910250394 A CN 200910250394A CN 200910250394 A CN200910250394 A CN 200910250394A CN 101777347 A CN101777347 A CN 101777347A
- Authority
- CN
- China
- Prior art keywords
- chinese
- module
- model
- speech
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000000295 complement effect Effects 0.000 title claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 59
- 239000000284 extract Substances 0.000 claims description 19
- 238000002372 labelling Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 10
- 239000000470 constituent Substances 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 abstract description 9
- 230000033764 rhythmic process Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000007812 deficiency Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004064 recycling Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明是一种模型互补的汉语重音识别方法及***,首先由第一输入模块输入汉语语音、汉语文本、汉语语音中每一个汉字的切分边界,由分词、词性标注模块对输入的汉语文本进行分词和词性标注处理,得到汉语文本中每一个汉字的词典特征和语法特征,由第一声学特征计算模块利用基频提取、带通能量计算、音强计算模块对输入的汉语语音进行基频抽取、频带能量计算以及音强计算,得到汉语文本中每一个汉字的声学特征;加载已经训练好的互补模型,利用输入汉字的声学特征以及词典特征和语法特征进行识别、判断每一个汉字的重音类型,输出已经标注好重音类型的汉语文本。
Description
技术领域
本发明涉及语音、语言信息技术,具体来讲,本发明涉及用于识别汉语语音的重音类型技术。
技术背景
人们在进行语言交流时,相互传递的不仅仅是语言文字信息,而且语言所表达的韵律信息也是一个重要的传递内容,因此,韵律特征又被称为超音段特征。一方面,韵律的合理组织可以使说话者能够清楚明白地表达所要表达的信息;另一方面,对韵律信息的正确理解为听话者更清楚、准确地理解听到的信息提供重要的帮助。近几十年来的研究成果也表明:韵律特征的引入,能够在减少语音识别的错误率,降低问题的复杂性,增加***理解的准确性,以及提高语音合成的自然度等方面具有非常重要的作用。基于统计的可训练的韵律模型已经成功地应用于语音合成领域,它对提高语音合成的自然度有很大的帮助。在语音识别领域,韵律模型已经成功地运用到德语、法语的语音识别。对于汉语,韵律模型也开始逐步地应用到语音识别领域。但是,应用的效果不是很好,特别是是在自然语言识别领域,并且,利用的韵律信息也很少。因此,针对语音识别和语音理解方面的基于大规模语料库的统计韵律模型的研究还需要进一步的深入。人们交流的语言不仅仅是各个单元的层级结构,而且语言中各个单元的轻重也同样起着非常重要的作用。重音是说话时多音节的词、短语或者句子中某一部分音发的比其它部分更加有力、突出,因而更加响亮、清楚。对重音的准确判断可以减少语音识别的错误率、提高语音合成的自然度、获得语音中的焦点信息、增加语音的可懂度等。由于重音在言语工程中的扮演者越来越重要的作用,因此利用计算机,通过建立模型对重音进行自动的识别越来越受到人们的重视。图1说明了汉语韵律的间断层次结构和重音的标注实例。从该例中可以看出,韵律的间断层次结构(“|”表示韵律的间断结构,“|”越多表示的间断层次越高,停顿的时间越长)和重音(图中带下划线的汉字表示重读)在语音的抑扬顿挫、语音的可懂度、语音中焦点信息的获取等方面扮演着很重要的脚色。
在现有的技术中,关于重音识别方面的研究可以将其分为两类:一类是分别对声学特征和词典、语法特征建模,最后通过加权组合来获得更好的模型;另一类是直接对所有的特征进行建模,如可以用集成的方法集成弱分类器进行建模或直接通过某种方法进行建模,获得用于判断重音类型的模型。对于第一类方法其不足之处在于:虽然最后通过加权的方法刻画了声学特征以及词典特征、语法特征之间的关系,但是它们之间的更深层次联系没有被模型所利用。从模型的层次上来讲,这类方法仅仅利用了当前音节所提供的特征。第二类方法其不足之处在于:虽然利用了来自声学、词典和语法特征训练模型,强化了声学特征和词典、语法特征之间的联系,但是没有重点突出如声学或者语法方面的特征,更没有很好地在模型层次上利用上下文特征。我们的方法在很大程度上克服这些不足。我们将充分利用来自声学以及词典、语法等方面的信息。采用集成分类回归树(Boosting CART)方法对所有特征进行建模,同时又对词典特征和语法特征采用条件随机场(CRFs)进行建模,通过加权的方法对这两种模型进行组合。虽然建模时看似利用了重复的信息(重复利用了词典、语法信息),但也正是这些信息的重复利用,使得建模时不仅重点突出了词典、语法信息,而且也在模型的更深层次上反映了声学特征以及词典、语法特征之间的关系。由于Boosting CART模型不仅很好地反映了当前音节属性又更深层次上反映属性之间的联系,同时CRFs又能够很好地反映该音节的上下文特性,这种在模型层次上的互补特性使得加权以后获得的互补模型有较好的识别效果。
发明内容
本发明的目的在于,提供一种模型互补的汉语重音识别方法及***,用以克服上述重音识别中的不足,以提高重音识别的准确性。
为了实现上述发明目的,本发明的第一方面,提供一种模型互补的汉语重音识别方法,该方法包括如下两个部分:互补模型的训练步骤A和利用互补模型对汉语重音识别步骤B;
步骤A:互补模型的训练步骤是利用互补模型训练模块对汉字的声学特征、词典特征以及语法特征利用集成分类回归树(Boosting CART)的方法训练集成分类回归树模型,同时又对词典特征以及语法特征利用条件随机场(Conditional Random Fields,CRFs)方法训练条件随机场模型,最后利用加权组合的方法对训练好的集成分类回归树模型和条件随机场模型进行加权组合,得到互补模型;
步骤B:利用互补模型对汉语重音识别,包括如下步骤:
步骤B1:在第一输入模块输入汉语语音、汉语文本、汉语语音中每一个汉字的切分边界;
步骤B2:用分词、词性标注模块对输入的汉语文本进行分词和词性标注处理,第一词典特征、语法特征计算模块结合分词和词性标注的结果计算得到汉语文本中每一个汉字词典特征和语法特征;
步骤B3:用第一声学特征计算模块是利用基频提取、带通能量计算、音强计算模块对输入的汉语语音进行基频抽取、500赫兹到2000赫兹能量计算以及音强计算,并结合汉语语音中每一个汉字的切分边界信息,得到汉语文本中每一个汉字的声学特征;
步骤B4:用互补模型加载模块和识别模块加载互补模型训练模块训练好的互补模型,利用每一个汉字特征,包括声学特征、词典特征和语法特征,应用加载的互补模型识别每一个汉字的重音类型;
步骤B5:用重音标注结果存储模块对每一个汉字的重音类型进行存储。
优选实施例,所述对输入的汉语文本进行分词和词性标注处理,获得文本中汉字的声调、分词、词性信息,并根据文本处理中获得的声调、分词、词性信息计算汉语文本中每一个汉字的词典特征和语法特征。
优选实施例,对输入的汉语语音按照16K赫兹进行采样,按照16位比特进行量化,并采用窗长是25.6毫秒及帧移是10毫秒的汉明窗(Hamming)窗计算汉语语音每一帧的梅尔倒谱(MFCC)特征,再计算汉语语音每一帧的基频、500赫兹到2000赫兹频带内的能量以及音强,并根据输入的汉语语音中每一个汉字的切分边界信息计算每一个汉字的声学特征。
优选实施例,所述互补模型在加权组合过程中,是利用互补模型在开发集上的识别率大小来调节集成分类回归树模型和条件随机场模型加权组合时的权重。
为了实现上述发明目的,本发明的第二方面,提供基于模型互补的汉语重音识别的***,所述***包括:
第一输入模块,接收输入汉语语音、汉语文本以及汉语语音中每一个汉字的时间切分信息;
分词、词性标注模块与第一输入模块连接,分词、词性标注模块对输入的汉语文本进行分词、词性标注处理,得到汉语文本的分词和词性标注序列;
基频提取、带通能量计算、音强计算模块与第一输入模块连接,对输入的汉语语音进行处理,包括基频提取、500赫兹到2000赫兹的带通能量计算、音强计算;
第一词典特征和语法特征计算模块与分词和词性标注模块连接,第一词典特征、语法特征计算模块是结合分词和词性标注的结果计算汉语文本中每一个汉字的词典和语法特征;
第一声学特征计算模块与基频提取、带通能量计算、音强计算模块连接,利用基频提取、带通能量计算以及音强计算结果,并结合输入的汉字的切分边界信息计算汉语文本中每一个汉字的声学特征;
互补模型加载模块和识别模块与第一声学特征计算模块以及第一词典特征、语法特征计算模块连接,互补模型加载模块加载互补模型,互补模型利用计算获得的每一个汉字的声学特征、词典特征和语法特征识别该汉字的重音类型;
重音标注结果存储模块与互补模型加载模块和识别模块连接,用于存储对汉语文本的重音类型标注的结果;
互补模型训练模块训练用于汉语重音识别的互补模型。
优选实施例,所述互补模型训练模块包括:
第二输入模块:从具有韵律标注的语料库中读入汉语语音以及与该语音所对应的韵律标注文件;
第二声学特征计算模块与第二输入模块相连,对输入汉语语音进行基频提取、500赫兹到2000赫兹的带通能量计算以及音强计算,并根据韵律标注中汉语语音的切分边界信息计算每一个汉字的声学特征;
第二词典特征和语法特征计算模块与第二输入模块相连,对韵律标注中的汉语文本进行分词和词性标注,同时结合韵律标注信息计算每一个汉字的词典特征和语法特征;
集成分类回归树模型训练模块与第二声学特征计算模块以及第二词典特征、语法特征计算模块相连,采用集成分类回归树学习方法对输入汉字的声学特征、词典特征以及语法特征训练集成分类回归树模型;
条件随机场模型训练模块与第二词典特征、语法特征计算模块相连,采用条件随机场方法训练条件随机场模型;
加权组合模块与集成分类回归树模型训练模块和条件随机场模型训练模块连接,采用加权组合的方法得到最终的用于汉语重音识别的互补模型,在加权组合过程中,利用互补模型在开发集上的识别率大小来调节Boosting CART模型和CRFs模型加权组合时的权重;
互补模型存储模块与加权组合模块连接,存储已经训练好的互补模型。
本发明的有益的效果是,通过对来自声学、词典和语法的全部特征利用集成分类回归树(Boosting CART)方法进行建模,同时又对词典特征和语法特征采用条件随机场(CRFs)建模,最后对利用上述两种建模方法获得的集成分类回归树(Boosting CART)模型和条件随机场(CRFs)模型通过加权组合得到识别率更高的互补模型。Boosting CART模型和CRFs模型在建模时虽然重复利用了来自词典、语法方面的信息,但正是这种信息的重复利用,使得词典、语法方面的信息得到强调,使得在模型层次上的上下文信息得到强调。并且,Boosting CART模型不仅反映了当前音节的全部属性又反映各属性之间的联系,同时CRFs模型反映该音节的上下文特性,这种在模型上的互补特性使得Boosting CART模型和CRFs模型在加权组合以后生成互补模型能够充分利用了模型的互补特性。本发明克服了之前关于重音识别方法的不足,提高了汉语重音的识别率。
附图说明
图1、为文本的分词和词性标注及韵律层级结构和重音标注示意图;
图2、为本发明***结构框图;
图3、为本发明***实施例的流程框图;
图4、为本发明***汉语重音识别流程框图;
图5、为本发明***模型训练流程框图。
具体实施方式
下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
如图2所示,本发明为一种模型互补的汉语重音识别***,所述***包括:第一输入模块101:输入汉语语音、汉语文本以及汉语语音中每一个汉字的时间切分信息;分词、词性标注模块102:对输入的汉语文本进行分词、词性标注处理,得到汉语文本的分词和词性标注序列;基频抽取、带通能量计算以及音强计算模块103:对输入的汉语语音进行基频抽取、带通能量计算以及音强计算;第一词典特征、语法特征计算模块104:结合分词和词性标注的结果计算汉语文本中每一个汉字的词典和语法特征;第一声学特征计算模块105:结合基频抽取、带通能量计算以及音强计算模块的结果和输入的汉字的切分信息计算汉语文本中每一个汉字的声学特征;模型加载106和识别模块107:对计算获得的每一个汉字的声学相关、词典相关和语法特征,加载模型,识别该汉字的重音类型;存储模块108:对汉语文本的重音类型存储标注的结果;互补模型训练模块109:利用机器学习中集成学习和条件随机场建模技术,采用有监督的机器学习方法,利用计算得到汉字的特征,包括声学特征、词典特征和语法特征训练得到集成分类回归树模型和条件随机场模型,最后采用加权组合的方法对训练得到的集成分类回归树模型和条件随机场模型加权组合,得到最后的用于汉语重音识别的互补模型。在加权组合过程中,利用互补模型在开发集上的识别率大小来调节集成分类回归树模型和条件随机场模型加权组合时的权重。
本***可以在计算机、服务器或者计算机网络中实现,其第一输入模块可以是键盘、鼠标、麦克风、通信机构等设备。
实施例
如图3所示,***主要包括汉语重音识别部分和互补模型训练部分。其中汉语重音识别部分主要由第一输入模块101、分词和词性标注模块102、基频抽取、带通能量计算、音强计算103、词典、语法特征计算模块104、第一声学特征计算模块105、模型加载模块106、识别模块107和重音标注结果存储模块108组成。第一输入模块101,包括输入wav格式的汉语语音、汉语文本以及汉语语音中每一个汉字的时间切分信息。汉语语音中每一个汉字的时间切分边界信息是通过语音识别***对其进行强制切分获得的。因此,我们是通过输入HTK工具的mlf文件格式来输入wav文件中每一个汉字的时间切分信息。如果输入的wav文件不止一个,那么我们输入的是wav文件的列表。相应的与wav文件对应的汉语文本则是每一个wav文件的文本占一行。分词和词性标记模块102对输入的文本进行分词和词性标注处理,该分词和词性标记模块102是文本分析的基础,这是因为汉语文本与英语等文本不同,在词和词之间没有空格作为分隔符。因此,首先需要对输入的文本进行分词和词性标注处理,获得的结果写入到第一词典特征、语法特征计算模块104,作为后续处理的基础。对文本进行分词和词性标注处理时,我们采用本实验室已有的分词和词性标注工具。分词采取了先将句子划分成不可再分的原子(每个分子可以是一个汉字、标点、数字串、字母串),然后通过N-Best方法粗分,即根据词典将整句话构造为一个有向无环图,图的一条边表式此边上所有节点构成的词是词典中的词,然后通过动态规划计算求得从起始点到终点的最短N条路径,得到句子的粗分结果,粗分结果作为隐马尔可夫模型(HMM)的输入,同时得到最终的分词结果和词性标注结果;命名实体识别采用基于统计的方法,分别记录训练语料中每个字出现在词首、词中、词尾、独立成词的概率,然后设定阈值通过经验公式决定单个字是否应该和前面的词合。基频抽取、带通能量计算、音强计算模块103是对输入的汉语语音按照16K赫兹进行采样,按照16位比特进行量化,并采用窗长是25.6毫秒、帧移是10毫秒的汉明(Hamming)窗,计算每一帧的梅尔倒谱(MFCC)特征。计算汉语语音每一帧的基频、500赫兹到2000赫兹频带内的能量以及音强,获得的结果作为后续的第一声学特征计算模块105处理的基础。我们采用鲁棒的基频跟踪算法RAPT对汉语语音提取基频,并且为了使基频曲线的连续,我们采用分段三次Hermite插值的方法对基频曲线进行插值处理。同时,为了消除不同说话人的影响,我们采用Z-SCORE算法正则化基频。在计算梅尔倒谱(MFCC)特征时,我们采用24个三角滤波器组进行运算,并对各滤波器的输出构成的向量进行离散余弦变换DCT,取前12个系数,同时加上基频的能量,共13维。我们对输入的语音通过FFT变换之后,一方面用于上面的梅尔倒谱(MFCC)特征的计算,同时还用于计算带通能量计算。我们采用500赫兹到2000赫兹高斯滤波器在频域内计算能量。词典、语法特征计算模块104就是根据分词和词性标注模块102文本分析的结果,计算汉语文本中每一个汉字的词典特征和语法特征。在计算每一个汉字的词典特征和语法特征时,我们主要是从两个方面来计算。一方面是该汉字的词典特征和语法特征,包括该汉字的声调、词性、该汉字在词中的位置(词首、词中、词尾)、该汉字是不是分词的边界、该汉字被重读的概率。同时考虑该汉字的上下文特性,包括其左边汉字以及右边汉字的词典和语法特征。考虑到汉语的特点,我们主要考虑当前汉字的前两个汉字和当前汉字的后一个汉字作为上下文窗口。第一声学特征计算模块105根据基频抽取、带通能量计算、音强计算模块103的结果,同时结合第一输入模块101输入的语音中汉字的时间切分边界信息计算每一个汉字的声学特征。每一个汉字的声学特征。主要包括当前汉字的基频、带通能量和音强方面的统计特征和当前汉字在上下文窗口中的基频、带通能量和音强方面的统计特征。当前汉字的基频、带通能量和音强方面的统计特征是静态的统计特征,包括最大值、最小值、均值、标准差、均方根、值域。当前汉字在上下文窗口中的基频、带通能量和音强方面的统计特征是当前汉字的静态统计特征被当前汉字的上下文窗口中的最大值和值域分别正则化得到的动态统计特征,用以表征该汉字在上下文中的声学变化。互补模型加载模块106就是加载互补模型。加载的互补模型是事先训练好的。识别模块107就是利用互补模型加载模块加载的互补模型和输入的汉字特征,包括声学特征、词典特征和语法特征,识别汉字的重音类型,获得的结果作为重音标注结果存储模块108的基础。重音标注结果存储模块108就是将汉语文本重音标注的结果写入到存储介质上。
互补模型训练模块109包括第二输入模块201、第二词典特征、语法特征计算模块202、第二声学特征计算模块203、条件随机场模型训练模块204、集成分类回归树模型训练模块205、加权组合模块206和互补模型存储模块207组成。互补模型训练模块是本发明的主题部分,是本发明区别与其它重音识别方法和***的关键所在,同时也是体现模型互补这一主旨的关键所在。第二输入模块201从具有具有韵律标注的语料库读入汉语语音以及与该语音相对应的韵律标注文件。韵律标注文件标注了汉语语音文本、汉语语音中每一个汉字的时间切分信息、每一个汉字的重音类型和每一个汉字的韵律间断类型。我们所用的具有韵律标注的语料库包含了10个说话人(5个男生、5个女生)语音,18篇文本语料,包含了87586个汉字(有重复)。第二词典特征和语法特征计算模块202用于计算文本中每一个汉字的词典特征和语法特征。我们对韵律标注中的汉语文本进行分词和词性标注,得到汉语文本的分词和词性信息,同时结合韵律标注信息中的声调信息,计算每一个汉字的词典特征和语法特征,包括该汉字的声调、词性、该汉字在词中的位置(词首、词中、词尾)、该汉字是不是分词的边界、该汉字被重读的概率。同时考虑该汉字的上下文特性,包括其左边汉字以及右边汉字的词典和语法特征。考虑到汉语的特点,我们主要考虑当前汉字的前两个汉字和当前汉字的后一个汉字作为上下文窗口。第二声学特征计算模块203用于计算文本中每一个汉字的声学特征。对输入汉语语音进行基频提取、500赫兹到2000赫兹的带通能量计算以及音强计算。对汉语语音按照16K进行采样赫兹,按照16位比特进行量化,并采用窗长是25.6毫秒、帧移是10毫秒的汉明(Hamming)窗,计算每一帧的梅尔倒谱(MFCC)特征。计算汉语语音每一帧的基频、500赫兹到2000赫兹频带内的能量以及音强,获得的结果作为后续的第一声学特征计算模块105处理的基础。我们采用鲁棒的基频跟踪算法RAPT对汉语语音提取基频,并且为了使基频曲线的连续,我们采用分段三次Hermite插值的方法对基频曲线进行插值处理。同时,为了消除不同说话人的影响,我们采用Z-SCORE算法正则化基频。在计算梅尔倒谱(MFCC)特征时,我们采用24个三角滤波器组进行运算,并对各滤波器的输出构成的向量进行离散余弦变换DCT,取前12个系数,同时加上基频的能量,共13维。我们对输入的语音通过FFT变换之后,一方面用于上面的梅尔倒谱(MFCC)特征的计算,同时还用于计算带通能量计算。我们采用500赫兹到2000赫兹高斯滤波器在频域内计算能量。条件随机场模型训练模块204与第二词典特征、语法特征计算模块202相连,采用条件随机场方法训练条件随机场模型。条件随机场(CRFs)模型非常适合用于进行顺序数据的标注,并提供了强大的描述上下文信息的功能,具有很好的可训练性。
条件随机场模型可以如下表示。对于序列数据X=x1...xT对应的标注(状态序列)Y=y1...yT,线性链结构的条件随机场模型的参数为A={λ1...λk},则它定义了一个条件概率PΛ(Y|X)为:
其中ZX是每个输入的正规化函数,用来保证所有状态系列的概率之和为1;fk(yt-1,yt,x,t)是特征函数,该函数的输出可以是任意的实数,但一般使用只有0-1两个输出的类型;λk是特征fk对应的权重,是条件随机场模型CRFs的参数,需要通过训练过程学习得到;k是索引;t=1,2,…T。序列数据X的长度为T,特征函数为fk,序列数据X在t-1时刻的标注为yt-1,序列数据X对应的标注是Y。
特征函数用来测度任意方面的状态转移yt-1→yt和以时间t为中心的整个观测序列数据X。如果条件随机场模型的参数Λ={λ1...λk}确定,则对应于序列数据X的最可能标注序列y*为
使用改进的Viterbi算法和A*算法来求取N个最好的标注序列(N-best list)。
至于模型的参数,可以通过最大似然估计求取。训练集{(xi,yi):i=1,...M}对应的log似然函数可以写成
LΛ是训练集的log似然函数,xi为第i时刻的观测数据,yi为第i时刻观测数据的标注,λk是特征fk对应的权重,是需要训练的参数,ZX是每个输入的正规化函数,用来保证所有状态系列的概率之和为1,M是训练集的大小,T为序列数据X的长度。我们采用梯度下降法训练条件随机场模型。
集成分类回归树模型训练模块205与第二声学特征计算模块203以及第二词典特征、语法特征计算模块202相连,采用集成分类回归树学习方法对输入汉字的声学特征、词典特征以及语法特征训练集成分类回归树模型。
Boosting是近年来流行的一种用来提高学习算法精度的集成机器学习算法,该算法是一种提高任意给定学习算法准确度的方法。它的思想起源于Valiant提出的PAC(Probably Approximately Correct)学习模型。Valiant和Kearns提出了弱学习和强学习的概念,识别错误率小于1/2,,也即准确率仅比随机猜测略高的学习算法称为弱学习算法;识别准确率很高并能在多项式时间内完成的学习算法称为强学习算法。同时,Valiant和Kearns首次提出了PAC学习模型中弱学习算法和强学习算法的等价性问题,即任意给定仅比随机猜测略好的弱学习算法,是否可以将其提升为强学习算法?如果二者等价,那么只需找到一个比随机猜测略好的弱学习算法就可以将其提升为强学习算法,而不必寻找很难获得的强学习算法。1990年,Schapire最先构造出一种多项式级的算法,对该问题做了肯定的证明,这就是最初的Boosting算法。一年后,Freund提出了一种效率更高的AdaBoost算法。但是,这两种算法存在共同的实践上的缺陷,那就是都要求事先知道弱学习算法学习正确率的下限。1995年,Freund和Shapire改进了Boost算法,提出了AdaBoost算法,该算法效率和Freund于1991年提出的Freund算法几乎相同,但不需要任何关于弱学习器的先验知识,因而更容易应用到实际问题当中。之后,Freund和Schaipre进一步提出了改变Boosting投票权重的AdaBoost.M1,AdaBoost.M2等算法,在机器学习领域受到了极大的关注。之后,很多人又提出了许多类似的算法。AdaBoost算法是Boosting家族最具代表性的算法,之后出现的各种Boosting算法都是在AdaBoost算法的基础之上发展而来的。我们采用AdaBoost.M2算法,同时选择分类回归树(CART)作为弱分类器训练重音识别模型。集成分类回归树(Boosting CART)方法不仅很好地反映了当前音节属性又在深层次上反映属性之间的联系,同时具有很好的可训练性。因此,我们采用Boosting CART方法对每一个汉字的全部特征,包括声学特征、词典特征和语法特征,训练重音模型。加权组合模块与集成分类回归树模型训练模块和条件随机场模型训练模块连接,采用加权组合的方法得到最终的用于汉语重音识别的互补模型,在加权组合过程中,利用互补模型在开发集上的识别率大小来调节Boosting CART模型和CRFs模型加权组合时的权重。我们采用公式(4)对Boosting CART模型和CRFs模型进行加权组合,得到最终的互补模型。
设W={w1,w2,…,wn}是音节序列,A={a1,a2,…,an}是相应的声学特征序列,S={s1,s2,…,sn}是相应的词典特征、语法特征序列,那么W的最有可能的重音标注序列P*可以表示为:
其中,log(p(pi|ai,φ(si)))是集成分类回归树模型的得分,log(p(pi|φ(si)))是条件随机场模型的得分,λ是区分不同方法建立模型的权重,p表示概率分布,P表示音节序列W的重音标注序列,P*表示音节序列W的最有可能的重音标注序列,A为声学特征序列,S为词典特征、语法特征序列,pi为第i个音节的重音标注,ai为第i个音节的声学特征,si为第i个音节的词典特征、语法特征,φ(si)为第i个音节的在上下文窗口中的词典、语法特征,i=1,2,…n。
虽然Boosting CART建模和CRFs建模时看似利用了重复的信息(重复利用了词典、语法信息),但也正是这些信息的重复利用,使得建模时不仅重点突出了词典、语法信息,而且也在更深层次上反映了声学特征以及词典特征、语法特征之间的关系。由于Boosting CART模型和CRFs模型的模型互补,加权组合以后获得的互补模型可以弥补两个模型的不足。该互补模型不仅反映了当前音节属性又在深层次上反映属性之间的联系,同时又刻画了当前音节的上下文属性,因此,具有很好的识别性能。
互补模型存储模块207与加权组合模块206连接,存储已经训练好的互补模型。
图4给出了本发明***的识别部分流程框图,是图3的一部分。主要是更好地将***的识别部分和训练部分分开。
图5给出了本发明***的模型训练部分流程框图,是图3的一部分。当训练模型时,我们采用如下的参数设置:在用Boosting方法集成弱分类器CART时,我们集成了100个CART,同时采用15次的交叉验证方法提高Boosting CART模型的精度。在用CRFs方法训练时,我们采用梯度下降法训练模型。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (6)
1.一种模型互补的汉语重音识别方法,其特征是,利用汉语重音识别***实现该方法包括如下两个部分:互补模型的训练步骤A和利用互补模型对汉语重音识别步骤B;
步骤A:互补模型的训练步骤是利用互补模型训练模块对汉字的声学特征、词典特征以及语法特征利用集成分类回归树(Boosting CART)的方法训练集成分类回归树模型,同时又对词典特征以及语法特征利用条件随机场(Conditional Random Fields,CRFs)方法训练条件随机场模型,最后利用加权组合的方法对训练好的集成分类回归树模型和条件随机场模型进行加权组合,得到互补模型;
步骤B:利用互补模型对汉语重音识别,包括如下步骤:
步骤B1:在第一输入模块输入汉语语音、汉语文本、汉语语音中每一个汉字的切分边界;
步骤B2:用分词、词性标注模块对输入的汉语文本进行分词和词性标注处理,第一词典特征和语法特征计算模块结合分词和词性标注的结果计算得到汉语文本中每一个汉字词典特征和语法特征;
步骤B3:用第一声学特征计算模块是利用基频提取、带通能量计算、音强计算模块对输入的汉语语音进行基频抽取、500赫兹到2000赫兹能量计算以及音强计算,并结合汉语语音中每一个汉字的切分边界信息,得到汉语文本中每一个汉字的声学特征;
步骤B4:用互补模型加载模块和识别模块加载互补模型训练模块训练好的互补模型,利用每一个汉字特征,包括声学特征、词典特征和语法特征,应用加载的互补模型识别每一个汉字的重音类型;
步骤B5:用重音标注结果存储模块对每一个汉字的重音类型进行存储。
2.根据权利要求1所述的方法,其特征是,所述对输入的汉语文本进行分词和词性标注处理,获得文本中汉字的声调、分词、词性信息,并根据文本处理中获得的声调、分词、词性信息计算汉语文本中每一个汉字的词典特征和语法特征。
3.根据权利要求1所述的方法,其特征是,对输入的汉语语音按照16K赫兹进行采样,按照16位比特进行量化,并采用窗长是25.6毫秒及帧移是10毫秒的汉明窗(Hamming)窗计算汉语语音每一帧的梅尔倒谱(MFCC)特征,再计算汉语语音每一帧的基频、500赫兹到2000赫兹频带内的能量以及音强,并根据输入的汉语语音中每一个汉字的切分边界信息计算每一个汉字的声学特征。
4.根据权利要求1所述的方法,其特征是,所述互补模型在加权组合过程中,是利用互补模型在开发集上的识别率大小来调节集成分类回归树模型和条件随机场模型加权组合时的权重。
5.一种模型互补的汉语重音识别***,其特征是,该***包括:
第一输入模块,接收输入汉语语音、汉语文本以及汉语语音中每一个汉字的时间切分信息;
分词、词性标注模块与第一输入模块连接,分词、词性标注模块对输入的汉语文本进行分词、词性标注处理,得到汉语文本的分词和词性标注序列;
基频提取、带通能量计算、音强计算模块与第一输入模块连接,对输入的汉语语音进行处理,包括基频提取、500赫兹到2000赫兹的带通能量计算、音强计算;
第一词典特征和语法特征计算模块与分词和词性标注模块连接,第一词典特征和语法特征计算模块是结合分词和词性标注的结果计算汉语文本中每一个汉字的词典和语法特征;
第一声学特征计算模块与基频提取、带通能量计算、音强计算模块连接,利用基频提取、带通能量计算以及音强计算结果,并结合输入的汉字的切分边界信息计算汉语文本中每一个汉字的声学特征;
互补模型加载模块和识别模块与第一声学特征计算模块以及第一词典特征、语法特征计算模块连接,互补模型加载模块加载互补模型,互补模型利用计算获得的每一个汉字的声学特征、词典特征和语法特征识别该汉字的重音类型;
重音标注结果存储模块与互补模型加载模块和识别模块连接,用于存储对汉语文本的重音类型标注的结果;
互补模型训练模块训练用于汉语重音识别的互补模型。
6.如权利要求5所述的***,其特征在于,所述互补模型训练模块包括:
第二输入模块:从具有韵律标注的语料库中读入汉语语音以及与该语音所对应的韵律标注文件;
第二声学特征计算模块与第二输入模块相连,对输入汉语语音进行基频提取、500赫兹到2000赫兹的带通能量计算以及音强计算,并根据韵律标注中汉语语音的切分边界信息计算每一个汉字的声学特征;
第二词典特征和语法特征计算模块与第二输入模块相连,对韵律标注中的汉语文本进行分词和词性标注,同时结合韵律标注信息计算每一个汉字的词典特征和语法特征;
集成分类回归树模型训练模块与第二声学特征计算模块以及第二词典特征、语法特征计算模块相连,采用集成分类回归树学习方法对输入汉字的声学特征、词典特征以及语法特征训练集成分类回归树模型;
条件随机场模型训练模块与第二词典特征、语法特征计算模块相连,采用条件随机场方法训练条件随机场模型;
加权组合模块与集成分类回归树模型训练模块和条件随机场模型训练模块连接,采用加权组合的方法得到最终的用于汉语重音识别的互补模型,在加权组合过程中,利用互补模型在开发集上的识别率大小来调节Boosting CART模型和CRFs模型加权组合时的权重;
互补模型存储模块与加权组合模块连接,存储已经训练好的互补模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102503945A CN101777347B (zh) | 2009-12-07 | 2009-12-07 | 一种模型互补的汉语重音识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102503945A CN101777347B (zh) | 2009-12-07 | 2009-12-07 | 一种模型互补的汉语重音识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101777347A true CN101777347A (zh) | 2010-07-14 |
CN101777347B CN101777347B (zh) | 2011-11-30 |
Family
ID=42513783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009102503945A Expired - Fee Related CN101777347B (zh) | 2009-12-07 | 2009-12-07 | 一种模型互补的汉语重音识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101777347B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102237088A (zh) * | 2011-06-17 | 2011-11-09 | 盛乐信息技术(上海)有限公司 | 语音识别多信息文本获取装置及方法 |
CN102543082A (zh) * | 2012-01-19 | 2012-07-04 | 北京赛德斯汽车信息技术有限公司 | 使用自然语言的车载信息服务***语音操作方法及*** |
CN103035241A (zh) * | 2012-12-07 | 2013-04-10 | 中国科学院自动化研究所 | 模型互补的汉语韵律间断识别***及方法 |
CN103635962B (zh) * | 2011-08-19 | 2015-09-23 | 旭化成株式会社 | 声音识别***、识别字典登记***以及声学模型标识符序列生成装置 |
CN105185374A (zh) * | 2015-09-11 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 韵律层级标注方法和装置 |
CN105701084A (zh) * | 2015-12-28 | 2016-06-22 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于互信息的文本分类的特征提取方法 |
CN105988978A (zh) * | 2015-03-04 | 2016-10-05 | 科大讯飞股份有限公司 | 确定文本焦点的方法及*** |
CN106409291A (zh) * | 2016-11-04 | 2017-02-15 | 南京侃侃信息科技有限公司 | 一种语音搜索列表的实现方法 |
CN108461111A (zh) * | 2018-03-16 | 2018-08-28 | 重庆医科大学 | 中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质 |
CN108470024A (zh) * | 2018-03-12 | 2018-08-31 | 北京灵伴即时智能科技有限公司 | 一种融合句法语义语用信息的汉语韵律结构预测方法 |
CN109196582A (zh) * | 2016-06-10 | 2019-01-11 | 谷歌有限责任公司 | 用单词重音预测发音的***和方法 |
CN110827813A (zh) * | 2019-10-18 | 2020-02-21 | 清华大学深圳国际研究生院 | 一种基于多模态特征的重音检测方法及*** |
CN111261189A (zh) * | 2020-04-02 | 2020-06-09 | 中国科学院上海微***与信息技术研究所 | 一种车辆声音信号特征提取方法 |
CN112037782A (zh) * | 2020-06-30 | 2020-12-04 | 北京来也网络科技有限公司 | 一种结合rpa与ai的早媒体识别方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008134475A (ja) * | 2006-11-28 | 2008-06-12 | Internatl Business Mach Corp <Ibm> | 入力された音声のアクセントを認識する技術 |
-
2009
- 2009-12-07 CN CN2009102503945A patent/CN101777347B/zh not_active Expired - Fee Related
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102237088A (zh) * | 2011-06-17 | 2011-11-09 | 盛乐信息技术(上海)有限公司 | 语音识别多信息文本获取装置及方法 |
CN102237088B (zh) * | 2011-06-17 | 2013-10-23 | 盛乐信息技术(上海)有限公司 | 语音识别多信息文本获取装置及方法 |
CN103635962B (zh) * | 2011-08-19 | 2015-09-23 | 旭化成株式会社 | 声音识别***、识别字典登记***以及声学模型标识符序列生成装置 |
CN102543082A (zh) * | 2012-01-19 | 2012-07-04 | 北京赛德斯汽车信息技术有限公司 | 使用自然语言的车载信息服务***语音操作方法及*** |
CN103035241A (zh) * | 2012-12-07 | 2013-04-10 | 中国科学院自动化研究所 | 模型互补的汉语韵律间断识别***及方法 |
CN105988978A (zh) * | 2015-03-04 | 2016-10-05 | 科大讯飞股份有限公司 | 确定文本焦点的方法及*** |
CN105988978B (zh) * | 2015-03-04 | 2019-05-28 | 科大讯飞股份有限公司 | 确定文本焦点的方法及*** |
CN105185374A (zh) * | 2015-09-11 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 韵律层级标注方法和装置 |
CN105185374B (zh) * | 2015-09-11 | 2017-03-29 | 百度在线网络技术(北京)有限公司 | 韵律层级标注方法和装置 |
CN105701084A (zh) * | 2015-12-28 | 2016-06-22 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于互信息的文本分类的特征提取方法 |
CN109196582A (zh) * | 2016-06-10 | 2019-01-11 | 谷歌有限责任公司 | 用单词重音预测发音的***和方法 |
CN109196582B (zh) * | 2016-06-10 | 2023-05-09 | 谷歌有限责任公司 | 用单词重音预测发音的***和方法 |
CN106409291A (zh) * | 2016-11-04 | 2017-02-15 | 南京侃侃信息科技有限公司 | 一种语音搜索列表的实现方法 |
CN106409291B (zh) * | 2016-11-04 | 2019-12-17 | 南京侃侃信息科技有限公司 | 一种语音搜索列表的实现方法 |
CN108470024A (zh) * | 2018-03-12 | 2018-08-31 | 北京灵伴即时智能科技有限公司 | 一种融合句法语义语用信息的汉语韵律结构预测方法 |
CN108470024B (zh) * | 2018-03-12 | 2020-10-30 | 北京灵伴即时智能科技有限公司 | 一种融合句法语义语用信息的汉语韵律结构预测方法 |
CN108461111A (zh) * | 2018-03-16 | 2018-08-28 | 重庆医科大学 | 中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质 |
CN110827813B (zh) * | 2019-10-18 | 2021-11-12 | 清华大学深圳国际研究生院 | 一种基于多模态特征的重音检测方法及*** |
CN110827813A (zh) * | 2019-10-18 | 2020-02-21 | 清华大学深圳国际研究生院 | 一种基于多模态特征的重音检测方法及*** |
CN111261189A (zh) * | 2020-04-02 | 2020-06-09 | 中国科学院上海微***与信息技术研究所 | 一种车辆声音信号特征提取方法 |
CN111261189B (zh) * | 2020-04-02 | 2023-01-31 | 中国科学院上海微***与信息技术研究所 | 一种车辆声音信号特征提取方法 |
CN112037782A (zh) * | 2020-06-30 | 2020-12-04 | 北京来也网络科技有限公司 | 一种结合rpa与ai的早媒体识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101777347B (zh) | 2011-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101777347B (zh) | 一种模型互补的汉语重音识别方法及*** | |
Hopkins et al. | Automatically generating rhythmic verse with neural networks | |
Morgan | Deep and wide: Multiple layers in automatic speech recognition | |
CN103035241A (zh) | 模型互补的汉语韵律间断识别***及方法 | |
Razak et al. | Quranic verse recitation recognition module for support in j-QAF learning: A review | |
Kurian et al. | Speech recognition of Malayalam numbers | |
Elsner et al. | Speech segmentation with a neural encoder model of working memory | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
Akila et al. | Isolated Tamil word speech recognition system using HTK | |
Phan et al. | A study in vietnamese statistical parametric speech synthesis based on HMM | |
Wang et al. | CE-Tacotron2: end-to-end emotional speech synthesis | |
Manjutha et al. | Automated speech recognition system—A literature review | |
Ribeiro et al. | Syllable-Level Representations of Suprasegmental Features for DNN-Based Text-to-Speech Synthesis. | |
CN115424616A (zh) | 一种音频数据筛选方法、装置、设备及计算机可读介质 | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
CN112733546A (zh) | 表情符号生成方法、装置、电子设备及存储介质 | |
Wu et al. | Modeling context-dependent phonetic units in a continuous speech recognition system for Mandarin Chinese | |
Zeng et al. | Low-resource accent classification in geographically-proximate settings: A forensic and sociophonetics perspective | |
Kurian et al. | Automated Transcription System for MalayalamLanguage | |
Alam et al. | Bangla Speaker Accent Variation Classification from Audio Using Deep Neural Networks: A Distinct Approach | |
Khorram et al. | Soft context clustering for F0 modeling in HMM-based speech synthesis | |
CN113192483B (zh) | 一种文本转换为语音的方法、装置、存储介质和设备 | |
Yakubovskyi et al. | Speech Models Training Technologies Comparison Using Word Error Rate | |
Bu et al. | The Speech Synthesis of Yi Language Based on DNN | |
Salvi | Developing acoustic models for automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111130 Termination date: 20211207 |