CN104217717B - 构建语言模型的方法及装置 - Google Patents
构建语言模型的方法及装置 Download PDFInfo
- Publication number
- CN104217717B CN104217717B CN201310207237.2A CN201310207237A CN104217717B CN 104217717 B CN104217717 B CN 104217717B CN 201310207237 A CN201310207237 A CN 201310207237A CN 104217717 B CN104217717 B CN 104217717B
- Authority
- CN
- China
- Prior art keywords
- field
- classification
- identification result
- language
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000012549 training Methods 0.000 claims abstract description 72
- 239000000463 material Substances 0.000 claims abstract description 61
- 238000013145 classification model Methods 0.000 claims abstract description 45
- 238000009412 basement excavation Methods 0.000 claims abstract description 30
- 238000006243 chemical reaction Methods 0.000 claims description 65
- 238000007418 data mining Methods 0.000 claims description 37
- 235000013399 edible fruits Nutrition 0.000 claims description 6
- 230000008569 process Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000006854 communication Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000205 computational method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种构建语言模型的方法及装置,属于语音识别技术领域。方法包括:根据对数据样本中的句子进行分类挖掘获取的分类训练样本构建文本分类器;通过文本分类器对数据样本进行分类并获取分类词表和分类语料;根据分类词表从分类语料中得到高频语言模板;分别对高频语言模板、分类语料和分类词表进行训练,得到分类模板语言模型、分类语言模型和分类词表语言模型。本发明通过对从数据样本中挖掘出的分类词表、分类语料和高频语言模板进行训练得到的分类词表语言模型、分类语言模型和分类模板语言模型,实现了在不增加数据样本数量的前提下,增加了语言模型的数量,进而提高了利用上述模型进行语音识别的准确性。
Description
技术领域
本发明涉及语音识别技术领域,特别涉及一种构建语言模型的方法及装置。
背景技术
随着近年来语音识别技术以及移动互联网技术的发展,语音识别技术的应用范围越来越广。在实现语音识别功能时,通常采用语音识别解码器对语音数据进行解码,而语音识别解码器在解码过程中,采用声学模型及语言模型等实现语音到文字的转换。因此,如何构建语言模型,是提高语音识别准确性的关键。
目前,在构建语言模型时,通过对一个词典进行数据挖掘,得到一个最初的涵盖多领域的语言训练样本,使用该语言训练样本进行训练得到语言模型。同时,随着领域的不断细化,垂直领域不断增多,为了保证训练得到的语言模型是一个较均衡的多垂直领域的语言模型,通过不断对最初的语音训练样本进行针对各垂直领域固定权重的插值的方法,使训练语言模型的训练样本涵盖众多垂直领域。
在实现本发明的过程中,发明人发现上述构建语言模型的方法至少存在以下缺点:
由于最初的语音训练样本是通过对一个词典进行数据挖掘得到的,因此,为了使最初的语言训练样本能够涵盖更多领域,必须增大词典的容量,使词典能够涵盖更多领域,增加了获得词典的难度,从而增加了构建语言模型的难度。
另外,通过针对各垂直领域固定权重插值的方法扩充最初的语音训练样本时,该插值后的训练样本很难包括该垂直领域的专业用语、生僻词汇以及冷门词汇,使得根据该语言训练样本构建的语言模型针对该垂直领域的识别结果不准确,从而降低了语音识别的准确性。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种构建语言模型的方法及装置。所述技术方案如下:
第一方面,提供了一种构建语言模型的方法,所述方法包括:
获取数据样本,并对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
根据所述数据挖掘的结果获取分类训练样本,并根据所述分类训练样本构建文本分类器;
通过所述文本分类器对所述数据样本进行分类,根据分类结果获取分类词表和分类语料;
根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板;
对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
第二方面,提供了一种构建语言模型的装置,所述装置包括:
第一获取模块,用于获取数据样本;
第一挖掘模块,用于对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
第二获取模块,用于根据所述数据挖掘的结果获取分类训练样本;
第一构建模块,用于根据所述分类训练样本构建文本分类器;
分类模块,用于通过所述文本分类器对所述数据样本进行分类;
第三获取模块,用于根据分类结果获取分类词表和分类语料;
第二挖掘模块,用于根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板;
训练模块,用于对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
本发明实施例提供的技术方案带来的有益效果是:
通过根据对数据样本中的句子进行挖掘获取分类词表、分类语料和高频语言模板进行训练得到的分类模板语言模型、分类语言模型和分类词表语言模型,实现了在不增加数据样本数量的前提下,增加了语言模型的数量,进而提高了使用分类模板语言模型、分类语言模型和分类词表语言模型进行语音识别的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例一提供的一种构建语言模型的方法流程图;
图2是本发明实施例二提供的一种构建语言模型的方法流程图;
图3是本发明实施例二提供的一种构建语音解码器的构建示意图;
图4是本发明实施例二提供的一种构建语音解码器的方法流程图;
图5是本发明实施例三提供的一种构建语言模型的装置结构示意图;
图6是本发明实施例三提供的一种第二获取模块的结构示意图;
图7是本发明实施例三提供的另一种构建语言模型的装置结构示意图;
图8是本发明实施例三提供的第一种第二构建模块的结构示意图;
图9是本发明实施例三提供的第二种第二构建模块的结构示意图;
图10是本发明实施例三提供的第三种第二构建模块的结构示意图;
图11是本发明实施例三提供的一种第一计算子模块的结构示意图;
图12是本发明实施例三提供的一种第三计算子模块的结构示意图;
图13是本发明实施例四提供的一种终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本实施例提供了一种构建语言模型的方法,参见图1,本实施例提供的方法流程具体如下:
101:获取数据样本,并对数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
102:根据数据挖掘的结果获取分类训练样本,并根据分类训练样本构建文本分类器;
进一步地,根据数据挖掘的结果获取分类训练样本,包括:对挖掘出的句子进行频率统计,并根据频率对挖掘出的句子进行排序;根据排序结果从挖掘出的句子中选取分类训练样本。
进一步地,根据分类训练样本构建文本分类器,包括:对分类训练样本中的句子进行tf-idf(Term Frequency-Inverse Document Frequency,词频-逆向文件频率)特征和互信息统计,并根据统计结果构建文本分类器。
103:通过文本分类器对数据样本进行分类,根据分类结果获取分类词表和分类语料;
进一步地,通过文本分类器对数据样本进行分类,包括:通过文本分类器对数据样本中高近似度的句子进行挖掘,并将挖掘出的句子作为分类结果;
进一步地,根据分类结果获取分类词表和分类语料,包括:对分类结果中的句子进行词频统计,并根据词频统计结果选取分类词,得到分类词表;将分类词表中的词所对应的句子作为分类语料。
104:根据分类词表对分类语料进行挖掘,得到高频语言模板;
105:对高频语言模板进行训练,得到分类模板语言模型,并对分类语料进行训练,得到分类语言模型,对分类词表进行训练,得到分类词表语言模型。
进一步地,分类模板语言模型、分类词表语言模型和分类语言模型为任一领域的模型,本实施例提供的方法还包括:
根据预先获取的声学模型以及任一领域的分类语言模型、任一领域的分类词表语言模型和数据样本构建语音解码器。
进一步地,根据预先获取的声学模型以及任一领域的分类语言模型、任一领域的分类词表语言模型和数据样本构建语音解码器,包括:
将任一领域的分类语言模型进行加权的有限状态转换,得到分类语言模型WFST(Weighted Finite State Transducer,加权的有限状态转换器),并将分类词表语言模型进行加权的有限状态转换,得到分类词表WFST;
将任一领域的分类语言模型WFST与分类词表WFST进行加权的有限状态转换,得到融合语言模型WFST;
将数据样本进行加权的有限状态转换,得到词表WFST,并将词表WFST与融合语言模型WFST进行加权的有限状态转换,得到词表语言WFST;
将声学模型进行加权的有限状态转换,得到声学模型WFST,并将声学模型WFST与词表语言WFST进行加权的有限状态转换,得到最终的WFST,将最终的WFST作为任一领域的语音解码器。
进一步地,将声学模型WFST与词表语言WFST进行加权的有限状态转换,得到最终的WFST,将最终的WFST作为任一领域的语音解码器之后,还包括:
获取语音数据的语音特征,并将语音特征输入任一领域的语音解码器,得到任一领域的语音识别结果。
可选地,将声学模型WFST与词表语言WFST进行加权的有限状态转换,得到最终的WFST,将最终的WFST作为任一领域的语音解码器之后,还包括:
获取语音数据的语音特征,并将语音特征输入并行的多个领域的语音解码器,得到各个领域的语音识别结果;
根据各个领域的语音识别结果计算声学模型在各个领域的置信度分数值、分类语言模型在各个领域的置信度及各个领域对应的类别分数值;
根据声学模型在各个领域的置信度分数值、分类语言模型在各个领域的置信度分数值及各个领域对应的类别分数值获取各个领域的语音识别结果的综合分数值,并根据综合分数值从各个领域的语音识别结果中选择一个语音识别结果作为最终的语音识别结果。
进一步地,根据各个领域的语音识别结果计算声学模型在各个领域的置信度分数值,包括:
将各个领域的语音识别结果进行对齐,分别计算对齐之后的各个领域的语音识别结果的各个音素级别的置信度分数值,根据各个领域的语音识别结果的各个音素级别的置信度分数值计算各个领域的语音识别结果的各个关键词级别的置信度分数值;
根据关键词级别的置信度分数值从各个领域的语音识别结果的多个关键词级别的置信度分数值中选择一个各个领域的语音识别结果的关键词级别的置信度分数值作为声学模型在各个领域的置信度分数值。
进一步地,计算对齐之后的各个领域的语音识别结果的各个音素级别的置信度分数值,包括:
按照公式 计算对齐之后的各个领域的语音识别结果的各个音素级别的置信度分数值;
其中,phi为第i个音素,音素从起始帧开始,到结束帧结束,b[i]为phi的起始帧,e[i]为phi的结束帧,o(n)为phi对应的观测序列,q(n)为phi对应的状态序列。
进一步地,根据各个领域的语音识别结果的各个音素级别的置信度分数值计算各个领域的语音识别结果的各个关键词级别的置信度分数值,包括:
按照公式计算各个领域的语音识别结果的各个关键词级别的置信度分数值;
其中,m为关键词w包含的音素的个数。
进一步地,根据关键词级别的置信度分数值从各个领域的语音识别结果的多个关键词级别的置信度分数值中选择一个各个领域的语音识别结果的关键词级别的置信度分数值作为声学模型在各个领域的置信度分数值,包括:
按照公式 选择最大的各个领域的语音识别结果的关键词级别的置信度分数值作为声学模型在各个领域的置信度分数值;
其中,Sj(wi)为进行声学模型训练的第j个音频样本,Trp(wi)为第j个音频样本中的第i个发音序列,N(S(wi))为音频样本的数量。
进一步地,根据各个领域的语音识别结果计算分类语言模型在各个领域的置信度,包括:
按照公式计算分类语言模型在各个领域的置信度;
其中,ti表示第i个词,Sen表示任一领域的语音识别结果中句子的总数量,Word表示句子中词的总数量。
进一步地,根据各个领域的语音识别结果计算各个领域对应的类别分数值,包括:
分别获得各个领域的语音识别结果的中心词,并根据中心词在分类词表中出现的频率确定识别分数W1;
分别将各个领域的语音识别结果放入文本分类器中,得到文本分类概率权重W2;
分别将各个领域的语音识别结果进行实体词识别,并根据实体词在分类词表中出现的频率确定识别分数W3;
按照公式W=W1+W2+W3计算类别分数值,并将类别分数值作为各个领域对应的类别分数值。
进一步地,根据声学模型在各个领域的置信度分数值、分类语言模型在各个领域的置信度分数值及各个领域对应的类别分数值获取各个领域的语音识别结果的综合分数值,包括:
按照公式score=α*CM(wi)+β*ppl+γ(W)获取各个领域的语音识别结果的综合分数值;
其中,α、β和γ为不小于零的任一值,CM(wi)为声学模型的置信度分数值,ppl为分类语言模型的置信度分数值,W为对应的类别分数值。
进一步地,根据综合分数值从各个领域的语音识别结果中选择一个语音识别结果作为最终的语音识别结果,包括:
根据综合分数值从各个领域的语音识别结果中选择最大的综合分数值对应的语音识别结果作为最终的语音识别结果。
本实施例提供的方法,通过根据对数据样本中的句子进行挖掘获取分类词表、分类语料和高频语言模板进行训练得到的分类模板语言模型、分类语言模型和分类词表语言模型,实现了在不增加数据样本数量的前提下,增加了语言模型的数量,进而提高了使用分类模板语言模型、分类语言模型和分类词表语言模型进行语音识别的准确性。
为了更加清楚地阐述上述实施例提供的一种构建语言模型的方法,结合上述实施例的内容,以如下实施例二为例,对一种构建语言模型的方法进行详细说明,详见如下实施例二:
实施例二
本实施例提供了一种构建语言模型的方法,参见图2,本实施例提供的方法流程具体如下:
201:获取数据样本,并对数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
针对该步骤,按照领域的不同将每一领域作为一类,对获取的数据样本进行分类挖掘,将挖掘得到的每一类的句子作为该类的数据挖掘的结果。获取数据样本的具体方法包括但不限于:利用网络爬取技术在网络上爬取各个领域的文章或者段落,将爬取到的各个领域的文章或者段落作为获取到的数据样本。本实施例也不对按照领域分类的具体分类原则进行限定,例如,按照领域性质将领域分为地图类、数码科技类等。或者,还可以获取一个大词典和一组分类词典,并将词典中的数据作为数据样本。除此之外,还可以采取其他获取样本数据的方法,本实施例不对获取数据样本的具体方法进行限定。
另外,对于对数据样本中的句子进行挖掘的具体挖掘方法,本实施例也进行限定。包括但不限于,利用最大后向匹配算法挖掘出数据样本中的句子。
值得说明的是,如果数据挖掘出的数据挖掘结果为一类数据挖掘结果,可以按照如下步骤202至步骤205的方法构建该类的语言模型,得到该类的分类模板语言模型、该类的分类语言模型和该类的分类词表语言模型。如果数据挖掘出的数据挖掘结果为多类数据挖掘结果,可以分别对每一类的数据挖掘结果,按照如下步骤202至步骤205的方法构建该类的语言模型,得到该类的分类模板语言模型、该类的分类语言模型和该类的分类词表语言模型;最终,得到多个分类模板语言模型、多个分类语言模型和多个分类词表语言模型。
例如,数据样本含盖地图和数码科技2个领域,因此对样本数据中的句子进行分类挖掘后得到2类数据挖掘结果,分别是地图类数据挖掘结果和数码科技类数据挖掘结果。先针对地图类数据挖掘结果执行步骤202至步骤205,得到地图类的分类模板语言模型、分类语言模型和分类词表语言模型。再针对数码科技类数据挖掘结果执行步骤202至步骤205,得到数码科技类的分类模板语言模型、分类语言模型和分类词表语言模型。最终,得到2个分类模板语言模型、2个分类语言模型和2个分类词表语言模型。当然,数据样本涵盖的领域还可以为其它领域,涵盖的数量还可以为其它数量,本实施例不对数据样本具体涵盖的领域及涵盖的数量进行限定。
202:根据数据挖掘的结果获取分类训练样本,并根据分类训练样本构建文本分类器;
针对根据数据挖掘的结果获取分类训练样本的步骤,在具体实施时,包括但不限于通过如下两个步骤实现,本实施例不对获取分类训练样本的具体实现步骤进行限定。
步骤一:对挖掘出的句子进行频率统计,并根据频率对挖掘出的句子进行排序;
针对步骤一,对挖掘出的句子在数据样本中出现的频率进行统计,并根据统计出频率的大小进行排序。
步骤二:根据排序结果从挖掘出的句子中选取分类训练样本。
针对步骤二,根据步骤一中得到的频率大小排序结果,将从挖掘出的句子中高频的句子作为分类训练样本。本实施例不对高频句子的具体确定标准进行限定,例如,设定频率阈值,将频率值大于或者等于频率阈值的句子确定为高频句子。
以挖掘出的句子为句子1、句子2、句子3,句子1的频率为10%、句子2的频率为5%、句子3的频率为3%,且频率阈值为5%为例,经过步骤一得到的根据频率对挖掘出的句子进行从大到小的排序结果为句子1、句子2、句子3。由于句子1的频率10%大于频率阈值5%,句子2的频率5%等于频率阈值5%,句子3的频率3%小于频率阈值5%,因此,选取句子1和句子2为分类训练样本。当然,挖掘出的句子还可以为其它句子,本实施例不对挖掘出的具体句子进行限定;频率值还可以为其它数值,本实施例不对具体的频率值进行限定。
另外,本实施例不对根据分类训练样本构建文本分类器的具体构建方法进行限定,包括但不限于通过对分类训练样本中的句子进行tf-idf特征和互信息统计,并根据统计结果构建文本分类器。
203:通过文本分类器对数据样本进行分类,根据分类结果获取分类词表和分类语料;
针对该步骤,首先通过文本分类器对数据样本中高近似度的句子进行挖掘,并将挖掘出的句子作为分类结果;再对分类结果中的句子进行词频统计,并根据词频统计结果选取分类词,得到分类词表;最后将分类词表中的词所对应的句子作为分类语料。
本实施例不对高近似度的句子的具体确定标准进行限定,例如,设定相似阈值,并将每个句子进行拆词处理,相同词的数量大于或者等于相似阈值的句子,则确定为高近似度的句子。本实施例也不对得到分类词表的具体方法进行限定,包括但不限于,将高近似度句子中的词进行tf-idf特征统计,选择tf-idf词频高的词,得到分类词表。
需要说明的是,为了对数据样本进行充分挖掘,可以在执行步骤204之前重复执行步骤201至步骤203,以不断的扩充分类词表和分类语料,直至不再对分类词表和分类语料进行扩充。本实施例不对不再对分类词表和分类语料进行扩充的判断方法进行限定,包括但不限于,如果前后连续两次挖掘出的分类词表和分类语料相同,则判断为不再对分类词表和分类语料进行扩充。
204:根据分类词表对分类语料进行挖掘,得到高频语言模板;
针对该步骤,本实施例不对根据分类词表对分类语料进行挖掘的具体挖掘方法进行限定。如果每个句子均有一个可以表示该句子应用场景的标签,可挖掘分类语料对应的标签,并将标签作为高频语音模板。当然,标签还可以表示其它内容,本实施例不对标签的具体内容进行限定。
以分类语料为句子1和句子2,句子1的标签为标签1,句子2的标签为标签2为例,将标签1和标签2作为高频语音模板。
205:对高频语言模板进行训练,得到分类模板语言模型,并对分类语料进行训练,得到分类语言模型,对分类词表进行训练,得到分类词表语言模型;
针对该步骤,本实施例不对高频语言模板进行训练、对分类语料进行训练以及对分类词表进行训练的具体训练方法进行限定。例如,可以通过神经网络技术对高频语言模板进行训练、对分类语料进行训练以及对分类词表进行训练。
进一步地,为了使分类语言模型覆盖更全面,还可以在分别对高频语言模板进行训练,得到分类模板语言模型,并对分类词表进行训练,得到分类词表语言模型之后,将得到的分类模板语言模型与分类词表语言模型进行组合,得到分类语言模型,并将该组合得到的分类语言模型扩充到训练得到的分类语言模型中,得到最终的分类语言模型。本实施例不对将组合得到的分类语言模型扩充到训练得到的分类语言模型中的具体扩充方法进行限定,包括但不限于如下方法:
在分类模板语言模型中每个模板后均加入一个标签,以表示该分类模板可以与哪些分类词表语言模型中的词组合,同时在分类词表语言模型中每个词前面也加入一个标签,以表示该词可以与哪些分类模板语言模型中的模板组合。在分类模板语言模型与分类词表语言模型进行组合时,将标签相同的分类模板与词进行组合得到句子,并将得到的句子扩充到分类语言模型中。本实施例不对在每个模板后加入的标签以及在每个词前面加入的标签的具体添加原则进行限定,例如,可以根据模板或者词所属应用场景添加标签。
需要说明的是,在通过上述步骤201至步骤205得到语言模型之后,可以将该语言模型应用到语音识别领域,因此,可选地,本实施例提供的方法还包括根据得到的语言模型中的分类模板语言模型、分类词表语言模型和构建语言模型时的数据样本构建语音解码器,通过该解码器实现语音识别的过程,具体详见后续步骤。
206:根据预先获取的声学模型以及任一领域的分类语言模型、该领域的分类词表语言模型和构建语言模型时的数据样本构建语音解码器;
针对该步骤,在执行步骤201至步骤205之后,会构建出多个领域的分类语言模型和分类词表语言模型。根据预先获取的声学模型以及任一领域通过步骤201至步骤205构建的分类语言模型和分类词表语言模型以及构建语音模型使得数据样本构建语音解码器。其中,预先获取的声学模型描述了在每一个音素或者三音子模型上的特征概率分布,音素是根据语音的自然属性划分出来的最小语音单位,从声学性质来讲,音素是从音质角度划分出来的最小语音单位,从生理性质来看,一个发音动作形成一个音素。具体实施时,该声学模型可以为常用于语音识别中的隐马尔可夫模型。隐马尔可夫模型是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。
本实施例不对构建语音解码器的具体方式进行限定,为了便于说明,结合图3所示的构建语音解码器的构建示意图为例,对构建语音解码器的具体方法进行详细说明,参见图4,构建语音解码器的具体方法为:
2061:将任一领域的分类语言模型进行加权的有限状态转换,得到分类语言模型WFST,并将分类词表语言模型进行加权的有限状态转换,得到分类词表WFST;
针对该步骤,由于在构建语言模型时,会得到分类语言模型和分类词表语言模型,因此,将任一领域的分类语言模型进行加权的有限状态转换,得到分类语言模型WFST,并将分类词表语言模型进行加权的有限状态转换,得到分类词表WFST。
2062:将任一领域的分类语言模型WFST与分类词表WFST进行加权的有限状态转换,得到融合语言模型WFST;
针对该步骤,将步骤2061中得到的任一领域的分类语言模型WFST与分类词表WFST进行加权的有限状态转换,得到融合语言模型WFST。
2063:将数据样本进行加权的有限状态转换,得到词表WFST,并将词表WFST与融合语言模型WFST进行加权的有限状态转换,得到词表语言WFST;
针对该步骤,将在构建语言模型时使用的数据样本进行加权的有限状态转换,得到词表WFST,并将词表WFST与步骤2062中得到的融合语言模型WFST进行加权的有限状态转换,得到词表语言WFST。
2064:将声学模型进行加权的有限状态转换,得到声学模型WFST,并将声学模型WFST与词表语言WFST进行加权的有限状态转换,得到最终的WFST,将最终的WFST作为任一领域的语音解码器。
针对该步骤,获取的声学模型,并将获取到的声学模型进行加权的有限状态转换,得到声学模型WFST,并将声学模型WFST与步骤2063中得到的词表语言WFST进行加权的有限状态转换,得到最终的WFST,将最终的WFST作为任一领域的语音解码器。本实施例不对获取声学模型的具体方式进行限定,例如,声学模型可以通过声学训练样本进行训练得到,本实施例也不对声学模型的具体训练样本及具体训练方法进行限定。
值得说明的是,构建语音解码器时可以分别将各个模型或者样本进行加权的有限状态转换,得到该模型或者样本对应的WFST。例如,将分类语言模型进行加权的有限状态转换,得到分类语言模型对应的分类语言模型WFST;将分类词表语言模型进行加权的有限状态转换,得到分类词表语言模型对应的分类词表WFST;将数据样本进行加权的有限状态转换,得到数据样本对应的词表WFST;将声学模型进行加权的有限状态转换,得到声学模型对应的声学模型WFST。
也可以分别将进行加权的有限状态转换得到的各个模型对应的WFST进行加权的有限状态转换,得到对应的WFST,直至将各个模型转换成一个最终的WFST。例如,将任一领域的分类语言模型WFST与分类词表WFST进行加权的有限状态转换,得到对应的融合语言模型WFST;将词表WFST与融合语言模型WFST进行加权的有限状态转换,得到对应的词表语言WFST;将声学模型WFST与词表语言WFST进行加权的有限状态转换,得到对应的最终的WFST。
另外,如果在步骤205之后,构建出一个领域的分类模板语言模型、分类语言模型、分类词表语言模型,则将构建出的分类模板语言模型、分类语言模型、分类词表语言模型通过上述步骤2061至步骤2064的方法构建语音解码器。如果在步骤205之后,构建出多个领域的分类模板语言模型、多个领域的分类语言模型、多个领域的分类词表语言模型,则分别将构建出的每一领域的分类模板语言模型、分类语言模型、分类词表语言模型通过上述步骤2061至步骤2064的方法构建该领域语音解码器,最终得到多个语音解码器,其中,每一个语音解码器对应一个领域。另外,在执行上述步骤2061至步骤2064中,可以通过现有加权的有限状态转换方法对相应的模型、数据样本等进行加权的有限状态转换,本实施例不对进行加权的有限状态转换的具体转换方法进行限定。
经过步骤206得到语音解码器之后,可以将该语音解码器应用到语音识别领域,进行语音识别。可选地,本实施例提供的方法还包括根据构建的语音解码器进行语音识别的过程,具体方法详见如下后续步骤:
207:获取语音数据的语音特征,并将语音特征输入语音解码器,得到语音识别结果。
针对该步骤,本实施例不对语音数据的语音特征的具体获取方式进行限定。例如,可以通过智能设备上的麦克风获取语音数据,并获取的语音数据对应的语音特征。
另外,在具体实施将语音特征输入语音解码器,得到语音识别结果的步骤时,根据语音解码器的数量,选择如下两个具体实施步骤中的一个实施。
第一个具体实施步骤:如果语音解码器的数量为一个,则将语音特征输入语音解码器,得到语音识别结果的具体实施步骤为,将语音特征输入该语音解码器,得到语音识别结果;
针对该步骤,如果经过步骤2064后得到的一个语音解码器,将语音特征输入该语音解码器,并得到一段文字作为语音识别结果。
第二个具体实施步骤:如果语音解码器的数量为多个,则将语音特征输入语音解码器,得到语音识别结果的具体实施步骤包括如下3个步骤:
步骤1:将语音特征输入并行的多个领域的语音解码器,得到各个领域的语音识别结果。
具体的,如果经过步骤2064后得到的两个语音解码器,即语音解码器1和语音解码器2。将语音特征输入语音解码器1,并得到语音解码器1的语音识别结果1;将语音特征输入语音解码器2,并得到语音解码器2的语音识别结果2。
步骤2:根据各个领域的语音识别结果计算声学模型在各个领域的置信度分数值、分类语言模型在各个领域的置信度及各个领域对应的类别分数值;
针对该步骤,由于各个领域的语音识别结果的长短不齐,使得计算声学模型在各个领域的置信度分数值的计算标准不统一,从而,根据长短不齐的各个领域的语音识别结果计算出的声学模型在各个领域的置信度分数值在后续步骤中没有可比性。因此,在执行步骤2时,先将各个领域的语音识别结果进行强制对齐,以便统一计算声学模型在各个领域的置信度分数值的计算标准,从而,使的计算出的声学模型在各个领域的置信度分数值在后续步骤中有可比性。本实施例不对将各个领域的语音识别结果强制对齐的具体方法进行限定。
进一步地,将各个领域的语音识别结果强制对齐之后,针对任一领域,该步骤2可以按如下3个子步骤进行具体实施:
第1子步骤:根据任一领域的语音识别结果计算声学模型在该领域的置信度分数值;
针对第1子步骤,本实施例不对根据任一领域的语音识别结果计算声学模型在该领域的置信度分数值的具体计算方法进行限定。包括但不限于如下的计算方法:
由于语音识别结果包括多个关键词,每个关键词又包括多个音素,且每个音素从起始帧开始,到结束帧结束。因此,分别计算对齐之后的语音识别结果的各个音素级别的置信度分数值;根据任一关键词中各个音素级别的置信度分数值计算该关键词的关键词级别的置信度分数值;根据关键词级别的置信度分数值从多个关键词级别的置信度分数值中选择一个关键词级别的置信度分数值作为声学模型在该领域的置信度分数值。
针对上述计算方法,本实施例不对音素级别的置信度分数值的具体计算方法进行限定。例如, 计算音素级别的置信度分数值;其中,phi为第i个音素,b[i]为phi的起始帧,e[i]为phi的结束帧,o(n)为phi对应的观测序列,q(n)为phi对应的状态序列。
另外,本实施例也不对根据任一关键词中各个音素级别的置信度分数值计算该关键词的关键词级别的置信度分数值的具体计算方法进行限定。例如,按照公式计算关键词级别的置信度分数值;其中,m为关键词w包含的音素的个数。
此外,本实施例也不对根据关键词级别的置信度分数值从多个关键词级别的置信度分数值中选择一个关键词级别的置信度分数值作为声学模型的置信度分数值的具体选择方法进行限定。例如,按照公式 选择最大的关键词级别的置信度分数值作为声学模型在该领域的置信度分数值;其中,Sj(wi)为进行声学模型训练的第j个音频样本,Trp(wi)为第j个音频样本中的第i个发音序列,N(S(wi))为音频样本的数量。
第2子步骤:根据任一领域的语音识别结果计算语言模型在该领域的置信度分数值;
针对第2子步骤,本实施例不对根据任一领域的语音识别结果计算语言模型在该领域的置信度分数值的具体计算方法进行限定。例如,按照公式计算语言模型的置信度分数值;
其中,ti表示第i个词,Sen表示任一领域的语音识别结果中句子的总数量,Word表示句子中词的总数量。
第3子步骤:根据任一领域的语音识别结果计算该领域对应的类别分数值。
针对第3子步骤,本实施例不对根据任一领域的语音识别结果计算该领域对应的类别分数值的计算方法进行限定。例如,获得该领域的语音识别结果的中心词,并根据中心词在该领域的分类词表中出现的频率确定识别分数W1;将得该领域的语音识别结果放入文本分类器中,得到文本分类概率权重W2;将得该领域的语音识别结果进行实体词识别,并根据实体词在该领域分类词表中出现的频率确定识别分数W3;按照公式W=W1+W2+W3计算类别分数值,并将类别分数值作为该领域对应的类别分数值。本实施例不对获取该领域的语音识别结果的中心词的方法进行限定,包括但不限于,通过对该领域的语音识别结果进行分词,计算每个词之间的语义距离,选取和其它语义距离最大的词作为中心词。另外,本实施例也不对根据中心词在该领域分类词表中出现的频率确定识别分数W1的具体方法进行限定。例如,将中心词在该领域分类词表中出现的频率值作为识别分数W1。本实施例也不对根据实体词在该领域分类词表中出现的频率确定识别分数W3的具体方法进行限定。例如将实体词在该领域分类词表中出现的频率值作为识别分数W3。
步骤3:根据声学模型在各个领域的置信度分数值、分类语言模型在各个领域的置信度及各个领域对应的类别分数值获取各个领域的语音识别结果的综合分数值,并根据综合分数值从各个领域的语音识别结果中选择一个语音识别结果作为最终的语音识别结果。
针对步骤3,本实施例不对根据声学模型在各个领域的置信度分数值、分类语言模型在各个领域的置信度及各个领域对应的类别分数值获取每个最终转换结果的综合分数值的具体获取方法进行限定。例如,对于任一领域,按照公式score=α*CM(wi)+β*ppl+γ(W)获取任一领域的语音识别结果的综合分数值。其中参数α、β和γ为经验值,CM(wi)为声学模型在该领域的置信度分数值,ppl为语言模型在该领域的置信度分数值,W为在该领域对应的类别分数值。本实施例不对参数α、β和γ值的具体选择方法进行限定。例如,选择测试样本,并将该测试样本分成k等份。依次取k等份中的每一份作为验证数据,其它k-1等份作为训练数据,用该k-1等份对公式score=α*CM(wi)+β*ppl+γ(W)进行训练得到参数α、β和γ的值,并用该验证数据对训练后的参数α、β和γ的值进行验证。平均k次训练得到的参数α、β和γ的值,并将该平均值作为公式score=α*CM(wi)+β*ppl+γ(W)的参数α、β和γ的值。
另外,本实施例也不对根据综合分数值从各个领域的语音识别结果中选择一个领域的语音识别结果作为最终的语音识别结果的选择标准进行限定。例如,根据综合分数值从多个领域的语音识别结果中选择最大的综合分数值对应的最语音识别结果作为最终的语音识别结果。
具体的,对于一段语音,以该语音在科技领域的综合分数值为90,在数码科技领域的总和分数值为80为例,选择总和分数值最大的数码科技领域对应的最终转换结果作为语音识别结果。
本实施例提供的方法,通过根据对数据样本中的句子进行挖掘获取分类词表、分类语料和高频语言模板进行训练得到的分类模板语言模型、分类语言模型和分类词表语言模型,实现了在不增加数据样本数量的前提下,增加了语言模型的数量,进而提高了使用分类模板语言模型、分类语言模型和分类词表语言模型进行语音识别的准确性。
实施例三
本实施例提供了一种构建语言模型的装置,该装置用于执行上述实施例一或施例二所提供的构建语言模型的方法,参见图5,该装置包括:
第一获取模块501,用于获取数据样本;
第一挖掘模块502,用于对数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
第二获取模块503,用于根据数据挖掘的结果获取分类训练样本;
第一构建模块504,用于根据分类训练样本构建文本分类器;
分类模块505,用于通过文本分类器对数据样本进行分类;
第三获取模块506,用于根据分类结果获取分类词表和分类语料;
第二挖掘模块507,用于根据分类词表对分类语料进行挖掘,得到高频语言模板;
训练模块508,用于对高频语言模板进行训练,得到分类模板语言模型,并对分类语料进行训练,得到分类语言模型,对分类词表进行训练,得到分类词表语言模型。
参见图6,第二获取模块503,包括:
统计子模块5031,用于对挖掘出的句子进行频率统计;
排序子模块5032,用于根据频率对挖掘出的句子进行排序;
选取子模块5033,用于根据排序结果从挖掘出的句子中选取分类训练样本。
进一步地,第一构建模块504,用于对分类训练样本中的句子进行词频-逆向文件频率tf-idf特征和互信息统计,并根据统计结果构建文本分类器。
进一步地,分类模块505,用于通过文本分类器对数据样本中高近似度的句子进行挖掘,并将挖掘出的句子作为分类结果;
第三获取模块506,用于对分类结果中的句子进行词频统计,并根据词频统计结果选取分类词,得到分类词表;将分类词表中的词所对应的句子作为分类语料。
参见图7,分类模板语言模型、分类词表语言模型和分类语言模型为任一领域的模型,该装置还包括:
第二构建模块509,用于根据预先获取的声学模型以及任一领域的分类语言模型、任一领域的分类词表语言模型和数据样本构建语音解码器。
参见图8,第二构建模块509,包括:
第一转换子模块5091,用于将任一领域的分类语言模型进行加权的有限状态转换,得到分类语言模型加权的有限状态转换器WFST,并将分类词表语言模型进行加权的有限状态转换,得到分类词表WFST;
第二转换子模块5092,用于将任一领域的分类语言模型WFST与分类词表WFST进行加权的有限状态转换,得到融合语言模型WFST;
第三转换子模块5093,用于将数据样本进行加权的有限状态转换,得到词表WFST,并将词表WFST与融合语言模型WFST进行加权的有限状态转换,得到词表语言WFST;
第四转换子模块5094,用于将声学模型进行加权的有限状态转换,得到声学模型WFST,并将声学模型WFST与词表语言WFST进行加权的有限状态转换,得到最终的WFST,将最终的WFST作为任一领域的语音解码器。
参见图9,第二构建模块509,还包括:
第一获取子模块5095,用于获取语音数据的语音特征;
识别子模块5096,用于将语音特征输入任一领域的语音解码器,得到任一领域的语音识别结果。
进一步地,识别子模块5096,还用于将语音特征输入并行的多个领域的语音解码器,得到各个领域的语音识别结果;
参见图10,第二构建模块509,还包括:
第一计算子模块5097,用于根据各个领域的语音识别结果计算声学模型在各个领域的置信度分数值;
第二计算子模块5098,用于根据各个领域的语音识别结果计算分类语言模型在各个领域的置信度;
第三计算子模块5099,用于根据各个领域的语音识别结果计算各个领域对应的类别分数值;
第二获取子模块50910,用于根据声学模型在各个领域的置信度分数值、分类语言模型在各个领域的置信度分数值及各个领域对应的类别分数值获取各个领域的语音识别结果的综合分数值;
选择子模块50911,用于根据综合分数值从各个领域的语音识别结果中选择一个语音识别结果作为最终的语音识别结果。
参见图11,第一计算子模块5097,包括:
对齐单元50971,用于将各个领域的语音识别结果进行对齐;
第一计算单元50972,用于分别计算对齐之后的各个领域的语音识别结果的各个音素级别的置信度分数值;
第二计算单元50973,用于根据各个领域的语音识别结果的各个音素级别的置信度分数值计算各个领域的语音识别结果的各个关键词级别的置信度分数值;
选择单元50974,用于根据关键词级别的置信度分数值从各个领域的语音识别结果的多个关键词级别的置信度分数值中选择一个各个领域的语音识别结果的关键词级别的置信度分数值作为声学模型在各个领域的置信度分数值。
进一步地,第一计算单元50972,用于按照公式
其中,phi为第i个音素,音素从起始帧开始,到结束帧结束,b[i]为phi的起始帧,e[i]为phi的结束帧,o(n)为phi对应的观测序列,q(n)为phi对应的状态序列。
进一步地,第二计算单元50973,用于按照公式计算各个领域的语音识别结果的各个关键词级别的置信度分数值;
其中,m为关键词w包含的音素的个数。
进一步地,选择单元50974,用于按照公式
其中,Sj(wi)为进行声学模型训练的第j个音频样本,Trp(wi)为第j个音频样本中的第i个发音序列,N(S(wi))为音频样本的数量。
进一步地,第二计算子模块5098,用于按照公式计算分类语言模型在各个领域的置信度;
其中,ti表示第i个词,Sen表示任一领域的语音识别结果中句子的总数量,Word表示句子中词的总数量。
参见图12,第三计算子模块5099,包括:
第一确定单元50991,用于分别获得各个领域的语音识别结果的中心词,并根据中心词在分类词表中出现的频率确定识别分数W1;
第二确定单元50992,用于分别将各个领域的语音识别结果放入文本分类器中,得到文本分类概率权重W2;
第三确定单元50993,用于分别将各个领域的语音识别结果进行实体词识别,并根据实体词在分类词表中出现的频率确定识别分数W3;
计算单元50994,用于按照公式W=W1+W2+W3计算类别分数值,并将类别分数值作为各个领域对应的类别分数值。
进一步地,第二获取子模块50910,用于按照公式
score=α*CM(wi)+β*ppl+γ(W)获取各个领域的语音识别结果的综合分数值;
其中,α、β和γ为不小于零的任一值,CM(wi)为声学模型的置信度分数值,ppl为分类语言模型的置信度分数值,W为对应的类别分数值。
进一步地,选择子模块50911,用于根据综合分数值从各个领域的语音识别结果中选择最大的综合分数值对应的语音识别结果作为最终的语音识别结果。
本实施例提供的终端,通过根据对数据样本中的句子进行挖掘获取分类词表、分类语料和高频语言模板进行训练得到的分类模板语言模型、分类语言模型和分类词表语言模型,实现了在不增加数据样本数量的前提下,增加了语言模型的数量,进而提高了使用分类模板语言模型、分类语言模型和分类词表语言模型进行语音识别的准确性。
实施例四
参见图13,本实施例提供了一种终端,图13示出了本发明实施例所涉及的具有触敏表面的终端结构示意图,该终端可以用于实施上述实施例中提供的处理对象的方法。具体来讲:
终端1300可以包括RF(RadI/O Frequency,射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、传输模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解,图13中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器180处理;另外,将涉及上行的数据发送给基站。通常,RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communicatI/On,全球移动通讯***)、GPRS(General Packet RadI/O Service,通用分组无线服务)、CDMA(Code DivisI/On Multiple Access,码分多址)、WCDMA(Wideband CodeDivisI/On Multiple Access,宽带码分多址)、LTE(Long Term EvolutI/On,长期演进)、电子邮件、SMS(Short Messaging Service,短消息服务)等。
存储器120可用于存储软件程序以及模块,如实施例三中构建语言模型的装置所对应的软件程序以及模块,处理器180通过运行存储在存储器120的软件程序以及模块,从而执行各种功能应用以及数据处理,如实构建语音模型及语音识别等。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端1300的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180和输入单元130对存储器120的访问。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端1300的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting DI/Ode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图13中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
终端1300还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在终端1300移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端1300还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路160、扬声器161,传声器162可提供用户与终端1300之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器180处理后,经RF电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与终端1300的通信。
终端1300通过传输模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线或有线的宽带互联网访问。虽然图13示出了传输模块170,但是可以理解的是,其并不属于终端800的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器180是终端1300的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端1300的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器180可包括一个或多个处理核心;优选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
终端1300还包括给各个部件供电的电源190(比如电池),优选的,电源可以通过电源管理***与处理器180逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端1300还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端的显示单元是触摸屏显示器,终端还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于进行以下操作的指令:
获取数据样本,并对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
根据所述数据挖掘的结果获取分类训练样本,并根据所述分类训练样本构建文本分类器;
通过所述文本分类器对所述数据样本进行分类,根据分类结果获取分类词表和分类语料;
根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板;
对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,所述终端的存储器中,还包含用于执行以下操作的指令:
对挖掘出的句子进行频率统计,并根据频率对挖掘出的句子进行排序;
根据排序结果从所述挖掘出的句子中选取分类训练样本。
在第一种可能的实施方式作为基础而提供的第三种可能的实施方式中,所述终端的存储器中,还包含用于执行以下操作的指令:
对所述分类训练样本中的句子进行词频-逆向文件频率tf-idf特征和互信息统计,并根据统计结果构建文本分类器。
在第一种可能的实施方式作为基础而提供的第四种可能的实施方式中,所述终端的存储器中,还包含用于执行以下操作的指令:
通过所述文本分类器对所述数据样本中高近似度的句子进行挖掘,并将挖掘出的句子作为分类结果;
对分类结果中的句子进行词频统计,并根据词频统计结果选取分类词,得到分类词表;
将所述分类词表中的词所对应的句子作为分类语料。
在第一、第二、第三或第四种可能的实施方式作为基础而提供的第五种可能的实施方式中,所述终端的存储器中,还包含用于执行以下操作的指令:
根据预先获取的声学模型以及任一领域的分类语言模型、所述任一领域的分类词表语言模型和所述数据样本构建语音解码器。
在第五种可能的实施方式作为基础而提供的第六种可能的实施方式中,所述终端的存储器中,还包含用于执行以下操作的指令:
将所述任一领域的分类语言模型进行加权的有限状态转换,得到分类语言模型加权的有限状态转换器WFST,并将所述分类词表语言模型进行加权的有限状态转换,得到分类词表WFST;
将所述任一领域的分类语言模型WFST与所述分类词表WFST进行加权的有限状态转换,得到融合语言模型WFST;
将所述数据样本进行加权的有限状态转换,得到词表WFST,并将所述词表WFST与所述融合语言模型WFST进行加权的有限状态转换,得到词表语言WFST;
将所述声学模型进行加权的有限状态转换,得到声学模型WFST,并将所述声学模型WFST与词表语言WFST进行加权的有限状态转换,得到最终的WFST,将所述最终的WFST作为所述任一领域的语音解码器。
在第六种可能的实施方式作为基础而提供的第七种可能的实施方式中,所述终端的存储器中,还包含用于执行以下操作的指令:
获取语音数据的语音特征,并将所述语音特征输入所述任一领域的语音解码器,得到所述任一领域的语音识别结果。
在第六种可能的实施方式作为基础而提供的第八种可能的实施方式中,所述终端的存储器中,还包含用于执行以下操作的指令:
获取语音数据的语音特征,并将所述语音特征输入并行的多个领域的语音解码器,得到各个领域的语音识别结果;
根据各个领域的语音识别结果计算所述声学模型在所述各个领域的置信度分数值、所述分类语言模型在所述各个领域的置信度及各个领域对应的类别分数值;
根据所述声学模型在所述各个领域的置信度分数值、所述分类语言模型在所述各个领域的置信度分数值及各个领域对应的类别分数值获取各个领域的语音识别结果的综合分数值,并根据综合分数值从各个领域的语音识别结果中选择一个语音识别结果作为最终的语音识别结果。
在第八种可能的实施方式作为基础而提供的第九种可能的实施方式中,所述终端的存储器中,还包含用于执行以下操作的指令:
将各个领域的语音识别结果进行对齐,分别计算对齐之后的所述各个领域的语音识别结果的各个音素级别的置信度分数值,根据所述各个领域的语音识别结果的各个音素级别的置信度分数值计算所述各个领域的语音识别结果的各个关键词级别的置信度分数值;
根据所述关键词级别的置信度分数值从所述各个领域的语音识别结果的多个所述关键词级别的置信度分数值中选择一个所述各个领域的语音识别结果的关键词级别的置信度分数值作为声学模型在所述各个领域的置信度分数值。
在第九种可能的实施方式作为基础而提供的第十种可能的实施方式中,所述终端的存储器中,还包含用于执行以下操作的指令:
按照公式 计算对齐之后的所述各个领域的语音识别结果的各个音素级别的置信度分数值;
其中,phi为第i个音素,所述音素从起始帧开始,到结束帧结束,b[i]为phi的起始帧,e[i]为phi的结束帧,o(n)为phi对应的观测序列,q(n)为phi对应的状态序列。
在第九种可能的实施方式作为基础而提供的第十一种可能的实施方式中,所述终端的存储器中,还包含用于执行以下操作的指令:
按照公式计算所述各个领域的语音识别结果的各个关键词级别的置信度分数值;
其中,m为关键词w包含的音素的个数。
在第九种可能的实施方式作为基础而提供的第十二种可能的实施方式中,所述终端的存储器中,还包含用于执行以下操作的指令:
按照公式 选择最大的所述各个领域的语音识别结果的关键词级别的置信度分数值作为声学模型在所述各个领域的置信度分数值;
其中,Sj(wi)为进行声学模型训练的第j个音频样本,Trp(wi)为第j个音频样本中的第i个发音序列,N(S(wi))为音频样本的数量。
在第八种可能的实施方式作为基础而提供的第十三种可能的实施方式中,所述终端的存储器中,还包含用于执行以下操作的指令:
按照公式计算所述分类语言模型在所述各个领域的置信度;
其中,ti表示第i个词,Sen表示任一领域的语音识别结果中句子的总数量,Word表示句子中词的总数量。
在第八种可能的实施方式作为基础而提供的第十四种可能的实施方式中,所述终端的存储器中,还包含用于执行以下操作的指令:
分别获得各个领域的语音识别结果的中心词,并根据所述中心词在分类词表中出现的频率确定识别分数W1;
分别将各个领域的语音识别结果放入文本分类器中,得到文本分类概率权重W2;
分别将各个领域的语音识别结果进行实体词识别,并根据所述实体词在分类词表中出现的频率确定识别分数W3;
按照公式W=W1+W2+W3计算类别分数值,并将所述类别分数值作为各个领域对应的类别分数值。
在第八种可能的实施方式作为基础而提供的第十五种可能的实施方式中,所述终端的存储器中,还包含用于执行以下操作的指令:
按照公式score=α*CM(wi)+β*ppl+γ(W)获取各个领域的语音识别结果的综合分数值;
其中,所述α、β和γ为不小于零的任一值,CM(wi)为声学模型的置信度分数值,ppl为分类语言模型的置信度分数值,W为对应的类别分数值。
在第八种可能的实施方式作为基础而提供的第十六种可能的实施方式中,所述终端的存储器中,还包含用于执行以下操作的指令:
根据综合分数值从各个领域的语音识别结果中选择最大的综合分数值对应的语音识别结果作为最终的语音识别结果。
综上所述,本实施例提供的终端,通过根据对数据样本中的句子进行挖掘获取分类词表、分类语料和高频语言模板进行训练得到的分类模板语言模型、分类语言模型和分类词表语言模型,实现了在不增加数据样本数量的前提下,增加了语言模型的数量,进而提高了使用分类模板语言模型、分类语言模型和分类词表语言模型进行语音识别的准确性。
实施例九
本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序被一个或者一个以上的处理器用来执行处理对象的方法,所述方法包括:
获取数据样本,并对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
根据所述数据挖掘的结果获取分类训练样本,并根据所述分类训练样本构建文本分类器;
通过所述文本分类器对所述数据样本进行分类,根据分类结果获取分类词表和分类语料;
根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板;
对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,所述根据所述数据挖掘的结果获取分类训练样本的步骤,包括:
对挖掘出的句子进行频率统计,并根据频率对挖掘出的句子进行排序;
根据排序结果从所述挖掘出的句子中选取分类训练样本。
在第一种可能的实施方式作为基础而提供的第三种可能的实施方式中,所述根据所述分类训练样本构建文本分类器的步骤,包括:
对所述分类训练样本中的句子进行词频-逆向文件频率tf-idf特征和互信息统计,并根据统计结果构建文本分类器。
在第一种可能的实施方式作为基础而提供的第四种可能的实施方式中,所述通过所述文本分类器对所述数据样本进行分类的步骤,包括:
通过所述文本分类器对所述数据样本中高近似度的句子进行挖掘,并将挖掘出的句子作为分类结果;
所述根据分类结果获取分类词表和分类语料的步骤,包括:
对分类结果中的句子进行词频统计,并根据词频统计结果选取分类词,得到分类词表;
将所述分类词表中的词所对应的句子作为分类语料。
在第一、第二、第三或第四种可能的实施方式作为基础而提供的第五种可能的实施方式中,所述分类模板语言模型、分类词表语言模型和分类语言模型为任一领域的模型,所述方法还包括:
根据预先获取的声学模型以及任一领域的分类语言模型、所述任一领域的分类词表语言模型和所述数据样本构建语音解码器。
在第五种可能的实施方式作为基础而提供的第六种可能的实施方式中,所述根据预先获取的声学模型以及任一领域的分类语言模型、所述任一领域的分类词表语言模型和所述数据样本构建语音解码器的步骤,包括:
将所述任一领域的分类语言模型进行加权的有限状态转换,得到分类语言模型加权的有限状态转换器WFST,并将所述分类词表语言模型进行加权的有限状态转换,得到分类词表WFST;
将所述任一领域的分类语言模型WFST与所述分类词表WFST进行加权的有限状态转换,得到融合语言模型WFST;
将所述数据样本进行加权的有限状态转换,得到词表WFST,并将所述词表WFST与所述融合语言模型WFST进行加权的有限状态转换,得到词表语言WFST;
将所述声学模型进行加权的有限状态转换,得到声学模型WFST,并将所述声学模型WFST与词表语言WFST进行加权的有限状态转换,得到最终的WFST,将所述最终的WFST作为所述任一领域的语音解码器。
在第六种可能的实施方式作为基础而提供的第七种可能的实施方式中,所述将所述声学模型WFST与词表语言WFST进行加权的有限状态转换,得到最终的WFST,将所述最终的WFST作为所述任一领域的语音解码器的步骤之后,还包括:
获取语音数据的语音特征,并将所述语音特征输入所述任一领域的语音解码器,得到所述任一领域的语音识别结果。
在第六种可能的实施方式作为基础而提供的第八种可能的实施方式中,所述将所述声学模型WFST与词表语言WFST进行加权的有限状态转换,得到最终的WFST,将所述最终的WFST作为所述任一领域的语音解码器的步骤之后,还包括:
获取语音数据的语音特征,并将所述语音特征输入并行的多个领域的语音解码器,得到各个领域的语音识别结果;
根据各个领域的语音识别结果计算所述声学模型在所述各个领域的置信度分数值、所述分类语言模型在所述各个领域的置信度及各个领域对应的类别分数值;
根据所述声学模型在所述各个领域的置信度分数值、所述分类语言模型在所述各个领域的置信度分数值及各个领域对应的类别分数值获取各个领域的语音识别结果的综合分数值,并根据综合分数值从各个领域的语音识别结果中选择一个语音识别结果作为最终的语音识别结果。
在第八种可能的实施方式作为基础而提供的第九种可能的实施方式中,根据各个领域的语音识别结果计算所述声学模型在所述各个领域的置信度分数值的步骤,包括:
将各个领域的语音识别结果进行对齐,分别计算对齐之后的所述各个领域的语音识别结果的各个音素级别的置信度分数值,根据所述各个领域的语音识别结果的各个音素级别的置信度分数值计算所述各个领域的语音识别结果的各个关键词级别的置信度分数值;
根据所述关键词级别的置信度分数值从所述各个领域的语音识别结果的多个所述关键词级别的置信度分数值中选择一个所述各个领域的语音识别结果的关键词级别的置信度分数值作为声学模型在所述各个领域的置信度分数值。
在第九种可能的实施方式作为基础而提供的第十种可能的实施方式中,所述计算对齐之后的所述各个领域的语音识别结果的各个音素级别的置信度分数值的步骤,包括:
按照公式 计算对齐之后的所述各个领域的语音识别结果的各个音素级别的置信度分数值;
其中,phi为第i个音素,所述音素从起始帧开始,到结束帧结束,b[i]为phi的起始帧,e[i]为phi的结束帧,o(n)为phi对应的观测序列,q(n)为phi对应的状态序列。
在第九种可能的实施方式作为基础而提供的第十一种可能的实施方式中,所述根据所述各个领域的语音识别结果的各个音素级别的置信度分数值计算所述各个领域的语音识别结果的各个关键词级别的置信度分数值的步骤,包括:
按照公式计算所述各个领域的语音识别结果的各个关键词级别的置信度分数值;
其中,m为关键词w包含的音素的个数。
在第九种可能的实施方式作为基础而提供的第十二种可能的实施方式中,所述根据所述关键词级别的置信度分数值从所述各个领域的语音识别结果的多个所述关键词级别的置信度分数值中选择一个所述各个领域的语音识别结果的关键词级别的置信度分数值作为声学模型在所述各个领域的置信度分数值的步骤,包括:
按照公式 选择最大的所述各个领域的语音识别结果的关键词级别的置信度分数值作为声学模型在所述各个领域的置信度分数值;
其中,Sj(wi)为进行声学模型训练的第j个音频样本,Trp(wi)为第j个音频样本中的第i个发音序列,N(S(wi))为音频样本的数量。
在第八种可能的实施方式作为基础而提供的第十三种可能的实施方式中,根据各个领域的语音识别结果计算所述分类语言模型在所述各个领域的置信度的步骤,包括:
按照公式计算所述分类语言模型在所述各个领域的置信度;
其中,ti表示第i个词,Sen表示任一领域的语音识别结果中句子的总数量,Word表示句子中词的总数量。
在第八种可能的实施方式作为基础而提供的第十四种可能的实施方式中,根据各个领域的语音识别结果计算各个领域对应的类别分数值的步骤,包括:
分别获得各个领域的语音识别结果的中心词,并根据所述中心词在分类词表中出现的频率确定识别分数W1;
分别将各个领域的语音识别结果放入文本分类器中,得到文本分类概率权重W2;
分别将各个领域的语音识别结果进行实体词识别,并根据所述实体词在分类词表中出现的频率确定识别分数W3;
按照公式W=W1+W2+W3计算类别分数值,并将所述类别分数值作为各个领域对应的类别分数值。
在第八种可能的实施方式作为基础而提供的第十五种可能的实施方式中,所述根据所述声学模型在所述各个领域的置信度分数值、所述分类语言模型在所述各个领域的置信度分数值及各个领域对应的类别分数值获取各个领域的语音识别结果的综合分数值的步骤,包括:
按照公式score=α*CM(wi)+β*ppl+γ(W)获取各个领域的语音识别结果的综合分数值;
其中,所述α、β和γ为不小于零的任一值,CM(wi)为声学模型的置信度分数值,ppl为分类语言模型的置信度分数值,W为对应的类别分数值。
在第八种可能的实施方式作为基础而提供的第十六种可能的实施方式中,所述根据综合分数值从各个领域的语音识别结果中选择一个语音识别结果作为最终的语音识别结果的步骤,包括:
根据综合分数值从各个领域的语音识别结果中选择最大的综合分数值对应的语音识别结果作为最终的语音识别结果。
本发明实施例提供的计算机可读存储介质,通过根据对数据样本中的句子进行挖掘获取分类词表、分类语料和高频语言模板进行训练得到的分类模板语言模型、分类语言模型和分类词表语言模型,实现了在不增加数据样本数量的前提下,增加了语言模型的数量,进而提高了使用分类模板语言模型、分类语言模型和分类词表语言模型进行语音识别的准确性。
实施例十
本发明实施例中提供了一种图形用户接口,所述图形用户接口用在终端上,所述终端包括触摸屏显示器、存储器和用于执行一个或者一个以上的程序的一个或者一个以上的处理器;所述图形用户接口包括:
获取数据样本,并对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
根据所述数据挖掘的结果获取分类训练样本,并根据所述分类训练样本构建文本分类器;
通过所述文本分类器对所述数据样本进行分类,根据分类结果获取分类词表和分类语料;
根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板;
对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
本发明实施例提供的图形用户接口,通过根据对数据样本中的句子进行挖掘获取分类词表、分类语料和高频语言模板进行训练得到的分类模板语言模型、分类语言模型和分类词表语言模型,实现了在不增加数据样本数量的前提下,增加了语言模型的数量,进而提高了使用分类模板语言模型、分类语言模型和分类词表语言模型进行语音识别的准确性。
需要说明的是:上述实施例提供的装置在构建语言模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与构建语言模型的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (32)
1.一种构建语言模型的方法,其特征在于,所述方法包括:
获取数据样本,并对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
根据所述数据挖掘的结果获取分类训练样本,并根据所述分类训练样本构建文本分类器;
通过所述文本分类器对所述数据样本进行分类,根据分类结果获取分类词表和分类语料;
根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板;
对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述数据挖掘的结果获取分类训练样本,包括:
对挖掘出的句子进行频率统计,并根据频率对挖掘出的句子进行排序;
根据排序结果从所述挖掘出的句子中选取分类训练样本。
3.根据权利要求1所述的方法,其特征在于,所述根据所述分类训练样本构建文本分类器,包括:
对所述分类训练样本中的句子进行词频-逆向文件频率tf-idf特征和互信息统计,并根据统计结果构建文本分类器。
4.根据权利要求1所述的方法,其特征在于,所述通过所述文本分类器对所述数据样本进行分类,包括:
通过所述文本分类器对所述数据样本中高近似度的句子进行挖掘,并将挖掘出的句子作为分类结果;
所述根据分类结果获取分类词表和分类语料,包括:
对分类结果中的句子进行词频统计,并根据词频统计结果选取分类词,得到分类词表;
将所述分类词表中的词所对应的句子作为分类语料。
5.根据权利要求1至4中任一权利要求所述的方法,其特征在于,所述分类模板语言模型、分类词表语言模型和分类语言模型为任一领域的模型,所述方法还包括:
根据预先获取的声学模型以及任一领域的分类语言模型、所述任一领域的分类词表语言模型和所述数据样本构建语音解码器。
6.根据权利要求5所述的方法,其特征在于,所述根据预先获取的声学模型以及任一领域的分类语言模型、所述任一领域的分类词表语言模型和所述数据样本构建语音解码器,包括:
将所述任一领域的分类语言模型进行加权的有限状态转换,得到分类语言模型WFST,并将所述分类词表语言模型进行加权的有限状态转换,得到分类词表WFST;
将所述任一领域的分类语言模型WFST与所述分类词表WFST进行加权的有限状态转换,得到融合语言模型WFST;
将所述数据样本进行加权的有限状态转换,得到词表WFST,并将所述词表WFST与所述融合语言模型WFST进行加权的有限状态转换,得到词表语言WFST;
将所述声学模型进行加权的有限状态转换,得到声学模型WFST,并将所述声学模型WFST与词表语言WFST进行加权的有限状态转换,得到最终的WFST,将所述最终的WFST作为任一领域的所述语音解码器。
7.根据权利要求6所述的方法,其特征在于,所述将所述声学模型WFST与词表语言WFST进行加权的有限状态转换,得到最终的WFST,将所述最终的WFST作为任一领域的所述语音解码器之后,还包括:
获取语音数据的语音特征,并将所述语音特征输入所述任一领域的所述语音解码器,得到所述任一领域的语音识别结果。
8.根据权利要求6所述的方法,其特征在于,所述将所述声学模型WFST与词表语言WFST进行加权的有限状态转换,得到最终的WFST,将所述最终的WFST作为任一领域的所述语音解码器之后,还包括:
获取语音数据的语音特征,并将所述语音特征输入并行的多个领域的语音解码器,得到各个领域的语音识别结果;
根据各个领域的语音识别结果计算所述声学模型在所述各个领域的置信度分数值、所述分类语言模型在所述各个领域的置信度及各个领域对应的类别分数值;
根据所述声学模型在所述各个领域的置信度分数值、所述分类语言模型在所述各个领域的置信度分数值及各个领域对应的类别分数值获取各个领域的语音识别结果的综合分数值,并根据综合分数值从各个领域的语音识别结果中选择一个语音识别结果作为最终的语音识别结果。
9.根据权利要求8所述的方法,其特征在于,根据各个领域的语音识别结果计算所述声学模型在所述各个领域的置信度分数值,包括:
将各个领域的语音识别结果进行对齐,分别计算对齐之后的所述各个领域的语音识别结果的各个音素级别的置信度分数值,根据所述各个领域的语音识别结果的各个音素级别的置信度分数值计算所述各个领域的语音识别结果的各个关键词级别的置信度分数值;
根据所述关键词级别的置信度分数值从所述各个领域的语音识别结果的多个所述关键词级别的置信度分数值中选择一个所述各个领域的语音识别结果的关键词级别的置信度分数值作为声学模型在所述各个领域的置信度分数值。
10.根据权利要求9所述的方法,其特征在于,所述计算对齐之后的所述各个领域的语音识别结果的各个音素级别的置信度分数值,包括:
按照公式计算对齐之后的所述各个领域的语音识别结果的各个音素级别的置信度分数值;
其中,phi为第i个音素,所述音素从起始帧开始,到结束帧结束,b[i]为phi的起始帧,e[i]为phi的结束帧,o(n)为phi对应的观测序列,q(n)为phi对应的状态序列。
11.根据权利要求10所述的方法,其特征在于,所述根据所述各个领域的语音识别结果的各个音素级别的置信度分数值计算所述各个领域的语音识别结果的各个关键词级别的置信度分数值,包括:
按照公式计算所述各个领域的语音识别结果的各个关键词级别的置信度分数值;
其中,m为关键词w包含的音素的个数。
12.根据权利要求11所述的方法,其特征在于,所述根据所述关键词级别的置信度分数值从所述各个领域的语音识别结果的多个所述关键词级别的置信度分数值中选择一个所述各个领域的语音识别结果的关键词级别的置信度分数值作为声学模型在所述各个领域的置信度分数值,包括:
按照公式选择最大的所述各个领域的语音识别结果的关键词级别的置信度分数值作为声学模型在所述各个领域的置信度分数值;
其中,Sj(wi)为进行声学模型训练的第j个音频样本,Trp(wi)为第j个音频样本中的第i个发音序列,N(S(wi))为音频样本的数量。
13.根据权利要求8所述的方法,其特征在于,根据各个领域的语音识别结果计算所述分类语言模型在所述各个领域的置信度,包括:
按照公式计算所述分类语言模型在所述各个领域的置信度;
其中,ti表示第i个词,Sen表示任一领域的语音识别结果中句子的总数量,Word表示句子中词的总数量。
14.根据权利要求8所述的方法,其特征在于,根据各个领域的语音识别结果计算各个领域对应的类别分数值,包括:
分别获得各个领域的语音识别结果的中心词,并根据所述中心词在分类词表中出现的频率确定识别分数W1;
分别将各个领域的语音识别结果放入文本分类器中,得到文本分类概率权重W2;
分别将各个领域的语音识别结果进行实体词识别,并根据所述实体词在分类词表中出现的频率确定识别分数W3;
按照公式W=W1+W2+W3计算类别分数值,并将所述类别分数值作为各个领域对应的类别分数值。
15.根据权利要求8所述的方法,其特征在于,所述根据所述声学模型在所述各个领域的置信度分数值、所述分类语言模型在所述各个领域的置信度分数值及各个领域对应的类别分数值获取各个领域的语音识别结果的综合分数值,包括:
按照公式score=α*CM(wi)+β*ppl+γ(W)获取各个领域的语音识别结果的综合分数值;
其中,所述α、β和γ为不小于零的任一值,CM(wi)为声学模型的置信度分数值,ppl为分类语言模型的置信度分数值,W为对应的类别分数值。
16.根据权利要求8所述的方法,其特征在于,所述根据综合分数值从各个领域的语音识别结果中选择一个语音识别结果作为最终的语音识别结果,包括:
根据综合分数值从各个领域的语音识别结果中选择最大的综合分数值对应的语音识别结果作为最终的语音识别结果。
17.一种构建语言模型的装置,其特征在于,所述装置包括:
第一获取模块,用于获取数据样本;
第一挖掘模块,用于对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
第二获取模块,用于根据所述数据挖掘的结果获取分类训练样本;
第一构建模块,用于根据所述分类训练样本构建文本分类器;
分类模块,用于通过所述文本分类器对所述数据样本进行分类;
第三获取模块,用于根据分类结果获取分类词表和分类语料;
第二挖掘模块,用于根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板;
训练模块,用于对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
18.根据权利要求17所述的装置,其特征在于,所述第二获取模块,包括:
统计子模块,用于对挖掘出的句子进行频率统计;
排序子模块,用于根据频率对挖掘出的句子进行排序;
选取子模块,用于根据排序结果从所述挖掘出的句子中选取分类训练样本。
19.根据权利要求17所述的装置,其特征在于,所述第一构建模块,用于对所述分类训练样本中的句子进行词频-逆向文件频率tf-idf特征和互信息统计,并根据统计结果构建文本分类器。
20.根据权利要求17所述的装置,其特征在于,所述分类模块,用于通过所述文本分类器对所述数据样本中高近似度的句子进行挖掘,并将挖掘出的句子作为分类结果;
所述第三获取模块,用于对分类结果中的句子进行词频统计,并根据词频统计结果选取分类词,得到分类词表;将所述分类词表中的词所对应的句子作为分类语料。
21.根据权利要求17至20中任一权利要求所述的装置,其特征在于,所述分类模板语言模型、分类词表语言模型和分类语言模型为任一领域的模型,所述装置还包括:
第二构建模块,用于根据预先获取的声学模型以及任一领域的分类语言模型、所述任一领域的分类词表语言模型和所述数据样本构建语音解码器。
22.根据权利要求21所述的装置,其特征在于,所述第二构建模块,包括:
第一转换子模块,用于将所述任一领域的分类语言模型进行加权的有限状态转换,得到分类语言模型WFST,并将所述分类词表语言模型进行加权的有限状态转换,得到分类词表WFST;
第二转换子模块,用于将所述任一领域的分类语言模型WFST与所述分类词表WFST进行加权的有限状态转换,得到融合语言模型WFST;
第三转换子模块,用于将所述数据样本进行加权的有限状态转换,得到词表WFST,并将所述词表WFST与所述融合语言模型WFST进行加权的有限状态转换,得到词表语言WFST;
第四转换子模块,用于将所述声学模型进行加权的有限状态转换,得到声学模型WFST,并将所述声学模型WFST与词表语言WFST进行加权的有限状态转换,得到最终的WFST,将所述最终的WFST作为任一领域的所述语音解码器。
23.根据权利要求22所述的装置,其特征在于,所述第二构建模块,还包括:
第一获取子模块,用于获取语音数据的语音特征;
识别子模块,用于将所述语音特征输入所述任一领域的所述语音解码器,得到所述任一领域的语音识别结果。
24.根据权利要求22所述的装置,其特征在于,所述识别子模块,还用于将所述语音特征输入并行的多个领域的语音解码器,得到各个领域的语音识别结果;
所述第二构建模块,还包括:
第一计算子模块,用于根据各个领域的语音识别结果计算所述声学模型在所述各个领域的置信度分数值;
第二计算子模块,用于根据各个领域的语音识别结果计算所述分类语言模型在所述各个领域的置信度;
第三计算子模块,用于根据各个领域的语音识别结果计算所述各个领域对应的类别分数值;
第二获取子模块,用于根据所述声学模型在所述各个领域的置信度分数值、所述分类语言模型在所述各个领域的置信度分数值及各个领域对应的类别分数值获取各个领域的语音识别结果的综合分数值;
选择子模块,用于根据综合分数值从各个领域的语音识别结果中选择一个语音识别结果作为最终的语音识别结果。
25.根据权利要求24所述的装置,其特征在于,所述第一计算子模块,包括:
对齐单元,用于将各个领域的语音识别结果进行对齐;
第一计算单元,用于分别计算对齐之后的所述各个领域的语音识别结果的各个音素级别的置信度分数值;
第二计算单元,用于根据所述各个领域的语音识别结果的各个音素级别的置信度分数值计算所述各个领域的语音识别结果的各个关键词级别的置信度分数值;
选择单元,用于根据所述关键词级别的置信度分数值从所述各个领域的语音识别结果的多个所述关键词级别的置信度分数值中选择一个所述各个领域的语音识别结果的关键词级别的置信度分数值作为声学模型在所述各个领域的置信度分数值。
26.根据权利要求25所述的装置,其特征在于,所述第一计算单元,用于按照公式计算对齐之后的所述各个领域的语音识别结果的各个音素级别的置信度分数值;
其中,phi为第i个音素,所述音素从起始帧开始,到结束帧结束,b[i]为phi的起始帧,e[i]为phi的结束帧,o(n)为phi对应的观测序列,q(n)为phi对应的状态序列。
27.根据权利要求26所述的装置,其特征在于,所述第二计算单元,用于按照公式计算所述各个领域的语音识别结果的各个关键词级别的置信度分数值;
其中,m为关键词w包含的音素的个数。
28.根据权利要求27所述的装置,其特征在于,所述选择单元,用于按照公式选择最大的所述各个领域的语音识别结果的关键词级别的置信度分数值作为声学模型在所述各个领域的置信度分数值;
其中,Sj(wi)为进行声学模型训练的第j个音频样本,Trp(wi)为第j个音频样本中的第i个发音序列,N(S(wi))为音频样本的数量。
29.根据权利要求24所述的装置,其特征在于,所述第二计算子模块,用于按照公式计算所述分类语言模型在所述各个领域的置信度;
其中,ti表示第i个词,Sen表示任一领域的语音识别结果中句子的总数量,Word表示句子中词的总数量。
30.根据权利要求24所述的装置,其特征在于,所述第三计算子模块,包括:
第一确定单元,用于分别获得各个领域的语音识别结果的中心词,并根据所述中心词在分类词表中出现的频率确定识别分数W1;
第二确定单元,用于分别将各个领域的语音识别结果放入文本分类器中,得到文本分类概率权重W2;
第三确定单元,用于分别将各个领域的语音识别结果进行实体词识别,并根据所述实体词在分类词表中出现的频率确定识别分数W3;
计算单元,用于按照公式W=W1+W2+W3计算类别分数值,并将所述类别分数值作为各个领域对应的类别分数值。
31.根据权利要求24所述的装置,其特征在于,所述第二获取子模块,用于按照公式score=α*CM(wi)+β*ppl+γ(W)获取各个领域的语音识别结果的综合分数值;
其中,所述α、β和γ为不小于零的任一值,CM(wi)为声学模型的置信度分数值,ppl为分类语言模型的置信度分数值,W为对应的类别分数值。
32.根据权利要求24所述的装置,所述选择子模块,用于根据综合分数值从各个领域的语音识别结果中选择最大的综合分数值对应的语音识别结果作为最终的语音识别结果。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310207237.2A CN104217717B (zh) | 2013-05-29 | 2013-05-29 | 构建语言模型的方法及装置 |
PCT/CN2013/089588 WO2014190732A1 (en) | 2013-05-29 | 2013-12-16 | Method and apparatus for building a language model |
US14/181,263 US9396724B2 (en) | 2013-05-29 | 2014-02-14 | Method and apparatus for building a language model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310207237.2A CN104217717B (zh) | 2013-05-29 | 2013-05-29 | 构建语言模型的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104217717A CN104217717A (zh) | 2014-12-17 |
CN104217717B true CN104217717B (zh) | 2016-11-23 |
Family
ID=51987941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310207237.2A Active CN104217717B (zh) | 2013-05-29 | 2013-05-29 | 构建语言模型的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104217717B (zh) |
WO (1) | WO2014190732A1 (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824828B (zh) * | 2015-01-06 | 2020-01-10 | 深圳市腾讯计算机***有限公司 | 一种标签挖掘方法及装置 |
KR102413692B1 (ko) * | 2015-07-24 | 2022-06-27 | 삼성전자주식회사 | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 |
CN106486115A (zh) * | 2015-08-28 | 2017-03-08 | 株式会社东芝 | 改进神经网络语言模型的方法和装置及语音识别方法和装置 |
CN106504753A (zh) * | 2015-09-07 | 2017-03-15 | 上海隆通网络***有限公司 | 一种在it运维管理***中的语音识别方法及*** |
CN105654945B (zh) * | 2015-10-29 | 2020-03-06 | 乐融致新电子科技(天津)有限公司 | 一种语言模型的训练方法及装置、设备 |
CN105488025B (zh) | 2015-11-24 | 2019-02-12 | 小米科技有限责任公司 | 模板构建方法和装置、信息识别方法和装置 |
CN105512191A (zh) * | 2015-11-25 | 2016-04-20 | 南京莱斯信息技术股份有限公司 | 一种具备人工行为学习能力的行业特征分析器 |
CN105653519A (zh) * | 2015-12-30 | 2016-06-08 | 贺惠新 | 一种领域专有词的挖掘方法 |
CN105869624B (zh) * | 2016-03-29 | 2019-05-10 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
CN108062954B (zh) * | 2016-11-08 | 2020-12-08 | 科大讯飞股份有限公司 | 语音识别方法和装置 |
CN106782516B (zh) * | 2016-11-17 | 2020-02-07 | 北京云知声信息技术有限公司 | 语料分类方法及装置 |
CN107146604B (zh) * | 2017-04-27 | 2020-07-03 | 北京捷通华声科技股份有限公司 | 一种语言模型优化方法及装置 |
CN107357776B (zh) * | 2017-06-16 | 2020-09-25 | 北京奇艺世纪科技有限公司 | 一种相关词挖掘方法及装置 |
CN108304442B (zh) * | 2017-11-20 | 2021-08-31 | 腾讯科技(深圳)有限公司 | 一种文本信息处理方法、装置及存储介质 |
CN109036391B (zh) * | 2018-06-26 | 2021-02-05 | 华为技术有限公司 | 语音识别方法、装置及*** |
CN108899013B (zh) * | 2018-06-27 | 2023-04-18 | 广州视源电子科技股份有限公司 | 语音搜索方法、装置和语音识别*** |
CN108831439B (zh) * | 2018-06-27 | 2023-04-18 | 广州视源电子科技股份有限公司 | 语音识别方法、装置、设备和*** |
CN108510990A (zh) * | 2018-07-04 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、用户设备及存储介质 |
CN110875039B (zh) * | 2018-08-30 | 2023-12-01 | 阿里巴巴集团控股有限公司 | 语音识别方法和设备 |
CN109192197A (zh) * | 2018-09-18 | 2019-01-11 | 湖北函数科技有限公司 | 基于互联网的大数据语音识别*** |
CN109635296B (zh) * | 2018-12-08 | 2023-03-31 | 广州荔支网络技术有限公司 | 新词挖掘方法、装置计算机设备和存储介质 |
CN110223675B (zh) * | 2019-06-13 | 2022-04-19 | 思必驰科技股份有限公司 | 用于语音识别的训练文本数据的筛选方法及*** |
CN110750976A (zh) * | 2019-09-26 | 2020-02-04 | 平安科技(深圳)有限公司 | 语言模型构建方法、***、计算机设备及可读存储介质 |
CN112802585B (zh) * | 2021-01-26 | 2022-10-04 | 武汉大学 | 一种基于分类器的优化医疗x线检查数据分类方法及装置 |
CN113591457B (zh) * | 2021-07-30 | 2023-10-24 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN115938351B (zh) * | 2021-09-13 | 2023-08-15 | 北京数美时代科技有限公司 | Asr语言模型的构建方法、***、存储介质及电子设备 |
CN114936276A (zh) * | 2022-06-07 | 2022-08-23 | 来也科技(北京)有限公司 | 答案生成方法、装置、电子设备及存储介质 |
CN117556049B (zh) * | 2024-01-10 | 2024-05-17 | 杭州光云科技股份有限公司 | 一种基于大语言模型生成的正则表达式的文本分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779508A (zh) * | 2012-03-31 | 2012-11-14 | 安徽科大讯飞信息科技股份有限公司 | 语音库生成设备及其方法、语音合成***及其方法 |
CN102999516A (zh) * | 2011-09-15 | 2013-03-27 | 北京百度网讯科技有限公司 | 一种文本分类的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6904402B1 (en) * | 1999-11-05 | 2005-06-07 | Microsoft Corporation | System and iterative method for lexicon, segmentation and language model joint optimization |
-
2013
- 2013-05-29 CN CN201310207237.2A patent/CN104217717B/zh active Active
- 2013-12-16 WO PCT/CN2013/089588 patent/WO2014190732A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102999516A (zh) * | 2011-09-15 | 2013-03-27 | 北京百度网讯科技有限公司 | 一种文本分类的方法及装置 |
CN102779508A (zh) * | 2012-03-31 | 2012-11-14 | 安徽科大讯飞信息科技股份有限公司 | 语音库生成设备及其方法、语音合成***及其方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104217717A (zh) | 2014-12-17 |
WO2014190732A1 (en) | 2014-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104217717B (zh) | 构建语言模型的方法及装置 | |
US10956771B2 (en) | Image recognition method, terminal, and storage medium | |
CN103578474B (zh) | 一种语音控制方法、装置和设备 | |
CN106710596A (zh) | 回答语句确定方法及装置 | |
CN110704661B (zh) | 一种图像分类方法和装置 | |
CN108305296A (zh) | 图像描述生成方法、模型训练方法、设备和存储介质 | |
CN107274885A (zh) | 语音识别方法及相关产品 | |
CN109063583A (zh) | 一种基于点读操作的学习方法及电子设备 | |
CN104239535A (zh) | 一种为文字配图的方法、服务器、终端及*** | |
CN107809526A (zh) | 终端应用程序分类方法、移动终端及计算机可读存储介质 | |
CN109902296A (zh) | 自然语言处理方法、训练方法及数据处理设备 | |
CN106356052A (zh) | 语音合成方法及装置 | |
CN107170454A (zh) | 语音识别方法及相关产品 | |
CN106294308A (zh) | 命名实体识别方法及装置 | |
CN108492836A (zh) | 一种基于语音的搜索方法、移动终端及存储介质 | |
WO2021147421A1 (zh) | 用于人机交互的自动问答方法、装置和智能设备 | |
CN113868427A (zh) | 一种数据处理方法、装置及电子设备 | |
CN103501487A (zh) | 分类器更新方法、装置、终端、服务器及*** | |
CN110597957B (zh) | 一种文本信息检索的方法及相关装置 | |
CN109471524A (zh) | 一种控制马达振动的方法及移动终端 | |
CN108897846A (zh) | 信息搜索方法、设备及计算机可读存储介质 | |
CN112862021B (zh) | 一种内容标注方法和相关装置 | |
CN106057213A (zh) | 一种显示人声音高数据的方法和装置 | |
CN103823828A (zh) | 地图比例尺设定方法、装置和终端 | |
CN103455594B (zh) | 一种浏览器地址栏推荐网址的方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200827 Address after: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403 Co-patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd. Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. Address before: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403 Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. |
|
TR01 | Transfer of patent right |