CN108140019A

CN108140019A - 语言模型生成装置、语言模型生成方法及其程序、语音识别装置以及语音识别方法及其程序

Info

Publication number: CN108140019A
Application number: CN201580083593.5A
Authority: CN
Inventors: 伍井启恭
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2015-10-09
Filing date: 2015-10-09
Publication date: 2018-06-08
Anticipated expiration: 2035-10-09
Also published as: EP3349125A1; EP3349125A4; JP6312942B2; EP3349125B1; TW201714167A; WO2017061027A1; US20190080688A1; TWI582754B; JPWO2017061027A1; US10748528B2; CN108140019B

Abstract

本发明的语言模型生成装置具有：替换语句生成部，其使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词，来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句；以及语言模型生成部，其根据生成的多个替换语句和学习用的例文生成作为N元模型的语言模型，因此，能够获得即使是学习用的例文中不存在的单词链也会减少语音识别的误识别的语言模型。

Description

语言模型生成装置、语言模型生成方法及其程序、语音识别装置以及语音识别方法及其程序

技术领域

本发明涉及使用除了根据学习用的例文以外还根据例文中包含的语句的近义语句(替换语句)进行学习而得到的N元(N-gram)来生成语言模型的技术。

背景技术

通过语音识别而使语音文本化的技术在医疗或法律领域的抄录、广播字幕的生成等多个领域中是有用的。通过使语音文本化，能够容易地进行对数据库的检索。

例如，在由呼叫中心使通话语音文本化并将语音与文本相关联时，通过对文本进行字符串检索，能够容易地检索与文本相关联的语音。由此，能够将通话语音中包含的顾客名称或产品编号等缩小成检索关键字，精确地进行监视检查。但是，有时语音识别的结果中包含误识别，误识别成为检索精度下降的原因。课题在于如何减少该误识别。

在目前的语音识别技术中，一般使用将语音的特征与音素对应的声音模型、以及表现出连接的单词间关系的语言模型。作为用于高精度地识别语音的语言模型，使用非专利文献1～3中记载的N元模型(N-gram model)的方式备受关注。N元模型是通过根据学习用的例文进行学习而生成的、根据紧前的(N-1)个单词预测接下来出现的单词的概率语言模型。

在N元模型中有着学***滑处理(smoothing)(参照下述非专利文献2)。

现有技术文献

非专利文献

非专利文献1：鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著、「音声認識システム」、株式会社オーム社，平成13年5月15日、p.53-155

非专利文献2：北研二、辻井潤一著、「確率的言語モデル」、東京大学出版会、1999年11月25日、p.57～99

非专利文献3：長尾真著、「自然言語処理」、岩波書店、1996年4月26日、p.118～137

发明内容

发明要解决的课题

但是，由于在平滑处理中，使用值比目前的N值小的概率值进行预测，因此在语言模型中包含实际上不会产生的单词链，从而存在误识别的可能性升高的问题。

本发明正是为了解决上述那样的问题而完成的，其目的在于获得一种语言模型生成装置，生成即使是学习用的例文中不存在的单词链也会降低语音识别的误识别这样的语言模型。

用于解决问题的手段

本发明的语言模型生成装置具有：替换语句生成部，其使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词，来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句；以及语言模型生成部，其根据生成的多个替换语句和学习用的例文生成作为N元模型的语言模型。

本发明的语言模型生成方法具有：替换语句生成步骤，使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词，来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句；以及语言模型生成步骤，根据生成的多个替换语句和学习用的例文生成作为N元模型的语言模型。

本发明的语言模型生成程序使计算机执行如下步骤：替换语句生成步骤，使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词，来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句；以及语言模型生成步骤，根据生成的多个替换语句和学习用的例文生成作为N元模型的语言模型。

本发明的语音识别装置具有：语言模型存储部，其存储作为N元模型的语言模型，该作为N元模型的语言模型是使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词，根据由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句以及学习用的例文来生成的；声音模型存储部，其存储由语音的特征量的图形构成的声音模型；语音输入部，其被输入语音信号；以及语音识别部，其使用语言模型和声音模型来识别语音信号，并输出语音识别结果。

本发明的语音识别方法具有：语言模型存储步骤，存储作为N元模型的语言模型，该作为N元模型的语言模型是使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词，根据由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句以及学习用的例文来生成的；声音模型存储步骤，存储由语音的特征量的图形构成的声音模型；语音输入步骤，输入语音信号；以及语音识别步骤，使用语言模型和声音模型来识别语音信号，并输出语音识别结果。

本发明的语音识别程序用于使计算机执行以下步骤：语言模型存储步骤，存储作为N元模型的语言模型，该作为N元模型的语言模型是使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词，根据由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句以及学习用的例文而生成的；声音模型存储步骤，存储由语音的特征量的图形构成的声音模型；语音输入步骤，输入语音信号；以及语音识别步骤，使用语言模型和声音模型来识别语音信号，并输出语音识别结果。

发明效果

根据本发明，使用除了根据学习用的例文以外还根据例文中包含的语句的近义语句即替换语句进行学习而得到的N元来生成语言模型，因此，能够获得即使是学习用的例文中不存在的单词链也会降低语音识别的误识别的语言模型。

附图说明

图1是示出实施方式1的语言模型生成装置的结构的框图。

图2是示出实施方式1的近义词字典的数据的例子的图。

图3是示出实施方式1的学习例文中包含的语句“いい音で聞く”的图。

图4是示出实施方式1的替换语句生成部的处理流程的流程图。

图5是示出实施方式1的词素列的图。

图6是示出实施方式1的赋予了近义词的词素的图。

图7是示出实施方式1的替换语句的图。

图8是示出实施方式1的原文提取部、N元生成部、替换文提取部、似然度计算部和替换语句提取部的处理流程的流程图。

图9是示出实施方式1的原文的图。

图10是示出实施方式1的替换文的图。

图11是示出实施方式1的替换文的似然度信息的图。

图12是示出实施方式1的替换语句及其平均似然度的列表的图。

图13是示出实施方式1的具有小于阈值的平均似然度的替换语句的列表的图。

图14是示出实施方式1的语言模型生成装置的硬件结构的框图。

图15是示出使用由实施方式1的语言生成装置生成的语言模型的语音识别装置的结构的框图。

图16是示出使用由实施方式1的语言生成装置生成的语言模型的语音识别装置的硬件结构的框图。

图17是示出实施方式1的语言模型生成装置的结构的框图。

图18是示出实施方式2的语言模型生成装置的结构的框图。

图19是示出实施方式2的不同表述存储部存储的数据的例子的图。

图20是示出实施方式2的将不同记述统一后的替换语句及其平均似然度的列表的图。

图21是示出实施方式2的具有小于阈值的平均似然度的替换语句的列表的图。

图22是示出实施方式3的原文的图。

图23是示出实施方式3的替换语句的图。

图24是示出实施方式3的对原文进行词素分析而得到的词素分析结果的图。

图25是示出实施方式3的根据词素分析结果转换而成的原文.text文件的图。

图26是示出实施方式3的使用语言模型制作工具来生成语言模型的顺序的图。

图27是示出实施方式3的作为N元语言模型的一例的原文.arpa文件的图。

图28是示出实施方式3的对替换文进行词素分析而得到的词素分析结果的图。

图29是示出实施方式3的PP和覆盖率的计算结果的图。

图30是示出实施方式3的替换文.anno文件的图。

具体实施方式

实施方式1

图1是示出实施方式1的语言模型生成装置100的结构的框图。语言模型生成装置100由语句输入部101、替换语句生成部102、原文提取部103、N元生成部104、替换文提取部105、似然度计算部106、替换语句提取部107和语言模型生成部108构成。语言模型生成装置100以学习例文存储部110、近义词字典111、语料库112为输入，输出语言模型113。

学习例文存储部110是存储用于生成语言模型的学习用的例文的存储部。学习例文使用语音识别对象领域的例文。在本实施方式中，设想对在应对家用电器的询问的呼叫中心被交换的语音进行识别的情况，设学习例文为家用电器的使用说明书中登载的整个文章。在使用说明书中记述有例如“いい音で聞くには、サラウンドモードにして…”这样的家用电器的操作和设定方法。通过将使用说明书作为学习例文而并入到语言模型中，能够提高使用说明书中记载的单词链的识别率。

近义词字典111是登载有近义词的字典的数据。

图2是示出实施方式1的近义词字典111的数据的例子的图。与原始表述对应地示出了近义词。“いい”的近义词为“素晴らしい”、“正しい”、“可愛い”。“音”的近义词为“音調”、“声”。“聞く”的近义词为“聴く”、“差し出す”。

语料库112是集成自然语言的文档而成的大规模数据。语料库112是在将文档的各句子分解成词素以后对各词素赋予了词性信息的带标签语料库。

语句输入部101根据来自用户的指示从学习例文存储部110中存储的学习例文依次读出语句，并将所读出的语句输出到替换语句生成部102和原文提取部103。

替换语句生成部102参照近义词字典111，生成从语句输入部101输入的语句的近义语句即替换语句，并将所生成的替换语句输出到替换文提取部105。

原文提取部103参照学习例文存储部110，从学习例文将包含从语句输入部101输入的语句的句子全部提取出来，并将提取出的句子作为原文输出到N元生成部104。

N元生成部104根据原文进行学习而生成N元，并将所生成的N元输出到似然度计算部106。

替换文提取部105参照语料库112，从语料库112提取包含从替换语句生成部102输入的替换语句的句子，将提取出的句子作为替换文输出到似然度计算部106。

似然度计算部106根据从N元生成部104输入的N元和从替换文提取部105输入的替换文来计算表示各替换文是否接近原文的上下文的似然度，将替换文及其似然度输出到替换语句提取部107。

替换语句提取部107提取从似然度计算部106输入的替换文中的、似然度为阈值以下的替换文，并将提取出的替换文输出到语言模型生成部108。本实施方式中的似然度的值越小，则表示越接近原文的上下文。

语言模型生成部108利用从替换语句提取部107输入的替换语句和学习例文存储部110中存储的学习例文来学习N元，生成语言模型113，并输出所生成的语言模型113。

接着，设语句输入部101从学习例文存储部110读出的语句为“いい音で聞く”来说明详细的动作。

图3是示出实施方式1的学习例文中包含的语句501“いい音で聞く”的图。

首先，使用图4～7，对替换语句生成部102的动作进行说明。

图4是示出实施方式1的替换语句生成部102的处理流程的流程图。

图5是示出实施方式1的词素列502的图。“/”表示词素的分隔。

图6是示出实施方式1的赋予了近义词的词素503的图。“，”是近义词的分隔，“「」/「」”是表示表现近义词的单词列的列表的开始、结束的符号。

图7是示出实施方式1的替换语句504的图。

替换语句生成部102对从语句输入部101输入的语句“いい音で聞く”进行词素分析。在词素分析中，将所输入的语句分解为作为具有含义的最小单位的词素。“いい音で聞く”通过词素分析，成为词素列502“いい/音/で/聞く”。图5示出词素列502(图3的步骤S11)。

接着，替换语句生成部102参照近义词字典111，查询除了助词以外的全部词素的近义词。

替换语句生成部102利用近义词字典111来检索以词素列502的第1个词素“いい”为原始表述的近义词，读出“素晴らしい、正しい、可愛い”。替换语句生成部102生成对原始表述追加近义词而成的“[いい、素晴らしい、正しい、可愛い]”这样的列表，与词素列502的第1个词素“いい”进行调换。接着，替换语句生成部102利用近义词字典111来检索词素列502的第2个词素“音”的近义词，读出“音調、声”。替换语句生成部102生成对原始表述追加近义词而成的“[音、音調、声]”这样的列表，与词素列502的第2个词素“音”进行调换。

词素列502的第3个词素“で”是助词，因此，替换语句生成部102不进行任何动作。接着，替换语句生成部102利用近义词字典111来检索词素列502的第4个词素“聞く”的近义词，读出“聴く、差し出す”。替换语句生成部102生成对原始表述追加近义词而成的“[聞く、聴く、差し出す]”这样的列表，与词素列502的第4个词素“聞く”进行调换。这样，替换语句生成部102生成对词素列502赋予近义词而成的词素列503“[いい、素晴らしい、正しい、可愛い]/[音、音調、声]/で/[聞く、聴く、差し出す]”。图6示出赋予近义词而成的词素列503(图3的步骤S12)。

接着，替换语句生成部102根据赋予近义词而成的词素列503生成由各词素组合而成的替换语句504，并将替换语句504输出到替换语句提取部105。但是，替换语句504不包括使各词素全部为原始表述的组合。包括近义词在内，“いい”有4种单词、“声音(音)”有3种单词、“听(聞く)”有3种单词，因此，“いい音で聞く”的替换语句504为4×3×3-1＝35种组合。替换语句504是将语句501的多个词素中的1个以上的词素置换为原始表述的近义词而成的。图7示出“いい音で聞く”的替换语句504(图3的步骤S13)。

接着，使用图8～12，对原文提取部103、N元生成部104、替换文提取部105、似然度计算部106和替换语句提取部107的动作进行说明。

图8是示出实施方式1的原文提取部103、N元生成部104、替换文提取部105、似然度计算部106和替换语句提取部107的处理流程的流程图。

图9是示出实施方式1的原文505的图。

图10是示出实施方式1的替换文506的图。

图11是示出实施方式1的替换文506的似然度信息的图。

图12是示出实施方式1的替换语句504及其平均似然度的列表508的图。

原文提取部103参照学习例文存储部110存储的学习例文，将学习例文中的包含语句501“いい音で聞く”的句子全部提取出来。在本实施方式中，将提取出的这些句子称作原文。原文提取部103将原文输出到N元生成部104。图9示出包含“いい音で聞く”的原文505(图8的步骤S21)。

接着，N元生成部104根据从原文提取部103输入的原文来生成N元语言模型，并将该N元语言模型输出到似然度计算部106。生成N元语言模型的处理应用公知的方法即可。N元生成部104通过例如非专利文献1的第53～65页中记载的方法生成N元语言模型(图8的步骤S22)。

接着，替换文提取部105参照语料库112，将包含从替换语句生成部102输入的替换语句504中的任意替换语句的句子全部提取出来。替换文提取部105将提取出的句子作为替换文而输出到似然度计算部106。作为替换文的例子，在图10中示出包含替换语句“いい音で聴く”的替换文506(图8的步骤S23)。

接着，似然度计算部106使用从N元生成部104输入的N元语言模型和从替换文提取部105输入的替换文506来计算单词测试集复杂度(以下，称作PP)和覆盖率(在本实施方式中为单词覆盖率)。PP是用于评价语言模型的标准，以某个单词出现1个的概率的几何平均数的倒数来定义。在PP较低时，意味着该语言模型的区别欲识别的句子和非欲识别的句子的能力较高。覆盖率是表示语言模型覆盖单词链的比例的值。PP和覆盖率是使用N元语言模型和替换文506以公知的方法求出的。在实施方式3中记载了求出PP和覆盖率的方法的详细内容。

似然度计算部106使用PP和覆盖率C，利用数式(1)求出似然度L。这时，α是未知词修正常数，在本实施方式中为4。

[数学式1]

L＝C·log(PP)+(1-C)·α…数式 (1)

图11示出替换文506的似然度信息。“スピーカーでいい音で聴くためにオーディオを揃えるのもいいが……”的覆盖率为100.0％、PP为108.7，似然度为2.04。“このいい音で聴くためにはいろいろな条件がありますがスピーカーに……”的覆盖率为100.0％、PP为128.2、似然度为2.11。似然度可以说是用覆盖率修正各替换文506相对于原文的交叉熵而得到的值。似然度表示各替换文506的上下文与整个原文505的接近度(图8的步骤S24)。

接着，似然度计算部106计算各替换语句504的平均似然度。平均似然度μ用数式(2)求出。这时，设相同的替换语句的数量为n，相同的替换语句的似然度为Tn。

[数学式2]

似然度计算部106将替换语句504及其平均似然度的列表508输出到替换语句提取部107。图12示出替换语句504及其平均似然度的列表508(图8的步骤S25)。

接着，替换语句提取部107提取替换语句504中的、平均似然度小于阈值的替换语句。在本实施方式中，假设替换语句提取部107预先保持有阈值2.68。似然度越低，则交叉熵越低，从而上下文越接近，因此，替换语句的含义与原文类似的概率越高。

图13是示出实施方式1的具有小于阈值的平均似然度的替换语句的列表509的图。

替换语句提取部107将具有小于阈值的平均似然度的替换语句的列表509输出到语言模型生成部108(图8的步骤S26)。

语言模型生成部108使用从替换语句提取部107输入的替换语句和学习例文存储部110中存储的学习例文来生成N元模型的语言模型并输出。语言模型例如利用非专利文献1的第53～65页中记载的方法生成。

接着，对本实施方式的语言模型生成装置的硬件结构进行说明。

图14是示出实施方式1的语言模型生成装置100的硬件结构的框图。语言模型生成装置100由存储器121和处理器122构成。

存储器121存储用于实现语句输入部101、替换语句生成部102、原文提取部103、N元生成部104、替换文提取部105、似然度计算部106、替换语句提取部107和语言模型生成部108的各功能的程序和数据。存储器121例如由ROM(Read Only Memory：只读存储器)、RAM(Random Access Memory：随机存取存储器)、HDD(Hard Disk Drive：硬盘驱动器)、SSD(Solid State Drive：固态硬盘)构成。

处理器122读出存储器121中存储的程序和数据，实现语句输入部101、替换语句生成部102、原文提取部103、N元生成部104、替换文提取部105、似然度计算部106、替换语句提取部107和语言模型生成部108的各功能。处理器122由执行存储器121中存储的程序的CPU、***LSI(Large Scale Integration：大规模集成电路)等处理电路实现。

另外，也可以构成为由多个处理电路协作执行语句输入部101、替换语句生成部102、原文提取部103、N元生成部104、替换文提取部105、似然度计算部106、替换语句提取部107和语言模型生成部108的功能。此外，语句输入部101、替换语句生成部102、原文提取部103、N元生成部104、替换文提取部105、似然度计算部106、替换语句提取部107和语言模型生成部108的各功能也可以利用由存储器121和处理器122构成的处理电路，通过硬件实现。

接着，对利用了以此方式而生成的语言模型113的语音识别装置进行说明。

图15是示出使用由实施方式1的语言生成装置100生成的语言模型113的语音识别装置200的结构的框图。语音识别装置200由语音输入部201、语音识别部202、语言模型存储部203、声音模型存储部204和显示部205构成。

语音输入部201将用户发出的语音转换为可进行数字处理的数字语音信号。语音输入部201输出的数字语音信号被输入到语音识别部202中。

语言模型存储部203存储有从上述语言模型生成装置100输出的语言模型113。

声音模型存储部204以音素为单位存储有由语音的标准特征量的图形构成的声音模型。在语音识别处理中，声音模型用于与输入语音的特征量对照并以音素为单位识别输入语音。

语音识别部202参照声音模型存储部203中存储的声音模型和语言模型存储部202中存储的语言模型113，对所输入的数字语音信号进行语音识别。语音识别部202将最似然的语音识别结果的单词序列输出到显示部205。

显示部205显示从语音识别部202输入的单词序列。

接着，对本实施方式的语音识别装置200的硬件结构进行说明。

图16是示出使用由实施方式1的语言生成装置100生成的语言模型113的语音识别装置200的硬件结构的框图。语音识别装置200由麦克风211、存储器212、处理器213和显示器214构成。

麦克风211实现语音输入部201的功能。

存储器212存储用于实现语音识别部202、语言模型存储部203和声音模型存储部204的各功能的程序和数据。存储器212例如由ROM(Read Only Memory：只读存储器)、RAM(Random Access Memory：随机存取存储器)、HDD(Hard Disk Drive：硬盘驱动器)、SSD(Solid State Drive：固态硬盘)构成。

处理器213读出存储器212中存储的程序和数据，实现语音识别部202的各功能。处理器213由执行存储器212中存储的程序的CPU、***LSI(Large Scale Integration：大规模集成电路)等处理电路来实现。

另外，也可以构成为由多个处理电路协作执行语音识别部202的功能。

显示器214实现显示部205的功能。

即使是相同的意思，根据用户的不同，有时也会将“いい音で聞く”表现为“素晴らしい音で聞く”、“優れた音質で聴く”，如果仅将家用电器的使用说明书的文章作为学习例文，则会存在语音识别部202无法识别的措辞，但通过本实施方式，语音识别部202能够识别更大范围内的措辞。

在本实施方式中，以“いい音で聞く”为例说明了提取替换语句的处理，但语言模型生成装置100是从学习例文存储部110中存储的学习例文读出全部语句，提取全部语句的与原文的上下文接近的替换语句，从而根据学习例文和提取出的替换语句生成语言模型的。但是，在对学习例文的全部语句进行处理时，计算量会增加，因此，例如即使仅对使用说明书的章和节的题目中使用的语句来进行本实施方式的处理并生成语言模型，也具有减少语音识别的误识别的效果。

此外，在本实施方式中，利用替换语句提取部107使用似然度从由替换语句生成部102生成的替换语句504中提取与原文的上下文接近的替换语句，但是也可以根据由替换语句生成部102生成的替换语句和学习例文来完成语言模型。

图17是示出实施方式1的语言模型生成装置120的结构的框图。替换语句生成部102参照近义词字典111，生成从语句输入部101输入的语句的近义语句即替换语句504，并将所生成的替换语句504输出到语言模型生成部108。语言模型生成部108利用从替换语句生成部102输入的替换语句504和学习例文存储部110中存储的学习例文生成N元模型，将所生成的N元模型作为语言模型输出。语言模型生成装置120除了根据学习例文以外还根据替换语句504生成N元模型，因此，能够生成即使是学习例文中不存在的单词链也会减少语音识别的误识别的语言模型。

另外，语言模型生成装置100根据替换语句中的、与原文的上下文接近的替换语句和学习例文来生成语言模型，因此，与语言模型生成装置120相比，不但减少了语言模型生成部108的处理量，还能够生成进一步减少误识别的语言模型。

因此，在本实施方式中，使用除了根据学习例文以外还根据与原文的上下文接近的替换语句进行学习而得到的N元来生成语言模型，因此，能够生成即使是学习例文中不存在的单词链也会减少语音识别的误识别的语言模型。此外，语音识别装置200通过使用这样的语言模型进行语音识别，能够减少误识别。

此外，根据领域的不同，有时无法准备较多的学习例文。由于在这样的情况下，本实施方式也使用除了根据学习例文以外还根据与原文的上下文接近的替换语句进行学习而得到的N元来生成语言模型，因此能够生成减少语音识别的误识别的语言模型。

实施方式2

在以上的实施方式1中，是求出各替换语句的平均似然度，但在本实施方式中，示出在将替换语句中包含的单词的不同表述统一后求出平均似然度的实施方式。由此，会取得如下效果：能够抑制替换语句的似然度的偏差并更高精度地估算似然度。

图18是示出实施方式2的语言模型生成装置100的结构的框图。关于语言模型生成装置100的结构，除了使似然度计算部106参照不同表述存储部114以外，其余都与实施方式1相同。

图19是示出实施方式2的不同表述存储部114存储的数据的例子的图。不同表述存储部114对应地存储意思相同而表述不同的单词。“いい”、“よい”和“良い”、“かわいい”和“可愛い”均是相同意思的不同表述。

在图8的步骤S25中，似然度计算部106在计算各替换语句的平均似然度时，参照不同表述存储部114，除了相同表述的替换语句以外还对不同表述的替换语句的似然度全部进行算术平均，求出平均似然度。

图20是示出实施方式2的将不同表述统一后的替换语句及其平均似然度的列表601的图。在图20中，与实施方式1的图12相比，将“いい音で聴く”、“良い音で聴く”和“よい音で聴く”统一为“いい音で聴く”。此外，将“かわいい声で聞く”、“可愛い声で聞く”统一为“かわいい声で聞く”。

似然度计算部106把将不同表述统一后的替换语句及其平均似然度的列表601输出到替换语句提取部107。

在图8的步骤S26中，替换语句提取部107提取替换语句中的平均似然度小于阈值的替换语句。阈值与实施方式1同样为2.68。

图21是示出实施方式2的具有小于阈值的平均似然度的替换语句的列表602的图。

替换语句提取部107将具有小于阈值的平均似然度的替换语句的列表602输出到语言模型生成部108。

另外，虽然在本实施方式中，不同表述存储部114预先对应地存储有意思相同而表述不同的单词，似然度计算部106参照不同表述存储部114将不同表述的替换语句统一，但也可以不设置不同表述存储部114，而是由用户指示不同表述的替换语句，似然度计算部106依照该指示将不同表述的替换语句统一。

因此，由于在本实施方式中，计算对包含不同表述的替换语句的多个替换文的似然度进行算术平均而得到的平均似然度，因此，能够抑制因不同表述而引起的替换语句的似然度的偏差，从而更高精度地估算似然度。此外，由于不同表述被统一，因此取得了如下效果：即使是语音识别也会抑制语言模型的似然度的偏差。

实施方式3

在上述实施方式1中记载了使用N元语言模型和替换文通过公知的方法求出PP和覆盖率。在本实施方式中，对求出PP和覆盖率的方法的详细内容进行说明。

在本实施方式中，使用日语的N元语言模型和替换文来说明求出PP和覆盖率的方法。

N元语言模型使用非专利文献1的第147～155页中记载的“CMU-Cambridge SLMToolkit”(以下，称作语言模型生成工具)来生成。词素分析使用非专利文献1的第135页中记载的词素分析器“茶筅”来进行。在词素分析中，开头、文末用<s>标记来表示。此外，PP和覆盖率通过非专利文献1的第153～154页中记载的语言模型的评价方法来求出。

图22是示出实施方式3的原文701的图。

图23是示出实施方式3的替换语句702的图。

图24是示出实施方式3的对原文701进行词素分析而得到的词素分析结果703的图。各行示出1个词素，各个列示出词素的表述、读法、原型、词性。EOS表示文末。

图25是示出实施方式3的根据词素分析结果703转换而成的原文.text文件704的图。在原文.text文件704中，各词素以“表述+读法+词性”示出，与下一个词素之间的分隔用空白表示。

图26是示出实施方式3的使用语言模型制作工具来生成语言模型的顺序705的图。

图27是示出实施方式3的作为N元语言模型的一例的原文.arpa文件706的图。

图28是示出实施方式3的对替换文702进行词素分析而得到的词素分析结果707的图。

图29是示出实施方式3的PP和覆盖率的计算结果708的图。

图30是示出实施方式3的替换文.anno文件709的图。

以下说明详细情况。原文使用图22的原文701，替换文使用图23的替换文702。N元生成部104利用词素分析器“茶筅”对从原文提取部103输入的原文701进行词素分析，得到词素分析结果703。接着，N元生成部104根据词素分析结果703转换为原文.text文件704。接着，N元生成部104通过图26所示的语言模型生成顺序，根据原文.text文件704生成原文.arpa文件706，将原文.arpa文件706作为N元语言模型输出到似然度计算部106。在图27所示的原文.arpa文件706中，作为折扣(discount)方法，示出了Good-Turing的参数值、N元的条目数、1-gram、2-gram、3-gram各自的对数似然度和回退因数。

并且，N元生成部104以与原文701相同的顺序，利用词素分析器“茶筅”对替换文702进行词素分析，得到词素分析结果707。接着，N元生成部104将词素分析结果707转换为替换文.text707，将替换文.text707输出到似然度计算部106。

似然度计算部106根据原文.arpa文件706和替换文.text707，使用语言模型生成工具来计算PP和覆盖率。原文.arpa文件706是从N元生成部104输出的N元语言模型。图29示出PP和覆盖率的计算结果708。在语言模型生成工具中，用evallm指令输入原文.arpa文件，接着，用perplexity指令输入替换文.text，由此得到Perplexity(复杂度)＝9.07、OOVs(50.00％)。OOV表示未知词率，根据该结果，得到PP＝9.07、覆盖率＝100.0-50.0＝50.0％。将该计算过程作为替换文.anno文件709输出。

替换文.anno文件709的各行示出能够利用N元语言模型来进行计数的单词的产生概率。对替换文.text707的12个单词能够计算的单词是6行的6个单词，因此，覆盖率为6÷12×100＝50而成为50％。此外，能够计算的单词为6个单词，因此，PP＝(0.0769308×0.0769308×0.0769308×0.666653×0.0769308×0.0769308)＾(-1÷6))＝9.0698440，对小数点以后第3位进行四舍五入，成为9.07。另外，为了使计算简单，也可以使用对数几率即logprob。

这样，能够使用原文和替换文，来计算PP和覆盖率。

因此，在本实施方式中，似然度计算部106使用原文和替换文来计算PP和覆盖率，因此，能够计算表示替换文是否与原文的上下文接近的似然度。

标号说明

100、120：语言模型生成装置；101：语句输入部；102：替换语句生成部；103：原文提取部；104：N元生成部；105：替换文提取部；106：似然度计算部；107：替换语句提取部；108：语言模型生成部；110：学***均似然度的列表；703、707：词素分析结果；704：原文.text文件；705：顺序；706：原文.arpa文件；708：PP和覆盖率的计算结果；709：替换文.anno文件。

Claims

1.一种语言模型生成装置，其特征在于，该语言模型生成装置具有：

替换语句生成部，其使用由多个句子构成的学习用的例文中包含的语句的各词素、和所述词素的原始表述的近义词，来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句；以及

语言模型生成部，其根据所述生成的多个替换语句和所述学习用的例文生成作为N元模型的语言模型。

2.根据权利要求1所述的语言模型生成装置，其特征在于，

该语言模型生成装置具有：

替换文提取部，其从包含多个句子的语料库中提取包含所述多个替换语句中的任意替换语句的替换文并输出；

原文提取部，其从所述学习用的例文中提取包含所述语句的原文并输出；

似然度计算部，其对似然度进行计算，该似然度表示从所述替换文提取部输入的所述替换文的上下文与从所述原文提取部输入的所述原文的上下文是否接近；以及

替换语句提取部，其提取如下替换文中包含的替换语句，该替换文的所述似然度为与阈值相比表示上下文更接近所述原文的值，

所述语言模型生成部根据由所述替换语句提取部提取出的替换语句和所述学习用的例文来生成作为N元模型的语言模型。

3.根据权利要求2所述的语言模型生成装置，其特征在于，

所述似然度计算部计算对包含同一替换语句的多个替换文的似然度进行算术平均而得到的平均似然度，

所述替换语句提取部提取如下替换文中包含的替换语句，该替换文的所述平均似然度为与所述阈值相比表示上下文更接近所述原文的值。

4.根据权利要求3所述的语言模型生成装置，其特征在于，

所述似然度计算部计算对包含不同表述的替换语句的多个替换文的似然度进行算术平均而得到的平均似然度，作为将不同表述统一后的替换语句的似然度。

5.一种语言模型生成方法，其中，该语言模型生成方法具有：

替换语句生成步骤，使用由多个句子构成的学习用的例文中包含的语句的各词素、和所述词素的原始表述的近义词，来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句；以及

语言模型生成步骤，根据所述生成的多个替换语句和所述学习用的例文生成作为N元模型的语言模型。

6.一种程序，其中，该程序用于使计算机执行以下步骤：

7.一种语音识别装置，其特征在于，该语音识别装置具有：

语言模型存储部，其存储作为N元模型的语言模型，该作为N元模型的语言模型是使用由多个句子构成的学习用的例文中包含的语句的各词素、和所述词素的原始表述的近义词，根据由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句以及所述学习用的例文来生成的；

声音模型存储部，其存储由语音的特征量的图形构成的声音模型；

语音输入部，其被输入语音信号；以及

语音识别部，其使用所述语言模型和所述声音模型来识别所述语音信号，并输出语音识别结果。

8.一种语音识别方法，其中，该语音识别方法具有：

语言模型存储步骤，存储作为N元模型的语言模型，该作为N元模型的语言模型是使用由多个句子构成的学习用的例文中包含的语句的各词素、和所述词素的原始表述的近义词，根据由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句以及所述学习用的例文来生成的；

声音模型存储步骤，存储由语音的特征量的图形构成的声音模型；

语音输入步骤，输入语音信号；以及

语音识别步骤，使用所述语言模型和所述声音模型来识别所述语音信号，并输出语音识别结果。

9.一种程序，其中，该有程序用于使计算机执行以下步骤：

语言模型存储步骤，存储作为N元模型的语言模型，该作为N元模型的语言模型是使用由多个句子构成的学习用的例文中包含的语句的各词素、和所述词素的原始表述的近义词，根据由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句以及所述学习用的例文而生成的；

语音输入步骤，输入语音信号；以及