TWI582754B

TWI582754B - Language pattern generating means, language pattern generating method and program, voice recognizing apparatus, and voice recognition method and program thereof

Info

Publication number: TWI582754B
Application number: TW104133968A
Authority: TW
Inventors: Hiroyasu Itsui
Original assignee: Mitsubishi Electric Corp
Priority date: 2015-10-09
Filing date: 2015-10-16
Publication date: 2017-05-11
Also published as: CN108140019B; JP6312942B2; JPWO2017061027A1; WO2017061027A1; EP3349125A1; TW201714167A; EP3349125B1; US10748528B2; EP3349125A4; CN108140019A; US20190080688A1

Description

語言模式產生裝置、語言模式產生方法及其程式、聲音認識裝置以及聲音認識方法及其程式

本發明為有關一種使用除了從學習用例文之外，也從包含在例文的語句之同義語句(同義句)學習而來的N元，產生語言模式的技術。

根據聲音辨識將聲音文字化之技術，有效運用在醫療或法律領域之抄錄、播放字幕的作成等大多領域。藉由將聲音文字化易於進行資料庫的檢索。

例如，在客服中心將通話聲音文字化，當將聲音與文字連結時，藉由文字列檢索文字，易於檢索到與文字連結的聲音。藉此，選擇包含在通話聲音中之顧客姓名或生產編號等作為檢索關鍵字，可以重點式監控檢查。但是，在聲音辨識的結果中也會包含辨識錯誤的情況，而辨識錯誤是成為檢索精確度低下的原因。如何減低該辨識錯誤則成為課題。

在現在的聲音辨識技術中，一般是使用聲音特徵與音素相互對應之音響模式、及表現連接的詞彙間關係之語言模式。作為用以更精確辨識聲音之語言模式，使用揭露於非專利文獻1~3之N元模式的方式倍受關注。N元模式是藉由從學習用例文學習而產生，從前一(N-1)個詞彙，預測下一個出現的詞彙之概率性語言模式。

在N元模式中，會有不存在於學習用例文的詞彙連續之出現概率為0的問題，該問題稱為稀疏問題。為了解決該問題，一般是使用平順法(參照以下非專利文獻2)。

先前技術文獻非專利文獻

非專利文獻1：鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著作、「聲音辨識系統」、Ohmsha公司、2001年(平成13年)5月15日、第53-155頁

非專利文獻2：北研二、辻井潤一著作、「概率性語言模式」、東京大學出版社、1999年11月25日、第57-99頁

非專利文獻3：長尾真著作、「自然語言處理」、岩波書店、1996年4月26日、第118-137頁

然而，在平順法中，由於是使用比現在的N值更小的值之概率值進行預測，因此會造成實際上不可能存在的詞彙連續包含在語言模式中，而使辨識錯誤的可能性變高之問題點。

本發明為用以解決上述的問題點而開發出來者，以得到一種可以產生即使是不存在於學習用例文的詞彙連續也能夠減低聲音辨識的辨識錯誤之語言模式的語言模式產生裝置為目的。

本發明之語言模式產生裝置，包括：同義句產生部，其為使用包含在由多個文句構成的學習用例文之語句的各語素及對應語素原表記的同義語，產生由語素原表記與對應語素原表記的同義語之組合、及對應各語素原表記的同義語之組合構成之多個同義句；及語言模式產生部，其為從已產生的多個同義句與學習用例文產生N元模式的語言模式。

本發明之語言模式產生方法，具有：同義句產生步驟，其為使用包含在由多個文句構成的學習用例文之語句的各語素及對應語素原表記的同義語，產生由語素原表記與對應語素原表記的同義語之組合、及對應各語素原表記的同義語之組合構成之多個同義句；及語言模式產生步驟，其為從已產生的多個同義句與學習用例文產生N元模式的語言模式。

本發明之語言模式產生程式，其為在電腦執行以下步驟者，同義句產生步驟，其為使用包含在由多個文句構成的學習用例文之語句的各語素及對應語素原表記的同義語，產生由語素原表記與對應語素原表記的同義語之組合、及對應各語素原表記的同義語之組合構成之多個同義句；及語言模式產生步驟，其為從已產生的多個同義句與學習用例文產生N元模式的語言模式。

本發明之聲音辨識裝置，包括：語言模式記憶部，其為記憶語言模式，該語言模式為從使用包含在由多個文句構成的學習用例文之語句的各語素及對應語素原表記的同義語，由語素原表記與對應語素原表記的同義語之組合、及對應各語素原表記的同義語之組合構成之多個同義句與學習用例文產生的N元模式；音響模式記憶部，其為記憶由聲音的特徵量圖案構成之音響模式；聲音輸入部，其為輸入聲音訊號；及聲音辨識部，其為使用語言模式與聲音模式辨識聲音訊號，輸出聲音辨識結果。

本發明之聲音辨識方法，具有：語言模式記憶步驟，其為記憶語言模式的步驟，該語言模式為從使用包含在由多個文句構成的學習用例文之語句的各語素及對應語素原表記的同義語，由語素原表記與對應語素原表記的同義語之組合、及對應各語素原表記的同義語之組合構成之多個同義句與學習用例文產生的N元模式；音響模式記憶步驟，其為記憶由聲音的特徵量圖案構成之音響模式；聲音輸入步驟，其為輸入聲音訊號；及聲音辨識步驟，其為使用語言模式與聲音模式辨識聲音訊號，輸出聲音辨識結果。

本發明之聲音辨識程式，其為在電腦執行以下步驟者，語言模式記憶步驟，其為記憶語言模式，該語言模式為從使用包含在由多個文句構成的學習用例文之語句的各語素及對應語素原表記的同義語，由語素原表記與對應語素原表記的同義語之組合、及對應各語素原表記的同義語之組合構成之多個同義句與學習用例文產生的N元模式；音響模式記憶步驟，其為記憶由聲音的特徵量圖案構成之音響模式；聲音輸入步驟，其為輸入聲音訊號；及聲音辨識步驟，其為使用語言模式與聲音模式辨識聲音訊號，輸出聲音辨識結果。

根據本發明，因為使用除了從學習用例文，也從包含在例文之語句的同義語語句，也就是同義句學習而來的N元，產生語言模式，因此可以得到一種即使是不存在於學習用例文之詞彙連續也能夠減低聲音辨識的辨識錯誤之語言模式。

100、120‧‧‧語言模式產生裝置

101‧‧‧語句輸入部

102‧‧‧同義句產生部

103‧‧‧原文擷取部

104‧‧‧N元產生部

105‧‧‧同義文擷取部

106‧‧‧似然度算出部

107‧‧‧同義句擷取部

108‧‧‧語言模式產生部

110‧‧‧學習例文記憶部

111‧‧‧同義語字典

112‧‧‧文集

113‧‧‧語言模式

200‧‧‧聲音辨識裝置

201‧‧‧聲音輸入部

202‧‧‧聲音辨識部

203‧‧‧語言模式記憶部

204‧‧‧音響模式記憶部

205‧‧‧顯示部

121、212‧‧‧記憶體

122、213‧‧‧處理器

211‧‧‧麥克風

214‧‧‧顯示器

501‧‧‧語句

502、503‧‧‧語素分析

504‧‧‧同義句

505、701‧‧‧原文

506、702‧‧‧同義文

507‧‧‧似然度一覽表

508、509‧‧‧平均似然度一覽表

703、707‧‧‧語素分析結果

704‧‧‧原文.text檔

705‧‧‧步驟

706‧‧‧原文.arpa檔

708‧‧‧PP及覆蓋率的計算結果

709‧‧‧同義文.anno檔

圖1為顯示有關實施形態1之語言模式產生裝置的構成之方塊圖。

圖2為顯示有關實施形態1之同義語字典的資料之例示圖。

圖3為顯示有關實施形態1之包含在學習用例文的語句「以好聲音聆聽」的圖面。

圖4為顯示有關實施形態1之同義句產生部的處理流程之流程圖。

圖5為顯示有關實施形態1之語素列的圖面。

圖6為顯示有關實施形態1之附予同義語之語素的圖面。

圖7為顯示有關實施形態1之同義句的圖面。

圖8為顯示有關實施形態1之原文擷取部、N元產生部、同義文擷取部、似然度算出部及同義句擷取部的處理流程之流程圖。

圖9為顯示有關實施形態1之原文的圖面。

圖10為顯示有關實施形態1之同義文的圖面。

圖11為顯示有關實施形態1之同義文的似然度資訊的圖面。

圖12為顯示有關實施形態1之同義文及其平均似然度的一覽表圖面。

圖13為顯示有關實施形態1之具有比臨界值更小的平均似然度之同義句一覽表圖面。

圖14為顯示有關實施形態1之語言模式產生裝置的硬體構成之方塊圖。

圖15為顯示有關實施形態1之使用根據語言模式產生裝置產生的語言模式之聲音辨識裝置的構成之方塊圖。

圖16為顯示有關實施形態1之使用根據語言模式產生裝置產生的語言模式之聲音辨識裝置的硬體構成之方塊圖。

圖17為顯示有關實施形態1之語言模式產生裝置的構成之方塊圖。

圖18為顯示有關實施形態2之語言模式產生裝置的構成之方塊圖。

圖19為顯示有關實施形態2之相異表記記憶部所記憶的資料之例示圖。

圖20為顯示有關實施形態2之統一相異表記後之同義句及其平均似然度的一覽表圖面。

圖21為顯示有關實施形態2之具有比臨界值更小的平均似然度之同義句一覽表圖面。

圖22為顯示有關實施形態3之原文的圖面。

圖23為顯示有關實施形態3之同義句的圖面。

圖24為顯示有關實施形態3之語素分析原文後之語素分析結果圖。

圖25為顯示有關實施形態3之從語素分析結果轉換而來之原文.text檔的圖面。

圖26為顯示有關實施形態3之使用語言模式作成工具，產生語言模式的步驟圖。

圖27為顯示有關實施形態3之N元語言模式的一例之原文.arpa檔的圖面。

圖28為顯示有關實施形態3之語素分析同義文後之語素分析結果圖。

圖29為顯示有關實施形態3之PP及覆蓋率的算出結果圖面。

圖30為顯示有關實施形態3之同義文.anno檔的圖面。

實施形態1.

圖1為顯示有關實施形態1之語言模式產生裝置100的構成之方塊圖。語言模式產生裝置100由：語句輸入部101、同義句產生部102、原文擷取部103、N元產生部104、同義文擷取部105、似然度算出部106、同義句擷取部107及語言模式產生部108構成。語言模式產生裝置100將輸入學習例文記憶部110、同義語字典111、文集112作為輸入，並且輸出語言模式113。

學習例文記憶部110為記憶用以產生語言模式之學習用例文的記憶部。學習例文是使用聲音辨識的對象領域之例文。在本實施形態中，假設是在對應家電機器的詢問之客服中心，辨識取得的聲音之情況，使學習例文為記載於家電機器的使用說明書的所有文章。在使用說明書中，例如「以好聲音聆聽時，設定為環繞模式...」所示，記述了家電機器的操作及設定方法。藉由將使用說明書作為學習例文編入語言模式，可以提升記載於使用說明書之詞彙連續的辨識率。

同義語字典111為記載同義語的字典資料。

圖2為顯示有關實施形態1之同義語字典111的資料之例示圖。顯示與原表記相互對應之同義語。「好」的同義語為「優美」、「純正」、「可愛」。「聲音」的同義語為「音調」、「聲響」。「聆聽」的同義語為「收聽」、「聽取」。

文集112為累積有自然語言的文件之大數據。文集112為在將文件的各文分解出語素後，對於各語素附予詞類資訊之詞類標示集。

語句輸入部101為根據來自使用者的指示，從記憶在學習例文記憶部110的學習例文依序讀出語句，將已讀出的語句輸出到同義句產生部102及原文擷取部103。

同義句產生部102為參照同義語字典111，產生從語句輸入部101輸入的語句之同義語句，也就是同義句，將已產生同義句輸出到同義文擷取部105。

原文擷取部103為參照學習例文記憶部110，從學習例文擷取出被包含有從語句輸入部101所輸入的語句之所有文句，將已擷取的文句作為原文輸入到N元產生部104。

N元產生部104為從原文學習產生N元，將已產生的N元輸出到似然度算出部106。

同義文擷取部105為參照文集112，從文集112擷取出包含有在從同義句產生部102所輸入的同義句之文句，將已擷取出的文句作為同義文輸出到似然度算出部106。

似然度算出部106從N元產生部104所輸入的N元與從同義文擷取部105所輸入的同義文，算出顯示各同義文與原文文脈是否相近的似然度，將同義文及其似然度輸出到同義句擷取部107。

同義句擷取部107從似然度算出部106所輸入的同義文之中，擷取出似然度為臨界值以下的同義文，將已擷取出的同義文輸出到語言模式產生部108。本實施形態的似然度表現出值越小越接近原文的文脈乙事。

語言模式產生部108為根據從同義句擷取部107所輸入的同義句與記憶在學習例文記憶部110的學習例文，學習N元，產生語言模式113，輸出已產生的語言模式113。

其次，將語句輸入部101從學習例文記憶部110讀出的語句為「以好聲音聆聽」，說明詳細動作。

圖3為顯示有關實施形態1之包含在學習例文的語句501「以好聲音聆聽」的圖面。

首先，針對同義句產生部102的動作，使用圖4~7進行說明。

圖4為顯示有關實施形態1之同義句產生部102的處理流程之流程圖。

圖5為顯示有關實施形態1之語素列502的圖面。「/」為語素的區隔。

圖6為顯示有關實施形態1之附予同義語之語素503的圖面。「，」為同義語的區隔，「[]、[]」為表現同義語的詞彙列清單的開始、結束之記號。

圖7為顯示有關實施形態1之同義句504的圖面。

同義句產生部102為語素分析從語句輸入部101所輸入的語句「以好聲音聆聽」。在語素分析中，將輸入的語句分解成具有意義之最小單位，也就是語素。「以好聲音聆聽」根據語素分析，成為語素列502「好/聲音/以/聆聽」。在圖5顯示語素列502(圖3的步驟S11)。

其次，同義句產生部102參照同義語字典111，針對除了助詞之外所有語素查詢同義語。

同義句產生部102利用同義語字典111檢索以語素列502的第1個語素「好」作為原表記的同義語，讀取出「優美、純正、可愛」。同義句產生部102產生在原表記追加同義語之「[好、優美、純正、可愛]」的清單，與語素列502的第1個語素「好」進行置換。其次，同義句產生部102利用同義語字典111檢索以語素列502的第2個語素「聲音」作為原表記的同義語，讀取出「音調、聲響」。同義句產生部102產生在原表記追加同義語之「[聲音、音調、聲響]」的清單，與語素列502的第2個語素「聲音」進行置換。

由於語素列502的第3個語素「以」為助詞，因此同義句產生部102不進行動作。其次，同義句產生部102利用同義語字典111檢索語素列502的第4個語素「聆聽」，讀取出「收聽、聽取」。同義句產生部102產生在原表記追加同義語之「[聆聽、收聽、聽取]」的清單，與語素列502的第4 個語素「聆聽」進行置換。如此一來，同義句產生部102產生對語素列502附予同義語之語素列503「[好、優美、純正、可愛]」/[聲音、音調、聲響]/以/[聆聽、收聽、聽取]」。在圖6顯示附予同義語的語素列503(圖3的步驟S12)。

其次，同義句產生部102從附予同義語的語素列503產生組合各語素的同義句504，將同義句504輸出到同義文擷取部105。但是各語素全都是以原表記的組合不包含在同義句504。由於包含同義語「好」有4種、「聲音」有3種、「聆聽」有3種的詞彙，因此「以好聲音聆聽」的同義句504為4x3x3-1=35種的組合。同義句504為將語句501之多個語素中的1以上語素置換為原表記的同義語。在圖7顯示「以好聲音聆聽」的同義句504(圖3的步驟S13)。

其次，針對原文擷取部103、N元產生部104、同義文擷取部105、似然度算出部106及同義句擷取部107的動作，使用圖8~12進行說明。

圖8為顯示有關實施形態1之原文擷取部103、N元產生部104、同義文擷取部105、似然度算出部106及同義句擷取部107的處理流程之流程圖。

圖9為顯示有關實施形態1之原文505的圖面。

圖10為顯示有關實施形態1之同義文506的圖面。

圖11為顯示有關實施形態1之同義文506的似然度資訊的圖面。

圖12為顯示有關實施形態1之同義句504及其平均似然度的一覽表508圖面。

原文擷取部103為參照學習例文記憶部110所記憶的學習例文，擷取出學習例文之中所有包含語句501「以好聲音聆聽」的文句。在本實施形態中，被擷取出的此等文句稱為原文。原文擷取部103將原文輸出到N元產生部104。在圖9顯示包含「以好聲音聆聽」的原文505(圖8的步驟S21)。

其次，N元產生部104依據從原文擷取部103所輸入的原文產生N元語言模式，輸出到似然度算出部106。產生N元語言模式的處理只要是適用悉知的方法即可。N元產生部104利用例如非專利文獻1之第53~65頁記載的方法產生N元語言模式(圖8的步驟S22)。

其次，同義文擷取部105為參照文集112，擷取出所有從同義句產生部102所輸入的同義句504之中包含任一個的文句。同義文擷取部105將被擷取出的文句作為同義文，輸出到似然度算出部106。作為同義文的例示，將包含同義句「以好聲音收聽」的同義文506在圖10顯示(圖8的步驟S23)。

其次，似然度算出部106使用N元產生部104所輸入的N元語言模式與同義文擷取部105所輸入的同義文506，算出詞彙測試複雜度(test set perplexity)(以下稱為PP)與覆蓋率(cover rate)(在本實施形態中稱為詞彙覆蓋率)。PP為用以評估語言模式的尺度，以某1個詞彙出現的概率之幾何平均倒數加以定義。當PP越小時，意指該語言模式明確區分欲辨識的文句與非欲辨認的文句之能力越高。覆蓋率為顯示語言模式覆蓋詞彙連續之比例值。PP與覆蓋率以使用N元語言模式與同義文506利用悉知的方法求出。求出PP與覆蓋率的詳細方法記載於實施形態3。

似然度算出部106為使用PP與覆蓋率C，利用數學式(1)求出似然度L。此時，α為未登錄語補正常數，在本實施形態中設定為4。

[數1] L=C．log(PP)+(1-C)．α ...數學式(1)

在圖11顯示同義文506的似然度資訊。「為了利用喇叭以好聲音收聽，調整音頻也可以，但是...」之覆蓋率為100.0%、PP為108.7、似然度為2.04。「為了以該好聲音收聽，雖然有各式各樣的條件，對喇叭...」之覆蓋率為100.0%、PP為128.2、似然度為2.11。似然度可以說是以覆蓋率補正對原文的各同義文506的交叉熵之值。似然度為表示各同義文506的文脈與原文505整體的近似度(圖8的步驟S24)。

其次，似然度算出部106針對各同義句504算出平均似然度。平均似然度μ為利用數學式(2)求出。此時，將同一同義句的個數為n，同一同義句的似然度為Tn。

似然度算出部106將同義句504與其平均似然度的一覽表508輸出到同義句擷取部107。在圖12顯示同義句504與其平均似然度的一覽表508(圖8的步驟S25)。

其次，同義句擷取部107擷取出同義句504之中比臨界值更小的平均似然度者。同義句擷取部107在本實施形態中為預先設定為保持有臨界值2.68者。因為似然度越低交叉熵為低、文脈相近，因此同義句的意義類似原文的概率越高。

圖13為顯示有關實施形態1之具有比臨界值更小的平均似然度之同義句一覽表509圖面。

同義句擷取部107將具有比臨界值更小的平均似然度之同義句一覽表509輸出到語言模式產生部108(圖8的步驟S26)。

語言模式產生部108使用同義句擷取部107所輸入的同義句與記憶在學習例文記憶部110的學習例文，產生N元模式的語言模式，並將其輸出。語言模式利用例如非專利文獻1之第53~65頁記載的方法予以產生。

其次，針對本實施形態之語言模式產生裝置的硬體構成進行說明。

圖14為顯示有關實施形態1之語言模式產生裝置100的硬體構成之方塊圖。語言模式產生裝置100由記憶體121及處理器122構成。

記憶體121記憶著用以實現語句輸入部101、同義句產生部102、原文擷取部103、N元產生部104、同義文擷取部105、似然度算出部106、同義句擷取部107及語言模式產生部108的各機能之程式及資料。記憶體121例如由ROM(Read Only Memory；唯讀記憶體)、RAM(Random Access Memory；隨機存取記憶體)、HDD(Hard Disk Drive；硬碟)、SSD(Solid State Drive；固態硬碟)構成。

處理器122為讀出記憶在記憶體121的程式及資料，實現語句輸入部101、同義句產生部102、原文擷取部103、N元產生部104、同義文擷取部105、似然度算出部106、同義句擷取部107及語言模式產生部108的各機能。處理器122根據執行記憶在記憶體121的程式之CPU、系統LSI(large scale integration；大型積體電路)等處理電路加以實現。

又，使多個處理電路互相合作，執行語句輸入部101、同義句產生部102、原文擷取部103、N元產生部104、同義文擷取部105、似然度算出部106、同義句擷取部107及語言模式產生部108的機能之構成亦可。又，語句輸入部101、同義句產生部102、原文擷取部103、N元產生部104、同義文擷取部105、似然度算出部106、同義句擷取部107及語言模式產生部108的各機能根據由記憶體121及處理器122構成的處理電路，利用硬體加以實現亦可。

其次，針對利用如此產生的語言模式113之聲音辨識裝置進行說明。

圖15為顯示有關實施形態1之使用根據語言模式產生裝置100產生的語言模式113之聲音辨識裝置200的構成之方塊圖。聲音辨識裝置200由聲音輸入部201、聲音辨識部202、語言模式記憶部203、音響模式記憶部204及顯示部205構成。

聲音輸入部201為將使用者發出的聲音轉換成可數位處理的數位聲音訊號。

聲音輸入部201所輸出的數位聲音訊號被輸入到聲音辨識部202。

語言模式記憶部203記憶從上述語言模式產生裝置100所輸出的語言模式113。

音響模式記憶部204以音素的單位記憶由聲音的標準特徵量圖案構成的音響模式。音響模式為被用於在聲音辨識處理中與輸入聲音的特徵量對照，進行以音素單位之輸入聲音的辨識。

聲音辨識部202針對輸入的數位聲音訊號，參照記憶在音響模式記憶部204的音響模式與記憶在語言模式憶部203的語言模式113，進行聲音辨識。聲音辨識部202將最大似然的聲音辨識結果之詞彙系列輸出到顯示部205。

顯示部205顯示從聲音辨識部202所輸入的詞彙系列。

其次，針對本實施形態之聲音辨識裝置200的硬體構成進行說明。

圖16為顯示有關實施形態1之使用根據語言模式產生裝置100產生的語言模式113之聲音辨識裝置200的硬體構成之方塊圖。聲音辨識裝置200由麥克風211、記憶體212、處理器213及顯示器214構成。

麥克風211為實現聲音輸入部201的機能。

記憶體212記憶用以實現聲音辨識部202、語言模式記憶部203及音響模式記憶部204的各機能之程式及資料。記憶體212例如由ROM(Read Only Memory；唯讀記憶體)、RAM(Random Access Memory；隨機存取記憶體)、HDD(Hard Disk Drive；硬碟)、SSD(Solid State Drive；固態硬碟)構成。

處理器213讀出記憶在記憶體212的程式及資料，實現聲音辨識部202的機能。處理器213根據執行記憶在記憶體212的程式之CPU、系統LSI(large Scale Integration；大型積體電路)等處理電路加以實現。

又，使多個處理電路互相合作，執行聲音辨識部202的機能之構成亦可。

顯示器214為實現顯示部205的機能。

即使是相同意義，根據使用者也會有像是「以優美聲音聆聽」、「以優秀音質收聽」表現「以好聲音聆聽」，在只將家電機器的使用說明書的文章作為學習例文的情況下，雖然有聲音辨識部202無法辨識的說法之情況，但是根據本實施形態，聲音辨識部202可以辨識更廣泛的說法。

在本實施形態中，雖然說明了以「以好聲音聆聽」為例擷取出同義句的處理，但是語言模式產生裝置100從記憶在學習例文記憶部110的學習例文讀出所有的語句，針對所有的語句擷取出與原文文脈相近的同義句，再從學習例文與已擷取出的同義句產生語言模式。但是，當針對學習例文的所有語句進行處理時，由於會使計算量變多，因此即使是限定使用例如使用說明書的章、節之標題的語句進行本實施形態的處理而產生語言模式，也可以減低聲音辨識的辨識錯誤。

又，在本實施形態中，雖然是使用似然度，從根據同義句產生部102所產生的同義句504利用同義句擷取部107擷取出與原文文脈相近的同義句，但是從根據同義句產生部102所產生的同義句與學習例文作成語言模式亦可。

圖17為顯示有關實施形態1之語言模式產生裝置120的構成之方塊圖。同義句產生部102為參照同義語字典111，產生從語句輸入部101所輸入的語句之同義語句，也就是同義句504，將已產生的同義句504輸出到語言模式產生部108。語言模式產生部108根據從同義句產生部102所輸入的同義句504與記憶在學習例文記憶部110的學習例文，產生N元模式，將已產生的N元模式作為語言模式進行輸出。因為語言模式產生裝置120除了從學習例文也從同義句504產生N元模式，因此可以產生即使是不存在於學習例文的單語連續也能夠減低聲音辨識的辨識錯誤之語言模式。

又，因為語言模式產生裝置100為從同義句之中與原文文脈相近的同義句與學習例文產生語言模式，因此與語言模式產生裝置120相比可以削減語言模式產生部108的處理量的狀態下，產生更減低辨識錯誤的語言模式。

因此，在本實施形態中，因為使用除了從學習例文也從與原文文脈相近的同義句學習而來的N元，產生語言模式，因此可以產生即使是不存在於學習例文的單語連續也能夠減低聲音辨識的辨識錯誤之語言模式。又，聲音辨識裝置200藉由使用這樣的語言模式進行聲音辨識，可以減低辨識錯誤。

又，會有根據領域而無法準備更多學習例文的情況。即使在該情況下，本實施形態因為使用除了從學習例文也從與原文文脈相近的同義句學習而來的N元，產生語言模式，因此可以產生減低聲音辨識的辨識錯誤之語言模式。

實施形態2.

在以上的實施形態1中，雖然是針對各同義句求出平均似然度者，但是在本實施形態中，顯示在將包含在同義句之詞彙的相異表記統一後再求出平均似然度的實施形態。藉此，可以抑制同義句似然度的誤差，達到可以更高精確度推測似然度的效果。

圖18為顯示有關實施形態2之語言模式產生裝置100的構成之方塊圖。語言模式產生裝置100的構成除了似然度算出部106為參照相異表記記憶部114以外，其他與實施形態1相同。

圖19為顯示有關實施形態2之相異表記記憶部114所記憶的資料例示圖。相異表記記憶部114記憶以相同意義對應不同表記的詞彙。「好」、「佳等」及「良好」、「可人」、「可愛」都是相同意義的相異表記。

似然度算出部106在圖8的步驟S25中，針對各同義句算出平均似然度時，參照相異表記記憶部114，除了相同表記的同義句，也將所有相異表記的同義句之似然度相加平均，求出平均似然度。

圖20為顯示有關實施形態2之統一相異表記後之同義句及其平均似然度的一覽表601圖面。在圖20中，與實施形態1的圖12相比，將「以好聲音收聽」、「以良好聲音收聽」及「以佳等聲音收聽」統一成「以好聲音收聽」。又，將「以可人聲響聆聽」、「以可愛聲響聆聽」統一成「以可人聲響聆聽」。

似然度算出部106將統一相異表記後的同義句及其平均似然度的一覽表601輸出到同義句擷取部107。

同義句擷取部107在圖8的步驟S26中，擷取出同義句之中比臨界值更小的平均似然度者。臨界值與實施形態 1相同為2.68。

圖21為顯示有關實施形態2之具有比臨界值更小的平均似然度之同義句一覽表602圖面。

同義句擷取部107將具有比臨界值更小的平均似然度之同義句一覽表602輸出到語言模式產生部108。

又，在本實施形態中，相異表記記憶部114預先記憶以相同意義對應不同表記的詞彙，似然度算出部106參照相異表記記憶部114，統一相異表記的同義句，但是不設置相異表記記憶部114，由使用者指示相異表記的同義句，並且依照該指示使似然度算出部106統一相異表記的同義句亦可。

因此，在本實施形態中，因為算出將包含相異表記的同義句之多個同義文的似然度相加平均後的平均似然度，因此可以抑制根據相異表記的同義句之似然度誤差，更高精確度推測出似然度。

又，由於統一相異表記，因此即使是聲音辨識也可以達到抑制語言模式之似然度誤差的效果。

實施形態3.

在上述的實施形態1中，記載著PP與覆蓋率是使用N元語言模式與同義文，利用悉知方法求出乙事。在本實施形態中，詳細說明求出PP與覆蓋率的方法。

在本實施形態中，針對求出PP與覆蓋率的方法，使用日文的N元語言模式與同義文進行說明。

N元語言模式為使用記載於非專利文獻1的第147~155頁之「CMU-Cambridge SLM Toolkit」(以下稱為語言模式產生工具)產生者。語素分析為使用記載於非專利文獻1的第135頁之語素分析器「茶筅」加以進行。在語素分析中，句首、句尾是以<s>表記加以表示。又，PP與覆蓋率為根據記載於非專利文獻1的第153~154頁之語言模式的評估方法加以求出。

圖22為顯示有關實施形態3之原文701的圖面。

圖23為顯示有關實施形態3之同義句702的圖面。

圖24為顯示有關實施形態3之語素分析原文701後之語素分析結果703圖。各行為顯示1個語素，各列分別表示語素的表記、讀音、原型、詞類。EOS表示句尾。

圖25為顯示有關實施形態3之從語素分析結果703轉換而來之原文.text檔704的圖面。在原文.text檔704中，各語素利用「表記+讀音+詞類」加以表示，與下個語素的區隔則是以空白表示。

圖26為顯示有關實施形態3之使用語言模式作成工具，產生語言模式的步驟705圖。

圖27為顯示有關實施形態3之N元語言模式的一.例之原文.arpa檔706的圖面。

圖28為顯示有關實施形態3之語素分析同義文702後之語素分析結果707圖。

圖29為顯示有關實施形態3之PP及覆蓋率的算出結果708圖面。

圖30為顯示有關實施形態3之同義文.anno檔709的圖面。

以下，詳細說明之。原文為使用圖22的原文701、同義文為使用圖23的同義文702。N元產生部104利用語素分析器「茶筅」語素分析從原文擷取部103所輸入的原文701，得到語素分析結果703。其次，N元產生部104將語素分析結果703轉換成原文.text檔704。其次，N元產生部104根據圖26所示之語言模式產生步驟，從原文.text檔704產生原文.arpa檔706，並且將原文.arpa檔706作為N元語言模式輸出到似然度算出部106。在圖27所示之原文.arpa檔706中，顯示G00d-Turing(平滑)參數值、N元的入口數、及1-gram、2-gram、3-gram各別的對數似然值與回退計數作為折扣方法。

再者，N元產生部104利用與原文701相同的步驟，利用語素分析器「茶筅」語素分析同義文702，得到語素分析結果707。其次，N元產生部104將語素分析結果707轉換為同義文.text檔707，將同義文.text檔707輸出到似然度算出部106。

似然度算出部106使用語言模式產生工具，從原文.arpa檔706與同義文.text檔707算出PP與覆蓋率。原文.arpa檔706為從N元產生部104所輸出之N元語言模式。在圖29顯示PP與覆蓋率的算出結果708。在語言模式產生工具中，藉由利用evallm指令輸入原文.arpa檔，接著利用perplexity指令輸入同義文.text檔，得到Perplexity=9.07，OOVs(50.00%)。OOV表示未登錄語率，從該結果得到PP=9.07、覆蓋率=100.0-50.50.0%。將該計算過程作為同義文.anno檔709予以輸出。

同義文.anno檔709的各行顯示利用N元語言模式可計數詞彙的發生概率。因為對於同義文.text檔707的12詞彙可計算的詞彙為6行的6詞彙，因此覆蓋率以6÷12×100=50而為50%。又，因為可計算的詞彙為6詞彙，因此PP為PP=(0.0769308×0.0769308×0.0769308×0.666653×0.0769308×0.0769308)^(-1÷6)=9.0698440，將小數點以下第3位四捨五入後而為9.07。又，為了將計算簡單化，使用對數概率之logprob亦可。

如此一來，使用原文與同義文，可以算出PP與覆蓋率。

因此，在本實施形態中，因為似然度算出部106為使用原文與同義文算出PP與覆蓋率，因此可以算出顯示同義文與原文文脈是否相近的似然度。

100‧‧‧語言模式產生裝置