TWI582754B - Language pattern generating means, language pattern generating method and program, voice recognizing apparatus, and voice recognition method and program thereof - Google Patents

Language pattern generating means, language pattern generating method and program, voice recognizing apparatus, and voice recognition method and program thereof Download PDF

Info

Publication number
TWI582754B
TWI582754B TW104133968A TW104133968A TWI582754B TW I582754 B TWI582754 B TW I582754B TW 104133968 A TW104133968 A TW 104133968A TW 104133968 A TW104133968 A TW 104133968A TW I582754 B TWI582754 B TW I582754B
Authority
TW
Taiwan
Prior art keywords
synonym
morpheme
sentence
language
original
Prior art date
Application number
TW104133968A
Other languages
English (en)
Other versions
TW201714167A (en
Inventor
Hiroyasu Itsui
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of TW201714167A publication Critical patent/TW201714167A/zh
Application granted granted Critical
Publication of TWI582754B publication Critical patent/TWI582754B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Description

語言模式產生裝置、語言模式產生方法及其程式、聲音認識裝置以及聲音認識方法及其程式
本發明為有關一種使用除了從學習用例文之外,也從包含在例文的語句之同義語句(同義句)學習而來的N元,產生語言模式的技術。
根據聲音辨識將聲音文字化之技術,有效運用在醫療或法律領域之抄錄、播放字幕的作成等大多領域。藉由將聲音文字化易於進行資料庫的檢索。
例如,在客服中心將通話聲音文字化,當將聲音與文字連結時,藉由文字列檢索文字,易於檢索到與文字連結的聲音。藉此,選擇包含在通話聲音中之顧客姓名或生產編號等作為檢索關鍵字,可以重點式監控檢查。但是,在聲音辨識的結果中也會包含辨識錯誤的情況,而辨識錯誤是成為檢索精確度低下的原因。如何減低該辨識錯誤則成為課題。
在現在的聲音辨識技術中,一般是使用聲音特徵與音素相互對應之音響模式、及表現連接的詞彙間關係之語言模式。作為用以更精確辨識聲音之語言模式,使用揭露於非專利文獻1~3之N元模式的方式倍受關注。N元模式是藉由從學習用例文學習而產生,從前一(N-1)個詞彙,預測下一個出 現的詞彙之概率性語言模式。
在N元模式中,會有不存在於學習用例文的詞彙連續之出現概率為0的問題,該問題稱為稀疏問題。為了解決該問題,一般是使用平順法(參照以下非專利文獻2)。
先前技術文獻 非專利文獻
非專利文獻1:鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著作、「聲音辨識系統」、Ohmsha公司、2001年(平成13年)5月15日、第53-155頁
非專利文獻2:北研二、辻井潤一著作、「概率性語言模式」、東京大學出版社、1999年11月25日、第57-99頁
非專利文獻3:長尾真著作、「自然語言處理」、岩波書店、1996年4月26日、第118-137頁
然而,在平順法中,由於是使用比現在的N值更小的值之概率值進行預測,因此會造成實際上不可能存在的詞彙連續包含在語言模式中,而使辨識錯誤的可能性變高之問題點。
本發明為用以解決上述的問題點而開發出來者,以得到一種可以產生即使是不存在於學習用例文的詞彙連續也能夠減低聲音辨識的辨識錯誤之語言模式的語言模式產生裝置為目的。
本發明之語言模式產生裝置,包括:同義句產生部,其為使用包含在由多個文句構成的學習用例文之語句的各語素及對應語素原表記的同義語,產生由語素原表記與對應語素原表記的同義語之組合、及對應各語素原表記的同義語之組合構成之多個同義句;及語言模式產生部,其為從已產生的多個同義句與學習用例文產生N元模式的語言模式。
本發明之語言模式產生方法,具有:同義句產生步驟,其為使用包含在由多個文句構成的學習用例文之語句的各語素及對應語素原表記的同義語,產生由語素原表記與對應語素原表記的同義語之組合、及對應各語素原表記的同義語之組合構成之多個同義句;及語言模式產生步驟,其為從已產生的多個同義句與學習用例文產生N元模式的語言模式。
本發明之語言模式產生程式,其為在電腦執行以下步驟者,同義句產生步驟,其為使用包含在由多個文句構成的學習用例文之語句的各語素及對應語素原表記的同義語,產生由語素原表記與對應語素原表記的同義語之組合、及對應各語素原表記的同義語之組合構成之多個同義句;及語言模式產生步驟,其為從已產生的多個同義句與學習用例文產生N元模式的語言模式。
本發明之聲音辨識裝置,包括:語言模式記憶部,其為記憶語言模式,該語言模式為從使用包含在由多個文句構成的學習用例文之語句的各語素及對應語素原表記的同義語,由語素原表記與對應語素原表記的同義語之組合、及對應 各語素原表記的同義語之組合構成之多個同義句與學習用例文產生的N元模式;音響模式記憶部,其為記憶由聲音的特徵量圖案構成之音響模式;聲音輸入部,其為輸入聲音訊號;及聲音辨識部,其為使用語言模式與聲音模式辨識聲音訊號,輸出聲音辨識結果。
本發明之聲音辨識方法,具有:語言模式記憶步驟,其為記憶語言模式的步驟,該語言模式為從使用包含在由多個文句構成的學習用例文之語句的各語素及對應語素原表記的同義語,由語素原表記與對應語素原表記的同義語之組合、及對應各語素原表記的同義語之組合構成之多個同義句與學習用例文產生的N元模式;音響模式記憶步驟,其為記憶由聲音的特徵量圖案構成之音響模式;聲音輸入步驟,其為輸入聲音訊號;及聲音辨識步驟,其為使用語言模式與聲音模式辨識聲音訊號,輸出聲音辨識結果。
本發明之聲音辨識程式,其為在電腦執行以下步驟者,語言模式記憶步驟,其為記憶語言模式,該語言模式為從使用包含在由多個文句構成的學習用例文之語句的各語素及對應語素原表記的同義語,由語素原表記與對應語素原表記的同義語之組合、及對應各語素原表記的同義語之組合構成之多個同義句與學習用例文產生的N元模式;音響模式記憶步驟,其為記憶由聲音的特徵量圖案構成之音響模式;聲音輸入步驟,其為輸入聲音訊號;及聲音辨識步驟,其為使用語言模式與聲音模式辨識聲音訊號,輸出聲音辨識結果。
根據本發明,因為使用除了從學習用例文,也從包含在例文之語句的同義語語句,也就是同義句學習而來的N元,產生語言模式,因此可以得到一種即使是不存在於學習用例文之詞彙連續也能夠減低聲音辨識的辨識錯誤之語言模式。
100、120‧‧‧語言模式產生裝置
101‧‧‧語句輸入部
102‧‧‧同義句產生部
103‧‧‧原文擷取部
104‧‧‧N元產生部
105‧‧‧同義文擷取部
106‧‧‧似然度算出部
107‧‧‧同義句擷取部
108‧‧‧語言模式產生部
110‧‧‧學習例文記憶部
111‧‧‧同義語字典
112‧‧‧文集
113‧‧‧語言模式
200‧‧‧聲音辨識裝置
201‧‧‧聲音輸入部
202‧‧‧聲音辨識部
203‧‧‧語言模式記憶部
204‧‧‧音響模式記憶部
205‧‧‧顯示部
121、212‧‧‧記憶體
122、213‧‧‧處理器
211‧‧‧麥克風
214‧‧‧顯示器
501‧‧‧語句
502、503‧‧‧語素分析
504‧‧‧同義句
505、701‧‧‧原文
506、702‧‧‧同義文
507‧‧‧似然度一覽表
508、509‧‧‧平均似然度一覽表
703、707‧‧‧語素分析結果
704‧‧‧原文.text檔
705‧‧‧步驟
706‧‧‧原文.arpa檔
708‧‧‧PP及覆蓋率的計算結果
709‧‧‧同義文.anno檔
圖1為顯示有關實施形態1之語言模式產生裝置的構成之方塊圖。
圖2為顯示有關實施形態1之同義語字典的資料之例示圖。
圖3為顯示有關實施形態1之包含在學習用例文的語句「以好聲音聆聽」的圖面。
圖4為顯示有關實施形態1之同義句產生部的處理流程之流程圖。
圖5為顯示有關實施形態1之語素列的圖面。
圖6為顯示有關實施形態1之附予同義語之語素的圖面。
圖7為顯示有關實施形態1之同義句的圖面。
圖8為顯示有關實施形態1之原文擷取部、N元產生部、同義文擷取部、似然度算出部及同義句擷取部的處理流程之流程圖。
圖9為顯示有關實施形態1之原文的圖面。
圖10為顯示有關實施形態1之同義文的圖面。
圖11為顯示有關實施形態1之同義文的似然度資訊的圖面。
圖12為顯示有關實施形態1之同義文及其平均似然度的一覽表圖面。
圖13為顯示有關實施形態1之具有比臨界值更小的平均似然度之同義句一覽表圖面。
圖14為顯示有關實施形態1之語言模式產生裝置的硬體構成之方塊圖。
圖15為顯示有關實施形態1之使用根據語言模式產生裝置產生的語言模式之聲音辨識裝置的構成之方塊圖。
圖16為顯示有關實施形態1之使用根據語言模式產生裝置產生的語言模式之聲音辨識裝置的硬體構成之方塊圖。
圖17為顯示有關實施形態1之語言模式產生裝置的構成之方塊圖。
圖18為顯示有關實施形態2之語言模式產生裝置的構成之方塊圖。
圖19為顯示有關實施形態2之相異表記記憶部所記憶的資料之例示圖。
圖20為顯示有關實施形態2之統一相異表記後之同義句及其平均似然度的一覽表圖面。
圖21為顯示有關實施形態2之具有比臨界值更小的平均似然度之同義句一覽表圖面。
圖22為顯示有關實施形態3之原文的圖面。
圖23為顯示有關實施形態3之同義句的圖面。
圖24為顯示有關實施形態3之語素分析原文後之語素分析結果圖。
圖25為顯示有關實施形態3之從語素分析結果轉換而來之原文.text檔的圖面。
圖26為顯示有關實施形態3之使用語言模式作成工具,產生語言模式的步驟圖。
圖27為顯示有關實施形態3之N元語言模式的一例之原文.arpa檔的圖面。
圖28為顯示有關實施形態3之語素分析同義文後之語素分析結果圖。
圖29為顯示有關實施形態3之PP及覆蓋率的算出結果圖面。
圖30為顯示有關實施形態3之同義文.anno檔的圖面。
實施形態1.
圖1為顯示有關實施形態1之語言模式產生裝置100的構成之方塊圖。語言模式產生裝置100由:語句輸入部101、同義句產生部102、原文擷取部103、N元產生部104、同義文擷取部105、似然度算出部106、同義句擷取部107及語言模式產生部108構成。語言模式產生裝置100將輸入學習例文記憶部110、同義語字典111、文集112作為輸入,並且輸出語言模式113。
學習例文記憶部110為記憶用以產生語言模式之學習用例文的記憶部。學習例文是使用聲音辨識的對象領域之例文。在本實施形態中,假設是在對應家電機器的詢問之客服中心,辨識取得的聲音之情況,使學習例文為記載於家電機器 的使用說明書的所有文章。在使用說明書中,例如「以好聲音聆聽時,設定為環繞模式...」所示,記述了家電機器的操作及設定方法。藉由將使用說明書作為學習例文編入語言模式,可以提升記載於使用說明書之詞彙連續的辨識率。
同義語字典111為記載同義語的字典資料。
圖2為顯示有關實施形態1之同義語字典111的資料之例示圖。顯示與原表記相互對應之同義語。「好」的同義語為「優美」、「純正」、「可愛」。「聲音」的同義語為「音調」、「聲響」。「聆聽」的同義語為「收聽」、「聽取」。
文集112為累積有自然語言的文件之大數據。文集112為在將文件的各文分解出語素後,對於各語素附予詞類資訊之詞類標示集。
語句輸入部101為根據來自使用者的指示,從記憶在學習例文記憶部110的學習例文依序讀出語句,將已讀出的語句輸出到同義句產生部102及原文擷取部103。
同義句產生部102為參照同義語字典111,產生從語句輸入部101輸入的語句之同義語句,也就是同義句,將已產生同義句輸出到同義文擷取部105。
原文擷取部103為參照學習例文記憶部110,從學習例文擷取出被包含有從語句輸入部101所輸入的語句之所有文句,將已擷取的文句作為原文輸入到N元產生部104。
N元產生部104為從原文學習產生N元,將已產生的N元輸出到似然度算出部106。
同義文擷取部105為參照文集112,從文集112擷取出包 含有在從同義句產生部102所輸入的同義句之文句,將已擷取出的文句作為同義文輸出到似然度算出部106。
似然度算出部106從N元產生部104所輸入的N元與從同義文擷取部105所輸入的同義文,算出顯示各同義文與原文文脈是否相近的似然度,將同義文及其似然度輸出到同義句擷取部107。
同義句擷取部107從似然度算出部106所輸入的同義文之中,擷取出似然度為臨界值以下的同義文,將已擷取出的同義文輸出到語言模式產生部108。本實施形態的似然度表現出值越小越接近原文的文脈乙事。
語言模式產生部108為根據從同義句擷取部107所輸入的同義句與記憶在學習例文記憶部110的學習例文,學習N元,產生語言模式113,輸出已產生的語言模式113。
其次,將語句輸入部101從學習例文記憶部110讀出的語句為「以好聲音聆聽」,說明詳細動作。
圖3為顯示有關實施形態1之包含在學習例文的語句501「以好聲音聆聽」的圖面。
首先,針對同義句產生部102的動作,使用圖4~7進行說明。
圖4為顯示有關實施形態1之同義句產生部102的處理流程之流程圖。
圖5為顯示有關實施形態1之語素列502的圖面。「/」為語素的區隔。
圖6為顯示有關實施形態1之附予同義語之語素503的圖 面。「,」為同義語的區隔,「[]、[]」為表現同義語的詞彙列清單的開始、結束之記號。
圖7為顯示有關實施形態1之同義句504的圖面。
同義句產生部102為語素分析從語句輸入部101所輸入的語句「以好聲音聆聽」。在語素分析中,將輸入的語句分解成具有意義之最小單位,也就是語素。「以好聲音聆聽」根據語素分析,成為語素列502「好/聲音/以/聆聽」。在圖5顯示語素列502(圖3的步驟S11)。
其次,同義句產生部102參照同義語字典111,針對除了助詞之外所有語素查詢同義語。
同義句產生部102利用同義語字典111檢索以語素列502的第1個語素「好」作為原表記的同義語,讀取出「優美、純正、可愛」。同義句產生部102產生在原表記追加同義語之「[好、優美、純正、可愛]」的清單,與語素列502的第1個語素「好」進行置換。其次,同義句產生部102利用同義語字典111檢索以語素列502的第2個語素「聲音」作為原表記的同義語,讀取出「音調、聲響」。同義句產生部102產生在原表記追加同義語之「[聲音、音調、聲響]」的清單,與語素列502的第2個語素「聲音」進行置換。
由於語素列502的第3個語素「以」為助詞,因此同義句產生部102不進行動作。其次,同義句產生部102利用同義語字典111檢索語素列502的第4個語素「聆聽」,讀取出「收聽、聽取」。同義句產生部102產生在原表記追加同義語之「[聆聽、收聽、聽取]」的清單,與語素列502的第4 個語素「聆聽」進行置換。如此一來,同義句產生部102產生對語素列502附予同義語之語素列503「[好、優美、純正、可愛]」/[聲音、音調、聲響]/以/[聆聽、收聽、聽取]」。在圖6顯示附予同義語的語素列503(圖3的步驟S12)。
其次,同義句產生部102從附予同義語的語素列503產生組合各語素的同義句504,將同義句504輸出到同義文擷取部105。但是各語素全都是以原表記的組合不包含在同義句504。由於包含同義語「好」有4種、「聲音」有3種、「聆聽」有3種的詞彙,因此「以好聲音聆聽」的同義句504為4x3x3-1=35種的組合。同義句504為將語句501之多個語素中的1以上語素置換為原表記的同義語。在圖7顯示「以好聲音聆聽」的同義句504(圖3的步驟S13)。
其次,針對原文擷取部103、N元產生部104、同義文擷取部105、似然度算出部106及同義句擷取部107的動作,使用圖8~12進行說明。
圖8為顯示有關實施形態1之原文擷取部103、N元產生部104、同義文擷取部105、似然度算出部106及同義句擷取部107的處理流程之流程圖。
圖9為顯示有關實施形態1之原文505的圖面。
圖10為顯示有關實施形態1之同義文506的圖面。
圖11為顯示有關實施形態1之同義文506的似然度資訊的圖面。
圖12為顯示有關實施形態1之同義句504及其平均似然度的一覽表508圖面。
原文擷取部103為參照學習例文記憶部110所記憶的學習例文,擷取出學習例文之中所有包含語句501「以好聲音聆聽」的文句。在本實施形態中,被擷取出的此等文句稱為原文。原文擷取部103將原文輸出到N元產生部104。在圖9顯示包含「以好聲音聆聽」的原文505(圖8的步驟S21)。
其次,N元產生部104依據從原文擷取部103所輸入的原文產生N元語言模式,輸出到似然度算出部106。產生N元語言模式的處理只要是適用悉知的方法即可。N元產生部104利用例如非專利文獻1之第53~65頁記載的方法產生N元語言模式(圖8的步驟S22)。
其次,同義文擷取部105為參照文集112,擷取出所有從同義句產生部102所輸入的同義句504之中包含任一個的文句。同義文擷取部105將被擷取出的文句作為同義文,輸出到似然度算出部106。作為同義文的例示,將包含同義句「以好聲音收聽」的同義文506在圖10顯示(圖8的步驟S23)。
其次,似然度算出部106使用N元產生部104所輸入的N元語言模式與同義文擷取部105所輸入的同義文506,算出詞彙測試複雜度(test set perplexity)(以下稱為PP)與覆蓋率(cover rate)(在本實施形態中稱為詞彙覆蓋率)。PP為用以評估語言模式的尺度,以某1個詞彙出現的概率之幾何平均倒數加以定義。當PP越小時,意指該語言模式明確區分欲辨識的文句與非欲辨認的文句之能力越高。覆蓋率為顯示語言模式覆蓋詞彙連續之比例值。PP與覆蓋率以使用N元語言模式與同義文506利用悉知的方法求出。求出PP與覆蓋率的詳細 方法記載於實施形態3。
似然度算出部106為使用PP與覆蓋率C,利用數學式(1)求出似然度L。此時,α為未登錄語補正常數,在本實施形態中設定為4。
[數1] L=C.log(PP)+(1-C).α ...數學式(1)
在圖11顯示同義文506的似然度資訊。「為了利用喇叭以好聲音收聽,調整音頻也可以,但是...」之覆蓋率為100.0%、PP為108.7、似然度為2.04。「為了以該好聲音收聽,雖然有各式各樣的條件,對喇叭...」之覆蓋率為100.0%、PP為128.2、似然度為2.11。似然度可以說是以覆蓋率補正對原文的各同義文506的交叉熵之值。似然度為表示各同義文506的文脈與原文505整體的近似度(圖8的步驟S24)。
其次,似然度算出部106針對各同義句504算出平均似然度。平均似然度μ為利用數學式(2)求出。此時,將同一同義句的個數為n,同一同義句的似然度為Tn。
似然度算出部106將同義句504與其平均似然度的一覽表508輸出到同義句擷取部107。在圖12顯示同義句504與其平均似然度的一覽表508(圖8的步驟S25)。
其次,同義句擷取部107擷取出同義句504之中 比臨界值更小的平均似然度者。同義句擷取部107在本實施形態中為預先設定為保持有臨界值2.68者。因為似然度越低交叉熵為低、文脈相近,因此同義句的意義類似原文的概率越高。
圖13為顯示有關實施形態1之具有比臨界值更小的平均似然度之同義句一覽表509圖面。
同義句擷取部107將具有比臨界值更小的平均似然度之同義句一覽表509輸出到語言模式產生部108(圖8的步驟S26)。
語言模式產生部108使用同義句擷取部107所輸入的同義句與記憶在學習例文記憶部110的學習例文,產生N元模式的語言模式,並將其輸出。語言模式利用例如非專利文獻1之第53~65頁記載的方法予以產生。
其次,針對本實施形態之語言模式產生裝置的硬體構成進行說明。
圖14為顯示有關實施形態1之語言模式產生裝置100的硬體構成之方塊圖。語言模式產生裝置100由記憶體121及處理器122構成。
記憶體121記憶著用以實現語句輸入部101、同義句產生部102、原文擷取部103、N元產生部104、同義文擷取部105、似然度算出部106、同義句擷取部107及語言模式產生部108的各機能之程式及資料。記憶體121例如由ROM(Read Only Memory;唯讀記憶體)、RAM(Random Access Memory;隨機存取記憶體)、HDD(Hard Disk Drive;硬碟)、SSD(Solid State Drive;固態硬碟)構成。
處理器122為讀出記憶在記憶體121的程式及資 料,實現語句輸入部101、同義句產生部102、原文擷取部103、N元產生部104、同義文擷取部105、似然度算出部106、同義句擷取部107及語言模式產生部108的各機能。處理器122根據執行記憶在記憶體121的程式之CPU、系統LSI(large scale integration;大型積體電路)等處理電路加以實現。
又,使多個處理電路互相合作,執行語句輸入部101、同義句產生部102、原文擷取部103、N元產生部104、同義文擷取部105、似然度算出部106、同義句擷取部107及語言模式產生部108的機能之構成亦可。又,語句輸入部101、同義句產生部102、原文擷取部103、N元產生部104、同義文擷取部105、似然度算出部106、同義句擷取部107及語言模式產生部108的各機能根據由記憶體121及處理器122構成的處理電路,利用硬體加以實現亦可。
其次,針對利用如此產生的語言模式113之聲音辨識裝置進行說明。
圖15為顯示有關實施形態1之使用根據語言模式產生裝置100產生的語言模式113之聲音辨識裝置200的構成之方塊圖。聲音辨識裝置200由聲音輸入部201、聲音辨識部202、語言模式記憶部203、音響模式記憶部204及顯示部205構成。
聲音輸入部201為將使用者發出的聲音轉換成可數位處理的數位聲音訊號。
聲音輸入部201所輸出的數位聲音訊號被輸入到聲音辨識部202。
語言模式記憶部203記憶從上述語言模式產生裝 置100所輸出的語言模式113。
音響模式記憶部204以音素的單位記憶由聲音的標準特徵量圖案構成的音響模式。音響模式為被用於在聲音辨識處理中與輸入聲音的特徵量對照,進行以音素單位之輸入聲音的辨識。
聲音辨識部202針對輸入的數位聲音訊號,參照記憶在音響模式記憶部204的音響模式與記憶在語言模式憶部203的語言模式113,進行聲音辨識。聲音辨識部202將最大似然的聲音辨識結果之詞彙系列輸出到顯示部205。
顯示部205顯示從聲音辨識部202所輸入的詞彙系列。
其次,針對本實施形態之聲音辨識裝置200的硬體構成進行說明。
圖16為顯示有關實施形態1之使用根據語言模式產生裝置100產生的語言模式113之聲音辨識裝置200的硬體構成之方塊圖。聲音辨識裝置200由麥克風211、記憶體212、處理器213及顯示器214構成。
麥克風211為實現聲音輸入部201的機能。
記憶體212記憶用以實現聲音辨識部202、語言模式記憶部203及音響模式記憶部204的各機能之程式及資料。記憶體212例如由ROM(Read Only Memory;唯讀記憶體)、RAM(Random Access Memory;隨機存取記憶體)、HDD(Hard Disk Drive;硬碟)、SSD(Solid State Drive;固態硬碟)構成。
處理器213讀出記憶在記憶體212的程式及資料,實現聲音辨識部202的機能。處理器213根據執行記憶 在記憶體212的程式之CPU、系統LSI(large Scale Integration;大型積體電路)等處理電路加以實現。
又,使多個處理電路互相合作,執行聲音辨識部202的機能之構成亦可。
顯示器214為實現顯示部205的機能。
即使是相同意義,根據使用者也會有像是「以優美聲音聆聽」、「以優秀音質收聽」表現「以好聲音聆聽」,在只將家電機器的使用說明書的文章作為學習例文的情況下,雖然有聲音辨識部202無法辨識的說法之情況,但是根據本實施形態,聲音辨識部202可以辨識更廣泛的說法。
在本實施形態中,雖然說明了以「以好聲音聆聽」為例擷取出同義句的處理,但是語言模式產生裝置100從記憶在學習例文記憶部110的學習例文讀出所有的語句,針對所有的語句擷取出與原文文脈相近的同義句,再從學習例文與已擷取出的同義句產生語言模式。但是,當針對學習例文的所有語句進行處理時,由於會使計算量變多,因此即使是限定使用例如使用說明書的章、節之標題的語句進行本實施形態的處理而產生語言模式,也可以減低聲音辨識的辨識錯誤。
又,在本實施形態中,雖然是使用似然度,從根據同義句產生部102所產生的同義句504利用同義句擷取部107擷取出與原文文脈相近的同義句,但是從根據同義句產生部102所產生的同義句與學習例文作成語言模式亦可。
圖17為顯示有關實施形態1之語言模式產生裝置120的構成之方塊圖。同義句產生部102為參照同義語字典111,產 生從語句輸入部101所輸入的語句之同義語句,也就是同義句504,將已產生的同義句504輸出到語言模式產生部108。語言模式產生部108根據從同義句產生部102所輸入的同義句504與記憶在學習例文記憶部110的學習例文,產生N元模式,將已產生的N元模式作為語言模式進行輸出。因為語言模式產生裝置120除了從學習例文也從同義句504產生N元模式,因此可以產生即使是不存在於學習例文的單語連續也能夠減低聲音辨識的辨識錯誤之語言模式。
又,因為語言模式產生裝置100為從同義句之中與原文文脈相近的同義句與學習例文產生語言模式,因此與語言模式產生裝置120相比可以削減語言模式產生部108的處理量的狀態下,產生更減低辨識錯誤的語言模式。
因此,在本實施形態中,因為使用除了從學習例文也從與原文文脈相近的同義句學習而來的N元,產生語言模式,因此可以產生即使是不存在於學習例文的單語連續也能夠減低聲音辨識的辨識錯誤之語言模式。又,聲音辨識裝置200藉由使用這樣的語言模式進行聲音辨識,可以減低辨識錯誤。
又,會有根據領域而無法準備更多學習例文的情況。即使在該情況下,本實施形態因為使用除了從學習例文也從與原文文脈相近的同義句學習而來的N元,產生語言模式,因此可以產生減低聲音辨識的辨識錯誤之語言模式。
實施形態2.
在以上的實施形態1中,雖然是針對各同義句求出平均似然度者,但是在本實施形態中,顯示在將包含在同義句之詞彙 的相異表記統一後再求出平均似然度的實施形態。藉此,可以抑制同義句似然度的誤差,達到可以更高精確度推測似然度的效果。
圖18為顯示有關實施形態2之語言模式產生裝置100的構成之方塊圖。語言模式產生裝置100的構成除了似然度算出部106為參照相異表記記憶部114以外,其他與實施形態1相同。
圖19為顯示有關實施形態2之相異表記記憶部114所記憶的資料例示圖。相異表記記憶部114記憶以相同意義對應不同表記的詞彙。「好」、「佳等」及「良好」、「可人」、「可愛」都是相同意義的相異表記。
似然度算出部106在圖8的步驟S25中,針對各同義句算出平均似然度時,參照相異表記記憶部114,除了相同表記的同義句,也將所有相異表記的同義句之似然度相加平均,求出平均似然度。
圖20為顯示有關實施形態2之統一相異表記後之同義句及其平均似然度的一覽表601圖面。在圖20中,與實施形態1的圖12相比,將「以好聲音收聽」、「以良好聲音收聽」及「以佳等聲音收聽」統一成「以好聲音收聽」。又,將「以可人聲響聆聽」、「以可愛聲響聆聽」統一成「以可人聲響聆聽」。
似然度算出部106將統一相異表記後的同義句及其平均似然度的一覽表601輸出到同義句擷取部107。
同義句擷取部107在圖8的步驟S26中,擷取出同義句之中比臨界值更小的平均似然度者。臨界值與實施形態 1相同為2.68。
圖21為顯示有關實施形態2之具有比臨界值更小的平均似然度之同義句一覽表602圖面。
同義句擷取部107將具有比臨界值更小的平均似然度之同義句一覽表602輸出到語言模式產生部108。
又,在本實施形態中,相異表記記憶部114預先記憶以相同意義對應不同表記的詞彙,似然度算出部106參照相異表記記憶部114,統一相異表記的同義句,但是不設置相異表記記憶部114,由使用者指示相異表記的同義句,並且依照該指示使似然度算出部106統一相異表記的同義句亦可。
因此,在本實施形態中,因為算出將包含相異表記的同義句之多個同義文的似然度相加平均後的平均似然度,因此可以抑制根據相異表記的同義句之似然度誤差,更高精確度推測出似然度。
又,由於統一相異表記,因此即使是聲音辨識也可以達到抑制語言模式之似然度誤差的效果。
實施形態3.
在上述的實施形態1中,記載著PP與覆蓋率是使用N元語言模式與同義文,利用悉知方法求出乙事。在本實施形態中,詳細說明求出PP與覆蓋率的方法。
在本實施形態中,針對求出PP與覆蓋率的方法,使用日文的N元語言模式與同義文進行說明。
N元語言模式為使用記載於非專利文獻1的第147~155頁之「CMU-Cambridge SLM Toolkit」(以下稱為語言模式產生 工具)產生者。語素分析為使用記載於非專利文獻1的第135頁之語素分析器「茶筅」加以進行。在語素分析中,句首、句尾是以<s>表記加以表示。又,PP與覆蓋率為根據記載於非專利文獻1的第153~154頁之語言模式的評估方法加以求出。
圖22為顯示有關實施形態3之原文701的圖面。
圖23為顯示有關實施形態3之同義句702的圖面。
圖24為顯示有關實施形態3之語素分析原文701後之語素分析結果703圖。各行為顯示1個語素,各列分別表示語素的表記、讀音、原型、詞類。EOS表示句尾。
圖25為顯示有關實施形態3之從語素分析結果703轉換而來之原文.text檔704的圖面。在原文.text檔704中,各語素利用「表記+讀音+詞類」加以表示,與下個語素的區隔則是以空白表示。
圖26為顯示有關實施形態3之使用語言模式作成工具,產生語言模式的步驟705圖。
圖27為顯示有關實施形態3之N元語言模式的一.例之原文.arpa檔706的圖面。
圖28為顯示有關實施形態3之語素分析同義文702後之語素分析結果707圖。
圖29為顯示有關實施形態3之PP及覆蓋率的算出結果708圖面。
圖30為顯示有關實施形態3之同義文.anno檔709的圖面。
以下,詳細說明之。原文為使用圖22的原文701、同義文為使用圖23的同義文702。N元產生部104利用語素分 析器「茶筅」語素分析從原文擷取部103所輸入的原文701,得到語素分析結果703。其次,N元產生部104將語素分析結果703轉換成原文.text檔704。其次,N元產生部104根據圖26所示之語言模式產生步驟,從原文.text檔704產生原文.arpa檔706,並且將原文.arpa檔706作為N元語言模式輸出到似然度算出部106。在圖27所示之原文.arpa檔706中,顯示G00d-Turing(平滑)參數值、N元的入口數、及1-gram、2-gram、3-gram各別的對數似然值與回退計數作為折扣方法。
再者,N元產生部104利用與原文701相同的步驟,利用語素分析器「茶筅」語素分析同義文702,得到語素分析結果707。其次,N元產生部104將語素分析結果707轉換為同義文.text檔707,將同義文.text檔707輸出到似然度算出部106。
似然度算出部106使用語言模式產生工具,從原文.arpa檔706與同義文.text檔707算出PP與覆蓋率。原文.arpa檔706為從N元產生部104所輸出之N元語言模式。在圖29顯示PP與覆蓋率的算出結果708。在語言模式產生工具中,藉由利用evallm指令輸入原文.arpa檔,接著利用perplexity指令輸入同義文.text檔,得到Perplexity=9.07,OOVs(50.00%)。OOV表示未登錄語率,從該結果得到PP=9.07、覆蓋率=100.0-50.50.0%。將該計算過程作為同義文.anno檔709予以輸出。
同義文.anno檔709的各行顯示利用N元語言模式可計數詞彙的發生概率。因為對於同義文.text檔707的12詞 彙可計算的詞彙為6行的6詞彙,因此覆蓋率以6÷12×100=50而為50%。又,因為可計算的詞彙為6詞彙,因此PP為PP=(0.0769308×0.0769308×0.0769308×0.666653×0.0769308×0.0769308)^(-1÷6)=9.0698440,將小數點以下第3位四捨五入後而為9.07。又,為了將計算簡單化,使用對數概率之logprob亦可。
如此一來,使用原文與同義文,可以算出PP與覆蓋率。
因此,在本實施形態中,因為似然度算出部106為使用原文與同義文算出PP與覆蓋率,因此可以算出顯示同義文與原文文脈是否相近的似然度。
100‧‧‧語言模式產生裝置
101‧‧‧語句輸入部
102‧‧‧同義句產生部
103‧‧‧原文擷取部
104‧‧‧N元產生部
105‧‧‧同義文擷取部
106‧‧‧似然度算出部
107‧‧‧同義句擷取部
108‧‧‧語言模式產生部
110‧‧‧學習例文記憶部
111‧‧‧同義語字典
112‧‧‧文集
113‧‧‧語言模式

Claims (9)

  1. 一種語言模式產生裝置,其特徵為包括:同義句產生部,其為使用包含在由多個文句構成的學習用例文之語句的各語素及對應前述語素的原表記之同義語,產生由前述語素的原表記與對應前述語素原表記的同義語之組合、及對應各語素原表記的同義語之組合構成之多個同義句;及語言模式產生部,其為從前述已產生的多個同義句與前述學習用例文產生N元模式的語言模式。
  2. 如申請專利範圍第1項之語言模式產生裝置,其中,包括:同義文擷取部,其為從包含多個文句的文集擷取包含前述多個同義句之中的任一個之同義文並且輸出;原文擷取部,其為從前述學習用例文擷取包含前述語句之原文並且輸出;似然度算出部,其為算出顯示從前述同義文擷取部所輸入的前述同義文與從前述原文擷取部所輸入的前述原文的文脈是否相近之似然度;及同義句擷取部,擷取出包含在前述似然度為顯示比臨界值更接近前述原文的文脈之值的同義文之中的同義句,前述語言模式產生部為從前述同義句擷取部所擷取出的同義句與前述學習用例文產生N元模式的語言模式。
  3. 如申請專利範圍第2項之語言模式產生裝置,其中,前述似然度算出部算出將包含同一同義句之多個同義文的似然度相加平均的平均似然度,前述同義句擷取部擷取出包含在前述平均似然度為顯示比 前述臨界值更接近前述原文的文脈之值的同義文之中的同義句。
  4. 如申請專利範圍第3項之語言模式產生裝置,其中,前述似然度算出部算出將包含相異表記的同義句之多個同義文的似然度相加平均的平均似然度,作為統一相異表記後之同義句的似然度。
  5. 一種語言模式產生方法,其特徵為具有:同義句產生步驟,其為使用包含在由多個文句構成的學習用例文之語句的各語素及對應前述語素的原表記之同義語,產生由前述語素的原表記與對應前述語素原表記的同義語之組合、及對應各語素原表記的同義語之組合構成之多個同義句;及語言模式產生步驟,其為從前述已產生的多個同義句與前述學習用例文產生N元模式的語言模式。
  6. 一種程式,其特徵為用以在電腦執行以下步驟:同義句產生步驟,其為使用包含在由多個文句構成的學習用例文之語句的各語素及對應前述語素的原表記之同義語,產生由前述語素的原表記與對應前述語素原表記的同義語之組合、及對應各語素原表記的同義語之組合構成之多個同義句;及語言模式產生步驟,其為從前述已產生的多個同義句與前述學習用例文產生N元模式的語言模式。
  7. 一種聲音辨識裝置,其特徵為包括:語言模式記憶部,其為記憶語言模式,該語言模式為從使用包含在由多個文句構成的學習用例文之語句的各語素及 對應前述語素的原表記之同義語,由前述語素的原表記與對應前述語素原表記的同義語之組合、及對應各語素原表記的同義語之組合構成之多個同義句與前述學習用例文產生的N元模式;及音響模式記憶部,其為記憶從由聲音的特徵量圖案構成之音響模式;聲音輸入部,其為輸入聲音訊號;及聲音辨識部,其為使用前述語言模式及前述音響模式,辨識前述聲音訊號,並且輸出聲音辨識結果。
  8. 一種聲音辨識方法,其特徵為具有:語言模式記憶步驟,其為記憶語言模式的步驟,該語言模式為從使用包含在由多個文句構成的學習用例文之語句的各語素及對應前述語素的原表記之同義語,由前述語素的原表記與對應前述語素原表記的同義語之組合、及對應各語素原表記的同義語之組合構成之多個同義句與前述學習用例文產生的N元模式;及音響模式記憶步驟,其為記憶從由聲音的特徵量圖案構成之音響模式;聲音輸入步驟,其為輸入聲音訊號;及聲音辨識步驟,其為使用前述語言模式及前述音響模式,辨識前述聲音訊號,並且輸出聲音辨識結果。
  9. 一種程式,其特徵為用以在電腦執行以下步驟:語言模式記憶步驟,其為記憶語言模式的步驟,該語言模式為從使用包含在由多個文句構成的學習用例文之語句的 各語素及對應前述語素的原表記之同義語,由前述語素的原表記與對應前述語素原表記的同義語之組合、及對應各語素原表記的同義語之組合構成之多個同義句與前述學習用例文產生的N元模式;及音響模式記憶步驟,其為記憶從由聲音的特徵量圖案構成之音響模式;聲音輸入步驟,其為輸入聲音訊號;及聲音辨識步驟,其為使用前述語言模式及前述音響模式,辨識前述聲音訊號,並且輸出聲音辨識結果。
TW104133968A 2015-10-09 2015-10-16 Language pattern generating means, language pattern generating method and program, voice recognizing apparatus, and voice recognition method and program thereof TWI582754B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/078749 WO2017061027A1 (ja) 2015-10-09 2015-10-09 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム

Publications (2)

Publication Number Publication Date
TW201714167A TW201714167A (en) 2017-04-16
TWI582754B true TWI582754B (zh) 2017-05-11

Family

ID=58488224

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104133968A TWI582754B (zh) 2015-10-09 2015-10-16 Language pattern generating means, language pattern generating method and program, voice recognizing apparatus, and voice recognition method and program thereof

Country Status (6)

Country Link
US (1) US10748528B2 (zh)
EP (1) EP3349125B1 (zh)
JP (1) JP6312942B2 (zh)
CN (1) CN108140019B (zh)
TW (1) TWI582754B (zh)
WO (1) WO2017061027A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146604B (zh) * 2017-04-27 2020-07-03 北京捷通华声科技股份有限公司 一种语言模型优化方法及装置
KR102102388B1 (ko) * 2017-11-20 2020-04-21 주식회사 마인즈랩 학습 문장 생성 시스템 및 이를 이용한 유사 문장 생성 방법
US11036926B2 (en) * 2018-05-21 2021-06-15 Samsung Electronics Co., Ltd. Generating annotated natural language phrases
CN110675863A (zh) * 2018-07-03 2020-01-10 上海智臻智能网络科技股份有限公司 语音语料生成方法及装置、语音识别方法及装置
KR20200011796A (ko) * 2018-07-25 2020-02-04 엘지전자 주식회사 음성 인식 시스템
US10748526B2 (en) * 2018-08-28 2020-08-18 Accenture Global Solutions Limited Automated data cartridge for conversational AI bots
JP2020102131A (ja) * 2018-12-25 2020-07-02 株式会社日立製作所 テキスト生成方法、テキスト生成装置および学習済みモデル
CN110929522A (zh) * 2019-08-19 2020-03-27 网娱互动科技(北京)股份有限公司 一种智能近义词替换方法及***
KR20210043894A (ko) * 2019-10-14 2021-04-22 삼성전자주식회사 전자 장치 및 이의 문장 제공 방법
KR102208387B1 (ko) * 2020-03-10 2021-01-28 주식회사 엘솔루 음성 대화 재구성 방법 및 장치
JP7326596B2 (ja) * 2020-04-21 2023-08-15 株式会社Nttドコモ 音声データ作成装置
CN111832292B (zh) * 2020-06-03 2024-02-02 北京百度网讯科技有限公司 文本识别处理方法、装置、电子设备和存储介质
CN111933129B (zh) * 2020-09-11 2021-01-05 腾讯科技(深圳)有限公司 音频处理方法、语言模型的训练方法、装置及计算机设备
WO2022226811A1 (zh) * 2021-04-27 2022-11-03 华为技术有限公司 构建语音识别模型和语音处理的方法和***
CN113971394A (zh) * 2021-10-26 2022-01-25 上海交通大学 文本复述改写***
CN117057414B (zh) * 2023-08-11 2024-06-07 佛山科学技术学院 一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201432669A (zh) * 2013-02-01 2014-08-16 Tencent Tech Shenzhen Co Ltd 一種聲學語言模型訓練方法和裝置
TW201517017A (zh) * 2013-10-18 2015-05-01 Via Tech Inc 語言模型的建立方法、語音辨識方法及電子裝置
TW201517015A (zh) * 2013-10-18 2015-05-01 Via Tech Inc 聲學模型的建立方法、語音辨識方法及其電子裝置
US20150279353A1 (en) * 2014-03-27 2015-10-01 International Business Machines Corporation Unsupervised training method, training apparatus, and training program for n-gram language model
US20150286630A1 (en) * 2014-04-08 2015-10-08 TitleFlow LLC Natural language processing for extracting conveyance graphs

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3628245B2 (ja) 2000-09-05 2005-03-09 日本電信電話株式会社 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
US20040030540A1 (en) * 2002-08-07 2004-02-12 Joel Ovil Method and apparatus for language processing
JP4269625B2 (ja) 2002-10-08 2009-05-27 三菱電機株式会社 音声認識辞書作成方法及びその装置と音声認識装置
CN1934570B (zh) * 2004-03-18 2012-05-16 日本电气株式会社 文本挖掘装置和其方法
US7546235B2 (en) * 2004-11-15 2009-06-09 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7693829B1 (en) * 2005-04-25 2010-04-06 Google Inc. Search engine with fill-the-blanks capability
US7937265B1 (en) * 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
US20080040339A1 (en) * 2006-08-07 2008-02-14 Microsoft Corporation Learning question paraphrases from log data
JP2008293457A (ja) * 2007-05-22 2008-12-04 Ryoma Terao 言語処理システムおよびプログラム
WO2010021368A1 (ja) 2008-08-20 2010-02-25 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
CN102341843B (zh) * 2009-03-03 2014-01-29 三菱电机株式会社 语音识别装置
CN101639826B (zh) * 2009-09-01 2012-07-04 西北大学 一种基于中文句式模板变换的文本隐藏方法
JP5276610B2 (ja) 2010-02-05 2013-08-28 日本放送協会 言語モデル生成装置、そのプログラムおよび音声認識システム
SG194709A1 (en) * 2011-05-10 2013-12-30 Nec Corp Device, method and program for assessing synonymous expressions
US20130018650A1 (en) * 2011-07-11 2013-01-17 Microsoft Corporation Selection of Language Model Training Data
CA2793268A1 (en) * 2011-10-21 2013-04-21 National Research Council Of Canada Method and apparatus for paraphrase acquisition
CN103871403B (zh) * 2012-12-13 2017-04-12 北京百度网讯科技有限公司 建立语音识别模型的方法、语音识别方法及对应装置
CN103823794B (zh) * 2014-02-25 2016-08-17 浙江大学 一种关于英语阅读理解测试疑问式简答题的自动化命题方法
KR102033435B1 (ko) * 2014-11-19 2019-11-11 한국전자통신연구원 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201432669A (zh) * 2013-02-01 2014-08-16 Tencent Tech Shenzhen Co Ltd 一種聲學語言模型訓練方法和裝置
TW201517017A (zh) * 2013-10-18 2015-05-01 Via Tech Inc 語言模型的建立方法、語音辨識方法及電子裝置
TW201517015A (zh) * 2013-10-18 2015-05-01 Via Tech Inc 聲學模型的建立方法、語音辨識方法及其電子裝置
US20150279353A1 (en) * 2014-03-27 2015-10-01 International Business Machines Corporation Unsupervised training method, training apparatus, and training program for n-gram language model
US20150286630A1 (en) * 2014-04-08 2015-10-08 TitleFlow LLC Natural language processing for extracting conveyance graphs

Also Published As

Publication number Publication date
CN108140019B (zh) 2021-05-11
JP6312942B2 (ja) 2018-04-18
JPWO2017061027A1 (ja) 2018-03-01
WO2017061027A1 (ja) 2017-04-13
EP3349125A1 (en) 2018-07-18
TW201714167A (en) 2017-04-16
EP3349125B1 (en) 2019-11-20
US10748528B2 (en) 2020-08-18
EP3349125A4 (en) 2018-08-29
CN108140019A (zh) 2018-06-08
US20190080688A1 (en) 2019-03-14

Similar Documents

Publication Publication Date Title
TWI582754B (zh) Language pattern generating means, language pattern generating method and program, voice recognizing apparatus, and voice recognition method and program thereof
Arisoy et al. Turkish broadcast news transcription and retrieval
WO2018157789A1 (zh) 一种语音识别的方法、计算机、存储介质以及电子装置
TWI532035B (zh) 語言模型的建立方法、語音辨識方法及電子裝置
JP2018005218A (ja) 自動通訳方法及び装置
EP3405912A1 (en) Analyzing textual data
JP2015094848A (ja) 情報処理装置、情報処理方法、およびプログラム
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
JPWO2009081861A1 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
US11170763B2 (en) Voice interaction system, its processing method, and program therefor
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
JP2013109061A (ja) 音声データ検索システムおよびそのためのプログラム
CN112346696A (zh) 虚拟助理的语音比较
JP2010009446A (ja) 音声ファイルの検索システム、方法及びプログラム
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
JP5293607B2 (ja) 略語生成装置およびプログラム、並びに、略語生成方法
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
CN114254628A (zh) 一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质
JP2013061402A (ja) 音声言語評価装置、方法、及びプログラム
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
Thirion et al. Multilingual pronunciations of proper names in a Southern African corpus
JP2009129405A (ja) 感情推定装置、事例感情情報生成装置、及び感情推定プログラム
Begum Mustafa et al. Code-Switching in Automatic Speech Recognition: The Issues and Future Directions