TWI759003B - 語音辨識模型的訓練方法 - Google Patents

語音辨識模型的訓練方法 Download PDF

Info

Publication number
TWI759003B
TWI759003B TW109143725A TW109143725A TWI759003B TW I759003 B TWI759003 B TW I759003B TW 109143725 A TW109143725 A TW 109143725A TW 109143725 A TW109143725 A TW 109143725A TW I759003 B TWI759003 B TW I759003B
Authority
TW
Taiwan
Prior art keywords
language
phoneme
phonetic
speech
phonetic symbol
Prior art date
Application number
TW109143725A
Other languages
English (en)
Other versions
TW202223874A (zh
Inventor
盧文祥
沈紹全
林慶瑞
Original Assignee
國立成功大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立成功大學 filed Critical 國立成功大學
Priority to TW109143725A priority Critical patent/TWI759003B/zh
Priority to US17/462,776 priority patent/US20220189462A1/en
Priority to JP2021153076A priority patent/JP7165439B2/ja
Application granted granted Critical
Publication of TWI759003B publication Critical patent/TWI759003B/zh
Publication of TW202223874A publication Critical patent/TW202223874A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一種語音辨識模型的訓練方法,包含建立第一語言的語音對照表,其中語音對照表包含相互對應的源語言語音檔以及源語言音標符文。取得第二語言的延伸語言文字檔。將延伸語言文字檔標記對應的延伸語言音標符文以建立第二語言的文字對照表。以第一語言的語音對照表與第二語言的文字對照表訓練第二語言的聲學模型。以第二語言的延伸語言文字檔訓練第二語言的語言模型。以第二語言的聲學模型與語言模型建立第二語言的語音辨識模型。

Description

語音辨識模型的訓練方法
本發明關於一種語音辨識模型的訓練方法,特別是一種利用第一語言的聲學模型對第二語言訓練語音辨識模型的方法。
隨著科技發展,電子產品除了觸控式的輸入介面以外,還發展出聲控式的輸入介面,以因應使用者如駕駛中等不方便以雙手操作電子產品的情況。
聲控式的輸入介面需要在電子產品中內建語音辨識系統。然而,為了能夠準確地辨識每個使用者不同聲頻、語速或腔調等說話方式,通常需要在語音辨識系統內儲存多組發音。舉例來說,單一個現代標準漢語中的「你好(Nǐ Haǒ)」,就可能需要內存一百位以上的語言使用者的錄制音檔才能夠使語音辨識系統精準地辨識出。因此,倘若今日要針對一種語言開發新的語音辨識系統時,則前期可能會耗費大量人力資源、經費成本去蒐集新語言的多人發音檔,並且還需要對這些音檔經過整理後才能夠當成訓練新語音辨識模型的語料。如果欲開發的語音辨識模型是屬於使用人口數較少的語言,則又會增加訓練語音模型的難度。
本發明在於提供一種語音辨識模型的訓練方法,省去或大幅簡化欲開發語音辨識模型的語料蒐集步驟,即可開發出新的語音辨識模型。
本發明之一實施例所揭露之語音辨識模型的訓練方法,包含下列步驟:建立第一語言的語音對照表,其中語音對照表包含相互對應的源語言語音檔以及源語言音標符文;取得第二語言的延伸語言文字檔;將延伸語言文字檔標記對應的延伸語言音標符文以建立第二語言的文字對照表;以第一語言的語音對照表與第二語言的文字對照表訓練第二語言的聲學模型;以第二語言的延伸語言文字檔訓練第二語言的語言模型;以及以第二語言的聲學模型與語言模型建立第二語言的語音辨識模型。
根據上述實施例所揭露的語音辨識模型的訓練方法,由於不需要蒐集第二語言的語音,可僅以第一語言的語音資料庫來訓練出第二語言的語音辨識模型。因此,可低成本地轉移第一語言的聲學模型到第二語言使用,特別是針對使用人口數較少的語言,可簡化第二語言語音辨識模型的訓練流程、大幅降低其訓練成本,達到快速且容易地訓練出第二語言的語音辨識模型。
以上關於本發明內容的說明及以下實施方式的說明係用以示範與解釋本發明的原理,並且提供本發明的專利申請範圍更進一步的解釋。
本發明係為一種語音辨識模型的訓練方法,適用於一電子裝置10,以下將先說明電子裝置10的方塊圖,首先請參照圖1,係繪示有適用根據本發明之一實施例之語音辨識模型的訓練方法之電子裝置10的方塊圖。
電子裝置10例如為電腦,用以訓練出一語音辨識模型,使電子裝置10本身成為一語音辨識系統,或建立出一語音辨識系統以輸出至其他電子產品應用。具體來說,電子裝置10可包含一運算單元100、一輸入單元200、一儲存單元300以及一輸出單元400。運算單元100例如為中央處理器。輸入單元200例如為麥克風、鍵盤、滑鼠、觸控螢幕介面或傳輸介面,並電性連接到運算單元100。儲存單元300例如為硬碟,並電性連接到運算單元100。輸出單元400例如為喇叭或螢幕,並電性連接到運算單元100。
以下將介紹電子裝置10所適用之語音辨識模型的訓練方法,請參照圖2,係為根據本發明之一實施例之語音辨識模型的訓練方法的流程圖。
在本發明中,有一源語言音檔,例如為一種通用語言已完整建立好的多人發音錄制音檔。此外,還有一源語言音標符文,例如為以羅馬拼音所標註出此通用語言的子音音標與母音音標。此通用語言例如可為現代標準漢語(Standard Mandarin)、現代英語(Modern English)或韓語等等,以下將以第一語言稱之。
在本實施例中,首先於步驟S101,由輸入單元200接收源語言語音檔以及源語言音標符文,以透過運算單元100在儲存單元300建立第一語言的一語音對照表,其中第一語言的語音對照表裡有源語言語音檔與源語言音標符文的對應關係。對應關係可例如為將一段源語言語音檔以一序列的羅馬拼音來標示出來。舉例來說,現代標準漢語的「今天好天氣」以「jin-tian-hao-tian-chi」等子音音標與母音音標來表示,並且忽略聲調符號。此對應關係可例如直接取自經整理過的第一語言語音辨識系統,或是例如由運算單元100所建立,本發明不以此為限。
於步驟S102,由輸入單元200取得一第二語言的一延伸語言文字檔。第二語言即為欲建立之語音辨識模型所屬的語言,例如為臺灣閩南語(Taiwanese Hokkien)、臺灣客家語(Taiwanese Hakka)、西班牙語、日語或泰語等等。延伸語言文字檔例如為第二語言常用字彙所組成的文章。
於步驟S103,由輸入單元200接受一標記指令,透過運算單元100將延伸語言文字檔標記對應的一延伸語言音標符文,以在儲存單元300建立第二語言的一文字對照表。標記指令可例如由一影像辨識系統(未繪示)所下達。此外,延伸語言文字檔與延伸語言音標符文的對應關係可例如將一段延伸語言文字檔以一序列的羅馬拼音來標示出來。舉例來說,臺灣閩南語的「今仔日好天」以「kin-a-jit-ho-thinn」等子音音標與母音音標來表示,並且忽略聲調符號。
於步驟S104,由運算單元100以第一語言的語音對照表與第二語言的文字對照表,來訓練第二語言的一聲學模型。聲學模型可視為包含語言中音頻屬於特定音素的機率,以及音素對應到特定音標序列的機率。
具體來說,請參照圖3,係為根據本發明之一實施例之語音辨識模型的訓練方法的細部方法流程圖。在本實施例以及本發明的部分實施例中,於步驟S1041,由運算單元100將第一語言的源語言語音檔擷取一倒頻譜特徵。於步驟S1042,根據此倒頻譜特徵,由運算單元100將每三幀的源語言語音檔進行高斯混合模型運算,其中每一幀係指20毫秒。於步驟S1043,由運算單元100將經過高斯混合模型運算的源語言語音檔的每一幀進行音素對齊,藉以擷取每一幀源語言語音檔的音素。於步驟S1044,由運算單元100以馬可夫隱藏模型學習源語言語音檔的音素排序。於步驟S1045,由運算單元100取得第一語言的源語言語音檔之音素與源語言音標符文之音標的對應關係。
一般來說,源語言語音檔的音素與源語言音標符文的音標應為一對一的對應關係。然考量到各國可能將同樣發音的音素標註成不同音標的差異,例如現代標準漢語的「凹」可能被標註成「ao」或「au」,前述的對應關係可改為一對多,或是將前述羅馬拼音的標註改為以國際音標(International Phonetic Alphabet,IPA)來做為標註的基準,藉以減少不同羅馬拼音系統上的差異。
此外,在一些具有韻尾(syllable coda)子音的語言中,韻尾子音常會與下一個字的開頭母音合併發音。舉例來說,現代英語的「hold on」則有可能發音成為「hol-don」;韓語的「다음에(da-eum-e,意:下一次)」則有可能發音成為「da-eu-me」或「da-eum-me」。對此,經過學習源語言語音檔的音素排序,即可分別建立一段音頻屬於音標「hold-on」與「hol-don」的機率;或屬於「da-eum-e」、「da-eu-me」與「da-eum-me」的機率。
於步驟S1046,運算單元100根據第一語言的源語言音標符文與第二語言的延伸語言音標符文相同與否,來建立延伸語言音標符文之音標序列對應到源語言語音檔之音素序列的機率。
具體來說,請參照圖4A與圖4B,係為根據本發明之一實施例之語音辨識模型的訓練方法的細部方法流程圖。在本實施例以及本發明的部分實施例中,於步驟S1046a,運算單元100判斷第一語言的源語言音標符文的一段語音的音標序列,是否相同於第二語言的延伸語言音標符文的一單字或一單詞的音標序列。舉例來說,若是運算單元100比對現代標準漢語的「東京(dong-jing」其國際音標「tʊŋ-t͡ɕiŋ」與臺灣閩南語的「同情(tong-tsing)」其國際音標「tʊŋ-t͡ɕiŋ」完全相同;或比對現代英語的「single」其國際音標「sɪŋ-ɡl」與西班牙語的「cinco(意:五)」其國際音標「sɪŋ-ɡl」完全相同,則進入步驟S1047a,將每幀的此段語音的音素序列對等到此單字或此單詞的音標序列,也就是將「東京」或「single」的語音音素序列註記與「同情」或「cinco」的文字音標序列完全相同,並將例如為「東京」或「single」的語音音素序列與例如為「同情」或「cinco」的單詞音標序列的對等關係輸出到儲存單元300暫存。
以上係針對多個音節的情況進行對等標註,剩下的部分則進入步驟S1046b,運算單元100判斷第一語言的源語言音標符文的一音節的音標序列,是否相同於第二語言的延伸語言音標符文的一單字或一單詞之一部分的音標序列。可以前述例子的現代標準漢語「東」與臺灣閩南語「同」、或現代英語single的「sin-」與西班牙語cinco的「cin-」為對等單一音節之例。若判斷為是,則於步驟S1047b,運算單元100將每幀的此音節的音素序列對等到此單字或此單詞之一部分的音標序列,並將例如為「東」或「sin-」的音節音素序列與例如為「同」或「cin-」的單詞或單詞一部分音標序列的對等關係輸出到儲存單元300暫存。
以上係針對單一音節的情況進行對等標註,剩下的部分則進入步驟S1046c,運算單元100判斷第一語言的源語言音標符文的一音素的音標,是否相同於第二語言的延伸語言音標符文的一子音音標或一母音音標。可以前述例子的現代標準漢語「東」字的母音「ʊ」與臺灣閩南語「同」字的母音「ʊ」、或現代英語single的韻尾子音「l」與西班牙語cinco的韻尾子音「l」為對等單一音素之例。若判斷為是,則於步驟S1047c,運算單元100將每幀的此音素對等到此子音音標或母音音標,並將例如為第一語言「ʊ」或「l」的音節音素與例如為第二語言「ʊ」或「l」的子音音標或母音音標的對等關係輸出到儲存單元300暫存。
在部分情況下,考量到語音辨識模型的使用者的發音並不一定完全符合第二語言的發音標準,則可由輸入單元200取得一模糊比對表,透過運算單元100在儲存單元300建立一模糊比對音標集,其中模糊比對表可例如來自第一語言的語音辨識模型,且模糊比對音標集包含發音相近的多組音標,例如「d͡ʑ」與「t͡s」則可形成為一組模糊比對音標。如此一來,運算單元100即可以類似前述的方法,註記韓語的「앉으세(anj-eu-se,因連音而可標記成an-jeu-se,意:請坐)」其國際音標「an-d͡ʑɯ-se」近似於臺灣客家語的「恁仔細(an-chu-se,意:謝謝)」其國際音標「an-t͡sɯ-se」,並且輸出此近似關係到儲存單元300暫存。
模糊比對音標集還可以包含是否有發出發音不甚明顯的子音的狀況,比如部分使用者會省略音節開頭的「h」或結尾的「r」、「n」、「m」。如此一來,運算單元100即可以類似前述的方法,註記現代英語的「so she tear(過去式)」近似於日語的「そして(so-shi-te,意:然後)」、現代標準漢語的「你好(ni-hao)」近似於臺灣閩南語的「年後(ni-au)」或是現代標準漢語的「茶葉(cha-yeh)」近似於泰語的「ชาเย็น(cha-yen,意:泰式奶茶)」,並且輸出此近似關係到儲存單元300暫存。
以上係針對相同或相近音素的情況進行對等或近似標註。在部分情況下,第二語言可能會出現第一語言不存在的發音,例如臺灣客家語的「f」發音不存在於韓語中,那麼則進入步驟S1046d。具體來說,運算單元100判斷第二語言的延伸語言音標符文的一特殊音標皆不同於第一語言的源語言音標符文的各音素的音標。於步驟S1047d,運算單元100則將此特殊音標近似到源語言音標符文的至少一相近音素的音標,例如將臺灣客家語的「f」近似於韓語的「p」,並將第二語言的特殊音標與第一語言的至少一相近音素的對應關係組成一模糊音素集後輸出至儲存單元300暫存。
運算單元100藉由讀取前述所暫存於儲存單元300的第一語言音素與第二語言音標的對等關係或近似關係,則可建立出第二語言的聲學模型,以判斷第二語言各音頻屬於第一語言中特定音素序列的機率,並延伸得到對應的第二語言中特定音標序例的機率。
接著,請往回參照圖2。在本實施例中,於步驟S105,由運算單元100以第二語言的延伸語言文字檔,來訓練第二語言的一語言模型。語言模型可視為包含語言中特定文字序列出現的機率。
具體來說,請參照圖5,係為根據本發明之一實施例之語音辨識模型的訓練方法的細部方法流程圖。在本實施例以及本發明的部分實施例中,於步驟S1051,由輸入單元200接受一語意判讀指令,透過運算單元100將第二語言的延伸語言文字檔進行斷詞。語意判讀指令可例如由一語料庫系統(未繪示)所下達。於步驟S1052,建立延伸語言文字檔中各個詞在前後文中接連出現的機率,藉以得到第二語言的慣用語法與句法。
接著,請往回參照圖2。在本實施例中,由於運算單元100已在訓練聲學模型的步驟S104中得到第二語言各音頻屬於第一語言中特定音素序列的機率,以及對應的第二語言中特定音標序例的機率,並且在訓練語言模型的步驟S105中得到第二語言的慣用語法與句法,因此於步驟S106,運算單元100便得以利用第二語言的聲學模型與語言模型,來建立第二語言的語音辨識模型。具體來說,當有一段第二語言的語音透過輸入單元200輸入時,運算單元100可利用聲學模型判斷此段語音屬於各段音標序列的機率,再利用語音模型藉由上下文判斷此段語音屬於一段文字序列的機率,藉以將結果傳送到輸出單元400,以顯示出語音辨識後的文字結果。
在第二語言語音辨識模型的訓練過程中,不需要蒐集第二語言的語音,可僅以第一語言的語音資料庫來訓練出第二語言的語音辨識模型。如此一來,可低成本地轉移第一語言的聲學模型到第二語言使用,特別是針對使用人口數較少的語言,可簡化第二語言語音辨識模型的訓練流程、大幅降低其訓練成本,達到快速且容易地訓練出第二語言的語音辨識模型。
此外,亦可在語音辨識模型中加入第一語言或其他第三語言的語言模型,語音辨識模型即可以達到僅利用單一語言(第一語言)的聲學模型來訓練出多種語言(第一語言加上第二語言,或是第二語言加上第三語言)語音辨識模型的功效。
當第二語言的語音辨識模型建立完成後,考量到於步驟S102取得第二語言的延伸語言文字檔時可能有未能取得特殊音素的情形(其例子可參照上述臺灣客家話的「f」發音不存在於韓語的情況),為了讓第二語言的語音辨識模型更加完善,可進行試用階段,其流程請參照圖6,係為根據本發明之再一實施例之語音辨識模型的訓練方法的部分流程圖。於步驟S111a,由輸入單元200將第二語言的一段語音輸入至語音辨識模型,其中此段語音可例如來自第二語言的語音語料庫,並且此段語音包含第一語言的源語言語音檔中未出現的一特殊音素。接著於步驟S112a,運算單元100將第二語言的特殊音素近似到第一語言的源語言語音檔的至少一相近音素(可如同上述將臺灣客家語的「f」近似於韓語的「p」)。於步驟S113a,運算單元100輸出一模糊音素集到儲存單元300暫存,其中模糊音素集包含特殊音素(如:f)與至少一相近音素(如:p)的對應關係。於步驟S114a,運算單元100根據模糊音素集,建立第二語言的一補充聲學模型。運算單元100接著根據補充聲學模型,更新第二語言的語音辨識模型。如此一來,便可降低因第二語言存在有未見於第一語言的發音而導致語音辨識模型失敗的可能性。
考量到聲學模型若存在有第一語言音素與第二語言音標的近似關係時,即使是搭配語言模型所建立出的語音辨識模型仍有可能有辨識錯誤敗的情形,為了讓第二語言的語音辨識模型更加完善,可進行試用階段,其流程請參照圖7,係為根據本發明之另一實施例之語音辨識模型的訓練方法的部分流程圖。於步驟S111b,由輸入單元200接受第二語言的一段語音,透過運算單元100將此段語音收錄在儲存單元300並暫存成一補充語音檔,其中此補充語音檔可例如來自第二語言的語音語料庫,並且此補充語音檔包含第一語言的源語言語音檔中未出現的一特殊音素。例如將臺灣客家語的「f」音檔收錄成補充語音檔,以補足韓語語音檔中未有「f」音的不足。接著於步驟S112b,由輸入單元200接受另一標記指令,透過運算單元100將補充語音檔標記音標。另一標記指可例如由一音素辨識系統(未繪示)所下達。於步驟S113b,運算單元100根據補充語音檔中的特殊音素與特殊音素所對應到的標記音標,建立第二語言的一補充語音對照表。於步驟S114b,運算單元100根據第二語言的補充語音對照表與文字對照表,建立第二語言的一補充聲學模型。運算單元100接著根據補充聲學模型,更新第二語言的語音辨識模型。如此一來,由於已將第二語言中未見於第一語言的發音收錄至語音辨識模型中,因此可進一步地降低語音辨識模型失敗的可能性。
此外,為了提升第二語言語音辨識模型的辨識效率,可進行試用階段,其流程請參照圖8,係為根據本發明之又一實施例之語音辨識模型的訓練方法的部分流程圖。於步驟S111c,由輸入單元200將第二語言的一段語音輸入至語音辨識模型。接著於步驟S112c,運算單元100統計此段語音中一段相同音節序列的出現次數,其中相同音節序列未對應於第二語言的延伸語言文字檔。舉例來說,第二語言可能因為科技進步而發展出新詞彙,新詞彙即可視為一段未對應於延伸語言文字檔的音節序列。於步驟S113c,運算單元100判斷此相同音節序列(如:新詞彙)的出現次數,若超過一預設值,則進到步驟S114c,運算單元100將此相同音節序列以單一音節或單一音素拆解,拼出此相同音節序列所對應的第二語言的文字序列,並根據此相同音節序列的上下文關係,建立第二語言的一補充語言模型。運算單元100接著根據補充語言模型,更新第二語言的語音辨識模型。如此一來,便可在第二語言有出現新詞彙的時候,提升語音辨識模型的辨識效率。
根據上述實施例之語音辨識模型的訓練方法,由於不需要蒐集第二語言的語音,可僅以第一語言的語音資料庫來訓練出第二語言的語音辨識模型。因此,可低成本地轉移第一語言的聲學模型到第二語言使用,特別是針對使用人口數較少的語言,可簡化第二語言語音辨識模型的訓練流程、大幅降低其訓練成本,達到快速且容易地訓練出第二語言的語音辨識模型。
雖然本發明以前述之諸項實施例揭露如上,然其並非用以限定本發明,任何熟習相像技藝者,在不脫離本發明之精神和範圍內,當可作些許之更動與潤飾,因此本發明之專利保護範圍須視本說明書所附之申請專利範圍所界定者為準。
10:電子裝置 100:運算單元 200:輸入單元 300:儲存單元 400:輸出單元
圖1係繪示有適用根據本發明之一實施例之語音辨識模型的訓練方法之電子裝置的方塊圖。 圖2係為根據本發明之一實施例之語音辨識模型的訓練方法的流程圖。 圖3係為根據本發明之一實施例之語音辨識模型的訓練方法的細部方法流程圖。 圖4A與圖4B係為根據本發明之一實施例之語音辨識模型的訓練方法的細部方法流程圖。 圖5係為根據本發明之一實施例之語音辨識模型的訓練方法的細部方法流程圖。 圖6係為根據本發明之再一實施例之語音辨識模型的訓練方法的部分流程圖。 圖7係為根據本發明之另一實施例之語音辨識模型的訓練方法的部分流程圖。 圖8係為根據本發明之又一實施例之語音辨識模型的訓練方法的部分流程圖。

Claims (14)

  1. 一種語音辨識模型的訓練方法,包含:建立一第一語言的一語音對照表,其中該語音對照表包含相互對應的一源語言語音檔以及一源語言音標符文;取得一第二語言的一延伸語言文字檔;將該延伸語言文字檔標記對應的一延伸語言音標符文以建立該第二語言的一文字對照表;以該第一語言的該語音對照表與該第二語言的該文字對照表訓練該第二語言的一聲學模型,包含:根據該源語言音標符文與該第二語言的該延伸語言音標符文相同與否,建立該延伸語言音標符文之音標序列對應到該源語言語音檔之音素序列的機率;以該第二語言的該延伸語言文字檔訓練該第二語言的一語言模型;以及以該第二語言的該聲學模型與該語言模型的組合作為該第二語言的一語音辨識模型,其中該語言模型的執行時機接在該聲學模型的執行時機之後。
  2. 如請求項1所述之語音辨識模型的訓練方法,其中訓練該第二語言的該聲學模型更包含:將該第一語言的該源語言語音檔擷取一倒頻譜特徵;根據該倒頻譜特徵,將該源語言語音檔進行高斯混合模型運算;將經過高斯混合模型運算的該源語言語音檔進行音素對齊; 以馬可夫隱藏模型學習該源語言語音檔的音素排序;以及取得該第一語言的該源語言語音檔之音素與該源語言音標符文之音標的對應關係。
  3. 如請求項1所述之語音辨識模型的訓練方法,其中建立該延伸語言音標符文之音標序列對應到該源語言語音檔之音素序列的機率包含:若該第一語言的該源語言音標符文的一段語音的音標序列相同於該第二語言的該延伸語言音標符文的一單字或一單詞的音標序列,則將每幀的該段語音的音素序列對等到該單字或該單詞的音標序列;以及輸出該段語音之音素序列與該單字或該單詞之音標序列的對等關係。
  4. 如請求項1所述之語音辨識模型的訓練方法,其中建立該延伸語言音標符文之音標序列對應到該源語言語音檔之音素序列的機率包含:若該第一語言的該源語言音標符文的一音節的音標序列相同於該第二語言的該延伸語言音標符文的一單字或一單詞的一部分的音標序列,則將每幀的該音節的音素序列對等到該單字或該單詞的該部分的音標序列;以及輸出該音節之音素序列與該單字或該單詞的該部分之音標序列的對等關係。
  5. 如請求項1所述之語音辨識模型的訓練方法,其中建立該延伸語言音標符文之音標序列對應到該源語言語音檔之音素序列的機率包含:若該第一語言的該源語言音標符文的一音素的音標相同於該第二語言的該延伸語言音標符文的一子音音標或一母音音標,則將每幀的該音素對等到該子音音標或該母音音標;以及輸出該音素與該子音音標或該母音音標的對等關係。
  6. 如請求項1所述之語音辨識模型的訓練方法,其中建立該延伸語言音標符文之音標序列對應到該源語言語音檔之音素序列的機率包含:若該第二語言的該延伸語言音標符文的一特殊音標皆不同於該第一語言的該源語言音標符文的各音素的音標,則將該特殊音標近似到該源語言音標符文的至少一相近音素的音標;以及輸出一模糊音素集,其中該模糊音素集包含該特殊音標與該至少一相近音素的對應關係。
  7. 如請求項1所述之語音辨識模型的訓練方法,其中訓練該第二語言的該語言模型包含:將該第二語言的該延伸語言文字檔進行斷詞;以及建立該延伸語言文字檔中各個詞在前後文中接連出現的機率。
  8. 如請求項1所述之語音辨識模型的訓練方法,更包含: 將該第二語言的一段語音輸入至該語音辨識模型,其中該段語音包含該第一語言的該源語言語音檔中未出現的一特殊音素;將該特殊音素近似到該源語言語音檔的至少一相近音素;輸出一模糊音素集,其中該模糊音素集包含該特殊音素與該至少一相近音素的對應關係;根據該模糊音素集,建立該第二語言的一補充聲學模型;以及根據該補充聲學模型,更新該第二語言的該語音辨識模型。
  9. 如請求項1所述之語音辨識模型的訓練方法,更包含:將該第二語言的一段語音收錄成一補充語音檔,其中該補充語音檔包含該第一語言的該源語言語音檔中未出現的一特殊音素;將該補充語音檔標記音標;根據該特殊音素與該特殊音素所對應到的音標,建立該第二語言的一補充語音對照表;根據該第二語言的該補充語音對照表與該文字對照表,建立該第二語言的一補充聲學模型;以及根據該補充聲學模型,更新該第二語言的該語音辨識模型。
  10. 如請求項1所述之語音辨識模型的訓練方法,更包含:將該第二語言的一段語音輸入至該語音辨識模型; 統計該段語音中一相同音節序列的出現次數,其中該相同音節序列未對應於該第二語言的該延伸語言文字檔;若該段語音中的該相同音節序列的出現次數超過一預設值,則將該相同音節序列所對應的該第二語言的一文字序列收錄並建立一補充語言模型中;以及根據該補充語言模型,更新該第二語言的該語音辨識模型。
  11. 如請求項1所述之語音辨識模型的訓練方法,其中該第一語言的該源語言語音檔為多人發音的錄制音檔。
  12. 如請求項1所述之語音辨識模型的訓練方法,其中建立該第一語言的該語音對照表包含:藉由該源語言音標符文的至少一子音音標與至少一母音音標來表示該源語言語音檔而忽略聲調符號;其中建立該第二語言的該文字對照表包含:藉由該延伸語言音標符文的至少一子音音標與至少一母音音標來表示該延伸語言文字檔而忽略聲調符號。
  13. 如請求項12所述之語音辨識模型的訓練方法,其中該至少一子音音標與該至少一母音音標係以羅馬拼音為基準。
  14. 如請求項12所述之語音辨識模型的訓練方法,其中該至少一子音音標與該至少一母音音標係以國際音標為基準。
TW109143725A 2020-12-10 2020-12-10 語音辨識模型的訓練方法 TWI759003B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW109143725A TWI759003B (zh) 2020-12-10 2020-12-10 語音辨識模型的訓練方法
US17/462,776 US20220189462A1 (en) 2020-12-10 2021-08-31 Method of training a speech recognition model of an extended language by speech in a source language
JP2021153076A JP7165439B2 (ja) 2020-12-10 2021-09-21 ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109143725A TWI759003B (zh) 2020-12-10 2020-12-10 語音辨識模型的訓練方法

Publications (2)

Publication Number Publication Date
TWI759003B true TWI759003B (zh) 2022-03-21
TW202223874A TW202223874A (zh) 2022-06-16

Family

ID=81710799

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109143725A TWI759003B (zh) 2020-12-10 2020-12-10 語音辨識模型的訓練方法

Country Status (3)

Country Link
US (1) US20220189462A1 (zh)
JP (1) JP7165439B2 (zh)
TW (1) TWI759003B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971678A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 关键词检测方法和装置
US20170084295A1 (en) * 2015-09-18 2017-03-23 Sri International Real-time speaker state analytics platform
CN107408131A (zh) * 2015-03-13 2017-11-28 微软技术许可有限责任公司 触摸屏计算设备上的截短的自动建议
TW202018529A (zh) * 2018-11-08 2020-05-16 中華電信股份有限公司 查詢服務之系統與方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6085160A (en) * 1998-07-10 2000-07-04 Lernout & Hauspie Speech Products N.V. Language independent speech recognition
ATE320650T1 (de) * 1999-06-30 2006-04-15 Ibm Verfahren zur erweiterung des wortschatzes eines spracherkennungssystems
US6963841B2 (en) * 2000-04-21 2005-11-08 Lessac Technology, Inc. Speech training method with alternative proper pronunciation database
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
DE10040063A1 (de) * 2000-08-16 2002-02-28 Philips Corp Intellectual Pty Verfahren zur Zuordnung von Phonemen
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US7146319B2 (en) * 2003-03-31 2006-12-05 Novauris Technologies Ltd. Phonetically based speech recognition system and method
US7289958B2 (en) * 2003-10-07 2007-10-30 Texas Instruments Incorporated Automatic language independent triphone training using a phonetic table
US20050144003A1 (en) * 2003-12-08 2005-06-30 Nokia Corporation Multi-lingual speech synthesis
US7415411B2 (en) * 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
JP2006098994A (ja) 2004-09-30 2006-04-13 Advanced Telecommunication Research Institute International 辞書を準備する方法、音響モデルのためのトレーニングデータを準備する方法、およびコンピュータプログラム
JP2007155833A (ja) 2005-11-30 2007-06-21 Advanced Telecommunication Research Institute International 音響モデル開発装置及びコンピュータプログラム
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
US8498857B2 (en) * 2009-05-19 2013-07-30 Tata Consultancy Services Limited System and method for rapid prototyping of existing speech recognition solutions in different languages
JP5688761B2 (ja) 2011-02-28 2015-03-25 独立行政法人情報通信研究機構 音響モデル学習装置、および音響モデル学習方法
JP6376486B2 (ja) 2013-08-21 2018-08-22 国立研究開発法人情報通信研究機構 音響モデル生成装置、音響モデル生成方法、およびプログラム
GB2533370A (en) * 2014-12-18 2016-06-22 Ibm Orthographic error correction using phonetic transcription
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971678A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 关键词检测方法和装置
CN107408131A (zh) * 2015-03-13 2017-11-28 微软技术许可有限责任公司 触摸屏计算设备上的截短的自动建议
US20170084295A1 (en) * 2015-09-18 2017-03-23 Sri International Real-time speaker state analytics platform
TW202018529A (zh) * 2018-11-08 2020-05-16 中華電信股份有限公司 查詢服務之系統與方法

Also Published As

Publication number Publication date
US20220189462A1 (en) 2022-06-16
TW202223874A (zh) 2022-06-16
JP7165439B2 (ja) 2022-11-04
JP2022092568A (ja) 2022-06-22

Similar Documents

Publication Publication Date Title
US7107215B2 (en) Determining a compact model to transcribe the arabic language acoustically in a well defined basic phonetic study
US9471568B2 (en) Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof
US8498857B2 (en) System and method for rapid prototyping of existing speech recognition solutions in different languages
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
TW546631B (en) Disambiguation language model
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US7937262B2 (en) Method, apparatus, and computer program product for machine translation
US7765102B2 (en) Generic spelling mnemonics
US20150112679A1 (en) Method for building language model, speech recognition method and electronic apparatus
JP2001296880A (ja) 固有名の複数のもっともらしい発音を生成する方法および装置
US11043213B2 (en) System and method for detection and correction of incorrectly pronounced words
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JPH01501977A (ja) 言語翻訳システム
JP2002258890A (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US10930274B2 (en) Personalized pronunciation hints based on user speech
WO2021033865A1 (ko) 한글 학습 방법 및 그 장치
JP2003186494A (ja) 音声認識装置および方法、記録媒体、並びにプログラム
JP6397641B2 (ja) 自動通訳装置及び方法
TWI759003B (zh) 語音辨識模型的訓練方法
JP2003162524A (ja) 言語処理装置
JP4677869B2 (ja) 音声出力機能付き情報表示制御装置およびその制御プログラム
KR102253015B1 (ko) 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치 및 그 방법
Chypak et al. AUDIO READING ASSISTANT FOR VISUALLY IMPAIRED PEOPLE
Silamu et al. HMM-based uyghur continuous speech recognition system
KR20230155836A (ko) 난발음 표기 방법