TWI636452B - 語音識別方法及系統 - Google Patents
語音識別方法及系統 Download PDFInfo
- Publication number
- TWI636452B TWI636452B TW106135251A TW106135251A TWI636452B TW I636452 B TWI636452 B TW I636452B TW 106135251 A TW106135251 A TW 106135251A TW 106135251 A TW106135251 A TW 106135251A TW I636452 B TWI636452 B TW I636452B
- Authority
- TW
- Taiwan
- Prior art keywords
- language model
- sentence
- segmentation
- speech recognition
- preset
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000011218 segmentation Effects 0.000 claims abstract description 134
- 238000013507 mapping Methods 0.000 claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 66
- 238000010200 validation analysis Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 description 8
- 238000001914 filtration Methods 0.000 description 6
- 238000004140 cleaning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 2
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
一種語音識別方法及系統,該方法包括:從預先確定的資料源獲取特定類型的資訊文本;對獲取的各個資訊文本進行語句切分得到若干語句,對各個語句進行分詞處理得到對應的分詞,由各個語句與對應的分詞構成第一映射語料;根據得到的各個第一映射語料,訓練預設類型的第一語言模型,並基於訓練的所述第一語言模型進行語音識別。本發明有效提高語音識別的精度且有效降低語音識別的成本。
Description
本發明涉及電腦技術領域,尤其涉及一種語音識別方法及系統。
語言模型在語音識別任務中扮演著重要的角色,在現有的語音識別中,一般利用標注過的對話文本建立語言模型,通過該語言模型確定每個字的機率。然而,現有技術中利用標注過的對話文本建立語言模型的方式,由於目前用戶在日常生活中需要用到語音識別技術的場景過少(例如,比較常見的場景是語音搜索、語音控制等領域),且能夠收集的語料類型和範圍過於集中,使得這種方式存在以下兩個缺點:一個是購買價格昂貴、成本很高;另一個是很難獲取到足夠數量的語料,獲取標注過的對話文本比較困難,而且升級擴充的及時性、準確性難以保障,進而影響語言模型的訓練效果和識別精度,從而影響語音識別的準確性。
因此,如何利用現有的語料資源有效提高語音識別的精度且有效降低語音識別的成本已經成為一個亟待解決的技術問題。
本發明的主要目的在於提供一種語音識別方法及系統,旨在有效提高語音識別的精度且有效降低語音識別的成本。
為實現上述目的,本發明提供一種語音識別方法,所述方法包括以下步驟:A、從預先確定的資料源獲取特定類型的資訊文本;B、對獲取的各個資訊文本進行語句切分得到若干語句,對各個語句進行分詞處理得到對應的分詞,由各個語句與對應的分詞構成第一映射語料;C、根據得到的各個第一映射語料,訓練預設類型的第一語言模型,並基於
訓練的所述第一語言模型進行語音識別。
在一實施例中,所述步驟C替換為:根據得到的各個第一映射語料,訓練預設類型的第一語言模型;根據各個預先確定的樣本語句與對應的分詞的第二映射語料,訓練預設類型的第二語言模型;根據預先確定的模型混合公式,將訓練的所述第一語言模型及第二語言模型進行混合,以獲得混合語言模型,並基於獲得的所述混合語言模型進行語音識別。
在一實施例中,所述預先確定的模型混合公式為:M=a*M1+b*M2其中,M為混合語言模型,M1代表預設類型的第一語言模型,a代表預設的模型M1的權重係數,M2代表預設類型的第二語言模型,b代表預設的模型M2的權重係數。
在一實施例中,所述預設類型的第一語言模型及/或第二語言模型為n-gram語言模型,所述預設類型的第一語言模型或第二語言模型的訓練過程如下:S1、將各個第一映射語料或者各個第二映射語料分為第一比例的訓練集和第二比例的驗證集;S2、利用所述訓練集訓練所述第一語言模型或者第二語言模型;S3、利用所述驗證集驗證訓練的第一語言模型或者第二語言模型的準確率,若準確率大於或者等於預設準確率,則訓練結束,或者,若準確率小於預設準確率,則增加第一映射語料或者第二映射語料的數量並重新執行步驟S1、S2、S3。
在一實施例中,所述對各個切分的語句進行分詞處理的步驟包括:在一個切分的語句被選擇進行分詞處理時,根據正向最大匹配法將該切分的語句與預先確定的字詞典庫進行匹配,得到第一匹配結果,所述第一匹配結果中包含有第一數量的第一詞組和第三數量的單字;根據逆向最大匹配法將該切分的語句與預先確定的字詞典庫進行匹配,得
到第二匹配結果,所述第二匹配結果中包含有第二數量的第二詞組和第四數量的單字;若所述第一數量與所述第二數量相等,且所述第三數量小於或者等於所述第四數量,則將所述第一匹配結果作為該切分的語句的分詞結果;若所述第一數量與所述第二數量相等,且所述第三數量大於所述第四數量,則將所述第二匹配結果作為該切分的語句的分詞結果;若所述第一數量與所述第二數量不相等,且所述第一數量大於所述第二數量,則將所述第二匹配結果作為該切分的語句的分詞結果;若所述第一數量與所述第二數量不相等,且所述第一數量小於所述第二數量,則將所述第一匹配結果作為該切分的語句的分詞結果。
此外,為實現上述目的,本發明還提供一種語音識別系統,所述語音識別系統包括:獲取模組,用於從預先確定的資料源獲取特定類型的資訊文本;分詞模組,用於對獲取的各個資訊文本進行語句切分得到若干語句,對各個語句進行分詞處理得到對應的分詞,由各個語句與對應的分詞構成第一映射語料;訓練識別模組,用於根據得到的各個第一映射語料,訓練預設類型的第一語言模型,並基於訓練的所述第一語言模型進行語音識別。
在一實施例中,所述訓練識別模組還用於:根據得到的各個第一映射語料,訓練預設類型的第一語言模型;根據各個預先確定的樣本語句與對應的分詞的第二映射語料,訓練預設類型的第二語言模型;根據預先確定的模型混合公式,將訓練的所述第一語言模型及第二語言模型進行混合,以獲得混合語言模型,並基於獲得的所述混合語言模型進行語音識別。
在一實施例中,所述預先確定的模型混合公式為:M=a*M1+b*M2其中,M為混合語言模型,M1代表預設類型的第一語言模型,a代表預設的模型M1的權重係數,M2代表預設類型的第二語言模型,b代表預設的
模型M2的權重係數。
在一實施例中,所述預設類型的第一語言模型及/或第二語言模型為n-gram語言模型,所述預設類型的第一語言模型或第二語言模型的訓練過程如下:S1、將各個第一映射語料或者各個第二映射語料分為第一比例的訓練集和第二比例的驗證集;S2、利用所述訓練集訓練所述第一語言模型或者第二語言模型;S3、利用所述驗證集驗證訓練的第一語言模型或者第二語言模型的準確率,若準確率大於或者等於預設準確率,則訓練結束,或者,若準確率小於預設準確率,則增加第一映射語料或者第二映射語料的數量並重新執行步驟S1、S2、S3。
在一實施例中,所述分詞模組還用於:在一個切分的語句被選擇進行分詞處理時,根據正向最大匹配法將該切分的語句與預先確定的字詞典庫進行匹配,得到第一匹配結果,所述第一匹配結果中包含有第一數量的第一詞組和第三數量的單字;根據逆向最大匹配法將該切分的語句與預先確定的字詞典庫進行匹配,得到第二匹配結果,所述第二匹配結果中包含有第二數量的第二詞組和第四數量的單字;若所述第一數量與所述第二數量相等,且所述第三數量小於或者等於所述第四數量,則將所述第一匹配結果作為該切分的語句的分詞結果;若所述第一數量與所述第二數量相等,且所述第三數量大於所述第四數量,則將所述第二匹配結果作為該切分的語句的分詞結果;若所述第一數量與所述第二數量不相等,且所述第一數量大於所述第二數量,則將所述第二匹配結果作為該切分的語句的分詞結果;若所述第一數量與所述第二數量不相等,且所述第一數量小於所述第二數量,則將所述第一匹配結果作為該切分的語句的分詞結果。
本發明提出的語音識別方法及系統,通過對從預先確定的資料源獲取的特定類型的資訊文本進行語句切分,並對各個切分的語句進行分詞處理,得到各個切分的語句與對應的分詞的第一映射語料,根據該第
一映射語料訓練預設類型的第一語言模型,並基於訓練的所述第一語言模型進行語音識別。由於可通過對從預先確定的多個資料源中獲取的資訊文本進行語句切分及相應的分詞處理來得到語料資源,並基於該語料資源訓練語言模型,無需獲取標注過的對話文本,且能獲取到足夠數量的語料資源,能保證語言模型的訓練效果和識別精度,從而有效提高語音識別的精度且有效降低語音識別的成本。
100‧‧‧電子裝置
10‧‧‧語音識別系統
11‧‧‧儲存器
12‧‧‧處理器
13‧‧‧顯示器
01‧‧‧獲取模組
02‧‧‧分詞模組
03‧‧‧訓練識別模組
S10‧‧‧步驟
S20‧‧‧步驟
S30‧‧‧步驟
S40‧‧‧步驟
S50‧‧‧步驟
S60‧‧‧步驟
圖1為本發明語音識別方法第一實施例的流程示意圖。
圖2為本發明語音識別方法第二實施例的流程示意圖。
圖3為本發明語音識別系統10較佳實施例的運行環境示意圖。
圖4為本發明語音識別系統一實施例的功能模組示意圖。
為了使本發明所要解決的技術問題、技術方案及有益效果更加清楚、明白,以下結合附圖和實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,並不用於限定本發明。
本發明提供一種語音識別方法。
參照圖1,圖1為本發明語音識別方法第一實施例的流程示意圖。
在第一實施例中,該語音識別方法包括:步驟S10,從預先確定的資料源獲取特定類型的資訊文本。
本實施例中,在訓練語言模型之前,實時或者定時從預先確定的多個資料源(例如,新浪微博、百度百科、維基百科、新浪新聞等網站)獲取特定類型的資訊文本(例如,詞條及其解釋、新聞標題、新聞摘要、微博內容等等)。例如,可通過網路爬蟲等工具實時或者定時從預先確定的資料源(例如,各大新聞網站、論壇等)獲取特定類型的資訊(例如,新聞標題資訊、索引資訊、簡介資訊等)。
步驟S20,對獲取的各個資訊文本進行語句切分得到若干語
句,對各個語句進行分詞處理得到對應的分詞,由各個語句與對應的分詞構成第一映射語料。
從預先確定的多個資料源中獲取到特定類型的各個資訊文本後,可對獲取的各個資訊文本進行語句切分,例如可根據標點符號將各個資訊文本切分成一條條完整的語句。然後,對各個切分的語句進行分詞處理,例如,可利用字符串匹配的分詞方法對各個切分的語句進行分詞處理,如正向最大匹配法,把一個切分的語句中的字符串從左至右來分詞;或者,反向最大匹配法,把一個切分的語句中的字符串從右至左來分詞;或者,最短路徑分詞法,一個切分的語句中的字符串裡面要求切出的詞數是最少的;或者,雙向最大匹配法,正反向同時進行分詞匹配。還可利用詞義分詞法對各個切分的語句進行分詞處理,詞義分詞法是一種機器語音判斷的分詞方法,利用句法資訊和語義資訊來處理歧義現象來分詞。還可利用統計分詞法對各個切分的語句進行分詞處理,從當前用戶的歷史搜索記錄或大眾用戶的歷史搜索記錄中,根據詞組的統計,會統計有些兩個相鄰的字出現的頻率較多,則可將這兩個相鄰的字作為詞組來進行分詞。
對獲取的各個切分的語句完成分詞處理後,即可得到各個切分的語句與對應的分詞所組成的第一映射語料。通過從預先確定的多個資料源中獲取資訊文本,並對資訊文本切分生成大量的語句來進行分詞處理,可從多個資料源中獲取到語料類型豐富、範圍較廣以及數量較多的語料資源。
步驟S30,根據得到的各個第一映射語料,訓練預設類型的第一語言模型,並基於訓練的所述第一語言模型進行語音識別。
基於所述第一映射語料,訓練預設類型的第一語言模型,該第一語言模型可以是生成性模型、分析性模型、辨識性模型等。由於第一映射語料是從多個資料源中獲取到的,其語料資源的語料類型豐富、範圍較廣且數量較多,因此,利用該第一映射語料來訓練第一語言模型的訓練效果較好,進而使得基於訓練的所述第一語言模型進行語音識別的識別精度較高。
本實施例通過對從預先確定的資料源獲取的特定類型的資
訊文本進行語句切分,並對各個切分的語句進行分詞處理,得到各個切分的語句與對應的分詞的第一映射語料,根據該第一映射語料訓練預設類型的第一語言模型,並基於訓練的所述第一語言模型進行語音識別。由於可通過對從預先確定的多個資料源中獲取的資訊文本進行語句切分及相應的分詞處理來得到語料資源,並基於該語料資源訓練語言模型,無需獲取標注過的對話文本,且能獲取到足夠數量的語料資源,能保證語言模型的訓練效果和識別精度,從而有效提高語音識別的精度且有效降低語音識別的成本。
進一步地,在其他實施例中,上述步驟S20可以包括:對獲取的各個資訊文本進行清洗去噪。例如,針對微博內容,所述清洗去噪的步驟包括:從微博內容中刪除用戶名、id等資訊,只保留微博的實際內容;刪除掉轉發的微博內容,一般獲取的微博內容中有大量轉發的微博內容,重複的轉發微博內容會影響到詞語的頻次,因此須將轉發的微博內容過濾掉,過濾方法為刪除掉所有包含“轉發”或包含“http”的微博內容;過濾掉微博內容中的特殊符號,將微博內容中預設類型的符號全部過濾掉;繁體轉簡體,微博內容中有大量的繁體字符,利用預先確定的簡繁對應表將所有繁體字符轉變為簡體字符,等等。
對清洗去噪後的各個資訊文本進行語句切分,例如,將兩個預設類型的斷句符“例如,逗號、句號、感嘆號等”之間的語句作為一個待切分的語句,並對各個切分的語句進行分詞處理,以得到各個切分的語句與對應的分詞(包括詞組和單字)的映射語料。
如圖2所示,本發明第二實施例提出一種語音識別方法,在上述實施例的基礎上,上述步驟S30替換為:步驟S40,根據得到的各個第一映射語料,訓練預設類型的第一語言模型。
步驟S50,根據各個預先確定的樣本語句與對應的分詞的第二映射語料,訓練預設類型的第二語言模型。例如,可預先確定若干樣本語句,如可從預先確定的資料源中找出若干出現頻率最高或最常用的樣本語句,並確定每一樣本語句對應的正確的分詞(包括詞組和單字),以根據
各個預先確定的樣本語句與對應的分詞的第二映射語料,訓練預設類型的第二語言模型。
步驟S60,根據預先確定的模型混合公式,將訓練的所述第一語言模型及第二語言模型進行混合,以獲得混合語言模型,並基於獲得的所述混合語言模型進行語音識別。所述預先確定的模型混合公式可以為:M=a*M1+b*M2其中,M為混合語言模型,M1代表預設類型的第一語言模型,a代表預設的模型M1的權重係數,M2代表預設類型的第二語言模型,b代表預設的模型M2的權重係數。
本實施例中,在根據從多個資料源中獲取到的第一映射語料訓練得到第一語言模型的基礎上,還根據各個預先確定的樣本語句與對應的分詞的第二映射語料,訓練得到第二語言模型,例如該預先確定的樣本語句可以為預設的最常用且正確無誤的若干語句,因此,訓練得到的該第二語言模型能正確識別常用的語音。將訓練的所述第一語言模型及第二語言模型按預設的不同權重比例進行混合得到混合語言模型,並基於獲得的所述混合語言模型進行語音識別,既能保證語音識別的類型豐富、範圍較廣,又能保證正確識別常用的語音,進一步地提高語音識別的精度。
進一步地,在其他實施例中,所述預設類型的第一語言模型或第二語言模型的訓練過程如下:A、將各個第一映射語料或者各個第二映射語料分為第一比例(例如,70%)的訓練集和第二比例(例如,30%)的驗證集;B、利用所述訓練集訓練所述第一語言模型或者第二語言模型;C、利用所述驗證集驗證訓練的第一語言模型或者第二語言模型的準確率,若準確率大於或者等於預設準確率,則訓練結束,或者,若準確率小於預設準確率,則增加第一映射語料或者第二映射語料的數量並重新執行步驟A、B、C,直至訓練的所述第一語言模型或者第二語言模型的準確率大於或者等於預設準確率。
進一步地,在其他實施例中,所述預設類型的第一語言模型
及/或第二語言模型為n-gram語言模型。n-gram語言模型是大詞匯連續語音識別中常用的一種語言模型,對中文而言,稱之為漢語語言模型(CLM,Chinese Language Model)。漢語語言模型利用上下文中相鄰詞間的搭配資訊,在需要把連續無空格的拼音、筆劃,或代表字母或筆劃的數字,轉換成漢字串(即句子)時,可以計算出具有最大機率的句子,從而實現到漢字的自動轉換,避開了許多漢字對應一個相同的拼音(或筆劃串、數字串)的重碼問題。n-gram是一種統計語言模型,用來根據前(n-1)個item來預測第n個item。在應用層面,這些item可以是音素(語音識別應用)、字符(輸入法應用)、詞(分詞應用)或堿基對(基因資訊),可以從大規模文本或音頻語料庫生成n-gram模型。
n-gram語言模型基於這樣一種假設,第n個詞的出現只與前面n-1個詞相關,而與其它任何詞都不相關,整句的機率就是各個詞出現的機率的乘積,這些機率可以通過直接從映射語料中統計n個詞同時出現的次數得到。對於一個句子T,假設T是由詞序列W1,W2,…,Wn組成的,那麼句子T出現的機率P(T)=P(W1W2…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)。本實施例中,為了解決出現機率為0的n-gram,在所述第一語言模型及/或第二語言模型的訓練中,本實施例採用了最大似然估計方法,即:P(Wn|W1W2...Wn-1)=C(W1W2...Wn)/C(W1W2...Wn-1)也就是說,在語言模型訓練過程中,通過統計序列W1W2…Wn出現的次數和W1W2…Wn-1出現的次數,即可算出第n個詞的出現機率,以判斷出所對應字的機率,實現語音識別。
進一步地,在其他實施例中,上述步驟S20中對各個切分的語句進行分詞處理的步驟可以包括:根據正向最大匹配法將每一切分的語句中待處理的字符串與預先確定的字詞典庫(例如,該字詞典庫可以是通用字詞典庫,也可以是可擴充的學習型字詞典庫)進行匹配,得到第一匹配結果;根據逆向最大匹配法將每一切分的語句中待處理的字符串與預先確定的字詞典庫(例如,該字詞典庫可以是通用字詞典庫,也可以
是可擴充的學習型字詞典庫)進行匹配,得到第二匹配結果。其中,所述第一匹配結果中包含有第一數量的第一詞組,所述第二匹配結果中包含有第二數量的第二詞組;所述第一匹配結果中包含有第三數量的單字,所述第二匹配結果中包含有第四數量的單字。
若所述第一數量與所述第二數量相等,且所述第三數量小於或者等於所述第四數量,則輸出該切分的語句對應的所述第一匹配結果(包括詞組和單字);若所述第一數量與所述第二數量相等,且所述第三數量大於所述第四數量,則輸出該切分的語句對應的所述第二匹配結果(包括詞組和單字);若所述第一數量與所述第二數量不相等,且所述第一數量大於所述第二數量,則輸出該切分的語句對應的所述第二匹配結果(包括詞組和單字);若所述第一數量與所述第二數量不相等,且所述第一數量小於所述第二數量,則輸出該切分的語句對應的所述第一匹配結果(包括詞組和單字)。
本實施例中採用雙向匹配法來對獲取的各個切分的語句進行分詞處理,通過正反向同時進行分詞匹配來分析各個切分的語句待處理的字符串中前後組合內容的粘性,由於通常情況下詞組能代表核心觀點資訊的機率更大,即通過詞組更能表達出核心觀點資訊。因此,通過正反向同時進行分詞匹配找出單字數量更少,詞組數量更多的分詞匹配結果,以作為切分的語句的分詞結果,從而提高分詞的準確性,進而保證語言模型的訓練效果和識別精度。
本發明進一步提供一種語音識別系統。請參閱圖3,是本發明語音識別系統10較佳實施例的運行環境示意圖。
在本實施例中,所述的語音識別系統10安裝並運行於電子裝置100中。該電子裝置100可包括,但不僅限於,儲存器11、處理器12及顯示器13。圖3僅示出了具有組件11-13的電子裝置100,但是應理解的是,並不要求實施所有示出的組件,可以替代的實施更多或者更少的組件。
所述儲存器11在一些實施例中可以是所述電子裝置100的內部存儲單元,例如該電子裝置100的硬碟或記憶體。所述儲存器11在另一些實施例中也可以是所述電子裝置100的外部存儲設備,例如所述電子裝置100上配備的插接式硬碟,智能存儲卡(Smart Media Card,SMC),安全數位(Secure Digital,SD)卡,快閃記憶體卡(Flash Card)等。進一步地,所述儲存器11還可以既包括所述電子裝置100的內部存儲單元也包括外部存儲設備。所述儲存器11用於存儲安裝於所述電子裝置100的應用軟體及各類資料,例如所述語音識別系統10的程式碼等。所述儲存器11還可以用於暫時地存儲已經輸出或者將要輸出的資料。
所述處理器12在一些實施例中可以是一中央處理器(Central Processing Unit,CPU),微處理器或其他資料處理晶片,用於運行所述儲存器11中存儲的程式碼或處理資料,例如執行所述語音識別系統10等。
所述顯示器13在一些實施例中可以是LED顯示器、液晶顯示器、觸控式液晶顯示器以及OLED(Organic Light-Emitting Diode,有機發光二極體)觸控器等。所述顯示器13用於顯示在所述電子裝置100中處理的資訊以及用於顯示可視化的用戶界面,例如語音識別的選單界面、語音識別的結果等。所述電子裝置100的部件11-13通過系統匯流排相互通信。
請參閱圖4,是本發明語音識別系統10較佳實施例的功能模組圖。在本實施例中,所述的語音識別系統10可以被分割成一個或多個模組,所述一個或者多個模組被存儲於所述儲存器11中,並由一個或多個處理器(本實施例為所述處理器12)所執行,以完成本發明。例如,在圖4中,所述的語音識別系統10可以被分割成獲取模組01、分詞模組02及訓練識別模組03。本發明所稱的模組是指能夠完成特定功能的一系列電腦程式指令段,比程式更適合於描述所述語音識別系統10在所述電子裝置100中的執行過程。以下描述將具體介紹所述獲取模組01、分詞模組02及訓練識別模組03的功能。
獲取模組01,用於從預先確定的資料源獲取特定類型的資
訊文本。
本實施例中,在訓練語言模型之前,實時或者定時從預先確定的多個資料源(例如,新浪微博、百度百科、維基百科、新浪新聞等網站)獲取特定類型的資訊文本(例如,詞條及其解釋、新聞標題、新聞摘要、微博內容等等)。例如,可通過網路爬蟲等工具實時或者定時從預先確定的資料源(例如,各大新聞網站、論壇等)獲取特定類型的資訊(例如,新聞標題資訊、索引資訊、簡介資訊等)。
分詞模組02,用於對獲取的各個資訊文本進行語句切分得到若干語句,對各個語句進行分詞處理得到對應的分詞,由各個語句與對應的分詞構成第一映射語料。
從預先確定的多個資料源中獲取到特定類型的各個資訊文本後,可對獲取的各個資訊文本進行語句切分,例如可根據標點符號將各個資訊文本切分成一條條完整的語句。然後,對各個切分的語句進行分詞處理,例如,可利用字符串匹配的分詞方法對各個切分的語句進行分詞處理,如正向最大匹配法,把一個切分的語句中的字符串從左至右來分詞;或者,反向最大匹配法,把一個切分的語句中的字符串從右至左來分詞;或者,最短路徑分詞法,一個切分的語句中的字符串裡面要求切出的詞數是最少的;或者,雙向最大匹配法,正反向同時進行分詞匹配。還可利用詞義分詞法對各個切分的語句進行分詞處理,詞義分詞法是一種機器語音判斷的分詞方法,利用句法資訊和語義資訊來處理歧義現象來分詞。還可利用統計分詞法對各個切分的語句進行分詞處理,從當前用戶的歷史搜索記錄或大眾用戶的歷史搜索記錄中,根據詞組的統計,會統計有些兩個相鄰的字出現的頻率較多,則可將這兩個相鄰的字作為詞組來進行分詞。
對獲取的各個切分的語句完成分詞處理後,即可得到各個切分的語句與對應的分詞所組成的第一映射語料。通過從預先確定的多個資料源中獲取資訊文本,並對資訊文本切分生成大量的語句來進行分詞處理,可從多個資料源中獲取到語料類型豐富、範圍較廣以及數量較多的語料資源。
訓練識別模組03,用於根據得到的各個第一映射語料,訓
練預設類型的第一語言模型,並基於訓練的所述第一語言模型進行語音識別。
基於所述第一映射語料,訓練預設類型的第一語言模型,該第一語言模型可以是生成性模型、分析性模型、辨識性模型等。由於第一映射語料是從多個資料源中獲取到的,其語料資源的語料類型豐富、範圍較廣且數量較多,因此,利用該第一映射語料來訓練第一語言模型的訓練效果較好,進而使得基於訓練的所述第一語言模型進行語音識別的識別精度較高。
本實施例通過對從預先確定的資料源獲取的特定類型的資訊文本進行語句切分,並對各個切分的語句進行分詞處理,得到各個切分的語句與對應的分詞的第一映射語料,根據該第一映射語料訓練預設類型的第一語言模型,並基於訓練的所述第一語言模型進行語音識別。由於可通過對從預先確定的多個資料源中獲取的資訊文本進行語句切分及相應的分詞處理來得到語料資源,並基於該語料資源訓練語言模型,無需獲取標注過的對話文本,且能獲取到足夠數量的語料資源,能保證語言模型的訓練效果和識別精度,從而有效提高語音識別的精度且有效降低語音識別的成本。
進一步地,在其他實施例中,上述分詞模組02還用於:對獲取的各個資訊文本進行清洗去噪。例如,針對微博內容,所述清洗去噪的步驟包括:從微博內容中刪除用戶名、id等資訊,只保留微博的實際內容;刪除掉轉發的微博內容,一般獲取的微博內容中有大量轉發的微博內容,重複的轉發微博內容會影響到詞語的頻次,因此須將轉發的微博內容過濾掉,過濾方法為刪除掉所有包含“轉發”或包含“http”的微博內容;過濾掉微博內容中的特殊符號,將微博內容中預設類型的符號全部過濾掉;繁體轉簡體,微博內容中有大量的繁體字符,利用預先確定的簡繁對應表將所有繁體字符轉變為簡體字符,等等。
對清洗去噪後的各個資訊文本進行語句切分,例如,將兩個預設類型的斷句符“例如,逗號、句號、感嘆號等”之間的語句作為一個待切分的語句,並對各個切分的語句進行分詞處理,以得到各個切分的語
句與對應的分詞(包括詞組和單字)的映射語料。
進一步地,在其他實施例中,上述訓練識別模組03還用於:根據得到的各個第一映射語料,訓練預設類型的第一語言模型。
根據各個預先確定的樣本語句與對應的分詞的第二映射語料,訓練預設類型的第二語言模型。例如,可預先確定若干樣本語句,如可從預先確定的資料源中找出若干出現頻率最高或最常用的樣本語句,並確定每一樣本語句對應的正確的分詞(包括詞組和單字),以根據各個預先確定的樣本語句與對應的分詞的第二映射語料,訓練預設類型的第二語言模型。
根據預先確定的模型混合公式,將訓練的所述第一語言模型及第二語言模型進行混合,以獲得混合語言模型,並基於獲得的所述混合語言模型進行語音識別。所述預先確定的模型混合公式可以為:M=a*M1+b*M2其中,M為混合語言模型,M1代表預設類型的第一語言模型,a代表預設的模型M1的權重係數,M2代表預設類型的第二語言模型,b代表預設的模型M2的權重係數。
本實施例中,在根據從多個資料源中獲取到的第一映射語料訓練得到第一語言模型的基礎上,還根據各個預先確定的樣本語句與對應的分詞的第二映射語料,訓練得到第二語言模型,例如該預先確定的樣本語句可以為預設的最常用且正確無誤的若干語句,因此,訓練得到的該第二語言模型能正確識別常用的語音。將訓練的所述第一語言模型及第二語言模型按預設的不同權重比例進行混合得到混合語言模型,並基於獲得的所述混合語言模型進行語音識別,既能保證語音識別的類型豐富、範圍較廣,又能保證正確識別常用的語音,進一步地提高語音識別的精度。
進一步地,在其他實施例中,所述預設類型的第一語言模型或第二語言模型的訓練過程如下:A、將各個第一映射語料或者各個第二映射語料分為第一比例(例如,70%)的訓練集和第二比例(例如,30%)的驗證集;
B、利用所述訓練集訓練所述第一語言模型或者第二語言模型;C、利用所述驗證集驗證訓練的第一語言模型或者第二語言模型的準確率,若準確率大於或者等於預設準確率,則訓練結束,或者,若準確率小於預設準確率,則增加第一映射語料或者第二映射語料的數量並重新執行步驟A、B、C,直至訓練的所述第一語言模型或者第二語言模型的準確率大於或者等於預設準確率。
進一步地,在其他實施例中,所述預設類型的第一語言模型及/或第二語言模型為n-gram語言模型。n-gram語言模型是大詞匯連續語音識別中常用的一種語言模型,對中文而言,稱之為漢語語言模型(CLM,Chinese Language Model)。漢語語言模型利用上下文中相鄰詞間的搭配資訊,在需要把連續無空格的拼音、筆劃,或代表字母或筆劃的數字,轉換成漢字串(即句子)時,可以計算出具有最大機率的句子,從而實現到漢字的自動轉換,避開了許多漢字對應一個相同的拼音(或筆劃串、數字串)的重碼問題。n-gram是一種統計語言模型,用來根據前(n-1)個item來預測第n個item。在應用層面,這些item可以是音素(語音識別應用)、字符(輸入法應用)、詞(分詞應用)或堿基對(基因資訊),可以從大規模文本或音頻語料庫生成n-gram模型。
n-gram語言模型基於這樣一種假設,第n個詞的出現只與前面n-1個詞相關,而與其它任何詞都不相關,整句的機率就是各個詞出現的機率的乘積,這些機率可以通過直接從映射語料中統計n個詞同時出現的次數得到。對於一個句子T,假設T是由詞序列W1,W2,…,Wn組成的,那麼句子T出現的機率P(T)=P(W1W2…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)。本實施例中,為了解決出現機率為0的n-gram,在所述第一語言模型及/或第二語言模型的訓練中,本實施例採用了最大似然估計方法,即:P(Wn|W1W2...Wn-1)=C(W1W2...Wn)/C(W1W2...Wn-1)也就是說,在語言模型訓練過程中,通過統計序列W1W2…Wn出現的次數和W1W2…Wn-1出現的次數,即可算出第n個詞的出現機率,以判斷出所
對應字的機率,實現語音識別。
進一步地,在其他實施例中,上述分詞模組02還用於:根據正向最大匹配法將每一切分的語句中待處理的字符串與預先確定的字詞典庫(例如,該字詞典庫可以是通用字詞典庫,也可以是可擴充的學習型字詞典庫)進行匹配,得到第一匹配結果;
根據逆向最大匹配法將每一切分的語句中待處理的字符串與預先確定的字詞典庫(例如,該字詞典庫可以是通用字詞典庫,也可以是可擴充的學習型字詞典庫)進行匹配,得到第二匹配結果。其中,所述第一匹配結果中包含有第一數量的第一詞組,所述第二匹配結果中包含有第二數量的第二詞組;所述第一匹配結果中包含有第三數量的單字,所述第二匹配結果中包含有第四數量的單字。
若所述第一數量與所述第二數量相等,且所述第三數量小於或者等於所述第四數量,則輸出該切分的語句對應的所述第一匹配結果(包括詞組和單字);若所述第一數量與所述第二數量相等,且所述第三數量大於所述第四數量,則輸出該切分的語句對應的所述第二匹配結果(包括詞組和單字);若所述第一數量與所述第二數量不相等,且所述第一數量大於所述第二數量,則輸出該切分的語句對應的所述第二匹配結果(包括詞組和單字);若所述第一數量與所述第二數量不相等,且所述第一數量小於所述第二數量,則輸出該切分的語句對應的所述第一匹配結果(包括詞組和單字)。
本實施例中採用雙向匹配法來對獲取的各個切分的語句進行分詞處理,通過正反向同時進行分詞匹配來分析各個切分的語句待處理的字符串中前後組合內容的粘性,由於通常情況下詞組能代表核心觀點資訊的機率更大,即通過詞組更能表達出核心觀點資訊。因此,通過正反向同時進行分詞匹配找出單字數量更少,詞組數量更多的分詞匹配結果,以作為切分的語句的分詞結果,從而提高分詞的準確性,進而保證語言模型
的訓練效果和識別精度。
需要說明的是,在本文中,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。
通過以上的實施方式的描述,本領域的技術人員可以清楚地瞭解到上述實施例方法可借助軟體加必需的通用硬體平臺的方式來實現,當然也可以通過硬體來實現,但很多情況下前者是更佳的實施方式。基於這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該電腦軟體產品存儲在一個儲存媒體(如ROM/RAM、磁碟、光碟)中,包括若干指令用以使得一台終端設備(可以是手機,電腦,伺服器,空調器,或者網路設備等)執行本發明各個實施例所述的方法。
以上參照附圖說明了本發明的較佳實施例,並非因此局限本發明的專利範圍。上述本發明實施例序號僅僅為了描述,不代表實施例的優劣。另外,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同於此處的順序執行所示出或描述的步驟。
本領域技術人員不脫離本發明的範圍和實質,可以有多種變型方案實現本發明,比如作為一個實施例的特徵可用於另一實施例而得到又一實施例。凡在運用本發明的技術構思之內所作的任何修改、等同替換和改進,均應在本發明的專利範圍之內。
Claims (10)
- 一種語音識別方法,其包括以下步驟:A、從預先確定的資料源獲取特定類型的資訊文本;所述特定類型包括詞條及其解釋、新聞標題、新聞摘要及/或微博內容;B、根據標點符號對獲取的各個資訊文本進行語句切分得到若干語句,對各個語句進行分詞處理得到對應的分詞,由各個語句與對應的分詞構成第一映射語料;以及C、根據得到的各個第一映射語料,訓練預設類型的第一語言模型,並基於訓練的所述第一語言模型進行語音識別。
- 如請求項第1項所述之語音識別方法,其中所述步驟C替換為:根據得到的各個第一映射語料,訓練預設類型的第一語言模型;根據各個預先確定的樣本語句與對應的分詞的第二映射語料,訓練預設類型的第二語言模型;根據預先確定的模型混合公式,將訓練的所述第一語言模型及第二語言模型進行混合,以獲得混合語言模型,並基於獲得的所述混合語言模型進行語音識別。
- 如請求項第2項所述之語音識別方法,其中所述預先確定的模型混合公式為:M=a*M1+b*M2,其中,M為混合語言模型,M1代表預設類型的第一語言模型,a代表預設的模型M1的權重係數,M2代表預設類型的第二語言模型,b代表預設的模型M2的權重係數。
- 如請求項第2或3項所述之語音識別方法,其中所述預設類型的第一語言模型及/或第二語言模型為n-gram語言模型,所述預設類型的第一語言模型或第二語言模型的訓練過程如下:S1、將各個第一映射語料或者各個第二映射語料分為第一比例的訓練集和第二比例的驗證集;S2、利用所述訓練集訓練所述第一語言模型或者第二語言模型;S3、利用所述驗證集驗證訓練的第一語言模型或者第二語言模型的準確率,若準確率大於或者等於預設準確率,則訓練結束,或者,若準確率小於預設準確率,則增加第一映射語料或者第二映射語料的數量並重新執行步驟S1、S2、S3。
- 如請求項第1項所述之語音識別方法,其中所述對各個切分的語句進行分詞處理的步驟包括:在一個切分的語句被選擇進行分詞處理時,根據正向最大匹配法將該切分的語句與預先確定的字詞典庫進行匹配,得到第一匹配結果,所述第一匹配結果中包含有第一數量的第一詞組和第三數量的單字;根據逆向最大匹配法將該切分的語句與預先確定的字詞典庫進行匹配,得到第二匹配結果,所述第二匹配結果中包含有第二數量的第二詞組和第四數量的單字;若所述第一數量與所述第二數量相等,且所述第三數量小於或者等於所述第四數量,則將所述第一匹配結果作為該切分的語句的分詞結果;若所述第一數量與所述第二數量相等,且所述第三數量大於所述第四數量,則將所述第二匹配結果作為該切分的語句的分詞結果;若所述第一數量與所述第二數量不相等,且所述第一數量大於所述第二數量,則將所述第二匹配結果作為該切分的語句的分詞結果;若所述第一數量與所述第二數量不相等,且所述第一數量小於所述第二數量,則將所述第一匹配結果作為該切分的語句的分詞結果。
- 一種語音識別系統,包括:獲取模組,用於從預先確定的資料源獲取特定類型的資訊文本;所述特定類型包括詞條及其解釋、新聞標題、新聞摘要及/或微博內容;分詞模組,用於根據標點符號對獲取的各個資訊文本進行語句切分得到若干語句,對各個語句進行分詞處理得到對應的分詞,由各個語句與對應的分詞構成第一映射語料;訓練識別模組,用於根據得到的各個第一映射語料,訓練預設類型的第一語言模型,並基於訓練的所述第一語言模型進行語音識別。
- 如請求項第6項所述之語音識別系統,其中所述訓練識別模組還用於:根據得到的各個第一映射語料,訓練預設類型的第一語言模型;根據各個預先確定的樣本語句與對應的分詞的第二映射語料,訓練預設類型的第二語言模型;根據預先確定的模型混合公式,將訓練的所述第一語言模型及第二語言模型進行混合,以獲得混合語言模型,並基於獲得的所述混合語言模型進行語音識別。
- 如請求項第7項所述之語音識別系統,其中所述預先確定的模型混合公式為:M=a*M1+b*M2,其中,M為混合語言模型,M1代表預設類型的第一語言模型,a代表預設的模型M1的權重係數,M2代表預設類型的第二語言模型,b代表預設的模型M2的權重係數。
- 如請求項第7或8項所述之語音識別系統,其中所述預設類型的第一語言模型及/或第二語言模型為n-gram語言模型,所述預設類型的第一語言模型或第二語言模型的訓練過程如下:S1、將各個第一映射語料或者各個第二映射語料分為第一比例的訓練集和第二比例的驗證集;S2、利用所述訓練集訓練所述第一語言模型或者第二語言模型;S3、利用所述驗證集驗證訓練的第一語言模型或者第二語言模型的準確率,若準確率大於或者等於預設準確率,則訓練結束,或者,若準確率小於預設準確率,則增加第一映射語料或者第二映射語料的數量並重新執行步驟S1、S2、S3。
- 如請求項第6項所述之語音識別系統,其中所述分詞模組還用於:在一個切分的語句被選擇進行分詞處理時,根據正向最大匹配法將該切分的語句與預先確定的字詞典庫進行匹配,得到第一匹配結果,所述第一匹配結果中包含有第一數量的第一詞組和第三數量的單字;根據逆向最大匹配法將該切分的語句與預先確定的字詞典庫進行匹配,得到第二匹配結果,所述第二匹配結果中包含有第二數量的第二詞組和第四數量的單字;若所述第一數量與所述第二數量相等,且所述第三數量小於或者等於所述第四數量,則將所述第一匹配結果作為該切分的語句的分詞結果;若所述第一數量與所述第二數量相等,且所述第三數量大於所述第四數量,則將所述第二匹配結果作為該切分的語句的分詞結果;若所述第一數量與所述第二數量不相等,且所述第一數量大於所述第二數量,則將所述第二匹配結果作為該切分的語句的分詞結果;若所述第一數量與所述第二數量不相等,且所述第一數量小於所述第二數量,則將所述第一匹配結果作為該切分的語句的分詞結果。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710327374.8A CN107204184B (zh) | 2017-05-10 | 2017-05-10 | 语音识别方法及*** |
??201710327374.8 | 2017-05-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI636452B true TWI636452B (zh) | 2018-09-21 |
TW201901661A TW201901661A (zh) | 2019-01-01 |
Family
ID=59905515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106135251A TWI636452B (zh) | 2017-05-10 | 2017-10-13 | 語音識別方法及系統 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN107204184B (zh) |
TW (1) | TWI636452B (zh) |
WO (1) | WO2018205389A1 (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108257593B (zh) * | 2017-12-29 | 2020-11-13 | 深圳和而泰数据资源与云技术有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN108831442A (zh) * | 2018-05-29 | 2018-11-16 | 平安科技(深圳)有限公司 | 兴趣点识别方法、装置、终端设备及存储介质 |
CN110648657B (zh) * | 2018-06-27 | 2024-02-02 | 北京搜狗科技发展有限公司 | 一种语言模型训练方法、构建方法和装置 |
CN109033082B (zh) * | 2018-07-19 | 2022-06-10 | 深圳创维数字技术有限公司 | 语义模型的学习训练方法、装置及计算机可读存储介质 |
CN109344221B (zh) * | 2018-08-01 | 2021-11-23 | 创新先进技术有限公司 | 录音文本生成方法、装置及设备 |
CN109582791B (zh) * | 2018-11-13 | 2023-01-24 | 创新先进技术有限公司 | 文本的风险识别方法及装置 |
CN109377985B (zh) * | 2018-11-27 | 2022-03-18 | 北京分音塔科技有限公司 | 一种领域词的语音识别增强方法和装置 |
CN109582775B (zh) * | 2018-12-04 | 2024-03-26 | 平安科技(深圳)有限公司 | 信息录入方法、装置、计算机设备及存储介质 |
CN109992769A (zh) * | 2018-12-06 | 2019-07-09 | 平安科技(深圳)有限公司 | 基于语义解析的语句合理性判断方法、装置、计算机设备 |
CN109461459A (zh) * | 2018-12-07 | 2019-03-12 | 平安科技(深圳)有限公司 | 语音评分方法、装置、计算机设备及存储介质 |
CN109558596A (zh) * | 2018-12-14 | 2019-04-02 | 平安城市建设科技(深圳)有限公司 | 识别方法、装置、终端及计算机可读存储介质 |
CN109783648B (zh) * | 2018-12-28 | 2020-12-29 | 北京声智科技有限公司 | 一种利用asr识别结果改进asr语言模型的方法 |
CN109815991B (zh) * | 2018-12-29 | 2021-02-19 | 北京城市网邻信息技术有限公司 | 机器学习模型的训练方法、装置、电子设备及存储介质 |
CN110223674B (zh) * | 2019-04-19 | 2023-05-26 | 平安科技(深圳)有限公司 | 语音语料训练方法、装置、计算机设备和存储介质 |
CN110222182B (zh) * | 2019-06-06 | 2022-12-27 | 腾讯科技(深圳)有限公司 | 一种语句分类方法及相关设备 |
CN110349568B (zh) * | 2019-06-06 | 2024-05-31 | 平安科技(深圳)有限公司 | 语音检索方法、装置、计算机设备及存储介质 |
CN110288980A (zh) * | 2019-06-17 | 2019-09-27 | 平安科技(深圳)有限公司 | 语音识别方法、模型的训练方法、装置、设备及存储介质 |
CN110784603A (zh) * | 2019-10-18 | 2020-02-11 | 深圳供电局有限公司 | 一种离线质检用智能语音分析方法及*** |
CN113055017A (zh) * | 2019-12-28 | 2021-06-29 | 华为技术有限公司 | 数据压缩方法及计算设备 |
CN111326160A (zh) * | 2020-03-11 | 2020-06-23 | 南京奥拓电子科技有限公司 | 一种纠正噪音文本的语音识别方法、***及存储介质 |
CN112712794A (zh) * | 2020-12-25 | 2021-04-27 | 苏州思必驰信息科技有限公司 | 语音识别标注训练联合***和装置 |
CN113127621A (zh) * | 2021-04-28 | 2021-07-16 | 平安国际智慧城市科技股份有限公司 | 对话模块的推送方法、装置、设备及存储介质 |
CN113658585B (zh) * | 2021-08-13 | 2024-04-09 | 北京百度网讯科技有限公司 | 语音交互模型的训练方法、语音交互方法及装置 |
CN113948065B (zh) * | 2021-09-01 | 2022-07-08 | 北京数美时代科技有限公司 | 基于n-gram模型的错误拦截词筛选方法及*** |
US12019976B1 (en) * | 2022-12-13 | 2024-06-25 | Calabrio, Inc. | Call tagging using machine learning model |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004111999A1 (en) * | 2003-06-13 | 2004-12-23 | Kwangwoon Foundation | An amplitude warping approach to intra-speaker normalization for speech recognition |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101593518A (zh) * | 2008-05-28 | 2009-12-02 | 中国科学院自动化研究所 | 实际场景语料和有限状态网络语料的平衡方法 |
CN102495837B (zh) * | 2011-11-01 | 2014-05-07 | 中国科学院计算技术研究所 | 一种数字信息推荐预测模型的训练方法和*** |
CN103577386B (zh) * | 2012-08-06 | 2018-02-13 | 腾讯科技(深圳)有限公司 | 一种基于用户输入场景动态加载语言模型的方法及装置 |
CN103971677B (zh) * | 2013-02-01 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 一种声学语言模型训练方法和装置 |
-
2017
- 2017-05-10 CN CN201710327374.8A patent/CN107204184B/zh active Active
- 2017-06-30 WO PCT/CN2017/091353 patent/WO2018205389A1/zh active Application Filing
- 2017-10-13 TW TW106135251A patent/TWI636452B/zh active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004111999A1 (en) * | 2003-06-13 | 2004-12-23 | Kwangwoon Foundation | An amplitude warping approach to intra-speaker normalization for speech recognition |
Non-Patent Citations (2)
Title |
---|
「一種韻律輔助中文語音辨認系統及其應用」,楊智合,國立交通大學電信工程研究所,中華民國101年6月 * |
「一種韻律輔助中文語音辨認系統及其應用」,楊智合,國立交通大學電信工程研究所,中華民國101年6月。 |
Also Published As
Publication number | Publication date |
---|---|
WO2018205389A1 (zh) | 2018-11-15 |
CN107204184B (zh) | 2018-08-03 |
CN107204184A (zh) | 2017-09-26 |
TW201901661A (zh) | 2019-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI636452B (zh) | 語音識別方法及系統 | |
WO2020119075A1 (zh) | 通用文本信息提取方法、装置、计算机设备和存储介质 | |
KR102316063B1 (ko) | 오디오 중의 키 프레이즈를 인식하기 위한 방법과 장치, 기기 및 매체 | |
WO2019184217A1 (zh) | 热点事件分类方法、装置及存储介质 | |
AU2017408800B2 (en) | Method and system of mining information, electronic device and readable storable medium | |
Chen et al. | Chinese named entity recognition with conditional random fields | |
CN102693279B (zh) | 一种快速计算评论相似度的方法、装置及*** | |
CN104050256A (zh) | 基于主动学习的问答方法及采用该方法的问答*** | |
US9753905B2 (en) | Generating a document structure using historical versions of a document | |
CN107680588B (zh) | 智能语音导航方法、装置及存储介质 | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
CN101308512B (zh) | 一种基于网页的互译翻译对抽取方法及装置 | |
JP5231484B2 (ja) | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 | |
CN116151220A (zh) | 分词模型训练方法、分词处理方法和装置 | |
CN110619112A (zh) | 用于汉字的读音标注方法、装置、电子设备及存储介质 | |
CN113761923A (zh) | 命名实体识别方法、装置、电子设备及存储介质 | |
CN111680146A (zh) | 确定新词的方法、装置、电子设备及可读存储介质 | |
CN114490709B (zh) | 文本生成方法、装置、电子设备及存储介质 | |
US9898457B1 (en) | Identifying non-natural language for content analysis | |
CN115169370A (zh) | 语料数据增强方法、装置、计算机设备及介质 | |
CN111401034B (zh) | 文本的语义分析方法、语义分析装置及终端 | |
CN114254642A (zh) | 实体信息处理方法、装置、电子设备和介质 | |
CN112509581A (zh) | 语音识别后文本的纠错方法、装置、可读介质和电子设备 | |
CN110704623A (zh) | 基于Rasa_Nlu框架提高实体识别率的方法、装置、***和存储介质 | |
CN114186552B (zh) | 文本分析方法、装置、设备及计算机存储介质 |