TWI508057B

TWI508057B - 語音辨識系統以及方法

Info

Publication number: TWI508057B
Application number: TW102125241A
Authority: TW
Inventors: Guanliang Lee; Chihyin Chiang; Chewei Chang
Original assignee: Chunghwa Picture Tubes Ltd
Priority date: 2013-07-15
Filing date: 2013-07-15
Publication date: 2015-11-11
Also published as: US20150019221A1; TW201503105A

Description

語音辨識系統以及方法

本發明是有關於一種語音辨識系統以及方法。

語音識別技術係用以將人類的語音中的詞彙內容轉換為計算機可存取的輸入，例如按鍵、二進制編碼或者字元序列。目前一般常用規則模型或是統計模型，來進行語音辨識的搜尋和比對。規則模型會分析語音中的語言文法、結構等，來進行語音辨識。統計模型則會使用機率統計的方式，來搜尋語言單位內的資料。不管應用何者進行語音辨識，皆有一定的複雜度。

傳統的語音辨識系統中，常會將全部的系統實作在單一使用者裝置上。然而，此種作法多半需要耗費使用者裝置上較多的計算資源，才能夠達到即時的語音辨識且具有一定的辨識正確率。此外，此類的使用者裝置多半採用封閉系統架構，不方便使用者更新字典檔。

因此，如何降低使用者裝置進行語音辨識所需耗費之計算資源，實屬當前重要研發課題之一，亦成為當前相關領域亟需改進的目標。

因此，本發明之一態樣是在提供一種語音辨識系統，用以根據使用者對應之個人字典檔，進行語音辨識。語音辨識系統包含一伺服器、一資料傳輸界面以及一語音辨識裝置。語音辨識裝置透過資料傳輸界面與伺服器建立連結。語音辨識裝置包含一麥克風、一輸出元件以及一處理元件。處理元件電性連接麥克風以及輸出元件。處理元件包含一使用者資訊接收模組、一個人字典取得模組、一語音接收模組、一音訊轉換模組以及一搜尋模組。使用者資訊接收模組接收一使用者之一使用者資訊。個人字典取得模組透過資料傳輸界面，傳送使用者資訊至伺服器，以取得使用者資訊對應之一個人字典檔。語音接收模組透過麥克風接收使用者之一待辨識語音訊號。音訊轉換模組根據使用者對應之一聲紋檔案，將待辨識語音訊號轉換為一數位特徵檔。搜尋模組根據數位特徵檔搜尋個人字典檔，以取得一語音辨識結果，並透過輸出元件，輸出語音辨識結果。

本發明之另一態樣是在提供一種語音辨識方法，其包含以下步驟：(a)由一語音辨識裝置，接收一使用者之一使用者資訊；(b)由語音辨識裝置傳送使用者資訊至一伺服器，以取得使用者資訊對應之一個人字典檔；(c)透過語音辨識裝置之一麥克風接收使用者之一待辨識語音訊號； (d)由語音辨識裝置根據使用者對應之一聲紋檔案，將待辨識語音訊號轉換為一數位特徵檔；以及(e)由語音辨識裝置根據數位特徵檔搜尋個人字典檔，以取得一語音辨識結果，並輸出語音辨識結果。

100‧‧‧伺服器

110‧‧‧更新模組

120‧‧‧相關字典提供模組

200‧‧‧資料傳輸界面

300‧‧‧語音辨識裝置

310‧‧‧麥克風

320‧‧‧輸出元件

330‧‧‧處理元件

331‧‧‧使用者資訊接收模組

332‧‧‧個人字典取得模組

333‧‧‧語音接收模組

334‧‧‧音訊轉換模組

335‧‧‧搜尋模組

336‧‧‧聲音辨識模組

337‧‧‧辨識錯誤判斷模組

400‧‧‧語音辨識方法

410-450‧‧‧步驟

第1圖繪示依照本發明一實施例的一種語音辨識系統之功能方塊圖。

第2圖為依照本發明一實施方式的一種語音辨識方法之流程圖。

以下將以圖式及詳細說明本發明之精神，任何所屬技術領域中具有通常知識者在瞭解本發明之較佳實施例後，當可由本發明所教示之技術加以改變及修飾，其並不脫離本發明之精神與範圍。

請參照第1圖，其繪示依照本發明一實施例的一種語音辨識系統之功能方塊圖。語音辨識系統根據使用者對應之個人字典檔，進行語音辨識。

語音辨識系統包含一伺服器100、一資料傳輸界面200以及一語音辨識裝置300。其中，伺服器100可由至少一個伺服器所提供。當伺服器100由多個伺服器所提供時，此些伺服器可包含至少一當地伺服器、至少一雲端伺服器或其組合。其中，當地伺服器可儲存當地字典檔，以服務當地使用者；雲端伺服器則可儲存專業字典檔，服務所有使用者。

資料傳輸界面200可為有線或無線網路通訊協定。然而，在其他實施例中，資料傳輸界面200可為其他類型有線或無線之資料傳輸界面，並不限於本揭露書中。

語音辨識裝置300透過資料傳輸界面200與伺服器100建立連結。語音辨識裝置300包含一麥克風310、一輸出元件320以及一處理元件330。處理元件330電性連接麥克風310以及輸出元件320。

處理元件330包含一使用者資訊接收模組331、一個人字典取得模組332、一語音接收模組333、一音訊轉換模組334以及一搜尋模組335。使用者資訊接收模組331接收一使用者之一使用者資訊。在本發明之一些實施例中，使用者可透過鍵盤、滑鼠、圖形化使用者界面(Graphical User Interface，GUI)或其他類型之輸入界面，輸入其使用者資訊。在本發明之另一些實施例中，處理元件330之一聲音辨識模組336可透過麥克風310接收一使用者聲音訊號，根據使用者聲音訊號，判斷使用者為何，並對應產生使用者之使用者資訊，供使用者資訊接收模組331接收。其中，聲音辨識模組336可辨識出使用者對應之使用者識別資訊，作為其使用者資訊。此外，聲音辨識模組336可根據使用者聲音訊號，辨識出使用者之聲音類別(如語言、腔調或其他類型之聲音類別)，作為其使用者資訊。

個人字典取得模組332透過資料傳輸界面200，傳送使用者資訊至伺服器100，以取得使用者資訊對應之一個人字典檔。其中，個人字典檔的產生可取決於使用者的語音辨識結果的歷史資料，以及他人近期使用的相關資料。舉例來說，個人字典取得模組332可取得收錄使用者常用字彙之個人字典檔。又例如說，個人字典取得模組332可根據使用者資訊中之語言、腔調或其他類型之聲音類別，取得相應之個人字典檔。

語音接收模組333透過麥克風310接收使用者之一待辨識語音訊號。音訊轉換模組334根據使用者對應之一聲紋檔案，將待辨識語音訊號轉換為一數位特徵檔。如此一來，可避免因為使用者聲音特性不同，所造成的語音辨識正確率低落之缺點。此外，數位特徵檔的檔案大小將小於待辨識語音訊號，因此可縮短進一步語音辨識所需之時間。

搜尋模組335根據數位特徵檔搜尋個人字典檔，以取得一語音辨識結果，並透過輸出元件320，輸出語音辨識結果。在本發明之一些實施例中，輸出元件320可為一顯示元件，用以顯示語音辨識結果。在本發明之另一些實施例中，輸出元件320可為一喇叭，用以發出語音辨識結果對應之聲音。然而，在本發明之其他實施例中，輸出元件320可用其他輸出方式，輸出語音辨識結果，並不限於本揭露書。如此一來，語音辨識裝置300不須儲存大量之字典檔，即可提供精確的語音辨識功能。因此，可用處理元件效能較差或儲存元件容量較小之電子裝置，作為語音辨識裝置300。

此外，在本發明之一些實施例中，使用者可透過語音辨識裝置300之鍵盤、滑鼠、圖形化使用者界面(Graphical User Interface，GUI)或其他類型之輸入界面，回饋語音辨識結果是否正確。在本發明之另一些實施例中，處理元件330更可包含一辨識錯誤判斷模組337。由於一般使用者在發覺辨識錯誤時，會重複其先前說出之字彙或句子，以進行重新辨識。因此，辨識錯誤判斷模組337可先判斷麥克風310所接收之訊號是否與先前之待辨識語音訊號相同。當麥克風310接收與待辨識語音訊號相同之一重複語音訊號時，辨識錯誤判斷模組337會判定語音辨識結果辨識錯誤。如此一來，當使用者在發覺辨識錯誤時，僅需重複發出相同聲音，即可使語音辨識裝置300判定辨識錯誤，重新修正其辨識結果，方便使用者操作。

另外，伺服器100之一更新模組110更可透過資料傳輸界面200，自語音辨識裝置300接收語音辨識結果是否正確之資訊，作為更新個人字典之依據。舉例來說，更新模組110可根據語音辨識結果之正確與否，調整對應詞彙之權重，進而提高辨識之正確率。

在本發明之一些實施例中，伺服器100更可包含一相關字典提供模組120。相關字典提供模組120透過資料傳輸界面200，接收語音辨識結果，並根據語音辨識結果，傳送一相關字典檔至語音辨識裝置300，供搜尋模組335搜尋。舉例來說，當相關字典提供模組120判斷語音辨識結果相關於天氣，相關字典提供模組120傳送包含天氣相關詞彙之相關字典檔至語音辨識裝置300。如此一來，可提高語音辨識裝置300之辨識正確率。此外，亦可縮短因為辨識錯誤，而需修改辨識結果或重新傳送字典檔之額外時間。

在本發明之另一些實施例中，伺服器100若包含當地伺服器時，當地伺服器可儲存近期常用字典檔。由於同一個當地伺服器服務的使用者多半具有相近的語音內容或習慣用字，因而可減少當地伺服器所需儲存之字典檔的檔案大小。

請參照第2圖，其為依照本發明一實施方式的一種語音辨識方法之流程圖。語音辨識方法可實作為一電腦程式，並儲存於一電腦可讀取記錄媒體中，而使電腦讀取此記錄媒體後執行語音辨識方法。電腦可讀取記錄媒體可為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之電腦可讀取記錄媒體。語音辨識方法400包含以下步驟：

在步驟410中，由一語音辨識裝置，接收一使用者之一使用者資訊。在本發明之一些實施例中，使用者可透過鍵盤、滑鼠、圖形化使用者界面或其他類型之輸入界面，輸入其使用者資訊。在本發明之另一些實施例中，可透過語音辨識裝置之麥克風接收一使用者聲音訊號。接下來，可根據使用者聲音訊號，判斷使用者為何，並對應產生使用者之使用者資訊，供語音辨識裝置接收(步驟410)。其中，可辨識出使用者對應之使用者識別資訊，作為其使用者資訊。此外，亦可根據使用者聲音訊號，辨識出使用者之聲音類別(如語言、腔調或其他類型之聲音類別)，作為其使用者資訊。

在步驟420中，由語音辨識裝置傳送使用者資訊至一伺服器，以取得使用者資訊對應之一個人字典檔。舉例來說，語音辨識裝置可取得收錄使用者常用字彙之個人字典檔。又例如說，可根據使用者資訊中之語言、腔調或其他類型之聲音類別，取得相應之個人字典檔。

在步驟430中，透過語音辨識裝置之一麥克風接收使用者之一待辨識語音訊號。

在步驟440中，由語音辨識裝置根據使用者對應之一聲紋檔案，將待辨識語音訊號轉換為一數位特徵檔。

在步驟450中，由語音辨識裝置根據數位特徵檔搜尋個人字典檔，以取得一語音辨識結果，並輸出語音辨識結果。在步驟450之一些實施例中，可透過顯示元件顯示(輸出)語音辨識結果。在步驟450之另一些實施例中，可發出(輸出)語音辨識結果對應之聲音。然而，在步驟450之其他實施例中，可用其他輸出方式，輸出語音辨識結果，並不限於本揭露書。如此一來，語音辨識裝置不須儲存大量之字典檔，即可即時提供精確的語音辨識功能。因此，可用處理元件效能較差或儲存元件容量較小之電子裝置，作為語音辨識裝置。

此外，在本發明之一些實施例中，由伺服器自語音辨識裝置，接收語音辨識結果是否正確之資訊，作為伺服器更新個人字典之依據。其中，語音辨識結果是否正確之資訊可透過鍵盤、滑鼠、圖形化使用者界面或其他類型之輸入界面接收。另外，亦可在語音辨識裝置之麥克風接收與待辨識語音訊號相同之一重複語音訊號時，判定語音辨識結果辨識錯誤。如此一來，使用者在發覺辨識錯誤時，僅需重複發出相同聲音，即可使語音辨識裝置判定辨識錯誤，重新修正其辨識結果，方便使用者操作。

另外，伺服器亦可進一步接收語音辨識結果。於是，可由伺服器根據收到之語音辨識結果，傳送一相關字典檔至語音辨識裝置，作為步驟450執行搜尋之依據。舉例來說，當判斷語音辨識結果相關於天氣，伺服器傳送包含天氣相關詞彙之相關字典檔至語音辨識裝置。如此一來，可提高語音辨識裝置之辨識正確率。此外，亦可縮短因為辨識錯誤，而需修改辨識結果或重新傳送字典檔之額外時間。

在本發明之一些實施例中，語音辨識裝置可儲存一預設字典檔。語音辨識方法400更可包含在語音辨識裝置無法辨識使用者之使用者資訊時，將預設字典檔視為個人字典檔。如此一來，在因使用者第一次登入或其他原因使得其使用者資訊無法被辨識時，仍可藉由預設字典檔提供基本的語音辨識功能。

在本發明之另一些實施例中，可記錄使用者之對話或其歷史使用資料。於是，可根據使用者之對話內容以及歷史使用資料，產生一當前使用字典檔，以儲存於伺服器。伺服器可將當前使用字典檔設為使用者資訊對應之個人字典檔。

在本發明之另一些實施例中，伺服器可根據於本地端所提供之語音辨識服務，產生並儲存一近期常用字典檔。於是，近期常用字典檔將符合伺服器所服務之本地使用者之使用習慣。接下來，當將當前使用字典檔設為使用者資訊對應之個人字典檔之一辨識正確率小於一門檻值時，使用近期常用字典檔進行語音辨識。如此一來，使用者的使用習慣應與伺服器所服務之當地使用者相近，因此可作為改善語音辨識正確率之依據。

在本發明之另一些實施例中，可將使用者常用之至少一常用字詞儲存於伺服器中之一私人字典檔。於是，可根據使用者之私人字典檔，修改使用者之當前使用字典檔，以更符合使用者的使用習慣。

在本發明之又一些實施例中，伺服器更可儲存對應數個專業分類之數個專業字典檔。其中，專業字典檔可儲存於單一當地伺服器。此外，專業字典檔亦可儲存於至少一雲端伺服器，用以提供給當地伺服器查詢。語音辨識方法400更可包含取得至少一需修正類別。其中，可在特定專業類別的辨識錯誤率較高時，將其設為需修正類別。於是，可根據專業字典檔中需修正類別對應者，修改使用者資訊對應之個人字典檔。如此一來，可依據個人字典檔中不同字詞所屬之專業類別進行修正，以提高整體辨識正確率。

雖然本發明已以實施方式揭露如上，然其並非用以限定本發明任何熟習此技藝者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾。因此，本發明之保護範圍當視後附之申請專利範圍所界定者為準。