TWI590228B

TWI590228B - 語音控制系統、電子裝置及語音控制方法

Info

Publication number: TWI590228B
Application number: TW102116040A
Authority: TW
Inventors: 黃仁文
Original assignee: 鴻海精密工業股份有限公司
Priority date: 2013-04-29
Filing date: 2013-05-06
Publication date: 2017-07-01
Also published as: US9437194B2; CN104123938A; US20140324425A1; TW201503107A

Description

語音控制系統、電子裝置及語音控制方法

本發明涉及語音控制領域，尤其涉及一種語音控制系統、具有該語音控制系統的電子裝置以及語音控制方法。

電視、電腦、手機等終端設備的業務操作，對一些家庭用戶特別是老人或者孩子來說，手動操作方法複雜。通過語音控制終端設備的業務操作可以簡化操作方法，例如，用戶可以在手機上通過語音來發送資訊、查找電話和設定提醒事項等。此外，現有的具有語音控制功能的終端設備還可以根據用戶的語音提供相應的語音回饋，從而與用戶進行互動。然而，現有的終端設備不能根據用戶的不同語音相應改變回饋的方式，故，此類語音回饋方式過於單一，缺乏趣味性。

有鑒於此，有必要提供一種語音控制系統、電子裝置及其語音控制方法，能夠解決以上問題。

本發明提供一種語音控制系統，運行於一電子裝置中，該電子裝置包括一語音輸入單元以及一播放單元，該語音控制系統包括：一獲取模組，用於獲取來自該語音輸入單元的語音信號；一語義分析模組，用於對該獲取模組獲取的語音信號進行辨識以及語義分析，然後根據一預存的對話資料庫確定與該分析出來的語義最匹配的回復結果；一特徵分析模組，用於對該獲取模組獲取到的語音信號進行用戶聲音的物理特徵的分析，還用於根據用戶聲音的物理特徵確定用於回饋回復結果的回饋聲音的對應物理特徵；以及一執行模組，用於控制該播放單元根據所述回饋聲音的物理特徵播放所述回復結果。

本發明還提供一種電子裝置，包括一語音輸入單元、一播放單元以及一處理器，該處理器包括：一獲取模組，用於獲取來自該語音輸入單元的語音信號；一語義分析模組，用於對該獲取模組獲取的語音信號進行辨識以及語義分析，然後根據一預存的對話資料庫確定與該分析出來的語義最匹配的回復結果；一特徵分析模組，用於對該獲取模組獲取到的語音信號進行用戶聲音的物理特徵的分析，還用於根據用戶聲音的物理特徵確定用於回饋回復結果的回饋聲音的對應物理特徵；以及一執行模組，用於控制該播放單元根據所述回饋聲音的物理特徵播放所述回復結果。

本發明還提供一種語音控制方法，應用於一電子裝置中，該電子裝置包括一語音輸入單元以及一播放單元，該方法包括：獲取來自該語音輸入單元的語音信號；對該獲取模組獲取的語音信號進行辨識以及語義分析；根據一預存的對話資料庫確定與該分析出來的語義最匹配的回復結果；對該獲取模組獲取到的語音信號進行用戶聲音的物理特徵的分析；根據用戶聲音的物理特徵確定用於回饋回復結果的回饋聲音的對應物理特徵；以及控制該播放單元根據所述回饋聲音的物理特徵播放所述回復結果。

相較於現有技術，本發明根據用戶輸入的語音信號對應的物理特徵確定與之匹配的回饋聲音的物理特徵，然後以該回饋聲音的物理特徵播放回復結果，從而根據用戶不同語音相應地提供不同的回饋聲音，有利於提高語音回饋的趣味性。

1‧‧‧電子裝置

10‧‧‧語音輸入單元

20‧‧‧存儲單元

30‧‧‧處理器

40‧‧‧播放單元

100‧‧‧語音控制系統

101‧‧‧獲取模組

102‧‧‧語義分析模組

103‧‧‧特徵分析模組

104‧‧‧執行模組

圖1為本發明一較佳實施方式中的語音控制系統的硬體架構圖。

圖2為本發明一較佳實施方式中的語音控制方法的流程圖。

圖1為本發明一較佳實施例中的語音控制系統100的硬體架構圖，該語音控制系統100運行於一電子裝置1中，該電子裝置1可以是任一具有錄音功能以及語音播放功能的電子產品，如移動電話或平板電腦等。該電子裝置1包括用於錄音的一語音輸入單元10(如麥克風)、一存儲單元20、一處理器30(如中央處理器(Central Processing Unit，CPU)或微處理器( Microcontroller))、以及一播放單元40。在本實施方式中，該語音控制系統100存儲於該存儲單元20並由該處理器30運行。該處理器30用於執行該語音控制系統100的各個功能模組，從而根據用戶通過該語音輸入單元10輸入的語音信號對應的物理特徵確定與之匹配的回饋聲音的物理特徵，並通過該播放單元40以該回饋聲音的物理特徵播放回復結果。在其他實施方式中，該語音控制系統100的各個模組為固化於處理器30中的硬體單元。

在本實施方式中，該語音控制系統100包括一獲取模組101、一語義分析模組102、一特徵分析模組103以及一執行模組104。

該獲取模組101用於獲取用戶通過該語音輸入單元10向該電子裝置1輸入的語音信號。

該語義分析模組102用於對該獲取模組101獲取的語音信號進行辨識以及語義分析，然後在該存儲單元20中存儲的一對話資料庫中進行查找，以確定與所述分析出來的語義最匹配的回復結果。上述語義分析過程以及根據語義查找回復結果的過程可參考現有的語音回饋技術，例如，可結合上海贏思軟體技術有限公司於2004年8月13日提出的“一種聊天機器人系統”(專利申請號200410053749.9)。

該特徵分析模組103用於對該獲取模組101獲取到的語音信號進行用戶聲音的物理特徵分析，還用於根據用戶聲音的物理特徵確定用於回饋回復結果的回饋聲音的對應物理特徵。在本實施方式中，所述用戶聲音的物理特徵包括其音高、音強和音長資訊。該特徵分析模組103根據用戶聲音的音高、音強和音長資訊分別確定用戶的性別年齡、情感狀態以及性格特徵，並根據一預設的對應關係確定與用戶的性別年齡、情感狀態以及性格特徵相匹配的回饋聲音所對應的性別年齡、情感狀態以及性格特徵，從而根據回饋聲音的性別年齡、情感狀態以及性格特徵分別確定該回饋聲音的包括音高、音強和音長資訊的物理特徵。

眾所周知，音高由用戶發聲時聲帶的振動頻率決定，頻率與音高成正比，如婦女和兒童的聲帶比較短且薄，聲音頻率高；男人和老人的聲帶比較長且厚，聲音頻率低，故，男人和老人的聲音較婦女和小孩的聲音來說要低沉；音強對應用戶聲音的強弱，由聲音的振幅決定；音長表現為說話時速度的快慢，決定於用戶發聲時聲帶振動的時間，從而，該特徵分析模組103可根據用戶聲音的振動頻率、振幅以及說話速度分別獲得用戶的性別年齡、情感狀態以及性格特徵。

具體的，在本實施方式中，該預設的對應關係為：回饋聲音的性別年齡為與用戶處於相同年齡段且不同性別、情感狀態為與用戶相同情感狀態、性格特徵為與用戶相同性格。當然，所述對應關係並不局限於以上所示出的，還可以根據實際情況進行變更。

在另一實施方式中，所述用戶聲音的物理特徵還進一步包括其音色，取決於聲波振動的形式，由用戶聲音中分量突出的諧波成分，即共振峰的高度、位置以及數量決定。在這種情況下，該特徵分析模組103在確定了用戶聲音的音色資訊後，該特徵分析模組103還用於確定回饋聲音的音色為與該用戶聲音的音色相同的音色。

該執行模組104用於控制該播放單元40根據所述回饋聲音的物理特徵播放所述回復結果。在本實施方式中，該存儲單元20還用於預先存儲一標準回饋聲音，該標準回饋聲音具有一標準物理特徵(標準音高、標準音強、標準音長以及標準音色)的回饋聲音。該執行模組104根據特徵分析模組103確定的回饋聲音的物理特徵對該標準回饋聲音作變聲處理，而產生具有所述確定的物理特徵的回饋聲音，然後控制該播放單元40以該經過變聲處理後的標準回饋聲音，即該具有所述確定的物理特徵的回饋聲音播放所述回復結果。例如，對於音強對應用戶聲音的強弱，由聲音的振幅決定；由用戶聲音中分量突出的諧波成分，即共振峰的高度、位置以及數量決定。

圖2為本發明的語音控制方法的流程圖，該方法應用於上述電子裝置1中，包括如下步驟：

步驟S21：該獲取模組101獲取用戶通過該語音輸入單元10向該電子裝置1輸入的語音信號。

步驟S22：該語義分析模組102對該獲取模組101獲取的語音信號進行辨識以及語義分析，然後在該存儲單元20中存儲的一對話資料庫中進行查找，以獲取與所述分析出來的語義最匹配的回復結果。

步驟S23：該特徵分析模組103對該獲取模組101獲取到的語音信號進行用戶聲音的物理特徵的分析。

步驟S24：該特徵分析模組103根據用戶聲音的物理特徵確定用於回饋回復結果的回饋聲音的對應物理特徵。

步驟S25：該執行模組104控制該播放單元40根據所述回饋聲音的物理特徵播放所述回復結果。

本技術領域的普通技術人員應當認識到，以上的實施方式僅是用來說明本發明，而並非用作為對本發明的限定，只要在本發明的實質精神範圍之內，對以上實施例所作的適當改變和變化都落在本發明要求保護的範圍之內。