TW202027062A

TW202027062A - 聲音播放系統及其調整輸出聲音之方法

Info

Publication number: TW202027062A
Application number: TW107147837A
Authority: TW
Inventors: 楊國屏; 高國維; 蕭凱元; 李建穎
Original assignee: 塞席爾商元鼎音訊股份有限公司
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2020-07-16
Also published as: US11205440B2; US20200211579A1

Abstract

一種聲音播放系統及其調整輸出聲音之方法。該方法包括以下步驟：接收自使用者發出之輸入聲音訊號，輸入聲音訊號內包括使用者表示年齡之語音訊號；傳輸輸入聲音訊號到遠端語音系統；根據輸入聲音訊號之語音訊號進行語音辨識，以得到語音辨識結果；根據語音辨識結果對輸出聲音訊號之各頻段之增益值進行調整；以及傳輸輸出聲音訊號到近端電子裝置以發出輸出聲音訊號給使用者。

Description

聲音播放系統及其調整輸出聲音之方法

本發明係關於一種聲音播放系統及其調整輸出聲音之方法，特別是一種可根據使用者年齡進行調整的聲音播放系統及其調整輸出聲音之方法。

隨著科技的進步，已經發展出很多語音助理程式，例如蘋果公司的Siri、Google公司的Google Now、微軟公司的Cortana或是亞馬遜公司的Alexa等。使用者可以利用手機或平板等裝置與語音助理程式直接進行語音對話。另一方面，由於不同年齡的使用者對於不同頻率的聽力損失程度及對聲音大小的耐受度不同，所以不同年齡的使用者都會有最佳聽力的個人聽力曲線。尤其是人類隨著年齡逐漸的增長，耳朵所能聽到聲音的音頻範圍會越來越小，對於頻率較高的聲音，聽力弱化的情形更是特別明顯。但現今的語音助理程式並未考量到使用者的年齡來調整輸出聲音的個人聽力曲線。

因此，有必要發明一種新的聲音播放系統及其調整輸出聲音之方法，以解決先前技術的缺失。

本發明之主要目的係在提供一種聲音播放系統，其可根據使用者年齡進行調整。

本發明之另一主要目的係在提供一種用於上述聲音播放系統的調整輸出聲音之方法。

為達成上述之目的，本發明聲音播放系統包括近端電子裝置及遠端語音系統。近端電子裝置包括聲音接收模組、傳輸模組及發聲模組。聲音接收模組用以接收自使用者發出之輸入聲音訊號，輸入聲音訊號內包括表示使用者之年齡之語音訊號。傳輸模組係電性連接聲音接收模組，用以傳送輸入聲音訊號至網路。發聲模組係電性連接傳輸模組，用以發出輸出聲音訊號給使用者。遠端語音系統係經由網路連接至近端電子裝置，並可發出輸出聲音訊號，遠端語音系統包括辨識模組、等化器及處理模組。辨識模組係接收輸入聲音訊號，用以根據輸入聲音訊號之語音訊號進行語音辨識，以得到語音辨識結果。等化器用以調整輸出聲音訊號之各頻段之增益值。處理模組係電性連接辨識模組及等化器，用以根據語音辨識結果控制等化器調整輸出聲音訊號之各頻段之增益值，藉以傳輸輸出聲音訊號到近端電子裝置，以自發聲模組發出輸出聲音訊號給使用者。

本發明調整輸出聲音之方法，包括以下步驟：接收自使用者發出之輸入聲音訊號，輸入聲音訊號內包括使用者表示年齡之語音訊號；傳輸輸入聲音訊號到遠端語音系統；根據輸入聲音訊號之語音訊號進行語音辨識，以得到語音辨識結果；根據語音辨識結果對輸出聲音訊號之各頻段之增益值進行調整；以及傳輸輸出聲音訊號到近端電子裝置以發出輸出聲音訊號給使用者。

為能讓貴審查委員能更瞭解本發明之技術內容，特舉較佳具體實施例說明如下。

以下請參考圖1係本發明之第一實施例之聲音播放系統之架構示意圖。

本發明之聲音播放系統1包括近端電子裝置10及遠端語音系統20。近端電子裝置10可以為智慧型手機、平板電腦或筆記型電腦等，但本發明並不限於此。近端電子裝置10用以供一使用者使用，並經由網路30連接一遠端語音系統20。遠端語音系統20可用於任意的人工智慧語音系統，例如蘋果公司的Siri、Google公司的Google Now、微軟公司的Cortana或是亞馬遜公司的Alexa，但本發明並不限於此。

近端電子裝置10包括聲音接收模組11、傳輸模組12及發聲模組13。聲音接收模組11可為一麥克風，用以接收自一使用者發出之一輸入聲音訊號。該輸入聲音訊號內包括表示該使用者之年齡之一語音訊號，例如使用者可以說出「Alexa, I am 60 years old. Please setup my EQ.」。傳輸模組12係電性連接該聲音接收模組11，用以傳送該輸入聲音訊號至一網路N。傳輸模組12可以利用有線或無線方式連接網路N，本發明並不限定其連線方式。發聲模組13係電性連接該傳輸模組12。發聲模組13可以為喇叭或耳機，用以發出一輸出聲音訊號給該使用者，輸出聲音係自遠端語音系統20得到。

該遠端語音系統20包括辨識模組21、等化器22及處理模組23。辨識模組21係接收該輸入聲音訊號，用以根據該輸入聲音訊號之該語音訊號進行一語音辨識，以得到一語音辨識結果。等化器(Equalizer, EQ)22用以調整該輸出聲音訊號之各頻段之一增益值，等化器22為一種可調配聲音輸出的工具，可改變聲音於不同頻段下的增益值，因而常被用於輸出音效的調整上。處理模組23係電性連接該辨識模組21及該等化器22，用以根據該語音辨識結果控制該等化器22調整該輸出聲音訊號之該各頻段之一增益值。最後傳輸該輸出聲音訊號到該近端電子裝置10，以自該發聲模組13發出該輸出聲音訊號給該使用者。在此處的輸出聲音訊號係指遠端語音系統20在處理模組23之後所產生並要會傳到發聲模組13之聲音。如此一來，處理模組23即可根據使用者本身的狀況調整出處理模組23較適合的聲音訊號。例如對於年長的使用者，處理模組23可控制該等化器22將輸出聲音訊號之高頻頻段增加音量，讓年長的使用者較容易聽見。

接著請參考圖2係本發明之第一實施例之調整輸出聲音之方法之步驟流程圖。此處需注意的是，以下雖以上述聲音播放系統1為例說明本發明之調整輸出聲音之方法，但本發明之調整輸出聲音之方法並不以使用在上述相同結構的聲音播放系統1為限。

首先進行步驟S201：接收自該使用者發出之一輸入聲音訊號。

首先聲音接收模組11用以接收自一使用者發出之一輸入聲音訊號，該輸入聲音訊號內包括表示該使用者之年齡之一語音訊號。

其次進行步驟S202：傳輸該輸入聲音訊號到該遠端語音系統20。

其次傳輸模組12傳送該輸入聲音訊號至一網路N，再由遠端語音系統20接收。

遠端語音系統20再進行步驟S203：接收該輸入聲音訊號。

再接著遠端語音系統20係接收輸入聲音訊號。

接著進行步驟S204：根據該輸入聲音訊號之該語音訊號進行一語音辨識，以得到一語音辨識結果。

接著辨識模組21係接收該輸入聲音訊號，用以根據該輸入聲音訊號之該語音訊號進行一語音辨識，以得到一語音辨識結果。例如當使用者說「Alexa, I am 60 years old.」，辨識模組21的語音辨識結果即為60歲。

再進行步驟S205：根據該語音辨識結果對該輸出聲音訊號之各頻段之一增益值進行調整。

處理模組23用以根據該語音辨識結果控制該等化器22調整該輸出聲音訊號之該各頻段之一增益值。例如對於年長的使用者控制該等化器22將輸出聲音訊號之高頻頻段增加音量。藉此遠端語音系統20產生的輸出聲音訊號都會經過等化器22之調整。

接著進行步驟S206：傳輸該輸出聲音訊號到該近端電子裝置10。

接著當等化器22調整後，遠端語音系統20係輸出聲音訊號到該近端電子裝置10。

最後進行步驟S207：發出該輸出聲音訊號給該使用者。

最後發聲模組13發出調整後的輸出聲音訊號給該使用者。如此一來，處理模組23即可根據使用者本身的狀況調整出處理模組23較適合的聲音訊號。

接著請參考圖3係本發明之第二實施例之聲音播放系統之架構示意圖。

於本發明之第二實施例中，聲音播放系統1’之該近端電子裝置10’更包括一擷取模組14，用以擷取該使用者之一臉部影像。該遠端語音系統20’更包括一聲紋分析模組24及影像分析模組25。聲紋分析模組24用以根據該輸入聲音訊號進行一聲紋分析，以得到一年齡分析結果。影像分析模組25用以根據該臉部影像進行一影像分析，以得到一臉部影像分析結果。遠端語音系統20’也可以僅具有聲紋分析模組24或影像分析模組25，近端電子裝置10’也可能不具有擷取模組14，即遠端語音系統20可能只能進行聲紋分析或影像分析兩者其中之一，但本發明並不限於此。

藉此，該處理模組23同時根據該臉部影像分析結果、該語音辨識結果及該年齡分析結果控制該等化器22調整該輸出聲音訊號之各頻段之該增益值。當該臉部影像分析結果、該語音辨識結果及該年齡分析結果的結果不一致時，處理模組23可以只根據其中一個數據進行調整。於本發明之一實施方式中，處理模組23之判斷可以用臉部影像分析結果或該年齡分析結果為優先，當臉部影像分析結果或該年齡分析結果與語音辨識結果不符時，係不考量語音辨識結果之數據。例如若辨識模組21的語音辨識結果為60歲，但聲紋分析模組24的年齡分析結果為50歲時，處理模組23係依照年齡分析結果控制該等化器22進行調整。或者由影像分析模組25的影像分析得到使用者的年齡應為40歲時，處理模組23也可依照影像分析結果控制該等化器22進行調整。再者，但本發明並不限只根據其中一個數據進行調整，也可以取不同數據中的最大值、最小值或平均值。

需注意的是，上述各個模組除可配置為硬體裝置、軟體程式、韌體或其組合外，亦可藉電路迴路或其他適當型式配置；並且，各個模組除可以單獨之型式配置外，亦可以結合之型式配置。此外，本實施方式僅例示本發明之較佳實施例，為避免贅述，並未詳加記載所有可能的變化組合。然而，本領域之通常知識者應可理解，上述各模組或元件未必皆為必要。且為實施本發明，亦可能包含其他較細節之習知模組或元件。各模組或元件皆可能視需求加以省略或修改，且任兩模組間未必不存在其他模組或元件。

接著請參考圖4係本發明之第二實施例之調整輸出聲音之方法之步驟流程圖。

首先進行步驟S401：接收自該使用者發出之一輸入聲音訊號，並同時進行步驟S402：擷取該使用者之一臉部影像。

除了聲音接收模組11用以接收自使用者發出之輸入聲音訊號外，也利用擷取模組14擷取該使用者之一臉部影像。

再進行步驟S403：傳輸該輸入聲音訊號及該臉部影像到該遠端語音系統20’。

接著傳輸模組12傳送該輸入聲音訊號及臉部影像至一網路N，再由遠端語音系統20’步驟S404：接收該輸入聲音訊號及該臉部影像。

接著進行步驟S405：根據該輸入聲音訊號之該語音訊號進行一語音辨識，以得到一語音辨識結果。

此步驟S405與步驟S204相同，皆利用辨識模組21根據該輸入聲音訊號之該語音訊號進行語音辨識，以得到語音辨識結果。

同時進行步驟S406：根據該輸入聲音訊號進行一聲紋分析，以得到一年齡分析結果。

聲紋分析模組24也根據相同的輸入聲音訊號進行一聲紋分析，以得到一年齡分析結果。

再進行步驟S407：根據該臉部影像進行一影像分析，以得到一臉部影像分析結果。

影像分析模組25用以根據該臉部影像進行一影像分析，以得到一臉部影像分析結果。

接著進行步驟S408：同時根據該臉部影像分析結果、該語音辨識結果及該年齡分析結果對該輸出聲音訊號之各頻段之該增益值進行調整。

處理模組23同時根據該臉部影像分析結果、該語音辨識結果及該年齡分析結果控制該等化器22調整該輸出聲音訊號之各頻段之該增益值，以進行步驟S409：傳輸該輸出聲音訊號到該近端電子裝置10’。當臉部影像分析結果或該年齡分析結果與語音辨識結果不符時，係以臉部影像分析結果或該年齡分析結果為準，先不考量語音辨識結果之數據。

需注意的是，於不同實施方式中，本發明也可只進行步驟S406來進行聲紋分析或是只進行S407來進行影像分析，本發明並不限定一定要同時根據該臉部影像分析結果、該語音辨識結果及該年齡分析結果進行調整。

最後進行步驟S410：發出該輸出聲音訊號給該使用者。

最後發聲模組13發出調整後的輸出聲音訊號給該使用者。

此處需注意的是，本發明之調整輸出聲音之方法並不以上述之步驟次序為限，只要能達成本發明之目的，上述之步驟次序亦可加以改變。

由上述的說明可知，本發明的聲音播放系統1或1’可依照使用者的年齡去做調整，以得到最適合該使用者的輸出聲音訊號。

需注意的是，上述僅為實施例，而非限制於實施例。譬如此不脫離本發明基本架構者，皆應為本專利所主張之權利範圍，而應以專利申請範圍為準。

1、1’:聲音播放系統 10、10’:近端電子裝置 11:聲音接收模組 12:傳輸模組 13:發聲模組 14:擷取模組 20、20’:遠端語音系統 21:辨識模組 22:等化器 23:處理模組 24:聲紋分析模組 25:影像分析模組 N:網路

圖1係本發明之第一實施例之聲音播放系統之架構示意圖。圖2係本發明之第一實施例之調整輸出聲音之方法之步驟流程圖。圖3係本發明之第二實施例之聲音播放系統之架構示意圖。圖4係本發明之第二實施例之調整輸出聲音之方法之步驟流程圖。

1:聲音播放系統

10:近端電子裝置

11:聲音接收模組

12:傳輸模組

13:發聲模組

20:遠端語音系統

21:辨識模組

22:等化器

23:處理模組

N:網路

Claims

一種調整輸出聲音之方法，用以供一使用者使用一近端電子裝置以調整自一遠端語音系統發出之一輸出聲音訊號，該方法包括：接收自該使用者發出之一輸入聲音訊號，該輸入聲音訊號內包括該使用者表示年齡之一語音訊號；傳輸該輸入聲音訊號到該遠端語音系統；根據該輸入聲音訊號之該語音訊號進行一語音辨識，以得到一語音辨識結果；根據該語音辨識結果對該輸出聲音訊號之各頻段之一增益值進行調整；以及傳輸該輸出聲音訊號到該近端電子裝置以發出該輸出聲音訊號給該使用者。
如申請專利範圍第1項所述之調整輸出聲音之方法，更包括以下步驟：根據該輸入聲音訊號進行一聲紋分析，以得到一年齡分析結果；以及同時參考該語音辨識結果及該年齡分析結果對該輸出聲音訊號之各頻段之該增益值進行調整。
如申請專利範圍第2項所述之調整輸出聲音之方法，更包括以下步驟：其中當該語音辨識結果及該年齡分析結果不同時，係依據該年齡分析結果對該輸出聲音訊號之各頻段之該增益值進行調整。
如申請專利範圍第2項所述之調整輸出聲音之方法，更包括以下步驟：擷取該使用者之一臉部影像；根據該臉部影像進行一影像分析，以得到一臉部影像分析結果；以及同時參考該臉部影像分析結果、該語音辨識結果及該年齡分析結果對該輸出聲音訊號之各頻段之該增益值進行調整。
如申請專利範圍第4項所述之調整輸出聲音之方法，更包括以下步驟：其中當該臉部影像分析結果、該語音辨識結果及該年齡分析結果不同時，係依據該臉部影像分析結果或該年齡分析結果對該輸出聲音訊號之各頻段之該增益值進行調整。
如申請專利範圍第1項所述之調整輸出聲音之方法，更包括以下步驟：擷取該使用者之一臉部影像；根據該臉部影像進行一影像分析，以得到該臉部影像分析結果；以及同時參考該臉部影像分析結果及該語音辨識結果對該輸出聲音訊號之各頻段之該增益值進行調整。
如申請專利範圍第6項所述之調整輸出聲音之方法，更包括以下步驟：其中當該語音辨識結果及該臉部影像分析結果不同時，係依據該臉部影像分析結果對該輸出聲音訊號之各頻段之該增益值進行調整。
一種聲音播放系統，包括：一近端電子裝置，包括：一聲音接收模組，用以接收自一使用者發出之一輸入聲音訊號，該輸入聲音訊號內包括表示該使用者之年齡之一語音訊號；一傳輸模組，係電性連接該聲音接收模組，用以傳送該輸入聲音訊號至一網路；一發聲模組，係電性連接該傳輸模組，用以發出一輸出聲音訊號給該使用者；以及一遠端語音系統，係經由該網路連接至該近端電子裝置，並可發出該輸出聲音訊號，該遠端語音系統包括：一辨識模組，係接收該輸入聲音訊號，用以根據該輸入聲音訊號之該語音訊號進行一語音辨識，以得到一語音辨識結果；一等化器，用以調整該輸出聲音訊號之各頻段之一增益值；以及一處理模組，係電性連接該辨識模組及該等化器，用以根據該語音辨識結果控制該等化器調整該輸出聲音訊號之該各頻段之一增益值，藉以傳輸該輸出聲音訊號到該近端電子裝置，以自該發聲模組發出該輸出聲音訊號給該使用者。
如申請專利範圍第8項所述之聲音播放系統，其中該遠端語音系統更包括一聲紋分析模組，用以根據該輸入聲音訊號進行一聲紋分析，以得到一年齡分析結果，使得該處理模組係比較該語音辨識結果及該年齡分析結果以控制該等化器調整該輸出聲音訊號之各頻段之該增益值。
如申請專利範圍第9項所述之聲音播放系統，當該語音辨識結果及該年齡分析結果不同時，該處理模組係依據該年齡分析結果以控制該等化器對該輸出聲音訊號之各頻段之該增益值進行調整。
如申請專利範圍第9項所述之聲音播放系統，其中該近端電子裝置更包括一擷取模組，用以擷取該使用者之一臉部影像；該遠端語音系統更包括一影像分析模組，用以根據該臉部影像進行一影像分析，以得到一臉部影像分析結果，使得該處理模組比較該臉部影像分析結果、該語音辨識結果及該年齡分析結果以控制該等化器調整該輸出聲音訊號之各頻段之該增益值。
如申請專利範圍第11項所述之聲音播放系統，當該臉部影像分析結果、該語音辨識結果及該年齡分析結果不同時，該處理模組係依據該臉部影像分析結果或該年齡分析結果以控制該等化器對該輸出聲音訊號之各頻段之該增益值進行調整。
如申請專利範圍第8項所述之聲音播放系統，其中該近端電子裝置更包括一擷取模組，用以擷取該使用者之一臉部影像；該遠端語音系統更包括一影像分析模組，用以根據該臉部影像進行一影像分析，以得到一臉部影像分析結果，使得該處理模組比較該臉部影像分析結果及該語音辨識結果以控制該等化器調整該輸出聲音訊號之各頻段之該增益值。
如申請專利範圍第13項所述之聲音播放系統，當該語音辨識結果及該臉部影像分析結果不同時，該處理模組係依據該臉部影像分析結果以控制該等化器對該輸出聲音訊號之各頻段之該增益值進行調整。