TWI403304B

TWI403304B - 隨身語能偵知方法及其裝置

Info

Publication number: TWI403304B
Application number: TW099128768A
Authority: TW
Inventors: Chi Chun Hsia; Yu Hsien Chiu; Wei Che Chuang; Kuo Yuan Li
Original assignee: Ind Tech Res Inst
Priority date: 2010-08-27
Filing date: 2010-08-27
Publication date: 2013-08-01
Also published as: US20120053929A1; US8712760B2; TW201208636A

Description

隨身語能偵知方法及其裝置

本發明與語能偵知有關，特別是關於一種隨身語能偵知方法及裝置。

統計資料顯示2010年全球老年失智症患者將超過三千五百萬人，失智症無疑地是一嚴重的社會問題；失智症並非無藥可救，失智病症的老人中，近10%的病況是可以治癒的；另有35%腦中風所引致的血管性失智症，也可經治療而遏止惡化或改善病情；其餘約55%阿滋海默氏病雖會不斷惡化，但仍然可以進行醫療。

失智症的症狀除了反映在遺忘、誤認、情緒轉變或迷路之外，亦會反映在語言表達的能力以及與他人互動的社群參與程度上；土耳其首都-安卡拉阿茲海默症治療中心主任醫師謝茲金(Gulay Sezgin)指出：『保持老人與外界接觸，進而增加腦力激盪機會，防止腦細胞停滯和老化。』

失智症的患者由於記憶力的退化，常會忘記已經做過的事或是已經說過的話，所以會做一些重覆性的動作或不斷重覆某些語句，「重覆相同的問題、故事和陳述」也列在極早期失智症篩檢量表(AD8)評估項目中。

失智症的評估多倚賴量表，如簡易心智量表MMSE(Mini-Mental Status Examination)，常問的問題如：今天是哪一天？哪一年？你在那個縣市？或是關於數字認知方面的如請受試者由100開始往下遞減7，逐次唸出每個數字：100,93,86,79,72...。對於極早期失智的評估，有所謂極早期失智量表(AD8)的評估要項，其中對於1.)反覆述說：發生頻率，時間點，時間長，內容；2.)自言自語：發生頻率，時間點，時間長；3.)與多少人交談：對談者是否越來越少；以上這些評估項目不僅可由受試者平常談話的紀錄中分析得知，更是單純的量表評估難以表達的。

基於上述問題，發明人提出了一種隨身語能偵知方法及裝置，以克服現有技術的缺陷。

本發明在於提供一種隨身語能偵知方法及裝置，透過隨身語音的收集，進一步分析被觀察者的語能狀態，以提供語能相關症狀(包含失智症)的評估。

本發明在於提供一種隨身語能偵知方法及裝置，該裝置，包含：一分析平台；一聲音收集元件，係與該分析平台電性連接，用以收集所需的一聲音資料；以及一語能評估單元，係內嵌於該分析平台中，或與該分析平台電性連接；其中，該語能評估單元接收由該聲音收集元件所收集到的該聲音資料，進行一語言能力之評估計算，並輸出一評估結果。

而該方法包括一音訊處理步驟，聲音經一聲音收集元件接收進來之後，經由一語能評估單元中的一有聲段擷取模組，擷取出有講話聲響的一聲音段，再經由該語能評估單元中的一特徵參數擷取模組計算該聲音段的一特徵向量序列，亦即擷取出可供分析的一音段特徵向量；一重覆談話指標估算步驟，直接經由該語能評估單元中的一穩態音段偵測與量化模組，得到一字碼序列，再藉該語能評估單元中的一重覆片段偵測模組進行一重覆片段比對演算，以判別該字碼序列中是否包含一或至少一重覆片段，除了以一般日常用語之字碼建立一全域語言模型，也以最近發生之字碼建立一快取語言模型以供進行重覆片段比對使用，藉此以獲得一重覆談話指標；以及一社群互動指標估算步驟，係由該語能評估單元中的一語者歸群模組偵測出語者發話之一時間/次數比率、一談話時間長短，以及一語者交替次數等，甚至是是否有自言自語之現象，藉此以獲得一社群互動指標。

因此，透過隨身的聲音收集元件，接收使用者及與其談話者之語音，再分析使用者之『重覆談話指標』與『社群互動指標』；語能評估單元內嵌於分析平台中，或與分析平台電性連接，其中重覆談話指標可為重覆片段之比率、時間點、時間長；社群互動指標可為每時間區段內，與之談話者之人數、交談時間長度、或是否一個人獨自在講話(即自言自語)。

雖然本發明使用了幾個較佳實施例進行解釋，但是下列圖式及具體實施方式僅僅是本發明的較佳實施例；應說明的是，下面所揭示的具體實施方式僅僅是本發明的例子，並不表示本發明限於下列圖式及具體實施方式。

請參閱圖1，係表示本發明隨身語能偵知裝置的外觀圖；本發明隨身語能偵知裝置1具可調整收音位置的聲音收集元件4，如麥克風，且在一分析平台2中內建一語能評估單元3，可隨身攜帶以即時評估被偵測者的語能；透過上述麥克風之隨身的聲音收集元件4，接收使用者及與其談話者之一聲音資料，再分析使用者之『重覆談話指標』與『社群互動指標』；語能評估單元4內嵌於如嵌入式系統的分析平台2中，或可與如個人電腦分析平台2電性連接。

社群互動指標估算

社群互動指標可由以下一種或一種以上之特性計算而得：每時間區段內，與之談話者之人數、交談時間長度、或是否一個人獨自在講話。

土耳其首都-安卡拉阿茲海默症治療中心主任醫師謝茲金(Gulay Sezgin)指出：『保持老人與外界接觸，進而增加腦力激盪機會，防止腦細胞停滯和老化。』換言之，老年人之社群互動能力亦為預防或偵測失智的一個重要指標，藉由聲音感測器搭配語者歸群的技術，我們可以將老人所交談對象加以歸群，藉由其交談對象之數量來做他的社群互動關聯評估。

圖2為多人談話情境示意圖；使用者除了在室內公共空間內相互交談外，在戶外騎樓或可休憩的地方亦常會聚集聊天，可由此談話量的多寡，包含談話對象、人數、時間或時間長，以及參與的程度(發話的時間)等，評量可能的失智病患，其社會參與程度；另外亦有些退縮型失智病患，會有自言自語的症狀，除獨自坐在椅子上講話外，在廁所中亦可能會發生。

重覆談話指標估算

重覆談話指標可由以下一種或一種以上之特性計算而得：重覆片段之比率、時間點、時間長，或重覆之內容等。

方法流程

圖3為本發明之語能偵知方法的流程圖；本發明的語能偵知方法包括下列步驟：

步驟S1：音訊處理步驟。聲音接收進來之後，在進行後續的語能特性估算步驟(步驟S2及S3)之前，需先經過音訊處理步驟(步驟S1)，係經由有聲段擷取(Voice Activity Detection)模組31，擷取出有講話聲響的段落，再經由特徵參數擷取模組(Feature Extraction)32計算聲音段的特徵向量序列，亦即擷取出可供分析的音段特徵向量；而最終分別由步驟S2及步驟S3產出的『重覆談話指標』與『社群互動指標』可分別由多種語能特性估算而得。

步驟S2：重覆談話指標估算步驟。本發明所提出之重覆談話指標估算方法可不透過習知的大詞彙語音辨識與關鍵詞彙辨識去分析語音文字內容，直接經由一穩態音段偵測與量化模組33將音段字碼(codeword)量化，得到字碼(codeword)序列，重覆片段比對部分使用具有機率式語言模型(Codeword Catching n-gram Model)之重覆片段偵測模組34判別字碼(codeword)序列中是否包含重覆片段，除了以一般日常用語之字碼(codeword)建立一全域語言模型FM，也以最近發生之字碼(codeword)建立一快取語言模型CM以供進行重覆片段比對使用，藉此以獲得一重覆談話指標A，而此一作法雖未能辨識出詞彙意義，但仍可評估談話重覆之比率、重覆之時間點與時間長度等訊息。

步驟S3：社群互動指標估算步驟。社群互動指標的估算可由習知的語者分群、語者辨識與語者識別，或由本發明基於母音三角之方法的語者歸群模組35，偵測出語者發話之時間/次數比率、談話時間長短，以及語者交替次數等，甚至是是否有自言自語之現象，藉此以獲得一社群互動指標B，其中，上述基於母音三角之語者歸群模組的歸群方法將於後詳述。

裝置架構

本發明提出之隨身語能偵知裝置1包括一分析平台2、一語能評估單元3及一聲音收集元件4，語能評估單元4內嵌於如嵌入式系統的分析平台2中，或可與如個人電腦分析平台2電性連接，圖4及圖5分別表示以個人電腦為分析平台及以嵌入式系統為分析平台時之裝置架構。

聲音收集元件4可感測配帶者本身及週遭之聲音訊號，聲音收集元件4可為隨身之裝置如：錄音筆、智慧型手機(Smart Phone)、個人數位助理(personal digital assistant，PDA)或其他手持式或配戴式之聲音收集裝置，收集到的聲音資料可經由分析平台2中之語能評估單元3分析後，藉由上述的本發明的語能偵知方法輸出社群互動指標A及重覆談話指標B。

語能評估單元3又包含一有聲段擷取模組31、一特徵參數擷取模組32、一穩態音段偵測與量化模組33、一重覆片段偵測模組34及一語者歸群模組35，其中，有聲段擷取模組31擷取出有講話聲響的段落，特徵參數擷取模組32接收聲音收集元件4輸入之聲音資料，並估算語音參數，包括倒頻譜係數、線頻譜對係數、音高、音強及音段長，穩態音段偵測與量化模組33將音段字碼量化，得到字碼序列，重複片段偵測模組34透過偵測聲音資料中之一重複片段，輸出重複片段之聲音、計算重複片段出現之比率、出現之時間點、重複之時間長度，或包含重複片段之字面內容，語者歸群模組35透過一語者歸群方法，分析一段談話語音資料中，出現之語者數目，每位語者發話之比率、時間長短，或包含語者交替之次序，而其間的相關作用係以於上述之語能偵知方法敘述，故不再在此贅述。

另，更可包括詞彙能力評估模組(圖未示)，係可透過詞彙辨識或連續語音辨識，偵測並輸出詞彙之使用量、詞彙類型、重複片段之比率、時間點、時間長，或重複之內容。

使用語者歸群(Speaker Diarization)做社群互動指標估算

本發明之基於母音三角之方法以進行語者歸群的作法如下：在做語者聚類之前必須先找出語者聲音在時域(Time Domain)或頻域(Frequency Domain)上之特徵值，並根據此特徵值以高斯混和模型(Gaussian mixture model，GMM)等機率模型加以量化及模式化，再進行歸群，本發明採取共振峰估測及梅爾倒頻譜係數兩種語者特徵擷取方法，分述如後。

a.　共振峰估測(Formants Estimation)

聲音是從聲源經過聲道共振之後所產生的。聲道是指從聲帶以上至嘴唇之間(含鼻腔)的空腔，此區域乃聲音的共振腔，而人的聲音在頻率域上產生能量集中之位置稱做共振峰，不同的共振腔及母音的發聲皆會產生不一樣的共振峰，因此可以藉此歸納發話者間的差異並加以歸群。對於共振峰的估算是先採用全極點的訊號模型，透過L-D遞迴演算法(Levinson-Durbin recursion)估算其在極座標平面，單位圓上的極點座標，下式為全極點的訊號模型方程式：

單位圓上的極點座標以(cosω _i ,i sinω _i )表示，則對應的共振峰頻率F _i 與頻寬FB _i 則以式(2)與式(3)求得：

其中F _s 表示聲音訊號的取樣頻率。

圖6為男女生語者於母音三角上呈現的差異，WM表示男生語者的母音共振峰散佈，WF表示女生語者的母音共振峰散佈。

b.　梅爾倒頻譜係數(Mel-Frequency Cesptrum Coefficients)

人耳聽覺在在低頻部分比起高頻的部靈敏許多，梅爾倒頻譜係數即是一種根據人耳聽覺刻度所設計出來的聲音特徵係數，為語音辨識最常見之特徵參數之一。

使用字碼比對做重覆談話萃取(Repeated Pattern Extraction)

失智症的患者由於記憶力的退化，常會忘記已經做過的事或是已經說過的話，所以會做一些重覆性的動作或者是重覆某些語句，而「重覆相同的問題、故事和陳述」也列在極早期失智症篩檢量表(AD8)評估項目中，故患者談話與敘事重覆片段之比率、時間點、時間長短，可作為失智症的評估指標。

a.　同質音段字碼化

基於設備造價與機器性能之間的考量，在重覆片段的比對演算法上，我們不採用複雜的大詞彙語音辨識技巧，取而代之的是建立於Semi-HMM(Semi-Hidden Markov Model，半隱藏式馬可夫模型)上的簡單聲學模型，直接針對在時間軸上的同質音段進行音段切割與字碼編碼，為避免語音片段辨識時費時的最佳路徑搜尋及解碼過程，本發明係將Semi-HMM的狀態(state)數目設為1，並以時間持續模型(duration model)描述音段長度的特徵，以單一狀態的設計，可以避免費時的隱藏式馬可夫模型解碼(HMM decoding)，且透過時間持續模型(duration model)可保留音段長度的特性。

1.x _t ,時間點t 時的語音特徵向量，單位為音框

2.x _t _-τ+1 :x _t _, 時間點t -τ+1到t 的語音特徵向量序列

3. τ,音段長度

4.P _i (x _t _-τ+1 :x _t ,τ),長度為τ的語音特徵向量序列x _t _-τ+1 :x _t 在第i 個狀態的觀測機率

5.d _i (τ),在第i 個狀態停留τ個音框的機率(duration probability)

6.O _i (x _t _-τ+1 :x _t ;Λ _i )，語音特徵向量x _t _-τ+1 ,…,x _t 在第i 個狀態的聯合觀測機率

7.d _i (τ)=N _i (τ;),以常態分佈表示duration probability，為在第i 個狀態停留長度的平均值，單位為音框，為其變異數

假設各語音特徵向量為獨立，可得聯合觀測機率為各自的觀測機率的乘積，如下式：

其中Λ _i ,第i 個狀態的機率模型參數以高斯混和模型表示各語音特徵向量在第i 個狀態中的觀測機率

1.M ,為混和的高斯模型個數

2.μ _i _, _j ,為第i 個狀態第j 個高斯的權重

3.ω _i _, _j ,為第i 個狀態第j 個高斯的平均向量

4.Σ _i _, _j ,為第i 個狀態第j 個高斯的共變異數矩陣

b.　字碼語言模型(Codeword Language Model)

針對不同的語音片段，可以比對出可能重覆的同質音段字碼，為了快速比對重覆片段，本發明並不採用語音辨識，更不處理詞彙或語意分析，本發明係關注在同質音段字碼的重覆出現，即相似字碼序列的粹取；因此本發明使用n個字碼相連字串模型(codeword n-gram model)加以描述字碼之間連結與組合狀況，本模型以音段字碼(segment codeword)作為基礎元素而非傳統的中文詞彙，可避免複雜的語音辨識，甚至是多語辨識所需的大量運算；為偵測病患最近常重覆述說的片段，本發明更引入快取模型(catching model)，讓字碼語言模型具有時間記憶的效應。

1.V _i ,表示第i 個音段量化後的codeword

2.P (V _i |V _i _-2 V _i _-1 )，表示給定V _i _-2 V _i _-1 後，接著出現V _i 的機率，由兩部分機率組合而得

3. 其中(V _i |V _i _-2 V _i _-1 )表示由過去長時間累積的資料求得的機率，以bi-gram及uni-gram透過線性方式調整權重而得

4.C (V _i _-2 V _i _-1 V _i ),C (V _i _-2 V _i _-1 ),C (V _i _-1 ),分別表示codeword連三個出現，連兩個出現，以及單獨出現的次數；λ 則是線性調整用的權重

5.P _catching (V _i |V _i _-2 V _i _-1 ),的計算方式相同於(V _i |V _i _-2 V _i _-1 )，差別在用的是近期的資料

藉由上述的結構與方法，以聲音為基礎的語言能力監測，可彌補評估照護人力之不足，並可從談話者人數/時間評量社群互動狀況，及從重覆相似語音片段偵知語言能力，對於早發性失智患者，可用於評估是否已開始有重覆敘事或自言自語之語言行為特徵，不僅具有經濟效益，還可應用於老人醫療照護產業，並在家庭照護中，達到輔助評估老人是否患有失智症狀的功效。

雖然本發明以相關的較佳實施例進行解釋，但是這並不構成對本發明的限制。應說明的是，本領域的技術人員根據本發明的思想能夠構造出很多其他類似實施例，這些均在本發明的保護範圍之中。

1．．．隨身語能偵知裝置

2．．．分析平台

3．．．語能評估單元

31．．．有聲段擷取模組

32．．．特徵參數擷取模組

33．．．穩態音段偵測與量化模組

34．．．重覆片段偵測模組

35．．．語者歸群模組

4．．．聲音收集元件

A．．．社群互動指標

B．．．重覆談話指標

CM．．．快取語言模型

FM．．．全域語言模型

步驟S1~S3依據本發明語能偵知方法的步驟

圖1　係表示本發明隨身語能偵知裝置的外觀圖。

圖2　係表示多人談話情境示意圖。

圖3　係表示本發明之語能偵知方法的流程圖。

圖4　係表示本發明以個人電腦為分析平台時之裝置架構。

圖5　係表示本發明以嵌入式系統為分析平台時之裝置架構。

圖6　係表示本發明男女生語者於母音三角上呈現的差異。