TW201903753A

TW201903753A - 用於說話者驗證的方法、設備及系統

Info

Publication number: TW201903753A
Application number: TW107115449A
Authority: TW
Inventors: 陳杰; 蘇丹; 傅天曉; 胡娜
Original assignee: 大陸商北京嘀嘀無限科技發展有限公司
Priority date: 2017-06-13
Filing date: 2018-05-07
Publication date: 2019-01-16
Also published as: AU2019279933B2; ES2800348T3; AU2019279933A1; US20190214020A1; US20180358020A1; JP6677796B2; HUE051594T2; EP3433854A1; EP3706118A1; CN109429523A; TWI719304B; EP3433854B1; US10937430B2; GB201801258D0; AU2017305006A1; EP3706118B1; US10276167B2; WO2018227381A1; JP2019527370A; EP3433854A4

Abstract

本申請涉及用於說話者驗證的方法、設備和系統。所述方法包括：獲取音訊錄音；從所述音訊錄音中提取語音信號；提取所提取的語音信號的特徵；以及根據提取的特徵和說話者模型來確定所提取的語音信號是否表示預定說話者的語音，所述說話者模型是由所述預定說話者的參考語音資料訓練而來。

Description

用於說話者驗證的方法、設備及系統

本申請涉及說話者驗證技術，尤其涉及可靠和高效的說話者驗證的方法、系統和設備。

本申請主張2017年6月13日提交的申請號PCT/CN2017/088073的PCT申請的優先權，其全部內容以引用的方式包含於此。

說話者驗證技術涉及根據他或她的語音特徵或聲紋來驗證說話者。這些特徵可能與說話者的解剖特徵有關，例如他或她的喉頭的大小和形狀、嘴和鼻子的大小和形狀、以及行為模式，如聲調和語言。說話者驗證技術一般分成兩種類型：與文本相關的說話者驗證和與文本無關的說話者驗證。已經開發了各種說話者驗證技術並應用於驗證說話者的身份，特別是應用在安全機制。

目前許多服務和產品是通過使用者終端和服務提供方伺服器之間的遠端通訊來加以提供和處理。例如，乘客通過其行動終端上的應用程式預訂呼叫計程車服務已經愈來愈受歡迎。該資訊然後可以通過網際網絡傳輸到呼叫計程車服務管理系統，呼叫計程車服務管理系統可以處理出行資訊，定位在系統中註冊的可用駕駛員，並相應地安排接駕。但是在有些情況下，未經授權的使用者會不恰當地使用註冊的駕駛員帳戶，從而引起安全問題和駕駛員記錄管理問題。例如，註冊的駕駛員可能會在未經授權的情況下與其他駕駛員分享他或她的帳戶，或者駕駛員帳戶或駕駛員的行動終端可能被入侵或被盜。這種駕駛員帳戶的未經授權的使用不僅會導致提供方的收入損失，還會由於無法追蹤駕駛員的真實身份而引起安全問題。因此需要建立驗證駕駛員身份的可靠系統來提高呼叫計程車服務的安全性，並有效管理駕駛記錄。

鑒於上述問題，本申請提供了用於改進諸如呼叫計程車等應用的安全性以及對註冊使用者帳戶進行有效管理的說話者驗證方法、裝置和系統。

本申請的一態樣涉及一種說話者驗證方法。該方法可以包括：獲取音訊錄音；從所述音訊錄音中提取語音信號；提取所提取的語音信號的特徵；以及根據提取的特徵和由預定說話者的參考語音資料所訓練的說話者模型，確定所提取的語音信號是否代表預定說話者的語音。

本申請的另一態樣涉及一種說話者驗證系統。該系統可包括帶有指令的記憶體和被配置為執行指令的處理器，用於：接收音訊錄音；從所述音訊錄音中提取語音信號；提取所提取的語音信號的特徵；並且根據所提取的特徵和由預定說話者的參考語音資料所訓練的說話者模型來確定所提取的語音信號是否代表預定說話者的語音。

本申請的另一態樣涉及一種儲存指令的非暫時性電腦可讀取儲存媒體，所述指令在由一個或多個處理器執行時，使所述處理器執行說話者驗證的方法。該方法包括：獲取音訊錄音；從所述音訊錄音中提取語音信號；提取所提取的語音信號的特徵；以及根據提取的特徵和由預定說話者的參考語音資料所訓練的說話者模型，確定所提取的語音信號是否代表預定說話者的語音。

本申請的另一態樣涉及一種說話者驗證方法。該方法可以包括：從終端獲取多個音訊錄音；從所述多個音訊錄音中提取語音信號；提取所提取的語音信號的特徵；將提取的特徵分類為一個或多個類別；以及當所提取的特徵被分類為多於一個類別時，確定所述多個音訊錄音包括與預定說話者不同的一個或多個說話者的語音。

本申請的另一態樣涉及一種說話者驗證系統。該系統可以包括帶有指令的記憶體和被配置為執行指令的處理器，以便：從終端接收多個音訊錄音；從所述多個音訊錄音中提取語音信號；提取所提取的語音信號的特徵；將提取的特徵分類為一個或多個類別；以及當所提取的特徵被分類為多於一個類別時，確定所述多個音訊錄音包括與預定說話者不同的一個或多個說話者的語音。

本申請的又一態樣涉及一種儲存指令的非暫時性電腦可讀取儲存媒體，所述指令在由一個或多個處理器執行時使所述處理器執行說話者驗證方法。該方法包括：從終端獲取多個音訊錄音；從所述多個音訊錄音中提取語音信號；提取所提取的語音信號的特徵；將提取的特徵分類為一個或多個類別；以及當所提取的特徵被分類為多於一個類別時，確定所述多個音訊錄音包括與預定說話者不同的一個或多個說話者的語音。

100‧‧‧說話者驗證系統

111‧‧‧記憶體

113‧‧‧處理器

115‧‧‧儲存器

117‧‧‧I/O介面

119‧‧‧通訊介面

110‧‧‧說話者驗證器

120‧‧‧網路

130‧‧‧乘客終端

140‧‧‧駕駛員終端

150‧‧‧呼叫計程車服務管理系統

160‧‧‧控制台

200‧‧‧說話者驗證器

210‧‧‧駕駛員註冊部分

211‧‧‧預處理模組

213‧‧‧特徵提取模組

215‧‧‧說話者模型構建模組

217‧‧‧說話者模型資料庫

220‧‧‧駕駛員驗證部分

221‧‧‧預處理模組

223‧‧‧特徵提取模組

225‧‧‧說話者驗證模組

300‧‧‧方法

301‧‧‧步驟

303‧‧‧步驟

305‧‧‧步驟

307‧‧‧步驟

309‧‧‧步驟

311‧‧‧步驟

400‧‧‧方法

401‧‧‧步驟

403‧‧‧步驟

405‧‧‧步驟

407‧‧‧步驟

409‧‧‧步驟

411‧‧‧步驟

413‧‧‧步驟

415‧‧‧步驟

417‧‧‧步驟

500‧‧‧流程

501‧‧‧步驟

503‧‧‧步驟

505‧‧‧步驟

507‧‧‧步驟

511‧‧‧步驟

513‧‧‧步驟

515‧‧‧步驟

517‧‧‧步驟

600‧‧‧流程

601‧‧‧步驟

603‧‧‧步驟

605‧‧‧步驟

607‧‧‧步驟

609‧‧‧步驟

611‧‧‧步驟

613‧‧‧步驟

615‧‧‧步驟

617‧‧‧步驟

700‧‧‧方法

701‧‧‧步驟

703‧‧‧步驟

705‧‧‧步驟

707‧‧‧步驟

709‧‧‧步驟

圖1係根據示例性實施例所示的用於呼叫計程車服務管理中的說話者驗證系統100的方塊圖。

圖2係根據在呼叫計程車服務管理區域中應用的示例性實施例中的說話者驗證器200的方塊圖。

圖3係根據示例性實施例中的音訊信號預處理方法300的流程圖。

圖4係根據另一示例性實施例中的音訊信號預處理方法400的流程圖。

圖5係根據示例性實施例中的說話者驗證流程500的流程圖。

圖6係根據示例性實施例中的說話者登記或註冊流程600的流程圖。

圖7係根據示例性實施例中沒有與已經儲存過的經註冊的駕駛員帳戶相關的說話者模型時的說話者驗證方法700的流程圖。

本申請涉及根據從說話者的語音資料中提取的語音特徵來驗證說話者。可從包括說話者的語音信號的音訊錄音輸入中獲得語音資料，例如讀取某些文本的說話者的語音記錄，或說話者與另一個人之間的對話記錄。語音資料可以即時獲得，或者通過輸入預先儲存的錄音進行獲取。此外，不同的使用者終端可用於接收音訊錄音輸入，例如，PDA、平板電腦、掌上型電腦、行動電話、智慧手錶等。

關於運輸服務，例如，運輸服務提供方(例如，計程車司機、私家車司機、共乘汽車等)可以使用該語音資料來驗證駕駛員或乘客的身份。具體來說，需要運輸服務(例如，呼叫計程車服務)的乘客可以在他們的使用者終端(例如，他們的行動電話)上安裝呼叫計程車服務應用程式。提供呼叫計程車服務的駕駛員還可以在其終端上安裝相應的應用程式，以用於接收訂單，及/或接收來自運輸服務提供方需要處理某個訂單並接某個乘客的指令。特殊情況下，乘客可以通過駕駛員旁邊的行動電話應用程式輸入關於即將進行的行程的資訊，並請求計程車服務。運輸服務提供方可以通過網路接收這樣的服務請求，相應地處理該命令，並且派遣並安排可用的駕駛員去接駕。接乘客之前，駕駛員可以根據乘客的聯繫資訊(例如電話號碼或與乘客相關的其它帳戶資訊)聯繫乘客。這種通訊可以讓駕駛員終端和乘客終端之間直接進行交談。為了便於管理並確保呼叫計程車服務的安全性，談話可以被記錄，並且可以將音訊錄音提供給驗證系統，以進一步處理說話者驗證，例如根據註冊的駕駛員驗證該駕駛員的身份資訊。

圖1係根據示例性實施例所示的用於呼叫計程車服務管理中的說話者驗證系統100的方塊圖。參照圖1，系統100可以包括說話者驗證器110、網路120、多個乘客終端130、多個駕駛員終端140、呼叫計程車服務管理系統150和控制台160。

說話者驗證器110可以被配置為根據說話者的語音特徵來驗證說話者。如圖1所示，說話者驗證器110可以包括記憶體111、處理器113、儲存器115、輸入/輸出(I/O)介面117和通訊介面119等。說話者驗證器110的這些元件中至少一部分可以被配置為遞送資料，並在彼此之間或在其中發送或接收指令。在一些實施例中，說話者驗證器110可以作為由運輸服務提供方操作的呼叫計程車服務管理平臺的一部分進行安裝，或者說話者驗證器110的功能也可以體現為呼叫計程車服務應用程式(例如，安裝在乘客終端130上的應用程式)的一部分，從而使使用者能夠驗證提供服務的駕駛員的身份。

處理器113可以包括任何合適類型的通用微處理器、專用微處理器、數位訊號處理器或微控制器。處理器113可以被配置為驗證說話者並輸出驗證結果的獨立處理器模組。或者，處理器113可以被配置為執行與說話者驗證無關的其他功能的共用處理器模組。

處理器113可以被配置為從系統110的其他元件接收資料及/或信號以執行說話者驗證。例如，處理器113可以通過如I/O介面117與呼叫計程車服務管理系統150和來自控制台160的指令交換資訊。在驗證之後，處理器113可將驗證結果提供給呼叫計程車服務管理系統150和控制台160，控制台160可提供進一步的指令，諸如儲存驗證結果，以更新駕駛員/使用者帳戶記錄或將驗證結果輸出到對應的乘客終端130或相應的駕駛員終端140。

處理器113可以存取通過通訊介面119發送的資訊。例如，處理器113可接收通過網路120發送的包括來自乘客終端130和駕駛員終端140的音訊信號的對話的音訊錄音。在驗證之後，處理器113可以在接收到來自控制台160的指令時將驗證結果經由網路120發送到對應的乘客終端130和對應的駕駛員終端140。

處理器113可以執行儲存在記憶體111及/或儲存器115中的電腦指令(例如，程式碼)，並且可根據本申請中描述的示例性技術執行功能。處理器113的更多示例性功能將在後面描述，可參考圖2-圖7的描述。

記憶體111和儲存器115包括任何適當類型的大容量儲存器。提供該大容量儲存器是用來儲存處理器113需要操作的任何類型資訊。記憶體111和儲存器115可以表現為揮發性儲存裝置、非揮發性儲存裝置、磁性儲存裝置、半導體、磁帶、光學儲存裝置、移動式儲存裝置、固定儲存裝置或其他類型的儲存裝置或有形(即，非暫態)電腦可讀取媒體。所述有形電腦可讀取媒體包括但不限於唯讀記憶體(ROM)、快閃記憶體、動態隨機存取記憶體(RAM)和靜態RAM。記憶體111及/或儲存器115可以被配置為儲存可以由處理器113執行的一個或多個電腦程式，以執行在此描述的說話者驗證的方法。

記憶體111及/或儲存器115可以被進一步配置為儲存處理器113使用的資訊和資料。例如，記憶體111及/或儲存器115可以儲存從乘客終端130及/或駕駛員終端140接收到的音訊錄音、在說話者驗證期間產生的資料以及最終驗證結果。

I/O介面117可以被配置為促進說話者驗證器110、呼叫計程車服務管理系統150和控制台160之間的通訊。例如，說話者驗證器110可以將說話者驗證結果通過I/O介面117遞送給呼叫計程車服務管理系統150，以更新駕駛員的帳戶資訊和呼叫計程車服務記錄。說話者驗證器110還可以從控制台160接收關於說話者驗證的執行的指令，或者用於進一步將驗證結果輸出到對應的乘客終端130和駕駛員終端140。

通訊介面119可以被配置為通過網路120與乘客終端130和駕駛員終端140之間的通訊。網路120可以是允許發送和接收資料的任何類型的有線或無線網路。例如，網路120可以是有線網路、本地無線網路(例如，藍牙(Bluetooth^TM)、無線保真(WiFi)、近場通訊(NFC)等)、蜂巢式網路、網際網路或類似物或其組合。其他已知的能夠提供用於傳輸資料的媒體的通訊方法也可用於此。

乘客終端130可以是能夠通過網路120接收和發送資訊的任何裝置，例如，攜帶呼叫計程車服務應用的行動電話、諸如膝上型電腦或桌上型電腦的電腦、PDA、平板電腦、智慧手錶等。乘客終端130可以用於接收和記錄音訊信號並通過網路120發送資訊。例如，乘客可通過行動電話的應用程式輸入資訊，發起或參與與駕駛員終端140的對話。乘客的行動電話可用作乘客終端130，乘客終端130可接收對話的錄音，然後可以將該對話錄音發送到說話者驗證器110以進行語音驗證。

與乘客終端130類似，駕駛員終端140可以是能通過網路120接收和發送資訊的任何裝置。例如，駕駛員終端140可通過行動電話、諸如膝上型電腦或桌上型電腦的電腦、PDA、平板電腦、智慧手錶等來提供呼叫計程車服務應用。駕駛員終端140可以是作為車輛控制系統的一部分所安裝的裝置或模組。例如，駕駛員可以通過行動電話上的應用程式輸入資訊，發起或參與和乘客終端130的對話。駕駛員的行動電話可用作駕駛員終端140，駕駛員終端140可接收會話的錄音，然後可以將該會話的錄音發送到說話者驗證器110進行說話者驗證。此外，在駕駛員帳戶註冊期間，駕駛員終端140可以被配置為接收駕駛員的註冊資訊或帳戶設置資訊，如電話號碼、性別、電子郵件帳戶和語音記錄。駕駛員終端140然後可以經由網路120將駕駛員註冊資訊發送到說話者驗證器110。

乘客終端130及/或駕駛員終端140可以進一步包含顯示器。該顯示器包括LCD、LED、電漿顯示器或任何其他類型的顯示器。乘客終端130及/或駕駛員終端140還可以提供在顯示器上呈現的用於使用者輸入和資料顯示的圖形使用者介面(GUI)。例如，可以通過顯示器顯示使用者和駕駛員帳戶資訊，並且還可以顯示說話者驗證結果。

呼叫計程車服務管理系統150還可以包括用於管理駕駛員帳戶記錄和呼叫計程車服務遞送的多個元件。呼叫計程車服務管理系統150可以經由I/O介面117與說話者驗證器110通訊，遞送駕駛員帳戶資訊，並從說話者驗證器110接收驗證結果等。呼叫計程車服務管理系統150還可以包括其他元件，例如儲存與說話者驗證結果相關的駕駛員記錄的資料庫或用於根據駕駛員記錄來評估駕駛員表現的處理器。該處理器還可以被配置為通過向對應的駕駛員終端140發送訂單通知來調度可用駕駛員。

雖然在圖1中示出的是單獨的模組，但是可以設想說話者驗證器110、呼叫計程車服務管理系統150和控制台160也可以被整合為一個系統。例如，在一個實施例中，說話者驗證器110和控制台160可以整合在由運輸服務提供方操作的呼叫計程車服務管理系統150中。在本申請中不詳細描述系統100的其他部件及其與說話者驗證沒有直接關係的功能。

圖2係根據在呼叫計程車服務管理區域中應用的示例性實施例中的說話者驗證器200的方塊圖。參照圖2，說話者驗證器200可以包括駕駛員註冊部分210和駕駛員驗證部分220。駕駛員註冊部分210還可以包括預處理模組211、特徵提取模組213、說話者模型構建模組215和說話者模型資料庫217。駕駛員驗證部分220還包括預處理模組221、特徵提取模組223和說話者驗證模組225。預處理模組211和預處理模組221也可以體現在相同的功能模組中，在駕駛員註冊流程和駕駛員驗證流程中執行預處理功能。類似地，特徵提取模組213和特徵提取模組223也可以體現在相同的功能模組中，為駕駛員註冊流程和駕駛員驗證流程執行特徵提取功能。

在駕駛員註冊期間，預處理模組211被配置為對從駕駛員終端140所發送的駕駛者的音訊錄音進行預處理。預處理步驟包括提取語音信號，去除環境雜訊或背景雜訊信號，並提取駕駛員語音資料，以供語音特徵提取模組213進一步處理。如果存在對應於多於一種性別的語音信號時，則音訊錄音的預處理可以進一步包括選擇與駕駛員相關的性別一致的說話者對應的語音資料。預處理步驟的細節將在下面進一步描述，詳情參考圖3和圖4的描述。

特徵提取模組213被配置為從預處理語音資料中提取語音特徵。各種現有特徵提取的技術可以應用到語音或說話者驗證技術中。如，特徵提取模組213可以被配置為提取由大衛斯和梅爾默斯坦在20世紀80年代引入並廣泛用於語音辨識的梅爾頻率倒譜係數(Mel-Frequency Cepstral Coefficients，MFCCs)，其他技術還可以包括線性預測係數(Linear Prediction Coefficients，LPC)或線性預測倒譜係數(Linear Prediction Cepstral Coefficients，LPCCs)。

說話者模型構建模組215可以被配置為利用由特徵提取模組213提取的特徵，以構建說話者的聲學模型來代表正在註冊的駕駛員的語音特徵。各種說話者模型構造技術可被用於說話者模型構建模組215。例如，可以使用從駕駛員語音資料提取的特徵來訓練深度神經網路(Deep Neural Networks，DNN)，並且可以通過提取表示說話者的語音特徵的特徵向量來構建說話者模型。DNN是一種人工神經網路(Artificial Neural Network，ANN)，在輸入層和輸出層之間具有多個隱藏層。也可以使用的其他說話者模型，包括高斯混合模型(Gaussian Mixture Model，GMM)或隱馬可夫模型(Hidden Markov Model，HMM)模型。還可以將不同的方法的組合形式用於訓練說話者模型，本申請不限於任何特定的模型訓練方法。

在呼叫計程車服務系統中註冊後，駕駛員將具有用其獨特的語音特徵訓練的說話者模型。所有說話者模型都可以儲存在說話者模型資料庫217中，這意味著每個註冊的駕駛員將有與他的帳戶相關的說話者模型。所述說話者模型可以用在駕駛員驗證的流程中。

駕駛員驗證部分220包括預處理模組221、特徵提取模組223和說話者驗證模組225。駕駛員驗證部分220可以根據保存在說話者模型資料庫217中的說話者模型來驗證說話者。

預處理模組221可以被配置為預處理音訊錄音輸入，該音訊錄音輸入可以是駕駛員和乘客之間對話的音訊錄音的形式。類似於駕駛員註冊期間由預處理模組211執行的預處理步驟，在驗證期間的預處理可包括選擇從駕駛員終端140發送的信號、提取語音信號、去除環境雜訊或背景雜訊信號，並提取駕駛員語音資料，以便由特徵提取模組223進行進一步處理。如果存在對應於多於一種性別的語音信號存在，則音訊錄音的預處理可進一步包括選擇與相應的註冊駕駛員相關的性別一致的說話者對應的語音資料。下面將參考圖3和圖4進一步描述預處理的細節。

特徵提取模組223被配置為從預處理的說話者語音資料中提取語音特徵。用在語音辨識或說話者識別技術的各種現有特徵提取技術可被應用在特徵提取模組223中。例如，特徵提取模組223可以被配置為提取由大衛斯和梅爾默斯坦在20世紀80年代引入並廣泛用於語音辨識的梅爾頻率倒譜係數(MFCCs)特徵，其他技術還可以包括線性預測係數(LPC)或線性預測係數預測倒譜係數(LPCC)。

說話者驗證模組225可以被配置為根據提取的說話者語音特徵和與註冊的駕駛者相關的說話者模型來驗證說話者是否是註冊的駕駛者。驗證可以包括針對與註冊的駕駛員相對應的說話者模型檢查所提取的特徵，並計算相似度分數。相似度分數將與預定的相似度臨界值進行比較。下面參照圖5進一步描述驗證流程的細節。

圖3係根據示例性實施例中的音訊信號預處理方法300的流程圖。方法300可以由說話者驗證裝置中的預處理模組執行，諸如圖2中所示的預處理模組211及/或預處理模組221。作為示例，這裡示出的方法300涉及在呼叫計程車服務情境中使用的說話者/駕駛員驗證期間的預處理。如上文所述，可以在使用者/駕駛員註冊流程中執行類似的預處理步驟。

步驟301，預處理模組221接收音訊錄音輸入，該音訊錄音輸入包括乘客與駕駛員之間的對話。如圖1所示，可以通過網路從乘客終端130和駕駛員終端140中的一個或兩個終端發送音訊錄音。

步驟303，預處理模組221選擇從預定終端發送的音訊信號。可以通過選擇從與正在使用的帳戶相關的駕駛員終端140發送的音訊信號來執行步驟303。當註冊帳戶正在使用時，預處理模組221可以檢查與帳戶相關的終端資訊，並且可以相應地選擇從相應終端發送的音訊信號。例如，也可以根據來自駕駛員終端140和乘客終端130的傳輸音訊信號的通道資訊來執行該預處理模組221的功能。

步驟305，預處理模組221從提取的音訊信號中去除環境雜訊，或者提取語音信號。來自預定駕駛員終端140的所選音訊信號可包括各種背景或環境雜訊，諸如來自其他媒體播放機的聲音、來自附近其他終端的聲音、由車輛操作產生的雜訊以及來自車輛外部環境的雜訊。可以去除這種環境雜訊，然後提取語音信號。可以通過各種現有技術來執行步驟305，諸如根據它們的頻率對不同的聲音信號進行分類，並去除與非語音頻率相對應的信號。在一些實施例中，還可以使用諧振時頻圖像(Resonator Time-Frequency Image，RTFI)頻譜，通過產生時頻能量譜並且根據它們的能量級別選擇語音信號來執行步驟305。例如，預處理模組221可以對所提取的音訊信號進行RTFI分析以獲得時頻能量譜，然後在時域上進行平均時頻能量譜以獲得平均能譜。預處理模組221然後可以根據能量變化的分割方法來確定語音信號和非語音信號的起點和終點。根據不同語音信號的能量級別，可以去除輸入音訊信號的非語音信號分量和背景雜訊分量。

步驟307，預處理模組221確定語音信號是否包含不同性別的多個說話者的語音。例如，從駕駛員終端140發送的語音信號可以包括來自駕駛員的語音以及附近的另一個人(例如車輛中的不同性別的乘客)的話語。來自不同性別說話者的語音信號可以根據不同性別的特徵基頻的差異來分類。基頻表示聲帶振動的頻率，與聲帶張力、聲帶的大小和厚度以及聲門下氣壓的變化相關。基頻還會因性別和年齡等因素而產生差異。基頻與音調相關，可以顯示人的聲音的高、低程度。例如，成年男性的基頻範圍為85赫茲至180赫茲，而成年女性的基頻範圍為165赫茲至255赫茲。已經開發了許多演算法來估計音訊信號的基頻，例如廣泛使用的YIN演算法，以及YIN的修改，例如機率YIN(Probabilistic YIN，PYIN)演算法。

步驟309，如果確定語音信號包括不同性別的多個說話者的語音，預處理模組221可以提取與駕駛員帳號相關的預定性別的相關的語音資料，可以刪除與駕駛員帳戶相關的性別不同的說話者的語音信號。例如，如果與駕駛員帳戶相關的性別是男性，並且提取的語音信號包括來自女性乘客的語音信號(其可以根據對應於女性的特徵基頻確定)，則來自女性乘客的語音信號可以被刪除。

步驟311，預處理模組221將提取的說話者語音資料發送到特徵提取模組223中做進一步處理。

圖4係根據另一示例性實施例中的音訊信號預處理方法400的流程圖。類似於方法300，方法400可以涉及在呼叫計程車服務情境中使用的說話者/駕駛員註冊或驗證流程期間的預處理。例如，方法400可以由說話者驗證裝置的預處理模組執行，諸如圖2中所示的預處理模組211及/或預處理模組221。僅出於說明性目的，方法400將被描述為由說話者驗證流程中的預處理模組221執行。

參考圖4，步驟401-405類似於步驟301-305，其細節在此不再重複。接下來，在步驟407中，預處理模組221可以確定提取的語音信號的說話者性別。例如，如上面步驟307中的描述，預處理模組221可以根據語音信號的基頻來確定說話者性別。當確定語音信號(即音訊錄音包括)表示的性別與預定使用者(如車輛的駕駛員)的性別不同時，預處理模組221進一步執行步驟409，選擇說話者性別與預定使用者的性別不同的語音信號。

在步驟411中，預處理模組221計算所選語音信號的持續時間與音訊錄音持續時間的比值，以確定由所選語音信號表示的語音是否代表音訊錄音的重要部分。如果該比值超過預定臨界值，則預處理模組221直接推斷音訊錄音中的說話者不是預定使用者(步驟413)。然而，如果比值等於或低於預定臨界值，則預處理模組221從提取的語音信號中去除選擇的語音信號(步驟415)，然後返回到步驟411以檢查下一個選擇的語音信號的比值。在步驟417 中，預處理模組221將剩餘的提取語音信號發送到特徵提取模組223中以進行進一步處理(步驟417)。

根據方法400，在音訊錄音的預處理階段，說話者驗證裝置可以識別與預定使用者的性別不匹配的說話者性別的語音信號。如果一個或多個識別的語音信號構成音訊錄音的重要部分，則說話者驗證裝置推斷在音訊錄音中說話者不是預定使用者，而不需要進一步處理音訊錄音。否則，說話者驗證裝置從音訊錄音中過濾所識別的語音信號，以減少需要進一步處理的資料量。這樣，提高了說話者驗證的準確性，同時降低了計算成本。

圖5係根據示例性實施例中的說話者驗證流程500的流程圖。流程500可以由圖2所示的說話者驗證器200的駕駛員驗證部分220執行。例如，在呼叫計程車服務管理情境中，可以使用該實施例中的說話者驗證流程500來驗證說話者是否是註冊的駕駛員。

步驟501，特徵提取模組223接收預處理模組221發送的說話者語音資料。

步驟503，特徵提取模組223提取說話者語音資料的特徵。如上所述，可以使用在語音或說話者識別技術中使用的各種現有特徵提取技術來提取說話者語音資料的特徵。例如，特徵提取模組可以被配置為提取梅爾頻率倒譜係數(MFCCs)特徵，MFCCs由Davis和Mermelstein在20世紀80年代引入並且廣泛用於語音辨識，其他技術可以包括線性預測係數(LPC)或線性預測倒譜係數(LPCCs)。

接下來，步驟505-517示出根據提取的說話者語音資料的特徵以及與註冊的駕駛者相對應的說話者模型來驗證說話者是否與註冊的駕駛者相同。這些步驟可以由語音驗證模組225執行。此外，可以根據各個駕駛員的語音特徵構建所有註冊的駕駛員的說話者模型，並且在駕駛員註冊期間保存該說話者模型，其流程可以參照圖6的描述。

步驟505，說話者驗證模組225將說話者語音資料的特徵和與預定使用者相關的參考特徵進行比較。在呼叫計程車服務環境中，預定使用者對應於註冊的駕駛員，在駕駛員註冊期間，已經構建該預定使用者的說話者模型並儲存在說話者模型資料庫中。該參考特徵對應於註冊的駕駛員的特徵。

步驟507，說話者驗證模組225計算說話者語音資料的特徵與註冊的駕駛員的參考特徵之間的相似度分數。所述相似度分數可以是通過與註冊的駕駛員相對應的說話者模型檢查說話者語音資料的特徵來計算的。相似度分數表示說話者語音資料的特徵與註冊的駕駛員的參考特徵之間的相似度。例如，可以產生表示說話者語音資料的特徵的特徵向量，並將該特徵向量與表示與註冊的駕駛員相關的特徵的特徵向量進行比較。

在一些實施例中，表示與註冊的駕駛員相關的特徵的特徵向量可以使用註冊的駕駛員的多個音訊錄音來訓練DNN並且根據該多個音訊錄音的特徵向量得到平均特徵向量。可以通過計算基於說話者語音資料獲得的特徵向量與對應於註冊的駕駛員的平均特徵向量之間的差異來獲得相似度分數。此外，在一些實施例中，機率線性判別分析(Probabilistic Linear Discriminant Analysis，PLDA)評分可以用於計算相似度分數。

步驟511，語音驗證模組225將相似度分數與預定臨界值進行比較，即將計算的相似度分數與預定臨界值進行比較。預定臨界值表示驗證為成功時的最低標準。例如，如果將相似度值表示為說話者語音資料的特徵向量與對應於註冊的駕駛者的特徵向量之間的距離，則將步驟507中計算的距離與預定臨界值距離進行比較。在實際應用中，臨界值可能會以其他方式或其他值顯示，並且可能會根據系統要求而有所不同。

步驟513，如果相似度分數滿足預定臨界值，說話者驗證模組 225推斷說話者是註冊的駕駛員，即驗證成功。

步驟515，如果相似度分數不能滿足預定臨界值，說話者驗證模組225推斷說話者不是註冊的駕駛員，即驗證失敗。

步驟517，說話者驗證模組225輸出驗證結果。如上所述，以圖1中描述的系統為例，可以通過I/O介面117將驗證結果輸出到呼叫計程車服務管理系統150，以更新呼叫計程車服務記錄或駕駛員帳戶記錄。該驗證結果也可以被輸出到控制台160，然後可以經由網路120發送請求驗證結果的指令以提供給相應的乘客終端130或駕駛員終端140。

圖6係根據示例性實施例中的說話者登記或註冊流程600的流程圖。在呼叫計程車服務中，流程600表示在新的駕駛員帳戶被註冊和儲存的流程中，可以構建且儲存駕駛員說話者模型以用於後續的說話者驗證。例如，流程600可以由圖2所示的說話者驗證器200中的駕駛員註冊部分210執行。

步驟601，駕駛員用呼叫計程車服務管理系統150建立使用者帳戶。駕駛員可以通過駕駛員終端使用註冊新的使用者帳戶。駕駛員終端應用程式然後可以將所需的註冊資訊傳輸到呼叫計程車服務管理系統(如呼叫計程車服務管理系統150)，呼叫計程車服務管理系統150將處理註冊請求並為駕駛員建立使用者帳戶。駕駛員可以通過駕駛員終端應用程式註冊一個新的使用者帳戶。駕駛員終端應用程式然後可以將所需的註冊資訊傳輸到呼叫計程車服務管理系統(如呼叫計程車服務管理系統150)，呼叫計程車服務管理系統150可以處理註冊請求並為駕駛員建立使用者帳號。

步驟603，呼叫計程車服務管理系統150可以儲存使用者的註冊資訊。當建立新的駕駛員帳戶時，可以儲存駕駛員註冊資訊。該駕駛員註冊資訊可以包括與相應的駕駛員終端140相關的資訊，例如，性別、年齡、駕駛經驗、駕照資訊等駕駛員的個人資訊及聯繫資訊諸如駕駛員的行動電話號碼或者其他與駕駛員相關的其它帳戶資訊。

步驟605，預處理模組211從使用者終端(如駕駛員終端140)接收音訊錄音輸入。可以要求新註冊的駕駛員輸入一個或多個他或她的錄音，該錄音可以是以讀取某些指定文本或隨機語音話語的形式存在。如圖1所示，來自駕駛員終端140的音訊錄音然後可以通過網路120傳輸到預處理模組211。

步驟607，預處理模組211從音訊信號中去除環境雜訊，或者從音訊信號中提取語音信號。輸入到駕駛員終端140中的音訊錄音可以包括背景雜音或非語音相關的聲音。這些環境噪音可能會在特徵提取之前從音訊信號中刪除。在所揭露的實施例中，步驟507類似於步驟305，其細節在此不再重複。

步驟609，預處理模組211確定語音信號是否包括不同性別的說話者的語音。步驟609可以是可選的，具體取決於錄音輸入的品質和純度。例如，類似於圖3中描述的步驟307，可以根據對應於不同性別的不同特性基頻來確定語音信號是否包括不同性別的說話者的語音。

步驟611，預處理模組211提取與先前註冊的性別相關的使用者語音資料。在步驟603中，可以輸入並儲存新註冊的駕駛員的性別資訊。如果語音信號中存在不同性別說話者的語音，則可以提取與註冊性別相對應的語音信號用於進一步處理。在揭露的實施例中，步驟611類似於圖3中描述的步驟309，其細節在此不再重複。

步驟613，特徵提取模組213從接收到的使用者語音資料中提取特徵。步驟613包括類似於圖5中描述的特徵提取流程的步驟，其細節在此不再重複。

步驟615，說話者模型構建模組215根據參考特徵構建說話者模型。如上面圖2所述，說話者模型構建模組215可以使用各種說話者模型構造技術構造說話者模型。例如，可以使用從駕駛員語音資料提取的特徵來訓練深度神經網路(DNN)，並且可以提取表示說話者語音特徵的特徵向量來來構造說話者模型。也可以使用的其他說話者模型，如高斯混合模型(GMM)和隱馬可夫模型(HMM)模型。也可以使用不同構造說話者模型方法的組合來構建說話者模型，本申請不限於任何特定說話者模型構造方法。

步驟617，在構建與註冊的駕駛員相對應的說話者模型之後，可以將說話者模型儲存在說話者模型資料庫217中。每個註冊的駕駛員有說話者模型，通過構建和儲存該說話者模型以用於後續的說話者驗證。

在一些實施例中，某個註冊的駕駛員帳戶可能不具有對應於該駕駛員的儲存的說話者模型。根據一個說話者驗證實施例，說話者驗證器可以收集一段時間內駕駛員-乘客對話的多個音訊錄音，以確定多個使用者是否使用一個註冊的駕駛員帳戶，詳請參照圖6中的進一步描述。

圖7係沒有與已經儲存過的經註冊的駕駛員帳戶相關的說話者模型時的說話者驗證方法700的流程圖。例如，方法700可以由系統100執行。

步驟701，說話者驗證器110從使用者終端接收多個音訊錄音。例如，當與一個註冊的駕駛員帳戶相關的駕駛員終端140已經被多個駕駛員用於提供呼叫計程車服務時，說話者驗證器110可以收集一段時間內的多個記錄。

步驟703，說話者驗證器110對每個音訊錄音進行預處理以提取從駕駛員終端140發送的說話者語音資料。在揭露的實施例中，步驟603類似於方法300及/或方法400，其細節在此不再重複。

步驟705，說話者驗證器110從說話者語音資料中提取特徵。在揭露的實施例中，步驟705類似於步驟503或613，其細節在此不再重複。

步驟707，說話者驗證器110對提取的特徵進行分類。在對來自駕駛員終端140的每個音訊錄音輸入提取了來自說話者語音資料的特徵之後，可以將特徵分類以確定這些特徵是否對應於同一個人。可以在分類中使用不同的特徵分類器，例如，簡單貝氏分類器或支援向量機(Support Vector Machine，SVM)分類器。也可以使用現有說話者識別技術中的其他分類器，還可以根據提取的特徵來選擇分類器。另外，分類可能不需要用到所有提取到的特徵。

步驟709，說話者驗證器110確定提取的特徵是否對應於相同說話者。步驟709取決於步驟707中的分類是否示出多個類別的特徵，說話者驗證器110然後可以確定是否有多個使用者使用相同的駕駛員帳號。如果特徵屬於多個類別，則可以確定有多個使用者使用相同的駕駛員帳戶。然後可將驗證結果輸出到呼叫計程車服務管理系統150以用於後續的動作。

本申請的另一態樣涉及儲存指令的非暫時電腦可讀取媒體，所述指令在被執行時可以使得一個或多個處理器執行如上描述的說話者驗證方法。電腦可讀取媒體可以包括揮發性儲存裝置、非揮發性儲存裝置、磁性儲存裝置、半導體、磁帶、光學儲存裝置、移動式儲存裝置、固定儲存裝置或其他類型的電腦可讀取媒體或電腦可讀取儲存裝置。例如，如所揭露的，電腦可讀取媒體可以是儲存有電腦指令的儲存單元或記憶體模組。在一些實施例中，電腦可讀取媒體可以是儲存電腦指令的磁碟或儲存電腦指令的快閃記憶體驅動器。

本領域具有通常知識者顯然可以對所申請的說明者驗證系統和相關方法進行各種修改和變型。考慮說明書以及所申請的說話者驗證系統以及相關方法的實踐，其他實施例對於本領域具有通常知識者是顯而易見的。例如，雖然本申請的說話者驗證系統和方法是結合呼叫計程車服務描述的，但它們可以適用於其他應用實施。其中，可以根據語音來驗證人員的身份，如客服呼叫中心、食品配送訂購系統、電話支付系統等。說明書和示例旨在示例性的，真實範圍由所附專利申請範圍及其均等物指示。

Claims

一種說話者驗證方法，包括：獲取音訊錄音；從所述音訊錄音中提取語音信號；提取所提取的語音信號的特徵；以及基於所提取的特徵和由預定說話者的參考語音資料所訓練的說話者模型來確定所提取的語音信號是否表示所述預定說話者的語音。
如申請專利範圍第1項之方法，其中，所述音訊錄音是由與所述預定說話者相關的終端發送。
如申請專利範圍第1項之方法，其中，所述音訊錄音是來自車輛的駕駛員與相同車輛的乘客之間的電話通話。
如申請專利範圍第1項之方法，其中，提取語音信號包括：確定所述音訊錄音的能量級別；以及根據所述能量級別提取語音信號。
如申請專利範圍第4項之方法，其中，確定所述音訊錄音的能量級別包括：確定所述音訊錄音的諧振時頻圖像(Resonator Time-Frequency Image，RTFI)頻譜。
如申請專利範圍第1項之方法，其中，提取語音信號包括：確定所述音訊錄音是否包括不同性別的說話者的語音；以及當確定所述音訊錄音包括不同性別的說話者的語音時，提取對應於所述預定說話者之性別的語音信號。
如申請專利範圍第6項之方法，其中，確定所述音訊錄音是否包括不同性別的說話者的語音包括：檢測所述音訊錄音是否包括不同性別的特徵基頻。
如申請專利範圍第1項之方法，其中：所提取的語音信號包括第一語音信號；以及提取所述語音信號包括：確定所述第一語音信號的說話者性別；當所述第一語音信號的所述說話者性別與所述預定說話者的性別不同時，確定所述第一語音信號的持續時間與所述音訊錄音的持續時間的比值；當所述比值超過預定臨界值時，推斷所述音訊錄音不包括所述預定說話者的語音；以及當所述比值等於或低於所述預定臨界值時，從所提取的語音信號中去除所述第一語音信號。
如申請專利範圍第1項之方法，其中，所提取的特徵包括所提取的語音信號的梅爾頻率倒譜係數(Mel-Frequency Cepstral Coefficients，MFCCs)。
如申請專利範圍第1項之方法，其中，確定所提取的語音信號是否表示所述預定說話者的語音進一步包括：從所述參考語音資料中提取與所述預定使用者相關的參考特徵；以及根據所述參考特徵訓練所述說話者模型。
如申請專利範圍第10項之方法，其中，所述說話者模型為高斯混合模型(Gaussian Mixture Model，GMM)、隱馬可夫模型(Hidden Markov Model，HMM)或深度神經網路(Deep Neural Network，DNN)模型中的至少一個。
如申請專利範圍第10項之方法，所述方法進一步包括：計算所提取的特徵與所述參考特徵之間的相似度；以及根據所述相似度確定所提取的語音信號是否表示所述預定使用者的語音。
一種說話者驗證系統，包括：記憶體，所述記憶體包括指令；以及處理器，所述處理器被配置為執行所述指令以：接收音訊錄音；從所述音訊錄音中提取語音信號；提取所提取的語音信號的特徵；以及基於所提取的特徵和由預定說話者的參考語音資料所訓練的說話者模型來確定所提取的語音信號是否表示所述預定說話者的語音。
如申請專利範圍第13項之系統，其中，所述音訊錄音是由與所述預定說話者相關的終端發送。
如申請專利範圍第13項之系統，其中，所述音訊錄音是來自車輛的駕駛員與相同車輛的乘客之間的電話通話。
如申請專利範圍第13項之系統，其中，所述處理器進一步被配置為執行所述指令以：確定所述音訊錄音的能量級別；以及根據所述能量級別提取語音信號。
如申請專利範圍第16項之系統，其中，所述處理器進一步被配置為執行所述指令以：確定所述音訊錄音的諧振時頻圖像(RTFI)頻譜。
如申請專利範圍第13項之系統，其中，所述處理器進一步被配置為執行所述指令以：確定所述音訊錄音是否包括不同性別的說話者的語音；以及當確定所述音訊錄音包括不同性別的說話者的語音時，提取對應於所述預定說話者的性別的語音信號。
如申請專利範圍第18項之系統，其中，所述處理器進一步被配置為執行所述指令以：檢測所述音訊錄音是否包含不同性別的特徵基頻。
如申請專利範圍第13項之系統，其中：所提取的語音信號包括第一語音信號；以及所述處理器進一步被配置為執行所述指令以：確定所述第一語音信號的說話者性別；當所述第一語音信號的所述說話者性別與所述預定說話者的性別不同時，確定所述第一語音信號的持續時間與所述音訊錄音的持續時間的比值；當所述比值超過預定臨界值時，推斷所述音訊錄音不包括所述預定說話者的語音；以及當所述比值等於或低於所述預定臨界值時，從所提取的語音信號中去除所述第一語音信號。
如申請專利範圍第13項之系統，其中，所提取的特徵包括所提取的語音信號的梅爾頻率倒譜係數(MFCCs)。
如申請專利範圍第13項之系統，其中，所述處理器進一步被配置為執行所述指令以：從所述參考語音資料中提取與所述預定使用者相關的參考特徵；以及根據所述參考特徵訓練所述說話者模型。
如申請專利範圍第22項之系統，其中，所述說話者模型是高斯混合模型(GMM)、隱馬可夫模型(HMM)或深度神經網路(DNN)模型中的至少一個。
如申請專利範圍第22項之系統，其中，所述處理器進一步配置為執行所述指令以：計算所提取的特徵與所述參考特徵之間的相似度；以及根據所述相似度確定所提取的語音信號是否表示所述預定使用者的語音。
一種儲存指令的非暫時性電腦可讀取儲存媒體，所述指令被一個或多個處理器執行時，導致所述處理器執行說話者驗證方法，所述方法包括：接收音訊錄音；從所述音訊錄音中提取語音信號；提取所提取的語音信號的特徵；以及基於所提取的特徵和由預定說話者的參考語音資料所訓練的說話者模型來確定所提取的語音信號是否表示所述預定說話者的語音。
一種說話者驗證方法，包括：從終端獲取多個音訊錄音；從所述多個音訊錄音中提取語音信號；提取所提取的語音信號的特徵；將所提取的特徵分為一個或多個類別；以及當所提取的特徵分為多於一個類別時，確定所述多個音訊錄音包括與預定說話者不同的一個或多個說話者的語音。
如申請專利範圍第26項之方法，其中，所述多個音訊錄音是來自車輛的駕駛員與相同車輛的乘客之間的電話通話。
如申請專利範圍第26項之方法，其中，提取語音信號包括：確定所述多個音訊錄音的能量級別；以及根據所述能量級別提取語音信號。
如申請專利範圍第28項之方法，其中，確定所述多個音訊錄音的能量級別包括：確定所述多個音訊錄音的諧振時頻圖像(RTFI)頻譜。
如申請專利範圍第26項之方法，其中，提取語音信號包括：確定所述多個音訊錄音是否包括不同性別的說話者的語音；以及當確定所述多個音訊錄音包括不同性別的說話者的語音時，提取對應於所述預定說話者之性別的語音信號。
如申請專利範圍第26項之方法，其中：所提取的語音信號包括從第一音訊錄音中提取的第一語音信號；以及提取所述語音信號包括：確定所述第一語音信號的說話者性別；當所述第一語音信號的所述說話者性別與所述預定說話者的性別不同時，確定所述第一語音信號的持續時間與所述第一音訊錄音的持續時間的比值；當所述比值超過預定臨界值時，推斷所述多個音訊錄音包括與所述預定說話者不同的說話者的語音；以及當所述比值等於或低於所述預定臨界值時，從所提取的語音信號中去除所述第一語音信號。
如申請專利範圍第26項之方法，其中，所提取的特徵包括所提取的語音信號的梅爾頻率倒譜係數(MFCCs)。
一種說話者驗證系統，包括：記憶體，所述記憶體包括指令；以及處理器，所述處理器被配置為執行所述指令以：從終端獲得多個音訊錄音；從所述多個音訊錄音中提取語音信號；提取所提取的語音信號的特徵；將所提取的特徵分為一個或多個類別；以及當所提取的特徵被分為多於一個類別時，確定所述多個音訊錄音包括與預定說話者不同的一個或多個說話者的語音。
如申請專利範圍第33項之系統，其中，所述多個音訊錄音是來自車輛的駕駛員與相同車輛的乘客之間的電話通話。
如申請專利範圍第33項之系統，其中，所述處理器進一步被配置為執行所述指令以：確定所述多個音訊錄音的能量級別；以及根據所述能量級別提取語音信號。
如申請專利範圍第35項之系統，其中，所述處理器進一步被配置為執行所述指令以：確定所述多個音訊錄音的諧振時頻圖像(RTFI)頻譜。
如申請專利範圍第33項之系統，其中，所述處理器進一步被配置為執行所述指令以：確定所述多個音訊錄音是否包括不同性別的說話者的語音；以及當確定所述多個音訊錄音包括不同性別的說話者的語音時，提取對應於所述預定說話者之性別的語音信號。
如申請專利範圍第33項之系統，其中：所提取的語音信號包括從第一音訊錄音中提取的第一語音信號；以及所述處理器進一步被配置為執行所述指令以：確定所述第一語音信號的說話者性別；當所述第一語音信號的所述說話者性別與所述預定說話者的性別不同時，確定所述第一語音信號的持續時間與所述第一音訊錄音的持續時間的比值；當所述比值超過預定臨界值時，推斷所述多個音訊錄音包括與所述預定說話者不同的說話者的語音；以及當所述比值等於或低於所述預定臨界值時，從所提取的語音信號中去除所述第一語音信號。
如申請專利範圍第33項之系統，其中，所提取的特徵包括所提取的語音信號的梅爾頻率倒譜係數(MFCCs)。
一種儲存指令的非暫時性電腦可讀取儲存媒體，所述指令被一個或多個處理器執行時，導致所述處理器執行說話者驗證方法，所述方法包括：從終端獲取多個音訊錄音；從所述多個音訊錄音中提取語音信號；提取所提取的語音信號的特徵；將所提取的特徵分為一個或多個類別；以及當所提取的特徵分為多於一個類別時，確定所述多個音訊錄音包括與預定說話者不同的一個或多個說話者的語音。