TWI834102B - 與說話者識別結合的說話者分離方法、系統及電腦程式 - Google Patents

與說話者識別結合的說話者分離方法、系統及電腦程式 Download PDF

Info

Publication number
TWI834102B
TWI834102B TW111100414A TW111100414A TWI834102B TW I834102 B TWI834102 B TW I834102B TW 111100414 A TW111100414 A TW 111100414A TW 111100414 A TW111100414 A TW 111100414A TW I834102 B TWI834102 B TW I834102B
Authority
TW
Taiwan
Prior art keywords
speaker
speech
voice
computer system
interval
Prior art date
Application number
TW111100414A
Other languages
English (en)
Other versions
TW202230342A (zh
Inventor
權寧基
姜漢容
金裕眞
金漢奎
李奉眞
張丁勳
韓益祥
許曦秀
鄭準宣
Original Assignee
南韓商納寶股份有限公司
日商沃克斯移動日本股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 南韓商納寶股份有限公司, 日商沃克斯移動日本股份有限公司 filed Critical 南韓商納寶股份有限公司
Publication of TW202230342A publication Critical patent/TW202230342A/zh
Application granted granted Critical
Publication of TWI834102B publication Critical patent/TWI834102B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Pinball Game Machines (AREA)
  • Telephone Function (AREA)

Abstract

本發明公開與說話者識別結合的說話者分離方法、系統及電腦程式。說話者分離方法包括如下的步驟:設定與作為說話者分離對象語音來從客戶端接收的語音檔有關的基準語音;利用上述基準語音執行在上述語音檔中識別上述基準語音的說話者的說話者識別;以及,針對在上述語音檔中未識別到的剩餘說話區間執行利用聚類的說話者分離。

Description

與說話者識別結合的說話者分離方法、系統及電腦程式
以下的說明涉及說話者分離(speaker diarization)技術。
說話者分離的技術為一種從錄製多個說話者說話內容的語音檔分離每個說話者的說話區間的技術。
說話者分離技術是從音頻數據檢測說話者邊界區間,根據是否使用對於說話者的現有知識,可分為基於距離的方式和基於模型的方式。
例如,在韓國公開專利第10-2020-0036820號(公開日期為2020年04月07日)中公開了如下的技術,即,追蹤說話者的位置,在輸入聲音中基於說話者位置資訊來分離說話者的語音。
這種說話者分離技術為在會議、採訪、交易、裁判等多個說話者沒有規定順序地說話的情況下,分離每個說話者的說話內容並自動記錄的技術,可用於自動制定會議記錄等。
發明所欲解決之問題
本發明提供可通過結合說話者分離技術和說話者識別技術來改善說話者分離的方法及系統。
本發明提供可利用包括說話者標籤(speaker label)的基準語音來先執行說話者識別之後再執行說話者分離的方法及系統。
解決問題之技術手段
本發明提供一種說話者分離方法,上述說話者分離方法在電腦系統中執行,上述電腦系統包括用於執行記憶體中所包含的電腦可讀指令的至少一個處理器,上述說話者分離方法包括如下的步驟:通過至少一個上述處理器,設定與作為說話者分離對象語音來從客戶端接收的語音檔有關的基準語音;通過至少一個上述處理器,利用上述基準語音執行在上述語音檔中識別上述基準語音的說話者的說話者識別;以及,通過至少一個上述處理器,針對在上述語音檔中未識別到的剩餘說話區間執行利用聚類的說話者分離。
根據一實施方式,在設定上述基準語音的步驟中,可將屬於上述語音檔的說話者中的一部分說話者的標籤包含在內的語音數據被設定為上述基準語音。
根據再一實施方式,在設定上述基準語音的步驟中,可從與上述電腦系統有關的資料庫上預先記錄的說話者語音中選擇屬於上述語音檔的一部分說話者的語音來設定為上述基準語音。
根據另一實施方式,在設定上述基準語音的步驟中,可通過錄製接收屬於上述語音檔的說話者中的一部分說話者的語音並設定為上述基準語音。
根據還有一實施方式,執行上述說話者識別的步驟可包括如下的步驟:在上述語音檔所包含的說話區間中確認與上述基準語音對應的說話區間;以及,在與上述基準語音對應的說話區間匹配上述基準語音的說話者標籤。
根據又一實施方式,在上述確認的步驟中,可基於從上述說話區間中提取的嵌入與從上述基準語音提取的嵌入之間的距離來確定與上述基準語音對應的說話區間。
根據又一實施方式,在上述確認的步驟中,可基於作為對從上述說話區間提取的嵌入進行聚類的結果的嵌入集群與從上述基準語音提取的嵌入之間的距離來確定與上述基準語音對應的說話區間。
根據又一實施方式,在上述確認的步驟中,可基於對從上述說話區間提取的嵌入和從上述基準語音提取的嵌入進行聚類的結果來確認與上述基準語音對應的說話區間。
根據又一實施方式,執行上述說話者分離的步驟可包括如下的步驟:對從上述剩餘說話區間提取的嵌入進行聚類;以及,將集群的索引匹配在上述剩餘說話區間。
根據又一實施方式,上述聚類步驟可包括如下的步驟:以從上述剩餘說話區間提取的嵌入為基礎來計算類似矩陣;對上述類似矩陣執行特徵分解(eigen decomposition)來提取特徵值(eigenvalue);在整列所提取的上述特徵值之後,將以相鄰的特徵值之間的差異為基準來選擇的特徵值的數量確定為集群數量;以及,利用上述類似矩陣和上述集群數量來執行說話者分離聚類。
本發明提供一種電腦可讀記錄介質,上述電腦可讀記錄介質存儲用於在上述電腦系統執行上述說話者分離方法的電腦程式。
本發明提供一種電腦系統,上述電腦系統包括用於執行記憶體中所包含的電腦可讀指令的至少一個處理器,上述至少一個處理器包括:基準設定部,用於設定與作為說話者分離對象語音來從客戶端接收的語音檔有關的基準語音;說話者識別部,利用上述基準語音執行在上述語音檔中識別上述基準語音的說話者的說話者識別;以及,說話者分離部,針對在上述語音檔中未識別到的剩餘說話區間執行利用聚類的說話者分離。
對照先前技術之功效
根據本發明的實施例,是通過結合說話者分離技術和說話者識別技術來改善說話者分離性能。
根據本發明的實施例,是利用包括說話者標籤的基準語音來先執行說話者識別之後再執行說話者分離,由此可提高說話者分離技術的準確度。
以下,參照附圖,詳細說明本發明的實施例。
本發明的實施例涉及結合說話者識別技術的說話者分離技術。
包括本說明書中具體公開的內容的實施例可通過結合說話者分離技術和說話者識別技術來改善說話者分離性能。
圖1為示出本發明一實施例的網路環境的示意圖。圖1的網路環境示出包括多個電子設備110、120、130、140、伺服器150及網路160的實施例。上述圖1為用於說明本發明的一實施例,其中電子設備的數量或伺服器的數量並不局限於圖1。
多個電子設備110、120、130、140可以為通過電腦系統實現的固定型終端或移動終端。例如,多個電子設備110、120、130、140包括智能手機(smart phone)、手機、導航儀、電腦、筆記本電腦、數字廣播終端、個人數據助理(PDA,Personal Digital Assistants)、可攜式多媒體播放器(PMP,Portable Multimedia Player)、平板電腦、遊戲機(game console)、可穿戴設備(wearable device)、物聯網(IoT,internet of things)設備、虛擬現實(VR,virtual reality)設備、增強現實(AR,augmented reality)設備等。作為一實施例,圖1是示出智能手機的形狀作為電子設備110之實施例,但是在本發明的實施例中,電子設備110實質上可以為利用無線或有線通信方式,通過網路160與其他電子設備120、130、140和/或伺服器150進行通信的各種物理電腦系統中的一個。
通信方式並不受限,可包括使用網路160可包括的通信網(例如,移動通信網、有線網路、無線網路、廣播網絡、衛星網路等)的通信方式和多個設備之間的近距離無線通信。例如,網路160可包括個人區域網(PAN,personal area network)、本地網路(LAN,local area network)、校園網(CAN,campus area network)、城域網(MAN,metropolitan area network)、廣域網(WAN,wide area network)、寬頻網(BBN,broadband network)、互聯網等網路中的任意一種以上網路。並且,網路160可包括具有匯流排網路、星型網路、環型網路、網狀網路、星型匯流排網路、樹形網路、分級(hierarchical)網路等的網路拓撲中的任意一種以上,但並不局限於此。
伺服器150可以為通過網路160與多個電子設備110、120、130、140進行通信來提供指令、代碼、檔、內容、服務等的電腦裝置或多個電腦裝置。舉例而言:伺服器150可以為向通過網路160訪問的多個電子設備110、120、130、140提供服務的系統。作為更具體的實施例,伺服器150可通過設置於多個電子設備110、120、130、140來驅動的作為電腦程式的應用,將該應用所需要的服務(如:基於語音識別的人工智慧會議記錄服務等)向多個電子設備110、120、130、140提供。
圖2為用於說明在本發明一實施例中的電腦系統的示意圖。通過圖1說明的伺服器150可通過如圖2所示的電腦系統200實現。
如圖2所示,電腦系統200為用於執行本發明實施例的說話者分離方法的結構要素,可包括記憶體210、處理器220、通信介面230及輸入輸出介面240。
記憶體210作為電腦可讀記錄介質,包括如隨機存取記憶體(RAM,random access memory)、只讀記憶體(ROM,read only memory)、硬碟驅動器等的非易失性大容量存儲裝置(permanent mass storage device)。其中,如只讀記憶體和硬碟驅動器等的非易失性大容量存儲裝置為與記憶體210區分的單獨的永久存儲裝置,可形成在電腦系統200。並且,記憶體210可存儲至少一個程式代碼。這種軟體結構要素可從與記憶體210單獨的電腦可讀記錄介質向記憶體210加載。上述單獨的電腦可讀記錄介質可包括軟碟驅動器、磁片、磁帶、DVD/CD-ROM驅動器、存儲卡等電腦可讀記錄介質。在另一實施例中,軟體結構要素不是通過電腦可讀記錄介質,而是通過通信介面230加載到記憶體210。例如,軟體結構要素可基於通過網路160接收的檔設置的電腦程式加載到電腦系統200的記憶體210。
處理器220執行基本的計算、邏輯及輸入輸出計算,由此可以處理電腦程式的指令。指令可通過記憶體210或通信介面230向處理器220提供。例如,處理器220可根據存儲於如記憶體210的記錄裝置的程式代碼來執行所接收的指令。
通信介面230提供通過網路160來使電腦系統200與其他裝置相互進行通信的功能。作為一實施例,電腦系統200的處理器220可根據通信介面230的控制,通過網路160向其他裝置傳遞根據存儲於如記憶體210的存儲裝置的程式代碼生成的請求、指令、數據、檔等。相反,來自其他裝置的信號、指令、數據、檔等可經過網路160來通過電腦系統200的通信介面230向電腦系統200提供。通過通信介面230接收的信號、指令、數據、檔等可傳遞至處理器220或記憶體210,檔等可存儲於電腦系統200進一步包括的存儲介質(上述永久存儲裝置)存儲。
另,通信方式並不受限,可包括使用網路160的通信網(例如,移動通信網、有線網路、無線網路、廣播網絡、衛星網路等)的通信方式和多個設備之間的近距離無線通信。例如,網路160可包括個人區域網(PAN,personal area network)、本地網路(LAN,local area network)、校園網(CAN,campus area network)、城域網(MAN,metropolitan area network)、廣域網(WAN,wide area network)、寬頻網(BBN,broadband network)、互聯網等網路中的任意一種以上網路。並且,網路160可包括具有匯流排網路、星型網路、環型網路、網狀網路、星型匯流排網路、樹形網路、分級(hierarchical)網路等的網路拓撲中的任意一種以上,但並不局限於此。
輸入輸出介面240為用於輸入輸出裝置250的介面的單元。例如,輸入裝置可包括麥克風、鍵盤、攝像頭或滑鼠等裝置,輸出裝置可包括如顯示器、揚聲器等的裝置。作為另一實施例,輸入輸出介面240也可以為用於與如觸摸屏的用於輸入和輸出的功能集成為一體的裝置的介面的單元。輸入輸出裝置250也可以與電腦系統200配置為一個裝置。
並且,在另一實施例中,電腦系統200可包括比圖2的結構要素更少或更多的結構要素。但是,無需明確示出大部分現有技術的結構要素。例如,電腦系統200包括上述輸入輸出裝置250中的至少一部分,或者還可包括如收發器(transceiver)、攝像頭、各種感測器、資料庫等的其他結構要素。
以下,說明與說話者識別結合的說話者分離方法及系統的具體實施例。
圖3為示出本發明一實施例的電腦系統的處理器可包括的結構要素的示意圖,圖4為示出本發明一實施例的電腦系統可執行的說話者分離方法的流程圖。
本發明實施例的伺服器150起到提供人工智慧服務的服務平臺作用,上述人工智慧服務可通過說話者分離來將會議記錄語音檔整理成文書。
在伺服器150可構成通過電腦系統200實現的說話者分離系統。伺服器150將作為客戶端(client)的多個電子設備110、120、130、140為對象,通過訪問與設置於多個電子設備110、120、130、140上的專用應用或伺服器150有關的網路、移動網站提供基於語音識別的人工智慧會議記錄服務。
尤其,伺服器150可通過結合說話者分離技術和說話者識別技術來改善說話者分離性能。
伺服器150的處理器220為用於執行圖4的說話者分離方法的結構要素,如圖3所示,可包括基準設定部310、說話者識別部320及說話者分離部330。
根據實施例,處理器220的結構要素可選擇性地包括在處理器220或從其排除。並且,根據實施例,處理器220的結構要素為了表現處理器220的功能而可以分離或合併。
這種處理器220及處理器220的結構要素可以控制伺服器150,以執行圖4的說話者分離方法所包括的多個步驟(步驟S410至步驟S430)。例如:處理器220及處理器220的結構要素可以實現為執行基於記憶體210所包括的操作系統的代碼和至少一個程式的代碼的指令(instruction)。
其中,處理器220的結構要素可以為根據存儲於伺服器150的程式代碼所提供的指令,通過處理器220執行的不同功能(different functions)的表現。例如:作為伺服器150以設定基準語音的方式根據上述指令控制伺服器150的處理器220的功能性表現,可以利用基準設定部310。
處理器220可以從加載與伺服器150的控制有關的指令的記憶體210讀取需要的指令。在此情況下,所讀取的上述指令可以包含以執行之後說明的多個步驟(步驟S410至步驟S430)的方式用於進行控制的指令。
之後說明的多個步驟(步驟S410至步驟S430)可以按與圖4所示的順序不同的順序執行,多個步驟(步驟S410至步驟S430)中的一部分可以省略或者還可包括追加過程。
處理器220可從客戶端接收語音檔並在所接收的語音中分離每個說話者的說話區間,並在用於此的說話者分離技術結合說話者識別技術。
參照圖4,在步驟S410中,基準設定部310設定與從客戶端作為說話者分離對象語音接收的語音檔有關的作為基準的說話者語音(以下,稱之為“基準語音”)。基準設定部310將包含在說話者分離對象語音中的說話者中一部分的說話者的語音設定為基準語音,在此情況下,基準語音以可識別說話者識別的方式利用包含每個說話者的說話者標籤的語音數據。作為一實施例,基準設定部310通過單獨錄製接收屬於說話者分離對象語音的說話者的說話語音和對應說話者資訊的標籤並設定為基準語音。在錄音過程中可提供用於對需要錄音的文章或環境等基準語音進行錄音的引導,可將根據引導錄音的語音設定為基準語音。作為另一實施例,基準設定部310作為屬於說話者分離對象語音的說話者的語音,可利用在資料庫上預先記錄的說話者語音來設定基準語音。作為伺服器150的結構要素,實現為包括在伺服器150或與伺服器150單獨的系統,在可以與伺服器150聯動的資料庫上記錄可實現說話者識別的語音,即,包含標籤的語音,基準設定部310從客戶端接收在登錄在(enrolled)資料庫的說話者語音中屬於說話者分離對象語音的一部分說話者的語音並將所選擇的說話者語音設定為基準語音。
在步驟S420中,說話者識別部320利用在步驟S410中設定的基準語音來執行在說話者分離對象語音中識別基準語音的說話者的說話者識別。說話者識別部320可比較包含在說話者分離對象語音的各個說話區間的對應區間與基準語音來確定(verify)與基準語音對應的說話區間之後,在對應區間匹配基準語音的說話者標籤。
在步驟S430中,說話者分離部330可對包含在說話者分離對象語音的說話區間中除識別到說話者的區間之外的剩餘區域執行說話者分離。換句話說,說話者分離部330可對在說話者分離對象語音中,通過說話者識別匹配基準語音的說話者標籤之後剩餘區間執行利用聚類的說話者分離來將集群的索引匹配在對應區間。
圖5示出說話者識別過程的一實施例。
例如,假設預先登錄3名(洪吉童、洪哲珠、洪英姬)說話者語音。
當接收未確認的未知說話者語音501時,說話者識別部320可分別與登錄說話者語音502進行比較來計算與登錄說話者的類似度分數,在此情況下,可將未確認未知說話者語音501識別成類似度分數最高的登錄說話者的語音並匹配對應說話者的標籤。
如圖5所示,在3名(洪吉童、洪哲珠、洪英姬)登錄說話者中,當與洪吉童的類似度分數最高的時,可以將未確認未知說話者語音501識別成洪吉童的語音。
因此,說話者識別技術在登錄說話者中查詢語音最類似的說話者。
圖6示出說話者分離過程的一實施例。
參照圖6,說話者分離部330針對從客戶端接收的說話者分離對象語音601執行終點檢測(EPD,end point detection)過程(步驟S61)。終點檢測去除與無音區間對應的幀的聲音特徵並測定每個幀的能量來僅查詢區分是否為語音/無音的發聲的開始和結束。換句話說,說話者分離部330執行在用於說話者分離的語音檔601中查詢具有語音的區域的終點查詢。
說話者分離部330對終點檢測結果執行嵌入提取過程(步驟S62)。作為一實施例,說話者分離部330可基於深度神經網路或長期短期記憶(Long Short Term Memory,LSTM)等來從終點檢測結果提取說話者嵌入。可根據通過深度學習來學習內置於語音的活體特徵和獨特的個性來將語音向量化,由此,可從語音檔601分離特定說話者的語音。
說話者分離部330利用嵌入提取結果來執行用於說話者分離的聚類(步驟S63)。
說話者分離部330在終點檢測結果中,通過嵌入提取計算類似矩陣(affinity matrix)之後,利用類似矩陣計算集群數量。作為一實施例,說話者分離部330可針對類似矩陣執行特徵分解(eigen decomposition)來提取特徵值(eigenvalue)和特徵向量(eigenvector),根據特徵值大小整列所提取的特徵值並以所整列的特徵值為基礎來確定集群數量。在此情況下,說話者分離部330能夠以在整列的特徵值中相鄰的特徵值之間的差異為基準來將與有效的主要成分對應的特徵值的數量確定為集群數量。特徵值高意味著在類似矩陣中的影響力大,即,意味著當針對語音檔601構成類似矩陣時,具有發生的說話者中的發生比重高。換句話說,說話者分離部330在整列的特徵值中選擇具有充分大的值的特徵值並將特徵值的數量確定為表示說話者數量的集群數量。
說話者分離部330可利用類似矩陣和集群數量來執行說話者分離聚類。說話者分離部330可針對類似矩陣執行特徵分解並基於根據特徵值整列的特徵向量來執行聚類。當從語音檔601提取m個說話者語音區間時,形成包含m×m個元素的矩陣,在此情況下,各個元素表示的Vi,j意味著第i個語音區間與第j個語音區間之間的距離。在此情況下,說話者分離部330可通過選擇上述確定的集群數量的特徵向量的方式執行說話者分離聚類。
作為用於聚類的代表性方法,可以適用凝聚層次聚類(AHC,Agglomerative Hierarchical Clustering)、K-means及譜聚類演算法等。
最後,說話者分離部330可通過在基於聚類的語音區間匹配集群的索引來貼上說話者分離標籤(步驟S64)。當從語音檔601確定3個集群時,說話者分離部330可以將各個集群的索引,例如,A、B、C匹配在對應語音區間。
因此,說話者分離技術在多個說話者混合的語音中利用每個人的獨有語音特徵來分析資訊並劃分為與每個說話者的身份對應的語音片段。例如,說話者分離部330可在從語音檔601檢測到的各個語音區間中提取具有說話者的資訊的特徵之後對說話者的每個語音進行聚類並分離。
本實施例通過結合圖5說明的說話者識別技術和通過圖6說明的說話者分離技術來改善說話者分離性能。
圖7為用於說明本發明一實施例的結合說話者識別的說話者分離過程的示意圖。
參照圖7,處理器220可從客戶端接收作為與說話者分離對象語音601一同登錄的說話者語音的基準語音710。基準語音710可以為包含在說話者分離對象語音的說話者中的一部分說話者(以下,稱之為“登錄說話者”)的語音,可以利用包含每個登錄說話者的說話者標籤702的語音數據701。
說話者識別部320可對說話者分離對象語音601執行終點檢測過程來檢測說話區間之後,可提取每個說話區間的說話者嵌入(步驟S71)。在基準語音710中可包含每個登錄說話者的嵌入或者可在說話者嵌入過程(步驟S71)中一同提取說話者分離對象語音601和基準語音710的說話者嵌入。
說話者識別部320可比較包含在說話者分離對象語音601的每個說話區間的基準語音710和嵌入來確認與基準語音710對應說話區間的說話區間(步驟S72)。在此情況下,說話者識別部320可以對在說話者分離對象語音601中與基準語音710的類似度為設定值以上的說話區間匹配基準語音710的說話者標籤。
說話者分離部330可以在說話者分離對象語音601中通過利用基準語音710的說話者識別區分確認說話者(說話者標籤匹配完成)的說話區間與未確認說話者的說話區間71(步驟S73)。
說話者分離部330針對在說話者分離對象語音601中僅針對未確認到說話者而剩下的說話區間71執行說話者分離聚類(步驟S74)。
說話者分離部330可在基於說話者分離聚類的各個說話區間匹配對應集群的索引來貼上說話者標籤(步驟S75)。
因此,說話者分離部330在說話者分離對象語音601中可針對通過說話者識別匹配基準語音710的說話者標籤而剩下的區間71執行利用聚類的說話者分離來匹配集群的索引。
以下,說明在說話者分離對象語音601中確認與基準語音710對應的說話區間的方法。
作為一實施例,參照圖8,說話者識別部320可在說話者分離對象語音601的各個說話區間,基於所提取的嵌入E(Embedding E)與從基準語音710提取的嵌入S(Embedding S)之間的距離來確認與基準語音710對應的說話區間。例如,當假設基準語音710為說話者A和說話者B的語音時,對與說話者A的嵌入SA的距離的距離為閾值(threshold)以下的嵌入E的說話區間匹配說話者A,對與說話者B的嵌入SB的距離為閾值以下的嵌入E的說話區間匹配說話者B。剩餘區間被分類為未被確認的未知的說話區間。
作為另一實施例,參照圖9,說話者識別部320可基於作為對與各個說話者分離對象語音601的說話區間有關的嵌入進行聚類的結果的嵌入集群(Embedding Cluster)與從基準語音710提取的嵌入S(Embedding S)之間的距離來確認與基準語音710對應的說話區間。例如,當假設對說話者分離對象語音601形成5個集群,基準語音710為說話者A和說話者B的語音時,對與說話者A的嵌入SA的距離為閾值以下的集群①和集群⑤的說話區間匹配說話者A,對與說話者B的嵌入SB的距離為閾值以下的集群③的說話區間匹配說話者B。剩餘區間被分類為未確認的未知的說話區間。
作為另一例,參照圖10,說話者識別部320可對從說話者分離對象語音601的各個說話區間一同聚類所提取的嵌入和從基準語音710提取的嵌入來確認與基準語音710對應的說話區間。例如,當假設基準語音710為說話者A和說話者B的語音時,對說話者A的嵌入SA所屬的集群④的說話區間匹配說話者A,對說話者B的嵌入SB所屬的集群①和集群②匹配說話者B。一同包含說話者A的嵌入SA和說話者B的嵌入SB或者或者均不包含兩個中的一個的剩餘區間被分類為未確認的未知的說話區間。
為了判斷與基準語音710的類似度而可以利用能夠適用於聚類工法的Single、complete、average、weighted、centroid、median、ward等多種距離函數。
通過利用上述確認方法的說話者識別匹配基準語音710的說話者標籤,對匹配後剩餘的說話區間,即,被分類為未知的說話區間的區間執行利用聚類的說話者分離。
如上所述,根據本發明的實施例,可通過結合說話者分離技術和說話者識別技術來改善說話者分離性能。換句話說,可利用包含說話者標籤的基準語音來先執行說話者識別之後,對未識別區間執行說話者分離,由此可提高說話者分離技術的準確度。
上述裝置可以實現為硬體組件、軟體組件和/或硬體組件和軟體組件的組合。例如,實施例中說明的裝置和組件可利用處理器、控制器、算術邏輯單元(ALU,arithmetic logic unit)、數字信號處理器(digital signal processor)、微型電腦(field programmable gate array)、現場可編程門陣列(FPGA,field programmable gate array)、可編程邏輯單元(programmable logic unit)、微型處理器、或如可執行且回應指令的其他任何裝置的一個以上通用電腦或專用電腦來實現。處理裝置可執行操作系統(OS)和在上述操作系統上運行的一個以上軟體應用程式。並且,處理裝置還可回應軟體的執行來訪問、存儲、操作、處理和生成數據。為了便於理解,可將處理裝置說明為使用一個元件,但本領域普通技術人員可以理解,處理裝置包括多個處理元件(processing element)和/或各種類型的處理元件。例如,處理裝置可以包括多個處理器或包括一個處理器和一個控制器。並且,例如並行處理器(parallel processor)的其他處理配置(processing configuration)也是可行的。
軟體可以包括電腦程式(computer program)、代碼(code)、指令(instruction)或它們中的一個以上的組合,並且可以配置處理裝置以根據需要進行操作,或獨立地或共同地(collectively)命令處理裝置。軟體和/或數據可以具體表現(embody)為任何類型的機器、組件(component)、物理裝置、虛擬裝置、電腦存儲介質或裝置,以便由處理裝置解釋或向處理裝置提供指令或數據。軟體可以分佈在聯網的電腦系統上,並以分佈的方式存儲或執行。軟體和數據可以存儲在一個以上的電腦可讀記錄介質中。
根據實施例的方法能夠以可以通過各種電腦裝置執行的程式指令的形式實現,並記錄在電腦可讀介質中。在此情況下,介質可以繼續存儲可通過電腦執行的程式或者為了執行或下載而可以暫時存儲。並且,介質可以為結合單個或多個硬體的形態的多種記錄單元或存儲單元,並不局限於直接連接在一種電腦系統的介質,可以分散存在於網路上。介質的例示包括如硬碟、軟碟及磁帶等的磁性介質,如CD-ROM和DVD等的光學記錄介質,如軟式光碟(floptical disk)等的磁光介質(magneto-optical medium),以及ROM、RAM、閃存等來存儲程式指令。並且,作為介質的例示,還可以包括由流通應用的應用商店或提供或流通各種其他多種軟體的網站以及在伺服器中管理的記錄介質或存儲介質。
如上所述,雖然參考有限的實施例和附圖進行了說明,但本領域技術人員可以根據以上說明進行各種修改和改進。例如,以不同於所述方法的順序執行所述技術,和/或以不同於所述方法的形式結合或組合的所述系統、結構、裝置、電路等的組件,或其他組件或即使被同技術方案代替或替換也能夠達到適當的結果。
因此,其他實施方式、其他實施例和等同於申請專利範圍的內容也屬於本發明的申請專利範圍內。
110、120、130、140:電子設備 150:伺服器 160:網路 200:電腦系統 210:記憶體 220:處理器 230:通信介面 240:輸入輸出介面 250:輸入輸出裝置 310:基準設定部 320:說話者識別部 330:說話者分離部 S410、S420、S430:步驟 501:未知說話者語音 502:登錄說話者語音 601:分離對象語音 S61、S62、S63、S64:步驟 701:語音數據 702:說話者標籤 710:基準語音 71:說話區間 S71、S72、S73、S74、S75:步驟
圖1為示出本發明一實施例網路環境的示意圖; 圖2為本發明一實施例的電腦系統的內部結構的示意圖; 圖3為示出本發明一實施例的電腦系統的處理器可包括的結構要素的示意圖; 圖4為示出本發明一實施例的電腦系統可執行的說話者分離方法的流程圖; 圖5為本發明一實施例的說話者識別過程的示意圖; 圖6為本發明一實施例的說話者分離過程的示意圖; 圖7為本發明一實施例的結合說話者識別的說話者分離過程的示意圖; 圖8至圖10分別為本發明一實施例的確認(verify)與基準語音對應的說話區間的方法的示意圖。
601:分離對象語音
701:語音數據
702:說話者標籤
710:基準語音
71:說話區間
S71、S72、S73、S74、S75:步驟

Claims (20)

  1. 一種說話者分離方法,在一電腦系統中執行,其中,上述電腦系統包括用於執行一記憶體中所包含的一電腦可讀指令的至少一個處理器,上述說話者分離方法包括如下的步驟:通過至少一個上述處理器,設定與作為說話者分離對象語音來從客戶端接收的一語音檔有關的一基準語音;通過至少一個上述處理器,利用上述基準語音執行在上述語音檔中識別上述基準語音的說話者的一說話者識別,其中透過執行上述說話者識別以識別在上述語音檔中複數說話者中的至少一說話者;以及通過至少一個上述處理器,針對在上述語音檔中未識別到的剩餘說話區間執行利用聚類的一說話者分離,而不對其中已識別上述說話者的任何說話區間執行利用聚類的上述說話者分離。
  2. 如請求項1之說話者分離方法,其中,在設定上述基準語音的步驟中,將屬於上述語音檔的說話者中的一部分說話者的標籤包含在內的一語音數據被設定為上述基準語音。
  3. 如請求項1之說話者分離方法,其中,在設定上述基準語音的步驟中,從與上述電腦系統有關的一資料庫上預先記錄的說話者語音中選擇屬於上述語音檔的一部分說話者的語音來設定為上述基準語音。
  4. 如請求項1之說話者分離方法,其中,在設定上述基準語音的步驟中,通過錄製接收屬於上述語音檔的說話者中的一部分說話者的語音並設定為上述基準語音。
  5. 如請求項1之說話者分離方法,其中,執行上述說話者識別的步驟包括如下的步驟: 在上述語音檔所包含的說話區間中確認與上述基準語音對應的一說話區間;以及在與上述基準語音對應的說話區間匹配上述基準語音的一說話者標籤。
  6. 如請求項5之說話者分離方法,其中,在上述確認的步驟中,基於從上述說話區間中提取的嵌入與從上述基準語音提取的嵌入之間的距離來確定與上述基準語音對應的說話區間。
  7. 如請求項5之說話者分離方法,其中,在上述確認的步驟中,基於作為對從上述說話區間提取的嵌入進行聚類的結果的嵌入集群與從上述基準語音提取的嵌入之間的距離來確定與上述基準語音對應的說話區間。
  8. 如請求項5之說話者分離方法,其中,在上述確認的步驟中,基於對從上述說話區間提取的嵌入和從上述基準語音提取的嵌入進行聚類的結果來確認與上述基準語音對應的說話區間。
  9. 如請求項1之說話者分離方法,其中,執行上述說話者分離的步驟包括如下的步驟:對從上述剩餘說話區間提取的嵌入進行聚類;以及將集群的索引匹配在上述剩餘說話區間。
  10. 如請求項9之說話者分離方法,其中,上述聚類步驟包括如下的步驟:以從上述剩餘說話區間提取的嵌入為基礎來計算類似矩陣;對上述類似矩陣執行特徵分解來提取特徵值;在整列所提取的上述特徵值之後,將以相鄰的特徵值之間的差異為基準來選擇的特徵值的數量確定為一集群數量;以及利用上述類似矩陣和上述集群數量來執行說話者分離聚類。
  11. 一種電腦可讀記錄介質,其中,存儲用於在上述電腦系統執行如請求項1之說話者分離方法的電腦程式。
  12. 一種電腦系統,其中,包括用於執行記憶體中所包含的電腦可讀指令的至少一個處理器,上述至少一個處理器包括:一基準設定部,用於設定與作為說話者分離對象語音來從客戶端接收的一語音檔有關的一基準語音;一說話者識別部,利用上述基準語音執行在上述語音檔中識別上述基準語音的說話者的一說話者識別,其中透過執行上述說話者識別以識別在上述語音檔中複數說話者中的至少一說話者;以及一說話者分離部,針對在上述語音檔中未識別到的剩餘說話區間執行利用聚類的一說話者分離,而不對其中已識別上述說話者的任何說話區間執行利用聚類的上述說話者分離。
  13. 如請求項12之電腦系統,其中,在上述基準設定部中,將屬於上述語音檔的說話者中的一部分說話者的標籤包含在內的一語音數據被設定為上述基準語音。
  14. 如請求項12之電腦系統,其中,上述基準設定部從與上述電腦系統有關的一資料庫上預先記錄的說話者語音中選擇屬於上述語音檔的一部分說話者的語音來設定為上述基準語音。
  15. 如請求項12之電腦系統,其中,上述基準設定部通過錄制接收屬於上述語音檔的說話者中的一部分說話者的語音並設定為上述基準語音。
  16. 如請求項12之電腦系統,其中,上述說話者識別部在上述語音檔所包含的說話區間中確認與上述基準語音對應的說話區間,以及在與上述基準語音對應的說話區間匹配上述基準語音的說話者標籤。
  17. 如請求項16之電腦系統,其中,上述說話者識別部基於從上述說話區間中提取的嵌入與從上述基準語音提取的嵌入之間的距離來確定與上述基準語音對應的說話區間。
  18. 如請求項16之電腦系統,其中,上述說話者識別部基於作為對從上述說話區間提取的嵌入進行聚類的結果的嵌入集群與從上述基準語音提取的嵌入之間的距離來確定與上述基準語音對應的說話區間。
  19. 如請求項16之電腦系統,其中,上述說話者識別部基於對從上述說話區間提取的嵌入和從上述基準語音提取的嵌入進行聚類的結果來確認與上述基準語音對應的說話區間。
  20. 如請求項12之電腦系統,其中,上述說話者分離部以從上述剩餘說話區間提取的嵌入為基礎來計算類似矩陣,對上述類似矩陣執行特徵分解來提取特徵值,在整列所提取的上述特徵值之後,將以相鄰的特徵值之間的差異為基準來選擇的特徵值的數量確定為集群數量,利用上述類似矩陣和上述集群數量來執行說話者分離聚類,以及將基於上述說話者分離聚類的集群的索引匹配在上述剩餘說話區間。
TW111100414A 2021-01-15 2022-01-05 與說話者識別結合的說話者分離方法、系統及電腦程式 TWI834102B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0006190 2021-01-15
KR1020210006190A KR102560019B1 (ko) 2021-01-15 2021-01-15 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램

Publications (2)

Publication Number Publication Date
TW202230342A TW202230342A (zh) 2022-08-01
TWI834102B true TWI834102B (zh) 2024-03-01

Family

ID=82405264

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111100414A TWI834102B (zh) 2021-01-15 2022-01-05 與說話者識別結合的說話者分離方法、系統及電腦程式

Country Status (4)

Country Link
US (1) US20220230648A1 (zh)
JP (1) JP7348445B2 (zh)
KR (1) KR102560019B1 (zh)
TW (1) TWI834102B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538481B2 (en) * 2020-03-18 2022-12-27 Sas Institute Inc. Speech segmentation based on combination of pause detection and speaker diarization
KR102560019B1 (ko) * 2021-01-15 2023-07-27 네이버 주식회사 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램
US20230169981A1 (en) * 2021-11-30 2023-06-01 Samsung Electronics Co., Ltd. Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals
KR20240096049A (ko) * 2022-12-19 2024-06-26 네이버 주식회사 화자 분할 방법 및 시스템

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5502791A (en) * 1992-09-29 1996-03-26 International Business Machines Corporation Speech recognition by concatenating fenonic allophone hidden Markov models in parallel among subwords
CN102074234A (zh) * 2009-11-19 2011-05-25 财团法人资讯工业策进会 语音变异模型建立装置、方法及语音辨识***和方法
TW201118854A (en) * 2009-11-17 2011-06-01 Inst Information Industry Method and apparatus for builiding phonetic variation models and speech recognition
US20150025887A1 (en) * 2013-07-17 2015-01-22 Verint Systems Ltd. Blind Diarization of Recorded Calls with Arbitrary Number of Speakers
US20160358599A1 (en) * 2015-06-03 2016-12-08 Le Shi Zhi Xin Electronic Technology (Tianjin) Limited Speech enhancement method, speech recognition method, clustering method and device
CN110570871A (zh) * 2019-09-20 2019-12-13 平安科技(深圳)有限公司 一种基于TristouNet的声纹识别方法、装置及设备

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009109712A (ja) * 2007-10-30 2009-05-21 National Institute Of Information & Communication Technology オンライン話者逐次区別システム及びそのコンピュータプログラム
JP5022387B2 (ja) 2009-01-27 2012-09-12 日本電信電話株式会社 クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4960416B2 (ja) 2009-09-11 2012-06-27 ヤフー株式会社 話者クラスタリング装置および話者クラスタリング方法
US9336780B2 (en) * 2011-06-20 2016-05-10 Agnitio, S.L. Identification of a local speaker
KR101616112B1 (ko) * 2014-07-28 2016-04-27 (주)복스유니버스 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
US10133538B2 (en) 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
US10614832B2 (en) * 2015-09-03 2020-04-07 Earshot Llc System and method for diarization based dialogue analysis
US9584946B1 (en) * 2016-06-10 2017-02-28 Philip Scott Lyren Audio diarization system that segments audio input
JP6594839B2 (ja) 2016-10-12 2019-10-23 日本電信電話株式会社 話者数推定装置、話者数推定方法、およびプログラム
US10559311B2 (en) * 2017-03-31 2020-02-11 International Business Machines Corporation Speaker diarization with cluster transfer
US10811000B2 (en) 2018-04-13 2020-10-20 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for recognizing simultaneous speech by multiple speakers
US10867610B2 (en) * 2018-05-04 2020-12-15 Microsoft Technology Licensing, Llc Computerized intelligent assistant for conferences
CN112262431A (zh) * 2018-09-25 2021-01-22 谷歌有限责任公司 使用说话者嵌入和所训练的生成模型的说话者日志
CN111902865B (zh) 2018-12-03 2024-07-12 谷歌有限责任公司 文本无关的说话者识别
US11031017B2 (en) * 2019-01-08 2021-06-08 Google Llc Fully supervised speaker diarization
JP7458371B2 (ja) 2019-03-18 2024-03-29 富士通株式会社 話者識別プログラム、話者識別方法、および話者識別装置
US20220122615A1 (en) * 2019-03-29 2022-04-21 Microsoft Technology Licensing Llc Speaker diarization with early-stop clustering
JP7222828B2 (ja) 2019-06-24 2023-02-15 株式会社日立製作所 音声認識装置、音声認識方法及び記憶媒体
WO2021045990A1 (en) * 2019-09-05 2021-03-11 The Johns Hopkins University Multi-speaker diarization of audio input using a neural network
KR102396136B1 (ko) 2020-06-02 2022-05-11 네이버 주식회사 멀티디바이스 기반 화자분할 성능 향상을 위한 방법 및 시스템
US11468900B2 (en) * 2020-10-15 2022-10-11 Google Llc Speaker identification accuracy
KR102560019B1 (ko) 2021-01-15 2023-07-27 네이버 주식회사 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5502791A (en) * 1992-09-29 1996-03-26 International Business Machines Corporation Speech recognition by concatenating fenonic allophone hidden Markov models in parallel among subwords
TW201118854A (en) * 2009-11-17 2011-06-01 Inst Information Industry Method and apparatus for builiding phonetic variation models and speech recognition
CN102074234A (zh) * 2009-11-19 2011-05-25 财团法人资讯工业策进会 语音变异模型建立装置、方法及语音辨识***和方法
US20150025887A1 (en) * 2013-07-17 2015-01-22 Verint Systems Ltd. Blind Diarization of Recorded Calls with Arbitrary Number of Speakers
US20160358599A1 (en) * 2015-06-03 2016-12-08 Le Shi Zhi Xin Electronic Technology (Tianjin) Limited Speech enhancement method, speech recognition method, clustering method and device
CN110570871A (zh) * 2019-09-20 2019-12-13 平安科技(深圳)有限公司 一种基于TristouNet的声纹识别方法、装置及设备

Also Published As

Publication number Publication date
JP7348445B2 (ja) 2023-09-21
TW202230342A (zh) 2022-08-01
JP2022109867A (ja) 2022-07-28
KR102560019B1 (ko) 2023-07-27
KR20220103507A (ko) 2022-07-22
US20220230648A1 (en) 2022-07-21

Similar Documents

Publication Publication Date Title
TWI834102B (zh) 與說話者識別結合的說話者分離方法、系統及電腦程式
US11403345B2 (en) Method and system for processing unclear intent query in conversation system
US20220122615A1 (en) Speaker diarization with early-stop clustering
WO2017057921A1 (ko) 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템
JP5681811B2 (ja) 話者認識のためのモデリング・デバイスおよび方法、ならびに話者認識システム
Kiktova-Vozarikova et al. Feature selection for acoustic events detection
US20240185604A1 (en) System and method for predicting formation in sports
WO2021174760A1 (zh) 声纹数据生成方法、装置、计算机装置及存储介质
Chen et al. Music Structural Segmentation by Combining Harmonic and Timbral Information.
Sidiropoulos et al. On the use of audio events for improving video scene segmentation
US20160210988A1 (en) Device and method for sound classification in real time
Cai et al. Unsupervised content discovery in composite audio
Yang et al. Semi-supervised feature selection for audio classification based on constraint compensated Laplacian score
KR102215082B1 (ko) Cnn 기반 이미지 검색 방법 및 장치
JP7453733B2 (ja) マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステム
KR102399673B1 (ko) 어휘 트리에 기반하여 객체를 인식하는 방법 및 장치
CN115240656A (zh) 音频识别模型的训练、音频识别方法、装置和计算机设备
CN113420178A (zh) 一种数据处理方法以及设备
Karlos et al. Speech recognition combining MFCCs and image features
Shen et al. Smart ambient sound analysis via structured statistical modeling
CN110852206A (zh) 一种联合全局特征和局部特征的场景识别方法及装置
Dabbabi et al. Integration of evolutionary computation algorithms and new AUTO-TLBO technique in the speaker clustering stage for speaker diarization of broadcast news
Zhu et al. Feature fusion for image retrieval with adaptive bitrate allocation and hard negative mining
KR102511598B1 (ko) 인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법 및 장치
Cai et al. Unsupervised auditory scene categorization via key audio effects and information-theoretic co-clustering