KR102560019B1 - 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 - Google Patents

화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR102560019B1
KR102560019B1 KR1020210006190A KR20210006190A KR102560019B1 KR 102560019 B1 KR102560019 B1 KR 102560019B1 KR 1020210006190 A KR1020210006190 A KR 1020210006190A KR 20210006190 A KR20210006190 A KR 20210006190A KR 102560019 B1 KR102560019 B1 KR 102560019B1
Authority
KR
South Korea
Prior art keywords
speaker
speech
voice
clustering
computer system
Prior art date
Application number
KR1020210006190A
Other languages
English (en)
Other versions
KR20220103507A (ko
Inventor
권영기
강한용
김유진
김한규
이봉진
장정훈
한익상
허희수
정준선
Original Assignee
네이버 주식회사
웍스모바일재팬 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사, 웍스모바일재팬 가부시키가이샤 filed Critical 네이버 주식회사
Priority to KR1020210006190A priority Critical patent/KR102560019B1/ko
Priority to JP2021189143A priority patent/JP7348445B2/ja
Priority to TW111100414A priority patent/TWI834102B/zh
Priority to US17/576,492 priority patent/US20220230648A1/en
Publication of KR20220103507A publication Critical patent/KR20220103507A/ko
Application granted granted Critical
Publication of KR102560019B1 publication Critical patent/KR102560019B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Pinball Game Machines (AREA)
  • Telephone Function (AREA)

Abstract

화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램이 개시된다. 화자 분리 방법은, 클라이언트로부터 화자 분리 대상 음성으로 수신된 음성 파일과 관련하여 기준 음성을 설정하는 단계; 상기 기준 음성을 이용하여 상기 음성 파일에서 상기 기준 음성의 화자를 식별하는 화자 식별을 수행하는 단계; 및 상기 음성 파일에서 식별되지 않은 나머지 발화 구간에 대해 클러스터링을 이용한 화자 분리를 수행하는 단계를 포함한다.

Description

화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램{METHOD, COMPUTER DEVICE, AND COMPUTER PROGRAM FOR SPEAKER DIARIZATION COMBINED WITH SPEAKER IDENTIFICATION}
아래의 설명은 화자 분리(speaker diarization) 기술에 관한 것이다.
화자 분리란, 다수의 화자가 발화한 내용을 녹음한 음성 파일로부터 각 화자 별로 발화 구간을 분리하는 기술이다.
화자 분리 기술은 오디오 데이터로부터 화자 경계 구간을 검출하는 것으로, 화자에 대한 선행 지식 사용 여부에 따라 거리 기반 방식과 모델 기반 방식으로 나뉠 수 있다.
예컨대, 한국공개특허 제10-2020-0036820호(공개일 2020년 04월 07일)에는 화자의 위치를 추적하여 입력 음향에서 화자 위치 정보를 기반으로 화자의 음성을 분리하는 기술이 개시되어 있다.
이러한 화자 분리 기술은 회의, 인터뷰, 거래, 재판 등 여러 화자가 일정한 순서 없이 발화하는 상황에서 발화 내용을 화자 별로 분리하여 자동 기록하는 제반 기술로 회의록 자동 작성 등에 활용될 수 있다.
화자 분리 기술에 화자 식별 기술을 결합하여 화자 분리 성능을 개선할 수 있는 방법 및 시스템을 제공한다.
화자 레이블(speaker label)이 포함된 기준 음성을 이용하여 화자 식별을 먼저 수행한 다음 화자 분리를 수행할 수 있는 방법 및 시스템을 제공한다.
컴퓨터 시스템에서 실행되는 화자 분리 방법에 있어서, 상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 화자 분리 방법은, 상기 적어도 하나의 프로세서에 의해, 클라이언트로부터 화자 분리 대상 음성으로 수신된 음성 파일과 관련하여 기준 음성을 설정하는 단계; 상기 적어도 하나의 프로세서에 의해, 상기 기준 음성을 이용하여 상기 음성 파일에서 상기 기준 음성의 화자를 식별하는 화자 식별을 수행하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 상기 음성 파일에서 식별되지 않은 나머지 발화 구간에 대해 클러스터링을 이용한 화자 분리를 수행하는 단계를 포함하는 화자 분리 방법을 제공한다.
일 측면에 따르면, 상기 기준 음성을 설정하는 단계는, 상기 음성 파일에 속한 화자 중 일부 화자의 레이블이 포함된 음성 데이터를 상기 기준 음성으로 설정할 수 있다.
다른 측면에 따르면, 상기 기준 음성을 설정하는 단계는, 상기 컴퓨터 시스템과 관련된 데이터베이스 상에 사전 기록된 화자 음성 중에서 상기 음성 파일에 속한 일부 화자의 음성을 선택 받아 상기 기준 음성으로 설정할 수 있다.
또 다른 측면에 따르면, 상기 기준 음성을 설정하는 단계는, 녹음을 통해 상기 음성 파일에 속한 화자 중 일부 화자의 음성을 입력 받아 상기 기준 음성으로 설정할 수 있다.
또 다른 측면에 따르면, 상기 화자 식별을 수행하는 단계는, 상기 음성 파일에 포함된 발화 구간 중 상기 기준 음성과 대응되는 발화 구간을 확인하는 단계; 및 상기 기준 음성과 대응되는 발화 구간에 상기 기준 음성의 화자 레이블을 매핑하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 확인하는 단계는, 상기 발화 구간에서 추출된 임베딩과 상기 기준 음성에서 추출된 임베딩 간의 거리를 기반으로 상기 기준 음성과 대응되는 발화 구간을 확인할 수 있다.
또 다른 측면에 따르면, 상기 확인하는 단계는, 상기 발화 구간에서 추출된 임베딩을 클러스터링한 결과인 임베딩 클러스터와 상기 기준 음성에서 추출된 임베딩 간의 거리를 기반으로 상기 기준 음성과 대응되는 발화 구간을 확인할 수 있다.
또 다른 측면에 따르면, 상기 확인하는 단계는, 상기 발화 구간에서 추출된 임베딩과 함께 상기 기준 음성에서 추출된 임베딩을 클러스터링한 결과를 기반으로 상기 기준 음성과 대응되는 발화 구간을 확인할 수 있다.
또 다른 측면에 따르면, 상기 화자 분리를 수행하는 단계는, 상기 나머지 발화 구간에서 추출된 임베딩을 클러스터링하는 단계; 및 클러스터의 인덱스를 상기 나머지 발화 구간에 매핑하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 클러스터링하는 단계는, 상기 나머지 발화 구간에서 추출된 임베딩을 기초로 유사도 행렬을 계산하는 단계; 상기 유사도 행렬에 대해 고유값 분해(eigen decomposition)를 수행하여 고유값(eigenvalue)을 추출하는 단계; 상기 추출된 고유값을 정렬한 후 인접한 고유값 간의 차이를 기준으로 선택된 고유값의 개수를 클러스터 수로 결정하는 단계; 및 상기 유사도 행렬과 상기 클러스터 수를 이용하여 화자 분리 클러스터링을 수행하는 단계를 포함할 수 있다.
상기 화자 분리 방법을 상기 컴퓨터 시스템에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램을 제공한다.
컴퓨터 시스템에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 클라이언트로부터 화자 분리 대상 음성으로 수신된 음성 파일과 관련하여 기준 음성을 설정하는 기준 설정부; 상기 기준 음성을 이용하여 상기 음성 파일에서 상기 기준 음성의 화자를 식별하는 화자 식별을 수행하는 화자 식별부; 및 상기 음성 파일에서 식별되지 않은 나머지 발화 구간에 대해 클러스터링을 이용한 화자 분리를 수행하는 화자 분리부를 포함하는 컴퓨터 시스템을 제공한다.
본 발명의 실시예들에 따르면, 화자 분리 기술에 화자 식별 기술을 결합하여 화자 분리 성능을 개선할 수 있다.
본 발명의 실시예들에 따르면, 화자 레이블이 포함된 기준 음성을 이용하여 화자 식별을 먼저 수행한 다음 화자 분리를 수행함으로써 화자 분리 기술의 정확도를 향상시킬 수 있다.
도 1은 본 발명의 일실시예에 따른 네트워크 환경의 예를 도시한 도면이다.
도 2는 본 발명의 일실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 3은 본 발명의 일실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 컴퓨터 시스템이 수행할 수 있는 화자 분리 방법의 예를 도시한 순서도이다.
도 5는 본 발명의 일실시예에 있어서 화자 식별 과정을 설명하기 위한 예시 도면이다.
도 6은 본 발명의 일실시예에 있어서 화자 분리 과정을 설명하기 위한 예시 도면이다.
도 7은 본 발명의 일실시예에 있어서 화자 식별이 결합된 화자 분리 과정을 설명하기 위한 예시 도면이다.
도 8 내지 도 10은 본 발명의 일실시예에 있어서 기준 음성과 대응되는 발화 구간을 확인하는(verify) 방법을 설명하기 위한 예시 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명의 실시예들은 화자 식별 기술이 결합된 화자 분리 기술에 관한 것이다.
본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 화자 분리 기술에 화자 식별 기술을 결합하여 화자 분리 성능을 개선할 수 있다.
도 1은 본 발명의 일실시예에 따른 네트워크 환경의 예를 도시한 도면이다. 도 1의 네트워크 환경은 복수의 전자 기기들(110, 120, 130, 140), 서버(150), 및 네트워크(160)를 포함하는 예를 나타내고 있다. 이러한 도 1은 발명의 설명을 위한 일례로 전자 기기의 수나 서버의 수가 도 1과 같이 한정되는 것은 아니다.
복수의 전자 기기들(110, 120, 130, 140)은 컴퓨터 시스템으로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 복수의 전자 기기들(110, 120, 130, 140)의 예를 들면, 스마트폰(smart phone), 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 태블릿 PC, 게임 콘솔(game console), 웨어러블 디바이스(wearable device), IoT(internet of things) 디바이스, VR(virtual reality) 디바이스, AR(augmented reality) 디바이스 등이 있다. 일례로 도 1에서는 전자 기기(110)의 예로 스마트폰의 형상을 나타내고 있으나, 본 발명의 실시예들에서 전자 기기(110)는 실질적으로 무선 또는 유선 통신 방식을 이용하여 네트워크(160)를 통해 다른 전자 기기들(120, 130, 140) 및/또는 서버(150)와 통신할 수 있는 다양한 물리적인 컴퓨터 시스템들 중 하나를 의미할 수 있다.
통신 방식은 제한되지 않으며, 네트워크(160)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망, 위성망 등)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(160)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(160)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
서버(150)는 복수의 전자 기기들(110, 120, 130, 140)과 네트워크(160)를 통해 통신하여 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다. 예를 들어, 서버(150)는 네트워크(160)를 통해 접속한 복수의 전자 기기들(110, 120, 130, 140)로 목적하는 서비스를 제공하는 시스템일 수 있다. 보다 구체적인 예로, 서버(150)는 복수의 전자 기기들(110, 120, 130, 140)에 설치되어 구동되는 컴퓨터 프로그램으로서의 어플리케이션을 통해, 해당 어플리케이션이 목적하는 서비스(일례로, 음성인식 기반 인공지능 회의록 서비스 등)를 복수의 전자 기기들(110, 120, 130, 140)로 제공할 수 있다.
도 2는 본 발명의 일실시예에 따른 컴퓨터 시스템의 예를 도시한 블록도이다. 도 1을 통해 설명한 서버(150)는 도 2와 같이 구성된 컴퓨터 시스템(200)에 의해 구현될 수 있다.
도 2에 도시된 바와 같이 컴퓨터 시스템(200)은 본 발명의 실시예들에 따른 화자 분리 방법을 실행하기 위한 구성요소로서, 메모리(210), 프로세서(220), 통신 인터페이스(230) 그리고 입출력 인터페이스(240)를 포함할 수 있다.
메모리(210)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(210)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 시스템(200)에 포함될 수도 있다. 또한, 메모리(210)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(210)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(210)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(230)를 통해 메모리(210)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(160)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 시스템(200)의 메모리(210)에 로딩될 수 있다.
프로세서(220)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(210) 또는 통신 인터페이스(230)에 의해 프로세서(220)로 제공될 수 있다. 예를 들어 프로세서(220)는 메모리(210)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.
통신 인터페이스(230)는 네트워크(160)를 통해 컴퓨터 시스템(200)이 다른 장치와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 시스템(200)의 프로세서(220)가 메모리(210)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(230)의 제어에 따라 네트워크(160)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(160)를 거쳐 컴퓨터 시스템(200)의 통신 인터페이스(230)를 통해 컴퓨터 시스템(200)으로 수신될 수 있다. 통신 인터페이스(230)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(220)나 메모리(210)로 전달될 수 있고, 파일 등은 컴퓨터 시스템(200)이 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.
통신 방식은 제한되지 않으며, 네트워크(160)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 유선/무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(160)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(160)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
입출력 인터페이스(240)는 입출력 장치(250)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드, 카메라 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(240)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(250)는 컴퓨터 시스템(200)과 하나의 장치로 구성될 수도 있다.
또한, 다른 실시예들에서 컴퓨터 시스템(200)은 도 2의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 시스템(200)은 상술한 입출력 장치(250) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.
이하에서는 화자 식별과 결합된 화자 분리 방법 및 시스템의 구체적인 실시예를 설명하기로 한다.
도 3은 본 발명의 일실시예에 따른 서버의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 블록도이고, 도 4는 본 발명의 일실시예에 따른 서버가 수행할 수 있는 방법의 예를 도시한 흐름도이다.
본 실시예에 따른 서버(150)는 회의록 음성 파일을 화자 분리를 통해 문서로 정리할 수 있는 인공지능 서비스를 제공하는 서비스 플랫폼 역할을 한다.
서버(150)에는 컴퓨터 시스템(200)으로 구현된 화자 분리 시스템이 구성될 수 있다. 서버(150)는 클라이언트(client)인 복수의 전자 기기들(110, 120, 130, 140)을 대상으로 하는 것으로, 전자 기기들(110, 120, 130, 140) 상에 설치된 전용 어플리케이션이나 서버(150)와 관련된 웹/모바일 사이트 접속을 통해 음성인식 기반 인공지능 회의록 서비스를 제공할 수 있다.
특히, 서버(150)는 화자 분리 기술에 화자 식별 기술을 결합하여 화자 분리 성능을 개선할 수 있다.
서버(150)의 프로세서(220)는 도 4에 따른 화자 분리 방법을 수행하기 위한 구성요소로서 도 3에 도시된 바와 같이, 기준 설정부(310), 화자 식별부(320), 및 화자 분리부(330)를 포함할 수 있다.
실시예에 따라 프로세서(220)의 구성요소들은 선택적으로 프로세서(220)에 포함되거나 제외될 수도 있다. 또한, 실시예에 따라 프로세서(220)의 구성요소들은 프로세서(220)의 기능의 표현을 위해 분리 또는 병합될 수도 있다.
이러한 프로세서(220) 및 프로세서(220)의 구성요소들은 도 4의 화자 분리 방법이 포함하는 단계들(S410 내지 S430)을 수행하도록 서버(150)를 제어할 수 있다. 예를 들어, 프로세서(220) 및 프로세서(220)의 구성요소들은 메모리(210)가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.
여기서, 프로세서(220)의 구성요소들은 서버(150)에 저장된 프로그램 코드가 제공하는 명령에 따라 프로세서(220)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 서버(150)가 기준 음성을 설정하도록 상술한 명령에 따라 서버(150)를 제어하는 프로세서(220)의 기능적 표현으로서 기준 설정부(310)가 이용될 수 있다.
프로세서(220)는 서버(150)의 제어와 관련된 명령이 로딩된 메모리(210)로부터 필요한 명령을 읽어들일 수 있다. 이 경우, 상기 읽어들인 명령은 프로세서(220)가 이후 설명될 단계들(S410 내지 S430)을 실행하도록 제어하기 위한 명령을 포함할 수 있다.
이후 설명될 단계들(S410 내지 S430)은 도 4에 도시된 순서와 다른 순서로 수행될 수 있으며, 단계들(S410 내지 S430) 중 일부가 생략되거나 추가의 과정이 더 포함될 수 있다.
프로세서(220)는 클라이언트로부터 음성 파일을 수신하여 수신된 음성에서 각 화자 별로 발화 구간을 분리할 수 있으며, 이를 위한 화자 분리 기술에 화자 식별 기술을 결합하는 것이다.
도 4를 참조하면, 단계(S410)에서 기준 설정부(310)는 클라이언트로부터 화자 분리 대상 음성으로 수신된 음성 파일과 관련하여 기준이 되는 화자 음성(이하, '기준 음성'이라 칭함)을 설정할 수 있다. 기준 설정부(310)는 화자 분리 대상 음성에 포함된 화자 중 일부 화자의 음성을 기준 음성으로 설정할 수 있으며, 이때 기준 음성은 화자 식별이 가능하도록 화자 별로 화자 레이블이 포함된 음성 데이터를 이용할 수 있다. 일례로, 기준 설정부(310)는 별도 녹음을 통해 화자 분리 대상 음성에 속한 화자의 발화 음성과 해당 화자 정보를 포함하는 레이블을 입력 받아 기준 음성으로 설정할 수 있다. 녹음 과정에서는 녹음할 문장이나 환경 등 기준 음성 녹음을 위한 가이드를 제공할 수 있으며, 가이드에 따라 녹음된 음성을 기준 음성으로 설정할 수 있다. 다른 예로, 기준 설정부(310)는 화자 분리 대상 음성에 속한 화자의 음성으로서 데이터베이스 상에 사전 기록된 화자 음성을 이용하여 기준 음성을 설정할 수 있다. 서버(150)의 구성요소로 서버(150)에 포함되거나 서버(150)와 별개의 시스템으로 구현되어 서버(150)와 연동이 가능한 데이터베이스 상에 화자 식별이 가능한 음성, 즉 레이블이 포함된 음성이 기록될 수 있으며, 기준 설정부(310)는 클라이언트로부터 데이터베이스에 등록된(enrolled) 화자 음성 중에서 화자 분리 대상 음성에 속한 일부 화자의 음성을 선택 받아 선택된 화자 음성을 기준 음성으로 설정할 수 있다.
단계(S420)에서 화자 식별부(320)는 단계(S410)에서 설정된 기준 음성을 이용하여 화자 분리 대상 음성에서 기준 음성의 화자를 식별하는 화자 식별을 수행할 수 있다. 화자 식별부(320)는 화자 분리 대상 음성에 포함된 각 발화 구간 별로 해당 구간을 기준 음성과 비교함으로써 기준 음성과 대응되는 발화 구간을 확인한(verify) 후 해당 구간에 기준 음성의 화자 레이블을 매핑할 수 있다.
단계(S430)에서 화자 분리부(330)는 화자 분리 대상 음성에 포함된 발화 구간 중 화자가 식별된 구간 이외에 나머지 구간에 대해 화자 분리를 수행할 수 있다. 다시 말해, 화자 분리부(330)는 화자 분리 대상 음성에서 화자 식별을 통해 기준 음성의 화자 레이블이 매핑되고 남은 구간에 대해 클러스터링을 이용한 화자 분리를 수행하여 클러스터의 인덱스를 해당 구간에 매핑할 수 있다.
도 5는 화자 식별 과정의 일례를 도시한 것이다.
예를 들어, 3명(홍길동, 홍철수, 홍영희)의 화자 음성이 사전 등록되어 있다고 가정한다.
화자 식별부(320)는 확인되지 않은 미지의 화자 음성(501)이 수신되는 경우 등록 화자 음성(502)과 각각 비교하여 등록 화자와의 유사도 점수를 계산할 수 있으며, 이때 미확인 화자 음성(501)을 유사도 점수가 가장 높은 등록 화자의 음성으로 식별하여 해당 화자의 레이블을 매핑할 수 있다.
도 5에 도시한 바와 같이, 3명(홍길동, 홍철수, 홍영희)의 등록 화자 중에서 홍길동과의 유사도 점수가 가장 높은 경우 미확인 화자 음성(501)을 홍길동의 음성으로 식별할 수 있다.
따라서, 화자 식별 기술은 등록 화자 중에서 음성이 가장 유사한 화자를 찾는 것이다.
도 6은 화자 분리 과정의 일례를 도시한 것이다.
도 6을 참조하면, 화자 분리부(330)는 클라이언트로부터 수신된 화자 분리 대상 음성(601)에 대해 EPD(end point detection) 과정을 수행한다(S61). EPD는 무음 구간에 해당하는 프레임의 음향 특징을 제거하고 각 프레임 별 에너지를 측정하여 음성/무음 여부를 구분한 발성의 시작과 끝만 찾는 것이다. 다시 말해, 화자 분리부(330)는 화자 분리를 위한 음성 파일(601)에서 음성이 있는 영역을 찾아내는 EPD를 수행한다.
화자 분리부(330)는 EPD 결과에 대해 임베딩 추출 과정을 수행한다(S62). 일례로, 화자 분리부(330)는 심층 신경망이나 Long Short Term Memory(LSTM) 등을 기반으로 EPD 결과로부터 화자 임베딩을 추출할 수 있다. 음성에 내재된 생체 특성과 독특한 개인성을 딥러닝으로 학습함에 따라 음성을 벡터화할 수 있으며, 이를 통해 음성 파일(601)로부터 특정 화자의 음성을 분리해낼 수 있다.
화자 분리부(330)는 임베딩 추출 결과를 이용하여 화자 분리를 위한 클러스터링을 수행한다(S63).
화자 분리부(330)는 EPD 결과에서 임베딩 추출을 통해 유사도 행렬(affinity matrix)을 계산한 후 유사도 행렬을 이용하여 클러스터 수를 계산한다. 일례로, 화자 분리부(330)는 유사도 행렬에 대해 고유값 분해(eigen decomposition)를 수행하여 고유값(eigenvalue)과 고유벡터(eigenvector)를 추출할 수 있고, 추출된 고유값을 고유값 크기에 따라 정렬하여 정렬된 고유값을 바탕으로 클러스터 수를 결정할 수 있다. 이때, 화자 분리부(330)는 정렬된 고유값에서 인접한 고유값 간의 차이를 기준으로 유효한 주성분에 해당되는 고유값의 개수를 클러스터 수로 결정할 수 있다. 고유값이 높다는 것은 유사도 행렬에서 영향력이 크다는 것을 의미하는 것으로, 즉 음성 파일(601)에 대해 유사도 행렬을 구성할 때 발성이 있는 화자 중 발성 비중이 높다는 것을 의미한다. 다시 말해, 화자 분리부(330)는 정렬된 고유값 중에서 충분히 큰 값을 가진 고유값을 선택하여 선택된 고유값의 개수를 화자 수를 나타내는 클러스터 수로 결정할 수 있다.
화자 분리부(330)는 유사도 행렬과 함께 클러스터 수를 이용하여 화자 분리 클러스터링을 수행할 수 있다. 화자 분리부(330)는 유사도 행렬에 대해 고유값 분해를 수행하여 고유값에 따라 정렬된 고유벡터를 기반으로 클러스터링을 수행할 수 있다. 음성 파일(601)에서 m개의 화자 음성 구간이 추출되는 경우 m×m개의 엘리멘트를 포함하는 행렬이 만들어지고, 이때 각 엘리먼트를 나타내는 vi,j는 i번째 음성 구간과 j번째 음성 구간 간의 거리를 의미한다. 이때, 화자 분리부(330)는 앞서 결정된 클러스터 수만큼 고유벡터를 선택하는 방식으로 화자 분리 클러스터링을 수행할 수 있다.
클러스터링을 위한 대표적인 방법으로 AHC(Agglomerative Hierarchical Clustering), K-means, 그리고 스펙트럼 군집화 알고리즘 등이 적용될 수 있다.
마지막으로, 화자 분리부(330)는 클러스터링에 따른 음성 구간에 클러스터의 인덱스를 매핑함으로써 화자 분리 레이블링할 수 있다(S64). 화자 분리부(330)는 음성 파일(601)로부터 3개의 클러스터가 결정되는 경우 각 클러스터의 인덱스, 예를 들어 A, B, C를 해당 음성 구간에 매핑할 수 있다.
따라서, 화자 분리 기술은 여러 화자가 섞여 있는 음성에서 사람마다 고유한 음성 특징을 이용해 정보를 분석하여 각 화자의 신원에 대응되는 음성 조각으로 분할하는 것이다. 요컨대, 화자 분리부(330)는 음성 파일(601)에서 검출된 각 음성 구간에서 화자의 정보를 담고 있는 특징을 추출한 후 화자 별 음성으로 클러스터링하여 분리할 수 있다.
본 실시예들은 도 5를 통해 설명한 화자 식별 기술과 도 6을 통해 설명한 화자 분리 기술을 결합하여 화자 분리 성능을 개선하고자 하는 것이다.
도 7은 본 발명의 일실시예에 있어서 화자 식별이 결합된 화자 분리 과정의 일례를 도시한 것이다.
도 7을 참조하면, 프로세서(220)는 클라이언트로부터 화자 분리 대상 음성(601)과 함께 등록된 화자 음성인 기준 음성(710)을 수신할 수 있다. 기준 음성(710)은 화자 분리 대상 음성에 포함된 화자 중 일부 화자(이하, '등록 화자'라 칭함)의 음성일 수 있으며, 각 등록 화자 별로 화자 레이블(702)이 포함된 음성 데이터(701)를 이용할 수 있다.
화자 식별부(320)는 화자 분리 대상 음성(601)에 대해 EPD 과정을 수행하여 발화 구간을 검출한 후 각 발화 구간 별로 화자 임베딩을 추출할 수 있다(S71). 기준 음성(710)에는 등록 화자 별 임베딩이 포함되어 있거나 혹은 화자 임베딩 과정(S71)에서 화자 분리 대상 음성(601)과 함께 기준 음성(710)의 화자 임베딩을 추출할 수 있다.
화자 식별부(320)는 화자 분리 대상 음성(601)에 포함된 각 발화 구간 별로 기준 음성(710)과 임베딩을 비교하여 기준 음성(710)과 대응되는 발화 구간을 확인할 수 있다(S72). 이때, 화자 식별부(320)는 화자 분리 대상 음성(601)에서 기준 음성(710)과의 유사도가 설정 값 이상인 발화 구간에 기준 음성(710)의 화자 레이블을 매핑할 수 있다.
화자 분리부(330)는 화자 분리 대상 음성(601)에서 기준 음성(710)을 이용한 화자 식별을 통해 화자가 확인된(화자 레이블 매핑이 완료된) 발화 구간과 화자가 확인되지 않고 남은 발화 구간(71)을 구분할 수 있다(S73).
화자 분리부(330)는 화자 분리 대상 음성(601)에서 화자가 확인되지 않고 남은 발화 구간(71)에 대해서만 화자 분리 클러스터링을 수행한다(S74).
화자 분리부(330)는 화자 분리 클러스터링에 따른 각 발화 구간에 해당 클러스터의 인덱스를 매핑함으로써 화자 레이블링을 완성할 수 있다(S75).
따라서, 화자 분리부(330)는 화자 분리 대상 음성(601)에서 화자 식별을 통해 기준 음성(710)의 화자 레이블이 매핑되고 남은 구간(71)에 대해 클러스터링을 이용한 화자 분리를 수행하여 클러스터의 인덱스를 매핑할 수 있다.
이하에서는 화자 분리 대상 음성(601)에서 기준 음성(710)과 대응되는 발화 구간을 확인하는 방법을 설명하기로 한다.
일례로, 도 8을 참조하면 화자 식별부(320)는 화자 분리 대상 음성(601)의 각 발화 구간에 추출된 임베딩(Embedding E)과 기준 음성(710)에서 추출된 임베딩(Embedding S) 간 거리를 기반으로 기준 음성(710)과 대응되는 발화 구간을 확인할 수 있다. 예를 들어, 기준 음성(710)이 화자 A와 화자 B의 음성이라 가정할 때, 화자 A의 Embedding SA와의 거리가 임계 값(threshold) 이하인 Embedding E의 발화 구간에 대해서는 화자 A를 매핑하고, 화자 B의 Embedding SB와의 거리가 임계 값 이하인 Embedding E의 발화 구간에 대해서는 화자 B를 매핑한다. 나머지 구간은 확인되지 않은 미지의 발화 구간으로 분류된다.
다른 예로, 도 9를 참조하면 화자 식별부(320)는 화자 분리 대상 음성(601)의 각 발화 구간에 대한 임베딩을 클러스터링한 결과인 임베딩 클러스터(Embedding Cluster)와 기준 음성(710)에서 추출된 임베딩(Embedding S) 간 거리를 기반으로 기준 음성(710)과 대응되는 발화 구간을 확인할 수 있다. 예를 들어, 화자 분리 대상 음성(601)에 대해 5개의 클러스터가 형성되고 기준 음성(710)이 화자 A와 화자 B의 음성이라 가정할 때, 화자 A의 Embedding SA와의 거리가 임계 값 이하인 클러스터 ①과 ⑤의 발화 구간에 대해서는 화자 A를 매핑하고, 화자 B의 임베딩 Embedding SB와의 거리가 임계 값 이하인 클러스터 ③의 발화 구간에 대해서는 화자 B를 매핑한다. 나머지 구간은 확인되지 않은 미지의 발화 구간으로 분류된다.
또 다른 예로, 도 10을 참조하면 화자 식별부(320)는 화자 분리 대상 음성(601)의 각 발화 구간에 추출된 임베딩과 기준 음성(710)에서 추출된 임베딩을 함께 클러스터링하여 기준 음성(710)과 대응되는 발화 구간을 확인할 수 있다. 예를 들어, 기준 음성(710)이 화자 A와 화자 B의 음성이라 가정할 때, 화자 A의 Embedding SA가 속한 클러스터 ④의 발화 구간에 대해서는 화자 A를 매핑하고, 화자 B의 임베딩 Embedding SB가 속한 클러스터 ①과 ②에 대해서는 화자 B를 매핑한다. 화자 A의 Embedding SA와 화자 B의 임베딩 Embedding SB가 공통으로 포함되거나 둘 중 하나도 포함되지 않은 나머지 구간은 확인되지 않은 미지의 발화 구간으로 분류된다.
기준 음성(710)과의 유사도를 판단하기 위해서는 클러스터링 기법에 적용 가능한 Single, complete, average, weighted, centroid, median, ward 등 다양한 거리 함수를 이용할 수 있다.
상기한 확인 방식을 이용한 화자 식별을 통해 기준 음성(710)의 화자 레이블이 매핑되고 남은 발화 구간, 즉 미지의 발화 구간으로 분류된 구간에 대해 클러스터링을 이용한 화자 분리를 수행한다.
이처럼 본 발명의 실시예들에 따르면, 화자 분리 기술에 화자 식별 기술을 결합하여 화자 분리 성능을 개선할 수 있다. 다시 말해, 화자 레이블이 포함된 기준 음성을 이용하여 화자 식별을 먼저 수행한 다음, 미식별 구간에 대해 화자 분리를 수행함으로써 화자 분리 기술의 정확도를 향상시킬 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 컴퓨터 시스템에서 실행되는 화자 분리 방법에 있어서,
    상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
    상기 화자 분리 방법은,
    상기 적어도 하나의 프로세서에 의해, 클라이언트로부터 화자 분리 대상 음성으로 수신된 음성 파일과 관련하여 기준 음성을 설정하는 단계;
    상기 적어도 하나의 프로세서에 의해, 상기 기준 음성을 이용하여 상기 음성 파일에서 상기 기준 음성의 화자를 식별하는 화자 식별을 수행하는 단계; 및
    상기 적어도 하나의 프로세서에 의해, 상기 음성 파일에서 식별되지 않은 나머지 발화 구간에 대해 클러스터링을 이용한 화자 분리를 수행하는 단계
    를 포함하고,
    상기 화자 식별을 수행하는 단계는,
    상기 음성 파일에서 복수 개의 발화 구간을 검출하는 단계;
    상기 음성 파일에 포함된 복수 개의 발화 구간 중 상기 기준 음성과 대응되는 발화 구간을 확인하는 단계; 및
    상기 기준 음성과 대응되는 발화 구간에 상기 기준 음성의 화자 레이블을 매핑하는 단계
    를 포함하고,
    상기 화자 분리를 수행하는 단계는,
    상기 음성 파일에서 상기 화자 식별을 통해 화자가 식별된 발화 구간과 화자가 식별되지 않고 남은 상기 나머지 발화 구간을 구분하는 단계;
    상기 음성 파일에 포함된 복수 개의 발화 구간 중 상기 나머지 발화 구간에 대해 화자 분리 클러스터링을 수행하는 단계; 및
    상기 화자 분리 클러스터링에 따른 클러스터의 인덱스를 상기 나머지 발화 구간에 매핑하는 단계
    를 포함하는 화자 분리 방법.
  2. 제1항에 있어서,
    상기 기준 음성을 설정하는 단계는,
    상기 음성 파일에 속한 화자 중 일부 화자의 레이블이 포함된 음성 데이터를 상기 기준 음성으로 설정하는 것
    을 특징으로 하는 화자 분리 방법.
  3. 제1항에 있어서,
    상기 기준 음성을 설정하는 단계는,
    상기 컴퓨터 시스템과 관련된 데이터베이스 상에 사전 기록된 화자 음성 중에서 상기 음성 파일에 속한 일부 화자의 음성을 선택 받아 상기 기준 음성으로 설정하는 것
    을 특징으로 하는 화자 분리 방법.
  4. 제1항에 있어서,
    상기 기준 음성을 설정하는 단계는,
    녹음을 통해 상기 음성 파일에 속한 화자 중 일부 화자의 음성을 입력 받아 상기 기준 음성으로 설정하는 것
    을 특징으로 하는 화자 분리 방법.
  5. 삭제
  6. 제1항에 있어서,
    상기 확인하는 단계는,
    상기 발화 구간에서 추출된 임베딩과 상기 기준 음성에서 추출된 임베딩 간의 거리를 기반으로 상기 기준 음성과 대응되는 발화 구간을 확인하는 것
    을 특징으로 하는 화자 분리 방법.
  7. 제1항에 있어서,
    상기 확인하는 단계는,
    상기 발화 구간에서 추출된 임베딩을 클러스터링한 결과인 임베딩 클러스터와 상기 기준 음성에서 추출된 임베딩 간의 거리를 기반으로 상기 기준 음성과 대응되는 발화 구간을 확인하는 것
    을 특징으로 하는 화자 분리 방법.
  8. 제1항에 있어서,
    상기 확인하는 단계는,
    상기 발화 구간에서 추출된 임베딩과 함께 상기 기준 음성에서 추출된 임베딩을 클러스터링한 결과를 기반으로 상기 기준 음성과 대응되는 발화 구간을 확인하는 것
    을 특징으로 하는 화자 분리 방법.
  9. 삭제
  10. 제1항에 있어서,
    상기 화자 분리 클러스터링을 수행하는 단계는,
    상기 나머지 발화 구간에서 추출된 임베딩을 기초로 유사도 행렬을 계산하는 단계;
    상기 유사도 행렬에 대해 고유값 분해(eigen decomposition)를 수행하여 고유값(eigenvalue)을 추출하는 단계;
    상기 추출된 고유값을 정렬한 후 인접한 고유값 간의 차이를 기준으로 선택된 고유값의 개수를 클러스터 수로 결정하는 단계; 및
    상기 유사도 행렬과 상기 클러스터 수를 이용하여 상기 화자 분리 클러스터링을 수행하는 단계
    를 포함하는 화자 분리 방법.
  11. 제1항 내지 제4항, 제6항 내지 제8항, 제10항 중 어느 한 항의 화자 분리 방법을 상기 컴퓨터 시스템에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램.
  12. 컴퓨터 시스템에 있어서,
    메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
    를 포함하고,
    상기 적어도 하나의 프로세서는,
    클라이언트로부터 화자 분리 대상 음성으로 수신된 음성 파일과 관련하여 기준 음성을 설정하는 기준 설정부;
    상기 기준 음성을 이용하여 상기 음성 파일에서 상기 기준 음성의 화자를 식별하는 화자 식별을 수행하는 화자 식별부; 및
    상기 음성 파일에서 식별되지 않은 나머지 발화 구간에 대해 클러스터링을 이용한 화자 분리를 수행하는 화자 분리부
    를 포함하고,
    상기 화자 식별부는,
    상기 음성 파일에서 복수 개의 발화 구간을 검출하고,
    상기 음성 파일에 포함된 복수 개의 발화 구간 중 상기 기준 음성과 대응되는 발화 구간을 확인하고,
    상기 기준 음성과 대응되는 발화 구간에 상기 기준 음성의 화자 레이블을 매핑하고,
    상기 화자 분리부는,
    상기 음성 파일에서 상기 화자 식별을 통해 화자가 식별된 발화 구간과 화자가 식별되지 않고 남은 상기 나머지 발화 구간을 구분하고,
    상기 음성 파일에 포함된 복수 개의 발화 구간 중 상기 나머지 발화 구간에 대해 화자 분리 클러스터링을 수행하고,
    상기 화자 분리 클러스터링에 따른 클러스터의 인덱스를 상기 나머지 발화 구간에 매핑하는 것
    을 특징으로 하는 컴퓨터 시스템.
  13. 제12항에 있어서,
    상기 기준 설정부는,
    상기 음성 파일에 속한 화자 중 일부 화자의 레이블이 포함된 음성 데이터를 상기 기준 음성으로 설정하는 것
    을 특징으로 하는 컴퓨터 시스템.
  14. 제12항에 있어서,
    상기 기준 설정부는,
    상기 컴퓨터 시스템과 관련된 데이터베이스 상에 사전 기록된 화자 음성 중에서 상기 음성 파일에 속한 일부 화자의 음성을 선택 받아 상기 기준 음성으로 설정하는 것
    을 특징으로 하는 컴퓨터 시스템.
  15. 제12항에 있어서,
    상기 기준 설정부는,
    녹음을 통해 상기 음성 파일에 속한 화자 중 일부 화자의 음성을 입력 받아 상기 기준 음성으로 설정하는 것
    을 특징으로 하는 컴퓨터 시스템.
  16. 삭제
  17. 제12항에 있어서,
    상기 화자 식별부는,
    상기 발화 구간에서 추출된 임베딩과 상기 기준 음성에서 추출된 임베딩 간의 거리를 기반으로 상기 기준 음성과 대응되는 발화 구간을 확인하는 것
    을 특징으로 하는 컴퓨터 시스템.
  18. 제12항에 있어서,
    상기 화자 식별부는,
    상기 발화 구간에서 추출된 임베딩을 클러스터링한 결과인 임베딩 클러스터와 상기 기준 음성에서 추출된 임베딩 간의 거리를 기반으로 상기 기준 음성과 대응되는 발화 구간을 확인하는 것
    을 특징으로 하는 컴퓨터 시스템.
  19. 제12항에 있어서,
    상기 화자 식별부는,
    상기 발화 구간에서 추출된 임베딩과 함께 상기 기준 음성에서 추출된 임베딩을 클러스터링한 결과를 기반으로 상기 기준 음성과 대응되는 발화 구간을 확인하는 것
    을 특징으로 하는 컴퓨터 시스템.
  20. 제12항에 있어서,
    상기 화자 분리부는,
    상기 나머지 발화 구간에서 추출된 임베딩을 기초로 유사도 행렬을 계산하고,
    상기 유사도 행렬에 대해 고유값 분해를 수행하여 고유값을 추출하고,
    상기 추출된 고유값을 정렬한 후 인접한 고유값 간의 차이를 기준으로 선택된 고유값의 개수를 클러스터 수로 결정하고,
    상기 유사도 행렬과 상기 클러스터 수를 이용하여 상기 화자 분리 클러스터링을 수행하는 것
    을 특징으로 하는 컴퓨터 시스템.
KR1020210006190A 2021-01-15 2021-01-15 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 KR102560019B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020210006190A KR102560019B1 (ko) 2021-01-15 2021-01-15 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램
JP2021189143A JP7348445B2 (ja) 2021-01-15 2021-11-22 話者識別を結合した話者ダイアライゼーション方法、システム、およびコンピュータプログラム
TW111100414A TWI834102B (zh) 2021-01-15 2022-01-05 與說話者識別結合的說話者分離方法、系統及電腦程式
US17/576,492 US20220230648A1 (en) 2021-01-15 2022-01-14 Method, system, and non-transitory computer readable record medium for speaker diarization combined with speaker identification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210006190A KR102560019B1 (ko) 2021-01-15 2021-01-15 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램

Publications (2)

Publication Number Publication Date
KR20220103507A KR20220103507A (ko) 2022-07-22
KR102560019B1 true KR102560019B1 (ko) 2023-07-27

Family

ID=82405264

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210006190A KR102560019B1 (ko) 2021-01-15 2021-01-15 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램

Country Status (4)

Country Link
US (1) US20220230648A1 (ko)
JP (1) JP7348445B2 (ko)
KR (1) KR102560019B1 (ko)
TW (1) TWI834102B (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538481B2 (en) * 2020-03-18 2022-12-27 Sas Institute Inc. Speech segmentation based on combination of pause detection and speaker diarization
KR102560019B1 (ko) * 2021-01-15 2023-07-27 네이버 주식회사 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램
US20230169981A1 (en) * 2021-11-30 2023-06-01 Samsung Electronics Co., Ltd. Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009109712A (ja) * 2007-10-30 2009-05-21 National Institute Of Information & Communication Technology オンライン話者逐次区別システム及びそのコンピュータプログラム
WO2020188724A1 (ja) 2019-03-18 2020-09-24 富士通株式会社 話者識別プログラム、話者識別方法、および話者識別装置
JP2021189424A (ja) 2020-06-02 2021-12-13 ネイバー コーポレーションNAVER Corporation マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステム
US20220230648A1 (en) 2021-01-15 2022-07-21 Naver Corporation Method, system, and non-transitory computer readable record medium for speaker diarization combined with speaker identification

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772840B2 (ja) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JP5022387B2 (ja) * 2009-01-27 2012-09-12 日本電信電話株式会社 クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4960416B2 (ja) * 2009-09-11 2012-06-27 ヤフー株式会社 話者クラスタリング装置および話者クラスタリング方法
TWI391915B (zh) * 2009-11-17 2013-04-01 Inst Information Industry 語音變異模型建立裝置、方法及應用該裝置之語音辨識系統和方法
CN102074234B (zh) * 2009-11-19 2012-07-25 财团法人资讯工业策进会 语音变异模型建立装置、方法及语音辨识***和方法
US9336780B2 (en) * 2011-06-20 2016-05-10 Agnitio, S.L. Identification of a local speaker
US9460722B2 (en) * 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
KR101616112B1 (ko) * 2014-07-28 2016-04-27 (주)복스유니버스 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
CN105989849B (zh) * 2015-06-03 2019-12-03 乐融致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
US9584946B1 (en) * 2016-06-10 2017-02-28 Philip Scott Lyren Audio diarization system that segments audio input
JP6594839B2 (ja) * 2016-10-12 2019-10-23 日本電信電話株式会社 話者数推定装置、話者数推定方法、およびプログラム
US10559311B2 (en) * 2017-03-31 2020-02-11 International Business Machines Corporation Speaker diarization with cluster transfer
US10811000B2 (en) * 2018-04-13 2020-10-20 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for recognizing simultaneous speech by multiple speakers
US10867610B2 (en) * 2018-05-04 2020-12-15 Microsoft Technology Licensing, Llc Computerized intelligent assistant for conferences
CN112262431A (zh) * 2018-09-25 2021-01-22 谷歌有限责任公司 使用说话者嵌入和所训练的生成模型的说话者日志
KR102438671B1 (ko) * 2018-12-03 2022-08-31 구글 엘엘씨 텍스트 독립 화자 인식
US11031017B2 (en) * 2019-01-08 2021-06-08 Google Llc Fully supervised speaker diarization
WO2020199013A1 (en) * 2019-03-29 2020-10-08 Microsoft Technology Licensing, Llc Speaker diarization with early-stop clustering
JP7222828B2 (ja) * 2019-06-24 2023-02-15 株式会社日立製作所 音声認識装置、音声認識方法及び記憶媒体
JP7340630B2 (ja) * 2019-09-05 2023-09-07 ザ・ジョンズ・ホプキンス・ユニバーシティ ニューラルネットワークを使用した音声入力の複数話者ダイアライゼーション
CN110570871A (zh) * 2019-09-20 2019-12-13 平安科技(深圳)有限公司 一种基于TristouNet的声纹识别方法、装置及设备
US11468900B2 (en) * 2020-10-15 2022-10-11 Google Llc Speaker identification accuracy

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009109712A (ja) * 2007-10-30 2009-05-21 National Institute Of Information & Communication Technology オンライン話者逐次区別システム及びそのコンピュータプログラム
WO2020188724A1 (ja) 2019-03-18 2020-09-24 富士通株式会社 話者識別プログラム、話者識別方法、および話者識別装置
JP2021189424A (ja) 2020-06-02 2021-12-13 ネイバー コーポレーションNAVER Corporation マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステム
US20220230648A1 (en) 2021-01-15 2022-07-21 Naver Corporation Method, system, and non-transitory computer readable record medium for speaker diarization combined with speaker identification

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Wang, Quan, et al. "Speaker diarization with LSTM." 2018 IEEE International conference on acoustics, speech and signal processing (ICASSP). IEEE, 2018.*

Also Published As

Publication number Publication date
TW202230342A (zh) 2022-08-01
TWI834102B (zh) 2024-03-01
US20220230648A1 (en) 2022-07-21
JP2022109867A (ja) 2022-07-28
JP7348445B2 (ja) 2023-09-21
KR20220103507A (ko) 2022-07-22

Similar Documents

Publication Publication Date Title
KR102560019B1 (ko) 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램
JP6771805B2 (ja) 音声認識方法、電子機器、及びコンピュータ記憶媒体
US20220122615A1 (en) Speaker diarization with early-stop clustering
JP7173758B2 (ja) 個人化された音声認識方法及びこれを行うユーザ端末及びサーバ
US11727939B2 (en) Voice-controlled management of user profiles
CN114465737B (zh) 一种数据处理方法、装置、计算机设备及存储介质
EP3682444A1 (en) Voice-controlled management of user profiles
KR20200083685A (ko) 실시간 화자 판단 방법
KR102655791B1 (ko) 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들
CN114141252A (zh) 声纹识别方法、装置、电子设备和存储介质
KR20190093962A (ko) 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치
KR20200020107A (ko) 기계학습을 이용한 획 기반 수기 서명 인증 방법 및 시스템
Bhati et al. Unsupervised Acoustic Segmentation and Clustering Using Siamese Network Embeddings.
JP7453733B2 (ja) マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステム
KR102399673B1 (ko) 어휘 트리에 기반하여 객체를 인식하는 방법 및 장치
CN113420178A (zh) 一种数据处理方法以及设备
KR102482827B1 (ko) 화자 임베딩 기반 음성 활동 검출을 이용한 화자 분할 방법, 시스템, 및 컴퓨터 프로그램
CN112037772B (zh) 基于多模态的响应义务检测方法、***及装置
Tan et al. Artificial speech detection using image-based features and random forest classifier
WO2023175841A1 (ja) マッチング装置、マッチング方法、及びコンピュータ読み取り可能な記録媒体
US10930280B2 (en) Device for providing toolkit for agent developer
KR20190058307A (ko) 에이전트 개발자를 위한 툴킷 제공 장치
KR20220077439A (ko) 객체 검색 모델 및 그 학습 방법
CN116468046A (zh) 基于人工智能的语义提取方法、装置、计算机设备及介质
CN118098263A (zh) 一医多患的语音分离方法和电子设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right