KR102633499B1

KR102633499B1 - 완전 지도식 화자 분리

Info

Publication number: KR102633499B1
Application number: KR1020237035947A
Authority: KR
Inventors: 총 왕; 아오난 장; 콴 왕; 젠야오 주
Original assignee: 구글 엘엘씨
Priority date: 2019-01-08
Filing date: 2019-11-12
Publication date: 2024-02-06
Also published as: US11688404B2; US11031017B2; EP3891733A1; CN113272894A; WO2020146042A1; KR20230152161A; US20210280197A1; KR20210099096A; KR102594080B1; US20200219517A1

Abstract

방법(500)은 음성 발언(120)을 수신하는 단계 및 음성 발언을 복수의 세그먼트(220)로 분할하는 단계를 포함한다. 음성 발언의 각 부분에 대해, 방법은 또한 세그먼트로부터 화자-식별 임베딩(240)을 추출하는 단계 및 추출된 화자-식별 임베딩을 특징 입력으로 수신하도록 구성된 확률적 생성 모델(300)을 사용하여 세그먼트에 대해 가능한 화자들(262)의 확률 분포를 예측하는 단계를 포함한다. 확률적 생성 모델은 복수의 트레이닝 세그먼트(220T)로 각각 분할된 트레이닝 음성 발언들의 코퍼스에 대해 트레이닝된다. 각 트레이닝 세그먼트에는 대응하는 화자-식별 임베딩 및 대응하는 화자 라벨(250)이 포함된다. 방법은 또한 대응하는 세그먼트에 대한 가능한 화자들의 확률 분포에 기초하여 발언의 각 세그먼트에 화자 라벨을 할당하는 단계를 포함한다.

Description

완전 지도식 화자 분리{FULLY SUPERVISED SPEAKER DIARIZATION}

본 개시는 완전 지도식 화자 분리에 관한 것이다.

화자 분리(diarization)는 화자 신원에 따라 입력 오디오 스트림을 동종의 세그먼트드로 분할하는 과정이다. 다수의 화자가 있는 환경에서, 화자 분리는 "누가 언제 말하고 있지"라는 질문에 답변하고 멀티미디어 정보 검색, 화자 턴 분석 및 오디오 처리를 포함하는 다양한 애플리케이션을 가진다. 특히, 화자 분리 시스템은 음향 음성 인식 정확도를 크게 향상시킬 수 있는 잠재적인 화자 경계를 생성할 수 있다.

본 개시의 일 양태는 데이터 처리 하드웨어에서, 음성 발언를 수신하는 단계 및 데이터 처리 하드웨어에 의해, 음성 발언을 복수의 세그먼트로 분할하는 단계를 포함하는 화자 분리 방법을 제공한다. 음성 발언의 각 세그먼트에 대해, 방법은 또한 데이터 처리 하드웨어에 의해, 세그먼트로부터 화자-식별 임베딩을 추출하는 단계; 및 데이터 처리 하드웨어에 의해, 추출된 화자-식별 임베딩을 특징 입력으로서 수신하도록 구성된 확률적 생성 모델을 사용하여 세그먼트에 대한 가능한 화자들의 확률 분포를 예측하는 단계를 포함한다. 확률적 생성 모델은 트레이닝 음성 발언들의 코퍼스에 대해 트레이닝되고, 각 트레이닝 음성 발언은 복수의 트레이닝 세그먼트로 분할된다. 각 트레이닝 세그먼트에는 대응하는 화자-식별 임베딩 및 대응하는 화자 라벨이 포함된다.

본 개시의 구현은 다음의 선택적 특징들 중 하나 이상을 포함할 수 있다. 일부 구현에서, 확률적 생성 모델은 거리 종속형 중식 레스토랑 프로세스를 적용하여 각 세그먼트에 대한 가능한 화자들의 확률 분포를 예측한다. 확률적 생성 모델은 복수의 세그먼트의 초기 세그먼트 이후에 발생하는 각 세그먼트에 대해, 화자가 대응하는 세그먼트에 대해 변경되지 않을 확률을 예측하기 위한 특징 입력으로서 이전 인접 세그먼트로부터 추출된 화자-식별 임베딩 및 이전 인접 세그먼트에 할당된 화자 레이블을 수신하도록 더 구성된다. 일부 예에서, 음성 발언의 각 세그먼트에 화자 라벨을 할당하는 단계는 대응하는 세그먼트에 대한 가능한 화자들의 확률 분포에 대해 그리디 검색을 실행함으로써 음성 발언의 각 세그먼트에 화자 라벨을 할당하는 단계를 포함한다.

일부 예에서, 세그먼트에 대한 가능한 화자들의 확률 분포를 예측하는 단계는 세그먼트가 복수의 세그먼트의 초기 세그먼트 이후에 발생하는 경우: (1) 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 세그먼트에 대해 변경되지 않을 확률을 예측하는 단계; (2) 하나 이상의 이전 세그먼트에 이전에 할당된 대응하는 화자 라벨과 관련된 각각의 기존 화자에 대해, 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 기존 화자로 변경될 확률을 예측하는 단계; 및 (3) 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 새로운 화자로 변경될 확률을 예측하는 단계를 포함한다. 일부 시나리오에서, 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 기존 화자로 변경될 확률은 기존 화자와 관련된 대응하는 화자 라벨이 이전에 할당된 인스턴스의 수에 비례한다. 추가적으로 또는 대안적으로, 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 새로운 화자로 변경될 확률은 화자 할당 확률 파라미터(α)에 비례한다.

일부 구현에서, 세그먼트로부터 화자-식별 임베딩을 추출하는 단계는 세그먼트로부터 d-벡터를 추출하는 단계를 포함한다. 다른 구현에서, 세그먼트로부터 화자-식별 임베딩을 추출하는 단계는 세그먼트로부터 i-벡터를 추출하는 단계를 포함한다. 일부 구성에서, 확률적 생성 모델은 순환 신경망(RNN)을 포함한다. 이러한 구성에서, RNN은 N개의 게이트형 반복 단위(GRU) 셀을 갖는 은닉 계층과, 각각 N개의 노드를 가지며 은닉 계층의 ReLU(rectified linear unit) 활성화를 적용하도록 구성된 2개의 완전 연결 계층을 포함할 수 있다. 각 GRU 셀은 쌍곡 탄젠트(tanh) 활성화를 적용하도록 구성된다. 추가적으로 또는 대안적으로, 방법은 또한 데이터 처리 하드웨어에 의해, 음성 발언을 대응하는 텍스트로 전사하는 단계; 및 데이터 처리 하드웨어에 의해, 음성 발언의 각 세그먼트에 할당된 화자 라벨에 기초하여 텍스트에 주석을 다는 단계를 포함한다. 음성 발언을 복수의 세그먼트로 분할하는 단계는 음성 발언을 복수의 고정 길이 세그먼트로 분할하는 단계를 포함한다.

본 개시의 다른 양태는 데이터 처리 하드웨어 및 데이터 처리 하드웨어와 통신하는 메모리 하드웨어를 포함하는 화자 분리를 위한 시스템을 제공한다. 메모리 하드웨어는 데이터 처리 하드웨어에 의해 실행될 때 데이터 처리 하드웨어가 음성 발언을 수신하는 동작 및 음성 발언을 복수의 세그먼트로 분할하는 동작을 포함하는 동작들을 수행하게 하는 명령들을 저장한다. 음성 발언의 각 세그먼트에 대해, 동작들은 또한 세그먼트로부터 화자-식별 임베딩을 추출하는 동작; 및 추출된 화자-식별 임베딩을 특징 입력으로서 수신하도록 구성된 확률적 생성 모델을 사용하여 세그먼트에 대한 가능한 화자들의 확률 분포를 예측하는 동작을 포함한다. 확률적 생성 모델은 트레이닝 음성 발언들의 코퍼스에 대해 트레이닝되고, 각 트레이닝 음성 발언은 복수의 트레이닝 세그먼트로 분할된다. 각 트레이닝 세그먼트에는 대응하는 화자-식별 임베딩 및 대응하는 화자 라벨이 포함된다.

이 양태는 다음의 선택적 특징들 중 하나 이상을 포함할 수 있다. 일부 구현에서, 확률적 생성 모델은 거리 의존형 중식 레스토랑 프로세스를 적용함으로써 각 세그먼트에 대한 가능한 화자들의 확률 분포를 예측한다. 확률적 생성 모델은 복수의 세그먼트의 초기 세그먼트 이후에 발생하는 각 세그먼트에 대해, 화자가 대응하는 세그먼트에 대해 변경되지 않을 확률을 예측하기 위한 특징 입력으로서 이전 인접 세그먼트로부터 추출된 화자-식별 임베딩 및 이전 인접 세그먼트에 할당된 화자 레이블을 수신하도록 더 구성된다. 일부 예에서, 음성 발언의 각 세그먼트에 화자 라벨을 할당하는 동작은 대응하는 세그먼트에 대한 가능한 화자들의 확률 분포에 대해 그리디 검색을 실행함으로써 음성 발언의 각 세그먼트에 화자 라벨을 할당하는 동작을 포함한다.

일부 예에서, 세그먼트에 대한 가능한 화자들의 확률 분포를 예측하는 동작은 세그먼트가 복수의 초기 세그먼트 이후에 발생하는 경우: (1) 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 세그먼트에 대해 변경되지 않을 확률을 예측하는 동작; (2) 하나 이상의 이전 세그먼트에 이전에 할당된 대응하는 화자 라벨과 관련된 각각의 기존 화자에 대해, 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 기존 화자로 변경될 확률을 예측하는 동작; 및 (3) 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 새로운 화자로 변경될 확률을 예측하는 동작을 포함한다. 일부 사나리오에서, 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 기존 화자로 변경될 확률은 기존 화자와 관련된 대응하는 화자 라벨이 이전에 할당된 인스턴스의 수에 비례한다. 추가적으로 또는 대안적으로, 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 새로운 화자로 변경될 확률은 화자 할당 확률 파라미터(α)에 비례한다.

일부 구현에서, 세그먼트로부터 화자-식별 임베딩을 추출하는 동작은 세그먼트로부터 d-벡터를 추출하는 동작을 포함한다. 다른 구현에서, 세그먼트로부터 화자-식별 임베딩을 추출하는 동작은 세그먼트로부터 i-벡터를 추출하는 동작을 포함한다. 일부 구성에서, 확률적 생성 모델은 순환 신경망(RNN)을 포함한다. 이러한 구성에서, RNN은 N개의 게이트형 반복 단위(GRU) 셀을 갖는 은닉 계층과, 각각 N개의 노드를 가지며 은닉 계층의 ReLU 활성화를 적용하도록 구성된 2개의 완전 연결 계층을 포함할 수 있다. 각 GRU 셀은 쌍곡 탄젠트(tanh) 활성화를 적용하도록 구성된다. 추가적으로 또는 대안적으로, 동작들은 음성 발언을 대응하는 텍스트로 전사하는 동작; 및 음성 발언의 각 세그먼트에 할당된 화자 라벨에 기초하여 텍스트에 주석을 다는 동작을 포함할 수 있다. 음성 발언을 복수의 세그먼트로 분할하는 동작은 음성 발언을 복수의 고정 길이 세그먼트로 분할하는 동작을 포함한다.

본 개시의 하나 이상의 구현의 세부 사항은 첨부된 도면 및 이하의 설명에서 설명된다. 다른 양태, 특징 및 장점은 설명 및 도면 및 청구 범위로부터 명백해질 것이다.

도 1a는 음성 발언에 화자 라벨을 할당하기 위한 예시적인 시스템을 개략적으로 도시한다.
도 1b는 도 1a의 시스템의 확률적 생성 모델을 트레이닝하기 위해 지도 트레이닝을 사용하는 예를 개략적으로 도시한다.
도 2는 확률적 생성 모델을 사용하는 화자 분리의 예시적인 프로세스를 개략적으로 도시한다.
도 3a 내지 3d는 음성 발언의 고정 길이 세그먼트에 대해 가능 화자들에 대한 확률 분포를 예측하도록 구성된 예시적인 순환 신경망 모델을 개략적으로 도시한다.
도 4는 다양한 화자 인식 모델에 대한 비지도 데이터 세트 및 지도 데이터 세트에 대해 트레이닝된 분리 시스템에 대한 분리 오류율(DER)을 나타내는 테이블이다.
도 5는 음성 발언에 화자 라벨을 할당하는 방법에 대한 동작들의 예시적인 배열의 흐름도이다.
도 6은 본 명세서에 설명된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적인 컴퓨팅 디바이스의 개략도이다.
다양한 도면에서 유사한 참조 기호는 유사한 요소를 나타낸다.

자동 음성 인식(ASR) 시스템은 일반적으로 주어진 입력 오디오 신호에 단 하나의 화자가 존재한다고 가정하는 음성 처리 알고리즘에 의존한다. 여러 화자의 존재를 포함하는 입력 오디오 신호는 잠재적으로 이러한 음성 처리 알고리즘을 방해하여 ASR 시스템에 의해 출력되는 부정확한 음성 인식 결과로 이어질 수 있다. 이와 같이, 화자 분리(speaker diarization)는 더 큰 대화에서 동일한 화자의 음성을 분할(segment)하여 누가 말하는지(화자 인식/식별) 구체적으로 결정하는 것이 아니라 누군가가 말하는 시기를 결정하는 프로세스이다. 다시 말해, 화자 분리에는 짧은 발언(utterance)을 사용하는 일련의 화자 인식 작업이 포함되며 주어진 대화의 두 세그먼트가 동일한 개인에 의해 말해지고 대화의 모든 세그먼트에 대해 반복되었는지 여부를 결정한다.

기존의 화자 분리 시스템은 일반적으로 음성 분할 모듈, 임베딩 추출 모듈 및 클러스터링 모듈과 같은 비교적 독립적인 다수의 컴포넌트를 포함하지만 이에 한정되지 않는다. 음성 분할 모듈은 일반적으로 입력 발언에서 비-음성 부분을 제거하고, 입력 발언을 작은 고정 길이 세그먼트로 분할하도록 구성되는 반면, 임베딩 추출 모듈은 각각의 고정 길이 세그먼트로부터, 대응하는 화자-식별(speaker-discriminative) 임베딩을 추출하도록 구성된다. 화자-식별 임베딩은 i-벡터 또는 d-벡터를 포함할 수 있다. 기존 화자 분리 시스템에서 사용하는 클러스터링 모듈은 입력 발언에 존재하는 화자의 수를 결정하고 각 고정 길이 세그먼트에 화자 식별(예를 들어, 라벨)을 할당하는 작업을 수행한다. 이러한 클러스터링 모듈은 가우스 혼합 모델, 평균 이동 클러스터링, 응집형 계층적 클러스터링, k-평균 클러스터링, 링크 클러스터링 및 스펙트럼 클러스터링을 포함하는 일반적 클러스터링 알고리즘을 사용할 수 있다. 화자 분리 시스템은 또한 추가 제약을 시행함으로써 클러스터링 모듈로부터 출력된 분리 결과를 추가로 세밀하게 구분하기(refine) 위해 추가 재분할 모듈을 사용할 수 있다.

클러스터링 모듈은 모든 화자가 알려지지 않은 것으로 가정되고 클러스터링 알고리즘이 모든 새로운 입력 발언에 대해 새로운/알려지지 않은 화자들을 수용하기 위해 새로운 "클러스터"를 생성할 필요가 있도록 비지도 방식으로 작동한다. 이러한 비지도 프레임 워크의 단점은 타임 스탬프된 화자 라벨 및 지상 실측(ground truth) 정보를 포함하는 라벨링된 대규모 트레이닝 데이터 세트에서 학습에 의해 개선할 수 없다는 것이다. 이 라벨링된 트레이닝 데이터는 많은 도메인 특정애플리케이션에서 쉽게 얻을 수 있기 때문에, 화자 분리 시스템은 분리 결과를 더 경고하고 정확하게 생성함으로써 라벨링된 트레이닝 데이터의 이점을 누릴 수 있다. 또한, 기존의 최첨단 클러스터링 알고리즘은 대부분 오프라인에서 실행되기 때문에, 실시간 시나리오에서 클러스터링하여 분리 결과를 생성하기가 어렵다.

본 명세서의 구현은 온라인(예를 들어, 실시간으로) 분리 결과를 생성하기 위한 완전 지도식(fully supervised) 확률적 생성 모델을 구현하는 화자 분리 시스템에 관한 것이다. 분리 결과는 입력 오디오 신호로부터 분할된 복수의 세그먼트 각각에 대해 예측된 화자 라벨을 포함한다. 비-지도형 클러스터링 알고리즘(예를 들어, k-평균, 스펙트럼 클러스터링, 계층적 클러스터링 등)에 의존하는 일반적으로 사용되는 클러스터링 모듈을 완전 지도식 확률적 생성 모델로 대체함으로써, 화자 분리 시스템은 쉽게 얻을 수 있는 타임 스탬프된 화자 라벨 및 지상 실측 정보로부터 학습에 의해 화자 라벨 예측 정확도를 향상시킬 수 있다. 세그먼트는 고정 길이 또는 가변 길이일 수 있다.

구체적으로, 확률적 생성 모델은 모델이 다른 인스턴스와 동일한 파라미터를 공유하고 무한 수의 RNN 인스턴스를 생성하며 시간 도메인에서 상이한 RNN 인스턴스(즉, 상이한 화자)의 상태를 인터리빙하는 해당 인스턴스로 각 화자를 모델링할 수 있도록 트레이닝을 위해 자연스럽게 타임 스탬프된 화자 라벨들을 통합하는 UIS-RNN(Unbounded interleaved-state recurrent neural network)을 포함한다. 이러한 완전 지도식 프레임 워크는 모델이 베이지안 비-파라메트릭 프로세스를 통해 각 발언 내에서 여러 화자를 자동으로 학습하고 RNN을 통하여 시간을 통해 정보를 전달할 수 있다.

도 1a 및 1b를 참조하면, 일부 구현에서, 시스템(100)은 화자 그룹(예를 들어, 사용자들)(10, 10a-n)로부터 음성 발언(120)을 캡처하고 네트워크(130)를 통해 원격 시스템(140)과 통신하는 사용자 디바이스(110)를 포함한다. 원격 시스템(140)은 스케일러블/탄력적 리소스들(142)을 갖는 분산 시스템(예를 들어, 클라우드 컴퓨팅 환경)일 수 있다. 리소스(142)는 컴퓨팅 리소스(144)(예를 들어, 데이터 처리 하드웨어) 및/또는 저장(storage) 리소스(146)(예를 들어, 메모리 하드웨어)를 포함한다. 일부 구현에서, 사용자 디바이스(110) 및/또는 원격 시스템(140)은 사용자 디바이스(110)로부터 상기 캡처된 발언들(120)에 대응하는 오디오 데이터(122)를 수신하고, 오디오 데이터(122)를 그로부터 추출된 대응하는 화자-식별 임베딩(240)과 각각 연관된 복수의 세그먼트(220, 220a-n)로 분할하고, 그리고 확률적 생성 모델(300)을 사용하여 각 세그먼트(220)에 할당된 대응하는 화자 라벨(250)을 포함하는 분리 결과(280)를 생성하도록 구성된 분리 시스템(200)을 실행한다. 따라서, 각 세그먼트(220)가 입력 오디오 데이터(122)의 대응하는 시간 윈도우에 대한 대응하는 화자-식별 임베딩(240)을 나타내기 때문에, 분리 결과(280)는 주어진 세그먼트(220) 동안 누가 말하고 있는지를 식별할 뿐만 아니라 인접 세그먼트들(220) 사이에서 화자 변경이 발생하는 시기를 식별하는 타임 스탬프된 화자 라벨들(250)을 수신된 오디오 데이터(122)에 대해 제공한다. 아래에서 더 자세히 설명하면, 확률적 생성 모델은 트레이닝 음성 발언의 코퍼스에 대한 타임 스탬프된 화자 라벨들(250T)을 포함하는 라벨링된 트레이닝 데이터(202)에 대해 트레이닝된다. 세그먼트(220, 220a-n)는 고정 길이 세그먼트 또는 가변 길이 세그먼트를 포함할 수 있다. 본 개시에서는 세그먼트 또는 세그먼트들을 '고정 길이'로 지칭할 수 있지만, 대응하는 세그먼트 또는 세그먼트들은 본 개시의 범위를 벗어나지 않고 유사하게 가변 길이일 수 있다. 더욱이, 분리 시스템(200)은 본 개시의 범위를 벗어나지 않고 사용자 디바이스(110) 또는 원격 시스템(140) 중 하나에서 실행될 수 있다.

일부 예에서, 원격 시스템(140)은 오디오 데이터(122)를 수신하여 대응하는 자동 음성 인식(ASR) 결과(152)로 전사하도록 구성된 ASR 모듈(150)을 추가로 실행한다. 사용자 디바이스(110)는 원격 시스템(140) 대신에 디바이스상에서 ASR 모듈(150)을 유사하게 실행할 수 있으며, 이는 네트워크 연결을 사용할 수 없거나 (충실도는 낮지만) 빠른 전사가 바람직할 때 유용할 수 있다. 추가적으로 또는 대안적으로, 사용자 디바이스(110)와 원격 시스템(140)는 모두 오디오 데이터(122)가 원격 시스템을 통해 또는 이들의 일부 조합을 통해 디바이스상에서 전사될 수 있도록 대응하는 ASR 모듈(150)을 실행할 수 있다. 일부 구현에서, ASR 모듈(150)과 분리 시스템(200)는 모두 사용자 디바이스(110)에서 전적으로 실행되며 원격 시스템(140)에 대한 네트워크 연결을 필요로 하지 않는다. ASR 결과(152)는 '전사' 또는 단순히 '텍스트'로 지칭될 수도 있다. ASR 모듈(150)은 분리 시스템(200)과 통신하여, 오디오 데이터(122)에 대한 음성 인식을 개선하기 위해 오디오 데이터(122)와 관련된 분리 결과(280)를 이용할 수 있다. 예를 들어, ASR 모듈(150)은 분리 결과(280)로부터 식별된 상이한 화자들에 대해 상이한 음성 인식 모델(예를 들어, 언어 모델, 운율 모델)을 적용할 수 있다. 추가적으로 또는 대안적으로, ASR 모듈(150) 및/또는 분리 시스템(200)(또는 일부 다른 컴포넌트)은 분리 결과(280)로부터 획득된 각각의 고정 길이 세그먼트(220)에 대해 예측된 상기 타임 스탬프된 화자 라벨들(250)을 사용하여 오디오 데이터(122)의 전사(152)를 인덱싱(색인화)할 수 있다. 예를 들어, 비즈니스 미팅 동안 다수의 동료(예를 들어, 화자들(10)) 간의 대화의 전사는 각 화자가 말한 내용을 식별하기 위해 개별 화자와 전사의 일부를 연관시키도록 화자에 의해 인덱싱될 수 있다.

사용자 디바이스(110)는 데이터 처리 하드웨어(112)와 메모리 하드웨어(114)를 포함한다. 사용자 디바이스(110)는 화자들(10)로부터의 음성 발언(120)을 캡처하여 오디오 데이터(122)(예를 들어, 전기 신호)로 변환하기 위한 오디오 캡처 디바이스(예를 들어, 마이크로폰)를 포함할 수 있다. 일부 구현에서, 데이터 처리 하드웨어(112)는 분리 시스템(200)의 나머지 부분이 원격 시스템(140)에서 실행되는 동안 분리 시스템(200)의 일부를 국부적으로 실행하도록 구성된다. 대안적으로, 데이터 처리 하드웨어(112)는 원격 시스템(140)에서 분리 시스템(200)을 실행하는 대신에 분리 시스템(200)을 실행할 수 있다. 사용자 디바이스(110)는 네트워크(130)를 통해 원격 시스템(140)과 통신할 수 있는 임의의 컴퓨팅 디바이스일 수 있다. 사용자 디바이스(110)는 데스크탑 컴퓨팅 디바이스 및 랩탑, 태블릿, 스마트 폰 및 웨어러블 컴퓨팅 디바이스(예를 들어, 헤드셋 및/또는 시계)와 같은 모바일 컴퓨팅 디바이스를 포함하지만 이에 한정되지 않는다. 사용자 디바이스(110)는 선택적으로 ASR 모듈(150)을 실행하여 오디오 데이터(122)를 대응하는 텍스트(152)로 전사할 수 있다. 예를 들어, 네트워크 통신이 중단되거나 사용할 수 없는 경우, 사용자 디바이스(110)는 분리 시스템(200) 및/또는 ASR 모듈(150)을 국부적으로 실행하여, 오디오 데이터(122)에 대한 분리 결과를 생성하고 및/또는 오디오 데이터(122)의 전사(152)를 생성할 수 있다.

도시된 예에서, 화자들(10)과 사용자 디바이스(110)는 사용자 디바이스(110)가 화자들(10)이 말한 음성 발언(120)을 오디오 데이터(122)(오디오 신호(122)로도 지칭)로 캡처하고 변환하도록 구성된 환경(예를 들어, 방)내에 위치할 수 있다. 예를 들어, 화자들(10)은 회의 중에 대화를 나누는 동료에 해당할 수 있고, 사용자 디바이스(110)는 음성 발언(120)을 녹음하여 오디오 데이터(122)로 변환할 수 있다. 이어서, 사용자 디바이스(110)는 오디오 데이터(122)의 개별 고정 길이 세그먼트(220)에 타임 스탬프된 화자 라벨(250)을 할당하기 위해 오디오 데이터(122)를 분리 시스템(200)으로 제공할 수 있다. 따라서, 분리 시스템(200)은 화자 인식/식별을 통해 누가 말하고 있는지 구체적으로 결정하지 않고 누군가가 말하고 있는 때를 결정하기 위해 오디오 데이터(122)를 처리하는 임무를 갖는다. 일부 예에서, 사용자 디바이스(110)는 화자(10)로부터 원격으로 위치될 수 있다. 예를 들어, 사용자 디바이스(110)는 전화 통화 또는 화상 회의에 참여하는 화자들로부터의 음성 발언(120)을 캡처하는 원격 디바이스(예를 들어, 네트워크 서버)를 포함할 수 있다. 이 시나리오에서, 각각의 화자(10)는 음성 발언(120)을 오디오 데이터(122)로 변환하기 위해 음성 발언(120)을 캡처하고 원격 사용자 디바이스(110)에 제공하는 그들 자신의 디바이스(예를 들어, 전화, 라디오, 컴퓨터, 스마트 워치 등)로 말할 것이다. 물론 이 시나리오에서, 발언들(120)은 각각의 사용자 디바이스에서 처리되고, 분리 시스템(200)에 제공된 오디오 데이터(122)를 추가로 처리할 수 있는 원격 사용자 디바이스(110)로 전송되는 대응 오디오 신호로 변환될 수 있다.

도시된 예에서, 분리 시스템(200)은 분할 모듈(210), 임베딩 모듈(230) 및 화자 라벨 예측기(260)를 포함한다. 분할 모듈(210)은 음성 발언(120)('음성 발언'으로로 지칭됨)에 대응하는 오디오 데이터(122)를 수신하여 오디오 데이터(122)를 복수의 고정 길이 세그먼트(220)로 분할하도록 구성된다. 분할 모듈(210)은 예를 들어, 음성 활동 검출기를 적용함으로써 오디오 데이터(122)로부터 비-음성 부분을 추가로 제거할 수 있다.

임베딩 모듈(230)은 각 고정 길이 세그먼트(220)로부터 화자-식별 임베딩(240)을 추출하도록 구성된다. 이후, 임베딩 모듈(230)은 화자 라벨 예측기(260)에 임베딩 X=(x1, x2,...,xT)의 관찰 시퀀스를 제공하는데, 여기서 시퀀스의 항목(xT)는 오리지널 발언(120)의 오디오 데이터(122)에 있는 대응하는 고정 길이 세그먼트(220)와 관련된 실수값의 화자-식별 임베딩(240)을 나타낸다. 화자-식별 임베딩(240)은 d-벡터 또는 i-벡터와 같은 화자 인자를 포함할 수 있다. 유리하게는, d-벡터는 신경망이 d-벡터를 생성하고 상이한 사용 시나리오에서 다양한 화자 악센트 및 음향 조건에 대해 충분히 견고한 대규모 데이터 세트로 트레이닝될 수 있다는 사실로 인해 분리 성능을 향상시킬 수 있다.

일부 구현에서, 화자 라벨 예측기(260)는 임베딩(X)의 관찰 시퀀스를 수신하고, 확률적 생성 모델(300)을 사용하여 시퀀스의 각 항목(xT)에 대한 가능한 화자들(262)의 확률 분포를 생성/예측한다. 즉, 각 고정 길이 세그먼트(220)에 대해, 화자 라벨 예측기(260)는 고정 길이 세그먼트(220)에 대한 가능한 화자들(262)의 확률 분포를 생성하기 위해 확률적 생성 모델(300)의 특징 입력으로서 임베딩 모듈(230)로부터 추출된 상기 연관된 화자-식별 임베딩(240)을 수신할 수 있다. 화자 라벨 예측기(260)는 고정 길이 세그먼트(220)에 대한 가능한 화자들(262)의 확률 분포에 기초하여 화자 라벨(250)을 오디오 데이터(122)의 각각의 고정 길이 세그먼트(220)에 할당할 수 있다. 일부 예에서, 화자 라벨(250)을 각각의 고정 길이 세그먼트(220)에 할당하는 것은 고정 길이 세그먼트(220)에 대해 가능한 화자들(262)의 확률 분포에 대한 그리디 검색(greedy search)을 실행하는 것을 포함한다.

도시된 예에서, 화자 라벨 예측기(260)는 오디오 데이터(122)의 대응하는 고정 길이 세그먼트(220)에 할당된 화자 라벨(250)을 나타내는 분리 결과(280)를 출력한다. 여기서, 화자 라벨(250)은 일련의 화자 라벨 Y =(y1, y2,...,yT)로 표현될 수 있는데, 여기서 시퀀스의 항목(yt)은 시간(t)에서 임베딩 항목(xt)에 할당된 화자 라벨(250)을 나타낸다. 예를 들어, 시간(t=4)에서, 화자 라벨 항목(y4=3)은 제4 임베딩 항목(x4)에 제3 화자("3")를 할당하는 것에 대응한다. 또한, 분리 결과(280)는 각각의 고정 길이 세그먼트(220)에 대한 화자 변경값(255)을 예측할 수 있다. 도시된 예에서, 화자 변경값(255)은 일련의 변경점 표시자 Z=(z1, z2,...,zT)로 표현될 수 있는데, 여기서 항목(zt)은 시간(t)에서 대응하는 임베딩 항목(xt)에서 화자 변경이 발생하는지 여부를 나타낸다. 일부 구현에서, 각 변경점 표시자(zT)는 이진 표시자이며, 여기서 zt=1은 시간(t)에서의 변경점을 나타내고, zt=0은 바로 앞의 인접한 임베딩 항목(xt-1)에 할당된 화자 라벨(250)로부터 시간(t)에서 화자가 변경되지 않았음을 나타낸다. 도시된 예에서, Y=(1, 1, 2, 3, 2, 2,...,yT), Z =(0, 1, 1, 1, 0)인 경우, 분리 결과(280)가 도 1a에 도시되어 있다. 따라서, 변경점 표시자(Z)의 시퀀스는 화자 라벨(Y)의 시퀀스에 의해 고유하게 결정되지만, 화자 라벨(Y)의 시퀀스는 변경점 표시자(Z)의 시퀀스에 의해 고유하게 결정될 수 없다.

도 1b를 참조하면, 일부 구현에서, 확률적 생성 모델(300)은 복수의 트레이닝 고정 길이 세그먼트(220T)로 각각 분리된 트레이닝 음성 발언의 코퍼스(말뭉치)를 포함하는 완전 라벨링된(fully-labeled) 트레이닝 데이터(202)에 대해 트레이닝되고, 각각의 트레이닝 고정 길이 세그먼트(220T)는 대응하는 화자-식별 임베딩(240T)(예를 들어, d-벡터 또는 i-벡터) 및 대응하는 화자 라벨(250T)을 포함한다. 트레이닝 음성 발언의 코퍼스에 있는 각 트레이닝 음성 발언은 임베딩의 트레이닝 시퀀스 X* =(x*1, x*2,...,x*T)로 표현될 수 있는데, 여기서, 시퀀스의 항목(x*T)는 대응하는 트레이닝 고정 길이 세그먼트(220T)와 연관된 실제값의 화자-식별 임베딩(240T) 및 대응하는 화자 라벨(250T)을 나타낸다. 추가적으로, 완전 라벨링된 트레이닝 데이터(202)는 초기 트레이닝 고정 길이 세그먼트(220T) 이후 각각의 트레이닝 고정 길이 세그먼트(220T)에 대한 화자 변경값(255T)을 포함할 수 있다. 화자 변경값(255T)과 화자 라벨(250T)은 각각의 트레이닝 고정 길이 세그먼트(220T)에 수동으로 할당될 수 있다. 위에서 논의된 바와 같이, 화자 라벨들(250T)은 트레이닝 화자 라벨의 시퀀스 Y* =(y*1, y*2,...,y*T)로 표현될 수 있으며, 여기서, 시퀀스의 항목(yt)은 시간(t)에서 임베딩 항목(xt)에 할당된 화자 라벨(250T)을 나타내고, 화자 변경값(255T)은 트레이닝 변경점 표시자의 시퀀스 Z* =(z*1, z*2,...,z*T)로 표현될 수 있으며, 항목(zt)은 시간(t)에서 대응하는 트레이닝 고정 길이 세그먼트 항목(x*t)에서 화자 변경이 발생하는지 여부를 나타내는 이진 표시자이다.

도시된 예에서, 대응하는 화자-식별 임베딩(240T)(예를 들어, d-벡터 또는 i-벡터) 및 대응하는 화자 라벨(250T)을 각각 포함하는 복수의 트레이닝 고정 길이 세그먼트(220T)는 확률적 생성 모델(300)을 트레이닝하기 위해 분리 트레이너(204)로 전달된다. 완전 라벨링된 트레이닝 데이터(202)에 기초하여, 분리 트레이너(204)는 분리 파라미터들(206)을 모델링하여 확률적 생성 모델(300)을 트레이닝할 수 있다. 일단 트레이닝되면, 확률적 생성 모델(예를 들어, 트레이닝된 모델)(300)은 도 1a를 참조하여 위에서 논의된 바와 같이 추론 동안 대응하는 원시 오디오 데이터(122)에 대한 분리 결과(280)를 생성하기 위해 화자 라벨 예측기(260)에 의해 사용된다. 따라서, 트레이닝 데이터(202)가 각 트레이닝 발언으로부터 분할된 대응하는 트레이닝 고정 길이 세그먼트(220T)에 할당된 공지된 화자 라벨(250T)을 포함하는 경우, 트레이닝된 확률적 생성 모델(300)은 그로부터 추출된 대응하는 화자-식별 임베딩(240)에만 기초하여 오디오 데이터(122)로부터 분할된 대응하는 고정 길이 세그먼트(220)에 할당된 화자 라벨(250)을 예측하는 임무를 갖는다.

확률적 생성 모델(300)은 신경망을 포함할 수 있다. 분리 트레이너(204)는 트레이닝 데이터(202)를 출력 데이터에 매핑하여 신경망 모델(300)을 생성한다. 일반적으로, 분리 트레이너(204)는 은닉 노드들, 은닉 노드들과 트레이닝 데이터(202)에 대응하는 입력 노드들 간의 연결 가중치, 은닉 노드들과 출력 노드들 간의 연결 가중치, 및 은닉 노드들의 계층 간의 연결 가중치를 생성한다. 이후, 완전 트레이닝된 신경망 모델(300)이 입력 데이터(예를 들어, 원시 오디오 데이터(122))에 대해 사용되어 공지되지 않은 출력 데이터(예를 들어, 화자 라벨(250))를 생성할 수 있다.

도 2는 수신된 오디오 데이터(122)로부터 분리 결과(280)를 생성하기 위한 도 1a 및 1b의 분리 시스템(200)의 예시적인 프로세스를 도시한다. 도시된 예에서, 시간은 왼쪽에서 오른쪽으로 증가하고, 분리 시스템(200)은 오디오 데이터(122)를 처리하여 고정 크기 및 고정 오버랩을 갖는 슬라이딩 윈도우(215)를 제공한다. 예를 들어, 각 윈도우(215)의 크기는 240 밀리 초(ms)일 수 있고 각각의 슬라이딩 윈도우(215) 사이의 고정 오버랩은 50%일 수 있다. 임베딩 모듈(230)(도 1a)은 오버랩하는 슬라이딩 윈도우(215)로부터 윈도우-레벨 임베딩을 추출하여 세그먼트-레벨 d-벡터, 예를 들어, 화자-식별 임베딩(240)을 생성하기 위해 윈도우-레벨 임베딩을 평균하도록 구성된 텍스트 독립형 화자 인식 네트워크를 포함할 수 있다. 도시된 예에서, 텍스트 독립형 화자 인식 네트워크는 3개의 장단기 메모리(LSTM) 계층 및 1개의 선형 계층을 포함하며 트레이닝된 일반화된 종단 간 손실이다. 다른 예에서, 임베딩 모듈(230)은 세그먼트 레벨 i-벡터를 생성한다. 일부 구현에서, 분할 모듈 (210)(도 1a)은 2개의 전 공분산(full-covariance) 가우시안을 갖는 음성 활동 검출기(VAD)를 사용하여 오디오 데이터(122)로부터 비-음성 부분을 제거하고, 오디오 데이터(122)를 오버랩되지 않는 고정 길이 세그먼트들로 파티션/분할한다. 일부 예들서, 각 고정 길이 세그먼트(220)는 400ms이다. 그런 다음, 화자 라벨 예측기(260)(도 1a)는 각 고정 길이 세그먼트(220) 및 대응하는 화자-식별 임베딩(240)을 수신하고, 확률적 생성 모델(300)을 사용하여 분리 결과(280)를 생성한다. 여기서, 분리 결과(280)는 각 고정 길이 세그먼트(220)에 할당된 화자 라벨의 시퀀스 Y=(y1, y2,...,yT)로 표현된 화자 라벨(250)을 포함하며, 이는 임베딩의 관찰 시퀀스 X=(x1, x2,...,xT)로 표현된다.

도 3a-3d는 확률적 생성 모델(300)의 예를 도시한다. 도시된 예에서, 모델(300)은 순환 신경망(RNN)을 포함한다. 일반 신경망은 입력 데이터를 처리하여 출력 데이터를 생성하는 동안 중간 데이터를 저장하지 않지만 RNN은 데이터/상태를 유지하며, 이는 RNN이 데이터/상태를 유지하지 않는 일반 신경망에 비해 분류 능력을 향상시킬 수 있다. 더 구체적으로, 확률적 생성 모델 300은 다른 화자(10)에 대해 모델링된 다른 인스턴스와 동일한 분리 파라미터(206)를 공유하는 대응 인스턴스에 의해 테스트 발화(120)의 오디오 데이터(122)에서 각 화자(10)를 모델링하기 위해 분리 트레이너(204)에 의해 트레이닝 데이터(202)에 대해 트레이닝된 무한 인터리브 상태(unbounded interleaved-state) 순환 신경망(UIS-RNN)을 포함한다. 시간은 도 3a-3d의 뷰에 비해 왼쪽에서 오른쪽으로 증가한다. UIS-RNN(300)은 무한 수의 RNN 인스턴스를 생성하고 시간 도메인에서 상이한 RNN 인스턴스(즉, 상이한 화자)의 상태(ht)를 인터리빙할 수 있다. 따라서, UIS-RNN(300)은 각각의 인스턴스화(instantiation)가 해당하는 화자를 모델링하고 다른 인스턴스화와 동일한 분리 파라미터 세트(206)를 공유하는 다중 인스턴스화를 유지한다. 분리 파라미터(206)는 RNN 파라미터(θ), 화자 할당 확률 파라미터(α), 가우시안 모델 파라미터(σ2) 및 화자 변경 파라미터(λ)를 포함할 수 있다.

일부 예에서, UIS-RNN(300)은 쌍곡 탄젠트(tanh) 활성화를 갖는 N개의 게이트형 반복 단위(GRU) 셀과 각각 N개의 노드를 가지며 은닉 계층의 정류형 선형 단위(ReLU) 활성화를 적용하도록 구성된 2개의 완전 연결 계층이 있는 은닉 계층을 포함한다. 각 GRU 셀은 대응하는 은닉 표준 RNN 상태(ht)로 표현될 수 있는 반면, 2개의 완전 연결 계층은 은닉 표준 RNN 상태(ht) 및 RNN 파라미터(θ)의 함수에 대응하는 각 출력 노드(mt)를 갖는 도 3a-3d에 도시된 RNN 출력 계층으로 표현될 수 있다. 여기서, 각 출력 노드(mt)는 RNN 상태(ht)의 비선형 변환을 화자 변경의 실제 관찰을 생성하기에 더 적합한 상태로 제공한다. 도시된 예에서, mt는 ht와 ht와 동일하지만 더 복잡한 기능이 가능하다.

주어진 테스트 발언(120)(예를 들어, 오디오 데이터(122)로 표시됨)에 대해, 발언(120)은 (예를 들어, 분할 모듈(210)을 사용하여) 복수의 고정 길이 세그먼트(220)로 분할되고, 화자-식별 임베딩(240)은 (예를 들어, 임베딩 모듈(230)을 사용하여) 각각의 고정 길이 세그먼트(220)로부터 추출되어 임베딩의 대응하는 관찰 시퀀스 X =(x1, x2, x3, x4, x5, x6, x7)를 제공한다. 여기서, 시퀀스내의 각 임베딩 항목(x1-7)은 주어진 고정 길이 세그먼트(220)와 관련된 화자-식별 임베딩(240)을 나타낸다. 일반적인 의미에서, 시퀀스내의 각 항목(x1-7)은 주어진 발언에 대한 타임 스탬프된 화자-식별 임베딩(240)에 대응한다. 예를 들어, 항목(x3)은 테스트 발언(120)의 오디오 데이터(122)로부터 추출된 제3 고정 길이 세그먼트(220)와 관련된 화자-식별 임베딩(240)을 나타낸다. 이하에서 더 상세히 설명되는 UIS-RNN 모델(300)은 각각의 대응하는 고정 길이 세그먼트(220)에 할당할 화자 라벨(250)을 예측하기 위해 무제한 수의 화자에 대한 화자 할당 및 화자 변경을 모델링하고, 이에 의해 화자 라벨들(250)은 화자 라벨 시퀀스 Y =(y1, y2, y3, y4, y5, y6, y7)로 표현된다.

제1 임베딩 항목(x1)(즉, 제1 고정 길이 세그먼트(220)로부터 추출된 화자-식별 임베딩(240))에는 항상 제1 화자(y1=1)와 관련된 제1 화자 라벨(250)이 할당될 것이다. 임베딩 관찰 시퀀스의 데이터 시퀀스에서 제1 항목(x1) 다음에 오는 각 임베딩 항목(x2-x7)에 대해, UIS-RNN(300)은 항목(xt)(즉, 대응하는 고정 길이 세그먼트(220) 및 관련 화자-식별 임베딩(240))에 대해 가능(한) 화자들(262)에 대한 확률 분포를 예측하고, 가능 화자들(262)에 대한 확률 분포에 기초하여 화자 라벨(250)을 대응하는 항목(xt)에 할당하도록 구성된다. 일부 예에서, 화자 라벨(250)은 가능 화자들(262)에 대한 확률 분포에 대해 그리디 검색을 실행함으로써 할당된다. 그리디 검색은 빔 검색을 구현하는 디코딩 프로세스 중에 실행될 수 있다. 화자 할당 및 화자 변경 또는 보다 구체적으로 화자 턴 동작을 모델링하기 위해, UIS-RNN(300)은 무제한 수의 화자를 모델링하도록 구성된 베이지안 비-파라 메트릭 모델을 포함하는 거리 의존형 중식 레스토랑 프로세스를 사용할 수 있다. 예를 들어, 시퀀스에서 다음 항목(xt)에 대한 화자 할당을 모델링할 때, UIS-RNN(300)은 바로 이전 항목(xt-1)까지의 기존의 각 화자 할당에 대한 확률 및 다음 항목(xt)에 대한 새로운 화자 라벨을 예측할 확률을 예측한다.

시간(t=1)에서, 제1 화자(y1=1)와 관련된 제1 화자 라벨이 제1 임베딩 항목(x1)에 할당되고, 대응하는 제1 RNN 상태(h1)는 초기 은닉 상태(h0)로 제1 화자에 대응하는 새로운 RNN을 인스턴스화한다. 여기서 제1 RNN 상태(h1)는 제1 화자에 대한 사전 지식이 없다.

시간(t=2)에서, 제1 화자(y2=1)와 관련된 제1 화자 라벨이 제2 임베딩 항목(x2)에 할당되고, 대응하는 제2 RNN 상태(h2)는 이전 제1 RNN 상태(h1) 및 제1 화자에 대응하는 이전 제1 임베딩 항목(x1)으로 제1 화자에 대응하는 RNN의 인스턴스화를 업데이트한다. 따라서, 제1 화자에 대응하는 업데이트된 RNN은 이전 RNN 상태(h1) 및 이전 임베딩 항목(x1)으로부터 획득된 사전 지식에 기초하여 향상될 수 있다. 이전 임베딩 항목(x1)은 화자 라벨(y2)을 예측하는데 도움이 된다.

시간(t=3)에서, 제2 화자(y3=2)와 관련된 제2 화자 라벨이 제3 임베딩 항목(x3)에 할당되고, 대응하는 제3 RNN 상태(h3)는 동일한 초기 은닉 상태(h0)로 제2 화자에 대응하는 새로운 RNN을 인스턴스화한다. 제2 화자는 새롭기(예를 들어, 이전에 나타나지 않았기) 때문에, 제3 RNN 상태(h3)는 제2 화자에 대한 사전 지식이 없다. 더욱이, 제1 및 제2 RNN 상태(h1, h2)로부터의 정보는 제2 화자에 대응하는 RNN 또는 제1 화자 이외의 화자들에 대해 인스턴스화된 다른 RNN으로 전달되지 않는다.

시간(t=4)에서, 제3 화자(y4=3)와 관련된 제3 화자 라벨이 제4 임베딩 항목(x4)에 할당되고, 대응하는 제4 RNN 상태(h4)는 동일한 초기 은닉 상태(h0)로 제3 화자에 대응하는 새로운 RNN을 인스턴스화한다. 제3 화자는 새롭기(예를 들어, 이전에 나타나지 않았기) 때문에, 제4 RNN 상태(h4)는 제3 화자에 대한 사전 지식이 없다. 더욱이, 제1 화자에 대응하는 RNN과 관련된 제1 및 제2 RNN 상태(h1, h2) 및 제2 화자에 대응하는 RNN과 관련된 제3 RNN 상태(h3)로부터의 정보는 제3 화자에 대응하는 RNN으로 전달되지 않는다. RNN들의 인스턴스화가 개별 화자를 모델링하는 동안, RNN들은 동일한 분리 파라미터(206) 세트를 공유하고 둘 다 동일한 초기 은닉 상태(h0)로 초기화된다.

시간(t=5)에서, 제2 화자(y5=2)와 관련된 제2 화자 라벨은 제5 임베딩 항목(x5)에 할당되고, 대응하는 제5 RNN 상태(h5)는 제2 화자에 대응하는 RNN의 인스턴스화를 이전 제3 RNN 상태(h3) 및 제2 화자에 대응하는 이전 제3 임베딩 항목(x3)으로 업데이트한다. 따라서, 제2 화자에 대응하는 업데이트된 RNN은 이전 RNN 상태(h3) 및 이전 임베딩 항목(x3)에서 얻은 사전 지식에 기초하여 향상될 수 있다. 제2 화자에 해당하는 이전 임베딩 항목(x3)은 화자 라벨(y5)을 예측하는데 도움이 된다.

시간(t=6)에서, 제2 화자(y6=2)와 관련된 제2 화자 라벨은 제6 임베딩 항목(x6)에 할당되고, 대응하는 제6 RNN 상태(h6)는 제2 화자에 대응하는 RNN의 인스턴스화를 이전 제5 RNN 상태(h5) 및 제2 화자에 대응하는 이전 제5 임베딩 항목(x5)으로 업데이트한다. 따라서, 제2 화자에 대응하는 업데이트된 RNN은 이전 RNN 상태(h5) 및 이전 임베딩 항목(x5)에서 얻은 사전 지식에 기초하여 향상될 수 있다. 이전 임베딩 항목(x5)은 화자 라벨(y6)을 예측하는데 도움이 된다.

따라서, 시간(t=6)까지의 현재 단계에서, 도 3a-3d는 임베딩의 관찰 시퀀스 X =(x1, x2, x3, x4, x5 , x6) 중 대응하는 것들에 할당된 y[6]=(1, 1, 2, 3, 2, 2)에 대한 화자 라벨의 시퀀스로 표현된 예측된 화자 라벨들(250)을 갖는 UIS-RNN(300)을 도시한다. 도시된 예에서, 항목(x1, x2)을 나타내는 블록들은 제1 화자와 관련된 제1 화자 라벨의 할당을 나타내는 수평선을 포함하고, 항목(x3, x5, x6)을 나타내는 블록들은 제2 화자와 관련된 제2 화자 라벨(250)의 할당을 나타내는 수직선을 포함하며, 제4 항목(x4)을 나타내는 블록은 제3 화자와 관련된 제3 화자 라벨(250)의 할당을 나타내는 대각선을 포함한다.

도시된 예에서, UIS-RNN은 시퀀스에서 다음 임베딩 항목(x7)에 할당될 다음 화자 라벨(y7)을 예측하는 임무를 맡고 있다. 이를 위해, UIS-RNN은 거리 의존형 중식 레스토랑 프로세스를 적용한다. 이 시나리오에서, y7에 대한 네 가지 옵션인 (1) 제1 화자; (2) 제2 화자,(3) 제3 화자 또는 (4) 제4 화자가 있다. 옵션(1-3)은 모두 기존 화자들을 포함하며, 각각의 기존 화자가 해당 기존 화자와 관련된 연속 고정 길이 세그먼트의 수에 비례할 확률이 있다. 반면에, 옵션(4)은 화자 할당 확률 파라미터(α)에 비례하는 확률을 포함한다. 따라서, UIS-RNN(300)은 이전 화자 라벨 시퀀스(y[6]) 및 임베딩의 이전 관찰 시퀀스(x[6]) 모두에 기초하여, 가능(한) 화자들, 즉 제1 화자(y7=1), 제2 화자(y7=2), 제3 화자(y7=3) 및 제4 화자(y7=4)에 대한 확률 분포를 예측한다.

도 3a를 참조하면, y7이 제1 화자와 동일할 확률을 예측하는 것은 마지막 임베딩 항목(x2)과 제1 화자에 해당하는 이전 상태(h2)를 기반으로 한다. 이 시나리오에서, 현재 RNN 상태(h7)는 제2 RNN 상태(h2) 및 제2 임베딩 항목(x2)에서 제1 화자에 대해 모델링되며, 이는 이전 RNN 상태 및 제1 화자의 이전 임베딩 항목에 해당한다. 현재 RNN 상태(h7)의 출력은 RNN 출력의 해당 노드(m7)와 상호 연결될 수 있으며, 이에 의해 m7은 표준 RNN 상태(h7)의 비선형 변환 계층을 실제 관측값을 생성(예를 들어, h7의 특징을 더 잘 변환)하는데 사용되는 상태에 적용한다. y7=1일 확률은 제1 화자와 관련된 연속 고정 길이 세그먼트(220)의 수에 비례한다.

도 3b를 참조하면, y7이 제2 화자와 동일할 확률을 예측하는 것은 마지막 임베딩 항목(x6) 및 제2 화자에 대응하는 이전 상태(h6)를 기반으로 한다. 이 시나리오에서, 화자 변경이 발생하지 않으며 현재 RNN 상태(h7)는 제6 RNN 상태(h6) 및 제6 임베딩 항목(x2)에서 제2 화자에 대해 모델링되며, 이는 이전 RNN 상태 및 제2 화자의 이전 임베딩 항목에 해당한다. 현재 RNN 상태(h7)의 출력은 RNN 출력의 해당 노드(m7)와 상호 연결될 수 있으며, 이에 따라 m7은 표준 RNN 상태(h7)의 비선형 변환 게층을 실제 관측값을 생성(예를 들어, h7의 특징을 더 잘 변환)하는데 사용되는 상태에 적용한다. y7=2일 확률은 제2 화자와 관련된 연속 고정 길이 세그먼트(220)의 수에 비례한다.

도 3c를 참조하면, y7이 제3 화자와 동일할 확률을 예측하는 것은 마지막 임베딩 항목(x3) 및 제3 화자에 대응하는 이전 상태(h3)에 기초한다. 이 시나리오에서, 현재 RNN 상태(h7)는 제3 RNN 상태(h3) 및 제3 임베딩 항목(x3)에서 제3 화자에 대해 모델링되고, 이는 이전 RNN 상태와 제3 화자의 이전 임베딩 항목에 해당한다. 현재 RNN 상태(h7)의 출력은 RNN 출력의 해당 노드(m7)와 상호 연결될 수 있으며, 이에 의해 m7은 표준 RNN 상태(h7)의 비선형 변환 게층을 실제 관측값을 생성(예를 들어, h7의 특징을 더 잘 변환)하는데 사용되는 상태에 적용한다. y7=3일 확률은 제3 화자와 관련된 연속 고정 길이 세그먼트(220)의 수에 비례한다.

도 3d를 참조하면, y7이 새로운 제4 화자와 동일할 확률은 화자 할당 확률 파라미터(α)에 비례한다. 이 시나리오에서, UIS-RNN(300)은 동일한 초기 은닉 상태(h0)에서 제4 화자에 대해 현재 RNN 상태(h7)가 모델링된 제4 화자에 대한 새로운 RNN을 인스턴스화한다. 여기서, 제4 화자의 새로운 RNN 인스턴스는 제1, 제2 및 제3 화자 각각에 대한 RNN 인스턴스와 동일한 분리 파라미터 세트를 공유한다.

일부 구현에서, 분리 시스템(200)은 O(T!)에서 O (T2)로 계산 복잡도를 감소시키기 위해 대응하는 고정 길이 세그먼트(x7)에 대해 가능 화자들(262)(y7: 1, 2, 3, 4)에 대한 확률 분포에 대해 그리디 검색을 순차적으로 수행하는 온라인 디코딩 접근 방식을 사용한다. 대부분의 시나리오에서 발언 당 최대 화자 수는 상수(C)로 제한된다는 관찰에 기초하여, 계산 복잡도는 O(T)로 더 감소될 수 있다. 일부 예에서, 분리 시스템은 디코딩 알고리즘에 대해 빔 검색을 수행하고 더 나은 디코딩 결과를 달성하기 위해 다수의 미리 보기 항목를 조정한다.

도 4는 k-평균 클러스터링, 스펙트럼 클러스터링, UIS-RNN pure 5-fold, UIS-RNN Dick-6, 및 다양한 화자 인식 모델(V1, V2, V3)에 대한 UIS-RNN pure 5-fold 및 추가 트레이닝 데이터에 대한 분리 에러율(diarization error rates : DERs)을 나타내는 데이블(400)이다. 제1 화자 인식 모델(V1)에는 18,000명의 미국 영어 화자의 3,600만 개의 발언이 포함될 수 있다. 제2 화자 인식 모델(V2)에는 138,000명의 미국 이외의 영어 화자의 3,400만 개의 발언이 포함될 수 있다. 제3 화자 인식 모델(V3)은 가변 길이 윈도우를 사용하여 제2 화자 인식 모델(V2)을 업데이트한다. 그 결과는 DER의 가장 큰 개선이 화자 인식 모델 형식(V2)을 V3로 업그레이드하는데 있다고 제안한다. UIS_RNN은 동일한 화자 인식 모델을 사용할 때 스펙트럼 오프라인 클러스터링보다 현저히 우수하다. UIS-RNN은 추론 중에 온라인 방식으로 화자 라벨들을 예측한다는 점도 중요하다. 비지도 클러스터링 알고리즘이 온라인으로 수행되는 경우, 일반적으로 스펙트럼 클러스터링과 같은 오프라인 클러스터링 알고리즘보다 성능이 훨씬 떨어진다. 또한, 추가 트레이닝 데이터에 대해 트레이닝되었을 때 DER이 UIS-RNN에 대해 개선되었으므로 UIS-RNN 모델이 더 많은 예제에서 학습하는 것이 이점이 있음을 나타낸다.

도 5는 수신된 음성 발언(120)에 대해 화자 분리을 수행하는 방법(500)에 대한 동작들의 예시적인 배열의 흐름도이다. 데이터 처리 하드웨어(112, 144)는 메모리 하드웨어(114, 146)에 저장된 명령들을 실행함으로써 방법(500)에 대한 동작들을 실행할 수 있다. 동작(502)에서, 방법(500)은 음성 발언(120)을 복수의 세그먼트(220)로 분할하는 단계를 포함한다. 세그먼트(220)는 고정 길이 세그먼트 또는 가변 길이 세그먼트를 포함할 수 있다. 음성 발언의 각 세그먼트에 대해, 방법(500)은 동작(504)에서, 세그먼트(220)로부터 화자-식별 임베딩(240)을 추출하는 단계를 포함하고, 동작(506)에서, 특징 입력으로서 화자-식별 임베딩(240)을 수신하도록 구성된 확률적 생성 모델(300)을 사용하여 세그먼트(220)에 대한 가능(한) 화자들(262)에 대한 확률 분포를 예측하는 단계를 포함한다. 화자-식별 임베딩(240)은 일부 예에서 d-벡터를 포함할 수 있다. 다른 예에서, 화자-식별 임베딩(240)은 i-벡터를 포함한다. 동작(508)에서, 방법(500)은 대응하는 세그먼트(220)에 대한 가능 화자들(262)에 대한 확률 분포에 기초하여 음성 발언(120)의 각 세그먼트(220)에 화자 라벨(250)을 할당하는 단계를 포함한다.

확률적 생성 모델(300)은 트레이닝 음성 발언의 코퍼스에 대해 트레이닝되며, 여기서 각 발언은 복수의 트레이닝 세그먼트(220T)로 분할된다. 각각의 트레이닝 고정 길이 세그먼트(220T)는 대응하는 화자 식별 임베딩(240T) 및 대응하는 화자 라벨(250T)을 포함한다. 확률적 생성 모델(300)은 거리 의존형 중식 레스토랑 프로세스를 적용함으로써 각 세그먼트(220)에 대해 가능 화자들(262)에 대한 확률 분포를 예측할 수 있다. 확률적 생성 모델(300)은 순환 신경망(RNN)을 포함할 수 있으며, 각 화자는 다른 화자의 RNN 인스턴스와 정보를 공유하지 않는 해당 RNN 인스턴스에 의해 모델링된다.

소프트웨어 애플리케이션(즉, 소프트웨어 리소스)은 컴퓨팅 디바이스로 하여금 작업을 수행하게 하는 컴퓨터 소프트웨어를 지칭할 수 있다. 일부 예에서, 소프트웨어 애플리케이션은 "애플리케이션", "앱" 또는 "프로그램"으로 지칭될 수 있다. 예시적인 애플리케이션에는 시스템 진단 애플리케이션, 시스템 관리 애플리케이션, 시스템 유지 관리 애플리케이션, 워드 프로세싱 애플리케이션, 스프레드 시트 애플리케이션, 메시징 애플리케이션, 미디어 스트리밍 애플리케이션, 소셜 네트워킹 애플리케이션 및 게임 애플리케이션이 포함되지만 이에 국한되지 않는다.

비-일시적 메모리는 컴퓨팅 디바이스에 의해 사용하기 위해 임시 또는 영구적으로 프로그램(예를 들어, 명령 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는데 사용되는 물리적 디바이스일 수 있다. 비-일시적 메모리는 휘발성 및/또는 비-휘발성 어드레서블 반도체 메모리일 수 있다. 비-휘발성 메모리의 예로는 플래시 메모리 및 판독전용 메모리(ROM/(프로그램 가능 판독 전용 메모리(PROM)/소거 가능 프로그램 가능 판독 전용 메모리(EPROM)/전자적으로 소거 가능한 프로그램 가능 판독 전용 메모리(EEPROM)(예를 들어, 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨)를 포함하지만 이에 한정되지 않는다. 휘발성 메모리의 예로는 RAM, DRAM, SRAM, PCM(Phase Change Memory), 디스크 또는 테이프 등이 있다.

도 6은 본 문서에 설명된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적인 컴퓨팅 디바이스(600)의 개략도이다. 컴퓨팅 디바이스(600)는 랩탑, 데스크탑, 워크 스테이션, 개인용 디지털 어시스턴트, 서버, 블레이드 서버, 메인 프레임 및 기타 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내도록 의도된다. 본 명세서에 도시된 컴포넌트, 이들의 연결 및 관계 및 기능은 예시일 뿐이며본 문서에서 설명 및/또는 청구된 발명의 구현을 제한하려는 것은 아니다.

컴퓨팅 디바이스(600)는 프로세서(610), 메모리(620), 저장 디바이스(630), 메모리(620) 및 고속 확장 포트(650)에 연결되는 고속 인터페이스/제어기(640) 및 저속 버스(670) 및 저장 디바이스(630)에 연결되는 저속 인터페이스/제어기(660)를 포함한다. 각 컴포넌트(610, 620, 630, 640, 650, 660)는 다양한 버스를 사용하여 상호 연결되며, 공통 마더 보드상에 또는 적절한 다른 방식으로 장착될 수 있다. 프로세서(610)는 컴퓨팅 디바이스(600) 내에서 실행하기 위한 명령들을 처리할 수 있으며, 고속 인터페이스(640)에 연결된 디스플레이(680)와 같은 외부 입/출력 디바이스에 그래픽 사용자 인터페이스(GUI)에 대한 그래픽 정보를 표시하기 위해 메모리(620) 또는 저장 디바이스(630)에 저장된 명령을 포함한다. 다른 구현에서, 다중 프로세서 및/또는 다중 버스가 다중 메모리 및 메모리 유형과 함께 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스(600)는 필요한 동작들의 일부를 제공하는 각 디바이스(예를 들어, 서버 뱅크, 블레이드 서버 그룹 또는 다중 프로세서 시스템)와 연결될 수 있다.

메모리(620)는 컴퓨팅 디바이스(600) 내에 비-일시적으로 정보를 저장한다. 메모리(620)는 컴퓨터 판독 가능 매체, 휘발성 메모리 유닛(들) 또는 비-휘발성 메모리 유닛(들)일 수 있다. 비-일시적 메모리(620)는 컴퓨팅 디바이스(600)에 의해 사용하기 위해 임시 또는 영구적으로 프로그램(예를 들어, 명령 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는데 사용되는 물리적 디바이스일 수 있다. 비-휘발성 메모리의 예로는 플래시 메모리 및 ROM/PROM/EPROM/EEPROM)(예를 들어, 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨)이 포함되지만 이에 한정되지 않는다. 휘발성 메모리의 예로는 RAM, DRAM, SRAM, PCM, 디스크 또는 테이프 등이 있다.

저장 디바이스(630)는 컴퓨팅 디바이스(600)에 대용량 저장 디바이스를 제공할 수 있다. 일부 구현에서, 저장 디바이스(630)는 컴퓨터 판독 가능 매체이다. 다양한 다른 구현에서, 저장 디바이스(630)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스 또는 테이프 디바이스, 플래시 메모리 또는 기타 유사한 솔리드 스테이트 메모리 디바이스 또는 저장 영역 네트워크 또는 기타 구성의 디바이스를 포함하는 디바이스 어레이일 수 있다. 추가 구현에서, 컴퓨터 프로그램 제품은 정보 매체에 유형적으로 구현된다. 컴퓨터 프로그램 제품에는 실행시 위에서 설명한 것과 같은 하나 이상의 방법을 수행하는 명령들이 포함되어 있다. 정보 매체는 메모리(620), 저장 디바이스(630) 또는 프로세서(610)상의 메모리와 같은 컴퓨터 판독 가능 매체 또는 기계 판독 가능 매체이다.

고속 제어기(640)는 컴퓨팅 디바이스(600)에 대한 대역폭 집약적 동작들을 관리하는 반면, 저속 제어기(660)는 낮은 대역폭 집약적 동작들을 관리한다. 이러한 업무 할당은 예시일 뿐이다. 일부 구현에서, 고속 제어기(640)는 메모리(620), 디스플레이(680)(예를 들어, 그래픽 프로세서 또는 가속기를 통해) 및 다양한 확장 카드(미도시)를 수용할 수 있는 고속 확장 포트(650)에 결합된다. 일부 구현에서, 저속 제어기(660)는 저장 디바이스(630) 및 저속 확장 포트(690)에 결합된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트(690)는 예를 들어, 네트워크 어댑터를 통해 키보드, 포인팅 디바이스, 스캐너 또는 스위치 또는 라우터와 같은 네트워킹 디바이스와 같은 하나 이상의 입/출력 디바이스에 연결될 수 있다.

컴퓨팅 디바이스(600)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 이는 표준 서버(600a)로서 또는 이러한 서버(600a)의 그룹에서 여러 번, 랩탑 컴퓨터(600b) 또는 랙 서버 시스템(600c)의 일부로서 구현될 수 있다.

본 명세서에 설명된 시스템 및 기술의 다양한 구현은 디지털 전자 및/또는 광학 회로, 집적 회로, 특별히 설계된 ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현은 데이터 및 명령을 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스로부터 수신하고 데이터를 이들로 전송하도록 결합된 특수 또는 범용일 수 있는 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 가능 및/또는 해석 가능한 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있다. 및 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스에 대한 명령을 포함한다.

이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드라고도 함)은 프로그램 가능한 프로세서에 대한 기계 명령들을 포함하며, 고급 절차 및/또는 개체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에서 사용된 "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"라는 용어는 기계 판독 가능 신호로서 기계 명령들을 수신하는 기계 판독 가능 매체를 포함하여 기계 명령 및/또는 데이터를 제공하는데 사용되는 컴퓨터 프로그램 제품, 비-일시적 컴퓨터 판독 가능 매체, 장치 및/또는 디바이스(예를 들어, 자기 디스크, 광학 디스크, 메모리, 프로그램 가능 논리 디바이스(PLD))를 지칭한다. "기계 판독 가능 신호"라는 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하는데 사용되는 모든 신호를 지칭한다.

본 명세서에 설명된 프로세스 및 논리 흐름은 데이터 처리 하드웨어라고도 지칭되는 하나 이상의 프로그램 가능 프로세서에 의해 수행될 수 있으며, 하나 이상의 컴퓨터 프로그램을 실행하여 입력 데이터를 조작하고 출력을 생성함으로써 기능을 수행할 수 있다. 프로세스 및 로직 흐름은 FPGA(필드 프로그램 가능 게이트 어레이) 또는 ASIC(애플리케이션 특정 집적 회로)와 같은 특수 목적 로직 회로에 의해 수행될 수도 있다. 컴퓨터 프로그램의 실행에 적합한 프로세서는 예를 들어 일반 및 특수 목적의 마이크로 프로세서와 모든 종류의 디지털 컴퓨터의 하나 이상의 프로세서를 포함한다. 일반적으로 프로세서는 판독 전용 메모리나 랜덤 액세스 메모리 또는 둘 모두로부터 명령과 데이터를 수신한다. 컴퓨터의 필수 요소는 명령을 수행하는 프로세서와 명령 및 데이터를 저장하는 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스, 예를 들어 자기, 광 자기 디스크 또는 광 디스크로부터 데이터를 수신하거나 데이터를 전송하거나 둘 모두를 포함하거나 작동 가능하게 결합된다. 그러나 컴퓨터에는 이러한 디바이스가 필요하지 않다. 컴퓨터 프로그램 명령 및 데이터 저장에 적합한 컴퓨터 판독 가능 매체는 반도체 메모리 디바이스(예를 들어 EPROM, EEPROM 및 플래시 메모리 디바이스); 자기 디스크(예를 들어 내부 하드 디스크 또는 이동식 디스크); 광 자기 디스크; 및 CD ROM 및 DVD-ROM 디스크를 포함하는 모든 형태의 비-휘발성 메모리, 매체 및 메모리 디바이스를 포함한다. 프로세서와 메모리는 특수 목적 논리 회로에 의해 보완되거나 통합될 수 있다.

사용자와의 상호 작용을 제공하기 위해, 본 개시의 하나 이상의 양태는 사용자에게 정보를 표시하기위한 디스플레이 디바이스(예를 들어 CRT(음극선 관), LCD(액정 디스플레이 모니터 또는 터치 스크린) 및 선택적으로 사용자가 컴퓨터에 입력을 제공할 수있는 키보드 및 포인팅 디바이스(예를 들어 마우스 또는 트랙볼)에서 구현될 수 있다. 사용자와의 상호 작용을 제공하기 위해 다른 종류의 디바이스도 사용할 수 있는데, 예를 들어, 사용자에게 제공되는 피드백은 예를 들어 시각적 피드백, 청각적 피드백 또는 촉각 적 피드백과 같은 모든 형태의 감각 피드백 일 수 있으며, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함한 모든 형태로 수신될 수 있다. 또한, 컴퓨터는 예를 들어 웹 브라우저로부터 수신된 요청에 응답하여 사용자의 클라이언트 디바이스의 웹 브라우저로 웹 페이지를 전송함으로써 사용자가 사용하는 디바이스로 문서를 전송하고 문서를 수신하여 사용자와 상호 작용할 수 있다.

다수의 구현이 설명되었다. 그럼에도 불구하고, 본 개시의 사상 및 범위를 벗어나지 않고 다양한 변형이 이루어질 수 있음을 이해할 것이다. 따라서, 다른 구현은 다음 청구항의 범위 내에 있다.

Claims

데이터 처리 하드웨어에서 실행될 때 데이터 처리 하드웨어로 하여금 동작들을 수행하도록 하는 컴퓨터 구현 방법으로서, 상기 동작들은:
음성(speech) 발언에 대응하는 오디오 데이터를 수신하는 단계와;
오디오 데이터를 복수의 세그먼트로 분할하는 단계와; 그리고
복수의 세그먼트 중의 초기 음성 세그먼트 이후에 발생하는 현재 음성 세그먼트에 대해:
현재 음성 세그먼트로부터 현재 화자 식별 임베딩을 추출하는 단계;
현재 음성 세그먼트로부터 추출된 현재 화자 식별 임베딩을 입력으로 수신하도록 구성된 신경망 모델을 사용하여,
대응 화자 라벨과 연관된 하나 이상의 기존 화자 각각에 대해, 기존 화자와 연관된 상기 대응 화자 라벨에 할당된 대응 기존 화자 식별 임베딩에 기초하여 현재 화자 식별 임베딩이 기존 화자를 포함할 확률을 예측하고, 그리고
현재 화자 식별 임베딩이 새로운 화자를 포함할 확률을 예측함으로써, 현재 음성 세그먼트에 대한 가능한 화자의 확률 분포를 예측하는 단계; 및
현재 음성 세그먼트에 대한 가능한 화자의 확률 분포에 기초하여, 현재 화자 식별 임베딩에,
새로운 화자와 연관된 새로운 화자 라벨, 또는
하나 이상의 기존 화자 중 하나와 연관된 대응 화자 라벨 중 하나로서 현재 화자 라벨을 할당하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
오디오 데이터를 분할하는 단계는,
오디오 데이터를 복수의 비-중첩 음성 세그먼트로 분할하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제2항에 있어서,
오디오 데이터를 분할하는 단계는,
오디오 데이터를 복수의 비-중첩 음성 세그먼트로 분할하도록 구성된 음성 활동 검출기(VAD)를 사용하여 오디오 데이터를 분할하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
동작들은,
복수의 음성 세그먼트 중의 초기 음성 세그먼트에 대해:
초기 음성 세그먼트로부터 제1 화자 식별 임베딩을 추출하는 단계와; 그리고
제1 화자와 연관된 제1 화자 라벨을 제1 화자 식별 임베딩에 할당하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
현재 음성 세그먼트로부터 현재 화자 식별 임베딩을 추출하는 단계는,
현재 음성 세그먼트로부터 d-벡터를 추출하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
현재 음성 세그먼트로부터 현재 화자 식별 임베딩을 추출하는 단계는,
현재 음성 세그먼트로부터 i-벡터를 추출하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
동작들은,
음성 발언을 대응 텍스트로 전사하는 단계와; 그리고
현재 화자 라벨에 기초하여 텍스트에 주석을 다는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
오디오 데이터를 복수의 세그먼트로 분할하는 단계는,
오디오 데이터를 복수의 고정 길이 세그먼트로 분할하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
오디오 데이터를 복수의 세그먼트로 분할하는 단계는,
오디오 데이터를 복수의 가변 길이 세그먼트로 분할하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
데이터 처리 하드웨어는 사용자 디바이스 또는 분산 시스템에 상주하는 것을 특징으로 하는 컴퓨터 구현 방법.
시스템으로서,
데이터 처리 하드웨어;
데이터 처리 하드웨어와 통신하고 데이터 처리 하드웨어에 의해 실행될 때 데이터 처리 하드웨어로 하여금 동작들을 수행하게 하는 명령들을 저장하는 메모리 하드웨어를 포함하고, 상기 동작들은:
음성 발언에 대응하는 오디오 데이터를 수신하는 동작과;
오디오 데이터를 복수의 세그먼트로 분할하는 동작과; 그리고
복수의 세그먼트 중의 초기 음성 세그먼트 이후에 발생하는 현재 음성 세그먼트에 대해:
현재 음성 세그먼트로부터 현재 화자 식별 임베딩을 추출하는 동작;
현재 음성 세그먼트로부터 추출된 현재 화자 식별 임베딩을 입력으로 수신하도록 구성된 신경망 모델을 사용하여,
대응 화자 라벨과 연관된 하나 이상의 기존 화자 각각에 대해, 기존 화자와 연관된 상기 대응 화자 라벨에 할당된 대응 기존 화자 식별 임베딩에 기초하여 현재 화자 식별 임베딩이 기존 화자를 포함할 확률을 예측하고, 그리고
현재 화자 식별 임베딩이 새로운 화자를 포함할 확률을 예측함으로써, 현재 음성 세그먼트에 대한 가능한 화자의 확률 분포를 예측하는 동작; 및
현재 음성 세그먼트에 대한 가능한 화자의 확률 분포에 기초하여, 현재 화자 식별 임베딩에,
새로운 화자와 연관된 새로운 화자 라벨, 또는
하나 이상의 기존 화자 중 하나와 연관된 대응 화자 라벨 중 하나로서 현재 화자 라벨을 할당하는 동작을 포함하는 것을 특징으로 하는 시스템.
제11항에 있어서,
오디오 데이터를 분할하는 동작은,
오디오 데이터를 복수의 비-중첩 음성 세그먼트로 분할하는 동작을 포함하는 것을 특징으로 하는 시스템.
제12항에 있어서,
오디오 데이터를 분할하는 동작은,
오디오 데이터를 복수의 비-중첩 음성 세그먼트로 분할하도록 구성된 음성 활동 검출기(VAD)를 사용하여 오디오 데이터를 분할하는 동작을 포함하는 것을 특징으로 하는 시스템.
제11항에 있어서,
동작들은,
복수의 음성 세그먼트 중의 초기 음성 세그먼트에 대해:
초기 음성 세그먼트로부터 제1 화자 식별 임베딩을 추출하는 동작과; 그리고
제1 화자와 연관된 제1 화자 라벨을 제1 화자 식별 임베딩에 할당하는 동작을 더 포함하는 것을 특징으로 하는 시스템.
제11항에 있어서,
현재 음성 세그먼트로부터 현재 화자 식별 임베딩을 추출하는 동작은,
현재 음성 세그먼트로부터 d-벡터를 추출하는 동작을 포함하는 것을 특징으로 하는 시스템.
제11항에 있어서,
현재 음성 세그먼트로부터 현재 화자 식별 임베딩을 추출하는 동작은,
현재 음성 세그먼트로부터 i-벡터를 추출하는 동작을 포함하는 것을 특징으로 하는 시스템.
제11항에 있어서,
동작들은,
음성 발언을 대응 텍스트로 전사하는 동작과; 그리고
현재 화자 라벨에 기초하여 텍스트에 주석을 다는 동작을 더 포함하는 것을 특징으로 하는 시스템.
제11항에 있어서,
오디오 데이터를 복수의 세그먼트로 분할하는 동작은,
오디오 데이터를 복수의 고정 길이 세그먼트로 분할하는 동작을 포함하는 것을 특징으로 하는 시스템.
제11항에 있어서,
오디오 데이터를 복수의 세그먼트로 분할하는 동작은,
오디오 데이터를 복수의 가변 길이 세그먼트로 분할하는 동작을 포함하는 것을 특징으로 하는 시스템.
제11항에 있어서,
데이터 처리 하드웨어는 사용자 디바이스 또는 분산 시스템에 상주하는 것을 특징으로 하는 시스템.