KR102633499B1 - 완전 지도식 화자 분리 - Google Patents

완전 지도식 화자 분리 Download PDF

Info

Publication number
KR102633499B1
KR102633499B1 KR1020237035947A KR20237035947A KR102633499B1 KR 102633499 B1 KR102633499 B1 KR 102633499B1 KR 1020237035947 A KR1020237035947 A KR 1020237035947A KR 20237035947 A KR20237035947 A KR 20237035947A KR 102633499 B1 KR102633499 B1 KR 102633499B1
Authority
KR
South Korea
Prior art keywords
speaker
current
segment
audio data
segments
Prior art date
Application number
KR1020237035947A
Other languages
English (en)
Other versions
KR20230152161A (ko
Inventor
총 왕
아오난 장
콴 왕
젠야오 주
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20230152161A publication Critical patent/KR20230152161A/ko
Application granted granted Critical
Publication of KR102633499B1 publication Critical patent/KR102633499B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L15/075Adaptation to the speaker supervised, i.e. under machine guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stereophonic System (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

방법(500)은 음성 발언(120)을 수신하는 단계 및 음성 발언을 복수의 세그먼트(220)로 분할하는 단계를 포함한다. 음성 발언의 각 부분에 대해, 방법은 또한 세그먼트로부터 화자-식별 임베딩(240)을 추출하는 단계 및 추출된 화자-식별 임베딩을 특징 입력으로 수신하도록 구성된 확률적 생성 모델(300)을 사용하여 세그먼트에 대해 가능한 화자들(262)의 확률 분포를 예측하는 단계를 포함한다. 확률적 생성 모델은 복수의 트레이닝 세그먼트(220T)로 각각 분할된 트레이닝 음성 발언들의 코퍼스에 대해 트레이닝된다. 각 트레이닝 세그먼트에는 대응하는 화자-식별 임베딩 및 대응하는 화자 라벨(250)이 포함된다. 방법은 또한 대응하는 세그먼트에 대한 가능한 화자들의 확률 분포에 기초하여 발언의 각 세그먼트에 화자 라벨을 할당하는 단계를 포함한다.

Description

완전 지도식 화자 분리{FULLY SUPERVISED SPEAKER DIARIZATION}
본 개시는 완전 지도식 화자 분리에 관한 것이다.
화자 분리(diarization)는 화자 신원에 따라 입력 오디오 스트림을 동종의 세그먼트드로 분할하는 과정이다. 다수의 화자가 있는 환경에서, 화자 분리는 "누가 언제 말하고 있지"라는 질문에 답변하고 멀티미디어 정보 검색, 화자 턴 분석 및 오디오 처리를 포함하는 다양한 애플리케이션을 가진다. 특히, 화자 분리 시스템은 음향 음성 인식 정확도를 크게 향상시킬 수 있는 잠재적인 화자 경계를 생성할 수 있다.
본 개시의 일 양태는 데이터 처리 하드웨어에서, 음성 발언를 수신하는 단계 및 데이터 처리 하드웨어에 의해, 음성 발언을 복수의 세그먼트로 분할하는 단계를 포함하는 화자 분리 방법을 제공한다. 음성 발언의 각 세그먼트에 대해, 방법은 또한 데이터 처리 하드웨어에 의해, 세그먼트로부터 화자-식별 임베딩을 추출하는 단계; 및 데이터 처리 하드웨어에 의해, 추출된 화자-식별 임베딩을 특징 입력으로서 수신하도록 구성된 확률적 생성 모델을 사용하여 세그먼트에 대한 가능한 화자들의 확률 분포를 예측하는 단계를 포함한다. 확률적 생성 모델은 트레이닝 음성 발언들의 코퍼스에 대해 트레이닝되고, 각 트레이닝 음성 발언은 복수의 트레이닝 세그먼트로 분할된다. 각 트레이닝 세그먼트에는 대응하는 화자-식별 임베딩 및 대응하는 화자 라벨이 포함된다.
본 개시의 구현은 다음의 선택적 특징들 중 하나 이상을 포함할 수 있다. 일부 구현에서, 확률적 생성 모델은 거리 종속형 중식 레스토랑 프로세스를 적용하여 각 세그먼트에 대한 가능한 화자들의 확률 분포를 예측한다. 확률적 생성 모델은 복수의 세그먼트의 초기 세그먼트 이후에 발생하는 각 세그먼트에 대해, 화자가 대응하는 세그먼트에 대해 변경되지 않을 확률을 예측하기 위한 특징 입력으로서 이전 인접 세그먼트로부터 추출된 화자-식별 임베딩 및 이전 인접 세그먼트에 할당된 화자 레이블을 수신하도록 더 구성된다. 일부 예에서, 음성 발언의 각 세그먼트에 화자 라벨을 할당하는 단계는 대응하는 세그먼트에 대한 가능한 화자들의 확률 분포에 대해 그리디 검색을 실행함으로써 음성 발언의 각 세그먼트에 화자 라벨을 할당하는 단계를 포함한다.
일부 예에서, 세그먼트에 대한 가능한 화자들의 확률 분포를 예측하는 단계는 세그먼트가 복수의 세그먼트의 초기 세그먼트 이후에 발생하는 경우: (1) 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 세그먼트에 대해 변경되지 않을 확률을 예측하는 단계; (2) 하나 이상의 이전 세그먼트에 이전에 할당된 대응하는 화자 라벨과 관련된 각각의 기존 화자에 대해, 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 기존 화자로 변경될 확률을 예측하는 단계; 및 (3) 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 새로운 화자로 변경될 확률을 예측하는 단계를 포함한다. 일부 시나리오에서, 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 기존 화자로 변경될 확률은 기존 화자와 관련된 대응하는 화자 라벨이 이전에 할당된 인스턴스의 수에 비례한다. 추가적으로 또는 대안적으로, 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 새로운 화자로 변경될 확률은 화자 할당 확률 파라미터(α)에 비례한다.
일부 구현에서, 세그먼트로부터 화자-식별 임베딩을 추출하는 단계는 세그먼트로부터 d-벡터를 추출하는 단계를 포함한다. 다른 구현에서, 세그먼트로부터 화자-식별 임베딩을 추출하는 단계는 세그먼트로부터 i-벡터를 추출하는 단계를 포함한다. 일부 구성에서, 확률적 생성 모델은 순환 신경망(RNN)을 포함한다. 이러한 구성에서, RNN은 N개의 게이트형 반복 단위(GRU) 셀을 갖는 은닉 계층과, 각각 N개의 노드를 가지며 은닉 계층의 ReLU(rectified linear unit) 활성화를 적용하도록 구성된 2개의 완전 연결 계층을 포함할 수 있다. 각 GRU 셀은 쌍곡 탄젠트(tanh) 활성화를 적용하도록 구성된다. 추가적으로 또는 대안적으로, 방법은 또한 데이터 처리 하드웨어에 의해, 음성 발언을 대응하는 텍스트로 전사하는 단계; 및 데이터 처리 하드웨어에 의해, 음성 발언의 각 세그먼트에 할당된 화자 라벨에 기초하여 텍스트에 주석을 다는 단계를 포함한다. 음성 발언을 복수의 세그먼트로 분할하는 단계는 음성 발언을 복수의 고정 길이 세그먼트로 분할하는 단계를 포함한다.
본 개시의 다른 양태는 데이터 처리 하드웨어 및 데이터 처리 하드웨어와 통신하는 메모리 하드웨어를 포함하는 화자 분리를 위한 시스템을 제공한다. 메모리 하드웨어는 데이터 처리 하드웨어에 의해 실행될 때 데이터 처리 하드웨어가 음성 발언을 수신하는 동작 및 음성 발언을 복수의 세그먼트로 분할하는 동작을 포함하는 동작들을 수행하게 하는 명령들을 저장한다. 음성 발언의 각 세그먼트에 대해, 동작들은 또한 세그먼트로부터 화자-식별 임베딩을 추출하는 동작; 및 추출된 화자-식별 임베딩을 특징 입력으로서 수신하도록 구성된 확률적 생성 모델을 사용하여 세그먼트에 대한 가능한 화자들의 확률 분포를 예측하는 동작을 포함한다. 확률적 생성 모델은 트레이닝 음성 발언들의 코퍼스에 대해 트레이닝되고, 각 트레이닝 음성 발언은 복수의 트레이닝 세그먼트로 분할된다. 각 트레이닝 세그먼트에는 대응하는 화자-식별 임베딩 및 대응하는 화자 라벨이 포함된다.
이 양태는 다음의 선택적 특징들 중 하나 이상을 포함할 수 있다. 일부 구현에서, 확률적 생성 모델은 거리 의존형 중식 레스토랑 프로세스를 적용함으로써 각 세그먼트에 대한 가능한 화자들의 확률 분포를 예측한다. 확률적 생성 모델은 복수의 세그먼트의 초기 세그먼트 이후에 발생하는 각 세그먼트에 대해, 화자가 대응하는 세그먼트에 대해 변경되지 않을 확률을 예측하기 위한 특징 입력으로서 이전 인접 세그먼트로부터 추출된 화자-식별 임베딩 및 이전 인접 세그먼트에 할당된 화자 레이블을 수신하도록 더 구성된다. 일부 예에서, 음성 발언의 각 세그먼트에 화자 라벨을 할당하는 동작은 대응하는 세그먼트에 대한 가능한 화자들의 확률 분포에 대해 그리디 검색을 실행함으로써 음성 발언의 각 세그먼트에 화자 라벨을 할당하는 동작을 포함한다.
일부 예에서, 세그먼트에 대한 가능한 화자들의 확률 분포를 예측하는 동작은 세그먼트가 복수의 초기 세그먼트 이후에 발생하는 경우: (1) 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 세그먼트에 대해 변경되지 않을 확률을 예측하는 동작; (2) 하나 이상의 이전 세그먼트에 이전에 할당된 대응하는 화자 라벨과 관련된 각각의 기존 화자에 대해, 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 기존 화자로 변경될 확률을 예측하는 동작; 및 (3) 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 새로운 화자로 변경될 확률을 예측하는 동작을 포함한다. 일부 사나리오에서, 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 기존 화자로 변경될 확률은 기존 화자와 관련된 대응하는 화자 라벨이 이전에 할당된 인스턴스의 수에 비례한다. 추가적으로 또는 대안적으로, 이전 인접 세그먼트에 할당된 화자 라벨과 관련된 현재 화자가 새로운 화자로 변경될 확률은 화자 할당 확률 파라미터(α)에 비례한다.
일부 구현에서, 세그먼트로부터 화자-식별 임베딩을 추출하는 동작은 세그먼트로부터 d-벡터를 추출하는 동작을 포함한다. 다른 구현에서, 세그먼트로부터 화자-식별 임베딩을 추출하는 동작은 세그먼트로부터 i-벡터를 추출하는 동작을 포함한다. 일부 구성에서, 확률적 생성 모델은 순환 신경망(RNN)을 포함한다. 이러한 구성에서, RNN은 N개의 게이트형 반복 단위(GRU) 셀을 갖는 은닉 계층과, 각각 N개의 노드를 가지며 은닉 계층의 ReLU 활성화를 적용하도록 구성된 2개의 완전 연결 계층을 포함할 수 있다. 각 GRU 셀은 쌍곡 탄젠트(tanh) 활성화를 적용하도록 구성된다. 추가적으로 또는 대안적으로, 동작들은 음성 발언을 대응하는 텍스트로 전사하는 동작; 및 음성 발언의 각 세그먼트에 할당된 화자 라벨에 기초하여 텍스트에 주석을 다는 동작을 포함할 수 있다. 음성 발언을 복수의 세그먼트로 분할하는 동작은 음성 발언을 복수의 고정 길이 세그먼트로 분할하는 동작을 포함한다.
본 개시의 하나 이상의 구현의 세부 사항은 첨부된 도면 및 이하의 설명에서 설명된다. 다른 양태, 특징 및 장점은 설명 및 도면 및 청구 범위로부터 명백해질 것이다.
도 1a는 음성 발언에 화자 라벨을 할당하기 위한 예시적인 시스템을 개략적으로 도시한다.
도 1b는 도 1a의 시스템의 확률적 생성 모델을 트레이닝하기 위해 지도 트레이닝을 사용하는 예를 개략적으로 도시한다.
도 2는 확률적 생성 모델을 사용하는 화자 분리의 예시적인 프로세스를 개략적으로 도시한다.
도 3a 내지 3d는 음성 발언의 고정 길이 세그먼트에 대해 가능 화자들에 대한 확률 분포를 예측하도록 구성된 예시적인 순환 신경망 모델을 개략적으로 도시한다.
도 4는 다양한 화자 인식 모델에 대한 비지도 데이터 세트 및 지도 데이터 세트에 대해 트레이닝된 분리 시스템에 대한 분리 오류율(DER)을 나타내는 테이블이다.
도 5는 음성 발언에 화자 라벨을 할당하는 방법에 대한 동작들의 예시적인 배열의 흐름도이다.
도 6은 본 명세서에 설명된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적인 컴퓨팅 디바이스의 개략도이다.
다양한 도면에서 유사한 참조 기호는 유사한 요소를 나타낸다.
자동 음성 인식(ASR) 시스템은 일반적으로 주어진 입력 오디오 신호에 단 하나의 화자가 존재한다고 가정하는 음성 처리 알고리즘에 의존한다. 여러 화자의 존재를 포함하는 입력 오디오 신호는 잠재적으로 이러한 음성 처리 알고리즘을 방해하여 ASR 시스템에 의해 출력되는 부정확한 음성 인식 결과로 이어질 수 있다. 이와 같이, 화자 분리(speaker diarization)는 더 큰 대화에서 동일한 화자의 음성을 분할(segment)하여 누가 말하는지(화자 인식/식별) 구체적으로 결정하는 것이 아니라 누군가가 말하는 시기를 결정하는 프로세스이다. 다시 말해, 화자 분리에는 짧은 발언(utterance)을 사용하는 일련의 화자 인식 작업이 포함되며 주어진 대화의 두 세그먼트가 동일한 개인에 의해 말해지고 대화의 모든 세그먼트에 대해 반복되었는지 여부를 결정한다.
기존의 화자 분리 시스템은 일반적으로 음성 분할 모듈, 임베딩 추출 모듈 및 클러스터링 모듈과 같은 비교적 독립적인 다수의 컴포넌트를 포함하지만 이에 한정되지 않는다. 음성 분할 모듈은 일반적으로 입력 발언에서 비-음성 부분을 제거하고, 입력 발언을 작은 고정 길이 세그먼트로 분할하도록 구성되는 반면, 임베딩 추출 모듈은 각각의 고정 길이 세그먼트로부터, 대응하는 화자-식별(speaker-discriminative) 임베딩을 추출하도록 구성된다. 화자-식별 임베딩은 i-벡터 또는 d-벡터를 포함할 수 있다. 기존 화자 분리 시스템에서 사용하는 클러스터링 모듈은 입력 발언에 존재하는 화자의 수를 결정하고 각 고정 길이 세그먼트에 화자 식별(예를 들어, 라벨)을 할당하는 작업을 수행한다. 이러한 클러스터링 모듈은 가우스 혼합 모델, 평균 이동 클러스터링, 응집형 계층적 클러스터링, k-평균 클러스터링, 링크 클러스터링 및 스펙트럼 클러스터링을 포함하는 일반적 클러스터링 알고리즘을 사용할 수 있다. 화자 분리 시스템은 또한 추가 제약을 시행함으로써 클러스터링 모듈로부터 출력된 분리 결과를 추가로 세밀하게 구분하기(refine) 위해 추가 재분할 모듈을 사용할 수 있다.
클러스터링 모듈은 모든 화자가 알려지지 않은 것으로 가정되고 클러스터링 알고리즘이 모든 새로운 입력 발언에 대해 새로운/알려지지 않은 화자들을 수용하기 위해 새로운 "클러스터"를 생성할 필요가 있도록 비지도 방식으로 작동한다. 이러한 비지도 프레임 워크의 단점은 타임 스탬프된 화자 라벨 및 지상 실측(ground truth) 정보를 포함하는 라벨링된 대규모 트레이닝 데이터 세트에서 학습에 의해 개선할 수 없다는 것이다. 이 라벨링된 트레이닝 데이터는 많은 도메인 특정애플리케이션에서 쉽게 얻을 수 있기 때문에, 화자 분리 시스템은 분리 결과를 더 경고하고 정확하게 생성함으로써 라벨링된 트레이닝 데이터의 이점을 누릴 수 있다. 또한, 기존의 최첨단 클러스터링 알고리즘은 대부분 오프라인에서 실행되기 때문에, 실시간 시나리오에서 클러스터링하여 분리 결과를 생성하기가 어렵다.
본 명세서의 구현은 온라인(예를 들어, 실시간으로) 분리 결과를 생성하기 위한 완전 지도식(fully supervised) 확률적 생성 모델을 구현하는 화자 분리 시스템에 관한 것이다. 분리 결과는 입력 오디오 신호로부터 분할된 복수의 세그먼트 각각에 대해 예측된 화자 라벨을 포함한다. 비-지도형 클러스터링 알고리즘(예를 들어, k-평균, 스펙트럼 클러스터링, 계층적 클러스터링 등)에 의존하는 일반적으로 사용되는 클러스터링 모듈을 완전 지도식 확률적 생성 모델로 대체함으로써, 화자 분리 시스템은 쉽게 얻을 수 있는 타임 스탬프된 화자 라벨 및 지상 실측 정보로부터 학습에 의해 화자 라벨 예측 정확도를 향상시킬 수 있다. 세그먼트는 고정 길이 또는 가변 길이일 수 있다.
구체적으로, 확률적 생성 모델은 모델이 다른 인스턴스와 동일한 파라미터를 공유하고 무한 수의 RNN 인스턴스를 생성하며 시간 도메인에서 상이한 RNN 인스턴스(즉, 상이한 화자)의 상태를 인터리빙하는 해당 인스턴스로 각 화자를 모델링할 수 있도록 트레이닝을 위해 자연스럽게 타임 스탬프된 화자 라벨들을 통합하는 UIS-RNN(Unbounded interleaved-state recurrent neural network)을 포함한다. 이러한 완전 지도식 프레임 워크는 모델이 베이지안 비-파라메트릭 프로세스를 통해 각 발언 내에서 여러 화자를 자동으로 학습하고 RNN을 통하여 시간을 통해 정보를 전달할 수 있다.
도 1a 및 1b를 참조하면, 일부 구현에서, 시스템(100)은 화자 그룹(예를 들어, 사용자들)(10, 10a-n)로부터 음성 발언(120)을 캡처하고 네트워크(130)를 통해 원격 시스템(140)과 통신하는 사용자 디바이스(110)를 포함한다. 원격 시스템(140)은 스케일러블/탄력적 리소스들(142)을 갖는 분산 시스템(예를 들어, 클라우드 컴퓨팅 환경)일 수 있다. 리소스(142)는 컴퓨팅 리소스(144)(예를 들어, 데이터 처리 하드웨어) 및/또는 저장(storage) 리소스(146)(예를 들어, 메모리 하드웨어)를 포함한다. 일부 구현에서, 사용자 디바이스(110) 및/또는 원격 시스템(140)은 사용자 디바이스(110)로부터 상기 캡처된 발언들(120)에 대응하는 오디오 데이터(122)를 수신하고, 오디오 데이터(122)를 그로부터 추출된 대응하는 화자-식별 임베딩(240)과 각각 연관된 복수의 세그먼트(220, 220a-n)로 분할하고, 그리고 확률적 생성 모델(300)을 사용하여 각 세그먼트(220)에 할당된 대응하는 화자 라벨(250)을 포함하는 분리 결과(280)를 생성하도록 구성된 분리 시스템(200)을 실행한다. 따라서, 각 세그먼트(220)가 입력 오디오 데이터(122)의 대응하는 시간 윈도우에 대한 대응하는 화자-식별 임베딩(240)을 나타내기 때문에, 분리 결과(280)는 주어진 세그먼트(220) 동안 누가 말하고 있는지를 식별할 뿐만 아니라 인접 세그먼트들(220) 사이에서 화자 변경이 발생하는 시기를 식별하는 타임 스탬프된 화자 라벨들(250)을 수신된 오디오 데이터(122)에 대해 제공한다. 아래에서 더 자세히 설명하면, 확률적 생성 모델은 트레이닝 음성 발언의 코퍼스에 대한 타임 스탬프된 화자 라벨들(250T)을 포함하는 라벨링된 트레이닝 데이터(202)에 대해 트레이닝된다. 세그먼트(220, 220a-n)는 고정 길이 세그먼트 또는 가변 길이 세그먼트를 포함할 수 있다. 본 개시에서는 세그먼트 또는 세그먼트들을 '고정 길이'로 지칭할 수 있지만, 대응하는 세그먼트 또는 세그먼트들은 본 개시의 범위를 벗어나지 않고 유사하게 가변 길이일 수 있다. 더욱이, 분리 시스템(200)은 본 개시의 범위를 벗어나지 않고 사용자 디바이스(110) 또는 원격 시스템(140) 중 하나에서 실행될 수 있다.
일부 예에서, 원격 시스템(140)은 오디오 데이터(122)를 수신하여 대응하는 자동 음성 인식(ASR) 결과(152)로 전사하도록 구성된 ASR 모듈(150)을 추가로 실행한다. 사용자 디바이스(110)는 원격 시스템(140) 대신에 디바이스상에서 ASR 모듈(150)을 유사하게 실행할 수 있으며, 이는 네트워크 연결을 사용할 수 없거나 (충실도는 낮지만) 빠른 전사가 바람직할 때 유용할 수 있다. 추가적으로 또는 대안적으로, 사용자 디바이스(110)와 원격 시스템(140)는 모두 오디오 데이터(122)가 원격 시스템을 통해 또는 이들의 일부 조합을 통해 디바이스상에서 전사될 수 있도록 대응하는 ASR 모듈(150)을 실행할 수 있다. 일부 구현에서, ASR 모듈(150)과 분리 시스템(200)는 모두 사용자 디바이스(110)에서 전적으로 실행되며 원격 시스템(140)에 대한 네트워크 연결을 필요로 하지 않는다. ASR 결과(152)는 '전사' 또는 단순히 '텍스트'로 지칭될 수도 있다. ASR 모듈(150)은 분리 시스템(200)과 통신하여, 오디오 데이터(122)에 대한 음성 인식을 개선하기 위해 오디오 데이터(122)와 관련된 분리 결과(280)를 이용할 수 있다. 예를 들어, ASR 모듈(150)은 분리 결과(280)로부터 식별된 상이한 화자들에 대해 상이한 음성 인식 모델(예를 들어, 언어 모델, 운율 모델)을 적용할 수 있다. 추가적으로 또는 대안적으로, ASR 모듈(150) 및/또는 분리 시스템(200)(또는 일부 다른 컴포넌트)은 분리 결과(280)로부터 획득된 각각의 고정 길이 세그먼트(220)에 대해 예측된 상기 타임 스탬프된 화자 라벨들(250)을 사용하여 오디오 데이터(122)의 전사(152)를 인덱싱(색인화)할 수 있다. 예를 들어, 비즈니스 미팅 동안 다수의 동료(예를 들어, 화자들(10)) 간의 대화의 전사는 각 화자가 말한 내용을 식별하기 위해 개별 화자와 전사의 일부를 연관시키도록 화자에 의해 인덱싱될 수 있다.
사용자 디바이스(110)는 데이터 처리 하드웨어(112)와 메모리 하드웨어(114)를 포함한다. 사용자 디바이스(110)는 화자들(10)로부터의 음성 발언(120)을 캡처하여 오디오 데이터(122)(예를 들어, 전기 신호)로 변환하기 위한 오디오 캡처 디바이스(예를 들어, 마이크로폰)를 포함할 수 있다. 일부 구현에서, 데이터 처리 하드웨어(112)는 분리 시스템(200)의 나머지 부분이 원격 시스템(140)에서 실행되는 동안 분리 시스템(200)의 일부를 국부적으로 실행하도록 구성된다. 대안적으로, 데이터 처리 하드웨어(112)는 원격 시스템(140)에서 분리 시스템(200)을 실행하는 대신에 분리 시스템(200)을 실행할 수 있다. 사용자 디바이스(110)는 네트워크(130)를 통해 원격 시스템(140)과 통신할 수 있는 임의의 컴퓨팅 디바이스일 수 있다. 사용자 디바이스(110)는 데스크탑 컴퓨팅 디바이스 및 랩탑, 태블릿, 스마트 폰 및 웨어러블 컴퓨팅 디바이스(예를 들어, 헤드셋 및/또는 시계)와 같은 모바일 컴퓨팅 디바이스를 포함하지만 이에 한정되지 않는다. 사용자 디바이스(110)는 선택적으로 ASR 모듈(150)을 실행하여 오디오 데이터(122)를 대응하는 텍스트(152)로 전사할 수 있다. 예를 들어, 네트워크 통신이 중단되거나 사용할 수 없는 경우, 사용자 디바이스(110)는 분리 시스템(200) 및/또는 ASR 모듈(150)을 국부적으로 실행하여, 오디오 데이터(122)에 대한 분리 결과를 생성하고 및/또는 오디오 데이터(122)의 전사(152)를 생성할 수 있다.
도시된 예에서, 화자들(10)과 사용자 디바이스(110)는 사용자 디바이스(110)가 화자들(10)이 말한 음성 발언(120)을 오디오 데이터(122)(오디오 신호(122)로도 지칭)로 캡처하고 변환하도록 구성된 환경(예를 들어, 방)내에 위치할 수 있다. 예를 들어, 화자들(10)은 회의 중에 대화를 나누는 동료에 해당할 수 있고, 사용자 디바이스(110)는 음성 발언(120)을 녹음하여 오디오 데이터(122)로 변환할 수 있다. 이어서, 사용자 디바이스(110)는 오디오 데이터(122)의 개별 고정 길이 세그먼트(220)에 타임 스탬프된 화자 라벨(250)을 할당하기 위해 오디오 데이터(122)를 분리 시스템(200)으로 제공할 수 있다. 따라서, 분리 시스템(200)은 화자 인식/식별을 통해 누가 말하고 있는지 구체적으로 결정하지 않고 누군가가 말하고 있는 때를 결정하기 위해 오디오 데이터(122)를 처리하는 임무를 갖는다. 일부 예에서, 사용자 디바이스(110)는 화자(10)로부터 원격으로 위치될 수 있다. 예를 들어, 사용자 디바이스(110)는 전화 통화 또는 화상 회의에 참여하는 화자들로부터의 음성 발언(120)을 캡처하는 원격 디바이스(예를 들어, 네트워크 서버)를 포함할 수 있다. 이 시나리오에서, 각각의 화자(10)는 음성 발언(120)을 오디오 데이터(122)로 변환하기 위해 음성 발언(120)을 캡처하고 원격 사용자 디바이스(110)에 제공하는 그들 자신의 디바이스(예를 들어, 전화, 라디오, 컴퓨터, 스마트 워치 등)로 말할 것이다. 물론 이 시나리오에서, 발언들(120)은 각각의 사용자 디바이스에서 처리되고, 분리 시스템(200)에 제공된 오디오 데이터(122)를 추가로 처리할 수 있는 원격 사용자 디바이스(110)로 전송되는 대응 오디오 신호로 변환될 수 있다.
도시된 예에서, 분리 시스템(200)은 분할 모듈(210), 임베딩 모듈(230) 및 화자 라벨 예측기(260)를 포함한다. 분할 모듈(210)은 음성 발언(120)('음성 발언'으로로 지칭됨)에 대응하는 오디오 데이터(122)를 수신하여 오디오 데이터(122)를 복수의 고정 길이 세그먼트(220)로 분할하도록 구성된다. 분할 모듈(210)은 예를 들어, 음성 활동 검출기를 적용함으로써 오디오 데이터(122)로부터 비-음성 부분을 추가로 제거할 수 있다.
임베딩 모듈(230)은 각 고정 길이 세그먼트(220)로부터 화자-식별 임베딩(240)을 추출하도록 구성된다. 이후, 임베딩 모듈(230)은 화자 라벨 예측기(260)에 임베딩 X=(x1, x2,...,xT)의 관찰 시퀀스를 제공하는데, 여기서 시퀀스의 항목(xT)는 오리지널 발언(120)의 오디오 데이터(122)에 있는 대응하는 고정 길이 세그먼트(220)와 관련된 실수값의 화자-식별 임베딩(240)을 나타낸다. 화자-식별 임베딩(240)은 d-벡터 또는 i-벡터와 같은 화자 인자를 포함할 수 있다. 유리하게는, d-벡터는 신경망이 d-벡터를 생성하고 상이한 사용 시나리오에서 다양한 화자 악센트 및 음향 조건에 대해 충분히 견고한 대규모 데이터 세트로 트레이닝될 수 있다는 사실로 인해 분리 성능을 향상시킬 수 있다.
일부 구현에서, 화자 라벨 예측기(260)는 임베딩(X)의 관찰 시퀀스를 수신하고, 확률적 생성 모델(300)을 사용하여 시퀀스의 각 항목(xT)에 대한 가능한 화자들(262)의 확률 분포를 생성/예측한다. 즉, 각 고정 길이 세그먼트(220)에 대해, 화자 라벨 예측기(260)는 고정 길이 세그먼트(220)에 대한 가능한 화자들(262)의 확률 분포를 생성하기 위해 확률적 생성 모델(300)의 특징 입력으로서 임베딩 모듈(230)로부터 추출된 상기 연관된 화자-식별 임베딩(240)을 수신할 수 있다. 화자 라벨 예측기(260)는 고정 길이 세그먼트(220)에 대한 가능한 화자들(262)의 확률 분포에 기초하여 화자 라벨(250)을 오디오 데이터(122)의 각각의 고정 길이 세그먼트(220)에 할당할 수 있다. 일부 예에서, 화자 라벨(250)을 각각의 고정 길이 세그먼트(220)에 할당하는 것은 고정 길이 세그먼트(220)에 대해 가능한 화자들(262)의 확률 분포에 대한 그리디 검색(greedy search)을 실행하는 것을 포함한다.
도시된 예에서, 화자 라벨 예측기(260)는 오디오 데이터(122)의 대응하는 고정 길이 세그먼트(220)에 할당된 화자 라벨(250)을 나타내는 분리 결과(280)를 출력한다. 여기서, 화자 라벨(250)은 일련의 화자 라벨 Y =(y1, y2,...,yT)로 표현될 수 있는데, 여기서 시퀀스의 항목(yt)은 시간(t)에서 임베딩 항목(xt)에 할당된 화자 라벨(250)을 나타낸다. 예를 들어, 시간(t=4)에서, 화자 라벨 항목(y4=3)은 제4 임베딩 항목(x4)에 제3 화자("3")를 할당하는 것에 대응한다. 또한, 분리 결과(280)는 각각의 고정 길이 세그먼트(220)에 대한 화자 변경값(255)을 예측할 수 있다. 도시된 예에서, 화자 변경값(255)은 일련의 변경점 표시자 Z=(z1, z2,...,zT)로 표현될 수 있는데, 여기서 항목(zt)은 시간(t)에서 대응하는 임베딩 항목(xt)에서 화자 변경이 발생하는지 여부를 나타낸다. 일부 구현에서, 각 변경점 표시자(zT)는 이진 표시자이며, 여기서 zt=1은 시간(t)에서의 변경점을 나타내고, zt=0은 바로 앞의 인접한 임베딩 항목(xt-1)에 할당된 화자 라벨(250)로부터 시간(t)에서 화자가 변경되지 않았음을 나타낸다. 도시된 예에서, Y=(1, 1, 2, 3, 2, 2,...,yT), Z =(0, 1, 1, 1, 0)인 경우, 분리 결과(280)가 도 1a에 도시되어 있다. 따라서, 변경점 표시자(Z)의 시퀀스는 화자 라벨(Y)의 시퀀스에 의해 고유하게 결정되지만, 화자 라벨(Y)의 시퀀스는 변경점 표시자(Z)의 시퀀스에 의해 고유하게 결정될 수 없다.
도 1b를 참조하면, 일부 구현에서, 확률적 생성 모델(300)은 복수의 트레이닝 고정 길이 세그먼트(220T)로 각각 분리된 트레이닝 음성 발언의 코퍼스(말뭉치)를 포함하는 완전 라벨링된(fully-labeled) 트레이닝 데이터(202)에 대해 트레이닝되고, 각각의 트레이닝 고정 길이 세그먼트(220T)는 대응하는 화자-식별 임베딩(240T)(예를 들어, d-벡터 또는 i-벡터) 및 대응하는 화자 라벨(250T)을 포함한다. 트레이닝 음성 발언의 코퍼스에 있는 각 트레이닝 음성 발언은 임베딩의 트레이닝 시퀀스 X* =(x*1, x*2,...,x*T)로 표현될 수 있는데, 여기서, 시퀀스의 항목(x*T)는 대응하는 트레이닝 고정 길이 세그먼트(220T)와 연관된 실제값의 화자-식별 임베딩(240T) 및 대응하는 화자 라벨(250T)을 나타낸다. 추가적으로, 완전 라벨링된 트레이닝 데이터(202)는 초기 트레이닝 고정 길이 세그먼트(220T) 이후 각각의 트레이닝 고정 길이 세그먼트(220T)에 대한 화자 변경값(255T)을 포함할 수 있다. 화자 변경값(255T)과 화자 라벨(250T)은 각각의 트레이닝 고정 길이 세그먼트(220T)에 수동으로 할당될 수 있다. 위에서 논의된 바와 같이, 화자 라벨들(250T)은 트레이닝 화자 라벨의 시퀀스 Y* =(y*1, y*2,...,y*T)로 표현될 수 있으며, 여기서, 시퀀스의 항목(yt)은 시간(t)에서 임베딩 항목(xt)에 할당된 화자 라벨(250T)을 나타내고, 화자 변경값(255T)은 트레이닝 변경점 표시자의 시퀀스 Z* =(z*1, z*2,...,z*T)로 표현될 수 있으며, 항목(zt)은 시간(t)에서 대응하는 트레이닝 고정 길이 세그먼트 항목(x*t)에서 화자 변경이 발생하는지 여부를 나타내는 이진 표시자이다.
도시된 예에서, 대응하는 화자-식별 임베딩(240T)(예를 들어, d-벡터 또는 i-벡터) 및 대응하는 화자 라벨(250T)을 각각 포함하는 복수의 트레이닝 고정 길이 세그먼트(220T)는 확률적 생성 모델(300)을 트레이닝하기 위해 분리 트레이너(204)로 전달된다. 완전 라벨링된 트레이닝 데이터(202)에 기초하여, 분리 트레이너(204)는 분리 파라미터들(206)을 모델링하여 확률적 생성 모델(300)을 트레이닝할 수 있다. 일단 트레이닝되면, 확률적 생성 모델(예를 들어, 트레이닝된 모델)(300)은 도 1a를 참조하여 위에서 논의된 바와 같이 추론 동안 대응하는 원시 오디오 데이터(122)에 대한 분리 결과(280)를 생성하기 위해 화자 라벨 예측기(260)에 의해 사용된다. 따라서, 트레이닝 데이터(202)가 각 트레이닝 발언으로부터 분할된 대응하는 트레이닝 고정 길이 세그먼트(220T)에 할당된 공지된 화자 라벨(250T)을 포함하는 경우, 트레이닝된 확률적 생성 모델(300)은 그로부터 추출된 대응하는 화자-식별 임베딩(240)에만 기초하여 오디오 데이터(122)로부터 분할된 대응하는 고정 길이 세그먼트(220)에 할당된 화자 라벨(250)을 예측하는 임무를 갖는다.
확률적 생성 모델(300)은 신경망을 포함할 수 있다. 분리 트레이너(204)는 트레이닝 데이터(202)를 출력 데이터에 매핑하여 신경망 모델(300)을 생성한다. 일반적으로, 분리 트레이너(204)는 은닉 노드들, 은닉 노드들과 트레이닝 데이터(202)에 대응하는 입력 노드들 간의 연결 가중치, 은닉 노드들과 출력 노드들 간의 연결 가중치, 및 은닉 노드들의 계층 간의 연결 가중치를 생성한다. 이후, 완전 트레이닝된 신경망 모델(300)이 입력 데이터(예를 들어, 원시 오디오 데이터(122))에 대해 사용되어 공지되지 않은 출력 데이터(예를 들어, 화자 라벨(250))를 생성할 수 있다.
도 2는 수신된 오디오 데이터(122)로부터 분리 결과(280)를 생성하기 위한 도 1a 및 1b의 분리 시스템(200)의 예시적인 프로세스를 도시한다. 도시된 예에서, 시간은 왼쪽에서 오른쪽으로 증가하고, 분리 시스템(200)은 오디오 데이터(122)를 처리하여 고정 크기 및 고정 오버랩을 갖는 슬라이딩 윈도우(215)를 제공한다. 예를 들어, 각 윈도우(215)의 크기는 240 밀리 초(ms)일 수 있고 각각의 슬라이딩 윈도우(215) 사이의 고정 오버랩은 50%일 수 있다. 임베딩 모듈(230)(도 1a)은 오버랩하는 슬라이딩 윈도우(215)로부터 윈도우-레벨 임베딩을 추출하여 세그먼트-레벨 d-벡터, 예를 들어, 화자-식별 임베딩(240)을 생성하기 위해 윈도우-레벨 임베딩을 평균하도록 구성된 텍스트 독립형 화자 인식 네트워크를 포함할 수 있다. 도시된 예에서, 텍스트 독립형 화자 인식 네트워크는 3개의 장단기 메모리(LSTM) 계층 및 1개의 선형 계층을 포함하며 트레이닝된 일반화된 종단 간 손실이다. 다른 예에서, 임베딩 모듈(230)은 세그먼트 레벨 i-벡터를 생성한다. 일부 구현에서, 분할 모듈 (210)(도 1a)은 2개의 전 공분산(full-covariance) 가우시안을 갖는 음성 활동 검출기(VAD)를 사용하여 오디오 데이터(122)로부터 비-음성 부분을 제거하고, 오디오 데이터(122)를 오버랩되지 않는 고정 길이 세그먼트들로 파티션/분할한다. 일부 예들서, 각 고정 길이 세그먼트(220)는 400ms이다. 그런 다음, 화자 라벨 예측기(260)(도 1a)는 각 고정 길이 세그먼트(220) 및 대응하는 화자-식별 임베딩(240)을 수신하고, 확률적 생성 모델(300)을 사용하여 분리 결과(280)를 생성한다. 여기서, 분리 결과(280)는 각 고정 길이 세그먼트(220)에 할당된 화자 라벨의 시퀀스 Y=(y1, y2,...,yT)로 표현된 화자 라벨(250)을 포함하며, 이는 임베딩의 관찰 시퀀스 X=(x1, x2,...,xT)로 표현된다.
도 3a-3d는 확률적 생성 모델(300)의 예를 도시한다. 도시된 예에서, 모델(300)은 순환 신경망(RNN)을 포함한다. 일반 신경망은 입력 데이터를 처리하여 출력 데이터를 생성하는 동안 중간 데이터를 저장하지 않지만 RNN은 데이터/상태를 유지하며, 이는 RNN이 데이터/상태를 유지하지 않는 일반 신경망에 비해 분류 능력을 향상시킬 수 있다. 더 구체적으로, 확률적 생성 모델 300은 다른 화자(10)에 대해 모델링된 다른 인스턴스와 동일한 분리 파라미터(206)를 공유하는 대응 인스턴스에 의해 테스트 발화(120)의 오디오 데이터(122)에서 각 화자(10)를 모델링하기 위해 분리 트레이너(204)에 의해 트레이닝 데이터(202)에 대해 트레이닝된 무한 인터리브 상태(unbounded interleaved-state) 순환 신경망(UIS-RNN)을 포함한다. 시간은 도 3a-3d의 뷰에 비해 왼쪽에서 오른쪽으로 증가한다. UIS-RNN(300)은 무한 수의 RNN 인스턴스를 생성하고 시간 도메인에서 상이한 RNN 인스턴스(즉, 상이한 화자)의 상태(ht)를 인터리빙할 수 있다. 따라서, UIS-RNN(300)은 각각의 인스턴스화(instantiation)가 해당하는 화자를 모델링하고 다른 인스턴스화와 동일한 분리 파라미터 세트(206)를 공유하는 다중 인스턴스화를 유지한다. 분리 파라미터(206)는 RNN 파라미터(θ), 화자 할당 확률 파라미터(α), 가우시안 모델 파라미터(σ2) 및 화자 변경 파라미터(λ)를 포함할 수 있다.
일부 예에서, UIS-RNN(300)은 쌍곡 탄젠트(tanh) 활성화를 갖는 N개의 게이트형 반복 단위(GRU) 셀과 각각 N개의 노드를 가지며 은닉 계층의 정류형 선형 단위(ReLU) 활성화를 적용하도록 구성된 2개의 완전 연결 계층이 있는 은닉 계층을 포함한다. 각 GRU 셀은 대응하는 은닉 표준 RNN 상태(ht)로 표현될 수 있는 반면, 2개의 완전 연결 계층은 은닉 표준 RNN 상태(ht) 및 RNN 파라미터(θ)의 함수에 대응하는 각 출력 노드(mt)를 갖는 도 3a-3d에 도시된 RNN 출력 계층으로 표현될 수 있다. 여기서, 각 출력 노드(mt)는 RNN 상태(ht)의 비선형 변환을 화자 변경의 실제 관찰을 생성하기에 더 적합한 상태로 제공한다. 도시된 예에서, mt는 ht와 ht와 동일하지만 더 복잡한 기능이 가능하다.
주어진 테스트 발언(120)(예를 들어, 오디오 데이터(122)로 표시됨)에 대해, 발언(120)은 (예를 들어, 분할 모듈(210)을 사용하여) 복수의 고정 길이 세그먼트(220)로 분할되고, 화자-식별 임베딩(240)은 (예를 들어, 임베딩 모듈(230)을 사용하여) 각각의 고정 길이 세그먼트(220)로부터 추출되어 임베딩의 대응하는 관찰 시퀀스 X =(x1, x2, x3, x4, x5, x6, x7)를 제공한다. 여기서, 시퀀스내의 각 임베딩 항목(x1-7)은 주어진 고정 길이 세그먼트(220)와 관련된 화자-식별 임베딩(240)을 나타낸다. 일반적인 의미에서, 시퀀스내의 각 항목(x1-7)은 주어진 발언에 대한 타임 스탬프된 화자-식별 임베딩(240)에 대응한다. 예를 들어, 항목(x3)은 테스트 발언(120)의 오디오 데이터(122)로부터 추출된 제3 고정 길이 세그먼트(220)와 관련된 화자-식별 임베딩(240)을 나타낸다. 이하에서 더 상세히 설명되는 UIS-RNN 모델(300)은 각각의 대응하는 고정 길이 세그먼트(220)에 할당할 화자 라벨(250)을 예측하기 위해 무제한 수의 화자에 대한 화자 할당 및 화자 변경을 모델링하고, 이에 의해 화자 라벨들(250)은 화자 라벨 시퀀스 Y =(y1, y2, y3, y4, y5, y6, y7)로 표현된다.
제1 임베딩 항목(x1)(즉, 제1 고정 길이 세그먼트(220)로부터 추출된 화자-식별 임베딩(240))에는 항상 제1 화자(y1=1)와 관련된 제1 화자 라벨(250)이 할당될 것이다. 임베딩 관찰 시퀀스의 데이터 시퀀스에서 제1 항목(x1) 다음에 오는 각 임베딩 항목(x2-x7)에 대해, UIS-RNN(300)은 항목(xt)(즉, 대응하는 고정 길이 세그먼트(220) 및 관련 화자-식별 임베딩(240))에 대해 가능(한) 화자들(262)에 대한 확률 분포를 예측하고, 가능 화자들(262)에 대한 확률 분포에 기초하여 화자 라벨(250)을 대응하는 항목(xt)에 할당하도록 구성된다. 일부 예에서, 화자 라벨(250)은 가능 화자들(262)에 대한 확률 분포에 대해 그리디 검색을 실행함으로써 할당된다. 그리디 검색은 빔 검색을 구현하는 디코딩 프로세스 중에 실행될 수 있다. 화자 할당 및 화자 변경 또는 보다 구체적으로 화자 턴 동작을 모델링하기 위해, UIS-RNN(300)은 무제한 수의 화자를 모델링하도록 구성된 베이지안 비-파라 메트릭 모델을 포함하는 거리 의존형 중식 레스토랑 프로세스를 사용할 수 있다. 예를 들어, 시퀀스에서 다음 항목(xt)에 대한 화자 할당을 모델링할 때, UIS-RNN(300)은 바로 이전 항목(xt-1)까지의 기존의 각 화자 할당에 대한 확률 및 다음 항목(xt)에 대한 새로운 화자 라벨을 예측할 확률을 예측한다.
시간(t=1)에서, 제1 화자(y1=1)와 관련된 제1 화자 라벨이 제1 임베딩 항목(x1)에 할당되고, 대응하는 제1 RNN 상태(h1)는 초기 은닉 상태(h0)로 제1 화자에 대응하는 새로운 RNN을 인스턴스화한다. 여기서 제1 RNN 상태(h1)는 제1 화자에 대한 사전 지식이 없다.
시간(t=2)에서, 제1 화자(y2=1)와 관련된 제1 화자 라벨이 제2 임베딩 항목(x2)에 할당되고, 대응하는 제2 RNN 상태(h2)는 이전 제1 RNN 상태(h1) 및 제1 화자에 대응하는 이전 제1 임베딩 항목(x1)으로 제1 화자에 대응하는 RNN의 인스턴스화를 업데이트한다. 따라서, 제1 화자에 대응하는 업데이트된 RNN은 이전 RNN 상태(h1) 및 이전 임베딩 항목(x1)으로부터 획득된 사전 지식에 기초하여 향상될 수 있다. 이전 임베딩 항목(x1)은 화자 라벨(y2)을 예측하는데 도움이 된다.
시간(t=3)에서, 제2 화자(y3=2)와 관련된 제2 화자 라벨이 제3 임베딩 항목(x3)에 할당되고, 대응하는 제3 RNN 상태(h3)는 동일한 초기 은닉 상태(h0)로 제2 화자에 대응하는 새로운 RNN을 인스턴스화한다. 제2 화자는 새롭기(예를 들어, 이전에 나타나지 않았기) 때문에, 제3 RNN 상태(h3)는 제2 화자에 대한 사전 지식이 없다. 더욱이, 제1 및 제2 RNN 상태(h1, h2)로부터의 정보는 제2 화자에 대응하는 RNN 또는 제1 화자 이외의 화자들에 대해 인스턴스화된 다른 RNN으로 전달되지 않는다.
시간(t=4)에서, 제3 화자(y4=3)와 관련된 제3 화자 라벨이 제4 임베딩 항목(x4)에 할당되고, 대응하는 제4 RNN 상태(h4)는 동일한 초기 은닉 상태(h0)로 제3 화자에 대응하는 새로운 RNN을 인스턴스화한다. 제3 화자는 새롭기(예를 들어, 이전에 나타나지 않았기) 때문에, 제4 RNN 상태(h4)는 제3 화자에 대한 사전 지식이 없다. 더욱이, 제1 화자에 대응하는 RNN과 관련된 제1 및 제2 RNN 상태(h1, h2) 및 제2 화자에 대응하는 RNN과 관련된 제3 RNN 상태(h3)로부터의 정보는 제3 화자에 대응하는 RNN으로 전달되지 않는다. RNN들의 인스턴스화가 개별 화자를 모델링하는 동안, RNN들은 동일한 분리 파라미터(206) 세트를 공유하고 둘 다 동일한 초기 은닉 상태(h0)로 초기화된다.
시간(t=5)에서, 제2 화자(y5=2)와 관련된 제2 화자 라벨은 제5 임베딩 항목(x5)에 할당되고, 대응하는 제5 RNN 상태(h5)는 제2 화자에 대응하는 RNN의 인스턴스화를 이전 제3 RNN 상태(h3) 및 제2 화자에 대응하는 이전 제3 임베딩 항목(x3)으로 업데이트한다. 따라서, 제2 화자에 대응하는 업데이트된 RNN은 이전 RNN 상태(h3) 및 이전 임베딩 항목(x3)에서 얻은 사전 지식에 기초하여 향상될 수 있다. 제2 화자에 해당하는 이전 임베딩 항목(x3)은 화자 라벨(y5)을 예측하는데 도움이 된다.
시간(t=6)에서, 제2 화자(y6=2)와 관련된 제2 화자 라벨은 제6 임베딩 항목(x6)에 할당되고, 대응하는 제6 RNN 상태(h6)는 제2 화자에 대응하는 RNN의 인스턴스화를 이전 제5 RNN 상태(h5) 및 제2 화자에 대응하는 이전 제5 임베딩 항목(x5)으로 업데이트한다. 따라서, 제2 화자에 대응하는 업데이트된 RNN은 이전 RNN 상태(h5) 및 이전 임베딩 항목(x5)에서 얻은 사전 지식에 기초하여 향상될 수 있다. 이전 임베딩 항목(x5)은 화자 라벨(y6)을 예측하는데 도움이 된다.
따라서, 시간(t=6)까지의 현재 단계에서, 도 3a-3d는 임베딩의 관찰 시퀀스 X =(x1, x2, x3, x4, x5 , x6) 중 대응하는 것들에 할당된 y[6]=(1, 1, 2, 3, 2, 2)에 대한 화자 라벨의 시퀀스로 표현된 예측된 화자 라벨들(250)을 갖는 UIS-RNN(300)을 도시한다. 도시된 예에서, 항목(x1, x2)을 나타내는 블록들은 제1 화자와 관련된 제1 화자 라벨의 할당을 나타내는 수평선을 포함하고, 항목(x3, x5, x6)을 나타내는 블록들은 제2 화자와 관련된 제2 화자 라벨(250)의 할당을 나타내는 수직선을 포함하며, 제4 항목(x4)을 나타내는 블록은 제3 화자와 관련된 제3 화자 라벨(250)의 할당을 나타내는 대각선을 포함한다.
도시된 예에서, UIS-RNN은 시퀀스에서 다음 임베딩 항목(x7)에 할당될 다음 화자 라벨(y7)을 예측하는 임무를 맡고 있다. 이를 위해, UIS-RNN은 거리 의존형 중식 레스토랑 프로세스를 적용한다. 이 시나리오에서, y7에 대한 네 가지 옵션인 (1) 제1 화자; (2) 제2 화자,(3) 제3 화자 또는 (4) 제4 화자가 있다. 옵션(1-3)은 모두 기존 화자들을 포함하며, 각각의 기존 화자가 해당 기존 화자와 관련된 연속 고정 길이 세그먼트의 수에 비례할 확률이 있다. 반면에, 옵션(4)은 화자 할당 확률 파라미터(α)에 비례하는 확률을 포함한다. 따라서, UIS-RNN(300)은 이전 화자 라벨 시퀀스(y[6]) 및 임베딩의 이전 관찰 시퀀스(x[6]) 모두에 기초하여, 가능(한) 화자들, 즉 제1 화자(y7=1), 제2 화자(y7=2), 제3 화자(y7=3) 및 제4 화자(y7=4)에 대한 확률 분포를 예측한다.
도 3a를 참조하면, y7이 제1 화자와 동일할 확률을 예측하는 것은 마지막 임베딩 항목(x2)과 제1 화자에 해당하는 이전 상태(h2)를 기반으로 한다. 이 시나리오에서, 현재 RNN 상태(h7)는 제2 RNN 상태(h2) 및 제2 임베딩 항목(x2)에서 제1 화자에 대해 모델링되며, 이는 이전 RNN 상태 및 제1 화자의 이전 임베딩 항목에 해당한다. 현재 RNN 상태(h7)의 출력은 RNN 출력의 해당 노드(m7)와 상호 연결될 수 있으며, 이에 의해 m7은 표준 RNN 상태(h7)의 비선형 변환 계층을 실제 관측값을 생성(예를 들어, h7의 특징을 더 잘 변환)하는데 사용되는 상태에 적용한다. y7=1일 확률은 제1 화자와 관련된 연속 고정 길이 세그먼트(220)의 수에 비례한다.
도 3b를 참조하면, y7이 제2 화자와 동일할 확률을 예측하는 것은 마지막 임베딩 항목(x6) 및 제2 화자에 대응하는 이전 상태(h6)를 기반으로 한다. 이 시나리오에서, 화자 변경이 발생하지 않으며 현재 RNN 상태(h7)는 제6 RNN 상태(h6) 및 제6 임베딩 항목(x2)에서 제2 화자에 대해 모델링되며, 이는 이전 RNN 상태 및 제2 화자의 이전 임베딩 항목에 해당한다. 현재 RNN 상태(h7)의 출력은 RNN 출력의 해당 노드(m7)와 상호 연결될 수 있으며, 이에 따라 m7은 표준 RNN 상태(h7)의 비선형 변환 게층을 실제 관측값을 생성(예를 들어, h7의 특징을 더 잘 변환)하는데 사용되는 상태에 적용한다. y7=2일 확률은 제2 화자와 관련된 연속 고정 길이 세그먼트(220)의 수에 비례한다.
도 3c를 참조하면, y7이 제3 화자와 동일할 확률을 예측하는 것은 마지막 임베딩 항목(x3) 및 제3 화자에 대응하는 이전 상태(h3)에 기초한다. 이 시나리오에서, 현재 RNN 상태(h7)는 제3 RNN 상태(h3) 및 제3 임베딩 항목(x3)에서 제3 화자에 대해 모델링되고, 이는 이전 RNN 상태와 제3 화자의 이전 임베딩 항목에 해당한다. 현재 RNN 상태(h7)의 출력은 RNN 출력의 해당 노드(m7)와 상호 연결될 수 있으며, 이에 의해 m7은 표준 RNN 상태(h7)의 비선형 변환 게층을 실제 관측값을 생성(예를 들어, h7의 특징을 더 잘 변환)하는데 사용되는 상태에 적용한다. y7=3일 확률은 제3 화자와 관련된 연속 고정 길이 세그먼트(220)의 수에 비례한다.
도 3d를 참조하면, y7이 새로운 제4 화자와 동일할 확률은 화자 할당 확률 파라미터(α)에 비례한다. 이 시나리오에서, UIS-RNN(300)은 동일한 초기 은닉 상태(h0)에서 제4 화자에 대해 현재 RNN 상태(h7)가 모델링된 제4 화자에 대한 새로운 RNN을 인스턴스화한다. 여기서, 제4 화자의 새로운 RNN 인스턴스는 제1, 제2 및 제3 화자 각각에 대한 RNN 인스턴스와 동일한 분리 파라미터 세트를 공유한다.
일부 구현에서, 분리 시스템(200)은 O(T!)에서 O (T2)로 계산 복잡도를 감소시키기 위해 대응하는 고정 길이 세그먼트(x7)에 대해 가능 화자들(262)(y7: 1, 2, 3, 4)에 대한 확률 분포에 대해 그리디 검색을 순차적으로 수행하는 온라인 디코딩 접근 방식을 사용한다. 대부분의 시나리오에서 발언 당 최대 화자 수는 상수(C)로 제한된다는 관찰에 기초하여, 계산 복잡도는 O(T)로 더 감소될 수 있다. 일부 예에서, 분리 시스템은 디코딩 알고리즘에 대해 빔 검색을 수행하고 더 나은 디코딩 결과를 달성하기 위해 다수의 미리 보기 항목를 조정한다.
도 4는 k-평균 클러스터링, 스펙트럼 클러스터링, UIS-RNN pure 5-fold, UIS-RNN Dick-6, 및 다양한 화자 인식 모델(V1, V2, V3)에 대한 UIS-RNN pure 5-fold 및 추가 트레이닝 데이터에 대한 분리 에러율(diarization error rates : DERs)을 나타내는 데이블(400)이다. 제1 화자 인식 모델(V1)에는 18,000명의 미국 영어 화자의 3,600만 개의 발언이 포함될 수 있다. 제2 화자 인식 모델(V2)에는 138,000명의 미국 이외의 영어 화자의 3,400만 개의 발언이 포함될 수 있다. 제3 화자 인식 모델(V3)은 가변 길이 윈도우를 사용하여 제2 화자 인식 모델(V2)을 업데이트한다. 그 결과는 DER의 가장 큰 개선이 화자 인식 모델 형식(V2)을 V3로 업그레이드하는데 있다고 제안한다. UIS_RNN은 동일한 화자 인식 모델을 사용할 때 스펙트럼 오프라인 클러스터링보다 현저히 우수하다. UIS-RNN은 추론 중에 온라인 방식으로 화자 라벨들을 예측한다는 점도 중요하다. 비지도 클러스터링 알고리즘이 온라인으로 수행되는 경우, 일반적으로 스펙트럼 클러스터링과 같은 오프라인 클러스터링 알고리즘보다 성능이 훨씬 떨어진다. 또한, 추가 트레이닝 데이터에 대해 트레이닝되었을 때 DER이 UIS-RNN에 대해 개선되었으므로 UIS-RNN 모델이 더 많은 예제에서 학습하는 것이 이점이 있음을 나타낸다.
도 5는 수신된 음성 발언(120)에 대해 화자 분리을 수행하는 방법(500)에 대한 동작들의 예시적인 배열의 흐름도이다. 데이터 처리 하드웨어(112, 144)는 메모리 하드웨어(114, 146)에 저장된 명령들을 실행함으로써 방법(500)에 대한 동작들을 실행할 수 있다. 동작(502)에서, 방법(500)은 음성 발언(120)을 복수의 세그먼트(220)로 분할하는 단계를 포함한다. 세그먼트(220)는 고정 길이 세그먼트 또는 가변 길이 세그먼트를 포함할 수 있다. 음성 발언의 각 세그먼트에 대해, 방법(500)은 동작(504)에서, 세그먼트(220)로부터 화자-식별 임베딩(240)을 추출하는 단계를 포함하고, 동작(506)에서, 특징 입력으로서 화자-식별 임베딩(240)을 수신하도록 구성된 확률적 생성 모델(300)을 사용하여 세그먼트(220)에 대한 가능(한) 화자들(262)에 대한 확률 분포를 예측하는 단계를 포함한다. 화자-식별 임베딩(240)은 일부 예에서 d-벡터를 포함할 수 있다. 다른 예에서, 화자-식별 임베딩(240)은 i-벡터를 포함한다. 동작(508)에서, 방법(500)은 대응하는 세그먼트(220)에 대한 가능 화자들(262)에 대한 확률 분포에 기초하여 음성 발언(120)의 각 세그먼트(220)에 화자 라벨(250)을 할당하는 단계를 포함한다.
확률적 생성 모델(300)은 트레이닝 음성 발언의 코퍼스에 대해 트레이닝되며, 여기서 각 발언은 복수의 트레이닝 세그먼트(220T)로 분할된다. 각각의 트레이닝 고정 길이 세그먼트(220T)는 대응하는 화자 식별 임베딩(240T) 및 대응하는 화자 라벨(250T)을 포함한다. 확률적 생성 모델(300)은 거리 의존형 중식 레스토랑 프로세스를 적용함으로써 각 세그먼트(220)에 대해 가능 화자들(262)에 대한 확률 분포를 예측할 수 있다. 확률적 생성 모델(300)은 순환 신경망(RNN)을 포함할 수 있으며, 각 화자는 다른 화자의 RNN 인스턴스와 정보를 공유하지 않는 해당 RNN 인스턴스에 의해 모델링된다.
소프트웨어 애플리케이션(즉, 소프트웨어 리소스)은 컴퓨팅 디바이스로 하여금 작업을 수행하게 하는 컴퓨터 소프트웨어를 지칭할 수 있다. 일부 예에서, 소프트웨어 애플리케이션은 "애플리케이션", "앱" 또는 "프로그램"으로 지칭될 수 있다. 예시적인 애플리케이션에는 시스템 진단 애플리케이션, 시스템 관리 애플리케이션, 시스템 유지 관리 애플리케이션, 워드 프로세싱 애플리케이션, 스프레드 시트 애플리케이션, 메시징 애플리케이션, 미디어 스트리밍 애플리케이션, 소셜 네트워킹 애플리케이션 및 게임 애플리케이션이 포함되지만 이에 국한되지 않는다.
비-일시적 메모리는 컴퓨팅 디바이스에 의해 사용하기 위해 임시 또는 영구적으로 프로그램(예를 들어, 명령 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는데 사용되는 물리적 디바이스일 수 있다. 비-일시적 메모리는 휘발성 및/또는 비-휘발성 어드레서블 반도체 메모리일 수 있다. 비-휘발성 메모리의 예로는 플래시 메모리 및 판독전용 메모리(ROM/(프로그램 가능 판독 전용 메모리(PROM)/소거 가능 프로그램 가능 판독 전용 메모리(EPROM)/전자적으로 소거 가능한 프로그램 가능 판독 전용 메모리(EEPROM)(예를 들어, 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨)를 포함하지만 이에 한정되지 않는다. 휘발성 메모리의 예로는 RAM, DRAM, SRAM, PCM(Phase Change Memory), 디스크 또는 테이프 등이 있다.
도 6은 본 문서에 설명된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적인 컴퓨팅 디바이스(600)의 개략도이다. 컴퓨팅 디바이스(600)는 랩탑, 데스크탑, 워크 스테이션, 개인용 디지털 어시스턴트, 서버, 블레이드 서버, 메인 프레임 및 기타 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내도록 의도된다. 본 명세서에 도시된 컴포넌트, 이들의 연결 및 관계 및 기능은 예시일 뿐이며본 문서에서 설명 및/또는 청구된 발명의 구현을 제한하려는 것은 아니다.
컴퓨팅 디바이스(600)는 프로세서(610), 메모리(620), 저장 디바이스(630), 메모리(620) 및 고속 확장 포트(650)에 연결되는 고속 인터페이스/제어기(640) 및 저속 버스(670) 및 저장 디바이스(630)에 연결되는 저속 인터페이스/제어기(660)를 포함한다. 각 컴포넌트(610, 620, 630, 640, 650, 660)는 다양한 버스를 사용하여 상호 연결되며, 공통 마더 보드상에 또는 적절한 다른 방식으로 장착될 수 있다. 프로세서(610)는 컴퓨팅 디바이스(600) 내에서 실행하기 위한 명령들을 처리할 수 있으며, 고속 인터페이스(640)에 연결된 디스플레이(680)와 같은 외부 입/출력 디바이스에 그래픽 사용자 인터페이스(GUI)에 대한 그래픽 정보를 표시하기 위해 메모리(620) 또는 저장 디바이스(630)에 저장된 명령을 포함한다. 다른 구현에서, 다중 프로세서 및/또는 다중 버스가 다중 메모리 및 메모리 유형과 함께 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스(600)는 필요한 동작들의 일부를 제공하는 각 디바이스(예를 들어, 서버 뱅크, 블레이드 서버 그룹 또는 다중 프로세서 시스템)와 연결될 수 있다.
메모리(620)는 컴퓨팅 디바이스(600) 내에 비-일시적으로 정보를 저장한다. 메모리(620)는 컴퓨터 판독 가능 매체, 휘발성 메모리 유닛(들) 또는 비-휘발성 메모리 유닛(들)일 수 있다. 비-일시적 메모리(620)는 컴퓨팅 디바이스(600)에 의해 사용하기 위해 임시 또는 영구적으로 프로그램(예를 들어, 명령 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는데 사용되는 물리적 디바이스일 수 있다. 비-휘발성 메모리의 예로는 플래시 메모리 및 ROM/PROM/EPROM/EEPROM)(예를 들어, 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨)이 포함되지만 이에 한정되지 않는다. 휘발성 메모리의 예로는 RAM, DRAM, SRAM, PCM, 디스크 또는 테이프 등이 있다.
저장 디바이스(630)는 컴퓨팅 디바이스(600)에 대용량 저장 디바이스를 제공할 수 있다. 일부 구현에서, 저장 디바이스(630)는 컴퓨터 판독 가능 매체이다. 다양한 다른 구현에서, 저장 디바이스(630)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스 또는 테이프 디바이스, 플래시 메모리 또는 기타 유사한 솔리드 스테이트 메모리 디바이스 또는 저장 영역 네트워크 또는 기타 구성의 디바이스를 포함하는 디바이스 어레이일 수 있다. 추가 구현에서, 컴퓨터 프로그램 제품은 정보 매체에 유형적으로 구현된다. 컴퓨터 프로그램 제품에는 실행시 위에서 설명한 것과 같은 하나 이상의 방법을 수행하는 명령들이 포함되어 있다. 정보 매체는 메모리(620), 저장 디바이스(630) 또는 프로세서(610)상의 메모리와 같은 컴퓨터 판독 가능 매체 또는 기계 판독 가능 매체이다.
고속 제어기(640)는 컴퓨팅 디바이스(600)에 대한 대역폭 집약적 동작들을 관리하는 반면, 저속 제어기(660)는 낮은 대역폭 집약적 동작들을 관리한다. 이러한 업무 할당은 예시일 뿐이다. 일부 구현에서, 고속 제어기(640)는 메모리(620), 디스플레이(680)(예를 들어, 그래픽 프로세서 또는 가속기를 통해) 및 다양한 확장 카드(미도시)를 수용할 수 있는 고속 확장 포트(650)에 결합된다. 일부 구현에서, 저속 제어기(660)는 저장 디바이스(630) 및 저속 확장 포트(690)에 결합된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트(690)는 예를 들어, 네트워크 어댑터를 통해 키보드, 포인팅 디바이스, 스캐너 또는 스위치 또는 라우터와 같은 네트워킹 디바이스와 같은 하나 이상의 입/출력 디바이스에 연결될 수 있다.
컴퓨팅 디바이스(600)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 이는 표준 서버(600a)로서 또는 이러한 서버(600a)의 그룹에서 여러 번, 랩탑 컴퓨터(600b) 또는 랙 서버 시스템(600c)의 일부로서 구현될 수 있다.
본 명세서에 설명된 시스템 및 기술의 다양한 구현은 디지털 전자 및/또는 광학 회로, 집적 회로, 특별히 설계된 ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현은 데이터 및 명령을 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스로부터 수신하고 데이터를 이들로 전송하도록 결합된 특수 또는 범용일 수 있는 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 가능 및/또는 해석 가능한 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있다. 및 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스에 대한 명령을 포함한다.
이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드라고도 함)은 프로그램 가능한 프로세서에 대한 기계 명령들을 포함하며, 고급 절차 및/또는 개체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에서 사용된 "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"라는 용어는 기계 판독 가능 신호로서 기계 명령들을 수신하는 기계 판독 가능 매체를 포함하여 기계 명령 및/또는 데이터를 제공하는데 사용되는 컴퓨터 프로그램 제품, 비-일시적 컴퓨터 판독 가능 매체, 장치 및/또는 디바이스(예를 들어, 자기 디스크, 광학 디스크, 메모리, 프로그램 가능 논리 디바이스(PLD))를 지칭한다. "기계 판독 가능 신호"라는 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하는데 사용되는 모든 신호를 지칭한다.
본 명세서에 설명된 프로세스 및 논리 흐름은 데이터 처리 하드웨어라고도 지칭되는 하나 이상의 프로그램 가능 프로세서에 의해 수행될 수 있으며, 하나 이상의 컴퓨터 프로그램을 실행하여 입력 데이터를 조작하고 출력을 생성함으로써 기능을 수행할 수 있다. 프로세스 및 로직 흐름은 FPGA(필드 프로그램 가능 게이트 어레이) 또는 ASIC(애플리케이션 특정 집적 회로)와 같은 특수 목적 로직 회로에 의해 수행될 수도 있다. 컴퓨터 프로그램의 실행에 적합한 프로세서는 예를 들어 일반 및 특수 목적의 마이크로 프로세서와 모든 종류의 디지털 컴퓨터의 하나 이상의 프로세서를 포함한다. 일반적으로 프로세서는 판독 전용 메모리나 랜덤 액세스 메모리 또는 둘 모두로부터 명령과 데이터를 수신한다. 컴퓨터의 필수 요소는 명령을 수행하는 프로세서와 명령 및 데이터를 저장하는 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스, 예를 들어 자기, 광 자기 디스크 또는 광 디스크로부터 데이터를 수신하거나 데이터를 전송하거나 둘 모두를 포함하거나 작동 가능하게 결합된다. 그러나 컴퓨터에는 이러한 디바이스가 필요하지 않다. 컴퓨터 프로그램 명령 및 데이터 저장에 적합한 컴퓨터 판독 가능 매체는 반도체 메모리 디바이스(예를 들어 EPROM, EEPROM 및 플래시 메모리 디바이스); 자기 디스크(예를 들어 내부 하드 디스크 또는 이동식 디스크); 광 자기 디스크; 및 CD ROM 및 DVD-ROM 디스크를 포함하는 모든 형태의 비-휘발성 메모리, 매체 및 메모리 디바이스를 포함한다. 프로세서와 메모리는 특수 목적 논리 회로에 의해 보완되거나 통합될 수 있다.
사용자와의 상호 작용을 제공하기 위해, 본 개시의 하나 이상의 양태는 사용자에게 정보를 표시하기위한 디스플레이 디바이스(예를 들어 CRT(음극선 관), LCD(액정 디스플레이 모니터 또는 터치 스크린) 및 선택적으로 사용자가 컴퓨터에 입력을 제공할 수있는 키보드 및 포인팅 디바이스(예를 들어 마우스 또는 트랙볼)에서 구현될 수 있다. 사용자와의 상호 작용을 제공하기 위해 다른 종류의 디바이스도 사용할 수 있는데, 예를 들어, 사용자에게 제공되는 피드백은 예를 들어 시각적 피드백, 청각적 피드백 또는 촉각 적 피드백과 같은 모든 형태의 감각 피드백 일 수 있으며, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함한 모든 형태로 수신될 수 있다. 또한, 컴퓨터는 예를 들어 웹 브라우저로부터 수신된 요청에 응답하여 사용자의 클라이언트 디바이스의 웹 브라우저로 웹 페이지를 전송함으로써 사용자가 사용하는 디바이스로 문서를 전송하고 문서를 수신하여 사용자와 상호 작용할 수 있다.
다수의 구현이 설명되었다. 그럼에도 불구하고, 본 개시의 사상 및 범위를 벗어나지 않고 다양한 변형이 이루어질 수 있음을 이해할 것이다. 따라서, 다른 구현은 다음 청구항의 범위 내에 있다.

Claims (20)

  1. 데이터 처리 하드웨어에서 실행될 때 데이터 처리 하드웨어로 하여금 동작들을 수행하도록 하는 컴퓨터 구현 방법으로서, 상기 동작들은:
    음성(speech) 발언에 대응하는 오디오 데이터를 수신하는 단계와;
    오디오 데이터를 복수의 세그먼트로 분할하는 단계와; 그리고
    복수의 세그먼트 중의 초기 음성 세그먼트 이후에 발생하는 현재 음성 세그먼트에 대해:
    현재 음성 세그먼트로부터 현재 화자 식별 임베딩을 추출하는 단계;
    현재 음성 세그먼트로부터 추출된 현재 화자 식별 임베딩을 입력으로 수신하도록 구성된 신경망 모델을 사용하여,
    대응 화자 라벨과 연관된 하나 이상의 기존 화자 각각에 대해, 기존 화자와 연관된 상기 대응 화자 라벨에 할당된 대응 기존 화자 식별 임베딩에 기초하여 현재 화자 식별 임베딩이 기존 화자를 포함할 확률을 예측하고, 그리고
    현재 화자 식별 임베딩이 새로운 화자를 포함할 확률을 예측함으로써, 현재 음성 세그먼트에 대한 가능한 화자의 확률 분포를 예측하는 단계; 및
    현재 음성 세그먼트에 대한 가능한 화자의 확률 분포에 기초하여, 현재 화자 식별 임베딩에,
    새로운 화자와 연관된 새로운 화자 라벨, 또는
    하나 이상의 기존 화자 중 하나와 연관된 대응 화자 라벨 중 하나로서 현재 화자 라벨을 할당하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  2. 제1항에 있어서,
    오디오 데이터를 분할하는 단계는,
    오디오 데이터를 복수의 비-중첩 음성 세그먼트로 분할하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  3. 제2항에 있어서,
    오디오 데이터를 분할하는 단계는,
    오디오 데이터를 복수의 비-중첩 음성 세그먼트로 분할하도록 구성된 음성 활동 검출기(VAD)를 사용하여 오디오 데이터를 분할하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  4. 제1항에 있어서,
    동작들은,
    복수의 음성 세그먼트 중의 초기 음성 세그먼트에 대해:
    초기 음성 세그먼트로부터 제1 화자 식별 임베딩을 추출하는 단계와; 그리고
    제1 화자와 연관된 제1 화자 라벨을 제1 화자 식별 임베딩에 할당하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  5. 제1항에 있어서,
    현재 음성 세그먼트로부터 현재 화자 식별 임베딩을 추출하는 단계는,
    현재 음성 세그먼트로부터 d-벡터를 추출하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  6. 제1항에 있어서,
    현재 음성 세그먼트로부터 현재 화자 식별 임베딩을 추출하는 단계는,
    현재 음성 세그먼트로부터 i-벡터를 추출하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  7. 제1항에 있어서,
    동작들은,
    음성 발언을 대응 텍스트로 전사하는 단계와; 그리고
    현재 화자 라벨에 기초하여 텍스트에 주석을 다는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  8. 제1항에 있어서,
    오디오 데이터를 복수의 세그먼트로 분할하는 단계는,
    오디오 데이터를 복수의 고정 길이 세그먼트로 분할하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  9. 제1항에 있어서,
    오디오 데이터를 복수의 세그먼트로 분할하는 단계는,
    오디오 데이터를 복수의 가변 길이 세그먼트로 분할하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  10. 제1항에 있어서,
    데이터 처리 하드웨어는 사용자 디바이스 또는 분산 시스템에 상주하는 것을 특징으로 하는 컴퓨터 구현 방법.
  11. 시스템으로서,
    데이터 처리 하드웨어;
    데이터 처리 하드웨어와 통신하고 데이터 처리 하드웨어에 의해 실행될 때 데이터 처리 하드웨어로 하여금 동작들을 수행하게 하는 명령들을 저장하는 메모리 하드웨어를 포함하고, 상기 동작들은:
    음성 발언에 대응하는 오디오 데이터를 수신하는 동작과;
    오디오 데이터를 복수의 세그먼트로 분할하는 동작과; 그리고
    복수의 세그먼트 중의 초기 음성 세그먼트 이후에 발생하는 현재 음성 세그먼트에 대해:
    현재 음성 세그먼트로부터 현재 화자 식별 임베딩을 추출하는 동작;
    현재 음성 세그먼트로부터 추출된 현재 화자 식별 임베딩을 입력으로 수신하도록 구성된 신경망 모델을 사용하여,
    대응 화자 라벨과 연관된 하나 이상의 기존 화자 각각에 대해, 기존 화자와 연관된 상기 대응 화자 라벨에 할당된 대응 기존 화자 식별 임베딩에 기초하여 현재 화자 식별 임베딩이 기존 화자를 포함할 확률을 예측하고, 그리고
    현재 화자 식별 임베딩이 새로운 화자를 포함할 확률을 예측함으로써, 현재 음성 세그먼트에 대한 가능한 화자의 확률 분포를 예측하는 동작; 및
    현재 음성 세그먼트에 대한 가능한 화자의 확률 분포에 기초하여, 현재 화자 식별 임베딩에,
    새로운 화자와 연관된 새로운 화자 라벨, 또는
    하나 이상의 기존 화자 중 하나와 연관된 대응 화자 라벨 중 하나로서 현재 화자 라벨을 할당하는 동작을 포함하는 것을 특징으로 하는 시스템.
  12. 제11항에 있어서,
    오디오 데이터를 분할하는 동작은,
    오디오 데이터를 복수의 비-중첩 음성 세그먼트로 분할하는 동작을 포함하는 것을 특징으로 하는 시스템.
  13. 제12항에 있어서,
    오디오 데이터를 분할하는 동작은,
    오디오 데이터를 복수의 비-중첩 음성 세그먼트로 분할하도록 구성된 음성 활동 검출기(VAD)를 사용하여 오디오 데이터를 분할하는 동작을 포함하는 것을 특징으로 하는 시스템.
  14. 제11항에 있어서,
    동작들은,
    복수의 음성 세그먼트 중의 초기 음성 세그먼트에 대해:
    초기 음성 세그먼트로부터 제1 화자 식별 임베딩을 추출하는 동작과; 그리고
    제1 화자와 연관된 제1 화자 라벨을 제1 화자 식별 임베딩에 할당하는 동작을 더 포함하는 것을 특징으로 하는 시스템.
  15. 제11항에 있어서,
    현재 음성 세그먼트로부터 현재 화자 식별 임베딩을 추출하는 동작은,
    현재 음성 세그먼트로부터 d-벡터를 추출하는 동작을 포함하는 것을 특징으로 하는 시스템.
  16. 제11항에 있어서,
    현재 음성 세그먼트로부터 현재 화자 식별 임베딩을 추출하는 동작은,
    현재 음성 세그먼트로부터 i-벡터를 추출하는 동작을 포함하는 것을 특징으로 하는 시스템.
  17. 제11항에 있어서,
    동작들은,
    음성 발언을 대응 텍스트로 전사하는 동작과; 그리고
    현재 화자 라벨에 기초하여 텍스트에 주석을 다는 동작을 더 포함하는 것을 특징으로 하는 시스템.
  18. 제11항에 있어서,
    오디오 데이터를 복수의 세그먼트로 분할하는 동작은,
    오디오 데이터를 복수의 고정 길이 세그먼트로 분할하는 동작을 포함하는 것을 특징으로 하는 시스템.
  19. 제11항에 있어서,
    오디오 데이터를 복수의 세그먼트로 분할하는 동작은,
    오디오 데이터를 복수의 가변 길이 세그먼트로 분할하는 동작을 포함하는 것을 특징으로 하는 시스템.
  20. 제11항에 있어서,
    데이터 처리 하드웨어는 사용자 디바이스 또는 분산 시스템에 상주하는 것을 특징으로 하는 시스템.
KR1020237035947A 2019-01-08 2019-11-12 완전 지도식 화자 분리 KR102633499B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US16/242,541 2019-01-08
US16/242,541 US11031017B2 (en) 2019-01-08 2019-01-08 Fully supervised speaker diarization
PCT/US2019/061030 WO2020146042A1 (en) 2019-01-08 2019-11-12 Fully supervised speaker diarization
KR1020217021016A KR102594080B1 (ko) 2019-01-08 2019-11-12 완전 지도식 화자 분리

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020217021016A Division KR102594080B1 (ko) 2019-01-08 2019-11-12 완전 지도식 화자 분리

Publications (2)

Publication Number Publication Date
KR20230152161A KR20230152161A (ko) 2023-11-02
KR102633499B1 true KR102633499B1 (ko) 2024-02-06

Family

ID=68841182

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020237035947A KR102633499B1 (ko) 2019-01-08 2019-11-12 완전 지도식 화자 분리
KR1020217021016A KR102594080B1 (ko) 2019-01-08 2019-11-12 완전 지도식 화자 분리

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020217021016A KR102594080B1 (ko) 2019-01-08 2019-11-12 완전 지도식 화자 분리

Country Status (5)

Country Link
US (2) US11031017B2 (ko)
EP (1) EP3891733A1 (ko)
KR (2) KR102633499B1 (ko)
CN (1) CN113272894A (ko)
WO (1) WO2020146042A1 (ko)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
EP3762942B1 (en) * 2018-04-05 2024-04-10 Google LLC System and method for generating diagnostic health information using deep learning and sound understanding
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10957320B2 (en) * 2019-01-25 2021-03-23 International Business Machines Corporation End-of-turn detection in spoken dialogues
GB201906367D0 (en) * 2019-02-28 2019-06-19 Cirrus Logic Int Semiconductor Ltd Speaker verification
US11017783B2 (en) * 2019-03-08 2021-05-25 Qualcomm Incorporated Speaker template update with embedding vectors based on distance metric
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11289073B2 (en) * 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
JP7340630B2 (ja) * 2019-09-05 2023-09-07 ザ・ジョンズ・ホプキンス・ユニバーシティ ニューラルネットワークを使用した音声入力の複数話者ダイアライゼーション
KR102231909B1 (ko) * 2019-09-20 2021-03-25 엘지전자 주식회사 인공지능 장치
US11392639B2 (en) * 2020-03-31 2022-07-19 Uniphore Software Systems, Inc. Method and apparatus for automatic speaker diarization
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11205418B2 (en) * 2020-05-13 2021-12-21 Microsoft Technology Licensing, Llc Monotone speech detection
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11790921B2 (en) * 2020-08-04 2023-10-17 OTO Systems Inc. Speaker separation based on real-time latent speaker state characterization
US11646037B2 (en) 2020-08-04 2023-05-09 OTO Systems Inc. Sample-efficient representation learning for real-time latent speaker state characterization
US11538464B2 (en) 2020-09-09 2022-12-27 International Business Machines Corporation . Speech recognition using data analysis and dilation of speech content from separated audio input
US11495216B2 (en) * 2020-09-09 2022-11-08 International Business Machines Corporation Speech recognition using data analysis and dilation of interlaced audio input
US11609738B1 (en) 2020-11-24 2023-03-21 Spotify Ab Audio segment recommendation
KR102560019B1 (ko) * 2021-01-15 2023-07-27 네이버 주식회사 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램
KR102577346B1 (ko) * 2021-02-08 2023-09-12 네이버 주식회사 텍스트 기반의 화자변경검출을 활용한 화자분할 보정 방법 및 시스템
EP4323988A1 (en) * 2021-05-11 2024-02-21 Google Llc End-to-end speech diarization via iterative speaker embedding
KR20240053639A (ko) * 2021-09-23 2024-04-24 구글 엘엘씨 제한된 스펙트럼 클러스터링을 사용한 화자-턴 기반 온라인 화자 구분
US20230113883A1 (en) * 2021-10-13 2023-04-13 Google Llc Digital Signal Processor-Based Continued Conversation
US20230169981A1 (en) * 2021-11-30 2023-06-01 Samsung Electronics Co., Ltd. Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals
US11978457B2 (en) * 2022-02-15 2024-05-07 Gong.Io Ltd Method for uniquely identifying participants in a recorded streaming teleconference
US20230352026A1 (en) * 2022-04-29 2023-11-02 Zoom Video Communications, Inc. Delta models for providing privatized speech-to-text during virtual meetings
WO2023234942A1 (en) * 2022-06-02 2023-12-07 Google Llc Spoken language understanding using machine learning
US11956286B1 (en) * 2022-11-25 2024-04-09 Microsoft Technology Licensing, Llc Dynamically controlled participation allocations for communication sessions

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160329044A1 (en) 2015-05-08 2016-11-10 International Business Machines Corporation Semi-supervised learning of word embeddings
US20170270919A1 (en) 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US20180158464A1 (en) 2013-07-17 2018-06-07 Verint Systems Ltd. Blind Diarization of Recorded Calls With Arbitrary Number of Speakers
US20180336880A1 (en) 2017-05-19 2018-11-22 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090319269A1 (en) 2008-06-24 2009-12-24 Hagai Aronowitz Method of Trainable Speaker Diarization
US8554562B2 (en) 2009-11-15 2013-10-08 Nuance Communications, Inc. Method and system for speaker diarization
CN102655002B (zh) * 2011-03-01 2013-11-27 株式会社理光 音频处理方法和音频处理设备
US10134400B2 (en) 2012-11-21 2018-11-20 Verint Systems Ltd. Diarization using acoustic labeling
US9324320B1 (en) 2014-10-02 2016-04-26 Microsoft Technology Licensing, Llc Neural network-based speech processing
US9875742B2 (en) 2015-01-26 2018-01-23 Verint Systems Ltd. Word-level blind diarization of recorded calls with arbitrary number of speakers
US10133538B2 (en) 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
US9978374B2 (en) * 2015-09-04 2018-05-22 Google Llc Neural networks for speaker verification
CN105513597B (zh) * 2015-12-30 2018-07-10 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置
US10026405B2 (en) 2016-05-03 2018-07-17 SESTEK Ses velletisim Bilgisayar Tekn. San. Ve Tic A.S. Method for speaker diarization
US10249305B2 (en) * 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US20180018973A1 (en) * 2016-07-15 2018-01-18 Google Inc. Speaker verification
CN106448681B (zh) * 2016-09-12 2019-10-18 南京邮电大学 一种超矢量的说话人辨认方法
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
US10249292B2 (en) 2016-12-14 2019-04-02 International Business Machines Corporation Using long short-term memory recurrent neural network for speaker diarization segmentation
US10546575B2 (en) 2016-12-14 2020-01-28 International Business Machines Corporation Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier
CN106782507B (zh) 2016-12-19 2018-03-06 平安科技(深圳)有限公司 语音分割的方法及装置
US20180197548A1 (en) 2017-01-09 2018-07-12 Onu Technology Inc. System and method for diarization of speech, automated generation of transcripts, and automatic information extraction
US10460727B2 (en) 2017-03-03 2019-10-29 Microsoft Technology Licensing, Llc Multi-talker speech recognizer
US10559311B2 (en) * 2017-03-31 2020-02-11 International Business Machines Corporation Speaker diarization with cluster transfer
CN107146624B (zh) * 2017-04-01 2019-11-22 清华大学 一种说话人确认方法及装置
WO2019209569A1 (en) * 2018-04-23 2019-10-31 Google Llc Speaker diarization using an end-to-end model
US10699700B2 (en) * 2018-07-31 2020-06-30 Tencent Technology (Shenzhen) Company Limited Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks
US11152013B2 (en) * 2018-08-02 2021-10-19 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for a triplet network with attention for speaker diartzation
US11024291B2 (en) * 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180158464A1 (en) 2013-07-17 2018-06-07 Verint Systems Ltd. Blind Diarization of Recorded Calls With Arbitrary Number of Speakers
US20160329044A1 (en) 2015-05-08 2016-11-10 International Business Machines Corporation Semi-supervised learning of word embeddings
US20170270919A1 (en) 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US20180336880A1 (en) 2017-05-19 2018-11-22 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech

Also Published As

Publication number Publication date
US11688404B2 (en) 2023-06-27
US11031017B2 (en) 2021-06-08
EP3891733A1 (en) 2021-10-13
CN113272894A (zh) 2021-08-17
WO2020146042A1 (en) 2020-07-16
KR20230152161A (ko) 2023-11-02
US20210280197A1 (en) 2021-09-09
KR20210099096A (ko) 2021-08-11
KR102594080B1 (ko) 2023-10-25
US20200219517A1 (en) 2020-07-09

Similar Documents

Publication Publication Date Title
KR102633499B1 (ko) 완전 지도식 화자 분리
US10657962B2 (en) Modeling multiparty conversation dynamics: speaker, response, addressee selection using a novel deep learning approach
US10909328B2 (en) Sentiment adapted communication
US11887623B2 (en) End-to-end speech diarization via iterative speaker embedding
KR20220007160A (ko) 스트리밍 엔드-투-엔드 모델을 사용한 대규모 다국어 음성 인식
US20230089308A1 (en) Speaker-Turn-Based Online Speaker Diarization with Constrained Spectral Clustering
US20200184960A1 (en) Rnnlm-based generation of templates for class-based text generation
JP2022529268A (ja) 音声を認識する方法及び装置
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
CN114547244A (zh) 用于确定信息的方法和装置
CN116601648A (zh) 备选软标签生成
CN111508530A (zh) 语音情感识别方法、装置及存储介质
KR101255468B1 (ko) 대화 의도를 분류하는 방법
WO2023245869A1 (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
EP4024393A2 (en) Training a speech recognition model
WO2020151017A1 (zh) 一种可扩展的领域人机对话***状态跟踪方法及设备
CN114490967B (zh) 对话模型的训练方法、对话机器人的对话方法、装置和电子设备
US20220180865A1 (en) Runtime topic change analyses in spoken dialog contexts
CN112669855A (zh) 语音处理方法和装置
Miao et al. [Retracted] English Speech Feature Recognition‐Based Fuzzy Algorithm and Artificial Intelligent
US20230186198A1 (en) Building A Pragmatic Action-Item System
US20240111963A1 (en) Viewpoint Camp Visualization
WO2024076365A1 (en) Accelerating speaker diarization with multi-stage clustering
CN118132687A (zh) 语句处理和类目模型的训练方法、装置、设备及介质

Legal Events

Date Code Title Description
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant