KR20220137921A

KR20220137921A - 음성 생체 인식의 크로스-채널 등록 및 인증

Info

Publication number: KR20220137921A
Application number: KR1020227029052A
Authority: KR
Inventors: 가네쉬 시바라만; 엘리 코우리; 아브로쉬 쿠마르
Original assignee: 핀드롭 시큐리티 인코포레이티드
Priority date: 2020-02-03
Filing date: 2021-02-02
Publication date: 2022-10-12
Also published as: EP4100947A4; AU2021217948A1; EP4100947A1; WO2021158531A1; JP2023512178A; CA3166263A1; US20210241776A1

Abstract

본 명세서에 기술된 실시 예들은 음성-기반 크로스-채널 등록 및 인증을 위한 시스템 및 방법을 제공한다. 그 시스템은 화자 검증 신경망과 대역폭 확장 신경망을 구비한 신경망 아키텍처를 훈련시키고 채용함에 의해 임의 수의 통신 채널들에 걸쳐 수신되는 오디오 신호들에 있어서의 변동을 제어하고 완화시킨다. 대역폭 확장 신경망은 협대역 오디오 신호들에 대응하는 추정 광대역 오디오 신호들을 생성하기 위해 협대역 오디오 신호들에 대해 훈련된다. 이 추정 광대역 오디오 신호들은, 화자 검증 신경망 또는 인베딩 추출 신경망과 같은, 하나 이상의 다운스트림 애플리케이션으로 피딩될 수 있다. 화자 검증 신경망은, 인바운드 신호 또는 등록 신호를 수신하는데 이용되는 채널과 무관하게, 등록된 임베딩과, 현재 호출에 대한 인바운드 임베딩을 비교하고 스코어링할 수 있다.

Description

음성 생체 인식의 크로스-채널 등록 및 인증

본 출원은 2020년 2월 3일자 출원된 미국가출원번호 제62/969,484호에 대한 우선권을 주장하며, 그의 전체는 본 명세서에 참조로서 수록된다.

본 출원은, 일반적으로, 오디오 프로세싱 신경망들을 훈련 및 배포(deployment)하는 시스템들 및 방법들에 관한 것이다. 보다 구체적으로, 본 출원은 음성 생체 인식 시스템들을 위해 채용된 신경망들에 관한 것이다.

IoT(Internet of Things) 디바이스의 출현은 음성 명령어들과 상호 작용하는 머신들의 보다 새로운 채널들을 야기하였다. 디바이스들과의 많은 상호 작용(interaction)들은 사적이고 민감한 데이터에 대한 동작들을 수행하는 것을 수반하는 경우가 빈번하다. 많은 새로운 이동 애플리케이션들 및 홈 개인 비서(home personal assistant)는 디바이스와의 음성 기반 상호 작용을 이용하여 금융 거래를 할 수 있게 한다. 호출 센터 및 특히, 호출 센터에 있는 인간 에이전트와의 상호 작용은, 더 이상, 중요한 개인 정보를 관리하는 기관에 대한 음성 기반 상호 작용의 유일한 인스턴스(instance)가 아니다. 균일한 레벨의 정확성 및 보안에 따라, 호출 센터에 접촉하거나 여러 에지 디바이스들(edge devices) 또는 IoT 디바이스들을 동작시킴에 의해, 사용자 계좌에 액세스하고 관리하는, 호출자들/화자들의 신원을 신뢰성있게 검증하는 것이 필수적이다.

ASR(Automatic Speech Recognition) 및 ASV(Automatic Speaker Verification) 시스템들은 보안 및 인증 피처들(security and authentication features)과, 다른 음성 기반 동작들을 위해 이용되는 경우가 빈번하다. 그러나, ASR 및 ASV들은 다른 샘플링 레이트로 샘플링된 다수의 서로 다른 유형의 디바이스들로부터의 오디오와 조우하는 경우가 빈번하다. 보다 정교한 통신 채널들(sophisticated communication channels)(예를 들어, 에지 디바이스들, IoT들, VoIP)을 통해 기록되고 전송되는 오디오는 0-8kHz의 광대역폭을 가지고서 16kHz로 샘플링된다. 통상적인 전화 오디오는 0.3-3.4kHz의 주파수 범위로 대역 제한되고, 8kHz로 샘플링되며, 스피치 코딩 알고리즘(speech coding aglotithm)으로 인코딩된다. 스피치 기술들은, 통상적으로, 보다 높은 주파수 대역들에서 이용할 수 있는 추가적인 정보 때문에, 광대역 오디오 데이터에 대해 월등한 성능을 획득한다. 화자 인식 시스템의 성능은 보다 높은 주파수 대역을 포함시킴으로서 개선된다. 광대역 스피치에 대해 훈련되는 화자 인식 시스템은, 훈련 및 검사 조건에 있어서의 불일치(mismatch)로 인해, 협대역 오디오에 대해서는, 원활하게 수행되지 않는다. 협대역 스피치에 있어서의 누락된 보다 높은 주파수 대역들은, 전화 스피치에 대한 광대역 훈련된 화자 인식 시스템의 성능 열화를 유발한다.

그러므로, 임의 수의 통신 채널들에 걸쳐 수신된 오디오 신호들에 있어서의 변동들을 제어하고 그 변동들을 완화시키는 음성 생체 인식 및 화자 인식에 대한 개선된 방식들이 필요하다.

본 명세서에는, 상술한 단점을 처리할 수 있고 임의 수의 추가적이거나 대안적인 이점 및 장점들을 제공할 수 있는 방법들과 시스템들이 개시된다. 본 명세서에 기술된 실시 예들은 음성 기반 크로스-채널 등록 및 인증(voice-based cross-channel enrollment and authentication)을 위한 시스템들과 방법들을 제공한다. 특히, 본 명세서에 기술된 시스템들 및 방법들은, 화자 검증 신경망과 대역폭 확장 신경망을 구비한 신경망 아키텍처를 훈련시키고 채용함에 의해 임의 수의 통신 채널들에 걸쳐 수신된 오디오 신호들에 있어서의 변동을 제어하고 그 변동을 완화시킨다. 대역폭 확장 신경망은, 협대역 오디오 신호들에 대응하는, 추정 광대역 오디오 신호들(estimated wideband audio signals)을 생산 및 생성하기 위해 협대역 오디오 신호들에 대해 훈련된다. 이러한 추정 광대역 오디오 신호들은, 화자 검증 신경망(speaker verification neural network) 또는 임베딩 추출 신경망(embedding extraction neural network)과 같은, 하나 이상의 다운스트림 애플리케이션들(downstream applications)에 피딩(feeding)될 수 있다. 화자 검증 신경망은 인바운드 신호(inbound signal) 또는 등록 신호(enrollment signal)를 수신하는데 이용되는 채널과 무관하게, 등록된 임베딩들과, 현재 호출에 대한 인바운드 임베딩들을 비교하고 스코어링(scoring)할 수 있다.

실시 예에 있어서, 컴퓨터 구현 방법은, 컴퓨터가, 제 1 대역폭을 가진 하나 이상의 저-대역폭 오디오 신호들과, 제 2 대역폭을 가진 하나 이상의 대응하는 고-대역폭 오디오 신호들을 포함하는 다수의 훈련 오디오 신호들을 획득하고 - 제 1 대역폭은 제 2 대역폭보다 상대적으로 낮음 - ; 컴퓨터가, 신경망의 하나 이상의 신경망 층들의 세트를 구비한 대역폭 확장기를 훈련시키고 - 대역폭 확장기는 다수의 훈련 오디오 신호들에 신경망을 적용함에 의해 훈련됨 - ; 컴퓨터가, 제 1 대역폭을 가진 인바운드 오디오 신호를 수신하고; 컴퓨터가, 인바운드 오디오 신호에 신경망의 대역폭 확장기를 적용시킴에 의해, 제 2 대역폭을 가진 추정 인바운드 오디오 신호(estimated inbound audio signal)를 생성하는 것을 구비한다.

다른 실시 예에 있어서, 시스템은, 하나 이상의 신경망들에 대한 머신-판독 가능 명령어들(machine-readable instructions)을 저장하도록 구성된 비-일시적 머신-판독 가능 메모리와; 프로세서를 구비한 컴퓨터를 구비하되, 컴퓨터는 제 1 대역폭을 가진 하나 이상의 저-대역폭 오디오 신호들과, 제 2 대역폭을 가진 하나 이상의 대응하는 고-대역폭 오디오 신호들을 포함하는 다수의 훈련 오디오 신호들을 획득하고 - 제 1 대역폭은 제 2 대역폭보다 상대적으로 낮음 - ; 신경망의 하나 이상의 신경망 층들의 세트를 구비한 대역폭 확장기를 훈련시키고 - 대역폭 확장기는 다수의 훈련 오디오 신호들에 신경망을 적용함에 의해 훈련됨 - ; 제 1 대역폭을 가진 인바운드 오디오 신호를 수신하고; 인바운드 오디오 신호에 신경망의 대역폭 확장기를 적용시킴에 의해, 제 2 대역폭을 가진 추정 인바운드 오디오 신호(estimated inbound audio signal)를 생성하도록 구성된다.

상술한 전반적인 기술 및 이하의 상세한 기술은 예시적이고 설명을 위한 것으로, 청구된 본 발명의 추가적인 설명을 제공하고자 한 것임을 알아야 한다.

본 개시는, 이하의 도면들을 참조하면 더욱 잘 이해될 수 있다. 도면에서 있어서의 부품들은 축척으로 도시된 것은 아니며, 본 개시의 원리의 예시가 강조되어 있다. 도면들에 있어서, 참조 번호들은 다른 도면들에 걸쳐 대응하는 부분들을 나타낸다.
도 1은, 예시적인 실시 예에 따른, 전화 호출을 수신하고 분석하는 시스템의 부품들을 도시한 도면이다.
도 2는, 대역폭 확장을 위한 하나 이상의 신경망들을 구현하는 방법의 단계들을 도시한 도면이다.
도 3은, 화자 검증을 위한 신경망 아키텍처(임베딩 추출기라고도 함)를 구현하는 방법의 단계들을 도시한 도면이다.
도 4는, 대역폭 확장을 위한 신경망 아키텍처의 층들을 도시한 도면이다.
도 5는, 화자 인식을 위한 신경망 아키텍처들의 층들을 도시한 도면이다.
도 6a는, 대역폭 확장 및 화자 인식을 위한 신경망 아키텍처의 층들을 도시한 도면이다.
도 6b는, 대역폭 확장 및 화자 인식을 위한 신경망 아키텍처의 층들을 도시한 도면이다.
도 7은, 다수 채널들에 걸쳐서의 화자 및 인증을 위한 신경망 아키텍처의 층들을 도시한 도면이다.
도 8은, 실시 예에 따른, 신경망 아키텍처를 채용한 크로스-채널 호출자 인증을 위한 시스템을 도시한 도면이다.

도면들에 도시된 예시적인 실시 예들에 대한 참조가 이루어질 것이고, 본 명세서에서 특정 용어는 동일한 것을 기술하는데 이용될 것이다. 그렇지만, 그에 의해 본 발명의 범주를 제한하고자 하는 것은 아님을 알 것이다. 본 개시에 속하는 관련 분야의 당업자들에게 발생할 수 있는, 본 명세서에서 예시된 신규한 특징들의 대안 및 추가적인 수정과, 본 명세서에서 예시한 본 발명의 원리들의 추가적인 애플리케이션은 본 발명의 범주내인 것으로 간주되어야 한다.

화자 인식 및 다른 동작들(예를 들어, 인증)을 위한 음성 생체 인식은, 전형적으로, 특정 화자의 샘플들과 화자 샘플들의 유니버스(universe)로부터 생성된 모델들 또는 벡터들(models or vectors)에 의존한다. 예를 들어, 훈련 단계(training phase)동안(또는 재-훈련 단계동안), 서버 또는 다른 컴퓨팅 디바이스는, 다수의 훈련 오디오 신호들을 이용하여 스피치의 인스턴스(instance)들을 인식하고 구별하도록 훈련된 스피치 인식 엔진(예를 들어, 인공 지능 및/또는 머신-학습 프로그램 소프트웨어)을 실행시킨다. 신경망 아키텍처는 대응하는 입력들에 따라 특정 결과들을 출력하고, 관찰된 출력(observed output)과 기대 출력(expected output)을 비교함에 의해 손실 함수(loss function)에 따라 그 결과들을 평가한다. 그 다음, 훈련 동작들은 신경망 아키텍처의 가중값들(하이퍼파라메타(hyperparameter)들이라고 도 함)을 맞춤 조정하고, 기대 출력들과 관찰된 출력들이 수렴할 때까지 그 입력에, 신경망 아키텍처를 재 적용한다. 그 다음, 서버들은 하이퍼파라메타들을 확정(동결(freeze) 또는 설정)하고, 일부 경우에, 훈련을 위해 이용된 신경망 아키텍처의 하나 이상의 층들을 디스에이블(disable)시킨다.

서버는, 특정 등록자-화자에 대한 등록 단계 동안 특정 화자를 인식하도록 스피커 인식 엔진을 추가로 훈련시킬 수 있다. 스피커 인식 엔진은, 등록자를 수반하는 스피치 세그먼트들을 가진 등록자 오디오 신호들을 이용하여 등록자 음성 피처 벡터("음성프린트"라고도 함)를 생성할 수 있다. 추후 인바운드 전화 호출(later inbound phone call)동안, 서버는, 등록자의 음성프린트에 대한, 추후 인바운드 호출로부터 추출된 피처 벡터의 매칭에 기초하여, 추후 오디오 신호가 등록자를 수반하는지를 확인하기 위하여, 음성프린트들을 참조한다. 이러한 방식들은, 일반적으로, 성공적이며, 인바운드 호출에 있어서의 등록자 검출에 적당하다.

그러나, 우려스러운 점은, 인바운드 신호들의 품질이 이용 가능 통신 채널들에 걸쳐 가변한다는 것이다. 이러한 변동은 신경망 아키텍처의 성능을 감소시키고/시키거나 등록자가 각 특정 통신 채널들마다 개별적인 등록 신호들을 제공할 것을 요구한다. 일부 경우에, 개별적인 신경망 아키텍처는 각 특정 통신 채널마다 유지되어야 하며, 이에 따라 다루기가 어려워지고 성능이 줄어들 수 있다.

본 명세서에 기술된 바와 같이, 시스템은 대역폭 확장 신경망("대역폭 확장기"라고도 함)을 훈련시키고 채용한다. 대역폭 확장기는 저 품질 데이터(low quality data)(예를 들어, 낮은 샘플링 레이트, 낮은 대역폭)에 대해 구성된 통신 채널을 통해 도달하는 협대역 오디오 신호를 수집하고, 대응하는 추정 광대역 오디오 신호들을 생성한다. 이 추정 광대역 오디오 신호들은 화자 검증 신경망 또는 임베딩 추출 신경망과 같은 하나 이상의 다운스트림 애플리케이션들에 피딩될 수 있다. 화자 검증 신경망은, 인바운드 신호 또는 등록 신호를 수신하는데 이용되는 채널들과 무관하게, 등록된 임베딩들과, 현재 호출에 대한 인바운드 임베딩들을 비교하고 스코어링할 수 있다.

본 명세서에 기술된 실시 예들은, 다른 것들 중에서도, 오디오 데이터 수집(audio data ingestion), 전치 프로세싱 동작, 데이터 증강(data augmentation) 동작, 대역폭 확장, 임베딩 추출, 손실 함수 동작 및 분류 동작들과 같은, 특정 동작들을 수행하도록 구성된 임의 개수의 층들을 구비하는 하나 이상의 신경망 아키텍처들을 구현한다. 여러 동작들을 수행하기 위하여, 하나 이상의 신경망 아키텍처들은, 다른 것들 중에서도, 입력층들, 대역폭 확장기의 층들, 임베딩 추출기의 층들, 완전-접속층들(fully-connected layers), 손실층들 및 분류기의 층들과 같은, 임의 개수의 층들을 구비한다.

층들 또는 동작들은 임의 개수의 신경망 아키텍처들에 의해 수행될 수 있음을 알아야 한다. 예를 들어, (대역폭 확장층들을 가진) 대역폭 확장기 신경망과 (임베딩 추출기 층들을 가진) 화자 인식기 신경망은 서버에 의해 실행되는 개별적인 신경망 아키텍처들일 수 있다. 다른 예시로서, (대역폭 확장층들을 가진) 대역폭 확장 신경망과 (임베딩 추출기 층들을 가진) 화자 인식기 신경망은 서버에 의해 실행되는 동일 신경망 아키텍처의 부품들일 수 있다. 추가적으로 또는 대안적으로, 다른 동작들을 수행하는 층들은 다른 유형의 신경망 아키텍처들을 정의할 수 있다. 예를 들어, 임베딩 추출기를 위한 층들은, ResNet 신경망 아키텍처일 수 있고, 대역폭 확장기를 위한 층들은 다른 유형의 CNN(Convolutional Neural Network) 또는 DNN(Deep Neural Network)일 수 있다.

더욱이, 전치 프로세싱 동작 및 데이터 증강 동작과 같은 특정 동작들은 신경망 아키텍처의 층들로서 또는 신경망 아키텍처와는 별개로 컴퓨팅 디바이스에 의해 수행될 수 있다. 네트워크내(in-network) 증강 및 전치 프로세싱의 비 제한적 예시는, 본 명세서에 참조로서 수록되고, 2020년 10월 8일자 출원된 미국출원번호 제17/066,210호와 2020년 10월 23일자 출원된 미국출원번호 제17/079,082호에서 발견될 수 있다.

예시적인 시스템 부품들

도 1은, 예시적인 실시 예에 따른, 크로스-채널 음성 생체 인식을 위한 전화 호출을 수신하고 분석하는 시스템(100)의 부품들을 도시한 도면이다. 시스템(100)은 호출 분석 시스템(101), 고객 업체(customer enterprise)(예를 들어, 회사, 정부 엔티티, 대학들)의 호출 센터 시스템(110) 및 호출자 디바이스(114)를 구비한다. 호출 분석 시스템(101)은 분석 서버(102), 분석 데이터베이스(104) 및 관리 디바이스(103)를 포함한다. 호출 센터 시스템(110)은 호출 센터 서버들(111), 호출 센터 데이터베이스(112) 및 에이전트 디바이스(116)를 포함한다. 실시 예들은, 추가적인 또는 대안적인 부품들을 구비하거나, 도 1 부품들로부터 특정 부품을 누락시킬 수 있지만, 여전히 본 개시의 범주내이다. 일반적으로, 그것은, 예를 들어, 다수의 호출 센터 시스템(100)을 포함하거나, 또는 호출 분석 시스템(101)은 다수의 분석 서버들(102)을 가질 수 있다. 실시 예들은 본 명세서에 기술된 여러 피처들과 작업들을 수행할 수 있는 임의 개수의 디바이스들을 포함하거나 구현할 수 있다. 예를 들어, 도 1은 분석 데이터베이스(104)와는 별개인 컴퓨팅 디바이스로서의 분석 서버(102)를 도시한다. 일부 실시 예들에 있어서, 분석 데이터베이스(104)는 분석 서버(102)내에 집적화될 수 있다.

도 1에 대해 기술된 실시 예들은 본 명세서에 기술된 크로스-채널 음성 생체 인식의 단순한 예시일 뿐 다른 잠재적인 실시 예들에 대한 제한을 위한 것은 아님을 알아야 한다. 도 1의 설명은 호출자가 호출 센터 시스템(110)에 의해 제공되는 서비스에 접촉하여 그와 상호 작용하기 위해 여러 통신 채널들을 통해 호출하는 상황을 나타낸 것이지만, 본 명세서에 기술된 크로스-채널 음성 생체 인식 기술들의 동작들 및 피처들은 호출 센서 시스템(110)에 의해 제공된 서비스들과 호출자간의 음성 기반 인터페이스를 수반하는 임의 상황에도 적용될 수 있다.

예를 들어, 본 명세서에 기술된 크로스-채널 음성 생체 인식 시스템들 및 동작들은, 다수의 통신 채널들을 통해 화자 오디오 입력들을 수신하고 인증하는 임의 시스템에 구현될 수 있다. 최종-사용자들(end-users)은 서비스 제공자의 호출 센터 시스템(110)과 서비스 제공자의 사용자 계좌 또는 다른 피처들을 액세스하고, 호출 센터 서버들(111)에 의해 호스팅(hosting)된 소프트웨어 애플리케이션(예를 들어, 클라우드 애플리케이션) 또는 소프트웨어 애플리케이션의 인간 에이전트과 상호 작용할 수 있다. 일부 구현들에 있어서, 서비스 제공자의 호출 센터 시스템(110)의 사용자들은 여러 유형의 사용자 디바이스들(114)을 이용하여 호출함에 의해 서비스 제공자의 사용자 계좌들 또는 다른 피처들을 액세스할 수 있다. 그 사용자들은 호출 센터 서버들(111)에 의해 호스팅되는 소프트웨어 프로그래밍(예를 들어, 클라우드 애플리케이션)과 데이터 및 명령어들을 교환하도록 구성된 특정 사용자 디바이스(114)에 의해 실행되는 소프트웨어를 이용하여 서비스 제공자의 사용자 계좌들 또는 다른 피처들을 액세스할 수 있다. 고객 호출 센터(110)는, 예를 들어, 전화 호출 동안 호출자와 대화하는 인간 에이전트들, 호출 센터 서버(111)에 의해 실행되는 IVR(Interactive Voice Response) 소프트웨어, 또는 호출 센터 서버(111)에 의해 실행되는 클라우드 소프트웨어 프로그래밍을 포함할 수 있다. 고객 호출 센터(110)는, 최종-사용자가 IVR 시스템 또는 클라우드 소프트웨어 애플리케이션과만 상호 작용하도록 하기 위해, 임의 인간 에이전트들을 포함할 필요가 없다.

예를 들어, 일부 경우에, 고객 호출 센터 시스템(110)은, 예를 들어, 유선 전화 디바이스(114a)(협대역 채널) 또는 이동 디바이스(114b)(광대역 채널)로부터 기원하는 전화 호출을 처리하는 IVR 시스템 및/또는 인간 에이전트들을 포함한다. 다른 예시로서, 일부 경우에, 호출 센터 서버(111)는 이동 디바이스(114b), 컴퓨팅 디바이스(114c) 또는 에지 디바이스(114d)와 같은, 사용자 디바이스(114)상의 대응하는 소프트웨어 애플리케이션에 액세스할 수 있는 클라우드 애플리케이션을 실행시킨다. 사용자는 사용자-측 소프트웨어 애플리케이션을 이용하여 서비스 제공자의 사용자 계좌들 또는 다른 피처들과 상호 작용한다. 그 경우, 호출 센터 시스템(110)은 인간 에이전트를 포함할 필요가 없으며, 또는 사용자는, 호출 센터 서버(111)에게 명령하여, 다른 채널을 통한 에이전트 디바이스(116)와의 접속을 위해, 소프트웨어 애플리케이션을 재 지향시키도록 하고, 그에 따라 사용자가 어려움을 겪을 때 그 사용자가 인간 에이전트와 대화할 수 있게 한다.

하나 이상의 공중 또는 개인 네트워크들의 여러 하드웨어 및 소프트웨어 부품들은, 여러 통신 채널들을 통해, 시스템(100)의 여러 부품들을 상호 접속시킬 수 있다. 그러한 네트워크들의 비 제한적 예시들은, LAN(Local Area Network), WLAN(Wireless Local Area Network), MAN(Metropolitan Area Network), WAN(Wide Area Network) 및 인터넷을 포함할 수 있다. TCP/IP(Transmission Control Protocol and Internet Protocol), UDP(User Datagram Protocol) 및 IEEE 통신 프로토콜과 같은 여러 통신 프로토콜에 따라 네트워크를 통한 통신이 수행될 수 있다. 유사하게, 호출자 디바이스(114)는 전화 호출과 연관된 오디오 데이터를 호스팅(hosting)하고, 수송하며 교환할 수 있는 전화 및 원격통신 프로토콜, 하드웨어 및 소프트웨어를 통해 피 호출자(callee)들(예를 들어, 호출 센터 시스템들(110))과 통신할 수 있다. 원격 통신 하드웨어의 비 제한적 예시들은, 전화 호출, 회로 및 시그널링(signalling)을 호스팅, 라우팅(routing) 또는 관리하는데 이용되는 다른 추가적이거나 대안적인 하드웨어 중에서도, 스위치들 및 트렁크(trunk)들을 포함할 수 있다. 원격 통신을 위한 소프트웨어 및 프로토콜들의 비 제한적 예시들은, 전화 호출, 회로 및 시그널링을 호스팅, 라우팅 또는 관리하는데 이용되는 다른 추가적이거나 대안적인 소프트웨어 및 프로토콜 중에서도, SS7, SIGTRAN, SCTP, ISDN 및 DNIS를 포함할 수 있다. 원격 통신을 위한 부품들은, 다른 것들 중에서도, 캐리어들(carriers), 교환들, 네트워크들과 같은, 여러 서로 다른 엔티티들내에 조직되거나, 그 엔티티들에 의해 관리될 수 있다.

호출자 디바이스(114)는, 호출자가 여러 통신 채널들을 통해 호출 센터 시스템(100)의 서비스들에 액세스하도록 동작시키는 임의 통신 또는 컴퓨팅 디바이스일 수 있다. 예를 들어, 호출자는, 호출자 디바이스(114)에 의해 실행되는 소프트웨어 애플리케이션을 통해 또는 전화 네트워크를 통해 호출 센터 시스템(110)으로 호출할 수 있다. 호출자 디바이스(114)의 비-제한적 예시는 유선 전화기들(114a), 이동 전화기들(114b), 호출 컴퓨팅 디바이스들(114c) 또는 에지 디바이스들(114d)을 포함할 수 있다. 유선 전화기(114a)와 이동 전화기(114b)는 원격 통신 채널들을 통해 통신하는 원격 통신 지향 디바이스들(예를 들어, 전화기들)이다. 호출자 디바이스(114)는 원격 통신 지향 디바이스들 또는 채널들에 국한되지 않는다. 예를 들어, 일부 경우에, 이동 전화기(114b)는 컴퓨팅 네트워크 채널(예를 들어, 인터넷)을 통해 통신할 수 있다. 호출자 디바이스(114)는, 예를 들어, VoIP(Voice-over-IP) 원격 통신, TCP/IP 네트워크를 통한 데이터 스트리밍, 또는 다른 컴퓨팅 네트워크 채널을 구현하는 호출자 컴퓨팅 디바이스(114c) 또는 에지 디바이스(114d)와 같은, 프로세서 및/또는 소프트웨어를 구비한 전자 디바이스를 포함할 수 있다. 에지 디바이스(114d)는 네트워크 통신을 위한 임의의 IoT(Internet of Things) 디바이스 또는 다른 전자 디바이스를 포함할 수 있다. 에지 디바이스(114d)는 소프트웨어 애플리케이션들을 실행하고/하거나 음성 인터페이스 동작들을 수행할 수 있는 임의 스마트 디바이스일 수 있다. 에지 디바이스(114d)의 비-제한적 예시는 음성 지원 디바이스(voice assistant device)들, 자동차들, 스마트 어플라이언스(smart appliance)들 등을 포함할 수 있다.

호출 센터 시스템(110)은 호출 센터 시스템(110)과의 호출자 접촉과 관련된 여러 유형의 데이터 또는 메타데이터를 포획하고 저장하는 여러 하드웨어 및 소프트웨어 부품들을 구비한다. 이 데이터는, 예를 들어, 특정 통신 채널을 위해 채용된 프로토콜들 및 소프트웨어와 관련된 호출자의 음성 및 메타데이터 또는 호출의 오디오 기록을 포함할 수 있다. 호출자 음성과 함께 포획된 오디오 신호는 이용된 특정 통신에 기반한 품질을 가진다. 예를 들어, 유선 전화기(114a)로부터의 오디오 신호들은, 에지 디바이스(114d)로부터의 오디오 신호들의 샘플링 레이트 및/또는 대역폭에 비해, 낮은 샘플링 레이트 및/또는 낮은 대역폭을 가질 것이다.

호출 분석 시스템(101) 및 호출 센터 시스템(110)은, 여러 업체 기관(enterprise organization)들에 의해 관리되고 운영되는 물리적 및 논리적으로 관련된 소프트웨어 및 전자 디바이스를 구비하는 네트워크 인프라구조(network infrastructure)들(101, 110)을 나타낸다. 각 네트워크 시스템 인프라구조(101, 110)의 디바이스들은 특정 업체 기관의 의도된 서비스들을 제공하도록 구성된다.

호출 분석 시스템(101)의 분석 서버(102)는 본 명세서에 기술된 여러 프로세스들 및 작업들을 수행할 수 있는 하나 이상의 프로세서들과 소프트웨어를 구비한 임의 컴퓨팅 디바이스일 수 있다. 분석 서버(102)는 분석 데이터베이스(104)를 호스팅하거나, 그와 통신할 수 있으며, 하나 이상의 호출 센터 시스템들(110)로부터 호출 데이터(예를 들어, 오디오 기록, 메타데이터)를 수신 및 프로세싱한다. 도 1에는 단지 하나의 분석 서버(102)만이 도시되지만, 분석 서버(102)는 임의 개수의 컴퓨팅 디바이스들을 포함할 수 있다. 일부 경우에, 분석 서버(102)의 컴퓨팅 디바이스는, 분석 서버(102)의 프로세스들 및 이점들의 전부 또는 서브-부분(sub-part)들을 수행할 수 있다. 분석 서버(102)는 분산형 또는 클라우드 컴퓨팅 구성(distributed or cloud computing configuration) 및/또는 가상 머신 구성(virtual machine configuration)으로 동작하는 컴퓨팅 디바이스를 구비할 수 있다. 일부 실시 예들에 있어서, 분석 서버(102)의 함수들은 호출 센터 시스템(110)의 컴퓨팅 디바이스(예를 들어, 호출 센터 서버(111))에 의해 부분적으로 또는 전체적으로 수행될 수 있다.

분석 서버(102)는 대역폭 확장 및 화자 인식을 위한 신경망 층들을 가진 하나 이상의 신경망 아키텍처들을 포함하는 오디오-프로세싱 소프트웨어를 실행시킨다. 일부 경우에, 신경망 아키텍처들은, 다른 것들 중에서도, 오디오 입력 강화, (크로스-채널 화자 검증을 포함하는) 화자 검증 또는 인증 및 화자 구분과 같은 추가적인 동작들 또는 함수들을 수행할 수 있다. 설명을 쉽게 하기 위하여, 분석 서버(102)는 대역폭 확장기 및 임베딩 추출기를 가진 단일 신경망 아키텍처를 실행시키는 것으로 기술되지만, 일부 실시 예들에서는 다수의 신경망 아키텍처들이 채용될 수 있다.

신경망 아키텍처는, 훈련 단계, 등록 단계 및 배포 단계(검사 단계 또는 검사라고도 함)를 포함하는 여러 운영 단계들로 논리적으로 동작하지만, 일부 실시 예들은 등록 단계를 수행할 필요가 없다. 분석 서버(102) 및 신경망 아키텍처에 의해 프로세싱된 입력된 오디오 신호들은 배포 단계 동안 프로세싱되는 인바운드 오디오 신호, 등록 오디오 신호 및 훈련 오디오 신호들을 포함한다. 분석 서버(102)는 대응하는 운영 단계 동안 각 유형의 입력된 오디오 신호들에 신경망 아키텍처를 적용한다.

시스템(100)의 분석 서버(102) 또는 다른 컴퓨팅 디바이스(예를 들어, 호출 센터 서버(111))는 입력 오디오 신호에 대해 여러 전치 프로세싱 동작 및/또는 데이터 증강 동작을 수행할 수 있다. 입력된 오디오 신호들에 대한 전치 프로세싱 동작들의 비 제한적 예시는, 다른 잠재적인 전치 프로세싱 동작들 중에서도, 대역폭 확장, 다운-샘플링(down-sampling) 또는 업-샘플링(up-sampling)을 수행하고, 하위 레벨 피처들을 추출하고, 오디오 신호를 파싱하여 프레임들 또는 세그먼트들로 분할하고, 하나 이상의 변환 함수(예를 들어, FFT, SFT)들을 수행하는 것을 포함한다. 증강 동작의 비 제한적 예시는, 다른 것들 중에서도, 대역폭 확장, 다운-샘플링 또는 업-샘플링, 오디오 클리핑(audio clipping), 잡음 증강, 주파수 증강, 지속 시간 증강(duration augmentation)을 수행하는 것을 포함한다. 분석 서버(102)는, 입력 오디오 신호들을 신경망 아키텍처의 입력 층들로 피딩(feeding)하기 전에, 전치 프로세싱 또는 데이터 증강 동작을 수행할 수 있다. 추가적으로 또는 대안적으로, 분석 서버(102)는 신경망 아키텍처를 실행시킬 때 전치-프로세싱 또는 데이터 증강 동작들을 실행시킬 수 있는데, 이때, 신경망 아키텍처의 입력층들(또는 다른 층들)이 전치-프로세싱 또는 데이터 증강 동작들을 수행한다. 예를 들어, 신경망 아키텍처는 신경망 아키텍처로 피딩된 입력 오디오 신호들에 대해 데이터 증강 동작들을 수행하는 네트워크내 데이터 증강(in-network data augmentation)층을 구비할 수 있다.

훈련 단계 동안, 분석 서버(102)는, 하나 이상의 코퍼스들(corpora)로부터, 분석 데이터베이스(104) 또는 다른 저장 매체에 저장될 수 있는, 여러 길이 및 특성들(예를 들어, 대역폭, 샘플링 레이트, 열화(degradation)의 유형)의 훈련 오디오 신호들을 수신한다. 훈련 오디오 신호들은, 청정 오디오 신호들(이를 샘플들이라고 하기도 함)과 시뮬레이션된 오디오 신호들을 포함하며, 그 신호들의 각각은 분석 서버(104)가 신경망 아키텍처의 여러 층들을 훈련시키는데 이용된다. 청정 오디오 신호들(clean audio signals)은, 스피치 및 피처들이 분석 서버(102)에 의해 식별될 수 있는, 스피치를 포함하는 오디오 샘플들이다.

분석 서버(102)는 보다 많은 분석 데이터베이스들(104)로부터 시뮬레이션된 오디오 신호들을 검색하고/하거나, 여러 데이터 증강 동작들을 수행함으로써 시뮬레이션된 오디오 신호들을 생성한다. 일부 경우에, 데이터 증강 동작은 주어진 입력 오디오 신호(예를 들어, 훈련 신호, 등록 신호)에 대해 시뮬레이션된 오디오 신호를 생성할 수 있는데, 그 시뮬레이션된 오디오 신호는 입력 오디오 신호에 대한 특정 유형의 신호 열화 또는 왜곡을 모방한 입력 오디오 신호의 조작된 피처들을 포함한다. 분석 서버(102)는, 신경망 아키텍처의 장래 참조 또는 동작들을 위해 분석 서버(102)의 비-일시적 매체 및/또는 분석 데이터베이스(104)에 훈련 오디오 신호들을 저장한다.

대역폭 확장기에 대한 등록들을 훈련시키거나 진전시키기 위해, 훈련 오디오 신호들 또는 등록 오디오 신호들은 시스템(100)의 잠재적 통신 채널들과 연관된 가변 대역폭들(varied bandwidth)을 가진다. 이 방식에서는, 대역폭 확장기의 층들이 통신 채널들에 의해 이용되는 여러 대역폭들을 가진 입력 오디오 신호들에 대해 추정 광대역 오디오 신호들을 생성하도록 조정된다.

일부 구현들에 있어서, 분석 서버(102)는 훈련/등록 오디오 신호들이 동일 대역폭을 가진다고 판정하거나, 임의 특정 대역폭의 훈련/등록 오디오 신호들이 너무 적다고(임계량 미만) 판정한다. 그러한 구현에 있어서, 분석 서버(102)는 가변 대역폭들을 가진 시뮬레이션된 훈련/등록 신호들을 생성하기 위해 하나 이상의 증강 프로세스들을 수행하며, 그에 의해 대역폭 확장기를 조정하기 위한 훈련/등록 신호들의 볼륨(volume)이 증가된다. 예를 들어, 분석 서버(102)는 시뮬레이션된 오디오 신호들을 생성하기 위해 코덱 프로그램(codec program)을 실행하며, 그에 의해 분석 서버(102)는 코덱 프로그램을 통해 광대역(예를 들어, 16kHz) 훈련 오디오 파일을 전달함으로써 대응하는 협대역(예를 들어, 8kHz) 시뮬레이션된 오디오 파일을 생성한다.

훈련 단계 및, 일부 구현에서는 등록 단계 동안, 하나 이상의 완전 접속 및/또는 피드-순방향 층들은 훈련 오디오 신호들에 대해 예측 추정 광대역 신호들(predicted estimated wideband signals)을 생성 및 출력한다. 손실층들은, 훈련/등록 신호들과 연관된 라벨들에 의해 표시된, 추정 광대역 신호들과 기대 광대역 신호들(expected wideband signals)의 피처들간의 거리를 평가하기 위해 여러 손실 함수들을 수행한다. 손실층들 또는 분석 서버(102)에 의해 실행되는 다른 함수들은, 예측 추정 광대역 신호들과 기대 추정 광대역 신호들(expected estimated wideband signals)간의 거리가 임계치를 만족할 때까지, 신경망 아키텍처의 하이퍼파라메타들을 조정한다.

등록 운영 단계 동안, 호출 센터 시스템(110)의 최종-소비자와 같은, 등록자 화자(enrollee speaker)는 (호출 분석 시스템(101)에) 등록자 스피치의 예시들을 포함하는 다수의 등록자 오디오 신호들을 제공한다. 예를 들어, 등록자는, 전화 채널을 통해, 호출 센터 서버(111)에 의해 실행되는 IVR(Interactive Voice Response) 소프트웨어의 여러 IVR 프롬프트들(prompts)에 응답할 수 있다. 또 다른 예시로서, 등록자는 호출 센터 서버(111)에 의해 생성되고 대응하는 데이터 통신 채널들을 통해 에지 디바이스(114d)의 소프트웨어 애플리케이션과 교환되는 여러 프롬프트들에 응답한다. 그 다음, 호출 센터 서버(111)는 보나파이드 등록 오디오 신호(bona fide enrollment audio signal)를 포함하는 기록된 응답을 분석 서버(102)로 지향시킨다. 분석 서버(102)는 신경망 아키텍처를 훈련시키기 위해 채용된 층들과 같은, 특정 층들을 디스에이블 시키긴 하지만, 훈련된 신경망 아키텍처를 등록자 오디오 샘플들의 각각에 적용하고, 대응하는 등록자 피처 벡터들("등록자 임베딩"이라고도 함)을 생성한다. 분석 서버(102)는 평균을 생성하거나, 등록자 피처 벡터들을 알고리즘적으로 조합하고, 등록자 피처 벡터들을 분석 데이터베이스(104) 또는 호출 센터 데이터베이스(112)에 저장한다. 선택적으로, 에지 디바이스는, 등록자 오디오 샘플들의 각각에 훈련된 신경망 아키텍처를 국소적으로 적용함에 의해(온-디바이스(on-device)) 등록자 피처 벡터들을 생성하고, 등록자 피처 벡터들을 호출 센터 서비스(111) 또는 분석 서버(102)에 보낸다.

본 명세서에 참조로서 수록된 미국출원번호 제17/066,210호 및 제17/079,082호에, 화자 검증 신경망에 대한 훈련 및 등록 단계들의 유사한 세부 설명이 기술되어 있다. 추가적으로, 본 명세서에 기술된 신경망 아키텍처는 화자 검증 신경망의 층들을 추가로 포함하는데, 거기에서는 화자 검증 신경망의 층들이 대역폭 확장기 신경망의 층들과 공조하여 실행된다. 일부 실시 예들에 있어서, 화자 검증 신경망은 대역폭 확장기에 의해 출력된 추정 광대역 오디오 신호들을 수신한다. 추가적으로 또는 대안적으로, 화자 검증은 데이터 증강 동작으로서 오디오 신호들에 대역폭 확장기를 적용할 수 있다.

훈련 단계에 이어서, 분석 서버(102)는 분석 데이터베이스(104) 또는 호출 센터 데이터베이스(112)에 신경망 아키텍처를 저장한다. 호출 센터 서버(111), 에이전트 디바이스(116), 관리 디바이스(103) 또는 사용자 디바이스(114)가, 등록자 오디오 신호들의 피처들을 추출하고 등록자 오디오 신호들에 대한 신경망 아키텍처를 조정하기 위한 등록 단계에 진입하도록, 분석 서버(102)에게 명령하면, 분석 서버(102)는 데이터베이스(104,112)로부터 훈련된 신경망 아키텍처를 검색한다. 분석 서버(102)는 배포 단계를 위해 데이터베이스(104,112)에 추출된 등록자 임베딩들과 훈련된 신경망 아키텍처를 저장한다.

배포 단계 동안, 분석 서버(102)는, 특정 통신 채널을 통해, 인바운드 호출자의 호출자 디바이스(114)로부터 기원한, 인바운드 호출의 인바운드 오디오 신호를 수신한다. 분석 서버(102)는, 인바운드 오디오로부터 피처들을 추출하고, 화자가 호출 센서 시스템(110) 또는 분석 시스템(101)에 등록된 등록자인지를 판정하기 위해, 인바운드 오디오 신호에 신경망 아키텍처를 적용한다. 일부 경우에, 분석 서버(102)는, 인바운드 오디오 신호에 대역폭 확장기를 적용할지의 여부를 판정하기 위해, 인바운드 오디오 신호의 대역폭을 평가한다. 인바운드 오디오 신호가 협대역을 가지고 있다고 분석 서버(102)가 판정하면, 분석 서버(102)는 대역폭 확장기를 협대역 인바운드 신호에 적용한다. 반대로, 인바운드 오디오 신호가 광대역을 가지고 있다고 분석 서버(102)가 판정하면, 분석 서버(102)는 광대역 인바운드 신호에 대역폭 확장기를 적용할 필요가 없다. 배포 동안, 분석 서버(102)는 인바운드 오디오 신호에, 입력층들(예를 들어, 전치 프로세싱 층들, 증강층들), 대역폭 확장층들 및 임베딩 추출층들과 같은, 신경망 아키텍처의 운영층들을 적용한다. 일부 실시 예들에 있어서, 분석 서버(102)는 훈련 또는 등록을 위해 채용된 특정 층들(예를 들어, 분류층들, 손실층들)을 디스에이블할 수 있다.

분석 서버(102)는, 인바운드 신호에 신경망 아키텍처를 적용함에 의해, 인바운드 오디오 신호에 대한 추정 광대역 신호를 생성한다. 배포 단계에 이어서, 분석 서버(102)(또는 시스템(100)의 다른 디바이스)는, 추정 광대역 신호를 채용한 임의 수의 여러 다운스트림 동작들을 실행시킨다. 예를 들어, 신경망 아키텍처에 의해 생성되는 추정 광대역 신호는, 많은 경우에, 하나 이상의 유형들의 열화들 중 상대적으로 낮은 열화를 가진 인바운드 오디오 신호의 개선된 버전이다. 상대적으로 좁은 대역폭(예를 들어, 8kHz)을 가진 인바운드 오디오 신호는 전반적으로 낮은 품질을 가지며, 배경 잡음과 같은 특정 열화를 포함할 수 있다. 신경망 아키텍처는 상대적으로 넓은 대역폭(예를 들어, 16kHz)을 가진 추정 광대역 신호를 생성하며, 추정 광대역 신호는, 신경망 아키텍처를 훈련 및 진전시킬 때 채용된 여러 데이터 증강 동작들로 인해 잡음 제거된다. 다운스트림 애플리케이션은 데이터-스트리밍 서비스(data-streaming service)일 수 있으며, 그에 의해 분석 서버(102)는 임의 수의 디바이스들(예를 들어, 호출 센터 서버(111), 호출자 디바이스(114))로 추정 광대역 신호를 지향시키거나 스트리밍한다.

다운스트림 애플리케이션의 다른 예시로서, 분석 서버(102)는 화자 검증 신경망으로 추정 광대역 신호를 피딩할 수 있다. 화자 검증 신경망은 화자 검증 신경망의 출력들(예를 들어, 화자 인증, 화자 구분)을 이용하여 임의 수의 추가적인 다운스트림 동작들을 수행하거나 인바운드 화자를 인식하기 위해 추정 광대역 신호로부터 임베딩들을 추출하도록 여러 프로세스들을 수행할 수 있다.

분석 데이터베이스(104) 및/또는 호출 센터 데이터베이스(112)는 하나 이상의 네트워크를 통해 분석 서버(102)에 액세스할 수 있는, 임의 개수의 훈련 오디오 신호들의 코퍼스들을 포함할 수 있다. 일부 실시 예들에 있어서, 분석 서버(102)는 신경망을 훈련시키기 위해 지도 훈련(supervised training)을 채용하며, 거기에서, 분석 데이터베이스(104)는, 예를 들어, 훈련 신호들의 특성들(예를 들어, 대역폭) 또는 피처들을 나타내는 훈련 오디오 신호들과 연관된 라벨들(labels)을 포함한다. 분석 서버(102)는 훈련 오디오 신호의 제 3 자 코퍼스(third-party corpus)를 액세스하기 위해 외부 데이터베이스(도시되지 않음)에 문의할 수 있다. 관리자는 특정 대역폭들 또는 다른 특성들을 가진 훈련 오디오 신호들을 선택하도록 분석 서버(102)를 구성할 수 있다.

호출 센터 시스템(110)의 호출 센터 서버(111)는, 여러 채널들을 통해, 호출 큐(call queue)를 관리하고, 및/또는, 호출 센터 시스템(110)에 대해 이루어진 호출을 라우팅하는 소프트웨어 프로세스들을 실행시키는데, 이 프로세스는, 예를 들어, 인바운드 호출 동안에 제공된 인바운드 호출자의 코멘트(comment)들, 지시, IVR 입력 또는 다른 입력들에 기초하여 호출을 적절한 호출 센터 에이전트 디바이스들(116)로 라우팅하는 것을 포함한다. 호출 센터 서버(111)는 호출, 호출자 및/또는 호출자 디바이스에 대한 여러 유형의 정보들을 포획하거나 문의하거나 생성할 수 있으며, 그 정보들을 에이전트 디바이스(116)로 지향시키는데, 여기에서, 에이전트 디바이스(116)의 GUI(Graphical User Interface)는 호출 센터 에이전트에게 그 정보를 디스플레이한다. 호출 센터 서버(111)는, 인바운드 오디오 신호 및 임의 다른 오디오 데이터에 대해 여러 분석 프로세스들을 수행하기 위하여, 호출 분석 시스템(101)에 인바운드 호출에 대한 정보를 전송한다. 호출 센터 서버(111)는, 일정 간격으로 또는 사전 결정된 시간에 전송되는 배치(batch)의 일부로서, 또는 시스템(100)의 또 다른 디바이스(예를 들어, 에이전트 디바이스(116), 관리 디바이스(103), 분석 서버(102))로부터 수신된 (예를 들어, 인바운드 전화 호출을 수신하는) 사전 구성된 트리거링 조건들(triggering conditions), 명령들 또는 문의들에 기초하여, 그 정보 및 오디오 데이터를 전송할 수 있다.

호출 분석 시스템(101)의 관리 디바이스(103)는 호출 분석 시스템(101)의 요원이 여러 관리 작업 또는 사용자 프롬프트 분석 동작(user-prompted analytics operations)을 수행할 수 있게 하는 컴퓨팅 디바이스이다. 관리 디바이스(103)는 프로세서와 소프트웨어를 구비하고, 본 명세서에 기술된 여러 작업 및 프로세스들을 수행할 수 있는 임의 컴퓨팅 디바이스일 수 있다. 관리 디바이스(103)의 비-제한적 예시는 서버, 개인용 컴퓨터, 랩탑 컴퓨터, 테블릿 컴퓨터 등을 포함할 수 있다. 동작에 있어서, 사용자는, 호출 분석 시스템(101) 또는 호출 센터 시스템(110)의 여러 부품들의 동작을 구성하고, 그러한 부품들에 문의 및 명령을 발행하기 위하여 관리 디바이스(103)를 채용한다.

호출 센터 시스템(110)의 에이전트 디바이스(116)는 호출 센터 시스템(110)의 에이전트 또는 다른 사용자들이 호출 센터 시스템(110)의 디바이스들의 동작들을 구성할 수 있게 한다. 호출 센터 시스템(110)에 이루어진 호출에 대해, 에이전트 디바이스(116)는 호출 센터 서버(111)로부터 라우팅된 호출과 연관된 관련 정보의 일부 또는 전부를 수신하고 디스플레이한다.

예시적인 프로세스들

대역폭 확장 훈련

도 2는, 대역폭 확장을 위한 하나 이상의 신경망 아키텍처를 구현하는 방법(200)의 단계들을 도시한 도면이다. 실시 예들은, 방법(200)에서 기술된 동작들보다 많거나, 적거나, 또는 다른 동작들을 포함할 수 있다. 방법(200)은 신경망 아키텍처의 머신-판독 가능 소프트웨어 코드를 실행하는 서버에 의해 수행되지만, 하나 이상의 컴퓨팅 디바이스들 및/또는 프로세서들에 의해 여러 동작들이 수행될 수 있음을 알아야 한다.

단계 202에서, 서버는 훈련 운영 단계에 신경망을 배치하며, 서버는, 협대역 훈련 신호, 광대역 훈련 신호, 시뮬레이션된 협대역 신호 및 시뮬레이션된 광대역 신호의 임의 조합을 포함할 수 있는, 임의 수(수천 또는 수십만)의 훈련 오디오 신호들을 획득한다.

신경망 아키텍처의 서버 또는 층들은 입력 오디오 신호(예를 들어, 훈련 오디오 신호, 등록 오디오 신호, 인바운드 오디오 신호)에 대해 여러 전치 프로세싱 동작들을 수행할 수 있다. 이 전치 프로세싱 동작들은, 예를 들어, 오디오 신호들로부터 하위 레벨 피처들을 추출하고, SFT(Short-time Fourier Transform) 및/또는 FFT(Fast Fourier Transform)를 수행함에 의해, 이 피처들을 시간-도메인 표시에서 주파수-도메인 표시로 변환하는 것을 포함할 수 있다. 전치 프로세싱 동작들은 오디오 신호들을 프레임들 또는 서브-프레임들로 파싱(parsing)하고, 여러 정규화 또는 스케일링(normalization or scaling) 동작들을 수행하는 것을 포함할 수 있다. 선택적으로, 서버는, 오디오 데이터를 신경망의 입력층들로 피딩하기 전에, 임의 개수의 전치 프로세싱 동작들을 수행한다. 서버는 운영 단계들 중의 하나 이상의 단계에서 여러 전치 프로세싱 동작들을 수행하지만, 수행되는 특정 전치 프로세싱 동작들은 운영 단계에 걸쳐 가변할 수 있다. 서버는 신경망 아키텍처와는 별개로 또는 신경망 아키텍처의 네트워크내 층(in-network layer)으로서 여러 전치 프로세싱 동작들을 수행할 수 있다.

신경망 아키텍처의 서버 또는 층들은 입력 오디오 신호(예를 들어, 훈련 오디오 신호, 등록 오디오 신호)에 대해 여러 증강 동작들을 수행할 수 있다. 증강 동작들은 입력 오디오 신호에 대해 여러 유형의 왜곡 또는 열화를 생성함으로써, 결과하는 오디오 신호들이, 예를 들어, 콘볼루션 동작들에 의해 수집되게 한다. 서버는 신경망 아키텍처와는 별개의 동작들로서 또는 네트워크내 증강 층들로서 여러 증강 동작들을 수행할 수 있다. 또한, 서버는 운영 단계들 중의 하나 이상의 단계에서 여러 증강 동작들을 수행할 수 있지만, 수행되는 특정 증강 동작들은 운영 단계들의 각각에 걸쳐 가변될 수 있다.

일부 경우에, 서버는, 서버가 협대역 훈련 신호들 및/또는 광대역 훈련 신호들의 코퍼스들에 대해 여러 증강 동작들을 수행할 때, 시뮬레이션된 협대역 신호들 및/또는 시뮬레이션된 광대역 신호들을 생성한다. 예를 들어, 서버는 데이터베이스로부터 광대역 훈련 오디오 신호들을 수신하고, 광대역 훈련 신호들에 대응하는 시뮬레이션된 협대역 오디오 신호들을 생성할 수 있다. 서버는 광대역 훈련 오디오 신호들에 대해 하나 이상의 알려진 다운-샘플링 기술들을 실행함으로써 광대역 훈련 신호들을 다운-샘플링한다. 추가적으로 또는 대안적으로, 서버는 광대역 훈련 신호들에 대해 코덱 프로그램을 실행하고, 그에 의해 대응하는 시뮬레이션된 협대역 오디오 신호들이 생성된다.

선택적 실시 예들에 있어서, 서버는 협대역 훈련 오디오 신호들을 선택하고, 협대역 훈련 신호들에 대응하는 시뮬레이션된 광대역 오디오 신호들을 생성한다. 서버는 협대역 훈련 신호들에 대해 하나 이상의 알려진 업-샘플링(up-sampling) 기술을 실행함으로써 협대역 훈련 오디오 신호들을 업-샘플링한다. 추가적으로 또는 대안적으로, 서버는 협대역 훈련 신호들에 대해 코덱 프로그램을 실행하고, 그에 의해 대응하는 시뮬레이션된 광대역 신호들이 생성된다.

단계 204에서, 서버는 훈련 오디오 신호들에 신경망 아키텍처를 적용함으로써 대역폭 확장을 위한 신경망 아키텍처를 훈련시킨다. 서버는 대역폭 확장기의 층들 및 하나 이상의 추가적인 층들(예를 들어, 완전 접속층들)을 훈련시키기 위해 훈련 오디오 신호의 각각에 신경망을 적용시키며, 그에 의해 주어진 인바운드 협대역 신호에 대한 추정 광대역 신호("추정 인바운드 오디오 신호"라고도 함)를 생성하도록 신경망 아키텍처가 훈련된다.

단계 206에서, 서버는 손실 함수를 수행하고 대역폭 확장기의 하이퍼파라메타들을 갱신한다. 신경망 아키텍처는 훈련 신호들과 연관된 화자 라벨들을 이용하여 오차의 레벨을 평가하기 위한 하나 이상의 손실층들을 구비한다. 훈련 신호들은, 예를 들어, 예측 추정 광대역 신호에 대응하는 기대 추정 광대역 신호의 값들 또는 피처들을 나타내는 여러 정보들을 포함한다. 손실층들은 예측 (출력된) 추정 신호와 기대 추정 신호간의 차이 또는 유사성(예를 들어, 오차 레벨)에 기초하여 여러 손실 함수(예를 들어, 평균 자승 오차 손실 함수)를 수행할 수 있다. 신경망 아키텍처의 손실층들은, 오차의 임계 레벨이 충족될 때까지, 오차 레벨을 개선하기 위해 대역폭 확장기의 하이퍼파라메타들을 조정할 수 있다.

훈련이 완료되면, 서버는 서버의 메모리 또는 다른 메모리 위치에 하이퍼파라메타들을 저장한다. 서버는 하이퍼파라메타들이 확정되게 하기 위하여 신경망의 하나 이상의 층들을 디스에이블시킬 수 있다.

단계 208에서, 배포 동안, 서버는 협대역 통신 채널을 통해 인바운드 화자로부터 협대역 인바운드 오디오 신호를 수신한다. 신경망 아키텍처는 대역폭 확장 신경망에 대한 인바운드 오디오를 준비하기 위해 인바운드 오디오 신호에 임의 개수의 전치-프로세싱 및/또는 데이터 증강 동작들을 적용한다. 전술한 바와 같이, 전치-프로세싱 동작들은, 오디오 신호들을 프레임들 또는 서브-프레임들로 파싱하고, 미가공 오디오 신호(raw audio signal)를 스펙트로그램 에너지/주파수 표시(spectrogram energy/frequency representation)로 변환하고, 스펙트럼-시간 피처(spectral-temporal feature)들을 추출하고, 여러 정규화 또는 스케일링 동작들을 수행하는 것을 포함할 수 있다. 그 다음, 오디오 신호의 피처들은 대역폭 확장 신경망 층들로 피딩된다.

단계 210에서, 서버는 인바운드 오디오 신호를 수집하고, 인바운드 오디오 신호에 대역폭 확장 신경망 층들을 적용함에 의해 입력 오디오 신호에 대한 추정 광대역 신호를 생성한다. 대역폭 확장 신경망의 훈련된 콘볼루션층 및 완전 접속층들은 협대역 인바운드 신호로부터 추출된 피처들에 기초하여 추정 광대역 신호를 생성한다. 출력된 추정 광대역 신호는, 화자 검증 신경망과 같은, 임의 개수의 다운스트림 함수들로 피딩될 수 있다.

화자 검증 및 대역폭 확장

도 3은 화자 검증을 위한 신경망 아키텍처(임베딩 추출기라고도 함)를 구현하는 방법(300)의 단계들을 도시한 도면이다. 실시 예들은, 방법(300)에 기술된 동작들보다 많거나, 적거나 또는 그와 다른 동작을 포함할 수 있다. 방법(300)은 신경망 아키텍처의 머신-판독 가능 소프트웨어 코드(server executing machine-readable software code)를 실행하는 서버에 의해 수행되지만, 하나 이상의 컴퓨팅 디바이스 및/또는 프로세서들에 의해 여러 동작들이 수행될 수 도 있음을 알아야 한다.

서버는 화자 검증 신경망에 이점을 주고 그를 개선하는 대역폭 확장 신경망(대역폭 확장기라 하기도 함)을 채용한다. 설명을 쉽게 하기 위해, 도 3의 신경망 아키텍처는 대역폭 확장 신경망 및 화자 검증 신경망의 층들을 구비하지만, 그 대역폭 확장 신경망과 화자 검증 신경망은 개별적인 신경망 아키텍처들의 부품일 수도 있다.

단계 302에서, 서버는 훈련 운영 단계에 신경망 아키텍처를 배치하며, 청정 오디오 신호들(clean audio signals)과 시뮬레이션된 오디오 신호들을 포함할 수 있는, 훈련 신호들을 획득한다. 서버는, 대역폭 확장기의 출력들 또는 데이터베이스들과 같은, 여러 데이터 소스로부터 훈련 오디오 신호들을 수신한다. 서버는 여러 데이터 증강 동작들을 수행함으로써 시뮬레이션된 오디오 신호들을 생성할 수 있다.

상술한 바와 같이, 신경망 아키텍처의 층들 또는 서버는 입력 오디오 신호(예를 들어, 훈련 오디오 신호, 등록 오디오 신호, 인바운드 오디오 신호)에 대해 여러 전치-프로세싱 동작들을 수행할 수 있다. 추가적으로 또는 대안적으로, 신경망 아키텍처의 층들 또는 서버는 입력 오디오 신호(예를 들어, 훈련 오디오 신호, 등록 오디오 신호)에 대해 여러 증강 동작들을 수행할 수 있다.

서버는, 청정 오디오 신호들과 시뮬레이션된 오디오 신호들의 임의 조합을 포함하는, 훈련 오디오 신호들의 코퍼스를 포함한 데이터베이스로부터 훈련 오디오 신호들을 수신할 수 있다. 시뮬레이션된 오디오 신호들은, 예를 들어, 청정 오디오 신호에 대응하는 추가 시뮬레이션된 오디오 신호들을 생성하기 위해, 서버가 채용하고 특정 데이터 증강 동작을 위해 청정 오디오 신호들에 대해 적용하는 여러 사전 기록된 오디오 신호들을 포함할 수 있다.

예를 들어, 특정 시뮬레이션된 오디오 신호들은 공통 추가 배경 잡음(common additive background noise)의 기록(recording)을 포함할 수 있다. 서버는 이 잡음 기록을 청정 오디오 신호들에 적용하는 추가 잡음 증강 동작을 실행하여, 원시 청정 오디오 신호(original clean audio signal)와 추가 잡음을 가진 추가 시뮬레이션된 오디도 신호들을 생성한다. 다른 예시로서, 데이터 증강 프로세스는 시뮬레이션된 오디오 신호들에 추가되는, 대응하는 추정 광대역 신호들을 생성하기 위해, 훈련 오디오 신호들에 대역폭 확장기를 적용하는 것을 포함할 수 있다.

단계 304에서, 서버는 훈련 오디오 샘플들에 신경망 아키텍처를 적용함에 의해 화자 검증을 위한 신경망 아키텍처를 훈련시킨다. 서버는, 예를 들어, 오디오의 스피치 부분들을 식별하도록 분류기 층을 훈련시키기 위해, 훈련 신호들에 신경망을 적용시킨다. 완전 접속층 또는 분류층은, 신경망의 임베딩 추출기에 의해 생성되는 훈련 피처 벡터들("훈련 임베딩들"이라고도 함)의 오차 레벨을 판정하기 위하여 훈련 신호들에 대한 정보를 포함하는 라벨들을 이용한다. 서버는 신경망 아키텍처에 각 훈련 오디오 신호들을 피딩하는데, 신경망 아키텍처는 이를 이용하여 훈련 오디오 신호에 신경망 아키텍처의 현재 상태를 적용함으로써 예측 출력을 생성한다. 신경망 아키텍처의 분류기 층 또는 다른 손실 층은, 훈련 피처 벡터들이 기대 피처 벡터와 수렴할 때까지, 신경망의 하이퍼파라메타들을 조정하는데, 이때, 그 라벨들은 기대 피처 벡터들에 대한 값 또는 정보를 포함한다. 훈련이 완료되면, 서버는 서버의 메모리 또는 다른 메모리 위치에 하이퍼파라메타들을 저장하다. 서버는 하이퍼파라메타들이 확정되도록 하기 위해 신경망의 하나 이상의 층들을 디스에이블시킬 수 있다.

단계 306에서, 서버는, 하나 이상의 등록자 오디오 신호들에 훈련된 신경망을 적용함에 의해 하나 이상의 등록자 임베딩들(등록자 음성프린트(enrollee voiceprint)들이라고 함)을 추출한다. 신경망 아키텍처는 각각의 등록자 오디오 신호에 대한 등록자 피처 벡터들을 추출한다. 신경망 아키텍처의 통계층들은 등록자 피처 벡터들을 조합하기 위해 여러 통계적 및 알고리즘적 조합 함수들(statistical and algorithmic combination functions)을 수행할 수 있으며, 그에 의해 등록자 음성프린트가 생성된다.

일부 경우에, 등록자 오디오 신호들에 훈련된 신경망 아키텍처를 적용하기 전에, 서버는, 등록자 오디오 신호들에 대해 하나 이상의 데이터 증강 동작들을 수행함에 의해 하나 이상의 시뮬레이션된 등록자 신호들을 생성한다. 예를 들어, 서버는, 특정 대역폭을 가진 등록자 오디오 신호들이 너무 적다고 판정할 수 있다. 서버는, 대응하는 등록자 오디오 신호들에 대해 보다 높은 대역폭을 가진 시뮬레이션된 추정 등록자 신호들을 생성하기 위해, 등록자 오디오 신호들에 훈련된 대역폭 확장기를 적용할 수 있다. 추가적으로 또는 대안적으로, 서버는, 대응하는 등록자 오디오 신호들에 대해 보다 낮은 대역폭을 가진 시뮬레이션된 등록자 신호들을 생성하기 위해 다운-샘플링 기술을 수행하거나 코덱 프로그램을 실행시킬 수 있다. 등록자 신호들 및 시뮬레이션된 등록자 신호들은, 등록자 음성프린트를 추출하기 위해, 임베딩 추출층으로 피딩된다.

다른 예시로서, 특정 등록자 오디오 신호들은 공통 추가 배경 잡음의 기록을 포함할 수 있다. 서버는, 청정 오디오 신호들에 이 잡음 기록을 적용하는 추가 잡음 증강 동작을 실행시키고, 그에 의해 원시 청정 오디오 신호와, 추가 잡음을 가진 추가 시뮬레이션된 등록자 오디오 신호들이 생성된다. 다른 예시로서, 데이터 증강 프로세스는, 시뮬레이션된 등록자 오디오 신호들에 추가되는, 대응하는 추정 등록자 광대역 신호들을 생성하기 위해, 등록자 오디오 신호들에 대역폭 확장기를 적용하는 것을 포함할 수 있다.

단계 308에서, 서버는, 인바운드 오디오 신호에 신경망을 적용함에 의해, 유사성 스코어(similarity score)(우도 스코어(likelihood score)라고도 함)를 판정한다. 서버는 배포 운영 단계("검사"라고도 함)에 진입하여, 전형적으로, 분류층을 제외한, 신경망의 각 층들을 인에이블시킨다. 서버는 화자로부터의 입력 오디오 신호를 수신하고, 입력 오디오 신호를 신경망 아키텍처로 피딩한다. 일부 경우에, 신경망의 층들은, 입력 오디오 신호의 오디오 데이터를 시간-도메인 표시에서 주파수-도메인 표시로 변환하기 위해 FFT 알고리즘을 적용하는 것과 같은, 특정 전치-프로세싱 동작들을 수행할 수 있다. 서버는, 인바운드 오디오 신호에 대해 임의 수의 추가적인 또는 대안적인 전치-프로세싱 및 데이터 증강 동작들을 수행할 수 있다.

서버는, 입력 오디오 신호에 신경망을 적용하고, 인바운드 음성프린트 임베딩을 생성한다. 완전 접속층들은, 인바운드 음성프린트 임베딩과 등록자 임베딩간의 거리를 나타내는 유사성 스코어와, 인바운드 임베딩을 출력한다. 서버는, 유사성 스코어가 임계치를 충족하면, 인바운드 화자와 등록자간의 매칭(또는 매칭 가능성이 큼)을 식별한다. 하나 이상의 다운스트림 동작들(예를 들어, 화자 인증, 화자 구분)은 주어진 함수들을 수행하기 위해 매칭 판정, 유사성 스코어 및/또는 검사 피처 벡처를 이용할 수 있다.

예시적인 신경망 아키텍처들

대역폭 확장을 위한 예시적인 신경망 아키텍처

도 4는 대역폭 확장을 위한 신경망 아키텍처(400)의 층들을 도시한 도면이다. 서버는, 신경망(400)의 여러 층들을 실행시키기 위해 머신-판독 가능 소프트웨어 프로그래밍을 구비하지만, 신경망(400)의 동작들을 수행할 수 있는 소프트웨어 및 하드웨어(예를 들어, 프로세서)를 구비한 임의 컴퓨팅 디바이스에 의해 신경망(400)이 실행될 수도 있다. 또한, 신경망 아키테처(400)의 층들은 임의 수의 그러한 컴퓨팅 디바이스에 의해 실행될 수 있다. 신경망(400)의 층들은, 입력층들(402), 하나 이상의 대역폭 확장 신경망 층들(대역폭 확장기(404)라고도 함) 및 추정 대역폭 신호들을 출력하기 위한 하나 이상의 출력층들(406)을 포함한다. 동작에 있어서, 입력층들(402)은 입력 오디오 신호들(예를 들어, 훈련 오디오 신호들, 등록 오디오 신호들, 인바운드 오디오 신호들)을 수집하고, 입력 오디오 신호들을 전치-프로세싱하고 및/또는 입력 오디오 신호들에 대해 여러 데이터 증강 동작들을 수행하는 여러 동작들을 수행한다. 대역폭 확장기(404)의 층들과 출력층들(406)은 협대역 입력 오디오 신호들에 대응하는 추정 광대역 오디오 신호들을 생성하고, 여러 손실 함수 또는 다른 동작들에 따라 신경망 아키텍처(400)의 층들을 훈련시킨다.

입력층들(402)은 입력 오디오 신호들을 수집하고, 입력 오디오 신호들을 전치-프로세싱하며/하거나 입력 오디오 신호들에 대해 데이터 증강 동작들을 수행하는 하나 이상의 층들을 구비한다. 입력 오디오 신호들은, 예를 들어, 미가공 오디오 파일 또는 데이터 스트림들, 또는 하나 이상의 전치-프로세싱 동작들에 따른 전치-프로세싱된 오디오 데이터(예를 들어, 스펙트럼 표시, 스펙트로그램, 스펙트로그램의 피처들)일 수 있다. 입력층(402)들은 오디오 입력들(예를 들어, 미가공 오디오 입력, 스펙트럼-시간 피처들)에 대해 하나 이상의 전치-프로세싱 동작들을 수행할 수 있다.

예를 들어, 신경망 아키텍처(400)의 입력층(402)들은, 미가공 오디오 입력을 수집하고, 입력층(402)들은 스펙트럼-시간 피처들을 추출하며, 주파수-도메인 표시를 생성한다. 입력층(402)들은 미가공 오디오 입력을 수집하고, 미가공 오디오 입력의 피처들을 추출하며, 추출된 피처들을 시간-도메인 표시에서 주파수-도메인 표시로 변환하는 변환 함수(예를 들어, FFT, SFT)를 실행한다. 오디오 입력은 대역폭 확장기(404)를 정의하는 함수층(functional layer)들로 피딩된다. 일부 경우에, 입력층(402)들은, 입력 오디오 신호들에 대해 정규화 함수를 수행함으로써, 입력층(402)들이 평가하고 입력 오디오 신호들로부터 추출하는, 입력 오디오 신호들의 피처들을 나타내는, z-정규화 협대역 로그-스펙트로그램들(z-normalized narrowband log-spectrograms)을 수집 및 생성한다. 스펙트로그램으로부터 추출된 피처들은 사용자 구성에 따라 임의 개수의 차원(any number of dimension)들을 가질 수 있다. 입력층(402)들은 추출된 피처들을 대역폭 확장기(404)의 콘볼루션층(convolutional layer)들로 지향시키며, 콘볼루션 층들은 그 피처들을 극도로 평탄화(flatten)하여 출력층(406)들로 지향시킨다.

일부 경우에, 미가공 오디오 파일이 상대적으로 넓은 대역폭(예를 들어, 16kHz)을 위해 구성된 통신 채널을 통해 기원하면, 입력층(402)들은, 대응하는 시뮬레이션된 협대역 오디오 신호를 생성하기 위하여 미가공 오디오 파일을 다운-샘플링하거나 그 오디오 파일에 대해 코덱을 실행한다. 유사하게, 일부 경우에, 입력층(402)들은, 대응하는 시뮬레이션된 광대역 오디오 신호를 생성하기 위해 협대역 미가공 오디오 파일에 대해 업-샘플링 기술을 수행하거나 그 오디오 파일에 대해 코덱을 실행할 수 있다.

대역폭 확장기(404)는, 다른 잠재적인 층들 중에서도, 피드-포워드 층들(feed-forward layers), 완전 접속층들, 손실층들 및 정규화 또는 비정규화층들을 포함할 수 있는, 여러 출력층들(406)에 결합되는 콘볼루션 신경망(Convolutional Neural Network, CNN), 또는 K 신경망(Deep Neural Network, DNN)과 같은, 임의 유형의 신경망의 임의 수의 신경망 층들을 구비한다. 대역폭 확장기(404)는, 예를 들어, 출력층(406)들의 3-피드-포워드 층들에 선행하는 1D-CNN 층을 구비한다. 대역폭 확장기(404)의 CNN 층은 입력 오디오 신호들의 기대 특징(expected feature)들에 따라 다수의 필터 및 커널 사이즈(kernel size)(예를 들어, 64 필터들, 커널 사이즈 5)를 적용한다. 마찬가지로, 피드-포워드 층들은 오디오 신호들에 의해 요구된 대로 각 층에 대해 다수의 노드들(예를 들어, 피드-포워드 층마다 124 노드들)을 구비한다.

훈련 운영 단계 동안, 대역폭 확장기(404)는 예측 추정 광대역 신호들(predicted estimated wideband signals)을 생성한다. 예를 들어, 서버는 257-차원 광대역 z-정규화 로그-스펙트럼을 예측하기 위하여 훈련 협대역 신호들에 대역폭 확장기(404)의 층들을 적용하다. 출력층(406)들은, 신경망 아키텍처(400)의 다른 층들 중에서도, 대역폭 확장기(404)를 훈련, 조정 또는 진전시키기 위한 여러 함수들을 수행하는 신경망 아키텍처(400)의 층들을 포함한다. 출력층(406)들은, 예를 들어, 특정 입력 오디오 신호와 연관된 라벨들에 의해 표시된, 예측 추정 광대역 신호의 피처들과 기대(또는 실제) 광대역 신호의 피처들간의 거리를 판정하는 평균 자승 오차 손실 함수를 실행함에 의해, 대역폭 확장기(404)를 훈련시킨다. 출력층(406)들은 이 거리들에 기초하여 출력층(406)들을 훈련 또는 조정하기 위해 임의 수의 추가적인 또는 대안적인 동작들을 수행할 수 있다.

배포 운영 단계 동안, 입력층(402)들은 인바운드 오디오 신호를 수신하며, 미가공 오디오 신호를 스펙트럼 표시로 전환하고, 오디오 신호의 피처들을 추출하는 것을 포함하고, 여러 추가적이거나 대안적인 동작들을 포함할 수 있다. 예를 들어, 입력층(402)들은 코덱-왜곡된(codec-distorted) 협대역 인바운드 오디오 신호(예를 들어, 미가공 오디오를 포함하는 데이터 스트림 또는 컴퓨터 파일)의 업-샘플링을 수행할 수 있다. 입력층(402)들은 대응하는 대역폭 확장된 스펙트럼을 추출하기 위한 대역폭 확장기(404)에 그 피처들의 일부 또는 전부(예를 들어, 인바운드 스펙트로그램의 하부 절반의 피처들만)를 지향시킬 수 있다. 대역폭 확장기(404)의 콘볼루션층들은 입력층들로부터 수신된 인바운드 스펙트로그램의 피처들에 기초하여 추정 광대역 신호(예를 들어, 257-차원 스펙트로그램)를 생성하고, 추정 광대역 스펙트로그램의 피처들을 평탄화시킨다.

출력층(406)들은 대역폭 확장기(404)에 의해 생성된 추정 광대역 차원 스펙트로그램(estimated wideband dimensional spectrogram)의 피처들에 대해 여러 동작을 수행한다. 예를 들어, 출력층(406)들은 대역폭 확장기(404)에 의해 생성된 추정 광대역 신호를 비정규화하기 위하여 입력 협대역 신호의 피처들의 여러 로그-스펙트럼 평균 및/또는 분산 통계(variance statistics)를 계산하는 여러 통계층들을 포함할 수 있다. 출력층(406)들은, 다른 잠재적인 동작들 중에서도, 예를 들어, 입력 오디오 신호의 스펙트럼을 가진 추정 광대역 신호를 정규화 또는 비정규화하고/하거나 조정/진전을 위한 여러 통계 또는 분산을 계산하기 위한 임의 수의 추가적이거나 대안적인 동작들을 수행할 수 있다.

출력층(406)들은 대역폭 확장기(404)에 의해 생성된 추정 광대역 신호의 피처를 추가로 추출할 수 있다. 결국, 추정 광대역 신호의 피처들은 훈련을 위해 이용될 수 있거나 임의 수의 다운스트림 애플리케이션에 제공될 수 있다. 일부 실시 예들에 있어서, 예를 들어, 추정 광대역 신호의 피처들은 화자 검증 및 인증 동작을 위해 임베딩 추출기 신경망에 의해 입력으로서 수집된다.

화자 인식을 위한 예시적인 신경망 아키텍처

도 5는 화자 인식을 위한 신경망 아키텍처(500)의 층들을 도시한 도면이다. 신경망(500)은 입력 오디오 신호의 오디오 데이터를 수집하고 프로세싱하는 종단간 시스템(end-to-end system)이다. 일부 실시 예들에 있어서, 신경망(500)은 여러 운영 단계들(예를 들어, 훈련 단계, 등록 단계, 배포 단계) 동안 수집된 오디오 신호에 대해 데이터 증강 기술을 선택적으로 적용하는 네트워크내 증강층들(in-newwork augmentation layers)(도시되지 않음)을 포함한다. 그 경우, 도 5에 도시된 입력 오디오 신호들은 훈련 오디오 신호들(예를 들어, 청정 오디오 신호들, 시뮬레이션된 오디오 신호들), 등록 오디오 신호들 또는 인바운드 오디오 신호들을 지칭할 수 있다. 실시 예들은 추가적이거나 대안적인 동작들을 포함할 수 있으며, 또는 도 5에 도시된 것으로부터 동작들이 생략될 수 있지만, 본 개시의 범주내에 있다. 추가적으로, 실시 예들은 신경망(500)의 부품들이 실행되는 순서를 가변시킬 수 있다.

서버는 사용자 구성에 따라 및 특정 운영 단계들의 필요성에 기초하여 신경망 아키텍처(500)의 특정층들을 인에이블 또는 디스에이블 시킨다. 예를 들어, 입력층(502)들의 증강층들의 일부 또는 전부가 훈련 또는 등록동안에 인에이블될 수 있고 배포동안에 디스에이블될 수 있다.

입력층(502)들은 입력 오디오 신호들을 수집하고, 여러 전치-프로세싱 및/또는 데이터 증강 동작들을 수행하는 임의 수의 층들을 구비한다. 그 층들 중 임의 층은, 입력 오디오 신호 또는 입력 오디오 신호들의 피처들을 수집할 때 전치-프로세싱 기술들을 수행할 수 있다. 이 전치-프로세싱 기술들은, 예를 들어, 대역폭 확장 동작을 수행하고, 오디오 데이터를 고정된 프레임들 또는 서브-프레임들로 파싱하고, SFT 알고리즘의 FFT에 따라 오디오 데이터를 시간-도메인 표시에서 주파수-도메인 표시로 변환하고, 정규화 또는 스케일링 함수들을 수행하는 것을 포함할 수 있다. 예를 들어, 특정 전치-프로세싱 동작들은 변환된 에너지 값을 [-1,1] 범위를 가진 스케일로 정규화하거나 스케일링하는데, 이때, -1은 최저이고 1은 최고이다.

하나 이상의 콘볼루션 층들(504)은 입력 오디오 신호들로부터 추출된 피처들을 포함하는, 입력층(502)들의 여러 출력을 수집한다. 일부 경우에, 이 입력 오디오 신호들은 입력층(502)들에 의해 수행되는 여러 전치-프로세싱 및/또는 데이터 증강 동작들로 인해 조작된다. 일부 경우에, 콘볼루션 층(504)들은, 데이터베이스로부터 수신되거나 서버 메모리로부터 생성된 훈련 오디오 신호들 또는 시뮬레이션된 오디오 신호들과 같은, 다른 데이터 소스로부터의 추가적인 입력들을 추가로 수집한다. 콘볼루션 층(504)들은, 예를 들어, 1-D 콘볼루션 층 또는 SincNet 층을 포함한다. 콘볼루션 층(504)은, 임의 수의 통계층들 및/또는 정규화 층들을 포함할 수 있는, 여러 풀링 층들(pooling layers)로 생성된 피처들을 출력한다. 완전 접속층(508)들은 입력된 오디오 신호에 대한 피처 벡터(예를 들어, 훈련 피처 벡터, 등록 피처 벡터, 배포 피처 벡터)를 생성하기 위해 통계 풀링층들(stat pooling layers)(506)로부터 수집된 결과들에 대해 여러 가중 동작들(weighted operations)을 수행한다.

신경망 아키텍처(500)에 대한 훈련 단계는 2개의 서브 단계들, 즉, 제 1 단계 훈련 동작들(509) 및 제 2 단계 훈련 동작들(511)을 포함할 수 있다. 제 1 단계 훈련 동작들(509)동안, 서버는 여러 하이퍼파라메타들을 동결시키고/시키거나 특정 층들(예를 들어, 제 2 단계 훈련 동작들(511)의 층들)을 디스에이블시킨다. 제 1 단계 훈련 동작들(509)의 완전-접속층(510)들은 완전-접속층(508)들로부터의 출력들을 수집하고, 완전-접속층(508)로부터 수집된 결과들에 대해 여러 가중 동작들을 유사하게 수행함으로써, 저차원 피처 벡터(lower-dimensional feature vector)를 생성한다. 제 1 단계 훈련 동작(509)들의 손실층(512)들은, 일부 구현에 있어서 입력된 오디오 신호들에 대응하는 화자 라벨(513)들을 참조하는, 소프트맥스(softmax) 및/또는 크로스-엔트로피(cross-entropy) 동작들을 수행한다. 손실층(512)들은 수행되는 특정 손실 함수에 기초하여 신경망 아키텍처(500)의 층들에 있어서의 여러 파라메타들을 조정할 수 있다.

제 2 단계 훈련 동작(511) 동안, 서버는 여러 하이퍼파라메타들을 동결시키고/시키거나 특정 층들(예를 들어, 제 1 단계 훈련 동작들(509)의 층들)을 디스에이블시키고, 신경망 아키텍처(500)를 통해 입력 오디오 신호들을 재-피딩한다. 제 2 단계 훈련 동작(511)들의 완전 접속층(514)들은 완전-접속층(508)들로부터 수집된 피처 벡터에 대해 여러 가중 동작들을 수행함으로써 특정 입력된 오디오 신호에 대한 또 다른 저-차원 피처 벡터를 생성한다. 제 2 단계 훈련 동작(511)들의 손실층(516)들은, 일부 구현에 있어서 특정 입력된 오디오 신호들에 대응하는 화자 라벨들(513)을 참조하는, LMCL(Large Margin Cosine Loss) 함수를 수행한다. 일부 경우에, 손실층(516)들은 LMCL에 기초하여, 신경망 아키텍처(500)의 층들에 있어서의 여러 파라메타들을 조정할 수 있다.

배포 동안, 완전-접속층(514)들과 손실층(516)들은 인에이블된다. 완전-접속층(514)들에 의해 생성되는 피처 벡터는 화자 검증을 위해 추출되고 참조되는 화자 임베딩으로 된다. 손실층(516)들의 동작들은 기대 또는 등록된 임베딩과 배포시에 수신된 인바운드 오디오 신호에 대해 추출된 화자 임베딩간의 거리 및 유사성을 스코어링(scoring)하는데 이용된다. 인바운드 오디오 신호의 인바운드 화자는, 인바운드 화자 임베딩과 기대 또는 등록자 임베딩간의 거리 또는 유사성 스코어가 임계 거리 또는 유사성 스코어내에 있다고, 손실층(516)들이 판정할 때, 기대된 것 또는 등록자로서 검증된다.

대역폭 확장 및 화자 인식을 위한 신경망

도 6a는 대역폭 확장 및 화자 인식을 위한 신경망 아키텍처(600)의 층들을 도시한 도면이다. 신경망 아키텍처(600)는 여러 운영 단계들(예를 들어, 훈련 단계, 등록 단계, 배포 단계)동안 수신된 입력 오디오 신호들(601)(예를 들어, 훈련 신호들, 등록 신호들, 인바운드 신호들)의 오디오 데이터를 수집 및 프로세싱한다. 신경망 아키텍처(600)는 화자 임베딩 추출기(608) 및 대역폭 확장기(605)에 대한 층들을 구비한다. 도 6a의 이하의 설명은 혼합된-대역폭 화자 임베딩들을 생성 및 평가하는 훈련 동작들을 포함한다. 실시 예들은 추가적이거나 대안적인 동작들을 포함하거나, 도 6a에 도시된 것으로부터 동작들을 생략할 수 있으며, 이들은 본 개시의 범주내이다. 추가적으로, 실시 예들은, 신경망(600)의 부품들이 실행되는 순서를 가변할 수 있다.

신경망 아키텍처(600)의 입력층(602)들은 입력 오디오 신호들(601)을 수집하고, 전치-프로세싱 동작을 수행하며/하거나 데이터 증강 동작을 수행하는 임의 수의 신경망 층들을 구비한다. 입력층(602)들은 입력 오디오(601)의 특성 또는 피처들의 평가에 기초하여 또는 여러 사전 구성들에 따라 입력 오디오(601)가 수신되었던 채널에 기초하여 입력 오디오(601)의 대역폭을 판정한다. 입력층(602)들은 대역폭 확장기(605)의 층들로 협대역 입력 오디오 신호들(601)을 라우팅하고, 광대역 입력 오디오 신호들(601)을, 대역폭 확장기(605)를 바이패싱(bypassing)한 채 임베딩 추출기(608)의 층들로 곧바로 라우팅한다.

대역폭 확장기(695)의 층들은, 본 명세서에 기술된 여러 프로세스들에 따라, 협대역 오디오 신호를 수집하고, 추정 광대역 신호를 생성한다. 대역폭 확장기(605)는 임베딩 추출기(605)의 층들에 대한 추정 광대역 신호의 피처들을 출력한다. 임베딩 추출기(608)는, 대역폭 확장기(605)에 의해 생성된 추정 광대역 신호들 또는 입력층(602)들로부터 바로 수신된 광대역 입력 신호들(601)일 수 있는, 임의 수의 광대역 신호들을 수집한다. 임베딩 추출기(608)는, 입력 오디오 신호들(601)의 화자에 대한 화자 임베딩들을 추출하기 위하여 여러 동작들을 수행한다.

완전-접속층들(610)은 임베딩 추출기(608)에 의해 생성된 피처 벡터들의 차원들을 줄이고, 예를 들어, 여러 통계 계산 또는 풀링 동작(pooling operation), 손실 함수 및 분류를 수행할 수 있다. 완전-접속층(610)들에 의해 수행되는 여러 동작들은 입력 오디오 신호들(601)과 연관된 화자 라벨들(612)을 참조하여, 임베딩 추출기(608)에 의해 생성되는 분류들 및/또는 임베딩들에 있어서의 오차량을 판정한다.

손실층들은 신경망 아키텍처(600)의 임의 수의 하이퍼파라메타들을 조정하는 여러 손실 함수들을 수행한다. 손실 함수들은 대역폭 확장기(605), 임베딩 추출기(608) 및/또는 완전-접속층들(610)의 하이퍼파라메타들을 조정하여, 대역폭 확장기(605)에 의해 생성된 추정 광대역 신호들의 품질을 개선하고/하거나 임베딩 추출기(608) 및 완전-접속층들(610)에 의해 추출된 피처 벡터들 및 화자 임베딩들을 개선한다.

일부 실시 예들에 있어서, 서버는 임베딩 추출기(608)를 단지 훈련만을 시키면 된다. 그러한 실시 예에서는, 서버가 이전에 대역폭 확장기(695)를 훈련시켰고, 대역폭 확장기(605)의 하이퍼파라메타들을 확정한 상태이다. 서버는 대역폭 확장기(605)를 훈련시키는데 이용된 신경망 아키텍처(600)의 하나 이상의 층들을 디스에이블시킬 수 있다. 임베딩 추출기(608)의 층들과 완전-접속층들(610)은 (대역폭 확장기(605)에 의해 생성된) 추정 광대역 신호들과 (입력층들(602)로부터 직접 라우팅된) 광대역 오디오 신호들(601)에 대해 훈련된다.

일부 실시 예들에 있어서, 서버는 대역폭 확장기(605)와 임베딩 추출기(608)를 공동으로 훈련시킨다. 입력 오디오 신호들(601)은 여러 대역폭들을 가질 수 있으며, 거기에서 입력층들(602)은 대역폭 확장기(605)에 협대역 입력 오디오 신호들(601)를 라우팅한다. 임베딩 추출기(608) 및 완전-접속층들(610)은 입력 오디오 신호들(601)에 대한 임베딩들을 추출하고, 추출된 임베딩들에 있어서의 오차 레벨을 판정한다. 화자 라벨들(612)은 특정 입력 오디오 신호들(601)에 대한 대역폭의 유형 또는 기대 대역폭, 기대 임베딩 또는 피처 및 입력 오디오 신호들(601)에 대한 여러 다른 정보를 나타낼 수 있다. 신경망 아키텍처(600)는 대역폭 확장기(605) 및 임베딩 추출기(608)를 통해 오차 또는 화자 분류 오차들의 레벨을 역전파(back-propagation)하는데, 이것은 여러 하이퍼파라메타들을 조정하고, 입력 오디오 신호들(601)에 대해 신경망 아키텍처(600)를 재-적용하는 것을 포함한다.

일부 실시 예들에 있어서, 서버는 임베딩 추출기(608)의 출력들에 기초하여 대역폭 확장기(605)를 미세 조정한다. 서버는 임베딩 추출기(608)를 고정하고 임베딩 추출기(608)에 의해 생성된 화자 분류 오차에 따라 대역폭 확장기(605)의 파라메타들을 미세 조정한다.

일부 실시 예들에 있어서, 서버는 대역폭 확장기(605)를 단지 미세 조정만 을 하면 된다. 그러한 실시 예에서는, 서버가 이전에 임베딩 추출기(608)를 훈련시켰고 임베딩 추출기(608)의 하이퍼파라메타들을 확정한 상태이다. 서버는 임베딩 추출기(608)를 훈련시키는데 이용되는 신경망 아키텍처(600)의 하나 이상의 층들을 디스에이블시킬 수 있다. 대역폭 확장기(605)는 훈련된 임베딩 추출기(608)에 의해 수집되는 추정 광대역 신호들을 생성한다. 임베딩 추출기(608) 및 완전-접속층들(610)은 입력 오디오 신호들(601)에 대한 임베딩들을 추출하고, 추출된 임베딩들에 있어서의 오차 레벨을 판정한다. 화자 라벨들(612)은 입력 오디오 신호들(601)에 대한 기대 임베딩 또는 피처들과 여러 다른 정보를 나타낸다. 대역폭 확장기(605)는 임베딩 추출기(608)에 의해 생성된 오차 레벨 또는 화자 분류 오차들의 레벨에 따라 미세 조정된다. 신경망 아키텍처(600)는 대역폭 확장기(605)를 통해 오차 레벨 또는 화자 분류 오차들의 레벨을 역전파하는데, 이것은 대역폭 확장기(605)의 하이퍼파라메타들을 조정하고, 입력 오디오 신호들(601)에 신경망 아키텍처(600)를 재-적용하는 것을 포함한다.

대역폭 확장 및 이중- 임베딩(dual-embedding)들을 위한 신경망

도 6b는 대역폭 확장 및 화자 인식을 위한 신경망 아키텍처(600)의 층들을 도시한 도면으로서, 신경망 아키텍처(600)는 협대역 신호들과 광대역 신호들에 대해 최적화된 이중-임베딩들을 추출하고 평가하도록 훈련된다. 이러한 동작들은, 서버가 대역폭 확장기(605) 및/또는 임베딩 추출기(608)의 훈련을 완료할 때, 수행된다.

대역폭 확장기(605) 및 임베딩 추출기(608)가 (도 6a에 도시된 바와 같이) 훈련되면, 서버는 대역폭 확장기(605)와 임베딩 추출기(608)의 모델들(예를 들어, 하이퍼파라메타들)을 확정한다. 서버는 대역폭 확장기(605)와 임베딩 추출기(608)를 훈련시키는데 이용되는 임의 층들을 디스에이블시킨다. 이러한 방식에서는, 서버가 대역폭 확장기(605)와 임베딩 추출기(608)를 동결시키고, 단지 완전-접속층들(610)만을 훈련시킨다.

훈련 단계동안, 서버는 완전-접속층들(610)을 개별적으로 미세 조정하기 위하여 2가지 훈련 서브-단계(sub-phase)들을 수행할 수 있다. 완전-접속층들(610)은, 2가지 다른 유형의 임베딩들, 즉, 협대역 오디오에 대해 최적화된 임베딩(협대역 임베딩(613))과 광대역 오디오에 대해 최적화된 임베딩(광대역 임베딩(615))을 추출하도록 훈련된다. 신경망 아키텍처(600)의 손실 함수들은 특정 훈련 서브 단계에 따라 완전-접속층들(610)의 하이퍼파라메타들을 조정한다. 일부 구현에 있어서, 협대역 최적화된 임베딩(613)을 추출하기 위한 완전-접속층들(610)을 훈련시킬 때, 입력 오디오 신호들은 대역폭 확장기(605)를 바이패싱한 협대역 신호들을 포함할 수 있다. 일부 구현에 있어서, 완전-접속층들(610)은 (대역폭 확장기(605)에 의해 생성된) 추정 광대역 신호들 또는 광대역 신호들에 대해서만 훈련된다. 배포 단계 동안, 신경망 아키텍처(600)는, 인바운드 입력 오디오(610)의 대역폭의 유형(예를 들어, 협대역 또는 광대역)과 무관하게, 2 유형들의 최적화된 임베딩들(613,615)을 추출한다.

크로스-채널 등록 및 인증 동작들

도 7은 다수의 채널들에 걸쳐 화자 및 인증을 위한 신경망 아키텍처(700)의 층들을 도시한 도면이다. 신경망(700)은 인증을 위한 등록 및 배포 운영 단계들 동안 서버에 의해 실행되는 것으로 설명되지만, 신경망(700)은 신경망(700)의 동작들을 수행할 수 있는 프로세서를 구비한 임의 컴퓨팅 디바이스 또는 임의 수의 컴퓨팅 디바이스들에 의해 실행될 수 있다. 신경망(700)은 오디오 신호들(702,712)을 수집하고 여러 증강 동작들을 수행하는 입력층들(703)과, 대역폭 확장기(704)를 정의하는 층들과, 화자 임베딩들(708,709)(예를 들어, 음성프린트들)을 생성하는 임베딩 추출기(706)를 정의하는 층들과, 인증 스코어(718) 또는 다른 유사한 판정을 생성하기 위해 거리 스코어링 동작과 같은 여러 스코어링 동작을 수행하는 하나 이상의 스코어링 층들(716)을 포함한다.

일부 실시 예들에 있어서, 신경망 아키텍처(700)는 협대역 및 광대역 임베딩들을 추출하는 하나의 임베딩 추출기(706)를 구비한다. 일부 경우에서, 협대역 입력 신호들 또는 광대역 입력 신호들에 대한 최적화된 협대역 및 광대역 임베딩들을 생성하기 위한 임베딩 추출기(706)의 특정 층들이 훈련된다. 대안적으로, 일부 실시 예들에 있어서, 신경망 아키텍처(700)는 협대역 임베딩 추출기(706a)와 광대역 임베딩 추출기(706b)를 구비한다. 협대역 임베딩 추출기(706a)는 최적화된 협대역 임베딩들을 생성하도록 훈련되는 층들을 구비한다. 유사하게, 광대역 임베딩 추출기(706b)는 최적화된 광대역 임베딩들을 생성하도록 훈련되는 층들을 포함한다.

등록 단계 동안, 등록자-화자는 서비스 제공자의 시스템에 접촉하여, 좁은 대역폭에 따라 동작하는, 제 1 채널을 통해 여러 예시적인 등록자 오디오 신호들(702)을 공급한다. 예를 들어, 화자는 등록자 오디오 신호들(702)로서 작용하는 구두 응답들(spoken response)로 여러 질문 또는 프롬프트(prompt)들에 응답하며, 이때, 서비스 제공자 시스템은 서비스 제공자 시스템의 인간 에이전트(humean agent)에 의해 또는 IVR 시스템에 의해 등록자에게 질문들 및 프롬프트들을 제시한다. 서버는 등록자의 구두 응답들을 협대역 등록자 오디오 신호들(702)로서 수신한다. 서버는 결과하는 협대역 등록자 신호들(702)을 신경망 아키텍처(700)에 피딩하고, 신경망 아키텍처(700)는 등록자 오디오 신호들(702)에 협대역 임베딩 추출기(706a)를 적용하여, 등록자에 대한 협대역 등록자 임베딩(708)을 추출한다. 서버는, 인증 동안 추후 참조를 위해, 협대역 등록자 임베딩(708)을 데이터베이스 또는 다른 비-일시적 저장 매체에 저장한다. 서버는 제 1 채널(또는 다른 협대역 채널)을 통해 수신된 장래의 인바운드 오디오 신호들을 인증하기 위해 협대역 등록자 임베딩(708)을 참조한다.

서버는 협대역 등록자 오디오 신호들(702)에 기초하여 광대역 등록자 임베딩(711)을 생성한다. 신경망 아키텍처(700)는 등록자 오디오 신호들(702)의 각각을 대역폭 확장기(704)로 피딩하여, 하나 이상의 대응하는 추정 광대역 등록자 신호들(705)을 생성한다. 신경망 아키텍처(700)는 추정 광대역 등록자 신호들(705)을 광대역 임베딩 추출기(706b)로 피딩하여, 등록자에 대한 광대역 등록자 임베딩(711)을 추출한다. 서버는, 광대역 등록자 임베딩(711)을 데이터베이스 또는 다른 비-일시적 저장 매체에 저장한다. 서버는 넓은 대역폭에 따라 동작하는 제 2 통신 채널을 통해 수신한 장래의 인바운드 오디오 신호들(712)을 인증하기 위하여 광대역 등록자 임베딩(711)을 참조한다.

서버는 신경망(700)의 적용을 시작하기 위하여 오디오 신호들(702,712)을 입력층들(703)에 피딩한다. 일부 경우에, 입력층들(703)은, 다른 전치-프로세싱 동작들 중에서도, 오디오 신호들(702,712)을 프레임들 또는 세그먼트들로 파싱하고, 하위-레벨 피처들을 추출하며, 오디오 신호들(702,712)을 시간-도메인 표시에서 주파수-도메인(또는 에너지 도메인) 표시로 변환하는 것과 같은, 하나 이상의 전치-프로세싱 동작들을 오디오 신호들(702,712)에 대해 수행한다.

등록 단계 동안, 입력층들(703)은 등록자에 대한 등록 오디오 신호들(702)을 수신한다. 일부 구현들에 있어서, 입력층들(703)은, 예를 들어, 등록 오디오 신호들(702)내의 오디오 신호들을 조작하거나, 하위 레벨 피처들을 조작하거나, 대응하는 등록 오디오 신호들(702)에 기초하여 조작된 피처들 또는 오디오 신호를 가진 시뮬레이션된 등록 오디오 신호들(702)를 생성하기 위해, 등록 오디오 신호들(702)에 대해 데이터 증강 동작들을 수행한다.

배포 단계 동안, 입력층들(703)은, 임베딩 추출기(704)에 대한 또는, 일부 구현에서는, 광대역 임베딩 추출기(706b)에 대한 인바운드 오디오 신호(712)를 준비하기 위해 전치 프로세싱 동작들을 수행할 수 있다. 그러나, 서버는, 임베딩 추출기(706)가 수신된 인바운드 오디오 신호(712)의 피처들을 평가하도록, 입력층들(703)의 전치-프로세싱 동작 및/또는 증강 동작들의 일부 또는 전부를 디스에이블시킬 수 있다.

임베딩 추출기(706)는, 임베딩 추출기(706)가 임베딩(708, 711, 709)으로서 출력하는, 오디오 신호들(702,712)로부터 추출된 피처들에 기초하여 스피치를 검출하고 피처 벡터들을 생성하도록 (훈련 단계 동안에) 훈련된 신경망(700)의 하나 이상의 층들을 구비한다. 등록 단계 동안, 임베딩 추출기(706)는 등록 오디오 신호들(702)의 각각에 대한 피처 벡터를 생성한다. 신경망(700)은 피처 벡터들의 각각을 조합하고 등록자 임베딩들(708,711)을 추출하기 위하여 여러 통계적 또는 알고리즘적 동작들을 수행한다. 예를 들어, 신경망 아키텍처(700)는 협대역 임베딩 추출기(706a)와 광대역 임베딩 추출기(706b)를 포함할 수 있다. 협대역 임베딩 추출기(706a)는 협대역 등록자 오디오 신호들(702)의 각각에 대응하는 피처 벡터들을 생성하고 협대역 피처 벡처들의 평균을 나타내는 협대역 등록자 임베딩(708)을 추출한다. 광대역 임베딩 추출기(706b)는, 유사하게, 추정 광대역 등록자 신호들(705)의 각각에 대응하는 광대역 피처 벡터들을 생성하고, 광대역 피처 벡터들의 평균을 나타내는 광대역 등록자 임베딩(711)을 추출한다.

배포 단계 동안, 임베딩 추출기(706)(또는 광대역 임베딩 추출기(706b))는 제 2 통신 채널에 의해 채용된 넓은 대역폭을 가진 인바운드 오디오 신호(712)의 피처들을 수집한다. 임베딩 추출기(706)는, 제 2 채널을 통해 수신된 인바운드 오디오 신호(712)에 기초하여, 임베딩 추출기(706)가 인바운드 오디오 신호(712)에 대한 인바운드 광대역 임베딩(709)으로서 출력하는 피처 벡터를 생성한다.

인바운드 오디오 신호(72)의 인바운드 화자를 인증하기 위하여, 신경망(700)은, 광대역 등록자 임베딩(711)과 인바운드 광대역 임베딩(709)을 신경망 아키텍처(700)의 스코어링 층(716)에 피딩함으로써, 여러 스코어링 동작들을 수행한다. 스코어링 층들(716)은, 인바운드 화자가 등록자일 우도를 나타내는, 광대역 등록자 임베딩(711)과 인바운드 광대역 임베딩(709)간의 거리(예를 들어, 유사성, 차이)를 판정하는 거리 스코어링 동작을 수행한다. 예를 들어, 인바운드 신호(712)에 대한 낮은 거리 스코어(또는 높은 유사성 스코어)는 광대역 등록자 임베딩(711)과 인바운드 광대역 임베딩(709)간의 유사성이 보다 높음을 나타내며, 이는 인바운드 화자가 등록자일 우도가 보다 높음을 나타낸다. 신경망 아키텍처(700)는 스코어링 동작에 기초하여 인증 출력(718)을 생성한다. 인증 출력(718)은, 하나 이상의 스코어링 동작들(예를 들어, 거리 스코어링), GUI에 대한 시각적 표시자 및/또는 다운스트림 애플리케이션에 대한 명령어들 또는 데이터에 기초하여 스코어링 층들(716)에 의해 생성된 값일 수 있다.

일부 구현에 있어서, 스코어링 층(716)은, 거리 스코어 또는 다른 출력값들이 임계치를 충족하는지 판정한다. 그 구현에서는, 인증 출력(718)이 수치적 출력일 필요가 없다. 예를 들어, 인증 출력(718)은, 신경망 아키텍처(700)가 인바운드 화자를 인증했는지를 나타내는 인간-판독 가능 표시자(예를 들어, 일반 언어(plain language), 가시적 디스플레이)일 수 있다. 추가적으로 또는 대안적으로, 인증 출력(718)은 서버가 하나 이상의 네트워크들을 통해 하나 이상의 다운스트림 애플리케이션들을 수행하는 컴퓨팅 디바이스에 전송하는, 머신-판독 가능 검출 표시자 또는 인증 명령어를 포함할 수 있다.

국소 인증(local authentication)을 가진 멀티-채널 인증의 예시

도 8은 실시 예에 따른 신경망 아키텍처를 채용한 크로스-채널 호출자 인증을 위한 시스템(800)을 도시한 도면이다. 시스템(800)은 인증 서버(802), 인증 데이터베이스(804) 및 호출자 디바이스들(114)을 구비한다. 실시 예들은 추가적인 또는 대안적인 부품들을 구비하거나 도 8의 부품들로부터 특정 부품이 생략될 수 있지만, 이는 본 개시의 범주이내이다. 또한, 실시 예들은 본 명세서에 기술된 여러 피처들 및 작업들을 수행할 수 있는 임의 수의 디바이스들을 포함하거나 구현할 수 있다. 예를 들어, 도 8에는 분석 데이터베이스(804)와는 개별적인 컴퓨팅 디바이스로서의 인증 서버(802)가 도시된다. 일부 실시 예들에 있어서, 분석 데이터베이스(804)는 분석 서버(802)내에 집적화될 수 있다. 하드웨어, 소프트웨어 및 그들의 변형들에 관한 많은 세부적인 사항들은 이전에 기술되었으며(예를 들어, 도 1), 그러한 세부적인 사항들은 여기에서는 반복될 필요가 없지만 도 8에 대해 고려된 범주내에 있다.

호출자는 여러 통신 채널들을 통해 서비스 제공자의 호출 센터와 접촉할 수 있다. 통신 채널들은, 여러 디바이스들이 통신 채널로부터 포획하여 인증 서버(802)로 지향시키거나, 호출 센터 에이전트가 인증 서버(802)로 지향시키는, 호출자로부터의 음성 입력들 및 다른 데이터를 수신하도록 구성된 하드웨어 및 소프트웨어 부품들을 포함한다.

통신 채널들은 호출자 디바이스(814)로부터의 입력 오디오 신호들을 호스팅, 프로세싱 및 포획한다. 각 통신 채널은 특정 대역폭에서 동작하도록 구성되며, 그럼으로써, 생성되어 인증 서버(802)로 지향되는 오디오 입력 신호들은 특정 대역폭을 가진 미가공 오디오 파일들 또는 데이터 스트림들을 포함한다. 예를 들어, 유선 전화기(814a)는 8kHz 대역폭을 가진 입력 오디오 신호들을 생성하는 전화 채널을 통해 제공자 서비스와 통신한다. 다른 예시로서, 스마트폰(814b)(또는 에지 디바이스)은, 16kHz 대역폭을 가진 입력 오디오 신호를 생성하는 소프트웨어 애플리케이션에 대해, 컴퓨팅 네트워크 채널을 통해 제공자 서비스와 통신하는 그 소프트웨어 애플리케이션을 실행시킬 수 있다.

인증 서버(802)(또는 제공자 시스템의 다른 컴퓨팅 디바이스)는, 인증 데이터베이스(804)에 저장될 수 있는, 신경망 아키텍처를 적용함에 의해 입력 오디오 신호를 프로세싱 및 인증하도록 소프트웨어 프로그래밍을 실행시킨다. 신경망 아키텍처는 대역폭 확장기(805) 및 임베딩 추출기(806)를 포함한다.

등록 프로세스 동안, 호출자-등록자는 제공자의 시스템에 일련의 등록자 오디오 신호를 제공하기만 하면 된다. 인증 서버(802)는 호출자-등록자에 대한 등록자 임베딩을 추출하기 위해 등록자 오디오 신호들에 대해 임베딩 추출기를 적용한다. 인증 서버(802)는, 추후 참조를 위해, 인증 서버(804)에 등록자 임베딩을 저장한다.

일부 실시 예들에 있어서, 인증 서버(802)는, 호출자가 유선 전화기(814a)를 이용하여 제 1 통신 채널(예를 들어, 낮은-대역폭 전화 채널)을 통해 인증 서버(802)에 등록 신호들을 통신할 때, 낮은-대역폭 등록 신호들을 수신 및 검출한다. 인증 서버(802)는 인바운드 신호의 품질을 개선하기 위하여 대역폭 확장기(805)를 적용할 수 있다. 인증 서버(802)는 제 2 통신 채널을 통해 스마트폰(814b)로부터 수신한 높은-대역폭 등록 신호들에 대역폭 확장기(805)를 적용할 필요가 없다.

인증 서버(802)는 스마트폰(814b)의 애플리케이션과 일정한 또는 주기적인 네트워크 통신 상태이다. 인증 서버(802) 또는 스마트폰(814b)은 등록자 임베딩에 대한 갱신과 관련하여 컴퓨팅 네트워크(예를 들어, 인터넷)를 통해 문의 또는 푸시 통지(push notification)를 교환할 수 있다. 스마트폰(814b)은 사전 구성된 간격으로 또는 등록자 임베딩에 대한 변경의 검출에 응답하여 등록자 임베딩을 다운로딩(downloading)한다.

일부 실시 예들에 있어서, 스마트폰(814b)상의 애플리케이션은, 등록 및/또는 배포 단계 동안, 그 애플리케이션이 음성 입력들에 적용하는 임베딩 추출기(806) 신경망을 포함한다. 스마트폰(814b)은 호출자-등록자에 의해 제공된 일련의 등록 오디오 신호들에 임베딩 추출기(806)를 적용함에 의해 등록자 임베딩들을 생성 또는 갱신할 수 있다. 이러한 방식에서는, 스마트폰(814b)이 등록자 임베딩을 국소적으로 생성하고 등록자 임베딩을 인증 데이터베이스(804)에 업로딩한다.

인바운드 호출자를 호출자-등록자로 인증하기 위하여, 인증 서버(802) 또는 스마트폰(814b)의 애플리케이션은 인바운드 오디오 신호들에 임베딩 추출기(806)를 적용한다. 호출자가 유선 전화기(814a)를 이용하여 제 1 통신 채널(예를 들어, 낮은-대역폭 전화 채널)을 통해 호출-센터 에이전트와 통신하면, 인증 서버(802)는 낮은-대역폭 인바운드 신호를 검출하고, 대역폭 확장기(805)를 적용하여, 인바운드 신호의 품질을 개선한다. 인증 서버(802)는 인증 데이터베이스(804)로부터 등록자 임베딩을 검색하고, 인바운드 오디오 신호에 대해 임베딩 추출기(806)를 적용하여 인바운드 임베딩을 추출하며, 인바운드 임베딩과 등록자 임베딩간의 거리를 판정한다. 인증 서버(802)는 제 2 통신 채널을 통해 스마트폰(814b)으로부터 수신된 높은-대역폭 등록 신호들에 대역폭 확장기(805)를 적용할 필요가 없으며, 그래서, 인증 서버는 임베딩 추출기(806)의 적용 및 인바운드 호출자의 인증을 진행할 수 있다.

일부 실시 예들에 있어서, 스마트폰(814b)의 애플리케이션은 인바운드 오디오 신호들에 임베딩 추출기를 국소적으로 적용한다. 제 2 통신 채널을 통해 호출자-센터 에이전트와 접촉하기 위해 호출자가 GUI 옵션(option)을 선택하면, 스마트폰은 음성 생체 인식을 인증하기 위해 호출자에게 프롬프트(prompt)하거나 인증 소프트웨어 루틴들을 트리거한다. 스마트폰(814b)은 스마트폰(814b)의 로컬 메모리로부터 또는 인증 데이터베이스(804)로부터 등록자 임베딩을 검색하고, 인바운드 오디오 신호에 대해 임베딩 추출기(806)를 적용하여 인바운드 임베딩을 추출하고, 인바운드 임베딩과 등록자 임베딩간의 거리를 판정한다. 인증이 성공하면, 스마트폰(814b)은 인증 서버(802)에 확인 명령 또는 다른 보안 토큰(security token)을 전송하는데, 이는 인바운드 호출자가 등록자로서 성공적으로 인증되었음을 나타낸다.

추가적인 예시적 실시 예들

클라우드 기반 애플리케이션상에 화자의 음성 등록

일부 실시 예들에 있어서, 호출자 디바이스는 서비스 제공자의 시스템에 음성 통신을 전송하며, 그 시스템은 통신 데이터를 포획하여 인증 서비스의 클라우드 플랫폼(예를 들어, 하나 이상의 서버들)에 전송한다. 서비스 제공자의 시스템은 인증 서비스에 의해 호스팅(hosting)되는 클라우드-기반 디바이스로 통신 데이터를 업로딩(uploading)하는 여러 컴퓨팅 디바이스(예를 들어, 에이전트 디바이스)를 포함한다. 호출자의 디바이스는, 호출자 디바이스가 인증 서비스의 클라우드 플랫폼으로 임베딩 추출 및 다른 동작들을 오프로딩(offloading)하게 하는, 인증 서비스와 연관된 소프트웨어 애플리케이션 또는 웹-기반 애플리케이션을 실행시킨다. 클라우드 플랫폼의 일부 예시들은 커스텀 웹 애플리케이션(custom web application) 및 호출-센터 IVR을 포함한다.

호출자의 음성은, 호출자가 서비스 제공자 및/또는 인증 서비스에 접촉하는 처음에 인증 서비스에 수동/자동으로 등록되거나, 호출자 또는 서비스들 중의 하나로 부터의 요청에 응답하여 능동적으로 등록된다. 그러한 동작들의 예시가, 예를 들어, 도 6b에 있다.

일부 실시 예들에 있어서, 호출자는 컴퓨팅 디바이스상의 클라우드-기반 소프트웨어 애플리케이션을 오픈(open)하고, 호출자가 음성 데이터를 입력하도록 하는 요청을 트리거한다(예를 들어, 서비스 제공자와 통신하도록 에지 디바이스에 명령). 웹-애플리케이션은 오디오 신호를 제공자의 컴퓨팅 디바이스로 스트리밍하거나 인증 서비스의 서버들로 직접 스트리밍한다. 인증 서버는 샘플링 레이트(sampling rate) 또는 인코딩 포맷(encoding format)과 같은 인바운드 오디오 신호의 특성들을 검출하고, 예를 들어, 인바운드 오디오 신호에 대역폭 확장 신경망을 적용함에 의해, 스피치 신호의 가능한 가장 높은 대역폭을 획득하도록 전치 프로세싱을 수행한다. 인증 서버는 호출자를 등록 및/또는 인증하기 위하여 인바운드 오디오 신호에 임베딩 추출기 신경망을 적용한다. 호출자는 장래에 화자를 고유하게 식별하기 위해 데이터베이스에 저장되는, 등록자 임베딩을 갱신하기 위해 제공자 서비스 및/또는 인증 서비스와 다수의 상호 작용을 수행한다.

에지 디바이스상에 화자 음성 등록

일부 실시 예들에 있어서, 호출자는 음성을 이용한 요청을 수행하기 위하여 에지-디바이스(또는 다른 IoT 디바이스)를 이용한다. 에지 디바이스의 비-제한적 예시들은, 다른 것들 중에서도, 텔레비전 리모트, 스마트폰, 개인 음성 어시스턴스(voice assistant device)들 및 자동자 대시보드 어시스턴스(automobil dashboard assistant)에 집적화된 내장형 마이크로폰을 가진 임베디드 디바이스(embedded device)를 포함할 수 있다. 전형적으로, 에지 디바이스는, 미가공 개인 정보가 클라우드로 스트리밍되게 하는 요청없이, 디바이스 그 자체에 대해 데이터의 헤비 프로세싱(heavy processing)을 수행하는데 이용된다. 그러한 실시 예들에 있어서, 에지 디바이스 및 인증 서버는, 에지 디바이스상에서의 구동을 위해 클라우드 솔루션(cloud solution)에 이용되는 동일한 "화자 임베딩 추출기" 소프트웨어를 크로스-컴파일(cross-compile)한다.

호출자는 작업 수행을 위해 음성을 이용하여 에지 디바이스와 상호 작용한다. 신원 서비스에 의해 제공되는 애플리케이션은 에지 디바이스상에서 구동되며, 그 디바이스를 이용하여 또는 신원 서비스 또는 호출자로부터의 능동적인 등록 요청에 응답하여, 호출자가 통신하는 처음에, 음성 등록에 대한 필요성을 검출한다. 에지 디바이스는, 에지 디바이스 또는 인증 서버에서 실행되는, 대역폭 확장 신경망에 따라 그 디바이스를 통해 입수할 수 있는 가장 높은 가능한 대역폭 신호를 이용하여, 신원 서비스의 스피치 임베딩 추출 신경망을 국소적으로 실행시킨다. 호출자는, 인증 서버가 다른 채널들을 통해 호출자를 인증하기 위해 참조하는 신원 서비스의 클라우드 데이터에 에지 디바이스가 업로딩하는 등록자 화자 임베딩을 갱신하기 위해 다수의 상호 작용들을 수행할 수 있다.

신원 제공자의 호출-센터 또는 IVR로 호출함에 의한 화자 음성 등록

일부 경우에, 전화 채널을 통해 전달되는 스피치 신호는 8kHz로 샘플링된 좁은 대역폭(0.3-3.4kHz)으로 되는 경우가 빈번한다. 화자를 등록하기 위해 화자 임베딩을 생성하는데 좁은 대역폭 오디오가 이용되면, 광대역 스피치 신호들을 제공하는 광대역 통신 채널들을 통해 추출된 임베딩들간에 불일치가 존재할 수 있다. 그 경우, 화자 임베딩들은, 협대역 오디오가 선호되는 유사한 채널들에 대해 적절하게 작용한다. 이것은, 신원 서비스가 검증하고 인증할 수 있는 크로스-채널 환경의 범주를 제한한다.

대역폭 확장 신경망은, 화자 임베딩을 추출하기 전에, 전화 채널의 낮은 대역폭 스피치 신호를 상대적으로 높은 품질의 광대역 신호로 전환할 수 있으며, 모든 협대역 및 광대역 채널들에 걸쳐 스피치 대역폭이 일관성있게 유지되게 한다.

음성 등록을 완료하기 위하여, 호출자-등록자는 전화 채널을 통해 IVR 또는 호출-센터에 호출한다. 신원 서비스의 인증 서버는 협대역 스피치 신호를 보다 높은 품질의 광대역 스피치 신호로 전환시키기 위해 호출 오디오 신호에 대역폭 확장 신경망을 적용한다. 보다 양호한 품질의 오디오는 호출-센터 에이전트와의 상호 작용 및 임베딩 추출을 개선하는데 도움을 준다. 인증 서버는, 화자 임베딩을 추출하기 위하여, 전환된(추정된) 광대역 스피치 신호에 임베딩 추출기를 적용한다. 등록자 임베딩들은 동일 화자에 의해 이루어진 후속적인 호출동안 갱신될 수 있다. 등록자 임베딩은 호출-센터로의 화자 호출을 인증하기 위한 신원 제공자에 의해 화자를 고유하게 식별하기 위해, 신원 제공자의 클라우드 데이터베이스에 저장된다. 신원 제공자에 의해 지원되는 임의 다른 채널을 통해 수신된 오디오 신호들에 대해 동일 등록자 임베딩들이 요청되거나 적용될 수 있으며, 그에 의해, 등록자가 각각의 추가적인 채널마다 다시 등록하도록 하는 요청없이, 크로스-채널 인증을 지원할 수 있게 된다.

멀티-채널 및 멀티- 디바이스 음성 등록의 통합

일부 실시 예들에 있어서, 신원 제공자는 여러 채널들에 걸쳐 고유한 화자의 신원을 관리한다. 각 채널은 서로 다른 특성들(예를 들어, 마이크로폰의 유형, 오디오 인코딩 알고리즘의 유형, 채널의 샘플링 레이트)을 가진다. 그러한 실시 예에 있어서, 인증 서버는 임의 채널로 부터의 스피치 신호들을 목표 대역 스피치 신호로 통합한다. 예를 들어, 인증을 위한 주 채널이 전화 채널이면, 모든 등록 스피치 데이터는, 협대역 오디오로서 처리되어, 화자 임베딩을 생성한다. 인증의 주 채널이 광대역 오디오를 수반하면, 모든 등록 스피치 데이터는 대역폭 확장 신경망을 이용하여 광대역으로 전환된다. 이것은, 모든 채널들에 걸쳐서 호출자-등록자를 등록 및 인증하도록, 신원 제공자가 임의 채널 또는 디바이스로부터의 인바운드 오디오 신호들을 이용할 수 있게 한다.

신원 제공자의 인증 서버가 화자 등록 임베딩을 생성하면, 인증 서버는 최근의 타임스탬프(timestamp)를 가진 등록 임베딩을 생성 또는 갱신한다. 등록 임베딩을 갱신 또는 참조하는데 필요한 임의 디바이스는 신원 제공자의 클라우드 서버 데이터베이스에 문의하여, 그 디바이스가 등록 임베딩의 최신 버전을 가지고 있는지 판정한다. 구식이면, 디바이스는 인증 서버로부터 등록 임베딩의 최신 버전을 요청하고, 임의 새로운 오디오 입력 신호들에 따라, 국소적으로 등록 임베딩을 갱신한다. 등록 임베딩을 국소적으로 갱신한 후, 디바이스는 최신의 타임스탬프를 가진 등록 임베딩을 갱신하고, 그 등록 임베딩을 신원 서비스의 데이터베이스로 다시 업로딩함으로써, 등록 임베딩이 임의 다른 채널 또는 디바이스에게 문의/전달될 수 있게 한다.

전화 채널상의 등록의 경우에 에지 디바이스 애플리케이션상에서의 화자 인증

일부 실시 예들에 있어서, 신원 제공자의 전화 채널로의 호출에 의해 그들의 음성을 이미 등록한 호출자 및 현재, 화자는 인증을 위한 에지 디바이스 애플리케이션을 사용하고 있다. 에지 디바이스는, 이전 호출 동안 호출자의 스피치 신호에 대역폭 확장 신경망을 적용한 후 생성된 가장 최근의 등록 임베딩에 대한 요청을 클라우드 서버에게 전송한다. 호출-센터에 있는 IVR 에이전트와의 상호 작용에 의해 전화 채널을 통해 호출자의 음성을 이미 등록한 호출자는 음성 입력을 이용하여 에지 디바이스의 애플리케이션과 상호 작용한다. 에지 디바이스 애플리케이션은 신원 제공자의 클라우드 데이터베이스에서 이용할 수 있는 가장 최근의 등록 임베딩에 대해 클라우드 데이터베이스에게 문의한다. 그 다음, 에지 디바이스는 인증 프로세스들(예를 들어, 스코어 예측)을 수행하기 위하여 가장 최근의 등록 임베딩들을 요청한다.

에지 디바이스상의 등록의 경우에 전화 채널상에서의 호출자의 인증

일부 실시 예들에 있어서, 에지 디바이스의 소프트웨어는 전화 채널을 통해 등록자-호출자를 인증하는데 이용되는 등록 임베딩을 생성하기 위해 광대역 오디오를 이용한다. 인증 동안, 전화 채널 스피치는 에지 디바이스의 인증 서버상의 대역폭 확장 신경망에 의해 프로세싱되며, 그에 의해, 인증 서버 또는 에지 디바이스는 에지 디바이스상에 생성된 등록 임베딩에 대해 화자 검증 신경망을 적용함에 의해 전화 호출을 인증한다.

협대역 통신 채널을 위한 광대역 품질 오디오의 재구축

일부 실시 예들에 있어서, 대역폭 확장 신경망은 협대역 데이터 스트림 신호를 실시간으로 프로세싱하고 오디오 데이터를 광대역 품질 스피치로 전환하는데 이용된다. 광대역 품질은 협대역 채널들을 통해 전달되는 스피치의 명료성 및 명확성을 개선하는데 도움을 준다. 예를 들어, 대역폭 확장 신경망은 입력 신호를 개선하는데 도움을 주기 위해 호출-센터 에이전트에 배치될 수 있으며, 그에 따라 에이전트가 호출자를 보다 잘 이해하는데 도움을 준다. 예를 들어, 대역폭 확장 신경망은 품질을 개선하고 열화(예를 들어, 배경 잡음)를 줄임으로써 호출자의 경험을 개선하는데 도움을 주기 위해 호출자의 음성 입력들에 적용될 수 있다.

본 명세서에 개시된 실시 예들과 관련하여 기술된 여러 예시적인 논리 블럭들, 모듈들, 회로들 및 알고리즘 단계들은 전자 하드웨어, 컴퓨터 소프트웨어 또는 그 둘의 조합으로서 구현될 수 있다. 하드웨어와 소프트웨어의 이러한 상호 교환성을 명확하게 설명하기 위해, 상기에서는 전반적으로 여러 예시적인 부품들, 블럭들, 모듈들, 회로들 및 단계들이 그들의 기능의 견지에서 기술되었다. 그러한 기능이 하드웨어로서 또는 소프트웨어로서 구현되는 지의 여부는, 전체 시스템에 부과된 특정 애플리케이션 및 고안 제약에 의존한다. 숙련자라면, 각각의 특정한 애플리케이션마다 여러 방식으로 기술된 기능들을 구현할 수 있을 것이지만, 그러한 구현 결정이 본 발명의 범주로부터 벗어날 수 있는 것으로 해석되어서는 안된다.

컴퓨터 소프트웨어로 구현된 실시 예들은 소프트웨어, 펌웨어, 미들웨어, 마이크로코드, 하드웨어 기술 언어, 또는 그들의 임의 조합으로 구현될 수 있다. 코드 세그먼트 또는 머신-실행 가능 명령어들은 절차, 기능, 서브프로그램, 프로그램, 루틴, 서브루틴, 모듈, 소프트웨어 패키지, 클래스 또는, 명령어들, 데이터 구조들 또는 프로그램 문(program statement)들의 임의 조합을 나타낼 수 있다. 코드 세그먼트는, 정보, 데이터, 인수(argument), 파라메타들 또는 메모리 콘텐츠(memory content)들을 전달 및/또는 수신함에 의해 또 다른 코드 세그먼트 또는 하드웨어 회로에 결합될 수 있다. 정보, 인수, 파라메타들, 데이터 등은, 메모리 공유, 메시지 전달(passing), 토큰 전달, 네트워크 전송들을 포함하는 임의 적당한 수단을 통해 전달되거나 지향되거나 전송된다.

시스템 및 방법들을 구현하는데 이용되는 실제 소프트웨어 코드 또는 전용 제어 하드웨어는 본 발명을 제한하지 않는다. 따라서, 시스템 및 방법들의 동작과 작용은, 소프트웨어 및 제어 하드웨어가 본 명세서에서의 설명에 기초하여 시스템들 및 방법들을 구현하도록 고안될 수 있다고 이해되는 특정 소프트웨어 코드의 참조없이 기술되었다.

그 기능들은, 소프트웨어로 구현되는 경우에, 비-일시적 컴퓨터 판독 가능 또는 프로세서-판독 가능 저장 매체상에, 하나 이상의 명령어들 또는 코드로서 저장될 수 있다. 본 명세서에 개시된 방법 또는 알고리즘의 단계들은 컴퓨터 판독 가능 또는 프로세서 판독 가능 저장 매체상에 상주할 수 있는 프로세서-실행 가능 소프트웨어 모듈로 구현될 수 있다. 비-일시적 컴퓨터 판독 가능 또는 프로세서 판독 가능 매체는 한 곳에서 다른 곳으로의 컴퓨터 프로그램의 전달을 도모하는 컴퓨터 저장 매체 및 유형의 저장 매체를 포함한다. 비-일시적 프로세서 판독 가능 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의 이용 가능 매체일 수 있다. 예를 들어, 제한없이, 그러한 비-일시적 프로세서 판독 가능 매체는, RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장, 자기 디스크 저장 또는 다른 자기 저장 디바이스, 또는 명령어 또는 데이터 구조 형태로 원하는 프로그램 코들을 저장하는데 이용될 수 있고, 컴퓨터나 프로세서에 의해 액세스될 수 있는, 임의 다른 유형의 저장 매체를 구비할 수 있다. 본 명세서에서 이용된 디스크(disk and disc)는, CD(Compact Disc), 레이저 디스크, 광학 디스크, DVD(Digital Versatile Disc), 플로피 디스크, 블루-레이 디스크를 포함하며, 디스크(disk)는 통상적으로 자기적으로 데이터를 재생하고, 디스크(disc)는 레이저에 의해 광학적으로 데이터를 재생한다. 상기한 것들의 조합은, 컴퓨터 판독 가능 매체의 범주내에 포함되어야 한다. 추가적으로, 방법 또는 알고리즘의 동작들은, 컴퓨터 프로그램 제품에 합체될 수 있는, 비 일시적 프로세서 판독 가능 매체 및/또는 컴퓨터 판독 가능 매체상에, 하나의 코드 및/또는 명령어, 또는 코드들 및/또는 명령어들의 임의 조합 또는 임의 세트로서 상주한다.

개시된 실시 예들의 선행하는 기술들은 본 기술 분야의 숙련자가 본 발명을 만들거나 이용할 수 있게 제공된다. 이 실시 예들에 대한 여러 수정은, 본 기술 분야의 숙련자에게는 아주 명백할 것이며, 본 명세서에 정의된 일반적 원리들은 본 발명의 사상 또는 범주를 벗어나지 않고도 다른 실시 예들에 적용될 수 있다. 따라서, 본 발명은 본 명세서에서 보여준 실시 예들에 국한되는 것인 아니라 본 명세서에 개시된 신규한 특성 원리 및 이하의 청구항들과 일치하는 가장 넓은 범주를 부여받아야 한다.

여러 측면 및 실시 예들이 개시되었지만, 다른 측면 및 실시 예들이 상정된다. 개시된 여러 측면들 및 실시 예들은 제한하고자 하는 것이 아니라 설명을 위해서이며, 진실한 범주 및 사상은 이하의 청구항들에 의해 나타난다.

Claims

컴퓨터 구현 방법으로서,
컴퓨터가, 제 1 대역폭을 가진 하나 이상의 저-대역폭 오디오 신호들과 제 2 대역폭을 가진 하나 이상의 대응하는 고-대역폭 오디오 신호들을 포함하는 다수의 훈련 오디오 신호들을 획득하고 - 제 1 대역폭은 제 2 대역폭보다 상대적으로 낮음 - ;
컴퓨터가, 신경망의 하나 이상의 신경망 층들의 세트를 구비한 대역폭 확장기를 훈련시키고 - 대역폭 확장기는 다수의 훈련 오디오 신호들에 신경망을 적용함에 의해 훈련됨 - ;
컴퓨터가, 제 1 대역폭을 가진 인바운드 오디오 신호를 수신하고;
컴퓨터가, 인바운드 오디오 신호에 신경망의 대역폭 확장기를 적용함에 의해 제 2 대역폭을 가진 추정 인바운드 오디오 신호를 생성하는 것을 구비하는
컴퓨터 구현 방법.
제 1 항에 있어서,
다수의 훈련 오디오 신호들을 획득하는 것은,
컴퓨터가, 제 2 대역폭을 가진 고-대역폭 오디오 신호에 대해 코덱 프로그램을 실행함에 의해, 제 1 대역폭을 가진 저-대역폭 오디오 신호를 생성하는 것을 포함하는
컴퓨터 구현 방법.
제 1 항에 있어서,
다수의 훈련 오디오 신호들을 획득하는 것은,
컴퓨터가, 저-대역폭 오디오 신호에 대해 한 유형의 열화(a type of degradation)에 대한 증강 동작을 실행함에 의해, 상기 한 유형의 열화를 가진 시뮬레이션된 저-대역폭 오디오 신호를 생성하는 것을 구비하되,
다수의 훈련 오디오 신호들은 시뮬레이션된 저-대역폭 오디오 신호들을 더 구비하고,
인바운드 오디오 신호는 상기 한 유형의 열화를 가지며, 그럼으로써, 컴퓨터에 의해 생성된 추정 인바운드 오디오 신호는 상기 한 유형의 열화가 상대적으로 적은 강화된 인바운드 오디오 신호로 되는
컴퓨터 구현 방법.
제 1 항에 있어서,
컴퓨터가, 훈련 오디오 신호들의 각각으로부터 하나 이상의 피처들을 추출하고;
컴퓨터가, 인바운드 오디오 신호로부터 하나 이상의 피처들을 추출하는 것을 더 구비하되,
컴퓨터는 훈련 오디오 신호들의 하나 이상의 피처들에 대해 신경망을 적용하고, 컴퓨터는 인바운드 오디오 신호의 하나 이상의 피처들에 대해 신경망을 적용하는
컴퓨터 구현 방법.
제 1 항에 있어서,
다수의 훈련 신호들 중의 적어도 하나의 고-대역폭 오디오 신호는 제 2 대역폭에 대해 구성된 채널을 통해 기원하는 신호인
컴퓨터 구현 방법.
제 1 항에 있어서,
컴퓨터는, 인바운드 오디오 신호가 제 1 대역폭에 대해 구성된 채널을 통해 기원하는 신호라고 판정하는 컴퓨터에 응답하여, 추정 인바운드 오디오 신호를 생성하는
컴퓨터 구현 방법.
제 1 항에 있어서,
훈련시키는 것은,
컴퓨터가, 훈련 오디오 신호에 대해 신경망에 의해 출력된 훈련 추정 오디오 신호에 따라 신경망의 손실 함수를 수행하는 것을 더 구비하되,
손실 함수는 대역폭 확장기의 하나 이상의 층들의 하나 이상의 하이퍼파라메타들을 갱신하도록 컴퓨터에게 명령하는
컴퓨터 구현 방법.
제 1 항에 있어서,
컴퓨터가, 하나 이상의 청정 오디오 신호들과 시뮬레이션된 오디오 신호들을 구비하는 다수의 제 2 훈련 오디오 신호들에 화자 인식기를 적용함에 의해 하나 이상의 신경망 층들의 제 2 세트를 구비한 화자 인식기를 훈련시키고;
컴퓨터가, 등록자의 하나 이상의 등록자 오디오 신호들에 화자 인식기를 적용함에 의해 등록자에 대한 등록자 음성프린트를 추출하고;
컴퓨터가, 추정 인바운드 오디오 신호에 신경망 아키텍처를 적용함에 의해 인바운드 화자에 대한 인바운드 음성프린트를 추출하고;
컴퓨터가, 인바운드 음성프린트와 등록자 음성프린트에 기초하여 우도 스코어(likelihood score)를 생성하는 것을 더 구비하되,
우도 스코어는 인바운드 화자가 등록자일 우도를 나타내는
컴퓨터 구현 방법.
제 8 항에 있어서,
컴퓨터가, 최소한 훈련 오디오 신호와 등록자 오디오 신호에 대해 하나 이상의 데이터 증강 동작을 실행시키는 것을 더 구비하는
컴퓨터 구현 방법.
제 9 항에 있어서,
하나 이상의 데이터 증강 동작을 실행시키는 것은, 최소한 제 2 훈련 오디오 신호와 등록자 오디오 신호에 대해 대역폭 확장기를 적용하는 것을 포함하는
컴퓨터 구현 방법.
제 8 항에 있어서,
컴퓨터가, 제 1 대역폭에 대해 구성된 채널을 통해 기원하고 제 1 대역폭을 가진 등록자 오디오 신호에 대해 대역폭 확장기를 적용함에 의해 하나 이상의 등록자 오디오 신호들에 대한 추정 등록자 오디오 신호를 생성하는 것을 더 구비하는
컴퓨터 구현 방법.
하나 이상의 신경망들을 대해 머신-판독 가능 명령어들을 저장하도록 구성된 비-일시적 머신-판독 가능 메모리와;
프로세서를 구비한 컴퓨터를 구비하되,
컴퓨터는,
제 1 대역폭을 가진 하나 이상의 저-대역폭 오디오 신호들과 제 2 대역폭을 가진 하나 이상의 대응하는 고-대역폭 오디오 신호들을 포함하는 다수의 훈련 오디오 신호들을 획득하고 - 제 1 대역폭은 제 2 대역폭보다 상대적으로 낮음 - ;
신경망의 하나 이상의 신경망 층들의 세트를 구비한 대역폭 확장기를 훈련시키고 - 대역폭 확장기는 다수의 훈련 오디오 신호들에 신경망을 적용함에 의해 훈련됨 - ;
제 1 대역폭을 가진 인바운드 오디오 신호를 수신하고;
인바운드 오디오 신호에 신경망의 대역폭 확장기를 적용함에 의해 제 2 대역폭을 가진 추정 인바운드 오디오 신호를 생성하도록 구성된
시스템.
제 12 항에 있어서,
다수의 훈련 오디오 신호들을 획득하기 위해,
컴퓨터는, 제 2 대역폭을 가진 고-대역폭 오디오 신호에 대해 코덱 프로그램을 실행함에 의해, 제 1 대역폭을 가진 저-대역폭 오디오 신호를 생성하도록 구성되는
시스템.
제 12 항에 있어서,
다수의 훈련 오디오 신호들을 획득하기 위해,
컴퓨터는, 저-대역폭 오디오 신호에 대해 한 유형의 열화(a type of degradation)에 대한 증강 동작을 실행함에 의해, 상기 한 유형의 열화를 가진 시뮬레이션된 저-대역폭 오디오 신호를 생성하도록 구성되며,
다수의 훈련 오디오 신호들은 시뮬레이션된 저-대역폭 오디오 신호들을 더 구비하고,
인바운드 오디오 신호는 상기 한 유형의 열화를 가지며, 그럼으로써, 컴퓨터에 의해 생성된 추정 인바운드 오디오 신호는 상기 한 유형의 열화가 상대적으로 적은 강화된 인바운드 오디오 신호로 되는
시스템.
제 12 항에 있어서,
훈련 오디오 신호들의 각각으로부터 하나 이상의 피처들을 추출하고;
인바운드 오디오 신호로부터 하나 이상의 피처들을 추출하는 것을 더 구비하되,
컴퓨터는 훈련 오디오 신호들의 하나 이상의 피처들에 대해 신경망을 적용하고, 컴퓨터는 인바운드 오디오 신호의 하나 이상의 피처들에 대해 신경망을 적용하는
시스템.
제 12 항에 있어서,
다수의 훈련 신호들 중의 적어도 하나의 고-대역폭 오디오 신호는 제 2 대역폭에 대해 구성된 채널을 통해 기원한(originated) 신호인
시스템.
제 12 항에 있어서,
컴퓨터가, 인바운드 오디오 신호가 제 1 대역폭에 대해 구성된 채널을 통해 기원한 신호라고 판정하는 컴퓨터에 응답하여, 추정 인바운드 오디오 신호를 생성하는
시스템.
제 12 항에 있어서,
컴퓨터는,
훈련 오디오 신호에 대해 신경망에 의해 출력된 훈련 추정 오디오 신호에 따라 신경망의 손실 함수를 실행시키도록 구성되며,
손실 함수는 대역폭 확장기의 하나 이상의 층들의 하나 이상의 하이퍼파라메타들을 갱신하도록 컴퓨터에게 명령하는
시스템.
제 12 항에 있어서,
컴퓨터는,
하나 이상의 청정 오디오 신호들과 시뮬레이션된 오디오 신호들을 구비하는 다수의 제 2 훈련 오디오 신호들에 화자 인식기를 적용함에 의해 하나 이상의 신경망 층들의 제 2 세트를 구비한 화자 인식기를 훈련시키고;
등록자의 하나 이상의 등록자 오디오 신호들에 화자 인식기를 적용함에 의해 등록자에 대한 등록자 음성프린트를 추출하고;
추정 인바운드 오디오 신호에 신경망 아키텍처를 적용함에 의해 인바운드 화자에 대한 인바운드 음성프린트를 추출하고;
인바운드 음성프린트와 등록자 음성프린트에 기초하여 우도 스코어(likelihood score)를 생성하도록 구성되며,
우도 스코어는 인바운드 화자가 등록자일 우도를 나타내는
시스템.
제 19 항에 있어서,
컴퓨터는,
제 1 대역폭에 대해 구성된 채널을 통해 기원하고 제 1 대역폭을 가진 등록자 오디오 신호에 대해 대역폭 확장기를 적용함에 의해 하나 이상의 등록자 오디오 신호들에 대한 추정 등록자 오디오 신호를 생성하도록 구성되는
시스템.