KR102512311B1

KR102512311B1 - 이어버드 스피치 추정

Info

Publication number: KR102512311B1
Application number: KR1020207000974A
Authority: KR
Inventors: 데이비드 리 와츠; 브렌튼 로버트 스틸; 토마스 이반 하비; 비탈리 사포젠코브
Original assignee: 시러스 로직 인터내셔널 세미컨덕터 리미티드
Priority date: 2017-06-16
Filing date: 2018-06-15
Publication date: 2023-03-22
Also published as: GB2599317A; GB2577824B; GB201713946D0; GB201918059D0; KR20200019954A; CN110741654A; US20180367882A1; US10397687B2; US20190342652A1; GB2599317B; GB2577824A; CN110741654B; US11134330B2; WO2018229503A1

Abstract

본 발명의 실시예들은, 스피치 추정의 음성 활동 검출 게이팅을 채용하지 않고, 골전도 센서 또는 가속도계를 이용하여 스피치 추정치를 결정한다. 스피치 추정은, 전적으로 골전도 신호에 기초하거나, 마이크로폰 신호와 조합하여 수행된다. 그 다음, 스피치 추정치는 마이크로폰의 출력 신호를 조절하는데 이용된다. 오디오 디바이스에서의 스피치 처리를 위한 복수의 이용 사례가 있다.

Description

이어버드 스피치 추정

관련 출원의 상호참조

본 출원은, 참조로 본 명세서에 포함되는, 2017년 6월 16일 출원된 미국 가출원번호 62/520,713호의 우선권을 주장한다.

본 발명은, 스피치 캡처 등의 기능을 위한 스피치 추정을 수행하도록 구성된 이어버드 헤드셋(earbud headset)에 관한 것으로, 특히, 본 발명은 골전도(bone conduction) 센서 신호에 기초한 이어버드 스피치 추정에 관한 것이다.

헤드셋은, 사용자가 음악 또는 오디오를 개인적으로 청취하거나 핸즈프리 전화를 걸거나 음성 명령을 음성 인식 시스템에 전달하기 위한 인기있는 방식이다. 이어버드를 포함한 다양한 헤드셋 폼 팩터, 즉, 헤드셋 유형들이 이용가능하다. 이용중 이어버드의 귀내 위치(in-ear position)는, 이 폼 팩터에 특정한 해결과제를 제시한다. 이어버드의 귀내 위치는 디바이스의 지오메트리를 크게 제한하고, 빔 형성 또는 사이드로브 제거 등의 기능에 요구되는, 마이크로폰을 넓게 떨어져 배치하는 능력을 상당히 제한한다. 추가로, 무선 이어버드의 경우 소형 폼 팩터는 배터리 크기 및 그에 따른 전력 예산에 상당한 제한을 둔다. 또한, 외이도(ear canal) 및 귓바퀴(pinna)의 해부학적 구조는, 외이도 내에 배치될 때 사용자의 입으로부터 이어버드의 마이크로폰까지의 음향 신호 경로를 다소 폐색하여, 사용자 자신의 음성을 근처의 다른 사람들의 음성과 구별하는 작업의 어려움을 증가시킨다.

스피치 캡처란, 일반적으로, 헤드셋 사용자의 음성이 캡처되고 다른 사람들의 음성을 포함한 임의의 주변 잡음이 최소화되는 상황을 말한다. 이러한 이용 사례의 일반적인 시나리오는, 사용자가 음성 통화를 하거나 스피치 인식 시스템과 상호작용하는 때이다. 이들 시나리오들 양쪽 모두는 기저 알고리즘에 엄격한 요구조건을 둔다. 음성 통화의 경우, 전화 표준 및 사용자 요구조건에 따라 우수한 음질로 높은 레벨의 잡음 감소를 달성해야 한다. 유사하게, 스피치 인식 시스템은, 전형적으로, 가능한 많은 잡음을 제거하면서 오디오 신호가 최소한으로 수정될 것을 요구한다. 사용자가 말하고 있는지의 여부에 따라, 알고리즘의 동작이 변경되는 것이 중요한 수 많은 신호 처리 알고리즘이 존재한다. 따라서, 음성 활동 검출, 즉, 신호에서 스피치의 존재 또는 부재를 결정하기 위해 입력 신호를 처리하는 것은, 음성 캡처 및 기타의 이러한 신호 처리 알고리즘의 중요한 양태이다. 그러나, 붐(boom), 펜던트, 및 청각 헤드셋(supra-aural headset) 등의 더 큰 헤드셋에서도, 디바이스의 빔형성기의 빔 내에 위치한 다른 사람들의 스피치를 확실하게 무시하는 것은, 이러한 다른 사람들의 스피치가 사용자만의 음성 캡처 프로세스를 와해시키므로, 매우 어렵다. 이러한 음성 캡처의 이들 및 기타의 양태들은, 이어버드는 사용자의 입 근처에 위치한 마이크로폰을 갖지 않으므로 이러한 마이크로폰 위치로부터 발생하는 상당히 개선된 신호 대 잡음비의 혜택을 입지 않는다는 이유 때문에, 이어버드에서는 효과를 내기 특히 어렵다.

본 명세서에 포함된 문서, 작용, 재료, 디바이스, 항목 등의 임의의 논의는, 본 발명의 정황을 제공하기 위한 목적일 뿐이다. 이들 문제들 중 임의의 것 또는 전부가 종래 기술 베이스의 일부를 형성하거나 본 출원의 각각의 청구항의 우선일 이전에 존재한 본 발명과 관련된 분야에서 흔한 일반적인 지식인 것으로 인정되어서는 안된다.

본 명세서 전체를 통해, 단어 "포함하다", 또는 "포함한다" 또는 "포함하는" 등의 그 변형은, 언급된 요소, 완전체 또는 단계, 또는 요소들, 완전체들 또는 단계들의 그룹의 포함을 암시하지만, 임의의 다른 요소, 완전체 또는 단계, 또는 요소들, 완전체들 또는 단계들의 그룹의 배제를 암시하는 것은 아님을 이해할 것이다.

본 명세서에서, 한 요소가 옵션들의 목록 중 "적어도 하나"일 수 있다는 서술은, 그 요소가 나열된 옵션들 중 임의의 하나이거나, 나열된 옵션들 중 2개 이상의 임의의 조합일 수 있다는 것으로 이해되어야 한다.

제1 양태에 따르면, 본 발명은 이어버드 스피치 추정을 위한 신호 처리 디바이스를 제공하며, 이 디바이스는 다음을 포함한다:

이어버드의 마이크로폰으로부터 마이크로폰 신호를 수신하기 위한 적어도 하나의 입력;

이어버드의 골전도 센서로부터 골전도 센서 신호를 수신하기 위한 적어도 하나의 입력;

골전도 센서 신호로부터 이어버드 사용자의 스피치의 적어도 하나의 특성 - 적어도 하나의 특성은 비-2진 변수(non-binary variable)임 - 을 결정하도록 구성되고, 스피치의 적어도 하나의 특성으로부터 적어도 하나의 신호 조절 파라미터를 도출하도록 추가로 구성되고, 마이크로폰 신호를 조절하기 위해 적어도 하나의 신호 조절 파라미터를 이용하도록 추가로 구성되는 프로세서.

제2 양태에 따르면, 본 발명은 이어버드 마이크로폰 신호를 조절하는 방법을 제공하며, 이 방법은 다음을 포함한다:

이어버드의 골전도 센서로부터 골전도 센서 신호를 수신하는 단계;

이어버드의 마이크로폰으로부터 마이크로폰 신호를 수신하는 단계;

골전도 센서 신호로부터 이어버드 사용자의 스피치의 적어도 하나의 특성 - 적어도 하나의 특성은 비-2진 변수임 - 을 결정하는 단계;

스피치의 적어도 하나의 특성으로부터 적어도 하나의 신호 조절 파라미터를 도출하는 단계; 및

마이크로폰으로부터의 출력 신호를 조절하기 위해 적어도 하나의 신호 조절 파라미터를 이용하는 단계.

제3 양태에 따르면, 본 발명은 하나 이상의 프로세서에 의해 실행될 때 다음과 같은 단계들이 수행되게 하는 명령어들을 포함하는, 이어버드 마이크로폰 신호를 조절하기 위한 비일시적인 컴퓨터 판독가능한 매체를 제공한다.

일부 실시예에서, 이어버드는 무선 이어버드이다.

골전도 센서 신호로부터 프로세서에 의해 결정된 스피치의 비-2진 변수 특성은, 일부 실시예에서, 골전도 센서 신호로부터 도출된 스피치 추정치이다. 프로세서는, 일부 실시예에서, 마이크로폰 신호의 조절이 골전도 센서 신호로부터 도출된 스피치 추정치에 의해 제어되는 비정적 잡음 감소(non-stationary noise reduction)를 포함하도록 구성될 수 있다. 비정적 잡음 감소는 일부 실시예에서, 마이크로폰 신호로부터 도출된 스피치 추정에 의해 추가로 제어될 수 있다.

프로세서는, 일부 실시예에서, 골전도 센서 신호로부터 결정된 스피치의 비-2진 변수 특성이 골전도 센서 신호의 스피치 레벨이도록 구성될 수 있다.

프로세서는, 일부 실시예에서, 골전도 센서 신호로부터 결정된 스피치의 비-2진 변수 특성이 골전도 센서 신호의 관찰된 스펙트럼이도록 구성될 수 있다.

프로세서는, 일부 실시예에서, 골전도 센서 신호로부터 결정된 스피치의 비-2진 변수 특성이 골전도 센서 신호의 스펙트럼 엔벨로프의 파라미터 표현이도록 구성될 수 있다.

프로세서는, 일부 실시예에서, 골전도 센서 신호의 스펙트럼 엔벨로프의 파라미터 표현이, 예를 들어 스피치 엔벨로프를 도출하기 위해 인간의 성도를 모델링하기 위한, 선형 예측 캡스트럼 계수(linear prediction cepstral coefficient), 자기회귀 계수(autoregressive coefficient), 및 라인 스펙트럼 주파수(line spectral frequency) 중 적어도 하나를 포함하도록 구성될 수 있다.

프로세서는, 일부 실시예에서, 골전도 센서 신호로부터 결정된 스피치의 비-2진 변수 특성이, 인간의 사운드 인지 모델로부터 도출된 MFCC(mel-frequency cepstral coefficient) 또는 선호되는 방법인 단시간 푸리에 변환으로부터 도출된 로그-이격된 스펙트럼 크기 등의, 골전도 센서 신호의 스펙트럼 엔벨로프의 비-파라미터 표현이도록 구성될 수 있다.

프로세서는, 일부 실시예에서, 마이크로폰으로부터의 출력 신호의 조절이 음성 활동에 관계없이 발생하도록 구성될 수 있다.

프로세서는, 일부 실시예에서, 적어도 하나의 신호 조절 파라미터가 골전도 센서 신호로부터 도출된 대역-특유의 이득을 포함하도록 구성될 수 있고, 여기서, 마이크로폰 신호의 조절은 대역-특유의 이득을 마이크로폰 신호에 적용하는 것을 포함한다.

프로세서는, 일부 실시예에서, 마이크로폰 신호의 조절이 골전도 센서 신호가 스피치 추정 프로세스에 선행하여 작용하는 Kalman 필터 프로세스를 적용하는 것을 포함하도록 구성될 수 있다. 스피치 추정치는, 일부 실시예에서 골전도 센서 신호로부터 도출될 수 있고, 선행적 SNR 추정(a priori SNR estimation)을 위한 결정-지향적 가중 인자를 수정하는데 이용될 수 있다. 골전도 센서 신호로부터 도출된 스피치 추정치는, 일부 실시예에서, 인과의 재귀적 스피치 강화(casual recursive speech enhancement)(CRSE)에서의 업데이트 단계를 통보하는데 이용될 수 있다.

골전도 센서 신호로부터 프로세서에 의해 결정된 스피치의 비-2진 변수 특성은, 일부 실시예에서, 골전도 센서 신호의 신호 대 잡음비일 수 있다.

프로세서는, 일부 실시예에서, 골전도 센서 신호 이외의 것이, 스피치의 적어도 하나의 특성을 결정하기 위한 기준이 되고, 골전도 센서 신호의 어떠한 성분도 이어버드의 신호 출력에 전달되지 않도록 구성될 수 있다.

프로세서는, 일부 실시예에서, 스피치의 비-2진 변수 특성이 골전도 센서 신호로부터 결정되기 전에, 골전도 센서 신호가 관찰된 조건들에 대해 보정되도록 구성될 수 있다. 프로세서는, 일부 실시예에서, 골전도 센서 신호가 음소(phoneme)에 대해 보정되도록 구성될 수 있다. 프로세서는, 일부 실시예에서, 골전도 센서 신호가 골전도 결합에 대해 보정되도록 구성될 수 있다. 프로세서는, 일부 실시예에서, 골전도 센서 신호가 대역폭에 대해 보정되도록 구성될 수 있다. 프로세서는, 일부 실시예에서, 골전도 센서 신호가 왜곡에 대해 보정되도록 구성될 수 있다. 프로세서는, 일부 실시예에서, 맵핑 프로세스를 적용함으로써 골전도 센서 신호의 보정을 수행하도록 구성될 수 있다. 맵핑 프로세스는, 일부 실시예에서, 골전도 센서 신호의 각각의 스펙트럼 빈(spectral bin)과 연관된 일련의 보정을 수반하는 선형 맵핑을 포함할 수 있다. 예를 들어, 보정은 골전도 센서 신호의 각각의 스펙트럼 빈 값에 적용되는 승수 및 오프셋을 포함할 수 있다. 프로세서는, 일부 실시예에서, 오프라인 학습을 적용함으로써 골전도 센서 신호의 보정을 수행하도록 구성될 수 있다.

프로세서는, 일부 실시예에서, 마이크로폰 신호의 조절이 골전도 센서 신호로부터 결정된 스피치의 비-2진 변수 특성에만 기초하도록 구성될 수 있다.

골전도 센서는, 일부 실시예에서, 가속도계를 포함할 수 있고, 이 가속도계는 이용 중에 사용자의 외이도 또는 외이(concha)의 표면에 결합되어 사용자의 스피치로부터의 골 전도된 신호를 검출한다.

골전도 센서는, 일부 실시예에서, 이용중에 사용자의 스피치의 골전도의 결과로서 외이도 내에서 발생하는 음향 사운드를 검출하도록 위치한 귀내 마이크로폰을 포함할 수 있다. 가속도계 및 귀내 마이크로폰 양쪽 모두는, 일부 실시예에서, 사용자의 스피치의 적어도 하나의 특성을 검출하는데 이용될 수 있다.

프로세서는, 일부 실시예에서, 골전도 센서 신호에 적어도 하나의 정합 필터(matched filter)를 적용하도록 구성될 수 있고, 정합 필터는 골전도 센서 신호 내의 사용자의 스피치를 마이크로폰 신호 내의 사용자의 스피치와 정합시키도록 구성된다. 정합 필터는, 일부 실시예에서, 훈련 세트에 기초한 설계를 가질 수 있다.

프로세서는, 일부 실시예에서, 사용자의 반대쪽 귀 상의 임의의 대향 센서로부터의 입력없이, 마이크로폰 신호를 일방적으로 조절하도록 구성될 수 있다.

이어버드는, 본 명세서에서는, 유선 또는 무선이든, 이용중에 자신이 놓여 있는 귀에 의해서만 또는 실질적으로 그 귀에 의해 지지되고, 이어버드 몸체부를 포함하며 이용중에 실질적으로 또는 완전히 외이도 및/또는 귓바퀴의 외이 내에 존재하는 오디오 헤드셋 디바이스로서 정의된다.

본 발명의 한 예가 이제 첨부된 도면을 참조하여 설명될 것이다: 여기서,
도 1은 전화 및/또는 오디오 재생을 위한 무선 이어버드의 이용을 나타낸다;
도 2는 본 발명의 한 실시예에 따른 이어버드의 시스템 개략도이다;
도 3a 및 도 3b는 도 2의 이어버드의 상세한 시스템 개략도이다;
도 4는 도 3의 실시예의 이어버드 스피치 추정 프로세스에 대한 흐름도이다;
도 5는 본 발명의 또 다른 실시예에 따른 전화를 위한 잡음 억제기를 나타낸다;
도 6은 통계적 모델 기반의 추정 프로세스를 이용하는 스피치 추정기를 포함하는 한 실시예를 나타낸다;
도 7은 SNR 추정치를 이용하는 혼합 인자에 기초한 마이크-가속도계 혼합 접근법을 나타낸다;
도 8은 본 발명의 또 다른 실시예의 구성을 나타낸다;
도 9는 골전도 센서 신호로부터의 스피치 추정치를 전화 이용 사례에 적용하는 한 실시예를 나타낸다;
도 10은 본 발명의 한 실시예에 대한 객관적인 평균 여론 점수(Mean Opinion Score)(MOS) 결과를 도시한다.

도 1은 전화 및/또는 오디오 재생을 위한 무선 이어버드의 이용을 나타낸다. 스마트폰 또는 오디오 재생기 등일 수 있는 디바이스(110)는 양방향 무선 이어버드(120, 130)와 통신한다. 예시의 목적을 위해, 이어버드(120, 130)가 귀 외부에 도시되어 있지만, 이용시에 이어버드의 몸체부가 실질적으로 또는 완전히 각각의 귀의 외이 및/또는 외이도 내에 존재하도록 각각의 이어버드가 배치된다. 이어버드(120, 130) 각각은, 사용자의 귀에 또는 귀 내에 편안하게 맞고 사용자의 귀에 지지되는 임의의 적절한 형태를 취할 수 있다. 본 발명의 범위 내의 일부 실시예에서, 이어버드의 몸체부는 또한, 부분적으로 또는 완전히 각각의 귓바퀴의 바깥쪽 부근 등의, 외이를 넘어 연장되는 후크 또는 지지 부재에 의해 지지될 수 있다.

도 2는 이어버드(120)의 시스템을 나타낸다. 이어버드(130)는 유사하게 구성될 수 있고 별도로 설명되지 않는다. 이어버드가 제 위치에 있을 때 외부 음향 신호를 수신하도록 마이크로폰(210)은 이어버드(120) 상에 위치한다. 예를 들어, 이어버드(120)에 의해 빔포밍 잡음 감소가 수행될 수 있게 하기 위하여 복수의 마이크로폰이 제공될 수 있지만, 작은 크기의 이어버드(120)는, 이른바 붐-장작형 마이크로폰에 비해 빔포밍의 효율을 제한할 수 있는, 구현될 수 있는 최대 마이크로폰 간격, 및 귓바퀴에 의해 사운드가 부분적으로 폐색되거나 확산되는 위치에 이어버드를 배치하는 것에 관해 어려운 제한을 둔다.

마이크로폰(210)으로부터의 마이크로폰 신호는 이어버드(120)의 적절한 프로세서(220)에 전달된다. 이어버드(120)의 크기로 인해, 제한된 배터리 전력만이 이용가능하고, 이로 인해 프로세서(220)는 단지 저전력 및 계산적으로 간단한 오디오 처리 기능만을 실행한다.

이어버드(120)는, 외이도에 삽입되고 이용중에 외이도의 벽에 맞대어 눌러지는 위치에서 이어버드(120)에 장착되는 가속도계(230)를 더 포함하거나, 적절하다면, 가속도계(230)는 외이도의 벽에 기계적으로 결합되도록 이어버드(120)의 몸체부 내에 장착될 수 있다. 가속도계(230)는 이로써, 골 전도된 신호, 특히 성도와 외이도 사이에 개재된 뼈와 조직에 의해 전도되는 사용자 자신의 스피치를 검출하도록 구성된다. 이러한 신호들은, 음향 전도가 다른 신체 조직을 통해 발생할 수 있고 골전도 센서(230)에 의해 감지된 신호에 부분적으로 기여할 수 있지만, 본 명세서에서는 골 전도된 신호라고 지칭된다.

골전도 센서는, 대안적인 실시예에서, 외이에 결합되거나, 외이도 또는 외이 내에서 귀에 확실하게 접촉하는 헤드셋 몸체부의 임의의 부분에 장착될 수 있다. 이어버드의 이용은, 외이도와의 확실한 직접적 접촉 및 그에 따라 외이도의 벽에서 측정된 골 전도된 스피치의 진동 모델에 대한 기계적 결합을 허용한다. 이것은, 휴대폰 등의 모바일 디바이스가 접촉할 수도 있는 외부 관자놀이, 뺨 또는 두개골과는 대조적이다. 본 발명은, 귀 외부의 해부학적 구조의 부분들로부터 도출된 골 전도된 스피치 모델이 본 발명의 설명된 실시예들에 비해 스피치 추정에 대해 상당히 덜 신뢰성이 있는 신호를 생성한다는 것을 인식한다. 본 발명은, 무선 이어버드에서 골전도 센서의 이용이 스피치 추정을 수행하기에 충분하다는 것을 인식한다. 이것은, 귀 외부의 핸드셋 또는 헤드셋과는 달리, 무선 이어버드로부터의 골전도 센서 신호의 본성은 사용자의 착용감, 사용자 행동 및 사용자 움직임과 관련하여 거의 정적이기 때문이다. 예를 들어, 본 발명은 착용감 또는 근접성을 위해 어떠한 골전도 센서의 보상도 요구되지 않는다는 것을 인식한다. 따라서, 골전도 센서를 위한 위치로서 외이도 또는 외이의 선택이 본 발명의 키 인에이블러(key enabler)이다. 그에 따라, 본 발명은 사용자 스피치의 시간적 및 스펙트럼적 특성을 최상으로 식별하는 해당 신호의 변환을 도출하는 것으로 된다.

디바이스(120)는 무선 이어버드이다. 이것은, 유선 개인용 오디오 디바이스에 부착된 액세서리 케이블은 골전도 센서(230)에 대한 외부 진동의 중요한 소스이기 때문에 중요하다. 액세서리 케이블은 또한, 골 전도된 스피치로 인한 외이도의 진동을 감쇠시킬 수 있는 디바이스(120)의 유효 질량을 증가시킨다. 케이블을 제거하는 것은 또한, 골전도 센서(230)를 수용할 수 있는 유연한 매체의 필요성을 감소시킨다. 감소된 중량은 골 전도된 스피치로 인한 외이도 진동에 대한 순응성을 증가시킨다. 따라서, 본 발명의 무선 실시예에서 골전도 센서(230)의 배치에 관한 제한이 없거나 크게 감소된다. 유일한 요구조건은, 센서(230)가 이어버드(120)의 외부 하우징과 강하게 접촉해야 한다는 것이다. 따라서, 실시예들은, 이어버드 하우징 내부의 인쇄 회로 기판(PCB) 상에 센서(230)를 장착하거나 강성 막대를 통해 이어버드 커널에 결합된 BTE 모듈에 장착하는 것을 포함할 수 있다.

주 음성 마이크로폰(210)의 위치는 일반적으로 무선 이어버드에서 귀에 가깝다. 따라서 이것은 사용자의 입으로부터 비교적 멀기 때문에 신호 대 잡음비(SNR)가 낮다. 이것은, 주 음성 마이크로폰이 입에 훨씬 더 가깝고 사용자가 전화/펜던트를 쥐는 방식의 차이가 광범위한 SNR을 유발할 수 있는 핸드셋 또는 펜던트형 헤드셋과는 대조적이다. 본 실시예에서, 주어진 환경 잡음 레벨에 대한 주 음성 마이크로폰(210) 상의 SNR은 사용자의 입과 이어버드를 포함하는 귀 사이의 지오메트리가 고정되기 때문에 그렇게 가변적이지 않다. 따라서, 주 음성 마이크로폰(210) 상의 스피치 레벨과 골전도 센서(230) 상의 스피치 레벨 사이의 비율은 선험적으로 알려져 있으며, 따라서 본 발명은 이것이 진정한 스피치 추정치와 골전도 센서 신호 사이의 관계를 결정하는데 부분적으로 유용하다는 것을 인식한다.

골전도 센서(230)와 외이도 사이의 충분한 접촉 조건은, 스피치로 인한 진동의 힘이 상용 가속도계(230)의 최소 감도를 초과할 정도로 이어버드(120)의 중량이 충분히 작은 것에 기인한다. 이것은, 골 전도된 진동이 디바이스에 용이하게 결합되는 것을 방지하는 질량이 큰 외부 헤드셋 또는 전화 핸드셋과는 대조적이다.

프로세서(220)는, 가속도계(230)로부터 골전도 센서 신호로부터 이어버드(120)의 사용자의 스피치의 적어도 하나의 특성을 결정하고, 스피치의 적어도 하나의 특성으로부터 적어도 하나의 신호 조절 파라미터를 도출하도록 구성된 신호 처리 디바이스이고; 프로세서(220)는 또한, 마이크로폰(210)으로부터의 마이크로폰 신호를 조절하기 위해 적어도 하나의 신호 조절 파라미터를 이용하고 음성 통화의 전송된 신호로서의 이용 및/또는 자동 스피치 인식(ASR)에서의 이용을 위해 조절된 신호를 마스터 디바이스(110)에 무선으로 전달하도록 구성된다. 이어버드(120)와 마스터 디바이스(110) 사이의 통신은 예를 들어 저에너지 Bluetooth를 통해 이루어질 수 있다. 대안적인 실시예는, 본 명세서의 다른 곳에서 논의된 단점들에도 불구하고, 유선 이어버드를 활용하고 유선으로 통신할 수도 있다. 스피커(240)는, 음성 통화의 수신 신호 등의, 음향 신호를 사용자의 외이도 내로 재생하도록 구성된다.

특히, 본 실시예는, 적어도 하나의 마이크로폰 및 적어도 하나의 가속도계가 제공된 무선 이어버드를 포함하는 헤드셋 폼 팩터에서, 골전도 센서 신호로부터 도출된 스피치 추정치에 기초하여, 2진 온-오프 방식이 아니라 제어된 계조 방식으로 적용되는 잡음 감소를 제공한다. 특히, 음성 활동 검출의 2진 프로세스와는 대조적으로, 스피치 추정은, 스펙트럼 진폭 또는 신호 피크 주파수의 추정 및 스피치 품질을 개선하기 위한 적절한 처리의 적용을 수반한다. 사실상 본 발명의 일부 실시예는, 어떠한 음성 활동 검출 및 마이크로폰 신호 게이팅 단계도 없는 경우 골전도 센서 신호에 기초한 스피치 추정을 적용할 수 있다.

정확한 스피치 추정은 다양한 스피치 강화 메트릭에 관해 더 양호한 성능으로 이어질 수 있다. 음성 활동 검출(Voice Activity Detection)(VAD)은 스피치 추정을 개선하는 한 방식이지만 본질적으로 잡음있는 신호에서 스피치의 존재 또는 부재를 2진 방식으로 식별하는 불완전한 개념에 의존한다. 본 실시예는, 가속도계(230)가, 스피치 또는 잡음 존재의 2진 표시자에 의존하지 않고, 스피치 강화를 직접적으로 구동하기 위해 도출되고 이용될 수 있는 적절한 무잡음 스피치 추정치를 캡처할 수 있다는 것을 인식한다. 이러한 인식으로부터 다수의 솔루션이 뒤따른다.

도 3a 및 도 3b는, 본 발명의 한 실시예에 따른, 이어버드(120) 시스템 내의 프로세서(220)의 구성을 더욱 상세하게 나타낸다. 도 3a 및 도 3b의 실시예는, 적당한 신호 대 잡음비(SNR) 조건에서, VAD없이 스피치 추정치만으로 개선된 비정적 잡음 감소가 달성될 수 있다는 것을 인식한다. 이것은, 스피치의 존재와 스피치의 부재를 구별하기 위해 음성 활동 검출이 이용되는 접근법과는 구별되며, 오디오 신호에 관해 작용하는 잡음 억제기를 게이팅하기 위해, 즉, 온 및 오프하기 위해, VAD로부터의 별개의 2진 결정 신호가 이용된다. 도 3의 실시예는, 마이크로폰 신호로부터 정확한 스피치 추정이 획득될 수 없는 음향 조건에서도, 충분히 정확한 스피치 추정치를 획득하기 위해 가속도계 신호 또는 이로부터 도출된 일부 신호에 의존될 수 있다는 것을 인식한다. 이러한 실시예들에서 VAD의 생략은 이어버드 프로세서(220)에 관한 계산 부담을 최소화하는데 기여한다.

더욱 상세하게는, 도 3에서, 마이크로폰(210)으로부터의 마이크로폰 신호는 잡음 억제기(310)에 의해 조절되고, 그 다음, 디바이스(110)로의 무선 통신 등을 위해, 출력에 전달된다. 잡음 억제기(310)는, 임의의 VAD에 의한 어떠한 온-오프 게이팅도 없이, 스피치 추정/특성규정 모듈(320)에 의해 지속적으로 제어된다. 스피치 추정/특성규정 모듈(320)은, 가속도계(230)로부터, 및 선택사항으로서는 다른 가속도계들, 마이크로폰(210) 및/또는 다른 마이크로폰들로부터 입력을 취한다.

이러한 실시예에서 골전도 센서로서 가속도계(230)의 선택은, 상용 가속도계에서의 잡음 플로어(noise floor)가, 제1 근사치로서, 스펙트럼적으로 평탄하기 때문에 특히 유용하다. 이들 디바이스들은 공진 주파수에 이르기까지 음향적으로 투명하므로 환경 잡음으로 인한 어떠한 신호도 디스플레이하지 않는다. 따라서, 센서(230)의 잡음 분포는 스피치 추정 프로세스에 앞서 업데이트될 수 있다. 이것은, 복잡한 잡음 모델의 역학에 의한 간섭없이 진정한 스피치 신호의 시간적 및 스펙트럼적 본성을 모델링하는 것을 허용하기 때문에 중요한 차이다. 실험들은, 테터링된(유선) 이어버드도 케이블 바운스 등의 이벤트로 인한 잡음의 시간적 및 스펙트럼적 역학의 단기 변화로 인해 복잡한 잡음 모델을 갖는다는 것을 보여준다. 정합 신호가 조절 파라미터의 설계에 대한 요구조건은 아니기 때문에, 무선 이어버드(120)에서의 골전도 스펙트럼 엔벨로프에 대한 보정은 요구되지 않는다.

스피치 추정(320)은, 특히 무선 이어버드 이용 사례에서 보장되는 바와 같이, 마이크로폰(210) 및 가속도계(230)에서의 소정의 신호 보장에 기초하여 수행된다. 그러나, 이어버드에서 골전도 스펙트럼 엔벨로프에 대한 보정은, 피처 중요성을 가중하기 위해 수행될 수 있지만, 정합 신호는 조절 파라미터의 설계를 위한 요구조건은 아니다. 외이도의 골전도 모델에서 센서 비이상성 및 비선형성은 보정이 적용될 수 있는 다른 이유이다.

특히, 귀에서 복수의 골전도 센서(230)를 채용하는 실시예들은, 사용자 스피치에 관한 더 많은 정보를 추출하기 위해 외이도에서의 골 전도된 스피치로부터 발생하는 직교 진동 모드를 활용하게끔 구성되도록 제안된다. 중요하게도, 골 전도된 신호는, 어느 정도까지는 유선 이어버드와는 달리, 및 귀 외부의 헤드셋과는 달리, 무선 이어버드 범위 내의 센서들 내에 확실하게 결합된다. 이러한 실시예들에서, 외이도에서 골 전도된 스피치의 다양한 양태를 캡처하는 문제는 이어버드 하우징에 직교 배열된 복수의 골전도 디바이스의 이용에 의해, 또는 독립적인 직교 축들을 갖는 단일의 골전도 디바이스에 의해 해결된다.

가속도계(230)로부터의 신호는, 클린 스피치 추정, 선행적 SNR, 및/또는 모델 계수 등의, 사용자 스피치의 단일 또는 다중 채널 표현을 포함할 수 있는 스피치 추정치 출력을 결정하기 위해, 고역 통과 필터링된 다음 모듈(320)에 의해 이용된다.

특히, 도 3의 구성은 임의의 음성 활동 검출(VAD)을 생략한다. 스피치 강화의 다양한 방법들은 스피치 신호의 다양한 추정치에 의존하며, 마이크로폰 스피치 신호가 환경 잡음에 의해 저하될 때 어려워진다. 이들 추정치들의 정확도는 일반적으로 환경 잡음의 레벨에 따라 감소한다. 스피치 추정치의 이용은, 바람 잡음 억제, 잡음 억제를 위한 선행적 SNR 추정, 잡음 억제를 위한 이득 함수의 바이어싱, 빔포밍 적응(매트릭스 업데이트 차단), 음향 에코 제거를 위한 적응 제어, 에코 억제를 위한 선행적 스피치 대 에코 추정, VAD에 대한 적응적 임계화(레벨 차이 및 상호상관), 및 정적 잡음 추정에 대한 적응적 윈도우화(최소 제어된 재귀적 평균화; MCRA)를 포함한다.

골전도 센서(230)의 처리 및 결과적인 조절은, 본 발명의 이 실시예에서 가속도계 신호에서의 스피치 활동에 관계없이 발생한다. 따라서, 이것은, 잡음 감소 프로세스에 대한 스피치 추정치를 도출하는데 있어서 스피치 검출 프로세스 또는 잡음 모델링(VAD) 프로세스에 의존하지 않는다. 무선 이어버드(120)에서 외이도 진동을 측정하는 가속도계 센서(230)의 잡음 통계는 핸드셋 이용 사례와는 달리 명확하게 한정된 분포(well-defined distribution)를 갖는다. 본 발명은, 이것이 가속도계(230)로부터의 신호에 기초하여 연속적인 스피치 추정을 정당화한다는 것을 인식한다. 입으로부터의 마이크로폰(210)의 거리로 인해 이어버드에서 마이크로폰(210) SNR이 더 낮더라도, 스피치 샘플들의 분포는, 입과 관련한 이어버드 및 마이크로폰(210)의 고정된 위치로 인해 핸드셋 또는 펜던트보다 낮은 변화량을 가질 것이다. 이것은, 집합적으로 조절 파라미터 설계 및 스피치 추정 프로세스(320)에 이용될 사용자 스피치 신호의 선행적 지식을 형성한다.

도 3의 실시예는, 마이크로폰 및 골전도 센서를 이용한 스피치 추정이 이러한 목적을 위해 스피치 추정치를 개선할 수 있다는 것을 인식한다. 스피치 추정치는, 골전도 센서(예를 들어, 가속도계(230)), 또는 골전도 센서(들)(230)와 마이크로폰(들)(210)의 조합으로부터 도출될 수 있다. 골전도 센서(230)로부터의 스피치 추정은, 단일 디바이스의 별개의 축들로부터의 신호들의 임의의 조합을 포함할 수 있다. 스피치 추정치는 시간 영역 또는 주파수 영역 신호들로부터 도출될 수 있다. 마스터 디바이스(110)가 아닌 이어버드(120) 내에서 처리를 수행함으로써, 프로세서(220)는, 설명된 프로세스들이 모든 적절한 신호들에 액세스하고 이어버드 지오메트리의 정확한 지식에 기초한다는 확신을 갖고 제조 또는 구성시에 구성될 수 있다.

골전도 센서 신호로부터 스피치의 비-2진 변수 특성이 결정되기 전에, 골전도 센서 신호는 관찰된 조건에 대해 보정된다, 예를 들어, 골전도 센서 신호는, 음소, 센서 대역폭 및/또는 왜곡에 대해 보정될 수 있다. 보정은, 각각의 빈 값에 대한 곱셈기 및 오프셋의 적용 등의, 각각의 스펙트럼 빈과 연관된 일련의 보정을 수행하는 선형 맵핑을 수반할 수 있다.

스피치 추정치는, 다음과 같은 기술들 중 임의의 것에 의해 골전도 센서(230)로부터 320에서 도출될 수 있다: 신호의 지수 필터링(누출 적분기); 신호 값들의 이득 함수; 고정된 정합 필터(FIR 또는 스펙트럼 이득 함수); 적응적 정합(LMS 또는 입력 신호 구동형 적응); 맵핑 기능(코드북); 및 2차 통계를 이용한 추정 루틴의 업데이트. 또한, 스피치 추정치는, 입력 신호들의 상이한 진폭들에 대한 상이한 신호들, 또는 잡음 레벨 등의 입력 신호들의 다른 메트릭으로부터 도출될 수 있다. 예를 들어, 가속도계(230) 잡음 플로어는 마이크로폰(210) 잡음 플로어보다 훨씬 높으므로, 어떤 공칭 레벨 아래에서 가속도계 정보는 더 이상 유용하지 않을 수 있으며, 스피치 추정은 마이크로폰-도출된 신호로 천이할 수 있다. 입력 신호의 함수로서의 스피치 추정치는 천이 영역들에 관해 구분적(piecewise)이거나 연속적(continuous)일 수 있다. 추정은 방법에 있어서 다양할 수 있고 전달 곡선(transfer curve)의 각각의 영역에서 상이한 신호들에 의존할 수 있다. 이것은, 잡음 억제 장기 SNR 추정치, 잡음 억제 선행적 SNR 감소, 및 이득 백오프(back-off) 등의 이용 사례에 의해 결정될 것이다.

도 3b는, 도 3a의 이어버드 스피치 추정 프로세스(320)의 더 많은 상세사항을 제공한다. 도 4는 이어버드 스피치 추정 프로세스에 대한 흐름도이다.

특히, 도 3a 및 도 3b는 230으로부터의 골전도 스피치 신호에 관해 조절되는 스피치 추정기(320)를 설명한다. 이 추정은 사용자 스피치 신호를 나타내는 시간 및/또는 주파수 영역 신호의 형태를 취할 수 있다. 이것은, 이 추정기(320)의 적용의 결과일 수 있는 클린 스피치 신호와는 구별된다.

도 5에 도시된 전화를 위한 잡음 억제기는, 전화망을 통해 원격 수신자에게 전달될 클린 스피치 신호를 생성하는데 있어서 추정기를 이용할 수 있다. 잡음 억제기의 예는, 스펙트럼 감산(Spectral Subtraction), 위너 필터링 및 통계적 모델 방법(Wiener Filtering and Statistical Model Method)을 포함한다.

통계적 모델 기반의 추정 프로세스를 이용하는 스피치 추정기의 실시예의 한 예가 도 6에 도시되어 있다. 공기 전도된 마이크로폰 스피치 추정치, 골 전도된 스피치 추정치 및 SNR은, 인과의 재귀적 스피치 강화 프로세스로부터 별개로 도출된다. 각각의 프로세스로부터의 선행적 SNR 추정치들은 결합되어 사용자 스피치 추정치를 조절하는 혼합 계수들을 도출해 최종 스피치 추정기에 도달한다. 이 프로세스에서 잡음 모델을 도출하기 위해 마이크로폰 신호도 가속도계 센서 신호도 이용되지 않는다는 점에 유의하는 것이 중요하다. 대신에, 무선 이어버드 폼 팩터에 의해 영향을 받는 신호 내의 정보 내용은 직접적인 스피치 추정 프로세스를 허용한다.

또 다른 예에서, 본 출원은 ASR(Automated Speech Recognition) 시스템에 적합한 스피치의 잠재적 표현을 나타내는 신호를 생성할 수 있다. 이 경우, 클린 스피치의 잠재적 표현은 스피치 추정기의 변환으로부터 도출된다.

이 접근법의 구별은, 스피치 모델을 도출하기 위해 정적 잡음 신호의 존재 하에서 골전도 신호의 시간적 및 스펙트럼적 역학의 활용에서 인식된다. 이것은, 음성 활동 검출기 분야에서 광범위한 응용성을 발견하는 스피치 검출을 위한 동일한 역학의 활용과는 대조적이다.

이어버드에서 골전도 스펙트럼 엔벨로프에 대한 보정은 피처 중요성을 가중하기 위해 수행될 수 있지만, 정합 신호는 조절 파라미터의 설계를 위한 요구조건은 아니다.

골전도 센서를 이용한 스피치 검출기(VAD)와 대조적으로, 스피치 추정기를 도출하기 위한 접근법은 본 발명의 맥락 내에서 더욱 정교해질 수 있다. 전통적으로 잡음 억제기의 품질은 잡음 스펙트럼의 추정치에 의존한다. 잡음 스펙트럼은 전형적으로 VAD 등의 2진 결정 디바이스를 이용한 스피치 갭 동안의 측정으로부터 도출된다. VAD는 낮은 SNR 조건에서 열악하게 수행되는 경향이 있으며, 그 결과, 친숙한 바람직하지 않은 "음악적 잡음" 현상을 야기하는 이득 함수에서의 오류를 초래한다. 대안적으로, 잡음 신호의 소정의 통계적 속성을 가정함으로써 잡음 추정치가 획득될 수 있지만, 실제 환경의 잡음 통계는 이들 가정들로부터 벗어날 수 있다. 이득 함수의 정확도는 SNR 추정치에 크게 의존하기 때문에, 이것은, 정확한 잡음 통계가 없는 경우, SNR 추정은 스피치 추정에 대한 지식을 활용할 수 있다는 것을 의미한다.

본 발명은 잡음 모델을 구축하는 프로세스에서 골전도 센서를 이용하지 않는다. 따라서 잡음 모델의 구성은 골전도 센서로부터 도출된 VAD(Voice Activity Detector)를 요구하지 않는다. 이것은 마이크로폰에 대한 대체물로서 골전도 센서를 이용하는 다른 제안들과는 중요한 대조인데, 이러한 대안적 제안들에서는, 전형적으로 잡음 모델은 스피치 강화를 수행하기 위해 정확하게 모델링되어야하고, 따라서 골전도 센서는 그 모델을 도출하는데 있어서 중요하기 때문이다.

본 발명의 골전도 센서는 마이크로폰 스피치 엔벨로프에 대한 하나 이상의 조절 파라미터를 도출하기 위한 것이며, 고유하게 골전도 VAD가 없다. 앞에서 논의된 무선 이어버드의 본성은, 골전도 센서에 의해 도입된 복잡한 잡음 모델을 고려할 필요가 없다. 대조적으로, 이어버드에서 골전도 센서의 기저 가정은, 스피치를 나타내는 골전도 센서 신호가 사용자 스피치를 나타내는 비-2진 신호를 도출하기에 충분한 시간적 및 스펙트럼적 내용을 포함한다는 것이다. 따라서, 본 발명은, 이어버드 이용 사례에서 클린 스피치 추정치가 골전도 도출 잡음 추정치에 의존하지 않는다는 것을 인식한다. 사실상, 클린 스피치 추정치를 형성할 때 잡음 모델의 포함은 선택사항이지만, 어떤 경우에는 클린 스피치 추정치를 향상시킬 수 있다.

한 실시예(도 6)에서, 잡음있는 마이크로폰으로부터의 스피치 모델은 잡음 분산의 추정치를 요구하는 인과의 재귀적 스피치 추정기로 정교화될 수 있다. 이것은 전형적으로 최소-추적 또는 시간-재귀적 평균화 알고리즘이며 이러한 추정은 어떠한 특정한 스피치 검출도 없이 수행된다. 또한, 골전도 센서의 파워 스펙트럼은, 사용자 스피치의 선행물로서 취급되는, 그 외이도 진동의 표현에 기인한다. 이것은, 클린 스피치 마이크로폰 신호를 근사화하도록 변환할 필요가 없다. 이 경우 이것은 골전도 센서에서 조절된 클린 스피치 추정값, 즉,

이 아닌 골전도 스피치 추정값인

로서 취급된다. 일부 실시예에서,

는, 예를 들어 앞서 언급된 CRSE 프로세스에 의해 추가로 정교화될 수 있다. 따라서, 본 실시예는 클린 스피치 추정을 위한 선행물로서 골전도 센서 신호를 이용한다. 특히, 이들 실시예들은 골전도 대 클린 공기 전도 마이크로폰 변환을 도출하기 위해 오프라인 프로세스를 이용하지 않거나, 이들 실시예들은 결과적인 신호 등을 조건부 추정치로서 이용하지도 않는다. 본 발명의 일부 실시예는 일부 비 이상적인 것들에 대해 보정을 적용할 수 있지만, 중요하게는, 임의의 오프라인 프로세스로부터의 신호에 사전 정보를 추가할 필요는 없다. 본 발명은, 골전도 센서 신호가 이어버드 이용 사례로 인해 이전과 같이 충분하기 때문에 그렇게 하는 것이 가능하다는 것을 인식한다.

도 7은 SNR 추정치를 이용하는 혼합 인자들에 기초하고 마이크 및 가속도계(BC 센서)로부터의 선행적 SNR 추정치를 결합하는 수단을 제공하는 마이크-가속도계 혼합 접근법을 나타낸다. 이것은, SNR 추정치의 측면에서 최상의 스피치 추정치가 이용되고 있는 낮은 SNR 환경에서 특히 적합할 수 있다. 골전도 센서 신호로부터 도출된 클린 스피치 추정치 및 선행적 SNR 추정치들은, 그에 따라, 본 발명에 따른 골전도 센서 신호 제어식 스피치 추정 기술의 적용이다. 혼합은 VAD를 이용하지 않고 달성된다는 것을 도 7에서 주목해야 한다. 예를 들어, 혼합의 한 접근법에서 결합기(730)는, 잡음있는 마이크로폰(마이크) 및 골전도 센서(가속) 신호를, 각각의 선행적(apr) SNR 추정치로부터 도출된 혼합 인자(α 및 β)에 따라 다음과 같이 혼합하고,

그 다음, 이 혼합된 신호에 대해 2단계 잡음 감소가 수행된다.

이것은, VAD를 이용하여 잡음 추정치를 도출하고 후속해서 혼합비를 결정하는 것과는 대조적이다.

본 발명의 추가 실시예들은, SNR 추정치로부터의 잡음있는 신호들을 혼합하고 2단계 잡음 감소를 수행하는 것 대신에, 스피치 강화 블록들(710, 720)로부터의 스피치 추정치를 폐기함으로써 이 아이디어를 확장할 수 있다.

도 8은 본 발명의 또 다른 실시예에 따른 이어버드(120) 시스템 내의 프로세서(220)의 구성을 나타낸다. 설명되지 않는 도 8의 요소들은 도 3과 같다. 그러나, 도 8의 실시예에서, 스피치 추정/특성규정 모듈에 의해 출력된 스피치 추정치 출력은, 잡음 억제기뿐만 아니라, 예를 들어 이어버드(120) 또는 마스터 디바이스(110) 내에 있을 수 있고, 예를 들어, 자동 스피치 인식(ASR) 모듈을 포함하거나 음성-트리거형 모듈일 수 있는 다른 모듈들에 의한 이용을 위한 2차 출력 경로에 전달된다. 적절한 이득 함수의 설계는 잡음 억제 모델 내에서 이루어지며, 마이크로폰 신호의 조절된 스피치 추정치에 의존한다.

도 9는 본 발명에 따른 추가 실시예로서, 골전도 센서 신호로부터의 스피치 추정을 전화 이용 사례에 적용하는 것을 나타낸다.

본 발명의 실시예들은, 마이크로폰에 비해 및 관자놀이 장착형 뼈 센서 등에 비해서도 귀내 가속도계의 열악한 주파수 응답에도 불구하고, 스피치 추정을 위해 귀내 가속도계 신호를 이용하는 것이 가능할 뿐만 아니라, 귀내 가속도계 신호는, 다중-단계형 또는 계조형 방식으로 비정적 잡음 감소를 제어하는 등에 의해, 스피치 추정의 계조 또는 비-2진 제어에 이용될 수 있다는 것을 인식한다는 것에 주목한다. 더 상세하게, 이어버드 관성 센서들의 저역 통과 주파수 응답, 및 비교적 불량한 감도는, 외이도에서의 골전도 모델의 제한사항이다. 진동에 대한 골전도 센서는 전형적으로 자기형(magnetic type)이고 측두골(temporal bone) 또는 유돌골(mastoid bone) 등의 머리의 다른 부분들에 장착되며, 종종 강한 접촉을 유지하기 위해 머리띠 등의 스프링 힘을 이용한다. 그러나 이러한 장착 위치들 및 기술들은 오디오 응용을 위한 헤드셋과 다소 일치하지 않으며 선호하는 헤드셋 폼 팩터와 호환되지 않는다. 본 발명은, 이어버드의 관성 센서를 이용함에 있어서, 선호되는 헤드셋 폼 팩터에 부합하는데 있어서 유리하다.

본 실시예들에서의 스피치 스펙트럼 엔벨로프는, 마이크로폰 신호, 잡음 모델 및 골전도 신호의 볼록 조합(convex combination)이 아니다. 외이도에서의 스피치의 골전도 모델이 관찰가능한 주파수 범위를 제한하기 때문에, 본 발명의 실시예들 중 하나에서 이용되는 가속도계 신호의 스펙트럼적 본성을 고려할 때 이것은 실용적이지 않다. 신체의 다른 부분들에 기초한 골전도 모델은 1kHz를 초과하는 고주파 방사 모드를 활용할 수 있다. 따라서, 외이도에서의 스피치의 시간 주파수 모델을 추정하는 것은, 본 발명자들이 발견했던, 외이도 골전도 신호의 관찰가능한 주파수 범위가 전형적으로 1 kHz 미만이라는 것과는 상이한 문제이다. 그러나, 본 발명자들은 이러한 제한된 대역에서도 가속도계로부터 이용가능한 시간 및 스펙트럼 정보가 잡음 감소 프로세스에게 유용한 방식으로 통보할 수 있는 진정한 클린 스피치의 본성에 관한 정보를 추가한다는 것을 보여 주었다.

도 10은, 도 9의 실시예에 대한 객관적인 평균 여론 점수(MOS) 결과를 도시하며, 마이크로폰(210)으로부터의 선행적 스피치 엔벨로프가 골전도 센서(230) 스펙트럼 엔벨로프로부터 도출된 파라미터(들)로 조절될 때의 개선을 도시한다. 3Quest 방법론을 이용하여 스피치 MOS(S-MOS) 및 잡음 MOS(N-MOS) 값을 획득하기 위해 다수의 상이한 정적 및 비정적 잡음 유형들에서 측정이 수행된다.

결합된 추정치들에서의 핸드셋 골전도 및 마이크로폰 스펙트럼 추정치 등의 다른 응용들에서, 핸드셋 이용 사례가 센서 신호 품질을 매우 열악하게 만들 경우 시간과 주파수 기여도가 0으로 떨어지게 할 수 있지만, 본 실시예들의 무선 이어버드 응용에서는 그렇지 않다. 대조적으로, 이어버드 폼 팩터에서의 마이크로폰(210) 및 가속도계(230)의 선행적 스피치 추정치는 연속적인 방식으로 결합될 수 있다. 예를 들어, 이어버드(120)가 사용자에 의해 착용되는 경우, 가속도계 센서 모델은 항상 조절 파라미터 설계 프로세스에 사용자 스피치를 나타내는 신호를 제공할 것이다. 따라서, 마이크로폰 스피치 추정치는 이 파라미터에 의해 지속적으로 조절된다.

설명된 실시예들은 스피치 추정/특성규정(320) 모듈 및 잡음 억제기 모듈(310)이 이어버드(120) 내에 상주하도록 제공하지만, 대안적인 실시예들은 그 대신에 또는 추가로 마스터 디바이스(110)에 의해 제공되는 이러한 기능을 제공할 수 있다. 따라서 이러한 실시예는 이어버드(120, 130)에 비해 마스터 디바이스(110)의 상당히 더 큰 처리 능력 및 전력 예산을 활용할 수 있다.

이어버드(120)는, 추가적인 디지털 신호 프로세서(들), 플래시 메모리, 마이크로제어기, Bluetooth 무선 칩 또는 균등물 등의 도시되지 않은 다른 요소들을 더 포함할 수 있다.

설명된 실시예들은 골 전도된 신호 센서로서 가속도계(230)를 활용한다. 그러나, 대안적인 실시예는 하나 이상의 귀내 마이크로폰을 추가로 또는 대안적으로 제공함으로써 골 전도된 신호를 감지할 수 있다. 이러한 귀내 마이크로폰은, 가속도계(230)와는 달리, 외이도 내에서 반향하는 골 전도된 신호의 음향 반향을 수신하고, 외부 잡음의 누출을 이어버드를 지나 외이도 내로 수신할 것이다. 그러나, 본 발명자들은, 이어버드가 이러한 외부 잡음의 상당한 폐색을 제공하고, 또한 채용시 능동 잡음 제거(ANC)가 외이도 내부에 존재하는 골 전도된 신호의 레벨을 크게 감소시키지 않으면서 외이도 내부의 외부 잡음의 레벨을 더 감소시켜, 본 발명에 따른 스피치 추정을 보조하도록 귀내 마이크로폰이 매우 유용한 골 전도된 신호를 실제로 캡처할 수 있도록 할 수 있다는 점을 인식하고 있다. 추가로, 이러한 귀내 마이크로폰은 하드웨어 레벨에서 외부 마이크로폰(210)과 정합될 수 있고, 가속도계보다 더 넓은 스펙트럼을 캡처할 수 있으므로, 하나 이상의 귀내 마이크로폰의 이용은 가속도계(들)의 이용에 상당히 상이한 구현 과제들을 제시할 수 있다.

청구된 전자적 기능은, 인쇄 회로 기판 상에 장착된 개별 컴포넌트들, 또는 집적 회로들의 조합, 또는 주문형 집적 회로(ASIC)에 의해 구현될 수 있다. 무선 통신은, 전자기파 또는 음향파가 유선을 통하지 않고 대기 또는 자유 공간을 통해 신호를 운반하는 통신, 모니터링 또는 제어 시스템을 지칭하는 것으로 이해되어야 한다.

도면들에 걸쳐 대응하는 참조 문자들은 대응하는 컴포넌트들을 나타낸다.

본 기술분야의 통상의 기술자라면, 광범위하게 설명된 본 발명의 사상 또는 범위를 벗어나지 않으면서 특정한 실시예들에 도시된 본 발명에 대해 수 많은 변형 및/또는 수정이 이루어질 수 있다는 것을 이해할 것이다. 따라서, 본 실시예들은 모든 면에서 예시적인 것일 뿐이고 제한적인 것은 아니라고 간주되어야 한다.

Claims

이어버드 스피치 추정을 위한 신호 처리 디바이스로서,
이어버드의 마이크로폰으로부터 마이크로폰 신호를 수신하기 위한 적어도 하나의 입력;
이어버드의 골전도 센서(bone conduction sensor)로부터 골전도 센서 신호를 수신하기 위한 적어도 하나의 입력; 및
상기 골전도 센서 신호로부터 상기 이어버드 사용자의 스피치의 적어도 하나의 특성 - 상기 적어도 하나의 특성은 비-2진 변수(non-binary variable)임 - 을 결정하도록 구성되고, 스피치의 상기 적어도 하나의 특성으로부터 적어도 하나의 신호 조절 파라미터를 도출하도록 추가로 구성되고, 상기 마이크로폰 신호를 조절하기 위해 상기 적어도 하나의 신호 조절 파라미터를 이용하도록 추가로 구성되는 프로세서를 포함하고,
상기 골전도 센서 신호로부터 상기 프로세서에 의해 결정된 스피치의 상기 비-2진 변수 특성은 상기 골전도 센서 신호의 신호 대 잡음비인 신호 처리 디바이스.
제1항에 있어서, 상기 이어버드는 무선 이어버드인 신호 처리 디바이스.
제1항 또는 제2항에 있어서, 상기 골전도 센서 신호로부터 상기 프로세서에 의해 결정된 스피치의 상기 비-2진 변수 특성은 상기 골전도 센서 신호로부터 도출된 스피치 추정치인 신호 처리 디바이스.
제3항에 있어서, 상기 프로세서는 상기 마이크로폰 신호의 조절이 상기 골전도 센서 신호로부터 도출된 상기 스피치 추정치에 의해 제어되는 비정적 잡음 감소(non-stationary noise reduction)를 포함하도록 구성되는 신호 처리 디바이스.
제4항에 있어서, 비정적 잡음 감소는 상기 마이크로폰 신호로부터 도출된 스피치 추정치에 의해 추가로 제어되는 신호 처리 디바이스.
제1항 또는 제2항에 있어서, 상기 프로세서는 상기 골전도 센서 신호로부터 결정된 스피치의 상기 비-2진 변수 특성이 상기 골전도 센서 신호의 스피치 레벨이도록 구성되는 신호 처리 디바이스.
제1항 또는 제2항에 있어서, 상기 프로세서는 상기 골전도 센서 신호로부터 결정된 스피치의 상기 비-2진 변수 특성이 상기 골전도 센서 신호의 관찰된 스펙트럼이도록 구성되는 신호 처리 디바이스.
제7항에 있어서, 상기 프로세서는 상기 골전도 센서 신호로부터 결정된 스피치의 상기 비-2진 변수 특성이 상기 골전도 센서 신호의 스펙트럼 엔벨로프의 파라미터 표현이도록 구성되는 신호 처리 디바이스.
제1항 또는 제2항에 있어서, 상기 프로세서는 음성 활동에 관계없이 상기 마이크로폰으로부터의 출력 신호의 조절이 발생하도록 구성되는 신호 처리 디바이스.
제1항 또는 제2항에 있어서, 상기 프로세서는 상기 적어도 하나의 신호 조절 파라미터가 상기 골전도 센서 신호로부터 도출된 대역-특유의 이득들을 포함하도록 구성되고, 상기 마이크로폰 신호의 조절은 상기 대역-특유의 이득들을 상기 마이크로폰 신호에 적용하는 것을 포함하는 신호 처리 디바이스.
제1항 또는 제2항에 있어서, 상기 프로세서는 상기 마이크로폰 신호의 조절이, 상기 골전도 센서 신호가 스피치 추정 프로세스에 선행하여 작용하는 Kalman 필터 프로세스를 적용하는 것을 포함하도록 구성되는 신호 처리 디바이스.
제1항 또는 제2항에 있어서, 상기 프로세서는, 상기 골전도 센서 신호 이외의 것이 스피치의 상기 적어도 하나의 특성을 결정하기 위한 기준이 되고, 상기 골전도 센서 신호의 어떠한 성분도 상기 이어버드의 신호 출력에 전달되지 않도록 구성되는 신호 처리 디바이스.
제1항 또는 제2항에 있어서, 상기 프로세서는 상기 골전도 센서 신호로부터 스피치의 상기 비-2진 변수 특성이 결정되기 전에, 관찰된 조건에 대해 상기 골전도 센서 신호가 보정되도록 구성되는 신호 처리 디바이스.
제1항 또는 제2항에 있어서, 상기 프로세서는 상기 마이크로폰 신호의 조절이 상기 골전도 센서 신호로부터 결정된 스피치의 상기 비-2진 변수 특성에만 기초하도록 구성되는 신호 처리 디바이스.
제1항 또는 제2항에 있어서, 상기 골전도 센서는 가속도계를 포함하고, 상기 가속도계는 이용시 사용자의 외이도(ear canal) 또는 외이(concha)의 표면에 결합되어 사용자의 스피치로부터 골 전도된 신호들을 검출하는 신호 처리 디바이스.
제1항 또는 제2항에 있어서, 상기 골전도 센서는 이용중 사용자 스피치의 골전도의 결과로서 상기 사용자의 외이도 내에서 발생하는 음향 사운드들을 검출하도록 위치한 귀내 마이크로폰을 포함하는 신호 처리 디바이스.
제1항 또는 제2항에 있어서, 상기 프로세서는 상기 골전도 센서 신호에 적어도 하나의 정합 필터(matched filter)를 적용하도록 구성되고, 상기 정합 필터는 상기 골전도 센서 신호 내의 사용자의 스피치를 상기 마이크로폰 신호 내의 사용자의 스피치와 정합시키도록 구성되는 신호 처리 디바이스.
이어버드 마이크로폰 신호를 조절하는 방법으로서,
이어버드의 골전도 센서로부터 골전도 센서 신호를 수신하는 단계;
상기 이어버드의 마이크로폰으로부터 마이크로폰 신호를 수신하는 단계;
상기 골전도 센서 신호로부터 상기 이어버드 사용자의 스피치의 적어도 하나의 특성 - 상기 적어도 하나의 특성은 비-2진 변수임 - 을 결정하는 단계;
스피치의 상기 적어도 하나의 특성으로부터 적어도 하나의 신호 조절 파라미터를 도출하는 단계; 및
상기 마이크로폰으로부터의 출력 신호를 조절하기 위해 상기 적어도 하나의 신호 조절 파라미터를 이용하는 단계를 포함하고,
상기 골전도 센서 신호로부터 결정된 스피치의 상기 비-2진 변수 특성은 상기 골전도 센서 신호의 신호 대 잡음비인 방법.
명령어들을 포함하는, 이어버드 마이크로폰 신호를 조절하기 위한 비일시적인 컴퓨터 판독가능한 매체로서, 상기 명령어들은 하나 이상의 프로세서에 의해 실행될 때:
이어버드의 골전도 센서로부터 골전도 센서 신호를 수신하는 단계;
상기 이어버드의 마이크로폰으로부터 마이크로폰 신호를 수신하는 단계;
상기 골전도 센서 신호로부터 상기 이어버드 사용자의 스피치의 적어도 하나의 특성 - 상기 적어도 하나의 특성은 비-2진 변수임 - 을 결정하는 단계;
스피치의 상기 적어도 하나의 특성으로부터 적어도 하나의 신호 조절 파라미터를 도출하는 단계; 및
상기 마이크로폰으로부터의 출력 신호를 조절하기 위해 상기 적어도 하나의 신호 조절 파라미터를 이용하는 단계를 수행하게 하고,
상기 골전도 센서 신호로부터 상기 프로세서에 의해 결정된 스피치의 상기 비-2진 변수 특성은 상기 골전도 센서 신호의 신호 대 잡음비인 비일시적인 컴퓨터 판독가능한 매체.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제