KR100804881B1

KR100804881B1 - 음성이 포함된 오디오 신호들의 양해도 개선용 회로장치 및 처리방법

Info

Publication number: KR100804881B1
Application number: KR1020050094308A
Authority: KR
Inventors: 비에르탈러 마티아스; 핍스터 플로리안; 루에킹 디에테르; 뮐러 스테판
Original assignee: 마이크로나스 게엠베하
Priority date: 2004-10-08
Filing date: 2005-10-07
Publication date: 2008-02-20
Also published as: DE102004049347A1; ATE390684T1; EP1647972A3; DE502005003436D1; EP1647972A2; US8005672B2; US20060080089A1; EP1647972B1; KR20060052101A; JP2006323336A

Abstract

본 발명은 오디오 신호(i)를 삽입하기 위해 입력을 구비한, 될 수 있는 한 음성(px)을 포함하는 오디오 신호들(i)의 양해도(諒解度; intelligibility)를 개선하기 위한 회로 장치와 관련되어 있다. 유익하게는, 본 회로는 삽입되는 오디오 신호 내에서 음성을 탐지하고 음성 처리 장치(SV)를 제어하기 위해 제어 신호(s)를 제공하기 위한 음성 탐지기(SD) 및/또는 오디오 신호(i)를 처리하기 위한 음성 처리 방법으로 특징 지워 진다. 따라서, 될 수 있는 한 음성을 포함하는 프로세싱 오디오 신호들(i)을 위한 방법은 오디오 신호(i) 내에서 음성 또는 음성 성분들(px)이 탐지되는 것에서 유익하고, 제어 신호(s)는 탐지의 결과에 의존하여, 음성 처리장치(SV) 및/또는 개선된 음성을 위한 음성 처리 방법을 위해 생성되고 제공된다.

음성, 오디오 신호, 회로 장치, 음성 탐지, 음성 개선, 양해도(諒解度; intelligibility)

Description

음성이 포함된 오디오 신호들의 양해도 개선용 회로장치 및 처리방법{Circuit Arrangement and Method for Audio Signals Containing Speech}

도 1은 음성의 탐지를 위한 오디오 신호의 처리 방법 단계들 또는 회로 장치의 구성부품들을 개략적으로 도시한 것이다;

도 2는 서로 구별되는 신호 성분들의 음성 성분들에 상관처리를 적용한 제 1 실시예에 따른 회로 장치를 예시적으로 도시한 것이다;

도 3은 음성 주파수 범위 내의 에너지 판단을 설명하기 위한 회로 장치를 예시적으로 도시한 것이다;

도 4는 오디오 신호의 음성 개선을 실행하기 이전에 매트릭스 연산을 나타내는 회로 장치를 예시적으로 도시한 것이다; 그리고

도 5는 임계값을 정하기 위한 기준을 설명하는 도면이다.

본 발명은 청구항 1의 전문의 특징을 구비하는 것으로서, 음성을 포함하는 오디오 신호의 양해도(諒解度; intelligibility)의 개선에 관한 회로 장치, 및 음성을 포함하는 오디오 신호를 처리하기 위한 방법에 관한 것이다.

DE 101 24 699 C1에서는 음성을 포함하는 오디오 신호들의 양해도를 개선하기 위한 회로 장치가 개시되어 있으며, 여기에서는 오디오 신호의 주파수 및/또는 진폭 성분들이 일부 변수들에 따라 변경된다. 처리부 이후에 오디오 신호의 진폭이 처리부 이전의 오디오 신호의 진폭과 동등하거나 비례하도록 하이-패스 필터의 하나의 경계 주파수가 조정되면서, 오디오 신호는 처리부에서 소정의 증폭율만큼 증폭되어 하이-패스 필터를 통과한다. 이 회로 장치는, 비교적 음성 성분의 양해도에 거의 기여하지 않으면서 가장 큰 에너지를 차지하는 음성 신호의 지상파를 약화시키면서, 이와 동시에 오디오 신호의 나머지 신호 스펙트럼을 상당히 증폭시킨다. 게다가, 저 주파수에서 큰 진폭을 가진 모음들의 진폭은 소위 "백워드 매스킹(backward masking)"을 감소시키기 위해, 고 주파수에서 낮은 진폭을 가진 자음의 천이 영역 내의 모음으로 낮아질 수 있다. 마지막으로, 고-주파 성분들이 증폭되면서, 이 증폭된 정도만큼 저-주파 지상파가 감소되기 때문에, 오디오 신호의 진폭 또는 에너지는 변하지 않게 된다.

한편, US 5,553,151은 "포워드 매스킹"을 설명하고 있다. 여기서, 약 자음들은 시간상 선행하는 강 모음들과 오버랩된다. 약 10 msec의 "어택 타임" 과 약 75에서 150 msec의 "릴리이즈 타임"을 갖는 비교적 빠른 압축기가 제안되었다.

US 5,479,560에서는, 오디오 신호를 수 개의 주파수 대역으로 나누고, 큰 에너지를 가진 그들 주파수 대역을 상대적으로 강하게 증폭하며, 다른 것들을 감소시키는 방법이 알려져 있다. 이것은 음성이 음소들의 연속으로 구성되어 있다는 것에 착안하여 제안되었다. 음소들은 복수 개의 주파수들로 구성된다. 이들은 특별히 입 과 목의 공진 주파수들의 영역에서 증폭된다. 그러한 스펙트럼의 최고치 값을 가진 주파수 대역은 포먼트(formant)로 알려져 있다. 포먼트들은 특히 음소 즉, 음성의 인식에 있어서 중요하다. 음성의 양해도를 개선하기 위한 하나의 원리는 오디오 신호의 주파수 스펙트럼의 최고치 값 또는 포먼트들을 증폭하고, 그 사이에 오는 에러들을 약화시키는 것이다. 성인에 있어서, 음성의 기본 주파수는 약 60에서 250Hz 이다. 지정된 첫 번째 4 개의 포먼트들은 500 Hz, 1500 Hz, 2500 Hz, 그리고 3500 Hz이다.

이와 같은 회로 장치 및 공정은 오디오 신호에 포함된 음성을 오디오 신호에 포함된 다른 성분들 보다 더 명확하게 인식하도록 만든다. 그러나, 이와 동시에, 음성이 포함되지 않는 신호 성분들 또한 변경되거나 왜곡된다. 상기 방법 및 회로 장치의 또 다른 단점은 여기에서는 단단하게 고정된 음성 성분들, 주파수 성분들 등을 개선하거나 처리한다는 것이다. 그러므로 음성을 포함하지 않는 신호 성분들은 오디오 신호가 음성 또는 음성 성분들을 포함하지 않을 때 또한 때때로 변경되거나 왜곡된다.

본 발명의 목적은 음성을 포함한 오디오 신호 처리용 회로 장치 또는 방법을 개선하기 위한 것이다.

따라서, 본 목적은, 음성이 포함될 여지가 있는 오디오 신호의 양해도를 청구항 1의 특징들을 구비함으로써 개선시키는 회로 장치, 및 청구항 11의 특징들을 구비함으로써 음성이 포함되는 오디오 신호를 처리하는 방법에 의해 달성된다.

따라서, 음성이 포함될 수 있는 오디오 신호를 받아들이는 하나의 입력을 구비한 회로 장치의 장점은 이와 같이 음성이 포함된 오디오 신호들의 양해도를 개선시키는데에 있다. 또한, 본 회로 장치의 장점은 입력받은 오디오 신호 내에서 음성을 탐지하고, 오디오 신호를 처리하기 위한 음성 처리 장치 및/또는 음성 처리 방법을 제어하기 위한 제어 신호를 공급하는 음성 탐지기에 있다.

음성이 포함된 오디오 신호를 처리하는 본 방법의 장점은, 오디오 신호에 포함된 음성 또는 음성 성분이 탐지되고, 탐지의 결과에 의존하여, 음성을 개선시키는 음성 처리 장치 및/또는 음성 처리 방법을 위한 제어 신호가 생성되어 제공되는데에 있다.

그러므로, 본 발명의 회로 장치와 방법은, 음성이 포함된 오디오 신호들의 양해도를 개선하기 위한 실제의 신호처리에서의 초기 단계로서 구현될 수 있다. 따라서, 오디오 신호내에서 음성 또는 음성 성분들까지 포함되어 있는지의 여부를 판별하기 위해, 우선, 수신되어 입력받은 오디오 신호가 이를 위해 조사된다. 음성 탐지의 결과에 의존하여, 제어 신호로서 실제 음성 처리 장치 또는 실제 음성 처리 방법에 의해 사용되는 제어 신호가 출력된다. 이로 인하여, 오디오 신호 내의 다른 신호 성분들과 연관되어 있는 오디오 신호 내의 음성 성분들을 개선하기 위한 음성 처리 기간 동안에서는, 오직 음성 또는 음성 성분들이 실제로 존재하는 때에만 오디오 신호의 처리 또는 변경이 이루어진다.

따라서, 본 회로 장치 또는 방법은 실제 음성 개선을 위한 트리거 신호로서 사용되는 제어 신호를 준비하고 출력한다. 이러한 방식으로, 선행 오디오 신호 등 의 시간-지연 오디오 신호의 탐지 또는 분석에 의하여 음성개선이 실현될 수 있다.

여기서, 제어 신호를 생성하여 제공하는 회로 장치는 독립 구성부으로서 제공될 수 있지만, 이것은 또한 단일 구성부으로서 음성 처리 장치 또는 음성 개선 장치와 함께 일체화될 수 있다. 특히, 음성의 탐지를 위한 회로 장치와 오디오 신호에서 음성 성분들을 개선하기 위한 음성 처리 장치는 집적회로의 일부일 수 있다. 따라서, 음성의 탐지를 위한 방법과 오디오 신호에서 음성 성분들을 개선하기 위한 음성 처리 방법은 또한 서로 분리되어 수행될 수 있다. 그러나, 회로 장치의 기술구성부들 또는 연산 장치 내의 대응 실행 알고리즘에 의해, 이들이 서로 연합되어 수행되는 것이 특히 바람직하다.

본 발명의 종속항들의 장점은 다음과 같은 구성을 갖는데에 있다.

본 회로 장치내의 음성 탐지기는, 오디오 신호 내에서 음성 성분들을 탐지하도록 구성되거나 또는 제어되는 것이 특히 바람직하다.

본 회로 장치내의 음성 탐지기는, 음성 성분 탐지범위를 임계값과 비교하고, 비교의 결과에 의존하여 제어 신호를 출력하는 임계값 결정 장치를 구비하는 것이 특히 바람직하다.

본 회로 장치내의 음성 탐지기는, 탐지되는 음성 성분들의 범위 및/또는 탐지되는 음성 성분들의 주파수 범위와 관련하여, 탐지에 대한 가변 제어를 위한 최소한 하나의 변수를 입력받는 제어 입력을 갖는 것이 특히 바람직하다.

본 회로 장치내의 음성 탐지기는, 오디오 신호 또는 오디오 신호의 성분들의 상호 상관(correlation) 또는 자기 상관기능을 수행하기 위한 상관 장치를 갖는 것 이 특히 바람직하다.

본 회로 장치내의 음성 탐지기는, 수 개의 음성 성분으로 구성되는 다중 성분 오디오 신호들, 특히 스테레오 오디오 신호 또는 멀티-채널 오디오 신호를 처리하기 위해 구성되고, 서로 간에 성분들의 비교 또는 처리에 의한 음성 탐지를 하는 처리 장치로서 구성되거나 제어되는 것이 특히 바람직하다.

본 회로 장치내의 음성 탐지기는, 서로 다른 성분들의 공통 신호 성분들의 방향을 결정하기 위한 방향 결정 장치를 갖는 것이 특히 바람직하다.

본 회로 장치내의 음성 탐지기는, 오디오 신호내의 다른 신호 에너지와 관련하여 음성 주파수 범위내의 신호 에너지를 판단하는 주파수-에너지 검출기를 갖는 것이 특히 바람직하다.

본 회로 장치내의 음성 탐지기는, 주파수-에너지 탐지기와 상관 장치, 비교 장치, 또는 방향 결정 장치 양쪽의 결과에 의존하여 제어 신호를 출력하도록 구성되거나 제어되는 것이 특히 바람직하다.

본 회로 장치내의 제어신호는, 오디오 신호의 음성 내용에 의존하여 음성 개선 장치 및/또는 음성 개선 방법을 가동하거나 또는 비가동하도록 구성되거나 제어되는 것이 특히 바람직하다.

본 방법의 제어신호는, 음성 성분들의 탐지범위에 의존하여 생성되는 것이 특히 바람직하다.

본 방법의 제어신호는, 음성 성분의 탐지범위가 임계값과 비교되는 것이 특히 바람직하다.

본 방법의 탐지는, 탐지되는 음성 성분들의 범위와 관련되거나 또는 탐지되는 음성 성분의 주파수 범위와 관련되어 수행되고, 가변 변수들에 의해 조절되는 것이 특히 바람직하다.

본 방법에서는, 오디오 신호 또는 오디오 신호의 성분의 상호 상관 또는 자기상관이 수행되는 것이 특히 바람직하다.

본 방법에서는, 수 개의 성분들을 구비한 다중성분 오디오 신호의 성분들이 음성의 탐지를 위해 서로 비교되거나 서로 처리되는 것이 특히 바람직하며, 여기서, "성분"은 다른 거리와 방향으로부터의 신호 성분들 및/또는 다른 채널들의 신호들을 의미한다.

본 방법에서는, 오디오 신호 성분들이 특히 공통 신호 성분들의 방향을 결정하기 위해, 다른 오디오 신호 성분들 내에서 공통 음성 성분들과 관련하여 비교되거나 처리되는 것이 특히 바람직하다. 예를 들면, 스테레오 신호의 좌측과 우측채널에서의 도착 시간들의 상이함과, 특정 주파수들의 특정 감쇄때문에, 음성 성분의 거리와 방향을 판단할 수 있다. 이러한 방식으로, 마이크로폰에 가까이 서있는 사람으로부터 나온 것으로 인식되는 음성 성분들에만 특히 음성개선이 적용될 수 있다. 멀리 있는 사람들로부터의 신호 성분들 또는 음성 성분들은 무시되고, 가까운 사람이 실제 말할 때에만 음성 개선이 가동된다.

본 방법에서는, 오디오 신호의 에너지가 오디오 신호의 다른 신호 에너지와 관련하여 음성주파수 범위 내에서 판단되는 것이 특히 바람직하다. 그러므로, 이것은 전형적인 대화체 음성인 주파수 성분들의 에너지에 연동된다. 선택되는 오디오 주파수 범위를 위한 기준으로서, 예를 들면, 남자, 여자 또는 아이의 음성에 대한 개개별 조율 이외에도, 대응 에너지의 비교가 다른 주파수들을 갖는 오디오 신호의 다른 신호 성분들의 에너지 또는 전체 오디오 신호 성분의 에너지 내용의 측면에서 실시되는 것이 바람직하다. 구체적으로, 수신자의 관심대상이 아닌, 멀리 있는 사람들로부터의 음성이 인식되는 경우, 그리고, 근처에 대화를 나누는 어떠한 사람도 없는 경우에서는 음성 개선 동작이 비가동될 수 있다.

본 방법에서는, 음성 개선 장치 및/또는 음성 개선 방법을 가동 또는 비가동시키는 제어 신호가 제공되는 것이 특히 바람직하다.

본 회로 장치 및/또는 방법에서는, FIR(유한 임펄스 반응) 또는 IIR(무한 임펄스 반응) 필터에 의해 주파수 반응이 결정되는 것이 특히 바람직하다.

본 회로 장치 및/또는 방법에서는, 오디오 신호의 신호 성분들이 매트릭스에 의해 분리되는 것이 특히 바람직하다.

본 회로 장치 및/또는 방법에서는, 음성 성분에 의존하는 함수를 통해 매트릭스의 매트릭스 계수가 결정되는 것이 특히 바람직하다. 여기서, 함수는 선형 그리고 상수이다. 양자 택일 또는 추가로서, 그 함수는 자기 이력 현상을 갖는다.

오디오 신호의 음성 성분들을 갖는 신호 성분들은 다양한 기준에 관련하여 분석되고 탐지될 수 있다. 예를 들면, 음성이 음성 성분으로서 탐지되는 최소의 기간을 제외하고, 신호 성분으로서 탐지할 수 있는 음성의 주파수 및/또는 탐지된 음성의 음성 소스의 방향을 또한 사용할 수 있다. 신호 성분들과 음성 성분들은 그러므로 일반적으로 그리고 제한되지 않게 추론된다.

이하에서는, 도면들을 참조하여 본 발명을 더 상세히 설명한다.

도 1은 만일 오디오 신호(i)에서 그런 것이 탐지되면, 음성 또는 음성 성분들(px)의 선택적 연속적인 또는 병렬적인 음성 개선을 위한 오디오 신호(i)에서 음성 그리고/또는 음성 성분들(px)을 탐지하기 위한 방법의 진행을 도시적으로 도시한 것이다. 오디오 신호(i)는 될 수 있는 한 음성 또는 음성 성분들(px)을 포함하는 오디오 신호들(i)의 양해도를 개선하기 위한 회로 장치의 입력(I)을 통해 들어간다. 오디오 신호(i)는 적용에 따라서, 단일-채널 단일 신호일 수 있다. 그러나, 예를 들면, 오른쪽 그리고 왼쪽의 두 개의 리모트 소스들뿐만 아니라, 오른쪽, 왼쪽 그리고 가운데의 오디오 신호 성분들을 위한 현재의 표준 5 개 성분들을 구비한 스테레오 오디오 신호 소스 등, 즉, 스테레오 오디오 신호, 추가적인 중앙의 성분을 가진 3D 스테레오 신호 또는 서라운드 오디오 신호의 멀티콤포넌트 오디오 신호들(i)이 바람직하다.

오디오 신호(i)는 음성 탐지기(SD)를 구성하는 첫 번째 구조적 또는 논리적 성분에 수용된다. 음성 탐지기(SD)는 음성 또는 음성 성분(px)이 오디오 신호(i)에 포함되는지 여부를 조사한다. 바람직한 실시예들에 따라서, 탐지된 음성 또는 음성 성분들(px)이 상응하게 지정된 임계값(v)보다 큰지 여부를 결정한다. 선택적으로, 탐지 변수들, 그리고 특히 임계값(v)이 필요하게 채택될 수 있다. 이 관점에서, 묘사된 장치는 임계값(v)을 입력하기 위한 입력(Ⅳ)을 갖는다.

만일 탐지가 오디오 신호(i) 내에 충분한 음성 성분(px)이 포함된 것으로 밝 혀내면, 제어 신호는 예를 들면, 값 0으로 설정될 것이다. 제어 신호(s)는 음성 처리 장치 또는 영상 처리 방법에 의해서 그 이상의 사용을 위해서 음성 탐지기(SD)로부터 출력된다.

만일 제어 신호(s)가 음성 성분(px)을 신호하면, 즉, 현재의 경우에서, 만일 s=0이면, 음성 또는 음성 성분들(px)을 개선하기 위한 음성 처리가 구동된다. 현재 음성 처리 내에 들어간 음성 신호(i)는 친근한 기술들 또는 그 자체로 알려진 회로 장치에 의해 개선될 것이다. 오디오 신호(o)는 출력(O)에 따라서 출력될 것이다.

만일 충분한 음성 성분(px)이 탐지 단계에서 탐지되지 않으면,즉, 만일 s=1이면, 음성 처리(SV)로 들어간 오디오 신호(i)는 홀로 남는다,즉, 오디오 신호(o)로서 변하지 않고 출력한다.

만일 시간 지연이 현재 입력된 오디오 신호(i)에 비교되어 음성 처리를 입력하는 제어 신호(s) 내에서 음성 탐지에 의해 발생하면, 선택으로서 음성 탐지를 위한 시간 지연에 상응하여 회로 장치 또는 방법으로 입력되는 오디오 신호(i) 내의 지연을 생성할 수 있다.

그러므로, 회로 장치 또는 방법 또는 알고리즘은 실제로 음성을 포함하거나 실제로 오디오 신호 내에서 특별한 음성 성분을 포함하는 오디오 신호의 부분들에만 음성 개선을 적용하는 것을 가능하게 한다. 그러므로, 음성 탐지는 나머지 신호로부터 분리된 음성을 탐지한다.

실제에서는, 음성은 오디오 신호의 다른 신호 성분들로부터 정확하게 수학적으로 분리될 수 없다. 그러므로, 목적은 최고의 가능한 평가값을 공급하는 것이다. 만일 연속적으로 개선된 실시예들의 알고리즘들 또는 회로 장치들이 다른 상응하는 신호 성분들 때문에 에러를 초래하면, 출력 오디오 신호(i)의 유익한 개선에도 불구 하고 초기의 시도들에 의해서 성취될 것이다. 편리하게, 오디오 신호(i)가 음성 탐지기(SD) 내에서 잘못된 탐지에 의해 너무 많이 왜곡되지 않은 것을 확인할 수 있다.

도 2는 음성 탐지기(SD)의 제 1 실시예를 도시한 것이다. 입력은 각각 오디오 신호 성분 또는 오디오 신호 채널(L', R')을 위한 스테레오 오디오 신호의 두 개의 입력들로 구성된다. 두 개의 오디오 신호 성분들(R', L')은 대역 제한을 위해 대역 통과 필터(BP)에 수용된다. 두 개의 대역 통과 필터들(BP)의 출력 신호들은 상호 상관관계를 수행하기 위해 상호관련 장치(CR)에 수용된다. 대역 통과 필터들(BP)로부터 출력된 각각의 두 개의 신호들은 멀티플라이어(M), 즉, 스퀘어드(squared) 내에서 그 자체로 곱해지고, 그리고 나서 부가 유닛(A)으로 수용된다. 부가 이후에, 곱하기는 증폭을 감소시키기 위해, 인자 0.5와 함께 다른 멀티플라이어(M*) 내에서 선택적으로 일어난다. 될 수 있는 한 곱해진 부가 값들의 출력 신호(i)는 제 1 또는 제 2 로우-패스 필터(TP)에 수용된다.

게다가, 두 개의 대역 통과 필터들(BP)의 각각의 출력 신호들은 특별히 다른 멀티플라이어(M)를 사용하여, 상관관계를 수행하기 위해 그 자신의 회로에 수용된다. 이것에서 출력된 상관관계 신호(L, *R')은 제 2 로우-패스 필터(TP)에 수용된다.

제 1 로우-패스 필터(TP)와 제 2 로우-패스 필터(TP)의 출력 신호들 (b), (a)는 제 2 로우-패스 필터(TP)의 출력 신호(a)에 의해 제 1 로우-패스 필터(TP)의 출력 신호(b)를 나누기 위해 디비젼 유닛(DIV)에 수용된다. 디비젼 유닛(DIV)에 의한 디비젼의 결과는 제어 신호 또는 제어 신호(s)의 프리커서(precursor)(D1)로서 공급된다.

그러한 회로 장치 또는 상응하는 처리 방법과 함께, 상호 상관관계가 수행된다. 오디오 신호(i)로서 표준 스테레오 오디오 신호(L', R)는 일반적으로 수개의 오디오 신호 성분들(R, L, C, S)로 구성된다. 멀티-채널 오디오 신호의 경우에, 이들 성분들은 분리되어 또한 공급될 수 있다.

스테레오 오디오 신호(L', R')의 경우에 있어서, 두 개의 오디오 신호 채널들(L', R')은

a: L' = L + C + S 그리고

b: R' = R + C - S

로 나타낼 수 있다. 여기서, L은 왼쪽 신호 성분, C는 정면으로부터 도착한 중앙 신호 성분, S는 서라운드 신호 성분, 즉, 배후로부터의 신호, 그리고 R은 오른쪽 신호 성분을 나타낸다.

음성 또는 음성 성분들(px)은 주로 중앙 채널 또는 중앙 성분(C)에 위치한다. 이러한 환경은 오디오 신호(i)의 나머지 신호 내용으로부터 음성 또는 음성 성분들(px)의 성분을 탐지하기 위해 사용될 수 있다. 오디오 신호(i)의 나머지 신호 성분들에 관련된 억제된 음성 또는 억제된 음성 성분(px)은

px = 2*RMS(C) / ((RMS/L') + RMS(R'))

에 따라 결정할 수 있다. 여기서 RMS는 시간-평균된 증폭이다.

상호 상관 관계에 의해, 중앙 성분(C)의 몫을

L'*R' = 2*L*R + L*C + R*C - L*S + R*S + C*C - S*S

에 의해 결정할 수 있다.

시간 평균에서, 모든 상호관련되지 않은 프라덕트들(products)은 DC-자유 신호들, 즉, 신호 성분들을 위해 직류 전류 전압 몫이 없이 0 이 된다. 그러므로, 음성 탐지기(SD)에 의해 출력된 신호(D1)를 위한 기준은:

D1 = 2*TP(L'*R')/(L'*L' + R'*R') = 2*TP(C*C-S*S)/TP(L'*L' + R'*R')

이 될 수 있다.

그러므로, 만일 오디오 신호(i)가 중앙 성분(C) 만으로 구성되어 있으면, 제어 신호(s)의 프리커서로서 또는 직접 제어 신호(s)로서 사용될 수 있는 출력 신호(D1)를 위한 값으로서 D1 = 1을 갖는다. 만일 오디오 신호(i)가 상호관련되지 않은 오른쪽과 왼쪽 신호 성분들(L, R)만으로 구성되어 있으면, D1 = 0을 갖는다. 만일 오디오 신호(i)가 서라운드 성분만으로 구성되어 있으면, D1 = -1을 갖는다. 실제 신호에서 일어나는 것처럼, 다른 성분들의 혼합을 위해서는, D1은 -1 그리고 +1 사이의 값을 갖는다. 출력 신호 또는 출력 값(D1)이 +1에 더 가까워질수록, 오디오 신호(i) 또는 (L', R')은 더 중앙-부과되어, 상당히 큰 음성 성분(px)이 있다고 결론지을 수 있다.

만일 신호 성분들을 변화하기 위해 매우 빠른 반응이 요구되면, 로우-패스 필터(TP)의 시간 상수는 약 100 ms의 범위 내에 놓일 수 있다. 그러나, 시간 상수 는 만일 음성 탐지기(SD)의 매우 느린 반응이 요구되면, 수 분들까지 확장될 수 있다. 그러므로, 로우-패스 필터의 시간 상수는 유리하게 가변성의 변수이다. 탐지 알고리즘을 수행하기 이전에, 적합한 필터, 특히 DC-노치 필터로 DC 성분들을 여과하는 것이 추천할 만하다. 추가적인 대역 제한은 선택적이다.

도 3은 음성 탐지기(SD)의 다른 대표적 실시예를 도시한 것이다. 이하에서는, 도 2의 설명을 참고하여, 도 2의 회로 장치 또는 방법과 다른 성분들을 설명하겠다.

두 개의 대역 통과 필터들(BP)의 두 개의 출력 신호들은 에너지 내용을 결정하기 위해 주파수-에너지 감지기(Ef)의 에너지 결정 성분(ABS)에 각각 수신된다. 음성은 100 Hz 그리고 4 kHz 사이의 주파수들에서 그 최고의 에너지를 갖는다. 따라서, 음성 성분(px)을 결정하기 위해서, 오디오 신호(i) 또는 (L', R')의 전체적 에너지와 비교하여 음성 주파수 범위(f1...f2) 내에서 에너지의 비율을 결정할 수 있다.

두 개의 입력 신호들 또는 입력 신호 채널들을 위한 에너지 결정 성분(ABS)은 가장 기초적인 경우에 그 입력에 제공된 값의 절대 크기를 출력하는 유닛이다.

따라서, 에너지 결정 성분(ABS)의 출력 값들은 도 2의 실시예의 경우에, 부가 유닛(A)에 의해 함께 부가되고, 제 1 로우-패스 필터(TP)로 수신된다. 게다가, 대역 한계를 경험한 대역 통과 필터(BP)의 두 개의 출력 신호들은 다른 부가 유닛(A)에 수신된다. 그것의 출력 신호는 음성 주파수 범위(f1...f2) 내에 놓인 그들 신호 성분들만을 들여 보내는 대역 통과 필터(BP*)에 수신된다. 이 대역 통과 여과 된 신호는 제 2 로우-패스 필터(TP)에 수신된다. 이 이후에, 제 2 로우-패스 필터(TP)의 출력 신호(a)에 의한 제 1 로우-패스 필터(TP)의 출력 신호(b)의 디비젼은 출력 값 또는 출력 신호(D2)로서 제어 신호 또는 제어 신호의 프리커서를 제공하기 위해 디비젼 유닛(DIV) 내에 일어난다.

출력 신호(D2)는

D2 = 2*RMS(BP(f1...f2)(L' + R'))/(RMS(L') + RMS(R'))

에 의해 계산될 수 있다.

출력 값 또는 출력 신호(D2)가 값 1에 더 가까이 놓일수록, 에너지는 음성 주파수 범위 내에 더 제공되어, 음성 성분(px)이 큰 것으로 결론 지을 수 있다. 입력 신호(L', R')의 초기 대역 한계는 또 선택적이다.

특별히, 제어 신호(s) 또는 그것의 프리커서로서 도 2와 도 3에 따라 설명된 실시예들의 방법들 또는 회로 장치들을 위해 허용하는 출력 값 또는 출력 신호(D3)를 사용하는 것이 바람직하다. 예를 들면, 기준은

D3 = D1*D2

이 될 수 있다.

그러므로, 음성 또는 음성 성분(px)은 더 많은 에너지가 오디오 신호의 중앙 성분(C) 내에 존재하고 더 많은 에너지가 음성 주파수 범위 내에 존재하는 때에 인식된다.

선택적으로, 설명된 장치들 또는 방법들의 출력 신호(D1, D2, D3)가 제어 신호(s)를 구동 상태로 전환하기 위해 초과하는 것이 필요한 다른 단계는 임계값(v) 이 결정되는 제어 신호(s)를 제공하기 위해 설명된 회로 장치들 또는 방법들 이후에 놓일 수 있다.

오디오 신호(i)의 병렬 또는 연속적인 음성 신호 처리에서, 그 목적은 도 1을 참조하여 또한 설명된 바와 같이 될 수 있는 한 음성 또는 음성 성분들(px)을 포함하는 많은 신호 성분들을 음성 개선 알고리즘을 통해 전송하고, 나머지 신호 성분들을 변하지 않게 남기는 것이다. 이것은 도 4에 도시된 바와 같이 매트릭스에 의해 편리하게 수행된다. 매트릭스 계수들(k1, k2,..., k6)은 특별한 음성 성분(px)에 의존하여 또는 함수 px = F(D1, D2)로써 음성 탐지기(SD)에 의해 출력된 출력 값 또는 출력 신호(D1, D2)에 의존하여 결정된다.

실제 음성 개선 알고리즘 또는 음성 개선 장치는 친근한 형태로 제공될 수 있다. 예를 들면, 전문이 여기서 인용된 DE 101 24 699 C1에 설명된 바와 같이, 단순 주파수 반응 교정이 수행될 수 있다. 그러나, 음성의 양해도를 개선하기 위해 다른 알고리즘들과 장치들이 또한 사용될 수 있다.

도 4에 나타난 매트릭스 계산 동안, 오디오 신호(i)의 입력 성분들 또는 입력 채널들(L', R')이 세 개의 인자들 (k1, k3, k5) 및 (k2, k4, k6)에 의해 각각 곱해지고, 부가 유닛들에 수용된다. 제 1 계수(k1)에 의해 곱해진 제 1 채널(L')의 신호 그리고 제 2 계수(k2)에 의해 곱해진 제 2 채널(R')의 신호가 추가를 위해 제 2 부가 유닛(A)에 제공된다. 제 5 계수(k5)에 의해 곱해진 제 1 채널(L')의 신호 그리고 제 6 계수(k6)에 의해 곱해진 제 2 채널(R')의 신호가 추가를 위해 제 3 부가 유닛(A)에 제공된다. 제 2 부가 유닛(A)의 출력 값은 음성 개선 회로(VS) 또는 음성 개선 방법 또는 알고리즘에 수신된다. 그것의 출력 결과는 제 1 출력 채널(LE)을 제공하기 위해 추가적인 부가 유닛들(A)에 의해 출력 값 또는 제 1 부가 유닛(A)의 출력 신호에, 그리고 제 2 출력 채널(RE)을 제공하기 위해 추가적인 부가 유닛들(A)에 의해 출력 값 또는 제 3 부가 유닛(A)의 출력 신호에 부가된다.

계수들을 결정하기 위해, 예를 들면, 음성 성분(px)이 특별히 0 ≤ P ≤ 1의 값들의 범위에 의해 설명된 방법에 의해, 그리고 px = F(D1, D2, D3)인 음성 성분들의 함수로서 결정될 수 있다. 하나의 단순한 변형에 따라서, 계수들은

k1 = k6 = 1 - px/2,

k2 = K5 = -px/2 그리고

k3 = k4 = px/2

에 의해 수립될 수 있다.

마지막 두 개의 신호 채널들 또는 성분들(LE, RE)은 처리된 오디오 신호(o)를 위해 출력(O)에 수신되는 처리된 신호들에 대응하여 출력된다.

도 5는 예를 들면, 함수 F(D1, D2=0, D3=0)를 도시한 것이다. 도시된 제 1 함수 F = F1(D1)의 경우에서, 회로 장치는 이미 가볍게 탐지된 음성 성분에 반응한다. 잘못된 탐지의 확률은 D1의 작은 값들에서 상대적으로 높다. 어느 경우에는, 제 1 함수 F1(D1)의 상수 기울기 덕분에, 오디오 신호 위의 음성 알고리즘의 충격은 D1이 작을 때 상대적으로 가볍고, 오디오 신호의 어느 손상은 거의 인식되지 않는다.

제 2 함수 F2(D1)의 경우에 있어서, 오디오 신호는 임계값(v = Ps2)에 까지 완전히 영향받지 않고 남는다. 따라서, P1의 값들에 있어서의 변화 기간 동안 오디오 신호 위의 효과들은 더 크다.

제 3 함수 F = F3(D1)의 경우에서, 알고리즘은 특별한 임계값(v = Ps31)이 초과되고, 다른 더 낮은 임계값(v = Ps32) 아래로 전환될 때 전환된다. 그러한 히스테리시스를 조합하여, 천이영역에서의 연속적인 전환이 방지된다.

청구항 1의 특징들을 구비한 될 수 있는 한 음성을 포함하는 오디오 신호들의 양해도를 개선하기 위한 회로 장치, 그리고 청구항 11의 특징들을 구비한 음성을 포함할 수 있는 오디오 신호들을 처리하기 위한 방법은 그러한 오디오 신호를 삽입하기 위한 하나의 입력으로, 될 수 있는 한 음성을 포함하는 오디오 신호들의 양해도를 개선하기 위해 유리하다. 상기 회로 장치는 삽입된 오디오 신호 내의 음성을 탐지하고, 오디오 신호를 처리하기 위한 음성 처리 장치 및/또는 음성 처리 방법을 제어하기 위해 제어 신호를 공급하기 위한 음성 탐지기 때문에 유리하다.

오디오 신호에 포함된 음성 또는 음성 성분들이 탐지되고, 탐지의 결과에 의존하여, 개선된 음성을 위한 음성 처리 장치 및/또는 음성 처리 방법을 위해 제어 신호가 생성되고 제공되는 될 수 있는 한 음성을 포함하는 오디오 신호들을 처리하기 위한 방법이 유리하다.

그러므로, 음성을 포함하는 오디오 신호들의 양해도를 개선하기 위해 실제 신호 처리에 초기 상태로서 회로 장치와 방법이 관찰된다. 따라서, 수신되어 삽입된 오디오 신호는 그것이 심지어 음성 또는 음성 성분들을 포함하는지 여부를 판별 하기 위해 먼저 조사된다. 음성 탐지의 결과에 의존하여, 제어 신호로서 실제 음성 처리 장치 또는 실제 음성 처리 방법에 의해 사용되는 제어 신호가 출력된다. 이것 덕분에, 오디오 신호 내의 다른 신호 성분들에 관련한 오디오 신호 내의 음성 성분들을 개선하기 위한 음성 처리 기간 동안, 오디오 신호의 처리 또는 변경은 음성 또는 음성 성분들이 실제로 존재하는 때에만 이루어진다.

따라서, 회로 장치 또는 방법은 실제 음성 개선을 위한 트리거 신호로서 사용되는 제어 신호를 준비하고 출력한다. 이러한 방식으로, 음성 개선은 될 수 있는 한 시간-지연된 오디오 신호인, 앞서는 오디오 신호 등의 탐지 또는 분석에 의하여 수행될 수 있다.

제어 신호를 생성하고 제공하는 회로 장치는 독립적 구조의 성분으로서 제공될 수 있지만, 그것은 또한 단일 성분으로서 음성 처리 장치 또는 음성 개선 장치와 함께 집적될 수 있다. 특별히, 음성의 탐지를 위한 회로 장치와 오디오 신호에서 음성 성분들을 개선하기 위한 음성 처리 장치는 집적된 회로의 부분일 수 있다. 따라서, 음성의 탐지를 위한 방법과 오디오 신호에서 음성 성분들을 개선하기 위한 음성 처리 방법은 또한 서로 분리되어 수행될 수 있다. 그러나, 회로 장치의 기술적 성분들 또는 컴퓨터 장치 내의 상응하는 러닝 알고리즘에 의한 조합된 방법이 특히 바람직하다.

Claims

음성 성분(px)이 포함되는 오디오 신호(i)들의 양해도(intelligibility)를 개선하기 위한 것으로서, 상기 오디오 신호(i)를 입력받기 위한 입력(I)을 구비하는 회로장치에 있어서,

상기 입력받은 오디오 신호 내에서 음성 성분(px)을 탐지하고, 음성 처리 장치(SV)에 제어 신호(s)를 공급하며, 상기 오디오 신호 또는 상기 오디오 신호의 성분들의 상호 상관관계 또는 자기 상관관계를 형성하기 위한 상호 관련 장치(CR)를 구비하며, 상기 오디오 신호의 신호 성분들이 매트릭스에 의하여 안에서 분리되는 음성 탐지기(SD)를 구비하는 것을 특징으로 하는 오디오 신호들의 양해도 개선을 위한 회로장치.
제 1 항에 있어서, 상기 음성 탐지기(SD)는 상기 오디오 신호(i)에서 음성 성분(px)들을 탐지하도록 구성되어 제어되는 것을 특징으로 하는 회로장치.
제 1 항 또는 제 2 항에 있어서, 상기 음성 탐지기(SD)는 탐지된 음성 성분들의 범위를 임계값과 비교하고 비교 결과에 따라 상기 제어 신호(s)를 출력하기 위한 임계값 결정 장치를 구비하는 것을 특징으로 하는 회로장치.
제 3 항에 있어서, 상기 음성 탐지기(SD)는 탐지된 음성 성분(px)들의 범위와 탐지된 음성 성분(px)들의 주파수 범위의 어느 하나 이상과 관련된 상기 탐지의 가변 제어를 위해 최소한 하나의 변수(v)를 삽입하기 위한 제어 입력(Ⅳ)을 구비하는 것을 특징으로 하는 회로장치.
삭제
제 1 항에 있어서, 상기 음성 탐지기(SD)는;

수 개의 오디오 신호 성분(L, R, C, S)들을 구비한 멀티컴포넌트 오디오 신호(i), 스테레오 오디오 신호(L', R'), 3D 스테레오 오디오 신호 성분(L, R, C), 또는 서라운드 오디오 신호 성분(L, R, C, S)을 처리하도록 구성되고,

서로 간에 상기 오디오 신호 성분(L, R, C, S)들의 비교 또는 처리에 의해 음성을 탐지하기 위한 처리 장치(CR)를 구비하는 것을 특징으로 하는 회로장치.
제 6 항에 있어서, 상기 음성 탐지기(SD)는 상기 다른 오디오 신호 성분(L, R, C, S)의 공통 신호 성분들의 방향 또는 거리를 결정하기 위한 방향 결정 장치를 구비하는 것을 특징으로 하는 회로장치.
제 1 항에 있어서, 상기 음성 탐지기(SD)는 상기 오디오 신호(i)의 다른 신호 에너지에 관련된 음성 주파수 범위 내의 신호 에너지를 결정하기 위한 주파수-에너지 탐지기(Ef)를 구비하는 것을 특징으로 하는 회로장치.
제 1 항에 있어서, 상기 음성 탐지기(SD)는 상기 주파수-에너지 탐지기(Ef) 그리고 상기 상호관련 장치(CR)의 결과들, 상기 비교 장치 또는 상기 방향 결정 장치에 의존한 상기 제어 신호(s)를 출력하도록 구성되어 제어되는 것을 특징으로 하는 회로장치.
제 1 항에 있어서, 상기 제어 신호(s)는 상기 음성 개선 장치(SV)를 가동 또는 정지시키기 위해 구성되어 제어되는 것을 특징으로 하는 회로장치.
음성이 포함되는 오디오 신호(i)들을 처리하기 위한 방법으로서, 상기 방법은,

오디오 신호(i) 내에서 음성 또는 음성 성분(px)들이 탐지되고;

상기 탐지의 출력에 따라, 음성을 개선하기 위한 음성 처리 장치(SV)에 제어 신호(s)가 생성되어 제공되며;

상기 오디오 신호(i) 또는 상기 오디오 신호(i)의 성분(R, L, C, S)들의 상호 상관관계 또는 자기 상관관계를 형성하며;

상기 오디오 신호의 신호 성분들이 매트릭스에 의하여 분리되는 것을 특징으로 하는 음성이 포함되는 오디오 신호들의 처리 방법.
제 11 항에 있어서, 상기 제어 신호(s)는 탐지된 음성 성분(px)들의 범위에 의존하여 생성되는 것을 특징으로 하는 오디오 신호들의 처리방법.
제 12 항에 있어서, 탐지된 음성 성분(px)들의 범위는 임계값(v)에 비교되는 것을 특징으로 하는 오디오 신호들의 처리방법.
제 11 항에 있어서, 탐지된 음성 성분의 범위에 대해 탐지가 이루어지거나 탐지된 상기 음성 성분(px)들의 주파수 범위에 대해 탐지가 수행되고, 가변 변수(v)들에 의하여 조절될 수 있는 것을 특징으로 하는 오디오 신호들의 처리방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제