KR20050010927A - 오디오 신호 처리 장치 - Google Patents

오디오 신호 처리 장치 Download PDF

Info

Publication number
KR20050010927A
KR20050010927A KR10-2004-7020390A KR20047020390A KR20050010927A KR 20050010927 A KR20050010927 A KR 20050010927A KR 20047020390 A KR20047020390 A KR 20047020390A KR 20050010927 A KR20050010927 A KR 20050010927A
Authority
KR
South Korea
Prior art keywords
audio signal
incoming
noise level
level value
noise
Prior art date
Application number
KR10-2004-7020390A
Other languages
English (en)
Inventor
파비오 비그놀리
타티아나 라시나
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20050010927A publication Critical patent/KR20050010927A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • G10L2021/03646Stress or Lombard effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Television Receiver Circuits (AREA)

Abstract

오디오 신호 처리 장치(1)는 들어온 오디오 신호를 위한 오디오 입력(3), 나가는 오디오 신호를 출력하기 위한 오디오 출력(5), 및 들어온 오디오 신호에 존재하는 음성의 이해 가능성을 개선하기 위해 변환(2)을 수행하기 위한 프로세서(9)를 포함한다. 변환(2)은 잡음 레벨 값(7)에 기초하여, 롬바르드 효과의 적어도 일 양상을 모델링함으로써, 들어온 오디오 신호를 나가는 오디오 신호로 변환한다. 롬바르드 효과는 잡음이 많은 환경에서 말할 때, 사람들이 그들의 음성을 변경하는 특별한 방식이다. 이러한 오디오 신호 처리 장치는 텔레비전 수신기와 라디오 프로그램 수신기에서 적용될 수 있다.

Description

오디오 신호 처리 장치{AUDIO SIGNAL PROCESSING APPARATUS}
텔레비전 수신기에서의 음성의 이해 가능성을 개선하기 위한 장치는 US-B-6,226,605호에 알려져 있다. 이 특허는 텔레비전 수신기에서 청취 보조기로 알려진음성의 이해 가능성 알고리듬의 응용을 기술한다. 알려진 장치에서의 알고리듬 중 한 가지는 말해진 어구들 사이의 침묵 기간의 지속 시간을 증가시킴으로써 더 낮은 속도로 음성을 재생한다. 알고리듬들이 특정 인간에 관한 음성의 이해 가능성을 개선하기 위해 설계되지만, 이 알고리듬들이 오디오 신호에서의 음성의 이해 가능성에 영향을 미치는 임의의 특정 비인간 관련된 요소들을 고려하지 않는다는 사실이 상기 알려진 장치의 결점이다.
본 발명은 들어온 오디오 신호를 얻기 위한 오디오 입력, 나가는 오디오 신호를 출력하기 위한 오디오 출력, 및 상기 들어온 오디오 신호에 존재하는 음성의 이해 가능성을 개선하기 위한 변환을 수행하는 처리기를 포함하는, 오디오 신호 처리 장치에 관한 것이다.
본 발명은 또한 그러한 오디오 신호 처리 장치를 포함하는 텔레비전 수신기에 관한 것이다.
본 발명은 또한 그러한 오디오 신호 처리 장치를 포함하는 라디오 프로그램 수신기에 관한 것이다.
본 발명은 또한 오디오 신호의 이해 가능성을 증가시키는 방법에 관한 것으로, 상기 방법은
- 들어온 오디오 신호를 얻는 제 1 단계;
- 들어온 오디오 신호를 나가는 오디오 신호로 변환하는 제 2 단계;
- 나가는 오디오 신호를 출력하는 제 3 단계를 포함한다.
도 1은 오디오 신호 처리 장치의 일반적인 형태를 도시하는 도면.
도 2는 더 많은 특징들을 포함하는 특정 실시예를 도시하는 도면.
도 3은 롬바르드 효과 변환(Lombard effect transformation)의 일 예를 도시하는 도면.
도 4는 오디오 신호 처리 장치를 포함하는 텔레비전 수신기를 도시하는 도면.
도 5는 오디오 신호 처리 장치를 포함하는 라디오 프로그램 수신기를 도시하는 도면.
도 6은 동기화된 중첩 및 부가 합성(Synchronized Overlap and Add synthesis)을 개략적으로 도시하는 도면.
이들 도면에서, 여러 도면들에서 동일한 참조 번호를 가진 요소들은 동일한 기능을 하고, 점선으로 그려진 요소들은 바람직한 실시예에 따라 선택적인 것이다.
본 발명의 제 1 목적은 좀더 양호한 방식으로 음성의 이해 가능성을 개선할 수 있는, 서문에 기술된 종류의 장치를 제공하는 것이다.
본 발명의 제 2 목적은 서문에서 기술된 종류의 텔레비전 수신기를 제공하는 것으로 상기 텔레비전 수신기는 알려진 것보다 더 양호한 방식으로 들어오는 텔레비전 신호에 존재하는 음성의 이해 가능성을 강화하기 위한 수단을 가진다.
본 발명의 제 3 목적은 서문에서 기술된 종류의 라디오 프로그램 수신기를 제공하는 것으로, 상기 라디오 프로그램 수신기는 알려진 것보다 더 양호한 방식으로 들어오는 라디오 신호에 존재하는 음성의 이해 가능성을 강화하기 위한 수단을 가진다.
본 발명의 제 4 목적은 알려진 것보다 더 양호한 방식으로 오디오 신호에 존재하는 음성의 이해 가능성을 강화시키기 위해, 서문에서 기술된 종류의 오디오 신호의 변환 방법을 제공하는 것이다.
제 1 목적은, 프로세서가 잡음 레벨 값을 가지고, 이 잡음 레벨 값에 기초하여 롬바르드 효과(Lombard effect)의 적어도 일 양상(aspect)을 변환 모델링함으로써 나가는 오디오 신호로 들어온 오디오 신호를 변환하는 능력을 가지는 것으로 실현된다. 롬바르드 효과 또는 롬바르드 반사라는 용어는 잡음을 가진 환경에서 화자가 말할 때 인간 음성의 변경을 가리키는 용어이다. 인간의 음성은 항상 동일하지는 않다. 제 1 부류의 음성 변경은 특정 모드의 음성 내의 의도된 변경을 포함한다. 예를 들어, 한 화자는 단어를 강조할 수 있다. 제 2 부류의 음성 변경은 상이한 음성 모드로의 의도된 또는 의도되지 않은 변경을 포함한다. 예를 들어, 한 화자가 피곤할 때와 그가 진동하는 환경이나 잡음이 많은 환경에서 말할 때 음성 특성이 변한다. 정상상태로부터 롬바르드 음성으로 변하는 오디오 신호의 특성들 중 일부는, 예를 들어 신호 볼륨, 단어 길이 및 피치이다. 음성 개선은 임의의 오디오 신호에 적용될 수 있지만, 오디오 신호가 일부 음성을 포함할 때에만 유용하다. 본 발명에 따른 변환은 정상 음성으로부터 롬바르드 음성으로의 변화를 정확하게 모델링하는 신뢰할 만한 음성의 이해 가능성 개선을 제공할 수 있고, 이 경우 롬바르드 음성 모드를 유발하는 잡음의 정확한 특성화를 필요로 한다. 이 신뢰할 만한 변환은 인간이 그것을 발음할 때 롬바르드 음성을 재생하거나 또는 심지어 인간보다 음성의 이해 가능성을 좀더 개선할 수 있다. 대안적으로 이 변환은 롬바르드 효과를 근사화시킬 수 있고, 이 경우 덜 정확한 잡음 레벨 값에 기초하여 음성의 이해 가능성을 조금 최적으로 개선한다.
주변 잡음에 의존하는 오디오 신호 볼륨만을 증가시키는 다소 평범한 변환이 종래 기술에 존재한다. US-A-5,907,622호는 주변 잡음 측정값에 기초하여 오디오신호 볼륨을 변경시키지만, 더 높은 품질의 방식으로 오디오 신호에서의 음성의 이해 가능성을 더 개선하는 개선된 동작들을 수행하지 않는 오디오 신호 처리 시스템을 개시한다. 본 발명에 따른 오디오 신호 처리 장치는 간단한 신호 볼륨 조정보다 좀더 복잡한 방식으로 롬바르드 효과의 적어도 일 양상을 구현하고, 이는 오디오 프로세싱이라고 알려져 있다. 롬바르드 효과의 대부분의 양상은 오디오 신호 처리 분야보다는 음성 처리 분야에 속한다. 본 발명에 따른 오디오 신호 처리 장치는 또한 추가적인 신호 볼륨 조정을 수행할 수 있지만, 이는 본 발명의 요점이 아니다.
본 발명의 오디오 신호 처리 장치의 일 실시예에서, 나가는 오디오 신호가 재생되는 환경에서의 잡음으로부터, 잡음 레벨 값을 프로세서에 제공하기 위해, 마이크로폰과 잡음 값 추출기가 존재한다. 이 실시예를 가지고, 장치는 잡음이 오디오 신호 처리 장치의 환경에 존재할 때 들어온 오디오 신호의 이해 가능성을 개선할 수 있다. 들어온 오디오 신호는, 예를 들어 방송 스튜디오에서 레코딩 중에 존재하는 잡음을 고려하여 이미 개선되었을 수 있다. 방송국에서는 나가는 오디오 신호의 재생 동안에 어떤 잡음들이 발생하는지를 알 방법이 없고, 따라서 오디오 신호 처리 장치에서 이를 위한 개선 방법이 실행되어야만 한다. 오디오 신호 처리 장치의 환경의 잡음을 측정하기 위해, 마이크로폰은 이 환경에서의 소리들을 픽업한다. 마이크로폰에 연결된 잡음 값 추출기는 마이크로폰으로부터 오고 잡음 값 추출기로 들어가는 들어온 전기 오디오 신호로부터 잡음 레벨 값을 생성한다. 일반적으로, 나가는 오디오 신호를 재생하기 위해 오디오 신호 처리 장치가 확성기에 연결되기 때문에, 마이크로폰은 오디오 신호 처리 장치의 환경에 존재하는 다른 잡음소리들뿐만 아니라 나가는 오디오 신호로부터 생성된 소리를 픽업한다. 바람직하게는, 변환이 나가는 오디오 신호로부터 생성된 소리로부터가 아닌 다른 잡음 소리들 만으로부터 유도된 잡음 레벨 값에 좌우되는 음성의 이해 가능성을 개선한다. 이를 실현하기 위해, 잡음 레벨 값이 환경에서의 다른 잡음 소리들에 주로 의존하도록, 나가는 오디오 신호로부터 생성된 소리의 기여도를 감소시키기 위해 잡음 값 추출기에 적응 반향 제거 알고리듬(adaptive echo cancellation algorithm)이 존재할 수 있다.
들어온 오디오 신호로부터 잡음 레벨 값을 검색하기 위한 잡음 값 특성화기가 존재하는 것이 유리하다. 예를 들어 현장이나, 예를 들어 거리에서의 리포트와 같은 일부 방송에서는, 들어온 오디오 신호에 배경 잡음이 존재한다. 화자는 이 배경 잡음을 보상하기 위해 롬바르드 효과를 이미 적용할 수 있지만, 화자가 느낀 잡음의 불쾌함은 마이크로폰에 위해 픽업된 오디오 신호의 불쾌함과 반드시 같은 것은 아니다. 또한, 예를 들어 압축이나 다른 오디오 신호 변환으로 인하여, 방송 및 전송 중에 신호에 더 많은 잡음이 더해진다. 그러므로, 들어온 오디오 신호에 존재하는 음성의 이해 가능성을 개선하기 위해, 수신기 측에서 들어온 오디오 신호에 존재하는 잡음에 대해 잡음 측정이 행해질 수 있는 것이 바람직하다. 수신기 측에서 사용된 오디오 신호 처리 장치의 실시예들과 유사한 실시예들이, 모든 수신기들에 관해서 동일한 방식으로 음성의 이해 가능성을 개선하도록, 방송 장치 측에서 사용될 수 있다.
잡음 레벨 값을 선택된 값으로 설정하기 위해 선택 입력이 존재하는 것이 유리하다. 이는 사용자가 음성의 이해 가능성을 그 자신의 기호에 일치시키는 것을 가능하게 한다. 변환이 롬바르드 효과를 완벽하게 모델링하지 않거나 또는 잡음이 완벽하게 특성화되지 않거나, 사용자가 단지 부분적이고, 부분 최적의 음성 이해 가능성 개선을 원한다면, 사용자는 잡음 레벨 값을 그가 좋아하는 방식으로 음성 이해 가능성이 개선되는 값으로 설정할 수 있다.
또한, 신호 유형 특성화 값을 프로세서에 공급하고, 프로세서로 하여금 이 신호 유형 특성화 값에 의존하는 들어온 오디오 신호의 변환을 수행할 수 있게 하기 위해, 신호 유형 특성화 수단이 존재하는 것이 유리하다. 예를 들어, 신호 유형 특성화 값이 음성이 들어온 오디오 신호에 존재함을 가리킬 때에만 변환이 적용된다. 또는 신호 유형 특성화 값이, 예를 들어 음성이 클래식 음악과 동시에 존재하는 것과는 무관하게, 클래식 음악이 존재하는지를 가리킬 때에는 변환이 적용되지 않는다. 신호 유형 특성화 값은, 예를 들어 라디오 데이터 시스템(RDS)에서 프로그램 유형 정보와 같이, 수신된 신호에 존재하는 추가 데이터로부터 검색될 수 있다. 또한, 들어온 오디오 신호는, 음성이나 음악과 같은 것을 포함하는지를 결정하기 위해 분석될 수 있고, 이는 신호 유형 특성화 값에 의해 표시된다.
롬바르드 효과의 양상들 중 하나는 잡음 레벨 값에 기초하여 들어온 오디오 신호의 스펙트럼 윤곽이 변경된다는 점이다. 예를 들어, 포르만트(formant)에서의 에너지나 포르만트에서의 가파름이 변경될 수 있다. 또한, 포르만트의 폭이나 포르만트의 주파수는 변경될 수 있다. 대안적으로, 비선형 변환이 스펙트럼의 주파수 축에 적용될 수 있어서, 새로운 스펙트럼이 만들어진다.
롬바르드 효과의 또다른 양상은 워드 길이가 잡음 레벨 값에 기초하여 변경된다는 점이다. 예를 들어, 한 부분의 들어온 오디오 신호의 길이를 고정되게 유지하는 변환은 소리화된 부분들의 지속 시간을 증가시키기 위해 워드들 사이의 침묵 기간들을 단축시킬 수 있고, 이는 단어들의 더 느린 재생에 해당한다.
또한, 들어온 오디오 신호의 피치나 볼륨은 잡음 레벨 값에 기초하여 변경될 수 있다.
롬바르드 효과의 더 많은 양상들은 예를 들어 1993년 1월에 "Journal of the Acoustic Society of America, vol. 93, no. 1"에 실린 J.C. Junqua의 "The Lombard reflex and its role on human listeners and automatic speech recognizers"라는 문헌의 페이지 510 내지 페이지 524에 기술되어 있다.
잡음의 시끄러움을 특성화하는 하나의 잡음 레벨 값을 사용하는 대신, 다른 값들이 잡음을 좀더 완전하게 특성화할 수 있는데, 예를 들어 다른 값들은 잡음의 주파수 분포를 특성화할 수 있다.
본 발명의 제 2 목적은, 텔레비전 수신기가 오디오 신호에서 존재하는 음성의 이해 가능성을 개선하기 위해, 전술한 오디오 신호 처리 장치의 실시예들 중 하나를 갖춤으로써 실현되고, 이러한 오디오 신호는 텔레비전 수신기에 의해 텔레비전 신호로부터 추출된다. 텔레비전 프로그램에서의 음성의 이해 가능성은 종종 덜 민감한 청력을 가진 사람들, 예를 들어 노인들이 텔레비전 프로그램을 만족스럽게 따라갈 수 있기에 충분히 양호하지 않다.
본 발명의 제 3 목적은, 라디오 프로그램 수신기가 오디오 신호에서 존재하는 음성의 이해 가능성을 개선하기 위해, 전술한 오디오 신호 처리 장치의 실시예들 중 하나를 갖춤으로써 실현되고, 이러한 오디오 신호는 라디오 프로그램 수신기에 의해 라디오 프로그램으로부터 추출된다. 예를 들어, 전화상 대화가 라디오 프로그램 중에 방송될 때, 전화선의 다른 쪽 끝에 있는 사람은 종종 거의 알아듣기 어렵다.
본 발명의 제 4 목적은 나가는 오디오 신호 재생의 이해 가능성에 영향을 미치는 잡음의 정도를 가리키는 잡음 레벨 값을 얻고, 이 잡음 레벨 값에 기초하여 오디오 신호 볼륨 제어가 아닌 롬바르드 효과의 적어도 일 양상을 변환 모델링함으로써, 들어온 오디오 신호를 나가는 오디오 신호로 변환하는 방법에 의해 실현된다.
이러한 오디오 신호 처리 장치, 텔레비전 수신기, 라디오 프로그램 수신기, 및 본 발명의 방법의 이들 및 다른 양상들은, 이후 기술되는 구현예와 실시예, 및 오디오 신호 처리 장치, 텔레비전 수신기, 라디오 프로그램 수신기, 및 본 발명에 따른 방법의 양상들 또는 실시예들 중 일부의 단지 비제한적인 설명을 제공하는 첨부 도면들을 참조하여 분명해지고 명료하게 될 것이다.
도 1의 오디오 신호 처리 장치(1)는 들어온 오디오 신호를 얻기 위한 오디오 입력(3)과 나가는 오디오 신호를 출력하기 위한 오디오 출력(5)을 포함한다. 프로세서(9)는 상기 들어온 오디오 신호에 존재하는 음성의 이해 가능성을 개선하기 위한 변환(2)을 수행하여, 롬바르드 효과의 적어도 일 양상을 모델링한다. 변환(2)은 프로세서에 이용 가능한 잡음 레벨 값(7)에 기초하여 들어온 오디오 신호의 적어도 한가지 특성을 변경한다. 특정 실시예에서, 이 잡음 레벨 값(7)은 예를 들어 오디오 신호 처리 장치의 환경으로부터 측정될 수 있고, 이 경우 프로세서(9)는 청취자의 귀에 들어오는 환경 잡음으로 인해, 나가는 오디오 신호의 감소된 재생 이해 가능성의 개선을 시도한다. 나가는 오디오 신호는 확성기(60)에 의해 재생될 수 있다.
도 2는 더 많은 특징들을 포함하는 오디오 신호 처리 장치(1)의 좀더 진보된실시예를 도시한다. 제 1 잡음 레벨 값(7) 생성 가능성에서, 그 환경에서의 잡음은 마이크로폰(11)에 의해 픽업된다. 그 환경에서 실제 외부 잡음들과는 별개로, 마이크로폰은 오디오 신호 처리 장치(1)에 연결된 확성기(60)에 의해 나가는 오디오 신호의 재생으로 생성된 오디오 신호 성분을 또한 취한다. 바람직한 실시예에서 확성기(60)에 의해 나가는 오디오 신호의 재생으로 생성된 오디오 신호 성분은 먼저 마이크로폰(11)으로부터 오는 신호로부터 빼지거나 또는 기타 잡음 값 요약기(102)는 환경에서의 잡음의 정도를 요약하여 잘못된 잡음 레벨 값(7)을 프로세서(9)에 공급한다. 확성기(60)에 의해 나가는 오디오 신호의 재생에 의해 생성되고 방(room)을 돌아다니는 오디오 신호 성분의 근사 값은 적응 반향 제거 필터(101)에 의해 마이크로폰으로부터 오는 신호로부터 빼진다. 이 적응 반향 제거 필터(101)의 계수들은 확성기(60)로부터 마이크로폰(11)으로 방을 통해 나가는 오디오 신호의 재생 전송을 모델링한다. 필터는 나가는 오디오 신호로부터 나가는 신호 피드백(104)을 입력으로서 가진다. 적응 반향 제거 필터(101)가 디지털 선형 필터이면, 확성기(60)에 의해 나가는 오디오 신호의 재생으로 생성된 오디오 신호 성분의 최적 근사치는 다음 수학식 1에서, 에러 e(k)를 최소화함으로써 얻어진다:
이 공식에서, k는 샘플링 시각, M(k)은 샘플링 시각(k)에서 마이크로폰으로부터 오는 신호의 샘플링된 값, ^r(k)는 확성기(60)에 의해 나가는 오디오 신호의재생으로 생성된 오디오 신호 성분의 샘플 r(k)의 적응 필터에 의한 추정치, 및 n(k)는 마이크로폰에 의해 취해졌을 때의 실제 환경 잡음의 샘플이며, 이는 적당한 잡음 레벨 값(7)을 생성하기 위해 잡음 값 요약기(102)에 의해 요구되는 값이다. 선형 적응 반향 제거 필터(101)는 그것의 입력 o(k)로부터 그것의 출력 신호 ^r(k)를 생성하고, 이는 예를 들어 다음 수학식 2에 의해 샘플링된 나가는 오디오 신호이다.
에러 e(k)를 최소화함으로써 필터 계수들인 wp(k)를 추정하는 것은 예를 들어 최소 2승(least squares) 기술에 의해 다수의 방식으로 행해질 수 있다. 추가 정보는 Simon S. Haykin이 쓴 "적응 필터 이론"이라는 책(Prentice Hall 1986. ISBN 013004052-5 025)의 페이지 307 내지 페이지 348에서 찾을 수 있다. 적응 반향 제거 필터(101)의 병합에 대한 대안으로서, 확성기(60)에 의해 나가는 오디오 신호의 재생은 특정 시간 부분 동안에 중단될 수 있거나 또는 나가는 오디오는 실제 외부 잡음들의 측정을 개선하기 위해, 원활하게 재생될 수 있다.
잡음 값 요약기는 예를 들어 샘플들의 개수(L)에 걸쳐 잡음 전력을 평균하고 다음 수학식 3의 비선형 변환 f를 수행함으로써 잡음 레벨 값(7)을 얻을 수 있다.
상기 식에서 V는 잡음 레벨 값(7)이다.
잡음 레벨 값(7)을 얻기 위해 다른 가능성들이 존재하므로, 환경으로부터 얻어진 잡음 레벨 값(7)은 프로세서에 환경 잡음 레벨 값(21)으로서 공급된다.
제 2 잡음 레벨 값(7)의 생성 가능성에서, 들어온 오디오 신호에 존재하는 잡음이 특색을 이룬다. 이 잡음은 또한 나가는 오디오 신호에서의 음성의 이해 가능성을 떨어뜨린다. 이러한 목적으로, 잡음 값 특성화기(13)가 오디오 신호 처리 장치(1)의 일 실시예에 포함된다. 잡음 값 특성화기(13)는 예를 들어 음성을 위해 주파수 범위 밖의 주파수 대역들에서 신호 전력을 계산함으로써, 들어온 신호에서의 잡음을 추정할 수 있다. 또다른 가능성은, 잡음 값 특성화기(13)가 들어온 오디오 신호의 시간적인 특성들을 사용한다는 점이다. 예를 들어, 음성을 포함하는 시간 부분들 사이에 있는 더 조용한 시간 부분들은 잡음만을 포함한다. 잡음을 구별하기 위해, 이들 특징들 중 일부와 말해진 음성, 및 기타 오디오 신호 유형들은, 예를 들어 높은 영교차 속도 비율(High Zero-Crossing Rate ratio)이나 스펙트럼 플럭스(spectrum flux)와 같은 문헌에 기술되어 있고, 이들은 잡음과 음성 사이를 확실하게 구별짓기 위해 다른 조합들로 사용될 수 있다. 다수의 특징들이 "L.Lu, H.Jiang, HJ.Zhang: A robust audio classification and segmentation method. Proc. Int. conf on Multimedia, 2001, Ottawa(Canada), pp. 203-211."에 기술되어있다. 이들 특징들 대부분은, 음성이 들어온 오디오 신호에 존재하는지를 확인하기 위해, 잡음 값 특성화기(13)와 신호 유형 특성화기 수단(17) 모두에서 사용될 수 있다. 잡음 값 특성화기(13)는 신호 잡음 레벨 값(23)을 프로세서에 공급한다.
제 3 잡음 레벨 값(7) 생성 가능성에서, 청취자는, 변환(2)이 청취자의 기호에 따라 나가는 오디오 신호에서의 음성의 이해 가능성을 최적으로 개선할 수 있도록, 잡음 레벨 값(7)을 수동으로 입력한다. 이는 예를 들어 제어 입력 신호를 선택 입력(15)으로 보내는 원격 제어 유닛(105) 상의 하나 이상의 버튼을 누름으로써, 현재 잡음 레벨 값(7)을 증가시키거나 감소시킴으로써 행해질 수 있고, 상기 선택 입력으로부터 선택된 잡음 레벨 값(25)이, 제어 입력 신호로부터 선택된 잡음 레벨 값(25)을 제거하는 잡음 값 제거기(103)에 의해, 프로세서(9)에 공급된다.
하나의 잡음 레벨 값(7)은 환경 잡음 레벨 값(21), 신호 잡음 레벨 값(23), 및 선택된 잡음 레벨 값(25)으로부터 다수의 방식으로 생성될 수 있다. 예를 들어, 잡음 레벨 값(7)은 환경 잡음 레벨 값(21)과 신호 잡음 레벨 값(23)의 합과 같게 설정될 수 있다. 또다른 가능성은, 잡음 레벨 값(7)이 선택된 잡음 레벨 값(25)과 같도록 설정된다는 점이다.
도 2에서 또한 제시된 바와 같이, 오디오 신호 처리 장치(1)의 일 실시예는 신호 유형 특성화 수단(17)을 포함할 수 있고, 이는 신호 유형 특성화 값(18)을 프로세서(9)에 공급한다. 사람들이 롬바르드 효과를 잡음이 많은 상태 하의 그들의 음성에 적용하므로, 롬바르드 효과의 모델링 양상들의 변환(2)을 들어온 오디오 신호에 적용하는 것은 들어온 오디오 신호가 일부 음성을 포함하고 있을 때 주로 흥미로운 사안이 된다. 들어온 오디오 신호가 예를 들어 음악이나 자연 다큐멘터리에서의 동물의 소리와 같은 기타 소리들만을 포함한다면, 변환을 개선하는 음성의 이해 가능성을 적용한다는 것은 소용이 없고, 변환은 오디오 신호의 품질을 심지어 떨어뜨릴 수도 있다. 그러므로, 음성이 언제 들어온 오디오 신호에 존재하고, 필요하다면 얼마나 많은 음성이 있으며 또는 어떤 유형의 음성이 존재하는지를 가리킬 수 있는 신호 유형 특성화 수단(17)을 포함하는 것이 흥미로운 사안이다. 신호 유형 특성화 값(18)을 얻기 위해, 신호 유형 특성화 수단(17)에 관한 다수의 대안들이 존재한다. 종종, 문자 서비스 정보가 음성 부문과 함께 방송 장치에 의해 제공된다. 이러한 서비스 정보는 예를 들어 음성 부문이 재즈 음악이나 뉴스 속보 등에 대응하는지를 가리킬 수 있다. 또한, 신호 유형 특성화 수단(17)은 음성이 존재하는지를 판단하기 위해 들어온 오디오 신호 자체를 분석하기 위한 알고리듬을 사용할 수 있다. 예를 들어, 음성은 종종 음악보다 좀더 현저한 변조를 가지는데, 이는 시끄러운 음성을 포함하는 시간 부분들 사이에 있는 비교적 조용한 시간 부분들이 존재한다는 것을 의미한다. 음성/음악 구별의 또다른 예가 US-A-5,878,391호에 기술되어 있다. 이 경우, 음악만이 들어온 오디오 신호에 존재하는데, 예를 들어 음악의 유형에 따라 이퀄라이저 설정을 하는 변환이 적용될 수 있다.
도 3은 롬바르드 효과의 양상들 중 일부 모델링 변환(2)을 실현하는 일 예를 도시한다. 먼저, 신호는 피치 변경자(51)에 의해 처리된다. 피치는 소리로부터 사람에 의해 유도되는 정신 의학적 청각 특성(psycho-acoustical property)이다. 하지만, 피치에 관해서 기술적인 상관 관계가 존재한다. 소리화된 음성을 생성하는것은 성대(vocal chords)에 의한 여기를 나타내는 디락(Dirac) 임펄스들의 열로 모델링될 수 있고, 이는 성도(vocal tract), 성문 소스 스펙트럼(glottal source spectrum), 및 복사 로드(radiation load) 스펙트럼에서의 공진을 나타내는 필터에 의해 필터링된다. 자세한 사항은 예를 들어 "R. W. Shafer and L. R. Rabiner의 System for automatic formant analysis of voiced speech라는 제목의 Journal of the Acoustical Society of America, vol. 47, no. 2, 1970, pp. 634-648."과, "B.S. Atal and S.L. Hanauer의 Speech analysis and synthesis by linear prediction of the speech wave라는 제목의 Journal of the Acoustical Society of America, vol. 50, no. 2, 1971, pp. 637-655."에서 찾을 수 있다. 음성의 피치는 디락 임펄스들의 기간에 의해 결정된다. 실제로, 오디오 신호 스펙트럼의 제 1 피크나 오디오 신호의 자기 상관은 오디오 신호의 한 피치를 결정하는데 사용될 수 있다. 이러한 자기 상관 방법으로, 예를 들어 피치(T)는 다음 수학식 4의 상관을 최대화하는 시간 이동(time shift)이다.
여기서, 내적(in-product)은 보통 오디오 신호 i(k)의 일정한 개수의 샘플들(S)에 대해 계산되고, i(k)의 지수에서의 작은 T는 치환(transposition)을 나타낸다. 잡음 레벨 값(7) V에 따라, 새로운 피치(T')가 예를 들어 다음 수학식 5의 구분적 선형 공식에 따라 계산된다.
T'=αiVT+βi, 여기서 Ni≤V≤Ni+1
여기서, 상수 βi는 곡선이 연속이 되도록 선택된다.
따라서, 더 많은 잡음이 측정될수록, 새로운 피치(T')는 더 높아진다.
이제, 새로운 신호가 새로운 피치로 합성되어야 한다. 동기화된 중복 및 추가(SOLA: Synchronized Overlap and Add) 기술에 대한 다수의 변형예가 사용될 수 있는데, 이들 기술의 예로는 피치 동기 중복 및 추가(PSOLA: Pitch Synchronous Overlap and Add) 또는 파형 유사성 기반의 중복 및 추가(WSOLA: Waveform Similarity based Overlap and Add)를 들 수 있다. 이들 기술들은 오디오 신호에 긴 주기성 시간 부분들이 존재하고, 이들은 예를 들어 50회와 같이 여러 번 유사한 여기 파형을 가진다는 사실을 이용한다. 이들 여기 파형들은 성대로부터의 디락 임펄스 여기에 응답하여 성도에 의해 생성된다. 입을 벌리는 것과 같은 성도 변경의 더 느린 현상은 예를 들어 50회의 유사한 여기 파형들 후에 새로운 여기 파형이 여러 번 반복된다는 사실에 의해 오디오 신호에 반영된다.
예를 들어, 동일한 피치를 가지나 더 짧은 지속 시간을 가지는 새로운 오디오 신호를 생성하는 것이 요구된다면, 50개의 여기 파형들 중 예를 들어 40개만 새로운 오디오 신호로 복사된다. 동일한 지속 시간을 가지나 더 높은 피치를 가진 신호가 필요하다면, 더 많은 개수의 여기 파형들이 새로운 오디오 신호의 동일한 지속 시간의 시간 부분으로 복사되고, 이 여기 파형들은 그들이 중복되는 곳에 더해진다.
이 원리는 오래된 오디오 신호(301)를 보여주는 도 6에 개략적으로 도시되어 있고, 이 신호(301)는 더 높은 피치의 새로운 오디오 신호(303)로 변환된다. 제 1 합성 시각(307)에서, 새로운 오디오 신호의 첫 번째 새로운 파형(311)은 제 1 합성 시각(307)의 시간적인 환경에서 구성된다. 이러한 첫 번째 새로운 파형(311)은 오래된 오디오 신호(301)의 첫 번째 오래된 파형(309)에 대응한다. 첫 번째 오래된 파형(309)의 여기를 수행하는 제 1 분석 시각(305)은 제 1 합성 시각(307)과, 오래된 피치 및 새로운 피치 사이의 관계에 의해 결정된다. 새로운 오디오 신호(303)의 합성은 다음 수학식 6으로 요약될 수 있다.
식 [6]에서, 새로운 오디오 신호(303) y(k)는 오래된 오디오 신호(x)로부터 절단된 파형들의 i만큼 열거되며, 불연속적인 다수의 합성 시각에서 시간적인 거리 T만큼 떨어져 있는 모든 불연속적인 시각(k)에서 중복에 의해 합성된다. 또한, 식 [6]에서 절단되고 합성화된 파형들 모두 동일한 윈도우(w)만큼 가중되고 더 가정된다. τ-1(iT)은 합성 시각(iT)에 대응하는 분석 시각이고, 여기서 오래된 오디오 신호로부터의 파형의 절단이 발생해야 한다. 하지만, 이미 합성된 새로운 오디오 신호의 일부에 잘려진 파형을 추가할 때, 오래된 오디오 신호로부터 잘려진 파형이 이미 합성된 새로운 오디오 신호 부분을 따를 것으로 예상되는 여기 파형과 아주 비슷하다는 점에 주의해야 한다. 그러므로, 작은 오프셋(Δi)이 도입되고, 이는 τ-1(iT)과는 약간 다른 이산 시각에서 파형의 잘려짐을 고려한 것이다. 이는, 제 3 합성 시각(323)과 제 4 합성 시각(327) 모두에서, 동일한 잘려진 세 번째 오래된 파형(325)이 이미 합성된 새로운 오디오 신호(303)의 부분에 더해진다는 사실에 의해 도 6에 개략적으로 도시된다.
다양한 SOLA 기술들의 좀더 상세한 사항은, 예를 들어 "W. Verhelst, D. Van Compernolle and P. Wambacq의 A unified view on synchronized overlap-add methods for prosodic modification of speech라는 제목의 Proceedings of the International Conference on Spoken Language Processing. Beijing October 2002, pp. 63-66."에서 찾을 수 있다. 오디오 신호 피치 수정의 또다른 예는 US-A-5,479,564호에 주어진다.
두 번째로, 피치 수정 후, 신호는 포르만트 강화기(53)에 의해 처리된다. 포르만트는 성도에서의 공진으로, 이는 성도 모델링 필터의 폴(pole)에 의해 모델링될 수 있다. 포르만트 강화기(53)는, 예를 들어 자기회기이동평균(ARMA: Autoregressive-moving-average) 필터를 피치 변경자(51)를 떠나는 오디오 신호에 적용함으로써, 그 목표를 달성하고, 상기 필터는 포르만트 사이의 스펙트럼의 신장을 깊게 하면서, 포르만트 피크들의 높이를 증가시키도록 설계된다. 이는 포르만트들의 가파름을 증가시킨다. 자기회기이동평균 필터 계수들은 잡음 레벨 값(7)에 기초한다. 잡음이 더 많이 측정될수록, 포르만트 높이들도 더 증가된다.
세 번째로, 단어 신장기(55)는 단어들 사이의 조용한 시간 부분들의 지속 시간을 감소시킴으로써, 단어들의 지속 시간을 증가시킨다. 예를 들어, 일정한 단어 신장이 다음 식 7에 따라 적용될 수 있다:
V>N일 때 w'=Cw
여기서, w는 단어의 지속 시간이고, C는 곱셉 상수이며, N은 임계값이고, 잡음 레벨 값(7)인 V는 단어 신장이 발생하도록 더 커야 한다. 그러므로, 식 7의 구현에 있어서, 측정된 잡음 레벨 값(7)이 충분히 높다면, 단어들이 미리 결정된 백분율로 신장된다.
네 번째로, 신호 증폭기(57)는 신호 전력을 잡음 레벨 값에 응답하여 다음 식 8에 의해 증폭시킨다:
A=DV
여기서, A는 증폭 인자이고, D는 상수이다.
이들 변환을 적용한 후, 나가는 소리는 더 명료해진다.
오디오 신호 처리 장치(1)의 사용자가 가장 명료한 음성을 생성한다고 생각하는 것에 따라, 기술한 양상들 중 일부만을 활성화시키는 것이 가능하다.
도 4는 텔레비전 수신기(30)를 도시하는데, 이 수신기(30)는 수신된 텔레비전 신호의 오디오 신호에 존재하는 음성의 이해 가능성을 개선하기 위해 오디오 신호 처리 장치(1)를 포함한다. 텔레비전 신호는 텔레비전 신호 입력(203)을 통해 텔레비전 수신기(30)로 들어간다. 텔레비전 기저대역 오디오 추출 유닛(209)은 필요하다면 원하는 텔레비전 채널에 동조하고, 텔레비전 신호를 복조 및 압축해제하며, 비디오 정보로부터 텔레비전 신호에 존재하는 오디오와 서비스 정보를 분리할 수 있다. 텔레비전 신호는 위성 접시, VCR, 또는 인터넷과 같은 다수의 소스들로부터 올 수 있다. 오디오 출력(5)은 나가는 오디오 신호를 텔레비전 수신기(30)의 제 1 확성기(205)나 텔레비전 수신기(30)에 외부적으로 연결된 확성기에 보낸다. 제 2 확성기가 존재하면, 이 제 2 확성기는 오디오 출력(5)이나 제 2 오디오 출력으로부터 나가는 오디오 신호를 수신할 수 있고, 이 경우 제 2 나가는 오디오 신호를 얻기 위해, 다른 변환(2)이 들어온 오디오 신호에 적용될 수 있다. 나가는 오디오 신호는 또한 오디오 신호 레코더에 보내질 수 있다. 오직 하나의 오디오 신호만이 도시된다는 사실은, 변환(2)이 모노 오디오 신호들에만 적용될 수 있다는 점을 의미하는 것을 아니고, 오히려 동일한 유형의 변환(2)이 DVD로부터 오는 것과 같은 다수 채널 오디오에 존재하는 채널들의 적어도 일부의 선택에 적용될 수 있다.
도 5는 수신된 오디오 신호에 존재하는 음성을 개선하기 위해 오디오 신호 처리 장치(1)를 포함하는 라디오 프로그램 수신기(40)를 도시한다. 라디오 프로그램 입력(213)에 들어간 후, 라디오 기저대역 오디오 추출 유닛(219)은, 필요하다면 동조 단계, 복조 단계, 압축해제 단계 등을 수행함으로써, 라디오 프로그램 신호로부터 기저대역 라디오 신호를 추출할 수 있다. 나가는 오디오 신호는 외부적으로연결된 확성기(211)와 같은 확성기로 보내진다.
전술한 실시예들은 본 발명을 한정하기보다는 예시하기 위한 것이고, 당업자라면 청구항의 범위를 벗어나지 않고 대안들을 설계할 수 있을 것이라는 점을 주목해야 한다. 청구항에서 조합된 바와 같은 본 발명의 요소들의 조합과는 별개로, 당업자에 의해 이해된 바와 같이 본 발명의 범위 내에 있는 요소들의 다른 조합들도 본 발명에 의해 커버된다. 요소들의 임의의 조합도 하나의 전용 요소로 실현될 수 있다. 청구항에서 괄호 사이에 있는 임의의 참조 기호는 그 청구항을 한정하는 것으로 의도된 것이 아니다. "포함한다"라는 동사와 그것의 활용을 사용하는 것은 청구항에 나열되지 않은 요소나 양상의 존재를 배제하지 않는다. 요소 앞에 있는 단수 표현의 사용은 복수의 그러한 요소의 존재를 배제하지 않는다. 본 발명은 하드웨어나 컴퓨터 상에서 실행되는 소프트웨어에 의해 구현될 수 있다.
본 발명은 오디오 신호 처리 장치와 그러한 오디오 신호 처리 장치를 포함하는 텔레비전 수신기, 및 라디오 프로그램 수신기에 이용할 수 있고, 오디오 신호의 이해 가능성을 증가시키는데도 이용 가능하다.

Claims (10)

  1. 오디오 신호 처리 장치로서,
    들어온 오디오 신호를 얻기 위한 오디오 입력, 나가는 오디오 신호를 출력하기 위한 오디오 출력, 및 상기 들어온 오디오 신호에 존재하는 음성의 이해 가능성을 개선하기 위해 변환을 수행하기 위한 프로세서를 포함하는 오디오 신호 처리 장치에 있어서,
    상기 프로세서는 상기 나가는 오디오 신호의 재생 이해 가능성에 영향을 미치는 잡음 정도를 나타내는 잡음 레벨 값을 얻도록 조정되고, 상기 잡음 레벨 값에 기초하여 오디오 신호 볼륨 제어가 아닌 롬바르드 효과(Lombard effect)의 적어도 일 양상을 변환 모델링함으로써, 상기 들어온 오디오 신호를 상기 나가는 오디오 신호로 변환하는 능력을 가지는 것을 특징으로 하는, 오디오 신호 처리 장치.
  2. 제 1항에 있어서, 주변 잡음으로부터의 상기 잡음 레벨 값을 상기 프로세서에 제공하기 위해 마이크로폰과 잡음 값 추출기가 존재하는 것을 특징으로 하는, 오디오 신호 처리 장치.
  3. 제 1항 또는 제 2항에 있어서, 상기 들어온 오디오 신호로부터 상기 잡음 레벨 값을 검색하기 위해, 잡음 값 특성화기가 존재하는 것을 특징으로 하는, 오디오 신호 처리 장치.
  4. 제 1항 또는 제 3항에 있어서, 상기 잡음 레벨 값을 선택된 값으로 설정하기 위해, 선택 입력이 존재하는 것을 특징으로 하는, 오디오 신호 처리 장치.
  5. 제 1항 또는 제 3항에 있어서, 신호 유형 특정화 값을 상기 프로세서에 공급하고, 상기 프로세서가 상기 신호 유형 특성화 값에 의존하여 상기 들어온 오디오 신호의 변환을 수행할 수 있게 하기 위해, 신호 유형 특성화 수단이 존재하는 것을 특징으로 하는, 오디오 신호 처리 장치.
  6. 제 1항에 있어서, 상기 변환은 상기 잡음 레벨 값에 기초하여 상기 들어온 오디오 신호의 스펙트럼 윤곽을 변경하는 것을 특징으로 하는, 오디오 신호 처리 장치.
  7. 제 1항에 있어서, 상기 변환은 상기 잡음 레벨 값에 기초하여 상기 들어온 오디오 신호의 워드 길이를 변경하는 것을 특징으로 하는, 오디오 신호 처리 장치.
  8. 들어온 오디오 신호에 존재하는 음성의 이해 가능성을 개선할 수 있는 텔레비전 수신기에 있어서,
    들어온 오디오 신호를 얻기 위한 오디오 입력, 나가는 오디오 신호를 출력하기 위한 오디오 출력, 및 상기 들어온 오디오 신호를 상기 나가는 오디오 신호로변환하는 프로세서를 포함하는 오디오 신호 처리 장치가 존재하고, 상기 변환은 상기 프로세서로 이용 가능한 잡음 레벨값에 기초하여, 롬바르드 효과의 양상으로부터 선택된 오디오 신호로의 적어도 하나의 변화를 변환 모델링함으로써 이루어지는 것을 특징으로 하는, 텔레비전 수신기.
  9. 들어온 오디오 신호에 존재하는 음성의 이해 가능성을 개선할 수 있는 라디오 프로그램 수신기에 있어서,
    들어온 오디오 신호를 입력하기 위한 오디오 입력, 나가는 오디오 신호를 출력하기 위한 오디오 출력, 및 상기 들어온 오디오 신호를 상기 나가는 오디오 신호로 변환하는 프로세서를 포함하는 오디오 신호 처리 장치가 존재하고, 상기 변환은 상기 프로세서로 이용 가능한 잡음 레벨값에 기초하여, 롬바르드 효과의 양상으로부터 선택된 오디오 신호로의 적어도 하나의 변화를 변환 모델링함으로써 이루어지는 것을 특징으로 하는, 라디오 프로그램 수신기.
  10. 오디오 신호에서의 음성의 이해 가능성을 증가시키는 방법으로서,
    - 들어온 오디오 신호를 얻기 위한 제 1 단계;
    - 상기 들어온 신호를 나가는 오디오 신호로 변환하는 제 2 단계; 및
    - 상기 나가는 오디오 신호를 출력하는 제 3 단계를 포함하는 오디오 신호에서의 음성의 이해 가능성을 증가시키는 방법에 있어서,
    상기 방법은 상기 나가는 오디오 신호의 재생 이해 가능성에 영향을 미치는잡음 정도를 나타내는 잡음 레벨 값을 얻고, 상기 잡음 레벨 값에 기초하여 오디오 신호 볼륨 제어가 아닌, 롬바르드 효과의 적어도 일 양상을 변환 모델링함으로써 상기 들어온 오디오 신호를 상기 나가는 오디오 신호로 변환하는 것을 특징으로 하는, 오디오 신호에서의 음성의 이해 가능성을 증가시키는 방법.
KR10-2004-7020390A 2002-06-19 2003-05-27 오디오 신호 처리 장치 KR20050010927A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP02077421 2002-06-19
EP02077421.2 2002-06-19
PCT/IB2003/002299 WO2004002028A2 (en) 2002-06-19 2003-05-27 Audio signal processing apparatus and method

Publications (1)

Publication Number Publication Date
KR20050010927A true KR20050010927A (ko) 2005-01-28

Family

ID=29797205

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2004-7020390A KR20050010927A (ko) 2002-06-19 2003-05-27 오디오 신호 처리 장치

Country Status (6)

Country Link
US (1) US20050246170A1 (ko)
EP (1) EP1518224A2 (ko)
JP (1) JP2005530213A (ko)
KR (1) KR20050010927A (ko)
AU (1) AU2003263380A1 (ko)
WO (1) WO2004002028A2 (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1814109A1 (en) * 2006-01-27 2007-08-01 Texas Instruments Incorporated Voice amplification apparatus for modelling the Lombard effect
US9058819B2 (en) * 2006-11-24 2015-06-16 Blackberry Limited System and method for reducing uplink noise
EP2232700B1 (en) 2007-12-21 2014-08-13 Dts Llc System for adjusting perceived loudness of audio signals
US8340333B2 (en) * 2008-02-29 2012-12-25 Sonic Innovations, Inc. Hearing aid noise reduction method, system, and apparatus
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8204742B2 (en) * 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
KR101115559B1 (ko) * 2010-11-17 2012-03-06 연세대학교 산학협력단 통화 품질 향상 방법 및 장치
JP5626366B2 (ja) * 2011-01-04 2014-11-19 富士通株式会社 音声制御装置、音声制御方法及び音声制御プログラム
WO2013013319A1 (en) * 2011-07-25 2013-01-31 Rudzicz Frank System and method for acoustic transformation
WO2013019562A2 (en) 2011-07-29 2013-02-07 Dts Llc. Adaptive voice intelligibility processor
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US20140257799A1 (en) * 2013-03-08 2014-09-11 Daniel Shepard Shout mitigating communication device
CN105336341A (zh) 2014-05-26 2016-02-17 杜比实验室特许公司 增强音频信号中的语音内容的可理解性
AU2015336275A1 (en) * 2014-10-20 2017-06-01 Audimax, Llc Systems, methods, and devices for intelligent speech recognition and processing
TWI790718B (zh) * 2021-08-19 2023-01-21 宏碁股份有限公司 會議終端及用於會議的回音消除方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2867425B2 (ja) * 1989-05-30 1999-03-08 日本電気株式会社 音声認識用前処理装置
JPH04156600A (ja) * 1990-10-19 1992-05-29 Ricoh Co Ltd 音声認識装置
JP2974423B2 (ja) * 1991-02-13 1999-11-10 シャープ株式会社 ロンバード音声認識方法
DE69231266T2 (de) * 1991-08-09 2001-03-15 Koninklijke Philips Electronics N.V., Eindhoven Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium
EP0527527B1 (en) * 1991-08-09 1999-01-20 Koninklijke Philips Electronics N.V. Method and apparatus for manipulating pitch and duration of a physical audio signal
US5412735A (en) * 1992-02-27 1995-05-02 Central Institute For The Deaf Adaptive noise reduction circuit for a sound reproduction system
BE1007355A3 (nl) * 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
US5907622A (en) * 1995-09-21 1999-05-25 Dougherty; A. Michael Automatic noise compensation system for audio reproduction equipment
GB9714001D0 (en) * 1997-07-02 1997-09-10 Simoco Europ Limited Method and apparatus for speech enhancement in a speech communication system
DE10058786A1 (de) * 2000-11-27 2002-06-13 Philips Corp Intellectual Pty Verfahren zum Steuerung eines eine akustische Ausgabeeinrichtung aufweisenden Geräts

Also Published As

Publication number Publication date
EP1518224A2 (en) 2005-03-30
JP2005530213A (ja) 2005-10-06
AU2003263380A1 (en) 2004-01-06
WO2004002028A2 (en) 2003-12-31
US20050246170A1 (en) 2005-11-03
AU2003263380A8 (en) 2004-01-06
WO2004002028A3 (en) 2004-02-12

Similar Documents

Publication Publication Date Title
US7231347B2 (en) Acoustic signal enhancement system
US8271292B2 (en) Signal bandwidth expanding apparatus
US7224810B2 (en) Noise reduction system
JP5530720B2 (ja) エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体
EP1252621B1 (en) System and method for modifying speech signals
JP2955247B2 (ja) 話速変換方法およびその装置
JP3875513B2 (ja) デジタルに圧縮されたスピーチの了解度を向上させる方法および装置
KR101334366B1 (ko) 오디오 배속 재생 방법 및 장치
JP2000511651A (ja) 記録されたオーディオ信号の非均一的時間スケール変更
KR20050010927A (ko) 오디오 신호 처리 장치
Tsilfidis et al. Blind single-channel suppression of late reverberation based on perceptual reverberation modeling
JP2000152394A (ja) 軽度難聴者用補聴装置、軽度難聴者対応伝送システム、軽度難聴者対応記録再生装置、及び軽度難聴者対応再生装置
JP2001184100A (ja) 話速変換装置
JP3378672B2 (ja) 話速変換装置
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
JP2905112B2 (ja) 環境音分析装置
JP3081469B2 (ja) 話速変換装置
JPH07111527A (ja) 音声の加工方法およびそれを用いた装置
JPH08110796A (ja) 音声強調方法および装置
JP2003259311A (ja) 映像再生方法、映像再生装置、映像再生プログラム
KR100359988B1 (ko) 실시간 화속 변환 장치
JP6313619B2 (ja) 音声信号処理装置及びプログラム
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体
JP4381108B2 (ja) 話速変換装置における時報処理装置
JPH09146587A (ja) 話速変換装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid