KR100610228B1 - 오디오 신호의 전송 품질 평가 방법 - Google Patents

오디오 신호의 전송 품질 평가 방법 Download PDF

Info

Publication number
KR100610228B1
KR100610228B1 KR1020007014483A KR20007014483A KR100610228B1 KR 100610228 B1 KR100610228 B1 KR 100610228B1 KR 1020007014483 A KR1020007014483 A KR 1020007014483A KR 20007014483 A KR20007014483 A KR 20007014483A KR 100610228 B1 KR100610228 B1 KR 100610228B1
Authority
KR
South Korea
Prior art keywords
signal
spectrum
received signal
transmission quality
source signal
Prior art date
Application number
KR1020007014483A
Other languages
English (en)
Other versions
KR20010086277A (ko
Inventor
주릭페로
Original Assignee
아스콤 아게
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아스콤 아게 filed Critical 아스콤 아게
Publication of KR20010086277A publication Critical patent/KR20010086277A/ko
Application granted granted Critical
Publication of KR100610228B1 publication Critical patent/KR100610228B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

소스 신호(예컨대, 음성 샘플)를 음성 코더(1)에 의해 처리하거나 전송하여 수신 신호(코드화 음성 신호)로 변환한다. 소스 신호와 수신 신호를 별개로 예비 처리(2) 및 정신 음향학적 모델링(3)에 의해 처리한다. 그에 뒤이어, 신호의 유사도를 평가하는 거리 계산(4)을 실행한다. 끝으로, 사람의 평가에 필적할 만한 결과를 얻기 위해 MOS 계산(5)을 실행한다. 본 발명에 따르면, 전송 품질을 평가하기 위해, 소스 신호의 스펙트럼과 수신 신호의 스펙트럼의 공분산을 계산하고 2개의 스펙트럼의 표준 편차로 나누는 것을 토대로 하여 스펙트럼 유사도 값을 결정하게 된다. 본 발명에 따른 방법은 사람의 청각 프로세스를 고려하면서도 객관적 평가(음성 품질 예측)가 얻어질 수 있도록 한다.
오디오 신호, 전송 품질 평가, 소스 신호, 수신 신호, 스펙트럼 유사도 값

Description

오디오 신호의 전송 품질 평가 방법{Method for executing automatic evaluation of transmission quality of audio signals}
본 발명은 전송하려는 소스 신호의 스펙트럼과 전송된 수신 신호의 스펙트럼을 주파수 영역에서 결정하는 방식의 기계를 이용한 오디오 신호, 특히 음성 신호의 전송 품질 평가 방법에 관한 것이다.
이동 무선 전화의 보급 및 그 지리적 커버 범위가 점차 증대됨에 따라 음성 채널의 전송 품질을 평가하는 것이 그 중요성을 더해가고 있다.
표준화된 0.3 내지 3.4 ㎑의 주파수 대역에 있는 전기 통신 채널을 경유하여 음성 신호를 완전하게 전송함으로써 약 98 %의 문장 이해도가 제공된다. 그러나, 단말기에 음성 코더를 구비하는 디지털 이동 무선 통신망의 도입으로 인해 음성의 이해도가 상당히 악화될 수 있다. 또한, 그러한 악화의 정도를 결정하는데도 다소 어려움이 있다.
음성 품질은 비트 율, 에코, 또는 볼륨에 비해서는 막연한 용어이다. 음성이 얼마나 양호하게 전송되는지에 따라 직접적으로 고객 만족을 판단할 수 있기 때문에, 코딩 방법은 그 음성 품질와 연관하여 선택되고 최적화될 필요가 있다. 음성 코딩 방법을 평가하기 위해, 매우 정교한 청각 테스트를 실행하는 것이 통상적 이다. 따라서, 선택적으로 얻어진 결과(Mean Opinion Score, Mos; 오피니언 평균값)와 가장 잘 상관되는 음성 성능 특징을 적절한 물리 측정량에 의해 측정하는 하드웨어 대체물을 보유하게 되는 것이 바람직하다.
EP 0 644 674 A2는 자동적으로 조정되는 레벨로 사람의 지각과 밀접하게 상관된 평가를 얻도록 할 수 있는 음성 전송로의 전송 품질 평가 방법을 개시하고 있다. 그것은 시스템이 전송 품질을 평가하여 숙련된 테스트 청취자에 의해 사용되는 바와 같은 척도를 적용할 수 있음을 의미한다. 그 핵심 사상은 무극성 통신망(neutral network)을 사용하는데 있다. 무극성 통신망은 음성 샘플을 사용하여 숙련된다. 그 궁극적 효과는 통합된 품질 평가가 이루어지는 것이다. 품질 손실의 이유는 다루어지지 않는다.
현대적 음성 코딩 방법은 데이터 압축를 실행하고, 매우 낮은 비트 율을 사용한다. 그러한 이유로, 예컨대 신호 대 잡음비(SNR)와 같은 간단한 공지의 객관적 방법은 만족할 만한 것이 되지 못한다.
본 발명의 목적은 사람의 청각 과정을 고려하면서도 객관적인 평가(음성 품질 예측)를 얻을 수 있도록 하는 서두에 언급된 방식의 방법을 제공하는 것이다.
그러한 목적은 청구항 1의 특징부에 정의된 방식으로 달성된다. 본 발명에 따르면, 전송 품질을 평가하기 위해, 소스 신호의 스펙트럼과 수신 신호의 스펙트럼의 공분산(covariance)을 계산하고 그 공분산을 상기 2개의 스펙트럼의 표준 편차로 나누는 것을 토대로 하여 스펙트럼 유사도 값을 결정하게 된다.
일련의 범위의 단계화된 음성 샘플에 따른 테스트 및 그와 관련된 청각 판정(MOS)의 결과, 본 발명에 따른 방법을 토대로 하여 청각 값과의 매우 양호한 상관성이 얻어질 수 있는 것으로 나타났다. 본 발명에 따른 방법은 무극성 통신망에 의거한 공지의 방법에 비해 다음과 같은 장점을 수반한다:
Figure 112000027215461-pct00001
기억 자원 및 CPU 자원을 보다 덜 요구함. 그것은 실시간 실행에 있어 중요한 것임.
Figure 112000027215461-pct00002
새로운 음성 샘플을 사용하기 위한 정교한 시스템 숙련을 필요로 하지 않음.
Figure 112000027215461-pct00003
시스템에 고유한 부최적화된 기준(suboptimal reference)이 없음. 본 방법에 의해 측정될 수 있는 가장 양호한 음성 품질은 음성 샘플의 그것과 상응함.
스펙트럼 유사도 값은 수신 신호의 스펙트럼과 소스 신호의 스펙트럼 간의 에너지 비의 함수로서 수신 신호의 에너지가 소스 신호의 에너지보다 더 낮을 때보다는 수신 신호의 에너지가 소스 신호의 에너지보다 더 클 때에 유사도 값을 더욱 크게 감소시키는 계수로 가중되는 것이 바람직하다. 그와 같이 하여, 수신 신호에 있는 여분의 신호 성분이 누락된 신호 성분보다 더 부방향으로 가중된다.
특히 바람직한 실시예에 따르면, 가중 계수는 수신 신호의 신호 에너지에도 의존하여 달라지게 된다. 수신 신호의 스펙트럼 대 소스 신호의 스펙트럼의 에너지 비가 임의의 값일 때에 유사도 값은 수신 신호의 신호 에너지가 높을수록 상응하게 더 큰 정도로 감소된다. 결과적으로, 수신 신호에서의 간섭에 의해 유사도 값에 미쳐지는 영향이 수신 신호의 에너지의 함수로서 제어된다. 그를 위해, 하나 는 미리 정해진 임계 값의 아래에 있고 다른 하나는 그 임계 값의 위에 있는 2개 이상의 레벨 윈도우가 정의된다. 바람직한 것은 다수의, 특히 3개의 레벨 윈도우가 임계 값의 위로 규정되는 것이다. 신뢰도 값은 그 안에 수신 신호가 놓여지는 레벨 윈도우에 따라 감소된다. 레벨이 높을수록 더 크게 감소된다.
기본적으로, 본 발명은 임의의 오디오 신호에 사용될 수 있다. 오디오 신호가 비활성기를 포함할 경우(음성 신호의 경우에 전형적인 바와 같이)에 권장할 만한 것은 활성기와 비활성기에 대해 별도로 품질 평가를 실행하는 것이다. 그 에너지기 미리 정해진 임계 값을 초과하는 신호 세그먼트는 활성기로 배정되고, 다른 세그먼트는 휴지기(비활성기)로서 분류된다. 그 경우, 전술된 스펙트럼 유사도는 활성기에 대해서만 계산된다.
비활성기(예컨대, 음성 휴지기)의 경우에는 휴지기 에너지의 함수로서 점차 감소하는 다음의 품질 함수를 사용할 수 있다.
Figure 112000027215461-pct00004
수학식 1에서, A는 적절히 선택된 상수이고, Emax는 최대로 가능한 휴지기 에너지의 값이다.
전송의 전체적인 품질(즉, 실제 전송 품질)은 활성기의 품질과 비활성기의 품질의 가중된 선형 조합에 의해 주어진다. 그 경우, 가중 계수는 활성기가 특히 그 활성기에 유리한 비선형적 방식으로 나타내는 총 신호의 비율에 따라 달라진다. 예컨대 50 %의 경우에는 활성기의 품질이 예컨대 90 % 정도로 될 수 있다.
즉, 휴지기 또는 휴지기에서의 간섭은 활성기 신호와는 별개로, 그리고 그에 비해서는 덜 고려된다. 그것은 휴지기에는 실질적으로 정보가 전송되는 것은 아니지만 휴지기에 간섭이 일어나게 되면 불쾌한 것으로서 인지된다는 것을 설명하고 있다.
특히 바람직한 실시예에 따르면, 시간 영역에서 샘플링된 소스 신호와 수신 신호의 값은 수 밀리세컨드 내지 수십 밀리세컨드(예컨대, 16 ㎳)만큼 서로 중첩되는 데이터 프레임에서 조합된다. 그러한 중첩에 의해, 적어도 부분적으로 사람의 청각계에 고유한 타임 마스킹(time masking)이 형성된다.
또한, 주파수 영역으로의 변환 후에 현재 프레임의 스펙트럼에 선행 프레임의 감쇠된 스펙트럼을 합하면 타임 마스킹이 거의 실재적으로 재현되게 된다. 그 경우, 스펙트럼 성분은 상이하게 가중되는 것이 바람직하다. 선행 프레임에 있는 저주파 성분은 고주파 성분보다 더 크게 가중된다.
타임 마스킹을 실행하기 전에 스펙트럼 성분을 α
Figure 112000027215461-pct00005
1(예컨대, α= 0.3)의 값으로 지수 함수화시킴으로써 스펙트럼 성분의 압축을 실행하는 것이 권장할 만하다. 그것은 주파수 대역에서 다수의 주파수가 동시에 발생할 경우에 청각계에 과민 반응이 일어나기 때문이다. 즉, 총 볼륨이 개개의 주파수의 합의 볼륨보다 더 큰 것으로서 인지된다. 궁극적인 효과로서, 그것은 성분들이 압축되는 것을 의미한다.
본 발명에 따른 평가 결과와 주관적인 사람 지각과의 사이에 양호한 상관성 을 얻기 위한 또 다른 방안은 프레임의 스펙트럼을 비대칭적 "스미어링 함수(smearing function)"로 콘볼루팅하는 것이다. 그러한 수학적 조작은 유사도를 결정하기 전에 소스 신호와 수신 신호의 양자에 모두 적용된다.
스미어링 함수는 주파수/음의 크기 도표에서 그 좌측 에지가 그 우측 에지보다 더 가파른 삼각형 함수로 되는 것이 바람직하다.
스펙트럼은 콘볼루팅하기 전에 ε
Figure 112000027215461-pct00006
1(예컨대, ε= 4/3)의 값으로 지수 함수화시킴으로써 부가적으로 확대될 수도 있다. 그에 의해, 사람의 귀의 음의 크기 함수 특성이 모사된다.
이후의 상세한 설명 및 특허 청구 범위에서는 본 발명의 또 다른 바람직한 실시예 및 본 발명의 특징의 조합에 관해 설명하기로 한다.
예시적인 실시예를 설명하는데 사용되는 첨부 도면 중에서,
도 1은 처리의 원리를 설명하기 위한 개략적인 블록 선도이고;
도 2는 품질 평가를 실행하기 위한 방법의 개별 스텝의 블록 선도이며;
도 3은 해밍 윈도우(Hamming window)의 예를 나타낸 도면이고;
도 4는 주파수/음조 변환을 계산하기 위한 가중 함수를 나타낸 도면이며;
도 5는 전화 필터의 주파수 응답을 나타낸 도면이고;
도 6은 2차원 음장용 등볼륨 곡선을 나타낸 도면이며(Ln은 볼륨이고, N은 음의 크기임);
도 7은 타임 마스킹(time masking)을 개략적으로 나타낸 도면이고;
도 8은 음의 크기 함수(손)를 1 ㎑ 톤의 음 레벨(폰)의 함수로서 나타낸 도면이며;
도 9는 스미어링 함수(smearing function)를 나타낸 도면이고;
도 10은 음성 계수를 소스 신호 중의 음성 비율의 함수의 형태로 나타낸 그래프이고;
도 11은 휴지기에서의 품질을 휴지기에서의 음성 에너지의 함수의 형태로 나타낸 그래프이며;
도 12는 게인 상수를 에너지 비의 함수로서 나타낸 그래프이고;
도 13은 타임 마스킹을 실행하기 위한 가중 계수를 주파수 성분의 함수로서 나타낸 그래프이다.
이하, 구체화된 예시적인 실시예를 첨부 도면을 참조로 하여 설명하기로 한다.
도 1은 처리의 원리를 나타내고 있다. 음성 샘플은 소스 신호 x(i)로서 사용된다. 그러한 소스 신호 x(i)를 음성 코더(1)에 의해 전송하여 수신 신호 y(i)(코드화 음성 신호)로 변환한다. 전술된 신호들은 디지털 형태이다. 샘플링 주파수는 예컨대 8 ㎑이고, 디지털 양자화는 16 비트로 이루어진다. 데이터 포맷은 PCM(Pulse Code Modulation; 펄스 코드 변조)(압축을 동반하지 않는) 방식인 것이 바람직하다.
소스 신호와 수신 신호를 별개로 예비 처리(2) 및 정신 음향학적 모델링(3) 에 의해 처리한다. 그에 뒤이어, 신호의 유사도를 평가하는 거리 계산(4)을 실행한다. 끝으로, 사람의 평가에 필적할 만한 결과를 얻기 위해 MOS 계산(5)을 실행한다.
도 2는 후술될 절차를 명료하게 나타내고 있다. 소스 신호와 수신 신호는 동일한 처리 루트를 따른다. 간단히 하기 위해, 프로세스가 단지 한 차례만 도시되었다. 그러나, 거리 측정 값이 결정될 때까지 2개의 신호가 별개로 취급되는 것은 자명하다.
소스 신호는 그 음성학적 주파수 통계가 진정한 음성에 가능한 한 잘 부합되도록 선택된 문장을 토대로 한다. 문맥상의 청취력을 배제하기 위해, 로가톰(logatom)으로서 지칭되는 뜻이 없는 음절을 사용한다. 음성 샘플은 가능한 한 일정한 음성 레벨로 되어야 한다. 음성 샘플의 길이는 3 내지 8 초(전형적으로 5 초)이다.
신호 조건화: 제1 스텝에서는 소스 신호를 벡터 x(i)에 넣고, 수신 신호를 벡터 y(i)에 넣는다. 2개의 신호는 시간 및 레벨에 대해 동기화될 필요가 있다. 이어서, 각각의 샘플 값으로부터 평균 값을 뺌으로써 DC 성분을 제거한다:
Figure 112000027215461-pct00007
또한, 신호에 있는 불변 게인은 고려되지 않기 때문에, 신호를 공통의 RMS(Root Mean Square; 제곱 평균 값의 제곱근)에 대해 정규화시킨다:
Figure 112000027215461-pct00008
다음 스텝은 프레임을 형성하는 것이다: 양자의 신호를 32 ㎳ 길이의 세그먼트로 분할한다(8 ㎑에서 256 샘플 값). 그러한 프레임은 추후의 모든 처리 스텝에서의 처리 단위가 된다. 프레임 중첩은 50 %인 것이 바람직하다(128 샘플 값).
그에 뒤이어, 헤밍 윈도윙(Hamming windowing)(6)(도 2를 참조)을 실행한다. 제1 처리 스텝에서는 프레임에 대해 시간 가중 처리를 한다. 소위 헤밍 윈도우(hamming window)(도 3을 참조)가 생성되는데, 그것을 프레임의 신호 값에 곱한다.
Figure 112000027215461-pct00009
그러한 윈도윙의 목적은 시간에 따른 무한 신호에 특정 범위의 밖에서 소멸하는(0과 동일함) 윈도우 함수를 곱함으로써 그 시간에 따른 무한 신호를 시간적에 따른 유한 신호로 변환하는 것이다.
Figure 112000027215461-pct00010
이제, 시간 영역에서의 소스 신호 x(t)를 불연속 푸리에 변환(도 2를 참조: DFT(7))에 의해 주파수 영역으로 변환한다. 윈도윙에 의해 생성된 시간에 따른 불 연속 수열 x(i)(단, i = 0,1,2,...,N)에 있어서, 주기가 N인 경우에 소스 신호 x(i)에 대한 복소 푸리에 변환 C(j)는 다음과 같다:
Figure 112000027215461-pct00011
코드화 신호 또는 수신 신호 y(i)에 대해서도 동일한 복소 푸리에 변환이 이루어진다:
Figure 112000027215461-pct00012
다음 스텝에서는 스펙트럼의 진폭을 계산한다(도 2를 참조: 진폭 산출(8)). 지수 x는 항상 소스 신호를, 그리고 지수 y는 항상 수신 신호를 지시한다:
Figure 112000027215461-pct00013
이어서, 임계 주파수 대역으로의 분할을 실행한다(도 2를 참조: Bark 변환(9)).
그 경우, E. Zwicker, Psychoakustik, 1982에 의한 변형 모델을 사용한다. 사람 귀에 있는 기저막은 주파수 스펙트럼을 임계 주파수 군으로 분할한다. 그러한 주파수 군은 음의 크기를 인지하는데 중요한 역할을 한다. 저주파에서는 주파수 군이 100 ㎐의 일정한 대역 폭으로 되고, 500 ㎐ 를 넘는 주파수에서는 대역 폭이 주파수에 비례하여 증가된다(대역 폭은 각각의 중간 주파수의 약 20%와 동일함). 그것은 주파수 대역이 가변적일지라도, 즉 중간 주파수가 각각의 음 이벤트에 의해 정해질지라도 주파수 대역으로 신호를 처리하는 사람의 청력 특성에 대략적으로 부합되는 것이다.
아래의 표 1은 음조 z, 주파수 f, 주파수 군 폭 Δf, 및 FFT 지수 간의 관계를 나타낸 것이다. FFT 지수는 FFT 해상도, 256에 상응한다. 100 내지 4000 ㎐의 대역 폭만이 후속 계산을 위한 관심의 대상이 된다.
Z[Bark] F(low)[Hz] △F[Hz] FFT 지수
0 0 100
1 100 100 3
2 200 100 6
3 300 100 9
4 400 100 13
5 510 110 16
6 630 120 20
7 770 140 25
8 920 150 29
9 1080 160 35
10 1270 190 41
11 1480 210 47
12 1720 240 55
13 2000 280 65
14 2320 320 74
15 2700 380 86
16 3150 450 101
17 3700 550 118
18 4400 700
19 5300 900
20 6400 1100
21 7700 1300
22 9500 1800
23 12000 2500
24 15500 3500
여기에서 적용되는 윈도우는 단순화의 역할을 한다. 모든 주파수 군은 1 Bark의 폭 ΔZ(z)로 된다. Bark 단위의 음조 스케일 z는 다음의 식에 따라 계산된다:
Figure 112000027215461-pct00014
단, f는 [㎑] 단위이고, Z는 [Bark] 단위이다.
1 Bark의 음조 차는 기저막 상의 1.3 밀리미터 섹션(150 헤어 셀)에 해당한다. 실제의 주파수/음조 변환은 다음의 식에 따라 간단히 실행될 수 있다:
Figure 112000027215461-pct00015
lf[j]는 대역 j에 대한 최초 샘플의 헤르쯔 스케일 단위의 지수이고, ll[j]는 마지막 샘플의 헤르쯔 스케일 단위의 지수이다. Δfj는 대역 j의 헤르쯔 단위의 대역 폭을 지시하고 있다. q(f)는 가중 함수이다(도 5를 참조). 불연속 푸리에 변환은 단지 불연속 점에서의 스펙트럼의 값(주파수)만을 제공하기 때문에, 대역의 경계는 각각 그러한 주파수 상에 놓여지게 된다. 대역 경계에서의 값은 단지 각각의 이웃한 윈도우에서의 절반 가중 값으로만 주어진다. 대역 경계는 N*8000/256 ㎐에 있다: N = 3, 6, 9, 13, 16, 20, 25, 29, 35, 41, 47, 55, 65, 74, 86, 101, 118.
0.3 내지 3.4 ㎑의 전화 대역 폭에서는 음조 스케일 상의 17개의 값이 사용되는데, 그 경우에 그들 값은 입력에 해당한다. 결과적으로 얻어지는 128 개의 FFT 값 중에서 0 ㎐ 내지 94 ㎐의 주파수 범위에 해당하는 최초 2개와 3700 ㎐ 내 지 4000 ㎐의 주파수 범위에 해당하는 마지막 10개는 생략된다.
이어서, 양자의 신호를 그 주파수 응답이 해당 전화 세트의 수신 곡선에 상응하는 필터로 필터링한다(도 2를 참조: 전화 대역 필터링(10)).
Figure 112000027215461-pct00016
수학식 11에서, Filt[j]는 전화 세트의 주파수 특성 곡선의 대역 j에서의 주파수 응답이다(ITU-T 권장 부록 D/P.830에 따라 정의된 것임).
도 5는 그러한 필터의 (대수) 값을 나타낸 그래프이다.
선택적으로 폰(phon) 곡선을 계산할 수도 있다(도 2를 참조: 폰 곡선 계산(11)). 그와 관련하여 설명한다면 다음과 같다:
임의의 음의 볼륨은 평면 파에서 테스트 개체에 정면으로 입사될 경우에 측정하려는 음과 동일한 볼륨 인지를 유발하는 1 ㎑ 톤(tone)의 음 레벨로서 정의된다(E. Zwicker, Psychoakustik, 1982를 참조). 즉, 상이한 주파수에 대한 등볼륨의 곡선이 인용된다. 그러한 곡선은 도 6에 나타나 있다.
도 6에서 알 수 있는 바와 같이, 예컨대 3 폰의 볼륨 레벨에서의 100 ㎐ 톤은 25 ㏈의 음 레벨로 된다. 그러나, 40 폰의 볼륨 레벨에서는 동일한 톤이 50 ㏈의 음 레벨로 된다. 또한, 예컨대 100 ㎐ 톤의 경우에 음 레벨이 4 ㎑ 톤의 경우에 비해 30 ㏈ 더 커야만 양자가 귀에 동일한 음의 크기를 일으킬 수 있다는 것을 알 수 있다. 본 발명에 따른 모델에서는 신호 PxPy에 상보 함수를 곱함으로써 근사가 이루어지게 된다.
사람의 청력은 하나의 대역에서 동시에 다수의 스펙트럼 성분이 발생할 때에, 즉 총 볼륨이 개개의 볼륨의 선형 합보다 더 크게 인지될 때에 과민 반응을 하게 되므로, 개개의 스펙트럼 성분이 압축된다. 압축된 특정의 음의 크기는 1 손(sone)의 단위량으로 된다. 폰/손 변환(12)(도 2를 참조)을 실행하기 위해, 본 경우에는 Bark 단위의 입력을 멱 지수 α= 0.3으로 압축한다:
Figure 112000027215461-pct00017
바람직한 예시적 실시예의 중요한 특징 중의 하나는 타임 마스킹(time masking)의 모델링이다.
사람의 귀는 매우 가깝게 연속적으로 도달하는 2개의 짧은 테스트 음을 구별할 수 없다. 도 7은 시간 종속 프로세스를 나타내고 있다. 200 ㎳의 지속 시간의 마스커는 짧은 톤 펄스를 마스킹한다. 마스커가 시작되는 시간은 0으로 지시되어 있다. 시간은 좌측에서 마이너스로 된다. 두 번째의 시간 스케일은 마스커가 종료하는 시점에서 시작된다. 마스커가 시작되기 전에는 사전 마스킹이 일어난다. 그 직후는 동시적 마스킹기이고, 마스커의 종료 직후는 사후 마스킹기이다. 사후 마스킹(잔향)에 대한 논리적 설명이 존재한다. 사전 마스킹은 마스커가 시작되기 전에도 일어난다. 청각 인지는 곧바로 일어나지 않는다. 인지를 일으키기 위해서는 처리 시간이 요구된다. 센 음은 빠른 처리에 의해 주어지고, 청력 임계 값에 있는 약한 음은 더 오랜 처리에 의해 주어진다. 사전 마스킹은 약 20 ㎳ 동안 지속되고, 사후 마스킹은 약 100 ㎳ 동안 지속된다. 따라서, 사후 마스킹이 지배적 인 작용을 한다. 사후 마스킹은 마스커의 지속 시간 및 마스킹 음의 스펙트럼에 따라 달라진다.
타임 마스킹은 단지 신호 처리에서 프레임을 중첩시키는 것만에 의해 개략적으로 근사된다. 32 ㎳의 프레임 길이(256 샘플 값 및 8 ㎑의 주파수)에서는 중첩 시간이 16 ㎳이다(50 %). 중간 주파수 및 고주파에 대해서는 그 정도로 충분하다. 저주파의 경우에는 그러한 마스킹이 더욱 길어진다(
Figure 112000027215461-pct00018
120 ㎳). 이어서, 그러한 타임 마스킹을 선행 프레임의 감쇠된 스펙트럼을 합하는 것으로서 실행한다(도 2를 참조: 타임 마스킹(15)). 그 경우, 감쇠는 각각의 주파수 대역에서 상이하게 이루어진다:
Figure 112000027215461-pct00019
수학식 13에서, coeff(j)는 가중 계수이고, 그것은 다음의 식에 따라 계산된다:
Figure 112000027215461-pct00020
수학식 14에서, Frame length는 예컨대 256 개의 샘플 값에서의 프레임의 길이이고, NoOfBarks는 프레임 내에서의 Bark 값의 수이다(본 경우에 예컨대 17). Fc는 샘플링 주파수이고, η= 0.001이다.
타임 마스킹을 실행하기 위한 주파수 성분의 함수로서의 가중 계수는 도 13의 예에 나타나 있다. 가중 계수가 Bark 지수의 증가에 따라(즉, 주파수의 상승에 따라) 감소되는 것을 명확히 알 수 있다.
본 경우에 있어서, 타임 마스킹은 단지 사후 마스킹의 형태로 제공될 뿐이다. 그와 관련하여, 사전 마스팅은 무시할 만한 정도이다.
또 다른 처리 단계에서는 신호의 스페트럼을 "스미어링(smearing)"한다(도 2를 참조: 주파수 스미어링(13)). 그러한 스미어링의 배경은 사람의 귀가 서로 이웃한 2개의 주파수 상분을 명료하게 구별할 수 없다는데 있다. 주파수 스미어링의 정도는 해당 주파수, 그 진폭, 및 기타의 인자에 따라 달라진다.
귀의 수신 변수는 음의 크기이다. 그것은 측정하려는 음이 표준 음에 비해얼마나 더 세거나 약한지를 가리키는 것이다. 그러한 방식으로 규명된 수신 변수는 비율형 음의 크기(ratio loudness)로서 지칭된다. 1 ㎑의 음 레벨은 표준 음으로서 유용한 것으로 입증되었다. 1 손의 음의 크기는 40 ㏈의 레벨로 된 1 ㎑ 톤에 배정된다. E. Zwicker, Psychoakustik, 1982에서는 음의 크기 함수의 정의가 다음과 같이 기술되어 있다:
Figure 112000027215461-pct00021
도 8은 1 ㎑ 톤에 대한 음의 크기 함수(손)를 음 레벨(폰)의 함수로서 나타낸 것이다.
본 발명에 따른 예시적 실시예의 범위에서는 그러한 음의 크기 함수가 다음과 같이 근사된다:
Figure 112000027215461-pct00022
수학식 16에서, ε= 4/3이다.
본 시점에서 스펙트럼이 확대된다(도 2를 참조: 음의 크기 함수 변환(14)).
이제 존재하게 된 스펙트럼을 계수의 불연속 수열로 콘볼루팅한다(콘볼루션). 그 결과는 주파수 축에 걸친 스펙트럼의 스미어링에 해당한다. 2개의 수열 xy의 콘볼루션은 상대적으로 복잡한 시간 범위에서의 수열의 콘볼루션 또는 그 푸리에 변환의 곱셈에 해당한다. 시간 영역에서는 다음의 식으로 된다:
Figure 112000027215461-pct00023
수학식 17에서, m은 수열 x의 길이이고, n은 수열 y의 길이이다. 결과 c 는 k = m + n -1의 길이로 된다. j = max(1, k + 1 -n):min(k, m)이다.
주파수 영역에서는 다음의 식으로 된다:
Figure 112000027215461-pct00024
본 예에서, x는 길이가 17(m =17)인 신호 Px"Py"로 치환되고, y는 길이 가 9(n = 9)인 스미어링 함수 Λ로 치환된다. 따라서, 그 결과는 17 + 9 -1 = 25(k = 25)의 길이로 된다.
Figure 112000027215461-pct00025
Λ(f)는 그 형태가 도 9에 도시되어 있는 스미어링 함수이다. 그 스미어링 함수는 비대칭적이다. 좌측 에지는 주파수 성분 1에서의 - 30의 음의 크기로부터 주파수 성분 4에서의 0의 음의 크기까지 상승한다. 이어서, 그 스미어링 함수는 다시 직선으로 주파수 성분 9애서의 - 30의 음의 크기까지 하강한다. 즉, 스미어링 함수는 비대칭적인 삼각형 함수이다.
그와 같이 하여, 정신 음향학적 모델링(3)(도 1을 참조)이 끝나게 된다. 이어서, 품질 계산이 뒤따르게 된다.
소스 신호와 수신 신호의 가중된 스펙트럼 간의 거리를 다음과 같이 계산한다:
Figure 112000027215461-pct00026
수학식 20에서, Q sp 는 음성기(활성 신호기) 동안의 거리이고 Q pa 는 휴지기(비활성 신호기) 동안의 거리이다. η sp 는 음성 계수이고, η pa 는 휴지 계수이다.
우선, 음성이 활성화되어 있는 신호 수열을 찾는 것을 목표로 하여 소스 신호의 신호 분석을 실행한다. 즉, 다음의 식에 따라 소위 에너지 프로파일 En profile 을 형성한다:
Figure 112000027215461-pct00027
SPEECH_THR은 그 미만에서 음성이 비활성화되는 임계 값을 정의하는데 사용된다. 통상, 그것은 AD 변환기의 최대 동적 응답에 대해 + 10 ㏈에 있다. 16 비트 해상도에서는 SPEECH_THR = - 96.3 + 10 = - 86.3 ㏈이다. PACE에서는 SPEECH_THR = - 80 ㏈이다.
품질은 소스 신호와 수신 신호 간의 유사도 Q TOT 에 간접적으로 비례한다. Q TOT = 1은 소스 신호와 수신 신호가 정확히 동일하다는 것을 의미한다. Q TOT = 0의 경우에는 그러한 2개의 신호가 거의 유사성이 없게 된다. 음성 계수 η sp 를 다음의 식에 따라 계산한다:
Figure 112000027215461-pct00028
수학식 22에서, μ= 1.01이고, Psp는 음성 비율이다.
도 10에 도시된 바와 같이, 음성 비율이 높아지면 음성 수열의 영향이 더욱 커진다(음성 계수가 더욱 커짐). 예컨대, μ= 1.01 및 Psp = 0.5 (50 %)에서는 음성 계수가 η sp = 0.91이다. 즉, 신호에 있는 음성 수열의 영향은 91 %이고, 휴지 수열의 영향은 단지 9 %(100 - 91)에 불과하다. μ= 1.07에서는 음성 수열의 영향이 보다 더 작아진다(80 %).
이어서,다음의 식에 따라 휴지 계수를 계산한다:
Figure 112000027215461-pct00029
휴지기에서의 품질은 음성기에서의 품질과 동일하게 계산되지 않는다.
Q pa 는 휴지기에서의 신호 에너지를 표현하는 함수이다. 그러한 에너지가 증가할 때에는 Q pa 의 값이 보다 더 작아진다(품질의 열화에 해당함):
Figure 112000027215461-pct00030
k n 은 미리 정해진 상수이고, 본 경우에는 0.01의 값으로 된다. E pa 는 수신 신호에 대한 휴지기에서의 RMS 신호 에너지이다. 그러한 에너지는 소스 신호에서의 휴지기의 RMS 신호 에너지보다 더 클 때에만 Q pa 값에 영향을 미친다. 즉, E pa = max(Eref pa , E pa )이다. 가장 작은 E pa 는 2이다. E max 는 주어진 디지털 해상도에 대한 최대 RMS 신호 에너지이다(16 비트 해상도의 경우에 E max = 32768). 수학식 24에서의 값 m은 E pa = 2에 대한 상관 계수이고, 그에 따라 그 경우에 Q pa = 1이다. 즉, 그러한 상관 계수를 다음과 같이 계산한다:
Figure 112000027215461-pct00031
E max = 32768, E min = 2, 및 k n = 0.01인 경우에 m = 0.003602이다. 밑수 kn*(kn+1/kn)은 실질적으로 적절히 선택된 상수로서 간주될 수 있다.
도 11은 휴지기에서의 신호의 RMS 에너지와 Q pa 간의 관계를 나타내고 있다.
음성기의 품질은 소스 신호의 스펙트럼과 수신 신호의 스펙트럼 간의 "거리(distance)"에 의해 판단된다.
우선, 4개의 레벨 윈도우를 정의한다. 제1 번 윈도우은 - 96.3 ㏈로부터 - 70 ㏈까지, 제2 번 윈도우는 - 70 ㏈로부터 - 46 ㏈까지, 제3 번 윈도우는 - 46 ㏈로부터 - 26 ㏈까지, 그리고 제4 번 윈도우는 - 26 ㏈로부터 0 ㏈까지 각각 연장된다. 그 레벨이 제1 번 윈도우에 놓여지는 신호는 휴지기로서 해석되어 Q sp 의 계산에 산입되지 않는다. 4개의 레벨 윈도우로 세분함으로써 다중 해상도가 제공된다. 그와 유사한 절차가 사람의 귀에서도 일어난다. 즉, 신호에 있는 간섭의 영향을 그 에너지의 함수로서 제어하는 것이 가능하다. 가장 높은 에너지에 해당하는 제4 번 윈도우는 최대의 가중에 의해 주어진다.
음성 프레임 k 및 레벨 윈도우 i에 대한 음성기에서의 소스 신호의 스펙트럼과 수신 신호의 스펙트럼 간의 거리 Q sp (i, k)를 다음과 같이 계산한다:
Figure 112000027215461-pct00032
수학식 26에서, Ex(k)는 프레임 k에서의 소스 신호의 스펙트럼이고, Ey(k)는 프레임 k에서의 수신 신호의 스펙트럼이다. n은 프레임의 스펙트럼 해상도를 지시하고 있다. n은 시간 프레임에서의 Bark 값의 수(예컨대, 17)에 해당한다. 프레임 k에서의 평균 스펙트럼은
Figure 112000027215461-pct00033
로 지시되어 있다. G i, k 는 그 값이 에너지 비
Figure 112000027215461-pct00034
에 의존하는 프레임 종속 게인 상수 및 윈도우 의존 게인 상수이다.
도 12에는 G i, k 가 에너지 비의 함수의 형태로 그래프로 도시되어 있다.
그러한 게인이 1과 동일할 때(수신 신호에서의 에너지가 소스 신호에서의에너지와 동일할 때)에는 역시 G i, k = 1이다.
수신 신호에서의 에너지가 소스 신호에서의 에너지와 동일할 때에는 G i, k 가 1과 동일하다. 그것은 Q sp 에 영향을 미치지 않는다. 다른 모든 값들이 소스 신호로부터의 보다 더 큰 거리에 해당하는(수신 신호의 품질이 보다 저 낮은) 보다 더 작은 G i, k 또는 Q sp 를 유도한다. 수신 신호의 에너지가 소스 신호의 에너지보다 더 클 때, 즉 에너지 비
Figure 112000027215461-pct00035
1일 때에는 게인 상수가 다음의 방정식을 따라 거동한다:
Figure 112000027215461-pct00036
에너지 비
Figure 112000027215461-pct00037
인 경우에는 다음의 방정식을 따른다:
Figure 112000027215461-pct00038
개개의 레벨 윈도우에 대한 ε HI ε LO 의 값은 아래의 표 2에서 찾아볼 수 있다.
윈도우 번호 i εHI εLO θ γSD
2 0.05 0.025 0.15 0.1
3 0.07 0.035 0.25 0.3
4 0.09 0.045 0.6 0.6
전술된 게인 상수는 수신 신호에서 과잉 성분을 유발하여 누락된 성분보다 더 큰 정도로 거리를 증대시키게 된다.
수학식 26으로부터, 분자는 공분산 함수에 해당하고, 분모는 2개의 표준 편차의 적에 해당한다는 것을 알 수 있다. 즉, k 번째 프레임 및 레벨 인도우 i에 대해 거리는 다음과 같게 된다:
Figure 112000027215461-pct00039
위의 표 2로부터도 알 수 있는 각각의 레벨 윈도우에 대한 θγ SD 의 값은 개개의 Q sp (i, k)를 단일의 거리 측정 값 Q sp 로 변환하는데 필요로 하게 된다.
그 길이가 상이할 수 있는 3개의 Q sp (i) 벡터가 신호의 성분의 함수로서 얻어진다. 제1 근사에 있어서, 각각의 레벨 윈도우에 대한 평균을 다음과 같이 계산한다:
Figure 112000027215461-pct00040
수학식 30에서, N은 Q sp (i) 벡터의 길이 또는 각각의 음성 윈도우 i에 대한 음성 프레임의 수이다.
이어서, Q sp (i) 벡터의 표준 편차 SD i 를 다음과 같이 계산한다:
Figure 112000027215461-pct00041
수학식 31에서, SD는 코드화 신호에서의 간섭의 분포를 나타낸다. 버스트형 잡음, 예컨대 펄스 잡음의 경우에는 SD 값이 상대적으로 큰 반면에, 균일하게 분포된 잡음의 경우에는 SD 값이 작게 된다. 사람의 귀도 역시 펄스형 방해를 더욱 강렬하게 인지한다. 그 전형적인 경우는 예컨대 AMPS와 같은 아날로그 전송 통신망에 의해 생긴다
따라서, 신호가 얼마나 잘 분포되어 있는지에 따른 영향은 다음과 같이 이행된다:
Figure 112000027215461-pct00042
최종적으로 다음의 식이 성립한다:
Figure 112000027215461-pct00043
이어서, 음성기의 품질 Qsp 를 다음의 식에 따라 개개의 윈도우 품질의 합으로서 계산한다:
Figure 112000027215461-pct00044
가중 계수 U i 는 다음의 식을 사용하여 결정된다:
Figure 112000027215461-pct00045
η sp 는 수학식 22에 따른 가중 계수이고, p i 는 윈도우 i에 대한 신호의 가중 소속도(weighted degree of membership)에 해당하고 다음의 식을 사용하여 계산된다:
Figure 112000027215461-pct00046
수학식 36에서, N i 는 윈도우 i에서의 음성 프레임의 수이고, N sp 는 음성 프레임의 총 수이며, 모든 θ의 합은 1과 동일하다:
Figure 112000027215461-pct00047
즉,
Figure 112000027215461-pct00048
의 비 또는 θ i 가 클수록 각각의 음성 프레임에서의 간섭의 중요성이 보다 더 커지게 된다.
물론, 신호 레벨에 종속하지 않는 게인 상수의 경우에는 ε HI , ε LO , θ, 및 γ SD 의 값을 각각의 윈도우에 대해 동일한 것으로서 선택할 수도 있다.
도 2는 거리 측정 값 계산(16)까지의 해당 처리 세그먼트를 나타내고 있다. 품질 계산(17)에서는 Q TOT 의 값(수학식 20)을 수립하게 된다.
그 모든 것은 MOS 계산(5)으로 종착된다. 그러한 변환은 Q TOT 를 정확한 품질 스케일로 표현할 수 있도록 하기 위해 요구되는 것이다. MOS 단위에 따른 품질 스케일은 ITU T P.800 "전송 품질의 주관적 결정 방법(Method for subjective determination of trasmission quality)", 08/96에 정의되어 있다. 통계적으로 의의가 있는 다수의 측정 값을 취한다. 이어서, 모든 측정 값을 도표에 개개의 점으로서 나타낸다. 이어서, 모든 점을 통해 이차 다항식의 형태로 추이 곡선을 그린다.
Figure 112000027215461-pct00049
이제, 그러한 MOSo 값은 미리 정해진 MOS 값에 해당하게 된다. 가장 양호한 경우에는 2개의 값이 동일하게 된다.
전술된 방법은 공공용 하드웨어 및/또는 소프트웨어로 실행될 수 있다. 전술된 수학식들은 별 어려움이 없이 프로그래밍될 수 있다. 소스 신호의 처리는 미리 실행되고, 단지 예비 처리 및 정신 음향학적 모델링(타임마스킹 모델링과 스미어링)의 결과만이 저장된다. 수신 신호는 예컨대 온라인으로 처리될 수 있다. 신호 스펙트럼 상에서의 거리 계산을 실행하기 위해, 소스 신호의 해당 저장 값을 사용한다.
본 발명에 따른 방법을 다양한 조건 하에서 각종의 음성 샘플로 테스트하였다. 샘플의 길이는 4 내지 16 초로 다양하게 되어 있었다.
실제의 통신망에서 다음의 음성 전송을 테스트하였다.
Figure 112000027215461-pct00050
통상의 ISDN 접속
Figure 112000027215461-pct00051
GSM-FR ↔ISDN 및 단독의 GSM-FR
Figure 112000027215461-pct00052
ADPCM (G.726) 또는 LD-CELP (G.728) 코덱(codec)을 구비하는 DCME 장치 를 경유한 각종의 전송
모든 접속을 상이한 음성 레벨로 가행하였다.
시뮬레이션은 다음의 것들을 포함하였다:
Figure 112000027215461-pct00053
각종의 비트 에러율에 따른 CDMA COdec(IS-95)
Figure 112000027215461-pct00054
에코 소거기를 켜 놓은 상태에서의 YDMA Codec(IS-54 및 IS-641)
Figure 112000027215461-pct00055
부가적인 배경 잡으 및 각종의 주파수 응답
각각의 테스트는 일련의 평가 음성 샘플 및 그와 관련된 청각 판정(MOS)으로 이루어진다. 본 발명에 따른 방법과 청각 값 간에는 매우 높은 상관성이 얻어졌다.
요약하여 말한다면,
Figure 112000027215461-pct00056
타임 마스킹의 모델링
Figure 112000027215461-pct00057
주파수 마스킹의 모델링
Figure 112000027215461-pct00058
거리 계산을 위한 전술된 모델
Figure 112000027215461-pct00059
휴지기에서의 거리의 모델링, 및
Figure 112000027215461-pct00060
에너지 비가 품질에 미치는 영향의 모델링에 의해 주관적 지각과 매우 양호하게 상관되는 다목적 평가 시스템이 제공된다.

Claims (18)

  1. 전송하려는 소스 신호의 스펙트럼과 전송된 수신 신호의 스펙트럼을 주파수 영역에서 결정하는 방식의 기계를 이용한 오디오 신호, 특히 음성 신호의 전송 품질 평가 방법에 있어서,
    전송 품질을 평가하기 위해, 소스 신호의 스펙트럼과 수신 신호의 스펙트럼의 공분산을 2개의 스펙트럼의 표준 편차의 적으로 나눔으로써 스펙트럼 유사도 값을 결정하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
  2. 제1항에 있어서, 수신 신호와 소스 신호 간의 에너지 비의 함수로서 수신 신호의 에너지가 소스 신호의 에너지보다 더 낮은 경우보다는 수신 신호의 에너지가 소스 신호의 에너지보다 더 큰 경우에 스펙트럼 유사도 값을 더욱 크게 감소시키는 게인 계수로 스펙트럼 유사도 값을 가중시키는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
  3. 제2항에 있어서, 게인 계수는 수신 신호의 에너지의 함수로서 수신 신호의 에너지가 높을수록 유사도 값을 더욱 크게 감소시키는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
  4. 제1항 내지 제3항 중의 어느 한 항에 있어서, 소스 신호와 수신 신호로부터 비활성기를 추출하여 잔여 활성기에 대해서만 스펙트럼 유사도 값을 결정하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
  5. 제4항에 있어서, 비활성기에 대해 비활성기의 에너지 Ep의 함수로서 기본적으로 다음의 특성이 있는 품질 값을 결정하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법:
    (수학식 1)
    Figure 112006017373933-pct00061
  6. 제5항에 있어서, 활성기의 유사도 값과 비활성기의 유사도 값과의 가중 선형 조합에 의해 전송 품질을 계산하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
  7. 제1항 내지 제3항 중의 어느 한 항에 에 있어서, 주파수 영역으로의 변환 전에 연속 프레임이 50 %까지의 상당한 정도로 중첩되도록 소스 신호와 수신 신호를 시간 프레임으로 각각 분할하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
  8. 제7항에 있어서, 타임 마스팅을 실행하기 위해, 프레임의 스펙트럼에 선행 프레임의 감쇠된 스펙트럼을 더하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
  9. 제8항에 있어서, 타임 마스팅을 실행하기 전에 스펙트럼 성분을 α
    Figure 112000027215461-pct00062
    1의 값으로 지수 함수화시킴으로써 압축하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
  10. 제1항 내지 제3항 중의 어느 한 항에 있어서, 유사도 값을 결정하기 전에 소스 신호의 스펙트럼과 수신 신호의 스펙트럼을 주파수 종속 비대칭 스미어링 함수로 콘볼루팅하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
  11. 제10항에 있어서, 콘볼루션 전에 스펙트럼의 성분을 ε
    Figure 112000027215461-pct00063
    1의 값으로 지수 함수화시킴으로써 확대시키는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
  12. 제4항에 있어서, 주파수 영역으로의 변환 전에 연속 프레임이 50 %까지의 상당한 정도로 중첩되도록 소스 신호와 수신 신호를 시간 프레임으로 각각 분할하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
  13. 제4항에 있어서, 유사도 값을 결정하기 전에 소스 신호의 스펙트럼과 수신 신호의 스펙트럼을 주파수 종속 비대칭 스미어링 함수로 콘볼루팅하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
  14. 제 7항에 있어서, 유사도 값을 결정하기 전에 소스 신호의 스펙트럼과 수신 신호의 스펙트럼을 주파수 종속 비대칭 스미어링 함수로 콘볼루팅하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
  15. 제 12항에 있어서, 유사도 값을 결정하기 전에 소스 신호의 스펙트럼과 수신 신호의 스펙트럼을 주파수 종속 비대칭 스미어링 함수로 콘볼루팅하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
  16. 제13항에 있어서, 콘볼루션 전에 스펙트럼의 성분을 ε
    Figure 112006017373933-pct00077
    1의 값으로 지수 함수화시킴으로써 확대시키는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
  17. 제14항에 있어서, 콘볼루션 전에 스펙트럼의 성분을 ε
    Figure 112006017373933-pct00078
    1의 값으로 지수 함수화시킴으로써 확대시키는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
  18. 제 15항에 있어서, 콘볼루션 전에 스펙트럼의 성분을 ε
    Figure 112006017373933-pct00079
    1의 값으로 지수 함수화시킴으로써 확대시키는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
KR1020007014483A 1998-06-26 1999-06-21 오디오 신호의 전송 품질 평가 방법 KR100610228B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP98810589.6 1998-06-26
EP98810589A EP0980064A1 (de) 1998-06-26 1998-06-26 Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen

Publications (2)

Publication Number Publication Date
KR20010086277A KR20010086277A (ko) 2001-09-10
KR100610228B1 true KR100610228B1 (ko) 2006-08-09

Family

ID=8236158

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020007014483A KR100610228B1 (ko) 1998-06-26 1999-06-21 오디오 신호의 전송 품질 평가 방법

Country Status (12)

Country Link
US (1) US6651041B1 (ko)
EP (2) EP0980064A1 (ko)
KR (1) KR100610228B1 (ko)
CN (1) CN1132152C (ko)
AU (1) AU4129199A (ko)
CA (1) CA2334906C (ko)
DE (1) DE59903474D1 (ko)
ES (1) ES2186362T3 (ko)
HK (1) HK1039997B (ko)
RU (1) RU2232434C2 (ko)
TW (1) TW445724B (ko)
WO (1) WO2000000962A1 (ko)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL1013500C2 (nl) * 1999-11-05 2001-05-08 Huq Speech Technologies B V Inrichting voor het schatten van de frequentie-inhoud of het spectrum van een geluidssignaal in een ruizige omgeving.
US7236932B1 (en) * 2000-09-12 2007-06-26 Avaya Technology Corp. Method of and apparatus for improving productivity of human reviewers of automatically transcribed documents generated by media conversion systems
DE10142846A1 (de) * 2001-08-29 2003-03-20 Deutsche Telekom Ag Verfahren zur Korrektur von gemessenen Sprachqualitätswerten
US7487084B2 (en) * 2001-10-30 2009-02-03 International Business Machines Corporation Apparatus, program storage device and method for testing speech recognition in the mobile environment of a vehicle
FR2835125B1 (fr) 2002-01-24 2004-06-18 Telediffusion De France Tdf Procede d'evaluation d'un signal audio numerique
WO2003093775A2 (en) * 2002-05-03 2003-11-13 Harman International Industries, Incorporated Sound detection and localization system
JP4486646B2 (ja) * 2003-05-28 2010-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の感知音量を計算し調整する方法、装置及びコンピュータプログラム
JP5101292B2 (ja) 2004-10-26 2012-12-19 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ信号の感知音量及び/又は感知スペクトルバランスの計算と調整
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
FR2882458A1 (fr) * 2005-02-18 2006-08-25 France Telecom Procede de mesure de la gene due au bruit dans un signal audio
US8005675B2 (en) * 2005-03-17 2011-08-23 Nice Systems, Ltd. Apparatus and method for audio analysis
CA2602860A1 (en) * 2005-04-04 2006-10-12 That Corporation Signal quality estimation and control system
EA026063B1 (ru) * 2005-04-18 2017-02-28 Басф Се Сополимер, синтезированный из по меньшей мере трех различных моноэтиленненасыщенных мономеров
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
JP5185254B2 (ja) * 2006-04-04 2013-04-17 ドルビー ラボラトリーズ ライセンシング コーポレイション Mdct領域におけるオーディオ信号音量測定と改良
NO345590B1 (no) 2006-04-27 2021-05-03 Dolby Laboratories Licensing Corp Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
BRPI0717484B1 (pt) 2006-10-20 2019-05-21 Dolby Laboratories Licensing Corporation Método e aparelho para processar um sinal de áudio
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
ES2377719T3 (es) * 2007-07-13 2012-03-30 Dolby Laboratories Licensing Corporation Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral.
EP2043278B1 (en) 2007-09-26 2013-03-20 Psytechnics Ltd Signal processing
US8315398B2 (en) * 2007-12-21 2012-11-20 Dts Llc System for adjusting perceived loudness of audio signals
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
WO2011113741A1 (de) * 2010-03-18 2011-09-22 Siemens Medical Instruments Pte. Ltd. Verfahren zum test von hörhilfegeräten
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
CN103730131B (zh) 2012-10-12 2016-12-07 华为技术有限公司 语音质量评估的方法和装置
CN103578479B (zh) * 2013-09-18 2016-05-25 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法
CN105280195B (zh) 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
EP3223279B1 (en) 2016-03-21 2019-01-09 Nxp B.V. A speech signal processing circuit
CN109496334B (zh) * 2016-08-09 2022-03-11 华为技术有限公司 用于评估语音质量的设备和方法
FR3058013B1 (fr) * 2016-10-21 2020-11-13 Worldcast Systems Procede et dispositif d'optimisation de la puissance radiofrequence d'un emetteur de radiodiffusion fm
CN108259653B (zh) * 2016-12-28 2020-09-01 ***通信有限公司研究院 一种语音测试方法及装置、***
US10957445B2 (en) 2017-10-05 2021-03-23 Hill-Rom Services, Inc. Caregiver and staff information system
CN111803080B (zh) * 2020-06-11 2023-06-16 河南迈松医用设备制造有限公司 婴儿畸变耳声检测仪及其检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4860360A (en) * 1987-04-06 1989-08-22 Gte Laboratories Incorporated Method of evaluating speech
WO1995015035A1 (en) * 1993-11-25 1995-06-01 British Telecommunications Public Limited Company Method and apparatus for testing telecommunications equipment
WO1998006196A1 (de) * 1996-08-02 1998-02-12 Ascom Infrasys Ag Verfahren und anordnung zum beurteilen der qualität eines übertragenen sprachsignals
US6092040A (en) * 1997-11-21 2000-07-18 Voran; Stephen Audio signal time offset estimation algorithm and measuring normalizing block algorithms for the perceptually-consistent comparison of speech signals

Also Published As

Publication number Publication date
ES2186362T3 (es) 2003-05-01
WO2000000962A1 (de) 2000-01-06
RU2232434C2 (ru) 2004-07-10
HK1039997B (zh) 2004-09-10
AU4129199A (en) 2000-01-17
CA2334906A1 (en) 2000-01-06
EP1088300A1 (de) 2001-04-04
US6651041B1 (en) 2003-11-18
EP0980064A1 (de) 2000-02-16
HK1039997A1 (en) 2002-05-17
DE59903474D1 (de) 2003-01-02
CA2334906C (en) 2009-09-08
KR20010086277A (ko) 2001-09-10
CN1315032A (zh) 2001-09-26
CN1132152C (zh) 2003-12-24
EP1088300B1 (de) 2002-11-20
TW445724B (en) 2001-07-11

Similar Documents

Publication Publication Date Title
KR100610228B1 (ko) 오디오 신호의 전송 품질 평가 방법
AU670950B2 (en) Method and apparatus for objective speech quality measurements of telecommunication equipment
US5794188A (en) Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency
Steeneken et al. A physical method for measuring speech‐transmission quality
US5621854A (en) Method and apparatus for objective speech quality measurements of telecommunication equipment
EP0776567B1 (en) Analysis of audio quality
CN1985304B (zh) 用于增强型人工带宽扩展的***和方法
KR101148671B1 (ko) 오디오 전송 시스템의 음성 명료도 측정 방법 및 시스템
CN1327407C (zh) 用于确定语音信号的质量的方法和设备
DK2465113T3 (en) PROCEDURE, COMPUTER PROGRAM PRODUCT AND SYSTEM FOR DETERMINING AN CONCEPT QUALITY OF A SOUND SYSTEM
Steeneken et al. Validation of the revised STIr method
US20120230474A1 (en) Performance Testing of Echo Cancellers Using a White Noise Test Signal
Hansen Assessment and prediction of speech transmission quality with an auditory processing model.
Meky et al. Prediction of speech quality using radial basis functions neural networks
US20080255834A1 (en) Method and Device for Evaluating the Efficiency of a Noise Reducing Function for Audio Signals
Somek et al. Speech quality assessment
DE102013005844B3 (de) Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals
Jiju et al. Characterization of Noise Associated with Forensic Speech Samples
Steeneken Subjective and objective intelligibility measures
Wuppermann et al. Objective analysis of the GSM half rate speech codec candidates.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110727

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20120723

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee