KR100610228B1 - 오디오 신호의 전송 품질 평가 방법 - Google Patents
오디오 신호의 전송 품질 평가 방법 Download PDFInfo
- Publication number
- KR100610228B1 KR100610228B1 KR1020007014483A KR20007014483A KR100610228B1 KR 100610228 B1 KR100610228 B1 KR 100610228B1 KR 1020007014483 A KR1020007014483 A KR 1020007014483A KR 20007014483 A KR20007014483 A KR 20007014483A KR 100610228 B1 KR100610228 B1 KR 100610228B1
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- spectrum
- received signal
- transmission quality
- source signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000005540 biological transmission Effects 0.000 title claims abstract description 26
- 230000005236 sound signal Effects 0.000 title claims abstract description 14
- 238000011156 evaluation Methods 0.000 title abstract description 5
- 238000001228 spectrum Methods 0.000 claims abstract description 53
- 230000003595 spectral effect Effects 0.000 claims abstract description 16
- 238000013441 quality evaluation Methods 0.000 claims abstract 2
- 230000001419 dependent effect Effects 0.000 claims description 8
- 239000012190 activator Substances 0.000 claims description 7
- 230000007423 decrease Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000002238 attenuated effect Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 230000000937 inactivator Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 17
- 238000004364 calculation method Methods 0.000 abstract description 14
- 230000008569 process Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 36
- 230000000873 masking effect Effects 0.000 description 23
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000000284 resting effect Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000008447 perception Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000001303 quality assessment method Methods 0.000 description 3
- 206010020751 Hypersensitivity Diseases 0.000 description 2
- 210000002469 basement membrane Anatomy 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000016507 interphase Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- IRLPACMLTUPBCL-KQYNXXCUSA-N 5'-adenylyl sulfate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](COP(O)(=O)OS(O)(=O)=O)[C@@H](O)[C@H]1O IRLPACMLTUPBCL-KQYNXXCUSA-N 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 208000026935 allergic disease Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000002768 hair cell Anatomy 0.000 description 1
- 230000009610 hypersensitivity Effects 0.000 description 1
- 239000012073 inactive phase Substances 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000012071 phase Substances 0.000 description 1
- 238000000053 physical method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mobile Radio Communication Systems (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
소스 신호(예컨대, 음성 샘플)를 음성 코더(1)에 의해 처리하거나 전송하여 수신 신호(코드화 음성 신호)로 변환한다. 소스 신호와 수신 신호를 별개로 예비 처리(2) 및 정신 음향학적 모델링(3)에 의해 처리한다. 그에 뒤이어, 신호의 유사도를 평가하는 거리 계산(4)을 실행한다. 끝으로, 사람의 평가에 필적할 만한 결과를 얻기 위해 MOS 계산(5)을 실행한다. 본 발명에 따르면, 전송 품질을 평가하기 위해, 소스 신호의 스펙트럼과 수신 신호의 스펙트럼의 공분산을 계산하고 2개의 스펙트럼의 표준 편차로 나누는 것을 토대로 하여 스펙트럼 유사도 값을 결정하게 된다. 본 발명에 따른 방법은 사람의 청각 프로세스를 고려하면서도 객관적 평가(음성 품질 예측)가 얻어질 수 있도록 한다.
오디오 신호, 전송 품질 평가, 소스 신호, 수신 신호, 스펙트럼 유사도 값
Description
본 발명은 전송하려는 소스 신호의 스펙트럼과 전송된 수신 신호의 스펙트럼을 주파수 영역에서 결정하는 방식의 기계를 이용한 오디오 신호, 특히 음성 신호의 전송 품질 평가 방법에 관한 것이다.
이동 무선 전화의 보급 및 그 지리적 커버 범위가 점차 증대됨에 따라 음성 채널의 전송 품질을 평가하는 것이 그 중요성을 더해가고 있다.
표준화된 0.3 내지 3.4 ㎑의 주파수 대역에 있는 전기 통신 채널을 경유하여 음성 신호를 완전하게 전송함으로써 약 98 %의 문장 이해도가 제공된다. 그러나, 단말기에 음성 코더를 구비하는 디지털 이동 무선 통신망의 도입으로 인해 음성의 이해도가 상당히 악화될 수 있다. 또한, 그러한 악화의 정도를 결정하는데도 다소 어려움이 있다.
음성 품질은 비트 율, 에코, 또는 볼륨에 비해서는 막연한 용어이다. 음성이 얼마나 양호하게 전송되는지에 따라 직접적으로 고객 만족을 판단할 수 있기 때문에, 코딩 방법은 그 음성 품질와 연관하여 선택되고 최적화될 필요가 있다. 음성 코딩 방법을 평가하기 위해, 매우 정교한 청각 테스트를 실행하는 것이 통상적 이다. 따라서, 선택적으로 얻어진 결과(Mean Opinion Score, Mos; 오피니언 평균값)와 가장 잘 상관되는 음성 성능 특징을 적절한 물리 측정량에 의해 측정하는 하드웨어 대체물을 보유하게 되는 것이 바람직하다.
EP 0 644 674 A2는 자동적으로 조정되는 레벨로 사람의 지각과 밀접하게 상관된 평가를 얻도록 할 수 있는 음성 전송로의 전송 품질 평가 방법을 개시하고 있다. 그것은 시스템이 전송 품질을 평가하여 숙련된 테스트 청취자에 의해 사용되는 바와 같은 척도를 적용할 수 있음을 의미한다. 그 핵심 사상은 무극성 통신망(neutral network)을 사용하는데 있다. 무극성 통신망은 음성 샘플을 사용하여 숙련된다. 그 궁극적 효과는 통합된 품질 평가가 이루어지는 것이다. 품질 손실의 이유는 다루어지지 않는다.
현대적 음성 코딩 방법은 데이터 압축를 실행하고, 매우 낮은 비트 율을 사용한다. 그러한 이유로, 예컨대 신호 대 잡음비(SNR)와 같은 간단한 공지의 객관적 방법은 만족할 만한 것이 되지 못한다.
본 발명의 목적은 사람의 청각 과정을 고려하면서도 객관적인 평가(음성 품질 예측)를 얻을 수 있도록 하는 서두에 언급된 방식의 방법을 제공하는 것이다.
그러한 목적은 청구항 1의 특징부에 정의된 방식으로 달성된다. 본 발명에 따르면, 전송 품질을 평가하기 위해, 소스 신호의 스펙트럼과 수신 신호의 스펙트럼의 공분산(covariance)을 계산하고 그 공분산을 상기 2개의 스펙트럼의 표준 편차로 나누는 것을 토대로 하여 스펙트럼 유사도 값을 결정하게 된다.
일련의 범위의 단계화된 음성 샘플에 따른 테스트 및 그와 관련된 청각 판정(MOS)의 결과, 본 발명에 따른 방법을 토대로 하여 청각 값과의 매우 양호한 상관성이 얻어질 수 있는 것으로 나타났다. 본 발명에 따른 방법은 무극성 통신망에 의거한 공지의 방법에 비해 다음과 같은 장점을 수반한다:
스펙트럼 유사도 값은 수신 신호의 스펙트럼과 소스 신호의 스펙트럼 간의 에너지 비의 함수로서 수신 신호의 에너지가 소스 신호의 에너지보다 더 낮을 때보다는 수신 신호의 에너지가 소스 신호의 에너지보다 더 클 때에 유사도 값을 더욱 크게 감소시키는 계수로 가중되는 것이 바람직하다. 그와 같이 하여, 수신 신호에 있는 여분의 신호 성분이 누락된 신호 성분보다 더 부방향으로 가중된다.
특히 바람직한 실시예에 따르면, 가중 계수는 수신 신호의 신호 에너지에도 의존하여 달라지게 된다. 수신 신호의 스펙트럼 대 소스 신호의 스펙트럼의 에너지 비가 임의의 값일 때에 유사도 값은 수신 신호의 신호 에너지가 높을수록 상응하게 더 큰 정도로 감소된다. 결과적으로, 수신 신호에서의 간섭에 의해 유사도 값에 미쳐지는 영향이 수신 신호의 에너지의 함수로서 제어된다. 그를 위해, 하나 는 미리 정해진 임계 값의 아래에 있고 다른 하나는 그 임계 값의 위에 있는 2개 이상의 레벨 윈도우가 정의된다. 바람직한 것은 다수의, 특히 3개의 레벨 윈도우가 임계 값의 위로 규정되는 것이다. 신뢰도 값은 그 안에 수신 신호가 놓여지는 레벨 윈도우에 따라 감소된다. 레벨이 높을수록 더 크게 감소된다.
기본적으로, 본 발명은 임의의 오디오 신호에 사용될 수 있다. 오디오 신호가 비활성기를 포함할 경우(음성 신호의 경우에 전형적인 바와 같이)에 권장할 만한 것은 활성기와 비활성기에 대해 별도로 품질 평가를 실행하는 것이다. 그 에너지기 미리 정해진 임계 값을 초과하는 신호 세그먼트는 활성기로 배정되고, 다른 세그먼트는 휴지기(비활성기)로서 분류된다. 그 경우, 전술된 스펙트럼 유사도는 활성기에 대해서만 계산된다.
비활성기(예컨대, 음성 휴지기)의 경우에는 휴지기 에너지의 함수로서 점차 감소하는 다음의 품질 함수를 사용할 수 있다.
수학식 1에서, A는 적절히 선택된 상수이고, Emax는 최대로 가능한 휴지기 에너지의 값이다.
전송의 전체적인 품질(즉, 실제 전송 품질)은 활성기의 품질과 비활성기의 품질의 가중된 선형 조합에 의해 주어진다. 그 경우, 가중 계수는 활성기가 특히 그 활성기에 유리한 비선형적 방식으로 나타내는 총 신호의 비율에 따라 달라진다. 예컨대 50 %의 경우에는 활성기의 품질이 예컨대 90 % 정도로 될 수 있다.
즉, 휴지기 또는 휴지기에서의 간섭은 활성기 신호와는 별개로, 그리고 그에 비해서는 덜 고려된다. 그것은 휴지기에는 실질적으로 정보가 전송되는 것은 아니지만 휴지기에 간섭이 일어나게 되면 불쾌한 것으로서 인지된다는 것을 설명하고 있다.
특히 바람직한 실시예에 따르면, 시간 영역에서 샘플링된 소스 신호와 수신 신호의 값은 수 밀리세컨드 내지 수십 밀리세컨드(예컨대, 16 ㎳)만큼 서로 중첩되는 데이터 프레임에서 조합된다. 그러한 중첩에 의해, 적어도 부분적으로 사람의 청각계에 고유한 타임 마스킹(time masking)이 형성된다.
또한, 주파수 영역으로의 변환 후에 현재 프레임의 스펙트럼에 선행 프레임의 감쇠된 스펙트럼을 합하면 타임 마스킹이 거의 실재적으로 재현되게 된다. 그 경우, 스펙트럼 성분은 상이하게 가중되는 것이 바람직하다. 선행 프레임에 있는 저주파 성분은 고주파 성분보다 더 크게 가중된다.
타임 마스킹을 실행하기 전에 스펙트럼 성분을 α 1(예컨대, α= 0.3)의 값으로 지수 함수화시킴으로써 스펙트럼 성분의 압축을 실행하는 것이 권장할 만하다. 그것은 주파수 대역에서 다수의 주파수가 동시에 발생할 경우에 청각계에 과민 반응이 일어나기 때문이다. 즉, 총 볼륨이 개개의 주파수의 합의 볼륨보다 더 큰 것으로서 인지된다. 궁극적인 효과로서, 그것은 성분들이 압축되는 것을 의미한다.
본 발명에 따른 평가 결과와 주관적인 사람 지각과의 사이에 양호한 상관성 을 얻기 위한 또 다른 방안은 프레임의 스펙트럼을 비대칭적 "스미어링 함수(smearing function)"로 콘볼루팅하는 것이다. 그러한 수학적 조작은 유사도를 결정하기 전에 소스 신호와 수신 신호의 양자에 모두 적용된다.
스미어링 함수는 주파수/음의 크기 도표에서 그 좌측 에지가 그 우측 에지보다 더 가파른 삼각형 함수로 되는 것이 바람직하다.
이후의 상세한 설명 및 특허 청구 범위에서는 본 발명의 또 다른 바람직한 실시예 및 본 발명의 특징의 조합에 관해 설명하기로 한다.
예시적인 실시예를 설명하는데 사용되는 첨부 도면 중에서,
도 1은 처리의 원리를 설명하기 위한 개략적인 블록 선도이고;
도 2는 품질 평가를 실행하기 위한 방법의 개별 스텝의 블록 선도이며;
도 3은 해밍 윈도우(Hamming window)의 예를 나타낸 도면이고;
도 4는 주파수/음조 변환을 계산하기 위한 가중 함수를 나타낸 도면이며;
도 5는 전화 필터의 주파수 응답을 나타낸 도면이고;
도 6은 2차원 음장용 등볼륨 곡선을 나타낸 도면이며(Ln은 볼륨이고, N은 음의 크기임);
도 7은 타임 마스킹(time masking)을 개략적으로 나타낸 도면이고;
도 8은 음의 크기 함수(손)를 1 ㎑ 톤의 음 레벨(폰)의 함수로서 나타낸 도면이며;
도 9는 스미어링 함수(smearing function)를 나타낸 도면이고;
도 10은 음성 계수를 소스 신호 중의 음성 비율의 함수의 형태로 나타낸 그래프이고;
도 11은 휴지기에서의 품질을 휴지기에서의 음성 에너지의 함수의 형태로 나타낸 그래프이며;
도 12는 게인 상수를 에너지 비의 함수로서 나타낸 그래프이고;
도 13은 타임 마스킹을 실행하기 위한 가중 계수를 주파수 성분의 함수로서 나타낸 그래프이다.
이하, 구체화된 예시적인 실시예를 첨부 도면을 참조로 하여 설명하기로 한다.
도 1은 처리의 원리를 나타내고 있다. 음성 샘플은 소스 신호 x(i)로서 사용된다. 그러한 소스 신호 x(i)를 음성 코더(1)에 의해 전송하여 수신 신호 y(i)(코드화 음성 신호)로 변환한다. 전술된 신호들은 디지털 형태이다. 샘플링 주파수는 예컨대 8 ㎑이고, 디지털 양자화는 16 비트로 이루어진다. 데이터 포맷은 PCM(Pulse Code Modulation; 펄스 코드 변조)(압축을 동반하지 않는) 방식인 것이 바람직하다.
소스 신호와 수신 신호를 별개로 예비 처리(2) 및 정신 음향학적 모델링(3) 에 의해 처리한다. 그에 뒤이어, 신호의 유사도를 평가하는 거리 계산(4)을 실행한다. 끝으로, 사람의 평가에 필적할 만한 결과를 얻기 위해 MOS 계산(5)을 실행한다.
도 2는 후술될 절차를 명료하게 나타내고 있다. 소스 신호와 수신 신호는 동일한 처리 루트를 따른다. 간단히 하기 위해, 프로세스가 단지 한 차례만 도시되었다. 그러나, 거리 측정 값이 결정될 때까지 2개의 신호가 별개로 취급되는 것은 자명하다.
소스 신호는 그 음성학적 주파수 통계가 진정한 음성에 가능한 한 잘 부합되도록 선택된 문장을 토대로 한다. 문맥상의 청취력을 배제하기 위해, 로가톰(logatom)으로서 지칭되는 뜻이 없는 음절을 사용한다. 음성 샘플은 가능한 한 일정한 음성 레벨로 되어야 한다. 음성 샘플의 길이는 3 내지 8 초(전형적으로 5 초)이다.
신호 조건화: 제1 스텝에서는 소스 신호를 벡터 x(i)에 넣고, 수신 신호를 벡터 y(i)에 넣는다. 2개의 신호는 시간 및 레벨에 대해 동기화될 필요가 있다. 이어서, 각각의 샘플 값으로부터 평균 값을 뺌으로써 DC 성분을 제거한다:
또한, 신호에 있는 불변 게인은 고려되지 않기 때문에, 신호를 공통의 RMS(Root Mean Square; 제곱 평균 값의 제곱근)에 대해 정규화시킨다:
다음 스텝은 프레임을 형성하는 것이다: 양자의 신호를 32 ㎳ 길이의 세그먼트로 분할한다(8 ㎑에서 256 샘플 값). 그러한 프레임은 추후의 모든 처리 스텝에서의 처리 단위가 된다. 프레임 중첩은 50 %인 것이 바람직하다(128 샘플 값).
그에 뒤이어, 헤밍 윈도윙(Hamming windowing)(6)(도 2를 참조)을 실행한다. 제1 처리 스텝에서는 프레임에 대해 시간 가중 처리를 한다. 소위 헤밍 윈도우(hamming window)(도 3을 참조)가 생성되는데, 그것을 프레임의 신호 값에 곱한다.
그러한 윈도윙의 목적은 시간에 따른 무한 신호에 특정 범위의 밖에서 소멸하는(0과 동일함) 윈도우 함수를 곱함으로써 그 시간에 따른 무한 신호를 시간적에 따른 유한 신호로 변환하는 것이다.
이제, 시간 영역에서의 소스 신호 x(t)를 불연속 푸리에 변환(도 2를 참조: DFT(7))에 의해 주파수 영역으로 변환한다. 윈도윙에 의해 생성된 시간에 따른 불 연속 수열 x(i)(단, i = 0,1,2,...,N)에 있어서, 주기가 N인 경우에 소스 신호 x(i)에 대한 복소 푸리에 변환 C(j)는 다음과 같다:
코드화 신호 또는 수신 신호 y(i)에 대해서도 동일한 복소 푸리에 변환이 이루어진다:
다음 스텝에서는 스펙트럼의 진폭을 계산한다(도 2를 참조: 진폭 산출(8)). 지수 x는 항상 소스 신호를, 그리고 지수 y는 항상 수신 신호를 지시한다:
이어서, 임계 주파수 대역으로의 분할을 실행한다(도 2를 참조: Bark 변환(9)).
그 경우, E. Zwicker, Psychoakustik, 1982에 의한 변형 모델을 사용한다. 사람 귀에 있는 기저막은 주파수 스펙트럼을 임계 주파수 군으로 분할한다. 그러한 주파수 군은 음의 크기를 인지하는데 중요한 역할을 한다. 저주파에서는 주파수 군이 100 ㎐의 일정한 대역 폭으로 되고, 500 ㎐ 를 넘는 주파수에서는 대역 폭이 주파수에 비례하여 증가된다(대역 폭은 각각의 중간 주파수의 약 20%와 동일함). 그것은 주파수 대역이 가변적일지라도, 즉 중간 주파수가 각각의 음 이벤트에 의해 정해질지라도 주파수 대역으로 신호를 처리하는 사람의 청력 특성에 대략적으로 부합되는 것이다.
아래의 표 1은 음조 z, 주파수 f, 주파수 군 폭 Δf, 및 FFT 지수 간의 관계를 나타낸 것이다. FFT 지수는 FFT 해상도, 256에 상응한다. 100 내지 4000 ㎐의 대역 폭만이 후속 계산을 위한 관심의 대상이 된다.
Z[Bark] | F(low)[Hz] | △F[Hz] | FFT 지수 |
0 | 0 | 100 | |
1 | 100 | 100 | 3 |
2 | 200 | 100 | 6 |
3 | 300 | 100 | 9 |
4 | 400 | 100 | 13 |
5 | 510 | 110 | 16 |
6 | 630 | 120 | 20 |
7 | 770 | 140 | 25 |
8 | 920 | 150 | 29 |
9 | 1080 | 160 | 35 |
10 | 1270 | 190 | 41 |
11 | 1480 | 210 | 47 |
12 | 1720 | 240 | 55 |
13 | 2000 | 280 | 65 |
14 | 2320 | 320 | 74 |
15 | 2700 | 380 | 86 |
16 | 3150 | 450 | 101 |
17 | 3700 | 550 | 118 |
18 | 4400 | 700 | |
19 | 5300 | 900 | |
20 | 6400 | 1100 | |
21 | 7700 | 1300 | |
22 | 9500 | 1800 | |
23 | 12000 | 2500 | |
24 | 15500 | 3500 |
여기에서 적용되는 윈도우는 단순화의 역할을 한다. 모든 주파수 군은 1 Bark의 폭 ΔZ(z)로 된다. Bark 단위의 음조 스케일 z는 다음의 식에 따라 계산된다:
단, f는 [㎑] 단위이고, Z는 [Bark] 단위이다.
1 Bark의 음조 차는 기저막 상의 1.3 밀리미터 섹션(150 헤어 셀)에 해당한다. 실제의 주파수/음조 변환은 다음의 식에 따라 간단히 실행될 수 있다:
lf[j]는 대역 j에 대한 최초 샘플의 헤르쯔 스케일 단위의 지수이고, ll[j]는 마지막 샘플의 헤르쯔 스케일 단위의 지수이다. Δfj는 대역 j의 헤르쯔 단위의 대역 폭을 지시하고 있다. q(f)는 가중 함수이다(도 5를 참조). 불연속 푸리에 변환은 단지 불연속 점에서의 스펙트럼의 값(주파수)만을 제공하기 때문에, 대역의 경계는 각각 그러한 주파수 상에 놓여지게 된다. 대역 경계에서의 값은 단지 각각의 이웃한 윈도우에서의 절반 가중 값으로만 주어진다. 대역 경계는 N*8000/256 ㎐에 있다: N = 3, 6, 9, 13, 16, 20, 25, 29, 35, 41, 47, 55, 65, 74, 86, 101, 118.
0.3 내지 3.4 ㎑의 전화 대역 폭에서는 음조 스케일 상의 17개의 값이 사용되는데, 그 경우에 그들 값은 입력에 해당한다. 결과적으로 얻어지는 128 개의 FFT 값 중에서 0 ㎐ 내지 94 ㎐의 주파수 범위에 해당하는 최초 2개와 3700 ㎐ 내 지 4000 ㎐의 주파수 범위에 해당하는 마지막 10개는 생략된다.
이어서, 양자의 신호를 그 주파수 응답이 해당 전화 세트의 수신 곡선에 상응하는 필터로 필터링한다(도 2를 참조: 전화 대역 필터링(10)).
수학식 11에서, Filt[j]는 전화 세트의 주파수 특성 곡선의 대역 j에서의 주파수 응답이다(ITU-T 권장 부록 D/P.830에 따라 정의된 것임).
도 5는 그러한 필터의 (대수) 값을 나타낸 그래프이다.
선택적으로 폰(phon) 곡선을 계산할 수도 있다(도 2를 참조: 폰 곡선 계산(11)). 그와 관련하여 설명한다면 다음과 같다:
임의의 음의 볼륨은 평면 파에서 테스트 개체에 정면으로 입사될 경우에 측정하려는 음과 동일한 볼륨 인지를 유발하는 1 ㎑ 톤(tone)의 음 레벨로서 정의된다(E. Zwicker, Psychoakustik, 1982를 참조). 즉, 상이한 주파수에 대한 등볼륨의 곡선이 인용된다. 그러한 곡선은 도 6에 나타나 있다.
도 6에서 알 수 있는 바와 같이, 예컨대 3 폰의 볼륨 레벨에서의 100 ㎐ 톤은 25 ㏈의 음 레벨로 된다. 그러나, 40 폰의 볼륨 레벨에서는 동일한 톤이 50 ㏈의 음 레벨로 된다. 또한, 예컨대 100 ㎐ 톤의 경우에 음 레벨이 4 ㎑ 톤의 경우에 비해 30 ㏈ 더 커야만 양자가 귀에 동일한 음의 크기를 일으킬 수 있다는 것을 알 수 있다. 본 발명에 따른 모델에서는 신호 Px 및 Py에 상보 함수를 곱함으로써 근사가 이루어지게 된다.
사람의 청력은 하나의 대역에서 동시에 다수의 스펙트럼 성분이 발생할 때에, 즉 총 볼륨이 개개의 볼륨의 선형 합보다 더 크게 인지될 때에 과민 반응을 하게 되므로, 개개의 스펙트럼 성분이 압축된다. 압축된 특정의 음의 크기는 1 손(sone)의 단위량으로 된다. 폰/손 변환(12)(도 2를 참조)을 실행하기 위해, 본 경우에는 Bark 단위의 입력을 멱 지수 α= 0.3으로 압축한다:
바람직한 예시적 실시예의 중요한 특징 중의 하나는 타임 마스킹(time masking)의 모델링이다.
사람의 귀는 매우 가깝게 연속적으로 도달하는 2개의 짧은 테스트 음을 구별할 수 없다. 도 7은 시간 종속 프로세스를 나타내고 있다. 200 ㎳의 지속 시간의 마스커는 짧은 톤 펄스를 마스킹한다. 마스커가 시작되는 시간은 0으로 지시되어 있다. 시간은 좌측에서 마이너스로 된다. 두 번째의 시간 스케일은 마스커가 종료하는 시점에서 시작된다. 마스커가 시작되기 전에는 사전 마스킹이 일어난다. 그 직후는 동시적 마스킹기이고, 마스커의 종료 직후는 사후 마스킹기이다. 사후 마스킹(잔향)에 대한 논리적 설명이 존재한다. 사전 마스킹은 마스커가 시작되기 전에도 일어난다. 청각 인지는 곧바로 일어나지 않는다. 인지를 일으키기 위해서는 처리 시간이 요구된다. 센 음은 빠른 처리에 의해 주어지고, 청력 임계 값에 있는 약한 음은 더 오랜 처리에 의해 주어진다. 사전 마스킹은 약 20 ㎳ 동안 지속되고, 사후 마스킹은 약 100 ㎳ 동안 지속된다. 따라서, 사후 마스킹이 지배적 인 작용을 한다. 사후 마스킹은 마스커의 지속 시간 및 마스킹 음의 스펙트럼에 따라 달라진다.
타임 마스킹은 단지 신호 처리에서 프레임을 중첩시키는 것만에 의해 개략적으로 근사된다. 32 ㎳의 프레임 길이(256 샘플 값 및 8 ㎑의 주파수)에서는 중첩 시간이 16 ㎳이다(50 %). 중간 주파수 및 고주파에 대해서는 그 정도로 충분하다. 저주파의 경우에는 그러한 마스킹이 더욱 길어진다(120 ㎳). 이어서, 그러한 타임 마스킹을 선행 프레임의 감쇠된 스펙트럼을 합하는 것으로서 실행한다(도 2를 참조: 타임 마스킹(15)). 그 경우, 감쇠는 각각의 주파수 대역에서 상이하게 이루어진다:
수학식 13에서, coeff(j)는 가중 계수이고, 그것은 다음의 식에 따라 계산된다:
수학식 14에서, Frame length는 예컨대 256 개의 샘플 값에서의 프레임의 길이이고, NoOfBarks는 프레임 내에서의 Bark 값의 수이다(본 경우에 예컨대 17). Fc는 샘플링 주파수이고, η= 0.001이다.
타임 마스킹을 실행하기 위한 주파수 성분의 함수로서의 가중 계수는 도 13의 예에 나타나 있다. 가중 계수가 Bark 지수의 증가에 따라(즉, 주파수의 상승에 따라) 감소되는 것을 명확히 알 수 있다.
본 경우에 있어서, 타임 마스킹은 단지 사후 마스킹의 형태로 제공될 뿐이다. 그와 관련하여, 사전 마스팅은 무시할 만한 정도이다.
또 다른 처리 단계에서는 신호의 스페트럼을 "스미어링(smearing)"한다(도 2를 참조: 주파수 스미어링(13)). 그러한 스미어링의 배경은 사람의 귀가 서로 이웃한 2개의 주파수 상분을 명료하게 구별할 수 없다는데 있다. 주파수 스미어링의 정도는 해당 주파수, 그 진폭, 및 기타의 인자에 따라 달라진다.
귀의 수신 변수는 음의 크기이다. 그것은 측정하려는 음이 표준 음에 비해얼마나 더 세거나 약한지를 가리키는 것이다. 그러한 방식으로 규명된 수신 변수는 비율형 음의 크기(ratio loudness)로서 지칭된다. 1 ㎑의 음 레벨은 표준 음으로서 유용한 것으로 입증되었다. 1 손의 음의 크기는 40 ㏈의 레벨로 된 1 ㎑ 톤에 배정된다. E. Zwicker, Psychoakustik, 1982에서는 음의 크기 함수의 정의가 다음과 같이 기술되어 있다:
도 8은 1 ㎑ 톤에 대한 음의 크기 함수(손)를 음 레벨(폰)의 함수로서 나타낸 것이다.
본 발명에 따른 예시적 실시예의 범위에서는 그러한 음의 크기 함수가 다음과 같이 근사된다:
수학식 16에서, ε= 4/3이다.
본 시점에서 스펙트럼이 확대된다(도 2를 참조: 음의 크기 함수 변환(14)).
이제 존재하게 된 스펙트럼을 계수의 불연속 수열로 콘볼루팅한다(콘볼루션). 그 결과는 주파수 축에 걸친 스펙트럼의 스미어링에 해당한다. 2개의 수열 x 및 y의 콘볼루션은 상대적으로 복잡한 시간 범위에서의 수열의 콘볼루션 또는 그 푸리에 변환의 곱셈에 해당한다. 시간 영역에서는 다음의 식으로 된다:
수학식 17에서, m은 수열 x의 길이이고, n은 수열 y의 길이이다. 결과 c
는 k = m + n -1의 길이로 된다. j = max(1, k + 1 -n):min(k, m)이다.
주파수 영역에서는 다음의 식으로 된다:
본 예에서, x는 길이가 17(m =17)인 신호 Px" 및 Py"로 치환되고, y는 길이 가 9(n = 9)인 스미어링 함수 Λ로 치환된다. 따라서, 그 결과는 17 + 9 -1 = 25(k = 25)의 길이로 된다.
Λ(f)는 그 형태가 도 9에 도시되어 있는 스미어링 함수이다. 그 스미어링 함수는 비대칭적이다. 좌측 에지는 주파수 성분 1에서의 - 30의 음의 크기로부터 주파수 성분 4에서의 0의 음의 크기까지 상승한다. 이어서, 그 스미어링 함수는 다시 직선으로 주파수 성분 9애서의 - 30의 음의 크기까지 하강한다. 즉, 스미어링 함수는 비대칭적인 삼각형 함수이다.
그와 같이 하여, 정신 음향학적 모델링(3)(도 1을 참조)이 끝나게 된다. 이어서, 품질 계산이 뒤따르게 된다.
소스 신호와 수신 신호의 가중된 스펙트럼 간의 거리를 다음과 같이 계산한다:
수학식 20에서, Q
sp 는 음성기(활성 신호기) 동안의 거리이고 Q
pa
는 휴지기(비활성 신호기) 동안의 거리이다. η
sp 는 음성 계수이고, η
pa
는 휴지 계수이다.
우선, 음성이 활성화되어 있는 신호 수열을 찾는 것을 목표로 하여 소스 신호의 신호 분석을 실행한다. 즉, 다음의 식에 따라 소위 에너지 프로파일 En
profile
을 형성한다:
SPEECH_THR은 그 미만에서 음성이 비활성화되는 임계 값을 정의하는데 사용된다. 통상, 그것은 AD 변환기의 최대 동적 응답에 대해 + 10 ㏈에 있다. 16 비트 해상도에서는 SPEECH_THR = - 96.3 + 10 = - 86.3 ㏈이다. PACE에서는 SPEECH_THR = - 80 ㏈이다.
품질은 소스 신호와 수신 신호 간의 유사도 Q
TOT 에 간접적으로 비례한다. Q
TOT = 1은 소스 신호와 수신 신호가 정확히 동일하다는 것을 의미한다. Q
TOT = 0의 경우에는 그러한 2개의 신호가 거의 유사성이 없게 된다. 음성 계수 η
sp 를 다음의 식에 따라 계산한다:
수학식 22에서, μ= 1.01이고, Psp는 음성 비율이다.
도 10에 도시된 바와 같이, 음성 비율이 높아지면 음성 수열의 영향이 더욱 커진다(음성 계수가 더욱 커짐). 예컨대, μ= 1.01 및 Psp = 0.5 (50 %)에서는 음성 계수가 η
sp = 0.91이다. 즉, 신호에 있는 음성 수열의 영향은 91 %이고, 휴지 수열의 영향은 단지 9 %(100 - 91)에 불과하다. μ= 1.07에서는 음성 수열의 영향이 보다 더 작아진다(80 %).
이어서,다음의 식에 따라 휴지 계수를 계산한다:
휴지기에서의 품질은 음성기에서의 품질과 동일하게 계산되지 않는다.
Q pa 는 휴지기에서의 신호 에너지를 표현하는 함수이다. 그러한 에너지가 증가할 때에는 Q pa 의 값이 보다 더 작아진다(품질의 열화에 해당함):
k n 은 미리 정해진 상수이고, 본 경우에는 0.01의 값으로 된다. E pa
는 수신 신호에 대한 휴지기에서의 RMS 신호 에너지이다. 그러한 에너지는 소스 신호에서의 휴지기의 RMS 신호 에너지보다 더 클 때에만 Q pa 값에 영향을 미친다. 즉,
E pa = max(Eref pa , E pa )이다. 가장 작은 E pa
는 2이다. E max 는 주어진 디지털 해상도에 대한 최대 RMS 신호 에너지이다(16 비트 해상도의 경우에 E max = 32768). 수학식 24에서의 값 m은 E pa = 2에 대한 상관 계수이고, 그에 따라 그 경우에 Q pa
= 1이다. 즉, 그러한 상관 계수를 다음과 같이 계산한다:
E max = 32768, E min = 2, 및 k n = 0.01인 경우에 m = 0.003602이다. 밑수 kn*(kn+1/kn)은 실질적으로 적절히 선택된 상수로서 간주될 수 있다.
도 11은 휴지기에서의 신호의 RMS 에너지와 Q
pa 간의 관계를 나타내고 있다.
음성기의 품질은 소스 신호의 스펙트럼과 수신 신호의 스펙트럼 간의 "거리(distance)"에 의해 판단된다.
우선, 4개의 레벨 윈도우를 정의한다. 제1 번 윈도우은 - 96.3 ㏈로부터 - 70 ㏈까지, 제2 번 윈도우는 - 70 ㏈로부터 - 46 ㏈까지, 제3 번 윈도우는 - 46 ㏈로부터 - 26 ㏈까지, 그리고 제4 번 윈도우는 - 26 ㏈로부터 0 ㏈까지 각각 연장된다. 그 레벨이 제1 번 윈도우에 놓여지는 신호는 휴지기로서 해석되어 Q
sp 의 계산에 산입되지 않는다. 4개의 레벨 윈도우로 세분함으로써 다중 해상도가 제공된다. 그와 유사한 절차가 사람의 귀에서도 일어난다. 즉, 신호에 있는 간섭의 영향을 그 에너지의 함수로서 제어하는 것이 가능하다. 가장 높은 에너지에 해당하는 제4 번 윈도우는 최대의 가중에 의해 주어진다.
음성 프레임 k 및 레벨 윈도우 i에 대한 음성기에서의 소스 신호의 스펙트럼과 수신 신호의 스펙트럼 간의 거리 Q
sp
(i, k)를 다음과 같이 계산한다:
수학식 26에서, Ex(k)는 프레임 k에서의 소스 신호의 스펙트럼이고, Ey(k)는 프레임 k에서의 수신 신호의 스펙트럼이다. n은 프레임의 스펙트럼 해상도를 지시하고 있다. n은 시간 프레임에서의 Bark 값의 수(예컨대, 17)에 해당한다. 프레임 k에서의 평균 스펙트럼은 로 지시되어 있다. G
i, k 는 그 값이 에너지 비 에 의존하는 프레임 종속 게인 상수 및 윈도우 의존 게인 상수이다.
도 12에는 G
i, k 가 에너지 비의 함수의 형태로 그래프로 도시되어 있다.
그러한 게인이 1과 동일할 때(수신 신호에서의 에너지가 소스 신호에서의에너지와 동일할 때)에는 역시 G
i, k = 1이다.
수신 신호에서의 에너지가 소스 신호에서의 에너지와 동일할 때에는 G
i, k 가 1과 동일하다. 그것은 Q
sp 에 영향을 미치지 않는다. 다른 모든 값들이 소스 신호로부터의 보다 더 큰 거리에 해당하는(수신 신호의 품질이 보다 저 낮은) 보다 더 작은 G
i, k 또는 Q
sp 를 유도한다. 수신 신호의 에너지가 소스 신호의 에너지보다 더 클 때, 즉 에너지 비 1일 때에는 게인 상수가 다음의 방정식을 따라 거동한다:
개개의 레벨 윈도우에 대한 ε
HI 및 ε
LO 의 값은 아래의 표 2에서 찾아볼 수 있다.
윈도우 번호 i | εHI | εLO | θ | γSD |
2 | 0.05 | 0.025 | 0.15 | 0.1 |
3 | 0.07 | 0.035 | 0.25 | 0.3 |
4 | 0.09 | 0.045 | 0.6 | 0.6 |
전술된 게인 상수는 수신 신호에서 과잉 성분을 유발하여 누락된 성분보다 더 큰 정도로 거리를 증대시키게 된다.
수학식 26으로부터, 분자는 공분산 함수에 해당하고, 분모는 2개의 표준 편차의 적에 해당한다는 것을 알 수 있다. 즉, k 번째 프레임 및 레벨 인도우 i에 대해 거리는 다음과 같게 된다:
위의 표 2로부터도 알 수 있는 각각의 레벨 윈도우에 대한 θ및 γ
SD 의 값은 개개의 Q
sp
(i, k)를 단일의 거리 측정 값 Q
sp 로 변환하는데 필요로 하게 된다.
그 길이가 상이할 수 있는 3개의 Q
sp
(i) 벡터가 신호의 성분의 함수로서 얻어진다. 제1 근사에 있어서, 각각의 레벨 윈도우에 대한 평균을 다음과 같이 계산한다:
수학식 30에서, N은 Q
sp
(i) 벡터의 길이 또는 각각의 음성 윈도우 i에 대한 음성 프레임의 수이다.
이어서, Q
sp
(i) 벡터의 표준 편차 SD
i 를 다음과 같이 계산한다:
수학식 31에서, SD는 코드화 신호에서의 간섭의 분포를 나타낸다. 버스트형 잡음, 예컨대 펄스 잡음의 경우에는 SD 값이 상대적으로 큰 반면에, 균일하게 분포된 잡음의 경우에는 SD 값이 작게 된다. 사람의 귀도 역시 펄스형 방해를 더욱 강렬하게 인지한다. 그 전형적인 경우는 예컨대 AMPS와 같은 아날로그 전송 통신망에 의해 생긴다
따라서, 신호가 얼마나 잘 분포되어 있는지에 따른 영향은 다음과 같이 이행된다:
최종적으로 다음의 식이 성립한다:
이어서, 음성기의 품질 Qsp 를 다음의 식에 따라 개개의 윈도우 품질의 합으로서 계산한다:
가중 계수 U
i 는 다음의 식을 사용하여 결정된다:
η sp 는 수학식 22에 따른 가중 계수이고, p i 는 윈도우 i에 대한 신호의 가중 소속도(weighted degree of membership)에 해당하고 다음의 식을 사용하여 계산된다:
수학식 36에서, N
i 는 윈도우 i에서의 음성 프레임의 수이고, N
sp
는 음성 프레임의 총 수이며, 모든 θ의 합은 1과 동일하다:
물론, 신호 레벨에 종속하지 않는 게인 상수의 경우에는 ε
HI , ε
LO
, θ, 및 γ
SD 의 값을 각각의 윈도우에 대해 동일한 것으로서 선택할 수도 있다.
도 2는 거리 측정 값 계산(16)까지의 해당 처리 세그먼트를 나타내고 있다. 품질 계산(17)에서는 Q
TOT 의 값(수학식 20)을 수립하게 된다.
그 모든 것은 MOS 계산(5)으로 종착된다. 그러한 변환은 Q
TOT 를 정확한 품질 스케일로 표현할 수 있도록 하기 위해 요구되는 것이다. MOS 단위에 따른 품질 스케일은 ITU T P.800 "전송 품질의 주관적 결정 방법(Method for subjective determination of trasmission quality)", 08/96에 정의되어 있다. 통계적으로 의의가 있는 다수의 측정 값을 취한다. 이어서, 모든 측정 값을 도표에 개개의 점으로서 나타낸다. 이어서, 모든 점을 통해 이차 다항식의 형태로 추이 곡선을 그린다.
이제, 그러한 MOSo 값은 미리 정해진 MOS 값에 해당하게 된다. 가장 양호한 경우에는 2개의 값이 동일하게 된다.
전술된 방법은 공공용 하드웨어 및/또는 소프트웨어로 실행될 수 있다. 전술된 수학식들은 별 어려움이 없이 프로그래밍될 수 있다. 소스 신호의 처리는 미리 실행되고, 단지 예비 처리 및 정신 음향학적 모델링(타임마스킹 모델링과 스미어링)의 결과만이 저장된다. 수신 신호는 예컨대 온라인으로 처리될 수 있다. 신호 스펙트럼 상에서의 거리 계산을 실행하기 위해, 소스 신호의 해당 저장 값을 사용한다.
본 발명에 따른 방법을 다양한 조건 하에서 각종의 음성 샘플로 테스트하였다. 샘플의 길이는 4 내지 16 초로 다양하게 되어 있었다.
실제의 통신망에서 다음의 음성 전송을 테스트하였다.
모든 접속을 상이한 음성 레벨로 가행하였다.
시뮬레이션은 다음의 것들을 포함하였다:
각각의 테스트는 일련의 평가 음성 샘플 및 그와 관련된 청각 판정(MOS)으로 이루어진다. 본 발명에 따른 방법과 청각 값 간에는 매우 높은 상관성이 얻어졌다.
요약하여 말한다면,
Claims (18)
- 전송하려는 소스 신호의 스펙트럼과 전송된 수신 신호의 스펙트럼을 주파수 영역에서 결정하는 방식의 기계를 이용한 오디오 신호, 특히 음성 신호의 전송 품질 평가 방법에 있어서,전송 품질을 평가하기 위해, 소스 신호의 스펙트럼과 수신 신호의 스펙트럼의 공분산을 2개의 스펙트럼의 표준 편차의 적으로 나눔으로써 스펙트럼 유사도 값을 결정하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
- 제1항에 있어서, 수신 신호와 소스 신호 간의 에너지 비의 함수로서 수신 신호의 에너지가 소스 신호의 에너지보다 더 낮은 경우보다는 수신 신호의 에너지가 소스 신호의 에너지보다 더 큰 경우에 스펙트럼 유사도 값을 더욱 크게 감소시키는 게인 계수로 스펙트럼 유사도 값을 가중시키는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
- 제2항에 있어서, 게인 계수는 수신 신호의 에너지의 함수로서 수신 신호의 에너지가 높을수록 유사도 값을 더욱 크게 감소시키는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
- 제1항 내지 제3항 중의 어느 한 항에 있어서, 소스 신호와 수신 신호로부터 비활성기를 추출하여 잔여 활성기에 대해서만 스펙트럼 유사도 값을 결정하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
- 제5항에 있어서, 활성기의 유사도 값과 비활성기의 유사도 값과의 가중 선형 조합에 의해 전송 품질을 계산하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
- 제1항 내지 제3항 중의 어느 한 항에 에 있어서, 주파수 영역으로의 변환 전에 연속 프레임이 50 %까지의 상당한 정도로 중첩되도록 소스 신호와 수신 신호를 시간 프레임으로 각각 분할하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
- 제7항에 있어서, 타임 마스팅을 실행하기 위해, 프레임의 스펙트럼에 선행 프레임의 감쇠된 스펙트럼을 더하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
- 제1항 내지 제3항 중의 어느 한 항에 있어서, 유사도 값을 결정하기 전에 소스 신호의 스펙트럼과 수신 신호의 스펙트럼을 주파수 종속 비대칭 스미어링 함수로 콘볼루팅하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
- 제4항에 있어서, 주파수 영역으로의 변환 전에 연속 프레임이 50 %까지의 상당한 정도로 중첩되도록 소스 신호와 수신 신호를 시간 프레임으로 각각 분할하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
- 제4항에 있어서, 유사도 값을 결정하기 전에 소스 신호의 스펙트럼과 수신 신호의 스펙트럼을 주파수 종속 비대칭 스미어링 함수로 콘볼루팅하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
- 제 7항에 있어서, 유사도 값을 결정하기 전에 소스 신호의 스펙트럼과 수신 신호의 스펙트럼을 주파수 종속 비대칭 스미어링 함수로 콘볼루팅하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
- 제 12항에 있어서, 유사도 값을 결정하기 전에 소스 신호의 스펙트럼과 수신 신호의 스펙트럼을 주파수 종속 비대칭 스미어링 함수로 콘볼루팅하는 것을 특징으로 하는 오디오 신호의 전송 품질 평가 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP98810589.6 | 1998-06-26 | ||
EP98810589A EP0980064A1 (de) | 1998-06-26 | 1998-06-26 | Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20010086277A KR20010086277A (ko) | 2001-09-10 |
KR100610228B1 true KR100610228B1 (ko) | 2006-08-09 |
Family
ID=8236158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020007014483A KR100610228B1 (ko) | 1998-06-26 | 1999-06-21 | 오디오 신호의 전송 품질 평가 방법 |
Country Status (12)
Country | Link |
---|---|
US (1) | US6651041B1 (ko) |
EP (2) | EP0980064A1 (ko) |
KR (1) | KR100610228B1 (ko) |
CN (1) | CN1132152C (ko) |
AU (1) | AU4129199A (ko) |
CA (1) | CA2334906C (ko) |
DE (1) | DE59903474D1 (ko) |
ES (1) | ES2186362T3 (ko) |
HK (1) | HK1039997B (ko) |
RU (1) | RU2232434C2 (ko) |
TW (1) | TW445724B (ko) |
WO (1) | WO2000000962A1 (ko) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL1013500C2 (nl) * | 1999-11-05 | 2001-05-08 | Huq Speech Technologies B V | Inrichting voor het schatten van de frequentie-inhoud of het spectrum van een geluidssignaal in een ruizige omgeving. |
US7236932B1 (en) * | 2000-09-12 | 2007-06-26 | Avaya Technology Corp. | Method of and apparatus for improving productivity of human reviewers of automatically transcribed documents generated by media conversion systems |
DE10142846A1 (de) * | 2001-08-29 | 2003-03-20 | Deutsche Telekom Ag | Verfahren zur Korrektur von gemessenen Sprachqualitätswerten |
US7487084B2 (en) * | 2001-10-30 | 2009-02-03 | International Business Machines Corporation | Apparatus, program storage device and method for testing speech recognition in the mobile environment of a vehicle |
FR2835125B1 (fr) | 2002-01-24 | 2004-06-18 | Telediffusion De France Tdf | Procede d'evaluation d'un signal audio numerique |
WO2003093775A2 (en) * | 2002-05-03 | 2003-11-13 | Harman International Industries, Incorporated | Sound detection and localization system |
JP4486646B2 (ja) * | 2003-05-28 | 2010-06-23 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | オーディオ信号の感知音量を計算し調整する方法、装置及びコンピュータプログラム |
JP5101292B2 (ja) | 2004-10-26 | 2012-12-19 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オーディオ信号の感知音量及び/又は感知スペクトルバランスの計算と調整 |
US8199933B2 (en) | 2004-10-26 | 2012-06-12 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
FR2882458A1 (fr) * | 2005-02-18 | 2006-08-25 | France Telecom | Procede de mesure de la gene due au bruit dans un signal audio |
US8005675B2 (en) * | 2005-03-17 | 2011-08-23 | Nice Systems, Ltd. | Apparatus and method for audio analysis |
CA2602860A1 (en) * | 2005-04-04 | 2006-10-12 | That Corporation | Signal quality estimation and control system |
EA026063B1 (ru) * | 2005-04-18 | 2017-02-28 | Басф Се | Сополимер, синтезированный из по меньшей мере трех различных моноэтиленненасыщенных мономеров |
TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
JP5185254B2 (ja) * | 2006-04-04 | 2013-04-17 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Mdct領域におけるオーディオ信号音量測定と改良 |
NO345590B1 (no) | 2006-04-27 | 2021-05-03 | Dolby Laboratories Licensing Corp | Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon |
BRPI0717484B1 (pt) | 2006-10-20 | 2019-05-21 | Dolby Laboratories Licensing Corporation | Método e aparelho para processar um sinal de áudio |
US8521314B2 (en) | 2006-11-01 | 2013-08-27 | Dolby Laboratories Licensing Corporation | Hierarchical control path with constraints for audio dynamics processing |
ES2377719T3 (es) * | 2007-07-13 | 2012-03-30 | Dolby Laboratories Licensing Corporation | Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral. |
EP2043278B1 (en) | 2007-09-26 | 2013-03-20 | Psytechnics Ltd | Signal processing |
US8315398B2 (en) * | 2007-12-21 | 2012-11-20 | Dts Llc | System for adjusting perceived loudness of audio signals |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
WO2011113741A1 (de) * | 2010-03-18 | 2011-09-22 | Siemens Medical Instruments Pte. Ltd. | Verfahren zum test von hörhilfegeräten |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
CN103730131B (zh) | 2012-10-12 | 2016-12-07 | 华为技术有限公司 | 语音质量评估的方法和装置 |
CN103578479B (zh) * | 2013-09-18 | 2016-05-25 | 中国人民解放军电子工程学院 | 基于听觉掩蔽效应的语音可懂度测量方法 |
CN105280195B (zh) | 2015-11-04 | 2018-12-28 | 腾讯科技(深圳)有限公司 | 语音信号的处理方法及装置 |
EP3223279B1 (en) | 2016-03-21 | 2019-01-09 | Nxp B.V. | A speech signal processing circuit |
CN109496334B (zh) * | 2016-08-09 | 2022-03-11 | 华为技术有限公司 | 用于评估语音质量的设备和方法 |
FR3058013B1 (fr) * | 2016-10-21 | 2020-11-13 | Worldcast Systems | Procede et dispositif d'optimisation de la puissance radiofrequence d'un emetteur de radiodiffusion fm |
CN108259653B (zh) * | 2016-12-28 | 2020-09-01 | ***通信有限公司研究院 | 一种语音测试方法及装置、*** |
US10957445B2 (en) | 2017-10-05 | 2021-03-23 | Hill-Rom Services, Inc. | Caregiver and staff information system |
CN111803080B (zh) * | 2020-06-11 | 2023-06-16 | 河南迈松医用设备制造有限公司 | 婴儿畸变耳声检测仪及其检测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4860360A (en) * | 1987-04-06 | 1989-08-22 | Gte Laboratories Incorporated | Method of evaluating speech |
WO1995015035A1 (en) * | 1993-11-25 | 1995-06-01 | British Telecommunications Public Limited Company | Method and apparatus for testing telecommunications equipment |
WO1998006196A1 (de) * | 1996-08-02 | 1998-02-12 | Ascom Infrasys Ag | Verfahren und anordnung zum beurteilen der qualität eines übertragenen sprachsignals |
US6092040A (en) * | 1997-11-21 | 2000-07-18 | Voran; Stephen | Audio signal time offset estimation algorithm and measuring normalizing block algorithms for the perceptually-consistent comparison of speech signals |
-
1998
- 1998-06-26 EP EP98810589A patent/EP0980064A1/de not_active Withdrawn
-
1999
- 1999-06-21 EP EP99924646A patent/EP1088300B1/de not_active Expired - Lifetime
- 1999-06-21 US US09/720,373 patent/US6651041B1/en not_active Expired - Fee Related
- 1999-06-21 WO PCT/CH1999/000269 patent/WO2000000962A1/de active IP Right Grant
- 1999-06-21 CA CA002334906A patent/CA2334906C/en not_active Expired - Fee Related
- 1999-06-21 ES ES99924646T patent/ES2186362T3/es not_active Expired - Lifetime
- 1999-06-21 DE DE59903474T patent/DE59903474D1/de not_active Expired - Lifetime
- 1999-06-21 KR KR1020007014483A patent/KR100610228B1/ko not_active IP Right Cessation
- 1999-06-21 CN CN998101168A patent/CN1132152C/zh not_active Expired - Fee Related
- 1999-06-21 RU RU2001102492/09A patent/RU2232434C2/ru not_active IP Right Cessation
- 1999-06-21 AU AU41291/99A patent/AU4129199A/en not_active Abandoned
- 1999-08-09 TW TW088113555A patent/TW445724B/zh not_active IP Right Cessation
-
2002
- 2002-03-04 HK HK02101642.8A patent/HK1039997B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
ES2186362T3 (es) | 2003-05-01 |
WO2000000962A1 (de) | 2000-01-06 |
RU2232434C2 (ru) | 2004-07-10 |
HK1039997B (zh) | 2004-09-10 |
AU4129199A (en) | 2000-01-17 |
CA2334906A1 (en) | 2000-01-06 |
EP1088300A1 (de) | 2001-04-04 |
US6651041B1 (en) | 2003-11-18 |
EP0980064A1 (de) | 2000-02-16 |
HK1039997A1 (en) | 2002-05-17 |
DE59903474D1 (de) | 2003-01-02 |
CA2334906C (en) | 2009-09-08 |
KR20010086277A (ko) | 2001-09-10 |
CN1315032A (zh) | 2001-09-26 |
CN1132152C (zh) | 2003-12-24 |
EP1088300B1 (de) | 2002-11-20 |
TW445724B (en) | 2001-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100610228B1 (ko) | 오디오 신호의 전송 품질 평가 방법 | |
AU670950B2 (en) | Method and apparatus for objective speech quality measurements of telecommunication equipment | |
US5794188A (en) | Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency | |
Steeneken et al. | A physical method for measuring speech‐transmission quality | |
US5621854A (en) | Method and apparatus for objective speech quality measurements of telecommunication equipment | |
EP0776567B1 (en) | Analysis of audio quality | |
CN1985304B (zh) | 用于增强型人工带宽扩展的***和方法 | |
KR101148671B1 (ko) | 오디오 전송 시스템의 음성 명료도 측정 방법 및 시스템 | |
CN1327407C (zh) | 用于确定语音信号的质量的方法和设备 | |
DK2465113T3 (en) | PROCEDURE, COMPUTER PROGRAM PRODUCT AND SYSTEM FOR DETERMINING AN CONCEPT QUALITY OF A SOUND SYSTEM | |
Steeneken et al. | Validation of the revised STIr method | |
US20120230474A1 (en) | Performance Testing of Echo Cancellers Using a White Noise Test Signal | |
Hansen | Assessment and prediction of speech transmission quality with an auditory processing model. | |
Meky et al. | Prediction of speech quality using radial basis functions neural networks | |
US20080255834A1 (en) | Method and Device for Evaluating the Efficiency of a Noise Reducing Function for Audio Signals | |
Somek et al. | Speech quality assessment | |
DE102013005844B3 (de) | Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals | |
Jiju et al. | Characterization of Noise Associated with Forensic Speech Samples | |
Steeneken | Subjective and objective intelligibility measures | |
Wuppermann et al. | Objective analysis of the GSM half rate speech codec candidates. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20110727 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20120723 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |