JP2009500952A - Voice quality evaluation method and voice quality evaluation system - Google Patents
Voice quality evaluation method and voice quality evaluation system Download PDFInfo
- Publication number
- JP2009500952A JP2009500952A JP2008520343A JP2008520343A JP2009500952A JP 2009500952 A JP2009500952 A JP 2009500952A JP 2008520343 A JP2008520343 A JP 2008520343A JP 2008520343 A JP2008520343 A JP 2008520343A JP 2009500952 A JP2009500952 A JP 2009500952A
- Authority
- JP
- Japan
- Prior art keywords
- distortion
- mute
- quality assessment
- estimating
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 31
- 238000013441 quality evaluation Methods 0.000 title claims description 15
- 238000001303 quality assessment method Methods 0.000 claims abstract description 43
- 230000005236 sound signal Effects 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 28
- 230000000694 effects Effects 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 15
- 238000013442 quality metrics Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 10
- 230000002159 abnormal effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 206010021403 Illusion Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001256 tonic effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2236—Quality of speech transmission monitoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
- Monitoring And Testing Of Exchanges (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
一実施形態では、受信された音声信号における歪みが、主観的品質評価データに基づいて訓練された少なくとも1つのモデルを使用して推定される。次に、受信された音声信号に関する音声品質評価が、推定された歪みに基づいて判定される。 In one embodiment, distortion in the received speech signal is estimated using at least one model trained based on subjective quality assessment data. Next, a voice quality assessment for the received voice signal is determined based on the estimated distortion.
Description
本発明は、音声品質評価に関する。 The present invention relates to voice quality evaluation.
最新の電気通信ネットワークが、より複雑になり、回線交換網から、VoIP(ボイス・オーバー・インターネット・プロトコル)などのパケット・ベースのネットワークに進化するにつれ、知覚される音声品質に影響を及ぼす新たなタイプの歪みに直面している。このため、稼動中のネットワークのQoS(サービス品質)を維持し、向上させることは、引き続き重要な問題である。現行の技術では、主観的音声品質評価が、最も信頼でき、音声品質を評価するための一般に受け入れられているやり方である。主観的音声品質評価では、人間の聴取者が、処理済みの音声の音声品質を格付けするのに使用され、処理済みの音声とは、受信機において処理されている、例えば、復号されている伝送された音声信号である。この技術は、個別の人間の知覚に基づくため、主観的である。しかし、主観的音声品質評価は、十分に大きい数の音声サンプルおよび聴取者が、統計的に信頼できる結果を得るのに必要であるため、費用が高く、時間のかかる技術である。例えば、1から5までの段階で音声品質を格付けする、これらの主観的結果が平均されて、MOS(平均オピニオン評点)が得られる。 As modern telecommunications networks become more complex and evolve from circuit-switched networks to packet-based networks such as VoIP (voice over internet protocol), new ones that affect perceived voice quality Facing type distortion. For this reason, maintaining and improving the quality of service (QoS) of the network in operation remains an important issue. With current technology, subjective speech quality assessment is the most reliable and generally accepted way to assess speech quality. In subjective speech quality assessment, a human listener is used to rate the speech quality of the processed speech, which is the transmission being processed at the receiver, eg, decoded. Audio signal. This technique is subjective because it is based on individual human perception. However, subjective speech quality assessment is an expensive and time consuming technique because a sufficiently large number of speech samples and listeners are required to obtain statistically reliable results. For example, these subjective results of rating speech quality on a scale from 1 to 5 are averaged to obtain a MOS (mean opinion score).
客観的音声品質評価が、音声品質を評価するための別の技術である。主観的音声品質評価とは異なり、客観的音声品質評価は、個別の人間の知覚には基づかない。客観的音声品質評価は、2つのタイプのいずれかであることが可能である。第1のタイプの客観的音声品質評価は、知られているソース音声に基づき、しばしば、侵入的評価と呼ばれる。この第1のタイプの客観的音声品質評価では、例えば、移動局が、知られているソース音声から導き出された、例えば、符号化された音声信号を伝送する。伝送された音声信号が、受信され、処理され、その後、記録される。記録された処理済みの音声信号は、PESQ(音声品質の知覚評価)などの、よく知られている音声評価技術を使用して、知られているソース音声と比較されて、音声品質が判定される。ソース音声信号が、知られていない場合、または伝送された音声信号が、知られているソース音声から導き出されていない場合、この第1のタイプの客観的音声品質評価は、利用することができない。 Objective speech quality assessment is another technique for assessing speech quality. Unlike subjective speech quality assessment, objective speech quality assessment is not based on individual human perception. Objective voice quality assessment can be one of two types. The first type of objective speech quality assessment is based on known source speech and is often referred to as intrusive assessment. In this first type of objective speech quality assessment, for example, the mobile station transmits, for example, an encoded speech signal derived from a known source speech. The transmitted audio signal is received, processed and then recorded. The recorded processed audio signal is compared with known source audio using well-known audio evaluation techniques such as PESQ (Perceptual Evaluation of Audio Quality) to determine audio quality. The This first type of objective speech quality assessment is not available if the source speech signal is not known or if the transmitted speech signal is not derived from the known source speech. .
第2のタイプの客観的音声品質評価は、知られているソース音声には基づかず、非侵入的評価、シングルエンド評価、または出力ベースの評価と呼ばれる。この第2のタイプの客観的音声品質評価のほとんどの実施形態には、処理済みの音声からソース音声を推定し、次に、よく知られている音声評価技術を使用して、その推定されたソース音声を処理済みの音声と比較することがかかわる。非侵入的な方法は、現実の応用例において、例えば、ソース音声信号が利用できない場合に稼動中のネットワークの音声品質を監視する応用例において、大きい可能性を有する。劣化していないソース音声データベースから導き出された符号語からの、劣化した音声信号の特徴ベクトルの偏差を測定することによる、または電気通信ネットワーク歪みに対する感度のよい声道モデルのパラメータ化により、非侵入的測定システムを構築する、いくつかの試みが、行われている。最近、ITU−Tにおいて、P.SEAM(Single−Ended Assessment Model)と呼ばれる標準化活動が、音声品質の非侵入的推定のためのアルゴリズムを標準化するように創設された。いくつかのモデルが、提案され、それらのモデルの1つが、標準勧告P.563として採用された。しかし、ITU−T P.563モデルは、このモデルの開発において使用される、知られているMOSデータに関してさえ、非常に限られたパフォーマンス、すなわち、24回のMOS試験に関して、主観的評点と客観的評点との間で平均、約0.88の相関を示す。 The second type of objective speech quality assessment is not based on known source speech and is called non-intrusive assessment, single-ended assessment, or output-based assessment. In most embodiments of this second type of objective speech quality assessment, the source speech is estimated from the processed speech and then estimated using well-known speech assessment techniques. It involves comparing the source audio with the processed audio. Non-intrusive methods have great potential in real-world applications, for example in applications that monitor the voice quality of a working network when the source voice signal is not available. Non-intrusive by measuring the deviation of feature vectors of degraded speech signals from codewords derived from non-degraded source speech databases or by parameterizing vocal tract models sensitive to telecommunications network distortion Several attempts have been made to build a static measurement system. Recently, in ITU-T, P.I. A standardization activity called SEAM (Single-Ended Assessment Model) was created to standardize algorithms for non-intrusive estimation of voice quality. Several models have been proposed, one of which is the standard recommendation P.I. 563 was adopted. However, ITU-TP The 563 model is very limited in performance, even for the known MOS data used in the development of this model, ie, average between subjective and objective scores for the 24 MOS tests. , Showing a correlation of about 0.88.
本発明は、客観的音声品質評価を提供する。 The present invention provides objective speech quality assessment.
一実施形態では、受信された音声信号における歪みが、主観的品質評価データに基づいて訓練された少なくとも1つのモデルを使用して推定される。次に、受信された音声信号に関する音声品質評価が、推定された歪みに基づいて判定される。
例えば、推定する工程は、主観的品質評価データに基づいて訓練された第1のモデルを使用して、受信された音声信号における音声歪みを推定することを含むことが可能である。推定する工程は、主観的品質評価データに基づいて訓練された第1のモデルを使用して、受信された音声信号における背景雑音歪みを推定することをさらに含むことが可能である。
In one embodiment, distortion in the received speech signal is estimated using at least one model trained based on subjective quality assessment data. Next, a voice quality assessment for the received voice signal is determined based on the estimated distortion.
For example, the estimating step can include estimating speech distortion in the received speech signal using a first model trained based on subjective quality assessment data. The estimating step can further include estimating a background noise distortion in the received speech signal using a first model trained based on the subjective quality assessment data.
第1のモデルは、音声信号における歪みの主観的判定をモデル化することが可能である。
また、推定する工程は、主観的品質評価データに基づいて訓練された第2のモデルを使用して、受信された音声信号におけるミュートによって生じた歪みを評価することをさらに含むことも可能である。
The first model can model a subjective determination of distortion in an audio signal.
The step of estimating may further include evaluating distortion caused by mute in the received audio signal using a second model trained based on subjective quality assessment data. .
本発明の別の実施形態では、音声品質評価のための装置が、主観的品質評価データに基づいて訓練された少なくとも1つのモデルを使用して、受信された音声信号における歪みを推定する少なくとも1つのエスティメータと、推定された歪みを音声品質メトリックにマップするマッピング・ユニットとを含む。 In another embodiment of the invention, at least one apparatus for speech quality assessment estimates distortion in a received speech signal using at least one model trained based on subjective quality assessment data. One estimator and a mapping unit that maps the estimated distortion to a voice quality metric.
本発明のさらに別の実施形態は、フレーム歪みを推定する方法を提供する。この実施形態では、受信された信号における音声歪みが、主観的品質評価データに基づいて訓練されたモデルを使用して推定され、受信された信号における背景雑音歪みが、主観的品質評価データに基づいて訓練されたモデルを使用して推定される。推定された音声歪みと推定された背景雑音歪みが組み合わされて、フレーム歪み推定値が得られる。 Yet another embodiment of the present invention provides a method for estimating frame distortion. In this embodiment, speech distortion in the received signal is estimated using a model trained based on subjective quality assessment data, and background noise distortion in the received signal is based on subjective quality assessment data. Estimated using a trained model. The estimated speech distortion and the estimated background noise distortion are combined to obtain a frame distortion estimate.
本発明のさらなる実施形態は、ミュート歪みを推定する方法を提供する。この実施形態では、受信された音声信号におけるミュートが、検出され、検出されたミュートによって生じた歪みが、主観的品質評価データに基づいて訓練されたモデルを使用して評価される。 A further embodiment of the present invention provides a method for estimating mute distortion. In this embodiment, mute in the received audio signal is detected, and the distortion caused by the detected mute is evaluated using a model trained based on subjective quality assessment data.
本発明は、品質評価システムを訓練する方法をさらに含む。一実施形態では、方法は、第1の主観的品質評価データを使用して、システムの第2の歪み推定パスからの影響を排除しながら、システムの第1の歪み推定パスを訓練することを含む。第1の主観的品質評価データは、第1の音声信号と、第1の関連する主観的品質メトリックとを含み、第1の音声信号には、ミュート歪みが欠如している。次に、システムの第2の歪み推定パスが、第2の主観的品質評価データを使用して訓練される。第2の主観的品質評価データは、第2の音声信号と、第2の関連する主観的品質メトリックとを含み、第2の音声信号は、ミュート歪みを含む。次に、第1の歪みパスが、第2の歪みパスの影響を含みながら、第1の品質評価データ、および第2の品質評価データを使用して再訓練される。 The present invention further includes a method for training a quality assessment system. In one embodiment, the method uses the first subjective quality assessment data to train the system's first distortion estimation path while eliminating the effects from the system's second distortion estimation path. Including. The first subjective quality assessment data includes a first audio signal and a first associated subjective quality metric, wherein the first audio signal lacks mute distortion. Next, a second distortion estimation path of the system is trained using the second subjective quality assessment data. The second subjective quality assessment data includes a second audio signal and a second associated subjective quality metric, and the second audio signal includes mute distortion. Next, the first distortion path is retrained using the first quality evaluation data and the second quality evaluation data, including the effects of the second distortion path.
本発明は、後段で与えられる詳細な説明、および単に例として与えられる添付の図面から、より完全に理解されよう。図面では、同様の符号は、様々な図面において対応する部分を示す。 The present invention will become more fully understood from the detailed description given hereinafter and the accompanying drawings, given by way of example only. In the drawings, like numerals indicate corresponding parts in the various drawings.
図1は、本発明の実施形態による音声品質評価システムのブロック図を示す。図示されるとおり、フィルタ10が、音声信号x(n)に対してレベル正規化、および変形RX−IRS(受信中間基準システム)フィルタリングを実行する。フィルタ10は、よく知られているP.56音声電圧計を使用して、音声信号x(n)を26dBovに正規化する。次に、主観的リスト試験において使用されるハンドセットの特性を反映する、よく知られているRX−IRSフィルタリングが、フィルタ10によって適用される。正規化とRX−IRSフィルタリングはともに、よく知られているため、これらの動作を詳細に説明することはしない。
FIG. 1 shows a block diagram of a speech quality evaluation system according to an embodiment of the present invention. As shown, the
正規化され、フィルタリングされた音声信号は、調音解析ユニット12による調音解析を受ける。調音解析ユニット12は、特徴ベクトルを生成し、特徴ベクトルのそれぞれは、自然な人間音声と関係のある信号成分を反映する平均調音パワー成分と、人間の調音系の速度を超えたレートで生成される知覚的にうるさい歪みを反映する平均非調音パワー成分とを含む。次に、フレーム歪みエスティメータ14が、各フレームmに関する特徴ベクトルに基づき、各フレームmに関する音声歪みおよび背景雑音歪みを推定する。フレーム歪みエスティメータ14は、いくつかのフレームに関する音声歪みおよび背景歪みを蓄積し、蓄積された音声歪みおよび背景雑音歪みを正規化して、フレーム歪みをもたらす。フレーム歪みエスティメータ14の動作は、後段で詳細に説明する。
The normalized and filtered audio signal is subjected to articulation analysis by the
また、フィルタ10からのフィルタリングされた音声信号は、ミュート検出ユニット16にも供給される。ミュート検出ユニット16は、例えば、パケット損失によって生じる予期されない、不要な休止であるミュートを検出する。より具体的には、ミュート検出ユニット16は、ミュートの時間的な位置、およびミュートの長さ(深度とも呼ばれる)を検出する。ミュート検出ユニット16の動作は、後段で詳細に説明する。
The filtered audio signal from the
ミュート歪みエスティメータ18が、ミュート検出ユニット16から情報を受け取り、ミュートによって生じる知覚的歪み(以降、「ミュート歪み」と呼ぶ)を推定する。ミュート歪みエスティメータ18の動作は、後段で詳細に説明する。
A
コンバイナ20が、フレーム歪み推定値とミュート歪み推定値を組み合わせて、客観的歪み推定値を生成する。マッピング・ユニット22が、その客観的歪み推定値を、MOSなどの、対応する主観的音声品質性能指数にマップする。例えば、マッピング・ユニット22は、客観的歪み推定値をMOSに変換するためのルックアップ・テーブルを格納することができる。ルックアップ・テーブルの中の歪み推定ポイント間にある値に関しては、補間が実行されて、MOSが得られることが可能である。図2は、ルックアップ・テーブルによって表されるMOSに対する推定された客観的歪みの曲線を示す。代替として、マッピング・ユニット22は、図2における曲線を特徴付ける数式を格納し、推定された客観的歪みを入力として、その数式に適用して、結果のMOSを得てもよい。例えば、図2に関して、MOS値Qxは、(−3.5*客観的歪み推定値+4.5)に等しく、最大MOSが、4.5であり、最小MOSが、1.0であるようになっていてもよい。
次に、調音解析ユニット12、フレーム歪みエスティメータ14、ミュート検出ユニット16、およびミュート歪みエスティメータ18の動作を説明する。
The
Next, operations of the
(調音解析ユニット)
図3は、本発明の実施形態による図1の調音解析ユニットにおいて使用される音声品質評価構成を示す。この音声品質評価構成は、蝸牛フィルタバンク2、エンベロープ解析モジュール4、および調音解析モジュール6から成る。この音声品質評価構成において、正規化され、RX−IRSフィルタリングされた音声信号s(t)が、蝸牛フィルタバンク2に入力として与えられる。蝸牛フィルタバンク2は、末梢聴覚系の第1の段階に従って音声信号s(t)を処理するための複数の蝸牛フィルタhi(t)を含み、ただし、i=1,2,...,NCは、特定の蝸牛フィルタ・チャネルを表し、NCは、蝸牛フィルタ・チャネルの総数を表す。具体的には、蝸牛フィルタバンク2は、音声信号s(t)をフィルタリングして、複数の臨界帯域信号si(t)をもたらし、臨界帯域信号si(t)は、s(t)*hi(t)に等しい。
複数の臨界帯域信号si(t)は、エンベロープ解析モジュール4に入力として与えられる。エンベロープ解析モジュール4において、複数の臨界帯域信号si(t)は、処理されて、複数のエンベロープai(t)が得られ、ただし、
FIG. 3 shows a voice quality evaluation configuration used in the articulation analysis unit of FIG. 1 according to an embodiment of the present invention. This voice quality evaluation configuration includes a
The plurality of critical band signals s i (t) are provided as an input to the
次に、複数のエンベロープai(t)が入力として調音解析モジュール6に与えられる。調音解析モジュール6において、複数のエンベロープai(t)が処理されて、音声信号s(t)に関する音声品質評価が得られる。具体的には、調音解析モジュール6は、人間の調音系からは生成されていない信号に関連するパワー(以降、「非調音パワーPNA(m,i)」と呼ぶ)を伴う、人間の調音系から生成された信号に関連するパワー(以降、「調音パワーPA(m,i)」と呼ぶ)に基づいて、特徴ベクトルを生成する。
Next, a plurality of envelopes a i (t) are provided as input to the
図4は、本発明の一実施形態による調音解析モジュール6において複数のエンベロープai(t)を処理するための流れ図200を示す。工程210で、複数のエンベロープai(t)の各エンベロープのフレームmに対してフーリエ変換が実行されて、変調スペクトルAi(m,f)が生成され、ただし、fは、周波数である。
FIG. 4 shows a
図5は、パワー対周波数の点で変調スペクトルAi(m,f)を示す例を示す。図示されるとおり、調音パワーPA(m,i)は、周波数2〜30Hzに関連するパワーであり、非調音パワーPNA(m,i)は、30Hzを超える周波数に関連するパワーである。2Hz未満の周波数に関連するパワーPNo(m,i)は、臨界帯域信号si(t)のフレームmのDC成分である。この例では、調音パワーPA(m,i)は、人間の調音の速度が、2〜30Hzであり、調音パワーPA(m,i)に関連する周波数範囲と非調音パワーPNA(m,i)に関連する周波数範囲(以降、それぞれ、「調音周波数範囲」および「非調音周波数範囲」と呼ぶ)が、隣接した、重なり合わない周波数範囲であるという事実に基づき、周波数2〜30Hzに関連するパワーとして選択される。本明細書の目的として、「調音パワーPA(m,i)」という用語は、人間の調音の周波数範囲、または前述した周波数範囲2〜30Hzに限定されるべきではないことを理解されたい。同様に、「非調音パワーPNA(m,i)」という用語も、調音パワーPA(m,i)に関連する周波数範囲を超える周波数範囲に限定されるべきではない。非調音周波数範囲は、調音周波数範囲と重なり合っていても、重なり合っていなくても、隣接していても、隣接していなくてもよい。非調音周波数範囲は、臨界帯域信号si(t)のフレームmのDC成分に関連する周波数などの、調音周波数範囲における最低の周波数より低い周波数も含むことが可能である。 FIG. 5 shows an example showing the modulation spectrum A i (m, f) in terms of power versus frequency. As illustrated, the articulation power P A (m, i) is a power associated with a frequency of 2 to 30 Hz, and the non-articulation power P NA (m, i) is a power associated with a frequency exceeding 30 Hz. The power P No (m, i) associated with frequencies below 2 Hz is the DC component of frame m of the critical band signal s i (t). In this example, the articulation power P A (m, i) has a human articulation speed of 2 to 30 Hz, and the frequency range related to the articulation power P A (m, i) and the non-articulation power P NA (m , I) based on the fact that the frequency ranges associated with (hereinafter referred to as “articulatory frequency ranges” and “non-articulatory frequency ranges” respectively) are adjacent, non-overlapping frequency ranges. Selected as the associated power. For the purposes of this specification, it should be understood that the term “articulation power P A (m, i)” should not be limited to the frequency range of human articulation, or the frequency range of 2-30 Hz described above. Similarly, the term “non-articulation power P NA (m, i)” should not be limited to a frequency range that exceeds the frequency range associated with the articulation power P A (m, i). The non-articulation frequency range may or may not overlap with the articulation frequency range. The non-articulatory frequency range can also include frequencies below the lowest frequency in the articulatory frequency range, such as the frequency associated with the DC component of frame m of the critical band signal s i (t).
次に、特徴ベクトルζk(m)が、以下のとおり定義される。すなわち、
(フレーム歪みエスティメータ)
フレーム歪みエスティメータ14は、調音解析ユニット12から、各フレームmに関する特徴ベクトルζk(m)を受け取る。各フレームに関する特徴ベクトルを、ニューラル・ネットワーク、例えば、フレーム歪みエスティメータ14の一部分を形成する多層パーセプトロンへの入力として使用することにより、各フレームの客観的歪みが、多層パーセプトロンによって推定される。図6は、フレーム歪みエスティメータ14において使用されるような多層パーセプトロンの例を示す。第m番のフレームζk(m)における入力ベクトルに関する多層パーセプトロンの出力O(m)は、以下のとおり表現される。すなわち、
The
理解されるとおり、フレーム歪みエスティメータ14は、この実施形態における多層パーセプトロンである、ニューラル・ネットワークであるため、ニューラル・ネットワークは、意味のある出力を生成するように訓練される。フレーム歪みエスティメータ14の訓練は、後段で詳細に説明する。
As will be appreciated, since the
(ミュート検出ユニット)
最新の電気通信ネットワークは、ますます複雑になっている。既存の従来のPSTN(公衆交換電話網)に加え、GSM(global system for mobile communications)、CDMA(符号分割多元接続)、UMTS(universal mobile telecommunications system)、およびVoIP(ボイス・オーバー・インターネット・プロトコル)などの、様々なタイプのネットワークが、日常生活において広く使用されており、あるいは、もうすぐ世界中で展開されようとしている。電話網が、回線交換網からパケット網(特に、VoIPのための)に進化するなかで、パケット損失および遅延ジッタが、伝送される音声品質を低下させる重大な歪みのタイプである。これらのタイプの歪みは、しばしば、音声信号における不要なミュートをもたらす。
(Mute detection unit)
Modern telecommunications networks are becoming increasingly complex. In addition to the existing conventional PSTN (public switched telephone network), GSM (global system for mobile communications), CDMA (code division multiple access), UMTS (universal mobile telecommunications system), and VoIP (voice over voice) Various types of networks are widely used in daily life or are about to be deployed all over the world soon. As the telephone network evolves from a circuit switched network to a packet network (especially for VoIP), packet loss and delay jitter are significant distortion types that degrade the voice quality transmitted. These types of distortion often result in unwanted mute in the audio signal.
ミュート検出ユニット16において、フレーム対数パワーが、以下のとおり、4ミリ秒ごとに計算される。すなわち、
音声活動プロファイルが、e(l)の値を使用することによって生成される。図7は、時間につれての音声活動に関するプロファイルの説明的な例を示す。図示されるとおり、Viは、音声活動の時間であり、Gi−l,iは、隣接する2つの音声活動Vi−1とViの間の間隙である。
Viの終わりに位置するフレームlMは、以下の条件が満たされる場合、異常な突然の停止として識別される。すなわち、
Δe(lM)<Δestop=−7
Lstop(Zstop(lM))≧Lth,stop=0.55 (8)
ただし、Lstop(Zstop(lM))は、Zstop(lM)を、2つの時間インスタンスlM、およびlMより15ミリ秒前において抽出された入力特徴ベクトルとする異常な停止に関するニューラル・ネットワーク検出器の出力である。各時間フレームに関して、12次のMFCC(メル周波数ケプストラル係数)および有声率が、30ミリ秒の解析長で得られて、入力特徴ベクトルZstop(lM)の次元が26にされる。有声率は、音声のセグメントが、いくつかの周期的成分を含むかを示し、以下のとおり、50〜400Hzのピッチ周期範囲(時間サンプルにおいて20〜160に相当する)内の正規化された自己相関として定義される。すなわち、
Frame l M located at the end of V i is identified as an abnormal sudden stop if the following conditions are met: That is,
Δe (l M ) <Δe stop = −7
L stop (Z stop (l M )) ≧ L th, stop = 0.55 (8)
However, L stop (Z stop (l M )) relates to an abnormal stop with Z stop (l M ) as two time instances l M and an input feature vector extracted 15 ms before l M. This is the output of the neural network detector. For each time frame, a 12th order MFCC (Mel Frequency Cepstral Coefficient) and voiced rate is obtained with an analysis length of 30 milliseconds, and the dimension of the input feature vector Z stop (l M ) is 26. The voiced rate indicates whether the segment of speech contains several periodic components and is normalized self within a pitch period range of 50-400 Hz (corresponding to 20-160 in time samples) as follows: Defined as correlation. That is,
ニューラル・ネットワーク検出器は、後段で詳細に説明されるとおり、訓練データベース上で訓練される多層パーセプトロンである。
Viの始めに位置するフレームlMは、以下の条件が満たされる場合、異常な突然の停止として識別される。すなわち、
Δe(lM)>Δestart=13
Lstart(Zstart(lM))≧Lth,start=0.55 (10)
ただし、Lstart(Zstart(lM))は、Zstart(lM)を、2つの時間インスタンスlM、およびlMより15ミリ秒後において抽出された入力特徴ベクトルとする異常な開始に関するニューラル・ネットワーク検出器の出力である。各時間フレームに関して、12次のMFCC(メル周波数ケプストラル係数)、(9)において定義された有声率、およびスペクトル中心が、30ミリ秒の解析長で得られる。スペクトル中心は、
A frame l M located at the beginning of V i is identified as an abnormal sudden stop if the following conditions are met: That is,
Δe (l M )> Δe start = 13
L start (Z start (l M )) ≧ L th, start = 0.55 (10)
However, L start (Z start (l M )) relates to an abnormal start with Z start (l M ) as two time instances l M and an input feature vector extracted 15 ms after l M. This is the output of the neural network detector. For each time frame, the 12th order MFCC (Mel Frequency Cepstral Coefficient), the voice rate defined in (9), and the spectral center are obtained with an analysis length of 30 milliseconds. The spectral center is
(ミュート歪みエスティメータ)
最近の実験は、人間が、音声の品質を、時間をかけて継続的に評価する可能性があること、および知覚される全体的品質に、いくらかの新近性効果があることも明らかにしている。すなわち、歪み(例えば、不要なミュート)が新しいほど、音声品質に及ぼす影響は、大きい。このことは、生物学的な短期記憶と関係しており、最近の事象が、過去の事象より大きい役割を果たすことを意味する。知られている機構は、全く存在しないものの、本発明のこの実施形態によるモデルは、ミュートの影響を、瞬間的な歪みの後に、短期記憶効果をシミュレートする減衰が続く組み合わせとしてモデル化する。したがって、後段で示すとおり、ミュート、およびミュートの時間を考慮に入れることに加え、ミュート歪みエスティメータ18は、ミュート歪みを推定する際に、新近性効果も考慮に入れる。
(Mute distortion estimator)
Recent experiments have also revealed that humans may continuously assess voice quality over time and that there is some recency effect on perceived overall quality . That is, the newer the distortion (eg, unnecessary mute), the greater the impact on audio quality. This is related to biological short-term memory, meaning that recent events play a larger role than past events. Although there is no known mechanism, the model according to this embodiment of the invention models the effect of mute as a combination of instantaneous distortion followed by decay that simulates short-term memory effects. Therefore, as shown later, in addition to taking mute and mute time into consideration,
音声信号が、K個のミュートを含み、ti、i=1,2,...,Mが、各ミュートが終了する時間インスタンスであるものと想定されたい。ミュートによって生じる客観的歪みは、ミュート歪みエスティメータ18によって以下のとおり、モデル化される。すなわち、
第i番のミュートhiの瞬間的歪みは、以下によって推定される。すなわち、
hi=p1log(Li)+p2 (13)
ただし、Liは、第i番のミュートの長さであり、p1およびp2は、後段で詳細に説明するとおり、訓練データから決定される定数である。
The audio signal includes K mutes, and t i , i = 1, 2,. . . , M is the time instance when each mute ends. The objective distortion caused by mute is modeled by the
The instantaneous distortion of the i th mute h i is estimated by: That is,
h i = p 1 log (L i ) + p 2 (13)
However, L i is the length of the i-th mute, and p 1 and p 2 are constants determined from the training data, as will be described in detail later.
(フレーム歪みエスティメータおよびミュート歪みエスティメータを訓練すること)
図8A〜図8Cは、フレーム歪みエスティメータ14およびミュート歪みエスティメータ18の訓練を示す。図8Aは、フレーム歪みエスティメータ14が初期に訓練される訓練プロセスにおける第1の工程を示す。したがって、この訓練プロセスに関与しない図1の要素は、簡明のために示されていない(例えば、ミュート検出ユニット16、ミュート歪みエスティメータ18、コンバイナ20、およびマッピング・ユニット22)。図示されるとおり、データベース24が、提供されている。データベース24は、複数の音声信号と、よく知られているやり方で決定された関連する主観的MOSとを含む。データベース24の中の音声信号は、歪みを含む可能性があるが、時間的不連続性(例えば、ミュート)歪みは、含まない。
(Training frame distortion estimator and mute distortion estimator)
8A-8C illustrate training of the
データベースの中の各音声信号(または音声信号の少なくともサブセット)が、フィルタ10に供給される。対応する主観的MOSが、逆マッピング・ユニット30に供給され、ユニット30は、そのMOSを主観的歪みに変換する。逆マッピング・ユニット30の変換動作は、マッピング・ユニット22によって実行される変換動作の逆である。したがって、逆マッピング・ユニット30は、ルックアップ・テーブル、数式などを使用して変換を実行する。例えば、図2を参照すると、逆マッピングの数式は、主観的歪みが、−(min(MOS(p),4.5)−4.5)/3.5に等しいことであることが可能であり、ただし、MOS(p)は、データベースの中の第p番の音声信号のMOSである。
Each audio signal (or at least a subset of the audio signals) in the database is supplied to the
フィルタ10、調音解析ユニット12、およびフレーム歪みエスティメータ14は、フレーム歪みエスティメータ14の加重WjおよびWjkが、非常に小さい乱数に初期設定されること以外は、図1に関連して前述したとおり、動作する。誤差ジェネレータ32が、フレーム歪み推定値、および逆マッピング・ユニット30からの主観的歪みを受け取り、誤差信号を生成する。より具体的には、一実施形態では、誤差ジェネレータ32は、主観的歪みからフレーム歪み推定値を引いて、誤差信号を生成する。
フレーム歪みエスティメータ14は、以下の歪みモデル
c(p)(m)=α(P(p)(m)−Pth)+βであり、
The
c (p) (m) = α (P (p) (m) −P th ) + β,
これは、入力フレームのシーケンスから成る音声ファイルの全体的な目標は、与えられるが、各フレームに関する個別の目標は、与えられない、監督された訓練と監督されない訓練の混合である。十分に大量の整合性のある音声サンプルを使用して、訓練プロセスは、フレーム特徴ベクトルをフレーム品質と関係付ける固有の規則を学習するフレーム歪みモデルを導き出すことができる。 This is a mixture of supervised and unsupervised training where an overall goal for an audio file consisting of a sequence of input frames is given, but a separate goal for each frame is not given. Using a sufficiently large amount of consistent speech samples, the training process can derive a frame distortion model that learns the unique rules that relate frame feature vectors to frame quality.
フレーム歪みエスティメータ14の初期訓練の後、ミュート歪みエスティメータ18のミュート影響モデルが、訓練される。図7Bは、訓練プロセスのこの工程を示す。この訓練プロセスに関与しない図1の要素は、簡明のために示されていない(例えば、マッピング・ユニット22)。図示されるとおり、データベース26が、提供されている。データベース26は、複数の音声信号と、よく知られているやり方で決定された関連する主観的MOSとを含む。データベース24の中の音声信号は、時間的不連続性(例えば、ミュート)歪みは含まない歪みを含むことが可能である。
After initial training of the
データベースの中の各音声信号(または音声信号の少なくともサブセット)が、フィルタ10に供給される。対応する主観的MOSが、逆マッピング・ユニット30に供給され、ユニット30は、そのMOSを歪みに変換する。フィルタ10、調音解析ユニット12、およびフレーム歪みエスティメータ14は、フレーム歪みエスティメータ14の加重WjおよびWjkが、訓練プロセスの第1の工程において訓練されるとおりであること以外は、図1に関連して前述したとおり、動作する。また、ミュート検出ユニット16およびミュート歪みエスティメータ18も、図1に関連して前述したとおり、動作する。この訓練工程において、コンバイナ20が、訓練ループの中に含められて、フレーム歪み推定値とミュート歪み推定値の組み合わせを誤差信号ジェネレータ32に供給する。誤差ジェネレータ32は、コンバイナ20から全体的な歪み推定値を受け取り、逆マッピング・ユニット30から主観的歪みを受け取り、誤差信号を生成する。より具体的には、一実施形態では、誤差ジェネレータ32は、主観的歪みから全体的歪みを引いて、誤差信号を生成する。
訓練は、回帰によって(13)における最適なパラメータ・セットAm、すなわち、p1およびp2を求めることであり、したがって、
Training is to find the optimal parameter set Am in (13) by regression, ie, p1 and p2, so
訓練プロセスの第3の、最後の工程は、フレーム歪みエスティメータ14を再訓練することである。図7Cは、この最後の訓練を示す。図示されるとおり、データベース24と、データベース26とを含むデータベース28が、音声信号および主観的MOSを供給する。誤差ジェネレータ32からの誤差信号が、フレーム歪みエスティメータ14に供給される。この再訓練工程は、フレーム歪みモデルが、ミュート影響モデルの残差を補償することを可能にする。これは、以下の歪みモデル
前述の実施形態から理解されるとおり、この音声品質推定システムは、コンピュータ上で実行されたソフトウェア、配線によって組まれている回路、デジタル・シグナル・プロセッサなどとして実施されることが可能である。 As will be understood from the foregoing embodiments, the speech quality estimation system can be implemented as software executed on a computer, a circuit built by wiring, a digital signal processor, or the like.
本発明は、このように説明したが、本発明は、多様に変形されることが可能であることが明らかであろう。そのような変形形態は、本発明からの逸脱と見なされるべきではなく、すべてのそのような変更形態が、本発明の範囲に含められるべきものとする。 Although the present invention has been described in this manner, it will be apparent that the present invention can be modified in various ways. Such variations are not to be regarded as a departure from the invention, and all such modifications are to be included within the scope of the invention.
Claims (10)
前記受信された音声信号に関する音声品質評価を、前記推定された歪みに基づいて判定することを含む音声品質評価方法。 Estimating a distortion in the received speech signal using at least one model trained based on subjective quality assessment data; and estimating a speech quality assessment for the received speech signal with the estimated distortion A speech quality evaluation method including determining based on
前記音声歪みを推定する工程は、前記算出された平均調音パワー、前記算出された平均非調音パワー、および前記第1のモデルを使用して前記音声歪みを推定し、
前記背景雑音歪みを推定する工程は、前記算出された平均調音パワー、前記算出された平均非調音パワー、および前記第1のモデルを使用して前記背景雑音歪みを推定する請求項3に記載の方法。 Calculating average articulation power and average non-articulation power from the received audio signal;
Estimating the audio distortion estimates the audio distortion using the calculated average articulation power, the calculated average non-articulation power, and the first model;
The step of estimating the background noise distortion estimates the background noise distortion using the calculated average articulation power, the calculated average non-articulation power, and the first model. Method.
前記推定された歪みを音声品質メトリックにマップするマッピング・ユニットとを含む音声品質評価のための装置。 At least one estimator that estimates distortion in the received speech signal using at least one model trained based on subjective quality assessment data;
A device for voice quality evaluation comprising a mapping unit that maps the estimated distortion to a voice quality metric.
第1の主観的品質評価データを使用して、前記システムの第2の歪み推定パスからの影響を排除しながら、前記システムの第1の歪み推定パスを訓練し、前記第1の主観的品質評価データは、第1の音声信号と、第1の関連する主観的品質メトリックとを含み、前記第1の音声信号には、ミュート歪みが欠如していること、
第2の主観的品質評価データを使用して、前記システムの第2の歪み推定パスを訓練し、前記第2の主観的品質評価データは、第2の音声信号と、第2の関連する主観的品質メトリックとを含み、前記第2の音声信号は、ミュート歪みを含むこと、および
前記第1及び第2の品質評価データを使用して、前記第2の歪みパスの影響を含めながら、前記第1の歪みパスを再訓練すること、
を含む方法。 A method of training a quality assessment system,
The first subjective quality assessment data is used to train the first distortion estimation path of the system while eliminating the influence from the second distortion estimation path of the system, and the first subjective quality evaluation data. The evaluation data includes a first audio signal and a first associated subjective quality metric, wherein the first audio signal lacks mute distortion;
Second subjective quality assessment data is used to train a second distortion estimation path of the system, the second subjective quality assessment data comprising a second audio signal and a second associated subjective subject. The second audio signal includes mute distortion, and includes the effects of the second distortion path using the first and second quality assessment data. Retraining the first distortion path;
Including methods.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/172,965 US7856355B2 (en) | 2005-07-05 | 2005-07-05 | Speech quality assessment method and system |
PCT/US2006/026049 WO2007005875A1 (en) | 2005-07-05 | 2006-06-30 | Speech quality assessment method and system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009500952A true JP2009500952A (en) | 2009-01-08 |
Family
ID=37067578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008520343A Pending JP2009500952A (en) | 2005-07-05 | 2006-06-30 | Voice quality evaluation method and voice quality evaluation system |
Country Status (6)
Country | Link |
---|---|
US (1) | US7856355B2 (en) |
EP (1) | EP1899961A1 (en) |
JP (1) | JP2009500952A (en) |
KR (1) | KR20080028384A (en) |
CN (1) | CN101218627A (en) |
WO (1) | WO2007005875A1 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010128296A (en) * | 2008-11-28 | 2010-06-10 | Fujitsu Ltd | Speech signal processing evaluation program and speech signal processing evaluation device |
JP2015508911A (en) * | 2012-02-27 | 2015-03-23 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Phase coherence control for harmonic signals in perceptual audio codecs |
JP2019040123A (en) * | 2017-08-28 | 2019-03-14 | 株式会社日立製作所 | Learning method of conversion model and learning device of conversion model |
JP7496399B2 (en) | 2021-11-04 | 2024-06-06 | 新唐科技股▲ふん▼有限公司 | Quantifying signal purity with machine learning |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE602005013665D1 (en) * | 2005-08-25 | 2009-05-14 | Psytechnics Ltd | Generation of test sequences for speech quality assessment |
US8370132B1 (en) * | 2005-11-21 | 2013-02-05 | Verizon Services Corp. | Distributed apparatus and method for a perceptual quality measurement service |
US20070203694A1 (en) * | 2006-02-28 | 2007-08-30 | Nortel Networks Limited | Single-sided speech quality measurement |
EP2438591B1 (en) * | 2009-06-04 | 2013-08-21 | Telefonaktiebolaget LM Ericsson (publ) | A method and arrangement for estimating the quality degradation of a processed signal |
JP2013500498A (en) * | 2009-07-24 | 2013-01-07 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | Method, computer, computer program and computer program product for speech quality assessment |
US8560312B2 (en) * | 2009-12-17 | 2013-10-15 | Alcatel Lucent | Method and apparatus for the detection of impulsive noise in transmitted speech signals for use in speech quality assessment |
WO2011146002A1 (en) * | 2010-05-17 | 2011-11-24 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for processing of speech quality estimate |
CN102708856B (en) * | 2012-05-25 | 2015-01-28 | 浙江工业大学 | Speech quality measurement method of wireless local area network |
CN103730131B (en) | 2012-10-12 | 2016-12-07 | 华为技术有限公司 | The method and apparatus of speech quality evaluation |
US9396738B2 (en) * | 2013-05-31 | 2016-07-19 | Sonus Networks, Inc. | Methods and apparatus for signal quality analysis |
US9679555B2 (en) | 2013-06-26 | 2017-06-13 | Qualcomm Incorporated | Systems and methods for measuring speech signal quality |
US9685173B2 (en) * | 2013-09-06 | 2017-06-20 | Nuance Communications, Inc. | Method for non-intrusive acoustic parameter estimation |
US9870784B2 (en) | 2013-09-06 | 2018-01-16 | Nuance Communications, Inc. | Method for voicemail quality detection |
EP2922058A1 (en) * | 2014-03-20 | 2015-09-23 | Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO | Method of and apparatus for evaluating quality of a degraded speech signal |
CN105100508B (en) | 2014-05-05 | 2018-03-09 | 华为技术有限公司 | A kind of network voice quality appraisal procedure, device and system |
CN104103279A (en) * | 2014-07-16 | 2014-10-15 | 腾讯科技(深圳)有限公司 | True quality judging method and system for music |
CN105306685B (en) * | 2015-09-18 | 2019-03-01 | 维沃移动通信有限公司 | The test method and mobile terminal of signal quality |
CN106816158B (en) * | 2015-11-30 | 2020-08-07 | 华为技术有限公司 | Voice quality assessment method, device and equipment |
CN105656931B (en) * | 2016-03-01 | 2018-10-30 | 邦彦技术股份有限公司 | Method and device for objectively evaluating and processing voice quality of network telephone |
US9917952B2 (en) | 2016-03-31 | 2018-03-13 | Dolby Laboratories Licensing Corporation | Evaluation of perceptual delay impact on conversation in teleconferencing system |
WO2018028767A1 (en) | 2016-08-09 | 2018-02-15 | Huawei Technologies Co., Ltd. | Devices and methods for evaluating speech quality |
CN107846691B (en) * | 2016-09-18 | 2022-08-02 | 中兴通讯股份有限公司 | MOS (Metal oxide semiconductor) measuring method and device and analyzer |
CN106558308B (en) * | 2016-12-02 | 2020-05-15 | 深圳撒哈拉数据科技有限公司 | Internet audio data quality automatic scoring system and method |
KR102134990B1 (en) | 2019-01-28 | 2020-07-16 | 오은실 | Voice training system by analyzing section of frequency |
WO2021021683A1 (en) * | 2019-07-30 | 2021-02-04 | Dolby Laboratories Licensing Corporation | Method and apparatus for normalizing features extracted from audio data for signal recognition or modification |
CN111816208B (en) * | 2020-06-17 | 2023-05-05 | 厦门快商通科技股份有限公司 | Voice separation quality assessment method, device and computer storage medium |
CN111785288B (en) * | 2020-06-30 | 2022-03-15 | 北京嘀嘀无限科技发展有限公司 | Voice enhancement method, device, equipment and storage medium |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9213459D0 (en) * | 1992-06-24 | 1992-08-05 | British Telecomm | Characterisation of communications systems using a speech-like test stimulus |
US5794188A (en) * | 1993-11-25 | 1998-08-11 | British Telecommunications Public Limited Company | Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency |
US5848384A (en) * | 1994-08-18 | 1998-12-08 | British Telecommunications Public Limited Company | Analysis of audio quality using speech recognition and synthesis |
US5784406A (en) * | 1995-06-29 | 1998-07-21 | Qualcom Incorporated | Method and apparatus for objectively characterizing communications link quality |
CN1192309A (en) * | 1995-07-27 | 1998-09-02 | 英国电讯公司 | Assessment of signal quality |
US6446038B1 (en) * | 1996-04-01 | 2002-09-03 | Qwest Communications International, Inc. | Method and system for objectively evaluating speech |
US5778336A (en) * | 1996-10-01 | 1998-07-07 | Lucent Technologies Inc. | Speech coding and joint data/channel bias estimation using finite state vector quantizer derived from sequential constraints |
JP3255584B2 (en) * | 1997-01-20 | 2002-02-12 | ロジック株式会社 | Sound detection device and method |
US6202046B1 (en) * | 1997-01-23 | 2001-03-13 | Kabushiki Kaisha Toshiba | Background noise/speech classification method |
US6463410B1 (en) * | 1998-10-13 | 2002-10-08 | Victor Company Of Japan, Ltd. | Audio signal processing apparatus |
KR100304666B1 (en) * | 1999-08-28 | 2001-11-01 | 윤종용 | Speech enhancement method |
US6490552B1 (en) * | 1999-10-06 | 2002-12-03 | National Semiconductor Corporation | Methods and apparatus for silence quality measurement |
US6609092B1 (en) * | 1999-12-16 | 2003-08-19 | Lucent Technologies Inc. | Method and apparatus for estimating subjective audio signal quality from objective distortion measures |
US6697776B1 (en) * | 2000-07-31 | 2004-02-24 | Mindspeed Technologies, Inc. | Dynamic signal detector system and method |
EP1187100A1 (en) * | 2000-09-06 | 2002-03-13 | Koninklijke KPN N.V. | A method and a device for objective speech quality assessment without reference signal |
EP1241663A1 (en) * | 2001-03-13 | 2002-09-18 | Koninklijke KPN N.V. | Method and device for determining the quality of speech signal |
EP1244094A1 (en) * | 2001-03-20 | 2002-09-25 | Swissqual AG | Method and apparatus for determining a quality measure for an audio signal |
US7308403B2 (en) * | 2002-07-01 | 2007-12-11 | Lucent Technologies Inc. | Compensation for utterance dependent articulation for speech quality assessment |
US7165025B2 (en) * | 2002-07-01 | 2007-01-16 | Lucent Technologies Inc. | Auditory-articulatory analysis for speech quality assessment |
EP1522206B1 (en) * | 2002-07-12 | 2007-10-03 | Widex A/S | Hearing aid and a method for enhancing speech intelligibility |
ATE333694T1 (en) | 2003-01-18 | 2006-08-15 | Psytechnics Ltd | TOOL FOR NON-INVASIVELY DETERMINING THE QUALITY OF A VOICE SIGNAL |
EP1443497B1 (en) * | 2003-01-21 | 2008-03-12 | Psytechnics Ltd | Audio signal quality assessment method |
EP1590798A2 (en) * | 2003-02-05 | 2005-11-02 | Verint Systems Inc. | Method for automatic and semi-automatic classification and clustering of non-deterministic texts |
US7305341B2 (en) | 2003-06-25 | 2007-12-04 | Lucent Technologies Inc. | Method of reflecting time/language distortion in objective speech quality assessment |
US7353002B2 (en) * | 2003-08-28 | 2008-04-01 | Koninklijke Kpn N.V. | Measuring a talking quality of a communication link in a network |
US7386451B2 (en) * | 2003-09-11 | 2008-06-10 | Microsoft Corporation | Optimization of an objective measure for estimating mean opinion score of synthesized speech |
GB2407952B (en) * | 2003-11-07 | 2006-11-29 | Psytechnics Ltd | Quality assessment tool |
US8305913B2 (en) * | 2005-06-15 | 2012-11-06 | Nortel Networks Limited | Method and apparatus for non-intrusive single-ended voice quality assessment in VoIP |
-
2005
- 2005-07-05 US US11/172,965 patent/US7856355B2/en not_active Expired - Fee Related
-
2006
- 2006-06-30 CN CNA2006800245680A patent/CN101218627A/en active Pending
- 2006-06-30 EP EP06774487A patent/EP1899961A1/en not_active Withdrawn
- 2006-06-30 KR KR1020077030887A patent/KR20080028384A/en not_active Application Discontinuation
- 2006-06-30 JP JP2008520343A patent/JP2009500952A/en active Pending
- 2006-06-30 WO PCT/US2006/026049 patent/WO2007005875A1/en active Application Filing
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010128296A (en) * | 2008-11-28 | 2010-06-10 | Fujitsu Ltd | Speech signal processing evaluation program and speech signal processing evaluation device |
JP2015508911A (en) * | 2012-02-27 | 2015-03-23 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Phase coherence control for harmonic signals in perceptual audio codecs |
US10818304B2 (en) | 2012-02-27 | 2020-10-27 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Phase coherence control for harmonic signals in perceptual audio codecs |
JP2019040123A (en) * | 2017-08-28 | 2019-03-14 | 株式会社日立製作所 | Learning method of conversion model and learning device of conversion model |
JP7496399B2 (en) | 2021-11-04 | 2024-06-06 | 新唐科技股▲ふん▼有限公司 | Quantifying signal purity with machine learning |
Also Published As
Publication number | Publication date |
---|---|
US7856355B2 (en) | 2010-12-21 |
KR20080028384A (en) | 2008-03-31 |
US20070011006A1 (en) | 2007-01-11 |
WO2007005875A1 (en) | 2007-01-11 |
CN101218627A (en) | 2008-07-09 |
EP1899961A1 (en) | 2008-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009500952A (en) | Voice quality evaluation method and voice quality evaluation system | |
Falk et al. | Single-ended speech quality measurement using machine learning methods | |
Loizou | Speech quality assessment | |
US9396738B2 (en) | Methods and apparatus for signal quality analysis | |
EP0722164B1 (en) | Method and apparatus for characterizing an input signal | |
Santos et al. | An improved non-intrusive intelligibility metric for noisy and reverberant speech | |
JP5006343B2 (en) | Non-intrusive signal quality assessment | |
US8886529B2 (en) | Method and device for the objective evaluation of the voice quality of a speech signal taking into account the classification of the background noise contained in the signal | |
US8655656B2 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
Kim et al. | ANIQUE+: A new American national standard for non‐intrusive estimation of narrowband speech quality | |
JP5542206B2 (en) | Method and system for determining perceptual quality of an audio system | |
EP1766614A2 (en) | Neuroevolution-based artificial bandwidth expansion of telephone band speech | |
US8560312B2 (en) | Method and apparatus for the detection of impulsive noise in transmitted speech signals for use in speech quality assessment | |
Sharma et al. | Data driven method for non-intrusive speech intelligibility estimation | |
US8566082B2 (en) | Method and system for the integral and diagnostic assessment of listening speech quality | |
WO2009123387A1 (en) | Procedure for processing noisy speech signals, and apparatus and computer program therefor | |
US20090161882A1 (en) | Method of Measuring an Audio Signal Perceived Quality Degraded by a Noise Presence | |
Kim et al. | Enhanced perceptual model for non-intrusive speech quality assessment | |
JP4761391B2 (en) | Listening quality evaluation method and apparatus | |
Salehi et al. | On nonintrusive speech quality estimation for hearing aids | |
Kim | A cue for objective speech quality estimation in temporal envelope representations | |
Mittag et al. | Single-ended packet loss rate estimation of transmitted speech signals | |
Audhkhasi et al. | Two-scale auditory feature based non-intrusive speech quality evaluation | |
Jaiswal | Influence of silence and noise filtering on speech quality monitoring | |
KR100729555B1 (en) | Method for Objective Speech Quality Assessment |