JP4585855B2 - Control of loudness in signals with speech and other audio material - Google Patents

Control of loudness in signals with speech and other audio material Download PDF

Info

Publication number
JP4585855B2
JP4585855B2 JP2004532903A JP2004532903A JP4585855B2 JP 4585855 B2 JP4585855 B2 JP 4585855B2 JP 2004532903 A JP2004532903 A JP 2004532903A JP 2004532903 A JP2004532903 A JP 2004532903A JP 4585855 B2 JP4585855 B2 JP 4585855B2
Authority
JP
Japan
Prior art keywords
volume
audio
segment
speech
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004532903A
Other languages
Japanese (ja)
Other versions
JP2005537510A5 (en
JP2005537510A (en
Inventor
ヴィントン、マーク・スチュアート
ロビンソン、チャールズ・クイト
ギャンドリー、ケネス・ジャイムス
ヴェネチア、スティーブン・ジョセフ
リードミラー、ジェフェリー・チャールズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of JP2005537510A publication Critical patent/JP2005537510A/en
Publication of JP2005537510A5 publication Critical patent/JP2005537510A5/ja
Application granted granted Critical
Publication of JP4585855B2 publication Critical patent/JP4585855B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Stereophonic System (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

Mechanisms are known that allow receivers to control loudness of speech in broadcast signals but these mechanisms require an estimate of speech loudness be inserted into the signal. Disclosed techniques provide improved estimates of loudness. According to one implementation, an indication of the loudness of an audio signal containing speech and other types of audio material is obtained by classifying segments of audio information as either speech or non-speech. The loudness of the speech segments is estimated and this estimate is used to derive the indication of loudness. The indication of loudness maybe used to control audio signal levels so that variations in loudness of speech between different programs is reduced. A preferred method for classifying speech segments is described.

Description

本発明は、音声その他のオーディオ素材を有する信号中の音声の大きさを計測し制御するオーディオシステム及び方法に関する。   The present invention relates to an audio system and method for measuring and controlling the volume of a voice in a signal having voice or other audio material.

ラジオやテレビ放送を視聴するときに、リスナーは十分な音声の大きさを得るためにボリュームの設定をたびたび変更する。十分なボリュームの設定は、リスニング環境における周囲の騒音、再生装置の周波数応答、及び、個人の嗜好等のような様々な要因により影響を受ける。ボリュームの設定を定めた後リスナーは、一般に、音楽やサウンドエフェクトのような他のプログラム素材の存在の有無にかかわらず、音声の大きさを一定に保つことを望む。   When listening to radio or television broadcasts, listeners frequently change the volume setting to obtain sufficient loudness. The sufficient volume setting is affected by various factors such as ambient noise in the listening environment, frequency response of the playback device, personal preferences, and the like. After determining the volume setting, listeners generally want to keep the volume of the sound constant regardless of the presence or absence of other program material such as music or sound effects.

プログラムが変わったり違うチャンネルが選択されたりすると、新しいプログラムにおける音声の大きさはしばしば異なり、好みの大きさに戻すためにボリュームの設定を変更する必要がでてくる。ほとんどのアナログ放送は、アナログ放送システムによりカバーすることのできる最大許容レベルで音声を含むプログラムを配信するので、アナログ放送により配信されたプログラムにおける音声の大きさを調整するためには、普通は少しの設定変更を必要とするのみである。一般にこのことは、放送システムにおける様々な要因により引き起こされるノイズに対する音声信号のレベルを上げるためにオーディオプログラム素材のダイナミックレンジを圧縮することによりなされる。それでもやはり、異なったチャンネルで受信したプログラムの音声の大きさ、及び、コマーシャル音声あるいは「コマーシャル」及びそれにより割り込まれるプログラムのような、同じチャンネルで受信した異なったタイプのプログラムに対する音声の大きさには、音声の大きさに不快な違いが存在する。   If the program changes or a different channel is selected, the volume of the sound in the new program will often be different, and the volume setting will need to be changed to return to the desired volume. Most analog broadcasts deliver programs that contain audio at the maximum acceptable level that can be covered by an analog broadcast system, so it is usually a little bit to adjust the loudness of a program delivered by analog broadcasts. It is only necessary to change the setting. This is typically done by compressing the dynamic range of the audio program material to increase the level of the audio signal against noise caused by various factors in the broadcast system. Nevertheless, the loudness of the program received on different channels and the loudness of different types of programs received on the same channel, such as commercial speech or “commercial” and programs interrupted thereby. There is an unpleasant difference in voice volume.

デジタル放送は、ダイナミックレンジを圧縮することなくまた音声のレベル設定を許容最大値の近傍で設定することもなく、適当な信号対ノイズのレベルで信号を配信することができるので、デジタル放送技術の導入によりこの問題はさらに重大となるであろう。結果、同じチャンネルの異なったプログラム間での音声の大きさ、及び異なったチャンネルのプログラム間での音声の大きさにさらに大きな違いが出てくるであろう。例えば、アナログテレビジョンチャンネルで受信したプログラムの音声とデジタルテレビジョンチャンネルで受信したプログラムの音声との間には、時には20dBを越える違いが観測される。   Digital broadcasting can distribute signals at an appropriate signal-to-noise level without compressing the dynamic range and without setting the sound level near the maximum allowable value. This problem will become even more serious with the introduction. As a result, there will be even greater differences in loudness between different programs on the same channel, and loudness between programs on different channels. For example, a difference of over 20 dB is sometimes observed between program audio received on an analog television channel and program audio received on a digital television channel.

音声の大きさの違いを減らす1つの方法は、すべての放送局に音声のレベルを最大値より十分低い標準の大きさに統一させ、圧縮や限定の必要性をなくすために素材に広いダイナミックレンジを持たせるのに十分な余裕を持たせることである。残念ながら、この解決方法は、放送の手順に対してできそうもない変化を必要とする。   One way to reduce the difference in audio volume is to unify the audio level to a standard size well below the maximum value for all broadcast stations, and wide dynamic range in the material to eliminate the need for compression or limitation. It is to give enough margin to have. Unfortunately, this solution requires an unlikely change to the broadcast procedure.

もう1つ別の解決手段は、米国のデジタルテレビジョン放送に採用されたAC−3オーディオコーディング技術により提供される。AC−3標準に準拠したデジタル放送は、エンコードされたオーディオデータと共にメタデータを伝達する。メタデータには、受信機において、一定の又は標準化された大きさの音声に信号レベルを調整するために使われる「ダイアルノーム(dialnorm)」として知られる制御情報が含まれる。言い換えれば、ダイアルノーム情報により、受信機は、リスナーがしていたようなプログラム毎又はチャンネル毎のボリュームの適切な調整を自動的に行う。リスナーが特定のプログラムに対して好ましい音声の大きさにボリュームを設定すると、受信機はダイアルノーム情報を用いて、プログラム毎又はチャンネル毎に存在したであろう違いにかかわらず、確実にこの好ましいレベルを保持する。ダイアルノーム情報の使用について書いた更なる情報は、2001年8月20日に発行された、Advanced Television System Committee (ATSC)の文書、表題「Revision A to Digital Audio Compression (AC-3) Standard」、及び、1995年10月4日に発行されたATSCの文書、表題「Guide to the Use of the ATSC Digital Television Standard」により得ることができる。   Another solution is provided by the AC-3 audio coding technology employed in US digital television broadcasting. Digital broadcasts compliant with the AC-3 standard carry metadata along with encoded audio data. The metadata includes control information known as “dialnorm” that is used at the receiver to adjust the signal level to a fixed or standardized volume of audio. In other words, with the dialnome information, the receiver automatically makes an appropriate adjustment of the volume for each program or channel as the listener was doing. When the listener sets the volume to the preferred audio volume for a particular program, the receiver uses the dialnome information to ensure that this preferred level, regardless of the difference that would have existed per program or per channel. Hold. More information about the use of dialnome information can be found in the Advanced Television System Committee (ATSC) document, titled “Revision A to Digital Audio Compression (AC-3) Standard”, published on August 20, 2001, And the ATSC document published on October 4, 1995, entitled “Guide to the Use of the ATSC Digital Television Standard”.

適切なダイアルノームの値は、AC−3準拠のエンコードされた信号を生成するコーディングシステムの一部として利用できなければならない。エンコード処理は、受信機に現れるプログラムにおける音声の大きさを保持するために使うことのできるダイアルノームの値を決定するために、特定のプログラムにおける音声の大きさを測定し評価するための方法を必要とする。   Appropriate dialnome values must be available as part of a coding system that produces an AC-3 compliant encoded signal. The encoding process is a method for measuring and evaluating the loudness of a particular program to determine the value of the dialnome that can be used to preserve the loudness of the program that appears at the receiver. I need.

音声の大きさは様々な方法で測定することができる。International Electrotechnical Commission (IEC)により発行された、標準IEC60804 (2000-10)、表題「Integrating-Averaging sound level meters」には、周波数による重み付けに基づく時間平均化された音圧レベルの計測について記載されている。International Organization for Standardizationにより発行された、ISO標準 532:1975、表題「Method for calculating loudness level」には、周波数サブバンドに対して計算されたパワーレベルの組み合わせから大きさの計測値を得る方法について記載されている。大きさを測定するために用いることのできる心理音響的モデルは、1997年4月のJ. Audio Eng. Soc., vol. 45, No. 4 の「A model for the prediction of thresholds, loudness and partial loudness」Moore, Glasberg及び Baer、及び、2002年5月のJ. Audio Eng. Soc., vol. 50, No. 5 の「A model of loudness applicable to time-varying sounds」Glasberg及び Baerに記載されている。   The volume of speech can be measured in various ways. The standard IEC60804 (2000-10), titled “Integrating-Averaging sound level meters” issued by the International Electrotechnical Commission (IEC), describes the measurement of time-averaged sound pressure levels based on frequency weighting. Yes. ISO standard 532: 1975, titled “Method for calculating loudness level” issued by the International Organization for Standardization describes how to obtain magnitude measurements from combinations of power levels calculated for frequency subbands. Has been. The psychoacoustic model that can be used to measure size is described in J. Audio Eng. Soc., Vol. 45, No. 4 in April 1997, “A model for the prediction of thresholds, loudness and partial. loudness "Moore, Glasberg and Baer, and J. Audio Eng. Soc., vol. 50, No. 5, May 2002," A model of loudness applicable to time-varying sounds ", described in Glasberg and Baer Yes.

残念ながら、これらのあるいは他の既知の技術を適用するための適当な方法がない。例えば、放送でのアプリケーションにおいて、放送局はオーディオ素材のインターバルを選択し、選択されたインターバルにおける音声の大きさの測定と評価を行い、AC−3準拠のデジタルデータの流れにダイアルノーム情報を挿入する装置に測定値を伝達することが義務付けられる。選択されたインターバルには、代表する音声が含まれるべきであるが、大きさの測定を歪める他の形式のオーディオ素材は含むべきではない。プログラムには故意に音声よりうるさくしたり静かにしたりした他の成分が含まれているので、一般に全体的なオーディオプログラムの音量を計測することは好ましくない。音楽と音響効果の音の大きな部分は、好ましい音声レベルよりはるかに音を大きくすることが好ましいことがよくある。また、風、遠くの交通往来、又は静かに流れる水のような背景音は、音声と同じ音量にすることが好ましくないことは明らかである。   Unfortunately, there is no suitable way to apply these or other known techniques. For example, in a broadcast application, a broadcast station selects an audio material interval, measures and evaluates the volume of the audio in the selected interval, and inserts dialnome information into the AC-3 compliant digital data flow It is obliged to communicate the measured value to the device. The selected interval should include the representative speech, but not other types of audio material that distort the magnitude measurement. Since the program contains other components that are intentionally noisy or quieter than the sound, it is generally not desirable to measure the volume of the overall audio program. Often, it is preferable to make the loud parts of music and sound effects much louder than the preferred sound level. Also, it is clear that background sounds such as wind, far-reaching traffic, or quiet flowing water are not preferred to have the same volume as the sound.

本発明の発明者は、音声を含むオーディオ信号がダイアルノーム情報として適当な値を定めるための改善された処理に用いることができるかどうかを決定する技術を見つけた。音声の検出のための様々な技術のうちのどんな技術も使うことができる。いくつかの技術を以下に引用する。   The inventor of the present invention has found a technique for determining whether an audio signal containing speech can be used for improved processing to determine an appropriate value for dialnome information. Any of a variety of techniques for voice detection can be used. Some techniques are cited below.

1981年7月28日に発行された米国特許4,281,218には、短期間のパワーのようなの1以上の信号特性を抽出することによりその信号が音声なのか音声でないのかを区分する技術が記載されている。この区分は、音声信号と音声でない信号とに対して適切な信号処理手法を選択するために用いられる。   U.S. Pat. No. 4,281,218 issued July 28, 1981 describes a technique for distinguishing whether a signal is speech or not by extracting one or more signal characteristics, such as short-term power. Yes. This classification is used to select an appropriate signal processing technique for audio signals and non-audio signals.

1992年3月17日に発行された米国特許5,097,510には、入力信号の振幅包絡線の変化を分析する技術が記載されている。急激に変化量が変化する場合は、音声とみなされ、信号から除去される。その残りは、4つのノイズ区分のうちの1つに区分され、この区分は入力信号を異なったタイプのノイズ低減のための篩い分けを選択するために用いられる。   US Pat. No. 5,097,510 issued March 17, 1992 describes a technique for analyzing changes in the amplitude envelope of an input signal. If the amount of change changes abruptly, it is regarded as speech and is removed from the signal. The rest is divided into one of four noise categories, which are used to select the sieving of the input signal for different types of noise reduction.

1995年10月10日に発行された米国特許5,457,769には、音声作動スイッチを動作させるための音声を検出する技術が記載されている。約150Hzでお互い区分された周波数成分を持つ信号を特定することにより音声が検出される。この条件はそれがおそらく音声の信号伝達フォーマットであることを示している。   U.S. Pat. No. 5,457,769, issued Oct. 10, 1995, describes a technique for detecting voice for operating a voice activated switch. Voice is detected by specifying signals having frequency components separated from each other at about 150 Hz. This condition indicates that it is probably an audio signaling format.

1999年10月14日に発行されたEP特許0737011及び1999年3月2日に発行された米国特許5,878,391には、1つのオーディオ信号がスピーチ信号である確率を示す信号を生成する技術が記載されている。この確率は、スペクトルの異なった部分間でのパワー比の変化のような信号から1以上の特性を抽出することにより得られる。これらの文献では、確率を導き出すために数多くの特性を使えば、導き出された確率の信頼性が改善されることを示している。   EP patent 0737011 issued October 14, 1999 and US Pat. No. 5,878,391 issued March 2, 1999 describe techniques for generating a signal indicating the probability that one audio signal is a speech signal. ing. This probability is obtained by extracting one or more characteristics from the signal, such as a change in power ratio between different parts of the spectrum. These documents show that the use of a number of properties to derive probabilities improves the reliability of the derived probabilities.

2000年5月9日に発行された米国特許6,061,647には、音声が存在するかどうかを決定するために入力信号をモデルと比較し、ノイズモデルを更新するためにこの入力信号が用いられるべき時を決めるための補助検出装置を用いて、音声を含まないノイズのモデルを保存することで音声を検出する技術が開示されている。   US Pat. No. 6,061,647 issued May 9, 2000 describes when an input signal should be used to compare the input signal with the model to determine whether speech is present and to update the noise model. A technique for detecting a voice by storing a noise model that does not contain a voice using an auxiliary detection device for determining the voice is disclosed.

1998年6月25日に発行された国際特許出願WO 98/27543には、1つの入力信号から1組の特性を抽出して各特性に対していくつかの区分技術のうちの1つを用いることによって、音楽から音声を識別する技術が開示されている。特性の最良の組と各特性に対して用いられる最適な区分技術は、経験的に決定される。   International patent application WO 98/27543, issued on June 25, 1998, extracts a set of characteristics from one input signal and uses one of several partitioning techniques for each characteristic. Thus, a technique for identifying voice from music is disclosed. The best set of properties and the optimal segmentation technique used for each property is determined empirically.

これらの引用例で開示された技術及びその他の既知の音声検出技術は、音声でない信号を処理するためのあるいは音声でない信号を取り扱うための方法とは異なった方法により、音声を処理又は音声を取り扱うことができるように、音声を検出すること又はオーディオを区分することを試みる技術である。   The techniques disclosed in these references and other known speech detection techniques process speech or handle speech differently than methods for processing non-speech signals or handling non-speech signals. It is a technique that attempts to detect speech or segment audio so that it can.

1998年10月6日に発行された米国特許5,819,247には、光学的特性認識装置のような区分装置に用いられる仮説を構築するための技術が開示されている。不十分な仮説が実例から構築されその後評価される。反復処理により不十分な仮説が強固な仮説に作り上げられる。音声検出には触れられていないが、この発明者はこの技術が既知の音声検出技術を改善することに使うことができるかもしれないことを認識している。   US Pat. No. 5,819,247 issued Oct. 6, 1998 discloses a technique for constructing a hypothesis for use in a sorting device such as an optical property recognition device. Insufficient hypotheses are built from examples and then evaluated. An iterative process creates an inadequate hypothesis as a robust hypothesis. Although not mentioned in voice detection, the inventor recognizes that this technique may be used to improve known voice detection techniques.

音声その他のオーディオ素材を有する信号中の音声の大きさの制御を提供することが本発明の目的である。   It is an object of the present invention to provide control of the volume of sound in a signal having sound or other audio material.

本発明によれば、入力信号を受け取ることにより信号が処理され、オーディオ信号のインターバルを表す入力信号からオーディオ情報を取得し、このオーディオ情報を調査してオーディオ情報のセグメントを音声セグメント又は非音声セグメントに分類し、オーディソ情報を調査して音声セグメントの音量を測定し、非音声セグメントとして表示されたオーディオ信号の部分の音量より、音声セグメントの音量の測定に対して敏感な制御情報を生成することによりこのオーディオ信号のインターバルに音量の表示を提供する。   In accordance with the present invention, a signal is processed by receiving an input signal, audio information is obtained from the input signal representing an interval of the audio signal, and the audio information is examined to determine a segment of the audio information as a voice segment or a non-voice segment. Measure audio volume by examining audio information, and generate control information that is sensitive to the measurement of the volume of the audio segment from the volume of the portion of the audio signal displayed as a non-audio segment. Provides an indication of volume during this audio signal interval.

音量の表示は、音声セグメントの音量の変化を減少するようにオーディオ信号の音量を制御するために使われてもよい。音声セグメントとして表示されたオーディオ信号の部分の音量が増加するとき非音声セグメントとして表示されたオーディオ信号の部分の音量も増加する。   The volume indication may be used to control the volume of the audio signal to reduce the change in volume of the audio segment. When the volume of the portion of the audio signal displayed as the audio segment increases, the volume of the portion of the audio signal displayed as the non-voice segment also increases.

本発明とその好ましい実施の形態における様々な機能は、以下の説明と、図の相当する要素に参照番号を付加した添付図面を参照することによりよく理解できるであろう。以下の説明と図面の内容は例示としてのみ述べたもので、本発明の技術範囲を限定するためのものではないと理解すべきである。   The various features of the present invention and its preferred embodiments can be better understood with reference to the following description and the accompanying drawings, in which the corresponding elements in the figures are appended with reference numerals. It should be understood that the contents of the following description and drawings are given by way of example only and are not intended to limit the technical scope of the present invention.

A.システムの概観
図1は、送信機2が経路1からオーディオ信号を受信し、このオーディオ信号を処理してオーディオ信号を表すオーディオ情報を生成し、このオーディオ情報を経路3に沿って伝送するオーディオシステムの概略ブロックダイアグラムである。経路3は、オーディオ情報を直ちに使用するために伝達する通信経路、又は、その後取り出して使うためにオーディオ情報を保存しておく記憶媒体と接続した信号経路を表現している。受信機4は、オーディオ情報を経路3から受信し、オーディオ情報を処理してオーディオ信号を生成し、オーディオ信号をリスナーに聞かせるために経路5に沿って伝送する。
A. System Overview FIG. 1 shows an audio system in which a transmitter 2 receives an audio signal from path 1, processes the audio signal to generate audio information representing the audio signal, and transmits the audio information along path 3. Is a schematic block diagram of The path 3 represents a communication path for transmitting the audio information for immediate use, or a signal path connected to a storage medium for storing the audio information for later use. The receiver 4 receives the audio information from the path 3, processes the audio information to generate an audio signal, and transmits the audio signal along the path 5 to listen to the listener.

図1に示したシステムは、送信機と受信機とを含むが、本発明は、複数の送信機及び/又は複数の受信機とを含むシステムに用いられる。本発明の様々な機能は、送信機2にのみ、受信機4にのみ、又は送信機2と受信機4の両方に組み込むことができる。   Although the system shown in FIG. 1 includes a transmitter and a receiver, the present invention is used in a system including a plurality of transmitters and / or a plurality of receivers. Various functions of the present invention can be incorporated only in the transmitter 2, only in the receiver 4, or both in the transmitter 2 and the receiver 4.

一実施の形態において、送信機2は、オーディオ情報を低い帯域幅のチャンネルを介して伝送することができ、少ない容量の媒体に保存することができるように、オーディオ信号より必要な情報容量が低いエンコードされたオーディオ情報へと、オーディオ信号をエンコードする処理を行う。受信機4は、なるべく入力信号と同じか又は似たものとして認識されるオーディオ信号を生成するために用いることができる形式へと、エンコードされたオーディオ情報をデコードする処理を行う。例えば、送信機2と受信機4は、AC−3コーディング標準又はモーションピクチャーエキスパートグループ(MPEG)により発行されたいくつかの標準に準拠するデジタルビットストリームにエンコードしデコードする。本発明はエンコーディングとデコーディング処理に適用するシステムに有効に適用することができるが、これらの処理は本発明を実施するために必要ではない。   In one embodiment, the transmitter 2 requires less information capacity than the audio signal so that the audio information can be transmitted over a low bandwidth channel and can be stored on a small capacity medium. A process of encoding an audio signal into encoded audio information is performed. The receiver 4 performs a process of decoding the encoded audio information into a format that can be used to generate an audio signal that is recognized as similar or similar to the input signal as possible. For example, the transmitter 2 and the receiver 4 encode and decode into a digital bitstream that conforms to the AC-3 coding standard or some standard published by the Motion Picture Expert Group (MPEG). Although the present invention can be effectively applied to systems that apply to encoding and decoding processes, these processes are not necessary to implement the present invention.

本発明はアナログ信号処理に導入してもよいが、デジタル信号処理技術により導入されるほうが一般に好都合である。以下の例は特にデジタル信号処理について説明している。   Although the present invention may be introduced into analog signal processing, it is generally more convenient to introduce it through digital signal processing techniques. The following example specifically describes digital signal processing.

B.音声の大きさ
本発明は、音声その他のオーディオ素材を有する信号中の音声の大きさを制御することを対象とする。表1と表3の記載は異なったプログラムにおける様々多形式のオーディオ素材の音声レベルを表している。
B. The present invention is directed to controlling the volume of speech in a signal having speech or other audio material. The descriptions in Tables 1 and 3 represent the sound levels of various multi-format audio material in different programs.

表1には、おそらくテレビジョン受信機に放送される3つのプログラム中の音声の相対的な音量の情報が含まれる。ニュース放送1では、2人が異なったレベルでしゃべっている。ニュース放送2では、音声よりたまたま大きな他のサウンドより低いレベルで1人がしゃべっている。音楽はしばしば低いレベルで現れる。コマーシャルにおいては、人は非常に高いレベルしゃべり音楽はちょくちょくむしろ音が大きくなる。

Figure 0004585855
Table 1 contains information on the relative volume of the audio in the three programs that are probably broadcast to the television receiver. In News Broadcast 1, two people are speaking at different levels. In News Broadcast 2, one person speaks at a lower level than other sounds that happen to be louder than the voice. Music often appears at a low level. In commercials, people are very high level talking music and often rather loud.
Figure 0004585855

本発明において、オーディオシステムは、音声大きさの変化が自動的に小さくなるよう3つのプログラム中におけるオーディオ素材の音量を自動的に制御する。ニュース放送1中のオーディオ素材の音量も、2つの声のレベルの差が小さくなるよう自動的に制御される。例えば、もしすべての音声の望ましいレベルが−24dBであるならば、表1中に示されたオーディオ素材の音量は、表2に示されたレベルに調整される。

Figure 0004585855
In the present invention, the audio system automatically controls the volume of the audio material in the three programs so that the change in the sound volume is automatically reduced. The volume of the audio material in the news broadcast 1 is also automatically controlled so that the difference between the levels of the two voices becomes small. For example, if the desired level of all audio is -24 dB, the volume of the audio material shown in Table 1 is adjusted to the level shown in Table 2.
Figure 0004585855

表3には、1以上の動画中の3つの異なったシーンにおける異なったサウンドの相対的な音量の情報が含まれる。シーン1において、人々は船のデッキで話をしている。背景音には、音声と比べて著しくレベルの低い波の打ち寄せる音や遠くの霧笛の音が含まれている。このシーンにはまた、音声に比べて十分に音の大きい船の汽笛の吹く音も含まれている。シーン2において、人々はささやいていて時計は背後で時を刻んでいる。このシーンでの音声は普通の音声に比べて大きくはなく時計の動作音はさらに小さい。シーン3において、人々は大きな音を立てている機械のそばで叫び声を上げている。この叫び声は普通の音声より音が大きい。

Figure 0004585855
Table 3 includes relative volume information for different sounds in three different scenes in one or more videos. In scene 1, people are talking on the ship deck. The background sound includes the sound of waves that are significantly lower than the sound and the sound of a distant fog whistle. The scene also includes the sound of a ship's whistle that is louder than the sound. In scene 2, people are whispering and the clock is ticking behind. The sound in this scene is not loud compared to normal sound, and the sound of the clock is even smaller. In scene 3, people are screaming near the making machine. This scream is louder than normal.
Figure 0004585855

本発明において、オーディオシステムは、音声大きさの変化が自動的に小さくなるよう3つのシーンにおけるオーディオ素材の音量を自動的に制御する。例えば、オーディオ素材の音量を、すべてのシーンでの音声の大きさが同じか本質的に同じとなるよう調整することができるであろう。   In the present invention, the audio system automatically controls the volume of the audio material in the three scenes so that the change in the sound volume is automatically reduced. For example, the volume of the audio material could be adjusted so that the sound volume in all scenes is the same or essentially the same.

あるいは、オーディオ素材の音量を、すべてのシーンでの音声の大きさが所定の範囲内になるよう調整することができる。例えば、音声の大きさの所定の範囲が−24dBから−30dBであるなら、表3で示したオーディオ素材の音量を、表4デ示したレベルに調整することができるであろう。

Figure 0004585855
Alternatively, the volume of the audio material can be adjusted so that the sound volume in all scenes falls within a predetermined range. For example, if the predetermined range of the loudness is -24 dB to -30 dB, the volume of the audio material shown in Table 3 could be adjusted to the level shown in Table 4.
Figure 0004585855

他の実施の形態においては、オーディオ信号のレベルが音量の測定値の平均が好ましいレベルに保持されるよう制御される。この平均は、10分間とかいった所定の間隔で得られたものか、又は、プログラムのすべての部分又は所定の部分で得られたものとすることができる。再び表3に示された音量の情報を参照しすると、3つのシーンが同じ動画のものであるとすると、動画全体の音声の大きさの平均は、−25dBと算定され、好ましい音声の大きさは−27dBとなる。この3つのシーンの信号レベルは、各シーンの測定される音量が表5に示すように修正される。この実施の形態においては、プログラム又は動画における音声の大きさの変化は保持されるが、他のプログラム又は動画において音声の大きさの平均は減少する。言い換えれば、プログラム又はプログラムの一部における音声の大きさの変化は、これらのプログラム又はプログラムの一部において必要とするダイナミックレンジの圧縮を行うことなく達成される。

Figure 0004585855
In other embodiments, the level of the audio signal is controlled such that the average of the volume measurements is maintained at a preferred level. This average can be obtained at predetermined intervals, such as 10 minutes, or it can be obtained at all parts of the program or at predetermined parts. Referring to the sound volume information shown in Table 3 again, if the three scenes are of the same moving image, the average sound volume of the entire moving image is calculated to be −25 dB, and the preferred sound volume is Becomes −27 dB. The signal levels of these three scenes are corrected so that the measured sound volume of each scene is shown in Table 5. In this embodiment, the change in the volume of the sound in the program or moving image is retained, but the average sound volume in the other program or moving image is reduced. In other words, the change in sound volume in a program or part of a program is achieved without performing the dynamic range compression required in these programs or parts of programs.
Figure 0004585855

ダイナミックレンジの圧縮もまた好ましいかもしれないが、この機能は任意的であり、要求されたときに提供すればよい。   Dynamic range compression may also be preferred, but this functionality is optional and may be provided when required.

C.音声の大きさの制御
本発明は、送信機又は受信機のどちらかで単独に処理することにより、あるいは、送信機と受信機を組み合わせて協同して処理することにより実施することができる。
C. Audio volume control The present invention can be implemented by either processing alone in either the transmitter or the receiver, or by cooperating in combination with the transmitter and receiver.

1.単独処理
図2は、送信機又は受信機において単独処理を行うために用いられる装置の概略ブロックダイアグラムである。この装置は、経路11からオーディオ信号の間隔を示すオーディオ情報を受信する。分類装置12は、オーディオ情報を調査して、音声と分類されるオーディオ信号部分を表す「音声セグメント」として、又は、音声とは分類されないオーディオ信号部分を表す「非音声セグメント」としてオーディオ情報のセグメントを分類する。分類装置12は、非音声セグメントをいくつかの類別に分類してもよい。オーディオ情報のセグメントを分類するために用いられる技術については上述した。好ましい技術については以下に述べる。
1. Single Processing FIG. 2 is a schematic block diagram of an apparatus used to perform single processing at the transmitter or receiver. This apparatus receives audio information indicating the interval of the audio signal from the path 11. The classifier 12 examines the audio information and segments the audio information as “speech segments” that represent audio signal portions that are classified as speech or as “non-speech segments” that represent audio signal portions that are not classified as speech. Classify. The classifier 12 may classify non-voice segments into several categories. The techniques used to classify segments of audio information have been described above. Preferred techniques are described below.

オーディオ情報のセグメントであらわされるオーディオ信号の各部は各々音量を持つ。音量測定装置14は音声セグメントを調査し、音声セグメントの音量の測定値を得る。測定音量値は経路15に沿って伝達される。代替の実施形態においては、音量測定装置14は少なくともいくつかの非音声セグメントを調査し、これらのセグメントの音量の測定値を得る。音量を測定するいくつかの方法については上述した。   Each part of the audio signal represented by the segment of audio information has a volume. The volume measuring device 14 examines the voice segment and obtains a measured value of the volume of the voice segment. The measured volume value is transmitted along the path 15. In an alternative embodiment, the volume measuring device 14 examines at least some non-voice segments and obtains volume measurements for these segments. Several methods for measuring volume have been described above.

制御装置16は、経路15から音量の表示を受信し、経路11からオーディオ情報を受信し、必要に応じてオーディオ情報を修正して、音声セグメントと表示されたオーディオ信号の部分の音量の変化を減少させる。もし制御装置16が音声セグメントの音量を増加させた場合は、音声セグメントより大きなものも含むすべての非音声セグメントの音量も増加させるだろう。修正されたオーディオ情報は、経路17に沿って続く処理に伝達される。送信機において、例えば、修正されたオーディオ情報はエンコードされあるいは他の処理がなされて伝送又は保存がなされる。受信機において、この修正されたオーディオ情報はリスナーに聞かせるために処理される。   The control device 16 receives the volume indication from the path 15, receives the audio information from the path 11, corrects the audio information as necessary, and changes the volume of the audio segment and the displayed audio signal portion. Decrease. If the controller 16 increases the volume of the voice segment, it will also increase the volume of all non-voice segments, including those larger than the voice segment. The modified audio information is communicated to subsequent processing along path 17. At the transmitter, for example, the modified audio information is encoded or otherwise processed for transmission or storage. At the receiver, this modified audio information is processed for listening to the listener.

分類装置12と音量測定装置14と制御装置16は、測定した音声セグメントの音量が音声セグメントのみならず非音声セグメントの音量の制御にも使われるように構成される。これは様々な方法で行われる。ある実施の形態においては、音量測定装置14は各音声セグメントに測定した音量を送る。制御装置16は、音量を測定した音声セグメントの音量に対して必要とする調整をおこない、さらに、次の音声セグメントのための測定値を受信するまで、この測定値を用いて引き続いて非音声セグメントの音量に対して必要とする調整を行う。このような実施形態は、あらかじめ調査することができないオーディオ信号をリアルタイムで信号レベルを調整しなければならない時に適切なものである。オーディオ信号をあらかじめ調査することができるときに適切である他の実施の形態においては、プログラムの全部又は大部分の音声セグメントの平均音量を測定し、そしてこの測定値がこのオーディオ信号に対して必要な調整を行う。さらに他の実施の形態においては、破線で示された経路に沿って分類装置12から送られてくる音声セグメント及び非音声セグメントの1以上の特性に応答して測定レベルを適合させる。   The classification device 12, the volume measuring device 14, and the control device 16 are configured such that the measured volume of the voice segment is used not only for controlling the volume of the non-voice segment but also the voice segment. This can be done in various ways. In one embodiment, the volume measuring device 14 sends the measured volume to each audio segment. The control device 16 makes the necessary adjustments to the volume of the voice segment whose volume has been measured, and continues to use this measurement value until it receives a measurement value for the next voice segment. Make any necessary adjustments to the volume. Such an embodiment is appropriate when the signal level of an audio signal that cannot be examined in advance must be adjusted in real time. In other embodiments, which are appropriate when the audio signal can be pre-examined, the average volume of all or most audio segments of the program is measured, and this measurement is required for this audio signal. Make appropriate adjustments. In yet another embodiment, the measurement level is adapted in response to one or more characteristics of speech and non-speech segments sent from the classifier 12 along the path indicated by the dashed line.

好ましい実施の形態においては、制御装置16もまたすべてのセグメントに対する音量又は信号エネルギーの表示を受け取り、セグメントの音量又は信号エネルギーがある閾値以内になるように音量のみの調整を行う。あるいは、分類装置12又は音量測定装置14が音量に対する調整をその範囲で行うべきセグメントの値を制御装置16に送ってもよい。   In the preferred embodiment, controller 16 also receives an indication of volume or signal energy for all segments and adjusts only the volume so that the volume or signal energy of the segment is within a certain threshold. Alternatively, the classification device 12 or the sound volume measuring device 14 may send to the control device 16 the segment values that should be adjusted within the range of the sound volume.

2.協調的処理
図3は、送信機における協調的処理に組み込むために用いることのできる装置の概略ブロックダイアグラムである。送信機は経路11からオーディオ信号の間隔を表すオーディオ情報を受け取る。分類装置12と音量測定装置14は、上記と実質的に同じ動作を行う。音量測定装置14により送られた測定した音量の値は経路15に沿って送られる。図に示した実施の形態において、エンコーダー18は経路11から受け取ったオーディオ情報をエンコードして経路19に沿って発信する。エンコーダー18は、本質的にいわゆる知覚的コーディング(perceptual coding)を含むあらゆる形式の望ましいエンコーディングを採用することができる。例えば、図3に示した装置は、AC−3に適合したデータストリームに組み込んだダイアルノームを送信するためにオーディオエンコーダーに組み込んでもよい。エンコーダー18は、本発明に必須ではない。エンコーダー18を省略した他の実施の形態では、オーディオ情報そのものが経路19に沿って伝達される。フォーマッター20は、経路19から受け取ったオーディオ情報の表示と経路15から受け取った測定音量の値とを集めて出力信号とし、この出力信号は伝達又は保存のために経路21に沿って送られる。
2. Collaborative Processing FIG. 3 is a schematic block diagram of an apparatus that can be used to incorporate into cooperative processing at the transmitter. The transmitter receives audio information representing the interval of the audio signal from the path 11. The classification device 12 and the sound volume measurement device 14 perform substantially the same operation as described above. The measured volume value sent by the volume measuring device 14 is sent along the path 15. In the illustrated embodiment, the encoder 18 encodes the audio information received from the path 11 and transmits it along the path 19. The encoder 18 can employ any form of desired encoding, including essentially so-called perceptual coding. For example, the apparatus shown in FIG. 3 may be incorporated into an audio encoder to transmit a dialnome incorporated into an AC-3 compliant data stream. The encoder 18 is not essential to the present invention. In another embodiment in which the encoder 18 is omitted, the audio information itself is transmitted along the path 19. The formatter 20 collects the display of the audio information received from the path 19 and the measured sound volume value received from the path 15 as an output signal, and this output signal is sent along the path 21 for transmission or storage.

図示されないコンプリメンタリー受信機において、経路21に沿って生成された信号を受信し処理してオーディオ情報の表示と測定音量の値とを復元する。測定音量の値は、オーディオ情報の表示から生成されたオーディオ信号の信号レベルを制御するために用いられる。   In a complementary receiver (not shown), the signal generated along the path 21 is received and processed to restore the display of audio information and the value of the measured sound volume. The measured volume value is used to control the signal level of the audio signal generated from the display of the audio information.

3.音量測定装置
図4は、音声と他の形式のオーディオ素材を含むオーディオ信号中の音声に音声量の値を送るために用いられる装置の概略ブロックダイアグラムである。この装置は経路11からオーディオ信号の間隔を表すオーディオ情報を受信する。分類装置12と音量測定装置14は上述した通りの動作を行う。音量測定装置14から送られてきた測定音量の値は経路15に沿って送られる。この値は好みの形式で表示することができ、又は、引き続いて処理を行うために他の装置に送られる。
3. Volume Measuring Device FIG. 4 is a schematic block diagram of a device used to send a volume value to speech in an audio signal containing speech and other types of audio material. This device receives audio information representing the interval of the audio signal from path 11. The classification device 12 and the sound volume measurement device 14 operate as described above. The value of the measured sound volume sent from the sound volume measuring device 14 is sent along the path 15. This value can be displayed in the preferred format, or sent to another device for subsequent processing.

D.セグメントの分類
本発明は本質的に、音声分類を含む2以上の分類にオーディオ情報のセグメントを分類することのできるどんな技術に用いてもよい。適切な分類技術のいくつかの例は上述した。好ましい実施の形態において、オーディオ情報のセグメントは、以下に記載する技術の形態を用いて分類される。
D. Segment Classification The present invention may be used in essentially any technique that can classify a segment of audio information into two or more classifications, including voice classification. Some examples of suitable classification techniques have been described above. In a preferred embodiment, the segments of audio information are classified using the form of technology described below.

図5は、好ましい分類技術によるオーディオ情報のセグメントを分類するために用いることのできる装置の概略ブロックダイアグラムである。サンプルレート変換装置は経路11からオーディオ情報のデジタルサンプルを受け取り、所定のレートでのデジタルサンプルを得るために必要なので、オーディオ情報を再サンプルする。以下に記載の実施形態においては、所定のレートは1秒間に16kサンプルである。サンプルレートの変換は本発明を実行する上で必要なものではないが、入力サンプルレートがオーディオ情報を分類するために必要なサンプルレートより高いときオーディオ情報のサンプルレートを変換することが好ましく、サンプルレートを低くすることによって分類処理はより効率的に行うことが可能になる。さらに、特性を抽出した成分の実施は、各成分が単一のサンプルレートで動くように設計されていれば普通は簡単になる。   FIG. 5 is a schematic block diagram of an apparatus that can be used to classify segments of audio information according to a preferred classification technique. The sample rate converter receives digital samples of audio information from path 11 and resamples the audio information as necessary to obtain digital samples at a predetermined rate. In the embodiment described below, the predetermined rate is 16k samples per second. Sample rate conversion is not necessary to implement the present invention, but it is preferable to convert the sample rate of audio information when the input sample rate is higher than the sample rate required to classify audio information, The classification process can be performed more efficiently by lowering the rate. Furthermore, the implementation of the extracted components is usually simplified if each component is designed to run at a single sample rate.

図示された実施において、オーディオ情報の特性又は特性は、抽出成分31,32,及び33として抽出される。他の実施の形態においては、わずか1つの特性を抽出しても、又は、有効な処理資源でできる限り多くの特性を抽出してもよい。音声検出装置35は、抽出した特性を受け取り、これらを使ってオーディオ情報のセグメントが音声に分類すべきかどうかを決定する。特性の抽出と音声の検出とについては以下に説明する。   In the illustrated implementation, the characteristics or characteristics of the audio information are extracted as extracted components 31, 32, and 33. In other embodiments, only one characteristic may be extracted, or as many characteristics as possible may be extracted with an effective processing resource. The voice detector 35 receives the extracted characteristics and uses them to determine whether the segment of audio information should be classified as voice. The characteristic extraction and voice detection will be described below.

1.特性
図5に示した特定の実施形態において、図示のための便宜上、オーディオ情報から3つの特性のみを抽出した成分が示されている。好ましい実施の形態においてはしかしながら、セグメントの分類は、以下に記載の7つの特性に基づいている。各抽出成分は、フレーム内に配置したサンプルのブロック上で計算を行うことによりオーディオ情報の特性を抽出する。7個の所定の各特性に用いられるフレーム毎のブロックの大きさと数は表6に示されている。

Figure 0004585855
1. In the specific embodiment shown in the characteristic diagram 5, for convenience of illustration, only three characteristics are extracted from the audio information. In the preferred embodiment, however, segment classification is based on the following seven characteristics. Each extraction component extracts the characteristics of the audio information by performing calculations on a block of samples arranged in the frame. Table 6 shows the size and number of blocks per frame used for each of the seven predetermined characteristics.
Figure 0004585855

この実施形態において、各フレームは32,768サンプルまたは2.057秒の長さである。表に記載した7個の特性については以下に説明する。以下の説明を通して、ブロック当たりのサンプル数は記号Nで示され、フレーム当たりのブロック数は記号Mで示される。   In this embodiment, each frame is 32,768 samples or 2.057 seconds long. The seven characteristics listed in the table are described below. Throughout the following description, the number of samples per block is indicated by the symbol N and the number of blocks per frame is indicated by the symbol M.

a)重み付けられたスペクトルフラックスのL2ノルムの2乗平均
重み付けられたスペクトルフラックスのL2ノルムの2乗平均は、音声が通常急速に変化するスペクトルを持つという事実を利用する。音声信号は一般に発声音声と呼ばれる音色のような信号と非発声音声と呼ばれるノイズのような信号の2つの形をもつ。これらの2つの形間での移行は、スペクトルに突然の変化を起こさせる。さらには、発声音声の期間に、強調のために、又は、言語の様式により、又は、このような変化が言語の自然な部分であるので、多くの話者はピッチを変化させる。音楽のような非発声音声信号もまた急激なスペクトルの変化を起こすが、このような変化はまれである。歌手は通常かなりの時間同じ周波数で歌うので、音楽のボーカル部分でさえも変化の頻度は少ない。
a) Root mean square of L2 norm of weighted spectral flux The root mean square of L2 norm of weighted spectral flux takes advantage of the fact that speech usually has a rapidly changing spectrum. Voice signals generally have two forms: a tone-like signal called uttered voice and a noise-like signal called non-voiced voice. The transition between these two forms causes a sudden change in the spectrum. Furthermore, many speakers change the pitch during the utterance, for emphasis, by language style, or because such changes are a natural part of the language. Non-voiced speech signals such as music also cause rapid spectral changes, but such changes are rare. Since the singer usually sings at the same frequency for a considerable amount of time, even the vocal part of the music is rarely changed.

重み付けられたスペクトルフラックスのL2ノルムの2乗平均を計算する処理の第1のステップは、オーディオ情報のサンプルのブロックに離散フーリエ変換(DFT)のような変換を適用し、変換結果得られた係数の大きさを得る。サンプルのブロックは、変換を適用する前に、ハミング窓関数のような窓関数w[n]により重み付けされることが好ましい。DFT係数の大きさは以下の式により計算することができる。

Figure 0004585855
The first step in the process of calculating the L2 norm root mean square of the weighted spectral flux is to apply a transform, such as a discrete Fourier transform (DFT), to the block of audio information samples, and the resulting coefficients Get the size of. The block of samples is preferably weighted by a window function w [n], such as a Hamming window function, before applying the transform. The magnitude of the DFT coefficient can be calculated by the following equation.
Figure 0004585855

ここで、N=ブロック中のサンプルの数
x[n]=ブロックm中のサンプル番号n
Xm[k]=ブロックm中のサンプルに対する変換係数k
次のステップで、現在のブロックと前のブロックの平均指数から現在のブロックの重みWを計算する。もしサンプルx[n]が複素数あるいは虚数値でなく実数値を取るならば、パーセヴァルの定理を使って、以下に示す式の変換係数から平均指数を計算することができる。

Figure 0004585855
Where N = number of samples in block x [n] = sample number n in block m
Xm [k] = transform coefficient k for samples in block m
In the next step, the weight W of the current block is calculated from the average index of the current block and the previous block. If the sample x [n] takes a real value rather than a complex or imaginary value, the average exponent can be calculated from the conversion coefficient of the following equation using the Parseval theorem.
Figure 0004585855

ここで、Wm=現在のブロックmに対する重み
次のステップで、現在のブロックのスペクトル成分と前のブロックのスペクトル成分との違いの大きさを2乗し、その結果を式(2)で計算したブロックの重みWmで除算し、重み付けられたスペクトルフラックスを算出する。L2ノルムつまりユークリッド距離はこうして計算される。重み付けられたスペクトルフラックスとL2ノルムの計算は以下の式で表される。

Figure 0004585855
Here, Wm = weight for the current block m In the next step, the difference between the spectral component of the current block and the spectral component of the previous block is squared, and the result is calculated by equation (2). Divide by the block weight Wm to calculate the weighted spectral flux. The L2 norm or Euclidean distance is thus calculated. The calculation of the weighted spectral flux and the L2 norm is expressed by the following equation.
Figure 0004585855

ここで、‖lm‖=ブロックmに対する重み付けられたスペクトルのL2ノルム
ブロックからなるフレームの特性は、フレーム中の各ブロックにおける2乗L2ノルムの和を計算することにより得られる。この和は以下の式に示される。

Figure 0004585855
Here, the characteristic of the frame consisting of the L2 norm block of the weighted spectrum for ‖lm‖ = block m is obtained by calculating the sum of the square L2 norm in each block in the frame. This sum is shown in the following equation.
Figure 0004585855

ここで、M=フレーム中のブロックの数
(t)=フレームtにおける重み付けられたスペクトルフラックスのL2ノルムの2乗平均

b)測定スペクトルパワー密度による最適回帰線のスキュー
対数スペクトルパワー密度による最適回帰線の勾配又は傾きにより、信号のスペクトルの傾き又はスペクトル的な強調点の測定値が得られる。もし信号が低い周波数を強調していたら、信号のスペクトルの形を近似する線は高い周波数に向かって下に傾き、線の傾きは負となる。もし信号が高い周波数を強調していたら、信号のスペクトルの形を近似する線は高い周波数に向かって上に傾き、線の傾きは正となる。
Where M = number of blocks in frame F l (t) = square mean of L2 norm of weighted spectral flux in frame t

b) Skew of the optimal regression line due to the measured spectral power density The slope or slope of the optimal regression line due to the logarithmic spectral power density provides a measure of the spectral slope or spectral enhancement point of the signal. If the signal emphasizes low frequencies, the line approximating the shape of the spectrum of the signal slopes down towards higher frequencies and the slope of the line is negative. If the signal is emphasizing high frequencies, the line approximating the shape of the spectrum of the signal will tilt upward toward the high frequency and the slope of the line will be positive.

音声は、発声音声の区間では低い周波数を強調し、非発声音声の区間では高い周波数を強調する。発声音声のスペクトルの形を近似する線の傾きは負であり、非発声音声のスペクトルの形を近似する線の傾きは正である。音声は主に非発声であるよりむしろ発声であるので、音声のスペクトルの形を近似する線の傾きはほとんどの時間で負であるが、正と負の傾きの間を急激に切り替わる。結果として、線の傾き又は勾配の分布は強く負方向にスキューする。音楽や他のオーディオ素材では、傾きの分布はもっと対称的になる。   The voice emphasizes a low frequency in a voiced voice section and emphasizes a high frequency in a non-voiced voice section. The slope of the line approximating the spectrum shape of the voiced speech is negative, and the slope of the line approximating the spectrum shape of the non-voiced speech is positive. Since speech is primarily utterance rather than unspoken, the slope of the line that approximates the shape of the speech spectrum is negative most of the time, but switches abruptly between positive and negative slopes. As a result, the line slope or gradient distribution is strongly skewed in the negative direction. In music and other audio material, the slope distribution is more symmetric.

信号のスペクトルの形を近似する線の傾きは、信号の対数スペクトルパワー密度の測定による最適回帰線を計算することにより得られる。信号のスペクトルパワー密度は、上記の式(1)で示したような変換を用いて変換係数の2乗を計算することにより得られる。スペクトルパワー密度の計算は以下の式に示される。

Figure 0004585855
The slope of the line that approximates the shape of the spectrum of the signal can be obtained by calculating the optimal regression line by measuring the logarithmic spectral power density of the signal. The spectral power density of the signal can be obtained by calculating the square of the conversion coefficient using the conversion shown in the above equation (1). The calculation of the spectral power density is shown in the following equation.
Figure 0004585855

式(5)で計算されたパワースペクトル密度は、以下の式で示される対数領域に変換される。

Figure 0004585855
The power spectral density calculated by the equation (5) is converted into a logarithmic region represented by the following equation.
Figure 0004585855

最適回帰線の勾配は、最小2乗法から導かれる以下の式で計算される。

Figure 0004585855
The slope of the optimal regression line is calculated by the following formula derived from the least square method.
Figure 0004585855

ここで、Gm=ブロックmの回帰係数
フレームtの特性は、以下の式で与えられるフレームについてのスキューで測定される。

Figure 0004585855
Here, Gm = regression coefficient of block m The characteristic of the frame t is measured by the skew for the frame given by the following equation.
Figure 0004585855

ここで、F(t)=フレームtの対数スペクトルパワー密度による最適回帰線の勾配による特性

c)休止総数
休止総数の特性は、オーディオパワー非常に少なくなるか又は全くなくなる信号の休止又は短い区間が一般に音声に存在するが他のタイプの音声素材には一般に存在しないという事実を利用するものである。
Here, F 2 (t) = characteristic by the gradient of the optimal regression line based on the logarithmic spectral power density of frame t

c) Total number of pauses The total pause feature takes advantage of the fact that pauses or short intervals of the signal are generally present in the speech but not in other types of speech material, with very little or no audio power. It is.

この特性を抽出する最初のステップでは、フレーム内の各ブロックmにおけるオーディオ情報のパワーP[m]を計算する。これは以下に示す式で計算することができる。

Figure 0004585855
In the first step of extracting this characteristic, the power P [m] of audio information in each block m in the frame is calculated. This can be calculated by the following formula.
Figure 0004585855

ここで、P[m]=ブロックmにおけるパワーの計算値
第2のステップでは、フレーム内におけるオーディオ情報のパワーPを計算する。この特性としてのフレームt内における休止の数F3(t)は、このフレーム内でそれぞれのパワーP[m]が1/4P以下であるブロックの数に等しい。4分の1という値は経験的に導き出された。
Here, the P [m] = the second step calculation value of the power in the block m, to calculate the power P F of the audio information in the frame. The number of pause in the frame t as the characteristic F3 (t) is the frame within each power in P [m] is equal to the number of blocks is less than 1 / 4P F. The quarter value was derived empirically.

d)ゼロ交差率のスキュー係数
ゼロ交差率は、オーディオ情報で表示され、ある時間間隔中にゼロ点を交差するオーディオ信号の回数で示される。ゼロ交差率は、オーディオ情報サンプルの短いブロックにおけるゼロ点を交差する数を数えることにより測定することができる。ここに記載した実施の形態においては、ブロックには16msec間に256個の連続するサンプルが存在する。
d) Zero Crossing Rate Skew Factor Zero crossing rate is displayed in audio information and is indicated by the number of audio signals that cross the zero point during a time interval. The zero crossing rate can be measured by counting the number of crossing zero points in a short block of audio information samples. In the embodiment described here, there are 256 consecutive samples in the block for 16 msec.

概念としては単純であるが、ゼロ交差率から得られる情報により、オーディオ信号中に音声が存在するかどうかの信頼性の高い指標が得られる。音声中の非発声部分が比較的ゼロ交差率が高いのに対して、音声中の発声部分は比較的低いゼロ交差率を持つ。さらに、一般に音声は発生部分と休止とを非発声部分より多く含んでいるので、ゼロ交差率の分布は一般に低い比率にスキューする。フレームt内におけるスキューの表示を与える1つの特性は、以下の式で計算されるゼロ交差率のスキュー係数である。

Figure 0004585855
Although simple in concept, the information obtained from the zero crossing rate provides a reliable indicator of whether speech is present in the audio signal. The non-speech part in the speech has a relatively high zero-crossing rate, whereas the speech part in the speech has a relatively low zero-crossing rate. Furthermore, since speech generally contains more occurrences and pauses than non-speech, the zero crossing rate distribution is generally skewed to a lower ratio. One characteristic that gives an indication of the skew within frame t is the zero crossing rate skew factor calculated by the following equation.
Figure 0004585855

ここで、Zm=ブロックmにおけるゼロ交差数
(t)=フレームtのゼロ交差率のスキュー係数特性
e)ゼロ交差率の平均値対中央値比
フレームt内においてゼロ交差率のスキュー係数の分布の表示を提示する他の特性はゼロ交差率の平均値対中央値比である。これは以下の式により得られる。

Figure 0004585855
Where Zm = number of zero crossings in block m F 4 (t) = zero crossing rate skew coefficient characteristic of frame t e) zero crossing rate average value to median ratio of zero crossing rate skew coefficient in frame t Another characteristic that presents an indication of the distribution is the mean to median ratio of zero crossing rates. This is obtained by the following equation.
Figure 0004585855

ここで、Zmedian=フレームt中のゼロ交差率のブロックにおける中央値
(t)=フレームtのゼロ交差率の平均値対中央値比特性
f)短期リズミック尺度
ここまで説明した特性は多くの形式のオーディオ素材中の音声を検出することができる。しかし、これらの技術は、いわゆる「ラップ」と呼ばれるようなリズミカルなオーディオ素材及びポピュラー音楽の多くの場合に高い確率で誤検出を行うことがある。オーディオ情報のセグメントは、非常にリズミカルな素材を検出することにより、より高い信頼度で音声であると分類することができ、さらにそのような素材を分類から除外するか又は素材を音声であるとして分類するために必要な確かなレベルに引き上げることができる。
Where Z median = median value of zero crossing rate block in frame t F 5 (t) = zero crossing rate mean to median ratio characteristic of frame t f) short-term rhythmic scale It is possible to detect sound in audio material of the format. However, these techniques may perform false detection with a high probability in many cases of rhythmic audio material and popular music called so-called “rap”. Segments of audio information can be classified as speech with a higher degree of confidence by detecting very rhythmic material, and further excluding such material from classification or assuming that the material is speech It can be raised to a certain level necessary for classification.

短期リズミック尺度は、以下の式に示すように各ブロック内のサンプルの分散を最初に計算することにより計算される。

Figure 0004585855
The short-term rhythmic measure is calculated by first calculating the variance of the samples within each block as shown in the following equation.
Figure 0004585855

ゼロ平均シーケンスは、以下の式に示すようにフレーム中のすべてのブロックの分散から導き出される。

Figure 0004585855
The zero average sequence is derived from the variance of all blocks in the frame as shown in the following equation.
Figure 0004585855

ゼロ平均シーケンスの自己相関は、以下に示した式により得られる。

Figure 0004585855
The autocorrelation of the zero average sequence is obtained by the following equation.
Figure 0004585855

ここで、A[l]=ブロック遅れlを持つフレームtに対する自己相関値
短期リズミック尺度の特性は、自己相関値の最大値から導き出される。この最大値には、遅れl=0のブロックについての値が含まれていない。したがって、この最大値は、遅れl≧Lのブロックの値の集合から得られたものである。数値Lは期待される最も速いリズムの期間を表す。一実施の形態においてLは、最低期間である160msecを表す10に設定される。この特性は、以下の式に示すように、最大値を、遅れl=0のブロックの自己相関値で除することにより計算される。

Figure 0004585855
Here, A t [l] = autocorrelation value for frame t with block delay l The characteristic of the short-term rhythmic measure is derived from the maximum value of the autocorrelation value. This maximum value does not include a value for a block with a delay l = 0. Therefore, this maximum value is obtained from a set of block values with a delay l ≧ L. The number L represents the fastest expected rhythm period. In one embodiment, L is set to 10 representing the minimum period of 160 msec. This characteristic is calculated by dividing the maximum value by the autocorrelation value of the block with delay l = 0, as shown in the following equation.
Figure 0004585855

ここで、F(t)=フレームtの短期リズミック尺度
g)長期リズミック尺度
長期リズミック尺度は、ゼロ平均シーケンス値がスペクトルの重みに置き換える点を除いて、上述の短期リズミック尺度についての説明と同じ方法で導き出される。これらのスペクトルの重みは、上述の式(5)及び(6)で示した対数パワースペクトル密度を得ることによりまず計算され、対数スペクトルパワー密度による最適回帰線の勾配のスキューに関連して説明される。ここで説明した実施の形態において、長期リズミック尺度の計算でのブロック長さは勾配のスキューの計算に用いるブロック長さとは異なることを指摘しておくことは助けになるかもしれない。
Where F 6 (t) = short-term rhythmic measure of frame t g) long-term rhythmic measure The long-term rhythmic measure is the same as described above for the short-term rhythmic measure except that the zero mean sequence value replaces the spectrum weight. Derived in the way. These spectral weights are first calculated by obtaining the logarithmic power spectral density shown in equations (5) and (6) above, and are explained in relation to the skew of the optimal regression line slope due to the logarithmic spectral power density. The In the embodiments described here, it may be helpful to point out that the block length in the calculation of the long-term rhythmic measure is different from the block length used in the calculation of the slope skew.

次のステップで、以下の式に示すような各ブロックにおける対数領域のパワースペクトル値の最大値を取得する。

Figure 0004585855
In the next step, the maximum value of the power spectrum value in the logarithmic region in each block as shown in the following equation is acquired.
Figure 0004585855

ここで、O=ブロックmにおける最大対数パワースペクトル
各ブロックにおけるスペクトルの重みは、(O・α)に等しい閾値より大きな対数領域パワースペクトル値のピークの数により決められる。この決定は以下の式により表現される。

Figure 0004585855
Here, O m = maximum logarithmic power spectrum in block m The weight of the spectrum in each block is determined by the number of peaks in the logarithmic domain power spectrum value larger than a threshold equal to (O m · α). This determination is expressed by the following equation.
Figure 0004585855

ここで、W[m]=ブロックmのスペクトルの重み
sign(n)=+1 n≦0のとき、 −1 n<0のとき
α=経験から導かれた定数で0.1
各フレームの端で、前のフレームのM個のスペクトルの重みのシーケンスと現在のフレームのM個のスペクトルの重みのシーケンスとが結び付けられて2M個のスペクトルの重みのシーケンスとなる。次いで、この長いシーケンスの自己相関が以下の式により計算される。

Figure 0004585855
Here, W [m] = spectrum weight of block m sign (n) = + 1 when n ≦ 0, when −1 n <0, α = constant derived from experience, 0.1
At the end of each frame, the sequence of M spectral weights of the previous frame and the sequence of M spectral weights of the current frame are combined into a sequence of 2M spectral weights. This long sequence autocorrelation is then calculated by the following equation:
Figure 0004585855

ここで、AL=フレームtの自己相関係数
この長期リズミック尺度の特性は、自己相関係数の最大値から導き出される。この最大値には、遅れl=0のブロックについての値が含まれていない。したがって、この最大値は、遅れl≧LLのブロックの値の集合から得られたものである。数値LLは期待される最も速いリズムの期間を表す。ここに記載された実施の形態においてLLは10に設定される。この特性は、以下の式に示すように、最大値を、遅れl=0のブロックの自己相関値で除することにより計算される。

Figure 0004585855
Here, AL t = autocorrelation coefficient of frame t The characteristic of this long-term rhythmic measure is derived from the maximum value of the autocorrelation coefficient. This maximum value does not include a value for a block with a delay l = 0. Therefore, this maximum value is obtained from a set of block values with a delay l ≧ LL. The number LL represents the fastest rhythm period expected. In the embodiment described here, LL is set to 10. This characteristic is calculated by dividing the maximum value by the autocorrelation value of the block with delay l = 0, as shown in the following equation.
Figure 0004585855

ここで、F(t)=フレームtの長期リズミック尺度
2.音声の検出
音声検出装置35は、オーディオ情報のセグメントが音声に分類すべきものかどうかを決定するために各フレームから抽出した特性を結合する。特性を結合するために用いる1つの方法では、簡単な又は暫定的な分類装置が導入される。暫定的な分類装置では、上述の特性の1つを閾値と比較して2進数値を算出する。この2進数値は係数により重み付けられる。各暫定的な分類装置により、1つの特性に基づき暫定的な分類が行われる。特定の特性を2以上の暫定的な分類装置に用いてもよい。暫定的な分類を以下の式で行われる計算により実行してもよい。

Figure 0004585855
Where F 7 (t) = long-term rhythmic measure of frame t2. Speech Detection The speech detection device 35 combines the characteristics extracted from each frame to determine whether the segment of audio information should be classified as speech. One method used to combine properties introduces a simple or provisional classifier. The provisional classification apparatus calculates a binary value by comparing one of the above characteristics with a threshold value. This binary value is weighted by a coefficient. Each provisional classification device performs provisional classification based on one characteristic. Certain characteristics may be used in more than one provisional classification device. The provisional classification may be performed by calculation performed by the following formula.
Figure 0004585855

ここで、C=暫定的分類装置jにより提供される2進数値の分類
=暫定的分類装置jの係数
=オーディオ情報から抽出した特性i
TH=暫定的分類装置jの閾値
この特定の実施形態において、暫定的分類C=1であることは、暫定的分類装置jがオーディオ情報の特定のフレームは音声に分類すべきであるとの決定を支持しようとしていることを示している。暫定的分類C=−1であることは、暫定的分類装置jがオーディオ情報の特定のフレームは音声に分類すべきでないとの決定を支持しようとしていることを示している。
Where C j = binary value classification provided by provisional classifier j c f = coefficient of provisional classifier j F i = characteristic i extracted from audio information
TH j = threshold of provisional classifier j In this particular embodiment, provisional classification C j = 1 means that provisional classifier j should classify a particular frame of audio information as speech. Indicates that they are trying to support the decision. The provisional classification C j = −1 indicates that the provisional classification device j intends to support the decision that a particular frame of audio information should not be classified as speech.

表7の項目は、係数と閾値とオーディオ情報のフレームの分類の実施形態で用いられるいくつかの暫定的な分類装置の適切な特性を示す。

Figure 0004585855
The entries in Table 7 show the appropriate characteristics of some provisional classifiers used in the embodiments of classifying coefficients, thresholds, and frames of audio information.
Figure 0004585855

最終的な分類は、暫定的な分類結果を組み合わせたものに基づく。これは以下の式に示すように行うことができる。

Figure 0004585855
Final classification is based on a combination of provisional classification results. This can be done as shown in the following equation.
Figure 0004585855

ここで、Cfinal=オーディオ情報のフレームの最終分類
J=分類を行うために用いられる暫定的な分類装置の数
音声検出装置の信頼性は、暫定的な分類装置の選択を最適化すること、及び、これらの暫定的な分類装置の係数と閾値を最適化することにより改善することができる。この最適化は、引用した米国特許5,819,247及び1999年人工知能についての第16回内部合同会議での、Schapire,「A Brief Introduction to Boosting」手順を含む様々な方法で実行することができる。
Where C final = final classification of the frame of audio information J = number of provisional classification devices used to perform classification The reliability of the speech detection device is to optimize the selection of the provisional classification device, And it can be improved by optimizing the coefficients and thresholds of these provisional classifiers. This optimization can be performed in a variety of ways, including the Schapire, “A Brief Introduction to Boosting” procedure at the cited US Patent 5,819,247 and the 16th Internal Joint Conference on Artificial Intelligence 1999.

代替的な実施の形態において、音声検出は2進数化された判断として表示されるのではなく、代わりに、音声検出は等級をつけた分類のための指標として表される。この指標は、音声である確率の測定値、又は、音声分類における確かさのレベルを表現することとなる。これは、例えば、式(21)で示される2進数化された結果を得るのではなくて暫定的分類の総計から最終分類を得るというような様々な方法で行うことができる。   In an alternative embodiment, speech detection is not displayed as a binary decision, but instead speech detection is represented as an indicator for grading classification. This index represents a measure of the probability of being speech or the level of certainty in speech classification. This can be done in various ways, such as obtaining the final classification from the sum of the provisional classifications rather than obtaining the binary digitized result shown in equation (21).

3.サンプルブロック
上述の実施形態では、切れ目や重複のない固定長のブロックから特性を抽出している。その代わり、分類技術を切れ目や重複のない可変長のブロックに適用したり、重複のある固定長又は可変長のブロックに適用したり、あるいは、連続しない固定長又は可変長のブロックに適用したりすることができる。例えば、オーディオ情報をもっと変動の少ないものにするために、トランジエント、休止、又はオーディオエネルギーのごく少ないか全くない期間に適応して、ブロック長さを変化させるようにしてもよい。フレーム毎のブロックの数の変化に適応して、及び/又は、フレーム内のブロックの長さの変化に適応して、フレーム長さも変化させるようにしてもよい。
3. Sample Block In the above-described embodiment, characteristics are extracted from a fixed-length block without a break or overlap. Instead, apply classification techniques to variable-length blocks with no breaks or overlap, apply to fixed-length or variable-length blocks with overlap, or apply to non-consecutive fixed-length or variable-length blocks. can do. For example, to make the audio information less variable, the block length may be varied to accommodate transients, pauses, or periods of little or no audio energy. The frame length may also be changed in response to changes in the number of blocks per frame and / or in response to changes in the length of blocks in the frame.

E.音量の測定
音量測定装置14は、オーディオ情報のセグメントを調査し、音声セグメントの音量の測定値を得る。一実施の形態において、音声のセグメントと分類された各フレームについて音量が測定される。音量は要求されるあらゆる期間に対して本質的に測定され得る。
E. Volume measurement The volume measurement device 14 investigates the segment of the audio information and obtains a measurement value of the volume of the audio segment. In one embodiment, the volume is measured for each frame classified as a segment of speech. Volume can be measured for essentially any period of time required.

他の実施形態においては、処理開始要求に応答して測定処理が始まり、処理停止要求を受け取るまで続けられる。受信機4では、例えば、これらの要求は、経路3から受け取った信号中の特定のコードに変換される。あるいは、これらの要求は、音量を測定するために用いられる装置上に設置されたスイッチや他の制御機器の操作により提供してもよい。音量測定装置14の処理を一時停止させ現在の測定値を保持させる追加的な制御機器を用意してもよい。   In another embodiment, the measurement process starts in response to a process start request and continues until a process stop request is received. At the receiver 4, for example, these requests are converted into specific codes in the signal received from the path 3. Alternatively, these requests may be provided by operating a switch or other control device installed on a device used for measuring the volume. An additional control device for temporarily stopping the processing of the volume measuring device 14 and holding the current measurement value may be prepared.

一実施の形態において、音声と分類されるすべてのオーディオ情報のセグメントに対して測定される。原則として、しかしながら、例えば、閾値より大きなオーディオエネルギーのレベルを持つセグメントにのみとするように、選択された音声セグメントについてのみ音量を測定してもよい。分類装置12に低エネルギーセグメントを音声ではないと分類させ、そしてすべての音声セグメントの音量を測定することでも同様の効果が得られよう。他の変形も可能である。例えば、音量の測定計算において古いセグメントに低い重みを与えることもできる。   In one embodiment, measurements are made for all segments of audio information classified as speech. In principle, however, the volume may be measured only for selected speech segments, eg, only for segments having a level of audio energy greater than a threshold. A similar effect could be achieved by having the classifier 12 classify the low energy segments as not speech and measuring the volume of all speech segments. Other variations are possible. For example, the old segment can be given a low weight in the volume measurement calculation.

さらに他の実施の形態において、音量測定装置14は少なくともいくつかの非音声セグメントについて音量を測定する。非音声セグメントについて測定された音量はオーディオ情報の期間における音量の計算として用いられる。しかしながら、これらの計算は音声セグメントにおける測定に対応すべきである。非音声セグメントの測定は、セグメントの分類のために段階的指標を提供する実施形態に用いてもよい。オーディオ情報の区間における計算は、分類のための段階的指標を明らかにするような方法で音声セグメントと非音声セグメントの音量を測定に対応できる。例えば、段階的指標は、オーディオ情報のセグメントが音声を含む確度の表示を表すことができる。音量の測定は、音量測定計算においてこれらのセグメントに高い重み付けをすることにより、より高い確度でセグメントに対応するようにすることができる。   In still other embodiments, the volume measuring device 14 measures volume for at least some non-voice segments. The volume measured for the non-speech segment is used as a calculation of volume during the period of audio information. However, these calculations should correspond to measurements in the speech segment. Non-voice segment measurements may be used in embodiments that provide a step-by-step indicator for segment classification. The calculation in the section of the audio information can correspond to the measurement of the volume of the speech segment and the non-speech segment in such a way as to reveal a stepwise index for classification. For example, a graded indicator may represent an indication of the accuracy with which a segment of audio information includes speech. The volume measurement can be made to correspond to the segments with higher accuracy by giving these segments a high weight in the volume measurement calculation.

音量は上述したような方法を含む様々な方法で測定することができる。本発明には特別な測定技術は必要ではないが、コンピュータリソースをそれほど必要としない単純な技術が実際の実施において一般的に好ましいと考えられる。   Volume can be measured in various ways, including the methods described above. Although no special measurement techniques are required for the present invention, simple techniques that require less computer resources are generally considered preferred in actual implementations.

F.実施
本発明の様々な機能は、汎用コンピュータシステムのソフトウエアや、汎用コンピュータシステムに見られるような要素と似た部品と組み合わせたデジタル信号処理(DSP)回路のようなさらに特化した部品を含む他の装置による方法を含む、広く様々な方法で実施することができる。図6は、オーディオをエンコードする送信機又はオーディオをデコードする受信機において本発明の様々な機能を実施するために用いることができる装置70のブロックダイアグラムである。DSP72は計算リソースを提供する。RAM73はDSP72で信号処理に用いられるランダムアクセスメモリー装置(RAM)である。ROM74は、装置70を動作させるために必要なプログラムを保存するためのリードオンリーメモリー(ROM)のような永久的な記憶装置を表している。I/O制御75はコミュニケーションチャンネル76,77を介して信号の伝送と受信を行うインターフェース回路を表している。アナログオーディオ信号を受信及び/又は送信したいときは、アナログからデジタルへの変換器及びデジタルからアナログへの変換器をI/O制御75に含ませてもよい。図示の実施形態において、すべてのシステム部品はバス71に接続される。このバスは、物理的な1以上のバスであってもよいが、バスの概念は本発明の実施に必要ではない。
F. Implementation The various functions of the present invention include more specialized components such as general purpose computer system software and digital signal processing (DSP) circuits combined with components similar to those found in general purpose computer systems. It can be implemented in a wide variety of ways, including by other devices. FIG. 6 is a block diagram of an apparatus 70 that can be used to implement various functions of the present invention in a transmitter that encodes audio or a receiver that decodes audio. The DSP 72 provides computational resources. The RAM 73 is a random access memory device (RAM) used for signal processing by the DSP 72. The ROM 74 represents a permanent storage device such as a read only memory (ROM) for storing a program necessary for operating the device 70. The I / O control 75 represents an interface circuit that transmits and receives signals via the communication channels 76 and 77. When it is desired to receive and / or transmit an analog audio signal, the I / O control 75 may include an analog to digital converter and a digital to analog converter. In the illustrated embodiment, all system components are connected to the bus 71. The bus may be one or more physical buses, but the bus concept is not necessary for the practice of the present invention.

汎用コンピュータで実施する形態においては、インターフェース用、及び、磁気テープ又は磁気ディスク又は光学媒体などの記憶媒体を有する記憶装置を制御するためのキーボードやマウス及びディスプレイなどの付加的な部品が含まれる。記憶媒体はシステムを動作させるためのプログラム、ユーティリティー及びアプリケーションのプログラムを記録するために用いてもよく、記憶媒体には本発明のいろいろな機能を実行するプログラムの具体的表現を含ませてもよい。本発明の実行に必要な機能は、個々のロジック部品、1以上のASIC及び/又はプログラム制御のプロセッサーを含む広く様々な方法を組み込んだ特殊目的の部品により遂行することもできる。これらの部品を組み込む方法は、本発明にとって重要ではない。   In a general-purpose computer embodiment, additional components such as a keyboard, mouse and display are included for interfacing and for controlling a storage device having a storage medium such as a magnetic tape or magnetic disk or optical medium. The storage medium may be used to record a program for operating the system, a utility, and an application program, and the storage medium may include a specific expression of a program that executes various functions of the present invention. . The functions necessary to carry out the invention may also be performed by special purpose components incorporating a wide variety of methods including individual logic components, one or more ASICs and / or program controlled processors. The method of incorporating these components is not critical to the present invention.

本発明におけるソフトウエアの組み込みは、ベースバンド又は超音波から紫外線までの周波数を含む全スペクトルの変調経路のような様々な読み込み媒体機構により、あるいは、磁気テープ、磁気ディスク、光ディスクを含む、本質的に磁気又は光学的記憶技術を用いて情報を伝達する媒体を含む記憶媒体により行われる。種々の機能は、ASIC、汎用集積回路、ROM又はRAMのいろいろな形で具現化したプログラムにより制御される処理回路、及び、その他の技術による回路のような処理回路によりコンピュータシステム70の様々な部品に組み込むこともできる。   Incorporation of software in the present invention is essential by various reading media mechanisms such as baseband or full-spectrum modulation paths including frequencies from ultrasonic to ultraviolet, or including magnetic tape, magnetic disks, optical disks, etc. And storage media including media that convey information using magnetic or optical storage technology. The various functions are various parts of the computer system 70 by processing circuits such as ASICs, general purpose integrated circuits, processing circuits controlled by programs embodied in various forms of ROM or RAM, and circuits by other techniques. Can also be incorporated.

本発明の様々な機能に組み込まれたオーディオシステムの概略ブロックダイアグラムである。2 is a schematic block diagram of an audio system incorporated into various functions of the present invention. 音声その他のオーディオ素材を有するオーディオ信号の音量を制御するために用いられる装置の概略ブロックダイアグラムである。1 is a schematic block diagram of an apparatus used to control the volume of an audio signal having voice or other audio material. 音声を表現するオーディオ情報及び音声の大きさを表す制御情報を生成し伝送するために用いられる装置の概略ブロックダイアグラムである。2 is a schematic block diagram of an apparatus used to generate and transmit audio information representing speech and control information representing the volume of speech. 音声その他のオーディオ素材を有するオーディオ信号中の音声の大きさを提供し表示するために用いられる装置の概略ブロックダイアグラムである。2 is a schematic block diagram of an apparatus used to provide and display the volume of audio in an audio signal having audio or other audio material. オーディオ情報のセグメントを分類するために用いられる装置の概略ブロックダイアグラムである。2 is a schematic block diagram of an apparatus used to classify segments of audio information. 本発明の様々な状況で用いられる装置の概略ブロックダイアグラムである。2 is a schematic block diagram of an apparatus used in various situations of the present invention.

Claims (36)

信号処理方法であって、
入力信号を受け取り、該入力信号からオーディオ情報を獲得するステップであって、該オーディオ情報はオーディオ信号を意味することを特徴とするステップと、
前記オーディオ情報のセグメントが、音声に分類されるオーディオ信号の部分を示す音声セグメントであるのか、又は、音声には分類されないオーディオ信号の部分を示す非音声セグメントであるのかを分類するためにオーディオ情報を調査するステップであって、セグメントで表されるオーディオ信号の各部分はそれぞれ音量を有することを特徴とする、ステップと、
前記音声セグメントの音量の測定値を得るために前記オーディオ情報を調査するステップと、
前記非音声セグメントで表現される前記オーディオ信号部分の音量よりも前記音声セグメントの音量の測定値に敏感に対応する制御情報を生成するステップと、
を具備することを特徴とする、信号処理方法。
A signal processing method comprising:
Receiving an input signal and obtaining audio information from the input signal, wherein the audio information means an audio signal; and
Audio information to classify whether the segment of audio information is a speech segment indicating a portion of an audio signal classified as speech or a non-speech segment indicating a portion of an audio signal not classified as speech. Wherein each portion of the audio signal represented by the segment has a volume, and
Examining the audio information to obtain a measure of the volume of the audio segment;
Generating control information that corresponds more sensitively to a volume measurement of the audio segment than the volume of the audio signal portion represented by the non-audio segment ;
A signal processing method comprising:
前記音声セグメントの音量の変化を減少させるために前記制御情報に応答して前記オーディオ信号の区間の音量を制御するステップであって、前記音声セグメントで表現される前記オーディオ信号の部分の音量を大きくするとき、1以上の非音声セグメントで表現される前記オーディオ信号の部分の音量も大きくすることを特徴とするステップを具備することを特徴とする、請求項1に記載の方法。 Controlling the volume of the section of the audio signal in response to the control information in order to reduce the volume change of the audio segment, and increasing the volume of the portion of the audio signal represented by the audio segment. The method according to claim 1, further comprising increasing the volume of the portion of the audio signal represented by one or more non-speech segments . 前記オーディオ情報の表示と前記制御情報とを出力信号に組み立て、該出力信号を送信するステップを具備することを特徴とする、請求項1に記載の方法。Wherein the audio information, the display and, assembling an output signal and the control information, characterized by comprising the step of transmitting said output signals The method of claim 1. 音声セグメントで表現されるオーディオ信号を周波数で重み付けしたものの平均指数を計算することにより音声セグメントの音量の測定値を得るステップを具備することを特徴とする、請求項1又は請求項2に記載の方法。The method according to claim 1, further comprising: obtaining a measurement value of the volume of the audio segment by calculating an average index of the audio signal represented by the audio segment weighted by frequency. Method. オーディオ情報に音響心理学的モデルに基づく音量を適用することにより、音声セグメントの音量の測定値を得るステップを具備することを特徴とする、請求項1又は請求項2に記載の方法。3. A method according to claim 1 or 2, characterized in that it comprises the step of obtaining a volume measure of a speech segment by applying a volume based on a psychoacoustic model to the audio information. 前記オーディオ情報から前記オーディオ信号の複数の特性を導き出し、各々の重要さの程度により重み付けを行い、該重み付けされた特性の組み合わせに従って前記セグメントの分類を行うことによりセグメントを分類するステップを具備することを特徴とする、請求項1又は請求項2に記載の方法。Derive a plurality of characteristics of the audio signal from the audio information, it performs weighting according to the degree of each of importance, that it comprises the step of classifying a segment by performing a classification of the segments according to a combination of the weighted characteristics The method according to claim 1 or 2, characterized in that オーディオエネルギーの程度が閾値より小さい前記オーディオ信号の音量を調整することで前記オーディオ信号の音量を制御するステップを具備することを特徴とする、請求項1又は請求項2に記載の方法。 Characterized by including the step of controlling the volume of the audio signal by the extent of the audio energy to adjust the volume of the threshold smaller than the audio signal, the method according to claim 1 or claim 2. 前記オーディオ信号の音量の表示は、音声セグメントの音量の測定値のみに対応していることを特徴とする、請求項1又は請求項2に記載の方法。The method according to claim 1 or 2, characterized in that the display of the volume of the audio signal corresponds only to a measurement of the volume of the audio segment. 1以上の非音声セグメントの音量を測定するステップであって、前記オーディオ信号の、音量の表示は、1以上の前記非音声セグメントの音量の計測値より前記音声セグメントの音量の測定値に敏感に対応していることを特徴とするステップを具備することを特徴とする、請求項1又は請求項2に記載の方法。Measuring the volume of one or more non-speech segments, wherein the display of the volume of the audio signal is more sensitive to the measured value of the volume of the voice segment than the measured value of the volume of the one or more non-speech segments. 3. A method according to claim 1 or 2, characterized in that it comprises a step characterized in that it corresponds. 各々のセグメントで表現されるオーディオ信号が音声としての特性を有する程度を表示する音声指標を作成するステップと、
各々のセグメントの前記音声指標に応じた各々のセグメントの音量の測定値に対応するような音量の表示を作成するステップと、
を具備することを特徴とする、請求項1又は請求項2に記載の方法。
And creating an audio index audio signal represented by each segment displaying a degree having properties as speech,
Creating a volume display corresponding to each segment volume measurement in response to the audio indicator of each segment;
The method according to claim 1 or 2, characterized by comprising:
セグメントの時間順序に応じた各セグメントの音量の測定値に対応するような音量の表示を作成するステップを具備することを特徴とする請求項1又は請求項2に記載の方法。3. A method according to claim 1 or claim 2, comprising the step of creating a volume display corresponding to a measurement of the volume of each segment according to the time order of the segments. オーディオ情報の特性に対応してオーディオ情報のセグメントの長さを適合させるステップを具備することを特徴とする、請求項1又は請求項2に記載の方法。 Characterized by comprising the step of adapting the length of the segment of the audio information corresponding to characteristics of the audio information, the method according to claim 1 or claim 2. コンピュータに信号処理方法を実行させるためのプログラムを記録したコンピュータ読取可能な記録媒体であって、
該信号処理方法は、
入力信号を受け取り、該入力信号からオーディオ情報を獲得するステップであって、該オーディオ情報はオーディオ信号を意味することを特徴とするステップと、
前記オーディオ情報のセグメントが、音声に分類されるオーディオ信号の部分を示す音声セグメントであるのか、又は、音声には分類されないオーディオ信号の部分を示す非音声セグメントであるのかを分類するためにオーディオ情報を調査するステップであって、セグメントで表されるオーディオ信号の各部分はそれぞれ音量を有することを特徴とするステップと、
前記音声セグメントの音量の測定値を得るために前記オーディオ情報を調査するステップと、
前記非音声セグメントで表現される前記オーディオ信号部分の音量よりも前記音声セグメントの音量の測定値に敏感に対応する制御情報を生成するステップと、
を具備することを特徴とする、媒体。
A computer-readable recording medium recording a program for causing a computer to execute a signal processing method,
The signal processing method includes:
Receiving an input signal and obtaining audio information from the input signal, wherein the audio information means an audio signal; and
Audio information to classify whether the segment of audio information is a speech segment indicating a portion of an audio signal classified as speech or a non-speech segment indicating a portion of an audio signal not classified as speech. Wherein each portion of the audio signal represented by the segment has a volume, and
Examining the audio information to obtain a measure of the volume of the audio segment;
Generating control information that corresponds more sensitively to a volume measurement of the audio segment than the volume of the audio signal portion represented by the non-audio segment ;
A medium characterized by comprising:
前記方法は、前記音声セグメントの音量の変化を減少させるために前記制御情報に応答して前記オーディオ信号の区間の音量を制御するステップであって、前記音声セグメントで表現される前記オーディオ信号の部分の音量を大きくするとき、1以上の非音声セグメントで表現される前記オーディオ信号の部分の音量も大きくすることを特徴とするステップを具備することを特徴とする、請求項13に記載の媒体。The method includes the step of controlling a volume of a section of the audio signal in response to the control information to reduce a change in volume of the audio segment, the portion of the audio signal represented by the audio segment 14. The medium according to claim 13, further comprising the step of increasing the volume of the portion of the audio signal represented by one or more non-voice segments when the volume is increased . 前記信号処理方法は、前記オーディオ情報の表示と前記制御情報とを出力信号に組み立て、該出力信号を送信するステップを具備することを特徴とする、請求項13に記載の媒体。The signal processing method of the audio information, the display and, assembling an output signal and the control information, characterized by comprising the step of transmitting said output signals, medium of claim 13. 前記信号処理方法は、音声セグメントで表現されるオーディオ信号を周波数で重み付けしたものの平均指数を計算することにより音声セグメントの音量の測定値を得るステップを具備することを特徴とする、請求項13又は請求項14に記載の媒体。The method according to claim 13, wherein the signal processing method includes a step of obtaining a measurement value of a volume of a voice segment by calculating an average index of an audio signal expressed by the voice segment weighted by frequency. The medium of claim 14. 前記信号処理方法は、オーディオ情報に音響心理学的モデルに基づく音量を適用することにより、音声セグメントの音量の測定値を得るステップを具備することを特徴とする、請求項13又は請求項14に記載の媒体。15. The method according to claim 13, wherein the signal processing method includes a step of obtaining a measurement value of a volume of a voice segment by applying a volume based on a psychoacoustic model to audio information. The medium described. 前記信号処理方法は、前記オーディオ情報から前記オーディオ信号の複数の特性を導き出し、各々の重要さの程度により重み付けを行い、該重み付けされた特性の組み合わせに従って前記セグメントの分類を行うことによりセグメントを分類するステップを具備することを特徴とする、請求項13又は請求項14に記載の媒体。The signal processing method classifies a segment by deriving a plurality of characteristics of the audio signal from the audio information, performing weighting according to the degree of importance of each, and classifying the segment according to a combination of the weighted characteristics. characterized by comprising the step of, medium according to claim 13 or claim 14. 前記信号処理方法は、オーディオエネルギーの程度が閾値より小さい前記オーディオ信号の音量を調整することで前記オーディオ信号の音量を制御するステップを具備することを特徴とする、請求項13又は請求項14に記載の媒体。The signal processing method is characterized by comprising the audio signal by the extent of the audio energy to adjust the volume of the threshold smaller than the audio signal, the step of controlling the volume, claim 13 or claim 14 The medium described in 1. 前記信号処理方法において、前記オーディオ信号の音量の表示は、音声セグメントの音量の測定値のみに対応していることを特徴とする、請求項13又は請求項14に記載の媒体。In the signal processing method, wherein the audio signal, the display of the volume, characterized in that it corresponds only to the measurement of the volume of the sound segments, medium of claim 13 or claim 14. 前記信号処理方法は、1以上の非音声セグメントの音量を測定するステップであって、前記オーディオ信号の音量の表示は、1以上の前記非音声セグメントの音量の計測値より前記音声セグメントの音量の測定値に敏感に対応していることを特徴とするステップを具備することを特徴とする、請求項13又は請求項14に記載の媒体。The signal processing method is a step of measuring the volume of one or more non-voice segments, and the display of the volume of the audio signal is based on a measured value of the volume of the one or more non-voice segments. 15. A medium according to claim 13 or 14, characterized in that it comprises a step characterized in that it corresponds sensitively to the measured value. 前記信号処理方法は、
各々のセグメントで表現されるオーディオ信号が音声としての特性を有する程度を表示する音声指標を作成するステップと、
各々のセグメントの前記音声指標に応じた各々のセグメントの音量の測定値に対応するような音量の表示を作成するステップと、
を具備することを特徴とする、請求項13又は請求項14に記載の媒体。
The signal processing method includes:
And creating an audio index audio signal represented by each segment displaying a degree having properties as speech,
Creating a volume display corresponding to each segment volume measurement in response to the audio indicator of each segment;
The medium according to claim 13 or 14, characterized by comprising:
前記信号処理方法は、セグメントの時間順序に応じた各セグメントの音量の測定値に対応するような音量の表示を作成するステップを具備することを特徴とする、請求項13又は請求項14に記載の媒体。The signal processing method is characterized by comprising the step of creating the display volume to correspond to the measured value of the volume of each segment in accordance with the temporal order of segments, according to claim 13 or claim 14 Medium. 前記信号処理方法は、オーディオ情報の特性に対応してオーディオ情報のセグメントの長さを適合させるステップを具備することを特徴とする、請求項13又は請求項14に記載の媒体。The signal processing method is characterized by comprising the step of adapting the length of the segment of the audio information corresponding to characteristics of the audio information, medium of claim 13 or claim 14. 信号処理のための装置であって、
入力信号を受け取り、該入力信号からオーディオ情報を獲得する手段であって、該オーディオ情報はオーディオ信号を意味することを特徴とする手段と、
前記オーディオ情報のセグメントが、音声に分類されるオーディオ信号の部分を示す音声セグメントであるのか、又は、音声には分類されないオーディオ信号の部分を示す非音声セグメントであるのかを分類するためにオーディオ情報を調査する手段であって、セグメントで表されるオーディオ信号の各部分はそれぞれ音量を有することを特徴とする手段と、
前記音声セグメントの、音量の測定値を得るために前記オーディオ情報を調査する手段と、
前記非音声セグメントで表現される前記オーディオ信号部分の音量よりも前記音声セグメントの音量の測定値に敏感に対応する制御情報を生成する手段と、
を具備することを特徴とする、装置。
An apparatus for signal processing,
Means for receiving an input signal and obtaining audio information from the input signal, wherein the audio information means an audio signal;
Audio information to classify whether the segment of audio information is a speech segment indicating a portion of an audio signal classified as speech or a non-speech segment indicating a portion of an audio signal not classified as speech. Means for examining each of the portions of the audio signal represented by the segments, each having a volume;
Means for examining the audio information to obtain a measure of volume of the audio segment;
Means for generating control information that corresponds more sensitively to a measurement of the volume of the audio segment than the volume of the audio signal portion represented by the non-audio segment ;
The apparatus characterized by comprising.
前記処理回路は、前記音声セグメントの音量の変化を減少させるために前記制御情報に応答して前記オーディオ信号の区間の音量を制御するステップであって、前記音声セグメントで表現される前記オーディオ信号の部分の音量を大きくするとき、1以上の非音声セグメントで表現される前記オーディオ信号の部分の音量も大きくすることを特徴とするステップを具備する処理を行うのに適合していることを特徴とする請求項25に記載の装置。The processing circuit is a step of controlling a volume of a section of the audio signal in response to the control information in order to reduce a change in volume of the audio segment, the processing circuit of the audio signal represented by the audio segment When the volume of the part is increased, the volume of the part of the audio signal represented by one or more non-speech segments is also increased. apparatus according to claim 25. 前記オーディオ情報の表示と前記制御情報とを出力信号に組み立て、該出力信号を送信する手段を具備することを特徴とする、請求項25に記載の装置。Wherein the audio information, the display and, assembling an output signal and the control information, characterized by comprising means for transmitting said output signal The apparatus of claim 25. 音声セグメントで表現されるオーディオ信号を周波数で重み付けしたものの平均指数を計算することにより音声セグメントの音量の測定値を得る手段を具備することを特徴とする、請求項25又は請求項26に記載の装置。 Characterized by comprising a means for obtaining a measure of the volume of the audio segment by calculating the average index of those weighted by frequency audio signal represented by the speech segments, according to claim 25 or claim 26 apparatus. オーディオ情報に音響心理学的モデルに基づく音量を適用することにより、音声セグメントの音量の測定値を得る手段を具備することを特徴とする、請求項25又は請求項26に記載の装置。27. Apparatus according to claim 25 or claim 26, comprising means for obtaining a measure of the volume of a speech segment by applying a volume based on a psychoacoustic model to the audio information. 前記オーディオ情報から前記オーディオ信号の複数の特性を導き出し、各々の重要さの程度により重み付けを行い、該重み付けされた特性の組み合わせに従って前記セグメントの分類を行うことによりセグメントを分類する手段を具備することを特徴とする、請求項25又は請求項26に記載の装置。Derive a plurality of characteristics of the audio signal from the audio information, it performs weighting according to the degree of each of importance, that it comprises means for classifying the segment by performing a classification of the segments according to a combination of the weighted characteristics 27. Apparatus according to claim 25 or claim 26, characterized in that オーディオエネルギーの程度が閾値より小さい前記オーディオ信号の音量を調整することで前記オーディオ信号の音量を制御する手段を具備することを特徴とする、請求項25又は請求項26に記載の装置。27. Apparatus according to claim 25 or claim 26, comprising means for controlling the volume of the audio signal by adjusting the volume of the audio signal whose audio energy is less than a threshold. 前記オーディオ信号の音量の表示が前記音声セグメントの音量の測定値のみに対応することを特徴とする、請求項25又は請求項26に記載の装置。The audio signal, wherein the display of the volume corresponding to only the measured value of the volume of the voice segment, according to claim 25 or claim 26. 1以上の非音声セグメントの音量を測定する手段であって、前記オーディオ信号の、音量の表示は、1以上の前記非音声セグメントの音量の計測値より前記音声セグメントの音量の測定値に敏感に対応していることを特徴とする手段を具備することを特徴とする、請求項25又は請求項26に記載の装置。A means for measuring the volume of one or more non-speech segments, wherein the display of the volume of the audio signal is more sensitive to the measured value of the volume of the voice segment than the measured value of the volume of the one or more non-speech segments. 27. Device according to claim 25 or claim 26, characterized in that it comprises means characterized by corresponding features . 各々のセグメントで表現されるオーディオ信号が音声としての特性を有する程度を表示する音声指標を作成する手段と、
各々のセグメントの前記音声指標に応じた各々のセグメントの音量の測定値に対応するような音量の表示を作成する手段と、
を具備することを特徴とする、請求項25又は請求項26に記載の装置。
Means for creating a speech indicator that displays the degree to which the audio signal represented by each segment has a characteristic as speech;
Means for creating a volume display corresponding to a measurement of the volume of each segment according to the audio index of each segment;
Characterized by comprising the apparatus of claim 25 or claim 26.
セグメントの時間順序に応じた各セグメントの音量の測定値に対応するような音量の表示を作成するステップを具備することを特徴とする、請求項25又は請求項26に記載の装置。 Characterized by comprising the step of creating the display volume to correspond to the measured value of the volume of each segment in accordance with the temporal order of the segments, according to claim 25 or claim 26. オーディオ情報の特性に対応してオーディオ情報のセグメントの長さを適合させるステップを具備することを特徴とする、請求項25又は請求項26に記載の装置。27. Apparatus according to claim 25 or claim 26, comprising the step of adapting the length of the segment of audio information corresponding to the characteristics of the audio information.
JP2004532903A 2002-08-30 2003-08-15 Control of loudness in signals with speech and other audio material Expired - Lifetime JP4585855B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/233,073 US7454331B2 (en) 2002-08-30 2002-08-30 Controlling loudness of speech in signals that contain speech and other types of audio material
PCT/US2003/025627 WO2004021332A1 (en) 2002-08-30 2003-08-15 Controlling loudness of speech in signals that contain speech and other types of audio material

Publications (3)

Publication Number Publication Date
JP2005537510A JP2005537510A (en) 2005-12-08
JP2005537510A5 JP2005537510A5 (en) 2006-09-28
JP4585855B2 true JP4585855B2 (en) 2010-11-24

Family

ID=31977143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004532903A Expired - Lifetime JP4585855B2 (en) 2002-08-30 2003-08-15 Control of loudness in signals with speech and other audio material

Country Status (15)

Country Link
US (2) US7454331B2 (en)
EP (1) EP1532621B1 (en)
JP (1) JP4585855B2 (en)
KR (1) KR101019681B1 (en)
CN (1) CN100371986C (en)
AT (1) ATE328341T1 (en)
AU (1) AU2003263845B2 (en)
CA (1) CA2491570C (en)
DE (1) DE60305712T8 (en)
HK (1) HK1073917A1 (en)
IL (1) IL165938A (en)
MX (1) MXPA05002290A (en)
MY (1) MY133623A (en)
TW (1) TWI306238B (en)
WO (1) WO2004021332A1 (en)

Families Citing this family (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US20040045022A1 (en) * 2002-09-03 2004-03-04 Steven Riedl Digital message insertion technique for analog video services
WO2004111994A2 (en) * 2003-05-28 2004-12-23 Dolby Laboratories Licensing Corporation Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
US8086448B1 (en) * 2003-06-24 2011-12-27 Creative Technology Ltd Dynamic modification of a high-order perceptual attribute of an audio signal
US7353169B1 (en) * 2003-06-24 2008-04-01 Creative Technology Ltd. Transient detection and modification in audio signals
US7398207B2 (en) 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
DE60320414T2 (en) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Apparatus and method for the automatic extraction of important events in audio signals
US7970144B1 (en) 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
JP4867914B2 (en) 2004-03-01 2012-02-01 ドルビー ラボラトリーズ ライセンシング コーポレイション Multi-channel audio coding
US7376890B2 (en) * 2004-05-27 2008-05-20 International Business Machines Corporation Method and system for checking rotate, shift and sign extension functions using a modulo function
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
WO2006047600A1 (en) 2004-10-26 2006-05-04 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US7962327B2 (en) * 2004-12-17 2011-06-14 Industrial Technology Research Institute Pronunciation assessment method and system based on distinctive feature analysis
CN102276769B (en) * 2005-04-18 2013-12-04 巴斯夫欧洲公司 Copolymer embodied in the form of polymers consisting of at least three types of different monoethylenically unsaturated monomers
WO2006132857A2 (en) * 2005-06-03 2006-12-14 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
TWI396188B (en) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp Controlling spatial audio coding parameters as a function of auditory events
WO2007045797A1 (en) * 2005-10-20 2007-04-26 France Telecom Method, program and device for describing a music file, method and program for comparing two music files with one another, and server and terminal for carrying out these methods
US8068627B2 (en) 2006-03-14 2011-11-29 Starkey Laboratories, Inc. System for automatic reception enhancement of hearing assistance devices
US8494193B2 (en) * 2006-03-14 2013-07-23 Starkey Laboratories, Inc. Environment detection and adaptation in hearing assistance devices
US7986790B2 (en) * 2006-03-14 2011-07-26 Starkey Laboratories, Inc. System for evaluating hearing assistance device settings using detected sound environment
TWI517562B (en) * 2006-04-04 2016-01-11 杜比實驗室特許公司 Method, apparatus, and computer program for scaling the overall perceived loudness of a multichannel audio signal by a desired amount
JP5185254B2 (en) * 2006-04-04 2013-04-17 ドルビー ラボラトリーズ ライセンシング コーポレイション Audio signal volume measurement and improvement in MDCT region
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
NO345590B1 (en) 2006-04-27 2021-05-03 Dolby Laboratories Licensing Corp Audio amplification control using specific volume-based hearing event detection
CN101529721B (en) 2006-10-20 2012-05-23 杜比实验室特许公司 Audio dynamics processing using a reset
US8521314B2 (en) * 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
US20100046765A1 (en) 2006-12-21 2010-02-25 Koninklijke Philips Electronics N.V. System for processing audio data
EP2122828B1 (en) * 2007-01-03 2018-08-22 Dolby Laboratories Licensing Corporation Hybrid digital/analog loudness-compensating volume control
CN101647059B (en) * 2007-02-26 2012-09-05 杜比实验室特许公司 Speech enhancement in entertainment audio
US8204359B2 (en) * 2007-03-20 2012-06-19 At&T Intellectual Property I, L.P. Systems and methods of providing modified media content
US8213624B2 (en) * 2007-06-19 2012-07-03 Dolby Laboratories Licensing Corporation Loudness measurement with spectral modifications
US8054948B1 (en) * 2007-06-28 2011-11-08 Sprint Communications Company L.P. Audio experience for a communications device user
JP2009020291A (en) * 2007-07-11 2009-01-29 Yamaha Corp Speech processor and communication terminal apparatus
CN101790758B (en) * 2007-07-13 2013-01-09 杜比实验室特许公司 Audio processing using auditory scene analysis and spectral skewness
CA2705549C (en) 2007-11-12 2015-12-01 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
PL2232700T3 (en) * 2007-12-21 2015-01-30 Dts Llc System for adjusting perceived loudness of audio signals
US8457951B2 (en) 2008-01-29 2013-06-04 The Nielsen Company (Us), Llc Methods and apparatus for performing variable black length watermarking of media
US20090226152A1 (en) * 2008-03-10 2009-09-10 Hanes Brett E Method for media playback optimization
ATE546812T1 (en) * 2008-03-24 2012-03-15 Victor Company Of Japan DEVICE FOR AUDIO SIGNAL PROCESSING AND METHOD FOR AUDIO SIGNAL PROCESSING
WO2009152124A1 (en) * 2008-06-10 2009-12-17 Dolby Laboratories Licensing Corporation Concealing audio artifacts
CN102160115A (en) 2008-09-19 2011-08-17 杜比实验室特许公司 Upstream quality enhancement signal processing for resource constrained client devices
ATE552690T1 (en) * 2008-09-19 2012-04-15 Dolby Lab Licensing Corp UPSTREAM SIGNAL PROCESSING FOR CLIENT DEVICES IN A WIRELESS SMALL CELL NETWORK
US7755526B2 (en) * 2008-10-31 2010-07-13 At&T Intellectual Property I, L.P. System and method to modify a metadata parameter
JP4826625B2 (en) * 2008-12-04 2011-11-30 ソニー株式会社 Volume correction device, volume correction method, volume correction program, and electronic device
CN104378075B (en) 2008-12-24 2017-05-31 杜比实验室特许公司 Audio signal loudness in frequency domain determines and changes
CN101483416B (en) * 2009-01-20 2011-09-14 杭州火莲科技有限公司 Response balance processing method for voice
US8428758B2 (en) * 2009-02-16 2013-04-23 Apple Inc. Dynamic audio ducking
EP2237269B1 (en) * 2009-04-01 2013-02-20 Motorola Mobility LLC Apparatus and method for processing an encoded audio data signal
KR101616054B1 (en) * 2009-04-17 2016-04-28 삼성전자주식회사 Apparatus for detecting voice and method thereof
WO2010126709A1 (en) * 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Low complexity auditory event boundary detection
WO2010127024A1 (en) * 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Controlling the loudness of an audio signal in response to spectral localization
TWI503816B (en) * 2009-05-06 2015-10-11 Dolby Lab Licensing Corp Adjusting the loudness of an audio signal with perceived spectral balance preservation
US8302047B2 (en) 2009-05-06 2012-10-30 Texas Instruments Incorporated Statistical static timing analysis in non-linear regions
US8996538B1 (en) 2009-05-06 2015-03-31 Gracenote, Inc. Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
US9215538B2 (en) * 2009-08-04 2015-12-15 Nokia Technologies Oy Method and apparatus for audio signal classification
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
GB0919672D0 (en) * 2009-11-10 2009-12-23 Skype Ltd Noise suppression
TWI447709B (en) 2010-02-11 2014-08-01 Dolby Lab Licensing Corp System and method for non-destructively normalizing loudness of audio signals within portable devices
TWI525987B (en) 2010-03-10 2016-03-11 杜比實驗室特許公司 System for combining loudness measurements in a single playback mode
WO2011141772A1 (en) * 2010-05-12 2011-11-17 Nokia Corporation Method and apparatus for processing an audio signal based on an estimated loudness
US8731216B1 (en) * 2010-10-15 2014-05-20 AARIS Enterprises, Inc. Audio normalization for digital video broadcasts
KR101726738B1 (en) * 2010-12-01 2017-04-13 삼성전자주식회사 Sound processing apparatus and sound processing method
TWI800092B (en) * 2010-12-03 2023-04-21 美商杜比實驗室特許公司 Audio decoding device, audio decoding method, and audio encoding method
US9620131B2 (en) 2011-04-08 2017-04-11 Evertz Microsystems Ltd. Systems and methods for adjusting audio levels in a plurality of audio signals
EP2702589B1 (en) * 2011-04-28 2017-04-05 Dolby International AB Efficient content classification and loudness estimation
JP2013041197A (en) * 2011-08-19 2013-02-28 Funai Electric Co Ltd Digital broadcast receiver
WO2013078056A1 (en) 2011-11-22 2013-05-30 Dolby Laboratories Licensing Corporation Method and system for generating an audio metadata quality score
US8923437B2 (en) * 2011-12-29 2014-12-30 Raytheon Bbn Technologies Corp. Non-contiguous spectral-band modulator and method for non-contiguous spectral-band modulation
JP5827442B2 (en) 2012-04-12 2015-12-02 ドルビー ラボラトリーズ ライセンシング コーポレイション System and method for leveling loudness changes in an audio signal
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9053710B1 (en) * 2012-09-10 2015-06-09 Amazon Technologies, Inc. Audio content presentation using a presentation profile in a content header
CN102946520B (en) * 2012-10-30 2016-12-21 深圳创维数字技术有限公司 A kind of method automatically controlling frequency channel volume and digital TV terminal
CN103841241B (en) * 2012-11-21 2017-02-08 联想(北京)有限公司 Volume adjusting method and apparatus
US8958586B2 (en) 2012-12-21 2015-02-17 Starkey Laboratories, Inc. Sound environment classification by coordinated sensing using hearing assistance devices
US9171552B1 (en) * 2013-01-17 2015-10-27 Amazon Technologies, Inc. Multiple range dynamic level control
BR112015017064B1 (en) 2013-01-21 2022-03-22 Dolby Laboratories Licensing Corporation Method, computer and device readable medium for optimizing sound intensity level and dynamic range across different playback devices
CN107257234B (en) * 2013-01-21 2020-09-15 杜比实验室特许公司 Decoding an encoded audio bitstream having a metadata container in a reserved data space
EP2901449B1 (en) * 2013-01-21 2018-01-03 Dolby Laboratories Licensing Corporation Audio encoder and decoder with program loudness and boundary metadata
JP6179122B2 (en) * 2013-02-20 2017-08-16 富士通株式会社 Audio encoding apparatus, audio encoding method, and audio encoding program
US20140278911A1 (en) * 2013-03-15 2014-09-18 Telemetry Limited Method and apparatus for determining digital media audibility
WO2014148845A1 (en) * 2013-03-21 2014-09-25 인텔렉추얼디스커버리 주식회사 Audio signal size control method and device
CN104080024B (en) 2013-03-26 2019-02-19 杜比实验室特许公司 Volume leveller controller and control method and audio classifiers
CN104078050A (en) 2013-03-26 2014-10-01 杜比实验室特许公司 Device and method for audio classification and audio processing
TWI502582B (en) * 2013-04-03 2015-10-01 Chung Han Interlingua Knowledge Co Ltd Customer service interactive voice system
TWM487509U (en) * 2013-06-19 2014-10-01 杜比實驗室特許公司 Audio processing apparatus and electrical device
US9344825B2 (en) 2014-01-29 2016-05-17 Tls Corp. At least one of intelligibility or loudness of an audio program
US9578436B2 (en) 2014-02-20 2017-02-21 Bose Corporation Content-aware audio modes
US9473094B2 (en) * 2014-05-23 2016-10-18 General Motors Llc Automatically controlling the loudness of voice prompts
US9842608B2 (en) 2014-10-03 2017-12-12 Google Inc. Automatic selective gain control of audio data for speech recognition
EP4060661B1 (en) * 2014-10-10 2024-04-24 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
JP6395558B2 (en) * 2014-10-21 2018-09-26 オリンパス株式会社 First recording apparatus, second recording apparatus, recording system, first recording method, second recording method, first recording program, and second recording program
US20160283566A1 (en) * 2015-03-27 2016-09-29 Ca, Inc. Analyzing sorted mobile application operational state sequences based on sequence metrics
CN108432130B (en) 2015-10-28 2022-04-01 Dts(英属维尔京群岛)有限公司 Object-based audio signal balancing
RU2768224C1 (en) * 2018-12-13 2022-03-23 Долби Лабораторис Лайсэнзин Корпорейшн Two-way media analytics
CN110231087B (en) * 2019-06-06 2021-07-23 江苏省广播电视集团有限公司 High-definition television audio loudness analysis alarm and normalization manufacturing method and device
US11138477B2 (en) * 2019-08-15 2021-10-05 Collibra Nv Classification of data using aggregated information from multiple classification modules

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4281218A (en) * 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
DE3314570A1 (en) * 1983-04-22 1984-10-25 Philips Patentverwaltung Gmbh, 2000 Hamburg METHOD AND ARRANGEMENT FOR ADJUSTING THE REINFORCEMENT
US5097510A (en) * 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
DE69214882T2 (en) 1991-06-06 1997-03-20 Matsushita Electric Ind Co Ltd Device for distinguishing between music and speech
JP2737491B2 (en) * 1991-12-04 1998-04-08 松下電器産業株式会社 Music audio processor
JP2961952B2 (en) * 1991-06-06 1999-10-12 松下電器産業株式会社 Music voice discrimination device
US5548638A (en) * 1992-12-21 1996-08-20 Iwatsu Electric Co., Ltd. Audio teleconferencing apparatus
US5457769A (en) * 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
BE1007355A3 (en) * 1993-07-26 1995-05-23 Philips Electronics Nv Voice signal circuit discrimination and an audio device with such circuit.
IN184794B (en) * 1993-09-14 2000-09-30 British Telecomm
JP2986345B2 (en) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション Voice recording indexing apparatus and method
GB9419388D0 (en) * 1994-09-26 1994-11-09 Canon Kk Speech analysis
CA2167748A1 (en) * 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
DE19509149A1 (en) 1995-03-14 1996-09-19 Donald Dipl Ing Schulz Audio signal coding for data compression factor
JPH08328599A (en) 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpeg audio decoder
US5712954A (en) * 1995-08-23 1998-01-27 Rockwell International Corp. System and method for monitoring audio power level of agent speech in a telephonic switch
DE59713033D1 (en) * 1996-07-19 2010-06-02 Bernafon Ag Loudness-controlled processing of acoustic signals
JP2953397B2 (en) * 1996-09-13 1999-09-27 日本電気株式会社 Hearing compensation processing method for digital hearing aid and digital hearing aid
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US6125343A (en) * 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
US6272360B1 (en) * 1997-07-03 2001-08-07 Pan Communications, Inc. Remotely installed transmitter and a hands-free two-way voice terminal device using same
US6233554B1 (en) * 1997-12-12 2001-05-15 Qualcomm Incorporated Audio CODEC with AGC controlled by a VOCODER
US6298139B1 (en) * 1997-12-31 2001-10-02 Transcrypt International, Inc. Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control
US6182033B1 (en) * 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US6353671B1 (en) * 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6411927B1 (en) * 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
DE19848491A1 (en) 1998-10-21 2000-04-27 Bosch Gmbh Robert Radio receiver with audio data system has control unit to allocate sound characteristic according to transferred program type identification adjusted in receiving section
US6314396B1 (en) * 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
SE9903553D0 (en) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing conceptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
EP1089242B1 (en) * 1999-04-09 2006-11-08 Texas Instruments Incorporated Supply of digital audio and video products
US6985594B1 (en) * 1999-06-15 2006-01-10 Hearing Enhancement Co., Llc. Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment
JP3473517B2 (en) * 1999-09-24 2003-12-08 ヤマハ株式会社 Directional loudspeaker
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US6889186B1 (en) * 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
US6625433B1 (en) * 2000-09-29 2003-09-23 Agere Systems Inc. Constant compression automatic gain control circuit
US6807525B1 (en) * 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
DE10058786A1 (en) * 2000-11-27 2002-06-13 Philips Corp Intellectual Pty Method for controlling a device having an acoustic output device
US7068723B2 (en) * 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US7155385B2 (en) * 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions

Also Published As

Publication number Publication date
TW200404272A (en) 2004-03-16
KR101019681B1 (en) 2011-03-07
CA2491570A1 (en) 2004-03-11
WO2004021332A1 (en) 2004-03-11
DE60305712D1 (en) 2006-07-06
EP1532621A1 (en) 2005-05-25
USRE43985E1 (en) 2013-02-05
CN100371986C (en) 2008-02-27
MY133623A (en) 2007-11-30
US7454331B2 (en) 2008-11-18
TWI306238B (en) 2009-02-11
AU2003263845B2 (en) 2008-08-28
ATE328341T1 (en) 2006-06-15
US20040044525A1 (en) 2004-03-04
CN1679082A (en) 2005-10-05
DE60305712T2 (en) 2007-03-08
JP2005537510A (en) 2005-12-08
KR20050057045A (en) 2005-06-16
AU2003263845A1 (en) 2004-03-19
IL165938A (en) 2010-04-15
DE60305712T8 (en) 2007-07-12
IL165938A0 (en) 2006-01-15
EP1532621B1 (en) 2006-05-31
CA2491570C (en) 2011-10-18
MXPA05002290A (en) 2005-06-08
HK1073917A1 (en) 2005-10-21

Similar Documents

Publication Publication Date Title
JP4585855B2 (en) Control of loudness in signals with speech and other audio material
KR101726208B1 (en) Volume leveler controller and controlling method
CN109616142B (en) Apparatus and method for audio classification and processing
EP2979359B1 (en) Equalizer controller and controlling method
KR102072026B1 (en) Loudness control with noise detection and loudness drop detection
US20180033453A1 (en) Voice Activity Detector for Audio Signals
JPH0748695B2 (en) Speech coding system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060810

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100406

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100706

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100831

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100906

R150 Certificate of patent or registration of utility model

Ref document number: 4585855

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130910

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term