JP4971010B2 - Sound crack detection device and sound crack detection method - Google Patents

Sound crack detection device and sound crack detection method Download PDF

Info

Publication number
JP4971010B2
JP4971010B2 JP2007095874A JP2007095874A JP4971010B2 JP 4971010 B2 JP4971010 B2 JP 4971010B2 JP 2007095874 A JP2007095874 A JP 2007095874A JP 2007095874 A JP2007095874 A JP 2007095874A JP 4971010 B2 JP4971010 B2 JP 4971010B2
Authority
JP
Japan
Prior art keywords
music signal
certain value
volume
amplitude spectrum
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007095874A
Other languages
Japanese (ja)
Other versions
JP2008256758A (en
Inventor
茂樹 嵯峨山
順貴 小野
遼 山本
知之 大坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
MTI Ltd
Original Assignee
University of Tokyo NUC
MTI Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC, MTI Ltd filed Critical University of Tokyo NUC
Priority to JP2007095874A priority Critical patent/JP4971010B2/en
Publication of JP2008256758A publication Critical patent/JP2008256758A/en
Application granted granted Critical
Publication of JP4971010B2 publication Critical patent/JP4971010B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は楽曲信号を符号化し、復号化した楽曲信号に対するの音割れ検出装置、及び音割れ検出方法に関する。   The present invention relates to a sound crack detection apparatus and a sound crack detection method for music signals encoded and decoded.

楽曲信号を符号化(エンコード)すると、入力信号に対応した符号が出力される。また、この符号を復号化器(デコーダ)に入力すると対応する楽曲信号波形を出力する。この楽曲信号波形をスピーカに入力することにより、対応する音波がスピーカより出力される。   When the music signal is encoded (encoded), a code corresponding to the input signal is output. When this code is input to a decoder, a corresponding music signal waveform is output. By inputting the music signal waveform to the speaker, a corresponding sound wave is output from the speaker.

上記過程において、楽曲信号を符号化する符号化器への入力の大きさには限度がある。すなわち、一定以上の大きさの信号が入力すると正確に符号化できない。これはどのような符号化器にも共通の制限であり、ダイナミックレンジを超えた大きさの信号が入力すると、出力される符号は正確な値とならず、歪んだ信号となる。   In the above process, there is a limit to the size of the input to the encoder that encodes the music signal. That is, if a signal having a certain level or larger is input, it cannot be encoded accurately. This is a limitation common to any encoder, and when a signal having a magnitude exceeding the dynamic range is input, the output code does not become an accurate value but becomes a distorted signal.

また、信号が正確に符号化された場合でも、その信号が大きい場合、復号化してスピーカで再生する際、正確な再生音を出力することができない。それはスピーカにもダイナミックレンジがあり、この範囲を超えた大きな信号が入力すると、再生される音が歪み、人間の耳には「割れた」様な不快音となって聞こえる。   Even if the signal is encoded correctly, if the signal is large, when it is decoded and reproduced by a speaker, an accurate reproduced sound cannot be output. The speaker also has a dynamic range, and when a large signal exceeding this range is input, the reproduced sound is distorted, and it is heard as a “cracked” unpleasant sound by the human ear.

尚、スピーカからの再生音が不快な感覚を与える要素は上記以外にもあり、例えばいくつかの楽器の特定の位相が重なった場合や、急激な音量変化等のいくつかの要素があり、総称して「音割れ現象」と呼ばれている。   There are other elements that give an uncomfortable feeling to the reproduced sound from the speakers. For example, there are some elements such as a specific phase of several musical instruments overlapping, sudden volume changes, etc. It is called the “sound cracking phenomenon”.

ここで、特許文献1は配信元あるいは音楽の種類に関係なく、音楽データの再生時の音割れの発生を無くし、適切な音量に調整された音楽を自動再生する携帯端末装置の発明を開示する。
特開2007−6370号公報
Here, Patent Document 1 discloses an invention of a mobile terminal device that automatically reproduces music adjusted to an appropriate volume without occurrence of sound cracking during reproduction of music data, regardless of the distribution source or the type of music. .
JP 2007-6370 A

符号にも多数の種類があり、例えば楽曲信号をMIDI(MusicalInstrument Digital Interface)符号に変換する場合、人間が手作業で行う必要があり、信号を完全に自動的にMIDI符号化する装置はまだ実現されていない。   There are many types of codes. For example, when a music signal is converted to a MIDI (Musical Instrument Digital Interface) code, it must be performed manually by humans, and a device that fully automatically encodes MIDI signals is still available. It has not been.

また、人間が手作業で符号化するとスピーカのダイナミックレンジを越える符号にしてしまう可能性がある。また、MIDI符号においては複数の楽器の音量と音程を別々に符号化し、同時に再生することにより合奏した信号を再生することができる。このような場合、前述のように、いくつかの楽器の特定の位相が重なってしまい、再生したときに音割れの印象を与える符号を生成する場合もある。
具体的には、「音割れ現象」が発生する直前の音量となるよう符号化するのが最も良い符号化である。
In addition, if a person manually codes, the code may exceed the dynamic range of the speaker. Further, in MIDI code, the volume and pitch of a plurality of musical instruments can be encoded separately and reproduced at the same time to reproduce an ensemble signal. In such a case, as described above, specific phases of some musical instruments overlap, and a code that gives an impression of sound cracking when reproduced may be generated.
Specifically, the best encoding is to achieve a volume immediately before the “sound cracking phenomenon” occurs.

しかしながら、上記MIDI符号はそれを見ただけでは「音割れ」しているかどうか検出できない。このため、従来符号を再生して音割れしているか否かを人間が聞いて判断する必要があった。しかし、この作業は熟練した人間が耳で聞いて判断しなければならず、人件費が掛かり、MIDI符号化のコストが高くなるという問題があった。   However, it is impossible to detect whether or not the MIDI code is “sound cracking” by just looking at it. For this reason, it has been necessary for a human to hear and judge whether or not the sound is broken by reproducing the conventional code. However, this work has to be judged by listening to an experienced person, and there is a problem that labor costs are increased and the cost of MIDI encoding becomes high.

また、特許文献1の発明は、入力レベルが所定値以下の間、予め設定されているデータ再生特性に従った出力を行い、入力レベルが所定値よりも大きい値となったとき、音楽データ再生特性を変更し、適切な音量に調整する発明である。   Further, the invention of Patent Document 1 performs output in accordance with preset data reproduction characteristics while the input level is equal to or lower than a predetermined value, and reproduces music data when the input level becomes larger than the predetermined value. It is an invention that changes the characteristic and adjusts to an appropriate volume.

そこで、本発明は音割れの検出を自動的に行い、音割れする直前の音量で符号化処理を行い、熟練者を必要とせず、再生音に不快な要素を含ませない音割れ検出装置、及び音割れ検出方法を提供するものである。   Therefore, the present invention automatically detects sound cracking, performs coding processing at the volume immediately before sound cracking, does not require a skilled person, and does not include unpleasant elements in the reproduced sound, And a sound crack detection method.

上記課題は第1の発明によれば、符号化前の音量のみが異なる同一の楽曲信号を符号化し、復号化した楽曲信号に対して、一定時間ごとの振幅ペクトルを計算する振幅スペクトル計算手段と、音量が隣接する楽曲信号の振幅スペクトルであり、かつ同一時刻の振幅スペクトル同士の2乗距離を計算する2乗距離計算手段と、該計算結果が一定値を越えるか判断し、該一定値を越える期間が一定数以上ある場合、又は前記一定値を越えている間における、前記計算結果と前記一定値との差の総和が所定値を超える場合、楽曲信号に音割れがあると判定する判定手段と、該判定結果に基づいて、音割れ直前の音量の楽曲信号を音割れのない楽曲信号であると推定する推定手段とを有する音割れ検出装置を提供することによって達成できる。 According to the first aspect of the present invention, there is provided an amplitude spectrum calculating means for encoding the same music signal that differs only in the volume before encoding, and calculating an amplitude spectrum for each fixed time with respect to the decoded music signal. A square distance calculation means for calculating a square distance between amplitude spectra of adjacent music signals whose volume is the same time, and whether the calculation result exceeds a certain value; Judgment to determine that there is a sound crack in the music signal when there is a certain number of periods exceeding or when the sum of the difference between the calculation result and the certain value exceeds the certain value while exceeding the certain value This can be achieved by providing a sound crack detection device having means and an estimation means for estimating that the music signal at the volume immediately before the sound break is a music signal without sound break based on the determination result.

また、前記振幅スペクトル計算手段は、窓関数掛算回路と、フーリエ変換回路と、振幅計算回路で構成されている。
さらに、上記課題は第2の発明によれば、符号化前の音量のみが異なる同一の楽曲信号を符号化し、復号化した楽曲信号に対して、一定時間ごとの振幅ペクトルを計算する振幅スペクトル計算処理と、音量が隣接する楽曲信号の振幅スペクトルであり、かつ同一時刻の振幅スペクトル同士の2乗距離を計算する2乗距離計算処理と、該計算結果が一定値を越えるか判断し、該一定値を越える期間が一定数以上ある場合、又は前記一定値を越えている間における、前記計算結果と前記一定値との差の総和が所定値を超える場合、楽曲信号に音割れがあると判定する判定処理と、該判定結果に基づいて、音割れ直前の音量の楽曲信号を音割れのない楽曲信号であると推定する推定処理とを行う音割れ検出方法を提供することによって達成できる。
The amplitude spectrum calculation means includes a window function multiplication circuit, a Fourier transform circuit, and an amplitude calculation circuit.
Further, according to the second invention, the above-mentioned problem is the amplitude spectrum calculation for encoding the same music signal that is different only in the volume before encoding and calculating the amplitude spectrum for every predetermined time for the decoded music signal. Processing, a square distance calculation process for calculating the square distance between the amplitude spectra of adjacent music signals whose volume is the same, and the amplitude spectrum at the same time, and determining whether the calculation result exceeds a certain value. When there is a certain number of periods exceeding the value, or when the sum of the difference between the calculation result and the certain value exceeds the certain value while exceeding the certain value, it is determined that there is a sound crack in the music signal This can be achieved by providing a sound crack detection method that performs a determination process to perform and an estimation process for estimating a music signal having a volume immediately before sound splitting as a music signal without sound cracking based on the determination result.

また、前記振幅スペクトル計算処理は、例えば窓関数の掛算処理と、フーリエ変換処理と、振幅計算処理とを行う構成である。   The amplitude spectrum calculation process is configured to perform, for example, a window function multiplication process, a Fourier transform process, and an amplitude calculation process.

さらに、上記課題は第3の発明によれば、符号化前の音量のみが異なる同一の楽曲信号を符号化し、復号化した楽曲信号に対して、一定時間ごとの振幅ペクトルを計算する振幅スペクトル計算処理と、音量が隣接する楽曲信号の振幅スペクトルであり、かつ同一時刻の振幅スペクトル同士の2乗距離を計算する2乗距離計算処理と、該計算結果が一定値を越えるか判断し、該一定値を越える期間が一定数以上ある場合、又は前記一定値を越えている間における、前記計算結果と前記一定値との差の総和が所定値を超える場合、楽曲信号に音割れがあると判定する判定処理と、該判定結果に基づいて、音割れ直前の音量の楽曲信号を音割れのない楽曲信号であると推定する推定処理とを行うプログラムであって、コンピュータが実行可能なプログラムを提供することによって達成できる。 Further, according to the third invention, the above-mentioned problem is an amplitude spectrum calculation for encoding the same music signal that is different only in the volume before encoding and calculating the amplitude spectrum for every predetermined time for the decoded music signal. Processing, a square distance calculation process for calculating the square distance between the amplitude spectra of adjacent music signals whose volume is the same, and the amplitude spectrum at the same time, and determining whether the calculation result exceeds a certain value. When there is a certain number of periods exceeding the value, or when the sum of the difference between the calculation result and the certain value exceeds the certain value while exceeding the certain value, it is determined that there is a sound crack in the music signal A program that can be executed by a computer, and a program that can be executed by a computer based on the determination result and an estimation process that estimates a music signal having a volume immediately before sound breaking as a music signal without sound breaking. It can be achieved by providing a ram.

また、前記振幅スペクトル計算処理は、例えば窓関数の掛算処理と、フーリエ変換処理と、振幅計算処理を行うプログラムであって、コンピュータが実行可能なプログラムである。   The amplitude spectrum calculation process is a program that can be executed by a computer, for example, a program that performs a window function multiplication process, a Fourier transform process, and an amplitude calculation process.

さらに、上記課題は第4の発明によれば、楽曲信号を符号化し、復号化して再生するシステムにおいて、符号化前の音量のみが異なる同一の楽曲信号を符号化し、復号化した楽曲信号に対して一定時間ごとの振幅スペクトルを計算し、音量が隣接する楽曲信号の振幅スペクトルであり、かつ同一時刻の振幅スペクトル同士の2乗距離を計算し、該計算結果が一定値を越える期間が一定数以上ある場合、又は前記一定値を越えている間における、前記計算結果と前記一定値との差の総和が所定値を超える場合、再生した場合に人間にとって不快である推定するシステムを提供することによって達成できる。 Furthermore, according to the fourth invention, the above-described problem is obtained by encoding and decoding the same music signal that differs only in the volume before encoding in the system that encodes the music signal, decodes and reproduces the music signal, and decodes the music signal. Then , the amplitude spectrum for each fixed time is calculated, the amplitude spectrum of the adjacent music signal is calculated, and the square distance between the amplitude spectra at the same time is calculated, and the period during which the calculation result exceeds a certain value is fixed. If more than a few, or during which exceeds the predetermined value, if the sum of the difference between the predetermined value and the calculation result exceeds a predetermined value, the system that estimated to be uncomfortable for humans when reproduced Can be achieved by providing.

さらに、上記課題は第5の発明によれば、楽曲信号を符号化し、復号化して再生するシステムにおいて、符号化前の音量のみが異なる同一の楽曲信号を符号化し、復号化した楽曲信号に対して、一定時間ごとの振幅スペクトルを計算し、最も小さい音量の楽曲信号から、特定の音量の楽曲信号までの各音量段階のすべての楽曲信号のそれぞれの振幅スペクトルを平均した値と、該特定の音量に隣接し、かつ該特定の音量よりも大きい音量の楽曲信号の振幅スペクトルとの差分を、同一時刻の振幅スペクトルについて計算し、該計算結果が一定値を越える期間が一定数以上ある場合、又は前記一定値を越えている間における、前記計算結果と前記一定値との差の総和が所定値を超える場合、再生した場合に人間にとって不快であると推定することを特徴とする検出装置を提供することによって達成できる。Furthermore, according to the fifth aspect of the present invention, in the system that encodes, decodes and reproduces a music signal, the same music signal that differs only in the volume before encoding is encoded and decoded. Calculating an amplitude spectrum for each predetermined time, and averaging the respective amplitude spectra of all music signals at each volume level from the music signal having the lowest volume to the music signal having a specific volume, When the difference between the amplitude spectrum of the music signal adjacent to the volume and the volume higher than the specific volume is calculated for the amplitude spectrum at the same time, and the calculation result exceeds a certain value, there are a certain number of periods, Or, if the sum of the difference between the calculation result and the constant value exceeds the predetermined value while exceeding the predetermined value, it is estimated that the reproduction is uncomfortable for human beings. It can be achieved by providing a detection device according to claim.

上記課題の解決手段によれば、音割れの検出を自動的に行う装置、及び方法を提供する。それにより、音割れする直前の音量で符号化することが可能となり、熟練者を必要とせず、MIDI符号化された楽曲の制作コストを低下させることができる。   According to the means for solving the above problems, an apparatus and a method for automatically detecting sound cracks are provided. As a result, it is possible to perform encoding with a volume immediately before the sound is broken, and it is possible to reduce the production cost of the MIDI-encoded music without requiring an expert.

以下、図面を参照しながら本発明の実施の形態について説明する。
図2は本例の音割れ検出装置、及び音割れ検出方法を説明する為の楽曲信号の符号化、及び復号化の過程を示す図である。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 2 is a diagram showing the process of encoding and decoding a music signal for explaining the sound crack detection device and the sound crack detection method of this example.

同図において、エンコーダ1には楽曲信号が供給され、符号化処理が行われる。この符号化信号はデコーダ2に供給され、楽曲信号波形に復号され、スピーカ3に出力される。スピーカ3は楽曲信号波形に従った音波を外部に出力する。   In the figure, a music signal is supplied to the encoder 1 and an encoding process is performed. This encoded signal is supplied to the decoder 2, decoded into a music signal waveform, and output to the speaker 3. The speaker 3 outputs sound waves according to the music signal waveform to the outside.

図1は上記構成において、本発明の音割れ検出装置の一例を示す図である。同図において、本例の装置は、振幅スペクトル計算装置5、2乗距離計算装置6、及び判定装置7で構成されている。振幅スペクトル計算装置5には楽曲信号S(0),S(1),S(2),・・・S(i-1),S(i)が入力されるが、これらは同一楽曲の信号で音量だけが異なる信号を符号化し、それを復号化したものである。すなわち、S(0)が最も小さい音量の信号であり、S(1),S(2), ・・・の順に一定比率で音量が大きくなる信号である。   FIG. 1 is a diagram showing an example of a sound crack detection device of the present invention in the above configuration. In the figure, the apparatus of this example is composed of an amplitude spectrum calculation device 5, a square distance calculation device 6, and a determination device 7. The amplitude spectrum calculation device 5 receives music signals S (0), S (1), S (2),... S (i-1), S (i), which are signals of the same music. In this example, signals that differ only in volume are encoded and decoded. That is, S (0) is the signal with the lowest volume, and the volume increases at a constant ratio in the order of S (1), S (2),.

先ず、振幅スペクトル計算装置5について説明する。
振幅スペクトル計算装置5には上記楽曲信号S(0),S(1),S(2),・・・S(i-1),S(i)が入力し、振幅スペクトル計算装置5は入力された信号、例えばS(i)に対して、それぞれ振幅スペクトルP(i)を計算する。楽曲信号S(i)は時間tの関数であり、振幅スペクトルは一般的には周波数ωの関数である。
First, the amplitude spectrum calculation apparatus 5 will be described.
The music signal S (0), S (1), S (2),... S (i-1), S (i) are input to the amplitude spectrum calculation device 5, and the amplitude spectrum calculation device 5 is input. An amplitude spectrum P (i) is calculated for each of the processed signals, for example, S (i). The music signal S (i) is a function of time t, and the amplitude spectrum is generally a function of frequency ω.

しかし、図3に示すように信号S(i)、31の時刻t付近の一部分(例えば、T秒間)を部分的にフーリエ変換して振幅スペクトルを求めると、図4の41に示す様に、P(i)はT秒単位で時間的指標nの関数になる。すなわち、S(i)とP(i)の関係は、以下に示す数1の通りである。

Figure 0004971010
However, as shown in FIG. 3, when the amplitude spectrum is obtained by partially Fourier-transforming a part of the signal S (i), 31 near the time t 0 (for example, T seconds) as shown in FIG. , P (i) is a function of the temporal index n in units of T seconds. That is, the relationship between S (i) and P (i) is as shown in Equation 1 below.
Figure 0004971010

但し、Wn(t)は窓関数と呼ばれ、図5のようにt=(n-1/2)T〜t=(n+1/2)Tまでの区間では正の値を持ち、他の区間では0である関数である。また、| |は絶対値を意味する。   However, Wn (t) is called a window function and has a positive value in the interval from t = (n−1 / 2) T to t = (n + 1/2) T as shown in FIG. This function is 0 in the interval. || means an absolute value.

図6は上記振幅スペクトル計算装置5の構成を詳しく説明する図である。同図において、50〜53は、窓関数を入力信号に掛け算する回路である。すなわち、以下に示す数2を計算する回路である。また、60〜63は、入力信号をフーリエ変換する回路であり、以下に示す数3を計算する回路である。さらに、70〜73は、入力信号の振幅を計算する回路であり、以下に示す数4を計算する回路である。

Figure 0004971010
Figure 0004971010
Figure 0004971010
FIG. 6 is a diagram for explaining the configuration of the amplitude spectrum calculation apparatus 5 in detail. In the figure, reference numerals 50 to 53 denote circuits for multiplying an input signal by a window function. That is, it is a circuit for calculating the following formula 2. Reference numerals 60 to 63 denote circuits that perform Fourier transform on the input signal, and are circuits that calculate the following equation (3). Further, 70 to 73 are circuits for calculating the amplitude of the input signal, and are circuits for calculating the following equation (4).
Figure 0004971010
Figure 0004971010
Figure 0004971010

上記50〜53は、それぞれ異なる窓関数を乗ずるので振幅スペクトル計算装置5iの出力P0(i),P1(i),・・・Pn(i)は、信号S(i)の異なる部分のパワーとなる。   Since 50 to 53 are multiplied by different window functions, the outputs P0 (i), P1 (i),... Pn (i) of the amplitude spectrum calculation device 5i are the powers of different portions of the signal S (i). Become.

図6は、i番目の音量の信号S(i)に対する処理の部分だけを図示したものであるが、図1の振幅スペクトル計算装置5は、これを0番目〜n番目の音量の信号S(0)〜S(i)まで、それぞれに対して実装した全体構成である。   FIG. 6 shows only the processing portion for the i-th volume signal S (i), but the amplitude spectrum calculation apparatus 5 in FIG. 0) to S (i) are the overall configurations implemented for each.

次に、2乗距離計算装置6の構成について説明する。
2乗距離計算装置6は振幅スペクトルの2乗距離を計算する回路であり、入力されたP(i)に対して、以下に示す数5、及び数6の計算を行う。

Figure 0004971010
Figure 0004971010
Next, the configuration of the square distance calculation device 6 will be described.
The square distance calculation device 6 is a circuit that calculates the square distance of the amplitude spectrum, and performs the calculations of Equations 5 and 6 shown below for the input P (i).
Figure 0004971010
Figure 0004971010

但し、D(i) = {D1(i), D2(i), …, D3(i)} であり、Dn(i)は音量 i の信号の振幅スペクトルと i+1 の信号の振幅スペクトルとの2乗距離である。
図7は上記数5、数6の計算を行う装置、即ち2乗距離計算装置6の内部構成を説明する図である。80〜83は2乗距離の計算装置である。振幅スペクトルPn(0)、Pn(1)、Pn(2)・・・, Pn(i)が入力されると、隣り合うもの同士の2乗距離を計算し、90〜93にて閾値と照合される。このような装置の出力は、振幅スペクトル計算装置5に対する入力信号が楽曲信号の場合は人間が不快に感ずる音量となるmにおいてAn(i) は一般的に数7のような傾向を持つことが実験的に確認された。

Figure 0004971010
However, D (i) = {D1 (i), D2 (i),..., D3 (i)}, and Dn (i) is the amplitude spectrum of the signal of volume i and the amplitude spectrum of the signal of i + 1. Is the square distance.
FIG. 7 is a diagram for explaining the internal configuration of the device that performs the calculations of Equations 5 and 6, that is, the square distance calculation device 6. 80 to 83 are square distance calculation devices. When amplitude spectra P n (0), P n (1), P n (2)..., P n (i) are input, the square distance between adjacent ones is calculated and To match the threshold. When the input signal to the amplitude spectrum calculation apparatus 5 is a music signal, the output of such an apparatus is that A n (i) generally has a tendency as shown in Equation 7 at m where the volume is uncomfortable for humans. Has been confirmed experimentally.
Figure 0004971010

即ち、ある一定の値kを境にAn(k)の値が閾値より大きくなるという傾向である。この現象を利用して人間にとって不快な要素が入り込まない最大の音量を機械的に推定することができる。 That is, the value of A n (k) tends to be larger than the threshold value with a certain value k as a boundary. Using this phenomenon, it is possible to mechanically estimate the maximum sound volume that does not contain an element that is unpleasant for humans.

図8と図9は、実際の楽曲信号2曲をMIDIコードで符号化し、復号化した信号Sn(i)の振幅スペクトルPn(i)の値の隣同士の差分Dn(i)をそれぞれ図示したものである。
両図において、手前右上の方向は数1のn、即ち時間軸である。また、手前から左上への方向は数1のi、即ち音量の軸である。さらに、縦方向はDn(i)の値の大きさである。同図から分かるように、1つの曲の中では時間に関わらず、ある一定の音量から大きい信号はDn(i)も大きくなっている。
FIG. 8 and FIG. 9 respectively illustrate the difference Dn (i) between the values of the amplitude spectrum Pn (i) of the signal Sn (i) obtained by encoding and decoding two actual music signals with the MIDI code. Is.
In both figures, the direction on the upper right side in front is n in Equation 1, that is, the time axis. Further, the direction from the front to the upper left is the i in Equation 1, that is, the axis of the volume. Further, the vertical direction is the magnitude of the value of Dn (i). As can be seen from the figure, a large signal from a certain volume has a large Dn (i) regardless of the time in one song.

図10は、図8を等高線で表したものである。図中の黒の太線で囲まれた領域は人間が音割れしていると感じる領域である。同図を見ると、人間は音割れしていると感じる領域と、Dn(i)がある一定の値を越す領域とはかなり相関があることが分かる。   FIG. 10 shows FIG. 8 with contour lines. A region surrounded by a black thick line in the figure is a region where a human feels that sound is broken. As can be seen from the figure, a region where a human feels that sound is broken and a region where Dn (i) exceeds a certain value are significantly correlated.

図11と図12は、図8と図9の楽曲にそれぞれ対応する図である。これら2曲において人間が音割れしていると感ずる領域と、Dn(i)が一定の値以上となる領域を図示したものである。これらを見ても人間が音割れしていると感ずる領域は、Dn(i)が一定値を越す領域にほぼ含まれていることが分かる。   11 and 12 correspond to the music pieces in FIGS. 8 and 9, respectively. In these two pieces of music, a region where a human feels that the sound is broken and a region where Dn (i) is a certain value or more are illustrated. It can be seen that the region where humans feel that the sound is broken is almost included in the region where Dn (i) exceeds a certain value.

以上から、音割れしないような音量iを自動的に特定することが可能であることが分かる。すなわち、音量が異なる同一楽曲について、一定時間ごとに振幅スペクトルを計算し、音量が隣り合う値の楽曲信号の振幅スペクトルの2乗距離を算出し、この2乗距離が一定値Hを超えたらその時刻について音割れしていると判断する。そして同一信号について音割れしている期間が一定数K以上ある場合、即ち数8を満たす場合その信号が音割れしていると判断する、もしくは音割れしている間における、2乗距離と一定値Hとの差の総和が一定値Lを超える場合、即ち数9を満たす場合音割れしていると判断することにより、人間による判断をしなくても音割れを検出することができる。

Figure 0004971010
Figure 0004971010
From the above, it can be seen that it is possible to automatically specify the volume i that does not break the sound. That is, with respect to the same music having a different volume, the amplitude spectrum is calculated every fixed time, and the square distance of the amplitude spectrum of the music signal having adjacent values is calculated. If this square distance exceeds a certain value H, Judge that the time is broken. And when the sound cracking period for the same signal is a certain number K or more, that is, when Expression 8 is satisfied, it is determined that the signal is sound cracking, or the square distance during sound cracking is constant. When the sum of the difference from the value H exceeds a certain value L, that is, when Expression 9 is satisfied, it is determined that the sound is cracked, so that the sound crack can be detected without a human judgment.
Figure 0004971010
Figure 0004971010

判定装置7は上記数8、又は数9の計算を行う装置である。入力A(i)に対してF(i)を計算する。即ち、A(i)が数8を満たしていればF(i)を1とし、満たしていなければ0とする。数8の代わりに数9を使うこともできる。   The determination device 7 is a device that performs the calculation of Equation 8 or Equation 9 above. F (i) is calculated for input A (i). That is, F (i) is set to 1 if A (i) satisfies Equation 8, and 0 otherwise. Equation 9 can be used instead of Equation 8.

図13は本方式を用いて音割れ検出を自動的に行った場合と、人間が聞いて検出した場合の比較をした図である。判定に数9を使用した例である。
横軸は曲目であり、1番から13番まで13種類の曲について判定を行った結果である。縦軸は各楽曲の符号化前の音量である。実線が本方式を用いて自動的に判定した場合であり、点線が人間が判定した場合である。この結果から自動判定結果は人間の判定結果と統計的にほぼ同一であることが分かる。
FIG. 13 is a diagram comparing the case where sound crack detection is automatically performed using this method and the case where a human hears and detects it. This is an example in which Equation 9 is used for the determination.
The horizontal axis is the music, and is the result of the determination for 13 types of music from No. 1 to No. 13. The vertical axis represents the volume of each song before encoding. This is a case where a solid line is automatically determined using the present method, and a dotted line is a case where a human determines. From this result, it can be seen that the automatic determination result is statistically almost the same as the human determination result.

したがって、本方式を利用してどのくらいの音量信号を符号化すると再生時に音割れするかを自動的に判定することができる。   Therefore, it is possible to automatically determine how much volume signal is encoded using this method and which sound cracks during reproduction.

尚、上記数5のDn(i)の代わりに、数10のE(i)を利用しても同様の結果が統計的に得られることが確認された。

Figure 0004971010
In addition, it was confirmed that the same result could be statistically obtained even if E (i) of Equation 10 was used instead of D n (i) of Equation 5 above.
Figure 0004971010

本発明の音割れ検出を行う装置の一例を示す図である。It is a figure which shows an example of the apparatus which performs the sound crack detection of this invention. 本発明を説明する図である。It is a figure explaining this invention. 信号S(i)の時刻t付近の波形を示す図である。It is a diagram showing a time t 0 the vicinity of the waveform of the signal S (i). フーリエ変換した振幅スペクトルを示す図である。It is a figure which shows the amplitude spectrum which carried out the Fourier-transform. 窓関数を説明する図である。It is a figure explaining a window function. 振幅スペクトル計算装置の構成を詳しく説明する図である。It is a figure explaining the structure of an amplitude spectrum calculation apparatus in detail. 2乗距離計算装置の内部構成を説明する図である。It is a figure explaining the internal structure of a square distance calculation apparatus. 実際の楽曲信号をMIDIコードで符号化し、復号化した信号S(i)の振幅スペクトルの値の隣同士の差分を示す図である。It is a figure which shows the difference of the adjacent value of the value of the amplitude spectrum of the signal S (i) which encoded and decoded the actual music signal with the MIDI code | cord | chord. 実際の楽曲信号をMIDIコードで符号化し、復号化した信号S(i)の振幅スペクトラムの値の隣同士の差分を示す図である。It is a figure which shows the difference of the adjacent value of the value of the amplitude spectrum of the signal S (i) which encoded and decoded the actual music signal with the MIDI code | cord | chord. 図8を等高線で表した図である。It is the figure which represented FIG. 8 with the contour line. 図8の楽曲を等高線で表した図である。It is the figure which represented the music of FIG. 8 with the contour line. 図9の楽曲を等高線で表した図である。It is the figure which represented the music of FIG. 9 with the contour line. 本発明の方式を用いて音割れ検出を自動的に行った場合と、人間が聞いて検出した場合の比較をした図である。It is the figure which compared the case where a sound crack detection is automatically performed using the system of this invention, and the case where a human hears and detects.

符号の説明Explanation of symbols

1・・・エンコーダ
2・・・デコーダ
3・・・スピーカ
5・・・振幅スペクトル計算装置
6・・・2乗距離計算装置
7・・・判定装置
50〜53・・掛算回路
60〜63・・フーリエ変換回路
70〜73・・振幅計算回路
80〜83・・2乗距離計算回路
90〜93・・閾値照合回路
DESCRIPTION OF SYMBOLS 1 ... Encoder 2 ... Decoder 3 ... Speaker 5 ... Amplitude spectrum calculation device 6 ... Square distance calculation device 7 ... Determination device 50-53 ... Multiplication circuits 60-63 ... Fourier transform circuits 70 to 73... Amplitude calculation circuits 80 to 83.. Square distance calculation circuits 90 to 93.

Claims (8)

符号化前の音量のみが異なる同一の楽曲信号を符号化し、復号化した楽曲信号に対して、一定時間ごとの振幅ペクトルを計算する振幅スペクトル計算手段と、
音量が隣接する楽曲信号の振幅スペクトルであり、かつ同一時刻の振幅スペクトル同士の2乗距離を計算する2乗距離計算手段と、
該計算結果が一定値を越えるか判断し、該一定値を越える期間が一定数以上ある場合、又は前記一定値を越えている間における、前記計算結果と前記一定値との差の総和が所定値を超える場合、楽曲信号に音割れがあると判定する判定手段と、
該判定結果に基づいて、音割れ直前の音量の楽曲信号を音割れのない楽曲信号であると推定する推定手段と、
を有することを特徴とする音割れ検出装置。
Amplitude spectrum calculation means for encoding the same music signal that differs only in the volume before encoding, and calculating the amplitude spectrum for each fixed time for the decoded music signal;
A square distance calculation means for calculating a square distance between the amplitude spectra at the same time, the volume spectrum being an amplitude spectrum of adjacent music signals;
It is determined whether the calculation result exceeds a certain value, and when there are a certain number of periods exceeding the certain value or when the certain value exceeds the certain value, the sum of the difference between the calculation result and the certain value is predetermined. When the value exceeds, the determination means for determining that there is sound cracking in the music signal,
Based on the determination result, an estimation means for estimating a music signal having a volume immediately before sound breaking as a music signal without sound breaking;
A sound cracking detection device characterized by comprising:
前記振幅スペクトル計算手段は、窓関数掛算回路と、フーリエ変換回路と、振幅計算回路で構成されていることを特徴とする請求項1記載の音割れ検出装置。   2. The sound crack detection device according to claim 1, wherein the amplitude spectrum calculation means includes a window function multiplication circuit, a Fourier transform circuit, and an amplitude calculation circuit. 符号化前の音量のみが異なる同一の楽曲信号を符号化し、復号化した楽曲信号に対して、一定時間ごとの振幅ペクトルを計算する振幅スペクトル計算処理と、
音量が隣接する楽曲信号の振幅スペクトルであり、かつ同一時刻の振幅スペクトル同士の2乗距離を計算する2乗距離計算処理と、
該計算結果が一定値を越えるか判断し、該一定値を越える期間が一定数以上ある場合、又は前記一定値を越えている間における、前記計算結果と前記一定値との差の総和が所定値を超える場合、楽曲信号に音割れがあると判定する判定処理と、
該判定結果に基づいて、音割れ直前の音量の楽曲信号を音割れのない楽曲信号であると推定する推定処理と、
を行うことを特徴とする音割れ検出方法。
Amplitude spectrum calculation processing for calculating the amplitude spectrum for every fixed time for the same music signal that is different only in the volume before encoding and decoding the music signal;
A square distance calculation process for calculating a square distance between amplitude spectra at the same time that is an amplitude spectrum of a music signal whose volume is adjacent;
It is determined whether the calculation result exceeds a certain value, and when there are a certain number of periods exceeding the certain value or when the certain value exceeds the certain value, the sum of the difference between the calculation result and the certain value is predetermined. When the value is exceeded, a determination process for determining that there is sound cracking in the music signal,
Based on the determination result, an estimation process for estimating that the music signal at the volume immediately before the sound breaking is a music signal without sound breaking;
Sound crack detection method characterized by performing.
前記振幅スペクトル計算処理は、窓関数の掛算処理と、フーリエ変換処理と、振幅計算処理を行うことを特徴とする請求項3記載の音割れ検出方法。   4. The sound crack detection method according to claim 3, wherein the amplitude spectrum calculation process includes a window function multiplication process, a Fourier transform process, and an amplitude calculation process. 符号化前の音量のみが異なる同一の楽曲信号を符号化し、復号化した楽曲信号に対して、一定時間ごとの振幅ペクトルを計算する振幅スペクトル計算処理と、
音量が隣接する楽曲信号の振幅スペクトルであり、かつ同一時刻の振幅スペクトル同士の2乗距離を計算する2乗距離計算処理と、
該計算結果が一定値を越えるか判断し、該一定値を越える期間が一定数以上ある場合、又は前記一定値を越えている間における、前記計算結果と前記一定値との差の総和が所定値を超える場合、楽曲信号に音割れがあると判定する判定処理と、
該判定結果に基づいて、音割れ直前の音量の楽曲信号を音割れのない楽曲信号であると推定する推定処理と、
を行うプログラムであって、コンピュータが実行可能なプログラム。
Amplitude spectrum calculation processing for calculating the amplitude spectrum for every fixed time for the same music signal that is different only in the volume before encoding and decoding the music signal;
A square distance calculation process for calculating a square distance between amplitude spectra at the same time that is an amplitude spectrum of a music signal whose volume is adjacent;
It is determined whether the calculation result exceeds a certain value, and when there are a certain number of periods exceeding the certain value or when the certain value exceeds the certain value, the sum of the difference between the calculation result and the certain value is predetermined. When the value is exceeded, a determination process for determining that there is sound cracking in the music signal,
Based on the determination result, an estimation process for estimating that the music signal at the volume immediately before the sound breaking is a music signal without sound breaking;
A program that can be executed by a computer.
前記振幅スペクトル計算処理は、窓関数の掛算処理と、フーリエ変換処理と、振幅計算処理を行うプログラムであって、コンピュータが実行可能な請求項5記載のプログラム。   The program according to claim 5, wherein the amplitude spectrum calculation process is a program that performs a window function multiplication process, a Fourier transform process, and an amplitude calculation process, and is executable by a computer. 楽曲信号を符号化し、復号化して再生するシステムにおいて、
符号化前の音量のみが異なる同一の楽曲信号を符号化し、復号化した楽曲信号に対して一定時間ごとの振幅スペクトルを計算し、
音量が隣接する楽曲信号の振幅スペクトルであり、かつ同一時刻の振幅スペクトル同士の2乗距離を計算し、
該計算結果が一定値を越える期間が一定数以上ある場合、又は前記一定値を越えている間における、前記計算結果と前記一定値との差の総和が所定値を超える場合、再生した場合に人間にとって不快である推定することを特徴とするシステム
In a system that encodes, decodes and reproduces a music signal,
Only the volume of pre-coding encodes different same music signal, with respect to the decoded music signal, to calculate the amplitude spectrum for each fixed time,
Calculate the square distance between the amplitude spectra of the music signals that are adjacent to each other at the same time,
When there is a certain number of periods in which the calculation result exceeds a certain value, or when the sum of the differences between the calculation result and the certain value exceeds the certain value while the certain value is exceeded, or when the reproduction is performed system characterized in that estimated to be uncomfortable for humans.
楽曲信号を符号化し、復号化して再生するシステムにおいて、In a system that encodes, decodes and reproduces a music signal,
符号化前の音量のみが異なる同一の楽曲信号を符号化し、復号化した楽曲信号に対して、一定時間ごとの振幅スペクトルを計算し、  Encode the same music signal that differs only in the volume before encoding, and calculate the amplitude spectrum for each fixed time for the decoded music signal,
最も小さい音量の楽曲信号から、特定の音量の楽曲信号までの各音量段階のすべての楽曲信号のそれぞれの振幅スペクトルを平均した値と、該特定の音量に隣接し、かつ該特定の音量よりも大きい音量の楽曲信号の振幅スペクトルとの差分を、同一時刻の振幅スペクトルについて計算し、  A value obtained by averaging the amplitude spectra of all the music signals at each volume level from the music signal with the lowest volume to the music signal with the specific volume, and adjacent to the specific volume and more than the specific volume Calculate the difference from the amplitude spectrum of the loud music signal for the amplitude spectrum at the same time,
該計算結果が一定値を越える期間が一定数以上ある場合、又は前記一定値を越えている間における、前記計算結果と前記一定値との差の総和が所定値を超える場合、再生した場合に人間にとって不快であると推定することを特徴とするシステム。  When there is a certain number of periods in which the calculation result exceeds a certain value, or when the sum of the differences between the calculation result and the certain value exceeds the certain value while the certain value is exceeded, or when the reproduction is performed A system characterized by presuming that it is uncomfortable for humans.
JP2007095874A 2007-03-31 2007-03-31 Sound crack detection device and sound crack detection method Expired - Fee Related JP4971010B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007095874A JP4971010B2 (en) 2007-03-31 2007-03-31 Sound crack detection device and sound crack detection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007095874A JP4971010B2 (en) 2007-03-31 2007-03-31 Sound crack detection device and sound crack detection method

Publications (2)

Publication Number Publication Date
JP2008256758A JP2008256758A (en) 2008-10-23
JP4971010B2 true JP4971010B2 (en) 2012-07-11

Family

ID=39980418

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007095874A Expired - Fee Related JP4971010B2 (en) 2007-03-31 2007-03-31 Sound crack detection device and sound crack detection method

Country Status (1)

Country Link
JP (1) JP4971010B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5480842B2 (en) * 2011-04-25 2014-04-23 日本電信電話株式会社 Clip noise detection device, clip noise detection method, program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4241198B2 (en) * 2003-06-04 2009-03-18 ヤマハ株式会社 Effect imparting apparatus and program

Also Published As

Publication number Publication date
JP2008256758A (en) 2008-10-23

Similar Documents

Publication Publication Date Title
US20190281162A1 (en) Echo time delay detection method, echo elimination chip, and terminal equipment
TWI540913B (en) Apparatus and method for generating an output signal employing a decomposer
KR101670313B1 (en) Signal separation system and method for selecting threshold to separate sound source
KR101430321B1 (en) Method and system for determining a perceived quality of an audio system
RU2010146924A (en) METHOD AND DEVICE FOR SUPPORTING SPEECH PERCEPTIBILITY IN MULTI-CHANNEL SOUND OPERATION WITH MINIMUM INFLUENCE ON THE VOLUME SOUND SYSTEM
CN107645696B (en) One kind is uttered long and high-pitched sounds detection method and device
US20210383820A1 (en) Directional loudness map based audio processing
JP5326465B2 (en) Audio decoding method, apparatus, and program
EP2465112A1 (en) Method and system for determining a perceived quality of an audio system
JP2015531084A5 (en)
JP2015504179A5 (en)
JP2008129541A (en) Decoding device and decoding method
JP2008076636A (en) Audio signal interpolation method and audio signal interpolation device
JP2010109624A (en) Sound processing circuit, sound processor, and sound processing method
US20120265543A1 (en) Multi-channel signal encoding and decoding method, apparatus, and system
JP4971010B2 (en) Sound crack detection device and sound crack detection method
JP2001296894A (en) Voice processor and voice processing method
JP3894722B2 (en) Stereo audio signal high efficiency encoding device
JP2010139671A (en) Audio decoding apparatus, method, and program
JP2010019901A (en) Method and apparatus for processing digital audio signal
JP5879075B2 (en) Digital watermark detection apparatus and digital watermark detection method
JP5023812B2 (en) Digital audio processing apparatus and digital audio processing program
JP2008275876A (en) Digital sound processing device and program
JP2010277023A (en) Telephone voice section detector and program of the same
KR20030037174A (en) Method and Apparatus of Echo Signal Injecting in Audio Water-Marking using Echo Signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100225

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20110114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120106

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120405

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees