JP2024023163A - Audio signal processing device and program - Google Patents
Audio signal processing device and program Download PDFInfo
- Publication number
- JP2024023163A JP2024023163A JP2023128849A JP2023128849A JP2024023163A JP 2024023163 A JP2024023163 A JP 2024023163A JP 2023128849 A JP2023128849 A JP 2023128849A JP 2023128849 A JP2023128849 A JP 2023128849A JP 2024023163 A JP2024023163 A JP 2024023163A
- Authority
- JP
- Japan
- Prior art keywords
- adjustment value
- audio
- audio signal
- enhancement
- adjustment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 109
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 11
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 10
- 230000007423 decrease Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000006866 deterioration Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 19
- 238000011156 evaluation Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Landscapes
- Stereophonic System (AREA)
Abstract
Description
本発明は、音声信号処理装置およびプログラムに関する。 The present invention relates to an audio signal processing device and a program.
近年、音声信号と音響メタデータ(非特許文献1,2参照)とを組み合わせたオブジェクトベース音響システムの実用化が進められている(非特許文献3-5参照)。オブジェクトベース音響システムは、視聴者が視聴環境あるいは好みに合わせて再生音をカスタマイズすることができるという特徴がある。
In recent years, object-based audio systems that combine audio signals and acoustic metadata (see Non-Patent
オブジェクトベース音響システムの代表的な機能の1つに、ダイアログエンハンスメント機能がある。ダイアログエンハンスメント機能は、図8に示すように、番組音声がダイアログ(セリフあるいはナレーション)および背景音(BGMあるいは効果音)の音声オブジェクトで構成されている場合に、番組の制作時のダイアログおよび背景音の信号レベルと比べて、ダイアログを強調する(ダイアログの信号レベルを大きくする)ことで、ダイアログの聞き取りを改善する機能である。 One of the representative functions of object-based sound systems is a dialog enhancement function. As shown in Figure 8, when the program audio consists of dialog (dialogue or narration) and background sound (BGM or sound effects) audio objects, the dialog enhancement function is used to enhance the dialogue and background sound during program production. This function improves the audibility of dialogue by emphasizing the dialogue (increasing the signal level of the dialogue) compared to the signal level.
オブジェクトベース音響システムにおいては、番組音声の全体的な印象の悪化を抑制しつつ、ダイアログの聞き取りやすさの向上を図ることができる、より効果的なダイアログエンハンスメント機能の実装が求められている。 In object-based audio systems, there is a need to implement a more effective dialogue enhancement function that can improve the audibility of dialogue while suppressing deterioration of the overall impression of program audio.
本発明の目的は、上述した課題を解決し、複数の音声オブジェクトから構成される番組音声の全体的な印象の悪化を抑制しつつ、特定の音声オブジェクトの聞き取りやすさの向上を図ることができる音声信号処理装置およびプログラムを提供することにある。 An object of the present invention is to solve the above-mentioned problems, and to improve the ease of listening to specific audio objects while suppressing deterioration of the overall impression of program audio composed of multiple audio objects. The purpose of the present invention is to provide an audio signal processing device and program.
(1)本開示に係る音声信号処理装置は、複数の音声オブジェクトから構成される番組の音声信号を処理する音声信号処理装置であって、前記複数の音声オブジェクトの内の第1の音声オブジェクトの信号レベルと前記第1の音声オブジェクトと重畳して再生される第2の音声オブジェクトの信号レベルとの比aの増加量または減少量がエンハンスメント量dとして要求されると、前記第1の音声オブジェクトの信号レベルの調整値である第1の調整値b、および、前記第2の音声オブジェクトの信号レベルの調整値である第2の調整値cを決定する調整値決定部と、前記第1の調整値bに基づき、前記第1の音声オブジェクトの信号レベルを調整する第1の音声信号調整部と、前記第2の調整値cに基づき、前記第2の音声オブジェクトの信号レベルを調整する第2の音声信号調整部と、前記第1の音声信号調整部による信号レベルの調整後の前記第1の音声オブジェクトの音声信号と、前記第2の音声信号調整部による信号レベルの調整後の前記第2の音声オブジェクトの音声信号とを合成して出力する音声信号合成部と、を備え、前記調整値決定部は、前記エンハンスメント量dに合わせて、前記第1の調整値bの真数と前記第2の調整値cの真数との二乗和が一定になるように前記第1の調整値bおよび前記第2の調整値cを決定する。 (1) An audio signal processing device according to the present disclosure is an audio signal processing device that processes an audio signal of a program composed of a plurality of audio objects, and in which a first audio object among the plurality of audio objects is processed. When the amount of increase or decrease in the ratio a between the signal level and the signal level of the second audio object that is reproduced superimposed on the first audio object is requested as the enhancement amount d, the first audio object an adjustment value determination unit that determines a first adjustment value b that is an adjustment value of the signal level of the second audio object; and a second adjustment value c that is the adjustment value of the signal level of the second audio object; a first audio signal adjustment unit that adjusts the signal level of the first audio object based on the adjustment value b; and a first audio signal adjustment unit that adjusts the signal level of the second audio object based on the second adjustment value c. the audio signal of the first audio object after the signal level has been adjusted by the first audio signal adjustment unit; and the audio signal of the first audio object after the signal level has been adjusted by the second audio signal adjustment unit. an audio signal synthesis unit that synthesizes and outputs the audio signal of the second audio object, and the adjustment value determination unit is configured to combine the antilog of the first adjustment value b and the audio signal of the first adjustment value b in accordance with the enhancement amount d. The first adjustment value b and the second adjustment value c are determined such that the sum of squares of the antilog of the second adjustment value c is constant.
(2) 前記調整値決定部は、前記エンハンスメント量dが上限値eを超えないように前記第1の調整値bおよび前記第2の調整値cを決定する、(1)に記載の音声信号処理装置。 (2) The audio signal according to (1), wherein the adjustment value determining unit determines the first adjustment value b and the second adjustment value c so that the enhancement amount d does not exceed an upper limit e. Processing equipment.
(3) 前記調整値決定部は、前記複数の音声オブジェクトの再生に関する情報である音響メタデータに含まれる前記エンハンスメント量dの上限値hを取得した場合、前記エンハンスメント量dが前記上限値hを超えないように前記第1の調整値bおよび前記第2の調整値cを決定する、(2)に記載の音声信号処理装置。 (3) When the adjustment value determining unit obtains an upper limit h of the enhancement amount d included in acoustic metadata that is information regarding reproduction of the plurality of audio objects, the adjustment value determination unit determines that the enhancement amount d exceeds the upper limit h. The audio signal processing device according to (2), wherein the first adjustment value b and the second adjustment value c are determined so that the first adjustment value b and the second adjustment value c are not exceeded.
(4) 前記エンハンスメント量dと、前記第1の調整値bおよび前記第2の調整値cとを対応付けた調整値リストを記憶する調整値記憶部をさらに備え、前記調整値決定部は、前記調整値記憶部に記憶されている調整値リストに基づき、前記第1の調整値bおよび前記第2の調整値cを決定する、(1)から(3)のいずれか一項に記載の音声信号処理装置。 (4) The adjustment value determining unit further includes an adjustment value storage unit that stores an adjustment value list in which the enhancement amount d is associated with the first adjustment value b and the second adjustment value c, and the adjustment value determination unit includes: The method according to any one of (1) to (3), wherein the first adjustment value b and the second adjustment value c are determined based on the adjustment value list stored in the adjustment value storage unit. Audio signal processing device.
(5) 前記調整値決定部は、前記上限値eが+6dB以上の場合に、前記エンハンスメント量dを+6dB以上とする、(2)に記載の音声信号処理装置。 (5) The audio signal processing device according to (2), wherein the adjustment value determining unit sets the enhancement amount d to +6 dB or more when the upper limit e is +6 dB or more.
(6) 前記調整値決定部は、前記上限値hが+6dB以上の場合に、前記エンハンスメント量dを+6dB以上とする、(3)に記載の音声信号処理装置。 (6) The audio signal processing device according to (3), wherein the adjustment value determination unit sets the enhancement amount d to +6 dB or more when the upper limit h is +6 dB or more.
(7) 前記上限値eは+12dBである、(2)に記載の音声信号処理装置。 (7) The audio signal processing device according to (2), wherein the upper limit e is +12 dB.
(8)本開示に係るプログラムは、コンピュータを、(1)から(7)のいずれかに記載の音声信号処理装置として動作させる。 (8) A program according to the present disclosure causes a computer to operate as the audio signal processing device according to any one of (1) to (7).
本発明に係る音声信号処理装置およびプログラムによれば、複数の音声オブジェクトから構成される番組音声の全体的な印象の悪化を抑制しつつ、特定の音声オブジェクトの聞き取りやすさの向上を図ることができる。 According to the audio signal processing device and program according to the present invention, it is possible to improve the audibility of a specific audio object while suppressing deterioration of the overall impression of program audio composed of a plurality of audio objects. can.
以下、本発明の実施の形態について図面を参照して説明する。 Embodiments of the present invention will be described below with reference to the drawings.
図1は、本開示の一実施形態に係る音声信号処理装置10の構成例を示す図である。本実施形態に係る音声信号処理装置10は、ダイアログおよび背景音などの複数の音声オブジェクトから構成される番組の音声信号を再生するものである。具体的には、音声信号処理装置10は、上述したダイアログエンハンスメントのように、複数の音声オブジェクトの内、特定の音声オブジェクト(第1の音声オブジェクト)の信号レベルと、特定の音声オブジェクトと重畳して再生される他の音声オブジェクト(第2の音声オブジェクト)の信号レベルとの比aを増加または減少させる信号処理を行う。以下では、ダイアログの信号レベルと、ダイアログと重畳して再生される背景音の信号レベルとの比aを増加または減少させる例を用いて説明する。なお、番組の音声を構成する音声オブジェクトとして、例えば、複数の言語それぞれに対応するダイアログの音声オブジェクトと、背景音の音声オブジェクトとが含まれることがある。この場合、音声信号処理装置10は、例えば、視聴者により選択された一つの言語に対応するダイアログの信号レベルと、背景音の信号レベルとの比aを増加または減少させる。
FIG. 1 is a diagram illustrating a configuration example of an audio
図1に示すように、本実施形態に係る音声信号処理装置10は、音声信号調整部11,12と、音声信号合成部13と、調整値決定部14とを備える。
As shown in FIG. 1, the audio
第1の音声信号調整部としての音声信号調整部11は、番組を構成する複数の音声オブジェクトの内、ダイアログ(第1の音声オブジェクト)の音声信号が入力される。音声信号調整部11は、後述する調整値決定部14により決定された、ダイアログ(第1の音声オブジェクト)の信号レベルの調整値である第1の調整値bに基づき、入力されたダイアログの信号レベルを調整し、音声信号合成部13に出力する。
The audio
第2の音声信号調整部としての音声信号調整部12は、ダイアログと重畳して再生される背景音(第2の音声オブジェクト)の音声信号が入力される。音声信号調整部12は、後述する調整値決定部14により決定された、背景音(第2の音声オブジェクト)の信号レベルの調整値である第2の調整値cに基づき、入力された背景音の信号レベルを調整し、音声信号合成部13に出力する。
The audio
音声信号合成部13は、音声信号調整部11による信号レベルの調整後のダイアログの音声信号と、音声信号調整部12による信号レベルの調整後の背景音の音声信号とを合成した再生音を出力する。
The audio
調整値決定部14は、ダイアログの信号レベルと背景音の信号レベルとの比aの増加または減少を要求するエンハンスメント要求が入力される。エンハンスメント要求としては、ダイアログの信号レベルと背景音の信号レベルとの比aの増加量または減少量が入力(要求)されてよい。また、エンハンスメント要求は、エンハンスメント量dを指定せず、単にダイアログの信号レベルと背景音の信号レベルとの比aの調整を要求するものであってもよい。この場合、調整値決定部14は、予め定められた所定値のエンハンスメント量dが要求されたものとして処理する。調整値決定部14は、音響メタデータが入力されてもよい。音響メタデータは、番組を構成する複数のオブジェクトの再生に関する情報である。音響メタデータは、例えば、エンハンスメント量dの上限値hを含む。
The adjustment
調整値決定部14は、エンハンスメント要求が入力されると(ダイアログと背景音の信号レベルとの比aの増加量または減少量がエンハンスメント量dとして要求されると)、ダイアログの信号レベルの調整値である第1の調整値b、および、背景音の信号レベルの調整値である第2の調整値cを決定する。ここで、調整値決定部14は、詳細は後述するが、エンハンスメント量dに合わせて、第1の調整値bの真数と第2の調整値cの真数との二乗和が一定になるように第1の調整値bおよび第2の調整値cを決定する。また、調整値決定部14は、エンハンスメント量dが上限値eを超えないように第1の調整値bおよび第2の調整値cを決定してよい。
When an enhancement request is input (when the amount of increase or decrease of the ratio a between the signal level of the dialog and the background sound is requested as the enhancement amount d), the adjustment
調整値決定部14は、決定した第1の調整値bを音声信号調整部11に出力し、決定した第2の調整値cを音声信号調整部12に出力する。
The adjustment
図2は、調整値決定部14の構成例を示す図である。
FIG. 2 is a diagram showing a configuration example of the adjustment
図2に示すように、調整値決定部14は、調整値記憶部141と、調整値選択部142とを備える。
As shown in FIG. 2, the adjustment
調整値記憶部141は、エンハンスメント量dと、そのエンハンスメント量dに応じた第1の調整値b(ダイアログの信号レベルの調整値)および第2の調整値c(背景音の信号レベルの調整値)とが対応付けられた調整値リストを記憶する。
The adjustment
図3Aは、調整値記憶部141が記憶する調整値リストの一例を示す図である。図3Aにおいては、エンハンスメント量d(レベル)が0dB,+6dB,+12dBである場合の調整値リストの例を示している。
FIG. 3A is a diagram illustrating an example of an adjustment value list stored in the adjustment
図3Aに示すように、調整値記憶部141は、エンハンスメント量dと、第1の調整値b(ダイアログの信号レベルの調整値(係数、レベル))および第2の調整値c(背景音の信号レベルの調整値(係数、レベル))とを対応付けた調整値リストを記憶する。
As shown in FIG. 3A, the adjustment
図3Aにおいては、エンハンスメント量d(レベル)が0dB,+6dB,+12dBである例を用いて説明したが、本開示はこれに限られるものではない。調整値記憶部141は、図3Bに示すように、より広範囲のエンハンスメント量dと、第1の調整値bおよび第2の調整値cとが対応付けられた調整値リストを記憶してもよい。ただし詳細は後述するが、ダイアログエンハンスメントによるダイアログの信号レベルと背景音の信号レベルとの比aの増加量はある値以上でないとダイアログの聞き取りの改善効果が視聴者に感じられにくく、また、ダイアログの信号レベルと背景音の信号レベルとの比aの増加量が大きすぎると、番組音声の全体的な印象が悪化してしまう。そのため、図3Aに示すように、エンハンスメント量dの区切りは+6dB程度、また、エンハンスメント量dの上限値eは+12dB程度とするのが好ましい。
In FIG. 3A, an example has been described in which the enhancement amount d (level) is 0 dB, +6 dB, and +12 dB, but the present disclosure is not limited to this. The adjustment
図3A,3Bに示すような調整値リストは予め計算により求めることができる。以下では、エンハンスメント量dに応じた、第1の調整値bおよび第2の調整値cの計算方法について説明する。 Adjustment value lists such as those shown in FIGS. 3A and 3B can be obtained by calculation in advance. Below, a method of calculating the first adjustment value b and the second adjustment value c according to the enhancement amount d will be explained.
ダイアログの音声オブジェクトDを、時間tの関数およびチャネル数mを用いて式(1)のように定義し、背景音の音声オブジェクトBを、時間tの関数およびチャネル数nを用いて式(2)のように定義する。 Dialog audio object D is defined using equation (1) using a function of time t and number of channels m, and background sound audio object B is defined using equation (2) using a function of time t and number of channels n. ).
また、時間tが0からTの範囲の、各音声オブジェクトの平均エネルギーED,EBは以下の式(3)および式(4)で表される。 Further, the average energies E D and E B of each audio object in the range of time t from 0 to T are expressed by the following equations (3) and (4).
なお、エネルギーレベルとラウドネスレベルとは一般に異なる値であるが、エンハンスメント量dおよびダイアログ/背景音比(以下、「D/B比」と称する。)など、各音声オブジェクト間の比に関する数値の計算においては、エネルギーレベルとラウドネスレベルとを等価とみなすことができることとする。 Although the energy level and loudness level are generally different values, calculation of numerical values related to the ratio between each audio object, such as the enhancement amount d and the dialogue/background sound ratio (hereinafter referred to as "D/B ratio"). In this case, it is assumed that the energy level and the loudness level can be considered equivalent.
ダイアログ用の係数γ(γ≧0)および背景音用の係数δ(δ≧0)を用いると、ダイアログエンハンスメント後のダイアログ
および背景音
はそれぞれ、以下の式(5),(6)で表される。なお、ダイアログ用の係数γは、第1の調整値bの真数に相当し、背景音用の係数δは、第2の調整値cの真数に相当する。
Using the coefficient γ (γ≧0) for dialog and the coefficient δ (δ≧0) for background sound, the dialog after dialog enhancement
and background sounds
are respectively expressed by the following equations (5) and (6). Note that the coefficient γ for dialog corresponds to the antilog of the first adjustment value b, and the coefficient δ for background sound corresponds to the antilog of the second adjustment value c.
同様に、ダイアログエンハンスメント後のダイアログの平均エネルギー
および背景音の平均エネルギー
はそれぞれ、以下の式(7),(8)で表される。
Similarly, the average energy of the dialog after dialog enhancement
and the average energy of the background sound.
are respectively expressed by the following equations (7) and (8).
次に、ダイアログエンハンスメントに係るパラメータである、エンハンスメント量gおよびD/B比rをそれぞれ、以下の式(9)、(10)のように定義する。 Next, the enhancement amount g and the D/B ratio r, which are parameters related to dialogue enhancement, are defined as shown in the following equations (9) and (10), respectively.
エンハンスメント量gのレベルをG、D/B比rのレベルをRとすると、それぞれ以下の式(11),(12)で表される。 Letting the level of the enhancement amount g be G and the level of the D/B ratio r be R, they are expressed by the following equations (11) and (12), respectively.
ここで、係数γ,δの初期値を1とすると、ダイアログの強調条件はγ>1,δ=1となる。また、ダイアログの抑制条件はγ<1,δ=1となる。しかしながら、この条件では、ダイアログエンハンスメントに伴って番組音声全体のエネルギーも変化してしまい、番組の全体の平均ラウドネスレベルを規制している現在の運用規定に合わなくなってしまう。そのため、番組音声を構成する全ての音声オブジェクトのエネルギーの合計を一定に保つことで、番組音声の音量感が大きく変化しないようにダイアログエンハンスメントを実装することが望ましい。全ての音声オブジェクト(ここでは、ダイアログおよび背景音)のエネルギーの合計が一定であるという条件は以下の式(13)で表される。 Here, if the initial values of the coefficients γ and δ are 1, the dialogue emphasis conditions are γ>1 and δ=1. Further, the dialog suppression conditions are γ<1, δ=1. However, under this condition, the energy of the entire program audio changes with dialog enhancement, which does not meet the current operational regulations regulating the overall average loudness level of the program. Therefore, it is desirable to implement dialogue enhancement so that the perceived volume of program audio does not change significantly by keeping the total energy of all audio objects that make up the program audio constant. The condition that the total energy of all audio objects (here, dialogue and background sounds) is constant is expressed by the following equation (13).
なお、実際にダイアログエンハンスメントを適用するためには、エンハンスメント量gに応じた係数γ,δの値が必要であり、そのためには平均エネルギーED,EBの値が必要になる。平均エネルギーED,EBの値が音響メタデータなどから取得可能な場合、実際の平均エネルギーED,EBの値を用いて係数γ,δの値を導出し、ダイアログエンハンスメントを行うことができる。 Note that in order to actually apply dialogue enhancement, values of coefficients γ and δ corresponding to the enhancement amount g are required, and for this purpose, values of average energies E D and E B are required. If the values of the average energies E D and E B can be obtained from acoustic metadata etc., the values of the coefficients γ and δ can be derived using the actual values of the average energies E D and E B to perform dialogue enhancement. can.
一方、音声信号の状態が逐次変化する生放送においては、各時点での正確な平均エネルギーED,EBの値を受信機側で把握できないことが多い。そこで、ダイアログエンハンスメント機能が用いられる条件としてED=EBと仮定すると、以下の式(14)が導かれる。
γ2+δ2=2 式(14)
On the other hand, in live broadcasting where the state of the audio signal changes successively, it is often impossible for the receiver side to grasp the accurate values of the average energies E D and E B at each point in time. Therefore, assuming that E D =E B as a condition for using the dialog enhancement function, the following equation (14) is derived.
γ 2 + δ 2 = 2 Equation (14)
ここで、媒介変数θ(0≦θ≦π/2)を導入すると、係数γ,δは以下の式(15),(16)で表すことができる。 Here, if a parameter θ (0≦θ≦π/2) is introduced, the coefficients γ and δ can be expressed by the following equations (15) and (16).
図4Aは、式(15),(16)より得られる、ダイアログおよび背景音のエネルギーの合計が一定である場合の、係数γ,δの変化の様子を真数表示した図である。また、図4Bは、式(15),(16)より得られる、ダイアログおよび背景音のエネルギーの合計が一定である場合の、係数γ,δの変化の様子を対数表示した図である。図4Bにおける、20logγ-20logδがエンハンスメント量dに相当する。 FIG. 4A is an antilog representation of how the coefficients γ and δ change when the sum of the energies of dialogue and background sound is constant, obtained from equations (15) and (16). Further, FIG. 4B is a logarithmic diagram of how the coefficients γ and δ change when the sum of the energies of dialogue and background sound obtained from equations (15) and (16) is constant. In FIG. 4B, 20logγ−20logδ corresponds to the enhancement amount d.
式(15),(16)および図4A,4Bに基づき、各エンハンスメント量dに対応する、ダイアログの信号レベルおよび背景音の信号レベルの調整値を決定し、図3A,3Bに示すような、調整値リストを作成することができる。 Based on equations (15) and (16) and FIGS. 4A and 4B, the adjustment values for the dialog signal level and background sound signal level corresponding to each enhancement amount d are determined, and the adjustment values are as shown in FIGS. 3A and 3B. A list of adjustment values can be created.
図2を再び参照すると、調整値選択部142は、エンハンスメント要求が入力される。また、調整値選択部142は、音響メタデータが入力されてもよい。調整値選択部142は、エンハンスメント要求(ダイアログと背景音の信号レベルとの比aの増加量または減少量がエンハンスメント量dとして要求されると)が入力されると、調整値記憶部141に記憶されている調整値リストを参照し、第1の調整値bおよび第2の調整値cを選択する。式(14)から分かるように、調整値リストに記載される第1の調整値bおよび第2の調整値cは、ダイアログ用の係数γ(第1の調整値bの真数)と、背景音用の係数δ(第2の調整値cの真数)との二乗和が一定となるようにして決定された値である。したがって、調整値選択部142は、第1の調整値bの真数と、第2の調整値cの真数との二乗和が一定となるように、第1の調整値bおよび第2の調整値cを決定する。調整値選択部142は、エンハンスメント要求として、エンハンスメント量dが入力された場合、調整値リストにおいて、そのエンハンスメント量dに対応付けられている調整値を、第1の調整値bおよび第2の調整値cとして選択する。例えば、調整値記憶部141には図3Aに示す調整値リストが記憶されており、エンハンスメント要求に含まれるエンハンスメント量dが+6dBである場合、調整値リストにおいて、+6dBのエンハンスメント量dに対応付けられている調整値を、第1の調整値bおよび第2の調整値cとして選択する。
Referring to FIG. 2 again, the adjustment
なお、エンハンスメント要求に含まれるエンハンスメント量dが、調整値リストに含まれるエンハンスメント量dと一致しない場合がある。この場合、調整値選択部142は、例えば、調整値リストに含まれるエンハンスメント量dの内、エンハンスメント要求に含まれるエンハンスメント量dと近いエンハンスメント量dに対応付けられている調整値を、第1の調整値bおよび第2の調整値cとして選択する。例えば、調整値記憶部141には図3Aに示す調整値リストが記憶されており、エンハンスメント要求に含まれるエンハンスメント量dが+5dBである場合、調整値リストにおいて、+5dBに最も近い+6dBのエンハンスメント量dに対応付けられている調整値を、第1の調整値bおよび第2の調整値cとして選択する。なお、エンハンスメント要求に含まれるエンハンスメント量dに近い調整値リストに含まれるエンハンスメント量dが2種類ある場合は、どちらかを適宜選択する。
Note that the enhancement amount d included in the enhancement request may not match the enhancement amount d included in the adjustment value list. In this case, the adjustment
また、エンハンスメント要求がエンハンスメント量を含まず、ダイアログの音量の増加だけを要求する場合、調整値選択部142は、例えば、予め定められた所定値のエンハンスメント量dが要求されたものとして、第1の調整値bおよび第2の調整値cを選択してもよい。この場合、調整値選択部142は、エンハンスメント要求が行われるたびに、エンハンスメント量dが上限値eを超えない範囲で、エンハンスメント量dを増加させる。例えば、調整値選択部142は、上限値eが+12dBであるとすると、1回目のエンハンスメント要求が入力されると、エンハンスメント量dを+6dBとし、2回目のエンハンスメント要求が入力されると、エンハンスメント量dを+12dBとし、3回目のエンハンスメント要求が入力されると、エンハンスメント量dを0としてもよい。また、調整値選択部142は、上限値eが+6dBより大きく、+12dB未満である場合、1回目のエンハンスメント要求が入力されると、エンハンスメント量dを+6dBとし、2回目のエンハンスメント要求が入力されると、エンハンスメント量dをその上限値としてもよい。また、調整値選択部142は、上限値eが+6dB未満である場合、1回目のエンハンスメント要求が入力されると、エンハンスメント量dをその上限値とし、2回目のエンハンスメント要求が入力されると、エンハンスメント量dを0としてよい。
Further, when the enhancement request does not include an enhancement amount and requests only an increase in the volume of the dialog, the adjustment
また、調整値選択部142は、エンハンスメント要求にエンハンスメント量dが含まれていても、そのエンハンスメント量dに関わらず、所定値だけエンハンスメント量dが増加または減少するように、第1の調整値bおよび第2の調整値cを選択してもよい。すなわち、調整値選択部142は、例えば、図3Aに示す調整値リストが調整値記憶部141に記憶されている場合、エンハンスメント量dがエンハンスメント要求に含まれているか否かに関わらず、エンハンスメント量dが所定値(例えば、+6dB))以上となるように、第1の調整値bおよび第2の調整値cを選択してよい。
Further, the adjustment
調整値選択部142は、選択した第1の調整値bを音声信号調整部11に出力し、選択した第2の調整値cを音声信号調整部12に出力する。
The adjustment
次に、本実施形態に係る音声信号処理装置10の動作について説明する。図5は、本実施形態に係る音声信号処理装置10の動作の一例を示すフローチャートである。図5においては、エンハンスメント要求が行われるたびに、上限値e(+12dB)を超えない範囲で、ダイアログの音量を所定値(+6dB)ずつ増加させる場合の、音声信号処理装置10の動作を例として説明する。
Next, the operation of the audio
音声信号調整部11は、ダイアログの音声オブジェクトを取得する(ステップS101)。音声信号調整部12は、背景音の音声オブジェクトを取得する(ステップS102)。また、調整値決定部14は、音響メタデータを取得する(ステップS103)。
The audio
調整値決定部14は、取得した音響メタデータからエンハンスメント量dの上限値hを取得したか否かを判定する(ステップS104)。
The adjustment
音響メタデータにエンハンスメント量dの上限値hが含まれておらず、エンハンスメント量dの上限値hを取得していないと判定した場合(ステップS104:No)調整値決定部14は、エンハンスメント量dの上限値eを+12dBに設定し(ステップS105)、後述するステップS107の処理に進む。
When it is determined that the upper limit h of the enhancement amount d is not included in the acoustic metadata and the upper limit h of the enhancement amount d has not been acquired (step S104: No), the adjustment
エンハンスメント量dの上限値hを取得したと判定した場合(ステップS104:Yes)調整値決定部14は、取得したエンハンスメント量dの上限値hは+6dBより大きいか否かを判定する(ステップS106)。
If it is determined that the upper limit h of the enhancement amount d has been obtained (step S104: Yes), the adjustment
取得したエンハンスメント量dの上限値hは+6dBより大きいと判定した場合(ステップS106:Yes)、および、上限値eを+12dBと設定した(上限値eが+6dB以上である)場合(ステップS105)、調整値決定部14は、エンハンスメント量dを+6dBに設定する(ステップS107)。このように、調整値決定部14は、上限値hが+6dB以上の場合(ステップS106:Yes)、あるいは、上限値eが+6dB以上の場合(ステップS105)、エンハンスメント量dを+6dB以上とする。
If it is determined that the upper limit h of the acquired enhancement amount d is greater than +6 dB (step S106: Yes), and if the upper limit e is set to +12 dB (the upper limit e is greater than or equal to +6 dB) (step S105), The adjustment
取得したエンハンスメント量dの上限値hは+6dBより大きくないと判定した場合(ステップS106:No)、調整値決定部14は、エンハンスメント量dを取得した上限値hに設定する(ステップS108)。このように、調整値決定部14は、音響メタデータに含まれるエンハンスメント量dの上限値hを取得した場合、上限値hを超えないように、エンハンスメント量dを設定する(ステップS107,S108)。そして、調整値決定部14は、設定したエンハンスメント量dに基づき、第1の調整値bおよび第2の調整値cを決定する。すなわち、調整値決定部14は、音響メタデータに含まれるエンハンスメント量dの上限値hを取得した場合、エンハンスメント量dが上限値hを超えないように第1の調整値bおよび第2の調整値cを決定する。
If it is determined that the upper limit h of the acquired enhancement amount d is not greater than +6 dB (step S106: No), the adjustment
エンハンスメント量dを設定した後、エンハンスメント要求を取得すると(ステップS109)、調整値決定部14は、調整値リストを参照して、第1の調整値bおよび第2の調整値cを決定する。図5に示す例では、調整値決定部14は、上限値eが+6dB以上の場合に、エンハンスメント量dを+6dB以上とする。調整値決定部14により決定された調整値に基づき、ダイアログエンハンスメントが実施される(ステップS110)。具体的には、音声信号調整部11は、調整値決定部14により決定された第1の調整値bに基づきダイアログの信号レベルを調整し、調整後のダイアログの音声信号を音声信号合成部13に出力する。また、音声信号調整部12は、調整値決定部14により決定された第2の調整値cに基づき背景音の信号レベルを調整し、調整後の背景音の音声信号を音声信号合成部13に出力する。
After setting the enhancement amount d and obtaining an enhancement request (step S109), the adjustment
音声信号合成部13は、音声信号調整部11から出力された音声信号に示されるダイアログと、音声信号調整部12から出力された音声信号に示される背景音とを合成し、再生音として出力する(ステップS111)。エンハンスメント要求が再び入力されると、調整値決定部14は、ステップS109の処理に戻る。
The audio
図6は、ユーザがエンハンスメント要求を入力する際のUI(User Interface)の一例を示す図であり、テレビなどの表示装置における表示例を示す図である。 FIG. 6 is a diagram illustrating an example of a UI (User Interface) when a user inputs an enhancement request, and is a diagram illustrating an example display on a display device such as a television.
例えば、ダイアログエンハンスメントが行われていない状態では、図6に示すように、ダイアログエンハンスメントが行われていない(エンハンスメント量dが0dBである)ことを示すアイコン21が表示される。アイコン21が表示された状態で、リモートコントローラなどを介してダイアログエンハンスメントを行うための所定の操作が行われると、図6に示すように、エンハンスメント量dを+6dBとすることを示すアイコン22が表示される。
For example, in a state where dialog enhancement is not being performed, as shown in FIG. 6, an
アイコン22が表示された状態で、リモートコントローラなどを介してダイアログエンハンスメントを行うための所定の操作が行われると、図6に示すように、エンハンスメント量dを+12dBとすることを示すアイコン23が表示される。
When a predetermined operation for dialog enhancement is performed via a remote controller or the like while the
アイコン23が表示された状態で、リモートコントローラなどを介してダイアログエンハンスメントを行うための所定の操作が行われると、図6に示すように、ダイアログの出力をなくす(エンハンスメント量dを-∞とする)ことを示すアイコン24が表示される。
When a predetermined operation for dialog enhancement is performed via a remote controller or the like while the
アイコン24が表示された状態で、リモートコントローラなどを介してダイアログエンハンスメントを行うための所定の操作が行われると、図6に示すように、アイコン21が再び表示される。そして、例えば、アイコン21~24の表示に応じたエンハンスメント要求が出力される。
When a predetermined operation for dialog enhancement is performed via a remote controller or the like while the
次に、本願発明者らが行った、ダイアログエンハンスメントの効果の主観評価の結果について説明する。評価手法は、Rec. ITU-T P.800 Annex Eに規定されている、比較範疇尺度法(CMOS)を採用した。各試行では、D/B比の異なる2個1組の刺激をランダムに評価者に提示した。評価者は,コンテンツ聴取に普段使用する再生機器(スピーカ、ヘッドホン、イヤホンのいずれか)を用いて素材音を聴取し、ランダムに指定された一方の刺激を基準とし、もう一方の刺激を、「ダイアログの聞き取り(以下、聞き取り)」「番組の総合印象(以下,総合印象)」それぞれの観点で、非常に良い(+3)、良い(+2)、やや良い(+1)、ほとんど同じ(0)、やや悪い(-1)、悪い(-2)、非常に悪い(-3)の7段階で評価した。 Next, the results of a subjective evaluation of the effects of dialogue enhancement conducted by the inventors of the present application will be explained. The comparative category scaling method (CMOS) specified in Rec. ITU-T P.800 Annex E was used as the evaluation method. In each trial, pairs of stimuli with different D/B ratios were randomly presented to the rater. The evaluator listens to the material sound using the playback device (speakers, headphones, or earphones) that they usually use to listen to the content, and uses one randomly designated stimulus as the reference and the other stimulus as From the perspectives of listening to the dialogue (hereinafter referred to as listening) and ``overall impression of the program (hereinafter referred to as overall impression)'', the ratings were: very good (+3), good (+2), somewhat good (+1), almost the same (0), Evaluation was made on a seven-point scale: somewhat bad (-1), bad (-2), and very bad (-3).
評価に用いる素材音としては10種類の番組の音声を用意し、各素材音の長さは約20秒とし、ダイアログおよび背景音の平均ラウドネスレベルはそれぞれ、-27LKFS(loudness, K-weighted, relative to full scale)に調整した。ダイアログと背景音とを組み合わせた刺激全体の平均ラウドネスレベルを一定に保ち、D/B比を3dB刻みで-6~+12dBの範囲で変化させた。 We prepared audio from 10 different programs as the material sounds used for evaluation, and the length of each material sound was approximately 20 seconds.The average loudness level of dialogue and background sound was -27LKFS (loudness, K-weighted, relative). to full scale). The average loudness level of the entire stimulus combining dialogue and background sound was kept constant, and the D/B ratio was varied in a range of -6 to +12 dB in 3 dB steps.
図7Aは、スピーカ再生による、全10番組分の音素材の聞き取りおよび総合印象に関する評価結果の平均と、95%信頼区間とを、ダイアログエンハンスメント前のD/B比(以下、「初期D/B比」と称する。)からのエンハンスメント量dを変数として示した図である。また、図7Bは、ヘッドホン・イヤホン再生による、全10番組分の音素材の聞き取りおよび総合印象に関する評価結果の平均と、95%信頼区間とを、初期D/B比からのエンハンスメント量dを変数として示した図である。なお、評価者数はいずれも25名である。 FIG. 7A shows the average and 95% confidence interval of the evaluation results regarding the listening and overall impression of the sound materials for all 10 programs by speaker playback. FIG. 3 is a diagram showing the enhancement amount d from the "ratio" as a variable. Furthermore, FIG. 7B shows the average and 95% confidence interval of the evaluation results regarding the listening and overall impression of the sound materials of all 10 programs through headphone/earphone playback, and the enhancement amount d from the initial D/B ratio as a variable. It is a diagram shown as . The number of evaluators was 25 in each case.
図7A,7Bに示されるように、ダイアログエンハンスメントにより聞き取りが改善されることが確認された。ただし、エンハンスメント量dが+12dB以上では、聞き取りの改善効果は飽和し、どの初期D/B比でも、評点は+2に達しなかった。また、エンハンスメント量dが+3dBの場合、どの初期D/Bでも、聞き取りに関する評価カテゴリが変わるほどの効果はなかった。これは、エンハンスメント量dが小さいと、ダイアログエンハンスメントの効果を知覚しにくくなるためと考えられる。 As shown in FIGS. 7A and 7B, it was confirmed that dialogue enhancement improved listening comprehension. However, when the enhancement amount d was +12 dB or more, the audibility improvement effect was saturated, and the score did not reach +2 at any initial D/B ratio. Further, when the enhancement amount d was +3 dB, no initial D/B had enough effect to change the evaluation category regarding hearing. This is considered to be because when the enhancement amount d is small, it becomes difficult to perceive the effect of dialog enhancement.
図7A,7Bに示されるように、ダイアログエンハンスメントにより総合印象が低下する場合があることが確認された。これは、D/B比が大きくなりすぎると、番組の臨場感が損なわれることがあるためと考えられる。したがって、上限値eを+12dBとし、本実施形態に係る音声信号処理装置10のように、エンハンスメント量dが上限値eを超えない範囲で、エンハンスメント量dを所定値(例えば、+6dB)だけ増加または減少させるように、第1の調整値bおよび第2の調整値cを決定することで、複数の音声オブジェクトから構成される番組音声の全体的な印象の悪化を抑制しつつ、特定の音声オブジェクトの聞き取りやすさの向上を図ることができる。
As shown in FIGS. 7A and 7B, it was confirmed that the overall impression may deteriorate due to dialogue enhancement. This is thought to be because if the D/B ratio becomes too large, the realism of the program may be impaired. Therefore, the upper limit e is set to +12 dB, and as in the audio
実施形態では特に触れていないが、コンピュータを、音声信号処理装置10として動作させるプログラムが提供されてもよい。また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROM、DVD-ROMなどの記録媒体であってもよい。
Although not specifically mentioned in the embodiment, a program for causing a computer to operate as the audio
あるいは、音声信号処理装置10が行う各処理を実行するためのプログラムを記憶するメモリ、および、メモリに記憶されたプログラムを実行するプロセッサによって構成され、音声信号処理装置10に搭載されるチップが提供されてもよい。
Alternatively, a chip installed in the audio
上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。 Although the embodiments described above have been described as representative examples, it will be apparent to those skilled in the art that many modifications and substitutions can be made within the spirit and scope of the invention. Therefore, the present invention should not be construed as being limited by the embodiments described above, and various modifications and changes can be made without departing from the scope of the claims. For example, it is possible to combine a plurality of configuration blocks described in the configuration diagram of the embodiment into one, or to divide one configuration block.
10 音声信号処理装置
11 音声信号調整部(第1の音声信号調整部)
12 音声信号調整部(第2の音声信号調整部)
13 音声信号合成部
14 調整値決定部
141 調整値記憶部
142 調整値選択部
10 Audio
12 Audio signal adjustment section (second audio signal adjustment section)
13 Audio
Claims (8)
前記複数の音声オブジェクトの内の第1の音声オブジェクトの信号レベルと前記第1の音声オブジェクトと重畳して再生される第2の音声オブジェクトの信号レベルとの比aの増加量または減少量がエンハンスメント量dとして要求されると、前記第1の音声オブジェクトの信号レベルの調整値である第1の調整値b、および、前記第2の音声オブジェクトの信号レベルの調整値である第2の調整値cを決定する調整値決定部と、
前記第1の調整値bに基づき、前記第1の音声オブジェクトの信号レベルを調整する第1の音声信号調整部と、
前記第2の調整値cに基づき、前記第2の音声オブジェクトの信号レベルを調整する第2の音声信号調整部と、
前記第1の音声信号調整部による信号レベルの調整後の前記第1の音声オブジェクトの音声信号と、前記第2の音声信号調整部による信号レベルの調整後の前記第2の音声オブジェクトの音声信号とを合成して出力する音声信号合成部と、を備え、
前記調整値決定部は、前記エンハンスメント量dに合わせて、前記第1の調整値bの真数と前記第2の調整値cの真数との二乗和が一定になるように前記第1の調整値bおよび前記第2の調整値cを決定する、音声信号処理装置。 An audio signal processing device that processes an audio signal of a program composed of a plurality of audio objects,
The amount of increase or decrease in the ratio a between the signal level of a first audio object among the plurality of audio objects and the signal level of a second audio object that is reproduced in a superimposed manner with the first audio object is enhancement. a first adjustment value b that is an adjustment value of the signal level of the first audio object when requested as the amount d; and a second adjustment value b that is an adjustment value of the signal level of the second audio object. an adjustment value determination unit that determines c;
a first audio signal adjustment unit that adjusts the signal level of the first audio object based on the first adjustment value b;
a second audio signal adjustment unit that adjusts the signal level of the second audio object based on the second adjustment value c;
The audio signal of the first audio object after the signal level has been adjusted by the first audio signal adjustment unit, and the audio signal of the second audio object after the signal level has been adjusted by the second audio signal adjustment unit. an audio signal synthesis unit that synthesizes and outputs the
The adjustment value determining unit determines the first adjustment value so that the sum of squares of the antilog of the first adjustment value b and the antilog of the second adjustment value c becomes constant in accordance with the enhancement amount d. An audio signal processing device that determines an adjustment value b and the second adjustment value c.
前記調整値決定部は、前記調整値記憶部に記憶されている調整値リストに基づき、前記第1の調整値bおよび前記第2の調整値cを決定する、請求項1から3のいずれか一項に記載の音声信号処理装置。 further comprising an adjustment value storage unit that stores an adjustment value list in which the enhancement amount d is associated with the first adjustment value b and the second adjustment value c,
Any one of claims 1 to 3, wherein the adjustment value determining unit determines the first adjustment value b and the second adjustment value c based on an adjustment value list stored in the adjustment value storage unit. The audio signal processing device according to item 1.
A program that causes a computer to operate as the audio signal processing device according to claim 1.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022126646 | 2022-08-08 | ||
JP2022126646 | 2022-08-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024023163A true JP2024023163A (en) | 2024-02-21 |
Family
ID=89930401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023128849A Pending JP2024023163A (en) | 2022-08-08 | 2023-08-07 | Audio signal processing device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024023163A (en) |
-
2023
- 2023-08-07 JP JP2023128849A patent/JP2024023163A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6859420B2 (en) | Dynamic range control for a variety of playback environments | |
US10440496B2 (en) | Spatial audio processing emphasizing sound sources close to a focal distance | |
US10057703B2 (en) | Apparatus and method for sound stage enhancement | |
US9865279B2 (en) | Method and electronic device | |
US11727948B2 (en) | Efficient DRC profile transmission | |
EP3286929B1 (en) | Processing audio data to compensate for partial hearing loss or an adverse hearing environment | |
US9332373B2 (en) | Audio depth dynamic range enhancement | |
JP2019097219A (en) | Loudness adjustment for downmixed audio content | |
JP7266916B2 (en) | Audio signal processing method and apparatus for controlling loudness level | |
US20110255712A1 (en) | Audio signal adjustment device and audio signal adjustment method | |
KR102346669B1 (en) | Audio signal processing method and apparatus for controlling loudness level | |
JP5085769B1 (en) | Acoustic control device, acoustic correction device, and acoustic correction method | |
EP3257269A1 (en) | Upmixing of audio signals | |
KR20220108076A (en) | Adjustment of audio and non-audio characteristics based on noise metrics and speech intelligibility metrics | |
WO2006051586A1 (en) | Sound electronic circuit and method for adjusting sound level thereof | |
KR102642727B1 (en) | Method for controll loudness level of audio signl using metadata and apparatus using the same | |
WO2016133988A1 (en) | Loudspeaker-room equalization with perceptual correction of spectral dips | |
CN106658340B (en) | Content adaptive surround sound virtualization | |
US10389323B2 (en) | Context-aware loudness control | |
JP2012129840A (en) | Acoustic system, acoustic signal processing device and method, and program | |
JP2024023163A (en) | Audio signal processing device and program | |
TWI607374B (en) | Calibration method and computer readable recording medium | |
Toosy et al. | Statistical Inference of User Experience of Multichannel Audio on Mobile Phones. | |
JP6703884B2 (en) | Channel number converter, broadcast receiver and program | |
JP2010118977A (en) | Sound image localization control apparatus and sound image localization control method |