JP2000181477A - Voice processor - Google Patents

Voice processor

Info

Publication number
JP2000181477A
JP2000181477A JP10354545A JP35454598A JP2000181477A JP 2000181477 A JP2000181477 A JP 2000181477A JP 10354545 A JP10354545 A JP 10354545A JP 35454598 A JP35454598 A JP 35454598A JP 2000181477 A JP2000181477 A JP 2000181477A
Authority
JP
Japan
Prior art keywords
audio
voice
sound
section
level adjustment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10354545A
Other languages
Japanese (ja)
Inventor
秀享 ▲高▼橋
Hideyuki Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Optical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Optical Co Ltd filed Critical Olympus Optical Co Ltd
Priority to JP10354545A priority Critical patent/JP2000181477A/en
Publication of JP2000181477A publication Critical patent/JP2000181477A/en
Withdrawn legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To automatically adjust sound volume to a proper level corresponding to a listener. SOLUTION: This processor is equipped with a voice decision part 30A which decides a voiced and a voiceless section of voice data to be processed, a mean frame energy calculation part 30B which calculates the mean frame energy of each voiced section decided by the decision part 30A, a voice level control gain calculation part 30C which calculates a voice level control gain for adjusting the voice level of each voiced section according to the mean frame energy of each voiced section calculated by the calculation part 30B, and a voice level control gain write part 30D which writes the voice level control gain found by the calculation part 30C at a specific position of the voice data.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は音声処理装置に関す
る。
[0001] The present invention relates to an audio processing device.

【0002】[0002]

【従来の技術】音声録音再生装置等の音声処理装置に
は、通常、ボリューム手段が設けられており、使用者は
そのボリューム手段を操作することにより所望の音量で
聞くことができる。
2. Description of the Related Art A sound processing device such as a sound recording / reproducing device is usually provided with a volume means, and a user can listen at a desired volume by operating the volume means.

【0003】しかし、音声はダイナミックレンジが広
く、同じボリュームレベルであっても音量が小さい場合
も大きい場合もあり、そのような音量の変動が原因で聞
きづらい場合には、使用者がそのつどボリュームを調整
する必要があった。特に、対談の録音のように、録音装
置と発言者との距離が発言者によって異なる場合にあっ
ては、録音装置から近い位置にいる発言者の音声だけが
大きく聞こえて、録音装置から遠い位置にいる発言者の
声は小さくて聞き取りにくい場合がある。
[0003] However, the sound has a wide dynamic range, and the sound volume may be low or high even at the same volume level. When the fluctuation of the sound volume makes it difficult to hear, the user may adjust the volume each time. It needed to be adjusted. In particular, when the distance between the recording device and the speaker differs from speaker to speaker, such as when recording a conversation, only the voice of the speaker near the recording device can be heard loudly, and the position far from the recording device can be heard. The voice of the speaker in the room may be small and difficult to hear.

【0004】特開平9−232892号公報はこのよう
な問題を克服すべく、入力された直前の音声のレベルに
基づいて音量を調節する音量制御装置を開示している。
Japanese Unexamined Patent Publication No. Hei 9-232892 discloses a volume control device for adjusting the volume based on the level of the sound immediately before input in order to overcome such a problem.

【0005】[0005]

【発明が解決しようとする課題】ところで音量は重要な
情報量のひとつであり、頻繁にその音量が変更されると
自然さが失われ、かえって音質を低下させることになり
かねない。音量の調節は、自然さを保ったまま行われる
ことが望ましく、このためには、処理すべき音声の全体
との関係において音量を調整することが必要である。
By the way, the volume is one of important information quantities, and if the volume is changed frequently, the naturalness is lost and the sound quality may be degraded. It is desirable that the sound volume be adjusted while maintaining the naturalness. For this purpose, it is necessary to adjust the sound volume in relation to the entire sound to be processed.

【0006】しかしながら、上記した特開平9−232
892号公報では、直前の音声のレベルのみに基づいて
音量を調節するので、音量が一定に保持されるという効
果は有するが、かえって音質を低下させてしまう場合が
あった。
However, the above-mentioned Japanese Patent Application Laid-Open No. 9-232
In Japanese Patent No. 892, since the volume is adjusted based only on the level of the immediately preceding sound, the effect is maintained that the volume is kept constant, but the sound quality may be rather deteriorated.

【0007】本発明はこのような課題に着目してなされ
たものであり、その目的とするところは、聞く人に応じ
て音量をより適切な大きさに自動的に調節することがで
きる音声処理装置を提供することにある。
The present invention has been made in view of such a problem, and an object of the present invention is to provide an audio processing apparatus capable of automatically adjusting a volume to a more appropriate level according to a listener. It is to provide a device.

【0008】[0008]

【課題を解決するための手段】上記の目的を達成するた
めに、第1の発明に係る音声処理装置は、処理すべき音
声データの有音区間と無音区間とを判定する音声判定手
段と、この音声判定手段で判定された有音区間につい
て、各有音区間の平均フレームエネルギーを計算する平
均フレームエネルギー計算手段と、この平均フレームエ
ネルギー計算手段により計算された各有音区間の平均フ
レームエネルギーに基づいて、各有音区間の音声レベル
を調整するための音声レベル調整ゲインを計算する音声
レベル調整ゲイン計算手段と、この音声レベル調整ゲイ
ン計算手段により求めた音声レベル調整ゲインを上記音
声データの所定の位置に書き込む音声レベル調整ゲイン
書き込み手段とを具備する。
In order to achieve the above object, a voice processing apparatus according to a first aspect of the present invention comprises a voice determination unit for determining a voiced section and a silent section of voice data to be processed, For the voiced section determined by the voice determination means, an average frame energy calculation means for calculating an average frame energy of each voiced section, and an average frame energy of each voiced section calculated by the average frame energy calculation means. Voice level adjustment gain calculating means for calculating a voice level adjustment gain for adjusting the voice level of each sound section based on the voice level adjustment gain calculated by the voice level adjustment gain calculating means. And audio level adjustment gain writing means for writing to the position of

【0009】また、第2の発明に係る音声処理装置は、
第1の発明に係る音声処理装置において、上記音声レベ
ル調整ゲイン計算手段が、上記各有音区間の平均フレー
ムエネルギーの、全有音区間での平均値に基づいて前記
音声レベル調整ゲインを計算する。
[0009] Further, the audio processing apparatus according to the second aspect of the present invention comprises:
In the audio processing device according to the first invention, the audio level adjustment gain calculation means calculates the audio level adjustment gain based on an average value of the average frame energy of each audio section in all audio sections. .

【0010】また、第3の発明に係る音声処理装置は、
第1または第2の発明に係る音声処理装置において、前
記音声データを再生するにあたって、各フレームに対応
する上記音声レベル調整ゲインを当該音声データに乗じ
るか否かをユーザに選択させるための選択部を有する。
[0010] The speech processing apparatus according to a third aspect of the present invention includes:
In the audio processing device according to the first or second invention, when reproducing the audio data, a selection unit for allowing a user to select whether or not to multiply the audio data by the audio level adjustment gain corresponding to each frame. Having.

【0011】[0011]

【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0012】図1(A)は本実施形態に係る音声処理の
一形態を説明するための図である。図1(A)におい
て、音声録音装置としてのディジタルレコーダ10によ
って録音された音声データは当該ディジタルレコーダ1
0に着脱自在に装着されたミニチュアカード11に記憶
される。ミニチュアカード11はディジタルレコーダ1
0から取り外されてPCカードアダプタ12に装着した
状態で、パーソナルコンピュータ13に装填される。パ
ーソナルコンピュータ13には音声再生、情報表示など
の処理を行なう制御プログラム14がインストールされ
ている。
FIG. 1A is a diagram for explaining one form of audio processing according to the present embodiment. In FIG. 1A, audio data recorded by a digital recorder 10 as an audio recording device is stored in the digital recorder 1.
0 is stored in the miniature card 11 which is detachably attached to the card. The miniature card 11 is a digital recorder 1
After being removed from the PC card adapter 12 and attached to the PC card adapter 12, it is loaded into the personal computer 13. The personal computer 13 has installed therein a control program 14 for performing processing such as sound reproduction and information display.

【0013】図1(B)は、パーソナルコンピュータ1
3の制御部の構成を示す図であり、本実施形態に係る音
声処理を行なうために各種の機能を備えている。すなわ
ち、音声判定部30Aは処理すべき音声データ全体につ
いてその有音区間と無音区間とを判定する。平均フレー
ムエネルギー計算部30Bは音声判定部30Aで判定さ
れた有音区間について、各有音区間の平均フレームエネ
ルギーを計算する。音声レベル調整ゲイン計算部30C
は平均フレームエネルギー計算部30Bにより計算され
た各有音区間の平均フレームエネルギーに基づいて、各
有音区間の音声レベルを調整するための音声レベル調整
ゲインを計算する。音声レベル調整ゲイン書き込み部3
0Dは音声レベル調整ゲイン計算部30Cで計算した音
声レベル調整ゲインを音声データの所定の位置に書き込
む。選択処理部30Eは音声データの再生時において、
音声レベル調整ゲイン書き込み部30Dに書き込まれた
音声レベル調整ゲインを乗じるか否かをユーザに選択さ
せ、この選択に応じた処理を行なう部分である。ユーザ
の選択は例えばパーソナルコンピュータ13のキーボー
ドから行なうことができる。
FIG. 1B shows a personal computer 1.
FIG. 3 is a diagram illustrating a configuration of a control unit of No. 3 and includes various functions for performing audio processing according to the present embodiment. That is, the sound determination unit 30A determines the sound section and the silent section of the entire sound data to be processed. The average frame energy calculation unit 30B calculates the average frame energy of each voiced section for the voiced section determined by the voice determination unit 30A. Audio level adjustment gain calculator 30C
Calculates an audio level adjustment gain for adjusting the audio level of each voiced section based on the average frame energy of each voiced section calculated by the average frame energy calculation unit 30B. Audio level adjustment gain writing unit 3
0D writes the audio level adjustment gain calculated by the audio level adjustment gain calculator 30C at a predetermined position in the audio data. The selection processing unit 30E, when reproducing the audio data,
This section allows the user to select whether or not to multiply by the audio level adjustment gain written in the audio level adjustment gain writing section 30D, and performs processing according to the selection. The user's selection can be made from the keyboard of the personal computer 13, for example.

【0014】図2は音声データのデータ構造を示す図で
ある。図2において、音声データは、1のファイルとし
て構成されており、ファイルヘッダ領域20−1とフレ
ームデータ領域20−2とからなる。ファイルヘッダ領
域20−1には例えば、記録された日時や録音時間長等
の情報が記録されている。また、フレームデータ領域2
0−2は複数のフレーム(フレーム1,2,3,…n)
から構成され、各フレームは、フレームヘッダ領域20
−3と音声データ領域20−4とからなる。フレームヘ
ッダ領域20−3には音声レベル調整ゲインが上記した
音声レベル調整ゲイン書き込み部30Dにより書き込ま
れる。ここでは初期値として1がセットされるものと
し、音声データ領域20−4には音声データが所定長記
録される。
FIG. 2 is a diagram showing the data structure of audio data. In FIG. 2, the audio data is configured as one file, and includes a file header area 20-1 and a frame data area 20-2. In the file header area 20-1, for example, information such as recorded date and time and recording time length is recorded. Also, the frame data area 2
0-2 is a plurality of frames (frames 1, 2, 3,... N)
Each frame is composed of a frame header area 20
-3 and an audio data area 20-4. The audio level adjustment gain is written in the frame header area 20-3 by the audio level adjustment gain writing unit 30D. Here, 1 is set as an initial value, and audio data is recorded in the audio data area 20-4 for a predetermined length.

【0015】ここでパーソナルコンピュータ13内に取
り込まれた音声データは、再生に先だって、本実施形態
に係る音声レベルの調整が行われる。以下、フローチャ
ートを参照して説明する。
Here, the audio data taken into the personal computer 13 is subjected to audio level adjustment according to the present embodiment prior to reproduction. Hereinafter, description will be made with reference to a flowchart.

【0016】図3は、本実施形態に係る音声レベルの調
整処理の概要を示すフローチャートである。本調整処理
はここではパーソナルコンピュータ13の制御部で行わ
れる。
FIG. 3 is a flowchart showing the outline of the audio level adjustment processing according to the present embodiment. This adjustment process is performed by the control unit of the personal computer 13 here.

【0017】図3において、まず処理対象の音声データ
について、有音/無音区間判定処理のためのしきい値計
算処理を行い(ステップS1)、そのしきい値に基づい
て有音/無音区間判定処理を行う(ステップS2)。続
いて、ステップS2において判定された各有音区間にお
ける平均フレームエネルギーを計算し(ステップS
3)、求めた各有音区間の平均フレームエネルギーに基
づいて、各有音区間における各サンプルの音声レベル調
整ゲインを計算する(ステップS4)。次に音声レベル
調整ゲイン書き込み部30Dによりこの音声レベル調整
ゲインを音声データ中の所定の位置に書き込む(ステッ
プS5)。ここでは図2に示すフレームヘッダ領域20
−3に書き込まれる。
In FIG. 3, a threshold value calculation process for voice / silence section determination processing is first performed on voice data to be processed (step S1), and voice / silence section determination is performed based on the threshold value. Processing is performed (step S2). Subsequently, the average frame energy in each sound section determined in step S2 is calculated (step S2).
3) Based on the obtained average frame energy of each sound section, a sound level adjustment gain of each sample in each sound section is calculated (step S4). Next, the audio level adjustment gain is written into a predetermined position in the audio data by the audio level adjustment gain writing unit 30D (step S5). Here, the frame header area 20 shown in FIG.
-3 is written.

【0018】以下、上記ステップS1からステップS5
までの各ステップの処理について、詳細に説明する。
The following steps S1 to S5
The processing of each step up to will be described in detail.

【0019】図4は、ステップS1の有音/無音区間の
判定時のしきい値計算処理の内容を示すフローチャート
である。この処理が始まると、まず、フレーム番号のカ
ウント値を示す変数fを0に初期化しておく(ステップ
S6)。
FIG. 4 is a flow chart showing the contents of the threshold value calculation processing at the time of determination of a sound / non-sound section in step S1. When this process starts, first, a variable f indicating the count value of the frame number is initialized to 0 (step S6).

【0020】次に、以下の式を用いてフレームfにおけ
るフレームエネルギーe(f)を計算する(ステップS
7)。
Next, the frame energy e (f) in the frame f is calculated using the following equation (step S).
7).

【0021】[0021]

【数1】 (Equation 1)

【0022】なお、数式中、s(i)は1フレーム中の
サンプル位置iにおけるサンプル、Nは1フレームを構
成するサンプル数を示している。
In the equation, s (i) indicates a sample at a sample position i in one frame, and N indicates the number of samples forming one frame.

【0023】次に、変数fの値が0であるか否か、すな
わち、初期のフレームであるか否かを判定し(ステップ
S8)、fが0である場合には、最小フレームエネルギ
ーを示す変数minの値をe(f)(=e(0))にセ
ットする(ステップS9)。
Next, it is determined whether or not the value of the variable f is 0, that is, whether or not the frame is an initial frame (step S8). If f is 0, it indicates the minimum frame energy. The value of the variable min is set to e (f) (= e (0)) (step S9).

【0024】また、上記ステップS8においてfが0で
ない場合には、フレームエネルギーe(f)が変数mi
nより小さいか否かを判定し(ステップS10)、小さ
い場合には変数minにフレームエネルギーe(f)を
セットし(ステップS9)、一方、小さくない場合には
そのまま何もせずにステップS11に行く。
If f is not 0 in step S8, the frame energy e (f) is set to the variable mi.
It is determined whether or not n is smaller than n (step S10). If smaller, frame energy e (f) is set to a variable min (step S9). go.

【0025】ステップS11ではファイルが終端に達し
たか否かを判定し、まだ終端ではない場合には、変数f
をインクリメントして(ステップS12)、次のフレー
ムデータを読み出して上記ステップS7に戻って上述し
た処理を繰返す。
In step S11, it is determined whether or not the end of the file has been reached.
Is incremented (step S12), the next frame data is read out, and the process returns to step S7 to repeat the above-described processing.

【0026】また、このステップS11においてファイ
ルの終端に達したと判断された場合は、しきい値trs
に、上記変数minに所定の値α(例えば1.2)を積
算した値をセットして(ステップS13)、この処理を
抜ける。
If it is determined in step S11 that the end of the file has been reached, the threshold trs
Then, a value obtained by integrating a predetermined value α (for example, 1.2) is set in the variable min (step S13), and the process exits.

【0027】このようなしきい値設定の処理方法は、す
でに音声データが記録されていることを有効に利用した
ものであり、ファイル全体の最小エネルギーに基づいて
しきい値を決定することができるために、誤りの少ない
有音/無音区間判定処理を行なうことが可能であるな
お、上述では、読み込んだ全区間(つまり、音声ファイ
ルを構成する全フレーム)の最小値を求めているが、本
発明はこれに限定されるものではなく、例えばパーソナ
ルコンピュータのメモリ容量を勘案して、全区間の最小
値でなく、ある程度の長さの区間に区切って処理するよ
うにしても良い。
Such a threshold value setting processing method effectively utilizes the fact that audio data has already been recorded, and the threshold value can be determined based on the minimum energy of the entire file. In addition, it is possible to perform a sound / silence section determination process with few errors. In the above description, the minimum value of all the read sections (that is, all frames constituting the audio file) is obtained. Is not limited to this. For example, in consideration of the memory capacity of the personal computer, the processing may be performed not on the minimum value of all sections but on sections of a certain length.

【0028】続いて、図5は、上記図3のステップS2
における有音/無音区間判定処理の内容を示すフローチ
ャートである。
FIG. 5 is a flowchart showing the operation of step S2 in FIG.
6 is a flowchart showing the content of a sound / non-sound section determination process in FIG.

【0029】この処理が始まると、フレーム番号のカウ
ント値を示す変数f、直前のフレームの有音/無音の状
態を示す変数Prev、音声データ中の有音区間のカウ
ント値を示す変数VsCntを、各々0に初期化してお
き、有音区間から無音区間への遷移を猶予するための制
御変数HangCntを、例えば10にセットしておく
(ステップS14)。
When this process is started, a variable f indicating the count value of the frame number, a variable Prev indicating the sound / non-speech state of the immediately preceding frame, and a variable VsCnt indicating the count value of the sound section in the audio data are set as follows: Each of them is initialized to 0, and a control variable HangCnt for delaying the transition from a sound section to a silent section is set to, for example, 10 (step S14).

【0030】次に、上述した図4において計算したフレ
ームエネルギーe(f)が、図4において計算したしき
い値trsより大きいか否かを判定する(ステップS1
5)。ここでe(f)がtrsより大きい場合には、H
angCntの値を0にセットし(ステップS16)、
続いて直前のフレームの有音/無音の状態を示す変数P
revの値が0か否かを判定する(ステップS17)。
このPrevの値が0であれば、直前のフレームは無音
フレームであったことを示し、Prevの値が1であれ
ば、直前のフレームは有音フレームであったことを示す
ものである。ここでPrevが0であれば、有音区間の
開始フレームを示す変数vb(VsCnt)に現在のフ
レームfの値をセットし、Prevに1をセットし、有
音区間のカウント値を示す変数VsCntをインクリメ
ントする(ステップS18)。一方、Prevが0でな
ければ何もせずにステップS19に行く。
Next, it is determined whether or not the frame energy e (f) calculated in FIG. 4 is larger than the threshold value trs calculated in FIG. 4 (step S1).
5). Here, if e (f) is greater than trs, H
The value of angCnt is set to 0 (step S16),
Then, a variable P indicating the sound / non-sound state of the immediately preceding frame
It is determined whether the value of rev is 0 (step S17).
If the value of Prev is 0, it indicates that the immediately preceding frame was a silent frame, and if the value of Prev is 1, it indicates that the immediately preceding frame was a voiced frame. Here, if Prev is 0, the value of the current frame f is set to a variable vb (VsCnt) indicating the start frame of the sound section, Prev is set to 1, and a variable VsCnt indicating the count value of the sound section is set. Is incremented (step S18). On the other hand, if Prev is not 0, the process goes to step S19 without doing anything.

【0031】そして、ファイルが終端に達したか否かを
判定し(ステップS19)、まだ終端でない場合には、
変数fをインクリメントして(ステップS20)、次の
フレームを読み出して上記ステップS15に戻って処理
を繰返す。
Then, it is determined whether or not the file has reached the end (step S19).
The variable f is incremented (step S20), the next frame is read, and the process returns to step S15 to repeat the process.

【0032】また、ステップS19においてファイルの
終端に達したと判断された場合は、この処理を抜ける。
If it is determined in step S19 that the end of the file has been reached, this processing is exited.

【0033】また、上記ステップS15において、e
(f)がしきい値trsより小さいと判定された場合に
は、HangCntの値が、例えば9より大きいか否か
を判定し(ステップS21)、HangCntの値が9
より小さいと判定されたときは、HangCntの値を
インクリメントして(ステップS22)、上記ステップ
S17に行く。一方、HangCntの値が9より大き
いと判定されたときは、Prevの値が1であるか否
か、すなわち、直前のフレームが有音であったか否かを
判定する(ステップS23)。ここで、Prevが1で
あれば、有音区間の終了フレームを示す変数ve(Vs
Cnt)に現在のフレームfの値をセットし、Prev
に0をセットし(ステップS24)、上記ステップS1
9に行く。一方、Prevが0であれば、何もしないで
上記ステップS19に行く。
In step S15, e
If it is determined that (f) is smaller than the threshold trs, it is determined whether the value of HangCnt is greater than, for example, 9 (step S21), and the value of HangCnt is 9
If it is determined that the value is smaller than the value, the value of HangCnt is incremented (step S22), and the process proceeds to step S17. On the other hand, when it is determined that the value of HangCnt is greater than 9, it is determined whether the value of Prev is 1, that is, whether or not the immediately preceding frame has sound (step S23). Here, if Prev is 1, the variable ve (Vs
Cnt) is set to the value of the current frame f, and Prev
Is set to 0 (step S24), and step S1 is set.
Go to 9. On the other hand, if Prev is 0, the process goes to step S19 without doing anything.

【0034】この処理の結果、ファイル中の有音区間、
無音区間の判定がされ、各有音区間が始まるフレームの
値と、各有音区間が終了するフレームの値が、各々変数
vb(VsCnt)、ve(VsCnt)に記憶され
る。ここで、変数VsCntは、有音区間の区間数をカ
ウントする変数であり、この処理を抜けた時点で、ファ
イル中の有音区間の総区間数を示している。
As a result of this processing, the sound section in the file,
A silent section is determined, and the value of a frame at which each voiced section starts and the value of a frame at which each voiced section ends are stored in variables vb (VsCnt) and ve (VsCnt), respectively. Here, the variable VsCnt is a variable for counting the number of voiced sections, and indicates the total number of voiced sections in the file at the time of exiting this process.

【0035】また、この処理のように変数HangCn
tを設定することにより有音区間から無音区間への遷移
が所定フレーム分猶予されることになるため、語尾の部
分を誤って無音と判定してしまうようなことを回避する
ことができるという効果を奏する。
Also, as in this process, the variable HangCn
By setting t, the transition from the voiced section to the silent section is delayed for a predetermined frame, so that it is possible to avoid the erroneous determination of the ending part as silence. To play.

【0036】続いて、図6は、上記図3のステップS3
における有音区間毎の平均フレームエネルギー計算処理
の内容を示すフローチャートである。
FIG. 6 is a flowchart showing the operation of step S3 in FIG.
5 is a flowchart showing the contents of an average frame energy calculation process for each sound section in FIG.

【0037】この処理が始まると、まず、有音区間のカ
ウント値を示す変数Cntの値を0に初期化しておく
(ステップS25)。
When this process starts, first, the value of a variable Cnt indicating the count value of a sound section is initialized to 0 (step S25).

【0038】次に、図5の処理によって求められた有音
区間の総区間数VsCntが0より大きいか否かを判定
する(ステップS26)。ここでVsCntが0以下で
あれば、ファイル中に有音区間は存在しないと判断し
て、何もしないでこの処理を抜ける。一方、ここでVs
Cntが0より大きければ、以下の式を用いて有音区間
Cntにおけるフレーム数vnを計算する(ステップS
27)。
Next, it is determined whether or not the total number of voiced sections VsCnt obtained by the processing of FIG. 5 is larger than 0 (step S26). If VsCnt is equal to or less than 0, it is determined that there is no sound section in the file, and the process exits without performing any operation. On the other hand, here Vs
If Cnt is larger than 0, the number of frames vn in the sound interval Cnt is calculated using the following equation (step S).
27).

【0039】[0039]

【数2】 (Equation 2)

【0040】次に、以下の式により有音区間Cntにお
ける平均フレームエネルギーEsec(Cnt)を計算
する(ステップS28)。
Next, the average frame energy Esec (Cnt) in the sound interval Cnt is calculated by the following equation (step S28).

【0041】[0041]

【数3】 (Equation 3)

【0042】そして、CntがVsCnt−1に満たな
いか否か、すなわち、全ての有音区間に対して平均フレ
ームエネルギーEsec(Cnt)の計算を終えていな
いか否かを判定し(ステップS29)、CntがVsC
nt−1に満たないのであれば、Cntの値をインクリ
メントして(ステップS30)、上記ステップS27に
戻って次の有音区間の平均フレームエネルギーEsec
(Cnt)の計算処理を行う。一方、ステップS29に
おいてCntの値がVsCnt−1以上であると判定さ
れれば、この処理を抜ける。
Then, it is determined whether or not Cnt is less than VsCnt-1, that is, whether or not the calculation of the average frame energy Esec (Cnt) has been completed for all sound sections (step S29). , Cnt is VsC
If it is less than nt-1, the value of Cnt is incremented (step S30), and the process returns to step S27 to return the average frame energy Esec of the next sound section.
(Cnt) is calculated. On the other hand, if it is determined in step S29 that the value of Cnt is equal to or greater than VsCnt-1, the process exits from this process.

【0043】続いて、図7は、上記図3のステップS4
における有音区間毎のゲイン計算処理の内容を示すフロ
ーチャートである。
FIG. 7 is a flowchart showing step S4 in FIG.
6 is a flowchart showing the content of a gain calculation process for each sound section in FIG.

【0044】この処理が始まると、まず、有音区間のカ
ウント値を示す変数Cntの値を0に初期化しておく
(ステップS31)。次に、図5の処理によって求めら
れた有音区間の総区間数VsCntが0より大きいか否
かを判定する(ステップS32)。ここでVsCntが
0以下であれば、ファイル中に有音区間は存在しないと
判断して、何もしないでこの処理を抜ける。一方、ここ
でVsCntが0より大きければ、以下の式により、図
6のステップS28で求めた、有音区間Cntにおける
平均フレームエネルギーEsec(Cnt)の、ファイ
ル中の全有音区間の平均値Eavrを計算する(ステッ
プS33)。
When this process starts, first, the value of a variable Cnt indicating the count value of a sound section is initialized to 0 (step S31). Next, it is determined whether or not the total number of sound sections VsCnt obtained by the processing of FIG. 5 is greater than 0 (step S32). If VsCnt is equal to or less than 0, it is determined that there is no sound section in the file, and the process exits without performing any operation. On the other hand, if VsCnt is greater than 0, the average Eavr of the average frame energy Esec (Cnt) in the sound section Cnt obtained in step S28 in FIG. Is calculated (step S33).

【0045】[0045]

【数4】 (Equation 4)

【0046】次に、有音区間CntにおけるゲインG
(Cnt)を、以下の式を用いて計算する(ステップS
34)。
Next, the gain G in the sound interval Cnt
(Cnt) is calculated using the following equation (Step S)
34).

【0047】[0047]

【数5】 (Equation 5)

【0048】ここで、数式中、sqrt( )は、カッ
コ内の式の平方根を示している。そして、CntがVs
Cnt−1に満たないか否か、すなわち、全ての有音区
間に対してゲインG(Cnt)の計算を終えていないか
否かを判定し(ステップS35)、CntがVsCnt
−1に満たないのであれば、Cntの値をインクリメン
トして(ステップS36)、上記ステップS34に戻っ
て次の有音区間のゲインG(Cnt)の計算処理を行
う。一方、ステップS35においてCntの値がVsC
nt−1以上であると判定されれば、この処理を抜け
る。
Here, in the formula, sqrt () indicates the square root of the formula in parentheses. And Cnt is Vs
It is determined whether or not Cnt is less than Cnt-1, that is, whether or not the calculation of the gain G (Cnt) has been completed for all sound sections (step S35).
If it is less than -1, the value of Cnt is incremented (step S36), and the process returns to step S34 to calculate the gain G (Cnt) of the next sound section. On the other hand, in step S35, the value of Cnt is VsC
If it is determined that the value is equal to or more than nt-1, the processing exits.

【0049】続いて、図8は、上記図3のステップS5
におけるゲインを音声データ中の所定の位置に書き込む
処理の内容を示すフローチャートである。
FIG. 8 is a flowchart showing the operation of step S5 in FIG.
5 is a flowchart showing the contents of a process for writing a gain in a predetermined position in the audio data in FIG.

【0050】図8において、この処理が始まると、ま
ず、フレーム番号のカウント値を示す変数fと、有音区
間のカウント値を示す変数Cntの値を0に初期化して
おく(ステップS37)。
In FIG. 8, when this process is started, first, the value of a variable f indicating a count value of a frame number and the value of a variable Cnt indicating a count value of a sound section are initialized to 0 (step S37).

【0051】次に、図5の処理で求められた有音区間の
総区間数VsCntが0より大きいか否かを判定する
(ステップS38)。ここでVsCntが0以下であれ
ば、ファイル中に有音区間は存在しないと判断して、何
もしないでこの処理を抜ける。
Next, it is determined whether or not the total number of sound sections VsCnt obtained in the processing of FIG. 5 is larger than 0 (step S38). If VsCnt is equal to or less than 0, it is determined that there is no sound section in the file, and the process exits without performing any operation.

【0052】一方、上記ステップS38において、Vs
Cntが0より大きければ、fがvb(Cnt)の値以
上であるか否かを判定する(ステップS39)。ここ
で、fがvb(Cnt)の値に満たないと判定すると、
ファイルが終端に達したか否かを判定し(ステップS4
4)、まだ終端でない場合にはfをインクリメントして
(ステップS45)、次のフレームデータを読み出し
て、ステップS39に戻る。このステップS44におい
てファイルの終端に達したと判断した場合は、この処理
を抜ける。
On the other hand, in step S38, Vs
If Cnt is greater than 0, it is determined whether f is equal to or greater than the value of vb (Cnt) (step S39). Here, if it is determined that f is less than the value of vb (Cnt),
It is determined whether the file has reached the end (step S4).
4) If not at the end, f is incremented (step S45), the next frame data is read, and the process returns to step S39. If it is determined in step S44 that the end of the file has been reached, this processing is exited.

【0053】ステップS39においてfがvb(Cn
t)の値以上であると判定すると、fはve(Cnt)
の値以下であるか否かを判定する(ステップS40)。
このとき、ステップS39,S40ともに判定がyes
であれば、現在のfは有音区間内にあることを示してい
る。
In step S39, f becomes vb (Cn
When it is determined that the value is equal to or more than the value of t), f is ve (Cnt)
It is determined whether or not the value is equal to or less than (step S40).
At this time, the determination of both steps S39 and S40 is yes.
If, it indicates that the current f is within the sound interval.

【0054】ここで、fはve(Cnt)の値以下であ
ると判定すると、フレームヘッダにG(Cnt)の値を
書き換える(ステップS41)。一方、ステップS40
においてfはve(Cnt)より大きいと判断すると、
Cntをインクリメントする(ステップS42)。
Here, if it is determined that f is equal to or less than the value of ve (Cnt), the value of G (Cnt) is rewritten in the frame header (step S41). On the other hand, step S40
When it is determined that f is larger than ve (Cnt),
Cnt is incremented (step S42).

【0055】次に、CntがVsCnt−1に満たない
か否か、すなわち、全ての有音区間におけるフレームヘ
ッダの書き換えを終えていないか否かを判定し(ステッ
プS43)、CntがVsCnt−1に満たなければ、
ファイル終端に達したか否かを判定する(ステップS4
4)。一方、CntがVsCnt−1以上であれば、こ
の処理を抜ける。
Next, it is determined whether or not Cnt is less than VsCnt-1, that is, whether or not the rewriting of the frame header in all sound sections has been completed (step S43). If less than
It is determined whether or not the end of the file has been reached (step S4)
4). On the other hand, if Cnt is equal to or greater than VsCnt-1, the process exits this process.

【0056】以上説明した手段によって、各フレームに
おけるゲイン値を設定することができる。この後、音声
データの再生時、各フレームの音声に当該フレームヘッ
ダのゲイン値を乗じることがユーザにより選択された場
合には、音声レベルを自動的に調整した音声データが再
生される。また、各フレームの音声に当該フレームヘッ
ダのゲイン値を乗じないことが選択された場合には、音
声レベルを調整しない状態の元の音声データが再生され
る。このようにして、本実施形態では音声レベルを自動
的に調整した音声データを再生するか、元の音声データ
を再生するかをユーザが選択することができる。
The gain value in each frame can be set by the means described above. Thereafter, when reproducing the audio data, if the user selects to multiply the audio of each frame by the gain value of the frame header, the audio data whose audio level is automatically adjusted is reproduced. When it is selected not to multiply the audio of each frame by the gain value of the frame header, the original audio data without adjusting the audio level is reproduced. In this manner, in the present embodiment, the user can select whether to reproduce the audio data whose audio level is automatically adjusted or to reproduce the original audio data.

【0057】上記した実施形態によれば、すでに記録さ
れている音声データに対して、音声データ全体との関係
において、各有音区間の音声レベルを自動的に調整する
ようにしたので、ユーザはボリュームを調整することな
く、音声を一定の音量で聞くことができるという効果を
奏する。
According to the above-described embodiment, the audio level of each sound section is automatically adjusted with respect to the already recorded audio data in relation to the entire audio data. There is an effect that the sound can be heard at a constant volume without adjusting the volume.

【0058】また、すでに記録されている音声データに
対して音声認識をさせる場合にも、音声認識処理に先立
って、本実施形態による音声レベルの調整処理を行え
ば、音声レベルが一定に保たれるために安定した音声認
識を行うことが可能となるという効果を奏する。
Also, in the case of performing voice recognition on already recorded voice data, if the voice level adjustment processing according to the present embodiment is performed prior to the voice recognition processing, the voice level is kept constant. Therefore, there is an effect that stable voice recognition can be performed.

【0059】さらに、本実施形態においては、パーソナ
ルコンピュータ13により音声レベルの調整処理を行な
うようにしたが、音声録音装置としてのディジタルレコ
ーダ10内において、音声レベルの調整処理を実現する
ようにしてもよい。
Further, in the present embodiment, the audio level adjustment processing is performed by the personal computer 13, but the audio level adjustment processing may be realized in the digital recorder 10 as an audio recording device. Good.

【0060】なお、本発明は上述した実施形態に限定さ
れるものではなく、発明の主旨を逸脱しない範囲内にお
いて種々の変形や応用が可能であることはもちろんであ
る。
It should be noted that the present invention is not limited to the above-described embodiment, and it is needless to say that various modifications and applications can be made without departing from the gist of the invention.

【0061】[0061]

【発明の効果】請求項1あるいは2に記載の発明によれ
ば、聞く人に応じて音量をより適切な大きさに自動的に
調節することができる音声処理装置を提供することがで
きるという効果を奏する。
According to the first or second aspect of the present invention, it is possible to provide an audio processing apparatus capable of automatically adjusting a volume to a more appropriate level according to a listener. To play.

【0062】また、請求項3に記載の発明によれば、音
声レベルを自動的に調整した音声データを再生するか、
元の音声データを再生するかをユーザが選択することが
できるという効果を奏する。
According to the third aspect of the present invention, whether to reproduce the audio data whose audio level is automatically adjusted,
There is an effect that the user can select whether to reproduce the original audio data.

【図面の簡単な説明】[Brief description of the drawings]

【図1】(A)は本実施形態に係る音声処理の一形態を
説明するための図であり、(B)は制御部の構成を示す
図である。
FIG. 1A is a diagram for describing one form of audio processing according to the present embodiment, and FIG. 1B is a diagram illustrating a configuration of a control unit.

【図2】フレームの構成を示す図である。FIG. 2 is a diagram illustrating a configuration of a frame.

【図3】本発明に係る音声レベルの調整処理の概要を示
すフローチャートである。
FIG. 3 is a flowchart illustrating an outline of an audio level adjustment process according to the present invention.

【図4】図3に示すステップS1の有音/無音区間の判
定時のしきい値計算処理の内容を示すフローチャートで
ある。
FIG. 4 is a flowchart showing a content of a threshold value calculation process at the time of determining a sound / non-sound section in step S1 shown in FIG. 3;

【図5】図3のステップS2における有音/無音区間判
定処理の内容を示すフローチャートである。
FIG. 5 is a flowchart showing the content of a sound / non-sound section determination process in step S2 of FIG. 3;

【図6】図3のステップS3における有音区間毎の平均
フレームエネルギー計算処理の内容を示すフローチャー
トである。
FIG. 6 is a flowchart showing the contents of an average frame energy calculation process for each sound section in step S3 of FIG. 3;

【図7】図3のステップS4における有音区間毎のゲイ
ン計算処理の内容を示すフローチャートである。
FIG. 7 is a flowchart showing the content of a gain calculation process for each sound section in step S4 of FIG. 3;

【図8】図3のステップS5におけるゲインを音声デー
タ中の所定の位置に書き込む処理の内容を示すフローチ
ャートである。
FIG. 8 is a flowchart showing the contents of a process of writing a gain at a predetermined position in audio data in step S5 of FIG.

【符号の説明】[Explanation of symbols]

10…ディジタルレコーダ、 11…ミニチュアカード、 12…PCカードアダプタ、 13…パーソナルコンピュータ、 14…制御プログラム、 30A…音声判定部、 30B…平均フレームエネルギー計算部、 30C…音声レベル調整ゲイン計算部、 30D…音声レベル調整ゲイン書き込み部、 30E…選択処理部。 DESCRIPTION OF SYMBOLS 10 ... Digital recorder, 11 ... Miniature card, 12 ... PC card adapter, 13 ... Personal computer, 14 ... Control program, 30A ... Speech judgment part, 30B ... Average frame energy calculation part, 30C ... Speech level adjustment gain calculation part, 30D ... Audio level adjustment gain writing unit, 30E ... selection processing unit.

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 処理すべき音声データの有音区間と無音
区間とを判定する音声判定手段と、 この音声判定手段で判定された有音区間について、各有
音区間の平均フレームエネルギーを計算する平均フレー
ムエネルギー計算手段と、 この平均フレームエネルギー計算手段により計算された
各有音区間の平均フレームエネルギーに基づいて、各有
音区間の音声レベルを調整するための音声レベル調整ゲ
インを計算する音声レベル調整ゲイン計算手段と、 この音声レベル調整ゲイン計算手段により求めた音声レ
ベル調整ゲインを上記音声データの所定の位置に書き込
む音声レベル調整ゲイン書き込み手段と、 を具備することを特徴とする音声処理装置。
1. A voice determining means for determining a voiced section and a silent section of voice data to be processed, and calculating an average frame energy of each voiced section for the voiced section determined by the voice determining means. Average frame energy calculating means; and a voice level for calculating a voice level adjustment gain for adjusting a voice level of each voiced section based on the average frame energy of each voiced section calculated by the average frame energy calculating means. An audio processing apparatus comprising: an adjustment gain calculation unit; and an audio level adjustment gain writing unit that writes the audio level adjustment gain obtained by the audio level adjustment gain calculation unit at a predetermined position in the audio data.
【請求項2】 上記音声レベル調整ゲイン計算手段は、
上記各有音区間の平均フレームエネルギーの、全有音区
間での平均値に基づいて前記音声レベル調整ゲインを計
算すること、を特徴とする請求項1記載の音声処理装
置。
2. The sound level adjusting gain calculating means,
2. The audio processing apparatus according to claim 1, wherein the audio level adjustment gain is calculated based on an average value of the average frame energy of each audio section in all audio sections.
【請求項3】 前記音声データを再生するにあたって、
各フレームに対応する上記音声レベル調整ゲインを当該
音声データに乗じるか否かをユーザに選択させるための
選択部を有することを特徴とする請求項1または2記載
の音声処理装置。
3. When reproducing the audio data,
The audio processing apparatus according to claim 1, further comprising a selection unit configured to allow a user to select whether to multiply the audio data by the audio level adjustment gain corresponding to each frame.
JP10354545A 1998-12-14 1998-12-14 Voice processor Withdrawn JP2000181477A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10354545A JP2000181477A (en) 1998-12-14 1998-12-14 Voice processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10354545A JP2000181477A (en) 1998-12-14 1998-12-14 Voice processor

Publications (1)

Publication Number Publication Date
JP2000181477A true JP2000181477A (en) 2000-06-30

Family

ID=18438282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10354545A Withdrawn JP2000181477A (en) 1998-12-14 1998-12-14 Voice processor

Country Status (1)

Country Link
JP (1) JP2000181477A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080219A (en) * 2007-09-26 2009-04-16 Nippon Telegr & Teleph Corp <Ntt> Level adjustment determination device, method, and program
WO2010131470A1 (en) * 2009-05-14 2010-11-18 シャープ株式会社 Gain control apparatus and gain control method, and voice output apparatus
JP2012507059A (en) * 2008-10-29 2012-03-22 ドルビー インターナショナル アーベー Protection of signal clipping using existing audio gain metadata
JP2015206928A (en) * 2014-04-22 2015-11-19 富士通株式会社 Voice processor, voice processing program, and voice processing method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080219A (en) * 2007-09-26 2009-04-16 Nippon Telegr & Teleph Corp <Ntt> Level adjustment determination device, method, and program
JP2012507059A (en) * 2008-10-29 2012-03-22 ドルビー インターナショナル アーベー Protection of signal clipping using existing audio gain metadata
WO2010131470A1 (en) * 2009-05-14 2010-11-18 シャープ株式会社 Gain control apparatus and gain control method, and voice output apparatus
CN102422349A (en) * 2009-05-14 2012-04-18 夏普株式会社 Gain control apparatus and gain control method, and voice output apparatus
JPWO2010131470A1 (en) * 2009-05-14 2012-11-01 シャープ株式会社 Gain control device, gain control method, and audio output device
JP2015206928A (en) * 2014-04-22 2015-11-19 富士通株式会社 Voice processor, voice processing program, and voice processing method

Similar Documents

Publication Publication Date Title
US7277856B2 (en) System and method for speech synthesis using a smoothing filter
CA2253749C (en) Method and device for instantly changing the speed of speech
KR101334366B1 (en) Method and apparatus for varying audio playback speed
JP2010054991A (en) Recording device
US6085157A (en) Reproducing velocity converting apparatus with different speech velocity between voiced sound and unvoiced sound
JP2000181477A (en) Voice processor
JP2001022370A (en) Voice guidance device
JP2001184100A (en) Speaking speed converting device
JP3645030B2 (en) Electronic musical instruments
KR100251497B1 (en) Audio signal reproducing method and the apparatus
JP2000174575A (en) Voice processor
KR101349797B1 (en) Apparatus and method for voice file playing in electronic device
KR100383061B1 (en) A learning method using a digital audio with caption data
JP3978465B2 (en) Recording / playback device
KR100447371B1 (en) An installation for language study having a comparative study mode and language study method thereof
JP2007256815A (en) Voice-reproducing apparatus, voice-reproducing method, and voice reproduction program
JP2006011002A (en) Unit, method and program for audio response
JPH02153397A (en) Voice recording device
JP3267193B2 (en) Voice reading device
JPH0883096A (en) Voice time base converter
JPH11212595A (en) Voice processor, recording medium recorded with voice recognition program, and recording medium recorded with processing program
KR19990011271A (en) Repeat play method using computer system
JP2000215024A (en) Voice answering system
JP2003076399A (en) Device for modulating voice to sound of diversified forms
JPS63179499A (en) Sound recording and reproducing device

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060307