JP2008048342A - Sound acquisition apparatus - Google Patents
Sound acquisition apparatus Download PDFInfo
- Publication number
- JP2008048342A JP2008048342A JP2006224405A JP2006224405A JP2008048342A JP 2008048342 A JP2008048342 A JP 2008048342A JP 2006224405 A JP2006224405 A JP 2006224405A JP 2006224405 A JP2006224405 A JP 2006224405A JP 2008048342 A JP2008048342 A JP 2008048342A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- speech
- signal
- speaker
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
この発明は、会議などに用いられ、会議参加者の発話音声を収音する収音装置に関するものである。 The present invention relates to a sound collection device that is used in a conference and the like and collects speech sounds of conference participants.
従来から、入力音声信号を時間軸に伸長し、話速変換をすることで、発言内容を聴きとり易くする装置が提案されている。しかし、入力音声信号を伸長すると、話者の音声以外の音(例えばBGM)も同時に伸長されてしまう。また、話者の音声が入力されていない場合にもBGMが伸長されてしまう。聴者が、話者の音声と同時に(並行して)そのBGMも聞いている場合、BGMまで伸長されてしまうと、元の楽音の雰囲気を感じることができないという問題が発生する。 2. Description of the Related Art Conventionally, there has been proposed an apparatus that makes it easy to listen to the content of an utterance by expanding an input voice signal on the time axis and converting the speech speed. However, when the input voice signal is expanded, sounds other than the speaker's voice (for example, BGM) are also expanded at the same time. Further, the BGM is expanded even when the voice of the speaker is not input. When the listener is listening to the BGM at the same time (in parallel) with the speaker's voice, if the listener is extended to the BGM, there is a problem that the atmosphere of the original musical sound cannot be felt.
そこで、入力音声信号を分析し、話者音声と判断した場合にのみ話速変換処理を行う装置が提案されている(例えば特許文献1参照)。 In view of this, an apparatus has been proposed in which speech speed conversion processing is performed only when an input speech signal is analyzed and determined to be speaker speech (see, for example, Patent Document 1).
また、マイクを複数設置し、各マイクから距離が等しい地点からの(同位相の)収音音声を発話音声とし、それ以外の収音音声を背景音として分離する装置が提案されている(例えば特許文献2参照)。 In addition, a device has been proposed in which a plurality of microphones are installed, and the collected voices from the same distance from each microphone (in the same phase) are used as speech voices and other collected voices are separated as background sounds (for example, Patent Document 2).
また、音声と背景音を独立した複数のチャンネルで扱い、音声チャンネルのみ話速変換処理を行うように構成した装置も提案されている(例えば特許文献3参照)。
しかしながら、特許文献1の装置では、発話音声と同タイミングで収音される背景音については、発話音声と同様に話速変換されてしまうという問題が有った。 However, the apparatus of Patent Document 1 has a problem that the background sound collected at the same timing as the uttered voice is converted into the speech speed in the same manner as the uttered voice.
また、特許文献2の装置では、各マイクからの距離が等しい地点からの音声しか発話音声として処理できないため、この地点以外に発話者が存在した場合に、その話者の音声について話速変換できないという問題点が有った。 Further, since the apparatus of Patent Document 2 can process only speech from a point where the distance from each microphone is equal as speech speech, if there is a speaker other than this point, speech speed cannot be converted for that speaker's speech. There was a problem.
また、特許文献3の装置では、録音するときに発話音声と背景音を別チャンネルで録音する必要があり、発話者には特定チャンネルに割り当てられたマイクに対し発声する必要があった。 Further, in the apparatus of Patent Document 3, it is necessary to record the speech sound and the background sound in separate channels when recording, and the speaker needs to speak to the microphone assigned to the specific channel.
本発明は、収音した音声から、装置周囲の任意の位置に存在する話者の音声だけを的確に話速変換し、背景音は話速変換しない収音装置を提供することを目的とする。 It is an object of the present invention to provide a sound collection device that accurately converts only the voice of a speaker existing at an arbitrary position around the device from the collected sound and does not convert the background sound. .
この発明の収音装置は、複数のマイクを配列してなるマイクアレイと、
複数のユーザ方向に対して収音ビームを形成するとともに、該収音ビーム強度を比較することで話者方位を同定する収音制御部と、前記話者方位の収音ビームを発話音声信号として選択するとともに、話者方位の収音ビーム以外の収音ビームを背景音声信号として選択する音声信号選択手段と、前記発話音声信号を話速変換する話速変換手段と、前記話速変換手段で変換された発話音声信号と、前記音声信号選択手段が選択した背景音声信号と、をミキシングするミキサと、を備えたことを特徴とする。
The sound collection device of the present invention includes a microphone array in which a plurality of microphones are arranged,
A sound collection control unit that forms a sound collection beam for a plurality of user directions and compares the sound collection beam intensities to identify a speaker direction, and uses the sound collection beam of the speaker direction as a speech signal A speech signal selection means for selecting a sound collection beam other than the sound collection beam of the speaker direction as a background voice signal, a speech speed conversion means for converting the speech speed of the speech voice signal, and the speech speed conversion means. And a mixer that mixes the converted speech audio signal and the background audio signal selected by the audio signal selection means.
この発明では、各マイクの収音音声信号にそれぞれ所定の遅延を付与し、特定の方向に強い指向性を有する収音ビームを複数形成する。これらの収音ビームのレベルを比較することで話者方位を同定する。例えば、最もレベルが高い収音ビームの方向を話者方位とする。話者方位の収音ビームを発話者音声信号として、これを話速変換してからミキサに出力し、他の方向の収音ビームは話速変換せずにそのままミキサに出力する。 In the present invention, a predetermined delay is given to the collected sound signal of each microphone, and a plurality of sound collecting beams having strong directivity in a specific direction are formed. The speaker orientation is identified by comparing the levels of these sound collecting beams. For example, the direction of the sound collecting beam having the highest level is set as the speaker orientation. The collected sound beam in the direction of the speaker is used as a speaker voice signal, which is converted into the speech speed and then output to the mixer. The collected sound beam in the other direction is output to the mixer as it is without converting the speech speed.
また、この発明の収音装置は、前記音声信号選択手段は、前記発話音声信号として選択した収音ビーム以外の方向ついて、所定レベル以上の収音ビームが存在する場合、その方向の収音ビームのみを背景音声信号として選択することを特徴とする。 In the sound collecting device of the present invention, when there is a sound collecting beam of a predetermined level or more in a direction other than the sound collecting beam selected as the speech sound signal, the sound signal selecting means has a sound collecting beam in that direction. Is selected as a background audio signal.
この発明では、発話者が存在すると判定した方向以外に高いレベルの収音ビームが存在する場合、その方向に背景音声の音源が存在するとして、その方向の収音ビームを背景音声信号としてミキサに出力する。これにより、背景音声についても的確に収音することができる。 In the present invention, when a high-level sound collecting beam exists in a direction other than the direction in which it is determined that a speaker is present, it is assumed that a sound source of background sound exists in that direction, and the sound collecting beam in that direction is input to the mixer as a background sound signal Output. Thereby, it is possible to accurately collect the background voice.
また、この発明の収音装置は、前記音声信号選択手段は、前記発話音声信号として選択された収音ビームと、前記発話音声信号として選択された収音ビームに隣接する方向の収音ビームと、の差分信号を発話音声信号として前記話速変換手段に入力することを特徴とする。 Further, in the sound collecting device of the present invention, the sound signal selecting means includes a sound collecting beam selected as the uttered sound signal, and a sound collecting beam in a direction adjacent to the sound collecting beam selected as the uttered sound signal. The difference signal is input to the speech speed conversion means as an utterance voice signal.
この発明では、発話者音声信号として選択した収音ビームから、隣接する方向の収音ビームを差分する。これにより、発話者音声信号として選択した収音ビームに含まれていた背景音声のレベルを低減し、より的確に発話者の音声のみを話速変換することができる。 In the present invention, the sound collecting beam in the adjacent direction is subtracted from the sound collecting beam selected as the speaker voice signal. Thereby, the level of the background voice included in the collected sound beam selected as the speaker voice signal can be reduced, and only the voice of the speaker can be converted more accurately.
また、この発明の収音装置は、前記収音制御部が形成した複数の収音ビームから発話音声の音声信号を抽出する発話音声信号抽出手段をさらに備え、前記収音制御部は、複数の収音ビームのうち最もレベルが高く、かつ前記発話音声信号抽出手段が発話音声の音声信号を抽出した収音ビームの方向を話者方位と判定することを特徴とする。 The sound collection device according to the present invention further includes speech sound signal extraction means for extracting speech signals of speech sound from a plurality of sound collection beams formed by the sound collection control unit, and the sound collection control unit includes a plurality of sound collection control units. It is characterized in that the direction of the sound collecting beam having the highest level among the sound collecting beams and from which the speech signal extracting means extracts the speech signal of the speech is determined as the speaker orientation.
この発明では、各収音ビームから発話音声の音声信号を抽出する。例えば収音ビームの音声特徴量を抽出し、予め記憶してある発話音声の音声特徴量と比較し、一致すれば発話音声と推定する。収音制御部は、最もレベルが高く、かつ発話音声と推定される音声信号が含まれる収音ビームについて発話者音声信号として選択するので、より的確に発話者の音声のみを話速変換することができる。 In the present invention, the speech signal of the speech speech is extracted from each sound collection beam. For example, the voice feature amount of the collected sound beam is extracted, compared with the voice feature amount of the uttered voice stored in advance, and if they match, the voice is estimated. The sound collection control unit selects the sound collection beam having the highest level and the sound signal estimated as the speech sound as the speaker sound signal, so that only the sound of the speaker can be converted more accurately. Can do.
この発明によれば、マイクアレイにより形成した収音ビームで発話者の方向を判定し、発話者の方向に対する収音ビームについてのみ話速変換し、他の方向の収音ビームについてそのまま出力することで、発話者の音声だけを的確に話速変換し、背景音は話速変換しないで音声を収音することができる。 According to the present invention, the direction of the speaker is determined by the sound collection beam formed by the microphone array, the speech speed is converted only for the sound collection beam with respect to the direction of the speaker, and the sound collection beam in the other direction is output as it is. Thus, only the voice of the speaker can be accurately converted, and the background sound can be collected without converting the voice speed.
図面を参照して、本発明の実施形態に係る放収音装置について説明する。この放収音装置は、会議において、拡声機、録音機等として用いられる。図1は、放収音装置の構成を示すブロック図である。同図に示すように、この放収音装置は、スピーカ1、複数のマイク2A〜2M、記憶部3、音声信号処理部4、話速変換部5、ミキサ6、録音・再生部7、コントローラ8、および入出力I/F9を備えている。
With reference to the drawings, a sound emission and collection device according to an embodiment of the present invention will be described. This sound emission and collection device is used as a loudspeaker, a sound recorder, or the like in a conference. FIG. 1 is a block diagram showing a configuration of a sound emission and collection device. As shown in the figure, the sound emission and collection device includes a speaker 1, a plurality of
複数のマイク2A〜2Mは、一定の間隔で直線状(またはマトリクス状、ハニカム状)に配列され、マイクアレイを構成する。各マイク2は、一般的にはダイナミックマイクを用いるが、コンデンサマイク等、その他の形式を用いてもよい。また、マイク配列個数、配列間隔は、この放収音装置を設置する環境や、必要とする周波数帯域等により適宜設定する。
The plurality of
マイク2A〜2Mの周囲のある位置で音声が発せられると、各マイク2がこれを収音する。マイク2は、収音した音声から音声信号を音声信号処理部4に出力する。なお、図1においてはフロントエンドのアンプやアナログ音声信号をディジタル音声信号に変換するA/D変換器等は省略している。各マイク2から出力される音声信号は、音声信号処理部4にて合成され、話速変換部5、またはミキサ6に出力される。音声信号処理部4は、コントローラ8の指示に従って、各マイク2から出力された音声信号を選択的に出力する。各マイク2で音声を収音した際、音声は各マイク2と音源との距離に応じた伝搬時間で伝搬されるので、各マイク2では収音タイミングに時間差が生じる。
When sound is emitted at a certain position around the
ここで、例えば全てのマイク2に前方から同タイミングで音波が到来したとすると、各マイク2から出力された音声信号は、合成によって強められる。一方で、これ以外の方向から音波が到来すると、各マイク2から出力される音声信号はそれぞれ位相が異なるために合成されることによって弱められる。したがって、アレイマイクの感度はビーム状に絞り込まれて前方にのみ主感度(収音ビーム)を形成する。 Here, for example, if sound waves arrive at all the microphones 2 from the front at the same timing, the audio signals output from the respective microphones 2 are strengthened by synthesis. On the other hand, when sound waves arrive from other directions, the audio signals output from the microphones 2 are weakened by being synthesized because they have different phases. Therefore, the sensitivity of the array microphone is narrowed down into a beam shape, and the main sensitivity (sound collecting beam) is formed only in the front.
音声信号処理部4は、各マイク2が出力した音声信号にそれぞれ所定の遅延時間を付与することで収音ビームを斜めに向けることができる。収音ビームを斜めにする場合、一方の端部マイク2から所定時間が経過する毎に順次隣のマイク2から音声信号を出力するように設定する。例えば音源がマイクアレイの一方の端部前方に存在する場合、音源に最も近い一方の端部から音波が到来し、反対の端部に最後に音波が到来するが、音声信号処理部4は、この伝搬時間差を補正するように各マイク2の音声信号に遅延時間を付与した後合成する。これにより、この方向の音声信号を合成によって強められる。したがって、一列に並んでいるマイク2から出力する音声信号を一端から他端に向けて順次遅延することにより、収音ビームは、その遅延時間に応じて傾斜する。 The audio signal processing unit 4 can direct the sound collection beam obliquely by giving a predetermined delay time to the audio signal output from each microphone 2. When the sound collecting beam is inclined, the sound signal is set to be sequentially output from the adjacent microphone 2 every time a predetermined time elapses from one end microphone 2. For example, when the sound source is present in front of one end of the microphone array, the sound wave comes from one end closest to the sound source, and the sound wave comes last to the opposite end. In order to correct this propagation time difference, the audio signal of each microphone 2 is added with a delay time and then synthesized. Thereby, the audio signal in this direction can be strengthened by synthesis. Therefore, by sequentially delaying the audio signals output from the microphones 2 arranged in a row from one end to the other end, the sound collection beam is inclined according to the delay time.
また、この収音ビームは複数を同時に形成することも可能である。図2は、音声信号処理部4のうち、マイク2に接続される主要部の構成を示すブロック図である。マイク2A〜2Mは、それぞれ音声信号処理部4のディジタルフィルタ41A〜41Mに接続される。マイク2A〜2Mで収音した音声は、ディジタル音声信号としてディジタルフィルタ41A〜41Mに入力される。なお、図2においては、ディジタルフィルタ41A〜41Mの内、ディジタルフィルタ41Aについてのみ詳細なブロック図を図示するが、他のディジタルフィルタ41B〜41Mについても同様の構造であり、同様の動作を行うものである。
Also, a plurality of sound collecting beams can be formed simultaneously. FIG. 2 is a block diagram illustrating a configuration of a main part connected to the microphone 2 in the audio signal processing unit 4. The
ディジタルフィルタ41Aは、複数段の出力を有するディレイバッファ42Aを備えている。ディレイバッファ42Aの各段の遅延量は、マイクアレイのマイク2の配置、およびマイクアレイ前方の領域(発話者を検出する領域)に応じて設定される。この例においてディレイバッファ42Aは4段の出力を有しており、これらの出力信号がFIRフィルタ431A〜434Aに入力される。
The
ディレイバッファ42Aは、マイク2Aが出力した音声信号に対してそれぞれ異なる遅延時間を付与した音声信号を各段にバッファし、FIRフィルタ431A〜434Aに各遅延音声信号を出力する。ここでFIRフィルタ431A〜434Aに出力する遅延音声信号は、マイクアレイ前方の各領域に対応するものである。図3は音源方向検出方法の例を示す図である。同図(A)は音源とマイクとの位置関係と、音源から発生した音が各マイクで収音される際のディレイとの関係を示した図であり、同図(B)、(C)は収音された音声信号のディレイに基づくディレイ補正量の形成概念を示す図である。
The
同図に示すように、この放収音装置においてはマイクアレイ前方に4つの部分領域101〜104を設定している。部分領域101で発生した音は最も近いマイク2Aで最初に収音される。そして、部分領域101とマイク2との距離に応じて順に、各マイクで収音され、最も遠いマイク(同図においてマイク2L)で最後に収音される。一方、部分領域104で発生した音は最も近いマイク2Lで最初に収音され、部分領域104とマイク2との距離に応じて順に、各マイクで収音され、最も遠いマイク2Aで最後に収音される。このように、各領域で発生する音はマイクとの距離に応じた遅延時間(ディレイ)で収音される。
As shown in the figure, in this sound emission and collection device, four
ここで、部分領域101に対しては、図3(B)に示すように、各マイク2A〜2Lで収音される音声信号を遅延処理する。すなわち、図3(A)に示すディレイを補正するように対応するディレイ補正量を設定する。一方で部分領域104に対しては、図3(C)に示すように各マイク2A〜2Lで収音される音声信号を遅延処理する。
Here, for the
部分領域101に対応する収音ビームを構成するための遅延音声信号がディレイバッファ42Aにおいて生成され、FIRフィルタ431Aに出力される。また、部分領域102に対応する収音ビームを構成するための遅延音声信号がFIRフィルタ432Aに出力される。同様に、部分領域103に対応する収音ビームを構成するための遅延音声信号がFIRフィルタ433Aに出力され、部分領域104に対応する収音ビームを構成するための遅延音声信号がFIRフィルタ434Aに出力される。これらの遅延音声信号の遅延量は、図3に示すようにマイク2と各領域との距離に応じて設定される。例えば部分領域101に対応する遅延音声信号は、マイク2Aと部分領域101との距離が近いため遅延量が大きく、部分領域104に対応する遅延音声信号は、マイク2Aと部分領域104との距離が最も遠いために遅延量が小さい。
A delayed sound signal for forming a sound collecting beam corresponding to the
図2において、FIRフィルタ431A〜434Aは全て同じ構成からなり、それぞれに入力された遅延音声信号をフィルタリングして出力する。FIRフィルタ431A〜434Aは、ディレイバッファ42Aでは実現できない詳細な遅延時間を設定することができる。すなわち、FIRフィルタのサンプリング周期とタップ数とを所望の値に設定することにより、例えばディレイバッファ42Aでのサンプリング周期を遅延時間の整数部分とする場合にこの遅延時間の小数点部分を実現することができる。
In FIG. 2, the FIR filters 431A to 434A all have the same configuration, and filter and output the delayed audio signals input thereto. The FIR filters 431A to 434A can set a detailed delay time that cannot be realized by the
FIRフィルタ431A〜434Aから出力された遅延音声信号は、それぞれのアンプ441A〜444Aで増幅されて、加算器45A〜45Dに入力される。他のディジタルフィルタ41B〜41Mにおいてもディジタルフィルタ41Aと同じ構成からなり、それぞれに予め設定された遅延条件にしたがって遅延音声信号を加算器45A〜45Dに出力する。
The delayed audio signals output from the FIR filters 431A to 434A are amplified by the
加算器45Aは、各ディジタルフィルタ41A〜41Mから入力される遅延音声信号を合成して、図3における部分領域101に対応する収音ビームを生成する。同様に、加算器45Bは、各ディジタルフィルタ41A〜41Mから入力される遅延音声信号を合成して、図3における部分領域102に対応する収音ビームを生成し、加算器45Cは、各ディジタルフィルタ41A〜41Mから入力される遅延音声信号を合成して、図3における部分領域103に対応する収音ビームを生成する。また、加算器45Dは、各ディジタルフィルタ41A〜41Mから入力される遅延音声信号を合成して、図3における部分領域104に対応する収音ビームを生成する。
The adder 45A synthesizes the delayed audio signals input from the
各加算器45A〜45Dから出力される収音ビームは、バンドパスフィルタ(BPF)46に出力される。BPF46は、各収音ビームをフィルタリングして所定の周波数帯域の収音ビームをレベル判定部47に出力する。ここで、BPF46は、マイクアレイの幅やマイク2の設置間隔に応じてビーム化される周波数帯域が異なることを利用し、各収音ビームで収音したい音声に対応する周波数帯域を通過帯域に設定する。例えば収音したい音声が話者の発話音声であれば、人の音声帯域に相当する周波数帯域を通過帯域に設定すればよい。 The collected sound beams output from the adders 45 </ b> A to 45 </ b> D are output to a band pass filter (BPF) 46. The BPF 46 filters each sound collection beam and outputs a sound collection beam in a predetermined frequency band to the level determination unit 47. Here, the BPF 46 uses the fact that the frequency band to be beamed differs depending on the width of the microphone array and the installation interval of the microphones 2, and sets the frequency band corresponding to the sound to be collected by each sound collecting beam as the pass band. Set. For example, if the voice to be collected is the voice of the speaker, a frequency band corresponding to the human voice band may be set as the pass band.
レベル判定部47は、各収音ビームのレベルを示す情報をコントローラ8に出力する。コントローラ8は、入力された各収音ビームのレベルを比較し、最もレベルが高い収音ビームを選択する。収音ビームのレベルが高いということは、この収音ビームに対応する領域に音源(話者)が存在することとなり、図3において示した4つの領域に区分した場合における話者の存在領域を検出することができる。
The level determination unit 47 outputs information indicating the level of each sound collecting beam to the
ここで、コントローラ8は、最もレベルの高い収音ビームに対応する領域に基づいて、話者の存在領域を示す情報(以下、話者位置情報と言う。)を生成する。なお、コントローラ8は、最もレベルの高い収音ビームのレベル(絶対レベル)が所定の閾値(例えば一般的な発話音声のレベル)未満である場合は、話者が存在しないとして話者位置情報を生成しないようにしてもよい。
Here, the
コントローラ8は、生成した話者位置情報に基づいて、信号選択部48に、話者位置情報に対応する収音ビームを選択してこれを話者音声信号として話速変換部5に出力するように設定する。また、コントローラ8は、信号選択部48に、話者位置情報の示す領域以外の方向に対応する収音ビームのうちいずれかを選択してこれを背景音声信号としてミキサ6に出力するように設定する。なお、コントローラ8は、信号選択部48に、話者位置情報の示す領域以外の方向に対応する収音ビームを複数選択し、これらを合成してミキサ6に出力するように設定してもよい。無論、話者位置情報の示す領域以外の方向に対応する収音ビームを全て合成してミキサ6に出力するようにしてもよい。
Based on the generated speaker position information, the
ここで、各収音ビームのレベルによって、出力される話者音声信号、および背景音声信号には以下の2パターンが考えられる。
(1)背景音が点音源である場合
この場合、話者位置情報の示す領域以外の方向に対応する収音ビームのうちいずれか1つについて、高いレベルを示すものが含まれる。従って、コントローラ8は、各収音ビームのレベルを比較した結果、話者位置情報の示す領域以外の方向に対応する収音ビームのうちいずれか1つに所定値以上のレベル(ただし、上記所定の閾値未満のレベル)を検出した場合、この方向の収音ビームを背景音声信号として出力するように信号選択部48に設定する。
(2)背景音が無定位である場合
この場合、話者位置情報の示す領域以外の方向に対応する収音ビームの複数について高いレベルを示す。従って、コントローラ8は、各収音ビームのレベルを比較した結果、話者位置情報の示す領域以外の方向に対応する収音ビームで、所定数以上(例えば過半数以上)に所定値以上のレベル(ただし、上記所定の閾値未満)を検出した場合、これらの収音ビームのうち最もレベルの高いものを背景音声信号として出力するように信号選択部48に設定する。このとき、話者位置情報に対応する収音ビームにも当該背景音の成分が含まれているため、コントローラ8は、話者位置情報に対応する収音ビームと、隣接する収音ビームとの差分について話者音声信号として出力するように信号選択部48に設定する。
Here, depending on the level of each sound collecting beam, the following two patterns can be considered for the speaker voice signal and the background voice signal to be output.
(1) When the background sound is a point sound source In this case, one of the collected sound beams corresponding to directions other than the area indicated by the speaker position information includes a high level. Therefore, as a result of comparing the levels of the respective sound collecting beams, the
(2) When the background sound is non-localized In this case, a high level is shown for a plurality of sound collecting beams corresponding to directions other than the region indicated by the speaker position information. Accordingly, as a result of comparing the levels of the respective sound collecting beams, the
以上のようにして、音声信号処理部4は、話者の音声と、それ以外の音声とを分離して後段に出力することができる。 As described above, the audio signal processing unit 4 can separate the speaker's voice and other voices and output them to the subsequent stage.
なお、図2においては、マイクアレイ前方に4つの部分領域101〜104を設定し、各領域について収音ビームを形成する例を示したが、図2に示したディレイバッファ42の出力段数を増やし、FIRフィルタ、アンプ、加算器をディレイバッファ42の出力段数分設定することで、さらに多数の領域について収音ビームを形成することができる。また、マイクアレイを2列背反に配列し、それぞれの列に図2に示した音声信号処理部を接続することで、各マイクアレイの正面方向に対して収音ビームを形成し、マイクアレイ両面方向(すなわち略360度方向)に収音ビームを形成することも可能である。
2 shows an example in which four
また、コントローラ8は、各収音ビームから音声特徴量を抽出し、発話音声、楽音音声(例えば歌声等も含まれる)の区別をするようにしてもよい。音声特徴量は、典型的には話者のフォルマント、ピッチ等を表し、音声データをフーリエ変換した周波数スペクトル(パワースペクトル)、およびこのパワースペクトルを対数変換後に逆フーリエ変換したケプストラムから抽出する。発話音声の音声特徴量、楽音音声の音声特徴量を予め記憶部3に記録しておき、各収音ビームの音声特徴量が発話音声の音声特徴量に一致するようであればこれを話者音声信号として選択し、楽音音声の音声特徴量に一致するようであればこれを背景音声信号として選択すればよい。また、レベルの高い収音ビームが複数存在した場合、各収音ビームの音声特徴量を分析し、発話音声の音声特徴量と一致するものについて、発話者の収音ビームとして判定すればよい。
In addition, the
なお、会議に先立って、議長などが放収音装置を操作し、各会議参加者に発言してもらうことで事前に話者位置情報を生成し、記憶部3に記録しておくようにしてもよい。この場合、コントローラ8は、会議中には、記憶部3に記憶されている話者位置情報に基づいて、信号選択部48に、話者位置情報に対応する収音ビームを選択してこれを話者音声信号として話速変換部5に出力するように設定する。また、コントローラ8は、信号選択部48に、記憶部3に記憶されている話者位置情報の示す領域以外の方向に対応する収音ビームのうちいずれかを選択してこれを背景音声信号としてミキサ6に出力するように設定する。
Prior to the conference, the chairperson or the like operates the sound emission and collection device and asks each conference participant to speak to generate speaker location information in advance and record it in the storage unit 3. Also good. In this case, during the conference, the
次に、話速変換部5は、コントローラ8の指示に従って、入力された話者音声信号について話速変換処理を行う。話速変換処理は、単に音声を低速で出力するのではなく、以下のようにして行う。すなわち、話速変換処理は、音声信号を1周期の波形に切りわけ、各周期波形の前後1区間を合成した新たな周期波形を生成し、各周期波形の間に新たに合成した周期波形を挿入することで信号の周期波形数を増やして、音程を保ちつつ信号を時間軸伸長する処理である。
Next, the speech
図4(A)は伸長処理の手順を示すフローチャートである。また、同図(B)は伸長方法を説明する図である。同図(A)において、まず入力音声信号の先頭部分の1周期のサンプル数(サンプリング周波数×1/信号周波数)を検出する(S91)。この1周期分のサンプルデータである周期波形を2つ取り出して、同図(B)に示すように、1つめの周期波形Aに対して減衰利得係数を乗算することによって減衰波を作成し、2つめの周期波形Bに対して増加利得係数を乗算することによって増加波を作成する(S92)。そして、これらを加算合成することによってAとBの中間の形状の周期波形を合成する(S93)。この合成波形を図5(A)に示すように周期波形Aと周期波形Bとの間に挿入して出力する(S94)することによって音響的に自然な時間軸伸長を行う。 FIG. 4A is a flowchart showing the procedure of decompression processing. FIG. 2B is a diagram for explaining the expansion method. In FIG. 9A, first, the number of samples in one cycle (sampling frequency × 1 / signal frequency) of the head portion of the input audio signal is detected (S91). Two periodic waveforms, which are sample data for one period, are taken out and, as shown in FIG. 5B, an attenuation wave is created by multiplying the first periodic waveform A by an attenuation gain coefficient, An increasing wave is created by multiplying the second periodic waveform B by an increasing gain coefficient (S92). Then, by adding and synthesizing these, a periodic waveform having an intermediate shape between A and B is synthesized (S93). The synthesized waveform is inserted between the periodic waveform A and the periodic waveform B and output (S94) as shown in FIG.
なお、音声データを圧縮する場合には、図5(B)に示すように、上記S93で合成したAとBの中間の形状の合成波形を周期波形A,Bに代えて出力することにより、音声データを時間軸方向に1/2倍に圧縮することができる。 When compressing the audio data, as shown in FIG. 5B, by outputting the synthesized waveform of the intermediate shape of A and B synthesized in S93 in place of the periodic waveforms A and B, Audio data can be compressed 1/2 times in the time axis direction.
また、この話速変換処理を行う周期を規定することで、変換速度を可変とすることができる。例えば、図5(C)に示すように、周期毎に周期波形を2つ合成し、各周期波形の間に挿入することで、音声データを時間軸方向に2倍に伸長することができ、同図(D)に示すように、2周期毎に周期波形を2つ合成することで、3/2倍に伸長することができる。 Also, the conversion speed can be made variable by defining the cycle for performing the speech speed conversion processing. For example, as shown in FIG. 5C, by synthesizing two periodic waveforms for each period and inserting them between each periodic waveform, the voice data can be expanded twice in the time axis direction, As shown in FIG. 4D, by synthesizing two periodic waveforms every two periods, it can be expanded to 3/2 times.
また、話速変換は、音声区間の先頭部分(例えば700msec)のみを伸長して、それ以後を通常速度で出力するようにし、必要以上に伸長しないようにする。なお、先頭部分を伸長し、それ以後を圧縮するようにしてもよい。音声区間、雑音区間の区別は、音声信号の周期性から判断すればよい。例えば、音声信号を所定長に分割して対応するサンプルデータを乗算または減算するなどして相関値を算出する。図6に示すように、この相関値が所定閾値よりも低い場合に雑音区間、高い場合に音声区間と判断する。音声等の周期性の多い音声信号の場合相関値は高くなり、雑音等の周期性の少ない音声信号の場合相関値は低くなる。 In the speech speed conversion, only the head portion (for example, 700 msec) of the voice section is expanded and the subsequent portion is output at the normal speed, so that it is not expanded more than necessary. The head portion may be expanded and the subsequent portion may be compressed. The distinction between the voice section and the noise section may be determined from the periodicity of the voice signal. For example, the correlation value is calculated by dividing the audio signal into a predetermined length and multiplying or subtracting corresponding sample data. As shown in FIG. 6, when this correlation value is lower than a predetermined threshold, it is determined as a noise interval, and when it is higher, it is determined as a speech interval. In the case of an audio signal having a high periodicity such as speech, the correlation value is high, and in the case of an audio signal having a low periodicity such as noise, the correlation value is low.
なお、本実施形態では、音声区間の先頭部分700msecについて話速変換する例を示したが、さらに長い区間長を話速変換するようにしてもよいし、短い区間長を話速変換するようにしてもよい。また、話速変換を行う区間中に伸長率を変更するようにしてもよい。例えば、区間長が700msecであった場合に、最初の600msecを2倍伸長、続く100msecを3/2倍伸長といった伸長率で話速変換するようにしてもよい。 In the present embodiment, the speech speed is converted for the first 700 msec of the speech section. However, the speech speed may be converted for a longer section length, or the speech speed may be converted for a shorter section length. May be. Further, the expansion rate may be changed during the section where the speech speed conversion is performed. For example, when the section length is 700 msec, the speech speed may be converted at an expansion rate such that the first 600 msec is expanded by 2 times and the subsequent 100 msec is expanded by 3/2 times.
以上のようにして話速変換部5で話速変換された話者音声信号は、ミキサ6に入力され、ミキサ6において音声信号処理部4から入力される背景音声信号とミキシングされる。このミキシングされた音声信号が録音・再生部7に入力される。録音・再生部7は、入力された音声信号をスピーカ1、および入出力I/F9に供給するとともに、音声信号を音声データ(例えばMP3等の圧縮データ)に変換して記憶部3に入力する。また、録音・再生部7は、記憶部3に記録されている音声データを読み出し、この音声データに基づく音声信号をスピーカ1、および入出力I/F9に供給する。
The speaker voice signal subjected to the speech speed conversion by the speech
スピーカ1は、録音・再生部7から入力された音声信号を放音する。スピーカ1には、一般的にはコーン型スピーカを用いるが、ホーン型スピーカ等、その他の形式を用いてもよい。なお、図1においては、ディジタル音声信号をアナログ音声信号に変換するD/A変換器や信号を増幅するアンプ等は省略している。
The speaker 1 emits the audio signal input from the recording /
記憶部3は、録音・再生部7から入力された音声データを記録する。また、上述したようにコントローラ8から入力される話者位置情報も記録する。
The storage unit 3 records the audio data input from the recording /
これにより、放収音装置が収音した音声のうち、発話者の音声のみが話速変換され、背景音は話速変換されずにそのまま放音、または録音される。 As a result, among the sounds collected by the sound emission and collection device, only the voice of the speaker is converted in the speech speed, and the background sound is emitted or recorded without being converted in the speech speed.
入出力I/F9は、音声信号を他の機器に供給する。入出力I/F9は、供給先の機器に応じたインタフェースを備えており、例えば音声信号をネットワーク送信に適した情報に変換し、ネットワークインタフェース、およびネットワークを介して接続される他の放収音装置に音声信号を出力する。また、入出力I/F9は、ネットワークを介して接続される他の放収音装置から音声信号を入力し、これを録音・再生部7に入力する。録音・再生部7は、自装置で収音した音声と、他装置から入力した音声と、を記憶部3に記録する。
The input / output I / F 9 supplies an audio signal to another device. The input / output I / F 9 includes an interface according to a device to which the supply is made. For example, the input / output I / F 9 converts an audio signal into information suitable for network transmission, and other sound emission and collection sounds connected via the network interface. An audio signal is output to the device. Further, the input / output I / F 9 inputs an audio signal from another sound emitting and collecting apparatus connected via the network, and inputs this to the recording / reproducing
なお、上記実施形態では、放音側として単一のスピーカ1を示したが、スピーカ1を直線状に複数配列して、スピーカアレイを構成するようにしてもよい。この場合、各スピーカに供給する音声信号を順次遅延させることにより、音声ビームに焦点を持たせることができ、音声が発話者の位置から発せられたかのような音像定位をさせることができる。 In the above embodiment, the single speaker 1 is shown as the sound emitting side. However, a plurality of speakers 1 may be arranged in a straight line to constitute a speaker array. In this case, by sequentially delaying the audio signal supplied to each speaker, the audio beam can be focused, and sound image localization as if the audio was emitted from the position of the speaker can be achieved.
また、収音した音声信号を他の装置に出力し、他の装置側においてスピーカアレイを構成する場合、上述の話者位置情報も出力することで、他の装置においても音声が発話者の位置から発せられたかのような音像定位をさせることができる。 In addition, when the collected audio signal is output to another device and the speaker array is configured on the other device side, the above-described speaker position information is also output, so that the voice is also transmitted to the position of the speaker in the other device. Sound image localization as if it were emitted from
また、ネットワークを介して、上記実施形態の放収音装置を複数接続する場合、以下のような応用例が可能である。図7は、ネットワークを介して上記実施形態の放収音装置を複数接続し、音声会議システムを構成する例について示す図である。この音声会議システムは、ネットワーク100を介して接続される放収音装置111A〜111Cを有する。放収音装置111A〜111Cは、上記実施形態で説明した放収音装置と同一の構成、機能を有するため、それぞれの構成、および機能の詳細な説明は省略する。
Further, when a plurality of sound emitting and collecting apparatuses of the above embodiment are connected via a network, the following application examples are possible. FIG. 7 is a diagram showing an example in which an audio conference system is configured by connecting a plurality of sound emitting and collecting apparatuses of the above-described embodiment via a network. This audio conference system includes sound emission and
放収音装置111A〜111Cは、それぞれ離れた地点a〜cに配置されている。地点aには放収音装置111Aが配置され、地点bには放収音装置111Bが配置され、地点cには放収音装置111Cが配置されている。
The sound emission and collection devices 111 </ b> A to 111 </ b> C are disposed at points a to c that are separated from each other. A sound emitting and collecting
地点aでは、会議者A、Bが、放収音装置111Aに対してそれぞれ方位Dir11、Dir13で在席している。地点bでは、音源Aが、放収音装置111Bに対して、方位Dir22で存在している。地点cでは、会議者C、Dが放収音装置111Cに対して、それぞれ方位Dir31、Dir32で在席している。なお、方位Dir11〜Dir14、方位Dir21〜Dir24、および方位Dir31〜Dir34は、それぞれ、上記実施形態における4つの部分領域101〜104に対応し、放収音装置は、これらの方位の音声を収音する。
At the point a, the participants A and B are present in the directions Dir11 and Dir13 with respect to the sound emitting and collecting
この音声会議システムでは、各放収音装置は、自身の装置で収音した音声を他の全ての放収音装置に送信する。また、各放収音装置は、自身の装置で収音した音声とともに、他の装置から送信された音声を記録する。 In this audio conference system, each sound emitting and collecting device transmits the sound collected by its own device to all other sound emitting and collecting devices. In addition, each sound emission and collection device records the sound transmitted from the other device together with the sound collected by its own device.
放収音装置111Aは、会議者A、および会議者Bが発話した場合、これらの音声を話速変換してから他装置に送信する。また、放収音装置111Cは、会議者C、および会議者Dが発話した場合、これらの音声を話速変換してから他装置に送信する。
When the conference participant A and the conference participant B speak, the sound emission and
ここで、放収音装置111Bは、音源Aが発する楽音を話速変換せずに他装置に出力する。この際、放収音装置111Bは、音源Aが発する楽音のレベルが非常に大きい場合であっても話速変換せずに送信する。例えば、上述した所定の閾値(一般的な発話音声のレベル)を超えるレベルであっても話速変換しない。すなわち、図1において、コントローラ8は、図示しない操作部等から話速変換をしない旨の指示を与えられると、音声信号処理部4に対し、収音した音声を常にミキサ6に出力するように設定する。これにより、この放収音装置においては、常に話速変換しない音声が出力されることとなる。この場合、コントローラ8は、最もレベルが高い収音ビームを出力するため、収音ビームのレベルの絶対値(一般的な発話音声のレベル以上であるか)を判定しなくともよい。
Here, the sound emission and
なお、コントローラ8は、音声信号処理部4に対し、収音した音声を常に話速変換部5に出力するように設定してもよい。この場合、この放収音装置においては、常に話速変換済みの音声が出力されることとなる。
Note that the
このように、音声会議システム内の任意の放収音装置を背景音出力専用の装置(話速変換しない放収音装置)とすることでも、各地点の会議者は、楽音等の背景音は通常の速度で聴きながら、話者の音声だけをゆっくりと聴くことができる。また、各音声会議装置では、背景音は通常速度で記録され、発話者の音声のみが話速変換されて記録される。 In this way, even if an arbitrary sound emitting and collecting device in the audio conference system is used as a device dedicated to background sound output (a sound emitting and collecting device that does not convert the speech speed), While listening at normal speed, you can listen to the speaker's voice slowly. In each audio conference device, the background sound is recorded at the normal speed, and only the voice of the speaker is converted and recorded.
1−スピーカ
2−マイク
3−記憶部
4−音声信号処理部
5−話速変換部
6−ミキサ
7−録音・再生部
8−コントローラ
1-speaker 2-microphone 3-storage unit 4-audio signal processing unit 5-speech speed conversion unit 6-mixer 7-recording / reproducing unit 8-controller
Claims (4)
複数のユーザ方向に対して収音ビームを形成するとともに、該収音ビーム強度を比較することで話者方位を同定する収音制御部と、
前記話者方位の収音ビームを発話音声信号として選択するとともに、話者方位の収音ビーム以外の収音ビームを背景音声信号として選択する音声信号選択手段と、
前記発話音声信号を話速変換する話速変換手段と、
前記話速変換手段で変換された発話音声信号と、前記音声信号選択手段が選択した背景音声信号と、をミキシングするミキサと、
を備えた収音装置。 A microphone array in which a plurality of microphones are arranged;
A sound collection control unit that forms a sound collection beam with respect to a plurality of user directions and identifies a speaker orientation by comparing the sound collection beam intensities;
A sound signal selection means for selecting the sound beam collected in the speaker direction as a speech sound signal, and a sound beam other than the sound beam collected in the speaker direction as a background sound signal;
Speech speed converting means for converting the speech speed of the speech signal;
A mixer that mixes the utterance voice signal converted by the speech speed conversion means and the background voice signal selected by the voice signal selection means;
A sound collecting device.
前記収音制御部は、複数の収音ビームのうち最もレベルが高く、かつ前記発話音声信号抽出手段が発話音声の音声信号を抽出した収音ビームの方向を話者方位と判定する請求項1、請求項2、または請求項3に記載の収音装置。 Further comprising speech signal extraction means for extracting speech signals of speech from a plurality of sound collection beams formed by the sound collection control unit;
2. The sound collection control unit determines a direction of a sound collection beam having a highest level among a plurality of sound collection beams and a direction of the sound collection beam from which the speech signal extraction unit has extracted a speech signal as a speaker orientation. The sound collecting device according to claim 2 or claim 3.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006224405A JP2008048342A (en) | 2006-08-21 | 2006-08-21 | Sound acquisition apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006224405A JP2008048342A (en) | 2006-08-21 | 2006-08-21 | Sound acquisition apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008048342A true JP2008048342A (en) | 2008-02-28 |
Family
ID=39181610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006224405A Pending JP2008048342A (en) | 2006-08-21 | 2006-08-21 | Sound acquisition apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008048342A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101418023B1 (en) | 2008-03-14 | 2014-07-09 | 삼성전자주식회사 | Apparatus and method for automatic gain control using phase information |
JP2014158151A (en) * | 2013-02-15 | 2014-08-28 | Seiko Epson Corp | Sound processing device and control method of sound processing device |
JP2017521024A (en) * | 2015-05-06 | 2017-07-27 | シャオミ・インコーポレイテッド | Audio signal optimization method and apparatus, program, and recording medium |
EP3644588A1 (en) * | 2018-10-24 | 2020-04-29 | Yamaha Corporation | Audio signal processing apparatus, mixer and audio signal processing method |
WO2021006303A1 (en) * | 2019-07-10 | 2021-01-14 | 日本電気株式会社 | Translation system, translation device, translation method, and translation program |
-
2006
- 2006-08-21 JP JP2006224405A patent/JP2008048342A/en active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101418023B1 (en) | 2008-03-14 | 2014-07-09 | 삼성전자주식회사 | Apparatus and method for automatic gain control using phase information |
JP2014158151A (en) * | 2013-02-15 | 2014-08-28 | Seiko Epson Corp | Sound processing device and control method of sound processing device |
JP2017521024A (en) * | 2015-05-06 | 2017-07-27 | シャオミ・インコーポレイテッド | Audio signal optimization method and apparatus, program, and recording medium |
US10499156B2 (en) | 2015-05-06 | 2019-12-03 | Xiaomi Inc. | Method and device of optimizing sound signal |
EP3644588A1 (en) * | 2018-10-24 | 2020-04-29 | Yamaha Corporation | Audio signal processing apparatus, mixer and audio signal processing method |
US11102605B2 (en) | 2018-10-24 | 2021-08-24 | Yamaha Corporation | Audio signal processing apparatus and audio signal processing method |
WO2021006303A1 (en) * | 2019-07-10 | 2021-01-14 | 日本電気株式会社 | Translation system, translation device, translation method, and translation program |
JPWO2021006303A1 (en) * | 2019-07-10 | 2021-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4816221B2 (en) | Sound pickup device and audio conference device | |
JP5229053B2 (en) | Signal processing apparatus, signal processing method, and program | |
JP4177413B2 (en) | Sound reproduction apparatus and sound reproduction system | |
JP4167286B2 (en) | Reverberation adjustment device, reverberation correction method, and sound reproduction system | |
JP4701684B2 (en) | Voice processing apparatus and program | |
JP2009139592A (en) | Speech processing device, speech processing system, and speech processing program | |
JP2007318438A (en) | Voice state data generating device, voice state visualizing device, voice state data editing device, voice data reproducing device, and voice communication system | |
JPH07336790A (en) | Microphone system | |
JP2008233672A (en) | Masking sound generation apparatus, masking sound generation method, program, and recording medium | |
JP5605574B2 (en) | Multi-channel acoustic signal processing method, system and program thereof | |
JP6540730B2 (en) | Sound collection device, program and method, determination device, program and method | |
JP2008048342A (en) | Sound acquisition apparatus | |
JP2006251375A (en) | Voice processor and program | |
Suh et al. | Development of distant multi-channel speech and noise databases for speech recognition by in-door conversational robots | |
JP4893146B2 (en) | Sound collector | |
CN111801951B (en) | Howling suppression device, method thereof, and computer-readable recording medium | |
JPH1020873A (en) | Sound signal processor | |
JP2007298876A (en) | Voice data recording and reproducing apparatus | |
JP5289128B2 (en) | Signal processing method, apparatus and program | |
EP3719789A1 (en) | Sound signal processor and sound signal processing method | |
JP2011199698A (en) | Av equipment | |
JP7338270B2 (en) | Sound collection noise removal device, sound collection noise removal system, and sound collection noise removal method | |
WO2022230450A1 (en) | Information processing device, information processing method, information processing system, and program | |
JP4471780B2 (en) | Audio signal processing apparatus and method | |
JP5625429B2 (en) | Karaoke equipment |