JP2010156740A - Speech synthesizer and speech processing system - Google Patents

Speech synthesizer and speech processing system Download PDF

Info

Publication number
JP2010156740A
JP2010156740A JP2008333607A JP2008333607A JP2010156740A JP 2010156740 A JP2010156740 A JP 2010156740A JP 2008333607 A JP2008333607 A JP 2008333607A JP 2008333607 A JP2008333607 A JP 2008333607A JP 2010156740 A JP2010156740 A JP 2010156740A
Authority
JP
Japan
Prior art keywords
speech
pseudo noise
input
noise
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008333607A
Other languages
Japanese (ja)
Other versions
JP5446256B2 (en
Inventor
Takaya Kakisaki
貴也 柿▲さき▼
Shinya Sakurada
信弥 櫻田
Takuro Sone
卓朗 曽根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2008333607A priority Critical patent/JP5446256B2/en
Publication of JP2010156740A publication Critical patent/JP2010156740A/en
Application granted granted Critical
Publication of JP5446256B2 publication Critical patent/JP5446256B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a speech synthesizer for superimposing a modulation signal free from hearing discomfort, without restricting a band width of speech. <P>SOLUTION: In a waveform memory 131N for indicating a tone of noise in a sound source 13, a waveform is stored as a pseudo noise code stream (a waveform of pseudo noise) with high autocorrelation such as a pseudo noise (PN) code. Data communication is carried out by controlling a polarity of the pseudo noise code stream of the waveform memory 131N by a control section 14. When bit data of transmission data 141 is "1", the PN code is output as it is. When the bit data of the transmission data 141 is "0", it is output by reversing a polarity of the PN code (an anti-phase). <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

この発明は、音声を合成する音声合成装置、および当該音声合成装置を用いた音声処理システムに関する。   The present invention relates to a speech synthesizer for synthesizing speech and a speech processing system using the speech synthesizer.

従来、データ通信においては、OFDM等の変調方式が用いられている(特許文献1参照)。このような変調方式を用いて音声信号に変調信号を重畳し、データ通信を行うことも考えられるが、可聴域に近い帯域では変調信号のノイズ音が聞こえてしまうという問題がある。そこで、楽音信号等とミックスして音声を聞こえにくく(音声透かし)したり、ハイパスフィルタを通して非可聴域の帯域にのみ変調信号を重畳したりすることが考えられる。
特開2000−59329号公報
Conventionally, modulation schemes such as OFDM are used in data communication (see Patent Document 1). Although it is conceivable to perform data communication by superimposing a modulation signal on an audio signal using such a modulation method, there is a problem that a noise sound of the modulation signal is heard in a band close to the audible range. Therefore, it is conceivable to mix with a musical sound signal or the like to make it difficult to hear the sound (audio watermark), or to superimpose the modulation signal only in the band of the non-audible range through a high-pass filter.
JP 2000-59329 A

しかし、音声透かしでは必ずしもノイズ音を消すことができず、違和感が生じる場合もある。また、非可聴域に変調信号を重畳するためには、変調信号と通常の音声を切り分けるために音声側の帯域を制限する必要があり、音質の劣化が問題となる。   However, the sound watermark does not necessarily eliminate the noise sound, which may cause a sense of discomfort. In addition, in order to superimpose the modulation signal in the non-audible range, it is necessary to limit the band on the sound side in order to separate the modulation signal from the normal sound, and degradation of sound quality becomes a problem.

そこで、この発明は、音声側の帯域を制限する必要がなく、聴感上の違和感が皆無である変調信号を重畳することができる音声合成装置を提供することを目的とする。   Therefore, an object of the present invention is to provide a speech synthesizer that can superimpose a modulation signal that does not require any limitation on the voice side band and that does not cause any sense of incongruity.

この発明の音声合成装置は、入力パラメータに基づいて複数の見本信号から音声を合成する音声合成装置であって、前記見本信号の一部を疑似雑音信号として記憶する記憶部を備えたことを特徴とする。   The speech synthesizer according to the present invention is a speech synthesizer that synthesizes speech from a plurality of sample signals based on input parameters, and includes a storage unit that stores a part of the sample signal as a pseudo noise signal. And

見本信号としては、例えばMIDI音源、音声圧縮系のデコーダの合成フィルタバンク、CELPデコーダのコードブック等が考えられる。例えば、MIDIを例にとると、MIDI音源の一部には、必ずホワイトノイズのような音源が含まれている。本発明では、このノイズ音を示すMIDI音源の一部を疑似雑音(PN符号)として記憶している。疑似雑音は、もともとMIDI音源に含まれているノイズ音と聴感上全く等価とすることが可能である。よって本発明の音声合成装置は、帯域を制限する必要がなく、聴感上の違和感が皆無である変調信号を重畳することができる。   As a sample signal, for example, a MIDI sound source, a synthesis filter bank of an audio compression decoder, a code book of a CELP decoder, or the like can be considered. For example, taking MIDI as an example, a part of the MIDI sound source always includes a sound source such as white noise. In the present invention, a part of the MIDI sound source indicating the noise sound is stored as pseudo noise (PN code). The pseudo noise can be completely equivalent to the noise sound originally included in the MIDI sound source. Therefore, the speech synthesizer of the present invention does not need to limit the band, and can superimpose a modulation signal that has no sense of incongruity in hearing.

そして、制御部は、疑似雑音信号の極性を制御することで、種々のデータを送信することができる。復調側では、重畳されている疑似雑音信号と同じ疑似雑音信号で入力音声との相関値を求めることで、データを復調することができる。   And a control part can transmit various data by controlling the polarity of a pseudo noise signal. On the demodulation side, data can be demodulated by obtaining a correlation value with the input speech using the same pseudo noise signal as the pseudo noise signal superimposed.

この発明によれば、音声側の帯域を制限する必要がなく、聴感上の違和感が皆無である変調信号を重畳することができる。   According to the present invention, it is not necessary to limit the band on the voice side, and it is possible to superimpose a modulation signal that has no sense of incongruity in hearing.

本発明の音声合成装置および音声処理システムに係る実施形態について説明する。図1(A)は、本実施形態の音声合成装置として自動演奏装置を示し、図1(B)は、復調装置を示した図である。なお、本実施形態においては、A/D変換器、D/A変換器を省略し、特に記載がない場合、全てデジタル処理であるとして説明する。なお、図面における楕円表示は情報内容を示すものである。   Embodiments of the speech synthesizer and speech processing system of the present invention will be described. FIG. 1A shows an automatic performance device as a speech synthesizer of the present embodiment, and FIG. 1B shows a demodulation device. In the present embodiment, the A / D converter and the D / A converter are omitted, and unless otherwise specified, all digital processing will be described. In addition, the ellipse display in a drawing shows the information content.

自動演奏装置1は、MIDIインタフェース(I/F)11、シーケンサ12、音源13、制御部14、および音声出力I/F15を備えている。MIDIインタフェース11には、MIDIパラメータ(MIDI規格に従ったデータ)が入力される。   The automatic performance device 1 includes a MIDI interface (I / F) 11, a sequencer 12, a sound source 13, a control unit 14, and an audio output I / F 15. A MIDI parameter (data in accordance with the MIDI standard) is input to the MIDI interface 11.

シーケンサ12は、MIDIインタフェース11から入力されたMIDIパラメータ(ノートオン、ノートオフ等)に従って、音源13の波形メモリ131A〜波形メモリ131Nに記憶されている波形を読み出し、音声を合成する。音源13の波形メモリ131A〜波形メモリ131Nは、本発明の見本信号に相当する。MIDIパラメータには、音色を指定するデータ(プログラムチェンジ)が含まれており、その中にはノイズ音の音色(例えばハイハットシンバルの様な音色)を指定するデータも含まれている。   The sequencer 12 reads out the waveforms stored in the waveform memory 131A to the waveform memory 131N of the sound source 13 in accordance with the MIDI parameters (note-on, note-off, etc.) input from the MIDI interface 11 and synthesizes speech. The waveform memory 131A to the waveform memory 131N of the sound source 13 correspond to sample signals of the present invention. The MIDI parameter includes data (program change) for specifying a timbre, and includes data for specifying a timbre of a noise sound (for example, a timbre like a hi-hat cymbal).

本実施形態の自動演奏装置1では、音源13のうち、ノイズ音の音色を示す波形メモリ131NがM系列あるいはGold系列のような自己相関性の高い疑似雑音符号列(疑似雑音信号の波形)として記憶されている。この波形メモリ131Nの疑似雑音符号列の極性を制御部14が制御することで、データ通信を行うことができる。すなわち、送信データ141のビットデータが「1」の場合、PN符号をそのままの極性で出力し、送信データ141のビットデータが「0」の場合、PN符号の極性を逆(逆位相)にして出力する。受信側では、算出された相関値の位相を検出することにより、重畳されているビットデータの「1」、「0」を復調することができる。なお、極性が反対の波形メモリを2つ用意しておき、制御部14がいずれかの波形メモリが読み出されるように制御してもよい。   In the automatic performance device 1 of the present embodiment, the waveform memory 131N that indicates the tone color of the noise sound of the sound source 13 is used as a pseudo-noise code string (pseudo-noise signal waveform) having a high autocorrelation such as an M series or Gold series. It is remembered. Data communication can be performed by the control unit 14 controlling the polarity of the pseudo-noise code string of the waveform memory 131N. That is, when the bit data of the transmission data 141 is “1”, the PN code is output with the same polarity, and when the bit data of the transmission data 141 is “0”, the polarity of the PN code is reversed (reverse phase). Output. On the receiving side, “1” and “0” of the superimposed bit data can be demodulated by detecting the phase of the calculated correlation value. Note that two waveform memories having opposite polarities may be prepared, and the control unit 14 may perform control so that any one of the waveform memories is read out.

シーケンサ12によって合成された疑似雑音を含む音声信号は、出力I/F15を介して出力され、アンプ等により増幅され音声として放音される。放音された音声は、マイク等により収音され、同図(B)の復調装置2に入力される。   The audio signal including pseudo noise synthesized by the sequencer 12 is output via the output I / F 15, amplified by an amplifier or the like, and emitted as audio. The emitted sound is collected by a microphone or the like and input to the demodulator 2 in FIG.

同図(B)の復調装置2において、入力I/F21から入力された音声信号は、整合フィルタ22に入力される。整合フィルタ22は、入力された音声信号と上記疑似雑音との相関を求める相関計算部である。整合フィルタ22は、FIRフィルタにより実現され、フィルタ係数として、送信側の波形メモリ131Nに含まれている擬似雑音符号列が設定されている。PN符号は非常に高い自己相関性を有するため、整合フィルタ22は、入力された音声にPN符号が含まれている場合、相関値ピーク(所定レベル以上の相関値)を出力する。整合フィルタ22は、位相が正転であれば正の相関値ピークを出力し、位相が反転していれば負の相関値ピークを出力する。   In the demodulator 2 in FIG. 5B, the audio signal input from the input I / F 21 is input to the matched filter 22. The matched filter 22 is a correlation calculation unit that obtains a correlation between the input voice signal and the pseudo noise. The matched filter 22 is realized by an FIR filter, and a pseudo noise code string included in the waveform memory 131N on the transmission side is set as a filter coefficient. Since the PN code has a very high autocorrelation, the matched filter 22 outputs a correlation value peak (correlation value of a predetermined level or higher) when the input speech includes the PN code. The matched filter 22 outputs a positive correlation value peak if the phase is normal, and outputs a negative correlation value peak if the phase is inverted.

復調部23では、整合フィルタ22の出力値からデータ復調を行う。すなわち、復調部23は、整合フィルタ22から正の相関値ピークが入力された場合、ビットデータとして「1」を復調し、整合フィルタ22から負の相関値ピークが入力された場合、ビットデータとして「0」を復調する。なお、疑似雑音の出力周期は予め決められており、復調部23は、相関値ピークが入力された場合、その後、疑似雑音の出力周期の長さだけビット出力を続ける。例えば、疑似雑音の周期が1023サンプルであれば、正の相関値ピークが入力された場合、「1」を1023サンプル連続して出力する。   The demodulator 23 demodulates data from the output value of the matched filter 22. That is, the demodulator 23 demodulates “1” as bit data when a positive correlation value peak is input from the matched filter 22, and as bit data when a negative correlation value peak is input from the matched filter 22. Demodulate "0". Note that the output period of the pseudo noise is determined in advance, and when the correlation value peak is input, the demodulator 23 continues to output the bit by the length of the output period of the pseudo noise. For example, if the period of the pseudo noise is 1023 samples, “1” is continuously output for 1023 samples when a positive correlation value peak is input.

このようにして復調部23で送信データ231が復調される。上記疑似雑音は、周波数特性上はホワイトノイズ等のノイズ音そのものであり、もともとMIDI音源に含まれているノイズ音と聴感上全く等価とすることが可能である。よって、従来の音声透かしのような通常の音声(楽音信号)に変調信号を重畳したものとは異なり、楽音信号そのものが変調信号を含んでいるため、送信側で何ら帯域を制限する必要がなく、聴感上の違和感が皆無である変調信号を出力することができる。   In this way, the transmission data 231 is demodulated by the demodulator 23. The pseudo noise is a noise sound such as white noise in terms of frequency characteristics, and can be completely equivalent to the noise sound originally included in the MIDI sound source. Therefore, unlike the conventional speech watermark (musical sound signal) in which the modulation signal is superimposed, the musical sound signal itself includes the modulation signal, so there is no need to limit the band on the transmission side. Therefore, it is possible to output a modulated signal with no sense of incongruity in hearing.

また、合成装置および復調装置で閉ループが形成される場合、さらに下記のような情報を取出すこともできる。図2は、合成装置である自動演奏装置1、および復調装置2を内蔵した閉ループを形成する装置の例として、カラオケ装置100の構成を示した図である。   Further, when a closed loop is formed by the synthesizing device and the demodulating device, the following information can be extracted. FIG. 2 is a diagram showing a configuration of a karaoke apparatus 100 as an example of an apparatus for forming a closed loop including an automatic performance apparatus 1 and a demodulation apparatus 2 that are synthesis apparatuses.

カラオケ装置100には、マイク101、スピーカ102が接続されている。自動演奏装置1のMIDIインタフェース11には、カラオケ装置100の記憶部(不図示)からカラオケ曲データデータ(MIDIデータ)が入力される。このカラオケ曲データにより、自動演奏装置1にてカラオケ演奏音が生成される。生成されたカラオケ演奏音には、上記疑似雑音が含まれる。疑似雑音が含まれたカラオケ演奏音は、信号処理装置7に入力され、イコライジング、増幅等の信号処理がされ、スピーカ102から放音される。   A microphone 101 and a speaker 102 are connected to the karaoke apparatus 100. Karaoke music data data (MIDI data) is input to the MIDI interface 11 of the automatic performance device 1 from a storage unit (not shown) of the karaoke device 100. A karaoke performance sound is generated by the automatic performance device 1 based on the karaoke song data. The generated karaoke performance sound includes the pseudo noise. The karaoke performance sound including the pseudo noise is input to the signal processing device 7, subjected to signal processing such as equalizing and amplification, and emitted from the speaker 102.

スピーカ102から放音されたカラオケ演奏音は、歌唱音とともにマイク101で収音される。マイク101から入力された音声は、復調装置2および信号処理装置7に入力される。このようにして、閉ループが形成される。   The karaoke performance sound emitted from the speaker 102 is collected by the microphone 101 together with the singing sound. The sound input from the microphone 101 is input to the demodulation device 2 and the signal processing device 7. In this way, a closed loop is formed.

図2の例において、復調装置2の復調部23は、帰還したカラオケ演奏音に含まれる疑似雑音から、閉ループの遅延量232、およびループゲイン233を取出す(推定する)処理を行う。   In the example of FIG. 2, the demodulator 23 of the demodulator 2 performs a process of extracting (estimating) the closed loop delay amount 232 and the loop gain 233 from the pseudo noise included in the returned karaoke performance sound.

以下、復調部23における遅延量232およびループゲイン233の推定処理について説明する。図3は、相関の時間軸特性を模式的に表した図である。   Hereinafter, the estimation processing of the delay amount 232 and the loop gain 233 in the demodulation unit 23 will be described. FIG. 3 is a diagram schematically showing the time axis characteristic of the correlation.

復調部23は、自動演奏装置1が疑似雑音を出力したタイミングから最初に相関値ピークが入力された場合、当該最初に算出した時間帯における相関値をカラオケ演奏音の帰還成分のうち、直接波の成分とみなし、直接波のピーク成分を求める。なお、この場合、復調部23には、自動演奏装置1から疑似雑音を出力したタイミングを示す情報(例えばノートオンメッセージ)が入力されるものとする。   When the correlation value peak is input for the first time from the timing when the automatic performance device 1 outputs the pseudo noise, the demodulator 23 calculates the correlation value in the first calculated time zone as a direct wave among the feedback components of the karaoke performance sound. The peak component of the direct wave is obtained. In this case, it is assumed that information (for example, note-on message) indicating the timing at which pseudo noise is output from the automatic performance device 1 is input to the demodulator 23.

復調部23は、相関値ピークが入力された場合、その後所定時間帯t1の相関値をメモリ(不図示)に一時記憶し、所定時間帯t1の中で最も高レベルの相関値を抽出し、ピーク値a0とする。なお、所定レベルは、定常ノイズのレベルに応じて設定する。ピーク値を抽出する所定時間帯t1は、相関値算出の精度(疑似雑音符号の符号長等)等に応じて設定する。   When the correlation value peak is input, the demodulator 23 temporarily stores the correlation value in a predetermined time zone t1 in a memory (not shown), and extracts the highest level correlation value in the predetermined time zone t1, The peak value is a0. The predetermined level is set according to the level of stationary noise. The predetermined time period t1 for extracting the peak value is set according to the accuracy of correlation value calculation (code length of the pseudo noise code, etc.) and the like.

復調部23は、自動演奏装置1が疑似雑音を出力したタイミングから直接波のピーク値a0を算出するタイミングとの時間差を閉ループの遅延量232として推定する。閉ループの遅延量232は、スピーカからマイクまでの距離に相当する。   The demodulator 23 estimates the time difference from the timing at which the automatic performance device 1 outputs the pseudo noise from the timing at which the peak value a0 of the direct wave is calculated as the closed loop delay amount 232. The closed loop delay amount 232 corresponds to the distance from the speaker to the microphone.

そして、復調部23は、最初に相関値ピークを入力してから上記所定時間帯t1が経過した後に再び相関値ピークが入力された場合、当該相関値を反射波とみなし、反射波のピーク成分を求める。なお、この場合、自動演奏装置1の疑似雑音の出力周期は、室内の残響時間よりも十分に長いものとする。   Then, when the correlation value peak is input again after the predetermined time zone t1 has elapsed since the correlation value peak was first input, the demodulation unit 23 regards the correlation value as a reflected wave, and the peak component of the reflected wave Ask for. In this case, the pseudo-noise output period of the automatic performance device 1 is sufficiently longer than the reverberation time in the room.

復調部23は、上記と同様、相関値ピークを入力した場合、その後所定時間帯t1の相関値をメモリに一時記憶し、最も高レベルの相関値を抽出し、ピーク値a1とする。以下、同様にして反射波のピーク値(a1,a2,・・・)を所定時間長t2だけ抽出する。   Similarly to the above, when the correlation value peak is input, the demodulator 23 temporarily stores the correlation value in the predetermined time zone t1 in the memory, extracts the highest level correlation value, and sets it as the peak value a1. Similarly, the peak value (a1, a2,...) Of the reflected wave is extracted for a predetermined time length t2.

そして、復調部23は、抽出した直接波および反射波のピーク値の絶対値(|a1|,|a2|,・・・)を求め、各絶対値の総和からループゲイン233を推定する。   Then, the demodulation unit 23 obtains absolute values (| a1 |, | a2 |,...) Of the peak values of the extracted direct wave and reflected wave, and estimates the loop gain 233 from the sum of the absolute values.

復調装置2は、このループゲイン233が所定のしきい値に近づいた場合、ハウリング発生の可能性が高いとして、信号処理装置7のゲインを抑制するよう指示する。また、復調装置2は、ループゲイン233がしきい値に近づいた場合に警告(カラオケ装置のLEDを点灯させる、カラオケ用ディスプレイに警告を表示する等)を行ってもよい。なお、ゲイン抑制の処理および警告の処理は、いずれか一方のみ行ってもよく、音声信号のゲインを抑制しつつ、さらに警告を行うようにしてもよい。また、最初に警告を行い、その後ゲイン抑制処理を行う、という態様であってもよい。   When the loop gain 233 approaches a predetermined threshold, the demodulating device 2 instructs that the gain of the signal processing device 7 be suppressed, assuming that there is a high possibility of howling. Further, the demodulating device 2 may give a warning (such as turning on the LED of the karaoke device or displaying a warning on the karaoke display) when the loop gain 233 approaches the threshold value. Note that only one of the gain suppression processing and the warning processing may be performed, and further warning may be performed while suppressing the gain of the audio signal. Alternatively, a warning may be given first, and then gain suppression processing may be performed.

なお、上記しきい値は、どのような値であってもよいが、例えばカラオケ装置100で実際にハウリング発生を検出した時のループゲイン推定値をメモリに記憶しておき、記憶したループゲイン推定値に、ある程度のマージンを見た値を設定しておけばよい。   The threshold value may be any value. For example, the loop gain estimated value when the howling occurrence is actually detected by the karaoke apparatus 100 is stored in the memory, and the stored loop gain estimation is performed. A value with a certain margin should be set as the value.

なお、閉ループの遅延量およびループゲインの推定手法は、上記手法に限るものではない。例えば、直接波のピーク成分のみの値をループゲインとして推定してもよい。   The method for estimating the closed loop delay amount and the loop gain is not limited to the above method. For example, the value of only the peak component of the direct wave may be estimated as the loop gain.

また、上記実施形態では、音声合成装置の例として、MIDIによる自動演奏装置を示したが、下記の変形例のような態様でも本発明の音声合成装置を実現可能である。   In the above embodiment, an automatic performance device using MIDI is shown as an example of a speech synthesizer. However, the speech synthesizer of the present invention can also be realized in the following modifications.

(変形例1)
図4は、変形例1に係る音声合成装置の例として、CELPデコーダの主要構成を簡易的に示した図である。CELPデコーダ3は、入力I/F31、適応コードブック32、セレクタ33、コードブック34、加算器35、出力I/F36、および制御部37を備えている。なお、実際には線形予測フィルタ等の合成フィルタが加算器35の後段に設けられているが、本実施形態では図示および説明を省略する。
(Modification 1)
FIG. 4 is a diagram simply showing the main configuration of a CELP decoder as an example of the speech synthesis apparatus according to the first modification. The CELP decoder 3 includes an input I / F 31, an adaptive code book 32, a selector 33, a code book 34, an adder 35, an output I / F 36, and a control unit 37. Note that a synthesis filter such as a linear prediction filter is actually provided at the subsequent stage of the adder 35, but illustration and description thereof are omitted in this embodiment.

入力I/F31には、CELP符号データが入力される。入力された符号データは、適応コードブック32およびセレクタ33に入力される。   CELP code data is input to the input I / F 31. The input code data is input to the adaptive code book 32 and the selector 33.

適応コードブック32は、過去に加算器65が出力した信号を入力符号データに含まれるピッチ情報に基づいて再利用し、出力するものである。   The adaptive code book 32 reuses and outputs a signal output from the adder 65 in the past based on pitch information included in the input code data.

セレクタ33は、入力符号データに含まれるコードブック・インデックスに従い、コードブック34から見本信号(音声信号)を読み出して加算器35に出力する。加算器35は、適応コードブック32から出力された信号とセレクタ33から出力された信号を加算し、出力I/F36に出力する。   The selector 33 reads a sample signal (audio signal) from the code book 34 according to the code book index included in the input code data, and outputs the sample signal to the adder 35. The adder 35 adds the signal output from the adaptive codebook 32 and the signal output from the selector 33 and outputs the result to the output I / F 36.

コードブック34には、固定コードブック341A〜固定コードブック341Nが含まれており、種々の音声信号(波形データ)が記憶されている。固定コードブック341Nには、ノイズ音の波形データが記憶されている。本実施形態のCELPデコーダ3では、固定コードブック341Nが疑似雑音符号列を記憶するコードブックとして機能する。制御部37は、固定コードブック341Nの疑似雑音符号の極性を制御し、送信データ371を重畳する。   The code book 34 includes a fixed code book 341A to a fixed code book 341N and stores various audio signals (waveform data). The fixed codebook 341N stores noise sound waveform data. In the CELP decoder 3 of the present embodiment, the fixed code book 341N functions as a code book for storing a pseudo noise code string. The control unit 37 controls the polarity of the pseudo noise code of the fixed codebook 341N and superimposes the transmission data 371.

出力された音声信号は、図1(B)に示した復調装置に入力され、送信データの復調、遅延量、ループゲインの推定等が行われる。   The output audio signal is input to the demodulator shown in FIG. 1B, where transmission data is demodulated, a delay amount, a loop gain is estimated, and the like.

この場合においても、疑似雑音は、周波数特性上はホワイトノイズ等のノイズ音そのものであり、もともとCLEPデコーダのコードブックに含まれているノイズ音と聴感上全く等価とすることが可能である。このように、本発明の音声合成装置は、CELPデコーダに実装する形でも実現することができる。   Also in this case, the pseudo noise is a noise sound such as white noise in terms of frequency characteristics, and can be completely equivalent to the noise sound originally included in the code book of the CLEP decoder. Thus, the speech synthesizer of the present invention can also be realized by being mounted on a CELP decoder.

(変形例2)
図5は、変形例2に係る音声合成装置の例として、音声圧縮系のデコーダの主要構成を簡易的に示した図である。デコーダ4は、入力I/F41、フィルタバンク42、出力I/F43、および制御部44を備えている。なお、実際には、フィルタバンク42の前段にハフマン復号、逆量子化等の処理を行う機能部も存在するが、本実施形態では図示および説明を省略する。
(Modification 2)
FIG. 5 is a diagram simply showing the main configuration of a speech compression decoder as an example of a speech synthesizer according to the second modification. The decoder 4 includes an input I / F 41, a filter bank 42, an output I / F 43, and a control unit 44. In practice, there are functional units that perform processing such as Huffman decoding and inverse quantization in the preceding stage of the filter bank 42, but illustration and description thereof are omitted in this embodiment.

入力I/F41には、音声圧縮系の符号データ(ビットストリーム)が入力される。入力されたビットストリームは、ハフマン復号、逆量子化処理がされ、フィルタバンク42に入力される。ビットストリームは、フィルタバンク42で音声信号(音声データ)にデコードされ、出力I/F43から出力される。   The input I / F 41 receives audio compression code data (bit stream). The input bit stream is subjected to Huffman decoding and inverse quantization processing and input to the filter bank 42. The bit stream is decoded into an audio signal (audio data) by the filter bank 42 and output from the output I / F 43.

フィルタバンク42の合成フィルタバンク421A〜合成フィルタバンク421Nは、それぞれ入力された値(フィルタバンク値)を波形化するフィルタであり、合成フィルタバンク421Nは、ノイズ音の波形を合成するフィルタバンクである。各合成フィルタバンクの出力波形が合成部423で合成され、音声信号(音声データ)として出力I/F43に出力される。本実施形態のデコーダ4では、合成フィルタバンク421Nが疑似雑音符号列を合成するフィルタバンクとして機能する。制御部44は、合成フィルタバンク421の疑似雑音符号の極性を制御し、送信データ441を重畳する。   The synthesis filter bank 421A to the synthesis filter bank 421N of the filter bank 42 are filters that waveformize inputted values (filter bank values), and the synthesis filter bank 421N is a filter bank that synthesizes a waveform of noise sound. . The output waveform of each synthesis filter bank is synthesized by the synthesis unit 423 and output to the output I / F 43 as an audio signal (audio data). In the decoder 4 of this embodiment, the synthesis filter bank 421N functions as a filter bank that synthesizes a pseudo-noise code string. The control unit 44 controls the polarity of the pseudo noise code of the synthesis filter bank 421 and superimposes the transmission data 441.

出力された音声信号は、図1(B)に示した復調装置に入力され、送信データの復調、遅延量、ループゲインの推定等が行われる。   The output audio signal is input to the demodulator shown in FIG. 1B, where transmission data is demodulated, a delay amount, a loop gain is estimated, and the like.

この場合においても、疑似雑音は、周波数特性上はホワイトノイズ等のノイズ音そのものであり、もともとデコーダの合成フィルタバンクから出力されるノイズ音と聴感上全く等価とすることが可能である。このように、本発明の音声合成装置は、音声圧縮系のデコーダに実装する形でも実現することができる。   Also in this case, the pseudo noise is a noise sound such as white noise in terms of frequency characteristics, and can be completely equivalent to the noise sound originally output from the synthesis filter bank of the decoder. Thus, the speech synthesizer of the present invention can also be realized by being mounted on a speech compression system decoder.

無論、上記変形例1,変形例2以外にも、見本信号としてノイズ音が含まれているものであれば、どのような音声合成装置にも本発明を適用することが可能である。   Needless to say, the present invention can be applied to any speech synthesizer as long as noise signals are included as sample signals in addition to the first and second modifications.

音声合成装置の構成を示したブロック図である。It is the block diagram which showed the structure of the speech synthesizer. 相関の時間軸特性を示した図である。It is the figure which showed the time-axis characteristic of correlation. 自動演奏装置および復調装置を内蔵した閉ループを形成する装置の例として、カラオケ装置の構成を示した図である。It is the figure which showed the structure of the karaoke apparatus as an example of the apparatus which forms the closed loop which incorporated the automatic performance apparatus and the demodulation apparatus. 音声合成装置としてCELPデコーダを示した図である。It is the figure which showed the CELP decoder as a speech synthesizer. 音声合成装置として圧縮音声系のデコーダを示した図である。It is the figure which showed the decoder of the compression audio system as a speech synthesizer.

符号の説明Explanation of symbols

1−自動演奏装置
2−復調装置
1-automatic performance device 2-demodulation device

Claims (3)

入力パラメータに基づいて複数の見本信号から音声を合成する音声合成装置であって、
前記見本信号の一部を疑似雑音信号として記憶する記憶部を備えた音声合成装置。
A speech synthesizer that synthesizes speech from a plurality of sample signals based on input parameters,
A speech synthesizer comprising a storage unit for storing a part of the sample signal as a pseudo noise signal.
前記記憶部の疑似雑音信号の極性を制御する制御部を備えた請求項1に記載の音声合成装置。   The speech synthesizer according to claim 1, further comprising a control unit that controls a polarity of the pseudo noise signal of the storage unit. 請求項1または請求項2に記載の音声合成装置が出力した音声を入力する復調装置を備え、
前記入力した音声と前記疑似雑音信号の相関を求める相関計算部と、
前記相関計算部が算出した相関値に基づいて復調処理を行う復調部と、
を備えた音声処理システム。
A demodulator for inputting the voice output by the voice synthesizer according to claim 1 or 2,
A correlation calculation unit for obtaining a correlation between the input speech and the pseudo noise signal;
A demodulator that performs demodulation based on the correlation value calculated by the correlation calculator;
Voice processing system with
JP2008333607A 2008-12-26 2008-12-26 Speech synthesizer, speech processing system, automatic performance device, and speech compression decoder Expired - Fee Related JP5446256B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008333607A JP5446256B2 (en) 2008-12-26 2008-12-26 Speech synthesizer, speech processing system, automatic performance device, and speech compression decoder

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008333607A JP5446256B2 (en) 2008-12-26 2008-12-26 Speech synthesizer, speech processing system, automatic performance device, and speech compression decoder

Publications (2)

Publication Number Publication Date
JP2010156740A true JP2010156740A (en) 2010-07-15
JP5446256B2 JP5446256B2 (en) 2014-03-19

Family

ID=42574726

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008333607A Expired - Fee Related JP5446256B2 (en) 2008-12-26 2008-12-26 Speech synthesizer, speech processing system, automatic performance device, and speech compression decoder

Country Status (1)

Country Link
JP (1) JP5446256B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0667696A (en) * 1992-08-21 1994-03-11 Sony Corp Speech encoding method
JPH08305395A (en) * 1995-04-28 1996-11-22 Matsushita Electric Ind Co Ltd Noise reproducing device
JP2008157958A (en) * 2008-01-10 2008-07-10 Mazeran Systems Japan Kk Satellite positioning method and satellite positioning system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0667696A (en) * 1992-08-21 1994-03-11 Sony Corp Speech encoding method
JPH08305395A (en) * 1995-04-28 1996-11-22 Matsushita Electric Ind Co Ltd Noise reproducing device
JP2008157958A (en) * 2008-01-10 2008-07-10 Mazeran Systems Japan Kk Satellite positioning method and satellite positioning system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6013013958; 中山 彰: '情報をさりげなく重畳した音メディアの設計とその応用に関する研究' 奈良先端科学技術大学院大学情報科学研究科博士論文2007年3月 , 20070323, P.83-86, 奈良先端科学技術大学院大学 *

Also Published As

Publication number Publication date
JP5446256B2 (en) 2014-03-19

Similar Documents

Publication Publication Date Title
EP0770987B1 (en) Method and apparatus for reproducing speech signals, method and apparatus for decoding the speech, method and apparatus for synthesizing the speech and portable radio terminal apparatus
JP5898534B2 (en) Acoustic signal processing apparatus and acoustic signal processing method
US7974838B1 (en) System and method for pitch adjusting vocals
JP5226777B2 (en) Recovery of hidden data embedded in audio signals
JP5098404B2 (en) Voice processing method and voice processing apparatus
WO2003010752A1 (en) Speech bandwidth extension apparatus and speech bandwidth extension method
JPH08102687A (en) Aural transmission/reception system
RU2010141970A (en) METHODS AND INSTALLATION OF CODING AND DECODING OF OBJECT-ORIENTED AUDIO SIGNALS
JP2016500453A (en) Add comfort noise to model background noise at low bit rates
RU2454736C2 (en) Signal processing method and apparatus
JP2005157363A (en) Method of and apparatus for enhancing dialog utilizing formant region
ATE368922T1 (en) SYSTEM AND METHOD FOR AUDIO SIGNAL PROCESSING
RU2009116279A (en) METHODS AND DEVICES FOR CODING AND DECODING OF OBJECT-ORIENTED AUDIO SIGNALS
JP4175376B2 (en) Audio signal processing apparatus, audio signal processing method, and audio signal processing program
ATE321332T1 (en) VIRTUAL MICROPHONE ARRANGEMENT
JP5446256B2 (en) Speech synthesizer, speech processing system, automatic performance device, and speech compression decoder
JPH09230896A (en) Speech synthesis device
JPWO2005111997A1 (en) Audio playback device
JP4433668B2 (en) Bandwidth expansion apparatus and method
JP4438280B2 (en) Transcoder and code conversion method
JPH09319397A (en) Digital signal processor
JP4900062B2 (en) Audio signal processing apparatus, audio reproduction apparatus, and audio signal processing method
JP6353402B2 (en) Acoustic digital watermark system, digital watermark embedding apparatus, digital watermark reading apparatus, method and program thereof
JP4826580B2 (en) Audio signal reproduction method and apparatus
JPH10111699A (en) Voice reproducer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130527

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131216

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees