JP2007047313A - Speech speed conversion apparatus - Google Patents
Speech speed conversion apparatus Download PDFInfo
- Publication number
- JP2007047313A JP2007047313A JP2005229901A JP2005229901A JP2007047313A JP 2007047313 A JP2007047313 A JP 2007047313A JP 2005229901 A JP2005229901 A JP 2005229901A JP 2005229901 A JP2005229901 A JP 2005229901A JP 2007047313 A JP2007047313 A JP 2007047313A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- data
- analysis
- speech
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本発明は、入力された音声信号の再生速度を原音声信号の再生速度よりも遅い速度に変換して再生する話速変換装置に関する。 The present invention relates to a speech speed conversion device that converts and reproduces the reproduction speed of an input audio signal to a speed slower than the reproduction speed of an original audio signal.
音声のピッチを変更せずにその音韻性や個人性を保ったまま、時間軸で音声を伸張理する技術(話速変換技術)は既に開発されている。伸張処理された音声は再生速度が遅くなる為、高齢者の聴覚補助や語学学習に有効な技術である。伸張処理する際、音響的な特徴が大きく異なる母音や子音とで構成される音声を一律に伸張処理した場合、明瞭性が低下する原因となる。 A technology (speech speed conversion technology) has already been developed for expanding speech on the time axis while maintaining the phonological and personality without changing the pitch of the speech. Since the decompressed voice has a slow playback speed, it is an effective technique for hearing assistance and language learning for the elderly. When the decompression process is performed, if the speech composed of vowels and consonants having greatly different acoustic characteristics is uniformly decompressed, the clarity is lowered.
下記特許文献1では音声を母音、子音、母音から子音への渡り、雑音に分類し、それぞれに応じた伸張率の設定を行っている。具体的には、入力音声信号の近傍の波形の類似度に基づいて、入力音声信号を、母音、子音、母音から子音への渡り、雑音に分類している。母音区間においては、音声信号波形は周期性のある波形となるため、近傍の波形の類似度は大きくなる。子音区間においては、音声信号波形は白色雑音に近い波形となるため、近傍の波形の類似度は小さくなる。また、子音から母音への遷移期間および母音から子音への遷移期間においては、近傍の波形の類似度は母音区間の場合の類似度と子音区間の場合の類似度との中間となる。そこで、類似度が中の場合には、当該入力音声信号は、遷移区間と判定する。 In Patent Document 1 below, speech is classified into vowels, consonants, vowels to consonants, and noise, and the expansion rate is set according to each. Specifically, the input speech signal is classified into noise based on the similarity of waveforms in the vicinity of the input speech signal, from vowels, consonants, vowels to consonants. In the vowel section, the speech signal waveform has a periodic waveform, and the similarity between neighboring waveforms increases. In the consonant section, the speech signal waveform is a waveform close to white noise, so the similarity of the nearby waveforms is small. Further, in the transition period from the consonant to the vowel and the transition period from the vowel to the consonant, the similarity of the nearby waveform is intermediate between the similarity in the vowel section and the similarity in the consonant section. Therefore, when the degree of similarity is medium, the input audio signal is determined as a transition section.
しかしながら、上記特許文献1では、母音間の渡りに関してはなんら考慮されていない。音声の大部分は母音で構成されており、母音間の渡り(調音結合)部分も音声には非常に多く含まれている。この調音結合部分を定常部分である母音と一律に伸張処理した音声では、人がゆっくり発声した音声と大きく異なり、非常に不自然で明瞭性の劣る音声となる。 However, in Patent Document 1, no consideration is given to the transition between vowels. Most of the speech is composed of vowels, and there are very many transitions (articulation coupling) between vowels. The voice obtained by uniformly extending the articulated joint portion with the vowel that is the stationary portion is very different from the voice slowly uttered by a person, and is very unnatural and inferior in clarity.
本発明は、上記実情に鑑みてなされたものであり、母音間の渡り(調音結合)を含む音声をその明瞭性を保ったまま、自然な音声に話速変換することができる話速変換装置の提供を目的とする。 The present invention has been made in view of the above circumstances, and is capable of converting a speech speed including a transition (articulation coupling) between vowels into a natural speech while maintaining its clarity. The purpose is to provide.
本発明に係る話速変換装置は、上記課題を解決するために、入力音声信号の再生速度を原音声信号の再生速度よりも遅い速度に変換して再生する話速変換装置において、アナログ音声信号が入力される音声入力部と、上記音声入力部によって入力された上記アナログ音声信号をデジタル音声データに変換するA/D変換部と、上記A/D変換部からのデジタル音声データを蓄える入力バッファ部と、 上記入力バッファ部が蓄えたデジタル音声データの後段への転送を制御する転送制御部と、上記転送制御部によって転送が制御されて供給された上記デジタル音声データを分析に必要となる量だけ分析バッファ部に蓄えて、有音であるか否かを分析して有音データ又は無音データを弁別し、さらに有音データを子音、母音、母音間の調音結合部分に分析して、上記分析バッファ部から出力する音声分析部と、上記音声分析部による分析によって上記分析バッファ部から出力された上記有音データ中の母音間の調音結合部分に対する伸張率を上記有音データ中の母音に対する伸張率よりも小さくして上記有音データを各伸張率にて伸張処理し、かつ上記分析バッファ部から出力された上記無音データを削除処理するデータ処理部と、上記音声分析部による上記デジタル音声データに対する分析処理を制御し、かつ上記データ処理部による上記伸張処理、上記削除処理を制御する制御部と、上記データ処理部によって各伸張処理が施された有音データを蓄積する出力バッファ部と、上記出力バッファ部から読み出された音声データをアナログ音声信号に変換するD/A変換部と、上記D/A変換部からのアナログ音声信号を出力する音声出力部とを備えてなる。 In order to solve the above-mentioned problem, the speech speed conversion apparatus according to the present invention is an analog speech signal in a speech speed conversion apparatus that converts the playback speed of the input speech signal to a speed slower than the playback speed of the original speech signal. A voice input unit, an A / D converter that converts the analog voice signal input by the voice input unit into digital voice data, and an input buffer that stores the digital voice data from the A / D converter Unit, a transfer control unit that controls transfer of the digital audio data stored in the input buffer unit to the subsequent stage, and an amount necessary for analysis of the digital audio data supplied by the transfer control unit. Only in the analysis buffer unit, analyze whether it is sound, discriminate between sound data or silence data, and further add the sound data to consonant, vowel, vowel articulation coupling And the expansion rate for the articulation coupling portion between the vowels in the sound data output from the analysis buffer unit by the analysis by the voice analysis unit and the voice analysis unit output from the analysis buffer unit A data processing unit that decompresses the voiced data at each expansion rate by making the voice data smaller than the expansion rate for the vowels in the voiced data, and deletes the silent data output from the analysis buffer unit; and A control unit that controls analysis processing of the digital audio data by the audio analysis unit and controls the expansion processing and the deletion processing by the data processing unit, and sound data that has been subjected to each expansion processing by the data processing unit An output buffer unit for storing audio data, a D / A conversion unit for converting audio data read from the output buffer unit into an analog audio signal, and the D / A And it outputs the analog audio signal from the conversion unit comprising an audio output unit.
音声分析部は、入力音声が有音であるか無音であるかを弁別し、さらに有音中の母音部分において非定常部分から母音と母音の渡りである調音結合部を検出する。データ処理部は、話速変換する際に長音結合部分と母音とで話速変換の割合(伸張率)に差をつけることでより自然な話速変換音声を得る。 The speech analysis unit discriminates whether the input speech is sounded or silenced, and further detects an articulation coupling unit that is a transition between vowels and vowels from an unsteady part in the vowel part being sounded. The data processing unit obtains a more natural speech speed converted speech by making a difference in the rate of speech speed conversion (expansion rate) between the long sound coupling portion and the vowel when the speech speed is converted.
本発明に係る話速変換装置によれば、母音間の渡り(調音結合)を含む音声をその明瞭性を保ったまま、自然な音声に話速変換することができる。 According to the speech speed converting apparatus according to the present invention, it is possible to convert speech speed including a transition between vowels (articulation coupling) into a natural voice while maintaining its clarity.
以下、本発明を実施するための最良の形態について図面を参照しながら説明する。 The best mode for carrying out the present invention will be described below with reference to the drawings.
この実施の形態は、入力された音声信号の再生速度をリアルタイム処理により、原音声信号の再生速度よりも遅い速度に変換して再生する話速変換装置である。母国語でない語学を学習する学習者の支援のため、また受聴能力が低下した高齢者、障害者の聴覚能力補助のため、或いは異なる言語による双方会話での相互理解補助等に使用される。 This embodiment is a speech speed conversion device that converts the playback speed of an input voice signal to a speed slower than the playback speed of the original voice signal by real-time processing. It is used to support learners who are learning languages other than their native language, to assist the hearing ability of elderly people with impaired listening ability, and disabled persons, or to assist mutual understanding in two-way conversations in different languages.
図1は、話速変換装置のブロック図である。この話速変換装置1は、音声入力部2と、A/D変換部3と、入力バッファ部4と、転送制御部5と、音声分析部6と、音声データ分析&処理制御部7と、データ処理部8と、出力バッファ部9と、D/A変換部10と、音声出力部11とを備える。
FIG. 1 is a block diagram of a speech speed conversion apparatus. The speech speed conversion apparatus 1 includes a voice input unit 2, an A /
音声入力部2はアナログ音声信号を入力する。A/D変換部3は音声入力部2によって入力されたアナログ音声信号をデジタル音声データに変換する。入力バッファ部4はA/D変換部3からのデジタル音声データを蓄える。転送制御部5は入力バッファ部4が蓄えたデジタル音声データの後段への転送を制御する。
The voice input unit 2 inputs an analog voice signal. The A /
音声分析部6は転送制御部5によって転送が制御されて供給された上記デジタル音声データを分析に必要となる量だけ分析バッファ部6aに蓄えて、有音であるか否かを分析して有音データ又は無音データを弁別し、さらに有音データを子音、母音、母音間の調音結合部分に分析して、上記分析バッファ部6aから出力する。
The
データ処理部8は音声分析部6による分析によって分析バッファ部6aから出力された上記各有音データに対して後述する処理に基づいた伸張率にて伸張処理を施し、かつ上記無音データに対して削除処理を施す。このためデータ処理部8は、伸張処理部12と、削除処理部13とを備える。
The
伸張処理部12は音声分析部6による分析によって分析バッファ部6aから出力された上記有音データのうち、母音間の調音結合部分に対する伸張率を上記有音データ中の母音に対する伸張率よりも小さくする重み付けを行って、上記有音データを各伸張率にて伸張処理する。具体的に、伸張処理部12は、予め設定された伸張率R(1.0>=R)から1.0を減算した値と有音データの定常性に応じた重み付け係数Wとの乗算した値(1.0+(R-1.0)*W)で有音データを伸張処理する。有音データの定常性の分析パラメータとして、本実施の形態では波形パワーとフォルマント軌跡を用いる。
The
削除処理部13は、分析バッファ部6aから出力された無音データを削除処理する。具体的には、原音声の再生タイミングと伸張処理された音声の再生タイミングとの時間的なズレが大きくならないように無音データを適時削除処理する。 The deletion processing unit 13 deletes the silence data output from the analysis buffer unit 6a. Specifically, the silence data is timely deleted so that the time lag between the reproduction timing of the original audio and the reproduction timing of the decompressed audio does not increase.
音声データ分析&処理制御部7は、音声分析部6によるデジタル音声データに対する分析処理を制御し、かつデータ処理部8による伸張処理部12での上記伸張処理、削除処理部13での上記削除処理を制御する。
The voice data analysis & processing control unit 7 controls the analysis process on the digital voice data by the
以下には、図2を参照して、音声データ分析&処理制御部7の制御の基に、音声分析部6で行われる、調音結合部分と残りの他の部分の検出について説明する。
In the following, with reference to FIG. 2, detection of the articulation coupling part and the remaining other part performed by the
図2の(a)は、一定のデータ数(フレーム)毎に波形パワーが時間[sec]に応じてどのように変化するかを示す特性図である。図2の(b)は、上記波形パワーの特性図に対応するフォルマント軌跡の特性図である。 FIG. 2A is a characteristic diagram showing how the waveform power changes with time [sec] for each fixed number of data (frames). FIG. 2B is a characteristic diagram of a formant locus corresponding to the characteristic diagram of the waveform power.
図2の(a)では二つの閾値t0、t1より波形パワーが大であるか否かが判定できる。図2の(b)ではフォルマント軌跡の明瞭性及び安定性が判断できる。 In FIG. 2A, it can be determined whether or not the waveform power is larger than the two threshold values t0 and t1. In FIG. 2B, the clarity and stability of the formant trajectory can be determined.
ここで、フォルマント軌跡の明瞭性及び安定性について説明しておく。 Here, the clarity and stability of the formant trajectory will be described.
まず、フォルマントの明瞭性について説明する。所定区間ごと(例えば、1024ポイント)に音声信号より声帯からの影響を除いた特性(声道特性)のパワースペクトル分析を行い、少しずつ時間窓をずらして、所謂スペクトログラムとして表示する。この手法には、ケプストラム、線形予測法などいくつかの方法が知られ、多用されている。 First, the clarity of formants will be described. A power spectrum analysis of a characteristic (voice tract characteristic) excluding the influence from the vocal cords from the audio signal is performed for each predetermined section (for example, 1024 points), and the time window is gradually shifted and displayed as a so-called spectrogram. As this method, several methods such as cepstrum and linear prediction method are known and widely used.
ある区間における声道特性のパワースペクトルにおいて、第1フォルマント、あるいは第2、第3フォルマントも含めて、そのスペクトルの強度、先鋭度を評価し、その結果に基づいてフォルマントの明瞭性を判断する。 In the power spectrum of the vocal tract characteristic in a certain section, including the first formant or the second and third formants, the intensity and sharpness of the spectrum are evaluated, and the clarity of the formant is determined based on the result.
フォルマント部分に相当するスペクトルの強度は、そのレベルを所定の基準値以上であるか否かにより判断しても良いし、あるいは、その音声区間の信号パワーを評価しても良い。 The intensity of the spectrum corresponding to the formant part may be determined based on whether the level is equal to or higher than a predetermined reference value, or the signal power of the speech section may be evaluated.
フォルマント部分に相当するスペクトルの先鋭度は、スペクトルのピークとなる周波数に対し、例えば-3dBとなる周波数バンド幅などを指標にして評価すればよい。 The sharpness of the spectrum corresponding to the formant portion may be evaluated using, for example, a frequency bandwidth of −3 dB as an index with respect to the frequency at which the spectrum is peaked.
次に、フォルマントの安定性について説明する。上記と同様の手法で、声道特性のスペクトログラムを求め、第1フォルマント、あるいは第2、第3フォルマントも含めて、そのフォルマント周波数の時間遷移を測定し評価することで、フォルマントの安定性を判断する。 Next, the stability of formants will be described. Using the same method as above, obtain the spectrogram of the vocal tract characteristics, and determine the stability of the formant by measuring and evaluating the time transition of the formant frequency, including the first formant, or the second and third formants. To do.
より具体的には、フォルマント周波数を単位時間ごとに観測し、その周波数分布の分散を計算して、分散(ばらつき度合い)が小さいときにそのフォルマント軌跡が安定であるとし、分散が所定値より大きいときはそのフォルマント軌跡が安定ではないと判断する。 More specifically, the formant frequency is observed every unit time, the variance of the frequency distribution is calculated, and when the variance (variation degree) is small, the formant trajectory is stable, and the variance is larger than a predetermined value. Sometimes it is determined that the formant trajectory is not stable.
また、その他の手法としては、音声分析技術の、ケプストラム(cepstrum)を使うこともできる。フーリエ変換によって求められたパワースペクトルの対数値をさらにフーリエ逆変換したものである。 As another method, cepstrum of speech analysis technology can be used. The logarithmic value of the power spectrum obtained by Fourier transformation is further Fourier inverse transformed.
ケプストラム分析によれば、スペクトルの微細構造(基本周波数成分:音声であれば声帯に依存)はケフレンシーの高いところにピークが現れ、スペクトル包絡 (音声であれば声道、すなわち舌、顎や唇の位置や形などに依存)はケフレンシーの低いところに集中するので、その高ケフレンシー部分のピークを抽出することにより、音声の周期性の評価に利用できる。 According to the cepstrum analysis, the spectral fine structure (fundamental frequency component: depending on the vocal cords for speech) has a peak at a high cefency, and the spectral envelope (for speech, the vocal tract, that is, the tongue, jaw, and lips). (Depending on position, shape, etc.) is concentrated at a low kerfency, and can be used to evaluate the periodicity of speech by extracting the peak of the high kerfrenity part.
この周期性がはっきりとしている部分は母音部分であると判断され、低いケフレンシー部分を抽出することにより、パワースペクトルのエンベロープが求められ、その時間変動を統計的手法を使って評価することにより、フォルマントの安定性が判断される。その他、フォルマント抽出には線形予測分析などの手法も用いることもできる。 The part where this periodicity is clear is judged to be a vowel part, and the envelope of the power spectrum is obtained by extracting the low quefrency part, and the time variation is evaluated using a statistical method. Is determined. In addition, methods such as linear prediction analysis can be used for formant extraction.
音声波形に対して周波数分析による複数のフォルマントの抽出を行い、各フォルマントの強度、および各フォルマントの周波数値の時間軸上での変動を観察することで母音区間における定常・非定常区間の判別を行う。フォルマント抽出には線形予測分析やケプストラム分析を用いることができる。 Multiple formants are extracted from the speech waveform by frequency analysis, and the steady-state and non-stationary sections in the vowel section are identified by observing the intensity of each formant and the variation of the frequency value of each formant on the time axis. Do. Linear predictive analysis or cepstrum analysis can be used for formant extraction.
したがって、本願発明では、音声の母音の“渡り”部分を弁別するために、上述のフォルマントの明瞭性判断と、このフォルマントの安定性判断(定常・非定常区間の判別)を用いる。 Therefore, in the present invention, in order to discriminate the “crossover” portion of the vowel of the speech, the above-described formant clarity determination and the stability determination of this formant (discrimination between steady / unsteady sections) are used.
音声分析部6は図2の(a)及び図2の(b)の特性図に応じて、定常区間及び非定常区間の検出を以下に示すように行い、調音結合部分と残りの他の部分の検出を行う。
The
まず、音声分析部6は波形パワー値が閾値t0より小さいと分析した部分を無音と判断する。図2の(b)では非定常区間xである。
First, the
次に、音声分析部6は波形パワー値が閾値t0より大きく、データ処理部8を介してフォルマント軌跡が不明瞭であるという部分を子音と判断する。図2の(b)では非定常区間yである。
Next, the
次に、音声分析部6は波形パワー値が閾値t1より大きく、データ処理部8を介してフォルマント軌跡が明瞭で安定しているという部分を母音と判断する。図2の(b)では定常区間a,bである。
Next, the
次に、音声分析部6は波形パワー値が閾値t1より大きく、データ処理部8を介してフォルマント軌跡が明瞭であるが、変動しているという部分を母音の渡り部分と判断する。図2の(b)では非定常区間zである。
Next, the
以上のように分析された各結果のうち、無音を除く有音データに対して、データ処理部8の伸張処理部12は例えば1.2とした伸張率Rに対して、各重み付けWの設定を行う。すなわち、有音データのうち、子音に対してはW=0.5、母音に対してはW=1.0、母音の渡り(調音結合部分)に対してはW=0.8と設定する。この伸張率Rと重み付け係数Wは、音声データ分析&処理制御部7によって算出され、伸張処理部12に供給される。
Of the results analyzed as described above, the
伸張処理部12は、上述のように上記各有音データに対して乗算値1.0+(R-1.0)*Wで伸張処理を施す。子音のときには1.0+(R-1.0)*W=1.0+0.2×0.5=1.1という伸張率とする。母音のときには1.0+(R-1.0)*W=1.0+0.2×1.0=1.2という伸張率とする。調音結合部分(母音の渡り)のときは1.0+(R-1.0)*W=1.0+0.2×0.8=1.16という伸張率とする。
As described above, the
このように、伸張処理部12は、予め設定された伸張率R(1.0>=R)から1.0を減算した値との乗算した値(1.0+(R-1.0)*W)で上記各有音データに伸張処理を施す。削除処理部13にて削除されなかった無音データ、および伸張処理部12で伸張処理された有音データは出力バッファ部9に送られる。出力バッファ部9内のデータは順次一定速度で読み出され、D/A変換部10によりD/A変換され後、音声出力部11へ送られる。
In this way, the
以上に説明したように、話速変換装置1は、母音部分においてもその定常性に応じた重み付けを行うことで、定常性の強い母音部分は定常性の弱い母音の渡り部分に比較して伸張率が大きく設定されるため、母音の渡り部分が不自然に伸張されることなく、人がゆっくり話したような自然で明瞭性の高い話速変換音声を得ることが可能となる。 As described above, the speech speed converting apparatus 1 performs weighting in accordance with the continuity even in the vowel part, so that the vowel part having strong continuity is expanded compared with the transition part of vowel having low continuity. Since the rate is set to be large, it is possible to obtain a natural and highly clear speech speed converted speech that a person spoke slowly without an unnatural extension of the vowel.
1 話速変換装置、2 音声入力部、3 A/D変換部、4 入力バッファ部、5 転送制御部、6 音声分析部、6a 分析バッファ部、7 音声データ分析&処理制御部、8 データ処理部、9 出力バッファ部、10 D/A変換部、11 音声出力部、12 伸張処理部、13 削除処理部
DESCRIPTION OF SYMBOLS 1 Speech speed converter 2 Voice input part 3 A /
Claims (5)
アナログ音声信号が入力される音声入力部と、
上記音声入力部によって入力された上記アナログ音声信号をデジタル音声データに変換するA/D変換部と、
上記A/D変換部からのデジタル音声データを蓄える入力バッファ部と、
上記入力バッファ部が蓄えたデジタル音声データの後段への転送を制御する転送制御部と、
上記転送制御部によって転送が制御されて供給された上記デジタル音声データを分析に必要となる量だけ分析バッファ部に蓄えて、有音であるか否かを分析して有音データ又は無音データを弁別し、さらに有音データを子音、母音、母音間の調音結合部分に分析して、上記分析バッファ部から出力する音声分析部と、
上記音声分析部による分析によって上記分析バッファ部から出力された上記有音データ中の母音間の調音結合部分に対する伸張率を上記有音データ中の母音に対する伸張率よりも小さくして上記有音データを各伸張率にて伸張処理し、かつ上記分析バッファ部から出力された上記無音データを削除処理するデータ処理部と、
上記音声分析部による上記デジタル音声データに対する分析処理を制御し、かつ上記データ処理部による上記伸張処理、上記削除処理を制御する制御部と、
上記データ処理部によって各伸張処理が施された有音データを蓄積する出力バッファ部と、
上記出力バッファ部から読み出された音声データをアナログ音声信号に変換するD/A変換部と、
上記D/A変換部からのアナログ音声信号を出力する音声出力部と
を備えてなることを特徴とする話速変換装置。 In a speech speed conversion device that converts the playback speed of the input voice signal to a speed slower than the playback speed of the original voice signal,
An audio input unit to which an analog audio signal is input;
An A / D converter that converts the analog audio signal input by the audio input unit into digital audio data;
An input buffer unit for storing digital audio data from the A / D conversion unit;
A transfer control unit for controlling transfer of the digital audio data stored in the input buffer unit to the subsequent stage;
The digital audio data supplied with the transfer controlled by the transfer control unit is stored in the analysis buffer unit in an amount necessary for analysis, and whether or not it is sound is analyzed to obtain sound data or sound data. Discriminating, further analyzing the voiced data into consonant, vowel, and articulatory coupling part between vowels, and outputting from the analysis buffer unit,
The sound data is obtained by making the expansion rate for the articulation coupling portion between vowels in the sound data output from the analysis buffer unit by the analysis by the sound analysis unit smaller than the expansion rate for the vowels in the sound data. A data processing unit that performs decompression processing at each decompression rate and deletes the silent data output from the analysis buffer unit;
A control unit that controls analysis processing of the digital audio data by the audio analysis unit, and that controls the expansion processing and the deletion processing by the data processing unit;
An output buffer for accumulating the sound data subjected to each expansion processing by the data processing unit;
A D / A converter for converting audio data read from the output buffer unit into an analog audio signal;
A speech speed conversion apparatus comprising: an audio output unit that outputs an analog audio signal from the D / A conversion unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005229901A JP2007047313A (en) | 2005-08-08 | 2005-08-08 | Speech speed conversion apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005229901A JP2007047313A (en) | 2005-08-08 | 2005-08-08 | Speech speed conversion apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007047313A true JP2007047313A (en) | 2007-02-22 |
Family
ID=37850204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005229901A Withdrawn JP2007047313A (en) | 2005-08-08 | 2005-08-08 | Speech speed conversion apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007047313A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5609111B2 (en) * | 2007-08-22 | 2014-10-22 | 日本電気株式会社 | Speaker speed conversion system |
-
2005
- 2005-08-08 JP JP2005229901A patent/JP2007047313A/en not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5609111B2 (en) * | 2007-08-22 | 2014-10-22 | 日本電気株式会社 | Speaker speed conversion system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Janse | Word perception in fast speech: artificially time-compressed vs. naturally produced fast speech | |
US20090204395A1 (en) | Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program | |
Meyer et al. | Effect of speech-intrinsic variations on human and automatic recognition of spoken phonemes | |
WO2014046789A1 (en) | System and method for voice transformation, speech synthesis, and speech recognition | |
JPH031200A (en) | Regulation type voice synthesizing device | |
JP5039865B2 (en) | Voice quality conversion apparatus and method | |
Raitio et al. | Synthesis and perception of breathy, normal, and lombard speech in the presence of noise | |
JP2006171750A (en) | Feature vector extracting method for speech recognition | |
Nathwani et al. | Speech intelligibility improvement in car noise environment by voice transformation | |
JP2612868B2 (en) | Voice utterance speed conversion method | |
JP3439307B2 (en) | Speech rate converter | |
KR101560833B1 (en) | Apparatus and method for recognizing emotion using a voice signal | |
Ong et al. | Malay language speech recogniser with hybrid hidden markov model and artificial neural network (HMM/ANN) | |
JP5830364B2 (en) | Prosody conversion device and program thereof | |
JPH0229232B2 (en) | ||
JP2007047313A (en) | Speech speed conversion apparatus | |
JP2013033103A (en) | Voice quality conversion device and voice quality conversion method | |
WO2004077381A1 (en) | A voice playback system | |
JP2002169579A (en) | Device for embedding additional data in audio signal and device for reproducing additional data from audio signal | |
JP4313724B2 (en) | Audio reproduction speed adjustment method, audio reproduction speed adjustment program, and recording medium storing the same | |
Anh et al. | A Method for Automatic Vietnamese Speech Segmentation | |
Jung et al. | Pitch alteration technique in speech synthesis system | |
Piotrowska et al. | Objectivization of phonological evaluation of speech elements by means of audio parametrization | |
JPH08254992A (en) | Speech-speed transformation device | |
Perkins | Acoustic measurement of laryngeal constriction in thai consonants |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20081104 |