JP2005331588A - 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体 - Google Patents
音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体 Download PDFInfo
- Publication number
- JP2005331588A JP2005331588A JP2004147803A JP2004147803A JP2005331588A JP 2005331588 A JP2005331588 A JP 2005331588A JP 2004147803 A JP2004147803 A JP 2004147803A JP 2004147803 A JP2004147803 A JP 2004147803A JP 2005331588 A JP2005331588 A JP 2005331588A
- Authority
- JP
- Japan
- Prior art keywords
- change
- spectral
- spectral feature
- spectrum
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
【解決手段】 音声入力ステップ22と、音声信号をスペクトル特徴ベクトル系列に変換するスペクトル特徴ベクトル系列計算ステップ23と、スペクトル特徴ベクトルからスペクトル特徴変化ベクトルを計算するスペクトル特徴変化ベクトル系列計算ステップ24と、或る一定時間窓内のスペクトル特徴変化ベクトルからスペクトル変化量を計算し、かつ、その時間窓を発声の始端から終端に向かって時間軸に沿って移動しながら計算するスペクトル変化量計算ステップ25とを有し、スペクトル変化量が閾値を超える区間に対応する入力音声波形を切り出して再生し、その閾値を変更することにより音声再生速度を調節する音声再生速度調節方法。
【選択図】 図2
Description
第1の方法として、収録音声信号の再生時の信号のサンプリングレートを収録時のレートとは異なる値に設定する方法がある(特許文献1 参照)。一例として、収録時に1秒間当たり8000個のサンプルを観測した音声データを、再生時に1秒間当たり16000個のサンプルで再生すれば2倍の再生速度が得られる。アナログテープによる収録の場合、収録時のテープ速度よりも再生時のテープ速度を速めれば、より速い再生速度が得られることになる。しかし、この方法は、再生音声の声の高さに関連するピッチ周波数が変化するという問題を生起する。再生時の信号のサンプリングレートを収録時のレートと比較して大きく増減すると、話者が誰であるかを識別するのも困難なくらいに音声の自然性が失なわれるに到る。
第3の方法として、音声のパワーの小さい部分をスキップし、パワーの大きな部分だけを再生する方法もある。しかし、この第3の方法には、パワーの小さい子音が欠落し、再生音声が聞き取り難くなるという問題がある。
請求項4:音声信号を入力し、音声信号をスペクトル特徴ベクトル系列に変換し、スペクトル特徴ベクトルからスペクトル特徴変化ベクトルを計算し、或る一定時間窓内のスペクトル特徴変化ベクトルからスペクトル変化量を計算し、時間窓を発声の始端から終端に向かって時間軸に沿って移動しながら計算し、スペクトル変化量が閾値を超える区間に対応する入力音声波形を切り出して再生し、その閾値を変更することにより音声再生速度を調節する指令をコンピュータに対してする音声再生速度調節プログラムを構成した。
上述した通り、この発明は、人間の音声知覚特性に基づいて音声波形の削除、付加を行って再生速度を調整しているので、音声の自然性および話者性を損なうことなしに音声再生速度を調節することができる。
図1において、最下側領域から音声波形、スペクトル、スペクトル変化量が表示されている。表示される発声は、成人男性が発声した「ばんぐみあんない(baNgumiaNnai)」である。縦に走る実線は人が目視により付与した音素境界を示す線である。スペクトルを見ると明らかな如く、各音素で固有のスペクトルパターンを有していることが判る。即ち、音素境界においてスペクトル変化量が大きくなっている。図4および図5を参照するに、これらは同じ単語「baNgumiaNnai」をゆっくり発声した場合の波形、スペクトル、スペクトル変化量を示している。図4および図5を図1と比較すると、ゆっくり発声した場合、スペクトル定常部の継続時間が長くなっていることがわかる。この発明は、スペクトル変化量の時間パターンから、スペクトル変化の少ない定常部を見つけ、対応する波形を削除することにより、速聞きを実現する。逆に、図1の通常の発声の定常部を引き延ばすことにより、遅聞きを実現する。何れの場合も、縦に走る実線近傍のスペクトル変化の大きな音素境界は保存される。
音声入力ステップ22において、マイクロホンの如き音響−電気変換器を介して音声信号を入力する。入力された音声信号は、スペクトル特徴ベクトル系列計算ステップ23において30msの時間窓で切り出され、スペクトル分析される。スペクトル分析は全極モデルに基づいた線形予測法(LPC)でも、FFT法でもよい。時間窓は更に10msのシフト幅で移動され、時間軸に沿って音声信号のスペクトル分析が行われる。結局、10ms毎にスペクトルの形状を表現するスペクトル特徴ベクトルが計算される。例えば、LPCケプストラム、FFTケプストラム、LPCスペクトル、FFTスペクトル、或いは、これらスペクトルの周波数軸を対数化して表現したメルスペクトル、メルケプストラムをスペクトル特徴ベクトルとして計算する。次に、スペクトル特徴変化ベクトル系列計算ステップ24において、スペクトル特徴ベクトル系列に対して新たな90msの時間窓を設け、その時間窓内のスペクトル特徴ベクトルの変化ベクトルが計算される。例えば、90ms内のスペクトル特徴ベクトル系列の線形1次回帰係数を用いる。これにより、90ms時間窓内の特徴ベクトルの変化パターンの傾きが計算される。スペクトル変化が大きいときは、回帰係数の絶対値も大きくなる。スペクトル特徴ベクトルの回帰係数は各次元で独立に計算される。回帰係数を用いずに、より簡単な計算で済む以下の通りの差分値を用いることができる。
ここで、xi(t)は時刻tにおけるスペクトル特徴ベクトルのi次元目を示す。△tは変化量を計算する時間窓幅の半分の値である。この差分値もスペクトル変化の傾きを表す。回帰係数ベクトル、または差分ベクトルからスペクトル変化量を計算する。スペクトル変化量は、例えば、以下の式で計算される動的尺度を用いる(参考文献:嵯峨山、板倉“音声の動的尺度に含まれる個人性情報”、日本音響学会 昭和54年度春季研究発表会講演論文集、3−2−7、pp589−590)。
ここで、Pはベクトルの次元数を示す。この値は時刻tを中心としたスペクトル変化を示すスカラー量とみなすことができる。これをスペクトル変化量計算ステップ25において、具体例として動的尺度計算ステップで計算する。音素境界においてはスペクトル変化が激しいので、動的尺度は音素境界付近でピークを示す。上述した通り、動的尺度の値が大きな区間、即ち、スペクトル変化が激しい区間は人間の音声知覚上、重要な箇所であるので、この区間をスペクトル変化区間検出ステップ26で探し出す。この時、スペクトル変化区間検出ステップ26に動的尺度に対する閾値を与えておき、閾値以上の区間を検出する構成を採用する。閾値を高く設定すると、検出される区間はよりスペクトル変化が激しい区間となるので、再生される区問の全体に対する割合が減少し、速聞き速度が速くなる。閾値を低く設定すると、より原音声の速度に近くなる。入力音声は入力音声バッファ27に蓄えられている。ここから音声波形を読み出し、スペクトル変化区間検出ステップ26において検出された区間に対応する音声波形を音声切りだしステップ28で切り出し、音声再生ステップ29へ送り込み、音声を再生して終了する。
図3を参照して第2の実施例を説明する。第2の実施例は、原音声よりも再生速度を遅くする遅聞きを実施する例である。
第2の実施例のポイントは、スペクトル変化の小さな区間の波形を繰り返す点にある。音声入力からスペクトル変化量(動的尺度)を計算するスペクトル変化量計算ステップ35までは、実施例1と同じである。第2の実施例は、スペクトル変化区間検出ステップ36において、動的尺度が小さな区間、即ち、スペクトル変化が小さな区間を見つけだす。入力音声は入力音声バッファ37に蓄えられている。ここから入力音声波形を読み出し、スペクトル変化区間検出ステップ36において検出された各区間において、区間中心付近に位置する代表的な波形を切り出し、区間中心において繰り返す。この繰り返し数は、例えば、検出された区間長に比例する様に決定される。この操作を音声波形繰り返しステップ38において行う。加工された音声波形は音声再生ステップ39において再生されて終了する。スペクトル変化の大きな区間の音声について、例えば、音声を引き延ばし或いは音声を挿入する加工を施すと、音声知覚に影響を与えるところから別の音に聞こえ、或いは自然性を損なう問題を生起するが、この第2の実施例は、スペクトル変化が小さな区間のみを加工する対象としているので、再生音声の自然性を損なうことはない。以上の説明において、時間窓幅の数値を特定したが、これは説明をわかり易くするためであり、時間窓幅をこれに限定するものではない。
23、33 スペクトル特徴ベクトル系列計算ステップ
24、34 スペクトル変化量計算ステップ
25、35 スペクトル変化量計算ステップ
26、36 スペクトル変化区間検出ステップ
27、37 入力音声バッファ
28 音声切りだしステップ
38 音声波形繰り返しステップ
29、39 音声再生ステップ
Claims (6)
- 音声信号を入力する音声入力ステップと、音声信号をスペクトル特徴ベクトル系列に変換するスペクトル特徴ベクトル系列計算ステップと、スペクトル特徴ベクトルからスペクトル特徴変化ベクトルを計算するスペクトル特徴変化ベクトル系列計算ステップと、或る一定時間窓内のスペクトル特徴変化ベクトルからスペクトル変化量を計算し、かつ、その時間窓を発声の始端から終端に向かって時間軸に沿って移動しながら計算するスペクトル変化量計算ステップとを有し、スペクトル変化量が閾値を超える区間に対応する入力音声波形を切り出して再生し、その閾値を変更することにより音声再生速度を調節することを特徴とする音声再生速度調節方法。
- 音声信号を入力する音声入力ステップと、音声信号をスペクトル特徴ベクトル系列に変換するスペクトル特徴ベクトル系列計算ステップと、スペクトル特徴ベクトルからスペクトル特徴変化ベクトルを計算するスペクトル特徴変化ベクトル系列計算ステップと、或る一定時間窓内のスペクトル特徴変化ベクトルからスペクトル変化量を計算し、かつ、その時間窓を発声の始端から終端に向かって時間軸に沿って移動しながら計算するスペクトル変化量計算ステップとを有し、スペクトル変化量が閾値よりも小さな区間において、対応する入力音声波形の一部を繰り返して再生し、その閾値を変更することにより音声再生速度を調節することを特徴とする音声再生速度調節方法。
- 請求項1および請求項2の内の何れかに記載される音声再生速度調節方法において、
スペクトル特徴変化ベクトル計算ステップにおいて計算されたスペクトル特徴変化ベクトルを入力としてスペクトル変化量として動的尺度を計算する動的尺度計算ステップと、計算された動的尺度に基づいてスペクトル変化区間を探し出すスペクトル変化区間検出ステップを、音声波形の再生に先だって介在させたことを特徴とする音声再生速度調節方法。 - 音声信号を入力し、音声信号をスペクトル特徴ベクトル系列に変換し、スペクトル特徴ベクトルからスペクトル特徴変化ベクトルを計算し、或る一定時間窓内のスペクトル特徴変化ベクトルからスペクトル変化量を計算し、かつ、その時間窓を発声の始端から終端に向かって時間軸に沿って移動しながら計算し、スペクトル変化量が閾値を超える区間に対応する入力音声波形を切り出して再生し、その閾値を変更することにより音声再生速度を調節する指令をコンピュータに対してする音声再生速度調節プログラム。
- 音声信号を入力し、音声信号をスペクトル特徴ベクトル系列に変換し、スペクトル特徴ベクトルからスペクトル特徴変化ベクトルを計算し、或る一定時間窓内のスペクトル特徴変化ベクトルからスペクトル変化量を計算し、かつ、その時間窓を発声の始端から終端に向かって時間軸に沿って移動しながら計算し、スペクトル変化量が閾値よりも小さな区間において、対応する入力音声波形の一部を繰り返して再生し、その閾値を変更することにより音声再生速度を調節する指令をコンピュータに対してする音声再生速度調節プログラム。
- 請求項4および請求項5の内の何れかに記載される音声再生速度調節プログラムを格納した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004147803A JP4313724B2 (ja) | 2004-05-18 | 2004-05-18 | 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004147803A JP4313724B2 (ja) | 2004-05-18 | 2004-05-18 | 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005331588A true JP2005331588A (ja) | 2005-12-02 |
JP4313724B2 JP4313724B2 (ja) | 2009-08-12 |
Family
ID=35486312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004147803A Expired - Fee Related JP4313724B2 (ja) | 2004-05-18 | 2004-05-18 | 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4313724B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011024572A1 (ja) * | 2009-08-28 | 2011-03-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム |
CN103258552A (zh) * | 2012-02-20 | 2013-08-21 | 扬智科技股份有限公司 | 调整播放速度的方法 |
CN111710327A (zh) * | 2020-06-12 | 2020-09-25 | 百度在线网络技术(北京)有限公司 | 用于模型训练和声音数据处理的方法、装置、设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01262598A (ja) * | 1988-04-13 | 1989-10-19 | A T R Shichiyoukaku Kiko Kenkyusho:Kk | 音声合成装置の発声速度制御回路 |
JPH06110496A (ja) * | 1992-09-30 | 1994-04-22 | Nec Corp | 音声合成器 |
JPH11194796A (ja) * | 1997-10-31 | 1999-07-21 | Matsushita Electric Ind Co Ltd | 音声再生装置 |
JPH11250553A (ja) * | 1998-02-27 | 1999-09-17 | Matsushita Electric Ind Co Ltd | 再生装置 |
JP2001197425A (ja) * | 2000-01-05 | 2001-07-19 | Matsushita Electric Ind Co Ltd | 映像信号処理装置 |
JP2001242900A (ja) * | 2000-02-25 | 2001-09-07 | Yamaha Corp | 音の時間伸長装置、方法、および音の時間伸長プログラムを記録した記録媒体 |
-
2004
- 2004-05-18 JP JP2004147803A patent/JP4313724B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01262598A (ja) * | 1988-04-13 | 1989-10-19 | A T R Shichiyoukaku Kiko Kenkyusho:Kk | 音声合成装置の発声速度制御回路 |
JPH06110496A (ja) * | 1992-09-30 | 1994-04-22 | Nec Corp | 音声合成器 |
JPH11194796A (ja) * | 1997-10-31 | 1999-07-21 | Matsushita Electric Ind Co Ltd | 音声再生装置 |
JPH11250553A (ja) * | 1998-02-27 | 1999-09-17 | Matsushita Electric Ind Co Ltd | 再生装置 |
JP2001197425A (ja) * | 2000-01-05 | 2001-07-19 | Matsushita Electric Ind Co Ltd | 映像信号処理装置 |
JP2001242900A (ja) * | 2000-02-25 | 2001-09-07 | Yamaha Corp | 音の時間伸長装置、方法、および音の時間伸長プログラムを記録した記録媒体 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011024572A1 (ja) * | 2009-08-28 | 2011-03-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム |
GB2485926A (en) * | 2009-08-28 | 2012-05-30 | Ibm | Audio feature extracting apparatus, audio feature extracting method, and audio feature extracting program |
GB2485926B (en) * | 2009-08-28 | 2013-06-05 | Ibm | Speech feature extracting apparatus, speech feature extracting method, and speech feature extracting program |
US8468016B2 (en) | 2009-08-28 | 2013-06-18 | International Business Machines Corporation | Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program |
JP2013178575A (ja) * | 2009-08-28 | 2013-09-09 | Internatl Business Mach Corp <Ibm> | 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム |
JP5315414B2 (ja) * | 2009-08-28 | 2013-10-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム |
US8930185B2 (en) | 2009-08-28 | 2015-01-06 | International Business Machines Corporation | Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program |
CN103258552A (zh) * | 2012-02-20 | 2013-08-21 | 扬智科技股份有限公司 | 调整播放速度的方法 |
CN103258552B (zh) * | 2012-02-20 | 2015-12-16 | 扬智科技股份有限公司 | 调整播放速度的方法 |
CN111710327A (zh) * | 2020-06-12 | 2020-09-25 | 百度在线网络技术(北京)有限公司 | 用于模型训练和声音数据处理的方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4313724B2 (ja) | 2009-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5828994A (en) | Non-uniform time scale modification of recorded audio | |
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
Nakamura et al. | Differences between acoustic characteristics of spontaneous and read speech and their effects on speech recognition performance | |
JP4085130B2 (ja) | 感情認識装置 | |
US20080044048A1 (en) | Modification of voice waveforms to change social signaling | |
EP3065130B1 (en) | Voice synthesis | |
JP5593244B2 (ja) | 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体 | |
US20130262120A1 (en) | Speech synthesis device and speech synthesis method | |
JP2006171750A (ja) | 音声認識のための特徴ベクトル抽出方法 | |
Potamianos et al. | A review of the acoustic and linguistic properties of children's speech | |
JP4313724B2 (ja) | 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体 | |
JP2008116643A (ja) | 音声生成装置 | |
JP4778402B2 (ja) | 休止時間長算出装置及びそのプログラム、並びに音声合成装置 | |
US7092884B2 (en) | Method of nonvisual enrollment for speech recognition | |
JP2013033103A (ja) | 声質変換装置および声質変換方法 | |
WO2004077381A1 (en) | A voice playback system | |
JP2006154531A (ja) | 音声速度変換装置、音声速度変換方法、および音声速度変換プログラム | |
JPS60129796A (ja) | 音声入力装置 | |
JPH07295588A (ja) | 発話速度推定方法 | |
Piotrowska et al. | Objectivization of phonological evaluation of speech elements by means of audio parametrization | |
JPH1115495A (ja) | 音声合成装置 | |
John et al. | Phonetic analysis vs. dirty signals: Fixing the paradox | |
KR20080065775A (ko) | 구화 교육용 발성 시각화 시스템 | |
JP6790851B2 (ja) | 音声処理プログラム、音声処理方法、及び音声処理装置 | |
JP2012073280A (ja) | 音響モデル生成装置、音声翻訳装置、音響モデル生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060725 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090403 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090507 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090515 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120522 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130522 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140522 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |