JP2011033789A - 適応的な話速変換装置及びプログラム - Google Patents
適応的な話速変換装置及びプログラム Download PDFInfo
- Publication number
- JP2011033789A JP2011033789A JP2009179254A JP2009179254A JP2011033789A JP 2011033789 A JP2011033789 A JP 2011033789A JP 2009179254 A JP2009179254 A JP 2009179254A JP 2009179254 A JP2009179254 A JP 2009179254A JP 2011033789 A JP2011033789 A JP 2011033789A
- Authority
- JP
- Japan
- Prior art keywords
- input signal
- speech
- speech speed
- speed conversion
- fundamental frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 258
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims abstract description 72
- 230000008859 change Effects 0.000 claims abstract description 14
- 238000001228 spectrum Methods 0.000 description 29
- 238000000034 method Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 16
- 238000005311 autocorrelation function Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 10
- 230000008602 contraction Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【解決手段】本発明の話速変換装置1は、入力信号を単位時間毎に分割した各セグメントについて当該入力信号の物理指標を算出する物理指標算出部2と、物理指標算出部2によって算出した物理指標に応じて入力信号の各セグメントに指定すべき話速を決定して話速変換を行う話速変換倍率決定部3とを備える。本発明の一態様の話速変換装置1は、入力信号における単位時間あたりの自己相関で得られる相対最大値を表す有声度Un、入力信号における単位時間あたりの基本周波数及び擬似基本周波数の軌跡の変化傾向を表す凹凸度Sn、及び、入力信号における単位時間あたりの帯域分割した低域側パワー成分と高域側パワー成分との比率を表す分割帯域パワー比Enのうちの1つ以上の「物理指標」を用いて入力信号の各セグメントに指定すべき話速変換倍率αnを決定して話速変換を行う。
【選択図】図1
Description
図1に、本発明による一実施例の話速変換装置のブロック図を示す。本実施例の話速変換装置1は、入力信号を単位時間毎に分割した各セグメントについて、当該入力信号の物理指標を算出する物理指標算出部2と、物理指標算出部2によって算出した物理指標に応じて、入力信号の各セグメントに指定すべき話速変換倍率αnを決定して話速変換を行う話速変換倍率決定部3とを備え、これにより、入力信号の適応的話速変換を行う。尚、nは、入力信号を冒頭から、例えば5ms毎に区切った場合の何番目の位置かを示す整数値である。以後、単位時間あたりのセグメント(区間)として、この区切り間隔を5msとして説明する。
有声度算出部100は、入力信号の波形から、所定の単位時間ごとに分割した各セグメントに対して、各セグメントの開始からの時間遅れ量τと、τ=0における自己相関関数R(τ)の基準値R(0)と、τ>0における自己相関関数R(τ)の最大値R(τ)maxと、R(τ)maxを与えるτの値に応じて予め定めた重みW(τ)とで規定される有声度Un=W(τ)・R(τ)max/R(0)を、「物理指標」として算出する。より具体的には、有声度算出部100は、例えば放送の音声及び背景音が混在した入力信号を所定の単位時間ごとに分割した各セグメント(n番目の区間)に対して、入力信号の波形から自己相関関数R(τ)を求め、次に、τ>0における自己相関関数R(τ)の最大値R(τ)maxを検出し、更に、τ=0における自己相関関数R(τ)の基準値R(0)を算出し、R(τ)maxを与えるτの値に応じて予め定めた重みW(τ)を用いて、有声度Un=W(τ)・R(τ)max/R(0)を求める。但し、τはn番目の区間の開始からの時間遅れ量である。
基本周波数抽出部202は、入力信号に対して、単位時間(本例では、5ms)毎に抽出される基本周波数の値が所定の変化幅内で安定してほぼ連続的な変化をする領域を「安定区間」として決定するとともに、各安定区間の間の領域を「不安定区間」として決定し、各安定区間内の基本周波数を特定するとともに、各安定区間の基本周波数がさらにより滑らかな軌跡となるように、各安定区間の基本周波数からなる軌跡の平滑化を行う。この平滑化のために、カットオフ周波数3〜6Hz程度のローパスフィルタを用いて行うのが好適である。尚、単位時間あたり(本例では、5ms)毎に基本周波数を抽出する技法は任意の既知の技法を用いることができる(例えば、特許第3219868号明細書を参照)。
スペクトル算出部302は、入力信号に対して単位時間(本例では、5ms)毎に、FFT(Fast Fourier transform)などによって時間領域の波形を周波数領域に変換し、各周波数の対数化パワースペクトルをdB値で求めて帯域分割部304に送出する。
本実施例の話速変換装置1は、適応的な話速変換を実現するために、“有声度”Un、“凹凸度”Sn、及び、“分割帯域パワー比”Enのうちの1つ以上の「物理指標」を用いて入力信号に対する各区間の話速変換倍率を決定するための話速変換倍率微調整部400を備える。
2 物理指標算出部
3 話速変換倍率決定部
100 有声度算出部
200 基本周波数・擬似基本周波数凹凸算出部
210 凹凸度算出部
300 周波数帯域・パワー演算部
310 分割帯域パワー比演算部
202 基本周波数抽出部
204 擬似基本周波数算出部
206 基本周波数軌跡連結部
300 周波数帯域・パワー演算部
302 スペクトル算出部
304 帯域分割部
306 パワー演算部
120 第1話速変換倍率指定部(話速変換倍率指定部a)
220 第2話速変換倍率指定部(話速変換倍率指定部b)
320 第3話速変換倍率指定部(話速変換倍率指定部c)
400 話速変換倍率微調整部
Claims (8)
- 入力信号の適応的話速変換を行う話速変換装置であって、
入力信号を単位時間毎に分割した各セグメントについて、当該入力信号の物理指標を算出する物理指標算出部と、
前記物理指標算出部によって算出した物理指標に応じて、入力信号の各セグメントに指定すべき話速変換倍率を決定して話速変換を行う話速変換倍率決定部と、
を備えることを特徴とする話速変換装置。 - 前記物理指標算出部は、
入力信号における単位時間あたりの自己相関で得られる相対最大値を表す有声度を、前記物理指標として算出する有声度算出部を備えることを特徴とする、請求項1に記載の話速変換装置。 - 前記物理指標算出部は、
入力信号における単位時間あたりの基本周波数及び擬似基本周波数の軌跡の変化傾向を表す凹凸度を、前記物理指標として算出する凹凸度算出部を備えることを特徴とする、請求項1又は2に記載の話速変換装置。 - 前記物理指標算出部は、
入力信号における単位時間あたりの帯域分割した低域側パワー成分と高域側パワー成分との比率を、前記物理指標として算出する分割帯域パワー比演算部を備えることを特徴とする、請求項1〜3のいずれか一項に記載の話速変換装置。 - 前記話速変換倍率決定部は、
入力信号全体に対して速度変換すべき再生速度変換倍率が与えられた場合に、前記決定した話速変換倍率を前記再生速度変換倍率に適合するように微調整する話速変換倍率微調整部を備えることを特徴とする、請求項1〜4のいずれか一項に記載の話速変換装置。 - 前記話速変換倍率決定部は、
前記有声度、前記凹凸度、及び前記分割帯域パワー比のうちの1つ以上の物理指標を用いて当該入力信号の各セグメントに指定すべき話速変換倍率を決定する話速変換倍率微調整部を備えることを特徴とする、請求項1〜5のいずれか一項に記載の話速変換装置。 - 前記話速変換倍率微調整部は、入力信号の種別に応じて前記有声度、前記凹凸度、及び前記分割帯域パワー比のうちの1つ以上の物理指標に基づく話速変換倍率の配分割り当てを行うことを特徴とする、請求項6に記載の話速変換装置。
- 入力信号の適応的話速変換を行う話速変換装置として構成するコンピュータに、
入力信号を単位時間毎に分割した各セグメントについて、入力信号における単位時間あたりの自己相関で得られる相対最大値を表す有声度、入力信号における単位時間あたりの基本周波数及び擬似基本周波数の軌跡の変化傾向を表す凹凸度、及び、入力信号における単位時間あたりの帯域分割した低域側パワー成分と高域側パワー成分との比率を表す分割帯域パワー比のうちの1つ以上の物理指標を算出するステップと、
該ステップによって算出した物理指標に応じて、入力信号の各セグメントに指定すべき話速変換倍率を決定して話速変換を行うステップと、
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009179254A JP5412204B2 (ja) | 2009-07-31 | 2009-07-31 | 適応的な話速変換装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009179254A JP5412204B2 (ja) | 2009-07-31 | 2009-07-31 | 適応的な話速変換装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011033789A true JP2011033789A (ja) | 2011-02-17 |
JP5412204B2 JP5412204B2 (ja) | 2014-02-12 |
Family
ID=43762934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009179254A Active JP5412204B2 (ja) | 2009-07-31 | 2009-07-31 | 適応的な話速変換装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5412204B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012102056A1 (ja) * | 2011-01-28 | 2012-08-02 | 日本放送協会 | 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体 |
JP2014157331A (ja) * | 2013-02-18 | 2014-08-28 | Nippon Hoso Kyokai <Nhk> | 話速変換装置、方法及びプログラム |
US9129594B2 (en) | 2013-03-28 | 2015-09-08 | Fujitsu Limited | Signal processing apparatus and signal processing method |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05257490A (ja) * | 1992-03-10 | 1993-10-08 | Nippon Hoso Kyokai <Nhk> | 話速変換方法および装置 |
JPH07210192A (ja) * | 1994-01-14 | 1995-08-11 | Tomosato Yamagoshi | 出力データ制御方法及び装置 |
JPH0845177A (ja) * | 1993-10-19 | 1996-02-16 | Sanyo Electric Co Ltd | 話速変換装置 |
JPH1091189A (ja) * | 1996-09-17 | 1998-04-10 | Nec Corp | 発声速度変換装置 |
JPH10301598A (ja) * | 1997-04-30 | 1998-11-13 | Nippon Hoso Kyokai <Nhk> | 話速変換方法およびその装置 |
JP2001255894A (ja) * | 2000-03-13 | 2001-09-21 | Sony Corp | 再生速度変換装置及び方法 |
JP2002297200A (ja) * | 2001-03-30 | 2002-10-11 | Sanyo Electric Co Ltd | 話速変換装置 |
-
2009
- 2009-07-31 JP JP2009179254A patent/JP5412204B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05257490A (ja) * | 1992-03-10 | 1993-10-08 | Nippon Hoso Kyokai <Nhk> | 話速変換方法および装置 |
JPH0845177A (ja) * | 1993-10-19 | 1996-02-16 | Sanyo Electric Co Ltd | 話速変換装置 |
JPH07210192A (ja) * | 1994-01-14 | 1995-08-11 | Tomosato Yamagoshi | 出力データ制御方法及び装置 |
JPH1091189A (ja) * | 1996-09-17 | 1998-04-10 | Nec Corp | 発声速度変換装置 |
JPH10301598A (ja) * | 1997-04-30 | 1998-11-13 | Nippon Hoso Kyokai <Nhk> | 話速変換方法およびその装置 |
JP2001255894A (ja) * | 2000-03-13 | 2001-09-21 | Sony Corp | 再生速度変換装置及び方法 |
JP2002297200A (ja) * | 2001-03-30 | 2002-10-11 | Sanyo Electric Co Ltd | 話速変換装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012102056A1 (ja) * | 2011-01-28 | 2012-08-02 | 日本放送協会 | 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体 |
JP2012159540A (ja) * | 2011-01-28 | 2012-08-23 | Nippon Hoso Kyokai <Nhk> | 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体 |
US9129609B2 (en) | 2011-01-28 | 2015-09-08 | Nippon Hoso Kyokai | Speech speed conversion factor determining device, speech speed conversion device, program, and storage medium |
JP2014157331A (ja) * | 2013-02-18 | 2014-08-28 | Nippon Hoso Kyokai <Nhk> | 話速変換装置、方法及びプログラム |
US9129594B2 (en) | 2013-03-28 | 2015-09-08 | Fujitsu Limited | Signal processing apparatus and signal processing method |
Also Published As
Publication number | Publication date |
---|---|
JP5412204B2 (ja) | 2014-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7150939B2 (ja) | ボリューム平準化器コントローラおよび制御方法 | |
JP5593244B2 (ja) | 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体 | |
JP6921907B2 (ja) | オーディオ分類および処理のための装置および方法 | |
US8484035B2 (en) | Modification of voice waveforms to change social signaling | |
JP5103974B2 (ja) | マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム | |
US12027165B2 (en) | Computer program, server, terminal, and speech signal processing method | |
JP2000511651A (ja) | 記録されたオーディオ信号の非均一的時間スケール変更 | |
EP3065130A1 (en) | Voice synthesis | |
JP6349112B2 (ja) | サウンドマスキング装置、方法及びプログラム | |
JP5412204B2 (ja) | 適応的な話速変換装置及びプログラム | |
JP4965371B2 (ja) | 音声再生装置 | |
JP6314879B2 (ja) | 音読評価装置、音読評価方法、及びプログラム | |
JP2009075280A (ja) | コンテンツ再生装置 | |
CN112420062A (zh) | 一种音频信号处理方法及设备 | |
JP6224325B2 (ja) | 話速変換装置、及びプログラム | |
US11380345B2 (en) | Real-time voice timbre style transform | |
JP5723568B2 (ja) | 話速変換装置及びプログラム | |
JP5863472B2 (ja) | 話速変換装置およびそのプログラム | |
JP5679451B2 (ja) | 音声処理装置およびそのプログラム | |
EP3327723A1 (en) | Method for slowing down a speech in an input media content | |
Uchimura et al. | Study on manipulation method of voice quality based on the vocal tract area function. | |
JP2009192739A (ja) | 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20120227 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120228 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120305 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130827 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130913 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131015 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5412204 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |