JP2016038409A - 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム - Google Patents
音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム Download PDFInfo
- Publication number
- JP2016038409A JP2016038409A JP2014159620A JP2014159620A JP2016038409A JP 2016038409 A JP2016038409 A JP 2016038409A JP 2014159620 A JP2014159620 A JP 2014159620A JP 2014159620 A JP2014159620 A JP 2014159620A JP 2016038409 A JP2016038409 A JP 2016038409A
- Authority
- JP
- Japan
- Prior art keywords
- amplitude
- correction amount
- voice
- feature
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephone Function (AREA)
Abstract
【解決手段】 本発明の音声帯域拡張装置は、入力音声から振幅又はパワーに関する特徴量を抽出する第1手段と、特徴量に対する補正量を推定する第2手段と、補正量に基づいて、抽出された特徴量を補正して補正特徴量を得る第3手段と、入力音声から、入力音声が存在しない周波数帯域に成分を有する、補正特徴量に基づいて振幅又はパワーが調整された拡張音声を生成し、入力音声と合成して広帯域化音声を生成する第4手段とを備える。
【選択図】 図1
Description
後述する全ての実施形態において、拡張する対象を人間の音声であるとし、入力帯域は0Hz〜4kHz(又は300Hz〜3.4kHz)の帯域を有することを前提とする。しかし、本発明は、これに限定されず、例えば0Hz〜24kHzの帯域を有する音楽信号を帯域拡張対象とする場合こともでき、周波数に関する数値を音楽信号用に設定し直すことで、本発明を適用することができる。
以下、本発明による音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムの第1の実施形態を、図面を参照しながら説明する。
図1は、第1の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図である。ここで、第1の実施形態の音声帯域拡張装置は、ハードウェアで構成することも可能であり、また、CPUが実行するソフトウェア(音声帯域拡張プログラム)とCPUとで実現することも可能であるが、いずれの実現方法を採用した場合であっても、機能的には図1で表すことができる。
次に、第1の実施形態の音声帯域拡張装置100の動作を説明する。
以上のように、第1の実施形態によれば、入力音声が何らかの前処理によって変形させられていても、補正振幅特徴量が前処理によって変形させられていない音声から得た振幅特徴量に近い値を取るようにできるので、前処理の影響を軽減したより明瞭性の高い広帯域化音声を得ることができる。
次に、本発明による音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムの第2の実施形態を、図面を参照しながら説明する。
図2は、第2の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。
次に、第2の実施形態の音声帯域拡張装置200における動作を、第1の実施形態と異なる動作を中心に説明する。
第2の実施形態によれば、変化の少ない無音区間で補正量の推定を行うことにより、振幅特徴量の安定な補正が可能となるため、より明瞭性の高い広帯域化音声を得ることができる。
次に、本発明による音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムの第3の実施形態を、図面を参照しながら説明する。
図3は、第3の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。
次に、第3の実施形態の音声帯域拡張装置300における動作を、第1の実施形態と異なる動作を中心に説明する。
第3の実施形態によれば、背景雑音がある場合でも、振幅特徴量を適切に補正できるため、より明瞭性の高い広帯域化音声を得ることができる。
次に、本発明による音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムの第4の実施形態を、図面を参照しながら説明する。
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
Claims (12)
- 入力音声に成分が存在しない周波数帯域に音声成分を追加して周波数帯域を拡張する音声帯域拡張装置において、
上記入力音声から振幅又はパワーに関する1つ以上の特徴量を抽出する特徴量抽出手段と、
上記特徴量に対する補正量を推定する補正量推定手段と、
上記補正量に基づいて、抽出された上記特徴量を補正して補正特徴量を得る特徴量補正手段と、
上記入力音声から、上記入力音声が存在しない周波数帯域に成分を有する、上記補正特徴量に基づいて振幅又はパワーが調整された拡張音声を生成し、上記入力音声と合成して広帯域化音声を生成する広帯域化音声生成手段と
を備えることを特徴とする音声帯域拡張装置。 - 上記補正量推定手段は、上記特徴量のうち1つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定することを特徴とする請求項1に記載の音声帯域拡張装置。
- 上記補正量推定手段は、抽出された上記特徴量の期待値が上記目標特徴量と一致するように上記補正量を決定することを特徴とする請求項2に記載の音声帯域拡張装置。
- 上記特徴量の1つが、入力音声の異なる2つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、
上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が0より小さければ0とし、上記暫定補正量が0以上であれば上記暫定補正量とする
ことを特徴とする請求項2に記載の音声帯域拡張装置。 - 上記入力音声が無音であるか否かを判定する無音区間検出手段をさらに備え、
上記補正量推定手段は、上記無音区間検出手段が無音区間であると判定した場合には上記補正量の推定を行い、上記無音区間検出手段が無音区間でないと判断した場合には上記補正量を更新しない
ことを特徴とする請求項1〜4のいずれかに記載の音声帯域拡張装置。 - 上記補正量推定手段は、上記無音区間検出手段が無音区間でないと判断した場合には、上記入力音声の振幅に応じて、過去に無音区間と判定された中で最後に推定した上記補正量を修正することを特徴とする請求項5に記載の音声帯域拡張装置。
- 上記入力音声を分析する非音声区間情報抽出手段をさらに備え、
上記非音声区間情報抽出手段は、上記入力音声が非音声区間であるか否かを判定すると共に、非音声区間である場合には、上記入力音声の周波数特性を抽出し、
上記補正量推定手段は、上記入力音声が非音声区間である場合には、上記周波数特性に基づいて目標特徴量を決定し、当該目標特徴量に基づいて上記補正量の推定を行い、上記入力音声が非音声区間でない場合には上記補正量を更新しない
ことを特徴とする請求項1〜4のいずれかに記載の音声帯域拡張装置。 - 上記補正量推定手段は、上記入力音声が非音声区間でない場合には、上記入力音声の振幅に応じて、過去に非音声区間と判定された中で最後に推定した上記補正量を修正することを特徴とする請求項7に記載の音声帯域拡張装置。
- 上記補正量推定手段は、
上記入力音声の振幅の長期平均値を算出し、
上記入力音声の振幅を上記長期平均値で除して正規化振幅を算出し、
上記正規化振幅が第1の閾値より小さい場合には上記補正量を修正せず、
上記正規化振幅が上記第1の閾値以上かつ第2の閾値より小さい場合には上記補正量に予め定められた修正重み係数と上記正規化振幅を乗じることで修正し、
上記正規化振幅が上記第2の閾値以上の場合には上記補正量に上記修正重み係数と上記第2の閾値を乗じることで修正する
ことを特徴とする請求項6又は8に記載の音声帯域拡張装置。 - 入力音声に成分が存在しない周波数帯域に音声成分を追加して周波数帯域を拡張する音声帯域拡張プログラムであって、
コンピュータを、
上記入力音声から振幅又はパワーに関する1つ以上の特徴量を抽出する特徴量抽出手段と、
上記特徴量に対する補正量を推定する補正量推定手段と、
上記補正量に基づいて、抽出された上記特徴量を補正して補正特徴量を得る特徴量補正手段と、
上記入力音声から、上記入力音声が存在しない周波数帯域に成分を有する、上記補正特徴量に基づいて振幅又はパワーが調整された拡張音声を生成し、上記入力音声と合成して広帯域化音声を生成する広帯域化音声生成手段と
して機能させることを特徴とする音声帯域拡張プログラム。 - 入力音声における振幅又はパワーに関する特徴量を抽出する音声特徴量抽出装置において、
上記入力音声から振幅又はパワーに関する1つ以上の特徴量を抽出する特徴量抽出手段と、
上記特徴量に対する補正量を推定する補正量推定手段と、
上記補正量に基づいて、抽出された上記特徴量を補正して出力する特徴量補正手段と
を備えることを特徴とする音声特徴量抽出装置。 - 入力音声における振幅又はパワーに関する特徴量を抽出する音声特徴量抽出プログラムであって、
コンピュータを、
上記入力音声から振幅又はパワーに関する1つ以上の特徴量を抽出する特徴量抽出手段と、
上記特徴量に対する補正量を推定する補正量推定手段と、
上記補正量に基づいて、抽出された上記特徴量を補正して出力する特徴量補正手段と
して機能させることを特徴とする音声特徴量抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014159620A JP6451136B2 (ja) | 2014-08-05 | 2014-08-05 | 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014159620A JP6451136B2 (ja) | 2014-08-05 | 2014-08-05 | 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016038409A true JP2016038409A (ja) | 2016-03-22 |
JP6451136B2 JP6451136B2 (ja) | 2019-01-16 |
Family
ID=55529543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014159620A Active JP6451136B2 (ja) | 2014-08-05 | 2014-08-05 | 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6451136B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016045249A (ja) * | 2014-08-20 | 2016-04-04 | 沖電気工業株式会社 | 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム |
CN107886966A (zh) * | 2017-10-30 | 2018-04-06 | 捷开通讯(深圳)有限公司 | 终端及其优化语音命令的方法、存储装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06149289A (ja) * | 1992-11-09 | 1994-05-27 | Ricoh Co Ltd | 音声認識装置 |
JPH11212588A (ja) * | 1998-01-22 | 1999-08-06 | Hitachi Ltd | 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2007279444A (ja) * | 2006-04-07 | 2007-10-25 | Toshiba Corp | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
JP2014021307A (ja) * | 2012-07-19 | 2014-02-03 | Mitsubishi Electric Corp | 音声信号復元装置および音声信号復元方法 |
JP2014106337A (ja) * | 2012-11-27 | 2014-06-09 | Oki Electric Ind Co Ltd | 音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラム |
-
2014
- 2014-08-05 JP JP2014159620A patent/JP6451136B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06149289A (ja) * | 1992-11-09 | 1994-05-27 | Ricoh Co Ltd | 音声認識装置 |
JPH11212588A (ja) * | 1998-01-22 | 1999-08-06 | Hitachi Ltd | 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2007279444A (ja) * | 2006-04-07 | 2007-10-25 | Toshiba Corp | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
JP2014021307A (ja) * | 2012-07-19 | 2014-02-03 | Mitsubishi Electric Corp | 音声信号復元装置および音声信号復元方法 |
JP2014106337A (ja) * | 2012-11-27 | 2014-06-09 | Oki Electric Ind Co Ltd | 音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラム |
Non-Patent Citations (1)
Title |
---|
DROPPO, JASHA, ET AL.: "Evaluation of SPLICE on the AURORA 2 and 3 Tasks", PROC. ICSLP 2002, JPN7018001877, 16 September 2002 (2002-09-16), US, pages 29 - 32, ISSN: 0003811896 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016045249A (ja) * | 2014-08-20 | 2016-04-04 | 沖電気工業株式会社 | 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム |
CN107886966A (zh) * | 2017-10-30 | 2018-04-06 | 捷开通讯(深圳)有限公司 | 终端及其优化语音命令的方法、存储装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6451136B2 (ja) | 2019-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2788980B1 (en) | Harmonicity-based single-channel speech quality estimation | |
JP5666444B2 (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
US10510363B2 (en) | Pitch detection algorithm based on PWVT | |
Verteletskaya et al. | Noise reduction based on modified spectral subtraction method | |
CN107533848B (zh) | 用于话音恢复的***和方法 | |
Kleinschmidt et al. | The use of phase in complex spectrum subtraction for robust speech recognition | |
CN110349598A (zh) | 一种低信噪比环境下的端点检测方法 | |
JP2015161911A (ja) | 音声明瞭化装置及びそのためのコンピュータプログラム | |
JP6451136B2 (ja) | 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム | |
Thanhikam et al. | Stationary and non-stationary wide-band noise reduction using zero phase signal | |
Huang et al. | DNN-based speech enhancement using MBE model | |
US10297272B2 (en) | Signal processor | |
Shannon et al. | Role of phase estimation in speech enhancement | |
US20150162014A1 (en) | Systems and methods for enhancing an audio signal | |
CN111755025B (zh) | 一种基于音频特征的状态检测方法、装置及设备 | |
Amado et al. | Pitch detection algorithms based on zero-cross rate and autocorrelation function for musical notes | |
Ouzounov | A robust feature for speech detection | |
Tiwari et al. | Speech enhancement using noise estimation with dynamic quantile tracking | |
Zhang et al. | Speech enhancement for nonstationary noise environments | |
Son et al. | Improved speech absence probability estimation based on environmental noise classification | |
JP2014059525A (ja) | 帯域拡張装置及び方法 | |
Wang et al. | Speech enhancement using a joint MAP estimation of LP parameters | |
Borgström et al. | Improved speech presence probabilities using HMM-based inference, with applications to speech enhancement and ASR | |
JP6451143B2 (ja) | 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム | |
Muhammad | Noise-robust pitch detection using auto-correlation function with enhancements |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170515 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180612 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6451136 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |