JP6157926B2 - 音声処理装置、方法およびプログラム - Google Patents
音声処理装置、方法およびプログラム Download PDFInfo
- Publication number
- JP6157926B2 JP6157926B2 JP2013109897A JP2013109897A JP6157926B2 JP 6157926 B2 JP6157926 B2 JP 6157926B2 JP 2013109897 A JP2013109897 A JP 2013109897A JP 2013109897 A JP2013109897 A JP 2013109897A JP 6157926 B2 JP6157926 B2 JP 6157926B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- band
- missing
- spectrum envelope
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 55
- 238000000034 method Methods 0.000 title description 22
- 238000001228 spectrum Methods 0.000 claims description 85
- 238000001514 detection method Methods 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 34
- 230000003595 spectral effect Effects 0.000 claims description 31
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000013179 statistical model Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims 2
- 230000008859 change Effects 0.000 description 19
- 239000011159 matrix material Substances 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 230000000295 complement effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 230000002950 deficient Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Description
本実施形態の音声処理装置は、任意の周波数帯域の音声成分が欠損している入力音声のスペクトル包絡から、欠損している成分を補完したスペクトル包絡を生成する。入力音声は、主に、人の発話音声を想定している。図1は、実施形態の音声処理装置の構成を示すブロック図である。図2は、実施形態の音声処理装置が実行する処理の流れを示すフローチャートである。
参考文献1:M Tamura,T Kagoshima,and M Akamine,“Sub-band basis spectrum model for pitch-synchronous log-spectrum and phase based on approximation of sparse coding,”in Proceeding Interspeech 2010,pp.2046−2049,Sept.2010.
(1)周波数軸上で単一の最大値を与えるピーク周波数を含む所定の周波数帯域に値が存在し、その周波数帯域の外側は値を零とし、フーリエ変換やコサイン変換で用いられるような周期的な基底のように同じ最大値を複数持たない。
(2)基底の数は、スペクトル包絡がもつ分析点数よりも少なく、その数は分析点数の半分未満の数となる。
(3)ピーク周波数位置が隣りあう2つの基底間に重なりを持つ、すなわちピーク周波数が隣り合う基底は、値の存在する周波数の範囲の一部が重なる。
参考文献2:藤敦渉、他4名,「GMMに基づく最尤変換法による携帯電話音声の帯域拡張」,社団法人 情報処理学会 研究報告(IPSJ SIG Technical Report),2007年7月21日,p.63−68
2 検出部
3 生成部
4 変換部
5 補完部
10 基底モデル
20 統計情報
Claims (11)
- 入力音声のスペクトル包絡から、細分化された周波数帯域ごとの音声成分を表現する音声パラメータを抽出する抽出部と、
前記入力音声のスペクトル包絡において音声成分が欠損している周波数帯域である欠損帯域を検出する検出部と、
検出された前記欠損帯域の位置と、音声成分が欠損していない音声のスペクトル包絡から抽出された前記音声パラメータを用いて事前に作成された統計情報と、前記入力音声のスペクトル包絡から抽出された前記音声パラメータとに基づいて、前記欠損帯域に対応する前記音声パラメータを生成する生成部と、
生成された前記欠損帯域に対応する前記音声パラメータを、前記欠損帯域のスペクトル包絡に変換する変換部と、
前記欠損帯域のスペクトル包絡と前記入力音声のスペクトル包絡とを合成して、前記欠損帯域が補完されたスペクトル包絡を生成する補完部と、を備える音声処理装置。 - 前記音声パラメータは、細分化された前記周波数帯域の各々に対応する複数の基底ベクトルを用いて算出される値であり、
前記基底ベクトルの数は、音声のスペクトル包絡の分析に用いた分析点数よりも少ないことを特徴とする請求項1に記載の音声処理装置。 - 前記基底ベクトルに対応する前記周波数帯域の範囲は、周波数軸上で隣り合う範囲の一部が重複していることを特徴とする請求項2に記載の音声処理装置。
- 前記音声パラメータは、複数の前記基底ベクトルと各基底ベクトルに対応する重みベクトルとの線形結合と、音声のスペクトル包絡と、の誤差が最小になるように決定された前記重みベクトルであることを特徴とする請求項2または3に記載の音声処理装置。
- 前記検出部は、前記入力音声のスペクトル包絡または該スペクトル包絡から抽出された前記音声パラメータの包絡形状を解析して、前記欠損帯域を検出することを特徴とする請求項1に記載の音声処理装置。
- 前記統計情報は、音声成分が欠損していない複数の話者の音声から抽出された前記音声パラメータを学習データとして構築された統計モデルであることを特徴とする請求項1に記載の音声処理装置。
- 前記統計情報は、音声成分が欠損していない複数の話者の音声から抽出された前記音声パラメータの系列と、該音声パラメータの系列から抽出された時間変動成分と、を学習データとして構築された統計モデルであることを特徴とする請求項1に記載の音声処理装置。
- 前記生成部は、前記欠損帯域の位置と前記統計情報とに基づいて、前記欠損帯域を除く周波数帯域である残存帯域に対応する前記音声パラメータから前記欠損帯域に対応する前記音声パラメータを生成する規則を構築し、該規則を用いて、前記入力音声の音声スペクトル包絡から抽出された前記音声パラメータから、前記欠損帯域に対応する前記音声パラメータを生成することを特徴とする請求項1に記載の音声処理装置。
- 前記変換部は、前記欠損帯域に対応する前記音声パラメータとして生成された前記重みベクトルと、前記欠損帯域に対応する前記基底ベクトルとを線形結合することにより、前記欠損帯域に対応する前記音声パラメータを前記欠損帯域のスペクトル包絡に変換することを特徴とする請求項4に記載の音声処理装置。
- 音声処理装置において実行される音声処理方法であって、
前記音声処理装置が、入力音声のスペクトル包絡から、細分化された周波数帯域ごとの音声成分を表現する音声パラメータを抽出するステップと、
前記音声処理装置が、前記入力音声のスペクトル包絡において音声成分が欠損している周波数帯域である欠損帯域を検出するステップと、
前記音声処理装置が、検出された前記欠損帯域の位置と、音声成分が欠損していない音声のスペクトル包絡から抽出された前記音声パラメータを用いて事前に作成された統計情報と、前記入力音声のスペクトル包絡から抽出された前記音声パラメータとに基づいて、前記欠損帯域に対応する前記音声パラメータを生成するステップと、
前記音声処理装置が、生成された前記欠損帯域に対応する前記音声パラメータを、前記欠損帯域のスペクトル包絡に変換するステップと、
前記音声処理装置が、前記欠損帯域のスペクトル包絡と前記入力音声のスペクトル包絡とを合成して、前記欠損帯域が補完されたスペクトル包絡を生成するステップと、を含む音声処理方法。 - コンピュータに、
入力音声のスペクトル包絡から、細分化された周波数帯域ごとの音声成分を表現する音声パラメータを抽出する機能と、
前記入力音声のスペクトル包絡において音声成分が欠損している周波数帯域である欠損帯域を検出する機能と、
検出された前記欠損帯域の位置と、音声成分が欠損していない音声のスペクトル包絡から抽出された前記音声パラメータを用いて事前に作成された統計情報と、前記入力音声のスペクトル包絡から抽出された前記音声パラメータとに基づいて、前記欠損帯域に対応する前記音声パラメータを生成する機能と、
生成された前記欠損帯域に対応する前記音声パラメータを、前記欠損帯域のスペクトル包絡に変換する機能と、
前記欠損帯域のスペクトル包絡と前記入力音声のスペクトル包絡とを合成して、前記欠損帯域が補完されたスペクトル包絡を生成する機能と、を実現させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013109897A JP6157926B2 (ja) | 2013-05-24 | 2013-05-24 | 音声処理装置、方法およびプログラム |
US14/194,976 US20140350922A1 (en) | 2013-05-24 | 2014-03-03 | Speech processing device, speech processing method and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013109897A JP6157926B2 (ja) | 2013-05-24 | 2013-05-24 | 音声処理装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014228779A JP2014228779A (ja) | 2014-12-08 |
JP6157926B2 true JP6157926B2 (ja) | 2017-07-05 |
Family
ID=51935942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013109897A Active JP6157926B2 (ja) | 2013-05-24 | 2013-05-24 | 音声処理装置、方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20140350922A1 (ja) |
JP (1) | JP6157926B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107077849B (zh) * | 2014-11-07 | 2020-09-08 | 三星电子株式会社 | 用于恢复音频信号的方法和设备 |
JP2019008206A (ja) * | 2017-06-27 | 2019-01-17 | 日本放送協会 | 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム |
CN113948085B (zh) * | 2021-12-22 | 2022-03-25 | 中国科学院自动化研究所 | 语音识别方法、***、电子设备和存储介质 |
CN115497494A (zh) * | 2022-09-14 | 2022-12-20 | 安克创新科技股份有限公司 | 通话增强方法、装置、通话***、电子设备及存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5561598A (en) * | 1994-11-16 | 1996-10-01 | Digisonix, Inc. | Adaptive control system with selectively constrained ouput and adaptation |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
US20070005351A1 (en) * | 2005-06-30 | 2007-01-04 | Sathyendra Harsha M | Method and system for bandwidth expansion for voice communications |
US7546240B2 (en) * | 2005-07-15 | 2009-06-09 | Microsoft Corporation | Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition |
US20080300866A1 (en) * | 2006-05-31 | 2008-12-04 | Motorola, Inc. | Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice |
JP2008122597A (ja) * | 2006-11-10 | 2008-05-29 | Sanyo Electric Co Ltd | オーディオ信号処理装置及びオーディオ信号処理方法 |
DE602007004504D1 (de) * | 2007-10-29 | 2010-03-11 | Harman Becker Automotive Sys | Partielle Sprachrekonstruktion |
US8463599B2 (en) * | 2009-02-04 | 2013-06-11 | Motorola Mobility Llc | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
US9117458B2 (en) * | 2009-11-12 | 2015-08-25 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
US8489393B2 (en) * | 2009-11-23 | 2013-07-16 | Cambridge Silicon Radio Limited | Speech intelligibility |
US8874441B2 (en) * | 2011-01-19 | 2014-10-28 | Broadcom Corporation | Noise suppression using multiple sensors of a communication device |
JP5942420B2 (ja) * | 2011-07-07 | 2016-06-29 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
-
2013
- 2013-05-24 JP JP2013109897A patent/JP6157926B2/ja active Active
-
2014
- 2014-03-03 US US14/194,976 patent/US20140350922A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2014228779A (ja) | 2014-12-08 |
US20140350922A1 (en) | 2014-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9355649B2 (en) | Sound alignment using timing information | |
JP5127754B2 (ja) | 信号処理装置 | |
US8831942B1 (en) | System and method for pitch based gender identification with suspicious speaker detection | |
US10008218B2 (en) | Blind bandwidth extension using K-means and a support vector machine | |
EP1995723A1 (en) | Neuroevolution training system | |
US10373604B2 (en) | Noise compensation in speaker-adaptive systems | |
WO2019116889A1 (ja) | 信号処理装置および方法、学習装置および方法、並びにプログラム | |
Eskimez et al. | Adversarial training for speech super-resolution | |
JP6157926B2 (ja) | 音声処理装置、方法およびプログラム | |
JP3189598B2 (ja) | 信号合成方法および信号合成装置 | |
JP6439682B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
KR20170107683A (ko) | 딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법 | |
WO2023001128A1 (zh) | 音频数据的处理方法、装置及设备 | |
JP2013057735A (ja) | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 | |
CN108369803B (zh) | 用于形成基于声门脉冲模型的参数语音合成***的激励信号的方法 | |
JP5974901B2 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP5443547B2 (ja) | 信号処理装置 | |
JP6216809B2 (ja) | パラメータ調整システム、パラメータ調整方法、プログラム | |
Kaminishi et al. | Investigation on Blind Bandwidth Extension with a Non-Linear Function and its Evaluation of x-Vector-Based Speaker Verification. | |
US9398387B2 (en) | Sound processing device, sound processing method, and program | |
Makhijani et al. | Speech enhancement using pitch detection approach for noisy environment | |
JP2007328268A (ja) | 音楽信号の帯域拡張方式 | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
TWI409802B (zh) | 音頻特徵處理方法及其裝置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20151102 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160317 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170406 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170607 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6157926 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |