JP5530812B2 - 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム - Google Patents
音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム Download PDFInfo
- Publication number
- JP5530812B2 JP5530812B2 JP2010128443A JP2010128443A JP5530812B2 JP 5530812 B2 JP5530812 B2 JP 5530812B2 JP 2010128443 A JP2010128443 A JP 2010128443A JP 2010128443 A JP2010128443 A JP 2010128443A JP 5530812 B2 JP5530812 B2 JP 5530812B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- pair
- signal processing
- spectrum
- csp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000005236 sound signal Effects 0.000 title claims description 60
- 238000012545 processing Methods 0.000 title claims description 55
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000001228 spectrum Methods 0.000 claims description 62
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000037433 frameshift Effects 0.000 claims description 12
- 230000010363 phase shift Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 description 13
- 238000000034 method Methods 0.000 description 13
- 238000002474 experimental method Methods 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Complex Calculations (AREA)
Description
ここで、ST-1とSTは、T-1フレーム目とTフレーム目の音声信号をそれぞれ表し、記号DFTとIDFTは、離散フーリエ変換とその逆変換をそれぞれ表す。また、CSPT(k)は、Tフレーム目のCSP係数を表し、kはインデックス(位相指標)を表す。*は共役複素数を表す。
なお、図5に示す音声信号500の例では、上記基準位置505からマイナスの方向に進んだ矢印520が示す位置においてCSP係数の最大値が求められた。
ここでτは補正すべき位相量、Kは数式2により表される、CSP係数を最大にするインデックス、jは離散フーリエ変換の周波数bin番号、mは離散フーリエ変換の幅(標本点数)をそれぞれ表す。なお、周波数bin番号のjは、fをサンプリング周波数、wを周波数とすると、j=w・m/fにより求められる。
ここでiは虚数である(以下、同様)。
ここで、ST(j)はTフレーム目のスペクトルであり、θT(j)はその位相を表す。また、S’T-1(j)は数式4で示されるT-1フレーム目の位相補正後のスペクトルであり、θ’T-1(j)はその位相を表す。また、jは離散フーリエ変換の周波数bin番号である。Tフレーム目のスペクトルST(j)にマスカーg(j)を適用した後のスペクトルS’’T(j)は次式により表される。
Claims (7)
- 音声特徴量を出力する音声信号処理システムであって、
入力された音声信号を、隣接するフレームのペアが前記音声信号の1周期以上のフレーム・シフト幅を有しかつ一定以上の長さのオーバーラップ部分を有するように、フレームに分割するフレーム分割部と、
前記フレーム毎に離散フーリエ変換を行って前記音声信号のスペクトルを出力する離散フーリエ変換部と、
前記隣接するフレームのペア毎に、該ペアのスペクトルのCross−Power Spectrum Phase(CSP)係数を算出するCSP係数算出部と、
前記隣接するフレームのペア毎に、音声の波が一周期以上ずれる所定の探索範囲内で前記CSP係数の最大値を探索して取得する位相情報取得部と、
前記フレームの順に並べた前記CSP係数の最大値の時系列データを、音声特徴量として生成する時系列データ生成部と、
を含む音声信号処理システム。 - 前記所定の探索範囲は、前記隣接するフレームのペアのうち時間的に後のフレームのフレーム始まり位置を基準としてその前後L/2の範囲であり、ここでLは、想定される人の音声の波のうち最小の基本周波数100Hzを有する波の周期である、請求項1に記載の音声信号処理システム。
- 前記フレーム・シフト幅を、想定される人の音声の波のうち最小の基本周波数100Hzを有する波が入る幅である10msecとする、請求項2に記載の音声信号処理システム。
- 前記隣接するフレームのペア毎に、該ペアに対して求められた前記CSP係数を前記所定の探索範囲内で最大にするインデックスの値に基づいて、前記ペアの両スペクトルを、位相を揃えて加算する母音強調処理部と、
前記母音強調処理部の出力を入力として受け取り、該入力から音声特徴量を抽出し、該音声特徴量を前記CSP係数の最大値の時系列データと共に音声特徴ベクトルとして出力する特徴ベクトル算出部とを更に含む、請求項1に記載の音声信号処理システム。 - 前記隣接するフレームのペア毎に、該ペアに対して求められた前記CSP係数を前記所定の探索範囲内で最大にするインデックスの値に基づいて、前記ペアの両スペクトルの位相のずれを最小にする位置において比較した場合に両スペクトルの符号が一致しない周波数binのスペクトルを弱めるマスカーを算出し、該マスカーを前記ペアの一方のスペクトルに適用するマスク処理部と、
前記マスク処理部の出力を入力として受け取り、該入力から音声特徴量を抽出し、該音声特徴量を前記CSP係数の最大値の時系列データと共に音声特徴ベクトルとして出力する特徴ベクトル算出部とを更に含む、請求項1に記載の音声信号処理システム。 - プロセッサと記憶部を備えたコンピュータにおいて実行される、音声特徴量を出力するための音声信号処理方法であって、
前記プロセッサが、入力された音声信号を、隣接するフレームのペアが前記音声信号の1周期以上のフレーム・シフト幅を有しかつ一定以上の長さのオーバーラップ部分を有するように、フレームに分割し、前記記憶部に記憶するステップと、
前記プロセッサが、前記フレーム毎に離散フーリエ変換を行って前記音声信号のスペクトルを出力し、前記記憶部に記憶するステップと、
前記プロセッサが、前記隣接するフレームのペア毎に、該ペアのスペクトルのCross−Power SpectrumPhase(CSP)係数を算出し、前記記憶部に記憶するステップと、
前記プロセッサが、前記隣接するフレームのペア毎に、音声の波が一周期以上ずれる所定の探索範囲内で前記CSP係数の最大値を探索して取得し、前記記憶部に記憶するステップと、
前記プロセッサが、前記フレームの順に並べた前記CSP係数の最大値の時系列データを、音声特徴量として生成するステップと
を含む音声信号処理方法。 - 記憶部を備えたコンピュータにおいて実行される、音声特徴量を出力するための音声信号処理プログラムであって、該音声信号処理プログラムは、前記コンピュータに、
入力された音声信号を、隣接するフレームのペアが前記音声信号の1周期以上のフレーム・シフト幅を有しかつ一定以上の長さのオーバーラップ部分を有するように、フレームに分割し、前記記憶部に記憶するステップと、
前記フレーム毎に離散フーリエ変換を行って前記音声信号のスペクトルを出力し、前記記憶部に記憶するステップと、
前記隣接するフレームのペア毎に、該ペアのスペクトルのCross−Power SpectrumPhase(CSP)係数を算出し、前記記憶部に記憶するステップと、
前記隣接するフレームのペア毎に、音声の波が一周期以上ずれる所定の探索範囲内で前記CSP係数の最大値を探索して取得し、前記記憶部に記憶するステップと、
前記フレームの順に従って並べた前記CSP係数の最大値の時系列データを、音声特徴量として生成するステップと
を実行させる、前記音声信号処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010128443A JP5530812B2 (ja) | 2010-06-04 | 2010-06-04 | 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム |
US13/150,804 US8566084B2 (en) | 2010-06-04 | 2011-06-01 | Speech processing based on time series of maximum values of cross-power spectrum phase between two consecutive speech frames |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010128443A JP5530812B2 (ja) | 2010-06-04 | 2010-06-04 | 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011253133A JP2011253133A (ja) | 2011-12-15 |
JP5530812B2 true JP5530812B2 (ja) | 2014-06-25 |
Family
ID=45065168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010128443A Expired - Fee Related JP5530812B2 (ja) | 2010-06-04 | 2010-06-04 | 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8566084B2 (ja) |
JP (1) | JP5530812B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4906908B2 (ja) * | 2009-11-30 | 2012-03-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 目的音声抽出方法、目的音声抽出装置、及び目的音声抽出プログラム |
US20140329511A1 (en) * | 2011-12-20 | 2014-11-06 | Nokia Corporation | Audio conferencing |
TWI569263B (zh) * | 2015-04-30 | 2017-02-01 | 智原科技股份有限公司 | 聲頻訊號的訊號擷取方法與裝置 |
WO2016208000A1 (ja) * | 2015-06-24 | 2016-12-29 | Pioneer DJ株式会社 | 表示制御装置、表示制御方法および表示制御プログラム |
JP6477295B2 (ja) * | 2015-06-29 | 2019-03-06 | 株式会社Jvcケンウッド | 雑音検出装置、雑音検出方法及び雑音検出プログラム |
JP6597062B2 (ja) * | 2015-08-31 | 2019-10-30 | 株式会社Jvcケンウッド | 雑音低減装置、雑音低減方法、雑音低減プログラム |
JP2017167433A (ja) * | 2016-03-17 | 2017-09-21 | 株式会社東芝 | サマリ生成装置、サマリ生成方法及びサマリ生成プログラム |
CN107463904B (zh) * | 2017-08-08 | 2021-05-25 | 网宿科技股份有限公司 | 一种确定事件周期值的方法及装置 |
CN109346109B (zh) * | 2018-12-05 | 2020-02-07 | 百度在线网络技术(北京)有限公司 | 基频提取方法和装置 |
CN113611292B (zh) * | 2021-08-06 | 2023-11-10 | 思必驰科技股份有限公司 | 用于语音分离、识别的短时傅里叶变化的优化方法及*** |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5754974A (en) * | 1995-02-22 | 1998-05-19 | Digital Voice Systems, Inc | Spectral magnitude representation for multi-band excitation speech coders |
US5781881A (en) * | 1995-10-19 | 1998-07-14 | Deutsche Telekom Ag | Variable-subframe-length speech-coding classes derived from wavelet-transform parameters |
JP3534012B2 (ja) * | 1999-09-29 | 2004-06-07 | ヤマハ株式会社 | 波形分析方法 |
US20030055634A1 (en) * | 2001-08-08 | 2003-03-20 | Nippon Telegraph And Telephone Corporation | Speech processing method and apparatus and program therefor |
US7016839B2 (en) * | 2002-01-31 | 2006-03-21 | International Business Machines Corporation | MVDR based feature extraction for speech recognition |
KR100836574B1 (ko) * | 2002-10-24 | 2008-06-10 | 도꾸리쯔교세이호진 상교기쥬쯔 소고겡뀨죠 | 악곡재생방법, 장치 및 음악음향데이터 중의 대표 모티프구간 검출방법 |
WO2004111996A1 (ja) * | 2003-06-11 | 2004-12-23 | Matsushita Electric Industrial Co., Ltd. | 音響区間検出方法および装置 |
CN1957397A (zh) * | 2004-03-30 | 2007-05-02 | 先锋株式会社 | 声音识别装置和声音识别方法 |
EP1647937A1 (en) * | 2004-10-15 | 2006-04-19 | Sony Deutschland GmbH | Method for motion estimation |
JP4247195B2 (ja) * | 2005-03-23 | 2009-04-02 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 |
US7672842B2 (en) * | 2006-07-26 | 2010-03-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for FFT-based companding for automatic speech recognition |
US8139777B2 (en) * | 2007-10-31 | 2012-03-20 | Qnx Software Systems Co. | System for comfort noise injection |
KR101470528B1 (ko) * | 2008-06-09 | 2014-12-15 | 삼성전자주식회사 | 적응 빔포밍을 위한 사용자 방향의 소리 검출 기반의 적응모드 제어 장치 및 방법 |
JP5334037B2 (ja) * | 2008-07-11 | 2013-11-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音源の位置検出方法及びシステム |
US8275622B2 (en) * | 2009-02-06 | 2012-09-25 | Mitsubishi Electric Research Laboratories, Inc. | Ultrasonic doppler sensor for speaker recognition |
JP5919516B2 (ja) * | 2010-07-26 | 2016-05-18 | パナソニックIpマネジメント株式会社 | 多入力雑音抑圧装置、多入力雑音抑圧方法、プログラムおよび集積回路 |
-
2010
- 2010-06-04 JP JP2010128443A patent/JP5530812B2/ja not_active Expired - Fee Related
-
2011
- 2011-06-01 US US13/150,804 patent/US8566084B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011253133A (ja) | 2011-12-15 |
US8566084B2 (en) | 2013-10-22 |
US20110301945A1 (en) | 2011-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5530812B2 (ja) | 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム | |
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
JP5723923B2 (ja) | 音声特徴量抽出装置、及び音声特徴量抽出プログラム | |
JP4757158B2 (ja) | 音信号処理方法、音信号処理装置及びコンピュータプログラム | |
JP5505896B2 (ja) | 発話区間検出システム、方法及びプログラム | |
US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
US8812312B2 (en) | System, method and program for speech processing | |
JP3006677B2 (ja) | 音声認識装置 | |
Rajan et al. | Using group delay functions from all-pole models for speaker recognition | |
JP2013164572A (ja) | 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム | |
Morise | Error evaluation of an F0-adaptive spectral envelope estimator in robustness against the additive noise and F0 error | |
Pao et al. | Combining acoustic features for improved emotion recognition in mandarin speech | |
US9087513B2 (en) | Noise reduction method, program product, and apparatus | |
Priyadarshani et al. | Dynamic time warping based speech recognition for isolated Sinhala words | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
JP6087731B2 (ja) | 音声明瞭化装置、方法及びプログラム | |
CN110838294B (zh) | 一种语音验证方法、装置、计算机设备及存储介质 | |
JP5325130B2 (ja) | Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム | |
JP4571871B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
Mitra et al. | From acoustics to vocal tract time functions | |
JP4325044B2 (ja) | 音声認識システム | |
Ramesh et al. | Glottal opening instants detection using zero frequency resonator | |
Bahja et al. | An overview of the cate algorithms for real-time pitch determination | |
JP2002507775A (ja) | 音声信号処理方法および音声信号処理装置 | |
JP6092345B2 (ja) | 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130627 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130709 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20130711 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131008 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140421 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5530812 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |