JP5315414B2 - 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム - Google Patents
音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム Download PDFInfo
- Publication number
- JP5315414B2 JP5315414B2 JP2011528703A JP2011528703A JP5315414B2 JP 5315414 B2 JP5315414 B2 JP 5315414B2 JP 2011528703 A JP2011528703 A JP 2011528703A JP 2011528703 A JP2011528703 A JP 2011528703A JP 5315414 B2 JP5315414 B2 JP 5315414B2
- Authority
- JP
- Japan
- Prior art keywords
- delta
- spectrum
- mel
- filter bank
- feature quantity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 119
- 238000001228 spectrum Methods 0.000 claims abstract description 249
- 238000010606 normalization Methods 0.000 claims abstract description 84
- 238000012545 processing Methods 0.000 claims description 158
- 230000005236 sound signal Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 abstract description 132
- 230000006870 function Effects 0.000 description 44
- 238000000034 method Methods 0.000 description 42
- 230000008569 process Effects 0.000 description 24
- 238000011156 evaluation Methods 0.000 description 22
- 230000003068 static effect Effects 0.000 description 18
- 238000002474 experimental method Methods 0.000 description 17
- 238000012360 testing method Methods 0.000 description 11
- 230000006872 improvement Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- ADTDNFFHPRZSOT-PVFUSPOPSA-N ram-330 Chemical compound C([C@H]1N(CC2)C)C3=CC=C(OC)C(OC)=C3[C@]32[C@@]1(O)CC[C@@H](OC(=O)OCC)C3 ADTDNFFHPRZSOT-PVFUSPOPSA-N 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
- Complex Calculations (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
Description
前記デルタスペクトルを入力として、各フレームについて、前後のフレーム間の前記周波数binごとの前記デルタスペクトルの差分をデルタデルタスペクトルとして算出する第2差分算出手段と、前記各フレームについて、周波数binごとの前記デルタデルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとのメル・デルタデルタスペクトルとして算出する第2メル・フィルタバンク処理手段と、前記各フレームについて、前記フィルタバンクごとの前記メル・デルタデルタスペクトルを前記平均メルスペクトルの関数で除算することにより正規化する第2正規化処理手段とを更に含み、前記第2正規化処理手段の出力をデルタデルタ特徴量とする。
式1と式2を比較すると、本願発明者が提案するデルタ特徴量は、従来のデルタ特徴量の分母のスペクトルstを発話全体の平均スペクトルのsバーで置き換えたものと理解することができる。従って本願発明者が提案するデルタ特徴量は、tフレーム目が発話全体に比べ小さなパワーを持っているときには、従来のデルタ特徴よりも小さなデルタ特徴量を与える。なお上記両式が類似していることから、式1は式2と同程度のダイナミックレンジに収まっているといえる。更に、式1のデルタ特徴量は、sバーで除されていることから、伝達特性の補正の効果も入っている。
同様に式2のデルタ特徴量は次式のように観測される。
このようにして静的特徴量算出部は、スペクトルstを入力として、最終的にメルケプストラムCtを静的特徴量として出力する。
式10では、周波数bin番号iは省略している。
式11では、周波数bin番号iは省略している。第1実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、第1正規化処理部605の出力をデルタ特徴量とする。
式12では、周波数bin番号iは省略している。
式13では、周波数bin番号iは省略している。第1実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部は、第2正規化処理部615の出力をデルタデルタ特徴量とする。
式14では、フィルタバンク番号jは省略している。また式14の右辺の分母は、フィルタバンクごとの平均メルスペクトルSバーである。第2実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、その処理が最後となる第1メル・フィルタバンク処理部705又は第1正規化処理部710の出力をデルタ特徴量とする。
式15では、フィルタバンク番号jは省略している。また式15の右辺の分母は、フィルタバンクごとの平均メルスペクトルSバーである。第2実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部は、その処理が最後となる第2メル・フィルタバンク処理部720又は第2正規化処理部725の出力をデルタデルタ特徴量とする。
式16において、記号DCTは式9の離散コサイン変換行列D(h、j)による変換を表す。第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、第1離散コサイン変換部815の出力をデルタ特徴量とする。
式17において、記号DCTは式9の離散コサイン変換行列D(h、j)による変換を表す。第3実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部は、第2離散コサイン変換部835の出力をデルタデルタ特徴量とする。
式20及び式21では、フィルタバンク番号jは省略している。
なお、LPW−Mel−FB Weightを使用するのは、広帯域の雑音に対する耐性を高めるためであり、雑音が音楽や他者の発声である場合や、雑音がなく残響のみがある場合は、LPW−Mel−FB Weightを使用する必要はない。
式26において記号DCTは、式9の離散コサイン変換行列D(h、j)による変換を表す。続いて、ケプストラムRtは、対数スペクトルの外形の特徴を抽出した係数であるので、次式より、人間の発声の調波構造に対応した領域の項のみ残し、それ以外の項をカットする(ステップ1110)。
式22において記号DCT−1は、式9の離散コサイン変換行列D(h、j)の逆行列による変換を表す。
式30において、Num_binは周波数binの総数である。
式32では、フィルタバンク番号jは省略している。
評価実験1:静的特徴量MFCC12次元のみを使用した場合と、それにデルタ特徴量12次元を追加した24次元を使用した場合の文字列認識率の比較を行った。その際デルタ特徴量としては、デルタMFCC12次元と、上述した第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部により算出される線形のデルタ特徴量12次元の2種類を評価した。
上述した本発明の線形のデルタ特徴量と線形のデルタデルタ特徴量とで置き換えた場合(図17の表の「linearΔ」の欄を参照)と、ベースラインの39次元をそのまま維持した場合(図17の表の「ベースライン」の欄を参照)の文字列認識率を比較した。なお、本発明の線形のデルタ特徴量及び線形のデルタデルタ特徴量としては、上述した第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部とデルタデルタ特徴量算出部によりそれぞれにより算出されるものを使用した。
Claims (2)
- 音声特徴量抽出装置であって、
フレーム化された音声信号の周波数binごとのスペクトルを入力して、各フレームについて、前記周波数binごと、前後のフレーム間の前記スペクトルの差分をデルタスペクトルとして算出する第1差分算出手段と、
前記各フレームについて、前記周波数binごとの前記デルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとのメル・デルタスペクトルとして算出する第1メル・フィルタバンク処理手段と、
前記各フレームについて、前記フィルタバンクごとのメル・デルタスペクトルを、該フィルタバンクについての発話全体である全フレームについてのメルスペクトルの平均である平均メルスペクトルの関数で除算することにより正規化する第1正規化処理手段と、
正規化された前記フィルタバンクごとの前記メル・デルタスペクトルを、離散コサイン変換する第1離散コサイン変換手段とを含み、
任意のフレームt及び任意のフィルタバンクjに対して前記平均メルスペクトルの前記関数は、フレームtのフィルタバンクjについてのメルスペクトルの値と、フィルタバンクjについての前記平均メルスペクトルの値とのうち、大きい方の値又は大きい方の値に近い値を出力する、
前記第1離散コサイン変換手段の出力をデルタ特徴量とする、音声特徴量抽出装置。 - プロセッサと記憶領域を備えたコンピュータにおいて実行される、音声特徴量を抽出する音声特徴量抽出プログラムであって、該音声特徴量抽出プログラムは、前記コンピュータに、
前記プロセッサが、フレーム化された音声信号の周波数binごとのスペクトルを入力して、各フレームについて、前記周波数binごと、前後のフレーム間の前記スペクトルの差分をデルタスペクトルとして算出し、前記記憶領域に記憶するステップと、
前記プロセッサが、前記各フレームについて、前記周波数binごとの前記デルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとのメル・デルタスペクトルとして算出し、前記記憶領域に記憶するステップと、
前記プロセッサが、前記各フレームについて、前記フィルタバンクごとのメル・デルタスペクトルを、該フィルタバンクについての発話全体である全フレームについてのメルスペクトルの平均である平均メルスペクトルの関数で除算することにより正規化し、前記記憶領域に記憶するステップと、
前記プロセッサが、前記記憶領域から正規化された前記フィルタバンクごとのメル・デルタスペクトルを読み出し、離散コサイン変換するステップとを実行させ、
任意のフレームt及び任意のフィルタバンクjに対して前記平均メルスペクトルの前記関数は、フレームtのフィルタバンクjについてのメルスペクトルの値と、フィルタバンクjについての前記平均メルスペクトルの値とのうち、大きい方の値又は大きい方の値に近い値を出力する、
前記離散コサイン変換後の値をデルタ特徴量とする、音声特徴量抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011528703A JP5315414B2 (ja) | 2009-08-28 | 2010-07-12 | 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009197853 | 2009-08-28 | ||
JP2009197853 | 2009-08-28 | ||
JP2011528703A JP5315414B2 (ja) | 2009-08-28 | 2010-07-12 | 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム |
PCT/JP2010/061800 WO2011024572A1 (ja) | 2009-08-28 | 2010-07-12 | 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013109608A Division JP5723923B2 (ja) | 2009-08-28 | 2013-05-24 | 音声特徴量抽出装置、及び音声特徴量抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011024572A1 JPWO2011024572A1 (ja) | 2013-01-24 |
JP5315414B2 true JP5315414B2 (ja) | 2013-10-16 |
Family
ID=43627683
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011528703A Expired - Fee Related JP5315414B2 (ja) | 2009-08-28 | 2010-07-12 | 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム |
JP2013109608A Active JP5723923B2 (ja) | 2009-08-28 | 2013-05-24 | 音声特徴量抽出装置、及び音声特徴量抽出プログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013109608A Active JP5723923B2 (ja) | 2009-08-28 | 2013-05-24 | 音声特徴量抽出装置、及び音声特徴量抽出プログラム |
Country Status (8)
Country | Link |
---|---|
US (2) | US8930185B2 (ja) |
JP (2) | JP5315414B2 (ja) |
KR (1) | KR101332143B1 (ja) |
CN (1) | CN102483916B (ja) |
DE (1) | DE112010003461B4 (ja) |
GB (1) | GB2485926B (ja) |
TW (1) | TW201123169A (ja) |
WO (1) | WO2011024572A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140329511A1 (en) * | 2011-12-20 | 2014-11-06 | Nokia Corporation | Audio conferencing |
JP5875414B2 (ja) * | 2012-03-07 | 2016-03-02 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 雑音抑制方法、プログラム及び装置 |
TWI463487B (zh) * | 2012-05-18 | 2014-12-01 | Nyquest Corp Ltd | 修音處理裝置、修音處理方法及其驗證裝置 |
CN104350391A (zh) * | 2012-06-05 | 2015-02-11 | 松下知识产权经营株式会社 | 信号处理装置 |
JP6152639B2 (ja) * | 2012-11-27 | 2017-06-28 | 沖電気工業株式会社 | 音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラム |
US20140278415A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Voice Recognition Configuration Selector and Method of Operation Therefor |
CN104063155B (zh) * | 2013-03-20 | 2017-12-19 | 腾讯科技(深圳)有限公司 | 内容分享方法、装置及电子设备 |
KR101756287B1 (ko) * | 2013-07-03 | 2017-07-26 | 한국전자통신연구원 | 음성인식을 위한 특징 추출 장치 및 방법 |
EP2980801A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
US9659578B2 (en) * | 2014-11-27 | 2017-05-23 | Tata Consultancy Services Ltd. | Computer implemented system and method for identifying significant speech frames within speech signals |
CN107203539B (zh) * | 2016-03-17 | 2020-07-14 | 曾雅梅 | 复数字词学习机的语音评测装置及其评测与连续语音图像化方法 |
CN106683687B (zh) * | 2016-12-30 | 2020-02-14 | 杭州华为数字技术有限公司 | 异常声音的分类方法和装置 |
CN110268471B (zh) * | 2017-01-26 | 2023-05-02 | 赛伦斯运营公司 | 具有嵌入式降噪的asr的方法和设备 |
US10062378B1 (en) * | 2017-02-24 | 2018-08-28 | International Business Machines Corporation | Sound identification utilizing periodic indications |
CN108449323B (zh) * | 2018-02-14 | 2021-05-25 | 深圳市声扬科技有限公司 | 登录认证方法、装置、计算机设备和存储介质 |
US11170799B2 (en) * | 2019-02-13 | 2021-11-09 | Harman International Industries, Incorporated | Nonlinear noise reduction system |
CN110412366B (zh) * | 2019-06-04 | 2021-06-22 | 广西电网有限责任公司电力科学研究院 | 一种基于动态时间算法的变压器带电检测方法 |
CN113160797B (zh) * | 2021-04-25 | 2023-06-02 | 北京华捷艾米科技有限公司 | 音频特征处理方法及装置、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003259311A (ja) * | 2002-03-06 | 2003-09-12 | Nippon Telegr & Teleph Corp <Ntt> | 映像再生方法、映像再生装置、映像再生プログラム |
JP2005331588A (ja) * | 2004-05-18 | 2005-12-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体 |
JP2007279444A (ja) * | 2006-04-07 | 2007-10-25 | Toshiba Corp | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
JP2007292827A (ja) * | 2006-04-21 | 2007-11-08 | Dainippon Printing Co Ltd | 音響信号検索装置 |
JP2009058708A (ja) * | 2007-08-31 | 2009-03-19 | Internatl Business Mach Corp <Ibm> | 音声処理システム、方法及びプログラム |
JP2009063773A (ja) * | 2007-09-05 | 2009-03-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声特徴学習装置、音声認識装置、それらの方法、それらのプログラム、それらの記録媒体 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1013525B (zh) * | 1988-11-16 | 1991-08-14 | 中国科学院声学研究所 | 认人与不认人实时语音识别的方法和装置 |
US6324505B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Amplitude quantization scheme for low-bit-rate speech coders |
GB2355834A (en) * | 1999-10-29 | 2001-05-02 | Nokia Mobile Phones Ltd | Speech recognition |
JP2003255983A (ja) * | 2002-03-05 | 2003-09-10 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム |
DE60204827T2 (de) | 2001-08-08 | 2006-04-27 | Nippon Telegraph And Telephone Corp. | Anhebungsdetektion zur automatischen Sprachzusammenfassung |
JP3907194B2 (ja) | 2003-05-23 | 2007-04-18 | 株式会社東芝 | 音声認識装置、音声認識方法及び音声認識プログラム |
US7567900B2 (en) | 2003-06-11 | 2009-07-28 | Panasonic Corporation | Harmonic structure based acoustic speech interval detection method and device |
EP1719114A2 (en) | 2004-02-18 | 2006-11-08 | Philips Intellectual Property & Standards GmbH | Method and system for generating training data for an automatic speech recogniser |
JP4358229B2 (ja) * | 2004-07-09 | 2009-11-04 | 日本電信電話株式会社 | 信号検出システム、信号検出サーバ、信号検出方法及びプログラム |
JP4597919B2 (ja) * | 2006-07-03 | 2010-12-15 | 日本電信電話株式会社 | 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体 |
JP4658022B2 (ja) | 2006-11-20 | 2011-03-23 | 株式会社リコー | 音声認識システム |
JP4673828B2 (ja) * | 2006-12-13 | 2011-04-20 | 日本電信電話株式会社 | 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 |
KR100930060B1 (ko) | 2008-01-09 | 2009-12-08 | 성균관대학교산학협력단 | 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체 |
CN101404160B (zh) * | 2008-11-21 | 2011-05-04 | 北京科技大学 | 一种基于音频识别的语音降噪方法 |
-
2010
- 2010-07-12 US US13/392,901 patent/US8930185B2/en active Active
- 2010-07-12 WO PCT/JP2010/061800 patent/WO2011024572A1/ja active Application Filing
- 2010-07-12 KR KR1020127005189A patent/KR101332143B1/ko active IP Right Grant
- 2010-07-12 DE DE112010003461.3T patent/DE112010003461B4/de active Active
- 2010-07-12 JP JP2011528703A patent/JP5315414B2/ja not_active Expired - Fee Related
- 2010-07-12 CN CN201080038121.5A patent/CN102483916B/zh active Active
- 2010-07-12 GB GB1202741.3A patent/GB2485926B/en active Active
- 2010-08-26 TW TW099128697A patent/TW201123169A/zh unknown
-
2012
- 2012-09-06 US US13/604,721 patent/US8468016B2/en not_active Expired - Fee Related
-
2013
- 2013-05-24 JP JP2013109608A patent/JP5723923B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003259311A (ja) * | 2002-03-06 | 2003-09-12 | Nippon Telegr & Teleph Corp <Ntt> | 映像再生方法、映像再生装置、映像再生プログラム |
JP2005331588A (ja) * | 2004-05-18 | 2005-12-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体 |
JP2007279444A (ja) * | 2006-04-07 | 2007-10-25 | Toshiba Corp | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
JP2007292827A (ja) * | 2006-04-21 | 2007-11-08 | Dainippon Printing Co Ltd | 音響信号検索装置 |
JP2009058708A (ja) * | 2007-08-31 | 2009-03-19 | Internatl Business Mach Corp <Ibm> | 音声処理システム、方法及びプログラム |
JP2009063773A (ja) * | 2007-09-05 | 2009-03-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声特徴学習装置、音声認識装置、それらの方法、それらのプログラム、それらの記録媒体 |
Non-Patent Citations (1)
Title |
---|
JPN6013008103; 福田隆他: '"長時間スペクトル変動情報と調波構造特徴量を併用した発話区間検出法"' 情報処理学会研究報告 vol.2008 No.102, 20081017, pp.1-6 * |
Also Published As
Publication number | Publication date |
---|---|
TW201123169A (en) | 2011-07-01 |
GB2485926A (en) | 2012-05-30 |
JP5723923B2 (ja) | 2015-05-27 |
US20120185243A1 (en) | 2012-07-19 |
DE112010003461B4 (de) | 2019-09-05 |
JPWO2011024572A1 (ja) | 2013-01-24 |
CN102483916A (zh) | 2012-05-30 |
DE112010003461T5 (de) | 2012-07-26 |
US8930185B2 (en) | 2015-01-06 |
GB201202741D0 (en) | 2012-04-04 |
JP2013178575A (ja) | 2013-09-09 |
US8468016B2 (en) | 2013-06-18 |
KR20120046298A (ko) | 2012-05-09 |
US20120330657A1 (en) | 2012-12-27 |
GB2485926B (en) | 2013-06-05 |
KR101332143B1 (ko) | 2013-11-21 |
WO2011024572A1 (ja) | 2011-03-03 |
CN102483916B (zh) | 2014-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5723923B2 (ja) | 音声特徴量抽出装置、及び音声特徴量抽出プログラム | |
JP5230103B2 (ja) | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム | |
Pei et al. | Automatic speech recognition | |
Shahnawazuddin et al. | Pitch-Adaptive Front-End Features for Robust Children's ASR. | |
JP5089295B2 (ja) | 音声処理システム、方法及びプログラム | |
JP3006677B2 (ja) | 音声認識装置 | |
US20080167862A1 (en) | Pitch Dependent Speech Recognition Engine | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
Nanavare et al. | Recognition of human emotions from speech processing | |
KR101236539B1 (ko) | 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법 | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
CN112151066A (zh) | 基于声音特征识别的语言冲突监测方法、介质及设备 | |
JP6791816B2 (ja) | 音声区間検出装置、音声区間検出方法、およびプログラム | |
Fukuda et al. | Improved voice activity detection using static harmonic features | |
López et al. | Normal-to-shouted speech spectral mapping for speaker recognition under vocal effort mismatch | |
JP2007206603A (ja) | 音響モデルの作成方法 | |
Yao et al. | A speech processing front-end with eigenspace normalization for robust speech recognition in noisy automobile environments. | |
JP2006215228A (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
JP4576612B2 (ja) | 音声認識方法および音声認識装置 | |
Santoso et al. | Categorizing error causes related to utterance characteristics in speech recognition | |
Shome et al. | Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech | |
Roh et al. | Novel acoustic features for speech emotion recognition | |
Kathania et al. | Experiments on children's speech recognition under acoustically mismatched conditions | |
KR100648545B1 (ko) | 다양한 주파수별 해상도를 갖는 필터뱅크의 조합을 이용한화자 인식 시스템 및 방법 | |
Kandali et al. | Emotion recognition from speeches of some native languages of Assam independent of text and speaker |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130524 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130708 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5315414 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |