JP4864783B2 - パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 - Google Patents
パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 Download PDFInfo
- Publication number
- JP4864783B2 JP4864783B2 JP2007076928A JP2007076928A JP4864783B2 JP 4864783 B2 JP4864783 B2 JP 4864783B2 JP 2007076928 A JP2007076928 A JP 2007076928A JP 2007076928 A JP2007076928 A JP 2007076928A JP 4864783 B2 JP4864783 B2 JP 4864783B2
- Authority
- JP
- Japan
- Prior art keywords
- local
- average value
- value
- pattern matching
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
まず、本発明の第1の実施形態を説明する。図3は、本実施形態による正規化処理部102の構成を示している。マイクなどから音声認識装置に入力された1発声全体の音響特徴量は、音響分析部101によって図示せぬバッファに格納されている。全体平均計算部301は、発声全体に対応したフレーム数T内の音響特徴量をバッファから読み出し、その平均値を計算する。発声全体の長さとして、単語の長さ、音声の切れ目までの長さ、句読点から句読点までの長さ、入力された音声全体の長さなどを用いることが可能である。発声全体の音響特徴量の平均値E(x)は計算式(16)で求める。
次に、本発明の第2の実施形態を説明する。図5は、本実施形態による正規化処理部102の構成を示している。本実施形態では、対象とする局所のフレーム数での局所平均値および局所分散値を算出する際に、1つ前の局所のフレーム数の音響特徴量から計算した局所平均値(以下、1つ前の局所平均値と記す。)および1つ前の局所のフレーム数の音響特徴量から計算した局所分散値(以下、1つ前の局所分散値と記す。)を用いることを特徴とする。突発的な雑音が音声認識装置に入力された場合、局所平均値および局所分散値が大きく変わり、入力された音声データを正しく認識することが困難となるが、1つ前の局所平均値および1つ前の局所分散値を用いることで、突発的に音声認識装置に雑音が入力された場合でも局所平均値および局所分散値が大きく変わらず、音声認識制度の劣化を低減することができる。
次に、本発明の第3の実施形態を説明する。図6は、本実施形態による正規化処理部102の構成を示している。本実施形態では、実施形態1での発声全体の音響特徴量の平均値を算出する代わりに、予め計算した固定の平均値を用いることを特徴とする。これにより、発声全体から音響特徴量の平均値を計算する必要がないため、音響特徴量の正規化が完了するまでの待ち時間が、局所分散の計算に必要な時間となり、リアルタイム処理が可能となる。
次に、本発明の第4の実施形態を説明する。図7は、本実施形態による正規化処理部102の構成を示している。本実施形態では、全体平均計算部702の前段に音声検出部を設ける事により音声区間を同定し、音声区間とその前後の数十ミリ秒を加えた時間に対応するフレーム数τ´での平均値を用いて正規化することを特徴とする。これにより、発声終了後に無音区間が長く続いた場合においても、正規化処理までの待ち時間を短くすることが可能となる。
次に、本発明の第5の実施形態を説明する。図8は本実施形態による画像認識装置の構成を示している構成図である。図4において、マイクから入力された音声データの代わりにカメラから入力された画像とし、単語辞書・文法と音響モデルの代わりにオブジェクトモデルとし、音声認識結果の代わりに画像認識結果と置き換えることで、画像認識への適用も可能となる。
また、画像認識に時間要素を取り入れることで、動画についても動画特徴量のミスマッチ成分を低減することができ、動画認識精度の劣化を低減することができる。
Claims (7)
- 外部より入力された音声データまたは画像データの特徴量を算出する分析手段と、
前記分析手段で算出された前記特徴量を正規化する正規化手段と、
前記正規化手段で正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチング手段と、
を備えたパタンマッチング装置において、
前記正規化手段は、
前記音声データの全フレーム数または前記画像データ全体の前記特徴量の平均値である全体平均値を取得する全体平均取得手段と、
前記音声データの局所のフレーム数または前記画像データの局所範囲の前記特徴量の平均値である局所平均値を計算する局所平均計算手段と、
前記局所平均値に基づいて、前記音声データの局所のフレーム数または前記画像データの局所範囲の前記特徴量の分散値である局所分散値を計算する局所分散計算手段と、
前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算手段と、
を備えたことを特徴とするパタンマッチング装置。 - 前記全体平均取得手段は、前記音声データの全フレーム数または前記画像データ全体の前記特徴量から前記全体平均値を計算する
ことを特徴とする、請求項1に記載のパタンマッチング装置。 - 前記全体平均取得手段は、予め記憶した所定値を前記全体平均値とする
ことを特徴とする、請求項1に記載のパタンマッチング装置。 - パタンマッチングの対象とする前記特徴量が含まれる範囲を同定する範囲同定手段
を備え、
前記全体平均取得手段は、前記範囲同定手段で同定された範囲に基づく前記音声データの全フレーム数または前記画像データ全体の前記特徴量から前記全体平均値を計算することを特徴とする、請求項2に記載のパタンマッチング装置。 - 前記局所平均計算手段は、過去に計算した前記局所平均値を重み付けした値に基づいて、前記局所平均値を計算し、
前記局所分散計算手段は、過去に計算した前記局所分散値を重み付けした値に基づいて、前記局所分散値を計算する
ことを特徴とする請求項1〜4に記載のパタンマッチング装置。 - 外部より入力された音声データまたは画像データの特徴量を算出する分析手段と、
前記分析手段で算出された前記特徴量を正規化する正規化手段と、
前記正規化手段で正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチング手段と、
としてコンピュータを機能させるためのパタンマッチングプログラムにおいて、
前記正規化手段は、
前記音声データの全フレーム数または前記画像データ全体の前記特徴量の平均値である全体平均値を取得する全体平均取得手段と、
前記音声データの局所のフレーム数または前記画像データの局所範囲の前記特徴量の平均値である局所平均値を計算する局所平均計算手段と、
前記局所平均値に基づいて、前記音声データの局所のフレーム数または前記画像データの局所範囲の前記特徴量の分散値である局所分散値を計算する局所分散計算手段と、
前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算手段と、
としてコンピュータを機能させるためのパタンマッチングプログラム。 - 外部より入力された音声データまたは画像データの特徴量を算出する分析ステップと、
前記分析ステップで算出された前記特徴量を正規化する正規化ステップと、
前記正規化ステップで正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチングステップと、
を備えたパタンマッチング方法において、
前記正規化ステップは、
前記音声データの全フレーム数または前記画像データ全体の前記特徴量の平均値である全体平均値を取得する全体平均取得ステップと、
前記音声データの局所のフレーム数または前記画像データの局所範囲の前記特徴量の平均値である局所平均値を計算する局所平均計算ステップと、
前記局所平均値に基づいて、前記音声データの局所のフレーム数または前記画像データの局所範囲の前記特徴量の分散値である局所分散値を計算する局所分散計算ステップと、
前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算ステップと、
を備えたことを特徴とするパタンマッチング方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007076928A JP4864783B2 (ja) | 2007-03-23 | 2007-03-23 | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007076928A JP4864783B2 (ja) | 2007-03-23 | 2007-03-23 | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008233782A JP2008233782A (ja) | 2008-10-02 |
JP4864783B2 true JP4864783B2 (ja) | 2012-02-01 |
Family
ID=39906602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007076928A Expired - Fee Related JP4864783B2 (ja) | 2007-03-23 | 2007-03-23 | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4864783B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5166195B2 (ja) * | 2008-10-14 | 2013-03-21 | 日本電信電話株式会社 | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 |
JP5473116B2 (ja) * | 2009-08-18 | 2014-04-16 | Kddi株式会社 | 音声認識装置およびその特徴量正規化方法 |
JP6891144B2 (ja) * | 2018-06-18 | 2021-06-18 | ヤフー株式会社 | 生成装置、生成方法及び生成プログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3445117B2 (ja) * | 1997-09-12 | 2003-09-08 | Kddi株式会社 | 音声認識のための音響分析方法 |
JP3912089B2 (ja) * | 2001-12-03 | 2007-05-09 | セイコーエプソン株式会社 | 音声認識方法および音声認識装置 |
US6687672B2 (en) * | 2002-03-15 | 2004-02-03 | Matsushita Electric Industrial Co., Ltd. | Methods and apparatus for blind channel estimation based upon speech correlation structure |
CN101228577B (zh) * | 2004-01-12 | 2011-11-23 | 语音信号技术公司 | 自动化语音识别通道归一化方法及*** |
JP2006084659A (ja) * | 2004-09-15 | 2006-03-30 | Nippon Telegr & Teleph Corp <Ntt> | オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体 |
-
2007
- 2007-03-23 JP JP2007076928A patent/JP4864783B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008233782A (ja) | 2008-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240038218A1 (en) | Speech model personalization via ambient context harvesting | |
CN109545243B (zh) | 发音质量评价方法、装置、电子设备及存储介质 | |
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
US10699699B2 (en) | Constructing speech decoding network for numeric speech recognition | |
US20220172707A1 (en) | Speech recognition method and apparatus, device, and storage medium | |
US8762142B2 (en) | Multi-stage speech recognition apparatus and method | |
EP1557822A1 (en) | Automatic speech recognition adaptation using user corrections | |
US20100114572A1 (en) | Speaker selecting device, speaker adaptive model creating device, speaker selecting method, speaker selecting program, and speaker adaptive model making program | |
CN106875936B (zh) | 语音识别方法及装置 | |
RU2720359C1 (ru) | Способ и оборудование распознавания эмоций в речи | |
JP2012037619A (ja) | 話者適応化装置、話者適応化方法および話者適応化用プログラム | |
Justin et al. | Speaker de-identification using diphone recognition and speech synthesis | |
KR20120054845A (ko) | 로봇의 음성인식방법 | |
US9947323B2 (en) | Synthetic oversampling to enhance speaker identification or verification | |
EP1385147A2 (en) | Method of speech recognition using time-dependent interpolation and hidden dynamic value classes | |
KR20150145024A (ko) | 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법 | |
KR20040088368A (ko) | 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법 | |
US20230070000A1 (en) | Speech recognition method and apparatus, device, storage medium, and program product | |
CN112017633B (zh) | 语音识别方法、装置、存储介质及电子设备 | |
KR101236539B1 (ko) | 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
JP4864783B2 (ja) | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 | |
JP6629172B2 (ja) | 対話制御装置、その方法及びプログラム | |
CN109155128B (zh) | 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法 | |
JP2011033879A (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090710 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090710 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110328 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110412 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110607 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111101 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111109 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141118 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4864783 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |