JP2008242059A - 音声認識辞書作成装置および音声認識装置 - Google Patents
音声認識辞書作成装置および音声認識装置 Download PDFInfo
- Publication number
- JP2008242059A JP2008242059A JP2007082282A JP2007082282A JP2008242059A JP 2008242059 A JP2008242059 A JP 2008242059A JP 2007082282 A JP2007082282 A JP 2007082282A JP 2007082282 A JP2007082282 A JP 2007082282A JP 2008242059 A JP2008242059 A JP 2008242059A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- word
- recognition
- dictionary
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】音声認識辞書作成装置は、認識対象コーパスと、認識対象コーパスから選択された連続音声認識対象の単語と、未登録語モデル化された選択外単語とから連続音声認識辞書を、また、続音声認識辞書を考慮して、未登録語の認識を改善する補完認識辞書を生成し、音声認識装置は、入力音声を分析して変換された音響特徴量ベクトルの時系列を、音響標準パタンと照合して標準パタンごとの音響スコアを計算し、連続音声認識用辞書と補完認識辞書の両者を参照して音声認識を行い、演算量の増大や精度の低下を抑え、短い未登録語に対する認識率を改善する。
【選択図】図1
Description
住所や電話番号を音声認識する場合、比較的言い方が決まっているため、認識可能な文を構文で記述する構文制御型の言語辞書が用いられる。構文制御型の言語辞書は、決められた内容を高い精度で認識する特徴がある。
また、非特許文献2では、未登録語のカテゴリをクラスタリングしたモデルを用いることで、未登録語部分の認識率を改善する方法を提案している。しかし、認識単語として表す場合と比較すると、認識率が低下する。
ただし、音声認識を検索の前処理とする場合、入力発声が長ければ未登録語を含む入力であっても正しく認識している部分が増えるため利用可能な情報が多く、競合する候補を絞ることができる。このため、未登録語を含んでいても、候補として抽出できる場合が多く検索精度の低下は小さい。
しかし、入力発話が短くかつ未登録語である場合、端的には、未登録語1単語のみである場合、検索精度は未登録語部分の認識精度に強く依存する。特に、検索においてユーザは必要最小限の内容を発話することが多いため、短い発話を高精度で認識する必要がある。
本発明は、上記を鑑みて、連続音声認識において短い単語発声の認識率を改善することを目的としたものである。
認識対象コーパスから連続音声認識の対象とする単語を選択すると共に選択外単語の未登録語モデル化を行う連続音声認識単語選択手段と、
認識対象コーパスと、選択された単語と未登録語モデルにより統計的言語モデルを推定する連続音声認識用辞書作成手段と、
統計的言語モデルを記憶する連続音声認識用辞書と
連続音声認識用辞書を参照し、認識対象コーパスから選択された連続音声認識対象単語以外で単独発声を受理する補完単語を選択し補完認識辞書を作成・出力する補完認識辞書作成手段を備える。
入力音声を分析し、音響特徴量ベクトルの時系列へ変換する特徴抽出手段と、
音声認識の基本単位について音響特徴量ベクトル時系列のスペクトル変動と時間変動を統計的にモデル化した音響標準パタンと、
特徴抽出手段で変換された音響特徴量ベクトルの時系列を、音響標準パタンと照合し標準パタンごとの音響スコアを計算する照合手段と、
標準パタンごとの音響スコアに基づいて、任意の単語列へ出力確率を与える統計的言語モデルが保管された連続音声認識用辞書と、連続音声認識辞書の登録語彙を考慮し、認識対象コーパスから単独発声の認識率が低いと推定される文から選択された未登録語を含む単語および単語列が構文として記述された構文記述型の認識辞書である補完認識用辞書とを探索し認識結果を求める探索手段を備える。
音声認識装置は、入力音声を分析して、変換された音響特徴量ベクトルの時系列を、音響標準パタンと照合し標準パタンごとの音響スコアを計算し、連続音声認識用辞書と補完認識辞書の両者を参照して音声認識を行うので、演算量の増大や精度の低下を抑えつつ、短い未登録語に対する認識率を改善できる。
図1は、実施の形態1に係る音声認識辞書作成装置および音声認識装置の構成を示すブロック図である。図1に示す音声認識辞書作成装置および音声認識装置は、認識対象コーパス100、連続音声認識対象単語選択手段101、連続音声認識用辞書作成手段102、連続音声認識辞書103、補完認識用辞書作成手段104、補完認識辞書105、特徴抽出手段106、音響標準パタン107、照合手段108、探索手段109からなる。
従来の音声認識辞書作成装置と異なる本発明に特徴的な部分は、補完認識用辞書作成手段104を備え、この補完認識用辞書作成手段104で作成された補完認識辞書105を入力音声からテキストを検索する際に参照することで連続音声認識では精度が低下する未登録語が単独で発声される場合の認識精度を改善することである。
認識対象コーパス100は、認識対象を表す単語に分割されたテキストデータである。入力されるテキストデータは、事前の言語解析により、単語ごとに読みと、品詞が付与されている。読みは、音声認識の際に音声と対応付けるものである。品詞は、「名詞」「固有名詞」「地名」等の形態素の言語的な属性を示す。このうち、音声認識辞書作成に必須の情報は読みである。それ以外の情報は、辞書作成方法によっては参照しないこともある。
連続音声認識用辞書作成手段102は、連続音声認識対象単語選択手段101により生成された単語辞書と認識対象コーパス100から、任意の単語間の接続関係を計算する。また、必要に応じて未登録語モデルによる統計的言語モデルの推定を行う。
連続音声認識辞書103は、連続音声認識用辞書作成手段102により推定された任意の単語列へ出力確率を与える統計的言語モデルである。音声認識の探索処理において、言語スコアとして、言語的な候補を選択するために参照される。
補完認識辞書105は、補完認識用辞書作成手段104が選択した未登録語を含む単語および単語列を構文として記述した構文記述型の認識辞書である。
音響標準パタン107は、音素など音声認識の基本単位について音響特徴量ベクトル時系列のスペクトル変動と時間変動を統計的にモデル化した標準パタンである。
探索手段109は、音素など音声認識の基本単位に対する音響スコアと、連続音声認識辞書103および補完認識辞書105の言語スコアおよび語彙に基づいて、認識候補の探索を行う。
具体的な選択方法は、単語数が所定の数に納まるように、認識対象コーパス100のうちで高頻度のものから順に単語を選択する。あるいは、形態素に付与された品詞を参照し、固有名詞以外の表現を優先的に選択する。また、人名について、別途調査したデータに基づいて高頻度のものから順に選択する。例えば、図3のような語彙を選択したとする。
また、非特許文献2では、未登録語部分の音節連鎖については単語長を考慮して単語とは異なるモデル化を行う方法を述べている。今回は非特許文献1の方法に従い、説明を行うが別の方法で未登録語をモデル化した場合でも同様に処理できる。
統計的言語モデルは、想定される任意の単語系列に対して、その妥当性を表す言語スコア(出現確率)を与える確率モデルである。確率モデルは、学習データである認識対象コーパス100に基づいて推定される。言語スコアは、表現の妥当性を表す指標と見ることができ、音声認識の候補探索時に考慮される。
単語N-gramモデルは、直前のN-1単語に対する条件付き確率の積として単語系列の出現確率を与える。例えばN=2の場合、2単語連鎖の出現確率の積となる。
具体的には、<b>を単語列の始端、<e>を単語列の終端を示す仮想的な単語とすると、M単語からなる単語系列 W={w1、w2、・・・,wM}に対しする単語列Wの生成確率P(W)は式1のように計算される。
連続音声認識辞書103に格納される内容は、木構造単語辞書と、N-gram確率表となる。また、N-gram確率表は、N=3(トライグラム)の場合、図5のような表となる。
(ステップS105);次に、補完認識用辞書作成手段104は、認識対象コーパス100の認識対象データを読み込む。
(A)連続音声認識辞書103に無い未登録語を含む場合、
(B)未登録語を含み、統計的言語モデルによる文Wの生成確率P(W)がしきい値TH1以下である場合、
(C)未登録語を含み、1文の総音節数がしきい値TH2以下である場合、
(D)未登録語の頻度がしきい値TH3以上である場合、
(E)含まれる未登録語の品詞が事前に指定したものである場合
(ステップS201);照合手段108は音響標準パタン107を読み込み、探索手段109は、連続音声認識辞書103、補完認識辞書105を読み込む。
(ステップS208);次に、探索手段109は候補仮説のうち、スコアが低い仮説を枝狩りする。
(ステップS209);音声入力が終了していなければステップS203に戻り、照合手段108と探索手段109により照合と探索を続ける。
(ステップS211);最後に、探索手段109が認識結果を出力して終了する。
図10は、実施の形態2に係る音声認識辞書作成装置および音声認識装置の構成を示すブロック図である。図10に示す音声認識辞書作成装置および音声認識装置は、認識対象コーパス100、連続音声認識対象単語選択手段101、文頭補完単語選択手段110、統計的言語モデル推定手段111、文頭拡張連続音声認識辞書112、特徴抽出手段106、音響標準パタン107、照合手段108、探索手段109からなる。
以下、実施の形態2に係る音声認識辞書作成装置および音声認識装置の構成および動作について説明する。ただし、実施の形態1で既に説明した機能ブロックについては、同一の番号を付し説明を省略する。
(ステップS303);次に、統計的言語モデル推定手段111は、認識対象コーパス100から読み込んだ単語区切りされたテキストデータのうち、ステップS301およびステップS302で指定された語彙を除いて未登録語モデルへ置き換えた後、統計的言語モデルを推定する。
(ステップS305);最後に、連続音声認識単語選択手段 101は、ステップS301で選択した単語から認識結果の2単語目以降に相当する文中用の木構造単語辞書を作成する。
(ステップS401);照合手段108は音響標準パタン107を読み込み、探索手段109は、文頭拡張連続音声認識辞書112を読み込む。探索には、文頭用の木構造辞書を使用する。
(ステップS403);音声区間が検出されると、特徴抽出手段106は、一定時間間隔で音響特徴量ベクトルを計算する。
(ステップS404);次に、照合手段108は、特徴抽出手段106で算出された音響特徴量ベクトルを音響標準パタン107に含まれる音響モデルと照合し、音響スコアを算出する。
(ステップS406);次に、文頭拡張連続音声認識辞書112の終端に達した候補仮説について、単語遷移の言語スコアを乗じ、文頭拡張連続音声認識辞書112の後続する単語辞書を展開する。後続する単語辞書としては、文中用の木構造辞書を用いる。
(ステップS408);音声入力が終了していなければステップS403に戻り、照合と探索を続ける。
(ステップS409);音声入力が終了した場合、探索仮説をバックトラックして認識結果を確定する。
Claims (5)
- 認識対象コーパスから連続音声認識の対象とする単語を選択すると共に選択外単語の未登録語モデル化を行う連続音声認識単語選択手段と、
認識対象コーパスと、選択された単語と未登録語モデルによる統計的言語モデルを推定する連続音声認識用辞書作成手段と、
統計的言語モデルを記憶する連続音声認識用辞書と
連続音声認識用辞書を参照し、認識対象コーパスから選択された連続音声認識対象単語以外で単独発声を受理する補完単語を選択し補完認識辞書を作成・出力する補完認識辞書作成手段を備えることを特徴とする音声認識辞書作成装置。 - 認識対象コーパスから連続音声認識の対象となる単語を選択する連続音声認識対象単語選択手段と、
連続音声認識対象単語選択手段で選択された単語以外で、文頭で出現した単語を認識対象コーパスから選択する文頭補完単語選択手段と、
連続音声認識対象単語選択手段と文頭補完単語選択手段で選択された単語以外の単語を認識対象コーパスから選択して未登録語モデルへ置き換えた後、連続音声認識対象単語選択手段と文頭補完単語選択手段で選択された単語を含め統計的言語モデルを推定する統計的言語モデル推定手段を備えることを特徴とした音声認識辞書作成装置。 - 補完認識辞書作成手段は、単語の音節数、連続音声認識用辞書に基づく出力確率、認識対象コーパスにおける頻度、形態素に付与された品詞の少なくとも一つを用いて補完単語を選択することを特徴とした請求項1記載の音声認識辞書作成装置。
- 入力音声を分析し、音響特徴量ベクトルの時系列へ変換する特徴抽出手段と、
音声認識の基本単位について音響特徴量ベクトル時系列のスペクトル変動と時間変動を統計的にモデル化した音響標準パタンと、特徴抽出手段で変換された音響特徴量ベクトルの時系列を照合し標準パタンごとの音響スコアを計算する照合手段と、
標準パタンごとの音響スコアに基づいて、任意の単語列へ出力確率を与える統計的言語モデルが保管された連続音声認識用辞書と、連続音声認識辞書の登録語彙を考慮し、認識対象コーパスから単独発声の認識率が低いと推定される文から選択された未登録語を含む単語および単語列が構文として記述された構文記述型の認識辞書である補完認識用辞書とを探索し認識結果を求める探索手段を備えることを特徴とする音声認識装置。 - 入力音声を分析し、音響特徴量ベクトルの時系列へ変換する特徴抽出手段と、
音声認識の基本単位について音響特徴量ベクトル時系列のスペクトル変動と時間変動を統計的にモデル化した音響標準パタンと、特徴抽出手段で変換された音響特徴量ベクトルの時系列を照合し標準パタンごとの音響スコアを計算する照合手段と、
認識対象コーパスから選択された連続音声認識の対象となる単語からなる文中単語認識辞書と、文中単語認識辞書の単語以外で、認識対象コーパスから選択された文頭で出現した単語なる文頭単語認識辞書を有する文頭拡張連続音声認識辞書と、
照合手段からの標準パタンごとの音響スコアに基づいて、文頭拡張連続音声認識辞書を探索し認識結果を求める探索手段を備えることを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007082282A JP4987530B2 (ja) | 2007-03-27 | 2007-03-27 | 音声認識辞書作成装置および音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007082282A JP4987530B2 (ja) | 2007-03-27 | 2007-03-27 | 音声認識辞書作成装置および音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008242059A true JP2008242059A (ja) | 2008-10-09 |
JP4987530B2 JP4987530B2 (ja) | 2012-07-25 |
Family
ID=39913504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007082282A Expired - Fee Related JP4987530B2 (ja) | 2007-03-27 | 2007-03-27 | 音声認識辞書作成装置および音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4987530B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108074562A (zh) * | 2016-11-11 | 2018-05-25 | 株式会社东芝 | 语音识别装置、语音识别方法以及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101709188B1 (ko) * | 2012-11-16 | 2017-03-08 | 한국전자통신연구원 | 비문형적 어휘 모델 기반 음성 인식 방법 |
KR101711941B1 (ko) * | 2012-12-14 | 2017-03-03 | 한국전자통신연구원 | 음성인식 시스템에서 유사도를 기반으로 한 비인식 대상 단어 생성 방법 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02178767A (ja) * | 1988-12-28 | 1990-07-11 | Ricoh Co Ltd | 音声によるワードプロセッシングシステム |
JPH06118989A (ja) * | 1992-10-02 | 1994-04-28 | Kokusai Denshin Denwa Co Ltd <Kdd> | 連続音声認識方法 |
JP2000259180A (ja) * | 1999-03-05 | 2000-09-22 | Nec Corp | 連続音声文章入力装置及び連続音声文章入力方法 |
JP2001236089A (ja) * | 1999-12-17 | 2001-08-31 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置、音声認識装置、情報検索処理装置及びかな漢字変換装置 |
JP2003186494A (ja) * | 2001-12-17 | 2003-07-04 | Sony Corp | 音声認識装置および方法、記録媒体、並びにプログラム |
JP2003271629A (ja) * | 2002-03-18 | 2003-09-26 | National Institute Of Advanced Industrial & Technology | 音声入力によるテキスト検索方法およびその装置 |
JP2005070330A (ja) * | 2003-08-22 | 2005-03-17 | Toyota Central Res & Dev Lab Inc | 音声認識装置及びプログラム |
-
2007
- 2007-03-27 JP JP2007082282A patent/JP4987530B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02178767A (ja) * | 1988-12-28 | 1990-07-11 | Ricoh Co Ltd | 音声によるワードプロセッシングシステム |
JPH06118989A (ja) * | 1992-10-02 | 1994-04-28 | Kokusai Denshin Denwa Co Ltd <Kdd> | 連続音声認識方法 |
JP2000259180A (ja) * | 1999-03-05 | 2000-09-22 | Nec Corp | 連続音声文章入力装置及び連続音声文章入力方法 |
JP2001236089A (ja) * | 1999-12-17 | 2001-08-31 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置、音声認識装置、情報検索処理装置及びかな漢字変換装置 |
JP2003186494A (ja) * | 2001-12-17 | 2003-07-04 | Sony Corp | 音声認識装置および方法、記録媒体、並びにプログラム |
JP2003271629A (ja) * | 2002-03-18 | 2003-09-26 | National Institute Of Advanced Industrial & Technology | 音声入力によるテキスト検索方法およびその装置 |
JP2005070330A (ja) * | 2003-08-22 | 2005-03-17 | Toyota Central Res & Dev Lab Inc | 音声認識装置及びプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108074562A (zh) * | 2016-11-11 | 2018-05-25 | 株式会社东芝 | 语音识别装置、语音识别方法以及存储介质 |
CN108074562B (zh) * | 2016-11-11 | 2021-12-03 | 株式会社东芝 | 语音识别装置、语音识别方法以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4987530B2 (ja) | 2012-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
US6856956B2 (en) | Method and apparatus for generating and displaying N-best alternatives in a speech recognition system | |
KR100612839B1 (ko) | 도메인 기반 대화 음성인식방법 및 장치 | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
EP2685452A1 (en) | Method of recognizing speech and electronic device thereof | |
US20110224985A1 (en) | Model adaptation device, method thereof, and program thereof | |
JP3961780B2 (ja) | 言語モデル学習装置およびそれを用いた音声認識装置 | |
KR101424496B1 (ko) | 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP4269625B2 (ja) | 音声認識辞書作成方法及びその装置と音声認識装置 | |
JP4987530B2 (ja) | 音声認識辞書作成装置および音声認識装置 | |
JP4595415B2 (ja) | 音声検索システムおよび方法ならびにプログラム | |
JP3444108B2 (ja) | 音声認識装置 | |
JP3364631B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP4528540B2 (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
JP2938865B1 (ja) | 音声認識装置 | |
JPH11143493A (ja) | 音声言語理解装置及び音声言語理解システム | |
JP2965529B2 (ja) | 音声認識装置 | |
US20220005462A1 (en) | Method and device for generating optimal language model using big data | |
Pranjol et al. | Bengali speech recognition: An overview | |
WO2013125203A1 (ja) | 音声認識装置、音声認識方法およびコンピュータプログラム | |
WO2004066266A2 (en) | System and method for utilizing anchor to reduce memory requirements for speech recognition | |
JP3894419B2 (ja) | 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
KR20000037625A (ko) | 화행 정보를 이용한 음성 인식 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110518 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110621 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110804 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120424 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120425 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150511 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |