JP5046902B2 - 音声検索装置 - Google Patents
音声検索装置 Download PDFInfo
- Publication number
- JP5046902B2 JP5046902B2 JP2007321885A JP2007321885A JP5046902B2 JP 5046902 B2 JP5046902 B2 JP 5046902B2 JP 2007321885 A JP2007321885 A JP 2007321885A JP 2007321885 A JP2007321885 A JP 2007321885A JP 5046902 B2 JP5046902 B2 JP 5046902B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- notation
- search
- recognition
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 description 21
- 230000000694 effects Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- FGRBYDKOBBBPOI-UHFFFAOYSA-N 10,10-dioxo-2-[4-(N-phenylanilino)phenyl]thioxanthen-9-one Chemical compound O=C1c2ccccc2S(=O)(=O)c2ccc(cc12)-c1ccc(cc1)N(c1ccccc1)c1ccccc1 FGRBYDKOBBBPOI-UHFFFAOYSA-N 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Description
対策として特開2005-257954号公報においては、検索対象とする文書中で出現の頻度の高い単語は単語単位で、それ以外は音節単位で認識して認識結果をテキスト化し、テキスト上で照合・検索処理を行う。そして、認識結果には誤りが含まれていることが考えられるので、検索対象とするテキストデータも認識誤りを考慮したバターンを事前に作成しておくという技術を開示されている。
またあらゆる認識誤りを考慮して検索対象とするパターンを事前に作成しておくことは困難であるという課題があった。
さらに、前記の事前に作成するバターンの数を多くすると演算量と記憶容量が増大するという課題があった。
また認識誤りを考慮したバターンを事前に作成することなく、認識誤りやユーザの言い間違えに対処することを目的とする。
また、少ない演算量と記憶容量で検索可能とすることを目的とする。
入力音声から、音響モデルと言語モデルを参照して音響尤度と言語尤度を算出し、この両者の加重和として認識スコアを算出し、認識結果として、この認識スコアを基準に音響尤度と言語尤度とが付与された表記を出力する音声認識手段と、
検索対象の表記とID番号を持つ検索対象辞書と、
検索対象の正式呼称ではないが、頻繁に使用される通称や、頻繁に使用される部分表記を含む表記を持つキーワード辞書と、
前記検索対象辞書中から全ての表記を抽出して第2キーワード辞書として出力する第2キーワード作成手段と、
前記検索対象辞書中から利用者における検索対象の名称記憶が曖昧になる表記の音節数を考慮して予め定められた表記の音節数が所定の閾値以上の表記を抽出して曖昧検索辞書を作成する曖昧検索辞書作成手段と、
前記音声認識手段の音声認識結果が複数である場合、認識スコアが上位N個の表記を入力し、前記キーワード辞書および第2キーワード辞書を参照して前記N個の音声認識結果の認識順位を再構成して出力するNベスト候補再構成手段と、
このNベスト候補再構成手段の出力を入力とし、この入力の第1位の候補の表記の音節数が前記曖昧検索辞書を作成時の所定の閾値以上の場合には前記曖昧検索辞書を参照して検索を行い、前記表記の音節数が前記所定の閾値未満の場合には前記Nベスト候補再構成手段の出力から検索を行う検索手段を備える。
音声認識手段が、入力音声から音響尤度と言語尤度の加重和として認識スコアを算出し、この認識スコアを基準に音響尤度と言語尤度とが付与された1個以上の表記を出力し 検索対象の表記とID番号を要素として持つ検索対象辞書から、第2キーワード作成手段が所定条件に合致する表記を抽出して第2キーワード辞書とし、また曖昧検索辞書作成手段が異なる所定条件に合致する要素を抽出して曖昧検索辞書を作成し、
検索対象を所定キーワード表記の要素として持つキーワード辞書と、
前記音声認識手段の音声認識結果である表記を入力し、前記キーワード辞書および第2キーワード辞書を参照して前記音声認識結果の認識順位を再構成して出力するNベスト候補再構成手段と、
このNベスト候補再構成手段の出力を入力とし、この入力の第1位の候補の表記がさらに異なる所定条件を満たす場合には前記曖昧検索辞書を参照して検索を行い、前記表記がさらに異なる所定条件を満たさない場合には前記Nベスト候補再構成手段の出力から検索を行う検索手段を備えるので、
表記が異なる所定条件を満たす場合には、検索手段における検索処理は前記曖昧検索辞書を参照して行うので、さらに認識率が向上する。
本実施の形態では日本の全国の施設や観光スポットの名称(以後は簡単のため施設と観光スポットを総称して施設という)を、音声認識によって検索する場合を例にとり説明する。
幾つかの単語からなる施設や観光スポットの名称をテキスト文書とみなし、この施設や観光スポットの名称を音声認識によって検索する場合を例にとり説明する。なお施設名称検索を通常の単語音声認識ではなく、テキスト検索の枠組みで実施する利点は、ユーザが検索対象の施設名を正確に知らなくても一部分がマッチすれば検索可能になることである。
音響モデルメモリ13には音声の特徴をモデル化した音響モデルが格納されている。本実施の形態では音響モデルは例えばHMM(Hidden Markov Model)とする。
またキーワード辞書メモリ6には、正式な施設名称ではないが、施設のよく言われる通称や、チェーン店のブランド名などの表記が格納されている。キーワード辞書メモリ6の内容を図3に示す。
音声認識・検索を行う前に、第2キーワード作成手段8によって、第2キーワード辞書を作成し第2キーワード辞書メモリ9に格納しておく。また曖昧検索辞書作成手段10によって曖昧検索辞書を作成し、曖昧検索辞書メモリ11に格納しておく。
第2キーワード作成手段8は、検索対象辞書メモリ7に格納されている施設名称の表記を入力とし、全ての施設の表記を第2キーワード辞書として第2キーワード辞書メモリ9に保存する。
次に曖昧検索辞書作成手段10による曖昧検索辞書の作成方法を説明する。曖昧検索辞書作成手段10は、検索対象辞書メモリ7に格納されている施設名称のID番号と表記を入力とし、表記の音節数がM文字以上のものを抽出する。本例ではM=5とする。
「えー」などの長音を含むものも1音節とみなすものとする。例えば検索対象メモリ7の内容が図2に示すものとすると、音節数が5以上のものはID番号が5,6,7,8,9,10などである。これらを抽出し、音節を索引語として例えば転置ファイルを作成し曖昧検索辞書として曖昧検索辞書メモリ11に保持しておく。作成した曖昧検索辞書メモリ11の例を図4に示す。
音声の入力端子1から音声2を入力すると音声認識手段3は言語モデルメモリ12に保存されている言語モデルと音響モデルメモリ13に保存されている音響モデルを用いて音声認識を行い、認識スコアの大きい順に上位N個の認識結果である音節列の表記、音響尤度、言語尤度、および前記認識スコアを出力する。なお前記認識スコアは前記音響尤度と言語尤度の和である。
(手順1)
入力されたN個の候補に対し、1個づつ当該認識候補の表記がキーワード辞書メモリ6または第2キーワード辞書メモリ9に存在するか否か調べ、存在する場合には、当該候補に対する存在フラグを1にセットする。また音響尤度のみを用いて新スコアを計算する。すなわち1式によって新スコアを計算する。(図6におけるst101〜st105)
一方、前記当該認識候補の表記がキーワード辞書メモリ6と第2キーワード辞書メモリ9のどちらにも存在しない場合には、2式にしたがって音響尤度と言語尤度、およびペナルティ値を用いて新スコアを計算する。
N個の全て候補に対し、前記新スコアS'を算出後、前記新スコアの大きい順に前記認識候補を並べ換えて出力する。また各候補がキーワード辞書メモリ6または第2キーワード辞書メモリ9に存在するか否かを示す存在フラグ値も同時に出力する。(図6におけるst110)
次に検索手段5は、決定した検索方法を用いて検索対象辞書メモリ7中の施設名称を検索し出力する。
(手順1)
Nベスト候補再構成手段4から出力された第1位の認識結果の表記の長さを、事前に決めた閾値L(本実施の形態では=5)と比較し、閾値L未満の場合と、L以上の場合で処理を分ける。(図8におけるstep202)
(手順2a)
前記音節数がL文字未満の場合、検索手段5は、入力されたN個の候補に対し、存在フラグが1の候補のみをM個を抽出する。(図8におけるstep203)ここでMは0以上N以下の整数である。前記抽出したM個の候補を検索結果として出力する。図の例では、存在フラグが1である「やか」と「やま」を出力する。
施設名などの名称の検索においては、利用者が正式名称以外を発話するのは正式名称の表記が長く名称の記憶が曖昧な場合であり、短い発話は短い施設名称の正式名称である場合がほとんであると考えられるので、Nベスト候補再構成手段4から出力された候補の第1位の表記が短い場合にはキーワード辞書に存在するものと表記が完全に一致するもののみを検索結果とすることにより、曖昧検索の問題点である過剰な検索結果生成を防ぐ効果を有する。
一方、前記音節数がL文字以上の場合には前記Nベスト候補再構成手段4の認識結果の第1位の表記を用いて、曖昧検索辞書メモリ11に格納されている曖昧検索辞書を用いて曖昧検索を行う。(図8におけるstep204)
この曖昧検索の方法を説明する。前述したとおり、曖昧検索辞書は検索対象の音節を索引語とした転置ファイルとして構成されている。
例えば本装置の利用者が「やたやまどーぶつえん」を検索しようとしたが、名称の記憶が正確でなく、入力音声の発話内容が「やたどーぶつえん」であり、Nベスト候補再構成手段4の出力の第1位の表記が「やまどーぶつえん」であった場合、まず前記表記を音節単位に分割する。すなわち「や」「ま」「どー」「ぶ」「つ」「え」「ん」と分割する。
なお前記閾値Sは、例えば認識結果の音節数の0.8倍とする。すなわち本実施の形態の場合、前記音節数7の0.8倍、即ち7*0.8=5.6である。
認識結果の表記の長さが長い場合には、表記に冗長性があるため以上述べたとおり曖昧検索を行うことによって利用者が正式名称を正確に記憶していなくても検索可能となる効果を有する。
しかし曖昧検索辞書メモリ11の記憶容量に問題がなければ、検索対象辞書メモリ7に格納されている施設名称の全てを用いて転置ファイルを作成してもよく、前述した曖昧検索動作により同様の効果を得ることができる。
またw2は予め決めた定数であり、音声認識手段3での言語尤度の重みより小さい値とする。
本実施の形態における音声検索装置と、実施の形態1における音声検索装置との違いは、第2キーワード作成手段8による第2キーワード辞書の作成方法であり、機能構成ブロック図は実施の形態1における音声検索装置と同一である。
本実施の形態では、第2キーワード作成手段8の動作は以下のとおりである。
第2キーワード作成手段8は、検索対象辞書メモリ7に格納されている施設名称の表記を入力とし、表記の音節数がP文字未満のものを抽出し、その表記を第2キーワード辞書として第2キーワード辞書メモリ9に保存する。例えばP=5とする。
例えば、検索対象辞書メモリ7の内容が図2である場合、P(=5)音節未満の表記を抽出した結果である第2キーワード辞書メモリ9の内容は図10のようになる。音声認識と検索の動作は、実施の形態1と同様なので説明は省略する。
Claims (5)
- 入力音声から、音響モデルと言語モデルを参照して音響尤度と言語尤度を算出し、この両者の加重和として認識スコアを算出し、認識結果として、この認識スコアを基準に音響尤度と言語尤度とが付与された表記を出力する音声認識手段と、
検索対象の表記とID番号を持つ検索対象辞書と、
検索対象の正式呼称ではないが、頻繁に使用される通称や、頻繁に使用される部分表記を含む表記を持つキーワード辞書と、
前記検索対象辞書中から全ての表記を抽出して第2キーワード辞書として出力する第2キーワード作成手段と、
前記検索対象辞書中から利用者における検索対象の名称記憶が曖昧になる表記の音節数を考慮して予め定められた表記の音節数が所定の閾値以上の表記を抽出して曖昧検索辞書を作成する曖昧検索辞書作成手段と、
前記音声認識手段の音声認識結果が複数である場合、認識スコアが上位N個の表記を入力し、前記キーワード辞書および第2キーワード辞書を参照して前記N個の音声認識結果の認識順位を再構成して出力するNベスト候補再構成手段と、
このNベスト候補再構成手段の出力を入力とし、この入力の第1位の候補の表記の音節数が前記曖昧検索辞書を作成時の所定の閾値以上の場合には前記曖昧検索辞書を参照して検索を行い、前記表記の音節数が前記所定の閾値未満の場合には前記Nベスト候補再構成手段の出力から検索を行う検索手段を備えたことを特徴とする音声検索装置。 - 前記Nベスト候補再構成手段は、前記音声認識手段の複数の認識結果を入力し、入力した各認識結果のそれぞれに対し表記が前記キーワード辞書中または前記第2キーワード辞書中に存在するかを調べ、存在する場合は当該表記のスコアを前記音響尤度から算出し、存在しない場合には前記音響尤度と前記言語尤度および予め実験的に定められた所定の重み係数を前記言語尤度に加重し、さらに予め実験的に定められた所定のペナルティ値を加算し認識順位を再構成することを特徴とする請求項1記載の音声検索装置。
- 前記Nベスト候補再構成手段は、前記音声認識手段の複数の認識結果を入力し、入力した各認識結果のそれぞれに対し表記が前記キーワード辞書中または前記第2キーワード辞書中に存在するかを調べ、存在する場合は当該表記のスコアを前記言語尤度に予め定められた所定の重み係数を加重した値と前記音響尤度を加算した値とし、存在しない場合には
前記言語尤度に予めに定められ、表記が前記キーワード辞書中または前記第2キーワード辞書中に存在する場合の重み係数と等しいか、それよりも大きい所定の重み係数を加重した値と予めに定められた所定のペナルティ値を加算して算出し認識順位を再構成することを特徴とする請求項1記載の音声検索装置。 - 前記Nベスト候補再構成手段は、前記音声認識手段の複数の認識結果を入力し、入力した認識結果のうちで前記言語尤度の最大値を算出し、入力した各認識結果のそれぞれに対し表記が前記キーワード辞書中または前記第2キーワード辞書中に存在するかを調べ、存在する場合は当該表記のスコアを前記言語尤度の最大値に予め定められた所定の重み係数で加重した値と前記音響尤度とさらに予め定められた所定のペナルティ値を加えたものとして算出し、表記が存在しない場合には前記音響尤度と前記言語尤度に予め定められ、表記が前記キーワード辞書中または前記第2キーワード辞書中に存在する場合の重み係数とは異なるまたは同じ所定の重み係数で加重した値とさら予め定められ、表記が前記キーワード辞書中または前記第2キーワード辞書中に存在する場合のペナルティ値とは異なるまたは同じ所定のペナルティ値を加えたものとして算出して、認識順位を再構成することを特徴とする請求項1記載の音声検索装置。
- 前記第2キーワード作成手段は、請求項1記載の第2キーワード作成手段に代え、前記検索対象辞書中の要素のうち、その表記音節数が標記の冗長性を考慮した所定の閾値未満の要素のみを抽出してその表記を全て前記第2キーワード辞書として作成することを特徴とする請求項1〜4の何れか1項に記載の音声検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007321885A JP5046902B2 (ja) | 2007-12-13 | 2007-12-13 | 音声検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007321885A JP5046902B2 (ja) | 2007-12-13 | 2007-12-13 | 音声検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009145548A JP2009145548A (ja) | 2009-07-02 |
JP5046902B2 true JP5046902B2 (ja) | 2012-10-10 |
Family
ID=40916224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007321885A Active JP5046902B2 (ja) | 2007-12-13 | 2007-12-13 | 音声検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5046902B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010086927A1 (ja) | 2009-01-30 | 2010-08-05 | 三菱電機株式会社 | 音声認識装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61122781A (ja) * | 1984-11-20 | 1986-06-10 | Fujitsu Ltd | 音声ワ−ドプロセツサ |
JPH1049194A (ja) * | 1996-07-30 | 1998-02-20 | Aqueous Res:Kk | 音声認識装置 |
JP3949356B2 (ja) * | 2000-07-12 | 2007-07-25 | 三菱電機株式会社 | 音声対話システム |
JP4296290B2 (ja) * | 2003-10-22 | 2009-07-15 | 株式会社豊田中央研究所 | 音声認識装置、音声認識方法及びプログラム |
JP2005257954A (ja) * | 2004-03-10 | 2005-09-22 | Nec Corp | 音声検索装置、音声検索方法および音声検索プログラム |
JP2006039954A (ja) * | 2004-07-27 | 2006-02-09 | Denso Corp | データベース検索装置、プログラム及びナビゲーション装置 |
JP2007079122A (ja) * | 2005-09-14 | 2007-03-29 | Advanced Telecommunication Research Institute International | 音声処理装置、およびプログラム |
-
2007
- 2007-12-13 JP JP2007321885A patent/JP5046902B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009145548A (ja) | 2009-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5258959B2 (ja) | 音声認識装置 | |
JP5072415B2 (ja) | 音声検索装置 | |
US9966066B1 (en) | System and methods for combining finite state transducer based speech recognizers | |
CN102725790B (zh) | 识别词典制作装置及声音识别装置 | |
Sainath et al. | No need for a lexicon? evaluating the value of the pronunciation lexica in end-to-end models | |
US9978364B2 (en) | Pronunciation accuracy in speech recognition | |
US20150179169A1 (en) | Speech Recognition By Post Processing Using Phonetic and Semantic Information | |
JP5274191B2 (ja) | 音声認識装置 | |
US11869491B2 (en) | Abstract generation device, method, program, and recording medium | |
JP5073024B2 (ja) | 音声対話装置 | |
JP2006338261A (ja) | 翻訳装置、翻訳方法及び翻訳プログラム | |
JP2006012179A (ja) | 自然言語処理装置および自然言語処理方法 | |
Beaufays et al. | Language model capitalization | |
JP4661239B2 (ja) | 音声対話装置及び音声対話方法 | |
JP5046902B2 (ja) | 音声検索装置 | |
JP2010277036A (ja) | 音声データ検索装置 | |
JP2002091484A (ja) | 言語モデル生成装置及びこれを用いた音声認識装置、言語モデル生成方法及びこれを用いた音声認識方法、並びに言語モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2950823B1 (ja) | 音声認識誤り訂正装置 | |
JP5404563B2 (ja) | 検索装置 | |
Réveil et al. | Improving proper name recognition by means of automatically learned pronunciation variants | |
JP5137588B2 (ja) | 言語モデル生成装置及び音声認識装置 | |
Chiang et al. | On jointly learning the parameters in a character-synchronous integrated speech and language model | |
JP2004309928A (ja) | 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム | |
Ljunglöf et al. | Interactive correction of speech recognition errors: Implementation and evaluation for English and Swedish | |
KR100908444B1 (ko) | 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100929 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120327 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120619 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120717 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150727 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5046902 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |