JP5590549B2 - 音声検索装置および音声検索方法 - Google Patents
音声検索装置および音声検索方法 Download PDFInfo
- Publication number
- JP5590549B2 JP5590549B2 JP2010038011A JP2010038011A JP5590549B2 JP 5590549 B2 JP5590549 B2 JP 5590549B2 JP 2010038011 A JP2010038011 A JP 2010038011A JP 2010038011 A JP2010038011 A JP 2010038011A JP 5590549 B2 JP5590549 B2 JP 5590549B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- search
- phoneme
- syllable
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
音声あるいはテキストによる検索語入力部と、検索対象の連続音声データベース格納部と、
前記入力部と前記データベース格納部からの音声データを認識する大語彙連続音声認識部と、
前記大語彙連続音声認識部の認識結果を格納する連続音声データ認識結果格納部と、
前記連続音声データベースにおいて未知語に索引を付与する未知語インデックス作成部と、
未知語の音声データに対して音声の基本単位である音素あるいは音節に分割し認識する音素・音節認識部と、
前記音素・音節認識部の認識結果を格納する音素・音節データ格納部と、
少なくとも一つ以上の検索候補を提示する音素・音節列検索部と、を備えた音声検索装置であって、前記音素・音節認識部は、前記索引が付与された未知語に対して複数の検出候補を生成する機能を具備することを特徴とする。
請求項1に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りを想定し、前記認識結果を索引として付与し、検出候補を提示する機能を具備することを特徴とする。
請求項1または請求項2に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から脱落誤りを想定し、前記脱落誤りを検索語で想定し、索引として付与し、検出候補を提示する機能を具備することを特徴とする。
請求項3に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りおよび/または脱落誤りを想定し、前記誤りの認識を索引として付与し、分割された検索語の情報を用いて得られた検出候補から、事前に設定された閾値を基準として検出候補を選別する機能を具備することを特徴とする。
請求項1乃至請求項4に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補に対して、音素間および音節間のバタチャリヤ距離を用いて索引を付与し、
第1の認識結果候補との音響的類似度に基づいて、第2の認識結果候補あるいは第3の認識結果候補との距離により検出候補を提示する機能を具備すること音素・音節認識部を特徴とする。なお、音素間および音節間の距離の定義は、種々考えられ、通常は、認識システムで使用する尺度と対応するものを使用する。
請求項1乃至請求項5に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補に対して、数1で定義する対数尤度を用いて索引を付与し、
音声あるいはテキストによる検索語入力ステップと、検索対象の連続音声データベース格納ステップと、前記入力部と前記データベース格納部からの音声データを認識する大語彙連続音声認識ステップと、
前記大語彙連続音声認識部の認識結果を格納する連続音声データ認識結果格納のステップと、
前記連続音声データベースにおいて未知語に索引を付与する未知語インデックスのステップと、
未知語の音声データに対して音声の基本単位である音素あるいは音節に分割し認識する音素・音節認識ステップと、
前記音素・音節認識部の認識結果を格納する音素・音節認識結果格納のステップと、
少なくとも一つ以上の検索候補を提示する音素・音節検索ステップと、を備えた音声検索方法であって、
前記音素・音節認識ステップは、前記索引が付与された未知語に対して複数の検出候補を生成する機能を有することを特徴とする。
請求項7に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りを想定し、前記認識を索引として付与し、検出候補を提示する機能を有することを特徴とする。
請求項7または請求項8に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から脱落誤りを想定し、前記脱落誤りの認識を検索語で想定し、索引として付与し、検出候補を提示する機能を有することを特徴とする。
請求項9に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りおよび/または脱落誤りを想定し、前記誤りの認識を索引として付与し、分割された検索語の情報を用いて得られた検出候補から、事前に設定された閾値を基準として検出候補を選別する機能を有することを特徴とする。
請求項7乃至請求項10に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の検出候補に対して、音素間および音節間のバタチャリヤ距離を用いて索引を付与し、
第1の検出候補との音響的類似度に基づいて、第2の検出候補あるいは第3の検出候補との距離により検出候補を提示する機能を有することを特徴とする。なお、音素間および音節間の距離の定義は、種々考えられ、通常は、認識システムで使用する尺度と対応するものを使用する。
請求項7乃至請求項11に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の検出候補に対して、数1で定義する対数尤度を用いて索引を付与し、
また、分割された検索情報を用いて検索候補を提示する場合は、事前に設定する閾値を基準に検出候補を選別することにより、検索効率を向上させることができる。
正解率=1.0−置換率―脱落率、
認識精度=1.0−置換率―脱落率―挿入率、
である。この性能は、音声認識装置の性能そのもので、その性能は年々向上しているが、本発明とは直接関係はない。しかし、音節認識性能が良いほど検索性能も良くなることは、本発明の評価結果の解釈に注意を要する。表1より第3候補までに発声した音節が正しく認識できた割合は87%である。挿入誤り率は3%、脱落誤り率は6%である。
再現率=正しく検出された数/全検索語数、
適合率=正しく検出された数/検出された数
である。表中、「絞り込みなし」は、距離付きでない従来のトライグラムアレイで検索した場合の結果を示す。表3は、この結果に対して、DPマッチングで、詳細に音節同士の照合で、候補区間を絞った場合である。表2と表3を比較すると、性能はほとんど同じであることがわかる。大まかに言えば、44時間に4回(10時間に1回)現れる未知語を検出すると20箇所(2時間に1回)候補箇所が検出され、そのうち、2箇所が正しい検索結果である、という性能である。
イ:既知語検索のための大語彙連続音声認識部
ウ:大語彙連続音声認識結果の格納部
エ:既知語検索のためのインデックス作成部
オ:認識誤り単語・未知語検索のための音素・音節認識部
カ:音素・音節認識結果の格納部
キ:未知語・認識誤り単語の検索のための音素・音節のインデックス作成部
ク:検索単語の入力部(タイピング入力または音声入力)
ケ:既知語のための検索部
コ:未知語・認識誤り単語のための検索部
サ:既知語の検索結果表示部
シ:未知語・認識誤り単語の検索結果の表示部
Claims (12)
- 検索対象の音声データを連続音声データベースとして格納する連続音声データベース格納部と、
前記連続音声データベース格納部に格納される連続音声データベースの音声データのうち既知語について単語列に変換する大語彙連続音声認識部と、
前記大語彙連続音声認識部により変換された単語列を格納する連続音声データ認識結果格納部と、
前記単語列に対してインデックスを付与するインデックス作成部と、
前記連続音声データベース格納部に格納される連続音声データベースの音声データのうち未知語および認識誤り単語について、音声の基本単位である音素あるいは音節の列を認識するとともに複数の認識候補を出力する音素・音節認識部と、
前記音素・音節認識部により出力された複数の認識候補を認識結果として格納する音素・音節認識結果格納部と、
前記音素・音節認識結果格納部に格納される認識候補の音素または音節の列について、未知語および認識誤り単語の検索のためのインデックスを付与する未知語インデックス作成部と、
音声あるいはテキストによる検索語を入力する検索語入力部と、
前記検索語入力部により入力された検索語のうち既知語について単語検索する単語検索部と、
前記検索語入力部により入力された検索語のうち未知語および認識誤り単語について音素または音節の列に変換しつつ検索し、少なくとも1つ以上の検索候補を提示する音素・音節列検索部とを備え、
前記未知語インデックス作成部は、音素・音節認識部による認識結果中のnグラムについて音素または音節の列の先頭位置および距離をインデックスとするものであり、
前記音素・音節列検索部は、nグラムごとに分割された音素の列またはnグラムごとに分割された音節の列を単位に検索するものであることを特徴とする音声検索装置。 - 請求項1に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りを想定し、前記両誤りの認識を検索語に想定し、索引として付与し、検出候補を提示する機能を具備することを特徴とする音声検索装置。 - 請求項1または請求項2に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から脱落誤りを想定し、前記脱落誤りの認識を検索語に想定し、索引として付与し、検出候補を提示する機能を具備することを特徴とする音声検索装置。 - 請求項3に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りおよび/または脱落誤りを想定し、前記誤りの認識を検索語に想定し、索引として付与し、分割された検索情報を用いて得られた検出候補から、事前に設定された閾値を基準として検出候補を選別する機能を具備することを特徴とする音声検索装置。 - 請求項1乃至請求項4の記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補に対して、音素間および音節間のバタチャリヤ距離を用いて索引を付与し、
第1の認識結果候補との音響的類似度に基づいて、第2の認識結果候補あるいは第3の認識結果候補との距離により検出候補を提示する機能を具備することを特徴とする音声検索装置。 - 検索対象の音声データを連続音声データベースとして格納する連続音声データベース格納ステップと、
前記連続音声データベース格納ステップによって格納される連続音声データベースの音声データのうち既知語について単語列に変換する大語彙連続音声認識ステップと、
前記大語彙連続音声認識ステップにより変換された単語列を格納する連続音声データ認識結果格納のステップと、
前記単語列に対してインデックスを付与するインデックス作成のステップと、
前記連続音声データベース格納ステップにより格納される連続音声データベースの音声データのうち未知語および認識誤り単語について、音声の基本単位である音素あるいは音節の列を認識するとともに複数の認識候補を出力する音素・音節認識ステップと、
前記音素・音節認識ステップにより出力された複数の認識候補を認識結果として格納する音素・音節認識結果格納のステップと、
前記音素・音節認識結果格納のステップにより格納される認識候補の音素または音節の列について、未知語および認識誤り単語の検索のためのインデックスを付与する未知語インデックスの作成のステップと、
音声あるいはテキストによる検索語を入力する検索語入力ステップと、
前記検索語入力ステップにより入力された検索語のうち既知語について単語検索する単語検索ステップと、
前記検索語入力ステップにより入力された検索語のうち未知語および認識誤り単語について音素または音節の列に変換しつつ検索し、少なくとも1つ以上の検索候補を提示する音素・音節列検索ステップとを備え、
前記未知語インデックスの作成のステップは、音素・音節認識ステップによる認識結果中のnグラムについて音素または音節の列の先頭位置および距離をインデックスとするものであり、
前記音素・音節列検索ステップは、nグラムごとに分割された音素の列またはnグラムごとに分割された音節の列を単位に検索するものであることを特徴とする音声検索方法。 - 請求項7に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りを想定し、前記両誤りの認識を検索語に想定し、索引として付与し、検出候補を提示する機能を有することを特徴とする音声検索方法。 - 請求項7または請求項8に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から脱落誤りを想定し、前記脱落誤りの認識を検索語に想定し、索引として付与し、検出候補を提示する機能を有することを特徴とする音声検索方法。 - 請求項9に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りおよび/または脱落誤りを想定し、前記誤りの認識を検索語に想定し、索引として付与し、分割された検索情報を用いて得られた検出候補から、事前に設定された閾値を基準として検出候補を選別する機能を有することを特徴とする音声検索方法。 - 請求項7乃至請求項10の記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補に対して、音素間および音節間のバタチャリヤ距離を用いて索引を付与し、
第1の認識結果候補との音響的類似度に基づいて、第2の認識結果候補あるいは第3の認識結果候補との距離により検出候補を提示する機能を有することを特徴とする音声検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010038011A JP5590549B2 (ja) | 2010-02-23 | 2010-02-23 | 音声検索装置および音声検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010038011A JP5590549B2 (ja) | 2010-02-23 | 2010-02-23 | 音声検索装置および音声検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011175046A JP2011175046A (ja) | 2011-09-08 |
JP5590549B2 true JP5590549B2 (ja) | 2014-09-17 |
Family
ID=44687965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010038011A Expired - Fee Related JP5590549B2 (ja) | 2010-02-23 | 2010-02-23 | 音声検索装置および音声検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5590549B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014033855A1 (ja) * | 2012-08-29 | 2014-03-06 | 株式会社日立製作所 | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 |
JP6280312B2 (ja) * | 2013-05-13 | 2018-02-14 | キヤノン株式会社 | 議事録記録装置、議事録記録方法及びプログラム |
JP6400936B2 (ja) | 2014-04-21 | 2018-10-03 | シノイースト・コンセプト・リミテッド | 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム |
JP7102710B2 (ja) * | 2017-11-22 | 2022-07-20 | 富士通株式会社 | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000267693A (ja) * | 1999-03-12 | 2000-09-29 | Fuji Xerox Co Ltd | 音声処理装置及び索引作成装置 |
JP4115723B2 (ja) * | 2002-03-18 | 2008-07-09 | 独立行政法人産業技術総合研究所 | 音声入力によるテキスト検索装置 |
JP4259100B2 (ja) * | 2002-11-26 | 2009-04-30 | パナソニック株式会社 | 音声認識用未知発話検出装置及び音声認識装置 |
JP4511274B2 (ja) * | 2004-07-29 | 2010-07-28 | 三菱電機株式会社 | 音声データ検索装置 |
JP4867654B2 (ja) * | 2006-12-28 | 2012-02-01 | 日産自動車株式会社 | 音声認識装置、および音声認識方法 |
JP5072415B2 (ja) * | 2007-04-10 | 2012-11-14 | 三菱電機株式会社 | 音声検索装置 |
-
2010
- 2010-02-23 JP JP2010038011A patent/JP5590549B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011175046A (ja) | 2011-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Czech | A System for Recognizing Natural Spelling of English Words | |
US8954333B2 (en) | Apparatus, method, and computer program product for processing input speech | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
US9978364B2 (en) | Pronunciation accuracy in speech recognition | |
US20110224982A1 (en) | Automatic speech recognition based upon information retrieval methods | |
WO2003010754A1 (fr) | Systeme de recherche a entree vocale | |
JP5326169B2 (ja) | 音声データ検索システム及び音声データ検索方法 | |
JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
Bulyko et al. | Subword speech recognition for detection of unseen words. | |
JP5590549B2 (ja) | 音声検索装置および音声検索方法 | |
JP5897718B2 (ja) | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 | |
JP5436307B2 (ja) | 類似文書検索装置 | |
JP5542559B2 (ja) | 音声検索インタフェース装置及び音声入力検索方法 | |
JP2010277036A (ja) | 音声データ検索装置 | |
JP2002278579A (ja) | 音声データ検索装置 | |
JP2011128903A (ja) | 系列信号検索装置および系列信号検索方法 | |
JP2011007862A (ja) | 音声認識装置、音声認識プログラム、および音声認識方法 | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
Can et al. | Web derived pronunciations for spoken term detection | |
JP5669707B2 (ja) | 類似文書検索装置 | |
JP2000267693A (ja) | 音声処理装置及び索引作成装置 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP2004309928A (ja) | 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム | |
Ma et al. | Low-frequency word enhancement with similar pairs in speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140723 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5590549 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |