JP4595415B2 - 音声検索システムおよび方法ならびにプログラム - Google Patents

音声検索システムおよび方法ならびにプログラム Download PDF

Info

Publication number
JP4595415B2
JP4595415B2 JP2004207650A JP2004207650A JP4595415B2 JP 4595415 B2 JP4595415 B2 JP 4595415B2 JP 2004207650 A JP2004207650 A JP 2004207650A JP 2004207650 A JP2004207650 A JP 2004207650A JP 4595415 B2 JP4595415 B2 JP 4595415B2
Authority
JP
Japan
Prior art keywords
word
string
candidate
search
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004207650A
Other languages
English (en)
Other versions
JP2006031278A (ja
Inventor
真 寺尾
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004207650A priority Critical patent/JP4595415B2/ja
Publication of JP2006031278A publication Critical patent/JP2006031278A/ja
Application granted granted Critical
Publication of JP4595415B2 publication Critical patent/JP4595415B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声検索システムおよび方法ならびにプログラムに関し、特に音声認識された音声データ中の単語や語句を検索するシステムおよび方法ならびにプログラムに関する。
従来、この種の音声検索システムは、ニュースや講演などの音声データの中からキーワードを検索し、所望のコンテンツにアクセスするために用いられている。この場合、音声認識が用いられるが、辞書に登録されていない未知語を認識することはできず、また、既知語であっても誤認識は避けられない。このような誤認識を含む音声認識結果から単語や語句を検索するための音声検索システムの一例が、非特許文献1に記載されている。
図12は、非特許文献1に記載されている音声検索システムの構成を示すブロック図である。図12において、音声検索システムは、音声データ記憶手段101と、連続音素認識手段102と、認識結果音素列記憶手段103と、検索文字列入力手段104と、音素変換手段105と、マッチング手段106と、検索結果出力手段107、とから構成されている。このような構成を有する従来の音声検索システムは、次のように動作する。
音声データ記憶手段101には、検索対象となる音声データが記憶されている。連続音素認識手段102は、音声データを連続音素認識し、認識結果音素列を認識結果音素列記憶手段103に記憶する。一方、検索文字列入力手段104から入力された検索文字列は、音素変換手段105によって音素列に変換される。マッチング手段106は、音素変換された検索文字列と認識結果音素列全体とを音素単位のDP(Dynamic Programming)マッチングにより照合し、あらかじめ定めた閾値よりも累積距離が小さい区間に検索文字列が存在すると判定する。検索結果出力手段107は、検索文字列が存在すると判定された音声データの区間を出力する。音素単位のDPマッチングを行うことにより、検索したい文字列が誤認識される場合であってもある程度検索することが可能となっている。
なお、連続単語音声認識アルゴリズムの一つとして用いられるフレーム同期ビームサーチについては、特許文献1に記載されている。また、音声認識における各種のサーチ技術に関しては、非特許文献2に記載されている。
特許第3346285号公報 岡隆一他著、「音素系列表現を用いた音声およびテキスト検索」、電子情報通信学会技術研究報告、2001年、SP2001-29、29-35頁 ローレンス・ラビナー(Lawrence Rabiner)他著、「古井貞熙監訳、音声認識の基礎(下)」、NTTアドバンステクノロジ株式会社、1995年、194-229頁
従来技術の問題点は、検索に必要な計算量が大きいことである。その結果、検索対象となる音声データの規模が大きくなると、検索文字列を入力してから実際に検索結果が得られるまでに長時間待たされることになり、音声検索システムの実用性が低下してしまう。従来技術で必要な計算量が大きい理由は、音素変換された検索文字列と認識結果音素列とのDPマッチングにおいて、複数パスの距離計算を音素単位で実行するためである。
本発明の目的は、検索したい文字列が誤認識されていたり未知語であった場合にも対処可能で、かつ高速に検索することができる音声検索システムおよび方法ならびにプログラムを提供することにある。
前記目的を達成する本発明の原理は、入力された検索文字列を、検索対象となる音声データの音声認識結果に出現し得る類似単語または類似単語列に展開してから検索することにある。
本発明の一つのアスペクトに係る音声検索システムは、検索対象となる音声データの単語単位の音声認識結果を認識結果単語列として記憶する認識結果単語列記憶手段と、音声認識結果に出現し得る単語を候補単語として記憶する単語候補記憶手段と、入力された検索文字列を音素列に変換し、単語候補記憶手段に記憶されている候補単語または候補単語の組み合わせからなる候補単語列を音素列に変換し、それぞれ音素列に含まれる音素同士の一致の程度に基づいて検索文字列を候補単語または候補単語列に展開する検索文字列展開手段と、検索文字列展開手段によって展開された候補単語または候補単語列を認識結果単語列記憶手段から検索する検索手段と、を備える。
第1の展開形態の音声検索システムにおいて、単語候補記憶手段が、音声データから認識結果単語列を得るときの認識語彙を記憶するように構成されることが好ましい。
第2の展開形態の音声検索システムにおいて、認識結果単語列記憶手段に記憶された認識結果に現れる単語のリストを抽出する単語抽出手段を備え、単語候補記憶手段がリストを記憶するように構成されることが好ましい。
第3の展開形態の音声検索システムにおいて、単語抽出手段が、リストを抽出する時に、認識結果において各単語の前後に現れる単語について調べて、前後に現れる単語にのみ接続を許した単語間の接続テーブルを作成し、単語候補記憶手段がリストと共に接続テーブルを記憶し、検索文字列展開手段は、単語候補記憶手段の記憶するリストと接続テーブルとを参照して、検索文字列を接続可能な候補単語または候補単語列のみに展開する機能を含んで構成されることが好ましい。
第4の展開形態の音声検索システムにおいて、検索文字列展開手段が、検索文字列の音素列を入力特徴ベクトル系列とし、候補単語を認識語彙として連続単語音声認識アルゴリズムによって単語展開する機能を含んで構成されることが好ましい。
第5の展開形態の音声検索システムにおいて、検索文字列展開手段が、検索文字列を単語候補記憶手段が記憶している候補単語を用いて展開する時に、音素同士の一致の程度に基づいて検索文字列と候補単語または候補単語列との間の距離を求めて距離があらかじめ定めた閾値以内となるように展開する機能を含んで構成されることが好ましい。
第6の展開形態の音声検索システムにおいて、音素の認識誤り傾向を表す混同行列を記憶する混同行列記憶手段を備え、検索文字列展開手段が、混同行列に基づいて、音素同士の一致の程度を求める機能を含んで構成されることが好ましい。
第7の展開形態の音声検索システムにおいて、検索文字列展開手段が、音声データから認識結果単語列を得るときに使用した音響モデル中のモデル間距離に基づいて音素同士の一致の程度を求める機能を含んで構成されることが好ましい。
第8の展開形態の音声検索システムにおいて、検索文字列展開手段が、距離に加えて、音声データから認識結果単語列を得るときに使用した言語モデルを参照して言語的に現れにくい単語や単語列に対して距離をより遠くなるようにする距離加算機能を含んで構成されることが好ましい。
本発明の第2のアスペクトに係る音声検索方法は、入力手段と、展開手段と、検索手段と、検索対象となる音声データの単語単位の音声認識結果に出現し得る単語を候補単語として記憶する記憶手段とを備える音声検索システム単語列を検索する方法である。この方法は、入力手段が検索文字列を入力するステップと、展開手段が、記憶手段内の候補単語または候補単語の組み合わせからなる候補単語列を音素列に変換し、検索文字列を音素列に変換し、それぞれ音素列に含まれる音素同士の一致の程度に基づいて検索文字列を候補単語または候補単語列に展開するステップと、検索手段が音声認識結果を認識結果単語列として表し、展開された候補単語または候補単語列を認識結果単語列から検索するステップと、を含む。
第1の展開形態の音声検索方法において、音声検索システムは、さらに音声認識手段を備え、音声認識手段が、検索文字列を入力するステップに先立ち、音声データに対して音声認識を行い、認識結果として候補単語を得るステップを含んでもよい。
第2の展開形態の音声検索方法において、音声検索システムは、さらに音声認識手段を備え、音声認識手段が、検索文字列を入力するステップに先立ち、音声データに対して音声認識を行い、認識結果から抽出された単語のリストを作成するステップを含み、検索文字列を展開するステップは、作成されたリストを参照して展開してもよい。
本発明の第3のアスペクトに係る音声検索方法は、展開手段と、検索手段と、音声認識手段と、認識結果単語列記憶手段と、単語候補記憶手段とを備える音声検索システム単語列を検索する方法である。この方法は、音声認識手段が検索対象となる音声データの単語単位の音声認識結果を認識結果単語列として認識結果単語列記憶手段に記憶させるステップと、認識結果に出現し得る単語を候補単語として単語候補記憶手段記憶しておき、展開手段が、入力された検索文字列を音素列に変換し、単語候補記憶手段に記憶されている候補単語または候補単語の組み合わせからなる候補単語列を音素列に変換し、それぞれ音素列に含まれる音素同士の一致の程度に基づいて検索文字列を候補単語または候補単語列に展開するステップと、検索手段が、展開された候補単語または候補単語列を認識結果単語列記憶手段から検索するステップと、を含む。
第3の展開形態の音声検索方法において、音声データから認識結果単語列を得るときの認識語彙を単語候補記憶手段記憶しておいてもよい。
第4の展開形態の音声検索方法において、音声検索システムは、さらに単語抽出手段を備え、単語抽出手段が認識結果単語列記憶手段に記憶された認識結果に現れる単語のリストを抽出するステップと、単語抽出手段が抽出された単語のリストを単語候補記憶手段に記憶させるステップと、をさらに含み、候補単語列に展開するステップは、記憶されたリストを参照して展開してもよい。
本発明の第4のアスペクトに係るプログラムは、認識結果単語列記憶手段と単語候補記憶手段とを備える音声検索システムを構成するコンピュータに、検索対象となる音声データの単語単位の音声認識結果を認識結果単語列として認識結果単語列記憶手段に記憶させる処理と、認識結果に出現し得る単語を候補単語として単語候補記憶手段に記憶させる処理と、入力された検索文字列を音素列に変換し、単語候補記憶手段に記憶されている候補単語または候補単語の組み合わせからなる候補単語列を音素列に変換し、それぞれ音素列に含まれる音素同士の一致の程度に基づいて検索文字列を候補単語または候補単語列に展開する検索文字列展開処理と、検索文字列展開手段によって展開された候補単語または候補単語列を認識結果単語列記憶手段から検索する検索処理と、を実行させる。
第1の展開形態のプログラムにおいて、音声データから認識結果単語列を得るときの認識語彙を単語候補記憶手段に記憶させる処理をさらに実行させてもよい。
第2の展開形態のプログラムにおいて、認識結果単語列記憶手段に記憶された認識結果に現れる単語のリストを抽出する単語抽出処理と、単語抽出処理によって抽出された単語のリストを単語候補記憶手段に記憶させる処理と、をさらに実行させ、記憶されたリストを参照して展開するように検索文字列展開処理を実行させてもよい。
本発明の第5のアスペクトに係るプログラムは、認識結果単語列記憶手段と単語候補記憶手段とを備える音声検索システムを構成するコンピュータに、検索対象となる音声データの単語単位の音声認識結果に出現し得る単語を予め記憶してある単語候補記憶手段中の候補単語または候補単語の組み合わせからなる候補単語列を音素列に変換し、入力された検索文字列を音素列に変換し、それぞれ音素列に含まれる音素同士の一致の程度に基づいて検索文字列を候補単語または候補単語列に展開する検索文字列展開処理と、音声認識結果を認識結果単語列として予め記憶してある認識結果単語列記憶手段から、検索文字列展開処理によって展開された候補単語または候補単語列を検索する検索処理と、を実行させる。
第3の展開形態のプログラムにおいて、音声データに対して音声認識を行い、認識結果として候補単語を得る処理をさらに実行させてもよい。
本発明によれば、検索したい文字列が誤認識されていたり未知語であった場合にも対処可能で、かつ高速に検索することができる。その理由は、音素単位の認識結果ではなく、より大きな単位である単語単位の認識結果を検索すれば良いことにある。この結果、検索を行う空間が小さくなり、検索速度が向上する。すなわち、入力された検索文字列を単語または単語列に展開してから、単語単位の認識結果を検索するためである。
また、他の理由は、検索時に検索文字列と認識結果との距離をDPマッチングなどによって計算しなくても、検索したい文字列が誤認識されている場合にある程度検索できることにある。すなわち、入力された検索文字列の認識結果として可能性の高い単語または単語列に予め展開してから検索するためである。
さらに他の理由は、認識結果にまったく出現する可能性のない単語または単語列を検索することがないことにある。すなわち、検索文字列として未知語が入力された場合でも無駄に検索を行うことがなく、入力された検索文字列を認識結果に出現し得る単語または単語列に展開するためである。
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。本発明の実施形態に係る音声検索システムは、検索対象となる音声データの単語単位の音声認識結果を記憶する認識結果単語列記憶手段(図1の13)と、認識結果単語列に出現し得る単語の候補を記憶しておく単語候補記憶手段(図1の18)と、単語候補記憶手段に記憶されている単語を使用して音響的な距離が検索文字列に近くなるような単語または単語列に展開する検索文字列展開手段(図1の15)と、展開された単語または単語列を認識結果単語列から検索する検索手段(図1の16)とを有する。
以上のように構成される音声検索システムは、入力された検索文字列の認識結果となる可能性が高い単語または単語列を認識結果単語列から検索することにより、検索したい文字列が誤認識されていたり未知語であった場合にも対処可能で、かつ高速に検索することができる。
以下に、実施例に即して音声検索システムをより詳細に説明する。
図1は、本発明の第1の実施例に係る音声検索システムの構成を示すブロック図である。図1において、音声検索システムは、検索対象となる音声データを記憶する音声データ記憶手段11と、音声データを連続単語認識する連続単語認識手段12と、連続単語認識の結果を記憶する認識結果単語列記憶手段13と、認識結果単語列に出現し得る単語の候補を記憶する単語候補記憶手段18と、検索したい文字列を入力する検索文字列入力手段14と、入力された検索文字列を単語または単語列に展開する検索文字列展開手段15と、展開された単語または単語列を認識結果単語列の中から検索する検索手段16と、検索結果を出力する検索結果出力手段17、とから構成されている。
単語候補記憶手段18は、連続単語認識手段12の認識語彙を定めた認識辞書を記憶する。このようにすることで、単語候補記憶手段18が記憶している単語候補は、認識結果に出現し得る単語となる。なお、単語候補記憶手段18は、必ずしも認識辞書そのものを記憶する必要はなく、例えば、助詞「は」、「が」などの長さの短い単語を認識辞書から除いた単語リストを単語候補記憶手段18に記憶させても構わない。短い単語を除くことで展開される単語列の数が膨大になってしまうことを防ぐことができる。
次に、図1及び図2を参照して、本発明の第1の実施例に係る音声検索システムの動作について詳細に説明する。図2は、本発明の第1の実施例に係る音声検索システムの動作を示すフローチャート図である。
まず予め、連続単語認識手段12が、音声データ記憶手段11から検索対象となる音声データを読み出して連続単語認識を行い、認識結果を認識結果単語列記憶手段13に記憶する。連続単語認識は、一般的な音声認識手法である音素を単位としたHMM(Hidden Markov Model)による音響モデルと、n語間の統計確率に基づくn-gramによる言語モデルを用いたサーチによって実現する。なお、音響モデルの単位として音節やそれに準ずるサブワードを用いたり、言語モデルとして文脈自由文法などを使用することも可能である。また、本実施例では、予め音声データ記憶手段11に格納された音声データを認識して、検索対象となる認識結果単語列を生成する場合について述べるが、これは、本発明における音声データの状態を限定するものではない。例えば、マイクなどから入力された音声に対して、連続単語認識手段12で逐次に認識処理を実行して音声データを作成することで、リアルタイムに音声検索を行うことも可能である。
また、本実施例では、連続単語認識手段12は、連続単語認識した認識結果そのものを認識結果単語列記憶手段13に出力しているが、連続単語認識手段12は、必ずしも連続単語認識の認識結果をそのまま出力しなくても良い。例えば、連続単語認識によって得られた単語列の各単語をさらに細かく区切って単語を短単位化しても良いし、或いは、単語同士を結合して単語を長単位化しても良い。例として、長単位の「非科学的」を、「非」と「科学」と「的」とのような短単位の単語にする等が挙げられる。このときは、単語候補記憶手段18に記憶する単語候補も同じように単語の短単位化、長単位化が施された単語にして、認識結果単語列記憶手段13中に出現する単語の種類を合わせることが望ましい。また、連続単語認識の結果に対して形態素解析をかけた結果を認識結果単語列とすることも本実施例に含まれる。このときは、単語候補記憶手段18に記憶する単語候補は、形態素解析器の語彙を定めた辞書に含まれる単語とすることが望ましい。
ユーザが音声データから単語または単語列などを検索するときには、まず、キーボードなどの検索文字列入力手段14から検索したい文字列を入力する(ステップA1)。なお、検索文字列の入力は、キーボードなどからの文字列入力に限る必要はなく、マイクなどによる音声入力を音声認識しても良い。例えば、マイクによって入力された音声を連続音素認識した結果や、孤立単語認識した結果を検索文字列とすることも本実施例に含まれる。
次に、検索文字列展開手段15が、単語候補記憶手段18に記憶されている単語候補を使用して、検索文字列を単語または単語列に展開する(ステップA2)。この展開は、検索文字列と展開する単語または単語列との音響的な距離が近くなるように行う。例えば、検索文字列として「ハリーポッター」を入力した場合を考える。また、単語候補記憶手段18には「ハリー」、「ポスター」、「は」、「リポーター」、などの単語候補が記憶されているとする。このとき、検索文字列展開手段15は、単語候補記憶手段18中の単語候補を並べることで、検索文字列「ハリーポッター」と音響的に近い「ハリー」+「ポスター」、「は」+「リポーター」、などの単語列に展開する。もちろん、単語候補記憶手段18に「ハリーポッター」が存在すれば、「ハリーポッター」という単語にも展開される。この展開は、検索文字列と音響的な距離が近くなるように行われるため、検索文字列の認識結果となる可能性が高い単語列を誤認識も含めて求めることになる。すなわち、「ハリーポッター」を認識すると、認識結果として「ハリー」+「ポスター」や、「は」+「リポーター」などの単語列が得られる可能性が高いということになる。このとき、単語候補記憶手段18は、連続単語認識手段12の認識語彙であるので、認識結果に出現し得ない無関係な単語列に展開されることはない。以下では、検索文字列展開手段15が、入力された検索文字列との音響的な距離が近い単語または単語列をどのようにして展開するかについて説明する。
まず、検索文字列展開手段15は、入力された検索文字列を音素列に変換する。検索文字列を音素列に変換するためには検索文字列の読み情報が必要となるが、これはかな漢字混じりで入力された検索文字列から自動で読みつけしても良いし、或いは、検索文字列入力手段14でユーザが検索文字列の読みを入力しても良い。ただし、検索文字列をマイクなどからの音声入力を音声認識することで得た場合には、音声認識によって検索文字列の音素列も得られるので、検索文字列展開手段15は、ここで述べた音素変換を行う必要はない。一方、単語候補記憶手段18には、各単語候補の音素列の情報も記憶しておく。
検索文字列展開手段15は、検索文字列と単語候補記憶手段18に記憶されている単語候補の様々な並びとの音響的な距離を、音素を単位としたDPマッチングによって求め、距離があらかじめ定めた閾値以内となる単語列に展開する。なお、本実施例では音素を単位として距離を計算しているが、音節またはそれに準ずるサブワード単位で距離を計算してもよい。その場合は、検索文字列や単語候補を音素列の代わりに音節列やサブワード列に変換する必要がある。
図3は、音素間の距離尺度として、同じ音素間の距離を0、違う音素間の距離を1、音素の挿入時や脱落時の距離を1としたときの、検索文字列の音素列「hariipoQtaa(ハリーポッター)」(Qは促音を表す)と展開単語列の音素列「harii(ハリー)」+「bokusaa(ボクサー)」との距離をDPマッチングによって求めたときの様子である。この例の場合、「hariipoQtaa(ハリーポッター)」と「harii(ハリー)」+「bokusaa(ボクサー)」との距離の累積は、4になる。一方、図4は、検索文字列の音素列「hariipoQtaa(ハリーポッター)」と展開単語列の音素列「harii(ハリー)」+「posutaa(ポスター)」との距離をDPマッチングによって求めたときの様子で、この場合、両者の距離の累積は、2になる。今、展開するかどうかを決める距離の閾値を3とすると、検索文字列「ハリーポッター」は、検索文字列展開手段15によって、「ハリー」+「ポスター」には展開されるが、「ハリー」+「ボクサー」には展開されないことになる。なお、展開するかどうかを決める距離の閾値は、常に一定値である必要はなく、例えば、検索文字列の長さに応じて閾値を正規化しても良い。
このように、検索文字列との距離が近くなるような単語列を効率的に求めることは、連続単語音声認識で用いられているサーチアルゴリズムによって高速に実現できる。連続単語音声認識とは、入力特徴ベクトルの時系列に近い単語列を求める問題である。連続単語音声認識アルゴリズムによって、入力特徴ベクトルを単語辞書中の単語の様々な組み合わせと照合することで、認識結果となる単語列を求めることができる。ここで、連続単語音声認識における特徴ベクトルの時系列とは、入力音声波形をフレームと呼ばれる時間単位ごとに分析したものである。
一方、本発明における検索文字列展開は、入力検索文字列に近い単語列を求める問題である。これは、上記の連続単語音声認識アルゴリズムにおける入力特徴ベクトルとして、検索文字列の音素列を入力することで実現できる。入力検索文字列と単語の様々な組み合わせとの照合時のスコア計算には、音素間の距離を用いればよい。なお、本実施例では音素列を入力としているが、音節列またはそれに順ずるサブワード列を入力としても良い。
以下では、よく用いられる連続単語音声認識アルゴリズムの一つとして、特許文献1に記載されているようなフレーム同期ビームサーチについて説明する。フレーム同期ビームサーチは、フレームごとに認識結果の候補となる単語列を仮説として展開する一方で、スコアが閾値以下の仮説は消去していくことで、入力特徴ベクトルの時系列と単語列仮説との照合を効率よく行うアルゴリズムである。具体的には、以下のステップ1からステップ3までが繰り返される。
ステップ1:I番目のフレームの仮説をI+1番目のフレームに展開する。すなわち、I番目のフレームの仮説が単語終端状態にあれば、辞書中の単語を接続して仮説を展開する。I番目のフレームの仮説は消去され、I+1番目のフレームの仮説だけが記憶される。
ステップ2:I+1番目のフレームに展開された仮説のうち、スコアが一定の閾値より良い仮説のみを記憶し、それ以外の仮説を消去する。これは枝狩り(beam pruning)と呼ばれる。
ステップ3:処理すべきフレーム番号Iに1を加える。
上記のフレーム同期ビームサーチの入力特徴ベクトルを入力検索音素列に置き換えることで、本発明における検索文字列の展開が実現可能である。フレーム単位の処理は、音素単位の処理とし、スコアは入力検索音素列と展開された単語列仮説との累積音素間距離とすればよい。また、ステップ2の枝狩り処理は、例えば、累積距離が一定値以上になった仮説を消去すればよい。或いは、展開された仮説のうち最も累積距離の小さい仮説を基準として、その距離よりも一定の閾値以上の累積距離を持つ仮説を消去しても良い。このようにすることで、入力検索文字列との距離が近い単語列を効率的に求めることができる。枝狩りの閾値を調整することで、得られる単語列の数を制御することも可能である。
なお、検索文字列の展開アルゴリズムはフレーム同期ビームサーチに限る必要はなく、連続単語音声認識アルゴリズムとして一般的に用いられている手法を適用することもできる。例えば、2段DPマッチング、レベルビルディング法、或いはワンステージ法などによって展開を行うことも可能である。これらのアルゴリズムの詳細は、非特許文献2に記載されている。
また、本実施例では、音素間の距離として同じ音素間のときの距離を0、違う音素間の距離を1としたが、別の距離尺度を使っても良い。例えば、音素間混同行列に基づいて音素間距離を計算しても良い。音素間混同行列とは、音声認識において各音素がどのような音素に認識されやすいかを予め認識実験などにより求め、行列の要素を確率で表したものである。この音素間混同行列の例を図5に示す。図5は、入力音素k、g、s、z、a、・・がそれぞれk、g、s、z、a、・・と認識される確率を行列で表したものである。例えば、音素kがkと認識される確率は0.6、gと認識される確率は0.3、zと認識される確率は0.1、であることなどが示される。このとき、例えば、音素混同行列中の確率の逆数を音素間距離として定義することができる。このように距離を定義することで、音声認識における誤り傾向を考慮した距離を計算することが可能となる。なお、この場合、確率が0である音素間の距離は、十分に大きな値とする。
また、別の距離尺度として、連続単語認識手段12が認識時に使用した音響モデルのモデル間距離を使用しても良い。例えば、各音素を表す音響モデルの確率分布間のKL(Kullback-Leibler)距離によって音素間の距離を定義することができる。各音素の音響モデルが1状態かつ単一ガウス分布でモデル化されているとき、2つのモデル間のKL距離は、(1)式で表される。

Figure 0004595415
なお、f (x|u, Σ)は、平均ベクトルu、分散共分散行列ΣのK次元ガウス分布であって、(2)式で表される。
Figure 0004595415
さらに、音響モデルが複数の状態で表されるときや、状態が混合ガウス分布で表されるときには、例えば、最も距離の近いガウス分布間距離を音素間距離とすればよい。
また、検索文字列展開手段15が検索文字列を単語または単語列に展開するときに、音響的な近さだけでなく、言語的な制約を加えることも可能である。例えば、検索文字列と展開する単語候補との距離計算を行うときに、連続単語認識手段12が認識時に使用した言語モデルを参照して、ユニグラム確率が低い単語にはペナルティを与えれば良い。また、バイグラム確率が低い単語連鎖に展開するときにペナルティを与えても良い。
例えば、言語モデルのバイグラム確率の逆数を定数倍するなどして、図6に示すような単語間のペナルティを求めておく。このとき、図4で求めた、検索文字列の音素列「hariipoQtaa(ハリーポッター)」と展開単語列の音素列「harii(ハリー)」+「posutaa(ポスター)」との距離は、音素列間の距離2にペナルティ2を加えて4に修正される。一方、図7に示すように「hariipoQtaa(ハリーポッター)」と展開単語列の音素列「wa(は)」+「ripootaa(リポーター)」との音素列間距離は3であるが、ペナルティは0.5なので最終的な距離は、3.5に修正される。この結果、言語的により認識結果となりやすい「は」+「リポーター」の方が距離が近いと判定される。
また、より高次のn-gramに対しても同様である。距離計算のときにこのようなペナルティを加えることで、検索文字列を認識結果に出現しやすい単語または単語列のみに展開することが可能となる。
以上で説明したように、検索文字列展開手段15によって、入力された検索文字列は、単語候補記憶手段18が記憶する単語または単語列に展開される。このとき、展開された単語または単語列は、検索文字列を認識した結果得られる可能性の高い単語または単語列である。
最後に、検索手段16は、検索文字列展開手段15によって展開された単語または単語列が認識結果単語列記憶手段13に存在するかどうかを調べる(ステップA3、A4)。展開された単語または単語列が認識結果単語列に存在すれば、検索に成功したと判断して、検索結果出力手段17は、その認識結果単語列に対応する区間を検索結果として出力する(ステップA5)。展開された単語または単語列が認識結果単語列に存在しなければ、検索に失敗したと判断して、検索結果出力手段17は検索不能を示すメッセージを出力する(ステップA6)。前述した例のように、検索文字列「ハリーポッター」が「ハリー」+「ポスター」に展開された場合を考えると、認識結果中に「ハリー」+「ポスター」が存在したら、その区間を「ハリーポッター」の検索結果として出力する。
また、予め認識結果単語列記憶手段13に記憶されている認識結果単語列に対して、検索のためのインデックスを作成し、検索手段16がインデックスを参照することで展開された単語または単語列を検索することも本実施例に含まれる。図8は、検索対象となる音声データの認識結果に対するインデックスの例を示す図である。各単語の出現位置情報が出現した文書番号と文書中の出現位置との組み合わせによって記憶されている。例えば、「ハリーポッター」を展開した単語列「ハリー」+「ポスター」を検索する場合について示す。図8のインデックスを参照することで「ハリー」は、文書1中の10単語目と文書1中の20単語目とに出現し、「ポスター」は、文書1中の11単語目と文書2中の10単語目とに出現することが直ちに分かる。その後、「ハリー」と「ポスター」とが連続しているかどうかを調べることで、「ハリー」+「ポスター」が文書1中の10単語目から11単語目にあることが検索できる。このように展開された単語列の検索に図8に示すようなインデックスを利用することで、文書全体を探索する必要がなくなるため、検索の速度を大幅に向上することが可能である。
次に、本実施例の効果について説明する。本実施例では、単語単位の認識結果を単語単位で検索するために、音素列の認識結果を音素単位で検索するのに比べて検索を行う空間が小さくなる。
また、予め検索文字列を誤認識の可能性を考慮した単語または単語列に展開してから検索するために、検索時には検索文字列と認識結果との距離をDPマッチングによって計算する必要がない。本実施例では、検索文字列を単語列に展開するときに検索文字列と展開する単語候補との距離計算を行う必要があるが、これは検索対象全体と検索文字列とをDPマッチングする従来の方式に比べれば大した計算量ではない。また、展開された単語または単語列を認識結果から検索するときには、インデックスを用いた検索手法を利用できる。
さらに、本実施例では、認識結果単語列を得るときの認識語彙を使用して単語または単語列へ展開しているため、認識結果にまったく出現する可能性のない単語または単語列を検索することはない。
これらの結果、本実施例によって、音声データに対する検索速度が大幅に向上する。
次に、本発明の第2の実施例について図面を参照して詳細に説明する。
図9は、本発明の第2の実施例に係る音声検索システムの構成を示すブロック図である。図9に示す音声検索システムは、図1に示した音声検索システムに対して、認識結果単語列記憶手段23に記憶された認識結果に出現する単語のリストを抽出する単語抽出手段29をさらに備え、単語候補記憶手段28は、単語抽出手段29の抽出した単語のリストを記憶している点で異なる。なお、図9において、音声データ記憶手段21、連続単語認識手段22、検索文字列入力手段24、検索文字列展開手段25、検索手段26、検索結果出力手段27は、それぞれ図1における音声データ記憶手段11、連続単語認識手段12、検索文字列入力手段14、検索文字列展開手段15、検索手段16、検索結果出力手段17に相当し、特に記載無き場合には、その説明を省略する。
第1の実施例では、単語候補記憶手段18には検索文字列展開手段の展開する単語候補として、連続単語認識手段12の認識語彙が記憶されていた。本実施例では、単語候補記憶手段28は、単語抽出手段29の抽出した単語のリストを記憶する。単語抽出手段29は、認識結果単語列記憶手段23に記憶されている認識結果を調べて、認識結果に出現する単語のリストを抽出する。このとき、必ずしも認識結果に現れる単語の全てを抽出しなくても良い。例えば、単語が認識結果に現れる頻度を調べて、頻度が極端に少ない単語を抽出しないようにしてもよい。また、長さが短い単語を抽出しないようにしてもよい。このようにして認識結果単語列から抽出された単語のリストが単語候補記憶手段28に記憶され、検索文字列展開手段25の展開する単語候補となる。
また、単語抽出手段29が認識結果に出現する単語を調べるときに、各単語の前後に現れる単語についても調べ、各単語の前後に現れる単語にのみ接続を許した単語間の接続テーブルを作成しても良い。この場合、単語候補記憶手段28は、単語抽出手段29が作成する単語のリストと接続テーブルの両方を記憶する。検索文字列展開手段25は、第1の実施例の検索文字列展開手段15とほぼ同様の動作を行うが、単語候補記憶手段28が記憶している接続テーブルも参照し、接続不可能となっている単語列には展開しない点が異なる。
次に、接続テーブルについて説明する。図10は、認識結果から作成した接続テーブルの例を示す図であって、先行単語に対し後続単語が接続可能(「○」で表わす)か接続不可能(「×」で表わす)かを表している。図10の接続テーブルを参照すると、認識結果中に「ハリー」+「ポスター」の並びは存在するが、「ハリー」+「ボクサー」の並びは存在しないことが分かるため、検索文字列展開手段は「ハリー」+「ボクサー」への展開を行わない。この結果、展開速度が向上し、また、無駄な検索を行わなくなるため検索速度も向上する。
次に、本実施例の効果について説明する。本実施例では、単語抽出手段29によって認識結果に現れる単語のリストを抽出して単語候補記憶手段28に記憶するため、検索文字列展開手段25は、認識結果に必ず現れる単語のみを使用して検索文字列を単語または単語列に展開できる。このため、単語の展開および検索の両方の効率が良くなり、検索速度がより向上する。
次に、以上で説明した第1および第2の実施例に係る音声検索システムおよび音声検索用プログラムの実装について図面を参照して説明する。
図11は、本発明の実施例に係る音声検索システムの構成を示すブロック図である。図11において音声検索システムは、入出力部51、データ処理部52、記憶部53を備える。記憶部53には、プログラム記憶部54、単語候補記憶部55、音声データ記憶部56、認識結果単語列記憶部57が備えられる。
入出力部51は、キーボード、音声入力装置、表示装置などから構成され、音声検索システムにおける各種データの入出力を司る。図1の検索文字列入力手段14、または図9の検索文字列入力手段24に相当する。また、入出力部51は、図1の検索結果出力手段17、または図9の検索文字列出力手段27にも相当する。
記憶部53は、音声検索用プログラムをプログラム記憶部54に記憶しておく。また、図1または図9にそれぞれ示した音声データ記憶手段11または21、認識結果単語列記憶手段13または23、単語候補記憶手段18または28は、それぞれ記憶部53内の音声データ記憶部56、認識結果単語列記憶部57、単語候補記憶部55に相当し、データ処理部52によって読み書きされる。
データ処理部52は、音声検索プログラムの制御により、図1に示した連続単語認識手段12、検索文字列入力手段14、検索文字列展開手段15、検索手段16、検索結果出力手段17、における処理を実行する。あるいは、データ処理部52は、音声検索プログラムの制御により、図9に示した連続単語認識手段22、検索文字列入力手段24、検索文字列展開手段25、検索手段26、検索結果出力手段27、単語抽出手段29における処理を実行する。また、音声検索プログラムは、音声データ記憶部56、認識結果単語列記憶部57、単語候補記憶部55を参照することによって、入力された検索文字列を検索対象となる音声データから検索するように動作する。
本発明は、放送音声や講演音声などの音声データベースから所望のコンテンツを検索する用途に適用できる。
本発明の第1の実施例に係る音声検索システムの構成を示すブロック図である。 本発明の第1の実施例に係る音声検索システムの動作を表すフローチャート図である。 検索文字列とある展開単語列との距離を求めるときの説明図である。 検索文字列と他の展開単語列との距離を求めるときの説明図である。 音素間混同行列の例を表す図である。 単語間のペナルティの例を表す図である。 検索文字列とさらに他の展開単語列との距離を求めるときの説明図である。 検索対象となる音声データの認識結果に対するインデックスの例を示す図である。 本発明の第2の実施例に係る音声検索システムの構成を示すブロック図である。 認識結果から作成した接続テーブルの例を示す図である。 本発明の実施例に係る音声検索システムの構成を示すブロック図である。 従来の音声検索システムの構成を示すブロック図である。
符号の説明
11、21 音声データ記憶手段
12、22 連続単語認識手段
13、23 認識結果単語列記憶手段
14、24 検索文字列入力手段
15、25 検索文字列展開手段
16、26 検索手段
17、27 検索結果出力手段
18、28 単語候補記憶手段
29 単語抽出手段
51 入出力部
52 データ処理部
53 記憶部
54 プログラム記憶部
55 単語候補記憶部
56 音声データ記憶部
57 認識結果単語列記憶部

Claims (20)

  1. 検索対象となる音声データの単語単位の音声認識結果を認識結果単語列として記憶する認識結果単語列記憶手段と、
    前記音声認識結果に出現し得る単語を候補単語として記憶する単語候補記憶手段と、
    入力された検索文字列を音素列に変換し、前記単語候補記憶手段に記憶されている前記候補単語または前記候補単語の組み合わせからなる候補単語列を音素列に変換し、前記それぞれ音素列に含まれる音素同士の一致の程度に基づいて前記検索文字列を前記候補単語または前記候補単語列に展開する検索文字列展開手段と、
    前記検索文字列展開手段によって展開された前記候補単語または前記候補単語列を前記認識結果単語列記憶手段から検索する検索手段と、
    を備えることを特徴とする音声検索システム。
  2. 前記単語候補記憶手段が、前記音声データから前記認識結果単語列を得るときの認識語彙を記憶していることを特徴とする請求項1に記載の音声検索システム。
  3. 前記認識結果単語列記憶手段に記憶された認識結果に現れる単語のリストを抽出する単語抽出手段を備え、前記単語候補記憶手段が前記リストを記憶することを特徴とする請求項1に記載の音声検索システム。
  4. 前記単語抽出手段が、前記リストを抽出する時に、前記認識結果において各単語の前後に現れる単語について調べて、前後に現れる単語にのみ接続を許した単語間の接続テーブルを作成し、前記単語候補記憶手段が前記リストと共に前記接続テーブルを記憶し、前記検索文字列展開手段は、前記単語候補記憶手段の記憶する前記リストと前記接続テーブルとを参照して、前記検索文字列を接続可能な前記候補単語または前記候補単語列のみに展開する機能を含むことを特徴とする請求項3に記載の音声検索システム。
  5. 前記検索文字列展開手段が、前記検索文字列の音素列を入力特徴ベクトル系列とし、前記候補単語を認識語彙として連続単語音声認識アルゴリズムによって単語展開する機能を含むことを特徴とする請求項1に記載の音声検索システム。
  6. 前記検索文字列展開手段が、前記検索文字列を前記単語候補記憶手段が記憶している前記候補単語を用いて展開する時に、前記音素同士の一致の程度に基づいて前記検索文字列と前記候補単語または前記候補単語列との間の距離を求めて距離があらかじめ定めた閾値以内となるように展開する機能を含むことを特徴とする請求項1に記載の音声検索システム。
  7. 前記音素の認識誤り傾向を表す混同行列を記憶する混同行列記憶手段を備え、前記検索文字列展開手段が、前記混同行列に基づいて、前記音素同士の一致の程度を求める機能を含むことを特徴とする請求項6に記載の音声検索システム。
  8. 前記検索文字列展開手段が、前記音声データから前記認識結果単語列を得るときに使用した音響モデル中のモデル間距離に基づいて前記音素同士の一致の程度を求める機能を含むことを特徴とする請求項6に記載の音声検索システム。
  9. 前記検索文字列展開手段が、前記距離に加えて、前記音声データから前記認識結果単語列を得るときに使用した言語モデルを参照して言語的に現れにくい単語や単語列に対して前記距離をより遠くなるようにする距離加算機能を含むことを特徴とする請求項6に記載の音声検索システム。
  10. 入力手段と、展開手段と、検索手段と、検索対象となる音声データの単語単位の音声認識結果に出現し得る単語を候補単語として記憶する記憶手段とを備える音声検索システム単語列を検索する方法であって、
    前記入力手段が検索文字列を入力するステップと、
    前記展開手段が、前記記憶手段内の前記候補単語または前記候補単語の組み合わせからなる候補単語列を音素列に変換し、前記検索文字列を音素列に変換し、前記それぞれ音素列に含まれる音素同士の一致の程度に基づいて前記検索文字列を前記候補単語または前記候補単語列に展開するステップと、
    前記検索手段が前記音声認識結果を認識結果単語列として表し、展開された前記候補単語または前記候補単語列を前記認識結果単語列から検索するステップと、
    を含むことを特徴とする音声検索方法。
  11. 音声検索システムは、さらに音声認識手段を備え、
    前記音声認識手段が、前記検索文字列を入力するステップに先立ち、前記音声データに対して音声認識を行い、認識結果として前記候補単語を得るステップを含むことを特徴とする請求項10に記載の音声検索方法。
  12. 音声検索システムは、さらに音声認識手段を備え、
    前記音声認識手段が、前記検索文字列を入力するステップに先立ち、前記音声データに対して音声認識を行い、認識結果から抽出された単語のリストを作成するステップを含み、前記検索文字列を展開する前記ステップは、作成された前記リストを参照して展開することを特徴とする請求項10に記載の音声検索方法。
  13. 展開手段と、検索手段と、音声認識手段と、認識結果単語列記憶手段と、単語候補記憶手段とを備える音声検索システム単語列を検索する方法であって、
    前記音声認識手段が検索対象となる音声データの単語単位の音声認識結果を認識結果単語列として前記認識結果単語列記憶手段に記憶させるステップと、
    前記認識結果に出現し得る単語を候補単語として前記単語候補記憶手段記憶しておき、前記展開手段が、入力された検索文字列を音素列に変換し、前記単語候補記憶手段に記憶されている前記候補単語または前記候補単語の組み合わせからなる候補単語列を音素列に変換し、前記それぞれ音素列に含まれる音素同士の一致の程度に基づいて前記検索文字列を前記候補単語または前記候補単語列に展開するステップと、
    前記検索手段が、前記展開された前記候補単語または前記候補単語列を前記認識結果単語列記憶手段から検索するステップと、
    を含むことを特徴とする音声検索方法。
  14. 前記音声データから前記認識結果単語列を得るときの認識語彙を前記単語候補記憶手段記憶しておくことを特徴とする請求項13記載の音声検索方法。
  15. 音声検索システムは、さらに単語抽出手段を備え、
    前記単語抽出手段が前記認識結果単語列記憶手段に記憶された認識結果に現れる単語のリストを抽出するステップと、前記単語抽出手段が前記抽出された単語のリストを前記単語候補記憶手段に記憶させるステップと、をさらに含み、前記候補単語列に展開するステップは、前記記憶された前記リストを参照して展開することを特徴とする請求項13記載の音声検索方法。
  16. 認識結果単語列記憶手段と単語候補記憶手段とを備える音声検索システムを構成するコンピュータに、
    検索対象となる音声データの単語単位の音声認識結果を認識結果単語列として前記認識結果単語列記憶手段に記憶させる処理と、
    前記認識結果に出現し得る単語を候補単語として前記単語候補記憶手段に記憶させる処理と、
    入力された検索文字列を音素列に変換し、前記単語候補記憶手段に記憶されている前記候補単語または前記候補単語の組み合わせからなる候補単語列を音素列に変換し、前記それぞれ音素列に含まれる音素同士の一致の程度に基づいて前記検索文字列を前記候補単語または前記候補単語列に展開する検索文字列展開処理と、
    前記検索文字列展開処理によって展開された前記候補単語または前記候補単語列を前記認識結果単語列記憶手段から検索する検索処理と、
    を実行させるプログラム。
  17. 前記音声データから前記認識結果単語列を得るときの認識語彙を前記単語候補記憶手段に記憶させる処理をさらに実行させる請求項16に記載のプログラム。
  18. 前記認識結果単語列記憶手段に記憶された認識結果に現れる単語のリストを抽出する単語抽出処理と、前記単語抽出処理によって抽出された単語のリストを前記単語候補記憶手段に記憶させる処理と、をさらに実行させ、前記記憶された前記リストを参照して展開するように前記検索文字列展開処理を実行させる請求項16に記載のプログラム。
  19. 認識結果単語列記憶手段と単語候補記憶手段とを備える音声検索システムを構成するコンピュータに、
    検索対象となる音声データの単語単位の音声認識結果に出現し得る単語を予め記憶してある前記単語候補記憶手段中の候補単語または前記候補単語の組み合わせからなる候補単語列を音素列に変換し、入力された検索文字列を音素列に変換し、前記それぞれ音素列に含まれる音素同士の一致の程度に基づいて前記検索文字列を前記候補単語または前記候補単語列に展開する検索文字列展開処理と、
    前記音声認識結果を認識結果単語列として予め記憶してある前記認識結果単語列記憶手段から、前記検索文字列展開処理によって展開された前記候補単語または前記候補単語列を検索する検索処理と、
    を実行させるプログラム。
  20. 前記音声データに対して音声認識を行い、認識結果として前記候補単語を得る処理をさらに実行させる請求項19に記載のプログラム。
JP2004207650A 2004-07-14 2004-07-14 音声検索システムおよび方法ならびにプログラム Expired - Fee Related JP4595415B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004207650A JP4595415B2 (ja) 2004-07-14 2004-07-14 音声検索システムおよび方法ならびにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004207650A JP4595415B2 (ja) 2004-07-14 2004-07-14 音声検索システムおよび方法ならびにプログラム

Publications (2)

Publication Number Publication Date
JP2006031278A JP2006031278A (ja) 2006-02-02
JP4595415B2 true JP4595415B2 (ja) 2010-12-08

Family

ID=35897564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004207650A Expired - Fee Related JP4595415B2 (ja) 2004-07-14 2004-07-14 音声検索システムおよび方法ならびにプログラム

Country Status (1)

Country Link
JP (1) JP4595415B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2044524A4 (en) * 2006-07-03 2010-10-27 Intel Corp METHOD AND DEVICE FOR QUICK AUDIO SEARCH
JP5189413B2 (ja) * 2008-06-09 2013-04-24 株式会社日立製作所 音声データ検索システム
JP5326169B2 (ja) * 2009-05-13 2013-10-30 株式会社日立製作所 音声データ検索システム及び音声データ検索方法
CN102081634B (zh) * 2009-11-27 2015-07-08 株式会社理光 语音检索装置和语音检索方法
JP5210440B2 (ja) * 2012-01-04 2013-06-12 インテル・コーポレーション 高速音声検索のための方法、プログラムおよび装置
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
CN105632499B (zh) 2014-10-31 2019-12-10 株式会社东芝 用于优化语音识别结果的方法和装置
KR102651200B1 (ko) * 2022-01-07 2024-03-26 주식회사 킨트 음성인식 매칭시스템

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08115330A (ja) * 1994-10-14 1996-05-07 Hitachi Ltd 類似文書検索方法および装置
JP2000020551A (ja) * 1998-06-30 2000-01-21 Brother Ind Ltd 音声データ検索装置および記憶媒体
JP2000029494A (ja) * 1998-07-10 2000-01-28 Nec Corp 音声認識装置及び方法
JP2000259645A (ja) * 1999-03-05 2000-09-22 Fuji Xerox Co Ltd 音声処理装置及び音声データ検索装置
JP2002149187A (ja) * 2000-11-07 2002-05-24 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP2002189747A (ja) * 2000-12-19 2002-07-05 Hitachi Ltd 文書情報の検索方法
JP2002278579A (ja) * 2001-03-16 2002-09-27 Ricoh Co Ltd 音声データ検索装置
JP2003085197A (ja) * 2000-10-13 2003-03-20 Nippon Telegr & Teleph Corp <Ntt> 音声入力された複合名詞の検索装置、検索方法およびデータベース

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08115330A (ja) * 1994-10-14 1996-05-07 Hitachi Ltd 類似文書検索方法および装置
JP2000020551A (ja) * 1998-06-30 2000-01-21 Brother Ind Ltd 音声データ検索装置および記憶媒体
JP2000029494A (ja) * 1998-07-10 2000-01-28 Nec Corp 音声認識装置及び方法
JP2000259645A (ja) * 1999-03-05 2000-09-22 Fuji Xerox Co Ltd 音声処理装置及び音声データ検索装置
JP2003085197A (ja) * 2000-10-13 2003-03-20 Nippon Telegr & Teleph Corp <Ntt> 音声入力された複合名詞の検索装置、検索方法およびデータベース
JP2002149187A (ja) * 2000-11-07 2002-05-24 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP2002189747A (ja) * 2000-12-19 2002-07-05 Hitachi Ltd 文書情報の検索方法
JP2002278579A (ja) * 2001-03-16 2002-09-27 Ricoh Co Ltd 音声データ検索装置

Also Published As

Publication number Publication date
JP2006031278A (ja) 2006-02-02

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
CN109410914B (zh) 一种赣方言语音和方言点识别方法
JP6188831B2 (ja) 音声検索装置および音声検索方法
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US7299178B2 (en) Continuous speech recognition method and system using inter-word phonetic information
US5878390A (en) Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
JP2000075895A (ja) 連続音声認識用n最良検索方法
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JP2010078877A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP4269625B2 (ja) 音声認識辞書作成方法及びその装置と音声認識装置
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP6001944B2 (ja) 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP2965529B2 (ja) 音声認識装置
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2938865B1 (ja) 音声認識装置
KR20210052564A (ko) 빅 데이터를 이용한 최적의 언어 모델 생성 방법 및 이를 위한 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100824

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100906

R150 Certificate of patent or registration of utility model

Ref document number: 4595415

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131001

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees