JP5541035B2

JP5541035B2 - 音声検索装置及び音声検索方法

Info

Publication number: JP5541035B2
Application number: JP2010211154A
Authority: JP
Inventors: ダフェイシ; ヤオジエルゥ; ユエイエヌイヌ; ジィチョアヌジォン; リジュヌジャオ
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2009-09-22
Filing date: 2010-09-21
Publication date: 2014-07-09
Anticipated expiration: 2030-09-21
Also published as: CN102023995A; JP2011070192A; CN102023995B; US8504367B2; EP2306345A3; EP2306345A2; US20110071833A1

Description

本発明は、音声検索装置及び音声検索方法に関し、具体的に、入力された検索語と適合する音声ファイルを、高適合率かつ高再現率で音声データベースから検索するための、総合音声検索（Holo-Speech Search：HSS）に基づく音声検索装置及び音声検索方法に関する。

近年、可聴周波数の応用の更なる普及により、コンピュータ、ネットワーク及び日常生活の至る所でラジオ、テレビ、ポッドキャスト、音声教育、ボイスメールボックス等の音声ファイルに触れられるようになってきている。音声情報量の増大につれて、ユーザにより所望の音声を検索しその位置を決めることが益々難しくなってきている。

従来のテキスト検索においては、オリジナルデータに索引（index）をつけて検索語の所在位置を迅速に確定している。現在、主流となっている方法としては、単語を単位として転置ファイルを作成し、各ファイルは、一連の単語からなっており、ユーザから入力される検索条件は、通常、幾つかのキーワードであるため、予めこれらの単語の出現位置を記録しておけば、索引ファイルにおいてこれらの単語を検索することで、これらの単語を含むファイルを検索することができる。

従来の音声検索システムにおいては、音声認識結果及び対応する格子（lattice）情報を用いて音声検索を行うか、格子情報のみで音声検索を行っており、一部の従来の音声検索システムにおいては、テキスト検索方法を組み合わせて用いることで検索速度を向上させているが、このようなシステムは、通常、テキスト検索語しか処理することができない。格子情報の意義としては、音声検索分野において、通常の場合、音声認識により最も好適な１つの結果しか得られないが、格子情報を用いれば、一定の信頼範囲内で複数の音声認識結果を得ることができ、これにより、より多くの選択肢があるため、検索時、より多くの選択肢から検索することができるので、誤認識やＯＯＶ（Out Of Vocabulary）等の問題も一定程度緩和されることである。

ＯＯＶは、辞書範囲を超えていることを示す。音声認識には、音響モデルと言語モデルが用いられるが、これらは人工的に注釈した、実際に使用された言語データで訓練して得られた数学モデルであり、ある発音または用語が言語データに一切出現したことがない場合、音声認識時、それが認識されることができず、これにより、ＯＯＶ問題を招く。よくあるＯＯＶ問題は、主に地名や人名等の語彙に集中されている。

音声ファイルの一部の特徴が音声検索に用いることが考えられ、この一部の特徴は、音素符号、サブワード単位及び音声認識結果を含む。通常、音素符号、サブワード単位及び音声認識結果は、認識プロセスにおいて格子情報が得られる。

音素は、音声における最小の単位であり、音色の角度から分割された最小の音声単位である。音声学と音韻学において、音素とは、話すときの発声である。音素は、具体的に存在する物理現象である。国際音標における音声記号は、全人類言語の音素と一対一の対応関係があり、意義あるテキスト集合である。下記のサブワード単位により音声検索を行う手段と比べて、音素符号により音声検索を行う手段は、効果的にＯＯＶ問題、訓練集不十分や誤認識の問題を緩和することができるが、検索結果に一定のノイズをもたらしている。

サブワード単位は、統計学的意義のある音素符号の組み合わせであり、人類の規則ある発音習慣に適合しており、意義あるテキスト集合である。サブワード単位により音声検索を行う手段は、ＯＯＶ問題、訓練不十分の問題をある程度緩和することができ、誤認識の面においては、下記の音声認識結果より優れているが、音素符号により音声検索を行う手段よりは劣っている。該特徴により、ノイズを緩和することができ、適合率は、音素符号を用いるのより高くなるが、下記の音声認識結果を用いるのよりは低くなる。

音声認識結果は、音声ファイルの、実際の言語意味を有する文字結果であり、可読情報である。音声認識結果により音声検索を行う手段は、ＯＯＶ、非母語と訓練集不十分や誤認識等の問題を招く。該特徴を単独で用いると、以上の問題に対応できない場合がよくある。ＯＯＶ、非母語と訓練集不十分や誤認識等のよくある問題が出現しない場合は、検索の適合率が高くなる。しかし、前記問題が出現した場合は、検索結果がないか、誤検索が現れる。

以下、音声検索の分野における一部の概念について説明する。

適合率（Ｐｒｅｃｉｓｉｏｎ）と再現率（Ｒｅｃａｌｌ）について、再現率は、システムによる全解答の検出能力を示し、適合率は、システムによる正確な解答の検出能力を示しており、両者は、相互補完的な関係があり、２つの異なる側面から全面的にシステムの性能を反映している。

ランク（Ｒａｎｋ）について、検索システムが検索語との論理関係のみで対応する文書を戻すことができ、結果と検索とのより深い関係をより表現する必要がある場合は、ユーザ要求に最も合った結果を前面に表示し、さらに、各種情報を用いて結果のランキングを行う必要もある。現在、リンク分析と内容に基づく演算といった2つの主流技術が分析結果と検索の関連性に用いられ、ランキングに用いられている。

音声分割について、音声ファイルを索引可能な断片に分割することである。

音声データについて、音声検索語や、音声データベースにおける音声ファイルに関わらず、その基層データは文字であり、検索語の文字断片と音声ファイルにおける文字断片とが同一であれば、これは適合していることを示す。適合は、分割を基にして、分割後に形成されるサブワード単位が文字断片である。検索語のサブワード単位次元の文字断片（例えば、「ＡＢＣＤ」）と、音声ファイルにおけるサブワード単位次元の文字断片「ＡＢＣＤ」とは、完全に適合しており、検索語と音声ファイルは、サブワード単位の次元において完全に適合していることになる。完全適合以外に、あいまい適合は、完全同一ではないが、予め定義された受け入れ可能な限度に達したことであり、例えば、文字において７５％同一していれば適合と見なされることを指す。例えば、ＡＢＣＤとＡＢＤＣや、ＡＢＣＤとＡＢＣＥ等がある。その他の次元（例えば、音素符号、音声認識結果）における適合も同様に、完全適合を用いても、予め定義された受け入れ可能な限度のファジーマッチングを用いてもよい。

特許文献１には、音素符号、サブワード単位及びそれに対応の格子情報を用いる音声検索システムが開示されているが、音声認識結果が用いられておらず、音声検索語しか処理することができない。

従来の音声検索技術は、音声の各種特徴を総合的に利用した検索が行われておらず、ＯＯＶ問題、大量の誤認識の問題、非母語問題や訓練集不十分の問題を解決することができず、また、適合率、速度及び耐障害性を同時に向上することができず、さらに、文字検索語と音声検索語を同時に処理することができない。

本発明は、従来技術における前記問題を解決するためになされたもので、音声に関する各種関連特徴を総合的に利用して音声検索単位で音声検索を行う、総合音声検索（HSS）に基づく音声検索装置及び音声検索方法を提供することを目的とする。

本発明の一側面によると、音声データベースから、入力された検索語と適合する音声ファイルを検索する音声検索装置が提供される。この音声検索装置は、音声データベースにおける音声ファイルを音響モデル序列符号、音素符号、サブワード単位、及び音声認識結果に変換する第１の変換装置と、第１の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第１の分割装置と、第１の分割装置により分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第１の音声検索単位を形成する第１の音声検索単位形成装置と、入力された検索語を音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第２の変換装置と、第２の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第２の分割装置と、第２の分割装置により分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第２の音声検索単位を形成する第２の音声検索単位形成装置と、第１及び第２の音声検索単位間の照合を行い、検索語と音声ファイルとの適合度を判定し、該適合度に応じた適合結果を決定する適合装置と、を備える。

本発明の他の側面によると、音声データベースから、入力された検索語と適合する音声ファイルを検索する音声検索方法が提供される。この音声検索方法は、音声データベースにおける音声ファイルを音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第１の変換ステップと、第１の変換ステップにより変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第１の分割ステップと、第１の分割ステップにより分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第１の音声検索単位を形成する第１の音声検索単位形成ステップと、入力された検索語を音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第２の変換ステップと、第２の変換ステップにより変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第２の分割ステップと、第２の分割ステップにより分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第２の音声検索単位を形成する第２の音声検索単位形成ステップと、第１の音声検索単位と第２の音声検索単位との照合を行い、検索語と音声ファイルとの適合度を判定し、該適合度に応じた適合結果を決定する適合ステップと、を有する。

本発明の実施例によれば、音声の各方面の特徴を十分利用し、音声検索単位で検索を行うことで、検索精度及び検索速度を同時に向上させることができるのみならず、検索の耐障害性を向上し、音声認識の適合率を改善することもできる。

本発明の実施例による音声検索装置全体ブロック図である。等時間により分割した音声検索単位を示す図である。音声エネルギにより分割した音声検索単位を示す図である。音声検索単位の適合を示す図である。

次に、添付した図面を参照しながら、本発明の好適な実施形態を詳細に説明する。

図１は、本発明の実施例による音声検索装置全体ブロック図である。

本発明の実施例による音声検索装置は、入力された検索語と適合する音声ファイルを音声ファイルデータベースから検索する。音声ファイルデータベース（音声データベースともいう）は、例えばコンピュータのハードディスク或いはデータベースであってもよく、ローカルエリアネットワーク、インターネット等のネットワークであってもよい。

該音声検索装置は、音声データベースにおける音声ファイルを音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第１の変換装置１１０と、第１の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第１の分割装置１２０と、第１の分割装置により分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第１の音声検索単位を形成する第１の音声検索単位形成装置１３０と、入力された検索語を音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第２の変換装置２１０と、第２の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第２の分割装置２２０と、第２の分割装置により分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第２の音声検索単位を形成する第２の音声検索単位形成装置２３０と、第１及び第２の音声検索単位間の照合を行い、検索語と音声ファイルとの適合度を判定し、該適合度に応じた適合結果を決定する適合装置３００と、を備えている。

第１の変換装置１１０と第２の変換装置２１０は、それぞれ、音声データベースにおける音声ファイルと検索語への変換処理を同一の変換形式で行うことができ、例えば、同様な音声認識技術とベクトル量子化技術を用いることができる。ここで、第１の変換装置１１０と第２の変換装置２１０は、同一の変換装置が異なる対象（音声ファイル、検索語）に対して同一の特徴抽出処理を行う時の論理上の区分と見なされることができる。

同様に、第１の分割装置１２０と第２の分割装置２２０は、それぞれ、第１の変換装置１１０及び第２の変換装置２１０により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割し、例えば、同一の時間分割方式、または同一の音声エネルギ分割方式、または同一の母音/子音分割方法を用いることができる。ここで、第１の分割装置１２０と第２の分割装置２２０は、同一の分割装置が異なる対象（音声ファイルから変換された特徴要素、検索語から変換された特徴要素）に対して同一の分割処理を行う時の論理上の区分と見なされることができる。

第１の音声検索単位形成装置１３０と第２の音声検索単位形成装置２３０は、同一の形成方式により、それぞれ、第１の音声検索単位と第２の音声検索単位を形成し、例えば、各自の音声検索単位において同じ特徴要素の順序で対応の位置に同じ種類の要素を添加し、例えば、後述の適合処理における両者の適合操作のために、音響モデル序列化符号、音素符号、サブワード単位、音声認識結果の順にすることができる。ここで、第１の音声検索単位形成装置１３０と第２の音声検索単位形成装置２３０は、同一の音声検索単位形成装置が異なる対象に対して同一の音声検索単位形成処理を行う時の論理上の区分と見なされることができる。

第１の音声検索単位と、第２の音声検索単位には、さらに文脈情報がそれぞれ含まれても良いが、後述のように、文脈情報の分割及び音声検索単位における添加は、音響モデル序列化符号、音素符号、サブワード単位、音声認識結果のような他の特徴要素に依存しており、前記他の特徴要素の分割には影響を及ぼさない。よって、文脈情報は、第１の音声検索単位と第２の音声検索単位の適合性には影響を及ぼすことがない。

本発明の実施例は、音響モデル序列化符号を音声検索の手段として用いている。音響モデル序列化符号は、ベクトル量子化技術を用いて、音声ファイルのメル周波数ケプストラム係数（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ，ＭＦＣＣ）を序列化することにより生成された検索可能なファイルである。この手段によりＯＯＶ、非母語、訓練集不十分や誤認識等の問題を生じさせないが、検索結果にノイズが発生しやすく、適合率を妨害する恐れがある。適合率の面においては、音素符号を用いて音声検索を行う手段より劣っている。

第１の変換装置１１０は、各種既存の音声認識技術とベクトル量子化技術により、音声ファイルから音響モデル序列化符号（ａｃｏｕｓｔｉｃｆｅａｔｕｒｅｓ）、音素符号（ｐｈｏｎｅｔｉｃｃｏｄｅ）、サブワード（ｓｕｂｗｏｒｄ）単位、及び音声認識結果を抽出し、音声ファイルの変換を実現可能とする。第２の変換装置２１０は、外部から入力された検索語に対して同様の操作を行うことで、音声の各特徴を得ることが可能となる。ここで、音響モデル序列化符号、音素符号、及びサブワード単位は、検索可で閲覧不可の符号であるが、音声認識結果は、検索も閲覧も可能なテキストである。

本発明の実施例において、第１の音声検索単位と第２の音声検索単位は、ともに音声検索単位（ＳｙｍｂｏｌＳｔｒｕｃｔｕｒｅ）であり、音声検索単位は、音声の各特徴を含んだデータ構造であり、音響モデル序列化符号、音素符号、サブワード単位、音声認識結果が保存されたデータ記憶構造であり、また、音声の特徴として文脈情報が含まれてもよい。音声検索単位は、さらに、各音声特徴に対応する時間目盛情報が含まれてもよい。音声検索単位は、本実施例の検索工程における組織単位となっている。前記時間目盛情報は、音声ファイルがどのタイミングまでプレイされた時に、対応の音響モデル序列化符号、音素符号、サブワード単位、音声認識結果単位が現れるかを示すものである。

データ構造として、音声検索単位の内容は、当然クローズされた固定のものではなく、場合に応じて含まれる特徴要素を拡充することができ、例えば、音声ファイルに文脈情報、すなわち上下文情報が存在する場合は、特徴要素として文脈情報が含まれていてもよく、各特徴と対応する時間目盛情報が含まれていてもよい。

音声ファイルに文脈情報が含まれている場合は、第１の変換装置１１０による抽出を行う必要がなく、直接、第１の分割装置１２０により、音声ファイルに含まれている文脈情報への分割を行うことができる。この場合、第１の音声検索単位形成装置１３０は、分割された文脈情報を第１の音声検索単位の要素としている。

音声検索語については、対応の文脈情報がないため、検索語の文脈情報の代わりに、音声認識結果を用いることができる。第２の音声検索単位形成装置２３０は、第２の分割装置２２０により分割された音声認識結果を文脈情報とし、第２の音声検索単位の要素としている。

第１の変換装置１１０は、音声データベースにおける音声ファイルを音響モデル序列化符号、音素符号、サブワード単位、音声認識結果に変換するとともに、音響モデル序列化符号、音素符号、サブワード単位、音声認識結果に対応する音声時間目盛情報を得ることができる。この場合、第１の音声検索単位形成装置１３０は、対応の音声時間目盛情報を第１の音声検索単位における各要素の関連情報として第１の音声検索単位に添加することができる。また、適合結果を出力するときに、適合装置３００は、対応の音声時間目盛情報を適合結果に添加して出力することもできる。

第１の分割装置１２０は、等時間分割方式、音声エネルギ分割方式、または母音/子音分割方式により、前記第１の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果への分割を行う。第２の分割装置２２０は、等時間分割方式、音声エネルギ分割方式、または母音/子音分割方式により、前記第２の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果への分割を行う。

等時間分割方式を選択した場合は、時間定数ＴＬを分割単位とし、他の時間定数ＯＴＬを分割重畳時間とする。ＴＬの長さは、通常、1つの単語の発音時間よりも長く、例えば、該単位として５秒を選択することができる。もちろん、3秒、９秒等の他の時間を選択しても本実施例を実現可能なことは、言うまでもない。ＯＴＬの長さは、ＴＬ/２よりも短く、ＴＬが５秒の場合、例えば１秒とすることができる。もちろん、２秒、０．５秒等の他の時間を選択しても本実施例を実現可能なことは、言うまでもない。ＴＬとＯＴＬを用いて音声への分割を行う。

音声の長さをＴとすると、第１の分割断片は、０秒から、ＴＬとＴのうち最も小さい方までとなる。ＴとＴＬの時間が決定されると、この分割は一定となる。

以後の各断片の開始時間は、前断片の終了点をＴｐｓとした場合、Ｓｎ＝Ｔｐｓ+ＴＬ-ＯＴＬとなる。終了点は、Ｍｉｎ（Ｓｎ+ＴＬ，Ｔ）であり、即ち、Ｓｎ+ＴＬとＴのうち小さい方となる。

文脈情報は、音声ファイルに関連するＷｏｒｄ文書、ＰＰＴ文書或いは人工的な注釈情報である。通常、文脈情報は、微細粒度や正確な時間目盛情報がないため、例えばＰＰＴファイルのページ捲りイベント、マウスクリックイベント等のイベント時間により文脈情報を分割することができる。或いは、人工的に注釈した時間情報により文脈情報を分割し、時間目盛上の対応の第１の音声検索単位へ添加する。このような情報がない又は得られない場合は、文脈情報全体と音声ファイルの各時間とを関連付けし、即ち、文脈情報全体を該音声ファイルの全ての第１の音声検索単位にそれぞれ添加する。

即ち、第１の分割装置１２０は、文脈情報に含まれているイベントの時間目盛或いは注釈の時間目盛により、文脈情報と対応付けられている音声時間目盛情報を判定し、文脈情報にイベントの時間目盛或いは注釈の時間目盛が存在しない場合は、該文脈情報を全ての音声時間目盛情報とそれぞれ対応させる。文脈情報に対応する音声時間目盛情報により、文脈情報への分割を行う。

第１の音声検索単位形成装置１３０と第２の音声検索単位形成装置２３０は、それぞれ各自の音声検索単位を形成し、分割されている音響モデル序列化符号、音素符号、サブワード単位、音声認識結果を要素として音声検索単位に添加する。文脈情報が存在する場合は、該文脈情報も１つの要素として音声検索単位に添加する。音声時間目盛情報が必要な場合は、音声時間目盛情報と対応の要素を関連付けて音声検索単位に添加する。

図２は、等時間により分割した音声検索単位の略図であり、図３は、音声エネルギにより分割した音声検索単位の略図である。

図２と図３においては、例えば最上部に示された音声ファイルに関し、図２では時間目盛Ｔ０〜Ｔ５で音声ファイルの時間を均等に5等分にし、例示的に５つの音声検索単位が分割されるが、図３では、音声エネルギが最小である時間目盛Ｔ０〜Ｔ７で音声ファイルの時間を７分割にしており、Ｔ４〜Ｔ５は音声エネルギが存在しないため、音声が存在しないところは除外され、例示的に６つの音声検索単位が分割される。もちろん、各音声ファイルは、分割情報に応じてその他の数の複数の音声検索単位に形成されてもよい。

図２と図３は、文脈情報が存在し、かつ文脈情報を考慮する場合を仮定しており、音声ファイルの音声モデル序列化符号（ＡＦＣ）、音素符号（ＰＣ）、サブワード単位（ＳＷ）、音声認識結果（Ｗ）及び文脈情報（ＣＤ）等の５つの特徴を抽出して要素とし、各音声検索単位の次元は、ともに５である。なお、各音声検索単位には、それぞれ時間目盛情報が含まれており、適合結果の時間における位置決めが容易となることが分かる。

どのように照合を行うかの説明の前に、先ず、音声データベース及び検索語への選択可能な処理について紹介する。

例えば、音声データベースに対しては、モデル処理装置１００により異なる音響モデルと言語モデルを用いて音声ベータベースにおける音声ファイルへの処理を行うことで、音響モデル序列化符号、音素符号、サブワード単位、音声認識結果等の音声特徴をより十分に利用することができ、単一のモデルによる問題、例えば、言語依存、訓練集不足や辞書範囲を超える等の問題を解消することができる。

英文を例とすると、英文音響モデルは、英文の発音と物理特徴の訓練モデルであり、英文言語モデルは、英文テキストの語意と文法の訓練モデルである。同様に、中文音響モデルと中文言語モデル等もある。

音響モデルと言語モデルにより、音声ファイルの音素符号、サブワード単位、及び音声認識結果を抽出し、本発明の実施例では、2種以上の音響モデルと言語モデルにより、音声データベースにおける音声ファイルの処理を行う。このため、例えば、英文音声の処理を行う場合は、英文音響モデルと英文言語モデルを選択し、中文音声の処理を行う場合は、中文音響モデルと中文言語モデルを選択することができる。

通常の場合、音声ファイルには、中文音声と英文音声のような常用言語が混合されている。このため、本発明の実施例は、このような場合でも効率よく対応し、このような問題を処理するために、音声検索単位を構成する時に、「音声検索単位」＝｛音響モデル序列化符号、英文音素符号、中文音素符号、英語サブワード単位、中文サブワード単位、英文音声認識結果、中文音声認識結果、文脈情報｝といった構成方法を用いている。

このようにして、２種のモデルを同時に用いて音声処理を行うことができる。本実施例における検索は、拡張することができるため、音声検索単位は、５次元から８次元までに変更してもその後の工程に影響を及ぼすことがない。同様の理由で、他の類似の拡張を行うこともできる。

検索語方面において、テキスト検索語については、例えばＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ）技術等の従来のテキストから音声への変換技術により、音声検索語に変換することができるが、音声検索語については、処理を行わない。換言すれば、検索語がテキスト検索語である場合は第２の変換装置２１０により該テキスト検索語を音声検索語に変換する。その後、音声認識技術を用いて検索語の音響モデル序列化符号、音素符号、サブワード単位、音声認識結果等の特徴を得ることができる。当該分野におけるＴＴＳ技術は、音声合成と統計学の方法によりテキストを音声に変換することができる。

次に、本発明の実施例における照合工程について説明する。

本発明の適合装置３００は、第１及び第２の音声検索単位における特徴要素、例えば、音響モデル序列化符号、音素符号、サブワード単位、音声認識結果、及びさらに存在し得る文脈情報のそれぞれの索引を作成する。索引にはさらに音声検索単位の各要素に対応する音声時間目盛が含まれてもよい。テキスト索引のような方法により、音響モデル序列化符号、音素符号、サブワード単位、音声認識結果、文脈情報のそれぞれの索引を作成できるが、通常のテキスト索引と異なる点は、索引には、対応の時間目盛を記録することが可能なことである。

適合装置３００は、第２の音声検索単位における各要素に関し、音声データベースにおける音声ファイルの第１の音声検索単位の中の適合要素をそれぞれ探す適合要素検出装置３１０と、第１の音声検索単位と第２の音声検索単位における適合要素及び適合要素の重み付けにより、該第１の音声検索単位と該第２の音声検索単位の間の単位適合を判定する単位適合判定装置３２０と、検索語の全ての第２の音声検索単位と音声ファイルの全ての第１の音声検索単位とのそれぞれの単位適合に基づき、該検索語と該音声ファイルの適合度を判定し、該適合度により、該検索語と該音声ファイルとの照合を判定し、音声データベース中の適合している音声ファイルを適合結果とする適合結果決定装置３３０と、を備えている。

以上から、第１の音声検索単位と第２の音声検索単位との間で行われる適合は、多次元の適合であることがわかる。各次元には適合或いは非適合の状態があり、各次元における適合は、検索語の音声検索単位と音声ファイルの音声検索単位との間の適合にそれぞれ寄与している。

各次元における適合は、単位適合に対して寄与重みＷを有し、Ｗは、例えば、下記のように定義することができる。

もちろん、重みの定義は、実際の需要によるもので、これに限るものではない。

最終的に検索語がある音声ファイルと適合しているか否かは、検索語の全ての音声検索単位と該音声ファイルの全ての音声検索単位との適合度がある所定の閾値に達しているか否かにより決められる。検索語の第２の音声検索単位と音声ファイルの各第１の音声検索単位との適合度の重みの和が閾値に達していると、該検索語と該音声ファイルは適合していると見なされる。

図４は、音声検索単位の単位適合を示した図である。

ＡＦＣ、ＰＣ、ＳＷ、Ｗは、それぞれ音声認識技術により抽出した検索語の音響モデル序列化符号、音素符号、サブワード単位、音声認識結果などの特徴要素を示しており、音声認識結果により文脈情報に添加されている。図には、該検索語に５つの第２の音声検索単位が含まれていることが示されている。適合要素検出装置３１０は、索引によりこれらの第２の音声検索単位の要素と適合するある音声ファイルの第１の音声検索単位の要素、例えば、図４で符号
（外１）

で示された位置の要素を検出する。例えば、ここで、各次元の重みをそれぞれ１とし、２つ以上の要素が適合していると、音声検索単位が適合していると判定される。図４に示されたように、単位適合判定装置３２０は、音声ファイルと検索語が適合する音声検索単位を、（Ｔ１〜Ｔ２）と（Ｔ２〜Ｔ３）と対応する音声検索単位と判定する。

適合結果決定装置３３０は、第２の音声検索単位と第１の音声検索単位との単位適合の状況から検索語と音声ファイルとの適合度を判定し、該適合度により、検索語と音声ファイルとが適合しているか否かを判定する。さらに、適合度に応じて適合結果をランキングして出力するようにしてもよい。音声検索語に音声時間目盛を記録する場合は、検索した音声ファイルにおいて、入力された検索語と適合するタイミングを容易に位置決めすることができる。

検索語と音声ファイルの適合度は、各種手段により判定することができる。

先ず、下記式（１）により検索語Ｑとある音声ファイルＳとの音声検索単位レベル上の適合頻度（ＳｙｍｂｏｌＳｔｒｕｃｔｕｒｅＦｒｅｑｕｅｎｃｙ（ＳＳＦ））を計算する。

式中、ｍは該音声ファイルＳの第１の音声検索単位と該検索語Ｑの第２の音声検索単位とが適合する数を示し、Ｓｎは、該音声ファイルにおいて、分割された第１の音声検索単位の総数を示す。

次に、下記式（２）により、音声データベースの全ての音声ファイルにおける該検索語Ｑの倒置音声検索単位頻度（ＩｎｖｅｒｓｅＳｙｍｂｏｌＳｔｒｕｃｔｕｒｅＦｒｅｑｕｅｎｃｙ（ＩＳＳＯＦ））を計算する。

Ｎは、音声データベースにおける音声ファイルの総数を示し、ｐ（Ｑ）は、音声データベースにおける検索語Ｑと適合する音声ファイルの総数を示す。

下記式（３）から、ＳＳＦとＩＳＳＯＦにより検索語Ｑに関するある音声ファイルＳの得点（score）を計算する。

Ｓｎは、該音声ファイルＳの第１の音声検索単位の数を示し、ａｖｇＳｌは、音声データベースにおける全ての音声ファイルの音声検索単位の平均数を示す。

ｋ１とｂは、経験パラメータであり、ｋ１＝２．０、ｂ＝０．７５・ＩＳＳＯＦ（Ｑ）とすることができる。もちろん、ｋ１とｂの値は、これらに限られるものではなく、例えば、ｋ１＝１・５または２．５、ｂ＝０．５０・ＩＳＳＯＦ（Ｑ）または１・ＩＳＳＯＦ（Ｑ）としてもよい。

ＳＣＯＲＥ（Ｓ，Ｑ）により、入力された検索語と適合する全ての音声ファイルがランキングされ、今回検索した結果リストが得られる。

この工程は、ＢＭ２５テキスト検索方法から進化したものであるが、照合を行う方法は、これに限らず、ブール検索、ベクトル空間モデル及びあいまい検索等の方法を用いてもよい。

例えば、プール検索モデルを用いる場合は、下記式（４）により検索語Ｑに関するある音声ファイルＳの得点ＳＣＯＲＥ（Ｓ，Ｑ）を計算する。

また、例えば、ベクトル空間モデルを用いる場合は、音声データベースにおける全ての音声ファイルの全音声検索単位の集合を音声検索単位辞書とし、該音声検索単位辞書は下記式（５）で表される。

音声検索単位辞書を１つのベクトル空間とすると、入力された検索語Ｑを空間全体のベクトル
（外２）

に変換することができ、同様に、ある音声ファイルＳもこの空間のベクトル
（外３）

に示すことができる。下記式（６）により検索語Ｑに関するある音声ファイルＳの得点ＳＣＯＲＥ（Ｓ，Ｑ）を計算する。

ここで、「●」は、ベクトルの内積を示し、「×」は、ベクトルの外積を示し、「｜｜」は、ベクトルの絶対値を示す。

以下、音声検索単位辞書

について説明する。音声データベースに３つの音声ファイルＳ１，Ｓ２，Ｓ３があるとし、Ｓ１を｛ＳＳ_１、ＳＳ_２、ＳＳ_３｝の３つの第１の音声検索単位に分割し、Ｓ２を｛ＳＳ_２、ＳＳ_４、ＳＳ_５｝の３つの第１の音声検索単位に分割し、Ｓ３を｛ＳＳ_１、ＳＳ_４、ＳＳ_５、ＳＳ_６｝の４つの第１の音声検索単位に分割し、検索語Ｑを｛ＳＳ_２、ＳＳ_４、ＳＳ_６｝の３つの第２の音声検索単位に分割した場合、

となり、全ての音声データベースが１つの６次元空間となる。

Ｓ１のスペクトル化結果は、｛１，１，１，０，０，０｝であり、Ｓ２のスペクトル化結果は、｛０，１，０，１，１，０｝であり、Ｓ３のスペクトル化結果は、｛１，０，０，１，１，１｝であり、Ｑのスペクトル化結果は、｛０，１，０，１，０，１｝である。

このように、２つのベクトルの夾角のコサイン値、即ち式（６）を用いて、ＱとＳ１、Ｓ２及びＳ３との得点ＳＣＯＲＥ（Ｓ１，Ｑ）、ＳＣＯＲＥ（Ｓ２，Ｑ）及びＳＣＯＲＥ（Ｓ３，Ｑ）を算出することができ、値が小さいほど、適合度は高くなる。式（６）により計算したのは、２つのベクトル
（外４）

の夾角のコサイン値である。該値は、０〜１の範囲内にあり、０は、角度が０度で、非常に類似していることを示し、１は、角度が９０度で、まったく無関係であることを示す。

入力された検索語がテキスト検索語である場合、テキスト検索語を複数のサブ検索語に細分し、サブ検索語をそれぞれ音声検索語に変換する。この場合、各サブ検索語から変換された音声検索語に対して本実施例の操作をそれぞれ行い、それから、各サブ検索語から変換された音声検索語の得点の和を求めることにより、ある音声ファイルの該元検索語に関する得点とすることができ、該得点をランキングに用いることができる。テキスト検索語のサブ検索語への細分操作は、各種従来技術により行うことができる。例えば、英語、仏語等の言語に対しては、入力されたスペースで細分を行い、中文、日本語等の言語に対しては、統計規則または文法規則で細分を行うことができる。入力された検索語が音声検索語である場合は、通常、サブ検索語に細分化する必要はない。

さらに、本発明は、音声データベースから、入力された検索語と適合する音声ファイルを検索する音声検索方法を提供する。この音声検索方法は、データベースにおける音声ファイルを音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第１の変換ステップと、第１の変換ステップにより変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第１の分割ステップと、第１の分割ステップにより分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第１の音声検索単位を形成する第１の音声検索単位形成ステップと、入力された検索語を音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第２の変換ステップと、第２の変換ステップにより変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第２の分割ステップと、第２の分割ステップにより分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第２の音声検索単位を形成する第２の音声検索単位形成ステップと、第１の音声検索単位と第２の音声検索単位との照合を行い、検索語と音声ファイルとの適合度を判定し、該適合度に応じた適合結果を決定する適合ステップと、を有する。

第１の分割ステップでは、さらに、前記音声ファイルに含まれる文脈情報への分割を行い、第１の音声検索単位形成ステップでは、さらに、分割した文脈情報を第１の音声検索単位の要素とし、第２の音声検索単位形成ステップでは、第２の分割装置により分割した音声認識結果を文脈情報とし、第２の音声検索単位の要素とする。

第１の変換ステップでは、音声データベースにおける音声ファイルを音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換するとともに、音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に対応する音声時間目盛情報を得ており、第１の音声検索単位形成ステップでは、さらに、対応する音声時間目盛情報を第１の音声検索単位に添加し、第１の音声検索単位における各要素の関連情報とし、適合ステップでは、対応する音声時間目盛情報を適合結果に添加して出力する。

なお、適合ステップでは、さらに、適合度により、適合結果をランキングして出力する。

また、モデル処理ステップを用いて、前記モデル処理装置１００により、異なる音響モデルと言語モデルを用いて音声データベースにおける音声ファイルへの処理を行うことができる。

第１の分割ステップでは、文脈情報に含まれるイベントの時間目盛又は注釈の時間目盛により、文脈情報に対応する音声時間目盛情報を判定し、文脈情報にイベントの時間目盛及び注釈の時間目盛が存在しない場合は、該文脈情報を全ての音声時間目盛情報とそれぞれ対応させる。

検索語がテキスト検索語である場合は、第２の変換ステップにおいて、該テキスト検索語を音声検索語に変換する。

第１の分割ステップでは、等時間分割方式、音声エネルギ分割方式、または母音/子音分割方式により、前記第１の変換ステップにより変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に対して分割を行う。第２の分割ステップでは、等時間分割方式、音声エネルギ分割方式、または母音/子音分割方式により、前記第２の変換ステップにより変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に対して分割を行う。

適合ステップは、適合要素検出ステップと、単位適合判定ステップと、適合結果決定ステップを含む。前記適合要素検出ステップは、適合要素検出装置３１０により行われ、第２の音声検索単位の各要素に関し、それぞれ、音声データベースにおける音声ファイルの第１の音声検索単位の中の適合要素を検出する。前記単位適合判定ステップは、前記単位適合判定装置３２０により行われ、第１の音声検索単位と第２の音声検索単位における適合要素及び適合要素の重みにより、該第１の音声検索単位と該第２の音声検索単位との間の単位適合を判定し、適合結果決定ステップは、前記適合結果決定装置３３０により行われ、検索語の全ての第２の音声検索単位と音声ファイルの全ての第１の音声検索単位のそれぞれの単位適合から、該検索語と該音声ファイルの適合度を判定し、該適合度により、該検索語と該音声ファイルとの照合を判断し、音声データベースの中の適合している音声ファイルを適合結果とする。

明細書に説明した一連の操作は、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアの組み合わせにより行うことができる。ソフトウェアによりこの一連の操作を行う場合は、プログラムを、専用のハードウェアを内蔵したコンピュータの記憶装置にインストールし、コンピュータに該プログラムを実行させることができる。あるいは、プログラムを、多様な種類の処理が実行可能な汎用コンピュータにインストールし、該コンピュータにプログラムを実行させることができる。

例えば、プログラムを予め記録媒体であるハードディスクやＲＯＭ等に記憶しておいてもよい。或いは、一時的にまたは永久的にフロッピディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ディスク、半導体メモリ等の移動可能な記録媒体に記憶しておいてもよい。このような移動可能な記録媒体をパッケージソフトウェアとして提供することができる。

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の範囲に属する。

米国特許第7542966号

Claims

音声データベースから、入力された検索語と適合する音声ファイルを検索する音声検索装置であって、
音声データベースにおける音声ファイルを音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第１の変換装置と、
第１の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第１の分割装置と、
第１の分割装置により分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第１の音声検索単位を形成する第１の音声検索単位形成装置と、
入力された検索語を音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第２の変換装置と、
第２の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第２の分割装置と、
第２の分割装置により分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第２の音声検索単位を形成する第２の音声検索単位形成装置と、
第１及び第２の音声検索単位間の照合を行い、入力された検索語と音声ファイルとの適合度を判定し、該適合度に応じた適合結果を決定する適合装置と、
を備えることを特徴とする音声検索装置。
前記第1の分割装置は、さらに、前記音声ファイルに含まれる文脈情報の分割を行い、
前記第１の音声検索単位形成装置は、さらに、分割した文脈情報を第１の音声検索単位の要素とし、
前記第２の音声検索単位形成装置は、第２の分割装置により分割した音声認識結果を文脈情報とし、第２の音声検索単位の要素とする、
ことを特徴とする請求項１に記載の音声検索装置。
前記第１の変換装置は、音声データベースにおける音声ファイルを音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換するとともに、音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に対応する音声時間目盛情報を取得し、
前記第１の音声検索単位形成装置は、さらに、対応する音声時間目盛情報を第１の音声検索単位に添加し、第１の音声検索単位における各要素の関連情報とし、
前記適合装置は、対応する音声時間目盛情報を適合結果に添加し出力する、
ことを特徴とする請求項１又は2に記載の音声検索装置。
前記適合装置は、さらに、適合度に応じて適合結果をランキングし出力する、
ことを特徴とする請求項１又は２に記載の音声検索装置。
異なる音響モデル及び言語モデルを用いて、音声データベースにおける音声ファイルに対して処理を行うモデル処理装置をさらに備える、
ことを特徴とする請求項１又は２に記載の音声検索装置。
前記第１の分割装置は、文脈情報に含まれるイベントの時間目盛又は注釈の時間目盛により、文脈情報に対応する音声時間目盛情報を判定し、文脈情報にイベントの時間目盛及び注釈の時間目盛が存在しない場合は、該文脈情報を全ての音声時間目盛情報とそれぞれ対応させる、
ことを特徴とする請求項３に記載の音声検索装置。
前記検索語がテキスト検索語である場合は、前記第２の変換装置により、該テキスト検索語を音声検索語に変換する、
ことを特徴とする請求項１又は２に記載の音声検索装置。
前記第１の分割装置は、等時間分割方式、音声エネルギ分割方式、又は母音/子音分割方式により、前記第１の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に対して分割を行い、
前記第２の分割装置は、等時間分割方式、音声エネルギ分割方式、又は母音/子音分割方式により、前記第２の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に対して分割を行う、
ことを特徴とする請求項１又は２に記載の音声検索装置。
前記適合装置は、
第２の音声検索単位における各要素に関し、音声データベースにおける音声ファイルの第１の音声検索単位の中の適合している要素をそれぞれ検出する適合要素検出装置と、
第１の音声検索単位と第２の音声検索単位における適合要素及び適合要素の重みにより、該第１の音声検索単位と該第２の音声検索単位との間の単位適合を判断する単位適合判定装置と、
検索語の全ての第２の音声検索単位と音声ファイルの全ての第１の音声検索単位のそれぞれの単位適合により、該検索語と該音声ファイルの適合度を判定し、該適合度により、該検索語と該音声ファイルとの適合を判断し、音声データベースにおける適合している音声ファイルを適合結果とする適合結果決定装置と、
を備えることを特徴とする請求項１又は２に記載の音声検索装置。
音声データベースから、入力された検索語と適合する音声ファイルを検索する音声検索方法であって、
音声データベースにおける音声ファイルを音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第１の変換ステップと、
第１の変換ステップにより変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第１の分割ステップと、
第１の分割ステップにより分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第１の音声検索単位を形成する第１の音声検索単位形成ステップと、
入力された検索語を音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第２の変換ステップと、
第２の変換ステップにより変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第２の分割ステップと、
第２の分割ステップにより分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第２の音声検索単位を形成する第２の音声検索単位形成ステップと、
第１の音声検索単位と第２の音声検索単位との照合を行い、検索語と音声ファイルとの適合度を判定し、該適合度に応じた適合結果を決定する適合ステップと、
を有することを特徴とする音声検索方法。