JP4728972B2

JP4728972B2 - インデキシング装置、方法及びプログラム

Info

Publication number: JP4728972B2
Application number: JP2007007947A
Authority: JP
Inventors: 誠広畑
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-01-17
Filing date: 2007-01-17
Publication date: 2011-07-20
Anticipated expiration: 2027-01-17
Also published as: JP2008175955A; US20080215324A1; US8145486B2

Description

本発明は、音声信号に対して索引を付与するインデキシング装置、インデキシング方法およびインデキシングプログラムに関する。

複数の参加者からなる会議や番組等で視聴支援を行う手段として、話者インデキシング（以下、インデキシングという）が用いられている。インデキシングとは、話者から発せられた音声信号に対し、いつ、誰が、どの位の時間発言したのか、といった話者情報を記した索引を、対応する音声信号部分に付与する技術であり、これにより、特定話者の発言検索や、意見交換の活発な時間帯の検出等を容易化することが可能となっている。

インデキシングは、細かく分割した音声信号を、その特徴が類似するもの同士で纏め、纏められた信号区間を同一の話者による発声とみなすことで行われている。このとき、分割された音声信号を特徴づけるため、例えば、特許文献１では、複数の区間に分割した音声信号の夫々から、音声特徴量によって表現される音響モデルを生成している。そして、各音響モデルに対する、分割した各音声信号の類似度を調べるための尤度を導出し、この尤度を成分とするようなベクトルを、その音声信号の話者性を特徴づける指標として用いている。この技術では、同一の話者による発声に対しては、特定の音響モデルに対しての尤度が高くなり、類似したベクトルとなる。このベクトルの類似性を用いることにより、同じ話者であるという判定を行っている。

特開２００６−８４８７５号公報

しかしながら、特許文献１の技術では、音響モデルの生成に用いる音声信号に複数の話者の音声が含まれていた場合、異なる話者による発声同士が共通の音響モデルに対して高い尤度を持つ等の不具合が発生するという問題がある。この場合、異なる話者による発声を区別するのに不適切な特徴づけ（ベクトル生成）が行われてしまうため、結果的にインデキシングの精度を劣化させてしまう可能性がある。

本発明は上記に鑑みてなされたものであって、インデキシングの精度を向上させることが可能なインデキシング装置、方法及びプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、複数の話者の音声が含まれた音声信号から、各話者の話者性を表す音声特徴量を所定の時間長毎に抽出する抽出手段と、前記音声特徴量を所定時間長からなる第１区間毎に分割する第１分割手段と、前記第１区間毎に、当該第１区間に含まれる音声特徴量に基づいて第１音響モデルを生成する第１音声モデル生成手段と、連続する所定数分の前記第１区間を一の領域として順次設定し、当該領域毎の類似度を、各領域に含まれる前記第１区間の第１音響モデルに基づいて算出する類似度算出手段と、前記類似度が所定値以上となる領域を学習領域として抽出する領域抽出手段と、前記学習領域毎に、当該学習領域に含まれる音声特徴量に基づいて第２音響モデルを生成する第２音響モデル生成手段と、前記音声特徴量を所定時間長からなる第２区間毎に分割する第２分割手段と、前記学習領域毎の第２音響モデルと前記第２区間毎の音声特徴量とを用いて、各第２区間に固有の特徴ベクトルを夫々導出する特徴ベクトル導出手段と、前記特徴ベクトルのベクトル成分に基づいて、各特徴ベクトルに対応する前記第２区間毎の音声特徴量を話者毎に分類するクラスタリング手段と、前記クラスタリング手段による分類結果に基づいて、対応する前記音声信号部分に話者を分類するための情報を含んだ話者情報を付与するインデキシング手段と、を備える。

また、本発明は、複数の話者の音声が含まれた音声信号から、各話者の話者性を表す音声特徴量を所定の時間間隔毎に抽出する抽出工程と、前記音声特徴量を所定時間長からなる第１区間毎に分割する第１分割工程と、前記第１区間毎に、当該第１区間に含まれる音声特徴量に基づいて第１音響モデルを生成する第１音声モデル生成工程と、連続する所定数分の前記第１区間を一の領域として順次設定し、当該領域毎の類似度を、各領域に含まれる前記第１区間の第１音響モデルに基づいて算出する類似度算出工程と、前記類似度が所定値以上となる領域を学習領域として抽出する領域抽出工程と、前記学習領域毎に、当該学習領域に含まれる音声特徴量に基づいて第２音響モデルを生成する第２音響モデル生成工程と、前記音声特徴量を所定時間長からなる第２区間毎に分割する第２分割工程と、前記学習領域毎の第２音響モデルと前記第２区間毎の音声特徴量とを用いて、各第２区間に固有の特徴ベクトルを夫々導出する特徴ベクトル導出工程と、前記特徴ベクトルのベクトル成分に基づいて、各特徴ベクトルに対応する前記第２区間毎の音声特徴量を話者毎に分類するクラスタリング工程と、前記クラスタリング工程による分類結果に基づいて、対応する前記音声信号部分に話者を分類するための情報を含んだ話者情報を付与するインデキシング工程と、を含む。

また、本発明は、コンピュータに、複数の話者の音声が含まれる音声信号から、各話者の話者性を表す音声特徴量を所定の時間間隔毎に抽出する抽出機能と、前記音声特徴量を所定時間長からなる第１区間毎に分割する第１分割機能と、前記第１区間毎に、当該第１区間に含まれる音声特徴量に基づいて第１音響モデルを生成する第１音声モデル生成機能と、連続する所定数分の前記第１区間を一の領域として順次設定し、当該領域毎の類似度を、各領域に含まれる前記第１区間の第１音響モデルに基づいて算出する類似度算出機能と、前記類似度が所定値以上となる領域を学習領域として抽出する領域抽出機能と、前記学習領域毎に、当該学習領域に含まれる音声特徴量に基づいて第２音響モデルを生成する第２音響モデル生成機能と、前記音声特徴量を所定時間長からなる第２区間毎に分割する第２分割機能と、前記学習領域毎の第２音響モデルと前記第２区間毎の音声特徴量とを用いて、各第２区間に固有の特徴ベクトルを夫々導出する特徴ベクトル導出機能と、前記特徴ベクトルのベクトル成分に基づいて、各特徴ベクトルに対応する前記第２区間毎の音声特徴量を話者毎に分類する機能と、前記クラスタリング機能による分類結果に基づいて、対応する前記音声信号部分に話者を分類するための情報を含んだ話者情報を付与するインデキシング機能と、を実現させる。

本発明によれば、複数の話者の音声が混合している時間帯から音響モデルを生成する可能性を減らすことができるため、異なる話者の音声の区別が困難となる状況を防ぐことができ、結果として、音響モデル即ちインデキシングの精度を向上させることが可能となる。また、分割した複数の区間を一つの音響モデルの生成に利用することで、従来よりも多くの情報を一つの音響モデルに含めることが可能になるため、より高精度なインデキシングを実現することができる。

以下に添付図面を参照して、インデキシング装置、方法及びプログラムの最良な実施形態を詳細に説明する。

［第１の実施形態］
図１は、インデキシング装置１００のハードウェア構成を示したブロック図である。図１に示すとおり、インデキシング装置１００は、ＣＰＵ（Central Processing Unit）１０１、操作部１０２、表示部１０３、ＲＯＭ（Read Only Memory）１０４、ＲＡＭ（Random Access Memory）１０５、音声入力部１０６、記憶部１０７等を備え、各部はバス１０８により接続されている。

ＣＰＵ１０１は、ＲＡＭ１０５の所定領域を作業領域として、ＲＯＭ１０４に予め記憶された各種制御プログラムとの協働により各種処理を実行し、インデキシング装置１００を構成する各部の動作を統括的に制御する。

また、ＣＰＵ１０１は、ＲＯＭ１０４に予め記憶された所定のプログラムとの協働により、後述する音声特徴量抽出部１１、音声特徴量分割部１２、第１音響モデル生成部１３、学習領域抽出部１４、第２音響モデル生成部１５、特徴ベクトル導出部１６、クラスタリング部１７及びインデキシング部１８（図２参照）の各機能部を実現させる。なお、各機能部の動作については後述する。

操作部１０２は、各種入力キー等を備え、ユーザから操作入力された情報を入力信号として受け付け、その入力信号をＣＰＵ１０１に出力する。

表示部１０３は、ＬＣＤ（Liquid Crystal Display）等の表示手段により構成され、ＣＰＵ１０１からの表示信号に基づいて、各種情報を表示する。なお、表示部１０３は、操作部１０２と一体的にタッチパネルを構成する態様としてもよい。

ＲＯＭ１０４は、インデキシング装置１００の制御にかかるプログラムや各種設定情報等を書き換え不可能に記憶する。

ＲＡＭ１０５は、ＳＤＲＡＭ等の記憶手段であって、ＣＰＵ１０１の作業エリアとして機能し、バッファ等の役割を果たす。

音声入力部１０６は、話者等から発せられる音声を電気信号に変換し、音声信号としてＣＰＵ１０１に出力するものである。音声入力部１０６は、一般的に用いられているマイクロフォン等の集音装置を用いることができる。

記憶部１０７は、磁気的又は光学的に記録可能な記憶媒体を有し、音声入力部１０６を介して取得された音声信号や、図示しない通信部やＩ／Ｆ（インターフェース）等を介して外部から入力される音声信号等のデータを記憶する。また、記憶部１０７は、後述するインデキシング処理によりラベル（索引）が付与された音声信号を記憶する。

図２は、インデキシング装置１００の機能構成を示したブロック図である。図２に示すとおり、インデキシング装置１００は、音声特徴量抽出部１１、音声特徴量分割部１２、第１音響モデル生成部１３、学習領域抽出部１４、第２音響モデル生成部１５、特徴ベクトル導出部１６、クラスタリング部１７及びインデキシング部１８を備えている。

音声特徴量抽出部１１は、音声入力部１０６等を介して入力された音声信号から話者性を表す音声特徴量を一定の時間長ｃ１毎に抽出し、抽出した音声特徴量を音声特徴量分割部１２と特徴ベクトル導出部１６とに出力する。ここで、音声特徴量としては、ＬＰＣケプストラムやＭＦＣＣ等のケプストラム系特徴量を、一定の時間長ｃ１毎に一定の時間長ｃ２分の音声信号から抽出すればよい。なお、時間長ｃ１と時間長ｃ２とはｃ１＜ｃ２の関係を有し、例えば、ｃ１として１０．０ｍｓｅｃ、ｃ２として２５．０ｍｓｅｃ等を設定することが可能である。

音声特徴量分割部１２は、音声特徴量抽出部１１から入力される音声特徴量を、所定時間長からなる第１区間毎に分割する。ここで、音声特徴量分割部１２は、分割単位となる第１区間が、一定の時間長ｃ３となるよう設定し、第１区間毎の音声特徴量と時刻情報（開始時刻と終了時刻）とを第１音響モデル生成部１３に出力する。ここで、第１区間の時間長ｃ３は、一の話者による一般的な発話時間より短い時間と設定することで（例えば、２．０ｓｅｃ等）、第１区間を一人の話者の音声特徴量のみで構成されるようにすることが好ましい。

第１音響モデル生成部１３は、音声特徴量分割部１２から第１区間分の音声特徴量が入力される毎に、その音声特徴量から音響モデル（第１音響モデル）を生成し、この生成した第１音響モデルと当該第１音響モデルの生成に用いた第１区間の固有情報（音声特徴量と時刻情報）とを、学習領域抽出部１４に出力する。ここで、時間長ｃ３を２．０ｓｅｃ等、一の話者による一般的な発話時間より短い時間に設定した場合には、ＶＱ（Vector Quantization）コードブック等を用いて音響モデルを生成することが好ましい。

学習領域抽出部１４は、第１音響モデル生成部１３から連続して入力される所定数分の第１区間を、一の領域として順次設定し、これら領域毎の類似度を、当該領域に含まれる第１区間毎の第１音響モデルに基づいて算出する。また、学習領域抽出部１４は、この類似度が所定値以上となる領域を学習領域として抽出し、抽出した学習領域と当該モデル学習領域の固有情報（学習領域に対応する音声特徴量と時刻情報）とを第２音響モデル生成部１５に出力する。

図３は、学習領域抽出部１４の機能構成を示したブロック図である。図３に示すとおり、学習領域抽出部１４は、第１区間入力部１４１、領域設定部１４２、類似度算出部１４３、領域スコア導出部１４４及び学習領域出力部１４５を有している。

第１区間入力部１４１は、第１音響モデル生成部１３から、第１区間に相当する時間長ｃ３毎の第１音響モデルと、当該第１音響モデルの生成に用いた第１区間の固有情報との入力を受け付ける機能部である。

領域設定部１４２は、第１区間入力部１４１を介して入力された連続する所定数分の第1区間を、一の領域として順次設定する。

類似度算出部１４３は、領域設定部１４２により設定された各領域に含まれる第１区間の中から、二つの前記第１区間を選択する全ての組み合わせに対して、両第１区間における音声特徴量の類似度を夫々算出する。

領域スコア導出部１４４は、領域設定部１４２で設定された領域の時刻情報（時間長）と、類似度算出部１４３により算出された類似度とに基づいて、この領域に含まれる音声モデルが一人の話者で構成されている可能性を示す領域スコアを算出する。

学習領域出力部１４５は、領域スコア導出部１４４により算出された領域スコアのうち、極大スコアを持つ領域を学習領域として抽出し、この学習領域と当該学習領域の固有情報（領域に相当する音声特徴量と時刻情報）とを第２音響モデル生成部１５に出力する。

以下、図４及び図５を参照して、学習領域抽出部１４の動作について説明する。ここで、図４は、学習領域抽出部１４の動作例を示した図であり、図５は学習領域抽出部１４による学習領域抽出処理の手順を示したフローチャートである。

まず、第１区間入力部１４１を介し、第１区間ａ₁〜ａ_Kの夫々に対応する時間長ｃ３毎の第１音響モデルと、当該第１音響モデルの生成に用いた第１区間の固有情報とが入力されると（ステップＳ１１）、領域設定部１４２は、第１区間ａ₁〜ａ_Kのうち複数の第１区間で構成される領域ｂ₁〜ｂ_Rを、夫々一の領域として順次設定する（ステップＳ１２）。このとき、図４に示すように、領域同士で幾つかの第１区間が重複する態様としてもよい。各領域の時間長ｃ４は、最低限同じ話者による発声が続くと考えられる程度の長さに設定することが好ましい。これは経験的に設定するものであり、例えば、対話音声を処理する場合、１０．０ｓｅｃ程度は同じ話者が話し続けることがよくあると考えられるため、領域の時間長ｃ４を１０．０ｓｅｃ（第１区間の時間長が２．０ｓｅｃならば、５つの第１区間を一つの領域とみなす）に設定すればよい。

続いて類似度算出部１４３は、処理対象となる領域をカウントする参照番号ｋを１に設定した後（ステップＳ１３）、このｋ番目（初回はｋ＝１）の領域に含まれる２つの第１区間ａ_x、ａ_yを選択する（ステップＳ１４）。

次いで、類似度算出部１４３は、選択した第１区間同士の類似度Ｓ（ａ_x、ａ_y）を算出する（ステップＳ１５）。第１音響モデル生成部１３で生成した音響モデルにＶＱコードブックを利用した場合、下記式（１）、（２）に基づいて、第１区間ａ_xの音声特徴量を用いて第１区間ａ_yのコードベクトルに対するベクトル量子化歪みＤ_y(ａ_x)を計算した後、同様に第１区間ａ_yを用いて第１区間ａ_xに対する歪みＤ_x(ａ_y)を計算し、歪みＤ_y(ａ_x)と歪みＤ_x(ａ_y)の平均値にマイナスをつけた値を類似度Ｓ(ａ_x、ａ_y)とすればよい。

なお、式（２）において、ｄ（ｘ、ｙ）はベクトルｘ、ｙのユークリッド距離、Ｃ^xは区間ａ_xのコードブック、Ｃ^x（ｉ）はｉ番目のコードベクトル、Ｍはコードブックサイズ、ｆ_i ^xは第１区間ａ_xのｉ番目の音声特徴量である。このとき、類似度が高いほど第１区間同士のベクトル量子化歪みが小さく、同じ話者による発声の可能性が高いと考えることができる。

次に、類似度算出部１４３は、処理対象の領域に含まれる全ての第１区間に対し、ステップＳ１４及びステップＳ１５の処理、即ち、２つの第１区間同士の類似度を全ての組み合わせについて算出したか否かを判定する（ステップＳ１６）。ここで、類似度算出部１４３は、全ての組み合わせについて類似度を算出していないと判定した場合（ステップＳ１６；Ｎｏ）、ステップＳ１４に再び戻り、新たな第１区間同士の組み合わせに対して類似度を算出する。

一方、ステップＳ１６において、全ての組み合わせについて類似度を算出したと判定した場合（ステップＳ１６；Ｙｅｓ）、領域スコア導出部１４４、処理対象となったｋ番目の領域の領域スコアを算出する（ステップＳ１７）。ここで領域スコアは、同じ話者の発声である可能性を示す指標であり、例えば、導出した類似度のうち、最小の類似度をその領域スコアとして設定することとしてもよい。

続いて領域スコア導出部１４４は、現在処理対象のｋ番目の領域が最後の領域か否かを判定し、最後の領域でないと判定した場合には（ステップＳ１８；Ｎｏ）、参照番号ｋの値を１インクリメント（ｋ＝ｋ＋１）することで、次の領域を処理対象に設定し（ステップＳ１９）、ステップＳ１４へと再び戻る。

一方、ステップＳ１８において、領域スコア導出部１４４が、現在処理対象の領域が最後の領域と判定した場合には（ステップＳ１８；Ｙｅｓ）、学習領域出力部１４５は、抽出条件を満たす領域を学習領域として抽出する（ステップＳ２０）。そして、学習領域出力部１４５は、抽出した学習領域と当該学習領域の固有情報（領域に相当する音声特徴量と時刻情報）とを第２音響モデル生成部１５に出力し（ステップＳ２１）、本処理を終了する。

ここで、ステップＳ２０での抽出条件は、類似度が極大であり、且つ、閾値ｔｈ１以上である領域を抽出する条件とすることが好ましい。なぜなら、類似度が極大となる領域は、その周辺において同じ話者による発声の可能性の最も高い領域となるためである。さらに、閾値ｔｈ１以上であれば、同じ話者による発声だと判定する基準も満たすことができる。このとき、閾値ｔｈ１は経験的に設定しても良いし、例えば、全ての領域を通じて求めた類似度の平均値としても良い。また、複数の領域の抽出を保障するため、一定時間毎に一つ又は複数の領域を抽出するようにしてもよい。

加えて、様々な時間長ｃ４を持つ領域の抽出を認めてもよい。具体的な抽出方法としては、例えば、時間長ｃ４に対して幾つかのパターンを適用した後、パターンを問わずスコアを計算した全ての領域を対象として抽出処理を行えばよい。このとき、実験タスクによっては、長い発話が多く見受けられるものもあれば、そうでないものもあるため、時間長ｃ４の長い領域を抽出しやすくする、或いは、時間長ｃ４の短い領域を抽出しやすくするといった方針を容易に実現するため、時間長ｃ４の長さに応じた値を導出した類似度に加味することが好ましい。なお、図４の例では、領域ｂ_rが抽出された例を示している。

図２に戻り、第２音響モデル生成部１５は、学習領域抽出部１４により抽出された学習領域毎に、その領域に相当する音声特徴量から音響モデル（第２音響モデル）を生成し、生成した音響モデルを特徴ベクトル導出部１６へ出力する。ここで、第１区間の時間長ｃ３に比べて一領域分の時間長ｃ４は長くなるため、音響モデルの導出にはＧＭＭ（Gaussian Mixture Model）を利用することが好ましい。

特徴ベクトル導出部１６は、第２音響モデル生成部１５から入力される領域毎の第２音響モデルと、音声特徴量抽出部１１から入力される音声特徴量のうち、後述する第２区間に対応する音声特徴量とを用いて、第２区間毎に固有の特徴ベクトルを導出する。また、特徴ベクトル導出部１６は、導出した第２区間毎の特徴ベクトルと当該第２区間毎の時刻情報とを第２区間の固有情報として、クラスタリング部１７に出力する。

以下、図６及び図７を参照して、特徴ベクトル導出部１６の動作について説明する。ここで、図６は、特徴ベクトル導出部１６の動作例を示した図であり、図７は特徴ベクトル導出部１６により実行される特徴ベクトル導出処理の手順を示したフローチャートである。

まず、特徴ベクトル導出部１６は、図６に示したように時間長ｃ５毎に時間長ｃ６分の音声特徴量を第２区間ｄ_kとして設定する（ステップＳ３１）。このとき、例えば、時間長ｃ５は０．５ｓｅｃ、時間長ｃ６は３．０ｓｅｃとすればよい。ただし、時間長ｃ５は時間長ｃ６以下になるように設定し、この時間長ｃ６は各領域の時間長ｃ４以下で、且つ、時間長ｃ３程度の長さとなるように設定を行うものとする。

続いて、特徴ベクトル導出部１６は、最初の第２区間ｄ_kに参照番号ｋ＝１を設定した後（ステップＳ３２）、第２音響モデル生成部１５から入力される第２音響モデルｓ_nのうち、最初の第２音響モデルｓ_nに参照番号ｎ＝１を設定する（ステップＳ３３）。

次に、特徴ベクトル導出部１６は、ｋ番目の第２区間ｄ_kの音声特徴量を用いて、ｎ番目の第２音響モデルｓ_nに対する尤度Ｐ（ｄ_k｜ｓ_n）を算出する（ステップＳ３４）。ここで第２音響モデルｓ_nの生成にＧＭＭを用いていれば、尤度は下記式（３）のように表される。なお、下記式（３）において、ｄｉｍは音声特徴量の次元数、Ｉ_kは第２区間ｄ_kの音声特徴量の数、ｆ_ｉは第２区間ｄ_kのｉ番目の音声特徴量、Ｍ_nは第２音響モデ
ルｓ_nの混合数、ｃ_nm、ｕ_nm、Ｕ_nmはそれぞれ第２音響モデルｓ_nの混合ｍの混合重み係数、平均ベクトル、対角共分散行列を表す。

続いて特徴ベクトル導出部１６は、第２音響モデル生成部１５から入力される全ての第２音響モデルに対し、ステップＳ３４の尤度算出を行ったか否かを判定する（ステップＳ３５）。ここで、未完了の第２音響モデルがあると判定した場合には（ステップＳ３５；Ｎｏ）、特徴ベクトル導出部１６は、次の第２音響モデルに参照番号ｎ＝ｎ＋１を設定することで、次の第２音響モデルを処理対象とした後（ステップＳ３６）、ステップＳ３４へと再び戻る。

一方、ステップＳ３５において、全ての第２音響モデルに対し、尤度を算出したと判定した場合には（ステップＳ３５；Ｙｅｓ）、下記式（４）に基づいて、ｋ番目の第２区間ｄ_kに対し、導出した尤度を成分として持つベクトルを第２区間の特徴を示す特徴ベクトルｖ_kとして生成する（ステップＳ３７）。ここで下記式（４）では、第２音響モデルの数をＮ個としている。なお、特徴ベクトルｖ_kの成分を正規化する等、当該特徴ベクトルｖ_kの形態に加工処理を加えることとしてもよい。

次いで特徴ベクトル導出部１６は、全ての第２区間に対して、特徴ベクトルを作成したか否かを判定する（ステップＳ３８）。ここで、全ての第２区間に対して、特徴ベクトルを生成していないと判定した場合には（ステップＳ３８；Ｎｏ）、次の第２区間に参照番号ｋ＝ｋ＋１を設定することで、次の第２区間を処理対象とした後（ステップＳ３９）、ステップＳ３３へと再び戻る。

一方、ステップＳ３８において、全ての第２区間に対し、特徴ベクトルを生成したと判定した場合には（ステップＳ３８；Ｙｅｓ）、各第２区間の固有情報（特徴ベクトル及び時刻情報）をクラスタリング部１７に出力し（ステップＳ４０）、本処理を終了する。

図２に戻り、クラスタリング部１７は、特徴ベクトル導出部１６から入力された全ての第２区間の特徴ベクトルのうち、類似した特徴ベクトル同士を一つのクラスとして纏め、当該クラスに属した各特徴ベクトルに対応する第２区間に、同一話者として扱うことの可能な同一のＩＤ（クラス番号）を付与する。そして、クラスタリング部１７は、各第２区間の時刻情報とＩＤとをインデキシング部１８に出力する。ここで、特徴ベクトル同士が類似しているか否かの判定は、例えばユークリッド距離による歪みが小さいか否かで判断すればよく、纏める際に利用するアルゴリズムとしては、例えば、公知のｋ−ｍｅａｎｓ法等を用いることとしてもよい。

インデキシング部１８は、クラスタリング部１７から入力される各第２区間の時刻情報とＩＤとから、音声信号を同一のＩＤとなった第２区間単位、即ち、同一話者単位で分割し、各話者に関する情報を含む話者情報をラベル（索引）として、対応する音声信号部分に付与する。

図８−１及び図８−２は、インデキシング部１８の動作を説明するための図である。図８−１に示したように、２つの成分（尤度）を特徴ベクトルとして持つ各第２区間が、クラスタリング部１７により、３つのクラスに分類された場合、インデキシング部１８は、図８−２に示したように、時刻：０から時刻：２×ｃ５まではクラス１のラベルを、時刻：２×ｃ５から時刻：５×ｃ５まではクラス２のラベルを、時刻：５×ｃ５から時刻：７×ｃ５＋ｃ６まではクラス３のラベルを付与する。

ここで、時間長ｃ５の設定値によっては、隣接する第２区間同士に重複する部分が発生する場合がある。この場合、例えば、所属するクラスの平均値との距離が短ければ信頼性が高いとして、信頼性の高い結果を優先して用いればよい。図８−２の例では、第２区間ｄ₂よりも第２区間ｄ₃の方が、第２区間ｄ₅よりも第２区間ｄ₆の方が、信頼性が高いと判断された状態を示している。また、複数の結果が得られた部分に関して、より細かい時間長ｃ７を持つ新たな区間に分割し、分割した新たな区間毎に求めた特徴ベクトルをもとに、属するクラスと対応する時間を求めてもよい。

図９は、本実施形態のインデキシング装置１００によるインデキシング処理の流れを示したフローチャートである。以下、図９を参照して、本実施形態のインデキシング処理について説明する。

まず、音声入力部１０６等を介して音声信号が入力されると（ステップＳ１０１）、音声特徴量抽出部１１は、入力された音声信号から話者性を表す音声特徴量を一定の時間長ｃ１毎に抽出する（ステップＳ１０２）。ここで、抽出された音声特徴量は、音声特徴量抽出部１１により音声特徴量分割部１２及び特徴ベクトル導出部１６に出力される。

続いて音声特徴量分割部１２は、入力された音声特徴量を、所定の時間長ｃ３からなる第１区間毎に分割する（ステップＳ１０３）。ここで、第１区間毎の音声特徴量と時刻情報（開始時刻と終了時刻）とは、第１音響モデル生成部１３に出力される。

次いで、第１音響モデル生成部１３は、第１区間分の音声特徴量が入力される毎に、その音声特徴量から音響モデルを生成する（ステップＳ１０４）。ここで生成された音響モデルは、第１音響モデル生成部１３により、当該音響モデルの生成に用いた第１区間の固有情報（音声特徴量と時刻情報）とともに、学習領域抽出部１４に出力される。

続くステップＳ１０５では、学習領域抽出部１４が、ステップＳ１０４で生成された音響モデルと当該音響モデルに係る第１区間の固有情報とに基づいて、上述した学習領域抽出処理（図５参照）を実行し、同じ話者による発生の可能性が高い領域を学習領域として抽出する（ステップＳ１０５）。ここで、抽出された学習領域は、学習領域抽出部１４により当該学習領域の固有情報（領域に相当する音声特徴量と時刻情報）とともに、第２音響モデル生成部１５に出力される。

次いで、第２音響モデル生成部１５は、ステップＳ１０５で抽出された学習領域毎に、その領域分に対応する音声特徴量から第２音響モデルを生成する（ステップＳ１０６）。ここで、生成された第２音響モデルは、第２音響モデル生成部１５により特徴ベクトル導出部１６に出力される。

続くステップＳ１０７では、特徴ベクトル導出部１６が、ステップＳ１０６で生成された第２音響モデルと、第２区間の音声特徴量とに基づいて、上述した特徴ベクトル導出処理（図７参照）を実行し、当該特徴ベクトル導出処理により第２区間毎の固有情報（特徴ベクトル及び時刻情報）を導出する（ステップＳ１０７）。ここで導出された固有情報は、特徴ベクトル導出部１６によりクラスタリング部１７に出力される。

次いで、クラスタリング部１７は、ステップＳ１０７で取得された全ての特徴ベクトルのうち、類似する特徴ベクトル同士を一つのクラスとして纏め、これらクラス毎に、当該クラスに含まれた各特徴ベクトルに対応する第２区間に、同一話者として扱うことの可能な固有のＩＤを付与する（ステップＳ１０８）。ここで、各第２区間にかかる時刻情報（開始時刻、終了時刻）及びＩＤは、クラスタリング部１７によりインデキシング部１８に出力される。

そして、インデキシング部１８は、第２区間毎の時刻情報及び各第２区間に付与されたＩＤに基づいて、ステップＳ１０１で入力された音声信号を分割し、分割した各音声信号に対し、対応するラベル（索引）を付与した後（ステップＳ１０９）、本処理を終了する。

以上のように、本実施形態によれば、１人の話者による発声のみで構成された音声信号の時間帯を、音声モデルの生成に利用することにより、複数の話者の音声が混合している時間帯から音響モデルを生成する可能性を減らすことができるため、異なる話者の音声の区別が困難となる状況を防ぐことができ、結果として、音響モデル即ちインデキシングの精度を向上させることが可能となる。また、分割した複数の区間を一つの音響モデルの生成に利用することで、従来よりも多くの情報を一つのモデルに含めることが可能になるため、より高精度なインデキシングを実現することができる。

［第２の実施形態］
次に、第２の実施形態のインデキシング装置１００について説明する。なお、上述した第１の実施形態と同様の構成については、同一の符号を付与し、その説明を省略する。

図１０は、第２の実施形態におけるインデキシング装置１００の機能構成を示したブロック図である。図１０に示したように、本実施形態のインデキシング装置１００は、音声特徴量抽出部２１、音声特徴量分割部１２、第１音響モデル生成部１３、学習領域抽出部１４、第２音響モデル生成部２２、特徴ベクトル導出部２３、話者交代検出部２４、特徴ベクトル再導出部２５、クラスタリング部１７、インデキシング部１８から構成される。

なお、図１０において、音声特徴量抽出部２１、第２音響モデル生成部２２、特徴ベクトル導出部２３、話者交代検出部２４及び特徴ベクトル再導出部２５は、音声特徴量分割部１２、第１音響モデル生成部１３、学習領域抽出部１４、クラスタリング部１７及びインデキシング部１８と同様、ＣＰＵ１０１とＲＯＭ１０４に予め記憶された所定のプログラムとの協働により実現される機能部である。

音声特徴量抽出部２１は、抽出した特徴量をさらに特徴ベクトル再導出部２５に出力する。第２音響モデル生成部２２は、生成した領域毎の音響モデルをさらに特徴ベクトル再導出部２５に出力する。また、特徴ベクトル導出部２３は、各第２区間の固有情報（特徴ベクトルと時刻情報）を話者交代検出部２４に出力する。

話者交代検出部２４は、隣接する第２区間同士の類似度をその特徴ベクトルから算出し、発話者が交代した時刻を検出後、検出した時刻情報を特徴ベクトル再導出部２５に出力する。

以下、図１１及び図１２を参照して、話者交代検出部２４の動作について説明する。ここで、図１１は、話者交代検出部２４の動作例を示した図であり、図１２は話者交代検出部２４により実行される話者交代検出処理の手順を示したフローチャートである。

まず、話者交代検出部２４は、特徴ベクトル導出部２３から入力された最初の第２区間の固有情報に対し、参照番号ｐ＝１を設定する（ステップＳ５１）。以下、第２区間の固有情報を第２区間ｄ_pと表す。

次いで話者交代検出部２４は、図１１に示したように、第２区間ｄ_pと第２区間ｄ_pの終了時刻に最も近い開始時刻を持つ第２区間ｄ_qを選択する（ステップＳ５２）。これにより、第２区間ｄ_pと第２区間ｄ_pに隣接する第２区間を選択することができる。なお、ここで時間長ｃ５の定数倍となる値を時間長ｃ６に設定すれば、第２区間ｄ_pの終了時刻と第２区間ｄ_qの開始時刻は同じ時刻となる。

続いて話者交代検出部２４は、第２区間ｄ_pの終了時刻と第２区間ｄ_qの開始時刻の中間となる時刻ｔを算出する（ステップＳ５３）。次に、話者交代検出部２４は、第２区間ｄ_pの特徴ベクトルｖ_pと第２区間ｄ_qの特徴ベクトルｖ_qの類似度を算出し、時刻ｔにおける類似度として設定する（ステップＳ５４）。この類似度は、例えばユークリッド距離にマイナスをつけた値とすればよい。

次いで、話者交代検出部２４は、処理対象となった第２区間ｄ_qが、特徴ベクトル導出部２３から入力された全ての第２区間の中で最後のものか否かを判定する（ステップＳ５５）。ここで、話者交代検出部２４は、処理対象となった第２区間ｄ_qが最後の第２区間でないと判定した場合には（ステップＳ５５；Ｎｏ）、参照番号ｐの値を１インクリメント（ｐ＝ｐ＋１）することで、次の第２区間を処理対象に設定し（ステップＳ５６）、ステップＳ５２の処理へと再び戻る。

一方、ステップＳ５５において、処理対象となった第２区間ｄ_qが最後の第２区間であると判定した場合には（ステップＳ５５；Ｙｅｓ）、話者交代検出部２４は、話者が交代した時刻かどうかを判断する検出条件を満たす類似度を持つ時刻を話者の交代した時刻（交代時刻）として検出する（ステップＳ５７）。そして、話者交代検出部２４は、検出した交代時刻を特徴ベクトル再導出部２５に出力した後（ステップＳ５８）、本処理は終了する。

ここで、検出条件は、類似度が極小であり、且つ、閾値ｔｈ２以下である類似度を検出する条件とすることが好ましい。なぜなら、類似度が極小である時刻はその周辺で最も話者が交代している可能性が高いことを表しており、さらに閾値ｔｈ２以下であれば、比較した第２区間は異なる話者の発声だと判定する基準も満たすことができる。なお、この閾値ｔｈ２は経験的に設定してよい。図１１の例では結果として、３つの話者交代時刻が検出されたことを示している。

図１０に戻り、特徴ベクトル再導出部２５では、まず、話者交代検出部２４から入力される交代時刻に基づいて、音声特徴量抽出部１１から入力される音声特徴量を分割する。また、特徴ベクトル再導出部２５は、音声特徴量を分割することで得られた第３区間を処理対象とし、例えば、第２音響モデル生成部２２から入力される音響モデルを用いて、特徴ベクトル導出部２３と同様の処理により、特徴ベクトルを導出する。そして、特徴ベクトル再導出部２５は、各第３区間の固有情報（特徴ベクトルと時刻情報）をクラスタリング部１７へと出力する。

なお、特徴ベクトルを求める際にあたり、上述した特徴ベクトル導出部２３による特徴ベクトル導出処理とは異なる処理内容により、特徴ベクトルを導出する態様としてもよい。例えば、第３区間の開始時刻と終了時刻との間に、開始時刻と終了時刻とが挟まれる第２区間を列挙した場合には、第３区間の特徴ベクトルを、列挙された第２区間の特徴ベクトルの平均としてもよい。

図１３は、本実施形態のインデキシング装置１００によるインデキシング処理の流れを示したフローチャートである。以下、図１３を参照して、本実施形態のインデキシング処理について説明する。

まず、音声入力部１０６等を介して音声信号が入力されると（ステップＳ２０１）、音声特徴量抽出部２１は、入力された音声信号から話者性を表す音声特徴量を時間長ｃ１毎に抽出する（ステップＳ２０２）。ここで抽出された音声特徴量は、音声特徴量抽出部１１により音声特徴量分割部１２、特徴ベクトル導出部２３及び特徴ベクトル再導出部２５に出力される。

続いて音声特徴量分割部１２は、ステップＳ２０１で抽出された音声特徴量を第１区間毎に分割し、第１区間毎の音声特徴量と時刻情報（開始時刻と終了時刻）とを第１音響モデル生成部１３に出力する（ステップＳ２０３）。

次いで、第１音響モデル生成部１３は、第１区間分の音声特徴量毎に、この音声特徴量から当該第１区間の音響モデルを生成し、この生成した音響モデルと当該音響モデルの生成に用いた第１区間の固有情報（音声特徴量と時刻情報）を、学習領域抽出部１４に出力する（ステップＳ２０４）。

続くステップＳ２０５では、学習領域抽出部１４が、入力された音響モデルと当該音響モデルの生成に用いた第１区間の固有情報とに基づいて、上述した学習領域抽出処理（図５参照）を実行し、同じ話者による発生の可能性が高い領域を学習領域として抽出する（ステップＳ２０５）。ここで、抽出された学習領域は、学習領域抽出部１４により当該学習領域の固有情報（領域に相当する音声特徴量と時刻情報）とともに、第２音響モデル生成部２２に出力される。

次いで、第２音響モデル生成部２２は、ステップＳ２０５で抽出された学習領域毎に、その領域分に対応する音声特徴量から第２音響モデルを生成する（ステップＳ２０６）。ここで生成された第２音響モデルは、第２音響モデル生成部２２により特徴ベクトル導出部２３及び特徴ベクトル再導出部２５に出力される。

続くステップＳ２０７では、特徴ベクトル導出部２３が、ステップＳ２０６で生成された第２音響モデルと、第２区間の音声特徴量とに基づいて、上述した特徴ベクトル導出処理（図７参照）を実行し、当該特徴ベクトル導出処理により第２区間毎の固有情報（特徴ベクトル及び時刻情報）を導出する（ステップＳ２０７）。ここで導出された固有情報は、特徴ベクトル導出部２３により話者交代検出部２４に出力される。

ステップＳ２０８では、話者交代検出部２４が、ステップＳ２０７で導出された第２区間毎の固有情報に基づいて、上述した話者交代検出処理（図１２参照）を実行し、当該話者交代検出処理により検出した交代時刻を特徴ベクトル再導出部２５に出力する（ステップＳ２０８）。

続いて、特徴ベクトル再導出部２５は、ステップＳ２０８で検出された交代時刻に基づいて、ステップＳ１０２で抽出された時間長ｃ１毎の音声特徴量を第３区間毎に分割した後、領域毎の第２音響モデルと、第２区間に対応する音声特徴量とに基づいて、上述した特徴ベクトル導出処理（図７参照）と同様の処理を第３区間について実行し、第３区間毎の固有情報を導出する（ステップＳ２０９）。ここで導出された固有情報は、特徴ベクトル再導出部２５によりクラスタリング部１７に出力される。

次いで、クラスタリング部１７は、ステップＳ２０９で導出された全ての第３区間の特徴ベクトルのうち、類似する特徴ベクトル同士を一つのクラスとして纏め、これらクラス毎に、当該クラスに含まれる特徴ベクトルの第３区間に同一話者として扱うことの可能な固有のＩＤを付与する（ステップＳ２１０）。ここで、第３区間にかかる時刻情報（開始時刻、終了時刻）とＩＤとは、クラスタリング部１７によりインデキシング部１８に出力される。

そして、インデキシング部１８は、入力された各第３区間の時刻情報及びＩＤに基づいて音声信号を分割し、分割した各音声信号に対応するラベル（索引）を付与した後（ステップＳ２１１）、本処理を終了する。

以上のように、本実施形態によれば、上記した第１の実施形態の効果に加え、話者交代検出部２４を導入し、話者の交代した時刻を推定しておくことで、インデキシング部１８から出力される異なるラベル間の境界位置を、より正確に特定することができる。また、交代時刻毎に分割した区間をクラスタリング対象とすることで、各クラスタリング対象は、第２区間の時間長ｃ６より長くなる可能性があるため、より多くの情報を含んだ状態で信頼性の高い特徴づけを行うことが可能となり、より高精度なインデキシングを実現することができる。

以上、発明の実施の形態について説明したが、本発明はこれに限定されるものではなく、本発明の主旨を逸脱しない範囲での種々の変更、置換、追加などが可能である。

インデキシング装置のハードウェア構成を示した図である。第１の実施形態におけるインデキシング装置の機能構成を示した図である。学習領域抽出部の機能構成を示した図である。学習領域抽出部の動作例を示した図である。学習領域抽出部の動作の手順を示したフローチャートである。特徴ベクトル導出部の動作例を示した図である。特徴ベクトル導出部の動作の手順を示したフローチャートである。インデキシング部の動作を説明するための図である。インデキシング部の動作を説明するための図である。第１の実施形態のインデキシング処理の手順を示したフローチャートである。第２の実施形態におけるインデキシング装置の機能構成を示した図である。話者交代検出部の動作例を示した図である。話者交代検出部の動作の手順を示したフローチャートである。第２の実施形態のインデキシング処理の手順を示したフローチャートである。

符号の説明

１００インデキシング装置
１０１ＣＰＵ
１０２操作部
１０３表示部
１０４ＲＯＭ
１０５ＲＡＭ
１０６音声入力部
１０７記憶部
１０８バス
１１音声特徴量抽出部
１２音声特徴量分割部
１３第１音響モデル生成部
１４学習領域抽出部
１４１第１区間入力部
１４２領域設定部
１４３類似度算出部
１４４領域スコア導出部
１４５学習領域出力部
１５第２音響モデル生成部
１６特徴ベクトル導出部
１７クラスタリング部
１８インデキシング部
２１音声特徴量抽出部
２２第２音響モデル生成部
２３特徴ベクトル導出部
２４話者交代検出部
２５特徴ベクトル再導出部

Claims

複数の話者の音声が含まれた音声信号から、各話者の話者性を表す音声特徴量を所定の時間長毎に抽出する抽出手段と、
前記音声特徴量を所定時間長からなる第１区間毎に分割する第１分割手段と、
前記第１区間毎に、当該第１区間に含まれる音声特徴量に基づいて第１音響モデルを生成する第１音声モデル生成手段と、
連続する所定数分の前記第１区間を一の領域として順次設定し、当該領域毎の類似度を、各領域に含まれる前記第１区間の第１音響モデルに基づいて算出する類似度算出手段と、
前記類似度が所定値以上となる領域を学習領域として抽出する領域抽出手段と、
前記学習領域毎に、当該学習領域に含まれる音声特徴量に基づいて第２音響モデルを生成する第２音響モデル生成手段と、
前記音声特徴量を所定時間長からなる第２区間毎に分割する第２分割手段と、
前記学習領域毎の第２音響モデルと前記第２区間毎の音声特徴量とを用いて、各第２区間に固有の特徴ベクトルを夫々導出する特徴ベクトル導出手段と、
前記特徴ベクトルのベクトル成分に基づいて、各特徴ベクトルに対応する前記第２区間毎の音声特徴量を話者毎に分類するクラスタリング手段と、
前記クラスタリング手段による分類結果に基づいて、対応する前記音声信号部分に話者を分類するための情報を含んだ話者情報を付与するインデキシング手段と、
を備えたことを特徴とするインデキシング装置。
前記類似度算出手段は、前記領域内に含まれる複数の前記第１区間の中から、二つの前記第１区間を選択する全ての組み合わせに対して、両第１区間における音声特徴量の類似度を夫々算出し、算出した類似度のうち所定の条件を満たす類似度を、当該領域の類似度とすることを特徴とする請求項１に記載のインデキシング装置。
前記類似度算出手段は、前記第１区間同士の夫々から算出した全ての類似度のうち、最小となる類似度を前記領域の類似度とすることを特徴とする請求項２に記載のインデキシング装置。
前記領域抽出手段は、一又は複数の領域を抽出することを特徴とする請求項１〜３の何れか一項に記載のインデキシング装置。
前記領域抽出手段は、前記領域に含まれる前記第１区間の個数又は当該第１区間の時間長に応じた値を、前記類似度に加味することを特徴とする請求項１〜４の何れか一項に記載のインデキシング装置。
前記特徴ベクトル導出手段は、前記領域毎の類似度に関する情報をベクトル成分とする、前記特徴ベクトルを導出することを特徴とする請求項１に記載のインデキシング装置。
前記第１区間の時間長と第２区間の時間長とが、略同等であることを特徴とする請求項１に記載のインデキシング装置。
前記特徴ベクトルに基づいて話者の交代した交代時刻を検出する交代時刻検出手段と、
前記音声特徴量を前記交代時刻単位の時間長からなる第３区間毎に分割する分割手段と、
前記第３区間毎の音声特徴量と、前記学習領域毎の第２音響モデルとを用いて、前記第３区間毎の音声特徴量の特徴ベクトルをそれぞれ導出する特徴ベクトル再導出手段と、
を更に備え、
前記クラスタリング手段は、前記特徴ベクトル再導出手段により導出された特徴ベクトルを用いて分類することを特徴とする請求項１に記載のインデキシング装置。
前記特徴ベクトル再導出手段は、前記第２音響モデルの類似度に関する情報をベクトル成分とした、前記特徴ベクトルを導出することを特徴とする請求項８に記載のインデキシング装置。
複数の話者の音声が含まれた音声信号から、各話者の話者性を表す音声特徴量を所定の時間間隔毎に抽出する抽出工程と、
前記音声特徴量を所定時間長からなる第１区間毎に分割する第１分割工程と、
前記第１区間毎に、当該第１区間に含まれる音声特徴量に基づいて第１音響モデルを生成する第１音声モデル生成工程と、
連続する所定数分の前記第１区間を一の領域として順次設定し、当該領域毎の類似度を、各領域に含まれる前記第１区間の第１音響モデルに基づいて算出する類似度算出工程と、
前記類似度が所定値以上となる領域を学習領域として抽出する領域抽出工程と、
前記学習領域毎に、当該学習領域に含まれる音声特徴量に基づいて第２音響モデルを生成する第２音響モデル生成工程と、
前記音声特徴量を所定時間長からなる第２区間毎に分割する第２分割工程と、
前記学習領域毎の第２音響モデルと前記第２区間毎の音声特徴量とを用いて、各第２区間に固有の特徴ベクトルを夫々導出する特徴ベクトル導出工程と、
前記特徴ベクトルのベクトル成分に基づいて、各特徴ベクトルに対応する前記第２区間毎の音声特徴量を話者毎に分類するクラスタリング工程と、
前記クラスタリング工程による分類結果に基づいて、対応する前記音声信号部分に話者を分類するための情報を含んだ話者情報を付与するインデキシング工程と、
を含むことを特徴とするインデキシング方法。
コンピュータに、
複数の話者の音声が含まれる音声信号から、各話者の話者性を表す音声特徴量を所定の時間間隔毎に抽出する抽出機能と、
前記音声特徴量を所定時間長からなる第１区間毎に分割する第１分割機能と、
前記第１区間毎に、当該第１区間に含まれる音声特徴量に基づいて第１音響モデルを生成する第１音声モデル生成機能と、
連続する所定数分の前記第１区間を一の領域として順次設定し、当該領域毎の類似度を、各領域に含まれる前記第１区間の第１音響モデルに基づいて算出する類似度算出機能と、
前記類似度が所定値以上となる領域を学習領域として抽出する領域抽出機能と、
前記学習領域毎に、当該学習領域に含まれる音声特徴量に基づいて第２音響モデルを生成する第２音響モデル生成機能と、
前記音声特徴量を所定時間長からなる第２区間毎に分割する第２分割機能と、
前記学習領域毎の第２音響モデルと前記第２区間毎の音声特徴量とを用いて、各第２区間に固有の特徴ベクトルを夫々導出する特徴ベクトル導出機能と、
前記特徴ベクトルのベクトル成分に基づいて、各特徴ベクトルに対応する前記第２区間毎の音声特徴量を話者毎に分類する機能と、
前記クラスタリング機能による分類結果に基づいて、対応する前記音声信号部分に話者を分類するための情報を含んだ話者情報を付与するインデキシング機能と、
を実現させることを特徴とするインデキシングプログラム。