JP4728972B2 - インデキシング装置、方法及びプログラム - Google Patents

インデキシング装置、方法及びプログラム Download PDF

Info

Publication number
JP4728972B2
JP4728972B2 JP2007007947A JP2007007947A JP4728972B2 JP 4728972 B2 JP4728972 B2 JP 4728972B2 JP 2007007947 A JP2007007947 A JP 2007007947A JP 2007007947 A JP2007007947 A JP 2007007947A JP 4728972 B2 JP4728972 B2 JP 4728972B2
Authority
JP
Japan
Prior art keywords
unit
section
acoustic model
region
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007007947A
Other languages
English (en)
Other versions
JP2008175955A (ja
Inventor
誠 広畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007007947A priority Critical patent/JP4728972B2/ja
Priority to US12/007,379 priority patent/US8145486B2/en
Publication of JP2008175955A publication Critical patent/JP2008175955A/ja
Application granted granted Critical
Publication of JP4728972B2 publication Critical patent/JP4728972B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声信号に対して索引を付与するインデキシング装置、インデキシング方法およびインデキシングプログラムに関する。
複数の参加者からなる会議や番組等で視聴支援を行う手段として、話者インデキシング(以下、インデキシングという)が用いられている。インデキシングとは、話者から発せられた音声信号に対し、いつ、誰が、どの位の時間発言したのか、といった話者情報を記した索引を、対応する音声信号部分に付与する技術であり、これにより、特定話者の発言検索や、意見交換の活発な時間帯の検出等を容易化することが可能となっている。
インデキシングは、細かく分割した音声信号を、その特徴が類似するもの同士で纏め、纏められた信号区間を同一の話者による発声とみなすことで行われている。このとき、分割された音声信号を特徴づけるため、例えば、特許文献1では、複数の区間に分割した音声信号の夫々から、音声特徴量によって表現される音響モデルを生成している。そして、各音響モデルに対する、分割した各音声信号の類似度を調べるための尤度を導出し、この尤度を成分とするようなベクトルを、その音声信号の話者性を特徴づける指標として用いている。この技術では、同一の話者による発声に対しては、特定の音響モデルに対しての尤度が高くなり、類似したベクトルとなる。このベクトルの類似性を用いることにより、同じ話者であるという判定を行っている。
特開2006−84875号公報
しかしながら、特許文献1の技術では、音響モデルの生成に用いる音声信号に複数の話者の音声が含まれていた場合、異なる話者による発声同士が共通の音響モデルに対して高い尤度を持つ等の不具合が発生するという問題がある。この場合、異なる話者による発声を区別するのに不適切な特徴づけ(ベクトル生成)が行われてしまうため、結果的にインデキシングの精度を劣化させてしまう可能性がある。
本発明は上記に鑑みてなされたものであって、インデキシングの精度を向上させることが可能なインデキシング装置、方法及びプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、複数の話者の音声が含まれた音声信号から、各話者の話者性を表す音声特徴量を所定の時間長毎に抽出する抽出手段と、前記音声特徴量を所定時間長からなる第1区間毎に分割する第1分割手段と、前記第1区間毎に、当該第1区間に含まれる音声特徴量に基づいて第1音響モデルを生成する第1音声モデル生成手段と、連続する所定数分の前記第1区間を一の領域として順次設定し、当該領域毎の類似度を、各領域に含まれる前記第1区間の第1音響モデルに基づいて算出する類似度算出手段と、前記類似度が所定値以上となる領域を学習領域として抽出する領域抽出手段と、前記学習領域毎に、当該学習領域に含まれる音声特徴量に基づいて第2音響モデルを生成する第2音響モデル生成手段と、前記音声特徴量を所定時間長からなる第2区間毎に分割する第2分割手段と、前記学習領域毎の第2音響モデルと前記第2区間毎の音声特徴量とを用いて、各第2区間に固有の特徴ベクトルを夫々導出する特徴ベクトル導出手段と、前記特徴ベクトルのベクトル成分に基づいて、各特徴ベクトルに対応する前記第2区間毎の音声特徴量を話者毎に分類するクラスタリング手段と、前記クラスタリング手段による分類結果に基づいて、対応する前記音声信号部分に話者を分類するための情報を含んだ話者情報を付与するインデキシング手段と、を備える。
また、本発明は、複数の話者の音声が含まれた音声信号から、各話者の話者性を表す音声特徴量を所定の時間間隔毎に抽出する抽出工程と、前記音声特徴量を所定時間長からなる第1区間毎に分割する第1分割工程と、前記第1区間毎に、当該第1区間に含まれる音声特徴量に基づいて第1音響モデルを生成する第1音声モデル生成工程と、連続する所定数分の前記第1区間を一の領域として順次設定し、当該領域毎の類似度を、各領域に含まれる前記第1区間の第1音響モデルに基づいて算出する類似度算出工程と、前記類似度が所定値以上となる領域を学習領域として抽出する領域抽出工程と、前記学習領域毎に、当該学習領域に含まれる音声特徴量に基づいて第2音響モデルを生成する第2音響モデル生成工程と、前記音声特徴量を所定時間長からなる第2区間毎に分割する第2分割工程と、前記学習領域毎の第2音響モデルと前記第2区間毎の音声特徴量とを用いて、各第2区間に固有の特徴ベクトルを夫々導出する特徴ベクトル導出工程と、前記特徴ベクトルのベクトル成分に基づいて、各特徴ベクトルに対応する前記第2区間毎の音声特徴量を話者毎に分類するクラスタリング工程と、前記クラスタリング工程による分類結果に基づいて、対応する前記音声信号部分に話者を分類するための情報を含んだ話者情報を付与するインデキシング工程と、を含む。
また、本発明は、コンピュータに、複数の話者の音声が含まれる音声信号から、各話者の話者性を表す音声特徴量を所定の時間間隔毎に抽出する抽出機能と、前記音声特徴量を所定時間長からなる第1区間毎に分割する第1分割機能と、前記第1区間毎に、当該第1区間に含まれる音声特徴量に基づいて第1音響モデルを生成する第1音声モデル生成機能と、連続する所定数分の前記第1区間を一の領域として順次設定し、当該領域毎の類似度を、各領域に含まれる前記第1区間の第1音響モデルに基づいて算出する類似度算出機能と、前記類似度が所定値以上となる領域を学習領域として抽出する領域抽出機能と、前記学習領域毎に、当該学習領域に含まれる音声特徴量に基づいて第2音響モデルを生成する第2音響モデル生成機能と、前記音声特徴量を所定時間長からなる第2区間毎に分割する第2分割機能と、前記学習領域毎の第2音響モデルと前記第2区間毎の音声特徴量とを用いて、各第2区間に固有の特徴ベクトルを夫々導出する特徴ベクトル導出機能と、前記特徴ベクトルのベクトル成分に基づいて、各特徴ベクトルに対応する前記第2区間毎の音声特徴量を話者毎に分類する機能と、前記クラスタリング機能による分類結果に基づいて、対応する前記音声信号部分に話者を分類するための情報を含んだ話者情報を付与するインデキシング機能と、を実現させる。
本発明によれば、複数の話者の音声が混合している時間帯から音響モデルを生成する可能性を減らすことができるため、異なる話者の音声の区別が困難となる状況を防ぐことができ、結果として、音響モデル即ちインデキシングの精度を向上させることが可能となる。また、分割した複数の区間を一つの音響モデルの生成に利用することで、従来よりも多くの情報を一つの音響モデルに含めることが可能になるため、より高精度なインデキシングを実現することができる。
以下に添付図面を参照して、インデキシング装置、方法及びプログラムの最良な実施形態を詳細に説明する。
[第1の実施形態]
図1は、インデキシング装置100のハードウェア構成を示したブロック図である。図1に示すとおり、インデキシング装置100は、CPU(Central Processing Unit)101、操作部102、表示部103、ROM(Read Only Memory)104、RAM(Random Access Memory)105、音声入力部106、記憶部107等を備え、各部はバス108により接続されている。
CPU101は、RAM105の所定領域を作業領域として、ROM104に予め記憶された各種制御プログラムとの協働により各種処理を実行し、インデキシング装置100を構成する各部の動作を統括的に制御する。
また、CPU101は、ROM104に予め記憶された所定のプログラムとの協働により、後述する音声特徴量抽出部11、音声特徴量分割部12、第1音響モデル生成部13、学習領域抽出部14、第2音響モデル生成部15、特徴ベクトル導出部16、クラスタリング部17及びインデキシング部18(図2参照)の各機能部を実現させる。なお、各機能部の動作については後述する。
操作部102は、各種入力キー等を備え、ユーザから操作入力された情報を入力信号として受け付け、その入力信号をCPU101に出力する。
表示部103は、LCD(Liquid Crystal Display)等の表示手段により構成され、CPU101からの表示信号に基づいて、各種情報を表示する。なお、表示部103は、操作部102と一体的にタッチパネルを構成する態様としてもよい。
ROM104は、インデキシング装置100の制御にかかるプログラムや各種設定情報等を書き換え不可能に記憶する。
RAM105は、SDRAM等の記憶手段であって、CPU101の作業エリアとして機能し、バッファ等の役割を果たす。
音声入力部106は、話者等から発せられる音声を電気信号に変換し、音声信号としてCPU101に出力するものである。音声入力部106は、一般的に用いられているマイクロフォン等の集音装置を用いることができる。
記憶部107は、磁気的又は光学的に記録可能な記憶媒体を有し、音声入力部106を介して取得された音声信号や、図示しない通信部やI/F(インターフェース)等を介して外部から入力される音声信号等のデータを記憶する。また、記憶部107は、後述するインデキシング処理によりラベル(索引)が付与された音声信号を記憶する。
図2は、インデキシング装置100の機能構成を示したブロック図である。図2に示すとおり、インデキシング装置100は、音声特徴量抽出部11、音声特徴量分割部12、第1音響モデル生成部13、学習領域抽出部14、第2音響モデル生成部15、特徴ベクトル導出部16、クラスタリング部17及びインデキシング部18を備えている。
音声特徴量抽出部11は、音声入力部106等を介して入力された音声信号から話者性を表す音声特徴量を一定の時間長c1毎に抽出し、抽出した音声特徴量を音声特徴量分割部12と特徴ベクトル導出部16とに出力する。ここで、音声特徴量としては、LPCケプストラムやMFCC等のケプストラム系特徴量を、一定の時間長c1毎に一定の時間長c2分の音声信号から抽出すればよい。なお、時間長c1と時間長c2とはc1<c2の関係を有し、例えば、c1として10.0msec、c2として25.0msec等を設定することが可能である。
音声特徴量分割部12は、音声特徴量抽出部11から入力される音声特徴量を、所定時間長からなる第1区間毎に分割する。ここで、音声特徴量分割部12は、分割単位となる第1区間が、一定の時間長c3となるよう設定し、第1区間毎の音声特徴量と時刻情報(開始時刻と終了時刻)とを第1音響モデル生成部13に出力する。ここで、第1区間の時間長c3は、一の話者による一般的な発話時間より短い時間と設定することで(例えば、2.0sec等)、第1区間を一人の話者の音声特徴量のみで構成されるようにすることが好ましい。
第1音響モデル生成部13は、音声特徴量分割部12から第1区間分の音声特徴量が入力される毎に、その音声特徴量から音響モデル(第1音響モデル)を生成し、この生成した第1音響モデルと当該第1音響モデルの生成に用いた第1区間の固有情報(音声特徴量と時刻情報)とを、学習領域抽出部14に出力する。ここで、時間長c3を2.0sec等、一の話者による一般的な発話時間より短い時間に設定した場合には、VQ(Vector Quantization)コードブック等を用いて音響モデルを生成することが好ましい。
学習領域抽出部14は、第1音響モデル生成部13から連続して入力される所定数分の第1区間を、一の領域として順次設定し、これら領域毎の類似度を、当該領域に含まれる第1区間毎の第1音響モデルに基づいて算出する。また、学習領域抽出部14は、この類似度が所定値以上となる領域を学習領域として抽出し、抽出した学習領域と当該モデル学習領域の固有情報(学習領域に対応する音声特徴量と時刻情報)とを第2音響モデル生成部15に出力する。
図3は、学習領域抽出部14の機能構成を示したブロック図である。図3に示すとおり、学習領域抽出部14は、第1区間入力部141、領域設定部142、類似度算出部143、領域スコア導出部144及び学習領域出力部145を有している。
第1区間入力部141は、第1音響モデル生成部13から、第1区間に相当する時間長c3毎の第1音響モデルと、当該第1音響モデルの生成に用いた第1区間の固有情報との入力を受け付ける機能部である。
領域設定部142は、第1区間入力部141を介して入力された連続する所定数分の第1区間を、一の領域として順次設定する。
類似度算出部143は、領域設定部142により設定された各領域に含まれる第1区間の中から、二つの前記第1区間を選択する全ての組み合わせに対して、両第1区間における音声特徴量の類似度を夫々算出する。
領域スコア導出部144は、領域設定部142で設定された領域の時刻情報(時間長)と、類似度算出部143により算出された類似度とに基づいて、この領域に含まれる音声モデルが一人の話者で構成されている可能性を示す領域スコアを算出する。
学習領域出力部145は、領域スコア導出部144により算出された領域スコアのうち、極大スコアを持つ領域を学習領域として抽出し、この学習領域と当該学習領域の固有情報(領域に相当する音声特徴量と時刻情報)とを第2音響モデル生成部15に出力する。
以下、図4及び図5を参照して、学習領域抽出部14の動作について説明する。ここで、図4は、学習領域抽出部14の動作例を示した図であり、図5は学習領域抽出部14による学習領域抽出処理の手順を示したフローチャートである。
まず、第1区間入力部141を介し、第1区間a1〜aKの夫々に対応する時間長c3毎の第1音響モデルと、当該第1音響モデルの生成に用いた第1区間の固有情報とが入力されると(ステップS11)、領域設定部142は、第1区間a1〜aKのうち複数の第1区間で構成される領域b1〜bRを、夫々一の領域として順次設定する(ステップS12)。このとき、図4に示すように、領域同士で幾つかの第1区間が重複する態様としてもよい。各領域の時間長c4は、最低限同じ話者による発声が続くと考えられる程度の長さに設定することが好ましい。これは経験的に設定するものであり、例えば、対話音声を処理する場合、10.0sec程度は同じ話者が話し続けることがよくあると考えられるため、領域の時間長c4を10.0sec(第1区間の時間長が2.0secならば、5つの第1区間を一つの領域とみなす)に設定すればよい。
続いて類似度算出部143は、処理対象となる領域をカウントする参照番号kを1に設定した後(ステップS13)、このk番目(初回はk=1)の領域に含まれる2つの第1区間ax、ayを選択する(ステップS14)。
次いで、類似度算出部143は、選択した第1区間同士の類似度S(ax、ay)を算出する(ステップS15)。第1音響モデル生成部13で生成した音響モデルにVQコードブックを利用した場合、下記式(1)、(2)に基づいて、第1区間axの音声特徴量を用いて第1区間ayのコードベクトルに対するベクトル量子化歪みDy(ax)を計算した後、同様に第1区間ayを用いて第1区間axに対する歪みDx(ay)を計算し、歪みDy(ax)と歪みDx(ay)の平均値にマイナスをつけた値を類似度S(ax、ay)とすればよい。
Figure 0004728972
Figure 0004728972
なお、式(2)において、d(x、y)はベクトルx、yのユークリッド距離、Cxは区間axのコードブック、Cx(i)はi番目のコードベクトル、Mはコードブックサイズ、fi xは第1区間axのi番目の音声特徴量である。このとき、類似度が高いほど第1区間同士のベクトル量子化歪みが小さく、同じ話者による発声の可能性が高いと考えることができる。
次に、類似度算出部143は、処理対象の領域に含まれる全ての第1区間に対し、ステップS14及びステップS15の処理、即ち、2つの第1区間同士の類似度を全ての組み合わせについて算出したか否かを判定する(ステップS16)。ここで、類似度算出部143は、全ての組み合わせについて類似度を算出していないと判定した場合(ステップS16;No)、ステップS14に再び戻り、新たな第1区間同士の組み合わせに対して類似度を算出する。
一方、ステップS16において、全ての組み合わせについて類似度を算出したと判定した場合(ステップS16;Yes)、領域スコア導出部144、処理対象となったk番目の領域の領域スコアを算出する(ステップS17)。ここで領域スコアは、同じ話者の発声である可能性を示す指標であり、例えば、導出した類似度のうち、最小の類似度をその領域スコアとして設定することとしてもよい。
続いて領域スコア導出部144は、現在処理対象のk番目の領域が最後の領域か否かを判定し、最後の領域でないと判定した場合には(ステップS18;No)、参照番号kの値を1インクリメント(k=k+1)することで、次の領域を処理対象に設定し(ステップS19)、ステップS14へと再び戻る。
一方、ステップS18において、領域スコア導出部144が、現在処理対象の領域が最後の領域と判定した場合には(ステップS18;Yes)、学習領域出力部145は、抽出条件を満たす領域を学習領域として抽出する(ステップS20)。そして、学習領域出力部145は、抽出した学習領域と当該学習領域の固有情報(領域に相当する音声特徴量と時刻情報)とを第2音響モデル生成部15に出力し(ステップS21)、本処理を終了する。
ここで、ステップS20での抽出条件は、類似度が極大であり、且つ、閾値th1以上である領域を抽出する条件とすることが好ましい。なぜなら、類似度が極大となる領域は、その周辺において同じ話者による発声の可能性の最も高い領域となるためである。さらに、閾値th1以上であれば、同じ話者による発声だと判定する基準も満たすことができる。このとき、閾値th1は経験的に設定しても良いし、例えば、全ての領域を通じて求めた類似度の平均値としても良い。また、複数の領域の抽出を保障するため、一定時間毎に一つ又は複数の領域を抽出するようにしてもよい。
加えて、様々な時間長c4を持つ領域の抽出を認めてもよい。具体的な抽出方法としては、例えば、時間長c4に対して幾つかのパターンを適用した後、パターンを問わずスコアを計算した全ての領域を対象として抽出処理を行えばよい。このとき、実験タスクによっては、長い発話が多く見受けられるものもあれば、そうでないものもあるため、時間長c4の長い領域を抽出しやすくする、或いは、時間長c4の短い領域を抽出しやすくするといった方針を容易に実現するため、時間長c4の長さに応じた値を導出した類似度に加味することが好ましい。なお、図4の例では、領域brが抽出された例を示している。
図2に戻り、第2音響モデル生成部15は、学習領域抽出部14により抽出された学習領域毎に、その領域に相当する音声特徴量から音響モデル(第2音響モデル)を生成し、生成した音響モデルを特徴ベクトル導出部16へ出力する。ここで、第1区間の時間長c3に比べて一領域分の時間長c4は長くなるため、音響モデルの導出にはGMM(Gaussian Mixture Model)を利用することが好ましい。
特徴ベクトル導出部16は、第2音響モデル生成部15から入力される領域毎の第2音響モデルと、音声特徴量抽出部11から入力される音声特徴量のうち、後述する第2区間に対応する音声特徴量とを用いて、第2区間毎に固有の特徴ベクトルを導出する。また、特徴ベクトル導出部16は、導出した第2区間毎の特徴ベクトルと当該第2区間毎の時刻情報とを第2区間の固有情報として、クラスタリング部17に出力する。
以下、図6及び図7を参照して、特徴ベクトル導出部16の動作について説明する。ここで、図6は、特徴ベクトル導出部16の動作例を示した図であり、図7は特徴ベクトル導出部16により実行される特徴ベクトル導出処理の手順を示したフローチャートである。
まず、特徴ベクトル導出部16は、図6に示したように時間長c5毎に時間長c6分の音声特徴量を第2区間dkとして設定する(ステップS31)。このとき、例えば、時間長c5は0.5sec、時間長c6は3.0secとすればよい。ただし、時間長c5は時間長c6以下になるように設定し、この時間長c6は各領域の時間長c4以下で、且つ、時間長c3程度の長さとなるように設定を行うものとする。
続いて、特徴ベクトル導出部16は、最初の第2区間dkに参照番号k=1を設定した後(ステップS32)、第2音響モデル生成部15から入力される第2音響モデルsnのうち、最初の第2音響モデルsnに参照番号n=1を設定する(ステップS33)。
次に、特徴ベクトル導出部16は、k番目の第2区間dkの音声特徴量を用いて、n番目の第2音響モデルsnに対する尤度P(dk|sn)を算出する(ステップS34)。ここで第2音響モデルsnの生成にGMMを用いていれば、尤度は下記式(3)のように表される。なお、下記式(3)において、dimは音声特徴量の次元数、Ikは第2区間dkの音声特徴量の数、fは第2区間dkのi番目の音声特徴量、Mnは第2音響モデ
ルsnの混合数、cnm、unm、Unmはそれぞれ第2音響モデルsnの混合mの混合重み係数、平均ベクトル、対角共分散行列を表す。
Figure 0004728972
続いて特徴ベクトル導出部16は、第2音響モデル生成部15から入力される全ての第2音響モデルに対し、ステップS34の尤度算出を行ったか否かを判定する(ステップS35)。ここで、未完了の第2音響モデルがあると判定した場合には(ステップS35;No)、特徴ベクトル導出部16は、次の第2音響モデルに参照番号n=n+1を設定することで、次の第2音響モデルを処理対象とした後(ステップS36)、ステップS34へと再び戻る。
一方、ステップS35において、全ての第2音響モデルに対し、尤度を算出したと判定した場合には(ステップS35;Yes)、下記式(4)に基づいて、k番目の第2区間dkに対し、導出した尤度を成分として持つベクトルを第2区間の特徴を示す特徴ベクトルvkとして生成する(ステップS37)。ここで下記式(4)では、第2音響モデルの数をN個としている。なお、特徴ベクトルvkの成分を正規化する等、当該特徴ベクトルvkの形態に加工処理を加えることとしてもよい。
Figure 0004728972
次いで特徴ベクトル導出部16は、全ての第2区間に対して、特徴ベクトルを作成したか否かを判定する(ステップS38)。ここで、全ての第2区間に対して、特徴ベクトルを生成していないと判定した場合には(ステップS38;No)、次の第2区間に参照番号k=k+1を設定することで、次の第2区間を処理対象とした後(ステップS39)、ステップS33へと再び戻る。
一方、ステップS38において、全ての第2区間に対し、特徴ベクトルを生成したと判定した場合には(ステップS38;Yes)、各第2区間の固有情報(特徴ベクトル及び時刻情報)をクラスタリング部17に出力し(ステップS40)、本処理を終了する。
図2に戻り、クラスタリング部17は、特徴ベクトル導出部16から入力された全ての第2区間の特徴ベクトルのうち、類似した特徴ベクトル同士を一つのクラスとして纏め、当該クラスに属した各特徴ベクトルに対応する第2区間に、同一話者として扱うことの可能な同一のID(クラス番号)を付与する。そして、クラスタリング部17は、各第2区間の時刻情報とIDとをインデキシング部18に出力する。ここで、特徴ベクトル同士が類似しているか否かの判定は、例えばユークリッド距離による歪みが小さいか否かで判断すればよく、纏める際に利用するアルゴリズムとしては、例えば、公知のk−means法等を用いることとしてもよい。
インデキシング部18は、クラスタリング部17から入力される各第2区間の時刻情報とIDとから、音声信号を同一のIDとなった第2区間単位、即ち、同一話者単位で分割し、各話者に関する情報を含む話者情報をラベル(索引)として、対応する音声信号部分に付与する。
図8−1及び図8−2は、インデキシング部18の動作を説明するための図である。図8−1に示したように、2つの成分(尤度)を特徴ベクトルとして持つ各第2区間が、クラスタリング部17により、3つのクラスに分類された場合、インデキシング部18は、図8−2に示したように、時刻:0から時刻:2×c5まではクラス1のラベルを、時刻:2×c5から時刻:5×c5まではクラス2のラベルを、時刻:5×c5から時刻:7×c5+c6まではクラス3のラベルを付与する。
ここで、時間長c5の設定値によっては、隣接する第2区間同士に重複する部分が発生する場合がある。この場合、例えば、所属するクラスの平均値との距離が短ければ信頼性が高いとして、信頼性の高い結果を優先して用いればよい。図8−2の例では、第2区間d2よりも第2区間d3の方が、第2区間d5よりも第2区間d6の方が、信頼性が高いと判断された状態を示している。また、複数の結果が得られた部分に関して、より細かい時間長c7を持つ新たな区間に分割し、分割した新たな区間毎に求めた特徴ベクトルをもとに、属するクラスと対応する時間を求めてもよい。
図9は、本実施形態のインデキシング装置100によるインデキシング処理の流れを示したフローチャートである。以下、図9を参照して、本実施形態のインデキシング処理について説明する。
まず、音声入力部106等を介して音声信号が入力されると(ステップS101)、音声特徴量抽出部11は、入力された音声信号から話者性を表す音声特徴量を一定の時間長c1毎に抽出する(ステップS102)。ここで、抽出された音声特徴量は、音声特徴量抽出部11により音声特徴量分割部12及び特徴ベクトル導出部16に出力される。
続いて音声特徴量分割部12は、入力された音声特徴量を、所定の時間長c3からなる第1区間毎に分割する(ステップS103)。ここで、第1区間毎の音声特徴量と時刻情報(開始時刻と終了時刻)とは、第1音響モデル生成部13に出力される。
次いで、第1音響モデル生成部13は、第1区間分の音声特徴量が入力される毎に、その音声特徴量から音響モデルを生成する(ステップS104)。ここで生成された音響モデルは、第1音響モデル生成部13により、当該音響モデルの生成に用いた第1区間の固有情報(音声特徴量と時刻情報)とともに、学習領域抽出部14に出力される。
続くステップS105では、学習領域抽出部14が、ステップS104で生成された音響モデルと当該音響モデルに係る第1区間の固有情報とに基づいて、上述した学習領域抽出処理(図5参照)を実行し、同じ話者による発生の可能性が高い領域を学習領域として抽出する(ステップS105)。ここで、抽出された学習領域は、学習領域抽出部14により当該学習領域の固有情報(領域に相当する音声特徴量と時刻情報)とともに、第2音響モデル生成部15に出力される。
次いで、第2音響モデル生成部15は、ステップS105で抽出された学習領域毎に、その領域分に対応する音声特徴量から第2音響モデルを生成する(ステップS106)。ここで、生成された第2音響モデルは、第2音響モデル生成部15により特徴ベクトル導出部16に出力される。
続くステップS107では、特徴ベクトル導出部16が、ステップS106で生成された第2音響モデルと、第2区間の音声特徴量とに基づいて、上述した特徴ベクトル導出処理(図7参照)を実行し、当該特徴ベクトル導出処理により第2区間毎の固有情報(特徴ベクトル及び時刻情報)を導出する(ステップS107)。ここで導出された固有情報は、特徴ベクトル導出部16によりクラスタリング部17に出力される。
次いで、クラスタリング部17は、ステップS107で取得された全ての特徴ベクトルのうち、類似する特徴ベクトル同士を一つのクラスとして纏め、これらクラス毎に、当該クラスに含まれた各特徴ベクトルに対応する第2区間に、同一話者として扱うことの可能な固有のIDを付与する(ステップS108)。ここで、各第2区間にかかる時刻情報(開始時刻、終了時刻)及びIDは、クラスタリング部17によりインデキシング部18に出力される。
そして、インデキシング部18は、第2区間毎の時刻情報及び各第2区間に付与されたIDに基づいて、ステップS101で入力された音声信号を分割し、分割した各音声信号に対し、対応するラベル(索引)を付与した後(ステップS109)、本処理を終了する。
以上のように、本実施形態によれば、1人の話者による発声のみで構成された音声信号の時間帯を、音声モデルの生成に利用することにより、複数の話者の音声が混合している時間帯から音響モデルを生成する可能性を減らすことができるため、異なる話者の音声の区別が困難となる状況を防ぐことができ、結果として、音響モデル即ちインデキシングの精度を向上させることが可能となる。また、分割した複数の区間を一つの音響モデルの生成に利用することで、従来よりも多くの情報を一つのモデルに含めることが可能になるため、より高精度なインデキシングを実現することができる。
[第2の実施形態]
次に、第2の実施形態のインデキシング装置100について説明する。なお、上述した第1の実施形態と同様の構成については、同一の符号を付与し、その説明を省略する。
図10は、第2の実施形態におけるインデキシング装置100の機能構成を示したブロック図である。図10に示したように、本実施形態のインデキシング装置100は、音声特徴量抽出部21、音声特徴量分割部12、第1音響モデル生成部13、学習領域抽出部14、第2音響モデル生成部22、特徴ベクトル導出部23、話者交代検出部24、特徴ベクトル再導出部25、クラスタリング部17、インデキシング部18から構成される。
なお、図10において、音声特徴量抽出部21、第2音響モデル生成部22、特徴ベクトル導出部23、話者交代検出部24及び特徴ベクトル再導出部25は、音声特徴量分割部12、第1音響モデル生成部13、学習領域抽出部14、クラスタリング部17及びインデキシング部18と同様、CPU101とROM104に予め記憶された所定のプログラムとの協働により実現される機能部である。
音声特徴量抽出部21は、抽出した特徴量をさらに特徴ベクトル再導出部25に出力する。第2音響モデル生成部22は、生成した領域毎の音響モデルをさらに特徴ベクトル再導出部25に出力する。また、特徴ベクトル導出部23は、各第2区間の固有情報(特徴ベクトルと時刻情報)を話者交代検出部24に出力する。
話者交代検出部24は、隣接する第2区間同士の類似度をその特徴ベクトルから算出し、発話者が交代した時刻を検出後、検出した時刻情報を特徴ベクトル再導出部25に出力する。
以下、図11及び図12を参照して、話者交代検出部24の動作について説明する。ここで、図11は、話者交代検出部24の動作例を示した図であり、図12は話者交代検出部24により実行される話者交代検出処理の手順を示したフローチャートである。
まず、話者交代検出部24は、特徴ベクトル導出部23から入力された最初の第2区間の固有情報に対し、参照番号p=1を設定する(ステップS51)。以下、第2区間の固有情報を第2区間dpと表す。
次いで話者交代検出部24は、図11に示したように、第2区間dpと第2区間dpの終了時刻に最も近い開始時刻を持つ第2区間dqを選択する(ステップS52)。これにより、第2区間dpと第2区間dpに隣接する第2区間を選択することができる。なお、ここで時間長c5の定数倍となる値を時間長c6に設定すれば、第2区間dpの終了時刻と第2区間dqの開始時刻は同じ時刻となる。
続いて話者交代検出部24は、第2区間dpの終了時刻と第2区間dqの開始時刻の中間となる時刻tを算出する(ステップS53)。次に、話者交代検出部24は、第2区間dpの特徴ベクトルvpと第2区間dqの特徴ベクトルvqの類似度を算出し、時刻tにおける類似度として設定する(ステップS54)。この類似度は、例えばユークリッド距離にマイナスをつけた値とすればよい。
次いで、話者交代検出部24は、処理対象となった第2区間dqが、特徴ベクトル導出部23から入力された全ての第2区間の中で最後のものか否かを判定する(ステップS55)。ここで、話者交代検出部24は、処理対象となった第2区間dqが最後の第2区間でないと判定した場合には(ステップS55;No)、参照番号pの値を1インクリメント(p=p+1)することで、次の第2区間を処理対象に設定し(ステップS56)、ステップS52の処理へと再び戻る。
一方、ステップS55において、処理対象となった第2区間dqが最後の第2区間であると判定した場合には(ステップS55;Yes)、話者交代検出部24は、話者が交代した時刻かどうかを判断する検出条件を満たす類似度を持つ時刻を話者の交代した時刻(交代時刻)として検出する(ステップS57)。そして、話者交代検出部24は、検出した交代時刻を特徴ベクトル再導出部25に出力した後(ステップS58)、本処理は終了する。
ここで、検出条件は、類似度が極小であり、且つ、閾値th2以下である類似度を検出する条件とすることが好ましい。なぜなら、類似度が極小である時刻はその周辺で最も話者が交代している可能性が高いことを表しており、さらに閾値th2以下であれば、比較した第2区間は異なる話者の発声だと判定する基準も満たすことができる。なお、この閾値th2は経験的に設定してよい。図11の例では結果として、3つの話者交代時刻が検出されたことを示している。
図10に戻り、特徴ベクトル再導出部25では、まず、話者交代検出部24から入力される交代時刻に基づいて、音声特徴量抽出部11から入力される音声特徴量を分割する。また、特徴ベクトル再導出部25は、音声特徴量を分割することで得られた第3区間を処理対象とし、例えば、第2音響モデル生成部22から入力される音響モデルを用いて、特徴ベクトル導出部23と同様の処理により、特徴ベクトルを導出する。そして、特徴ベクトル再導出部25は、各第3区間の固有情報(特徴ベクトルと時刻情報)をクラスタリング部17へと出力する。
なお、特徴ベクトルを求める際にあたり、上述した特徴ベクトル導出部23による特徴ベクトル導出処理とは異なる処理内容により、特徴ベクトルを導出する態様としてもよい。例えば、第3区間の開始時刻と終了時刻との間に、開始時刻と終了時刻とが挟まれる第2区間を列挙した場合には、第3区間の特徴ベクトルを、列挙された第2区間の特徴ベクトルの平均としてもよい。
図13は、本実施形態のインデキシング装置100によるインデキシング処理の流れを示したフローチャートである。以下、図13を参照して、本実施形態のインデキシング処理について説明する。
まず、音声入力部106等を介して音声信号が入力されると(ステップS201)、音声特徴量抽出部21は、入力された音声信号から話者性を表す音声特徴量を時間長c1毎に抽出する(ステップS202)。ここで抽出された音声特徴量は、音声特徴量抽出部11により音声特徴量分割部12、特徴ベクトル導出部23及び特徴ベクトル再導出部25に出力される。
続いて音声特徴量分割部12は、ステップS201で抽出された音声特徴量を第1区間毎に分割し、第1区間毎の音声特徴量と時刻情報(開始時刻と終了時刻)とを第1音響モデル生成部13に出力する(ステップS203)。
次いで、第1音響モデル生成部13は、第1区間分の音声特徴量毎に、この音声特徴量から当該第1区間の音響モデルを生成し、この生成した音響モデルと当該音響モデルの生成に用いた第1区間の固有情報(音声特徴量と時刻情報)を、学習領域抽出部14に出力する(ステップS204)。
続くステップS205では、学習領域抽出部14が、入力された音響モデルと当該音響モデルの生成に用いた第1区間の固有情報とに基づいて、上述した学習領域抽出処理(図5参照)を実行し、同じ話者による発生の可能性が高い領域を学習領域として抽出する(ステップS205)。ここで、抽出された学習領域は、学習領域抽出部14により当該学習領域の固有情報(領域に相当する音声特徴量と時刻情報)とともに、第2音響モデル生成部22に出力される。
次いで、第2音響モデル生成部22は、ステップS205で抽出された学習領域毎に、その領域分に対応する音声特徴量から第2音響モデルを生成する(ステップS206)。ここで生成された第2音響モデルは、第2音響モデル生成部22により特徴ベクトル導出部23及び特徴ベクトル再導出部25に出力される。
続くステップS207では、特徴ベクトル導出部23が、ステップS206で生成された第2音響モデルと、第2区間の音声特徴量とに基づいて、上述した特徴ベクトル導出処理(図7参照)を実行し、当該特徴ベクトル導出処理により第2区間毎の固有情報(特徴ベクトル及び時刻情報)を導出する(ステップS207)。ここで導出された固有情報は、特徴ベクトル導出部23により話者交代検出部24に出力される。
ステップS208では、話者交代検出部24が、ステップS207で導出された第2区間毎の固有情報に基づいて、上述した話者交代検出処理(図12参照)を実行し、当該話者交代検出処理により検出した交代時刻を特徴ベクトル再導出部25に出力する(ステップS208)。
続いて、特徴ベクトル再導出部25は、ステップS208で検出された交代時刻に基づいて、ステップS102で抽出された時間長c1毎の音声特徴量を第3区間毎に分割した後、領域毎の第2音響モデルと、第2区間に対応する音声特徴量とに基づいて、上述した特徴ベクトル導出処理(図7参照)と同様の処理を第3区間について実行し、第3区間毎の固有情報を導出する(ステップS209)。ここで導出された固有情報は、特徴ベクトル再導出部25によりクラスタリング部17に出力される。
次いで、クラスタリング部17は、ステップS209で導出された全ての第3区間の特徴ベクトルのうち、類似する特徴ベクトル同士を一つのクラスとして纏め、これらクラス毎に、当該クラスに含まれる特徴ベクトルの第3区間に同一話者として扱うことの可能な固有のIDを付与する(ステップS210)。ここで、第3区間にかかる時刻情報(開始時刻、終了時刻)とIDとは、クラスタリング部17によりインデキシング部18に出力される。
そして、インデキシング部18は、入力された各第3区間の時刻情報及びIDに基づいて音声信号を分割し、分割した各音声信号に対応するラベル(索引)を付与した後(ステップS211)、本処理を終了する。
以上のように、本実施形態によれば、上記した第1の実施形態の効果に加え、話者交代検出部24を導入し、話者の交代した時刻を推定しておくことで、インデキシング部18から出力される異なるラベル間の境界位置を、より正確に特定することができる。また、交代時刻毎に分割した区間をクラスタリング対象とすることで、各クラスタリング対象は、第2区間の時間長c6より長くなる可能性があるため、より多くの情報を含んだ状態で信頼性の高い特徴づけを行うことが可能となり、より高精度なインデキシングを実現することができる。
以上、発明の実施の形態について説明したが、本発明はこれに限定されるものではなく、本発明の主旨を逸脱しない範囲での種々の変更、置換、追加などが可能である。
インデキシング装置のハードウェア構成を示した図である。 第1の実施形態におけるインデキシング装置の機能構成を示した図である。 学習領域抽出部の機能構成を示した図である。 学習領域抽出部の動作例を示した図である。 学習領域抽出部の動作の手順を示したフローチャートである。 特徴ベクトル導出部の動作例を示した図である。 特徴ベクトル導出部の動作の手順を示したフローチャートである。 インデキシング部の動作を説明するための図である。 インデキシング部の動作を説明するための図である。 第1の実施形態のインデキシング処理の手順を示したフローチャートである。 第2の実施形態におけるインデキシング装置の機能構成を示した図である。 話者交代検出部の動作例を示した図である。 話者交代検出部の動作の手順を示したフローチャートである。 第2の実施形態のインデキシング処理の手順を示したフローチャートである。
符号の説明
100 インデキシング装置
101 CPU
102 操作部
103 表示部
104 ROM
105 RAM
106 音声入力部
107 記憶部
108 バス
11 音声特徴量抽出部
12 音声特徴量分割部
13 第1音響モデル生成部
14 学習領域抽出部
141 第1区間入力部
142 領域設定部
143 類似度算出部
144 領域スコア導出部
145 学習領域出力部
15 第2音響モデル生成部
16 特徴ベクトル導出部
17 クラスタリング部
18 インデキシング部
21 音声特徴量抽出部
22 第2音響モデル生成部
23 特徴ベクトル導出部
24 話者交代検出部
25 特徴ベクトル再導出部

Claims (11)

  1. 複数の話者の音声が含まれた音声信号から、各話者の話者性を表す音声特徴量を所定の時間長毎に抽出する抽出手段と、
    前記音声特徴量を所定時間長からなる第1区間毎に分割する第1分割手段と、
    前記第1区間毎に、当該第1区間に含まれる音声特徴量に基づいて第1音響モデルを生成する第1音声モデル生成手段と、
    連続する所定数分の前記第1区間を一の領域として順次設定し、当該領域毎の類似度を、各領域に含まれる前記第1区間の第1音響モデルに基づいて算出する類似度算出手段と、
    前記類似度が所定値以上となる領域を学習領域として抽出する領域抽出手段と、
    前記学習領域毎に、当該学習領域に含まれる音声特徴量に基づいて第2音響モデルを生成する第2音響モデル生成手段と、
    前記音声特徴量を所定時間長からなる第2区間毎に分割する第2分割手段と、
    前記学習領域毎の第2音響モデルと前記第2区間毎の音声特徴量とを用いて、各第2区間に固有の特徴ベクトルを夫々導出する特徴ベクトル導出手段と、
    前記特徴ベクトルのベクトル成分に基づいて、各特徴ベクトルに対応する前記第2区間毎の音声特徴量を話者毎に分類するクラスタリング手段と、
    前記クラスタリング手段による分類結果に基づいて、対応する前記音声信号部分に話者を分類するための情報を含んだ話者情報を付与するインデキシング手段と、
    を備えたことを特徴とするインデキシング装置。
  2. 前記類似度算出手段は、前記領域内に含まれる複数の前記第1区間の中から、二つの前記第1区間を選択する全ての組み合わせに対して、両第1区間における音声特徴量の類似度を夫々算出し、算出した類似度のうち所定の条件を満たす類似度を、当該領域の類似度とすることを特徴とする請求項1に記載のインデキシング装置。
  3. 前記類似度算出手段は、前記第1区間同士の夫々から算出した全ての類似度のうち、最小となる類似度を前記領域の類似度とすることを特徴とする請求項2に記載のインデキシング装置。
  4. 前記領域抽出手段は、一又は複数の領域を抽出することを特徴とする請求項1〜3の何れか一項に記載のインデキシング装置。
  5. 前記領域抽出手段は、前記領域に含まれる前記第1区間の個数又は当該第1区間の時間長に応じた値を、前記類似度に加味することを特徴とする請求項1〜4の何れか一項に記載のインデキシング装置。
  6. 前記特徴ベクトル導出手段は、前記領域毎の類似度に関する情報をベクトル成分とする、前記特徴ベクトルを導出することを特徴とする請求項1に記載のインデキシング装置。
  7. 前記第1区間の時間長と第2区間の時間長とが、略同等であることを特徴とする請求項1に記載のインデキシング装置。
  8. 前記特徴ベクトルに基づいて話者の交代した交代時刻を検出する交代時刻検出手段と、
    前記音声特徴量を前記交代時刻単位の時間長からなる第3区間毎に分割する分割手段と、
    前記第3区間毎の音声特徴量と、前記学習領域毎の第2音響モデルとを用いて、前記第3区間毎の音声特徴量の特徴ベクトルをそれぞれ導出する特徴ベクトル再導出手段と、
    を更に備え、
    前記クラスタリング手段は、前記特徴ベクトル再導出手段により導出された特徴ベクトルを用いて分類することを特徴とする請求項1に記載のインデキシング装置。
  9. 前記特徴ベクトル再導出手段は、前記第2音響モデルの類似度に関する情報をベクトル成分とした、前記特徴ベクトルを導出することを特徴とする請求項8に記載のインデキシング装置。
  10. 複数の話者の音声が含まれた音声信号から、各話者の話者性を表す音声特徴量を所定の時間間隔毎に抽出する抽出工程と、
    前記音声特徴量を所定時間長からなる第1区間毎に分割する第1分割工程と、
    前記第1区間毎に、当該第1区間に含まれる音声特徴量に基づいて第1音響モデルを生成する第1音声モデル生成工程と、
    連続する所定数分の前記第1区間を一の領域として順次設定し、当該領域毎の類似度を、各領域に含まれる前記第1区間の第1音響モデルに基づいて算出する類似度算出工程と、
    前記類似度が所定値以上となる領域を学習領域として抽出する領域抽出工程と、
    前記学習領域毎に、当該学習領域に含まれる音声特徴量に基づいて第2音響モデルを生成する第2音響モデル生成工程と、
    前記音声特徴量を所定時間長からなる第2区間毎に分割する第2分割工程と、
    前記学習領域毎の第2音響モデルと前記第2区間毎の音声特徴量とを用いて、各第2区間に固有の特徴ベクトルを夫々導出する特徴ベクトル導出工程と、
    前記特徴ベクトルのベクトル成分に基づいて、各特徴ベクトルに対応する前記第2区間毎の音声特徴量を話者毎に分類するクラスタリング工程と、
    前記クラスタリング工程による分類結果に基づいて、対応する前記音声信号部分に話者を分類するための情報を含んだ話者情報を付与するインデキシング工程と、
    を含むことを特徴とするインデキシング方法。
  11. コンピュータに、
    複数の話者の音声が含まれる音声信号から、各話者の話者性を表す音声特徴量を所定の時間間隔毎に抽出する抽出機能と、
    前記音声特徴量を所定時間長からなる第1区間毎に分割する第1分割機能と、
    前記第1区間毎に、当該第1区間に含まれる音声特徴量に基づいて第1音響モデルを生成する第1音声モデル生成機能と、
    連続する所定数分の前記第1区間を一の領域として順次設定し、当該領域毎の類似度を、各領域に含まれる前記第1区間の第1音響モデルに基づいて算出する類似度算出機能と、
    前記類似度が所定値以上となる領域を学習領域として抽出する領域抽出機能と、
    前記学習領域毎に、当該学習領域に含まれる音声特徴量に基づいて第2音響モデルを生成する第2音響モデル生成機能と、
    前記音声特徴量を所定時間長からなる第2区間毎に分割する第2分割機能と、
    前記学習領域毎の第2音響モデルと前記第2区間毎の音声特徴量とを用いて、各第2区間に固有の特徴ベクトルを夫々導出する特徴ベクトル導出機能と、
    前記特徴ベクトルのベクトル成分に基づいて、各特徴ベクトルに対応する前記第2区間毎の音声特徴量を話者毎に分類する機能と、
    前記クラスタリング機能による分類結果に基づいて、対応する前記音声信号部分に話者を分類するための情報を含んだ話者情報を付与するインデキシング機能と、
    を実現させることを特徴とするインデキシングプログラム。
JP2007007947A 2007-01-17 2007-01-17 インデキシング装置、方法及びプログラム Active JP4728972B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007007947A JP4728972B2 (ja) 2007-01-17 2007-01-17 インデキシング装置、方法及びプログラム
US12/007,379 US8145486B2 (en) 2007-01-17 2008-01-09 Indexing apparatus, indexing method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007007947A JP4728972B2 (ja) 2007-01-17 2007-01-17 インデキシング装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2008175955A JP2008175955A (ja) 2008-07-31
JP4728972B2 true JP4728972B2 (ja) 2011-07-20

Family

ID=39703038

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007007947A Active JP4728972B2 (ja) 2007-01-17 2007-01-17 インデキシング装置、方法及びプログラム

Country Status (2)

Country Link
US (1) US8145486B2 (ja)
JP (1) JP4728972B2 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5052449B2 (ja) * 2008-07-29 2012-10-17 日本電信電話株式会社 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
JP2011053569A (ja) * 2009-09-03 2011-03-17 Nippon Hoso Kyokai <Nhk> 音響処理装置およびプログラム
JP5356527B2 (ja) * 2009-09-19 2013-12-04 株式会社東芝 信号分類装置
JP2012053218A (ja) * 2010-08-31 2012-03-15 Nippon Hoso Kyokai <Nhk> 音響処理装置および音響処理プログラム
JP5092000B2 (ja) 2010-09-24 2012-12-05 株式会社東芝 映像処理装置、方法、及び映像処理システム
JP5658285B2 (ja) * 2011-01-05 2015-01-21 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 興味区間抽出装置、興味区間抽出方法
JP5779032B2 (ja) * 2011-07-28 2015-09-16 株式会社東芝 話者分類装置、話者分類方法および話者分類プログラム
TW201417093A (zh) * 2012-10-19 2014-05-01 Hon Hai Prec Ind Co Ltd 具有影音檔處理功能的電子裝置及影音檔處理方法
CN104282303B (zh) * 2013-07-09 2019-03-29 威盛电子股份有限公司 利用声纹识别进行语音辨识的方法及其电子装置
US8719032B1 (en) 2013-12-11 2014-05-06 Jefferson Audio Video Systems, Inc. Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface
JP6596924B2 (ja) * 2014-05-29 2019-10-30 日本電気株式会社 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
JP6350148B2 (ja) 2014-09-09 2018-07-04 富士通株式会社 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
JP6303971B2 (ja) 2014-10-17 2018-04-04 富士通株式会社 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
KR102371697B1 (ko) 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
WO2018009969A1 (en) 2016-07-11 2018-01-18 Ftr Pty Ltd Method and system for automatically diarising a sound recording
US20210256312A1 (en) * 2018-05-18 2021-08-19 Nec Corporation Anomaly detection apparatus, method, and program
KR102190986B1 (ko) * 2019-07-03 2020-12-15 주식회사 마인즈랩 개별 화자 별 음성 생성 방법
KR102190987B1 (ko) * 2020-11-09 2020-12-15 주식회사 마인즈랩 동시 발화 구간에서 개별 화자의 음성을 생성하는 인공 신경망의 학습 방법
KR102190988B1 (ko) * 2020-11-09 2020-12-15 주식회사 마인즈랩 개별 화자 별 음성 제공 방법 및 컴퓨터 프로그램
KR102190989B1 (ko) * 2020-11-09 2020-12-15 주식회사 마인즈랩 동시 발화 구간에서의 음성 생성 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0612090A (ja) * 1992-06-26 1994-01-21 Nec Corp 音声学習方式
JP2006084875A (ja) * 2004-09-16 2006-03-30 Toshiba Corp インデキシング装置、インデキシング方法およびインデキシングプログラム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2921059B2 (ja) 1990-07-26 1999-07-19 松下電器産業株式会社 連続音声認識装置
JP3081108B2 (ja) 1994-08-11 2000-08-28 株式会社トレンディ 話者分類処理装置及び方法
US5742928A (en) 1994-10-28 1998-04-21 Mitsubishi Denki Kabushiki Kaisha Apparatus and method for speech recognition in the presence of unnatural speech effects
US5864809A (en) 1994-10-28 1999-01-26 Mitsubishi Denki Kabushiki Kaisha Modification of sub-phoneme speech spectral models for lombard speech recognition
US6119084A (en) 1997-12-29 2000-09-12 Nortel Networks Corporation Adaptive speaker verification apparatus and method including alternative access control
US6185527B1 (en) 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
JP3789246B2 (ja) 1999-02-25 2006-06-21 株式会社リコー 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体
US6577999B1 (en) 1999-03-08 2003-06-10 International Business Machines Corporation Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary
US6434520B1 (en) 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
JP2001290494A (ja) 2000-04-05 2001-10-19 Matsushita Electric Ind Co Ltd 登録単語辞書作成方法及びその装置、並びに音声認識方法及びその装置
US6542869B1 (en) 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
EP1187096A1 (en) 2000-09-06 2002-03-13 Sony International (Europe) GmbH Speaker adaptation with speech model pruning
US6961703B1 (en) 2000-09-13 2005-11-01 Itt Manufacturing Enterprises, Inc. Method for speech processing involving whole-utterance modeling
JP4244514B2 (ja) 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
US7953219B2 (en) * 2001-07-19 2011-05-31 Nice Systems, Ltd. Method apparatus and system for capturing and analyzing interaction based content
EP1372139A1 (en) 2002-05-15 2003-12-17 Pioneer Corporation Speech recognition apparatus and program with error correction
CN101661754B (zh) * 2003-10-03 2012-07-11 旭化成株式会社 数据处理单元和数据处理单元控制方法
US7610199B2 (en) 2004-09-01 2009-10-27 Sri International Method and apparatus for obtaining complete speech signals for speech recognition applications
JP4476786B2 (ja) 2004-11-10 2010-06-09 株式会社東芝 検索装置
US7475016B2 (en) 2004-12-15 2009-01-06 International Business Machines Corporation Speech segment clustering and ranking
EP1889255A1 (en) * 2005-05-24 2008-02-20 Loquendo S.p.A. Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
US20070033042A1 (en) 2005-08-03 2007-02-08 International Business Machines Corporation Speech detection fusing multi-class acoustic-phonetic, and energy features
US7396990B2 (en) 2005-12-09 2008-07-08 Microsoft Corporation Automatic music mood detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0612090A (ja) * 1992-06-26 1994-01-21 Nec Corp 音声学習方式
JP2006084875A (ja) * 2004-09-16 2006-03-30 Toshiba Corp インデキシング装置、インデキシング方法およびインデキシングプログラム

Also Published As

Publication number Publication date
JP2008175955A (ja) 2008-07-31
US20080215324A1 (en) 2008-09-04
US8145486B2 (en) 2012-03-27

Similar Documents

Publication Publication Date Title
JP4728972B2 (ja) インデキシング装置、方法及びプログラム
US10109280B2 (en) Blind diarization of recorded calls with arbitrary number of speakers
US10366693B2 (en) Acoustic signature building for a speaker from multiple sessions
JP5321596B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
US7729914B2 (en) Method for detecting emotions involving subspace specialists
JP5060224B2 (ja) 信号処理装置及びその方法
JP5356527B2 (ja) 信号分類装置
JP6246636B2 (ja) パターン識別装置、パターン識別方法およびプログラム
JP2000011181A (ja) 信号照合装置
JP5050698B2 (ja) 音声処理装置およびプログラム
JP4787979B2 (ja) 雑音検出装置および雑音検出方法
JP5626221B2 (ja) 音響画像区間分類装置および方法
GB2576960A (en) Speaker recognition
JP2016177045A (ja) 音声認識装置および音声認識プログラム
JP2011191542A (ja) 音声分類装置、音声分類方法、及び音声分類用プログラム
JP7159655B2 (ja) 感情推定システムおよびプログラム
CN110419078B (zh) 用于自动语音识别的***和方法
JP2005534065A (ja) マンマシンインタフェースユニットの動作及び/又は制御方法
JP7444820B2 (ja) 感情判定装置、感情判定方法、及びプログラム
JP7425368B2 (ja) 推定装置、推定方法、学習装置、学習方法およびプログラム
KR101092489B1 (ko) 음성 인식 시스템 및 방법
Trabelsi et al. Dynamic sequence-based learning approaches on emotion recognition systems
Mowlaee et al. AUDIO CLASSIFICATION OF MUSIC/SPEECH MIXED SIGNALS USING SINUSOIDAL MODELING WITH SVM AND NEURAL NETWORK APPROACH
JPH09198080A (ja) 音声認識装置、音声認識に用いられる特徴ベクトルの作成方法及び音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110415

R151 Written notification of patent or utility model registration

Ref document number: 4728972

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140422

Year of fee payment: 3