JP5296598B2 - 音声情報抽出装置 - Google Patents

音声情報抽出装置 Download PDF

Info

Publication number
JP5296598B2
JP5296598B2 JP2009111587A JP2009111587A JP5296598B2 JP 5296598 B2 JP5296598 B2 JP 5296598B2 JP 2009111587 A JP2009111587 A JP 2009111587A JP 2009111587 A JP2009111587 A JP 2009111587A JP 5296598 B2 JP5296598 B2 JP 5296598B2
Authority
JP
Japan
Prior art keywords
unit
search
audio
video
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009111587A
Other languages
English (en)
Other versions
JP2010262413A (ja
Inventor
彰夫 小林
亨 今井
貴裕 奥
庄衛 佐藤
真一 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2009111587A priority Critical patent/JP5296598B2/ja
Publication of JP2010262413A publication Critical patent/JP2010262413A/ja
Application granted granted Critical
Publication of JP5296598B2 publication Critical patent/JP5296598B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、入力される映像・音声から、音声情報を抽出し、抽出された音声情報を検索・閲覧可能とする音声情報抽出装置に関する。
特許文献1の、特に請求項7には、テレビジョンの放送番組データに含まれる映像信号を表示装置に表示するとともに、当該放送番組データに含まれる音声データに対して音声認識処理を行なうことによって文章情報を取得し、所定の時刻に、取得した文章情報を形態素解析することによってキーワードを抽出して、抽出されたキーワードと当該時刻の情報とを共に記憶装置に蓄積し、これらを履歴として時系列に提示し、いずれかの時刻情報が選択された場合に、選択された時刻情報と共に前記記憶装置に記憶されたキーワードの一覧を表示する情報処理装置が記載されている。また、このキーワードを用いることにより、インターネット等の通信回線を介して、外部から関連する詳細情報を取得できるようになる。
非特許文献1および非特許文献2には、音声認識結果のラティスのデータを展開したり圧縮したりする技術が記載されている。
非特許文献1に記載されている方法は、ラティスを集約する際に、発話時刻の重なりと、単語表記の発音の類似性を調べる。例えば「リンカーン」と「印鑑(いんかん)」は発音が類似しているといったことを調べる。これにより、単語仮説(正解候補)の対立関係を求めることができる。
また、非特許文献2に記載されている方法は、ラティスを圧縮する際に、予め圧縮ラティスの元になるグラフ(最尤系列)をラティスから選んでおく。そして、その後、ラティスを巡回する順番を変えながら、圧縮ラティスにノード、エッジを追加していく。
特開2009−077166号公報
L. Mangu, E. Brill, A. Stolcke, "Finding consensus in speech recognition: word error minimization and other applications of confusion networks", Computer Speech and Language, vol. 14, no. 4, pp.373-400, 2000年. D. Hakkani-Tur, F. Bechet, G. Riccardi, G. Tur, "Beyond ASR 1-best: Using word confusion networks in spoken language understanding", Computer Speech and Language, Vol. 20, No. 4, pp.495-514, 2006.
しかしながら、上記の従来技術(特に、特許文献1に記載の技術)では、番組等の音声を認識してキーワードを抽出し、そのキーワードに関連する情報を外部から取得することはできるものの、番組等を検索対象とすることはできない。
また、従来技術では、外部から取得した情報と番組等の音声そのものとの関係が利用者にわかりにくい。
また、テレビやラジオなどの放送などにおける言語表現の変化により、音声認識の精度が落ちることも考えられる。
また、非特許文献1に記載されているラティスデータ処理方法では、エッジのクラスタリングを音素列に変換した単語仮説同士の編集距離に基づいてクラスタリングするため、ラティスの圧縮に時間がかかるという問題がある。つまり、単語表記ごとに発音の類似度を比べるため、圧縮の手続きに時間がかかるという問題がある。
また、非特許文献2に記載されているラティスデータ処理方法では、非特許文献1に記載されている手法よりは高速にラティスを圧縮することが可能だが、単語仮説のクラスタリングを行わないため、圧縮率が低いという問題がある。つまり、発音の類似性の比較を行わないので、圧縮ラティスの精度が悪いという問題がある。
本発明は、上記の課題認識に基づいて為されたものであり、映像および音声を蓄積するとともに、その発話内容を対象として映像および音声を検索することができ、検索結果として音声の該当箇所における話題や話者に関する情報などといった音声情報も利用者にわかりやすく提示することのできる、音声情報抽出装置を提供することを目的とする。
また、本発明は、言語表現が変化しても音声認識の精度が落ちない構成を備えた音声情報抽出装置を提供することを目的とする。
さらに、本発明では、音声認識処理の結果得られるラティスデータを、高速に且つ高圧縮率で圧縮し、利用することのできる音声情報抽出装置を提供することも目的とする。
[1]上記の課題を解決するため、本発明の一態様による音声情報抽出装置は、映像および音声を記憶する映像音声記憶部と、単語と、音声における発話時刻と、の対応関係を含んでなる検索用インデックスを記憶する検索用インデックス記憶部と、発話時刻と、単語の列である発話内容と、話題と、話者名または話者属性の少なくともいずれかと、を関連付けてなる音声情報を記憶する音声情報記憶部と、音声の音響的特徴を統計的に表わした音響モデルを記憶する音響モデル記憶部と、単語の出現頻度を統計的に表わした言語モデルを記憶する言語モデル記憶部と、映像および音声を外部から取得して前記映像音声記憶部に書き込む映像音声収録部と、前記音響モデル記憶部から読み出した前記音響モデルと前記言語モデル記憶部から読み出した前記言語モデルとを用いて、前記映像音声収録部が取得した前記音声の音声認識処理を行ない、音声認識結果を出力する音声認識部と、話者毎または話者属性毎の音響的特徴を統計的に表わした話者データを予め記憶する話者データ記憶部と、前記話者データ記憶部から読み出した前記話者データを用いて、前記映像音声収録部が取得した前記音声に対応する話者名または話者属性を算出して出力する話者識別部と、前記映像音声収録部が取得した前記映像および前記音声に関連するテキストデータを外部から取得するテキストデータ取得部と、前記テキストデータ取得部が取得した前記テキストデータと前記音声認識部により出力された前記音声認識結果とを比較することにより話題を抽出する話題抽出部と、前記音声認識結果と、前記話題と、前記話者名または前記話者属性の少なくともいずれか、とを統合してなる音声情報を前記音声情報記憶部に書き込む音声情報統合部と、前記音声認識結果に基づき前記検索用インデックスのデータを作成して前記検索用インデックス記憶部に書き込む検索用インデックス作成部と、検索語による検索要求に基づき前記検索用インデックス記憶部および前記音声情報記憶部を検索し、前記検索語に該当する前記映像および前記音声に関連付けられた前記音声情報を前記音声情報記憶部から読み出して検索元に対して検索結果として提示するとともに、前記映像音声記憶部に記憶されている当該映像および当該音声を再生可能とする検索サーバ部と、を具備することを特徴とする。
ここで、映像および音声とは、それぞれ映像および音声を表わす電気的な信号あるいはデータである。これらはコンピュータ等によって処理可能である。
また、発話時刻とは、番組ID(放送チャンネルと番組名から定める一意の数値などの識別情報)と発話開始時刻との組み合わせによって表わされる情報である。この発話開始時刻は、番組開始時からの相対時刻や、現実の日時(例えば日本標準時)で表わされる。
また、音声情報とは、音声に関する情報であり、その詳細は後述する。
上記の構成によれば、音声認識結果と抽出された話題とを音声情報として統合して記憶部に記憶させるとともに、検索用インデックスが記憶部に記憶されていることにより、検索語による検索要求に対して、合致する発話内容(音声認識結果)を有する番組と、その発話内容に関連する話題とを検索結果として利用者に提示できる。また、その検索結果から選択された番組の映像および音声を再生表示することができる。
[2]また、本発明の一態様は、上記の音声情報抽出装置において、前記話題抽出部は、前記テキストデータに含まれる所定数の単語組が前記音声認識結果の所定数の単語中に含まれる数により類似度を算出し、この類似度に基づいて前記テキストデータと前記音声認識結果との間の対応付けを行なうことによって、前記テキストデータから前記話題を抽出することを特徴とする。
この構成により、話題を抽出するとともに、音声認識結果において話題境界を特定することができる。
[3]また、本発明の一態様は、上記の音声情報抽出装置において、前記テキストデータ取得部が取得した前記テキストデータの中における単語の出現頻度を算出することによって前記言語モデル記憶部に記憶されている前記言語モデルを更新する言語モデル学習部を更に具備することを特徴とする。
これにより、最新の放送の内容に基づいて言語モデルを更新することができ、音声認識の認識率の向上につながる。
[4]また、本発明の一態様は、上記の音声情報抽出装置において、前記音声認識部が前記音声認識結果として出力する単語仮説の有向非巡回グラフを表わすラティスデータを圧縮する処理を行なうラティス圧縮部を更に具備し、前記検索用インデックス作成部は、前記ラティス圧縮部によって圧縮された前記ラティスデータに基づいて前記検索用インデックスを作成することを特徴とする。
これにより、音声認識結果のラティスを圧縮し、音声認識結果ラティスのために必要な記憶容量を削減することができる。
[5]また、本発明の一態様は、上記の音声情報抽出装置において、利用者からの入力に基づく検索語を用いて前記検索サーバ部に対して前記検索要求を送信し、前記検索サーバ部からの前記検索結果を画面に表示し、更に利用者からの操作に基づいて、該当する前記映像および前記音声を再生する検索クライアント部を更に具備することを特徴とする。
また、本発明の一態様は、上記の音声情報抽出装置において、ラティス圧縮部が次の(1)〜(3)の処理を行うものである。
(1)ラティス上のエッジについて、発話開始時刻・発話終了時刻がオーバーラップするエッジのうち、同一の表記を持つエッジをクラスタリングする(つまり、エッジの始端と終端を事後確率の大きなもので代表させ、事後確率の和を大きな方(代表させたほう)に与える)。
(2)ラティス上のエッジについて,オーバーラップするエッジをクラスタリングする(つまり、同一の始端ノードおよび終端ノードを持つようにする)。
(3)ラティス上のエッジについて、トポロジカルな順番でノードを訪問し、リンクをマージしていく。
本発明によれば、映像および音声を蓄積するとともに、その発話内容を対象として、検索語による映像および音声の検索をすることができ、検索結果として音声の該当箇所における話題や話者に関する情報などといった音声情報も利用者にわかりやすく提示することができる。
本発明の実施形態による音声情報抽出装置の機能構成を示したブロック図である。 同実施形態における音声情報記憶部16が記憶する音声情報の構造を示す概略図である。 同実施形態における検索クライアント部20に設けられている表示装置に表示される画面の構成を示す概略図である。 同実施形態による検索クライアント部20に設けられている表示装置における検索結果の表示の画面構成を示す概略図である。 同実施形態におけるテキスト収集部3および言語モデル学習部9による、言語モデル学習処理の手順を示すフローチャートである。 同実施形態における話題抽出部14による、話題抽出処理の手順を示すフローチャートである。 同実施形態におけるラティス展開・圧縮部12による、音声認識結果のラティスを圧縮する処理の手順を示すフローチャートの第1である。 同実施形態におけるラティス展開・圧縮部12による、音声認識結果のラティスを圧縮する処理の手順を示すフローチャートの第2である。 同実施形態におけるラティス展開・圧縮部12による、音声認識結果のラティスを圧縮する処理の手順を示すフローチャートの第3である。 同実施形態における検索用転置インデックス作成部15による、転置インデックス作成処理の手順を示すフローチャートである。 同実施形態における検索用転置インデックス記憶部17に記憶される、転置インデックスのデータ構成を示す概略図である。
以下、図面を参照しながら、本発明の実施形態について説明する。
図1は、同実施形態による音声情報抽出装置の機能構成を示すブロック図である。図示するように、音声情報抽出装置50は、映像・音声収録部1と、番組情報収集部2と、テキスト収集部3と、話者データ記憶部4と、話者識別部5と、音声認識部6と、音響モデル記憶部7と、言語モデル記憶部8と、言語モデル学習部9と、テキストデータ記憶部10と、単語辞書記憶部11と、ラティス展開・圧縮部12(ラティス圧縮部)と、音声情報統合部13と、話題抽出部14と、検索用転置インデックス作成部15(検索用インデックス作成部)と、音声情報記憶部16と、検索用転置インデックス記憶部17と、映像音声記憶部18と、検索サーバ部19と、検索クライアント部20とを含んで構成される。
なお、話者データ記憶部4と、音響モデル記憶部7と、言語モデル記憶部8と、テキストデータ記憶部10と、単語辞書記憶部11と、音声情報記憶部16と、検索用転置インデックス記憶部17と、映像音声記憶部18とは、それぞれ、磁気ディスク装置(HDD)または半導体メモリ(半導体RAMまたは半導体ROMなど)を用いて実現される。
映像・音声収録部1は、放送(総合テレビ、教育テレビ、衛星放送、ラジオ第一、ラジオ第二など)の映像および音声の入力を受け、それらを計算機にて読み取り可能なデジタル動画データファイルに変換する。なお、映像・音声収録部1は、ここで得られたデジタル動画データファイルを映像音声記憶部18に書き込む。また、ここで得られたデジタル動画データファイルは、後述する話者識別部5や音声認識部6においても利用される。
番組情報収集部2は、インターネット等の通信回線を介して、外部のサーバコンピュータ(ウェブサーバなど)から、番組情報やEPG(電子番組ガイド,Electronic Program Guide)情報を取得する。これらの情報には、番組のタイトルや、番組の出演者等のテキスト情報が含まれている。番組情報収集部2は、取得したEPG情報等を加工し、映像・音声収録部1によって変換されたデジタル動画データファイルのメタデータとして保存する。
テキスト収集部3は、インターネット等の通信回線を介して、外部のサーバコンピュータ(ウェブサーバなど)から、ウェブテキスト情報を取得し、そのウェブテキスト情報に対して形態素解析等の自然言語処理を行なった上で、テキストデータ記憶部10に書き込む。ここで、テキスト収集部3が取得するウェブテキスト情報は、例えば、テレビやラジオの放送局が運営するウェブサイトに掲載されているニュース等のウェブテキスト情報である。なお、テキストデータ記憶部10に書き込まれたテキストデータは、後で詳述するように、言語モデル学習部9や話題抽出部14によって読み出され利用される。
話者データ記憶部4は、話者毎または話者属性毎の音響的特徴を統計的に表わした話者データと、発話末の単語列もしくは文節と、当該単語列の直後に発話者もしくは話者属性の交代が起こる確率とをテーブル化し、言語特徴量として予め記憶するものである。ここで、話者属性とは、例えば話者の性別(男性または女性)など、異なる音響的特徴に関連付けられる属性である。
話者識別部5は、話者データ記憶部4から読み出した話者データを用いて、映像音声収録部1が取得した音声を分析し、対応するクラス(話者名や話者属性)を算出して出力する。具体的には、話者識別部5は、映像音声収録部1が取得した音声を基にその音響的特徴量を求め、その音響的特徴が話者データ記憶部4に記憶されているいずれかの話者クラス(個別話者や話者属性に対応)に属するものであるか、或いは未知のものであるかについて、その確率を求める。また、音声認識部6から、音声認識結果を取得し、その末尾の単語列もしくは文節から、話者データ記憶部4に記憶されたテーブルを参照し、話者もしくは話者属性の交代が行われた確率を求める。話者識別部5は、音響特徴量と、言語特徴量から求めた確率を統合し、音声が話者データ記憶部4に記憶されているいずれかの話者クラスに属するか、あるいは未知のものであるかを判別する。話者クラスが既知であれば、話者識別部5は、対応する話者名または話者属性を識別結果として出力し、未知であれば、新たな話者クラスを生成し、話者クラスの番号を識別結果として出力する。
音声認識部6は、音響モデル記憶部7から読み出した音響モデルと言語モデル記憶部8から読み出した言語モデルとを用いて、映像音声収録部が取得した音声の音声認識処理を行ない、音声認識結果を出力する。この際、音声認識部6では、映像音声収録部が取得した音声について、音声認識の前処理として、まず、当該音声が人間の話し声の箇所か、音楽の箇所(人間の話し声に該当しない箇所)かを識別する。そして音声認識部6は、音楽と判定された区間については、開始時刻とともに音楽箇所であることを示すメタデータを出力する。話し声と判定された区間については、当該区間を音声認識し、発話内容を音声認識結果として出力する。この音声認識部6による音声認識処理自体には、既存の技術を利用する。なお、後でラティス展開・圧縮部12の処理の説明の箇所で詳述するように、音声認識部6は、単語仮説をエッジとするとともに単語と単語の間の時刻に対応するノードを有する有向非巡回グラフであるラティス構造のデータを、音声認識結果として出力する。このラティス構造のデータは、音声認識結果の仮説とそれら仮説の確率を表わすデータである。なお、このラティス構造のデータをフォワード・バックワード(forward−backward)アルゴリズム等によって走査することにより、事後確率を計算し、最尤単語列を求めることは可能である。
音響モデル記憶部7は、例えば音素などの言語的単位と、その音素が音声として発話された場合の音響的特徴量との関係を統計的に表わしたデータとしてなる音響モデルを記憶するものである。具体的には、音響モデルは、音素単位の表記と、音響的特徴量と、確率値とを関連付けたデータの集合として表わされる。なお、音響モデルには、例えば、隠れマルコフモデル(HMM)を利用する。
言語モデル記憶部8は、所定の言語において、例えば音素や単語などの言語的単位が出現する頻度(特徴)を統計的に表わしたデータとしてなる言語モデルを記憶するものである。具体的には、言語モデルとしては、例えば単語nグラム(n−gram)を用いる。この単語nグラムは、テキスト内で出現するn個(nは、自然数)の連続する単語の並びとそのn個の単語列の出現頻度を表わす出現確率(0以上で1以下の実数)との組を蓄積した統計的データである。
言語モデル学習部9は、テキストデータ取得部3が取得したテキストデータをテキストデータ記憶部10から読み出し、そのテキストデータの中における単語の出現頻度を統計的に算出することによって言語モデル記憶部9に記憶されている言語モデルを更新する処理を行なうものである。この言語モデル学習の処理の詳細については、後で、フローチャートを参照しながら説明する。
テキストデータ記憶部10は、テキスト取得部3がインターネット等を介して外部のウェブサーバ等から取得したテキストデータを記憶するものである。なお、このテキストデータは、形態素解析処理済のニュース原稿等である。
単語辞書記憶部11は、テキスト取得部3や言語モデル学習部9による処理の際に用いられる単語辞書データを記憶するものである。
ラティス展開・圧縮部12は、音声認識部6によって出力される音声認識結果としてラティスのデータ(単語仮説による有向非巡回グラフ)を圧縮する処理を行なう。なお、ラティス展開・圧縮部12は、バイグラム(bigram)によるラティスを一旦トライグラム(trigram)によるラティスに展開してから、圧縮する処理を行なう。このラティス展開・圧縮部12による処理の詳細については、後でフローチャートを参照しながら詳しく説明する。
音声情報統合部13は、少なくとも、音声認識部6から得られる音声認識結果(単語列、発話内容のテキスト)と、話題抽出部14から得られる話題とを統合し、音声情報として音声情報記憶部16に書き込む。また、音声情報統合部13は、話者識別部5から出力される話者または話者属性(例えば、話者の性別など)の識別結果も、発話内容に関連付けて、音声情報の一部として音声情報記憶部16に書き込む。さらに、音声情報統合部13は、放送番組のテーマやジングルや、効果音などの音楽や、複数の単語から構成される人名、地名、組織名、構造物など、特定の事物を指し示す固有表現をも音声情報の一部として統合し音声情報記憶部16に書き込む。なお、音声情報のデータ構造については後述する。
話題抽出部14は、テキストデータ取得部3が取得したテキストデータをテキストデータ記憶部10から読み出し、このテキストデータを前記音声認識部6から出力された音声認識結果と比較することにより話題を抽出する処理を行なう。より具体的には、話題抽出部14は、前記のテキストデータに含まれる所定数の単語組(3つ組など)が音声認識結果の所定数の単語中に含まれる数により類似度を算出し、この類似度に基づいてテキストデータと音声認識結果との間の対応付けを行なうことによって、テキストデータから話題を抽出する、なお、話題抽出部14の処理の詳細については、後でフローチャートを参照しながら説明する。
検索用転置インデックス作成部15は、音声認識部6による音声認識結果に基づき検索用転置インデックス(検索用インデックス)のデータを作成して検索用インデックス記憶部17に書き込む処理を行なう。なお、本実施形態では、検索用転置インデックス作成部15は、ラティス展開・圧縮部12により圧縮されたラティスのデータを基に検索用転置インデックスを作成する。なお、検索用転置インデックスのデータ構造については後述する。
音声情報記憶部16は、音声情報を記憶する。ここで、音声情報とは、番組ID、発話開始時刻、発話内容(単語列)のテキスト、話者名、話者性別、音楽(非音声情報)、話題、固有表現を含む情報である。この音声情報は、話者識別部5や、音声認識部6や、話題抽出部14の各部の処理によって得られた情報である。
検索用転置インデックス記憶部17は、音声認識結果に基づいて作られる検索用転置インデックスを記憶するものである。この検索用転置インデックスは、単語と、前記音声における発話時刻との対応関係の情報を含んでいる。ここで、本実施形態における発話時刻とは、番組を識別するための番組IDと発話開始時刻の組み合わせによって特定されるものである。
映像音声記憶部18は、映像・音声収録部1によって得られるデジタル動画データファイルを記憶するものである。このデジタル動画データファイルは、映像データおよび音声データを含んでいる。
検索サーバ部19は、音声情報記憶部16と検索用転置インデックス記憶部17と映像音声記憶部18からデータを読み出せるように構成されており、これらのデータを用いて検索クライアント部20からの検索要求に応じた検索処理を行なうとともに、その応答として、検索結果のデータを検索クライアント部20に返す。なお、検索結果のデータとは、検索の結果得られる音声情報(音声情報記憶部16から読み出された情報)や、デジタル動画データファイル(映像音声記憶部18から読み出された情報)である。
検索クライアント部20は、利用者からの入力に基づき検索要求を検索サーバ部19に送信するとともに、その応答として検索サーバ部19から返される検索結果のデータを画面等に表示する。これにより、利用者は、音声情報を検索し、検索結果を閲覧することができる。
図2は、音声情報記憶部16が記憶する音声情報の構造を示す概略図である。図示するように、音声情報は、表形式のデータであり、番組IDと、発話開始時刻と、発話内容(単語列)と、話者名と、話者性別(話者属性)と、音楽(非音声情報)と、話題と、固有表現の各項目を含む。音楽(非音声情報)は、放送番組のテーマ音楽や、ジングルや、効果音などの音楽である。固有表現は、複数の単語で構成される表現であり、人名、地名、組織名、構造物などといった特定の事物を指し示すものである。
図3は、検索クライアント部20に設けられている表示装置に表示される画面の構成を示す概略図である。クライアント検索部20は、検索の結果得られる音声情報およびデジタル動画データファイルの情報(映像と音声)をこの画面により利用者に提示する。
図示するように、この画面は、大きく3つの要素で構成されている。その第1は、音声情報が付与された番組一覧を表示するためのウィンドウ(符号113)である。そして、第2は、前記の番組一覧から選択された番組の映像・音声を表示するためのウィンドウ(符号111)である。そして、その第3は、音声認識結果(発話内容)を表示するウィンドウ(符号112)である。
まず第1の番組一覧のためのウィンドウ113は、同図に示す画面の左側に配置されており、(a)番組の代表的シーンを表わすサムネイル画像の表示エリア(符号102)と、(b)番組のタイトルの表示エリア(符号103)と、(c)番組に含まれる話題一覧(符号104)の各要素からなるものを一番組に対応する組として、複数番組分の表示を行なうようになっている。これら複数番組は縦に並べられており、新しい番組ほど上に、そして古い番組ほど下に表示されるようにしている。ここで表示される番組タイトルは、元々番組情報収集部2が取得したデータに基づくものであり、デジタル動画データファイルの中にメタデータとして含まれているものである。検索クライアント部20は、このメタデータの中から番組タイトルを読み出して表示エリア103に表示する。また、ここで表示される話題一覧は、元々話題抽出部14が抽出した情報である。検索クライアント部20は、音声情報の中から話題のデータを読み出して表示エリア104に一覧表示する。また、サムネイル画像は、デジタル動画データファイルから適宜抽出された静止画像である。
次に、第2の、番組の映像・音声を表示するためのウィンドウ111は、デジタル動画データファイルを再生することで得られる映像を表示するものである。利用者が前記の表示エリア102に表示されたサムネイル画像或いは前記の表示エリア103に表示された番組タイトルをクリックする操作を行なうと、検索クライアント部20は、当該番組のデジタル動画データファイルを番組冒頭部分から再生する。また、利用者が前記の表示エリア104に表示された話題のいずれかをクリックする操作を行なうと、検索クライアント部20は、当該番組のデジタル動画データファイルを、クリックされた話題に対応する箇所(当該話題の開始点)から再生する。
なお、このウィンドウ111の上の部分には、各種の操作ボタン等が表示されており、利用者がこれら操作ボタン等を操作することにより、検索クライアント部20は、番組の再生を開始したり停止したり、或いは再生箇所を変更したりする処理を行なう。
具体的には、符号108は、映像・音声の再生/停止ボタンである。映像・音声が停止されている状態のときにこのボタン108がクリックされると、検索クライアント部20は映像・音声の再生を開始する。また、映像・音声が再生されている状態のときにこのボタン108がクリックされると、検索クライアント部20は映像・音声の再生を停止させる。
また、符号107は再生位置を現再生位置から開始位置方向に30秒戻すためのボタンであり、符号106は再生位置を現再生位置から開始位置方向に10分戻すためのボタンであり、符号109は再生位置を現再生位置から終了位置方向に30秒進めるためのボタンであり、符号110は再生位置を現再生位置から終了位置方向に10分進めるためのボタンである。利用者がこれらのボタン106〜110のいずれかをクリックすると、検索クライアント部20は、それぞれのボタンに従って映像・音声の再生位置を変更する制御を行なう。
また、符号105は、再生位置を開始位置から終了位置までの間の任意の位置に移動させるためのスライダーであり、利用者がこのスライダー105を移動させる操作を行なうと、検索クライアント部20は、スライダー105の移動先の位置に応じた箇所に、映像・音声の再生位置を変更する制御を行なう。
次に、第3の、ウィンドウ112は、番組に対応する音声認識結果(発話内容)を表示するためのものである。検索クライアント部20は、発話内容のテキストをこのウィンドウ112に表示するとともに、再生中の映像・音声に同期させ、現時点で再生中の位置に対応する発話内容の単語を強調表示する。強調表示の方法としては、例えば、当該単語の背景を通常背景色とは異なる色で表示(いわゆるハイライト表示)させる方法をとる。つまり、映像・音声の再生が進むにつれて、順次、ハイライト表示される単語が遷移していく。これは、音声認識部6による音声認識結果を基に、単語毎の発話時刻を記憶しておき、再生時の経過時間に沿って現在発話中の単語をハイライト表示することによって実現する。また、音声情報として話者名あるいは話者属性が得られている場合には、話者名や話者属性を併せて表示するようにしても良い。
さらに、図3に示す画面には、検索のためのテキスト入力部100と検索ボタン101が設けられている。利用者がキーボード等を操作することによりテキスト入力部100に検索語を入力した後に検索ボタン101を押すと、検索クライアント部20は、検索サーバ部19に対して入力された検索語を含んだ検索要求を送信する。検索サーバ19では、検索語を形態素解析して形態素解析済みの検索語を用いて索引を検索する。そして、検索サーバ19からの応答により検索結果のデータが得られると、検索クライアント部20は、前記のウィンドウ113に、番組一覧の代わりに検索結果を表示する。
図4は、検索結果の表示画面の構成を示す概略図である。前述の通り、この検索結果は、ウィンドウ113に表示されるものである。同図に示すように、検索結果を表示するときのウィンドウ113は、(a)検索時に用いられた検索語を含む発話に対応する代表的画像をサムネイル画像として表示するための表示エリア(符号120)と、(b)番組のタイトルの表示エリア(符号121)と、(c)当該番組内で上記検索語にマッチした発話の開始時刻の表示エリア(符号122)と、(d)その発話内容の表示エリア(符号123)とを含む。
なお、検索クライアント部20は、表示エリア122と表示エリア123を一組として、当該番組内で上記検索語にマッチした発話の出現数分の組の表示を行なう。
また、検索結果として複数の番組がマッチした場合には、検索クライアント部20は、それらそれぞれの番組についての表示を行なう。
なお、同図に示す表示においても、表示される番組タイトルは、元々番組情報収集部2が取得したデータに基づくものであり、デジタル動画データファイルの中にメタデータとして含まれているものである。また、表示されるサムネイル画像は、デジタル動画データファイルから適宜抽出された静止画像である。
次に、テキスト収集部3と言語モデル学習部9の詳細な処理手順について説明する。
図5は、テキスト収集部3および言語モデル学習部9による処理の手順を示すフローチャートである。
ステップS201において、テキスト収集部3は、所定の時間間隔でデータソースチェックを行なう。つまり、テキスト収集部3は、例えば放送局のウェブサイトのサーバなどといった外部のコンピュータにアクセスし、前回アクセス時のウェブサイトのデータと比較することによって、今回そこから新規のニュース原稿や話題のテキストデータが得られるか否かをチェックする。そして、新規のデータが得られた場合(ステップS201:YES)には次のステップS202に進み、得られなかった場合(ステップS201:NO)にはステップS201に戻ってさらに前記所定時間経過後にデータソースチェックの処理を繰り返す。
次に、ステップS202において、テキスト収集部3は、ステップS201で得られたテキストデータの形態素解析処理を行い、その結果をテキストデータ記憶部10に書き込む。ここで、形態素解析処理自体は、既存の技術を利用する。このステップでの処理の結果、テキストデータ記憶部10には、単語単位に分割されたテキストデータ(ニュース原稿等)が保存される。
ステップS204において、言語モデル学習部9は、テキストデータ記憶部10へのデータの蓄積状況を監視し、新規のデータが所定量以上蓄積されたか否かをチェックする。そして、新規データが所定量以上蓄積されていた場合(ステップS204:YES)には次のステップS205に進み、そうでない場合(ステップS204:NO)にはステップS201の処理に戻る。
次に、ステップS205において、言語モデル学習部9は、テキストデータ記憶部10から新規データを読み出し、そのデータに基づいて言語モデルを作成する処理を行なう。このとき、言語モデル学習部9は単語辞書記憶部11から読み出す辞書データを参照する。前述の通り、ここで作成される言語モデルはnグラムであり、言語モデル学習部9は、テキストデータ記憶部10から読み出した形態素解析済みのテキストデータを基に、連続するn個の単語列ごとの出現頻度をカウントし、統計的処理をすることによって言語モデルのデータを作成する。そして、その結果に基づき、言語モデル学習部9は、言語モデル記憶部8のデータを書き換える。
そして、ステップS206において、言語モデル学習部9は、音声認識部6に対して、更新された言語モデル記憶部8のデータをロードし直すように通知する。その通知に基づき、音声認識部6が言語モデルをロードしなおすことにより、音声認識部6は常に最新の言語モデルを用いて音声認識の処理を行なうことができる。
図6は、話題抽出部14による処理の手順を示すフローチャートである。以下では、話題抽出部14による処理の詳細を説明する。
この処理においては、話題抽出部14は、ウェブサイトから得られたニュース原稿等のテキストデータの冒頭m単語と、音声認識部6から取得した発話内容における発話開始からのm単語とを比較し、両者間の類似度を計算することによって音声認識結果がどのテキストデータと一致するものであるかを判定する。なお、mは正整数である。
なお、話題抽出部14による処理を行なうに当たり、音声認識部6は、音声認識結果に対して1から始まる一連の番号を予め付与する。また、テキスト収集部3がウェブサイトから収集したテキストのうちの最新のK個(Kは正整数)のファイルを話題抽出部14による処理の対象とし、これらK個のファイルにも1から始まる一連の番号が付与されている。
以下、同図のフローチャートに沿って説明する。
ステップS301において、話題抽出部14は、音声認識部6から音声認識結果(発話内容)を取得する。ここで取得する音声認識結果は、事後確率による最尤単語列である。
次に、ステップS302において、話題抽出部14は、変数nを1に設定(初期化)する。
そして、ステップS303において、話題抽出部14は、第n発話の冒頭m単語取り出す。
ステップS304において、話題抽出部14は、テキストデータ記憶部10から読み出した第k番目(k=1,2,・・・,K)のテキストデータの冒頭m単語と、ステップS303において取り出したm単語との間の類似度を計算する。第n発話の冒頭m単語と第k番目のテキストデータの冒頭m単語との間の類似度は、例えば次のように定義される。即ち、その類似度は、k番目のテキストデータのm単語に含まれる単語3つ組(単語組)が、第n発話のm単語に含まれる数とする。
ステップS305において、話題抽出部14は、算出された類似度が閾値以上か否かを判定する。なお、この閾値は、予め適切に定められ設定されている。そして、類似度がこの閾値以上の場合(ステップS305:YES)はステップS307に進む。そして、類似度がこの閾値未満の場合(ステップS305:NO)はステップS306に進む。
ステップS306において、話題抽出部14は、変数nをインクリメントする(n←n+1)。ステップS306の処理を終えると、ステップS303の処理に戻る。
ステップS307においては、話題抽出部14は、この第n番目の発話を、第k番目の話題の開始点とする。即ち、話題抽出部14は、音声認識結果のデータに話題境界情報を付与する。これにより、音声認識結果を話題境界にて分割することが可能になるとともに、分割された結果に対して話題を関連付けて記憶させることができる。
以上述べたステップS301からS307までの一連の処理を、話題抽出部14は、第1番目から第K番目までの各々のテキストデータに対して行なう。
図7,図8,図9は、ラティス展開・圧縮部12による処理の手順を示す一連のフローチャートである。ラティス展開・圧縮部12は、前掲の[非特許文献1]および[非特許文献2]に記載されている従来法を改良した方法により音声認識結果のラティスの展開および圧縮を行なう。
音声認識部6は、音声認識結果を表わすラティス構造(有向非巡回グラフ)のデータを出力する。このデータは、音声認識結果の単語をエッジとし、開始点、中間点、終了点のいずれかをノードとする有向グラフである。開始点と終了点のノードは1つずつ存在し、中間点のノードは通常は複数存在する。これらのノードは、それぞれ所定の時刻に対応している。つまり、ノードAを始端としてノードBを終端とするエッジが存在するとき、ノードAの時刻が当該エッジに対応する単語の始端時刻であり、ノードBの時刻が当該エッジに対応する単語の終端時刻である。すべてのノードは連結されており、開始点のノードからはエッジをたどって全ての中間点のノードに到達可能であり、任意の中間点のノードからはエッジをたどって終了点のノードに到達可能である。音声認識部6による出力は確率を伴う音声認識結果の仮説であり、開始点と終了点との間において並列する経路(つまり時刻的に重なりを有する複数の経路)は互いに対立する仮説に対応するものである。
なお、本実施形態では、このようなラティス構造を、ノードおよびエッジをそれぞれエンティティとするリレーショナルデータで表現し、各処理部間での受け渡しを行なう。
また、このラティスは、隣り合う2つの単語を結合するバイグラム(bigram)言語モデルに基づくものである。
以下、このフローチャートに沿って説明する。
まず、図7のステップS401において、ラティス展開・圧縮部12は、音声認識部6から上記のラティス構造の音声認識結果データを取得する。
次に、ステップS402において、ラティス展開・圧縮部12は、上で取得したラティスを、連続する3つの単語を結合するトライグラム(trigram)言語モデルに基づくラティスに展開する。この展開処理自体は前述の従来技術を利用する。
次に、ステップS403において、ラティス展開・圧縮部12は、上で得られたラティスをフォワード・バックワード(forward−backward)アルゴリズムにより走査し、事後確率を計算する。そして、事後確率が最大となる経路(最尤系列)を取得し、圧縮ラティスの基礎となるグラフpを構成する。
次に、ステップS404からS409までにおいて、ラティス展開・圧縮部12は、エッジのクラスタリング処理を行なう。このクラスタリング処理の詳細は次の通りである。
即ち、ラティス展開・圧縮部12は、ステップS404において、エッジ集合E{e1,e,e,e,・・・}から、この集合要素を事後確率の降順に並べ替えたリスト{e’1,e’,e’,e’,・・・,e’,・・・}を生成する。
そして、ラティス展開・圧縮部12は、ステップS405において、クラスタリングのための変数nを1に初期化する。
次のステップS406からS409までは、上記リストの要素を順次走査する処理である。
ラティス展開・圧縮部12は、上記リストの番目のエッジe’を取り出したとき、発話時刻の重なりが予め定められた所定の閾値よりも大きく、且つエッジ上の単語表記が同一となる巡回済み(走査済み)のm番目のエッジe’(n>m)があれば(ステップS406:YES)、ステップS407において、エッジe’をエッジ集合Eから取り除くとともに、エッジe’の事後確率にエッジe’の事後確率を加える。なお、ステップS407における判定結果が否定的である場合には、ステップS407をスキップして次のステップS408に進む。
そして、ラティス展開・圧縮部12は、次のステップS408において、クラスタリングのための変数nをインクリメントする(n←n+1)。
そして、ステップS409において、ラティス展開・圧縮部12は、エッジクラスタリングが全て終了したか否かを判定する。そして、全て終了していない場合(ステップS409:NO)には、残りのエッジ集合について同様の処理を行なうためにステップS406に戻る。全て終了していた場合(ステップS409:YES)には、次のステップS410に進む。
次に、図8のステップS410からS417まででは、ラティス展開・圧縮部12は、エッジの集約を行う。
まずステップS410において,上記のエッジ集合Eの要素を事後確率の降順に並べかえたエッジリストを生成する。
そして、ラティス展開・圧縮部12は、ステップS411において、集約のための変数nを1に初期化する。
ステップS412において、ラティス展開・圧縮部12は、上記のエッジリストのn番目のエッジe’の事後確率が定められた閾値以上か否かを判定する。そして、エッジe’の事後確率が定められた閾値に満たない場合(ステップS412:NO)はステップS413に進み、その事後確率が閾値以上の場合(ステップS412:YES)はステップS414に進む。
ステップS413に進んだ場合、ラティス展開・圧縮部12は、e’をエッジ集合Eから取り除くとともに、ステップS416に進む。
ステップS414に進んだ場合、S414において、ラティス展開・圧縮部12は、エッジe’に対し発話時刻の重なりが所定の閾値以上となるエッジe’(但し、n>m)を探索する。
そのようなe’が存在すれば(ステップS414:YES)、次のステップS415において、ラティス展開・圧縮部12は、エッジe’の始終端ノードをエッジe’の始終端ノードに変更する。
ステップS414における判定結果が否定的であった場合は、ステップS415の処理をスキップして、次のS416に進む。
ステップS416においては、変数nをインクリメントする(n←n+1)。
そして、ステップS417において、ラティス展開・圧縮部12は、集約処理がすべて完了したか否かを判定する。エッジ集合中で昇順に全てのエッジについて上のステップS415の処理を終えている場合(ステップS417:YES)には次のステップS418の処理に進み、まだ残っているエッジがある場合(ステップS417:NO)にはステップS412に戻って次のエッジについての処理を行なう。
そして、図9のステップS418からS429まででは、ラティス展開・圧縮部12は、前記のクラスタリングおよび集約により得られたエッジ集合を系列pにマージしていくことで圧縮ラティスを得る。
まずステップS418において、ラティス展開・圧縮部12は、ラティスのノード集合をトポロジカルオーダーで並べかえたリストを得る。
そしてステップS419において、マージのための変数kを1に初期化する。
そしてステップS420において、ラティス展開・圧縮部12は、ノードvを始点とするエッジのリストをエッジ集合Eから生成する。
そしてステップS421において、変数l(エル)を1に初期化する。
そしてステップS422において、ラティス展開・圧縮部12は、エッジリストのl(エル)番目のエッジeについて、発話時刻の重なりが最大となる圧縮ラティスのエッジfを探索する。
そしてステップS423においてこのfが訪問済みであるか否かを判定する。訪問済みであれば(ステップS423:YES)次のステップS424に進み、未訪問の場合(ステップS423:NO)はステップS425に進む。
ステップS424に進んだ場合、ラティス展開・圧縮部12は、fの終端ノードを2つに分け、新たなノードfを圧縮ラティス上に作成し、エッジeの単語表記と事後確率をコピーする。そしてステップS426に進む。
ステップS425に進んだ場合、fの始端・終端を結ぶ新たなエッジfを生成して、エッジeの単語表記と事後確率をコピーする。なお、この際、fは訪問済みとする。そしてステップS426に進む。
ステップS426においては、変数l(エル)をインクリメントする(l←l+1)。
ステップS427ではエッジリスト終了判定を行い、終了している場合(ステップS427:YES)にはステップS428に進み、未終了の場合(ステップS427:NO)にはステップS422に戻る。
また、ステップS428においても別の終了判定を行い、終了している場合(ステップS428:YES)にはこのフローチャート全体の処理を終了し、未終了の場合(ステップS428:NO)にはステップS429に進む。
ステップS429においては、変数kをインクリメントし(k←k+1)、ステップS420に戻る。
つまり、ラティス展開・圧縮部12は、ステップS422からS425までの操作を、エッジ集合Eのすべてのエッジについて行い、圧縮ラティスを得る。
ラティス展開・圧縮部12による上述の処理のポイントは、要するに、次の(1)〜(3)の通りである。
(1)ラティス上のエッジについて、発話開始時刻・発話終了時刻がオーバーラップするエッジのうち、同一の表記を持つエッジをクラスタリングする(つまり、エッジの始端と終端を事後確率の大きなもので代表させ、事後確率の和を大きな方(代表させたほう)に与える)。
(2)ラティス上のエッジについて,オーバーラップするエッジをクラスタリングする(つまり、同一の始端ノードおよび終端ノードを持つようにする)。
(3)ラティス上のエッジについて、トポロジカルな順番でノードを訪問し、リンクをマージしていく。
これにより、従来技術による方法よりも高速に、且つ高圧縮率で、音声認識結果のラティスデータを圧縮することができる。
以上説明した手順の処理により、ラティス展開・圧縮部12は、展開されたラティスを基に、これを圧縮し、圧縮ラティス(コンフュージョンネットワーク)を作成する。
なお、これによって得られた圧縮ラティスに関して、隣接するノード間を結ぶエッジの事後確率の総和が1を超える場合には、それらのエッジの各々の事後確率を前記事後確率の総和で割る処理を行なう。逆に、隣接するノード間を結ぶエッジの事後確率の総和が1に満たない場合には、それらノード間に空の単語表記を持つ新たなエッジを生成し、エッジの事後確率の総和が1になるように、新たに生成されたエッジの事後確率値を設定する。ここで、新たに生成されたエッジの事後確率値は、1−(他のエッジの事後確率の総和)である。
音声認識結果のラティスデータの量は膨大なものとなるが、上述したようにラティス展開・圧縮部12がラティスを圧縮することにより、扱い易いサイズのデータにすることができ、処理の高速化を図れる。
図10は、検索用転置インデックス作成部15による処理の手順を示すフローチャートである。以下、このフローチャートに沿って検索用インデックスの作成の方法を説明する。
まずステップS501において、検索用転置インデックス作成部15は、ラティス展開・圧縮部12から、コンパクトに圧縮された1発話分のラティスのデータを取得する。以下のステップにおいては、このラティスに含まれる各エッジについての処理を行なう。
次に、ステップS502において、検索用転置インデックス作成部15は、現エッジに単語表記が割り当てられているか否かを判定する。割り当てられている場合(ステップS502:YES)には次のステップS503に進み、割り当てられていない場合(ステップS502:NO)にはステップS504に飛ぶ。
そしてステップS503において、検索用転置インデックス作成部15は、現エッジに割り当てられている単語表記に基づいて、検索用転置インデックス記憶部17に1レコードを追加する形で更新を行なう。
図11は、検索用転置インデックス記憶部17が記憶する転置インデックスのデータ構成を示す概略図である。図示するように、この転置インデックスは、表形式のデータであり、単語表記IDと番組IDと発話開始時刻の各項目を有している。単語表記IDは、単語表記を一意に識別するためのデータであり、エッジに割り当てられた単語のIDが未付与の場合、新たなIDを符号なし32ビット整数として付与する。番組IDは、音声認識の対象となっている放送番組を一意に識別するためのデータである。そして、発話開始時刻は、1つの発話を単位として、当該番組内における当該発話の開始位置を表わす時刻情報である。この時刻情報は、番組開始時からの相対時刻で表わしても良いし、現実の日時(例えば日本標準時)で表わしても良い。転置インデックスがこのような構造をとることにより、この検索用転置インデックス記憶部17から、番組ごとの単語表記の出現回数を容易に取り出すことができる。つまり、検索サーバ部19は、前述の検索処理を行なう際に、この検索用転置インデックス記憶部17から読み出す情報を活用することができる。
図10に戻って、次にステップS504において、検索用転置インデックス作成部15は、与えられた1発話分のラティスにおいて全てのエッジの処理を終えたか否かを判定する。全てのエッジの処理を終えている場合(ステップS504:YES)にはこのフローチャート全体の処理を終了し、まだ残っているエッジが存在する場合(ステップS504:NO)には次のエッジを処理するためにステップS502に戻る。
なお、上述した音声情報抽出装置の機能は、電子回路によって実現される。
また特に、同装置の機能を、単数又は複数のストアドプログラム方式のコンピュータで実現することが好適である。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
<実施例>
前記の実施形態の動作を検証するため、実際にシステムを構築した。その概要を以下に記載する。
映像・音声収録部1は、テレビチューナーから映像および音声の信号を取得できる構成とし、予め設定した日時に設定されたチャンネルの放送を実際に受信して取り込むようにした。日時およびチャンネルの設定は、NHK(日本放送協会)のウェブサイトにある放送番組表や放送波に重畳されたEPGに基づいて自動的に行われる。一方で、利用者インタフェースを通して画面から行なえるようにもした。また、随時、利用者からのボタン操作により、映像および音声の取得の開始/終了を行なうとともに、チャンネル設定を変更できるようにした。
テキスト収集部3は、インターネットを介してNHKのウェブサイトから放送番組に関するテキスト情報を取得できるようにした。
音声情報抽出装置50を構成する各機能は、コンピュータ用のプログラムを記述し、LANで連携する複数台のコンピュータ上でそれらのプログラムを実行させることによって実現した。
また、検索クライアント部20においては、検索結果が前述の方法で表示され、そこから利用者が選んだ映像および音声を再生表示させるようにした。
また、番組に出演するアナウンサー等のそれぞれの音響的特徴を話者データ記憶部4に予め記憶させておいたことにより、話者識別を高精度で行ない、音声認識結果のテキストとともに話者名を表示させることができた。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明を利用することにより、放送番組や映像・音声リソースを索引化し、容易に検索・閲覧できるようにすることが可能となる。
また、本発明を利用することにより、抽出された音声情報をメタデータ制作システムに提供し、放送サービスを行なうことが可能となる。
また、本発明を利用することにより、音声認識装置で用いる統計的音響モデルおよび統計的言語モデルを構築するために、音声データおよび関連するテキストデータを効率的に収集することが可能となる。
1 映像・音声収録部
2 番組情報収集部
3 テキスト収集部
4 話者データ記憶部
5 話者識別部
6 音声認識部
7 音響モデル記憶部
8 言語モデル記憶部
9 言語モデル学習部
10 テキストデータ記憶部
11 単語辞書記憶部
12 ラティス展開・圧縮部(ラティス圧縮部)
13 音声情報統合部
14 話題抽出部
15 検索用転置インデックス作成部(検索用インデックス作成部)
16 音声情報記憶部
17 検索用転置インデックス記憶部(検索用インデックス記憶部)
18 映像音声記憶部
19 検索サーバ部
20 検索クライアント部
50 音声情報抽出装置

Claims (5)

  1. 映像および音声を記憶する映像音声記憶部と、
    単語と、音声における発話時刻との対応関係を含んでなる検索用インデックスを記憶する検索用インデックス記憶部と
    発話時刻と、単語の列である発話内容と、話題と、話者名または話者属性の少なくともいずれかと、を関連付けてなる音声情報を記憶する音声情報記憶部と
    音声の音響的特徴を統計的に表わした音響モデルを記憶する音響モデル記憶部と、
    単語の出現頻度を統計的に表わした言語モデルを記憶する言語モデル記憶部と、
    話者毎または話者属性毎の音響的特徴を統計的に表した話者データを予め記憶する話者データ記憶部と、
    映像および音声を外部から取得して前記映像音声記憶部に書き込む映像音声収録部と、
    前記音響モデル記憶部から読み出した前記音響モデルと前記言語モデル記憶部から読み出した前記言語モデルとを用いて、前記映像音声収録部が取得した前記音声の音声認識処理を行ない、音声認識結果を出力する音声認識部と、
    前記話者データ記憶部から読み出した前記話者データを用いて、前記映像音声収録部が取得した前記音声に対応する話者名または話者属性を算出して出力する話者識別部と、
    前記映像音声収録部が取得した前記映像および前記音声に関連するテキストデータを外部から取得するテキストデータ取得部と、
    前記テキストデータ取得部が取得した前記テキストデータと前記音声認識部により出力された前記音声認識結果とを比較することにより話題を抽出する話題抽出部と、
    前記音声認識結果と、前記話題と、前記話者名または前記話者属性の少なくともいずれか、を統合してなる音声情報を前記音声情報記憶部に書き込む音声情報統合部と、
    前記音声認識結果に基づき前記検索用インデックスのデータを作成して前記検索用インデックス記憶部に書き込む検索用インデックス作成部と、
    検索語による検索要求に基づき前記検索用インデックス記憶部および前記音声情報記憶部を検索し、前記検索語に該当する前記映像および前記音声に関連付けられた前記音声情報を前記音声情報記憶部から読み出して検索元に対して検索結果として提示するとともに、前記映像音声記憶部に記憶されている当該映像および当該音声を再生可能とする検索サーバ部と、
    を具備することを特徴とする音声情報抽出装置。
  2. 前記話題抽出部は、前記テキストデータに含まれる所定数の単語組が前記音声認識結果の所定数の単語中に含まれる数により類似度を算出し、この類似度に基づいて前記テキストデータと前記音声認識結果との間の対応付けを行なうことによって、前記テキストデータから前記話題を抽出する、
    ことを特徴とする請求項1に記載の音声情報抽出装置。
  3. 前記テキストデータ取得部が取得した前記テキストデータの中における単語の出現頻度を算出することによって前記言語モデル記憶部に記憶されている前記言語モデルを更新する言語モデル学習部を更に具備することを特徴とする請求項1または2に記載の音声情報抽出装置。
  4. 前記音声認識部が前記音声認識結果として出力する単語仮説の有向非巡回グラフを表わすラティスデータを圧縮する処理を行なうラティス圧縮部を更に具備し、
    前記検索用インデックス作成部は、前記ラティス圧縮部によって圧縮された前記ラティスデータに基づいて前記検索用インデックスを作成する、
    ことを特徴とする請求項1から3までのいずれか一項に記載の音声情報抽出装置。
  5. 利用者からの入力に基づく検索語を用いて前記検索サーバ部に対して前記検索要求を送信し、前記検索サーバ部からの前記検索結果を画面に表示し、更に利用者からの操作に基づいて、該当する前記映像および前記音声を再生する検索クライアント部を更に具備することを特徴とする請求項1から4までのいずれか一項に記載の音声情報抽出装置。
JP2009111587A 2009-04-30 2009-04-30 音声情報抽出装置 Active JP5296598B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009111587A JP5296598B2 (ja) 2009-04-30 2009-04-30 音声情報抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009111587A JP5296598B2 (ja) 2009-04-30 2009-04-30 音声情報抽出装置

Publications (2)

Publication Number Publication Date
JP2010262413A JP2010262413A (ja) 2010-11-18
JP5296598B2 true JP5296598B2 (ja) 2013-09-25

Family

ID=43360435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009111587A Active JP5296598B2 (ja) 2009-04-30 2009-04-30 音声情報抽出装置

Country Status (1)

Country Link
JP (1) JP5296598B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5723711B2 (ja) * 2011-07-28 2015-05-27 日本放送協会 音声認識装置および音声認識プログラム
US20140373082A1 (en) * 2012-02-03 2014-12-18 Sharp Kabushiki Kaisha Output system, control method of output system, control program, and recording medium
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
CN104639869B (zh) * 2014-12-09 2018-04-20 广东威创视讯科技股份有限公司 视频会议联想提示的方法与***
JP6721981B2 (ja) * 2015-12-17 2020-07-15 ソースネクスト株式会社 音声再生装置、音声再生方法及びプログラム
JP6680009B2 (ja) * 2016-03-15 2020-04-15 カシオ計算機株式会社 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム
JP7137825B2 (ja) * 2018-06-04 2022-09-15 Jcc株式会社 映像情報提供システム
CN111107437A (zh) * 2019-12-27 2020-05-05 深圳Tcl新技术有限公司 影视观后感的互动方法、***、显示终端及可读存储介质
CN114880496A (zh) * 2022-04-28 2022-08-09 国家计算机网络与信息安全管理中心 多媒体信息话题分析方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1016985A3 (en) * 1998-12-30 2004-04-14 Xerox Corporation Method and system for topic based cross indexing of text and audio
US6345252B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information

Also Published As

Publication number Publication date
JP2010262413A (ja) 2010-11-18

Similar Documents

Publication Publication Date Title
JP5296598B2 (ja) 音声情報抽出装置
CN111968649B (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
US11197036B2 (en) Multimedia stream analysis and retrieval
KR101255405B1 (ko) 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체
JP6820058B2 (ja) 音声認識方法、装置、デバイス、及び記憶媒体
CN101382937B (zh) 基于语音识别的多媒体资源处理方法及其在线教学***
CN101202864B (zh) 动画再现装置
US6873993B2 (en) Indexing method and apparatus
JP5142769B2 (ja) 音声データ検索システム及び音声データの検索方法
KR20090130028A (ko) 분산 음성 검색을 위한 방법 및 장치
US20100169095A1 (en) Data processing apparatus, data processing method, and program
KR20120038000A (ko) 대화의 주제를 결정하고 관련 콘텐트를 획득 및 제시하는 방법 및 시스템
KR20090111825A (ko) 언어 독립적인 음성 인덱싱 및 검색 방법 및 장치
CN103730115A (zh) 一种语音中检测关键词的方法和装置
JP2010161722A (ja) データ処理装置、データ処理方法、及び、プログラム
Akbacak et al. Open-vocabulary spoken term detection using graphone-based hybrid recognition systems
JP2015212731A (ja) 音響イベント認識装置、及びプログラム
JP4100243B2 (ja) 映像情報を用いた音声認識装置及び方法
Lebourdais et al. Overlaps and gender analysis in the context of broadcast media
KR20060100646A (ko) 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템
Choi et al. Pansori: ASR corpus generation from open online video contents
JP5231130B2 (ja) キーフレーズ抽出装置、シーン分割装置およびプログラム
CN114514528A (zh) 数据处理方法、装置、电子设备和存储介质
JP2006338550A (ja) メタデータ作成装置及びメタデータ作成方法
JP7352491B2 (ja) ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130613

R150 Certificate of patent or registration of utility model

Ref document number: 5296598

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250