JP5296598B2

JP5296598B2 - 音声情報抽出装置

Info

Publication number: JP5296598B2
Application number: JP2009111587A
Authority: JP
Inventors: 彰夫小林; 亨今井; 貴裕奥; 庄衛佐藤; 真一本間
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2009-04-30
Filing date: 2009-04-30
Publication date: 2013-09-25
Anticipated expiration: 2029-04-30
Also published as: JP2010262413A

Description

本発明は、入力される映像・音声から、音声情報を抽出し、抽出された音声情報を検索・閲覧可能とする音声情報抽出装置に関する。

特許文献１の、特に請求項７には、テレビジョンの放送番組データに含まれる映像信号を表示装置に表示するとともに、当該放送番組データに含まれる音声データに対して音声認識処理を行なうことによって文章情報を取得し、所定の時刻に、取得した文章情報を形態素解析することによってキーワードを抽出して、抽出されたキーワードと当該時刻の情報とを共に記憶装置に蓄積し、これらを履歴として時系列に提示し、いずれかの時刻情報が選択された場合に、選択された時刻情報と共に前記記憶装置に記憶されたキーワードの一覧を表示する情報処理装置が記載されている。また、このキーワードを用いることにより、インターネット等の通信回線を介して、外部から関連する詳細情報を取得できるようになる。

非特許文献１および非特許文献２には、音声認識結果のラティスのデータを展開したり圧縮したりする技術が記載されている。
非特許文献１に記載されている方法は、ラティスを集約する際に、発話時刻の重なりと、単語表記の発音の類似性を調べる。例えば「リンカーン」と「印鑑（いんかん）」は発音が類似しているといったことを調べる。これにより、単語仮説（正解候補）の対立関係を求めることができる。
また、非特許文献２に記載されている方法は、ラティスを圧縮する際に、予め圧縮ラティスの元になるグラフ（最尤系列）をラティスから選んでおく。そして、その後、ラティスを巡回する順番を変えながら、圧縮ラティスにノード、エッジを追加していく。

特開２００９−０７７１６６号公報

L. Mangu, E. Brill, A. Stolcke, "Finding consensus in speech recognition: word error minimization and other applications of confusion networks", Computer Speech and Language, vol. 14, no. 4, pp.373-400, ２０００年． D. Hakkani-Tur, F. Bechet, G. Riccardi, G. Tur, "Beyond ASR 1-best: Using word confusion networks in spoken language understanding", Computer Speech and Language, Vol. 20, No. 4, pp.495-514, 2006.

しかしながら、上記の従来技術（特に、特許文献１に記載の技術）では、番組等の音声を認識してキーワードを抽出し、そのキーワードに関連する情報を外部から取得することはできるものの、番組等を検索対象とすることはできない。
また、従来技術では、外部から取得した情報と番組等の音声そのものとの関係が利用者にわかりにくい。
また、テレビやラジオなどの放送などにおける言語表現の変化により、音声認識の精度が落ちることも考えられる。

また、非特許文献１に記載されているラティスデータ処理方法では、エッジのクラスタリングを音素列に変換した単語仮説同士の編集距離に基づいてクラスタリングするため、ラティスの圧縮に時間がかかるという問題がある。つまり、単語表記ごとに発音の類似度を比べるため、圧縮の手続きに時間がかかるという問題がある。
また、非特許文献２に記載されているラティスデータ処理方法では、非特許文献１に記載されている手法よりは高速にラティスを圧縮することが可能だが、単語仮説のクラスタリングを行わないため、圧縮率が低いという問題がある。つまり、発音の類似性の比較を行わないので、圧縮ラティスの精度が悪いという問題がある。

本発明は、上記の課題認識に基づいて為されたものであり、映像および音声を蓄積するとともに、その発話内容を対象として映像および音声を検索することができ、検索結果として音声の該当箇所における話題や話者に関する情報などといった音声情報も利用者にわかりやすく提示することのできる、音声情報抽出装置を提供することを目的とする。

また、本発明は、言語表現が変化しても音声認識の精度が落ちない構成を備えた音声情報抽出装置を提供することを目的とする。

さらに、本発明では、音声認識処理の結果得られるラティスデータを、高速に且つ高圧縮率で圧縮し、利用することのできる音声情報抽出装置を提供することも目的とする。

［１］上記の課題を解決するため、本発明の一態様による音声情報抽出装置は、映像および音声を記憶する映像音声記憶部と、単語と、音声における発話時刻と、の対応関係を含んでなる検索用インデックスを記憶する検索用インデックス記憶部と、発話時刻と、単語の列である発話内容と、話題と、話者名または話者属性の少なくともいずれかと、を関連付けてなる音声情報を記憶する音声情報記憶部と、音声の音響的特徴を統計的に表わした音響モデルを記憶する音響モデル記憶部と、単語の出現頻度を統計的に表わした言語モデルを記憶する言語モデル記憶部と、映像および音声を外部から取得して前記映像音声記憶部に書き込む映像音声収録部と、前記音響モデル記憶部から読み出した前記音響モデルと前記言語モデル記憶部から読み出した前記言語モデルとを用いて、前記映像音声収録部が取得した前記音声の音声認識処理を行ない、音声認識結果を出力する音声認識部と、話者毎または話者属性毎の音響的特徴を統計的に表わした話者データを予め記憶する話者データ記憶部と、前記話者データ記憶部から読み出した前記話者データを用いて、前記映像音声収録部が取得した前記音声に対応する話者名または話者属性を算出して出力する話者識別部と、前記映像音声収録部が取得した前記映像および前記音声に関連するテキストデータを外部から取得するテキストデータ取得部と、前記テキストデータ取得部が取得した前記テキストデータと前記音声認識部により出力された前記音声認識結果とを比較することにより話題を抽出する話題抽出部と、前記音声認識結果と、前記話題と、前記話者名または前記話者属性の少なくともいずれか、とを統合してなる音声情報を前記音声情報記憶部に書き込む音声情報統合部と、前記音声認識結果に基づき前記検索用インデックスのデータを作成して前記検索用インデックス記憶部に書き込む検索用インデックス作成部と、検索語による検索要求に基づき前記検索用インデックス記憶部および前記音声情報記憶部を検索し、前記検索語に該当する前記映像および前記音声に関連付けられた前記音声情報を前記音声情報記憶部から読み出して検索元に対して検索結果として提示するとともに、前記映像音声記憶部に記憶されている当該映像および当該音声を再生可能とする検索サーバ部と、を具備することを特徴とする。
ここで、映像および音声とは、それぞれ映像および音声を表わす電気的な信号あるいはデータである。これらはコンピュータ等によって処理可能である。
また、発話時刻とは、番組ＩＤ（放送チャンネルと番組名から定める一意の数値などの識別情報）と発話開始時刻との組み合わせによって表わされる情報である。この発話開始時刻は、番組開始時からの相対時刻や、現実の日時（例えば日本標準時）で表わされる。
また、音声情報とは、音声に関する情報であり、その詳細は後述する。

上記の構成によれば、音声認識結果と抽出された話題とを音声情報として統合して記憶部に記憶させるとともに、検索用インデックスが記憶部に記憶されていることにより、検索語による検索要求に対して、合致する発話内容（音声認識結果）を有する番組と、その発話内容に関連する話題とを検索結果として利用者に提示できる。また、その検索結果から選択された番組の映像および音声を再生表示することができる。

［２］また、本発明の一態様は、上記の音声情報抽出装置において、前記話題抽出部は、前記テキストデータに含まれる所定数の単語組が前記音声認識結果の所定数の単語中に含まれる数により類似度を算出し、この類似度に基づいて前記テキストデータと前記音声認識結果との間の対応付けを行なうことによって、前記テキストデータから前記話題を抽出することを特徴とする。
この構成により、話題を抽出するとともに、音声認識結果において話題境界を特定することができる。

［３］また、本発明の一態様は、上記の音声情報抽出装置において、前記テキストデータ取得部が取得した前記テキストデータの中における単語の出現頻度を算出することによって前記言語モデル記憶部に記憶されている前記言語モデルを更新する言語モデル学習部を更に具備することを特徴とする。
これにより、最新の放送の内容に基づいて言語モデルを更新することができ、音声認識の認識率の向上につながる。

［４］また、本発明の一態様は、上記の音声情報抽出装置において、前記音声認識部が前記音声認識結果として出力する単語仮説の有向非巡回グラフを表わすラティスデータを圧縮する処理を行なうラティス圧縮部を更に具備し、前記検索用インデックス作成部は、前記ラティス圧縮部によって圧縮された前記ラティスデータに基づいて前記検索用インデックスを作成することを特徴とする。
これにより、音声認識結果のラティスを圧縮し、音声認識結果ラティスのために必要な記憶容量を削減することができる。

［５］また、本発明の一態様は、上記の音声情報抽出装置において、利用者からの入力に基づく検索語を用いて前記検索サーバ部に対して前記検索要求を送信し、前記検索サーバ部からの前記検索結果を画面に表示し、更に利用者からの操作に基づいて、該当する前記映像および前記音声を再生する検索クライアント部を更に具備することを特徴とする。

また、本発明の一態様は、上記の音声情報抽出装置において、ラティス圧縮部が次の（１）〜（３）の処理を行うものである。
（１）ラティス上のエッジについて、発話開始時刻・発話終了時刻がオーバーラップするエッジのうち、同一の表記を持つエッジをクラスタリングする（つまり、エッジの始端と終端を事後確率の大きなもので代表させ、事後確率の和を大きな方（代表させたほう）に与える）。
（２）ラティス上のエッジについて，オーバーラップするエッジをクラスタリングする（つまり、同一の始端ノードおよび終端ノードを持つようにする）。
（３）ラティス上のエッジについて、トポロジカルな順番でノードを訪問し、リンクをマージしていく。

本発明によれば、映像および音声を蓄積するとともに、その発話内容を対象として、検索語による映像および音声の検索をすることができ、検索結果として音声の該当箇所における話題や話者に関する情報などといった音声情報も利用者にわかりやすく提示することができる。

本発明の実施形態による音声情報抽出装置の機能構成を示したブロック図である。同実施形態における音声情報記憶部１６が記憶する音声情報の構造を示す概略図である。同実施形態における検索クライアント部２０に設けられている表示装置に表示される画面の構成を示す概略図である。同実施形態による検索クライアント部２０に設けられている表示装置における検索結果の表示の画面構成を示す概略図である。同実施形態におけるテキスト収集部３および言語モデル学習部９による、言語モデル学習処理の手順を示すフローチャートである。同実施形態における話題抽出部１４による、話題抽出処理の手順を示すフローチャートである。同実施形態におけるラティス展開・圧縮部１２による、音声認識結果のラティスを圧縮する処理の手順を示すフローチャートの第１である。同実施形態におけるラティス展開・圧縮部１２による、音声認識結果のラティスを圧縮する処理の手順を示すフローチャートの第２である。同実施形態におけるラティス展開・圧縮部１２による、音声認識結果のラティスを圧縮する処理の手順を示すフローチャートの第３である。同実施形態における検索用転置インデックス作成部１５による、転置インデックス作成処理の手順を示すフローチャートである。同実施形態における検索用転置インデックス記憶部１７に記憶される、転置インデックスのデータ構成を示す概略図である。

以下、図面を参照しながら、本発明の実施形態について説明する。
図１は、同実施形態による音声情報抽出装置の機能構成を示すブロック図である。図示するように、音声情報抽出装置５０は、映像・音声収録部１と、番組情報収集部２と、テキスト収集部３と、話者データ記憶部４と、話者識別部５と、音声認識部６と、音響モデル記憶部７と、言語モデル記憶部８と、言語モデル学習部９と、テキストデータ記憶部１０と、単語辞書記憶部１１と、ラティス展開・圧縮部１２（ラティス圧縮部）と、音声情報統合部１３と、話題抽出部１４と、検索用転置インデックス作成部１５（検索用インデックス作成部）と、音声情報記憶部１６と、検索用転置インデックス記憶部１７と、映像音声記憶部１８と、検索サーバ部１９と、検索クライアント部２０とを含んで構成される。

なお、話者データ記憶部４と、音響モデル記憶部７と、言語モデル記憶部８と、テキストデータ記憶部１０と、単語辞書記憶部１１と、音声情報記憶部１６と、検索用転置インデックス記憶部１７と、映像音声記憶部１８とは、それぞれ、磁気ディスク装置（ＨＤＤ）または半導体メモリ（半導体ＲＡＭまたは半導体ＲＯＭなど）を用いて実現される。

映像・音声収録部１は、放送（総合テレビ、教育テレビ、衛星放送、ラジオ第一、ラジオ第二など）の映像および音声の入力を受け、それらを計算機にて読み取り可能なデジタル動画データファイルに変換する。なお、映像・音声収録部１は、ここで得られたデジタル動画データファイルを映像音声記憶部１８に書き込む。また、ここで得られたデジタル動画データファイルは、後述する話者識別部５や音声認識部６においても利用される。

番組情報収集部２は、インターネット等の通信回線を介して、外部のサーバコンピュータ（ウェブサーバなど）から、番組情報やＥＰＧ（電子番組ガイド，ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）情報を取得する。これらの情報には、番組のタイトルや、番組の出演者等のテキスト情報が含まれている。番組情報収集部２は、取得したＥＰＧ情報等を加工し、映像・音声収録部１によって変換されたデジタル動画データファイルのメタデータとして保存する。

テキスト収集部３は、インターネット等の通信回線を介して、外部のサーバコンピュータ（ウェブサーバなど）から、ウェブテキスト情報を取得し、そのウェブテキスト情報に対して形態素解析等の自然言語処理を行なった上で、テキストデータ記憶部１０に書き込む。ここで、テキスト収集部３が取得するウェブテキスト情報は、例えば、テレビやラジオの放送局が運営するウェブサイトに掲載されているニュース等のウェブテキスト情報である。なお、テキストデータ記憶部１０に書き込まれたテキストデータは、後で詳述するように、言語モデル学習部９や話題抽出部１４によって読み出され利用される。

話者データ記憶部４は、話者毎または話者属性毎の音響的特徴を統計的に表わした話者データと、発話末の単語列もしくは文節と、当該単語列の直後に発話者もしくは話者属性の交代が起こる確率とをテーブル化し、言語特徴量として予め記憶するものである。ここで、話者属性とは、例えば話者の性別（男性または女性）など、異なる音響的特徴に関連付けられる属性である。

話者識別部５は、話者データ記憶部４から読み出した話者データを用いて、映像音声収録部１が取得した音声を分析し、対応するクラス（話者名や話者属性）を算出して出力する。具体的には、話者識別部５は、映像音声収録部１が取得した音声を基にその音響的特徴量を求め、その音響的特徴が話者データ記憶部４に記憶されているいずれかの話者クラス（個別話者や話者属性に対応）に属するものであるか、或いは未知のものであるかについて、その確率を求める。また、音声認識部６から、音声認識結果を取得し、その末尾の単語列もしくは文節から、話者データ記憶部４に記憶されたテーブルを参照し、話者もしくは話者属性の交代が行われた確率を求める。話者識別部５は、音響特徴量と、言語特徴量から求めた確率を統合し、音声が話者データ記憶部４に記憶されているいずれかの話者クラスに属するか、あるいは未知のものであるかを判別する。話者クラスが既知であれば、話者識別部５は、対応する話者名または話者属性を識別結果として出力し、未知であれば、新たな話者クラスを生成し、話者クラスの番号を識別結果として出力する。

音声認識部６は、音響モデル記憶部７から読み出した音響モデルと言語モデル記憶部８から読み出した言語モデルとを用いて、映像音声収録部が取得した音声の音声認識処理を行ない、音声認識結果を出力する。この際、音声認識部６では、映像音声収録部が取得した音声について、音声認識の前処理として、まず、当該音声が人間の話し声の箇所か、音楽の箇所（人間の話し声に該当しない箇所）かを識別する。そして音声認識部６は、音楽と判定された区間については、開始時刻とともに音楽箇所であることを示すメタデータを出力する。話し声と判定された区間については、当該区間を音声認識し、発話内容を音声認識結果として出力する。この音声認識部６による音声認識処理自体には、既存の技術を利用する。なお、後でラティス展開・圧縮部１２の処理の説明の箇所で詳述するように、音声認識部６は、単語仮説をエッジとするとともに単語と単語の間の時刻に対応するノードを有する有向非巡回グラフであるラティス構造のデータを、音声認識結果として出力する。このラティス構造のデータは、音声認識結果の仮説とそれら仮説の確率を表わすデータである。なお、このラティス構造のデータをフォワード・バックワード（ｆｏｒｗａｒｄ−ｂａｃｋｗａｒｄ）アルゴリズム等によって走査することにより、事後確率を計算し、最尤単語列を求めることは可能である。

音響モデル記憶部７は、例えば音素などの言語的単位と、その音素が音声として発話された場合の音響的特徴量との関係を統計的に表わしたデータとしてなる音響モデルを記憶するものである。具体的には、音響モデルは、音素単位の表記と、音響的特徴量と、確率値とを関連付けたデータの集合として表わされる。なお、音響モデルには、例えば、隠れマルコフモデル（ＨＭＭ）を利用する。

言語モデル記憶部８は、所定の言語において、例えば音素や単語などの言語的単位が出現する頻度（特徴）を統計的に表わしたデータとしてなる言語モデルを記憶するものである。具体的には、言語モデルとしては、例えば単語ｎグラム（ｎ−ｇｒａｍ）を用いる。この単語ｎグラムは、テキスト内で出現するｎ個（ｎは、自然数）の連続する単語の並びとそのｎ個の単語列の出現頻度を表わす出現確率（０以上で１以下の実数）との組を蓄積した統計的データである。

言語モデル学習部９は、テキストデータ取得部３が取得したテキストデータをテキストデータ記憶部１０から読み出し、そのテキストデータの中における単語の出現頻度を統計的に算出することによって言語モデル記憶部９に記憶されている言語モデルを更新する処理を行なうものである。この言語モデル学習の処理の詳細については、後で、フローチャートを参照しながら説明する。

テキストデータ記憶部１０は、テキスト取得部３がインターネット等を介して外部のウェブサーバ等から取得したテキストデータを記憶するものである。なお、このテキストデータは、形態素解析処理済のニュース原稿等である。

単語辞書記憶部１１は、テキスト取得部３や言語モデル学習部９による処理の際に用いられる単語辞書データを記憶するものである。

ラティス展開・圧縮部１２は、音声認識部６によって出力される音声認識結果としてラティスのデータ（単語仮説による有向非巡回グラフ）を圧縮する処理を行なう。なお、ラティス展開・圧縮部１２は、バイグラム（ｂｉｇｒａｍ）によるラティスを一旦トライグラム（ｔｒｉｇｒａｍ）によるラティスに展開してから、圧縮する処理を行なう。このラティス展開・圧縮部１２による処理の詳細については、後でフローチャートを参照しながら詳しく説明する。

音声情報統合部１３は、少なくとも、音声認識部６から得られる音声認識結果（単語列、発話内容のテキスト）と、話題抽出部１４から得られる話題とを統合し、音声情報として音声情報記憶部１６に書き込む。また、音声情報統合部１３は、話者識別部５から出力される話者または話者属性（例えば、話者の性別など）の識別結果も、発話内容に関連付けて、音声情報の一部として音声情報記憶部１６に書き込む。さらに、音声情報統合部１３は、放送番組のテーマやジングルや、効果音などの音楽や、複数の単語から構成される人名、地名、組織名、構造物など、特定の事物を指し示す固有表現をも音声情報の一部として統合し音声情報記憶部１６に書き込む。なお、音声情報のデータ構造については後述する。

話題抽出部１４は、テキストデータ取得部３が取得したテキストデータをテキストデータ記憶部１０から読み出し、このテキストデータを前記音声認識部６から出力された音声認識結果と比較することにより話題を抽出する処理を行なう。より具体的には、話題抽出部１４は、前記のテキストデータに含まれる所定数の単語組（３つ組など）が音声認識結果の所定数の単語中に含まれる数により類似度を算出し、この類似度に基づいてテキストデータと音声認識結果との間の対応付けを行なうことによって、テキストデータから話題を抽出する、なお、話題抽出部１４の処理の詳細については、後でフローチャートを参照しながら説明する。

検索用転置インデックス作成部１５は、音声認識部６による音声認識結果に基づき検索用転置インデックス（検索用インデックス）のデータを作成して検索用インデックス記憶部１７に書き込む処理を行なう。なお、本実施形態では、検索用転置インデックス作成部１５は、ラティス展開・圧縮部１２により圧縮されたラティスのデータを基に検索用転置インデックスを作成する。なお、検索用転置インデックスのデータ構造については後述する。

音声情報記憶部１６は、音声情報を記憶する。ここで、音声情報とは、番組ＩＤ、発話開始時刻、発話内容（単語列）のテキスト、話者名、話者性別、音楽（非音声情報）、話題、固有表現を含む情報である。この音声情報は、話者識別部５や、音声認識部６や、話題抽出部１４の各部の処理によって得られた情報である。

検索用転置インデックス記憶部１７は、音声認識結果に基づいて作られる検索用転置インデックスを記憶するものである。この検索用転置インデックスは、単語と、前記音声における発話時刻との対応関係の情報を含んでいる。ここで、本実施形態における発話時刻とは、番組を識別するための番組ＩＤと発話開始時刻の組み合わせによって特定されるものである。

映像音声記憶部１８は、映像・音声収録部１によって得られるデジタル動画データファイルを記憶するものである。このデジタル動画データファイルは、映像データおよび音声データを含んでいる。

検索サーバ部１９は、音声情報記憶部１６と検索用転置インデックス記憶部１７と映像音声記憶部１８からデータを読み出せるように構成されており、これらのデータを用いて検索クライアント部２０からの検索要求に応じた検索処理を行なうとともに、その応答として、検索結果のデータを検索クライアント部２０に返す。なお、検索結果のデータとは、検索の結果得られる音声情報（音声情報記憶部１６から読み出された情報）や、デジタル動画データファイル（映像音声記憶部１８から読み出された情報）である。

検索クライアント部２０は、利用者からの入力に基づき検索要求を検索サーバ部１９に送信するとともに、その応答として検索サーバ部１９から返される検索結果のデータを画面等に表示する。これにより、利用者は、音声情報を検索し、検索結果を閲覧することができる。

図２は、音声情報記憶部１６が記憶する音声情報の構造を示す概略図である。図示するように、音声情報は、表形式のデータであり、番組ＩＤと、発話開始時刻と、発話内容（単語列）と、話者名と、話者性別（話者属性）と、音楽（非音声情報）と、話題と、固有表現の各項目を含む。音楽（非音声情報）は、放送番組のテーマ音楽や、ジングルや、効果音などの音楽である。固有表現は、複数の単語で構成される表現であり、人名、地名、組織名、構造物などといった特定の事物を指し示すものである。

図３は、検索クライアント部２０に設けられている表示装置に表示される画面の構成を示す概略図である。クライアント検索部２０は、検索の結果得られる音声情報およびデジタル動画データファイルの情報（映像と音声）をこの画面により利用者に提示する。
図示するように、この画面は、大きく３つの要素で構成されている。その第１は、音声情報が付与された番組一覧を表示するためのウィンドウ（符号１１３）である。そして、第２は、前記の番組一覧から選択された番組の映像・音声を表示するためのウィンドウ（符号１１１）である。そして、その第３は、音声認識結果（発話内容）を表示するウィンドウ（符号１１２）である。

まず第１の番組一覧のためのウィンドウ１１３は、同図に示す画面の左側に配置されており、（ａ）番組の代表的シーンを表わすサムネイル画像の表示エリア（符号１０２）と、（ｂ）番組のタイトルの表示エリア（符号１０３）と、（ｃ）番組に含まれる話題一覧（符号１０４）の各要素からなるものを一番組に対応する組として、複数番組分の表示を行なうようになっている。これら複数番組は縦に並べられており、新しい番組ほど上に、そして古い番組ほど下に表示されるようにしている。ここで表示される番組タイトルは、元々番組情報収集部２が取得したデータに基づくものであり、デジタル動画データファイルの中にメタデータとして含まれているものである。検索クライアント部２０は、このメタデータの中から番組タイトルを読み出して表示エリア１０３に表示する。また、ここで表示される話題一覧は、元々話題抽出部１４が抽出した情報である。検索クライアント部２０は、音声情報の中から話題のデータを読み出して表示エリア１０４に一覧表示する。また、サムネイル画像は、デジタル動画データファイルから適宜抽出された静止画像である。

次に、第２の、番組の映像・音声を表示するためのウィンドウ１１１は、デジタル動画データファイルを再生することで得られる映像を表示するものである。利用者が前記の表示エリア１０２に表示されたサムネイル画像或いは前記の表示エリア１０３に表示された番組タイトルをクリックする操作を行なうと、検索クライアント部２０は、当該番組のデジタル動画データファイルを番組冒頭部分から再生する。また、利用者が前記の表示エリア１０４に表示された話題のいずれかをクリックする操作を行なうと、検索クライアント部２０は、当該番組のデジタル動画データファイルを、クリックされた話題に対応する箇所（当該話題の開始点）から再生する。

なお、このウィンドウ１１１の上の部分には、各種の操作ボタン等が表示されており、利用者がこれら操作ボタン等を操作することにより、検索クライアント部２０は、番組の再生を開始したり停止したり、或いは再生箇所を変更したりする処理を行なう。
具体的には、符号１０８は、映像・音声の再生／停止ボタンである。映像・音声が停止されている状態のときにこのボタン１０８がクリックされると、検索クライアント部２０は映像・音声の再生を開始する。また、映像・音声が再生されている状態のときにこのボタン１０８がクリックされると、検索クライアント部２０は映像・音声の再生を停止させる。
また、符号１０７は再生位置を現再生位置から開始位置方向に３０秒戻すためのボタンであり、符号１０６は再生位置を現再生位置から開始位置方向に１０分戻すためのボタンであり、符号１０９は再生位置を現再生位置から終了位置方向に３０秒進めるためのボタンであり、符号１１０は再生位置を現再生位置から終了位置方向に１０分進めるためのボタンである。利用者がこれらのボタン１０６〜１１０のいずれかをクリックすると、検索クライアント部２０は、それぞれのボタンに従って映像・音声の再生位置を変更する制御を行なう。
また、符号１０５は、再生位置を開始位置から終了位置までの間の任意の位置に移動させるためのスライダーであり、利用者がこのスライダー１０５を移動させる操作を行なうと、検索クライアント部２０は、スライダー１０５の移動先の位置に応じた箇所に、映像・音声の再生位置を変更する制御を行なう。

次に、第３の、ウィンドウ１１２は、番組に対応する音声認識結果（発話内容）を表示するためのものである。検索クライアント部２０は、発話内容のテキストをこのウィンドウ１１２に表示するとともに、再生中の映像・音声に同期させ、現時点で再生中の位置に対応する発話内容の単語を強調表示する。強調表示の方法としては、例えば、当該単語の背景を通常背景色とは異なる色で表示（いわゆるハイライト表示）させる方法をとる。つまり、映像・音声の再生が進むにつれて、順次、ハイライト表示される単語が遷移していく。これは、音声認識部６による音声認識結果を基に、単語毎の発話時刻を記憶しておき、再生時の経過時間に沿って現在発話中の単語をハイライト表示することによって実現する。また、音声情報として話者名あるいは話者属性が得られている場合には、話者名や話者属性を併せて表示するようにしても良い。

さらに、図３に示す画面には、検索のためのテキスト入力部１００と検索ボタン１０１が設けられている。利用者がキーボード等を操作することによりテキスト入力部１００に検索語を入力した後に検索ボタン１０１を押すと、検索クライアント部２０は、検索サーバ部１９に対して入力された検索語を含んだ検索要求を送信する。検索サーバ１９では、検索語を形態素解析して形態素解析済みの検索語を用いて索引を検索する。そして、検索サーバ１９からの応答により検索結果のデータが得られると、検索クライアント部２０は、前記のウィンドウ１１３に、番組一覧の代わりに検索結果を表示する。

図４は、検索結果の表示画面の構成を示す概略図である。前述の通り、この検索結果は、ウィンドウ１１３に表示されるものである。同図に示すように、検索結果を表示するときのウィンドウ１１３は、（ａ）検索時に用いられた検索語を含む発話に対応する代表的画像をサムネイル画像として表示するための表示エリア（符号１２０）と、（ｂ）番組のタイトルの表示エリア（符号１２１）と、（ｃ）当該番組内で上記検索語にマッチした発話の開始時刻の表示エリア（符号１２２）と、（ｄ）その発話内容の表示エリア（符号１２３）とを含む。
なお、検索クライアント部２０は、表示エリア１２２と表示エリア１２３を一組として、当該番組内で上記検索語にマッチした発話の出現数分の組の表示を行なう。
また、検索結果として複数の番組がマッチした場合には、検索クライアント部２０は、それらそれぞれの番組についての表示を行なう。
なお、同図に示す表示においても、表示される番組タイトルは、元々番組情報収集部２が取得したデータに基づくものであり、デジタル動画データファイルの中にメタデータとして含まれているものである。また、表示されるサムネイル画像は、デジタル動画データファイルから適宜抽出された静止画像である。

次に、テキスト収集部３と言語モデル学習部９の詳細な処理手順について説明する。
図５は、テキスト収集部３および言語モデル学習部９による処理の手順を示すフローチャートである。
ステップＳ２０１において、テキスト収集部３は、所定の時間間隔でデータソースチェックを行なう。つまり、テキスト収集部３は、例えば放送局のウェブサイトのサーバなどといった外部のコンピュータにアクセスし、前回アクセス時のウェブサイトのデータと比較することによって、今回そこから新規のニュース原稿や話題のテキストデータが得られるか否かをチェックする。そして、新規のデータが得られた場合（ステップＳ２０１：ＹＥＳ）には次のステップＳ２０２に進み、得られなかった場合（ステップＳ２０１：ＮＯ）にはステップＳ２０１に戻ってさらに前記所定時間経過後にデータソースチェックの処理を繰り返す。

次に、ステップＳ２０２において、テキスト収集部３は、ステップＳ２０１で得られたテキストデータの形態素解析処理を行い、その結果をテキストデータ記憶部１０に書き込む。ここで、形態素解析処理自体は、既存の技術を利用する。このステップでの処理の結果、テキストデータ記憶部１０には、単語単位に分割されたテキストデータ（ニュース原稿等）が保存される。

ステップＳ２０４において、言語モデル学習部９は、テキストデータ記憶部１０へのデータの蓄積状況を監視し、新規のデータが所定量以上蓄積されたか否かをチェックする。そして、新規データが所定量以上蓄積されていた場合（ステップＳ２０４：ＹＥＳ）には次のステップＳ２０５に進み、そうでない場合（ステップＳ２０４：ＮＯ）にはステップＳ２０１の処理に戻る。

次に、ステップＳ２０５において、言語モデル学習部９は、テキストデータ記憶部１０から新規データを読み出し、そのデータに基づいて言語モデルを作成する処理を行なう。このとき、言語モデル学習部９は単語辞書記憶部１１から読み出す辞書データを参照する。前述の通り、ここで作成される言語モデルはｎグラムであり、言語モデル学習部９は、テキストデータ記憶部１０から読み出した形態素解析済みのテキストデータを基に、連続するｎ個の単語列ごとの出現頻度をカウントし、統計的処理をすることによって言語モデルのデータを作成する。そして、その結果に基づき、言語モデル学習部９は、言語モデル記憶部８のデータを書き換える。

そして、ステップＳ２０６において、言語モデル学習部９は、音声認識部６に対して、更新された言語モデル記憶部８のデータをロードし直すように通知する。その通知に基づき、音声認識部６が言語モデルをロードしなおすことにより、音声認識部６は常に最新の言語モデルを用いて音声認識の処理を行なうことができる。

図６は、話題抽出部１４による処理の手順を示すフローチャートである。以下では、話題抽出部１４による処理の詳細を説明する。
この処理においては、話題抽出部１４は、ウェブサイトから得られたニュース原稿等のテキストデータの冒頭ｍ単語と、音声認識部６から取得した発話内容における発話開始からのｍ単語とを比較し、両者間の類似度を計算することによって音声認識結果がどのテキストデータと一致するものであるかを判定する。なお、ｍは正整数である。
なお、話題抽出部１４による処理を行なうに当たり、音声認識部６は、音声認識結果に対して１から始まる一連の番号を予め付与する。また、テキスト収集部３がウェブサイトから収集したテキストのうちの最新のＫ個（Ｋは正整数）のファイルを話題抽出部１４による処理の対象とし、これらＫ個のファイルにも１から始まる一連の番号が付与されている。

以下、同図のフローチャートに沿って説明する。
ステップＳ３０１において、話題抽出部１４は、音声認識部６から音声認識結果（発話内容）を取得する。ここで取得する音声認識結果は、事後確率による最尤単語列である。
次に、ステップＳ３０２において、話題抽出部１４は、変数ｎを１に設定（初期化）する。
そして、ステップＳ３０３において、話題抽出部１４は、第ｎ発話の冒頭ｍ単語取り出す。
ステップＳ３０４において、話題抽出部１４は、テキストデータ記憶部１０から読み出した第ｋ番目（ｋ＝１，２，・・・，Ｋ）のテキストデータの冒頭ｍ単語と、ステップＳ３０３において取り出したｍ単語との間の類似度を計算する。第ｎ発話の冒頭ｍ単語と第ｋ番目のテキストデータの冒頭ｍ単語との間の類似度は、例えば次のように定義される。即ち、その類似度は、ｋ番目のテキストデータのｍ単語に含まれる単語３つ組（単語組）が、第ｎ発話のｍ単語に含まれる数とする。
ステップＳ３０５において、話題抽出部１４は、算出された類似度が閾値以上か否かを判定する。なお、この閾値は、予め適切に定められ設定されている。そして、類似度がこの閾値以上の場合（ステップＳ３０５：ＹＥＳ）はステップＳ３０７に進む。そして、類似度がこの閾値未満の場合（ステップＳ３０５：ＮＯ）はステップＳ３０６に進む。
ステップＳ３０６において、話題抽出部１４は、変数ｎをインクリメントする（ｎ←ｎ＋１）。ステップＳ３０６の処理を終えると、ステップＳ３０３の処理に戻る。
ステップＳ３０７においては、話題抽出部１４は、この第ｎ番目の発話を、第ｋ番目の話題の開始点とする。即ち、話題抽出部１４は、音声認識結果のデータに話題境界情報を付与する。これにより、音声認識結果を話題境界にて分割することが可能になるとともに、分割された結果に対して話題を関連付けて記憶させることができる。
以上述べたステップＳ３０１からＳ３０７までの一連の処理を、話題抽出部１４は、第１番目から第Ｋ番目までの各々のテキストデータに対して行なう。

図７，図８，図９は、ラティス展開・圧縮部１２による処理の手順を示す一連のフローチャートである。ラティス展開・圧縮部１２は、前掲の［非特許文献１］および［非特許文献２］に記載されている従来法を改良した方法により音声認識結果のラティスの展開および圧縮を行なう。
音声認識部６は、音声認識結果を表わすラティス構造（有向非巡回グラフ）のデータを出力する。このデータは、音声認識結果の単語をエッジとし、開始点、中間点、終了点のいずれかをノードとする有向グラフである。開始点と終了点のノードは１つずつ存在し、中間点のノードは通常は複数存在する。これらのノードは、それぞれ所定の時刻に対応している。つまり、ノードＡを始端としてノードＢを終端とするエッジが存在するとき、ノードＡの時刻が当該エッジに対応する単語の始端時刻であり、ノードＢの時刻が当該エッジに対応する単語の終端時刻である。すべてのノードは連結されており、開始点のノードからはエッジをたどって全ての中間点のノードに到達可能であり、任意の中間点のノードからはエッジをたどって終了点のノードに到達可能である。音声認識部６による出力は確率を伴う音声認識結果の仮説であり、開始点と終了点との間において並列する経路（つまり時刻的に重なりを有する複数の経路）は互いに対立する仮説に対応するものである。
なお、本実施形態では、このようなラティス構造を、ノードおよびエッジをそれぞれエンティティとするリレーショナルデータで表現し、各処理部間での受け渡しを行なう。
また、このラティスは、隣り合う２つの単語を結合するバイグラム（ｂｉｇｒａｍ）言語モデルに基づくものである。

以下、このフローチャートに沿って説明する。
まず、図７のステップＳ４０１において、ラティス展開・圧縮部１２は、音声認識部６から上記のラティス構造の音声認識結果データを取得する。
次に、ステップＳ４０２において、ラティス展開・圧縮部１２は、上で取得したラティスを、連続する３つの単語を結合するトライグラム（ｔｒｉｇｒａｍ）言語モデルに基づくラティスに展開する。この展開処理自体は前述の従来技術を利用する。

次に、ステップＳ４０３において、ラティス展開・圧縮部１２は、上で得られたラティスをフォワード・バックワード（ｆｏｒｗａｒｄ−ｂａｃｋｗａｒｄ）アルゴリズムにより走査し、事後確率を計算する。そして、事後確率が最大となる経路（最尤系列）を取得し、圧縮ラティスの基礎となるグラフpを構成する。

次に、ステップＳ４０４からＳ４０９までにおいて、ラティス展開・圧縮部１２は、エッジのクラスタリング処理を行なう。このクラスタリング処理の詳細は次の通りである。
即ち、ラティス展開・圧縮部１２は、ステップＳ４０４において、エッジ集合Ｅ｛ｅ₁，ｅ_２，ｅ_３，ｅ_４，・・・｝から、この集合要素を事後確率の降順に並べ替えたリスト｛ｅ’₁，ｅ’_２，ｅ’_３，ｅ’_４，・・・，ｅ’_ｍ，・・・｝を生成する。
そして、ラティス展開・圧縮部１２は、ステップＳ４０５において、クラスタリングのための変数ｎを１に初期化する。
次のステップＳ４０６からＳ４０９までは、上記リストの要素を順次走査する処理である。
ラティス展開・圧縮部１２は、上記リストのｎ番目のエッジｅ’_ｎを取り出したとき、発話時刻の重なりが予め定められた所定の閾値よりも大きく、且つエッジ上の単語表記が同一となる巡回済み（走査済み）のｍ番目のエッジｅ’_ｍ（ｎ＞ｍ）があれば（ステップＳ４０６：ＹＥＳ）、ステップＳ４０７において、エッジｅ’_ｎをエッジ集合Ｅから取り除くとともに、エッジｅ’_ｍの事後確率にエッジｅ’_ｎの事後確率を加える。なお、ステップＳ４０７における判定結果が否定的である場合には、ステップＳ４０７をスキップして次のステップＳ４０８に進む。
そして、ラティス展開・圧縮部１２は、次のステップＳ４０８において、クラスタリングのための変数ｎをインクリメントする（ｎ←ｎ＋１）。
そして、ステップＳ４０９において、ラティス展開・圧縮部１２は、エッジクラスタリングが全て終了したか否かを判定する。そして、全て終了していない場合（ステップＳ４０９：ＮＯ）には、残りのエッジ集合について同様の処理を行なうためにステップＳ４０６に戻る。全て終了していた場合（ステップＳ４０９：ＹＥＳ）には、次のステップＳ４１０に進む。

次に、図８のステップＳ４１０からＳ４１７まででは、ラティス展開・圧縮部１２は、エッジの集約を行う。
まずステップＳ４１０において，上記のエッジ集合Ｅの要素を事後確率の降順に並べかえたエッジリストを生成する。
そして、ラティス展開・圧縮部１２は、ステップＳ４１１において、集約のための変数ｎを１に初期化する。

ステップＳ４１２において、ラティス展開・圧縮部１２は、上記のエッジリストのｎ番目のエッジｅ’_ｎの事後確率が定められた閾値以上か否かを判定する。そして、エッジｅ’_ｎの事後確率が定められた閾値に満たない場合（ステップＳ４１２：ＮＯ）はステップＳ４１３に進み、その事後確率が閾値以上の場合（ステップＳ４１２：ＹＥＳ）はステップＳ４１４に進む。
ステップＳ４１３に進んだ場合、ラティス展開・圧縮部１２は、ｅ’_ｎをエッジ集合Ｅから取り除くとともに、ステップＳ４１６に進む。
ステップＳ４１４に進んだ場合、Ｓ４１４において、ラティス展開・圧縮部１２は、エッジｅ’_ｎに対し発話時刻の重なりが所定の閾値以上となるエッジｅ’_ｍ（但し、ｎ＞ｍ）を探索する。
そのようなｅ’_ｍが存在すれば（ステップＳ４１４：ＹＥＳ）、次のステップＳ４１５において、ラティス展開・圧縮部１２は、エッジｅ’_ｍの始終端ノードをエッジｅ’_ｎの始終端ノードに変更する。
ステップＳ４１４における判定結果が否定的であった場合は、ステップＳ４１５の処理をスキップして、次のＳ４１６に進む。
ステップＳ４１６においては、変数ｎをインクリメントする（ｎ←ｎ＋１）。
そして、ステップＳ４１７において、ラティス展開・圧縮部１２は、集約処理がすべて完了したか否かを判定する。エッジ集合中で昇順に全てのエッジについて上のステップＳ４１５の処理を終えている場合（ステップＳ４１７：ＹＥＳ）には次のステップＳ４１８の処理に進み、まだ残っているエッジがある場合（ステップＳ４１７：ＮＯ）にはステップＳ４１２に戻って次のエッジについての処理を行なう。

そして、図９のステップＳ４１８からＳ４２９まででは、ラティス展開・圧縮部１２は、前記のクラスタリングおよび集約により得られたエッジ集合を系列pにマージしていくことで圧縮ラティスを得る。
まずステップＳ４１８において、ラティス展開・圧縮部１２は、ラティスのノード集合をトポロジカルオーダーで並べかえたリストを得る。
そしてステップＳ４１９において、マージのための変数ｋを１に初期化する。
そしてステップＳ４２０において、ラティス展開・圧縮部１２は、ノードｖ_ｋを始点とするエッジのリストをエッジ集合Ｅから生成する。
そしてステップＳ４２１において、変数ｌ（エル）を１に初期化する。
そしてステップＳ４２２において、ラティス展開・圧縮部１２は、エッジリストのｌ（エル）番目のエッジｅ_ｌについて、発話時刻の重なりが最大となる圧縮ラティスのエッジｆ_ｈを探索する。
そしてステップＳ４２３においてこのｆ_ｈが訪問済みであるか否かを判定する。訪問済みであれば（ステップＳ４２３：ＹＥＳ）次のステップＳ４２４に進み、未訪問の場合（ステップＳ４２３：ＮＯ）はステップＳ４２５に進む。
ステップＳ４２４に進んだ場合、ラティス展開・圧縮部１２は、ｆ_ｈの終端ノードを２つに分け、新たなノードfを圧縮ラティス上に作成し、エッジｅ_ｌの単語表記と事後確率をコピーする。そしてステップＳ４２６に進む。
ステップＳ４２５に進んだ場合、ｆ_ｈの始端・終端を結ぶ新たなエッジfを生成して、エッジｅ_ｌの単語表記と事後確率をコピーする。なお、この際、ｆ_ｈは訪問済みとする。そしてステップＳ４２６に進む。
ステップＳ４２６においては、変数ｌ（エル）をインクリメントする（ｌ←ｌ＋１）。
ステップＳ４２７ではエッジリスト終了判定を行い、終了している場合（ステップＳ４２７：ＹＥＳ）にはステップＳ４２８に進み、未終了の場合（ステップＳ４２７：ＮＯ）にはステップＳ４２２に戻る。
また、ステップＳ４２８においても別の終了判定を行い、終了している場合（ステップＳ４２８：ＹＥＳ）にはこのフローチャート全体の処理を終了し、未終了の場合（ステップＳ４２８：ＮＯ）にはステップＳ４２９に進む。
ステップＳ４２９においては、変数ｋをインクリメントし（ｋ←ｋ＋１）、ステップＳ４２０に戻る。
つまり、ラティス展開・圧縮部１２は、ステップＳ４２２からＳ４２５までの操作を、エッジ集合Ｅのすべてのエッジについて行い、圧縮ラティスを得る。

ラティス展開・圧縮部１２による上述の処理のポイントは、要するに、次の（１）〜（３）の通りである。
（１）ラティス上のエッジについて、発話開始時刻・発話終了時刻がオーバーラップするエッジのうち、同一の表記を持つエッジをクラスタリングする（つまり、エッジの始端と終端を事後確率の大きなもので代表させ、事後確率の和を大きな方（代表させたほう）に与える）。
（２）ラティス上のエッジについて，オーバーラップするエッジをクラスタリングする（つまり、同一の始端ノードおよび終端ノードを持つようにする）。
（３）ラティス上のエッジについて、トポロジカルな順番でノードを訪問し、リンクをマージしていく。
これにより、従来技術による方法よりも高速に、且つ高圧縮率で、音声認識結果のラティスデータを圧縮することができる。

以上説明した手順の処理により、ラティス展開・圧縮部１２は、展開されたラティスを基に、これを圧縮し、圧縮ラティス（コンフュージョンネットワーク）を作成する。
なお、これによって得られた圧縮ラティスに関して、隣接するノード間を結ぶエッジの事後確率の総和が１を超える場合には、それらのエッジの各々の事後確率を前記事後確率の総和で割る処理を行なう。逆に、隣接するノード間を結ぶエッジの事後確率の総和が１に満たない場合には、それらノード間に空の単語表記を持つ新たなエッジを生成し、エッジの事後確率の総和が１になるように、新たに生成されたエッジの事後確率値を設定する。ここで、新たに生成されたエッジの事後確率値は、１−（他のエッジの事後確率の総和）である。

音声認識結果のラティスデータの量は膨大なものとなるが、上述したようにラティス展開・圧縮部１２がラティスを圧縮することにより、扱い易いサイズのデータにすることができ、処理の高速化を図れる。

図１０は、検索用転置インデックス作成部１５による処理の手順を示すフローチャートである。以下、このフローチャートに沿って検索用インデックスの作成の方法を説明する。
まずステップＳ５０１において、検索用転置インデックス作成部１５は、ラティス展開・圧縮部１２から、コンパクトに圧縮された１発話分のラティスのデータを取得する。以下のステップにおいては、このラティスに含まれる各エッジについての処理を行なう。
次に、ステップＳ５０２において、検索用転置インデックス作成部１５は、現エッジに単語表記が割り当てられているか否かを判定する。割り当てられている場合（ステップＳ５０２：ＹＥＳ）には次のステップＳ５０３に進み、割り当てられていない場合（ステップＳ５０２：ＮＯ）にはステップＳ５０４に飛ぶ。
そしてステップＳ５０３において、検索用転置インデックス作成部１５は、現エッジに割り当てられている単語表記に基づいて、検索用転置インデックス記憶部１７に１レコードを追加する形で更新を行なう。

図１１は、検索用転置インデックス記憶部１７が記憶する転置インデックスのデータ構成を示す概略図である。図示するように、この転置インデックスは、表形式のデータであり、単語表記ＩＤと番組ＩＤと発話開始時刻の各項目を有している。単語表記ＩＤは、単語表記を一意に識別するためのデータであり、エッジに割り当てられた単語のＩＤが未付与の場合、新たなＩＤを符号なし３２ビット整数として付与する。番組ＩＤは、音声認識の対象となっている放送番組を一意に識別するためのデータである。そして、発話開始時刻は、１つの発話を単位として、当該番組内における当該発話の開始位置を表わす時刻情報である。この時刻情報は、番組開始時からの相対時刻で表わしても良いし、現実の日時（例えば日本標準時）で表わしても良い。転置インデックスがこのような構造をとることにより、この検索用転置インデックス記憶部１７から、番組ごとの単語表記の出現回数を容易に取り出すことができる。つまり、検索サーバ部１９は、前述の検索処理を行なう際に、この検索用転置インデックス記憶部１７から読み出す情報を活用することができる。

図１０に戻って、次にステップＳ５０４において、検索用転置インデックス作成部１５は、与えられた１発話分のラティスにおいて全てのエッジの処理を終えたか否かを判定する。全てのエッジの処理を終えている場合（ステップＳ５０４：ＹＥＳ）にはこのフローチャート全体の処理を終了し、まだ残っているエッジが存在する場合（ステップＳ５０４：ＮＯ）には次のエッジを処理するためにステップＳ５０２に戻る。

なお、上述した音声情報抽出装置の機能は、電子回路によって実現される。
また特に、同装置の機能を、単数又は複数のストアドプログラム方式のコンピュータで実現することが好適である。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

＜実施例＞
前記の実施形態の動作を検証するため、実際にシステムを構築した。その概要を以下に記載する。
映像・音声収録部１は、テレビチューナーから映像および音声の信号を取得できる構成とし、予め設定した日時に設定されたチャンネルの放送を実際に受信して取り込むようにした。日時およびチャンネルの設定は、ＮＨＫ（日本放送協会）のウェブサイトにある放送番組表や放送波に重畳されたＥＰＧに基づいて自動的に行われる。一方で、利用者インタフェースを通して画面から行なえるようにもした。また、随時、利用者からのボタン操作により、映像および音声の取得の開始／終了を行なうとともに、チャンネル設定を変更できるようにした。
テキスト収集部３は、インターネットを介してＮＨＫのウェブサイトから放送番組に関するテキスト情報を取得できるようにした。
音声情報抽出装置５０を構成する各機能は、コンピュータ用のプログラムを記述し、ＬＡＮで連携する複数台のコンピュータ上でそれらのプログラムを実行させることによって実現した。
また、検索クライアント部２０においては、検索結果が前述の方法で表示され、そこから利用者が選んだ映像および音声を再生表示させるようにした。
また、番組に出演するアナウンサー等のそれぞれの音響的特徴を話者データ記憶部４に予め記憶させておいたことにより、話者識別を高精度で行ない、音声認識結果のテキストとともに話者名を表示させることができた。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明を利用することにより、放送番組や映像・音声リソースを索引化し、容易に検索・閲覧できるようにすることが可能となる。
また、本発明を利用することにより、抽出された音声情報をメタデータ制作システムに提供し、放送サービスを行なうことが可能となる。
また、本発明を利用することにより、音声認識装置で用いる統計的音響モデルおよび統計的言語モデルを構築するために、音声データおよび関連するテキストデータを効率的に収集することが可能となる。

１映像・音声収録部
２番組情報収集部
３テキスト収集部
４話者データ記憶部
５話者識別部
６音声認識部
７音響モデル記憶部
８言語モデル記憶部
９言語モデル学習部
１０テキストデータ記憶部
１１単語辞書記憶部
１２ラティス展開・圧縮部（ラティス圧縮部）
１３音声情報統合部
１４話題抽出部
１５検索用転置インデックス作成部（検索用インデックス作成部）
１６音声情報記憶部
１７検索用転置インデックス記憶部（検索用インデックス記憶部）
１８映像音声記憶部
１９検索サーバ部
２０検索クライアント部
５０音声情報抽出装置

Claims

映像および音声を記憶する映像音声記憶部と、
単語と、音声における発話時刻との対応関係を含んでなる検索用インデックスを記憶する検索用インデックス記憶部と
発話時刻と、単語の列である発話内容と、話題と、話者名または話者属性の少なくともいずれかと、を関連付けてなる音声情報を記憶する音声情報記憶部と
音声の音響的特徴を統計的に表わした音響モデルを記憶する音響モデル記憶部と、
単語の出現頻度を統計的に表わした言語モデルを記憶する言語モデル記憶部と、
話者毎または話者属性毎の音響的特徴を統計的に表した話者データを予め記憶する話者データ記憶部と、
映像および音声を外部から取得して前記映像音声記憶部に書き込む映像音声収録部と、
前記音響モデル記憶部から読み出した前記音響モデルと前記言語モデル記憶部から読み出した前記言語モデルとを用いて、前記映像音声収録部が取得した前記音声の音声認識処理を行ない、音声認識結果を出力する音声認識部と、
前記話者データ記憶部から読み出した前記話者データを用いて、前記映像音声収録部が取得した前記音声に対応する話者名または話者属性を算出して出力する話者識別部と、
前記映像音声収録部が取得した前記映像および前記音声に関連するテキストデータを外部から取得するテキストデータ取得部と、
前記テキストデータ取得部が取得した前記テキストデータと前記音声認識部により出力された前記音声認識結果とを比較することにより話題を抽出する話題抽出部と、
前記音声認識結果と、前記話題と、前記話者名または前記話者属性の少なくともいずれか、を統合してなる音声情報を前記音声情報記憶部に書き込む音声情報統合部と、
前記音声認識結果に基づき前記検索用インデックスのデータを作成して前記検索用インデックス記憶部に書き込む検索用インデックス作成部と、
検索語による検索要求に基づき前記検索用インデックス記憶部および前記音声情報記憶部を検索し、前記検索語に該当する前記映像および前記音声に関連付けられた前記音声情報を前記音声情報記憶部から読み出して検索元に対して検索結果として提示するとともに、前記映像音声記憶部に記憶されている当該映像および当該音声を再生可能とする検索サーバ部と、
を具備することを特徴とする音声情報抽出装置。
前記話題抽出部は、前記テキストデータに含まれる所定数の単語組が前記音声認識結果の所定数の単語中に含まれる数により類似度を算出し、この類似度に基づいて前記テキストデータと前記音声認識結果との間の対応付けを行なうことによって、前記テキストデータから前記話題を抽出する、
ことを特徴とする請求項１に記載の音声情報抽出装置。
前記テキストデータ取得部が取得した前記テキストデータの中における単語の出現頻度を算出することによって前記言語モデル記憶部に記憶されている前記言語モデルを更新する言語モデル学習部を更に具備することを特徴とする請求項１または２に記載の音声情報抽出装置。
前記音声認識部が前記音声認識結果として出力する単語仮説の有向非巡回グラフを表わすラティスデータを圧縮する処理を行なうラティス圧縮部を更に具備し、
前記検索用インデックス作成部は、前記ラティス圧縮部によって圧縮された前記ラティスデータに基づいて前記検索用インデックスを作成する、
ことを特徴とする請求項１から３までのいずれか一項に記載の音声情報抽出装置。
利用者からの入力に基づく検索語を用いて前記検索サーバ部に対して前記検索要求を送信し、前記検索サーバ部からの前記検索結果を画面に表示し、更に利用者からの操作に基づいて、該当する前記映像および前記音声を再生する検索クライアント部を更に具備することを特徴とする請求項１から４までのいずれか一項に記載の音声情報抽出装置。