JP5912729B2

JP5912729B2 - 音声認識装置、音声認識プログラム、及び音声認識方法

Info

Publication number: JP5912729B2
Application number: JP2012067192A
Authority: JP
Inventors: 航笠井
Original assignee: Dwango Co Ltd
Current assignee: Dwango Co Ltd
Priority date: 2012-03-23
Filing date: 2012-03-23
Publication date: 2016-04-27
Anticipated expiration: 2032-03-23
Also published as: JP2013200362A

Description

本発明は、マルチメディア情報に含まれる音声を認識する音声認識装置、音声認識プログラム、及び音声認識方法に関する。

従来から、生放送による動画や音声の配信や、あらかじめ録画、録音された動画や音声のストリーミング等によるオンデマンド配信等により、各種のマルチメディア情報が広く提供されるようになりつつある。

ここで、マルチメディア情報を聴取するユーザが、聴取をしながら当該マルチメディア情報に対するコメントを入力すると、当該マルチメディア情報を聴取する他のユーザにそのコメントが提示されるコメント配信システムが提案されている（特許文献１参照）。

一方、あらかじめ用意された候補語とその出現確率とを用いて、単語単位で音声認識を行う技術が提案されている（非特許文献１参照）。さらに、音声と、ディクテーションによって当該音声から書き起こされたテキストと、の時間的な対応関係を解析して、音声認識の精度を上げる技術が提案されている（特許文献２参照）。

特許第４２６３２１８号公報特許第４７５８９１９号公報

Akinobu Lee and Tatsuya Kawahara，Recent Development of Open-Source Speech Recognition Engine Julius，Proceedings : APSIPA ASC 2009 : Asia-Pacific Signal and Information Processing Association，2009 Annual Summit and Conference，pp.131-137，２００９年１０月４日発行，http://hdl.handle.net/2115/39653

多数のマルチメディア情報が提供される現状では、マルチメディア情報に含まれる動画に対する字幕の付与や、マルチメディア情報の要約のテキストによる提供や、マルチメディア情報のテキストによる検索などの要望が高まりつつある。したがって、マルチメディア情報に含まれる音声のテキスト化をより一層適切に行えるようにしたい、との要望は強い。

一方で、音声中に出現する単語は、話題や、時代の流行や、発言者ならびに聴取者の嗜好等によって変化するため、このような変化に即応できるようなディクテーション技術が求められている。

本発明は、このような課題を解決しようとするものであり、マルチメディア情報に付されたコメントを利用して、マルチメディア情報に含まれる音声を適切に認識する音声認識装置、音声認識プログラム、及び音声認識方法を提供することを目的とする。

上記目的を達成するため、本発明の第１の観点に係る音声認識装置は、
ユーザがマルチメディア情報の再生により発せられる音声を聴取しながら入力したコメントを蓄積する蓄積部、
前記蓄積されたコメントを含む文集合に出現する単語及び当該文集合における当該単語の共起語を含む候補語を抽出する抽出部、
前記抽出された候補語に基づいて、前記マルチメディア情報の再生により発せられる音声を音声認識する音声認識部、を備える、
ことを特徴とする。

また、第１の観点に係る音声認識装置において、
前記文集合は、前記マルチメディア情報を聴取したユーザが閲覧した文書に出現する文を含む
としても良い。

また、第１の観点に係る音声認識装置において、
前記抽出部は、前記候補語のそれぞれの出現尤度を算定し、
前記音声認識部は、前記音声から認識された音素と前記候補語を表す音素との一致度及び当該候補語の出現尤度に基づいて、音声認識する、
としても良い。

また、第１の観点に係る音声認識装置において、
前記候補語のうち、前記コメントに出現する単語には、当該コメントが入力された入力時点が対応付けられ、
前記音声認識部は、前記入力時点が対応付けられている候補語に対しては、当該候補語に対応付けられた入力時点と、前記音素が発せられた発音時点との合致度を求め、当該求められた合致度にさらに基づいて、音声認識する、
としても良い。

また、第１の観点に係る音声認識装置において、
前記入力時点と、前記発音時点と、は、前記マルチメディア情報の再生が開始されてからの再生時間により表現される、
としても良い。

また、第１の観点に係る音声認識装置において、
前記合致度は、前記入力時点と前記発音時点との差及び前記マルチメディア情報の再生が可能となった時点と当該ユーザがマルチメディア情報の再生を開始した時点との差に基づいて定められる、
としても良い。

また、本発明の第２の観点に係る音声認識プログラムは、
コンピュータを、
ユーザがマルチメディア情報の再生により発せられる音声を聴取しながら入力したコメントを蓄積する蓄積部、
前記蓄積されたコメントを含む文集合に出現する単語及び当該文集合における当該単語の共起語を含む候補語を抽出する抽出部、
前記抽出された候補語に基づいて、前記マルチメディア情報の再生により発せられる音声を音声認識する音声認識部、として機能させる、
ことを特徴とする。

さらに、本発明の第３の観点に係る音声認識方法は、
蓄積部、抽出部、及び音声認識部を備える音声認識装置が実行する方法であって、
前記蓄積部が、ユーザがマルチメディア情報の再生により発せられる音声を聴取しながら入力したコメントを蓄積する蓄積ステップ、
前記抽出部が、前記蓄積されたコメントを含む文集合に出現する単語及び当該文集合における当該単語の共起語を含む候補語を抽出する抽出ステップ、
前記音声認識部が、前記抽出された候補語に基づいて、前記マルチメディア情報の再生により発せられる音声を音声認識する音声認識ステップ、を有する、
ことを特徴とする。

本発明に係る音声認識装置、音声認識プログラム、及び音声認識方法によれば、マルチメディア情報に付されたコメントを利用して、マルチメディア情報に含まれる音声を適切に認識できる。

音声認識システムの一構成例を表すシステム構成図である。本発明の実施例に係る音声認識装置の一例を表すハードウェア構成図である。音声認識装置が実行する生放送処理の一例を表すフローチャートである。実施例１に係る音声認識装置が有する機能の一例を表す機能ブロック図である。音声認識装置が記憶する放送テーブルの一例を表す図である。音声認識装置が記憶するコメントテーブルの一例を表す図である。実施例１に係る端末装置が表示する視聴画面の一例を表す図である。音声認識装置が実行する再放送処理の一例を表すフローチャートである。実施例１に係る音声認識装置が実行する要約生成処理の一例を表すフローチャートである。音声認識装置が記憶する参照テーブルの一例を表す図である。音声認識装置が記憶する文集合テーブルの一例を表す図である。実施例１に係る音声認識装置が記憶する共起テーブルの一例を表す図である。音声認識装置が記憶する候補語テーブルの一例を表す図である。音声認識装置が記憶する情報で表される合致度曲線の一例を表す図である。音声認識装置が実行する文集合生成処理の一例を表すフローチャートである。音声認識装置が実行する候補語抽出処理の一例を表すフローチャートである。音声認識装置が実行する連続音声認識処理の一例を表すフローチャートである。実施例２に係る音声認識装置が実行する要約生成処理の一例を表すフローチャートである。実施例２に係る音声認識装置が有する機能の一例を表す機能ブロック図である。実施例２に係る音声認識装置が記憶する共起テーブルの一例を表す図である。実施例３に係る端末装置が表示する視聴画面の一例を表す図である。

以下、本発明の実施例について添付図面を参照しつつ説明する。

＜実施例１＞
本発明の実施例１に係る音声認識装置１００は、図１に示すような音声認識システム１を構成する。

音声認識システム１は、音声認識装置１００の他に、例えば、インターネットなどのコンピュータ通信網１０（以下単に、通信網１０という）と、通信網１０に接続された端末装置２０、３０、及び４０と、で構成される。

端末装置２０から４０は、例えば、ＬＣＤ（Liquid Crystal Display）などの表示部と、スピーカなどの音声出力部と、キーボード及びマウスなどの入力部と、を備えたパーソナル・コンピュータでそれぞれ構成される。

また、端末装置２０は、例えば、ウェブカメラなどの撮像装置２１と、例えば、マイクロフォンなどの音声収集装置２２と、に接続されている。

音声認識装置１００は、撮像装置２１で撮影された動画及び音声収集装置２２で収集された音声を表すマルチメディア情報を端末装置２０から受信し、受信したマルチメディア情報を端末装置２０から４０へ配信する。これにより、撮像装置２１で撮影された動画及び音声収集装置２２で収集された音声が番組の映像及び音声として放送される。

ここでは、音声認識装置１００は、端末装置２０のユーザが出演する番組を、当該番組の収録から所定時間以内に端末装置２０及び３０へ放送する（以下、生放送するという）として説明を行う。尚、端末装置２０のユーザは、放送された当該番組を視聴しながら出演を行う。

またここでは、音声認識装置１００は、生放送された番組（以下、生放送番組という）を、当該番組の収録から所定時間経過後に端末装置４０へ放送する（以下、再放送するという）として説明を行う。

次に、図２を参照して、音声認識装置１００のハードウェア構成について説明する。
音声認識装置１００は、図２に示すようなサーバ機で構成され、ＣＰＵ（Central Processing Unit）１０１、ＲＯＭ（Read Only Memory）１０２、ＲＡＭ（Random Access Memory）１０３、ハードディスク１０４、メディアコントローラ１０５、ＬＡＮカード（Local Area Network）１０６、ビデオカード１０７、ＬＣＤ（Liquid Crystal Display）１０８、キーボード１００i、スピーカ１１０、及びタッチパッド１１１で構成される。

ＣＰＵ１０１は、ＲＯＭ１０２又はハードディスク１０４に保存されたプログラムに従ってプログラムを実行することで、音声認識装置１００の全体制御を行う。ＲＡＭ１０３は、ＣＰＵ１０１によるプログラムの実行時において、処理対象とするデータを一時的に記憶するワークメモリである。

ハードディスク１０４は、各種のデータを蓄積したテーブルを記憶する蓄積部である。尚、音声認識装置１００は、ハードディスク１０４の代わりに、フラッシュメモリを備えても良い。

メディアコントローラ１０５は、フラッシュメモリ、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、及びブルーレイディスク（Blu-ray Disc）（登録商標）を含む記録媒体から各種のデータ及びプログラムを読み出す。

ＬＡＮカード１０６は、通信網１０を介して接続する端末装置２０から４０との間でデータを送受信する。キーボード１００i及びタッチパッド１１１は、ユーザの操作に応じた信号を入力する。

ビデオカード１０７は、ＣＰＵ１０１から出力されたデジタル信号に基づいて画像を描画（つまり、レンダリング）すると共に、描画された画像を表す画像信号を出力する。ＬＣＤ１０８は、ビデオカード１０７から出力された画像信号に従って画像を表示する。なお、音声認識装置１００は、ＬＣＤ１０８の代わりに、ＰＤＰ（Plasma Display Panel）又はＥＬ（Electroluminescence）ディスプレイを備えても良い。スピーカ１１０は、ＣＰＵ１０１から出力された信号に基づいて音声を出力する。

次に、音声認識装置１００の有する機能について説明する。
ＣＰＵ１０１は、図３に示す生放送処理を実行することにより、図４に示す入力部１２０、保存部１３０、及び出力部１４０として機能する。また、ＣＰＵ１０１は、図２に示したハードディスク１０４と協働して、蓄積部１９０として機能する。

図４に示す入力部１２０は、図２に示すＬＡＮカード１０６が受信した各種の情報を入力する。保存部１３０は、入力部１２０で入力された各種の情報を蓄積部１９０へ保存する。出力部１４０は、入力部１２０で入力された各種の情報を、配信先を指定してＬＡＮカード１０６へ出力する。蓄積部１９０は、保存部１３０によって保存された各種の情報を蓄積する。

次に、蓄積部１９０に蓄積される各種情報について説明する。
蓄積部１９０は、放送された番組の書誌的事項が保存される、図５に示す放送テーブルを記憶している。放送テーブルには、番組の放送を識別する放送ＩＤと、当該番組の放送開始日時と、当該放送のシフト時間と、当該番組で放送された動画及び音声を表すマルチメディア情報のパスと、が対応付けられたデータが複数保存される。尚、番組の放送開始日時とは、番組の放送が開始された日時をいう。また、放送のシフト時間は、当該放送が生放送の場合、値「0」であり、当該放送が再放送の場合、当該再放送の開始日時から生放送の開始日時を減算した値である。

また、蓄積部１９０は、番組の動画若しくは音声に対するコメントが保存される、図６に示すコメントテーブルを記憶している。コメントテーブルには、番組の放送ＩＤと、当該番組に対するコメントを識別するコメントＩＤと、当該コメントの入力時点と、当該コメントと、コメントしたユーザを識別するユーザＩＤと、が対応付けられたデータが複数保存される。尚、入力時点は、番組の放送が開始した時点からの経過時間で表される。

次に、図４に示す入力部１２０、保存部１３０、及び出力部１４０で行われるＣＰＵ１０１の動作について説明する。

ユーザは、音声認識装置１００のキーボード１０９に対して、生放送の開始を指示する操作（以下、生放送開始指示操作という）を行う。次に、ユーザは、キーボード１０９に対して、放送を開始する予定の日時（以下、放送開始予定日時という）と、放送を終了する予定の日時（以下、放送終了予定日時という）と、を指示する操作を行う。

ＣＰＵ１０１は、キーボード１０９によって、生放送開始指示操作に応じた操作信号を入力されると、図３に示す生放送処理の実行を開始する。

生放送処理の実行を開始すると、入力部１２０は、放送ＩＤを生成し、キーボード１０９から入力される操作信号に基づいて、ユーザの操作で指定された放送開始予定日時及び放送終了予定日時を取得する（ステップＳ０１）。

次に、保存部１３０は、例えば、ＯＳ（Operating System）が管理するシステム日時を参照し、参照したシステム日時が、放送開始予定日時を経過した日時であるか否かを判別する（ステップＳ０２）。このとき、保存部１３０は、放送開始予定日時を経過していないと判別すると（ステップＳ０２；Ｎｏ）、所定時間スリープした後に、ステップＳ０２の処理を繰り返す。

ステップＳ０２において、保存部１３０は、放送開始予定日時を経過したと判別すると（ステップＳ０２；Ｙｅｓ）、参照したシステム日時を放送開始日時とする。また、保存部１３０は、生放送であるので、当該番組のシフト時間を値「0」とする。さらに、保存部１３０は、当該番組の動画及び音声を表すマルチメディア情報が保存される電子ファイルのパスを生成し、生成したパスに電子ファイルを作成する。次に、保存部１３０は、放送ＩＤと、放送開始日時と、シフト時間と、パスと、を対応付けて、図５の放送テーブルへ追加保存する（ステップＳ０３）。

次に、保存部１３０は、ソフトウェアタイマをスタートさせて、番組の放送開始からの経過時間を計時し始める（ステップＳ０４）。

ここで、放送開始予定日時を経過したので、端末装置２０のユーザは、端末装置２０に接続された撮影装置２１に撮影を開始させ、かつ音声収集装置２２に音声の収集を開始させる操作を、端末装置２０に行うとして説明する。

端末装置２０は、当該操作に応じて、撮影装置２１の撮影及び音声収集装置２２の音声収集を開始させる。次に、端末装置２０は、例えば、出演者の姿などを撮影した動画を表すデータ（以下、動画データという）を撮影装置２１から入力し始める。また、端末装置２０は、例えば、出演者の発言などの音声を表す電気信号（以下、音声信号という）を音声入力装置２２から入力し始める。その後、端末装置２０は、入力した音声信号に基づいて音声データを生成し、生成した音声データと、撮影装置２１から入力した動画データと、を、データの入力日時及び生成日時で対応付けたマルチメディア情報を音声認識装置１００へ送信し始める。

次に、入力部１２０は、図２に示したＬＡＮカード１０６から、端末装置２０からＬＡＮカード１０６が受信したマルチメディア情報を入力する（ステップＳ０５）。

次に、保存部１３０は、入力されたマルチメディア情報を、前述のパスにある電子ファイルに追加保存する（ステップＳ０６）。

その後、出力部１４０は、入力されたマルチメディア情報を、端末装置２０及び３０を宛先として、図２に示したＬＡＮカード１０６に出力する（ステップＳ０７）。その後、ＬＡＮカード１０６は、マルチメディア情報を端末装置２０及び３０へ配信（つまり、生放送）する。

ここで、端末装置２０及び３０は、音声認識装置１００からマルチメディア情報を受信すると、マルチメディア情報で表される動画を表示する、図７に示す視聴画面を表示する。次に、端末装置２０及び３０は、マルチメディア情報を再生した動画を、視聴画面の動画表示領域ＡＭに表示し、再生した音声を音声出力装置から出力する。

ここでは、端末装置２０のユーザは、撮影装置２１の正面に向った状態で、「都政が混乱するので」という内容の発言をしたとして説明を行う。このため、図２に示す視聴画面には、端末装置２０のユーザが発言する様子を正面から撮影した動画が表示され、端末装置２０及び３０から「都政が混乱するので」という音声が出力される。

その後、番組を視聴した端末装置２０及び端末装置３０のユーザは、視聴した番組のコメントを入力させる操作を端末装置３０に行っても良いし、行わなくて良い。このとき、ユーザが端末装置３０に当該操作を行うと、端末装置３０は、コメントを入力し、入力したコメントを表すコメント情報と、コメントしたユーザのユーザＩＤと、を、音声認識装置１００へ送信する。

図３に示すステップＳ０７が実行された後に、入力部１２０は、ステップＳ０５と同様の処理を実行することで、マルチメディア情報を入力する（ステップＳ０８）。

その後、入力部１２０は、図２に示したＬＡＮカード１０６から出力される信号に基づいて、ＬＡＮカード１０６がコメント情報を受信したか否かを判別する（ステップＳ０９）。

このとき、入力部１２０は、ＬＡＮカード１０６がコメント情報を受信しなかったと判別すると（ステップＳ０９；Ｎｏ）、ステップＳ０６及びステップＳ０７と同様の処理を実行することで、コメント情報の保存及び出力を行う（ステップＳ１０及びステップＳ１１）。

これに対して、入力部１２０は、ＬＡＮカード１０６がコメント情報を受信したと判別すると（ステップＳ０９；Ｙｅｓ）、ＬＡＮカード１０６が受信したコメント情報と、ユーザＩＤと、を、ＬＡＮカード１０６から入力する（ステップＳ１２）。

その後、保存部１３０は、ソフトウェアタイマを参照し、生放送の開始日時からの経過時間を取得する（ステップＳ１３）。次に、保存部１３０は、取得した経過時間をコメントの入力時点とする（ステップＳ１４）。その後、保存部１３０は、コメント情報で表されるコメントのコメントＩＤを生成する。

次に、保存部１３０は、番組の放送ＩＤと、当該番組に対するコメントの入力時点及びコメントＩＤと、当該コメントと、当該コメントを発したユーザのユーザＩＤと、を、対応付けて、図６のコメントテーブルに追加保存する（ステップＳ１５）。

その後、出力部１４０は、入力されたコメント情報を、端末装置２０及び３０を宛先として、図２に示したＬＡＮカード１０６に出力する（ステップＳ１６）。その後、ＬＡＮカード１０６は、コメント情報を端末装置２０及び３０へ配信する。

端末装置２０及び３０は、コメント情報を音声認識装置１００から受信すると、コメント情報で表されるコメントを、図７に示す視聴画面のコメント表示領域ＡＣに表示する。

次に、保存部１３０は、ステップＳ１２で入力されたコメント情報で表されるコメントを、ステップＳ０８で入力されたマルチメディア情報で表される動画に合成する（ステップＳ１７）。

その後、保存部１３０は、コメントが合成された動画を表すマルチメディア情報を、前述のパスにあるファイルに追加保存する（ステップＳ１８）。

次に、出力部１４０は、コメントが合成されたマルチメディア情報を、端末装置２０及び３０を宛先として、図２に示したＬＡＮカード１０６に出力する（ステップＳ１９）。その後、ＬＡＮカード１０６は、マルチメディア情報を端末装置２０及び３０へ配信する。

端末装置２０及び３０は、マルチメディア情報を音声認識装置１００から受信すると、マルチメディア情報を再生し、コメントが合成された動画を、図７に示す視聴画面の動画表示領域ＡＭに表示する。

ここでは、端末装置３０を使用する視聴者は、出力された音声「都政が混乱するので」を聴取し、当該音声に対するコメント「混乱し過ぎだろ」を端末装置３０に入力させたとして説明を行う。また、当該視聴者は、視聴画面に表示された出演者の映像を視認し、出演者の氏名に言及するコメント「佐藤一郎きたー！」を端末装置３０に入力させたとして説明を行う。このため、図７に示す視聴画面のコメント表示領域ＡＣには、「混乱し過ぎだろ」及び「佐藤一郎きたー！」というコメントが表示される。また、動画表示領域ＡＭには、出演者の正面像に対して「混乱し過ぎだろ」及び「佐藤一郎きたー！」というコメントが合成された動画が表示される。

ステップＳ１１若しくはステップＳ１９が実行された後に、入力部１２０は、システム日時を参照し、参照したシステム日時が、ステップＳ０１で取得した生放送終了予定日時を経過した日時であるか否かを判別する（ステップＳ２０）。このとき、入力部１２０は、生放送終了予定日時を経過していないと判別すると（ステップＳ２０；Ｎｏ）、ステップＳ０８から上記処理を繰り返す。

ステップＳ２０において、入力部１２０は、生放送終了予定日時を経過したと判別すると（ステップＳ２０；Ｙｅｓ）、生放送処理の実行を終了する。

次に、ＣＰＵ１０１の動作について、音声認識装置１００が、既に生放送した番組を再放送し、端末装置４０のユーザが当該番組を視聴する場合を例に挙げて説明する。

ここで、端末装置４０のユーザは、生放送の開始から所定時間経過後に、生放送された番組の再放送を要求するリクエスト（以下、再放送リクエストという）を音声認識装置１００へ送信させる操作を端末装置４０に行う。端末装置４０は、当該操作に応じて再放送リクエストを音声認識装置１００へ送信する。

ＣＰＵ１０１は、図２に示したＬＡＮカード１０６が再放送リクエストを受信すると、図８に示す再放送処理の実行を開始する。

先ず、入力部１２０は、放送ＩＤを生成し、ＬＡＮカード１０６から、受信された再放送リクエストを入力する。次に、入力部１２０は、再放送リクエストから、再放送が求められた生放送番組の放送ＩＤ、及び再放送の開始を求める日時（以下、再放送要求日時という）を取得する（ステップＳ３１）。

次に、保存部１３０は、システム日時を参照し、参照したシステム日時が、生放送開始要求日時を経過した日時であるか否かを判別する（ステップＳ３２）。このとき、保存部１３０は、再放送開始要求日時を経過していないと判別すると（ステップＳ３２；Ｎｏ）、所定時間待機した後に、ステップＳ３２の処理を繰り返す。

ステップＳ３２において、保存部１３０は、再放送開始要求日時を経過したと判別すると（ステップＳ３２；Ｙｅｓ）、システム日時を参照し、参照したシステム日時を、再放送の放送開始日時とする。また、保存部１３０は、再放送が求められた生放送番組の放送ＩＤに対応付けられた放送開始日時とパスとを、図５に示した放送テーブルから検索する。その後、保存部１３０は、再放送の放送開始日時と、生放送の放送開始日時と、の差異を算出し、算出した差異をシフト時間とする。次に、保存部１３０は、再放送の放送ＩＤと、当該再放送の放送開始日時と、当該再放送のシフト時間と、再放送された生番組のパスと、を対応付けて、図５の放送テーブルへ追加保存する（ステップＳ３３）。

次に、保存部１３０は、ステップＳ０４と同様の処理を実行することで、再放送開始日時からの経過時間の計時を開始する（ステップＳ３４）。

次に、入力部１２０は、前述のパスにある電子ファイルから、所定サイズのマルチメディア情報を読み出す（ステップＳ３５）。

その後、出力部１４０は、読み出されたマルチメディア情報を、端末装置４０を宛先として、図３に示したＬＡＮカード１０６に出力する（ステップＳ３７）。その後、ＬＡＮカード１０６は、マルチメディア情報を端末装置４０へ送信する。端末装置４０は、受信したマルチメディア情報を再生することで（いわゆる、タイムシフト再生）、端末装置３０のユーザが入力したコメントが合成された動画を表示し、音声を出力する。

その後、端末装置４０のユーザは、再放送された番組を視聴し、番組に対するコメントを入力させる操作を端末装置４０に行っても良いし、行わなくて良い。

次に、入力部１２０は、ステップＳ３５と同様の処理を実行し、マルチメディア情報を読み出す（ステップＳ３８）。

その後、入力部１２０は、図３に示したステップＳ０９と同様の処理を実行することで、ＬＡＮカード１０６がコメント情報を受信したか否かを判別する（ステップＳ３９）。

このとき、入力部１２０は、ＬＡＮカード１０６がコメント情報を受信しなかったと判別すると（ステップＳ３９；Ｎｏ）、ステップＳ３７の処理と同様の処理を実行することで、ステップＳ３８で読み出されたマルチメディア情報の出力を行う（ステップＳ４１）。

ステップＳ３９において、入力部１２０は、ＬＡＮカード１０６がコメント情報を受信したと判別すると（ステップＳ３９；Ｙｅｓ）、図３のステップＳ１２からステップＳ１７までの処理と同様の処理を実行する（ステップＳ４２からステップＳ４７）。これにより、ステップＳ３８で読み出されたマルチメディア情報で表される動画に、ステップＳ４２で入力されたコメント情報で表されるコメントが合成されたマルチメディア情報が生成される。

次に、保存部１３０は、前述のパスにある電子ファイルに保存されたマルチメディア情報の内で、ステップＳ３８で読み出されたマルチメディア情報を、ステップＳ４７で生成されたマルチメディア情報に書き換える（ステップＳ４８）。

その後、出力部１４０は、図３に示したステップＳ１９と同様の処理を実行する（ステップＳ４９）。これにより、端末装置４０へ、端末装置４０のユーザが入力したコメントが合成された動画を表すマルチメディア情報が送信される。

ステップＳ４１若しくはステップＳ４９の処理が実行された後に、入力部１２０は、前述のパスにある電子ファイルからマルチメディア情報を読み出す位置（以下、読出位置という）を、読み出したマルチメディア情報のサイズだけ後側にシフトさせる。次に、入力部１２０は、読出位置が、電子ファイルの最後であるＥＯＦ（End Of File）であるか否かを判別する（ステップＳ５０）。このとき、入力部１２０は、読出位置がＥＯＦでないと判別すると（ステップＳ５０；Ｎｏ）、ステップＳ３８から上記処理を繰り返す。

ステップＳ５０において、入力部１２０は、読出位置がＥＯＦであると判別すると（ステップＳ５０；Ｙｅｓ）、再放送処理の実行を終了する。

音声認識装置１００のＣＰＵ１０１は、放送された番組の検索キー、若しくは番組で放送される動画に付される字幕として、番組での発言内容を要約したテキストを生成する、図９に示す要約生成処理を実行する。これにより、ＣＰＵ１０１は、図４に示す前述の入力部１２０、保存部１３０、及び出力部１４０の他に、抽出部１５０及び音声認識部１６０として機能する。また、ＣＰＵ１０１は、前述のように、ハードディスク１０４と協働して蓄積部１９０として機能する。

抽出部１５０は、番組で発言された音声を表す単語の候補となる単語（以下、候補語という）を、蓄積部１９０に蓄積されたコメント等から抽出する。音声認識部１６０は、抽出された候補語に基づいてマルチメディア情報の再生により発せられる音声を認識する。

次に、要約生成処理に用いられる各種情報について説明する。
蓄積部１９０は、番組にコメントしたユーザが参照した文書のＵＲＬが保存された、図１０に示す参照テーブルを記憶している。参照テーブルには、ユーザのユーザＩＤと、当該ユーザが参照した文書のＵＲＬ（Uniform Resource Locator）と、当該ＵＲＬにある文書を当該ユーザが参照した日時（以下、参照日時という）と、が対応付けられたデータが複数保存されている。

尚、ユーザが参照した文書は、例えば、ニュースや百科事典や辞書の内容を掲載したウェブページ若しくはブログなどを含む。また、音声認識装置１００は、文書サーバとして機能し、端末装置２０から４０それぞれから、文書の送信リクエストと、送信を要求する文書のＵＲＬと、送信を要求するユーザのユーザＩＤと、を受信する。音声認識装置１００は、送信が要求された文書を返信すると共に、ユーザＩＤと、リクエストの返信日時（つまり、ユーザの参照日時）と、文書のＵＲＬと、を対応付けて、図１０に示す参照テーブルへ蓄積する。

また、蓄積部１９０は、番組に関連した文を要素とする文集合が保存される、図１１に示す文集合テーブルを記憶している。ここでは、番組に関連した文は、入力された番組のコメントを構成する文（以下、入力文という）及び番組にコメントしたユーザが参照した文書に掲載された文（以下、参照文という）を含む。

文集合テーブルには、番組に関連した文が入力文である場合に、当該文を識別する文ＩＤと、当該文と、当該文の種類と、当該文の入力時点と、当該番組の放送開始日時のシフト時間（以下、当該文に対応したシフト時間という）と、が、が対応付けられたデータが複数保存される。

また、文集合テーブルには、文集合に含まれる番組に関連した文が参照文である場合に、当該文を識別する文ＩＤと、当該文と、当該文の種類と、当該文の検索に用いられたコメントの入力時点と、当該文に対応したシフト時間と、が、が対応付けられたデータが複数保存される。

また、蓄積部１９０は、コメントや文書に含まれることがある単語と、コメントや文書において当該単語と共に使用されることがある共起語が保存された、図１２に示す共起語テーブルを記憶している。共起語テーブルには、単語と、当該単語の共起語と、当該単語と当該共起語とがコメントや文書で共に使用される（つまり、共起する）ことがどの程度尤もであるかを表す尤度（以下、共起尤度という）と、が対応付けられたデータが複数保存されている。

さらに、蓄積部１９０は、候補語が保存される、図１３に示す候補語テーブルを記憶している。本実施例では、音声認識装置１００は、番組で発言された音声を表す単語の候補として、入力文に含まれる単語（以下、入力語という）、入力文が入力された時期にユーザが参照した参照文に含まれる単語（以下、参照語という）、及びこれらの共起語（以下それぞれ、入力共起語及び参照共起語という）を用いる。

このため、候補語テーブルには、候補語が入力語である場合に、当該入力語を識別する候補語ＩＤと、当該入力語と、当該入力語を含む入力文の入力時点（以下、当該入力語に対応した入力時点という）と、当該入力語を含む文に対応したシフト時間（以下、当該入力語に対応したシフト時間という）と、当該入力語の出現尤度と、が対応付けて保存される。出現尤度とは、候補語の抽出に用いられたコメントが入力された条件の下で、当該候補語が番組中の発言に出現することの尤もらしさを表す値をいう。

また、候補語テーブルには、候補語が参照語の場合に、当該参照語の候補語ＩＤと、当該参照語と、当該参照語を含む文書の検索に用いられたコメントの入力時点（以下、当該参照語に対応した入力時点という）と、当該参照語を含む文に対応したシフト時間（以下、当該参照語に対応したシフト時間という）と、当該参照語の出現尤度と、が対応付けて保存される。

さらに、候補語テーブルには、候補語が入力共起語の場合に、当該入力共起語の候補語ＩＤと、当該入力共起語と、当該入力共起語と共に用いられると推測される入力語の入力時点（以下、当該入力共起語に対応した入力時点という）と、当該入力語を含む文に対応したシフト時間（以下、当該入力共起語に対応したシフト時間という）と、当該入力共起語の出現尤度と、が対応付けて保存される。

またさらに、候補語テーブルには、候補語が参照共起語の場合に、当該参照共起語の候補語ＩＤと、当該参照共起語と、当該参照共起語と共に用いられると推測される参照語に対応した入力時点（以下、当該参照共起語に対応した入力時点）と、当該参照語を含む文に対応したシフト時間（以下、当該参照共起語に対応したシフト時間という）と、当該参照共起語の出現尤度と、が対応付けて保存される。

また、蓄積部１９０は、番組の音声を認識するために用いられる、音響モデル、単語辞書、及び言語モデルを記憶している。音響モデルは、音素や音節の周波数パターンを表し、番組の音声を音素若しくは音節（以下、音素等という）の配列（以下、音素等列という）に分解するために用いられる。単語辞書は、単語と当該単語の発音を表す音素等列とを複数対応付けた辞書である。言語モデルは、複数の単語の連鎖を規定するモデルであり、２つの単語の連鎖を規定するバイグラムモデルであっても、３つの単語の連鎖を規定するトライグラムモデルであっても、Ｎ個の単語の連鎖を規定するＮグラムモデルであっても良い。

また、蓄積部１９０は、ある発音時点で発音された音声が、ある入力時点で入力されたコメントの対象とされた音声と、どの程度の確率で合致するかを表す合致度を表す合致度データを記憶している。合致度データは、入力時点から発音時点を減算した差異（以下、時点差異という）の変化に伴って、合致度がどのように推移するかを表す合致度曲線を表す。

蓄積部１９０が記憶する合致度曲線は、生放送合致度曲線と、再放送合致度曲線と、を含む。生放送合致度曲線は、生放送された番組の音声と、当該番組の放送中に入力されたコメントの対象となった音声と、の合致度を表す。再放送合致度曲線は、再放送された番組の音声と、当該番組の再放送中に入力されたコメントの対象となった音声と、の合致度を表す。

再放送合致度曲線上の点は、時点差異が所定の値「-TD1」以上「+TD2」以下の範囲で、生放送合致度曲線上の点よりも合致度が大きくなっている。既に生放送で番組を視聴している視聴者や、再放送で同じ番組を繰り返し視聴している視聴者は、予め番組で放送される音声を把握している。このため、これらの視聴者は、生放送で初めて番組を視聴する視聴者よりも、コメント対象とする音声の発音時点に近い時点でコメントを入力する傾向にあるからである。

また、生放送合致度曲線は、時点差異が「TP」のときがピークであり、時点差異が「TP」から離れるに従って減衰する。これは、生放送の場合には、出演者の音声を聞いた後で当該音声にコメントを入力することが多いためである。但し、出演者が入力されたコメントに対して発言する場合もあるため、必ずしも時点差異は正となる（すなわち、コメントの入力時点の方が発音時点よりも遅くなる）訳ではない。

さらに、再放送合致度曲線は、時点差異が「0」のときがピークであり、時点差異「0」から離れるに従って減衰する。前述のように、既に生放送で番組を視聴している視聴者などは、コメント対象とする音声の発音時点と同じ時点でコメントを入力することが多いためである。

次に、図４に示した入力部１２０、保存部１３０、出力部１４０、抽出部１５０、及び音声認識部１６０で行われるＣＰＵ１０１の動作について説明する。

放送が終了すると、音声認識装置１００のユーザは、番組で放送された音声の内容を要約したテキストを生成するように指示する操作（以下、要約生成指示操作という）と、要約を生成させる番組のマルチメディア情報のパスを指定する操作（以下、パス指定操作という）と、を、図２に示したキーボード１０９に行う。

音声認識装置１００のＣＰＵ１０１は、キーボード１０９から要約生成指示操作に応じた信号を入力すると、図９に示す要約生成処理の実行を開始する。

先ず、入力部１２０は、キーボード１０９から出力される信号を入力し、入力した信号に基づいて、パス指定操作で指定されたパス（以下、指定パスという）を特定する（ステップＳ６１）。

次に、抽出部１５０は、パスにあるマルチメディア情報で表される番組に関連した文を要素とする文集合を生成する、図１５に示す文集合生成処理を実行する（ステップＳ６２）。

文集合生成処理を開始すると、抽出部１５０は、指定パスに対応付けられた放送ＩＤを、図５に示した放送テーブルから全て検索する（ステップＳ７１）。

次に、抽出部１５０は、検索された放送ＩＤ（以下、検索放送ＩＤという）それぞれについて、検索放送ＩＤに対応付けられたコメントと、入力時点と、ユーザＩＤと、を、図６に示したコメントテーブルから全て検索する（ステップＳ７２）。これにより、抽出部１５０は、指定パスにあるメディア情報で表される番組が生放送若しくは再放送されたときに入力されたコメントと、当該コメントを発したユーザと、放送の開始日時からの経過時間で表されるコメントの入力時点と、を特定する。

その後、抽出部１５０は、検索されたコメント（以下、検索コメントという）の全てについて、コメントを構成する文（つまり、入力文）を取得し、取得した入力文を、指定されたマルチメディア情報で表される番組に関連した文とする。次に、抽出部１５０は、入力文を要素とする文集合を生成する（ステップＳ７３）。

その後、抽出部１５０は、検索された放送ＩＤそれぞれについて、放送ＩＤに対応付けられたシフト時間を、図５に示した放送テーブルから検索する。次に、抽出部１５０は、入力文の文ＩＤを生成する。その後、検索されたシフト時間を、同じ放送ＩＤで検索されたコメントの入力文に対応したシフト時間とする。

その後、抽出部１５０は、生成した文ＩＤと、当該文と、当該文の種類と、当該文で構成されるコメントの入力時点と、当該文に対応したシフト時間と、を対応付けて、図１１に示した文集合テーブルに保存する（ステップＳ７４）。

コメントから抽出された入力文にシフト時間を対応付けておくのは、シフト時間によって、音声の出力タイミングに対するコメントの入力タイミングが異なると推測されるからである。このため、後の処理のために入力文とシフト時間とを対応付けておく必要があるからである。

その後、抽出部１５０は、ステップＳ７１で検索された放送ＩＤそれぞれについて、放送ＩＤに対応付けられた放送開始日時を、図５に示した放送テーブルから検索する（ステップＳ７５）。

その後、抽出部１５０は、ステップＳ７２で検索されたコメントそれぞれについて、検索された放送開始日時を入力時点に加算することで、コメントが入力された日時（以下、コメント入力日時という）を特定する（ステップＳ７６）。

次に、抽出部１５０は、コメント入力日時より所定の時間Ａだけ前の日時から、コメント入力日時より所定の時間Ｂだけ後の日時までの時間区間（以下、コメント入力時期という）を算出する。次に、抽出部１５０は、ステップＳ７２で検索されたコメントそれぞれについて、コメント入力時期に含まれる参照日時と、ステップＳ７２で検索されたユーザＩＤと、に対応付けられたＵＲＬを、図１０に示した参照テーブルから検索する（ステップＳ７７）。これにより、抽出部１５０は、コメント入力時期にユーザが参照した文書を特定し、特定した文書を、当該コメントを入力するためにユーザが参照したページとする。尚、好適な所定の時間Ａ及び所定の時間Ｂは、当業者が実験により定めることはできる。

次に、抽出部１５０は、ステップＳ７６で検索された全ＵＲＬについて、ＵＲＬにある文書を取得する（ステップＳ７８）。

その後、抽出部１５０は、取得された全文書について、参照された文書に掲載された文（以下、参照文という）を取得し、取得した参照文を、指定されたマルチメディア情報で表される番組に関連した文とする。次に、抽出部１５０は、参照文を文集合に追加する（ステップＳ７９）。

例えば、視聴者が、番組を視聴しているときに参照した文書は、番組で放送された内容の内で、視聴者が疑問に思った内容や確認したいと思った内容など、番組に関連した内容を掲載していることが多いためである。

その後、抽出部１５０は、参照文を、図１１に示した文集合テーブルに保存した後に（ステップＳ７８）、文集合生成処理の実行を終了する。具体的には、抽出部１５０は、参照文の文ＩＤを生成し、生成した文ＩＤと、当該文と、当該文の種類と、当該文を含む文書の検索に用いられたコメントの入力時点と、当該文に対応するシフト時間と、を、対応付けて文集合テーブルに保存する。

尚、参照された文書から抽出された参照文にシフト時間を対応付けておくのは、シフト時間によって、音声の出力タイミングに対する文書の参照タイミングが異なると推測されるからである。このため、後の処理のために参照文とシフト時間とを対応付けておく必要があるからである。

図９のステップＳ６２の後に、抽出部１５０は、文集合に含まれる文から、番組で放送された音声を表す単語の候補（つまり、候補語）を抽出する、図１６に示す候補語抽出処理を実行する（ステップＳ６３）。

候補語抽出処理の実行を開始すると、抽出部１５０は、文集合に含まれる文を全て取得する（ステップＳ８１）。次に、抽出部１５０は、取得した文それぞれに形態素解析を施す（ステップＳ８２）。これにより、抽出部１５０は、入力文を構成する単語（つまり、入力語）の全てと、参照文を構成する単語（つまり、参照語）の全てと、を、それぞれの文から抽出する（ステップＳ８３）。

その後、抽出部１５０は、抽出した入力語のそれぞれについて、入力語に対応付けられた共起語（つまり、入力共起語）を、図１２に示した共起語テーブルから検索する。次に、抽出部１５０は、入力語に基づいて検索された入力共起語を、当該入力語が番組のコメントの一部として入力された場合に、番組の出演者の発言内容に用いられている（つまり、発言内容として共起している）と推測される単語とする。

また、抽出部１５０は、抽出した参照語のそれぞれについて、参照語に対応付けられた共起語（つまり、参照共起語）を、共起語テーブルから検索する（ステップＳ８４）。次に、抽出部１５０は、参照語に基づいて検索された参照共起語を、番組にコメントするために当該参照語を視聴者が参照した場合に、番組の出演者の発言に用いられていると推測される単語とする。

次に、抽出部１５０は、ステップＳ８３で抽出された入力語及び参照語、並びにステップＳ８４で検索された入力共起語及び参照共起語を候補語とする（ステップＳ８５）。

その後、抽出部１５０は、候補語を、図１３に示した候補語テーブルに保存した後に（ステップＳ８６）、候補語抽出処理の実行を終了する。

具体的には、抽出部１５０は、候補語のそれぞれについて、候補語を識別する候補語ＩＤを生成する。次に、抽出部１５０は、入力語と、当該入力語の共起語、当該入力語を含むコメントに基づいて検索された文書に掲載された参照語、及び当該参照語の共起語に対応した入力時点を、当該入力語が抽出された入力文の入力時点とする。

次に、抽出部１５０は、入力語である候補語の候補語ＩＤと、当該候補語と、当該候補語の種類と、当該候補語に対応した入力時点と、当該候補語を含む入力文に対応付けられたシフト時間と、を、対応付けて、候補語テーブルに保存する。また、抽出部１５０は、入力共起語である候補語の候補語ＩＤと、当該候補語と、当該候補語の種類と、当該候補語に対応した入力時点と、共起が推測される入力語に対応したシフト時間と、を、対応付けて、候補語テーブルに保存する。さらに、抽出部１５０は、参照語である候補語の候補語ＩＤと、当該候補語と、当該候補語の種類と、当該候補語に対応した入力時点と、当該候補語を含む参照文に対応したシフト時間と、を、対応付けて、候補語テーブルに保存する。またさらに、抽出部１５０は、参照共起語である候補語の候補語ＩＤと、当該候補語と、当該候補語の種類と、当該候補語に対応する入力時点と、共起が推測される参照語に対応付けられたシフト時間と、を、対応付けて、候補語テーブルに保存する。

図９示したステップＳ６３で候補語が抽出された後に、図４に示した音声認識部１６０は、候補語のそれぞれについて出現尤度を算出する（ステップＳ６４）。

ここで、ステップＳ６４の処理の一例について説明する。
音声認識部１６０は、図１３に示した候補語テーブルに保存された候補語の全てを検索する。次に、音声認識部１６０は、入力語である候補語のそれぞれについて、出現尤度として第１所定値を割り当てる。この第１所定値は、番組のコメントの一部として当該入力語が入力された条件の下で、例えば、当該入力語が番組中で発言されるなど、当該入力語が番組の音声に出現することの尤もらしさがどの程度であるかを表す値である。

また、音声認識部１６０は、参照語である候補語のそれぞれについて、出現尤度として第２所定値を割り当てる。この第２所定値は、番組のコメントの一部として当該参照語の検索に用いられたコメントが入力された条件の下で、当該参照語が番組の音声に出現することの尤もらしさがどの程度であるかを表す値である。第１所定値及び第２所定値は、当業者が実験により好適な値に定めることができる。

また、抽出部１５０は、候補語の内で、入力語の共起語のそれぞれについて、図１２に示した共起語テーブルから、当該入力語と当該共起語とに対応付けられた共起尤度を検索する。次に、抽出部１５０は、検索した共起尤度を用いて前述の第１所定値を調整した値（以下、第１調整値）を、当該共起語の出現尤度として割り当てる。この第１調整値は、当該入力語を含むコメントが入力された条件の下で、当該共起語が番組の発言中に出現することの尤もらしさがどの程度であるかを表す値であり、共起尤度が高い程高い値に調整される。

さらに、抽出部１５０は、候補語の内で、参照語の共起語のそれぞれについて、図１２に示した共起語テーブルから、当該参照語と当該共起語とに対応付けられた共起尤度を検索する。次に、抽出部１５０は、検索した共起尤度を用いて前述の第２所定値を調整した値（以下、第２調整値）を、当該共起語の出現尤度として割り当てる。この第２調整値は、当該参照語の検索に用いられたコメントが入力された条件の下で、当該共起語が番組の発言中に出現することの尤もらしさがどの程度であるかを表す値であり、共起尤度が高い程高い値に調整される。

図９に示すステップＳ６４が実行された後に、入力部１２０は、ステップＳ６１で特定された指定パスから、所定サイズのマルチメディア情報を読み出す（ステップＳ６５）。

次に、図４に示した音声認識部１６０は、ステップＳ６５で読み出されたマルチメディア情報で表される番組の音声（以下、番組音声）Ｘを認識する、図１７に示すような連続音声認識処理を実行する（ステップＳ６６）。

尚、音声認識部１６０が実行する連続音声認識処理は、非特許文献１に記載されているので、以下、概略を説明する。

連続音声認識処理は、ステップＳ６５で読み出された番組の音声（以下、番組音声という）Ｘが入力されたときに、番組音声Ｘの内容が単語列Ｗで表される確率ｐ（Ｗ｜Ｘ）を最大にする単語列Ｗ^＊を探索する処理である。

ここで、確率ｐ（Ｗ｜Ｘ）は、ベイズ則により、以下の式（１）のように書き換えることができる。

ここで、分母の確率ｐ（Ｘ)は、単語列Ｗの決定に影響しない正規化係数と考えられるので無視できる。

このため、以下の式（２）で表される、確率ｐ（Ｗ｜Ｘ）を最大にする単語列Ｗ^＊は、以下の式（３）若しくは式（４）でも表される。

本実施例では、音声認識部１６０は、式（３）を満たす単語列Ｗ^＊を探索するとして説明するが、これに限定される訳ではなく、式（４）を満たす単語列Ｗ^＊を探索しても良い。

音声認識処理の実行を開始すると、音声認識部１６０は、図９に示すステップＳ６５で読み出されたマルチメディア情報で表される音声の音声信号から、例えば、周波数及び音圧に基づいて、番組の音声（以下、番組音声という）Ｘを抽出する信号処理を行う（ステップＳ９１）。

次に、音声認識部１６０は、抽出された番組音声Ｘの周波数の変化と、蓄積部１９０に記憶された音響モデルで表される音素や音節の周波数パターンと、を、マッチングさせることで、番組音声Ｘを音素等に分解し、番組音声Ｘを表す音素等列Ｘ＝｛ｘ_１，ｘ_２，…，ｘ_ｋ｝を生成する（ステップＳ９２）。

その後、音声認識部１６０は、番組音声Ｘが発音された発音時点を特定し、放送の開始日時から音声が発せられるまでの経過時間を用いて表す（ステップＳ９３）。

次に、音声認識部１６０は、図１３に示した候補語テーブルに保存された候補語の全てについて、候補語に対応する入力時点と、抽出された番組音声の発音時点と、の差異（つまり、時点差異）を算出する（ステップＳ９４）。

その後、音声認識部１６０は、図１３に示した候補語テーブルに保存された候補語の全てについて、候補語に対応するシフト時間を検索する。次に、音声認識部１６０は、シフト時間が所定値以下の候補語について、ステップＳ９４で算出された時点差異と、蓄積部１９０に保存されたデータで表される生放送合致度曲線と、に基づいて合致度を算出する。また、音声認識部１６０は、シフト時間が所定値より大きい候補語について、算出された時点差異と、蓄積部１９０に保存されたデータで表される再放送合致度曲線と、に基づいて合致度を算出する（ステップＳ９５）。

次に、音声認識部１６０は、生成した単語列Ｗの数の計数に用いられる変数ｊを値「0」で初期化する（ステップＳ９６）。

次に、音声認識部１６０は、合致度の高い候補語ほど、高確率で、単語列Ｗ＝｛ｗ_１，ｗ_２，…，ｗ_ｋ｝を構成する候補語ｗ_１からｗ_ｋとして選択する。また、音声認識部１６０は、出現尤度の高い候補語ほど、高確率で、上記単語列Ｗを構成する候補語ｗ_１からｗ_ｋとして選択する。その後、音声認識部１６０は、選択した候補語ｗ_１からｗ_ｋで構成される単語列Ｗを生成する（ステップＳ９７）。尚、単語列Ｗを構成する候補語の数ｋは、ステップＳ９７の実行時に確率的に決定される。

その後、音声認識部１６０は、蓄積部１９０が記憶する単語辞書を用いて、単語列Ｗを構成する候補語それぞれについて音素等列を生成し、単語列Ｗの発音を表す音素等列Ｍ＝｛ｍ_１，ｍ_２，…，ｍ_ｉ｝を生成する（ステップＳ９８）。

次に、音声認識部１６０は、以下の式（５）を用いて、単語列Ｗから番組音声Ｘが生起する確率ｐ（Ｘ｜Ｗ）を算出する（ステップＳ９９）。尚、確率ｐ（Ｘ｜Ｗ）は、単語列Ｘの発音を表す音素等列と、番組音声の音素等列と、がどの程度一致するかを表すため、一致度と称される。

尚、音声認識部１６０は、音響モデルで表される音素等ｍ_ｉの音響的特徴と、音声信号から分解された音素等ｘ_ｉの音響的特徴と、が、どの程度一致しているかを比較し、一致しているほどｐ（ｘ_ｉ｜ｍ_ｉ）を値「1」に近い値とし、相違しているほどｐ（ｘ_ｉ｜ｍ_ｉ）を「0」に近い値とする。

次に、音声認識部１６０は、番組音声Ｘが入力される時点で、単語列Ｗが生起する確率であり、番組音声Ｘとは無関係の言語的確からしさを表す結合度ｐ（Ｗ）を、下記の式（６）を用いて算出する。このとき、音声認識部１６０は、下記の式（６）を式（７）で近似し、Ｎグラムモデルの言語モデルを用いて結合度ｐ（Ｗ）の近似値を算出する（ステップＳ１００）。計算量を軽減するためである。

その後、音声認識部１６０は、ステップＳ９９で算出されたｐ（Ｘ｜Ｗ）と、ステップＳ１００で算出された結合度ｐ（Ｗ）と、を乗算して、ｐ（Ｗ|Ｘ）を算出する（ステップＳ１０１）。

その後、音声認識部１６０は、変数ｊを値「1」だけ増加させた後に（ステップＳ１０２）、変数ｊが所定値Ｔｈより大きいか否かを判別する（ステップＳ１０３）。このとき、音声認識部１６０は、変数ｊが所定値Ｔｈ以下であると判別すると（ステップＳ１０３；Ｎｏ）、ステップＳ９７に戻り、上記処理を繰り返す。尚、好適な所定値Ｔｈは、当業者が実験により定めることができる。

これに対して、音声認識部１６０は、変数ｊが所定値Ｔｈより大きいと判別すると（ステップＳ１０３；Ｙｅｓ）、算出されたＴｈ通りの単語列Ｗの内で、ｐ（Ｗ｜Ｘ）を最大にする（すなわち、式（２）から（４）を満たす）単語列Ｗ^＊を特定した後に（ステップＳ１０４）、連続音声認識処理の実行を終了する。

図９に示すステップＳ６６の連続音声認識処理が実行された後に、音声認識処理部１６０は、認識された単語列Ｗ^＊を要約に追加する（ステップＳ６７）。

その後、入力部１２０は、前述のパスにある電子ファイルの読出位置を、読み出したマルチメディア情報のサイズだけ後側にシフトさせる。次に、入力部１２０は、読出位置が、電子ファイルの最後であるＥＯＦであるか否かを判別する（ステップＳ６８）。このとき、入力部１２０は、読出位置がＥＯＦでないと判別すると（ステップＳ６８；Ｎｏ）、ステップＳ６５から上記処理を繰り返す。

ステップＳ６８において、入力部１２０が、読出位置がＥＯＦであると判別すると（ステップＳ６８；Ｙｅｓ）、出力部１４０は、図２に示したビデオカード１０７へ要約を出力する（ステップＳ６９）。その後、ビデオカード１０７は、ＬＣＤ１０８に要約を表示させる。

次に、出力部１４０は、指定パスと、当該指定パスにあるマルチメディア情報で表される音声の要約を表すテキストと、を、対応付けて蓄積部１９０に保存した後に（ステップＳ７０）、要約生成処理の実行を終了する。キーワードに基づいてマルチメディア情報を検索できるようにするためである。

ここで、マルチメディア情報の再生により出力された音声に対するコメントは、当該音声の内容を表す単語若しくは当該単語の共起語を含むことが多い。このため、これらの構成によれば、音声認識装置１００は、コメントを構成する単語（つまり、入力語）及び当該単語の共起語（つまり、入力共起語）を、音声の内容を表す単語の候補（つまり、候補語）とするので、従来よりも音声を適切に認識できる。つまり、音声認識装置１００は、マルチメディア情報に付されたコメントを利用して、マルチメディア情報に含まれる音声を従来よりも適切に認識できる。

また、番組の音声についてコメントを入力するユーザは、発言の意味内容を文書で調べたり、確認したりすることが多い。このため、マルチメディア情報を聴取し、コメントを入力したユーザが閲覧した文書には、マルチメディア情報の再生により出力される音声の内容を表す単語若しくは当該単語の共起語を含むことが多い。よって、これらの構成によれば、音声認識装置１００は、ユーザが参照した文書を構成する単語（つまり、参照語）及び当該単語の共起語（つまり、参照共起語）を、音声の内容を表す単語の候補（つまり、候補語）とするので、音声を従来よりも適切に認識できる。

さらに、これらの構成によれば、音声から認識された音素と、候補語の発音を表す音素と、の一致度だけでなく、候補語の出現尤度にも基づいて音声認識するため、一致度だけに基づいて音声を認識する従来の音声認識装置よりも、精度良く音声を認識できる。

また、ここで、音声の発音時点と、当該音声に対するコメントの入力時点と、は、通常、所定時間以上相違することが少ないなど、互いに合致していることが多い。このため、音声認識装置１００は、候補語に対応した入力時点と、音声が発せられた発音時点と、の合致度と、当該候補語を含むコメントと、に基づいて、音声を認識するため、従来よりも精度良く音声を認識できる。

ここで、前述のように、既に生放送で番組を視聴している視聴者や、再放送で同じ番組を繰り返し視聴している視聴者は、生放送で初めて番組を視聴する視聴者よりも、コメント対象とする音声の発音時点に近い時点でコメントを入力する傾向にある。音声認識装置１００が記憶する再放送合致度曲線は、図１４に示すように、時点差異が「-TD1」から「TD2」までの範囲で、生放送合致度曲線よりも上側に位置する。このため、同じ候補語で、時点差異が「-TD1」から「TD2」までの範囲に含まれる同じ値ならば、再放送で入力若しくは参照された単語又は当該単語の共起語の方が、生放送で入力等された単語又は当該単語の共起語よりも、図１７に示した連続音声認識処理で生成される単語列Ｗに採用される確率が高い。

また、前述のように、既に生放送で番組を視聴している視聴者などは、再放送時において、コメント対象とする音声の発音時点に近い時点でコメントを入力することが多い。また、音声認識装置１００が記憶する再放送合致度曲線は、図１４に示すように、時点差異が「0」のときがピークであり、時点差異「0」から離れるに従って減衰する。このため、同じ候補語で、共に再放送で入力等された単語若しくは当該単語の共起語であれば、発音時点と入力等された時点との差異が少ない方が、連続音声認識処理で生成される単語列Ｗに採用される確率が高い。

これに対して、生放送の視聴者は、出演者の音声を聞いた後で当該音声に対してコメントを入力することが多い。音声認識装置１００が記憶する生放送合致度曲線は、図１４に示すように、時点差異が「TP」のときがピークであり、時点差異が「TP」から離れるに従って減衰する。このため、同じ候補語で、共に生放送で入力等された単語若しくは当該単語の共起語であれば、発音時点と入力等された時点との差異が「TP」に近い方が、連続音声認識処理で生成される単語列Ｗに採用される確率が高い。それにより、音声認識装置１００は、従来よりも精度良く音声認識できる。

本実施例では、図１に示した通信網１０は、インターネットであると説明したが、これに限定される訳ではなく、ＬＡＮ（Local Area Network）又は公衆回線網であっても良い。

本実施例では、マルチメディア情報は、番組の動画と音声とを表すとして説明したが、これに限定される訳ではなく、番組の音声のみを表しても良い。

＜実施例２＞
本発明の実施例２に係る音声認識装置２００は、実施例１に係る音声認識装置１００と同様に、図１に示した音声認識システム１を構成する。以下、実施例１との相違点について主に説明するため、実施例１との共通点については説明を省略する。

音声認識装置２００のハードウェア構成は、実施例１に係る音声認識装置２００のハードウェア構成と同様であるので説明を省略する。

次に、音声認識装置２００が有する機能について説明する。
実施例２に係る音声認識装置２００のＣＰＵは、図１８に示す要約生成処理を実行することで、図１９に示すような入力部２２０、保存部２３０、出力部２４０、抽出部２５０、音声認識部２６０、及び共起尤度算出部２７０として機能する。また、音声認識装置２００のＣＰＵは、ハードディスク１０４と協働して蓄積部２９０として機能する。入力部２２０、保存部２３０、出力部２４０、抽出部２５０、音声認識部２６０、及び蓄積部２９０は、実施例１で説明した入力部１２０、保存部１３０、出力部１４０、抽出部１５０、音声認識部１６０、及び蓄積部１９０と同様の機能を有する。

共起尤度算出部２７０は、端末装置２０から４０を使用するユーザ毎に、ユーザが参照した文書に掲載された単語と、当該文書において当該単語と共に使用される共起語と、当該共起語の共起尤度と、を算出する。

蓄積部１９０は、図１２に示す共起語テーブルではなく、図２０に示す共起語テーブルを記憶している。この共起語テーブルには、ユーザＩＤと、当該ユーザＩＤで識別されるユーザが参照した文書に掲載された単語と、当該単語の共起語と、当該単語と当該共起語とがコメントや文書で共に使用される（つまり、共起する）ことがどの程度尤もであるかを表す尤度（以下、共起尤度という）と、が対応付けられたデータが複数保存される。

次に、図１９に示す各機能部で行われるＣＰＵの動作について説明する。

音声認識装置２００のＣＰＵは、キーボードから要約生成指示操作に応じた信号を入力すると、図１８に示す要約生成処理の実行を開始する。

要約生成処理の実行を開始すると、共起尤度算出部２７０は、共起尤度を算出する共起尤度算出処理を実行する（ステップＳ６０）。

共起尤度算出処理では、共起尤度算出部２７０は、図１０に示した参照テーブルに保存されたユーザＩＤ毎に、ユーザＩＤと対応付けられたＵＲＬを検索する。次に、共起尤度算出部２７０は、検索したＵＲＬの全てについて、ＵＲＬにある文書を取得する。その後、共起尤度算出部２７０は、取得した文書の全てについて、文書に掲載された掲載単語と、当該掲載単語と当該文書で共に使用された共起単語と、当該共起単語が当該掲載単語と共に使用された共起回数と、を算出する。その後、共起尤度算出部２７０は、掲載単語と共起単語との全組み合わせについて、共起回数に基づき共起尤度を算出する。次に、共起尤度算出部２７０は、所定値以上の共起尤度について、ユーザＩＤと、掲載単語と、共起単語と、共起尤度と、を対応付けて、図２０に示す共起テーブルに保存する。

図１８に示すステップＳ６０の処理が実行された後に、ステップＳ６１からステップＳ６３の処理を実行する。

その後、音声認識部２６０は、候補語のそれぞれについて出現尤度を算出する（ステップＳ６４）。このとき、音声認識部２６０は、候補語が入力共起語の場合に、入力共起語と共起する入力語を入力したユーザのユーザＩＤを特定し、特定したユーザＩＤと当該入力語と当該入力共起語とに、図２０に示す共起テーブルで対応付けられた共起尤度を検索する。次に、音声認識部２６０は、検索した共起尤度を用いて出現尤度を算出する。また、音声認識部２６０は、候補語が参照共起語の場合に、参照共起語と共起する参照語を参照したユーザのユーザＩＤを特定し、特定したユーザＩＤと当該参照語と当該参照共起語とに、図２０に示す共起テーブルで対応付けられた共起尤度を検索する。次に、音声認識部２６０は、検索した共起尤度を用いて出現尤度を算出する。

その後、音声認識部２６０は、ステップＳ６５からステップＳ７０の処理を実行した後に、要約生成処理の実行を終了する。

これらの構成によれば、音声認識２００は、視聴者が参照した文書に掲載された掲載単語と、当該掲載単語と共に文書中で使用された単語を共起語とし、当該掲載単語と当該共起語とが当該文書で共起した回数に基づいて共起尤度を算出する。また、音声認識２００は、算出した共起尤度を用いて、視聴者が入力若しくは参照した単語の共起語の出現尤度を算出し、算出した共起語の出現尤度と、共起語の発音と音声との一致度と、に基づいて音声を認識する。ここで、視聴者が互いに共起させてコメントに用いる単語や互いに共起して文書に掲載される単語は、話題となっている事項や、時代の流行や、視聴者の嗜好によって変化する。このため、話題となっている事項や、時代の流行や、視聴者の嗜好が変化しても、音声認識装置２００は、精度良く音声を認識できる。

＜実施例３＞
実施例１に係る音声認識装置１００は、図３に示したステップＳ１７で、コメントを合成した動画を生成し、ステップＳ１９で、コメントの合成された動画を表すマルチメディア情報を、図２に示したＬＡＮカード１０６へ出力すると説明した。ＬＡＮカード１０６は、当該マルチメディア情報を端末装置２０及び３０へ送信し、端末装置２０及び３０は、コメントの合成された動画を、図７に示した視聴画面の動画表示領域ＡＭに表示すると説明した。

実施例３に係る音声認識装置は、図３に示したステップＳ１７で、コメントを合成した動画を生成せず、ステップＳ１９で、マルチメディア情報とコメント情報とをＬＡＮカード１０６へ出力する。ＬＡＮカード１０６は、当該マルチメディア情報と当該コメント情報とを端末装置へ送信する。

実施例３に係る端末装置は、図２１に示すような視聴画面を表示する。この視聴画面は、実施例１で説明した動画表示領域ＡＭと、コメント表示領域ＡＣと、動画表示領域ＡＭの上に重ねられた（つまり、動画表示領域ＡＭよりも上位のレイヤーに属する）コメント表示欄ＵＬと、を有する。端末装置は、マルチメディア情報とコメント情報とを受信すると、マルチメディア情報で表される動画を動画表示領域ＡＭに表示し、コメント情報で表されるコメントを動画表示領域ＡＭに重ねられたコメント表示欄ＵＬとコメント表示領域ＡＣとに表示する。尚、コメント表示欄ＵＬの枠を作図の便宜のために点線で表したが、コメント表示欄ＵＬの枠は視聴画面に表示されない。

＜実施例４＞
実施例４に係る音声認識装置１００は、番組を生放送及び再放送するだけでなく、ＶＯＤ（Video On Demand）で番組を配信する。端末装置２０から４０は、生放送若しくは再放送された番組だけでなく、配信された番組の映像を表示し、音声を出力する。

ここで、端末装置４０のユーザが、生放送された番組をＶＯＤで配信することを要求するリクエスト（以下、ＶＯＤ配信リクエストという）を送信させる操作を端末装置４０に行うとして説明する。

端末装置４０は、当該操作に応じてＶＯＤ配信リクエストを音声認識装置１００へ送信する。音声認識装置１００は、ＶＯＤ配信リクエストを端末装置４０から受信すると、配信を要求された番組を表すマルチメディア情報を読み出し、読み出したマルチメディア情報を端末装置４０へ配信し始める。端末装置４０は、音声認識装置１００から受信したマルチメディア情報で表される番組映像の表示及び番組音声の出力を開始する。

その後、端末装置４０のユーザが、配信された番組の再生位置を所定時間先に進めるスキップ操作を端末装置４０に行うとして説明する。

端末装置４０は、番組映像の表示及び番組音声の出力を中止し、スキップとスキップする時間とを指示するスキップコマンドを音声認識装置１００へ送信する。声認識装置１００は、スキップコマンドを受信すると、当該スキップコマンドで指定された時間に相当するサイズだけマルチメディア情報の読出位置を後側にシフトしてからマルチメディア情報の読み出し及び配信を継続する。その後、端末装置４０は、配信されたマルチメディア情報で表される番組映像の表示及び番組音声の出力を再開する。

その後、端末装置４０のユーザが、配信された番組の再生位置を所定時間後に戻すスキップ操作を端末装置４０に行うと、端末装置４０は、番組映像の表示及び番組音声の出力を中止し、既に保存したマルチメディア情報を用いて、当該スキップ操作で指定された時間に相当するサイズだけ前の再生位置から番組映像の再生及び番組音声の出力を再開する。

また、端末装置４０のユーザが、配信された番組の再生を一時停止させる操作を端末装置４０に行うと、端末装置４０は、番組映像の表示及び番組音声の出力を中止する。その後、端末装置４０のユーザが、配信された番組をコマ送り再生させる操作を端末装置４０に行うと、番組音声の出力を中止し、配信された若しくは既に保存されたマルチメディア情報を用いて、番組映像のコマ送り再生を開始する。

その後、端末装置４０のユーザが、番組の再生を停止させる操作を端末装置４０に行うと、端末装置４０は、番組映像の表示及び音声出力を停止し、停止を指示する停止コマンドを音声認識装置１００へ送信する。音声認識装置１００は、端末装置４０から停止コマンドを受信すると、当該停止コマンドに従って、マルチメディア情報の配信を停止する。

実施例１から４は、互いに組み合わせることができる。実施例１から４のいずれかに係る機能を実現するための構成を備えた音声認識装置１００として提供できることはもとより、複数の装置で構成されるシステムであって、実施例１から４のいずれかに係る機能を実現するための構成をシステム全体として備えたシステムとして提供することもできる。

尚、実施例１に係る機能を実現するための構成を予め備えた音声認識装置１００、実施例２に係る機能を実現するための構成を予め備えた音声認識装置２００、又は実施例３若しくは４に係る機能を実現するための構成を予め備えた音声認識装置として提供できることはもとより、プログラムの適用により、既存の音声認識装置を実施例１に係る音声認識装置１００、実施例２に係る音声認識装置２００、又は実施例３若しくは４に係る音声認識装置として機能させることもできる。すなわち、実施例１で例示した音声認識装置１００、実施例２で例示した音声認識装置２００、又は実施例３若しくは４で例示した音声認識装置による各機能構成を実現させるための音声認識プログラムを、既存の音声認識装置を制御するコンピュータ（ＣＰＵなど）が実行できるように適用することで、実施例１に係る音声認識装置１００、実施例２に係る音声認識装置２００、又は実施例３若しくは４に係る音声認識装置として機能させることができる。

このようなプログラムの配布方法は任意であり、例えば、メモリカード、ＣＤ−ＲＯＭ、又はＤＶＤ−ＲＯＭなどの記録媒体に格納して配布できる他、インターネットなどの通信媒体を介して配布することもできる。また、本発明に係る音声認識方法は、実施例１に係る音声認識装置１００、実施例２に係る音声認識装置２００、又は実施例３若しくは４に係る音声認識装置を用いて実施できる。

以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

１０：通信網
２０，３０，４０：端末装置
２１：撮影装置
２２：音声収集装置
１００，２００：音声認識装置
１０１：ＣＰＵ
１０２：ＲＯＭ
１０３：ＲＡＭ
１０４：ハードディスク
１０５：メディアコントローラ
１０６：ＬＡＮカード
１０７：ビデオカード
１０８：ＬＣＤ
１０９：キーボード
１１０：スピーカ
１１１：タッチパッド
１２０，２２０：入力部
１３０，２３０：保存部
１４０，２４０：出力部
１５０，２５０：抽出部
１６０，２６０：音声認識部
１９０，２９０：蓄積部
２７０：共起尤度算出部

Claims

ユーザがマルチメディア情報の再生により発せられる音声を聴取しながら入力したコメントを蓄積する蓄積部、
前記蓄積されたコメントを含む文集合に出現する単語及び当該文集合における当該単語の共起語を含む候補語を抽出する抽出部、
前記抽出された候補語に基づいて、前記マルチメディア情報の再生により発せられる音声を音声認識する音声認識部、を備える、
ことを特徴とする音声認識装置。
請求項１に記載の音声認識装置であって、
前記文集合は、前記マルチメディア情報を聴取したユーザが閲覧した文書に出現する文を含む
ことを特徴とする音声認識装置。
請求項１又は２に記載の音声認識装置であって、
前記抽出部は、前記候補語のそれぞれの出現尤度を算定し、
前記音声認識部は、前記音声から認識された音素と前記候補語を表す音素との一致度及び当該候補語の出現尤度に基づいて、音声認識する、
ことを特徴とする音声認識装置。
請求項３に記載の音声認識装置であって、
前記候補語のうち、前記コメントに出現する単語には、当該コメントが入力された入力時点が対応付けられ、
前記音声認識部は、前記入力時点が対応付けられている候補語に対しては、当該候補語に対応付けられた入力時点と、前記音素が発せられた発音時点との合致度を求め、当該求められた合致度にさらに基づいて、音声認識する、
ことを特徴とする音声認識装置。
請求項４に記載の音声認識装置であって、
前記入力時点と、前記発音時点と、は、前記マルチメディア情報の再生が開始されてからの再生時間により表現される、
ことを特徴とする音声認識装置。
請求項５に記載の音声認識装置であって、
前記合致度は、前記入力時点と前記発音時点との差及び前記マルチメディア情報の再生が可能となった時点と当該ユーザがマルチメディア情報の再生を開始した時点との差に基づいて定められる、
ことを特徴とする音声認識装置。
コンピュータを、
ユーザがマルチメディア情報の再生により発せられる音声を聴取しながら入力したコメントを蓄積する蓄積部、
前記蓄積されたコメントを含む文集合に出現する単語及び当該文集合における当該単語の共起語を含む候補語を抽出する抽出部、
前記抽出された候補語に基づいて、前記マルチメディア情報の再生により発せられる音声を音声認識する音声認識部、として機能させる、
ことを特徴とする音声認識プログラム。
蓄積部、抽出部、及び音声認識部を備える音声認識装置が実行する方法であって、
前記蓄積部が、ユーザがマルチメディア情報の再生により発せられる音声を聴取しながら入力したコメントを蓄積する蓄積ステップ、
前記抽出部が、前記蓄積されたコメントを含む文集合に出現する単語及び当該文集合における当該単語の共起語を含む候補語を抽出する抽出ステップ、
前記音声認識部が、前記抽出された候補語に基づいて、前記マルチメディア情報の再生により発せられる音声を音声認識する音声認識ステップ、を有する、
ことを特徴とする音声認識方法。