JP3803302B2

JP3803302B2 - 映像要約装置

Info

Publication number: JP3803302B2
Application number: JP2002060844A
Authority: JP
Inventors: 浩太日▲高▼; 信弥中嶌; 理水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-03-06
Filing date: 2002-03-06
Publication date: 2006-08-02
Anticipated expiration: 2022-03-06
Also published as: JP2003259311A

Description

【０００１】
【発明の属する技術分野】
この発明は記録媒体に記録されている各種の音声付映像を要約して再生する映像再生方法、映像再生装置及び映像再生プログラムに関する。
【０００２】
【従来の技術】
従来より各種の要約方法が提案されている。その一つとして連続する複数フレームからなる区間動画像を動画全体の各ブロックから抽出し、抽出した各ブロックの区間動画像をつなぎ合わせてダイジェスト画像とする装置があった。例えば、日本国特開平８−９３１０号公報、日本国特開平３−９０９６８号公報、日本国特開平６−１６５００９号公報などに示されている。
また、オーディオセグメントの時間圧縮方法として、ポーズ圧縮の割合を精密に制御し、了解性の高いダイジェストを作成する方法があった。例えば、日本国特開２００１−１５４７００公報などに示されている。
【０００３】
また、テロップや音情報を使って、当該番組映像の特徴となる場面やシーンを抽出してダイジェスト映像とするシステムがあった。例えば、日本国特開２００１−２３０６２公報などに示されている。
【０００４】
【発明が解決しようとする課題】
コンテンツを任意の時間で要約、もしくはダイジェストを生成するには、コンテンツを構成する各シーンの優先順位をあらかじめ求めておく必要がある。日本国特開平８−９３１０号公報、日本国特開平３−９０９６８号公報、日本国特開平６−１６５００９号公報では、ユーザが重要と思うシーンをジョイスティック等のポインティングデバイスや、複数のボタンを用いて入力し、ダイジェスト優先度情報を付与している。利用者にとってダイジェスト生成のための負担が大きい。
【０００５】
また、日本国特開２００１−１５４７００公報では、ポーズ圧縮によって、ダイジェストを生成しているが、コンテンツの大半が通例ポーズでない区間で占められている以上、単にポーズを除去するだけでは要約再生時間を元のコンテンツ再生時間の１／１０以上といった高い圧縮率でコンテンツを圧縮することは非現実的である。
また、日本国特開２０００−２３０６２公報では、ダイジェスト映像生成方法として、音情報の音量値だけを手がかりに特定された要約区間は必ずしも重要な区間とはいえない。何故ならば要点を強調して話す場合、必ずしも音量を大きく話すとは限らないからである。また、テロップ情報を用いる場合、テロップが存在しないコンテンツのダイジェストの生成や、テロップが出現しない区間ではダイジェストを生成することは不可能である。
【０００６】
また、生放送など実時間映像付音声信号の配信を受け、再生しているとき、離席等により当該番組を視聴できなかった場合に、その前半の部分を録画を続けながら要約して視ることができると、番組前半の筋書きを理解した上で後続する映像を視聴できることが期待される。
この発明の目的は記録媒体に格納した映像を任意の時間に圧縮して再生することができる映像再生方法及び映像再生装置、映像再生プログラムを提案しようとするものである。
【０００７】
【課題を解決するための手段】
この発明では、実時間映像信号と音声信号を再生時刻と対応付けて記憶し、要約開始時刻を入力し、要約区間の総延長時間である要約時間又は要約区間の総延長時間の全要約対象区間の比である要約率を入力し、
前記要約時間又は要約率で前記要約開始時刻から要約終了時刻として現在までの要約対象区間における音声信号について強調状態と判定された区間を要約区間と判定し、
前記要約区間の音声信号と映像信号を再生する映像再生方法を提案する。
【０００８】
この発明では更に、前記要約区間の音声信号と映像信号の再生終了の時刻を新たな要約区間の終了時刻とし、前記要約区間の再生終了時刻を新たな要約区間再生開始時刻とする前記要約区間の決定及び当該要約区間の音声信号と映像信号の再生を反復する映像再生方法を提案する。
この発明では更に、前記要約率ｒ（ｒは０＜ｒ＜１となる実数）をｒ／（１＋ｒ）と調整し、当該調整された要約率をもって要約区間を判定する映像再生方法を提案する。
この発明では更に、少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率と平静状態での出現確率を対応して格納した符号帳を用い、
前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率を求め、
前記音声信号をフレーム毎に分析した前記特徴量に対応する平静状態での出現確率を求め、
前記強調状態での出現確率に基づいて強調状態となる確率を算出し、
前記平静状態での出現確率に基づいて平静状態となる確率を算出し、
前記強調状態となる確率の前記平静状態となる確率に対する確率比を音声信号区間毎に算出し、
前記確率比に対応する音声信号区間の時間を降順に累積して要約時間を算出し、
前記要約時間の全要約対象区間に対する比である要約率が前記入力された要約率となる音声信号区間を前記要約区間と決定する映像再生方法を提案する。
【０００９】
この発明では更に、少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率と平静状態での出現確率を対応して格納した符号帳を用い、
前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率を求め、
前記音声信号をフレーム毎に分析した前記特徴量に対応する平静状態での出現確率を求め、
前記強調状態での出現確率に基づいて強調状態となる確率を算出し、
前記平静状態での出現確率に基づいて平静状態となる確率を算出し、
前記強調状態となる確率の前記平静状態となる確率に対する確率比が所定の係数より大きい音声信号区間を要約区間と仮判定し、
要約区間の時間の総和、又は要約率として前記音声信号全区間の時間の前記要約区間の時間の総和に対する比率を算出し、
前記要約区間の時間の総和が略所定の要約時間に、又は前記要約率が略所定の要約率となる前記所定の係数を算出して要約区間を決定する映像再生方法を提案する。
【００１０】
この発明では更に、前記音声信号をフレーム毎に無音区間か否か、有声区間か否か判定し、
所定フレーム数以上の無音区間で囲まれ、有声区間を含む部分を音声小段落と判定し、
音声小段落に含まれる有声区間の平均パワーが該音声小段落内の平均パワーの所定の定数倍より小さい音声小段落を末尾とする音声小段落群を音声段落と判定し、
前記音声信号区間は音声段落毎に定められたものであり、
前記要約時間を音声段落毎に累積して求める映像再生方法を提案する。
【００１１】
この発明では更に、実時間映像信号と音声信号を再生時刻と対応付けて記憶する記憶手段と、
要約開始時刻を入力する要約開始時刻入力手段と、
要約区間の総延長時間である要約時間又は要約区間の総延長時間の全要約対象対象区間の比である要約率で定められる要約条件を入力する要約条件入力手段と、
前記要約条件に従って、前記要約開始時刻から要約終了時刻として現在までの要約対象区間における音声信号について強調状態と判定された区間を要約区間と判定する要約区間決定手段と、
前記要約区間決定部で決定した要約区間の音声信号と映像信号を再生する再生手段とを有する映像再生装置を提案する。
【００１２】
この発明では更に、前記映像再生装置において、前記要約区間決定手段は、
少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率と平静状態での出現確率を対応して格納した符号帳と、
前記符号帳を用いて前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率を求め、
前記強調状態での出現確率に基づいて強調状態となる確率を算出する強調状態確率計算部と、
前記符号帳を用いて前記音声信号をフレーム毎に分析した前記特徴量に対応する平静状態での出現確率を求め、前記平静状態での出現確率に基づいて平静状態となる確率を算出する平静状態確率計算部と、
前記強調状態となる確率の前記平静状態となる確率に対する確率比を音声信号区間毎に算出し、
前記確率比に対応する音声信号区間の時間を降順に累積して要約時間を算出し、要約区間を仮決定する要約区間仮決定部と、
前記要約区間の全要約対象区間に対する比が前記要約率を満たす音声信号区間を前記要約区間と決定する要約区間決定部とを有する映像再生装置を提案する。
【００１３】
この発明では更に、前記映像再生装置において、前記要約区間決定手段は、
少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率と平静状態での出現確率を対応して格納した符号帳と、
この符号帳を用いて前記音声符号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、
前記強調状態での出現確率に基づいて強調状態となる確率を算出する強調状態確率計算部と、
前記平静状態での出現確率に基づいて平静状態となる確率を算出する平静状態確率計算部と、
前記強調状態となる確率の前記平静状態となる確率に対する確率比が所定の係数より大きい音声信号区間を要約区間と仮判定する要約区間仮判定部と、
要約区間の時間の総和が略所定の要約時間に、又は前記要約率が略所定の要約率となる前記所定の係数を算出して各チャネル毎又は各発話者毎の要約区間を決定する要約区間決定部とを有する映像再生装置。
【００１４】
この発明では更に、コンピュータが解読可能な符号によって記述され、前記記載の映像再生方法の何れかを実行させる映像再生プログラムを提案する。
作用
この発明の映像再生方法によれば記録媒体に記録されている音声の強調状態となる確率が高い音声区間を要約区間として抽出するから、コンテンツの内容で重要な部分を抜き出し、重要な部分をつなぎ合せて要約音声及び要約された映像情報を得ることができる。この結果、要約時間を短時間に圧縮したとしても、そのコンテンツの内容をよく理解することができる。
【００１５】
また、記録媒体として短時間に多量のデータを書き込み及び読み出すことができる記録媒体を用いることから、録画を続けながら、他のコンテンツ又は録画中のコンテンツの前半部分を読み出すことができる。このために、録画を続けながら、その録画中の番組の録画部分を要約し、要約情報を再生することができる。この結果、録画中の映像と、要約を伝える映像を例えば親画面と子画面と異なる表示手段にそれぞれに表示することにより、現在の放送内容と過去の放送内容の双方を視ることができ、要約情報の再生が終了した時点では番組の前半の部を理解した状態で続きを視聴することができる利点が得られる。
【００１６】
この発明の特徴とする点は、コンテンツ要約再生時にユーザからの要求に従って、どのような要約率（圧縮率）にでもコンテンツを要約することができる要約方法を用いる点にある。
この特徴とする要約方法は、先願である特願２００１−２４１２７８で本出願人が提案した、任意の音声小段落の発話状態を判定し、強調状態となる確率が平静状態となる確率よりも大きければ、その音声小段落を強調状態にあると判定し、その音声小段落を含む音声段落を要約区間として抽出する音声強調状態判定方法及び音声要約方法を利用して実現することができる。
【００１７】
【発明の実施の形態】
ここで、この発明で用いられる音声小段落抽出方法、音声段落抽出方法、各音声小段落毎に強調状態となる確率及び平静状態となる確率を求める方法について、説明する。
図５に先に提案した音声要約方法の実施形態の基本手順を示す。ステップＳ１で入力音声信号を分析して音声特徴量を求める。ステップＳ２で、入力音声信号の音声小段落と、複数の音声小段落から構成される音声段落を抽出する。ステップＳ３で各音声小段落を構成するフレームが平静状態か、強調状態か発話状態を判定する。この判定に基づきステップＳ４で要約音声を作成し、要約音声を得る。
【００１８】
以下に、自然な話し言葉や会話音声を、要約に適用する場合の実施例を述べる。音声特徴量は、スペクトル情報等に比べて、雑音環境下でも安定して得られ、かつ話者に依存し難いものを用いる。入力音声信号から音声特徴量として基本周波数（ｆ０）、パワー（ｐ）、音声の動的特徴量の時間変化特性（ｄ）、ポーズ時間長（無音区間）（ｐｓ）を抽出する。これらの音声特徴量の抽出法は、例えば、「音響・音響工学」（古井貞煕、近代科学社、１９９８）、「音声符号化」（守谷健弘、電子情報通信学会、１９９８）、「ディジタル音声処理」（古井貞煕、東海大学出版会、１９８５）、「複合正弦波モデルに基づく音声分析アルゴリズムに関する研究」（嵯峨山茂樹、博士論文、１９９８）などに述べられている。音声の動的特徴量の時間変化は発話速度の尺度となるパラメータであり特許第２９７６９９８号に記載のものを用いてもよい。即ち、動的変化量としてスペクトル包絡を反映するＬＰＣスペクトラム係数の時間変化特性を求め、その時間変化をもとに発話速度係数が求められるものである。より具体的にはフレーム毎にＬＰＣスペクトラム係数Ｃ１（ｔ）、…Ｃｋ（ｔ）を抽出して次式のような動的特徴量ｄ（ダイナミックメジャー）を求める。ｄ（ｔ）＝Σi=1k［Σf=t-f0t+f0［ｆ×Ｃi（ｔ）］／（Σf=t-f0t+f0ｆ2）2 ここで、ｆ０は前後の音声区間フレーム数（必ずしも整数個のフレームでなくとも一定の時間区間でもよい）、ｋはＬＰＣスペクトラムの次数、ｉ＝１、２、…ｋである。発話速度の係数として動的特徴量の変化の極大点の単位時間当たりの個数、もしくは単位時間当たりの変化率が用いられる。
【００１９】
実施例では例えば１００ｍｓを１フレームとし、シフトを５０ｍｓとする。１フレーム毎の平均の基本周波数を求める（ｆ０´）。パワーについても同様に１フレーム毎の平均パワー（ｐ´）を求める。更に現フレームのｆ０´と±ｉフレーム前後のｆ０´との差分をとり、±Δｆ０´ｉ（Δ成分）とする。パワーについても同様に現フレームのｐ´と±ｉフレーム前後のｐ´との差分±Δｐ´ｉ（Δ成分）を求める。ｆ０´、±Δｆ０´ｉ、ｐ´、±Δｐ´ｉを規格化する。この規格は例えばｆ０´、±Δｆ０´ｉをそれぞれ、音声波形全体の平均基本周波数で割り規格化する。これら規格化された値をｆ０″、±ｆ０″ｉと表す。ｐ´、±Δｐ´ｉについても同様に、発話状態判定の対象とする音声波形全体の平均パワーで割り、規格化する。規格化するにあたり、後述する音声小段落、音声段落ごとの平均パワーで割ってもよい。これら規格化された値をｐ″、±Δｐ″ｉと表す。ｉの値は例えばｉ＝４とする。現フレームの前後±Ｔ１ｍｓの、ダイナミックメジャーのピーク本数、即ち動的特徴量の変化の極大点の個数を数える（ｄｐ）。これと、現フレームの開始時刻の、Ｔ２ｍｓ前の時刻を区間に含むフレームのｄｐとのΔ成分（−Δｄｐ）を求める。前記±Ｔ１ｍｓのｄｐ数と、現フレームの終了時刻の、Ｔ３ｍｓ後の時刻を区間に含むフレームのｄｐとのΔ成分（＋Δｄｐ）を求める。これら、Ｔ１、Ｔ２、Ｔ３の値は例えばＴ１＝Ｔ２＝Ｔ３＝４５０ｍｓとする。フレームの前後の無音区間の時間長を±ｐｓとする。ステップＳ１ではこれら音声特徴パラメータの各値をフレーム毎に抽出する。
【００２０】
ステップＳ２における入力音声の音声小段落と、音声段落を抽出する方法の例を図６に示す。ここで音声小段落を発話状態判定を行う単位とする。ステップＳ２０１で、入力音声信号の無音区間と有声区間を抽出する。無音区間は例えばフレーム毎のパワーが所定のパワー値以下であれば無音区間と判定し、有声区間は、例えばフレーム毎の相関関数が所定の相関関数値以上であれば有声区間と判定する。有声／無声の決定は、周期性／非周期性の特徴と同一視することにより、自己相関関数や変形相関関数のピーク値で行うことが多い。入力信号の短時間スペクトルからスペクトル包絡を除去した予測残差の自己相関関数が変形相関関数であり、変形相関関数のピークが所定の閾値より大きいか否かによって有声／無声の判定を行い、又そのピークを与える遅延時間によってピッチ周期１／ｆ０（基本周波数ｆ０）の抽出を行う。これらの区間の抽出法の詳細は、例えば、「ディジタル音声処理」（古井貞煕、東海大学出版会、１９８５）などに述べられている。ここでは音声信号から各音声特徴量をフレーム毎に分析することについて述べたが、既に符号化等により分析された係数もしくは符号に対応する特徴量を符号化に用いる符号帳から読み出して用いてもよい。
【００２１】
ステップＳ２０２で、有声区間を囲む無音区間の時間がそれぞれｔ秒以上になるとき、その無音区間で囲まれた有声区間を含む部分を音声小段落とする。このｔは例えばｔ＝４００ｍｓとする。ステップＳ２０３で、この音声小段落内の好ましくは後半部の、有声区間の平均パワーと、その音声小段落の平均のパワーの値ＢAの定数β倍とを比較し、前者の方が小さい場合はその音声小段落を末尾音声小段落とし、直前の末尾音声小段落後の音声小段落から現に検出した末尾音声小段落までを音声段落として決定する。
図７に、有声区間、音声小段落、音声段落を模式的に示す。音声小段落を前記の、有声区間を囲む無音区間の時間がｔ秒の条件で、抽出する。図７では、音声小段落ｊ−１、ｊ、ｊ＋１について示している。ここで音声小段落ｊは、ｎ個の有声区間から構成され、平均パワーをＰｊとする。有声区間の典型的な例として、音声小段落ｊに含まれる、有声区間ｖの平均パワーはｐｖである。音声段落ｋは、音声小段落ｊと音声小段落を構成する後半部分の有声区間のパワーから抽出する。ｉ＝ｎ−αからｎまでの有声区間の平均パワーｐｉの平均が音声小段落ｊの平均パワーＰｊより小さいとき、即ち、
Σｐｉ／（α＋１）＜βＰｊ式（１）
を満たす時、音声小段落ｊが音声段落ｋの末尾音声小段落であるとする。ただし、Σはｉ＝ｎ−αからｎまでである。式（１）のα、βは定数であり、これらを操作して、音声段落を抽出する。実施例では、αは３、βは０．８とした。このようにして末尾音声小段落を区切りとして隣接する末尾音声小段落間の音声小段落群を音声段落と判定できる。
【００２２】
図５中のステップＳ３における音声小段落発話状態判定方法の例を図８に示す。ステップＳ３０１で、入力音声小段落の音声特徴量をベクトル量子化する。このために、あらかじめ少なくとも２つの量子化音声特徴量（コード）が格納された符号帳（コードブック）を作成しておく。ここでコードブックに蓄えられた音声特徴量と入力音声もしくは既に分析して得られた音声の音声特徴量との照合をとり、コードブックの中から音声特徴量間の歪（距離）を最小にする量子化音声特徴量を特定することが常套である。
図９に、このコードブックの作成法の例を示す。多数の学習用音声を被験者が聴取し、発話状態が平静状態であるものと、強調状態であるものをラベリングする（Ｓ５０１）。
【００２３】
例えば、被験者が発話の中で強調状態とする理由として、
（ａ）声が大きく、名詞や接続詞を伸ばすように発話する
（ｂ）話し始めを伸ばして話題変更を主張、意見を集約するように声を大きくする
（ｃ）声を大きく高くして重要な名詞等を強調する時
（ｄ）高音であるが声はそれほど大きくない
（ｅ）苦笑いしながら、焦りから本音をごまかすような時
（ｆ）周囲に同意を求める、あるいは問いかけるように、語尾が高音になるとき
（ｇ）ゆっくりと力強く、念を押すように、語尾の声が大きくなる時
（ｈ）声が大きく高く、割り込んで発話するという主張、相手より大きな声で
（ｉ）大きな声では憚られるような本音や秘密を発言する場合や、普段、声の大きい人にとっての重要なことを発話するような時（例えば声が小さくボソボソ、ヒソヒソという口調）を挙げた。この例では、平静状態とは、前記の（ａ）〜（ｉ）のいずれでもなく、発話が平静であると被験者が感じたものとした。
【００２４】
尚、上述では強調状態と判定する対象を発話であるものとして説明したが、音楽でも強調状態を特定することができる。ここでは音声付の楽曲において、音声から強調状態を特定しようとした場合に、強調と感じる理由として、
（ａ）声が大きく、かつ声が高い
（ｂ）声が力強い
（ｃ）声が高く、かつアクセントが強い
（ｄ）声が高く、声質が変化する
（ｅ）声を伸長させ、かつ声が大きい
（ｆ）声が大きく、かつ、声が高く、アクセントが強い
（ｇ）声が大きく、かつ、声が高く、叫んでいる
（ｈ）声が高く、アクセントが変化する
（ｉ）声を伸長させ、かつ、声が大きく、語尾が高い
（ｊ）声が高く、かつ、声を伸長させる
（ｋ）声を伸長させ、かつ、叫び、声が高い
（ｌ）語尾上がり力強い
（ｍ）ゆっくり強め
（ｎ）曲調が不規則
（ｏ）曲調が不規則、かつ、声が高い
また、音声を含まない楽器演奏のみの楽曲でも強調状態を特定することができる。その強調と感じる理由として、
（ａ）強調部分全体のパワー増大
（ｂ）音の高低差が大きい
（ｃ）パワーが増大する
（ｄ）楽器の数が変化する
（ｅ）曲調、テンポが変化する
等である。
【００２５】
これらを基にコードブックを作成しておくことにより、発話に限らず音楽の要約も行うことができることになる。
平静状態と強調状態の各ラベル区間について、図５中のステップＳ１と同様に、音声特徴量を抽出し（Ｓ５０２）、パラメータを選択する（Ｓ５０３）。平静状態と強調状態のラベル区間の、前記パラメータを用いて、ＬＢＧアルゴリズムでコードブックを作成する（Ｓ５０４）。ＬＢＧアルゴリズムについては、例えば、（Ｙ．Ｌｉｎｄｅ，Ａ．ＢｕｚｏａｎｄＲ．Ｍ．Ｇｒａｙ，“Ａｎａｌｇｏｒｉｔｈｍｆｏｒｖｅｃｔｏｒｑｕａｎｔｉｚｅｒｄｅｓｉｇｎ，”ＩＥＥＥＴｒａｎｓ．Ｃｏｍｍｕｎ．，ｖｏｌ．Ｃｏｍ−２８，ｐｐ．８４−９５，１９８０）がある。コードブックサイズは２のｎ乗個に可変である。このコードブック作成は音声小段落で又はこれより長い適当な区間毎あるいは学習音声全体の音声特徴量で規格化した音声特徴量を用いることが好ましい。
【００２６】
図８中のステップＳ３０１で、このコードブックを用いて、入力音声小段落の音声特徴量を、各音声特徴量について規格化し、その規格化された音声特徴量をフレーム毎に照合もしくはベクトル量子化し、フレーム毎にコード（量子化された音声特徴量）を得る。この際の入力音声信号より抽出する音声特徴量は前記のコードブック作成に用いたパラメータと同じである。
強調状態が含まれる音声小段落を特定するために、音声小段落でのコードを用いて、発話状態の尤度（らしさ）を、平静状態と強調状態について求める。このために、あらかじめ、任意のコード（量子化音声特徴量）の出現確率を、平静状態の場合と、強調状態の場合について求めておき、この出現確率とそのコードとを組としてコードブックに格納しておく、以下にこの出現確率の求め方の例を述べる。前記のコードブック作成に用いた学習音声中のラベルが与えられた１つの区間（ラベル区間）の音声特徴量のコード（フレーム毎に得られる）が、時系列でＣｉ、Ｃｊ、Ｃｋ、…Ｃｎであるとき、ラベル区間αが強調状態となる確率をＰα（ｅ）、平静状態となる確率をＰα（ｎ）とし、
Ｐα（ｅ）＝Ｐｅｍｐ（Ｃｉ）Ｐｅｍｐ（Ｃｊ｜Ｃｉ）…Ｐｅｍｐ（Ｃｎ｜Ｃｉ…Ｃｎ−１）＝Ｐｅｍｐ（Ｃｉ）ΠＰｅｍｐ（Ｃｘ｜Ｃｉ…Ｃｘ−１）
Ｐα（ｎ）＝Ｐｎｒｍ（Ｃｉ）Ｐｎｒｍ（Ｃｊ｜Ｃｉ）…Ｐｎｒｍ（Ｃｎ｜Ｃｉ…Ｃｎ−１）＝Ｐｅｍｐ（Ｃｉ）ΠＰｎｒｍ（Ｃｘ｜Ｃｉ…Ｃｘ−１）
となる。ただし、Ｐｅｍｐ（Ｃｘ｜Ｃｉ…Ｃｘ−１）はコード列Ｃｉ…Ｃｘ−１の次にＣｘが強調状態となる条件付確率、Ｐｎｒｍ（Ｃｘ｜Ｃｉ…Ｃｘ−１）は同様にＣｉ…Ｃｘ−１に対しＣｘが平静状態となる確率である。ただし、Πはｘ＝ｉ＋１からｎまでの積である。またＰｅｍｐ（Ｃｉ）は学習音声についてフレームで量子化し、これらコード中のＣｉが強調状態とラベリングされた部分に存在した個数を計数し、その計数値を全学習音声の全コード数（フレーム数）で割り算した値であり、Ｐｎｒｍ（Ｃｉ）はＣｉが平静状態とラベリングされた部分に存在した個数を全コード数で割り算した値である。
【００２７】
このラベル区間αの各状態確率を簡単にするために、この例ではＮ−ｇｒａｍモデル（Ｎ＜ｎ）を用いて、
Ｐα（ｅ）＝Ｐｅｍｐ（Ｃｎ｜Ｃｎ−Ｎ＋１…Ｃｎ−１）
Ｐα（ｎ）＝Ｐｎｒｍ（Ｃｎ｜Ｃｎ−Ｎ＋１…Ｃｎ−１）
とする。つまりＣｎよりＮ−１個の過去のコード列Ｃｎ−Ｎ＋１…Ｃｎ−１の次にＣｎが強調状態として得られる確率をＰα（ｅ）とし、同様にＮ−ｇｒａｍの確率値をより低次のＭ−ｇｒａｍ（Ｎ≧Ｍ）の確率値と線形に補間する線形補間法を適応することが好ましい。例えばＣｎよりＮ−１個の過去のコード列Ｃｎ−Ｎ＋１…Ｃｎ−１の次にＣｎが平静状態として得られる確率をＰα（ｎ）とする。このようなＰα（ｅ）、Ｐα（ｎ）の条件付確率をラベリングされた学習音声の量子化コード列から全てを求めるが、入力音声信号の音声特徴量の量子化したコード列と対応するものが学習音声から得られていない場合もある。そのため、高次（即ちコード列の長い）の条件付確率を単独出現確率とより低次の条件付出現確率とを補間して求める。例えばＮ＝３のｔｒｉｇｒａｍ、Ｎ＝２のｂｉｇｒａｍ、Ｎ＝１のｕｎｉｇｒａｍを用いて線形補間法を施す。Ｎ−ｇｒａｍ、線形補間法、ｔｒｉｇｒａｍについては、例えば、「音声言語処理」（北研二、中村哲、永田昌明、森北出版、１９９６、２９頁）などに述べられている。即ち、
Ｎ＝３（ｔｒｉｇｒａｍ）：Ｐｅｍｐ（Ｃｎ｜Ｃｎ−２Ｃｎ−１）、Ｐｎｒｍ（Ｃｎ｜Ｃｎ−２Ｃｎ−１）
Ｎ＝２（ｂｉｇｒａｍ）：Ｐｅｍｐ（Ｃｎ｜Ｃｎ−１）、Ｐｎｒｍ（Ｃｎ｜Ｃｎ−１）
Ｎ＝１（ｕｎｉｇｒａｍ）：Ｐｅｍｐ（Ｃｎ）、Ｐｎｒｍ（Ｃｎ）
であり、これら３つの強調状態でのＣｎの出現確率、また３つの平静状態でのＣｎの出現確率をそれぞれ用いて次式により、Ｐｅｍｐ（Ｃｎ|Ｃｎ−２Ｃｎ−１）、Ｐｎｒｍ（Ｃｎ|Ｃｎ−２Ｃｎ−１）を計算することにする。

Ｔｒｉｇｒａｍの学習データをＮとしたとき、すなわち、コードが時系列でＣ１、Ｃ２、．．．ＣＮが得られたとき、λｅｍｐ１、λｅｍｐ２、λｅｍｐ３の再推定式は前出の参考文献「音声言語処理」より次のようになる。
λｅｍｐ１＝１／ＮΣ（λｅｍｐ１Ｐｅｍｐ（Ｃｎ｜Ｃｎ−２Ｃ−１）／（λｅｍｐ１Ｐｅｍｐ（Ｃｎ｜Ｃｎ−２Ｃ−１）＋λｅｍｐ２Ｐｅｍｐ（Ｃｎ｜Ｃ−１）＋λｅｍｐ３Ｐｅｍｐ（Ｃｎ）））
λｅｍｐ２＝１／ＮΣ（λｅｍｐ２Ｐｅｍｐ（Ｃｎ｜Ｃ−１）／（λｅｍｐ１Ｐｅｍｐ（Ｃｎ｜Ｃｎ−２Ｃ−１）＋λｅｍｐ２Ｐｅｍｐ（Ｃｎ｜Ｃ−１）＋λｅｍｐ３Ｐｅｍｐ（Ｃｎ）））
λｅｍｐ３＝１／ＮΣ（λｅｍｐ３Ｐｅｍｐ（Ｃｎ）／（λｅｍｐ１Ｐｅｍｐ（Ｃｎ｜Ｃｎ−２Ｃ−１）＋λｅｍｐ２Ｐｅｍｐ（Ｃｎ｜Ｃ−１）＋λｅｍｐ３Ｐｅｍｐ（Ｃｎ）））
ただし、Σはｎ＝１からＮまでの和である。以下同様にしてλｎｒｍ１、λｎｒｍ２、λｎｒｍ３も求められる。
【００２８】
この例では、ラベル区間αがフレーム数Ｎαで得たコードがＣｉ１、Ｃｉ２、…、ＣｉＮαのとき、このラベル区間αが強調状態となる確率Ｐα（ｅ）、平静状態となる確率Ｐα（ｎ）は、
Ｐα（ｅ）＝Ｐｅｍｐ（Ｃｉ３｜Ｃｉ１Ｃｉ２）…Ｐｅｍｐ（ＣｉＮα｜Ｃｉ（Ｎα−１）Ｃｉ（Ｎα−２））式（４）
Ｐα（ｎ）＝Ｐｎｒｍ（Ｃｉ３｜Ｃｉ１Ｃｉ２）…Ｐｎｒｍ（ＣｉＮα｜Ｃｉ（Ｎα−１）Ｃｉ（Ｎα−２））式（５）
となる。この計算ができるように前記のｔｒｉｇｒａｍ、ｕｎｉｇｒａｍ、ｂｉｇｒａｍを任意のコードについて求めてコードブックに格納しておく。つまりコードブックには各コードの音声特徴量とその強調状態での出現確率とこの例では平静状態での出現確率との組が格納され、その強調状態での出現確率は、その音声特徴量が過去のフレームでの音声特徴量と無関係に強調状態で出現する確率（ｕｎｉｇｒａｍ：単独出現確率と記す）のみ、又はこれと、過去のフレームでの音声特徴量から現在のフレームの音声特徴量に至るフレーム単位の音声特徴量列毎に、その音声特徴量が強調状態で出現する条件付確率との組合せの何れかであり、平静状態での出現確率も同様に、その音声特徴量が過去のフレームでの音声特徴量と無関係に平静状態で出現する確率（ｕｎｉｇｒａｍ：単独出現確率と記す）のみ、又はこれと、過去のフレームでの音声特徴量から現在のフレームの音声特徴量に至るフレーム単位の音声特徴量列毎にその音声特徴量が平静状態で出現する条件付確率と組合せの何れかである。
【００２９】
例えば図１０に示すようにコードブックには各コードＣ１、Ｃ２、…毎にその音声特徴量と、その単独出現確率が強調状態、平静状態について、また条件付確率が強調状態、平静状態についてそれぞれ組として格納されている。
図８中のステップＳ３０２では、入力音声小段落の全フレームのコードについてのそのコードブックに格納されている前記確率から、発話状態の尤度を、平静状態と強調状態について求める。図１１に実施例の模式図を示す。時刻ｔから始まる音声小段落のうち、第４フレームまでを▲１▼〜▲４▼で示している。前記のように、ここでは、フレーム長は１００ｍｓ、フレームシフトを５０ｍｓとフレーム長の方を長くした。▲１▼フレーム番号ｆ、時刻ｔ〜ｔ＋１００でコードＣｉが、▲２▼フレーム番号ｆ＋１、時刻ｔ＋５０〜ｔ＋１５０でコードＣｊが、▲３▼フレーム番号ｆ＋２、時刻ｔ＋１００〜ｔ＋２００でコードＣｋが、▲４▼フレーム番号ｆ＋３、時刻ｔ＋１５０〜ｔ＋２５０でコードＣｌが得られ、つまりフレーム順にコードがＣｉ、Ｃｊ、Ｃｋ、Ｃｌであるとき、フレーム番号ｆ＋２以上のフレームでｔｒｉｇｒａｍが計算できる。音声小段落ｓが強調状態となる確率をＰｓ（ｅ）、平静状態となる確率をＰｓ（ｎ）とすると第４フレームまでの確率はそれぞれ、Ｐｓ（ｅ）＝Ｐｅｍｐ（Ｃｋ｜ＣｉＣｊ）Ｐｅｍｐ（Ｃｌ｜ＣｊＣｋ）式（６）
Ｐｓ（ｎ）＝Ｐｎｒｍ（Ｃｋ｜ＣｉＣｊ）Ｐｎｒｍ（Ｃｌ｜ＣｊＣｋ）式（７）
となる。ただし、この例では、コードブックからＣｋ、Ｃｌの強調状態及び平静状態の各単独出現確率を求め、またＣｊの次にＣｋが強調状態及び平静状態で各出現する条件付確率、更にＣｋがＣｉ、Ｃｊの次に、ＣｌがＣｊ、Ｃｋの次にそれぞれ強調状態及び平静状態でそれぞれ出現する条件付確率をコードブックから求めると、以下のようになる。
Ｐｅｍｐ（Ｃｋ｜ＣｉＣｊ）＝λｅｍｐ１Ｐｅｍｐ（Ｃｋ｜ＣｉＣｊ）＋λｅｍｐ２Ｐｅｍｐ（Ｃｋ｜Ｃｊ）＋λｅｍｐ３Ｐｅｍｐ（Ｃｋ）式（８）
Ｐｅｍｐ（Ｃｌ｜ＣｊＣｋ）＝λｅｍｐ１Ｐｅｍｐ（Ｃｌ｜ＣｊＣｋ）＋λｅｍｐ２Ｐｅｍｐ（Ｃｌ｜Ｃｋ）＋λｅｍｐ３Ｐｅｍｐ（Ｃｌ）式（９）
Ｐｎｒｍ（Ｃｋ｜ＣｉＣｊ）＝λｎｒｍ１Ｐｎｒｍ（Ｃｋ｜ＣｉＣｊ）＋λｎｒｍ２Ｐｎｒｍ（Ｃｋ｜Ｃｊ）＋λｎｒｍ３Ｐｎｒｍ（Ｃｋ）式（１０）
Ｐｎｒｍ（Ｃｌ｜ＣｊＣｋ）＝λｎｒｍ１Ｐｎｒｍ（Ｃｌ｜ＣｊＣｋ）＋λｎｒｍ２Ｐｎｒｍ（Ｃｌ｜Ｃｋ）＋λｎｒｍ３Ｐｎｒｍ（Ｃｌ）式（１１）
上記（８）〜（１１）式を用いて（６）式と（７）式で示される第４フレームまでの強調状態となる確率Ｐｓ（ｅ）と、平静状態となる確率Ｐｓ（ｎ）が求まる。ここで、Ｐｅｍｐ（Ｃｋ｜ＣｉＣｊ）、Ｐｎｒｍ（Ｃｋ｜ＣｉＣｊ）はフレーム番号ｆ＋２において計算できる。
【００３０】
この例では、音声小段落ｓがフレーム数Ｎｓで得たコードがＣｉ１、Ｃｉ２、…、ＣｉＮｓのとき、この音声小段落ｓが強調状態になる確率Ｐｓ（ｅ）と平静状態になる確率Ｐｓ（ｎ）を次式により計算する。
Ｐｓ（ｅ）＝Ｐｅｍｐ（Ｃｉ３｜Ｃｉ１Ｃｉ２）…Ｐｅｍｐ（ＣｉＮｓ｜Ｃｉ（Ｎｓ−１）Ｃｉ（Ｎｓ−２））
Ｐｓ（ｎ）＝Ｐｎｒｍ（Ｃｉ３｜Ｃｉ１Ｃｉ２）…Ｐｎｒｍ（ＣｉＮｓ｜Ｃｉ（Ｎｓ−１）Ｃｉ（Ｎｓ−２））
この例ではこれらの確率が、Ｐｓ（ｅ）＞Ｐｓ（ｎ）であれば、その音声小段落Ｓは強調状態、Ｐｓ（ｎ）＞Ｐｓ（ｅ）であれば平静状態とする。
【００３１】
図１２は以上説明した音声小段落抽出方法、音声段落抽出方法、各音声小段落毎に強調状態となる確率及び平静状態となる確率を求める方法を用いた音声強調状態判定装置及び音声要約装置の実施形態を示す。
入力部１１に音声強調状態が判定されるべき、又は音声の要約区間を決定されるべき入力音声（入力音声信号）が入力される。入力部１１には必要に応じて入力音声信号をデジタル信号に変換する機能も含まれる。デジタル化された音声信号は必要に応じて記憶部１２に格納される。音声特徴量抽出部１３で前述した音声特徴量がフレーム毎に抽出される。抽出した音声特徴量は必要に応じて、音声特徴量の平均値で規格化され、量子化部１４で各フレームの音声特徴量がコードブック１５を参照して量子化され、量子化された音声特徴量は強調確率計算部１６と平静確率計算部１７に送り込まれる。コードブック１５は例えば図１０に示したようなものである。
【００３２】
強調確率計算部１６によりその量子化された音声特徴量の強調状態での出現確率が、コードブック１５に格納されている対応する確率を用いて、例えば式（８）又は（９）により計算される。同様に平静確率計算部１７により、前記量子化された音声特徴量の平静状態での出現確率がコードブック１５に格納されている対応する確率を用いて、例えば式（１０）又は（１１）により計算される。強調確率計算部１６及び平静確率計算部１７で各フレーム毎に算出された強調状態での出現率と平静状態での出現確率及び各フレームの音声特徴量は各フレームに付与したフレーム番号と共に記憶部12に格納する。
【００３３】
これら各部の制御は制御部１９の制御のもとに順次行われる。
音声要約装置の実施形態は、図１２中に実線ブロックに対し、破線ブロックが付加される。つまり記憶部１２に格納されている各フレームの音声特徴量が無音区間判定部２１と有音区間判定部２２に送り込まれ、無音区間判定部２１により各フレーム毎に無音区間か否かが判定され、また有音区間判定部２２により各フレーム毎に有声区間か否かが判定される。これらの無音区間判定結果と有音区間判定結果が音声小段落判定部２３に入力される。音声小段落判定部２３はこれら無音区間判定、有声区間判定に基づき、先の方法の実施形態で説明したように所定フレーム数を連続する無音区間に囲まれた有声区間を含む部分が音声小段落と判定する。音声小段落判定部２３の判定結果は記憶部１２に書き込まれ、記憶部１２に格納されている音声データ列に付記され、無音区間で囲まれたフレーム群に音声小段落番号列を付与する。これと共に音声小段落判定部２３の判定結果は末尾音声小段落判定部２４に入力される。
【００３４】
末尾音声小段落判定部２４では、例えば図７を参照して説明した手法により末尾音声小段落が検出され、末尾音声小段落判定結果が音声段落判定部２５に入力され、音声段落判定部２５により２つの末尾音声小段落間の複数の音声小段落を含む部分を音声段落と判定する。この音声段落判定結果も記憶部１２に書き込まれ、記憶部１２に記憶している音声小段落番号列に音声段落列番号を付与する。音声要約装置として動作する場合、強調確率計算部１６及び平静確率計算部１７では記憶部１２から各音声小段落を構成する各フレームの強調確率と平静確率を読み出し、各音声小段落毎の確率が例えば式（８）及び式（１０）により計算される。強調状態判定部１８ではこの音声小段落毎の確率計算値を比較して、その音声小段落が強調状態か否かを判定し、要約区間取出し部２６では音声段落中の１つの音声小段落でも強調状態と判定されたものがあればその音声小段落を含む音声段落を取り出す。各部の制御は制御部１９により行われる。
【００３５】
以上により音声で構成される音声波形を音声小段落及び音声段落に分離する方法及び各音声小段落毎に強調状態となる確率及び平静状態となる確率を算出できることが理解できよう。
次に上述した各方法を利用して要約率を自由に設定し、変更することができる音声処理方法、音声処理装置に関わる実施の形態を説明する。
図１３にその音声処理方法の実施の形態の基本手順を示す。この実施例ではステップＳ１１で音声強調確率算出処理を実行し、音声小段落の強調確率及び平静確率を求める。
【００３６】
ステップＳ１２では要約条件入力ステップＳ１２を実行する。この要約条件入力ステップＳ１２では例えば利用者に要約時間又は要約率或は圧縮率の入力を促す情報を提供し、要約時間又は要約率或は要約率又は圧縮率を入力させる。尚、予め設定された複数の要約時間又は要約率、圧縮率の中から一つを選択する入力方法を採ることもできる。
ステップＳ１３では抽出条件の変更を繰り返す動作を実行し、ステップＳ１２の要約条件入力ステップＳ１２で入力された要約時間又は要約率、圧縮率を満たす抽出条件を決定する。
【００３７】
ステップＳ１４で要約抽出ステップを実行する。この要約抽出ステップＳ１４では抽出条件変更ステップＳ１３で決定した抽出条件を用いて採用すべき音声段落を決定し、この採用すべき音声段落の総延長時間を計算する。
ステップ１５では要約再生処理を実行し、要約抽出ステップＳ１４で抽出した音声段落列を再生する。
図１４は図１３に示した音声強調確率算出ステップの詳細を示す。
ステップＳ１０１で要約対象とする音声波形列を音声小段落に分離する。
ステップＳ１０２ではステップＳ１０１で分離した音声小段落列から音声段落を抽出する。音声段落とは図７で説明したように、１つ以上の音声小段落で構成され、意味を理解できる単位である。
【００３８】
ステップＳ１０３及びステップＳ１０４でステップＳ１０１で抽出した音声小段落毎に図１０で説明したコードブックと前記した式（８）、（１０）等を利用して各音声小段落が強調状態となる確率（以下強調確率と称す）Ｐｓ（ｅ）と、平静状態となる確率（以下平静確率と称す）Ｐｓ（ｎ）とを求める。
ステップＳ１０５ではステップＳ１０３及びＳ１０４において各音声小段落毎に求めた強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）などを各音声小段落毎に仕分けして記憶手段に音声強調確率テーブルとして格納する。
図１５に記憶手段に格納した音声強調確率テーブルの一例を示す。図１５に示すＦ１、Ｆ２、Ｆ３…は音声小段落毎に求めた音声小段落強調確率Ｐｓ（ｅ）と、音声小段落平静確率Ｐｓ（ｎ）を記録した小段落確率記憶部を示す。これらの小段落確率記憶部Ｆ１、Ｆ２、Ｆ３…には各音声小段落Ｓに付された音声小段落番号ｉと、開始時刻（要約対象となる音声データ列の先頭から計時した時刻）終了時刻、音声小段落強調確率、音声小段落平静確率、各音声小段落を構成するフレーム数ｆｎ等が格納される。
【００３９】
要約条件入力ステップＳ１２で入力する条件としては要約すべきコンテンツの全長を１／Ｘ（Ｘは正の整数）の時間に要約することを示す要約率ｒ（請求の範囲記載の要約率の逆数ｒ＝１／Ｘを指す）、あるいは要約時間ｔを入力する。
この要約条件の設定に対し、抽出条件変更ステップＳ１３では初期値として重み係数ＷをＷ＝１に設定し、この重み係数を要約抽出ステップＳ１４に入力する。
要約抽出ステップＳ１４は重み係数Ｗ＝１として音声強調確率テーブルから各音声小段落毎に格納されている強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｅ）とを比較し、
Ｗ・Ｐｓ（ｅ）＞Ｐｓ（ｎ）
の関係にある音声小段落を抽出すると共に、更にこの抽出した音声小段落を一つでも含む音声段落を抽出し、抽出した音声段落列の総延長時間ＭＴ（分）を求める。
【００４０】
抽出した音声段落列の総延長時間ＭＴ（分）と要約条件で決めた所定の要約時間ＹＴ（分）とを比較する。ここでＭＴ≒ＹＴ（ＹＴに対するＭＴの誤差が例えば±数％程度の範囲）であればそのまま採用した音声段落列を要約音声として再生する。
要約条件で設定した要約時間ＹＴに対するコンテンツの要約した総延長時間ＭＴとの誤差値が規定より大きく、その関係がＭＴ＞ＹＴであれば抽出した音声段落列の総延長時間ＭＴ（分）が、要約条件で定めた要約時間ＹＴ（分）より長いと判定し、図１３に示した抽出条件変更ステップＳ１３を再実行させる。抽出条件変更ステップＳ１３では重み係数がＷ＝１で抽出した音声段落列の総延長時間ＭＴ（分）が要約条件で定めた要約時間ＹＴ（分）より「長い」とする判定結果を受けて強調確率Ｐｓ（ｅ）に現在値より小さい重み付け係数Ｗ（請求項１記載の所定の係数の場合は現在値よりも大きくする）を乗算Ｗ・Ｐｓ（ｅ）して重み付けを施す。重み係数Ｗとしては例えばＷ＝１−０．００１×Ｋ（Ｋはループ回数）で求める。
【００４１】
つまり、音声強調確率テーブルから読み出した音声段落列の全ての音声小段落で求められている強調確率Ｐｓ（ｅ）の配列に１回目のループではＷ＝１−０．００１×１で決まる重み係数Ｗ＝０．９９９を乗算し、重み付けを施す。この重み付けされた全ての各音声小段落の強調確率Ｗ・Ｐｓ（ｅ）と各音声小段落の平静確率Ｐｓ（ｎ）とを比較し、Ｗ・Ｐｓ（ｅ）＞Ｐｓ（ｎ）の関係にある音声小段落を抽出する。
この抽出結果に従って要約抽出ステップＳ１４では抽出された音声小段落を含む音声段落を抽出し、要約音声段落列を再び求める。これと共に、この要約音声段落列の総延長時間ＭＴ（分）を算出し、この総延長時間ＭＴ（分）と要約条件で定められる要約時間ＹＴ（分）とを比較する。比較の結果がＭＴ≒ＹＴであれば、その音声段落列を要約音声と決定し、再生する。
【００４２】
１回目の重み付け処理の結果が依然としてＭＴ＞ＹＴであれば抽出条件変更ステップを、２回目のループとして実行させる。このとき重み係数ＷはＷ＝１−０．００１×２で求める。全ての強調確率Ｐｓ（ｅ）にＷ＝０．９９８の重み付けを施す。
このように、ループの実行を繰り返す毎にこの例では重み係数Ｗの値を徐々に小さくするように抽出条件を変更していくことによりＷＰｓ（ｅ）＞Ｐｓ（ｎ）の条件を満たす音声小段落の数を漸次減らすことができる。これにより要約条件を満たすＭＴ≒ＹＴの状態を検出することができる。
【００４３】
尚、上述では要約時間ＭＴの収束条件としてＭＴ≒ＹＴとしたが、厳密にＭＴ＝ＹＴに収束させることもできる。この場合には要約条件に例えば５秒不足している場合、あと１つの音声段落を加えると１０秒超過してしまうが、音声段落から５秒のみ再生することで利用者の要約条件に一致させることができる。また、この５秒は強調と判定された音声小段落の付近の５秒でもよいし、音声段落の先頭から５秒でもよい。
また、上述した初期状態でＭＴ＜ＹＴと判定された場合は重み係数Ｗを現在値よりも小さく例えばＷ＝１−０．００１×Ｋとして求め、この重み係数Ｗを平静確率Ｐｓ（ｎ）の配列に乗算し、平静確率Ｐｓ（ｎ）に重み付けを施せばよい。また、他の方法としては初期状態でＭＴ＞ＹＴと判定された場合に重み係数を現在値より大きくＷ＝１＋０．００１×Ｋとし、この重み係数Ｗを平静確率Ｐｓ（ｎ）の配列に乗算してもよい。
【００４４】
また、要約再生ステップＳ１５では要約抽出ステップＳ１４で抽出した音声段落列を再生するものとして説明したが、音声付の画像情報の場合、要約音声として抽出した音声段落に対応した画像情報を切り出してつなぎ合わせ、音声と共に再生することによりテレビ放送の要約、あるいは映画の要約等を行うことができる。
また、上述では音声強調確率テーブルに格納した各音声小段落毎に求めた強調確率又は平静確率のいずれか一方に直接重み係数Ｗを乗算して重み付けを施すことを説明したが、強調状態を精度良く検出するためには重み係数Ｗに各音声小段落を構成するフレームの数Ｆ乗してＷFとして重み付けを行うことが望ましい。
【００４５】
つまり、式（８）及び式（１０）で算出する条件付の強調確率Ｐｓ（ｅ）は各フレーム毎に求めた強調状態となる確率の積を求めている。また平静状態となる確率Ｐｓ（ｎ）も各フレーム毎に算出した平静状態となる確率の積を求めている。従って、例えば強調確率Ｐｓ（ｅ）に重み付けを施すには各フレーム毎に求めた強調状態となる確率毎に重み付け係数Ｗを乗算すれば正しい重み付けを施したことになる。この場合には音声小段落を構成するフレーム数をＦとすれば重み係数ＷはＷFとなる。
この結果、フレームの数Ｆに応じて重み付けの影響が増減され、フレーム数の多い音声小段落ほど、つまり延長時間が長い音声小段落程大きい重みが付されることになる。
【００４６】
但し、単に強調状態を判定するための抽出条件を変更すればよいのであれば各フレーム毎に求めた強調状態となる確率の積又は平静状態となる積に重み係数Ｗを乗算するだけでも抽出条件の変更を行うことができる。従って、必ずしも重み付け係数ＷをＷFとする必要はない。
また、上述では抽出条件の変更手段として音声小段落毎に求めた強調確率Ｐｓ（ｅ）又は平静確率Ｐｓ（ｎ）に重み付けを施してＰｓ（ｅ）＞Ｐｓ（ｎ）を満たす音声小段落の数を変化させる方法を採ったが、他の方法として全ての音声小段落の強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）に関してその確率比Ｐｓ（ｅ）／Ｐｓ（ｎ）を演算し、この確率比の降順に対応する音声信号区間（音声小段落）を累積して要約区間の和を算出し、要約区間の時間の総和が、略所定の要約時間に合致する場合、そのときの音声信号区間を要約区間と決定して要約音声を編成する方法も考えられる。
【００４７】
この場合、編成した要約音声の総延長時間が要約条件で設定した要約時間に対して過不足が生じた場合には、強調状態にあると判定するための確率比Ｐｓ（ｅ）／Ｐｓ（ｎ）の値を選択する閾値を変更すれば抽出条件を変更することができる。この抽出条件変更方法を採る場合には要約条件を満たす要約音声を編成するまでの処理を簡素化することができる利点が得られる。
上述では各音声小段落毎に求める強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）を各フレーム毎に算出した強調状態となる確率の積及び平静状態となる確率の積で算出するものとして説明したが、他の方法として各フレーム毎に求めた強調状態となる確率の平均値を求め、この平均値をその音声小段落の強調確率Ｐｓ（ｅ）及び平静確率Ｐｓ（ｎ）として用いることもできる。
【００４８】
従って、この強調確率Ｐｓ（ｅ）及び平静確率Ｐｓ（ｎ）の算出方法を採る場合には重み付けに用いる重み付け係数Ｗはそのまま強調確率Ｐｓ（ｅ）又は平静確率Ｐｓ（ｎ）に乗算すればよい。
図１６を用いて要約率を自由に設定することができる音声処理装置の実施例を示す。この実施例では図１２に示した音声強調状態要約装置の構成に要約条件入力部３１と、音声強調確率テーブル３２と、強調小段落抽出部３３と、抽出条件変更部３４と、要約区間仮判定部３５と、この要約区間仮判定部３５の内部に要約音声の総延長時間を求める総延長時間算出部３５Ａと、この総延長時間算出部３５Ａが算出した要約音声の総延長時間が要約条件入力部３１で入力した要約時間の設定の範囲に入っているか否かを判定する要約区間決定部３５Ｂと、要約条件に合致した要約音声を保存し、再生する要約音声保存・再生部３５Ｃを設けた構成とした点を特徴とするものである。
【００４９】
入力音声は図１１で説明したように、フレーム毎に音声特徴量が求められ、この音声特徴量に従って強調確率計算部１６と平静確率計算部１７でフレーム毎に強調確率と、平静確率とを算出し、これら強調確率と平静確率を各フレームに付与したフレーム番号と共に記憶部１２に格納する。更に、このフレーム列番号に音声小段落判定部で判定した音声小段落列に付与した音声小段落列番号が付記され、各フレーム及び音声小段落にアドレスが付与される。
この実施例に示した音声処理装置では強調確率算出部１６と平静確率算出部１７は記憶部１２に格納している各フレームの強調確率と平静確率を読み出し、この強調確率及び平静確率から各音声小段落毎に強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）とを求め、これら強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）を音声強調テーブル３２に格納する。
【００５０】
音声強調テーブル３２には各種のコンテンツの音声波形の音声小段落毎に求めた強調確率と平静確率とが格納され、いつでも利用者の要求に応じて要約が実行できる体制が整えられている。利用者は要約条件入力部３１に要約条件を入力する。ここで言う要約条件とは要約したいコンテンツの名称と、そのコンテンツの全長時間に対する要約率を指す。要約率としてはコンテンツの全長を１／１０に要約するか、或は時間で１０分に要約するなどの入力方法が考えられる。ここで例えば１／１０と入力した場合は要約時間算出部３１Ａはコンテンツの全長時間を１／１０した時間を算出し、その算出した要約時間を要約区間仮判定部３５の要約区間決定部３５Ｂに送り込む。
【００５１】
要約条件入力部３１に要約条件が入力されたことを受けて制御部１９は要約音声の生成動作を開始する。その開始の作業としては音声強調テーブル３２から利用者が希望したコンテンツの強調確率と平静確率を読み出す。読み出された強調確率と平静確率を強調小段落抽出部３３に送り込み、強調状態にあると判定される音声小段落番号を抽出する。
強調状態にある音声区間を抽出するための条件を変更する方法としては上述した強調確率Ｐｓ（ｅ）又は平静確率Ｐｓ（ｎ）に確率比の逆数となる重み付け係数Ｗを乗算しＷ・Ｐｓ（ｅ）＞Ｐｓ（ｎ）の関係にある音声小段落を抽出し、音声小段落を含む音声段落により要約音声を得る方法と、確率比Ｐｓ（ｅ）／Ｐｓ（ｎ）を算出し、この確率比を降順に累算して要約時間を得る方法とを用いることができる。
【００５２】
抽出条件の初期値としては重み付けにより抽出条件を変更する場合には重み付け係数ＷをＷ＝１として初期値とすることが考えられる。また、各音声小段落毎に求めた強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）の確率比Ｐｓ（ｅ）／Ｐｓ（ｎ）の値に応じて強調状態と判定する場合は初期値としてその比の値が例えばＰｓ（ｅ）／Ｐｓ（ｎ）≧１である場合を強調状態と判定することが考えられる。この初期設定状態で強調状態と判定された音声小段落番号と開始時刻、終了時刻を表わすデータを強調小段落抽出部３３から要約区間仮判定部３５に送り込む。要約区間仮判定部３５では強調状態と判定した小段落番号を含む音声段落を記憶部１２に格納している音声段落列から検索し、抽出する。抽出した音声段落列の総延長時間を総延長時間算出部３５Ａで算出し、その総延長時間と要約条件で入力された要約時間とを要約区間決定部３５Ｂで比較する。比較の結果が要約条件を満たしていれば、その音声段落列を要約音声保存・再生部３５Ｃで保存し、再生する。この再生動作は強調小段落抽出部３３で強調状態と判定された音声小段落の番号から音声段落を抽出し、その音声段落の開始時刻と終了時刻の指定により各コンテンツの音声データ或は映像データを読み出して要約音声及び要約映像データとして送出する。
【００５３】
要約区間決定部３５Ｂで要約条件を満たしていないと判定した場合は、要約区間決定部３５Ｂから抽出条件変更部３４に抽出条件の変更指令を出力し、抽出条件変更部３４に抽出条件の変更を行わせる。抽出条件変更部３４は抽出条件の変更を行い、その抽出条件を強調小段落抽出部３３に入力する。強調小段落抽出部３３は抽出条件変更部３４から入力された抽出条件に従って再び音声強調確率テーブル３２に格納されている各音声小段落の強調確率と平静確率との比較判定を行う。
強調小段落抽出部３３の抽出結果は再び要約区間仮判定部３５に送り込まれ、強調状態と判定された音声小段落を含む音声段落の抽出を行わせる。この抽出された音声段落の総延長時間を算出し、その算出結果が要約条件を満たすか否かを要約区間決定部３５Ｂで行う。この動作が要約条件を満たすまで繰り返され、要約条件が満たされた音声段落列が要約音声及び要約映像データとして記憶部１２から読み出されユーザ端末に配信される。
【００５４】
尚、上述では要約区間の開始時刻及び終了時刻を要約区間と判定した音声段落列の開始時刻及び終了時刻として取り出すことを説明したが、映像付のコンテンツの場合は要約区間と判定した音声段落列の開始時刻と終了時刻に接近した映像信号のカット点を検出し、このカット点（例えば特開平８−３２９２４号公報記載のように検出した画面の切替わりに発生する信号を利用する）の時刻で要約区間の開始時刻及び終了時刻を規定する方法も考えられる。このように映像信号のカット点を要約区間の開始時刻及び終了時刻に利用した場合は、要約区間の切替わりが画像の切替わりに同期するため、視覚上で視認性が高まり要約の理解度を向上できる利点が得られる。
【００５５】
上述したように、この発明で用いる音声要約方法は音声波形の強調状態となる確率が高い音声区間を要約区間として抽出するから、この音声区間と同一の開始時間と終了時間で抽出される映像情報もコンテンツの内容で重要な映像部分である場合が多い。この結果、この発明で用いる要約方法によればコンテンツの内容を適格に視聴者に伝えることができる要約情報を得ることができる利点が得られる。
図１にこの発明による映像再生方法の処理手順の一例を示す。
この発明では放送中の実時間映像信号と音声信号を再生時刻と対応付けて録画し、この録画状態を維持しながら、録画されている部分を要約再生しようとするものである。以下この状況を追いつき再生と称することにする。
【００５６】
ステップＳ１１１では追いつき再生対象開始時刻又は追いつき再生対象開始映像の特定を行う。この特定のためには例えば視聴者が番組視聴中に一時離席する場合に、押ボタン操作により離席時刻の指定を行う。又は室のドアにセンサが設けられ、ドアの開閉に伴って視聴者が室外に退出したことを検知して離席時刻を指定する。又は離席とは関係なく、既に録画されている番組の一部を早送り再生し、その映像から視聴者が任意に追いつき再生の開始位置を特定するなどの方法が考えられる。
ステップＳ１１２では要約条件（要約時間又は要約率）の入力を行う。この入力は離席した視聴者が席に戻った時点で行われる。つまり、離席中の時間が例えば３０分間であった場合に、視聴者はその３０分間に放送された内容をどの程度に圧縮して視聴するかを視聴者の考えに従って要約条件を入力する。その他の入力方法としては視聴者からの入力が無かった場合に予め定められたデフォルト値例えば３分間を使用するか、又は幾つかの候補を用意しておき、これらを表示し、視聴者が指示選択して入力する方法が考えられる。
【００５７】
また、例えば予約録画により自動的に録画が開始されている状態で視聴者が帰宅した場合、予約録画により録画開始時刻が既知であるため、要約再生開始の指示により要約終了時刻が決定される。ここで例えば要約条件が予めデフォルト値等により決定されていれば、その要約条件に従って録画開始時刻から要約終了時刻までが要約される。
ステップＳ１１３で追いつき再生開始を指定する。この追いつき再生開始の指定により、要約対象区間の終了点（要約終了時刻）が指定される。入力方法としては視聴者が追いつき再生開始を指示する押ボタン操作によりその操作時刻を指定するか、又は室のドアに設けた開閉センサにより視聴者の入室を検出し、入室時刻を持って追いつき再生開始の指定を行ってもよい。
【００５８】
ステップＳ１１４で現在放送中の映像再生を停止する。
ステップＳ１１５で要約処理、要約映像・音声の再生を行う。要約処理はステップＳ１１１で定めた追いつき再生対象開始時刻又は追いつき再生対象開始映像からステップＳ１１３で入力した要約終了時刻までの音声信号について指定された要約条件に従って、要約区間を特定し、その要約区間の音声信号と、要約区間と同期する映像信号を再生する。
ステップＳ１１６で要約区間の再生が終了。
ステップＳ１１７で放送中の映像再生を再会する。
【００５９】
図２に上述した追いつき再生を実行するこの発明の映像再生装置１００の一例を示す。この発明による映像再生装置１００は、記録部１０１と、音声分離部１０２と、音声要約部１０３と、要約区間読出部１０４と、モード切替部１０５とによって構成することができる。
記録部１０１は、例えばハードディスク或は半導体メモリ、ＤＶＤ−ＲＯＭ等のように高速で書込および読出を実行することができる記録再生手段を用いる。高速で書込及び読出を実行できることにより、現在放送中の番組を録画しながら、既に記録されている部分を再生することができる。入力信号Ｓ１はテレビチューナー等から入力され、アナログ信号でもデジタル信号でもどちらでもよい。但し、記録部１０１の記録はデジタル信号で行われる。
【００６０】
音声分離部１０２は指定された要約対象区間の映像信号から音声を分離し、この音声信号を音声要約部１０３に入力する。音声要約部１０３はこの音声信号を用いて強調部分を抽出し、要約区間を特定する。
尚、音声要約部１０３は録画中は常に音声信号を分析し、録画している番組毎に図１５に示した音声強調テーブルを作成し記憶部に格納する。従って、番組の放映中に途中から録画部分の要約再生を行う場合は音声強調テーブルを用いて要約が行われる。また後日、録画された番組の要約を視聴する場合も音声強調確率テーブルを用いて要約が行われる。
【００６１】
要約区間読出部１０４は音声要約部１０３で特定された要約区間に従って記録部１０１から音声付映像信号を読み出し、モード切替部１０５に出力する。モード切替部１０５は要約区間読出部１０４が読み出した音声付映像信号を要約映像信号として出力し、視聴者の視聴に提供される。
モード切替部１０５は要約映像を出力するモードａの他に、記録部１０１から読み出した映像信号を出力する再生モードｂと、入力信号Ｓ１を直接視聴に提供するモードｃとに切替えられ、各種の形態で利用が可能とされる。
ところで、上述した追いつき再生方法には追いつき再生の実行期間中に放送された映像は要約対象区間に含まれないため、視聴者にはその映像を視聴することができない不都合が生じる。
【００６２】
このため、この発明ではこの欠点を解消するために、以下の実施例を提案する。つまり、要約区間の再生が終了後に、以前の再生開始時刻を新たな要約対象開始時刻とし、要約区間再生終了時刻を新たな要約終了時刻として要約処理及び要約映像・音声の再生処理を繰り返す。以前の再生開始時刻と要約区間再生終了時刻の間の時間が所定時間（例えば５〜１０秒）以下となる場合に繰り返しを終了する。
この場合は指定された要約率もしくは要約時間よりも長く要約区間が再生されるという問題が生じる。例えば要約対象区間の時間をＴ_Aとして要約率ｒ（０＜ｒ＜１、ｒ＝要約時間（要約区間の時間の総延長）／要約対象区間の時間）で要約すると、１回目の要約における要約時間Ｔ₁はＴ_Aｒとなる。２回目の要約における要約時間は１回目のものについて更に要約率で要約するのでＴ_Aｒ²となる。この処理が順次繰り返されるので繰り返し終了までに要する時間はＴ_Aｒ／（１−ｒ）となる。
【００６３】
ここで指定された要約率ｒをｒ／（１＋ｒ）と調整し、この調整された要約率をもって要約を行う。その場合、繰り返し終了までに要する時間はＴ_Aｒとなり指定された要約率に適した要約時間となる。同様に要約時間Ｔ₁が指定されたときでも要約対象区間の時間Ｔ_Aが与えられていれば、指定された要約率ｒはＴ₁／Ｔ_Aであるので、この要約率をＴ₁／（Ｔ_A＋Ｔ₁）としても１回目の要約時間をＴ_AＴ₁／（Ｔ_A＋Ｔ₁）と調整してもよい。
図３は上記不都合を解消するための他の実施例を示す。この実施例では入力信号Ｓ１をそのまま出力させ、表示器の親画面２００（図４参照）に現在放送中の映像を表示させると共に、モード切替部１０５に子画面化処理部１０６を設け、子画面化処理した要約映像・音声を入力信号Ｓ１に重畳させて出力し、この要約映像を子画面２０１（図４参照）に表示させる混成モードｄを設けた実施例を示す。
【００６４】
この実施例によれば、視聴者は親画面２００に表示される放映中の番組の内容を視聴しながら、過去に放映された番組の内容を要約して子画面２０１で視聴することができる。この結果、要約情報を視聴している間に放映されている番組の内容は親画面２００から受け取ることができるから、要約情報が全て再生された時点では番組の内容は前半部分から現在放映中の時点までの内容をほぼ切れ目なく視聴者に理解させることができる。
以上説明したこの発明による映像再生方法はコンピュータに映像再生プログラムを実行させて実現される。この場合、映像再生プログラムを通信回線を介してダウンロードしたり、ＣＤ−ＲＯＭや磁気ディスク等の記録媒体に格納させてコンピュータにインストールし、コンピュータ内のＣＰＵ等の処理装置で本発明の方法を実行させる。
【００６５】
【発明の効果】
以上説明したように、この発明によれば録画されている番組を任意の圧縮率に圧縮して要約し、この要約された要約情報を再生することができる。従って録画されている多数の番組の内容を短時間に見分けることができ、例えば眞に視聴したい番組を探す作業を短時間に済ませることができる利点が得られる。
更に、最初から視聴することができなかった番組が放映されている状況でも、その前半部分を要約して視聴することができるため、途中から視聴を始めた番組でも、番組の全体を把握して視聴を続けることができる。
【図面の簡単な説明】
【図１】この発明による映像再生方法を実行する場合の手順の一例を説明するためのフローチャート。
【図２】この発明による映像再生装置の一実施例を説明するためのブロック図。
【図３】この発明による映像再生装置の変形実施例を説明するためのブロック図。
【図４】この発明による映像再生装置の特徴を説明するための表示画面の一例を説明するための図。
【図５】先に提案した音声要約方法を説明するためのフローチャート。
【図６】先に提案した音声段落の抽出方法を説明するためのフローチャート。
【図７】音声段落と音声小段落の関係を説明するための図。
【図８】図５に示したステップＳ２における入力音声小段落の発話状態を判定する方法の例を示すフローチャート。
【図９】先に提案した音声要約方法に用いられるコードブックを作成する手順の例を示すフローチャート。
【図１０】この発明において用いられるコードブックの記憶例を示す図。
【図１１】発話状態尤度計算を説明するための波形図。
【図１２】先に提案した音声強調状態判定装置及び音声要約装置の一実施例を説明するためのブロック図。
【図１３】要約率を自由に変更することができる要約方法を説明するためのフローチャート。
【図１４】音声の要約に用いる音声小段落の抽出動作と各音声小段落の強調確率算出動作、音声小段落平静確率抽出動作を説明するためのフローチャート。
【図１５】音声要約装置に用いる音声強調確率テーブルの構成を説明するための図。
【図１６】要約率を自由に変更することができる音声要約装置の一例を説明するためのブロック図。
【符号の説明】
１００映像再生装置
１０１記録部１０２音声分離部
１０３音声要約部１０４要約区間読出部
１０５モード切替部１０６子画面化処理部

Claims

実時間映像信号と音声信号を時刻と対応付けて記憶する記憶手段と、
要約対象区間の要約開始時刻を入力する要約開始時刻入力手段と、
要約率で定められる要約条件を入力する要約条件入力手段と、
要約再生開始の指示を入力する要約再生開始指示手段と、
前記要約再生開始の指示が入力された時刻を要約対象区間の要約終了時刻とし、要約区間の総延長時間と要約対象区間の時間との比が入力された要約率となるように、前記要約開始時刻から要約終了時刻までの要約対象区間における音声信号について強調状態と判定された区間の中から要約区間を判定する要約区間決定手段と、
前記要約区間決定手段で決定した要約区間の音声信号と映像信号を再生する再生手段へ出力する出力手段と、
前記要約区間の再生開始時刻を新たな要約開始時刻とし、前記要約区間の再生終了時刻を新たな要約終了時刻とする要約条件設定手段と、
前記要約条件設定手段による要約開始時刻と要約終了時刻の設定と、前記要約区間決定手段による前記要約区間の判定と、前記出力手段による要約区間の音声信号と映像信号の再生手段への出力とを反復させる反復手段とを備える
ことを特徴とする映像要約装置。
実時間映像信号と音声信号を時刻と対応付けて記憶する記憶手段と、
要約対象区間の要約開始時刻を入力する要約開始時刻入力手段と、
要約時間で定められる要約条件を入力する要約条件入力手段と、
要約再生開始の指示を入力する要約再生開始指示手段と、
前記要約再生開始の指示が入力された時刻を要約対象区間の要約終了時刻とし、要約区間の総延長時間が前記要約時間となるように、前記要約開始時刻から前記要約終了時刻までの要約対象区間における音声信号について強調状態と判定された区間の中から要約区間を判定する要約区間決定手段と、
前記要約区間決定手段で決定した要約区間の音声信号と映像信号を再生する再生手段へ出力する出力手段と、
前記要約対象区間の時間に対する前記要約時間の比を要約率とし、前記要約区間の再生開始時刻を新たな要約開始時刻とし、前記要約区間の再生終了時刻を新たな要約終了時刻とし、新たな要約対象区間の時間に対する新たな要約時間の比が前記要約率となるように新たな要約時間を求める要約条件設定手段と、
前記要約条件設定手段による要約時間の設定と、前記要約区間決定手段による前記要約区間の判定と、前記出力手段による要約区間の音声信号と映像信号の再生手段への出力とを反復させる反復手段とを備える
ことを特徴とする映像要約装置。
請求項１記載の映像要約装置であって、
前記要約区間決定手段が、前記入力された要約率ｒ（ｒは０＜ｒ＜１となる実数）をｒ／（１＋ｒ）と調整し、各要約区間の判定では、要約対象区間の時間に対する要約区間の総延長時間との比が前記調整された要約率となるように、強調状態と判定された区間の中から要約区間を判定する
ことを特徴とする映像要約装置。
請求項２記載の映像要約装置であって、
最初の要約区間の判定では、前記要約区間決定手段が、前記入力された要約開始時刻により定められた要約対象区間の時間Ｔ_Aおよび入力された要約時間Ｔ₁から、要約率をＴ₁／（Ｔ_A＋Ｔ₁）とし、要約対象区間の時間に対する要約区間の総延長時間との比が前記調整された要約率となるように要約時間を調整し、要約区間の総延長時間が前記調整された要約時間となるように、前記要約開始時刻から前記要約終了時刻として現在までの要約対象区間における音声信号について強調状態と判定された区間の中から要約区間を判定し、
反復される各要約区間の判定では、要約条件設定手段が、新たな要約対象区間の時間に対する新たな要約時間の比が前記要約率となるように新たな要約時間を求め、
前記要約区間決定手段が、要約区間の総延長時間が前記新たな要約時間となるように、前記要約区間の判定する
ことを特徴とする映像要約装置。