JP3803302B2 - 映像要約装置 - Google Patents

映像要約装置 Download PDF

Info

Publication number
JP3803302B2
JP3803302B2 JP2002060844A JP2002060844A JP3803302B2 JP 3803302 B2 JP3803302 B2 JP 3803302B2 JP 2002060844 A JP2002060844 A JP 2002060844A JP 2002060844 A JP2002060844 A JP 2002060844A JP 3803302 B2 JP3803302 B2 JP 3803302B2
Authority
JP
Japan
Prior art keywords
time
section
summarization
probability
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002060844A
Other languages
English (en)
Other versions
JP2003259311A (ja
Inventor
浩太 日▲高▼
信弥 中嶌
理 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002060844A priority Critical patent/JP3803302B2/ja
Priority to DE60204827T priority patent/DE60204827T2/de
Priority to US10/214,232 priority patent/US20030055634A1/en
Priority to EP02017720A priority patent/EP1288911B1/en
Publication of JP2003259311A publication Critical patent/JP2003259311A/ja
Priority to US11/397,803 priority patent/US8793124B2/en
Application granted granted Critical
Publication of JP3803302B2 publication Critical patent/JP3803302B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は記録媒体に記録されている各種の音声付映像を要約して再生する映像再生方法、映像再生装置及び映像再生プログラムに関する。
【0002】
【従来の技術】
従来より各種の要約方法が提案されている。その一つとして連続する複数フレームからなる区間動画像を動画全体の各ブロックから抽出し、抽出した各ブロックの区間動画像をつなぎ合わせてダイジェスト画像とする装置があった。例えば、日本国特開平8−9310号公報、日本国特開平3−90968号公報、日本国特開平6−165009号公報などに示されている。
また、オーディオセグメントの時間圧縮方法として、ポーズ圧縮の割合を精密に制御し、了解性の高いダイジェストを作成する方法があった。例えば、日本国特開2001−154700公報などに示されている。
【0003】
また、テロップや音情報を使って、当該番組映像の特徴となる場面やシーンを抽出してダイジェスト映像とするシステムがあった。例えば、日本国特開2001−23062公報などに示されている。
【0004】
【発明が解決しようとする課題】
コンテンツを任意の時間で要約、もしくはダイジェストを生成するには、コンテンツを構成する各シーンの優先順位をあらかじめ求めておく必要がある。日本国特開平8−9310号公報、日本国特開平3−90968号公報、日本国特開平6−165009号公報では、ユーザが重要と思うシーンをジョイスティック等のポインティングデバイスや、複数のボタンを用いて入力し、ダイジェスト優先度情報を付与している。利用者にとってダイジェスト生成のための負担が大きい。
【0005】
また、日本国特開2001−154700公報では、ポーズ圧縮によって、ダイジェストを生成しているが、コンテンツの大半が通例ポーズでない区間で占められている以上、単にポーズを除去するだけでは要約再生時間を元のコンテンツ再生時間の1/10以上といった高い圧縮率でコンテンツを圧縮することは非現実的である。
また、日本国特開2000−23062公報では、ダイジェスト映像生成方法として、音情報の音量値だけを手がかりに特定された要約区間は必ずしも重要な区間とはいえない。何故ならば要点を強調して話す場合、必ずしも音量を大きく話すとは限らないからである。また、テロップ情報を用いる場合、テロップが存在しないコンテンツのダイジェストの生成や、テロップが出現しない区間ではダイジェストを生成することは不可能である。
【0006】
また、生放送など実時間映像付音声信号の配信を受け、再生しているとき、離席等により当該番組を視聴できなかった場合に、その前半の部分を録画を続けながら要約して視ることができると、番組前半の筋書きを理解した上で後続する映像を視聴できることが期待される。
この発明の目的は記録媒体に格納した映像を任意の時間に圧縮して再生することができる映像再生方法及び映像再生装置、映像再生プログラムを提案しようとするものである。
【0007】
【課題を解決するための手段】
この発明では、実時間映像信号と音声信号を再生時刻と対応付けて記憶し、要約開始時刻を入力し、要約区間の総延長時間である要約時間又は要約区間の総延長時間の全要約対象区間の比である要約率を入力し、
前記要約時間又は要約率で前記要約開始時刻から要約終了時刻として現在までの要約対象区間における音声信号について強調状態と判定された区間を要約区間と判定し、
前記要約区間の音声信号と映像信号を再生する映像再生方法を提案する。
【0008】
この発明では更に、前記要約区間の音声信号と映像信号の再生終了の時刻を新たな要約区間の終了時刻とし、前記要約区間の再生終了時刻を新たな要約区間再生開始時刻とする前記要約区間の決定及び当該要約区間の音声信号と映像信号の再生を反復する映像再生方法を提案する。
この発明では更に、前記要約率r(rは0<r<1となる実数)をr/(1+r)と調整し、当該調整された要約率をもって要約区間を判定する映像再生方法を提案する。
この発明では更に、少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率と平静状態での出現確率を対応して格納した符号帳を用い、
前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率を求め、
前記音声信号をフレーム毎に分析した前記特徴量に対応する平静状態での出現確率を求め、
前記強調状態での出現確率に基づいて強調状態となる確率を算出し、
前記平静状態での出現確率に基づいて平静状態となる確率を算出し、
前記強調状態となる確率の前記平静状態となる確率に対する確率比を音声信号区間毎に算出し、
前記確率比に対応する音声信号区間の時間を降順に累積して要約時間を算出し、
前記要約時間の全要約対象区間に対する比である要約率が前記入力された要約率となる音声信号区間を前記要約区間と決定する映像再生方法を提案する。
【0009】
この発明では更に、少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率と平静状態での出現確率を対応して格納した符号帳を用い、
前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率を求め、
前記音声信号をフレーム毎に分析した前記特徴量に対応する平静状態での出現確率を求め、
前記強調状態での出現確率に基づいて強調状態となる確率を算出し、
前記平静状態での出現確率に基づいて平静状態となる確率を算出し、
前記強調状態となる確率の前記平静状態となる確率に対する確率比が所定の係数より大きい音声信号区間を要約区間と仮判定し、
要約区間の時間の総和、又は要約率として前記音声信号全区間の時間の前記要約区間の時間の総和に対する比率を算出し、
前記要約区間の時間の総和が略所定の要約時間に、又は前記要約率が略所定の要約率となる前記所定の係数を算出して要約区間を決定する映像再生方法を提案する。
【0010】
この発明では更に、前記音声信号をフレーム毎に無音区間か否か、有声区間か否か判定し、
所定フレーム数以上の無音区間で囲まれ、有声区間を含む部分を音声小段落と判定し、
音声小段落に含まれる有声区間の平均パワーが該音声小段落内の平均パワーの所定の定数倍より小さい音声小段落を末尾とする音声小段落群を音声段落と判定し、
前記音声信号区間は音声段落毎に定められたものであり、
前記要約時間を音声段落毎に累積して求める映像再生方法を提案する。
【0011】
この発明では更に、実時間映像信号と音声信号を再生時刻と対応付けて記憶する記憶手段と、
要約開始時刻を入力する要約開始時刻入力手段と、
要約区間の総延長時間である要約時間又は要約区間の総延長時間の全要約対象対象区間の比である要約率で定められる要約条件を入力する要約条件入力手段と、
前記要約条件に従って、前記要約開始時刻から要約終了時刻として現在までの要約対象区間における音声信号について強調状態と判定された区間を要約区間と判定する要約区間決定手段と、
前記要約区間決定部で決定した要約区間の音声信号と映像信号を再生する再生手段とを有する映像再生装置を提案する。
【0012】
この発明では更に、前記映像再生装置において、前記要約区間決定手段は、
少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率と平静状態での出現確率を対応して格納した符号帳と、
前記符号帳を用いて前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率を求め、
前記強調状態での出現確率に基づいて強調状態となる確率を算出する強調状態確率計算部と、
前記符号帳を用いて前記音声信号をフレーム毎に分析した前記特徴量に対応する平静状態での出現確率を求め、前記平静状態での出現確率に基づいて平静状態となる確率を算出する平静状態確率計算部と、
前記強調状態となる確率の前記平静状態となる確率に対する確率比を音声信号区間毎に算出し、
前記確率比に対応する音声信号区間の時間を降順に累積して要約時間を算出し、要約区間を仮決定する要約区間仮決定部と、
前記要約区間の全要約対象区間に対する比が前記要約率を満たす音声信号区間を前記要約区間と決定する要約区間決定部とを有する映像再生装置を提案する。
【0013】
この発明では更に、前記映像再生装置において、前記要約区間決定手段は、
少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率と平静状態での出現確率を対応して格納した符号帳と、
この符号帳を用いて前記音声符号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、
前記強調状態での出現確率に基づいて強調状態となる確率を算出する強調状態確率計算部と、
前記平静状態での出現確率に基づいて平静状態となる確率を算出する平静状態確率計算部と、
前記強調状態となる確率の前記平静状態となる確率に対する確率比が所定の係数より大きい音声信号区間を要約区間と仮判定する要約区間仮判定部と、
要約区間の時間の総和が略所定の要約時間に、又は前記要約率が略所定の要約率となる前記所定の係数を算出して各チャネル毎又は各発話者毎の要約区間を決定する要約区間決定部とを有する映像再生装置。
【0014】
この発明では更に、コンピュータが解読可能な符号によって記述され、前記記載の映像再生方法の何れかを実行させる映像再生プログラムを提案する。
作用
この発明の映像再生方法によれば記録媒体に記録されている音声の強調状態となる確率が高い音声区間を要約区間として抽出するから、コンテンツの内容で重要な部分を抜き出し、重要な部分をつなぎ合せて要約音声及び要約された映像情報を得ることができる。この結果、要約時間を短時間に圧縮したとしても、そのコンテンツの内容をよく理解することができる。
【0015】
また、記録媒体として短時間に多量のデータを書き込み及び読み出すことができる記録媒体を用いることから、録画を続けながら、他のコンテンツ又は録画中のコンテンツの前半部分を読み出すことができる。このために、録画を続けながら、その録画中の番組の録画部分を要約し、要約情報を再生することができる。この結果、録画中の映像と、要約を伝える映像を例えば親画面と子画面と異なる表示手段にそれぞれに表示することにより、現在の放送内容と過去の放送内容の双方を視ることができ、要約情報の再生が終了した時点では番組の前半の部を理解した状態で続きを視聴することができる利点が得られる。
【0016】
この発明の特徴とする点は、コンテンツ要約再生時にユーザからの要求に従って、どのような要約率(圧縮率)にでもコンテンツを要約することができる要約方法を用いる点にある。
この特徴とする要約方法は、先願である特願2001−241278で本出願人が提案した、任意の音声小段落の発話状態を判定し、強調状態となる確率が平静状態となる確率よりも大きければ、その音声小段落を強調状態にあると判定し、その音声小段落を含む音声段落を要約区間として抽出する音声強調状態判定方法及び音声要約方法を利用して実現することができる。
【0017】
【発明の実施の形態】
ここで、この発明で用いられる音声小段落抽出方法、音声段落抽出方法、各音声小段落毎に強調状態となる確率及び平静状態となる確率を求める方法について、説明する。
図5に先に提案した音声要約方法の実施形態の基本手順を示す。ステップS1で入力音声信号を分析して音声特徴量を求める。ステップS2で、入力音声信号の音声小段落と、複数の音声小段落から構成される音声段落を抽出する。ステップS3で各音声小段落を構成するフレームが平静状態か、強調状態か発話状態を判定する。この判定に基づきステップS4で要約音声を作成し、要約音声を得る。
【0018】
以下に、自然な話し言葉や会話音声を、要約に適用する場合の実施例を述べる。音声特徴量は、スペクトル情報等に比べて、雑音環境下でも安定して得られ、かつ話者に依存し難いものを用いる。入力音声信号から音声特徴量として基本周波数(f0)、パワー(p)、音声の動的特徴量の時間変化特性(d)、ポーズ時間長(無音区間)(ps)を抽出する。これらの音声特徴量の抽出法は、例えば、「音響・音響工学」(古井貞煕、近代科学社、1998)、「音声符号化」(守谷健弘、電子情報通信学会、1998)、「ディジタル音声処理」(古井貞煕、東海大学出版会、1985)、「複合正弦波モデルに基づく音声分析アルゴリズムに関する研究」(嵯峨山茂樹、博士論文、1998)などに述べられている。音声の動的特徴量の時間変化は発話速度の尺度となるパラメータであり特許第2976998号に記載のものを用いてもよい。即ち、動的変化量としてスペクトル包絡を反映するLPCスペクトラム係数の時間変化特性を求め、その時間変化をもとに発話速度係数が求められるものである。より具体的にはフレーム毎にLPCスペクトラム係数C1(t)、…Ck(t)を抽出して次式のような動的特徴量d(ダイナミックメジャー)を求める。d(t)=Σi=1k[Σf=t-f0t+f0[f×Ci(t)]/(Σf=t-f0t+f0f2)2 ここで、f0は前後の音声区間フレーム数(必ずしも整数個のフレームでなくとも一定の時間区間でもよい)、kはLPCスペクトラムの次数、i=1、2、…kである。発話速度の係数として動的特徴量の変化の極大点の単位時間当たりの個数、もしくは単位時間当たりの変化率が用いられる。
【0019】
実施例では例えば100msを1フレームとし、シフトを50msとする。1フレーム毎の平均の基本周波数を求める(f0´)。パワーについても同様に1フレーム毎の平均パワー(p´)を求める。更に現フレームのf0´と±iフレーム前後のf0´との差分をとり、±Δf0´i(Δ成分)とする。パワーについても同様に現フレームのp´と±iフレーム前後のp´との差分±Δp´i(Δ成分)を求める。f0´、±Δf0´i、p´、±Δp´iを規格化する。この規格は例えばf0´、±Δf0´iをそれぞれ、音声波形全体の平均基本周波数で割り規格化する。これら規格化された値をf0″、±f0″iと表す。p´、±Δp´iについても同様に、発話状態判定の対象とする音声波形全体の平均パワーで割り、規格化する。規格化するにあたり、後述する音声小段落、音声段落ごとの平均パワーで割ってもよい。これら規格化された値をp″、±Δp″iと表す。iの値は例えばi=4とする。現フレームの前後±T1msの、ダイナミックメジャーのピーク本数、即ち動的特徴量の変化の極大点の個数を数える(dp)。これと、現フレームの開始時刻の、T2ms前の時刻を区間に含むフレームのdpとのΔ成分(−Δdp)を求める。前記±T1msのdp数と、現フレームの終了時刻の、T3ms後の時刻を区間に含むフレームのdpとのΔ成分(+Δdp)を求める。これら、T1、T2、T3の値は例えばT1=T2=T3=450msとする。フレームの前後の無音区間の時間長を±psとする。ステップS1ではこれら音声特徴パラメータの各値をフレーム毎に抽出する。
【0020】
ステップS2における入力音声の音声小段落と、音声段落を抽出する方法の例を図6に示す。ここで音声小段落を発話状態判定を行う単位とする。ステップS201で、入力音声信号の無音区間と有声区間を抽出する。無音区間は例えばフレーム毎のパワーが所定のパワー値以下であれば無音区間と判定し、有声区間は、例えばフレーム毎の相関関数が所定の相関関数値以上であれば有声区間と判定する。有声/無声の決定は、周期性/非周期性の特徴と同一視することにより、自己相関関数や変形相関関数のピーク値で行うことが多い。入力信号の短時間スペクトルからスペクトル包絡を除去した予測残差の自己相関関数が変形相関関数であり、変形相関関数のピークが所定の閾値より大きいか否かによって有声/無声の判定を行い、又そのピークを与える遅延時間によってピッチ周期1/f0(基本周波数f0)の抽出を行う。これらの区間の抽出法の詳細は、例えば、「ディジタル音声処理」(古井貞煕、東海大学出版会、1985)などに述べられている。ここでは音声信号から各音声特徴量をフレーム毎に分析することについて述べたが、既に符号化等により分析された係数もしくは符号に対応する特徴量を符号化に用いる符号帳から読み出して用いてもよい。
【0021】
ステップS202で、有声区間を囲む無音区間の時間がそれぞれt秒以上になるとき、その無音区間で囲まれた有声区間を含む部分を音声小段落とする。このtは例えばt=400msとする。ステップS203で、この音声小段落内の好ましくは後半部の、有声区間の平均パワーと、その音声小段落の平均のパワーの値BAの定数β倍とを比較し、前者の方が小さい場合はその音声小段落を末尾音声小段落とし、直前の末尾音声小段落後の音声小段落から現に検出した末尾音声小段落までを音声段落として決定する。
図7に、有声区間、音声小段落、音声段落を模式的に示す。音声小段落を前記の、有声区間を囲む無音区間の時間がt秒の条件で、抽出する。図7では、音声小段落j−1、j、j+1について示している。ここで音声小段落jは、n個の有声区間から構成され、平均パワーをPjとする。有声区間の典型的な例として、音声小段落jに含まれる、有声区間vの平均パワーはpvである。音声段落kは、音声小段落jと音声小段落を構成する後半部分の有声区間のパワーから抽出する。i=n−αからnまでの有声区間の平均パワーpiの平均が音声小段落jの平均パワーPjより小さいとき、即ち、
Σpi/(α+1)<βPj 式(1)
を満たす時、音声小段落jが音声段落kの末尾音声小段落であるとする。ただし、Σはi=n−αからnまでである。式(1)のα、βは定数であり、これらを操作して、音声段落を抽出する。実施例では、αは3、βは0.8とした。このようにして末尾音声小段落を区切りとして隣接する末尾音声小段落間の音声小段落群を音声段落と判定できる。
【0022】
図5中のステップS3における音声小段落発話状態判定方法の例を図8に示す。ステップS301で、入力音声小段落の音声特徴量をベクトル量子化する。このために、あらかじめ少なくとも2つの量子化音声特徴量(コード)が格納された符号帳(コードブック)を作成しておく。ここでコードブックに蓄えられた音声特徴量と入力音声もしくは既に分析して得られた音声の音声特徴量との照合をとり、コードブックの中から音声特徴量間の歪(距離)を最小にする量子化音声特徴量を特定することが常套である。
図9に、このコードブックの作成法の例を示す。多数の学習用音声を被験者が聴取し、発話状態が平静状態であるものと、強調状態であるものをラベリングする(S501)。
【0023】
例えば、被験者が発話の中で強調状態とする理由として、
(a)声が大きく、名詞や接続詞を伸ばすように発話する
(b)話し始めを伸ばして話題変更を主張、意見を集約するように声を大きくする
(c)声を大きく高くして重要な名詞等を強調する時
(d)高音であるが声はそれほど大きくない
(e)苦笑いしながら、焦りから本音をごまかすような時
(f)周囲に同意を求める、あるいは問いかけるように、語尾が高音になるとき
(g)ゆっくりと力強く、念を押すように、語尾の声が大きくなる時
(h)声が大きく高く、割り込んで発話するという主張、相手より大きな声で
(i)大きな声では憚られるような本音や秘密を発言する場合や、普段、声の大きい人にとっての重要なことを発話するような時(例えば声が小さくボソボソ、ヒソヒソという口調)を挙げた。この例では、平静状態とは、前記の(a)〜(i)のいずれでもなく、発話が平静であると被験者が感じたものとした。
【0024】
尚、上述では強調状態と判定する対象を発話であるものとして説明したが、音楽でも強調状態を特定することができる。ここでは音声付の楽曲において、音声から強調状態を特定しようとした場合に、強調と感じる理由として、
(a)声が大きく、かつ声が高い
(b)声が力強い
(c)声が高く、かつアクセントが強い
(d)声が高く、声質が変化する
(e)声を伸長させ、かつ声が大きい
(f)声が大きく、かつ、声が高く、アクセントが強い
(g)声が大きく、かつ、声が高く、叫んでいる
(h)声が高く、アクセントが変化する
(i)声を伸長させ、かつ、声が大きく、語尾が高い
(j)声が高く、かつ、声を伸長させる
(k)声を伸長させ、かつ、叫び、声が高い
(l)語尾上がり力強い
(m)ゆっくり強め
(n)曲調が不規則
(o)曲調が不規則、かつ、声が高い
また、音声を含まない楽器演奏のみの楽曲でも強調状態を特定することができる。その強調と感じる理由として、
(a)強調部分全体のパワー増大
(b)音の高低差が大きい
(c)パワーが増大する
(d)楽器の数が変化する
(e)曲調、テンポが変化する
等である。
【0025】
これらを基にコードブックを作成しておくことにより、発話に限らず音楽の要約も行うことができることになる。
平静状態と強調状態の各ラベル区間について、図5中のステップS1と同様に、音声特徴量を抽出し(S502)、パラメータを選択する(S503)。平静状態と強調状態のラベル区間の、前記パラメータを用いて、LBGアルゴリズムでコードブックを作成する(S504)。LBGアルゴリズムについては、例えば、(Y.Linde,A.Buzo and R.M.Gray,“An algorithm for vector quantizer design,”IEEE Trans.Commun.,vol.Com−28,pp.84−95,1980)がある。コードブックサイズは2のn乗個に可変である。このコードブック作成は音声小段落で又はこれより長い適当な区間毎あるいは学習音声全体の音声特徴量で規格化した音声特徴量を用いることが好ましい。
【0026】
図8中のステップS301で、このコードブックを用いて、入力音声小段落の音声特徴量を、各音声特徴量について規格化し、その規格化された音声特徴量をフレーム毎に照合もしくはベクトル量子化し、フレーム毎にコード(量子化された音声特徴量)を得る。この際の入力音声信号より抽出する音声特徴量は前記のコードブック作成に用いたパラメータと同じである。
強調状態が含まれる音声小段落を特定するために、音声小段落でのコードを用いて、発話状態の尤度(らしさ)を、平静状態と強調状態について求める。このために、あらかじめ、任意のコード(量子化音声特徴量)の出現確率を、平静状態の場合と、強調状態の場合について求めておき、この出現確率とそのコードとを組としてコードブックに格納しておく、以下にこの出現確率の求め方の例を述べる。前記のコードブック作成に用いた学習音声中のラベルが与えられた1つの区間(ラベル区間)の音声特徴量のコード(フレーム毎に得られる)が、時系列でCi、Cj、Ck、…Cnであるとき、ラベル区間αが強調状態となる確率をPα(e)、平静状態となる確率をPα(n)とし、
Pα(e)=Pemp(Ci)Pemp(Cj|Ci)…Pemp(Cn|Ci…Cn−1)=Pemp(Ci)ΠPemp(Cx|Ci…Cx−1)
Pα(n)=Pnrm(Ci)Pnrm(Cj|Ci)…Pnrm(Cn|Ci…Cn−1)=Pemp(Ci)ΠPnrm(Cx|Ci…Cx−1)
となる。ただし、Pemp(Cx|Ci…Cx−1)はコード列Ci…Cx−1の次にCxが強調状態となる条件付確率、Pnrm(Cx|Ci…Cx−1)は同様にCi…Cx−1に対しCxが平静状態となる確率である。ただし、Πはx=i+1からnまでの積である。またPemp(Ci)は学習音声についてフレームで量子化し、これらコード中のCiが強調状態とラベリングされた部分に存在した個数を計数し、その計数値を全学習音声の全コード数(フレーム数)で割り算した値であり、Pnrm(Ci)はCiが平静状態とラベリングされた部分に存在した個数を全コード数で割り算した値である。
【0027】
このラベル区間αの各状態確率を簡単にするために、この例ではN−gramモデル(N<n)を用いて、
Pα(e)=Pemp(Cn|Cn−N+1…Cn−1)
Pα(n)=Pnrm(Cn|Cn−N+1…Cn−1)
とする。つまりCnよりN−1個の過去のコード列Cn−N+1…Cn−1の次にCnが強調状態として得られる確率をPα(e)とし、同様にN−gramの確率値をより低次のM−gram(N≧M)の確率値と線形に補間する線形補間法を適応することが好ましい。例えばCnよりN−1個の過去のコード列Cn−N+1…Cn−1の次にCnが平静状態として得られる確率をPα(n)とする。このようなPα(e)、Pα(n)の条件付確率をラベリングされた学習音声の量子化コード列から全てを求めるが、入力音声信号の音声特徴量の量子化したコード列と対応するものが学習音声から得られていない場合もある。そのため、高次(即ちコード列の長い)の条件付確率を単独出現確率とより低次の条件付出現確率とを補間して求める。例えばN=3のtrigram、N=2のbigram、N=1のunigramを用いて線形補間法を施す。N−gram、線形補間法、trigramについては、例えば、「音声言語処理」(北 研二、中村 哲、永田昌明、森北出版、1996、29頁)などに述べられている。即ち、
N=3(trigram):Pemp(Cn|Cn−2Cn−1)、Pnrm(Cn|Cn−2Cn−1)
N=2(bigram):Pemp(Cn|Cn−1)、Pnrm(Cn|Cn−1)
N=1(unigram):Pemp(Cn)、Pnrm(Cn)
であり、これら3つの強調状態でのCnの出現確率、また3つの平静状態でのCnの出現確率をそれぞれ用いて次式により、Pemp(Cn|Cn−2Cn−1)、Pnrm(Cn|Cn−2Cn−1)を計算することにする。
Figure 0003803302
Trigramの学習データをNとしたとき、すなわち、コードが時系列でC1、C2、...CNが得られたとき、λemp1、λemp2、λemp3の再推定式は前出の参考文献「音声言語処理」より次のようになる。
λemp1=1/NΣ(λemp1Pemp(Cn|Cn−2C−1)/(λemp1Pemp(Cn|Cn−2C−1)+λemp2Pemp(Cn|C−1)+λemp3Pemp(Cn)))
λemp2=1/NΣ(λemp2Pemp(Cn|C−1)/(λemp1Pemp(Cn|Cn−2C−1)+λemp2Pemp(Cn|C−1)+λemp3Pemp(Cn)))
λemp3=1/NΣ(λemp3Pemp(Cn)/(λemp1Pemp(Cn|Cn−2C−1)+λemp2Pemp(Cn|C−1)+λemp3Pemp(Cn)))
ただし、Σはn=1からNまでの和である。以下同様にしてλnrm1、λnrm2、λnrm3も求められる。
【0028】
この例では、ラベル区間αがフレーム数Nαで得たコードがCi1、Ci2、…、CiNαのとき、このラベル区間αが強調状態となる確率Pα(e)、平静状態となる確率Pα(n)は、
Pα(e)=Pemp(Ci3|Ci1Ci2)…Pemp(CiNα|Ci(Nα−1)Ci(Nα−2)) 式(4)
Pα(n)=Pnrm(Ci3|Ci1Ci2)…Pnrm(CiNα|Ci(Nα−1)Ci(Nα−2)) 式(5)
となる。この計算ができるように前記のtrigram、unigram、bigramを任意のコードについて求めてコードブックに格納しておく。つまりコードブックには各コードの音声特徴量とその強調状態での出現確率とこの例では平静状態での出現確率との組が格納され、その強調状態での出現確率は、その音声特徴量が過去のフレームでの音声特徴量と無関係に強調状態で出現する確率(unigram:単独出現確率と記す)のみ、又はこれと、過去のフレームでの音声特徴量から現在のフレームの音声特徴量に至るフレーム単位の音声特徴量列毎に、その音声特徴量が強調状態で出現する条件付確率との組合せの何れかであり、平静状態での出現確率も同様に、その音声特徴量が過去のフレームでの音声特徴量と無関係に平静状態で出現する確率(unigram:単独出現確率と記す)のみ、又はこれと、過去のフレームでの音声特徴量から現在のフレームの音声特徴量に至るフレーム単位の音声特徴量列毎にその音声特徴量が平静状態で出現する条件付確率と組合せの何れかである。
【0029】
例えば図10に示すようにコードブックには各コードC1、C2、…毎にその音声特徴量と、その単独出現確率が強調状態、平静状態について、また条件付確率が強調状態、平静状態についてそれぞれ組として格納されている。
図8中のステップS302では、入力音声小段落の全フレームのコードについてのそのコードブックに格納されている前記確率から、発話状態の尤度を、平静状態と強調状態について求める。図11に実施例の模式図を示す。時刻tから始まる音声小段落のうち、第4フレームまでを▲1▼〜▲4▼で示している。前記のように、ここでは、フレーム長は100ms、フレームシフトを50msとフレーム長の方を長くした。▲1▼フレーム番号f、時刻t〜t+100でコードCiが、▲2▼フレーム番号f+1、時刻t+50〜t+150でコードCjが、▲3▼フレーム番号f+2、時刻t+100〜t+200でコードCkが、▲4▼フレーム番号f+3、時刻t+150〜t+250でコードClが得られ、つまりフレーム順にコードがCi、Cj、Ck、Clであるとき、フレーム番号f+2以上のフレームでtrigramが計算できる。音声小段落sが強調状態となる確率をPs(e)、平静状態となる確率をPs(n)とすると第4フレームまでの確率はそれぞれ、Ps(e)=Pemp(Ck|CiCj)Pemp(Cl|CjCk) 式(6)
Ps(n)=Pnrm(Ck|CiCj)Pnrm(Cl|CjCk) 式(7)
となる。ただし、この例では、コードブックからCk、Clの強調状態及び平静状態の各単独出現確率を求め、またCjの次にCkが強調状態及び平静状態で各出現する条件付確率、更にCkがCi、Cjの次に、ClがCj、Ckの次にそれぞれ強調状態及び平静状態でそれぞれ出現する条件付確率をコードブックから求めると、以下のようになる。
Pemp(Ck|CiCj)=λemp1Pemp(Ck|CiCj)+λemp2Pemp(Ck|Cj)+λemp3Pemp(Ck) 式(8)
Pemp(Cl|CjCk)=λemp1Pemp(Cl|CjCk)+λemp2Pemp(Cl|Ck)+λemp3Pemp(Cl) 式(9)
Pnrm(Ck|CiCj)=λnrm1Pnrm(Ck|CiCj)+λnrm2Pnrm(Ck|Cj)+λnrm3Pnrm(Ck) 式(10)
Pnrm(Cl|CjCk)=λnrm1Pnrm(Cl|CjCk)+λnrm2Pnrm(Cl|Ck)+λnrm3Pnrm(Cl) 式(11)
上記(8)〜(11)式を用いて(6)式と(7)式で示される第4フレームまでの強調状態となる確率Ps(e)と、平静状態となる確率Ps(n)が求まる。ここで、Pemp(Ck|CiCj)、Pnrm(Ck|CiCj)はフレーム番号f+2において計算できる。
【0030】
この例では、音声小段落sがフレーム数Nsで得たコードがCi1、Ci2、…、CiNsのとき、この音声小段落sが強調状態になる確率Ps(e)と平静状態になる確率Ps(n)を次式により計算する。
Ps(e)=Pemp(Ci3|Ci1Ci2)…Pemp(CiNs|Ci(Ns−1)Ci(Ns−2))
Ps(n)=Pnrm(Ci3|Ci1Ci2)…Pnrm(CiNs|Ci(Ns−1)Ci(Ns−2))
この例ではこれらの確率が、Ps(e)>Ps(n)であれば、その音声小段落Sは強調状態、Ps(n)>Ps(e)であれば平静状態とする。
【0031】
図12は以上説明した音声小段落抽出方法、音声段落抽出方法、各音声小段落毎に強調状態となる確率及び平静状態となる確率を求める方法を用いた音声強調状態判定装置及び音声要約装置の実施形態を示す。
入力部11に音声強調状態が判定されるべき、又は音声の要約区間を決定されるべき入力音声(入力音声信号)が入力される。入力部11には必要に応じて入力音声信号をデジタル信号に変換する機能も含まれる。デジタル化された音声信号は必要に応じて記憶部12に格納される。音声特徴量抽出部13で前述した音声特徴量がフレーム毎に抽出される。抽出した音声特徴量は必要に応じて、音声特徴量の平均値で規格化され、量子化部14で各フレームの音声特徴量がコードブック15を参照して量子化され、量子化された音声特徴量は強調確率計算部16と平静確率計算部17に送り込まれる。コードブック15は例えば図10に示したようなものである。
【0032】
強調確率計算部16によりその量子化された音声特徴量の強調状態での出現確率が、コードブック15に格納されている対応する確率を用いて、例えば式(8)又は(9)により計算される。同様に平静確率計算部17により、前記量子化された音声特徴量の平静状態での出現確率がコードブック15に格納されている対応する確率を用いて、例えば式(10)又は(11)により計算される。強調確率計算部16及び平静確率計算部17で各フレーム毎に算出された強調状態での出現率と平静状態での出現確率及び各フレームの音声特徴量は各フレームに付与したフレーム番号と共に記憶部12に格納する。
【0033】
これら各部の制御は制御部19の制御のもとに順次行われる。
音声要約装置の実施形態は、図12中に実線ブロックに対し、破線ブロックが付加される。つまり記憶部12に格納されている各フレームの音声特徴量が無音区間判定部21と有音区間判定部22に送り込まれ、無音区間判定部21により各フレーム毎に無音区間か否かが判定され、また有音区間判定部22により各フレーム毎に有声区間か否かが判定される。これらの無音区間判定結果と有音区間判定結果が音声小段落判定部23に入力される。音声小段落判定部23はこれら無音区間判定、有声区間判定に基づき、先の方法の実施形態で説明したように所定フレーム数を連続する無音区間に囲まれた有声区間を含む部分が音声小段落と判定する。音声小段落判定部23の判定結果は記憶部12に書き込まれ、記憶部12に格納されている音声データ列に付記され、無音区間で囲まれたフレーム群に音声小段落番号列を付与する。これと共に音声小段落判定部23の判定結果は末尾音声小段落判定部24に入力される。
【0034】
末尾音声小段落判定部24では、例えば図7を参照して説明した手法により末尾音声小段落が検出され、末尾音声小段落判定結果が音声段落判定部25に入力され、音声段落判定部25により2つの末尾音声小段落間の複数の音声小段落を含む部分を音声段落と判定する。この音声段落判定結果も記憶部12に書き込まれ、記憶部12に記憶している音声小段落番号列に音声段落列番号を付与する。音声要約装置として動作する場合、強調確率計算部16及び平静確率計算部17では記憶部12から各音声小段落を構成する各フレームの強調確率と平静確率を読み出し、各音声小段落毎の確率が例えば式(8)及び式(10)により計算される。強調状態判定部18ではこの音声小段落毎の確率計算値を比較して、その音声小段落が強調状態か否かを判定し、要約区間取出し部26では音声段落中の1つの音声小段落でも強調状態と判定されたものがあればその音声小段落を含む音声段落を取り出す。各部の制御は制御部19により行われる。
【0035】
以上により音声で構成される音声波形を音声小段落及び音声段落に分離する方法及び各音声小段落毎に強調状態となる確率及び平静状態となる確率を算出できることが理解できよう。
次に上述した各方法を利用して要約率を自由に設定し、変更することができる音声処理方法、音声処理装置に関わる実施の形態を説明する。
図13にその音声処理方法の実施の形態の基本手順を示す。この実施例ではステップS11で音声強調確率算出処理を実行し、音声小段落の強調確率及び平静確率を求める。
【0036】
ステップS12では要約条件入力ステップS12を実行する。この要約条件入力ステップS12では例えば利用者に要約時間又は要約率或は圧縮率の入力を促す情報を提供し、要約時間又は要約率或は要約率又は圧縮率を入力させる。尚、予め設定された複数の要約時間又は要約率、圧縮率の中から一つを選択する入力方法を採ることもできる。
ステップS13では抽出条件の変更を繰り返す動作を実行し、ステップS12の要約条件入力ステップS12で入力された要約時間又は要約率、圧縮率を満たす抽出条件を決定する。
【0037】
ステップS14で要約抽出ステップを実行する。この要約抽出ステップS14では抽出条件変更ステップS13で決定した抽出条件を用いて採用すべき音声段落を決定し、この採用すべき音声段落の総延長時間を計算する。
ステップ15では要約再生処理を実行し、要約抽出ステップS14で抽出した音声段落列を再生する。
図14は図13に示した音声強調確率算出ステップの詳細を示す。
ステップS101で要約対象とする音声波形列を音声小段落に分離する。
ステップS102ではステップS101で分離した音声小段落列から音声段落を抽出する。音声段落とは図7で説明したように、1つ以上の音声小段落で構成され、意味を理解できる単位である。
【0038】
ステップS103及びステップS104でステップS101で抽出した音声小段落毎に図10で説明したコードブックと前記した式(8)、(10)等を利用して各音声小段落が強調状態となる確率(以下強調確率と称す)Ps(e)と、平静状態となる確率(以下平静確率と称す)Ps(n)とを求める。
ステップS105ではステップS103及びS104において各音声小段落毎に求めた強調確率Ps(e)と平静確率Ps(n)などを各音声小段落毎に仕分けして記憶手段に音声強調確率テーブルとして格納する。
図15に記憶手段に格納した音声強調確率テーブルの一例を示す。図15に示すF1、F2、F3…は音声小段落毎に求めた音声小段落強調確率Ps(e)と、音声小段落平静確率Ps(n)を記録した小段落確率記憶部を示す。これらの小段落確率記憶部F1、F2、F3…には各音声小段落Sに付された音声小段落番号iと、開始時刻(要約対象となる音声データ列の先頭から計時した時刻)終了時刻、音声小段落強調確率、音声小段落平静確率、各音声小段落を構成するフレーム数fn等が格納される。
【0039】
要約条件入力ステップS12で入力する条件としては要約すべきコンテンツの全長を1/X(Xは正の整数)の時間に要約することを示す要約率r(請求の範囲記載の要約率の逆数r=1/Xを指す)、あるいは要約時間tを入力する。
この要約条件の設定に対し、抽出条件変更ステップS13では初期値として重み係数WをW=1に設定し、この重み係数を要約抽出ステップS14に入力する。
要約抽出ステップS14は重み係数W=1として音声強調確率テーブルから各音声小段落毎に格納されている強調確率Ps(e)と平静確率Ps(e)とを比較し、
W・Ps(e)>Ps(n)
の関係にある音声小段落を抽出すると共に、更にこの抽出した音声小段落を一つでも含む音声段落を抽出し、抽出した音声段落列の総延長時間MT(分)を求める。
【0040】
抽出した音声段落列の総延長時間MT(分)と要約条件で決めた所定の要約時間YT(分)とを比較する。ここでMT≒YT(YTに対するMTの誤差が例えば±数%程度の範囲)であればそのまま採用した音声段落列を要約音声として再生する。
要約条件で設定した要約時間YTに対するコンテンツの要約した総延長時間MTとの誤差値が規定より大きく、その関係がMT>YTであれば抽出した音声段落列の総延長時間MT(分)が、要約条件で定めた要約時間YT(分)より長いと判定し、図13に示した抽出条件変更ステップS13を再実行させる。抽出条件変更ステップS13では重み係数がW=1で抽出した音声段落列の総延長時間MT(分)が要約条件で定めた要約時間YT(分)より「長い」とする判定結果を受けて強調確率Ps(e)に現在値より小さい重み付け係数W(請求項1記載の所定の係数の場合は現在値よりも大きくする)を乗算W・Ps(e)して重み付けを施す。重み係数Wとしては例えばW=1−0.001×K(Kはループ回数)で求める。
【0041】
つまり、音声強調確率テーブルから読み出した音声段落列の全ての音声小段落で求められている強調確率Ps(e)の配列に1回目のループではW=1−0.001×1で決まる重み係数W=0.999を乗算し、重み付けを施す。この重み付けされた全ての各音声小段落の強調確率W・Ps(e)と各音声小段落の平静確率Ps(n)とを比較し、W・Ps(e)>Ps(n)の関係にある音声小段落を抽出する。
この抽出結果に従って要約抽出ステップS14では抽出された音声小段落を含む音声段落を抽出し、要約音声段落列を再び求める。これと共に、この要約音声段落列の総延長時間MT(分)を算出し、この総延長時間MT(分)と要約条件で定められる要約時間YT(分)とを比較する。比較の結果がMT≒YTであれば、その音声段落列を要約音声と決定し、再生する。
【0042】
1回目の重み付け処理の結果が依然としてMT>YTであれば抽出条件変更ステップを、2回目のループとして実行させる。このとき重み係数WはW=1−0.001×2で求める。全ての強調確率Ps(e)にW=0.998の重み付けを施す。
このように、ループの実行を繰り返す毎にこの例では重み係数Wの値を徐々に小さくするように抽出条件を変更していくことによりWPs(e)>Ps(n)の条件を満たす音声小段落の数を漸次減らすことができる。これにより要約条件を満たすMT≒YTの状態を検出することができる。
【0043】
尚、上述では要約時間MTの収束条件としてMT≒YTとしたが、厳密にMT=YTに収束させることもできる。この場合には要約条件に例えば5秒不足している場合、あと1つの音声段落を加えると10秒超過してしまうが、音声段落から5秒のみ再生することで利用者の要約条件に一致させることができる。また、この5秒は強調と判定された音声小段落の付近の5秒でもよいし、音声段落の先頭から5秒でもよい。
また、上述した初期状態でMT<YTと判定された場合は重み係数Wを現在値よりも小さく例えばW=1−0.001×Kとして求め、この重み係数Wを平静確率Ps(n)の配列に乗算し、平静確率Ps(n)に重み付けを施せばよい。また、他の方法としては初期状態でMT>YTと判定された場合に重み係数を現在値より大きくW=1+0.001×Kとし、この重み係数Wを平静確率Ps(n)の配列に乗算してもよい。
【0044】
また、要約再生ステップS15では要約抽出ステップS14で抽出した音声段落列を再生するものとして説明したが、音声付の画像情報の場合、要約音声として抽出した音声段落に対応した画像情報を切り出してつなぎ合わせ、音声と共に再生することによりテレビ放送の要約、あるいは映画の要約等を行うことができる。
また、上述では音声強調確率テーブルに格納した各音声小段落毎に求めた強調確率又は平静確率のいずれか一方に直接重み係数Wを乗算して重み付けを施すことを説明したが、強調状態を精度良く検出するためには重み係数Wに各音声小段落を構成するフレームの数F乗してWFとして重み付けを行うことが望ましい。
【0045】
つまり、式(8)及び式(10)で算出する条件付の強調確率Ps(e)は各フレーム毎に求めた強調状態となる確率の積を求めている。また平静状態となる確率Ps(n)も各フレーム毎に算出した平静状態となる確率の積を求めている。従って、例えば強調確率Ps(e)に重み付けを施すには各フレーム毎に求めた強調状態となる確率毎に重み付け係数Wを乗算すれば正しい重み付けを施したことになる。この場合には音声小段落を構成するフレーム数をFとすれば重み係数WはWFとなる。
この結果、フレームの数Fに応じて重み付けの影響が増減され、フレーム数の多い音声小段落ほど、つまり延長時間が長い音声小段落程大きい重みが付されることになる。
【0046】
但し、単に強調状態を判定するための抽出条件を変更すればよいのであれば各フレーム毎に求めた強調状態となる確率の積又は平静状態となる積に重み係数Wを乗算するだけでも抽出条件の変更を行うことができる。従って、必ずしも重み付け係数WをWFとする必要はない。
また、上述では抽出条件の変更手段として音声小段落毎に求めた強調確率Ps(e)又は平静確率Ps(n)に重み付けを施してPs(e)>Ps(n)を満たす音声小段落の数を変化させる方法を採ったが、他の方法として全ての音声小段落の強調確率Ps(e)と平静確率Ps(n)に関してその確率比Ps(e)/Ps(n)を演算し、この確率比の降順に対応する音声信号区間(音声小段落)を累積して要約区間の和を算出し、要約区間の時間の総和が、略所定の要約時間に合致する場合、そのときの音声信号区間を要約区間と決定して要約音声を編成する方法も考えられる。
【0047】
この場合、編成した要約音声の総延長時間が要約条件で設定した要約時間に対して過不足が生じた場合には、強調状態にあると判定するための確率比Ps(e)/Ps(n)の値を選択する閾値を変更すれば抽出条件を変更することができる。この抽出条件変更方法を採る場合には要約条件を満たす要約音声を編成するまでの処理を簡素化することができる利点が得られる。
上述では各音声小段落毎に求める強調確率Ps(e)と平静確率Ps(n)を各フレーム毎に算出した強調状態となる確率の積及び平静状態となる確率の積で算出するものとして説明したが、他の方法として各フレーム毎に求めた強調状態となる確率の平均値を求め、この平均値をその音声小段落の強調確率Ps(e)及び平静確率Ps(n)として用いることもできる。
【0048】
従って、この強調確率Ps(e)及び平静確率Ps(n)の算出方法を採る場合には重み付けに用いる重み付け係数Wはそのまま強調確率Ps(e)又は平静確率Ps(n)に乗算すればよい。
図16を用いて要約率を自由に設定することができる音声処理装置の実施例を示す。この実施例では図12に示した音声強調状態要約装置の構成に要約条件入力部31と、音声強調確率テーブル32と、強調小段落抽出部33と、抽出条件変更部34と、要約区間仮判定部35と、この要約区間仮判定部35の内部に要約音声の総延長時間を求める総延長時間算出部35Aと、この総延長時間算出部35Aが算出した要約音声の総延長時間が要約条件入力部31で入力した要約時間の設定の範囲に入っているか否かを判定する要約区間決定部35Bと、要約条件に合致した要約音声を保存し、再生する要約音声保存・再生部35Cを設けた構成とした点を特徴とするものである。
【0049】
入力音声は図11で説明したように、フレーム毎に音声特徴量が求められ、この音声特徴量に従って強調確率計算部16と平静確率計算部17でフレーム毎に強調確率と、平静確率とを算出し、これら強調確率と平静確率を各フレームに付与したフレーム番号と共に記憶部12に格納する。更に、このフレーム列番号に音声小段落判定部で判定した音声小段落列に付与した音声小段落列番号が付記され、各フレーム及び音声小段落にアドレスが付与される。
この実施例に示した音声処理装置では強調確率算出部16と平静確率算出部17は記憶部12に格納している各フレームの強調確率と平静確率を読み出し、この強調確率及び平静確率から各音声小段落毎に強調確率Ps(e)と平静確率Ps(n)とを求め、これら強調確率Ps(e)と平静確率Ps(n)を音声強調テーブル32に格納する。
【0050】
音声強調テーブル32には各種のコンテンツの音声波形の音声小段落毎に求めた強調確率と平静確率とが格納され、いつでも利用者の要求に応じて要約が実行できる体制が整えられている。利用者は要約条件入力部31に要約条件を入力する。ここで言う要約条件とは要約したいコンテンツの名称と、そのコンテンツの全長時間に対する要約率を指す。要約率としてはコンテンツの全長を1/10に要約するか、或は時間で10分に要約するなどの入力方法が考えられる。ここで例えば1/10と入力した場合は要約時間算出部31Aはコンテンツの全長時間を1/10した時間を算出し、その算出した要約時間を要約区間仮判定部35の要約区間決定部35Bに送り込む。
【0051】
要約条件入力部31に要約条件が入力されたことを受けて制御部19は要約音声の生成動作を開始する。その開始の作業としては音声強調テーブル32から利用者が希望したコンテンツの強調確率と平静確率を読み出す。読み出された強調確率と平静確率を強調小段落抽出部33に送り込み、強調状態にあると判定される音声小段落番号を抽出する。
強調状態にある音声区間を抽出するための条件を変更する方法としては上述した強調確率Ps(e)又は平静確率Ps(n)に確率比の逆数となる重み付け係数Wを乗算しW・Ps(e)>Ps(n)の関係にある音声小段落を抽出し、音声小段落を含む音声段落により要約音声を得る方法と、確率比Ps(e)/Ps(n)を算出し、この確率比を降順に累算して要約時間を得る方法とを用いることができる。
【0052】
抽出条件の初期値としては重み付けにより抽出条件を変更する場合には重み付け係数WをW=1として初期値とすることが考えられる。また、各音声小段落毎に求めた強調確率Ps(e)と平静確率Ps(n)の確率比Ps(e)/Ps(n)の値に応じて強調状態と判定する場合は初期値としてその比の値が例えばPs(e)/Ps(n)≧1である場合を強調状態と判定することが考えられる。この初期設定状態で強調状態と判定された音声小段落番号と開始時刻、終了時刻を表わすデータを強調小段落抽出部33から要約区間仮判定部35に送り込む。要約区間仮判定部35では強調状態と判定した小段落番号を含む音声段落を記憶部12に格納している音声段落列から検索し、抽出する。抽出した音声段落列の総延長時間を総延長時間算出部35Aで算出し、その総延長時間と要約条件で入力された要約時間とを要約区間決定部35Bで比較する。比較の結果が要約条件を満たしていれば、その音声段落列を要約音声保存・再生部35Cで保存し、再生する。この再生動作は強調小段落抽出部33で強調状態と判定された音声小段落の番号から音声段落を抽出し、その音声段落の開始時刻と終了時刻の指定により各コンテンツの音声データ或は映像データを読み出して要約音声及び要約映像データとして送出する。
【0053】
要約区間決定部35Bで要約条件を満たしていないと判定した場合は、要約区間決定部35Bから抽出条件変更部34に抽出条件の変更指令を出力し、抽出条件変更部34に抽出条件の変更を行わせる。抽出条件変更部34は抽出条件の変更を行い、その抽出条件を強調小段落抽出部33に入力する。強調小段落抽出部33は抽出条件変更部34から入力された抽出条件に従って再び音声強調確率テーブル32に格納されている各音声小段落の強調確率と平静確率との比較判定を行う。
強調小段落抽出部33の抽出結果は再び要約区間仮判定部35に送り込まれ、強調状態と判定された音声小段落を含む音声段落の抽出を行わせる。この抽出された音声段落の総延長時間を算出し、その算出結果が要約条件を満たすか否かを要約区間決定部35Bで行う。この動作が要約条件を満たすまで繰り返され、要約条件が満たされた音声段落列が要約音声及び要約映像データとして記憶部12から読み出されユーザ端末に配信される。
【0054】
尚、上述では要約区間の開始時刻及び終了時刻を要約区間と判定した音声段落列の開始時刻及び終了時刻として取り出すことを説明したが、映像付のコンテンツの場合は要約区間と判定した音声段落列の開始時刻と終了時刻に接近した映像信号のカット点を検出し、このカット点(例えば特開平8−32924号公報記載のように検出した画面の切替わりに発生する信号を利用する)の時刻で要約区間の開始時刻及び終了時刻を規定する方法も考えられる。このように映像信号のカット点を要約区間の開始時刻及び終了時刻に利用した場合は、要約区間の切替わりが画像の切替わりに同期するため、視覚上で視認性が高まり要約の理解度を向上できる利点が得られる。
【0055】
上述したように、この発明で用いる音声要約方法は音声波形の強調状態となる確率が高い音声区間を要約区間として抽出するから、この音声区間と同一の開始時間と終了時間で抽出される映像情報もコンテンツの内容で重要な映像部分である場合が多い。この結果、この発明で用いる要約方法によればコンテンツの内容を適格に視聴者に伝えることができる要約情報を得ることができる利点が得られる。
図1にこの発明による映像再生方法の処理手順の一例を示す。
この発明では放送中の実時間映像信号と音声信号を再生時刻と対応付けて録画し、この録画状態を維持しながら、録画されている部分を要約再生しようとするものである。以下この状況を追いつき再生と称することにする。
【0056】
ステップS111では追いつき再生対象開始時刻又は追いつき再生対象開始映像の特定を行う。この特定のためには例えば視聴者が番組視聴中に一時離席する場合に、押ボタン操作により離席時刻の指定を行う。又は室のドアにセンサが設けられ、ドアの開閉に伴って視聴者が室外に退出したことを検知して離席時刻を指定する。又は離席とは関係なく、既に録画されている番組の一部を早送り再生し、その映像から視聴者が任意に追いつき再生の開始位置を特定するなどの方法が考えられる。
ステップS112では要約条件(要約時間又は要約率)の入力を行う。この入力は離席した視聴者が席に戻った時点で行われる。つまり、離席中の時間が例えば30分間であった場合に、視聴者はその30分間に放送された内容をどの程度に圧縮して視聴するかを視聴者の考えに従って要約条件を入力する。その他の入力方法としては視聴者からの入力が無かった場合に予め定められたデフォルト値例えば3分間を使用するか、又は幾つかの候補を用意しておき、これらを表示し、視聴者が指示選択して入力する方法が考えられる。
【0057】
また、例えば予約録画により自動的に録画が開始されている状態で視聴者が帰宅した場合、予約録画により録画開始時刻が既知であるため、要約再生開始の指示により要約終了時刻が決定される。ここで例えば要約条件が予めデフォルト値等により決定されていれば、その要約条件に従って録画開始時刻から要約終了時刻までが要約される。
ステップS113で追いつき再生開始を指定する。この追いつき再生開始の指定により、要約対象区間の終了点(要約終了時刻)が指定される。入力方法としては視聴者が追いつき再生開始を指示する押ボタン操作によりその操作時刻を指定するか、又は室のドアに設けた開閉センサにより視聴者の入室を検出し、入室時刻を持って追いつき再生開始の指定を行ってもよい。
【0058】
ステップS114で現在放送中の映像再生を停止する。
ステップS115で要約処理、要約映像・音声の再生を行う。要約処理はステップS111で定めた追いつき再生対象開始時刻又は追いつき再生対象開始映像からステップS113で入力した要約終了時刻までの音声信号について指定された要約条件に従って、要約区間を特定し、その要約区間の音声信号と、要約区間と同期する映像信号を再生する。
ステップS116で要約区間の再生が終了。
ステップS117で放送中の映像再生を再会する。
【0059】
図2に上述した追いつき再生を実行するこの発明の映像再生装置100の一例を示す。この発明による映像再生装置100は、記録部101と、音声分離部102と、音声要約部103と、要約区間読出部104と、モード切替部105とによって構成することができる。
記録部101は、例えばハードディスク或は半導体メモリ、DVD−ROM等のように高速で書込および読出を実行することができる記録再生手段を用いる。高速で書込及び読出を実行できることにより、現在放送中の番組を録画しながら、既に記録されている部分を再生することができる。入力信号S1はテレビチューナー等から入力され、アナログ信号でもデジタル信号でもどちらでもよい。但し、記録部101の記録はデジタル信号で行われる。
【0060】
音声分離部102は指定された要約対象区間の映像信号から音声を分離し、この音声信号を音声要約部103に入力する。音声要約部103はこの音声信号を用いて強調部分を抽出し、要約区間を特定する。
尚、音声要約部103は録画中は常に音声信号を分析し、録画している番組毎に図15に示した音声強調テーブルを作成し記憶部に格納する。従って、番組の放映中に途中から録画部分の要約再生を行う場合は音声強調テーブルを用いて要約が行われる。また後日、録画された番組の要約を視聴する場合も音声強調確率テーブルを用いて要約が行われる。
【0061】
要約区間読出部104は音声要約部103で特定された要約区間に従って記録部101から音声付映像信号を読み出し、モード切替部105に出力する。モード切替部105は要約区間読出部104が読み出した音声付映像信号を要約映像信号として出力し、視聴者の視聴に提供される。
モード切替部105は要約映像を出力するモードaの他に、記録部101から読み出した映像信号を出力する再生モードbと、入力信号S1を直接視聴に提供するモードcとに切替えられ、各種の形態で利用が可能とされる。
ところで、上述した追いつき再生方法には追いつき再生の実行期間中に放送された映像は要約対象区間に含まれないため、視聴者にはその映像を視聴することができない不都合が生じる。
【0062】
このため、この発明ではこの欠点を解消するために、以下の実施例を提案する。つまり、要約区間の再生が終了後に、以前の再生開始時刻を新たな要約対象開始時刻とし、要約区間再生終了時刻を新たな要約終了時刻として要約処理及び要約映像・音声の再生処理を繰り返す。以前の再生開始時刻と要約区間再生終了時刻の間の時間が所定時間(例えば5〜10秒)以下となる場合に繰り返しを終了する。
この場合は指定された要約率もしくは要約時間よりも長く要約区間が再生されるという問題が生じる。例えば要約対象区間の時間をTAとして要約率r(0<r<1、r=要約時間(要約区間の時間の総延長)/要約対象区間の時間)で要約すると、1回目の要約における要約時間T1はTArとなる。2回目の要約における要約時間は1回目のものについて更に要約率で要約するのでTA2となる。この処理が順次繰り返されるので繰り返し終了までに要する時間はTAr/(1−r)となる。
【0063】
ここで指定された要約率rをr/(1+r)と調整し、この調整された要約率をもって要約を行う。その場合、繰り返し終了までに要する時間はTArとなり指定された要約率に適した要約時間となる。同様に要約時間T1が指定されたときでも要約対象区間の時間TAが与えられていれば、指定された要約率rはT1/TAであるので、この要約率をT1/(TA+T1)としても1回目の要約時間をTA1/(TA+T1)と調整してもよい。
図3は上記不都合を解消するための他の実施例を示す。この実施例では入力信号S1をそのまま出力させ、表示器の親画面200(図4参照)に現在放送中の映像を表示させると共に、モード切替部105に子画面化処理部106を設け、子画面化処理した要約映像・音声を入力信号S1に重畳させて出力し、この要約映像を子画面201(図4参照)に表示させる混成モードdを設けた実施例を示す。
【0064】
この実施例によれば、視聴者は親画面200に表示される放映中の番組の内容を視聴しながら、過去に放映された番組の内容を要約して子画面201で視聴することができる。この結果、要約情報を視聴している間に放映されている番組の内容は親画面200から受け取ることができるから、要約情報が全て再生された時点では番組の内容は前半部分から現在放映中の時点までの内容をほぼ切れ目なく視聴者に理解させることができる。
以上説明したこの発明による映像再生方法はコンピュータに映像再生プログラムを実行させて実現される。この場合、映像再生プログラムを通信回線を介してダウンロードしたり、CD−ROMや磁気ディスク等の記録媒体に格納させてコンピュータにインストールし、コンピュータ内のCPU等の処理装置で本発明の方法を実行させる。
【0065】
【発明の効果】
以上説明したように、この発明によれば録画されている番組を任意の圧縮率に圧縮して要約し、この要約された要約情報を再生することができる。従って録画されている多数の番組の内容を短時間に見分けることができ、例えば眞に視聴したい番組を探す作業を短時間に済ませることができる利点が得られる。
更に、最初から視聴することができなかった番組が放映されている状況でも、その前半部分を要約して視聴することができるため、途中から視聴を始めた番組でも、番組の全体を把握して視聴を続けることができる。
【図面の簡単な説明】
【図1】この発明による映像再生方法を実行する場合の手順の一例を説明するためのフローチャート。
【図2】この発明による映像再生装置の一実施例を説明するためのブロック図。
【図3】この発明による映像再生装置の変形実施例を説明するためのブロック図。
【図4】この発明による映像再生装置の特徴を説明するための表示画面の一例を説明するための図。
【図5】先に提案した音声要約方法を説明するためのフローチャート。
【図6】先に提案した音声段落の抽出方法を説明するためのフローチャート。
【図7】音声段落と音声小段落の関係を説明するための図。
【図8】図5に示したステップS2における入力音声小段落の発話状態を判定する方法の例を示すフローチャート。
【図9】先に提案した音声要約方法に用いられるコードブックを作成する手順の例を示すフローチャート。
【図10】この発明において用いられるコードブックの記憶例を示す図。
【図11】発話状態尤度計算を説明するための波形図。
【図12】先に提案した音声強調状態判定装置及び音声要約装置の一実施例を説明するためのブロック図。
【図13】要約率を自由に変更することができる要約方法を説明するためのフローチャート。
【図14】音声の要約に用いる音声小段落の抽出動作と各音声小段落の強調確率算出動作、音声小段落平静確率抽出動作を説明するためのフローチャート。
【図15】音声要約装置に用いる音声強調確率テーブルの構成を説明するための図。
【図16】要約率を自由に変更することができる音声要約装置の一例を説明するためのブロック図。
【符号の説明】
100 映像再生装置
101 記録部 102 音声分離部
103 音声要約部 104 要約区間読出部
105 モード切替部 106 子画面化処理部

Claims (4)

  1. 実時間映像信号と音声信号を時刻と対応付けて記憶する記憶手段と、
    要約対象区間の要約開始時刻を入力する要約開始時刻入力手段と、
    要約率で定められる要約条件を入力する要約条件入力手段と、
    要約再生開始の指示を入力する要約再生開始指示手段と、
    前記要約再生開始の指示が入力された時刻を要約対象区間の要約終了時刻とし、要約区間の総延長時間と要約対象区間の時間との比が入力された要約率となるように、前記要約開始時刻から要約終了時刻までの要約対象区間における音声信号について強調状態と判定された区間の中から要約区間を判定する要約区間決定手段と、
    前記要約区間決定手段で決定した要約区間の音声信号と映像信号を再生する再生手段へ出力する出力手段と、
    前記要約区間の再生開始時刻を新たな要約開始時刻とし、前記要約区間の再生終了時刻を新たな要約終了時刻とする要約条件設定手段と、
    前記要約条件設定手段による要約開始時刻と要約終了時刻の設定と、前記要約区間決定手段による前記要約区間の判定と、前記出力手段による要約区間の音声信号と映像信号の再生手段への出力とを反復させる反復手段とを備える
    ことを特徴とする映像要約装置。
  2. 実時間映像信号と音声信号を時刻と対応付けて記憶する記憶手段と、
    要約対象区間の要約開始時刻を入力する要約開始時刻入力手段と、
    要約時間で定められる要約条件を入力する要約条件入力手段と、
    要約再生開始の指示を入力する要約再生開始指示手段と、
    前記要約再生開始の指示が入力された時刻を要約対象区間の要約終了時刻とし、要約区間の総延長時間が前記要約時間となるように、前記要約開始時刻から前記要約終了時刻までの要約対象区間における音声信号について強調状態と判定された区間の中から要約区間を判定する要約区間決定手段と、
    前記要約区間決定手段で決定した要約区間の音声信号と映像信号を再生する再生手段へ出力する出力手段と、
    前記要約対象区間の時間に対する前記要約時間の比を要約率とし、前記要約区間の再生開始時刻を新たな要約開始時刻とし、前記要約区間の再生終了時刻を新たな要約終了時刻とし、新たな要約対象区間の時間に対する新たな要約時間の比が前記要約率となるように新たな要約時間を求める要約条件設定手段と、
    前記要約条件設定手段による要約時間の設定と、前記要約区間決定手段による前記要約区間の判定と、前記出力手段による要約区間の音声信号と映像信号の再生手段への出力とを反復させる反復手段とを備える
    ことを特徴とする映像要約装置。
  3. 請求項記載の映像要約装置であって、
    前記要約区間決定手段が、前記入力された要約率r(rは0<r<1となる実数)をr/(1+r)と調整し、各要約区間の判定では、要約対象区間の時間に対する要約区間の総延長時間との比が前記調整された要約率となるように、強調状態と判定された区間の中から要約区間を判定する
    ことを特徴とする映像要約装置。
  4. 請求項記載の映像要約装置であって、
    最初の要約区間の判定では、前記要約区間決定手段が、前記入力された要約開始時刻により定められた要約対象区間の時間TAおよび入力された要約時間T1から、要約率をT1/(TA+T1)とし、要約対象区間の時間に対する要約区間の総延長時間との比が前記調整された要約率となるように要約時間を調整し、要約区間の総延長時間が前記調整された要約時間となるように、前記要約開始時刻から前記要約終了時刻として現在までの要約対象区間における音声信号について強調状態と判定された区間の中から要約区間を判定し、
    反復される各要約区間の判定では、要約条件設定手段が、新たな要約対象区間の時間に対する新たな要約時間の比が前記要約率となるように新たな要約時間を求め、
    前記要約区間決定手段が、要約区間の総延長時間が前記新たな要約時間となるように、前記要約区間の判定する
    ことを特徴とする映像要約装置。
JP2002060844A 2001-08-08 2002-03-06 映像要約装置 Expired - Fee Related JP3803302B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2002060844A JP3803302B2 (ja) 2002-03-06 2002-03-06 映像要約装置
DE60204827T DE60204827T2 (de) 2001-08-08 2002-08-08 Anhebungsdetektion zur automatischen Sprachzusammenfassung
US10/214,232 US20030055634A1 (en) 2001-08-08 2002-08-08 Speech processing method and apparatus and program therefor
EP02017720A EP1288911B1 (en) 2001-08-08 2002-08-08 Emphasis detection for automatic speech summary
US11/397,803 US8793124B2 (en) 2001-08-08 2006-04-05 Speech processing method and apparatus for deciding emphasized portions of speech, and program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002060844A JP3803302B2 (ja) 2002-03-06 2002-03-06 映像要約装置

Publications (2)

Publication Number Publication Date
JP2003259311A JP2003259311A (ja) 2003-09-12
JP3803302B2 true JP3803302B2 (ja) 2006-08-02

Family

ID=28670051

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002060844A Expired - Fee Related JP3803302B2 (ja) 2001-08-08 2002-03-06 映像要約装置

Country Status (1)

Country Link
JP (1) JP3803302B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070007788A (ko) 2004-01-30 2007-01-16 마츠시타 덴끼 산교 가부시키가이샤 콘텐츠 재생장치
JP2005352330A (ja) * 2004-06-14 2005-12-22 Heartful Wing:Kk 音声分割記録装置
JP5061931B2 (ja) * 2008-02-04 2012-10-31 ソニー株式会社 情報処理装置および情報処理方法
WO2011024572A1 (ja) * 2009-08-28 2011-03-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
JP5600040B2 (ja) * 2010-07-07 2014-10-01 日本電信電話株式会社 映像要約装置,映像要約方法および映像要約プログラム
EP3663933A4 (en) 2017-07-31 2020-06-10 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD

Also Published As

Publication number Publication date
JP2003259311A (ja) 2003-09-12

Similar Documents

Publication Publication Date Title
US20220116006A1 (en) Volume leveler controller and controlling method
JP3621686B2 (ja) データ編集方法、データ編集装置、データ編集プログラム
EP1288911B1 (en) Emphasis detection for automatic speech summary
EP3598448B1 (en) Apparatuses and methods for audio classifying and processing
US6119086A (en) Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens
JP2000511651A (ja) 記録されたオーディオ信号の非均一的時間スケール変更
CA2452022C (en) Apparatus and method for changing the playback rate of recorded speech
JP2006507530A (ja) 音声認識装置及び方法
JP3803302B2 (ja) 映像要約装置
JP2003316378A (ja) 音声処理方法及びその方法を使用した装置及びそのプログラム
JP2003288096A (ja) コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム
CN115273826A (zh) 歌声识别模型训练方法、歌声识别方法及相关装置
JP3373933B2 (ja) 話速変換装置
JP3803301B2 (ja) 要約区間判定方法、要約情報提供方法、それらの方法を用いた装置、およびプログラム
JP3754386B2 (ja) 音声着信方法、音声着信装置、音声着信プログラム
JPH08147874A (ja) 話速変換装置
JP2006154531A (ja) 音声速度変換装置、音声速度変換方法、および音声速度変換プログラム
Venkatesh et al. Investigating the Effects of Training Set Synthesis for Audio Segmentation of Radio Broadcast. Electronics 2021, 10, 827
JP2006011159A (ja) コンテンツ応答処理装置、処理方法及びそのプログラム
JP2003255983A (ja) コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム
KR100659883B1 (ko) 오디오 재생시 동영상을 동조화하여 재생하는 방법
JP2005353006A (ja) 要約コンテンツ配信システム及び配信方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050929

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060502

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090512

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100512

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100512

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110512

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees