JP4344418B2 - Voice summarization apparatus and recording medium recording voice summarization program - Google Patents

Voice summarization apparatus and recording medium recording voice summarization program Download PDF

Info

Publication number
JP4344418B2
JP4344418B2 JP09270599A JP9270599A JP4344418B2 JP 4344418 B2 JP4344418 B2 JP 4344418B2 JP 09270599 A JP09270599 A JP 09270599A JP 9270599 A JP9270599 A JP 9270599A JP 4344418 B2 JP4344418 B2 JP 4344418B2
Authority
JP
Japan
Prior art keywords
topic
section
speech
important
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP09270599A
Other languages
Japanese (ja)
Other versions
JP2000284793A (en
Inventor
正幸 中沢
隆一 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP09270599A priority Critical patent/JP4344418B2/en
Publication of JP2000284793A publication Critical patent/JP2000284793A/en
Application granted granted Critical
Publication of JP4344418B2 publication Critical patent/JP4344418B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a voice summary device that a summary is made for the topics included in conversation and a user comprehends and uses the contents of the conversation in a short time by recognizing portions of the voices extracted from the conversation and generating a summary description. SOLUTION: The device is provided with a feature extracting section 2 which converts voice signals taken in from a voice inputting section 1 to feature parameters, a phoneme piece recognizing section 3 which recognizes the parameters as a phoneme piece symbol system train, an important segment extracting section 4 which extracts an important segment reflecting the topic by the train obtained in the section 3, a topic segment detecting section 6 which detects boundaries of the topics employing an appearance distribution of important segments, a topic information generating section 8 which classifies the important segments included in topic segments in terms of meanings and generates topic information and a topic information outputting section 9 which outputs the information.

Description

【0001】
【発明の属する技術分野】
本発明は、音声要約装置及び音声要約プログラムを記録した記録媒体に関し、詳しくは、音声中に含まれる話題を要約し、利用者が音声内容を短時間で把握・利用することを可能にする音声要約装置及び音声要約プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
音声波形中から話題を反映する重要な音声区間を抽出する手法として、特開平3−80782号公報、特開平10−39890号公報、特開平9−6385号公報に開示されている技術がある。
特開平3−80782号公報には、重要と思われる音声特徴系列をあらかじめ指定しおき、入力音声を解析して得られた特徴系列と前記音声特徴系列とを比較して、類似する特徴系列区間を自動的に切り出し、この切り出した特徴系列区間に相当する音声区間を音声中から抽出し、これらをつなぎ合わせて再生し出力する技術が開示されている。
【0003】
図11は、特開平10−39890号公報に開示された音声要約装置の構成を示すブロック図である。この音声要約装置は、音声入力部1の音声中から重要区間を抽出する重要区間抽出部(特徴抽出部2、重要区間抽出部4、重要区間インデックス格納部5)と、該重要区間を処理して要約データを得るデータ処理部(時間分布評価部15、再生区間インデックス格納部16)と、要約データに基づいて音声を出力する出力手段(音声波形格納部17、音声波形再生部18、音声出力部19)と、を有し、前記データ処理部は、重要区間の時間的分布を評価してその評価結果に基づいて決定された要約データを得、前記出力手段は音声を再生し出力できるようにするものである。
特開平9−6385号公報には、音声波形の中から類似している波形部分を検出する手法が開示されている。
【0004】
【発明が解決しようとする課題】
特開平3−80782号公報の技術は、時間的に連続していない短い音声区間が抽出されてしまい、再生音が途切れがちになり、利用者にとっては聞きづらく、内容の判断が困難であるという問題がある。
特開平10−39890号公報では、この問題を解決するために、抽出された音声特徴系列区間の時間的分布を評価し、その評価結果に基づいて要約データを得るように改良を行っている。抽出された音声区間のまとまった単位を優先的に再生し出力することで、利用者により聞き取りやすい形で要約音声を提供している。しかしながら、この技術では、対象とする特徴量が、話者の特性を強く受けたものであり、不特定話者同士が会話する内容については適応が困難なものとなっている。また、出力は、再生された音声波形であるため人間が聞くことを前提としており、コンピュータを用いた検索など二次的利用への汎用性が乏しい。利用者が音声内容をより短時間で把握することや二次的利用を行うためには、再生された音声だけではなく、話題毎に分割されたテキストによる記述結果が必要である。テキストによる要約記述があることで、音声内容の把握がしやすいだけでなく、単語をキーに検索を行うなど、コンピュータ等の装置との連携が柔軟に行える。
【0005】
また、特開平9−6385号公報の技術で用いている音響特徴量は固定次元のベクトルであり、可変次元のベクトルを用いる際の留意点については述べられていない。また、得られた重要区間出現頻度のヒストグラムから話題の境界を推定する手法を提案しているが、単純な閾値によりヒストグラムを分割するという手法を用いているため、不要に多くの話題境界を検出するという問題点がある。また、不特定話者の音声への対応という点には触れていない。
本発明は、かかる実情に鑑みてなされたもので、音声中から抽出された部分的な音声を音声認識し、要約記述を生成することにより、音声中に含まれる話題を要約し、利用者が音声内容を短時間で把握・利用することを可能にする音声要約装置及び音声要約プログラムを記録した記録媒体を提供することを目的とする。
【0006】
【課題を解決するための手段】
本発明の音声要約装置は、音声中から重要区間を抽出する重要区間抽出部と、重要区間の出現分布を用いて話題区間の境界を検出する話題境界検出部と、それぞれの話題区間に含まれる重要区間を意味分類して話題情報を生成する話題情報生成部と、を備えるものである。
また、前記重要区間抽出部は、重要区間を抽出するための特徴量として、話者に依存しない音響特徴量を用いることで、不特定話者の音声波形を対象とすることができ、複数話者の音声対話から話題を推定することが可能になる。
【0007】
また、前記話題境界検出部は、抽出された話題を反映する複数の重要区間から話題の境界を推定する推定手段を備えることで、音声波形中に含まれる複数の話題を話題毎に分割することが可能になる。
また、前記話題情報生成部は、前記話題区間に含まれる単語からシソーラス又は共起データを用いて意味分類することで、同音異義語を判定し、語義の曖昧性を解消することができる。
【0008】
また、前記話題情報生成部は、共起データを用いて語義の曖昧性解消を行うことで、音声波形中に含まれる語義を正しく推定することができると同時に、対象となる語義以外の意味を棄却することができる。
また、前記話題情報生成部は、共起データを用いて語義の曖昧性解消を行う際、共起する関係の順序を考慮せず、組合せのみを考慮することで、共起データの組合せを増やすことができる。
【0009】
また、前記話題情報生成部は、共起データを用いて語義の曖昧性解消を行う際、共起する単語見出し及び意味情報を利用することで、同音異義語の判定が行えるようになり、語義の推定精度の向上を計ることができる。
また、前記話題情報生成部は、意味のクラスの違いに応じた分類である話題スロットを用いて意味分類することで、音声波形中に含まれる話題について必要十分な情報とともに推定することが可能になる。
【0010】
また、本発明は、コンピュータを、音声中から重要区間を抽出する重要区間抽出部と、重要区間の出現分布を用いて話題区間の境界を検出する話題境界検出部と、それぞれの話題区間に含まれる重要区間を意味分類して話題情報を生成する話題情報生成部、として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0011】
【発明の実施の形態】
以下、添付図面を参照しながら本発明の好適な実施の形態について詳細に説明する。なお、図11と同一機能のものは同一符号で示して説明を省略する。
図1は、本発明の音声要約装置の一実施の形態の構成を示すブロック図である。図11の特徴抽出部2と重要区間抽出部4の間に音素片認識部3を追加すると共に、重要区間インデックス格納部5以降を、話題境界検出部6、単語認識部7、話題情報生成部8、話題情報出力部9に置き換えている点が図11の装置と異なる。
【0012】
音声入力部1から取り込まれた音声信号は、特徴抽出部2において、音素片認識部3で処理できる特徴パラメータに変換されたあと、音素片認識部3において音素片記号系列として認識される。この特徴パラメータの変換方法は、例えば、「部分整合法」(岡隆一、“連続DPを用いた部分整合法フレーム特徴の音韻認識”、電子情報通信学会誌、DVo1.J70-DNo.5、pp.917-924、1997-07)による音素片認識手法の中で詳しく述べられている。また、音素片については、「音声の音素片ネットワーク表現と時系列のセグメント化法を用いた自動ラベリング手法」(田中和世、速水悟、大田耕三、日本音響学会誌、42巻11号pp.860-868、1986)で詳しく述べられている。
図2は、音素片認識部3での出力結果例を示す図である。フレーム番号20、音響パワー21、音素片候補数22、音素片シンボル23、音素片認識指数24の5つフィールドから構成されている。なお、この図2での音素片認識指数24は、各音素片の認識頻度を列挙している。
【0013】
次に音素片認識部3によって得られた音素片記号系列は、重要区間抽出部4により話題を反映する重要区間の抽出が行われる。これは、例えば、特開平9−6385号公報、特開平10−39890号公報、または「類似区間抽出手法」(木山次郎、伊藤慶明、岡隆一、“Incrementa1 Reference Interva1-free 連続DPを用いた任意話題音声の要約”、電子情報通信学会技報、SP95-35、1995-06)に詳しく述べられている。しかし、上記各文献に述べられている手法には、各フレーム毎に出力される音響特徴量は固定次元のベクトル(LPCケプストラムなど)を想定しているため、音素片認識部3からの出力である可変次元のベクトルをそのまま適用することはできない。この問題を解決するための手法を以下に説明する。
【0014】
例えば、連続DP(Dynamic Programming)よる2つのパターンpi、qjのマッチングを行う場合、局所距離計算は式(1)及び式(2)で以下のように計算できる。2つ音素片系列が持つ音素片要素をそれぞれpi(1≦i≦N)、qj(1≦j≦M)とする。音素片要素の認識指数(図2では認識頻度)をρ(pi)、ρ(qj) とする。2つ音素片要素pi、qjに対する音素片距離をε(pi,qj) とする。また、認識指数に応じた重みをρ1(pi)、ρ1(qj) とし、式(1)及び式(2)に示すように定義する。なお、N,Mはそれぞれの音素片系列の要素数である。
【0015】
【数1】

Figure 0004344418
【0016】
図9は、重要区間抽出のための局所距離算出の動作を説明するフロー図である。ステップS1で、局所距離が初期化(local distance=0)され、ステップS2で、2つのパターンの音素片要素pi、qjが一致するか否かを判断し、同じ音素片が現れた段階で、ステップS3において変数local distanceに値dが設定される。そして、ステップS4でN×M回ループの中で変数dが更新される。
d=d+ε(pi,qj)・ρ1(Pi)・ρ1(qj)
【0017】
変数local distanceが0の時は、局所距離値が0であるということを示し、音素片系列の最初の候補同士が同じことを示している。この局所距離算出フローによる手法を用いることで、音素片などの可変ベクトル特徴量を利用した局所距離計算が可能になり、連続DPにおける累積距離計算値を得ることができ、最終的には2つのパターンにおけるマッチング距離の算出が可能になる。
【0018】
重要区間インデックス格納部5では、重要区間抽出部4から得られる重要区間の出現頻度を用いて、出現頻度ヒストグラムが作成される。図3は、重要区間出現頻度の概念図である。横軸は時間、縦軸は類似区間の出現頻度を表す。図中の30, 30'および31、31'は互いに類似した区間を示しており、対応関係を示すため互いに便宜上水平な線で結んでいる。図中の出現頻度ヒストグラム32は、区間30の開始時刻、30'の終了時刻の間に重み1が加算されている様子を表している。区間31、31'についても同様に、区間31の開始時刻、31'の終了時刻の間に重み1が加算されている。出現頻度ヒストグラム32の中央部の谷の部分32'は、その時刻で話題が分割されることを示している。これは、ある特定の話題には、その話題を特徴付けるキーワードが出現し、違う他の話題では、違うキーワードが出現するという仮定に基づいている。
【0019】
図5は、実際の音声波形(89秒)を解析した結果を示す図である。図5の横軸、縦軸は時間であり、グラフ中に検出された類似区間が黒い四角として表示されている。たとえば、図中央のSTAY(宿泊)は、音声波形の約63秒と約49秒を開始時刻として重要区間があったことを示している。なお、図中の矢印により該当する単語見出しを注釈として加えている。
【0020】
話題境界検出部6では、重要区間インデックス格納部5から得られたヒストグラムを基に話題境界の検出を行う。話題境界の検出には、このヒストグラムに移動平均による平滑化処理を施したあと、その変化量を求め、その変化量がある閾値を超えた時刻を基準に、直前に負から正に変化した時刻として検出している。この方法は、以下に述べる音響パワーによる音声区間の初期推定区間抽出方法と似ているが、ヒストグラム(音響パワーのグラフ)をそのまま用いるのではなく、そのヒストグラムの変化量に対して適用している点が異なる。
【0021】
図4は、音響パワー40とその変化量41との関係を示す図である。音響パワーによる音声区間の初期推定区間抽出方法は、入力音声フレームごとの音響パワー40に対する2つの閾値E1、E2(E2<E1)を用いて、音声区間(n1,n2)を推定する。
音響パワーの値が、E2を越え、かつその後E2より小さくなることなくE1を越えるとき、E2を越えたフレームをn1とし、音声区間の開始フレームとする。音声区間の終了フレームは、時間軸を反転し同様の方法でn2を定める。ここでの閾値E1、E2は、実験などにより決まる値となる。
【0022】
本実施の形態で用いる方法は、音響パワー40に相当する累積頻度をそのまま用いず、重要区間の累積頻度の変化量41(微分)を求め、その値に対して、音声区間の初期推定区間抽出方法を用いる。この方法は、累積頻度が急激に増加し始めるポイントの推定が可能であるため、1つの話題の中で特に累積頻度の高い部分の切りだしが行え、話題の細分化が可能である。累積頻度が減少し終わったポイントは、時間軸を逆にして、同様の方法で調べることができる。n1、n2は、音響パワー40による音声区間の初期推定区間抽出方法による区間を示し、n1'、n2'は、音響パワーの変化量41を用いた方法による区間を示す。
次に、平滑化のための式(3)と、話題分割のための式(4)を示す。
【0023】
【数2】
Figure 0004344418
【0024】
上式において、
h(t):時刻tに対する音韻的に類似した区間のペアの累積頻度
m:平滑化処理のための移動平均量
h1(t):平滑化後の累積頻度
v(t):時刻tに対する累積頻度の変化量
α:累積頻度変化量を正規化するための定数
e:話題を分割するための閾値
H:分割された時刻の集合
音声区間検出の閾値E1がeに、E2が0に相当する。この閾値eを満たす時刻の集合Hが話題の境界となる。
【0025】
図6は、実際の音声波形(図5に示した音声と同じ)を解析した結果を示す図である。図6(a)は、重要区間インデックス格納部5より得られた重要区間のヒストグラム、図6(b)は、図6(a)に対して式(3)による平滑化処理を施した結果である。図6(c)は、図6(b)のグラフの変化状態を示したもので、話題境界の時刻60が検出されたことを示している。なお、61は、人手によって確認した話題境界の正解時刻である。時刻60、61ともほぼ同じ時刻を示しており、本実施の形態装置による効果が表れている。
【0026】
単語認識部7では、分割された話題区間の時刻集合H(式(4)参照)に含まれる重要区間(音声波形)を対象に音声波形格納部10に保存されている音声波形を基に単語認識が行われる。単語認識の手法は、たとえば、「音声認識」(今井聖、共立出版社、1995)等、多くの文献に記されているため、ここでの説明は省略する。
【0027】
話題情報生成部8では、単語認識部7で得られた単語集合とシソーラス、共起データを用いて話題情報の生成が行われる。シソーラスは、概念の上位・下位関係を記述したもので、検索する単語がどの概念に相当していて、どのような概念の下位として位置づけられているのかを検索するために用いたり、それぞれの単語がシソーラスの分類によりどのようなグループを形成するのかを識別するために用いられる。また、共起データは、語と語が1つの文の中で同時に使われた単語の組合せを列挙したデータであり、かな漢字変換等で単語見出しを特定するために用いられる。ここでは、あらかじめ設定された概念に含まれる情報を話題スロットと定義している。
【0028】
図10は、話題情報生成部8で行う話題情報生成の動作を説明するフロー図である。まず、ステップS10で、単語集合Wcを初期化し、ステップS11で、単語認識部7で得られた単語Wi,Wjについてその組合せの共起項目があるかどうかの判別を行う。ある(YES)場合は、単語集合Wcに単語Wi,Wjを追加する(ステップS12)。この手順により語義の曖昧性を解消する。すなわち、異なる語義(意味)を持つ単語のその文脈における語義を特定する。次いでステップS13でWi,Wjの全ての組合わせについてチェックし、チェックが終了すればステップS14に進む。
【0029】
ステップS14では、単語集合Wcに含まれる単語Wciが属する概念を検索し、単語Wciの上位概念を検索し(ステップS15)、該当する話題スロットがあるかどうかの判別を行う(ステップS16)。ある(YES)場合は、単語Wciを話題スロットに追加する(ステップS17)。これは、上位概念が、最上位概念に行き着くまで繰り返される(ステップS18)。また、この話題スロットヘの追加手順は、単語集合Wcのすべての単語Wciについて行われる(ステップS19)。
【0030】
なお、Wi={パン},Wj={食べる}の場合、実例文の中に「パンを食べる」という文があることを示している。「食べるパンを」のような文は、解析の対象を選ぶ文選択の作業において削除されるのが一般的であるため、通常ありえない組合せとなるが、本実施の形態では、共起する単語の組合せそのものを利用する。これは、「山と川」というような係り受け関係の場合に、共起項目を増やすことができ効果的である。また、話題情報生成部8では、単語Wi,Wjに対応する共起項目の検索時に、該当する単語だけではなく概念も同時に抽出することで、単語と概念両方に一致するものだけを結果として残す。
【0031】
話題情報生成部8で用いられる話題スロットには、例えば、「時」、「位置」、「変化」、「行為」、「移動」、「現象」、「状態」、「人間または人間と似た振る舞いをする主体」、「もの」、「事柄」、「さまざまな物と事柄」、「それぞれの現象や物事」、「客観的な対象」、等が挙げられる。
ここで、「変化、行為、移動、現象、状態」は、上位概念としての「事象」に含まれる場合、「事象」概念1つとして扱うことも可能である。また、意味の細分化のために下位の概念として「変化、行為、移動、現象、状態」それぞれを1つの項目として扱うことも可能である。これは、「ものごと」に対しても同様であり、下位の概念として「もの、事柄、さまざまな物と事柄、それぞれの現象や物事、客観的な対象」を用いて細分化することもできる。
【0032】
図8は、「組織」という単語をシソーラスから検索した例を示す図である。80は、シソーラス上の最上位の概念を示し、81、82、83、84、85は各々「組織」という単語が5つの意味に分類されており、それぞれの意味に従って、特定の上位概念の下に分類されている状態を示している。
たとえば、82の「組織を作り上げる」という意味の場合は、“組織を創立する”という上位概念に含まれ、さらに“物事を設定すること”という上位概念に分類されている。最終的には、“行為”という話題スロットに分類されていることが分かる。もちろん、この上位概念は、シソーラスが異なれば概念の名称も異なり、おのずと話題スロット名も異なったものとなる。
【0033】
図7は、実際の音声波形を本実施の形態による手法を用いて解析した出力例を示す図である。話題情報出力部9では、図7に示すような形式で話題情報の出力が行われる。2つの話題が出力されており、1つ目の話題は、3つの話題スロット(位置、主体、もの)から構成され、それぞれの話題スロットは、東京、地下鉄という単語が示されている。2つ目の話題は、3つ話題スロット(位置、行為、主体)から構成され、ホテル、宿泊という単語が示されている。これは人手による検証結果と一致しており、本実施の形態の効果が表れている。もちろん、この出力情報は画面に表示するだけではなく他の形式での表示やファイルなどの他の出力媒体に保存することも可能である。
なお、本発明の音声要約装置は、上述の図示例のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
【0034】
以上説明した音声要約装置は、この音声要約装置を機能させるためのプログラムで実現できる。このプログラムはコンピュータで読み取り可能な記録媒体に格納されている。本発明では、この記録媒体として、音声要約装置を実現するコンピュータのメインメモリそのものがプログラムメディアであってもよいし、また外部記憶装置としてCD−ROMドライバ等のプログラム読み取り装置が設けられ、そこに挿入することで読み取り可能なCD−ROM等のプログラムメディアであってもよい。いずれの場合においても、格納されているプログラムはCPUがアクセスして実行させる構成であってもよいし、あるいはいずれの場合もプログラムを読み出し、読み出されたプログラムは、図示されていないプログラム記憶エリアにダウンロードされて、そのプログラムが実行される方式であってもよい。このダウンロード用のプログラムは予め本体装置に格納されているものとする。
【0035】
ここで、上記プログラムメディアは、本体と分離可能に構成される記録媒体であり、磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード/光カード等のカード系、あるいはマスクROM、EPROM、EEPROM、フラッシュROM等による半導体メモリを含めた固定的にプログラムを担持する媒体であってもよい。
【0036】
さらに、図示されていないが、外部の通信ネットワークとの接続が可能な手段を備えている場合には、その通信接続手段を介して通信ネットワークからプログラムをダウンロードするように、流動的にプログラムを担持する媒体であってもよい。なお、このように通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用プログラムは予め本体装置に格納しておくか、あるいは別な記録媒体からインストールされるものであってもよい。なお、記録媒体に格納されている内容としてはプログラムに限定されず、データであってもよい。
【0037】
【発明の効果】
以上、詳述したように、本発明によれば、話者同士による対話音声などの音声波形中に含まれる複数の話題を分割し、かつ、話題内容を推定するために必要な情報を提示可能となり、対話音声などの話者の音声中に含まれる複数の話題を推定することができ、利用者が音声内容を短時間で把握・利用すること可能となる。
本発明による装置を用いることで、音声波形中に含まれる話題を推定することはもちろん、音声にテキストのインデックスを自動的に付与し効率的な検索を支援する手段を提供することも可能となる。
【図面の簡単な説明】
【図1】本発明の音声要約装置の一実施の形態の構成を示すブロック図である。
【図2】本実施の形態において、音素片認識部での出力結果例を示す図である。
【図3】本実施の形態において、重要区間出現頻度の概念図である。
【図4】本実施の形態において、音響パワーとその変化量との関係を示す図である。
【図5】本実施の形態において、実際の音声波形(89秒)を解析した結果を示す図である。
【図6】本実施の形態において、実際の音声波形(図5に示した音声と同じ)を解析した結果を示す図である。
【図7】本実施の形態において、実際の音声波形を解析した出力例を示す図である。
【図8】本実施の形態において、「組織」という単語をシソーラスから検索した例を示す図である。
【図9】本実施の形態において、重要区間抽出のための局所距離算出の動作を説明するフロー図である。
【図10】本実施の形態において、話題情報生成部で行う話題情報生成の動作を説明するフロー図である。
【図11】従来の音声要約装置の構成を示すブロック図である。
【符号の説明】
1 音声入力部
2 特徴抽出部
3 音素片認識部
4 重要区間抽出部
5 重要区間インデックス格納部
6 話題境界検出部
7 単語認識部
8 話題情報生成部
9 話題情報出力部
10 音声波形格納部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a voice summarization apparatus and a recording medium on which a voice summarization program is recorded, and more particularly, a voice that summarizes topics included in voice and enables a user to grasp and use voice contents in a short time. The present invention relates to a summarization apparatus and a recording medium on which a voice summarization program is recorded.
[0002]
[Prior art]
As a method for extracting an important voice section that reflects a topic from a voice waveform, there are techniques disclosed in Japanese Patent Laid-Open Nos. 3-80782, 10-39890, and 9-6385.
In Japanese Patent Laid-Open No. 3-80782, a speech feature sequence that is considered to be important is designated in advance, a feature sequence obtained by analyzing input speech is compared with the speech feature sequence, and similar feature sequence sections Has been disclosed in which a speech segment corresponding to the segmented feature sequence segment is extracted from the speech, and these are connected and reproduced and output.
[0003]
FIG. 11 is a block diagram showing the configuration of a speech summarization device disclosed in Japanese Patent Laid-Open No. 10-39890. This speech summarization apparatus processes an important section extraction section (feature extraction section 2, important section extraction section 4, important section index storage section 5) that extracts an important section from the speech input section 1 and the important section. A data processing unit for obtaining summary data (time distribution evaluation unit 15 and playback section index storage unit 16) and output means for outputting speech based on the summary data (speech waveform storage unit 17, speech waveform playback unit 18, speech output) 19), and the data processing unit evaluates the temporal distribution of the important section to obtain summary data determined based on the evaluation result, and the output means can reproduce and output the sound. It is to make.
Japanese Patent Laid-Open No. 9-6385 discloses a method for detecting a similar waveform portion from a speech waveform.
[0004]
[Problems to be solved by the invention]
According to the technique disclosed in Japanese Patent Laid-Open No. 3-80782, a short voice segment that is not continuous in time is extracted, the reproduced sound tends to be interrupted, it is difficult for the user to hear, and it is difficult to judge the contents. There's a problem.
In Japanese Patent Laid-Open No. 10-39890, in order to solve this problem, the temporal distribution of the extracted speech feature sequence section is evaluated, and improvement is performed so as to obtain summary data based on the evaluation result. By reproducing and outputting the unit of the extracted speech segment preferentially, summary speech is provided in a form that is easier for the user to hear. However, with this technology, the target feature amount is strongly influenced by the speaker characteristics, and it is difficult to adapt the content of conversation between unspecified speakers. Moreover, since the output is a reproduced speech waveform, it is assumed that the human will listen to it, and the versatility for secondary use such as search using a computer is poor. In order for the user to grasp the voice content in a shorter time or to perform secondary use, not only the reproduced voice but also a description result by text divided for each topic is required. The summary description in text not only makes it easy to grasp the audio content, but also enables flexible cooperation with devices such as computers, such as performing searches using words as keys.
[0005]
Further, the acoustic feature quantity used in the technique of Japanese Patent Laid-Open No. 9-6385 is a fixed-dimensional vector, and points to be noted when using a variable-dimensional vector are not described. We have also proposed a method for estimating topic boundaries from the histogram of the frequency of occurrence of important sections, but because a method is used to divide the histogram by simple thresholds, many topic boundaries are detected unnecessarily. There is a problem of doing. Moreover, it does not touch on the point of dealing with the voices of unspecified speakers.
The present invention has been made in view of such circumstances, and by recognizing a partial voice extracted from the voice and generating a summary description, the user summarizes the topics included in the voice. It is an object of the present invention to provide a voice summarizing apparatus and a recording medium on which a voice summarizing program is recorded, which makes it possible to grasp and use voice contents in a short time.
[0006]
[Means for Solving the Problems]
The speech summarization device of the present invention includes an important section extracting unit that extracts an important section from speech, a topic boundary detecting unit that detects a boundary of a topic section using the appearance distribution of the important section, and each topic section A topic information generation unit that semantically classifies important sections and generates topic information.
In addition, the important section extraction unit can target a speech waveform of an unspecified speaker by using an acoustic feature quantity independent of a speaker as a feature quantity for extracting an important section. The topic can be estimated from the person's voice conversation.
[0007]
Further, the topic boundary detection unit divides a plurality of topics included in a speech waveform for each topic by including an estimation unit that estimates a topic boundary from a plurality of important sections reflecting the extracted topics. Is possible.
The topic information generation unit can determine homonyms and resolve ambiguity of meaning by classifying meanings from words included in the topic section using thesaurus or co-occurrence data.
[0008]
Further, the topic information generation unit can correctly estimate the meaning of the meaning included in the speech waveform by resolving the meaning of the meaning using the co-occurrence data, and at the same time, the meaning other than the target meaning. Can be rejected.
In addition, the topic information generation unit increases the number of combinations of co-occurrence data by considering only the combinations without considering the order of the co-occurring relations when solving the ambiguity of the meaning using the co-occurrence data. be able to.
[0009]
Further, the topic information generation unit can determine homonyms by using co-occurrence word headings and semantic information when resolving meaning ambiguity using co-occurrence data. The estimation accuracy can be improved.
In addition, the topic information generation unit can perform a semantic classification using topic slots that are classifications according to a difference in semantic classes, thereby enabling estimation of topics included in a speech waveform together with necessary and sufficient information. Become.
[0010]
Further, the present invention includes an important section extraction unit that extracts an important section from speech, a topic boundary detection section that detects a boundary of a topic section using the appearance distribution of the important section, and each topic section This is a computer-readable recording medium that records a program for functioning as a topic information generation unit that generates topic information by semantic classification of important sections.
[0011]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In addition, the thing of the same function as FIG. 11 is shown with the same code | symbol, and abbreviate | omits description.
FIG. 1 is a block diagram showing the configuration of an embodiment of a speech summarization apparatus of the present invention. A phoneme segment recognition unit 3 is added between the feature extraction unit 2 and the important section extraction unit 4 in FIG. 11, and the important section index storage unit 5 and the subsequent sections are a topic boundary detection unit 6, a word recognition unit 7, and a topic information generation unit. 8 and the topic information output unit 9 is different from the apparatus of FIG.
[0012]
The speech signal captured from the speech input unit 1 is converted into a feature parameter that can be processed by the phoneme unit recognition unit 3 in the feature extraction unit 2 and then recognized as a phoneme symbol sequence in the phoneme unit recognition unit 3. This feature parameter conversion method is, for example, “partial matching method” (Ryuichi Oka, “Partial matching method phoneme recognition of frame features using continuous DP”, IEICE Journal, DVo1.J70-DNo.5, pp. .917-924, 1997-07) are described in detail in the phoneme recognition method. For phonemes, "Automatic labeling method using phoneme network representation of voice and time-series segmentation method" (Tanaka Nakayo, Satoru Hayami, Kozo Ota, Journal of the Acoustical Society of Japan, Vol. 42, No. 11 pp. 860-868, 1986).
FIG. 2 is a diagram illustrating an output result example in the phoneme piece recognition unit 3. It consists of five fields: frame number 20, acoustic power 21, phoneme candidate number 22, phoneme symbol 23, and phoneme recognition index 24. Note that the phoneme recognition index 24 in FIG. 2 lists the recognition frequency of each phoneme.
[0013]
Next, an important section reflecting the topic is extracted by the important section extraction section 4 from the phoneme symbol series obtained by the phoneme recognition section 3. For example, Japanese Patent Laid-Open No. 9-6385, Japanese Patent Laid-Open No. 10-39890, or “similar section extraction method” (Jiro Kiyama, Yoshiaki Ito, Ryuichi Oka, “Incrementa1 Reference Interva1-free Continuous DP It is described in detail in "Summary of Topic Speech", IEICE Technical Report, SP95-35, 1995-06). However, in the methods described in the above documents, since the acoustic feature value output for each frame is assumed to be a fixed-dimensional vector (LPC cepstrum, etc.), the output from the phoneme segment recognition unit 3 is assumed. A variable dimension vector cannot be applied as it is. A method for solving this problem will be described below.
[0014]
For example, when two patterns p i and q j are matched by continuous DP (Dynamic Programming), the local distance can be calculated as follows using Equation (1) and Equation (2). The phoneme element elements of the two phoneme series are assumed to be p i (1 ≦ i ≦ N) and q j (1 ≦ j ≦ M), respectively. The recognition index (recognition frequency in FIG. 2) of the phoneme element is assumed to be ρ (p i ) and ρ (q j ). Let ε (p i , q j ) be the phoneme unit distance for the two phoneme elements p i and q j . Moreover, the weight corresponding to the recognition index .rho.1 (p i), and .rho.1 (q j), is defined as shown in Equation (1) and (2). N and M are the number of elements of each phoneme sequence.
[0015]
[Expression 1]
Figure 0004344418
[0016]
FIG. 9 is a flowchart for explaining the operation of calculating a local distance for extracting an important section. In step S1, the local distance is initialized (local distance = 0), and in step S2, it is determined whether the phoneme element elements p i and q j of the two patterns match, and the same phoneme appears. In step S3, the value d is set to the variable local distance. In step S4, the variable d is updated in the N × M times loop.
d = d + ε (p i , q j ) · ρ 1 (P i ) · ρ 1 (q j )
[0017]
When the variable local distance is 0, it indicates that the local distance value is 0, indicating that the first candidates of the phoneme segment series are the same. By using this method based on the local distance calculation flow, local distance calculation using variable vector features such as phonemes can be performed, and cumulative distance calculation values in continuous DP can be obtained. The matching distance in the pattern can be calculated.
[0018]
In the important section index storage unit 5, an appearance frequency histogram is created using the appearance frequency of the important section obtained from the important section extraction unit 4. FIG. 3 is a conceptual diagram of important section appearance frequency. The horizontal axis represents time, and the vertical axis represents the appearance frequency of similar sections. 30, 30 ′ and 31, 31 ′ in the figure indicate similar sections, and are connected with horizontal lines for convenience in order to show the correspondence. An appearance frequency histogram 32 in the figure represents a state in which a weight 1 is added between the start time of the section 30 and the end time of 30 ′. Similarly, for the sections 31 and 31 ′, a weight 1 is added between the start time of the section 31 and the end time of 31 ′. The valley portion 32 ′ in the center of the appearance frequency histogram 32 indicates that the topic is divided at that time. This is based on the assumption that a keyword that characterizes the topic appears in a specific topic, and a different keyword appears in another different topic.
[0019]
FIG. 5 is a diagram showing a result of analyzing an actual speech waveform (89 seconds). The horizontal and vertical axes in FIG. 5 are time, and similar sections detected in the graph are displayed as black squares. For example, STAY (accommodation) in the center of the figure indicates that there is an important section with the start time of about 63 seconds and about 49 seconds of the voice waveform. In addition, the corresponding word heading is added as an annotation by an arrow in the figure.
[0020]
The topic boundary detection unit 6 detects the topic boundary based on the histogram obtained from the important section index storage unit 5. To detect the topic boundary, the histogram is smoothed by moving average, the amount of change is calculated, and the time when the amount of change exceeds a certain threshold is used as the reference time immediately before the change from negative to positive. Detect as. This method is similar to the method for extracting the initial estimated section of the speech section based on the acoustic power described below, but is applied to the amount of change of the histogram instead of using the histogram (sound power graph) as it is. The point is different.
[0021]
FIG. 4 is a diagram showing the relationship between the acoustic power 40 and the amount of change 41. In the method of extracting the initial estimated section of the speech section based on the acoustic power, the speech section (n 1 , n 2 ) is estimated using two thresholds E 1 and E 2 (E 2 <E 1) for the acoustic power 40 for each input speech frame.
When the value of the sound power exceeds E2 and then exceeds E1 without becoming smaller than E2, the frame exceeding E2 is defined as n 1 and is set as the start frame of the voice section. For the end frame of the speech section, the time axis is inverted and n 2 is determined in the same manner. The threshold values E1 and E2 here are values determined by experiments or the like.
[0022]
The method used in the present embodiment does not use the cumulative frequency corresponding to the sound power 40 as it is, calculates the change amount 41 (derivative) of the cumulative frequency of the important section, and extracts the initial estimated section of the voice section from the value. Use the method. Since this method can estimate the point at which the cumulative frequency starts to increase rapidly, a portion having a particularly high cumulative frequency can be extracted from one topic, and the topic can be subdivided. The point at which the cumulative frequency has finished decreasing can be examined in a similar manner with the time axis reversed. n 1 and n 2 indicate sections obtained by the method for extracting the initial estimated section of the voice section based on the acoustic power 40, and n 1 ′ and n 2 ′ indicate sections obtained by the method using the change amount 41 of the acoustic power.
Next, Formula (3) for smoothing and Formula (4) for topic division are shown.
[0023]
[Expression 2]
Figure 0004344418
[0024]
In the above formula,
h (t): cumulative frequency of pairs of phonologically similar sections with respect to time t: moving average amount for smoothing processing h1 (t): cumulative frequency after smoothing v (t): cumulative with respect to time t Frequency change amount α: Constant for normalizing cumulative frequency change amount e: Threshold value for dividing topic H: Threshold value E1 for detecting a collective speech section at divided time is equivalent to e, and E2 is equivalent to 0. . A set H of times satisfying the threshold e is a topic boundary.
[0025]
FIG. 6 is a diagram showing a result of analyzing an actual speech waveform (same as the speech shown in FIG. 5). 6A shows the histogram of the important section obtained from the important section index storage unit 5, and FIG. 6B shows the result of smoothing the expression (3) on FIG. 6A. is there. FIG. 6C shows a change state of the graph of FIG. 6B, and shows that a topic boundary time 60 is detected. Note that 61 is the correct time of the topic boundary confirmed manually. Times 60 and 61 indicate substantially the same time, and the effect of the present embodiment device appears.
[0026]
In the word recognizing unit 7, the word is based on the speech waveform stored in the speech waveform storage unit 10 for the important section (speech waveform) included in the time set H (see Expression (4)) of the divided topic sections. Recognition is performed. The word recognition technique is described in many documents such as “voice recognition” (Sei Imai, Kyoritsu Publishing Co., Ltd., 1995), and the description thereof is omitted here.
[0027]
The topic information generation unit 8 generates topic information using the word set, thesaurus, and co-occurrence data obtained by the word recognition unit 7. The thesaurus describes the upper and lower relations of concepts. It can be used to search for which concept the word to be searched corresponds to and what kind of concept it is positioned at. Is used to identify what group is formed by thesaurus classification. The co-occurrence data is data that enumerates words and combinations of words that are simultaneously used in a sentence, and is used for specifying a word heading by Kana-Kanji conversion or the like. Here, information included in a preset concept is defined as a topic slot.
[0028]
FIG. 10 is a flowchart illustrating the topic information generation operation performed by the topic information generation unit 8. First, in step S10, the word set Wc is initialized, and in step S11, it is determined whether or not there are co-occurrence items of the combinations of the words Wi and Wj obtained by the word recognition unit 7. If yes (YES), the words Wi and Wj are added to the word set Wc (step S12). This procedure eliminates the ambiguity of meaning. That is, the meaning in the context of a word having a different meaning (meaning) is specified. Next, in step S13, all combinations of Wi and Wj are checked. If the check is completed, the process proceeds to step S14.
[0029]
In step S14, a concept to which the word Wci included in the word set Wc belongs is searched, a superordinate concept of the word Wci is searched (step S15), and it is determined whether there is a corresponding topic slot (step S16). If there is (YES), the word Wci is added to the topic slot (step S17). This is repeated until the superordinate concept reaches the top concept (step S18). The procedure for adding to the topic slot is performed for all the words Wci in the word set Wc (step S19).
[0030]
Note that Wi = {bread} and Wj = {eat} indicate that there is a sentence “eating bread” in the actual example sentence. Sentences such as “eating bread” are generally deleted in the sentence selection process for selecting an object to be analyzed. Therefore, in this embodiment, a combination of words that co-occur is used. Use the combination itself. This is effective in increasing the number of co-occurrence items in the case of a dependency relationship such as “mountain and river”. Further, the topic information generation unit 8 extracts not only the corresponding word but also the concept at the same time when searching for the co-occurrence items corresponding to the words Wi and Wj, so that only a word that matches both the word and the concept remains as a result. .
[0031]
The topic slot used in the topic information generation unit 8 includes, for example, “time”, “position”, “change”, “action”, “movement”, “phenomenon”, “state”, “human or similar to a human being” "Subjects that behave", "things", "things", "various things and things", "respective phenomena and things", "objective objectives", etc.
Here, when “change, action, movement, phenomenon, state” is included in the “event” as the superordinate concept, it can be handled as one “event” concept. In addition, each of “change, action, movement, phenomenon, state” can be handled as one item as a subordinate concept for subdividing meaning. This is the same for “things” and can be subdivided by using “things, things, various things and things, their respective phenomena and things, objective objects” as subordinate concepts. .
[0032]
FIG. 8 is a diagram illustrating an example in which the word “organization” is searched from the thesaurus. 80 indicates the highest concept on the thesaurus, and 81, 82, 83, 84, and 85 each have the word “organization” classified into five meanings. It shows the state classified into.
For example, 82 means “create an organization” is included in the superordinate concept “create an organization” and further classified into a superordinate concept “set things”. In the end, it can be seen that the topic slot is classified as “action”. Of course, this superordinate concept has a different concept name for different thesauruses, and naturally the topic slot name is also different.
[0033]
FIG. 7 is a diagram illustrating an output example obtained by analyzing an actual speech waveform using the method according to the present embodiment. The topic information output unit 9 outputs topic information in a format as shown in FIG. Two topics are output, and the first topic is composed of three topic slots (position, subject, thing), and each topic slot has the words Tokyo and subway. The second topic is composed of three topic slots (position, action, subject), and the words hotel and lodging are shown. This coincides with the result of manual verification, and the effect of the present embodiment appears. Of course, this output information is not only displayed on the screen, but can also be displayed in other formats or stored in other output media such as a file.
It should be noted that the speech summarization device of the present invention is not limited to the above-described illustrated examples, and it is needless to say that various changes can be made without departing from the gist of the present invention.
[0034]
The voice summarization apparatus described above can be realized by a program for causing the voice summarization apparatus to function. This program is stored in a computer-readable recording medium. In the present invention, as the recording medium, the main memory itself of the computer that implements the voice summarizing apparatus may be a program medium, or a program reading device such as a CD-ROM driver is provided as an external storage device. It may be a program medium such as a CD-ROM that can be read by being inserted. In either case, the stored program may be configured to be accessed and executed by the CPU, or in any case, the program is read and the read program is not shown in a program storage area. The program may be downloaded and executed by the program. It is assumed that this download program is stored in the main device in advance.
[0035]
Here, the program medium is a recording medium configured to be separable from the main body, such as a tape system such as a magnetic tape or a cassette tape, a magnetic disk such as a floppy disk or a hard disk, a CD-ROM / MO / MD / DVD, or the like. It may be a medium carrying a fixed program including a semiconductor memory such as a disk system of the above optical disk, a card system such as an IC card / optical card, or a mask ROM, EPROM, EEPROM, flash ROM or the like.
[0036]
Furthermore, although not shown in the figure, when a means capable of connection to an external communication network is provided, the program is fluidly supported so that the program is downloaded from the communication network via the communication connection means. It may be a medium. When the program is downloaded from the communication network in this way, the download program may be stored in the main device in advance, or may be installed from another recording medium. The content stored in the recording medium is not limited to a program, and may be data.
[0037]
【The invention's effect】
As described above in detail, according to the present invention, it is possible to divide a plurality of topics included in a speech waveform such as dialogue speech between speakers and present information necessary for estimating the topic content. Thus, it is possible to estimate a plurality of topics included in a speaker's voice such as dialogue voice, and the user can grasp and use the voice content in a short time.
By using the apparatus according to the present invention, it is possible not only to estimate topics included in a speech waveform but also to provide means for automatically assigning a text index to speech and supporting efficient search. .
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an embodiment of a speech summarization apparatus of the present invention.
FIG. 2 is a diagram illustrating an example of an output result in a phoneme piece recognition unit in the present embodiment.
FIG. 3 is a conceptual diagram of important section appearance frequency in the present embodiment.
FIG. 4 is a diagram showing the relationship between acoustic power and the amount of change in the present embodiment.
FIG. 5 is a diagram showing a result of analyzing an actual speech waveform (89 seconds) in the present embodiment.
6 is a diagram showing a result of analyzing an actual speech waveform (same as the speech shown in FIG. 5) in the present embodiment. FIG.
FIG. 7 is a diagram illustrating an output example obtained by analyzing an actual speech waveform in the present embodiment.
FIG. 8 is a diagram showing an example in which the word “organization” is searched from the thesaurus in the present embodiment.
FIG. 9 is a flowchart illustrating an operation of calculating a local distance for extracting an important section in the present embodiment.
FIG. 10 is a flowchart illustrating the topic information generation operation performed by the topic information generation unit in the present embodiment.
FIG. 11 is a block diagram showing a configuration of a conventional speech summarization apparatus.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 Speech input part 2 Feature extraction part 3 Phoneme piece recognition part 4 Important area extraction part 5 Important area index storage part 6 Topic boundary detection part 7 Word recognition part 8 Topic information generation part 9 Topic information output part 10 Speech waveform storage part

Claims (6)

音声中から話者に依存しない可変次元ベクトルの音響特徴量を用いて重要区間を抽出する重要区間抽出部と、類似区間の累積頻度の変化量を用いて話題区間の境界を検出する話題境界検出部と、それぞれの話題区間に含まれる単語をシソーラス又は共起データを用いて意味分類し、意味のクラスの違いに応じた分類である話題スロットを用いて話題を意味分類して話題情報を生成する話題情報生成部と、を備えることを特徴とする音声要約装置。An important section extractor that extracts important sections using acoustic features of variable dimension vectors that do not depend on the speaker, and topic boundary detection that detects the boundaries of topic sections using the amount of change in the cumulative frequency of similar sections And the words included in each topic section are semantically classified using thesaurus or co-occurrence data, and topic information is generated using topic slots that are classified according to differences in meaning classes to generate topic information. A speech summarization apparatus comprising: a topic information generation unit that performs: 前記話題境界検出部は、抽出された話題を反映する複数の重要区間から話題の境界を推定する推定手段を備えることを特徴とする請求項1記載の音声要約装置。  The speech summarization apparatus according to claim 1, wherein the topic boundary detection unit includes an estimation unit that estimates a topic boundary from a plurality of important sections reflecting the extracted topic. 前記話題情報生成部は、共起データを用いて語義の曖昧性解消を行うことを特徴とする請求項記載の音声要約装置。The topic information generation unit, the audio summarizing apparatus according to claim 1, characterized in that the word-sense disambiguation using co-occurrence data. 前記話題情報生成部は、共起データを用いて語義の曖昧性解消を行う際、共起する関係の順序を考慮せず、組合せのみを考慮することを特徴とする請求項記載の音声要約装置。4. The speech summary according to claim 3, wherein the topic information generation unit considers only the combination without considering the order of the co-occurring relations when solving the ambiguity of the meaning using the co-occurrence data. apparatus. 前記話題情報生成部は、共起データを用いて語義の曖昧性解消を行う際、共起する単語見出し及び意味情報を利用することを特徴とする請求項記載の音声要約装置。4. The speech summarization apparatus according to claim 3, wherein the topic information generation unit uses co-occurrence word headings and semantic information when solving the ambiguity of meaning using co-occurrence data. コンピュータを、音声中から話者に依存しない可変次元ベクトルの音響特徴量を用いて重要区間を抽出する重要区間抽出部と、類似区間の累積頻度の変化量を用いて話題区間の境界を検出する話題境界検出部と、それぞれの話題区間に含まれる単語をシソーラス又は共起データを用いて意味分類し、意味のクラスの違いに応じた分類である話題スロットを用いて話題を意味分類して話題情報を生成する話題情報生成部、として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。An important section extraction unit that extracts an important section by using acoustic features of a variable dimension vector that does not depend on a speaker from speech, and a boundary of a topic section by using an amount of change in cumulative frequency of similar sections The topic boundary detection unit and the words included in each topic section are semantically classified using thesaurus or co-occurrence data, and the topics are semantically classified using topic slots that are classified according to the difference in semantic classes. A computer-readable recording medium having recorded thereon a program for functioning as a topic information generating unit that generates information.
JP09270599A 1999-03-31 1999-03-31 Voice summarization apparatus and recording medium recording voice summarization program Expired - Fee Related JP4344418B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09270599A JP4344418B2 (en) 1999-03-31 1999-03-31 Voice summarization apparatus and recording medium recording voice summarization program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09270599A JP4344418B2 (en) 1999-03-31 1999-03-31 Voice summarization apparatus and recording medium recording voice summarization program

Publications (2)

Publication Number Publication Date
JP2000284793A JP2000284793A (en) 2000-10-13
JP4344418B2 true JP4344418B2 (en) 2009-10-14

Family

ID=14061912

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09270599A Expired - Fee Related JP4344418B2 (en) 1999-03-31 1999-03-31 Voice summarization apparatus and recording medium recording voice summarization program

Country Status (1)

Country Link
JP (1) JP4344418B2 (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366166A (en) * 2001-06-11 2002-12-20 Pioneer Electronic Corp System and method for providing contents and computer program for the same
US7401077B2 (en) * 2004-12-21 2008-07-15 Palo Alto Research Center Incorporated Systems and methods for using and constructing user-interest sensitive indicators of search results
JPWO2007043679A1 (en) * 2005-10-14 2009-04-23 シャープ株式会社 Information processing apparatus and program
JP4872871B2 (en) 2007-09-27 2012-02-08 ソニー株式会社 Sound source direction detecting device, sound source direction detecting method, and sound source direction detecting camera
JP5347808B2 (en) * 2009-07-30 2013-11-20 カシオ計算機株式会社 Similar voice list generation apparatus, similar voice list generation method, and similar voice list generation program
JP5392780B2 (en) * 2010-02-23 2014-01-22 独立行政法人産業技術総合研究所 Content structured processing method, content structured processing apparatus, and content structured processing program
JP5912729B2 (en) * 2012-03-23 2016-04-27 株式会社ドワンゴ Speech recognition apparatus, speech recognition program, and speech recognition method
JP6223739B2 (en) * 2013-07-24 2017-11-01 株式会社Nttドコモ Function execution instruction system and function execution instruction method
KR101537370B1 (en) 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 System for grasping speech meaning of recording audio data based on keyword spotting, and indexing method and method thereof using the system
US10079013B2 (en) * 2013-11-27 2018-09-18 Sri International Sharing intents to provide virtual assistance in a multi-person dialog
JP7344612B1 (en) * 2023-04-20 2023-09-14 amptalk株式会社 Programs, conversation summarization devices, and conversation summarization methods

Also Published As

Publication number Publication date
JP2000284793A (en) 2000-10-13

Similar Documents

Publication Publication Date Title
Wu et al. Emotion recognition of affective speech based on multiple classifiers using acoustic-prosodic information and semantic labels
JP4600828B2 (en) Document association apparatus and document association method
JP6066354B2 (en) Method and apparatus for reliability calculation
US20040143434A1 (en) Audio-Assisted segmentation and browsing of news videos
CN104598644B (en) Favorite label mining method and device
CN107305541A (en) Speech recognition text segmentation method and device
WO2011160741A1 (en) A method for indexing multimedia information
EP0966717A2 (en) Multimedia computer system with story segmentation capability and operating program therefor
JP4344418B2 (en) Voice summarization apparatus and recording medium recording voice summarization program
CN109033060B (en) Information alignment method, device, equipment and readable storage medium
US11501546B2 (en) Media management system for video data processing and adaptation data generation
JP2013029690A (en) Speaker classification device, speaker classification method and speaker classification program
CN114141252A (en) Voiceprint recognition method and device, electronic equipment and storage medium
JP2000235585A (en) Method/system for cross index of text and sound based on topic
Chen et al. Metadata for mixed-media access
AlMousa et al. Nlp-enriched automatic video segmentation
JP3444831B2 (en) Editing processing device and storage medium storing editing processing program
Veiga et al. Towards automatic classification of speech styles
Veiga et al. Prosodic and phonetic features for speaking styles classification and detection
Abburi et al. Improved multimodal sentiment detection using stressed regions of audio
JP2015200913A (en) Speaker classification device, speaker classification method and speaker classification program
JP4175093B2 (en) Topic boundary determination method and apparatus, and topic boundary determination program
WO2022084851A1 (en) Embedded dictation detection
Jingzhou et al. Audio segmentation and classification approach based on adaptive CNN in broadcast domain
Roy Speaker indexing using neural network clustering of vowel spectra

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090707

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090713

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120717

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120717

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130717

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees