JP5296598B2 - 音声情報抽出装置 - Google Patents
音声情報抽出装置 Download PDFInfo
- Publication number
- JP5296598B2 JP5296598B2 JP2009111587A JP2009111587A JP5296598B2 JP 5296598 B2 JP5296598 B2 JP 5296598B2 JP 2009111587 A JP2009111587 A JP 2009111587A JP 2009111587 A JP2009111587 A JP 2009111587A JP 5296598 B2 JP5296598 B2 JP 5296598B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- search
- audio
- video
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 49
- 238000003860 storage Methods 0.000 claims abstract description 86
- 238000012545 processing Methods 0.000 claims abstract description 37
- 230000010354 integration Effects 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 82
- 230000008569 process Effects 0.000 claims description 58
- 230000006835 compression Effects 0.000 claims description 54
- 238000007906 compression Methods 0.000 claims description 54
- 238000013500 data storage Methods 0.000 claims description 27
- 239000000284 extract Substances 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000000877 morphologic effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000017105 transposition Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
非特許文献1に記載されている方法は、ラティスを集約する際に、発話時刻の重なりと、単語表記の発音の類似性を調べる。例えば「リンカーン」と「印鑑(いんかん)」は発音が類似しているといったことを調べる。これにより、単語仮説(正解候補)の対立関係を求めることができる。
また、非特許文献2に記載されている方法は、ラティスを圧縮する際に、予め圧縮ラティスの元になるグラフ(最尤系列)をラティスから選んでおく。そして、その後、ラティスを巡回する順番を変えながら、圧縮ラティスにノード、エッジを追加していく。
また、従来技術では、外部から取得した情報と番組等の音声そのものとの関係が利用者にわかりにくい。
また、テレビやラジオなどの放送などにおける言語表現の変化により、音声認識の精度が落ちることも考えられる。
また、非特許文献2に記載されているラティスデータ処理方法では、非特許文献1に記載されている手法よりは高速にラティスを圧縮することが可能だが、単語仮説のクラスタリングを行わないため、圧縮率が低いという問題がある。つまり、発音の類似性の比較を行わないので、圧縮ラティスの精度が悪いという問題がある。
ここで、映像および音声とは、それぞれ映像および音声を表わす電気的な信号あるいはデータである。これらはコンピュータ等によって処理可能である。
また、発話時刻とは、番組ID(放送チャンネルと番組名から定める一意の数値などの識別情報)と発話開始時刻との組み合わせによって表わされる情報である。この発話開始時刻は、番組開始時からの相対時刻や、現実の日時(例えば日本標準時)で表わされる。
また、音声情報とは、音声に関する情報であり、その詳細は後述する。
この構成により、話題を抽出するとともに、音声認識結果において話題境界を特定することができる。
これにより、最新の放送の内容に基づいて言語モデルを更新することができ、音声認識の認識率の向上につながる。
これにより、音声認識結果のラティスを圧縮し、音声認識結果ラティスのために必要な記憶容量を削減することができる。
(1)ラティス上のエッジについて、発話開始時刻・発話終了時刻がオーバーラップするエッジのうち、同一の表記を持つエッジをクラスタリングする(つまり、エッジの始端と終端を事後確率の大きなもので代表させ、事後確率の和を大きな方(代表させたほう)に与える)。
(2)ラティス上のエッジについて,オーバーラップするエッジをクラスタリングする(つまり、同一の始端ノードおよび終端ノードを持つようにする)。
(3)ラティス上のエッジについて、トポロジカルな順番でノードを訪問し、リンクをマージしていく。
図1は、同実施形態による音声情報抽出装置の機能構成を示すブロック図である。図示するように、音声情報抽出装置50は、映像・音声収録部1と、番組情報収集部2と、テキスト収集部3と、話者データ記憶部4と、話者識別部5と、音声認識部6と、音響モデル記憶部7と、言語モデル記憶部8と、言語モデル学習部9と、テキストデータ記憶部10と、単語辞書記憶部11と、ラティス展開・圧縮部12(ラティス圧縮部)と、音声情報統合部13と、話題抽出部14と、検索用転置インデックス作成部15(検索用インデックス作成部)と、音声情報記憶部16と、検索用転置インデックス記憶部17と、映像音声記憶部18と、検索サーバ部19と、検索クライアント部20とを含んで構成される。
図示するように、この画面は、大きく3つの要素で構成されている。その第1は、音声情報が付与された番組一覧を表示するためのウィンドウ(符号113)である。そして、第2は、前記の番組一覧から選択された番組の映像・音声を表示するためのウィンドウ(符号111)である。そして、その第3は、音声認識結果(発話内容)を表示するウィンドウ(符号112)である。
具体的には、符号108は、映像・音声の再生/停止ボタンである。映像・音声が停止されている状態のときにこのボタン108がクリックされると、検索クライアント部20は映像・音声の再生を開始する。また、映像・音声が再生されている状態のときにこのボタン108がクリックされると、検索クライアント部20は映像・音声の再生を停止させる。
また、符号107は再生位置を現再生位置から開始位置方向に30秒戻すためのボタンであり、符号106は再生位置を現再生位置から開始位置方向に10分戻すためのボタンであり、符号109は再生位置を現再生位置から終了位置方向に30秒進めるためのボタンであり、符号110は再生位置を現再生位置から終了位置方向に10分進めるためのボタンである。利用者がこれらのボタン106〜110のいずれかをクリックすると、検索クライアント部20は、それぞれのボタンに従って映像・音声の再生位置を変更する制御を行なう。
また、符号105は、再生位置を開始位置から終了位置までの間の任意の位置に移動させるためのスライダーであり、利用者がこのスライダー105を移動させる操作を行なうと、検索クライアント部20は、スライダー105の移動先の位置に応じた箇所に、映像・音声の再生位置を変更する制御を行なう。
なお、検索クライアント部20は、表示エリア122と表示エリア123を一組として、当該番組内で上記検索語にマッチした発話の出現数分の組の表示を行なう。
また、検索結果として複数の番組がマッチした場合には、検索クライアント部20は、それらそれぞれの番組についての表示を行なう。
なお、同図に示す表示においても、表示される番組タイトルは、元々番組情報収集部2が取得したデータに基づくものであり、デジタル動画データファイルの中にメタデータとして含まれているものである。また、表示されるサムネイル画像は、デジタル動画データファイルから適宜抽出された静止画像である。
図5は、テキスト収集部3および言語モデル学習部9による処理の手順を示すフローチャートである。
ステップS201において、テキスト収集部3は、所定の時間間隔でデータソースチェックを行なう。つまり、テキスト収集部3は、例えば放送局のウェブサイトのサーバなどといった外部のコンピュータにアクセスし、前回アクセス時のウェブサイトのデータと比較することによって、今回そこから新規のニュース原稿や話題のテキストデータが得られるか否かをチェックする。そして、新規のデータが得られた場合(ステップS201:YES)には次のステップS202に進み、得られなかった場合(ステップS201:NO)にはステップS201に戻ってさらに前記所定時間経過後にデータソースチェックの処理を繰り返す。
この処理においては、話題抽出部14は、ウェブサイトから得られたニュース原稿等のテキストデータの冒頭m単語と、音声認識部6から取得した発話内容における発話開始からのm単語とを比較し、両者間の類似度を計算することによって音声認識結果がどのテキストデータと一致するものであるかを判定する。なお、mは正整数である。
なお、話題抽出部14による処理を行なうに当たり、音声認識部6は、音声認識結果に対して1から始まる一連の番号を予め付与する。また、テキスト収集部3がウェブサイトから収集したテキストのうちの最新のK個(Kは正整数)のファイルを話題抽出部14による処理の対象とし、これらK個のファイルにも1から始まる一連の番号が付与されている。
ステップS301において、話題抽出部14は、音声認識部6から音声認識結果(発話内容)を取得する。ここで取得する音声認識結果は、事後確率による最尤単語列である。
次に、ステップS302において、話題抽出部14は、変数nを1に設定(初期化)する。
そして、ステップS303において、話題抽出部14は、第n発話の冒頭m単語取り出す。
ステップS304において、話題抽出部14は、テキストデータ記憶部10から読み出した第k番目(k=1,2,・・・,K)のテキストデータの冒頭m単語と、ステップS303において取り出したm単語との間の類似度を計算する。第n発話の冒頭m単語と第k番目のテキストデータの冒頭m単語との間の類似度は、例えば次のように定義される。即ち、その類似度は、k番目のテキストデータのm単語に含まれる単語3つ組(単語組)が、第n発話のm単語に含まれる数とする。
ステップS305において、話題抽出部14は、算出された類似度が閾値以上か否かを判定する。なお、この閾値は、予め適切に定められ設定されている。そして、類似度がこの閾値以上の場合(ステップS305:YES)はステップS307に進む。そして、類似度がこの閾値未満の場合(ステップS305:NO)はステップS306に進む。
ステップS306において、話題抽出部14は、変数nをインクリメントする(n←n+1)。ステップS306の処理を終えると、ステップS303の処理に戻る。
ステップS307においては、話題抽出部14は、この第n番目の発話を、第k番目の話題の開始点とする。即ち、話題抽出部14は、音声認識結果のデータに話題境界情報を付与する。これにより、音声認識結果を話題境界にて分割することが可能になるとともに、分割された結果に対して話題を関連付けて記憶させることができる。
以上述べたステップS301からS307までの一連の処理を、話題抽出部14は、第1番目から第K番目までの各々のテキストデータに対して行なう。
音声認識部6は、音声認識結果を表わすラティス構造(有向非巡回グラフ)のデータを出力する。このデータは、音声認識結果の単語をエッジとし、開始点、中間点、終了点のいずれかをノードとする有向グラフである。開始点と終了点のノードは1つずつ存在し、中間点のノードは通常は複数存在する。これらのノードは、それぞれ所定の時刻に対応している。つまり、ノードAを始端としてノードBを終端とするエッジが存在するとき、ノードAの時刻が当該エッジに対応する単語の始端時刻であり、ノードBの時刻が当該エッジに対応する単語の終端時刻である。すべてのノードは連結されており、開始点のノードからはエッジをたどって全ての中間点のノードに到達可能であり、任意の中間点のノードからはエッジをたどって終了点のノードに到達可能である。音声認識部6による出力は確率を伴う音声認識結果の仮説であり、開始点と終了点との間において並列する経路(つまり時刻的に重なりを有する複数の経路)は互いに対立する仮説に対応するものである。
なお、本実施形態では、このようなラティス構造を、ノードおよびエッジをそれぞれエンティティとするリレーショナルデータで表現し、各処理部間での受け渡しを行なう。
また、このラティスは、隣り合う2つの単語を結合するバイグラム(bigram)言語モデルに基づくものである。
まず、図7のステップS401において、ラティス展開・圧縮部12は、音声認識部6から上記のラティス構造の音声認識結果データを取得する。
次に、ステップS402において、ラティス展開・圧縮部12は、上で取得したラティスを、連続する3つの単語を結合するトライグラム(trigram)言語モデルに基づくラティスに展開する。この展開処理自体は前述の従来技術を利用する。
即ち、ラティス展開・圧縮部12は、ステップS404において、エッジ集合E{e1,e2,e3,e4,・・・}から、この集合要素を事後確率の降順に並べ替えたリスト{e’1,e’2,e’3,e’4,・・・,e’m,・・・}を生成する。
そして、ラティス展開・圧縮部12は、ステップS405において、クラスタリングのための変数nを1に初期化する。
次のステップS406からS409までは、上記リストの要素を順次走査する処理である。
ラティス展開・圧縮部12は、上記リストのn番目のエッジe’nを取り出したとき、発話時刻の重なりが予め定められた所定の閾値よりも大きく、且つエッジ上の単語表記が同一となる巡回済み(走査済み)のm番目のエッジe’m(n>m)があれば(ステップS406:YES)、ステップS407において、エッジe’nをエッジ集合Eから取り除くとともに、エッジe’mの事後確率にエッジe’nの事後確率を加える。なお、ステップS407における判定結果が否定的である場合には、ステップS407をスキップして次のステップS408に進む。
そして、ラティス展開・圧縮部12は、次のステップS408において、クラスタリングのための変数nをインクリメントする(n←n+1)。
そして、ステップS409において、ラティス展開・圧縮部12は、エッジクラスタリングが全て終了したか否かを判定する。そして、全て終了していない場合(ステップS409:NO)には、残りのエッジ集合について同様の処理を行なうためにステップS406に戻る。全て終了していた場合(ステップS409:YES)には、次のステップS410に進む。
まずステップS410において,上記のエッジ集合Eの要素を事後確率の降順に並べかえたエッジリストを生成する。
そして、ラティス展開・圧縮部12は、ステップS411において、集約のための変数nを1に初期化する。
ステップS413に進んだ場合、ラティス展開・圧縮部12は、e’nをエッジ集合Eから取り除くとともに、ステップS416に進む。
ステップS414に進んだ場合、S414において、ラティス展開・圧縮部12は、エッジe’nに対し発話時刻の重なりが所定の閾値以上となるエッジe’m(但し、n>m)を探索する。
そのようなe’mが存在すれば(ステップS414:YES)、次のステップS415において、ラティス展開・圧縮部12は、エッジe’mの始終端ノードをエッジe’nの始終端ノードに変更する。
ステップS414における判定結果が否定的であった場合は、ステップS415の処理をスキップして、次のS416に進む。
ステップS416においては、変数nをインクリメントする(n←n+1)。
そして、ステップS417において、ラティス展開・圧縮部12は、集約処理がすべて完了したか否かを判定する。エッジ集合中で昇順に全てのエッジについて上のステップS415の処理を終えている場合(ステップS417:YES)には次のステップS418の処理に進み、まだ残っているエッジがある場合(ステップS417:NO)にはステップS412に戻って次のエッジについての処理を行なう。
まずステップS418において、ラティス展開・圧縮部12は、ラティスのノード集合をトポロジカルオーダーで並べかえたリストを得る。
そしてステップS419において、マージのための変数kを1に初期化する。
そしてステップS420において、ラティス展開・圧縮部12は、ノードvkを始点とするエッジのリストをエッジ集合Eから生成する。
そしてステップS421において、変数l(エル)を1に初期化する。
そしてステップS422において、ラティス展開・圧縮部12は、エッジリストのl(エル)番目のエッジelについて、発話時刻の重なりが最大となる圧縮ラティスのエッジfhを探索する。
そしてステップS423においてこのfhが訪問済みであるか否かを判定する。訪問済みであれば(ステップS423:YES)次のステップS424に進み、未訪問の場合(ステップS423:NO)はステップS425に進む。
ステップS424に進んだ場合、ラティス展開・圧縮部12は、fhの終端ノードを2つに分け、新たなノードfを圧縮ラティス上に作成し、エッジelの単語表記と事後確率をコピーする。そしてステップS426に進む。
ステップS425に進んだ場合、fhの始端・終端を結ぶ新たなエッジfを生成して、エッジelの単語表記と事後確率をコピーする。なお、この際、fhは訪問済みとする。そしてステップS426に進む。
ステップS426においては、変数l(エル)をインクリメントする(l←l+1)。
ステップS427ではエッジリスト終了判定を行い、終了している場合(ステップS427:YES)にはステップS428に進み、未終了の場合(ステップS427:NO)にはステップS422に戻る。
また、ステップS428においても別の終了判定を行い、終了している場合(ステップS428:YES)にはこのフローチャート全体の処理を終了し、未終了の場合(ステップS428:NO)にはステップS429に進む。
ステップS429においては、変数kをインクリメントし(k←k+1)、ステップS420に戻る。
つまり、ラティス展開・圧縮部12は、ステップS422からS425までの操作を、エッジ集合Eのすべてのエッジについて行い、圧縮ラティスを得る。
(1)ラティス上のエッジについて、発話開始時刻・発話終了時刻がオーバーラップするエッジのうち、同一の表記を持つエッジをクラスタリングする(つまり、エッジの始端と終端を事後確率の大きなもので代表させ、事後確率の和を大きな方(代表させたほう)に与える)。
(2)ラティス上のエッジについて,オーバーラップするエッジをクラスタリングする(つまり、同一の始端ノードおよび終端ノードを持つようにする)。
(3)ラティス上のエッジについて、トポロジカルな順番でノードを訪問し、リンクをマージしていく。
これにより、従来技術による方法よりも高速に、且つ高圧縮率で、音声認識結果のラティスデータを圧縮することができる。
なお、これによって得られた圧縮ラティスに関して、隣接するノード間を結ぶエッジの事後確率の総和が1を超える場合には、それらのエッジの各々の事後確率を前記事後確率の総和で割る処理を行なう。逆に、隣接するノード間を結ぶエッジの事後確率の総和が1に満たない場合には、それらノード間に空の単語表記を持つ新たなエッジを生成し、エッジの事後確率の総和が1になるように、新たに生成されたエッジの事後確率値を設定する。ここで、新たに生成されたエッジの事後確率値は、1−(他のエッジの事後確率の総和)である。
まずステップS501において、検索用転置インデックス作成部15は、ラティス展開・圧縮部12から、コンパクトに圧縮された1発話分のラティスのデータを取得する。以下のステップにおいては、このラティスに含まれる各エッジについての処理を行なう。
次に、ステップS502において、検索用転置インデックス作成部15は、現エッジに単語表記が割り当てられているか否かを判定する。割り当てられている場合(ステップS502:YES)には次のステップS503に進み、割り当てられていない場合(ステップS502:NO)にはステップS504に飛ぶ。
そしてステップS503において、検索用転置インデックス作成部15は、現エッジに割り当てられている単語表記に基づいて、検索用転置インデックス記憶部17に1レコードを追加する形で更新を行なう。
また特に、同装置の機能を、単数又は複数のストアドプログラム方式のコンピュータで実現することが好適である。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
前記の実施形態の動作を検証するため、実際にシステムを構築した。その概要を以下に記載する。
映像・音声収録部1は、テレビチューナーから映像および音声の信号を取得できる構成とし、予め設定した日時に設定されたチャンネルの放送を実際に受信して取り込むようにした。日時およびチャンネルの設定は、NHK(日本放送協会)のウェブサイトにある放送番組表や放送波に重畳されたEPGに基づいて自動的に行われる。一方で、利用者インタフェースを通して画面から行なえるようにもした。また、随時、利用者からのボタン操作により、映像および音声の取得の開始/終了を行なうとともに、チャンネル設定を変更できるようにした。
テキスト収集部3は、インターネットを介してNHKのウェブサイトから放送番組に関するテキスト情報を取得できるようにした。
音声情報抽出装置50を構成する各機能は、コンピュータ用のプログラムを記述し、LANで連携する複数台のコンピュータ上でそれらのプログラムを実行させることによって実現した。
また、検索クライアント部20においては、検索結果が前述の方法で表示され、そこから利用者が選んだ映像および音声を再生表示させるようにした。
また、番組に出演するアナウンサー等のそれぞれの音響的特徴を話者データ記憶部4に予め記憶させておいたことにより、話者識別を高精度で行ない、音声認識結果のテキストとともに話者名を表示させることができた。
また、本発明を利用することにより、抽出された音声情報をメタデータ制作システムに提供し、放送サービスを行なうことが可能となる。
また、本発明を利用することにより、音声認識装置で用いる統計的音響モデルおよび統計的言語モデルを構築するために、音声データおよび関連するテキストデータを効率的に収集することが可能となる。
2 番組情報収集部
3 テキスト収集部
4 話者データ記憶部
5 話者識別部
6 音声認識部
7 音響モデル記憶部
8 言語モデル記憶部
9 言語モデル学習部
10 テキストデータ記憶部
11 単語辞書記憶部
12 ラティス展開・圧縮部(ラティス圧縮部)
13 音声情報統合部
14 話題抽出部
15 検索用転置インデックス作成部(検索用インデックス作成部)
16 音声情報記憶部
17 検索用転置インデックス記憶部(検索用インデックス記憶部)
18 映像音声記憶部
19 検索サーバ部
20 検索クライアント部
50 音声情報抽出装置
Claims (5)
- 映像および音声を記憶する映像音声記憶部と、
単語と、音声における発話時刻との対応関係を含んでなる検索用インデックスを記憶する検索用インデックス記憶部と
発話時刻と、単語の列である発話内容と、話題と、話者名または話者属性の少なくともいずれかと、を関連付けてなる音声情報を記憶する音声情報記憶部と
音声の音響的特徴を統計的に表わした音響モデルを記憶する音響モデル記憶部と、
単語の出現頻度を統計的に表わした言語モデルを記憶する言語モデル記憶部と、
話者毎または話者属性毎の音響的特徴を統計的に表した話者データを予め記憶する話者データ記憶部と、
映像および音声を外部から取得して前記映像音声記憶部に書き込む映像音声収録部と、
前記音響モデル記憶部から読み出した前記音響モデルと前記言語モデル記憶部から読み出した前記言語モデルとを用いて、前記映像音声収録部が取得した前記音声の音声認識処理を行ない、音声認識結果を出力する音声認識部と、
前記話者データ記憶部から読み出した前記話者データを用いて、前記映像音声収録部が取得した前記音声に対応する話者名または話者属性を算出して出力する話者識別部と、
前記映像音声収録部が取得した前記映像および前記音声に関連するテキストデータを外部から取得するテキストデータ取得部と、
前記テキストデータ取得部が取得した前記テキストデータと前記音声認識部により出力された前記音声認識結果とを比較することにより話題を抽出する話題抽出部と、
前記音声認識結果と、前記話題と、前記話者名または前記話者属性の少なくともいずれか、を統合してなる音声情報を前記音声情報記憶部に書き込む音声情報統合部と、
前記音声認識結果に基づき前記検索用インデックスのデータを作成して前記検索用インデックス記憶部に書き込む検索用インデックス作成部と、
検索語による検索要求に基づき前記検索用インデックス記憶部および前記音声情報記憶部を検索し、前記検索語に該当する前記映像および前記音声に関連付けられた前記音声情報を前記音声情報記憶部から読み出して検索元に対して検索結果として提示するとともに、前記映像音声記憶部に記憶されている当該映像および当該音声を再生可能とする検索サーバ部と、
を具備することを特徴とする音声情報抽出装置。 - 前記話題抽出部は、前記テキストデータに含まれる所定数の単語組が前記音声認識結果の所定数の単語中に含まれる数により類似度を算出し、この類似度に基づいて前記テキストデータと前記音声認識結果との間の対応付けを行なうことによって、前記テキストデータから前記話題を抽出する、
ことを特徴とする請求項1に記載の音声情報抽出装置。 - 前記テキストデータ取得部が取得した前記テキストデータの中における単語の出現頻度を算出することによって前記言語モデル記憶部に記憶されている前記言語モデルを更新する言語モデル学習部を更に具備することを特徴とする請求項1または2に記載の音声情報抽出装置。
- 前記音声認識部が前記音声認識結果として出力する単語仮説の有向非巡回グラフを表わすラティスデータを圧縮する処理を行なうラティス圧縮部を更に具備し、
前記検索用インデックス作成部は、前記ラティス圧縮部によって圧縮された前記ラティスデータに基づいて前記検索用インデックスを作成する、
ことを特徴とする請求項1から3までのいずれか一項に記載の音声情報抽出装置。 - 利用者からの入力に基づく検索語を用いて前記検索サーバ部に対して前記検索要求を送信し、前記検索サーバ部からの前記検索結果を画面に表示し、更に利用者からの操作に基づいて、該当する前記映像および前記音声を再生する検索クライアント部を更に具備することを特徴とする請求項1から4までのいずれか一項に記載の音声情報抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009111587A JP5296598B2 (ja) | 2009-04-30 | 2009-04-30 | 音声情報抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009111587A JP5296598B2 (ja) | 2009-04-30 | 2009-04-30 | 音声情報抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010262413A JP2010262413A (ja) | 2010-11-18 |
JP5296598B2 true JP5296598B2 (ja) | 2013-09-25 |
Family
ID=43360435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009111587A Active JP5296598B2 (ja) | 2009-04-30 | 2009-04-30 | 音声情報抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5296598B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5723711B2 (ja) * | 2011-07-28 | 2015-05-27 | 日本放送協会 | 音声認識装置および音声認識プログラム |
US20140373082A1 (en) * | 2012-02-03 | 2014-12-18 | Sharp Kabushiki Kaisha | Output system, control method of output system, control program, and recording medium |
JP6400936B2 (ja) * | 2014-04-21 | 2018-10-03 | シノイースト・コンセプト・リミテッド | 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム |
CN104639869B (zh) * | 2014-12-09 | 2018-04-20 | 广东威创视讯科技股份有限公司 | 视频会议联想提示的方法与*** |
JP6721981B2 (ja) * | 2015-12-17 | 2020-07-15 | ソースネクスト株式会社 | 音声再生装置、音声再生方法及びプログラム |
JP6680009B2 (ja) * | 2016-03-15 | 2020-04-15 | カシオ計算機株式会社 | 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム |
JP7137825B2 (ja) * | 2018-06-04 | 2022-09-15 | Jcc株式会社 | 映像情報提供システム |
CN111107437A (zh) * | 2019-12-27 | 2020-05-05 | 深圳Tcl新技术有限公司 | 影视观后感的互动方法、***、显示终端及可读存储介质 |
CN114880496A (zh) * | 2022-04-28 | 2022-08-09 | 国家计算机网络与信息安全管理中心 | 多媒体信息话题分析方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1016985A3 (en) * | 1998-12-30 | 2004-04-14 | Xerox Corporation | Method and system for topic based cross indexing of text and audio |
US6345252B1 (en) * | 1999-04-09 | 2002-02-05 | International Business Machines Corporation | Methods and apparatus for retrieving audio information using content and speaker information |
-
2009
- 2009-04-30 JP JP2009111587A patent/JP5296598B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010262413A (ja) | 2010-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5296598B2 (ja) | 音声情報抽出装置 | |
CN111968649B (zh) | 一种字幕纠正方法、字幕显示方法、装置、设备及介质 | |
US11197036B2 (en) | Multimedia stream analysis and retrieval | |
KR101255405B1 (ko) | 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체 | |
JP6820058B2 (ja) | 音声認識方法、装置、デバイス、及び記憶媒体 | |
CN101382937B (zh) | 基于语音识别的多媒体资源处理方法及其在线教学*** | |
CN101202864B (zh) | 动画再现装置 | |
US6873993B2 (en) | Indexing method and apparatus | |
JP5142769B2 (ja) | 音声データ検索システム及び音声データの検索方法 | |
KR20090130028A (ko) | 분산 음성 검색을 위한 방법 및 장치 | |
US20100169095A1 (en) | Data processing apparatus, data processing method, and program | |
KR20120038000A (ko) | 대화의 주제를 결정하고 관련 콘텐트를 획득 및 제시하는 방법 및 시스템 | |
KR20090111825A (ko) | 언어 독립적인 음성 인덱싱 및 검색 방법 및 장치 | |
CN103730115A (zh) | 一种语音中检测关键词的方法和装置 | |
JP2010161722A (ja) | データ処理装置、データ処理方法、及び、プログラム | |
Akbacak et al. | Open-vocabulary spoken term detection using graphone-based hybrid recognition systems | |
JP2015212731A (ja) | 音響イベント認識装置、及びプログラム | |
JP4100243B2 (ja) | 映像情報を用いた音声認識装置及び方法 | |
Lebourdais et al. | Overlaps and gender analysis in the context of broadcast media | |
KR20060100646A (ko) | 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템 | |
Choi et al. | Pansori: ASR corpus generation from open online video contents | |
JP5231130B2 (ja) | キーフレーズ抽出装置、シーン分割装置およびプログラム | |
CN114514528A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
JP2006338550A (ja) | メタデータ作成装置及びメタデータ作成方法 | |
JP7352491B2 (ja) | ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130613 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5296598 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |