JP4175093B2 - トピック境界決定方法及び装置及びトピック境界決定プログラム - Google Patents

トピック境界決定方法及び装置及びトピック境界決定プログラム Download PDF

Info

Publication number
JP4175093B2
JP4175093B2 JP2002323090A JP2002323090A JP4175093B2 JP 4175093 B2 JP4175093 B2 JP 4175093B2 JP 2002323090 A JP2002323090 A JP 2002323090A JP 2002323090 A JP2002323090 A JP 2002323090A JP 4175093 B2 JP4175093 B2 JP 4175093B2
Authority
JP
Japan
Prior art keywords
word
boundary
words
window
nbest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002323090A
Other languages
English (en)
Other versions
JP2004157337A (ja
Inventor
克人 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002323090A priority Critical patent/JP4175093B2/ja
Publication of JP2004157337A publication Critical patent/JP2004157337A/ja
Application granted granted Critical
Publication of JP4175093B2 publication Critical patent/JP4175093B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、トピック境界決定方法及び装置及びトピック境界決定プログラムに係り、特に、映像コンテンツや音声コンテンツをトピック単位に分割するためのトピック境界決定方法及び装置及びトピック境界決定プログラムに関する。
【0002】
【従来の技術】
従来技術として、テキストをトピック単位に分割するHearst法がある(例えば、非特許文献1、2参照)。Hearst法では、テキストを単語に分割し、不要語を除去した後、各単語境界の前後に一定の単語数の単語列の窓をとり、各窓毎に、窓に含まれる単語の出現頻度ベクトルをとり、前後の窓に対応するベクトル間の余弦測度を当該単語境界の結束度として計算する。結束度が極小となる単語境界あるいは、その直近の文境界をトピック境界と認定する。
【0003】
また、単語毎に当該単語を検索キーとして、単語とその意味表現であるベクトルの対の集合が格納された概念ベースを検索して、当該単語に対応するベクトルを取得し、窓に対応するベクトルとして、窓に含まれる単語のベクトルの重心をとっている方法が提案されている。
【0004】
【非特許文献1】
Hearst, M.A.:Multi-Paragraph Segmentation of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp.9-16(1994).
【非特許文献2】
Hearst, M.A.:TextTilling: Segmenting Text into Multi-paragraph Subtopic Passages, Computational Linguistics, Vol.23, No.1, pp33-64 (1997).
【0005】
【発明が解決しようとする課題】
しかしながら、セグメント対象として映像コンテンツや音声コンテンツ中の音声を音声認識により認識したテキストをとった場合、認識誤りの単語を含んでいるため、上記従来技術では、結束度が適切に計算されないという第1の問題がある。
【0006】
また、音声セグメントはポーズで区切られたものであり、文の途中で別々の音声セグメントに区切られていることも多い。従来技術では、トピック境界と認定した音声セグメント境界が文の中途になることもあり、セグメンテーションの精度が低下するという第2の問題がある。
【0007】
また、映像コンテンツでは、テロップを音声の補助的情報として用いることも多く、中には、テロップがトピックの見出しのような役割を果している場合もある。映像コンテンツでは、音声とテロップとを合わせて必要十分な情報量になっていることも多く、音声のみのセグメンテーションでは十分な精度が得られないという第3の問題がある。
【0008】
本発明は、上記の点に鑑みなされたもので、音声認識結果から意味上の境界を正しくかつ精度よく検出することが可能なトピック境界決定方法及び装置及びトピック境界決定プログラムを提供することを目的とする。
【0009】
【課題を解決するための手段】
図1は、本発明の原理を説明するための図である。
【0010】
本発明(請求項1)は、映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定方法において、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト(以下、NBEST候補と記す)、該NBEST候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各セグメントに対して複数のNBEST候補を採用し、各音声セグメント毎に、採用した複数のNBEST候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列過程(ステップ1)と、
ソートされた単語列から付属語を含む不要語を削除する不要語削除過程(ステップ2)と、
一定の単語数Mの単語列中の単語の範囲を窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のM個の単語による窓と、その単語境界の直後のM個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出過程(ステップ3)と、
結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定過程(ステップ4)からなる。
【0011】
このように、NBEST候補を複数とることに応じて、結束度計算の窓幅はより長くとる。複数のNBEST候補において、認識の信頼性の高い単語はより多くのNBEST候補に出現すると考えられる。従って、窓における出現回数もより多くなるので、窓の意味を表すベクトルは、信頼性の高い単語の影響が大きく、逆に信頼性の低い単語の影響は少なくなる。よって、窓の意味を表すベクトル及び結束度は、従来の技術に比べより適切なものとなる。
【0012】
また、本発明(請求項2)は、映像コンテンツや音声コンテンツに含まれる音声を音声認識した結果得られたデータをトピック単位に分割するためのトピック境界決定方法において、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト(以下、NBEST候補と記す)、該NBEST候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各音声セグメントに対して1以上のNBEST候補を採用し、各音声セグメント毎に、採用した1以上のNBEST候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列過程と、
ソートされた単語列から付属語を含む不要語を削除する不要語削除過程と、
一定の単語数Mの単語列中の単語の範囲の窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のM個の単語に含まれる窓と、その単語境界の直後のM個の単語による窓を指定し、各窓毎に、該窓に含まる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の該窓に対応するベクトル間の、余弦速度を始めとする類似度を当該単語境界の結束度として算出する結束度算出過程と、
結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定過程と、からなり、
認識結果テキスト中の各単語に認識スコア情報があるデータが入力されると、
結束度算出過程において、
各単語毎に該単語を検索キーとして、単語と該単語の意味表現であるベクトルの対の集合が格納された概念ベースを検索して、該単語に対応するベクトルを取得し、
窓の意味を表すベクトルとして、該窓に含まれる単語のベクトルの、認識スコアを重みとする重み付き平均を算出する。
【0013】
このように、認識スコアを重みとする重み付き平均をとることにより、窓の意味を表すベクトルは、認識スコアの高い単語の影響が大きく、逆に認識スコアの低い単語の影響は少なくなるので、重みなしの重心をとる従来技術と比べて、より適切なものとなる。その結果、より適切な結束度が算出できる。
【0014】
発明(請求項3)は、映像コンテンツや音声コンテンツに含まれる音声を音声認識した結果得られたデータをトピック単位に分割するためのトピック境界決定方法において、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト(以下、NBEST候補と記す)、該NBEST候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各音声セグメントの認識結果テキストの末尾の単語列の表記や品詞、句読点を含む情報から、該音声セグメントが文の中途であるかどうかを判断する文中途判断過程と、
各音声セグメントに対して1以上のNBEST候補を採用し、各音声セグメント毎に、採用した1以上のNBEST候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列過程と、
ソートされた単語列から付属語を含む不要語を削除する不要語削除過程と、
一定の単語数Mの単語列中の単語の範囲の窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のM個の単語に含まれる窓と、その単語境界の直後のM個の単語による窓を指定し、各窓毎に、該窓に含まる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の該窓に対応するベクトル間の、余弦速度を始めとする類似度を当該単語境界の結束度として算出する結束度算出過程と、
中途判断過程で文の中途であると判断された音声セグメントの直後の境界を除く音声セグメント境界集合の中で、結束度が極小となる極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定過程と、からなる。
【0015】
これにより、トピック境界は常に文と文の間になり、文の途中となることはないので、セグメンテーションの精度が向上する。
【0016】
発明(請求項4)は、映像コンテンツや音声コンテンツに含まれる音声を音声認識した結果得られたデータをトピック単位に分割するためのトピック境界決定方法において、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト(以下、NBEST候補と記す)、該NBEST候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データと、セグメント対象の映像コンテンツに含まれているテロップを文字認識により認識した結果得られるデータであって、各テロップ認識結果テキストに開始時刻情報を含むデータが入力されると、
各テロップ認識結果テキストを音声セグメント列の中に、開始時刻情報が昇順となるように挿入するテロップ認識結果テキスト挿入過程と、
各テロップ認識結果テキストを単語分割するテロップ認識結果テキスト単語分割過程と、
各音声セグメントに対して1以上のNBEST候補を採用し、各音声セグメント毎に、採用した1以上のNBEST候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列過程と、
ソートされた単語列から付属語を含む不要語及び、テロップ認識結果テキスト単語分割過程で得られた単語で付属語を含む不要語を削除する不要語削除過程と、
一定の単語数Mの単語列中の単語の範囲の窓とし、全音声セグメント及びテロップ中の単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のM個の単語に含まれる窓と、その単語境界の直後のM個の単語による窓を指定し、各窓毎に、該窓に含まる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の該窓に対応するベクトル間の、余弦速度を始めとする類似度を当該単語境界の結束度として算出する結束度算出過程と、
結束度が極小となる単語境界を求め、極小点あるいは該極小点に直近の音声セグメントまたは、テロップ間の境界をトピック境界と認定するトピック境界認定過程と、
からなる
【0017】
このように、テロップを音声とマージさせることにより、テロップがトピックの見出し相当のテキストとなる場合が多い。見出し相当のテキストには、そのトピックを代表するような単語が集中して出現するため、そのテキスト以降の結束度はとりわけ高くなり、見出し相当のテキストの直前の境界において結束度の谷の深さが大きくなり、その地点がトピック境界と認定されやすくなる。このため、セグメンテーションの精度が高くなる。また、見出し相当でないテロップがあっても、音声とテロップとを合わせて必要十分な情報になっていることも多いため、テロップを音声とマージさせることにより、より適切にトピック境界を検出できると考えられる。
【0018】
図2は、本発明の原理構成図である。
【0019】
本発明(請求項5)は、映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定装置であって、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト(以下、NBEST候補と記す)、該NBEST候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各セグメントに対して複数のNBEST候補を採用し、各音声セグメント毎に、採用した複数のNBEST候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列手段1と、
ソートされた単語列から付属語を含む不要語を削除する不要語除去手段2と、
一定の単語数Mの単語列中の単語の範囲を窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のM個の単語による窓と、その単語境界の直後のM個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出手段3と、
結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定手段4と、を有する。
【0020】
本発明(請求項6)は、映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定装置であって、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト(以下、NBEST候補と記す)、該NBEST候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各音声セグメントに対して1以上のNBEST候補を採用し、各音声セグメント毎に、採用した1以上のNBEST候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列手段と、
ソートされた単語列から付属語を含む不要語を削除する不要語除去手段と、
一定の単語数Mの単語列中の単語の範囲を窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のM個の単語による窓と、その単語境界の直後のM個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出手段と、
結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定手段と、
を有し、
結束度算出手段において、
認識結果テキスト中の各単語に認識スコア情報があるデータが入力されると、各単語毎に該単語を検索キーとして、単語と該単語の意味表現であるベクトルの対の集合が格納された概念ベースを検索して、該単語に対応するベクトルを取得する手段と、
窓の意味を表すベクトルとして、該窓に含まれる単語のベクトルの、認識スコアを重みとする重み付き平均を算出する手段とを有する。
【0021】
本発明(請求項7)のトピック境界決定装置は、映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定装置であって、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト(以下、NBEST候補と記す)、該NBEST候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各音声セグメントの認識結果テキストの末尾の単語列の表記や品詞、句読点を含む情報から、該音声セグメントが文の中途であるかどうかを判断する文中途判断手段と、
各音声セグメントに対して1以上のNBEST候補を採用し、各音声セグメント毎に、採用した1以上のNBEST候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列手段と、
ソートされた単語列から付属語を含む不要語を削除する不要語除去手段と、
一定の単語数Mの単語列中の単語の範囲を窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のM個の単語による窓と、その単語境界の直後のM個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出手段と、
文中途判断手段で文の中途であると判断された音声セグメントの直後の境界を除く音声セグメント境界集合の中で、結束度が極小となる極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定手段と、を有する。
【0022】
本発明(請求項8)のトピック境界決定装置は、映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定装置であって、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト(以下、NBEST候補と記す)、該NBEST候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データとセグメント対象の映像コンテンツに含まれているテロップを文字認識により認識した結果得られるデータであって、各テロップ認識結果テキストに開始時刻情報を含むデータが入力されると、
各テロップ認識結果テキストを音声セグメント列の中に、開始時刻情報が昇順となるように挿入するテロップ認識結果テキスト挿入手段と、
各テロップ認識結果テキストを単語分割するテロップ認識結果テキスト単語分割手段と、
各音声セグメントに対して1以上のNBEST候補を採用し、各音声セグメント毎に、採用した1以上のNBEST候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列手段と、
ソートされた単語列から付属語を含む不要語及びテロップ認識結果テキスト単語分割手段で得られた単語で付属語を含む不要語を削除する不要語除去手段と、
一定の単語数Mの単語列中の単語の範囲を窓とし、全音声セグメント及びテロップ中の単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のM個の単語による窓と、その単語境界の直後のM個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出手段と、
結束度が極小となる単語境界を求め、極小点あるいは該極小点に直近の音声セグメント境界またはテロップ間の境界をトピック境界と認定するトピック境界認定手段と、を有する。
【0023】
本発明(請求項9)は、コンピュータを、請求項5乃至8記載のトピック境界決定装置として機能させるプログラムである。
【0024】
また、本発明のトピック境界決定プログラムは、各音声セグメントの認識結果テキストの末尾の単語列の表記や品詞、句読点を含む情報から、該音声セグメントが文の中途であるかどうかを判断する文中途判断ステップを有し、
トピック境界認定ステップにおいて、文中途判断ステップで文の中途であると判断された音声セグメントの直後の境界を除く音声セグメント境界集合の中で、結束度が極小となる極小点に直近の音声セグメント境界をトピック境界と認定するステップを含む。
【0025】
また、本発明のトピック境界決定プログラムは、セグメント対象の映像コンテンツに含まれているテロップを文字認識により認識した結果得られるデータであって、各テロップ認識結果テキストに開始時刻情報を含むデータが入力されると、
各テロップ認識結果テキストを音声セグメント列の中に、開始時刻情報が昇順となるように挿入するテロップ認識結果テキスト挿入ステップと、
各テロップ認識結果テキストを単語分割するテロップ認識結果テキスト単語分割ステップを更に有し、
不要語除去ステップにおいて、テロップ認識結果テキスト単語分割ステップで得られた単語で付属語を含む不要語を除去し、
結束度算出ステップで、全音声セグメント及びテロップ中の単語の配列において結束度を計算し、
トピック境界認定ステップにおいて、結束度が極小となる極小点あるいは極小点に直近の音声セグメントまたは、テロップ間の境界をトピック境界と認定する。
【0026】
【発明の実施の形態】
以下、図面と共に本発明の実施の形態について説明する。
【0027】
図3は、本発明の第1の実施の形態におけるトピック境界決定装置の構成を示す。
【0028】
同図に示すトピック境界決定装置は、データ入力部5、単語配列部1、不要語除去部2、結束度算出部3、トピック境界認定部4、トピック境界検出結果出力部6から構成される。
【0029】
データ入力部5は、図4に示すようなXML形式の音声認識結果データを入力する。図4に示すデータにおいて、SEGMENT要素が1音声セグメントの情報であり、SEGMENT要素の“begin ”,“end ” 属性が当該音声セグメントの開始時刻、終了時刻を表す。
NBEST要素がNBEST候補であり、その“score ”,“rank”属性は、それぞれ認識スコア、上位何番目の候補かを表す。各音声セグメント毎にNBEST候補が一般に複数ある。なお、一つの音声認識結果テキストが一つのNBEST候補に対応しており、音声認識処理のスコアの高い順に得られる認識結果候補のそれぞれをNBEST候補という。
TEXT要素は、対応するNBEST候補の音声認識結果テキストであり、WORD要素は、TEXT要素の内容を構成する単語である。WORD要素の“begin ”,“end ”,“score ”,“pos ”属性は、当該単語の開始時刻、終了時刻、認識スコア、品詞情報を表す。
【0030】
単語配列部1は、各音声セグメントに対して所定の個数のNBEST候補を採用し、各音声セグメント毎に、採用した各NBEST候補に含まれる単語集合をマージして単語の開始時刻情報の順に該単語を昇順にソートする。
【0031】
不要語除去部2は、ソートされた単語の並びである単語列から付属語を含む不要語を除去する。
【0032】
結束度算出部3は、全音声セグメントの単語列をつなげてできる単語列において、各単語境界の前後に一定の単語数の単語列中の単語の範囲(以下、窓と記す)を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の該窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する。
【0033】
トピック境界認定部4は、結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定する。
【0034】
トピック境界検出結果出力部6は、トピック境界認定部4により認定されたトピック境界を出力する。
【0035】
次に、上記の構成における動作を説明する。
【0036】
図5は、本発明の第1の実施の形態における動作のフローチャートである。
【0037】
ステップ101) データ入力部5において、音声認識結果データとして、各音声セグメントに対して認識スコアの高い順に複数のNBEST候補と、当該NBEST候補に対する単語分割結果及び、当該単語分割結果の各単語に開始時刻情報が付与されているデータを入力する。
【0038】
ステップ102) 単語配列部1は、入力されたデータの各音声セグメントに対して所定の個数のNBEST候補を採用する。ここで、所定の個数とは、1以上の整数または、全NBEST候補である。そして、各音声セグメント毎に、採用した各NBEST候補に含まれる単語集合をマージして単語の開始時刻情報の順に単語をソートする。図6に、上位2個のNBEST候補を採用したときの単語配列処理の結果を示す。
【0039】
ステップ103) 次に、不要語除去部2は、単語列からトピックセグメンテーションに関係がないと考えられる付属語等の不要語を除去する。ここで、入力されたデータの単語情報には、単語表記や品詞の情報があり、この情報から助詞や助動詞などの付属語を抽出する。これらの助詞や助動詞は、トピックセグメンテーションには影響を及ぼさないと考えられ、このような単語を不要語と判断する。不要語除去を実現するために、不要語であると判断するロジックをプログラムとして実現してもよいし、または、外部テーブルとして不要語リスト(不要語とみなす単語表記や、品詞を記述する)を用意して、当該不要語リストを不要語除去処理を行うプログラムが参照してもよい。図6の各WORD要素のpos 属性の値により、付属語を削除し得られた結果を図7に示す。
【0040】
ステップ104) 結束度算出部3は、全音声セグメントの単語列をつなげてできる単語列において、各単語境界の前後に一定の単語数の単語列の窓をとり、各窓毎に、窓に含まれる単語の出現頻度ベクトル等の窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の余弦測度等の類似度を当該単語境界の結束度として算出する。この例を図8に示す。NBEST候補を複数とることに応じて、結束度計算の窓幅はより長くとる。認識の信頼性の高い単語(例えば、図7中の『調整』、『九州』)は、より多くのNBEST候補に出力すると考えられるので、各窓に多く出現し、窓の意味を表すベクトルは、信頼性の高い単語の影響が大きく、逆に信頼性の低い単語の影響は少なくなる。よって、窓の意味を表すベクトル及び結束度は、従来の技術に比べより適切なものとなる。
【0041】
ステップ105) トピック境界認定部4は、結束度が極小となる単語境界を求め、当該極小点あるいは当該極小点に直近の音声セグメント境界をトピック境界と認定する。
【0042】
ステップ106) トピック境界検出結果出力部6は、トピック境界認定部4で認定されたトピック境界を出力する。
【0043】
[第2の実施の形態]
本実施の形態では、結束度算出部3において、概念ベースを用いた場合について説明する。
【0044】
図9は、本発明の第2の実施の形態におけるトピック境界決定装置の構成を示す。図3の構成と同一部分については同一符号を付し、その説明を省略する。
【0045】
また、図10は、本発明の第2の実施の形態における概念ベースの例を示す。
概念ベース10には、単語と当該単語の意味表現であるベクトルの対の集合が格納されており、ベクトル値が近ければ対応する単語の意味も近いという性質を持っている。なお、概念ベース10は、データベース等の記憶手段に格納されているものとする。
【0046】
本実施の形態では、前述の第1の実施の形態の構成に当該概念ベース10を追加した構成である。これにより、第1の実施の形態における図5のフローチャートのステップ104において、結束度算出部3が、図10に示す単語毎にその意味表現であるベクトルが割り当てられている概念ベース10を、各単語毎に当該単語を検索キーとして検索し、当該単語に対応するベクトルを取得する。
【0047】
窓に含まれる単語ベクトルの集合をνr (1≦r≦s)、単語ベクトルνr に対応する単語の認識スコアをgr とする。窓に対応するベクトルとして、当該窓に含まれる単語のベクトルの、認識スコアを重みとする重み付き平均を算出すると、
【0048】
【数1】
Figure 0004175093
をとる。このような計算をすることで、認識スコアの高い単語の影響が大きく、逆に認識スコアの低い単語の影響は少なくなるので、より窓の意味を適切に反映しており、その結果、結束度もより適切なものとなる。
【0049】
[第3の実施の形態]
図11は、本発明の第3の実施の形態におけるトピック境界決定装置の構成を示す。同図に示すトピック境界決定装置は、図9の構成に文中途判断部7及び文中途判断ベース20が付加された構成である。なお、文中途判断ベース20は、データベース等の記憶手段に格納されている。同図において図9と同一構成部分には同一符号を付し、その説明を省略する。
【0050】
文中途判断部7は、各音声セグメントの認識結果テキストの末尾の単語列の表記や品詞、句読点等の情報から当該音声セグメントが文の途中であるかどうかを、文中途判断ベース20を参照して判断する。
【0051】
これにより、トピック境界認定部4は、文中途判断部7で文の中途と判断された音声セグメントの直後の境界を除く音声セグメント境界集合の中で、結束度が極小となる極小点に直近の音声セグメント境界をトピック境界と認定する。
【0052】
図12は、本発明の第3の実施の形態における動作のフローチャートである。同図において、ステップ201と図5のステップ101は同様であり、また、ステップ203〜ステップ205及びステップ207は、図5のステップ102〜ステップ104及びステップ106と同様であるので、その説明は省略する。
【0053】
文中途判断部7は、データが入力されると(ステップ201)各音声セグメントの例えば最尤(rank=“1”)のNBEST候補の末尾の単語列の表記や品詞、句読点等の情報から、当該音声セグメントが文の途中であるかどうかを判断する。例えば、文の中途と認定できる単語列の情報を文中途判断ベース20に格納しておき、NBEST候補の末尾の単語列が文中途判断ベース20中のいずれかの単語列とマッチした場合に、当該音声セグメントが文の中途であると判断する(ステップ202)。
【0054】
図13は、本発明の第3の実施の形態における文中途判断ベースの例を示す。文中途判断ベース20の各レコードは、「単語表記;品詞情報」の列となっている。例えば、NBEST候補の単語列が『台風(名詞)・に(格助詞)・見舞(動詞語幹)・わ(動詞活用語尾)・れ(動詞接尾辞)』であったなら、文中途判断ベース中の2番目のレコードにマッチするので、当該音声セグメントは、文の中途であると判断する。
【0055】
トピック境界認定部4では、文中途判断部7で文の途中と判断された音声セグメントの直後の境界は文の中途なので、音声セグメント境界集合から外した上で、結束度が極小となる極小点に直近の音声セグメント境界をトピック境界と認定する(ステップ206)。これにより、トピック境界は常に文と文の間になり、文の中途となることはないので、セグメンテーションの精度が向上する。
【0056】
[第4の実施の形態]
図14は、本発明の第4の実施の形態におけるトピック境界決定装置の構成を示す。同図に示すトピック境界決定装置は、図9の構成に、テロップ認識結果テキスト挿入部8、テロップ認識結果テキスト単語分割部9を付加した構成である。図14の構成において、図9の構成と同一部分には、同一符号を付しその説明を省略する。
【0057】
但し、データ入力部5から入力されるデータは、セグメント対象の映像コンテンツに含まれているテロップを文字認識により認識した結果得られるデータであり、各テロップ認識結果テキストに開始時刻情報があるデータも入力される。
【0058】
テロップ認識結果テキスト挿入部8は、各テロップ認識結果テキストを音声セグメント列の中に、開始時刻情報が昇順となるように挿入する。
【0059】
テロップ認識結果テキスト単語分割部9は、各テロップ認識結果テキストを単語分割する。
【0060】
図15は、本発明の第4の実施の形態における動作のフローチャートである。
ステップ301) データ入力部5は、セグメント対象の映像コンテンツに含まれているテロップを文字認識により認識した結果得られるデータ(テロップ認識結果テキスト)を入力とする。入力されるデータの例を図16に示す。TELOP要素が1テロップの情報であり、TELOP要素のbegin, end属性が当該テロップの開始時刻、終了時刻である。
【0061】
ステップ302) テロップ認識結果テキスト挿入部8は、各テロップ認識結果テキストを音声セグメント列の中に開始時刻情報が昇順となるように挿入する。図17に、図16におけるTELOP要素を前述の図4の音声認識結果データ中に挿入した結果の例を示す。SEGMENT要素及びTELOP要素の“begin ”が昇順となるように、SEGMENT要素とTELOP要素が配置さている。図4では、SEGMENT要素に“begin ”属性があるが、ない場合は、SEGMENT要素内のWORD要素の“begin ”の最小値をとってもよい。
【0062】
ステップ303) テロップ認識結果テキスト単語分割部9は、各テロップ認識結果テキストを単語分割する。図18に、TELOP要素のテキストを単語分割した結果のデータを示す。TELOP要素におけるWORD要素が、単語分割して得られた単語である。WORD要素には品詞情報である“pos ”属性がある。
【0063】
ステップ304) 単語配列部1は、前述の第1の実施の形態と同様の処理を行う。当該処理によって得られた結果を図19に示す。
【0064】
ステップ305) 不要語除去部2は、音声セグメント及びテロップにおける単語列から付属語等の不要語を除去する。図19に示すSEGMENT要素及びTELOP要素における各WORD要素から、“pos ”属性の値に基づいて、付属語のWORD要素を除去して得られた結果を図20に示す。
【0065】
ステップ306) 結束度算出部3は、全SEGMENT要素及びTELOP要素中のWORD要素の配列において、結束度を算出する。
【0066】
ステップ307) トピック境界認定部4は、結束度が極小となる極小点をトピック境界と認定する。あるいは、SEGMENT要素及びTELOP要素列から、極小点に直近のSEGMENT要素−SEGMENT要素間、SEGMENT要素−TELOP要素間、TELOP要素−TELOP要素間の境界をトピック境界と認定する。
【0067】
ステップ308) トピック境界検出結果出力部6は、認定されたトピック境界を出力する。
【0068】
テロップ「台風の情報」は、トピックの見出し相当のテキストであり、この直前の境界がトピック境界と認定される可能性が高くなる。
【0069】
本発明は、上記の概念ベース、文中途判断ベースをデータベース等の記憶手段に格納した上で、前述の第1から第4の実施の形態の動作をプログラムとして構築し、トピック境界決定装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることも可能である。
【0070】
また、構築されたプログラムをトピック境界決定装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールし、CPU等の制御装置で制御することも可能である。
【0071】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【0072】
【発明の効果】
上述のように、本発明によれば、映像コンテンツや音声コンテンツのトピックセグメンテーションにおいて、従来の技術よりも高い精度を実現することができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の第1の実施の形態におけるトピック境界決定装置の構成図である。
【図4】本発明の第1の実施の形態における音声認識結果データの例である。
【図5】本発明の第1の実施の形態における動作のフローチャートである。
【図6】本発明の第1の実施の形態における単語配列部が上位2個のNBEST候補を採用した場合の単語配列処理結果の例である。
【図7】本発明の第1の実施の形態における不要語を除去した例である。
【図8】本発明の第1の実施の形態における結束度算出処理を説明するための図である。
【図9】本発明の第2の実施の形態におけるトピック境界決定装置の構成図である。
【図10】本発明の第2の実施の形態における概念ベースの例である。
【図11】本発明の第3の実施の形態におけるトピック境界決定装置の構成図である。
【図12】本発明の第3の実施の形態における動作のフローチャートである。
【図13】本発明の第3の実施の形態における文中途判断ベースの例である。
【図14】本発明の第4の実施の形態におけるトピック境界決定装置の構成図である。
【図15】本発明の第4の実施の形態における動作のフローチャートである。
【図16】本発明の第4の実施の形態における入力されるテロップ認識結果テキストの例である。
【図17】本発明の第4の実施の形態におけるTELOP要素を音声認識結果データに挿入した例である。
【図18】本発明の第4の実施の形態におけるTELOP要素のテキストを単語分割した結果である。
【図19】本発明の第4の実施の形態における単語配列処理の結果である。
【図20】本発明の第4の実施の形態における不要語を除去した例である。
【符号の説明】
1 単語配列手段、単語配列部
2 不要語除去手段、不要語除去部
3 結束度算出手段、結束度算出部
4 トピック境界認定手段、トピック境界認定部
5 データ入力部
6 トピック境界検出結果出力部
7 文中途判断部
8 テロップ認識結果テキスト挿入部
9 テロップ認識結果テキスト単語分割部
10 概念ベース
20 文中途判断ベース

Claims (9)

  1. 映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定方法において、
    各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト(以下、NBEST候補と記す)、該NBEST候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
    各セグメントに対して複数のNBEST候補を採用し、各音声セグメント毎に、採用した複数のNBEST候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列過程と、
    ソートされた単語列から付属語を含む不要語を削除する不要語削除過程と、
    一定の単語数Mの単語列中の単語の範囲を窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のM個の単語による窓と、その単語境界の直後のM個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出過程と、
    前記結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定過程からなる
    ことを特徴とするトピック境界決定方法。
  2. 映像コンテンツや音声コンテンツに含まれる音声を音声認識した結果得られたデータをトピック単位に分割するためのトピック境界決定方法において、
    各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト(以下、NBEST候補と記す)、該NBEST候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
    各音声セグメントに対して1以上のNBEST候補を採用し、各音声セグメント毎に、採用した1以上のNBEST候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列過程と、
    ソートされた単語列から付属語を含む不要語を削除する不要語削除過程と、
    一定の単語数Mの単語列中の単語の範囲の窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のM個の単語に含まれる窓と、その単語境界の直後のM個の単語による窓を指定し、各窓毎に、該窓に含まる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の該窓に対応するベクトル間の、余弦速度を始めとする類似度を当該単語境界の結束度として算出する結束度算出過程と、
    前記結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定過程と、
    からなり、
    前記認識結果テキスト中の各単語に認識スコア情報があるデータが入力されると、
    前記結束度算出過程において、
    各単語毎に該単語を検索キーとして、単語と該単語の意味表現であるベクトルの対の集合が格納された概念ベースを検索して、該単語に対応するベクトルを取得し、
    前記窓の意味を表すベクトルとして、該窓に含まれる単語のベクトルの、認識スコアを重みとする重み付き平均を算出することを特徴とするトピック境界決定方法。
  3. 映像コンテンツや音声コンテンツに含まれる音声を音声認識した結果得られたデータをトピック単位に分割するためのトピック境界決定方法において、
    各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト(以下、NBEST候補と記す)、該NBEST候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
    各音声セグメントの認識結果テキストの末尾の単語列の表記や品詞、句読点を含む情報から、該音声セグメントが文の中途であるかどうかを判断する文中途判断過程と、
    各音声セグメントに対して1以上のNBEST候補を採用し、各音声セグメント毎に、採用した1以上のNBEST候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列過程と、
    ソートされた単語列から付属語を含む不要語を削除する不要語削除過程と、
    一定の単語数Mの単語列中の単語の範囲の窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のM個の単語に含まれる窓と、その単語境界の直後のM個の単語による窓を指定し、各窓毎に、該窓に含まる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の該窓に対応するベクトル間の、余弦速度を始めとする類似度を当該単語境界の結束度として算出する結束度算出過程と、
    前記文中途判断過程で文の中途であると判断された音声セグメントの直後の境界を除く音声セグメント境界集合の中で、結束度が極小となる極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定過程と、
    からなることを特徴とするトピック境界決定方法。
  4. 映像コンテンツや音声コンテンツに含まれる音声を音声認識した結果得られたデータをトピック単位に分割するためのトピック境界決定方法において、
    各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト(以下、NBEST候補と記す)、該NBEST候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データと、セグメント対象の映像コンテンツに含まれているテロップを文字認識により認識した結果得られるデータであって、各テロップ認識結果テキストに開始時刻情報を含むデータが入力されると、
    前記各テロップ認識結果テキストを音声セグメント列の中に、開始時刻情報が昇順となるように挿入するテロップ認識結果テキスト挿入過程と、
    前記各テロップ認識結果テキストを単語分割するテロップ認識結果テキスト単語分割過程と、
    各音声セグメントに対して1以上のNBEST候補を採用し、各音声セグメント毎に、採用した1以上のNBEST候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列過程と、
    ソートされた単語列から付属語を含む不要語及び、前記テロップ認識結果テキスト単語分割過程で得られた単語で付属語を含む不要語を削除する不要語削除過程と、
    一定の単語数Mの単語列中の単語の範囲の窓とし、全音声セグメント及びテロップ中の単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のM個の単語に含まれる窓と、その単語境界の直後のM個の単語による窓を指定し、各窓毎に、該窓に含まる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の該窓に対応するベクトル間の、余弦速度を始めとする類似度を当該単語境界の結束度として算出する結束度算出過程と、
    前記結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメントまたは、テロップ間の境界をトピック境界と認定するトピック境界認定過程と、
    からなることを特徴とするトピック境界決定方法。
  5. 映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定装置であって、
    各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト(以下、NBEST候補と記す)、該NBEST候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
    各セグメントに対して複数のNBEST候補を採用し、各音声セグメント毎に、採用した複数のNBEST候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列手段と、
    ソートされた単語列から付属語を含む不要語を削除する不要語除去手段と、
    一定の単語数Mの単語列中の単語の範囲を窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のM個の単語による窓と、その単語境界の直後のM個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出手段と、
    前記結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定手段と、
    を有することを特徴とするトピック境界決定装置。
  6. 映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定装置であって、
    各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト(以下、NBEST候補と記す)、該NBEST候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
    各セグメントに対して1以上のNBEST候補を採用し、各音声セグメント毎に、採用した1以上のNBEST候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列手段と、
    ソートされた単語列から付属語を含む不要語を削除する不要語除去手段と、
    一定の単語数Mの単語列中の単語の範囲を窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のM個の単語による窓と、その単語境界の直後のM個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出手段と、
    前記結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定手段と、
    を有し、
    前記結束度算出手段は、
    前記認識結果テキスト中の各単語に認識スコア情報があるデータが入力されると、各単語毎に該単語を検索キーとして、単語と該単語の意味表現であるベクトルの対の集合が格納された概念ベースを検索して、該単語に対応するベクトルを取得する手段と、
    前記窓の意味を表すベクトルとして、該窓に含まれる単語のベクトルの、認識スコアを重みとする重み付き平均を算出する手段とを有することを特徴とするトピック境界決定装置。
  7. 映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定装置であって、
    各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト(以下、NBEST候補と記す)、該NBEST候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
    各音声セグメントの認識結果テキストの末尾の単語列の表記や品詞、句読点を含む情報から、該音声セグメントが文の中途であるかどうかを判断する文中途判断手段と、
    各音声セグメントに対して1以上のNBEST候補を採用し、各音声セグメント毎に、採用した1以上のNBEST候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列手段と、
    ソートされた単語列から付属語を含む不要語を削除する不要語除去手段と、
    一定の単語数Mの単語列中の単語の範囲を窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のM個の単語による窓と、その単語境界の直後のM個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出手段と、
    前記文中途判断手段で文の中途であると判断された音声セグメントの直後の境界を除く音声セグメント境界集合の中で、結束度が極小となる極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定手段と、
    を有することを特徴とするトピック境界決定装置。
  8. 映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定装置であって、
    各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト(以下、NBEST候補と記す)、該NBEST候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データと、セグメント対象の映像コンテンツに含まれているテロップを文字認識により認識した結果得られるデータであって、各テロップ認識結果テキストに開始時刻情報を含むデータが入力されると、
    前記各テロップ認識結果テキストを音声セグメント列の中に、開始時刻情報が昇順となるように挿入するテロップ認識結果テキスト挿入手段と、
    前記各テロップ認識結果テキストを単語分割するテロップ認識結果テキスト単語分割手段と、
    各音声セグメントに対して1以上のNBEST候補を採用し、各音声セグメント毎に、採用した1以上のNBEST候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列手段と、
    ソートされた単語列から付属語を含む不要語及び前記テロップ認識結果テキスト単語分割手段で得られた単語で付属語を含む不要語を削除する不要語除去手段と、
    一定の単語数Mの単語列中の単語の範囲を窓とし、全音声セグメント及びテロップ中の単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のM個の単語による窓と、その単語境界の直後のM個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出手段と、
    前記結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメントまたはテロップ間の境界をトピック境界と認定するトピック境界認定手段と、
    を有することを特徴とするトピック境界決定装置。
  9. コンピュータを、
    請求項5乃至8記載のトピック境界決定装置として機能させるプログラム。
JP2002323090A 2002-11-06 2002-11-06 トピック境界決定方法及び装置及びトピック境界決定プログラム Expired - Fee Related JP4175093B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002323090A JP4175093B2 (ja) 2002-11-06 2002-11-06 トピック境界決定方法及び装置及びトピック境界決定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002323090A JP4175093B2 (ja) 2002-11-06 2002-11-06 トピック境界決定方法及び装置及びトピック境界決定プログラム

Publications (2)

Publication Number Publication Date
JP2004157337A JP2004157337A (ja) 2004-06-03
JP4175093B2 true JP4175093B2 (ja) 2008-11-05

Family

ID=32803082

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002323090A Expired - Fee Related JP4175093B2 (ja) 2002-11-06 2002-11-06 トピック境界決定方法及び装置及びトピック境界決定プログラム

Country Status (1)

Country Link
JP (1) JP4175093B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4635891B2 (ja) * 2006-02-08 2011-02-23 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2007316323A (ja) * 2006-05-25 2007-12-06 National Institute Of Advanced Industrial & Technology トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。
JP2009043189A (ja) * 2007-08-10 2009-02-26 Sony Corp 情報処理装置、情報処理方法、およびプログラム
CN109616097B (zh) * 2019-01-04 2024-05-10 平安科技(深圳)有限公司 语音数据处理方法、装置、设备及存储介质
CN111199150B (zh) * 2019-12-30 2024-04-16 科大讯飞股份有限公司 文本分割方法、相关设备及可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01276266A (ja) * 1988-04-27 1989-11-06 Agency Of Ind Science & Technol 自然言語による機器操作法案内装置
JP3583299B2 (ja) * 1998-09-22 2004-11-04 三菱電機株式会社 連続音声認識用の探索装置および連続音声認識用の探索方法
JP2000259176A (ja) * 1999-03-08 2000-09-22 Nippon Hoso Kyokai <Nhk> 音声認識装置およびその記録媒体
JP2001154936A (ja) * 1999-11-25 2001-06-08 Casio Comput Co Ltd メールデータ管理装置、及びメールデータ管理プログラムが記憶された記憶媒体
JP2001273293A (ja) * 2000-03-23 2001-10-05 Nippon Telegr & Teleph Corp <Ntt> 単語推定方法及び装置及び単語推定プログラムを格納した記録媒体
GB0023930D0 (en) * 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval

Also Published As

Publication number Publication date
JP2004157337A (ja) 2004-06-03

Similar Documents

Publication Publication Date Title
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
CN110457688B (zh) 纠错处理方法及装置、存储介质和处理器
US11210470B2 (en) Automatic text segmentation based on relevant context
JP6066354B2 (ja) 信頼度計算の方法及び装置
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US8892420B2 (en) Text segmentation with multiple granularity levels
US10783314B2 (en) Emphasizing key points in a speech file and structuring an associated transcription
WO2003010754A1 (fr) Systeme de recherche a entree vocale
JP2008287698A (ja) 索引付けシステム及び索引付けプログラム
US8892435B2 (en) Text data processing apparatus, text data processing method, and recording medium storing text data processing program
JP3545824B2 (ja) データ検索装置
JP4738847B2 (ja) データ検索装置および方法
JP5265445B2 (ja) 話題境界検出装置及びコンピュータプログラム
JP4175093B2 (ja) トピック境界決定方法及び装置及びトピック境界決定プログラム
JP4344418B2 (ja) 音声要約装置及び音声要約プログラムを記録した記録媒体
JP5278425B2 (ja) 映像分割装置、方法及びプログラム
AlMousa et al. Nlp-enriched automatic video segmentation
JP4239850B2 (ja) 映像キーワード抽出方法及び装置及びプログラム
JP4008344B2 (ja) クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム
JP2000259645A (ja) 音声処理装置及び音声データ検索装置
JP5594134B2 (ja) 文字列検索装置,文字列検索方法および文字列検索プログラム
JP3925418B2 (ja) トピック境界決定装置及びプログラム
JPH117447A (ja) 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体
JP2005326952A (ja) 概念辞書への単語登録方法、装置、およびプログラム
JP3500698B2 (ja) キーワード抽出装置及びキーワード抽出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080729

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080811

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110829

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees