JP4175093B2

JP4175093B2 - トピック境界決定方法及び装置及びトピック境界決定プログラム

Info

Publication number: JP4175093B2
Application number: JP2002323090A
Authority: JP
Inventors: 克人別所
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-11-06
Filing date: 2002-11-06
Publication date: 2008-11-05
Anticipated expiration: 2022-11-06
Also published as: JP2004157337A

Description

【０００１】
【発明の属する技術分野】
本発明は、トピック境界決定方法及び装置及びトピック境界決定プログラムに係り、特に、映像コンテンツや音声コンテンツをトピック単位に分割するためのトピック境界決定方法及び装置及びトピック境界決定プログラムに関する。
【０００２】
【従来の技術】
従来技術として、テキストをトピック単位に分割するHearst法がある（例えば、非特許文献１、２参照）。Hearst法では、テキストを単語に分割し、不要語を除去した後、各単語境界の前後に一定の単語数の単語列の窓をとり、各窓毎に、窓に含まれる単語の出現頻度ベクトルをとり、前後の窓に対応するベクトル間の余弦測度を当該単語境界の結束度として計算する。結束度が極小となる単語境界あるいは、その直近の文境界をトピック境界と認定する。
【０００３】
また、単語毎に当該単語を検索キーとして、単語とその意味表現であるベクトルの対の集合が格納された概念ベースを検索して、当該単語に対応するベクトルを取得し、窓に対応するベクトルとして、窓に含まれる単語のベクトルの重心をとっている方法が提案されている。
【０００４】
【非特許文献１】
Hearst, M.A.:Multi-Paragraph Segmentation of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp.9-16(1994).
【非特許文献２】
Hearst, M.A.:TextTilling: Segmenting Text into Multi-paragraph Subtopic Passages, Computational Linguistics, Vol.23, No.1, pp33-64 (1997).
【０００５】
【発明が解決しようとする課題】
しかしながら、セグメント対象として映像コンテンツや音声コンテンツ中の音声を音声認識により認識したテキストをとった場合、認識誤りの単語を含んでいるため、上記従来技術では、結束度が適切に計算されないという第１の問題がある。
【０００６】
また、音声セグメントはポーズで区切られたものであり、文の途中で別々の音声セグメントに区切られていることも多い。従来技術では、トピック境界と認定した音声セグメント境界が文の中途になることもあり、セグメンテーションの精度が低下するという第２の問題がある。
【０００７】
また、映像コンテンツでは、テロップを音声の補助的情報として用いることも多く、中には、テロップがトピックの見出しのような役割を果している場合もある。映像コンテンツでは、音声とテロップとを合わせて必要十分な情報量になっていることも多く、音声のみのセグメンテーションでは十分な精度が得られないという第３の問題がある。
【０００８】
本発明は、上記の点に鑑みなされたもので、音声認識結果から意味上の境界を正しくかつ精度よく検出することが可能なトピック境界決定方法及び装置及びトピック境界決定プログラムを提供することを目的とする。
【０００９】
【課題を解決するための手段】
図１は、本発明の原理を説明するための図である。
【００１０】
本発明（請求項１）は、映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定方法において、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト（以下、ＮＢＥＳＴ候補と記す）、該ＮＢＥＳＴ候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各セグメントに対して複数のＮＢＥＳＴ候補を採用し、各音声セグメント毎に、採用した複数のＮＢＥＳＴ候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列過程（ステップ１）と、
ソートされた単語列から付属語を含む不要語を削除する不要語削除過程（ステップ２）と、
一定の単語数Ｍの単語列中の単語の範囲を窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のＭ個の単語による窓と、その単語境界の直後のＭ個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出過程（ステップ３）と、
結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定過程（ステップ４）からなる。
【００１１】
このように、ＮＢＥＳＴ候補を複数とることに応じて、結束度計算の窓幅はより長くとる。複数のＮＢＥＳＴ候補において、認識の信頼性の高い単語はより多くのＮＢＥＳＴ候補に出現すると考えられる。従って、窓における出現回数もより多くなるので、窓の意味を表すベクトルは、信頼性の高い単語の影響が大きく、逆に信頼性の低い単語の影響は少なくなる。よって、窓の意味を表すベクトル及び結束度は、従来の技術に比べより適切なものとなる。
【００１２】
また、本発明（請求項２）は、映像コンテンツや音声コンテンツに含まれる音声を音声認識した結果得られたデータをトピック単位に分割するためのトピック境界決定方法において、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト（以下、ＮＢＥＳＴ候補と記す）、該ＮＢＥＳＴ候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各音声セグメントに対して１以上のＮＢＥＳＴ候補を採用し、各音声セグメント毎に、採用した１以上のＮＢＥＳＴ候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列過程と、
ソートされた単語列から付属語を含む不要語を削除する不要語削除過程と、
一定の単語数Ｍの単語列中の単語の範囲の窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のＭ個の単語に含まれる窓と、その単語境界の直後のＭ個の単語による窓を指定し、各窓毎に、該窓に含まる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の該窓に対応するベクトル間の、余弦速度を始めとする類似度を当該単語境界の結束度として算出する結束度算出過程と、
結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定過程と、からなり、
認識結果テキスト中の各単語に認識スコア情報があるデータが入力されると、
結束度算出過程において、
各単語毎に該単語を検索キーとして、単語と該単語の意味表現であるベクトルの対の集合が格納された概念ベースを検索して、該単語に対応するベクトルを取得し、
窓の意味を表すベクトルとして、該窓に含まれる単語のベクトルの、認識スコアを重みとする重み付き平均を算出する。
【００１３】
このように、認識スコアを重みとする重み付き平均をとることにより、窓の意味を表すベクトルは、認識スコアの高い単語の影響が大きく、逆に認識スコアの低い単語の影響は少なくなるので、重みなしの重心をとる従来技術と比べて、より適切なものとなる。その結果、より適切な結束度が算出できる。
【００１４】
本発明（請求項３）は、映像コンテンツや音声コンテンツに含まれる音声を音声認識した結果得られたデータをトピック単位に分割するためのトピック境界決定方法において、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト（以下、ＮＢＥＳＴ候補と記す）、該ＮＢＥＳＴ候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各音声セグメントの認識結果テキストの末尾の単語列の表記や品詞、句読点を含む情報から、該音声セグメントが文の中途であるかどうかを判断する文中途判断過程と、
各音声セグメントに対して１以上のＮＢＥＳＴ候補を採用し、各音声セグメント毎に、採用した１以上のＮＢＥＳＴ候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列過程と、
ソートされた単語列から付属語を含む不要語を削除する不要語削除過程と、
一定の単語数Ｍの単語列中の単語の範囲の窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のＭ個の単語に含まれる窓と、その単語境界の直後のＭ個の単語による窓を指定し、各窓毎に、該窓に含まる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の該窓に対応するベクトル間の、余弦速度を始めとする類似度を当該単語境界の結束度として算出する結束度算出過程と、
文中途判断過程で文の中途であると判断された音声セグメントの直後の境界を除く音声セグメント境界集合の中で、結束度が極小となる極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定過程と、からなる。
【００１５】
これにより、トピック境界は常に文と文の間になり、文の途中となることはないので、セグメンテーションの精度が向上する。
【００１６】
本発明（請求項４）は、映像コンテンツや音声コンテンツに含まれる音声を音声認識した結果得られたデータをトピック単位に分割するためのトピック境界決定方法において、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト（以下、ＮＢＥＳＴ候補と記す）、該ＮＢＥＳＴ候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データと、セグメント対象の映像コンテンツに含まれているテロップを文字認識により認識した結果得られるデータであって、各テロップ認識結果テキストに開始時刻情報を含むデータが入力されると、
各テロップ認識結果テキストを音声セグメント列の中に、開始時刻情報が昇順となるように挿入するテロップ認識結果テキスト挿入過程と、
各テロップ認識結果テキストを単語分割するテロップ認識結果テキスト単語分割過程と、
各音声セグメントに対して１以上のＮＢＥＳＴ候補を採用し、各音声セグメント毎に、採用した１以上のＮＢＥＳＴ候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列過程と、
ソートされた単語列から付属語を含む不要語及び、テロップ認識結果テキスト単語分割過程で得られた単語で付属語を含む不要語を削除する不要語削除過程と、
一定の単語数Ｍの単語列中の単語の範囲の窓とし、全音声セグメント及びテロップ中の単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のＭ個の単語に含まれる窓と、その単語境界の直後のＭ個の単語による窓を指定し、各窓毎に、該窓に含まる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の該窓に対応するベクトル間の、余弦速度を始めとする類似度を当該単語境界の結束度として算出する結束度算出過程と、
結束度が極小となる単語境界を求め、極小点あるいは該極小点に直近の音声セグメントまたは、テロップ間の境界をトピック境界と認定するトピック境界認定過程と、
からなる。
【００１７】
このように、テロップを音声とマージさせることにより、テロップがトピックの見出し相当のテキストとなる場合が多い。見出し相当のテキストには、そのトピックを代表するような単語が集中して出現するため、そのテキスト以降の結束度はとりわけ高くなり、見出し相当のテキストの直前の境界において結束度の谷の深さが大きくなり、その地点がトピック境界と認定されやすくなる。このため、セグメンテーションの精度が高くなる。また、見出し相当でないテロップがあっても、音声とテロップとを合わせて必要十分な情報になっていることも多いため、テロップを音声とマージさせることにより、より適切にトピック境界を検出できると考えられる。
【００１８】
図２は、本発明の原理構成図である。
【００１９】
本発明（請求項５）は、映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定装置であって、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト（以下、ＮＢＥＳＴ候補と記す）、該ＮＢＥＳＴ候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各セグメントに対して複数のＮＢＥＳＴ候補を採用し、各音声セグメント毎に、採用した複数のＮＢＥＳＴ候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列手段１と、
ソートされた単語列から付属語を含む不要語を削除する不要語除去手段２と、
一定の単語数Ｍの単語列中の単語の範囲を窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のＭ個の単語による窓と、その単語境界の直後のＭ個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出手段３と、
結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定手段４と、を有する。
【００２０】
本発明（請求項６）は、映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定装置であって、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト（以下、ＮＢＥＳＴ候補と記す）、該ＮＢＥＳＴ候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各音声セグメントに対して１以上のＮＢＥＳＴ候補を採用し、各音声セグメント毎に、採用した１以上のＮＢＥＳＴ候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列手段と、
ソートされた単語列から付属語を含む不要語を削除する不要語除去手段と、
一定の単語数Ｍの単語列中の単語の範囲を窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のＭ個の単語による窓と、その単語境界の直後のＭ個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出手段と、
結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定手段と、
を有し、
結束度算出手段において、
認識結果テキスト中の各単語に認識スコア情報があるデータが入力されると、各単語毎に該単語を検索キーとして、単語と該単語の意味表現であるベクトルの対の集合が格納された概念ベースを検索して、該単語に対応するベクトルを取得する手段と、
窓の意味を表すベクトルとして、該窓に含まれる単語のベクトルの、認識スコアを重みとする重み付き平均を算出する手段と、を有する。
【００２１】
本発明（請求項７）のトピック境界決定装置は、映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定装置であって、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト（以下、ＮＢＥＳＴ候補と記す）、該ＮＢＥＳＴ候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各音声セグメントの認識結果テキストの末尾の単語列の表記や品詞、句読点を含む情報から、該音声セグメントが文の中途であるかどうかを判断する文中途判断手段と、
各音声セグメントに対して１以上のＮＢＥＳＴ候補を採用し、各音声セグメント毎に、採用した１以上のＮＢＥＳＴ候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列手段と、
ソートされた単語列から付属語を含む不要語を削除する不要語除去手段と、
一定の単語数Ｍの単語列中の単語の範囲を窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のＭ個の単語による窓と、その単語境界の直後のＭ個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出手段と、
文中途判断手段で文の中途であると判断された音声セグメントの直後の境界を除く音声セグメント境界集合の中で、結束度が極小となる極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定手段と、を有する。
【００２２】
本発明（請求項８）のトピック境界決定装置は、映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定装置であって、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト（以下、ＮＢＥＳＴ候補と記す）、該ＮＢＥＳＴ候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データとセグメント対象の映像コンテンツに含まれているテロップを文字認識により認識した結果得られるデータであって、各テロップ認識結果テキストに開始時刻情報を含むデータが入力されると、
各テロップ認識結果テキストを音声セグメント列の中に、開始時刻情報が昇順となるように挿入するテロップ認識結果テキスト挿入手段と、
各テロップ認識結果テキストを単語分割するテロップ認識結果テキスト単語分割手段と、
各音声セグメントに対して１以上のＮＢＥＳＴ候補を採用し、各音声セグメント毎に、採用した１以上のＮＢＥＳＴ候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列手段と、
ソートされた単語列から付属語を含む不要語及びテロップ認識結果テキスト単語分割手段で得られた単語で付属語を含む不要語を削除する不要語除去手段と、
一定の単語数Ｍの単語列中の単語の範囲を窓とし、全音声セグメント及びテロップ中の単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のＭ個の単語による窓と、その単語境界の直後のＭ個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出手段と、
結束度が極小となる単語境界を求め、極小点あるいは該極小点に直近の音声セグメント境界またはテロップ間の境界をトピック境界と認定するトピック境界認定手段と、を有する。
【００２３】
本発明（請求項９）は、コンピュータを、請求項５乃至８記載のトピック境界決定装置として機能させるプログラムである。
【００２４】
また、本発明のトピック境界決定プログラムは、各音声セグメントの認識結果テキストの末尾の単語列の表記や品詞、句読点を含む情報から、該音声セグメントが文の中途であるかどうかを判断する文中途判断ステップを有し、
トピック境界認定ステップにおいて、文中途判断ステップで文の中途であると判断された音声セグメントの直後の境界を除く音声セグメント境界集合の中で、結束度が極小となる極小点に直近の音声セグメント境界をトピック境界と認定するステップを含む。
【００２５】
また、本発明のトピック境界決定プログラムは、セグメント対象の映像コンテンツに含まれているテロップを文字認識により認識した結果得られるデータであって、各テロップ認識結果テキストに開始時刻情報を含むデータが入力されると、
各テロップ認識結果テキストを音声セグメント列の中に、開始時刻情報が昇順となるように挿入するテロップ認識結果テキスト挿入ステップと、
各テロップ認識結果テキストを単語分割するテロップ認識結果テキスト単語分割ステップを更に有し、
不要語除去ステップにおいて、テロップ認識結果テキスト単語分割ステップで得られた単語で付属語を含む不要語を除去し、
結束度算出ステップで、全音声セグメント及びテロップ中の単語の配列において結束度を計算し、
トピック境界認定ステップにおいて、結束度が極小となる極小点あるいは極小点に直近の音声セグメントまたは、テロップ間の境界をトピック境界と認定する。
【００２６】
【発明の実施の形態】
以下、図面と共に本発明の実施の形態について説明する。
【００２７】
図３は、本発明の第１の実施の形態におけるトピック境界決定装置の構成を示す。
【００２８】
同図に示すトピック境界決定装置は、データ入力部５、単語配列部１、不要語除去部２、結束度算出部３、トピック境界認定部４、トピック境界検出結果出力部６から構成される。
【００２９】
データ入力部５は、図４に示すようなＸＭＬ形式の音声認識結果データを入力する。図４に示すデータにおいて、ＳＥＧＭＥＮＴ要素が１音声セグメントの情報であり、ＳＥＧＭＥＮＴ要素の“begin ”，“end ” 属性が当該音声セグメントの開始時刻、終了時刻を表す。
ＮＢＥＳＴ要素がＮＢＥＳＴ候補であり、その“score ”，“rank”属性は、それぞれ認識スコア、上位何番目の候補かを表す。各音声セグメント毎にＮＢＥＳＴ候補が一般に複数ある。なお、一つの音声認識結果テキストが一つのＮＢＥＳＴ候補に対応しており、音声認識処理のスコアの高い順に得られる認識結果候補のそれぞれをＮＢＥＳＴ候補という。
ＴＥＸＴ要素は、対応するＮＢＥＳＴ候補の音声認識結果テキストであり、ＷＯＲＤ要素は、TEXT要素の内容を構成する単語である。ＷＯＲＤ要素の“begin ”，“end ”，“score ”，“pos ”属性は、当該単語の開始時刻、終了時刻、認識スコア、品詞情報を表す。
【００３０】
単語配列部１は、各音声セグメントに対して所定の個数のＮＢＥＳＴ候補を採用し、各音声セグメント毎に、採用した各ＮＢＥＳＴ候補に含まれる単語集合をマージして単語の開始時刻情報の順に該単語を昇順にソートする。
【００３１】
不要語除去部２は、ソートされた単語の並びである単語列から付属語を含む不要語を除去する。
【００３２】
結束度算出部３は、全音声セグメントの単語列をつなげてできる単語列において、各単語境界の前後に一定の単語数の単語列中の単語の範囲（以下、窓と記す）を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の該窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する。
【００３３】
トピック境界認定部４は、結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定する。
【００３４】
トピック境界検出結果出力部６は、トピック境界認定部４により認定されたトピック境界を出力する。
【００３５】
次に、上記の構成における動作を説明する。
【００３６】
図５は、本発明の第１の実施の形態における動作のフローチャートである。
【００３７】
ステップ１０１）データ入力部５において、音声認識結果データとして、各音声セグメントに対して認識スコアの高い順に複数のＮＢＥＳＴ候補と、当該ＮＢＥＳＴ候補に対する単語分割結果及び、当該単語分割結果の各単語に開始時刻情報が付与されているデータを入力する。
【００３８】
ステップ１０２）単語配列部１は、入力されたデータの各音声セグメントに対して所定の個数のＮＢＥＳＴ候補を採用する。ここで、所定の個数とは、１以上の整数または、全ＮＢＥＳＴ候補である。そして、各音声セグメント毎に、採用した各ＮＢＥＳＴ候補に含まれる単語集合をマージして単語の開始時刻情報の順に単語をソートする。図６に、上位２個のＮＢＥＳＴ候補を採用したときの単語配列処理の結果を示す。
【００３９】
ステップ１０３）次に、不要語除去部２は、単語列からトピックセグメンテーションに関係がないと考えられる付属語等の不要語を除去する。ここで、入力されたデータの単語情報には、単語表記や品詞の情報があり、この情報から助詞や助動詞などの付属語を抽出する。これらの助詞や助動詞は、トピックセグメンテーションには影響を及ぼさないと考えられ、このような単語を不要語と判断する。不要語除去を実現するために、不要語であると判断するロジックをプログラムとして実現してもよいし、または、外部テーブルとして不要語リスト（不要語とみなす単語表記や、品詞を記述する）を用意して、当該不要語リストを不要語除去処理を行うプログラムが参照してもよい。図６の各ＷＯＲＤ要素のpos 属性の値により、付属語を削除し得られた結果を図７に示す。
【００４０】
ステップ１０４）結束度算出部３は、全音声セグメントの単語列をつなげてできる単語列において、各単語境界の前後に一定の単語数の単語列の窓をとり、各窓毎に、窓に含まれる単語の出現頻度ベクトル等の窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の余弦測度等の類似度を当該単語境界の結束度として算出する。この例を図８に示す。ＮＢＥＳＴ候補を複数とることに応じて、結束度計算の窓幅はより長くとる。認識の信頼性の高い単語（例えば、図７中の『調整』、『九州』）は、より多くのＮＢＥＳＴ候補に出力すると考えられるので、各窓に多く出現し、窓の意味を表すベクトルは、信頼性の高い単語の影響が大きく、逆に信頼性の低い単語の影響は少なくなる。よって、窓の意味を表すベクトル及び結束度は、従来の技術に比べより適切なものとなる。
【００４１】
ステップ１０５）トピック境界認定部４は、結束度が極小となる単語境界を求め、当該極小点あるいは当該極小点に直近の音声セグメント境界をトピック境界と認定する。
【００４２】
ステップ１０６）トピック境界検出結果出力部６は、トピック境界認定部４で認定されたトピック境界を出力する。
【００４３】
［第２の実施の形態］
本実施の形態では、結束度算出部３において、概念ベースを用いた場合について説明する。
【００４４】
図９は、本発明の第２の実施の形態におけるトピック境界決定装置の構成を示す。図３の構成と同一部分については同一符号を付し、その説明を省略する。
【００４５】
また、図１０は、本発明の第２の実施の形態における概念ベースの例を示す。
概念ベース１０には、単語と当該単語の意味表現であるベクトルの対の集合が格納されており、ベクトル値が近ければ対応する単語の意味も近いという性質を持っている。なお、概念ベース１０は、データベース等の記憶手段に格納されているものとする。
【００４６】
本実施の形態では、前述の第１の実施の形態の構成に当該概念ベース１０を追加した構成である。これにより、第１の実施の形態における図５のフローチャートのステップ１０４において、結束度算出部３が、図１０に示す単語毎にその意味表現であるベクトルが割り当てられている概念ベース１０を、各単語毎に当該単語を検索キーとして検索し、当該単語に対応するベクトルを取得する。
【００４７】
窓に含まれる単語ベクトルの集合をνr （１≦ｒ≦ｓ）、単語ベクトルνr に対応する単語の認識スコアをｇr とする。窓に対応するベクトルとして、当該窓に含まれる単語のベクトルの、認識スコアを重みとする重み付き平均を算出すると、
【００４８】
【数１】

をとる。このような計算をすることで、認識スコアの高い単語の影響が大きく、逆に認識スコアの低い単語の影響は少なくなるので、より窓の意味を適切に反映しており、その結果、結束度もより適切なものとなる。
【００４９】
［第３の実施の形態］
図１１は、本発明の第３の実施の形態におけるトピック境界決定装置の構成を示す。同図に示すトピック境界決定装置は、図９の構成に文中途判断部７及び文中途判断ベース２０が付加された構成である。なお、文中途判断ベース２０は、データベース等の記憶手段に格納されている。同図において図９と同一構成部分には同一符号を付し、その説明を省略する。
【００５０】
文中途判断部７は、各音声セグメントの認識結果テキストの末尾の単語列の表記や品詞、句読点等の情報から当該音声セグメントが文の途中であるかどうかを、文中途判断ベース２０を参照して判断する。
【００５１】
これにより、トピック境界認定部４は、文中途判断部７で文の中途と判断された音声セグメントの直後の境界を除く音声セグメント境界集合の中で、結束度が極小となる極小点に直近の音声セグメント境界をトピック境界と認定する。
【００５２】
図１２は、本発明の第３の実施の形態における動作のフローチャートである。同図において、ステップ２０１と図５のステップ１０１は同様であり、また、ステップ２０３〜ステップ２０５及びステップ２０７は、図５のステップ１０２〜ステップ１０４及びステップ１０６と同様であるので、その説明は省略する。
【００５３】
文中途判断部７は、データが入力されると（ステップ２０１）各音声セグメントの例えば最尤（ｒａｎｋ＝“１”）のＮＢＥＳＴ候補の末尾の単語列の表記や品詞、句読点等の情報から、当該音声セグメントが文の途中であるかどうかを判断する。例えば、文の中途と認定できる単語列の情報を文中途判断ベース２０に格納しておき、ＮＢＥＳＴ候補の末尾の単語列が文中途判断ベース２０中のいずれかの単語列とマッチした場合に、当該音声セグメントが文の中途であると判断する（ステップ２０２）。
【００５４】
図１３は、本発明の第３の実施の形態における文中途判断ベースの例を示す。文中途判断ベース２０の各レコードは、「単語表記；品詞情報」の列となっている。例えば、ＮＢＥＳＴ候補の単語列が『台風（名詞）・に（格助詞）・見舞（動詞語幹）・わ（動詞活用語尾）・れ（動詞接尾辞）』であったなら、文中途判断ベース中の２番目のレコードにマッチするので、当該音声セグメントは、文の中途であると判断する。
【００５５】
トピック境界認定部４では、文中途判断部７で文の途中と判断された音声セグメントの直後の境界は文の中途なので、音声セグメント境界集合から外した上で、結束度が極小となる極小点に直近の音声セグメント境界をトピック境界と認定する（ステップ２０６）。これにより、トピック境界は常に文と文の間になり、文の中途となることはないので、セグメンテーションの精度が向上する。
【００５６】
［第４の実施の形態］
図１４は、本発明の第４の実施の形態におけるトピック境界決定装置の構成を示す。同図に示すトピック境界決定装置は、図９の構成に、テロップ認識結果テキスト挿入部８、テロップ認識結果テキスト単語分割部９を付加した構成である。図１４の構成において、図９の構成と同一部分には、同一符号を付しその説明を省略する。
【００５７】
但し、データ入力部５から入力されるデータは、セグメント対象の映像コンテンツに含まれているテロップを文字認識により認識した結果得られるデータであり、各テロップ認識結果テキストに開始時刻情報があるデータも入力される。
【００５８】
テロップ認識結果テキスト挿入部８は、各テロップ認識結果テキストを音声セグメント列の中に、開始時刻情報が昇順となるように挿入する。
【００５９】
テロップ認識結果テキスト単語分割部９は、各テロップ認識結果テキストを単語分割する。
【００６０】
図１５は、本発明の第４の実施の形態における動作のフローチャートである。
ステップ３０１）データ入力部５は、セグメント対象の映像コンテンツに含まれているテロップを文字認識により認識した結果得られるデータ（テロップ認識結果テキスト）を入力とする。入力されるデータの例を図１６に示す。ＴＥＬＯＰ要素が１テロップの情報であり、ＴＥＬＯＰ要素のbegin, end属性が当該テロップの開始時刻、終了時刻である。
【００６１】
ステップ３０２）テロップ認識結果テキスト挿入部８は、各テロップ認識結果テキストを音声セグメント列の中に開始時刻情報が昇順となるように挿入する。図１７に、図１６におけるＴＥＬＯＰ要素を前述の図４の音声認識結果データ中に挿入した結果の例を示す。ＳＥＧＭＥＮＴ要素及びＴＥＬＯＰ要素の“begin ”が昇順となるように、ＳＥＧＭＥＮＴ要素とＴＥＬＯＰ要素が配置さている。図４では、ＳＥＧＭＥＮＴ要素に“begin ”属性があるが、ない場合は、ＳＥＧＭＥＮＴ要素内のＷＯＲＤ要素の“begin ”の最小値をとってもよい。
【００６２】
ステップ３０３）テロップ認識結果テキスト単語分割部９は、各テロップ認識結果テキストを単語分割する。図１８に、ＴＥＬＯＰ要素のテキストを単語分割した結果のデータを示す。ＴＥＬＯＰ要素におけるＷＯＲＤ要素が、単語分割して得られた単語である。ＷＯＲＤ要素には品詞情報である“pos ”属性がある。
【００６３】
ステップ３０４）単語配列部１は、前述の第１の実施の形態と同様の処理を行う。当該処理によって得られた結果を図１９に示す。
【００６４】
ステップ３０５）不要語除去部２は、音声セグメント及びテロップにおける単語列から付属語等の不要語を除去する。図１９に示すＳＥＧＭＥＮＴ要素及びＴＥＬＯＰ要素における各ＷＯＲＤ要素から、“pos ”属性の値に基づいて、付属語のＷＯＲＤ要素を除去して得られた結果を図２０に示す。
【００６５】
ステップ３０６）結束度算出部３は、全ＳＥＧＭＥＮＴ要素及びＴＥＬＯＰ要素中のＷＯＲＤ要素の配列において、結束度を算出する。
【００６６】
ステップ３０７）トピック境界認定部４は、結束度が極小となる極小点をトピック境界と認定する。あるいは、ＳＥＧＭＥＮＴ要素及びＴＥＬＯＰ要素列から、極小点に直近のＳＥＧＭＥＮＴ要素−ＳＥＧＭＥＮＴ要素間、ＳＥＧＭＥＮＴ要素−ＴＥＬＯＰ要素間、ＴＥＬＯＰ要素−ＴＥＬＯＰ要素間の境界をトピック境界と認定する。
【００６７】
ステップ３０８）トピック境界検出結果出力部６は、認定されたトピック境界を出力する。
【００６８】
テロップ「台風の情報」は、トピックの見出し相当のテキストであり、この直前の境界がトピック境界と認定される可能性が高くなる。
【００６９】
本発明は、上記の概念ベース、文中途判断ベースをデータベース等の記憶手段に格納した上で、前述の第１から第４の実施の形態の動作をプログラムとして構築し、トピック境界決定装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることも可能である。
【００７０】
また、構築されたプログラムをトピック境界決定装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールし、ＣＰＵ等の制御装置で制御することも可能である。
【００７１】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【００７２】
【発明の効果】
上述のように、本発明によれば、映像コンテンツや音声コンテンツのトピックセグメンテーションにおいて、従来の技術よりも高い精度を実現することができる。
【図面の簡単な説明】
【図１】本発明の原理を説明するための図である。
【図２】本発明の原理構成図である。
【図３】本発明の第１の実施の形態におけるトピック境界決定装置の構成図である。
【図４】本発明の第１の実施の形態における音声認識結果データの例である。
【図５】本発明の第１の実施の形態における動作のフローチャートである。
【図６】本発明の第１の実施の形態における単語配列部が上位２個のＮＢＥＳＴ候補を採用した場合の単語配列処理結果の例である。
【図７】本発明の第１の実施の形態における不要語を除去した例である。
【図８】本発明の第１の実施の形態における結束度算出処理を説明するための図である。
【図９】本発明の第２の実施の形態におけるトピック境界決定装置の構成図である。
【図１０】本発明の第２の実施の形態における概念ベースの例である。
【図１１】本発明の第３の実施の形態におけるトピック境界決定装置の構成図である。
【図１２】本発明の第３の実施の形態における動作のフローチャートである。
【図１３】本発明の第３の実施の形態における文中途判断ベースの例である。
【図１４】本発明の第４の実施の形態におけるトピック境界決定装置の構成図である。
【図１５】本発明の第４の実施の形態における動作のフローチャートである。
【図１６】本発明の第４の実施の形態における入力されるテロップ認識結果テキストの例である。
【図１７】本発明の第４の実施の形態におけるＴＥＬＯＰ要素を音声認識結果データに挿入した例である。
【図１８】本発明の第４の実施の形態におけるＴＥＬＯＰ要素のテキストを単語分割した結果である。
【図１９】本発明の第４の実施の形態における単語配列処理の結果である。
【図２０】本発明の第４の実施の形態における不要語を除去した例である。
【符号の説明】
１単語配列手段、単語配列部
２不要語除去手段、不要語除去部
３結束度算出手段、結束度算出部
４トピック境界認定手段、トピック境界認定部
５データ入力部
６トピック境界検出結果出力部
７文中途判断部
８テロップ認識結果テキスト挿入部
９テロップ認識結果テキスト単語分割部
１０概念ベース
２０文中途判断ベース

Claims

映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定方法において、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト（以下、ＮＢＥＳＴ候補と記す）、該ＮＢＥＳＴ候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各セグメントに対して複数のＮＢＥＳＴ候補を採用し、各音声セグメント毎に、採用した複数のＮＢＥＳＴ候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列過程と、
ソートされた単語列から付属語を含む不要語を削除する不要語削除過程と、
一定の単語数Ｍの単語列中の単語の範囲を窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のＭ個の単語による窓と、その単語境界の直後のＭ個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出過程と、
前記結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定過程からなる
ことを特徴とするトピック境界決定方法。
映像コンテンツや音声コンテンツに含まれる音声を音声認識した結果得られたデータをトピック単位に分割するためのトピック境界決定方法において、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト（以下、ＮＢＥＳＴ候補と記す）、該ＮＢＥＳＴ候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各音声セグメントに対して１以上のＮＢＥＳＴ候補を採用し、各音声セグメント毎に、採用した１以上のＮＢＥＳＴ候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列過程と、
ソートされた単語列から付属語を含む不要語を削除する不要語削除過程と、
一定の単語数Ｍの単語列中の単語の範囲の窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のＭ個の単語に含まれる窓と、その単語境界の直後のＭ個の単語による窓を指定し、各窓毎に、該窓に含まる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の該窓に対応するベクトル間の、余弦速度を始めとする類似度を当該単語境界の結束度として算出する結束度算出過程と、
前記結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定過程と、
からなり、
前記認識結果テキスト中の各単語に認識スコア情報があるデータが入力されると、
前記結束度算出過程において、
各単語毎に該単語を検索キーとして、単語と該単語の意味表現であるベクトルの対の集合が格納された概念ベースを検索して、該単語に対応するベクトルを取得し、
前記窓の意味を表すベクトルとして、該窓に含まれる単語のベクトルの、認識スコアを重みとする重み付き平均を算出することを特徴とするトピック境界決定方法。
映像コンテンツや音声コンテンツに含まれる音声を音声認識した結果得られたデータをトピック単位に分割するためのトピック境界決定方法において、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト（以下、ＮＢＥＳＴ候補と記す）、該ＮＢＥＳＴ候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各音声セグメントの認識結果テキストの末尾の単語列の表記や品詞、句読点を含む情報から、該音声セグメントが文の中途であるかどうかを判断する文中途判断過程と、
各音声セグメントに対して１以上のＮＢＥＳＴ候補を採用し、各音声セグメント毎に、採用した１以上のＮＢＥＳＴ候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列過程と、
ソートされた単語列から付属語を含む不要語を削除する不要語削除過程と、
一定の単語数Ｍの単語列中の単語の範囲の窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のＭ個の単語に含まれる窓と、その単語境界の直後のＭ個の単語による窓を指定し、各窓毎に、該窓に含まる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の該窓に対応するベクトル間の、余弦速度を始めとする類似度を当該単語境界の結束度として算出する結束度算出過程と、
前記文中途判断過程で文の中途であると判断された音声セグメントの直後の境界を除く音声セグメント境界集合の中で、結束度が極小となる極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定過程と、
からなることを特徴とするトピック境界決定方法。
映像コンテンツや音声コンテンツに含まれる音声を音声認識した結果得られたデータをトピック単位に分割するためのトピック境界決定方法において、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト（以下、ＮＢＥＳＴ候補と記す）、該ＮＢＥＳＴ候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データと、セグメント対象の映像コンテンツに含まれているテロップを文字認識により認識した結果得られるデータであって、各テロップ認識結果テキストに開始時刻情報を含むデータが入力されると、
前記各テロップ認識結果テキストを音声セグメント列の中に、開始時刻情報が昇順となるように挿入するテロップ認識結果テキスト挿入過程と、
前記各テロップ認識結果テキストを単語分割するテロップ認識結果テキスト単語分割過程と、
各音声セグメントに対して１以上のＮＢＥＳＴ候補を採用し、各音声セグメント毎に、採用した１以上のＮＢＥＳＴ候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列過程と、
ソートされた単語列から付属語を含む不要語及び、前記テロップ認識結果テキスト単語分割過程で得られた単語で付属語を含む不要語を削除する不要語削除過程と、
一定の単語数Ｍの単語列中の単語の範囲の窓とし、全音声セグメント及びテロップ中の単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のＭ個の単語に含まれる窓と、その単語境界の直後のＭ個の単語による窓を指定し、各窓毎に、該窓に含まる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の該窓に対応するベクトル間の、余弦速度を始めとする類似度を当該単語境界の結束度として算出する結束度算出過程と、
前記結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメントまたは、テロップ間の境界をトピック境界と認定するトピック境界認定過程と、
からなることを特徴とするトピック境界決定方法。
映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定装置であって、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト（以下、ＮＢＥＳＴ候補と記す）、該ＮＢＥＳＴ候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各セグメントに対して複数のＮＢＥＳＴ候補を採用し、各音声セグメント毎に、採用した複数のＮＢＥＳＴ候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列手段と、
ソートされた単語列から付属語を含む不要語を削除する不要語除去手段と、
一定の単語数Ｍの単語列中の単語の範囲を窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のＭ個の単語による窓と、その単語境界の直後のＭ個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出手段と、
前記結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定手段と、
を有することを特徴とするトピック境界決定装置。
映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定装置であって、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト（以下、ＮＢＥＳＴ候補と記す）、該ＮＢＥＳＴ候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各セグメントに対して１以上のＮＢＥＳＴ候補を採用し、各音声セグメント毎に、採用した１以上のＮＢＥＳＴ候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列手段と、
ソートされた単語列から付属語を含む不要語を削除する不要語除去手段と、
一定の単語数Ｍの単語列中の単語の範囲を窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のＭ個の単語による窓と、その単語境界の直後のＭ個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出手段と、
前記結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定手段と、
を有し、
前記結束度算出手段は、
前記認識結果テキスト中の各単語に認識スコア情報があるデータが入力されると、各単語毎に該単語を検索キーとして、単語と該単語の意味表現であるベクトルの対の集合が格納された概念ベースを検索して、該単語に対応するベクトルを取得する手段と、
前記窓の意味を表すベクトルとして、該窓に含まれる単語のベクトルの、認識スコアを重みとする重み付き平均を算出する手段とを有することを特徴とするトピック境界決定装置。
映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定装置であって、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト（以下、ＮＢＥＳＴ候補と記す）、該ＮＢＥＳＴ候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各音声セグメントの認識結果テキストの末尾の単語列の表記や品詞、句読点を含む情報から、該音声セグメントが文の中途であるかどうかを判断する文中途判断手段と、
各音声セグメントに対して１以上のＮＢＥＳＴ候補を採用し、各音声セグメント毎に、採用した１以上のＮＢＥＳＴ候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列手段と、
ソートされた単語列から付属語を含む不要語を削除する不要語除去手段と、
一定の単語数Ｍの単語列中の単語の範囲を窓とし、全音声セグメントの単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のＭ個の単語による窓と、その単語境界の直後のＭ個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出手段と、
前記文中途判断手段で文の中途であると判断された音声セグメントの直後の境界を除く音声セグメント境界集合の中で、結束度が極小となる極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定手段と、
を有することを特徴とするトピック境界決定装置。
映像コンテンツや音声コンテンツに含まれる音声を認識した結果得られたデータをトピック単位に分割するためのトピック境界決定装置であって、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト（以下、ＮＢＥＳＴ候補と記す）、該ＮＢＥＳＴ候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データと、セグメント対象の映像コンテンツに含まれているテロップを文字認識により認識した結果得られるデータであって、各テロップ認識結果テキストに開始時刻情報を含むデータが入力されると、
前記各テロップ認識結果テキストを音声セグメント列の中に、開始時刻情報が昇順となるように挿入するテロップ認識結果テキスト挿入手段と、
前記各テロップ認識結果テキストを単語分割するテロップ認識結果テキスト単語分割手段と、
各音声セグメントに対して１以上のＮＢＥＳＴ候補を採用し、各音声セグメント毎に、採用した１以上のＮＢＥＳＴ候補のそれぞれに含まれる単語集合をマージして、マージされた単語集合を、単語の開始時刻情報の順に該単語を昇順にソートした単語列にする単語配列手段と、
ソートされた単語列から付属語を含む不要語及び前記テロップ認識結果テキスト単語分割手段で得られた単語で付属語を含む不要語を削除する不要語除去手段と、
一定の単語数Ｍの単語列中の単語の範囲を窓とし、全音声セグメント及びテロップ中の単語列をつなげてできる単語列において、各単語境界に対して、その単語境界の直前のＭ個の単語による窓と、その単語境界の直後のＭ個の単語による窓を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出手段と、
前記結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメントまたはテロップ間の境界をトピック境界と認定するトピック境界認定手段と、
を有することを特徴とするトピック境界決定装置。
コンピュータを、
請求項５乃至８記載のトピック境界決定装置として機能させるプログラム。