JP4239850B2 - 映像キーワード抽出方法及び装置及びプログラム - Google Patents
映像キーワード抽出方法及び装置及びプログラム Download PDFInfo
- Publication number
- JP4239850B2 JP4239850B2 JP2004041588A JP2004041588A JP4239850B2 JP 4239850 B2 JP4239850 B2 JP 4239850B2 JP 2004041588 A JP2004041588 A JP 2004041588A JP 2004041588 A JP2004041588 A JP 2004041588A JP 4239850 B2 JP4239850 B2 JP 4239850B2
- Authority
- JP
- Japan
- Prior art keywords
- telop
- scenario
- topic
- video
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
- Processing Or Creating Images (AREA)
Description
藤本他、「テロップ文字認識を用いた商品紹介映像の区間分割」(画像の認識・理解シンポジウム(MIRU2002))
(1)シナリオから映像制作者の意図に沿った重要なキーワードを抽出することが可能;
(2)予めキーワード辞書を用意することなく、映像キーワードの抽出が可能;
(3)テロップ認識の結果に誤りがある場合でも重要なキーワードを抽出可能;
な映像キーワード抽出方法及び装置及びプログラムを提供することを目的とする。
シナリオ読み込み手段が、指定された映像識別情報に基づいて、トピック区切りの切れ目情報が含まれるトピック情報が付与されているシナリオテキストが蓄積されたデータベースから該シナリオテキストを読み込み、トピックの切れ目記号が現われる度に該シナリオテキストに対して異なるトピックを付与するシナリオ読み込み過程(ステップ1)と、
テロップ原稿読み込み手段が、映像識別情報に基づいて、シナリオテキストに対応する映像のテロップ原稿が蓄積されたデータベースからテロップ原稿を読み込むテロップ原稿読み込み過程(ステップ2)と、
テロップ情報抽出手段が、テロップ原稿を解析して、文字数に比して長く画面に表示されるほど、かつ、文字の大きさが大きいほど大きな値となるテロップ重要度を算出し、該テロップ重要度に基づいて該テロップ原稿から名詞句を抽出するテロップ情報抽出過程(ステップ3)と、
適合判定処理手段が、テロップから抽出された名詞句とシナリオテキストのシナリオとを文字列比較し、一致している名詞句を抽出して、抽出された名詞句に割り当てられたテロップ重要度の和が大きな値であるほど大きな値をとるようにシナリオ重要度を算出し、該シナリオ重要度が一定値以上のシナリオテキストをトピックの重要文として選択し、選択された重要文の中に含まれる該抽出された名詞句をトピックのキーワードとして抽出する適合判定処理過程(ステップ4)と、を行う。
トピックの切れ目情報が含まれるトピック情報が付与されているシナリオテキストが蓄積されたシナリオデータベース14と、
テロップ原稿が蓄積されたテロップ原稿データベース13と、
処理対象の映像識別情報を指定する指定手段15と、
指定手段により指定された映像識別情報に基づいて、シナリオデータベース14からシナリオテキストを読み込み、トピックの切れ目記号が現われる度に該シナリオテキストに対して異なるトピックを付与するシナリオ読み込み手段17と、
指定手段15により指定された映像識別情報に基づいて、テロップ原稿データベース13からテロップ原稿を読み込むテロップ原稿読み込み手段16と、
テロップ原稿を解析して、文字数に比して長く画面に表示されるほど、かつ、文字の大きさが大きいほど大きな値となるテロップ重要度を算出し、該テロップ重要度に基づいて該テロップ原稿から名詞句を抽出し、抽出された該名詞句とシナリオテキストのシナリオとを文字列比較し、一致している名詞句を抽出して、抽出された名詞句に割り当てられたテロップ重要度の和が大きな値であるほど大きな値をとるようにシナリオ重要度を算出し、該シナリオ重要度が一定値以上のシナリオテキストをトピックの重要文として選択し、選択された重要文の中に含まれる該抽出された名詞句をトピックのキーワードとして抽出する適合判定処理手段18と、を有する。
テロップ認識結果読み込み手段が、指定された映像識別情報に基づいて、入力映像中に表示されたテロップ文字列が認識された結果が蓄積されたテロップ認識結果データベースからテロップ認識結果を読み込み、文字数に比して長く画面に表示されるほど、かつ、文字の大きさが大きいほど大きな値となるテロップ重要度を算出するテロップ認識結果読み込み過程と、
シナリオ解析手段が、指定された映像識別情報に基づいて、トピック区切りの切れ目情報が含まれるトピック情報が付与されているシナリオテキストが蓄積されたデータベースから該シナリオテキストを読み込み、トピックの切れ目記号が現われる度にシナリオテキストに対して異なるトピックを付与し、該シナリオテキストを解析して名詞句を抽出するシナリオ解析過程と、
類似適合判定手段がシナリオテキストから抽出された名詞句とテロップ認識結果とを類似文字列を比較し、類似度を算出し、該類似度が一定値以上である名詞句を抽出して、抽出された名詞句に割り当てられたテロップ重要度の和が大きな値であるほど大きな値をとるようにシナリオ重要度を算出し、該シナリオ重要度が一定値以上のシナリオテキストをトピックの重要文として選択し、選択された重要文の中に含まれる該抽出された名詞句をトピックのキーワードとして抽出する類似適合判定過程と、を行う。
入力映像中に表示されたテロップ文字列が認識された結果が蓄積されたテロップ認識結果データベースと、
トピックの切れ目情報が含まれるトピック情報が付与されているシナリオテキストが蓄積されたシナリオデータベースと、
指定された映像識別情報に基づいて、テロップ認識結果データベースからテロップ認識結果を読み込むテロップ認識結果読み込み手段と、
指定された映像識別情報に基づいて、シナリオテキストデータベースからシナリオテキストを読み込み、該シナリオテキストを解析して名詞句を抽出するシナリオ解析手段と、
シナリオテキストから抽出された名詞句とテロップ認識結果とを類似文字列を比較し、類似度を算出し、該類似度を一定値以上である名詞句を抽出して、抽出された名詞句に割り当てられたテロップ重要度の和が大きな値であるほど大きな値をとるようにシナリオ重要度を算出し、該シナリオ重要度が一定値以上のシナリオテキストをトピックの重要文として選択し、選択された重要文の中に含まれる該抽出された名詞句をトピックのキーワードとして抽出する類似適合判定手段と、を有する。
w(y)=by 2log10(my/ny)
として算出する。
Y:テロップIDyの最大値;
ay(i):テロップTyから抽出されたi番目の名詞句;
n:テロップTyから抽出された名詞句の数;
適合判定処理部18は、初めに、ステップ401からステップ407の処理により、あるx,yについてシナリオJxとテロップ名詞列Tyとの文字列比較を行い、対応表C(x,y)に一致した単語数の割合を書き込む。ステップ408からステップ411までは、表内を総当り的に走査していくステップである。
図20は、本発明の第2の実施の形態における映像キーワード抽出装置の構成を示す。
D[i,j0-1]=D[i-1,j0]+ins(ki)
D[i0-1,j]=D[i0-1.k-1]+del(gj)
D[i,j]=min{D[i-1,j-1]+sub(ki,gj),D[i-1,j]+del(ki),D[i,j-1]+ins(gj)}
(i0≦i≦I, j0≦j≦J)
コストとして考えられるものとしては、例えば、任意のi,jについて、sub(ki,gj)=0(gjの認識候補中にkiが存在する場合。以降便宜上ki=gj表す)、sub(ki,gj)=1(gjの認識候補中にkiが存在しない場合。以降便宜上ki≠gjと表す)、del(gj)=1, ins(ki)=1などがある。また、sub(ki,gj)={テロップ認識において算出された文字の類似度(0から1の範囲)}とする方法も考えられる。
dist(K,G)=min{D[I,j]} …(式A)
である。
D[i,j]:編集距離マトリックス;
ki:あるシナリオ名詞句のi番目の文字;
gj:あるテロップ認識結果文字列のj番目の文字(複数候補が存在);
N:ki=gjとなった回数。ただし、ki=gjは複数候補を持つ文字gjの候補中に文字kiが含まれていることを示す(以下、同様);
Q:類似度;
I:シナリオ名詞句Kの文字列数(iの最大値);
J:テロップ認識結果Gの文字列長(jの最大値);
を示す。
図27は、本発明の第3の実施の形態における映像キーワード抽出装置の構成図である。
また、重要文自体へのポインタを書き込む。
12 シナリオテキスト入力部
13 テロップ原稿データベース、テロップ原稿記憶部
14 シナリオテキストデータベース、シナリオテキスト記憶部
15 指定手段、制御部
16 テロップ原稿読み込み手段、テロップ情報抽出部
17 シナリオ読み込み手段、シナリオ読み込み部
18 適合判定処理手段、適合判定処理部
19 出力手段、出力部
93 テロップ認識結果記憶部
96 テロップ認識結果読み込み部
97 シナリオテキスト解析部
98 類似適合判定処理部
99 出力部
161 テロップワード記憶テーブル
171 シナリオテキスト記憶テーブル
137 シナリオテキスト解析部
138 類似適合判定処理部
139 出力部
952 映像番号
961 テロップ認識結果記憶テーブル
971 シナリオ名詞句記憶テーブル
2101 ID
2102 テロップ表示開始時刻
2103 テロップ表示時間長
2104 テロップ
2105 文字数
2106 文字の大きさ
2201 ID
2202 テロップ名詞列
2203 テロップ重要度
2301 ID
2302 トピックID
2303 シナリオ
2701 テロップID
2702 トピック3のキーワード
2901 名詞句IDx’
2902 シナリオIDx’
2903 トピックIDt
2904 文中でキーワードが出現する文字位置
2905 シナリオ名詞句Kx
3001 ID
3002 テロップ表示開始時刻
3003 テロップ表示終了時刻
3004 文字数
3005 文字の大きさ
3006 テロップ重要度
3007 テロップ認識結果文字列
3201 ID
3202 トピックID
3204 出現文字位置
3205 シナリオ名詞句列
3301 テロップID
3302 トピックID
3303 キーワード列
3304 重要度
3305 関連テロップID
Claims (5)
- データベース、シナリオ読み込み手段、テロップ原稿読み込み手段、テロップ情報抽出手段、適合判定処理手段を有する映像キーワード抽出装置における、大量の映像データから所望の映像を検索する際に必要なトピック区間のキーワードを抽出するための映像キーワード抽出方法において、
前記シナリオ読み込み手段が、指定された映像識別情報に基づいて、トピック区切りの切れ目情報が含まれるトピック情報が付与されているシナリオテキストが蓄積されたデータベースから該シナリオテキストを読み込み、トピックの切れ目記号が現われる度に該シナリオテキストに対して異なるトピックを付与するシナリオ読み込み過程と、
前記テロップ原稿読み込み手段が、前記映像識別情報に基づいて、前記シナリオテキストに対応する映像のテロップ原稿が蓄積されたデータベースからテロップ原稿を読み込むテロップ原稿読み込み過程と、
前記テロップ情報抽出手段が、前記テロップ原稿を解析して、文字数に比して長く画面に表示されるほど、かつ、文字の大きさが大きいほど大きな値となるテロップ重要度を算出し、該テロップ重要度に基づいて該テロップ原稿から名詞句を抽出するテロップ情報抽出過程と、
前記適合判定処理手段が、前記テロップから抽出された前記名詞句と前記シナリオテキストのシナリオとを文字列比較し、一致している名詞句を抽出して、抽出された名詞句に割り当てられたテロップ重要度の和が大きな値であるほど大きな値をとるようにシナリオ重要度を算出し、該シナリオ重要度が一定値以上のシナリオテキストをトピックの重要文として選択し、選択された重要文の中に含まれる該抽出された名詞句をトピックのキーワードとして抽出する適合判定処理過程と、
を行うことを特徴とする映像キーワード抽出方法。 - 大量の映像データから所望の映像を検索する際に必要なトピック区間のキーワードを抽出するための映像キーワード抽出装置であって、
トピックの切れ目情報が含まれるトピック情報が付与されているシナリオテキストが蓄積されたシナリオデータベースと、
テロップ原稿が蓄積されたテロップ原稿データベースと、
処理対象の映像識別情報を指定する指定手段と、
前記指定手段により指定された映像識別情報に基づいて、前記シナリオデータベースからシナリオテキストを読み込み、トピックの切れ目記号が現われる度に該シナリオテキストに対して異なるトピックを付与するシナリオ読み込み手段と、
前記指定手段により指定された前記映像識別情報に基づいて、前記テロップ原稿データベースからテロップ原稿を読み込むテロップ原稿読み込み手段と、
前記テロップ原稿を解析して、文字数に比して長く画面に表示されるほど、かつ、文字の大きさが大きいほど大きな値となるテロップ重要度を算出し、該テロップ重要度に基づいて該テロップ原稿から名詞句を抽出し、抽出された該名詞句と前記シナリオテキストのシナリオとを文字列比較し、一致している名詞句を抽出して、抽出された名詞句に割り当てられたテロップ重要度の和が大きな値であるほど大きな値をとるようにシナリオ重要度を算出し、該シナリオ重要度が一定値以上のシナリオテキストをトピックの重要文として選択し、選択された重要文の中に含まれる該抽出された名詞句をトピックのキーワードとして抽出する適合判定処理手段と、
を有することを特徴とする映像キーワード抽出装置。 - データベース、テロップ認識結果読み込み手段、シナリオ解析手段、類似適合判定手段を有する映像キーワード抽出装置における、大量の映像データから所望の映像を検索する際に必要なトピック区間のキーワードを抽出するための映像キーワード抽出方法において、
前記テロップ認識結果読み込み手段が、指定された映像識別情報に基づいて、入力映像中に表示されたテロップ文字列が認識された結果が蓄積されたテロップ認識結果データベースからテロップ認識結果を読み込み、文字数に比して長く画面に表示されるほど、かつ、文字の大きさが大きいほど大きな値となるテロップ重要度を算出するテロップ認識結果読み込み過程と、
前記シナリオ解析手段が、指定された映像識別情報に基づいて、トピック区切りの切れ目情報が含まれるトピック情報が付与されているシナリオテキストが蓄積されたデータベースから該シナリオテキストを読み込み、トピックの切れ目記号が現われる度にシナリオテキストに対して異なるトピックを付与し、該シナリオテキストを解析して名詞句を抽出するシナリオ解析過程と、
前記類似適合判定手段が前記シナリオテキストから抽出された前記名詞句と前記テロップ認識結果とを類似文字列を比較し、類似度を算出し、該類似度が一定値以上である名詞句を抽出して、抽出された名詞句に割り当てられたテロップ重要度の和が大きな値であるほど大きな値をとるようにシナリオ重要度を算出し、該シナリオ重要度が一定値以上のシナリオテキストをトピックの重要文として選択し、選択された重要文の中に含まれる該抽出された名詞句をトピックのキーワードとして抽出する類似適合判定過程と、
を行うことを特徴とする映像キーワード抽出方法。 - 大量の映像データから所望の映像を検索する際に必要なトピック区間のキーワードを抽出するための映像キーワード抽出装置であって、
入力映像中に表示されたテロップ文字列が認識された結果が蓄積されたテロップ認識結果データベースと、
トピックの切れ目情報が含まれるトピック情報が付与されているシナリオテキストが蓄積されたシナリオデータベースと、
指定された映像識別情報に基づいて、前記テロップ認識結果データベースからテロップ認識結果を読み込むテロップ認識結果読み込み手段と、
指定された映像識別情報に基づいて、前記シナリオテキストデータベースからシナリオテキストを読み込み、該シナリオテキストを解析して名詞句を抽出するシナリオ解析手段と、
前記シナリオテキストから抽出された前記名詞句と前記テロップ認識結果とを類似文字列を比較し、類似度を算出し、該類似度を一定値以上である名詞句を抽出して、抽出された名詞句に割り当てられたテロップ重要度の和が大きな値であるほど大きな値をとるようにシナリオ重要度を算出し、該シナリオ重要度が一定値以上のシナリオテキストをトピックの重要文として選択し、選択された重要文の中に含まれる該抽出された名詞句をトピックのキーワードとして抽出する類似適合判定手段と、
を有することを特徴とする映像キーワード抽出装置。 - 請求項2または4に記載の映像キーワード抽出装置を構成する各手段としてコンピュータを機能させるための映像キーワード抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004041588A JP4239850B2 (ja) | 2004-02-18 | 2004-02-18 | 映像キーワード抽出方法及び装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004041588A JP4239850B2 (ja) | 2004-02-18 | 2004-02-18 | 映像キーワード抽出方法及び装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005234786A JP2005234786A (ja) | 2005-09-02 |
JP4239850B2 true JP4239850B2 (ja) | 2009-03-18 |
Family
ID=35017697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004041588A Expired - Fee Related JP4239850B2 (ja) | 2004-02-18 | 2004-02-18 | 映像キーワード抽出方法及び装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4239850B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8657205B2 (en) | 2010-09-15 | 2014-02-25 | Fuji Xerox Co., Ltd. | Image processing apparatus, identification apparatus, method for determining bit sequence and computer readable medium |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4439462B2 (ja) * | 2005-11-29 | 2010-03-24 | 株式会社東芝 | 情報提示方法、情報提示装置及び情報提示プログラム |
JP4695582B2 (ja) * | 2006-12-04 | 2011-06-08 | 日本放送協会 | 映像抽出装置及び映像抽出プログラム |
JP4905103B2 (ja) * | 2006-12-12 | 2012-03-28 | 株式会社日立製作所 | 動画再生装置 |
JP5029030B2 (ja) * | 2007-01-22 | 2012-09-19 | 富士通株式会社 | 情報付与プログラム、情報付与装置、および情報付与方法 |
JP5691654B2 (ja) * | 2011-03-03 | 2015-04-01 | 富士通株式会社 | 表示制御装置、表示制御方法、および表示制御プログラム |
KR102570285B1 (ko) * | 2020-02-17 | 2023-08-24 | 주식회사 엘지유플러스 | Vod 컨텐츠의 키워드를 출력하는 방법 및 장치 |
CN111899202B (zh) * | 2020-05-19 | 2024-03-15 | 武汉东智科技股份有限公司 | 一种视频图像中叠加时间字符的增强方法 |
CN113032679B (zh) * | 2021-04-19 | 2023-12-29 | 北京新三优秀科技有限公司 | 一种短视频处理方法、电子设备和计算机可读存储介质 |
-
2004
- 2004-02-18 JP JP2004041588A patent/JP4239850B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8657205B2 (en) | 2010-09-15 | 2014-02-25 | Fuji Xerox Co., Ltd. | Image processing apparatus, identification apparatus, method for determining bit sequence and computer readable medium |
Also Published As
Publication number | Publication date |
---|---|
JP2005234786A (ja) | 2005-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0440197B1 (en) | Method and apparatus for inputting text | |
JP5257071B2 (ja) | 類似度計算装置及び情報検索装置 | |
KR100682897B1 (ko) | 사전 업데이트 방법 및 그 장치 | |
US8356032B2 (en) | Method, medium, and system retrieving a media file based on extracted partial keyword | |
WO2010119615A1 (ja) | 学習データ生成装置、及び固有表現抽出システム | |
CN111276149B (zh) | 语音识别方法、装置、设备及可读存储介质 | |
JP2004348591A (ja) | 文書検索方法及び装置 | |
JP2005150841A (ja) | 情報処理方法及び情報処理装置 | |
US11501546B2 (en) | Media management system for video data processing and adaptation data generation | |
CN110413998B (zh) | 一种面向电力行业的自适应中文分词方法及其***、介质 | |
JP2007122403A (ja) | 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム | |
Lyu et al. | Neural OCR post-hoc correction of historical corpora | |
JP4239850B2 (ja) | 映像キーワード抽出方法及び装置及びプログラム | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN117669513B (zh) | 一种基于人工智能的数据管理***及方法 | |
Nouvel et al. | Coupling knowledge-based and data-driven systems for named entity recognition | |
JP3444831B2 (ja) | 編集処理装置、及び編集処理プログラムが記憶された記憶媒体 | |
Vidal et al. | Probabilistic indexing and search for hyphenated words | |
JP5594134B2 (ja) | 文字列検索装置,文字列検索方法および文字列検索プログラム | |
JP4175093B2 (ja) | トピック境界決定方法及び装置及びトピック境界決定プログラム | |
JP3975825B2 (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
US20230044266A1 (en) | Machine learning method and named entity recognition apparatus | |
CN114222193B (zh) | 一种视频字幕时间对齐模型训练方法及*** | |
van Heusden et al. | Wooir: A new open page stream segmentation dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050531 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080731 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080812 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081010 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081215 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120109 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130109 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |