JP6745381B2 - シーンメタ情報生成装置およびシーンメタ情報生成方法 - Google Patents

シーンメタ情報生成装置およびシーンメタ情報生成方法 Download PDF

Info

Publication number
JP6745381B2
JP6745381B2 JP2019089618A JP2019089618A JP6745381B2 JP 6745381 B2 JP6745381 B2 JP 6745381B2 JP 2019089618 A JP2019089618 A JP 2019089618A JP 2019089618 A JP2019089618 A JP 2019089618A JP 6745381 B2 JP6745381 B2 JP 6745381B2
Authority
JP
Japan
Prior art keywords
information
unit
image
section
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019089618A
Other languages
English (en)
Other versions
JP2019198074A (ja
Inventor
チェー,ビョンギョ
キム,ジュンオ
パク,ソンヒョン
ソ,チャンス
ソン,ハンナ
イ,サンユン
イ,ソンヒョン
チョン,テクジュ
チェー,ユファン
ファン,ヒョウォン
ユン,ジュン
コ,チャンヒョク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2019198074A publication Critical patent/JP2019198074A/ja
Application granted granted Critical
Publication of JP6745381B2 publication Critical patent/JP6745381B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Image Analysis (AREA)

Description

本発明は、コンテンツ提供サーバ、コンテンツ提供端末およびコンテンツ提供方法に関し、より具体的には、画像コンテンツから抽出されたオーディオ情報を用いて再生区間別のシーンメタ情報を生成するコンテンツ提供サーバ、コンテンツ提供端末およびコンテンツ提供方法に関する。
情報通信技術と文化の発達により、様々な画像コンテンツが製作されて世界全域に伝播されている。しかし、画像コンテンツは、本とは異なり、視聴者がコンテンツの進行水準を制御することができないため、再生中の画像に対する視聴者の理解可否に関係なく該画像を鑑賞しなければならないという問題がある。よって、このような問題を解決するために、画像の再生時点を制御したり画像を探索したりするための様々な方法が提示されている。
画像の再生時点を制御するために最も代表的に提示できる方法として、スクロールバーを用いた制御が例示できる。これは、ユーザが画像の再生時間に対応して生成されるスクロール領域で任意の地点を選択する場合、該時点に画像の再生時点が移動するようになる方式である。
しかし、スクロール領域は画像の再生時間に関係なく一定の長さを有するため、画像の再生時間が長い場合、スクロール領域での小さい移動だけでも画像の再生時点が大きく変更されるので、再生時点の微細な制御が難しくなる。特にモバイル環境で画像を鑑賞する場合、ディスプレイの大きさが小さく、指でスクロールバーを制御しなければならない場合が多いため、画像の再生時点を制御するのがより難しくなるという問題がある。
また、画像の場合、ユーザの理解を助けるために登場人物の台詞または再生される内容の説明のための字幕が添付されて提供される場合が多い。しかし、ユーザが画像から特定の内容の字幕を探すためにスクロール機能を用いる場合、前記問題により所望のシーンと台詞に対する字幕を探すことは容易ではない。
なお、ユーザの通信速度が制限される環境で画像の内容を把握しようとする時、画像が大容量または高画質である場合、サーバからコンテンツ提供端末に画像が円滑に提供されることができないため、画像の全てのシーンをリアルタイムで鑑賞するのが難しい。
本発明は、前述した問題および他の問題を解決することを目的とする。また他の目的は、画像コンテンツから抽出されたオーディオ情報を用いて再生区間別のシーンメタ情報を生成するコンテンツ提供サーバ、コンテンツ提供端末およびコンテンツ提供方法を提供することにある。
また他の目的は、画像コンテンツに関する再生区間別のシーンメタ情報を活用して様々なビデオサービスを提供するコンテンツ提供サーバ、コンテンツ提供端末およびコンテンツ提供方法を提供することにある。
上記または他の目的を達成するために、本発明の一側面によれば、画像コンテンツと関連した字幕ファイルに基づいて複数の単位字幕を検出し、前記複数の単位字幕を補正する字幕情報生成部、前記画像コンテンツからオーディオ情報を抽出し、前記オーディオ情報に基づいて複数の音声区間を検出し、各音声区間内のオーディオ情報に対して音声認識を実行するオーディオ情報生成部、および各音声区間に対応するビデオ区間を検出し、前記ビデオ区間内の画像フレームに対して画像認識を実行し、前記画像フレームの中から代表イメージを選択するイメージ情報生成部を含むシーンメタ情報生成装置を提供する。
本発明の他の側面によれば、画像コンテンツと関連した字幕ファイルに基づいて字幕情報を検出するステップ、前記画像コンテンツからオーディオ情報を抽出し、前記オーディオ情報に基づいて複数の音声区間を検出するステップ、各音声区間内のオーディオ情報に対する音声認識結果に基づいて前記字幕情報を補正するステップ、および各音声区間に対応するビデオ区間を検出し、前記ビデオ区間内の画像フレームに対する画像認識結果に基づいて代表イメージを選択するステップを含むシーンメタ情報生成方法を提供する。
本発明のまた他の側面によれば、画像コンテンツからオーディオ情報を抽出し、前記オーディオ情報に基づいて複数の音声区間を検出し、各音声区間内のオーディオ情報に対して音声認識を実行するオーディオ情報生成部、各音声区間内のオーディオ情報に対する音声認識結果に基づいて字幕情報を生成する字幕情報生成部、および各音声区間に対応するビデオ区間を検出し、前記ビデオ区間内の画像フレームに対して画像認識を実行し、前記画像フレームの中から代表イメージを選択するイメージ情報生成部を含むシーンメタ情報生成装置を提供する。
本発明の実施形態によるコンテンツ提供サーバ、コンテンツ提供端末およびコンテンツ提供方法の効果について説明すれば以下のとおりである。
本発明の実施形態のうち少なくとも一つによれば、画像コンテンツから抽出されたオーディオ情報を用いて再生区間別のシーンメタ情報を生成することによって、前記再生区間別のシーンメタ情報を活用した様々なビデオサービスを提供できるという長所がある。
また、本発明の実施形態のうち少なくとも一つによれば、画像コンテンツから抽出されたオーディオ情報を用いて字幕区間および/または字幕テキスト情報を補正することによって、ディスプレイ部の一領域に表示された字幕に対する視聴者の可読性を向上できるという長所がある。
但し、本発明の実施形態によるコンテンツ提供サーバ、コンテンツ提供端末およびコンテンツ提供方法が達成できる効果は以上で言及したものに制限されず、言及していないまた他の効果は下記の記載により本発明が属する技術分野で通常の知識を有する者に明らかに理解できるものである。
本発明の一実施形態によるコンテンツ提供システムの構成を示す図である。 本発明の一実施形態によるサーバの構成を示すブロック図である。 本発明の一実施形態によるユーザ端末の構成を示すブロック図である。 本発明の一実施形態によるシーンメタ情報生成装置の構成を示すブロック図である。 単位字幕のタイムコードを音声区間に合わせて拡張する動作を説明するために参照される図である。 一つの単位字幕を二つ以上の単位字幕に分割する動作を説明するために参照される図である。 二つ以上の単位字幕を一つの単位字幕に併合する動作を説明するために参照される図である。 本発明の一実施形態によるシーンメタ情報フレームの構成を示す図である。 本発明の一実施形態による音声区間分析部の動作プロセスを示す図である。 本発明の一実施形態による音声認識部の動作プロセスを示す図である。 本発明の一実施形態によるイメージタグ部の動作プロセスを示す図である。 各画像フレームに対応するイメージタグ情報を例示する図である。 本発明の一実施形態によるシーン選択部の動作プロセスを示す図である。 複数のイメージタグ情報とテキスト化された音声情報間の類似度の測定を例示する図である。 本発明の他の実施形態によるシーンメタ情報生成装置の構成を示すブロック図である。 本発明の一実施形態による字幕補正装置の構成を示すブロック図である。 本発明の一実施形態による字幕補正方法を説明するフローチャートである。 シーンメタ情報を活用してビデオスライドサービスを提供するユーザ端末を例示する図である。 シーンメタ情報を活用してビデオ検索サービスを提供するユーザ端末を例示する図である。
以下では添付図面を参照して本明細書に開示された実施形態について詳しく説明するが、図面符号に関係なく同一または類似した構成要素には同一の参照番号を付し、それに対する重複する説明は省略することにする。以下の説明で用いられる構成要素に対する接尾辞「モジュール」および「部」は、明細書の作成の容易さだけを考慮して付与または混用されるものであって、それ自体で互いに区別される意味または役割を有するものではない。すなわち、本発明で用いられる「部」という用語はソフトウェア、FPGAまたはASICのようなハードウェア構成要素を意味し、「部」はある役割をする。ところが、「部」はソフトウェアまたはハードウェアに限定される意味ではない。「部」は、アドレッシングできる格納媒体にあるように構成されてもよく、一つまたはそれ以上のプロセッサを再生させるように構成されてもよい。よって、一例として「部」は、ソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素およびタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイおよび変数を含む。構成要素と「部」の中から提供される機能は、さらに小さい数の構成要素および「部」で結合されるか、または追加の構成要素と「部」にさらに分離されてもよい。
また、本明細書に開示された実施形態を説明するにおいて、関連の公知技術に関する具体的な説明が本明細書に開示された実施形態の要旨を濁す恐れがあると判断される場合には、その詳細な説明は省略する。また、添付された図面は本明細書に開示された実施形態を容易に理解できるようにするためのものに過ぎず、添付された図面によって本明細書に開示された技術的思想が制限されるものではなく、本発明の思想および技術範囲に含まれる全ての変更、均等物乃至代替物を含むものとして理解しなければならない。
本発明は、画像コンテンツから抽出されたオーディオ情報を用いて再生区間別のシーンメタ情報を生成するコンテンツ提供サーバ、コンテンツ提供端末およびコンテンツ提供方法を提案する。また、本発明は、画像コンテンツに関する再生区間別のシーンメタ情報を活用して様々なビデオサービスを提供するコンテンツ提供サーバ、コンテンツ提供端末およびコンテンツ提供方法を提案する。
一方、本明細書において、画像コンテンツは、ユーザ端末の表示装置で再生されるコンテンツであって、複数の画像およびオーディオフレームで構成された動画(moving image)を意味する。字幕ファイル(例えば、smiファイル)は、画像コンテンツと関連した字幕に関するファイルであって、画像コンテンツに含まれて提供されるかまたは画像コンテンツとは別個に提供されてもよい。字幕ファイルは、画像コンテンツ提供者または別途の字幕提供者により製作されてデータベースに格納されることができる。
シーンメタ情報は、画像コンテンツを構成する場面(scenes)を識別するための情報であって、タイムコード(timecode)、代表イメージ情報、字幕情報、オーディオ情報のうち少なくとも一つを含む。ここで、タイムコードは画像コンテンツの字幕区間および/または音声区間に関する情報であり、代表イメージ情報は音声区間内のシーンイメージのいずれか一つのイメージに関する情報である。また、字幕情報は各字幕区間に対応する単位字幕情報であり、オーディオ情報は各音声区間に対応する単位オーディオ情報である。
音声区間は、画像コンテンツの再生区間のうち単位音声が出力される区間に関する情報として、各単位音声の出力が始まる画像コンテンツの再生時点に関する「音声開始時間情報」と、各単位音声の出力が終了する画像コンテンツの再生時点に関する「音声終了時間情報」と、各単位音声の出力が維持される時間に関する「音声出力時間情報」とから構成されることができる。一方、他の実施形態として、音声区間は、「音声開始時間情報」と「音声終了時間情報」だけで構成されてもよい。
字幕区間は、画像コンテンツの再生区間のうち単位字幕が表示される区間に関する情報として、各単位字幕の表示が始まる画像コンテンツの再生時点に関する「字幕開始時間情報」と、各単位字幕の表示が終了する画像コンテンツの再生時点に関する「字幕終了時間情報」と、各単位字幕の表示が維持される時間に関する「字幕表示時間情報」とから構成されることができる。一方、他の実施形態として、字幕区間は、「字幕開始時間情報」と「字幕終了時間情報」だけで構成されてもよい。
このように、音声区間および字幕区間は、画像コンテンツの再生時点を基準に設定されることができる。一方、字幕区間は、字幕製作者または編集者などにより任意に設定されることもできる。字幕区間は、画像コンテンツにおいて台詞またはナレーションが出力される区間に限って設定されない。したがって、字幕情報の製作者や編集者は、画像コンテンツの任意区間を字幕区間に設定することもできる。
以下では、本発明の様々な実施形態について図面を参照して詳しく説明する。
図1は、本発明の一実施形態によるコンテンツ提供システムの構成を示す図である。図1を参照すれば、本発明に係るコンテンツ提供システム10は、通信ネットワーク100、サーバ200およびユーザ端末300などを含むことができる。
サーバ200とユーザ端末300は、通信ネットワーク100を介して互いに連結されることができる。通信ネットワーク100は有線ネットワークおよび無線ネットワークを含むことができ、具体的には、ローカルエリア・ネットワーク(LAN:Local Area Network)、メトロポリタン・エリア・ネットワーク(MAN:Metropolitan Area Network)、広域ネットワーク(WAN:Wide Area Network)などのような様々なネットワークを含むことができる。また、通信ネットワーク100は、公知のワールド・ワイド・ウェブ(WWW:World Wide Web)を含むこともできる。しかし、本発明に係る通信ネットワーク100は、上記で列挙されたネットワークに限定されず、公知の無線データネットワーク、公知の電話ネットワーク、公知の有線/無線テレビネットワークのうち少なくとも一つを含むこともできる。
サーバ200は、サービス提供サーバまたはコンテンツ提供サーバであって、ユーザ端末300が要請する通信サービス(communication service)を提供する機能をすることができる。一例として、サーバ200がウェブサーバである場合、サーバ200は、ユーザ端末300が要請するコンテンツ(content)をウェブページ形態に構成してユーザ端末300に提供することができる。一方、他例として、サーバ200がマルチメディア提供サーバである場合、サーバ200は、ユーザ端末300が要請するマルチメディアコンテンツを転送ファイル形態に構成して該端末300に提供することができる。
サーバ200は、データベースに格納された画像コンテンツおよび/または字幕ファイルに基づいてタイムコード、代表イメージ情報、字幕情報およびオーディオ情報のうち少なくとも一つを含む再生区間別のシーンメタ情報を生成し、再生区間別のシーンメタ情報をユーザ端末300に提供することができる。ここで、シーンメタ情報を生成するための再生区間は、字幕区間であるかまたは音声区間であってもよい。したがって、「再生区間別のシーンメタ情報」は、「字幕区間別のシーンメタ情報」または「音声区間別のシーンメタ情報」と称することができる。
サーバ200は、画像コンテンツおよび字幕ファイルと共にシーンメタ情報をユーザ端末300に転送するか、または画像コンテンツおよび字幕ファイルとは別個にシーンメタ情報をユーザ端末300に転送してもよい。
サーバ200は、画像コンテンツに関するシーンメタ情報を活用して様々なビデオサービスをユーザ端末300に提供することができる。一例として、サーバ200は、画像コンテンツに関するシーンメタ情報を活用してビデオ検索サービスをユーザ端末300に提供することができる。ここで、ビデオ検索サービスは、視聴者が画像コンテンツに含まれたシーンのうち所望のシーンを容易で速く探索することができるように支援するビデオサービスである。
一方、他例として、サーバ200は、画像コンテンツに関するシーンメタ情報を活用してビデオスライドサービス(video slide service)をユーザ端末300に提供することができる。ここで、ビデオスライドサービスは、視聴者が動画をページ単位で本のように捲って動画の内容を容易で速く把握することができるように支援するビデオサービスである。
このために、サーバ200は、画像コンテンツから得た再生区間別のシーンメタ情報(すなわち、タイムコード、代表イメージ情報、字幕情報およびオーディオ情報)に基づいて複数のページ情報を生成してユーザ端末300に提供することができる。ここで、ページ情報は、ビデオスライドサービスを提供するための情報として、タイムコード、代表イメージ情報、単位字幕情報だけを含むか、またはタイムコード、代表イメージ情報、単位字幕情報および単位オーディオ情報を含んでもよい。
ユーザ端末300は、サーバ200から提供された情報に基づいて通信サービスを提供することができる。一例として、サーバ200がウェブサーバである場合、ユーザ端末300は、サーバ200から提供されたコンテンツに基づいてウェブサービスを提供することができる。一方、他例として、サーバ200がマルチメディア提供サーバである場合、ユーザ端末300は、サーバ200から提供されたコンテンツに基づいてマルチメディアサービスを提供することができる。
ユーザ端末300は、画像コンテンツの再生および画像コンテンツと関連した付加サービス(例えば、ビデオスライドサービス、ビデオ検索サービスなど)を提供するためのアプリケーションをダウンロードして設置することができる。この時、ユーザ端末300は、アプリストア(app store)、プレイストア(play store)、ウェブサイト(web site)などに接続して該アプリケーションをダウンロードするか、または別途の格納媒体を介して該アプリケーションをダウンロードしてもよい。また、ユーザ端末300は、サーバ200または他機器との有線/無線通信を介して該アプリケーションをダウンロードしてもよい。
ユーザ端末300は、サーバ200から、画像コンテンツ、字幕ファイル、画像コンテンツに関するシーンメタ情報およびシーンメタ情報に対応する複数のページ情報のうち少なくとも一つを受信することができる。この時、画像コンテンツ、字幕ファイル、シーンメタ情報およびページ情報のうち少なくとも一つは、ファイル形態で受信されるか、またはストリーミング(streaming)方式で受信されてもよい。
一方、他の実施形態として、ユーザ端末300は、サーバ200から受信するかまたはメモリに格納された画像コンテンツおよび/または字幕ファイルに基づいて再生区間別のシーンメタ情報を生成し、再生区間別のシーンメタ情報を用いた複数のページ情報を生成することができる。また、ユーザ端末300は、サーバ200から受信するかまたはメモリに格納された画像コンテンツに関する再生区間別のシーンメタ情報に基づいて複数のページ情報を生成することができる。
ユーザ端末300は、サーバ200から受信するかまたはメモリに格納された画像コンテンツおよび/または字幕ファイルに基づいて動画再生サービスを提供することができる。また、ユーザ端末300は、画像コンテンツに関する再生区間別のシーンメタ情報に基づいてビデオ検索サービスを提供することができる。また、ユーザ端末は、再生区間別のシーンメタ情報を活用した複数のページ情報に基づいてビデオスライドサービスを提供することができる。
本明細書にて説明されるユーザ端末300には、携帯電話、スマートフォン(smart phone)、ラップトップ・コンピュータ(laptop computer)、デスクトップ・コンピュータ(desktop computer)、デジタル放送用端末、PDA(personal digital assistants)、PMP(portable multimedia player)、スレートPC(slate PC)、タブレットPC(tablet PC)、ウルトラブック(ultrabook)、ウェアラブルデバイス(wearable device、例えば、ワッチ型端末(smartwatch)、ガラス型端末(smart glass)、HMD(head mounted display))などが含まれる。
一方、本実施形態においては、ユーザ端末300がサーバ200と連動して動画再生サービス、ビデオ検索サービスまたはビデオスライドサービスなどを提供することを例示しているが、これを制限するのではなく、ユーザ端末300がサーバ200と連動することなく独立に該サービスを提供できることは当業者に明らかである。
図2は、本発明の一実施形態によるサーバ200の構成を示すブロック図である。図2を参照すれば、サーバ200は、通信部210、データベース220、シーンメタ情報生成部230、ページ生成部240および制御部250を含むことができる。図2に示された構成要素はサーバ200を実現するのに必須のものではないため、本明細書上で説明されるサーバは上記で列挙された構成要素より多いかまたは少ない構成要素を有してもよい。
通信部210は、有線通信を支援するための有線通信モジュール、および無線通信を支援するための無線通信モジュールを含むことができる。有線通信モジュールは、有線通信のための技術標準または通信方式(例えば、イーサネット(登録商標(Ethernet))、PLC(Power Line Communication)、ホームPNA(Home PNA)、IEEE 1394など)に従って構築された有線通信網上で他サーバ、基地局、AP(access point)のうち少なくとも一つと有線信号を送受信する。無線通信モジュールは、無線通信のための技術標準または通信方式(例えば、WLAN(Wireless LAN)、Wi−Fi(Wireless−Fidelity)、DLNA(登録商標(Digital Living Network Alliance))、GSM(Global System for Mobile communication)、CDMA(Code Division Multi Access)、WCDMA(登録商標(Wideband CDMA))、LTE(Long Term Evolution)、LTE−A(Long Term Evolution−Advanced)など)に従って構築された無線通信網上で基地局、Access Pointおよび中継機のうち少なくとも一つと無線信号を送受信する。
本実施形態において、通信部210は、データベース220に格納された画像コンテンツ、画像コンテンツに関する字幕ファイル、画像コンテンツに関する再生区間別のシーンメタ情報、再生区間別のシーンメタ情報に対応する複数のページ情報などをユーザ端末300に転送する機能をすることができる。また、通信部210は、ユーザ端末300が要請する通信サービスに関する情報を受信する機能をすることができる。
データベース220は、ユーザ端末300または他サーバ(図示せず)から受信する情報(またはデータ)、サーバ200により自体的に生成される情報(またはデータ)、ユーザ端末300または他サーバに提供する情報(またはデータ)などを格納する機能をすることができる。
本実施形態において、データベース200は、複数の画像コンテンツ、複数の画像コンテンツに関する字幕ファイル、複数の画像コンテンツに関する再生区間別のシーンメタ情報、再生区間別のシーンメタ情報に対応する複数のページ情報などを格納することができる。
シーンメタ情報生成部230は、データベース220に格納された画像コンテンツおよび/または字幕ファイルに基づいてタイムコード、代表イメージ情報、字幕情報およびオーディオ情報のうち少なくとも一つを含む再生区間別のシーンメタ情報を生成することができる。
このために、シーンメタ情報生成部230は、画像コンテンツから抽出されたオーディオ情報に基づいて複数の音声区間を抽出し、各音声区間内のオーディオ情報を音声認識して既存の字幕情報を補正するかまたは新しい字幕情報を生成することができる。また、シーンメタ情報生成部230は、画像コンテンツから抽出されたオーディオ情報に基づいて複数の音声区間を抽出し、各音声区間内のオーディオおよびイメージ情報に対する音声認識および画像認識を通じて各音声区間内の代表イメージを選択することができる。
ページ生成部240は、画像コンテンツに関する再生区間別のシーンメタ情報に基づいて複数のページ情報を生成することができる。すなわち、ページ生成部240は、タイムコード、代表イメージ情報および字幕情報(すなわち、単位字幕情報)を用いてページを生成することができる。一方、実現例によっては、ページ生成部240は、タイムコード、代表イメージ情報、字幕情報(すなわち、単位字幕情報)およびオーディオ情報(すなわち、単位オーディオ情報)を用いてページを生成することができる。
ページ情報は、ビデオスライドサービスを提供するための情報として、タイムコード、代表イメージ情報、字幕情報だけを含むか、またはタイムコード、代表イメージ情報、字幕情報およびオーディオ情報を含んでもよい。
代表イメージ情報は、該当ページを代表するイメージ情報として、字幕または音声区間内で再生される画像コンテンツの連続した画像フレームのうち少なくとも一つを含むことができる。より詳細には、代表イメージ情報は、字幕または音声区間内の画像フレームのうち任意に選択された画像フレームであるか、または画像フレームのうち予め決定された規則に従って選択された画像フレーム(例えば、字幕または音声区間中、最も先んじた順の画像フレーム、中間順の画像フレーム、最後の順の画像フレーム、字幕情報と最も類似した画像フレームなど)であってもよい。
制御部250は、サーバ200の全般的な動作を制御する。さらに、制御部250は、以下にて説明される様々な実施形態を本発明に係るサーバ200上で実現するために、上記で調べた構成要素をのうち少なくとも一つを組み合わせて制御することができる。
本実施形態において、制御部250は、ユーザ端末300が要請する通信サービスを提供することができる。一例として、制御部250は、動画再生サービス、ビデオ検索サービスまたはビデオスライドサービスなどをユーザ端末300に提供することができる。
このために、制御部250は、データベース220に格納された画像コンテンツ、および画像コンテンツに関する字幕ファイルをユーザ端末300に提供することができる。また、制御部250は、画像コンテンツおよび/または字幕ファイルに基づいて画像コンテンツに関する再生区間別のシーンメタ情報を生成してユーザ端末300に提供することができる。また、制御部250は、画像コンテンツに関する再生区間別のシーンメタ情報に基づいて複数のページ情報を生成してユーザ端末300に提供することができる。
図3は、本発明の一実施形態によるユーザ端末300の構成を説明するためのブロック図である。図3を参照すれば、ユーザ端末300は、通信部310、入力部320、出力部330、メモリ340および制御部350などを含むことができる。図3に示された構成要素はユーザ端末を実現するのに必須のものではないため、本明細書上で説明されるユーザ端末は上記で列挙された構成要素より多いかまたは少ない構成要素を有してもよい。
通信部310は、有線ネットワークを支援するための有線通信モジュール、および無線ネットワークを支援するための無線通信モジュールを含むことができる。有線通信モジュールは、有線通信のための技術標準または通信方式(例えば、イーサネット(Ethernet)、PLC(Power Line Communication)、ホームPNA(Home PNA)、IEEE 1394など)に従って構築された有線通信網上で外部サーバおよび他端末のうち少なくとも一つと有線信号を送受信する。無線通信モジュールは、無線通信のための技術標準または通信方式(例えば、WLAN(Wireless LAN)、Wi−Fi(Wireless−Fidelity)、DLNA(Digital Living Network Alliance)、GSM(登録商標(Global System for Mobile communication))、CDMA(Code Division Multi Access)、WCDMA(Wideband CDMA)、LTE(Long Term Evolution)、LTE−A(Long Term Evolution−Advanced)など)に従って構築された無線通信網上で基地局、Access Pointおよび中継機のうち少なくとも一つと無線信号を送受信する。
本実施形態において、通信部310は、サーバ200から画像コンテンツ、画像コンテンツに関する字幕ファイル、画像コンテンツに関する再生区間別のシーンメタ情報、再生区間別のシーンメタ情報に対応する複数のページ情報などを受信する機能をすることができる。また、通信部310は、ユーザ端末300が要請する通信サービスに関する情報をサーバ200に転送する機能をすることができる。
入力部320は、画像信号入力のためのカメラ、オーディオ信号入力のためのマイクロホン(microphone)、ユーザからの情報入力を受けるためのユーザ入力部(例えば、キーボード、マウス、タッチ・キー(touch key)、メカニカル・キー(mechanical key)など)などを含むことができる。入力部320で得たデータは分析されて端末ユーザの制御命令として処理されることができる。本実施形態において、入力部320は、画像コンテンツの再生と関連した命令信号を受信することができる。
出力部330は、視覚、聴覚または触覚などと関連した出力を発生させるためのものであって、ディスプレイ部、音響出力部、ハプティックモジュールおよび光出力部のうち少なくとも一つを含むことができる。
ディスプレイ部は、ユーザ端末300で処理される情報を表示(出力)する。本実施形態において、ディスプレイ部は、ユーザ端末300で駆動される動画再生プログラムの実行画面情報、またはこのような実行画面情報に応じたUI(User Interface)情報、GUI(Graphic User Interface)情報を表示することができる。
ディスプレイ部は、タッチセンサと互いにレイヤ構造をなすかまたは一体型に形成されることにより、タッチスクリーンを実現することができる。このようなタッチスクリーンは、ユーザ端末300と視聴者の間の入力インターフェースを提供するユーザ入力部として機能すると同時に、ユーザ端末300と視聴者の間の出力インターフェースを提供することができる。
音響出力部は、通信部310から受信するかまたはメモリ340に格納されたオーディオデータを出力することができる。本実施形態において、音響出力部は、ユーザ端末300で再生される画像コンテンツと関連した音響信号を出力することができる。
メモリ340は、ユーザ端末300の様々な機能を支援するデータを格納する。本実施形態において、メモリ340は、ユーザ端末300で駆動される動画再生プログラム(application programまたはアプリケーション(application))、ユーザ端末300の動作のためのデータおよび命令語を格納することができる。また、メモリ340は、複数の画像コンテンツ、複数の画像コンテンツに関する字幕ファイル、複数の画像コンテンツに関する再生区間別のシーンメタ情報、再生区間別のシーンメタ情報に対応する複数のページ情報などを格納することができる。
メモリ340は、フラッシュメモリタイプ(flash memory type)、ハードディスクタイプ(hard disk type)、SSDタイプ(Solid State Disk type)、SDDタイプ(Silicon Disk Drive type)、マルチメディアカードマイクロタイプ(multimedia card micro type)、カードタイプのメモリ(例えば、SDまたはXDメモリなど)、RAM(random access memory)、SRAM(static random access memory)、ROM(read−only memory)、EEPROM(electrically erasable programmable read−only memory)、PROM(programmable read−only memory)、磁気メモリ、磁気ディスクおよび光ディスクのうち少なくとも一つのタイプの格納媒体を含むことができる。
制御部350は、メモリ340に格納された動画再生プログラムと関連した動作、および通常的にユーザ端末300の全般的な動作を制御する。さらに、制御部350は、以下にて説明される様々な実施形態を本発明に係るユーザ端末300上で実現するために、上記で調べた構成要素のうち少なくとも一つを組み合わせて制御することができる。
本実施形態において、制御部350は、サーバ200から受信するかまたはメモリ340に格納された画像コンテンツおよび/または字幕ファイルに基づいて動画再生サービスを提供することができる。また、制御部350は、画像コンテンツに関する再生区間別のシーンメタ情報に基づいてビデオ検索サービスを提供することができる。また、制御部350は、再生区間別のシーンメタ情報を通じて生成された複数のページ情報に基づいてビデオスライドサービスを提供することができる。
制御部350は、サーバ200から受信するかまたはメモリ340に格納された画像コンテンツおよび/または字幕ファイルに基づいて再生区間別のシーンメタ情報を生成し、再生区間別のシーンメタ情報を用いて複数のページ情報を生成することができる。また、制御部300は、サーバ200から受信するかまたはメモリ340に格納された画像コンテンツに関する再生区間別のシーンメタ情報に基づいて複数のページ情報を生成することができる。
図4は、本発明の一実施形態によるシーンメタ情報生成装置の構成を示すブロック図である。図4を参照すれば、本発明の一実施形態によるシーンメタ情報生成装置400は、字幕情報生成部410、オーディオ情報生成部420、イメージ情報生成部430およびシーンメタ情報構成部440を含むことができる。図4に示された構成要素はシーンメタ情報生成装置400を実現するのに必須のものではないため、本明細書上で説明されるシーンメタ情報生成装置は上記で列挙された構成要素より多いかまたは少ない構成要素を有してもよい。
本発明に係るシーンメタ情報生成装置400は、サーバ200のシーンメタ情報生成部230を介して実現されるか、またはユーザ端末300の制御部350を介して実現されてもよい。また、シーンメタ情報生成装置400は、サーバ200およびユーザ端末300とは独立したハードウェアおよび/またはソフトウェアを介して実現されてもよい。
字幕情報生成部410は、画像コンテンツと関連した字幕ファイルに基づいて全体字幕を複数の単位字幕に分類し、複数の単位字幕の字幕区間を検出し、各々の字幕区間に該当する字幕テキスト情報を検出することができる。また、字幕情報生成部410は、画像コンテンツから抽出されたオーディオ情報を用いて複数の単位字幕を補正することができる。
このような字幕情報生成部410は、画像コンテンツと関連した単位字幕を検出するための字幕ストリーム抽出部(または字幕抽出部)411、単位字幕の字幕区間を検出するための字幕区間検出部413、および単位字幕を補正するための字幕補正部415を含むことができる。
字幕ストリーム抽出部411は、画像コンテンツに含まれた字幕ファイルに基づいて字幕ストリームを抽出することができる。一方、他の実施形態として、字幕ストリーム抽出部411は、画像コンテンツとは別途に格納された字幕ファイルに基づいて字幕ストリームを抽出してもよい。
字幕ストリーム抽出部411は、画像コンテンツの字幕ストリームを複数の単位字幕に分類し、各単位字幕のテキスト情報を検出することができる。ここで、複数の単位字幕は、字幕の長さ(例えば、字幕テキストの長さ、字幕区間の長さ)に応じて分類されるかまたは文章単位で分類されてもよく、必ずしもこれらに制限されるものではない。
字幕区間検出部413は、画像コンテンツの再生区間のうち各単位字幕が表示される字幕区間を検出することができる。すなわち、字幕区間検出部413は、各単位字幕の表示が始まる画像コンテンツの再生時点に関する「字幕開始時間情報」と、各単位字幕の表示が終了する画像コンテンツの再生時点に関する「字幕終了時間情報」と、各単位字幕の表示が維持される時間に関する「字幕表示時間情報」とを検出することができる。
字幕補正部415は、画像コンテンツのオーディオ情報を通じて分析された音声区間に基づいて複数の単位字幕の字幕区間を補正することができる。すなわち、字幕補正部415は、各単位字幕の字幕区間を該字幕に対応するオーディオの音声区間に合わせて拡張、縮小または移動することができる。
例えば、図5に示すように、字幕補正部415は、特定単位字幕の字幕区間S10が該字幕に対応するオーディオの音声区間A10より小さい場合、該字幕の字幕区間を該字幕に対応するオーディオの音声区間A10に合わせて拡張することができる(S10→S20)。
一方、図面には示されていないが、特定単位字幕の字幕区間が該字幕に対応するオーディオの音声区間より大きい場合、該字幕の字幕区間を該字幕に対応するオーディオの音声区間に合わせて縮小することができる。
字幕補正部415は、各音声区間内のオーディオ情報を音声認識して複数の単位字幕の字幕テキスト情報を補正することができる。すなわち、字幕補正部415は、各単位字幕のテキスト情報を音声認識を通じてテキスト化されたオーディオ情報に合わせて補正することができる。また、字幕補正部415は、各音声区間内のオーディオ情報を音声認識した結果に基づいて非音声区間に存在する不要な字幕を削除することもできる。
字幕補正部415は、各音声区間内のオーディオ情報を音声認識して一つの単位字幕を二つ以上の単位字幕に分割することができる。例えば、図6に示すように、単位字幕区間S10内のオーディオ情報を音声認識した結果、該単位字幕610が二つの音声区間A10、A20で構成された場合、字幕補正部415は、一つの単位字幕610を音声区間A10、A20に対応する二つの単位字幕620、630に分割することができる。
字幕補正部415は、各音声区間内のオーディオ情報を音声認識して二つ以上の単位字幕を一つの単位字幕に併合することができる。例えば、図7に示すように、第1単位字幕区間S10内のオーディオ情報と第2単位字幕区間S20内のオーディオ情報を音声認識した結果、互いに隣接した第1および第2単位字幕710、720が一つの音声区間A10で構成された場合、字幕補正部415は、二つの単位字幕710、720を音声区間A10に対応する一つの単位字幕620、630に併合することができる。
字幕補正部415は、字幕情報とオーディオ情報の言語が互いに異なる場合、文章の意味を維持するために二つ以上の単位字幕を文章単位で併合することができる。
オーディオ情報生成部420は、画像コンテンツから抽出されたオーディオ情報に基づいて複数の単位字幕に対応する複数の単位オーディオ情報を検出することができる。また、オーディオ情報生成部420は、画像コンテンツから抽出されたオーディオ情報に基づいて複数の音声区間を分析し、各音声区間内のオーディオ情報を音声認識することができる。オーディオ情報生成部420は、音声認識を通じてテキスト化された音声情報を字幕情報生成部410およびイメージ情報生成部430に提供することができる。
このようなオーディオ情報生成部420は、画像コンテンツのオーディオ情報を検出するためのオーディオストリーム抽出部(またはオーディオ抽出部)421、画像コンテンツの音声区間を検出するための音声区間分析部423、および各音声区間内のオーディオ情報を音声認識するための音声認識部425を含むことができる。
オーディオストリーム抽出部421は、画像コンテンツに含まれたオーディオファイルに基づいてオーディオストリームを抽出することができる。オーディオストリーム抽出部421は、オーディオストリームを信号処理に好適な複数のオーディオフレームに分割することができる。ここで、オーディオストリームは、音声ストリームおよび非音声ストリームを含むことができる。
音声区間分析部423は、オーディオフレームの特徴を抽出して各音声区間の開始時点と終了時点を検出することができる。ここで、各音声区間の開始時点は該当区間で音声出力が始まる画像コンテンツの再生時点に対応し、各音声区間の終了時点は該当区間で音声出力が終了する画像コンテンツの再生時点に対応する。
音声区間分析部423は、複数の音声区間に関する情報を字幕補正部415およびビデオ区間抽出部433に提供することができる。音声区間分析部423に関する詳しい説明は、図9を参照して後述することにする。
音声認識部425は、各音声区間内のオーディオ情報(すなわち、音声情報)を音声認識してテキスト化された音声情報を生成することができる。音声認識部425は、テキスト化された音声情報を字幕補正部415およびシーン選択部437に提供することができる。音声認識部425に関する詳しい説明は、図10を参照して後述することにする。
イメージ情報生成部430は、各音声区間に対応するビデオ区間を検出し、ビデオ区間に存在する複数のシーンイメージのうち字幕テキスト情報またはテキストになった音声情報と最も類似したシーンイメージ(すなわち、代表イメージ)を選択することができる。
このようなイメージ情報生成部430は、画像コンテンツのイメージ情報を検出するためのビデオストリーム抽出部(または画像抽出部)431、各音声区間に対応するビデオ区間を検出するためのビデオ区間検出部433、各ビデオ区間内のイメージからタグ情報を生成するイメージタグ部435、および各ビデオ区間内のイメージの中から代表イメージを選択するシーン選択部437を含むことができる。
ビデオストリーム抽出部431は、画像コンテンツに含まれた動画ファイルに基づいてビデオストリームを抽出することができる。ここで、ビデオストリームは、連続した画像フレームで構成されることができる。
ビデオ区間抽出部433は、ビデオストリームから各音声区間に対応するビデオ区間を検出(分離)することができる。これは、相対的に重要度の低いビデオ区間(すなわち、非音声区間に対応するビデオ区間)を除いて、画像処理するのにかかる時間と費用を減らすためである。
イメージタグ部435は、各ビデオ区間内に存在する複数のイメージに対して画像認識を実行してイメージタグ情報を生成することができる。すなわち、イメージタグ部435は、各イメージ内のオブジェクト情報(例えば、人、物、テキストなど)を認識してイメージタグ情報を生成することができる。イメージタグ部435に関する詳しい説明は、図11を参照して後述することにする。
シーン選択部437は、各ビデオ区間内に存在する複数のイメージのうちテキスト化された音声情報と最も高い類似度を有するイメージ(すなわち、代表イメージ)を選択することができる。一方、他の実施形態として、シーン選択部437は、各ビデオ区間内に存在する複数のイメージのうち字幕テキスト情報と最も高い類似度を有するイメージ(すなわち、代表イメージ)を選択してもよい。シーン選択部437に関する詳しい説明は、図12を参照して後述することにする。
シーンメタ情報構成部440は、字幕情報生成部410、オーディオ情報生成部420およびイメージ情報生成部430から得た字幕区間情報、音声区間情報、単位字幕情報、単位オーディオ情報および代表イメージ情報に基づいて再生区間別のシーンメタ情報を構成することができる。
一例として、図8に示すように、シーンメタ情報構成部440は、IDフィールド810、タイムコードフィールド820、代表イメージフィールド830、音声フィールド840、字幕フィールド850およびイメージタグフィールド860を含むシーンメタ情報フレーム800を生成することができる。この時、シーンメタ情報構成部440は、字幕または音声区間の個数だけシーンメタ情報フレームを生成することができる。
IDフィールド810は再生区間別のシーンメタ情報を識別するためのフィールドであり、タイムコードフィールド820はシーンメタ情報に該当する字幕区間または音声区間を示すフィールドである。より好ましくは、タイムコードフィールド820はシーンメタ情報に対応する音声区間を示すフィールドである。
代表イメージフィールド830は音声区間別の代表イメージを示すフィールドであり、音声フィールド840は音声区間別の音声(オーディオ)情報を示すフィールドである。そして、字幕フィールド850は字幕区間別の字幕テキスト情報を示すフィールドであり、イメージタグフィールド860は音声区間別のイメージタグ情報を示すフィールドである。
シーンメタ情報構成部440は、互いに隣接した再生区間のシーンメタ情報の代表イメージが類似した場合、該シーンメタ情報を一つのシーンメタ情報に併合することができる。この時、シーンメタ情報構成部440は、予め決定された類似度測定アルゴリズム(例えば、コサイン類似度測定アルゴリズム、ユークリッド類似度測定アルゴリズムなど)を用いて、シーンメタ情報のイメージ類似可否を決定することができる。類似度については図13に関連して説明される。
以上、上述したように、本発明に係るシーンメタ情報生成装置は、画像コンテンツおよび/または字幕ファイルに基づいて再生区間別のシーンメタ情報を生成することができる。このようなシーンメタ情報は、画像コンテンツの主要シーンを検索および分類するために用いられることができる。また、シーンメタ情報は、動画サービス、イメージサービス、音声サービス、ビデオスライドサービスなどを提供するために用いられることができる。
図9は、本発明の一実施形態による音声区間分析部の動作プロセスを示す図である。図9を参照すれば、本発明に係る音声区間分析部423は、オーディオストリーム(audio stream)を信号処理に好適な大きさを有する複数のオーディオフレーム(audio frame)に分割することができる(S910)。この時、各々のオーディオフレームは20ms〜30msの大きさを有することができる。
音声区間分析部423は、各オーディオフレームの周波数成分、ピッチ(pitch)成分、MFCC(mel−frequency cepstral coefficients)係数、LPC(linear predictive coding)係数などを分析して該オーディオフレームの特徴を抽出することができる(S920)。
音声区間分析部423は、各オーディオフレームの特徴と予め決定された音声モデルを用いて各々のオーディオフレームが音声区間であるか否かを決定することができる(S930)。この時、音声モデルとしては、SVM(support vector machine)モデル、HMM(hidden Markov model)モデル、GMM(Gaussian mixture model)モデル、RNN(Recurrent Neural Networks)モデル、LSTM(Long Short−Term Memory)モデルのうち少なくとも一つが用いられることができ、必ずしもこれらに制限されるものではない。
音声区間分析部423は、オーディオフレーム別の音声区間を結合して各音声区間の開始時点と終了時点を検出することができる(S940)。ここで、各音声区間の開始時点は該当区間で音声出力が始まる画像コンテンツの再生時点に対応し、各音声区間の終了時点は該当区間で音声出力が終了する画像コンテンツの再生時点に対応する。
図10は、本発明の一実施形態による音声認識部の動作プロセスを示す図である。図10を参照すれば、本発明に係る音声認識部425は、音声認識(Speech Recognition)のための音響モデル(Acoustic model)および言語モデル(Language model)を備えることができる。
音声認識部425は、音声データベースDBに格納されたデータの特徴を抽出し、抽出された特徴を一定期間の間学習して音響モデルを構築することができる(S1010)。
音声認識部425は、言語データベースDBに格納されたデータの特徴を抽出し、抽出された特徴を一定期間の間学習して言語モデルを構築することができる(S1020)。
音響モデルおよび言語モデルに対する構築が完了すれば、音声認識部425は、音声区間単位でオーディオ情報(すなわち、音声情報)を受信することができる(S1030)。ここで、音声情報は、単位字幕に対応する単位音声情報である。
音声認識部425は、音声情報の周波数成分、ピッチ成分、エネルギー成分、ゼロクロス(zero crossing)成分、MFCC係数、LPC係数、PLP(Perceptual Linear Predictive)係数などを分析して該音声情報の特徴ベクトルを検出することができる(S1040)。
音声認識部425は、予め決定された音響モデルを用いて検出された特徴ベクトルのパターンを分類(分析)することができる(S1050)。この時、音声認識部425は、DTW(Dynamic Time Warping)アルゴリズム、HMM(Hidden Markov Model)アルゴリズム、ANN(Artificial Neural Network)アルゴリズムなどのような公知のアルゴリズムを用いて特徴ベクトルのパターンを分類することができる。音声認識部425は、このようなパターン分類を通じて音声を認識して一つ以上の候補単語を検出することができる。
音声認識部425は、予め決定された言語モデルを用いて候補単語を文章に構成することができる(S1060)。音声認識部425は、文章に構成されたテキスト情報を出力することができる。
図11は、本発明の一実施形態によるイメージタグ部の動作プロセスを示す図である。図11を参照すれば、本発明に係るイメージタグ部435は、画像フレームに含まれたオブジェクトを認識するための画像認識モデル(Image Recognition model)を備えることができる。
イメージタグ部435は、画像データベースDBに格納されたデータの幾何学的特徴を抽出し、抽出された幾何学的特徴を一定期間の間学習して画像認識モデルを構築することができる(S1110)。画像認識モデルとしてはCNN(Convolution Neutral Network)モデル、RNN(Recurrent Neural Network)モデル、RBM(Restricted Boltzmann Machine)モデル、DBN(Deep Belief Network)モデルなどのようなディープラーニング(deep learning)ベースの人工神経ネットワークモデルが用いられることができ、必ずしもこれらに制限されるものではない。
画像認識モデルに対する構築が完了すれば、イメージタグ部435は、各音声区間に対応するビデオ区間の画像フレームを順次受信することができる(S1120)。
イメージタグ部435は、各画像フレームを複数の領域に分割し、各領域別に特徴ベクトルを検出することができる(S1130)。一方、他の実施形態として、イメージタグ部435は、各画像フレームを複数の領域に分割せず、一つの画像フレーム単位で特徴ベクトルを検出してもよい。
イメージタグ部435は、画像認識モデルを用いて検出された特徴ベクトルのパターンを分類し、それに基づいて各画像フレームに存在するオブジェクトを認識することができる(S1140)。
イメージタグ部435は、各画像フレームに対する画像認識結果に基づいてイメージタグ情報を生成することができる(S1150)。ここで、イメージタグ情報は、各画像フレームに存在する全てのオブジェクトに関する情報を含む。
例えば、図12に示すように、イメージタグ部435は、第1画像フレーム1210に対する画像認識を通じて第1イメージタグ情報(すなわち、ファン(fan)、オイル(oil))1220を生成することができる。また、イメージタグ部435は、第2画像フレーム1230に対する画像認識を通じて第2イメージタグ情報(すなわち、人(person)、男(man)、窓(window))1240を生成することができる。また、イメージタグ部435は、第3画像フレーム1250に対する画像認識を通じて第3イメージタグ情報(すなわち、肉(meat)、プレート(plate)、手(hand))1260を生成することができる。
図13は、本発明の一実施形態によるシーン選択部の動作プロセスを示す図である。図13を参照すれば、本発明に係るシーン選択部437は、各音声区間に対応するビデオ区間の画像フレーム、および画像フレームに対応するイメージタグ情報を受信することができる(S1310)。
シーン選択部437は、音声情報生成部420から音声区間別のテキスト化された音声情報を受信することができる(S1320)。
シーン選択部437は、予め決定された単語埋め込みモデル(Word Embedding Model)を用いてテキスト化された音声情報と複数のイメージタグ情報をベクトル情報(またはベクトル値)に変換することができる(S1330)。ここで、単語埋め込み(Word Embedding)とは、一つの単語を人工神経ネットワークを用いてベクトル空間上に表せる変換された値を意味する。例えば、次の数式1のように、「cat」や「mat」のような単語を特定次元のベクトルに変更することができる。
(数式1)
W(“cat”)=(0.2,-0.4,0.7,...)
W(“mat”)=(0.0,0.6,-0.1,...)
本実施形態で使用可能な単語埋め込みモデルとしてはNNLM(Neural Net Language Model)モデル、RNNLM(Recurrent Neural Net Language Model)モデルなどのような人工神経ネットワークモデルが用いられることができ、より好ましくはWord2Vecモデルが用いられることができる。
Word2Vecモデルは、Neural Netベースの学習方法に比して大きく変わったものではないが、計算量を大幅に減らして従来の方法に比して何倍以上に速い学習を実行することができる。Word2Vecモデルは、言語(すなわち、単語)を学習させるためのネットワークモデルとしてCBOW(Continuous Bag−of−Words)モデルとSkip−gramモデルを提供している。
シーン選択部437は、予め決定された類似度測定技法を用いてイメージタグ情報に対応する第1ベクトル情報とテキスト化された音声情報に対応する第2ベクトル情報との間の類似度を測定することができる(S1340)。類似度測定技法としては、コサイン類似度(cosine similarity)測定技法、ユークリッド類似度(Euclidean similarity)測定技法、ジャカード(Jaccard)係数を用いた類似度測定技法、ピアソン相関係数を用いた類似度測定技法、マンハッタン距離を用いた類似度測定技法のうち少なくとも一つが用いられることができ、必ずしもこれらに制限されるものではない。
シーン選択部437は、テキスト化された音声情報を基準に各ビデオ区間の画像フレームに対応する複数のイメージタグ情報に対して類似度の測定を順次実行することができる。
シーン選択部437は、各ビデオ区間の画像フレームのうち、テキスト化された音声情報と最も類似度が高いイメージタグ情報に対応する画像フレームを該当区間の代表イメージに選択することができる(S1350)。
例えば、図14に示すように、シーン選択部437は、第1画像フレーム1410に対応する第1イメージタグ情報1420とテキスト化された音声情報1490との間の類似度Aを測定することができる。また、シーン選択部437は、第2画像フレーム1430に対応する第2イメージタグ情報1440とテキスト化された音声情報1490との間の類似度Bを測定することができる。また、シーン選択部437は、第3画像フレーム1450に対応する第3イメージタグ情報1460とテキスト化された音声情報1490との間の類似度Cを測定することができる。また、シーン選択部437は、第4画像フレーム1470に対応する第4イメージタグ情報1480とテキスト化された音声情報1490との間の類似度Dを測定することができる。
類似度の測定結果、第2イメージタグ情報1440とテキスト化された音声情報1490との間の類似度Bが最も高いため、シーン選択部437は、第2イメージタグ情報1440に対応する第2画像フレーム1430を該当区間の代表イメージに選択することができる。
一方、本実施形態においては、イメージタグ情報との類似度の比較対象がテキスト化された音声情報であることを例示しているが、これを制限するのではなく、テキスト化された音声情報の代わりに字幕テキスト情報を用いてもよいことは当業者に明らかである。
図15は、本発明の他の実施形態によるシーンメタ情報生成装置の構成を示すブロック図である。図15を参照すれば、本発明の他の実施形態によるシーンメタ情報生成装置1500は、字幕情報生成部1510、オーディオ情報生成部1520、イメージ情報生成部1530およびシーンメタ情報構成部1540を含むことができる。図15に示された構成要素はシーンメタ情報生成装置1500を実現するのに必須のものではないため、本明細書上で説明されるシーンメタ情報生成装置は上記で列挙された構成要素より多いかまたは少ない構成要素を有してもよい。
本発明に係るシーンメタ情報生成装置1500は、サーバ200のシーンメタ情報生成部230を介して実現されるかまたはユーザ端末300の制御部350を介して実現されてもよい。また、シーンメタ情報生成装置1500は、サーバ200およびユーザ端末300とは独立したハードウェアおよび/またはソフトウェアを介して実現されてもよい。
本発明に係るシーンメタ情報生成装置1500は、図4のシーンメタ情報生成装置400とは異なり、画像コンテンツから抽出されたオーディオ情報を音声認識して新しい字幕情報を生成することができる。このようなシーンメタ情報生成装置1500は、画像コンテンツのみが存在する場合(すなわち、別途の字幕ファイルが存在しない場合)に特に有用である。
本発明に係る字幕情報生成部1510は、音声認識部1525から受信したテキスト化された音声情報に基づいて新しい字幕情報を生成し、字幕情報をシーンメタ情報構成部1540に提供することができる。
一方、字幕情報生成部1510を除いたオーディオ情報生成部1520、イメージ情報生成部1530およびシーンメタ情報構成部1540は、図4に示されたオーディオ情報生成部420、イメージ情報生成部430およびシーンメタ情報構成部440と同一または類似するため、それに関する詳しい説明は省略する。
図16は、本発明の一実施形態による字幕補正装置の構成を示すブロック図である。図16を参照すれば、本発明の一実施形態による字幕補正装置1600は、字幕検出部1610、オーディオ検出部1620、音声区間分析部1630、音声認識部1640および字幕補正部1650を含むことができる。図16に示された構成要素は字幕補正装置1600を実現するのに必須のものではないため、本明細書上で説明される字幕補正装置は上記で列挙された構成要素より多いかまたは少ない構成要素を有してもよい。
本発明に係る字幕補正装置1600は、サーバ200の制御部250を介して実現されるかまたはユーザ端末300の制御部350を介して実現されてもよい。また、字幕補正装置1600は、サーバ200およびユーザ端末300とは独立したハードウェアおよび/またはソフトウェアを介して実現されてもよい。
字幕検出部1610は、画像コンテンツに含まれた字幕ファイルに基づいて字幕情報を抽出することができる。一方、他の実施形態として、字幕検出部1610は、画像コンテンツとは別途に格納された字幕ファイルに基づいて字幕情報を抽出してもよい。ここで、字幕情報は、字幕テキスト情報および字幕区間情報を含むことができる。
字幕検出部1610は、画像コンテンツの全体字幕を複数の単位字幕に分類し、各単位字幕別に字幕テキスト情報を検出することができる。また、字幕検出部1610は、画像コンテンツの再生区間のうち各単位字幕が表示される字幕区間を検出することができる。
オーディオ検出部1620は、画像コンテンツに含まれたオーディオファイルに基づいてオーディオストリームを抽出し、オーディオストリームを信号処理に好適な複数のオーディオフレームに分割することができる。
音声区間分析部1630は、オーディオフレームの特徴に基づいて画像コンテンツの音声区間を抽出することができる。音声区間分析部1630の動作は、上述した図4の音声区間分析部423の動作と同一または類似するため、それに関する詳しい説明は省略する。
音声認識部1640は、各音声区間内のオーディオ情報(すなわち、音声情報)に対して音声認識を実行することができる。音声認識部1640の動作は、上述した図4の音声認識部425の動作と同一または類似するため、それに関する詳しい説明は省略する。
字幕補正部1650は、画像コンテンツのオーディオ情報を通じて分析された音声区間に応じて各単位字幕の字幕区間を補正することができる。また、字幕補正部1650は、非音声区間に存在する不要な字幕を削除することができる。
字幕補正部1650は、各音声区間内のオーディオ情報を用いて各単位字幕のテキスト情報を補正することができる。また、字幕補正部1650は、各音声区間内のオーディオ情報を用いて一つの単位字幕を二つ以上の単位字幕に分割することができる。また、字幕補正部1650は、各音声区間内のオーディオ情報を用いて二つ以上の単位字幕を一つの単位字幕に併合することができる。
図17は、本発明の一実施形態による字幕補正方法を説明するフローチャートである。図17を参照すれば、本発明に係る字幕補正装置1600は、画像コンテンツに含まれた字幕ファイルまたは画像コンテンツとは別途に格納された字幕ファイルに基づいて字幕テキスト情報を検出することができる(S1710)。この時、字幕補正装置1600は、画像コンテンツの全体字幕を複数の単位字幕に分類し、各単位字幕別に字幕テキスト情報を検出することができる。
字幕補正装置1600は、画像コンテンツの再生区間のうち各単位字幕が表示される字幕区間を検出することができる(S1720)。ここで、字幕区間は、字幕開始時間情報、字幕終了時間情報および字幕表示時間情報を含むことができる。
字幕補正装置1600は、画像コンテンツに含まれたオーディオファイルに基づいてオーディオストリームを抽出し、オーディオストリームを信号処理に好適な複数のオーディオフレームに分割することができる(S1730)。
字幕補正装置1600は、オーディオフレームの特徴を抽出して各音声区間の開始時点と終了時点を抽出することができる(S1740)。ここで、各音声区間の開始時点は該当区間で音声出力が始まる画像コンテンツの再生時点に対応し、各音声区間の終了時点は該当区間で音声出力が終了する画像コンテンツの再生時点に対応する。
字幕補正装置1600は、各音声区間内のオーディオ情報(すなわち、音声情報)に対して音声認識を実行してテキスト化された音声情報を生成することができる(S1750)。
字幕補正装置1600は、画像コンテンツのオーディオ情報を通じて分析された音声区間に応じて各単位字幕の字幕区間を補正することができる。また、字幕補正部1650は、非音声区間に存在する不要な字幕を削除することができる。
字幕補正部1650は、各音声区間内のオーディオ情報を音声認識して各単位字幕のテキスト情報を補正することができる。また、字幕補正部1650は、各音声区間内のオーディオ情報を音声認識して一つの単位字幕を二つ以上の単位字幕に分割することができる。また、字幕補正部1650は、各音声区間内のオーディオ情報を音声認識して二つ以上の単位字幕を一つの単位字幕に併合することができる。
以上、上述したように、本発明に係る字幕補正方法は、字幕区間を音声区間に合わせて補正することによって、字幕区間と音声区間の不一致による音声の切れを防止することができる。また、字幕補正方法は、字幕を音声区間に合わせて分割または併合することによって、視聴者が読み易い長さの字幕に改善してユーザの可読性を向上させることができる。
図18は、シーンメタ情報を活用してビデオスライドサービスを提供するユーザ端末を例示する図である。図18を参照すれば、本発明に係るユーザ端末300は、画像コンテンツおよび/または字幕ファイルに基づいて動画再生サービスを提供することができる。また、ユーザ端末300は、画像コンテンツに関するシーンメタ情報を活用して複数のページ情報を生成し、それに基づいてビデオスライドサービスを提供することができる。ビデオスライドサービスは、動画再生サービスの付加サービスの形態で提供されてもよい。
ユーザ端末300は、視聴者の制御命令に応じて、ビデオスライドモードに進入ことができる。ユーザ端末300は、ビデオスライドモードへの進入時、予め決定されたページ画面1800をディスプレイ部に表示することができる。この時、ページ画面1800は、機能メニュー領域1810、字幕表示領域1820、スクロール領域1830およびイメージ表示領域1840などを含むことができ、必ずしもこれらに制限されるものではない。
機能メニュー領域1810は、ビデオスライドサービスと関連した機能を実行するための複数のメニューを含むことができる。例えば、機能メニュー領域1810には、ユーザから画像転換要請を受けるための第1機能メニュー1811、ユーザから再生オプション制御を受けるための第2機能メニュー1812、ページから出力されるオーディオ情報の再生/停止要請を受けるための再生/停止機能メニュー1813、ユーザから画面分割要請を受けるための第3機能メニュー1814、ユーザから字幕検索または翻訳要請を受けるための第4機能メニュー1815などがある。
字幕表示領域1820は、現在ページに対応する字幕テキスト情報を含むことができる。イメージ表示領域1840は、現在ページに対応する代表イメージを含むことができる。
スクロール領域1830は、現在ページを基準に以前および以後に存在する複数のページに対応する複数のサムネイルイメージを含むことができる。複数のサムネイルイメージは、複数のページに対応する代表イメージを予め決定された大きさに縮小したイメージである。複数のサムネイルイメージは、画像コンテンツの再生順に従って順次配列されることができる。
現在ページのサムネイルイメージは、スクロール領域1830の中央部1831に位置することができる。すなわち、スクロール領域1830の中央部1831には、現在視聴者が見ているページが位置することができる。視聴者は、スクロール領域1830に位置したサムネイルイメージのいずれか一つを選択することによって、該サムネイルイメージに対応するページに直ちに移動することができる。
ユーザ端末300は、視聴者のページ移動要請に対応して、現在ページと隣接した順序のタイムコードを有するページに移動し、移動したページをディスプレイ部に表示することができる。ページ移動要請は、ユーザがディスプレイ部の一部領域を選択するかまたはいずれか一つの地点から他の地点にスクロールすることによってなされる。
ユーザ端末300は、視聴者の画像転換要請に対応して、現在ページのタイムコードに対応する時点から画像コンテンツを再生することができる。例えば、第1機能メニュー1811が選択されると、ユーザ端末300は、現在ページの字幕区間開始時点(または音声区間開始時点)から画像コンテンツを再生することができる。
一方、画像コンテンツが再生中の状態で、ユーザ端末300は、ページ転換要請に対応して、現在の再生時点または現在の再生時点より先の再生時点に対応するページをディスプレイ部に表示することができる。
ユーザ端末300は、視聴者の再生オプション制御要請に対応して、オーディオ情報の出力方法を制御することができる。例えば、ユーザ端末300は、再生オプション制御要請に対応して、現在ページのオーディオ情報を繰り返し出力する第1再生モード、現在ページのオーディオ情報が出力された後にオーディオ情報の出力を停止する第2再生モード、現在ページのオーディオ情報が出力された後に現在ページの次のページに移動し、移動したページを表示する第3再生モードのいずれか一つの再生モードを実行することができる。
ユーザ端末300は、視聴者の画面分割要請に対応して、ディスプレイ部の表示画面を予め決定された個数に分割し、分割された画面に複数のページを表示することができる。
ユーザ端末300は、視聴者の再生/停止要請に対応して、現在ページから出力されるオーディオ情報を再生したり停止したりすることができる。また、ユーザ端末300は、視聴者の字幕検索要請に対応して、複数のページに対応する字幕を検索し、その検索結果をディスプレイ部に表示することができる。
ユーザ端末300は、視聴者の字幕翻訳要請に対応して、現在ページに該当する字幕を翻訳し、その翻訳結果をディスプレイ210に表示することができる。ユーザ端末300は、翻訳要請された字幕を連動した内部の翻訳プログラムや外部の翻訳プログラムに該字幕に対する翻訳を要請し、翻訳された結果をディスプレイ部に提供することができる。
このように、ユーザ端末300は、画像コンテンツに関する再生区間別のシーンメタ情報を活用して動画を本のようにページ単位で視聴できるビデオスライドサービスを提供することができる。
図19は、シーンメタ情報を活用してビデオ検索サービスを提供するユーザ端末を例示する図である。図19を参照すれば、本発明に係るユーザ端末300は、画像コンテンツおよび/または字幕ファイルに基づいて動画再生サービスを提供することができる。また、ユーザ端末300は、画像コンテンツに関するシーンメタ情報を活用してビデオ検索サービスを提供することができる。ビデオ検索サービスは、動画再生サービスの付加サービスの形態で提供されてもよい。
ユーザ端末300は、視聴者の制御命令に応じて、ビデオ検索モードに進入することができる。ユーザ端末300は、ビデオ検索モードへの進入時、予め決定されたシーン検索画面1900をディスプレイ部に表示することができる。
シーン検索画面1800は、検索語入力領域1910および検索シーン表示領域1920を含むことができる。検索語入力領域1910は、視聴者が探索しようとする画像コンテンツのシーンを説明する検索語を入力するための領域であり、検索シーン表示領域1920は、画像コンテンツに含まれたシーンのうち検索語とマッチングするシーンを表示するための領域である。
検索語入力領域1910を介して所定の検索語(例えば、「秘密の森で男子主人公が乗っていた車は?」)が入力された場合、ユーザ端末300は、データベースに格納されたシーンメタ情報のうち、入力された検索語とマッチングするシーンメタ情報を検索することができる。
ユーザ端末300は、検索されたシーンメタ情報に対応する代表イメージをシーン検索画面1800に表示することができる。また、ユーザ端末300は、代表イメージの中から検索語と関連したオブジェクトを指示するインジケータ1921、1923をディスプレイ部に表示することができる。
このように、ユーザ端末300は、画像コンテンツに関する再生区間別のシーンメタ情報を活用して所望のシーンを速く探索できるビデオ検索サービスを提供することができる。
前述した本発明は、プログラムが記録された媒体にコンピュータ読取可能なコードとして実現することができる。コンピュータ読取可能な媒体は、コンピュータで実行可能なプログラムを続けて格納するか、実行またはダウンロードのために臨時格納するものであってもよい。また、媒体は単一または数個のハードウェアが結合された形態の様々な記録手段または格納手段であってもよく、或るコンピュータ・システムに直接接続される媒体に限定されず、ネットワーク上に分散存在するものであってもよい。媒体の例示としては、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体、CD−ROMおよびDVDのような光気録媒体、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto−optical medium)、およびROM、RAM、フラッシュメモリなどを含めてプログラム命令語が格納されるように構成されたものがある。また、他の媒体の例示として、アプリケーションを流通するアプリストアやその他の様々なソフトウェアを供給乃至流通するサイト、サーバなどが管理する記録媒体乃至格納媒体も挙げられる。したがって、上記の詳細な説明は、全ての面で制限的に解釈されてはならず、例示的なものに考慮されなければならない。本発明の範囲は添付された請求項の合理的な解釈によって決定されなければならず、本発明の等価的な範囲内での全ての変更は本発明の範囲に含まれる。
10 ・・・コンテンツ提供システム
100 ・・・通信ネットワーク
200 ・・・サーバ
300 ・・・ユーザ端末
400 ・・・シーンメタ情報生成装置
410 ・・・字幕情報生成部
420 ・・・オーディオ情報生成部
430 ・・・イメージ情報生成部
440 ・・・シーンメタ情報構成部

Claims (20)

  1. 画像コンテンツと関連した字幕ファイルに基づいて複数の単位字幕を検出し、前記複数の単位字幕を補正する字幕情報生成部、
    前記画像コンテンツからオーディオ情報を抽出し、前記オーディオ情報に基づいて複数の音声区間を検出し、各音声区間内のオーディオ情報に対して音声認識を実行するオーディオ情報生成部、および
    各音声区間に対応するビデオ区間を検出し、前記ビデオ区間内の画像フレームに対して画像認識を実行し、前記画像フレームの中から代表イメージを選択するイメージ情報生成部
    を含むシーンメタ情報生成装置。
  2. 前記字幕情報生成部は、前記画像コンテンツと関連した単位字幕を検出するための字幕抽出部、前記単位字幕の字幕区間を検出するための字幕区間検出部、および前記単位字幕を補正するための字幕補正部を含むことを特徴とする、請求項1に記載のシーンメタ情報生成装置。
  3. 前記字幕補正部は、前記オーディオ情報を通じて検出された音声区間に基づいて前記単位字幕の字幕区間を補正することを特徴とする、請求項2に記載のシーンメタ情報生成装置。
  4. 前記字幕補正部は、各音声区間内のオーディオ情報に対する音声認識結果に基づいて、前記単位字幕の字幕テキスト情報を補正することを特徴とする、請求項2に記載のシーンメタ情報生成装置。
  5. 前記字幕補正部は、各音声区間内のオーディオ情報に対する音声認識結果に基づいて、一つの単位字幕を二つ以上の単位字幕に分割するか、または二つ以上の単位字幕を一つの単位字幕に併合することを特徴とする、請求項2に記載のシーンメタ情報生成装置。
  6. 前記オーディオ情報生成部は、前記画像コンテンツからオーディオ情報を抽出するためのオーディオ抽出部、前記画像コンテンツの音声区間を検出するための音声区間分析部、および各音声区間内のオーディオ情報に対して音声認識を実行するための音声認識部を含むことを特徴とする、請求項1に記載のシーンメタ情報生成装置。
  7. 前記音声区間分析部は、オーディオストリームを信号処理に好適な大きさを有する複数のオーディオフレームに分割し、前記オーディオフレームの特性を抽出して各音声区間の開始時点と終了時点を検出することを特徴とする、請求項6に記載のシーンメタ情報生成装置。
  8. 前記音声認識部は、各音声区間に対応するオーディオ情報の特徴ベクトルを検出し、前記特徴ベクトルのパターン分析を通じて音声認識を実行することを特徴とする、請求項6に記載のシーンメタ情報生成装置。
  9. 前記イメージ情報生成部は、前記画像コンテンツを構成するイメージを検出するための画像抽出部、各音声区間に対応するビデオ区間を検出するためのビデオ区間検出部、前記ビデオ区間内のイメージに関するイメージタグ情報を生成するイメージタグ部、および前記ビデオ区間の代表イメージを選択するシーン選択部を含むことを特徴とする、請求項1に記載のシーンメタ情報生成装置。
  10. 前記イメージタグ部は、各ビデオ区間内に存在する複数のイメージに対して画像認識を実行して、前記複数のイメージ各々に対するイメージタグ情報を生成することを特徴とする、請求項9に記載のシーンメタ情報生成装置。
  11. 前記シーン選択部は、予め決定された単語埋め込みモデルを用いて各音声区間に該当するテキスト化された音声情報と各ビデオ区間に該当するイメージタグ情報をベクトル情報に変換することを特徴とする、請求項9に記載のシーンメタ情報生成装置。
  12. 前記単語埋め込みモデルはWord2Vecモデルであることを特徴とする、請求項11に記載のシーンメタ情報生成装置。
  13. 前記シーン選択部は、予め決定された類似度測定技法を用いて前記イメージタグ情報に対応する第1ベクトル情報と前記テキスト化された音声情報に対応する第2ベクトル情報との間の類似度を測定することを特徴とする、請求項11に記載のシーンメタ情報生成装置。
  14. 前記類似度測定技法は、コサイン類似度測定技法、ユークリッド類似度測定技法、Jaccard係数を用いた類似度測定技法、ピアソン相関係数を用いた類似度測定技法およびマンハッタン距離を用いた類似度測定技法のうち少なくとも一つを含むことを特徴とする、請求項13に記載のシーンメタ情報生成装置。
  15. 前記シーン選択部は、各ビデオ区間内のイメージのうち、前記テキスト化された音声情報と最も類似度が高いイメージタグ情報に対応するイメージを該当区間の代表イメージに選択することを特徴とする、請求項13に記載のシーンメタ情報生成装置。
  16. 前記字幕情報生成部から受信した字幕情報、前記オーディオ情報生成部から受信したオーディオ情報および前記イメージ情報生成部から受信した代表イメージ情報に基づいてシーンメタ情報を生成するシーンメタ情報構成部をさらに含むことを特徴とする、請求項1に記載のシーンメタ情報生成装置。
  17. 前記シーンメタ情報のフレームは、シーンメタ情報を識別するためのIDフィールド、字幕区間または音声区間を示すタイムコードフィールド、代表イメージを示す代表イメージフィールド、音声情報を示す音声フィールド、字幕情報を示す字幕フィールドおよびイメージタグ情報を示すイメージタグフィールドのうち少なくとも一つを含むことを特徴とする、請求項16に記載のシーンメタ情報生成装置。
  18. 前記シーンメタ情報構成部は、シーンメタ情報の代表イメージが類似した場合、前記シーンメタ情報を一つのシーンメタ情報に併合することを特徴とする、請求項16に記載のシーンメタ情報生成装置。
  19. 画像コンテンツと関連した字幕ファイルに基づいて字幕情報を検出するステップ、
    前記画像コンテンツからオーディオ情報を抽出し、前記オーディオ情報に基づいて複数の音声区間を検出するステップ、
    各音声区間内のオーディオ情報に対する音声認識結果に基づいて前記字幕情報を補正するステップ、および
    各音声区間に対応するビデオ区間を検出し、前記ビデオ区間内の画像フレームに対する画像認識結果に基づいて代表イメージを選択するステップ
    を含むシーンメタ情報生成方法。
  20. 画像コンテンツからオーディオ情報を抽出し、前記オーディオ情報に基づいて複数の音声区間を検出し、各音声区間内のオーディオ情報に対して音声認識を実行するオーディオ情報生成部、
    各音声区間内のオーディオ情報に対する音声認識結果に基づいて字幕情報を生成する字幕情報生成部、および
    各音声区間に対応するビデオ区間を検出し、前記ビデオ区間内の画像フレームに対して画像認識を実行し、前記画像フレームの中から代表イメージを選択するイメージ情報生成部
    を含むシーンメタ情報生成装置。
JP2019089618A 2018-05-10 2019-05-10 シーンメタ情報生成装置およびシーンメタ情報生成方法 Active JP6745381B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0053643 2018-05-10
KR1020180053643A KR102085908B1 (ko) 2018-05-10 2018-05-10 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법

Publications (2)

Publication Number Publication Date
JP2019198074A JP2019198074A (ja) 2019-11-14
JP6745381B2 true JP6745381B2 (ja) 2020-08-26

Family

ID=68464403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019089618A Active JP6745381B2 (ja) 2018-05-10 2019-05-10 シーンメタ情報生成装置およびシーンメタ情報生成方法

Country Status (3)

Country Link
US (1) US11350178B2 (ja)
JP (1) JP6745381B2 (ja)
KR (1) KR102085908B1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7210938B2 (ja) * 2018-08-29 2023-01-24 富士通株式会社 テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法
US20200364402A1 (en) * 2019-05-17 2020-11-19 Applications Technology (Apptek), Llc Method and apparatus for improved automatic subtitle segmentation using an artificial neural network model
US11652801B2 (en) 2019-09-24 2023-05-16 Pribit Technology, Inc. Network access control system and method therefor
KR102267403B1 (ko) * 2019-12-13 2021-06-22 주식회사 코난테크놀로지 음성 및 영상 정보를 활용한 의미있는 구간을 검출하기 위한 방법 및 이를 위한 장치
CN111031349B (zh) * 2019-12-19 2021-12-17 三星电子(中国)研发中心 用于控制视频播放的方法及装置
CN111259109B (zh) * 2020-01-10 2023-12-05 腾讯科技(深圳)有限公司 一种基于视频大数据的音频转视频的方法
KR102522989B1 (ko) * 2020-02-28 2023-04-18 주식회사 아토맘코리아 멀티미디어 콘텐츠 내 상품 정보 제공 장치 및 방법
KR20210134866A (ko) * 2020-04-29 2021-11-11 엠랩 주식회사 동영상 내부의 정보를 검색하는 방법 및 장치
CN111770375B (zh) * 2020-06-05 2022-08-23 百度在线网络技术(北京)有限公司 视频处理方法、装置、电子设备及存储介质
CN112100436B (zh) * 2020-09-29 2021-07-06 新东方教育科技集团有限公司 舞蹈片段识别方法、舞蹈片段识别装置和存储介质
CN112689188B (zh) * 2020-12-21 2022-06-21 威创集团股份有限公司 一种大屏滚动字幕显示方法、装置、终端及存储介质
CN117221625A (zh) * 2021-03-16 2023-12-12 花瓣云科技有限公司 视频播放方法、视频客户端、视频播放***及存储介质
US12041321B2 (en) * 2021-07-30 2024-07-16 Rovi Guides, Inc. Systems and methods of providing content segments with transition elements
CN114025235A (zh) * 2021-11-12 2022-02-08 北京捷通华声科技股份有限公司 视频生成方法、装置、电子设备及存储介质
CN114385859B (zh) * 2021-12-29 2024-07-16 北京理工大学 一种面向视频内容的多模态检索方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3252282B2 (ja) 1998-12-17 2002-02-04 松下電器産業株式会社 シーンを検索する方法及びその装置
JP2002335473A (ja) 2001-05-10 2002-11-22 Webstream:Kk 動画コンテンツの検索情報抽出システム、検索情報抽出方法、検索情報保存システム、動画コンテンツのストリーミング配信方法
JP4920395B2 (ja) * 2006-12-12 2012-04-18 ヤフー株式会社 動画要約自動作成装置、方法、及びコンピュータ・プログラム
JP5246948B2 (ja) * 2009-03-27 2013-07-24 Kddi株式会社 字幕ずれ補正装置、再生装置および放送装置
US8281231B2 (en) * 2009-09-11 2012-10-02 Digitalsmiths, Inc. Timeline alignment for closed-caption text using speech recognition transcripts
US8989503B2 (en) * 2012-08-03 2015-03-24 Kodak Alaris Inc. Identifying scene boundaries using group sparsity analysis
KR101516995B1 (ko) * 2013-08-22 2015-05-15 주식회사 엘지유플러스 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법
KR102340196B1 (ko) * 2014-10-16 2021-12-16 삼성전자주식회사 동영상 처리 장치 및 방법
JP6337136B2 (ja) * 2014-10-27 2018-06-06 株式会社ソニー・インタラクティブエンタテインメント 動画像処理装置、動画像処理方法及びプログラム
US9818450B2 (en) * 2015-03-31 2017-11-14 Sony Interactive Entertainment Europe Limited System and method of subtitling by dividing script text into two languages
US9697825B2 (en) * 2015-04-07 2017-07-04 Nexidia Inc. Audio recording triage system
JP6601944B2 (ja) * 2015-06-09 2019-11-06 日本放送協会 コンテンツ生成装置およびプログラム
US11856315B2 (en) * 2017-09-29 2023-12-26 Apple Inc. Media editing application with anchored timeline for captions and subtitles

Also Published As

Publication number Publication date
KR102085908B1 (ko) 2020-03-09
KR20190129266A (ko) 2019-11-20
JP2019198074A (ja) 2019-11-14
US11350178B2 (en) 2022-05-31
US20190349641A1 (en) 2019-11-14

Similar Documents

Publication Publication Date Title
JP6745381B2 (ja) シーンメタ情報生成装置およびシーンメタ情報生成方法
CN113709561B (zh) 视频剪辑方法、装置、设备及存储介质
KR102142623B1 (ko) 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법
JP4873018B2 (ja) データ処理装置、データ処理方法、及び、プログラム
CN106688035B (zh) 声音合成装置及声音合成方法
KR20090130028A (ko) 분산 음성 검색을 위한 방법 및 장치
EP4322029A1 (en) Method and apparatus for generating video corpus, and related device
JP5910379B2 (ja) 情報処理装置、情報処理方法、表示制御装置および表示制御方法
US11899716B2 (en) Content providing server, content providing terminal, and content providing method
KR102148021B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치
JP5522369B2 (ja) 会議記録要約システム、会議記録要約方法及びプログラム
JP6602423B2 (ja) コンテンツ提供サーバ、コンテンツ提供端末及びコンテンツ提供方法
KR101968599B1 (ko) 입력 텍스트에 따른 스토리 동영상 생성방법 및 장치
JP6791063B2 (ja) 画像データ再生装置、情報処理装置、画像データ再生方法および画像データのデータ構造
KR20140137219A (ko) 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하거나 저장하여 s,e,u-컨텐츠를 만드는 장치 및 그 방법 또는 요점 추출 저장
CN114360545A (zh) 语音识别与音视频处理方法、设备、***及存储介质
KR102636708B1 (ko) 프레젠테이션 문서에 대한 수어 발표 영상을 제작할 수 있는 전자 단말 장치 및 그 동작 방법
US20230410848A1 (en) Method and apparatus of generating audio and video materials
US20240134597A1 (en) Transcript question search for text-based video editing
US20240135973A1 (en) Video segment selection and editing using transcript interactions
US20240134909A1 (en) Visual and text search interface for text-based video editing
US20240127820A1 (en) Music-aware speaker diarization for transcripts and text-based video editing
US20240127858A1 (en) Annotated transcript text and transcript thumbnail bars for text-based video editing
KR20230059311A (ko) 언어 학습용 콘텐츠를 제공하기 위한 방법
KR20240028622A (ko) 의미 단위 이동이 가능한 미디어 플레이어를 갖는 사용자 단말장치 및 그의 동작 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200721

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200803

R150 Certificate of patent or registration of utility model

Ref document number: 6745381

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250