JP2021193559A - ビデオ処理方法、装置、電子機器及び記憶媒体 - Google Patents

ビデオ処理方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2021193559A
JP2021193559A JP2021093229A JP2021093229A JP2021193559A JP 2021193559 A JP2021193559 A JP 2021193559A JP 2021093229 A JP2021093229 A JP 2021093229A JP 2021093229 A JP2021093229 A JP 2021093229A JP 2021193559 A JP2021193559 A JP 2021193559A
Authority
JP
Japan
Prior art keywords
video
audio data
label
special effects
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021093229A
Other languages
English (en)
Other versions
JP7263660B2 (ja
Inventor
ツァオ、デシ
Dexi Zhao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2021193559A publication Critical patent/JP2021193559A/ja
Application granted granted Critical
Publication of JP7263660B2 publication Critical patent/JP7263660B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2621Cameras specially adapted for the electronic generation of special effects during image pickup, e.g. digital cameras, camcorders, video cameras having integrated special effects capability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/11Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4888Data services, e.g. news ticker for displaying teletext characters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】ビデオ画面のプレゼンテーション効果などを向上させることが可能なビデオ処理方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、ビデオ再生中に、所定のポリシーに従って決定された処理待ちの未再生のオーディオデータに対して、夫々当該オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、当該オーディオデータのラベルとするステップと、ラベルに基づいてオーディオデータに対応する特殊効果動画を決定するステップと、オーディオデータが再生し始めるとき、特殊効果動画を対応するビデオ画面に重畳して表示するステップと、を含む処理を行う。【選択図】図1

Description

本開示は、コンピュータアプリケーション技術に関し、特に、ビデオ識別と理解、及びディープラーニングの分野のビデオ処理方法、装置、電子機器及び記憶媒体に関する。
現在、多くのビデオアプリケーションまたはウェブサイトは、すべて弾幕のようなビデオ再生時のインタラクション方式を提供し、弾幕は、文字と絵文字などを含むことができ、ユーザ間のインタラクションを向上させることができるが、このような方式はビデオ画面自体のプレゼンテーション効果を向上させることができない。
本開示は、ビデオ処理方法、装置、電子機器及び記憶媒体を提供する。
ビデオ処理方法は、
ビデオ再生中に、所定のポリシーに従って決定された、未再生の処理待ちのオーディオデータに対して、それぞれ、
前記オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、前記オーディオデータのラベルとするステップと、
前記ラベルに基づいて前記オーディオデータに対応する特殊効果動画を決定するステップと、
前記オーディオデータが再生し始めるとき、前記特殊効果動画を対応するビデオ画面に重畳して表示するステップと、を含む処理を行う。
ビデオ処理装置は、ラベル生成モジュール、動画取得モジュール、及び動画表示モジュールを含み、
前記ラベル生成モジュールは、ビデオ再生中に、所定のポリシーに従って決定された処理待ちの未再生のオーディオデータに対して、それぞれ、前記オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、前記オーディオデータのラベルとするために用いられ、
前記動画取得モジュールは、前記ラベルに基づいて前記オーディオデータに対応する特殊効果動画を決定するために用いられ、
前記動画表示モジュールは、前記オーディオデータが再生し始めるとき、前記特殊効果動画を対応するビデオ画面に重畳して表示するために用いられる。
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記に記載の方法を実行することができる。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに上記に記載の方法を実行させる。
上記の開示の一実施例は、以下の利点または有益な効果を有する。ビデオ再生中に、オーディオデータに基づいて対応する特殊効果動画を決定することができ、特殊効果動画をビデオ画面に重畳して表示することができることによって、ビデオ画面のプレゼンテーション効果を向上させ、ビデオ画面のコンテンツが豊富になり、ビデオ画面の面白みなどを向上させる。本明細書に説明された内容は、本開示の実施例のキーポイント又は重要な特徴を識別することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明によって容易に理解される。
図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
本開示の前記ビデオ処理方法の第1の実施例のフローチャートである。 本開示の前記ビデオ処理方法の第2の実施例のフローチャートである。 本開示の前記ビデオ処理装置30の実施例の構成の構造概略図である。 本開示の実施例に記載の方法に係る電子機器のブロック図である。
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
また、本明細書の用語「及び/又は」は、関連対象を説明する関連関係にすぎず、3種類の関係が存在可能であることを表し、例えば、A及び/又はBは、Aのみが存在するか、A及びBが同時に存在するか、Bのみが存在するという3つの場合を表すことができる。符号「/」は、一般的に前後の関連対象が「又は」の関係であることを表すことを理解されたい。
図1は、本開示に記載のビデオ処理方法の第1の実施例のフローチャートである。図1に示すように、以下の具体的な実現方式を含む。
101では、ビデオ再生中に、所定のポリシーに従って決定された処理待ちのオーディオデータに対して、それぞれ102〜104に示す方式に従って処理し、当該オーディオデータが未再生のオーディオデータである。
102では、当該オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、当該オーディオデータのラベルとする。
103では、前記ラベルに基づいて当該オーディオデータに対応する特殊効果動画を決定する。
104では、当該オーディオデータが再生し始めるとき、特殊効果動画を対応するビデオ画面に重畳して表示する。
好ましくは、ビデオを所定の期間ごとにM個の連続ビデオクリップに分割することができ、Mは1より大きい正の整数であり、具体的な値は実際のニーズに応じて決定することができ、任意のビデオクリップに対応するオーディオデータに対して、それぞれ所定のポリシーに従ってその中からオーディオデータの一部を選択して、処理待ちのオーディオデータとすることができる。
例えば、特定のビデオクリップを再生する同時に、次のビデオクリップに対応するオーディオデータからオーディオデータの一部を選択して、処理待ちのオーディオデータとすることができ、102〜104に示す方式に従って処理することができる。
好ましくは、ビデオクリップに対応するオーディオデータから語義が最も完全な一つの語句に対応するオーディオデータを選択して、処理待ちのオーディオデータとすることができる。
上記の方式により、処理待ちのオーディオデータの数が多すぎて、特殊効果動画を過剰に重畳し、リソースの消費を増加するなどを回避することができる。
処理待ちのオーディオデータに対して、対応するテキストコンテンツから所定の要求を満たす単語を抽出して、当該オーディオデータのラベルとすることができ、その中、既存のオーディオ識別技術により、当該オーディオデータに対応するテキストコンテンツを取得することができる。
好ましくは、テキストコンテンツに対して単語分割処理を行うことができ、任意の単語分割結果に対して、当該単語分割結果が予め生成されたホットワード単語リストにあると判定された場合、当該単語分割結果がホットワードであると判定することができ、当該単語分割結果をオーディオデータのラベルとすることができる。ホットワード単語リストは、手動または自動で帰納的にまとめる方式によって生成することができ、周期的に更新することができる。任意の単語分割結果に対して、ホットワード単語リストに存在するか否かをそれぞれ判定することができ、存在する場合、当該単語分割結果をオーディオデータのラベルとすることができる。
ホットワードは、通常、ユーザが関心及び興味を持っているコンテンツであるため、ホットワードを抽出することにより、後続にユーザに表示する特殊効果動画をユーザの実際のニーズなどにより適したものにすることができる。
処理待ちのオーディオデータに対して、さらに、当該オーディオデータを予めトレーニングされたシーン識別モデルに入力して、識別された当該オーディオデータに対応するシーンを取得して、前記シーンを当該オーディオデータのラベルとすることもできる。シーン識別モデルは、機械学習またはディープラーニングなどの方式を使用して予めトレーニングすることができる。シーン識別モデルは主にオーディオ環境の音を識別し、識別結果は通常一つであり、例えば海の波、流水、風、または爆竹などであってもよい。別の可能な実現方式として、当該オーディオデータに対応するビデオ画面コンテンツに基づいて当該オーディオデータに対応するシーンを識別することもでき、具体的な実現方式は限定されない。
シーン識別により、オーディオデータのラベルのコンテンツとタイプなどをさらに豊富にすることができる。
さらに、ラベルに基づいてオーディオデータに対応する特殊効果動画を決定することができる。好ましくは、ラベルの数が1である場合、当該ラベルに対応する特殊効果動画を直接取得して、オーディオデータに対応する特殊効果動画とすることができ、ラベルの数が1より大きい場合、まず、その中から一つのラベルを選択し、次に、選択したラベルに対応する特殊効果動画を取得して、オーディオデータに対応する特殊効果動画とすることができる。
ラベルの数が1である場合、当該ラベルは、ホットワードであってもよく、シーンであってもよく、ホットワードでもシーンでも関わらず、いずれも当該ラベルに対応する特殊効果動画を直接取得することができる。ラベルの数が1より大きい場合、まず、その中から一つのラベルを選択することができ、どのように選択するかは限定されず、例えば、ホットワードの優先度がシーンの優先度より高く設置することができ、テキストコンテンツ内の出現位置が前のホットワードの優先度がテキストコンテンツ内の出現位置が後のホットワードの優先度より高く設置することができ、優先度の設置に基づいて、一つの優先度が最も高いラベルを選択し、その他、例えば、シーンの優先度がホットワードの優先度より高く設置することができ、テキストコンテンツ内の出現位置が前のホットワードの優先度がテキストコンテンツ内の出現位置が後のホットワードの優先度より高く設置することができ、優先度の設置に基づいて、一つの優先度が最も高いラベルを選択し、具体的な実現方式は限定されず、その後、選択したラベルに対応する特殊効果動画を取得することができる。
任意のラベルに対応する特殊効果動画を取得する場合、当該ラベルに対応する特殊効果動画がローカルに記憶されていることが判定された場合、ローカルから当該ラベルに対応する特殊効果動画を取得することができ、当該ラベルに対応する特殊効果動画がローカルに記憶されていないと判定された場合、サーバから当該ラベルに対応する特殊効果動画を取得して、ローカルに記憶することができる。
すなわち優先にローカルから特殊効果動画を取得して、取得速度と効率を向上させる。サーバから取得された特殊効果動画は、ローカルに記憶することができ、次回に同じ特殊効果動画を使用する必要がある場合、ローカルから直接取得することができる。
ローカル及びサーバからいずれも特定のラベルに対応する特殊効果動画を取得できない場合、ラベルを再選択し、またはオーディオデータに対応する特殊効果動画が空(特殊効果動画を重畳しないことに相当する)などであると思う。
ローカルでもサーバでも関わらず、任意の特殊効果動画に対して、いずれも対応するラベルを同時に記憶することによって、取得を要求したラベルに対応する特殊効果動画を便利かつ迅速に決定することができる。
ローカルのストレージスペースが限られているため、任意の特殊効果動画のローカルにおける記憶期間が第1の所定の期間を超える場合、当該特殊効果動画をローカルから削除することができ、及び/又は、ローカルに記憶された任意の特殊効果動画が第2の所定の期間を超えて使用されていない場合、当該特殊効果動画をローカルから削除することもでき、第1の所定の期間と第2の所定の期間の具体的な値はいずれも実際のニーズに基づいて決定することができる。
上記の方式により、ローカルに記憶されている特殊効果動画の有効的な管理及びメンテナンスを実現し、ローカルに記憶されている特殊効果動画をタイムリーに更新するようにすることができ、ローカルに記憶されている特殊効果動画のヒット率などを向上させることができる。
処理待ちのオーディオデータに対して、当該オーディオデータが再生し始めるとき、当該オーディオデータに対応する特殊効果動画を対応するビデオ画面に重畳して表示することができる。すなわち当該オーディオデータの再生を開始する時に特殊効果動画の表示を開始すればよく、特殊効果動画の表示期間は特殊効果動画自体の期間に依存し、特殊効果動画の期間は通常短く、例えば、当該オーディオデータの期間は5秒、特殊効果動画の期間は3秒、当該オーディオデータの開始再生時間は全ビデオ再生時間中の3分18秒である場合、3分18秒から特殊効果動画の表示を開始し、3分21秒で表示を終了することができる。特殊効果動画は、Lottie動画、Webp動画などの任意の形式の動画であってもよい。
特殊効果動画を表示する時、既存のビデオ画面層に1層の効果層を再重畳する方式を使用して、効果層に特殊効果動画を表示し、2層を重畳して表示して、ビデオ画面再生を実現するとともに、特殊効果動画を表示することもできる。
特殊効果動画の表示領域は制限されておらず、全体のビデオ画面領域または一部のビデオ画面領域をカバーするなどのような、実際のニーズに基づくことができる。
上記の説明に基づいて、図2は本開示に係るビデオ処理方法の第2の実施例のフローチャートである。図2に示すように、以下の具体的な実現方式を含む。
201では、ビデオ再生中に、所定のポリシーに従って決定された処理待ちの未再生のオーディオデータに対して、それぞれ202〜208に示す方式で処理する。
ビデオを所定の期間ごとにM個の連続ビデオクリップに分割することができ、Mは1より大きい正の整数であり、任意のビデオクリップに対応するオーディオデータに対して、それぞれ所定のポリシーに従ってその中からオーディオデータの一部を選択して、処理待ちのオーディオデータとし、例えば、語義が最も完全な一つの語句に対応するオーディオデータを選択する。
202では、当該オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、当該オーディオデータのラベルとする。
テキストコンテンツに対して単語分割処理を行うことができ、任意の単語分割結果に対して、当該単語分割結果が予め生成されたホットワード単語リストにあると判定された場合、当該単語分割結果がホットワードであると判定することができ、さらに当該単語分割結果を当該オーディオデータのラベルとすることができる。
203では、当該オーディオデータを予めトレーニングされたシーン識別モデルに入力して、識別された当該オーディオデータに対応するシーンを取得して、前記シーンを当該オーディオデータのラベルとする。
204では、当該オーディオデータのラベルから一つのラベルを選択する。
本実施例では、当該オーディオデータのラベルの数が1より大きいと仮定する。
205では、選択したラベルに対応する特殊効果動画がローカルにあるか否かを判定し、そうである場合、206を実行し、そうでない場合、207を実行する。
206では、ローカルから選択したラベルに対応する特殊効果動画を取得して、次に208を実行する。
207では、サーバから選択したラベルに対応する特殊効果動画を取得して、ローカルに記憶し、次に208を実行する。
208では、当該オーディオデータが再生し始めるとき、特殊効果動画を対応するビデオ画面に重畳して表示し、プロセスを終了する。
説明が必要なのは、前述の各方法の実施例について、簡単に説明するために、一連の動作の組み合わせとして表現したが、当業者は、本開示が説明された動作順序によって限定されないことを理解する必要あり、本開示によれば、いくつかのステップは、他の順序を採用するか、または同時に行うことができる。次に、当業者は、明細書に説明された実施例がいずれも好ましい実施例に含まれ、関連する動作とモジュールが本開示に必ずしも必要ではないことも理解されたい。また、ある実施例において詳細に説明されてない部分は、他の実施例における関連する説明を参照することができる。
上記の方法の実施例に記載の解決案を使用して、ビデオ再生中に、オーディオデータに基づいて対応する特殊効果動画を決定することができ、特殊効果動画をビデオ画面に重畳して表示することができることによって、ビデオ画面のプレゼンテーション効果を向上させ、ビデオ画面のコンテンツが豊富になり、ビデオ画面の興趣性などを向上させる。
以上は方法の実施例の説明であり、以下の装置の実施例により、本開示に係る解決案をさら説明する。
図3は本開示に係るビデオ処理装置30の実施例の構成の構造概略図である。図3に示すように、ラベル生成モジュール301、動画取得モジュール302、及び動画表示モジュール303を含む。
ラベル生成モジュール301は、ビデオ再生中に、所定のポリシーに従って決定された処理待ちのオーディオデータに対して、それぞれ当該オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、当該オーディオデータのラベルとするために用いられ、当該オーディオデータは未再生のオーディオデータである。
動画取得モジュール302は、ラベルに基づいて当該オーディオデータに対応する特殊効果動画を決定するために用いられる。
動画表示モジュール303は、当該オーディオデータが再生し始めるとき、特殊効果動画を対応するビデオ画面に重畳して表示するために用いられる。
図3に示す装置では、オーディオ取得モジュール300をさらに含むことができ、オーディオ取得モジュール300は、ビデオを所定の期間ごとにM個の連続ビデオクリップに分割するために用いられ、Mは1より大きい正の整数であり、任意のビデオクリップに対応するオーディオデータに対して、語義が最も完全な一つの語句に対応するオーディオデータを選択するように、それぞれ所定のポリシーに従ってその中からオーディオデータの一部を選択して、処理待ちのオーディオデータとするために用いられる。
オーディオデータに対応するテキストコンテンツに対して、ラベル生成モジュール301は、テキストコンテンツに対して単語分割処理を行うことができ、任意の単語分割結果に対して、当該単語分割結果が予め生成されたホットワード単語リストにあると判定された場合、当該単語分割結果がホットワードであると判定して、当該単語分割結果をオーディオデータのラベルとすることができる。
ラベル生成モジュール301は、さらに、オーディオデータを予めトレーニングされたシーン識別モデルに入力し、識別されたオーディオデータに対応するシーンを取得して、前記シーンをオーディオデータのラベルとすることができる。
それに応じて、オーディオデータのラベルの数が一つであってもよく、複数であってもよく、動画取得モジュール302は、ラベルの数が1である場合、当該ラベルに対応する特殊効果動画を直接取得し、オーディオデータに対応する特殊効果動画とすることができ、ラベルの数が1より大きい場合、その中から一つのラベルを選択し、選択したラベルに対応する特殊効果動画を取得して、オーディオデータに対応する特殊効果動画とすることができる。
また、動画取得モジュール302は、任意のラベルに対応する特殊効果動画を取得する必要がある時、当該ラベルに対応する特殊効果動画がローカルに記憶されていることが判定された場合、ローカルから当該ラベルに対応する特殊効果動画を取得することができ、当該ラベルに対応する特殊効果動画がローカルに記憶されていないと判定された場合、サーバから当該ラベルに対応する特殊効果動画を取得して、ローカルに記憶することができる。
動画取得モジュール302は、さらに、任意の特殊効果動画のローカルにおける記憶期間が第1の所定の期間を超えると判定された場合、当該特殊効果動画をローカルから削除し、及び/又は、ローカルに記憶された任意の特殊効果動画が第2の所定の期間を超えて使用されていないと判定された場合、当該特殊効果動画をローカルから削除することができる。
図3に示す装置の実施例の具体的な動作プロセスは、前述の方法の実施例における関連する説明を参照し、繰り返して説明しない。
つまり、本開示装置の実施例に記載の解決案を使用して、ビデオ再生中に、オーディオデータに基づいて対応する特殊効果動画を決定することができ、特殊効果動画をビデオ画面に重畳して表示することができることによって、ビデオ画面のプレゼンテーション効果を向上させ、ビデオ画面のコンテンツが豊富になり、ビデオ画面の興趣性などを向上させ、ビデオクリップを分割するなどによって、処理待ちのオーディオデータの数が多すぎて、特殊効果動画を過剰に重畳し、リソースの消費を増加するなどを回避することができ、ホットワードは、通常、ユーザが関心及び興味を持っているコンテンツであるため、ホットワードを抽出してオーディオデータのラベルとすることにより、後続にユーザに表示する特殊効果動画をユーザの実際のニーズなどにより適したものにすることができ、シーン識別により、オーディオデータのラベルのコンテンツとタイプなどをさらに豊富にすることができ、ラベルに対応する特殊効果動画を取得する場合、取得速度と効率を向上させるために、優先的にローカルから取得することができ、サーバから取得された特殊効果動画は、さらにローカルに記憶することができ、次回に同じ特殊効果動画を使用する必要がある場合、ローカルから直接取得することができ、また、さらにローカルに記憶されている特殊効果動画に対して有効的な管理及びメンテナンスを行うことができ、ローカルに記憶されている特殊効果動画をタイムリー的に更新するようにすることができ、ローカルに記憶されている特殊効果動画のヒット率などを向上させることができる。
本開示の実施例によれば、本開示は電子機器及び読み取り可能な記憶媒体をさらに提供する。
図4に示すように、それは本開示の実施例の前記方法に係る電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限することを意図したものではない。
図4に示すように、当該電子機器は、一つ又は複数のプロセッサY01と、メモリY02と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に基づいて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施方式では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図4では、一つのプロセッサY01を例とする。
メモリY02は、本開示により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中、前記メモリには、少なくとも一つのプロセッサによって実行される命令を記憶して、前記少なくとも一つのプロセッサが本開示により提供される前記方法を実行することができるようにする。本開示の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本開示により提供される前記方法を実行するためのコンピュータ命令を記憶する。
メモリY02は、非一時的なコンピュータ読み取り可能な記憶媒体として、本開示の実施例における前記方法に対応するプログラム命令/モジュールように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサY01は、メモリY02に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例における方法を実現する。
メモリY02は、プログラム記憶領域とデータ記憶領域とを含むことができ、その中、プログラム記憶領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリY02は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも一つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリY02は、プロセッサY01に対して遠隔に設置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介して電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定しない。
電子機器は、入力装置Y03と出力装置Y04とをさらに含むことができる。プロセッサY01、メモリY02、入力装置Y03、及び出力装置Y04は、バス又は他の方式を介して接続することができ、図4では、バスを介して接続することを例とする。
入力装置Y03は、入力された数字又は文字情報を受信することができ、及び前記方法を実現する電子機器のユーザ設置及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示杆、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置Y04は、ディスプレイデバイス、補助照明デバイス、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ、発光ダイオードディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定しない。いくつかの実施方式では、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイ)を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、陰極線管又は液晶ディスプレイモニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、ブロックチェーンネットワークと、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。
上記に示される様々な形式のプロセスを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims (21)

  1. ビデオ処理方法であって、
    ビデオ再生中に、所定のポリシーに従って決定された、処理待ちの未再生のオーディオデータに対して、それぞれ、
    前記オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、前記オーディオデータのラベルとするステップと、
    前記ラベルに基づいて前記オーディオデータに対応する特殊効果動画を決定するステップと、
    前記オーディオデータが再生し始めるとき、前記特殊効果動画を対応するビデオ画面に重畳して表示するステップと、を含む処理を行う、
    ビデオ処理方法。
  2. 前記オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、前記オーディオデータのラベルとするステップは、
    前記テキストコンテンツに対して単語分割処理を行うステップと、
    任意の単語分割結果に対して、前記単語分割結果が予め生成されたホットワード単語リストにあると判定された場合、前記単語分割結果がホットワードであると判定し、前記単語分割結果を前記オーディオデータのラベルとするステップと、を含む、
    請求項1に記載のビデオ処理方法。
  3. 当該方法は、前記オーディオデータを予めトレーニングされたシーン識別モデルに入力し、識別された前記オーディオデータに対応するシーンを取得して、前記シーンを前記オーディオデータのラベルとするステップをさらに含む、
    請求項1または2に記載のビデオ処理方法。
  4. 前記シーン識別モデルは、ディープラーニング方法を使用してトレーニングされたシーン識別モデルを含む、
    請求項3に記載のビデオ処理方法。
  5. 前記ラベルに基づいて前記オーディオデータに対応する特殊効果動画を決定するステップは、
    前記ラベルの数が1である場合、前記ラベルに対応する特殊効果動画を前記オーディオデータに対応する特殊効果動画として取得するステップと、
    前記ラベルの数が1より大きい場合、その中から一つのラベルを選択し、選択したラベルに対応する特殊効果動画を前記オーディオデータに対応する特殊効果動画として取得するステップと、を含む、
    請求項3または4に記載のビデオ処理方法。
  6. 任意のラベルに対応する特殊効果動画を取得するステップは、
    前記ラベルに対応する特殊効果動画がローカルに記憶されている場合、ローカルから前記ラベルに対応する特殊効果動画を取得するステップと、
    前記ラベルに対応する特殊効果動画がローカルに記憶されていない場合、サーバから前記ラベルに対応する特殊効果動画を取得して、ローカルに記憶するステップと、を含む、
    請求項5に記載のビデオ処理方法。
  7. 当該ビデオ処理方法は、
    任意の特殊効果動画のローカルにおける記憶期間が第1の所定の期間を超える場合、前記特殊効果動画をローカルから削除するステップと、
    及び/又は、ローカルに記憶された任意の特殊効果動画が第2の所定の期間を超えて使用されていない場合、前記特殊効果動画をローカルから削除するステップと、をさらに含む、
    請求項6に記載のビデオ処理方法。
  8. 前記処理待ちのオーディオデータの決定方式は、
    前記ビデオを所定の期間ごとにM個の連続ビデオクリップに分割するステップであって、Mは1より大きい正の整数であるステップと、
    任意のビデオクリップに対応するオーディオデータに対して、それぞれ所定のポリシーに従ってその中からオーディオデータの一部を選択して、前記処理待ちのオーディオデータとするステップと、を含む、
    請求項1から7のいずれか一項に記載のビデオ処理方法。
  9. 前記所定のポリシーに従ってその中からオーディオデータの一部を選択するステップは、語義が最も完全な一つの語句に対応するオーディオデータを選択するステップを含む、
    請求項8に記載のビデオ処理方法。
  10. ビデオ処理装置であって、
    ラベル生成モジュール、動画取得モジュール、及び動画表示モジュールを含み、
    前記ラベル生成モジュールは、ビデオ再生中に、所定のポリシーに従って決定された処理待ちの未再生のオーディオデータに対して、それぞれ、前記オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、前記オーディオデータのラベルとするために用いられ、
    前記動画取得モジュールは、前記ラベルに基づいて前記オーディオデータに対応する特殊効果動画を決定するために用いられ、
    前記動画表示モジュールは、前記オーディオデータが再生し始めるとき、前記特殊効果動画を対応するビデオ画面に重畳して表示するために用いられる、
    ビデオ処理装置。
  11. 前記ラベル生成モジュールは、前記テキストコンテンツに対して単語分割処理を行い、任意の単語分割結果に対して、前記単語分割結果が予め生成されたホットワード単語リストにあると判定された場合、前記単語分割結果がホットワードであると決定し、前記単語分割結果を前記オーディオデータのラベルとする、
    請求項10に記載のビデオ処理装置。
  12. 前記ラベル生成モジュールは、さらに、前記オーディオデータを予めトレーニングされたシーン識別モデルに入力し、識別された前記オーディオデータに対応するシーンを取得して、前記シーンを前記オーディオデータのラベルとするために用いられる、
    請求項10または11に記載のビデオ処理装置。
  13. 前記シーン識別モデルは、ディープラーニング方法を使用してトレーニングされたシーン識別モデルを含む、
    請求項12に記載のビデオ処理装置。
  14. 前記動画取得モジュールは、前記ラベルの数が1である場合、前記ラベルに対応する特殊効果動画を前記オーディオデータに対応する特殊効果動画として取得し、前記ラベルの数が1より大きい場合、その中から一つのラベルを選択し、選択したラベルに対応する特殊効果動画を前記オーディオデータに対応する特殊効果動画として取得する、
    請求項12または13に記載のビデオ処理装置。
  15. 前記動画取得モジュールは、任意のラベルに対応する特殊効果動画を取得する必要がある時、前記ラベルに対応する特殊効果動画がローカルに記憶されていることが判定された場合、ローカルから前記ラベルに対応する特殊効果動画を取得し、前記ラベルに対応する特殊効果動画がローカルに記憶されていないと判定された場合、サーバから前記ラベルに対応する特殊効果動画を取得して、ローカルに記憶する、
    請求項14に記載のビデオ処理装置。
  16. 前記動画取得モジュールは、さらに、任意の特殊効果動画のローカルにおける記憶期間が第1の所定の期間を超えると判定された場合、前記特殊効果動画をローカルから削除し、及び/又は、ローカルに記憶された任意の特殊効果動画が第2の所定の期間を超えて使用されていないと判定された場合、前記特殊効果動画をローカルから削除するために用いられる、
    請求項15に記載のビデオ処理装置。
  17. 前記ビデオ処理装置は、オーディオ取得モジュールをさらに含み、前記オーディオ取得モジュールは、前記ビデオを所定の期間ごとに、1より大きい正の整数であるM個の連続ビデオクリップに分割するために用いられ、任意のビデオクリップに対応するオーディオデータに対して、それぞれ所定のポリシーに従ってその中からオーディオデータの一部を選択して、前記処理待ちのオーディオデータとするために用いられる、
    請求項10から16のいずれか一項に記載のビデオ処理装置。
  18. 前記オーディオ取得モジュールは、語義が最も完全な一つの語句に対応するオーディオデータを選択する、
    請求項17に記載のビデオ処理装置。
  19. 電子機器であって、
    少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサに通信接続されたメモリと、含み、
    前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1〜9のいずれか一項に記載のビデオ処理方法を実行する、
    電子機器。
  20. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、前記コンピュータに請求項1〜9のいずれか一項に記載のビデオ処理方法を実行させる、
    コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。
  21. コンピュータに請求項1〜9のいずれか一項に記載のビデオ処理方法を実行させるためのプログラム。
JP2021093229A 2020-06-05 2021-06-02 ビデオ処理方法、装置、電子機器及び記憶媒体 Active JP7263660B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010504444.4 2020-06-05
CN202010504444.4A CN111770375B (zh) 2020-06-05 2020-06-05 视频处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2021193559A true JP2021193559A (ja) 2021-12-23
JP7263660B2 JP7263660B2 (ja) 2023-04-25

Family

ID=72720366

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021093229A Active JP7263660B2 (ja) 2020-06-05 2021-06-02 ビデオ処理方法、装置、電子機器及び記憶媒体

Country Status (5)

Country Link
US (1) US11800042B2 (ja)
EP (1) EP3923283A1 (ja)
JP (1) JP7263660B2 (ja)
KR (1) KR102541051B1 (ja)
CN (1) CN111770375B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995694B (zh) * 2021-04-09 2022-11-22 北京字节跳动网络技术有限公司 视频显示方法、装置、电子设备及存储介质
CN113824899B (zh) * 2021-09-18 2022-11-04 北京百度网讯科技有限公司 视频处理方法、装置、电子设备及介质
CN114173067B (zh) * 2021-12-21 2024-07-12 科大讯飞股份有限公司 一种视频生成方法、装置、设备及存储介质
CN114630057B (zh) * 2022-03-11 2024-01-30 北京字跳网络技术有限公司 确定特效视频的方法、装置、电子设备及存储介质
CN116017093B (zh) * 2022-12-15 2023-08-11 广州迅控电子科技有限公司 一种视频环境模拟方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1318658A2 (en) * 2001-12-04 2003-06-11 Fuji Photo Film Co., Ltd. Method and apparatus for registering modification pattern of transmission image and method and apparatus for reproducing the same
JP2003244425A (ja) * 2001-12-04 2003-08-29 Fuji Photo Film Co Ltd 伝送画像の修飾パターンの登録方法および装置ならびに再生方法および装置
JP2011250100A (ja) * 2010-05-26 2011-12-08 Sony Corp 画像処理装置および方法、並びにプログラム
JP2016035607A (ja) * 2012-12-27 2016-03-17 パナソニック株式会社 ダイジェストを生成するための装置、方法、及びプログラム
CN109996026A (zh) * 2019-04-23 2019-07-09 广东小天才科技有限公司 基于穿戴式设备的视频特效互动方法、装置、设备及介质
US10467792B1 (en) * 2017-08-24 2019-11-05 Amazon Technologies, Inc. Simulating communication expressions using virtual objects
WO2020091930A1 (en) * 2018-10-31 2020-05-07 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6976028B2 (en) 2001-06-15 2005-12-13 Sony Corporation Media content creating and publishing system and process
US7743329B2 (en) * 2003-06-27 2010-06-22 Microsoft Corporation Incorporating interactive media into a playlist
CN101268494B (zh) * 2005-09-21 2012-01-04 松下电器产业株式会社 视频制作装置以及视频制作方法
CN101546587A (zh) * 2008-03-25 2009-09-30 国际商业机器公司 在播放歌曲时自动显示视觉元素的方法和装置
KR101070026B1 (ko) 2009-09-03 2011-10-05 삼성전기주식회사 동영상 촬영 장치 및 동영상 촬영 방법
CN101853668B (zh) * 2010-03-29 2014-10-29 北京中星微电子有限公司 一种将midi音乐生成动画的方法和***
JP2013042356A (ja) * 2011-08-16 2013-02-28 Sony Corp 画像処理装置および方法、並びにプログラム
CN104394324B (zh) * 2014-12-09 2018-01-09 成都理想境界科技有限公司 特效视频生成方法及装置
CN104754394A (zh) * 2015-02-01 2015-07-01 苏州乐聚一堂电子科技有限公司 同步视觉特效***及同步视觉特效处理方法
CN104703043A (zh) * 2015-03-26 2015-06-10 努比亚技术有限公司 一种添加视频特效的方法和装置
CN104780459A (zh) * 2015-04-16 2015-07-15 美国掌赢信息科技有限公司 一种即时视频中的特效加载方法和电子设备
TWI597980B (zh) * 2015-08-10 2017-09-01 宏達國際電子股份有限公司 影音管理方法及其系統
US20170316807A1 (en) * 2015-12-11 2017-11-02 Squigl LLC Systems and methods for creating whiteboard animation videos
CN106127829B (zh) * 2016-06-28 2020-06-30 Oppo广东移动通信有限公司 一种增强现实的处理方法、装置及终端
CN106096062A (zh) * 2016-07-15 2016-11-09 乐视控股(北京)有限公司 视频交互方法及装置
CN106446135B (zh) * 2016-09-19 2019-12-10 北京搜狐新动力信息技术有限公司 一种多媒体数据标签生成方法和装置
CN107493442A (zh) * 2017-07-21 2017-12-19 北京奇虎科技有限公司 一种编辑视频的方法和装置
CN107967706B (zh) * 2017-11-27 2021-06-11 腾讯音乐娱乐科技(深圳)有限公司 多媒体数据的处理方法、装置及计算机可读存储介质
CN108307229B (zh) * 2018-02-02 2023-12-22 新华智云科技有限公司 一种影音数据的处理方法及设备
KR102085908B1 (ko) 2018-05-10 2020-03-09 네이버 주식회사 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법
CN108764304B (zh) * 2018-05-11 2020-03-06 Oppo广东移动通信有限公司 场景识别方法、装置、存储介质及电子设备
CN108877838B (zh) * 2018-07-17 2021-04-02 黑盒子科技(北京)有限公司 音乐特效匹配方法及装置
CN110830852B (zh) * 2018-08-07 2022-08-12 阿里巴巴(中国)有限公司 一种视频内容的处理方法及装置
CN109147825A (zh) * 2018-08-09 2019-01-04 湖南永爱生物科技有限公司 基于语音识别的人脸表情装饰方法、装置、存储介质及电子设备
CN109729297A (zh) * 2019-01-11 2019-05-07 广州酷狗计算机科技有限公司 在视频中添加特效的方法和装置
CN110008922B (zh) * 2019-04-12 2023-04-18 腾讯科技(深圳)有限公司 用于终端设备的图像处理方法、设备、装置、介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1318658A2 (en) * 2001-12-04 2003-06-11 Fuji Photo Film Co., Ltd. Method and apparatus for registering modification pattern of transmission image and method and apparatus for reproducing the same
US20030112259A1 (en) * 2001-12-04 2003-06-19 Fuji Photo Film Co., Ltd. Method and apparatus for registering modification pattern of transmission image and method and apparatus for reproducing the same
JP2003244425A (ja) * 2001-12-04 2003-08-29 Fuji Photo Film Co Ltd 伝送画像の修飾パターンの登録方法および装置ならびに再生方法および装置
JP2011250100A (ja) * 2010-05-26 2011-12-08 Sony Corp 画像処理装置および方法、並びにプログラム
JP2016035607A (ja) * 2012-12-27 2016-03-17 パナソニック株式会社 ダイジェストを生成するための装置、方法、及びプログラム
US10467792B1 (en) * 2017-08-24 2019-11-05 Amazon Technologies, Inc. Simulating communication expressions using virtual objects
WO2020091930A1 (en) * 2018-10-31 2020-05-07 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
CN109996026A (zh) * 2019-04-23 2019-07-09 广东小天才科技有限公司 基于穿戴式设备的视频特效互动方法、装置、设备及介质

Also Published As

Publication number Publication date
KR102541051B1 (ko) 2023-06-05
EP3923283A1 (en) 2021-12-15
CN111770375A (zh) 2020-10-13
US11800042B2 (en) 2023-10-24
JP7263660B2 (ja) 2023-04-25
CN111770375B (zh) 2022-08-23
KR20210152396A (ko) 2021-12-15
US20210385392A1 (en) 2021-12-09

Similar Documents

Publication Publication Date Title
JP2021193559A (ja) ビデオ処理方法、装置、電子機器及び記憶媒体
KR20210040885A (ko) 정보 생성 방법 및 장치
US11423907B2 (en) Virtual object image display method and apparatus, electronic device and storage medium
US10945040B1 (en) Generating and providing topic visual elements based on audio content and video content of a digital video
US9940396B1 (en) Mining potential user actions from a web page
CN115082602B (zh) 生成数字人的方法、模型的训练方法、装置、设备和介质
JP2021114287A (ja) ビデオ検索方法、装置、デバイス及び媒体
WO2019047878A1 (zh) 语音操控终端的方法、终端、服务器和存储介质
JP2022033689A (ja) ページのテーマを決定するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
US20170109339A1 (en) Application program activation method, user terminal, and server
JP2021192290A (ja) 機械翻訳モデルのトレーニング方法、装置及び電子機器
KR20210040329A (ko) 비디오 태그의 생성 방법, 장치, 전자 기기 및 저장 매체
JP7200277B2 (ja) ワードスロットを識別するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US20230405455A1 (en) Method and apparatus for processing cloud gaming resource data, computer device, and storage medium
WO2023016349A1 (zh) 一种文本输入方法、装置、电子设备和存储介质
JP2022518645A (ja) 映像配信時効の決定方法及び装置
CN108197105B (zh) 自然语言处理方法、装置、存储介质及电子设备
KR20160022362A (ko) 상태 정보를 위한 동기화 지점
AU2020288833B2 (en) Techniques for text rendering using font patching
US20220083741A1 (en) Method for aligning text with media material, apparatus and storage medium
US20230298629A1 (en) Dynamically generated content stickers for use in video creation
JP2022020063A (ja) 対話処理方法、装置、電子機器及び記憶媒体
CN111291205B (zh) 知识图谱构建方法、装置、设备和介质
CN111652344A (zh) 用于呈现信息的方法和装置
CN112988099A (zh) 视频的显示方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210602

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230317

R150 Certificate of patent or registration of utility model

Ref document number: 7263660

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150