JP2021193559A

JP2021193559A - ビデオ処理方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2021193559A
Application number: JP2021093229A
Authority: JP
Inventors: ツァオ、デシ; Dexi Zhao
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2020-06-05
Filing date: 2021-06-02
Publication date: 2021-12-23
Anticipated expiration: 2041-06-02
Also published as: KR102541051B1; EP3923283A1; CN111770375A; US11800042B2; JP7263660B2; CN111770375B; KR20210152396A; US20210385392A1

Abstract

【課題】ビデオ画面のプレゼンテーション効果などを向上させることが可能なビデオ処理方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、ビデオ再生中に、所定のポリシーに従って決定された処理待ちの未再生のオーディオデータに対して、夫々当該オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、当該オーディオデータのラベルとするステップと、ラベルに基づいてオーディオデータに対応する特殊効果動画を決定するステップと、オーディオデータが再生し始めるとき、特殊効果動画を対応するビデオ画面に重畳して表示するステップと、を含む処理を行う。【選択図】図１

Description

本開示は、コンピュータアプリケーション技術に関し、特に、ビデオ識別と理解、及びディープラーニングの分野のビデオ処理方法、装置、電子機器及び記憶媒体に関する。

現在、多くのビデオアプリケーションまたはウェブサイトは、すべて弾幕のようなビデオ再生時のインタラクション方式を提供し、弾幕は、文字と絵文字などを含むことができ、ユーザ間のインタラクションを向上させることができるが、このような方式はビデオ画面自体のプレゼンテーション効果を向上させることができない。

本開示は、ビデオ処理方法、装置、電子機器及び記憶媒体を提供する。

ビデオ処理方法は、
ビデオ再生中に、所定のポリシーに従って決定された、未再生の処理待ちのオーディオデータに対して、それぞれ、
前記オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、前記オーディオデータのラベルとするステップと、
前記ラベルに基づいて前記オーディオデータに対応する特殊効果動画を決定するステップと、
前記オーディオデータが再生し始めるとき、前記特殊効果動画を対応するビデオ画面に重畳して表示するステップと、を含む処理を行う。

ビデオ処理装置は、ラベル生成モジュール、動画取得モジュール、及び動画表示モジュールを含み、
前記ラベル生成モジュールは、ビデオ再生中に、所定のポリシーに従って決定された処理待ちの未再生のオーディオデータに対して、それぞれ、前記オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、前記オーディオデータのラベルとするために用いられ、
前記動画取得モジュールは、前記ラベルに基づいて前記オーディオデータに対応する特殊効果動画を決定するために用いられ、
前記動画表示モジュールは、前記オーディオデータが再生し始めるとき、前記特殊効果動画を対応するビデオ画面に重畳して表示するために用いられる。

電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記に記載の方法を実行することができる。

コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに上記に記載の方法を実行させる。

上記の開示の一実施例は、以下の利点または有益な効果を有する。ビデオ再生中に、オーディオデータに基づいて対応する特殊効果動画を決定することができ、特殊効果動画をビデオ画面に重畳して表示することができることによって、ビデオ画面のプレゼンテーション効果を向上させ、ビデオ画面のコンテンツが豊富になり、ビデオ画面の面白みなどを向上させる。本明細書に説明された内容は、本開示の実施例のキーポイント又は重要な特徴を識別することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明によって容易に理解される。

図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
本開示の前記ビデオ処理方法の第１の実施例のフローチャートである。本開示の前記ビデオ処理方法の第２の実施例のフローチャートである。本開示の前記ビデオ処理装置３０の実施例の構成の構造概略図である。本開示の実施例に記載の方法に係る電子機器のブロック図である。

以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

また、本明細書の用語「及び／又は」は、関連対象を説明する関連関係にすぎず、３種類の関係が存在可能であることを表し、例えば、Ａ及び／又はＢは、Ａのみが存在するか、Ａ及びＢが同時に存在するか、Ｂのみが存在するという３つの場合を表すことができる。符号「／」は、一般的に前後の関連対象が「又は」の関係であることを表すことを理解されたい。

図１は、本開示に記載のビデオ処理方法の第１の実施例のフローチャートである。図１に示すように、以下の具体的な実現方式を含む。

１０１では、ビデオ再生中に、所定のポリシーに従って決定された処理待ちのオーディオデータに対して、それぞれ１０２〜１０４に示す方式に従って処理し、当該オーディオデータが未再生のオーディオデータである。

１０２では、当該オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、当該オーディオデータのラベルとする。

１０３では、前記ラベルに基づいて当該オーディオデータに対応する特殊効果動画を決定する。

１０４では、当該オーディオデータが再生し始めるとき、特殊効果動画を対応するビデオ画面に重畳して表示する。

好ましくは、ビデオを所定の期間ごとにＭ個の連続ビデオクリップに分割することができ、Ｍは１より大きい正の整数であり、具体的な値は実際のニーズに応じて決定することができ、任意のビデオクリップに対応するオーディオデータに対して、それぞれ所定のポリシーに従ってその中からオーディオデータの一部を選択して、処理待ちのオーディオデータとすることができる。

例えば、特定のビデオクリップを再生する同時に、次のビデオクリップに対応するオーディオデータからオーディオデータの一部を選択して、処理待ちのオーディオデータとすることができ、１０２〜１０４に示す方式に従って処理することができる。

好ましくは、ビデオクリップに対応するオーディオデータから語義が最も完全な一つの語句に対応するオーディオデータを選択して、処理待ちのオーディオデータとすることができる。

上記の方式により、処理待ちのオーディオデータの数が多すぎて、特殊効果動画を過剰に重畳し、リソースの消費を増加するなどを回避することができる。

処理待ちのオーディオデータに対して、対応するテキストコンテンツから所定の要求を満たす単語を抽出して、当該オーディオデータのラベルとすることができ、その中、既存のオーディオ識別技術により、当該オーディオデータに対応するテキストコンテンツを取得することができる。

好ましくは、テキストコンテンツに対して単語分割処理を行うことができ、任意の単語分割結果に対して、当該単語分割結果が予め生成されたホットワード単語リストにあると判定された場合、当該単語分割結果がホットワードであると判定することができ、当該単語分割結果をオーディオデータのラベルとすることができる。ホットワード単語リストは、手動または自動で帰納的にまとめる方式によって生成することができ、周期的に更新することができる。任意の単語分割結果に対して、ホットワード単語リストに存在するか否かをそれぞれ判定することができ、存在する場合、当該単語分割結果をオーディオデータのラベルとすることができる。

ホットワードは、通常、ユーザが関心及び興味を持っているコンテンツであるため、ホットワードを抽出することにより、後続にユーザに表示する特殊効果動画をユーザの実際のニーズなどにより適したものにすることができる。

処理待ちのオーディオデータに対して、さらに、当該オーディオデータを予めトレーニングされたシーン識別モデルに入力して、識別された当該オーディオデータに対応するシーンを取得して、前記シーンを当該オーディオデータのラベルとすることもできる。シーン識別モデルは、機械学習またはディープラーニングなどの方式を使用して予めトレーニングすることができる。シーン識別モデルは主にオーディオ環境の音を識別し、識別結果は通常一つであり、例えば海の波、流水、風、または爆竹などであってもよい。別の可能な実現方式として、当該オーディオデータに対応するビデオ画面コンテンツに基づいて当該オーディオデータに対応するシーンを識別することもでき、具体的な実現方式は限定されない。

シーン識別により、オーディオデータのラベルのコンテンツとタイプなどをさらに豊富にすることができる。

さらに、ラベルに基づいてオーディオデータに対応する特殊効果動画を決定することができる。好ましくは、ラベルの数が１である場合、当該ラベルに対応する特殊効果動画を直接取得して、オーディオデータに対応する特殊効果動画とすることができ、ラベルの数が１より大きい場合、まず、その中から一つのラベルを選択し、次に、選択したラベルに対応する特殊効果動画を取得して、オーディオデータに対応する特殊効果動画とすることができる。

ラベルの数が１である場合、当該ラベルは、ホットワードであってもよく、シーンであってもよく、ホットワードでもシーンでも関わらず、いずれも当該ラベルに対応する特殊効果動画を直接取得することができる。ラベルの数が１より大きい場合、まず、その中から一つのラベルを選択することができ、どのように選択するかは限定されず、例えば、ホットワードの優先度がシーンの優先度より高く設置することができ、テキストコンテンツ内の出現位置が前のホットワードの優先度がテキストコンテンツ内の出現位置が後のホットワードの優先度より高く設置することができ、優先度の設置に基づいて、一つの優先度が最も高いラベルを選択し、その他、例えば、シーンの優先度がホットワードの優先度より高く設置することができ、テキストコンテンツ内の出現位置が前のホットワードの優先度がテキストコンテンツ内の出現位置が後のホットワードの優先度より高く設置することができ、優先度の設置に基づいて、一つの優先度が最も高いラベルを選択し、具体的な実現方式は限定されず、その後、選択したラベルに対応する特殊効果動画を取得することができる。

任意のラベルに対応する特殊効果動画を取得する場合、当該ラベルに対応する特殊効果動画がローカルに記憶されていることが判定された場合、ローカルから当該ラベルに対応する特殊効果動画を取得することができ、当該ラベルに対応する特殊効果動画がローカルに記憶されていないと判定された場合、サーバから当該ラベルに対応する特殊効果動画を取得して、ローカルに記憶することができる。

すなわち優先にローカルから特殊効果動画を取得して、取得速度と効率を向上させる。サーバから取得された特殊効果動画は、ローカルに記憶することができ、次回に同じ特殊効果動画を使用する必要がある場合、ローカルから直接取得することができる。

ローカル及びサーバからいずれも特定のラベルに対応する特殊効果動画を取得できない場合、ラベルを再選択し、またはオーディオデータに対応する特殊効果動画が空（特殊効果動画を重畳しないことに相当する）などであると思う。

ローカルでもサーバでも関わらず、任意の特殊効果動画に対して、いずれも対応するラベルを同時に記憶することによって、取得を要求したラベルに対応する特殊効果動画を便利かつ迅速に決定することができる。

ローカルのストレージスペースが限られているため、任意の特殊効果動画のローカルにおける記憶期間が第１の所定の期間を超える場合、当該特殊効果動画をローカルから削除することができ、及び／又は、ローカルに記憶された任意の特殊効果動画が第２の所定の期間を超えて使用されていない場合、当該特殊効果動画をローカルから削除することもでき、第１の所定の期間と第２の所定の期間の具体的な値はいずれも実際のニーズに基づいて決定することができる。

上記の方式により、ローカルに記憶されている特殊効果動画の有効的な管理及びメンテナンスを実現し、ローカルに記憶されている特殊効果動画をタイムリーに更新するようにすることができ、ローカルに記憶されている特殊効果動画のヒット率などを向上させることができる。

処理待ちのオーディオデータに対して、当該オーディオデータが再生し始めるとき、当該オーディオデータに対応する特殊効果動画を対応するビデオ画面に重畳して表示することができる。すなわち当該オーディオデータの再生を開始する時に特殊効果動画の表示を開始すればよく、特殊効果動画の表示期間は特殊効果動画自体の期間に依存し、特殊効果動画の期間は通常短く、例えば、当該オーディオデータの期間は５秒、特殊効果動画の期間は３秒、当該オーディオデータの開始再生時間は全ビデオ再生時間中の３分１８秒である場合、３分１８秒から特殊効果動画の表示を開始し、３分２１秒で表示を終了することができる。特殊効果動画は、Ｌｏｔｔｉｅ動画、Ｗｅｂｐ動画などの任意の形式の動画であってもよい。

特殊効果動画を表示する時、既存のビデオ画面層に１層の効果層を再重畳する方式を使用して、効果層に特殊効果動画を表示し、２層を重畳して表示して、ビデオ画面再生を実現するとともに、特殊効果動画を表示することもできる。

特殊効果動画の表示領域は制限されておらず、全体のビデオ画面領域または一部のビデオ画面領域をカバーするなどのような、実際のニーズに基づくことができる。

上記の説明に基づいて、図２は本開示に係るビデオ処理方法の第２の実施例のフローチャートである。図２に示すように、以下の具体的な実現方式を含む。

２０１では、ビデオ再生中に、所定のポリシーに従って決定された処理待ちの未再生のオーディオデータに対して、それぞれ２０２〜２０８に示す方式で処理する。

ビデオを所定の期間ごとにＭ個の連続ビデオクリップに分割することができ、Ｍは１より大きい正の整数であり、任意のビデオクリップに対応するオーディオデータに対して、それぞれ所定のポリシーに従ってその中からオーディオデータの一部を選択して、処理待ちのオーディオデータとし、例えば、語義が最も完全な一つの語句に対応するオーディオデータを選択する。

２０２では、当該オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、当該オーディオデータのラベルとする。

テキストコンテンツに対して単語分割処理を行うことができ、任意の単語分割結果に対して、当該単語分割結果が予め生成されたホットワード単語リストにあると判定された場合、当該単語分割結果がホットワードであると判定することができ、さらに当該単語分割結果を当該オーディオデータのラベルとすることができる。

２０３では、当該オーディオデータを予めトレーニングされたシーン識別モデルに入力して、識別された当該オーディオデータに対応するシーンを取得して、前記シーンを当該オーディオデータのラベルとする。

２０４では、当該オーディオデータのラベルから一つのラベルを選択する。

本実施例では、当該オーディオデータのラベルの数が１より大きいと仮定する。

２０５では、選択したラベルに対応する特殊効果動画がローカルにあるか否かを判定し、そうである場合、２０６を実行し、そうでない場合、２０７を実行する。

２０６では、ローカルから選択したラベルに対応する特殊効果動画を取得して、次に２０８を実行する。

２０７では、サーバから選択したラベルに対応する特殊効果動画を取得して、ローカルに記憶し、次に２０８を実行する。

２０８では、当該オーディオデータが再生し始めるとき、特殊効果動画を対応するビデオ画面に重畳して表示し、プロセスを終了する。

説明が必要なのは、前述の各方法の実施例について、簡単に説明するために、一連の動作の組み合わせとして表現したが、当業者は、本開示が説明された動作順序によって限定されないことを理解する必要あり、本開示によれば、いくつかのステップは、他の順序を採用するか、または同時に行うことができる。次に、当業者は、明細書に説明された実施例がいずれも好ましい実施例に含まれ、関連する動作とモジュールが本開示に必ずしも必要ではないことも理解されたい。また、ある実施例において詳細に説明されてない部分は、他の実施例における関連する説明を参照することができる。

上記の方法の実施例に記載の解決案を使用して、ビデオ再生中に、オーディオデータに基づいて対応する特殊効果動画を決定することができ、特殊効果動画をビデオ画面に重畳して表示することができることによって、ビデオ画面のプレゼンテーション効果を向上させ、ビデオ画面のコンテンツが豊富になり、ビデオ画面の興趣性などを向上させる。

以上は方法の実施例の説明であり、以下の装置の実施例により、本開示に係る解決案をさら説明する。

図３は本開示に係るビデオ処理装置３０の実施例の構成の構造概略図である。図３に示すように、ラベル生成モジュール３０１、動画取得モジュール３０２、及び動画表示モジュール３０３を含む。

ラベル生成モジュール３０１は、ビデオ再生中に、所定のポリシーに従って決定された処理待ちのオーディオデータに対して、それぞれ当該オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、当該オーディオデータのラベルとするために用いられ、当該オーディオデータは未再生のオーディオデータである。

動画取得モジュール３０２は、ラベルに基づいて当該オーディオデータに対応する特殊効果動画を決定するために用いられる。

動画表示モジュール３０３は、当該オーディオデータが再生し始めるとき、特殊効果動画を対応するビデオ画面に重畳して表示するために用いられる。

図３に示す装置では、オーディオ取得モジュール３００をさらに含むことができ、オーディオ取得モジュール３００は、ビデオを所定の期間ごとにＭ個の連続ビデオクリップに分割するために用いられ、Ｍは１より大きい正の整数であり、任意のビデオクリップに対応するオーディオデータに対して、語義が最も完全な一つの語句に対応するオーディオデータを選択するように、それぞれ所定のポリシーに従ってその中からオーディオデータの一部を選択して、処理待ちのオーディオデータとするために用いられる。

オーディオデータに対応するテキストコンテンツに対して、ラベル生成モジュール３０１は、テキストコンテンツに対して単語分割処理を行うことができ、任意の単語分割結果に対して、当該単語分割結果が予め生成されたホットワード単語リストにあると判定された場合、当該単語分割結果がホットワードであると判定して、当該単語分割結果をオーディオデータのラベルとすることができる。

ラベル生成モジュール３０１は、さらに、オーディオデータを予めトレーニングされたシーン識別モデルに入力し、識別されたオーディオデータに対応するシーンを取得して、前記シーンをオーディオデータのラベルとすることができる。

それに応じて、オーディオデータのラベルの数が一つであってもよく、複数であってもよく、動画取得モジュール３０２は、ラベルの数が１である場合、当該ラベルに対応する特殊効果動画を直接取得し、オーディオデータに対応する特殊効果動画とすることができ、ラベルの数が１より大きい場合、その中から一つのラベルを選択し、選択したラベルに対応する特殊効果動画を取得して、オーディオデータに対応する特殊効果動画とすることができる。

また、動画取得モジュール３０２は、任意のラベルに対応する特殊効果動画を取得する必要がある時、当該ラベルに対応する特殊効果動画がローカルに記憶されていることが判定された場合、ローカルから当該ラベルに対応する特殊効果動画を取得することができ、当該ラベルに対応する特殊効果動画がローカルに記憶されていないと判定された場合、サーバから当該ラベルに対応する特殊効果動画を取得して、ローカルに記憶することができる。

動画取得モジュール３０２は、さらに、任意の特殊効果動画のローカルにおける記憶期間が第１の所定の期間を超えると判定された場合、当該特殊効果動画をローカルから削除し、及び／又は、ローカルに記憶された任意の特殊効果動画が第２の所定の期間を超えて使用されていないと判定された場合、当該特殊効果動画をローカルから削除することができる。

図３に示す装置の実施例の具体的な動作プロセスは、前述の方法の実施例における関連する説明を参照し、繰り返して説明しない。

つまり、本開示装置の実施例に記載の解決案を使用して、ビデオ再生中に、オーディオデータに基づいて対応する特殊効果動画を決定することができ、特殊効果動画をビデオ画面に重畳して表示することができることによって、ビデオ画面のプレゼンテーション効果を向上させ、ビデオ画面のコンテンツが豊富になり、ビデオ画面の興趣性などを向上させ、ビデオクリップを分割するなどによって、処理待ちのオーディオデータの数が多すぎて、特殊効果動画を過剰に重畳し、リソースの消費を増加するなどを回避することができ、ホットワードは、通常、ユーザが関心及び興味を持っているコンテンツであるため、ホットワードを抽出してオーディオデータのラベルとすることにより、後続にユーザに表示する特殊効果動画をユーザの実際のニーズなどにより適したものにすることができ、シーン識別により、オーディオデータのラベルのコンテンツとタイプなどをさらに豊富にすることができ、ラベルに対応する特殊効果動画を取得する場合、取得速度と効率を向上させるために、優先的にローカルから取得することができ、サーバから取得された特殊効果動画は、さらにローカルに記憶することができ、次回に同じ特殊効果動画を使用する必要がある場合、ローカルから直接取得することができ、また、さらにローカルに記憶されている特殊効果動画に対して有効的な管理及びメンテナンスを行うことができ、ローカルに記憶されている特殊効果動画をタイムリー的に更新するようにすることができ、ローカルに記憶されている特殊効果動画のヒット率などを向上させることができる。

本開示の実施例によれば、本開示は電子機器及び読み取り可能な記憶媒体をさらに提供する。

図４に示すように、それは本開示の実施例の前記方法に係る電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実現を制限することを意図したものではない。

図４に示すように、当該電子機器は、一つ又は複数のプロセッサＹ０１と、メモリＹ０２と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に基づいて他の方式で取り付けることができる。プロセッサは、外部入力／出力装置（インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施方式では、必要であれば、複数のプロセッサ及び／又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作（例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする）を提供することができる。図４では、一つのプロセッサＹ０１を例とする。

メモリＹ０２は、本開示により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中、前記メモリには、少なくとも一つのプロセッサによって実行される命令を記憶して、前記少なくとも一つのプロセッサが本開示により提供される前記方法を実行することができるようにする。本開示の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本開示により提供される前記方法を実行するためのコンピュータ命令を記憶する。

メモリＹ０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本開示の実施例における前記方法に対応するプログラム命令／モジュールように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサＹ０１は、メモリＹ０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例における方法を実現する。

メモリＹ０２は、プログラム記憶領域とデータ記憶領域とを含むことができ、その中、プログラム記憶領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリＹ０２は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも一つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリＹ０２は、プロセッサＹ０１に対して遠隔に設置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介して電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定しない。

電子機器は、入力装置Ｙ０３と出力装置Ｙ０４とをさらに含むことができる。プロセッサＹ０１、メモリＹ０２、入力装置Ｙ０３、及び出力装置Ｙ０４は、バス又は他の方式を介して接続することができ、図４では、バスを介して接続することを例とする。

入力装置Ｙ０３は、入力された数字又は文字情報を受信することができ、及び前記方法を実現する電子機器のユーザ設置及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示杆、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置Ｙ０４は、ディスプレイデバイス、補助照明デバイス、及び触覚フィードバックデバイス（例えば、振動モータ）などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ、発光ダイオードディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定しない。いくつかの実施方式では、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイ）を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、陰極線管又は液晶ディスプレイモニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、ブロックチェーンネットワークと、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。

上記に示される様々な形式のプロセスを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims

ビデオ処理方法であって、
ビデオ再生中に、所定のポリシーに従って決定された、処理待ちの未再生のオーディオデータに対して、それぞれ、
前記オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、前記オーディオデータのラベルとするステップと、
前記ラベルに基づいて前記オーディオデータに対応する特殊効果動画を決定するステップと、
前記オーディオデータが再生し始めるとき、前記特殊効果動画を対応するビデオ画面に重畳して表示するステップと、を含む処理を行う、
ビデオ処理方法。
前記オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、前記オーディオデータのラベルとするステップは、
前記テキストコンテンツに対して単語分割処理を行うステップと、
任意の単語分割結果に対して、前記単語分割結果が予め生成されたホットワード単語リストにあると判定された場合、前記単語分割結果がホットワードであると判定し、前記単語分割結果を前記オーディオデータのラベルとするステップと、を含む、
請求項１に記載のビデオ処理方法。
当該方法は、前記オーディオデータを予めトレーニングされたシーン識別モデルに入力し、識別された前記オーディオデータに対応するシーンを取得して、前記シーンを前記オーディオデータのラベルとするステップをさらに含む、
請求項１または２に記載のビデオ処理方法。
前記シーン識別モデルは、ディープラーニング方法を使用してトレーニングされたシーン識別モデルを含む、
請求項３に記載のビデオ処理方法。
前記ラベルに基づいて前記オーディオデータに対応する特殊効果動画を決定するステップは、
前記ラベルの数が１である場合、前記ラベルに対応する特殊効果動画を前記オーディオデータに対応する特殊効果動画として取得するステップと、
前記ラベルの数が１より大きい場合、その中から一つのラベルを選択し、選択したラベルに対応する特殊効果動画を前記オーディオデータに対応する特殊効果動画として取得するステップと、を含む、
請求項３または４に記載のビデオ処理方法。
任意のラベルに対応する特殊効果動画を取得するステップは、
前記ラベルに対応する特殊効果動画がローカルに記憶されている場合、ローカルから前記ラベルに対応する特殊効果動画を取得するステップと、
前記ラベルに対応する特殊効果動画がローカルに記憶されていない場合、サーバから前記ラベルに対応する特殊効果動画を取得して、ローカルに記憶するステップと、を含む、
請求項５に記載のビデオ処理方法。
当該ビデオ処理方法は、
任意の特殊効果動画のローカルにおける記憶期間が第１の所定の期間を超える場合、前記特殊効果動画をローカルから削除するステップと、
及び／又は、ローカルに記憶された任意の特殊効果動画が第２の所定の期間を超えて使用されていない場合、前記特殊効果動画をローカルから削除するステップと、をさらに含む、
請求項６に記載のビデオ処理方法。
前記処理待ちのオーディオデータの決定方式は、
前記ビデオを所定の期間ごとにＭ個の連続ビデオクリップに分割するステップであって、Ｍは１より大きい正の整数であるステップと、
任意のビデオクリップに対応するオーディオデータに対して、それぞれ所定のポリシーに従ってその中からオーディオデータの一部を選択して、前記処理待ちのオーディオデータとするステップと、を含む、
請求項１から７のいずれか一項に記載のビデオ処理方法。
前記所定のポリシーに従ってその中からオーディオデータの一部を選択するステップは、語義が最も完全な一つの語句に対応するオーディオデータを選択するステップを含む、
請求項８に記載のビデオ処理方法。
ビデオ処理装置であって、
ラベル生成モジュール、動画取得モジュール、及び動画表示モジュールを含み、
前記ラベル生成モジュールは、ビデオ再生中に、所定のポリシーに従って決定された処理待ちの未再生のオーディオデータに対して、それぞれ、前記オーディオデータに対応するテキストコンテンツから所定の要求を満たす単語を抽出して、前記オーディオデータのラベルとするために用いられ、
前記動画取得モジュールは、前記ラベルに基づいて前記オーディオデータに対応する特殊効果動画を決定するために用いられ、
前記動画表示モジュールは、前記オーディオデータが再生し始めるとき、前記特殊効果動画を対応するビデオ画面に重畳して表示するために用いられる、
ビデオ処理装置。
前記ラベル生成モジュールは、前記テキストコンテンツに対して単語分割処理を行い、任意の単語分割結果に対して、前記単語分割結果が予め生成されたホットワード単語リストにあると判定された場合、前記単語分割結果がホットワードであると決定し、前記単語分割結果を前記オーディオデータのラベルとする、
請求項１０に記載のビデオ処理装置。
前記ラベル生成モジュールは、さらに、前記オーディオデータを予めトレーニングされたシーン識別モデルに入力し、識別された前記オーディオデータに対応するシーンを取得して、前記シーンを前記オーディオデータのラベルとするために用いられる、
請求項１０または１１に記載のビデオ処理装置。
前記シーン識別モデルは、ディープラーニング方法を使用してトレーニングされたシーン識別モデルを含む、
請求項１２に記載のビデオ処理装置。
前記動画取得モジュールは、前記ラベルの数が１である場合、前記ラベルに対応する特殊効果動画を前記オーディオデータに対応する特殊効果動画として取得し、前記ラベルの数が１より大きい場合、その中から一つのラベルを選択し、選択したラベルに対応する特殊効果動画を前記オーディオデータに対応する特殊効果動画として取得する、
請求項１２または１３に記載のビデオ処理装置。
前記動画取得モジュールは、任意のラベルに対応する特殊効果動画を取得する必要がある時、前記ラベルに対応する特殊効果動画がローカルに記憶されていることが判定された場合、ローカルから前記ラベルに対応する特殊効果動画を取得し、前記ラベルに対応する特殊効果動画がローカルに記憶されていないと判定された場合、サーバから前記ラベルに対応する特殊効果動画を取得して、ローカルに記憶する、
請求項１４に記載のビデオ処理装置。
前記動画取得モジュールは、さらに、任意の特殊効果動画のローカルにおける記憶期間が第１の所定の期間を超えると判定された場合、前記特殊効果動画をローカルから削除し、及び／又は、ローカルに記憶された任意の特殊効果動画が第２の所定の期間を超えて使用されていないと判定された場合、前記特殊効果動画をローカルから削除するために用いられる、
請求項１５に記載のビデオ処理装置。
前記ビデオ処理装置は、オーディオ取得モジュールをさらに含み、前記オーディオ取得モジュールは、前記ビデオを所定の期間ごとに、１より大きい正の整数であるＭ個の連続ビデオクリップに分割するために用いられ、任意のビデオクリップに対応するオーディオデータに対して、それぞれ所定のポリシーに従ってその中からオーディオデータの一部を選択して、前記処理待ちのオーディオデータとするために用いられる、
請求項１０から１６のいずれか一項に記載のビデオ処理装置。
前記オーディオ取得モジュールは、語義が最も完全な一つの語句に対応するオーディオデータを選択する、
請求項１７に記載のビデオ処理装置。
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項１〜９のいずれか一項に記載のビデオ処理方法を実行する、
電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項１〜９のいずれか一項に記載のビデオ処理方法を実行させる、
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータに請求項１〜９のいずれか一項に記載のビデオ処理方法を実行させるためのプログラム。