JP7394809B2

JP7394809B2 - ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム

Info

Publication number: JP7394809B2
Application number: JP2021100506A
Authority: JP
Inventors: シャンミンツァオ; フェイリ; ティンユン; グゥオチィンチェン; サイクンリン; リンワン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-17
Filing date: 2021-06-16
Publication date: 2023-12-08
Anticipated expiration: 2041-06-16
Also published as: KR20210091076A; JP2022088304A; CN112559800A; KR102576344B1; EP3872652B1; US20210303864A1; CN112559800B; US11856277B2; EP3872652A2; EP3872652A3

Description

本出願は、コンピュータ技術分野に関し、具体的には、人工知能分野に関し、特に、ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラムに関する。

現在、インターネットの急速な発展に伴い、インターネットユーザはインターネット上で大量のビデオを共有し、それによりネットワークビデオリソースが益々多くなっている。

これらのネットワークビデオリソースを閲覧するとき、ユーザはビデオのポスターに基づいてそのビデオを再生するか否かを選択する。もし、ユーザがあるビデオのポスターに基づいてそのビデオの再生を選択し、そのビデオポスターが十分正確でないことに気付いた場合、ビデオコンテンツとビデオポスターとがマッチしないことになる。

従って、ビデオポスターの精度を向上させることが解決すべき問題となっている。

ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラムを提供する。

第１の態様によれば、ビデオを処理するための方法を提供し、ターゲットビデオを取得するステップと、予め設定された少なくとも１つのモデルからターゲットモデルを選択するステップと、前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップと、前記出力データが前記ターゲットモデルに対応する条件を満たさないことが判定されたことに応答して、前記出力データが前記ターゲットモデルに対応する条件を満たすまで、前記予め設定された少なくとも１つのモデルから前記ターゲットモデルを再選択するステップと、前記出力データに基づいて、前記ターゲットビデオからダイナミックポスターを特定するステップと、を含む。

第２の態様によれば、ビデオを処理するための装置を提供し、ターゲットビデオを取得するように構成されるビデオ取得ユニットと、予め設定された少なくとも１つのモデルからターゲットモデルを選択するように構成されるモデル選択ユニットと、前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するように構成されるデータ確定ユニットと、前記出力データが前記ターゲットモデルに対応する条件を満たさないことが判定されたことに応答して、前記出力データが前記ターゲットモデルに対応する条件を満たすまで、前記予め設定された少なくとも１つのモデルから前記ターゲットモデルを再選択するように構成される条件判定ユニットと、前記出力データに基づいて、前記ターゲットビデオからダイナミックポスターを特定するように構成されるポスター特定ユニットと、を備える。

第３の態様によれば、ビデオを処理するための電子機器を提供し、１つ又は複数のコンピューティングユニットと、１つ又は複数のプログラムが格納されている記憶ユニットと、を備え、１つ又は複数のプログラムが１つ又は複数のコンピューティングユニットによって実行されるとき、１つ又は複数のコンピューティングユニットに上記いずれかに記載のビデオを処理するための方法を実施させる。

第４の態様によれば、コンピュータに上記いずれかに記載のビデオを処理するための方法を実行させるためのコンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体を提供する。

第５の態様によれば、コンピューティングユニットにより実行されるとき、上記いずれかに記載のターゲット検出モデルを訓練するための方法又はターゲット検出方法を実施するコンピュータプログラムを提供する。

本出願の技術によれば、ビデオを処理するための方法は、予め設定された少なくとも１つのモデルからターゲットモデルを確定し、ターゲットビデオ及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定し、出力データがターゲットモデルに対応する条件を満たす場合、出力データに基づいて、ターゲットビデオからダイナミックポスターを特定することができる。このプロセスは、少なくとも１つのモデルから適切なターゲットモデルを確定することができて、モデル確定の精度が向上され、それにより、ターゲットモデル及び対応する条件に基づいて、ターゲットビデオのダイナミックポスターを特定し、ポスターの確定精度を向上させることができる。

本明細書で述べる内容は、本開示の実施例のポイント又は重要な特徴を表すためのものではなく、また、本開示の範囲を制限するためのものでもないことを理解されたい。本開示のその他特徴は以下の説明により容易に理解されるものになる。

図面は本技術的手段をよりよく理解するためのものであって、本出願を限定するものではない。

本出願の一実施例が適用可能な例示的システムアーキテクチャである。本出願によるビデオを処理するための方法の一実施例のフローチャートである。本出願によるビデオを処理するための方法の応用シーンの概略図である。本出願によるビデオを処理するための方法の別の一実施例のフローチャートである。本出願によるビデオを処理するための装置の一実施例の構造概略図である。本出願の実施例のビデオを処理するための方法を実施するための電子機器のブロック図である。

以下、理解を容易にするために、本出願の実施例の様々な細部を含む例示的な実施例を添付図面を参照しながら説明し、それらは単なる例示的なものとして見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更及び修正を行うことができることを理解されたい。また、以下の説明では、明確性及び簡潔性を図って、周知機能及び構造に対する説明は省略されている。

また、本出願における実施例及び実施例における特徴は、衝突しない限り、互いに組み合わせ可能である。以下、添付図面に実施例を合わせて本出願を詳細に説明する。

図１は、本出願のビデオを処理するための方法又はビデオを処理するための装置の実施例を適用することができる例示的なシステムアーキテクチャ１００を示す。

図１に示されるように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、及びサーバ１０５を含むことができる。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間に通信リンクのための媒体を提供するために使用される。ネットワーク１０４は、例えば、有線、無線通信リンク又は光ファイバーケーブルなど様々な接続タイプを含むことができる。

ユーザは、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５とインタラクションを行い、メッセージなどを送受信することができる。端末装置１０１、１０２、１０３は、テレビ、コンピュータ、及びタブレットなどの電子機器であってもよく、例えば、ショートビデオエンターテインメントアプリケーションなどの様々なタイプのクライアントアプリケーションがインストールされてもよい。ユーザは、端末装置１０１、１０２、１０３を介してショートビデオエンターテインメントアプリケーションを実行して、該アプリケーション内の大量のショートビデオを取得することができる。

端末装置１０１、１０２、１０３は、ハードウェアであっても良く、ソフトウェアであっても良い。端末装置１０１、１０２、１０３がハードウェアである場合、テレビ、スマートフォン、タブレットコンピュータ、電子書籍リーダー、車載コンピュータ、ラップトップコンピュータ及びデスクトップコンピュータなど様々な電子機器であってもよいが、これらに限定されない。端末装置１０１、１０２、１０３がソフトウェアである場合は、上記に挙げられた電子機器にインストールされても良い。端末装置１０１、１０２、１０３がソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（例えば、分散型サービスを提供するためのもの）として実施されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実施されてもよい。ここでは具体的な限定はしない。

サーバ１０５は、例えば、端末装置１０１、１０２、１０３のショートビデオエンターテインメントアプリケーション（ｓｈｏｒｔｖｉｄｅｏｅｎｔｅｒｔａｉｎｍｅｎｔａｐｐｌｉｃａｔｉｏｎｓ）のビデオを取得するとともに、予め設定された少なくとも１つのモデルからターゲットモデルを確定し、ターゲットモデルに基づいて各ビデオに対応するダイナミックポスターを特定するなど、様々なサービスを提供するサーバであってもよい。さらに、サーバ１０５は、また、ネットワーク１０４を介して各ビデオに対応するダイナミックポスターを端末装置１０１、１０２、１０３に送信することができる。ユーザが端末装置１０１、１０２、１０３におけるショートビデオエンターテインメントアプリケーションでビデオを閲覧するとき、ビデオカードがロードされると、該ビデオに対応するダイナミックポスターを表示し、ユーザがダイナミックポスターに基づいて該ビデオのビデオ情報を分かり、情報取得の効率が向上される。

サーバ１０５はハードウェアであってもよく、ソフトウェアであってもよい。サーバ１０５がハードウェアである場合、複数のサーバからなる分散型サーバクラスタとして実施されてもよく、単一のサーバとして実施されてもよい。サーバ１０５がソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（例えば、分散型サービスを提供するためのもの）として実施されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実施されてもよい。ここでは具体的な限定はしない。

本出願の実施例によるビデオを処理するための方法は、サーバ１０５によって実行されてもよく、端末装置１０１、１０２、１０３によって実行されてもよいことに留意されたい。応じて、ビデオを処理するための装置は、サーバ１０５に設けられてもよく、端末装置１０１、１０２、１０３に設けられてもよい。

図１における端末装置、ネットワーク及びサーバの数は単なる例示的なものであることを理解されたい。実施の必要に応じて、任意の数の端末装置、ネットワーク及びサーバを有することができる。

引き続き図２を参照し、本出願によるビデオを処理するための方法の一実施例のフローチャート２００である。本実施例のビデオを処理するための方法は以下のステップを含む。

ステップ２０１では、ターゲットビデオを取得する。

本実施例において、ターゲットビデオは、ショートビデオアプリケーションにおけるビデオであってもよく、ソーシャルアプリケーションにおけるユーザによって共有されたビデオであってもよく、又は検索アプリケーションにおけるエントリー定義ビデオなどであってもよく、本実施例はターゲットビデオのソースを限定しない。実行主体（図１における端末装置１０１、１０２、１０３又はサーバ１０５など）は、ネットワークを介してこれらのアプリケーションにおけるターゲットビデオを取得することができる。ターゲットビデオを取得した後、実行主体は、ターゲットビデオをダウンロードするか、又はターゲットビデオをオンラインで閲覧するかを選択することができ、本実施例はこれを限定しない。

ステップ２０２では、予め設定された少なくとも１つのモデルからターゲットモデルを選択する。

本実施例において、予め設定された少なくとも１つのモデルのそれぞれを使用してビデオを処理することができ、ダイナミックポスターの特定を補助することができる出力データを取得することができる。予め設定された少なくとも１つのモデルは顔認識モデル、行動認識モデル、意味解析モデル、コンテンツスコアリングモデルなどを含み得るが、これらに限定されない。具体的には、顔認識モデルを使用してターゲットビデオにおける顔画像を認識し、行動認識モデルを使用してターゲットビデオにおける行動データを認識し、意味解析モデルを使用してターゲットビデオにおける字幕の解釈を認識し、コンテンツスコアリングモデルを使用してターゲットビデオにおけるコンテンツの精彩度を認識することができる。これらの異なるビデオ処理モデルは異なる次元でターゲットビデオを認識するモデルであってもよく、ターゲットビデオ認識に関する様々なニーズを満たすことができる。さらに、実行主体は、予め設定された少なくとも１つのモデルからターゲットモデルを確定することは、現在の処理需要に応じてターゲットモデルを確定してもよく、又は予め設定された各モデルの優先度に基づいてターゲットモデルを確定してもよい。オプションとして、顔認識モデルの優先度を行動認識モデルの優先度よりも高く設定し、行動認識モデルの優先度をコンテンツスコアリングモデルの優先度よりも高く設定してもよい。

予め設定された少なくとも１つのモデルから、ターゲットモデルを確定するステップは、ターゲットビデオに対応するビデオ処理カテゴリを取得するステップと、ビデオ処理カテゴリが関連度優先を指示するための第１のカテゴリであることが判定されたことに応答して、予め設定された少なくとも１つのモデルから関連度に対応するターゲットモデルを確定するステップと、ビデオ処理カテゴリが精彩度優先を指示するための第２のカテゴリであることが判定されたことに応答して、予め設定された少なくとも１つのモデルから精彩度に対応するターゲットモデルを確定するステップと、を含むことができる。

本実施形態において、予め設定された少なくとも１つのモデルは、関連度に対応するモデル及び精彩度に対応するモデルを含み得る。関連度に対応するモデルは、ビデオセグメントがビデオタイトルに関連しているか否か、及びビデオ動作が予め設定された動作に関連しているか否かを判定するために使用される。精彩度に対応するモデルは、ビデオセグメントがビデオ全体を代表できるか否か、及びビデオセグメントが連続したビデオフレーム画面であるか否かを判定するために使用される。関連度に対応するモデルは上記の顔認識モデル、行動認識モデルを含み得るが、これらに限定されず、精彩度に対応するモデルは上記のコンテンツスコアリングモデルを含み得るが、これに限定されない。このプロセスは、関連度の高いポスターを優先的に選択するか、或いは精彩度の高いポスターを優先的に選択するかなど、異なるポスターニーズに応じて、対応するターゲットモデルを選択することができる。ポスターの生成は、多様な生成需要をより柔軟に満たすことができる。

ステップ２０３では、ターゲットビデオ及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定する。

本実施例において、実行主体は、ターゲットモデルを確定した後、ターゲットモデルを使用してターゲットビデオに対してビデオ処理を行って、ターゲットモデルの出力データを取得することができる。うち、ターゲットモデルの出力データは、ターゲットビデオのビデオ特徴を解析して得た出力データである。例えば、ターゲットモデルが前記顔認識モデルである場合、ターゲットビデオ及びターゲットモデルに基づいて確定された出力データは、ターゲットビデオにおける顔とターゲットビデオのタイトルとの一致度であってもよく、ターゲットモデルが前記行動認識モデルである場合、ターゲットビデオ及びターゲットモデルに基づいて確定された出力データは、ターゲットビデオにおける行動と予め設定された行動との一致度であってもよく、ターゲットモデルが前記コンテンツスコアリングモデルである場合、ターゲットビデオ及びターゲットモデルに基づいて確定された出力データは、ターゲットビデオの各ビデオフレームに対応するコンテンツスコアであってもよく、ターゲットモデルが前記意味解析モデルである場合、ターゲットビデオ及びターゲットモデルに基づいて確定された出力データは、ターゲットビデオの字幕とターゲットビデオのタイトルとの一致度であってもよい。

ステップ２０４では、出力データがターゲットモデルに対応する条件を満たさないと判定されたことに応答して、出力データがターゲットモデルに対応する条件を満たすまで、予め設定された少なくとも１つのモデルからターゲットモデルを再選択する。

本実施例において、前記少なくとも１つのモデルのそれぞれには対応する条件が存在する。ターゲットモデルの出力データが該ターゲットモデルに対応する条件を満たす場合、ターゲットモデルの出力データに基づいてターゲットビデオからダイナミックポスターを特定する。ターゲットモデルの出力データが該ターゲットモデルに対応する条件を満たさない場合、ターゲットモデルの出力データが該ターゲットモデルに対応する条件を満たすまで、予め設定された少なくとも１つのモデルからターゲットモデルを再選択する。

ステップ２０５では、出力データに基づいて、ターゲットビデオからダイナミックポスターを特定する。

本実施例において、ダイナミックポスターは、ターゲットビデオ内のビデオフレームからなるビデオセグメントであってもよい。例えば、ターゲットモデルが前記顔認識モデルである場合、顔認識モデルに対応する条件は、ターゲットビデオにおける顔とターゲットビデオのタイトルとの一致度が高いことであってもよく、このとき、ターゲットビデオにターゲットビデオタイトルにおける人物のビデオセグメントがあることを示し、ターゲットビデオにおける顔とターゲットビデオのタイトルとの類似度に基づいて、ターゲットビデオから該顔が現れたビデオセグメントをダイナミックポスターとして選択することができる。或いは、ターゲットモデルが前記行動認識モデルである場合、行動認識モデルに対応する条件は、ターゲットビデオにおける行動に指定動作が現れた確率が高いことであってもよく、このとき、ターゲットビデオにおける行動に指定動作が現れた確率に基づいて、ターゲットビデオから、予め設定された行動が現れたビデオセグメントをダイナミックポスターとして選択してもよい。或いは、ターゲットモデルが前記コンテンツスコアリングモデルである場合、コンテンツスコアリングモデルに対応する条件は、ターゲットビデオにおけるコンテンツスコアが高いことであってもよく、このとき、ターゲットビデオに精彩なコンテンツがあることを示し、ターゲットビデオの各ビデオフレームに対応するコンテンツスコアに基づいて、ターゲットビデオからコンテンツスコアが最も高いビデオセグメントをダイナミックポスターとして選択してもよい。

引き続き、図３を参照し、本出願によるビデオを処理するための方法の一つの応用シーンの概略図が示されている。図３の応用シーンでは、前記ビデオを処理するための方法は、ターゲットビデオのダイナミックポスターを生成するシーンに適用することができる。図３に示されるように、ダイナミックポスターを生成する必要のあるターゲットビデオ３０１は複数の連続したビデオフレームを含み、ターゲットビデオ３０１をサーバ３０２に入力し、サーバ３０２が、本実施例のビデオを処理するための方法を実行して、ターゲットビデオ３０１からダイナミックポスター３０３を選択するようにする。うち、ターゲットビデオ３０１を端末装置などの他の電子機器に入力し、電子機器が、本実施例のビデオを処理するための方法を実行し、ターゲットビデオ３０１から所定数のビデオフレームを選択し、該所定数のビデオフレームをダイナミックポスター３０３として特定するようにすることもできる。ユーザが選択的に再生するために、該ターゲットビデオ３０１を端末装置にプッシュした場合、端末装置は、ユーザが該ターゲットビデオ３０１に位置特定されたことを確定したうえで、該ターゲットビデオ３０２が位置する表示領域でダイナミックポスター３０３を再生することができる。ユーザは、ダイナミックポスター３０３によって再生されたコンテンツを通じて、ターゲットビデオ３０２全体を見るか否かを判断することができる。ダイナミックポスター３０３の特定プロセスに予め設定された少なくとも１つのモデルが採用され、予め設定された少なくとも１つのモデルから確定されたターゲットモデル及び該ターゲットモデルに対応する条件に基づいて、ターゲットビデオから精度の高いダイナミックポスターを特定することができるので、ユーザはダイナミックポスターに基づいてターゲットビデオ３０１のコンテンツを正確に推定することができ、情報取得の効率が向上された。

本出願の上記実施例によるビデオを処理するための方法は、予め設定された少なくとも１つのモデルにおいて適切なターゲットモデルを確定することを通じて、該ターゲットモデル及び該ターゲットモデルに対応する条件に応じて、ターゲットモデルの出力データに基づいて、ターゲットビデオからダイナミックポスターを正確に特定することができる。少なくとも１つのモデルに基づいて、ポスターの特定精度を向上させることができる。

引き続き、図４を参照し、本出願によるビデオを処理するための方法の別の実施例のフローチャート４００である。図４に示されるように、本実施例のビデオを処理するための方法は以下のステップを含む。

ステップ４０１では、ターゲットビデオを取得する。

本実施例において、ステップ４０１の詳細な説明についてはステップ２０１の詳細な説明を参照し、ここでは繰り返さない。

本実施例のいくつかのオプション的な実施形態において、ターゲットビデオの取得は、ビデオアドレス及び／又はビデオタイトルに基づいてターゲットビデオを取得するステップを含んでもよい。

本実施形態において、ビデオアドレスはターゲットビデオのアドレスリンクであってもよく、該アドレスリンクを介してターゲットビデオの所在位置を特定することができる。ビデオタイトルは、ターゲットビデオのタイトルであってもよく、通常、ターゲットビデオのコンテンツを反映できる重要な情報である。ビデオアドレス及び／又はビデオタイトルに基づいて、ビデオアドレスとターゲットビデオとの対応関係、及び／又はビデオタイトルとターゲットビデオとの対応関係に基づいて、ターゲットビデオを取得することができる。

ステップ４０２では、選択回数を決定する。

ステップ４０３では、予め設定された少なくとも１つのモデルから、予め設定されたモデル選択順番と選択回数とがマッチするモデルをターゲットモデルとする。

本実施例において、ターゲットモデルは、予め設定された選択順番に基づいて選択してもよく、又は、少なくとも１つのモデルのうちの各モデルのモデル重みに基づいて選択してもよいなど、本実施例はこれを限定しない。うち、選択回数は、ターゲットモデルを選択する回数を示すために使用され、選択回数１は、１回目のターゲットモデルの選択を示すことができる。さらに、予め設定された少なくとも１つのモデルのうちの各モデルに対応する選択順番を決定してもよく、該選択順番は予め設定された順番であってもよい。予め設定された少なくとも１つのモデルから、選択順番が現在の選択回数にマッチするモデルをターゲットモデルとして決定してもよい。例えば、選択回数が２であり、予め設定された少なくとも１つのモデルのうちの上記第２のモデルに対応する選択順番が２であれば、このとき、上記第２のモデルをターゲットモデルとして決定することができる。

本実施例のいくつかのオプション的な実施形態において、予め設定された少なくとも１つのモデルのうちの各モデルの初期重みを確定するステップであって、該初期重みが、事前に設定された、モデル属性に対応する重みであるステップと、該初期重みが高から低の順に従って、予め設定された少なくとも１つのモデルからターゲットモデルを逐次確定するステップと、を実行してターゲットモデルを選択してもよい。オプションとして、ターゲットモデルが確定されたたびに、選択されたモデルをマークするために、初期重みを更新してもよい。

例えば、予め設定された少なくとも１つのモデルに、第１のモデル、第２のモデル及び第３のモデルが含まれていると仮定する。第１のモデルに第１の重みが対応し、第２のモデルに第２の重みが対応し、第３のモデルに第３の重みが対応する。また、第１の重みの値が第２の重みよりも大きく、第２の重みの値が第３の重みよりも大きい。初めてターゲットモデルを確定する際には第１のモデルをターゲットモデルとして確定してもよい。その後、第１の重みの値を予め設定された比率で低減することで、初期重みを更新することができる。２回目にターゲットモデルを確定する際、その時点で低減された第１の重みの値が第３の重みよりも小さい場合、今回ターゲットモデルを確定する際に第２のモデルをターゲットモデルとして確定してもよい。

ステップ４０４では、ターゲットビデオ及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定する。

本実施例において、ターゲットモデルは、顔認識モデル、行動認識モデル及びコンテンツスコアリングモデルの任意の組み合わせを含む。オプションとして、ターゲットビデオはターゲットモデルの入力データとして使用されてもよく、ターゲットモデルは、ターゲットビデオに対応するターゲットモデルの出力データを出力することができる。ステップ４０４の詳細な説明についてはステップ２０３の詳細な説明を参照し、ここでは繰り返さない。

本実施例のいくつかのオプション的な実施形態において、ターゲットビデオ及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定するステップは、ターゲットビデオ及び顔認識モデルに基づいて、ターゲットビデオにおける顔画像と予め設定された少なくとも１つの顔オブジェクトとの類似度を確定するステップを含む。

本実施形態において、顔認識モデルは、ターゲットビデオの各ビデオフレームの顔オブジェクトを認識し、該顔オブジェクトと予め設定された少なくとも１つの顔オブジェクトとの類似度を確定することができる。うち、予め設定された少なくとも１つの顔オブジェクトは、少なくとも１人の有名人の顔を含んでもよい。オプションとして、顔認識モデルは、ターゲットビデオの各ビデオフレームの顔オブジェクトを認識した後、総画像サイズに対する顔部分サイズの比率を算出することもできる。ターゲットモデルの出力データに基づいて、ターゲットビデオからダイナミックポスターを特定する際に、該比率が最大となるビデオフレームに対応するビデオセグメントをダイナミックポスターとして特定してもよい。

本実施例のいくつかのオプション的な実施形態において、ターゲットビデオは、人の名前を含むタイトルを含み、そして、類似度が予め設定された第１の閾値未満であるか、又は、類似度が第１の閾値以上であるが、ターゲットビデオにおける顔オブジェクトが人の名前とマッチしないと判断されたことに応答して、出力データがターゲットモデルに対応する条件を満たさないと判定するステップを実行してもよい。

本実施形態において、ターゲットビデオにおける顔画像と予め設定された少なくとも１つの顔オブジェクトとの類似度が、予め設定された第１の閾値以上であれば、ターゲットビデオに有名人の顔が現れたことを意味し、顔オブジェクトとビデオタイトルにおける人の名前とがマッチするか否かをさらに判定してもよい。ターゲットビデオにおける顔オブジェクトと人の名前とをマッチすることで、ターゲットビデオに現れた有名人がビデオタイトルにおける有名人であるか否かを判定することができる。前記類似度及び前記ターゲットビデオにおける顔オブジェクトが人の名前とマッチするか否かの判断結果に基づいて、ターゲットモデルの出力データがターゲットモデルに対応する条件を満たすか否かを判定することができる。類似度が予め設定された第１の閾値未満である場合、又は、類似度が第１の閾値以上であるが、ターゲットビデオにおける顔オブジェクトが人の名前とマッチしない場合、出力データがターゲットモデルに対応する条件を満たさないと判定することができる。

本実施例のいくつかのオプション的な実施形態において、ターゲットビデオ及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定するステップは、ターゲットビデオ及び行動認識モデルに基づいて、ターゲットビデオにおける行動情報が指定動作を含む確率スコアを確定するステップを含む。

本実施形態において、行動認識モデルは、ターゲットビデオにおける行動情報を認識し、ターゲットビデオにおける行動情報が指定動作を含む確率スコアを確定するために使用される。うち、行動認識モデルは画像二項分類モデルであってもよく、該画像二項分類モデルの訓練において、指定動作を含む行動を正のサンプルとし、指定動作を含まない行動を負のサンプルとしてもよい。ターゲットビデオを行動認識モデルに入力した後、行動認識モデルの前進計算結果に基づいて、ターゲットビデオの各ビデオフレームにおける行動情報が指定動作を含む確率スコアを得ることができる。確率スコアに基づいて、ターゲットモデルの出力データを確定することができる。うち、指定動作には、抱擁行動情報、キス行動情報などが含まれるが、これらに限定されない。

本実施例のいくつかのオプション的な実施形態において、確率スコアが予め設定された第２の閾値未満であると判断されたことに応答して、出力データがターゲットモデルに対応する条件を満たさないと判定するステップをさらに実行してもよい。

本実施形態において、ターゲットモデルの出力データが、確率スコアが予め設定された第２の閾値未満であることを示す場合、ターゲットビデオに指定動作が含まれる確率が小さいことを示し、このとき、ターゲットモデルの出力データが行動認識モデルに対応する条件を満たさないと判定してもよい。ターゲットモデルの出力データが、確率スコアが予め設定された第２の閾値以上であることを示す場合、ターゲットビデオに指定動作が含まれる確率が大きいことを示し、このとき、ターゲットモデルの出力データが行動認識モデルに対応する条件を満たすと判定してもよい。

本実施例のいくつかのオプション的な実施形態において、ターゲットビデオ及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定するステップは、ターゲットビデオにおける複数のビデオフレームに対し、コンテンツスコアリングモデルに基づいて、各ビデオフレームのコンテンツスコアを得るステップを含む。

本実施形態において、コンテンツスコアリングモデルは、ターゲットビデオのビデオコンテンツをスコアリングするためのモデルである。ターゲットビデオをコンテンツスコアリングモデルに入力して、ターゲットビデオの複数のビデオフレームのコンテンツスコアを得ることができる。

本実施例のいくつかのオプション的な実施形態において、ターゲットビデオの複数のビデオフレームに対し、コンテンツスコアリングモデルに基づいて、各ビデオフレームのコンテンツスコアを得るステップは、ターゲットビデオの複数のビデオフレームをコンテンツスコアリングモデルに入力し、コンテンツスコアリングモデルが、各ビデオフレームの特徴情報を確定するとともに、各ビデオフレームの特徴情報に基づいて、各ビデオフレーム間の差異特徴及び類似特徴を確定し、差異特徴及び類似特徴に基づいて各ビデオフレームのコンテンツスコアを出力するようにするステップを含む。

本実施形態において、各ビデオフレーム間の差異特徴は、ビデオフレーム間に存在する差異の特徴を反映することができ、各ビデオフレーム間の類似特徴は、ビデオフレーム間に存在する類似の特徴を反映することができる。差異特徴に基づいて他のビデオフレームと区別されるビデオフレームをフィルタリングすることができ、類似特徴に基づいてビデオを代表できるビデオフレームをフィルタリングすることができるので、差異性及び代表性から精彩なコンテンツをフィルタリングすることができる。

本実施例のいくつかのオプション的な実施形態において、コンテンツスコアが予め設定された第３の閾値未満であると判断されたことに応答して、出力データがターゲットモデルに対応する条件を満たさないと判定するステップをさらに実行してもよい。

本実施形態において、コンテンツスコアが予め設定された第３の閾値未満であれば、該ターゲットビデオに比較的精彩なコンテンツセグメントがないことを示し、このとき、ターゲットモデルの出力データが行動認識モデルに対応する条件を満たさないと判定してもよい。コンテンツスコアが予め設定された第３の閾値以上であれば、該ターゲットビデオに比較的精彩なコンテンツセグメントがあることを示し、このとき、ターゲットモデルの出力データが行動認識モデルに対応する条件を満たすと判定することができる。

本実施例のいくつかのオプション的な実施形態において、コンテンツスコアリングモデルは、サンプルビデオを取得するステップと、トレーニング対象のコンテンツスコアリングモデルにサンプルビデオを入力して、トレーニング対象のコンテンツスコアリングモデルがサンプルビデオの各ビデオフレームの特徴情報を抽出し、特徴情報に基づいてサンプルビデオの各ビデオフレームのコンテンツスコアを確定し、サンプルビデオの各ビデオフレームのコンテンツスコアに基づいてサンプルビデオセグメントを特定するようにするステップと、サンプルビデオセグメントに対応するセグメント内部パラメータ及びセグメント外部パラメータを確定するステップと、セグメント内部パラメータ及びセグメント外部パラメータに基づいて、トレーニング対象のコンテンツスコアリングモデルをトレーニングして、トレーニング済みコンテンツスコアリングモデルを得るステップと、によってトレーニングされる。

本実施形態において、コンテンツスコアリングモデルは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、畳み込みニューラルネットワーク）、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、長・短期記憶ネットワーク）及び強化学習に基づいて得ることができる。オプションとして、コンテンツスコアリングモデルの符号化フレームワークとしてＡｕｔｏＥｎｃｏｄｅｒ－Ｄｅｃｏｄｅｒ（自動符号化・復号化）フレームワークを採用することができる。うち、エンコーダはＲｅｓｎｅｔ（ＲｅｓｉｄｕａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、残差ネットワーク）を採用してもよく、デコーダは双方向のＬＳＴＭを採用してもよい。コンテンツスコアリングモデルのトレーニング段階では、まず、サンプルビデオを取得した後、トレーニング対象のコンテンツスコアリングモデルにサンプルビデオを入力して、トレーニング対象のコンテンツスコアリングモデルがＣＮＮを介してサンプルビデオの各ビデオフレームの特徴情報を抽出した後、各ビデオフレームの特徴情報をＬＳＴＭに入力して各ビデオフレームのコンテンツスコアを得るようにしてもよい。うち、コンテンツスコアは、該ビデオフレームのコンテンツがダイナミックポスターとして選択される確率を記述するために使用される。さらに、サンプルビデオをコンテンツスコアに基づいてベルヌーイサンプリングして、サンプルビデオセグメントを得ることができる。そして、サンプルビデオセグメントに対応するセグメント内部パラメータ及びセグメント外部パラメータを確定する。うち、セグメント内部パラメータは、ビデオセグメントのフレーム間の差異性を記述するために使用され、セグメント外部パラメータは、該ビデオセグメントがサンプルビデオを代表できる代表性を記述するために使用される。セグメント内部パラメータ及びセグメント外部パラメータに基づいて、報酬関数を構築することができる。報酬関数に基づいてトレーニング対象のコンテンツスコアリングモデルをフィードバック及び更新して、トレーニング済みコンテンツスコアリングモデルを得ることができる。うち、報酬関数は、下記式に基づいて得ることができる。

（式中、Ｒ（Ｓ）は報酬関数を表し、Ｒｄｉｖはセグメント内部パラメータを表し、Ｒｒｅｐはセグメント外部パラメータを表す。）

セグメント内部パラメータは、下記式に基づいて得ることができる。

（式中、ｙはビデオのビデオフレーム総数を表し、ｘｔはビデオ中ｔ番目のフレームの特徴ベクトルを表し、ｄはコサイン類似度の計算を表す。）

セグメント外部パラメータは、下記式に基づいて得ることができる。

（式中、Ｔはビデオの持続時間を表す。ビデオレートが１フレーム／秒の場合、Ｔとｙの値は同じである。この場合、ｔはｔ番目のフレーム及び第ｔ秒を表す。）

ステップ４０５では、出力データがターゲットモデルに対応する条件を満たさないと判断されたことに応答して、出力データがターゲットモデルに対応する条件を満たすまで、予め設定された少なくとも１つのモデルからターゲットモデルを再選択する。

本実施例において、ステップ４０５の詳細な説明についてはステップ２０４の詳細な説明を参照し、ここでは繰り返さない。

ステップ４０６では、出力データに基づいて、ターゲットビデオからダイナミックポスターを特定する。

本実施例において、ステップ４０６の詳細な説明についてはステップ２０５の詳細な説明を参照し、ここでは繰り返さない。

本実施例のいくつかのオプション的な実施形態において、ターゲットモデルの出力データに基づいて、ターゲットビデオからダイナミックポスターを特定するステップは、予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップと、ターゲットモデルの出力データに基づいて、候補ビデオセグメントセットからダイナミックポスターを特定するステップと、を含む。

本実施形態において、予め設定されたビデオセグメント長は、例えば、６秒又は１０フレームなどの持続時間及びフレーム数を含んでもよく、本実施例は具体的な数値を限定しない。予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定することができる。うち、候補ビデオセグメントセットにおける各候補ビデオセグメントの長さは該予め設定されたビデオセグメント長である。具体的には、ターゲットビデオの各フレームのビデオの特徴ベクトル（該特徴ベクトルはセグメント外部パラメータを計算する際に取得されたベクトルである）を取得した後、特徴ベクトルに基づいて候補ビデオセグメントセットからセグメント内部が連続画像であり且つセグメントがビデオ全体を代表できる候補ビデオセグメントを選択してもよい。

本実施例のいくつかのオプション的な実施形態において、ターゲットモデルの出力データに基づいて、候補ビデオセグメントセットからダイナミックポスターを特定するステップは、ターゲットモデルの出力データに基づいて、候補ビデオセグメントセットにおける各候補ビデオセグメントに対応するコンテンツスコアを確定するステップと、各候補ビデオセグメントに対応するコンテンツスコアに基づいて、候補ビデオセグメントセットにおいてダイナミックポスターを特定するステップと、を含む。

本実施形態において、コンテンツスコアリングモデルのターゲットモデルの出力データに基づいて、候補ビデオセグメントセットにおける各候補ビデオセグメントの各ビデオフレームのコンテンツスコアを確定し、各ビデオフレームのコンテンツスコアを総合して該候補ビデオセグメントのコンテンツスコアを得ることができる。好ましくは、コンテンツスコアのスコアが最も高い候補ビデオセグメントをダイナミックポスターとして特定してもよい。

本実施例のいくつかのオプション的な実施形態において、ターゲットビデオ及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定するステップは、ターゲットビデオに対してフレームを均等に抽出して、ビデオフレームセットを得るステップと、ビデオフレームセット及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定するステップと、を含む。

本実施形態において、ターゲットビデオに対してフレームを均等に抽出して、ビデオフレームセットを得ることができる。具体的には、所定数のフレームごとに抽出を行ってもよく、又は予め設定された時間ごとに抽出を行ってもよく、本実施例はこれを限定しない。オプションとして、ビデオフレームセットにおけるビデオフレームに所要のキーフレームが含まれるように、キーフレームの所在位置を考慮しながらターゲットビデオを抽出してもよい。さらに、ビデオフレームセットにおける各ビデオフレームをターゲットモデルに順次入力して、ターゲットモデルの出力データを確定してもよい。

本実施例のいくつかのオプション的な実施形態において、予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップは、ターゲットビデオにおいてビデオ黒帯が現れた黒帯付きビデオフレームを確定するステップと、ターゲットビデオにおいて黒帯付きビデオフレームを除くその他のビデオフレーム及び予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップと、を含む。

本実施形態において、ターゲットビデオにおいてビデオ黒帯が現れたビデオフレームを検出して、それらを黒帯付きビデオフレームとし、次に、ターゲットビデオにおいて黒帯付きビデオフレームを除くその他のビデオフレーム及び予め設定されたビデオセグメント長に基づいて、候補ビデオセグメントセットを確定することができる。それにより、確定された候補ビデオセグメントセットが黒帯付きビデオフレームを含まないか、含まれる黒帯付きビデオフレームの数を少なくする。ターゲットビデオにおいてビデオ黒帯が現れたビデオフレームを検出するステップについては、従来の黒帯検出技術を採用することができ、ここでは繰り返さない。

本実施例のいくつかのオプション的な実施形態において、予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップは、ターゲットビデオにおいて静止画が現れた静止ビデオフレームを確定するステップと、ターゲットビデオにおいて静止ビデオフレームを除くその他のビデオフレーム及び予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップと、を含む。

本実施形態において、ターゲットビデオにおいて静止画が現れたビデオフレームを検出して、それらを静止ビデオフレームとし、次に、ターゲットビデオにおいて静止ビデオフレームを除くその他のビデオフレーム及び予め設定されたビデオセグメント長に基づいて、候補ビデオセグメントセットを確定することができる。それにより、確定された候補ビデオセグメントセットが静止ビデオフレームを含まないか、含まれた静止ビデオフレームの数を少なくする。ターゲットビデオにおいて静止画が現れたビデオフレームを検出するステップについては、従来の静止画認識技術を採用してもよく、ここでは説明を繰り返さない。

例えば、ビデオアドレス及び／又はビデオタイトルに基づいてターゲットビデオを取得した後、予め設定された選択順番に基づいて、まず、予め設定された少なくとも１つのモデルから、顔認識モデルをターゲットモデルとして確定し、ターゲットビデオ及び顔認識モデルに基づいて、ターゲットビデオに、ビデオタイトルにおける有名人に対応する顔が存在するか否かを判定することができる。ターゲットビデオに該有名人に対応する顔が存在すれば、ターゲットモデルの出力データが顔認識モデルに対応する条件を満たすと判定し、ターゲットビデオから有名人に対応する顔が現れたビデオセグメントをダイナミックポスターとして選択する。ターゲットビデオに、該有名人に対応する顔が存在しなければ、ターゲットモデルの出力データが顔認識モデルに対応する条件を満たさないと判定し、少なくとも１つのモデルから行動認識モデルを再選択する。さらに、ターゲットビデオ及び行動認識モデルに基づいて、ターゲットビデオに予め設定された行動が存在するか否かを判定する。ターゲットビデオに予め設定された行動が存在すれば、ターゲットモデルの出力データがターゲットモデルに対応する条件を満たすと判定し、予め設定された行動を含むビデオセグメントをダイナミックポスターとする。ターゲットビデオに予め設定された行動が存在しなければ、ターゲットモデルの出力データがターゲットモデルに対応する条件を満たさないと判定し、再び少なくとも１つのモデルからコンテンツスコアリングモデルを再選択する。ターゲットビデオ及びコンテンツスコアリングモデルに基づいて、ターゲットビデオにおける各フレームビデオのコンテンツスコアを計算し、コンテンツスコアが最も高いセグメントをダイナミックポスターとして再選択する。

図４から分かるように、図２に対応する実施例に比べて、本実施例におけるビデオを処理するための方法のプロセス４００は、ターゲットモデルの出力データがターゲットモデルに対応する条件を満たさないと判断されたことに応答して、ターゲットモデルを再選択し、新しいターゲットモデルの出力データがターゲットモデルに対応する条件を満たすまで、ターゲットモデルの出力データを再確定することができて、ターゲットビデオからダイナミックポスターを特定することができる。このプロセスは、複数のモデルを順番に利用してターゲットモデルの出力データが対応する条件を満たすか否かを順次判定し、対応する条件を満たすモデルのターゲットモデルの出力データを選択してダイナミックポスターとして特定し、ダイナミックポスターの特定精度を一層高めることができる。また、ターゲットモデルは、顔認識モデル、行動認識モデル及びコンテンツ認識モデルを含んでもよく、これらの３つのモデルを通じてビデオ画像とビデオタイトルとの関連特徴、ビデオ画像における行動特徴及びビデオコンテンツの精彩度を総合的に考慮して、ダイナミックポスターを得ることができて、ダイナミックポスターとビデオとの相関性、及びダイナミックポスターの精彩度を向上させることができ、ダイナミックポスターの選択効果が向上された。その中のコンテンツ認識モデルはラベル情報のない教師なしモデルにすることができ、モデルトレーニングのラベル付けコストが低減され、モデルトレーニングの効率がより高い。また、黒帯検出、静止画面認識、シーンセグメンテーションなどの技術的手段を用いて候補ビデオセグメントを特定することもできるので、ダイナミックポスターの有効性が向上された。

さらに、図５を参照し、上記各図に示された方法の実施として、本出願は、ビデオを処理するための装置の一実施例を提供し、該装置の実施例は図２に示された方法の実施例に対応しており、該装置は様々な電子機器に適用可能である。

図５に示すように、本実施例のビデオを処理するための装置５００は、ビデオ取得ユニット５０１、モデル選択ユニット５０２、データ確定ユニット５０３、条件判定ユニット５０４、及びポスター特定ユニット５０５を備える。

ビデオ取得ユニット５０１は、ターゲットビデオを取得するように構成される。

モデル選択ユニット５０２は、予め設定された少なくとも１つのモデルからターゲットモデルを選択するように構成される。

データ確定ユニット５０３は、ターゲットビデオ及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定するように構成される。

条件判定ユニット５０４は、出力データがターゲットモデルに対応する条件を満たさないと判断されたことに応答して、出力データがターゲットモデルに対応する条件を満たすまで、予め設定された少なくとも１つのモデルからターゲットモデルを再選択するように構成される。

ポスター特定ユニット５０５は、出力データに基づいて、ターゲットビデオからダイナミックポスターを特定するように構成される。

本実施例のいくつかのオプション的な実施形態において、ターゲットモデルは、選択回数を決定するステップと、予め設定された少なくとも１つのモデルから、予め設定されたモデル選択順番と選択回数とがマッチするモデルをターゲットモデルとするステップと、によって選択される。

本実施例のいくつかのオプション的な実施形態において、ターゲットモデルは顔認識モデルを含み、データ確定ユニット５０３は、さらに、ターゲットビデオ及び顔認識モデルに基づいて、ターゲットビデオにおける顔オブジェクトと予め設定された少なくとも１つの顔オブジェクトとの類似度を確定するように構成される。

本実施例のいくつかのオプション的な実施形態において、ターゲットビデオは、人の名前を含むタイトルを含み、条件判定ユニット５０４は、さらに、類似度が予め設定された第１の閾値未満である場合、又は類似度が第１の閾値以上であるが、ターゲットビデオにおける顔オブジェクトが人の名前とマッチしないと判断された場合、出力データがターゲットモデルに対応する条件を満たさないと判定するように構成される。

本実施例のいくつかのオプション的な実施形態において、ターゲットモデルは行動認識モデルを含み、データ確定ユニット５０３は、さらに、ターゲットビデオ及び行動認識モデルに基づいて、ターゲットビデオにおける行動情報が指定動作を含む確率スコアを確定するように構成される。

本実施例のいくつかのオプション的な実施形態において、条件判定ユニット５０４は、さらに、確率スコアが予め設定された第２の閾値未満であると判断されたことに応答して、出力データがターゲットモデルに対応する条件を満たさないと判定するように構成される。

本実施例のいくつかのオプション的な実施形態において、ターゲットモデルはコンテンツスコアリングモデルを含み、データ確定ユニット５０３は、さらに、ターゲットビデオにおける複数のビデオフレームに対し、コンテンツスコアリングモデルに基づいて、各ビデオフレームのコンテンツスコアを得るように構成される。

本実施例のいくつかのオプション的な実施形態において、装置は、ターゲットモデルの出力データが、確率スコアが予め設定された第３の閾値よりも大きいことを示すと判断されたことに応答して、ターゲットモデルの出力データが行動認識モデルに対応する条件を満たすと判定するように構成される第２条件判定ユニット５０４をさらに備える。

本実施例のいくつかのオプション的な実施形態において、データ確定ユニット５０３は、さらに、ターゲットビデオにおける複数のビデオフレームをコンテンツスコアリングモデルに入力し、コンテンツスコアリングモデルが、各ビデオフレームの特徴情報を確定するとともに、各ビデオフレームの特徴情報に基づいて各ビデオフレーム間の差異特徴及び類似特徴を確定し、差異特徴及び類似特徴に基づいて各ビデオフレームのコンテンツスコアを出力するように構成される。

本実施例のいくつかのオプション的な実施形態において、条件判定ユニット５０４は、さらに、コンテンツスコアが予め設定された第３の閾値未満であると判断されたことに応答して、出力データがターゲットモデルに対応する条件を満たさないと判定するように構成される。

本実施例のいくつかのオプション的な実施形態において、ポスター特定ユニット５０５は、さらに、予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定し、出力データに基づいて、候補ビデオセグメントセットからダイナミックポスターを特定するように構成される。

本実施例のいくつかのオプション的な実施形態において、ポスター特定ユニット５０５は、さらに、出力データに基づいて、候補ビデオセグメントセットにおける各候補ビデオセグメントに対応するコンテンツスコアを確定し、各候補ビデオセグメントに対応するコンテンツスコアに基づいて、候補ビデオセグメントセットにおいてダイナミックポスターを特定するように構成される。

本実施例のいくつかのオプション的な実施形態において、データ確定ユニット５０３は、さらに、ターゲットビデオに対してフレームを均等に抽出して、ビデオフレームセットを取得し、ビデオフレームセット及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定するように構成される。

本実施例のいくつかのオプション的な実施形態において、コンテンツスコアリングモデルは、サンプルビデオを取得するステップと、トレーニング対象のコンテンツスコアリングモデルにサンプルビデオを入力し、トレーニング対象のコンテンツスコアリングモデルが、サンプルビデオにおける各ビデオフレームの特徴情報を抽出し、特徴情報に基づいてサンプルビデオにおける各ビデオフレームのコンテンツスコアを確定し、サンプルビデオにおける各ビデオフレームのコンテンツスコアに基づいてサンプルビデオセグメントを特定するようにするステップと、サンプルビデオセグメントに対応するセグメント内部パラメータ及びセグメント外部パラメータを確定するステップと、セグメント内部パラメータ及びセグメント外部パラメータに基づいて、トレーニング対象のコンテンツスコアリングモデルをトレーニングし、トレーニングされたコンテンツスコアリングモデルを得るステップと、によってトレーニングされる。

本実施例のいくつかのオプション的な実施形態において、ポスター特定ユニット５０５は、さらに、ターゲットビデオにおいてビデオ黒帯が現れた黒帯付きビデオフレームを確定し、ターゲットビデオにおいて黒帯付きビデオフレームを除くその他のビデオフレーム及び予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定するように構成される。

本実施例のいくつかのオプション的な実施形態において、ポスター特定ユニット５０４は、さらに、ターゲットビデオにおいて静止画が現れた静止ビデオフレームを確定し、ターゲットビデオにおいて静止ビデオフレームを除くその他のビデオフレーム及び予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定するように構成される。

ビデオを処理するための装置５００に記載されているユニット５０１からユニット５０３がそれぞれ図２において説明した方法の各ステップに対応することを理解されたい。従って、上記のビデオを処理するための方法に対して説明する操作及び特徴は、装置５００及びそれに含まれるユニットに同様に適用可能であり、ここでは説明を繰り返さない。

本出願の実施例によれば、本出願はさらに、電子機器、可読記憶媒体及びコンピュータプログラムを提供している。

図６は、本開示の実施例のビデオを処理するための方法を実施するための電子機器６００のブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、パーソナル・デジタル・アシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、その他の適切なコンピュータなど、さまざまな形態のデジタルコンピュータを表すことを目的としている。電子機器は、パーソナル・デジタル・アシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、及びその他類似のコンピューティングデバイスなど、さまざまな形態のモバイルデバイスを表すこともできる。本明細書に示されている部品、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書で説明及び／又は要求されている本開示の実施を制限するものではない。

図６に示すように、電子機器６００は、コンピューティングユニット６０１を含み、これは、読み出し専用メモリ（ＲＯＭ）６０２に記憶されたコンピュータプログラム、又は記憶ユニット６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる。ＲＡＭ６０３には、電子機器６００の操作に必要な様々なプログラム及びデータがさらに記憶されていてもよい。コンピューティングユニット６０１、ＲＯＭ６０２及びＲＡＭ６０３は、バス６０４を介して互いに接続されている。入／出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続されている。

機器６００内の複数のコンポーネント、例えば、キーボード、マウスなどの入力ユニット６０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット６０７と、磁気ディスク、光ディスクなどの記憶ユニット６０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット６０９とを含むコンポーネントはＩ／Ｏインターフェース６０５に接続されている。通信ユニット６０９は、機器６００が、インターネットなどのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他の機器と情報／データを交換することを可能にする。

コンピューティングユニット６０１は、処理及びコンピューティング機能を有する様々な汎用及び／又は専用の処理コンポーネントであってもよい。コンピューティングユニット６０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）コンピューティングチップ、機械学習モデルアルゴリズムを実行する様々なコンピューティングユニット、デジタル信号コンピューティングユニット（ＤＳＰ）、及び任意の適切なコンピューティングユニット、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。コンピューティングユニット６０１は、上記で説明された各々の方法及び処理、例えば、ビデオを処理するための方法を実行する。例えば、いくつかの実施例では、ビデオを処理するための方法は、記憶ユニット６０８のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実施されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ＲＯＭ６０２及び／又は通信ユニット６０９を介して機器６００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ６０３にロードされ、コンピューティングユニット６０１によって実行されるとき、上記で説明されたビデオを処理するための方法の１つ又は複数のステップを実行することができる。或いは、他の実施例では、コンピューティングユニット６０１は、他の任意の適切な方法（例えば、ファームウェア）によって、ビデオ処理のための方法を実行するように構成されてもよい。

本明細書にて説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、プレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実施することができる。これら様々な実施形態は以下を含むことができる。すなわち、一つ又は複数のコンピュータプログラムにおいて実施され、該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルコンピューティングユニットを含むプログラム可能なシステムで実行、及び／又は解釈されてもよく、該プログラマブルコンピューティングユニットは、専用又は汎用のプログラマブルコンピューティングユニットであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び指令を受信するとともに、データ及び指令を該ストレージシステム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送することができる。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせを使用して書くことができる。これらのプログラムコードは、プログラムコードがコンピューティングユニット又はコントローラによって実行されるときに、フローチャート及び／又はブロック図に規定された機能／操作を実施するように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のコンピューティングユニット又はコントローラに提供することができる。プログラムコードは、完全に機械上で実行するか、部分的に機械上で実行してもよく、独立したソフトウェアパッケージとして機械上で一部実行し且つ一部を遠隔機械上で実行するか又は完全に遠隔機械又はサーバ上で実行することができる。

本開示の文脈では、機械可読媒体は、コマンド実行システム、装置又は機器が使用するため、又はコマンド実行システム、装置、又は機器と組み合わせて使用するためのプログラムを含むか又は記憶することができる有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置又は機器、或いはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例は、１つ又は複数のワイヤに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光ストレージデバイス、磁気ストレージデバイス、又はこれらの任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータ上で明細書において説明したシステム及び技術を実施してもよく、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）、及びユーザがコンピュータに入力を提供するためのキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）を有する。他の種類の装置は、ユーザとのインタラクションを提供するために用いられてもよく、例えば、ユーザに提供されるフィードバックは任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力、音声入力又は触覚入力を含む）でユーザからの入力を受信することができる。

本明細書で説明されるシステム及び技術は、バックグラウンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとして）、又は、ミドルウェアコンポーネントを含むコンピューティングシステム（たとえば、アプリケーションサーバ）、又は、フロントエンドコンポーネント（例えば、グラフィカルユーザインターフェース又はウェブブラウザを備えたユーザーコンピュータは、ユーザが該グラフィカルユーザインターフェース又は該ウェブブラウザを介して、本明細書で説明するシステム及び技術の実施形態とインタラクションすることができる）、又は、これらのバックグラウンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。また、システムのコンポーネントは、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介して相互に接続することができる。通信ネットワークの例示として、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを含む。

コンピュータシステムにはクライアント及びサーバを含むことができる。クライアントとサーバは一般的に互いに離れており、通常は通信ネットワークを介して相互作用する。クライアントとサーバとの関係は、対応するコンピュータにおいて実行されるとともに互いにクライアント－サーバの関係を持つコンピュータプログラムによって生成される。

なお、上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行うことができる。例えば、本出願に記載された各ステップは、本出願に開示された技術案の所望の結果が達成できる限り、並行して実行されてもよいし、順番で実行されてもよいし、異なる順番で実行されてもよい。本明細書はここで制限しない。

上記具体的な実施形態は、本出願の保護範囲を限定するものではない。設計要件および他の要因に従って、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを当業者は理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

ターゲットビデオを取得するステップと、
予め設定された少なくとも１つのモデルからターゲットモデルを選択するステップと、
前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップと、
前記出力データが前記ターゲットモデルに対応する条件を満たさないと判断されたことに応答して、前記出力データが前記ターゲットモデルに対応する条件を満たすまで、前記予め設定された少なくとも１つのモデルから前記ターゲットモデルを再選択するステップと、
前記出力データに基づいて前記ターゲットビデオからダイナミックポスターを特定するステップと、を含むビデオを処理するための方法。
前記ターゲットモデルは、
選択回数を決定するステップと、
前記予め設定された少なくとも１つのモデルから、予め設定されたモデル選択順番が前記選択回数とマッチするモデルを前記ターゲットモデルとして確定するステップと、
によって選択される請求項１に記載のビデオを処理するための方法。
前記ターゲットモデルは、顔認識モデルを含み、
前記の、前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップは、
前記ターゲットビデオ及び前記顔認識モデルに基づいて、前記ターゲットビデオにおける顔オブジェクトと予め設定された少なくとも１つの顔オブジェクトとの類似度を判定するステップを含む請求項１に記載のビデオを処理するための方法。
前記ターゲットビデオは、人の名前を含むタイトルを含み、
前記方法は、
前記類似度が予め設定された第１の閾値未満である場合、又は、前記類似度が前記第１の閾値以上であるが、前記ターゲットビデオにおける顔オブジェクトが前記人の名前とマッチしないと判断された場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するステップをさらに含む請求項３に記載のビデオを処理するための方法。
前記ターゲットモデルは、行動認識モデルを含み、
前記の、前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップは、
前記ターゲットビデオ及び前記行動認識モデルに基づいて、前記ターゲットビデオにおける行動情報の、指定動作を含む確率スコアを確定するステップを含む請求項１に記載のビデオを処理するための方法。
前記確率スコアが予め設定された第２の閾値未満である場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するステップをさらに含む請求項５に記載のビデオを処理するための方法。
前記ターゲットモデルは、コンテンツスコアリングモデルを含み、
前記の、前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップは、
前記ターゲットビデオにおける複数のビデオフレームに対して、前記コンテンツスコアリングモデルに基づいて、各ビデオフレームのコンテンツスコアを得るステップを含む請求項１に記載のビデオを処理するための方法。
前記の、前記ターゲットビデオにおける複数のビデオフレームに対して、前記コンテンツスコアリングモデルに基づいて、各ビデオフレームのコンテンツスコアを得るステップは、
前記ターゲットビデオにおける複数のビデオフレームを前記コンテンツスコアリングモデルに入力し、前記コンテンツスコアリングモデルが、各ビデオフレームの特徴情報を確定するとともに、各ビデオフレームの特徴情報に基づいて各ビデオフレーム間の差異特徴及び類似特徴を確定し、前記差異特徴及び前記類似特徴に基づいて各ビデオフレームのコンテンツスコアを出力するようにするステップを含む請求項７に記載のビデオを処理するための方法。
前記コンテンツスコアが予め設定された第３の閾値未満である場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するステップをさらに含む請求項７に記載のビデオを処理するための方法。
前記の、前記出力データに基づいて前記ターゲットビデオからダイナミックポスターを特定するステップは、
予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップと、
前記出力データに基づいて、前記候補ビデオセグメントセットからダイナミックポスターを特定するステップと、を含む請求項９に記載のビデオを処理するための方法。
前記の、前記出力データに基づいて、前記候補ビデオセグメントセットからダイナミックポスターを特定するステップは、
前記出力データに基づいて、前記候補ビデオセグメントセットにおける各候補ビデオセグメントに対応するコンテンツスコアを確定するステップと、
各候補ビデオセグメントに対応するコンテンツスコアに基づいて、前記候補ビデオセグメントセットにおいて前記ダイナミックポスターを特定するステップと、を含む請求項１０に記載のビデオを処理するための方法。
前記の、前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップは、
前記ターゲットビデオに対してフレームを均等に抽出して、ビデオフレームセットを得るステップと、
前記ビデオフレームセット及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップと、を含む請求項１に記載のビデオを処理するための方法。
前記コンテンツスコアリングモデルは、
サンプルビデオを取得するステップと、
前記サンプルビデオをトレーニング対象のコンテンツスコアリングモデルに入力して、前記トレーニング対象のコンテンツスコアリングモデルが、前記サンプルビデオの各ビデオフレームの特徴情報を抽出し、前記特徴情報に基づいて前記サンプルビデオの各ビデオフレームのコンテンツスコアを確定するとともに、前記サンプルビデオの各ビデオフレームのコンテンツスコアに基づいてサンプルビデオセグメントを確定するようにするステップと、
前記サンプルビデオセグメントに対応するセグメント内部パラメータ及びセグメント外部パラメータを確定するステップと、
前記セグメント内部パラメータ及び前記セグメント外部パラメータに基づいて、前記トレーニング対象のコンテンツスコアリングモデルをトレーニングして、トレーニング済みコンテンツスコアリングモデルを得るステップと、
によってトレーニングされて得る請求項７に記載のビデオを処理するための方法。
前記の、予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップは、
前記ターゲットビデオにおいてビデオ黒帯が現れた黒帯付きビデオフレームを確定するステップと、
前記ターゲットビデオにおいて前記黒帯付きビデオフレームを除くその他のビデオフレーム及び前記予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップと、
を含む請求項１０に記載のビデオを処理するための方法。
前記の、予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップは、
前記ターゲットビデオにおいて静止画が現れた静止ビデオフレームを確定するステップと、
前記ターゲットビデオにおいて前記静止ビデオフレームを除くその他のビデオフレーム及び前記予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップと、を含む請求項１０に記載のビデオを処理するための方法。
ターゲットビデオを取得するように構成されるビデオ取得ユニットと、
予め設定された少なくとも１つのモデルからターゲットモデルを選択するように構成されるモデル選択ユニットと、
前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するように構成されるデータ確定ユニットと、
前記出力データが前記ターゲットモデルに対応する条件を満たさないと判断されたことに応答して、前記出力データが前記ターゲットモデルに対応する条件を満たすまで、前記予め設定された少なくとも１つのモデルから前記ターゲットモデルを再選択するように構成される条件判定ユニットと、
前記出力データに基づいて前記ターゲットビデオからダイナミックポスターを特定するように構成されるポスター特定ユニットと、を備えるビデオを処理するための装置。
前記ターゲットモデルは、
選択回数を決定するステップと、
前記予め設定された少なくとも１つのモデルから、予め設定されたモデル選択順番が前記選択回数とマッチするモデルを前記ターゲットモデルとして確定するステップと、
によって選択される請求項１６に記載のビデオを処理するための装置。
前記ターゲットモデルは、顔認識モデルを含み、
前記データ確定ユニットは、さらに、
前記ターゲットビデオ及び前記顔認識モデルに基づいて、前記ターゲットビデオにおける顔オブジェクトと予め設定された少なくとも１つの顔オブジェクトとの類似度を判定するように構成される請求項１６に記載のビデオを処理するための装置。
前記ターゲットビデオは、人の名前を含むタイトルを含み、
前記条件判定ユニットは、さらに、
前記類似度が予め設定された第１の閾値未満である場合、又は、前記類似度が前記第１の閾値以上であるが、前記ターゲットビデオにおける顔オブジェクトが前記人の名前とマッチしないと判断された場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するように構成される請求項１８に記載のビデオを処理するための装置。
前記ターゲットモデルは、行動認識モデルを含み、
前記データ確定ユニットは、さらに、
前記ターゲットビデオ及び前記行動認識モデルに基づいて、前記ターゲットビデオにおける行動情報の、指定動作を含む確率スコアを確定するように構成される請求項１６に記載のビデオを処理するための装置。
前記条件判定ユニットは、さらに、
前記確率スコアが予め設定された第２の閾値未満である場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するように構成される請求項２０に記載のビデオを処理するための装置。
前記ターゲットモデルは、コンテンツスコアリングモデルを含み、
前記データ確定ユニットは、さらに、
前記ターゲットビデオにおける複数のビデオフレームに対して、前記コンテンツスコアリングモデルに基づいて、各ビデオフレームのコンテンツスコアを得るように構成される請求項１６に記載のビデオを処理するための装置。
前記データ確定ユニットは、さらに、
前記ターゲットビデオにおける複数のビデオフレームを前記コンテンツスコアリングモデルに入力し、前記コンテンツスコアリングモデルが、各ビデオフレームの特徴情報を確定するとともに、各ビデオフレームの特徴情報に基づいて各ビデオフレーム間の差異特徴及び類似特徴を確定し、前記差異特徴及び前記類似特徴に基づいて各ビデオフレームのコンテンツスコアを出力するように構成される請求項２２に記載のビデオを処理するための装置。
前記条件判定ユニットは、さらに、
前記コンテンツスコアが予め設定された第３の閾値未満である場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するように構成される請求項２２に記載のビデオを処理するための装置。
前記ポスター特定ユニットは、さらに、
予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定し、
前記出力データに基づいて、前記候補ビデオセグメントセットからダイナミックポスターを特定するように構成される請求項２４に記載のビデオを処理するための装置。
前記ポスター特定ユニットは、さらに、
前記出力データに基づいて、前記候補ビデオセグメントセットにおける各候補ビデオセグメントに対応するコンテンツスコアを確定し、
各候補ビデオセグメントに対応するコンテンツスコアに基づいて、前記候補ビデオセグメントセットにおいて前記ダイナミックポスターを特定するように構成される請求項２５に記載のビデオを処理するための装置。
前記データ確定ユニットは、さらに、
前記ターゲットビデオに対してフレームを均等に抽出して、ビデオフレームセットを取得し、
前記ビデオフレームセット及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するように構成される請求項１６に記載のビデオを処理するための装置。
前記コンテンツスコアリングモデルは、
サンプルビデオを取得するステップと、
前記サンプルビデオをトレーニング対象のコンテンツスコアリングモデルに入力して、前記トレーニング対象のコンテンツスコアリングモデルが、前記サンプルビデオの各ビデオフレームの特徴情報を抽出し、前記特徴情報に基づいて前記サンプルビデオの各ビデオフレームのコンテンツスコアを確定するとともに、前記サンプルビデオの各ビデオフレームのコンテンツスコアに基づいてサンプルビデオセグメントを確定するようにするステップと、
前記サンプルビデオセグメントに対応するセグメント内部パラメータ及びセグメント外部パラメータを確定するステップと、
前記セグメント内部パラメータ及び前記セグメント外部パラメータに基づいて、前記トレーニング対象のコンテンツスコアリングモデルをトレーニングして、トレーニング済みコンテンツスコアリングモデルを得るステップと、
によってトレーニングされて得る請求項２２に記載のビデオを処理するための装置。
前記ポスター特定ユニットは、さらに、
前記ターゲットビデオにおいてビデオ黒帯が現れた黒帯付きビデオフレームを確定し、
前記ターゲットビデオにおいて前記黒帯付きビデオフレームを除くその他のビデオフレーム及び前記予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するように構成される請求項２５に記載のビデオを処理するための装置。
前記ポスター特定ユニットは、さらに、
前記ターゲットビデオにおいて静止画が現れた静止ビデオフレームを確定し、
前記ターゲットビデオにおいて前記静止ビデオフレームを除くその他のビデオフレーム及び前記予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するように構成される請求項２５に記載のビデオを処理するための装置。
１つ又は複数のコンピューティングユニットと、
１つ又は複数のコンピュータプログラムが格納されている記憶ユニットと、を備え、
前記１つ又は複数のコンピュータプログラムが前記１つ又は複数のコンピューティングユニットによって実行されるとき、前記１つ又は複数のコンピューティングユニットに請求項１～１５のいずれか１項に記載の方法が実行される、ビデオを処理するための電子機器。
請求項１～１５のいずれか１項に記載の方法をコンピュータに実行させるためのコンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体。
コンピューティングユニットにより実行されるとき、請求項１～１５のいずれか１項に記載の方法が実現されるコンピュータプログラム。