JP2021519474A

JP2021519474A - ビデオ処理方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP2021519474A
Application number: JP2020573569A
Authority: JP
Inventors: ▲湯▼▲曉▼▲鴎▼; 邵典; 熊宇; ▲趙▼岳; 黄青▲ちう▼; ▲喬▼宇; 林▲達▼▲華▼
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2018-08-07
Filing date: 2019-08-06
Publication date: 2021-08-10
Anticipated expiration: 2039-08-06
Also published as: CN109089133A; KR102222300B1; WO2020029966A1; JP6916970B2; MY187857A; US11120078B2; CN109089133B; KR20200128165A; US20200394216A1; SG11202008134YA

Abstract

本出願は、ビデオ処理方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、複数のビデオのうちの、クエリテキスト段落に関連する予備選択ビデオを決定することと、予備選択ビデオのビデオフレーム情報及びクエリテキスト段落のセンテンス情報に基づいて、予備選択ビデオのうちのターゲットビデオを決定することとを含む。本出願の実施例のビデオ処理方法によれば、ビデオとクエリテキスト段落との相関性に基づいてビデオを検索し、ターゲットビデオを正確にクエリし、冗長な検出結果を避けることができる。また、自然言語のようなクエリテキスト段落を処理することができ、コンテンツタグの固有コンテンツによる制限を受けることがない。【選択図】図１

Description

（関連出願の相互参照）
本出願は、２０１８年８月７日に中国特許局に提出された出願番号が２０１８１０８９２９９７．４であり、発明名称が「ビデオ処理方法及び装置、電子機器並びに記憶媒体」である中国特許出願に基づく優先権を主張するものであり、該中国特許出願の全ての内容を参照として本出願に援用する。

本出願は、コンピュータ技術分野に関し、特にビデオ処理方法及び装置、電子機器並びに記憶媒体に関する。

関連技術において、センテンスによりビデオライブラリーにおけるビデオをクエリ又は検索する。ビデオライブラリーにおけるビデオにコンテンツタグを予め定義して、タグによりビデオを検索することが一般的である。幾つかのビデオに対して、コンテンツタグの定義が困難であり、且つコンテンツタグが拡張性を有していないため、タグに含まれないビデオコンテンツを検出することができない。また、異なるビデオのコンテンツタグが重複することがあるため、冗長な検索結果を引き起こす可能性がある。従って、コンテンツタグによれば、自然言語のようにコンテンツを処理するのが困難である。

本出願は、ビデオ処理方法及び装置、電子機器並び記憶媒体を提供する。

本出願の一態様によれば、ビデオ処理方法を提供する。該方法は、クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することと、前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することとを含む。

本出願の実施例のビデオ処理方法は、クエリテキスト段落の段落情報及びビデオのビデオ情報に基づいて、予備選択ビデオを決定し、クエリテキスト段落のセンテンス情報及び予備選択ビデオのビデオフレーム情報に基づいてターゲットビデオを決定する。ビデオとクエリテキスト段落との相関性に基づいてビデオを検索し、ターゲットビデオを正確にクエリし、冗長な検出結果を避ける。また、自然言語のようなクエリテキスト段落を処理することができ、コンテンツタグの固有コンテンツによる制限を受けることがない。

本出願のもう１つの態様によれば、ビデオ処理装置を提供する。該装置は、クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定するように構成される予備選択ビデオ決定モジュールと、前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されるターゲットビデオ決定モジュールとを備える。

本出願のもう１つの態様によれば、電子機器を提供する。該電子機器は、プロセッサと、プロセッサによる実行可能な命令を記憶するためのメモリと備え、前記プロセッサは、上記ビデオ処理方法を実行するように構成される。

本出願のもう１つの態様によれば、コンピュータ可読記憶媒体を提供する。該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、上記ビデオ処理方法を実現させる。

上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本出願を限定するものではないことが理解されるべきである。

本発明の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。

本出願の実施例によるビデオ処理方法を示すフローチャートである。本出願の実施例によるビデオ処理方法を示すフローチャートである。本出願の実施例によるビデオ処理方法を示すフローチャートである。本出願の実施例によるビデオ処理方法を示すフローチャートである。本出願の実施例によるビデオ処理方法の適用を示す概略図である。本出願の実施例によるビデオ処理装置を示すブロック図である。本出願の実施例による電子機器を示すブロック図である。本出願の実施例による電子機器を示すブロック図である。

ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本発明に適合する実施例を示し、かつ、明細書とともに本出願の技術的解決手段を解釈することに用いられる。

以下、図面を参照しながら本出願の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。図面は、実施例の種々の態様を示しているが、特別な説明がない限り、必ずしも比率どおりの図面ではない。

ここで使用した「例示的」という用語は「例、実施例として用いられるか、または説明のためのものである」ことを意味する。ここで、「例示的なもの」として説明される如何なる実施例は、他の実施例より好適または有利であると必ずしも解釈されるべきではない。

本明細書において、用語「及び／又は」は、関連対象の関連関係を説明するためのものであり、３通りの関係が存在することを表す。例えば、Ａ及び／又はＢは、Ａのみが存在すること、ＡとＢが同時に存在すること、Ｂのみが存在するという３つの場合を表す。また、本明細書において、用語「少なくとも１つ」は、複数のうちのいずれか１つ又は複数のうちの少なくとも２つの任意の組み合わせを表す。例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣからなる集合から選ばれるいずれか１つ又は複数の要素を含むことを表す。

なお、本出願をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本開示は同様に実施可能であると理解すべきである。本発明の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。

図１は、本出願の実施例によるビデオ処理方法を示すフローチャートである。図１に示すように、ビデオ処理方法は以下を含む。

ステップＳ１１において、クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定する。

ステップＳ１２において、予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、予備選択ビデオのうちのターゲットビデオを決定する。

可能な実現形態において、ビデオ処理方法は、端末装置やサーバ又は他の処理装置により実行されてもよい。ここで、端末装置は、ユーザ装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ：ＵＥ）、携帯機器、ユーザ端末、端末、セルラ電話、コードレス電話、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ：ＰＤＡ）、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。幾つかの可能な実現形態において、該ビデオ処理方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。データベースにおけるビデオを検索又はクエリする時、クエリテキスト段落を入力することができる。クエリテキスト段落には、１つ又は複数のセンテンスが含まれる。データベースにおいて、クエリテキスト段落で記述されたコンテンツに最も近似したビデオをクエリすることができる。

可能な実現形態において、センテンス情報は、クエリテキスト段落の１つ又は複数のセンテンスの第１特徴情報を含む。段落情報は、クエリテキスト段落の第２特徴情報を含む。ビデオフレーム情報は、ビデオの複数のビデオフレームの第４特徴情報を含む。ビデオ情報は、ビデオの第３特徴情報を含む。

可能な実現形態において、クエリテキスト段落における１つ又は複数のセンテンスの第１特徴情報を取得し、クエリテキスト段落の第２特徴情報を決定することができる。ここで、センテンスの第１特徴情報は、センテンスのセマンティクスを表す特徴ベクトルであってもよく、前記方法は、クエリテキスト段落の１つ又は複数のセンテンスに対してそれぞれ特徴抽出処理を行い、１つ又は複数のセンテンスの第１特徴情報を取得することと、クエリテキスト段落における１つ又は複数のセンテンスの第１特徴情報に基づいて、クエリテキスト段落の第２特徴情報を決定することとを含む。

可能な実現形態において、セマンティクス認識等の方法により、１つ又は複数のセンテンスのコンテンツに対して特徴抽出を行い、１つ又は複数のセンテンスの第１特徴情報を取得することができる。例えば、，ニューラルネットワークにより、１つ又は複数のセンテンスのコンテンツに対してセマンティクス認識を行い、１つ又は複数のセンテンスのコンテンツに対して特徴抽出を行い、１つ又は複数のセンテンスの第１特徴情報を取得することができる。本出願は、１つ又は複数のセンテンスのコンテンツの特徴抽出方法を限定するものではない。

可能な実現形態において、第１特徴情報は、センテンスのセマンティクスを表す特徴ベクトルであってもよい。クエリテキスト段落における１つ又は複数のセンテンスの第１特徴情報をフュージョンし、クエリテキスト段落の第２特徴情報を取得することができる。第２特徴情報は、クエリテキスト段落のセマンティクスを表す特徴ベクトルであってもよい。例において、第１特徴情報は、センテンスのセマンティクスを表す特徴ベクトルである。１つ又は複数のセンテンスの第１特徴情報に対して、加算処理、平均化処理又は他の処理を行い、クエリテキスト段落の第２特徴情報を取得することができる。例えば、クエリテキスト段落にＭ個のセンテンスが含まれ、Ｍ個のセンテンスの第１特徴情報がそれぞれｓ_１，ｓ_２，…，ｓ_Ｍであり、ｓ_１，ｓ_２，…，ｓ_Ｍに対して加算処理、平均化処理又は他の処理を行い、クエリテキスト段落の第２特徴情報Ｐとなるようにフュージョンする。第２特徴情報Ｐは、次元がｓ_１，ｓ_２，…，ｓ_Ｍの次元と同じである特徴ベクトルである。本出願は、クエリテキスト段落の第２特徴情報の取得方法を限定するものではない。

このような形態によれば、クエリテキスト段落における各センテンスの第１特徴情報を抽出することで、クエリテキスト段落の第２特徴情報を取得することができ、第２特徴情報により、クエリテキスト段落のセマンティクスを正確に表すことができる。

可能な実現形態において、ビデオの各ビデオフレームの第４特徴情報を取得し、第４特徴情報に基づいてビデオの第３特徴情報を取得することができる。前記方法は、複数のビデオのうちのいずれか１つである第２ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、第２ビデオの複数のビデオフレームの第４特徴情報を取得することと、第２ビデオの複数のビデオフレームの第４特徴情報に基づいて、第２ビデオの第３特徴情報を決定することとを更に含む。

可能な実現形態において、第２ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、第２ビデオの複数のビデオフレームの第４特徴情報を取得することができる。例において、第２ビデオにおける各ビデオフレームに対してい特徴抽出処理を行ってもよいし、所定のフレーム数おきに１つのビデオフレームを選択して特徴抽出処理を行ってもよい。例において、５つのビデオフレームおきに（つまり、６つのビデオフレーム毎に）１つのビデオフレームを選択して特徴抽出処理を行うことができる（つまり、６つのビデオフレームから選択された１つのビデオフレームの特徴情報を第４特徴情報として決定する）。又は、該６つのビデオフレームの特徴情報をフュージョン処理し（例えば、加算処理、平均化処理又は他の処理を行い、つまり、６つのビデオフレームの特徴情報を１つにフュージョンし、６つのビデオフレームの特徴情報をフュージョンして得られた特徴情報を第４特徴情報と決定する）、第２ビデオの各ビデオフレームの特徴情報をそれぞれ抽出して第４特徴情報とすることもできる。例において、第４特徴情報は、ビデオフレームにおける特徴情報を表す特徴ベクトルであってもよい。例えば、第４特徴情報は、ビデオフレームにおける人物、衣類の色、動作及びシーンなどの特徴情報を表すことができる。畳み込みニューラルネットワークにより、ビデオフレームに対して特徴抽出処理を行うことができる。本出願は、ビデオフレームにおける特徴情報の抽出方法を限定するものではない。

可能な実現形態において、第２ビデオの複数のビデオフレームの第４特徴情報をフュージョンし、第２ビデオの第３特徴情報を取得することができる。例において、第４特徴情報は、ビデオフレームにおける特徴情報を表す特徴ベクトルである。複数の第４特徴情報に対して、加算処理、平均化処理又は他の処理を行い、第２ビデオの第３特徴情報を取得することができる。第３特徴情報は、第２ビデオの特徴情報を表す特徴ベクトルであってもよい。例えば、第２ビデオの複数のビデオフレームにおいて、Ｔ（Ｔが正整数である）個のビデオフレームの第４特徴情報ｆ_１，ｆ_２，…，ｆ_Ｔを取得する。ｆ_１，ｆ_２，…，ｆ_Ｔに対して、加算処理、平均化処理又は他の処理を行い、第２ビデオの第３特徴情報Ｖ_ｉとなるようにフュージョンすることができる。１≦ｉ≦Ｎであり、Ｎは、ビデオライブラリーにおけるビデオ数である。本出願は、第３特徴情報の取得方法を限定するものではない。

可能な実現形態において、ステップＳ１１を実行する前に、ビデオライブラリーにおける全てのビデオに対して予め特徴抽出を行い、ビデオライブラリーにおける全てのビデオの第３特徴情報及び第４特徴情報を取得することができる。ビデオライブラリーに新たなビデオが追加された場合、新たなビデオに対して特徴抽出を行い、新たなビデオの第３特徴情報及び第４特徴情報を取得することができる。

このような形態によれば、第２ビデオにおけるビデオフレームの第４特徴情報を抽出することで、第２ビデオの第３特徴情報を取得し、第３特徴情報により、第２ビデオの特徴情報を正確に表すことができる。

図２は、本出願の実施例によるビデオ処理方法を示すフローチャートである。図２に示すように、ステップＳ１１は以下を含む。

ステップＳ１１１において、クエリテキスト段落の第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、複数のビデオのうちの、クエリテキスト段落に関連する予備選択ビデオを決定する。

可能な実現形態において、第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、複数のビデオのうちの、クエリテキスト段落に関連する予備選択ビデオを決定することは、第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、クエリテキスト段落と複数のビデオとの第１相関性スコアをそれぞれ決定することと、第１相関性スコアに基づいて、複数のビデオのうちの予備選択ビデオを決定することとを含む。

可能な実現形態において、第２特徴情報は、クエリテキスト段落のセマンティクスを表す特徴ベクトルであってもよい。第３特徴情報は、第２ビデオの特徴情報を表す特徴ベクトルであってもよい。第２特徴情報と第３特徴情報とは、次元が異なってもよい。つまり、第２特徴情報と第３特徴情報は、同一次元のベクトル空間に位置しなくてもよい。従って、第２特徴情報及び第３特徴情報を処理し、処理された第２特徴情報及び第３特徴情報を同一次元のベクトル空間に位置させることができる。

可能な実現形態において、第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、クエリテキスト段落と複数のビデオとの第１相関性スコアをそれぞれ決定することは、複数のビデオのうちのいずれか１つである第１ビデオの第３特徴情報及び第２特徴情報を同一次元のベクトル空間にマッピングし、第１ビデオの第３特徴ベクトル及びクエリテキスト段落の第２特徴ベクトルを取得することと、第２特徴ベクトルと第３特徴ベクトルとのコサイン類似度をクエリテキスト段落と第１ビデオとの第１相関性スコアとして決定することとを含む。

このような態様によれば、第２特徴ベクトルと第３特徴ベクトルとのコサイン類似度をクエリテキスト段落と第１ビデオとの第１相関性スコアとして決定することで、クエリテキスト段落のセマンティクスコンテンツと第１ビデオの特徴情報との相関性を正確に決定することができる。

可能な実現形態において、マッピング形態により、第１ビデオの第３特徴情報及び第２特徴情報を同一次元のベクトル空間にマッピングすることができる。例において、第１ビデオの第３特徴情報は特徴ベクトルＶ_ｊであり、１≦ｊ≦Ｎである。クエリテキスト段落の第２特徴情報は特徴ベクトルＰであり、ＰとＶ_ｊとは、次元が異なる。マッピング形態により、Ｐ及びＶ_ｊを同一次元のベクトル空間にマッピングし、第１ビデオの第３特徴ベクトル

及びクエリテキスト段落の第２特徴ベクトル

を取得することができる。

可能な実現形態において、ニューラルネットワークを利用して第３特徴情報及び第２特徴情報を同一次元のベクトル空間にマッピングすることができる。例において、第１ビデオの第３特徴情報及び第２特徴情報を同一次元のベクトル空間にマッピングし、第１ビデオの第３特徴ベクトル及びクエリテキスト段落の第２特徴ベクトルを取得することは、第１ニューラルネットワークを利用して第３特徴情報を第３特徴ベクトルとなるようにマッピングし、第２ニューラルネットワークを利用して第２特徴情報を第２特徴ベクトルとなるようにマッピングすることを含む。

例において、第１ニューラルネットワーク及び第２ニューラルネットワークは、逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ：ＢＰ）ニューラルネットワーク、畳み込みニューラルネットワーク又は再帰型ニューラルネットワークなどであってもよい。本出願は、第１ニューラルネットワーク及び第２ニューラルネットワークのタイプを限定するものではない。例えば、第３特徴情報Ｖ_ｊの次元が１０であり、第２特徴情報Ｐの次元が６である。１つの同一次元のベクトル空間を決定する。例えば、ベクトル空間の次元が８である。第１ニューラルネットワーク

を利用して１０次元の第３特徴情報Ｖ_ｊを８次元のベクトル空間にマッピングし、８次元の第３特徴ベクトル

を取得し、第２ニューラルネットワーク

を利用して６次元の第２特徴情報Ｐを８次元のベクトル空間にマッピングし、８次元の第２特徴ベクトル

を取得することができる。本出願は、次元数を限定するものではない。

可能な実現形態において、第２特徴ベクトル

と第三特徴ベクトル

とのコサイン類似度を決定し、

とのコサイン類似度をクエリテキスト段落と第１ビデオとの第１相関性スコアＳｔ（Ｖ、Ｐ）と決定することができる。

可能な実現形態において、第１ニューラルネットワーク

を利用してビデオライブラリーにおける各ビデオの第３特徴情報Ｖ_１，Ｖ_２，…，Ｖ_Ｎをマッピングし、ビデオライブラリーにおける全てのビデオの第３特徴ベクトル

を得て、第２特徴ベクトル

と全てのビデオの第３特徴ベクトル

とのコサイン類似度をそれぞれ決定し、クエリテキスト段落と各ビデオとの第１相関性スコアとする。第１相関性スコアに基づいて、複数のビデオのうちの予備選択ビデオを決定することができる。例えば、第１相関性スコアがスコア閾値より高いビデオを予備選択ビデオとして選択することができる。又は、複数のビデオを第１相関性スコアに応じて順序付け、ビデオ配列内の所定の数のビデオを予備選択ビデオとして選択することができる。本出願は、予備選択の選択形態及び選択数を限定するものではない。

このような態様によれば、第２特徴情報及び第３特徴情報により、クエリテキスト段落とビデオとの第１相関性スコアを決定し、第１相関性スコアに基づいて、予備選択ビデオを選択し、予備選択ビデオの選択の正確度を向上させることができる。また、予備選択ビデオを選択してから、ビデオライブラリーにおける全てのビデオを処理する必要がなく、予備選択ビデオのみに対して処理を行い、演算のオーバヘッドを削減し、処理効率を向上させる。

可能な実現形態において、第１ニューラルネットワーク及び第２ニューラルネットワークを利用してマッピング処理を行う前に、第１ニューラルネットワーク及び第２ニューラルネットワークをトレーニングすることができる。前記方法は、サンプルビデオの第３サンプル特徴情報及びサンプルテキスト段落の第２サンプル特徴情報に基づいて、第１ニューラルネットワーク及び第２ニューラルネットワークをトレーニングすることを更に含む。

可能な実現形態において、ビデオライブラリーにおけるビデオをサンプルビデオとして用いてもよいし、他のビデオライブラリーにおけるビデオをサンプルビデオとして用いてもよい。本出願は、サンプルビデオを限定するものではない。サンプルビデオのビデオフレームの第４サンプル特徴情報を抽出し、第４サンプル特徴情報に基づいて、サンプルビデオの第３サンプル特徴情報を決定することができる。

可能な実現形態において、任意のクエリテキスト段落を入力してサンプルテキスト段落とすることができる。サンプルテキスト段落は、１つ又は複数のセンテンスを含んでもよい。トレーニングセンテンスの第１サンプル特徴情報を抽出し、第１サンプル特徴情報に基づいてサンプルテキスト段落の第２サンプル特徴情報を決定することができる。サンプルビデオにおいて、サンプルテキスト段落に対応するビデオが存在する。つまり、コンテンツがサンプルテキスト段落のコンテンツと一致するサンプルビデオが存在する。

可能な実現形態において、複数のサンプルビデオの第３サンプル特徴情報を第１ニューラルネットワークに入力してマッピングし、第３サンプル特徴ベクトルを得ることができる。サンプルテキスト段落の第２サンプル特徴情報を第２ニューラルネットワークに入力し、第２サンプル特徴ベクトルを得ることができる。

可能な実現形態において、第２サンプル特徴ベクトルと各第３サンプル特徴ベクトルとのコサイン類似度をそれぞれ決定し、コサイン類似度に基づいて第１総合ネットワーク損失を決定することができる。例において、下記式（１）により、第１総合ネットワーク損失を決定することができ、

ただし、

は、第１総合ネットワーク損失であり、

は、ａ番目のサンプルテキスト段落の第２サンプル特徴ベクトルとｂ番目のサンプルビデオの第３サンプル特徴ベクトルとのコサイン類似度である。ただし、

は、ａ番目のサンプルテキスト段落に対応するサンプルビデオの第３サンプル特徴情報であり、

は、ａ番目のサンプルテキスト段落の第２サンプル特徴ベクトルと、対応するサンプルビデオの第３サンプル特徴ベクトルとのコサイン類似度である。ａ及びｂはいずれも正整数である。

は、設定された定数であり、例において、

は、０．２としてもよい。

可能な実現形態において、第１総合ネットワーク損失を利用して第１ニューラルネットワーク及び第２ニューラルネットワークのネットワークパラメータを調整することができる。例において、第１総合ネットワーク損失を最小化させるように、第１ニューラルネットワーク及び第２ニューラルネットワークのネットワークパラメータを調整し、調整された第１ニューラルネットワーク及び第２ニューラルネットワークに、良いフィッティング度合いを持たせると共に、過剰フィッティングを避ける。本出願は、第１ニューラルネットワーク及び第２ニューラルネットワークのネットワークパラメータの調整方法を限定するものではない。

可能な実現形態において、第１ニューラルネットワーク及び第２ニューラルネットワークのネットワークパラメータを調整するステップを繰り返して実行することができ、第１総合ネットワーク損失を低下又は収束させるように、第１ニューラルネットワーク及び第２ニューラルネットワークのネットワークパラメータを逐次的に調整する。例において、サンプルテキスト段落を所定の回数で入力し、つまり、所定の回数繰り返して実行する。例において、繰り返して実行する回数を限定しなくてもよい。第１総合ネットワーク損失が一定程度まで低減したか又は所定の閾値内に収束した時、繰り返しを中止し、繰り返して調整された第１ニューラルネットワーク及び第２ニューラルネットワークを得る。繰り返して調整された第１ニューラルネットワーク及び第２ニューラルネットワークを、第１ビデオの第３特徴情報及びクエリテキスト段落の第２特徴情報のマッピングプロセスに用いることができる。

図３は、本出願の実施例によるビデオ処理方法を示すフローチャートである。図３に示すように、ステップＳ１２は以下を含む。

ステップＳ１２１において、クエリテキスト段落の１つ又は複数のセンテンスの第１特徴情報及び予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、予備選択ビデオのうちのターゲットビデオを決定する。

可能な実現形態において、１つ又は複数のセンテンスの第１特徴情報及び予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、クエリテキスト段落と予備選択ビデオのうちのビデオとの相関性を更に決定することができる。

可能な実現形態において、１つ又は複数のセンテンスの第１特徴情報及び予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、予備選択ビデオのうちのターゲットビデオを決定することは、１つ又は複数のセンテンスの第１特徴情報及び予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、クエリテキスト段落と予備選択ビデオとの第２相関性スコアを決定することと、第１相関性スコア及び第２相関性スコアに基づいて、予備選択ビデオのうちのターゲットビデオを決定することとを含む。

可能な実現形態において、１つ又は複数のセンテンスの第１特徴情報及び予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、クエリテキスト段落と予備選択ビデオとの第２相関性スコアを決定することは、予備選択ビデオのうちのいずれか１つであるターゲット予備選択ビデオの複数のビデオフレームの第４特徴情報及び１つ又は複数のセンテンスの第１特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第４特徴ベクトル及び１つ又は複数のセンテンスの第１特徴ベクトルをそれぞれ得ることと、第４特徴ベクトルのうちの、ターゲットセンテンスの第１特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定することであって、ターゲットセンテンスが、１つ又は複数のセンテンスのうちのいずれか１つであることと、ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得ることと、ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第５特徴ベクトルを決定することと、１つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第５特徴ベクトル及び１つ又は複数のセンテンスの第１特徴ベクトルに基づいて、クエリテキスト段落とターゲット予備選択ビデオとの第２相関性スコアを決定することとを含む。

このような形態によれば、ターゲット予備選択ビデオの複数のビデオフレームの第４特徴ベクトル及び１つ又は複数のセンテンスの第１特徴ベクトルに基づいてクエリテキスト段落とターゲット予備選択ビデオとの第２相関性スコアを決定し、クエリテキスト段落のセマンティクスコンテンツとターゲット予備選択ビデオとの相関性を正確に決定することができる。

可能な実現形態において、ターゲット予備選択ビデオの複数のビデオフレームの第４特徴情報の次元は、１つ又は複数のセンテンスの第１特徴情報の次元と異なる。マッピング形態により、第４特徴情報及び第１特徴情報を同一次元のベクトル空間にマッピングすることができる。例において、ターゲット予備選択ビデオの複数のビデオフレームの第４特徴情報は、特徴ベクトルｆ_１，ｆ_２，…，ｆ_Ｋ（Ｋは、ターゲット予備選択ビデオのビデオフレームの数であり、Ｋは正整数である）であってもよく、１つ又は複数のセンテンスの第１特徴情報は、特徴ベクトルｓ_１，ｓ_２，…，ｓ_Ｍ（Ｍは、クエリテキスト段落のセンテンスの数であり、Ｍは正整数である）であってもよい。マッピング形態により、ｆ_１，ｆ_２，…，ｆ_Ｋ及びｓ_１，ｓ_２，…，ｓ_Ｍを同一次元のベクトル空間にマッピングし、第４特徴ベクトル

及び第１特徴ベクトル

を得ることができる。

可能な実現形態において、ニューラルネットワークを利用して第４特徴情報及び第１特徴情報を同一次元のベクトル空間にマッピングすることができる。例において、ターゲット予備選択ビデオの複数のビデオフレームの第４特徴情報及び１つ又は複数のセンテンスの第１特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第４特徴ベクトル及び１つ又は複数のセンテンスの第１特徴ベクトルをそれぞれ得ることは、第３ニューラルネットワークを利用して第４特徴情報を第４特徴ベクトルとなるようにマッピングし、第４ニューラルネットワークを利用して第１特徴情報を第１特徴ベクトルとなるようにマッピングすることを含む。

例において、第３ニューラルネットワーク及び第４ニューラルネットワークは、ＢＰニューラルネットワーク、畳み込みニューラルネットワーク又は再帰型ニューラルネットワーク等でってもよい。本出願は、第３ニューラルネットワーク及び第４ニューラルネットワークのタイプを限定するものではない。例えば、第４特徴情報ｆ_１，ｆ_２，…，ｆ_Ｋの次元が１０であり、第１特徴情報ｓ_１，ｓ_２，…，ｓ_Ｍの次元が６である。同一次元のベクトル空間を決定する。例えば、ベクトル空間の次元が８である。第３ニューラルネットワーク

を利用して１０次元の第４特徴情報ｆ_１，ｆ_２，…，ｆ_Ｋを８次元のベクトル空間にマッピングし、８次元の第４特徴ベクトル

を得て、第４ニューラルネットワーク

を利用して６次元の第１特徴情報ｓ_１，ｓ_２，…，ｓ_Ｍを８次元のベクトル空間にマッピングし、８次元の第１特徴ベクトル

を得ることができる。本出願は、次元数を限定するものではない。

可能な実現形態において、第４特徴ベクトルのうちの、ターゲットセンテンスの第１特徴ベクトルとのコサイン類似度が類似度閾値以上である目標特徴ベクトルを決定することができる。例において、１つ又は複数のセンテンスからいずれか１つのセンテンスを選択してターゲットセンテンスとし（例えば、ｙ番目のセンテンスを選択してターゲットセンテンスとし、１≦ｙ≦Ｋである）、ターゲット予備選択ビデオの複数の第４特徴ベクトル

と、ターゲットセンテンスの第１特徴ベクトルｓ_ｙとのコサイン類似度をそれぞれ算出し、複数の第４特徴ベクトル

において、第１特徴ベクトルｓ_ｙとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定する。例えば、

であり、ただし、１≦ｈ≦Ｋ、１≦ｕ≦Ｋ、１≦ｑ≦Ｋである。類似度閾値は、０．５などのような事前設定された閾値であってもよい。本出願は、類似度閾値を限定するものではない。

可能な実現形態において、ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得ることができる。例において、第４特徴情報は、ターゲット予備選択ビデオにおいて、５つのビデオフレームおきに（つまり、６つのビデオフレーム毎に）１つのビデオフレームを選択して特徴抽出処理を行うことで得られた特徴ベクトルであってもよい。第四特徴ベクトルは、第４特徴情報をマッピングすることで得られた特徴ベクトルである。各第４特徴ベクトルに対応するビデオフレームは、第４特徴情報抽出に用いられるビデオフレーム及び該ビデオフレームの前又は後の５つのビデオフレームであってもよい。全てのターゲット特徴ベクトルに対応するビデオフレームを合成してビデオクリップを得ることができる。該ビデオクリップは、ターゲットセンテンスに対応するビデオクリップである。例えば、

に対応するビデオフレームを合成し、ターゲットセンテンスに対応するビデオクリップを得る。本出願は、ターゲット特徴ベクトルに対応するビデオフレームを限定するものではない。

可能な実現形態において、ターゲット予備選択ビデオにおいて、各センテンスの特徴ベクトルに対応するビデオクリップを決定し、各センテンスの特徴ベクトルにそれぞれ対応するビデオクリップに含まれるビデオフレームのタイムスタンプ又はフレーム番号などの情報に基づいて、ターゲット予備選択ビデオにおける各センテンスのセマンティクスコンテンツの位置を決定することができる。

可能な実現形態において、ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第５特徴ベクトルを決定する。例において、ターゲット特徴ベクトル

に対して加算処理、平均化処理又は他の処理を行い、第５特徴ベクトルｇ_ｙとなるようにフュージョンすることができる。例において、ターゲットセンテンスは、複数の対応するビデオクリップを有してもよい。例えば、ターゲット特徴ベクトルは、

であってもよい。ただし、

は、隣接するターゲット特徴ベクトルであり、

は、隣接するターゲット目標特徴ベクトルであり、

は、隣接するターゲット特徴ベクトルである。

を第５特徴ベクトルｇ_ｙ１となるようにフュージョンし、

を第５特徴ベクトルｇ_ｙ２となるようにフュージョンし、

を第５特徴ベクトルｇ_ｙ３となるようにフュージョンすることができる。つまり、各センテンスは、１つ又は複数の第５特徴ベクトルに対応してもよい。例において、各第五特徴ベクトルは、１つのセンテンスに対応してもよい。

可能な実現形態において、１つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第５特徴ベクトル及び１つ又は複数のセンテンスの第１特徴ベクトルに基づいて、クエリテキスト段落とターゲット予備選択ビデオとの相関性スコアを決定することができる。例において、複数のセンテンスの第１特徴ベクトルは

であり、Ｍは正整数である。複数のビデオクリップの第５特徴ベクトルはｇ_１，ｇ_２， …，ｇ_Ｗ，であり、Ｗは正整数である。ここで、第１特徴ベクトル

に対応する第５特徴ベクトルはｇ_１，ｇ_２， …，ｇ_Ｏ（Ｏは、第１特徴ベクトル

に対応する第５特徴ベクトルの数であり、ＯはＷ未満の正整数である）であり、

に対応する第５特徴ベクトルはｇ_Ｏ＋１，ｇ_Ｏ＋２， …，ｇ_Ｖ（Ｖは、第１特徴ベクトル

に対応する第５特徴ベクトルの数であり、Ｖは、Ｗ未満であって且つ０を超える正整数である）であり、

に対応する第５特徴ベクトルはｇ_Ｚ，ｇ_Ｚ＋１， …，ｇ_Ｗ（Ｚは、第１特徴ベクトル

に対応する第５特徴ベクトルの数であり、ＶはＷ未満であって且つＯを超える正整数である）である。

可能な実現形態において、下記式（２）により、クエリテキスト段落とターゲット予備選択ビデオとの第２相関性スコアを決定することができ、

ただし、

は、ｉ番目のセンテンスがｊ番目のビデオクリップに対応しているかを表す。ｊ番目のビデオクリップの第５特徴ベクトルがｉ番目のセンテンスの第１特徴ベクトルに対応する第５特徴ベクトルである時、

であり、そうでなければ、

である。例において、ｉ番目のセンテンスとｊ番目のビデオが２枚の画像において一致するかを判定することができる。ｉ番目のセンテンスとｊ番目のビデオが２枚の画像において一致すると、

であり、そうでなければ、

である。例において、ｉ番目のセンテンスの場合、

である。つまり、ターゲット予備選択ビデオにおいて、１つセンテンスは、最大

個の対応するビデオクリップを有する。ただし、

は、所定のビデオクリップの数であり、

である。例において、ｊ番目のビデオクリップの場合、

である。つまり、ターゲット予備選択ビデオにおいて、各ビデオクリップは、１つの対応するセンテンスのみを有する。

は、ｉ番目のセンテンスの第１特徴ベクトルと、ｊ番目のビデオクリップの第５特徴ベクトルとのコサイン類似度である。

は、クエリテキスト段落とターゲット予備選択ビデオとの第２相関性スコアである。

可能な実現形態において、クエリテキスト段落とターゲット予備選択ビデオとの第１相関性スコア

、及びクエリテキスト段落とターゲット予備選択ビデオとの第２相関性スコア

に基づいて、クエリテキスト段落とターゲット予備選択ビデオとの第３相関性スコア

を決定することができ、クエリテキスト段落と各予備選択ビデオとの第３相関性スコアを決定することができる。例において、第１相関性スコアと第２相関性スコアとの積を第３相関性スコアとして決定する。第３相関性スコアに基づいて、予備選択ビデオにおいて、ターゲットビデオを決定する。クエリテキスト段落と各予備選択ビデオとの第３相関性スコアに基づいて予備選択ビデオを順序付け、順序付けされたビデオ配列内の所定の数のビデオを選択する。又は、第３相関性スコアがスコア閾値以上であるビデオを選択する。本出願は、ターゲットビデオの選択方法を限定するものではない。

可能な実現形態において、第３ニューラルネットワーク及び第４ニューラルネットワークを利用してマッピング処理を行う前に、第３ニューラルネットワーク及び第４ニューラルネットワークをトレーニングすることができる。前記方法は、サンプルビデオにおける複数のビデオフレームの第４サンプル特徴情報及びサンプルテキスト段落の１つ又は複数のセンテンスの第１サンプル特徴情報に基づいて、第３ニューラルネットワーク及び第４ニューラルネットワークをトレーニングすることを更に含む。

可能な実現形態において、ビデオライブラリーにおけるビデオをサンプルビデオとして用いてもよいし、他のビデオライブラリーにおけるビデオをサンプルビデオとして用いてもよい。本出願は、サンプルビデオを限定するものではない。サンプルビデオのビデオフレームの第４サンプル特徴情報を抽出する。任意のクエリテキスト段落を入力してサンプルテキスト段落とすることがｄけいる。サンプルテキスト段落は１つ又は複数のセンテンスを含んでもよく。トレーニングセンテンス的の第１サンプル特徴情報を抽出することができる。

可能な実現形態において、サンプルビデオの複数のビデオフレームの第４サンプル特徴情報を第３ニューラルネットワークに入力し、第４サンプル特徴ベクトルを得ることができる。サンプルテキスト段落の１つ又は複数のセンテンスの第１サンプル特徴情報を第４ニューラルネットワークに入力し、第１サンプル特徴ベクトルを得ることができる。

可能な実現形態において、第４サンプル特徴ベクトルにおいて、第１ターゲットサンプル特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲットサンプル特徴ベクトルを決定することができる。ここで、第１ターゲットサンプル特徴ベクトルは、第１サンプル特徴ベクトルのうちのいずれか１つである。更に、ターゲットサンプル特徴ベクトルを第１ターゲットサンプル特徴ベクトルに対応する第５サンプル特徴ベクトルとなるようにフュージョンすることができる。例において、各第１サンプル特徴ベクトルに対応する第５サンプル特徴ベクトルをそれぞれ決定することができる。

可能な実現形態において、各第５サンプル特徴ベクトルと第１サンプル特徴ベクトルとのコサイン類似度をそれぞれ決定し、コサイン類似度に基づいて第２総合ネットワーク損失を決定することができる。例において、下記式（３）により第２総合ネットワーク損失を決定することができ、

ただし、

は、第２総合ネットワーク損失であり、

は、第１ターゲットサンプル特徴ベクトルであり、

は、ｄ番目の第５サンプル特徴ベクトルであり、

は、第１ターゲットサンプル特徴ベクトルに対応する第５サンプル特徴ベクトルであり、

のコサイン類似度であり、

のコサイン類似度である。

は、設定された定数であり、例において、

は、０．１としてもよい。

可能な実現形態において、第２総合ネットワーク損失を利用して第３ニューラルネットワーク及び第４ニューラルネットワークのネットワークパラメータを調整することができる。例において、第２総合ネットワーク損失を最小化させるように、第３ニューラルネットワーク及び第４ニューラルネットワークのネットワークパラメータを調整し、調整された第３ニューラルネットワーク及び第４ニューラルネットワークに、良いフィッティング度合いを持たせると共に、過剰フィッティングを避ける。本出願は、第３ニューラルネットワーク及び第４ニューラルネットワークのネットワークパラメータの調整方法を限定するものではない。

可能な実現形態において、第３ニューラルネットワーク及び第４ニューラルネットワークのネットワークパラメータを調整するステップを繰り返して実行し、第２総合ネットワーク損失を低下又は収束させるように、第３ニューラルネットワーク及び第４ニューラルネットワークのネットワークパラメータを逐次的に調整する。例において、サンプルテキスト段落又はサンプルビデオを所定の回数で入力し、つまり、所定の回数繰り返して実行する。例において、繰り返して実行する回数を限定しなくてもよい。第２総合ネットワーク損失が一定程度まで低下するか又は所定の閾値内に収束した時、繰り返しを中止し、繰り返して調整された第３ニューラルネットワーク及び第４ニューラルネットワークを得る。繰り返して調整された第３ニューラルネットワーク及び第４ニューラルネットワークを、ターゲット予備選択ビデオの複数のビデオフレームの第４特徴情報及び１つ又は複数のセンテンスの第１特徴情報のマッピングプロセスに用いることができる。

図４は、本出願の実施例によるビデオ処理方法を示すフローチャートである。要するに、ステップＳ１１１において、クエリテキスト段落の第２特徴情報及び第３特徴情報に基づいて、予備選択ビデオを決定し、ステップＳ１２１において、クエリテキスト段落の１つ又は複数のセンテンスの第１特徴情報及び第４特徴情報に基づいて、予備選択ビデオからターゲットビデオを決定することができる。上記ビデオ処理方法の具体的な処理形態は上記実施例を参照されたい。ここで、詳しく説明しないようにする。

図５は、本出願の実施例によるビデオ処理方法の適用を示す概略図である。図５に示すように、ビデオライブラリーには、Ｎ個のビデオが含まれる。各ビデオの複数のビデオフレームの第４特徴情報を取得し、第４特徴情報に基づいて各ビデオの第３特徴情報を得ることができる。

可能な実現形態において、クエリテキスト段落を入力する。クエリテキスト段落には、１つ又は複数のセンテンスが含まれる。各センテンスの第１特徴情報を抽出し、第１特徴情報に基づいて、クエリテキスト段落の第２特徴情報を決定する。

可能な実現形態において、第３特徴情報と第２特徴情報とは、次元が異なってもよい。第１ニューラルネットワークにより、第３特徴情報を第３特徴ベクトルとなるようにマッピングし、第２ニューラルネットワークにより、第２特徴情報を第２特徴ベクトルとなるようにマッピングする。第３特徴ベクトルと第２特徴ベクトルは、同一次元のベクトル空間に位置する。クエリテキスト段落の第２特徴ベクトルと各ビデオの第３特徴ベクトルとのコサイン類似度を決定し、コサイン類似度をクエリテキスト段落と各ビデオとの第１相関性スコアとして決定することができる。第１相関性スコアに基づいて、ビデオライブラリーにおけるビデオを順序付けすることができる。例えば、図６における左側のビデオライブラリーのように、第１相関性スコアに基づいて、ビデオライブラリーにおけるビデオを順序付けすることで得られたビデオ配列は、ビデオ１、ビデオ２、ビデオ３…ビデオＮである。該ビデオ配列から最初のＥ（１≦Ｅ≦Ｎ）個のビデオを選択して予備選択ビデオとする。

可能な実現形態において、第３ニューラルネットワークを利用して、予備選択ビデオの第４特徴情報を第４特徴ベクトルとなるようにマッピングし、第４ニューラルネットワークを利用して、クエリテキスト段落の１つ又は複数のセンテンスの第１特徴情報を第１特徴ベクトルとなるようにマッピングすることができる。第４特徴ベクトルと第１特徴ベクトルは同一次元のベクトル空間に位置する。ターゲット予備選択ビデオにおいて、ターゲットセンテンスの第１特徴ベクトルとのコサイン類似度が類似度閾値以上である第四特徴ベクトルを決定してターゲット特徴ベクトルとし、ターゲット特徴ベクトルに対応するターゲット予備選択ビデオのビデオフレームを合成してビデオクリップを得ることができ、ターゲット特徴ベクトルを第５特徴ベクトルとなるようにフュージョンすることもできる。式（２）により、クエリテキスト段落とターゲット予備選択ビデオとの第２相関性スコアを決定することができる。更に、クエリテキスト段落と各予備選択ビデオとの第２相関性スコアを決定することができる。

可能な実現形態において、クエリテキスト段落と予備選択ビデオとの第１相関性スコアと、クエリテキスト段落と予備選択ビデオとの第２相関性スコアを乗算し、クエリテキスト段落と予備選択ビデオとの第３相関性スコアを得て、第３相関性スコアに基づいて、Ｅ子の予備選択ビデオに対して順序付けすることができる。例えば、図５における右側のビデオライブラリーのように、第３相関性スコアに基づいてＥ個の予備選択ビデオを順序付けすることで得られたビデオ配列は、ビデオ３、ビデオ５、ビデオ８…である。該順序付けを行ってから、ビデオ３は、第３相関性スコアが最も高いビデオであり、つまり、クエリテキスト段落のセマンティクスコンテンツとの相関性が最も高いビデオである。続いて、ビデオ５、ビデオ８…である。ビデオ３をターゲットビデオとして選択することができ、最初のＸ（Ｘ≦Ｅ）個のビデオをターゲットビデオとして選択することもできる。

本出願の実施例のビデオ処理方法によれば、クエリテキスト段落の第２特徴ベクトルとビデオの第３特徴ベクトルとのコサイン類似度をクエリテキスト段落とビデオとの第１相関性スコアとして決定することで、クエリテキスト段落のセマンティクスコンテンツとビデオの特徴情報との相関性を正確に決定し、予備選択ビデオを正確に選択することができる。予備選択ビデオを選択してから、ビデオライブラリーにおける全てのビデオを処理する必要がなく、予備選択ビデオのみに対して処理を行い、演算のオーバヘッドを削減し、処理効率を向上させる。更に、ターゲット予備選択ビデオの複数のビデオフレームの第４特徴ベクトル及び１つ又は複数のセンテンスの第１特徴ベクトルに基づいて、クエリテキスト段落とターゲット予備選択ビデオとの第２相関性スコアを決定し、第２相関性スコア及び第１相関性スコアに基づいてターゲットビデオを決定することができる。ビデオとクエリテキスト段落との相関性に基づいてビデオを検索することで、ターゲットビデオを正確にクエリすることができ、冗長な検出結果を避ける。また、自然言語のようなクエリテキスト段落を処理することができ、コンテンツタグの固有コンテンツによる制限を受けることがない。

本出願に言及した上記各方法の実施例は、原理や論理から逸脱しない限り、互いに組み合わせることで組み合わせた実施例を構成することができ、紙数に限りがあるため、本出願において逐一説明しないことが理解されるべきである。

なお、本出願は、ビデオ処理装置、電子機器、コンピュータ可読記憶媒体、プログラムを更に提供する。上記はいずれも、本出願で提供されるいずれか１つのビデオ処理方法を実現させるためのものである。対応する技術的解決手段及び説明は、方法に関連する記述を参照されたい。ここで、詳細な説明を省略する。

具体的な実施形態の上記方法において、各ステップの記述順番は、厳しい実行順番として実施過程を限定するものではなく、各ステップの具体的な実行順番はその機能及び考えられる内在的論理により決まることは、同業者であれば理解すべきである。

図６は、本出願の実施例によるビデオ処理装置を示すブロック図である。図６に示すように、前記装置は、
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定するように構成される予備選択ビデオ決定モジュール１１と、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されるターゲットビデオ決定モジュール１２とを備える。

センテンス情報は、クエリテキスト段落の１つ又は複数のセンテンスの第１特徴情報を含み、段落情報は、クエリテキスト段落の第２特徴情報を含み、ビデオフレーム情報は、ビデオの複数のビデオフレームの第４特徴情報を含み、ビデオ情報はビデオの第３特徴情報を含む。

予備選択ビデオ決定モジュールは更に、
第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、複数のビデオのうちの、クエリテキスト段落に関連する予備選択ビデオを決定するように構成される。

可能な実現形態において、前記方法は、
クエリテキスト段落の１つ又は複数のセンテンスに対してそれぞれ特徴抽出処理を行い、１つ又は複数のセンテンスの第１特徴情報を得るように構成されるセンテンス特徴抽出モジュールと、
クエリテキスト段落における１つ又は複数のセンテンスの第１特徴情報に基づいて、クエリテキスト段落の第２特徴情報を決定するように構成される第２決定モジュールとを更に備える。

可能な実現形態において、前記装置は、
複数のビデオのうちのいずれか１つである第２ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、第２ビデオの複数のビデオフレームの第４特徴情報を得るように構成されるビデオ特徴抽出モジュールと、
第２ビデオの複数のビデオフレームの第４特徴情報に基づいて、第２ビデオの第３特徴情報を決定するように構成される第１決定モジュールとを更に備える。

可能な実現形態において、予備選択ビデオ決定モジュールは更に、
第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、クエリテキスト段落と複数のビデオとの第１相関性スコアをそれぞれ決定し、
第１相関性スコアに基づいて、複数のビデオのうちの予備選択ビデオを決定するように構成される。

可能な実現形態において、予備選択ビデオ決定モジュールは更に、
複数のビデオのうちのいずれか１つである第１ビデオの第３特徴情報及び第２特徴情報を同一次元のベクトル空間にマッピングし、第１ビデオの第３特徴ベクトル及びクエリテキスト段落の第２特徴ベクトルを得て、
第２特徴ベクトルと第３特徴ベクトルとのコサイン類似度をクエリテキスト段落と第１ビデオとの第１相関性スコアとして決定するように構成される。

可能な実現形態において、ターゲットビデオ決定モジュールは更に、
１つ又は複数のセンテンスの第１特徴情報及び予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、予備選択ビデオのうちのターゲットビデオを決定するように構成される。

可能な実現形態において、ターゲットビデオ決定モジュールは更に、
１つ又は複数のセンテンスの第１特徴情報及び予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、クエリテキスト段落と予備選択ビデオとの第２相関性スコアを決定し、
第１相関性スコア及び第２相関性スコアに基づいて、予備選択ビデオのうちのターゲットビデオを決定するように構成される。

可能な実現形態において、ターゲットビデオ決定モジュールは更に、
予備選択ビデオのうちのいずれか１つであるターゲット予備選択ビデオの複数のビデオフレームの第４特徴情報及び１つ又は複数のセンテンスの第１特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第４特徴ベクトル及び１つ又は複数のセンテンスの第１特徴ベクトルをそれぞれ得て、
第４特徴ベクトルのうちの、ターゲットセンテンスの第１特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定し、ターゲットセンテンスが、１つ又は複数のセンテンスのうちのいずれか１つであり、
ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得、、
ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第５特徴ベクトルを決定し、
１つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第５特徴ベクトル及び１つ又は複数のセンテンスの第１特徴ベクトルに基づいて、クエリテキスト段落とターゲット予備選択ビデオとの第２相関性スコアを決定するように構成される。

可能な実現形態において、ターゲットビデオ決定モジュールは更に、
第１相関性スコアと第２相関性スコアとの積を第３相関性スコアとして決定し、
第３相関性スコアに基づいて、予備選択ビデオにおいて、ターゲットビデオを決定するように構成される。

幾つかの実施例において、本出願の実施例で提供される装置における機能及びモジュールは、上記方法実施例に記載の方法を実行するために用いられ、具体的な実現形態は上記方法実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。

本出願の実施例はコンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、上記方法を実現させる。コンピュータ可読記憶媒体は不揮発性コンピュータ可読記憶媒体であってもよい。

本出願の実施例は電子機器を更に提供する。該電子機器は、プロセッサと、プロセッサによる実行可能な命令を記憶するためのメモリとを備え、プロセッサは、上記方法を実行するように構成される。

電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。

図７は一例示的な実施例による電子機器８００を示すブロック図である。例えば、電子機器８００は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどの端末であってもよい。

図７を参照すると、電子機器８００は、処理ユニット８０２、メモリ８０４、電源ユニット８０６、マルチメディアユニット８０８、オーディオユニット８１０、入力／出力（Ｉ／Ｏ）インタフェース８１２、センサユニット８１４及び通信ユニット８１６のうちの１つ又は複数を備えてもよい。

処理ユニット８０２は一般的には、電子機器８００の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理ユニット８０２は、指令を実行するための１つ又は複数のプロセッサ８２０を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理ユニット８０２は、他のユニットとのインタラクションのために、１つ又は複数のモジュールを備えてもよい。例えば、処理ユニット８０２はマルチメディアモジュールを備えることで、マルチメディアユニット８０８と処理ユニット８０２とのインタラクションに寄与する。

メモリ８０４は、各種のデータを記憶することで電子機器８００における操作をサポートするように構成される。これらのデータの例として、電子機器８００上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ８０４は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、電気的に消去可能なプログラマブル読出し専用メモリ（ＥＰＲＯＭ）、プログラマブル読出し専用メモリ（ＰＲＯＭ）、読出し専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。

電源ユニット８０６は電子機器８００の様々なユニットに電力を提供する。電源ユニット８０６は、電源管理システム、１つ又は複数の電源、及び電子機器８００のための電力生成、管理、分配に関連する他のユニットを備えてもよい。

マルチメディアユニット８０８は、上記電子機器８００とユーザとの間に出力インタフェースを提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ（ＬＣＤ）及びタッチパネル（ＴＰ）を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する１つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアユニット８０８は、フロントカメラ及び／又はリアカメラを備える。電子機器８００が、撮影モード又はビデオモードのような操作モードであれば、フロントカメラ及び／又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。

オーディオユニット８１０は、オーディオ信号を出力／入力するように構成される。例えば、オーディオユニット８１０は、マイクロホン（ＭＩＣ）を備える。電子機器８００が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ８０４に記憶するか、又は通信ユニット８１６を経由して送信することができる。幾つかの実施例において、オーディオユニット８１０は、オーディオ信号を出力するように構成されるスピーカーを更に備える。

Ｉ／Ｏインタフェース８１２は、処理ユニット８０２と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。

センサユニット８１４は、１つ又は複数のセンサを備え、電子機器８００のために様々な状態の評価を行うように構成される。例えば、センサユニット８１４は、電子機器８００のオン／オフ状態、ユニットの相対的な位置決めを検出することができる。例えば、上記ユニットが電子機器８００のディスプレイ及びキーパッドである。センサユニット８１４は電子機器８００又は電子機器８００における１つのユニットの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位又は加速／減速及び電子機器８００の温度の変動を検出することもできる。センサユニット８１４は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサユニット８１４は、ＣＭＯＳ又はＣＣＤ画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサユニット８１４は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。

通信ユニット８１６は、電子機器８００と他の機器との有線又は無線方式の通信に寄与するように構成される。電子機器８００は、ＷｉＦｉ、２Ｇ又は３Ｇ又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信ユニット８１６は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、上記通信ユニット８１６は、近接場通信（ＮＦＣ）モジュールを更に備えることで近距離通信を促進する。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術及び他の技術に基づいて実現される。

例示的な実施例において、電子機器８００は、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理機器（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、上記方法を実行するように構成されてもよい。

例示的な実施例において、コンピュータプログラム命令を記憶したメモリ８０４のような非一時的コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器８００のプロセッサ８２０により実行され上記方法を完了する。

図８は、本出願の実施例によるもう１つの電子機器１９００を示すブロック図である。例えば、電子機器１９００は、サーバとして提供されてもよい。図８を参照すると、電子機器１９００は、処理ユニット１９２２を備える。ぞれは１つ又は複数のプロセッサと、メモリ１９３２で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理ユニット１９２２により実行される命令を記憶するためのものである。メモリ１９３２に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する１つ又は１つ以上のモジュールを含んでもよい。なお、処理ユニット１９２２は、命令を実行して、上記方法を実行するように構成される。

電子機器１９００は、電子機器１９００の電源管理を実行するように構成される電源ユニット１９２６と、電子機器１９００をネットワークに接続するように構成される有線又は無線ネットワークインタフェース１９５０と、入力出力（Ｉ／Ｏ）インタフェース１９５８を更に備えてもよい。電子機器１９００は、Ｗｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ，Ｌｉｎｕｘ（登録商標）ＴＭ、ＦｒｅｅＢＳＤＴＭ又は類似したものような、メモリ１９３２に記憶されているオペレーティングシステムを実行することができる。

例示的な実施例において、例えば、コンピュータプログラム命令を含むメモリ１９３２のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器１９００の処理ユニット１９２２により実行されて上記方法を完了する。

本出願は、システム、方法及び／又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本出願の各態様を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。

コンピュータ可読記憶媒体は、命令実行装置に用いられる命令を保持又は記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例（非網羅的なリスト）は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、デジタル多目的ディスク（ＤＶＤ）、メモリスティック、フレキシブルディスク、命令が記憶されているパンチカード又は凹溝内における突起構造のような機械的符号化装置、及び上記任意の適切な組み合わせを含む。ここで用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通って伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、または、電線を通して伝送される電気信号などの、一時的な信号それ自体であると解釈されるべきではない。

ここで説明されるコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体から各コンピューティング／処理装置にダウンロードすることができるか、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又は無線ネットワークのようなネットワークを経由して外部コンピュータ又は外部記憶装置にダウンロードすることができる。ネットワークは、伝送用銅線ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び／又はエッジサーバを含んでもよい。各コンピューティング／処理装置におけるネットワークインターフェースカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各コンピューティング／処理装置におけるコンピュータ可読記憶媒体に記憶する。

本出願の操作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は１つ又は複数のプログラミング言語で記述されたソースコード又はターゲットコードであってもよい。前記プログラミング言語は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのようなオブジェクト指向プログラミング言語と、「Ｃ」プログラミング言語又は類似したプログラミング言語などの従来の手続型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザコンピュータ上で完全に実行してもよいし、ユーザコンピュータ上で部分的に実行してもよいし、独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行してリモートコンピュータ上で部分的に実行してもよいし、又はリモートコンピュータ又はサーバ上で完全に実行してもよい。リモートコンピュータの場合に、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）やワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを通じてユーザのコンピュータに接続するか、または、外部のコンピュータに接続することができる（例えばインターネットサービスプロバイダを用いてインターネットを通じて接続する）。幾つかの実施例において、コンピュータ可読プログラム命令の状態情報を利用して、プログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又はプログラマブル論理アレイ（ＰＬＡ）のような電子回路をカスタマイズする。該電子回路は、コンピュータ可読プログラム命令を実行することで、本出願の各態様を実現させることができる。

ここで、本出願の実施例の方法、装置（システム）及びコンピュータプログラム製品のフローチャート及び／又はブロック図を参照しながら、本出願の各態様を説明する。フローチャート及び／又はブロック図の各ブロック及びフローチャート及び／又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令により実現できる。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたはその他プログラマブルデータ処理装置のプロセッサに提供でき、それによって機器を生み出し、これら命令はコンピュータまたはその他プログラマブルデータ処理装置のプロセッサにより実行される時、フローチャート及び／又はブロック図における１つ又は複数のブロック中で規定している機能／操作を実現する装置を生み出した。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよい。これらの命令によれば、コンピュータ、プログラマブルデータ処理装置及び／又は他の装置は特定の方式で動作する。従って、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図おける１つ又は複数のブロック中で規定している機能／操作を実現する各態様の命令を含む製品を備える。

コンピュータ可読プログラム命令をコンピュータ、他のプログラマブルデータ処理装置又は他の装置にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で一連の操作の工程を実行して、コンピュータで実施されるプロセスを生成する。従って、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で実行される命令により、フローチャート及び／又はブロック図における１つ又は複数のブロック中で規定している機能／操作を実現させる。

図面におけるフローチャート及びブック図は、本出願の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、１つのモジュール、プログラムセグメント又は命令の一部を表すことができる。前記モジュール、、プログラムセグメント又は命令の一部は、１つまたは複数の所定の論理機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、二つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができる。

以上は本発明の各実施例を説明したが、前記説明は例示的なものであり、網羅するものではなく、且つ開示した各実施例に限定されない。説明した各実施例の範囲と趣旨から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到しえるものである。本明細書に用いられる用語の選択は、各実施例の原理、実際の応用、或いは市場における技術への改善を最もよく解釈すること、或いは他の当業者が本明細書に開示された各実施例を理解できることを目的とする。

上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本出願を限定するものではないことが理解されるべきである。
本願明細書は、例えば、以下の項目も提供する。
（項目１）
ビデオ処理方法であって、
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することと、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することと、を含む、前記方法。
（項目２）
前記段落情報は、クエリテキスト段落の第２特徴情報を含み、前記ビデオ情報は、ビデオの第３特徴情報を含み、
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することは、
前記第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することを含むことを特徴とする
項目１に記載の方法。
（項目３）
前記第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することは、
前記第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第１相関性スコアをそれぞれ決定することと、
前記第１相関性スコアに基づいて、前記複数のビデオのうちの予備選択ビデオを決定することと、を含むことを特徴とする
項目２に記載の方法。
（項目４）
前記第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第１相関性スコアをそれぞれ決定することは、
前記複数のビデオのうちのいずれか１つである第１ビデオの第３特徴情報及び前記第２特徴情報を同一次元のベクトル空間にマッピングし、第１ビデオの第３特徴ベクトル及びクエリテキスト段落の第２特徴ベクトルを得ることと、
前記第２特徴ベクトルと第３特徴ベクトルとのコサイン類似度を前記クエリテキスト段落と前記第１ビデオとの第１相関性スコアとして決定することを含むことを特徴とする
項目３に記載の方法。
（項目５）
前記センテンス情報は、クエリテキスト段落の１つ又は複数のセンテンスの第１特徴情報を含み、前記ビデオフレーム情報は、前記予備選択ビデオの複数のビデオフレームの第４特徴情報を含み、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
前記１つ又は複数のセンテンスの第１特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することを含むことを特徴とする
項目１から４のいずれか一項に記載の方法。
（項目６）
前記１つ又は複数のセンテンスの第１特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
前記１つ又は複数のセンテンスの第１特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第２相関性スコアを決定することと、
第１相関性スコア及び前記第２相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することとを含むことを特徴とする
項目５に記載の方法。
（項目７）
前記１つ又は複数のセンテンスの第１特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第２相関性スコアを決定することは、
前記予備選択ビデオのうちのいずれか１つであるターゲット予備選択ビデオの複数のビデオフレームの第４特徴情報及び前記１つ又は複数のセンテンスの第１特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第４特徴ベクトル及び１つ又は複数のセンテンスの第１特徴ベクトルをそれぞれ得ることと、
第４特徴ベクトルのうちの、ターゲットセンテンスの第１特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定することであって、前記ターゲットセンテンスが、前記１つ又は複数のセンテンスのうちのいずれか１つであることと、
前記ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得ることと、
前記ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第５特徴ベクトルを決定することと、
１つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第５特徴ベクトル及び１つ又は複数のセンテンスの第１特徴ベクトルに基づいて、前記クエリテキスト段落と前記ターゲット予備選択ビデオとの第２相関性スコアを決定することとを含むことを特徴とする
項目６に記載の方法。
（項目８）
第１相関性スコア及び前記第２相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
前記第１相関性スコアと前記第２相関性スコアの積を第３相関性スコアとして決定することと、
前記第３相関性スコアに基づいて、予備選択ビデオにおいてターゲットビデオを決定することとを含むことを特徴とする
項目６に記載の方法。
（項目９）
前記方法は、
前記複数のビデオのうちのいずれか１つである第２ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、前記第２ビデオの複数のビデオフレームの第４特徴情報を得ることと、
前記第２ビデオの複数のビデオフレームの第４特徴情報に基づいて、前記第２ビデオの第３特徴情報を決定することと、を更に含むことを特徴とする
項目１−８のいずれか一項に記載の方法。
（項目１０）
前記方法は、
前記クエリテキスト段落の１つ又は複数のセンテンスに対してそれぞれ特徴抽出処理を行い、前記１つ又は複数のセンテンスの第１特徴情報を得ることと、
前記クエリテキスト段落における１つ又は複数のセンテンスの第１特徴情報に基づいて、前記クエリテキスト段落の第２特徴情報を決定することと、を更に含むことを特徴とする
項目１−９のいずれか一項に記載の方法。
（項目１１）
ビデオ処理装置であって、
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定するように構成される予備選択ビデオ決定モジュールと、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されるターゲットビデオ決定モジュールと、を備える、前記装置。
（項目１２）
前記段落情報は、クエリテキスト段落の第２特徴情報を含み、前記ビデオ情報はビデオの第３特徴情報を含み、
前記予備選択ビデオ決定モジュールは更に、
前記第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定するように構成されることを特徴とする
項目１１に記載の装置。
（項目１３）
前記予備選択ビデオ決定モジュールは更に、
前記第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第１相関性スコアをそれぞれ決定し、
前記第１相関性スコアに基づいて、前記複数のビデオのうちの予備選択ビデオを決定するように構成されることを特徴とする
項目１２に記載の装置。
（項目１４）
前記予備選択ビデオ決定モジュールは更に、
前記複数のビデオのうちのいずれか１つである第１ビデオの第３特徴情報及び前記第２特徴情報を同一次元のベクトル空間にマッピングし、第１ビデオの第３特徴ベクトル及びクエリテキスト段落の第２特徴ベクトルを得て、
前記第２特徴ベクトルと第３特徴ベクトルとのコサイン類似度を前記クエリテキスト段落と前記第１ビデオとの第１相関性スコアとして決定するように構成されることを特徴とする
項目１３に記載の装置。
（項目１５）
前記センテンス情報は、クエリテキスト段落の１つ又は複数のセンテンスの第１特徴情報を含み、前記ビデオフレーム情報は、前記予備選択ビデオの複数のビデオフレームの第４特徴情報を含み、
前記予備選択ビデオ決定モジュールは更に、
前記１つ又は複数のセンテンスの第１特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されることを特徴とする
項目１１から１４のいずれか一項に記載の装置。
（項目１６）
前記ターゲットビデオ決定モジュールは更に、
前記１つ又は複数のセンテンスの第１特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第２相関性スコアを決定し、
第１相関性スコア及び前記第２相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されることを特徴とする
項目１５に記載の装置。
（項目１７）
前記ターゲットビデオ決定モジュールは更に、
前記予備選択ビデオのうちのいずれか１つであるターゲット予備選択ビデオの複数のビデオフレームの第４特徴情報及び前記１つ又は複数のセンテンスの第１特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第４特徴ベクトル及び１つ又は複数のセンテンスの第１特徴ベクトルをそれぞれ得て、
第４特徴ベクトルのうちの、ターゲットセンテンスの第１特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定し、前記ターゲットセンテンスが、前記１つ又は複数のセンテンスのうちのいずれか１つであり、
前記ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得、
前記ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第５特徴ベクトルを決定し、
１つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第５特徴ベクトル及び１つ又は複数のセンテンスの第１特徴ベクトルに基づいて、前記クエリテキスト段落と前記ターゲット予備選択ビデオとの第２相関性スコアを決定するように構成されることを特徴とする
項目１６に記載の装置。
（項目１８）
前記ターゲットビデオ決定モジュールは更に、
前記第１相関性スコアと前記第２相関性スコアの積を第３相関性スコアとして決定し、
前記第３相関性スコアに基づいて、予備選択ビデオにおいてターゲットビデオを決定するように構成されることを特徴とする
項目１６に記載の装置。
（項目１９）
前記装置は、
前記複数のビデオのうちのいずれか１つである第２ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、前記第２ビデオの複数のビデオフレームの第４特徴情報を得るように構成されるビデオ特徴抽出モジュールと、
前記第２ビデオの複数のビデオフレームの第４特徴情報に基づいて、前記第２ビデオの第３特徴情報を決定するように構成される第１決定モジュールと、を更に備えることを特徴とする
項目１１−１８のいずれか一項に記載の装置。
（項目２０）
前記装置は、
前記クエリテキスト段落の１つ又は複数のセンテンスに対してそれぞれ特徴抽出処理を行い、前記１つ又は複数のセンテンスの第１特徴情報を得るように構成されるセンテンス特徴抽出モジュールと、
前記クエリテキスト段落における１つ又は複数のセンテンスの第１特徴情報に基づいて、前記クエリテキスト段落の第２特徴情報を決定するように構成される第２決定モジュールと、を更に備えることを特徴とする
項目１１−１９のいずれか一項に記載の装置。
（項目２１）
電子機器であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと、を備え、
前記プロセッサは、項目１から１０のいずれか一項に記載の方法を実行するように構成される、前記電子機器。
（項目２２）
コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、項目１から１０のいずれか一項に記載の方法を実現する、前記コンピュータ可読記憶媒体。

Claims

ビデオ処理方法であって、
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することと、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することと、を含む、前記方法。
前記段落情報は、クエリテキスト段落の第２特徴情報を含み、前記ビデオ情報は、ビデオの第３特徴情報を含み、
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することは、
前記第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することを含むことを特徴とする
請求項１に記載の方法。
前記第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することは、
前記第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第１相関性スコアをそれぞれ決定することと、
前記第１相関性スコアに基づいて、前記複数のビデオのうちの予備選択ビデオを決定することと、を含むことを特徴とする
請求項２に記載の方法。
前記第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第１相関性スコアをそれぞれ決定することは、
前記複数のビデオのうちのいずれか１つである第１ビデオの第３特徴情報及び前記第２特徴情報を同一次元のベクトル空間にマッピングし、第１ビデオの第３特徴ベクトル及びクエリテキスト段落の第２特徴ベクトルを得ることと、
前記第２特徴ベクトルと第３特徴ベクトルとのコサイン類似度を前記クエリテキスト段落と前記第１ビデオとの第１相関性スコアとして決定することを含むことを特徴とする
請求項３に記載の方法。
前記センテンス情報は、クエリテキスト段落の１つ又は複数のセンテンスの第１特徴情報を含み、前記ビデオフレーム情報は、前記予備選択ビデオの複数のビデオフレームの第４特徴情報を含み、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
前記１つ又は複数のセンテンスの第１特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することを含むことを特徴とする
請求項１から４のいずれか一項に記載の方法。
前記１つ又は複数のセンテンスの第１特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
前記１つ又は複数のセンテンスの第１特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第２相関性スコアを決定することと、
第１相関性スコア及び前記第２相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することとを含むことを特徴とする
請求項５に記載の方法。
前記１つ又は複数のセンテンスの第１特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第２相関性スコアを決定することは、
前記予備選択ビデオのうちのいずれか１つであるターゲット予備選択ビデオの複数のビデオフレームの第４特徴情報及び前記１つ又は複数のセンテンスの第１特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第４特徴ベクトル及び１つ又は複数のセンテンスの第１特徴ベクトルをそれぞれ得ることと、
第４特徴ベクトルのうちの、ターゲットセンテンスの第１特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定することであって、前記ターゲットセンテンスが、前記１つ又は複数のセンテンスのうちのいずれか１つであることと、
前記ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得ることと、
前記ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第５特徴ベクトルを決定することと、
１つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第５特徴ベクトル及び１つ又は複数のセンテンスの第１特徴ベクトルに基づいて、前記クエリテキスト段落と前記ターゲット予備選択ビデオとの第２相関性スコアを決定することとを含むことを特徴とする
請求項６に記載の方法。
第１相関性スコア及び前記第２相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
前記第１相関性スコアと前記第２相関性スコアの積を第３相関性スコアとして決定することと、
前記第３相関性スコアに基づいて、予備選択ビデオにおいてターゲットビデオを決定することとを含むことを特徴とする
請求項６に記載の方法。
前記方法は、
前記複数のビデオのうちのいずれか１つである第２ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、前記第２ビデオの複数のビデオフレームの第４特徴情報を得ることと、
前記第２ビデオの複数のビデオフレームの第４特徴情報に基づいて、前記第２ビデオの第３特徴情報を決定することと、を更に含むことを特徴とする
請求項１−８のいずれか一項に記載の方法。
前記方法は、
前記クエリテキスト段落の１つ又は複数のセンテンスに対してそれぞれ特徴抽出処理を行い、前記１つ又は複数のセンテンスの第１特徴情報を得ることと、
前記クエリテキスト段落における１つ又は複数のセンテンスの第１特徴情報に基づいて、前記クエリテキスト段落の第２特徴情報を決定することと、を更に含むことを特徴とする
請求項１−９のいずれか一項に記載の方法。
ビデオ処理装置であって、
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定するように構成される予備選択ビデオ決定モジュールと、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されるターゲットビデオ決定モジュールと、を備える、前記装置。
前記段落情報は、クエリテキスト段落の第２特徴情報を含み、前記ビデオ情報はビデオの第３特徴情報を含み、
前記予備選択ビデオ決定モジュールは更に、
前記第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定するように構成されることを特徴とする
請求項１１に記載の装置。
前記予備選択ビデオ決定モジュールは更に、
前記第２特徴情報及びビデオライブラリーにおける複数のビデオの第３特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第１相関性スコアをそれぞれ決定し、
前記第１相関性スコアに基づいて、前記複数のビデオのうちの予備選択ビデオを決定するように構成されることを特徴とする
請求項１２に記載の装置。
前記予備選択ビデオ決定モジュールは更に、
前記複数のビデオのうちのいずれか１つである第１ビデオの第３特徴情報及び前記第２特徴情報を同一次元のベクトル空間にマッピングし、第１ビデオの第３特徴ベクトル及びクエリテキスト段落の第２特徴ベクトルを得て、
前記第２特徴ベクトルと第３特徴ベクトルとのコサイン類似度を前記クエリテキスト段落と前記第１ビデオとの第１相関性スコアとして決定するように構成されることを特徴とする
請求項１３に記載の装置。
前記センテンス情報は、クエリテキスト段落の１つ又は複数のセンテンスの第１特徴情報を含み、前記ビデオフレーム情報は、前記予備選択ビデオの複数のビデオフレームの第４特徴情報を含み、
前記予備選択ビデオ決定モジュールは更に、
前記１つ又は複数のセンテンスの第１特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されることを特徴とする
請求項１１から１４のいずれか一項に記載の装置。
前記ターゲットビデオ決定モジュールは更に、
前記１つ又は複数のセンテンスの第１特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第４特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第２相関性スコアを決定し、
第１相関性スコア及び前記第２相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されることを特徴とする
請求項１５に記載の装置。
前記ターゲットビデオ決定モジュールは更に、
前記予備選択ビデオのうちのいずれか１つであるターゲット予備選択ビデオの複数のビデオフレームの第４特徴情報及び前記１つ又は複数のセンテンスの第１特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第４特徴ベクトル及び１つ又は複数のセンテンスの第１特徴ベクトルをそれぞれ得て、
第４特徴ベクトルのうちの、ターゲットセンテンスの第１特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定し、前記ターゲットセンテンスが、前記１つ又は複数のセンテンスのうちのいずれか１つであり、
前記ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得、
前記ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第５特徴ベクトルを決定し、
１つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第５特徴ベクトル及び１つ又は複数のセンテンスの第１特徴ベクトルに基づいて、前記クエリテキスト段落と前記ターゲット予備選択ビデオとの第２相関性スコアを決定するように構成されることを特徴とする
請求項１６に記載の装置。
前記ターゲットビデオ決定モジュールは更に、
前記第１相関性スコアと前記第２相関性スコアの積を第３相関性スコアとして決定し、
前記第３相関性スコアに基づいて、予備選択ビデオにおいてターゲットビデオを決定するように構成されることを特徴とする
請求項１６に記載の装置。
前記装置は、
前記複数のビデオのうちのいずれか１つである第２ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、前記第２ビデオの複数のビデオフレームの第４特徴情報を得るように構成されるビデオ特徴抽出モジュールと、
前記第２ビデオの複数のビデオフレームの第４特徴情報に基づいて、前記第２ビデオの第３特徴情報を決定するように構成される第１決定モジュールと、を更に備えることを特徴とする
請求項１１−１８のいずれか一項に記載の装置。
前記装置は、
前記クエリテキスト段落の１つ又は複数のセンテンスに対してそれぞれ特徴抽出処理を行い、前記１つ又は複数のセンテンスの第１特徴情報を得るように構成されるセンテンス特徴抽出モジュールと、
前記クエリテキスト段落における１つ又は複数のセンテンスの第１特徴情報に基づいて、前記クエリテキスト段落の第２特徴情報を決定するように構成される第２決定モジュールと、を更に備えることを特徴とする
請求項１１−１９のいずれか一項に記載の装置。
電子機器であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと、を備え、
前記プロセッサは、請求項１から１０のいずれか一項に記載の方法を実行するように構成される、前記電子機器。
コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、請求項１から１０のいずれか一項に記載の方法を実現する、前記コンピュータ可読記憶媒体。