JP7163397B2

JP7163397B2 - 画像処理方法、候補評価方法および関連装置

Info

Publication number: JP7163397B2
Application number: JP2020543216A
Authority: JP
Inventors: ▲蘇▼▲海▼昇; 王蒙蒙; 甘▲偉▼豪
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2019-06-24
Filing date: 2019-10-16
Publication date: 2022-10-31
Anticipated expiration: 2039-10-16
Also published as: US20230094192A1; KR20210002355A; TW202101384A; CN110263733A; SG11202009661VA; WO2020258598A1; CN110263733B; JP2021531523A; TWI734375B

Description

（関連出願の相互参照）
本願は２０１９年０６月２４日に中国国家知識産権局へ提出された、出願番号２０１９１０５５２３６０５、出願の名称「画像処理方法、候補評価方法および関連装置」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。

本発明は画像処理の分野に関し、特に画像処理方法、候補評価方法および関連装置に関する。

時系列オブジェクト検出技術はビデオにおける行動理解の分野において重要で非常に挑戦的な課題である。時系列オブジェクト検出技術は、例えばビデオ推薦、セキュリティ監視およびスマートホームなど、多くの分野において重要な役割を果たしている。

時系列オブジェクト検出タスクは未トリミングの長いビデオからオブジェクトの具体的な出現時間および種別を特定することを目的としている。このような課題には生成される時系列オブジェクト候補の品質をどのように向上させるかという１つの大きな難点がある。高品質の時系列オブジェクト候補は２つのキー属性、即ち、（１）生成される候補が実際のオブジェクトラベルをできる限り包含すべきであること、（２）候補の品質が全面的にかつ正確に評価可能であり、各候補に後続の検索用の信頼度スコアがそれぞれ１つ生成されていることを満たすべきである。現在、使用されている時系列候補生成方法は通常、候補を生成する境界が正確でないという問題がある。

本発明の実施例はビデオ処理の解決手段を提供する。

第１態様によれば、本願の実施例は、ビデオストリームの第１特徴系列を取得するステップであって、前記第１特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むステップと、前記第１特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第１のオブジェクト境界確率系列を得るステップと、前記第１特徴系列に含まれる特徴データと同じでありかつ並び順が反対になる前記ビデオストリームの第２特徴系列に基づき、第２のオブジェクト境界確率系列を得るステップと、前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成するステップと、を含んでもよい画像処理方法を提供する。

本願の実施例では、融合後のオブジェクト境界確率系列に基づいて時系列オブジェクト候補集合を生成しており、境界がより正確な確率系列を得て、より高い品質で時系列オブジェクト候補を生成することができる。

選択可能な一実施形態では、前記ビデオストリームの第２特徴系列に基づき、第２のオブジェクト境界確率系列を得る前記ステップの前に、前記方法はさらに、前記第１特徴系列に対して時系列逆転処理を行い、前記第２特徴系列を得るステップを含む。

前記実施形態では、第１特徴系列の時系列を逆転させて第２特徴系列を得ており、操作が簡単である。

選択可能な一実施形態では、前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成する前記ステップは、前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得るステップと、前記目標境界確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップと、を含む。

前記実施形態では、２つのオブジェクト境界系列を融合することで、境界がより正確なオブジェクト境界確率を得て、さらに、より高い品質で時系列オブジェクト候補集合を生成することができる。

選択可能な一実施形態では、前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得る前記ステップは、前記第２のオブジェクト境界確率系列に対して時系列逆転処理を行い、第３のオブジェクト境界確率系列を得るステップと、前記第１のオブジェクト境界確率系列と前記第３のオブジェクト境界確率系列を融合し、前記目標境界確率系列を得るステップと、を含む。

前記実施形態では、反対になる２つの時系列方向からビデオにおける各セグメントの境界確率を評価し、簡単で効率的な融合方法でノイズを除去することで、最終的に精度がより高い時系列境界が特定される。

選択可能な一実施形態では、前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列の各々は開始確率系列および終了確率系列を含み、前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得る前記ステップは、前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列のうちの開始確率系列の融合処理を行い、目標開始確率系列を得るステップ、および／または
前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列のうちの終了確率系列の融合処理を行い、目標終了確率系列を得るステップを含み、前記目標境界確率系列は前記目標開始確率系列および前記目標終了確率系列のうちの少なくとも一つを含む。

選択可能な一実施形態では、前記目標境界確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップは、前記目標境界確率系列に含まれる目標開始確率系列および目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップ、
または、前記目標境界確率系列に含まれる目標開始確率系列および前記第１のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップ、
または、前記目標境界確率系列に含まれる目標開始確率系列および前記第２のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップ、
または、前記第１のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップ、
または、前記第２のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップを含む。

前記実施形態では、提案時系列オブジェクトの候補集合を高速で正確に生成できる。

選択可能な一実施形態では、前記目標境界確率系列に含まれる目標開始確率系列および目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成する前記ステップは、前記目標開始確率系列に含まれる前記複数のセグメントの目標開始確率に基づき、目標開始確率が第１閾値を超えたセグメントおよび／または目標開始確率が少なくとも２つの隣接セグメントより高いセグメントを含む第１セグメント集合を得て、および前記目標終了確率系列に含まれる前記複数のセグメントの目標終了確率に基づき、目標終了確率が第２閾値を超えたセグメントおよび／または目標終了確率が少なくとも２つの隣接セグメントより高いセグメントを含む第２セグメント集合を得るステップと、前記第１セグメント集合および前記第２セグメント集合に基づき、前記時系列オブジェクト候補集合を生成するステップと、を含む。

前記実施形態では、第１セグメント集合および第２セグメント集合を高速で正確にスクリーニングし、さらに、前記第１セグメント集合および前記第２セグメント集合に基づいて時系列オブジェクト候補集合を生成することができる。

選択可能な一実施形態では、前記画像処理方法はさらに、前記ビデオストリームのビデオ特徴系列に基づき、第１の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯より長く、前記第１の時系列オブジェクト候補は前記時系列オブジェクト候補集合に含まれるステップと、前記ビデオストリームのビデオ特徴系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯と同じであるステップと、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を含む。

前記実施形態では、長時間候補特徴と短時間候補特徴との間の対話情報および他のマルチ粒度の手掛かりを統合することで豊富な候補特徴を生成し、さらに候補品質評価の正確性を向上させることができる。

選択可能な一実施形態では、前記ビデオストリームのビデオ特徴系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の長時間候補特徴を得る前記ステップの前に、前記方法はさらに、前記第１特徴系列および前記第２特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップと、前記第１特徴系列と前記目標動作確率系列を連接し、前記ビデオ特徴系列を得るステップと、を含む。

前記実施形態では、動作確率系列と第１特徴系列を連接することで、より多くの特徴情報を含む特徴系列を高速で得ることができ、それによりサンプリングして得られた候補特徴にはより豊富な情報が含まれるようになる。

選択可能な一実施形態では、前記ビデオストリームのビデオ特徴系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得る前記ステップは、前記第１の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るステップを含む。

前記実施形態では、短時間候補特徴を高速で正確に抽出できる。

選択可能な一実施形態では、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得る前記ステップは、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の目標候補特徴を得るステップと、前記第１の時系列オブジェクト候補の目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を含む。

前記実施形態では、長時間候補特徴および短時間候補特徴を統合することで、品質がより高い候補特徴を得て、時系列オブジェクト候補の品質をより正確に評価することができる。

選択可能な一実施形態では、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の目標候補特徴を得る前記ステップは、前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を含む。

前記実施形態では、非局所的な注意操作および融合操作により、特徴がより豊富な候補特徴を得て、時系列オブジェクト候補の品質をより正確に評価することができる。

選択可能な一実施形態では、前記ビデオストリームのビデオ特徴系列に基づき、第１の時系列オブジェクト候補の長時間候補特徴を得る前記ステップは、前記ビデオ特徴系列内の、参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るステップを含み、前記参照時間区間は前記時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間である。

前記実施形態では、長時間候補特徴を高速で得ることができる。

選択可能な一実施形態では、前記画像処理方法はさらに、前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第１の時系列オブジェクト候補の少なくとも２つの品質指標を得るステップであって、前記少なくとも２つの品質指標のうち第１指標は前記第１の時系列オブジェクト候補と真値との共通部分が前記第１の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも２つの品質指標のうち第２指標は前記第１の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、前記少なくとも２つの品質指標に基づき、前記評価結果を得るステップと、を含む。

前記実施形態では、少なくとも２つの品質指標に基づいて評価結果を得ており、時系列オブジェクト候補の品質をより正確に評価することができ、評価結果の品質がより高い。

選択可能な一実施形態では、前記画像処理方法は、候補生成ネットワークおよび候補評価ネットワークを含む時系列候補生成ネットワークに適用され、前記時系列候補生成ネットワークの訓練プロセスは、訓練サンプルを前記時系列候補生成ネットワークに入力して処理し、前記候補生成ネットワークから出力されるサンプル時系列候補集合および前記候補評価ネットワークから出力される前記サンプル時系列候補集合に含まれるサンプル時系列候補の評価結果を得るステップと、前記訓練サンプルのサンプル時系列候補集合および前記サンプル時系列候補集合に含まれるサンプル時系列候補の評価結果と前記訓練サンプルのラベリング情報とのそれぞれの差異に基づき、ネットワーク損失を得るステップと、前記ネットワーク損失に基づき、前記時系列候補生成ネットワークのネットワークパラメータを調整するステップと、を含む。

前記実施形態では、候補生成ネットワークおよび候補評価ネットワークを一体として共同訓練しており、時系列候補集合の精度を効果的に向上させるとともに候補評価の品質を確実に向上させ、さらに後続の候補検索の信頼性を保証する。

選択可能な一実施形態では、前記画像処理方法は、第１候補生成ネットワーク、第２候補生成ネットワークおよび候補評価ネットワークを含む時系列候補生成ネットワークに適用され、前記時系列候補生成ネットワークの訓練プロセスは、第１訓練サンプルを前記第１候補生成ネットワークに入力して処理して第１サンプル開始確率系列、第１サンプル動作確率系列、第１サンプル終了確率系列を得て、および第２訓練サンプルを前記第２候補生成ネットワークに入力して処理して第２サンプル開始確率系列、第２サンプル動作確率系列、第２サンプル終了確率系列を得るステップと、前記第１サンプル開始確率系列、前記第１サンプル動作確率系列、前記第１サンプル終了確率系列、前記第２サンプル開始確率系列、前記第２サンプル動作確率系列、前記第２サンプル終了確率系列に基づき、サンプル時系列候補集合およびサンプル候補特徴集合を得るステップと、前記サンプル候補特徴集合を前記候補評価ネットワークに入力して処理し、前記サンプル候補特徴集合内の各サンプル候補特徴の少なくとも２つの品質指標を得るステップと、前記各サンプル候補特徴の少なくとも２つの品質指標に基づき、前記各サンプル候補特徴の信頼度スコアを決定するステップと、前記第１候補生成ネットワークおよび前記第２候補生成ネットワークに対応する第１損失と前記候補評価ネットワークに対応する第２損失の重み付け和に基づき、前記第１候補生成ネットワーク、前記第２候補生成ネットワークおよび前記候補評価ネットワークを更新するステップと、を含む。

前記実施形態では、第１候補生成ネットワーク、第２候補生成ネットワーク、候補評価ネットワークを一体として共同訓練しており、時系列候補集合の精度を効果的に向上させるとともに候補評価の品質を確実に向上させ、さらに後続の候補検索の信頼性を保証する。

選択可能な一実施形態では、前記第１サンプル開始確率系列、前記第１サンプル動作確率系列、前記第１サンプル終了確率系列、前記第２サンプル開始確率系列、前記第２サンプル動作確率系列、前記第２サンプル終了確率系列に基づき、サンプル時系列候補集合を得る前記ステップは、前記第１サンプル開始確率系列と前記第２サンプル開始確率系列を融合し、目標サンプル開始確率系列を得るステップと、前記第１サンプル終了確率系列と前記第２サンプル終了確率系列を融合し、目標サンプル終了確率系列を得るステップと、前記目標サンプル開始確率系列および前記目標サンプル終了確率系列に基づき、前記サンプル時系列候補集合を生成するステップと、を含む。

選択可能な一実施形態では、前記第１損失は、実際のサンプル開始確率系列に対する前記目標サンプル開始確率系列の損失、実際のサンプル終了確率系列に対する前記目標サンプル終了確率系列の損失、および実際のサンプル動作確率系列に対する前記目標サンプル動作確率系列の損失のいずれかまたは少なくとも２つの重み付け和であり、前記第２損失は、各サンプル候補特徴の実際の品質指標に対する前記各サンプル候補特徴の少なくとも１つの品質指標の損失である。

前記実施形態では、第１候補生成ネットワーク、第２候補生成ネットワークおよび候補評価ネットワークを高速で訓練して得ることができる。

第２態様によれば、本願の実施例は、ビデオストリームのビデオ特徴系列に基づき、第１の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記ビデオ特徴系列は前記ビデオストリームに含まれる複数のセグメントにおける各々のセグメントの特徴データ、および前記ビデオストリームに基づいて得られた動作確率系列を含み、または、前記ビデオ特徴系列は前記ビデオストリームに基づいて得られた動作確率系列であり、前記長時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯より長く、前記第１の時系列オブジェクト候補は前記ビデオストリームに基づいて得られた時系列オブジェクト候補集合に含まれるステップと、前記ビデオストリームのビデオ特徴系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯と同じであるステップと、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を含んでもよい候補評価方法を提供する。

本願の実施例では、長時間候補特徴と短時間候補特徴との間の対話情報および他のマルチ粒度の手掛かりを統合することで豊富な候補特徴を生成し、さらに候補品質評価の正確性を向上させる。

選択可能な一実施形態では、ビデオストリームのビデオ特徴系列に基づき、第１の時系列オブジェクト候補の長時間候補特徴を得る前記ステップの前に、前記方法はさらに、第１特徴系列および第２特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップであって、前記第１特徴系列も前記第２特徴系列も前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含み、かつ前記第２特徴系列は前記第１特徴系列に含まれる特徴データと同じでありかつ並び順が反対になるステップと、前記第１特徴系列と前記目標動作確率系列を連接し、前記ビデオ特徴系列を得るステップと、を含む。

前記実施形態では、短時間候補特徴を高速で得ることができる。

選択可能な一実施形態では、前記第１の時系列オブジェクト候補の目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得る前記ステップは、前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第１の時系列オブジェクト候補の少なくとも２つの品質指標を得るステップであって、前記少なくとも２つの品質指標のうち第１指標は前記第１の時系列オブジェクト候補と真値との共通部分が前記第１の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも２つの品質指標のうち第２指標は前記第１の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、前記少なくとも２つの品質指標に基づき、前記評価結果を得るステップと、を含む。

第３態様によれば、本願の実施例は、ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むビデオストリームの第１特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、前記第１特徴系列と前記目標動作確率系列を連接し、ビデオ特徴系列を得るステップと、前記ビデオ特徴系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得るステップと、を含んでもよい別の候補評価方法を提供する。

本願の実施例では、特徴系列と目標動作確率系列をチャネル次元で連接してより多くの特徴情報を含むビデオ特徴系列を得ており、それによりサンプリングして得られた候補特徴にはより豊富な情報が含まれるようになる。

選択可能な一実施形態では、ビデオストリームの第１特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得る前記ステップは、前記第１特徴系列に基づき、第１動作確率系列を得るステップと、前記ビデオストリームの第２特徴系列に基づき、第２動作確率系列を得るステップであって、前記第２特徴系列及び前記第１特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと、前記第１動作確率系列と前記第２動作確率系列との融合処理を行い、前記目標動作確率系列を得るステップと、を含む。

前記実施形態では、反対になる２つの時系列方向からビデオにおける各時刻（即ち時点）の境界確率を評価し、簡単で効率的な融合方法でノイズを除去することで、最終的に精度がより高い時系列境界が特定される。

選択可能な一実施形態では、前記第１動作確率系列と前記第２動作確率系列との融合処理を行い、前記目標動作確率系列を得る前記ステップは、前記第２動作確率系列に対して時系列逆転処理を行い、第３動作確率系列を得るステップと、前記第１動作確率系列と前記第３動作確率系列を融合し、前記目標動作確率系列を得るステップと、を含む。

選択可能な一実施形態では、前記ビデオ特徴系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得る前記ステップは、前記第１の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、目標候補特徴を得るステップと、前記目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を含む。

選択可能な一実施形態では、前記目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得る前記ステップは、前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第１の時系列オブジェクト候補の少なくとも２つの品質指標を得るステップであって、前記少なくとも２つの品質指標のうち第１指標は前記第１の時系列オブジェクト候補と真値との共通部分が前記第１の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも２つの品質指標のうち第２指標は前記第１の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、前記少なくとも２つの品質指標に基づき、前記評価結果を得るステップと、を含む。

選択可能な一実施形態では、前記ビデオ特徴系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得る前記ステップの前に、前記方法はさらに、前記第１特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第１のオブジェクト境界確率系列を得るステップと、前記ビデオストリームの第２特徴系列に基づき、第２のオブジェクト境界確率系列を得るステップと、前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、前記第１の時系列オブジェクト候補を生成するステップと、を含む。

選択可能な一実施形態では、前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、前記第１の時系列オブジェクト候補を生成する前記ステップは、前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得るステップと、前記目標境界確率系列に基づき、前記第１の時系列オブジェクト候補を生成するステップと、を含む。

第４態様によれば、本願の実施例は、ビデオストリームの第１特徴系列に基づき、第１動作確率系列を得るステップであって、前記第１特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むステップと、前記ビデオストリームの第２特徴系列に基づき、第２動作確率系列を得るステップであって、前記第２特徴系列及び前記第１特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと、前記第１動作確率系列および前記第２動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得るステップと、を含んでもよい別の候補評価方法を提供する。

本願の実施例では、第１動作確率系列および第２動作確率系列に基づいてより正確な目標動作確率系列を得て、前記目標動作確率系列を利用して時系列オブジェクト候補の品質をより正確に評価することができる。

選択可能な一実施形態では、前記第１動作確率系列および前記第２動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得る前記ステップは、前記第１動作確率系列と前記第２動作確率系列との融合処理を行い、前記目標動作確率系列を得るステップを含む。

選択可能な一実施形態では、前記第１動作確率系列と前記第２動作確率系列との融合処理を行い、前記目標動作確率系列を得る前記ステップは、前記第２動作確率系列の時系列を逆転させ、第３動作確率系列を得るステップと、前記第１動作確率系列と前記第３動作確率系列を融合し、前記目標動作確率系列を得るステップと、を含む。

選択可能な一実施形態では、前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得る前記ステップは、前記目標動作確率系列に基づき、前記第１の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯より長いステップと、前記目標動作確率系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯と同じであるステップと、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を含む。

選択可能な一実施形態では、前記目標動作確率系列に基づき、前記第１の時系列オブジェクト候補の長時間候補特徴を得る前記ステップは、前記目標動作確率系列をサンプリングし、前記長時間候補特徴を得るステップを含む。

選択可能な一実施形態では、前記目標動作確率系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得る前記ステップは、前記第１の時系列オブジェクト候補に対応する時間帯に基づき、前記目標動作確率系列をサンプリングし、前記短時間候補特徴を得るステップを含む。

第５態様によれば、本願の実施例は、
ビデオストリームの第１特徴系列を取得するための取得ユニットであって、前記第１特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む取得ユニットと、
前記第１特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第１のオブジェクト境界確率系列を得るステップと、
前記第１特徴系列に含まれる特徴データと同じでありかつ並び順が反対になる前記ビデオストリームの第２特徴系列に基づき、第２のオブジェクト境界確率系列を得るステップと、を実行するための処理ユニットと、
前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成するための生成ユニットと、を含んでもよい画像処理装置を提供する。

第６態様によれば、本願の実施例は、ビデオストリームのビデオ特徴系列に基づき、第１の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記ビデオ特徴系列は前記ビデオストリームに含まれる複数のセグメントにおける各々のセグメントの特徴データ、および前記ビデオストリームに基づいて得られた動作確率系列を含み、または、前記ビデオ特徴系列は前記ビデオストリームに基づいて得られた動作確率系列であり、前記長時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯より長く、前記第１の時系列オブジェクト候補は前記ビデオストリームに基づいて得られた時系列オブジェクト候補集合に含まれるステップと、前記ビデオストリームのビデオ特徴系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯と同じであるステップと、を実行するための特徴特定ユニットと、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るための評価ユニットと、を含む候補評価装置を提供する。

第７態様によれば、本願の実施例は、ビデオストリームの第１特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得るための処理ユニットであって、前記第１特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む処理ユニットと、前記第１特徴系列と前記目標動作確率系列を連接し、ビデオ特徴系列を得るための連接ユニットと、前記ビデオ特徴系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得るための評価ユニットと、を含んでもよい別の候補評価装置を提供する。

第８態様によれば、本願の実施例は、ビデオストリームの第１特徴系列に基づき、第１動作確率系列を得るステップであって、前記第１特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むステップと、前記ビデオストリームの第２特徴系列に基づき、第２動作確率系列を得るステップであって、前記第２特徴系列及び前記第１特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと、前記第１動作確率系列および前記第２動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、を実行するための処理ユニットと、前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得るための評価ユニットと、を含んでもよい別の候補評価装置を提供する。

第９態様によれば、本願の実施例は、プログラムを記憶するためのメモリと、前記メモリに記憶された前記プログラムを実行するためのプロセッサとを含み、前記プログラムが実行された場合、前記プロセッサは上記第１態様から第４態様およびいずれかの代替実施形態の方法を実行するために用いられる、電子機器を提供する。

第１０態様によれば、本願の実施例は、プロセッサおよびデータインタフェースを含み、前記プロセッサは前記データインタフェースを介してメモリに記憶された命令を読み出して、上記第１態様から第４態様およびいずれかの代替実施形態の方法を実行する、チップを提供する。

第１１態様によれば、本願の実施例は、プロセッサにより実行される時に前記プロセッサに上記第１態様から第３態様およびいずれかの代替実施形態の方法を実行させるプログラム命令を含むコンピュータプログラムが記憶されている、コンピュータ可読記憶媒体を提供する。

第１２態様によれば、本願の実施例は、プロセッサにより実行される時に前記プロセッサに上記第１態様から第３態様およびいずれかの代替実施形態の方法を実行させるプログラム命令を含む、コンピュータプログラムを提供する。
例えば、本願は以下の項目を提供する。
（項目１）
ビデオストリームの第１特徴系列を取得するステップであって、前記第１特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むステップと、
前記第１特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第１のオブジェクト境界確率系列を得るステップと、
前記ビデオストリームの第２特徴系列に基づき、第２のオブジェクト境界確率系列を得るステップであって、前記第２特徴系列及び前記第１特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと、
前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成するステップと、を含むことを特徴とする、画像処理方法。
（項目２）
前記ビデオストリームの第２特徴系列に基づき、第２のオブジェクト境界確率系列を得る前記ステップの前に、さらに、
前記第１特徴系列に対して時系列逆転処理を行い、前記第２特徴系列を得るステップを含むことを特徴とする、項目１に記載の方法。
（項目３）
前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成する前記ステップは、
前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得るステップと、
前記目標境界確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップと、を含むことを特徴とする、項目１または２に記載の方法。
（項目４）
前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得る前記ステップは、
前記第２のオブジェクト境界確率系列に対して時系列逆転処理を行い、第３のオブジェクト境界確率系列を得るステップと、
前記第１のオブジェクト境界確率系列と前記第３のオブジェクト境界確率系列を融合し、前記目標境界確率系列を得るステップと、を含むことを特徴とする、項目３に記載の方法。
（項目５）
前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列の各々は開始確率系列および終了確率系列を含み、
前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得る前記ステップは、
前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列のうちの開始確率系列の融合処理を行い、目標開始確率系列を得るステップ、および／または
前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列のうちの終了確率系列の融合処理を行い、目標終了確率系列を得るステップを含み、前記目標境界確率系列は前記目標開始確率系列および前記目標終了確率系列のうちの少なくとも一つを含むことを特徴とする、項目３または４に記載の方法。
（項目６）
前記目標境界確率系列に基づき、前記時系列オブジェクト候補集合を生成する前記ステップは、
前記目標境界確率系列に含まれる目標開始確率系列および目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップ、
または、前記目標境界確率系列に含まれる目標開始確率系列および前記第１のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップ、
または、前記目標境界確率系列に含まれる目標開始確率系列および前記第２のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップ、
または、前記第１のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップ、
または、前記第２のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップを含むことを特徴とする、項目３から５のいずれか一項に記載の方法。
（項目７）
前記目標境界確率系列に含まれる目標開始確率系列および目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成する前記ステップは、
前記目標開始確率系列に含まれる前記複数のセグメントの目標開始確率に基づき、目標開始確率が第１閾値を超えたセグメントおよび／または目標開始確率が少なくとも２つの隣接セグメントより高いセグメントを含む第１セグメント集合を得て、および前記目標終了確率系列に含まれる前記複数のセグメントの目標終了確率に基づき、目標終了確率が第２閾値を超えたセグメントおよび／または目標終了確率が少なくとも２つの隣接セグメントより高いセグメントを含む第２セグメント集合を得るステップと、
前記第１セグメント集合および前記第２セグメント集合に基づき、前記時系列オブジェクト候補集合を生成するステップと、を含むことを特徴とする、項目６に記載の方法。
（項目８）
前記方法はさらに、
前記ビデオストリームのビデオ特徴系列に基づき、第１の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯より長く、前記第１の時系列オブジェクト候補は前記時系列オブジェクト候補集合に含まれるステップと、
前記ビデオストリームのビデオ特徴系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯と同じであるステップと、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、項目１から７のいずれか一項に記載の方法。
（項目９）
前記ビデオストリームのビデオ特徴系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の長時間候補特徴を得る前記ステップの前に、さらに、
前記第１特徴系列および前記第２特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップと、
前記第１特徴系列と前記目標動作確率系列を連接し、前記ビデオ特徴系列を得るステップと、を含むことを特徴とする、項目８に記載の方法。
（項目１０）
前記ビデオストリームのビデオ特徴系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得る前記ステップは、
前記第１の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るステップを含むことを特徴とする、項目８または９に記載の方法。
（項目１１）
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得る前記ステップは、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の目標候補特徴を得るステップと、
前記第１の時系列オブジェクト候補の目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、項目８から１０のいずれか一項に記載の方法。
（項目１２）
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の目標候補特徴を得る前記ステップは、
前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、
前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を含むことを特徴とする、項目１１に記載の方法。
（項目１３）
前記ビデオストリームのビデオ特徴系列に基づき、第１の時系列オブジェクト候補の長時間候補特徴を得る前記ステップは、
前記ビデオ特徴系列内の、参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るステップを含み、前記参照時間区間は前記時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間であることを特徴とする、項目８から１０のいずれか一項に記載の方法。
（項目１４）
前記方法はさらに、
前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第１の時系列オブジェクト候補の少なくとも２つの品質指標を得るステップであって、前記少なくとも２つの品質指標のうち第１指標は前記第１の時系列オブジェクト候補と真値との共通部分が前記第１の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも２つの品質指標のうち第２指標は前記第１の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、
前記少なくとも２つの品質指標に基づき、前記評価結果を得るステップと、を含むことを特徴とする、項目８から１３のいずれか一項に記載の方法。
（項目１５）
候補生成ネットワークおよび候補評価ネットワークを含む時系列候補生成ネットワークに適用され、
前記時系列候補生成ネットワークの訓練プロセスは、
訓練サンプルを前記時系列候補生成ネットワークに入力して処理し、前記候補生成ネットワークから出力されるサンプル時系列候補集合および前記候補評価ネットワークから出力される前記サンプル時系列候補集合に含まれるサンプル時系列候補の評価結果を得るステップと、
前記訓練サンプルのサンプル時系列候補集合および前記サンプル時系列候補集合に含まれるサンプル時系列候補の評価結果と前記訓練サンプルのラベリング情報とのそれぞれの差異に基づき、ネットワーク損失を得るステップと、
前記ネットワーク損失に基づき、前記時系列候補生成ネットワークのネットワークパラメータを調整するステップと、を含むことを特徴とする、項目１から１４のいずれか一項に記載の方法。
（項目１６）
ビデオストリームのビデオ特徴系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記ビデオ特徴系列は前記ビデオストリームに含まれる複数のセグメントにおける各々のセグメントの特徴データを含み、前記長時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯より長いステップと、
前記ビデオストリームのビデオ特徴系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯と同じであるステップと、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、候補評価方法。
（項目１７）
ビデオストリームのビデオ特徴系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の長時間候補特徴を得る前記ステップの前に、さらに、
第１特徴系列および第２特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップであって、前記第１特徴系列も前記第２特徴系列も前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含み、かつ前記第２特徴系列は前記第１特徴系列に含まれる特徴データの並び順と反対になるステップと、
前記第１特徴系列と前記目標動作確率系列を連接し、前記ビデオ特徴系列を得るステップと、を含むことを特徴とする、項目１６に記載の方法。
（項目１８）
前記ビデオストリームのビデオ特徴系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得る前記ステップは、
前記第１の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るステップを含むことを特徴とする、項目１６または１７に記載の方法。
（項目１９）
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得る前記ステップは、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の目標候補特徴を得るステップと、
前記第１の時系列オブジェクト候補の目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、項目１６から１８のいずれか一項に記載の方法。
（項目２０）
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の目標候補特徴を得る前記ステップは、
前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、
前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を含むことを特徴とする、項目１９に記載の方法。
（項目２１）
前記ビデオストリームのビデオ特徴系列に基づき、第１の時系列オブジェクト候補の長時間候補特徴を得る前記ステップは、
前記ビデオ特徴系列内の、参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るステップを含み、前記参照時間区間は前記ビデオストリームの時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間であり、前記時系列オブジェクト候補集合は前記第１の時系列オブジェクト候補を含むことを特徴とする、項目１６から２０のいずれか一項に記載の方法。
（項目２２）
前記第１の時系列オブジェクト候補の目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得る前記ステップは、
前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第１の時系列オブジェクト候補の少なくとも２つの品質指標を得るステップであって、前記少なくとも２つの品質指標のうち第１指標は前記第１の時系列オブジェクト候補と真値との共通部分が前記第１の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも２つの品質指標のうち第２指標は前記第１の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、
前記少なくとも２つの品質指標に基づき、前記評価結果を得るステップと、を含むことを特徴とする、項目１９から２１のいずれか一項に記載の方法。
（項目２３）
ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むビデオストリームの第１特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、
前記第１特徴系列と前記目標動作確率系列を連接し、ビデオ特徴系列を得るステップと、
前記ビデオ特徴系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、候補評価方法。
（項目２４）
ビデオストリームの第１特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得る前記ステップは、
前記第１特徴系列に基づき、第１動作確率系列を得るステップと、
前記ビデオストリームの第２特徴系列に基づき、第２動作確率系列を得るステップであって、前記第２特徴系列及び前記第１特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと、
前記第１動作確率系列と前記第２動作確率系列との融合処理を行い、前記目標動作確率系列を得るステップと、を含むことを特徴とする、項目２３に記載の方法。
（項目２５）
前記第１動作確率系列と前記第２動作確率系列との融合処理を行い、前記目標動作確率系列を得る前記ステップは、
前記第２動作確率系列に対して時系列逆転処理を行い、第３動作確率系列を得るステップと、
前記第１動作確率系列と前記第３動作確率系列を融合し、前記目標動作確率系列を得るステップと、を含むことを特徴とする、項目２４に記載の方法。
（項目２６）
前記ビデオ特徴系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得る前記ステップは、
前記第１の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、目標候補特徴を得るステップと、
前記目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、項目２３から２５のいずれか一項に記載の方法。
（項目２７）
前記目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得る前記ステップは、
前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第１の時系列オブジェクト候補の少なくとも２つの品質指標を得るステップであって、前記少なくとも２つの品質指標のうち第１指標は前記第１の時系列オブジェクト候補と真値との共通部分が前記第１の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも２つの品質指標のうち第２指標は前記第１の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、
前記少なくとも２つの品質指標に基づき、前記評価結果を得るステップと、を含むことを特徴とする、項目２６に記載の方法。
（項目２８）
前記ビデオ特徴系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得る前記ステップの前に、さらに、
前記第１特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第１のオブジェクト境界確率系列を得るステップと、
前記ビデオストリームの第２特徴系列に基づき、第２のオブジェクト境界確率系列を得るステップと、
前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、前記第１の時系列オブジェクト候補を生成するステップと、を含むことを特徴とする、項目２４から２７のいずれか一項に記載の方法。
（項目２９）
前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、前記第１の時系列オブジェクト候補を生成する前記ステップは、
前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得るステップと、
前記目標境界確率系列に基づき、前記第１の時系列オブジェクト候補を生成するステップと、を含むことを特徴とする、項目２８に記載の方法。
（項目３０）
前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得る前記ステップは、
前記第２のオブジェクト境界確率系列に対して時系列逆転処理を行い、第３のオブジェクト境界確率系列を得るステップと、
前記第１のオブジェクト境界確率系列と前記第３のオブジェクト境界確率系列を融合し、前記目標境界確率系列を得るステップと、を含むことを特徴とする、項目２９に記載の方法。
（項目３１）
ビデオストリームの第１特徴系列に基づき、第１動作確率系列を得るステップであって、前記第１特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むステップと、
前記ビデオストリームの第２特徴系列に基づき、第２動作確率系列を得るステップであって、前記第２特徴系列及び前記第１特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと
前記第１動作確率系列および前記第２動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、
前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、候補評価方法。
（項目３２）
前記第１動作確率系列および前記第２動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得る前記ステップは、
前記第１動作確率系列と前記第２動作確率系列との融合処理を行い、前記目標動作確率系列を得るステップを含むことを特徴とする、項目３１に記載の方法。
（項目３３）
前記第１動作確率系列と前記第２動作確率系列との融合処理を行い、前記目標動作確率系列を得る前記ステップは、
前記第２動作確率系列の時系列を逆転させ、第３動作確率系列を得るステップと、
前記第１動作確率系列と前記第３動作確率系列を融合し、前記目標動作確率系列を得るステップと、を含むことを特徴とする、項目３２に記載の方法。
（項目３４）
前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得る前記ステップは、
前記目標動作確率系列に基づき、前記第１の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯より長いステップと、
前記目標動作確率系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯と同じであるステップステップと、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、項目３１から３３のいずれか一項に記載の方法。
（項目３５）
前記目標動作確率系列に基づき、前記第１の時系列オブジェクト候補の長時間候補特徴を得る前記ステップは、
前記目標動作確率系列をサンプリングし、前記長時間候補特徴を得るステップを含むことを特徴とする、項目３４に記載の方法。
（項目３６）
前記目標動作確率系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得る前記ステップは、
前記第１の時系列オブジェクト候補に対応する時間帯に基づき、前記目標動作確率系列をサンプリングし、前記短時間候補特徴を得るステップを含むことを特徴とする、項目３４に記載の方法。
（項目３７）
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得る前記ステップは、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の目標候補特徴を得るステップと、
前記第１の時系列オブジェクト候補の目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、項目３４から３６のいずれか一項に記載の方法。
（項目３８）
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の目標候補特徴を得る前記ステップは、
前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、
前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を含むことを特徴とする、項目３７に記載の方法。
（項目３９）
ビデオストリームの第１特徴系列を取得するための取得ユニットであって、前記第１特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む取得ユニットと、
前記第１特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第１のオブジェクト境界確率系列を得るステップと、前記ビデオストリームの第２特徴系列に基づき、第２のオブジェクト境界確率系列を得るステップであって、前記第２特徴系列及び前記第１特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと、を実行するための処理ユニットと、
前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成するための生成ユニットと、を含むことを特徴とする、画像処理装置。
（項目４０）
さらに、
前記第１特徴系列に対して時系列逆転処理を行い、前記第２特徴系列を得るための時系列逆転ユニットを含むことを特徴とする、項目３９に記載の装置。
（項目４１）
前記生成ユニットは、具体的に、前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得るステップと、前記目標境界確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップと、を実行するために用いられることを特徴とする、項目３９または４０に記載の装置。
（項目４２）
前記生成ユニットは、具体的に、前記第２のオブジェクト境界確率系列に対して時系列逆転処理を行い、第３のオブジェクト境界確率系列を得るステップと、前記第１のオブジェクト境界確率系列と前記第３のオブジェクト境界確率系列を融合し、前記目標境界確率系列を得るステップと、を実行するために用いられることを特徴とする、項目４１に記載の装置。
（項目４３）
前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列の各々は開始確率系列および終了確率系列を含み、
前記生成ユニットは、具体的に、前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列のうちの開始確率系列の融合処理を行い、目標開始確率系列を得るために用いられ、および／または
前記生成ユニットは、具体的に、前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列のうちの終了確率系列の融合処理を行い、目標終了確率系列を得るために用いられ、前記目標境界確率系列は前記目標開始確率系列および前記目標終了確率系列のうちの少なくとも一つを含むことを特徴とする、項目４１または４２に記載の装置。
（項目４４）
前記生成ユニットは、具体的に、前記目標境界確率系列に含まれる目標開始確率系列および目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられ、
または、前記生成ユニットは、具体的に、前記目標境界確率系列に含まれる目標開始確率系列および前記第１のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられ、
または、前記生成ユニットは、具体的に、前記目標境界確率系列に含まれる目標開始確率系列および前記第２のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられ、
または、前記生成ユニットは、具体的に、前記第１のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられ、
または、前記生成ユニットは、具体的に、前記第２のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられることを特徴とする、項目４１から４３のいずれか一項に記載の装置。
（項目４５）
前記生成ユニットは、具体的に、前記目標開始確率系列に含まれる前記複数のセグメントの目標開始確率に基づき、目標開始確率が第１閾値を超えたセグメントおよび／または目標開始確率が少なくとも２つの隣接セグメントより高いセグメントを含む第１セグメント集合を得て、および前記目標終了確率系列に含まれる前記複数のセグメントの目標終了確率に基づき、目標終了確率が第２閾値を超えたセグメントおよび／または目標終了確率が少なくとも２つの隣接セグメントより高いセグメントを含む第２セグメント集合を得るステップと、
前記第１セグメント集合および前記第２セグメント集合に基づき、前記時系列オブジェクト候補集合を生成するステップと、を実行するために用いられることを特徴とする、項目４４に記載の装置。
（項目４６）
さらに、
前記ビデオストリームのビデオ特徴系列に基づき、第１の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯より長く、前記第１の時系列オブジェクト候補は前記時系列オブジェクト候補集合に含まれるステップと、前記ビデオストリームのビデオ特徴系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯と同じであるステップと、を実行するための特徴特定ユニットと、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るための評価ユニットと、を含むことを特徴とする、項目３９から４５のいずれか一項に記載の装置。
（項目４７）
前記特徴特定ユニットはさらに、前記第１特徴系列および前記第２特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップと、前記第１特徴系列と前記目標動作確率系列を連接し、前記ビデオ特徴系列を得るステップと、を実行するために用いられることを特徴とする、項目４６に記載の装置。
（項目４８）
前記特徴特定ユニットは、具体的に、前記第１の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るために用いられることを特徴とする、項目４６または４７に記載の装置。
（項目４９）
前記特徴特定ユニットは、具体的に、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の目標候補特徴を得るために用いられ、
前記評価ユニットは、具体的に、前記第１の時系列オブジェクト候補の目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るために用いられることを特徴とする、項目４６から４８に記載の装置。
（項目５０）
前記特徴特定ユニットは、具体的に、前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を実行するために用いられることを特徴とする、項目４９に記載の装置。
（項目５１）
前記特徴特定ユニットは、具体的に、前記ビデオ特徴系列内の、参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るために用いられ、前記参照時間区間は前記時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間であることを特徴とする、項目４６から４８のいずれか一項に記載の装置。
（項目５２）
前記評価ユニットは、具体的に、前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第１の時系列オブジェクト候補の少なくとも２つの品質指標を得るステップであって、前記少なくとも２つの品質指標のうち第１指標は前記第１の時系列オブジェクト候補と真値との共通部分が前記第１の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも２つの品質指標のうち第２指標は前記第１の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、前記少なくとも２つの品質指標に基づき、前記評価結果を得るステップと、を実行するために用いられることを特徴とする、項目４６から５１のいずれか一項に記載の装置。
（項目５３）
実行する画像処理方法は、候補生成ネットワークおよび候補評価ネットワークを含む時系列候補生成ネットワークに適用され、前記処理ユニットは前記候補生成ネットワークの機能を実行するためのものであり、前記評価ユニットは前記候補評価ネットワークの機能を実行するためのものであり、
前記時系列候補生成ネットワークの訓練プロセスは、
訓練サンプルを前記時系列候補生成ネットワークに入力して処理し、前記候補生成ネットワークから出力されるサンプル時系列候補集合および前記候補評価ネットワークから出力される前記サンプル時系列候補集合に含まれるサンプル時系列候補の評価結果を得るステップと、
前記訓練サンプルのサンプル時系列候補集合および前記サンプル時系列候補集合に含まれるサンプル時系列候補の評価結果と前記訓練サンプルのラベリング情報とのそれぞれの差異に基づき、ネットワーク損失を得るステップと、
前記ネットワーク損失に基づき、前記時系列候補生成ネットワークのネットワークパラメータを調整するステップと、を含むことを特徴とする、項目２９から５２のいずれか一項に記載の装置。
（項目５４）
ビデオストリームのビデオ特徴系列に基づき、第１の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記ビデオ特徴系列は前記ビデオストリームに含まれる複数のセグメントにおける各々のセグメントの特徴データ、および前記ビデオストリームに基づいて得られた動作確率系列を含み、または、前記ビデオ特徴系列は前記ビデオストリームに基づいて得られた動作確率系列であり、前記長時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯より長く、前記第１の時系列オブジェクト候補は前記ビデオストリームに基づいて得られた時系列オブジェクト候補集合に含まれるステップと、前記ビデオストリームのビデオ特徴系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯と同じであるステップと、を実行するための特徴特定ユニットと、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るための評価ユニットと、を含むことを特徴とする、候補評価装置。
（項目５５）
さらに、
第１特徴系列および第２特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るための処理ユニットであって、前記第１特徴系列も前記第２特徴系列も前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含み、かつ前記第２特徴系列は前記第１特徴系列に含まれる特徴データと同じでありかつ並び順が反対になる処理ユニットと、
前記第１特徴系列と前記目標動作確率系列を連接し、前記ビデオ特徴系列を得るための連接ユニットと、を含むことを特徴とする、項目５４に記載の装置。
（項目５６）
前記特徴特定ユニットは、具体的に、前記第１の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るために用いられることを特徴とする、項目５４または５５に記載の装置。
（項目５７）
前記特徴特定ユニットは、具体的に、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の目標候補特徴を得るために用いられ、
前記評価ユニットは、具体的に、前記第１の時系列オブジェクト候補の目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るために用いられることを特徴とする、項目５４から５６のいずれか一項に記載の装置。
（項目５８）
前記特徴特定ユニットは、具体的に、前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を実行するために用いられることを特徴とする、項目５７に記載の装置。
（項目５９）
前記特徴特定ユニットは、具体的に、前記ビデオ特徴系列内の、参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るために用いられ、前記参照時間区間は前記時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間であることを特徴とする、項目５４から５８のいずれか一項に記載の装置。
（項目６０）
前記評価ユニットは、具体的に、前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第１の時系列オブジェクト候補の少なくとも２つの品質指標を得るステップであって、前記少なくとも２つの品質指標のうち第１指標は前記第１の時系列オブジェクト候補と真値との共通部分が前記第１の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも２つの品質指標のうち第２指標は前記第１の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、前記少なくとも２つの品質指標に基づき、前記評価結果を得るステップと、を実行するために用いられることを特徴とする、項目５７から５９のいずれか一項に記載の装置。
（項目６１）
ビデオストリームの第１特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得るための処理ユニットであって、前記第１特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む処理ユニットと、
前記第１特徴系列と前記目標動作確率系列を連接し、ビデオ特徴系列を得るための連接ユニットと、
前記ビデオ特徴系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得るための評価ユニットと、を含むことを特徴とする、候補評価装置。
（項目６２）
前記処理ユニットは、具体的に、前記第１特徴系列に基づき、第１動作確率系列を得るステップと、
前記ビデオストリームの第２特徴系列に基づき、第２動作確率系列を得るステップであって、前記第２特徴系列及び前記第１特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと、
前記第１動作確率系列と前記第２動作確率系列との融合処理を行い、前記目標動作確率系列を得るステップと、を実行するために用いられることを特徴とする、項目６１に記載の装置。
（項目６３）
前記処理ユニットは、具体的に、前記第２動作確率系列に対して時系列逆転処理を行い、第３動作確率系列を得るステップと、
前記第１動作確率系列と前記第３動作確率系列を融合し、前記目標動作確率系列を得るステップと、を実行するために用いられることを特徴とする、項目６２に記載の装置。
（項目６４）
前記評価ユニットは、具体的に、前記第１の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、目標候補特徴を得るステップと、
前記目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を実行するために用いられることを特徴とする、項目６１から６３のいずれか一項に記載の装置。
（項目６５）
前記評価ユニットは、具体的に、前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第１の時系列オブジェクト候補の少なくとも２つの品質指標を得るステップであって、前記少なくとも２つの品質指標のうち第１指標は前記第１の時系列オブジェクト候補と真値との共通部分が前記第１の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも２つの品質指標のうち第２指標は前記第１の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、
前記少なくとも２つの品質指標に基づき、前記評価結果を得るステップと、実行するために用いられることを特徴とする、項目６４に記載の装置。
（項目６６）
前記処理ユニットはさらに、前記第１特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第１のオブジェクト境界確率系列を得るステップと、
前記ビデオストリームの第２特徴系列に基づき、第２のオブジェクト境界確率系列を得るステップと、
前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、前記第１の時系列オブジェクト候補を生成するステップと、を実行するために用いられることを特徴とする、項目６２から６５のいずれか一項に記載の装置。
（項目６７）
前記処理ユニットは、具体的に、前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得るステップと、
前記目標境界確率系列に基づき、前記第１の時系列オブジェクト候補を生成するステップと、を実行するために用いられることを特徴とする、項目６６に記載の装置。
（項目６８）
前記処理ユニットは、具体的に、前記第２のオブジェクト境界確率系列に対して時系列逆転処理を行い、第３のオブジェクト境界確率系列を得るステップと、
前記第１のオブジェクト境界確率系列と前記第３のオブジェクト境界確率系列を融合し、前記目標境界確率系列を得るステップと、を実行するために用いられることを特徴とする、項目６６に記載の装置。
（項目６９）
ビデオストリームの第１特徴系列に基づき、第１動作確率系列を得るステップであって、前記第１特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むステップと、前記ビデオストリームの第２特徴系列に基づき、第２動作確率系列を得るステップであって、前記第２特徴系列及び前記第１特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップステップと、前記第１動作確率系列および前記第２動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、を実行するための処理ユニットと、
前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得るための評価ユニットと、を含むことを特徴とする、候補評価装置。
（項目７０）
前記処理ユニットは、具体的に、前記第１動作確率系列と前記第２動作確率系列との融合処理を行い、前記目標動作確率系列を得るために用いられることを特徴とする、項目６９に記載の装置。
（項目７１）
前記処理ユニットは、具体的に、前記第２動作確率系列の時系列を逆転させ、第３動作確率系列を得るステップと、
前記第１動作確率系列と前記第３動作確率系列を融合し、前記目標動作確率系列を得るステップと、を実行するために用いられることを特徴とする、項目７０に記載の装置。
（項目７２）
前記評価ユニットは、具体的に、前記目標動作確率系列に基づき、前記第１の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯より長いステップと、
前記目標動作確率系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯と同じであるステップと、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を実行するために用いられることを特徴とする、項目６９から７１のいずれか一項に記載の装置。
（項目７３）
前記評価ユニットは、具体的に、前記目標動作確率系列をサンプリングし、前記長時間候補特徴を得るために用いられることを特徴とする、項目７２に記載の装置。
（項目７４）
前記評価ユニットは、具体的に、前記第１の時系列オブジェクト候補に対応する時間帯に基づき、前記目標動作確率系列をサンプリングし、前記短時間候補特徴を得るために用いられることを特徴とする、項目７２に記載の装置。
（項目７５）
前記評価ユニットは、具体的に、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の目標候補特徴を得るステップと、
前記第１の時系列オブジェクト候補の目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を実行するために用いられることを特徴とする、項目７２から７４のいずれか一項に記載の装置。
（項目７６）
前記評価ユニットは、具体的に、前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、
前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を実行するために用いられることを特徴とする、項目７５に記載の装置。
（項目７７）
プロセッサおよびデータインタフェースを含み、前記プロセッサは前記データインタフェースを介してメモリに記憶された命令を読み出して、項目１から３８のいずれか一項に記載の方法を実行することを特徴とする、チップ。
（項目７８）
プログラムを記憶するためのメモリと、前記メモリに記憶された前記プログラムを実行するためのプロセッサとを含み、前記プログラムが実行された場合、前記プロセッサは項目１から３８のいずれか一項に記載の方法を実行するために用いられることを特徴とする、電子機器。
（項目７９）
プロセッサにより実行される時に前記プロセッサに項目１から３８のいずれか一項に記載の方法を実行させるプログラム命令を含むコンピュータプログラムが記憶されていることを特徴とする、コンピュータ可読記憶媒体。
（項目８０）
プロセッサにより実行される時に前記プロセッサに項目１から３８のいずれか一項に記載の方法を実行させるプログラム命令を含むことを特徴とする、コンピュータプログラム製品。

本願の実施例が提供する画像処理方法のフローチャートである。本願の実施例が提供する時系列オブジェクト候補集合の生成プロセスの模式図である。本願の実施例が提供するサンプリングプロセスの模式図である。本願の実施例が提供する非局所的な注意操作の計算プロセスの模式図である。本願の実施例が提供する画像処理装置の構成模式図である。本願の実施例が提供する候補評価方法のフローチャートである。本願の実施例が提供する別の候補評価方法のフローチャートである。本願の実施例が提供するさらに別の候補評価方法のフローチャートである。本願の実施例が提供する別の画像処理装置の構成模式図である。本願の実施例が提供する候補評価装置の構成模式図である。本願の実施例が提供する別の候補評価装置の構成模式図である。本願の実施例が提供するさらに別の候補評価装置の構成模式図である。本願の実施例が提供するサーバの構成模式図である。

本発明の実施例における技術的解決手段をより明確に説明するために、以下に本発明の実施例または背景技術に用いられる図面について説明する。

本願の実施例の解決手段を当業者により好適に理解させるために、以下に本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段を明確に説明し、当然ながら、説明される実施例は本願の実施例の一部に過ぎず、全ての実施例ではない。

本願の明細書における実施例、特許請求の範囲、および上記図面における「第１」、「第２」、および「第３」などの用語は、必ずしも特定の順序または優先順位を記述するためのものではなく、類似する対象を区別するためのものである。また、「含む」、「有する」という用語およびそれらのいかなる変形も、例えば一連のステップまたはユニットを含むように、非排他的に含むことを意図する。方法、システム、製品または機器は必ずしも明記されたステップまたはユニットに限定されるものではなく、明記されていないまたはこれらのプロセス、方法、製品または機器に固有の他のステップまたはユニットを含んでもよい。

なお、本開示の実施例は様々な時系列オブジェクト候補の生成および評価、例えば、ビデオストリームにおいて特定の人物が現れた時間帯の検出またはビデオストリームにおいて動作が現れた時間帯の検出などに適用することができ、理解の便宜上、以下の例ではいずれも動作候補により説明するが、本開示の実施例はこれを限定しないことが理解される。

時系列動作検出タスクは未トリミングの長いビデオから動作の具体的な発生時間および種別を特定することを目的としている。このような課題では生成される時系列動作候補の品質が１つの大きな難点である。現在、主流となる時系列動作候補の生成方法は高品質の時系列動作候補を得ることができない。したがって、高品質の時系列動作候補を得るために、新たな時系列候補生成方法を研究する必要がある。本願の実施例が提供する技術的解決手段は、２つ以上の時系列に従ってビデオにおける任意時刻の動作確率または境界確率を評価し、得られた複数の評価結果（動作確率または境界確率）を融合し、高品質の確率系列を得て、さらに高品質の時系列オブジェクト候補集合（提案候補集合ともいう）を生成することができる。

本願の実施例が提供する時系列候補の生成方法は知的ビデオ分析、セキュリティ監視などのシーンに適用することができる。以下に本願の実施例が提供する時系列候補の生成方法の知的ビデオ分析シーンおよびセキュリティ監視シーンにおける応用を簡単に説明する。

知的ビデオ分析のシーン
例を挙げれば、画像処理装置、例えばサーバは、ビデオから抽出された特徴系列を処理して提案候補集合および前記提案候補集合内の各候補の信頼度スコアを得て、そして前記提案候補集合および前記提案候補集合内の各候補の信頼度スコア基づいて時系列動作を特定し、それにより前記ビデオにおけるハイライト場面（例えば戦闘場面）を抽出する。また例を挙げれば、画像処理装置、例えばサーバは、ユーザが視聴したビデオについて時系列動作を検出し、それにより前記ユーザが好むビデオのタイプを予測し、前記ユーザに類似のビデオを推奨する。

セキュリティ監視のシーン
画像処理装置は、監視ビデオから抽出された特徴系列を処理して提案候補集合および前記提案候補集合内の各候補の信頼度スコアを得て、そして前記提案候補集合および前記提案候補集合内の各候補の信頼度スコアに基づいて時系列動作を特定し、それにより前記監視ビデオにおける何らかの時系列動作を含む場面を抽出する。例えば、或る交差点の監視ビデオから車両の出入場面を抽出する。また例を挙げれば、複数の監視ビデオについて時系列動作を検出し、それにより前記複数の監視ビデオから何らかの時系列動作、例えば車両が人に衝突した動作を含むビデオを探し出す。

上記シーンでは、本願が提供する時系列候補の生成方法を採用すれば、高品質の時系列オブジェクト候補集合を得て、時系列動作検出タスクを高効率に完了することができる。以下、技術的解決手段の説明は時系列動作を例にするが、本開示の実施例は他のタイプの時系列オブジェクト検出に適用してもよく、本開示の実施例はこれを限定しない。

図１は本願の実施例が提供する画像処理方法である。

１０１において、ビデオストリームの第１特徴系列を取得する。

前記第１特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む。本願の実施例の実行主体は画像処理装置、例えば、サーバ、端末機器または他のコンピュータ機器である。ビデオストリームの第１特徴系列の取得は画像処理装置が前記ビデオストリームの時系列に従って前記ビデオストリームに含まれる複数のセグメントの各々を特徴抽出して前記第１特徴系列を得るようにしてもよい。いくつかの実施例では、前記第１特徴系列は画像処理装置により２ストリームネットワーク（ｔｗｏ－ｓｔｒｅａｍｎｅｔｗｏｒｋ）を用いて前記ビデオストリームを特徴抽出して得られた元の２ストリーム特徴系列であってもよい。または、第１特徴系列は画像処理装置により他のタイプのニューラルネットワークを用いてビデオストリームを特徴抽出して得られたものであり、または、第１特徴系列は画像処理装置により他の端末またはネットワーク機器から取得されたものであり、本開示の実施例はこれを限定しない。

１０２において、第１特徴系列に基づき、第１のオブジェクト境界確率系列を得る。

前記第１のオブジェクト境界確率系列は前記複数のセグメントがオブジェクト境界に属する確率、例えば、複数のセグメントの各々がオブジェクト境界に属する確率を含む。いくつかの実施例では、前記第１特徴系列を候補生成ネットワークに入力して処理して前記第１のオブジェクト境界確率系列を得るようにしてもよい。第１のオブジェクト境界確率系列は第１開始確率系列および第１終了確率系列を含んでもよい。前記第１開始確率系列内の各開始確率は前記ビデオストリームに含まれる複数のセグメントのうちのいずれかが開始動作に対応する確率、即ち或るセグメントが動作開始セグメントである確率を表す。前記第１終了確率系列内の各終了確率は前記ビデオストリームに含まれる複数のセグメントのうちのいずれかが終了動作に対応する確率、即ち或るセグメントが動作終了セグメントである確率を表す。

１０３において、ビデオストリームの第２特徴系列に基づき、第２のオブジェクト境界確率系列を得る。

前記第２特徴系列は前記第１特徴系列に含まれる特徴データと同じでありかつ並び順が反対になる。例を挙げれば、第１特徴系列は順に第１特徴から第Ｍ特徴を含み、第２特徴系列は順に前記第Ｍ特徴から前記第１特徴を含み、Ｍは１より大きい整数である。任意選択的に、いくつかの実施例では、前記第２特徴系列は前記第１特徴系列内の特徴データの時系列を逆転させて得られた特徴系列、または逆転後にさらに他の処理を施して得られた特徴系列であってもよい。任意選択的に、画像処理装置はステップ１０３を実行する前に、前記第１特徴系列に対して時系列逆転処理を行い、前記第２特徴系列を得る。または、第２特徴系列は他の方式で得られたものであり、本開示の実施例はこれを限定しない。

いくつかの実施例では、前記第２特徴系列を候補生成ネットワークに入力して処理して前記第２のオブジェクト境界確率系列を得るようにしてもよい。第２のオブジェクト境界確率系列は第２開始確率系列および第２終了確率系列を含んでもよい。前記第２開始確率系列内の各開始確率は前記ビデオストリームに含まれる複数のセグメントのうちのいずれかが開始動作に対応する確率、即ち或るセグメントが動作開始セグメントである確率を表す。前記第２終了確率系列内の各終了確率は前記ビデオストリームに含まれる複数のセグメントのいずれかが終了動作に対応する確率、即ち或るセグメントが動作終了セグメントである確率を表す。こうして、前記第１開始確率系列と前記第２開始確率系列は複数の同じセグメントに対応する開始確率を含むようになる。例を挙げれば、第１開始確率系列には順に第１セグメントから第Ｎセグメントに対応する開始確率が含まれ、第２開始確率系列には順に前記第Ｎセグメントから第１セグメントに対応する開始確率が含まれる。同様に、前記第１終了確率系列と前記第２終了確率系列は複数の同じセグメントに対応する終了確率を含む。例を挙げれば、第１終了確率系列には順に第１セグメントから第Ｎセグメントに対応する終了確率が含まれ、第２終了確率系列には順に前記第Ｎセグメントから第１セグメントに対応する終了確率が含まれる。

１０４において、前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成する。

いくつかの実施例では、前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得て、そして前記目標境界確率系列に基づき、前記時系列オブジェクト候補集合を生成するようにしてもよい。例えば、前記第２のオブジェクト境界確率系列に対して時系列逆転処理を行い、第３のオブジェクト境界確率系列を得て、前記第１のオブジェクト境界確率系列と前記第３のオブジェクト境界確率系列を融合し、前記目標境界確率系列を得る。また例えば、前記第１のオブジェクト境界確率系列に対して時系列逆転処理を行い、第４のオブジェクト境界確率系列を得て、前記第２のオブジェクト境界確率系列と前記第４のオブジェクト境界確率系列を融合し、前記目標境界確率系列を得る。

本願の実施例では、融合後の確率系列に基づいて時系列オブジェクト候補集合を生成しており、境界がより正確な確率系列を得て、生成される時系列オブジェクト候補の境界をより正確にすることができる。

以下に操作１０１の具体的な実施形態を説明する。

いくつかの実施例では、画像処理装置は２つの候補生成ネットワークを用いて前記第１特徴系列および第２特徴系列をそれぞれ処理し、例えば、画像処理装置は前記第１特徴系列を第１候補生成ネットワークに入力して処理し、前記第１のオブジェクト境界確率系列を得て、および前記第２特徴系列を第２候補生成ネットワークに入力して処理し、前記第２のオブジェクト境界確率系列を得る。前記第１候補生成ネットワークと第２候補生成ネットワークは同じであってもなくてもよい。任意選択的に、前記第１候補生成ネットワークと第２候補生成ネットワークは構造もパラメータ設定も同じであり、画像処理装置はこの２つのネットワークを用いて並行的にまたは任意の前後順序で前記第１特徴系列および前記第２特徴系列を処理することができ、または、第１候補生成ネットワークと第２候補生成ネットワークは同じハイパーパラメータを有し、ネットワークパラメータが訓練プロセスにおいて学習して得られており、その値は同じであってもなくてもよい。

別のいくつかの実施例では、画像処理装置は同一の候補生成ネットワークを用いて前記第１特徴系列および前記第２特徴系列を逐次的に処理するようにしてもよい。例えば、画像処理装置はまず前記第１特徴系列を候補生成ネットワークに入力して処理し、前記第１のオブジェクト境界確率系列を得て、次に前記第２特徴系列を候補生成ネットワークに入力して処理し、前記第２のオブジェクト境界確率系列を得る。

本開示の実施例では、任意選択的に、候補生成ネットワークは３つの時系列畳み込み層を含むか、または他の数の畳み込み層および／または他のタイプの処理層を含む。各時系列畳み込み層は

として定義され、ここで、

はそれぞれ畳み込みカーネルの数、畳み込みカーネルのサイズおよび活性化関数を表す。一例では、各候補生成ネットワークの最初の２つの時系列畳み込み層に関して、

は５１２としてもよく、

は３としてもよく、活性化関数は整流線形ユニット（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ、ＲｅＬＵ）が使用され、最後の時系列畳み込み層の

は３としてもよく、

は１としてもよく、予測出力としてＳｉｇｍｏｉｄ活性化関数が使用されるが、本開示の実施例は候補生成ネットワークの具体的な実施形態を限定しない。

前記実施形態では、画像処理装置は、処理して得られた２つのオブジェクト境界確率系列を融合してより正確なオブジェクト境界確率系列を得るために、第１特徴系列および第２特徴系列をそれぞれ処理する。

以下に、第１のオブジェクト境界確率系列と第２のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得る方法について説明する。

選択可能な一実施形態では、前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列の各々は開始確率系列および終了確率系列を含む。それに対して、前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列のうちの開始確率系列の融合処理を行い、目標開始確率系列を得て、および／または、前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列のうちの終了確率系列の融合処理を行い、目標終了確率系列を得て、ここで、前記目標境界確率系列は前記目標開始確率系列および前記目標終了確率系列のうちの少なくとも一つを含む。

一代替例では、前記第２開始確率系列内の各確率の順序を逆転させて参照開始確率系列を得て、前記第１開始確率系列内の確率は前記参照開始確率系列内の確率と順に対応し、そして前記第１開始確率系列と前記参照開始確率系列を融合し、目標開始確率系列を得る。例を挙げれば、第１開始確率系列には順に第１セグメントから第Ｎセグメントに対応する開始確率があり、第２開始確率系列には順に前記第Ｎセグメントから第１セグメントに対応する開始確率があり、前記第２開始確率系列内の各確率の順序を逆転させて得られた参照開始確率系列には順に前記第１セグメントから前記第Ｎセグメントに対応する開始確率がある場合、前記第１開始確率系列と前記参照開始確率系列内の第１セグメントから第Ｎセグメントに対応する開始確率の平均値を順に前記目標開始確率のうちの前記第１セグメントから前記第Ｎセグメントに対応する開始確率とし、前記目標開始確率系列を得るように、つまり、前記第１開始確率系列内の第ｉセグメントに対応する開始確率と前記参照開始確率系列内の第ｉセグメントの開始確率との平均値を前記目標開始確率のうちの前記第ｉセグメントに対応する開始確率とするようにしており、ここで、ｉ＝１、……、Ｎである。

同様に、選択可能な一実施形態では、前記第２終了確率系列内の各確率の順序を逆転させて参照終了確率系列を得て、前記第１終了確率系列内の確率は前記参照終了確率系列内の確率と順に対応し、そして前記第１終了確率系列と前記参照終了確率系列を融合し、前記目標終了確率系列を得る。例を挙げれば、第１終了確率系列には順に第１セグメントから第Ｎセグメントに対応する終了確率があり、第２終了確率系列には順に前記第Ｎセグメントから第１セグメントに対応する終了確率があり、前記第２終了確率系列内の各確率の順序を逆転させて得られた参照終了確率系列には順に前記第１セグメントから前記第Ｎセグメントに対応する終了確率がある場合、前記第１終了確率系列と前記参照終了確率系列内の第１セグメントから第Ｎセグメントに対応する終了確率の平均値を順に前記目標終了確率のうちの前記第１セグメントから前記第Ｎセグメントに対応する終了確率とし、目標終了確率系列を得る。

任意選択的に、他の方式で２つの確率系列内の開始確率または終了確率を融合してもよく、本開示の実施例はこれを限定しない。

本願の実施例は、２つのオブジェクト境界系列の融合処理を行うことで、境界がより正確なオブジェクト境界確率系列を得て、さらに品質がより高い時系列オブジェクト候補集合を生成することができる。

以下に目標境界確率系列に基づいて時系列オブジェクト候補集合を生成する具体的な実施形態を説明する。

選択可能な一実施形態では、目標境界確率系列は目標開始確率系列および目標終了確率系列を含み、それに対して、前記目標境界確率系列に含まれる目標開始確率系列および目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成することができる。

別の代替的な実施形態では、目標境界確率系列は目標開始確率系列を含み、それに対して、前記目標境界確率系列に含まれる目標開始確率系列および前記第１のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成することができ、または、前記目標境界確率系列に含まれる目標開始確率系列および前記第２のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成することができる。

別の代替的な実施形態では、目標境界確率系列は目標終了確率系列を含み、それに対して、前記第１のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成することができ、または、前記第２のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成することができる。

以下に目標開始確率系列および目標終了確率系列を例にし、時系列オブジェクト候補集合を生成する方法を説明する。

任意選択的に、前記目標開始確率系列に含まれる前記複数のセグメントの目標開始確率に基づき、複数のオブジェクト開始セグメントを含む第１セグメント集合を得て、前記目標終了確率系列に含まれる前記複数のセグメントの目標終了確率に基づき、複数のオブジェクト終了セグメントを含む第２セグメント集合を得て、そして前記第１セグメント集合および前記第２セグメント集合に基づき、前記時系列オブジェクト候補集合を生成するようにしてもよい。

いくつかの例では、例えば、目標開始確率が第１閾値を超えたセグメントをオブジェクト開始セグメントとし、または、局所エリアにおいて最も高い目標開始確率を有するセグメントをオブジェクト開始セグメントとし、または目標開始確率がその隣接の少なくとも２つのセグメントの目標開始確率より高いセグメントをオブジェクト開始セグメントとし、または目標開始確率が１つ前のセグメントおよび１つ後のセグメントの目標開始確率より高いセグメントをオブジェクト開始セグメントとするなど、複数のセグメントの各々の目標開始確率に基づき、複数のセグメントからオブジェクト開始セグメントを選択してもよく、本開示の実施例はオブジェクト開始セグメントを決定する具体的な実施形態を限定しない。

いくつかの例では、例えば、目標終了確率が第１閾値を超えたセグメントをオブジェクト終了セグメントとし、または、局所エリアにおいて最も高い目標終了確率を有するセグメントをオブジェクト終了セグメントとし、または目標終了確率がその隣接の少なくとも２つのセグメントの目標終了確率より高いセグメントをオブジェクト終了セグメントとし、または目標終了確率が１つ前のセグメントおよび１つ後のセグメントの目標終了確率より高いセグメントをオブジェクト終了セグメントとするなど、複数のセグメントの各々の目標終了確率に基づき、複数のセグメントからオブジェクト終了セグメントを選択してもよく、本開示の実施例はオブジェクト終了セグメントを決定する具体的な実施形態を限定しない。

選択可能な一実施形態では、前記第１セグメント集合内の１つのセグメントに対応する時点を１つの時系列オブジェクト候補の開始時点とし、および前記第２セグメント集合内の１つのセグメントに対応する時点を前記時系列オブジェクト候補の終了時点とする。例を挙げれば、第１セグメント集合内の１つのセグメントが第１時点に対応し、第２セグメント集合内の１つのセグメントが第２時点に対応する場合、前記第１セグメント集合および前記第２セグメント集合に基づいて生成される時系列オブジェクト候補集合に含まれる１つの時系列オブジェクト候補は［第１時点第２時点］となる。前記第１閾値は０．７、０．７５、０．８、０．８５、０．９などであってもよい。前記第２閾値は０．７、０．７５、０．８、０．８５、０．９などであってもよい。

任意選択的に、前記目標開始確率系列に基づいて第１時点集合を得て、および前記目標終了確率系列に基づいて第２時点集合を得て、前記第１時点集合は前記目標開始確率系列内の対応する確率が第１閾値を超えた時点および／または少なくとも１つの局所時点を含み、任意の局所時点の前記目標開始確率系列における対応する確率は前記任意の局所時点の隣接時点の前記目標開始確率系列における対応する確率より高く、前記第２時点集合は前記目標終了確率系列内の対応する確率が第２閾値を超えた時点および／または少なくとも１つの参照時点を含み、任意の参照時点の前記目標終了確率系列における対応する確率は前記任意の参照時点の隣接時点の前記目標終了確率系列における対応する確率より高く、そして前記第１時点集合および前記第２時点集合に基づき、前記時系列候補集合を生成し、前記時系列候補集合内の任意の候補の開始時点は前記第１時点集合内の１つの時点であり、前記任意の候補の終了時点は前記第２時点集合内の１つの時点であり、前記開始時点は前記終了時点よりも前となる。

前記第１閾値は０．７、０．７５、０．８、０．８５、０．９などであってもよい。前記第２閾値は０．７、０．７５、０．８、０．８５、０．９などであってもよい。第１閾値と第２閾値は同じであってもなくてもよい。任意の局所時点は目標開始確率系列における対応する確率が１つ前の時点に対応する確率および１つ後の時点に対応する確率より高い時点であってもよい。任意の参照時点は目標終了確率系列における対応する確率が１つ前の時点に対応する確率および１つ後の時点に対応する確率より高い時点であってもよい。時系列オブジェクト候補集合の生成プロセスは以下のように解されてもよい。まず、目標開始確率系列および目標終了確率系列から、（１）前記時点の確率が１つの閾値より高いこと、（２）前記時点の確率が１つ前または前の複数の時点および１つ後または後の複数の時点の確率より高いこと（即ち１つの確率ピークに対応する時点）という２つの条件の１つを満たす時点を提案時系列境界ノード（提案開始時点および提案終了時点を含む）として選択し、続いて、提案開始時点と提案終了時点を２つずつ組み合わせ、時間長が要求を満たす提案開始時点－提案終了時点の組み合わせを時系列動作候補として保存する。時間長が要求を満たす提案開始時点－提案終了時点の組み合わせは提案開始時点が提案終了時点よりも前となる組み合わせであってもよく、提案開始時点と提案終了時点との間隔が第３閾値より大きくかつ第４閾値より小さい組み合わせであってもよく、ここで、前記第３閾値および前記第４閾値は実際の需要に応じて設定してもよく、例えば前記第３閾値は１ｍｓとし、前記第４閾値は１００ｍｓとする。

そのうち、提案開始時点は前記第１時点集合に含まれる時点であり、提案終了時点は前記第２時点集合に含まれる時点である。図２は本願の実施例が提供する時系列候補集合の生成プロセスの模式図である。図２に示すように、対応する確率が第１閾値を超えた開始時点および確率ピークに対応する時点は提案開始時点であり、対応する確率が第２閾値を超えた終了時点および確率ピークに対応する時点は提案終了時点である。図２における各リンク線はそれぞれ１つの時系列候補（即ち１つの提案開始時点と提案終了時点の組み合わせ）に対応し、各時系列候補において提案開始時点が提案終了時点よりも前となり、かつ提案開始時点と提案終了時点との時間間隔が時間長の要求を満たす。

前記実施形態では、時系列オブジェクト候補集合を高速で正確に生成できる。

上記実施例は時系列オブジェクト候補集合の生成方式を説明し、実際の応用では、時系列オブジェクト候補集合を得た後、通常、各時系列オブジェクト候補の品質を評価し、品質評価結果に基づいて時系列オブジェクト候補集合を出力する必要がある。以下に時系列オブジェクト候補の品質を評価する方式を説明する。

選択可能な一実施形態では、時系列オブジェクト候補集合内の各時系列オブジェクト候補の候補特徴を含む候補特徴集合を得て、前記候補特徴集合を候補評価ネットワークに入力して処理し、前記時系列オブジェクト候補集合内の各時系列オブジェクト候補の少なくとも２つの品質指標を得て、そして前記各時系列オブジェクト候補の少なくとも２つの品質指標に基づき、各時系列オブジェクト候補の評価結果（例えば信頼度スコア）を得る。

任意選択的に、前記候補評価ネットワークはニューラルネットワークであってもよく、前記候補評価ネットワークは前記候補特徴集合内の各候補特徴を処理し、各時系列オブジェクト候補の少なくとも２つの品質指標を得るために用いられ、前記候補評価ネットワークは並行する２つ以上の候補評価サブネットワークを含んでもよく、各候補評価サブネットワークは各時系列に対応する候補の１つの品質指標を特定するために用いられる。例を挙げれば、前記候補評価ネットワークは並行する３つの候補評価サブネットワーク、即ち第１候補評価サブネットワーク、第２候補評価サブネットワークおよび第３候補評価サブネットワークを含み、いずれの候補評価サブネットワークも３つの全結合層を含み、そのうち、前の２つの全結合層は入力される候補特徴を処理するための１０２４個のユニットをそれぞれ含み、かつＲｅｌｕを活性化関数として使用し、３つ目の全結合層は１つの出力ノードを含み、Ｓｉｇｍｏｉｄ活性化関数によって対応する予測結果を出力し、前記第１候補評価サブネットワークは時系列候補の全体的な品質（ｏｖｅｒａｌｌ－ｑｕａｌｉｔｙ）を反映する第１指標（即ち時系列候補と真値との共通部分が和集合を占める割合）を出力し、前記第２候補評価サブネットワークは時系列候補の完全度品質（ｃｏｍｐｌｅｔｅｎｅｓｓ－ｑｕａｌｉｔｙ）を反映する第２指標（即ち時系列候補と真値との共通部分が時系列候補の長さを占める割合）を出力し、前記第３候補評価サブネットワークは時系列候補の動作品質（ａｃｔｉｏｎｎｅｓｓ－ｑｕａｌｉｔｙ）を反映する第３指標（時系列候補と真値との共通部分が真値の長さを占める割合）を出力する。ＩｏＵ、ＩｏＰ、ＩｏＧは順に前記第１指標、前記第２指標および前記第３指標を表すことができる。前記候補評価ネットワークに対応する損失関数は下記関数としてもよい。

ここで、

は重み係数でありかつ実情に応じて設定してもよい。

は順に第１指標（ＩｏＵ）、第２指標（ＩｏＰ）および第３指標（ＩｏＧ）の損失を表す。

はいずれも

損失関数を用いて計算可能であり、また他の損失関数を用いてもよい。

損失関数は以下のように定義される。

関して、（２）中のｘはＩｏＵであり、

関して、（２）中のｘはＩｏＰであり、

に関して、（２）中のｘはＩｏＧである。ＩｏＵ、ＩｏＰおよびＩｏＧの定義に応じて、画像処理装置はＩｏＰおよびＩｏＧから

を追加的に算出し、続いて特定スコア

を得ることができる。ここで、

は時系列候補のＩｏＵを表し、

は時系列候補の

を表す。つまり、つまり、

は

はＩｏＵである。

は０．６としてもよく、他の定数としてもよい。画像処理装置は、下式によって候補の信頼度スコアを算出してもよい。

式中、

は前記時系列候補に対応する開始確率を表し、

は前記時系列候補に対応する終了確率を表す。

以下に画像処理装置が候補特徴集合を得る方式を説明する。

任意選択的に、候補特徴集合を得るステップは、第１特徴系列と目標動作確率系列をチャネル次元で連接し、ビデオ特徴系列を得るステップと、第１の時系列オブジェクト候補の前記ビデオ特徴系列における対応する目標ビデオ特徴系列を得るステップであって、前記第１の時系列オブジェクト候補は前記時系列オブジェクト候補集合に含まれ、前記第１の時系列オブジェクト候補に対応する時間帯は前記目標ビデオ特徴系列に対応する時間帯と同じであるステップと、前記目標ビデオ特徴系列をサンプリングし、前記第１の時系列オブジェクト候補の候補特徴でありかつ前記候補特徴集合に含まれる目標候補特徴を得るステップと、を含んでもよい。

任意選択的に、前記目標動作確率系列は前記第１特徴系列を前記第１候補生成ネットワークに入力して処理して得られた第１動作確率系列であってもよく、または、前記第２特徴系列を前記第２候補生成ネットワークに入力して処理して得られた第２動作確率系列であってもよく、または、前記第１動作確率系列と前記第２動作確率系列を融合して得られた確率系列であってもよい。前記第１候補生成ネットワーク、前記第２候補生成ネットワークおよび前記候補評価ネットワークは１つのネットワークとして共同訓練して得られてもよい。前記第１特徴系列も前記目標動作確率系列も１つの三次元行列と対応付けられてもよい。前記第１特徴系列および前記目標動作確率系列に含まれるチャネル数は同じまたは異なり、各チャネル上の対応する二次元行列のサイズは同じである。したがって、前記第１特徴系列と前記目標動作確率系列をチャネル次元で連接し、前記ビデオ特徴系列を得ることができる。例を挙げれば、第１特徴系列が４００個のチャネルを含む１つの三次元行列に対応し、目標動作確率系列が１つの二次元行列（１つのチャネルを含む三次元行列と解されてもよい）に対応する場合、前記ビデオ特徴系列は４０１個のチャネルを含む１つの三次元行列に対応するようになる。

前記第１の時系列オブジェクト候補は時系列オブジェクト候補集合内の任意の時系列オブジェクト候補である。なお、画像処理装置は同じ方式で時系列オブジェクト候補集合内の各時系列オブジェクト候補の候補特徴を特定できることが理解される。ビデオ特徴系列は画像処理装置がビデオストリームに含まれる複数のセグメントから抽出した特徴データを含む。第１の時系列オブジェクト候補の前記ビデオ特徴系列における対応する目標ビデオ特徴系列の取得は前記ビデオ特徴系列における前記第１の時系列オブジェクト候補に対応する時間帯に対応する目標ビデオ特徴系列を取得してもよい。例を挙げれば、第１の時系列オブジェクト候補に対応する時間帯がＰミリ秒目からＱミリ秒目である場合、ビデオ特徴系列におけるＰミリ秒目からＱミリ秒目に対応する部分特徴系列は目標ビデオ特徴系列となる。ＰもＱも０より大きい実数である。前記目標ビデオ特徴系列をサンプリングし、目標候補特徴を得るステップは、前記目標ビデオ特徴系列をサンプリングし、目標長さの目標候補特徴を得るようにしてもよい。なお、画像処理装置は各時系列オブジェクト候補に対応するビデオ特徴系列をサンプリングし、１つの目標長さで候補特徴を得ることが理解される。つまり、各時系列オブジェクト候補の候補特徴の長さは同じである。各時系列オブジェクト候補の候補特徴は複数のチャネルを含む１つの行列に対応し、かつ各チャネル上は１つの目標長さの一次元行列とされる。例えば、ビデオ特徴系列が４０１個のチャネルを含む１つの三次元行列に対応し、各時系列オブジェクト候補の候補特徴が１つのＴ_Ｓ行４０１列の二次元行列に対応する場合、１行が１つのチャネルに対応することが理解される。Ｔ_Ｓは目標長さであり、Ｔ_Ｓは１６としてもよい。

前記方式では、画像処理装置は時間長が異なる時系列候補に基づき、固定長さの候補特徴を得ることができ、簡単に実現できる。

任意選択的に、候補特徴集合を得るステップは、前記第１特徴系列と目標動作確率系列をチャネル次元で連接し、ビデオ特徴系列を得るステップと、前記ビデオ特徴系列に基づき、第１の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯より長く、前記第１の時系列オブジェクト候補は前記時系列オブジェクト候補集合に含まれるステップと、前記ビデオ特徴系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯と同じであるステップと、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の目標候補特徴を得るステップと、を含んでもよい。画像処理装置は前記第１特徴系列および前記第２特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得ることができる。前記目標動作確率系列は前記第１特徴系列を前記第１候補生成ネットワークに入力して処理して得られた第１動作確率系列であってもよく、または、前記第２特徴系列を前記第２候補生成ネットワークに入力して処理して得られた第２動作確率系列であってもよく、または、前記第１動作確率系列と前記第２動作確率系列を融合して得られた確率系列であってもよい。

前記ビデオ特徴系列に基づき、第１の時系列オブジェクト候補の長時間候補特徴を得るステップは、前記ビデオ特徴系列における参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るようにしてもよく、ここで、前記参照時間区間は前記時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間である。前記長時間候補特徴は、複数のチャネルを含む行列であってもよく、かつ各チャネル上は長さがＴ_Ｌの一次元行列とされる。例えば、長時間候補特徴が１つのＴ_Ｌ行４０１列の二次元行列である場合、１行が１つのチャネルに対応することが理解される。Ｔ_ＬはＴ_Ｓより大きい整数である。例えばＴ_Ｓは１６であり、Ｔ_Ｌは１００である。前記ビデオ特徴系列をサンプリングし、長時間候補特徴を得るステップは、前記ビデオ特徴系列における参照時間区間内の特徴をサンプリングし、前記長時間候補特徴を得るようにしてもよく、前記参照時間区間は前記時系列オブジェクト候補集合に基づいて決定された最初の動作の開始時間および最後の動作の終了時間に対応する。図３は本願の実施例が提供するサンプリングプロセスの模式図である。図３に示すように、参照時間区間は開始エリア３０１、中央エリア３０２および終了エリア３０３を含み、中央エリア３０２の開始セグメントは最初の動作の開始セグメントであり、中央エリア３０２の終了セグメントは最後の動作の終了セグメントであり、開始エリア３０１および終了エリア３０３に対応する時間長はいずれも中央エリア３０２に対応する時間長の十分の一であり、３０４はサンプリングして得られた長時間候補特徴を表す。

いくつかの実施例では、前記ビデオ特徴系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得るステップは、前記第１の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るようにしてもよい。ここで前記ビデオ特徴系列をサンプリングし、短時間候補特徴を得る方式は前記ビデオ特徴系列をサンプリングし、長時間候補特徴を得る方式に類似するので、詳細な説明を繰り返さない。

いくつかの実施例では、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の目標候補特徴を得るステップは、前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得て、そして前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るようにしてもよい。

図４は本願の実施例が提供する非局所的な注意操作の計算プロセスの模式図である。図４に示すように、Ｓは短時間候補特徴を表し、Ｌは長時間候補特徴を表し、Ｃ（０より大きい整数）はチャネル数に対応し、４０１から４０３および４０７はいずれも線形変換操作を表し、４０５は正規化処理を表し、４０４も４０６も行列乗算操作を表し、４０８は過剰適合処理を表し、４０９は加算操作を表す。ステップ４０１は短時間候補特徴を線形変換し、ステップ４０２は前記長時間候補特徴を線形変換し、ステップ４０３は長時間候補特徴を線形変換し、ステップ４０４は二次元行列（Ｔ_Ｓ×Ｃ）と二次元行列（Ｃ×Ｔ_Ｌ）の積を計算し、ステップ４０５はステップ４０４で算出された二次元行列（Ｔ_Ｓ×Ｔ_Ｌ）を正規化処理し、前記二次元行列（Ｔ_Ｓ×Ｔ_Ｌ）における各列の要素の和を１にし、ステップ４０６はステップ４０５で出力される二次元行列（Ｔ_Ｓ×Ｔ_Ｌ）と二次元行列（Ｔ_Ｌ×Ｃ）の積を計算し、新しい（Ｔ_Ｓ×Ｃ）の二次元行列を得て、ステップ４０７は前記新しい二次元行列（Ｔ_Ｓ×Ｃ）を線形変換して参照候補特徴を得て、ステップ４０８は過剰適合処理、即ちｄｒｏｐｏｕｔを実行して過剰適合の問題を解決し、ステップ４０９は前記参照候補特徴と前記短時間候補特徴の和を計算し、中間候補特徴Ｓ’を得る。前記参照候補特徴および前記短時間候補特徴に対応する行列はサイズが同じである。標準的な非ローカルブロック（Ｎｏｎ－ｌｏｃａｌｂｌｏｃｋ）により実行される非局所的な注意操作とは異なり、本願の実施例はＳとＬの双方向注意を用いて自己注意メカニズムを代替する。ここで、正規化処理の実施形態は、まずステップ４０４で算出された二次元行列（Ｔ_Ｓ×Ｔ_Ｌ）内の各要素を

に乗算して新しい二次元行列（Ｔ_Ｓ×Ｔ_Ｌ）を得て、さらにＳｏｆｔｍａｘ操作を実行するようにしてもよい。４０１から４０３および４０７で実行される線形操作は同じまたは異なる。任意選択的に、４０１から４０３および４０７はいずれも同一の線形関数に対応する。前記短時間候補特徴と前記中間候補特徴をチャネル次元で連接し、前記目標候補特徴を得るステップは、まず前記中間候補特徴のチャネル数をＣ個からＤ個に低減し、さらに前記短時間候補特徴と処理後の中間候補特徴（Ｄのチャネル数に対応する）をチャネル次元で連接するようにしてもよい。例を挙げれば、短時間候補特徴を（Ｔ_Ｓ×４０１）の二次元行列とし、中間候補特徴を（Ｔ_Ｓ×４０１）の二次元行列とし、線形変換によって前記中間候補特徴を（Ｔ_Ｓ×１２８）の二次元行列に変換し、前記短時間候補特徴と変化後の中間候補特徴をチャネル次元で連接し、（Ｔ_Ｓ×５２９）の二次元行列を得るようになり、ここで、ＤはＣより小さくかつ０より大きい整数であり、４０１はＣに対応し、１２８はＤに対応する。

前記方式では、長時間候補特徴と短時間候補特徴との間の対話情報および他のマルチ粒度の手掛かりを統合することで豊富な候補特徴を生成し、さらに候補品質評価の正確性を向上させることができる。

本願が提供する時系列候補の生成方式および候補品質の評価方式をより明確に説明するために、以下に画像処理装置の構造と関連付けてさらに説明する。

図５は本願の実施例が提供する画像処理装置の構成模式図である。図５に示すように、前記画像処理装置は、第１部分の特徴抽出モジュール５０１、第２部分の双方向評価モジュール５０２、第３部分の長時間特徴操作モジュール５０３、第４部分の候補スコアリングモジュール５０４の４つの部分を含んでもよい。特徴抽出モジュール５０１は未トリミングのビデオを特徴抽出して元の２ストリーム特徴系列（即ち第１特徴系列）を得るために用いられる。

特徴抽出モジュール５０１は２ストリームネットワーク（ｔｗｏ－ｓｔｒｅａｍｎｅｔｗｏｒｋ）を用いて未トリミングのビデオを特徴抽出してもよく、他のネットワークを用いて前記未トリミングのビデオを特徴抽出してもよく、本願はこれを限定しない。未トリミングのビデオを特徴抽出して特徴系列を得ることは当分野で慣用の技術手段であるので、ここでは説明を省略する。

双方向評価モジュール５０２は処理ユニットおよび生成ユニットを含んでもよい。図５中、５０２１は第１候補生成ネットワークを表し、５０２２は第２候補生成ネットワークを表し、前記第１候補生成ネットワークは入力される第１特徴系列を処理して第１開始確率系列、第１終了確率系列および第１動作確率系列を得るために用いられ、前記第２候補生成ネットワークは入力される第２特徴系列を処理して第２開始確率系列、第２終了確率系列および第２動作確率系列を得るために用いられる。図５に示すように、第１候補生成ネットワークも第２候補生成ネットワークも３つの時系列畳み込み層を含み、かつ設定されたパラメータも同じである。処理ユニットは、第１候補生成ネットワークおよび第２候補生成ネットワークの機能を実現するために用いられる。図５中のＦは逆転操作を表し、１つのＦは前記第１特徴系列内の各特徴の順序を時系列的に逆転させて第２特徴系列を得ることを表し、もう１つのＦは第２開始確率系列内の各確率の順序を逆転させて参照開始確率系列を得て、第２終了確率系列内の各確率の順序を逆転させて参照終了確率系列を得て、および第２動作確率系列内の各確率の順序を逆転させて参照動作確率系列を得ることを表す。処理ユニットは図５中の逆転操作を実現するために用いられる。図５中の「＋」は融合操作を表し、処理ユニットはさらに、第１開始確率系列と参照開始確率系列を融合して目標開始確率系列を得て、第１終了確率系列と参照終了確率系列を融合して目標終了確率系列を得て、および第１動作確率系列と参照動作確率系列を融合して目標動作確率系列を得るために用いられる。処理ユニットはさらに、上記第１セグメント集合および上記第２セグメント集合を特定するために用いられる。生成ユニットは、前記第１セグメント集合および前記第２セグメント集合に基づき、時系列オブジェクト候補集合（即ち図５中の提案候補集合）を生成するために用いられる。具体的な実施プロセスでは、生成ユニットはステップ１０４で言及された方法およびその置換可能な方法を実現してもよく、処理ユニットは具体的に、ステップ１０２およびステップ１０３で言及された方法およびその置換可能な方法を実行するために用いられる。

長時間特徴操作モジュール５０３は本願の実施例における特徴特定ユニットに対応する。図５中の「Ｃ」は連接操作を表し、１つの「Ｃ」は第１特徴系列と目標動作確率系列をチャネル次元で連接し、ビデオ特徴系列を得ることを表し、もう１つの「Ｃ」は元の短時間候補特徴と調整後の短時間候補特徴（中間候補特徴に対応する）をチャネル次元で連接し、目標候補特徴を得ることを表す。長時間特徴操作モジュール５０３は、前記ビデオ特徴系列内の特徴をサンプリングし、長時間候補特徴を得るために用いられ、また各時系列オブジェクト候補の前記ビデオ特徴系列における対応する部分特徴系列を特定し、各時系列オブジェクト候補の前記ビデオ特徴系列における対応する部分特徴系列をサンプリングして各時系列オブジェクト候補の短時間候補特徴（上記元の短時間候補特徴に対応する）を得るためにも用いられ、また前記長時間候補特徴および各時系列オブジェクト候補の短時間候補特徴を入力として非局所的な注意操作を実行して各時系列オブジェクト候補に対応する中間候補特徴を得るためにも用いられ、さらに、各時系列オブジェクト候補の短時間候補特徴と各時系列オブジェクト候補に対応する中間候補特徴をチャネル上で連接して候補特徴集合を得るためにも用いられる。

候補スコアリングモジュール５０４は本願における評価ユニットに対応する。図５中の５０４１は候補評価ネットワークであり、前記候補評価ネットワークは３つのサブネットワーク、即ち第１候補評価サブネットワーク、第２候補評価サブネットワークおよび第３候補評価サブネットワークを含んでもよい。前記第１候補評価サブネットワークは入力される候補特徴集合を処理して時系列オブジェクト候補集合内の各時系列オブジェクト候補の第１指標（即ちＩｏＵ）を出力するために用いられ、前記第２候補評価サブネットワークは入力される候補特徴集合を処理して時系列オブジェクト候補集合内の各時系列オブジェクト候補の第２指標（即ちＩｏＰ）を出力するために用いられ、前記第３候補評価サブネットワークは入力される候補特徴集合を処理して時系列オブジェクト候補集合内の各時系列オブジェクト候補の第３指標（即ちＩｏＧ）を出力するために用いられる。この３つの候補評価サブネットワークのネットワーク構造は同じであってもなくてもよく、各候補評価サブネットワークに対応するパラメータは異なる。候補スコアリングモジュール５０４は候補評価ネットワークの機能を実現するために用いられ、また各時系列オブジェクト候補の少なくとも２つの品質指標に基づき、前記各時系列オブジェクト候補の信頼度スコアを決定するためにも用いられる。

なお、図５に示す画像処理装置の各モジュールの分割は論理機能の分割にすぎず、実際に実現時に全てまたは部分的に１つの物理的なエンティティに統合してもよく、物理的に分離してもよいことを理解すべきである。かつこれらのモジュールは全て処理素子によって呼び出すソフトウェアの形で実現してもよく、全てハードウェアの形で実現してもよく、また一部のモジュールを処理素子によって呼び出すソフトウェアの形で実現し、一部のモジュールをハードウェアの形で実現するようにしてもよい。

図５からわかるように、画像処理装置は主に、時系列動作候補生成および候補品質評価の２つのサブタスクを完了する。そのうち、双方向評価モジュール５０２は時系列動作候補生成を完了するために用いられ、長時間特徴操作モジュール５０３および候補スコアリングモジュール５０４は候補品質評価を完了するために用いられる。実際の応用では、画像処理装置はこの２つのサブタスクを実行する前に、第１候補生成ネットワーク５０２１、第２候補生成ネットワーク５０２２および候補評価ネットワーク５０４１を得るかまたは訓練する必要がある。一般的に用いられるボトムアップの候補生成方法において、時系列候補生成および候補品質評価は独立して訓練を行うことが多く、全体的な最適化がなされていない。本願の実施例では、時系列動作候補生成と候補品質評価を統一のフレームワークに統合して共同訓練する。以下に第１候補生成ネットワーク、第２候補生成ネットワークおよび候補評価ネットワークを訓練して得る方式を説明する。

任意選択的に、訓練プロセスは以下のとおりである。第１訓練サンプルを前記第１候補生成ネットワークに入力して処理して第１サンプル開始確率系列、第１サンプル動作確率系列、第１サンプル終了確率系列を得て、および第２訓練サンプルを前記第２候補生成ネットワークに入力して処理して第２サンプル開始確率系列、第２サンプル動作確率系列、第２サンプル終了確率系列を得る。前記第１サンプル開始確率系列と前記第２サンプル開始確率系列を融合し、目標サンプル開始確率系列を得る。前記第１サンプル終了確率系列と前記第２サンプル終了確率系列を融合し、目標サンプル終了確率系列を得る。前記第１サンプル動作確率系列と前記第２サンプル動作確率系列を融合し、目標サンプル動作確率系列を得る。前記目標サンプル開始確率系列と前記目標サンプル終了確率系列に基づき、前記サンプル時系列オブジェクト候補集合を生成する。サンプル時系列オブジェクト候補集合、目標サンプル動作確率系列および第１訓練サンプルに基づいてサンプル候補特徴集合を得る。前記サンプル候補特徴集合を前記候補評価ネットワークに入力して処理し、前記サンプル候補特徴集合内の各サンプル候補特徴の少なくとも１つの品質指標を得る。前記各サンプル候補特徴の少なくとも１つの品質指標に基づき、前記各サンプル候補特徴の信頼度スコアを決定する。前記第１候補生成ネットワークおよび前記第２候補生成ネットワークに対応する第１損失と前記候補評価ネットワークに対応する第２損失の重み付け和に基づき、前記第１候補生成ネットワーク、前記第２候補生成ネットワークおよび前記候補評価ネットワークを更新する。

サンプル時系列オブジェクト候補集合、目標サンプル動作確率系列および第１訓練サンプルに基づいてサンプル候補特徴集合を得る操作は図５中の長時間特徴操作モジュール５０３が候補特徴集合を得る操作に類似するので、ここで詳細な説明を繰り返さない。なお、訓練プロセスのうちサンプル候補特徴集合を得るプロセスは応用プロセスのうち時系列オブジェクト候補集合を生成するプロセスと同じであり、訓練プロセスのうち各サンプル時系列候補の信頼度スコアを決定するプロセスは応用プロセスのうち各時系列候補の信頼度スコアを決定するプロセスと同じであることが理解される。訓練プロセスは応用プロセスと比べ、主に、前記第１候補生成ネットワークおよび前記第２候補生成ネットワークに対応する第１損失と前記候補評価ネットワークに対応する第２損失の重み付け和に基づき、前記第１候補生成ネットワーク、前記第２候補生成ネットワークおよび前記候補評価ネットワークを更新する点で相違する。

第１候補生成ネットワークおよび第２候補生成ネットワークに対応する第１損失は双方向評価モジュール５０２に対応する損失である。第１候補生成ネットワークおよび第２候補生成ネットワークに対応する第１損失を計算する損失関数は以下のとおりである。

ここで、

は重み係数であり、かつ、例えば、全て１とするように、実情に応じて設定してもよく、

は順に目標開始確率系列、目標終了確率系列および目標動作確率系列の損失を表し、

はいずれも交差エントロピー損失関数であり、具体的には以下のように表現される。

ここで、

は、各時刻でマッチされた対応のＩｏＰ真値

を二値化するために用いられる。

および

は訓練時の正負サンプルの割合を平衡させるために用いられる。かつ

であり、

である。ここで、

であり、

である。

は対応する関数が類似する。

に関して、（５）中の

は目標開始確率系列内の時刻ｔの開始確率であり、

は時刻ｔでマッチされた対応のＩｏＰ真値であり、

に関して、（５）中の

は目標終了確率系列内の時刻ｔの終了確率であり、

は時刻ｔでマッチされた対応のＩｏＰ真値であり、

に関して、（５）中の

は目標動作確率系列内の時刻ｔの動作確率であり、

は時刻ｔでマッチされた対応のＩｏＰ真値である。

候補評価ネットワークに対応する第２損失は候補スコアリングモジュール５０４に対応する損失である。候補評価ネットワークに対応する第２損失を計算する損失関数は以下のとおりである。

ここで、

は重み係数でありかつ実情に応じて設定してもよい。

第１候補生成ネットワークおよび第２候補生成ネットワークに対応する第１損失と候補評価ネットワークに対応する第２損失の重み付け和は全ネットワークフレームワークの損失である。全ネットワークフレームワークの損失関数は以下のとおりである。

ここで、

は重み係数でありかつ１０としてもよく、

は第１候補生成ネットワークおよび第２候補生成ネットワークに対応する第１損失を表し、

は候補評価ネットワークに対応する第２損失を表す。画像処理装置は逆伝播などのアルゴリズムを用いて（７）から算出された損失に基づき、第１候補生成ネットワーク、第２候補生成ネットワークおよび候補評価ネットワークのパラメータを更新してもよい。訓練の停止条件は、反復更新の回数が閾値、例えば１万回に達したこととしてもよく、全ネットワークフレームワークの損失値が収束したこと、即ち全ネットワークフレームワークの損失が基本的に低減しなくなることとしてもよい。

本願の実施例では、第１候補生成ネットワーク、第２候補生成ネットワーク、候補評価ネットワークを一体として共同訓練しており、時系列オブジェクト候補集合の精度を効果的に向上させるとともに候補評価の品質を確実に向上させ、さらに後続の候補検索の信頼性を保証する。

実際の応用では、候補評価装置は少なくとも上記実施例に記載の３つの異なる方法を用いて時系列オブジェクト候補の品質を評価することができる。以下に図面と関連付けてこの３つの候補評価方法のフローをそれぞれ説明する。

図６は本願の実施例が提供する候補評価方法のフローチャートであり、前記方法は以下を含んでもよい。

６０１において、ビデオストリームのビデオ特徴系列に基づき、ビデオストリームの第１の時系列オブジェクト候補の長時間候補特徴を得る。

前記ビデオ特徴系列は前記ビデオストリームに含まれる複数のセグメントにおける各々のセグメントの特徴データを含み、前記長時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯より長い。

６０２において、ビデオストリームのビデオ特徴系列に基づき、第１の時系列オブジェクト候補の短時間候補特徴を得る。

前記短時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯と同じである。

６０３において、長時間候補特徴および前記短時間候補特徴に基づき、第１の時系列オブジェクト候補の評価結果を得る。

なお、本開示の実施例が提供する候補評価方法の具体的な実施形態は上記具体的な説明を参照すればよく、説明を簡潔にするために、ここでは詳細な説明を繰り返さないことを理解すべきである。

図７は本願の実施例が提供する別の候補評価方法のフローチャートであり、前記方法は以下を含んでもよい。

７０１において、ビデオストリームの第１特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得る。

前記第１特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む。

７０２において、第１特徴系列と前記目標動作確率系列を連接し、ビデオ特徴系列を得る。

７０３において、ビデオ特徴系列に基づき、ビデオストリームの第１の時系列オブジェクト候補の評価結果を得る。

図８は本願の実施例が提供する別の候補評価方法のフローチャートであり、前記方法は以下を含んでもよい。

８０１において、ビデオストリームの第１特徴系列に基づき、第１動作確率系列を得る。

８０２において、ビデオストリームの第２特徴系列に基づき、第２動作確率系列を得る。

前記第２特徴系列は前記第１特徴系列に含まれる特徴データと同じでありかつ並び順が反対になる。

８０３において、第１動作確率系列および第２動作確率系列に基づき、ビデオストリームの目標動作確率系列を得る。

８０４において、ビデオストリームの目標動作確率系列に基づき、ビデオストリームの第１の時系列オブジェクト候補の評価結果を得る。

図９は本願の実施例が提供する画像処理装置の構成模式図である。図９に示すように、前記画像処理装置は、
ビデオストリームの第１特徴系列を取得するための取得ユニットであって、前記第１特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む取得ユニット９０１と、
前記第１特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第１のオブジェクト境界確率系列を得るステップと、
前記ビデオストリームの第２特徴系列に基づき、前記第１特徴系列に含まれる特徴データと同じでありかつ並び順が反対になる第２のオブジェクト境界確率系列を得るステップと、を実行するための処理ユニット９０２と、
前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成するための生成ユニット９０３と、を含んでもよい。

本願の実施例では、融合後の確率系列に基づいて時系列オブジェクト候補集合を生成しており、確率系列をより正確に特定し、生成される時系列候補の境界をより正確にすることができる。

選択可能な一実施形態では、時系列逆転ユニット９０４は、前記第１特徴系列に対して時系列逆転処理を行い、前記第２特徴系列を得るために用いられる。

選択可能な一実施形態では、生成ユニット９０３は、具体的に、前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得るステップと、前記目標境界確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップと、を実行するために用いられる。

前記実施形態では、画像処理装置は２つのオブジェクト境界確率系列を融合してより正確なオブジェクト境界確率系列を得て、さらに、より正確な時系列オブジェクト候補集合を得る。

選択可能な一実施形態では、生成ユニット９０３は、具体的に、前記第２のオブジェクト境界確率系列に対して時系列逆転処理を行い、第３のオブジェクト境界確率系列を得るステップと、前記第１のオブジェクト境界確率系列と前記第３のオブジェクト境界確率系列を融合し、前記目標境界確率系列を得るステップと、を実行するために用いられる。

選択可能な一実施形態では、前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列の各々は開始確率系列および終了確率系列を含み、
生成ユニット９０３は、具体的に、前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列のうちの開始確率系列の融合処理を行い、目標開始確率系列を得るために用いられ、および／または
生成ユニット９０３は、具体的に、前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列のうちの終了確率系列の融合処理を行い、目標終了確率系列を得るために用いられ、前記目標境界確率系列は前記目標開始確率系列および前記目標終了確率系列のうちの少なくとも一つを含む。

選択可能な一実施形態では、生成ユニット９０３は、具体的に、前記目標境界確率系列に含まれる目標開始確率系列および目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられ、
または、生成ユニット９０３は、具体的に、前記目標境界確率系列に含まれる目標開始確率系列および前記第１のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられ、
または、生成ユニット９０３は、具体的に、前記目標境界確率系列に含まれる目標開始確率系列および前記第２のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられ、
または、生成ユニット９０３は、具体的に、前記第１のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられ、
または、生成ユニット９０３は、具体的に、前記第２のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられる。

選択可能な一実施形態では、生成ユニット９０３は、具体的に、前記目標開始確率系列に含まれる前記複数のセグメントの目標開始確率に基づき、目標開始確率が第１閾値を超えたセグメントおよび／または目標開始確率が少なくとも２つの隣接セグメントより高いセグメントを含む第１セグメント集合を得て、および前記目標終了確率系列に含まれる前記複数のセグメントの目標終了確率に基づき、目標終了確率が第２閾値を超えたセグメントおよび／または目標終了確率が少なくとも２つの隣接セグメントより高いセグメントを含む第２セグメント集合を得るステップと、前記第１セグメント集合および前記第２セグメント集合に基づき、前記時系列オブジェクト候補集合を生成するステップと、を実行するために用いられる。

選択可能な一実施形態では、前記装置はさらに、
前記ビデオストリームのビデオ特徴系列に基づき、第１の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯より長く、前記第１の時系列オブジェクト候補は前記時系列オブジェクト候補集合に含まれるステップと、前記ビデオストリームのビデオ特徴系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯と同じであるステップと、を実行するための特徴特定ユニット９０５と、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るための評価ユニット９０６と、を含む。

選択可能な一実施形態では、特徴特定ユニット９０５はさらに、前記第１特徴系列および前記第２特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップと、前記第１特徴系列と前記目標動作確率系列を連接し、前記ビデオ特徴系列を得るステップと、を実行するために用いられる。

選択可能な一実施形態では、特徴特定ユニット９０５は、具体的に、前記第１の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るために用いられる。

選択可能な一実施形態では、特徴特定ユニット９０５は、具体的に、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の目標候補特徴を得るために用いられ、
評価ユニット９０６は、具体的に、前記第１の時系列オブジェクト候補の目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るために用いられる。

選択可能な一実施形態では、特徴特定ユニット９０５は、具体的に、前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を実行するために用いられる。

選択可能な一実施形態では、特徴特定ユニット９０５は、具体的に、前記ビデオ特徴系列内の、参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るために用いられ、前記参照時間区間は前記時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間である。

選択可能な一実施形態では、評価ユニット９０５は、具体的に、前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第１の時系列オブジェクト候補の少なくとも２つの品質指標を得るステップであって、前記少なくとも２つの品質指標のうち第１指標は前記第１の時系列オブジェクト候補と真値との共通部分が前記第１の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも２つの品質指標のうち第２指標は前記第１の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、前記少なくとも２つの品質指標に基づき、前記評価結果を得るステップと、を実行するために用いられる。

選択可能な一実施形態では、装置が実行する画像処理方法は、候補生成ネットワークおよび候補評価ネットワークを含む時系列候補生成ネットワークに適用され、前記処理ユニットは前記候補生成ネットワークの機能を実行するために用いられ、前記評価ユニットは前記候補評価ネットワークの機能を実行するために用いられ、
前記時系列候補生成ネットワークの訓練プロセスは、
訓練サンプルを前記時系列候補生成ネットワークに入力して処理し、前記候補生成ネットワークから出力されるサンプル時系列候補集合および前記候補評価ネットワークから出力される前記サンプル時系列候補集合に含まれるサンプル時系列候補の評価結果を得るステップと、
前記訓練サンプルのサンプル時系列候補集合および前記サンプル時系列候補集合に含まれるサンプル時系列候補の評価結果と前記訓練サンプルのラベリング情報とのそれぞれの差異に基づき、ネットワーク損失を得るステップと、
前記ネットワーク損失に基づき、前記時系列候補生成ネットワークのネットワークパラメータを調整するステップと、を含む。

図１０は本願の実施例が提供する候補評価装置の構成模式図である。図１０に示すように、前記候補評価装置は、
ビデオストリームのビデオ特徴系列に基づき、第１の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記ビデオ特徴系列は前記ビデオストリームに含まれる複数のセグメントにおける各々のセグメントの特徴データ、および前記ビデオストリームに基づいて得られた動作確率系列を含み、または、前記ビデオ特徴系列は前記ビデオストリームに基づいて得られた動作確率系列であり、前記長時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯より長く、前記第１の時系列オブジェクト候補は前記ビデオストリームに基づいて得られた時系列オブジェクト候補集合に含まれるステップと、
前記ビデオストリームのビデオ特徴系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯と同じであるステップと、を実行するための特徴特定ユニット１００１と、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るための評価ユニット１００２と、を含んでもよい。

選択可能な一実施形態では、前記装置はさらに、
第１特徴系列および第２特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップであって、前記第１特徴系列も前記第２特徴系列も前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含み、かつ前記第２特徴系列は前記第１特徴系列に含まれる特徴データと同じでありかつ並び順が反対になるステップを実行するための処理ユニット１００３と、
前記第１特徴系列と前記目標動作確率系列を連接し、前記ビデオ特徴系列を得るための連接ユニット１００４と、を含む。

選択可能な一実施形態では、特徴特定ユニット１００１は、具体的に、前記第１の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るために用いられる。

選択可能な一実施形態では、特徴特定ユニット１００１は、具体的に、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の目標候補特徴を得るために用いられ、
評価ユニット１００２は、具体的に、前記第１の時系列オブジェクト候補の目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るために用いられる。

選択可能な一実施形態では、特徴特定ユニット１００１は、具体的に、前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、実行するために用いられる。

選択可能な一実施形態では、特徴特定ユニット１００１は、具体的に、前記ビデオ特徴系列内の、参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るために用いられ、前記参照時間区間は前記時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間である。

選択可能な一実施形態では、評価ユニット１００２は、具体的に、前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第１の時系列オブジェクト候補の少なくとも２つの品質指標を得るステップであって、前記少なくとも２つの品質指標のうち第１指標は前記第１の時系列オブジェクト候補と真値との共通部分が前記第１の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも２つの品質指標のうち第２指標は前記第１の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、前記少なくとも２つの品質指標に基づき、前記評価結果を得るステップと、実行するために用いられる。

図１１は本願の実施例が提供する別の候補評価装置の構成模式図である。図１１に示すように、前記候補評価装置は、
ビデオストリームの第１特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得るための処理ユニットであって、前記第１特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む処理ユニット１１０１と、
前記第１特徴系列と前記目標動作確率系列を連接し、ビデオ特徴系列を得るための連接ユニット１１０２と、
前記ビデオ特徴系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得るための評価ユニット１１０３と、を含んでもよい。

任意選択的に、評価ユニット１１０３は、具体的に、前記ビデオ特徴系列に基づき、第１の時系列オブジェクト候補の目標候補特徴を得るステップであって、前記目標候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯と同じであり、前記第１の時系列オブジェクト候補は前記ビデオストリームに基づいて得られた時系列オブジェクト候補集合に含まれるステップと、前記目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を実行するために用いられる。

選択可能な一実施形態では、処理ユニット１１０１は、具体的に、前記第１特徴系列に基づき、第１動作確率系列を得るステップと、前記第２特徴系列に基づき、第２動作確率系列を得るステップと、前記第１動作確率系列と前記第２動作確率系列を融合して前記目標動作確率系列を得るステップと、を実行するために用いられる。任意選択的に、前記目標動作確率系列は前記第１動作確率系列または前記第２動作確率系列であってもよい。

図１２は本願の実施例が提供するさらに別の候補評価装置の構成模式図である。図１２に示すように、前記候補評価装置は、
ビデオストリームの第１特徴系列に基づき、第１動作確率系列を得るステップであって、前記第１特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むステップと、
前記ビデオストリームの第２特徴系列に基づき、第２動作確率系列を得るステップであって、前記第２特徴系列及び前記第１特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと、
前記第１動作確率系列および前記第２動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、を実行するための処理ユニット１２０１と、
前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得るための評価ユニット１２０２と、を含んでもよい。

任意選択的に、処理ユニット１２０１は、具体的に、前記第１動作確率系列と前記第２動作確率系列との融合処理を行い、前記目標動作確率系列を得るために用いられる。

なお、以上の画像処理装置および候補評価装置の各ユニットの分割は論理機能の分割にすぎず、実際に実施時に全てまたは部分的に１つの物理的なエンティティに統合してもよく、物理的に分離してもよいことを理解すべきである。例えば、以上の各ユニットは個別に設置された処理素子としてもよく、同一のチップに統合して実現してもよく、また、プログラムコードの形でコントローラの記憶素子に記憶して、プロセッサの或る処理素子によって呼び出して以上の各ユニットの機能を実行するようにしてもよい。また、各ユニットは一体に統合してもよく、独立して実現してもよい。ここの処理素子は信号処理能力を有する集積回路チップであってもよい。実施プロセスにおいて、上記方法の各ステップまたは以上の各ユニットはプロセッサ素子内のハードウェアの集積論理回路またはソフトウェア形式の命令によって完了してもよい。前記処理素子は、例えば中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ：ＣＰＵ）のような共通プロセッサであってもよく、例えば１つ以上の特定用途向け集積回路（ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ：ＡＳＩＣ）、または１つ以上のデジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ：ＤＳＰ）、または１つ以上のフィールドプログラマブルゲートアレイ（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ：ＦＰＧＡ）などのような、以上の方法を実施するように構成された１つ以上の集積回路であってもよい。

図１３は本発明の実施例が提供するサーバの構成模式図であり、前記サーバ１３００は構成または性能によって大きく相違することがあり、１つ以上の中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ：ＣＰＵ）１３２２（例えば、１つ以上のプロセッサ）およびメモリ１３３２、１つ以上の記憶アプリケーション１３４２またはデータ１３４４の記憶媒体１３３０（例えば１つ以上の大容量記憶装置）を含んでもよい。そのうち、メモリ１３３２および記憶媒体１３３０は一時的なメモリまたは永続的なメモリであってもよい。記憶媒体１３３０に記憶されるプログラムは、それぞれサーバにおける一連の命令操作を含んでもよい１つ以上のモジュール（図示せず）を含んでもよい。さらに、中央処理装置１３２２は記憶媒体１３３０と通信し、サーバ１３００において記憶媒体１３３０における一連の命令操作を実行するように設定されてもよい。サーバ１３００は本願が提供する画像処理装置であってもよい。

サーバ１３００は、１つ以上の電源１３２６、１つ以上の有線または無線ネットワークインタフェース１３５０、１つ以上の入出力インタフェース１３５８、および／または、例えばＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、Ｕｎｉｘ（登録商標）、Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤＴＭなどのような１つ以上のオペレーティングシステム１３４１をさらに含んでもよい。

上記実施例においてサーバによって実行されるステップは前記図１３に示すサーバ構造に基づくものであってもよい。具体的には、中央処理装置１３２２は図９から図１２中の各ユニットの機能を実現できる。

本発明の実施例では、プロセッサにより実行される時に、ビデオストリームの第１特徴系列を取得するステップであって、前記第１特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むステップと、前記第１特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第１のオブジェクト境界確率系列を得るステップと、前記第１特徴系列に含まれる特徴データと同じでありかつ並び順が反対になる前記ビデオストリームの第２特徴系列に基づき、第２のオブジェクト境界確率系列を得るステップと、前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成するステップと、を実現するコンピュータプログラムが記憶されている、コンピュータ可読記憶媒体が提供される。

本発明の実施例では、プロセッサにより実行される時に、ビデオストリームのビデオ特徴系列に基づき、第１の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記ビデオ特徴系列は前記ビデオストリームに含まれる複数のセグメントにおける各々のセグメントの特徴データ、および前記ビデオストリームに基づいて得られた動作確率系列を含み、または、前記ビデオ特徴系列は前記ビデオストリームに基づいて得られた動作確率系列であり、前記長時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯より長く、前記第１の時系列オブジェクト候補は前記ビデオストリームに基づいて得られた時系列オブジェクト候補集合に含まれるステップと、前記ビデオストリームのビデオ特徴系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯と同じであるステップと、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を実現するコンピュータプログラムが記憶されている、別のコンピュータ可読記憶媒体が提供される。

本発明の実施例では、プロセッサにより実行される時に、第１特徴系列および第２特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップであって、前記第１特徴系列も前記第２特徴系列もビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含み、かつ前記第２特徴系列は前記第１特徴系列に含まれる特徴データと同じでありかつ並び順が反対になるステップと、前記第１特徴系列と前記目標動作確率系列を連接し、ビデオ特徴系列を得るステップと、前記ビデオ特徴系列に基づき、第１の時系列オブジェクト候補の目標候補特徴を得るステップであって、前記目標候補特徴に対応する時間帯は前記第１の時系列オブジェクト候補に対応する時間帯と同じであり、前記第１の時系列オブジェクト候補は前記ビデオストリームに基づいて得られた時系列オブジェクト候補集合に含まれるステップと、前記目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと、を実現するコンピュータプログラムが記憶されている、さらに別のコンピュータ可読記憶媒体が提供される。

以上は本発明の具体的な実施形態にすぎず、本発明の保護範囲を限定するものではなく、当業者であれば、本発明に記載の技術的範囲内で様々な均等の修正または置換を容易に想到でき、これらの修正または置換は全て本発明の保護範囲に属するものとする。したがって、本発明の保護範囲は特許請求の範囲に準ずるものとする。

Claims

画像を処理する方法であって、
ビデオストリームの第１特徴系列を取得するステップであって、前記第１特徴系列は、前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む、ステップと、
前記第１特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第１のオブジェクト境界確率系列を得るステップと、
前記ビデオストリームの第２特徴系列に基づき、第２のオブジェクト境界確率系列を得るステップであって、前記第２特徴系列および前記第１特徴系列に含まれる特徴データは、同じであり、かつ、並び順が反対である、ステップと、
前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成するステップと
を含む、方法。
前記方法は、前記ビデオストリームの第２特徴系列に基づき、第２のオブジェクト境界確率系列を得る前記ステップの前に、前記第１特徴系列に対して時系列逆転処理を行い、前記第２特徴系列を得るステップをさらに含む、請求項１に記載の方法。
前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成する前記ステップは、
前記第１のオブジェクト境界確率系列と前記第２のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得るステップと、
前記目標境界確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップと
を含む、請求項１または２に記載の方法。
前記方法は、
前記ビデオストリームのビデオ特徴系列に基づき、第１の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は、前記第１の時系列オブジェクト候補に対応する時間帯より長く、前記第１の時系列オブジェクト候補は、前記時系列オブジェクト候補集合に含まれる、ステップと、
前記ビデオストリームのビデオ特徴系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は、前記第１の時系列オブジェクト候補に対応する時間帯と同じである、ステップと、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと
をさらに含む、請求項１から３のいずれか一項に記載の方法。
前記方法は、
前記ビデオストリームのビデオ特徴系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の長時間候補特徴を得る前記ステップの前に、
前記第１特徴系列および前記第２特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップと、
前記第１特徴系列と前記目標動作確率系列とを連接し、前記ビデオ特徴系列を得るステップと
をさらに含む、請求項４に記載の方法。
前記ビデオストリームのビデオ特徴系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得る前記ステップは、
前記第１の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るステップを含む、請求項４または５に記載の方法。
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得る前記ステップは、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の目標候補特徴を得るステップと、
前記第１の時系列オブジェクト候補の目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと
を含む、請求項４から６のいずれか一項に記載の方法。
前記ビデオストリームのビデオ特徴系列に基づき、第１の時系列オブジェクト候補の長時間候補特徴を得る前記ステップは、
前記ビデオ特徴系列内の、参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るステップを含み、前記参照時間区間は、前記時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間である、請求項４から７のいずれか一項に記載の方法。
前記方法は、
前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第１の時系列オブジェクト候補の少なくとも２つの品質指標を得るステップであって、前記少なくとも２つの品質指標のうち第１指標は、前記第１の時系列オブジェクト候補と真値との共通部分が前記第１の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも２つの品質指標のうち第２指標は、前記第１の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものである、ステップと、
前記少なくとも２つの品質指標に基づき、前記評価結果を得るステップと
をさらに含む、請求項４から８のいずれか一項に記載の方法。
候補を評価する方法であって、前記方法は、
ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むビデオストリームの第１特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、
前記第１特徴系列と前記目標動作確率系列とを連接し、ビデオ特徴系列を得るステップと、
前記ビデオ特徴系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得るステップと
を含み、
ビデオストリームの第１特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得る前記ステップは、
前記第１特徴系列に基づき、第１動作確率系列を得るステップと、
前記ビデオストリームの第２特徴系列に基づき、第２動作確率系列を得るステップであって、前記第２特徴系列および前記第１特徴系列に含まれる特徴データは、同じであり、かつ、並び順が反対である、ステップと、
前記第１動作確率系列と前記第２動作確率系列との融合処理を行い、前記目標動作確率系列を得るステップと
を含む、方法。
前記ビデオ特徴系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得る前記ステップは、
前記第１の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、目標候補特徴を得るステップと、
前記目標候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと
を含む、請求項１０に記載の方法。
前記方法は、
前記ビデオ特徴系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得る前記ステップの前に、
前記第１特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第１のオブジェクト境界確率系列を得るステップと、
前記ビデオストリームの第２特徴系列に基づき、第２のオブジェクト境界確率系列を得るステップと、
前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、前記第１の時系列オブジェクト候補を生成するステップと
をさらに含む、請求項１０または１１に記載の方法。
候補を評価する方法であって、
ビデオストリームの第１特徴系列に基づき、第１動作確率系列を得るステップであって、前記第１特徴系列は、前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む、ステップと、
前記ビデオストリームの第２特徴系列に基づき、第２動作確率系列を得るステップであって、前記第２特徴系列および前記第１特徴系列に含まれる特徴データは、同じであり、かつ、並び順が反対である、ステップと
前記第１動作確率系列および前記第２動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、
前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得るステップと
を含む、方法。
前記第１動作確率系列および前記第２動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得る前記ステップは、
前記第１動作確率系列と前記第２動作確率系列との融合処理を行い、前記目標動作確率系列を得るステップを含む、請求項１３に記載の方法。
前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第１の時系列オブジェクト候補の評価結果を得る前記ステップは、
前記目標動作確率系列に基づき、前記第１の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は、前記第１の時系列オブジェクト候補に対応する時間帯より長い、ステップと、
前記目標動作確率系列に基づき、前記第１の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は、前記第１の時系列オブジェクト候補に対応する時間帯と同じである、ステップと、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第１の時系列オブジェクト候補の評価結果を得るステップと
を含む、請求項１３または１４に記載の方法。
画像処理装置であって、
ビデオストリームの第１特徴系列を取得するための取得ユニットであって、前記第１特徴系列は、前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む、取得ユニットと、
前記第１特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第１のオブジェクト境界確率系列を得るステップと、前記ビデオストリームの第２特徴系列に基づき、第２のオブジェクト境界確率系列を得るステップとを実行するための処理ユニットであって、前記第２特徴系列および前記第１特徴系列に含まれる特徴データは、同じであり、かつ、並び順が反対である、処理ユニットと、
前記第１のオブジェクト境界確率系列および前記第２のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成するための生成ユニットと
を含む、画像処理装置。
電子機器であって、前記電子機器は、
プログラムを記憶するためのメモリと、
前記メモリに記憶された前記プログラムを実行するためのプロセッサと
を含み、
前記プロセッサは、前記プログラムが実行されると、請求項１から１５のいずれか一項に記載の方法を実行するように構成されている、電子機器。
プログラム命令を含むコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記プログラム命令は、プロセッサによって実行されると、請求項１から１５のいずれか一項に記載の方法を実行することを前記プロセッサに行わせる、コンピュータ読み取り可能な記憶媒体。
請求項１から１５のいずれか一項に記載の方法を実行することをプロセッサに行わせるコンピュータプログラム。