JP7103530B2 - 映像分析方法、映像分析システム及び情報処理装置 - Google Patents

映像分析方法、映像分析システム及び情報処理装置 Download PDF

Info

Publication number
JP7103530B2
JP7103530B2 JP2021550948A JP2021550948A JP7103530B2 JP 7103530 B2 JP7103530 B2 JP 7103530B2 JP 2021550948 A JP2021550948 A JP 2021550948A JP 2021550948 A JP2021550948 A JP 2021550948A JP 7103530 B2 JP7103530 B2 JP 7103530B2
Authority
JP
Japan
Prior art keywords
cloud server
input image
difference
analysis
image frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021550948A
Other languages
English (en)
Other versions
JPWO2021070215A5 (ja
JPWO2021070215A1 (ja
Inventor
勇人 逸身
孝法 岩井
フロリアン バイエ
悠介 篠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2021070215A1 publication Critical patent/JPWO2021070215A1/ja
Publication of JPWO2021070215A5 publication Critical patent/JPWO2021070215A5/ja
Application granted granted Critical
Publication of JP7103530B2 publication Critical patent/JP7103530B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1916Validation; Performance evaluation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、映像分析方法、映像分析システム及び情報処理装置に関する。
カメラで撮影された映像分析を、計算リソースが潤沢なクラウドサーバで行う技術が普及している。しかし、撮影映像を、クラウドサーバにネットワークを介して配信するので、帯域制約により、フルレートでの映像を送れず、画質を落とす必要がある。結果的に、クラウドサーバでの映像分析の精度が向上しない。
そこで、カメラと有線で接続されたエッジ側に配置されるサーバでの映像分析と、クラウドサーバでの映像分析を組み合わせた技術が注目されている。ところが、映像分析をエッジとクラウドで分散して実行する場合、状況に応じて、どの映像フレームをクラウド側に送れば良いかの判別が難しい。
特許文献1には、エッジ側監視端末で人物の顔を含む領域を、切り出し画像として抽出し、一定の信頼度のある切り出し画像をサーバに送信する技術が開示されている。
国際公開第2013/118491号
しかしながら、特許文献1に記載の方法では、計算リソースが潤沢でないエッジ側の監視端末は、切り出し画像を適切に抽出することができない。結果的に、クラウドサーバは、不十分な精度で切り出し画像を受信することになり、クラウドサーバ側での映像分析の精度を向上させることはできない。
本発明は、このような問題点を解決するためになされたものであり、クラウドサーバとエッジでの映像分析精度を向上させた映像分析方法、映像分析システム及び情報処理装置を提供することを目的とする。
本開示の第1の態様にかかる映像分析方法は、エッジ側で入力画像フレームを分析する第1画像分析ステップと、
前記第1画像分析ステップの分析結果の評価値と、前記入力画像フレームをクラウドサーバで分析した場合において予測される分析結果の評価値との相違値を推定する相違値推定ステップと、
前記相違値に基づいて、前記入力画像フレームを前記クラウドサーバに送信するか否かを判定するフィルタリングステップと、
を含む。
本開示の第2の態様にかかる映像分析システムは、エッジ側に配置され、入力画像フレームを分析する第1画像分析手段と、
ネットワークを介してクラウドサーバに配置された、前記第1画像分析手段より高精度な第2画像分析手段と、
前記エッジ側に配置され、前記第1画像分析手段の分析結果の評価値と、前記入力画像フレームを前記第2画像分析手段で分析した場合において予測される分析結果の評価値との相違値を推定する相違値推定手段と、
前記エッジ側に配置され、前記相違値推定手段により推定された相違値に基づいて、入力画像フレームを、前記ネットワークを介して前記クラウドサーバの前記第2画像分析手段に送信するか否かを判定するフィルタ手段と、
を備える。
本開示の第3の態様にかかる情報処理装置は、エッジ側で入力画像フレームを分析する第1画像分析手段と、
前記第1画像分析手段の分析結果の評価値と、前記入力画像フレームをクラウドサーバで分析した場合において予測される分析結果の評価値との相違値を推定する相違値推定手段と、
前記相違値に基づいて、前記入力画像フレームを前記クラウドサーバに送信するか否かを判定するフィルタ手段と、
を備える。
本開示により、クラウドサーバとエッジでの映像分析精度を向上させた映像分析方法、映像分析システム及び情報処理装置を提供することができる。
実施の形態1にかかる映像分析システムの構成を示すブロック図である。 情報処理装置100,200のハードウェア構成例を示すブロック図である。 実施の形態1にかかる映像分析方法を説明するフローチャートである。 実施の形態2にかかる相違値推定部の学習方法を説明する図である。 実施の形態2にかかる相違値推定部の学習方法を説明するフローチャートである。 実施の形態2にかかる映像分析システムの構成を示すブロック図である。 実施の形態2にかかる映像分析システムにおけるエッジ側の動作を示すフローチャートである。 実施の形態2にかかる映像分析システムにおけるクラウド側の動作を示すフローチャートである。 時系列に沿って送られる映像の一連のフレームを説明する図である。 時系列に沿って送られる映像の一連のフレームを説明する図である。 時系列に沿って送られる映像の一連のフレームを説明する図である。 実施の形態2にかかる閾値の動的な設定方法を説明するフローチャートである。 実施の形態2にかかる他の閾値の動的な設定方法を説明するフローチャートである。 時間帯毎の異なる相違値の分布を示すグラフである。
(実施の形態1)
以下、図面を参照して本発明の実施の形態について説明する。
図1を参照して、映像分析システムの構成を説明する。
本映像分析システムでは、高精度モデルで分析を実施したほうが精度が良くなるフレームを優先してクラウドサーバに送信し、その他のフレームはエッジ側の軽量モデルの結果を信頼するものである。これにより、映像フレームをクラウドサーバに帯域制約のあるネットワークを介して配信することに伴うフレーム落ちやブロックノイズの発生を抑制する。
映像分析システム1は、カメラ110と、カメラ110からの映像を入力し画像を分析する、エッジ側に配置された情報処理装置100(Edge deviceとも呼ばれる)と、情報処理装置100とネットワークを介して接続されたクラウドサーバ側に配置される、映像分析のための情報処理装置200と、を備える。
カメラ110は、CCD(Charge Coupled Device)又はCMOS(Complementary Metal Oxide Semiconductor)等の撮像素子から映像を入力し、入力した映像を情報処理装置100の第1画像分析部103に出力する。
情報処理装置100は、第1画像分析部103と、フィルタ部104と、相違値推定部105と、を備える。
第1画像分析部103は、カメラ110からの映像に対して、映像分析プログラムA(軽量モデル又は低精度モデルとも呼ばれる)を用いて画像分析を行う。また、情報処理装置200は、映像分析プログラムAよりも高精度な画像分析が可能な映像分析プログラムB(高精度モデルとも呼ばれる)を備えた第2画像分析部209を有する。なお、高精度又は軽量モデルの例としては、ディープニューラルネットワークモデル、及びその他の統計的モデルを挙げることができる。
本実施の形態の特徴部分の一つである、エッジ側の相違値推定部105は、入力画像をクラウドサーバの高精度モデルで分析した場合の結果を予測して、どれくらい分析精度の向上を期待できるかを示す相違値を推定することにある。すなわち、相違値が大きいほど、クラウドサーバでの画像分析を行ったほうが分析精度を向上させることができる。具体的には、相違値推定部105は、第1画像分析部103の分析結果に基づき、入力画像に対する分析結果の評価値を算出する。さらに、相違値推定部105は、事前に学習した学習済みモデル(詳細は後述する)を用いて、入力画像を第2画像分析部209で分析した場合の評価値を算出することで、第1画像分析部103の分析結果の評価値と第2画像分析部209で分析した場合の評価値との相違値を推定する。なお、ここでいう評価値とは、入力画像フレーム全体に対する分析精度(信頼度とも呼ばれる)を数値化したものである。
フィルタ部104は、相違値推定部105により推定された相違値に基づき、入力画像フレームを、クラウドサーバ側の第2画像分析部209に送信するか否かを判定する。
以上説明した本実施の形態により、クラウドサーバとエッジでの映像分析の精度を向上させた映像分析システムを提供することができる。
図2は、情報処理装置100,200のハードウェア構成例を示すブロック図である。図2に示すように、本実施形態の情報処理装置100,200は、CPU(Central Processing Unit)201、RAM(Random access memory)202、ROM(Read Only Memory)203などを有するコンピュータである。CPU201は、RAM202、ROM203、または、ハードディスク204に格納されたソフトウェアに従い演算および制御を行う。RAM202は、CPU201が各種処理を実行する際の一時記憶領域として使用される。ハードディスク204には、オペレーティングシステム(OS)や、後述の登録プログラムなどが記憶される。ディスプレイ205は、液晶ディスプレイとグラフィックコントローラとから構成され、ディスプレイ205には、画像やアイコンなどのオブジェクト、および、GUIなどが表示される。入力部206は、ユーザが端末装置200に各種指示を与えるための装置であり、例えばマウスやキーボードによって構成される。I/F(インターフェース)部207は、IEEE 802.11aなどの規格に対応した無線LAN通信や有線LAN通信を制御することができ、TCP/IPなどのプロトコルに基づき同一通信ネットワークおよびインターネットを介して外部機器と通信する。システムバス208は、CPU201、RAM202、ROM203、および、ハードディスク204などとのデータのやり取りを制御する。
図3を参照して、実施の形態1にかかる映像分析方法を説明する。
実施の形態1にかかる映像分析方法は、エッジ側で入力画像フレームを分析する(ステップS11)と、第1画像分析ステップでの分析結果の評価値と、前記入力画像フレームを、クラウドサーバで分析した場合において予測される分析結果の評価値との相違値を推定する相違値推定ステップ(ステップS12)と、相違値に基づいて、入力画像フレームをクラウドサーバに送信するか否かを判定するフィルタリングステップ(ステップS13)と、を含む。
本実施の形態により、クラウドサーバとエッジでの映像分析の精度を向上させた映像分析方法を提供することができる。
(実施の形態2)
次に、図4~図12を用いて、実施の形態2にかかる映像分析方法および映像分析システムを説明する。
本実施の形態にかかる映像分析方法は、本映像分析システムを稼働する前事前に実施する学習方法と、その学習済みモデルを用いた映像分析方法を含む。
まず図4及び図5を参照して、相違値推定部の学習方法を説明する。
カメラ等で撮影した画像は、クラウドサーバ側で高精度モデルを実行可能な第2画像分析部209に入力される(ステップS1)。第2画像分析部209は、入力された画像を分析し、その分析結果から評価値を算出する(ステップS2)。カメラ等で撮影した画像は、エッジ側の軽量モデル(低精度モデル)を実行可能な第1画像分析部103に入力される(ステップS3)。第1画像分析部103は、入力された画像を分析し、その評価値を算出する(ステップS4)。このように並行して算出された、第2画像分析部209の分析結果の評価値と、第1画像分析部103の分析結果の評価値との差が算出される(ステップS5)。相違値推定部105は、算出した差と、入力画像と、を学習する(ステップS6)。
なお、評価値とは、入力画像フレーム全体に対する分析精度(信頼度とも呼ばれる)を数値化したものである。入力画像フレーム全体とは、入力画像フレーム内の一部(例えば、人物の顔を含む領域)を切り出していない、入力画像フレームそのものを意味する。
評価値の差は、絶対差を使用してもよいし、あるいは、相対差を使用してもよい。例えば、入力画像1に対する第1画像分析部103による分析結果の評価値は95%であり、入力画像1に対する第2画像分析部209の分析結果の評価値は97%である場合、絶対差は0.97-0.95=0.02となり、相対差は、(0.97-0.95)/0.95となる。
次に、入力画像2に対する第1画像分析部103による分析結果の評価値は45%であり、入力画像1に対する第2画像分析部209の分析結果の評価値は47%である場合、絶対差は0.47-0.45=0.02となり、相対差は、(0.47-0.45)/0.45となる。
つまり、入力画像1と入力画像2では、これらの絶対差は同じになるが、これらの相対差は、入力画像2のほうが入力画像1よりも大きくなる。これにより、相対差の大きい入力画像2を優先的にクラウドサーバ側に送るべきと判定することができる。
また、詳細は後述するが、時間帯(例えば、昼間と夜間)毎に低精度モデルおよび高性能モデルでの画像の分析精度は異なり、推定される相違値も異なるので、時間帯毎に相違値の分布を学習しておくことが好ましい。
このように事前に作成された学習済みモデルは、情報処理装置100の記憶部(図2ではハードディスク204)、又は情報処理装置100とネットワークを介して接続された外部記憶部に記憶される。なお、相違値推定部の機械学習に使用したモデルの例としては、ディープニューラルネットワークモデル、及びその他の統計的モデルを挙げることができる。
上記説明した学習段階は、映像分析方法を実施する前(映像分析システムとして動作させる前)に、実施しておく。
次に、図6~図9を参照して、学習済みモデルを用いた映像分析方法を説明する。
図6は、実施の形態2にかかる映像分析システムの構成を示すブロック図である。図5では、実施の形態1と同一の構成要素は、図1と同一の符号を付し、適宜説明を省略する。図7は本実施の形態にかかる映像分析システムにおけるエッジ側の情報処理装置100の動作を示すフローチャートである。図8は本実施の形態にかかる映像分析システムにおけるクラウド側の情報処理装置200の動作を示すフローチャートである。図9A~図9Cは、時系列に沿って送られる映像の一連のフレームを説明する図である。
本実施の形態にかかるエッジ側の情報処理装置100には、閾値変更部101が追加されている。閾値変更部101は、所定の条件に応じて閾値を動的に変更する(詳細は後述する)。また、本実施の形態にかかるエッジ側の情報処理装置100には、フィルタ部104に接続されたエンコーダ106が追加されている。さらに、エンコーダ106とネットワーク120を介してクラウド側の情報処理装置200には、デコーダ210が追加されている。エンコーダ106は、送信するフレームのみH.264やH.265などの映像エンコーディングによりエンコーディングして送信する。なお、エンコーダ106は、送信部とも呼ばれ得る。また、図6に示す情報処理装置100は、カメラ110を含まない構成としたが、カメラ110を含んでもよい。
ここで、エッジ側からクラウドサーバ側に送信するフレームが一定でない場合、エッジ側にあるフレーム数とクラウドサーバ側にあるフレーム数が異なるものとなるため、エッジ側とクラウドサーバ側とで時間のずれが発生することとなる。そのため、エッジ側の時間とクラウドサーバでの時間を一致させるようにフレームレートを一定にするため、エンコーダ106は、送信しないフレームについては、前回送信したフレームと同一のフレームを送る。
デコーダ210は、受信した映像をデコードし、フレームに分割する。さらに、デコーダ210は、前段のフレームとの差分を計算し、差分が無い場合は、エンコーダ106でコピーされたフレームであると判断し、破棄する。
図7のフローチャートを参照して、エッジ側の情報処理装置100の動作を説明する。
まず、図6に示すように、カメラ110で撮影した映像を複数のフレームに分割した画像フレームが、軽量モデルを搭載した第1画像分析部103に入力される(図7のステップS101)と、軽量モデルによる画像分析が行われる(ステップS102)。次に、前述したように、相違値推定部105は、学習済みモデルを用いて、この入力画像に対して、第1画像分析部103による分析結果の評価値と、クラウドサーバ側に送った場合に高性能モデルでの分析で得られるであろう分析結果の評価値との差(相対差)を推定する(ステップS103)。次に、フィルタ部104が相違値と比較して、入力画像をクラウドサーバ側に送るか否かを決定するための閾値を設定する(ステップS104)。閾値の設定方法の詳細については、後述する。
フィルタ部104は、推定された相違値と、閾値を比較する(ステップS105)。相違値が閾値以上の場合は(ステップS105でY)、エンコーダ106は、画像をエンコードしてクラウドサーバ側の第2画像分析部209に送信する(ステップS106)。
一方、推定された相違値が閾値未満の場合は(ステップS105でN)、エンコーダ106は、前回送信した画像をコピーして、クラウドサーバ側の第2画像分析部209に送信する(ステップS106)。ここで、図9を参照して、時系列に沿って送られる映像の一連のフレームを説明する。図9Aに示すように、時系列に沿って送られる映像の一連のフレームのうち、時刻t、t、tでは、フレームの相違値が閾値未満であると判定されるため、そのフレームは、クラウドサーバに送信されない(図9Aでは、送信されないフレームは破線で示す)。このため、フレームレートが動的に変動する(フレームが飛び飛びになる)こととなり、エンコーダおよびデコーダが実施できない場合がある。そのため、図9Bに示すように、送信しないと判断されたフレームについては、前回送信したフレームをコピーしエンコーディングして送信するようにする。すなわち、tでは、tでのフレームをコピーして送信し、t,tでは、tでのフレームをコピーしてエンコーディングして送信する。こうして、図9Cに示すように前回送信したフレームと、コピーしたフレームとの差分情報は0になる。結果的に、エンコード後のトラフィック量は、ほぼ0(一定)となる。
次に、図8のフローチャートを参照して、クラウド側の情報処理装置200の動作を説明する。
情報処理装置200のデコーダ210は、情報処理装置100のエンコーダ106でエンコーディングされた画像を受信する(ステップS201)。デコーダ210は、受信した映像をデコードし、時系列の複数のフレームに分割する。図9Cに示すように、画像フレームと前回の画像フレームとの差分が0より大きいと判定する場合は(ステップS202でY)、そのフレームをクラウドサーバ側の第2画像分析部209に送信する。なお、フレーム差分は、MSE(Mean Squared Error)を想定しているが、Hashを用いてもよい。第2画像分析部209は、受信した画像に対して、高精度モデルでの画像分析を実行する(ステップS203)。
一方、図9Cに示すように、画像フレームと前回の画像フレームとの差分が0である(すなわち、当該フレームは、前回送信したフレームのコピーが送信されたもの)と判定される場合は(ステップS202でN)、デコーダ210は、そのフレームを破棄する(すなわち、そのフレームは第2画像分析部209で分析されない)。このように、フレームが飛び飛びとなった場合でも、エッジ側で前回送信したフレームのコピーを挿入してクラウドサーバに送信し、クラウドサーバ側でフレーム間の差分を算出することで、どれがコピーされたフレームかを認識でき、フレーム毎に分析が必要か否かを判断することができる。
次に、図10を参照して、閾値変更部101による閾値の動的な設定方法を説明する。
この閾値の設定方法は、複数のフレームをマイクロバッチ処理し、エッジ側からクラウド側にフレームを送信するために使用可能な帯域(以降、使用可能帯域と記載することもある)に応じて、相違値が大きいフレームを優先して送るように、閾値を動的に設定するものである。これにより、使用可能帯域の変動により、ブロックノイズやフレーム落ちが発生するという問題を抑制し得る。
具体的には、閾値変更部101はまず、定期的に使用可能帯域を取得する(ステップS301)。使用可能帯域は絶えず変動し得るので、例えば、1秒毎に使用可能帯域を取得してもよい。次に、取得した使用可能帯域での所定時間(例えば、単位時間)当たりの送信可能な画像数を算出する(ステップS302)。例えば、単位時間当たりの送信可能な画像数は3と算出される。次に、直近の所定時間(例えば、単位時間)における相違値を推定する(ステップS303)。例えば、直近の単位時間当たりのフレーム毎の相違値は[2.2,1.1,5.3,3.0,1.9,2.6,4.2,3.5]と推定される。送信可能な画像数は3であるので、この推定された一連の相違値の分布から上位3番目である3.5を閾値として設定する(ステップS304)。これにより、クラウドサーバ側での画像分析で精度の向上が見込めない画像をクラウドサーバに送信しないことで、帯域制約のあるネットワークを用いても、不必要なブロックノイズやフレーム落ちの発生を抑制することができる。
続いて、図11及び図12を参照して、閾値変更部101による別の閾値の設定方法を説明する。
この閾値の設定方法は、現在時刻に応じて画像分析の精度が異なる(すなわち、時間帯ごとの相違値の分布が異なる)ので、現在時刻に応じた閾値を動的に設定するものである。すなわち、例えば、夜間では、対象物を認識しづらく、画像の分析精度も悪化するため、夜間に対応した相違値の分布を用いる必要がある。
閾値変更部101は、現在時刻(例えば、23:00)を取得する(ステップS401)。次に、現在時刻に対応する相違値の分布を取得する(ステップS402)。現在時刻23:00に対応する相違値の分布曲線(図12において破線で示した22:00~5:00の分布曲線)を取得する。例えば、図12に示すように、分布の上位30%に対応する相違値を算出し、閾値として設定する(ステップS403)。なお、ここでは、基準値として上位30%と設定したが、これに限定されない。この基準値は、画像をクラウドサーバに送ることで精度向上が期待される任意の値に設定することができる。
このように、本実施の形態にかかるエッジ側の閾値変更部は、閾値を動的に変更でき、状況に応じて、どの映像フレームを、クラウドサーバに送るべきかを判別することができる。また、本実施の形態にかかる映像分析方法および映像分析システムによれば、帯域制約のあるネットワークを用いても、エッジとクラウドサーバで分散して、高精度な映像分析を実行することができる。
なお、以上説明した図3、図7及び図8並びに図10及び図11のフローチャートは、実行の具体的な順番を示しているが、実行の順番は描かれている形態と異なっていてもよい。例えば、2つ以上のステップの実行の順番は、示された順番に対して入れ替えられてもよい。また、図3、図7及び図8並びに図10及び図11の中で連続して示された2つ以上のステップは、同時に、または部分的に同時に実行されてもよい。さらに、いくつかの実施形態では、図3、図7及び図8並びに図10及び図11に示された1つまたは複数のステップがスキップまたは省略されてもよい。
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリを含む。磁気記録媒体は、例えばフレキシブルディスク、磁気テープ、ハードディスクドライブであってもよい。半導体メモリは、例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory)であってもよい。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
エッジ側で入力画像フレームを分析する第1画像分析ステップと、
前記第1画像分析ステップの分析結果の評価値と、前記入力画像フレームをクラウドサーバで分析した場合において予測される分析結果の評価値との相違値を推定する相違値推定ステップと、
前記相違値に基づいて、前記入力画像フレームを前記クラウドサーバに送信するか否かを判定するフィルタリングステップと、
を含む、映像分析方法。
(付記2)
前記判定を行うための相違値の閾値を、動的に変更する閾値変更ステップを更に含む、付記1に記載の映像分析方法。
(付記3)
前記閾値変更ステップでは、現在時刻を取得し、前記現在時刻における相違値の分布に応じて、前記閾値を変更する、付記2に記載の映像分析方法。
(付記4)
前記閾値変更ステップでは、使用可能帯域を取得し、
前記取得された使用可能帯域での所定時間あたりの送信可能な画像数と、直近の所定時間における一連の推定相違値に応じて、前記閾値を変更する、付記2に記載の映像分析方法。
(付記5)
前記フィルタリングステップは、前記入力画像フレームの全体を、前記クラウドサーバに送信するか否かを判定する、付記1~4のいずれか一項に記載の映像分析方法。
(付記6)
前記フィルタリングステップで、前記クラウドサーバに送ると判断した入力画像フレームの全体を前記クラウドサーバに送信し、前記クラウドサーバに送ると判断しなかった入力画像フレームについては、前回送信したフレームをコピーして前記クラウドサーバに送信するステップを更に含む、付記1~5のいずれか一項に記載の映像分析方法。
(付記7)
エッジ側に配置され、入力画像フレームを分析する第1画像分析手段と、
ネットワークを介してクラウドサーバに配置された、前記第1画像分析手段より高精度な第2画像分析手段と、
前記エッジ側に配置され、前記第1画像分析手段の分析結果の評価値と、前記入力画像フレームを前記第2画像分析手段で分析した場合において予測される分析結果の評価値との相違値を推定する相違値推定手段と、
前記エッジ側に配置され、前記相違値推定手段により推定された相違値に基づいて、入力画像フレームを、前記ネットワークを介して前記クラウドサーバの前記第2画像分析手段に送信するか否かを判定するフィルタ手段と、
を備える、映像分析システム。
(付記8)
前記判定を行うための相違値の閾値を、所定の条件に応じて動的に変更する閾値変更手段を更に備える、付記7に記載の映像分析システム。
(付記9)
前記閾値変更手段は、現在時刻を取得し、前記取得された現在時刻における相違値の分布に応じて、前記閾値を変更する、付記8に記載の映像分析システム。
(付記10)
前記閾値変更手段は、使用帯域を取得し、前記取得された使用帯域での所定時間あたりの送信可能な画像数と、直近の所定時間における一連の推定相違値に応じて、前記閾値を変更する、付記8に記載の映像分析システム。
(付記11)
前記フィルタ手段は、前記入力画像フレームの全体を、前記ネットワークを介して前記第2画像分析手段に送信するか否かを判定する、付記7~10のいずれか一項に記載の映像分析システム。
(付記12)
前記フィルタ手段が前記第2画像分析手段に送ると判断した入力画像フレームの全体を、前記第2画像分析手段に送信するとともに、前記フィルタ手段が前記第2画像分析手段に送ると判断しなかった入力画像フレームについては、前回送信したフレームをコピーして、前記第2画像分析手段に送信する送信手段を更に備える、付記7~11のいずれか一項に記載の映像分析システム。
(付記13)
エッジ側で入力画像フレームを分析する第1画像分析手段と、
前記第1画像分析手段の分析結果の評価値と、前記入力画像フレームをクラウドサーバで分析した場合において予測される分析結果の評価値との相違値を推定する相違値推定手段と、
前記相違値に基づいて、前記入力画像フレームを前記クラウドサーバに送信するか否かを判定するフィルタ手段と、
を備える、情報処理装置。
(付記14)
前記判定を行うための相違値の閾値を、動的に変更する閾値変更手段を更に備える、付記13に記載の情報処理装置。
(付記15)
前記閾値変更手段は、現在時刻を取得し、前記現在時刻における相違値の分布に応じて、前記閾値を変更する、付記14に記載の情報処理装置。
(付記16)
前記閾値変更手段は、使用可能帯域を取得し、
前記取得された使用可能帯域での所定時間あたりの送信可能な画像数と、直近の所定時間における一連の推定相違値に応じて、前記閾値を変更する、付記14に記載の情報処理装置。
(付記17)
前記フィルタ手段は、前記入力画像フレームの全体を、ネットワークを介して前記クラウドサーバに送信するか否かを判定する、付記13~16のいずれか一項に記載の情報処理装置。
(付記18)
前記フィルタ手段により前記クラウドサーバに送ると判断された入力画像フレームの全体を前記クラウドサーバに送信し、前記フィルタ手段により前記クラウドサーバに送ると判断されなかった入力画像フレームについては、前回送信したフレームをコピーして前記クラウドサーバに送信する送信手段を更に含む、付記13~17のいずれか一項に記載の情報処理装置。
1 映像分析システム
100 情報処理装置
101 閾値変更部
103 第1画像分析部
104 フィルタ部
105 相違値推定部
106 エンコーダ
110 カメラ
120 ネットワーク
200 情報処理装置
209 第2画像分析部
210 デコーダ

Claims (10)

  1. エッジ側で入力画像フレームを分析する第1画像分析ステップと、
    前記第1画像分析ステップの分析結果の評価値と、前記入力画像フレームをクラウドサーバで分析した場合において予測される分析結果の評価値との相違値を推定する相違値推定ステップと、
    前記相違値に基づいて、前記入力画像フレームを前記クラウドサーバに送信するか否かを判定するフィルタリングステップと
    を含む、映像分析方法。
  2. 前記判定を行うための相違値の閾値を、動的に変更する閾値変更ステップを更に含む、請求項1に記載の映像分析方法。
  3. 前記閾値変更ステップでは、現在時刻を取得し、前記現在時刻における相違値の分布に応じて、前記閾値を変更する、請求項2に記載の映像分析方法。
  4. 前記閾値変更ステップでは、使用可能帯域を取得し、
    前記取得された使用可能帯域での所定時間あたりの送信可能な画像数と、直近の所定時間における一連の推定相違値に応じて、前記閾値を変更する、請求項2に記載の映像分析方法。
  5. 前記フィルタリングステップは、前記入力画像フレームの全体を、前記クラウドサーバに送信するか否かを判定する、請求項1~4のいずれか一項に記載の映像分析方法。
  6. 前記フィルタリングステップで、前記クラウドサーバに送ると判断した入力画像フレームの全体を前記クラウドサーバに送信し、前記クラウドサーバに送ると判断しなかった入力画像フレームについては、前回送信したフレームをコピーして前記クラウドサーバに送信するステップを更に含む、請求項1~5のいずれか一項に記載の映像分析方法。
  7. エッジ側に配置され、入力画像フレームを分析する第1画像分析手段と、
    ネットワークを介してクラウドサーバに配置された、前記第1画像分析手段より高精度な第2画像分析手段と、
    前記エッジ側に配置され、前記第1画像分析手段の分析結果の評価値と、前記入力画像フレームを前記第2画像分析手段で分析した場合において予測される分析結果の評価値との相違値を推定する相違値推定手段と、
    前記エッジ側に配置され、前記相違値推定手段により推定された相違値に基づいて、入力画像フレームを、前記ネットワークを介して前記クラウドサーバの前記第2画像分析手段に送信するか否かを判定するフィルタ手段と、
    を備える、映像分析システム。
  8. 前記判定を行うための相違値の閾値を、所定の条件に応じて動的に変更する閾値変更手段を更に備える、請求項7に記載の映像分析システム。
  9. 前記閾値変更手段は、現在時刻を取得し、前記取得された現在時刻における相違値の分布に応じて、前記閾値を変更する、請求項8に記載の映像分析システム。
  10. エッジ側で入力画像フレームを分析する第1画像分析手段と、
    前記第1画像分析手段の分析結果の評価値と、前記入力画像フレームをクラウドサーバで分析した場合において予測される分析結果の評価値との相違値を推定する相違値推定手段と、
    前記相違値に基づいて、前記入力画像フレームを前記クラウドサーバに送信するか否かを判定するフィルタ手段と、
    を備える、情報処理装置。
JP2021550948A 2019-10-07 2019-10-07 映像分析方法、映像分析システム及び情報処理装置 Active JP7103530B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/039453 WO2021070215A1 (ja) 2019-10-07 2019-10-07 映像分析方法、映像分析システム及び情報処理装置

Publications (3)

Publication Number Publication Date
JPWO2021070215A1 JPWO2021070215A1 (ja) 2021-04-15
JPWO2021070215A5 JPWO2021070215A5 (ja) 2022-05-30
JP7103530B2 true JP7103530B2 (ja) 2022-07-20

Family

ID=75437021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021550948A Active JP7103530B2 (ja) 2019-10-07 2019-10-07 映像分析方法、映像分析システム及び情報処理装置

Country Status (3)

Country Link
US (1) US20220345590A1 (ja)
JP (1) JP7103530B2 (ja)
WO (1) WO2021070215A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023149174A1 (ja) * 2022-02-02 2023-08-10 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム
WO2024079901A1 (ja) * 2022-10-14 2024-04-18 日本電気株式会社 処理制御システム、処理制御装置、および処理制御方法
CN116320536B (zh) * 2023-05-16 2023-08-18 瀚博半导体(上海)有限公司 视频处理方法、装置、计算机设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013084130A (ja) 2011-10-11 2013-05-09 Fujitsu Ltd 画像認識システムおよび画像認識方法
JP2013088477A (ja) 2011-10-13 2013-05-13 Alpine Electronics Inc 音声認識システム
WO2017038100A1 (ja) 2015-09-03 2017-03-09 日本電気株式会社 監視サーバ、分散処理決定方法、及びプログラムが格納された非一時的なコンピュータ可読媒体

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11809297B2 (en) * 2018-04-26 2023-11-07 Nec Corporation Data analysis device, precision estimation device, data analysis method, and storage medium
JP2019215807A (ja) * 2018-06-14 2019-12-19 日本電気株式会社 データ制御装置、データ制御方法、およびプログラム
CN113380254B (zh) * 2021-06-21 2024-05-24 枣庄福缘网络科技有限公司 一种基于云计算和边缘计算的语音识别方法、设备及介质
KR102456189B1 (ko) * 2021-11-23 2022-10-18 쿨사인 주식회사 클라우드 엣지 기반의 영상 분석 시스템
US11503101B1 (en) * 2021-12-15 2022-11-15 Motorola Solutions, Inc. Device and method for assigning video analytics tasks to computing devices
CN117079108A (zh) * 2023-04-28 2023-11-17 国网山西省电力公司信息通信分公司 一种基于深度估计的云边协同视频流分析方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013084130A (ja) 2011-10-11 2013-05-09 Fujitsu Ltd 画像認識システムおよび画像認識方法
JP2013088477A (ja) 2011-10-13 2013-05-13 Alpine Electronics Inc 音声認識システム
WO2017038100A1 (ja) 2015-09-03 2017-03-09 日本電気株式会社 監視サーバ、分散処理決定方法、及びプログラムが格納された非一時的なコンピュータ可読媒体

Also Published As

Publication number Publication date
JPWO2021070215A1 (ja) 2021-04-15
WO2021070215A1 (ja) 2021-04-15
US20220345590A1 (en) 2022-10-27

Similar Documents

Publication Publication Date Title
JP7103530B2 (ja) 映像分析方法、映像分析システム及び情報処理装置
EP3413265B1 (en) Panoramic video processing method and device and non-transitory computer-readable medium
US8558903B2 (en) Accelerometer / gyro-facilitated video stabilization
US20210105517A1 (en) Method and system for adaptive data transmission
US8274602B2 (en) Image processing apparatus and image processing method with redundant frame detection
CN105282547B (zh) 一种视频编码的码率控制方法及装置
WO2021093060A1 (zh) 一种视频编码方法、***及设备
US20210342593A1 (en) Method and apparatus for detecting target in video, computing device, and storage medium
CN110012324B (zh) 一种嵌入式无线视频传输的码率自适应方法、wifi相机、控制装置以及码率自适应***
JP2002232882A (ja) 事前解析を用いた動画像符号化装置、動画像符号化方法、及びそのプログラム。
US11270438B2 (en) System and method for triggering machine learning (ML) annotation model retraining
JP6365253B2 (ja) 映像データ処理装置、映像データ処理プログラムおよび映像データ処理方法
TW201306601A (zh) 基於圖框相似性及視覺品質及興趣之圖框編碼選擇
JP7106968B2 (ja) 管理装置、データ抽出方法及びプログラム
CN108540827B (zh) 数据处理方法及装置
CN105208388B (zh) 视频通讯中动态调整编码帧率的方法和***
JP2014236312A (ja) 設定装置および設定方法
CN113660465A (zh) 图像处理方法、装置、可读介质及电子设备
JP6390167B2 (ja) 通信スループット予測装置、通信スループット予測方法、及び、プログラム
JP5807102B1 (ja) 通信帯域算出装置、通信帯域算出方法及びプログラム
CN116886949A (zh) 直播码率控制方法、装置、电子设备及存储介质
US10924593B2 (en) Virtualization with distributed adaptive message brokering
JP2017034307A (ja) 情報収集管理装置、方法、及び情報収集システム
CN103517074A (zh) 图像编码设备及其控制方法
JP2022075518A (ja) 生産ライン監視方法および生産ライン監視システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220316

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220620

R151 Written notification of patent or utility model registration

Ref document number: 7103530

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151