JP7481995B2 - 状態判定装置、方法およびプログラム - Google Patents
状態判定装置、方法およびプログラム Download PDFInfo
- Publication number
- JP7481995B2 JP7481995B2 JP2020180756A JP2020180756A JP7481995B2 JP 7481995 B2 JP7481995 B2 JP 7481995B2 JP 2020180756 A JP2020180756 A JP 2020180756A JP 2020180756 A JP2020180756 A JP 2020180756A JP 7481995 B2 JP7481995 B2 JP 7481995B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- question
- answer
- state
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 47
- 238000004364 calculation method Methods 0.000 claims description 48
- 230000002159 abnormal effect Effects 0.000 claims description 19
- 238000010191 image analysis Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 18
- 230000005856 abnormality Effects 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 36
- 238000003860 storage Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 239000013598 vector Substances 0.000 description 15
- 238000012545 processing Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 10
- 230000011218 segmentation Effects 0.000 description 9
- 238000007689 inspection Methods 0.000 description 5
- 230000001186 cumulative effect Effects 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000000246 remedial effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000004397 blinking Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- NHDHVHZZCFYRSB-UHFFFAOYSA-N pyriproxyfen Chemical compound C=1C=CC=NC=1OC(C)COC(C=C1)=CC=C1OC1=CC=CC=C1 NHDHVHZZCFYRSB-UHFFFAOYSA-N 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
Description
第1の実施形態に係る状態判定装置について図1のブロック図を参照して説明する。
第1の実施形態に係る状態判定装置1は、画像取得部11と、質問回答取得部12と、推論部13と、判定部14と、提示部15とを含む。
質問回答取得部12は、対象画像に関する質問と前記質問に対する想定回答とを取得する。
推論部13は、画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、対象画像に関する質問について推定される推定回答を生成する。第1の実施形態で想定する学習済みモデルは、入力画像と入力画像に対する質問が提示された場合に入力画像から回答を導き出す、いわゆるVQA(Visual Question Answering)に関するモデルであり、例えば学習済みモデル格納部16に格納される。学習済みモデル格納部16は、図1に示すように、クラウドサーバなどの外部に存在してもよいし、状態判定装置1内に存在してもよい。推論部13が外部の学習済みモデル格納部16を参照する場合は、学習済みモデル格納部16に対して質問を送信し、推定回答を受信すればよい。
判定部14は、想定回答と推定回答との類似度に応じて、判定対象の状態を判定する。例えば、判定対象が異常な状態であるか否かを判定する。本実施形態における異常な状態とは、例えば、危険な状態、劣悪な状態など、想定回答で想定する状態とは異なる状態を示す。
提示部15は、判定部14により例えば判定対象の状態が異常であると判定された場合、異常である旨を通知する。また、提示部15は、データベースを参照し、解決策または改善策を提示する。
ステップS201では、画像取得部11が、対象画像を取得する。対象画像は、第1の実施形態では、監視カメラなどにより、判定対象となる作業者を撮影した撮影画像を想定するが、これに限らず、判定対象の状態を判定するために利用可能な画像であればよい。また、画像に限らず、動画であってもよい。動画である場合は、フレームごとに状態判定装置1による状態判定処理が実行されてもよいし、複数のフレームの中から選択された代表フレームについて状態判定処理が実行されてもよい。
ステップS203では、推論部13が、VQAに関する学習済みモデルを用いて、対象画像について質問に対する推定回答を生成する。
なお、判定部14における類似度の判定は、推定回答および想定回答の出力形式によって異なる。例えば、推定回答および想定回答の出力形式が数値であれば、双方の回答の値の差分がゼロまたは閾値以下であれば、推定回答と想定回答とが類似すると判定する。また、推定回答および想定回答の出力形式が名詞や文章などの文字列であれば、表記揺れや言い回しなどの違いの差を吸収できるよう、例えば推定回答44と想定回答45とのコサイン類似度を計算する。コサイン類似度が閾値以上であれば、推定回答と想定回答とが類似すると判定すればよい。これにより、意味的な類似度を判定できる。
ステップS206では、判定部14が、推定回答が想定回答通りではないといえるため、作業者が安全マニュアル通りの状態ではない、言い換えれば異常があると判定する。
図3は、質問と対応する想定回答とを対応付けて格納するテーブルの一例である。ここでは、安全マニュアルによる作業者が順守すべき安全な状態(異常がない状態)となるための準備リストを示す。具体的には、質問「帽子を装着しているか?」と、対応する想定回答「はい」とが対応付けられて格納される。
質問回答取得部12は、図3に示すテーブルから質問と想定回答との組を逐次抽出し、推論部13および判定部14による処理が実行される。なお、質問および想定回答の格納形式はテーブル形式に限らず、質問と対応する想定回答とが組で取得できればどのような格納形式でもよい。
推論部13は、対象画像41と、質問42とをVQAのための学習済みモデル43に入力し、学習済みモデル43から推論結果として推定回答44が出力される。図4の例では、作業者が作業をしている画像を対象画像41として入力し、図3に示す質問42「帽子を装着しているか?」と学習済みモデル43に入力される。学習済みモデル43では、対象画像41から画像特徴量と、質問42からテキスト特徴量とを抽出し、画像特徴量とテキスト特徴量とに基づいて、質問に対する回答が推論される。ここでは、学習済みモデル43より推定回答44「いいえ」が出力されたとする。
図5は、例えばディスプレイに表示されるユーザインタフェース画面である。提示部15は、図3に示す質問と想定回答との項目のテーブルに、推定回答を追加してユーザインタフェース画面に表示する。
また、危険状態と判定された項目に対して、過去の解決策または改善策の事例を図5の「解決策または改善策」の項目に表示してもよい。ここでは、Q2「グローブを装着しているか?」という質問の項目について条件を満たしていないため、「後ろの棚にある予備のグローブを着用してください」といった、解決策を提示できる。
第2の実施形態では、質問と想定回答とを自動生成する点が第1の実施形態と異なる。
第2の実施形態に係る状態判定装置について図6のブロック図を参照して説明する。
第2の実施形態に係る状態判定装置2は、画像取得部11と、質問回答取得部12と、推論部13と、判定部14と、提示部15と、質問回答生成部61とを含む。
状態判定装置2は、生成した質問および想定回答を用いて取得した画像に対して推論することにより、状態を判定することができる。
ステップS701では、質問回答生成部61が、上述した生成手法などにより、1つの判定項目からk個(kは2以上の正数)の質問と対応する想定回答とを生成する。
ステップS703では、判定部14が、想定回答と推定回答との類似度が閾値以上であるか否かを判定する。類似度が閾値以上である場合、ステップS704に進み、類似度が閾値未満である場合、ステップS705に進む。
ステップS705では、判定部14が、ステップS701で生成したk個の質問を全て処理したか否かを判定する。k個の質問を全て処理した場合、ステップS707に進み、未処理の質問がある場合、ステップS706に進む。
ステップS707では、判定部14が、カウンタの値が閾値以上であるか否かを判定する。カウンタの値が閾値以上である場合、ステップS708に進み、カウンタの値が閾値未満である場合、ステップS709に進む。
ステップS709では、判定部14が、想定回答通りの推定回答が得られていないため、異常があると判定する。
なお、質問回答生成部61によらず、予め1つの判定項目に対して複数の質問および対応する想定回答を用意することにより、第1の実施形態に係る状態判定装置1でも同様の判定結果を得ることができる。
低スキル作業であると判定された場合、提示部15がその旨を作業者に提示すべく、ユーザインタフェース画面または音により通知してもよいし、どの項目で低スキルと判定されたかを提示してもよい。さらには、提示部15が、改善策として熟練者の作業のコツに関する説明文または作業の動画を作業者に提示してもよい。このような質問および推定回答、改善策などを用意し、状態判定装置により状態判定を実施することで、低スキルを検知でき、熟練者の技能伝承を実施できる。
高負荷作業であると判定された場合、提示部15がその旨を作業者に提示すべく、ユーザインタフェース画面または音により通知してもよいし、どの項目で高負荷作業と判定されたかを提示してもよい。また、高負荷であると判定された累積時間を計算し、累積的な負荷具合を算出してもよい。これにより、高負荷作業が検知でき、検知された結果をふまえて作業現場における作業の負荷分散を検討できる。
低効率作業であると判定された場合、提示部15がその旨を作業者に提示すべく、ユーザインタフェース画面または音により通知してもよいし、どの項目で低効率と判定されたかを提示してもよい。また、低効率であると判定された累積時間を算出することで、累積的な低効率作業時間を算出してもよい。これにより、低効率作業を検知でき、作業現場の生産性向上につながる。
第1の実施形態および第2の実施形態の学習済みモデルとしても想定している一般的なVQAでは、画像の特徴量として物体のROI(Region of Interest)の情報を利用している。よって、人物や標識などの物体に関する質問に対しては推定回答が得られるが、道路、空といった非物体の関する質問に対しては正しい回答を生成することは困難である。第3の実施形態では、非物体に関する特徴量を検出する構成を含む画像解析装置について説明する。
第3の実施形態に画像解析装置8は、画像取得部81と、テキスト取得部82と、画像特徴算出部83と、テキスト特徴算出部84と、推定部85とを含む。
テキスト取得部82は、画像取得部81が取得した対象画像に対する質問を取得する。
画像特徴算出部83は、画像から物体に関する第1画像特徴量と、画像から非物体を含む第2画像特徴量とを融合した画像特徴量を算出する。
テキスト特徴算出部84は、テキスト取得部82が取得した質問からテキスト特徴量を算出する。
推定部85は、画像特徴量およびテキスト特徴量に基づいて、対象画像に対する質問の回答を推定する。
ステップS901では、画像取得部81が、画像を取得する。
ステップS902では、テキスト取得部82が、質問を取得する。質問は例えば「帽子を装着していますか?」「道路は混んでいますか?」といった画像に対する質問である。
ステップS904では、テキスト特徴算出部84が、質問からテキスト特徴量を算出する。テキスト特徴量としては、例えば、Word2vecといったテキストの分散表現化(Embedding)が可能な手法を用いてテキストをベクトル化した値を用いればよい。
ステップS905では、推定部85が、例えばAttentionを利用したDNN(Deep Neural Network)などによるVQAのための学習済みモデルを用いて、画像特徴量およびテキスト特徴量を用いて、質問に対する回答を推定する。学習済みモデルは、画像解析装置8内に保持されてもよいし、図1の学習済みモデル格納部16のように、外部に格納されてもよい。
ステップS1001では、画像特徴算出部83が、ステップS901で取得した対象画像から、画像中の物体を含むROIを検出する。
ステップS1002では、画像特徴算出部83が、抽出されたROIの特徴量を、第1画像特徴量として算出する。
ステップS1004では、画像特徴算出部83が、分割された画像領域ごとに、セマンティックセグメンテーションに関する特徴量を第2画像特徴量として算出する。
図11は、画像から第1画像特徴量が算出されるまでの流れを示す概念図である。第3の実施形態では、物体検出モデルとして、Faster R-CNNと呼ばれるニューラルネットワークを用いることを想定する。図11左図は、処理対象の画像であり、作業者が作業をしている状況を撮影した画像を想定する。なお、Faster R-CNNに限らず、一般的な物体検出モデルであればどのようなモデルを用いてもよい。
なお、ROIに関する第1画像特徴量1103として、物体の位置関係および物体の意味的な関係を表すシーングラフに関する情報を用いてもよい。
図12は、第3の実施形態で用いるセマンティックセグメンテーションモデルの一例として、FCN(Fully Convolutional Netwrks)の概念図を示す。なお、FCNに限らず、Segnet、U-netなどセマンティックセグメンテーションに用いるモデルであれば、どのようなモデルでも適用できる。
ステップS1401では、画像特徴算出部83が、画像領域ごとのセマンティックラベルを抽出する。セマンティックラベルは、セマンティックセグメンテーションにおいて分割された画像領域に付与されるラベルであり、例えば図12の例では、犬、猫といったラベルを示す。
ステップS1403では、画像特徴算出部83が、ステップS1005において得られる画像特徴量と、ステップS1402で得られたエンコードされたセマンティックラベルとを結合する。例えば、画像特徴量のベクトルにエンコードされたセマンティックラベルのベクトルを結合すればよい。
なお、第1の実施形態および第2の実施形態に係る状態判定装置の推論部13として、第3の実施形態に係る画像解析装置を用いてもよい。これにより、「道路に物が落ちているか?」といった非物体、背景などに関する任意の質問に対しても回答を推定でき、状態の推定精度をより向上させることができる。
状態判定装置または画像解析装置は、CPU(Central Processing Unit)1501と、RAM(Random Access Memory)1502と、ROM(Read Only Memory)1503と、ストレージ1504と、表示装置1505と、入力装置1506と、通信装置1507とを含み、それぞれバスにより接続される。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
以下、出願当初の特許請求の範囲に記載された発明を付記する。
[1]
対象画像を取得する画像取得部と、
前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得部と、
画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成する推論部と、
前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定部と、
を具備する状態判定装置。
[2]
前記回答は、正常である場合を想定した項目であり、
前記判定部は、前記類似度が閾値未満である場合、前記判定対象の状態が異常であると判定する、[1]に記載の状態判定装置。
[3]
前記想定回答は、異常である場合を想定した項目であり、
前記判定部は、前記類似度が閾値以上である場合、前記判定対象の状態が異常であると判定する、[1]に記載の状態判定装置。
[4]
前記判定部は、前記判定対象の状態が異常である場合、前記判定対象が危険状態であると判定する、[2]または[3]に記載の状態判定装置。
[5]
前記異常であると判定された場合、前記質問と解決策とを対応付けたデータベースを参照し、前記解決策を提示する提示部をさらに具備する、[2]から[4]のいずれか1項に記載の状態判定装置。
[6]
マニュアルから前記質問および前記想定回答を抽出して生成する生成部をさらに具備する、[1]から[5]のいずれか1項に記載の状態判定装置。
[7]
マニュアルにおいて正常である場合を想定した1つの判定項目に対して、複数の質問および前記複数の質問にそれぞれ対応する想定回答を生成する生成部をさらに具備し、
前記判定部は、前記複数の質問それぞれに対して前記学習済みモデルを用いて得られた推定回答と前記想定回答との類似度が第1閾値以上となる数が第2閾値未満である場合、前記判定項目に対する状態が異常であると判定する、[1]に記載の状態判定装置。
[8]
前記学習済みモデルは、VQA(Visual Question Answering)に関するモデルである、[1]から[7]のいずれか1項に記載の状態判定装置。
[9]
前記判定部は、前記類似度が閾値未満である状態が所定期間以上または所定回数以上である場合、異常な状態であると判定する、[1]に記載の状態判定装置。
[10]
画像を取得する画像取得部と、
質問を取得するテキスト取得部と、
前記画像から、物体に関する第1画像特徴量と、非物体を含む第2画像特徴量とを融合した画像特徴量を算出する第1算出部と、
前記質問からテキスト特徴量を算出する第2算出部と、
前記画像特徴量および前記テキスト特徴量に基づき、回答を推定する推定部と、
を具備する画像解析装置。
[11]
前記第1算出部は、
前記画像においてROI(Region of Interest)を検出し、
前記検出されたROIに関する前記第1画像特徴量を算出し、
前記画像に対してセマンティックセグメンテーション処理を実行することにより、画像領域を分割し、
前記分割された画像領域に対して前記第2画像特徴量を算出する、[10]に記載の画像解析装置。
[12]
前記第1算出部は、
前記画像においてROI(Region of Interest)を検出し、
前記画像に対してセマンティックセグメンテーション処理を実行することにより、画像領域を分割し、
前記検出されたROIと前記分割された画像領域とを融合して融合ROIを生成し、
前記融合ROIに関して前記画像特徴量を算出する、[10]に記載の画像解析装置。
[13]
前記第1画像特徴量および前記第2画像特徴量は、ベクトルで表現され、
前記第1算出部は、前記第1画像特徴量のベクトルと前記第2画像特徴量のベクトルとを結合する、[10]から[12]のいずれか1項に記載の画像解析装置。
[14]
前記第1算出部は、前記検出されたROIと、前記分割された画像領域との総和を前記融合ROIとして算出する、[12]に記載の画像解析装置。
[15]
前記第1算出部は、前記検出されたROIと前記分割された画像領域とが重複する領域が閾値以上であるROIを前記融合ROIとして算出する、[12]に記載の画像解析装置。
[16]
前記第1算出部は、前記画像特徴量に、前記セマンティックセグメンテーション処理により前記分割された画像領域に付されるラベルに基づく特徴量を結合する、[11]または[12]に記載の画像解析装置。
[17]
前記第1算出部は、前記物体の位置関係および前記物体の意味的な関係を表すシーングラフに関する情報を抽出し、前記シーングラフに関する情報と前記第2画像特徴量とを融合して前記画像特徴量を算出する、[10]に記載の画像解析装置。
[18]
対象画像を取得する画像取得部と、
前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得部と、
[10]から[17]のいずれか1項に記載の画像解析装置を用いて、前記対象画像に関する質問について推定される推定回答を生成する推論部と、
前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定部と、
を具備する状態判定装置。
Claims (12)
- 対象画像を取得する画像取得部と、
前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得部と、
画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成する推論部と、
前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定部と、
を具備する状態判定装置。 - 前記回答は、正常である場合を想定した項目であり、
前記判定部は、前記類似度が閾値未満である場合、前記判定対象の状態が異常であると判定する、請求項1に記載の状態判定装置。 - 前記想定回答は、異常である場合を想定した項目であり、
前記判定部は、前記類似度が閾値以上である場合、前記判定対象の状態が異常であると判定する、請求項1に記載の状態判定装置。 - 前記判定部は、前記判定対象の状態が異常である場合、前記判定対象が危険状態であると判定する、請求項2または請求項3に記載の状態判定装置。
- 前記異常であると判定された場合、前記質問と解決策とを対応付けたデータベースを参照し、前記解決策を提示する提示部をさらに具備する、請求項2から請求項4のいずれか1項に記載の状態判定装置。
- マニュアルから前記質問および前記想定回答を抽出して生成する生成部をさらに具備する、請求項1から請求項5のいずれか1項に記載の状態判定装置。
- マニュアルにおいて正常である場合を想定した1つの判定項目に対して、複数の質問および前記複数の質問にそれぞれ対応する想定回答を生成する生成部をさらに具備し、
前記判定部は、前記複数の質問それぞれに対して前記学習済みモデルを用いて得られた推定回答と前記想定回答との類似度が第1閾値以上となる数が第2閾値未満である場合、前記判定項目に対する状態が異常であると判定する、請求項1に記載の状態判定装置。 - 前記学習済みモデルは、VQA(Visual Question Answering)に関するモデルである、請求項1から請求項7のいずれか1項に記載の状態判定装置。
- 前記判定部は、前記類似度が閾値未満である状態が所定期間以上または所定回数以上である場合、異常な状態であると判定する、請求項1に記載の状態判定装置。
- 対象画像を取得する画像取得部と、
前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得部と、
画像解析装置を用いて、前記対象画像に関する質問について推定される推定回答を生成する推論部と、
前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定部と、
を具備する状態判定装置であって、
前記画像解析装置は、
画像を取得する画像取得部と、
質問を取得するテキスト取得部と、
前記画像から、物体に関する第1画像特徴量と、非物体を含む第2画像特徴量とを融合した画像特徴量を算出する第1算出部と、
前記質問からテキスト特徴量を算出する第2算出部と、
前記画像特徴量および前記テキスト特徴量に基づき、回答を推定する推定部と、
を具備する、状態判定装置。 - 画像取得手段が、対象画像を取得し、
質問回答取得手段が、前記対象画像に関する質問と前記質問に対する想定回答とを取得し、
推論手段が、画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成し、
判定手段が、前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する、状態判定方法。 - コンピュータを、
対象画像を取得する画像取得手段と、
前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得手段と、
画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成する推論手段と、
前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定手段として機能させるための状態判定プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020180756A JP7481995B2 (ja) | 2020-10-28 | 2020-10-28 | 状態判定装置、方法およびプログラム |
US17/460,387 US20220129693A1 (en) | 2020-10-28 | 2021-08-30 | State determination apparatus and image analysis apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020180756A JP7481995B2 (ja) | 2020-10-28 | 2020-10-28 | 状態判定装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022071675A JP2022071675A (ja) | 2022-05-16 |
JP7481995B2 true JP7481995B2 (ja) | 2024-05-13 |
Family
ID=81258564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020180756A Active JP7481995B2 (ja) | 2020-10-28 | 2020-10-28 | 状態判定装置、方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220129693A1 (ja) |
JP (1) | JP7481995B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021005898A1 (ja) * | 2019-07-11 | 2021-01-14 | ||
CN116881427B (zh) * | 2023-09-05 | 2023-12-01 | 腾讯科技(深圳)有限公司 | 问答处理方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006350604A (ja) | 2005-06-15 | 2006-12-28 | Mitsubishi Heavy Ind Ltd | 現場保守支援システム、および現場保守支援方法 |
JP2009085900A (ja) | 2007-10-03 | 2009-04-23 | Hitachi Ltd | 部品の検査システム及び検査方法 |
JP2012150613A (ja) | 2011-01-18 | 2012-08-09 | Ricoh Co Ltd | 作業内容測定装置及び作業管理装置 |
JP2013097466A (ja) | 2011-10-28 | 2013-05-20 | Hitachi Ltd | 作業支援システム、作業支援方法、および、作業用端末 |
JP2017091525A (ja) | 2015-11-03 | 2017-05-25 | バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC | 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法 |
JP2017162103A (ja) | 2016-03-08 | 2017-09-14 | 株式会社東芝 | 点検作業支援システム、点検作業支援方法、点検作業支援プログラム |
JP2020064418A (ja) | 2018-10-16 | 2020-04-23 | 損害保険ジャパン日本興亜株式会社 | Faq作成支援方法およびfaq作成支援システム |
WO2020100532A1 (ja) | 2018-11-14 | 2020-05-22 | ソニー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
US20200193228A1 (en) | 2017-10-31 | 2020-06-18 | Beijing Sensetime Technology Development Co., Ltd. | Image question answering method, apparatus and system, and storage medium |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101644443B1 (ko) * | 2014-02-05 | 2016-08-01 | 김세영 | 시공적 상황데이터를 이용한 경고 방법 및 시스템 |
JP6748434B2 (ja) * | 2016-01-18 | 2020-09-02 | キヤノン株式会社 | 画像処理装置、推定方法、システム及びプログラム |
CN106485224B (zh) * | 2016-10-13 | 2019-07-16 | 北京智芯原动科技有限公司 | 一种安全带佩戴识别方法及装置 |
JP2019021051A (ja) * | 2017-07-18 | 2019-02-07 | 株式会社東芝 | 情報処理装置、方法及びプログラム |
US10742399B2 (en) * | 2017-12-28 | 2020-08-11 | Intel Corporation | Context-aware image compression |
JP7155546B2 (ja) * | 2018-03-05 | 2022-10-19 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
WO2020088739A1 (en) * | 2018-10-29 | 2020-05-07 | Hexagon Technology Center Gmbh | Facility surveillance systems and methods |
CN109871457A (zh) * | 2019-01-30 | 2019-06-11 | 北京百度网讯科技有限公司 | 基于图像的数据处理方法、装置、电子设备和存储介质 |
WO2020230735A1 (ja) * | 2019-05-13 | 2020-11-19 | 株式会社Nttドコモ | 需要予測装置 |
US11580392B2 (en) * | 2019-05-30 | 2023-02-14 | Samsung Electronics Co., Ltd. | Apparatus for deep representation learning and method thereof |
US11790895B2 (en) * | 2019-06-26 | 2023-10-17 | Samsung Electronics Co., Ltd. | System and method for natural language understanding |
US11386667B2 (en) * | 2019-08-06 | 2022-07-12 | Cisco Technology, Inc. | Video analysis using a deep fusion reasoning engine (DFRE) |
US11210802B2 (en) * | 2019-09-24 | 2021-12-28 | Toyota Research Institute, Inc. | Systems and methods for conditioning training data to avoid learned aberrations |
US11514147B2 (en) * | 2019-12-30 | 2022-11-29 | EMC IP Holding Company LLC | Increasing security of a computing device based on determining a user's state of consciousness |
CN111782840B (zh) * | 2020-06-30 | 2023-08-22 | 北京百度网讯科技有限公司 | 图像问答方法、装置、计算机设备和介质 |
JP7487057B2 (ja) * | 2020-09-14 | 2024-05-20 | 株式会社東芝 | 作業推定装置、方法およびプログラム |
JP7512239B2 (ja) * | 2021-09-09 | 2024-07-08 | 株式会社東芝 | 事例検索装置、方法及びプログラム |
US11582485B1 (en) * | 2021-12-10 | 2023-02-14 | Mitsubishi Electric Research Laboratories, Inc. | Scene-aware video encoder system and method |
US20230245435A1 (en) * | 2022-01-31 | 2023-08-03 | Samsung Electronics Co., Ltd. | System and method for supervised contrastive learning for multi-modal tasks |
CN115132228B (zh) * | 2022-06-28 | 2024-06-07 | 北京信息科技大学 | 一种语言能力分级方法及*** |
-
2020
- 2020-10-28 JP JP2020180756A patent/JP7481995B2/ja active Active
-
2021
- 2021-08-30 US US17/460,387 patent/US20220129693A1/en active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006350604A (ja) | 2005-06-15 | 2006-12-28 | Mitsubishi Heavy Ind Ltd | 現場保守支援システム、および現場保守支援方法 |
JP2009085900A (ja) | 2007-10-03 | 2009-04-23 | Hitachi Ltd | 部品の検査システム及び検査方法 |
JP2012150613A (ja) | 2011-01-18 | 2012-08-09 | Ricoh Co Ltd | 作業内容測定装置及び作業管理装置 |
JP2013097466A (ja) | 2011-10-28 | 2013-05-20 | Hitachi Ltd | 作業支援システム、作業支援方法、および、作業用端末 |
JP2017091525A (ja) | 2015-11-03 | 2017-05-25 | バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC | 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法 |
JP2017162103A (ja) | 2016-03-08 | 2017-09-14 | 株式会社東芝 | 点検作業支援システム、点検作業支援方法、点検作業支援プログラム |
US20200193228A1 (en) | 2017-10-31 | 2020-06-18 | Beijing Sensetime Technology Development Co., Ltd. | Image question answering method, apparatus and system, and storage medium |
JP2020064418A (ja) | 2018-10-16 | 2020-04-23 | 損害保険ジャパン日本興亜株式会社 | Faq作成支援方法およびfaq作成支援システム |
WO2020100532A1 (ja) | 2018-11-14 | 2020-05-22 | ソニー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Non-Patent Citations (2)
Title |
---|
Linjie Yang et al.,"Dense Captioning with Joint Inference and Visual Context",2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),米国,IEEE,2017年,pp.1978-1987 |
嵐一樹 外1名,意味構造に着目したシーングラフ生成手法の提案,第12回データ工学と情報マネジメントに関するフォーラム (第18回日本データベース学会年次大会) [online] ,日本,2020年03月04日 |
Also Published As
Publication number | Publication date |
---|---|
US20220129693A1 (en) | 2022-04-28 |
JP2022071675A (ja) | 2022-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10438077B2 (en) | Face liveness detection method, terminal, server and storage medium | |
JP7481995B2 (ja) | 状態判定装置、方法およびプログラム | |
KR102239377B1 (ko) | 촬영영상 및 설명가능 인공지능 기반의 교량시설물 안전점검 시스템 및 그 방법 | |
KR20190063839A (ko) | 제조 공정에서 딥러닝을 활용한 머신 비전 기반 품질검사 방법 및 시스템 | |
KR20130095727A (ko) | 비디오 내 객체들의 시맨틱 파싱 | |
Rashmi et al. | Surveillance video analysis for student action recognition and localization inside computer laboratories of a smart campus | |
WO2018056355A1 (ja) | 監視装置 | |
CN109740609B (zh) | 一种轨距检测方法及装置 | |
TWI759099B (zh) | 一種針對篡改圖像的檢測方法及裝置 | |
JP2021179740A (ja) | 監視装置、監視方法、プログラムおよびモデル訓練装置 | |
JP2022139174A (ja) | 欠陥分類装置、方法およびプログラム | |
CN117115743A (zh) | 矿用安全生产监控***及其方法 | |
JP2015103188A (ja) | 画像解析装置、画像解析方法及び画像解析プログラム | |
CN112464827B (zh) | 口罩佩戴识别方法、装置、设备及存储介质 | |
WO2021181612A1 (ja) | 画像処理装置、画像処理システム、画像処理方法、および画像処理プログラムが格納される非一時的なコンピュータ可読媒体 | |
KR20220097630A (ko) | 기계학습에 기초한 조작 리뷰 검출 시스템 및 그 검출 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체 | |
CN117829243A (zh) | 模型训练方法、目标检测方法、装置、电子设备及介质 | |
CN111667419A (zh) | 一种基于Vibe算法的移动目标鬼影消除方法及*** | |
US20230077031A1 (en) | Case query apparatus and method and storage medium | |
US20220067345A1 (en) | Method and system for identifying, tracking, and collecting data on a person of interest | |
KR20130013462A (ko) | 정사각 코드북과 다중 경계 값이 적용된 텍스쳐 특징을 이용한 전경 검출 장치 및 방법 | |
Patil et al. | Automated Alarm System for Student Anomalous Action Detection in Examination Based on Video Surveillance Using ML Techniques | |
CN111046878B (zh) | 一种数据处理方法、装置及计算机存储介质和计算机 | |
CN112800854A (zh) | 一种基于图像的机车乘务员作业自动分析*** | |
JP4449483B2 (ja) | 画像解析装置、および画像解析方法、並びにコンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20230105 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240306 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240426 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7481995 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |