JP7481995B2 - 状態判定装置、方法およびプログラム - Google Patents

状態判定装置、方法およびプログラム Download PDF

Info

Publication number
JP7481995B2
JP7481995B2 JP2020180756A JP2020180756A JP7481995B2 JP 7481995 B2 JP7481995 B2 JP 7481995B2 JP 2020180756 A JP2020180756 A JP 2020180756A JP 2020180756 A JP2020180756 A JP 2020180756A JP 7481995 B2 JP7481995 B2 JP 7481995B2
Authority
JP
Japan
Prior art keywords
image
question
answer
state
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020180756A
Other languages
English (en)
Other versions
JP2022071675A (ja
Inventor
ヴェト クォク ファン
俊信 中洲
直 三島
将順 仲山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2020180756A priority Critical patent/JP7481995B2/ja
Priority to US17/460,387 priority patent/US20220129693A1/en
Publication of JP2022071675A publication Critical patent/JP2022071675A/ja
Application granted granted Critical
Publication of JP7481995B2 publication Critical patent/JP7481995B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Description

本発明の実施形態は、状態判定装置および画像解析装置に関する。
製造現場、保守現場に設置されたカメラで撮影した現場画像に基づき、例えば安全マニュアルに違反した装備状態または危険な状態を検知したいというニーズがある。
特開2017-91525号公報
本開示は、上述の課題を解決するためになされたものであり、推定精度を向上させることを目的とする。
本実施形態に係る状態判定装置は、画像取得部と、質問回答取得部と、推論部と、判定部とを含む。画像取得部は、対象画像を取得する。質問回答取得部は、前記対象画像に関する質問と前記質問に対する想定回答とを取得する。推論部は、画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成する。判定部は、前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する。
第1の実施形態に係る状態判定装置を示すブロック図。 第1の実施形態に係る状態判定装置の状態判定処理を示すフローチャート。 質問および想定回答の一例を示すテーブル。 状態判定装置の状態判定処理の適用例を示す概念図。 危険状態の検出結果の提示例を示す図。 第2の実施形態に係る状態判定装置を示すブロック図。 第2の実施形態に係る状態判定装置の状態判定処理を示すフローチャート。 第3の実施形態に係る画像解析装置を示すブロック図。 第3の実施形態に係る画像解析装置の動作を示すフローチャート。 画像特徴量算出処理の第1例を示すフローチャート。 第1画像特徴量の算出例を示す概念図。 第2画像特徴量の算出例を示す概念図。 画像特徴量算出処理の第2例を示すフローチャート。 画像特徴量算出処理の第3例を示すフローチャート。 状態判定装置または画像解析装置のハードウェア構成の一例を示す図。
以下、図面を参照しながら本実施形態に係る状態判定装置および画像解析装置について詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作を行うものとして、重複する説明を適宜省略する。
(第1の実施形態)
第1の実施形態に係る状態判定装置について図1のブロック図を参照して説明する。
第1の実施形態に係る状態判定装置1は、画像取得部11と、質問回答取得部12と、推論部13と、判定部14と、提示部15とを含む。
画像取得部11は、対象画像を取得する。
質問回答取得部12は、対象画像に関する質問と前記質問に対する想定回答とを取得する。
推論部13は、画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、対象画像に関する質問について推定される推定回答を生成する。第1の実施形態で想定する学習済みモデルは、入力画像と入力画像に対する質問が提示された場合に入力画像から回答を導き出す、いわゆるVQA(Visual Question Answering)に関するモデルであり、例えば学習済みモデル格納部16に格納される。学習済みモデル格納部16は、図1に示すように、クラウドサーバなどの外部に存在してもよいし、状態判定装置1内に存在してもよい。推論部13が外部の学習済みモデル格納部16を参照する場合は、学習済みモデル格納部16に対して質問を送信し、推定回答を受信すればよい。
判定部14は、想定回答と推定回答との類似度に応じて、判定対象の状態を判定する。例えば、判定対象が異常な状態であるか否かを判定する。本実施形態における異常な状態とは、例えば、危険な状態、劣悪な状態など、想定回答で想定する状態とは異なる状態を示す。
提示部15は、判定部14により例えば判定対象の状態が異常であると判定された場合、異常である旨を通知する。また、提示部15は、データベースを参照し、解決策または改善策を提示する。
次に、第1の実施形態に係る状態判定装置1の状態判定処理について図2のフローチャートを参照して説明する。
ステップS201では、画像取得部11が、対象画像を取得する。対象画像は、第1の実施形態では、監視カメラなどにより、判定対象となる作業者を撮影した撮影画像を想定するが、これに限らず、判定対象の状態を判定するために利用可能な画像であればよい。また、画像に限らず、動画であってもよい。動画である場合は、フレームごとに状態判定装置1による状態判定処理が実行されてもよいし、複数のフレームの中から選択された代表フレームについて状態判定処理が実行されてもよい。
ステップS202では、質問回答取得部12が、対象画像に関する質問と当該質問に対する想定回答とを取得する。第1の実施形態では、安全マニュアル通りに準備、作業をしているか否かを判定することを想定するため、安全マニュアルから質問と想定回答とが予め作成されているものとする。つまり、想定回答は、正常な状態を想定した回答となる。
ステップS203では、推論部13が、VQAに関する学習済みモデルを用いて、対象画像について質問に対する推定回答を生成する。
ステップS204では、判定部14が、想定回答と推定回答とを比較し、類似度が閾値以上であるか否かを判定する。類似度が閾値以上であればステップS205に進み、類似度が閾値未満であればステップS206に進む。
なお、判定部14における類似度の判定は、推定回答および想定回答の出力形式によって異なる。例えば、推定回答および想定回答の出力形式が数値であれば、双方の回答の値の差分がゼロまたは閾値以下であれば、推定回答と想定回答とが類似すると判定する。また、推定回答および想定回答の出力形式が名詞や文章などの文字列であれば、表記揺れや言い回しなどの違いの差を吸収できるよう、例えば推定回答44と想定回答45とのコサイン類似度を計算する。コサイン類似度が閾値以上であれば、推定回答と想定回答とが類似すると判定すればよい。これにより、意味的な類似度を判定できる。
ステップS205では、判定部14が、推定回答が想定回答通りであるといえるため、判定対象となる作業者が安全マニュアル通りの状態にある、言い換えれば異常がないと判定する。
ステップS206では、判定部14が、推定回答が想定回答通りではないといえるため、作業者が安全マニュアル通りの状態ではない、言い換えれば異常があると判定する。
なお、図2の例では、想定回答は、正常な状態を想定した回答であるが、質問および回答の作成の仕方により、判定部14における判定結果(ステップS708とステップS709)が入れ替わる。例えば、質問回答取得部12が、異常な状態を想定した回答と質問との組を取得した場合、ステップS204で想定回答と推定回答との類似度が閾値以上であると判定されれば、判定部14は、推定回答が想定回答通り、つまり異常な状態であると判定できる。
次に、質問回答取得部12が取得する質問および想定回答の一例について図3を参照して説明する。
図3は、質問と対応する想定回答とを対応付けて格納するテーブルの一例である。ここでは、安全マニュアルによる作業者が順守すべき安全な状態(異常がない状態)となるための準備リストを示す。具体的には、質問「帽子を装着しているか?」と、対応する想定回答「はい」とが対応付けられて格納される。
質問回答取得部12は、図3に示すテーブルから質問と想定回答との組を逐次抽出し、推論部13および判定部14による処理が実行される。なお、質問および想定回答の格納形式はテーブル形式に限らず、質問と対応する想定回答とが組で取得できればどのような格納形式でもよい。
次に、状態判定装置1の状態判定処理の適用例について図3と図4とを参照して説明する。図4は、推論部13および判定部14の処理の概念図である。
推論部13は、対象画像41と、質問42とをVQAのための学習済みモデル43に入力し、学習済みモデル43から推論結果として推定回答44が出力される。図4の例では、作業者が作業をしている画像を対象画像41として入力し、図3に示す質問42「帽子を装着しているか?」と学習済みモデル43に入力される。学習済みモデル43では、対象画像41から画像特徴量と、質問42からテキスト特徴量とを抽出し、画像特徴量とテキスト特徴量とに基づいて、質問に対する回答が推論される。ここでは、学習済みモデル43より推定回答44「いいえ」が出力されたとする。
図3のテーブルにおける質問42「帽子を装着しているか?」に対する想定回答45は「はい」であるため、判定部14は、推定回答44と想定回答45とを比較する。判定部14は、ここでは、意味的な類似度を比較する。つまり、推定回答44「いいえ」と想定回答45「はい」とは正反対の答えであるため、判定部14は、推定回答44と想定回答45との類似度が閾値未満であると判定する。よって、推定回答44と想定回答45とが異なるため、異常な状態、ここでは危険状態である旨の判定結果46が生成される。
次に、提示部15による危険状態の検出結果の提示例について図5を参照して説明する。
図5は、例えばディスプレイに表示されるユーザインタフェース画面である。提示部15は、図3に示す質問と想定回答との項目のテーブルに、推定回答を追加してユーザインタフェース画面に表示する。
ここでは、Q2「グローブを装着しているか?」という質問に対して、想定回答が「はい」であるが、推論部13による推定回答が「いいえ」であるため、危険状態を示すマーク51を表示する。なお、マーク51に限らず、推定回答の文字列について、色、文字サイズ、ハイライト、点滅させるといった強調表示をしてもよい。また、音声やアラーム音などで危険状態を通知してもよい。これにより、ユーザは、画面を確認することでどの項目が危険な状態の項目なのかを一見して把握できる。
また、危険状態と判定された項目に対して、過去の解決策または改善策の事例を図5の「解決策または改善策」の項目に表示してもよい。ここでは、Q2「グローブを装着しているか?」という質問の項目について条件を満たしていないため、「後ろの棚にある予備のグローブを着用してください」といった、解決策を提示できる。
以上に示した第1の実施形態によれば、画像に対する任意の質問に回答可能なVQAに関する学習済みモデルを用いて、判定対象の状態を判定する。これにより、例えば、作業者の異常な状態、危険な状態を検知することができる。また、画像と質問という汎用的なフォーマットのため、様々な状況で適用可能であり、状態の推定精度を向上させることができる。さらに、VQAに関する学習済みモデルを用いることで、任意の質問に対しても推論できるため、例えば安全マニュアルの変更があった場合でも、学習済みモデル全体を変更することなく、質問と推定回答との組のみ変更すればよいため、状態判定装置または点検項目のメンテナンスを省力化できる。
(第2の実施形態)
第2の実施形態では、質問と想定回答とを自動生成する点が第1の実施形態と異なる。
第2の実施形態に係る状態判定装置について図6のブロック図を参照して説明する。
第2の実施形態に係る状態判定装置2は、画像取得部11と、質問回答取得部12と、推論部13と、判定部14と、提示部15と、質問回答生成部61とを含む。
質問回答生成部61は、外部からマニュアルを受け取り、マニュアルから質問と対応する想定回答とを生成する。マニュアルは、安全マニュアル、点検リスト、取扱説明書などの作業マニュアルでもよいし、作業報告書、トラブル報告書、または過去のトラブルの状況、原因、対策を関連づけた知識グラフ、オントロジーでもよい。例えば、トラブル報告書に基づき質問および想定回答を生成することで、過去にトラブルが発生したときの条件になっているか否かを判定できる。
マニュアルから質問と想定回答とを生成する手法としては、例えば、マニュアルにある「~することはできません」という否定文を「~することができますか?」という疑問文にすることで質問文を生成し、マニュアルの文言を想定回答とするようなルールベースによる手法を用いればよい。また、「<条件>の場合、<名詞>が<動詞>」といったテンプレートを用意し、マニュアルの文言から品詞、条件文を抽出してテンプレートに当てはめることで、質問文を生成し、マニュアルの文言を想定回答とするようなテンプレートに基づく手法でもよい。すなわち、マニュアルから質問と想定回答とを抽出、生成できる手法であればどのような手法を用いてもよい。
状態判定装置2は、生成した質問および想定回答を用いて取得した画像に対して推論することにより、状態を判定することができる。
なお、質問回答生成部61は、マニュアルにおける1つの判定項目から、複数の質問および対応する想定回答を生成してもよい。この場合の複数の質問とは、1つの判定項目に対して問い方を変えたバリエーションの質問である。このように1つの判定項目に対して複数の質問を生成することで、確信度およびロバスト性を高めることができる。
1つの判定項目から複数の質問を作成した場合の状態判定装置2の状態判定処理について、図7のフローチャートを参照して説明する。なお、ステップS201は、図2と同様の処理である。
ステップS701では、質問回答生成部61が、上述した生成手法などにより、1つの判定項目からk個(kは2以上の正数)の質問と対応する想定回答とを生成する。
ステップS702では、推論部13が、学習済みモデルを用いて、i番目(iは1以上の正数)の質問に対する推定回答を生成する。
ステップS703では、判定部14が、想定回答と推定回答との類似度が閾値以上であるか否かを判定する。類似度が閾値以上である場合、ステップS704に進み、類似度が閾値未満である場合、ステップS705に進む。
ステップS704では、判定部14が、カウンタを1つインクリメントする。
ステップS705では、判定部14が、ステップS701で生成したk個の質問を全て処理したか否かを判定する。k個の質問を全て処理した場合、ステップS707に進み、未処理の質問がある場合、ステップS706に進む。
ステップS706では、次の質問を処理すべくiが1つインクリメントされ、ステップS702に戻り、同様の処理を繰り返す。
ステップS707では、判定部14が、カウンタの値が閾値以上であるか否かを判定する。カウンタの値が閾値以上である場合、ステップS708に進み、カウンタの値が閾値未満である場合、ステップS709に進む。
ステップS708では、判定部14が、複数の質問について一定数、想定回答通りの推定回答が得られているので、異常がないと判定する。
ステップS709では、判定部14が、想定回答通りの推定回答が得られていないため、異常があると判定する。
なお、ステップS707において、閾値を質問の数と同数、つまり閾値をkと設定することにより、1つでも想定回答と異なる推定回答が得られた場合、判定部14は、異常があると判定することもできる。これにより、判定の条件を厳しくすることができる。
以上に示した第2の実施形態によれば、例えば、通路に物が置かれているか否かの点検項目を判定する場合に、「通路に物がないか?」「通路に何があるか?」「通路に物が何個置かれているか?」といったように、1つの点検項目について問い方を変えて質問を生成する。それぞれに質問に対し、例えば「はい」「何もありません」「0個」といった想定回答を生成した場合、想定回答とは異なる推定回答が得られた場合に危険状態と判定するなど、より厳しい条件で状態を判定できる。
また、学習済みモデルの推論精度が低い場合、一定数以上の質問に対する推定回答が想定回答と異なる場合に危険と判定することで、推定回答の誤りに対してロバスト性を高めることができる。
なお、質問回答生成部61によらず、予め1つの判定項目に対して複数の質問および対応する想定回答を用意することにより、第1の実施形態に係る状態判定装置1でも同様の判定結果を得ることができる。
また、上述の実施形態では、1つの場面(1つの画像)に対して異常であるか否かを判定しているが、推定回答と想定回答とが異なる状況が、所定期間以上または所定回数以上存在する場合に、異常であると判定してもよい。具体的には、例えば作業者の作業を監視カメラでモニタリングしており、複数人での作業が必要な業務について、作業者が1人で作業していた場合を想定する。質問「複数人で作業していますか?」と想定回答「はい」とが状態判定装置に入力され、推定回答「いいえ」が出力されたとする。この場合、最初に推定回答「いいえ」が出力されたときの時刻情報を例えば判定部14が保持し、その後、状態判定装置が判定処理を継続し、最初の時刻情報から所定期間経過しても、推定回答「いいえ」が出力される場合、異常であると判定してもよい。これにより、作業者が危険な状態であるとも判定できる。
上述の実施形態では、異常状態の判定、特に危険検知を想定した例を示すが、これに限らず、状態判定装置により作業スキル検知を実施できる。例えば、熟練者の作業のコツに関する質問および想定回答を生成し、作業中の作業者の画像に基づき、推論部13が推定回答を生成する。想定回答と推定回答との類似度が閾値未満であれば、判定部14は、熟練者の作業とは異なる、つまり、低スキル作業であると判定できる。
低スキル作業であると判定された場合、提示部15がその旨を作業者に提示すべく、ユーザインタフェース画面または音により通知してもよいし、どの項目で低スキルと判定されたかを提示してもよい。さらには、提示部15が、改善策として熟練者の作業のコツに関する説明文または作業の動画を作業者に提示してもよい。このような質問および推定回答、改善策などを用意し、状態判定装置により状態判定を実施することで、低スキルを検知でき、熟練者の技能伝承を実施できる。
同様に、状態判定装置は高負荷作業検知も実施できる。例えば、作業者にかかる負荷が標準以下となる作業であるか否かを点検項目、一例として作業姿勢を評価するOWAS(Ovako Working posture Analysing System)法などから質問および想定回答を生成し、作業中の作業者の画像に基づき、推論部13が推定回答を生成する。想定回答と推定回答との類似度が閾値未満であれば、判定部14は、標準の負荷とは異なる、つまり、高負荷作業であると判定できる。
高負荷作業であると判定された場合、提示部15がその旨を作業者に提示すべく、ユーザインタフェース画面または音により通知してもよいし、どの項目で高負荷作業と判定されたかを提示してもよい。また、高負荷であると判定された累積時間を計算し、累積的な負荷具合を算出してもよい。これにより、高負荷作業が検知でき、検知された結果をふまえて作業現場における作業の負荷分散を検討できる。
また、状態判定装置は低効率作業の検知も実施できる。例えば、効率のよい作業であるか否かに関する質問および想定回答を生成し、作業中の作業者の画像に基づき、推論部13が推定回答を生成する。想定回答と推定回答との類似度が閾値未満であれば、判定部14は、効率のよい作業とは異なる、つまり、低効率作業であると判定できる。
低効率作業であると判定された場合、提示部15がその旨を作業者に提示すべく、ユーザインタフェース画面または音により通知してもよいし、どの項目で低効率と判定されたかを提示してもよい。また、低効率であると判定された累積時間を算出することで、累積的な低効率作業時間を算出してもよい。これにより、低効率作業を検知でき、作業現場の生産性向上につながる。
(第3の実施形態)
第1の実施形態および第2の実施形態の学習済みモデルとしても想定している一般的なVQAでは、画像の特徴量として物体のROI(Region of Interest)の情報を利用している。よって、人物や標識などの物体に関する質問に対しては推定回答が得られるが、道路、空といった非物体の関する質問に対しては正しい回答を生成することは困難である。第3の実施形態では、非物体に関する特徴量を検出する構成を含む画像解析装置について説明する。
第3の実施形態に係る画像解析装置について図8のブロック図を参照して説明する。
第3の実施形態に画像解析装置8は、画像取得部81と、テキスト取得部82と、画像特徴算出部83と、テキスト特徴算出部84と、推定部85とを含む。
画像取得部81は、VQAの処理対象となる対象画像を取得する。
テキスト取得部82は、画像取得部81が取得した対象画像に対する質問を取得する。
画像特徴算出部83は、画像から物体に関する第1画像特徴量と、画像から非物体を含む第2画像特徴量とを融合した画像特徴量を算出する。
テキスト特徴算出部84は、テキスト取得部82が取得した質問からテキスト特徴量を算出する。
推定部85は、画像特徴量およびテキスト特徴量に基づいて、対象画像に対する質問の回答を推定する。
次に、第3の実施形態に係る画像解析装置8の動作について図9のフローチャートを参照して説明する。
ステップS901では、画像取得部81が、画像を取得する。
ステップS902では、テキスト取得部82が、質問を取得する。質問は例えば「帽子を装着していますか?」「道路は混んでいますか?」といった画像に対する質問である。
ステップS903では、画像特徴算出部83が、例えばニューラルネットワークを用いて、画像から第1画像特徴量と第2画像特徴量とを算出する。その後、画像特徴算出部83は、第1画像特徴量と第2画像特徴量とを融合して画像特徴量を算出する。画像特徴量の算出方法の詳細については図11以降を参照して後述する。
ステップS904では、テキスト特徴算出部84が、質問からテキスト特徴量を算出する。テキスト特徴量としては、例えば、Word2vecといったテキストの分散表現化(Embedding)が可能な手法を用いてテキストをベクトル化した値を用いればよい。
ステップS905では、推定部85が、例えばAttentionを利用したDNN(Deep Neural Network)などによるVQAのための学習済みモデルを用いて、画像特徴量およびテキスト特徴量を用いて、質問に対する回答を推定する。学習済みモデルは、画像解析装置8内に保持されてもよいし、図1の学習済みモデル格納部16のように、外部に格納されてもよい。
なお、ステップS901とステップS903との処理順序、および、ステップS902とステップS904との処理順序が維持されていれば、ステップS901からステップS904まではどのような順序でもよい。例えば、対象画像の取得、画像特徴量の算出、質問の取得、テキスト特徴量の算出といった順序でもよい。
次に、ステップS903における画像特徴算出部83の画像特徴量算出処理の第1例について図10のフローチャートを参照して説明する。
ステップS1001では、画像特徴算出部83が、ステップS901で取得した対象画像から、画像中の物体を含むROIを検出する。
ステップS1002では、画像特徴算出部83が、抽出されたROIの特徴量を、第1画像特徴量として算出する。
ステップS1003では、画像特徴算出部83が、ステップS901で取得した画像から、セマンティックセグメンテーション処理により、画像領域を分割する。
ステップS1004では、画像特徴算出部83が、分割された画像領域ごとに、セマンティックセグメンテーションに関する特徴量を第2画像特徴量として算出する。
ステップS1005では、画像特徴算出部83が、ステップS1002で算出した第1画像特徴量と、ステップS1004で算出した第2画像特徴量とを融合し、画像特徴量を算出する。融合方法としては、例えば第1画像特徴量および第2画像特徴量がそれぞれベクトルで表現されていれば、ベクトル同士を結合すればよい。
次に、ステップS1001およびステップS1002における第1画像特徴量の算出例について図11を参照して説明する。
図11は、画像から第1画像特徴量が算出されるまでの流れを示す概念図である。第3の実施形態では、物体検出モデルとして、Faster R-CNNと呼ばれるニューラルネットワークを用いることを想定する。図11左図は、処理対象の画像であり、作業者が作業をしている状況を撮影した画像を想定する。なお、Faster R-CNNに限らず、一般的な物体検出モデルであればどのようなモデルを用いてもよい。
画像が物体検出モデル1102の畳み込み層に入力される。物体検出モデル1102では、物体らしい領域を特定するように、作業者や棚など、物体を囲む矩形(バウンディングボックス)がROI1101として表現される。ROIごとに、ROI内の物体に関する特徴量が抽出される。一般的な物体認識モデルでは、当該物体認識モデルからの出力として、物体の候補と識別ベクトル(識別スコア)とが出力されるが、第3の実施形態では、出力層の1つ前の層で算出される値を第1画像特徴量(ROI特徴量)1103として設定する。例えば、処理対象のROIについて、出力層から80個の物体候補に関する識別スコアを含む識別ベクトル(つまり80次元のベクトル)が得られる場合、当該出力層の前段以前では80次元以上のベクトル、例えば2000次元以上のベクトルを処理しており、ここでは、出力層の1つ前の層で算出されるベクトル値を第1画像特徴量1103として用いる。
なお、ROIに関する第1画像特徴量1103として、物体の位置関係および物体の意味的な関係を表すシーングラフに関する情報を用いてもよい。
次に、ステップS1003およびステップS1004における第2画像特徴量の算出例について図12を参照して説明する。
図12は、第3の実施形態で用いるセマンティックセグメンテーションモデルの一例として、FCN(Fully Convolutional Netwrks)の概念図を示す。なお、FCNに限らず、Segnet、U-netなどセマンティックセグメンテーションに用いるモデルであれば、どのようなモデルでも適用できる。
図12左図は、処理対象の画像例であり、犬と猫とがソファ上に存在する画像である。セマンティックセグメンテーションでは、画像中の各画素に対してラベリングされる。第3の実施形態では、ステップS1003で分割される画像領域は、図12右図では、例えば犬、猫、ソファ、背景のシルエットの各領域に相当する。画像特徴算出部83は、当該画像領域に含まれる画素について、出力層1201の1つ前の層1202で算出されるベクトル値(例えば、4000次元のベクトル)を、当該画像領域に関する第2画像特徴量として算出する。
次に、画像特徴算出部83の画像特徴量算出処理の第2例について図13のフローチャートを参照し説明する。なお、ステップS1001およびステップS1003は図10と同様の処理である。
ステップS1301では、画像特徴算出部83が、ステップS1001で得られたROIとステップS1003で得られた画像領域とを融合し、融合ROIを生成する。融合ROIの生成は、例えば、ステップS1001で検出されたROIと、ステップS1003で得られた画像領域との総和を融合ROIとする。また、ステップS1001において、例えばROI検出処理においてROIとして認識するための閾値を下げ、通常よりも多くのROIを検出し、検出されたROIとステップS1003で得られた画像領域との重複領域が閾値以上であるROIを、融合ROIとして生成してもよい。
ステップS1302では、画像特徴算出部83が、融合ROIごとに、画像特徴量を算出する。ステップS1302では、物体検出モデルによるステップS1002と同様の特徴量の算出が行われればよい。
次に、画像特徴算出部83の画像特徴量算出処理の第3例について図14のフローチャートを参照し説明する。
ステップS1401では、画像特徴算出部83が、画像領域ごとのセマンティックラベルを抽出する。セマンティックラベルは、セマンティックセグメンテーションにおいて分割された画像領域に付与されるラベルであり、例えば図12の例では、犬、猫といったラベルを示す。
ステップS1402では、画像特徴算出部83が、セマンティックラベルをエンコードする。例えば、Word2vecを用いて、セマンティックラベルをベクトル化すればよい。
ステップS1403では、画像特徴算出部83が、ステップS1005において得られる画像特徴量と、ステップS1402で得られたエンコードされたセマンティックラベルとを結合する。例えば、画像特徴量のベクトルにエンコードされたセマンティックラベルのベクトルを結合すればよい。
以上に示した第3の実施形態によれば、画像の特徴量として非物体、背景などに関する特徴量を学習した学習済みモデルにより、VQA問題を処理する。これにより、物体のみならず、非物体、背景などの任意の質問に対しても回答を推定できるため、VQAの性能を向上させることができる。結果として、推定精度を向上させることができる。
なお、第1の実施形態および第2の実施形態に係る状態判定装置の推論部13として、第3の実施形態に係る画像解析装置を用いてもよい。これにより、「道路に物が落ちているか?」といった非物体、背景などに関する任意の質問に対しても回答を推定でき、状態の推定精度をより向上させることができる。
次に、上述の実施形態に係る状態判定装置または画像解析装置のハードウェア構成の一例を図15に示す。
状態判定装置または画像解析装置は、CPU(Central Processing Unit)1501と、RAM(Random Access Memory)1502と、ROM(Read Only Memory)1503と、ストレージ1504と、表示装置1505と、入力装置1506と、通信装置1507とを含み、それぞれバスにより接続される。
CPU1501は、プログラムに従って演算処理および制御処理などを実行するプロセッサである。CPU1501は、RAM1502の所定領域を作業領域として、ROM1503およびストレージ1504などに記憶されたプログラムとの協働により各種処理を実行する。
RAM1502は、SDRAM(Synchronous Dynamic Random Access Memory)などのメモリである。RAM1502は、CPU1501の作業領域として機能する。ROM1503は、プログラムおよび各種情報を書き換え不可能に記憶するメモリである。
ストレージ1504は、HDD等の磁気記録媒体、フラッシュメモリなどの半導体による記憶媒体、または、HDD(Hard Disc Drive)などの磁気的に記録可能な記憶媒体、または光学的に記録可能な記憶媒体などにデータを書き込みおよび読み出しをする装置である。ストレージ1504は、CPU1501からの制御に応じて、記憶媒体にデータの書き込みおよび読み出しをする。
表示装置1505は、LCD(Liquid Crystal Display)などの表示デバイスである。表示装置1505は、CPU1501からの表示信号に基づいて、各種情報を表示する。
入力装置1506は、マウスおよびキーボード等の入力デバイスである。入力装置1506は、ユーザから操作入力された情報を指示信号として受け付け、指示信号をCPU1501に出力する。
通信装置1507は、CPU1501からの制御に応じて外部機器とネットワークを介して通信する。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した状態判定装置および画像解析装置の制御動作による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RW、Blu-ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の状態判定装置および画像解析装置の制御と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
以下、出願当初の特許請求の範囲に記載された発明を付記する。
[1]
対象画像を取得する画像取得部と、
前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得部と、
画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成する推論部と、
前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定部と、
を具備する状態判定装置。
[2]
前記回答は、正常である場合を想定した項目であり、
前記判定部は、前記類似度が閾値未満である場合、前記判定対象の状態が異常であると判定する、[1]に記載の状態判定装置。
[3]
前記想定回答は、異常である場合を想定した項目であり、
前記判定部は、前記類似度が閾値以上である場合、前記判定対象の状態が異常であると判定する、[1]に記載の状態判定装置。
[4]
前記判定部は、前記判定対象の状態が異常である場合、前記判定対象が危険状態であると判定する、[2]または[3]に記載の状態判定装置。
[5]
前記異常であると判定された場合、前記質問と解決策とを対応付けたデータベースを参照し、前記解決策を提示する提示部をさらに具備する、[2]から[4]のいずれか1項に記載の状態判定装置。
[6]
マニュアルから前記質問および前記想定回答を抽出して生成する生成部をさらに具備する、[1]から[5]のいずれか1項に記載の状態判定装置。
[7]
マニュアルにおいて正常である場合を想定した1つの判定項目に対して、複数の質問および前記複数の質問にそれぞれ対応する想定回答を生成する生成部をさらに具備し、
前記判定部は、前記複数の質問それぞれに対して前記学習済みモデルを用いて得られた推定回答と前記想定回答との類似度が第1閾値以上となる数が第2閾値未満である場合、前記判定項目に対する状態が異常であると判定する、[1]に記載の状態判定装置。
[8]
前記学習済みモデルは、VQA(Visual Question Answering)に関するモデルである、[1]から[7]のいずれか1項に記載の状態判定装置。
[9]
前記判定部は、前記類似度が閾値未満である状態が所定期間以上または所定回数以上である場合、異常な状態であると判定する、[1]に記載の状態判定装置。
[10]
画像を取得する画像取得部と、
質問を取得するテキスト取得部と、
前記画像から、物体に関する第1画像特徴量と、非物体を含む第2画像特徴量とを融合した画像特徴量を算出する第1算出部と、
前記質問からテキスト特徴量を算出する第2算出部と、
前記画像特徴量および前記テキスト特徴量に基づき、回答を推定する推定部と、
を具備する画像解析装置。
[11]
前記第1算出部は、
前記画像においてROI(Region of Interest)を検出し、
前記検出されたROIに関する前記第1画像特徴量を算出し、
前記画像に対してセマンティックセグメンテーション処理を実行することにより、画像領域を分割し、
前記分割された画像領域に対して前記第2画像特徴量を算出する、[10]に記載の画像解析装置。
[12]
前記第1算出部は、
前記画像においてROI(Region of Interest)を検出し、
前記画像に対してセマンティックセグメンテーション処理を実行することにより、画像領域を分割し、
前記検出されたROIと前記分割された画像領域とを融合して融合ROIを生成し、
前記融合ROIに関して前記画像特徴量を算出する、[10]に記載の画像解析装置。
[13]
前記第1画像特徴量および前記第2画像特徴量は、ベクトルで表現され、
前記第1算出部は、前記第1画像特徴量のベクトルと前記第2画像特徴量のベクトルとを結合する、[10]から[12]のいずれか1項に記載の画像解析装置。
[14]
前記第1算出部は、前記検出されたROIと、前記分割された画像領域との総和を前記融合ROIとして算出する、[12]に記載の画像解析装置。
[15]
前記第1算出部は、前記検出されたROIと前記分割された画像領域とが重複する領域が閾値以上であるROIを前記融合ROIとして算出する、[12]に記載の画像解析装置。
[16]
前記第1算出部は、前記画像特徴量に、前記セマンティックセグメンテーション処理により前記分割された画像領域に付されるラベルに基づく特徴量を結合する、[11]または[12]に記載の画像解析装置。
[17]
前記第1算出部は、前記物体の位置関係および前記物体の意味的な関係を表すシーングラフに関する情報を抽出し、前記シーングラフに関する情報と前記第2画像特徴量とを融合して前記画像特徴量を算出する、[10]に記載の画像解析装置。
[18]
対象画像を取得する画像取得部と、
前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得部と、
[10]から[17]のいずれか1項に記載の画像解析装置を用いて、前記対象画像に関する質問について推定される推定回答を生成する推論部と、
前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定部と、
を具備する状態判定装置。
1,2…状態判定装置、8…画像解析装置、11…画像取得部、12…質問回答取得部、13…推論部、14…判定部、15…提示部、16…学習済みモデル格納部、41…対象画像、42…質問、43…学習済みモデル、44…推定回答、45…想定回答、46…判定結果、51…マーク、61…質問回答生成部、81…画像取得部、82…テキスト取得部、83…画像特徴算出部、84…テキスト特徴算出部、85…推定部、1101…ROI、1102…物体検出モデル、1103…第1画像特徴量(ROI特徴量)、1201…出力層、1202…層、1203…第2画像特徴量、1501…CPU、1502…RAM、1503…ROM、1504…ストレージ、1505…表示装置、1506…入力装置、1507…通信装置。

Claims (12)

  1. 対象画像を取得する画像取得部と、
    前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得部と、
    画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成する推論部と、
    前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定部と、
    を具備する状態判定装置。
  2. 前記回答は、正常である場合を想定した項目であり、
    前記判定部は、前記類似度が閾値未満である場合、前記判定対象の状態が異常であると判定する、請求項1に記載の状態判定装置。
  3. 前記想定回答は、異常である場合を想定した項目であり、
    前記判定部は、前記類似度が閾値以上である場合、前記判定対象の状態が異常であると判定する、請求項1に記載の状態判定装置。
  4. 前記判定部は、前記判定対象の状態が異常である場合、前記判定対象が危険状態であると判定する、請求項2または請求項3に記載の状態判定装置。
  5. 前記異常であると判定された場合、前記質問と解決策とを対応付けたデータベースを参照し、前記解決策を提示する提示部をさらに具備する、請求項2から請求項4のいずれか1項に記載の状態判定装置。
  6. マニュアルから前記質問および前記想定回答を抽出して生成する生成部をさらに具備する、請求項1から請求項5のいずれか1項に記載の状態判定装置。
  7. マニュアルにおいて正常である場合を想定した1つの判定項目に対して、複数の質問および前記複数の質問にそれぞれ対応する想定回答を生成する生成部をさらに具備し、
    前記判定部は、前記複数の質問それぞれに対して前記学習済みモデルを用いて得られた推定回答と前記想定回答との類似度が第1閾値以上となる数が第2閾値未満である場合、前記判定項目に対する状態が異常であると判定する、請求項1に記載の状態判定装置。
  8. 前記学習済みモデルは、VQA(Visual Question Answering)に関するモデルである、請求項1から請求項7のいずれか1項に記載の状態判定装置。
  9. 前記判定部は、前記類似度が閾値未満である状態が所定期間以上または所定回数以上である場合、異常な状態であると判定する、請求項1に記載の状態判定装置。
  10. 対象画像を取得する画像取得部と、
    前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得部と、
    像解析装置を用いて、前記対象画像に関する質問について推定される推定回答を生成する推論部と、
    前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定部と、
    を具備する状態判定装置であって、
    前記画像解析装置は、
    画像を取得する画像取得部と、
    質問を取得するテキスト取得部と、
    前記画像から、物体に関する第1画像特徴量と、非物体を含む第2画像特徴量とを融合した画像特徴量を算出する第1算出部と、
    前記質問からテキスト特徴量を算出する第2算出部と、
    前記画像特徴量および前記テキスト特徴量に基づき、回答を推定する推定部と、
    を具備する、状態判定装置
  11. 画像取得手段が、対象画像を取得し、
    質問回答取得手段が、前記対象画像に関する質問と前記質問に対する想定回答とを取得し、
    推論手段が、画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成し、
    判定手段が、前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する、状態判定方法。
  12. コンピュータを、
    対象画像を取得する画像取得手段と、
    前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得手段と、
    画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成する推論手段と、
    前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定手段として機能させるための状態判定プログラム。
JP2020180756A 2020-10-28 2020-10-28 状態判定装置、方法およびプログラム Active JP7481995B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020180756A JP7481995B2 (ja) 2020-10-28 2020-10-28 状態判定装置、方法およびプログラム
US17/460,387 US20220129693A1 (en) 2020-10-28 2021-08-30 State determination apparatus and image analysis apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020180756A JP7481995B2 (ja) 2020-10-28 2020-10-28 状態判定装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2022071675A JP2022071675A (ja) 2022-05-16
JP7481995B2 true JP7481995B2 (ja) 2024-05-13

Family

ID=81258564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020180756A Active JP7481995B2 (ja) 2020-10-28 2020-10-28 状態判定装置、方法およびプログラム

Country Status (2)

Country Link
US (1) US20220129693A1 (ja)
JP (1) JP7481995B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021005898A1 (ja) * 2019-07-11 2021-01-14
CN116881427B (zh) * 2023-09-05 2023-12-01 腾讯科技(深圳)有限公司 问答处理方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350604A (ja) 2005-06-15 2006-12-28 Mitsubishi Heavy Ind Ltd 現場保守支援システム、および現場保守支援方法
JP2009085900A (ja) 2007-10-03 2009-04-23 Hitachi Ltd 部品の検査システム及び検査方法
JP2012150613A (ja) 2011-01-18 2012-08-09 Ricoh Co Ltd 作業内容測定装置及び作業管理装置
JP2013097466A (ja) 2011-10-28 2013-05-20 Hitachi Ltd 作業支援システム、作業支援方法、および、作業用端末
JP2017091525A (ja) 2015-11-03 2017-05-25 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
JP2017162103A (ja) 2016-03-08 2017-09-14 株式会社東芝 点検作業支援システム、点検作業支援方法、点検作業支援プログラム
JP2020064418A (ja) 2018-10-16 2020-04-23 損害保険ジャパン日本興亜株式会社 Faq作成支援方法およびfaq作成支援システム
WO2020100532A1 (ja) 2018-11-14 2020-05-22 ソニー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
US20200193228A1 (en) 2017-10-31 2020-06-18 Beijing Sensetime Technology Development Co., Ltd. Image question answering method, apparatus and system, and storage medium

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101644443B1 (ko) * 2014-02-05 2016-08-01 김세영 시공적 상황데이터를 이용한 경고 방법 및 시스템
JP6748434B2 (ja) * 2016-01-18 2020-09-02 キヤノン株式会社 画像処理装置、推定方法、システム及びプログラム
CN106485224B (zh) * 2016-10-13 2019-07-16 北京智芯原动科技有限公司 一种安全带佩戴识别方法及装置
JP2019021051A (ja) * 2017-07-18 2019-02-07 株式会社東芝 情報処理装置、方法及びプログラム
US10742399B2 (en) * 2017-12-28 2020-08-11 Intel Corporation Context-aware image compression
JP7155546B2 (ja) * 2018-03-05 2022-10-19 富士フイルムビジネスイノベーション株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
WO2020088739A1 (en) * 2018-10-29 2020-05-07 Hexagon Technology Center Gmbh Facility surveillance systems and methods
CN109871457A (zh) * 2019-01-30 2019-06-11 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、电子设备和存储介质
WO2020230735A1 (ja) * 2019-05-13 2020-11-19 株式会社Nttドコモ 需要予測装置
US11580392B2 (en) * 2019-05-30 2023-02-14 Samsung Electronics Co., Ltd. Apparatus for deep representation learning and method thereof
US11790895B2 (en) * 2019-06-26 2023-10-17 Samsung Electronics Co., Ltd. System and method for natural language understanding
US11386667B2 (en) * 2019-08-06 2022-07-12 Cisco Technology, Inc. Video analysis using a deep fusion reasoning engine (DFRE)
US11210802B2 (en) * 2019-09-24 2021-12-28 Toyota Research Institute, Inc. Systems and methods for conditioning training data to avoid learned aberrations
US11514147B2 (en) * 2019-12-30 2022-11-29 EMC IP Holding Company LLC Increasing security of a computing device based on determining a user's state of consciousness
CN111782840B (zh) * 2020-06-30 2023-08-22 北京百度网讯科技有限公司 图像问答方法、装置、计算机设备和介质
JP7487057B2 (ja) * 2020-09-14 2024-05-20 株式会社東芝 作業推定装置、方法およびプログラム
JP7512239B2 (ja) * 2021-09-09 2024-07-08 株式会社東芝 事例検索装置、方法及びプログラム
US11582485B1 (en) * 2021-12-10 2023-02-14 Mitsubishi Electric Research Laboratories, Inc. Scene-aware video encoder system and method
US20230245435A1 (en) * 2022-01-31 2023-08-03 Samsung Electronics Co., Ltd. System and method for supervised contrastive learning for multi-modal tasks
CN115132228B (zh) * 2022-06-28 2024-06-07 北京信息科技大学 一种语言能力分级方法及***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350604A (ja) 2005-06-15 2006-12-28 Mitsubishi Heavy Ind Ltd 現場保守支援システム、および現場保守支援方法
JP2009085900A (ja) 2007-10-03 2009-04-23 Hitachi Ltd 部品の検査システム及び検査方法
JP2012150613A (ja) 2011-01-18 2012-08-09 Ricoh Co Ltd 作業内容測定装置及び作業管理装置
JP2013097466A (ja) 2011-10-28 2013-05-20 Hitachi Ltd 作業支援システム、作業支援方法、および、作業用端末
JP2017091525A (ja) 2015-11-03 2017-05-25 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
JP2017162103A (ja) 2016-03-08 2017-09-14 株式会社東芝 点検作業支援システム、点検作業支援方法、点検作業支援プログラム
US20200193228A1 (en) 2017-10-31 2020-06-18 Beijing Sensetime Technology Development Co., Ltd. Image question answering method, apparatus and system, and storage medium
JP2020064418A (ja) 2018-10-16 2020-04-23 損害保険ジャパン日本興亜株式会社 Faq作成支援方法およびfaq作成支援システム
WO2020100532A1 (ja) 2018-11-14 2020-05-22 ソニー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Linjie Yang et al.,"Dense Captioning with Joint Inference and Visual Context",2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),米国,IEEE,2017年,pp.1978-1987
嵐一樹 外1名,意味構造に着目したシーングラフ生成手法の提案,第12回データ工学と情報マネジメントに関するフォーラム (第18回日本データベース学会年次大会) [online] ,日本,2020年03月04日

Also Published As

Publication number Publication date
US20220129693A1 (en) 2022-04-28
JP2022071675A (ja) 2022-05-16

Similar Documents

Publication Publication Date Title
US10438077B2 (en) Face liveness detection method, terminal, server and storage medium
JP7481995B2 (ja) 状態判定装置、方法およびプログラム
KR102239377B1 (ko) 촬영영상 및 설명가능 인공지능 기반의 교량시설물 안전점검 시스템 및 그 방법
KR20190063839A (ko) 제조 공정에서 딥러닝을 활용한 머신 비전 기반 품질검사 방법 및 시스템
KR20130095727A (ko) 비디오 내 객체들의 시맨틱 파싱
Rashmi et al. Surveillance video analysis for student action recognition and localization inside computer laboratories of a smart campus
WO2018056355A1 (ja) 監視装置
CN109740609B (zh) 一种轨距检测方法及装置
TWI759099B (zh) 一種針對篡改圖像的檢測方法及裝置
JP2021179740A (ja) 監視装置、監視方法、プログラムおよびモデル訓練装置
JP2022139174A (ja) 欠陥分類装置、方法およびプログラム
CN117115743A (zh) 矿用安全生产监控***及其方法
JP2015103188A (ja) 画像解析装置、画像解析方法及び画像解析プログラム
CN112464827B (zh) 口罩佩戴识别方法、装置、设备及存储介质
WO2021181612A1 (ja) 画像処理装置、画像処理システム、画像処理方法、および画像処理プログラムが格納される非一時的なコンピュータ可読媒体
KR20220097630A (ko) 기계학습에 기초한 조작 리뷰 검출 시스템 및 그 검출 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체
CN117829243A (zh) 模型训练方法、目标检测方法、装置、电子设备及介质
CN111667419A (zh) 一种基于Vibe算法的移动目标鬼影消除方法及***
US20230077031A1 (en) Case query apparatus and method and storage medium
US20220067345A1 (en) Method and system for identifying, tracking, and collecting data on a person of interest
KR20130013462A (ko) 정사각 코드북과 다중 경계 값이 적용된 텍스쳐 특징을 이용한 전경 검출 장치 및 방법
Patil et al. Automated Alarm System for Student Anomalous Action Detection in Examination Based on Video Surveillance Using ML Techniques
CN111046878B (zh) 一种数据处理方法、装置及计算机存储介质和计算机
CN112800854A (zh) 一种基于图像的机车乘务员作业自动分析***
JP4449483B2 (ja) 画像解析装置、および画像解析方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20230105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240426

R150 Certificate of patent or registration of utility model

Ref document number: 7481995

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150