JP7481995B2

JP7481995B2 - 状態判定装置、方法およびプログラム

Info

Publication number: JP7481995B2
Application number: JP2020180756A
Authority: JP
Inventors: ヴェトクォクファン; 俊信中洲; 直三島; 将順仲山
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2024-05-13
Anticipated expiration: 2040-10-28
Also published as: US20220129693A1; JP2022071675A

Description

本発明の実施形態は、状態判定装置および画像解析装置に関する。

製造現場、保守現場に設置されたカメラで撮影した現場画像に基づき、例えば安全マニュアルに違反した装備状態または危険な状態を検知したいというニーズがある。

特開２０１７－９１５２５号公報

本開示は、上述の課題を解決するためになされたものであり、推定精度を向上させることを目的とする。

本実施形態に係る状態判定装置は、画像取得部と、質問回答取得部と、推論部と、判定部とを含む。画像取得部は、対象画像を取得する。質問回答取得部は、前記対象画像に関する質問と前記質問に対する想定回答とを取得する。推論部は、画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成する。判定部は、前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する。

第１の実施形態に係る状態判定装置を示すブロック図。第１の実施形態に係る状態判定装置の状態判定処理を示すフローチャート。質問および想定回答の一例を示すテーブル。状態判定装置の状態判定処理の適用例を示す概念図。危険状態の検出結果の提示例を示す図。第２の実施形態に係る状態判定装置を示すブロック図。第２の実施形態に係る状態判定装置の状態判定処理を示すフローチャート。第３の実施形態に係る画像解析装置を示すブロック図。第３の実施形態に係る画像解析装置の動作を示すフローチャート。画像特徴量算出処理の第１例を示すフローチャート。第１画像特徴量の算出例を示す概念図。第２画像特徴量の算出例を示す概念図。画像特徴量算出処理の第２例を示すフローチャート。画像特徴量算出処理の第３例を示すフローチャート。状態判定装置または画像解析装置のハードウェア構成の一例を示す図。

以下、図面を参照しながら本実施形態に係る状態判定装置および画像解析装置について詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作を行うものとして、重複する説明を適宜省略する。

（第１の実施形態）
第１の実施形態に係る状態判定装置について図１のブロック図を参照して説明する。
第１の実施形態に係る状態判定装置１は、画像取得部１１と、質問回答取得部１２と、推論部１３と、判定部１４と、提示部１５とを含む。

画像取得部１１は、対象画像を取得する。
質問回答取得部１２は、対象画像に関する質問と前記質問に対する想定回答とを取得する。
推論部１３は、画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、対象画像に関する質問について推定される推定回答を生成する。第１の実施形態で想定する学習済みモデルは、入力画像と入力画像に対する質問が提示された場合に入力画像から回答を導き出す、いわゆるＶＱＡ（Visual Question Answering）に関するモデルであり、例えば学習済みモデル格納部１６に格納される。学習済みモデル格納部１６は、図１に示すように、クラウドサーバなどの外部に存在してもよいし、状態判定装置１内に存在してもよい。推論部１３が外部の学習済みモデル格納部１６を参照する場合は、学習済みモデル格納部１６に対して質問を送信し、推定回答を受信すればよい。
判定部１４は、想定回答と推定回答との類似度に応じて、判定対象の状態を判定する。例えば、判定対象が異常な状態であるか否かを判定する。本実施形態における異常な状態とは、例えば、危険な状態、劣悪な状態など、想定回答で想定する状態とは異なる状態を示す。
提示部１５は、判定部１４により例えば判定対象の状態が異常であると判定された場合、異常である旨を通知する。また、提示部１５は、データベースを参照し、解決策または改善策を提示する。

次に、第１の実施形態に係る状態判定装置１の状態判定処理について図２のフローチャートを参照して説明する。
ステップＳ２０１では、画像取得部１１が、対象画像を取得する。対象画像は、第１の実施形態では、監視カメラなどにより、判定対象となる作業者を撮影した撮影画像を想定するが、これに限らず、判定対象の状態を判定するために利用可能な画像であればよい。また、画像に限らず、動画であってもよい。動画である場合は、フレームごとに状態判定装置１による状態判定処理が実行されてもよいし、複数のフレームの中から選択された代表フレームについて状態判定処理が実行されてもよい。

ステップＳ２０２では、質問回答取得部１２が、対象画像に関する質問と当該質問に対する想定回答とを取得する。第１の実施形態では、安全マニュアル通りに準備、作業をしているか否かを判定することを想定するため、安全マニュアルから質問と想定回答とが予め作成されているものとする。つまり、想定回答は、正常な状態を想定した回答となる。
ステップＳ２０３では、推論部１３が、ＶＱＡに関する学習済みモデルを用いて、対象画像について質問に対する推定回答を生成する。

ステップＳ２０４では、判定部１４が、想定回答と推定回答とを比較し、類似度が閾値以上であるか否かを判定する。類似度が閾値以上であればステップＳ２０５に進み、類似度が閾値未満であればステップＳ２０６に進む。
なお、判定部１４における類似度の判定は、推定回答および想定回答の出力形式によって異なる。例えば、推定回答および想定回答の出力形式が数値であれば、双方の回答の値の差分がゼロまたは閾値以下であれば、推定回答と想定回答とが類似すると判定する。また、推定回答および想定回答の出力形式が名詞や文章などの文字列であれば、表記揺れや言い回しなどの違いの差を吸収できるよう、例えば推定回答４４と想定回答４５とのコサイン類似度を計算する。コサイン類似度が閾値以上であれば、推定回答と想定回答とが類似すると判定すればよい。これにより、意味的な類似度を判定できる。

ステップＳ２０５では、判定部１４が、推定回答が想定回答通りであるといえるため、判定対象となる作業者が安全マニュアル通りの状態にある、言い換えれば異常がないと判定する。
ステップＳ２０６では、判定部１４が、推定回答が想定回答通りではないといえるため、作業者が安全マニュアル通りの状態ではない、言い換えれば異常があると判定する。

なお、図２の例では、想定回答は、正常な状態を想定した回答であるが、質問および回答の作成の仕方により、判定部１４における判定結果（ステップＳ７０８とステップＳ７０９）が入れ替わる。例えば、質問回答取得部１２が、異常な状態を想定した回答と質問との組を取得した場合、ステップＳ２０４で想定回答と推定回答との類似度が閾値以上であると判定されれば、判定部１４は、推定回答が想定回答通り、つまり異常な状態であると判定できる。

次に、質問回答取得部１２が取得する質問および想定回答の一例について図３を参照して説明する。
図３は、質問と対応する想定回答とを対応付けて格納するテーブルの一例である。ここでは、安全マニュアルによる作業者が順守すべき安全な状態（異常がない状態）となるための準備リストを示す。具体的には、質問「帽子を装着しているか？」と、対応する想定回答「はい」とが対応付けられて格納される。
質問回答取得部１２は、図３に示すテーブルから質問と想定回答との組を逐次抽出し、推論部１３および判定部１４による処理が実行される。なお、質問および想定回答の格納形式はテーブル形式に限らず、質問と対応する想定回答とが組で取得できればどのような格納形式でもよい。

次に、状態判定装置１の状態判定処理の適用例について図３と図４とを参照して説明する。図４は、推論部１３および判定部１４の処理の概念図である。
推論部１３は、対象画像４１と、質問４２とをＶＱＡのための学習済みモデル４３に入力し、学習済みモデル４３から推論結果として推定回答４４が出力される。図４の例では、作業者が作業をしている画像を対象画像４１として入力し、図３に示す質問４２「帽子を装着しているか？」と学習済みモデル４３に入力される。学習済みモデル４３では、対象画像４１から画像特徴量と、質問４２からテキスト特徴量とを抽出し、画像特徴量とテキスト特徴量とに基づいて、質問に対する回答が推論される。ここでは、学習済みモデル４３より推定回答４４「いいえ」が出力されたとする。

図３のテーブルにおける質問４２「帽子を装着しているか？」に対する想定回答４５は「はい」であるため、判定部１４は、推定回答４４と想定回答４５とを比較する。判定部１４は、ここでは、意味的な類似度を比較する。つまり、推定回答４４「いいえ」と想定回答４５「はい」とは正反対の答えであるため、判定部１４は、推定回答４４と想定回答４５との類似度が閾値未満であると判定する。よって、推定回答４４と想定回答４５とが異なるため、異常な状態、ここでは危険状態である旨の判定結果４６が生成される。

次に、提示部１５による危険状態の検出結果の提示例について図５を参照して説明する。
図５は、例えばディスプレイに表示されるユーザインタフェース画面である。提示部１５は、図３に示す質問と想定回答との項目のテーブルに、推定回答を追加してユーザインタフェース画面に表示する。

ここでは、Ｑ２「グローブを装着しているか？」という質問に対して、想定回答が「はい」であるが、推論部１３による推定回答が「いいえ」であるため、危険状態を示すマーク５１を表示する。なお、マーク５１に限らず、推定回答の文字列について、色、文字サイズ、ハイライト、点滅させるといった強調表示をしてもよい。また、音声やアラーム音などで危険状態を通知してもよい。これにより、ユーザは、画面を確認することでどの項目が危険な状態の項目なのかを一見して把握できる。
また、危険状態と判定された項目に対して、過去の解決策または改善策の事例を図５の「解決策または改善策」の項目に表示してもよい。ここでは、Ｑ２「グローブを装着しているか？」という質問の項目について条件を満たしていないため、「後ろの棚にある予備のグローブを着用してください」といった、解決策を提示できる。

以上に示した第１の実施形態によれば、画像に対する任意の質問に回答可能なＶＱＡに関する学習済みモデルを用いて、判定対象の状態を判定する。これにより、例えば、作業者の異常な状態、危険な状態を検知することができる。また、画像と質問という汎用的なフォーマットのため、様々な状況で適用可能であり、状態の推定精度を向上させることができる。さらに、ＶＱＡに関する学習済みモデルを用いることで、任意の質問に対しても推論できるため、例えば安全マニュアルの変更があった場合でも、学習済みモデル全体を変更することなく、質問と推定回答との組のみ変更すればよいため、状態判定装置または点検項目のメンテナンスを省力化できる。

（第２の実施形態）
第２の実施形態では、質問と想定回答とを自動生成する点が第１の実施形態と異なる。
第２の実施形態に係る状態判定装置について図６のブロック図を参照して説明する。
第２の実施形態に係る状態判定装置２は、画像取得部１１と、質問回答取得部１２と、推論部１３と、判定部１４と、提示部１５と、質問回答生成部６１とを含む。

質問回答生成部６１は、外部からマニュアルを受け取り、マニュアルから質問と対応する想定回答とを生成する。マニュアルは、安全マニュアル、点検リスト、取扱説明書などの作業マニュアルでもよいし、作業報告書、トラブル報告書、または過去のトラブルの状況、原因、対策を関連づけた知識グラフ、オントロジーでもよい。例えば、トラブル報告書に基づき質問および想定回答を生成することで、過去にトラブルが発生したときの条件になっているか否かを判定できる。

マニュアルから質問と想定回答とを生成する手法としては、例えば、マニュアルにある「～することはできません」という否定文を「～することができますか？」という疑問文にすることで質問文を生成し、マニュアルの文言を想定回答とするようなルールベースによる手法を用いればよい。また、「＜条件＞の場合、＜名詞＞が＜動詞＞」といったテンプレートを用意し、マニュアルの文言から品詞、条件文を抽出してテンプレートに当てはめることで、質問文を生成し、マニュアルの文言を想定回答とするようなテンプレートに基づく手法でもよい。すなわち、マニュアルから質問と想定回答とを抽出、生成できる手法であればどのような手法を用いてもよい。
状態判定装置２は、生成した質問および想定回答を用いて取得した画像に対して推論することにより、状態を判定することができる。

なお、質問回答生成部６１は、マニュアルにおける１つの判定項目から、複数の質問および対応する想定回答を生成してもよい。この場合の複数の質問とは、１つの判定項目に対して問い方を変えたバリエーションの質問である。このように１つの判定項目に対して複数の質問を生成することで、確信度およびロバスト性を高めることができる。

１つの判定項目から複数の質問を作成した場合の状態判定装置２の状態判定処理について、図７のフローチャートを参照して説明する。なお、ステップＳ２０１は、図２と同様の処理である。
ステップＳ７０１では、質問回答生成部６１が、上述した生成手法などにより、１つの判定項目からｋ個（ｋは２以上の正数）の質問と対応する想定回答とを生成する。

ステップＳ７０２では、推論部１３が、学習済みモデルを用いて、ｉ番目（ｉは１以上の正数）の質問に対する推定回答を生成する。
ステップＳ７０３では、判定部１４が、想定回答と推定回答との類似度が閾値以上であるか否かを判定する。類似度が閾値以上である場合、ステップＳ７０４に進み、類似度が閾値未満である場合、ステップＳ７０５に進む。

ステップＳ７０４では、判定部１４が、カウンタを１つインクリメントする。
ステップＳ７０５では、判定部１４が、ステップＳ７０１で生成したｋ個の質問を全て処理したか否かを判定する。ｋ個の質問を全て処理した場合、ステップＳ７０７に進み、未処理の質問がある場合、ステップＳ７０６に進む。

ステップＳ７０６では、次の質問を処理すべくｉが１つインクリメントされ、ステップＳ７０２に戻り、同様の処理を繰り返す。
ステップＳ７０７では、判定部１４が、カウンタの値が閾値以上であるか否かを判定する。カウンタの値が閾値以上である場合、ステップＳ７０８に進み、カウンタの値が閾値未満である場合、ステップＳ７０９に進む。

ステップＳ７０８では、判定部１４が、複数の質問について一定数、想定回答通りの推定回答が得られているので、異常がないと判定する。
ステップＳ７０９では、判定部１４が、想定回答通りの推定回答が得られていないため、異常があると判定する。

なお、ステップＳ７０７において、閾値を質問の数と同数、つまり閾値をｋと設定することにより、１つでも想定回答と異なる推定回答が得られた場合、判定部１４は、異常があると判定することもできる。これにより、判定の条件を厳しくすることができる。

以上に示した第２の実施形態によれば、例えば、通路に物が置かれているか否かの点検項目を判定する場合に、「通路に物がないか？」「通路に何があるか？」「通路に物が何個置かれているか？」といったように、１つの点検項目について問い方を変えて質問を生成する。それぞれに質問に対し、例えば「はい」「何もありません」「０個」といった想定回答を生成した場合、想定回答とは異なる推定回答が得られた場合に危険状態と判定するなど、より厳しい条件で状態を判定できる。

また、学習済みモデルの推論精度が低い場合、一定数以上の質問に対する推定回答が想定回答と異なる場合に危険と判定することで、推定回答の誤りに対してロバスト性を高めることができる。
なお、質問回答生成部６１によらず、予め１つの判定項目に対して複数の質問および対応する想定回答を用意することにより、第１の実施形態に係る状態判定装置１でも同様の判定結果を得ることができる。

また、上述の実施形態では、１つの場面（１つの画像）に対して異常であるか否かを判定しているが、推定回答と想定回答とが異なる状況が、所定期間以上または所定回数以上存在する場合に、異常であると判定してもよい。具体的には、例えば作業者の作業を監視カメラでモニタリングしており、複数人での作業が必要な業務について、作業者が１人で作業していた場合を想定する。質問「複数人で作業していますか？」と想定回答「はい」とが状態判定装置に入力され、推定回答「いいえ」が出力されたとする。この場合、最初に推定回答「いいえ」が出力されたときの時刻情報を例えば判定部１４が保持し、その後、状態判定装置が判定処理を継続し、最初の時刻情報から所定期間経過しても、推定回答「いいえ」が出力される場合、異常であると判定してもよい。これにより、作業者が危険な状態であるとも判定できる。

上述の実施形態では、異常状態の判定、特に危険検知を想定した例を示すが、これに限らず、状態判定装置により作業スキル検知を実施できる。例えば、熟練者の作業のコツに関する質問および想定回答を生成し、作業中の作業者の画像に基づき、推論部１３が推定回答を生成する。想定回答と推定回答との類似度が閾値未満であれば、判定部１４は、熟練者の作業とは異なる、つまり、低スキル作業であると判定できる。
低スキル作業であると判定された場合、提示部１５がその旨を作業者に提示すべく、ユーザインタフェース画面または音により通知してもよいし、どの項目で低スキルと判定されたかを提示してもよい。さらには、提示部１５が、改善策として熟練者の作業のコツに関する説明文または作業の動画を作業者に提示してもよい。このような質問および推定回答、改善策などを用意し、状態判定装置により状態判定を実施することで、低スキルを検知でき、熟練者の技能伝承を実施できる。

同様に、状態判定装置は高負荷作業検知も実施できる。例えば、作業者にかかる負荷が標準以下となる作業であるか否かを点検項目、一例として作業姿勢を評価するＯＷＡＳ（ＯｖａｋｏＷｏｒｋｉｎｇｐｏｓｔｕｒｅＡｎａｌｙｓｉｎｇＳｙｓｔｅｍ）法などから質問および想定回答を生成し、作業中の作業者の画像に基づき、推論部１３が推定回答を生成する。想定回答と推定回答との類似度が閾値未満であれば、判定部１４は、標準の負荷とは異なる、つまり、高負荷作業であると判定できる。
高負荷作業であると判定された場合、提示部１５がその旨を作業者に提示すべく、ユーザインタフェース画面または音により通知してもよいし、どの項目で高負荷作業と判定されたかを提示してもよい。また、高負荷であると判定された累積時間を計算し、累積的な負荷具合を算出してもよい。これにより、高負荷作業が検知でき、検知された結果をふまえて作業現場における作業の負荷分散を検討できる。

また、状態判定装置は低効率作業の検知も実施できる。例えば、効率のよい作業であるか否かに関する質問および想定回答を生成し、作業中の作業者の画像に基づき、推論部１３が推定回答を生成する。想定回答と推定回答との類似度が閾値未満であれば、判定部１４は、効率のよい作業とは異なる、つまり、低効率作業であると判定できる。
低効率作業であると判定された場合、提示部１５がその旨を作業者に提示すべく、ユーザインタフェース画面または音により通知してもよいし、どの項目で低効率と判定されたかを提示してもよい。また、低効率であると判定された累積時間を算出することで、累積的な低効率作業時間を算出してもよい。これにより、低効率作業を検知でき、作業現場の生産性向上につながる。

（第３の実施形態）
第１の実施形態および第２の実施形態の学習済みモデルとしても想定している一般的なＶＱＡでは、画像の特徴量として物体のＲＯＩ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ）の情報を利用している。よって、人物や標識などの物体に関する質問に対しては推定回答が得られるが、道路、空といった非物体の関する質問に対しては正しい回答を生成することは困難である。第３の実施形態では、非物体に関する特徴量を検出する構成を含む画像解析装置について説明する。

第３の実施形態に係る画像解析装置について図８のブロック図を参照して説明する。
第３の実施形態に画像解析装置８は、画像取得部８１と、テキスト取得部８２と、画像特徴算出部８３と、テキスト特徴算出部８４と、推定部８５とを含む。

画像取得部８１は、ＶＱＡの処理対象となる対象画像を取得する。
テキスト取得部８２は、画像取得部８１が取得した対象画像に対する質問を取得する。
画像特徴算出部８３は、画像から物体に関する第１画像特徴量と、画像から非物体を含む第２画像特徴量とを融合した画像特徴量を算出する。
テキスト特徴算出部８４は、テキスト取得部８２が取得した質問からテキスト特徴量を算出する。
推定部８５は、画像特徴量およびテキスト特徴量に基づいて、対象画像に対する質問の回答を推定する。

次に、第３の実施形態に係る画像解析装置８の動作について図９のフローチャートを参照して説明する。
ステップＳ９０１では、画像取得部８１が、画像を取得する。
ステップＳ９０２では、テキスト取得部８２が、質問を取得する。質問は例えば「帽子を装着していますか？」「道路は混んでいますか？」といった画像に対する質問である。

ステップＳ９０３では、画像特徴算出部８３が、例えばニューラルネットワークを用いて、画像から第１画像特徴量と第２画像特徴量とを算出する。その後、画像特徴算出部８３は、第１画像特徴量と第２画像特徴量とを融合して画像特徴量を算出する。画像特徴量の算出方法の詳細については図１１以降を参照して後述する。
ステップＳ９０４では、テキスト特徴算出部８４が、質問からテキスト特徴量を算出する。テキスト特徴量としては、例えば、Ｗｏｒｄ２ｖｅｃといったテキストの分散表現化（Ｅｍｂｅｄｄｉｎｇ）が可能な手法を用いてテキストをベクトル化した値を用いればよい。
ステップＳ９０５では、推定部８５が、例えばＡｔｔｅｎｔｉｏｎを利用したＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）などによるＶＱＡのための学習済みモデルを用いて、画像特徴量およびテキスト特徴量を用いて、質問に対する回答を推定する。学習済みモデルは、画像解析装置８内に保持されてもよいし、図１の学習済みモデル格納部１６のように、外部に格納されてもよい。

なお、ステップＳ９０１とステップＳ９０３との処理順序、および、ステップＳ９０２とステップＳ９０４との処理順序が維持されていれば、ステップＳ９０１からステップＳ９０４まではどのような順序でもよい。例えば、対象画像の取得、画像特徴量の算出、質問の取得、テキスト特徴量の算出といった順序でもよい。

次に、ステップＳ９０３における画像特徴算出部８３の画像特徴量算出処理の第１例について図１０のフローチャートを参照して説明する。
ステップＳ１００１では、画像特徴算出部８３が、ステップＳ９０１で取得した対象画像から、画像中の物体を含むＲＯＩを検出する。
ステップＳ１００２では、画像特徴算出部８３が、抽出されたＲＯＩの特徴量を、第１画像特徴量として算出する。

ステップＳ１００３では、画像特徴算出部８３が、ステップＳ９０１で取得した画像から、セマンティックセグメンテーション処理により、画像領域を分割する。
ステップＳ１００４では、画像特徴算出部８３が、分割された画像領域ごとに、セマンティックセグメンテーションに関する特徴量を第２画像特徴量として算出する。

ステップＳ１００５では、画像特徴算出部８３が、ステップＳ１００２で算出した第１画像特徴量と、ステップＳ１００４で算出した第２画像特徴量とを融合し、画像特徴量を算出する。融合方法としては、例えば第１画像特徴量および第２画像特徴量がそれぞれベクトルで表現されていれば、ベクトル同士を結合すればよい。

次に、ステップＳ１００１およびステップＳ１００２における第１画像特徴量の算出例について図１１を参照して説明する。
図１１は、画像から第１画像特徴量が算出されるまでの流れを示す概念図である。第３の実施形態では、物体検出モデルとして、ＦａｓｔｅｒＲ－ＣＮＮと呼ばれるニューラルネットワークを用いることを想定する。図１１左図は、処理対象の画像であり、作業者が作業をしている状況を撮影した画像を想定する。なお、ＦａｓｔｅｒＲ－ＣＮＮに限らず、一般的な物体検出モデルであればどのようなモデルを用いてもよい。

画像が物体検出モデル１１０２の畳み込み層に入力される。物体検出モデル１１０２では、物体らしい領域を特定するように、作業者や棚など、物体を囲む矩形（バウンディングボックス）がＲＯＩ１１０１として表現される。ＲＯＩごとに、ＲＯＩ内の物体に関する特徴量が抽出される。一般的な物体認識モデルでは、当該物体認識モデルからの出力として、物体の候補と識別ベクトル（識別スコア）とが出力されるが、第３の実施形態では、出力層の１つ前の層で算出される値を第１画像特徴量（ＲＯＩ特徴量）１１０３として設定する。例えば、処理対象のＲＯＩについて、出力層から８０個の物体候補に関する識別スコアを含む識別ベクトル（つまり８０次元のベクトル）が得られる場合、当該出力層の前段以前では８０次元以上のベクトル、例えば２０００次元以上のベクトルを処理しており、ここでは、出力層の１つ前の層で算出されるベクトル値を第１画像特徴量１１０３として用いる。
なお、ＲＯＩに関する第１画像特徴量１１０３として、物体の位置関係および物体の意味的な関係を表すシーングラフに関する情報を用いてもよい。

次に、ステップＳ１００３およびステップＳ１００４における第２画像特徴量の算出例について図１２を参照して説明する。
図１２は、第３の実施形態で用いるセマンティックセグメンテーションモデルの一例として、ＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｒｋｓ）の概念図を示す。なお、ＦＣＮに限らず、Ｓｅｇｎｅｔ、Ｕ－ｎｅｔなどセマンティックセグメンテーションに用いるモデルであれば、どのようなモデルでも適用できる。

図１２左図は、処理対象の画像例であり、犬と猫とがソファ上に存在する画像である。セマンティックセグメンテーションでは、画像中の各画素に対してラベリングされる。第３の実施形態では、ステップＳ１００３で分割される画像領域は、図１２右図では、例えば犬、猫、ソファ、背景のシルエットの各領域に相当する。画像特徴算出部８３は、当該画像領域に含まれる画素について、出力層１２０１の１つ前の層１２０２で算出されるベクトル値（例えば、４０００次元のベクトル）を、当該画像領域に関する第２画像特徴量として算出する。

次に、画像特徴算出部８３の画像特徴量算出処理の第２例について図１３のフローチャートを参照し説明する。なお、ステップＳ１００１およびステップＳ１００３は図１０と同様の処理である。

ステップＳ１３０１では、画像特徴算出部８３が、ステップＳ１００１で得られたＲＯＩとステップＳ１００３で得られた画像領域とを融合し、融合ＲＯＩを生成する。融合ＲＯＩの生成は、例えば、ステップＳ１００１で検出されたＲＯＩと、ステップＳ１００３で得られた画像領域との総和を融合ＲＯＩとする。また、ステップＳ１００１において、例えばＲＯＩ検出処理においてＲＯＩとして認識するための閾値を下げ、通常よりも多くのＲＯＩを検出し、検出されたＲＯＩとステップＳ１００３で得られた画像領域との重複領域が閾値以上であるＲＯＩを、融合ＲＯＩとして生成してもよい。

ステップＳ１３０２では、画像特徴算出部８３が、融合ＲＯＩごとに、画像特徴量を算出する。ステップＳ１３０２では、物体検出モデルによるステップＳ１００２と同様の特徴量の算出が行われればよい。

次に、画像特徴算出部８３の画像特徴量算出処理の第３例について図１４のフローチャートを参照し説明する。
ステップＳ１４０１では、画像特徴算出部８３が、画像領域ごとのセマンティックラベルを抽出する。セマンティックラベルは、セマンティックセグメンテーションにおいて分割された画像領域に付与されるラベルであり、例えば図１２の例では、犬、猫といったラベルを示す。

ステップＳ１４０２では、画像特徴算出部８３が、セマンティックラベルをエンコードする。例えば、Ｗｏｒｄ２ｖｅｃを用いて、セマンティックラベルをベクトル化すればよい。
ステップＳ１４０３では、画像特徴算出部８３が、ステップＳ１００５において得られる画像特徴量と、ステップＳ１４０２で得られたエンコードされたセマンティックラベルとを結合する。例えば、画像特徴量のベクトルにエンコードされたセマンティックラベルのベクトルを結合すればよい。

以上に示した第３の実施形態によれば、画像の特徴量として非物体、背景などに関する特徴量を学習した学習済みモデルにより、ＶＱＡ問題を処理する。これにより、物体のみならず、非物体、背景などの任意の質問に対しても回答を推定できるため、ＶＱＡの性能を向上させることができる。結果として、推定精度を向上させることができる。
なお、第１の実施形態および第２の実施形態に係る状態判定装置の推論部１３として、第３の実施形態に係る画像解析装置を用いてもよい。これにより、「道路に物が落ちているか？」といった非物体、背景などに関する任意の質問に対しても回答を推定でき、状態の推定精度をより向上させることができる。

次に、上述の実施形態に係る状態判定装置または画像解析装置のハードウェア構成の一例を図１５に示す。
状態判定装置または画像解析装置は、ＣＰＵ（Central Processing Unit）１５０１と、ＲＡＭ（Random Access Memory）１５０２と、ＲＯＭ（Read Only Memory）１５０３と、ストレージ１５０４と、表示装置１５０５と、入力装置１５０６と、通信装置１５０７とを含み、それぞれバスにより接続される。

ＣＰＵ１５０１は、プログラムに従って演算処理および制御処理などを実行するプロセッサである。ＣＰＵ１５０１は、ＲＡＭ１５０２の所定領域を作業領域として、ＲＯＭ１５０３およびストレージ１５０４などに記憶されたプログラムとの協働により各種処理を実行する。

ＲＡＭ１５０２は、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）などのメモリである。ＲＡＭ１５０２は、ＣＰＵ１５０１の作業領域として機能する。ＲＯＭ１５０３は、プログラムおよび各種情報を書き換え不可能に記憶するメモリである。

ストレージ１５０４は、ＨＤＤ等の磁気記録媒体、フラッシュメモリなどの半導体による記憶媒体、または、ＨＤＤ（Hard Disc Drive）などの磁気的に記録可能な記憶媒体、または光学的に記録可能な記憶媒体などにデータを書き込みおよび読み出しをする装置である。ストレージ１５０４は、ＣＰＵ１５０１からの制御に応じて、記憶媒体にデータの書き込みおよび読み出しをする。

表示装置１５０５は、ＬＣＤ（Liquid Crystal Display）などの表示デバイスである。表示装置１５０５は、ＣＰＵ１５０１からの表示信号に基づいて、各種情報を表示する。

入力装置１５０６は、マウスおよびキーボード等の入力デバイスである。入力装置１５０６は、ユーザから操作入力された情報を指示信号として受け付け、指示信号をＣＰＵ１５０１に出力する。

通信装置１５０７は、ＣＰＵ１５０１からの制御に応じて外部機器とネットワークを介して通信する。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した状態判定装置および画像解析装置の制御動作による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、ＤＶＤ－ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ－ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の状態判定装置および画像解析装置の制御と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
以下、出願当初の特許請求の範囲に記載された発明を付記する。
［１］
対象画像を取得する画像取得部と、
前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得部と、
画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成する推論部と、
前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定部と、
を具備する状態判定装置。
［２］
前記回答は、正常である場合を想定した項目であり、
前記判定部は、前記類似度が閾値未満である場合、前記判定対象の状態が異常であると判定する、［１］に記載の状態判定装置。
［３］
前記想定回答は、異常である場合を想定した項目であり、
前記判定部は、前記類似度が閾値以上である場合、前記判定対象の状態が異常であると判定する、［１］に記載の状態判定装置。
［４］
前記判定部は、前記判定対象の状態が異常である場合、前記判定対象が危険状態であると判定する、［２］または［３］に記載の状態判定装置。
［５］
前記異常であると判定された場合、前記質問と解決策とを対応付けたデータベースを参照し、前記解決策を提示する提示部をさらに具備する、［２］から［４］のいずれか１項に記載の状態判定装置。
［６］
マニュアルから前記質問および前記想定回答を抽出して生成する生成部をさらに具備する、［１］から［５］のいずれか１項に記載の状態判定装置。
［７］
マニュアルにおいて正常である場合を想定した１つの判定項目に対して、複数の質問および前記複数の質問にそれぞれ対応する想定回答を生成する生成部をさらに具備し、
前記判定部は、前記複数の質問それぞれに対して前記学習済みモデルを用いて得られた推定回答と前記想定回答との類似度が第１閾値以上となる数が第２閾値未満である場合、前記判定項目に対する状態が異常であると判定する、［１］に記載の状態判定装置。
［８］
前記学習済みモデルは、ＶＱＡ（Visual Question Answering）に関するモデルである、［１］から［７］のいずれか１項に記載の状態判定装置。
［９］
前記判定部は、前記類似度が閾値未満である状態が所定期間以上または所定回数以上である場合、異常な状態であると判定する、［１］に記載の状態判定装置。
［１０］
画像を取得する画像取得部と、
質問を取得するテキスト取得部と、
前記画像から、物体に関する第１画像特徴量と、非物体を含む第２画像特徴量とを融合した画像特徴量を算出する第１算出部と、
前記質問からテキスト特徴量を算出する第２算出部と、
前記画像特徴量および前記テキスト特徴量に基づき、回答を推定する推定部と、
を具備する画像解析装置。
［１１］
前記第１算出部は、
前記画像においてＲＯＩ（Region of Interest）を検出し、
前記検出されたＲＯＩに関する前記第１画像特徴量を算出し、
前記画像に対してセマンティックセグメンテーション処理を実行することにより、画像領域を分割し、
前記分割された画像領域に対して前記第２画像特徴量を算出する、［１０］に記載の画像解析装置。
［１２］
前記第１算出部は、
前記画像においてＲＯＩ（Region of Interest）を検出し、
前記画像に対してセマンティックセグメンテーション処理を実行することにより、画像領域を分割し、
前記検出されたＲＯＩと前記分割された画像領域とを融合して融合ＲＯＩを生成し、
前記融合ＲＯＩに関して前記画像特徴量を算出する、［１０］に記載の画像解析装置。
［１３］
前記第１画像特徴量および前記第２画像特徴量は、ベクトルで表現され、
前記第１算出部は、前記第１画像特徴量のベクトルと前記第２画像特徴量のベクトルとを結合する、［１０］から［１２］のいずれか１項に記載の画像解析装置。
［１４］
前記第１算出部は、前記検出されたＲＯＩと、前記分割された画像領域との総和を前記融合ＲＯＩとして算出する、［１２］に記載の画像解析装置。
［１５］
前記第１算出部は、前記検出されたＲＯＩと前記分割された画像領域とが重複する領域が閾値以上であるＲＯＩを前記融合ＲＯＩとして算出する、［１２］に記載の画像解析装置。
［１６］
前記第１算出部は、前記画像特徴量に、前記セマンティックセグメンテーション処理により前記分割された画像領域に付されるラベルに基づく特徴量を結合する、［１１］または［１２］に記載の画像解析装置。
［１７］
前記第１算出部は、前記物体の位置関係および前記物体の意味的な関係を表すシーングラフに関する情報を抽出し、前記シーングラフに関する情報と前記第２画像特徴量とを融合して前記画像特徴量を算出する、［１０］に記載の画像解析装置。
［１８］
対象画像を取得する画像取得部と、
前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得部と、
［１０］から［１７］のいずれか１項に記載の画像解析装置を用いて、前記対象画像に関する質問について推定される推定回答を生成する推論部と、
前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定部と、
を具備する状態判定装置。

１，２…状態判定装置、８…画像解析装置、１１…画像取得部、１２…質問回答取得部、１３…推論部、１４…判定部、１５…提示部、１６…学習済みモデル格納部、４１…対象画像、４２…質問、４３…学習済みモデル、４４…推定回答、４５…想定回答、４６…判定結果、５１…マーク、６１…質問回答生成部、８１…画像取得部、８２…テキスト取得部、８３…画像特徴算出部、８４…テキスト特徴算出部、８５…推定部、１１０１…ＲＯＩ、１１０２…物体検出モデル、１１０３…第１画像特徴量（ＲＯＩ特徴量）、１２０１…出力層、１２０２…層、１２０３…第２画像特徴量、１５０１…ＣＰＵ、１５０２…ＲＡＭ、１５０３…ＲＯＭ、１５０４…ストレージ、１５０５…表示装置、１５０６…入力装置、１５０７…通信装置。

Claims

対象画像を取得する画像取得部と、
前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得部と、
画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成する推論部と、
前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定部と、
を具備する状態判定装置。
前記回答は、正常である場合を想定した項目であり、
前記判定部は、前記類似度が閾値未満である場合、前記判定対象の状態が異常であると判定する、請求項１に記載の状態判定装置。
前記想定回答は、異常である場合を想定した項目であり、
前記判定部は、前記類似度が閾値以上である場合、前記判定対象の状態が異常であると判定する、請求項１に記載の状態判定装置。
前記判定部は、前記判定対象の状態が異常である場合、前記判定対象が危険状態であると判定する、請求項２または請求項３に記載の状態判定装置。
前記異常であると判定された場合、前記質問と解決策とを対応付けたデータベースを参照し、前記解決策を提示する提示部をさらに具備する、請求項２から請求項４のいずれか１項に記載の状態判定装置。
マニュアルから前記質問および前記想定回答を抽出して生成する生成部をさらに具備する、請求項１から請求項５のいずれか１項に記載の状態判定装置。
マニュアルにおいて正常である場合を想定した１つの判定項目に対して、複数の質問および前記複数の質問にそれぞれ対応する想定回答を生成する生成部をさらに具備し、
前記判定部は、前記複数の質問それぞれに対して前記学習済みモデルを用いて得られた推定回答と前記想定回答との類似度が第１閾値以上となる数が第２閾値未満である場合、前記判定項目に対する状態が異常であると判定する、請求項１に記載の状態判定装置。
前記学習済みモデルは、ＶＱＡ（Visual Question Answering）に関するモデルである、請求項１から請求項７のいずれか１項に記載の状態判定装置。
前記判定部は、前記類似度が閾値未満である状態が所定期間以上または所定回数以上である場合、異常な状態であると判定する、請求項１に記載の状態判定装置。
対象画像を取得する画像取得部と、
前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得部と、
画像解析装置を用いて、前記対象画像に関する質問について推定される推定回答を生成する推論部と、
前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定部と、
を具備する状態判定装置であって、
前記画像解析装置は、
画像を取得する画像取得部と、
質問を取得するテキスト取得部と、
前記画像から、物体に関する第１画像特徴量と、非物体を含む第２画像特徴量とを融合した画像特徴量を算出する第１算出部と、
前記質問からテキスト特徴量を算出する第２算出部と、
前記画像特徴量および前記テキスト特徴量に基づき、回答を推定する推定部と、
を具備する、状態判定装置。
画像取得手段が、対象画像を取得し、
質問回答取得手段が、前記対象画像に関する質問と前記質問に対する想定回答とを取得し、
推論手段が、画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成し、
判定手段が、前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する、状態判定方法。
コンピュータを、
対象画像を取得する画像取得手段と、
前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得手段と、
画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成する推論手段と、
前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定手段として機能させるための状態判定プログラム。