JP6419421B2 - 画像表示装置、画像表示方法およびプログラム - Google Patents

画像表示装置、画像表示方法およびプログラム Download PDF

Info

Publication number
JP6419421B2
JP6419421B2 JP2013227350A JP2013227350A JP6419421B2 JP 6419421 B2 JP6419421 B2 JP 6419421B2 JP 2013227350 A JP2013227350 A JP 2013227350A JP 2013227350 A JP2013227350 A JP 2013227350A JP 6419421 B2 JP6419421 B2 JP 6419421B2
Authority
JP
Japan
Prior art keywords
image
sub
interest
images
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013227350A
Other languages
English (en)
Other versions
JP2015088046A (ja
Inventor
浜田 伸一郎
伸一郎 浜田
邦男 長田
邦男 長田
鈴木 薫
薫 鈴木
三原 功雄
功雄 三原
洋次郎 登内
洋次郎 登内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2013227350A priority Critical patent/JP6419421B2/ja
Priority to US14/454,051 priority patent/US10296803B2/en
Priority to CN201410386716.XA priority patent/CN104598018B/zh
Priority to EP20140180631 priority patent/EP2869237A1/en
Publication of JP2015088046A publication Critical patent/JP2015088046A/ja
Application granted granted Critical
Publication of JP6419421B2 publication Critical patent/JP6419421B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7788Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • G06F18/41Interactive pattern learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Processing (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Studio Devices (AREA)

Description

本発明の実施形態は、画像表示装置、画像表示方法およびプログラムに関する。
従来、入力画像に対して文字認識やオブジェクト認識などの認識処理を行い、認識処理の結果を入力画像に重畳して表示する技術が知られている。この技術を適用した画像表示装置は、入力画像の中でユーザが関心を持つことが推察される対象を、理解しやすいかたちでユーザに提示することができる。しかし、画像に対する認識処理は結果が得られるまでに時間を要することから、例えば、携帯端末のカメラで撮像された情景画像を入力画像とするアプリケーションなどでは、応答性の観点から改善が求められている。
特開2003−108925号公報
本発明が解決しようとする課題は、入力画像の中でユーザが関心を持つことが推察される対象を、応答性よく、理解しやすいかたちでユーザに提示できる画像表示装置、画像表示方法およびプログラムを提供することである。
実施形態の画像表示装置は、検出部と、生成部と、配置決定部と、認識部と、表示制御部と、を備える。検出部は、入力画像から複数の注目領域を検出する。生成部は、前記複数の注目領域の画像の各々に対して視認性を向上させる補正を施して、前記複数の注目領域の各々に対応する複数のサブ画像を生成する。配置決定部は、前記複数のサブ画像の前記入力画像上における配置を、各サブ画像が、少なくとも他のサブ画像および当該サブ画像に対応する注目領域以外の他の注目領域と重ならず、かつ、前記複数の注目領域のうち最も近い注目領域が当該サブ画像に対応する注目領域となるように決定する。認識部は、前記注目領域に含まれる対象に対する認識処理を行う。表示制御部は、前記複数のサブ画像の各々を、決定した配置に従って前記入力画像上に重畳して表示器に表示させ、前記認識処理が終了すると、前記認識処理の結果を、前記サブ画像との対応関係を示す画面表現を伴う形式で前記表示器にさらに表示させる。前記検出部は、前記入力画像中で前記認識処理の対象が含まれている確からしさを表すスコアが閾値を超える領域を前記注目領域として検出するものであり、前記表示制御部は、前記表示器が表示している前記入力画像中で前記サブ画像が重畳されていない位置を指定した第3操作が行われた場合、指定された位置をピークとして該位置の周辺に向かうに従い減衰するボーナス値を設定し、前記検出部は、前記ボーナス値が設定された場合、前記ボーナス値が加算された前記スコアが前記閾値を超える領域を前記注目領域として検出する。
図1は、第1実施形態の画像表示装置の構成例を示すブロック図である。 図2は、入力画像の具体例を示す図である。 図3は、オブジェクト検出器の処理手順の一例を示すフローチャートである。 図4は、図3のステップS108およびステップS109の処理を説明する図である。 図5は、図2の入力画像に対して検出部が処理を行った場合の検出結果例を示す図である。 図6は、正対補正器の処理手順の一例を示すフローチャートである。 図7は、色補正器の処理手順の一例を示すフローチャートである。 図8は、サブ画像近接配置プランナの処理手順の一例を示すフローチャートである。 図9は、近接配置プラン最適化モデルの一例を示す図である。 図10は、図5の検出結果例において、近接配置プラン最適化モデルの解として得られた配置プラン情報に従ってサブ画像を配置した例を示す図である。 図11は、注目領域(領域画像)と対応するサブ画像との距離の算出方法を説明する図である。 図12は、サブ画像表示制御部の処理手順の一例を示すフローチャートである。 図13は、認識結果表示制御部による処理の結果として表示器に表示される画像の一例を示す図である。 図14は、false-positiveな検出誤りの訂正の処理手順の一例を示すフローチャートである。 図15は、false-negativeな検出誤りの訂正の処理手順の一例を示すフローチャートである。 図16は、未検出の訂正の処理手順の一例を示すフローチャートである。 図17は、サブ画像ゾーンボーナスを説明する図である。 図18は、第2実施形態の画像表示装置の構成例を示すブロック図である。 図19は、サブ画像重畳配置プランナの処理手順の一例を示すフローチャートである。 図20は、重畳配置プラン最適化モデルの一例を示す図である。 図21は、重畳配置プラン最適化モデルの解として得られた配置プラン情報に従ってサブ画像を配置した例を示す図である。 図22は、注目領域(領域画像)と対応するサブ画像との距離の算出方法を説明する図である。 図23は、認識結果表示制御部による処理の結果として表示器に表示される画像の一例を示す図である。 図24は、第3実施形態の画像表示装置の構成例を示すブロック図である。 図25は、サブ画像表示制御部の処理の結果として表示器に表示される画像の一例を示す図である。 図26は、認識結果表示制御部の処理の結果として表示器に表示される画像の一例を示す図である。 図27は、画像表示装置のハードウェア構成を説明する図である。
以下、実施形態の画像表示装置、画像表示方法およびプログラムを詳細に説明する。以下で示す実施形態は、例えばカメラで撮像された情景画像を入力し、この情景画像に対して文字認識やオブジェクト認識などの認識処理を行って、その認識結果を情景画像とともに表示する機能を有する画像表示装置への適用例である。以下、このような機能を情景画像認識と呼ぶ。なお、実施形態として適用可能な画像表示装置は情景画像認識の機能を持つものに限らず、入力画像を表示するあらゆる画像表示装置に適用できる。
情景画像認識の典型的なアプリケーションの1つは、スマートフォンなどのカメラ付き携帯端末への適用である。ユーザが情景に対してカメラをかざすと、当該端末は、カメラが捉えた情景画像に対し文字やオブジェクトの認識を行い、情景画像上に文字列などの認識結果を重畳した画像を表示器に表示する。車載装置への適用も典型的アプリケーションの1つである。車前方に取り付けられたカメラが捉えた情景画像に対して文字やオブジェクトの認識を行い、フロントウィンドウの情景に認識結果を重畳表示する。
情景画像認識においては、文字認識やオブジェクト認識などの認識処理における認識誤りのエラーと、情景画像から認識処理の対象となる文字やオブジェクトが含まれる領域(以下、注目領域という。)を検出する際の検出誤りのエラーと、が生じ得る。このため、実用的なアプリケーションを実現するためには、認識誤りに対するリカバリ機能[A1]と、注目領域の検出誤りに対するリカバリ機能[A2]と、を準備することが求められる。
また、情景画像認識で扱われる情景画像は、広域画像化、高解像度化される傾向にある。このため、今後の情景画像認識では、さらに以下に示す問題点に対する対応策が求められる。
情景画像の高解像度化に伴い、文字認識やオブジェクト認識などの認識処理に要する時間が増大し、応答性の低下が問題となる。応答性は情景画像認識の利便性に大きな影響を与えるため、認識処理による応答性の低下を補う機能[B]の実現が望まれる。
情景画像の広域画像化に伴い、情景画像全体の中で注目領域が占める割合が小さくなる。また、1つの情景画像から多数の注目領域が検出されるケースも多くなる。このような状況では、認識結果を単純に情景画像に重畳表示するだけでは、認識結果の見落としが生じやすくなる。このため、適切な注視誘導を行う機能[C]の実現が望まれる。
情景画像が高解像度化する一方であるのに対し、表示器(特に携帯端末の表示器)は大きさが制限されるため、注目領域の画像は細密となり、特に老人や目の不自由な人にとって、注目領域にある対象を確認することが困難となる。このため、注目領域の閲覧性を補助する機能[D]の実現が望まれる。
本実施形態では、上記の[A1],[A2],[B],[C],[D]のすべての機能を実現した情景画像認識による画像表示を提案する。
実施形態の画像表示装置は、まず、入力画像(本実施形態では情景画像)から、文字認識の対象となる文字やオブジェクト認識の対象となるオブジェクトが含まれる注目領域をすべて検出する。次に、画像表示装置は、検出した各注目領域の画像に対して、サイズ補正・正対補正・色補正などの視認性を向上させる補正を施して、各注目領域に対応するサブ画像をそれぞれ生成する。次に、画像表示装置は、生成した各サブ画像を、元になる注目領域との対応関係が分かるような画面表現を用いて、入力画像とともに表示器に表示させる。また、画像表示装置は、生成した各サブ画像に含まれる文字やオブジェクトに対する認識処理を行い、認識処理が終了した時点で、その認識結果を、サブ画像との対応関係が分かるような画面表現を用いて、表示器にさらに表示させる。
このように、実施形態の画像表示装置は、注目領域に含まれる文字やオブジェクトに対する認識処理を行う前に、注目領域の画像の視認性を向上させたサブ画像を生成して、注目領域との対応関係が分かるように表示器に表示させる。これにより、サブ画像は、認識結果のプレビューの役割を果たすこととなり、認識処理による応答性の低下を補う機能[B]が実現される。また、サブ画像は、注目領域との対応関係が分かるように表示されるため、適切な注視誘導を行う機能[C]が実現される。さらに、サブ画像は、注目領域の画像の視認性を向上させた画像であるため、注目領域の閲覧性を補助する機能[D]も実現される。
また、仮に文字やオブジェクトの認識処理に誤りが生じていた場合には、サブ画像を参照することで正解を確認できるので、認識誤りに対するリカバリ機能[A1]が実現される。
実施形態の画像表示装置は、入力画像から検出した注目領域のうち、予め定めた規則に従って、認識処理を行う注目領域を選択するようにしてもよい。この場合、認識処理を行うものとして選択された注目領域から生成したサブ画像(第1サブ画像)と、認識処理を行わない注目領域から生成したサブ画像(第2サブ画像)とを、異なる表示形態で表示器に表示させることが望ましい。例えば、第1サブ画像は、右上に「×」ボタンが付加された透明度の低い画像として表示させ、第2サブ画像は、第1サブ画像よりも透明度が高い(下の入力画像が透けて見える)画像として表示させる。
この場合、ユーザは、第1サブ画像に対応する注目領域を認識処理の対象とすべきでないと判断したら、例えば「×」ボタンを操作することで、その注目領域を認識処理の対象としない扱いに変更できる。また、ユーザは、第2サブ画像に対応する注目領域を認識処理の対象とすべきと判断したら、例えば第2サブ画像が配置されている領域をクリックすることで、その注目領域を認識処理の対象とする扱いに変更できる。これらのユーザの操作は、その時点での画面表示に反映されるほか、注目領域を検出する検出部を再訓練するための事例として用いることで、次回以降の利用における検出制度の改善効果をもたらす。これにより、注目領域の検出誤りに対するリカバリ機能[A2]が実現される。
以上のように、実施形態の画像表示装置は、認識誤りに対するリカバリ機能[A1]、注目領域の検出誤りに対するリカバリ機能[A2]、認識処理による応答性の低下を補う機能[B]、適切な注視誘導を行う機能[C]、および注目領域の閲覧性を補助する機能[D]のすべてを実現し、入力画像の中でユーザが関心を持つことが推察される対象を、理解しやすいかたちでユーザに提示することができる。以下では、図面を参照しながら、実施形態の画像表示装置の具体例をより詳細に説明する。
(第1実施形態)
図1は、第1実施形態の画像表示装置の構成例を示すブロック図である。第1実施形態の画像表示装置は、図1に示すように、メインシステム100と、検出部トレーナ200と、認識部トレーナ300と、を備える。
メインシステム100は、本実施形態の画像表示装置の中核をなすシステムである。メインシステム100は、入力画像から注目領域を検出し、検出した注目領域の画像に対して視認性を高める補正を行ってサブ画像を生成する。そして、メインシステム100は、生成したサブ画像を入力画像とともに表示する。さらに、メインシステム100は、検出した注目領域に対する認識処理を行って、その認識結果を表示する。
検出部トレーナ200および認識部トレーナ300は、メインシステム100の検出機能および認識機能において用いられる識別モデル群を訓練するサブシステムである。これら検出部トレーナ200および認識部トレーナ300は、メインシステム100の利用の前に一度、識別モデル群を訓練する処理を予め実行しておけばよい。ただし、メインシステム100からの呼び出しによって、メインシステム100が利用されている間に実行されることもある。
以下では、メインシステム100の詳細を説明し、その説明の中で、検出部トレーナ200および認識部トレーナ300についても言及する。
図1に示すように、メインシステム100は、検出部110と、生成部120と、サブ画像近接配置プランナ130と、認識部140と、表示制御部150と、表示器160と、を備える。なお、図1中の角丸四角形は、メインシステム100を構成する上記各モジュール110〜150の入出力データを表している。
検出部110は、入力画像D1を受け取り、その入力画像D1から、注目すべき対象が存在する領域である注目領域をすべて検出する。そして、検出部110は、入力画像D1から検出した注目領域の画像を、検出時のスコアと併せて出力する。検出部110の出力を、スコア付領域画像群D2と呼ぶ。
図2は、入力画像D1の具体例を示す図である。本実施形態では、カメラで撮像された情景画像を、入力画像D1とする。注目すべき対象の例としては、文字のほか、犬・猫・食べ物・ロゴマークなどのオブジェクトが挙げられる。
本実施形態では、共通性のある事物ごとに独立したサブモジュールで処理する設計を取っている。例として、ロゴマークと文字とを検出対象とするものとし、ロゴマークについてはオブジェクト検出器111で検出し、文字については文字領域検出器112で検出する。
オブジェクト検出器111および文字領域検出器112の検出結果は、スコア付領域画像群D2として出力される。ロゴマークを含む領域の画像と文字領域の画像とは区別可能な状態で出力されるため、実際には2種類の出力があると言えるが、ここではそれらを併せてスコア付領域画像群D2としている。
なお、スコア付領域画像群D2は、入力画像D1の一部をなす画像群のことであり、位置(XY座標)およびサイズを持っている。これに対して、後述するスコア付サブ画像群D3は、入力画像D1とは独立した存在であり、サイズは持っているが、配置処理が行われるまでは位置(XY座標)は不定である。
図3は、オブジェクト検出器111の処理手順の一例を示すフローチャートである。オブジェクト検出器111は、入力画像D1が入力されると、以下のステップS101〜ステップS111の処理を行って、スコア付領域画像群D2を出力する。
ステップS101:オブジェクト検出器111は、スライド窓を入力画像D1の左上にセットする。
ステップS102:オブジェクト検出器111は、スライド窓に該当する画像を抽出する。
ステップS103:オブジェクト検出器111は、抽出した画像を二値分類器にかける。二値分類器は、対象画像がオブジェクトの一部かどうかを判定し、その確信度を表すスコアを出力するものである。この二値分類器が出力するスコアを局所スコアと呼ぶ。
ステップS104:オブジェクト検出器111は、二値分類器が出力する局所スコアが第1閾値以上か否かを判定する。そして、判定の結果がYesであればステップS105に進み、NoであればステップS106に進む。
ステップS105:オブジェクト検出器111は、スライド窓の現在の矩形領域を、局所スコアと併せて検出済局所領域バッファB1に追加登録する。
ステップS106:オブジェクト検出器111は、スライド窓を次の位置に移動させる。
ステップS107:オブジェクト検出器111は、スライド窓が入力画像D1の右下に達したか否かを判定する。そして、判定の結果がYesであればステップS108に進み、NoであればステップS102に戻る。
ステップS108:オブジェクト検出器111は、検出済み局所領域バッファB1に登録された矩形領域群のうち、連結している領域同士が1つのクラスタとなるようにクラスタリングするとともに、各領域の局所スコアの平均を取って統合スコアを算出する。なお平均計算では、面積に基づく重み付けを行ってもよい。
ステップS109:オブジェクト検出器111は、ステップS108で作成されたクラスタそれぞれについて、クラスタのメンバーである各矩形領域の外接矩形を求め、統合スコアと併せて検出済統合領域バッファB2に追加登録する。
ステップS110:オブジェクト検出器111は、ステップS108で作成されたすべてのクラスタについて、ステップS109の処理の処理が終了したか否かを判定する。そして、判定の結果がYesであればステップS111に進み、NoであればステップS109に戻る。
ステップS111:オブジェクト検出器111は、検出済統合領域バッファB2に登録されている各矩形領域に位置する画像と統合スコアとのペアを、スコア付領域画像群D2として出力する。
図4は、上記ステップS108およびステップS109の処理を説明する図である。図4の例では、上記ステップS108において、図4(a)に示す矩形領域0401,0402,0403,0404と、矩形領域0405,0406と、矩形領域0407,0408,0409,0410,0411とがそれぞれ1つのクラスタとなるようにクラスタリングされる。そして、矩形領域0401,0402,0403,0404のクラスタの統合スコアとして0.75が算出され、矩形領域0405,0406のクラスタの統合スコアとして0.80が算出され、矩形領域0407,0408,0409,0410,0411の統合スコアとして0.55が算出される。また、上記ステップS109において、図4(b)に示すように、クラスタごとに外接矩形を求めることで、個々のオブジェクトを含む注目領域(統合領域)が検出され、統合スコアとともに検出済統合領域バッファB2に登録される。なお、統合スコアは、その値が大きいほど、その注目領域にオブジェクトが含まれている確信度が高いことを示している。
上記ステップS103で用いた二値分類器は、検出部トレーナ200によって訓練された識別モデルを用いる。したがって、メインシステム100の利用前に一度、検出部トレーナ200を実行しておき、識別モデルを作成しておく必要がある。
この識別モデルは、ロゴマークの識別モデル、文字の識別モデルなど、認識対象のカテゴリごとに用意する。検出部トレーナ200による識別モデルの訓練は、正例用画像群210と負例用画像群220とを用いて行う。正例用画像群210は、該当するカテゴリの対象が含まれる画像をスライド窓のサイズでくりぬいた画像群であり、負例用画像群220は、該当するカテゴリの対象が含まれない画像をスライド窓のサイズでくりぬいた画像群である。これらを正例および負例として用いて、SVM(Support Vector Machine)などの二値分類器の識別モデルを訓練する。
文字領域検出器112は、上述したオブジェクト検出器111とほぼ同じ方法で、入力画像D1から文字領域を検出し、スコア付領域画像群D2を出力することができる。このため、文字領域検出器112による処理については、詳細な説明を省略する。
図5は、図2に示した入力画像D1に対して検出部110(オブジェクト検出器111および文字領域検出器112)が処理を行った場合の検出結果例を示す図である。図5中の実線で囲まれた領域が文字領域検出器112により検出された注目領域であり、破線で囲まれた領域がオブジェクト検出器111により検出された注目領域である。
生成部120は、スコア付領域画像群D2を受け取り、スコア付領域画像群D2に含まれる各領域画像に対して視認性を向上させるための補正を施してサブ画像を生成し、各サブ画像に統合スコアを併せたスコア付サブ画像群D3を出力する。
本実施形態では、視認性を向上させるための補正として、サイズ補正、正対補正、色補正の3種類を用意しており、これらのうちの少なくとも1つの補正を適用する。それぞれの処理を行うのが、サイズ補正器121、正対補正器122、および色補正器123の3つのサブモジュールであり、いずれも画像を入力として受け取り、補正結果の画像を出力するインターフェースとなっている。2つ以上の補正を適用する場合は、これらサブモジュールの入出力を直列に結合すればよい。以下では、これらサブモジュールの処理を個別に説明する。
サイズ補正器121は、入力された画像を、見やすいサイズにズームアップまたはズームダウンする機能である。例えば、検出部110の文字領域検出器112によって検出された文字領域が非常に小さかった場合、そこに何が書いてあるのか人間にとって視認しづらいことがありうる。この場合、サイズ補正器121は、人間が視認しやすいサイズまでズームアップしたものを、補正結果として出力する。なお、適正なサイズの決定方法の1つとして、縦横の画素数を積算した面積について予め満たすべき範囲を定めておくなど、大きさに関する何らかのルールを予め定めておく方法がある。
正対補正器122は、入力された画像に含まれる文字やオブジェクトなどの対象の回転や歪みを補正し、対象を正面から撮影したような画像に変換して出力する。
図6は、正対補正器122の処理手順の一例を示すフローチャートである。正対補正器122は、入力された画像に対して、以下のステップS201〜ステップS207の処理を行って、サブ画像を出力する。
ステップS201:正対補正器122は、入力された画像を正方形に正規化した画像を生成する。以下、正規化した画像を正規化画像という。
ステップS202:正対補正器122は、ステップS201で生成した正規化画像をグレースケール画像に変換する。ここでは、正規化画像がRGBカラー画像であれば、各画素のR,G,Bの平均値をグレースケール画像の画素値にセットすることで、グレースケールへの変換を行う。一方、正規化画像が元々グレースケール画像であれば、各画素値をそのままグレースケール変換済み画像の画素値にセットする。
ステップS203:正対補正器122は、ステップS202で生成したグレースケール変換済み画像のエッジ特徴を抽出する。このエッジ特徴は、グレースケール変換済み画像をブロック分割し、各ブロックにおけるエッジ強度の総和を算出した上で、各ブロックのエッジ強度の総和を束ねたものである。エッジ強度は、公知のソーベル・フィルタを用いて算出することができる。
ステップS204:正対補正器122は、ステップS203で抽出したエッジ特徴と、射影変換パラメータ辞書P1中の辞書エッジ特徴とを比較し、もっとも類似した辞書エッジ特徴に対応付けられた射影変換パラメータを得る。ここでは、エッジ特徴と辞書エッジ特徴との類似尺度としてコサイン類似度を用いる。
射影変換パラメータ辞書P1には、辞書エッジ特徴と射影変換パラメータの対が1つ以上格納されている。辞書エッジ特徴と射影変換パラメータは、教示用(訓練用)の画像データを用いて事前に生成しておく。画像を射影変換する方法や射影変換パラメータの算出方法については、画像における任意の4点の座標と、該4点を射影変換した対応点の座標を与えれば算出できることが一般的に知られている(下記の参考文献を参照)。
参考文献:財団法人 画像情報教育振興協会,「ディジタル画像処理(第一版一刷)」,2004年,p.163−164、171
ステップS205:正対補正器122は、ステップS204で得られた射影変換パラメータを用いて、正規化画像を射影変換する。
ステップS206:正対補正器122は、ステップS205で射影変換した画像の高さと幅を、入力された画像と同じ高さと幅にスケーリングする。
ステップS207:正対補正器122は、ステップS206でスケーリングした画像をサブ画像として出力する。
色補正器123は、例えば、入力された画像の陰影をキャンセルすることによって画像の色を補正し、サブ画像として出力する。
図7は、色補正器123の処理手順の一例を示すフローチャートである。色補正器123は、入力された画像に対して、以下のステップS301〜ステップS307の処理を行って、サブ画像を出力する。
ステップS301:色補正器123は、入力された画像をグレースケール画像に変換する。ここでは、入力された画像がRGBカラー画像であれば、各画素のR,G,Bの平均値をグレースケール画像の画素値にセットすることで、グレースケールへの変換を行う。一方、入力された画像が元々グレースケール画像であれば、各画素値をそのままグレースケール変換済み画像の画素値にセットする。
ステップS302:色補正器123は、入力された画像、ステップS301で生成したグレースケール変換済み画像、および出力となるサブ画像のそれぞれについて、注目画素を画像の左上にセットする。以下、入力された画像における注目画素を単に注目画素といい、グレースケール変換済み画像における注目画素をグレー注目画素といい、サブ画像における注目画素をサブ注目画素という。
ステップS303:色補正器123は、グレー注目画素を中心とした矩形窓内の平均画素値を算出する。
ステップS304:色補正器123は、注目画素の画素値をステップS303で算出した平均画素値で除算した値を、サブ注目画素の画素値とする。このとき、入力された画像がRGBカラー画像であって、注目画素の画素値がR,G,Bなどの複数のチャネルごとに値を持つなら、チャンネルごとに平均値との除算を行う。
ステップS305:色補正器123は、注目画素、グレー注目画素、およびサブ注目画素をそれぞれ画像の次の位置に移動させる。
ステップS306:色補正器123は、注目画素、グレー注目画素、およびサブ注目画素のそれぞれが画像の右下に達したか否かを判定する。そして、判定の結果がYesであればステップS307に進み、NoであればステップS303に戻る。
ステップS307:色補正器123は、すべての画素値がセットされたサブ画像を出力する。
サブ画像近接配置プランナ130は、サブ画像をその元になった注目領域の近傍に配置するための配置プラン最適化の数学モデルを解くことで、サブ画像を入力画像D1上に重畳する際の位置を決定するモジュールである。サブ画像近接配置プランナ130は、スコア付領域画像群D2およびスコア付サブ画像群D3を入力として受け取り、スコア付サブ画像群D3に含まれる各サブ画像の最適な配置を決定し、その配置プラン情報を含む、配置プラン付サブ画像群D4を出力する。
図8は、サブ画像近接配置プランナ130の処理手順の一例を示すフローチャートである。サブ画像近接配置プランナ130は、スコア付領域画像群D2およびスコア付サブ画像群D3を用いて、以下のステップS401〜ステップS408の処理を行って、サブ画像の配置プラン情報を求め、配置プラン付サブ画像群D4を出力する。
ステップS401:サブ画像近接配置プランナ130は、例えば図9に示す近接配置プラン最適化モデルM1を解く。なお、図9に示す近接配置プラン最適化モデルM1については、詳細を後述する。
ステップS402:サブ画像近接配置プランナ130は、ステップS401での処理で解が得られたか否かを判定する。そして、判定の結果がYesであればステップS404に進み、NoであればステップS403に進む。解が得られないというのは、スコア付領域画像群D2に含まれる各領域画像とスコア付サブ画像群D3に含まれる各サブ画像とが互いに重なり合わないという制約のもと、サブ画像をその元となった注目領域の近くに配置することができないことを意味している。そこで、解が得られない場合は、配置対象となるサブ画像を間引きする戦略を取る。
ステップS403:サブ画像近接配置プランナ130は、スコア付サブ画像群D3に含まれるサブ画像のうち、最も統合スコアの低いサブ画像を配置の対象から除外して除去リストバッファB3に登録し、ステップS401に戻る。
サブ画像近接配置プランナ130は、以上のステップS401〜ステップS403の処理を繰り返すことにより、スコア付サブ画像群D3に含まれるサブ画像を一部間引いた状態での最適な配置を求める。ただし、ここで求められる配置が最適な配置になるとは限らず、必要以上にサブ画像を間引いている可能性がある。なぜなら、ステップS403では、配置の対象から除外するサブ画像を、配置制約ではなく統合スコアに基づいて選択しているためである。
例えば、図5に示した検出結果例において、左上の「小岩カメラ」を含む注目領域(領域画像)の統合スコアが非常に低く、右上の「分倍書店 本」を含む注目領域(領域画像)の統合スコアが高いときに、「分倍書店 本」を含む注目領域のサブ画像を配置する場所が得られず、解なしという結果となった場合を考える。この場合、優先的に間引く対象となるのは、統合スコアが低い「小岩カメラ」を含む注目領域のサブ画像である。しかし、「小岩カメラ」を含む注目領域の周辺は元々スペース的に余裕があり、サブ画像を間引いても配置の改善につながらないため、不必要な間引きとなる。
このような処理となっているのは、最適化問題の求解には後述するソルバと呼ばれるソフトウェアを用いるのが一般的であるが、ソルバによって解が得られなかった場合に、解が得られるような条件緩和のうち、最少の条件緩和の集合は何か、という問題を解くのは難解であるためである。
そこで、ステップS404以降の処理では、いったん間引き対象となったサブ画像について、これまでに得られた配置のままで、配置できるかどうかを試行する。もし配置が可能と判断できれば、そのまま配置する。これにより、上述した「小岩カメラ」を含む注目領域のサブ画像のように、不要な間引きの対象となったサブ画像が、これらの処理の中で配置が復活することになる。
ステップS404:サブ画像近接配置プランナ130は、除去リストバッファB3から、サブ画像を統合スコアの高い順に1つずつ取り出す。
ステップS405:サブ画像近接配置プランナ130は、取り出したサブ画像を、他のサブ画像や他のサブ画像の元となった領域画像に重ならないという制約のもと、当該サブ画像の元になった注目領域の近傍に配置可能か否かを判定する。YesであればステップS406に進み、NoであればステップS407に進む。
ステップS406:サブ画像近接配置プランナ130は、ステップS405で配置可能と判定したサブ画像を、当該サブ画像の元になった注目領域の近傍に配置する。なお、実際にはステップS405およびステップS406の処理でも最適化問題を解くことになるが、ここでは詳細な説明を省略する。
ステップS407:サブ画像近接配置プランナ130は、除去リストバッファB3からサブ画像をすべて取り出したか否かを判定する。そして、判定の結果がYesであればステップS408に進み、NoであればステップS404に戻る。
ステップS408:サブ画像近接配置プランナ130は、解として得られたR’i(i=1,・・・,N)をサブ画像の配置プラン情報とし、配置プラン付サブ画像群D4を出力する。
ここで、上記ステップS401で用いる近接配置プラン最適化モデルM1の数式について、図9を参照して説明する。図9は、近接配置プラン最適化モデルM1の一例を示す図である。
図9に示す近接配置プラン最適化モデルM1の第1行目は、注目領域(領域画像)と対応するサブ画像との距離を、すべてのサブ画像について合計したものを最小化することを示している。距離の定義と算出方法については、図11を用いて後述する。
図9に示す近接配置プラン最適化モデルM1の第2行目以降は、制約条件を示している。第3行目では、各サブ画像の配置予定領域に対して、あらゆる注目領域の中で最も近い注目領域は、そのサブ画像に対応する注目領域である、という制約を課している。換言すると、サブ画像は、当該サブ画像の元になった注目領域に対応する領域画像が最も近くなるように配置することを要求しているということである。
第4行目では、サブ画像とそのサブ画像の元になった注目領域(領域画像)との間の距離は一定以上である、ことを制約に課している。これにより、サブ画像が注目領域に接するように配置されることで画像が見づらくなることを防止する効果が得られる。
第5行目では、領域画像群とサブ画像群とを合わせた集合において、画像同士が互いに重なり合わないことを制約に課している。ただし、煩雑となるため数式上では記載していないが、注目領域が最初から重なり合って検出されたことによって領域画像が重なり合う場合は例外とする。
図10は、図5に示した検出結果例において、近接配置プラン最適化モデルM1の解として得られた配置プラン情報に従ってサブ画像を配置した例を示す図である。サブ画像は、そのサブ画像の元になった注目領域(領域画像)に対して所定値以上の距離を保ちつつ最も近くなるように配置され、さらに、あらゆるサブ画像が他のサブ画像や注目領域(領域画像)と重なり合わないように配置されている。ただし、一部の領域ではこの条件を満たせないため、サブ画像の間引きが行われている。例えば、図の右上側の「ホリーズ」を含む注目領域や、「SK不動産」を含む注目領域、「分倍書店 本」を含む注目領域などでは、サブ画像が間引きされている。
なお、図9に示す近接配置プラン最適化モデルM1は、サブ画像近接配置プランナ130で用いる最適化モデルの一例であり、これに限られるものではない。例えば、図9に示す近接配置プラン最適化モデルM1に対し、配置するサブ画像数の上限を組み入れてもよい。これにより、サブ画像の表示数が多いために画像が見づらくなるといった不都合を解消することができる。
最適化モデルの解をコンピュータで求める方法の1つとして、ソルバと呼ばれるソフトウェアを使う方法がある。ソルバは、最適化の数学モデルをテキスト形式などで入力すると、その解を算出するソフトウェアであり、フリーウェアlpsolveを初めとして、様々リリースされている。本実施形態では、ソルバを使って近接配置プラン最適化モデルM1の解を求める。
図11は、注目領域(領域画像)と対応するサブ画像との距離の算出方法を説明する図である。注目領域(領域画像)とサブ画像との距離は、矩形間の距離として求められる。矩形間の距離は様々考えられるが、本実施形態では、以下の定義を用いるとする。
矩形Aと矩形Bについて、Xを矩形Aの外周上の任意の点とし、Xを矩形Bの外周上の任意の点とするとき、矩形Aと矩形Bとの距離D(A,B)は、下記式(1)で表される。
D(A,B)=min(X,X) ・・・(1)
上記の定義に従った矩形間の距離をコンピュータ上で計測する方法を、以下に簡単に説明する。まず、図11(a)に示すように、2つの矩形が上下に並んでいる(ケース1)か、図11(b)に示すように、2つの矩形が左右に並んでいる(ケース2)か、のどちらのケースなのかを判別する。そして、ケース1の場合は、図11(a)に示す距離d1を矩形間の距離として計測し、ケース2の場合は、図11(b)に示す距離d2を矩形間の距離として計測する。なお、複数の距離指標を用いて矩形間の距離を計測するようにしてもよい。その場合、複数の指標の値を1つのスカラに統合する必要がある。その方法として、線形和を取る方法や、複数指標のうちの最小値を採用する方法などが考えられる。
以上により作成された配置プラン付サブ画像群D4は、表示制御部150の後述するサブ画像表示制御部151と、認識部140との双方に出力される。そして、サブ画像表示制御部151が配置プラン情報に基づいてサブ画像を表示器160に直ちに表示する処理と、認識部140がサブ画像に含まれる文字やロゴマークなどの対象(注目領域に含まれる対象)を認識する処理とが並行して行われる。認識部140による認識結果は、表示制御部150の後述する認識結果表示制御部152よって表示器160に表示されるが、この認識結果の表示は、認識部140による認識処理が介在することによって、サブ画像の表示よりもワンテンポ遅れる。このため、ユーザの目には、まずサブ画像が表示器160に先に表示され、遅れて認識結果が表示される、という画面効果を与えることとなる。これにより、サブ画像が、表示器160に認識結果が表示されるまでの、認知的なつなぎとなるプレビューの役割を果たすなどの効果を生み出すことができる。
認識部140は、配置プラン付サブ画像群D4を入力として受け取り、配置プラン付サブ画像群D4に含まれるサブ画像のうち、統合スコアが第2閾値以上のサブ画像に含まれる対象、つまり統合スコアが第2閾値以上のサブ画像の元になった注目領域に含まれる対象の認識処理を行い、認識結果D5を出力する。なお、第2閾値は、検出部110のオブジェクト検出器111や文字領域検出器112において、二値分類器が出力する局所スコアに対する閾値として用いた第1閾値とは異なる値であり、第1閾値よりも厳しい値(大きな値)に設定されている。
本実施形態では、ロゴマークと文字を認識部140による認識対象としている。入力される配置プラン付サブ画像群D4は、ロゴマークのサブ画像と文字のサブ画像に仕分けされ、前者についてはサブモジュールであるオブジェクト認識器141で認識処理を行い、後者については文字認識器142で認識処理を行う。
オブジェクト認識器141は、サブ画像に含まれるロゴマークが予め登録されているロゴマークのうちのどれなのかを識別し、認識結果としてロゴマーク名を示す単語を出力する。なお、ロゴマークの認識処理には、公知の技術を用いればよい。
文字認識器142は、サブ画像内に含まれる1行ないしは複数行からなるテキスト(文字)を認識し、認識結果として当該テキストを出力する。文字の認識処理には公知の技術を用いればよい。例えば、画像(サブ画像)に対して二値化を行い、個別文字の領域を特定して、個別文字認識を行う方法が知られており、この方法を適用できる。
本実施形態では、オブジェクト認識器141を用いてロゴマークの認識処理を行う場合も、文字認識器142を用いて文字認識を行う場合も、出力となる認識結果D5はテキストであるものとする。
認識部140のオブジェクト認識器141および文字認識器142は、いずれも認識部トレーナ300によって訓練された多クラス識別モデルを用いる。したがって、メインシステム100の利用前に一度、認識部トレーナ300を実行しておき、多クラス識別モデルを作成しておく必要がある。
この多クラス識別モデルは、ロゴマークの識別モデル、文字の識別モデルなど、認識対象のカテゴリごとに用意する。認識部トレーナ300による多クラス識別モデルの訓練は、正例用画像群310と負例用画像群320とを用いて行う。正例用画像群310は、該当するカテゴリの対象が含まれる画像群であり、負例用画像群320は、該当するカテゴリの対象が含まれない画像群である。これらを正例および負例として用いて、多クラスSVMなどの多クラス分類器の識別モデルを訓練する。
表示制御部150は、配置プラン付サブ画像群D4に含まれる各サブ画像と、認識部140の認識処理によって得られた認識結果D5とを、例えば入力画像D1に重畳した形態で表示器160に表示させる。サブ画像の表示は、表示制御部150がサブ画像近接配置プランナ130から配置プラン付サブ画像群D4を取得すると、実行が開始される。一方、認識結果D5の表示は、表示制御部150が認識部140から認識結果D5を取得すると、実行が開始される。両者は非同期に実行される。ただし、認識結果D5が届くタイミングは、配置プラン付サブ画像群D4が届くタイミングより、認識部140での認識処理にかかる時間の分だけ遅い。このため、結果として、表示器160には、サブ画像が表示された後に、認識結果D5が表示されることになる。
また、表示制御部150は、表示器160が表示する画像に対してユーザが行う操作を受け付けるなどのUI(User Interface)制御を行う。なお、表示器160としては、例えば液晶ディスプレイパネルなどの様々な表示器を利用できる。また、ユーザが画像に対する操作を行うために利用する操作デバイスとしては、マウスやキーボードのほか、表示器160と一体となったタッチパネルなど、様々な操作デバイスを利用できる。サブ画像の表示制御、認識結果D5の表示制御、およびUI制御は、それぞれ、サブ画像表示制御部151、認識結果表示制御部152、およびUI制御部153の3つのサブモジュールで個別に行われる。
サブ画像表示制御部151は、配置プラン付サブ画像群D4に含まれる各サブ画像を、上述した配置プラン情報に従い、入力画像D1内の注目領域(領域画像)との対応関係を示す画面表現を伴う形式で、例えば入力画像D1に重畳した表示形態で表示器160に表示させる。
図12は、サブ画像表示制御部151の処理手順の一例を示すフローチャートである。サブ画像表示制御部151は、入力画像D1と配置プラン付サブ画像群D4とを用いて、以下のステップS501〜ステップS505の処理を行って、サブ画像が重畳された入力画像D1を表示器160に表示させる。
ステップS501:サブ画像表示制御部151は、配置プラン付サブ画像群D4から、サブ画像を1つ取り出す。
ステップS502:サブ画像表示制御部151は、ステップS501で取り出したサブ画像の統合スコアが第2閾値以上であるか否かを判定する。YesであればステップS503に進み、NoであればステップS504に進む。なお、ここでの第2閾値は、認識部140が認識処理を行うか否かを判定する際に用いる閾値と同じである。つまり、サブ画像表示制御部151は、ステップS502において、ステップS501で取り出したサブ画像が、認識部140によって認識処理が行われるサブ画像(第1サブ画像)であるか、あるいは、認識部140によって認識処理が行われないサブ画像(第2サブ画像)であるかを判定している。
ステップS503:サブ画像表示制御部151は、ステップS501で取り出したサブ画像(第1サブ画像)を、入力画像D1上の、配置プラン情報によって指定される位置に低い透明度で(下の入力画像D1が透けて見えないように)重畳表示する。また、このときサブ画像表示制御部151は、当該サブ画像の右上に「×」ボタンを置く。この「×」ボタンは、ユーザが当該サブ画像に含まれる対象を認識処理から除外する操作を受け付けるためのUIとして利用される。
ステップS504:サブ画像表示制御部151は、ステップS501で取り出したサブ画像(第2サブ画像)を、入力画像D1上の、配置プラン情報によって指定される位置に高い透明度で(下の入力画像D1が透けて見えるように)重畳表示する。このサブ画像の表示領域は、ユーザが当該サブ画像に含まれる対象を認識処理の対象に追加する操作を受け付けるためのUIとして利用される。
ステップS505:サブ画像表示制御部151は、配置プラン付サブ画像群D4から、サブ画像をすべて取り出したか否かを判定する。そして、判定の結果がNoであればステップS501に戻り、Yesであれば処理を終了する。
サブ画像表示制御部151が以上の処理を行った結果、表示器160には、図10に示したように、入力画像D1上に、配置プラン付サブ画像群D4に含まれる各サブ画像が重畳されて表示される。なお、本実施形態では、サブ画像と入力画像D1内の注目領域(領域画像)との対応関係を示す画面表現として、サブ画像を注目領域(領域画像)に近接配置する画面表現を用いているが、これに限らない。例えば、サブ画像と入力画像D1内の注目領域(領域画像)との対応関係を明示するために、引き出し線などの画面表現を近接配置に追加して利用する、あるいは単独で利用するようにしてもよい。
認識結果表示制御部152は、認識部140のオブジェクト認識器141や文字認識器142が出力する認識結果D5を、対応するサブ画像との対応関係を示す画面表現を伴う形式で、例えば入力画像D1に重畳した表示形態で表示器160に表示させる。
本実施形態では、認識結果D5とサブ画像との対応関係を示す画面表現として、認識結果D5を、対応するサブ画像に一部重なるように配置する画面表現を用いるものとする。すなわち、配置プラン情報で指定される各サブ画像の位置に対して、サブ画像の大きさに対応したオフセットを与えた位置を、認識結果D5の配置位置とする。なお、認識結果D5とサブ画像との対応関係を示す画面表現はこの例に限らず、上述した引き出し線を利用するなど、様々な画面表現を利用することができる。
図13は、認識結果表示制御部152による処理の結果として表示器160に表示される画像の一例を示す図である。図13の画像例は、図10に示した画像に対して、さらに認識結果D5が追加表示された例を示している。表示器160には、図10に示した画像が表示された後、認識部140による認識処理が終了した段階で、図13に示す画像が表示されることになる。
表示器160による画像の表示は、上述したように、サブ画像近接配置プランナ130のアルゴリズムにより、制約を満たす中で最善の配置が行われている。ただし、そのままでは制約を満たせない場合には、統合スコアが低いサブ画像の表示をあきらめることで、制約を充足する。したがって、サブ画像が密集しているために、すべてのサブ画像を配置できずに、サブ画像が間引きされる局所的領域が生じる場合がある。例えば、図10や図13に示した画像例では、画像の右上の領域がこれに該当し、「ホリーズ」を含む注目領域のサブ画像、「SK不動産」を含む注目領域のサブ画像、「分倍書店 本」を含む注目領域のサブ画像は、間引きによって表示されていない。
一方、サブ画像がまばらでスペースに余裕があるため、統合スコアが第2閾値を下回るほど低いサブ画像まで表示している局所的領域も生じ得る。例えば、図10や図13に示した画像例では、画像の左上の領域がこれに該当し、スペースに余裕があるため、統合スコアが第2閾値を下回る「小岩カメラ」を含む注目領域のサブ画像も表示されている。
UI制御部153は、表示器160が表示する画像に対してユーザが行う操作を受け付けるなどのUI制御を行う。本実施形態では、表示器160が表示する画像に対するユーザの操作として、表示されているサブ画像へのフィードバックに関する2つの操作と、未検出の領域へのフィードバックに関する1つの操作を扱う。以下では、それぞれの操作に対するUI制御部153の処理について説明する。
統合スコアが第2閾値以上のサブ画像(認識処理の対象となっている第1サブ画像)は、上述したように、画像の右上に「×」ボタンを付加した状態で表示される。そして、ユーザがこの「×」ボタンを押下する操作を行うと、そのサブ画像は、統合スコアが第2閾値を下回るサブ画像であると再解釈させるようフィードバックをかけることができる。これにより、検出部110による領域の検出誤りを修正することができる。以下、この処理をfalse-positiveな検出誤りの訂正という。
図14は、false-positiveな検出誤りの訂正の処理手順の一例を示すフローチャートである。ユーザが表示器160に表示されているサブ画像の右上の「×」ボタンを押下する操作を行うと、UI制御部153は、以下のステップS601〜ステップS604の処理を行って、表示器160の表示を更新させる。
ステップS601:UI制御部153は、表示器160に表示されているサブ画像の右上の「×」ボタンを押下するユーザの操作を受け付ける。
ステップS602:UI制御部153は、「×」ボタンが押下されたサブ画像の統合スコアが第2閾値を下回るように、当該サブ画像に対してのみペナルティ値(サブ画像個別ペナルティD6)を設定する。このサブ画像個別ペナルティD6は、サブ画像近接配置プランナ130に送られて、サブ画像の統合スコアを修正するために用いられる。
ステップS603:UI制御部153は、「×」ボタンが押下されたサブ画像を元に、スライド窓のサイズでくりぬいた画像群(追加負例用画像群D7)を作成し、検出部トレーナ200の負例用画像群220に追加登録する。そして、UI制御部153は、検出部トレーナ200に対して再訓練の指示を出し、検出部トレーナ200に検出部110の再訓練を行わせる。この再訓練の結果は、メインシステム100の次回以降の利用時に反映される。
ステップS604:UI制御部153は、サブ画像近接配置プランナ130に処理を戻し、「×」ボタンが押下されたサブ画像に対する処理を更新させる。これにより、「×」ボタンが押下されたサブ画像は、サブ画像個別ペナルティD6に基づいて統合スコアが修正され、統合スコアが第2閾値を下回ったサブ画像として扱われることになる。その結果、サブ画像表示制御部151は、表示器160による当該サブ画像の表示を更新し、当該サブ画像を透明度が高い画像として入力画像D1上に再描画する。また、認識結果表示制御部152は、それまで表示されていた当該サブ画像に関する認識結果の表示を停止させる。
統合スコアが第2閾値を下回るサブ画像は、上述したように、入力画像D1上に高い透明度で(下の入力画像D1が透けて見えるように)重畳表示される。そして、ユーザがこのように表示されたサブ画像の表示領域を、例えばマウスでクリックするなどの方法で指定する操作を行うと、そのサブ画像は、統合スコアが第2閾値以上のサブ画像であると再解釈させるようフィードバックをかけることができる。これにより、検出部110による領域の検出誤りを修正することができる。以下、この処理をfalse-negativeな検出誤りの訂正という。
図15は、false-negativeな検出誤りの訂正の処理手順の一例を示すフローチャートである。ユーザが表示器160に高い透明度で表示されているサブ画像の領域を指定する操作を行うと、UI制御部153は、以下のステップS701〜ステップS704の処理を行って、表示器160の表示を更新させる。
ステップS701:UI制御部153は、表示器160に高い透明度で表示されているサブ画像の領域を指定するユーザの操作を受け付ける。
ステップS702:UI制御部153は、当該サブ画像の統合スコアが第2閾値以上となるように、当該サブ画像に対してのみボーナス値(サブ画像個別ボーナスD8)を設定する。このサブ画像個別ボーナスD8は、サブ画像近接配置プランナ130に送られて、サブ画像の統合スコアを修正するために用いられる。
ステップS703:UI制御部153は、当該サブ画像を元に、スライド窓のサイズでくりぬいた画像群(追加正例用画像群D9)を作成し、検出部トレーナ200の正例用画像群210に追加登録する。そして、UI制御部153は、検出部トレーナ200に対して再訓練の指示を出し、検出部トレーナ200に検出部110の再訓練を行わせる。この再訓練の結果は、メインシステム100の次回以降の利用時に反映される。
ステップS704:UI制御部153は、サブ画像近接配置プランナ130に処理を戻し、当該サブ画像に対する処理を更新させる。これにより、当該サブ画像は、サブ画像個別ボーナスD8に基づいて統合スコアが修正され、統合スコアが第2閾値以上のサブ画像として扱われることになる。その結果、サブ画像表示制御部151は、表示器160による当該サブ画像の表示を更新し、当該サブ画像を透明度が低く、右上に「×」ボタンが付加された画像として入力画像D1上に再描画する。また、認識部140は、当該サブ画像に含まれる対象に対する認識処理を行い、その認識結果D5が、認識結果表示制御部152によって、表示器160に追加で表示される。
また、認識部140による認識対象とされるべき注目領域が、検出部110によって未検出とされた結果、表示器160にその領域のサブ画像が表示されない場合も考えられる。このような場合には、例えばその領域付近でマウスボタンを一定時間押しっぱなしにするなど、ユーザがその未検出の領域の位置を指定する操作を行うと、ユーザが指定した位置を含む周辺領域が検出部110により検出されやすくなるようフィードバックをかけることもできる。これにより、サブ画像が表示されない領域であっても、検出部110による領域の検出誤りを修正することができる。以下、この処理を未検出の訂正という。
図16は、未検出の訂正の処理手順の一例を示すフローチャートである。表示器160に表示されている入力画像D1上でサブ画像が重畳表示されていない領域の位置を指定する操作を行うと、UI制御部153は、以下のステップS801〜ステップS803の処理を行って、表示器160の表示を更新させる。
ステップS801:UI制御部153は、表示器160に表示されている入力画像D1上で、サブ画像が重畳表示されていない領域の位置を指定するユーザの操作を受け付ける。
ステップS802:UI制御部153は、入力画像D1上のユーザが指定した位置をピークとして、その周辺に向かうに従い減衰するような配分で、その位置周辺の画素に対してボーナス値(サブ画像ゾーンボーナスD10)を設定する。
図17は、サブ画像ゾーンボーナスD10を説明する図である。図17の例では、黒塗りの矩形がユーザにより指定された入力画像D1上の位置を示し、その位置の周辺をクロスハッチングの矩形で示し、さらにその周辺をハッチングの矩形で示している。この場合、UI制御部153は、例えば、黒塗りの矩形の位置に対して+3、クロスハッチングの矩形の位置に対して+2、ハッチングの矩形の位置に対して+1のサブ画像ゾーンボーナスを設定する。ここで、例えば検出部110が注目領域の検出に用いるスライド窓のサイズが、図17の矩形4つ分のサイズであるとすると、スライド窓が図17の破線で示す位置にあるとき、スライド窓で囲まれた領域の局所スコアに合計4点のボーナス値が加算される。なお、ここではボーナス値を整数で表しているが、局所スコアが1以下の値で示される場合は、ボーナス値も小数の値となる。
ステップS803:UI制御部153は、検出部110に処理を戻し、検出部110による注目領域の検出からやり直すかたちで、以降の処理を更新する。この処理の戻しによって呼び出される検出部110は、サブ画像ゾーンボーナスD10に対応した処理が必要である。具体的には、二値分類器が算出する局所スコアに対して、図17に示したようなボーナス値を加算する処理が行われる。その結果、入力画像D1上でユーザが指定した位置の周辺領域が注目領域として新たに検出され、表示器160が表示する入力画像D1上のサブ画像や認識結果D5の表示が更新される。
以上、具体的な例を挙げながら詳細に説明したように、本実施形態の画像表示装置では、検出部110が、入力画像D1から注目領域を検出し、生成部120が、検出された注目領域の画像(領域画像)に対して視認性を向上させる補正を行ってサブ画像を生成する。そして、サブ画像近接配置プランナ130が、生成されたサブ画像の配置プランを決定し、表示制御部150が、決定された配置プランに従って、サブ画像を入力画像D1内の注目領域(領域画像)との対応関係が分かるように入力画像D1に重畳して表示器160に表示させる。また、認識部140が、統合スコアが第2閾値以上のサブ画像に対する認識処理を行い、認識処理が終了すると、表示制御部150が、認識結果D5をサブ画像との対応関係が分かるように入力画像D1にさらに重畳して表示器160に表示させる。
さらに、本実施形態の画像表示装置では、認識部140が認識処理を行ったサブ画像と、認識部140による認識処理が行われなかったサブ画像とを異なる表示形態で表示器160に表示させ、表示されたサブ画像に対するユーザの操作を受け付けることで、検出部110による注目領域の検出に対してユーザの意図を反映させたフィードバックを行えるようにしている。
したがって、本実施形態の画像表示装置によれば、上述した認識誤りに対するリカバリ機能[A1]、注目領域の検出誤りに対するリカバリ機能[A2]、認識処理による応答性の低下を補う機能[B]、適切な注視誘導を行う機能[C]、および注目領域の閲覧性を補助する機能[D]のすべてを実現した、利便性の高い情景画像認識による画像表示を提供することができる。
(第2実施形態)
次に、第2実施形態の画像表示装置について説明する。第2実施形態の画像表示装置は、上述した第1実施形態の画像表示装置とほぼ同じ機能を持っているが、サブ画像や認識結果の表示の仕方が異なるものである。以下では、第1実施形態の画像表示装置と同様の構成要素については同一の符号を付して重複した説明を省略し、本実施形態に特徴的な部分についてのみ説明する。
図18は、第2実施形態の画像表示装置の構成例を示すブロック図である。第2実施形態の画像表示装置では、図18に示すように、第1実施形態の画像表示装置のメインシステム100に設けられていたサブ画像近接配置プランナ130に代えて、メインシステム100’に、サブ画像重畳配置プランナ170が設けられている。第2実施形態の画像表示装置における他の構成は、第1実施形態の画像表示装置と同様である。
サブ画像重畳配置プランナ170は、サブ画像をその元になった注目領域に重畳して配置するための配置プラン最適化の数学モデルを解くことで、サブ画像を入力画像D1上に重畳する際の位置を決定するモジュールである。サブ画像重畳配置プランナ170は、スコア付領域画像群D2およびスコア付サブ画像群D3を入力として受け取り、スコア付サブ画像群D3に含まれる各サブ画像の最適な配置を決定し、その配置プラン情報を含む、配置プラン付サブ画像群D4を出力する。
図19は、サブ画像重畳配置プランナ170の処理手順の一例を示すフローチャートである。サブ画像重畳配置プランナ170は、スコア付領域画像群D2およびスコア付サブ画像群D3を用いて、以下のステップS901〜ステップS908の処理を行って、サブ画像の配置プラン情報を求め、配置プラン付サブ画像群D4を出力する。
ステップS901:サブ画像重畳配置プランナ170は、例えば図20に示す重畳配置プラン最適化モデルM2を解く。なお、図20に示す重畳配置プラン最適化モデルM2については、詳細を後述する。
ステップS902:サブ画像重畳配置プランナ170は、ステップS901での処理で解が得られたか否かを判定する。そして、判定の結果がYesであればステップS904に進み、NoであればステップS903に進む。解が得られないというのは、スコア付サブ画像群D3に含まれる各サブ画像が他のサブ画像および他のサブ画像に対応する領域画像に重なり合わないという制約のもと、サブ画像をその元となった注目領域に重畳して配置することができないことを意味している。そこで、解が得られない場合は、配置対象となるサブ画像を間引きする戦略を取る。
ステップS903:サブ画像重畳配置プランナ170は、スコア付サブ画像群D3に含まれるサブ画像のうち、最も統合スコアの低いサブ画像を配置の対象から除外して除去リストバッファB3に登録し、ステップS901に戻る。
サブ画像重畳配置プランナ170は、以上のステップS901〜ステップS903の処理を繰り返すことにより、スコア付サブ画像群D3に含まれるサブ画像を一部間引いた状態での最適な配置を求める。ただし、ここで求められる配置が最適な配置になるとは限らず、必要以上にサブ画像を間引いている可能性がある。なぜなら、ステップS903では、配置の対象から除外するサブ画像を、配置制約ではなく統合スコアに基づいて選択しているためである。
そこで、ステップS904以降の処理では、いったん間引き対象となったサブ画像について、これまでに得られた配置のままで、配置できるかどうかを試行する。もし配置が可能と判断できれば、そのまま配置する。これにより、不要な間引きの対象となったサブ画像が、これらの処理の中で配置が復活することになる。
ステップS904:サブ画像重畳配置プランナ170は、除去リストバッファB3から、サブ画像を統合スコアの高い順に1つずつ取り出す。
ステップS905:サブ画像重畳配置プランナ170は、取り出したサブ画像を、他のサブ画像や他のサブ画像の元となった領域画像に重ならないという制約のもと、当該サブ画像の元になった注目領域に重畳して配置可能か否かを判定する。そして、判定の結果がYesであればステップS906に進み、NoであればステップS907に進む。
ステップS906:サブ画像重畳配置プランナ170は、ステップS905で配置可能と判定したサブ画像を、当該サブ画像の元になった注目領域に重畳して配置する。なお、実際にはステップS905およびステップS906の処理でも最適化問題を解くことになるが、ここでは詳細な説明を省略する。
ステップS907:サブ画像重畳配置プランナ170は、除去リストバッファB3からサブ画像をすべて取り出したか否かを判定する。そして、判定の結果がYesであればステップS908に進み、NoであればステップS904に戻る。
ステップS908:サブ画像重畳配置プランナ170は、解として得られたR’i(i=1,・・・,N)をサブ画像の配置プラン情報とし、配置プラン付サブ画像群D4を出力する。
ここで、上記ステップS901で用いる重畳配置プラン最適化モデルM2の数式について、図20を参照して説明する。図20は、重畳配置プラン最適化モデルM2の一例を示す図である。
図20に示す重畳配置プラン最適化モデルM2の第1行目は、注目領域(領域画像)と対応するサブ画像との距離と、領域画像のうち対応するサブ画像によって隠されずに見えている面積との線形和を、すべてのサブ画像について合計したものを最小化することを示している。距離の定義と算出方法については、図22を用いて後述する。
図20に示す重畳配置プラン最適化モデルM2の第2行目以降は、制約条件を示している。第3行目では、各サブ画像の配置予定領域に対して、あらゆる注目領域の中で最も近い注目領域は、そのサブ画像に対応する注目領域である、という制約を課している。換言すると、サブ画像は、当該サブ画像の元になった注目領域に対応する領域画像が最も近くなるように配置することを要求しているということである。
第4行目では、すべてのサブ画像が互いに重なり合わないことを制約に課している。
図21は、図5に示した検出結果例において、重畳配置プラン最適化モデルM2の解として得られた配置プラン情報に従ってサブ画像を配置した例を示す図である。サブ画像は、そのサブ画像の元になった注目領域(領域画像)に重畳して配置され、さらに、あらゆるサブ画像が他のサブ画像と重なり合わないように配置されている。ただし、一部の領域ではこの条件を満たせないため、サブ画像の間引きが行われている。例えば、図の右上側の「ホリーズ」を含む注目領域などでは、サブ画像が間引きされている。
なお、図20に示す重畳配置プラン最適化モデルM2は、サブ画像重畳配置プランナ170で用いる最適化モデルの一例であり、これに限られるものではない。例えば、図20に示す重畳配置プラン最適化モデルM2に対し、配置するサブ画像数の上限を組み入れてもよい。これにより、サブ画像の表示数が多いために画像が見づらくなるといった不都合を解消することができる。
図22は、注目領域(領域画像)と対応するサブ画像との距離の算出方法を説明する図である。注目領域(領域画像)とサブ画像との距離は、矩形間の距離として求められる。矩形間の距離は様々考えられるが、本実施形態では、図22に示すように、各矩形の重心間の距離dを矩形間の距離とする。また、図22のハッチングを付した部分の面積が、図20に示した重畳配置プラン最適化モデルM2における関数Sの値となる。
以上により作成された配置プラン付サブ画像群D4は、第1実施形態と同様に、表示制御部150のサブ画像表示制御部151と、認識部140との双方に出力される。そして、サブ画像表示制御部151が配置プラン情報に基づいてサブ画像を表示器160に直ちに表示する処理と、認識部140がサブ画像に含まれる文字やロゴマークなどの対象(注目領域に含まれる対象)を認識する処理とが並行して行われる。また、認識部140によるサブ画像に対する認識処理が終了すると、第1実施形態と同様に、その認識結果D5が、表示制御部150の認識結果表示制御部152によって、サブ画像の表示からワンテンポ送れて表示器160に表示される。
図23は、認識結果表示制御部152による処理の結果として表示器160に表示される画像の一例を示す図である。図23の画像例は、図21に示した画像に対して、さらに認識結果D5が追加表示された例を示している。表示器160には、図21に示した画像が表示された後、認識部140による認識処理が終了した段階で、図23に示す画像が表示されることになる。
表示器160による画像の表示は、上述したように、サブ画像重畳配置プランナ170のアルゴリズムにより、制約を満たす中で最善の配置が行われている。具体的には、サブ画像同士が互いに重ならないこと、各サブ画像は対応する領域画像(注目領域)の最寄に配置すること、の2つの条件を満たしつつ、サブ画像と対応する領域画像(注目領域)との重心間距離およびサブ画像によって隠される領域画像の面積の線形和を、すべてのサブ画像について合計したものが最小となるよう、配置している。ただし、そのままでは制約を満たせない場合には、統合スコアが低いサブ画像の表示をあきらめることで、制約を充足する。したがって、サブ画像が密集しているために、すべてのサブ画像を配置できずに、サブ画像が間引きされる局所的領域が生じる場合がある。例えば、図21や図23に示した画像例では、画像の右上の領域がこれに該当し、「ホリーズ」を含む注目領域のサブ画像は、間引きによって表示されていない。
一方、サブ画像がまばらでスペースに余裕があるため、統合スコアが第2閾値を下回るほど低いサブ画像まで表示している局所的領域も生じ得る。例えば、図21や図23に示した画像例では、画像の左上の領域がこれに該当し、スペースに余裕があるため、統合スコアが第2閾値を下回る「小岩カメラ」を含む注目領域のサブ画像も表示されている。
なお、本実施形態では、サブ画像と入力画像D1内の注目領域(領域画像)との対応関係を示す画面表現として、サブ画像を注目領域(領域画像)に重畳配置する画面表現を用いているが、これに限らない。例えば、サブ画像と入力画像D1内の注目領域(領域画像)との対応関係を明示するために、引き出し線などの画面表現を重畳配置に追加して利用する、あるいは単独で利用するようにしてもよい。
また、本実施形態では、認識結果D5とサブ画像との対応関係を示す画面表現として、第1実施形態と同様に、認識結果D5を、対応するサブ画像に一部重なるように配置する画面表現を用いているが、これに限らない。例えば、上述した引き出し線を利用するなど、様々な画面表現を利用することができる。
(第3実施形態)
次に、第3実施形態の画像表示装置について説明する。第3実施形態の画像表示装置は、上述した第1実施形態の画像表示装置とほぼ同じ機能を持っているが、サブ画像や認識結果の表示の仕方が異なるものである。以下では、第1実施形態の画像表示装置と同様の構成要素については同一の符号を付して重複した説明を省略し、本実施形態に特徴的な部分についてのみ説明する。
図24は、第3実施形態の画像表示装置の構成例を示すブロック図である。第3実施形態の画像表示装置では、図24に示すように、第1実施形態の画像表示装置のメインシステム100に設けられていたサブ画像近接配置プランナ130に代えて、メインシステム100’'に、サブ画像外部配置プランナ180が設けられている。第3実施形態の画像表示装置における他の構成は、第1実施形態の画像表示装置と同様である。
サブ画像外部配置プランナ180は、サブ画像を入力画像D1の外部に表示する際の位置を決定するモジュールである。サブ画像外部配置プランナ180は、スコア付サブ画像群D3を入力として受け取り、スコア付サブ画像群D3に含まれる各サブ画像の最適な配置を決定し、その配置プラン情報を含む、配置プラン付サブ画像群D4を出力する。
配置プラン付サブ画像群D4は、第1実施形態と同様に、表示制御部150のサブ画像表示制御部151と、認識部140との双方に出力される。そして、サブ画像表示制御部151が配置プラン情報に基づいてサブ画像を表示器160に直ちに表示する処理と、認識部140がサブ画像に含まれる文字やロゴマークなどの対象(注目領域に含まれる対象)を認識する処理とが並行して行われる。また、認識部140によるサブ画像に対する認識処理が終了すると、第1実施形態と同様に、その認識結果D5が、表示制御部150の認識結果表示制御部152によって、サブ画像の表示からワンテンポ遅れて表示器160に表示される。
図25は、サブ画像外部配置プランナ180から出力される配置プラン付サブ画像群D4に基づいて、表示制御部150のサブ画像表示制御部151が処理を行った結果として表示器160に表示される画像の一例を示す図である。
本実施形態では、図25に示すように、表示器160の表示画面が左右に分割され、左側の画面に、注目領域が検出された入力画像D1が表示され、右側の画面に、サブ画像が表示されるものとする。右側の画面における各サブ画像の配置は、例えば、サブ画像同士が重なり合わないという制約のもと、対応する注目領域の入力画像D1上の位置が画面上にあるものほど、右側の画面における上側に配置され、かつ、統合スコアが高いものほど、右側の画面における上側に配置される。また、画面右側に表示されるサブ画像と、画面左側に配置される入力画像D1内の注目領域(領域画像)との対応関係は、例えば、これらを結ぶ引き出し線を表示することで明示的に表現する。
なお、本実施形態では、サブ画像と入力画像D1内の注目領域(領域画像)との対応関係を示す画面表現として、サブ画像と対応する注目領域(領域画像)とを結ぶ引き出し線を用いた明示的な表現方法を用いているが、これに限らない。例えば、引き出し線を用いた画面表現の代わりに、ハイライト表現を用いるようにしてもよい。具体的には、例えば、入力画像D1内の注目領域(領域画像)またはサブ画像のいずれかにマウスポインタをかざすと、対応するサブ画像または注目領域(領域画像)を囲む枠が明るく表示される、といった画面表現が考えられる。
図26は、認識部140から出力される認識結果D5に基づいて、表示制御部150の認識結果表示制御部152が処理を行った結果として表示器160に表示される画像の一例を示す図である。本実施形態では、図26に示すように、認識部140から出力される認識結果D5のそれぞれを、右側の画面に表示されているサブ画像の右隣りに配置することで、認識結果D5とサブ画像との対応関係を示す表示形態としている。
図25および図26に示した本実施形態の表示方法は、サブ画像や認識結果D5によって入力画像D1が隠れない点が長所である。ただし、人間にとって対応付けの表現がやや直感的でないこと、サブ画像や認識結果を確認するために視野を動かすコストが発生すること、などが短所である。したがって、これらの長所および短所を勘案して、本実施形態の表示方法を利用する適切なアプリケーションを選択したり、ユーザの選択に応じて他の表示方法から本実施形態の表示方法に切り替えられるようにしたりすることが望ましい。
以上説明した各実施形態の画像表示装置によれば、入力画像の中でユーザが関心を持つことが推察される対象を、応答性よく、理解しやすいかたちでユーザに提示することができる。
以上説明した各実施形態の画像表示装置における上述した各機能は、例えば、画像表示装置において所定のプログラムを実行することにより実現することができる。この場合、画像表示装置は、例えば図27に示すように、CPU(Central Processing Unit)11などの制御装置、ROM(Read Only Memory)12やRAM(Random Access Memory)13などの記憶装置、表示器160や各種操作デバイスが接続される入出力I/F14、ネットワークに接続して通信を行う通信I/F15、各部を接続するバス16などを備えた、通常のコンピュータを利用したハードウェア構成とすることができる。
上述した各実施形態の画像表示装置で実行されるプログラムは、例えば、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。
また、上述した各実施形態の画像表示装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上述した各実施形態の画像表示装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
また、上述した各実施形態の画像表示装置で実行されるプログラムを、ROM12等に予め組み込んで提供するように構成してもよい。
上述した各実施形態の画像表示装置で実行されるプログラムは、画像表示装置の各処理部(検出部110、生成部120、サブ画像近接配置プランナ130(サブ画像重畳配置プランナ170、サブ画像外部配置プランナ180)、認識部140、および表示制御部150)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、CPU11(プロセッサ)が上記記録媒体からプログラムを読み出して実行することにより、上述した各処理部がRAM13(主記憶)上にロードされ、上述した各処理部がRAM13(主記憶)上に生成されるようになっている。なお、上述した各実施形態の画像表示装置は、上述した各処理部の一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
110 検出部
120 生成部
121 サイズ補正器
122 正対補正器
123 色補正器
130 サブ画像近接配置プランナ
140 認識部
150 表示制御部
151 サブ画像表示制御部
152 認識結果表示制御部
153 UI制御部
160 表示器
170 サブ画像重畳配置プランナ
180 サブ画像外部配置プランナ
D1 入力画像
D2 スコア付領域画像群
D3 スコア付サブ画像群
D4 配置プラン付サブ画像群
D5 認識結果

Claims (12)

  1. 入力画像から複数の注目領域を検出する検出部と、
    前記複数の注目領域の画像の各々に対して視認性を向上させる補正を施して、前記複数の注目領域の各々に対応する複数のサブ画像を生成する生成部と、
    前記複数のサブ画像の前記入力画像上における配置を、各サブ画像が、少なくとも他のサブ画像および当該サブ画像に対応する注目領域以外の他の注目領域と重ならず、かつ、前記複数の注目領域のうち最も近い注目領域が当該サブ画像に対応する注目領域となるように決定する配置決定部と、
    前記注目領域に含まれる対象に対する認識処理を行う認識部と、
    前記複数のサブ画像の各々を、決定した配置に従って前記入力画像上に重畳して表示器に表示させ、前記認識処理が終了すると、前記認識処理の結果を、前記サブ画像との対応関係を示す画面表現を伴う形式で前記表示器にさらに表示させる表示制御部と、を備え
    前記検出部は、前記入力画像中で前記認識処理の対象が含まれている確からしさを表すスコアが閾値を超える領域を前記注目領域として検出するものであり、
    前記表示制御部は、前記表示器が表示している前記入力画像中で前記サブ画像が重畳されていない位置を指定した第3操作が行われた場合、指定された位置をピークとして該位置の周辺に向かうに従い減衰するボーナス値を設定し、
    前記検出部は、前記ボーナス値が設定された場合、前記ボーナス値が加算された前記スコアが前記閾値を超える領域を前記注目領域として検出する、画像表示装置。
  2. 前記認識部は、前記注目領域のうち、予め定めた規則に従って選択された前記注目領域に含まれる対象に対する前記認識処理を行い、
    前記表示制御部は、前記認識処理の対象として選択された前記注目領域の画像から生成された前記サブ画像である第1サブ画像と、前記認識処理の対象として選択されなかった前記注目領域の画像から生成された前記サブ画像である第2サブ画像とを、異なる表示形態で前記表示器に表示させる、請求項に記載の画像表示装置。
  3. 前記表示制御部は、前記表示器が表示している前記第1サブ画像を指定した第1操作が行われた場合、指定された前記第1サブ画像に対応する前記認識処理の結果の表示を停止させる、請求項に記載の画像表示装置。
  4. 前記検出部は、訓練データを用いて訓練された識別モデルを用いて前記入力画像から前記注目領域を検出するものであり、
    前記表示器が表示している前記第1サブ画像を指定した前記第1操作が行われた場合、指定された前記第1サブ画像を負例の前記訓練データに追加して前記識別モデルの再訓練が行われる、請求項に記載の画像表示装置。
  5. 前記認識部は、前記表示器が表示している前記第2サブ画像を指定した第2操作が行われた場合、指定された前記第2サブ画像に対応する前記注目領域に含まれる対象に対する前記認識処理を行う、請求項に記載の画像表示装置。
  6. 前記検出部は、訓練データを用いて訓練された識別モデルを用いて前記入力画像から前記注目領域を検出するものであり、
    前記表示器が表示している前記第2サブ画像を指定した前記第2操作が行われた場合、指定された前記第2サブ画像を正例の前記訓練データに追加して前記識別モデルの再訓練が行われる、請求項に記載の画像表示装置。
  7. 記配置決定部は、前記スコアに基づいて、前記複数のサブ画像のうちの一部を配置の対象から除外し、残りのサブ画像の配置を決定する、請求項乃至のいずれか一項に記載の画像表示装置。
  8. 入力画像から複数の注目領域を検出する検出部と、
    前記複数の注目領域の画像の各々に対して視認性を向上させる補正を施して、前記複数の注目領域の各々に対応する複数のサブ画像を生成する生成部と、
    前記複数のサブ画像の前記入力画像上における配置を、各サブ画像が、少なくとも他のサブ画像および当該サブ画像に対応する注目領域以外の他の注目領域と重ならず、かつ、前記複数の注目領域のうち最も近い注目領域が当該サブ画像に対応する注目領域となるように決定する配置決定部と、
    前記複数のサブ画像の各々を、決定した配置に従って前記入力画像上に重畳して表示器に表示させる表示制御部と、
    前記複数のサブ画像の前記入力画像の外部における配置を、各サブ画像が、少なくとも他のサブ画像と重ならず、かつ、前記入力画像における前記複数の注目領域の上下方向の位置に従った並び順で前記複数のサブ画像が上下方向に並ぶように決定する画像外配置決定部と、を備え、
    前記表示制御部は、前記配置決定部と前記画像外配置決定部のいずれかを選択する第4操作に応じて表示方法を切り替える機能を有し、前記第4操作により前記画像外配置決定部が選択された場合は、前記画像外配置決定部が決定した配置に従って、前記複数のサブ画像と前記入力画像とを前記表示器に表示させる、画像表示装置。
  9. 画像表示装置において実行される画像表示方法であって、
    前記画像表示装置の検出部が、入力画像から複数の注目領域を検出する工程と、
    前記画像表示装置の生成部が、前記複数の注目領域の画像の各々に対して視認性を向上させる補正を施して、前記複数の注目領域の各々に対応する複数のサブ画像を生成する工程と、
    前記画像表示装置の配置決定部が、前記複数のサブ画像の前記入力画像上における配置を、各サブ画像が、少なくとも他のサブ画像および当該サブ画像に対応する注目領域以外の他の注目領域と重ならず、かつ、前記複数の注目領域のうち最も近い注目領域が当該サブ画像に対応する注目領域となるように決定する工程と、
    前記画像表示装置の認識部が、前記注目領域に含まれる対象に対する認識処理を行う工程と、
    前記画像表示装置の表示制御部が、前記複数のサブ画像の各々を、決定した配置に従って前記入力画像上に重畳して表示器に表示させ、前記認識処理が終了すると、前記認識処理の結果を、前記サブ画像との対応関係を示す画面表現を伴う形式で前記表示器にさらに表示させる工程と、を含み、
    前記検出部は、前記入力画像中で前記認識処理の対象が含まれている確からしさを表すスコアが閾値を超える領域を前記注目領域として検出するものであり、
    前記表示制御部は、前記表示器が表示している前記入力画像中で前記サブ画像が重畳されていない位置を指定した第3操作が行われた場合、指定された位置をピークとして該位置の周辺に向かうに従い減衰するボーナス値を設定し、
    前記検出部は、前記ボーナス値が設定された場合、前記ボーナス値が加算された前記スコアが前記閾値を超える領域を前記注目領域として検出する、画像表示方法。
  10. 画像表示装置において実行される画像表示方法であって、
    前記画像表示装置の検出部が、入力画像から複数の注目領域を検出する工程と、
    前記画像表示装置の生成部が、前記複数の注目領域の画像の各々に対して視認性を向上させる補正を施して、前記複数の注目領域の各々に対応する複数のサブ画像を生成する工程と、
    前記画像表示装置の配置決定部が、前記複数のサブ画像の前記入力画像上における配置を、各サブ画像が、少なくとも他のサブ画像および当該サブ画像に対応する注目領域以外の他の注目領域と重ならず、かつ、前記複数の注目領域のうち最も近い注目領域が当該サブ画像に対応する注目領域となるように決定する工程と、
    前記画像表示装置の表示制御部が、前記複数のサブ画像の各々を、決定した配置に従って前記入力画像上に重畳して表示器に表示させる工程と、
    前記画像表示装置の画像外配置決定部が、前記複数のサブ画像の前記入力画像の外部における配置を、各サブ画像が、少なくとも他のサブ画像と重ならず、かつ、前記入力画像における前記複数の注目領域の上下方向の位置に従った並び順で前記複数のサブ画像が上下方向に並ぶように決定する工程と、を含み、
    前記表示制御部は、前記配置決定部と前記画像外配置決定部のいずれかを選択する第4操作に応じて表示方法を切り替える機能を有し、前記第4操作により前記画像外配置決定部が選択された場合は、前記画像外配置決定部が決定した配置に従って、前記複数のサブ画像と前記入力画像とを前記表示器に表示させる、画像表示方法。
  11. コンピュータに、
    入力画像から複数の注目領域を検出する検出部の機能と、
    前記複数の注目領域の画像の各々に対して視認性を向上させる補正を施して、前記複数の注目領域の各々に対応する複数のサブ画像を生成する生成部の機能と、
    前記複数のサブ画像の前記入力画像上における配置を、各サブ画像が、少なくとも他のサブ画像および当該サブ画像に対応する注目領域以外の他の注目領域と重ならず、かつ、前記複数の注目領域のうち最も近い注目領域が当該サブ画像に対応する注目領域となるように決定する配置決定部の機能と、
    前記注目領域に含まれる対象に対する認識処理を行う認識部の機能と、
    前記複数のサブ画像の各々を、決定した配置に従って前記入力画像上に重畳して表示器に表示させ、前記認識処理が終了すると、前記認識処理の結果を、前記サブ画像との対応関係を示す画面表現を伴う形式で前記表示器にさらに表示させ表示制御部の機能と、を実現させ
    前記検出部は、前記入力画像中で前記認識処理の対象が含まれている確からしさを表すスコアが閾値を超える領域を前記注目領域として検出するものであり、
    前記表示制御部は、前記表示器が表示している前記入力画像中で前記サブ画像が重畳されていない位置を指定した第3操作が行われた場合、指定された位置をピークとして該位置の周辺に向かうに従い減衰するボーナス値を設定し、
    前記検出部は、前記ボーナス値が設定された場合、前記ボーナス値が加算された前記スコアが前記閾値を超える領域を前記注目領域として検出する、プログラム。
  12. コンピュータに、
    入力画像から複数の注目領域を検出する検出部の機能と、
    前記複数の注目領域の画像の各々に対して視認性を向上させる補正を施して、前記複数の注目領域の各々に対応する複数のサブ画像を生成する生成部の機能と、
    前記複数のサブ画像の前記入力画像上における配置を、各サブ画像が、少なくとも他のサブ画像および当該サブ画像に対応する注目領域以外の他の注目領域と重ならず、かつ、前記複数の注目領域のうち最も近い注目領域が当該サブ画像に対応する注目領域となるように決定する配置決定部の機能と、
    前記複数のサブ画像の各々を、決定した配置に従って前記入力画像上に重畳して表示器に表示させる表示制御部の機能と、
    前記複数のサブ画像の前記入力画像の外部における配置を、各サブ画像が、少なくとも他のサブ画像と重ならず、かつ、前記入力画像における前記複数の注目領域の上下方向の位置に従った並び順で前記複数のサブ画像が上下方向に並ぶように決定する画像外配置決定部の機能と、を実現させ、
    前記表示制御部は、前記配置決定部と前記画像外配置決定部のいずれかを選択する第4操作に応じて表示方法を切り替える機能を有し、前記第4操作により前記画像外配置決定部が選択された場合は、前記画像外配置決定部が決定した配置に従って、前記複数のサブ画像と前記入力画像とを前記表示器に表示させる、プログラム。
JP2013227350A 2013-10-31 2013-10-31 画像表示装置、画像表示方法およびプログラム Active JP6419421B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2013227350A JP6419421B2 (ja) 2013-10-31 2013-10-31 画像表示装置、画像表示方法およびプログラム
US14/454,051 US10296803B2 (en) 2013-10-31 2014-08-07 Image display apparatus, image display method, and computer program product
CN201410386716.XA CN104598018B (zh) 2013-10-31 2014-08-07 图像显示装置以及图像显示方法
EP20140180631 EP2869237A1 (en) 2013-10-31 2014-08-12 Image display apparatus, image display method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013227350A JP6419421B2 (ja) 2013-10-31 2013-10-31 画像表示装置、画像表示方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015088046A JP2015088046A (ja) 2015-05-07
JP6419421B2 true JP6419421B2 (ja) 2018-11-07

Family

ID=51392057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013227350A Active JP6419421B2 (ja) 2013-10-31 2013-10-31 画像表示装置、画像表示方法およびプログラム

Country Status (4)

Country Link
US (1) US10296803B2 (ja)
EP (1) EP2869237A1 (ja)
JP (1) JP6419421B2 (ja)
CN (1) CN104598018B (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160042233A1 (en) * 2014-08-06 2016-02-11 ProSent Mobile Corporation Method and system for facilitating evaluation of visual appeal of two or more objects
JP6342298B2 (ja) 2014-10-31 2018-06-13 株式会社東芝 文字認識装置、画像表示装置、画像検索装置、文字認識方法およびプログラム
US10671837B2 (en) 2015-09-08 2020-06-02 Nec Corporation Face recognition system, face recognition method, display control apparatus, display control method, and display control program
KR20180014586A (ko) * 2016-08-01 2018-02-09 삼성전자주식회사 사용자 입력에 대응하는 섬네일을 출력하는 전자 장치 및 방법
JP6408055B2 (ja) * 2017-03-22 2018-10-17 株式会社東芝 情報処理装置、方法及びプログラム
JP2019153104A (ja) * 2018-03-05 2019-09-12 東芝テック株式会社 販売データ処理装置、情報処理装置およびプログラム
US20200074707A1 (en) * 2018-09-04 2020-03-05 Nvidia Corporation Joint synthesis and placement of objects in scenes
US10964112B2 (en) * 2018-10-12 2021-03-30 Mapbox, Inc. Candidate geometry displays for augmented reality
US11461976B2 (en) 2018-10-17 2022-10-04 Mapbox, Inc. Visualization transitions for augmented reality
JP7250275B2 (ja) * 2019-03-27 2023-04-03 株式会社ブレイン 食事識別システムと識別プログラム
US11238833B2 (en) * 2020-05-26 2022-02-01 Caterpillar Inc. Methods and systems for display screens with relative coordinate systems
CN112214188B (zh) * 2020-09-11 2024-06-07 西安万像电子科技有限公司 图像的处理方法、装置、存储介质和处理器
US11468818B1 (en) * 2022-02-10 2022-10-11 Kyndryl, Inc. Brightness adaptation
JP7402458B1 (ja) 2023-06-26 2023-12-21 株式会社ルクレ 工事記録写真管理装置

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4744026A (en) 1986-04-11 1988-05-10 American Telephone And Telegraph Company, At&T Bell Laboratories Methods and apparatus for efficient resource allocation
JPH06325205A (ja) * 1993-05-18 1994-11-25 Hitachi Micom Syst:Kk 文字認識装置およびその認識実行領域指定方法
WO2001026041A1 (fr) * 1999-10-06 2001-04-12 Fujitsu Limited Dispositif et procede de reconnaissance de caracteres presents sur des images
JP2002109510A (ja) * 2000-09-27 2002-04-12 Fuji Photo Film Co Ltd 異常陰影候補検出処理システム
US20020164070A1 (en) * 2001-03-14 2002-11-07 Kuhner Mark B. Automatic algorithm generation
JP2003108925A (ja) 2001-09-29 2003-04-11 Toshiba Corp 文字読取装置及び文字読取方法
JP4167205B2 (ja) 2004-06-22 2008-10-15 松下電器産業株式会社 表示制御装置及び表示制御方法
JP2006164031A (ja) * 2004-12-09 2006-06-22 Canon Inc 帳票処理装置及び方法
US7792353B2 (en) 2006-10-31 2010-09-07 Hewlett-Packard Development Company, L.P. Retraining a machine-learning classifier using re-labeled training samples
JP4794584B2 (ja) * 2007-03-30 2011-10-19 カシオ計算機株式会社 撮像装置、画像表示装置、及びそのプログラム
KR101423916B1 (ko) 2007-12-03 2014-07-29 삼성전자주식회사 복수의 얼굴 인식 방법 및 장치
KR101009881B1 (ko) * 2008-07-30 2011-01-19 삼성전자주식회사 재생되는 영상의 타겟 영역을 확대 디스플레이하기 위한장치 및 방법
JP2010124120A (ja) * 2008-11-18 2010-06-03 Fujinon Corp オートフォーカスシステム
US20100135562A1 (en) * 2008-11-28 2010-06-03 Siemens Computer Aided Diagnosis Ltd. Computer-aided detection with enhanced workflow
GB0901351D0 (en) 2009-01-28 2009-03-11 Univ Dundee System and method for arranging items for display
KR101170882B1 (ko) * 2010-08-12 2012-08-03 팅크웨어(주) 관심지점 표시장치 및 방법
US20120050316A1 (en) 2010-08-31 2012-03-01 Nokia Corporation Methods and apparatuses for enhancing wallpaper display
JP5216828B2 (ja) * 2010-09-29 2013-06-19 株式会社東芝 画像処理装置、方法及びプログラム
US20120092329A1 (en) * 2010-10-13 2012-04-19 Qualcomm Incorporated Text-based 3d augmented reality
JP5503507B2 (ja) * 2010-11-17 2014-05-28 日本放送協会 文字領域検出装置およびそのプログラム
US20120220855A1 (en) * 2011-02-24 2012-08-30 Siemens Corporation Method and System for MR Scan Range Planning
KR101863925B1 (ko) * 2011-07-01 2018-07-05 엘지전자 주식회사 이동 단말기 및 그 제어방법
JP5826026B2 (ja) * 2011-12-28 2015-12-02 キヤノン株式会社 撮像装置およびその制御方法
US8704948B2 (en) * 2012-01-18 2014-04-22 Eldon Technology Limited Apparatus, systems and methods for presenting text identified in a video image
US9336456B2 (en) * 2012-01-25 2016-05-10 Bruno Delean Systems, methods and computer program products for identifying objects in video data
US9292759B2 (en) * 2012-05-07 2016-03-22 Xerox Corporation Methods and systems for optimized parameter selection in automated license plate recognition
CN105432071B (zh) * 2013-09-12 2019-04-23 英特尔公司 用于提供增强现实视图的技术
TWI543117B (zh) * 2014-06-18 2016-07-21 台達電子工業股份有限公司 物件辨識與定位方法

Also Published As

Publication number Publication date
US20150116349A1 (en) 2015-04-30
CN104598018A (zh) 2015-05-06
JP2015088046A (ja) 2015-05-07
CN104598018B (zh) 2018-12-11
EP2869237A1 (en) 2015-05-06
US10296803B2 (en) 2019-05-21

Similar Documents

Publication Publication Date Title
JP6419421B2 (ja) 画像表示装置、画像表示方法およびプログラム
US10360473B2 (en) User interface creation from screenshots
JP7033208B2 (ja) 証明文書認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体
CN107003994B (zh) 用于修正手写字符的方法和设备
JP4694613B2 (ja) 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体
US20210064859A1 (en) Image processing system, image processing method, and storage medium
US11347962B2 (en) Electronic apparatus, method for processing image and computer-readable recording medium
US9983764B2 (en) Method, electronic device, and non-transitory storage medium for adjusting icons
US20150220769A1 (en) Striped pattern image examination support device, striped pattern image examination support method and program
US10296802B2 (en) Image processing device, image processing method, and computer program product
JP5377743B1 (ja) 電子機器および手書き文書処理方法
KR20130112410A (ko) 펜 방식의 디스플레이장치에서 좌표 검출 장치 및 방법
KR20190119220A (ko) 전자 장치 및 그 제어 방법
JP5347793B2 (ja) 文字認識装置、文字認識プログラムおよび文字認識方法
JP5365408B2 (ja) 移動体認識装置、移動体認識方法及びプログラム
JP6883199B2 (ja) 画像処理装置、画像読み取り装置、および、プログラム
US20140212043A1 (en) Character display apparatus, character display method, and computer readable medium
CN115114481A (zh) 文档格式转换方法、装置、存储介质及设备
JP6373664B2 (ja) 電子機器、方法及びプログラム
JP2022185872A (ja) 画像処理装置、画像処理方法、撮像装置
JP2021005147A (ja) データセット作成方法、データセット作成システム、計算システム、ワークシート、クライアント装置、サーバ装置及びプログラム
US11113531B2 (en) Annotation device, annotation method, and non-transitory computer-readable storage medium
JP7512798B2 (ja) 情報処理装置及びコンピュータプログラム
WO2023188160A1 (ja) 入力支援装置、入力支援方法、及び非一時的なコンピュータ可読媒体
US20220130140A1 (en) Information presentation method, information presentation device and program

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20151102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160923

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180911

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181010

R150 Certificate of patent or registration of utility model

Ref document number: 6419421

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150