JP6419421B2

JP6419421B2 - 画像表示装置、画像表示方法およびプログラム

Info

Publication number: JP6419421B2
Application number: JP2013227350A
Authority: JP
Inventors: 浜田　伸一郎; 伸一郎浜田; 邦男長田; 鈴木　薫; 薫鈴木; 三原　功雄; 功雄三原; 洋次郎登内
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2013-10-31
Filing date: 2013-10-31
Publication date: 2018-11-07
Anticipated expiration: 2033-10-31
Also published as: US20150116349A1; CN104598018A; JP2015088046A; CN104598018B; EP2869237A1; US10296803B2

Description

本発明の実施形態は、画像表示装置、画像表示方法およびプログラムに関する。

従来、入力画像に対して文字認識やオブジェクト認識などの認識処理を行い、認識処理の結果を入力画像に重畳して表示する技術が知られている。この技術を適用した画像表示装置は、入力画像の中でユーザが関心を持つことが推察される対象を、理解しやすいかたちでユーザに提示することができる。しかし、画像に対する認識処理は結果が得られるまでに時間を要することから、例えば、携帯端末のカメラで撮像された情景画像を入力画像とするアプリケーションなどでは、応答性の観点から改善が求められている。

特開２００３−１０８９２５号公報

本発明が解決しようとする課題は、入力画像の中でユーザが関心を持つことが推察される対象を、応答性よく、理解しやすいかたちでユーザに提示できる画像表示装置、画像表示方法およびプログラムを提供することである。

実施形態の画像表示装置は、検出部と、生成部と、配置決定部と、認識部と、表示制御部と、を備える。検出部は、入力画像から複数の注目領域を検出する。生成部は、前記複数の注目領域の画像の各々に対して視認性を向上させる補正を施して、前記複数の注目領域の各々に対応する複数のサブ画像を生成する。配置決定部は、前記複数のサブ画像の前記入力画像上における配置を、各サブ画像が、少なくとも他のサブ画像および当該サブ画像に対応する注目領域以外の他の注目領域と重ならず、かつ、前記複数の注目領域のうち最も近い注目領域が当該サブ画像に対応する注目領域となるように決定する。認識部は、前記注目領域に含まれる対象に対する認識処理を行う。表示制御部は、前記複数のサブ画像の各々を、決定した配置に従って前記入力画像上に重畳して表示器に表示させ、前記認識処理が終了すると、前記認識処理の結果を、前記サブ画像との対応関係を示す画面表現を伴う形式で前記表示器にさらに表示させる。前記検出部は、前記入力画像中で前記認識処理の対象が含まれている確からしさを表すスコアが閾値を超える領域を前記注目領域として検出するものであり、前記表示制御部は、前記表示器が表示している前記入力画像中で前記サブ画像が重畳されていない位置を指定した第３操作が行われた場合、指定された位置をピークとして該位置の周辺に向かうに従い減衰するボーナス値を設定し、前記検出部は、前記ボーナス値が設定された場合、前記ボーナス値が加算された前記スコアが前記閾値を超える領域を前記注目領域として検出する。

図１は、第１実施形態の画像表示装置の構成例を示すブロック図である。図２は、入力画像の具体例を示す図である。図３は、オブジェクト検出器の処理手順の一例を示すフローチャートである。図４は、図３のステップＳ１０８およびステップＳ１０９の処理を説明する図である。図５は、図２の入力画像に対して検出部が処理を行った場合の検出結果例を示す図である。図６は、正対補正器の処理手順の一例を示すフローチャートである。図７は、色補正器の処理手順の一例を示すフローチャートである。図８は、サブ画像近接配置プランナの処理手順の一例を示すフローチャートである。図９は、近接配置プラン最適化モデルの一例を示す図である。図１０は、図５の検出結果例において、近接配置プラン最適化モデルの解として得られた配置プラン情報に従ってサブ画像を配置した例を示す図である。図１１は、注目領域（領域画像）と対応するサブ画像との距離の算出方法を説明する図である。図１２は、サブ画像表示制御部の処理手順の一例を示すフローチャートである。図１３は、認識結果表示制御部による処理の結果として表示器に表示される画像の一例を示す図である。図１４は、false-positiveな検出誤りの訂正の処理手順の一例を示すフローチャートである。図１５は、false-negativeな検出誤りの訂正の処理手順の一例を示すフローチャートである。図１６は、未検出の訂正の処理手順の一例を示すフローチャートである。図１７は、サブ画像ゾーンボーナスを説明する図である。図１８は、第２実施形態の画像表示装置の構成例を示すブロック図である。図１９は、サブ画像重畳配置プランナの処理手順の一例を示すフローチャートである。図２０は、重畳配置プラン最適化モデルの一例を示す図である。図２１は、重畳配置プラン最適化モデルの解として得られた配置プラン情報に従ってサブ画像を配置した例を示す図である。図２２は、注目領域（領域画像）と対応するサブ画像との距離の算出方法を説明する図である。図２３は、認識結果表示制御部による処理の結果として表示器に表示される画像の一例を示す図である。図２４は、第３実施形態の画像表示装置の構成例を示すブロック図である。図２５は、サブ画像表示制御部の処理の結果として表示器に表示される画像の一例を示す図である。図２６は、認識結果表示制御部の処理の結果として表示器に表示される画像の一例を示す図である。図２７は、画像表示装置のハードウェア構成を説明する図である。

以下、実施形態の画像表示装置、画像表示方法およびプログラムを詳細に説明する。以下で示す実施形態は、例えばカメラで撮像された情景画像を入力し、この情景画像に対して文字認識やオブジェクト認識などの認識処理を行って、その認識結果を情景画像とともに表示する機能を有する画像表示装置への適用例である。以下、このような機能を情景画像認識と呼ぶ。なお、実施形態として適用可能な画像表示装置は情景画像認識の機能を持つものに限らず、入力画像を表示するあらゆる画像表示装置に適用できる。

情景画像認識の典型的なアプリケーションの１つは、スマートフォンなどのカメラ付き携帯端末への適用である。ユーザが情景に対してカメラをかざすと、当該端末は、カメラが捉えた情景画像に対し文字やオブジェクトの認識を行い、情景画像上に文字列などの認識結果を重畳した画像を表示器に表示する。車載装置への適用も典型的アプリケーションの１つである。車前方に取り付けられたカメラが捉えた情景画像に対して文字やオブジェクトの認識を行い、フロントウィンドウの情景に認識結果を重畳表示する。

情景画像認識においては、文字認識やオブジェクト認識などの認識処理における認識誤りのエラーと、情景画像から認識処理の対象となる文字やオブジェクトが含まれる領域（以下、注目領域という。）を検出する際の検出誤りのエラーと、が生じ得る。このため、実用的なアプリケーションを実現するためには、認識誤りに対するリカバリ機能［Ａ１］と、注目領域の検出誤りに対するリカバリ機能［Ａ２］と、を準備することが求められる。

また、情景画像認識で扱われる情景画像は、広域画像化、高解像度化される傾向にある。このため、今後の情景画像認識では、さらに以下に示す問題点に対する対応策が求められる。

情景画像の高解像度化に伴い、文字認識やオブジェクト認識などの認識処理に要する時間が増大し、応答性の低下が問題となる。応答性は情景画像認識の利便性に大きな影響を与えるため、認識処理による応答性の低下を補う機能［Ｂ］の実現が望まれる。

情景画像の広域画像化に伴い、情景画像全体の中で注目領域が占める割合が小さくなる。また、１つの情景画像から多数の注目領域が検出されるケースも多くなる。このような状況では、認識結果を単純に情景画像に重畳表示するだけでは、認識結果の見落としが生じやすくなる。このため、適切な注視誘導を行う機能［Ｃ］の実現が望まれる。

情景画像が高解像度化する一方であるのに対し、表示器（特に携帯端末の表示器）は大きさが制限されるため、注目領域の画像は細密となり、特に老人や目の不自由な人にとって、注目領域にある対象を確認することが困難となる。このため、注目領域の閲覧性を補助する機能［Ｄ］の実現が望まれる。

本実施形態では、上記の［Ａ１］，［Ａ２］，［Ｂ］，［Ｃ］，［Ｄ］のすべての機能を実現した情景画像認識による画像表示を提案する。

実施形態の画像表示装置は、まず、入力画像（本実施形態では情景画像）から、文字認識の対象となる文字やオブジェクト認識の対象となるオブジェクトが含まれる注目領域をすべて検出する。次に、画像表示装置は、検出した各注目領域の画像に対して、サイズ補正・正対補正・色補正などの視認性を向上させる補正を施して、各注目領域に対応するサブ画像をそれぞれ生成する。次に、画像表示装置は、生成した各サブ画像を、元になる注目領域との対応関係が分かるような画面表現を用いて、入力画像とともに表示器に表示させる。また、画像表示装置は、生成した各サブ画像に含まれる文字やオブジェクトに対する認識処理を行い、認識処理が終了した時点で、その認識結果を、サブ画像との対応関係が分かるような画面表現を用いて、表示器にさらに表示させる。

このように、実施形態の画像表示装置は、注目領域に含まれる文字やオブジェクトに対する認識処理を行う前に、注目領域の画像の視認性を向上させたサブ画像を生成して、注目領域との対応関係が分かるように表示器に表示させる。これにより、サブ画像は、認識結果のプレビューの役割を果たすこととなり、認識処理による応答性の低下を補う機能［Ｂ］が実現される。また、サブ画像は、注目領域との対応関係が分かるように表示されるため、適切な注視誘導を行う機能［Ｃ］が実現される。さらに、サブ画像は、注目領域の画像の視認性を向上させた画像であるため、注目領域の閲覧性を補助する機能［Ｄ］も実現される。

また、仮に文字やオブジェクトの認識処理に誤りが生じていた場合には、サブ画像を参照することで正解を確認できるので、認識誤りに対するリカバリ機能［Ａ１］が実現される。

実施形態の画像表示装置は、入力画像から検出した注目領域のうち、予め定めた規則に従って、認識処理を行う注目領域を選択するようにしてもよい。この場合、認識処理を行うものとして選択された注目領域から生成したサブ画像（第１サブ画像）と、認識処理を行わない注目領域から生成したサブ画像（第２サブ画像）とを、異なる表示形態で表示器に表示させることが望ましい。例えば、第１サブ画像は、右上に「×」ボタンが付加された透明度の低い画像として表示させ、第２サブ画像は、第１サブ画像よりも透明度が高い（下の入力画像が透けて見える）画像として表示させる。

この場合、ユーザは、第１サブ画像に対応する注目領域を認識処理の対象とすべきでないと判断したら、例えば「×」ボタンを操作することで、その注目領域を認識処理の対象としない扱いに変更できる。また、ユーザは、第２サブ画像に対応する注目領域を認識処理の対象とすべきと判断したら、例えば第２サブ画像が配置されている領域をクリックすることで、その注目領域を認識処理の対象とする扱いに変更できる。これらのユーザの操作は、その時点での画面表示に反映されるほか、注目領域を検出する検出部を再訓練するための事例として用いることで、次回以降の利用における検出制度の改善効果をもたらす。これにより、注目領域の検出誤りに対するリカバリ機能［Ａ２］が実現される。

以上のように、実施形態の画像表示装置は、認識誤りに対するリカバリ機能［Ａ１］、注目領域の検出誤りに対するリカバリ機能［Ａ２］、認識処理による応答性の低下を補う機能［Ｂ］、適切な注視誘導を行う機能［Ｃ］、および注目領域の閲覧性を補助する機能［Ｄ］のすべてを実現し、入力画像の中でユーザが関心を持つことが推察される対象を、理解しやすいかたちでユーザに提示することができる。以下では、図面を参照しながら、実施形態の画像表示装置の具体例をより詳細に説明する。

（第１実施形態）
図１は、第１実施形態の画像表示装置の構成例を示すブロック図である。第１実施形態の画像表示装置は、図１に示すように、メインシステム１００と、検出部トレーナ２００と、認識部トレーナ３００と、を備える。

メインシステム１００は、本実施形態の画像表示装置の中核をなすシステムである。メインシステム１００は、入力画像から注目領域を検出し、検出した注目領域の画像に対して視認性を高める補正を行ってサブ画像を生成する。そして、メインシステム１００は、生成したサブ画像を入力画像とともに表示する。さらに、メインシステム１００は、検出した注目領域に対する認識処理を行って、その認識結果を表示する。

検出部トレーナ２００および認識部トレーナ３００は、メインシステム１００の検出機能および認識機能において用いられる識別モデル群を訓練するサブシステムである。これら検出部トレーナ２００および認識部トレーナ３００は、メインシステム１００の利用の前に一度、識別モデル群を訓練する処理を予め実行しておけばよい。ただし、メインシステム１００からの呼び出しによって、メインシステム１００が利用されている間に実行されることもある。

以下では、メインシステム１００の詳細を説明し、その説明の中で、検出部トレーナ２００および認識部トレーナ３００についても言及する。

図１に示すように、メインシステム１００は、検出部１１０と、生成部１２０と、サブ画像近接配置プランナ１３０と、認識部１４０と、表示制御部１５０と、表示器１６０と、を備える。なお、図１中の角丸四角形は、メインシステム１００を構成する上記各モジュール１１０〜１５０の入出力データを表している。

検出部１１０は、入力画像Ｄ１を受け取り、その入力画像Ｄ１から、注目すべき対象が存在する領域である注目領域をすべて検出する。そして、検出部１１０は、入力画像Ｄ１から検出した注目領域の画像を、検出時のスコアと併せて出力する。検出部１１０の出力を、スコア付領域画像群Ｄ２と呼ぶ。

図２は、入力画像Ｄ１の具体例を示す図である。本実施形態では、カメラで撮像された情景画像を、入力画像Ｄ１とする。注目すべき対象の例としては、文字のほか、犬・猫・食べ物・ロゴマークなどのオブジェクトが挙げられる。

本実施形態では、共通性のある事物ごとに独立したサブモジュールで処理する設計を取っている。例として、ロゴマークと文字とを検出対象とするものとし、ロゴマークについてはオブジェクト検出器１１１で検出し、文字については文字領域検出器１１２で検出する。

オブジェクト検出器１１１および文字領域検出器１１２の検出結果は、スコア付領域画像群Ｄ２として出力される。ロゴマークを含む領域の画像と文字領域の画像とは区別可能な状態で出力されるため、実際には２種類の出力があると言えるが、ここではそれらを併せてスコア付領域画像群Ｄ２としている。

なお、スコア付領域画像群Ｄ２は、入力画像Ｄ１の一部をなす画像群のことであり、位置（ＸＹ座標）およびサイズを持っている。これに対して、後述するスコア付サブ画像群Ｄ３は、入力画像Ｄ１とは独立した存在であり、サイズは持っているが、配置処理が行われるまでは位置（ＸＹ座標）は不定である。

図３は、オブジェクト検出器１１１の処理手順の一例を示すフローチャートである。オブジェクト検出器１１１は、入力画像Ｄ１が入力されると、以下のステップＳ１０１〜ステップＳ１１１の処理を行って、スコア付領域画像群Ｄ２を出力する。

ステップＳ１０１：オブジェクト検出器１１１は、スライド窓を入力画像Ｄ１の左上にセットする。

ステップＳ１０２：オブジェクト検出器１１１は、スライド窓に該当する画像を抽出する。

ステップＳ１０３：オブジェクト検出器１１１は、抽出した画像を二値分類器にかける。二値分類器は、対象画像がオブジェクトの一部かどうかを判定し、その確信度を表すスコアを出力するものである。この二値分類器が出力するスコアを局所スコアと呼ぶ。

ステップＳ１０４：オブジェクト検出器１１１は、二値分類器が出力する局所スコアが第１閾値以上か否かを判定する。そして、判定の結果がＹｅｓであればステップＳ１０５に進み、ＮｏであればステップＳ１０６に進む。

ステップＳ１０５：オブジェクト検出器１１１は、スライド窓の現在の矩形領域を、局所スコアと併せて検出済局所領域バッファＢ１に追加登録する。

ステップＳ１０６：オブジェクト検出器１１１は、スライド窓を次の位置に移動させる。

ステップＳ１０７：オブジェクト検出器１１１は、スライド窓が入力画像Ｄ１の右下に達したか否かを判定する。そして、判定の結果がＹｅｓであればステップＳ１０８に進み、ＮｏであればステップＳ１０２に戻る。

ステップＳ１０８：オブジェクト検出器１１１は、検出済み局所領域バッファＢ１に登録された矩形領域群のうち、連結している領域同士が１つのクラスタとなるようにクラスタリングするとともに、各領域の局所スコアの平均を取って統合スコアを算出する。なお平均計算では、面積に基づく重み付けを行ってもよい。

ステップＳ１０９：オブジェクト検出器１１１は、ステップＳ１０８で作成されたクラスタそれぞれについて、クラスタのメンバーである各矩形領域の外接矩形を求め、統合スコアと併せて検出済統合領域バッファＢ２に追加登録する。

ステップＳ１１０：オブジェクト検出器１１１は、ステップＳ１０８で作成されたすべてのクラスタについて、ステップＳ１０９の処理の処理が終了したか否かを判定する。そして、判定の結果がＹｅｓであればステップＳ１１１に進み、ＮｏであればステップＳ１０９に戻る。

ステップＳ１１１：オブジェクト検出器１１１は、検出済統合領域バッファＢ２に登録されている各矩形領域に位置する画像と統合スコアとのペアを、スコア付領域画像群Ｄ２として出力する。

図４は、上記ステップＳ１０８およびステップＳ１０９の処理を説明する図である。図４の例では、上記ステップＳ１０８において、図４（ａ）に示す矩形領域０４０１，０４０２，０４０３，０４０４と、矩形領域０４０５，０４０６と、矩形領域０４０７，０４０８，０４０９，０４１０，０４１１とがそれぞれ１つのクラスタとなるようにクラスタリングされる。そして、矩形領域０４０１，０４０２，０４０３，０４０４のクラスタの統合スコアとして０．７５が算出され、矩形領域０４０５，０４０６のクラスタの統合スコアとして０．８０が算出され、矩形領域０４０７，０４０８，０４０９，０４１０，０４１１の統合スコアとして０．５５が算出される。また、上記ステップＳ１０９において、図４（ｂ）に示すように、クラスタごとに外接矩形を求めることで、個々のオブジェクトを含む注目領域（統合領域）が検出され、統合スコアとともに検出済統合領域バッファＢ２に登録される。なお、統合スコアは、その値が大きいほど、その注目領域にオブジェクトが含まれている確信度が高いことを示している。

上記ステップＳ１０３で用いた二値分類器は、検出部トレーナ２００によって訓練された識別モデルを用いる。したがって、メインシステム１００の利用前に一度、検出部トレーナ２００を実行しておき、識別モデルを作成しておく必要がある。

この識別モデルは、ロゴマークの識別モデル、文字の識別モデルなど、認識対象のカテゴリごとに用意する。検出部トレーナ２００による識別モデルの訓練は、正例用画像群２１０と負例用画像群２２０とを用いて行う。正例用画像群２１０は、該当するカテゴリの対象が含まれる画像をスライド窓のサイズでくりぬいた画像群であり、負例用画像群２２０は、該当するカテゴリの対象が含まれない画像をスライド窓のサイズでくりぬいた画像群である。これらを正例および負例として用いて、ＳＶＭ（Support Vector Machine）などの二値分類器の識別モデルを訓練する。

文字領域検出器１１２は、上述したオブジェクト検出器１１１とほぼ同じ方法で、入力画像Ｄ１から文字領域を検出し、スコア付領域画像群Ｄ２を出力することができる。このため、文字領域検出器１１２による処理については、詳細な説明を省略する。

図５は、図２に示した入力画像Ｄ１に対して検出部１１０（オブジェクト検出器１１１および文字領域検出器１１２）が処理を行った場合の検出結果例を示す図である。図５中の実線で囲まれた領域が文字領域検出器１１２により検出された注目領域であり、破線で囲まれた領域がオブジェクト検出器１１１により検出された注目領域である。

生成部１２０は、スコア付領域画像群Ｄ２を受け取り、スコア付領域画像群Ｄ２に含まれる各領域画像に対して視認性を向上させるための補正を施してサブ画像を生成し、各サブ画像に統合スコアを併せたスコア付サブ画像群Ｄ３を出力する。

本実施形態では、視認性を向上させるための補正として、サイズ補正、正対補正、色補正の３種類を用意しており、これらのうちの少なくとも１つの補正を適用する。それぞれの処理を行うのが、サイズ補正器１２１、正対補正器１２２、および色補正器１２３の３つのサブモジュールであり、いずれも画像を入力として受け取り、補正結果の画像を出力するインターフェースとなっている。２つ以上の補正を適用する場合は、これらサブモジュールの入出力を直列に結合すればよい。以下では、これらサブモジュールの処理を個別に説明する。

サイズ補正器１２１は、入力された画像を、見やすいサイズにズームアップまたはズームダウンする機能である。例えば、検出部１１０の文字領域検出器１１２によって検出された文字領域が非常に小さかった場合、そこに何が書いてあるのか人間にとって視認しづらいことがありうる。この場合、サイズ補正器１２１は、人間が視認しやすいサイズまでズームアップしたものを、補正結果として出力する。なお、適正なサイズの決定方法の１つとして、縦横の画素数を積算した面積について予め満たすべき範囲を定めておくなど、大きさに関する何らかのルールを予め定めておく方法がある。

正対補正器１２２は、入力された画像に含まれる文字やオブジェクトなどの対象の回転や歪みを補正し、対象を正面から撮影したような画像に変換して出力する。

図６は、正対補正器１２２の処理手順の一例を示すフローチャートである。正対補正器１２２は、入力された画像に対して、以下のステップＳ２０１〜ステップＳ２０７の処理を行って、サブ画像を出力する。

ステップＳ２０１：正対補正器１２２は、入力された画像を正方形に正規化した画像を生成する。以下、正規化した画像を正規化画像という。

ステップＳ２０２：正対補正器１２２は、ステップＳ２０１で生成した正規化画像をグレースケール画像に変換する。ここでは、正規化画像がＲＧＢカラー画像であれば、各画素のＲ，Ｇ，Ｂの平均値をグレースケール画像の画素値にセットすることで、グレースケールへの変換を行う。一方、正規化画像が元々グレースケール画像であれば、各画素値をそのままグレースケール変換済み画像の画素値にセットする。

ステップＳ２０３：正対補正器１２２は、ステップＳ２０２で生成したグレースケール変換済み画像のエッジ特徴を抽出する。このエッジ特徴は、グレースケール変換済み画像をブロック分割し、各ブロックにおけるエッジ強度の総和を算出した上で、各ブロックのエッジ強度の総和を束ねたものである。エッジ強度は、公知のソーベル・フィルタを用いて算出することができる。

ステップＳ２０４：正対補正器１２２は、ステップＳ２０３で抽出したエッジ特徴と、射影変換パラメータ辞書Ｐ１中の辞書エッジ特徴とを比較し、もっとも類似した辞書エッジ特徴に対応付けられた射影変換パラメータを得る。ここでは、エッジ特徴と辞書エッジ特徴との類似尺度としてコサイン類似度を用いる。

射影変換パラメータ辞書Ｐ１には、辞書エッジ特徴と射影変換パラメータの対が１つ以上格納されている。辞書エッジ特徴と射影変換パラメータは、教示用（訓練用）の画像データを用いて事前に生成しておく。画像を射影変換する方法や射影変換パラメータの算出方法については、画像における任意の４点の座標と、該４点を射影変換した対応点の座標を与えれば算出できることが一般的に知られている（下記の参考文献を参照）。
参考文献：財団法人画像情報教育振興協会，「ディジタル画像処理（第一版一刷）」，２００４年，ｐ．１６３−１６４、１７１

ステップＳ２０５：正対補正器１２２は、ステップＳ２０４で得られた射影変換パラメータを用いて、正規化画像を射影変換する。

ステップＳ２０６：正対補正器１２２は、ステップＳ２０５で射影変換した画像の高さと幅を、入力された画像と同じ高さと幅にスケーリングする。

ステップＳ２０７：正対補正器１２２は、ステップＳ２０６でスケーリングした画像をサブ画像として出力する。

色補正器１２３は、例えば、入力された画像の陰影をキャンセルすることによって画像の色を補正し、サブ画像として出力する。

図７は、色補正器１２３の処理手順の一例を示すフローチャートである。色補正器１２３は、入力された画像に対して、以下のステップＳ３０１〜ステップＳ３０７の処理を行って、サブ画像を出力する。

ステップＳ３０１：色補正器１２３は、入力された画像をグレースケール画像に変換する。ここでは、入力された画像がＲＧＢカラー画像であれば、各画素のＲ，Ｇ，Ｂの平均値をグレースケール画像の画素値にセットすることで、グレースケールへの変換を行う。一方、入力された画像が元々グレースケール画像であれば、各画素値をそのままグレースケール変換済み画像の画素値にセットする。

ステップＳ３０２：色補正器１２３は、入力された画像、ステップＳ３０１で生成したグレースケール変換済み画像、および出力となるサブ画像のそれぞれについて、注目画素を画像の左上にセットする。以下、入力された画像における注目画素を単に注目画素といい、グレースケール変換済み画像における注目画素をグレー注目画素といい、サブ画像における注目画素をサブ注目画素という。

ステップＳ３０３：色補正器１２３は、グレー注目画素を中心とした矩形窓内の平均画素値を算出する。

ステップＳ３０４：色補正器１２３は、注目画素の画素値をステップＳ３０３で算出した平均画素値で除算した値を、サブ注目画素の画素値とする。このとき、入力された画像がＲＧＢカラー画像であって、注目画素の画素値がＲ，Ｇ，Ｂなどの複数のチャネルごとに値を持つなら、チャンネルごとに平均値との除算を行う。

ステップＳ３０５：色補正器１２３は、注目画素、グレー注目画素、およびサブ注目画素をそれぞれ画像の次の位置に移動させる。

ステップＳ３０６：色補正器１２３は、注目画素、グレー注目画素、およびサブ注目画素のそれぞれが画像の右下に達したか否かを判定する。そして、判定の結果がＹｅｓであればステップＳ３０７に進み、ＮｏであればステップＳ３０３に戻る。

ステップＳ３０７：色補正器１２３は、すべての画素値がセットされたサブ画像を出力する。

サブ画像近接配置プランナ１３０は、サブ画像をその元になった注目領域の近傍に配置するための配置プラン最適化の数学モデルを解くことで、サブ画像を入力画像Ｄ１上に重畳する際の位置を決定するモジュールである。サブ画像近接配置プランナ１３０は、スコア付領域画像群Ｄ２およびスコア付サブ画像群Ｄ３を入力として受け取り、スコア付サブ画像群Ｄ３に含まれる各サブ画像の最適な配置を決定し、その配置プラン情報を含む、配置プラン付サブ画像群Ｄ４を出力する。

図８は、サブ画像近接配置プランナ１３０の処理手順の一例を示すフローチャートである。サブ画像近接配置プランナ１３０は、スコア付領域画像群Ｄ２およびスコア付サブ画像群Ｄ３を用いて、以下のステップＳ４０１〜ステップＳ４０８の処理を行って、サブ画像の配置プラン情報を求め、配置プラン付サブ画像群Ｄ４を出力する。

ステップＳ４０１：サブ画像近接配置プランナ１３０は、例えば図９に示す近接配置プラン最適化モデルＭ１を解く。なお、図９に示す近接配置プラン最適化モデルＭ１については、詳細を後述する。

ステップＳ４０２：サブ画像近接配置プランナ１３０は、ステップＳ４０１での処理で解が得られたか否かを判定する。そして、判定の結果がＹｅｓであればステップＳ４０４に進み、ＮｏであればステップＳ４０３に進む。解が得られないというのは、スコア付領域画像群Ｄ２に含まれる各領域画像とスコア付サブ画像群Ｄ３に含まれる各サブ画像とが互いに重なり合わないという制約のもと、サブ画像をその元となった注目領域の近くに配置することができないことを意味している。そこで、解が得られない場合は、配置対象となるサブ画像を間引きする戦略を取る。

ステップＳ４０３：サブ画像近接配置プランナ１３０は、スコア付サブ画像群Ｄ３に含まれるサブ画像のうち、最も統合スコアの低いサブ画像を配置の対象から除外して除去リストバッファＢ３に登録し、ステップＳ４０１に戻る。

サブ画像近接配置プランナ１３０は、以上のステップＳ４０１〜ステップＳ４０３の処理を繰り返すことにより、スコア付サブ画像群Ｄ３に含まれるサブ画像を一部間引いた状態での最適な配置を求める。ただし、ここで求められる配置が最適な配置になるとは限らず、必要以上にサブ画像を間引いている可能性がある。なぜなら、ステップＳ４０３では、配置の対象から除外するサブ画像を、配置制約ではなく統合スコアに基づいて選択しているためである。

例えば、図５に示した検出結果例において、左上の「小岩カメラ」を含む注目領域（領域画像）の統合スコアが非常に低く、右上の「分倍書店本」を含む注目領域（領域画像）の統合スコアが高いときに、「分倍書店本」を含む注目領域のサブ画像を配置する場所が得られず、解なしという結果となった場合を考える。この場合、優先的に間引く対象となるのは、統合スコアが低い「小岩カメラ」を含む注目領域のサブ画像である。しかし、「小岩カメラ」を含む注目領域の周辺は元々スペース的に余裕があり、サブ画像を間引いても配置の改善につながらないため、不必要な間引きとなる。

このような処理となっているのは、最適化問題の求解には後述するソルバと呼ばれるソフトウェアを用いるのが一般的であるが、ソルバによって解が得られなかった場合に、解が得られるような条件緩和のうち、最少の条件緩和の集合は何か、という問題を解くのは難解であるためである。

そこで、ステップＳ４０４以降の処理では、いったん間引き対象となったサブ画像について、これまでに得られた配置のままで、配置できるかどうかを試行する。もし配置が可能と判断できれば、そのまま配置する。これにより、上述した「小岩カメラ」を含む注目領域のサブ画像のように、不要な間引きの対象となったサブ画像が、これらの処理の中で配置が復活することになる。

ステップＳ４０４：サブ画像近接配置プランナ１３０は、除去リストバッファＢ３から、サブ画像を統合スコアの高い順に１つずつ取り出す。

ステップＳ４０５：サブ画像近接配置プランナ１３０は、取り出したサブ画像を、他のサブ画像や他のサブ画像の元となった領域画像に重ならないという制約のもと、当該サブ画像の元になった注目領域の近傍に配置可能か否かを判定する。ＹｅｓであればステップＳ４０６に進み、ＮｏであればステップＳ４０７に進む。

ステップＳ４０６：サブ画像近接配置プランナ１３０は、ステップＳ４０５で配置可能と判定したサブ画像を、当該サブ画像の元になった注目領域の近傍に配置する。なお、実際にはステップＳ４０５およびステップＳ４０６の処理でも最適化問題を解くことになるが、ここでは詳細な説明を省略する。

ステップＳ４０７：サブ画像近接配置プランナ１３０は、除去リストバッファＢ３からサブ画像をすべて取り出したか否かを判定する。そして、判定の結果がＹｅｓであればステップＳ４０８に進み、ＮｏであればステップＳ４０４に戻る。

ステップＳ４０８：サブ画像近接配置プランナ１３０は、解として得られたＲ’ｉ（ｉ＝１，・・・，Ｎ）をサブ画像の配置プラン情報とし、配置プラン付サブ画像群Ｄ４を出力する。

ここで、上記ステップＳ４０１で用いる近接配置プラン最適化モデルＭ１の数式について、図９を参照して説明する。図９は、近接配置プラン最適化モデルＭ１の一例を示す図である。

図９に示す近接配置プラン最適化モデルＭ１の第１行目は、注目領域（領域画像）と対応するサブ画像との距離を、すべてのサブ画像について合計したものを最小化することを示している。距離の定義と算出方法については、図１１を用いて後述する。

図９に示す近接配置プラン最適化モデルＭ１の第２行目以降は、制約条件を示している。第３行目では、各サブ画像の配置予定領域に対して、あらゆる注目領域の中で最も近い注目領域は、そのサブ画像に対応する注目領域である、という制約を課している。換言すると、サブ画像は、当該サブ画像の元になった注目領域に対応する領域画像が最も近くなるように配置することを要求しているということである。

第４行目では、サブ画像とそのサブ画像の元になった注目領域（領域画像）との間の距離は一定以上である、ことを制約に課している。これにより、サブ画像が注目領域に接するように配置されることで画像が見づらくなることを防止する効果が得られる。

第５行目では、領域画像群とサブ画像群とを合わせた集合において、画像同士が互いに重なり合わないことを制約に課している。ただし、煩雑となるため数式上では記載していないが、注目領域が最初から重なり合って検出されたことによって領域画像が重なり合う場合は例外とする。

図１０は、図５に示した検出結果例において、近接配置プラン最適化モデルＭ１の解として得られた配置プラン情報に従ってサブ画像を配置した例を示す図である。サブ画像は、そのサブ画像の元になった注目領域（領域画像）に対して所定値以上の距離を保ちつつ最も近くなるように配置され、さらに、あらゆるサブ画像が他のサブ画像や注目領域（領域画像）と重なり合わないように配置されている。ただし、一部の領域ではこの条件を満たせないため、サブ画像の間引きが行われている。例えば、図の右上側の「ホリーズ」を含む注目領域や、「ＳＫ不動産」を含む注目領域、「分倍書店本」を含む注目領域などでは、サブ画像が間引きされている。

なお、図９に示す近接配置プラン最適化モデルＭ１は、サブ画像近接配置プランナ１３０で用いる最適化モデルの一例であり、これに限られるものではない。例えば、図９に示す近接配置プラン最適化モデルＭ１に対し、配置するサブ画像数の上限を組み入れてもよい。これにより、サブ画像の表示数が多いために画像が見づらくなるといった不都合を解消することができる。

最適化モデルの解をコンピュータで求める方法の１つとして、ソルバと呼ばれるソフトウェアを使う方法がある。ソルバは、最適化の数学モデルをテキスト形式などで入力すると、その解を算出するソフトウェアであり、フリーウェアｌｐｓｏｌｖｅを初めとして、様々リリースされている。本実施形態では、ソルバを使って近接配置プラン最適化モデルＭ１の解を求める。

図１１は、注目領域（領域画像）と対応するサブ画像との距離の算出方法を説明する図である。注目領域（領域画像）とサブ画像との距離は、矩形間の距離として求められる。矩形間の距離は様々考えられるが、本実施形態では、以下の定義を用いるとする。

矩形Ａと矩形Ｂについて、Ｘ_Ａを矩形Ａの外周上の任意の点とし、Ｘ_Ｂを矩形Ｂの外周上の任意の点とするとき、矩形Ａと矩形Ｂとの距離Ｄ（Ａ，Ｂ）は、下記式（１）で表される。
Ｄ（Ａ，Ｂ）＝ｍｉｎ（Ｘ_Ａ，Ｘ_Ｂ）・・・（１）

上記の定義に従った矩形間の距離をコンピュータ上で計測する方法を、以下に簡単に説明する。まず、図１１（ａ）に示すように、２つの矩形が上下に並んでいる（ケース１）か、図１１（ｂ）に示すように、２つの矩形が左右に並んでいる（ケース２）か、のどちらのケースなのかを判別する。そして、ケース１の場合は、図１１（ａ）に示す距離ｄ１を矩形間の距離として計測し、ケース２の場合は、図１１（ｂ）に示す距離ｄ２を矩形間の距離として計測する。なお、複数の距離指標を用いて矩形間の距離を計測するようにしてもよい。その場合、複数の指標の値を１つのスカラに統合する必要がある。その方法として、線形和を取る方法や、複数指標のうちの最小値を採用する方法などが考えられる。

以上により作成された配置プラン付サブ画像群Ｄ４は、表示制御部１５０の後述するサブ画像表示制御部１５１と、認識部１４０との双方に出力される。そして、サブ画像表示制御部１５１が配置プラン情報に基づいてサブ画像を表示器１６０に直ちに表示する処理と、認識部１４０がサブ画像に含まれる文字やロゴマークなどの対象（注目領域に含まれる対象）を認識する処理とが並行して行われる。認識部１４０による認識結果は、表示制御部１５０の後述する認識結果表示制御部１５２よって表示器１６０に表示されるが、この認識結果の表示は、認識部１４０による認識処理が介在することによって、サブ画像の表示よりもワンテンポ遅れる。このため、ユーザの目には、まずサブ画像が表示器１６０に先に表示され、遅れて認識結果が表示される、という画面効果を与えることとなる。これにより、サブ画像が、表示器１６０に認識結果が表示されるまでの、認知的なつなぎとなるプレビューの役割を果たすなどの効果を生み出すことができる。

認識部１４０は、配置プラン付サブ画像群Ｄ４を入力として受け取り、配置プラン付サブ画像群Ｄ４に含まれるサブ画像のうち、統合スコアが第２閾値以上のサブ画像に含まれる対象、つまり統合スコアが第２閾値以上のサブ画像の元になった注目領域に含まれる対象の認識処理を行い、認識結果Ｄ５を出力する。なお、第２閾値は、検出部１１０のオブジェクト検出器１１１や文字領域検出器１１２において、二値分類器が出力する局所スコアに対する閾値として用いた第１閾値とは異なる値であり、第１閾値よりも厳しい値（大きな値）に設定されている。

本実施形態では、ロゴマークと文字を認識部１４０による認識対象としている。入力される配置プラン付サブ画像群Ｄ４は、ロゴマークのサブ画像と文字のサブ画像に仕分けされ、前者についてはサブモジュールであるオブジェクト認識器１４１で認識処理を行い、後者については文字認識器１４２で認識処理を行う。

オブジェクト認識器１４１は、サブ画像に含まれるロゴマークが予め登録されているロゴマークのうちのどれなのかを識別し、認識結果としてロゴマーク名を示す単語を出力する。なお、ロゴマークの認識処理には、公知の技術を用いればよい。

文字認識器１４２は、サブ画像内に含まれる１行ないしは複数行からなるテキスト（文字）を認識し、認識結果として当該テキストを出力する。文字の認識処理には公知の技術を用いればよい。例えば、画像（サブ画像）に対して二値化を行い、個別文字の領域を特定して、個別文字認識を行う方法が知られており、この方法を適用できる。

本実施形態では、オブジェクト認識器１４１を用いてロゴマークの認識処理を行う場合も、文字認識器１４２を用いて文字認識を行う場合も、出力となる認識結果Ｄ５はテキストであるものとする。

認識部１４０のオブジェクト認識器１４１および文字認識器１４２は、いずれも認識部トレーナ３００によって訓練された多クラス識別モデルを用いる。したがって、メインシステム１００の利用前に一度、認識部トレーナ３００を実行しておき、多クラス識別モデルを作成しておく必要がある。

この多クラス識別モデルは、ロゴマークの識別モデル、文字の識別モデルなど、認識対象のカテゴリごとに用意する。認識部トレーナ３００による多クラス識別モデルの訓練は、正例用画像群３１０と負例用画像群３２０とを用いて行う。正例用画像群３１０は、該当するカテゴリの対象が含まれる画像群であり、負例用画像群３２０は、該当するカテゴリの対象が含まれない画像群である。これらを正例および負例として用いて、多クラスＳＶＭなどの多クラス分類器の識別モデルを訓練する。

表示制御部１５０は、配置プラン付サブ画像群Ｄ４に含まれる各サブ画像と、認識部１４０の認識処理によって得られた認識結果Ｄ５とを、例えば入力画像Ｄ１に重畳した形態で表示器１６０に表示させる。サブ画像の表示は、表示制御部１５０がサブ画像近接配置プランナ１３０から配置プラン付サブ画像群Ｄ４を取得すると、実行が開始される。一方、認識結果Ｄ５の表示は、表示制御部１５０が認識部１４０から認識結果Ｄ５を取得すると、実行が開始される。両者は非同期に実行される。ただし、認識結果Ｄ５が届くタイミングは、配置プラン付サブ画像群Ｄ４が届くタイミングより、認識部１４０での認識処理にかかる時間の分だけ遅い。このため、結果として、表示器１６０には、サブ画像が表示された後に、認識結果Ｄ５が表示されることになる。

また、表示制御部１５０は、表示器１６０が表示する画像に対してユーザが行う操作を受け付けるなどのＵＩ（User Interface）制御を行う。なお、表示器１６０としては、例えば液晶ディスプレイパネルなどの様々な表示器を利用できる。また、ユーザが画像に対する操作を行うために利用する操作デバイスとしては、マウスやキーボードのほか、表示器１６０と一体となったタッチパネルなど、様々な操作デバイスを利用できる。サブ画像の表示制御、認識結果Ｄ５の表示制御、およびＵＩ制御は、それぞれ、サブ画像表示制御部１５１、認識結果表示制御部１５２、およびＵＩ制御部１５３の３つのサブモジュールで個別に行われる。

サブ画像表示制御部１５１は、配置プラン付サブ画像群Ｄ４に含まれる各サブ画像を、上述した配置プラン情報に従い、入力画像Ｄ１内の注目領域（領域画像）との対応関係を示す画面表現を伴う形式で、例えば入力画像Ｄ１に重畳した表示形態で表示器１６０に表示させる。

図１２は、サブ画像表示制御部１５１の処理手順の一例を示すフローチャートである。サブ画像表示制御部１５１は、入力画像Ｄ１と配置プラン付サブ画像群Ｄ４とを用いて、以下のステップＳ５０１〜ステップＳ５０５の処理を行って、サブ画像が重畳された入力画像Ｄ１を表示器１６０に表示させる。

ステップＳ５０１：サブ画像表示制御部１５１は、配置プラン付サブ画像群Ｄ４から、サブ画像を１つ取り出す。

ステップＳ５０２：サブ画像表示制御部１５１は、ステップＳ５０１で取り出したサブ画像の統合スコアが第２閾値以上であるか否かを判定する。ＹｅｓであればステップＳ５０３に進み、ＮｏであればステップＳ５０４に進む。なお、ここでの第２閾値は、認識部１４０が認識処理を行うか否かを判定する際に用いる閾値と同じである。つまり、サブ画像表示制御部１５１は、ステップＳ５０２において、ステップＳ５０１で取り出したサブ画像が、認識部１４０によって認識処理が行われるサブ画像（第１サブ画像）であるか、あるいは、認識部１４０によって認識処理が行われないサブ画像（第２サブ画像）であるかを判定している。

ステップＳ５０３：サブ画像表示制御部１５１は、ステップＳ５０１で取り出したサブ画像（第１サブ画像）を、入力画像Ｄ１上の、配置プラン情報によって指定される位置に低い透明度で（下の入力画像Ｄ１が透けて見えないように）重畳表示する。また、このときサブ画像表示制御部１５１は、当該サブ画像の右上に「×」ボタンを置く。この「×」ボタンは、ユーザが当該サブ画像に含まれる対象を認識処理から除外する操作を受け付けるためのＵＩとして利用される。

ステップＳ５０４：サブ画像表示制御部１５１は、ステップＳ５０１で取り出したサブ画像（第２サブ画像）を、入力画像Ｄ１上の、配置プラン情報によって指定される位置に高い透明度で（下の入力画像Ｄ１が透けて見えるように）重畳表示する。このサブ画像の表示領域は、ユーザが当該サブ画像に含まれる対象を認識処理の対象に追加する操作を受け付けるためのＵＩとして利用される。

ステップＳ５０５：サブ画像表示制御部１５１は、配置プラン付サブ画像群Ｄ４から、サブ画像をすべて取り出したか否かを判定する。そして、判定の結果がＮｏであればステップＳ５０１に戻り、Ｙｅｓであれば処理を終了する。

サブ画像表示制御部１５１が以上の処理を行った結果、表示器１６０には、図１０に示したように、入力画像Ｄ１上に、配置プラン付サブ画像群Ｄ４に含まれる各サブ画像が重畳されて表示される。なお、本実施形態では、サブ画像と入力画像Ｄ１内の注目領域（領域画像）との対応関係を示す画面表現として、サブ画像を注目領域（領域画像）に近接配置する画面表現を用いているが、これに限らない。例えば、サブ画像と入力画像Ｄ１内の注目領域（領域画像）との対応関係を明示するために、引き出し線などの画面表現を近接配置に追加して利用する、あるいは単独で利用するようにしてもよい。

認識結果表示制御部１５２は、認識部１４０のオブジェクト認識器１４１や文字認識器１４２が出力する認識結果Ｄ５を、対応するサブ画像との対応関係を示す画面表現を伴う形式で、例えば入力画像Ｄ１に重畳した表示形態で表示器１６０に表示させる。

本実施形態では、認識結果Ｄ５とサブ画像との対応関係を示す画面表現として、認識結果Ｄ５を、対応するサブ画像に一部重なるように配置する画面表現を用いるものとする。すなわち、配置プラン情報で指定される各サブ画像の位置に対して、サブ画像の大きさに対応したオフセットを与えた位置を、認識結果Ｄ５の配置位置とする。なお、認識結果Ｄ５とサブ画像との対応関係を示す画面表現はこの例に限らず、上述した引き出し線を利用するなど、様々な画面表現を利用することができる。

図１３は、認識結果表示制御部１５２による処理の結果として表示器１６０に表示される画像の一例を示す図である。図１３の画像例は、図１０に示した画像に対して、さらに認識結果Ｄ５が追加表示された例を示している。表示器１６０には、図１０に示した画像が表示された後、認識部１４０による認識処理が終了した段階で、図１３に示す画像が表示されることになる。

表示器１６０による画像の表示は、上述したように、サブ画像近接配置プランナ１３０のアルゴリズムにより、制約を満たす中で最善の配置が行われている。ただし、そのままでは制約を満たせない場合には、統合スコアが低いサブ画像の表示をあきらめることで、制約を充足する。したがって、サブ画像が密集しているために、すべてのサブ画像を配置できずに、サブ画像が間引きされる局所的領域が生じる場合がある。例えば、図１０や図１３に示した画像例では、画像の右上の領域がこれに該当し、「ホリーズ」を含む注目領域のサブ画像、「ＳＫ不動産」を含む注目領域のサブ画像、「分倍書店本」を含む注目領域のサブ画像は、間引きによって表示されていない。

一方、サブ画像がまばらでスペースに余裕があるため、統合スコアが第２閾値を下回るほど低いサブ画像まで表示している局所的領域も生じ得る。例えば、図１０や図１３に示した画像例では、画像の左上の領域がこれに該当し、スペースに余裕があるため、統合スコアが第２閾値を下回る「小岩カメラ」を含む注目領域のサブ画像も表示されている。

ＵＩ制御部１５３は、表示器１６０が表示する画像に対してユーザが行う操作を受け付けるなどのＵＩ制御を行う。本実施形態では、表示器１６０が表示する画像に対するユーザの操作として、表示されているサブ画像へのフィードバックに関する２つの操作と、未検出の領域へのフィードバックに関する１つの操作を扱う。以下では、それぞれの操作に対するＵＩ制御部１５３の処理について説明する。

統合スコアが第２閾値以上のサブ画像（認識処理の対象となっている第１サブ画像）は、上述したように、画像の右上に「×」ボタンを付加した状態で表示される。そして、ユーザがこの「×」ボタンを押下する操作を行うと、そのサブ画像は、統合スコアが第２閾値を下回るサブ画像であると再解釈させるようフィードバックをかけることができる。これにより、検出部１１０による領域の検出誤りを修正することができる。以下、この処理をfalse-positiveな検出誤りの訂正という。

図１４は、false-positiveな検出誤りの訂正の処理手順の一例を示すフローチャートである。ユーザが表示器１６０に表示されているサブ画像の右上の「×」ボタンを押下する操作を行うと、ＵＩ制御部１５３は、以下のステップＳ６０１〜ステップＳ６０４の処理を行って、表示器１６０の表示を更新させる。

ステップＳ６０１：ＵＩ制御部１５３は、表示器１６０に表示されているサブ画像の右上の「×」ボタンを押下するユーザの操作を受け付ける。

ステップＳ６０２：ＵＩ制御部１５３は、「×」ボタンが押下されたサブ画像の統合スコアが第２閾値を下回るように、当該サブ画像に対してのみペナルティ値（サブ画像個別ペナルティＤ６）を設定する。このサブ画像個別ペナルティＤ６は、サブ画像近接配置プランナ１３０に送られて、サブ画像の統合スコアを修正するために用いられる。

ステップＳ６０３：ＵＩ制御部１５３は、「×」ボタンが押下されたサブ画像を元に、スライド窓のサイズでくりぬいた画像群（追加負例用画像群Ｄ７）を作成し、検出部トレーナ２００の負例用画像群２２０に追加登録する。そして、ＵＩ制御部１５３は、検出部トレーナ２００に対して再訓練の指示を出し、検出部トレーナ２００に検出部１１０の再訓練を行わせる。この再訓練の結果は、メインシステム１００の次回以降の利用時に反映される。

ステップＳ６０４：ＵＩ制御部１５３は、サブ画像近接配置プランナ１３０に処理を戻し、「×」ボタンが押下されたサブ画像に対する処理を更新させる。これにより、「×」ボタンが押下されたサブ画像は、サブ画像個別ペナルティＤ６に基づいて統合スコアが修正され、統合スコアが第２閾値を下回ったサブ画像として扱われることになる。その結果、サブ画像表示制御部１５１は、表示器１６０による当該サブ画像の表示を更新し、当該サブ画像を透明度が高い画像として入力画像Ｄ１上に再描画する。また、認識結果表示制御部１５２は、それまで表示されていた当該サブ画像に関する認識結果の表示を停止させる。

統合スコアが第２閾値を下回るサブ画像は、上述したように、入力画像Ｄ１上に高い透明度で（下の入力画像Ｄ１が透けて見えるように）重畳表示される。そして、ユーザがこのように表示されたサブ画像の表示領域を、例えばマウスでクリックするなどの方法で指定する操作を行うと、そのサブ画像は、統合スコアが第２閾値以上のサブ画像であると再解釈させるようフィードバックをかけることができる。これにより、検出部１１０による領域の検出誤りを修正することができる。以下、この処理をfalse-negativeな検出誤りの訂正という。

図１５は、false-negativeな検出誤りの訂正の処理手順の一例を示すフローチャートである。ユーザが表示器１６０に高い透明度で表示されているサブ画像の領域を指定する操作を行うと、ＵＩ制御部１５３は、以下のステップＳ７０１〜ステップＳ７０４の処理を行って、表示器１６０の表示を更新させる。

ステップＳ７０１：ＵＩ制御部１５３は、表示器１６０に高い透明度で表示されているサブ画像の領域を指定するユーザの操作を受け付ける。

ステップＳ７０２：ＵＩ制御部１５３は、当該サブ画像の統合スコアが第２閾値以上となるように、当該サブ画像に対してのみボーナス値（サブ画像個別ボーナスＤ８）を設定する。このサブ画像個別ボーナスＤ８は、サブ画像近接配置プランナ１３０に送られて、サブ画像の統合スコアを修正するために用いられる。

ステップＳ７０３：ＵＩ制御部１５３は、当該サブ画像を元に、スライド窓のサイズでくりぬいた画像群（追加正例用画像群Ｄ９）を作成し、検出部トレーナ２００の正例用画像群２１０に追加登録する。そして、ＵＩ制御部１５３は、検出部トレーナ２００に対して再訓練の指示を出し、検出部トレーナ２００に検出部１１０の再訓練を行わせる。この再訓練の結果は、メインシステム１００の次回以降の利用時に反映される。

ステップＳ７０４：ＵＩ制御部１５３は、サブ画像近接配置プランナ１３０に処理を戻し、当該サブ画像に対する処理を更新させる。これにより、当該サブ画像は、サブ画像個別ボーナスＤ８に基づいて統合スコアが修正され、統合スコアが第２閾値以上のサブ画像として扱われることになる。その結果、サブ画像表示制御部１５１は、表示器１６０による当該サブ画像の表示を更新し、当該サブ画像を透明度が低く、右上に「×」ボタンが付加された画像として入力画像Ｄ１上に再描画する。また、認識部１４０は、当該サブ画像に含まれる対象に対する認識処理を行い、その認識結果Ｄ５が、認識結果表示制御部１５２によって、表示器１６０に追加で表示される。

また、認識部１４０による認識対象とされるべき注目領域が、検出部１１０によって未検出とされた結果、表示器１６０にその領域のサブ画像が表示されない場合も考えられる。このような場合には、例えばその領域付近でマウスボタンを一定時間押しっぱなしにするなど、ユーザがその未検出の領域の位置を指定する操作を行うと、ユーザが指定した位置を含む周辺領域が検出部１１０により検出されやすくなるようフィードバックをかけることもできる。これにより、サブ画像が表示されない領域であっても、検出部１１０による領域の検出誤りを修正することができる。以下、この処理を未検出の訂正という。

図１６は、未検出の訂正の処理手順の一例を示すフローチャートである。表示器１６０に表示されている入力画像Ｄ１上でサブ画像が重畳表示されていない領域の位置を指定する操作を行うと、ＵＩ制御部１５３は、以下のステップＳ８０１〜ステップＳ８０３の処理を行って、表示器１６０の表示を更新させる。

ステップＳ８０１：ＵＩ制御部１５３は、表示器１６０に表示されている入力画像Ｄ１上で、サブ画像が重畳表示されていない領域の位置を指定するユーザの操作を受け付ける。

ステップＳ８０２：ＵＩ制御部１５３は、入力画像Ｄ１上のユーザが指定した位置をピークとして、その周辺に向かうに従い減衰するような配分で、その位置周辺の画素に対してボーナス値（サブ画像ゾーンボーナスＤ１０）を設定する。

図１７は、サブ画像ゾーンボーナスＤ１０を説明する図である。図１７の例では、黒塗りの矩形がユーザにより指定された入力画像Ｄ１上の位置を示し、その位置の周辺をクロスハッチングの矩形で示し、さらにその周辺をハッチングの矩形で示している。この場合、ＵＩ制御部１５３は、例えば、黒塗りの矩形の位置に対して＋３、クロスハッチングの矩形の位置に対して＋２、ハッチングの矩形の位置に対して＋１のサブ画像ゾーンボーナスを設定する。ここで、例えば検出部１１０が注目領域の検出に用いるスライド窓のサイズが、図１７の矩形４つ分のサイズであるとすると、スライド窓が図１７の破線で示す位置にあるとき、スライド窓で囲まれた領域の局所スコアに合計４点のボーナス値が加算される。なお、ここではボーナス値を整数で表しているが、局所スコアが１以下の値で示される場合は、ボーナス値も小数の値となる。

ステップＳ８０３：ＵＩ制御部１５３は、検出部１１０に処理を戻し、検出部１１０による注目領域の検出からやり直すかたちで、以降の処理を更新する。この処理の戻しによって呼び出される検出部１１０は、サブ画像ゾーンボーナスＤ１０に対応した処理が必要である。具体的には、二値分類器が算出する局所スコアに対して、図１７に示したようなボーナス値を加算する処理が行われる。その結果、入力画像Ｄ１上でユーザが指定した位置の周辺領域が注目領域として新たに検出され、表示器１６０が表示する入力画像Ｄ１上のサブ画像や認識結果Ｄ５の表示が更新される。

以上、具体的な例を挙げながら詳細に説明したように、本実施形態の画像表示装置では、検出部１１０が、入力画像Ｄ１から注目領域を検出し、生成部１２０が、検出された注目領域の画像（領域画像）に対して視認性を向上させる補正を行ってサブ画像を生成する。そして、サブ画像近接配置プランナ１３０が、生成されたサブ画像の配置プランを決定し、表示制御部１５０が、決定された配置プランに従って、サブ画像を入力画像Ｄ１内の注目領域（領域画像）との対応関係が分かるように入力画像Ｄ１に重畳して表示器１６０に表示させる。また、認識部１４０が、統合スコアが第２閾値以上のサブ画像に対する認識処理を行い、認識処理が終了すると、表示制御部１５０が、認識結果Ｄ５をサブ画像との対応関係が分かるように入力画像Ｄ１にさらに重畳して表示器１６０に表示させる。

さらに、本実施形態の画像表示装置では、認識部１４０が認識処理を行ったサブ画像と、認識部１４０による認識処理が行われなかったサブ画像とを異なる表示形態で表示器１６０に表示させ、表示されたサブ画像に対するユーザの操作を受け付けることで、検出部１１０による注目領域の検出に対してユーザの意図を反映させたフィードバックを行えるようにしている。

したがって、本実施形態の画像表示装置によれば、上述した認識誤りに対するリカバリ機能［Ａ１］、注目領域の検出誤りに対するリカバリ機能［Ａ２］、認識処理による応答性の低下を補う機能［Ｂ］、適切な注視誘導を行う機能［Ｃ］、および注目領域の閲覧性を補助する機能［Ｄ］のすべてを実現した、利便性の高い情景画像認識による画像表示を提供することができる。

（第２実施形態）
次に、第２実施形態の画像表示装置について説明する。第２実施形態の画像表示装置は、上述した第１実施形態の画像表示装置とほぼ同じ機能を持っているが、サブ画像や認識結果の表示の仕方が異なるものである。以下では、第１実施形態の画像表示装置と同様の構成要素については同一の符号を付して重複した説明を省略し、本実施形態に特徴的な部分についてのみ説明する。

図１８は、第２実施形態の画像表示装置の構成例を示すブロック図である。第２実施形態の画像表示装置では、図１８に示すように、第１実施形態の画像表示装置のメインシステム１００に設けられていたサブ画像近接配置プランナ１３０に代えて、メインシステム１００’に、サブ画像重畳配置プランナ１７０が設けられている。第２実施形態の画像表示装置における他の構成は、第１実施形態の画像表示装置と同様である。

サブ画像重畳配置プランナ１７０は、サブ画像をその元になった注目領域に重畳して配置するための配置プラン最適化の数学モデルを解くことで、サブ画像を入力画像Ｄ１上に重畳する際の位置を決定するモジュールである。サブ画像重畳配置プランナ１７０は、スコア付領域画像群Ｄ２およびスコア付サブ画像群Ｄ３を入力として受け取り、スコア付サブ画像群Ｄ３に含まれる各サブ画像の最適な配置を決定し、その配置プラン情報を含む、配置プラン付サブ画像群Ｄ４を出力する。

図１９は、サブ画像重畳配置プランナ１７０の処理手順の一例を示すフローチャートである。サブ画像重畳配置プランナ１７０は、スコア付領域画像群Ｄ２およびスコア付サブ画像群Ｄ３を用いて、以下のステップＳ９０１〜ステップＳ９０８の処理を行って、サブ画像の配置プラン情報を求め、配置プラン付サブ画像群Ｄ４を出力する。

ステップＳ９０１：サブ画像重畳配置プランナ１７０は、例えば図２０に示す重畳配置プラン最適化モデルＭ２を解く。なお、図２０に示す重畳配置プラン最適化モデルＭ２については、詳細を後述する。

ステップＳ９０２：サブ画像重畳配置プランナ１７０は、ステップＳ９０１での処理で解が得られたか否かを判定する。そして、判定の結果がＹｅｓであればステップＳ９０４に進み、ＮｏであればステップＳ９０３に進む。解が得られないというのは、スコア付サブ画像群Ｄ３に含まれる各サブ画像が他のサブ画像および他のサブ画像に対応する領域画像に重なり合わないという制約のもと、サブ画像をその元となった注目領域に重畳して配置することができないことを意味している。そこで、解が得られない場合は、配置対象となるサブ画像を間引きする戦略を取る。

ステップＳ９０３：サブ画像重畳配置プランナ１７０は、スコア付サブ画像群Ｄ３に含まれるサブ画像のうち、最も統合スコアの低いサブ画像を配置の対象から除外して除去リストバッファＢ３に登録し、ステップＳ９０１に戻る。

サブ画像重畳配置プランナ１７０は、以上のステップＳ９０１〜ステップＳ９０３の処理を繰り返すことにより、スコア付サブ画像群Ｄ３に含まれるサブ画像を一部間引いた状態での最適な配置を求める。ただし、ここで求められる配置が最適な配置になるとは限らず、必要以上にサブ画像を間引いている可能性がある。なぜなら、ステップＳ９０３では、配置の対象から除外するサブ画像を、配置制約ではなく統合スコアに基づいて選択しているためである。

そこで、ステップＳ９０４以降の処理では、いったん間引き対象となったサブ画像について、これまでに得られた配置のままで、配置できるかどうかを試行する。もし配置が可能と判断できれば、そのまま配置する。これにより、不要な間引きの対象となったサブ画像が、これらの処理の中で配置が復活することになる。

ステップＳ９０４：サブ画像重畳配置プランナ１７０は、除去リストバッファＢ３から、サブ画像を統合スコアの高い順に１つずつ取り出す。

ステップＳ９０５：サブ画像重畳配置プランナ１７０は、取り出したサブ画像を、他のサブ画像や他のサブ画像の元となった領域画像に重ならないという制約のもと、当該サブ画像の元になった注目領域に重畳して配置可能か否かを判定する。そして、判定の結果がＹｅｓであればステップＳ９０６に進み、ＮｏであればステップＳ９０７に進む。

ステップＳ９０６：サブ画像重畳配置プランナ１７０は、ステップＳ９０５で配置可能と判定したサブ画像を、当該サブ画像の元になった注目領域に重畳して配置する。なお、実際にはステップＳ９０５およびステップＳ９０６の処理でも最適化問題を解くことになるが、ここでは詳細な説明を省略する。

ステップＳ９０７：サブ画像重畳配置プランナ１７０は、除去リストバッファＢ３からサブ画像をすべて取り出したか否かを判定する。そして、判定の結果がＹｅｓであればステップＳ９０８に進み、ＮｏであればステップＳ９０４に戻る。

ステップＳ９０８：サブ画像重畳配置プランナ１７０は、解として得られたＲ’ｉ（ｉ＝１，・・・，Ｎ）をサブ画像の配置プラン情報とし、配置プラン付サブ画像群Ｄ４を出力する。

ここで、上記ステップＳ９０１で用いる重畳配置プラン最適化モデルＭ２の数式について、図２０を参照して説明する。図２０は、重畳配置プラン最適化モデルＭ２の一例を示す図である。

図２０に示す重畳配置プラン最適化モデルＭ２の第１行目は、注目領域（領域画像）と対応するサブ画像との距離と、領域画像のうち対応するサブ画像によって隠されずに見えている面積との線形和を、すべてのサブ画像について合計したものを最小化することを示している。距離の定義と算出方法については、図２２を用いて後述する。

図２０に示す重畳配置プラン最適化モデルＭ２の第２行目以降は、制約条件を示している。第３行目では、各サブ画像の配置予定領域に対して、あらゆる注目領域の中で最も近い注目領域は、そのサブ画像に対応する注目領域である、という制約を課している。換言すると、サブ画像は、当該サブ画像の元になった注目領域に対応する領域画像が最も近くなるように配置することを要求しているということである。

第４行目では、すべてのサブ画像が互いに重なり合わないことを制約に課している。

図２１は、図５に示した検出結果例において、重畳配置プラン最適化モデルＭ２の解として得られた配置プラン情報に従ってサブ画像を配置した例を示す図である。サブ画像は、そのサブ画像の元になった注目領域（領域画像）に重畳して配置され、さらに、あらゆるサブ画像が他のサブ画像と重なり合わないように配置されている。ただし、一部の領域ではこの条件を満たせないため、サブ画像の間引きが行われている。例えば、図の右上側の「ホリーズ」を含む注目領域などでは、サブ画像が間引きされている。

なお、図２０に示す重畳配置プラン最適化モデルＭ２は、サブ画像重畳配置プランナ１７０で用いる最適化モデルの一例であり、これに限られるものではない。例えば、図２０に示す重畳配置プラン最適化モデルＭ２に対し、配置するサブ画像数の上限を組み入れてもよい。これにより、サブ画像の表示数が多いために画像が見づらくなるといった不都合を解消することができる。

図２２は、注目領域（領域画像）と対応するサブ画像との距離の算出方法を説明する図である。注目領域（領域画像）とサブ画像との距離は、矩形間の距離として求められる。矩形間の距離は様々考えられるが、本実施形態では、図２２に示すように、各矩形の重心間の距離ｄを矩形間の距離とする。また、図２２のハッチングを付した部分の面積が、図２０に示した重畳配置プラン最適化モデルＭ２における関数Ｓの値となる。

以上により作成された配置プラン付サブ画像群Ｄ４は、第１実施形態と同様に、表示制御部１５０のサブ画像表示制御部１５１と、認識部１４０との双方に出力される。そして、サブ画像表示制御部１５１が配置プラン情報に基づいてサブ画像を表示器１６０に直ちに表示する処理と、認識部１４０がサブ画像に含まれる文字やロゴマークなどの対象（注目領域に含まれる対象）を認識する処理とが並行して行われる。また、認識部１４０によるサブ画像に対する認識処理が終了すると、第１実施形態と同様に、その認識結果Ｄ５が、表示制御部１５０の認識結果表示制御部１５２によって、サブ画像の表示からワンテンポ送れて表示器１６０に表示される。

図２３は、認識結果表示制御部１５２による処理の結果として表示器１６０に表示される画像の一例を示す図である。図２３の画像例は、図２１に示した画像に対して、さらに認識結果Ｄ５が追加表示された例を示している。表示器１６０には、図２１に示した画像が表示された後、認識部１４０による認識処理が終了した段階で、図２３に示す画像が表示されることになる。

表示器１６０による画像の表示は、上述したように、サブ画像重畳配置プランナ１７０のアルゴリズムにより、制約を満たす中で最善の配置が行われている。具体的には、サブ画像同士が互いに重ならないこと、各サブ画像は対応する領域画像（注目領域）の最寄に配置すること、の２つの条件を満たしつつ、サブ画像と対応する領域画像（注目領域）との重心間距離およびサブ画像によって隠される領域画像の面積の線形和を、すべてのサブ画像について合計したものが最小となるよう、配置している。ただし、そのままでは制約を満たせない場合には、統合スコアが低いサブ画像の表示をあきらめることで、制約を充足する。したがって、サブ画像が密集しているために、すべてのサブ画像を配置できずに、サブ画像が間引きされる局所的領域が生じる場合がある。例えば、図２１や図２３に示した画像例では、画像の右上の領域がこれに該当し、「ホリーズ」を含む注目領域のサブ画像は、間引きによって表示されていない。

一方、サブ画像がまばらでスペースに余裕があるため、統合スコアが第２閾値を下回るほど低いサブ画像まで表示している局所的領域も生じ得る。例えば、図２１や図２３に示した画像例では、画像の左上の領域がこれに該当し、スペースに余裕があるため、統合スコアが第２閾値を下回る「小岩カメラ」を含む注目領域のサブ画像も表示されている。

なお、本実施形態では、サブ画像と入力画像Ｄ１内の注目領域（領域画像）との対応関係を示す画面表現として、サブ画像を注目領域（領域画像）に重畳配置する画面表現を用いているが、これに限らない。例えば、サブ画像と入力画像Ｄ１内の注目領域（領域画像）との対応関係を明示するために、引き出し線などの画面表現を重畳配置に追加して利用する、あるいは単独で利用するようにしてもよい。

また、本実施形態では、認識結果Ｄ５とサブ画像との対応関係を示す画面表現として、第１実施形態と同様に、認識結果Ｄ５を、対応するサブ画像に一部重なるように配置する画面表現を用いているが、これに限らない。例えば、上述した引き出し線を利用するなど、様々な画面表現を利用することができる。

（第３実施形態）
次に、第３実施形態の画像表示装置について説明する。第３実施形態の画像表示装置は、上述した第１実施形態の画像表示装置とほぼ同じ機能を持っているが、サブ画像や認識結果の表示の仕方が異なるものである。以下では、第１実施形態の画像表示装置と同様の構成要素については同一の符号を付して重複した説明を省略し、本実施形態に特徴的な部分についてのみ説明する。

図２４は、第３実施形態の画像表示装置の構成例を示すブロック図である。第３実施形態の画像表示装置では、図２４に示すように、第１実施形態の画像表示装置のメインシステム１００に設けられていたサブ画像近接配置プランナ１３０に代えて、メインシステム１００’'に、サブ画像外部配置プランナ１８０が設けられている。第３実施形態の画像表示装置における他の構成は、第１実施形態の画像表示装置と同様である。

サブ画像外部配置プランナ１８０は、サブ画像を入力画像Ｄ１の外部に表示する際の位置を決定するモジュールである。サブ画像外部配置プランナ１８０は、スコア付サブ画像群Ｄ３を入力として受け取り、スコア付サブ画像群Ｄ３に含まれる各サブ画像の最適な配置を決定し、その配置プラン情報を含む、配置プラン付サブ画像群Ｄ４を出力する。

配置プラン付サブ画像群Ｄ４は、第１実施形態と同様に、表示制御部１５０のサブ画像表示制御部１５１と、認識部１４０との双方に出力される。そして、サブ画像表示制御部１５１が配置プラン情報に基づいてサブ画像を表示器１６０に直ちに表示する処理と、認識部１４０がサブ画像に含まれる文字やロゴマークなどの対象（注目領域に含まれる対象）を認識する処理とが並行して行われる。また、認識部１４０によるサブ画像に対する認識処理が終了すると、第１実施形態と同様に、その認識結果Ｄ５が、表示制御部１５０の認識結果表示制御部１５２によって、サブ画像の表示からワンテンポ遅れて表示器１６０に表示される。

図２５は、サブ画像外部配置プランナ１８０から出力される配置プラン付サブ画像群Ｄ４に基づいて、表示制御部１５０のサブ画像表示制御部１５１が処理を行った結果として表示器１６０に表示される画像の一例を示す図である。

本実施形態では、図２５に示すように、表示器１６０の表示画面が左右に分割され、左側の画面に、注目領域が検出された入力画像Ｄ１が表示され、右側の画面に、サブ画像が表示されるものとする。右側の画面における各サブ画像の配置は、例えば、サブ画像同士が重なり合わないという制約のもと、対応する注目領域の入力画像Ｄ１上の位置が画面上にあるものほど、右側の画面における上側に配置され、かつ、統合スコアが高いものほど、右側の画面における上側に配置される。また、画面右側に表示されるサブ画像と、画面左側に配置される入力画像Ｄ１内の注目領域（領域画像）との対応関係は、例えば、これらを結ぶ引き出し線を表示することで明示的に表現する。

なお、本実施形態では、サブ画像と入力画像Ｄ１内の注目領域（領域画像）との対応関係を示す画面表現として、サブ画像と対応する注目領域（領域画像）とを結ぶ引き出し線を用いた明示的な表現方法を用いているが、これに限らない。例えば、引き出し線を用いた画面表現の代わりに、ハイライト表現を用いるようにしてもよい。具体的には、例えば、入力画像Ｄ１内の注目領域（領域画像）またはサブ画像のいずれかにマウスポインタをかざすと、対応するサブ画像または注目領域（領域画像）を囲む枠が明るく表示される、といった画面表現が考えられる。

図２６は、認識部１４０から出力される認識結果Ｄ５に基づいて、表示制御部１５０の認識結果表示制御部１５２が処理を行った結果として表示器１６０に表示される画像の一例を示す図である。本実施形態では、図２６に示すように、認識部１４０から出力される認識結果Ｄ５のそれぞれを、右側の画面に表示されているサブ画像の右隣りに配置することで、認識結果Ｄ５とサブ画像との対応関係を示す表示形態としている。

図２５および図２６に示した本実施形態の表示方法は、サブ画像や認識結果Ｄ５によって入力画像Ｄ１が隠れない点が長所である。ただし、人間にとって対応付けの表現がやや直感的でないこと、サブ画像や認識結果を確認するために視野を動かすコストが発生すること、などが短所である。したがって、これらの長所および短所を勘案して、本実施形態の表示方法を利用する適切なアプリケーションを選択したり、ユーザの選択に応じて他の表示方法から本実施形態の表示方法に切り替えられるようにしたりすることが望ましい。

以上説明した各実施形態の画像表示装置によれば、入力画像の中でユーザが関心を持つことが推察される対象を、応答性よく、理解しやすいかたちでユーザに提示することができる。

以上説明した各実施形態の画像表示装置における上述した各機能は、例えば、画像表示装置において所定のプログラムを実行することにより実現することができる。この場合、画像表示装置は、例えば図２７に示すように、ＣＰＵ（Central Processing Unit）１１などの制御装置、ＲＯＭ（Read Only Memory）１２やＲＡＭ（Random Access Memory）１３などの記憶装置、表示器１６０や各種操作デバイスが接続される入出力Ｉ／Ｆ１４、ネットワークに接続して通信を行う通信Ｉ／Ｆ１５、各部を接続するバス１６などを備えた、通常のコンピュータを利用したハードウェア構成とすることができる。

上述した各実施形態の画像表示装置で実行されるプログラムは、例えば、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disc）等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。

また、上述した各実施形態の画像表示装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上述した各実施形態の画像表示装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

また、上述した各実施形態の画像表示装置で実行されるプログラムを、ＲＯＭ１２等に予め組み込んで提供するように構成してもよい。

上述した各実施形態の画像表示装置で実行されるプログラムは、画像表示装置の各処理部（検出部１１０、生成部１２０、サブ画像近接配置プランナ１３０（サブ画像重畳配置プランナ１７０、サブ画像外部配置プランナ１８０）、認識部１４０、および表示制御部１５０）を含むモジュール構成となっており、実際のハードウェアとしては、例えば、ＣＰＵ１１（プロセッサ）が上記記録媒体からプログラムを読み出して実行することにより、上述した各処理部がＲＡＭ１３（主記憶）上にロードされ、上述した各処理部がＲＡＭ１３（主記憶）上に生成されるようになっている。なお、上述した各実施形態の画像表示装置は、上述した各処理部の一部または全部を、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field-Programmable Gate Array）などの専用のハードウェアを用いて実現することも可能である。

以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

１１０検出部
１２０生成部
１２１サイズ補正器
１２２正対補正器
１２３色補正器
１３０サブ画像近接配置プランナ
１４０認識部
１５０表示制御部
１５１サブ画像表示制御部
１５２認識結果表示制御部
１５３ＵＩ制御部
１６０表示器
１７０サブ画像重畳配置プランナ
１８０サブ画像外部配置プランナ
Ｄ１入力画像
Ｄ２スコア付領域画像群
Ｄ３スコア付サブ画像群
Ｄ４配置プラン付サブ画像群
Ｄ５認識結果

Claims

入力画像から複数の注目領域を検出する検出部と、
前記複数の注目領域の画像の各々に対して視認性を向上させる補正を施して、前記複数の注目領域の各々に対応する複数のサブ画像を生成する生成部と、
前記複数のサブ画像の前記入力画像上における配置を、各サブ画像が、少なくとも他のサブ画像および当該サブ画像に対応する注目領域以外の他の注目領域と重ならず、かつ、前記複数の注目領域のうち最も近い注目領域が当該サブ画像に対応する注目領域となるように決定する配置決定部と、
前記注目領域に含まれる対象に対する認識処理を行う認識部と、
前記複数のサブ画像の各々を、決定した配置に従って前記入力画像上に重畳して表示器に表示させ、前記認識処理が終了すると、前記認識処理の結果を、前記サブ画像との対応関係を示す画面表現を伴う形式で前記表示器にさらに表示させる表示制御部と、を備え、
前記検出部は、前記入力画像中で前記認識処理の対象が含まれている確からしさを表すスコアが閾値を超える領域を前記注目領域として検出するものであり、
前記表示制御部は、前記表示器が表示している前記入力画像中で前記サブ画像が重畳されていない位置を指定した第３操作が行われた場合、指定された位置をピークとして該位置の周辺に向かうに従い減衰するボーナス値を設定し、
前記検出部は、前記ボーナス値が設定された場合、前記ボーナス値が加算された前記スコアが前記閾値を超える領域を前記注目領域として検出する、画像表示装置。
前記認識部は、前記注目領域のうち、予め定めた規則に従って選択された前記注目領域に含まれる対象に対する前記認識処理を行い、
前記表示制御部は、前記認識処理の対象として選択された前記注目領域の画像から生成された前記サブ画像である第１サブ画像と、前記認識処理の対象として選択されなかった前記注目領域の画像から生成された前記サブ画像である第２サブ画像とを、異なる表示形態で前記表示器に表示させる、請求項１に記載の画像表示装置。
前記表示制御部は、前記表示器が表示している前記第１サブ画像を指定した第１操作が行われた場合、指定された前記第１サブ画像に対応する前記認識処理の結果の表示を停止させる、請求項２に記載の画像表示装置。
前記検出部は、訓練データを用いて訓練された識別モデルを用いて前記入力画像から前記注目領域を検出するものであり、
前記表示器が表示している前記第１サブ画像を指定した前記第１操作が行われた場合、指定された前記第１サブ画像を負例の前記訓練データに追加して前記識別モデルの再訓練が行われる、請求項３に記載の画像表示装置。
前記認識部は、前記表示器が表示している前記第２サブ画像を指定した第２操作が行われた場合、指定された前記第２サブ画像に対応する前記注目領域に含まれる対象に対する前記認識処理を行う、請求項２に記載の画像表示装置。
前記検出部は、訓練データを用いて訓練された識別モデルを用いて前記入力画像から前記注目領域を検出するものであり、
前記表示器が表示している前記第２サブ画像を指定した前記第２操作が行われた場合、指定された前記第２サブ画像を正例の前記訓練データに追加して前記識別モデルの再訓練が行われる、請求項５に記載の画像表示装置。
前記配置決定部は、前記スコアに基づいて、前記複数のサブ画像のうちの一部を配置の対象から除外し、残りのサブ画像の配置を決定する、請求項１乃至６のいずれか一項に記載の画像表示装置。
入力画像から複数の注目領域を検出する検出部と、
前記複数の注目領域の画像の各々に対して視認性を向上させる補正を施して、前記複数の注目領域の各々に対応する複数のサブ画像を生成する生成部と、
前記複数のサブ画像の前記入力画像上における配置を、各サブ画像が、少なくとも他のサブ画像および当該サブ画像に対応する注目領域以外の他の注目領域と重ならず、かつ、前記複数の注目領域のうち最も近い注目領域が当該サブ画像に対応する注目領域となるように決定する配置決定部と、
前記複数のサブ画像の各々を、決定した配置に従って前記入力画像上に重畳して表示器に表示させる表示制御部と、
前記複数のサブ画像の前記入力画像の外部における配置を、各サブ画像が、少なくとも他のサブ画像と重ならず、かつ、前記入力画像における前記複数の注目領域の上下方向の位置に従った並び順で前記複数のサブ画像が上下方向に並ぶように決定する画像外配置決定部と、を備え、
前記表示制御部は、前記配置決定部と前記画像外配置決定部のいずれかを選択する第４操作に応じて表示方法を切り替える機能を有し、前記第４操作により前記画像外配置決定部が選択された場合は、前記画像外配置決定部が決定した配置に従って、前記複数のサブ画像と前記入力画像とを前記表示器に表示させる、画像表示装置。
画像表示装置において実行される画像表示方法であって、
前記画像表示装置の検出部が、入力画像から複数の注目領域を検出する工程と、
前記画像表示装置の生成部が、前記複数の注目領域の画像の各々に対して視認性を向上させる補正を施して、前記複数の注目領域の各々に対応する複数のサブ画像を生成する工程と、
前記画像表示装置の配置決定部が、前記複数のサブ画像の前記入力画像上における配置を、各サブ画像が、少なくとも他のサブ画像および当該サブ画像に対応する注目領域以外の他の注目領域と重ならず、かつ、前記複数の注目領域のうち最も近い注目領域が当該サブ画像に対応する注目領域となるように決定する工程と、
前記画像表示装置の認識部が、前記注目領域に含まれる対象に対する認識処理を行う工程と、
前記画像表示装置の表示制御部が、前記複数のサブ画像の各々を、決定した配置に従って前記入力画像上に重畳して表示器に表示させ、前記認識処理が終了すると、前記認識処理の結果を、前記サブ画像との対応関係を示す画面表現を伴う形式で前記表示器にさらに表示させる工程と、を含み、
前記検出部は、前記入力画像中で前記認識処理の対象が含まれている確からしさを表すスコアが閾値を超える領域を前記注目領域として検出するものであり、
前記表示制御部は、前記表示器が表示している前記入力画像中で前記サブ画像が重畳されていない位置を指定した第３操作が行われた場合、指定された位置をピークとして該位置の周辺に向かうに従い減衰するボーナス値を設定し、
前記検出部は、前記ボーナス値が設定された場合、前記ボーナス値が加算された前記スコアが前記閾値を超える領域を前記注目領域として検出する、画像表示方法。
画像表示装置において実行される画像表示方法であって、
前記画像表示装置の検出部が、入力画像から複数の注目領域を検出する工程と、
前記画像表示装置の生成部が、前記複数の注目領域の画像の各々に対して視認性を向上させる補正を施して、前記複数の注目領域の各々に対応する複数のサブ画像を生成する工程と、
前記画像表示装置の配置決定部が、前記複数のサブ画像の前記入力画像上における配置を、各サブ画像が、少なくとも他のサブ画像および当該サブ画像に対応する注目領域以外の他の注目領域と重ならず、かつ、前記複数の注目領域のうち最も近い注目領域が当該サブ画像に対応する注目領域となるように決定する工程と、
前記画像表示装置の表示制御部が、前記複数のサブ画像の各々を、決定した配置に従って前記入力画像上に重畳して表示器に表示させる工程と、
前記画像表示装置の画像外配置決定部が、前記複数のサブ画像の前記入力画像の外部における配置を、各サブ画像が、少なくとも他のサブ画像と重ならず、かつ、前記入力画像における前記複数の注目領域の上下方向の位置に従った並び順で前記複数のサブ画像が上下方向に並ぶように決定する工程と、を含み、
前記表示制御部は、前記配置決定部と前記画像外配置決定部のいずれかを選択する第４操作に応じて表示方法を切り替える機能を有し、前記第４操作により前記画像外配置決定部が選択された場合は、前記画像外配置決定部が決定した配置に従って、前記複数のサブ画像と前記入力画像とを前記表示器に表示させる、画像表示方法。
コンピュータに、
入力画像から複数の注目領域を検出する検出部の機能と、
前記複数の注目領域の画像の各々に対して視認性を向上させる補正を施して、前記複数の注目領域の各々に対応する複数のサブ画像を生成する生成部の機能と、
前記複数のサブ画像の前記入力画像上における配置を、各サブ画像が、少なくとも他のサブ画像および当該サブ画像に対応する注目領域以外の他の注目領域と重ならず、かつ、前記複数の注目領域のうち最も近い注目領域が当該サブ画像に対応する注目領域となるように決定する配置決定部の機能と、
前記注目領域に含まれる対象に対する認識処理を行う認識部の機能と、
前記複数のサブ画像の各々を、決定した配置に従って前記入力画像上に重畳して表示器に表示させ、前記認識処理が終了すると、前記認識処理の結果を、前記サブ画像との対応関係を示す画面表現を伴う形式で前記表示器にさらに表示させる表示制御部の機能と、を実現させ、
前記検出部は、前記入力画像中で前記認識処理の対象が含まれている確からしさを表すスコアが閾値を超える領域を前記注目領域として検出するものであり、
前記表示制御部は、前記表示器が表示している前記入力画像中で前記サブ画像が重畳されていない位置を指定した第３操作が行われた場合、指定された位置をピークとして該位置の周辺に向かうに従い減衰するボーナス値を設定し、
前記検出部は、前記ボーナス値が設定された場合、前記ボーナス値が加算された前記スコアが前記閾値を超える領域を前記注目領域として検出する、プログラム。
コンピュータに、
入力画像から複数の注目領域を検出する検出部の機能と、
前記複数の注目領域の画像の各々に対して視認性を向上させる補正を施して、前記複数の注目領域の各々に対応する複数のサブ画像を生成する生成部の機能と、
前記複数のサブ画像の前記入力画像上における配置を、各サブ画像が、少なくとも他のサブ画像および当該サブ画像に対応する注目領域以外の他の注目領域と重ならず、かつ、前記複数の注目領域のうち最も近い注目領域が当該サブ画像に対応する注目領域となるように決定する配置決定部の機能と、
前記複数のサブ画像の各々を、決定した配置に従って前記入力画像上に重畳して表示器に表示させる表示制御部の機能と、
前記複数のサブ画像の前記入力画像の外部における配置を、各サブ画像が、少なくとも他のサブ画像と重ならず、かつ、前記入力画像における前記複数の注目領域の上下方向の位置に従った並び順で前記複数のサブ画像が上下方向に並ぶように決定する画像外配置決定部の機能と、を実現させ、
前記表示制御部は、前記配置決定部と前記画像外配置決定部のいずれかを選択する第４操作に応じて表示方法を切り替える機能を有し、前記第４操作により前記画像外配置決定部が選択された場合は、前記画像外配置決定部が決定した配置に従って、前記複数のサブ画像と前記入力画像とを前記表示器に表示させる、プログラム。