JP5433396B2

JP5433396B2 - マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法

Info

Publication number: JP5433396B2
Application number: JP2009287145A
Authority: JP
Inventors: 啓一郎帆足; 康弘滝嶋
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2009-12-18
Filing date: 2009-12-18
Publication date: 2014-03-05
Anticipated expiration: 2029-12-18
Also published as: JP2011128924A

Description

本発明は、画像からテキストを抽出する画像解析技術に関する。また、その画像をキーワードによって検索する画像検索技術に関する。

近年、インターネットを介して、電子書籍を配信・販売するサイトが多く開設されている。このようなサイトでは、検索機能が充実し、様々な要素に基づいて電子書籍を検索することができる。電子書籍としては、文章に基づく小説等の書籍に限られず、画像に基づくマンガのような書籍も含まれる。これら電子書籍には、メタ情報（タイトル、作者名、ジャンル等）が付加されており、ユーザは、そのメタ情報を検索要素として検索することもできる。例えば電子書籍が文章に基づくものである場合、文章内のテキストを、キーワードによって検索することもできる。

一方で、異なる技術として、従来、画像から文字領域を抽出する技術がある（例えば特許文献１〜３参照）。この技術によれば、例えば文字が紙に印字された画像を入力とし、文字が出現する領域を自動的に抽出することができる。文字を検出するために、文字のフォントのエッジ特徴や、その輪郭を囲む矩形領域の間隔などを考慮する。

特開平８−２９３００３号公報特開２００５−２７５８５４号公報特開２００９−１３０８９９号公報

D. Lowe、「Distinctive image features fromscale-invariant keypoints」、IEEE Trans. Pattern Analysis Machine Intelligence,20: 91-110, 2004. M. Ester, H.-P. Kriegel, J. Sander, and X.Xu、「A density-based algorithm for discovering clusters in large spatialdatabases with noise」、in Proceedings from 2nd International Conference onKnowledge Discovery and Data Mining, 1996, pp. 226-230. 藤吉弘亘、「Gradientベースの特徴抽出」、中部大学工学部情報工学科、[online]、［平成２１年１２月３日検索］、インターネット＜URL:http://ci.nii.ac.jp/naid/110006423317/＞石井大祐、河村圭、渡辺裕、早稲田大学大学院国際情報通信研究科、「コミックのコマ分割処理に関する一検討」、電子情報通信学会論文誌 D Vol.J90-D No.7 pp.1667-1670、２００７年、画像符号化・映像メディア処理レター特集、[online]、［平成２１年１２月９日検索］、インターネット＜URL:http://www.ams.giti.waseda.ac.jp/pdf-files/j90-d_7_1667.pdf＞

電子書籍の中でも、マンガコンテンツは、多くのユーザによって所望される重要なコンテンツとなっている。しかしながら、マンガコンテンツは、画像に基づくものであるために、一般に、メタ情報の単位でしか検索することができない。マンガ画像の中には、吹き出しでテキストが記述されているが、これらテキストも画像の一部として認識されているからである。そのため、例えば、マンガ画像における特定のセリフをキーワードとして、マンガ画像を検索することができない。

図１は、マンガ画像の例である。

図１によれば、マンガ画像は、コマ画像単位に区分されていることが多く、画像の吹き出しの中に、台詞のようなテキストが含まれている。また、マンガ画像は、一般的にモノクロであって、画像のみならずテキスト自体も、人手に基づくペン又は筆によって描かれている場合も多い。そのため、マンガ画像は、風景写真のような画像と異なって、全体的にエッジが多いという特性がある。

これに対し、例えば特許文献１〜３に記載されたような技術によれば、文字のフォントのエッジ特徴を利用して、画像から文字領域を抽出しようとする。そのために、人手に基づいて描かれた文字列から、文字領域を抽出することは極めて難しい。

そこで、本発明は、マンガ画像を画像的に解析することによって、文字領域を適切に特定し、そこに記述されたテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法を提供することを目的とする。

本発明によれば、マンガ画像に記述されたテキストを抽出するマンガ画像解析装置であって、
解析対象のマンガ画像から、多数の特徴点を抽出する対象用特徴点抽出手段と、
多数の特徴点を、画像上の分布密度に基づいてクラスタリングする位置的クラスタリング手段と、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出するサブ領域画像抽出手段と、
サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出するサブ領域ベクトル算出手段と、
サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類するサブ領域画像分類手段と、
文字領域と判定されたサブ領域画像から、テキストを抽出するテキスト抽出手段と
を有することを特徴とする。

本発明のマンガ画像解析装置によれば、
学習用画像から、多数の特徴点を抽出する学習用特徴点抽出手段と、
多数の特徴点を、当該特徴値に基づいてｋ個の学習クラスタにクラスタリングする要素的クラスタリング手段と、
要素的クラスタ毎に、当該クラスタに含まれる全ての特徴点から、当該クラスタにおける特徴ベクトルを算出する学習用クラスタベクトル算出手段と、
要素的クラスタ毎に、当該クラスタに含まれる特徴点が文字領域であるか否かを学習させた画像分類学習手段と
を更に有し、
サブ領域画像分類手段によって用いられる学習データは、画像分類学習手段によって学習された学習データであることも好ましい。

本発明のマンガ画像解析装置によれば、
要素的クラスタリング手段は、k-meansクラスタリングによってｋ個の学習クラスタに分類し、
サブ領域ベクトル算出手段及び学習用クラスタベクトル算出手段は、ｋ個の学習クラスタに対応したｋ次元の特徴ベクトルを算出し、
画像分類学習手段は、文字領域と判定されるｋ次元の特徴ベクトルの学習データを生成することも好ましい。

本発明のマンガ画像解析装置によれば、対象用特徴点抽出手段及び学習用特徴点抽出手段は、特徴点をＳＩＦＴ(Scale-Invariant Feature Transform)によって検出することも好ましい。

本発明のマンガ画像解析装置によれば、画像分類学習手段は、サポートベクタマシン(Support Vector Machine)を用いることも好ましい。

本発明のマンガ画像解析装置によれば、テキスト抽出手段は、文字領域と判定されたサブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定するＯＣＲ(Optical Character Recognition)であることも好ましい。

本発明のマンガ画像解析装置によれば、
解析対象のマンガ画像から、画像上の直線によって囲まれるコマ画像単位に区分するコマ画像抽出手段を更に有し、
コマ画像毎に、対象用特徴点抽出手段が多数の特徴点を抽出することも好ましい。

本発明によれば、前述したマンガ画像解析装置における全ての機能を含むマンガ画像検索装置であって、
テキスト抽出手段によって抽出されたテキストをインデックスとして、マンガ画像の識別情報に対応付けて記憶するインデックス記憶手段と、
検索キーワードを入力する検索キーワード入力手段と、
インデックス記憶手段を用いて、検索キーワードと一致するインデックスを含むマンガ画像の識別情報を検索するマンガ画像検索手段と、
検索されたマンガ画像の識別情報を出力する検索結果出力手段と
を更に有することを特徴とする。

本発明のマンガ画像検索装置によれば、
テキスト抽出手段は、文字領域と判定されたサブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定するＯＣＲであり、当該ＯＣＲによって文字サイズをインデックス記憶手段へ出力するものであり、
インデックス記憶手段は、テキスト毎に優先度を対応付けて記憶するものであって、テキスト抽出手段から出力された文字サイズが大きいテキストほど、高い優先度を対応付けており、
マンガ検索手段は、インデックス記憶手段に記憶された優先度が高いテキストほど、優先的に検索結果として出力することも好ましい。

本発明によれば、マンガ画像に記述されたテキストを抽出する装置に搭載されたコンピュータを機能させるプログラムであって、
解析対象のマンガ画像から、多数の特徴点を抽出する対象用特徴点抽出手段と、
多数の特徴点を、画像上の分布密度に基づいてクラスタリングする位置的クラスタリング手段と、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出するサブ領域画像抽出手段と、
サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出するサブ領域ベクトル算出手段と、
サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類するサブ領域画像分類手段と、
文字領域と判定されたサブ領域画像から、テキストを抽出するテキスト抽出手段と
してコンピュータを機能させることを特徴とする。

本発明によれば、マンガ画像に記述されたテキストを抽出する装置におけるマンガ画像解析方法であって、
解析対象のマンガ画像から、多数の特徴点を抽出する第１のステップと、
多数の特徴点を、画像上の分布密度に基づいてクラスタリングする第２のステップと、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出する第３のステップと、
サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出する第４のステップと、
サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類する第５のステップと、
文字領域と判定されたサブ領域画像から、テキストを抽出する第６のステップと
を有することを特徴とする。

本発明のマンガ画像解析装置、プログラム、検索装置及び方法によれば、マンガ画像を画像的に解析することによって、文字領域を適切に特定し、そこに記述されたテキストを抽出することができる。また、抽出されたテキストを、マンガ画像にインデックスとして対応付けることによって、キーワードによってマンガ画像を検索することができる。

マンガ画像の例である。本発明におけるマンガ画像解析装置の基本的な機能構成図である。マンガ画像解析の経過に基づく画像の特徴点を表すイメージ図である。本発明のマンガ画像解析装置における学習処理部の機能構成図である。学習処理の経過に基づく画像の特徴点を表すイメージ図である。本発明におけるマンガ画像検索装置の機能構成図である。本発明のマンガ検索装置を備えたシステム構成図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図２は、本発明におけるマンガ画像解析装置の基本的な機能構成図である。また、図３は、マンガ画像解析の経過に基づく画像の特徴点を表すイメージ図である。

マンガ画像解析装置１は、マンガ画像に記述されたテキストを抽出する。この用途として、例えば、抽出されたテキストをそのマンガ画像にインデックスとして対応付けることによって、マンガ画像をキーワードによって検索することができる。

図２によれば、マンガ画像解析装置１は、マンガ画像蓄積部１０と、マンガ画像解析部１１とを有する。

マンガ画像蓄積部１０は、解析対象のマンガ画像を蓄積しており、そのマンガ画像をマンガ画像解析部１１へ出力する。解析対象のマンガ画像は、例えば前述した図１のような画像である。

マンガ画像解析部１１は、解析対象のマンガ画像に記述されたテキストを抽出するものであって、コマ画像抽出部１１１と、対象用特徴点抽出部１１２と、位置的クラスタリング部１１３と、サブ領域画像抽出部１１４と、サブ領域ベクトル算出部１１５と、サブ領域画像分類部１１６と、テキスト抽出部１１７とを有する。これら機能構成は、装置に搭載されたコンピュータを機能させるマンガ画像解析プログラムを実行することによって実現される。また、これら機能構成からなる処理フローは、装置におけるマンガ画像解析方法としても理解される。

コマ画像抽出部１１１は、マンガ画像を、コマ画像単位で解析する場合に備えられる。コマ画像抽出部１１１は、解析対象のマンガ画像から、画像上の直線によって囲まれるコマ画像単位に区分する。図３（ａ）は、コマ画像を特定するイメージ図である。コマ画像に分割するために、帯を用いた直線検出により分割線候補を検出し、分割線適合検査によって分割線を決定する技術がある（例えば非特許文献４参照）。この技術によれば、分割線候補は、幅１画素の検出線画素を検出し、検出線角度が横軸に対して±４５°以内であれば縦軸方向に隣接した２つの検出線と、それ以外であれば横軸方向に隣接した検出線とを「検出帯」とする。それら検出帯について、濃度勾配方向検査と、コマ内外検査とによって、コマ画像に分割する。分割されたコマ画像単位で、解析対象のマンガ画像として、位置的クラスタリング部１１３へ出力される。

尚、マンガ画像が、コマ画像単位に予め区分されている場合には、コマ画像抽出部１１１は、当然に備える必要はない。例えば、携帯電話機向けに配信されているマンガ画像の場合、コマ画像単位に人手によって予め区分されているからである。コマ画像抽出部１１１は、あくまでオプション的なものであって、図２によれば破線によって描かれている。

対象用特徴点抽出部１１２は、解析対象のマンガ画像から、多数の特徴点を抽出する。図３（ｂ）は、マンガ画像から検出された特徴点を表すイメージ図である。「特徴点」とは、視覚的な特徴を表す点であって、例えばＳＩＦＴ(Scale-Invariant Feature Transform)を用いて検出することができる（例えば非特許文献１又は３参照）。ＳＩＦＴとは、スケールスペースを用いて画像構造を解析し、画像のスケール変化及び回転に不変となる特徴量を記述する技術である。ＳＩＦＴによれば、特徴点を検出するために、以下の２つのステップを要する。
（Ｓ１）スケールスペースの極値探索によってキーポイント及びスケールを決定する。
（Ｓ２）決定されたキーポイントの中で、主曲率及びコントラストによって安定したキーポイントに絞り込む。
このようにして抽出された多数の特徴点は、位置的クラスタリング部１１３へ出力される。

位置的クラスタリング部１１３は、多数の特徴点を、画像上の分布密度に基づいてクラスタリングする。ここでのクラスタリングは、特徴点の特徴に基づくクラスタリングではなく、特徴点の画像上の「位置」に基づくクラスタリングである。例えば、DBSCANアルゴリズムを適用することにより（例えば非特許文献２参照）、画像上の位置的に高密度に分布する特徴点をクラスタとして抽出する。

サブ領域画像抽出部１１４は、位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠（例えば外接多角形）から、画像上のサブ領域画像を抽出する。図３（ｃ）は、特徴点を用いて検出されたサブ領域を表すイメージ図である。

サブ領域ベクトル算出部１１５は、サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出する。ここで、特徴ベクトルとは、ｋ個の学習クラスタに対応したｋ次元のベクトル(v₁,v₂,・・・,v_k)を表す。当該サブ領域画像に含まれる１つの特徴点の特徴量が、各学習クラスタの特徴量に対する指数として表される。ここで、ｋ個の学習クラスタは、予め生成されたものであってもよいし、図４で後述するものであってもよい。

サブ領域画像分類部１１６は、サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類する。ここで「学習データ」とは、予め文字領域が特定された領域画像における特徴ベクトルである。この学習データは、文字領域であるとする「正例」に限られず、文字領域でないとする「負例」であってもよい。尚、学習データは、予め生成されたものであってもよいし、図４で後述するものであってもよい。

テキスト抽出部１１７は、文字領域と判定されたサブ領域画像から、テキストを抽出する。テキスト抽出部１１７は、例えば、文字領域と判定されたサブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定する既存のＯＣＲ(Optical Character Recognition)を用いたものであってもよい。

図４は、本発明のマンガ画像解析装置における学習処理部の機能構成図である。また、図５は、学習処理の経過に基づく画像の特徴点を表すイメージ図である。

図４のマンガ画像解析装置１によれば、図２の機能構成部に加えて、学習用特徴点抽出部１２１と、要素的クラスタリング部１２２と、学習用クラスタベクトル算出部１２３と、画像分類学習部１２４とを更に有する。これら機能構成も、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。

学習用特徴点抽出部１２１は、学習用画像から、多数の特徴点を抽出する。図５（ａ）は、学習用画像から検出された特徴点を表すイメージ図である。前述した対象用特徴点抽出部１１２と同様に、例えばＳＩＦＴを用いて検出することができる。抽出された多数の特徴点は、要素的クラスタリング部１２２へ出力される。

要素的クラスタリング部１２２は、多数の特徴点を、当該特徴値に基づいてｋ個の学習クラスタにクラスタリングする。ここで、クラスタリングには、k-meansの方式が用いられてもよい。図５（ｂ）は、特徴点のk-meansクラスタリングを表すイメージ図である。そして、ｋ個の学習クラスタのそれぞれについて、当該クラスタの代表特徴値を算出する。例えば、多数の特徴値からなるクラスタ毎に、それら特徴値の重心をもって代表特徴値とみなすものであってもよい。

学習用クラスタベクトル算出部１２３は、要素的クラスタ毎に、当該クラスタに含まれる全ての特徴点から、当該クラスタにおける特徴ベクトル(v₁,v₂,・・・,v_k)を算出する。学習用クラスタベクトル算出部１２３は、前述したサブ領域ベクトル算出部１１４と同様に、ｋ個の学習クラスタに対応したｋ次元のベクトルを算出する。

画像分類学習部１２４は、要素的クラスタ毎に、当該クラスタに含まれる特徴点が文字領域であるか否かを学習させたものである。具体的には、学習用画像について、予め与えられたサブ領域画像毎に、ｋ次元のベクトルを算出する。具体的には、各サブ領域画像に分布する特徴点と、要素的クラスタリング部１２２によって得られたｋ個の学習クラスタの代表要素点との距離を算出し、各特徴点が属するクラスタを決定する。図５（ｃ）は、各要素クラスタリングに対するサブ領域画像のベクトルの対応を表すイメージ図である。その結果、各クラスタに属する特徴点の数（又は割合）を特徴値とするｋ次元ベクトルを生成することができる。

画像分類学習部１２４は、サポートベクタマシン(Support Vector Machine)を用いるものであってもよい。サポートベクタマシンとは、教師有り学習を用いる識別アルゴリズムであって、パターン認識に適用される。サポートベクタマシンは、線形入力素子を用いて２クラスのパターン識別器を構成するものであって、学習サンプルから、各特徴値との距離を算出することによって、線形入力素子のパラメータを学習する。具体的には、学習用画像の中で文字領域と指定されたサブ領域のベクトルを「正例」とし、それ以外のベクトルを「負例」して、画像分類用の学習データを生成する。

従って、マンガ画像解析部１１のサブ領域ベクトル算出部１１５は、画像分類学習部１２４に基づくｋ個の学習クラスタに対応したｋ次元のベクトル(v₁,v₂,・・・,v_k)を利用することができる。また、マンガ画像解析部１１のサブ領域画像分類部１１６は、画像分類学習部１２４によって生成された画像分類用の学習データを用いて、マンガ画像から抽出されたサブ領域画像が、文字領域か否かを分類する。

図６は、本発明のマンガ画像解析装置における検索処理部の機能構成図である。

図６によれば、図２又は図４のマンガ画像解析装置における全ての機能を含むマンガ画像検索装置２が表されている。マンガ画像検索装置２は、更に、インデックス記憶部１３と、インタフェース部１４と、検索キーワード入力部１３１と、マンガ画像検索部１３２と、検索結果出力部１３３とを有する。検索キーワード入力部１３１、マンガ画像検索部１３２及び検索結果出力部１３３は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。

インデックス記憶部１３は、マンガ画像解析部１１によって抽出されたテキストをインデックスとして、マンガ画像の識別情報に対応付けて記憶する。マンガ画像がコマ画像単位に区分されている場合、そのコマ画像の識別情報に、インデックスが対応付けられる。コマ画像の識別情報は、例えばマンガ画像の識別情報に加えて、その画像内のコマ番号又は座標によって特定される。

尚、マンガ画像の識別番号に、テキストがそのまま対応付けられているものであってもよいし、形態素解析によって形態素単位に区分されて対応付けられているものであってもよい。

インタフェース部１４は、ユーザインタフェースであってもよいし、通信インタフェースであってもよい。ユーザインタフェースである場合、例えば検索キーワードをキーボードによって入力し、その検索結果（識別番号又はマンガ画像自体）をディスプレイに表示するものであってもよい。通信インタフェースである場合、ネットワークを介して端末から検索キーワードを受信し、その検索結果を端末へ返信する。

検索キーワード入力部１３１は、インタフェース部１４から検索キーワード（クエリ）を入力し、その検索キーワードをマンガ画像検索部１３２へ出力する。

マンガ画像検索部１３２は、インデックス記憶部１３を用いて、入力された検索キーワードと一致（又は類似）するインデックスを含むマンガ画像の識別情報を検索する。検索キーワードとインデックスとの間で、編集距離が一定距離以下であるものを、類似するとして検索してもよい。その検索結果は、検索結果出力部１３３へ出力される。

検索結果出力部１３３は、検索結果となるマンガ画像の識別情報又はマンガ画像自体を、インタフェース部１４へ出力する。

ここで、他の実施形態として、マンガ画像解析部１１のテキスト抽出部１１７が、ＯＣＲによって文字サイズを、インデックス記憶部１３へ出力することも好ましい。これによって、インデックス記憶部１３は、テキスト毎に優先度を対応付けて記憶することができる。ここで、文字サイズが大きいテキストほど、高い優先度を対応付ける。

また、マンガ検索部１３２は、インデックス記憶部１３に記憶された優先度が高いテキストほど、優先的に検索結果として出力する。これによって、マンガ画像の中で、文字サイズが大きいテキストほど、優先度の高いインデックスとして検索することができる。

図７は、本発明のマンガ検索装置を備えたシステム構成図である。

図７によれば、マンガ画像検索装置２が、インターネットに接続されており、マンガ画像データベース３、携帯電話機４及び端末５と通信することができる。マンガ画像データベース３は、マンガ画像を蓄積したデータベースであって、マンガコンテンツ（マンガ画像）をマンガ画像検索装置２へ送信する。マンガ画像検索装置２は、そのマンガコンテンツについてインデックスを生成することができる。一方で、携帯電話機４及び端末５は、アクセスネットワークを介してインターネットに接続し、マンガ画像検索装置２へ、ユーザの操作に応じた検索キーワードを送信する。これに対し、マンガ画像検索装置２は、その検索結果を、携帯電話機４及び端末５へ返信する。

以上、詳細に説明したように、本発明のマンガ画像解析装置、プログラム、検索装置及び方法によれば、マンガ画像を画像的に解析することによって、文字領域を適切に特定し、そこに記述されたテキストを抽出することができる。また、抽出されたテキストを、マンガ画像にインデックスとして対応付けることによって、キーワードによってマンガ画像を検索することができる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１マンガ画像解析装置
１０マンガ画像蓄積部
１１１コマ画像抽出部
１１２対象用特徴点抽出部
１１３位置的クラスタリング部
１１４サブ領域画像抽出部
１１５サブ領域ベクトル算出部
１１６サブ領域画像分類部
１１７テキスト抽出部
１２１学習用特徴点抽出部
１２２要素的クラスタリング部
１２３学習用クラスタベクトル算出部
１２４画像分類学習部
１３インデックス記憶部
１３１検索キーワード入力部
１３２マンガ画像検索部
１３３検索結果出力部
１４インタフェース部
２マンガ画像検索装置
３マンガ画像データベース
４携帯電話機
５端末

Claims

マンガ画像に記述されたテキストを抽出するマンガ画像解析装置であって、
解析対象のマンガ画像から、多数の特徴点を抽出する対象用特徴点抽出手段と、
前記多数の特徴点を、画像上の分布密度に基づいてクラスタリングする位置的クラスタリング手段と、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出するサブ領域画像抽出手段と、
前記サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出するサブ領域ベクトル算出手段と、
前記サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類するサブ領域画像分類手段と、
文字領域と判定された前記サブ領域画像から、テキストを抽出するテキスト抽出手段と
を有することを特徴とするマンガ画像解析装置。
学習用画像から、多数の特徴点を抽出する学習用特徴点抽出手段と、
前記多数の特徴点を、当該特徴値に基づいてｋ個の学習クラスタにクラスタリングする要素的クラスタリング手段と、
要素的クラスタ毎に、当該クラスタに含まれる全ての特徴点から、当該クラスタにおける特徴ベクトルを算出する学習用クラスタベクトル算出手段と、
要素的クラスタ毎に、当該クラスタに含まれる特徴点が文字領域であるか否かを学習させた画像分類学習手段と
を更に有し、
前記サブ領域画像分類手段によって用いられる前記学習データは、前記画像分類学習手段によって学習された学習データである
ことを特徴とする請求項１に記載のマンガ画像解析装置。
前記要素的クラスタリング手段は、k-meansクラスタリングによってｋ個の学習クラスタに分類し、
前記サブ領域ベクトル算出手段及び前記学習用クラスタベクトル算出手段は、ｋ個の学習クラスタに対応したｋ次元の特徴ベクトルを算出し、
前記画像分類学習手段は、文字領域と判定されるｋ次元の特徴ベクトルの学習データを生成する
ことを特徴とする請求項２に記載のマンガ画像解析装置。
前記対象用特徴点抽出手段及び前記学習用特徴点抽出手段は、前記特徴点をＳＩＦＴ(Scale-Invariant Feature Transform)によって検出することを特徴とする請求項２又は３に記載のマンガ画像解析装置。
前記画像分類学習手段は、サポートベクタマシン(Support Vector Machine)を用いることを特徴とする請求項２から４のいずれか１項に記載のマンガ画像解析装置。
前記テキスト抽出手段は、文字領域と判定された前記サブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定するＯＣＲ(Optical Character Recognition)であることを特徴とする請求項１から５のいずれか１項に記載のマンガ画像解析装置。
解析対象のマンガ画像から、画像上の直線によって囲まれるコマ画像単位に区分するコマ画像抽出手段を更に有し、
前記コマ画像毎に、前記対象用特徴点抽出手段が多数の特徴点を抽出することを特徴とする請求項１から６のいずれか１項に記載のマンガ画像解析装置。
請求項１から７のいずれか１項に記載のマンガ画像解析装置における全ての機能を含むマンガ画像検索装置であって、
前記テキスト抽出手段によって抽出された前記テキストをインデックスとして、前記マンガ画像の識別情報に対応付けて記憶するインデックス記憶手段と、
検索キーワードを入力する検索キーワード入力手段と、
前記インデックス記憶手段を用いて、前記検索キーワードと一致するインデックスを含むマンガ画像の識別情報を検索するマンガ画像検索手段と、
検索されたマンガ画像の識別情報を出力する検索結果出力手段と
を更に有することを特徴とするマンガ画像検索装置。
前記テキスト抽出手段は、文字領域と判定された前記サブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定するＯＣＲであり、当該ＯＣＲによって文字サイズを前記インデックス記憶手段へ出力するものであり、
前記インデックス記憶手段は、前記テキスト毎に優先度を対応付けて記憶するものであって、前記テキスト抽出手段から出力された前記文字サイズが大きいテキストほど、高い優先度を対応付けており、
前記マンガ検索手段は、前記インデックス記憶手段に記憶された前記優先度が高いテキストほど、優先的に検索結果として出力する
ことを特徴とする請求項８に記載のマンガ画像検索装置。
マンガ画像に記述されたテキストを抽出する装置に搭載されたコンピュータを機能させるプログラムであって、
解析対象のマンガ画像から、多数の特徴点を抽出する対象用特徴点抽出手段と、
前記多数の特徴点を、画像上の分布密度に基づいてクラスタリングする位置的クラスタリング手段と、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出するサブ領域画像抽出手段と、
前記サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出するサブ領域ベクトル算出手段と、
前記サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類するサブ領域画像分類手段と、
文字領域と判定された前記サブ領域画像から、テキストを抽出するテキスト抽出手段と
してコンピュータを機能させることを特徴とするマンガ画像解析用のプログラム。
マンガ画像に記述されたテキストを抽出する装置におけるマンガ画像解析方法であって、
解析対象のマンガ画像から、多数の特徴点を抽出する第１のステップと、
前記多数の特徴点を、画像上の分布密度に基づいてクラスタリングする第２のステップと、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出する第３のステップと、
前記サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出する第４のステップと、
前記サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類する第５のステップと、
文字領域と判定された前記サブ領域画像から、テキストを抽出する第６のステップと
を有することを特徴とするマンガ画像解析方法。