JP5433396B2 - マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法 - Google Patents

マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法 Download PDF

Info

Publication number
JP5433396B2
JP5433396B2 JP2009287145A JP2009287145A JP5433396B2 JP 5433396 B2 JP5433396 B2 JP 5433396B2 JP 2009287145 A JP2009287145 A JP 2009287145A JP 2009287145 A JP2009287145 A JP 2009287145A JP 5433396 B2 JP5433396 B2 JP 5433396B2
Authority
JP
Japan
Prior art keywords
image
manga
region
sub
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009287145A
Other languages
English (en)
Other versions
JP2011128924A (ja
Inventor
啓一郎 帆足
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2009287145A priority Critical patent/JP5433396B2/ja
Publication of JP2011128924A publication Critical patent/JP2011128924A/ja
Application granted granted Critical
Publication of JP5433396B2 publication Critical patent/JP5433396B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、画像からテキストを抽出する画像解析技術に関する。また、その画像をキーワードによって検索する画像検索技術に関する。
近年、インターネットを介して、電子書籍を配信・販売するサイトが多く開設されている。このようなサイトでは、検索機能が充実し、様々な要素に基づいて電子書籍を検索することができる。電子書籍としては、文章に基づく小説等の書籍に限られず、画像に基づくマンガのような書籍も含まれる。これら電子書籍には、メタ情報(タイトル、作者名、ジャンル等)が付加されており、ユーザは、そのメタ情報を検索要素として検索することもできる。例えば電子書籍が文章に基づくものである場合、文章内のテキストを、キーワードによって検索することもできる。
一方で、異なる技術として、従来、画像から文字領域を抽出する技術がある(例えば特許文献1〜3参照)。この技術によれば、例えば文字が紙に印字された画像を入力とし、文字が出現する領域を自動的に抽出することができる。文字を検出するために、文字のフォントのエッジ特徴や、その輪郭を囲む矩形領域の間隔などを考慮する。
特開平8−293003号公報 特開2005−275854号公報 特開2009−130899号公報
D. Lowe、「Distinctive image features fromscale-invariant keypoints」、IEEE Trans. Pattern Analysis Machine Intelligence,20: 91-110, 2004. M. Ester, H.-P. Kriegel, J. Sander, and X.Xu、「A density-based algorithm for discovering clusters in large spatialdatabases with noise」、in Proceedings from 2nd International Conference onKnowledge Discovery and Data Mining, 1996, pp. 226-230. 藤吉弘亘、「Gradientベースの特徴抽出」、中部大学工学部情報工学科、[online]、[平成21年12月3日検索]、インターネット<URL:http://ci.nii.ac.jp/naid/110006423317/> 石井大祐、河村圭、渡辺裕、早稲田大学大学院国際情報通信研究科、「コミックのコマ分割処理に関する一検討」、電子情報通信学会論文誌 D Vol.J90-D No.7 pp.1667-1670、2007年、画像符号化・映像メディア処理レター特集、[online]、[平成21年12月9日検索]、インターネット<URL:http://www.ams.giti.waseda.ac.jp/pdf-files/j90-d_7_1667.pdf>
電子書籍の中でも、マンガコンテンツは、多くのユーザによって所望される重要なコンテンツとなっている。しかしながら、マンガコンテンツは、画像に基づくものであるために、一般に、メタ情報の単位でしか検索することができない。マンガ画像の中には、吹き出しでテキストが記述されているが、これらテキストも画像の一部として認識されているからである。そのため、例えば、マンガ画像における特定のセリフをキーワードとして、マンガ画像を検索することができない。
図1は、マンガ画像の例である。
図1によれば、マンガ画像は、コマ画像単位に区分されていることが多く、画像の吹き出しの中に、台詞のようなテキストが含まれている。また、マンガ画像は、一般的にモノクロであって、画像のみならずテキスト自体も、人手に基づくペン又は筆によって描かれている場合も多い。そのため、マンガ画像は、風景写真のような画像と異なって、全体的にエッジが多いという特性がある。
これに対し、例えば特許文献1〜3に記載されたような技術によれば、文字のフォントのエッジ特徴を利用して、画像から文字領域を抽出しようとする。そのために、人手に基づいて描かれた文字列から、文字領域を抽出することは極めて難しい。
そこで、本発明は、マンガ画像を画像的に解析することによって、文字領域を適切に特定し、そこに記述されたテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法を提供することを目的とする。
本発明によれば、マンガ画像に記述されたテキストを抽出するマンガ画像解析装置であって、
解析対象のマンガ画像から、多数の特徴点を抽出する対象用特徴点抽出手段と、
多数の特徴点を、画像上の分布密度に基づいてクラスタリングする位置的クラスタリング手段と、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出するサブ領域画像抽出手段と、
サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出するサブ領域ベクトル算出手段と、
サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類するサブ領域画像分類手段と、
文字領域と判定されたサブ領域画像から、テキストを抽出するテキスト抽出手段と
を有することを特徴とする。
本発明のマンガ画像解析装置によれば、
学習用画像から、多数の特徴点を抽出する学習用特徴点抽出手段と、
多数の特徴点を、当該特徴値に基づいてk個の学習クラスタにクラスタリングする要素的クラスタリング手段と、
要素的クラスタ毎に、当該クラスタに含まれる全ての特徴点から、当該クラスタにおける特徴ベクトルを算出する学習用クラスタベクトル算出手段と、
要素的クラスタ毎に、当該クラスタに含まれる特徴点が文字領域であるか否かを学習させた画像分類学習手段と
を更に有し、
サブ領域画像分類手段によって用いられる学習データは、画像分類学習手段によって学習された学習データであることも好ましい。
本発明のマンガ画像解析装置によれば、
要素的クラスタリング手段は、k-meansクラスタリングによってk個の学習クラスタに分類し、
サブ領域ベクトル算出手段及び学習用クラスタベクトル算出手段は、k個の学習クラスタに対応したk次元の特徴ベクトルを算出し、
画像分類学習手段は、文字領域と判定されるk次元の特徴ベクトルの学習データを生成することも好ましい。
本発明のマンガ画像解析装置によれば、対象用特徴点抽出手段及び学習用特徴点抽出手段は、特徴点をSIFT(Scale-Invariant Feature Transform)によって検出することも好ましい。


本発明のマンガ画像解析装置によれば、画像分類学習手段は、サポートベクタマシン(Support Vector Machine)を用いることも好ましい。
本発明のマンガ画像解析装置によれば、テキスト抽出手段は、文字領域と判定されたサブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定するOCR(Optical Character Recognition)であることも好ましい。
本発明のマンガ画像解析装置によれば、
解析対象のマンガ画像から、画像上の直線によって囲まれるコマ画像単位に区分するコマ画像抽出手段を更に有し、
コマ画像毎に、対象用特徴点抽出手段が多数の特徴点を抽出することも好ましい。
本発明によれば、前述したマンガ画像解析装置における全ての機能を含むマンガ画像検索装置であって、
テキスト抽出手段によって抽出されたテキストをインデックスとして、マンガ画像の識別情報に対応付けて記憶するインデックス記憶手段と、
検索キーワードを入力する検索キーワード入力手段と、
インデックス記憶手段を用いて、検索キーワードと一致するインデックスを含むマンガ画像の識別情報を検索するマンガ画像検索手段と、
検索されたマンガ画像の識別情報を出力する検索結果出力手段と
を更に有することを特徴とする。
本発明のマンガ画像検索装置によれば、
テキスト抽出手段は、文字領域と判定されたサブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定するOCRであり、当該OCRによって文字サイズをインデックス記憶手段へ出力するものであり、
インデックス記憶手段は、テキスト毎に優先度を対応付けて記憶するものであって、テキスト抽出手段から出力された文字サイズが大きいテキストほど、高い優先度を対応付けており、
マンガ検索手段は、インデックス記憶手段に記憶された優先度が高いテキストほど、優先的に検索結果として出力することも好ましい。
本発明によれば、マンガ画像に記述されたテキストを抽出する装置に搭載されたコンピュータを機能させるプログラムであって、
解析対象のマンガ画像から、多数の特徴点を抽出する対象用特徴点抽出手段と、
多数の特徴点を、画像上の分布密度に基づいてクラスタリングする位置的クラスタリング手段と、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出するサブ領域画像抽出手段と、
サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出するサブ領域ベクトル算出手段と、
サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類するサブ領域画像分類手段と、
文字領域と判定されたサブ領域画像から、テキストを抽出するテキスト抽出手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、マンガ画像に記述されたテキストを抽出する装置におけるマンガ画像解析方法であって、
解析対象のマンガ画像から、多数の特徴点を抽出する第1のステップと、
多数の特徴点を、画像上の分布密度に基づいてクラスタリングする第2のステップと、
位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出する第3のステップと、
サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出する第4のステップと、
サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類する第5のステップと、
文字領域と判定されたサブ領域画像から、テキストを抽出する第6のステップと
を有することを特徴とする。
本発明のマンガ画像解析装置、プログラム、検索装置及び方法によれば、マンガ画像を画像的に解析することによって、文字領域を適切に特定し、そこに記述されたテキストを抽出することができる。また、抽出されたテキストを、マンガ画像にインデックスとして対応付けることによって、キーワードによってマンガ画像を検索することができる。
マンガ画像の例である。 本発明におけるマンガ画像解析装置の基本的な機能構成図である。 マンガ画像解析の経過に基づく画像の特徴点を表すイメージ図である。 本発明のマンガ画像解析装置における学習処理部の機能構成図である。 学習処理の経過に基づく画像の特徴点を表すイメージ図である。 本発明におけるマンガ画像検索装置の機能構成図である。 本発明のマンガ検索装置を備えたシステム構成図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図2は、本発明におけるマンガ画像解析装置の基本的な機能構成図である。また、図3は、マンガ画像解析の経過に基づく画像の特徴点を表すイメージ図である。
マンガ画像解析装置1は、マンガ画像に記述されたテキストを抽出する。この用途として、例えば、抽出されたテキストをそのマンガ画像にインデックスとして対応付けることによって、マンガ画像をキーワードによって検索することができる。
図2によれば、マンガ画像解析装置1は、マンガ画像蓄積部10と、マンガ画像解析部11とを有する。
マンガ画像蓄積部10は、解析対象のマンガ画像を蓄積しており、そのマンガ画像をマンガ画像解析部11へ出力する。解析対象のマンガ画像は、例えば前述した図1のような画像である。
マンガ画像解析部11は、解析対象のマンガ画像に記述されたテキストを抽出するものであって、コマ画像抽出部111と、対象用特徴点抽出部112と、位置的クラスタリング部113と、サブ領域画像抽出部114と、サブ領域ベクトル算出部115と、サブ領域画像分類部116と、テキスト抽出部117とを有する。これら機能構成は、装置に搭載されたコンピュータを機能させるマンガ画像解析プログラムを実行することによって実現される。また、これら機能構成からなる処理フローは、装置におけるマンガ画像解析方法としても理解される。
コマ画像抽出部111は、マンガ画像を、コマ画像単位で解析する場合に備えられる。コマ画像抽出部111は、解析対象のマンガ画像から、画像上の直線によって囲まれるコマ画像単位に区分する。図3(a)は、コマ画像を特定するイメージ図である。コマ画像に分割するために、帯を用いた直線検出により分割線候補を検出し、分割線適合検査によって分割線を決定する技術がある(例えば非特許文献4参照)。この技術によれば、分割線候補は、幅1画素の検出線画素を検出し、検出線角度が横軸に対して±45°以内であれば縦軸方向に隣接した2つの検出線と、それ以外であれば横軸方向に隣接した検出線とを「検出帯」とする。それら検出帯について、濃度勾配方向検査と、コマ内外検査とによって、コマ画像に分割する。分割されたコマ画像単位で、解析対象のマンガ画像として、位置的クラスタリング部113へ出力される。
尚、マンガ画像が、コマ画像単位に予め区分されている場合には、コマ画像抽出部111は、当然に備える必要はない。例えば、携帯電話機向けに配信されているマンガ画像の場合、コマ画像単位に人手によって予め区分されているからである。コマ画像抽出部111は、あくまでオプション的なものであって、図2によれば破線によって描かれている。
対象用特徴点抽出部112は、解析対象のマンガ画像から、多数の特徴点を抽出する。図3(b)は、マンガ画像から検出された特徴点を表すイメージ図である。「特徴点」とは、視覚的な特徴を表す点であって、例えばSIFT(Scale-Invariant Feature Transform)を用いて検出することができる(例えば非特許文献1又は3参照)。SIFTとは、スケールスペースを用いて画像構造を解析し、画像のスケール変化及び回転に不変となる特徴量を記述する技術である。SIFTによれば、特徴点を検出するために、以下の2つのステップを要する。
(S1)スケールスペースの極値探索によってキーポイント及びスケールを決定する。
(S2)決定されたキーポイントの中で、主曲率及びコントラストによって安定したキーポイントに絞り込む。
このようにして抽出された多数の特徴点は、位置的クラスタリング部113へ出力される。
位置的クラスタリング部113は、多数の特徴点を、画像上の分布密度に基づいてクラスタリングする。ここでのクラスタリングは、特徴点の特徴に基づくクラスタリングではなく、特徴点の画像上の「位置」に基づくクラスタリングである。例えば、DBSCANアルゴリズムを適用することにより(例えば非特許文献2参照)、画像上の位置的に高密度に分布する特徴点をクラスタとして抽出する。
サブ領域画像抽出部114は、位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠(例えば外接多角形)から、画像上のサブ領域画像を抽出する。図3(c)は、特徴点を用いて検出されたサブ領域を表すイメージ図である。
サブ領域ベクトル算出部115は、サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出する。ここで、特徴ベクトルとは、k個の学習クラスタに対応したk次元のベクトル(v1,v2,・・・,vk)を表す。当該サブ領域画像に含まれる1つの特徴点の特徴量が、各学習クラスタの特徴量に対する指数として表される。ここで、k個の学習クラスタは、予め生成されたものであってもよいし、図4で後述するものであってもよい。
サブ領域画像分類部116は、サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類する。ここで「学習データ」とは、予め文字領域が特定された領域画像における特徴ベクトルである。この学習データは、文字領域であるとする「正例」に限られず、文字領域でないとする「負例」であってもよい。尚、学習データは、予め生成されたものであってもよいし、図4で後述するものであってもよい。
テキスト抽出部117は、文字領域と判定されたサブ領域画像から、テキストを抽出する。テキスト抽出部117は、例えば、文字領域と判定されたサブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定する既存のOCR(Optical Character Recognition)を用いたものであってもよい。
図4は、本発明のマンガ画像解析装置における学習処理部の機能構成図である。また、図5は、学習処理の経過に基づく画像の特徴点を表すイメージ図である。
図4のマンガ画像解析装置1によれば、図2の機能構成部に加えて、学習用特徴点抽出部121と、要素的クラスタリング部122と、学習用クラスタベクトル算出部123と、画像分類学習部124とを更に有する。これら機能構成も、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
学習用特徴点抽出部121は、学習用画像から、多数の特徴点を抽出する。図5(a)は、学習用画像から検出された特徴点を表すイメージ図である。前述した対象用特徴点抽出部112と同様に、例えばSIFTを用いて検出することができる。抽出された多数の特徴点は、要素的クラスタリング部122へ出力される。
要素的クラスタリング部122は、多数の特徴点を、当該特徴値に基づいてk個の学習クラスタにクラスタリングする。ここで、クラスタリングには、k-meansの方式が用いられてもよい。図5(b)は、特徴点のk-meansクラスタリングを表すイメージ図である。そして、k個の学習クラスタのそれぞれについて、当該クラスタの代表特徴値を算出する。例えば、多数の特徴値からなるクラスタ毎に、それら特徴値の重心をもって代表特徴値とみなすものであってもよい。
学習用クラスタベクトル算出部123は、要素的クラスタ毎に、当該クラスタに含まれる全ての特徴点から、当該クラスタにおける特徴ベクトル(v1,v2,・・・,vk)を算出する。学習用クラスタベクトル算出部123は、前述したサブ領域ベクトル算出部114と同様に、k個の学習クラスタに対応したk次元のベクトルを算出する。
画像分類学習部124は、要素的クラスタ毎に、当該クラスタに含まれる特徴点が文字領域であるか否かを学習させたものである。具体的には、学習用画像について、予め与えられたサブ領域画像毎に、k次元のベクトルを算出する。具体的には、各サブ領域画像に分布する特徴点と、要素的クラスタリング部122によって得られたk個の学習クラスタの代表要素点との距離を算出し、各特徴点が属するクラスタを決定する。図5(c)は、各要素クラスタリングに対するサブ領域画像のベクトルの対応を表すイメージ図である。その結果、各クラスタに属する特徴点の数(又は割合)を特徴値とするk次元ベクトルを生成することができる。
画像分類学習部124は、サポートベクタマシン(Support Vector Machine)を用いるものであってもよい。サポートベクタマシンとは、教師有り学習を用いる識別アルゴリズムであって、パターン認識に適用される。サポートベクタマシンは、線形入力素子を用いて2クラスのパターン識別器を構成するものであって、学習サンプルから、各特徴値との距離を算出することによって、線形入力素子のパラメータを学習する。具体的には、学習用画像の中で文字領域と指定されたサブ領域のベクトルを「正例」とし、それ以外のベクトルを「負例」して、画像分類用の学習データを生成する。
従って、マンガ画像解析部11のサブ領域ベクトル算出部115は、画像分類学習部124に基づくk個の学習クラスタに対応したk次元のベクトル(v1,v2,・・・,vk)を利用することができる。また、マンガ画像解析部11のサブ領域画像分類部116は、画像分類学習部124によって生成された画像分類用の学習データを用いて、マンガ画像から抽出されたサブ領域画像が、文字領域か否かを分類する。
図6は、本発明のマンガ画像解析装置における検索処理部の機能構成図である。
図6によれば、図2又は図4のマンガ画像解析装置における全ての機能を含むマンガ画像検索装置2が表されている。マンガ画像検索装置2は、更に、インデックス記憶部13と、インタフェース部14と、検索キーワード入力部131と、マンガ画像検索部132と、検索結果出力部133とを有する。検索キーワード入力部131、マンガ画像検索部132及び検索結果出力部133は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
インデックス記憶部13は、マンガ画像解析部11によって抽出されたテキストをインデックスとして、マンガ画像の識別情報に対応付けて記憶する。マンガ画像がコマ画像単位に区分されている場合、そのコマ画像の識別情報に、インデックスが対応付けられる。コマ画像の識別情報は、例えばマンガ画像の識別情報に加えて、その画像内のコマ番号又は座標によって特定される。
尚、マンガ画像の識別番号に、テキストがそのまま対応付けられているものであってもよいし、形態素解析によって形態素単位に区分されて対応付けられているものであってもよい。
インタフェース部14は、ユーザインタフェースであってもよいし、通信インタフェースであってもよい。ユーザインタフェースである場合、例えば検索キーワードをキーボードによって入力し、その検索結果(識別番号又はマンガ画像自体)をディスプレイに表示するものであってもよい。通信インタフェースである場合、ネットワークを介して端末から検索キーワードを受信し、その検索結果を端末へ返信する。
検索キーワード入力部131は、インタフェース部14から検索キーワード(クエリ)を入力し、その検索キーワードをマンガ画像検索部132へ出力する。
マンガ画像検索部132は、インデックス記憶部13を用いて、入力された検索キーワードと一致(又は類似)するインデックスを含むマンガ画像の識別情報を検索する。検索キーワードとインデックスとの間で、編集距離が一定距離以下であるものを、類似するとして検索してもよい。その検索結果は、検索結果出力部133へ出力される。
検索結果出力部133は、検索結果となるマンガ画像の識別情報又はマンガ画像自体を、インタフェース部14へ出力する。
ここで、他の実施形態として、マンガ画像解析部11のテキスト抽出部117が、OCRによって文字サイズを、インデックス記憶部13へ出力することも好ましい。これによって、インデックス記憶部13は、テキスト毎に優先度を対応付けて記憶することができる。ここで、文字サイズが大きいテキストほど、高い優先度を対応付ける。
また、マンガ検索部132は、インデックス記憶部13に記憶された優先度が高いテキストほど、優先的に検索結果として出力する。これによって、マンガ画像の中で、文字サイズが大きいテキストほど、優先度の高いインデックスとして検索することができる。
図7は、本発明のマンガ検索装置を備えたシステム構成図である。
図7によれば、マンガ画像検索装置2が、インターネットに接続されており、マンガ画像データベース3、携帯電話機4及び端末5と通信することができる。マンガ画像データベース3は、マンガ画像を蓄積したデータベースであって、マンガコンテンツ(マンガ画像)をマンガ画像検索装置2へ送信する。マンガ画像検索装置2は、そのマンガコンテンツについてインデックスを生成することができる。一方で、携帯電話機4及び端末5は、アクセスネットワークを介してインターネットに接続し、マンガ画像検索装置2へ、ユーザの操作に応じた検索キーワードを送信する。これに対し、マンガ画像検索装置2は、その検索結果を、携帯電話機4及び端末5へ返信する。
以上、詳細に説明したように、本発明のマンガ画像解析装置、プログラム、検索装置及び方法によれば、マンガ画像を画像的に解析することによって、文字領域を適切に特定し、そこに記述されたテキストを抽出することができる。また、抽出されたテキストを、マンガ画像にインデックスとして対応付けることによって、キーワードによってマンガ画像を検索することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 マンガ画像解析装置
10 マンガ画像蓄積部
111 コマ画像抽出部
112 対象用特徴点抽出部
113 位置的クラスタリング部
114 サブ領域画像抽出部
115 サブ領域ベクトル算出部
116 サブ領域画像分類部
117 テキスト抽出部
121 学習用特徴点抽出部
122 要素的クラスタリング部
123 学習用クラスタベクトル算出部
124 画像分類学習部
13 インデックス記憶部
131 検索キーワード入力部
132 マンガ画像検索部
133 検索結果出力部
14 インタフェース部
2 マンガ画像検索装置
3 マンガ画像データベース
4 携帯電話機
5 端末

Claims (11)

  1. マンガ画像に記述されたテキストを抽出するマンガ画像解析装置であって、
    解析対象のマンガ画像から、多数の特徴点を抽出する対象用特徴点抽出手段と、
    前記多数の特徴点を、画像上の分布密度に基づいてクラスタリングする位置的クラスタリング手段と、
    位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出するサブ領域画像抽出手段と、
    前記サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出するサブ領域ベクトル算出手段と、
    前記サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類するサブ領域画像分類手段と、
    文字領域と判定された前記サブ領域画像から、テキストを抽出するテキスト抽出手段と
    を有することを特徴とするマンガ画像解析装置。
  2. 学習用画像から、多数の特徴点を抽出する学習用特徴点抽出手段と、
    前記多数の特徴点を、当該特徴値に基づいてk個の学習クラスタにクラスタリングする要素的クラスタリング手段と、
    要素的クラスタ毎に、当該クラスタに含まれる全ての特徴点から、当該クラスタにおける特徴ベクトルを算出する学習用クラスタベクトル算出手段と、
    要素的クラスタ毎に、当該クラスタに含まれる特徴点が文字領域であるか否かを学習させた画像分類学習手段と
    を更に有し、
    前記サブ領域画像分類手段によって用いられる前記学習データは、前記画像分類学習手段によって学習された学習データである
    ことを特徴とする請求項1に記載のマンガ画像解析装置。
  3. 前記要素的クラスタリング手段は、k-meansクラスタリングによってk個の学習クラスタに分類し、
    前記サブ領域ベクトル算出手段及び前記学習用クラスタベクトル算出手段は、k個の学習クラスタに対応したk次元の特徴ベクトルを算出し、
    前記画像分類学習手段は、文字領域と判定されるk次元の特徴ベクトルの学習データを生成する
    ことを特徴とする請求項2に記載のマンガ画像解析装置。
  4. 前記対象用特徴点抽出手段及び前記学習用特徴点抽出手段は、前記特徴点をSIFT(Scale-Invariant Feature Transform)によって検出することを特徴とする請求項2又は3に記載のマンガ画像解析装置。
  5. 前記画像分類学習手段は、サポートベクタマシン(Support Vector Machine)を用いることを特徴とする請求項から4のいずれか1項に記載のマンガ画像解析装置。
  6. 前記テキスト抽出手段は、文字領域と判定された前記サブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定するOCR(Optical Character Recognition)であることを特徴とする請求項1から5のいずれか1項に記載のマンガ画像解析装置。
  7. 解析対象のマンガ画像から、画像上の直線によって囲まれるコマ画像単位に区分するコマ画像抽出手段を更に有し、
    前記コマ画像毎に、前記対象用特徴点抽出手段が多数の特徴点を抽出することを特徴とする請求項1から6のいずれか1項に記載のマンガ画像解析装置。
  8. 請求項1から7のいずれか1項に記載のマンガ画像解析装置における全ての機能を含むマンガ画像検索装置であって、
    前記テキスト抽出手段によって抽出された前記テキストをインデックスとして、前記マンガ画像の識別情報に対応付けて記憶するインデックス記憶手段と、
    検索キーワードを入力する検索キーワード入力手段と、
    前記インデックス記憶手段を用いて、前記検索キーワードと一致するインデックスを含むマンガ画像の識別情報を検索するマンガ画像検索手段と、
    検索されたマンガ画像の識別情報を出力する検索結果出力手段と
    を更に有することを特徴とするマンガ画像検索装置。
  9. 前記テキスト抽出手段は、文字領域と判定された前記サブ領域画像と、予め記憶された文字パターンとの照合によって文字を特定するOCRであり、当該OCRによって文字サイズを前記インデックス記憶手段へ出力するものであり、
    前記インデックス記憶手段は、前記テキスト毎に優先度を対応付けて記憶するものであって、前記テキスト抽出手段から出力された前記文字サイズが大きいテキストほど、高い優先度を対応付けており、
    前記マンガ検索手段は、前記インデックス記憶手段に記憶された前記優先度が高いテキストほど、優先的に検索結果として出力する
    ことを特徴とする請求項8に記載のマンガ画像検索装置。
  10. マンガ画像に記述されたテキストを抽出する装置に搭載されたコンピュータを機能させるプログラムであって、
    解析対象のマンガ画像から、多数の特徴点を抽出する対象用特徴点抽出手段と、
    前記多数の特徴点を、画像上の分布密度に基づいてクラスタリングする位置的クラスタリング手段と、
    位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出するサブ領域画像抽出手段と、
    前記サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出するサブ領域ベクトル算出手段と、
    前記サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類するサブ領域画像分類手段と、
    文字領域と判定された前記サブ領域画像から、テキストを抽出するテキスト抽出手段と
    してコンピュータを機能させることを特徴とするマンガ画像解析用のプログラム。
  11. マンガ画像に記述されたテキストを抽出する装置におけるマンガ画像解析方法であって、
    解析対象のマンガ画像から、多数の特徴点を抽出する第1のステップと、
    前記多数の特徴点を、画像上の分布密度に基づいてクラスタリングする第2のステップと、
    位置的クラスタ毎に、当該クラスタに含まれる多数の特徴点を囲む外枠から、画像上のサブ領域画像を抽出する第3のステップと、
    前記サブ領域画像に含まれる全ての特徴点から、当該サブ領域画像における特徴ベクトルを算出する第4のステップと、
    前記サブ領域画像の特徴ベクトルを、学習データから得られた文字領域の特徴ベクトルと比較して、文字領域であるか否かによって分類する第5のステップと、
    文字領域と判定された前記サブ領域画像から、テキストを抽出する第6のステップと
    を有することを特徴とするマンガ画像解析方法。
JP2009287145A 2009-12-18 2009-12-18 マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法 Expired - Fee Related JP5433396B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009287145A JP5433396B2 (ja) 2009-12-18 2009-12-18 マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009287145A JP5433396B2 (ja) 2009-12-18 2009-12-18 マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法

Publications (2)

Publication Number Publication Date
JP2011128924A JP2011128924A (ja) 2011-06-30
JP5433396B2 true JP5433396B2 (ja) 2014-03-05

Family

ID=44291454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009287145A Expired - Fee Related JP5433396B2 (ja) 2009-12-18 2009-12-18 マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法

Country Status (1)

Country Link
JP (1) JP5433396B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101916665B1 (ko) * 2011-12-05 2018-11-09 한국전자통신연구원 만화 출판물에 대한 핑거프린팅 시스템 및 방법
JP2013218131A (ja) * 2012-04-10 2013-10-24 Panasonic Corp 画像表示システムおよび画像表示装置
JP6549348B2 (ja) 2012-11-06 2019-07-24 三星電子株式会社Samsung Electronics Co.,Ltd. 偏光フィルム、反射防止フィルムおよび表示装置
KR101574409B1 (ko) 2014-02-10 2015-12-03 연세대학교 산학협력단 출판물의 핑거프린트 생성 방법과 이를 이용한 출판물 식별 장치 및 방법
JP7370574B2 (ja) * 2019-10-08 2023-10-30 株式会社コミチ コマ抽出方法及びプログラム
CN115238670B (zh) * 2022-08-09 2023-07-04 平安科技(深圳)有限公司 信息文本抽取方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3439105B2 (ja) * 1998-01-20 2003-08-25 日本電信電話株式会社 映像中字幕文字検出方法およびその装置および記録媒体
JP3608965B2 (ja) * 1998-12-18 2005-01-12 シャープ株式会社 自動オーサリング装置および記録媒体
JP2000235618A (ja) * 1999-02-16 2000-08-29 Mitsubishi Electric Corp 文字検出装置
JP3739621B2 (ja) * 2000-02-09 2006-01-25 シャープ株式会社 情報処理装置および情報端末
JP2006127446A (ja) * 2004-09-29 2006-05-18 Ricoh Co Ltd 画像処理装置、画像処理方法、プログラムおよび記録媒体

Also Published As

Publication number Publication date
JP2011128924A (ja) 2011-06-30

Similar Documents

Publication Publication Date Title
Cliche et al. Scatteract: Automated extraction of data from scatter plots
CN110750656B (zh) 一种基于知识图谱的多媒体检测方法
Desai et al. Hybrid approach for content-based image retrieval using VGG16 layered architecture and SVM: an application of deep learning
CN107209860A (zh) 使用分块特征来优化多类图像分类
JP5433396B2 (ja) マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法
EP2291812A2 (en) Forum web page clustering based on repetitive regions
Iakovidou et al. Localizing global descriptors for content-based image retrieval
CN109492168B (zh) 一种基于旅游照片的可视化旅游兴趣推荐信息生成方法
Tian et al. Image classification based on the combination of text features and visual features
JP2013246732A (ja) 手書き文書検索装置、方法及びプログラム
US20190034758A1 (en) Systems and methods for clustering of near-duplicate images in very large image collections
Davila et al. Tangent-V: Math formula image search using line-of-sight graphs
JP5480008B2 (ja) マンガコンテンツの要約を生成する要約マンガ画像生成装置、プログラム及び方法
Pengcheng et al. Fast Chinese calligraphic character recognition with large-scale data
JP5414334B2 (ja) 擬似文書検索システム及び擬似文書検索方法
Diem et al. Semi-automated document image clustering and retrieval
Agin et al. An approach to the segmentation of multi-page document flow using binary classification
O***llah et al. An approach for automatic Indic script identification from handwritten document images
Böschen et al. A comparison of approaches for automated text extraction from scholarly figures
Richter et al. Leveraging community metadata for multimodal image ranking
Nagendraswamy et al. LBPV for recognition of sign language at sentence level: An approach based on symbolic representation
Tencer et al. Sketch-based retrieval of document illustrations and regions of interest
Waykar et al. Multimodal features and probability extended nearest neighbor classification for content-based lecture video retrieval
Tang et al. Triangle coordinate diagram localization for academic literature based on line segment detection in cloud computing
Li et al. Character Segmentation in Collector's Seal Images: An Attempt on Retrieval Based on Ancient Character Typeface.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120809

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131209

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5433396

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees