JP2003016076A - Method for title extraction from document image - Google Patents

Method for title extraction from document image

Info

Publication number
JP2003016076A
JP2003016076A JP2001195819A JP2001195819A JP2003016076A JP 2003016076 A JP2003016076 A JP 2003016076A JP 2001195819 A JP2001195819 A JP 2001195819A JP 2001195819 A JP2001195819 A JP 2001195819A JP 2003016076 A JP2003016076 A JP 2003016076A
Authority
JP
Japan
Prior art keywords
title
page
document
extracted
document image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001195819A
Other languages
Japanese (ja)
Inventor
Toshifumi Yamaai
敏文 山合
Mitsugi Matsushita
貢 松下
Shinobu Yamamoto
忍 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001195819A priority Critical patent/JP2003016076A/en
Publication of JP2003016076A publication Critical patent/JP2003016076A/en
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To certainly extract a title from a document image treating information on a plurality of pages in a single file. SOLUTION: In a method for title extraction from document image cutting a character string area in a square shape from the image, adding a point featuring the title based on the attribute of the area to extract the title and processing the image whose document is composed of a plurality of pages, the title of the image on the first page in a single document is extracted to determine the extracted title as a title of the document.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、ファクシミリやイ
メージスキャナなどの画像入力装置から入力された文書
画像データのデータベースから、検索の利便性を向上さ
せるために、文書内容を的確に表現するような文書中の
タイトル領域を切出すためのタイトル抽出に関するもの
である。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention appropriately expresses document contents in order to improve the convenience of retrieval from a database of document image data input from an image input device such as a facsimile or an image scanner. The present invention relates to title extraction for cutting out a title area in a document.

【0002】[0002]

【従来の技術】従来、文書画像を検索する際には、後の
検索時の利便性を図るために、画像入力装置からの文書
画像の入力とは別にオペレータが手作業で、その文書の
内容を的確に表現するタイトル情報やキーワード情報を
抽出/作成して付加したり、定形文書に対しては、文書
中の特定の位置(文字列)をタイトル・キーワードとして
切り出していた。
2. Description of the Related Art Conventionally, when retrieving a document image, the operator manually inputs the content of the document separately from the input of the document image from the image input device for the convenience of later retrieval. The title information and the keyword information that accurately expresses are extracted / created and added, and for a fixed form document, a specific position (character string) in the document is cut out as a title / keyword.

【0003】また、非定形文書に対してレイアウト的特
徴のみを用いてタイトルを抽出するものとしては、例え
ば、特開平9-134406号公報の「文書画像からのタイトル
抽出装置および方法」、特開平5-274471号公報の「イメ
ージ文書のタイトル領域抽出処理方法」が知られてい
る。
Further, as a method for extracting a title from a non-standard document by using only layout features, for example, Japanese Patent Laid-Open No. 9-134406 discloses "Title extracting apparatus and method from document image", A method of extracting a title area of an image document is known from Japanese Patent Laid-Open No. 5-274471.

【0004】しかしながら、前記のような従来の技術に
あっては、オペレータによるタイトル情報やキーワード
情報の付加は文書量が多くなるにしたがって作業量も増
加するため、作業負担の増大化を招来させてしまう。ま
た、特定の位置の自動切り出しは、定形文書のみを対象
とするので、非定形文書には利用することができず、利
便性に欠けるといった問題点があった。
However, in the conventional technique as described above, the addition of the title information and the keyword information by the operator increases the work amount as the document amount increases, thus increasing the work load. I will end up. In addition, since automatic clipping of a specific position targets only fixed-form documents, it cannot be used for non-standard-sized documents, and there is a problem in that it is inconvenient.

【0005】つまり、前記特開平9-134406号公報・特開
平5-274471号公報に開示されたものでは、レイアウト的
特徴にのみ注目してタイトル抽出を行っているため、文
書内容を的確に表現するタイトルの的中率が必ずしも満
足できるものではなく、後の文書検索等に支障をきたす
等の問題点があった。
That is, in the one disclosed in the above-mentioned Japanese Patent Laid-Open Nos. 9-134406 and 5-274471, since the title extraction is performed by paying attention only to the layout characteristic, the document contents are accurately expressed. The hit rate of such titles is not always satisfactory, and there is a problem that it hinders later document retrieval and the like.

【0006】そこで、特定の文書形式に依存せずにタイ
トル固有の特徴をポイントとして用いることにより、ポ
イント数の多い文字列領域をタイトルとして自動抽出
し、タイトル抽出の的確性および文書検索時の利便性を
向上させることを目的としたものとして、特開2000-148
788公報には、タイトル固有の特徴をタイトルらしさの
ポイントとして用いることで、得点の多い文字列領域を
タイトルとして自動抽出するものが開示されている。
[0006] Therefore, by using the features unique to the title as the points without depending on the specific document format, the character string area having a large number of points is automatically extracted as the title, and the accuracy of the title extraction and the convenience at the time of document retrieval are improved. Japanese Patent Application Laid-Open No. 2000-148
The 788 publication discloses that a character string area with a large number of points is automatically extracted as a title by using a characteristic peculiar to the title as a point of title-likeness.

【0007】この手法によれば文書画像1枚につき1つ
のタイトルを抽出することが可能であるが、1ファイル
で複数ページの情報を格納できる画像フォーマットや、
複数の画像やワードデータなどを1文書として扱う文書
管理システムにおけるタイトル抽出には十分といえない
ところがある。即ち、このような文書では、1文書とし
てまとまった画像に対してページ毎にタイトルを抽出す
ると、抽出したページ分のタイトル抽出結果が得られる
ため、ユーザーによってはかえって検索し難くさを感じ
る場合が出てくる。さらに又、タイトルは1文書の先頭
にあるのが一般的なため、通常2ページ目以降のページ
からその文書のタイトルを抽出するのは容易でない。一
方、複数ページが1度に入力されるFAX文書は、通常
カバーシートとして、宛先、発信者、送付状という単語
など、いわば書誌事項を書いたページを先頭に有するの
で、先頭ページのみをタイトル抽出の対象としている
と、「FAX」「FAX送付票」などあまり重要でない
文字列がタイトルとして抽出されてしまうこと、そして
FAXなどでは文書の逆順で送られることがあるため入
力された画像の順番は、先頭が文書の1ページ目でない
ことなどがある。
According to this method, one title can be extracted from one document image, but an image format capable of storing information of a plurality of pages in one file,
There are some points that cannot be said to be sufficient for title extraction in a document management system that handles a plurality of images and word data as one document. That is, in such a document, if the titles are extracted for each page from an image collected as one document, the title extraction result for the extracted pages is obtained, and therefore, some users may find it difficult to search. Come out. Furthermore, since the title is generally at the beginning of one document, it is usually not easy to extract the title of that document from the second and subsequent pages. On the other hand, a FAX document in which multiple pages are input at one time usually has as a cover sheet a page in which bibliographical matters such as the words of address, sender, and cover page are written at the beginning, so only the first page is extracted as a title. If the target is, the less important character strings such as “FAX” and “FAX transmission slip” will be extracted as the title, and in the case of FAX etc., the order of the input images will be because the document may be sent in the reverse order. , The beginning is not the first page of the document, etc.

【0008】[0008]

【発明が解決しようとする課題】本発明では、特開2000
-148788号公報に開示されたものに新たな特徴を加え、
1ファイルで複数ページの情報を扱う文書画像からも的
確にタイトルを抽出することを目的としている。
DISCLOSURE OF THE INVENTION Problems to be Solved by the Invention
-Added new features to those disclosed in Japanese Patent Publication No. 148788,
The purpose is to accurately extract a title from a document image that handles information on multiple pages in one file.

【0009】[0009]

【課題を解決するための手段】請求項1の発明は、1文
書が複数ページからなる文書画像を処理するタイトル抽
出方法において、1文書中の1ページ目の文書画像のタ
イトル抽出し、抽出したタイトルを前記文書のタイトル
とする各工程からなることを特徴とするタイトル抽出方
法である。
According to a first aspect of the present invention, in a title extracting method for processing a document image in which one document has a plurality of pages, the title of the document image of the first page in one document is extracted and extracted. The title extracting method is characterized by comprising the steps of using a title as the title of the document.

【0010】請求項2の発明は、1文書が複数ページか
らなる文書画像を処理するタイトル抽出方法において、
1文書中の各ページ毎にタイトルを抽出し、抽出したタ
イトルをタイトル候補として格納し、全ページのタイト
ル抽出後に、前記タイトル候補毎にタイトルらしさの評
価値を算出してタイトル候補を選出する各工程からなる
ことを特徴とするタイトル抽出方法である。
According to a second aspect of the present invention, there is provided a title extracting method for processing a document image in which one document has a plurality of pages,
A title is extracted for each page in one document, the extracted titles are stored as title candidates, and after extracting the titles of all pages, an evaluation value of title-likeness is calculated for each of the title candidates and a title candidate is selected. The title extraction method is characterized by comprising steps.

【0011】請求項3の発明は、請求項2記載のタイト
ル抽出方法において、前記タイトル候補毎にページ固有
の計数値をかけてタイトルらしさの評価値を算出しタイ
トル候補を選出する各工程からなることを特徴とするタ
イトル抽出方法である。
According to a third aspect of the present invention, in the title extracting method according to the second aspect, each of the title candidates is multiplied by a page-specific count value to calculate an evaluation value of title-likeness and select title candidates. This is a method for extracting titles.

【0012】請求項4の発明は、1文書が複数ページか
らなる文書画像を処理するタイトル抽出方法において、
1文書中の1ページ目の文書画像のタイトルを抽出し、
抽出したタイトルをタイトルとして採用しない文字列を
格納した辞書を参照して前記文字列と比較し、前記文字
列と一致したタイトルがある場合、2ページ目の文書画
像のタイトルを抽出し、抽出したタイトルをタイトル候
補とし、前記文字列と一致したタイトルがない場合、1
ページ目の文書画像のタイトルをタイトル候補とする各
工程からなることを特徴とするタイトル抽出方法であ
る。
According to a fourth aspect of the present invention, there is provided a title extracting method for processing a document image in which one document has a plurality of pages,
Extract the title of the first page of the document image in one document,
The extracted title is compared with the character string by referring to a dictionary that stores a character string that is not adopted as a title. If there is a title that matches the character string, the title of the document image on the second page is extracted and extracted. If the title is a title candidate and there is no title that matches the character string, 1
The title extracting method is characterized by comprising the steps of using the title of the document image of the page as a title candidate.

【0013】請求項5の発明は、1文書が複数ページか
らなる文書画像を処理するタイトル抽出方法において、
1文書中の1ページ目の文書画像のタイトルを抽出し、
抽出したタイトルをタイトルとして採用しない文字列を
格納した辞書を参照して前記文字列と比較し、前記文字
列と一致したタイトルがある場合、2ページ目以降の各
文書画像のタイトルを抽出し、抽出したタイトルと前記
文字列とを比較し、前記文字列と一致したタイトルがな
い場合、当該ページの文書画像のタイトルをタイトル候
補とする各工程からなることを特徴とするタイトル抽出
方法である。
According to a fifth aspect of the present invention, there is provided a title extracting method for processing a document image in which one document has a plurality of pages,
Extract the title of the first page of the document image in one document,
The extracted title is compared with the character string by referring to a dictionary that stores a character string that is not adopted as a title, and if there is a title that matches the character string, the titles of the respective document images on the second and subsequent pages are extracted, The title extracting method is characterized by comprising the steps of comparing the extracted title with the character string, and if there is no title matching the character string, the title of the document image of the page is used as a title candidate.

【0014】請求項6の発明は、1文書が単数又は複数
ページからなる文書画像を処理するタイトル抽出方法に
おいて、1文書中のページ毎に文書画像のタイトルを抽
出し、抽出したタイトルをタイトルとして採用しない文
字列を格納した辞書を参照して該文字列と比較し、該文
字列と一致する文字列を除外してタイトルを抽出し、全
ページのタイトル抽出後に、前記タイトル毎にタイトル
らしさの評価値を算出してタイトル候補を選出する各工
程からなることを特徴とするタイトル抽出方法である。
According to a sixth aspect of the present invention, in a title extracting method for processing a document image in which one document consists of a single page or a plurality of pages, a title of the document image is extracted for each page in one document, and the extracted title is used as a title. The dictionary that stores the character strings that are not adopted is compared with the character strings, the character strings that match the character strings are excluded to extract the titles, and after extracting the titles of all pages, the title-likeness of each title is determined. The title extracting method is characterized by comprising respective steps of calculating an evaluation value and selecting a title candidate.

【0015】請求項7の発明は、1文書が複数ページか
らなる文書画像を処理するタイトル抽出方法において、
前記文書画像の先頭ページと末尾ページのタイトルをそ
れぞれ抽出し、抽出したタイトルをタイトルとして採用
する文字列を格納した辞書を参照し、前記先頭ページの
タイトルが前記文字列と一致する場合、前記先頭ページ
が最初のページであると判断し、前記末尾ページのタイ
トルが前記文字列と一致する場合、前記末尾ページが最
初のページであると判断する各工程からなることを特徴
とするタイトル抽出方法である。
According to a seventh aspect of the present invention, in a title extracting method for processing a document image in which one document has a plurality of pages,
When the titles of the first page and the last page of the document image are respectively extracted, and a dictionary storing a character string that uses the extracted title as a title is referred to, and when the title of the first page matches the character string, the first page If the page is the first page, and the title of the last page matches the character string, the title extraction method is characterized by comprising the steps of determining that the last page is the first page. is there.

【0016】請求項8の発明は、前記請求項7記載のタ
イトル抽出方法において、前記先頭ページが最初のペー
ジである場合、その次のページのタイトルを抽出し、前
記末尾ページが最初のページである場合、前記末尾ペー
ジの前のページのタイトルを抽出する各工程からなるこ
とを特徴とするタイトル抽出方法である。
According to an eighth aspect of the present invention, in the title extracting method according to the seventh aspect, when the first page is the first page, the title of the next page is extracted and the last page is the first page. In one case, the title extracting method is characterized by comprising the steps of extracting the title of the page before the last page.

【0017】請求項9の発明は、請求項7記載のタイト
ル抽出方法において、前記先頭ページが最初のページで
ある場合、前記文書画像のページ配列が最初ページから
最終ページに至る順番であり、前記末尾ページが最初の
ページである場合、前記文書画像のページ配列が最終ペ
ージから最初ページに至る順番であることを出力する各
工程からなることを特徴とするタイトル抽出方法であ
る。
According to a ninth aspect of the present invention, in the title extracting method according to the seventh aspect, when the first page is the first page, the page arrangement of the document image is an order from the first page to the last page. When the last page is the first page, the title extracting method is characterized by comprising each step of outputting that the page arrangement of the document image is from the last page to the first page.

【0018】請求項10の発明は、請求項1乃至9のい
ずれかに記載された方法をコンピュータで実行するため
のプログラムである。
The invention of claim 10 is a program for executing the method described in any one of claims 1 to 9 on a computer.

【0019】請求項11の発明は、請求項10に記載さ
れたプログラムを記録したコンピュータ読み取り可能な
記録媒体である。
The invention according to claim 11 is a computer-readable recording medium in which the program according to claim 10 is recorded.

【0020】請求項12の発明は、請求項10に記載さ
れたプログラムを搭載したタイトル抽出装置である。
A twelfth aspect of the present invention is a title extracting device equipped with the program according to the tenth aspect.

【0021】[0021]

【発明の実施の形態】以下、本発明の文書画像からのタ
イトル抽出について添付図面を参照して説明する。
BEST MODE FOR CARRYING OUT THE INVENTION The extraction of titles from document images according to the present invention will be described below with reference to the accompanying drawings.

【0022】図1は、本発明の実施の形態に係るタイト
ル(領域)抽出処理を行うシステム構成を示すブロック
図である。図において、101はファクシミリやイメージ
スキャナ等の画像入力装置(図示せず)から入力された文
書画像から文字列領域を矩形で切り出す領域識別手段と
しての領域識別部、102は領域識別部101の識別結果に基
づいて文字認識を行う文字認識手段としての文字認識
部、103は領域識別部101の識別結果に基づいてフォント
識別を行うフォント識別手段としてのフォント識別部、
104は文字認識部102の認識結果で得られる文字コードに
基づいて自然言語的タイトルらしさを解析する自然言語
解析手段としての自然言語解析部、105はセンタリング
・下線・文字矩形の大きさ・網掛け、枠等を用いてタイ
トルらしさのポイント付けを行うポイント付手段として
のポイント付部である。また、106はタイトル抽出の際
に参照される特定文字を蓄積した特定語辞書である。
FIG. 1 is a block diagram showing a system configuration for performing title (area) extraction processing according to the embodiment of the present invention. In the figure, 101 is an area identification unit as an area identification unit that cuts out a character string area into a rectangle from a document image input from an image input device (not shown) such as a facsimile or an image scanner, and 102 is an identification of the area identification unit 101. A character recognition unit as a character recognition unit that performs character recognition based on the result, 103 is a font identification unit as a font identification unit that performs font identification based on the identification result of the area identification unit 101,
104 is a natural language analysis section as a natural language analysis means for analyzing the natural language title likeness based on the character code obtained from the recognition result of the character recognition section 102, and 105 is centering, underlining, size of character rectangle, and hatching. Is a point addition unit as a point addition means for adding points like a title using a frame or the like. Reference numeral 106 is a specific word dictionary that stores specific characters that are referred to when extracting a title.

【0023】図1に示す構成において、画像入力装置
(図示せず)から文書画像が入力されると、スキュー補正
等の前処理を行い、領域識別部101により領域識別処理
を実行し、文字列矩形の座標値・大きさの情報を得る。
次いで、領域識別部101による領域識別処理の結果を用
い、文字認識部102による文字認識、およびフォント識
別部103によるフォント識別を行う。
In the configuration shown in FIG. 1, the image input device
When a document image is input from (not shown), preprocessing such as skew correction is performed, and the area identification unit 101 executes the area identification processing to obtain information on the coordinate value / size of the character string rectangle.
Next, using the result of the area identification processing by the area identification unit 101, character recognition by the character recognition unit 102 and font identification by the font identification unit 103 are performed.

【0024】文字認識部102では各文字毎の文字コード
・確信度、文字矩形の座標値・大きさがタイトルらしさ
のポイント付けとして得られる。また、フォント識別部
103では各文字毎のフォント種別がタイトルらしさのポ
イント付けとして得られる。
The character recognition unit 102 obtains the character code / certainty factor for each character, the coordinate value / size of the character rectangle, and the likeness of the title. Also, the font identification part
In 103, the font type for each character is obtained as point-likeness of title.

【0025】また、文字認識部102により得られる文字
コードは、自然言語解析部104自然言語解析ルーチンに
も供給され、自然言語的タイトルらしさ、つまり、体言
止めになっている領域のタイトルらしさのポイントを与
える。さらに、自然言語処理において、タイトルに頻出
する語尾の統計情報辞書と文字領域内の文字コード列と
を比較し、高頻出度の語尾と一致するものを語尾に含む
文字列領域にタイトルらしさのポイントを与える。
The character code obtained by the character recognition unit 102 is also supplied to the natural language analysis routine of the natural language analysis unit 104, and the point of the natural language title, that is, the title-likeness of the region that is a word stop. give. Furthermore, in natural language processing, the statistical information dictionary of the word endings frequently appearing in the title is compared with the character code string in the character area, and the character string area that includes the one that matches the high frequency ending is included in the character string area. give.

【0026】また、上述の各ポイントらしさのポイント
に加え、従来から用いられているセンタリング処理・下
線処理・文字列矩形の大きさ等も用いてタイトルらしさ
の合計ポイントを計算し、タイトルを識別する。
Further, in addition to the points of each point described above, the centering process, the underline process, the size of the character string rectangle, etc., which have been conventionally used, are used to calculate the total points of title-likeness, and the title is identified. .

【0027】次に、図3〜図10に示すフローチャート
を参照し、本発明の一連のタイトル抽出方法について順
に説明する。なお、このタイトル抽出方法は、図1の構
成によって複数の組み合わせあるいは単独、あるいは選
択的に行うことができる。
Next, a series of title extracting methods of the present invention will be described in order with reference to the flowcharts shown in FIGS. It should be noted that this title extraction method can be performed in a plurality of combinations, alone or selectively according to the configuration of FIG.

【0028】(実施形態1)実施形態1は、1文書中に
2ページ以上が格納されている文書画像を処理するタイ
トル抽出方法において、通常2ページ以降にはタイトル
がないことを利用してタイトルを確定することを特徴と
する。図3は、実施形態1に係るタイトル抽出方法の実
行手順を示すフローチャートである。図に従って本タイ
トル抽出のための処理手順を説明すれば、まず、文書入
力装置(図示せず)から文書画像を入力し(S1101)、
図1の領域識別部101、文字認識部102、フォント識別部
103等の各部により1ページ目の処理を行う(S1102)。
次に、1ページ目の処理に基づきタイトル候補の抽出を
行い(S1103)、その候補に関するタイトル情報を出力
する(S1104)。この情報にタイトルらしさのポイント
を与えることによってタイトルを抽出することができ
る。
(Embodiment 1) Embodiment 1 is a title extraction method for processing a document image in which two or more pages are stored in one document. Is determined. FIG. 3 is a flowchart showing an execution procedure of the title extracting method according to the first embodiment. The procedure for extracting the main title will be described with reference to the figure. First, a document image is input from a document input device (not shown) (S1101),
Area identification unit 101, character recognition unit 102, font identification unit of FIG.
The first page is processed by each unit such as 103 (S1102).
Next, title candidates are extracted based on the processing of the first page (S1103), and title information regarding the candidates is output (S1104). The title can be extracted by giving a point of title-likeness to this information.

【0029】(実施形態2)実施形態2は、1文書中に
2ページ以上が格納されている文書画像を処理するタイ
トル抽出方法において、全てのページについてタイトル
候補を抽出し、ページ毎のタイトル候補について、タイ
トルらしさの評価値を参照し、最適なタイトル候補を選
出することを特徴とする。先の特開2000-148788号公報
に開示されたものでは、種々のタイトルらしさの特徴量
について、定められた計数値をかけ、1次元のタイトル
らしさの値を評価値として算出し、その上位がタイトル
候補となる。この評価値は、基本的にページ毎に独立で
あり、理論上他のページの評価値と比較することはでき
ないものである。しかし、現実には、タイトルらしい部
分は評価値も高く、逆にタイトルがないようなページに
ついて無理やりタイトルを抽出した部分では当然タイト
ルらしさの特徴が少なく、そのページでは最もタイトル
らしかったとしても評価値は小さくでる傾向はあるの
で、ページ単位で出たタイトル候補を独立して扱うので
はなく、比較する値として使用するようにする。図4
は、実施形態2に係るタイトル抽出方法の実行手順を示
すフローチャートである。図に従って本タイトル抽出の
ための処理手順を説明すれば、まず、文書入力装置(図
示せず)から文書画像を入力し(S1201)、処理装置
(図示せず)によりページ数分のループを設定する(S1
202)。次に、図1の領域識別部101、文字認識部102、
フォント識別部103等の各部により1ページ目の処理を
行いタイトル候補を抽出し(S1203)、前記処理装置に
よりループが終了したかを判別し(S1204)、終了して
いない場合には(S1204、No)、ステップS1202に戻り、
全ループが終了するまで、つまり全ページについてタイ
トル候補を抽出するまで以上の動作を繰返す。ループが
終了した場合(S1204、Yes)、上記ループから抜け出
し、抽出したタイトル候補に定められた計数値をかけ、
タイトルらしさの評価値を算出して上位のタイトル候補
を選出する(S1205)。そして、その候補に関するタイ
トル情報を出力する(S1206)。
(Second Embodiment) In the second embodiment, in the title extraction method for processing a document image in which two or more pages are stored in one document, title candidates are extracted for all pages, and title candidates for each page are extracted. Is referred to, and an optimal title candidate is selected by referring to the evaluation value of title-likeness. In the above-mentioned Japanese Patent Application Laid-Open No. 2000-148788, the feature values of various title-likeness are multiplied by a predetermined count value to calculate a one-dimensional title-likeness value as an evaluation value, and the higher rank is Become a title candidate. This evaluation value is basically independent for each page, and theoretically cannot be compared with the evaluation values of other pages. However, in reality, the part that seems to be a title also has a high evaluation value, and conversely, in the part where the title is forcibly extracted for a page that does not have a title, the characteristic of title-likeness is naturally small, and even if it is the most title-like part on that page Tends to be small, so instead of treating title candidates that appear on a page-by-page basis independently, use them as comparison values. Figure 4
9 is a flowchart showing an execution procedure of a title extracting method according to the second embodiment. The procedure for extracting the main title will be described with reference to the figure. First, a document image is input from a document input device (not shown) (S1201), and a loop for the number of pages is set by the processing device (not shown). Yes (S1
202). Next, the area identification unit 101, the character recognition unit 102 of FIG.
The first page is processed by each unit such as the font identification unit 103 to extract title candidates (S1203), and the processing device determines whether the loop is completed (S1204). If not completed (S1204, No), return to step S1202,
The above operation is repeated until all loops are completed, that is, until the title candidates are extracted for all pages. When the loop ends (S1204, Yes), exit from the loop and multiply the extracted title candidate by the specified count value,
An evaluation value of title-likeness is calculated, and a top title candidate is selected (S1205). Then, the title information regarding the candidate is output (S1206).

【0030】(実施形態3)前記実施形態2では、各ペ
ージのタイトルらしさの評価値をそのまま比較している
ため、複数のページを1文書として扱っている文書画像
においては、当然タイトルの評価値が高いものが複数出
ることになる。そこで、実施形態3は、ページの先頭に
近い方を文書タイトルとして評価しやすいように、ペー
ジ毎に固有の計数値(最大1.0)をかけて評価し、同等
のタイトルらしさであれば、ページの先頭に近いものを
抽出することを特徴とする。図5は、実施形態2で示し
た実行手順によって得られたタイトルの評価値に計数値
をかけて比較値を算出する例を示す図であり、図中、ペ
ージ1,2,3毎に、タイトル文字列として、○○○株
式会社様、OCR競合他社比較レポート、目次が抽出さ
れ、それぞれに評価値75、95,92が与えられる。本実施
形態3は、それらにページ固有の計数値(最大1.0)で
ある1.0、0.9、0.8をかけ、比較値75、85.5、73.6を得
る。この結果、比較値の高い「OCR競業他者比較レポ
ート」をタイトルとして抽出する。
(Third Embodiment) In the second embodiment, since the evaluation value of the title-likeness of each page is compared as it is, in the document image in which a plurality of pages are treated as one document, naturally the evaluation value of the title is evaluated. There will be more than one that is high. Therefore, in the third embodiment, in order to make it easier to evaluate the one closer to the beginning of the page as a document title, a unique count value (maximum 1.0) is applied to each page for evaluation. The feature is that the one closest to the beginning is extracted. FIG. 5 is a diagram showing an example of calculating a comparison value by multiplying the count value by the evaluation value of the title obtained by the execution procedure shown in the second embodiment. As a title character string, OO Co., Ltd., an OCR competitor comparison report, and a table of contents are extracted, and evaluation values 75, 95, and 92 are given respectively. In the third embodiment, the page-specific count values (maximum 1.0) of 1.0, 0.9, and 0.8 are multiplied to obtain comparative values of 75, 85.5, and 73.6. As a result, the “OCR competition other person comparison report” having a high comparison value is extracted as a title.

【0031】(実施形態4)実施形態4は、例えばFA
Xを送信する場合に、カバーシートにつけられる「FA
X]「カバーシート」などタイトルとして抽出したくな
い、つまりタイトルとして採用しない単語をあらかじめ
単語辞書に登録しておき、1文書中の1ページ目に相当す
る画像についてタイトルを抽出するとき、単語辞書を参
照し、もし前記単語に一致したタイトル候補がある場
合、「このページはタイトルを抽出するのにふさわしく
ないページである」という解釈をし、2ページ目のタイ
トル抽出を行い、そこで得られたタイトル候補をその文
書のタイトルとし、前記単語に一致したタイトル候補が
ない場合、1ページ目のタイトル候補をタイトルとする
ことを特徴とする。図6は、実施形態4に係るタイトル
抽出方法の実行手順を示すフローチャートである。図に
従って本タイトル抽出のための処理手順を説明すれば、
まず、文書入力装置(図示せず)から文書画像を入力し
(S1301)、図1の領域識別部101、文字認識部102、フ
ォント識別部103等の各部により1ページ目の処理を行
う(S1302)。次に、1ページ目の処理に基づきタイト
ル候補の抽出を行い(S1303)、抽出したタイトル候補
を前記単語辞書と参照し(S1304)、登録した単語と一
致するか否かを判断する(S1305)。一致しなければ(S
1305、No)、そのまま抽出したタイトル候補を文書のタ
イトルとして出力する(S1306)。一致する場合におい
ては(S1305、Yes)、1ページ目の処理と同様の処理を
2ページ目について行い(S1307)、タイトル候補を抽
出し(S1308)、抽出したタイトル候補に関するタイト
ル情報を出力する(S1306)。本実施形態によれば、大
量にあるようなFAX文書のタイトルが全て「FAX」
とか「送付票」等になることを防ぐことができる。
(Embodiment 4) Embodiment 4 is, for example, FA
"FA that is attached to the cover sheet when sending X
X] If you do not want to extract as a title such as "cover sheet", that is, words that are not adopted as a title are registered in advance in the word dictionary and the title is extracted for the image corresponding to the first page in one document, the word dictionary If there is a title candidate that matches the above word, it is interpreted as "This page is not suitable for extracting the title", the title of the second page is extracted, and the result is obtained there. The title candidate is used as the title of the document, and if there is no title candidate matching the word, the title candidate of the first page is used as the title. FIG. 6 is a flowchart showing an execution procedure of the title extracting method according to the fourth embodiment. Explaining the processing procedure for extracting the main title according to the figure,
First, a document image is input from a document input device (not shown) (S1301), and the first page is processed by the area identifying unit 101, the character recognizing unit 102, the font identifying unit 103, and the like in FIG. 1 (S1302). ). Next, title candidates are extracted based on the processing of the first page (S1303), the extracted title candidates are referred to the word dictionary (S1304), and it is determined whether or not they match the registered word (S1305). . If they do not match (S
1305, No), the title candidates extracted as they are are output as the title of the document (S1306). If they match (S1305, Yes), the same process as the first page is performed on the second page (S1307), the title candidate is extracted (S1308), and the title information related to the extracted title candidate is output ( S1306). According to this embodiment, all the titles of FAX documents that are in a large amount are "FAX".
It is possible to prevent it from becoming a "sending slip" or the like.

【0032】(実施形態5)実施形態5は、実施形態4
で述べたFAX送信時のカバーシートにつけられる「F
AX」「カバーシート」など、タイトルとして採用しな
い単語をあらかじめ単語辞書に登録しておき、1文書中
の各ページのタイトル抽出時に、この単語辞書を参照
し、前記単語に一致したタイトル候補がある場合、「こ
のページはタイトルを抽出するのにふさわしくないペー
ジである」という解釈をし、これを2ページ目以降の各
ページについて行い、タイトル候補に前記単語に一致す
るものがなくなった時点で、当該ページのタイトル候補
をタイトルとすることを特徴とする。図7は、実施形態
5に係るタイトル抽出方法の実行手順を示すフローチャ
ートである。図に従って本タイトル抽出のための処理手
順を説明すれば、まず、文書入力装置(図示せず)から
文書画像を入力し(S1401)、処理装置(図示せず)に
よりページ数分のループを設定する(S1402)。次に、
図1の領域識別部101、文字認識部102、フォント識別部
103等の各部により1ページ目の処理を行い(S1403)、
タイトル候補を抽出し(S1404)、抽出したタイトル候
補を前記単語辞書と参照し、登録した単語と一致するか
否かを判断する(S1405)。一致する場合においては(S
1406、Yes)、次のループ、つまり2ページについて1ペ
ージ目と同じ処理を行い、以下順次それ以降のページに
ついて同じ処理を行う。一致しなくなった場合(S1406、
No)、その時点でこのループから抜け出し、そのページ
のタイトル候補についてタイトル情報を出力する(S140
7)。
(Embodiment 5) Embodiment 5 is Embodiment 4
"F which can be attached to the cover sheet for FAX transmission
Words such as "AX" and "cover sheet" that are not adopted as titles are registered in advance in the word dictionary, and when extracting the titles of the pages in one document, the word dictionary is referred to, and there are title candidates that match the words. In this case, it is interpreted that "this page is not suitable for extracting a title", and this is performed for each of the second and subsequent pages, and when there is no title candidate that matches the word, It is characterized in that the title candidate of the page is used as a title. FIG. 7 is a flowchart showing an execution procedure of the title extracting method according to the fifth embodiment. The processing procedure for extracting the main title will be described with reference to the figure. First, a document image is input from a document input device (not shown) (S1401), and a loop for the number of pages is set by the processing device (not shown). Yes (S1402). next,
Area identification unit 101, character recognition unit 102, font identification unit of FIG.
The first page is processed by each part such as 103 (S1403),
Title candidates are extracted (S1404), and the extracted title candidates are referred to the word dictionary to determine whether or not they match the registered word (S1405). If they match (S
1406, Yes), the next loop, that is, the same processing as the first page is performed for two pages, and the same processing is sequentially performed for subsequent pages. If they no longer match (S1406,
No), at that point, this loop is exited, and title information is output for the title candidates for that page (S140
7).

【0033】(実施形態6)実施形態6は、1文書中に
単数又は複数ページの情報が格納されている文書画像を
処理するタイトル抽出方法において、タイトルとして採
用しない単語をあらかじめ単語辞書に登録しておき、各
ページのタイトル抽出時に、単語辞書を参照し、前記単
語に一致したタイトルがある場合、このタイトルを除外
してタイトルを抽出し、これを全ページについて行い、
タイトルらしさの評価値を参照し、最適なタイトル候補
を選出することを特徴とする。これは1文書中に複数ペ
ージの情報が格納されている文書画像の場合だけでな
く、1画像中のタイトル抽出にも応用が可能なものであ
り、例えば、定型フォーマットのような文書を大量に入
力する場合、「報告書」「伝票」「受注書」「請求書」
のような定型フォーマット固有の名称など本来タイトル
かもしれないが、タイトルとして扱いたくないものを除
去した上で、その文書のタイトルを抽出する。図8は、
実施形態6に係るタイトル抽出方法の実行手順を示すフ
ローチャートである。図に従って本タイトル抽出のため
の処理手順を説明すれば、まず、文書入力装置(図示せ
ず)から文書画像を入力し(S1501)、処理装置(図示
せず)によりページ数分のループを設定する(S150
2)。次に、図1の領域識別部101、文字認識部102、フ
ォント識別部103等の各部により1ページ目の処理を行
い(S1503)、タイトル候補を抽出し(S1504)、抽出し
たタイトル候補を前記単語辞書と参照し、登録した単語
とのマッチング(一致性)を判断し(S1505)、その情
報を格納する(S1506)。そして設定したループを終了
したか否かを判断する(S1507)。終了していない場合
(S1507、No)、全ループが終了するまで前記の処理を行
う。ループが終了した場合(S1507、Yes)、このループ
から抜け出し、格納したマッチング情報から前記単語と
マッチングする単語を除外したタイトルに、定められた
計数値をかけ、タイトルらしさの評価値を算出して上位
のタイトル候補を選出する(S1508)。そして、その候
補に関するタイトル情報を出力する(S1509)。
(Sixth Embodiment) In the sixth embodiment, in a title extracting method for processing a document image in which information of a single page or a plurality of pages is stored in one document, words which are not adopted as a title are registered in advance in a word dictionary. Incidentally, at the time of extracting the title of each page, referring to the word dictionary, if there is a title that matches the word, this title is excluded to extract the title, and this is performed for all pages,
The feature is that an optimum title candidate is selected by referring to the evaluation value of title-likeness. This can be applied not only to a document image in which information of multiple pages is stored in one document but also to extraction of a title in one image. For example, a large number of documents such as a fixed format can be used. If you enter, "report""slip""order""invoice"
Although it may be a title such as a name peculiar to a fixed format originally, the title of the document is extracted after removing the ones that are not desired to be treated as a title. Figure 8
20 is a flowchart showing an execution procedure of a title extraction method according to the sixth embodiment. The procedure for extracting the main title will be described with reference to the figure. First, a document image is input from a document input device (not shown) (S1501), and a loop for the number of pages is set by the processing device (not shown). Yes (S150
2). Next, the area identification unit 101, the character recognition unit 102, the font identification unit 103, and the like in FIG. 1 process the first page (S1503), extract title candidates (S1504), and extract the extracted title candidates. By referring to the word dictionary, the matching (matching) with the registered word is determined (S1505), and the information is stored (S1506). Then, it is determined whether or not the set loop is finished (S1507). If not completed (S1507, No), the above processing is performed until all loops are completed. When the loop is completed (S1507, Yes), exit from this loop and multiply the stored matching information by excluding words that match the word, and multiply the determined count value to calculate an evaluation value of title-likeness. The top title candidates are selected (S1508). Then, the title information regarding the candidate is output (S1509).

【0034】(実施形態7)実施形態7は、1文書中に
複数ページの情報が格納されている文書画像を処理する
タイトル抽出方法において、1文書中の1ページ目が格
納されている複数画像の先頭ページか末尾ページか不明
な文書画像を処理することを可能にする。例えば、FA
Xなどまとめて送信する際に、機器の違いでページが逆
順になることもあり、それを見越して逆順で送る人もい
る。FAXのような機器は受信側で制御できる限界があ
るので、送信側にページ順で送ってくださいとは言いが
たく、同じように処理をしたい場合に困ることがある。
そこで、実施形態7は、先頭ページと末尾ページについ
てタイトル抽出を行い、そのページにあるタイトルと単
語を登録している単語辞書とのマッチングを行うが、こ
の単語辞書は、実施形態4乃至6で説明した単語辞書と
は逆のタイトルらしい文字列として積極的に採用するた
めの単語辞書とする。よって、単語辞書に登録する単語
は、「について」とか、商品名などとする。そして、こ
れらの単語と先頭ページ及び末尾ページのタイトル候補
についてマッチング処理を行い、どちらの方が先頭ペー
ジにふさわしいかを、どちらの方がよりタイトルらしい
文字列をタイトルとして抽出してきたかによって判断
し、タイトルを抽出することを特徴とする。
(Embodiment 7) Embodiment 7 is a title extracting method for processing a document image in which information of a plurality of pages is stored in one document, and a plurality of images in which the first page of one document is stored. Allows you to process document images that are unknown to the first or last page of the. For example, FA
When sending a batch such as X, the pages may be in reverse order due to the difference in the device, and some people send them in reverse order in anticipation of that. Since a device such as a FAX has a limit that can be controlled by the receiving side, it is hard to say that the sending side should be sent in the page order, and there is a problem when the same processing is desired.
Therefore, in the seventh embodiment, title extraction is performed on the first page and the last page, and matching is performed between the title on the page and the word dictionary in which the words are registered. This word dictionary is used in the fourth to sixth embodiments. This is a word dictionary to be actively adopted as a character string that seems to be a title, which is the opposite of the word dictionary described. Therefore, the word registered in the word dictionary is "about" or a product name. Then, a matching process is performed with respect to these words and the title candidates of the first page and the last page, and which one is more suitable for the first page is determined by which one has extracted a character string more like a title as a title, It is characterized by extracting the title.

【0035】図9及び図10は、実施形態7に係るタイ
トル抽出方法の実行手順を示すフローチャートである。
図9に従って本タイトル抽出のための処理手順を説明す
れば、まず、文書入力装置(図示せず)から文書画像を
入力し(S1601)、処理装置(図示せず)及び図1の領
域識別部101、文字認識部102、フォント識別部103等の
各部は、先頭ページを抽出し(S1602)、そのページにつ
いてタイトルの抽出を行う(S1603)。次に末尾ページ
の抽出を行い(S1604)、そのページについてタイトル
の抽出を行う(S1605)。そして、前記先頭ページ及び
末尾ページについて抽出したタイトルを、前記単語辞書
を参照し、先頭又は末尾ページのどちらの方が最初のペ
ージ(第1ページ)にふさわしいかを、どちらの方がよ
りタイトルらしい文字列をタイトルとして抽出してきた
かによって判断し、前記先頭ページが最初のページであ
る場合は、その次の画像に、また前記末尾ページが最初
のページであれば、その前の画像に対してタイトル抽出
を行い、そのページのタイトル候補をタイトルとして確
定させ(S1606)、そのタイトル候補についてのタイト
ル情報を出力する(S1607)。このときページの順番が
先頭から末尾順なのか、末尾から先頭順なのかも合わせ
て出力する。実施形態7によれば、複数ページが1度に
入力されるFAX文書等において、第1ページ目のカバ
ーシートにある「FAX」「FAX送信票」などタイト
ルとして重要でない文字列をタイトルとして抽出するこ
とを避けることができる。また、送信された複数ページ
のFAX文書のページ順を受信側で確認することができ
る。
9 and 10 are flowcharts showing the procedure for executing the title extracting method according to the seventh embodiment.
The processing procedure for extracting the main title will be described with reference to FIG. 9. First, a document image is input from a document input device (not shown) (S1601), the processing device (not shown), and the area identification unit of FIG. Each unit such as 101, the character recognition unit 102, and the font identification unit 103 extracts the first page (S1602) and extracts the title for the page (S1603). Next, the last page is extracted (S1604), and the title is extracted for that page (S1605). The titles extracted for the first page and the last page are referred to the word dictionary, and which one of the first page and the last page is suitable for the first page (first page) is more likely to be the title. Judging whether or not the character string has been extracted as a title. If the first page is the first page, the title is given to the next image, and if the last page is the first page, the title is given to the previous image. Extraction is performed, the title candidate of the page is confirmed as the title (S1606), and the title information about the title candidate is output (S1607). At this time, whether the page order is from the beginning to the end or from the end to the beginning is also output. According to the seventh embodiment, in a FAX document or the like in which a plurality of pages are input at one time, a character string that is not important as a title, such as “FAX” or “FAX transmission slip” on the cover sheet of the first page, is extracted as a title. You can avoid that. Further, the receiving side can confirm the page order of the transmitted multiple-page FAX document.

【0036】さらに図10に従って本タイトル抽出のた
めの処理手順を説明すれば、まず、文書入力装置(図示
せず)からタイトル抽出ページの文書画像を入力し(S1
701)、文字認識部102で文字認識処理を行い(S170
2)、認識した文字について領域識別部101で文字サイ
ズ、行間距離、センタリング、フォント強調等のタイト
ル的特徴を抽出し(S1703)、それらをタイトル候補と
して評価する(S1704)。次にこのタイトル候補につい
てタイトルとして採用しない単語を登録した単語辞書を
参照し、登録した単語とのマッチング(一致性)を判断
し(S1705)、その結果をマッチング情報として格納す
る(S1706)。そしてこのマッチング情報に基づいてタ
イトル候補を選出し、選出したタイトル候補のタイトル
情報を出力する(S1707)。
The processing procedure for extracting the main title will be further described with reference to FIG. 10. First, the document image of the title extraction page is input from a document input device (not shown) (S1
701), and the character recognition unit 102 performs character recognition processing (S170
2) With respect to the recognized characters, the area identifying unit 101 extracts title characteristics such as character size, line spacing, centering, and font emphasis (S1703) and evaluates them as title candidates (S1704). Next, with respect to this title candidate, a word dictionary in which a word that is not adopted as a title is registered is referred to, a matching with the registered word is determined (S1705), and the result is stored as matching information (S1706). Then, a title candidate is selected based on this matching information, and the title information of the selected title candidate is output (S1707).

【0037】以上本発明のタイトル抽出方法の実施形態
について説明したが、前記各方法を実行する一連の手順
をコンピュータプログラムとして記述し、かつ、このプ
ログラムをフレキシブルディスク、CD−ROM、DVD-ROM、
MO等の任意の記録媒体に記録し、これを任意のコンピュ
ータに読み取らせることで文書画像のタイトル抽出装置
を構成し、入力された文書画像からタイトルを自動的に
抽出する本発明の方法を容易に実施することができる。
本プログラムは、記録媒体に記録する以外に、インター
ネット、イントラネット等の任意のネットワークを介し
て、コンピュータに直接読み取らせることも勿論可能で
ある。
Although the embodiment of the title extraction method of the present invention has been described above, a series of procedures for executing each of the above methods is described as a computer program, and this program is recorded on a flexible disk, CD-ROM, DVD-ROM,
A method of the present invention for automatically extracting a title from an input document image by configuring an apparatus for extracting a title of a document image by recording on an arbitrary recording medium such as MO and reading it by an arbitrary computer is facilitated. Can be carried out.
The program can be directly read by a computer via an arbitrary network such as the Internet or an intranet, instead of being recorded in a recording medium.

【0038】[0038]

【発明の効果】請求項1乃至9に対応する効果:1文書
が複数ページからなる文書画像においてタイトルを的確
に抽出することができる。最初のページが先頭ページ及
び末尾ページのいずれの側にあるか不明な文書画像にお
いて効率的にタイトルを抽出することができる。請求項
10、11に対応する効果:任意のコンピュータに読み
取らせることにより、入力された文書画像からタイトル
を抽出する処理を容易に行うことができる。請求項12
に対応する効果:入力された文書画像からタイトルを抽
出する処理を容易に実施することができる。
Effects of the first to ninth aspects: A title can be accurately extracted in a document image in which a document has a plurality of pages. A title can be efficiently extracted in a document image in which it is unknown which side the first page is, the first page or the last page. Effects corresponding to claims 10 and 11: By causing an arbitrary computer to read the title, the process of extracting the title from the input document image can be easily performed. Claim 12
Effect corresponding to: The process of extracting the title from the input document image can be easily implemented.

【図面の簡単な説明】[Brief description of drawings]

【図1】 タイトル抽出処理を行うシステム構成例のブ
ロック図である。
FIG. 1 is a block diagram of a system configuration example for performing title extraction processing.

【図2】 タイトル抽出処理に用いられるタイトルらし
さのポイントのうち、二次的に求められるタイトルらし
さを示す図である。
FIG. 2 is a diagram showing a title-likeness secondarily obtained among the points of the title-likeness used in the title extraction processing.

【図3】 本発明のタイトル抽出方法の第1の実施の形
態に係るフローチャートである。
FIG. 3 is a flowchart according to the first embodiment of the title extraction method of the present invention.

【図4】 本発明のタイトル抽出方法の第2の実施の形
態に係るフローチャートである。
FIG. 4 is a flowchart according to a second embodiment of the title extraction method of the present invention.

【図5】 本発明のタイトル抽出方法の第3の実施の形
態に係るタイトルの比較値を算出する例を示す図であ
る。
FIG. 5 is a diagram showing an example of calculating a title comparison value according to the third embodiment of the title extraction method of the present invention.

【図6】 本発明のタイトル抽出方法の第4の実施の形
態に係るフローチャートである。
FIG. 6 is a flowchart according to a fourth embodiment of the title extraction method of the present invention.

【図7】 本発明のタイトル抽出方法の第5の実施の形
態に係るフローチャートである。
FIG. 7 is a flowchart according to a fifth embodiment of the title extraction method of the present invention.

【図8】 本発明のタイトル抽出方法の第6の実施の形
態に係るフローチャートである。
FIG. 8 is a flowchart according to a sixth embodiment of the title extraction method of the present invention.

【図9】 本発明のタイトル抽出方法の第7の実施の形
態に係るフローチャートである。
FIG. 9 is a flowchart according to a seventh embodiment of the title extraction method of the present invention.

【図10】 本発明のタイトル抽出方法の第8の実施の
形態に係るフローチャートである。
FIG. 10 is a flowchart according to an eighth embodiment of the title extraction method of the present invention.

【符号の説明】[Explanation of symbols]

101…領域識別部、102…文字識別部、103…フ
ォント識別部、104…自然言語識別部、105…ポイ
ント付部、106…特定語辞典
101 ... Area identification section, 102 ... Character identification section, 103 ... Font identification section, 104 ... Natural language identification section, 105 ... Pointing section, 106 ... Specific word dictionary

───────────────────────────────────────────────────── フロントページの続き (72)発明者 山本 忍 東京都大田区中馬込1丁目3番6号株式会 社リコー内 Fターム(参考) 5B050 AA10 BA06 BA16 EA06 EA18 5B064 AA01 AA07 5B075 ND07 NK04 NK31 UU06 5B091 CB09 CC03 EA00    ─────────────────────────────────────────────────── ─── Continued front page    (72) Inventor Shinobu Yamamoto             1-3-3 Nakamagome Stock Market, Ota-ku, Tokyo             Inside Ricoh F-term (reference) 5B050 AA10 BA06 BA16 EA06 EA18                 5B064 AA01 AA07                 5B075 ND07 NK04 NK31 UU06                 5B091 CB09 CC03 EA00

Claims (12)

【特許請求の範囲】[Claims] 【請求項1】 1文書が複数ページからなる文書画像を
処理するタイトル抽出方法において、 1文書中の1ページ目の文書画像のタイトル抽出し、抽
出したタイトルを前記文書のタイトルとする各工程から
なることを特徴とするタイトル抽出方法。
1. A title extraction method for processing a document image in which one document has a plurality of pages, wherein the title of the document image of the first page in one document is extracted, and the extracted title is used as the title of the document. Title extraction method characterized in that.
【請求項2】 1文書が複数ページからなる文書画像を
処理するタイトル抽出方法において、 1文書中の各ページ毎にタイトルを抽出し、抽出したタ
イトルをタイトル候補として格納し、全ページのタイト
ル抽出後に、前記タイトル候補毎にタイトルらしさの評
価値を算出してタイトル候補を選出する各工程からなる
ことを特徴とするタイトル抽出方法。
2. A title extraction method for processing a document image in which one document includes a plurality of pages, wherein a title is extracted for each page in one document, the extracted title is stored as a title candidate, and titles of all pages are extracted. A method of extracting a title, which comprises the steps of calculating an evaluation value of title-likeness for each of the title candidates and selecting the title candidates.
【請求項3】 請求項2記載のタイトル抽出方法におい
て、 前記タイトル候補毎にページ固有の計数値をかけてタイ
トルらしさの評価値を算出しタイトル候補を選出する各
工程からなることを特徴とするタイトル抽出方法。
3. The title extracting method according to claim 2, further comprising a step of calculating a title-likeness evaluation value by multiplying a page-specific count value for each of the title candidates and selecting title candidates. Title extraction method.
【請求項4】 1文書が複数ページからなる文書画像を
処理するタイトル抽出方法において、 1文書中の1ページ目の文書画像のタイトルを抽出し、
抽出したタイトルをタイトルとして採用しない文字列を
格納した辞書を参照して前記文字列と比較し、前記文字
列と一致したタイトルがある場合、2ページ目の文書画
像のタイトルを抽出し、抽出したタイトルをタイトル候
補とし、前記文字列と一致したタイトルがない場合、1
ページ目の文書画像のタイトルをタイトル候補とする各
工程からなることを特徴とするタイトル抽出方法。
4. A title extraction method for processing a document image in which one document has a plurality of pages, wherein the title of the document image of the first page in one document is extracted,
The extracted title is compared with the character string by referring to a dictionary that stores a character string that is not adopted as a title. If there is a title that matches the character string, the title of the document image on the second page is extracted and extracted. If the title is a title candidate and there is no title that matches the character string, 1
A title extracting method, comprising: each step of using a title of a document image of a page as a title candidate.
【請求項5】 1文書が複数ページからなる文書画像を
処理するタイトル抽出方法において、 1文書中の1ページ目の文書画像のタイトルを抽出し、
抽出したタイトルをタイトルとして採用しない文字列を
格納した辞書を参照して前記文字列と比較し、前記文字
列と一致したタイトルがある場合、2ページ目以降の各
文書画像のタイトルを抽出し、抽出したタイトルと前記
文字列とを比較し、前記文字列と一致したタイトルがな
い場合、当該ページの文書画像のタイトルをタイトル候
補とする各工程からなることを特徴とするタイトル抽出
方法。
5. A title extraction method for processing a document image in which one document has a plurality of pages, wherein the title of the document image of the first page in one document is extracted,
The extracted title is compared with the character string by referring to a dictionary that stores a character string that is not adopted as a title, and if there is a title that matches the character string, the titles of the respective document images on the second and subsequent pages are extracted, A title extraction method, comprising: comparing the extracted title with the character string; and if there is no title that matches the character string, the steps include using the title of the document image of the page as a title candidate.
【請求項6】 1文書が単数又は複数ページからなる文
書画像を処理するタイトル抽出方法において、 1文書中のページ毎に文書画像のタイトルを抽出し、抽
出したタイトルをタイトルとして採用しない文字列を格
納した辞書を参照して該文字列と比較し、該文字列と一
致する文字列を除外してタイトルを抽出し、全ページの
タイトル抽出後に、前記タイトル毎にタイトルらしさの
評価値を算出してタイトル候補を選出する各工程からな
ることを特徴とするタイトル抽出方法。
6. A title extraction method for processing a document image in which one document consists of a single page or a plurality of pages, wherein a title of the document image is extracted for each page in one document, and a character string not adopted as the title is extracted. The stored dictionary is referred to and compared with the character string, the character strings that match the character string are excluded, the titles are extracted, and after the titles of all pages are extracted, an evaluation value of title-likeness is calculated for each title. A method for extracting titles, which comprises each step of selecting a title candidate according to the present invention.
【請求項7】 1文書が複数ページからなる文書画像を
処理するタイトル抽出方法において、 前記文書画像の先頭ページと末尾ページのタイトルをそ
れぞれ抽出し、抽出したタイトルをタイトルとして採用
する文字列を格納した辞書を参照し、前記先頭ページの
タイトルが前記文字列と一致する場合、前記先頭ページ
が最初のページであると判断し、前記末尾ページのタイ
トルが前記文字列と一致する場合、前記末尾ページが最
初のページであると判断する各工程からなることを特徴
とするタイトル抽出方法。
7. A title extraction method for processing a document image in which one document has a plurality of pages, wherein the titles of the first page and the last page of the document image are respectively extracted, and a character string adopting the extracted title as a title is stored. When the title of the first page matches the character string, it is determined that the first page is the first page, and when the title of the last page matches the character string, the last page is referred to. A method for extracting titles, which comprises each step of determining that is the first page.
【請求項8】 前記請求項7記載のタイトル抽出方法に
おいて、 前記先頭ページが最初のページである場合、その次のペ
ージのタイトルを抽出し、前記末尾ページが最初のペー
ジである場合、前記末尾ページの前のページのタイトル
を抽出する各工程からなることを特徴とするタイトル抽
出方法。
8. The title extraction method according to claim 7, wherein when the first page is the first page, the title of the next page is extracted, and when the last page is the first page, the last page is extracted. A title extraction method comprising the steps of extracting the title of the page before the page.
【請求項9】 請求項7記載のタイトル抽出方法におい
て、 前記先頭ページが最初のページである場合、前記文書画
像のページ配列が最初ページから最終ページに至る順番
であり、前記末尾ページが最初のページである場合、前
記文書画像のページ配列が最終ページから最初ページに
至る順番であることを出力する各工程からなることを特
徴とするタイトル抽出方法。
9. The title extraction method according to claim 7, wherein when the first page is the first page, the page arrangement of the document image is in order from the first page to the last page, and the last page is the first page. In the case of a page, a title extracting method comprising the steps of outputting that the page arrangement of the document image is from the last page to the first page.
【請求項10】 請求項1乃至9のいずれかに記載され
た方法をコンピュータで実行するためのプログラム。
10. A program for executing the method according to any one of claims 1 to 9 on a computer.
【請求項11】 請求項10に記載されたプログラムを
記録したコンピュータ読み取り可能な記録媒体。
11. A computer-readable recording medium in which the program according to claim 10 is recorded.
【請求項12】 請求項10に記載されたプログラムを
搭載したタイトル抽出装置。
12. A title extraction device equipped with the program according to claim 10.
JP2001195819A 2001-06-28 2001-06-28 Method for title extraction from document image Pending JP2003016076A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001195819A JP2003016076A (en) 2001-06-28 2001-06-28 Method for title extraction from document image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001195819A JP2003016076A (en) 2001-06-28 2001-06-28 Method for title extraction from document image

Publications (1)

Publication Number Publication Date
JP2003016076A true JP2003016076A (en) 2003-01-17

Family

ID=19033736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001195819A Pending JP2003016076A (en) 2001-06-28 2001-06-28 Method for title extraction from document image

Country Status (1)

Country Link
JP (1) JP2003016076A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012190315A (en) * 2011-03-11 2012-10-04 Fuji Xerox Co Ltd Image processing device and program
JP2014013534A (en) * 2012-07-05 2014-01-23 Ricoh Co Ltd Document processor, image processor, image processing method and document processing program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012190315A (en) * 2011-03-11 2012-10-04 Fuji Xerox Co Ltd Image processing device and program
JP2014013534A (en) * 2012-07-05 2014-01-23 Ricoh Co Ltd Document processor, image processor, image processing method and document processing program
EP2682881A3 (en) * 2012-07-05 2016-10-26 Ricoh Company, Ltd. Document Processing Apparatus, Image Processing Apparatus, Document Processing Method, and Medium

Similar Documents

Publication Publication Date Title
US7382939B2 (en) Information processing apparatus, method, storage medium and program
US6353840B2 (en) User-defined search template for extracting information from documents
US7574044B2 (en) Image processing apparatus, image processing method and image processing program
US20090110268A1 (en) Table of contents extraction based on textual similarity and formal aspects
JP2004348706A (en) Information processing device, information processing method, storage medium, and program
JP2010073114A6 (en) Image information retrieving apparatus, image information retrieving method and computer program therefor
Klijn The current state-of-art in newspaper digitization
JP2009187376A (en) File management device, file management method, and program
JP2017146745A (en) Information processing apparatus, control method, information processing system, and program
JP2003016076A (en) Method for title extraction from document image
JP2003281159A (en) Document processor, document processing method and document processing program
US9886627B2 (en) Document analysis server for recommending a storage destination of image data to an image processing apparatus
US10990338B2 (en) Information processing system and non-transitory computer readable medium
US11394919B2 (en) Image processing apparatus, image processing method and medium
US11582435B2 (en) Image processing apparatus, image processing method and medium
JP7172343B2 (en) Document retrieval program
JP4952079B2 (en) Image processing apparatus, method, and program
Tekin et al. Harvest–a System for Creating Structured Rate Filing Data from Filing PDFs
JPH10198683A (en) Method for sorting document picture
JP2006023834A (en) Image processor and its control method, and program
JP2000259847A (en) Information retrieval method and device and recording medium
JP7241131B2 (en) Information extraction device and information extraction program
KR102564174B1 (en) System and method for image searching using image captioning based on deep learning
JP2006004050A (en) Image processing device, image reading device, and program
JP2008293523A (en) Image management device and computer program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080513

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080612