JPS63201867A - 文書画像自動要約方式 - Google Patents

文書画像自動要約方式

Info

Publication number
JPS63201867A
JPS63201867A JP62033263A JP3326387A JPS63201867A JP S63201867 A JPS63201867 A JP S63201867A JP 62033263 A JP62033263 A JP 62033263A JP 3326387 A JP3326387 A JP 3326387A JP S63201867 A JPS63201867 A JP S63201867A
Authority
JP
Japan
Prior art keywords
image
document
area
picture
bibliographical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62033263A
Other languages
English (en)
Inventor
Akira Kagami
晃 加賀美
Koichi Honma
弘一 本間
Fuminobu Furumura
文伸 古村
Fumio Wakamori
和歌森 文男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP62033263A priority Critical patent/JPS63201867A/ja
Publication of JPS63201867A publication Critical patent/JPS63201867A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文書内容を簡易に理解するのに役立つ資料を
得るための文書画像自動要約方式に係り、特に文書画像
の蓄積・検索システムにおける自動インデクシングに好
適な文書画像自動要約方式に関する。
〔従来の技術〕
従来の技術は、特開昭60−138670号公報に記載
のように、文書の抽出個所を指定する手段を設け、所要
部分を抜枠することにより要約文書を作成していた。
〔発明が解決しようとする問題点〕
上記従来技術は、文書を逐−読んで、その中の抽出個所
を厳密に指定する手間を省くことについては配慮されて
おらず、大量文書の要約処理に膨大なコストが必要にな
るという問題があった。
また、文書は多様な要素で構成されており、その要約手
段も多様である点については配慮がされておらず、文書
全体の適切な要約を行えないという問題もあった。
本発明の目的は、かかる従来技術の問題点を解決し、大
規模な文書画像の蓄積・検索システムを効率的に構築・
運用するための文書画像自動インデクシング技術を提供
することにある。
〔問題点を解決するための手段〕
上記目的を達成するため、まず入力された文書画像をそ
の内容構成に応じて自動的に領域分割し、各分割領域に
対しあらかじめ用意しである適当な要約処理を施し、そ
うして得られた要約情報を1つの画像に偏集して出力す
る。
〔作用〕
文書画像をその内容構成に応じて、自動的に領域分割す
ることにより、領域とその領域に必要な要約手段とを対
応づけできる。それによって、多様な要素で構成されて
いる文書も柔軟に処理でき、かつ、各要約手段の処理対
象領域を限定できるため、処理の自動化・効率化が容易
に実現される。
〔実施例〕
以下、本発明の一実施例を詳細に説明する。
第1図は、本発明による公開特許公報の抄録画像自動作
成方式の処理の流れを示すブロック図である。
公報画像入力部11で画像として入力された公報文書は
、まず構成要素抽出部12において、文字または図形ご
とに外接矩形枠単位で切出される。
その−例を第2図に示す。なお、これは公知の処理アル
ゴリズムでも実施できる。
要素並び分析部13は、第3図に示すように、外接矩形
枠31単位で切出された要素32から、以下の特徴量を
抽出する。
■、外接矩形粋の左上点のX座標:x1■、外接矩形枠
の左上点のX座標:Y1■、外接矩形枠の横方向の大き
さ:WI■、外接矩形枠の縦方向の大きさ:HI■、要
素のX軸投影周辺分布:(pt(m))(m=1.・・
・、 Wt) ■、要素のy軸投影周辺分布:(Qi(n))(n=1
.・・・、 Hl) ここで、添字iは要素iの特徴量であることを示す。こ
のうち、■〜■を用いて第1図の文書を以下の3つの領
域に粗く分割する。
A、書誌的事項領域21   (第1ページ)B、明細
書本文領域22  (第1ページ〜)C0明細書図面領
域23  (〜最終ページ)A、B、Cはこの順に出現
するため、AとB。
BとCの区別ができれば上記の領域分割は可能となる。
AとBの境界は第1ページ中の大きな空白領域として存
在する。よって、これを SP+= (Xt  Xi+t)2+100(Yt  
Yt+t)”を最大にする要素jで検出すればよい。な
お、空白領域の特徴を考慮して、y方向に重みをつけた
一方、BとCの境界は、外接矩形枠の大きさを示すW、
またはHlが許容値を初めて越える要素iで容易に検出
できる。あるいはまた、非文字領域の特徴である要素並
びの不ぞろいを外接矩形枠の左上点(x、+ 、 Yl
 )によって検出することもできる。
次に、上記3つの分割領域に対し、それぞれ、ブロック
14〜16に示す詳細分割及び、要約処理を加える。
書誌的事項抽出部14は、書誌的事項領域21から書誌
的事項を抽出する。公報は、項目の記述に先立ち、その
内容を端的に表現する特定の文字列(以下、見出し語と
記す)を表示している。第4図にその一例を示す。よっ
て、この見出し語41を探索することにより、各書誌的
事項42の場所を限定(領域を詳細に分割)できる。後
は、見出し語との相対的位置関係から書誌的事項だけが
精度良く抽出される。なお、見出し語は複数(例えばN
個)の文字で構成される文字列であるため、全文字を誤
判定する確率は非常に小さいという組合せ効果を利用す
れば1文字毎の探索精度が不十分でも全体として高精度
な探索が可能となる。すなわち、OCRのようなコスト
の高い装置を用いなくてもよくなる。例えば、登録しで
ある見出し語(at);t=1.・・・、Nと処理文書
中の候補文字列(bt); t=、t、・・・、Nとの
一致は、1文字毎の類似 at”bt のN回連続として判定する。この際、1文字毎の類似判
定を周辺分布を用いて以下の式で行えば、簡易で高速な
見出し語探索を実施できる。すなわち、 くK・((S + + S J)/ 2 )が満足され
れば、文字iとjは類似であると判定する。ここで、C
は位置ずれを補正するための相互ずらし量であり、Wl
とWJ 、Plとp、。
SLとS、はそれぞれiとjの外接矩形枠の横方向の大
きさ、X軸投影周辺分布、および面積である。また、K
は文書全体で決まる比例定数である。
なお、y軸投影周辺分布を用いた類似判定も同様であり
、2段階で判定を行うことにより、負荷をそれほど重く
しなくても精度向上を実現することもできる。
頻出文字列抽出部15は、明細書本文領域から、キーワ
ード候補としての頻出文字列を抽出する。
明細書全体を対象としたのでは、処理効率が低下したり
、非キーワードを抽出する可能性が増加するため、前述
の見出し語探索手段を用いて、処理対象を一部1例えば
、「特許請求の範囲Jに限定する。これは、2つの見出
し語である「特許請求の範囲」と「発明の詳細な説明」
とに囲まれた領域として切出される。この限定された領
域から頻出文字列を抽出する方式として、本出願人によ
る特願昭61−288775号「頻出文字列抽出方法」
がある。
主要図面抽出部16は、明細書図面領域から主要図面を
抽出する。一般に、主要図面を第1図とする傾向にある
ので1図形と考えられる一定以上のサイズを持つ外接矩
形枠のうち、最も左上にある(出現が早い)ものを主要
図面として抽出する。
なお、公報によって主要図面の大きさが色々であるから
、外接矩形枠の長辺が一定サイズ以下となるように相似
変換を施す。
続く抄録要素編集部17では、第5図に示すように、書
誌的事項51.頻出文字列52.主要図面53の3つの
抄録要素を1枚の画像に編集して抄録画像を作成する。
抄録画像出力部18では、作成した抄録画像をCRTデ
ィスプレイに表示したり、光ディスク等の記憶装置に格
納したりする。
この実施例によれば、見出し語探索により文書の構成を
的確に把握できるため、更に効率的かつ高精度な要約処
理が実現される。
また、以上の実施例において、分割された明細書本文領
域等に対し、OCR等によるコード変換処理を加えれば
、一層柔軟な要約処理を行うことができる。例えば、コ
ード上で開発された日本語処理等の既存ソフトウェアを
利用して、意味解析や翻訳なども可能となる。
〔発明の効果〕
本発明によれば、入力された文書画像をその内容構成に
応じて自動的に領域分割することにより、処理対象領域
を限定し、かつ、各領域に対し適当な要約処理を用意で
きるため、文書画像要約装置の自動化を効率的かつ高精
度に実現できるという効果がある。
【図面の簡単な説明】
第1図は本発明による公開特許公報の抄録画像作成方式
の一実施例のブロック図、第2図は上記抄録画像作成方
式の構成要素抽出部で抽出される公報構成要素の一例を
示す図、第3図は上記構成要素の特徴量を示す図、第4
図は見出し語と書誌的事項との位置関係を示す図、第5
図は抄録画像の一例を示す図である。

Claims (1)

  1. 【特許請求の範囲】 1、文書を画像として入力し、該入力された文書画像を
    その内容構成に応じて領域分割し、該領域分割された各
    画像領域に対し個別に用意した所定の要約処理を施し、
    該要約処理によって各画像領域から抽出された要約情報
    を1つの画像に編集して出力することを特徴とする文書
    画像自動要約方式。 2、前記分割された画像領域に対し、画像を別の表現形
    に変換した後、該表現形に対し所定の要約処理を施すこ
    とを特徴とする特許請求の範囲第1項の文書画像自動要
    約方式。 3、文書を画像として入力し該文書中の事項内容を示す
    見出しとなる文字列をあらかじめ登録しておき、前記入
    力文書画像中から前記文字列を画像処理によって探索し
    、探索された文字列にもとづき前記文書画像を領域分割
    することを特徴とする文書画像自動要約方式。
JP62033263A 1987-02-18 1987-02-18 文書画像自動要約方式 Pending JPS63201867A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62033263A JPS63201867A (ja) 1987-02-18 1987-02-18 文書画像自動要約方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62033263A JPS63201867A (ja) 1987-02-18 1987-02-18 文書画像自動要約方式

Publications (1)

Publication Number Publication Date
JPS63201867A true JPS63201867A (ja) 1988-08-19

Family

ID=12381633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62033263A Pending JPS63201867A (ja) 1987-02-18 1987-02-18 文書画像自動要約方式

Country Status (1)

Country Link
JP (1) JPS63201867A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08153110A (ja) * 1994-11-30 1996-06-11 Canon Inc 文書ファイリング装置及び方法
JP2003228572A (ja) * 2002-12-12 2003-08-15 Ricoh Co Ltd 画像処理装置およびインデックス情報作成方法
GB2416468A (en) * 2004-07-16 2006-01-25 Portland Press Ltd Document display system
CN106682059A (zh) * 2015-11-11 2017-05-17 奥多比公司 根据图像的结构化的知识建模和提取

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08153110A (ja) * 1994-11-30 1996-06-11 Canon Inc 文書ファイリング装置及び方法
JP2003228572A (ja) * 2002-12-12 2003-08-15 Ricoh Co Ltd 画像処理装置およびインデックス情報作成方法
GB2416468A (en) * 2004-07-16 2006-01-25 Portland Press Ltd Document display system
GB2416468B (en) * 2004-07-16 2007-08-01 Portland Press Ltd Document display system
CN106682059A (zh) * 2015-11-11 2017-05-17 奥多比公司 根据图像的结构化的知识建模和提取
CN106682059B (zh) * 2015-11-11 2022-07-08 奥多比公司 根据图像的结构化的知识建模和提取

Similar Documents

Publication Publication Date Title
CN108614898B (zh) 文档解析方法与装置
US6169999B1 (en) Dictionary and index creating system and document retrieval system
EP1271355A2 (en) Auto-index method
US9436882B2 (en) Automated redaction
US20080288309A1 (en) Future technology projection supporting apparatus, method, program and method for providing a future technology projection supporting service
JPH0797373B2 (ja) 文書フアイリングシステム
US20080162115A1 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
JP2003288334A (ja) 文書処理装置及び文書処理方法
US20020016796A1 (en) Document processing method, system and medium
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
Hiippala Semi-automated annotation of page-based documents within the Genre and Multimodality framework
US11361565B2 (en) Natural language processing (NLP) pipeline for automated attribute extraction
JPS63201867A (ja) 文書画像自動要約方式
JP2960936B2 (ja) 係り受け解析装置
JPS59165179A (ja) 辞書引方式
JP2560656B2 (ja) 文書ファイリングシステム
Dershowitz et al. Relating articles textually and visually
JPH02116970A (ja) 表内データ自動抽出処理方式
KR102394480B1 (ko) 플랜트 절차서에 포함된 구문 및 의미정보 추출방법 및 그의 시스템
JPH05135102A (ja) 文書検索方式
JPS6154569A (ja) 文書画像処理方式
Middleton et al. GloSAT Historical Measurement Table Dataset: Enhanced table structure recognition annotation for downstream historical data rescue
JPS5995672A (ja) 翻訳編集方式
JPH0668159A (ja) 検索装置
Ayyalasomayajula et al. CalligraphyNet: Augmenting handwriting generation with quill based stroke width