JPH05225247A - Inter-docment structure display method - Google Patents

Inter-docment structure display method

Info

Publication number
JPH05225247A
JPH05225247A JP4004806A JP480692A JPH05225247A JP H05225247 A JPH05225247 A JP H05225247A JP 4004806 A JP4004806 A JP 4004806A JP 480692 A JP480692 A JP 480692A JP H05225247 A JPH05225247 A JP H05225247A
Authority
JP
Japan
Prior art keywords
document
documents
display
inter
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4004806A
Other languages
Japanese (ja)
Inventor
Hiroyasu Chimura
浩靖 千村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP4004806A priority Critical patent/JPH05225247A/en
Publication of JPH05225247A publication Critical patent/JPH05225247A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To considerably reduce the man-hour by using a keyword to automatically extract relations between plural documents and displaying the structure on a display device. CONSTITUTION:Two documents A and B are selected by a document pair generating part 1, and all sentences in documents A and B are searched by a sentence search part 2 to find keywords registered in a preliminarily prepared set of keywords. As the result, sets Ka and Kb of keywords included in documents A and B are settled. A set comparing part 3 compares sets Ka and Kb with each other; and when the set Ka is a subset of the set Kb or a part of the set Ka on the outside of the set Kb is smaller than a set value alpha, it is regarded by a document inclusion relation discriminating part 4 that the document B includes the document A, and '1' is substituted into the A-th row and the B-th column of a prepared matrix M. This processing is repeated for all pairs of documents, and the matrix M is regarded as an adjacency matrix in the graph theory by a graph operation part 6, and the known hierarchizing algorithm is applied to display the structure of the whole of documents as a tree.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、複数の文書間の関連を
自動的に抽出し、構造をディスプレイに表示することに
より文書管理を行うための文書間構造表示方法に関する
ものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an inter-document structure display method for managing documents by automatically extracting relationships between a plurality of documents and displaying the structures on a display.

【0002】[0002]

【従来の技術】従来、複数の文書間の関連構造を表示す
るためには、個々の文書を人間が読んで文書対の関連の
あり・なしを判定することが必要であった。
2. Description of the Related Art Conventionally, in order to display a relational structure between a plurality of documents, it has been necessary for a human to read each document and determine whether a document pair is related or not.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、文書が
大量になった場合、また、個々の文書のボリュームが大
規模である場合、それらすべてを人間が読んで関係を見
出すことは大変な工数を必要とし、事実上不可能に近か
った。また、例え文書間の関係づけができたとしても、
関係の強弱をも表現できるような表示方法がなかった。
However, when the number of documents becomes large and the volume of each document is large, it takes a lot of man-hours for a human to read all of them and find out the relationship. And it was virtually impossible. In addition, even if the documents can be related,
There was no display method that could express the strength of the relationship.

【0004】[0004]

【課題を解決するための手段】本発明は、上記問題点を
解決したものであり、第1の発明の文書間構造表示方法
は、複数の文書間の関連を自動的に抽出し、構造をディ
スプレイに表示する文書間構造表示方法であって、任意
の2つの文書A,Bに対して、あらかじめ用意したキー
ワード集に登録されているキーワードの中で、文書Aに
含まれるキーワードの集合をKa 、文書Bに含まれるキ
ーワードの集合をKb とする第1のステップと、Ka
b の部分集合であるか、またははみ出す部分すなわち
集合{Ka −Kb }の要素数が設定値αよりも小さい場
合には文書Bが文書Aを包含するとみなし、文書Aから
文書Bへの方向に関連があると定義する第2のステップ
と、これをすべての文書対に対して行うことにより、す
べての文書間の関連を求める第3のステップと、既知の
階層化アルゴリズムを適用して全体の構造をツリーとし
てディスプレイに表示する第4のステップとから成るこ
とを特徴とする。
SUMMARY OF THE INVENTION The present invention solves the above problems, and a method of displaying a structure between documents according to the first invention automatically extracts a relation between a plurality of documents to obtain a structure. A method for displaying an inter-document structure displayed on a display, wherein a set of keywords included in document A among keywords registered in a keyword collection prepared in advance for any two documents A and B is set to K. a , a first step in which a set of keywords included in document B is K b, and K a is a subset of K b , or a protruding portion, that is, the number of elements of a set {K a −K b } is set If the value is smaller than the value α, it is considered that the document B includes the document A, and the second step of defining that the direction from the document A to the document B is relevant, and this is performed for all document pairs. Due to the association between all documents A third step of obtaining, characterized in that it consists of a fourth step of displaying on the display the whole structure by applying known hierarchical algorithm as a tree.

【0005】第2の発明の文書間構造表示方法は、第1
の発明の文書間構造表示方法において、設定値αを変化
させる第5のステップを有することを特徴とする。
The interdocument structure display method of the second invention is the first method.
The inter-document structure display method according to the invention is characterized by including a fifth step of changing the set value α.

【0006】第3の発明の文書間構造表示方法は、第1
の発明の文書間構造表示方法において、ツリーをディス
プレイに表示する時、文書AとBの間のアークの太さ
を、集合{Ka −Kb }の要素数に応じて変化させるこ
とにより、包含関係の強さを表現する第5のステップを
有することを特徴とする。
The inter-document structure display method of the third invention is the first method.
In the method for displaying an inter-document structure according to the invention described above, when the tree is displayed on the display, by changing the thickness of the arc between the documents A and B according to the number of elements of the set {K a −K b }, It is characterized by having a fifth step of expressing the strength of the inclusion relation.

【0007】第4の発明の文書間構造表示方法は、第1
の発明の文書間構造表示方法において、ツリーをディス
プレイに表示する時、文書AとBの間のアークの色を、
集合{Ka −Kb }の要素数に応じて変化させることに
より、包含関係の強さを表現する第5のステップを有す
ることを特徴とする。
The interdocument structure display method of the fourth invention is the first method.
In the method for displaying the structure between documents according to the invention of claim 1, when the tree is displayed on the display, the color of the arc between the documents A and B is
It is characterized by having a fifth step of expressing the strength of the inclusive relation by changing it according to the number of elements of the set {K a −K b }.

【0008】[0008]

【作用】本発明は4個の発明からなる。このうち第2、
第3、第4の発明は、第1の発明を基本として、それぞ
れ別個の効果をもたらす新しい機能を付加した発明であ
る。
The present invention consists of four inventions. The second of these,
The third and fourth inventions are inventions based on the first invention, to which new functions that bring different effects are added.

【0009】第1の発明は、以下の4つのステップによ
り、要素間関連構造をディスプレイに表示する。
The first invention displays the inter-element relation structure on the display by the following four steps.

【0010】第1のステップ 任意の2つの文書A,B中のすべての文章をサーチし、
あらかじめ用意したキーワード集に登録されているキー
ワードを捜す。今、文書Aに含まれるキーワードの集合
がKa 、文書Bに含まれるキーワードの集合がKb であ
ったとする。
The first step is to search all sentences in any two documents A and B,
Search for the keywords registered in the prepared keyword collection. It is assumed that the set of keywords included in the document A is K a and the set of keywords included in the document B is K b .

【0011】第2のステップ 集合Ka とKb の要素を比較する。Ka がKb の部分集
合であるか、またははみ出す部分すなわち集合{Ka
b }の要素数が設定値αよりも小さい場合には文書B
が文書Aを包含するとみなし、文書Aから文書Bへの方
向に関連があると定義し、用意しておいたマトリックス
Mの第A行、第B列に“1”を代入する。
Second step Compare the elements of sets K a and K b . K a is a subset of K b , or the protruding portion or set {K a
If the number of elements of K b } is smaller than the set value α, the document B
Is considered to include the document A, the direction from the document A to the document B is defined as being related, and “1” is substituted into the prepared matrix M at the A-th row and the B-th column.

【0012】第3のステップ すべての文書対に対して上記第1〜第2のステップを繰
り返す。これにより、すべての文書間の関連が求まる。
Third Step The above first and second steps are repeated for all document pairs. As a result, the relation between all the documents is obtained.

【0013】第4のステップ 第3のステップの結果得られたマトリックスMを、グラ
フ理論における隣接行列とみなし、既知の階層化アリゴ
リズムを適用して全体の構造をツリーとしてディスプレ
イに表示する。
Fourth Step The matrix M obtained as a result of the third step is regarded as an adjacency matrix in graph theory, and the known hierarchical algorithm is applied to display the entire structure as a tree on the display.

【0014】第2の発明は、第1の発明における設定値
αを変化させることにより、文書間の包含関係のあり/
なしの判定の感度を調整する。
A second aspect of the invention is that there is an inclusion relation between documents by changing the set value α in the first aspect.
Adjust the sensitivity of the judgment of none.

【0015】第3の発明は、第1の発明において表示し
たツリーにおいて、例えば文書A,Bに対するKa がK
b の部分集合である場合には、文書AからBへのアーク
の太さを最大にし、一方、Ka がKb の部分集合でな
く、はみ出す部分がある場合すなわち集合{Ka
b }が空集合でない場合には{Ka −Kb }の要素数
が増加するに従ってアークが次第に細くなるように表示
する。これにより、文書間のアークの太さにより、文書
間の包含関係の強さが一目でわかるようにする。
In the third invention, in the tree displayed in the first invention, for example, K a for documents A and B is K.
If it is a subset of b , then the thickness of the arc from documents A to B is maximized, while if K a is not a subset of K b and there is a protruding portion, that is, the set {K a
When K b } is not an empty set, the arc is displayed so as to become gradually thinner as the number of elements of {K a −K b } increases. As a result, the strength of the inclusion relation between documents can be seen at a glance based on the thickness of the arc between the documents.

【0016】第4の発明は、第1の発明において表示し
たツリーにおいて、例えば文書A,Bに対するKa がK
b の部分集合である場合には、文書AからBへのアーク
の色を明るい色または強い色にし、一方、Ka がKb
部分集合でなく、はみ出す部分がある場合すなわち集合
{Ka −Kb }が空集合でない場合には{Ka −Kb
の要素数が増加するに従ってアークの色が次第に暗くな
る、または弱くなるように表示する。これにより、文書
間のアークの色により、文書間の包含関係の強さが一目
でわかるようにする。
In a fourth invention, in the tree displayed in the first invention, for example, K a for documents A and B is K.
If it is a subset of b , then the color of the arc from documents A to B is a bright or strong color, while if K a is not a subset of K b , and there is a protruding portion, that is, the set {K a If -K b} is not an empty set {K a -K b}
The color of the arc is gradually darkened or weakened as the number of elements of is increased. As a result, the strength of the inclusion relation between documents can be seen at a glance by the color of the arc between the documents.

【0017】[0017]

【実施例】図1におけるAは、第1の発明の一実施例を
示すブロック図である。始めに、文書対発生部1におい
て、処理の対象となる2つの文書A,Bを選択する。次
に、文章サーチ部2において、文章A,B中のすべての
文章をサーチし、あらかじめ用意したキーワード集に登
録されているキーワードを捜す。その結果、文書Aに含
まれるキーワードの集合Ka 、文書Bに含まれるキーワ
ードの集合Kb が確定する。次に、集合比較部3におい
て、Ka とKb の比較を行い、Ka がKb の部分集合で
あるか、または、はみ出す部分がある場合すなわち集合
{Ka −Kb}が空集合でない場合には{Ka −Kb
の要素数が設定値αよりも小さいか、を調べる。この結
果により、次の文書包含関係判定部4にて、文書Aと文
書Bの包含関係を判定し、もし包含関係があるならば用
意しておいたマトリックスMの対応する部分に“1”を
代入する。次に、判定部5において、すべての文書対に
対して処理が終了したか否かを判定し、終了してないな
らば文書対発生部1に戻り、新たな文書対に対して上記
の処理を繰り返す。もし、すべての文書対に対して処理
が終了しているのならば、グラフ演算部6において、マ
トリックスMをグラフ理論における隣接行列とみなし、
既知の階層化アルゴリズムを適用して階層化を行う。次
のツリー表示部7において、実際に全体の構造をツリー
としてディスプレイに表示する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS A in FIG. 1 is a block diagram showing an embodiment of the first invention. First, the document pair generation unit 1 selects two documents A and B to be processed. Next, the text search unit 2 searches all the texts in the texts A and B to search for the keywords registered in the keyword collection prepared in advance. As a result, the keyword set K a included in the document A and the keyword set K b included in the document B are determined. Next, in the set comparison unit 3, K a is compared with K b , and if K a is a subset of K b or there is a protruding portion, that is, the set {K a −K b } is an empty set. Otherwise, {K a −K b }
Check whether the number of elements of is smaller than the set value α. Based on this result, the next document inclusion relation determination unit 4 determines the inclusion relation between document A and document B, and if there is an inclusion relation, sets "1" to the corresponding portion of the prepared matrix M. substitute. Next, the determination unit 5 determines whether or not the processing has been completed for all document pairs, and if not completed, the process returns to the document pair generation unit 1 to perform the above-described processing for a new document pair. repeat. If the processing has been completed for all document pairs, the graph computing unit 6 regards the matrix M as an adjacency matrix in graph theory,
Layering is performed by applying a known layering algorithm. In the next tree display unit 7, the entire structure is actually displayed as a tree on the display.

【0018】図1におけるAとBは、第2の発明の一実
施例を示すブロック図である。設定値α入力部8におい
て、設定値αの値を入力し、この値を集合比較部3に送
る。この操作により、文書間の包含関係のあり/なしの
判定の感度を調整する。
A and B in FIG. 1 are block diagrams showing an embodiment of the second invention. The set value α input unit 8 inputs the value of the set value α and sends this value to the set comparison unit 3. By this operation, the sensitivity of the determination of the presence / absence of the inclusion relation between documents is adjusted.

【0019】図1におけるAとCは、第3の発明の一実
施例を示すブロック図である。アーク太さ決定部9は、
集合比較部3から集合{Ka −Kb }の要素数情報を受
取り、各アークの太さを決定し、ツリー表示部に太さ情
報を与える。
A and C in FIG. 1 are block diagrams showing an embodiment of the third invention. The arc thickness determination unit 9
The element number information of the set {K a −K b } is received from the set comparison unit 3, the thickness of each arc is determined, and the tree display unit is provided with the thickness information.

【0020】図1におけるAとDは、第4の発明の一実
施例を示すブロック図である。アーク色決定部10は、
集合比較部3から集合{Ka −Kb }の要素数情報を受
取り、各アークの色を決定し、ツリー表示部に色情報を
与える。
A and D in FIG. 1 are block diagrams showing an embodiment of the fourth invention. The arc color determination unit 10
Receiving element number information of the set {K a -K b} from a set comparison unit 3, determines the color of each arc, giving color information on the tree display unit.

【0021】[0021]

【発明の効果】従来、文書対の関連のあり/なしの判断
を人手で行っていた方式に対して、本発明による方式に
よれば、文書対の関連のあり/なしの判断を自動的に行
うことが可能となり、大幅に工数を削減することができ
るという効果をもたらす。
According to the method of the present invention, it is possible to automatically determine whether a document pair is related or not, as opposed to the method of manually determining whether a document pair is related. It is possible to do so, and it is possible to significantly reduce the number of steps.

【図面の簡単な説明】[Brief description of drawings]

【図1】第1、2、3及び4の発明の一実施例を示すブ
ロック図
FIG. 1 is a block diagram showing an embodiment of first, second, third and fourth inventions.

【符号の説明】[Explanation of symbols]

1 文書対発生部 2 文章サーチ部 3 集合比較部 4 文書包含関係判定部 5 判定部 6 グラフ演算部 7 ツリー表示部 8 設定値α入力部 9 アーク太さ決定部 10 アーク色決定部 1 Document Pair Generation Section 2 Text Search Section 3 Set Comparison Section 4 Document Inclusion Relationship Determination Section 5 Determination Section 6 Graph Calculation Section 7 Tree Display Section 8 Set Value α Input Section 9 Arc Thickness Determination Section 10 Arc Color Determination Section

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 複数の文書間の関連を自動的に抽出し、
構造をディスプレイに表示する文書間構造表示方法であ
って、 任意の2つの文書A,Bに対して、あらかじめ用意した
キーワード集に登録されているキーワードの中で、文書
Aに含まれるキーワードの集合をKa 、文書Bに含まれ
るキーワードの集合をKb とする第1のステップと、K
a がKb の部分集合であるか、またははみ出す部分すな
わち集合{Ka −Kb }の要素数が設定値αよりも小さ
い場合には文書Bが文書Aを包含するとみなし、文書A
から文書Bへの方向に関連があると定義する第2のステ
ップと、これをすべての文書対に対して行うことによ
り、すべての文書間の関連を求める第3のステップと、
既知の階層化アルゴリズムを適用して全体の構造をツリ
ーとしてディスプレイに表示する第4のステップとから
成ることを特徴とする文書間構造表示方法。
1. A relationship between a plurality of documents is automatically extracted,
A method of displaying an inter-document structure for displaying a structure on a display, wherein a set of keywords included in document A among keywords registered in a keyword collection prepared in advance for any two documents A and B Is K a and the set of keywords contained in document B is K b, and K
If a is a subset of K b , or if the number of elements in the protruding portion or set {K a −K b } is smaller than the set value α, document B is considered to include document A, and document A
To the document B from the second step, and by doing this for all document pairs, the third step to find the relationship between all documents,
A fourth step of applying a known layering algorithm to display the entire structure as a tree on a display.
【請求項2】 設定値αを変化させる第5のステップを
有することを特徴とする請求項1記載の文書間構造表示
方法。
2. The inter-document structure display method according to claim 1, further comprising a fifth step of changing the set value α.
【請求項3】 ツリーをディスプレイに表示する時、文
書AとBの間のアークの太さを、集合{Ka −Kb }の
要素数に応じて変化させることにより、包含関係の強さ
を表現する第5のステップを有することを特徴とする請
求項1記載の文書間構造表示方法。
3. When the tree is displayed on the display, the strength of the inclusive relation is changed by changing the thickness of the arc between the documents A and B according to the number of elements of the set {K a −K b }. The inter-document structure display method according to claim 1, further comprising a fifth step of expressing
【請求項4】 ツリーをディスプレイに表示する時、文
書AとBの間のアークの色を、集合{Ka −Kb }の要
素数に応じて変化させることにより、包含関係の強さを
表現する第5のステップを有することを特徴とする請求
項1記載の文書間構造表示方法。
4. When displaying a tree on a display, by changing the color of the arc between the documents A and B according to the number of elements of the set {K a −K b }, the strength of the inclusion relation can be increased. The inter-document structure display method according to claim 1, further comprising a fifth step of expressing.
JP4004806A 1992-01-14 1992-01-14 Inter-docment structure display method Withdrawn JPH05225247A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4004806A JPH05225247A (en) 1992-01-14 1992-01-14 Inter-docment structure display method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4004806A JPH05225247A (en) 1992-01-14 1992-01-14 Inter-docment structure display method

Publications (1)

Publication Number Publication Date
JPH05225247A true JPH05225247A (en) 1993-09-03

Family

ID=11594009

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4004806A Withdrawn JPH05225247A (en) 1992-01-14 1992-01-14 Inter-docment structure display method

Country Status (1)

Country Link
JP (1) JPH05225247A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258624A (en) * 2004-03-10 2005-09-22 Fuji Xerox Co Ltd Language processing apparatus, method and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258624A (en) * 2004-03-10 2005-09-22 Fuji Xerox Co Ltd Language processing apparatus, method and program

Similar Documents

Publication Publication Date Title
US6366908B1 (en) Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method
KR101190230B1 (en) Phrase identification in an information retrieval system
DE69812162T2 (en) Apparatus for use in identifying semantic ambiguities
US5297027A (en) Method of and apparatus for promoting the understanding of a text by using an abstract of that text
US5257186A (en) Digital computing apparatus for preparing document text
US5523945A (en) Related information presentation method in document processing system
CN109710935B (en) Museum navigation and knowledge recommendation method based on cultural relic knowledge graph
CN111241212B (en) Knowledge graph construction method and device, storage medium and electronic equipment
JPH10134075A (en) Document processor, word extractor, word extracting method and recording medium recording word extract program
CN108563703A (en) A kind of determination method of charge, device and computer equipment, storage medium
US20060155662A1 (en) Sentence classification device and method
JP3584848B2 (en) Document processing device, item search device, and item search method
CN112148886A (en) Method and system for constructing content knowledge graph
JPH08147320A (en) Information retrieving method and system
DE102018007024A1 (en) DOCUMENT BROKEN BY GRAMMATIC UNITS
US20050065947A1 (en) Thesaurus maintaining system and method
JPH069054B2 (en) Document automatic classifier
JPH08166959A (en) Picture processing method
JPH05225247A (en) Inter-docment structure display method
CN106934007B (en) Associated information pushing method and device
CN112148838B (en) Service source object extraction method and device
JPH05233719A (en) Between-composite information relevance identifying method
JPH03191475A (en) Document summarizing system
CN111930959A (en) Method and device for generating text by using map knowledge
JP4525224B2 (en) Document management program, document management method, and document management apparatus

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990408