JP3981158B2 - 文書索引生成装置 - Google Patents

文書索引生成装置 Download PDF

Info

Publication number
JP3981158B2
JP3981158B2 JP20950094A JP20950094A JP3981158B2 JP 3981158 B2 JP3981158 B2 JP 3981158B2 JP 20950094 A JP20950094 A JP 20950094A JP 20950094 A JP20950094 A JP 20950094A JP 3981158 B2 JP3981158 B2 JP 3981158B2
Authority
JP
Japan
Prior art keywords
sentence
index
document
question
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20950094A
Other languages
English (en)
Other versions
JPH0877179A (ja
Inventor
由香梨 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP20950094A priority Critical patent/JP3981158B2/ja
Publication of JPH0877179A publication Critical patent/JPH0877179A/ja
Application granted granted Critical
Publication of JP3981158B2 publication Critical patent/JP3981158B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、文書中の文の索引を自動生成する文書索引生成装置であって、マニュアルなどの文書から文パターンによって文を抽出しこれから文書索引の生成を行う文書索引生成装置に関するものである。
【0002】
【従来の技術】
従来、索引生成システムは、単語を中心とした「見出し」を自動抽出することが行われていた。
【0003】
【発明が解決しようとする課題】
従来のこの単語を中心とした「見出し」だけでは、ユーザが知りたい事柄を効率的に検索することができない。例えば「新しいインスタンスを作る方法」を知りたい場合、「インスタンス」という見出しだけでは、そこには「インスタンスの定義」が記述されているかもしれないし、「インスタンスの削除の方法」が記述されているかもしれない。
【0004】
このような場合に何が記述されているかを的確にとらえた「インスタンスとは?」や「インスタンスを生成するには?」という見出しがあれば、ユーザは求める情報を速く得ることができる。
【0005】
しかし、従来はこのような意味の内容を表した見出しを自動的に生成することができないために索引を作成する人が手作業で作成する必要があり、極めて多大な労力が必要となってしまう問題があった。
【0006】
本発明は、これらの問題を解決するため、文書から文パターンを用いて文を抽出および当該文パターンの種類に対応した規則を用いて索引表現を自動生成し、ユーザの検索が容易となる索引を自動生成することを目的としている。
【0007】
【課題を解決するための手段】
図1は、本発明の原理構成図を示す。
図1において、入力文書1は、索引を生成する対象の文書である。
【0008】
文書作成生成装置2は、入力文書1から索引を自動生成するものであって、文抽出部3、文パターン4、質問応答文生成部5、質問応答文の生成規則6、索引表現生成部7、索引編集部8、および索引10を付加した文書データベース9から構成されるものである。
【0009】
文抽出部3は、入力文書1中の文について、文パターン4と照合して一致する文を抽出するものである。
文パターン4は、予め文のパターンを登録したものである。
【0010】
質問応答文生成部5は、抽出された文について、質問応答文の生成規則6をもとに質問応答文を生成するものである。
質問応答文の生成規則6は、抽出された文から質問応答文を生成する規則である。
【0011】
索引表現生成部7は、質問応答文から質問文を取り出して索引表現として生成するものである。
索引編集部8は、索引表現を提示し編集された結果を文書の索引とするものである。
【0012】
文書データベース9は、文書を保存したデータベースであって、ここでは、自動生成した索引10を文書に付加して保存したデータベースである。
索引10は、索引編集部8によって編集された索引であって、文書に索引として付加されたものである。
【0013】
【作用】
本発明は、図1に示すように、文抽出部3が文書中の文について予め作成した文パターン4と照合を行い合致する文を抽出し、索引表現生成部7が抽出した文について文パターン4に対応する生成規則をもとに索引表現を生成し、索引編集部8がこの生成した索引表現を提示し編集された結果を文書の索引とするようにしている。
【0014】
また、文抽出部3が文書中の文について予め作成した文パターン4と照合を行い合致する文を抽出し、質問応答文生成部5が抽出した文について文パターン4に対応する生成規則を使った質問応答文を生成し、索引表現生成部7が生成された質問応答文から質問文を取り出して索引表現とし、索引編集部8が索引表現を提示し編集された結果を文書の索引とするようにしている。
【0015】
従って、文書から文パターン4を用いて文を抽出および当該文パターン4の種類に対応した生成規則を用いて索引表現を自動生成して提示し編集した結果を文書の索引とすることにより、ユーザの検索が容易となる索引を自動生成することが可能となる。
【0016】
【実施例】
次に、図2から図16を用いて本発明の実施例の構成および動作を順次詳細に説明する。
【0017】
図2は、本発明の全体の動作説明フローチャートを示す。
図2において、S1は、文書の取り込みを行う。これは、図1の文書索引生成装置2が文書(入力文書1)を取り込む。
【0018】
S2は、形態素解析する。これは、S1で取り込んだ索引生成対象の文書を形態素解析する。例えば後述する図9に示す下記の/のように形態素解析する。
・総称/関数/の/適用/に/よって/起動/さ/れる/手続き/を/メソッド/と/いう/
S3は、文パターンと照合する。これは、S2で形態素解析した文について、図1の予め作成した文パターン4と照合を行う。
【0019】
S4は、文を抽出する。これは、S3で文パターン4と照合を行い、一致した文を抽出する。
S5は、文パターンを元に質問応答文の生成規則を検索する。これは、後述する図11に示すように、一致した文の文パターン4の種類(定義、場合、あるいは方法など)に対応する質問応答文の生成規則を検索して取り出す。
【0020】
S6は、対応する生成規則に制御記号(XとY)を置き換える。これは、後述する図12に示すように、S5で取り出した生成規則のXとYに置き換え、質問応答文を作成する。
【0021】
S7は、質問応答文から質問文を取り出す。
S8は、取り出して質問文をソートする。そして、編集者が画面上に表示された索引を見て修正・削除などの編集を行い、索引を完成し、文書に対応づけて文書データベース9に保存する。
【0022】
以上によって、文書について、文パターン4と照合して一致する文を抽出し、抽出した文について文パターンの種類に対応した質問応答文の生成規則を見つけて質問応答文を生成し、この質問応答文から質問文を取り出しソートして索引を生成することにより、文書から自動的に文の種類(定義、場合、方法など)に応じた質問文形式の索引を自動生成して付加することが可能となった。以下図3から図16を用いて順次詳細に説明する。
【0023】
図3は、本発明の文抽出フローチャートを示す。これは、文書から文を抽出する手順を示したものである。
図3において、S11は、文書に対して形態素解析を行う。これは、文書例えば図4に示すマニュアルを取り込み、形態素解析を下記の/に示すように行う。
【0024】
第/2/章/オブジェクト/指向/データ/
2/./基本/用語/
・/クラス/
データ/の/属性/と/動作/を/規定/する/、/抽象的/な/オブジェクト/を/クラス/と/いう/./
・・・・
S12は、タイトル、見出し、図表部分を除去する。これは、名詞で終わる、タイトル、見出しなどで終わる文を除去する。上記例では、図6の横線の文(タイトル、見出しなど)を除去する。
【0025】
S13は、文パターンとマッチするものを位置情報と共に抽出する。例えば図8の文パターンをマッチするものを位置情報と共に図9に示すように抽出する。
Figure 0003981158
などとマッチする文を図7から抽出すると共にその位置情報を抽出する。例えば
Figure 0003981158
とマッチするので、この文および位置情報“L4”を抽出し、図9の▲1▼に示すように格納する。
【0026】
以上によって、図4の文書の例であるマニュアルから名詞で終わるタイトル、見出しなどを除去して図6のようにし、更に図8の文パターンとマッチする文を図7の矩形で囲んだ文として抽出し、これら抽出した文および位置情報を取り出して図9に示すように、文、位置情報、および種類(マッチした文パターンの種類)を取り出して格納する。
【0027】
図4は、本発明のマニュアル例を示す。これは、文書の例であって、
Figure 0003981158
などがある。右端は位置情報を表し、行である。
【0028】
図5は、本発明の形態素解析の結果例を示す。これは、図4の文書中の文を形態素解析した結果を示す。
Figure 0003981158
ここで、下線は、後述する文パターンとマッチした様子を示す。
【0029】
図6は、本発明のタイトルなどを除去した結果例を示す。これは、図4のマニュアルのうちから、タイトル、見出しなどの名詞で終わるものを横線で示すように除去したものである。
【0030】
図7は、本発明の文パターンにマッチした文例を示す。これは、図6のタイトルなどを除去した後の文について、図8の文パターンとマッチするものを矩形で囲んだように抽出したものである。例えば▲2▼の文
Figure 0003981158
は、文パターン“XをYという”にマッチする。
【0031】
図8は、本発明の文パターン例を示す。ここでは、図示の下記のような文パターンを予め登録しておく。
Figure 0003981158
図9は、本発明の抽出した文例を示す。これは、図7で文パターンにマッチした文および位置情報、更にマッチした文パターンの種類を取り出したものである。
【0032】
次に、図10のフローチャートに示す順序に従い、図11および図12を参照し、図9の抽出した文、種類をもとに質問応答文を生成する手順を詳細に説明する。
【0033】
図10において、S21は、抽出した文の文パターンの生成規則を取り出す。これは、例えば既述した図9の抽出した文について、抽出時にマッチした文パターンの種類(例えば定義、場合、方法など)に対応する生成規則を、図11の予め登録した生成規則例から取り出す。
【0034】
S22は、生成規則に従って質問応答文を生成する。例えば文書中から図9の上から3つ目の
Figure 0003981158
のとき、文パターンの種類“定義”をもとに図11から対応する生成規則
種類 文パターン 生成規則
定義 XをYという Yとは何か?Xのことである
を取り出し、この取り出した生成規則を適用し、質問応答文として図12に示す下記を生成する。
【0035】
メソッドとは何か?総称関数の適用によって起動される手続きのことである
Y X
以上によって、文書から文パターンにマッチして抽出した文について、マッチした文パターンの種類に対応する生成規則を取り出し、この生成規則を適用して文から質問応答文を作成することが可能となる。
【0036】
図11は、本発明の質問応答文の生成規則例を示す。ここで、種類は文パターンの種類(例えば定義、場合、方法など)であり、文パターンはその種類のときのパターンであり、生成規則は種類に適用する質問応答文を生成する規則である。
【0037】
図12は、本発明の生成した質問応答文例を示す。これは、既述した文書から抽出した文
抽出した文 位置 種類
総称関数の適用によって起動される手続きをメソッドという L11 定義
について、生成規則“Yとは何か?Xのことである”を適用して質問応答文
メソッドとは何か?

総称関数の適用によって起動される手続きのことである。
【0038】

を生成した例である。
図13は、本発明の索引表現の生成フローチャートを示す。
【0039】
図13において、S31は、質問応答文から質問文を取り出す。これは、例えば図12に示すように生成規則を適用して生成した質問応答文中から質問文を索引表現として取り出す。
【0040】
S32は、辞書順にソートする。文書の索引表現とするために、辞書順にソートする。
S33は、質問文と元の文の位置情報を記録する。
【0041】
以上によって、質問応答文から質問文を索引表現として取り出し、これをソートおよび位置情報を付加して文書の索引表現を作成できたこととなる。
次に、図14のフローチャートに示す順序に従い、図15および図16を参照し、作成された索引表現を編集者が編集する手順を詳細に説明する。
【0042】
図14において、S41は、索引表現を提示する。これは、図13によって作成した索引表現、例えば図15に示すように索引表現を画面上に表示する。
S42は、索引編集の編集要求を受け取る。これは、例えば図15の示すように画面上に表示した索引表現について、編集者から“修正”、“削除”などの編集要求を受け取る。そして、これら編集要求に対応した処理(索引表現の修正、削除など)を行う。
【0043】
S43は、編集した索引表現を元の位置情報とともに文書データベースに格納する。これは、S42で編集した後の索引表現(索引)を元の位置情報(文書の位置情報)と一緒に文書データベースに図16に示すように格納する。
【0044】
以上によって、自動生成された索引表現を画面上に図15に示すように提示し、編集者がこの提示された索引表現を必要に応じて修正、削除して編集し、編集後の索引表現を文書の位置情報と一緒に文書データベースに格納して保存する。これにより、ユーザは、索引表現(索引)をもとの質問文形式の索引を使って所望を文書の位置を見つけ出し、その文を表示してその内容を見ることができるようになった。
【0045】
図15は、本発明の索引編集時の画面例を示す。ここでは、画面上にアイウエオ順にソートした索引表現を表示する。この表示された自動生成された索引表現を見た編集者は、図示のように修正あるいは削除などして編集し、最終チェックを行う。これら修正あるいは削除などの編集をした後、図16に示すように、元の文書の位置情報と一緒にして文書データベースに格納する。
【0046】
図16は、本発明の文書データベースの格納例を示す。ここでは文書および索引表現(位置情報を付加)を一緒に格納する。これにより、索引表現を画面上に表示させ、ユーザはこの索引表現(索引)を見て所望の文の位置情報を取り出し、この位置情報の文を表示してその内容を見ることが容易に可能となった。
【0047】
【発明の効果】
以上説明したように、本発明によれば、文書から文パターン4を用いて文を抽出および当該文パターン4の種類に対応した生成規則を用いて索引表現を自動生成し提示し編集した結果を文書の索引(索引表現)とする構成を採用しているため、ユーザの検索が容易となる質問文形式の索引を容易に自動生成できる。これらにより、形態素解析して名詞で終わる文等を自動削除した後、文パターンを用いて索引付けに必要な文を自動抽出し質問文形式の索引を自動生成し、ユーザの要求にあった箇所を効率的に検索できる索引を生成することが可能となる。また、1つの文から複数の索引も生成できるため、ユーザの多様な検索要求に応じる索引を自動作成することが可能となる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の全体の動作説明フローチャートである。
【図3】本発明の文抽出フローチャートである。
【図4】本発明のマニュアル例である。
【図5】本発明の形態素解析の結果例である
【図6】本発明のタイトルなどを除去した結果例である。
【図7】本発明の文パターンにマッチした文例である。
【図8】本発明の文パターン例である。
【図9】本発明の抽出した文例である。
【図10】本発明の質問応答文の生成フローチャートである。
【図11】本発明の質問応答文の生成規則例である。
【図12】本発明の生成した質問応答文例である。
【図13】本発明の索引表現の生成フローチャートである。
【図14】本発明の索引編集フローチャートである。
【図15】本発明の索引編集時の画面例である。
【図16】本発明の文書データベースの格納例である。
【符号の説明】
1:入力文書
2:文書索引生成装置
3:文抽出部
4:文パターン
5:質問応答文生成部
6:質問応答文の生成規則
7:索引表現生成部
8:索引編集部
9:文書データベース
10:索引(索引表現)

Claims (1)

  1. 文書中の文について予め作成した文パターンと照合を行い合致する文を抽出する文抽出部と、
    文パターンに対応づけて複数の種類の質問応答文を生成する生成規則を登録した生成規則データベースと、
    前記抽出した文について文パターンに対応する複数の種類の生成規則を前記生成規則データベースを検索して取り出し、当該取り出した複数の種類の生成規則をもとに質問応答文を生成する質問応答文生成部と、
    前記生成された質問応答文から質問文を取り出して索引表現とする索引表現生成部と、
    前記索引表現を提示して編集された結果を文書の索引とする索引編集部と
    を備えたことを特徴とする文書索引生成装置。
JP20950094A 1994-09-02 1994-09-02 文書索引生成装置 Expired - Fee Related JP3981158B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20950094A JP3981158B2 (ja) 1994-09-02 1994-09-02 文書索引生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20950094A JP3981158B2 (ja) 1994-09-02 1994-09-02 文書索引生成装置

Publications (2)

Publication Number Publication Date
JPH0877179A JPH0877179A (ja) 1996-03-22
JP3981158B2 true JP3981158B2 (ja) 2007-09-26

Family

ID=16573839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20950094A Expired - Fee Related JP3981158B2 (ja) 1994-09-02 1994-09-02 文書索引生成装置

Country Status (1)

Country Link
JP (1) JP3981158B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003006216A (ja) * 2001-06-26 2003-01-10 Sony Corp 情報処理装置および情報処理方法、記録媒体、プログラム、並びに電子出版用データ提供システム
JP7042693B2 (ja) * 2018-05-30 2022-03-28 株式会社野村総合研究所 対話型業務支援システム
JP7163143B2 (ja) * 2018-11-13 2022-10-31 株式会社日立製作所 質問応答データ生成装置および質問応答データ生成方法
JP7230573B2 (ja) * 2019-02-19 2023-03-01 株式会社リコー 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP7381052B2 (ja) * 2019-07-29 2023-11-15 Necソリューションイノベータ株式会社 問合せ対応支援装置、問合せ対応支援方法、プログラム及び記録媒体
JP7224327B2 (ja) * 2020-11-18 2023-02-17 西日本電信電話株式会社 文書作成支援装置、文書作成支援方法およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60100223A (ja) * 1983-11-07 1985-06-04 Hitachi Ltd 索引自動作成機能を有する文書作成・管理装置
JPH0251766A (ja) * 1988-08-15 1990-02-21 Fujitsu Ltd 索引項目自動抽出方式
JPH077416B2 (ja) * 1988-08-15 1995-01-30 富士通株式会社 用語集自動作成方式

Also Published As

Publication number Publication date
JPH0877179A (ja) 1996-03-22

Similar Documents

Publication Publication Date Title
DE3650417T2 (de) Informationsaufzeichnungs- und Wiederauffindungssystem.
JP2783558B2 (ja) 要約生成方法および要約生成装置
WO2005074410A2 (en) System and method for indexing electronic text
CN105095319A (zh) 基于时间序列化的文档的标识、关联、搜索及展现的***
US20090070317A1 (en) Patent claim and specification analysis
JP3981158B2 (ja) 文書索引生成装置
JPH0484271A (ja) 文書内情報検索装置
CN103914486A (zh) 文档的搜索及展现的***
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム
JP2002132796A (ja) 画像特徴量対キーワード辞書を記録したコンピュータ読み取り可能な記録媒体、画像特徴量対キーワード辞書構築装置及びその方法並びに画像データベース構築補助装置及びその方法
JP3825829B2 (ja) 登録情報検索装置及びその方法
US20020129005A1 (en) Method and apparatus for regrouping data
JP2010092108A (ja) 類似文章抽出プログラム、方法、装置
JP2000194559A5 (ja)
JP2995718B2 (ja) 文書履歴管理装置
JPH03209564A (ja) 文献データ登録方法
JPH02238567A (ja) データの自動分類支援装置
JPS60247756A (ja) デ−タベ−ス装置
JP3143909B2 (ja) ファイル処理装置
JP3464518B2 (ja) 文書索引作成システム
JP2888458B2 (ja) ファイル格納装置
JP3036246B2 (ja) 情報検索装置
JPH06243118A (ja) 操作手順生成方式
CN117851500A (zh) 一种基于多维度数据的可视化方法
JPH08314958A (ja) 議会議事録検索システムにおけるデータ登録方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070629

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100706

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100706

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110706

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110706

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120706

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees