JPH10340271A - 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体 - Google Patents

文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体

Info

Publication number
JPH10340271A
JPH10340271A JP9150575A JP15057597A JPH10340271A JP H10340271 A JPH10340271 A JP H10340271A JP 9150575 A JP9150575 A JP 9150575A JP 15057597 A JP15057597 A JP 15057597A JP H10340271 A JPH10340271 A JP H10340271A
Authority
JP
Japan
Prior art keywords
document
abstract
important
keyword
creating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9150575A
Other languages
English (en)
Inventor
Yasuhiro Ishitobi
康浩 石飛
Yoshihiro Ueda
良寛 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP9150575A priority Critical patent/JPH10340271A/ja
Publication of JPH10340271A publication Critical patent/JPH10340271A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書検索の結果得られる文書について要不要
を判断するための抄録を検索意図に応じて簡単な操作で
作成する文書抄録作成装置を提供すること。 【解決手段】 本発明の文書抄録作成装置にて文書の抄
録を作成する場合、文書分割手段1は文書データを文書
要素に分割する。また、検索意図保持手段2は、入力さ
れる検索意図を保持する。適合度算出手段3は、分割さ
れた文書要素の検索意図に対する適合度を算出する。文
書要素抽出手段4は、算出された適合度に基づいて文書
要素から適合文書要素を抽出する。そして、抄録作成手
段5が、適合文書要素にて文書の抄録を作成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書抄録作成装置及
び文書抄録作成プログラムを記録した記憶媒体に関し、
特に文書の抄録を作成する文書抄録作成装置、及び文書
の抄録を作成する文書抄録作成プログラムを記録した記
憶媒体に関する。
【0002】
【従来の技術】従来、大量の文書データの中から必要に
応じて文書を検索するためには様々な方法が考えられて
いる。検索対象となる文書データの量が増えるに従っ
て、より高速な、より適切な検索処理が必要となり、今
日ではコンピュータ等を使用した文書検索も利用されて
いる。
【0003】文書検索の結果に占める必要な文書の割合
を適合率と呼ぶ。現在、この適合率を上げるための技術
も色々と開発されているが、最終的には検索の結果得ら
れた文書を、ユーザが逐一読み解いて要不要の判断を行
うことになる。
【0004】しかし得られた文書が大量であった場合、
この判断のためにかかる時間や労力は大変なものにな
る。そこで、検索結果の文書を抄録の状態で提示し、こ
の判断を支援したいという要求がある。
【0005】検索結果文書の抄録を作成する方法として
は、まず、文書の分野毎に予め重要な単語(キーワー
ド)を登録しておき、このキーワードを含んだ文章を抽
出する方法が、特開平2−93866号公報に示されて
いる。
【0006】しかし、この方法では予めキーワードを登
録してある限定された分野に属する文書の抄録しか作成
できない。また、ユーザはキーワードを逐次追加登録し
なければならず、その労力は軽視できるものではない。
【0007】また、文献「Fast Generation of Abstrac
ts from General Domain Text Corpora by Extracting
Relevant Sentences」(Zechner 、COLONG'96 )に示さ
れた方法では、キーワードについて重み付けした表を作
成する。抄録を作成する場合には、文書を構成する文章
毎にその文章に含まれたキーワードの重みの和を求め、
各文章のスコアとする。そして、スコアの高い文章を一
定数抽出し、出現順に並べて文書の抄録を作成する。
【0008】しかし、この方法では文章の長短に関係な
く機械的に文章毎にスコアを計算するため、各キーワー
ドの重みから計算される文章のスコアが、その文章の重
要度を適切に表わしているとは限らない。
【0009】また、上記で述べたいずれの方法でもユー
ザの文書検索の意図や目的とは関係なく抄録を作成する
ので、抽出されない部分にユーザの必要な情報を含んで
いる場合がある。これでは、文書検索の結果として得ら
れる文書がユーザの利用者意図に合っているか否かを判
断する支援としては、不十分である。
【0010】そこで、文書検索のために入力されるキー
ワードや検索式等を、抄録を作成する際に利用すること
が考えられている。構造化文書を対象とした文書検索の
過程で、文書検索のために入力される文字列を含む文章
を抽出し、抽出した文章を羅列して抄録を作成する方法
が特開平6−309368号公報に示されている。
【0011】また、検索の結果得られた文書の文脈構造
を詳細に解析し、この結果を利用してユーザの指定した
話題に関する背景や事例を提示、ユーザの所望する視点
での抄録を作成する技術が特開平7−182373号公
報に示されている。
【0012】
【発明が解決しようとする課題】しかし、文書検索のた
めに入力される文字列を含んだ文章を抽出して羅列する
方法では、文書中にその文字列が頻繁に出現する場合、
抄録の規模が元の文書とあまり変わらない巨大なものに
なってしまうという問題点があった。
【0013】また、文脈構造を解析してユーザの所望す
る視点での抄録を作成する技術では、ユーザに指定され
た話題が元の文書の中でどのような位置付けとなってい
るのかを詳細に解析するため、検索結果の文書が大量で
あった場合、抄録を作成するためだけに、繁雑な操作が
必要になってしまうという問題点があった。
【0014】本発明はこのような点に鑑みてなされたも
のであり、文書検索の結果得られる文書について要不要
を判断するための抄録を利用者意図に応じて簡単な操作
で作成する文書抄録作成装置を提供することを目的とす
る。
【0015】また、本発明の別の目的は、コンピュータ
に、文書検索の結果得られる文書について要不要を判断
するための抄録を利用者意図に応じて簡単な操作で作成
させる文書抄録作成プログラムを記録した記憶媒体を提
供することである。
【0016】
【課題を解決するための手段】本発明では上記課題を解
決するために、文書の抄録を作成する文書抄録作成装置
において、前記文書を文書要素に分割する文書分割手段
と、入力される前記利用者意図を保持する利用者意図保
持手段と、分割された文書要素の前記利用者意図に対す
る適合度を算出する適合度算出手段と、前記適合度に基
づいて前記文書要素から適合文書要素を抽出する文書要
素抽出手段と、前記適合文書要素にて前記文書の抄録を
作成する抄録作成手段とから構成されることを特徴とす
る文書抄録作成装置が提供される。
【0017】このような文書抄録作成装置にて文書の抄
録を作成する場合、文書分割手段は文書を文書要素に分
割する。また、利用者意図保持手段は入力される利用者
意図を保持する。適合度算出手段は分割された文書要素
の利用者意図に対する適合度を算出する。文書要素抽出
手段は適合度に基づいて文書要素から適合文書要素を抽
出する。そして、抄録作成手段が適合文書要素にて文書
の抄録を作成する。
【0018】このように本発明の第1の文書抄録作成装
置では、文書を文書要素に分割し、利用者意図との適合
度の高い文書要素を抽出して文書の抄録を作成するの
で、文書の要不要を判断するための抄録を、利用者意図
に応じて簡単な操作で作成することができる。
【0019】また、本発明では上記課題を解決するため
に、文書の抄録を作成する文書抄録作成装置において、
入力される利用者意図を保持する利用者意図保持手段
と、前記利用者意図から重要キーワードを抽出する重要
キーワード抽出手段と、前記文書から前記重要キーワー
ドを含んだ重要文章を抽出する重要文章抽出手段と、前
記重要文章にて前記文書の抄録を作成する抄録作成手段
とから構成されることを特徴とする文書抄録作成装置が
提供される。
【0020】このような文書抄録作成装置にて文書の抄
録を作成する場合、利用者意図保持手段は入力される利
用者意図を保持する。また、重要キーワード保持手段は
利用者意図から重要キーワードを抽出する。重要文章抽
出手段は文書から重要キーワードを含んだ重要文章を抽
出する。そして、抄録作成手段は重要文書にて文書の抄
録を作成する。
【0021】このように本発明の第2の文書抄録作成装
置では、文書から重要キーワードを含んだ重要文章を抽
出して文書の抄録を作成するので、文書の要不要を判断
するための抄録を、利用者意図に応じて簡単な操作で作
成することができる。
【0022】さらに、本発明では上記課題を解決するた
めに、文書の抄録を作成する文書抄録作成プログラムを
記録した記憶媒体において、コンピュータを、前記文書
を文書要素に分割する文書分割手段、入力される利用者
意図を保持する利用者意図保持手段、分割された文書要
素の前記利用者意図に対する適合度を算出する適合度算
出手段、前記適合度に基づいて前記文書要素から適合文
書要素を抽出する文書要素抽出手段、前記適合文書要素
にて前記文書の抄録を作成する抄録作成手段、として機
能させることを特徴とする文書抄録作成プログラムを記
録した記憶媒体が提供される。
【0023】このような文書抄録作成プログラムにてコ
ンピュータに文書の抄録を作成させる場合、コンピュー
タは文書を文書要素に分割する文書分割手段及び入力さ
れる利用者意図を保持する利用者意図保持手段として機
能する。また、コンピュータは、分割された文書要素の
利用者意図に対する適合度を算出する適合度算出手段及
び適合度に基づいて文書要素から適合文書要素を抽出す
る文書要素抽出手段としても機能する。さらに、コンピ
ュータは、適合文書要素にて文書の抄録を作成する抄録
作成手段として機能する。
【0024】このように本発明の文書抄録作成プログラ
ムでは、コンピュータに、文書から重要キーワードを含
んだ重要文章を抽出して文書の抄録を作成する機能を実
現させるので、文書の要不要を判断するための抄録を、
利用者意図に応じて簡単な操作で作成することができ
る。
【0025】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は、本発明の第1の文書抄録
作成装置の原理構成を示したブロック図である。 本発
明の第1の文書抄録作成装置は、文書分割手段1と、利
用者意図保持手段2と、適合度算出手段3と、文書要素
抽出手段4と、抄録作成手段5とから構成され、文書デ
ータから、入力される利用者意図に応じた抄録を作成す
る。
【0026】ここで文書分割手段1は文書データを文書
要素A、B、C・・・に分割する。また、利用者意図保
持手段2は入力される利用者意図を保持する。適合度算
出手段3は、分割された文書要素A、B、C・・・の、
利用者意図に対する適合度を算出する。文書要素A、C
について算出された適合度が高い場合、文書要素抽出部
4はこの適合度に基づいて文書要素A、Cを適合文書要
素として抽出する。抄録作成手段5は抽出された適合文
書要素A、Cにて文書の抄録を作成する。
【0027】このように本発明の第1の文書抄録作成装
置では、文書を文書要素に分割し、利用者意図との適合
度の高い文書要素を抽出して文書の抄録を作成するの
で、文書の要不要を判断するための抄録を、利用者意図
に応じて簡単な操作で作成することができる。
【0028】図2は、本発明の第1の文書抄録作成装置
を適用した文書検索装置の実施の形態を示す図である。
図に示した文書検索装置10は、ユーザからの入力を受
け付ける入力装置20及びユーザに作成した抄録を出力
する出力装置30と接続されている。この文書検索装置
10は、コンピュータ等で実現してもよい。なお、出力
装置30はモニタ等の表示装置のみで構成してもよい。
【0029】ここで文書検索装置10は、文書データ記
憶部11、文書指定部12、文書分割部13、利用者意
図記憶部14、適合度算出部15、適合度記憶部16、
抄録作成部17から構成されている。
【0030】文書データ記憶部11は、入力される文書
データを記憶し、文書データの指定を入力されると対応
する文書データを出力する。ここで文書データ記憶部1
1に記憶される文書データは、文書検索の結果得られた
文書群でもよい。文書指定部12は、記憶されている文
書データのうち抄録を作成する対象とする文書データの
指定を受け付ける。
【0031】文書分割部13は、指定されて出力された
文書データを文書要素に分割する。なお、文書分割部1
3では文書を分割するための分割単位を複数定義してお
り、抄録作成処理が順調に進まなかった場合には分割単
位を変更して再度文書データの分割を行う。
【0032】利用者意図記憶部14は、何のために文書
の抄録を作成するのか、その目的である利用者意図の入
力を受け付け、これを記憶する。適合度算出部15は、
分割された文書要素の各々について利用者意図との適合
度を算出する。適合度記憶部16は、算出された適合度
と文書要素との関係を記憶する。
【0033】そして、抄録作成部17は、適合度記憶部
16に記憶された適合度に基づいて文書要素から適合文
書要素を抽出し、文書の抄録を作成する。次に、このよ
うな文書検索装置10にて文書の抄録を作成する手順に
ついて説明する。
【0034】図3は、図2に示した文書検索装置10に
おける文書抄録作成の手順を説明するフローチャートで
ある。なお、文書データ記憶部11には予め文書データ
が記憶されているとする。以下、図中のステップ番号に
沿って説明を行う。 [S1]利用者意図記憶部14は、入力装置20を介し
て文書の抄録作成の目的である利用者意図を示す検索式
の入力を受け付け、これを記憶する。 [S2]文書指定部12は、入力装置20を介して抄録
作成する対象文書の指定を受け付け、これを文書データ
記憶部11に入力する。 [S3]指定された文書を文書データ記憶部11から供
給された文書分割部13は、この文書を文単位の文書要
素に分割する。 [S4]適合度算出部15は、利用者意図記憶部14か
ら利用者意図を取得し、文書分割部13から入力される
文書要素すべてに対し、適合度を算出する。算出した適
合度は文書要素との対応関係と共に適合度記憶部16に
記憶させる。 [S5]抄録作成部17は、適合度記憶部16に記憶さ
れた各文書要素の適合度から、適合度1.0の文書要素
が存在するか否か判断する。適合度1.0の文書要素が
存在する場合には、ステップS6へ進む。適合度1.0
の文書要素が存在しない場合には、ステップS7へ進
む。 [S6]抄録作成部17には文書分割部13から分割さ
れた文書要素が入力されているので、そのうち適合度
1.0の文書要素を適合文書要素として抽出する。 [S7]抄録作成部17は、文書要素の分割単位から、
分割単位を大きくできるか否か判断する。分割単位を大
きくできる場合はステップS8へ進む。分割単位が既に
最大となっていて、それ以上大きくできない場合はステ
ップS9へ進む。 [S8]抄録作成部17は、文書分割部13に分割単位
の変更を要求する。分割単位の変更要求を受けた文書分
類部13は、文書データ記憶部11から供給されている
文書を大きな分割単位で分割し直して再度ステップS4
に進む。この分割し直しは、この時点で分割単位が
「文」であった場合には、分割単位を「段落」に、「段
落」であった場合には、「項」にする。また、分割単位
が「項」であった場合には「節」に、「節」であった場
合には「章」にする。 [S9]抄録作成部17には文書分割部13から分割さ
れた文書要素が入力されているので、そのうち適合度が
最大値である文書要素を適合文書要素として抽出する。 [S10]抄録作成部17は、抽出した適合文書要から
文書の抄録を作成する。作成した抄録は出力装置30に
出力する。 [S11]同じ検索式で次の文書の抄録を作成するか否
か判断する。抄録を作成する場合にはステップS2に進
む。なお、抄録を作成しない場合にはこのフローチャー
トの処理を終了する。
【0035】本発明の文書検索装置10では、以上のよ
うな手順によって文書の抄録を作成する。ここで、この
文書検索装置10にて文書の抄録を実際に作成する様子
を順を追って説明する。
【0036】図4は、図2に示した文書データ記憶部1
1に記憶される2つの文書の例を示した図である。文書
データ40、50が文書データ記憶部11に記憶されて
おり、ユーザが「株式会社A」の共同開発や共同研究に
関して文書の抄録を作成したい場合、検索式としては
「株式会社Aand 共同 and(開発or研究)」等が入力さ
れる。この検索式はキーワード「株式会社A」とキーワ
ード「共同」とキーワード「開発」とを同時に含むこ
と、もしくはキーワード「株式会社A」とキーワード
「共同」とキーワード「研究」を同時に含むことを示し
ている。
【0037】この検索式が入力装置20を介して利用者
意図記憶部14に受け付けられ、文書データ40、50
が指定されると、文書作成装置10は、まず文書データ
40、50を「文」単位の文書要素に分割する。
【0038】図5は、図4に示した文書データ40を
[文」単位で文書要素に分割した様子を示した図であ
る。文書を分割した場合、各文書要素にはNO.が付さ
れる。ここで各文書要素に対する検索式との適合度を算
出すると、文書要素NO.3にはキーワード「株式会社
A」とキーワード「共同」とキーワード「開発」とが同
時に含まれており、適合度は1.0となる。また、文書
要素NO.6にはキーワード「株式会社A」のみが含ま
れているので、適合度は0.33となる。なお、その他
の文書要素にはキーワードは1つも含まれていないの
で、適合度は0となっている。
【0039】ここでは適合度1.0の文書要素が存在す
るので、これ以上の文書の分割は必要ない。図6は、図
5に示した文書要素の適合度の算出結果に従って作成さ
れる抄録を示した図である。
【0040】本発明では、抄録作成部17は3種類の抄
録を作成することができる。抄録41は適合度1.0の
文書要素のみを抽出して作成されている。ユーザが抄録
を作成する目的は、「株式会社A」の共同開発や共同研
究に関する文書を検索することなので、抄録41が表示
された時点でユーザは文書データ40の要不要を判断で
きる。
【0041】また、抄録42は適合度1.0の文書要素
に元の文書のタイトルを抽出、付加して作成されてい
る。作成された抄録がどのような主題の文書中に含まれ
ているのかを明らかにすることで、ユーザの判断を支援
することができる。
【0042】さらに抄録43は、適合度1.0の文書要
素を抽出し、この文書要素に含まれているキーワードを
強調表示するように作成されている。ここでは、反転表
示でキーワードの存在を強調しているが、ポイント数や
字体を変えたり下線を引いたりしてもよい。作成される
抄録が長い場合など、このようにキーワードを強調する
ことでユーザの判断を支援することが可能となる。
【0043】図7は、図4に示した文書データ50を
「文」単位で文書要素に分割した様子を示した図であ
る。各文書要素に対する検索式との適合度を算出する
と、文書要素NO.1にキーワード「共同」とキーワー
ド「開発」とが同時に含まれており、適合度は0.67
となる。また、文書要素NO.3にキーワード「共同」
とキーワード「開発」とが同時に含まれており、適合度
は0.67となる。さらに、文書要素NO.5及びN
O.7にはいずれもキーワード「株式会社A」が含まれ
ているので、適合度は0.33となる。その他の文書要
素にはキーワードは1つも含まれていないので、適合度
は0である。
【0044】ここでは適合度1.0の文書要素は存在し
ないので、文書の分割単位を大きくする。図8は、図7
に示した文書データ50を「段落」単位で文書要素に分
割した様子を示した図である。
【0045】各文書要素に対する検索式との適合度を算
出すると、文書要素NO.1にはキーワード「共同」と
キーワード「開発」とが同時に含まれており、適合度は
0.67となる。文書要素NO.3にはキーワード「株
式会社A」とキーワード「共同」とキーワード「開発」
とが同時に含まれており、適合度は1.0となる。ま
た、文書要素NO.4にはキーワード「株式会社A」が
含まれており、適合度は0.33となる。
【0046】ここでは適合度1.0の文書要素が存在す
るので、これ以上の文書の分割は必要ない。図9は、図
8に示した文書要素の適合度の算出結果に従って作成さ
れる抄録を示した図である。
【0047】抄録51は適合度1.0の文書要素のみを
抽出している。抄録51が表示された時点でユーザは文
書データ50の要不要を判断できる。また、抄録52は
適合度1.0の文書要素に元の文書のタイトルを抽出し
て付加している。さらに抄録53は適合度1.0の文書
要素を抽出し、この文書要素に含まれているキーワード
を強調して表示する。
【0048】以上、説明したように、本発明の実施の形
態では文書を文書要素に分割し、利用者意図との適合度
の高い文書要素を抽出して文書の抄録を作成するので、
文書の要不要を判断するための抄録を、利用者意図に応
じて簡単な操作で作成することができる。
【0049】なお、上記の説明では文書分割部13で文
書の分割に使用する分割単位の定義を「文」、「段
落」、「章」、「節」としたが、必ずしもこれらの分割
単位をすべて定義しなくともよい。すなわち、「文」や
「段落」等、頻繁に使用される分割単位のみを定義して
おくことも可能である。
【0050】また、「文」単位で適合率1.0の文書要
素が存在しない場合に、文書単位を「連続したn文」に
変更するように設定してもよい。「n文」は文の論理構
造による制限を受けないように抽出する。すなわち、文
「a」、文「b」、文「c」、文「d」・・・で構成さ
れる文書を文書単位「2文」で分割するならば、文書要
素は、文「ab」、文「bc」、文「cd」・・・とな
る。
【0051】さらに、作成される抄録が大きすぎる場合
には、抄録を構成する文書要素数を適度な量になるよう
フィルタリングしてもよい。例えば、段落などのまとま
りのある文書要素では文頭や文末に要点が記載してある
場合が多いので、そのような位置にある文書要素を優先
的に抽出する。検索式に含まれるキーワード群の距離が
最小の文書要素を抽出したり、ユーザに改めて入力させ
たキーワードを含んだ文書要素を抽出したりしてもよ
い。また、作成された抄録の最初の一定数の文書要素の
みを抽出することもできる。
【0052】これらの方法で抄録の規模を抑えることに
より、ユーザは抄録をより短時間で読み、文書の要不要
を判断することができるようになる。なお、上記で説明
した第1の文書検索装置10にて、約1年間分の新聞記
事のうち、検索式「株式会社Aand 共同 and(開発or研
究)」でヒットした26件の文書について抄録を作成
し、文書の要不要を判断する実験を行った。
【0053】この結果、約77%の抄録において、元の
文書を読み解いて判断した場合と同じ判断が可能であっ
た。また、この文書検索装置10にて作成された26件
の抄録は、元の文書と比較して約27%の文字数で構成
されていた。
【0054】新聞記事の抄録を作成する際に第1段落の
文章を抽出する従来の抄録作成装置では、元の文書と比
較した抄録の規模は平均で34%である。また、そのよ
うにして作成された抄録による要不要の判断が、元の文
書を読み解いた後の判断と同一になったのは約57%で
ある。
【0055】次に、本発明の第2の文書抄録作成装置に
ついて説明する。図10は、本発明の第2の文書抄録作
成装置の原理構成を示すブロック図である。
【0056】本発明の第2の文書抄録作成装置は、利用
者意図保持手段61と、重要キーワード抽出手段62
と、重要文章抽出手段63と、抄録作成手段64とから
構成され、文書データから、入力される利用者意図に応
じた抄録を作成する。
【0057】ここで利用者意図保持手段61は入力され
る利用者意図を保持する。重要キーワード抽出手段62
は、利用者意図保持手段61に保持された利用者意図か
ら重要キーワードを抽出する。重要文章抽出手段63
は、文書データから、重要キーワードを含んだ重要文章
A、Cを抽出する。抄録作成手段64は抽出された重要
文章A、Cにて文書の抄録を作成する。
【0058】このように本発明の第2の文書抄録作成装
置では、文書から重要キーワードを含んだ重要文章を抽
出して文書の抄録を作成するので、文書の要不要を判断
するための抄録を、利用者意図に応じて簡単な操作で作
成することができる。
【0059】図11は、本発明の第2の文書抄録作成装
置を適用した文書検索装置の実施の形態を示す図であ
る。図に示した文書検索装置70は、ユーザからの入力
を受け付ける入力装置80及びユーザに作成した抄録を
出力する出力装置90と接続されている。この文書検索
装置70は、コンピュータ等で実現してもよい。なお、
出力装置90はモニタ等の表示装置のみで構成してもよ
い。
【0060】ここで文書検索装置70は、文書データ記
憶部71、利用者意図記憶部72、キーワード抽出機構
部73、キーワード保持機構部74、重要文章選択機構
部75、抄録作成部76から構成されている。
【0061】文書データ記憶部71は、文書検索の結果
得られた文書群の文書データを記憶し、ユーザから入力
装置80を介して文書データの指定を入力されると対応
する文書データを出力する。
【0062】利用者意図記憶部72は、何のために文書
の抄録を作成するのか、その目的である利用者意図の入
力を受け付け、これを記憶する。ここで入力される利用
者意図は、単語及び論理演算子で構成される検索式で
も、自然言語でもよい。
【0063】キーワード抽出機構部73は、入力される
利用者意図から重要キーワードを抽出する。利用者意図
が検索式で入力されている場合は、その検索式に含まれ
る単語を重要キーワードとして抽出する。また、利用者
意図が自然言語で入力されている場合には、その利用者
意図を形態素解析し、含まれる単語から自立語を抽出し
て重要キーワードとする。
【0064】キーワード抽出機構部73はまた、指示が
あれば、入力される文書データから文書キーワードを抽
出する。ここで、文書キーワードの抽出にはtf*ID
F積を用いる手法を採用する。これは、文書データ中に
出現するすべての単語に対して、tf(term frequenc
y、文書中におけるその単語の出現頻度)と、DF(Doc
ument Frequency、その単語が出現する文書集合中の文
書数)の逆数IDF(Inverted DF)を求めて、次式
(1)に示すtf*IDF積を算出する方法である。
【0065】
【数1】 tf*IDF=tf*log(N/DF) ・・・(1) なお、Nは文書集合中の全文書数を示す。キーワード抽
出機構部73は、算出されたtf*IDF積が一定値以
上の単語、もしくは算出されるtf*IDF積の大きい
単語を一定数、文書キーワードとする。なおこの際、t
f*IDF積の値が大きくても文書キーワードとする必
要のない単語をストップワードリストとして保持してお
き、文書キーワードとして選択される単語を適切なもの
とすることが可能である。
【0066】キーワード保持機構部74は、抽出された
重要キーワード及び文書キーワードを保持する。重要文
章選択機構部75は、入力されるキーワードに基づき、
供給される文書データから重要文章を選択する。この重
要文章の選択については、後でフローチャートを示して
説明する。
【0067】抄録作成部76は、選択された重要文章を
その出現順に並べて、文書の抄録を作成する。ここで、
重要文章選択機構部75における重要文章の選択の手順
について説明する。なお、重要文章の選択には2つの方
法がある。
【0068】図12は、図11に示した重要文章選択機
構部75における重要文章の第1の選択方法の手順を示
すフローチャートである。以下、図中のステップ番号に
沿って説明する。 [S21]供給される文書中の各単語のtf*IDF積
を算出する。 [S22]すべての重要キーワードのtf*IDF積
を、S21で算出されたどのtf*IDF積よりも高い
値に設定する。 [S23]重要キーワードの単語リストLを作成する。 [S24]供給される文書中の各文章に対し、その文章
に含まれる単語のtf*IDF積を合計してスコアを算
出する。 [S25]スコアの高い順に、一定数(N個)の文章を
選択し、これらを重要文章とする。 [S26]ステップS25で選択された重要文章中に重
要キーワードが含まれているか否か判断する。重要キー
ワードが含まれていればステップS27に進む。重要キ
ーワードが含まれていなければステップS28に進む。 [S27]ステップS26で重要文章中に含まれている
と判断された重要キーワードを、単語リストLから削除
する。 [S28]単語リストLが空か否か判断する。単語リス
トLが空ならばこのフローチャートの処理は終了であ
る。単語リストLが空でないならばステップS29に進
む。 [S29]Nに1を加え、新たなNとする。 [S30]スコアがN番目の文章Sに、重要キーワード
が含まれているか否か判断する。重要キーワードが含ま
れていればステップS31に進む。重要キーワードが含
まれていなければ再度ステップS29へ進む。 [S31]ステップS30で文章Sに含まれていると判
断された重要キーワードを、単語リストLから削除す
る。 [S32]文章Sを重要文章として追加選択し、再度ス
テップS28へ進む。
【0069】本発明の第2の文書検索装置70では、こ
のようにして選択した重要文章をその出現順に並べて文
書の抄録を作成することによって、利用者意図に沿った
文書抄録を作成することができる。
【0070】次に、重要文章の選択の第2の方法につい
て説明する。この第2の方法は、文書データに対する文
書キーワードが予め重み付けられて存在している場合
に、その文書キーワード及び重み付けを用いて重要文章
を選択する。
【0071】図13は、図11に示した重要文章選択機
構部75における重要文章の第2の選択方法の手順を示
すフローチャートである。以下、図中のステップ番号に
沿って説明する。 [S41]文書キーワード及び重要キーワードから、キ
ーワードテーブルを作成する。なお、重要キーワードの
重みは文書キーワードの重みの最大値より大きな値を設
定する。 [S42]文書中の各文章に対するスコアを算出し、文
テーブルを作成する。なお、スコアは文章中に含まれる
キーワードの重みを合計して算出する。 [S43]最高スコアの文章を重要文章とし、文テーブ
ルから重要文章リストに移す。 [S44]キーワードテーブルを更新する。すなわち、
ステップS43で重要文章とした文章に含まれるキーワ
ードに付加されている重みを減らし、利用済みのチェッ
クを付加する。 [S45]キーワードテーブルに、重み下限値より大き
な重みを付加されたキーワードがあるか否か判断する。
重み下限値より大きな重みを付加されたキーワードがあ
ればステップS42へ進む。そのようなキーワードがな
ければこのフローチャートの処理は終了となる。
【0072】ここで、重要文章を第2の選択方法で選択
し、文書の抄録を作成する様子を例をあげて説明する。
図14は、図11に示した文書データ記憶部71に記憶
される文書データの例を示す図である。
【0073】文書データ100は、タイトル及び9つの
段落から構成されている。また、図15は、図14に示
した文書データに付加された、重み付きの文書キーワー
ドを示す。
【0074】重み付き文書キーワードの表101は予め
用意されている。ここで、検索式「(中国|中華)*料
理」(「|」は論理和を、「*」は論理積を示す)が入
力された場合には、「中国」或いは「中華」、及び「料
理」が重要キーワードとなり、キーワードテーブルが作
成される。
【0075】図16は、図14に示した文書データから
最初に作成されるキーワードテーブルを示した図であ
る。キーワードテーブル102には文書キーワードと重
要キーワードとが記載されており、重要キーワードには
文書キーワードの重みの最大値(ここでは4)よりも大
きい値(ここでは5)が重み付けされている。なお、各
キーワードに対し、利用したか否かをチェックするため
の利用済欄が設けてある。
【0076】図17は、図16に示したキーワードテー
ブル102に基づいて作成された文テーブルを示した図
である。文テーブル103には、各文章の出現順序及び
スコアが記載される。
【0077】以上示したような文書データ100、キー
ワードテーブル102、文テーブル103から文書の抄
録を作成する。図18は、図14に示した文書データの
抄録を示す図であって、(A)は本発明の第2の文書抄
録装置にて作成した抄録を、(B)は文書キーワードの
みから作成した抄録を、示す図である。
【0078】なお、ここではステップS44におけるキ
ーワードテーブルの更新で、キーワードの重みを1/1
0にし、重み下限値を2とした場合に作成される抄録を
例にあげた。
【0079】図において抄録104には検索式に含まれ
ていた「中国」、「中華」、「料理」を含む文章104
aが含まれていることが判る。このように、本発明の第
2の文書検索装置によれば、本来は検索式「(中国|中
華)*料理」を主題としない文書100に対しても、検
索目的に合致するか否かを迅速に判断できる抄録を作成
することが可能となる。
【0080】なお、上記の説明では文章に含まれるキー
ワードの重みの合計を文章のスコアとして算出するとし
たが、各文章に含まれるキーワードの頻度と重みの積を
合計して文章のスコアとしてもよい。
【0081】また、重み下限値を変更することにより、
抄録の文書量を加減することが可能である。
【0082】
【発明の効果】以上説明したように本発明の第1の文書
抄録作成装置では、文書を文書要素に分割し、利用者意
図との適合度の高い文書要素を抽出して文書の抄録を作
成する構成としたので、文書の要不要を判断するための
抄録を、利用者意図に応じて簡単な操作で作成すること
ができる。
【0083】また、以上説明したように本発明の第2の
文書抄録作成装置では、文書から重要キーワードを含ん
だ重要文章を抽出して文書の抄録を作成する構成とした
ので、文書の要不要を判断するための抄録を、利用者意
図に応じて簡単な操作で作成することができる。
【0084】さらに本発明の文書抄録作成プログラムに
は、コンピュータに、文書から重要キーワードを含んだ
重要文章を抽出して文書の抄録を作成する機能を実現さ
せる機能を持たせたので、文書の要不要を判断するため
の抄録を、利用者意図に応じて簡単な操作で作成するこ
とができる。
【図面の簡単な説明】
【図1】本発明の第1の文書抄録作成装置の原理構成を
示したブロック図である。
【図2】本発明の第1の文書抄録作成装置を適用した文
書検索装置の実施の形態を示す図である。
【図3】図2に示した文書検索装置における文書抄録作
成の手順を説明するフローチャートである。
【図4】図2に示した文書データ記憶部に記憶される2
つの文書の例を示した図である。
【図5】図4に示した文書データを[文」単位で文書要
素に分割した様子を示した図である。
【図6】図5に示した文書要素の適合度の算出結果に従
って作成される抄録を示した図である。
【図7】図4に示した文書データを「文」単位で文書要
素に分割した様子を示した図である。
【図8】図7に示した文書データを「段落」単位で文書
要素に分割した様子を示した図である。
【図9】図8に示した文書要素の適合度の算出結果に従
って作成される抄録を示した図である。
【図10】本発明の第2の文書抄録作成装置の原理構成
を示すブロック図である。
【図11】本発明の第2の文書抄録作成装置を適用した
文書検索装置の実施の形態を示す図である。
【図12】図11に示した重要文章選択機構部における
重要文章の第1の選択方法の手順を示すフローチャート
である。
【図13】図11に示した重要文章選択機構部における
重要文章の第2の選択方法の手順を示すフローチャート
である。
【図14】図11に示した文書データ記憶部に記憶され
る文書データの例を示す図である。
【図15】図14に示した文書データに付加された、重
み付きの文書キーワードを示す。
【図16】図14に示した文書データから最初に作成さ
れるキーワードテーブルを示した図である。
【図17】図16に示したキーワードテーブルに基づい
て作成された文テーブルを示した図である。
【図18】図14に示した文書データの抄録を示す図で
あって、(A)は本発明の第2の文書抄録装置にて作成
した抄録を、(B)は文書キーワードのみから作成した
抄録を、示す図である。
【符号の説明】
1 文書分割手段 2 利用者意図保持手段 3 適合度算出手段 4 文書要素抽出手段 5 抄録作成手段

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 文書の抄録を作成する文書抄録作成装置
    において、 前記文書を文書要素に分割する文書分割手段と、 入力される利用者意図を保持する利用者意図保持手段
    と、 分割された文書要素の前記利用者意図に対する適合度を
    算出する適合度算出手段と、 前記適合度に基づいて前記文書要素から適合文書要素を
    抽出する文書要素抽出手段と、 前記適合文書要素にて前記文書の抄録を作成する抄録作
    成手段と、 から構成されることを特徴とする文書抄録作成装置。
  2. 【請求項2】 前記文書分割手段は、前記文書を分割す
    るための分割単位を複数定義しており、前記文書要素抽
    出手段において適合文書要素が抽出されない場合に前記
    分割単位を変更することを特徴とする請求項1記載の文
    書抄録作成装置。
  3. 【請求項3】 保持している重要文書要素条件に基づい
    て前記適合文書要素から重要文書要素を抽出し、前記抄
    録作成手段に、前記重要文書要素を前記適合文書要素の
    代わりに入力する重要文書要素抽出手段をさらに有する
    ことを特徴とする請求項1記載の文書抄録作成装置。
  4. 【請求項4】 文書の抄録を作成する文書抄録作成装置
    において、 入力される利用者意図を保持する利用者意図保持手段
    と、 前記利用者意図から重要キーワードを抽出する重要キー
    ワード抽出手段と、 前記文書から前記重要キーワードを含んだ重要文章を抽
    出する重要文章抽出手段と、 前記重要文章にて前記文書の抄録を作成する抄録作成手
    段と、 から構成されることを特徴とする文書抄録作成装置。
  5. 【請求項5】 前記重要キーワード抽出手段は、前記文
    書から抽出する文書キーワードも前記重要キーワードと
    することを特徴とする請求項4記載の文書抄録作成装
    置。
  6. 【請求項6】 前記抄録を表示する際、前記重要キーワ
    ードを強調表示することを特徴とする表示手段を有する
    ことを特徴とする請求項4記載の文書抄録作成装置。
  7. 【請求項7】 文書の抄録を作成する文書抄録作成プロ
    グラムを記録した記憶媒体において、コンピュータを、 前記文書を文書要素に分割する文書分割手段、 入力される利用者意図を保持する利用者意図保持手段、 分割された文書要素の前記利用者意図に対する適合度を
    算出する適合度算出手段、 前記適合度に基づいて前記文書要素から適合文書要素を
    抽出する文書要素抽出手段、 前記適合文書要素にて前記文書の抄録を作成する抄録作
    成手段、 として機能させることを特徴とする文書抄録作成プログ
    ラムを記録した記憶媒体。
  8. 【請求項8】 文書の抄録を作成する文書抄録作成プロ
    グラムを記録した記憶媒体において、コンピュータを、 入力される前記利用者意図を保持する利用者意図保持手
    段、 前記利用者意図から重要キーワードを抽出する重要キー
    ワード抽出手段、 前記文書から前記重要キーワードを含んだ重要文章を抽
    出する重要文章抽出手段、 前記重要文章にて前記文書の抄録を作成する抄録作成手
    段、 として機能させることを特徴とする文書抄録作成プログ
    ラムを記録した記憶媒体。
JP9150575A 1997-06-09 1997-06-09 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体 Pending JPH10340271A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9150575A JPH10340271A (ja) 1997-06-09 1997-06-09 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9150575A JPH10340271A (ja) 1997-06-09 1997-06-09 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体

Publications (1)

Publication Number Publication Date
JPH10340271A true JPH10340271A (ja) 1998-12-22

Family

ID=15499894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9150575A Pending JPH10340271A (ja) 1997-06-09 1997-06-09 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体

Country Status (1)

Country Link
JP (1) JPH10340271A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366576A (ja) * 2001-04-05 2002-12-20 Internatl Business Mach Corp <Ibm> データ検索の方法、システム、およびプログラム製品
US7181688B1 (en) 1999-09-10 2007-02-20 Fuji Xerox Co., Ltd. Device and method for retrieving documents
JP2010152862A (ja) * 2008-11-27 2010-07-08 I Business Center:Kk 文章体特定装置およびコンピュータに文章体を特定させるためのプログラム
JP2017068359A (ja) * 2015-09-28 2017-04-06 株式会社デンソー 対話装置及び対話制御方法
JP2020057195A (ja) * 2018-10-02 2020-04-09 テクマトリックス株式会社 要約生成サーバ、要約生成システム及び要約生成方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02112069A (ja) * 1988-10-21 1990-04-24 Hitachi Ltd 自動要約方式
JPH04281558A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索方法および装置
JPH04281566A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JPH04281559A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JPH05233689A (ja) * 1992-02-18 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 文書自動要約方法
JPH06309368A (ja) * 1993-04-20 1994-11-04 Fuji Xerox Co Ltd 文書検索装置
JPH0743717B2 (ja) * 1989-02-06 1995-05-15 株式会社テレマティーク国際研究所 抄録文作成装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02112069A (ja) * 1988-10-21 1990-04-24 Hitachi Ltd 自動要約方式
JPH0743717B2 (ja) * 1989-02-06 1995-05-15 株式会社テレマティーク国際研究所 抄録文作成装置
JPH04281558A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索方法および装置
JPH04281566A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JPH04281559A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JPH05233689A (ja) * 1992-02-18 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 文書自動要約方法
JPH06309368A (ja) * 1993-04-20 1994-11-04 Fuji Xerox Co Ltd 文書検索装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181688B1 (en) 1999-09-10 2007-02-20 Fuji Xerox Co., Ltd. Device and method for retrieving documents
JP2002366576A (ja) * 2001-04-05 2002-12-20 Internatl Business Mach Corp <Ibm> データ検索の方法、システム、およびプログラム製品
JP2010152862A (ja) * 2008-11-27 2010-07-08 I Business Center:Kk 文章体特定装置およびコンピュータに文章体を特定させるためのプログラム
JP2017068359A (ja) * 2015-09-28 2017-04-06 株式会社デンソー 対話装置及び対話制御方法
JP2020057195A (ja) * 2018-10-02 2020-04-09 テクマトリックス株式会社 要約生成サーバ、要約生成システム及び要約生成方法

Similar Documents

Publication Publication Date Title
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP2783558B2 (ja) 要約生成方法および要約生成装置
JP3691844B2 (ja) 文書処理方法
US5708825A (en) Automatic summary page creation and hyperlink generation
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US20050267734A1 (en) Translation support program and word association program
JPH0418673A (ja) テキスト情報抽出方法および装置
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JPH0628403A (ja) 文書検索装置
JPH0484271A (ja) 文書内情報検索装置
JP3383049B2 (ja) 文書検索装置
JPH10340271A (ja) 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体
JPH0944523A (ja) 関連語提示装置
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
JPH08287088A (ja) 情報検索方法及びその装置
JP2000250908A (ja) 電子書籍の作成支援装置
JP2004157965A (ja) 検索支援装置、検索支援方法、プログラムおよび記録媒体
JPH10214268A (ja) 文書検索方法および装置
JP3710463B2 (ja) 翻訳支援辞書装置
JP3848014B2 (ja) 文書検索方法および文書検索装置
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP2785692B2 (ja) 辞書検索表示装置
JPH09305626A (ja) 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040525

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041005