JP4030624B2 - 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 - Google Patents

文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 Download PDF

Info

Publication number
JP4030624B2
JP4030624B2 JP21930197A JP21930197A JP4030624B2 JP 4030624 B2 JP4030624 B2 JP 4030624B2 JP 21930197 A JP21930197 A JP 21930197A JP 21930197 A JP21930197 A JP 21930197A JP 4030624 B2 JP4030624 B2 JP 4030624B2
Authority
JP
Japan
Prior art keywords
document
condition setting
database
vector
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP21930197A
Other languages
English (en)
Other versions
JPH1153396A (ja
Inventor
直之 野村
信二 藤澤
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP21930197A priority Critical patent/JP4030624B2/ja
Publication of JPH1153396A publication Critical patent/JPH1153396A/ja
Application granted granted Critical
Publication of JP4030624B2 publication Critical patent/JP4030624B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、文書処理装置、文書処理方法および文書処理プログラムを記憶した記憶媒体に係り、詳細には、蓄積してある過去の原文と要約の組を新規に要約を作成するにあたり、参照・活用することで、より読み易い要約を作成する技術に関する。
【0002】
【従来の技術】
従来、書籍、論文、報告書等の各種の文書に対し、要約(抄録を含む)の自動作成処理や、他文書等との関連づけ処理等の各種処理をコンピュータを用いて行うことが行われている。
文書の自動要約については、例えば、「全文情報からの意味的情報の抽出と加工」(情報処理学会第38回全国大会予稿集、第222頁;1989年)で提案されている。この方法では、まず文書中の重要語を字種や動詞等の情報から抽出し、さらに重要語の出現頻度から最重要語を決定する。次に、重要語と最重要語が出現するか否かから重要文を決定することで、自動的に要約を作成することが可能になる。また、文章の段落の性質を反映させることで、より正確に要約を作成する特開平3−191475号公報に記載された方法等も提案されている。
一方、他のデータとの関連づけとしては、インターネットにおけるハイパーリンクや、フレームシステム等による知識処理(エキスパートシステム等)における関連づけ等が行われている。
【0003】
【発明が解決しようとする課題】
このような、従来の文書処理装置では、その都度該装置で要約を行い、過去になされた要約を参照して行うものではなかった。ところで、通常、文書を作成する際、例えば、挨拶状、法律的な警告状などを作成するとき、過去に作成された同様な書類を見本として参照することが多い。同様に要約を作成する場合、過去に作成された要約を参考にすることも有意義であると考えられる。特に、多くの人に使用された実績のある要約文は、要約を行う際に参照することが有益であると期待できる。
【0004】
そこで、本発明は、このような従来の課題を解決するために成されたもので、過去に行われた要約と原文と条件設定パラメータの組を蓄積しておき、条件設定パラメータを参照して新たな要約を作成することができる文書処理装置および文書処理方法を提供することを第1の目的とする。
また、本発明は、過去に行われた要約と原文と条件設定パラメータの組を蓄積しておき、条件設定パラメータを参照して新たな要約を作成することができるコンピュータ読取り可能な文書処理プログラムを記憶した記憶媒体を提供することを第2の目的とする。
【0005】
【課題を解決するための手段】
請求項1記載の発明では、文書処理装置に、文書を、当該文書の要約、当該要約時の条件設定パラメータと共に蓄積するデータベースと、所定形式の文書を取得する文書取得手段と、前記文書取得手段により取得された文書と類似している文書を前記データベースから検索する類似文書検索手段と、この類似文書検索手段で検索された文書に対応する条件設定パラメータ前記データベースから取得する条件設定パラメータ取得手段と、この条件設定パラメータ取得手段で取得した条件設定パラメータに基づいて、前記文書取得手段で取得した文書の要約文を作成する要約手段とを備えさせて前記第1の目的を達成する。
【0007】
請求項に記載した発明では、請求項に記載した文書処理装置において、前記文書取得手段で取得された文書を特徴づける文書ベクトルを決定する文書ベクトル決定手段を備え、前記類似文書検索手段は前記文書ベクトル決定手段で決定された各文書の文書ベクトルにより各文書間の類似度を判定して検索する。
【0008】
請求項に記載した発明では、請求項1または請求項記載の文書処理装置において、前記類似文書検索手段で文書を検索する際類似判断の条件は、利用者による設定が可能であることとした。
【0010】
請求項に記載した発明では、記憶媒体に、文書を、当該文書の要約、当該要約時の条件設定パラメータと共に蓄積するデータベースを備えた文書処理装置に、所定形式の文書を取得する文書取得機能と、前記文書取得機能により取得された文書と類似している文書を前記データベースから検索する類似文書検索機能と、この類似文書検索機能で検索された文書に対応する条件設定パラメータ前記データベースから取得する条件設定パラメータ取得機能と、この条件設定パラメータ取得機能で取得した条件設定パラメータに基づいて、前記文書取得機能で取得した文書の要約文を作成する要約機能と、を実現させるためのコンピュータ読取り可能な文書処理プログラムを記憶させて前記第2の目的を達成する。
【0012】
請求項に記載した発明では、請求項記載の記憶媒体に、前記文書取得機能で取得された文書を特徴づける文書ベクトルを決定する文書ベクトル決定機能を備え、前記類似文書検索機能は前記文書ベクトル決定機能で決定された各文書の文書ベクトルにより各文書間の類似度を判定して検索する機能をコンピュータに実現させるためのコンピュータ読取り可能な文書処理プログラムを記憶させて前記第2の目的を達成する。
【0013】
請求項に記載した発明では、請求項または請求項記載の記憶媒体に、前記類似文書検索機能で文書を検索する際類似判断の条件は、利用者による設定が可能であることとする機能をコンピュータに実現させるためのコンピュータ読取り可能な文書処理プログラムを記憶させて前記第2の目的を達成する。
【0015】
請求項に記載した発明では、文書を、当該文書の要約、当該要約時の条件設定パラメータと共に蓄積するデータベースと、文書取得手段と、類似文書検索手段と、条件設定パラメータ取得手段と、要約手段と、を備えた文書処理装置において文書処理を行う際に用いられる文書処理方法であって、前記文書取得手段が、所定形式の文書を取得する第1ステップと、前記類似文書検索手段が、前記第1ステップにより取得された文書と類似している文書を前記データベースから検索する第2ステップと、前記条件設定パラメータ取得手段が、前記第2ステップで検索された文書に対応する条件設定パラメータを前記データベースから取得する第3ステップと、前記要約手段が、前記第3ステップで取得した条件設定パラメータに基づいて前記第1ステップで取得した文書の要約文を作成する第4ステップと、を備えた文書処理方法を提供することにより前記第1の目的を達成する。
【0016】
請求項に記載した発明では、請求項の文書処理方法において、さらに、文書ベクトル決定手段を備えた文書処理装置において文書処理を行う際に用いられる文書処理方法であって、前記文書ベクトル決定手段が、前記第1ステップで取得された文書を特徴づける文書ベクトルを決定する第5ステップを備え、前記第2ステップは、前記第5ステップで決定された各文書の文書ベクトルにより各文書間の類似度を判定して検索する文書処理方法を提供することにより前記第1の目的を達成する。
【0017】
【発明の実施の形態】
以下、本発明の文書処理装置、文書処理方法および文書処理プログラムを記憶した記憶媒体の好適な実施の形態を、図1ないし図6を参照して詳細に説明する。
(1)実施の形態の概要
本実施の形態では、対象文書の文書ベクトルを求め、検索対象の各文書との文書ベクトルの差をとる。これらの連続する2つの文書間のコサインバリュー(cosine value)が高いか低いかで内容の類似性を判断する。類似度が高い(即ち類似度が高い場合)とされた文書の要約文および条件設定パラメータを取得し、これを参照して新たな要約文を生成する。
【0018】
(2)実施の形態の詳細
図1は、文書処理装置の構成を表したブロック図である。
本実施の形態の文書処理装置は、パーソナルコンピュータやワードプロセッサ等を含むコンピュータシステムとして構成し、また、LAN(ローカル・エリア・ネットワーク)のサーバーやインターネットを含むコンピュータ(パソコン)通信のホストとして構成することが可能である。
文書処理装置は、図1に示すように装置全体を制御するための制御部11を備えている。この制御部11には、データバス等のバスライン21を介して、入力装置としてのキーボード12やマウス13、表示装置14、印刷装置15、記憶装置16、記憶媒体駆動装置17、通信制御装置18、および、入出力I/F19、および、文字認識装置20が接続されている。
制御部11は、CPU111、ROM112、RAM113を備えている。
ROM112は、CPU111が各種制御や演算を行うための各種プログラムやデータが予め格納されたリードオンリーメモリである。
【0019】
RAM113は、CPU111にワーキングメモリとして使用されるランダム・アクセス・メモリである。このRAM113には、本実施の形態による要約処理を行うためのエリアとして、要約対象文書格納エリア1131、要約パラメータ格納エリア1132、検索原文と要約格納エリア1133、文書ベクトル格納エリア1134、要約格納エリア1135、その他の各種エリアが確保されるようになっている。
文書ベクトル格納エリア1134には、要約対象文書に対する文書ベクトルと、後述する各サブ文書に対する文書ベクトルとが格納される。
要約格納エリア1135には、本実施の形態により発見された各トピックを含む各サブ文書群に対するサブ要約と、要約対象文書全体に対する要約とが格納される。
【0020】
キーボード12は、かな文字を入力するためのかなキーやテンキー、各種機能を実行するための機能キー、カーソルキー、等の各種キーが配置されている。
マウス13は、ポインティングデバイスであり、表示装置14に表示されたキーやアイコン等を左クリックすることで対応する機能の指定を行う入力装置である。
表示装置14は、例えばCRTや液晶ディスプレイ等が使用される。この表示装置には、要約対象文書の内容や、本実施の形態により自動生成された要約の内容等が表示されるようになっている。
印刷装置15は、表示装置14に表示された文章や、記憶装置16の文書格納部164に格納された文書等の印刷を行うためのものである。この印刷装置としては、レーザプリンタ、ドットプリンタ、インクジェットプリンタ、ページプリンタ、感熱式プリンタ、熱転写式プリンタ、等の各種印刷装置が使用される。
【0021】
記憶装置16は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータ等の各種情報を読み書きするための駆動装置で構成されている。この記憶装置16に使用される記憶媒体としては、主としてハードディスクが使用されるが、後述の記憶媒体駆動装置17で使用される各種記憶媒体のうちの読み書き可能な記憶媒体を使用するようにしてもよい。
記憶装置16は、仮名漢字変換辞書161、プログラム格納部162、データ格納部163、文書データベース164、要約データベース165、文書ベクトルデータベース166、図示しないその他の格納部(例えば、この記憶装置16内に格納されているプログラムやデータ等をバックアップするための格納部)等を有している。
プログラム格納部162には、本実施の形態における自動要約処理プログラム、文書ベクトル作成処理プログラム、要約作成処理プログラム等の各種プログラムの他、仮名漢字変換辞書161を使用して入力された仮名文字列を漢字混り文に変換する仮名漢字変換プログラム等の各種プログラムが格納されている。
データ格納部163には、要約パラメータのデフォルト値等の各種データが格納されている。要約パラメータのデフォルト値としては、例えば、全文書に対する要約の比率=「25%」や、日付時刻、価格情報、物理量(サイズ、重量、温度等)等の数量重視=「しない」や、URL(Uniform Resource Locator) 重視=「しない」や、です/ます/であるの選択=「しない」、等の値が格納されている。
【0022】
文書データベース164には、仮名漢字変換プログラムにより作成された文書や、他の装置で作成されて記憶媒体駆動装置17や通信制御装置18から読み込まれた文書が格納される。この文書データベース164に格納される各文書の形式は特に限定されるものではなく、テキスト形式の文書、HTML(Hyper Text Markup Language)形式の文書、JIS形式の文書等の各種形式の文書の格納が可能である。文書データベース164には、これらの形式の文書データのが格納される。
要約データベース165、及び文書ベクトルデータベース166には、文書データベース164に格納されている各文書に対応する要約や文書ベクトルが格納されるようになっている。
【0023】
図2は、文書ベクトルデータベース166の内容を概念的に表したものである。
この図2に示されるように、文書中から自動抽出されたキーワードxに対して求められた要素値f(x)が文書ベクトルの要素として格納されている。この文書ベクトルは各文書(A、B、C…)毎に格納され、文書データベース164に格納されている各文書と対応づけられている。
各文書ベクトルの次元は採用するキーワードx(重要語句)の数であるが、2文書間の類似度を両文書ベクトルから求める場合には、両文書のキーワードの和集合の数が両文書ベクトルの次元となる。この場合、一方の文書ベクトルにのみ含まれるキーワードに対する他方の文書ベクトルの要素値は、”0”に定義される。
【0024】
例えば、図2おいて、文書Bのキーワードは「重要、重要語、重要度、…」、文書Cのキーワードは「重要、…、政治、…」であり、両文書の文書ベクトルは次の通りである。
文書Bの文書ベクトル=( 1,18,19,…)
文書Cの文書ベクトル=(18,…,21,…)
これに対して文書Bと文書Cとの類似度を算出する場合には、両文書のキーワードを「重要、重要語、重要度、…、政治、…」とし、両文書の文書ベクトルはつぎの通り定義される。
文書Aの文書ベクトル=( 1,18,19,…, 0,…)、
文書Cの文書ベクトル=(18, 0, 0,…,21,…)
【0025】
記憶媒体駆動装置17は、CPU111が外部の記憶媒体からコンピュータプログラムや文書を含むデータ等を読み込むための駆動装置である。記憶媒体に記憶されているコンピュータプログラムには、本実施の形態の文書処理装置により実行される各種処理のためのプログラム、および、そこで使用される辞書、データ等も含まれる。
ここで、記憶媒体とは、コンピュータプログラムやデータ等が記憶される記憶媒体をいい、具体的には、フロッピーディスク、ハードディスク、磁気テープ等の磁気記憶媒体、メモリチップやICカード等の半導体記憶媒体、CD−ROMやMO、PD(相変化書換型光ディスク)等の光学的に情報が読み取られる記憶媒体、紙カードや紙テープ等の用紙(および、用紙に相当する機能を持った媒体)を用いた記憶媒体、その他各種方法でコンピュータプログラム等が記憶される記憶媒体が含まれる。本実施の形態の文書処理装置において使用される記憶媒体としては、主として、CD−ROMやフロッピーディスクが使用される。
記憶媒体駆動装置17は、これらの各種記憶媒体からコンピュータプログラムを読み込む他に、フロッピーディスクのような書き込み可能な記憶媒体に対してRAM113や記憶装置16に格納されているデータ等を書き込むことが可能である。
【0026】
本実施の形態の文書処理装置では、制御部11のCPU111が、記憶媒体駆動装置17にセットされた外部の記憶媒体からコンピュータプログラムを読み込んで、記憶装置16の各部に格納する。そして、本実施の形態による自動要約処理等の各種処理を実行する場合、記憶装置16から該当プログラムをRAM113に読み込み、実行するようになっている。
但し、記憶装置16からではなく、記憶媒体駆動装置17により外部の記憶媒体から直接RAM113に読み込んで実行することも可能である。また、文書処理装置によっては、本実施の形態の自動要約処理プログラム等を予めROM112に記憶しておき、これをCPU111が実行するようにしてもよい。
【0027】
通信制御装置18は、他のパーソナルコンピュータやワードプロセッサ等との間でテキスト形式やHTML形式等の各種形式の文書やビットマップデータ等の各種データの送受信を行うことができるようになっている。
入出力I/F19は、音声や音楽等の出力を行うスピーカ等の各種機器を接続するためのインターフェースである。
文字認識装置20は、用紙等に記載された文字をテキスト形式やHTML等の各種形式で認識する装置であり、イメイージスキャナや文字認識プログラム等で構成されている。
【0028】
本実施の形態では、キーボード12の入力操作により作成した文書(RAM113の所定格納エリアに格納)の他、外部で作成して所定の記憶媒体に格納した文書で記憶媒体駆動装置17から読み込んだ文書、予め文書データベースに格納されている文書、通信制御装置18からダウンロードした文書、及び文字認識装置20で文字認識した文書、等の各種文書を対象文書として取得する(文字取得手段)ことが可能である。
【0029】
以上のように構成された本実施の形態の文書処理装置による、複数文書から要約を作成する自動要約処理の動作について図3から図6を用いて説明する。
図3は自動要約処理のメイン動作を表したものである。図4中に示した文書ベクトルは、概念的に理解しやすくするために2次元で表示したものであるが、実際にはN次元ベクトルである。
CPU111は、要約を作成する対象となっている要約対象文書A(図4(A))を取得し、RAM113の要約対象文書格納エリア1131に格納する(ステップ10)。要約対象文書は、ユーザの指示に従ってRAM113(自装置内で作成された文書である場合)、記憶装置16の文書データベース164(要約が未だ作成されていない文書である場合)、記憶媒体駆動装置17(自装置または他装置で作成済みの文書の場合)、通信制御装置18(パソコン通信、インターネット等の通信による場合)から取得する。
【0030】
次に、CPU111は、ユーザによってキーボード12等から要約パラメータが入力された場合には入力値を取得し、ユーザによる入力がない場合にはデータ格納部163に格納された要約パラメータのデフォルト値を取得し、要約パラメータ格納エリア1132に格納する(ステップ11)。
【0031】
次に、CPU111は、要約対象文書格納エリア1131に格納した要約対象文書の各文章に対する文書ベクトルV(図4)を求める。
図5は、文書ベクトル作成処理の動作を表したフローチャートである。
CPU111は、形態素解析を行うことで要約対象文書の文章から自立語を抽出する(ステップ131)と共に、名詞句、複合名詞句等を含めた候補語(句)を要約対象文書Aから抽出しRAM113の所定作業領域に格納する(ステップ132)。
そして抽出した候補語(句)の要約対象文書での出現頻度、評価関数から、各候補語(句)重要度f(x)を決定する(ステップ133)。ここで、評価関数としては、例えば、所定の重要語が予め指定されている場合にはその重要語に対する重み付け、単語、名詞句、複合名詞句等の候補語(句)の種類による重み付け等が使用される。
さらにCPU111は、決定した重要度f(x)の値から要約対象文書Aのキーワードa,b,…を決定する(ステップ134)。そして、各キーワードの重要度f(x)を要素として、文書ベクトルV=(f(a),f(b),…)をRAM113の文書ベクトル格納エリア1134に格納する(ステップ135)。
【0032】
要約対象のに対して文書ベクトルVが求まるとCPU111は、データベースに蓄積されている原文と要約文の組との類似度を求める(ステップ12)。このデータベースは、過去の原文と要約文の組を履歴として蓄積してあるものである。この要約文は、自動で行われたか、手動で行われたかを問わず蓄積しておく。また、自動で要約された場合は、その圧縮率などの条件設定パラメータも併せて保存してある。さらに、各文書毎の文書文書をベクトルを予め求めてデータとして保持しておくこともできる。
【0033】
データベースに蓄積されている文書と要約対象文書間の類似度sを、両者の文書ベクトルbnと文書ベクトルbn+1間の角度に依存するコサインにより求める。すなわち、両文書ベクトルbnとbn+1間の角度をqとし、両文書ベクトルの内積をbn・bn+1とし、両文書ベクトルの大きさをそれぞれ|bn|、|bn+1|とした場合、両文書ベクトルの類似度sは次の数式1により求まる。
【0034】
【数1】
類似度s=COS(q)=(bn・bn+1)/(|bn|×|bn+1|)
【0035】
この類似度sの値は−1≦s≦1までの値をとり、1に近いほど2つの文書ベクトルが互いに平行に近く、2つの文書同士は似ていると考えることができる。
その後、類似するとされた原文と要約文の組から条件設定パラメータや要約文を抽出する(ステップ13)。そして、この抽出した条件設定パラメータや要約文を参考して要約文を生成する(ステップ14)。この実施の形態では、要約文を生成する際、文書構造が類似した文書がある場合、例えば、新聞記事、法律文書、科学技術の論文等の類似性を反映した要約文を作成することができる。
また、条件設定パラメータを参照することで、より品質の高い要約を作成できる。例えば、要約圧縮率が過去の条件設定パラメータとして保存されていれば、25%がよいか15%がよいかを参照することができる。さらに、要約の際、長文優先、短文優先、数量優先、といったことも参照することができる。
参照できる文書が多数存在した場合、それを表示して利用者に選択させることもできる。特に、過去に再利用が盛んに行われた文書、読まれて肯定的なコメントがされている文書、社内の重要人物が参照したことがある文書を優先して模範要約に利用すると精度の高い要約文が生成きると期待できる。
【0036】
図6は、要約作成処理の動作を表したフローチャートである。
CPU111は、まず形態素解析を行うことで各文書群に含まれる自立語を抽出する(ステップ221)と共に、名詞句、複合名詞句等を含めた候補語(句)を要約対象文書Aから抽出しRAM113の所定作業領域に格納する(ステップ222)。
そして、RAM16の要約パラメータ格納エリア1132に格納した要約パラメータや、抽出した候補語(句)の各文書群中での出現頻度、評価関数等から、各候補語(句)重要度f(y)を決定する(ステップ223)。ここで、評価関数としては、例えば、所定の重要語が予め指定されている場合にはその重要語に対する重み付け、単語、名詞句、複合名詞句等の候補語(句)の種類による重み付け等が使用される。
【0037】
さらにCPU111は、決定した重要度f(y)や要約パラメータ格納エリアリレーに格納された要約パラメータ等から、各文書群含まれる各センテンスに対する重要度F(z)を決定する(ステップ224)。そして、決定したセンテンスの重要度F(z)の重要度が高いセンテンスの上位から要約パラメータの要約比率(例えば、文書群の全センテンス数の内の上位25%)以内に入るセンテンスをリストアップする(ステップ225)。
そしてCPU111は、リストアップしたセンテンスを文書群の中での出現順に並べることで当該文書についての要約とし、これをRAM113の要約格納エリア1135の所定エリアに格納して(ステップ226)、図3の自動要約処理ルーチンにリターンして、本実施の形態による自動要約処理を終了する。
【0038】
以上説明したように、本実施の形態による自動要約処理によれば、過去になされた要約を参考に要約文を作成するので、精度が高く、読み易い要約を作成することができる。
【0039】
以上の自動要約処理が終了すると、CPU111はユーザの指示によりRAM113に格納した各データの保存処理を行う。
すなわち、要約対象文書格納エリア1131から要約対象文書を読み出して、記憶装置16の文書データベース164に格納する。また作成した要約を要約格納エリア1135から読み出し、文書データベース164に格納した要約対象文書との関連性を付けて記憶装置16の要約データベース165に格納する。さらに、文書ベクトル作成処理で求めた文書ベクトルVを文書ベクトル格納エリア1135から読み出し、文書データベース164に格納した要約対象文書との関連性を付けて記憶装置16の文書ベクトルデータベース166に格納する。
【0040】
以上、本実施の形態の構成および自動要約処理について説明したが、本発明では、これらの各形態に限定されるものではなく、請求項に記載された発明の範囲内で種々の変形をすることが可能である。
例えば実施の形態では、形態素解析及び候補語(句)の抽出について、文書ベクトル作成処理(図5のステップ131とステップ132)と、要約作成処理(図6のステップ221とステップ222)とにおいて独立して同様な処理を行うこととしたが、本発明では、文書ベクトル作成処理で抽出した候補語(句)をRAM16の所定エリアに格納しておき、要約作成処理で利用するようにしてもよい。
【0041】
また説明した実施の形態では、自動要約処理が終了した後の保存処理において、要約対象文書、要約、文書ベクトルVのみを記憶装置16の各データベース164、165、166に格納し保存するようにしたが、本発明では更に、文書ベクトル作成処理(図5)のステップ132で要約対象文書から抽出し、RAM113の所定作業領域に格納した候補語(句)を要約対象文書Aと関連つけて、文書データベース164、又は専用の候補語(句)データベースに格納するようにしてもよい。
また要約パラメータ格納エリア1132から要約パラメータを読み出して、当該要約に関連付けて、要約データベース166、または専用の要約パラメータデータベースに格納するようにしてもよい。
【0042】
さらに、説明した実施の形態では、文書ベクトル作成処理(及び要約作成処理(ステップ22、図6)の両処理において、形態素解析(ステップ131、221)と候補語(句)の抽出(ステップ132、222)を行った。
しかし、同一センテンスに対する処理であるため、抽出した候補語(句)は同一である。そこで、本発明では、文書ベクトル作成処理で抽出した候補語(句)をRAM113の所定エリアに格納しておき、要約処理において格納した候補語(句)を使用することでステップ221とステップ222を省略するようにしてもよい。
この候補語(句)についても、要約対象文書に対する候補語(句)として文書データベース164、又は専用の候補語(句)データベースに格納するようにしてもよい。
【0043】
説明した実施の形態では文書ベクトルを作成する方法として図5のフローチャートに従った方法を1例にして説明したが、本発明でこの方法に限られるものではなく、要約対象文書中Aからキーワードを抽出する方法や、抽出キーワードに対する重要度(=文書ベクトルの要素値)の決定方法等については、公知の各種方法により置き換えることが可能である。
また、各サブ文書群に対する要約の作成処理についても同様に図6のフローチャートに示した方法に限られるものではなく、公知の各種要約方法、抄録作成方法等を資料することが可能である。
更に、2つの文書ベクトルの類似度の算出方法については、数式1により類似度を算出することとしたが、この数式に限定されるものではなく、ベクトル相互間の類似関係を表すことが可能であれば他の数式により類似度を算出することも可能である。
【0044】
説明した実施の形態では、日本語で作成された文書に限られるものでなく、あらゆる言語で作成された文書を対象とすることが可能である。その場合、対象となる文書が作成された言語用の形態素解析アルゴリズム等を使用するといった、本発明の構成には影響のない部分を変更するだけでよい。
なお、以上の実施の形態において説明した、各装置、各部、各動作、各処理等に対しては、それらを含む上位概念としての各手段(〜手段)により、実施の形態を構成することが可能である。
例えば、「決定した重要度f(x)の値から要約対象文書Aのキーワードa,b,…を決定する(ステップ134)」との記載に対して「キーワード決定手段」を構成し、「決定したセンテンスの重要度F(z)の重要度が高いセンテンスの上位から要約パラメータの要約比率(例えば、サブ文書群の全センテンス数の内の上位25%)以内に入るセンテンスをリストアップする(ステップ225)」との記載に対して「センテンスリストアップ手段」を構成するようにしてもよい。
同様に、その他各種動作に対して「〜(動作)手段」等の上位概念で実施の形態を構成するようにしてもよい。
【0045】
【発明の効果】
本発明によれば、過去に行われた要約の条件設定パラメータに基づいて要約を行うので、精度が高く、対象文書の内容を把握し易い要約を作成することがきる。
【図面の簡単な説明】
【図1】本発明の1実施の形態における文書処理装置の構成を表したブロック図である。
【図2】同上、実施の形態における文書ベクトルデータベースの内容を概念的に表した説明図である。
【図3】同上、実施の形態における自動要約処理のメイン動作を表したフローチャートである。
【図4】同上、実施の形態における、文書Aに対する文書ベクトルを求めたところ示す図である。
【図5】同上、実施の形態における文書ベクトル作成処理の動作を表したフローチャートである。
【図6】同上、実施の形態における要約作成処理の動作を表したフローチャートである。
【符号の説明】
11 制御部
112 ROM
113 RAM
1131 要約対象文書格納エリア
1132 要約パラメータ格納エリア
1133 検索原文+要約格納エリア
1134 文書ベクトル格納エリア
1135 要約格納エリア
12 キーボード
13 マウス
14 表示装置
15 印刷装置
16 記憶装置
161 仮名漢字変換辞書
162 プログラム格納部
163 データ格納部
164 文書データベース
165 要約データベース
166 文書ベクトルデータベース
17 記憶媒体駆動装置
18 通信制御装置
19 入出力I/F
20 文字認識装置

Claims (8)

  1. 文書を、当該文書の要約、当該要約時の条件設定パラメータと共に蓄積するデータベースと、
    所定形式の文書を取得する文書取得手段と、
    前記文書取得手段により取得された文書と類似している文書を前記データベースから検索する類似文書検索手段と、
    この類似文書検索手段で検索された文書に対応する条件設定パラメータ前記データベースから取得する条件設定パラメータ取得手段と、
    この条件設定パラメータ取得手段で取得した条件設定パラメータに基づいて、前記文書取得手段で取得した文書の要約文を作成する要約手段と、
    を備えたことを特徴とする文書処理装置。
  2. 前記文書取得手段で取得された文書を特徴づける文書ベクトルを決定する文書ベクトル決定手段を備え、
    前記類似文書検索手段は前記文書ベクトル決定手段で決定された各文書の文書ベクトルにより各文書間の類似度を判定して検索する
    ことを特徴とする請求項記載の文書処理装置。
  3. 前記類似文書検索手段で文書を検索する際類似判断の条件は、利用者による設定が可能であることを特徴とした請求項1または請求項記載の文書処理装置。
  4. 文書を、当該文書の要約、当該要約時の条件設定パラメータと共に蓄積するデータベースを備えた文書処理装置に、
    所定形式の文書を取得する文書取得機能と、
    前記文書取得機能により取得された文書と類似している文書を前記データベースから検索する類似文書検索機能と、
    この類似文書検索機能で検索された文書に対応する条件設定パラメータ前記データベースから取得する条件設定パラメータ取得機能と、
    この条件設定パラメータ取得機能で取得した条件設定パラメータに基づいて、前記文書取得機能で取得した文書の要約文を作成する要約機能と、
    を実現させるためのコンピュータ読取り可能な文書処理プログラムが記憶された記憶媒体。
  5. 前記文書取得機能で取得された文書を特徴づける文書ベクトルを決定する文書ベクトル決定機能を備え、
    前記類似文書検索機能は前記文書ベクトル決定機能で決定された各文書の文書ベクトルにより各文書間の類似度を判定して検索する
    ことを特徴とする請求項記載の文書処理プログラムが記憶された記憶媒体。
  6. 前記類似文書検索機能で文書を検索する際類似判断の条件は、利用者による設定が可能であることを特徴とした請求項または請求項記載の文書処理プログラムが記憶された記憶媒体。
  7. 文書を、当該文書の要約、当該要約時の条件設定パラメータと共に蓄積するデータベースと、文書取得手段と、類似文書検索手段と、条件設定パラメータ取得手段と、要約手段と、を備えた文書処理装置において文書処理を行う際に用いられる文書処理方法であって、
    前記文書取得手段が、所定形式の文書を取得する第1ステップと、
    前記類似文書検索手段が、前記第1ステップにより取得された文書と類似している文書を前記データベースから検索する第2ステップと、
    前記条件設定パラメータ取得手段が、前記第2ステップで検索された文書に対応する条件設定パラメータを前記データベースから取得する第3ステップと、
    前記要約手段が、前記第3ステップで取得した条件設定パラメータに基づいて前記第1ステップで取得した文書の要約文を作成する第4ステップと、
    を備えたことを特徴とする文書処理方法。
  8. さらに、文書ベクトル決定手段を備えた文書処理装置において文書処理を行う際に用いられる文書処理方法であって、
    前記文書ベクトル決定手段が、前記第1ステップで取得された文書を特徴づける文書ベクトルを決定する第5ステップを備え、
    前記第2ステップは、前記第5ステップで決定された各文書の文書ベクトルにより各文書間の類似度を判定して検索する
    ことを特徴とする請求項記載の文書処理方法。
JP21930197A 1997-07-29 1997-07-29 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 Expired - Fee Related JP4030624B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21930197A JP4030624B2 (ja) 1997-07-29 1997-07-29 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21930197A JP4030624B2 (ja) 1997-07-29 1997-07-29 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法

Publications (2)

Publication Number Publication Date
JPH1153396A JPH1153396A (ja) 1999-02-26
JP4030624B2 true JP4030624B2 (ja) 2008-01-09

Family

ID=16733357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21930197A Expired - Fee Related JP4030624B2 (ja) 1997-07-29 1997-07-29 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法

Country Status (1)

Country Link
JP (1) JP4030624B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010055373A (ja) * 2008-08-28 2010-03-11 Sky Co Ltd ノート評価装置またはノート評価プログラム
JP5085584B2 (ja) * 2009-02-20 2012-11-28 ヤフー株式会社 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
JP5245908B2 (ja) * 2009-02-25 2013-07-24 富士通株式会社 検索方法及び装置
JP5253317B2 (ja) * 2009-07-28 2013-07-31 日本電信電話株式会社 要約文作成装置、要約文作成方法、プログラム
WO2012098838A1 (ja) * 2011-01-17 2012-07-26 日本電気株式会社 報告文書作成支援システム、報告文書作成支援方法および報告文書作成支援プログラム
JP5964791B2 (ja) * 2013-08-28 2016-08-03 日本電信電話株式会社 オラクル要約探索装置、方法、及びプログラム
JP6842167B2 (ja) * 2017-05-08 2021-03-17 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム
JP2023019236A (ja) 2021-07-29 2023-02-09 京セラドキュメントソリューションズ株式会社 教師データ収集システム、類似度スコア算出システム、文献検索システム、および教師データ収集プログラム

Also Published As

Publication number Publication date
JPH1153396A (ja) 1999-02-26

Similar Documents

Publication Publication Date Title
JP3598211B2 (ja) 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体
US7783644B1 (en) Query-independent entity importance in books
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JP4299963B2 (ja) 意味的まとまりに基づいて文書を分割する装置および方法
JP2002197104A (ja) 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体
JP4067603B2 (ja) 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法
JP4021525B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP4030624B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JPH1153394A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP4025391B2 (ja) 文書処理装置、文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体、及び文書処理方法
JPH1145289A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JP4047417B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP4044644B2 (ja) 電子掲示板システム、電子掲示板プログラムが記憶された記憶媒体、及び電子掲示板の活性化方法
JP2000194725A (ja) 類似グル―プ抽出装置、及び類似グル―プ抽出プログラムが記憶された記憶媒体
JP2003323425A (ja) 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム
JPH10307837A (ja) 検索装置並びに検索プログラムを記録した記録媒体
JPH1145288A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2002084492A (ja) 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
JP2000322439A (ja) 情報検索装置、及び情報検索プログラムが記憶された記憶媒体
JP2000105769A (ja) 文書表示方法
JPH1153397A (ja) 文書処理装置、文書処理プログラムを記憶した記憶媒体、及び文書処理方法
JP2000339310A (ja) 文書分類方法、文書分類装置、およびプログラムを記録する記録媒体
US20030237042A1 (en) Document processing device and document processing method
JP2000194724A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070710

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071017

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101026

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131026

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees