JP2001297100A - キーワード抽出ルール精製支援装置 - Google Patents

キーワード抽出ルール精製支援装置

Info

Publication number
JP2001297100A
JP2001297100A JP2000114320A JP2000114320A JP2001297100A JP 2001297100 A JP2001297100 A JP 2001297100A JP 2000114320 A JP2000114320 A JP 2000114320A JP 2000114320 A JP2000114320 A JP 2000114320A JP 2001297100 A JP2001297100 A JP 2001297100A
Authority
JP
Japan
Prior art keywords
rule
keyword
presented
expression
keyword extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000114320A
Other languages
English (en)
Other versions
JP2001297100A5 (ja
JP4042295B2 (ja
Inventor
Hiroyuki Kato
弘之樹 加藤
Yoshihiro Ueda
良寛 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2000114320A priority Critical patent/JP4042295B2/ja
Publication of JP2001297100A publication Critical patent/JP2001297100A/ja
Publication of JP2001297100A5 publication Critical patent/JP2001297100A5/ja
Application granted granted Critical
Publication of JP4042295B2 publication Critical patent/JP4042295B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 キーワード抽出装置で用いられるキーワード
抽出ルールの精製(強化及び緩和)を支援するキーワード
抽出ルール精製支援装置を提供する。 【解決手段】 キーワード抽出装置が第1キーワード群
中のキーワードに該当する語と第2キーワード群中のキ
ーワードに該当する語とが所定の関係を持つ表現からキ
ーワードを抽出する際に、提示手段がルールに適合した
表現とルールを提示し、受付手段が当該表現に対して当
該ルールを不適用とする指示をユーザから受け付ける
と、制約強化手段が当該不適用となるように当該ルール
を変更する。また、提示手段がルールで規定される条件
の2つのみに適合した表現とルールを提示し、受付手段
が当該表現に対して当該ルールを適用する指示をユーザ
から受け付けると、制約緩和手段が当該適用となるよう
に当該ルールを変更する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば表現のパタ
ーンマッチングにより文書中からキーワードを抽出する
キーワード抽出装置で用いられるキーワード抽出ルール
の精製(強化及び緩和)を支援するキーワード抽出ルール
精製支援装置や記憶媒体に関する。
【0002】
【従来の技術】例えばパターンやキーワード抽出ルール
の生成を行う技術として、次のようなものがある。一例
として、特開平7−262189号公報(以下、文献1
と言う)に記載された文型パタン抽出装置では、テキス
トから文型パターンを抽出して統合する。ここでの文型
とは出現順のパターンである。
【0003】また、例えば特開平9−6796号公報
(以下、文献2と言う)に記載された照合パターン生成
方法及び装置では、或る目的に対してユーザが適合/不
適合の判断を与え、各々の文書集合からパターンを自動
抽出する。また、特開平10−21249号公報(以
下、文献3と言う)に記載されたキーワード抽出ルール
生成方法では、文書を構造化するために用いるキーワー
ドの抽出ルールを自動生成し、与えられた出力書式定義
から抽出する文字列の条件を自動生成する。
【0004】ここで、上記文献1に記載された技術は、
文書からパターンを抽出するものである。パターンを抽
出するのみであり、それがどのようなことを意図するパ
ターンであるかは示されない。パターンの統合は複数の
ルールのマージであり、精製をしているわけではない。
また、上記文献2に記載された技術は、或る視点に対し
てユーザが適合/不適合の判断を与え、適合文書の集合
と不適合文書の集合からパターンを自動生成するもので
ある。しかし、この技術によって得られたパターンは或
る視点のみに特化されたものであり、その視点のみに固
有のものである保証はなく、しかもキーワードを抽出で
きるものではない。
【0005】また、上記文献3に記載された技術は、文
書を構造化するためのキーワード抽出ルール生成技術で
あるが、ルールは語の出現順に依存するものである。あ
くまでも名前、日時などの構造を構成する属性毎のキー
ワード抽出であり、「問題」「要望」など視点別のキー
ワードを抽出するものではない。また、既存ルールを後
の文書に合わせて精製することはできない。以上のよう
に、パターンやキーワード抽出ルールを自動で生成する
技術はあるが、随時その精度が上がるような補正を支援
する技術はない。
【0006】
【発明が解決しようとする課題】上記従来例で示したよ
うに、従来では、キーワード抽出装置で用いられるキー
ワード抽出ルールの精製(強化及び緩和)を支援する技術
がなかったため、一旦生成されたキーワード抽出ルール
の精度を向上させることができないといった不具合があ
り、具体的には、例えばキーワード抽出装置における視
点別、意味的なキーワードの抽出ルールに対して、文書
に応じた精製の支援ができないといった不具合があっ
た。
【0007】本発明は、上記のような従来の事情を鑑み
てなされたもので、例えば表現のパターンマッチングに
より文書中からキーワードを抽出するキーワード抽出装
置で用いられるキーワード抽出ルールの精製(強化及び
緩和)を支援することができるキーワード抽出ルール精
製支援装置や記憶媒体を提供することを目的とする。
【0008】
【課題を解決するための手段】上記目的を達成するた
め、本発明に係るキーワード抽出ルール精製支援装置で
は、次のようにして、所定のルールに基づいて文書から
キーワードを抽出するキーワード抽出装置の当該ルール
を精製することを支援する。ここで、ルールは、第1キ
ーワード群に含まれる第1キーワードに該当する語と第
2キーワード群に含まれる第2キーワードに該当する語
とが所定の関係をもって出現する文書中の表現から所定
のキーワードを抽出することを規定する。
【0009】すなわち、提示手段がルールに適合した表
現及び当該ルールをユーザに提示し、受付手段が提示し
た表現に対して提示したルールを不適用とする指示をユ
ーザから受け付け、当該指示を受け付けた場合には、制
約強化手段が提示した表現に対して提示したルールが不
適用となるように当該ルールを変更する。従って、例え
ばユーザが提示された表現に対して提示されたルールを
不適用とする旨を判断した場合には、当該ユーザからの
このような指示に合うように当該ルールが変更されるた
め、ルールを強化する方向での当該ルールの精製を支援
することができる。
【0010】また、好ましい態様として、上記のような
キーワード抽出ルール精製支援装置では、制約強化手段
は、提示した表現中の提示したルールに適合する語に該
当するキーワードを当該ルールで規定される当該語に対
応したキーワード群から削除することにより、提示した
表現に対して提示したルールが不適用となるようにす
る。
【0011】また、他の好ましい態様として、上記のよ
うなキーワード抽出ルール精製支援装置では、制約強化
手段は、提示した表現中の提示したルールに適合する語
に該当するキーワードを下位概念の複数のキーワードへ
変換し、これら下位概念の複数のキーワードの中で当該
語に該当するキーワードを当該ルールで規定される当該
語に対応したキーワード群から削除することにより、提
示した表現に対して提示したルールが不適用となるよう
にする。
【0012】また、本発明に係るキーワード抽出ルール
精製支援装置では、次のようにして、所定のルールに基
づいて文書からキーワードを抽出するキーワード抽出装
置の当該ルールを精製することを支援する。ここで、ル
ールは、第1キーワード群に含まれる第1キーワードに
該当する語と第2キーワード群に含まれる第2キーワー
ドに該当する語とが所定の関係をもって出現する文書中
の表現から所定のキーワードを抽出することを規定す
る。
【0013】すなわち、提示手段がルールで規定される
第1キーワード及び第2キーワード及び関係の内の2つ
のみに適合した表現及び当該ルールをユーザに提示し、
受付手段が提示した表現に対して提示したルールを適用
する指示をユーザから受け付け、当該指示を受け付けた
場合には、制約緩和手段が提示した表現に対して提示し
たルールが適用されるように当該ルールを変更する。従
って、例えばユーザが提示された表現に対して提示され
たルールを適用する旨を判断した場合には、当該ユーザ
からのこのような指示に合うように当該ルールが変更さ
れるため、ルールを緩和する方向での当該ルールの精製
を支援することができる。
【0014】また、好ましい態様として、本発明に係る
キーワード抽出ルール精製支援装置では、制約緩和手段
は、提示した表現中の提示したルールに不適合であった
語の概念を示すキーワードを当該ルールで規定される当
該語に対応したキーワード群に追加することにより、提
示した表現に対して提示したルールが適用されるように
する。
【0015】また、他の好ましい態様として、本発明に
係るキーワード抽出ルール精製支援装置では、制約緩和
手段は、提示した表現中の提示したルールに不適合であ
った語の概念を示すキーワードと当該ルールで規定され
る当該語に対応したキーワード群中のキーワードとの共
通上位概念を示すキーワードに当該キーワード群中の当
該キーワードを置き換えることにより、提示した表現に
対して提示したルールが適用されるようにする。
【0016】また、他の好ましい態様として、本発明に
係るキーワード抽出ルール精製支援装置では、制約緩和
手段は、提示した表現中の提示したルールに不適合であ
った語を当該ルールで規定される当該語に対応したキー
ワード群に追加することにより、提示した表現に対して
提示したルールが適用されるようにする。
【0017】また、他の好ましい態様として、本発明に
係るキーワード抽出ルール精製支援装置では、制約緩和
手段は、提示した表現中の提示したルールに不適合であ
った語と当該ルールで規定される当該語に対応したキー
ワード群中の表層的なキーワードとの共通上位概念を示
すキーワードに当該表層的なキーワードを置き換えるこ
とにより、提示した表現に対して提示したルールが適用
されるようにする。
【0018】また、本発明に係るキーワード抽出ルール
精製支援装置では、マージ手段がルールで規定される第
1キーワード群及び第2キーワード群及び関係の内の1
つのみが異なる複数のルールを、当該異なる部分を総和
した1つのルールへ変換する。従って、例えば複数のル
ールの内容を実質的に変更することなく、これら複数の
ルールを1つのルールへ置き換えることができるため、
ルールを整理して当該ルールを記憶するメモリの記憶容
量を削減すること等ができる。
【0019】また、以上に示したような本発明に係る各
種の処理は、例えば記憶媒体に記憶されたプログラムを
コンピュータにより読み取って実行することにより実現
することも可能である。一例として、本発明に係る記憶
媒体は、コンピュータに実行させるプログラムを当該コ
ンピュータの入力手段が読取可能に記憶しており、第1
キーワード群に含まれる第1キーワードに該当する語と
第2キーワード群に含まれる第2キーワードに該当する
語とが所定の関係をもって出現する表現から所定のキー
ワードを抽出するルールに基づいて文書からキーワード
を抽出するキーワード抽出装置の当該ルールを精製する
ことを支援するために用いられ、当該プログラムは、ル
ールに適合した表現及び当該ルールをユーザに提示する
処理と、提示した表現に対して提示したルールを不適用
とする指示をユーザから受け付ける処理と、当該指示を
受け付けた場合に提示した表現に対して提示したルール
が不適用となるように当該ルールを変更する処理とを当
該コンピュータに実行させる。
【0020】また、同様に、本発明に係る記憶媒体は、
コンピュータに実行させるプログラムを当該コンピュー
タの入力手段が読取可能に記憶しており、第1キーワー
ド群に含まれる第1キーワードに該当する語と第2キー
ワード群に含まれる第2キーワードに該当する語とが所
定の関係をもって出現する表現から所定のキーワードを
抽出するルールに基づいて文書からキーワードを抽出す
るキーワード抽出装置の当該ルールを精製することを支
援するために用いられ、当該プログラムは、ルールで規
定される第1キーワード及び第2キーワード及び関係の
内の2つのみに適合した表現及び当該ルールをユーザに
提示する処理と、提示した表現に対して提示したルール
を適用する指示をユーザから受け付ける処理と、当該指
示を受け付けた場合に提示した表現に対して提示したル
ールが適用されるように当該ルールを変更する処理とを
当該コンピュータに実行させる。
【0021】
【発明の実施の形態】本発明に係る実施例を図面を参照
して説明する。まず、本発明の適用対象となるキーワー
ド抽出装置の一例を示しておく。なお、キーワード抽出
装置では例えばテキストを含む文書から予め用意された
キーワード抽出ルールとシソーラスを用いてその文書の
特徴を示すキーワードを自動抽出することが行われ、本
発明に係るキーワード抽出ルール精製装置ではこのよう
なキーワード抽出ルールの精製を支援することを行う。
ここで、キーワード抽出ルールは表現パターンに基づく
ものであり、係り受け関係などを利用することができ
る。以下では、係り受け関係を用いた場合を例として説
明を行う。
【0022】図11には、係り受け関係を用いた場合に
おけるキーワード抽出装置の構成例を示してあり、この
キーワード抽出装置では、文書群保持装置1がキーワー
ド抽出ルール生成の対象となる文書群を保持し、係り受
け解析装置2が文書群保持装置1によって保持される文
書に対して係り受け解析処理を施し、パターンマッチン
グ装置3が係り受け解析結果に対してキーワード抽出ル
ール保持装置4によって保持されるキーワード抽出ルー
ルとのパターンマッチングを行う。また、キーワード抽
出ルール保持装置4は予め用意されたキーワード抽出ル
ールを保持しており、シソーラス5は語の階層構造をデ
ータとして保持している。
【0023】次に、本発明の第1実施例に係るキーワー
ド抽出ルール精製支援装置を説明する。なお、本例で
は、ルールの制約を強化することを支援する装置(キー
ワード抽出ルール制約強化支援装置)を示す。図1に
は、本例に係るキーワード抽出ルール精製支援装置を組
み込んだキーワード抽出装置の一例を示してあり、この
装置には、例えば上記図11に示したものと同様な機能
を有する文書群保持装置1や係り受け解析装置2やパタ
ーンマッチング装置3やキーワード抽出ルール保持装置
4やシソーラス5と、本例の特徴的な構成部分であるキ
ーワード抽出ルール制約強化装置6とが備えられてい
る。なお、上記図11に示したものと同様な機能を有す
る構成部分1〜5については、同図に示したのと同じ符
号を用いて示してある。
【0024】文書群保持装置1は、例えばルール精製の
対象となる文書群の入力を受け、それを保持する機能を
有している。本例では、文書群は複数の文書からなり、
各文書はテキストを含む。また、テキストは1個以上の
文によって構成される。以下では、次の文1〜文4を各
々含む文書1〜文書4を適用して「問題」を示すキーワ
ードを抽出ルールによって抽出する場合を例として示
す。なお、この場合、各々のテキストの各形態素の要素
位置は図2に示した通りであるとする。
【0025】 文1:ヨコの解像はできない。 文2:ヨコの解像はできる。 文3:バインダーののり付け部分にスキマができない。 文4:出力のスタックができない。
【0026】係り受け解析装置2は、例えば文書群保持
装置1によって保持される文書に対して係り受け解析処
理を施して、得られた全ての係り受け関係のデータを保
持する機能を有している。なお、係り受け解析の技術と
しては、例えばキーワード抽出ルールに適合した表現を
発見することができるようなものであれば、種々なもの
が用いられてもよく、一例として、「野村浩郷: 自然言
語処理の基礎技術, 電子情報通信学会編, コロナ社, 19
88.」に開示されている公知の係り受け解析技術を利用
することができる。
【0027】係り側と受け側の要素は一文中の形態素出
現位置で表現され、次の形の組で保持される。 (fp, r, bp) ここで、fpと bpは各々係り側と受け側に関する文書中
での出現位置を示し、rは当該係り側と当該受け側との
間の関係を示す。
【0028】上記した文1の場合には、係り受け関係を
解析することによって得られる係り受け関係は次の2つ
の通りである。なお、“(否)”は、その形態素(ここ
では、“でき”)に続く付属語の表現(ここでは、“な
い”)が否定の意味を持つことを示す。 (1, の, 3) ・・関係1 (3, は, 5(否)) ・・関係2
【0029】また、文2の場合には、係り受け関係を解
析することによって得られる係り受け関係は次の2つの
通りである。 (1, の, 3) ・・関係3 (3, は, 5) ・・関係4
【0030】また、文3の場合には、係り受け関係を解
析することによって得られる係り受け関係は次の4つの
通りである。なお、“無”は、2つの形態素(ここで
は、“のり付け”と“部分”)の間の関係を示す語が無
いことを示す。 (1, の, 3) ・・関係5 (3, (無), 4) ・・関係6 (4, に, 8(否)) ・・関係7 (6, が, 8(否)) ・・関係8
【0031】また、文4の場合には、係り受け関係を解
析することによって得られる係り受け関係は次の2つの
通りである。 (1, の, 3) ・・関係9 (3, が, 5(否)) ・・関係10 また、以上と同様に、各々の文書群の他の文書に対して
もこのような解析処理を施す。
【0032】キーワード抽出ルール保持装置4は、例え
ば予め用意されたキーワード抽出ルールを保持し、キー
ワード抽出ルール制約強化装置6から得られる抽出ルー
ルを既存のキーワード抽出ルールに上書きする機能を有
している。1個のキーワード抽出ルールErは、 Er:(F, R, B) → A の形式で表現され、キーワード抽出ルール保持装置4に
はこの集合が保持される。
【0033】ここで、上記したF, R, B, Aは集合であ
り、以下に、これらの詳細を示す。Fは、係り語の表現
の集合であり、各要素は[c]もしくは“s”で表現され
る。Rは、関係の集合であり、各要素はrで示される。関
係を指定しない場合は「(無)」と表記する。Bは、受け
語の表現の集合であり、各要素は[c]もしくは“s”で表
現される。Aは、キーワード抽出動作の内容であり、各
要素は抽出する語の位置を示す。具体的には、係り語を
抽出する場合にはfであり、受け語を抽出する場合にはb
である。また、上記したcはシソーラスに含まれる概念
名を示し、上記したsは表層を示す。
【0034】なお、本実施例に言うキーワード抽出ルー
ルが本発明に言うルールに相当し、本実施例に言うFやB
やRがそれぞれ本発明に言う第1キーワード群や第2キ
ーワード群や所定の関係に相当し、本実施例に言うFの
各要素やBの各要素がそれぞれ本発明に言う第1キーワ
ードや第2キーワードに相当し、本実施例に言うAによ
り抽出されるキーワードが本発明に言う所定のキーワー
ドに相当する。
【0035】シソーラス5は、例えば語の階層構造を表
現する機能を有しており、この構造は、例えば概念の木
構造のノードにその概念に属する語の集合が更に付随す
る構造を有している。本実施例では、図3に示されるシ
ソーラスT1が用いられる場合を示す。
【0036】パターンマッチング装置3は、例えばキー
ワード抽出ルール保持装置4によって保持されるキーワ
ード抽出ルールを用いて、係り受け解析装置2から得ら
れる全ての係り受け関係に対して順次当該キーワード抽
出ルールとのパターンマッチングを行う機能を有してい
る。また、パターンマッチング装置3は、パターンがマ
ッチした場合(つまり、キーワード抽出ルールに適合し
た係り受けの表現が発見された場合)には、そのときの
係り受けをマッチ表現として、適用したキーワード抽出
ルールと共に出力する機能を有している。
【0037】ここで、上記したキーワード抽出ルール保
持装置4が次のキーワード抽出ルールEr1を保持する場
合を例として考える。 Er1:({[印字品質], [サービス]}, {が, は}, {“でき
(否)”}) → {f} 例えば上記した文1の関係2(「解像はできない」)は問
題を示す表現である。これに対してEr1を適用すると、
シソーラスT1より係り語「解像」は概念「印字品質」に
属し、関係は「は」であり、受け語は「でき(否)」で
あるので、Er1にマッチし、係り語「解像」を概念「印
字品質」のキーワードとして抽出する。
【0038】また、例えば上記した文2の関係4(「解
像はできる」)は問題を示す表現ではない。これに対し
てEr1を適用すると、シソーラスT1より係り語「解像」
は概念「印字品質」に属し、関係は「は」であるが、受
け語が「できる」であるので、Er1にマッチせず、「解
像」をキーワードとして抽出しない。また、例えば上記
した文3の関係8(「スキマができない」)は問題を示す
表現ではない。しかしながら、これに対してEr1を適用
すると、シソーラスT1より係り語「スキマ」は概念「印
字品質」に属し、関係は「が」であり、受け語は「でき
(否)」であるので、Er1にマッチし、係り語「スキ
マ」を概念「印字品質」のキーワードとして抽出する。
【0039】また、例えば上記した文4の関係10
(「スタックができない」)は問題を示す表現である。こ
れに対してEr1を適用すると、関係は「が」であり、受
け語は「でき(否)」であるが、シソーラスT1より係り語
「スタック」は概念「印字品質」に属さないので、Er1
にマッチせず、「スタック」をキーワードとして抽出し
ない。
【0040】なお、上記したキーワード抽出ルールEr1
を例とすると、[印字品質]や[サービス]が本発明に
言う第1キーワードに相当し、これに該当する「解像」
や「スキマ」が本発明に言う第1キーワードに該当する
語に相当し、同様に、“でき(否)”が本発明に言う第
2キーワードに相当し、これに該当する「でき(否)」
が本発明に言う第2キーワードに該当する語に相当す
る。
【0041】上述のように、上記した文3の関係8
(「スキマができない」)は問題を示す表現ではないにも
関わらず、キーワード抽出ルールEr1とマッチしてしま
うため、「スキマ」を概念「印字品質」(上記図3の例
では、更に「印字エラー」の下)のキーワードとして抽
出してしまう。このマッチングが起こらないようにする
ために、適用したEr1の制約を強化する必要がある。
【0042】そこで、本例では、例えばパターンマッチ
ング装置3からの入力を受けて、キーワード抽出ルール
の制約を強化してキーワード抽出ルール保持装置4の該
当箇所に上書きする機能を有したキーワード抽出ルール
制約強化装置6を備えている。図4には、キーワード抽
出ルール制約強化装置6の内部動作の構成例を示してあ
り、このキーワード抽出ルール制約強化装置6は、本発
明に言う提示手段及び受付手段を構成する制約強化指示
装置11と、本発明に言う制約強化手段を構成する制約
強化精製装置12及び制約強化ルール候補提示装置13
とから構成されている。
【0043】制約強化指示装置11は、キーワード抽出
ルールの制約の強化を行うか否かをユーザに指示させ、
当該指示を受け付ける機能を有している。この制約強化
指示装置11は、例えば図5に示すように、キーワード
抽出ルールの内容及び当該ルールにマッチした表現及び
キーワードの抽出結果を並べて表示する。同図では、上
記したルールEr1を上記した文3の関係8に適用した場
合に抽出されるキーワード「スキマ」を強調表示してい
る。
【0044】このような表示画面をユーザが見て、この
ルールEr1の制約強化を行うべきかを判定し、Yes/Noの
指示を与える。そして、制約強化指示装置11がYesの
指示を受けた場合には後述する制約強化精製装置12や
制約強化ルール候補提示装置13による制約強化処理が
行われ、制約強化指示装置11がNoの指示を受けた場合
にはこのような制約強化処理は行われず、このまま処理
が終了させられて、例えば次のキーワードに関する制約
強化指示装置11による処理へ移行する。
【0045】このように、制約強化指示装置11は、パ
ターンマッチング装置3によって或るキーワード抽出ル
ールと或る表現とがマッチしてキーワードが抽出された
ときに、当該装置3から得られるキーワード抽出ルー
ル、表現、キーワードをユーザに提示し、このキーワー
ドを実際には抽出すべきかどうかのユーザの判断を受け
て、その結果を出力する。そして、抽出すべきではない
と指示された場合にはキーワード抽出ルール、表現、キ
ーワードを制約強化精製装置12へ出力し、抽出すべき
であると指示された場合にはこのキーワードの抽出に関
する一連の処理を終了する。なお、ここで言う抽出すべ
きではないという指示が本発明に言う提示したルールを
不適用とする指示に相当する。
【0046】制約強化精製装置12は、上記した制約強
化指示装置11によりYesの指示を受け付けた場合に、
このキーワード抽出ルールの制約を強化する精製を行う
機能を有している。本例の制約強化精製装置12は、2
つの異なる手法(各々、強化手法1、強化手法2と言う)
によりキーワード抽出ルールの制約を強化する機能を有
している。
【0047】まず、強化手法1を説明する。すなわち、
キーワード抽出ルール Er:(F, R, B) → A に対して、例えば抽出しないようにしたい語が係り語で
ある場合には、当該係り語の概念をfcとすると、制約強
化後のキーワード抽出ルールEraは、 Era:(F−{fc}, R, B) → A となる。
【0048】同様に、例えば抽出しないようにしたい語
が受け語である場合には、当該受け語の概念をbcとする
と、制約強化後のキーワード抽出ルールErbは、 Erb:(F, R, B−{bc}) → A となる。
【0049】具体的に、例えばキーワード抽出ルール保
持装置4が保持するキーワード抽出ルールEr1に対し
て、上記した文3とのマッチングによって当該文3の関
係8(「スキマができない」)とのマッチングを行った場
合には、当該関係8は Er1にマッチして係り語「スキ
マ」が概念「印字品質」のキーワードとして抽出され
る。しかし、実際にはこの表現「スキマができない」は
問題を示す表現ではないので、ユーザは、この抽出を行
わないようにEr1を強化したいと考え、その旨を指示す
る。この場合、抽出しないようにしたい語は係り語であ
るので上記したErが上記したEraへ変更されるような制
約強化を行う。すなわち、Er1から得られる制約強化後
のキーワード抽出ルールEra1は、 Era1:({[サービス]}, {が, は}, {“でき(否)”}) →
{f} となる。
【0050】なお、上記したキーワード抽出ルールEr1
を上記したキーワード抽出ルールEra 1へ変更する場合を
例とすると、上記した「スキマ」が本発明に言う提示し
た表現中の提示したルールに適合する語に相当し、上記
した「印字品質」が当該語に該当するキーワードに相当
し、上記したキーワード抽出ルールEr1で規定される係
り語側のキーワード群が本発明に言う(提示した)ルー
ルで規定される当該語に対応したキーワード群に相当
し、当該キーワード群から当該キーワード「印字品質」
が削除されている。ここで、本例では、係り語側の例を
示したが、受け語側についても同様である。
【0051】このように、強化手法1では、制約強化精
製装置12は、制約強化指示装置11からキーワード抽
出ルール、表現、キーワードの入力を受けて、キーワー
ドの部分(本例のように係り受けの場合には、係り語或
いは受け語)の概念をキーワード抽出ルールから削減す
る方法により当該ルールの制約を強化する。
【0052】次に、強化手法2を説明する。すなわち、
キーワード抽出ルールErに対して、例えば抽出しないよ
うにしたい語が係り語である場合には、当該係り語の概
念fcのm個の下位概念をfcu1, …, fcumとし、これらの
下位概念の中で当該係り語を包含する概念をfcui (1≦i
≦m)とすると、Erの制約強化後のキーワード抽出ルール
Ercは、 Erc:(F−{fc}+{fcu1, …, fcui-1, fcui+1, …, fc
um}, R, B) → A となる。
【0053】同様に、例えば抽出しないようにしたい語
が受け語である場合には、当該受け語の概念bcのn個の
下位概念をbcu1, …, bcunとし、これらの下位概念の中
で当該受け語を包含する概念をbcuj (1≦j≦n)とする
と、Erの制約強化後のキーワード抽出ルールErdは、 Erd:(F, R, B−{bc}+{bcu1, …, bcuj-1, bcuj+1, …,
bcun}) → A となる。
【0054】上記した強化手法1の場合と同様に、例え
ばキーワード抽出ルール保持装置4がキーワード抽出ル
ールEr1を保持し、上記した文3とのマッチングによっ
て当該文3の関係8(「スキマができない」)とのマッチ
ングを行った場合には、抽出しないようにしたい語は係
り語「スキマ」となるので、上記したErが上記したErc
へ変更されるような制約強化を行う。具体的には、概念
「印字品質」の下位概念は「印字状態」と「印字エラ
ー」であり、「スキマ」は「印字エラー」に属している
ので、概念「印字エラー」を削除する。すなわち、Er1
から得られる制約強化後のキーワード抽出ルールErc
1は、 Erc1:({[印字状態], [サービス]}, {が, は}, {“でき
(否)”}) → {f} となる。
【0055】なお、上記したキーワード抽出ルールEr1
を上記したキーワード抽出ルールErc 1へ変更する場合を
例とすると、上記した「印字状態」及び「印字エラー」
が本発明に言う下位概念の複数のキーワードに相当し、
これら下位概念の複数のキーワード中の「印字エラー」
が本発明に言う下位概念の複数のキーワードの中で(ル
ールに適合した)語に該当するキーワードに相当し、当
該語に該当した元々のキーワード「印字品質」が下位概
念の中で当該語に該当しない「印字状態」へ置き換えら
れている。ここで、本例では、係り語側の例を示した
が、受け語側についても同様である。
【0056】このように、強化手法2では、制約強化精
製装置12は、制約強化指示装置11からキーワード抽
出ルール、表現、キーワードの入力を受けて、キーワー
ドの部分(本例のように係り受けの場合には、係り語或
いは受け語)の概念をシソーラスを用いて下位概念に展
開した上で、当該部分が属する下位概念のみをキーワー
ド抽出ルールから削減する方法により当該ルールの制約
を強化する。
【0057】制約強化ルール候補提示装置13は、上記
した制約強化精製装置12によって精製された制約強化
後のキーワード抽出ルールの候補(本例では、強化手法
1により生成されるルール及び強化手法2により生成さ
れるルール)をユーザに提示し、ユーザが提示された候
補の中から1個を選択した場合に、当該選択の指示に従
って上書き処理を行う機能を有している。つまり、制約
強化ルール候補提示装置13では、ユーザにより選択さ
れたルールが制約強化後のキーワード抽出ルールとして
決定され、当該ルールがキーワード抽出ルール保持装置
4中の制約強化前のルールに上書きされる。
【0058】上記と同様に、例えばキーワード抽出ルー
ルEr1を例とすると、この場合の候補は上記したEra1
び上記したErc1となり、例えば図6に示すような内容が
ユーザに対して表示される。同図の例では、各候補の元
ルールEr1に対する変更箇所を強調表示している。例え
ばユーザが同図中の“1”を選択した場合には、Era1
キーワード抽出ルール保持装置4中のEr1に上書きさ
れ、また、例えばユーザが同図中の“元ルール”を選択
した場合には、上書き処理は行われずに、Er1がそのま
まキーワード抽出ルール保持装置4中に残る。
【0059】以上のように、本例のキーワード抽出ルー
ル精製支援装置では、例えばキーワード抽出装置のパタ
ーンマッチング装置3が行うマッチングの結果を受け
て、ユーザの判断や選択に従ってキーワード抽出ルール
の制約を強化していくことができ、これにより、例えば
文書に合わせて既存のキーワード抽出ルールの制約強化
処理を繰り返して行うことによって当該ルールの精製を
実現することができる。
【0060】次に、本発明の第2実施例に係るキーワー
ド抽出ルール精製支援装置を説明する。なお、本例で
は、ルールの制約を緩和することを支援する装置(キー
ワード抽出ルール制約緩和支援装置)を示す。図7に
は、本例に係るキーワード抽出ルール精製支援装置を組
み込んだキーワード抽出装置の一例を示してあり、この
装置には、例えば上記第1実施例の図1に示したものと
同様な機能を有する文書群保持装置1や係り受け解析装
置2やパターンマッチング装置3やキーワード抽出ルー
ル保持装置4やシソーラス5と、本例の特徴的な構成部
分である類似ルール選択装置21及びキーワード抽出ル
ール制約緩和装置22とが備えられている。
【0061】なお、上記図1に示したものと同様な機能
を有する構成部分1〜5については、同図に示したのと
同じ符号を用いて示してある。また、説明の便宜上か
ら、上記第1実施例で示したのと同様な構成について
は、本例では、説明を省略する。
【0062】本例では、キーワード抽出ルール保持装置
4が次のようなキーワード抽出ルールEr2を保持する場
合を例として示す。 Er2:({“丁合い”, [サービス]}, {が, は}, {“でき
(否)”}) → {f} この場合、パターンマッチング装置3が例えば上記した
文4の関係10(「スタックができない」)とキーワード
抽出ルールEr2とのマッチングを取ろうとすると、関係
「が」と受け語「できない」についてはEr2の該当部分
とマッチするが、係り語「スタック」についてはEr2
該当部分とマッチしないため、キーワードは抽出されな
い。
【0063】また、キーワード抽出ルール保持装置4が
保持する他のキーワード抽出ルールも全て上記した関係
10とマッチしない場合には、当該関係10からはキー
ワードが抽出されない。しかし、「スタックができな
い」というのは問題を示す表現であり、「スタック」を
キーワードとして抽出すべきである。
【0064】そこで、本例では、このようなキーワード
の抽出を実現するための構成として、類似ルール選択装
置21やキーワード抽出ルール制約緩和装置22を備え
ている。類似ルール選択装置21は、例えばキーワード
抽出ルール保持装置4が保持する全てのキーワード抽出
ルールと或る表現とがマッチしなかった場合に、その表
現のパターンに近いキーワード抽出ルールをキーワード
抽出ルール保持装置4が保持するキーワード抽出ルール
の中から選択する機能を有している。
【0065】本例のように係り受け関係が用いられてい
る場合には、ここで選択されるキーワード抽出ルール
は、次に示すUmaとUmbとUmcとのいずれかが成立するも
のとなる。Umaは、係り語がマッチせず、関係と受け語
はマッチするキーワード抽出ルールである。Umbは、関
係がマッチせず、係り語と受け語はマッチするキーワー
ド抽出ルールである。Umcは、受け語がマッチせず、係
り語と関係はマッチするキーワード抽出ルールである。
具体的に、上記したEr2と上記した関係10の場合に
は、係り語「スタック」はEr2の係り語部分とマッチし
ないが、関係「が」と受け語「できない」は各々マッチ
するので、上記のUmaに相当する。
【0066】このように、類似ルール選択装置21は、
例えばパターンマッチング装置3によってマッチするキ
ーワード抽出ルールがなかった場合に、表現とキーワー
ド抽出ルールとの間で1箇所(本例のように係り受け関
係の場合には、係り語、関係、受け語のいずれか)以外
が全てマッチする(つまり、他の2個所がマッチする)
ようなキーワード抽出ルールをキーワード抽出ルール保
持装置4に保持されるキーワード抽出ルールの中から選
択し、選択したキーワード抽出ルール及び表現及びマッ
チしなかったために抽出されなかったキーワードをキー
ワード抽出ルール制約緩和装置22へ出力する。
【0067】キーワード抽出ルール制約緩和装置22
は、例えば類似パターン選択装置21からの結果を受
け、キーワード抽出ルールの制約を緩和してキーワード
抽出ルール保持装置4の該当箇所に上書きする機能を有
している。図8には、キーワード抽出ルール制約緩和装
置22の内部動作の構成例を示してあり、このキーワー
ド抽出ルール制約緩和装置22は、例えば上記した類似
ルール選択装置21と共に本発明に言う提示手段を構成
するとともに、本発明に言う受付手段を構成する制約緩
和指示装置31と、本発明に言う制約緩和手段を構成す
る制約緩和精製装置32及び制約緩和ルール候補提示装
置33とから構成されている。
【0068】制約緩和指示装置31は、キーワード抽出
ルールの制約の緩和を行うか否かをユーザに指示させ、
当該指示を受け付ける機能を有している。制約緩和指示
装置31は、例えば図9に示すように、キーワード抽出
ルールの内容及び例えば係り語と受け語とのいずれかが
一致しなかったために当該キーワード抽出ルールとマッ
チしなかった表現及び抽出結果を並べて表示する。
【0069】このような表示画面をユーザが見て、この
ルールEr2の制約緩和を実際に行うべきかを判定し、Yes
/Noの指示を与える。そして、制約緩和指示装置31がY
esの指示を受けた場合には後述する制約緩和精製装置3
2や制約緩和ルール候補提示装置33による制約緩和処
理が行われ、制約緩和指示装置31がNoの指示を受けた
場合にはこのような制約緩和処理は行われず、このまま
処理が終了させられて、例えば次のキーワードに関する
類似ルール選択装置21や制約緩和指示装置31による
処理へ移行する。
【0070】このように、制約緩和指示装置31は、類
似ルール選択装置21から得られる文書、キーワード抽
出ルール、表現、一致しなかった部分の語をユーザに提
示し、この語を実際には抽出すべきかをユーザに判断さ
せ、その結果を出力する。そして、抽出すべきであると
指示された場合にはルール、表現、キーワードを制約緩
和精製装置32へ出力し、抽出すべきでないと指示され
た場合にはこのキーワードの抽出に関する一連の処理を
終了する。なお、ここで言う抽出すべきという指示が本
発明に言う提示したルールを適用する指示に相当する。
【0071】制約緩和精製装置32は、上記した制約緩
和指示装置31によりYesの指示を受け付けた場合に、
このキーワード抽出ルールの制約を緩和する精製を行う
機能を有している。本例の制約緩和精製装置32は、4
つの異なる手法(各々、緩和手法1、緩和手法2、緩和
手法3、緩和手法4と言う)によりキーワード抽出ルー
ルの制約を緩和する機能を有している。
【0072】まず、緩和手法1を説明する。すなわち、
上記したUmaの場合を例とすると、例えば係り語がシソ
ーラス中に存在すればキーワード抽出ルールErに対して
制約緩和を行うことができ、この場合の制約緩和後のキ
ーワード抽出ルールEreは、当該係り語の概念をfcとす
ると、 Ere:(F+{fc}, R, B) → A となる。
【0073】同様に、上記したUmcの場合を例とする
と、例えば受け語がシソーラス中に存在すれば制約緩和
を行うことができ、この場合の制約緩和後のキーワード
抽出ルールErfは、当該受け語の概念をbcとすると、 Erf:(F, R, B+{bc}) → A となる。
【0074】具体的に、例えば上記したEr2が上記した
関係10に関して制約緩和対象として検出された場合
は、上記したUmaの場合に該当し、且つ、係り語はシソ
ーラスT 1中に存在するので、係り語「スタック」の概念
「ソート」を追加した次のような制約緩和後のキーワー
ド抽出ルールEre2が得られる。 Ere2:({“丁合い”, [サービス], [ソート]}, {が,
は}, {“でき(否)”}) →{f}
【0075】なお、上記したキーワード抽出ルールEr2
を上記したキーワード抽出ルールEre 2へ変更する場合を
例とすると、上記した「スタック」が本発明に言う提示
した表現中の提示したルールに不適合であった語に相当
し、上記した[ソート]が本発明に言う当該語の概念を
示すキーワードに相当し、当該キーワード[ソート]が
キーワード抽出ルールに追加されている。ここで、本例
では、係り語がマッチしない場合の例を示したが、受け
語がマッチしない場合についても同様である。
【0076】このように、緩和手法1では、制約緩和精
製装置32は、制約緩和指示装置31からキーワード抽
出ルール、表現、キーワードの入力を受けて、キーワー
ドの部分(本例のように係り受けの場合には、係り語或
いは受け語)の概念をキーワード抽出ルールの該当部分
に追加する方法により当該ルールの制約を緩和する。
【0077】次に、緩和手法2を説明する。すなわち、
上記したUmaの場合を例とすると、例えば係り語がシソ
ーラス中に存在し、且つ、当該係り語の概念fcとキーワ
ード抽出ルールErの係り語部分の或る概念fecとの共通
上位概念があれば、その全ての共通上位概念fccに対し
て、この場合の制約緩和後のキーワード抽出ルールErg
は、 Erg:(F−{fec}+{fcc}, R, B) → A となる。
【0078】同様に、上記したUmcの場合を例とする
と、例えば受け語がシソーラス中に存在し、且つ、当該
受け語の概念bcとErの受け語部分の或る概念becとの共
通上位概念があれば、その全ての共通上位概念bccに対
して、この場合の制約緩和後のキーワード抽出ルールEr
hは、 Erh:(F, R, B−{bec}+{bcc}) → A となる。
【0079】具体的に、例えば上記したキーワード抽出
ルールEr2が上記した関係10に関して制約緩和対象と
して検出された場合は、上記したUmaの場合に該当し、
且つ、係り語はシソーラスT1中に存在する。そして、係
り語「スタック」の概念「ソート」と共通上位概念を持
つ概念「サービス」がEr2の係り語部分に存在し、それ
らの共通上位概念は「症状」及び「問題」の2個とな
る。従って、次の2個の制約緩和後のキーワード抽出ル
ールErg2、Erg2'が得られる。 Erg2:({“丁合い”, [症状]}, {が, は}, {“でき
(否)”}) → {f} Erg2':({“丁合い”, [問題]}, {が, は}, {“でき
(否)”}) → {f}
【0080】なお、上記したキーワード抽出ルールEr2
を上記したキーワード抽出ルールErg 2、Erg2'へ変更す
る場合を例とすると、上記した「サービス」が本発明に
言う(提示した)ルールで規定される(当該ルールに不
適合であった)語に対応したキーワード群中のキーワー
ドに相当し、上記した[症状]や上記した[問題]が本
発明に言う(当該語の概念を示すキーワードと当該キー
ワード群中の当該キーワードとの)共通上位概念を示す
キーワードに相当し、当該キーワード群中の当該キーワ
ード「サービス」が当該共通上位概念を示すキーワード
である[症状]や[問題]に置き換えられている。ここ
で、本例では、係り語がマッチしない場合の例を示した
が、受け語がマッチしない場合についても同様である。
【0081】このように、緩和手法2では、制約緩和精
製装置32は、上位概念の折り畳みによる制約緩和を行
い、具体的には、制約緩和指示装置31からキーワード
抽出ルール、表現、キーワードの入力を受けて、キーワ
ードの部分(本例のように係り受けの場合には、係り語
或いは受け語)の概念とキーワード抽出ルールの該当部
分の概念との共通上位概念に置き換える方法により当該
ルールの制約を緩和する。
【0082】次に、緩和手法3を説明する。すなわち、
上記したUmaの場合を例とすると、例えば係り語をfsと
すると、この場合の制約緩和後のキーワード抽出ルール
Eriは、 Eri:(F+{“fs”}, R, B) → A となる。
【0083】同様に、上記したUmbの場合を例とする
と、例えば関係をrとすると、この場合の制約緩和後の
キーワード抽出ルールErjは、 Erj:(F, R+{r}, B) → A となる。また、上記したUmcの場合を例とすると、例え
ば受け語をbsとすると、この場合の制約緩和後のキーワ
ード抽出ルールErkは、 Erk:(F, R, B+{“bs”}) → A となる。
【0084】具体的に、例えば上記したキーワード抽出
ルールEr2が上記した関係10に関して制約緩和対象と
して検出された場合は、上記したUmaの場合に該当し、
次の制約緩和後のキーワード抽出ルールEri2が得られ
る。 Eri2:({“丁合い”, [サービス], “スタック”},
{が, は}, {“でき(否)”})→ {f} ここで、本例では、係り語がマッチしない場合の例を示
したが、受け語がマッチしない場合についても同様であ
る。
【0085】このように、緩和手法3では、制約緩和精
製装置32は、制約緩和指示装置31からキーワード抽
出ルール、表現、キーワードの入力を受けて、キーワー
ドの部分(本例のように係り受けの場合には、係り語或
いは受け語)の表層をキーワード抽出ルールの該当部分
に追加する方法により当該ルールの制約を緩和する。
【0086】次に、緩和手法4を説明する。すなわち、
上記したUmaの場合を例とすると、例えば係り語fsとキ
ーワード抽出ルールErの係り語部分における或る表層fe
sとがいずれもシソーラス中に存在し、それらの共通(上
位)概念があれば、その全ての共通上位概念fccに対し
て、制約緩和後のキーワード抽出ルールErlは、 Erl:(F−{“fes”}+{[fcc]}, R, B) → A となる。
【0087】同様に、上記したUmcの場合を例とする
と、例えば受け語bsとキーワード抽出ルールErの受け語
部分における或る表層besとがいずれもシソーラス中に
存在し、それらの共通(上位)概念があれば、その全ての
共通上位概念bccに対して、制約緩和後のキーワード抽
出ルールErmは、 Erm:(F, R, B−{“bes”}+{[bcc]}) → A となる。
【0088】具体的に、例えば上記したキーワード抽出
ルールEr2が上記した関係10に関して制約緩和対象と
して検出された場合は、上記したUmaの場合に該当し、
係り語「スタック」とEr2の係り語部分の表層「丁合
い」とはいずれもシソーラスT1中に存在し、それらの共
通(上位)概念「ソート」、「動作」、「症状」、「問
題」があるので、次のような4個の制約緩和後のキーワ
ード抽出ルールErm2、Erm2'、Erm2''、Erm2'''が得られ
る。 Erm2:({[ソート], [サービス]}, {が, は}, {“でき
(否)”}) → {f} Erm2':({[動作], [サービス]}, {が, は}, {“でき
(否)”}) → {f} Erm2'':({[症状], [サービス]}, {が, は}, {“でき
(否)”}) → {f} Erm2''':({[問題], [サービス]}, {が, は}, {“でき
(否)”}) → {f}
【0089】なお、上記したキーワード抽出ルールEr2
を上記したキーワード抽出ルールErm 2、Erm2'、Er
m2''、Erm2'''へ変更する場合を例とすると、上記した
「丁合い」が本発明に言う(提示した)ルールで規定さ
れる(当該ルールに不適合であった)語に対応したキー
ワード群中の表層的なキーワードに相当し、当該キーワ
ード「丁合い」がこれと当該語「スタック」との共通上
位概念を示すキーワードである「ソート」や「動作」や
「症状」や「問題」に置き換えられている。ここで、本
例では、係り語がマッチしない場合の例を示したが、受
け語がマッチしない場合についても同様である。
【0090】このように、緩和手法4では、制約緩和精
製装置32は、表層から概念への変換による制約緩和を
行い、具体的には、制約緩和指示装置31からキーワー
ド抽出ルール、表現、キーワードの入力を受けて、キー
ワードの部分(本例のように係り受けの場合には、係り
語或いは受け語)の表層とキーワード抽出ルールの該当
部分の表層との共通概念に置き換える方法により当該ル
ールの制約を緩和する。
【0091】制約緩和ルール候補提示装置33は、例え
ば上記した制約緩和精製装置32によって精製された制
約緩和後のキーワード抽出ルールの候補(本例では、緩
和手法1により生成されるルール及び緩和手法2により
生成されるルール及び緩和手法3により生成されるルー
ル及び緩和手法4により生成されるルール)をユーザに
提示し、ユーザが提示された候補の中から1個を選択し
た場合に、当該選択の指示に従って上書き処理を行う機
能を有している。つまり、制約緩和ルール候補提示装置
33では、ユーザにより選択されたルールが制約緩和後
のキーワード抽出ルールとして決定され、当該ルールが
キーワード抽出ルール保持装置4中の制約緩和前のルー
ルに上書きされる。
【0092】上記と同様に、例えばキーワード抽出ルー
ルEr2を例とすると、この場合の候補は上記したEre2, E
rg2, Erg2', Eri2, Erm2, Erm2', Erm2'', Erm2'''とな
り、例えば図10に示すような内容がユーザに対して表
示される。例えばユーザが同図中の“1”を選択した場
合には、Ere2がキーワード抽出ルール保持装置4中のEr
2に上書きされ、また、例えばユーザが同図中の“元ル
ール”を選択した場合には、上書き処理は行われずに、
Er2がそのままキーワード抽出ルール保持装置4中に残
る。
【0093】以上のように、本例のキーワード抽出ルー
ル精製支援装置では、例えばキーワード抽出装置のパタ
ーンマッチング装置3が行うマッチングの結果を受け
て、ユーザの判断や選択に従ってキーワード抽出ルール
の制約を緩和していくことができ、これにより、例えば
文書に合わせて既存のキーワード抽出ルールの制約緩和
処理を繰り返して行うことによって当該ルールの精製を
実現することができる。
【0094】次に、本発明の第3実施例に係るキーワー
ド抽出ルール精製支援装置を説明する。本例のキーワー
ド抽出ルール精製支援装置の構成は、例えば上記第1実
施例の図1や上記第2実施例の図7に示したものとほぼ
同様であり、本例では、更に、本発明に言うマージ手段
を構成するマージ機能(図示せず)を備えており、この
マージ機能はキーワード抽出ルールをマージ(統合)す
る機能を有している。
【0095】なお、上記図1や上記図7に示したものと
同様な機能を有する構成部分1〜5については、同図に
示したのと同じ符号を用いて示す。また、説明の便宜上
から、上記第1実施例や上記第2実施例で示したのと同
様な構成については、本例では、説明を省略する。
【0096】本例のマージ機能は、例えばキーワード抽
出ルール保持装置4に保持されるキーワード抽出ルール
のマージを任意の時点で行うことができる機能を有して
おり、以下で、この機能について具体的に説明する。一
例として、キーワード抽出ルール保持装置4によって保
持されるキーワード抽出ルールの中に、次のような2個
のキーワード抽出ルールEr3、 Er4があるとする。 Er3:({[印字状態]}, {が, は}, {“でき(否)”, “し
(否)”}) → {f} Er4:({[印字状態]}, {が, は}, {“な(い)”}) → {f}
【0097】このとき、この2個のキーワード抽出ルー
ルを1個のキーワード抽出ルールにマージすると、ユー
ザによる見易さを改善することができ、マッチングのス
ピードのアップを図ることができ、抽出ルール精製の精
度のアップを図ることができるといった効果を得ること
ができる。具体的には、上記したEr3、Er4をマージして
得られるキーワード抽出ルールEr 34は次のようになる。 Er34:({[印字状態]}, {が, は}, {“でき(否)”, “し
(否)”, “な(い)”}) →{f}
【0098】なお、この場合を例とすると、上記した2
個のキーワード抽出ルールEr3,、Er 4が本発明に言うル
ールで規定される第1キーワード群及び第2キーワード
群及び関係の内の1つのみが異なる複数のルールに相当
し、上記したキーワード抽出ルールEr34が本発明に言う
当該異なる部分を総和した1つのルールに相当する。
【0099】また、他の例として、キーワード抽出ルー
ル保持装置4によって保持されるキーワード抽出ルール
の中に、次のような2個のキーワード抽出ルールEr5、E
r6があるとする。 Er5:({[使い勝手]}, {が, は}, {“悪(い)”}) → {f} Er6:({[サービス]}, {が, は}, {“悪(い)”}) → {f}
【0100】このとき、上記図3に示したシソーラスT1
における「使い勝手」、「サービス」の2個の概念に共
通する上位概念は「症状」であるので、上記したEr5
Er6をマージして得られるキーワード抽出ルールEr56
しては、一例として次のようなものが想定される。 Er56:({[症状]}, {が, は}, {“悪(い)”}) → {f}
【0101】しかしながら、このようなマージを実行す
ると、元々包含されていた「使い勝手」及び「サービ
ス」の他に「故障」や「動作」や「品質」の概念も包含
されることになる。そこで、例えばユーザがこれを認め
る場合には、ユーザからの指示に従って、上記したEr56
をマージされたキーワード抽出ルールとする。一方、ユ
ーザがこれを認めない場合には、ユーザからの指示に従
って、例えば次のキーワード抽出ルールEr56'をマージ
されたキーワード抽出ルールとする。 Er56':({[使い勝手] , [サービス]}, {が, は}, {“悪
(い)”}) → {f}
【0102】なお、この場合を例とすると、上記した2
個のキーワード抽出ルールEr5、Er6が本発明に言うルー
ルで規定される第1キーワード群及び第2キーワード群
及び関係の内の1つのみが異なる複数のルールに相当
し、上記したキーワード抽出ルールEr56や上記したキー
ワード抽出ルールEr56'が本発明に言う当該異なる部分
を総和した1つのルールに相当する。
【0103】ここで、本発明に係るキーワード抽出ルー
ル精製支援装置やキーワード抽出装置の構成としては、
必ずしも以上に示したものに限られず、種々な構成が用
いられてもよい。例えば、以上の実施例では、説明の便
宜上から、上記第1実施例においてキーワード抽出ルー
ルの制約を強化する機能を備えた装置を示す一方、上記
第2実施例においてキーワード抽出ルールの制約を緩和
する機能を備えた装置を示したが、このような制約強化
機能とこのような制約緩和機能との両方を備えた構成を
用いることも好ましい態様である。
【0104】また、例えば、以上の実施例では、好まし
い態様として、本発明に係るキーワード抽出ルール精製
支援装置やキーワード抽出装置により行われる各種の処
理としては、例えばプロセッサやメモリ等を備えたハー
ドウエア資源においてプロセッサがROMに格納された
制御プログラムを実行することにより制御される構成と
したが、例えば当該処理を実行するための各機能手段を
独立したハードウエア回路として構成することも可能で
ある。
【0105】また、本発明は上記のような制御プログラ
ムを格納したフロッピー(登録商標)ディスクやCD−
ROM等のコンピュータにより読み取り可能な記憶媒体
として把握することもでき、当該制御プログラムを記憶
媒体からコンピュータに入力してプロセッサに実行させ
ることにより、本発明に係る処理を遂行させることがで
きる。
【0106】
【発明の効果】以上説明したように、本発明に係るキー
ワード抽出ルール精製支援装置や記憶媒体によると、例
えばキーワードを抽出すべきでないのに或るキーワード
抽出ルールとマッチしてしまうような場合であっても、
そのルールの制約を強化してマッチしないようにするこ
とができ、また、例えばキーワードを抽出すべきである
のにマッチするキーワード抽出ルールが存在しないよう
な場合であっても、その表現に近いキーワード抽出ルー
ルの制約を緩和してマッチするようにすることができ
る。こうしたことから、例えば文書に合わせて既存のキ
ーワード抽出ルールの制約強化処理や制約緩和処理を繰
り返して行うことによって、キーワード抽出ルールの精
製を実現することができる。
【図面の簡単な説明】
【図1】本発明の第1実施例に係るキーワード抽出ルー
ル精製支援装置を適用したキーワード抽出装置の一例を
示す図である。
【図2】形態素の要素位置の一例を示す図である。
【図3】シソーラスのデータの一例を示す図である。
【図4】キーワード抽出ルール制約強化装置の構成例を
示す図である。
【図5】制約強化指示装置による表示例を示す図であ
る。
【図6】制約強化ルール候補提示装置による表示例を示
す図である。
【図7】本発明の第2実施例に係るキーワード抽出ルー
ル精製支援装置を適用したキーワード抽出装置の一例を
示す図である。
【図8】キーワード抽出ルール制約緩和装置の構成例を
示す図である。
【図9】制約緩和指示装置による表示例を示す図であ
る。
【図10】制約緩和ルール候補提示装置による表示例を
示す図である。
【図11】キーワード抽出装置の一例を示す図である。
【符号の説明】
1・・文書群保持装置、 2・・係り受け解析装置、3
・・パターンマッチング装置、 4・・キーワード抽出
ルール保持装置、5・・シソーラス、 6・・キーワー
ド抽出ルール制約強化装置、11・・制約強化指示装
置、 12・・制約強化精製装置、13・・制約強化ル
ール候補提示装置、 21・・類似ルール選択装置、2
2・・キーワード抽出ルール制約緩和装置、 31・・
制約緩和指示装置、32・・制約緩和精製装置、 33
・・制約緩和ルール候補提示装置、

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 第1キーワード群に含まれる第1キーワ
    ードに該当する語と第2キーワード群に含まれる第2キ
    ーワードに該当する語とが所定の関係をもって出現する
    表現から所定のキーワードを抽出するルールに基づいて
    文書からキーワードを抽出するキーワード抽出装置の当
    該ルールを精製することを支援するキーワード抽出ルー
    ル精製支援装置であって、 ルールに適合した表現及び当該ルールをユーザに提示す
    る提示手段と、 提示した表現に対して提示したルールを不適用とする指
    示をユーザから受け付ける受付手段と、 当該指示を受け付けた場合に、提示した表現に対して提
    示したルールが不適用となるように当該ルールを変更す
    る制約強化手段と、 を備えたことを特徴とするキーワード抽出ルール精製支
    援装置。
  2. 【請求項2】 請求項1に記載のキーワード抽出ルール
    精製支援装置において、 制約強化手段は、提示した表現中の提示したルールに適
    合する語に該当するキーワードを当該ルールで規定され
    る当該語に対応したキーワード群から削除することによ
    り、提示した表現に対して提示したルールが不適用とな
    るようにすることを特徴とするキーワード抽出ルール精
    製支援装置。
  3. 【請求項3】 請求項1に記載のキーワード抽出ルール
    精製支援装置において、 制約強化手段は、提示した表現中の提示したルールに適
    合する語に該当するキーワードを下位概念の複数のキー
    ワードへ変換し、これら下位概念の複数のキーワードの
    中で当該語に該当するキーワードを当該ルールで規定さ
    れる当該語に対応したキーワード群から削除することに
    より、提示した表現に対して提示したルールが不適用と
    なるようにすることを特徴とするキーワード抽出ルール
    精製支援装置。
  4. 【請求項4】 第1キーワード群に含まれる第1キーワ
    ードに該当する語と第2キーワード群に含まれる第2キ
    ーワードに該当する語とが所定の関係をもって出現する
    表現から所定のキーワードを抽出するルールに基づいて
    文書からキーワードを抽出するキーワード抽出装置の当
    該ルールを精製することを支援するキーワード抽出ルー
    ル精製支援装置であって、 ルールで規定される第1キーワード及び第2キーワード
    及び関係の内の2つのみに適合した表現及び当該ルール
    をユーザに提示する提示手段と、 提示した表現に対して提示したルールを適用する指示を
    ユーザから受け付ける受付手段と、 当該指示を受け付けた場合に、提示した表現に対して提
    示したルールが適用されるように当該ルールを変更する
    制約緩和手段と、 を備えたことを特徴とするキーワード抽出ルール精製支
    援装置。
  5. 【請求項5】 請求項4に記載のキーワード抽出ルール
    精製支援装置において、 制約緩和手段は、提示した表現中の提示したルールに不
    適合であった語の概念を示すキーワードを当該ルールで
    規定される当該語に対応したキーワード群に追加するこ
    とにより、提示した表現に対して提示したルールが適用
    されるようにすることを特徴とするキーワード抽出ルー
    ル精製支援装置。
  6. 【請求項6】 請求項4に記載のキーワード抽出ルール
    精製支援装置において、 制約緩和手段は、提示した表現中の提示したルールに不
    適合であった語の概念を示すキーワードと当該ルールで
    規定される当該語に対応したキーワード群中のキーワー
    ドとの共通上位概念を示すキーワードに当該キーワード
    群中の当該キーワードを置き換えることにより、提示し
    た表現に対して提示したルールが適用されるようにする
    ことを特徴とするキーワード抽出ルール精製支援装置。
  7. 【請求項7】 請求項4に記載のキーワード抽出ルール
    精製支援装置において、 制約緩和手段は、提示した表現中の提示したルールに不
    適合であった語を当該ルールで規定される当該語に対応
    したキーワード群に追加することにより、提示した表現
    に対して提示したルールが適用されるようにすることを
    特徴とするキーワード抽出ルール精製支援装置。
  8. 【請求項8】 請求項4に記載のキーワード抽出ルール
    精製支援装置において、 制約緩和手段は、提示した表現中の提示したルールに不
    適合であった語と当該ルールで規定される当該語に対応
    したキーワード群中の表層的なキーワードとの共通上位
    概念を示すキーワードに当該表層的なキーワードを置き
    換えることにより、提示した表現に対して提示したルー
    ルが適用されるようにすることを特徴とするキーワード
    抽出ルール精製支援装置。
  9. 【請求項9】 請求項1乃至請求項8のいずれか1項に
    記載のキーワード抽出ルール精製支援装置において、 ルールで規定される第1キーワード群及び第2キーワー
    ド群及び関係の内の1つのみが異なる複数のルールを、
    当該異なる部分を総和した1つのルールへ変換するマー
    ジ手段を備えたことを特徴とするキーワード抽出ルール
    精製支援装置。
  10. 【請求項10】 コンピュータに実行させるプログラム
    を当該コンピュータの入力手段が読取可能に記憶した記
    憶媒体において、 第1キーワード群に含まれる第1キーワードに該当する
    語と第2キーワード群に含まれる第2キーワードに該当
    する語とが所定の関係をもって出現する表現から所定の
    キーワードを抽出するルールに基づいて文書からキーワ
    ードを抽出するキーワード抽出装置の当該ルールを精製
    することを支援するために用いられ、 当該プログラムは、ルールに適合した表現及び当該ルー
    ルをユーザに提示する処理と、 提示した表現に対して提示したルールを不適用とする指
    示をユーザから受け付ける処理と、 当該指示を受け付けた場合に、提示した表現に対して提
    示したルールが不適用となるように当該ルールを変更す
    る処理とを当該コンピュータに実行させることを特徴と
    する記憶媒体。
  11. 【請求項11】 コンピュータに実行させるプログラム
    を当該コンピュータの入力手段が読取可能に記憶した記
    憶媒体において、 第1キーワード群に含まれる第1キーワードに該当する
    語と第2キーワード群に含まれる第2キーワードに該当
    する語とが所定の関係をもって出現する表現から所定の
    キーワードを抽出するルールに基づいて文書からキーワ
    ードを抽出するキーワード抽出装置の当該ルールを精製
    することを支援するために用いられ、 当該プログラムは、ルールで規定される第1キーワード
    及び第2キーワード及び関係の内の2つのみに適合した
    表現及び当該ルールをユーザに提示する処理と、 提示した表現に対して提示したルールを適用する指示を
    ユーザから受け付ける処理と、 当該指示を受け付けた場合に、提示した表現に対して提
    示したルールが適用されるように当該ルールを変更する
    処理とを当該コンピュータに実行させることを特徴とす
    る記憶媒体。
JP2000114320A 2000-04-14 2000-04-14 キーワード抽出ルール精製支援装置、記憶媒体及びキーワード抽出ルール精製支援方法 Expired - Fee Related JP4042295B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000114320A JP4042295B2 (ja) 2000-04-14 2000-04-14 キーワード抽出ルール精製支援装置、記憶媒体及びキーワード抽出ルール精製支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000114320A JP4042295B2 (ja) 2000-04-14 2000-04-14 キーワード抽出ルール精製支援装置、記憶媒体及びキーワード抽出ルール精製支援方法

Publications (3)

Publication Number Publication Date
JP2001297100A true JP2001297100A (ja) 2001-10-26
JP2001297100A5 JP2001297100A5 (ja) 2005-04-14
JP4042295B2 JP4042295B2 (ja) 2008-02-06

Family

ID=18626141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000114320A Expired - Fee Related JP4042295B2 (ja) 2000-04-14 2000-04-14 キーワード抽出ルール精製支援装置、記憶媒体及びキーワード抽出ルール精製支援方法

Country Status (1)

Country Link
JP (1) JP4042295B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006323517A (ja) * 2005-05-17 2006-11-30 Mitsubishi Electric Corp テキスト分類装置およびプログラム
JP2006338133A (ja) * 2005-05-31 2006-12-14 Ntt Data Corp 情報抽出装置、情報抽出方法及びプログラム
WO2007108529A1 (ja) * 2006-03-23 2007-09-27 Nec Corporation 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
JP2008008954A (ja) * 2006-06-27 2008-01-17 Sony Ericsson Mobilecommunications Japan Inc 携帯情報端末
JP2011086167A (ja) * 2009-10-16 2011-04-28 Nomura Research Institute Ltd 情報抽出ルール作成支援システム
JP2014096164A (ja) * 2010-12-30 2014-05-22 Facebook Inc グラフ・データのコンポジットタームインデックス方法、コンピュータ可読媒体、およびシステム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006323517A (ja) * 2005-05-17 2006-11-30 Mitsubishi Electric Corp テキスト分類装置およびプログラム
JP2006338133A (ja) * 2005-05-31 2006-12-14 Ntt Data Corp 情報抽出装置、情報抽出方法及びプログラム
JP4694258B2 (ja) * 2005-05-31 2011-06-08 株式会社エヌ・ティ・ティ・データ 情報抽出装置、情報抽出方法及びプログラム
WO2007108529A1 (ja) * 2006-03-23 2007-09-27 Nec Corporation 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
JP5083669B2 (ja) * 2006-03-23 2012-11-28 日本電気株式会社 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
US8886661B2 (en) 2006-03-23 2014-11-11 Nec Corporation Information extraction system, information extraction method, information extraction program, and information service system
JP2008008954A (ja) * 2006-06-27 2008-01-17 Sony Ericsson Mobilecommunications Japan Inc 携帯情報端末
JP2011086167A (ja) * 2009-10-16 2011-04-28 Nomura Research Institute Ltd 情報抽出ルール作成支援システム
JP2014096164A (ja) * 2010-12-30 2014-05-22 Facebook Inc グラフ・データのコンポジットタームインデックス方法、コンピュータ可読媒体、およびシステム
US9576060B2 (en) 2010-12-30 2017-02-21 Facebook, Inc. Composite term index for graph data

Also Published As

Publication number Publication date
JP4042295B2 (ja) 2008-02-06

Similar Documents

Publication Publication Date Title
US5590039A (en) Natural language processing apparatus and method for performing processing to analyze the meaning of an input sentence entered in the form of a natural language
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
JPS62163173A (ja) 機械翻訳方法
JPS6140673A (ja) 外国語作文用翻訳方法、および翻訳機
JP2001297100A (ja) キーワード抽出ルール精製支援装置
JPH05120324A (ja) 言語処理方式
JPH05266069A (ja) 中国語と日本語との間の双方向機械翻訳方式
JP3429612B2 (ja) 辞書登録装置及び機械翻訳装置
JP4024137B2 (ja) 数量表現検索装置
JP5879989B2 (ja) 機械翻訳システム、機械翻訳方法および機械翻訳プログラム
JP2778025B2 (ja) 共起関係辞書の学習方法
JP4300056B2 (ja) 概念表現生成方法、プログラム、記憶媒体及び概念表現生成装置
JP4881399B2 (ja) 対訳情報作成装置、機械翻訳装置及びプログラム
JPH10207896A (ja) 検索用語拡張方法及び装置及び情報検索方法及び装置
JP3353647B2 (ja) 機械翻訳システム用辞書・ルール学習装置及び機械翻訳システム用辞書・ルール学習プログラムを格納した記憶媒体
JP2004118461A (ja) 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体
JP2011221662A (ja) 辞書編集装置およびプログラム
JP2004264960A (ja) 用例ベースの文変換装置、およびコンピュータプログラム
JP2006235970A (ja) ソースコード検索装置、ソースコード検索方法、ソースコード検索プログラム、およびソースコード検索プログラムを記録する記録媒体
JP3048793B2 (ja) 文字変換装置
JP5454871B2 (ja) 辞書評価支援装置およびプログラム
JPS63136265A (ja) 機械翻訳装置
JPS59140546A (ja) 予測変換方法
JPH04330565A (ja) 自然言語処理システム
JPH10340264A (ja) 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040602

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040602

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070717

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070914

TRDD Decision of grant or rejection written
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20071003

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071105

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111122

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111122

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121122

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121122

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131122

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees