JP4042295B2 - キーワード抽出ルール精製支援装置、記憶媒体及びキーワード抽出ルール精製支援方法 - Google Patents

キーワード抽出ルール精製支援装置、記憶媒体及びキーワード抽出ルール精製支援方法 Download PDF

Info

Publication number
JP4042295B2
JP4042295B2 JP2000114320A JP2000114320A JP4042295B2 JP 4042295 B2 JP4042295 B2 JP 4042295B2 JP 2000114320 A JP2000114320 A JP 2000114320A JP 2000114320 A JP2000114320 A JP 2000114320A JP 4042295 B2 JP4042295 B2 JP 4042295B2
Authority
JP
Japan
Prior art keywords
keyword
rule
word
presented
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000114320A
Other languages
English (en)
Other versions
JP2001297100A5 (ja
JP2001297100A (ja
Inventor
弘之樹 加藤
良寛 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2000114320A priority Critical patent/JP4042295B2/ja
Publication of JP2001297100A publication Critical patent/JP2001297100A/ja
Publication of JP2001297100A5 publication Critical patent/JP2001297100A5/ja
Application granted granted Critical
Publication of JP4042295B2 publication Critical patent/JP4042295B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、例えば表現のパターンマッチングにより文書中からキーワードを抽出するキーワード抽出装置で用いられるキーワード抽出ルールの精製(強化及び緩和)を支援するキーワード抽出ルール精製支援装置や記憶媒体やキーワード抽出ルール精製支援方法に関する。
【0002】
【従来の技術】
例えばパターンやキーワード抽出ルールの生成を行う技術として、次のようなものがある。
一例として、特開平7−262189号公報(以下、文献1と言う)に記載された文型パタン抽出装置では、テキストから文型パターンを抽出して統合する。ここでの文型とは出現順のパターンである。
【0003】
また、例えば特開平9−6796号公報(以下、文献2と言う)に記載された照合パターン生成方法及び装置では、或る目的に対してユーザが適合/不適合の判断を与え、各々の文書集合からパターンを自動抽出する。
また、特開平10−21249号公報(以下、文献3と言う)に記載されたキーワード抽出ルール生成方法では、文書を構造化するために用いるキーワードの抽出ルールを自動生成し、与えられた出力書式定義から抽出する文字列の条件を自動生成する。
【0004】
ここで、上記文献1に記載された技術は、文書からパターンを抽出するものである。パターンを抽出するのみであり、それがどのようなことを意図するパターンであるかは示されない。パターンの統合は複数のルールのマージであり、精製をしているわけではない。
また、上記文献2に記載された技術は、或る視点に対してユーザが適合/不適合の判断を与え、適合文書の集合と不適合文書の集合からパターンを自動生成するものである。しかし、この技術によって得られたパターンは或る視点のみに特化されたものであり、その視点のみに固有のものである保証はなく、しかもキーワードを抽出できるものではない。
【0005】
また、上記文献3に記載された技術は、文書を構造化するためのキーワード抽出ルール生成技術であるが、ルールは語の出現順に依存するものである。あくまでも名前、日時などの構造を構成する属性毎のキーワード抽出であり、「問題」「要望」など視点別のキーワードを抽出するものではない。また、既存ルールを後の文書に合わせて精製することはできない。
以上のように、パターンやキーワード抽出ルールを自動で生成する技術はあるが、随時その精度が上がるような補正を支援する技術はない。
【0006】
【発明が解決しようとする課題】
上記従来例で示したように、従来では、キーワード抽出装置で用いられるキーワード抽出ルールの精製(強化及び緩和)を支援する技術がなかったため、一旦生成されたキーワード抽出ルールの精度を向上させることができないといった不具合があり、具体的には、例えばキーワード抽出装置における視点別、意味的なキーワードの抽出ルールに対して、文書に応じた精製の支援ができないといった不具合があった。
【0007】
本発明は、上記のような従来の事情を鑑みてなされたもので、例えば表現のパターンマッチングにより文書中からキーワードを抽出するキーワード抽出装置で用いられるキーワード抽出ルールの精製(強化及び緩和)を支援することができるキーワード抽出ルール精製支援装置や記憶媒体やキーワード抽出ルール精製支援方法を提供することを目的とする。
【0008】
【課題を解決するための手段】
上記目的を達成するため、本発明に係るキーワード抽出ルール精製支援装置では、次のようにして、所定のルールに基づいて文書からキーワードを抽出するキーワード抽出装置の当該ルールを精製することを支援する。ここで、ルールは、第1キーワード群に含まれる第1キーワードに該当する語と第2キーワード群に含まれる第2キーワードに該当する語とが所定の関係をもって出現する文書中の表現から所定のキーワードを抽出することを規定する。
【0009】
すなわち、提示手段がルールに適合した表現及び当該ルールをユーザに提示し、受付手段が提示した表現に対して提示したルールを不適用とする指示をユーザから受け付け、当該指示を受け付けた場合には、制約強化手段が提示した表現に対して提示したルールが不適用となるように当該ルールを変更する。
従って、例えばユーザが提示された表現に対して提示されたルールを不適用とする旨を判断した場合には、当該ユーザからのこのような指示に合うように当該ルールが変更されるため、ルールを強化する方向での当該ルールの精製を支援することができる。
【0010】
また、好ましい態様として、上記のようなキーワード抽出ルール精製支援装置では、制約強化手段は、提示した表現中の提示したルールに適合する語に該当するキーワードを当該ルールで規定される当該語に対応したキーワード群から削除することにより、提示した表現に対して提示したルールが不適用となるようにする。
【0011】
また、他の好ましい態様として、上記のようなキーワード抽出ルール精製支援装置では、制約強化手段は、提示した表現中の提示したルールに適合する語に該当するキーワードを下位概念の複数のキーワードへ変換し、これら下位概念の複数のキーワードの中で当該語に該当するキーワードを当該ルールで規定される当該語に対応したキーワード群から削除することにより、提示した表現に対して提示したルールが不適用となるようにする。
【0012】
また、本発明に係るキーワード抽出ルール精製支援装置では、次のようにして、所定のルールに基づいて文書からキーワードを抽出するキーワード抽出装置の当該ルールを精製することを支援する。ここで、ルールは、第1キーワード群に含まれる第1キーワードに該当する語と第2キーワード群に含まれる第2キーワードに該当する語とが所定の関係をもって出現する文書中の表現から所定のキーワードを抽出することを規定する。
【0013】
すなわち、提示手段がルールで規定される第1キーワード及び第2キーワード及び関係の内の2つのみに適合した表現及び当該ルールをユーザに提示し、受付手段が提示した表現に対して提示したルールを適用する指示をユーザから受け付け、当該指示を受け付けた場合には、制約緩和手段が提示した表現に対して提示したルールが適用されるように当該ルールを変更する。
従って、例えばユーザが提示された表現に対して提示されたルールを適用する旨を判断した場合には、当該ユーザからのこのような指示に合うように当該ルールが変更されるため、ルールを緩和する方向での当該ルールの精製を支援することができる。
【0014】
また、好ましい態様として、本発明に係るキーワード抽出ルール精製支援装置では、制約緩和手段は、提示した表現中の提示したルールに不適合であった語の概念を示すキーワードを当該ルールで規定される当該語に対応したキーワード群に追加することにより、提示した表現に対して提示したルールが適用されるようにする。
【0015】
また、他の好ましい態様として、本発明に係るキーワード抽出ルール精製支援装置では、制約緩和手段は、提示した表現中の提示したルールに不適合であった語の概念を示すキーワードと当該ルールで規定される当該語に対応したキーワード群中のキーワードとの共通上位概念を示すキーワードに当該キーワード群中の当該キーワードを置き換えることにより、提示した表現に対して提示したルールが適用されるようにする。
【0016】
また、他の好ましい態様として、本発明に係るキーワード抽出ルール精製支援装置では、制約緩和手段は、提示した表現中の提示したルールに不適合であった語を当該ルールで規定される当該語に対応したキーワード群に追加することにより、提示した表現に対して提示したルールが適用されるようにする。
【0017】
また、他の好ましい態様として、本発明に係るキーワード抽出ルール精製支援装置では、制約緩和手段は、提示した表現中の提示したルールに不適合であった語と当該ルールで規定される当該語に対応したキーワード群中の表層的なキーワードとの共通上位概念を示すキーワードに当該表層的なキーワードを置き換えることにより、提示した表現に対して提示したルールが適用されるようにする。
【0018】
また、本発明に係るキーワード抽出ルール精製支援装置では、マージ手段がルールで規定される第1キーワード群及び第2キーワード群及び関係の内の1つのみが異なる複数のルールを、当該異なる部分を総和した1つのルールへ変換する。
従って、例えば複数のルールの内容を実質的に変更することなく、これら複数のルールを1つのルールへ置き換えることができるため、ルールを整理して当該ルールを記憶するメモリの記憶容量を削減すること等ができる。
【0019】
また、以上に示したような本発明に係る各種の処理は、例えば記憶媒体に記憶されたプログラムをコンピュータにより読み取って実行することにより実現することも可能である。
一例として、本発明に係る記憶媒体は、コンピュータに実行させるプログラムを当該コンピュータの入力手段が読取可能に記憶しており、第1キーワード群に含まれる第1キーワードに該当する語と第2キーワード群に含まれる第2キーワードに該当する語とが所定の関係をもって出現する表現から所定のキーワードを抽出するルールに基づいて文書からキーワードを抽出するキーワード抽出装置の当該ルールを精製することを支援するために用いられ、当該プログラムは、ルールに適合した表現及び当該ルールをユーザに提示する処理と、提示した表現に対して提示したルールを不適用とする指示をユーザから受け付ける処理と、当該指示を受け付けた場合に提示した表現に対して提示したルールが不適用となるように当該ルールを変更する処理とを当該コンピュータに実行させる。
【0020】
また、同様に、本発明に係る記憶媒体は、コンピュータに実行させるプログラムを当該コンピュータの入力手段が読取可能に記憶しており、第1キーワード群に含まれる第1キーワードに該当する語と第2キーワード群に含まれる第2キーワードに該当する語とが所定の関係をもって出現する表現から所定のキーワードを抽出するルールに基づいて文書からキーワードを抽出するキーワード抽出装置の当該ルールを精製することを支援するために用いられ、当該プログラムは、ルールで規定される第1キーワード及び第2キーワード及び関係の内の2つのみに適合した表現及び当該ルールをユーザに提示する処理と、提示した表現に対して提示したルールを適用する指示をユーザから受け付ける処理と、当該指示を受け付けた場合に提示した表現に対して提示したルールが適用されるように当該ルールを変更する処理とを当該コンピュータに実行させる。
また、本発明は、キーワード抽出ルール精製支援方法として提供することもできる。
【0021】
【発明の実施の形態】
本発明に係る実施例を図面を参照して説明する。
まず、本発明の適用対象となるキーワード抽出装置の一例を示しておく。なお、キーワード抽出装置では例えばテキストを含む文書から予め用意されたキーワード抽出ルールとシソーラスを用いてその文書の特徴を示すキーワードを自動抽出することが行われ、本発明に係るキーワード抽出ルール精製装置ではこのようなキーワード抽出ルールの精製を支援することを行う。ここで、キーワード抽出ルールは表現パターンに基づくものであり、係り受け関係などを利用することができる。以下では、係り受け関係を用いた場合を例として説明を行う。
【0022】
図11には、係り受け関係を用いた場合におけるキーワード抽出装置の構成例を示してあり、このキーワード抽出装置では、文書群保持装置1がキーワード抽出ルール生成の対象となる文書群を保持し、係り受け解析装置2が文書群保持装置1によって保持される文書に対して係り受け解析処理を施し、パターンマッチング装置3が係り受け解析結果に対してキーワード抽出ルール保持装置4によって保持されるキーワード抽出ルールとのパターンマッチングを行う。また、キーワード抽出ルール保持装置4は予め用意されたキーワード抽出ルールを保持しており、シソーラス5は語の階層構造をデータとして保持している。
【0023】
次に、本発明の第1実施例に係るキーワード抽出ルール精製支援装置を説明する。なお、本例では、ルールの制約を強化することを支援する装置(キーワード抽出ルール制約強化支援装置)を示す。
図1には、本例に係るキーワード抽出ルール精製支援装置を組み込んだキーワード抽出装置の一例を示してあり、この装置には、例えば上記図11に示したものと同様な機能を有する文書群保持装置1や係り受け解析装置2やパターンマッチング装置3やキーワード抽出ルール保持装置4やシソーラス5と、本例の特徴的な構成部分であるキーワード抽出ルール制約強化装置6とが備えられている。なお、上記図11に示したものと同様な機能を有する構成部分1〜5については、同図に示したのと同じ符号を用いて示してある。
【0024】
文書群保持装置1は、例えばルール精製の対象となる文書群の入力を受け、それを保持する機能を有している。本例では、文書群は複数の文書からなり、各文書はテキストを含む。また、テキストは1個以上の文によって構成される。
以下では、次の文1〜文4を各々含む文書1〜文書4を適用して「問題」を示すキーワードを抽出ルールによって抽出する場合を例として示す。なお、この場合、各々のテキストの各形態素の要素位置は図2に示した通りであるとする。
【0025】
文1:ヨコの解像はできない。
文2:ヨコの解像はできる。
文3:バインダーののり付け部分にスキマができない。
文4:出力のスタックができない。
【0026】
係り受け解析装置2は、例えば文書群保持装置1によって保持される文書に対して係り受け解析処理を施して、得られた全ての係り受け関係のデータを保持する機能を有している。なお、係り受け解析の技術としては、例えばキーワード抽出ルールに適合した表現を発見することができるようなものであれば、種々なものが用いられてもよく、一例として、「野村浩郷: 自然言語処理の基礎技術, 電子情報通信学会編, コロナ社, 1988.」に開示されている公知の係り受け解析技術を利用することができる。
【0027】
係り側と受け側の要素は一文中の形態素出現位置で表現され、次の形の組で保持される。
(fp, r, bp)
ここで、fpと bpは各々係り側と受け側に関する文書中での出現位置を示し、rは当該係り側と当該受け側との間の関係を示す。
【0028】
上記した文1の場合には、係り受け関係を解析することによって得られる係り受け関係は次の2つの通りである。なお、“(否)”は、その形態素(ここでは、“でき”)に続く付属語の表現(ここでは、“ない”)が否定の意味を持つことを示す。
(1, の, 3) ・・関係1
(3, は, 5(否)) ・・関係2
【0029】
また、文2の場合には、係り受け関係を解析することによって得られる係り受け関係は次の2つの通りである。
(1, の, 3) ・・関係3
(3, は, 5) ・・関係4
【0030】
また、文3の場合には、係り受け関係を解析することによって得られる係り受け関係は次の4つの通りである。なお、“無”は、2つの形態素(ここでは、“のり付け”と“部分”)の間の関係を示す語が無いことを示す。
(1, の, 3) ・・関係5
(3, (無), 4) ・・関係6
(4, に, 8(否)) ・・関係7
(6, が, 8(否)) ・・関係8
【0031】
また、文4の場合には、係り受け関係を解析することによって得られる係り受け関係は次の2つの通りである。
(1, の, 3) ・・関係9
(3, が, 5(否)) ・・関係10
また、以上と同様に、各々の文書群の他の文書に対してもこのような解析処理を施す。
【0032】
キーワード抽出ルール保持装置4は、例えば予め用意されたキーワード抽出ルールを保持し、キーワード抽出ルール制約強化装置6から得られる抽出ルールを既存のキーワード抽出ルールに上書きする機能を有している。
1個のキーワード抽出ルールErは、
Er:(F, R, B) → A
の形式で表現され、キーワード抽出ルール保持装置4にはこの集合が保持される。
【0033】
ここで、上記したF, R, B, Aは集合であり、以下に、これらの詳細を示す。
Fは、係り語の表現の集合であり、各要素は[c]もしくは“s”で表現される。 Rは、関係の集合であり、各要素はrで示される。関係を指定しない場合は「(無)」と表記する。
Bは、受け語の表現の集合であり、各要素は[c]もしくは“s”で表現される。
Aは、キーワード抽出動作の内容であり、各要素は抽出する語の位置を示す。具体的には、係り語を抽出する場合にはfであり、受け語を抽出する場合にはbである。
また、上記したcはシソーラスに含まれる概念名を示し、上記したsは表層を示す。
【0034】
なお、本実施例に言うキーワード抽出ルールが本発明に言うルールに相当し、本実施例に言うFやBやRがそれぞれ本発明に言う第1キーワード群や第2キーワード群や所定の関係に相当し、本実施例に言うFの各要素やBの各要素がそれぞれ本発明に言う第1キーワードや第2キーワードに相当し、本実施例に言うAにより抽出されるキーワードが本発明に言う所定のキーワードに相当する。
【0035】
シソーラス5は、例えば語の階層構造を表現する機能を有しており、この構造は、例えば概念の木構造のノードにその概念に属する語の集合が更に付随する構造を有している。本実施例では、図3に示されるシソーラスT1が用いられる場合を示す。
【0036】
パターンマッチング装置3は、例えばキーワード抽出ルール保持装置4によって保持されるキーワード抽出ルールを用いて、係り受け解析装置2から得られる全ての係り受け関係に対して順次当該キーワード抽出ルールとのパターンマッチングを行う機能を有している。
また、パターンマッチング装置3は、パターンがマッチした場合(つまり、キーワード抽出ルールに適合した係り受けの表現が発見された場合)には、そのときの係り受けをマッチ表現として、適用したキーワード抽出ルールと共に出力する機能を有している。
【0037】
ここで、上記したキーワード抽出ルール保持装置4が次のキーワード抽出ルールEr1を保持する場合を例として考える。
Er1:({[印字品質], [サービス]}, {が, は}, {“でき(否)”}) → {f}
例えば上記した文1の関係2(「解像はできない」)は問題を示す表現である。これに対してEr1を適用すると、シソーラスT1より係り語「解像」は概念「印字品質」に属し、関係は「は」であり、受け語は「でき(否)」であるので、Er1にマッチし、係り語「解像」を概念「印字品質」のキーワードとして抽出する。
【0038】
また、例えば上記した文2の関係4(「解像はできる」)は問題を示す表現ではない。これに対してEr1を適用すると、シソーラスT1より係り語「解像」は概念「印字品質」に属し、関係は「は」であるが、受け語が「できる」であるので、Er1にマッチせず、「解像」をキーワードとして抽出しない。
また、例えば上記した文3の関係8(「スキマができない」)は問題を示す表現ではない。しかしながら、これに対してEr1を適用すると、シソーラスT1より係り語「スキマ」は概念「印字品質」に属し、関係は「が」であり、受け語は「でき(否)」であるので、Er1にマッチし、係り語「スキマ」を概念「印字品質」のキーワードとして抽出する。
【0039】
また、例えば上記した文4の関係10(「スタックができない」)は問題を示す表現である。これに対してEr1を適用すると、関係は「が」であり、受け語は「でき(否)」であるが、シソーラスT1より係り語「スタック」は概念「印字品質」に属さないので、Er1にマッチせず、「スタック」をキーワードとして抽出しない。
【0040】
なお、上記したキーワード抽出ルールEr1を例とすると、[印字品質]や[サービス]が本発明に言う第1キーワードに相当し、これに該当する「解像」や「スキマ」が本発明に言う第1キーワードに該当する語に相当し、同様に、“でき(否)”が本発明に言う第2キーワードに相当し、これに該当する「でき(否)」が本発明に言う第2キーワードに該当する語に相当する。
【0041】
上述のように、上記した文3の関係8(「スキマができない」)は問題を示す表現ではないにも関わらず、キーワード抽出ルールEr1とマッチしてしまうため、「スキマ」を概念「印字品質」(上記図3の例では、更に「印字エラー」の下)のキーワードとして抽出してしまう。このマッチングが起こらないようにするために、適用したEr1の制約を強化する必要がある。
【0042】
そこで、本例では、例えばパターンマッチング装置3からの入力を受けて、キーワード抽出ルールの制約を強化してキーワード抽出ルール保持装置4の該当箇所に上書きする機能を有したキーワード抽出ルール制約強化装置6を備えている。
図4には、キーワード抽出ルール制約強化装置6の内部動作の構成例を示してあり、このキーワード抽出ルール制約強化装置6は、本発明に言う提示手段及び受付手段を構成する制約強化指示装置11と、本発明に言う制約強化手段を構成する制約強化精製装置12及び制約強化ルール候補提示装置13とから構成されている。
【0043】
制約強化指示装置11は、キーワード抽出ルールの制約の強化を行うか否かをユーザに指示させ、当該指示を受け付ける機能を有している。この制約強化指示装置11は、例えば図5に示すように、キーワード抽出ルールの内容及び当該ルールにマッチした表現及びキーワードの抽出結果を並べて表示する。同図では、上記したルールEr1を上記した文3の関係8に適用した場合に抽出されるキーワード「スキマ」を強調表示している。
【0044】
このような表示画面をユーザが見て、このルールEr1の制約強化を行うべきかを判定し、Yes/Noの指示を与える。そして、制約強化指示装置11がYesの指示を受けた場合には後述する制約強化精製装置12や制約強化ルール候補提示装置13による制約強化処理が行われ、制約強化指示装置11がNoの指示を受けた場合にはこのような制約強化処理は行われず、このまま処理が終了させられて、例えば次のキーワードに関する制約強化指示装置11による処理へ移行する。
【0045】
このように、制約強化指示装置11は、パターンマッチング装置3によって或るキーワード抽出ルールと或る表現とがマッチしてキーワードが抽出されたときに、当該装置3から得られるキーワード抽出ルール、表現、キーワードをユーザに提示し、このキーワードを実際には抽出すべきかどうかのユーザの判断を受けて、その結果を出力する。そして、抽出すべきではないと指示された場合にはキーワード抽出ルール、表現、キーワードを制約強化精製装置12へ出力し、抽出すべきであると指示された場合にはこのキーワードの抽出に関する一連の処理を終了する。なお、ここで言う抽出すべきではないという指示が本発明に言う提示したルールを不適用とする指示に相当する。
【0046】
制約強化精製装置12は、上記した制約強化指示装置11によりYesの指示を受け付けた場合に、このキーワード抽出ルールの制約を強化する精製を行う機能を有している。本例の制約強化精製装置12は、2つの異なる手法(各々、強化手法1、強化手法2と言う)によりキーワード抽出ルールの制約を強化する機能を有している。
【0047】
まず、強化手法1を説明する。
すなわち、キーワード抽出ルール
Er:(F, R, B) → A
に対して、例えば抽出しないようにしたい語が係り語である場合には、当該係り語の概念をfcとすると、制約強化後のキーワード抽出ルールEraは、
Era:(F−{fc}, R, B) → A
となる。
【0048】
同様に、例えば抽出しないようにしたい語が受け語である場合には、当該受け語の概念をbcとすると、制約強化後のキーワード抽出ルールErbは、
Erb:(F, R, B−{bc}) → A
となる。
【0049】
具体的に、例えばキーワード抽出ルール保持装置4が保持するキーワード抽出ルールEr1に対して、上記した文3とのマッチングによって当該文3の関係8(「スキマができない」)とのマッチングを行った場合には、当該関係8は Er1にマッチして係り語「スキマ」が概念「印字品質」のキーワードとして抽出される。しかし、実際にはこの表現「スキマができない」は問題を示す表現ではないので、ユーザは、この抽出を行わないようにEr1を強化したいと考え、その旨を指示する。
この場合、抽出しないようにしたい語は係り語であるので上記したErが上記したEraへ変更されるような制約強化を行う。すなわち、Er1から得られる制約強化後のキーワード抽出ルールEra1は、
Era1:({[サービス]}, {が, は}, {“でき(否)”}) → {f}
となる。
【0050】
なお、上記したキーワード抽出ルールEr1を上記したキーワード抽出ルールEra1へ変更する場合を例とすると、上記した「スキマ」が本発明に言う提示した表現中の提示したルールに適合する語に相当し、上記した「印字品質」が当該語に該当するキーワードに相当し、上記したキーワード抽出ルールEr1で規定される係り語側のキーワード群が本発明に言う(提示した)ルールで規定される当該語に対応したキーワード群に相当し、当該キーワード群から当該キーワード「印字品質」が削除されている。ここで、本例では、係り語側の例を示したが、受け語側についても同様である。
【0051】
このように、強化手法1では、制約強化精製装置12は、制約強化指示装置11からキーワード抽出ルール、表現、キーワードの入力を受けて、キーワードの部分(本例のように係り受けの場合には、係り語或いは受け語)の概念をキーワード抽出ルールから削減する方法により当該ルールの制約を強化する。
【0052】
次に、強化手法2を説明する。
すなわち、キーワード抽出ルールErに対して、例えば抽出しないようにしたい語が係り語である場合には、当該係り語の概念fcのm個の下位概念をfcu1, …, fcumとし、これらの下位概念の中で当該係り語を包含する概念をfcui (1≦i≦m)とすると、Erの制約強化後のキーワード抽出ルールErcは、
Erc:(F−{fc}+{fcu1, …, fcui-1, fcui+1, …, fcum}, R, B) → A
となる。
【0053】
同様に、例えば抽出しないようにしたい語が受け語である場合には、当該受け語の概念bcのn個の下位概念をbcu1, …, bcunとし、これらの下位概念の中で当該受け語を包含する概念をbcuj (1≦j≦n)とすると、Erの制約強化後のキーワード抽出ルールErdは、
Erd:(F, R, B−{bc}+{bcu1, …, bcuj-1, bcuj+1, …, bcun}) → A
となる。
【0054】
上記した強化手法1の場合と同様に、例えばキーワード抽出ルール保持装置4がキーワード抽出ルールEr1を保持し、上記した文3とのマッチングによって当該文3の関係8(「スキマができない」)とのマッチングを行った場合には、抽出しないようにしたい語は係り語「スキマ」となるので、上記したErが上記したErcへ変更されるような制約強化を行う。具体的には、概念「印字品質」の下位概念は「印字状態」と「印字エラー」であり、「スキマ」は「印字エラー」に属しているので、概念「印字エラー」を削除する。すなわち、Er1から得られる制約強化後のキーワード抽出ルールErc1は、
Erc1:({[印字状態], [サービス]}, {が, は}, {“でき(否)”}) → {f}
となる。
【0055】
なお、上記したキーワード抽出ルールEr1を上記したキーワード抽出ルールErc1へ変更する場合を例とすると、上記した「印字状態」及び「印字エラー」が本発明に言う下位概念の複数のキーワードに相当し、これら下位概念の複数のキーワード中の「印字エラー」が本発明に言う下位概念の複数のキーワードの中で(ルールに適合した)語に該当するキーワードに相当し、当該語に該当した元々のキーワード「印字品質」が下位概念の中で当該語に該当しない「印字状態」へ置き換えられている。ここで、本例では、係り語側の例を示したが、受け語側についても同様である。
【0056】
このように、強化手法2では、制約強化精製装置12は、制約強化指示装置11からキーワード抽出ルール、表現、キーワードの入力を受けて、キーワードの部分(本例のように係り受けの場合には、係り語或いは受け語)の概念をシソーラスを用いて下位概念に展開した上で、当該部分が属する下位概念のみをキーワード抽出ルールから削減する方法により当該ルールの制約を強化する。
【0057】
制約強化ルール候補提示装置13は、上記した制約強化精製装置12によって精製された制約強化後のキーワード抽出ルールの候補(本例では、強化手法1により生成されるルール及び強化手法2により生成されるルール)をユーザに提示し、ユーザが提示された候補の中から1個を選択した場合に、当該選択の指示に従って上書き処理を行う機能を有している。つまり、制約強化ルール候補提示装置13では、ユーザにより選択されたルールが制約強化後のキーワード抽出ルールとして決定され、当該ルールがキーワード抽出ルール保持装置4中の制約強化前のルールに上書きされる。
【0058】
上記と同様に、例えばキーワード抽出ルールEr1を例とすると、この場合の候補は上記したEra1及び上記したErc1となり、例えば図6に示すような内容がユーザに対して表示される。同図の例では、各候補の元ルールEr1に対する変更箇所を強調表示している。例えばユーザが同図中の“1”を選択した場合には、Era1がキーワード抽出ルール保持装置4中のEr1に上書きされ、また、例えばユーザが同図中の“元ルール”を選択した場合には、上書き処理は行われずに、Er1がそのままキーワード抽出ルール保持装置4中に残る。
【0059】
以上のように、本例のキーワード抽出ルール精製支援装置では、例えばキーワード抽出装置のパターンマッチング装置3が行うマッチングの結果を受けて、ユーザの判断や選択に従ってキーワード抽出ルールの制約を強化していくことができ、これにより、例えば文書に合わせて既存のキーワード抽出ルールの制約強化処理を繰り返して行うことによって当該ルールの精製を実現することができる。
【0060】
次に、本発明の第2実施例に係るキーワード抽出ルール精製支援装置を説明する。なお、本例では、ルールの制約を緩和することを支援する装置(キーワード抽出ルール制約緩和支援装置)を示す。
図7には、本例に係るキーワード抽出ルール精製支援装置を組み込んだキーワード抽出装置の一例を示してあり、この装置には、例えば上記第1実施例の図1に示したものと同様な機能を有する文書群保持装置1や係り受け解析装置2やパターンマッチング装置3やキーワード抽出ルール保持装置4やシソーラス5と、本例の特徴的な構成部分である類似ルール選択装置21及びキーワード抽出ルール制約緩和装置22とが備えられている。
【0061】
なお、上記図1に示したものと同様な機能を有する構成部分1〜5については、同図に示したのと同じ符号を用いて示してある。
また、説明の便宜上から、上記第1実施例で示したのと同様な構成については、本例では、説明を省略する。
【0062】
本例では、キーワード抽出ルール保持装置4が次のようなキーワード抽出ルールEr2を保持する場合を例として示す。
Er2:({“丁合い”, [サービス]}, {が, は}, {“でき(否)”}) → {f}
この場合、パターンマッチング装置3が例えば上記した文4の関係10(「スタックができない」)とキーワード抽出ルールEr2とのマッチングを取ろうとすると、関係「が」と受け語「できない」についてはEr2の該当部分とマッチするが、係り語「スタック」についてはEr2の該当部分とマッチしないため、キーワードは抽出されない。
【0063】
また、キーワード抽出ルール保持装置4が保持する他のキーワード抽出ルールも全て上記した関係10とマッチしない場合には、当該関係10からはキーワードが抽出されない。しかし、「スタックができない」というのは問題を示す表現であり、「スタック」をキーワードとして抽出すべきである。
【0064】
そこで、本例では、このようなキーワードの抽出を実現するための構成として、類似ルール選択装置21やキーワード抽出ルール制約緩和装置22を備えている。
類似ルール選択装置21は、例えばキーワード抽出ルール保持装置4が保持する全てのキーワード抽出ルールと或る表現とがマッチしなかった場合に、その表現のパターンに近いキーワード抽出ルールをキーワード抽出ルール保持装置4が保持するキーワード抽出ルールの中から選択する機能を有している。
【0065】
本例のように係り受け関係が用いられている場合には、ここで選択されるキーワード抽出ルールは、次に示すUmaとUmbとUmcとのいずれかが成立するものとなる。
Umaは、係り語がマッチせず、関係と受け語はマッチするキーワード抽出ルールである。
Umbは、関係がマッチせず、係り語と受け語はマッチするキーワード抽出ルールである。
Umcは、受け語がマッチせず、係り語と関係はマッチするキーワード抽出ルールである。
具体的に、上記したEr2と上記した関係10の場合には、係り語「スタック」はEr2の係り語部分とマッチしないが、関係「が」と受け語「できない」は各々マッチするので、上記のUmaに相当する。
【0066】
このように、類似ルール選択装置21は、例えばパターンマッチング装置3によってマッチするキーワード抽出ルールがなかった場合に、表現とキーワード抽出ルールとの間で1箇所(本例のように係り受け関係の場合には、係り語、関係、受け語のいずれか)以外が全てマッチする(つまり、他の2個所がマッチする)ようなキーワード抽出ルールをキーワード抽出ルール保持装置4に保持されるキーワード抽出ルールの中から選択し、選択したキーワード抽出ルール及び表現及びマッチしなかったために抽出されなかったキーワードをキーワード抽出ルール制約緩和装置22へ出力する。
【0067】
キーワード抽出ルール制約緩和装置22は、例えば類似パターン選択装置21からの結果を受け、キーワード抽出ルールの制約を緩和してキーワード抽出ルール保持装置4の該当箇所に上書きする機能を有している。
図8には、キーワード抽出ルール制約緩和装置22の内部動作の構成例を示してあり、このキーワード抽出ルール制約緩和装置22は、例えば上記した類似ルール選択装置21と共に本発明に言う提示手段を構成するとともに、本発明に言う受付手段を構成する制約緩和指示装置31と、本発明に言う制約緩和手段を構成する制約緩和精製装置32及び制約緩和ルール候補提示装置33とから構成されている。
【0068】
制約緩和指示装置31は、キーワード抽出ルールの制約の緩和を行うか否かをユーザに指示させ、当該指示を受け付ける機能を有している。制約緩和指示装置31は、例えば図9に示すように、キーワード抽出ルールの内容及び例えば係り語と受け語とのいずれかが一致しなかったために当該キーワード抽出ルールとマッチしなかった表現及び抽出結果を並べて表示する。
【0069】
このような表示画面をユーザが見て、このルールEr2の制約緩和を実際に行うべきかを判定し、Yes/Noの指示を与える。そして、制約緩和指示装置31がYesの指示を受けた場合には後述する制約緩和精製装置32や制約緩和ルール候補提示装置33による制約緩和処理が行われ、制約緩和指示装置31がNoの指示を受けた場合にはこのような制約緩和処理は行われず、このまま処理が終了させられて、例えば次のキーワードに関する類似ルール選択装置21や制約緩和指示装置31による処理へ移行する。
【0070】
このように、制約緩和指示装置31は、類似ルール選択装置21から得られる文書、キーワード抽出ルール、表現、一致しなかった部分の語をユーザに提示し、この語を実際には抽出すべきかをユーザに判断させ、その結果を出力する。そして、抽出すべきであると指示された場合にはルール、表現、キーワードを制約緩和精製装置32へ出力し、抽出すべきでないと指示された場合にはこのキーワードの抽出に関する一連の処理を終了する。なお、ここで言う抽出すべきという指示が本発明に言う提示したルールを適用する指示に相当する。
【0071】
制約緩和精製装置32は、上記した制約緩和指示装置31によりYesの指示を受け付けた場合に、このキーワード抽出ルールの制約を緩和する精製を行う機能を有している。本例の制約緩和精製装置32は、4つの異なる手法(各々、緩和手法1、緩和手法2、緩和手法3、緩和手法4と言う)によりキーワード抽出ルールの制約を緩和する機能を有している。
【0072】
まず、緩和手法1を説明する。
すなわち、上記したUmaの場合を例とすると、例えば係り語がシソーラス中に存在すればキーワード抽出ルールErに対して制約緩和を行うことができ、この場合の制約緩和後のキーワード抽出ルールEreは、当該係り語の概念をfcとすると、
Ere:(F+{fc}, R, B) → A
となる。
【0073】
同様に、上記したUmcの場合を例とすると、例えば受け語がシソーラス中に存在すれば制約緩和を行うことができ、この場合の制約緩和後のキーワード抽出ルールErfは、当該受け語の概念をbcとすると、
Erf:(F, R, B+{bc}) → A
となる。
【0074】
具体的に、例えば上記したEr2が上記した関係10に関して制約緩和対象として検出された場合は、上記したUmaの場合に該当し、且つ、係り語はシソーラスT1中に存在するので、係り語「スタック」の概念「ソート」を追加した次のような制約緩和後のキーワード抽出ルールEre2が得られる。
Ere2:({“丁合い”, [サービス], [ソート]}, {が, は}, {“でき(否)”}) → {f}
【0075】
なお、上記したキーワード抽出ルールEr2を上記したキーワード抽出ルールEre2へ変更する場合を例とすると、上記した「スタック」が本発明に言う提示した表現中の提示したルールに不適合であった語に相当し、上記した[ソート]が本発明に言う当該語の概念を示すキーワードに相当し、当該キーワード[ソート]がキーワード抽出ルールに追加されている。ここで、本例では、係り語がマッチしない場合の例を示したが、受け語がマッチしない場合についても同様である。
【0076】
このように、緩和手法1では、制約緩和精製装置32は、制約緩和指示装置31からキーワード抽出ルール、表現、キーワードの入力を受けて、キーワードの部分(本例のように係り受けの場合には、係り語或いは受け語)の概念をキーワード抽出ルールの該当部分に追加する方法により当該ルールの制約を緩和する。
【0077】
次に、緩和手法2を説明する。
すなわち、上記したUmaの場合を例とすると、例えば係り語がシソーラス中に存在し、且つ、当該係り語の概念fcとキーワード抽出ルールErの係り語部分の或る概念fecとの共通上位概念があれば、その全ての共通上位概念fccに対して、この場合の制約緩和後のキーワード抽出ルールErgは、
Erg:(F−{fec}+{fcc}, R, B) → A
となる。
【0078】
同様に、上記したUmcの場合を例とすると、例えば受け語がシソーラス中に存在し、且つ、当該受け語の概念bcとErの受け語部分の或る概念becとの共通上位概念があれば、その全ての共通上位概念bccに対して、この場合の制約緩和後のキーワード抽出ルールErhは、
Erh:(F, R, B−{bec}+{bcc}) → A
となる。
【0079】
具体的に、例えば上記したキーワード抽出ルールEr2が上記した関係10に関して制約緩和対象として検出された場合は、上記したUmaの場合に該当し、且つ、係り語はシソーラスT1中に存在する。そして、係り語「スタック」の概念「ソート」と共通上位概念を持つ概念「サービス」がEr2の係り語部分に存在し、それらの共通上位概念は「症状」及び「問題」の2個となる。従って、次の2個の制約緩和後のキーワード抽出ルールErg2、Erg2'が得られる。
Erg2:({“丁合い”, [症状]}, {が, は}, {“でき(否)”}) → {f}
Erg2':({“丁合い”, [問題]}, {が, は}, {“でき(否)”}) → {f}
【0080】
なお、上記したキーワード抽出ルールEr2を上記したキーワード抽出ルールErg2、Erg2'へ変更する場合を例とすると、上記した「サービス」が本発明に言う(提示した)ルールで規定される(当該ルールに不適合であった)語に対応したキーワード群中のキーワードに相当し、上記した[症状]や上記した[問題]が本発明に言う(当該語の概念を示すキーワードと当該キーワード群中の当該キーワードとの)共通上位概念を示すキーワードに相当し、当該キーワード群中の当該キーワード「サービス」が当該共通上位概念を示すキーワードである[症状]や[問題]に置き換えられている。ここで、本例では、係り語がマッチしない場合の例を示したが、受け語がマッチしない場合についても同様である。
【0081】
このように、緩和手法2では、制約緩和精製装置32は、上位概念の折り畳みによる制約緩和を行い、具体的には、制約緩和指示装置31からキーワード抽出ルール、表現、キーワードの入力を受けて、キーワードの部分(本例のように係り受けの場合には、係り語或いは受け語)の概念とキーワード抽出ルールの該当部分の概念との共通上位概念に置き換える方法により当該ルールの制約を緩和する。
【0082】
次に、緩和手法3を説明する。
すなわち、上記したUmaの場合を例とすると、例えば係り語をfsとすると、この場合の制約緩和後のキーワード抽出ルールEriは、
Eri:(F+{“fs”}, R, B) → A
となる。
【0083】
同様に、上記したUmbの場合を例とすると、例えば関係をrとすると、この場合の制約緩和後のキーワード抽出ルールErjは、
Erj:(F, R+{r}, B) → A
となる。
また、上記したUmcの場合を例とすると、例えば受け語をbsとすると、この場合の制約緩和後のキーワード抽出ルールErkは、
Erk:(F, R, B+{“bs”}) → A
となる。
【0084】
具体的に、例えば上記したキーワード抽出ルールEr2が上記した関係10に関して制約緩和対象として検出された場合は、上記したUmaの場合に該当し、次の制約緩和後のキーワード抽出ルールEri2が得られる。
Eri2:({“丁合い”, [サービス], “スタック”}, {が, は}, {“でき(否)”})→ {f}
ここで、本例では、係り語がマッチしない場合の例を示したが、受け語がマッチしない場合についても同様である。
【0085】
このように、緩和手法3では、制約緩和精製装置32は、制約緩和指示装置31からキーワード抽出ルール、表現、キーワードの入力を受けて、キーワードの部分(本例のように係り受けの場合には、係り語或いは受け語)の表層をキーワード抽出ルールの該当部分に追加する方法により当該ルールの制約を緩和する。
【0086】
次に、緩和手法4を説明する。
すなわち、上記したUmaの場合を例とすると、例えば係り語fsとキーワード抽出ルールErの係り語部分における或る表層fesとがいずれもシソーラス中に存在し、それらの共通(上位)概念があれば、その全ての共通上位概念fccに対して、制約緩和後のキーワード抽出ルールErlは、
Erl:(F−{“fes”}+{[fcc]}, R, B) → A
となる。
【0087】
同様に、上記したUmcの場合を例とすると、例えば受け語bsとキーワード抽出ルールErの受け語部分における或る表層besとがいずれもシソーラス中に存在し、それらの共通(上位)概念があれば、その全ての共通上位概念bccに対して、制約緩和後のキーワード抽出ルールErmは、
Erm:(F, R, B−{“bes”}+{[bcc]}) → A
となる。
【0088】
具体的に、例えば上記したキーワード抽出ルールEr2が上記した関係10に関して制約緩和対象として検出された場合は、上記したUmaの場合に該当し、係り語「スタック」とEr2の係り語部分の表層「丁合い」とはいずれもシソーラスT1中に存在し、それらの共通(上位)概念「ソート」、「動作」、「症状」、「問題」があるので、次のような4個の制約緩和後のキーワード抽出ルールErm2、Erm2'、Erm2''、Erm2'''が得られる。
Erm2:({[ソート], [サービス]}, {が, は}, {“でき(否)”}) → {f}
Erm2':({[動作], [サービス]}, {が, は}, {“でき(否)”}) → {f}
Erm2'':({[症状], [サービス]}, {が, は}, {“でき(否)”}) → {f}
Erm2''':({[問題], [サービス]}, {が, は}, {“でき(否)”}) → {f}
【0089】
なお、上記したキーワード抽出ルールEr2を上記したキーワード抽出ルールErm2、Erm2'、Erm2''、Erm2'''へ変更する場合を例とすると、上記した「丁合い」が本発明に言う(提示した)ルールで規定される(当該ルールに不適合であった)語に対応したキーワード群中の表層的なキーワードに相当し、当該キーワード「丁合い」がこれと当該語「スタック」との共通上位概念を示すキーワードである「ソート」や「動作」や「症状」や「問題」に置き換えられている。ここで、本例では、係り語がマッチしない場合の例を示したが、受け語がマッチしない場合についても同様である。
【0090】
このように、緩和手法4では、制約緩和精製装置32は、表層から概念への変換による制約緩和を行い、具体的には、制約緩和指示装置31からキーワード抽出ルール、表現、キーワードの入力を受けて、キーワードの部分(本例のように係り受けの場合には、係り語或いは受け語)の表層とキーワード抽出ルールの該当部分の表層との共通概念に置き換える方法により当該ルールの制約を緩和する。
【0091】
制約緩和ルール候補提示装置33は、例えば上記した制約緩和精製装置32によって精製された制約緩和後のキーワード抽出ルールの候補(本例では、緩和手法1により生成されるルール及び緩和手法2により生成されるルール及び緩和手法3により生成されるルール及び緩和手法4により生成されるルール)をユーザに提示し、ユーザが提示された候補の中から1個を選択した場合に、当該選択の指示に従って上書き処理を行う機能を有している。つまり、制約緩和ルール候補提示装置33では、ユーザにより選択されたルールが制約緩和後のキーワード抽出ルールとして決定され、当該ルールがキーワード抽出ルール保持装置4中の制約緩和前のルールに上書きされる。
【0092】
上記と同様に、例えばキーワード抽出ルールEr2を例とすると、この場合の候補は上記したEre2, Erg2, Erg2', Eri2, Erm2, Erm2', Erm2'', Erm2'''となり、例えば図10に示すような内容がユーザに対して表示される。例えばユーザが同図中の“1”を選択した場合には、Ere2がキーワード抽出ルール保持装置4中のEr2に上書きされ、また、例えばユーザが同図中の“元ルール”を選択した場合には、上書き処理は行われずに、Er2がそのままキーワード抽出ルール保持装置4中に残る。
【0093】
以上のように、本例のキーワード抽出ルール精製支援装置では、例えばキーワード抽出装置のパターンマッチング装置3が行うマッチングの結果を受けて、ユーザの判断や選択に従ってキーワード抽出ルールの制約を緩和していくことができ、これにより、例えば文書に合わせて既存のキーワード抽出ルールの制約緩和処理を繰り返して行うことによって当該ルールの精製を実現することができる。
【0094】
次に、本発明の第3実施例に係るキーワード抽出ルール精製支援装置を説明する。
本例のキーワード抽出ルール精製支援装置の構成は、例えば上記第1実施例の図1や上記第2実施例の図7に示したものとほぼ同様であり、本例では、更に、本発明に言うマージ手段を構成するマージ機能(図示せず)を備えており、このマージ機能はキーワード抽出ルールをマージ(統合)する機能を有している。
【0095】
なお、上記図1や上記図7に示したものと同様な機能を有する構成部分1〜5については、同図に示したのと同じ符号を用いて示す。
また、説明の便宜上から、上記第1実施例や上記第2実施例で示したのと同様な構成については、本例では、説明を省略する。
【0096】
本例のマージ機能は、例えばキーワード抽出ルール保持装置4に保持されるキーワード抽出ルールのマージを任意の時点で行うことができる機能を有しており、以下で、この機能について具体的に説明する。
一例として、キーワード抽出ルール保持装置4によって保持されるキーワード抽出ルールの中に、次のような2個のキーワード抽出ルールEr3、 Er4があるとする。
Er3:({[印字状態]}, {が, は}, {“でき(否)”, “し(否)”}) → {f}
Er4:({[印字状態]}, {が, は}, {“な(い)”}) → {f}
【0097】
このとき、この2個のキーワード抽出ルールを1個のキーワード抽出ルールにマージすると、ユーザによる見易さを改善することができ、マッチングのスピードのアップを図ることができ、抽出ルール精製の精度のアップを図ることができるといった効果を得ることができる。
具体的には、上記したEr3、Er4をマージして得られるキーワード抽出ルールEr34は次のようになる。
Er34:({[印字状態]}, {が, は}, {“でき(否)”, “し(否)”, “な(い)”}) → {f}
【0098】
なお、この場合を例とすると、上記した2個のキーワード抽出ルールEr3,、Er4が本発明に言うルールで規定される第1キーワード群及び第2キーワード群及び関係の内の1つのみが異なる複数のルールに相当し、上記したキーワード抽出ルールEr34が本発明に言う当該異なる部分を総和した1つのルールに相当する。
【0099】
また、他の例として、キーワード抽出ルール保持装置4によって保持されるキーワード抽出ルールの中に、次のような2個のキーワード抽出ルールEr5、Er6があるとする。
Er5:({[使い勝手]}, {が, は}, {“悪(い)”}) → {f}
Er6:({[サービス]}, {が, は}, {“悪(い)”}) → {f}
【0100】
このとき、上記図3に示したシソーラスT1における「使い勝手」、「サービス」の2個の概念に共通する上位概念は「症状」であるので、上記したEr5、 Er6をマージして得られるキーワード抽出ルールEr56としては、一例として次のようなものが想定される。
Er56:({[症状]}, {が, は}, {“悪(い)”}) → {f}
【0101】
しかしながら、このようなマージを実行すると、元々包含されていた「使い勝手」及び「サービス」の他に「故障」や「動作」や「品質」の概念も包含されることになる。そこで、例えばユーザがこれを認める場合には、ユーザからの指示に従って、上記したEr56をマージされたキーワード抽出ルールとする。一方、ユーザがこれを認めない場合には、ユーザからの指示に従って、例えば次のキーワード抽出ルールEr56'をマージされたキーワード抽出ルールとする。
Er56':({[使い勝手] , [サービス]}, {が, は}, {“悪(い)”}) → {f}
【0102】
なお、この場合を例とすると、上記した2個のキーワード抽出ルールEr5、Er6が本発明に言うルールで規定される第1キーワード群及び第2キーワード群及び関係の内の1つのみが異なる複数のルールに相当し、上記したキーワード抽出ルールEr56や上記したキーワード抽出ルールEr56'が本発明に言う当該異なる部分を総和した1つのルールに相当する。
【0103】
ここで、本発明に係るキーワード抽出ルール精製支援装置やキーワード抽出装置の構成としては、必ずしも以上に示したものに限られず、種々な構成が用いられてもよい。
例えば、以上の実施例では、説明の便宜上から、上記第1実施例においてキーワード抽出ルールの制約を強化する機能を備えた装置を示す一方、上記第2実施例においてキーワード抽出ルールの制約を緩和する機能を備えた装置を示したが、このような制約強化機能とこのような制約緩和機能との両方を備えた構成を用いることも好ましい態様である。
【0104】
また、例えば、以上の実施例では、好ましい態様として、本発明に係るキーワード抽出ルール精製支援装置やキーワード抽出装置により行われる各種の処理としては、例えばプロセッサやメモリ等を備えたハードウエア資源においてプロセッサがROMに格納された制御プログラムを実行することにより制御される構成としたが、例えば当該処理を実行するための各機能手段を独立したハードウエア回路として構成することも可能である。
【0105】
また、本発明は上記のような制御プログラムを格納したフロッピーディスクやCD−ROM等のコンピュータにより読み取り可能な記憶媒体として把握することもでき、当該制御プログラムを記憶媒体からコンピュータに入力してプロセッサに実行させることにより、本発明に係る処理を遂行させることができる。
【0106】
【発明の効果】
以上説明したように、本発明に係るキーワード抽出ルール精製支援装置や記憶媒体やキーワード抽出ルール精製支援方法によると、例えばキーワードを抽出すべきでないのに或るキーワード抽出ルールとマッチしてしまうような場合であっても、そのルールの制約を強化してマッチしないようにすることができ、また、例えばキーワードを抽出すべきであるのにマッチするキーワード抽出ルールが存在しないような場合であっても、その表現に近いキーワード抽出ルールの制約を緩和してマッチするようにすることができる。こうしたことから、例えば文書に合わせて既存のキーワード抽出ルールの制約強化処理や制約緩和処理を繰り返して行うことによって、キーワード抽出ルールの精製を実現することができる。
【図面の簡単な説明】
【図1】本発明の第1実施例に係るキーワード抽出ルール精製支援装置を適用したキーワード抽出装置の一例を示す図である。
【図2】形態素の要素位置の一例を示す図である。
【図3】シソーラスのデータの一例を示す図である。
【図4】キーワード抽出ルール制約強化装置の構成例を示す図である。
【図5】制約強化指示装置による表示例を示す図である。
【図6】制約強化ルール候補提示装置による表示例を示す図である。
【図7】本発明の第2実施例に係るキーワード抽出ルール精製支援装置を適用したキーワード抽出装置の一例を示す図である。
【図8】キーワード抽出ルール制約緩和装置の構成例を示す図である。
【図9】制約緩和指示装置による表示例を示す図である。
【図10】制約緩和ルール候補提示装置による表示例を示す図である。
【図11】キーワード抽出装置の一例を示す図である。
【符号の説明】
1・・文書群保持装置、 2・・係り受け解析装置、
3・・パターンマッチング装置、 4・・キーワード抽出ルール保持装置、
5・・シソーラス、 6・・キーワード抽出ルール制約強化装置、
11・・制約強化指示装置、 12・・制約強化精製装置、
13・・制約強化ルール候補提示装置、 21・・類似ルール選択装置、
22・・キーワード抽出ルール制約緩和装置、 31・・制約緩和指示装置、
32・・制約緩和精製装置、 33・・制約緩和ルール候補提示装置、

Claims (13)

  1. 係り語の表現の集合である第1キーワード群に含まれる要素である第1キーワードに該当する語と受け語の表現の集合である第2キーワード群に含まれる要素である第2キーワードに該当する語とが係り側と受け側との所定の関係をもって出現する表現から係り語である第1キーワード又は受け語である第2キーワードをキーワードとして抽出するルールに基づいて文書からキーワードを抽出するキーワード抽出装置の当該ルールを精製することを支援するキーワード抽出ルール精製支援装置であって、
    ルールに適合した表現及び当該ルールをユーザに提示する提示手段と、
    提示した表現に対して提示したルールを不適用とする指示をユーザから受け付ける受付手段と、
    当該指示を受け付けた場合に、提示した表現に対して提示したルールが不適用となるように当該ルールを変更する制約強化手段と、
    を備えたことを特徴とするキーワード抽出ルール精製支援装置。
  2. 請求項1に記載のキーワード抽出ルール精製支援装置において、
    制約強化手段は、提示した表現中の提示したルールに適合する語に該当するキーワードを当該ルールで規定される当該語に対応したキーワード群から削除することにより、提示した表現に対して提示したルールが不適用となるようにすることを特徴とするキーワード抽出ルール精製支援装置。
  3. 請求項1に記載のキーワード抽出ルール精製支援装置において、
    制約強化手段は、提示した表現中の提示したルールに適合する語に該当するキーワードを下位概念の複数のキーワードへ変換し、これら下位概念の複数のキーワードの中で当該語に該当するキーワードを当該ルールで規定される当該語に対応したキーワード群から削除することにより、提示した表現に対して提示したルールが不適用となるようにすることを特徴とするキーワード抽出ルール精製支援装置。
  4. 係り語の表現の集合である第1キーワード群に含まれる要素である第1キーワードに該当する語と受け語の表現の集合である第2キーワード群に含まれる要素である第2キーワードに該当する語とが係り側と受け側との所定の関係をもって出現する表現から係り語である第1キーワード又は受け語である第2キーワードをキーワードとして抽出するルールに基づいて文書からキーワードを抽出するキーワード抽出装置の当該ルールを精製することを支援するキーワード抽出ルール精製支援装置であって、
    ルールで規定される第1キーワード及び第2キーワード及び関係の内の2つのみに適合した表現及び当該ルールをユーザに提示する提示手段と、
    提示した表現に対して提示したルールを適用する指示をユーザから受け付ける受付手段と、
    当該指示を受け付けた場合に、提示した表現に対して提示したルールが適用されるように当該ルールを変更する制約緩和手段と、
    を備えたことを特徴とするキーワード抽出ルール精製支援装置。
  5. 請求項4に記載のキーワード抽出ルール精製支援装置において、
    制約緩和手段は、提示した表現中の提示したルールに不適合であった語の概念を示すキーワードを当該ルールで規定される当該語に対応したキーワード群に追加することにより、提示した表現に対して提示したルールが適用されるようにすることを特徴とするキーワード抽出ルール精製支援装置。
  6. 請求項4に記載のキーワード抽出ルール精製支援装置において、
    制約緩和手段は、提示した表現中の提示したルールに不適合であった語の概念を示すキーワードと当該ルールで規定される当該語に対応したキーワード群中のキーワードとの共通上位概念を示すキーワードに当該キーワード群中の当該キーワードを置き換えることにより、提示した表現に対して提示したルールが適用されるようにすることを特徴とするキーワード抽出ルール精製支援装置。
  7. 請求項4に記載のキーワード抽出ルール精製支援装置において、
    制約緩和手段は、提示した表現中の提示したルールに不適合であった語を当該ルールで規定される当該語に対応したキーワード群に追加することにより、提示した表現に対して提示したルールが適用されるようにすることを特徴とするキーワード抽出ルール精製支援装置。
  8. 請求項4に記載のキーワード抽出ルール精製支援装置において、
    制約緩和手段は、提示した表現中の提示したルールに不適合であった語と当該ルールで規定される当該語に対応したキーワード群中の表層的なキーワードとの共通上位概念を示すキーワードに当該表層的なキーワードを置き換えることにより、提示した表現に対して提示したルールが適用されるようにすることを特徴とするキーワード抽出ルール精製支援装置。
  9. 請求項1乃至請求項8のいずれか1項に記載のキーワード抽出ルール精製支援装置において、
    ルールで規定される第1キーワード群及び第2キーワード群及び関係の内の1つのみが異なる複数のルールを、当該異なる部分を総和した1つのルールへ変換するマージ手段を備えたことを特徴とするキーワード抽出ルール精製支援装置。
  10. コンピュータに実行させるプログラムを当該コンピュータの入力手段が読取可能に記憶した記憶媒体において、
    係り語の表現の集合である第1キーワード群に含まれる要素である第1キーワードに該当する語と受け語の表現の集合である第2キーワード群に含まれる要素である第2キーワードに該当する語とが係り側と受け側との所定の関係をもって出現する表現から係り語である第1キーワード又は受け語である第2キーワードをキーワードとして抽出するルールに基づいて文書からキーワードを抽出するキーワード抽出装置の当該ルールを精製することを支援するために用いられ、
    当該プログラムは、ルールに適合した表現及び当該ルールをユーザに提示する処理と、
    提示した表現に対して提示したルールを不適用とする指示をユーザから受け付ける処理と、
    当該指示を受け付けた場合に、提示した表現に対して提示したルールが不適用となるように当該ルールを変更する処理とを当該コンピュータに実行させることを特徴とする記憶媒体。
  11. コンピュータに実行させるプログラムを当該コンピュータの入力手段が読取可能に記憶した記憶媒体において、
    係り語の表現の集合である第1キーワード群に含まれる要素である第1キーワードに該当する語と受け語の表現の集合である第2キーワード群に含まれる要素である第2キーワードに該当する語とが係り側と受け側との所定の関係をもって出現する表現から係り語である第1キーワード又は受け語である第2キーワードをキーワードとして抽出するルールに基づいて文書からキーワードを抽出するキーワード抽出装置の当該ルールを精製することを支援するために用いられ、
    当該プログラムは、ルールで規定される第1キーワード及び第2キーワード及び関係の内の2つのみに適合した表現及び当該ルールをユーザに提示する処理と、
    提示した表現に対して提示したルールを適用する指示をユーザから受け付ける処理と、
    当該指示を受け付けた場合に、提示した表現に対して提示したルールが適用されるように当該ルールを変更する処理とを当該コンピュータに実行させることを特徴とする記憶媒体。
  12. 係り語の表現の集合である第1キーワード群に含まれる要素である第1キーワードに該当する語と受け語の表現の集合である第2キーワード群に含まれる要素である第2キーワードに該当する語とが係り側と受け側との所定の関係をもって出現する表現から係り語である第1キーワード又は受け語である第2キーワードをキーワードとして抽出するルールに基づいて文書からキーワードを抽出するキーワード抽出装置の当該ルールを精製することを支援するキーワード抽出ルール精製支援装置におけるキーワード抽出ルール精製支援方法であって、
    キーワード抽出ルール精製支援装置の提示手段が、ルールに適合した表現及び当該ルールをユーザに提示し、
    キーワード抽出ルール精製支援装置の受付手段が、提示した表現に対して提示したルールを不適用とする指示をユーザから受け付け、
    キーワード抽出ルール精製支援装置の制約強化手段が、当該指示を受け付けた場合に、提示した表現に対して提示したルールが不適用となるように当該ルールを変更する、ことを特徴とするキーワード抽出ルール精製支援方法。
  13. 係り語の表現の集合である第1キーワード群に含まれる要素である第1キーワードに該当する語と受け語の表現の集合である第2キーワード群に含まれる要素である第2キーワードに該当する語とが係り側と受け側との所定の関係をもって出現する表現から係り語である第1キーワード又は受け語である第2キーワードをキーワードとして抽出するルールに基づいて文書からキーワードを抽出するキーワード抽出装置の当該ルールを精製することを支援するキーワード抽出ルール精製支援装置におけるキーワード抽出ルール精製支援方法であって、
    キーワード抽出ルール精製支援装置の提示手段が、ルールで規定される第1キーワード及び第2キーワード及び関係の内の2つのみに適合した表現及び当該ルールをユーザに提示し、
    キーワード抽出ルール精製支援装置の受付手段が、提示した表現に対して提示したルールを適用する指示をユーザから受け付け、
    キーワード抽出ルール精製支援装置の制約緩和手段が、当該指示を受け付けた場合に、提示した表現に対して提示したルールが適用されるように当該ルールを変更する、ことを特徴とするキーワード抽出ルール精製支援方法。
JP2000114320A 2000-04-14 2000-04-14 キーワード抽出ルール精製支援装置、記憶媒体及びキーワード抽出ルール精製支援方法 Expired - Fee Related JP4042295B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000114320A JP4042295B2 (ja) 2000-04-14 2000-04-14 キーワード抽出ルール精製支援装置、記憶媒体及びキーワード抽出ルール精製支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000114320A JP4042295B2 (ja) 2000-04-14 2000-04-14 キーワード抽出ルール精製支援装置、記憶媒体及びキーワード抽出ルール精製支援方法

Publications (3)

Publication Number Publication Date
JP2001297100A JP2001297100A (ja) 2001-10-26
JP2001297100A5 JP2001297100A5 (ja) 2005-04-14
JP4042295B2 true JP4042295B2 (ja) 2008-02-06

Family

ID=18626141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000114320A Expired - Fee Related JP4042295B2 (ja) 2000-04-14 2000-04-14 キーワード抽出ルール精製支援装置、記憶媒体及びキーワード抽出ルール精製支援方法

Country Status (1)

Country Link
JP (1) JP4042295B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006323517A (ja) * 2005-05-17 2006-11-30 Mitsubishi Electric Corp テキスト分類装置およびプログラム
JP4694258B2 (ja) * 2005-05-31 2011-06-08 株式会社エヌ・ティ・ティ・データ 情報抽出装置、情報抽出方法及びプログラム
US8886661B2 (en) 2006-03-23 2014-11-11 Nec Corporation Information extraction system, information extraction method, information extraction program, and information service system
JP4744373B2 (ja) * 2006-06-27 2011-08-10 ソニー エリクソン モバイル コミュニケーションズ, エービー 携帯情報端末
JP5317922B2 (ja) * 2009-10-16 2013-10-16 株式会社野村総合研究所 情報抽出ルール作成支援システム
US8527497B2 (en) * 2010-12-30 2013-09-03 Facebook, Inc. Composite term index for graph data

Also Published As

Publication number Publication date
JP2001297100A (ja) 2001-10-26

Similar Documents

Publication Publication Date Title
US5590039A (en) Natural language processing apparatus and method for performing processing to analyze the meaning of an input sentence entered in the form of a natural language
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
US20100268724A1 (en) Method and system for approximate string matching
JP4372133B2 (ja) 辞書登録装置、辞書登録方法及び辞書登録プログラム
JP4042295B2 (ja) キーワード抽出ルール精製支援装置、記憶媒体及びキーワード抽出ルール精製支援方法
JP3139658B2 (ja) 文書表示方式
US20040054677A1 (en) Method for processing text in a computer and a computer
JP3429612B2 (ja) 辞書登録装置及び機械翻訳装置
JP3326646B2 (ja) 機械翻訳システム用辞書・ルール学習装置
JP4024137B2 (ja) 数量表現検索装置
JPH10207896A (ja) 検索用語拡張方法及び装置及び情報検索方法及び装置
JP2778025B2 (ja) 共起関係辞書の学習方法
JP2005157823A (ja) 知識ベースシステム、および同システムにおける単語間の意味関係判別方法、ならびにそのコンピュータプログラム
JP3353647B2 (ja) 機械翻訳システム用辞書・ルール学習装置及び機械翻訳システム用辞書・ルール学習プログラムを格納した記憶媒体
JP4368550B2 (ja) 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
JP3692711B2 (ja) 機械翻訳装置
JP3999771B2 (ja) 翻訳支援プログラム、翻訳支援装置、翻訳支援方法
JPH10340264A (ja) 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3051747B2 (ja) 機械翻訳方法及び機械翻訳システム
JP2006235970A (ja) ソースコード検索装置、ソースコード検索方法、ソースコード検索プログラム、およびソースコード検索プログラムを記録する記録媒体
JP2004326596A (ja) 概念表現生成システム、概念表現生成方法、プログラム及び記憶媒体
JPH10171811A (ja) 同文字異言語間通意文の作成支援方法及び装置
JPH11282847A (ja) 言語処理システム及び評価情報更新方法並びに記録媒体
JPH11345229A (ja) 文字処理装置及び文字処理プログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040602

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040602

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070717

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070914

TRDD Decision of grant or rejection written
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20071003

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071105

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111122

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111122

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121122

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121122

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131122

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees