JP2002366556A - 情報検索方法 - Google Patents

情報検索方法

Info

Publication number
JP2002366556A
JP2002366556A JP2001173398A JP2001173398A JP2002366556A JP 2002366556 A JP2002366556 A JP 2002366556A JP 2001173398 A JP2001173398 A JP 2001173398A JP 2001173398 A JP2001173398 A JP 2001173398A JP 2002366556 A JP2002366556 A JP 2002366556A
Authority
JP
Japan
Prior art keywords
description
text
content
sentence
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001173398A
Other languages
English (en)
Inventor
Hisao Mase
久雄 間瀬
Yukiko Morimoto
由起子 森本
Kazuhisa Kinugawa
一久 衣川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Electronics Services Co Ltd
Original Assignee
Hitachi Ltd
Hitachi Electronics Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Electronics Services Co Ltd filed Critical Hitachi Ltd
Priority to JP2001173398A priority Critical patent/JP2002366556A/ja
Publication of JP2002366556A publication Critical patent/JP2002366556A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】問題内容とその原因・対策を記述した文章を効
率良く検索する。 【解決手段】ルールに従って問題内容から特定の情報が
記述された部分を特定し、その各々からキーワードを抽
出してインデクスに格納しておき、ユーザが入力した問
題内容から同一の方法でキーワードを抽出し、インデク
スと照合して類似度の高い文章データを報知する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、問合せとその回答
が対になったQ&Aデータや、現象とその原因,対策が
記述された事故報告書等の文章を効率良く検索する技術
に関する。
【0002】
【従来の技術】計算機を用いた文書検索技術としては、
予め検索対象文書データベースを構成する各々の文書デ
ータに含まれる文字列をインデクスとして保持し、ユー
ザが入力したキーワードが文書データに含まれるか否か
をインデクスを参照することによって判定し、含まれる
文書データを検索結果として出力する全文検索が主流で
ある。また、最近では文章を入力として、文章単位で類
似する文書を検索する類似文書検索技術が実用化されて
いる。
【0003】
【発明が解決しようとする課題】全文検索技術は、検索
文字列の有無により判定しているので、ノイズ文書が含
まれる可能性が非常に高く、有用な文書のみを短時間で
取り出すことが難しい。類似事例検索技術では、文章の
中に含まれるキーワードを構成要素とするベクトルを生
成し、そのベクトルと向きを同じとする文書を類似文書
として出力するが、文の構造などの情報を考慮していな
い。
【0004】一方、問合せとその回答が対になったQ&
Aデータや、各種の事故報告書データといった文章はそ
の記述に特徴がある。すなわち、(1)問題内容の記述
とその原因,対策・解決方法の記述エリアから構成され
ていることと、(2)上記問題内容の記述については、
「AしたらBしてしまった」のように、最初に行なった
処理内容(Aに相当)及びその処理の結果(Bに相当)
を対にして記述したり、「Aしたい(できない)」のよ
うに、現在行ないたい操作内容を記述したりなど、記述
の仕方を有限個のパターンに形式化できる、という特徴
を有している。また、この種の文章では、同じ語句を使
っていても、その語句を修飾する語句や、その語句に続
く語尾表現によって、その文の意味が全く変わってしま
う。例えば、同じ「削除する」という処理でも「文書フ
ァイルを削除する」方法と「ファイル中の文字を削除す
る」方法は処理方法が違うであろうし、「印刷できな
い」という記述と「印刷してください」という記述は、
同じ「印刷する」という動詞を使っているが、全く違う
文脈で使われる。これらのデータの検索に従来検索技術
を適用しても、普通の文章の検索と精度面では変わりが
なく、前述したノイズの問題は相変わらず残る。
【0005】
【課題を解決するための手段】そこで、本発明は以下に
より上記課題を解決する。 (1)文章データベースを構成する文章データの各々に
ついて、予め定義した条件に従って前記問題内容記述エ
リアに記述された文章から「処理内容の記述部分」と前
記処理内容に対応する「処理結果の記述部分」の少なく
とも一方を認定し、前記認定した記述部分の各々からキ
ーワードを抽出し、前記キーワードを当該文章データの
識別子および前記認定された記述部分と対応させてイン
デクスに格納しておき、ユーザが入力装置を介して入力
した「問題内容を表す文章」について、前記同様、予め
定義した条件に従って前記問題内容記述エリアに記述さ
れた文章から「処理内容の記述部分」と前記処理内容に
対応する「処理結果の記述部分」の少なくとも一方を認
定し、前記認定した記述部分の各々からキーワードを抽
出し、前記インデクス中のキーワードと比較・照合して
前記ユーザが入力した「問題内容を表す文章」と前記文
章データベースに格納された文章データの各々との間の
類似度を計算し、類似度の高い文章データから順に出力
装置を介してユーザに報知する。
【0006】(2)文章データベースを構成する文章デ
ータの各々について、予め定義した条件に従って前記問
題内容記述エリアに記述された文章から「処理内容の記
述部分」と前記処理内容に対応する「処理結果の記述部
分」の少なくとも一方を認定し、さらに、予め定義した
条件に従って前記記述部分の各々に含まれる「用言」と
「用言を修飾する語句」とを対にして抽出し、前記対を
当該文章データの識別子および前記認定された記述部分
と対応させてインデクスに格納しておき、ユーザが入力
装置を介して入力した「問題内容を表す文章」について
前記同様、予め定義した条件に従って前記問題内容記述
エリアに記述された文章から「処理内容の記述部分」と
前記処理内容に対応する「処理結果の記述部分」の少な
くとも一方を認定し、さらに、予め定義した条件に従っ
て前記記述部分の各々に含まれる「用言」と「用言を修
飾する語句」とを対にして抽出し、前記インデクス中の
「用言」と「用言を修飾する語句」の対と比較・照合し
て前記ユーザが入力した「問題内容を表す文章」と前記
文章データベースに格納された文章データの各々との間
の類似度を計算し、類似度の高い文章データから順に出
力装置を介してユーザに報知する。
【0007】(3)文章データベースを構成する文章デ
ータの各々について、予め定義した条件に従って前記問
題内容記述エリアに記述された文章から「処理内容の記
述部分」と前記処理内容に対応する「処理結果の記述部
分」の少なくとも一方を認定し、前記認定した記述部分
の各々からキーワードを抽出し、前記キーワードを当該
文章データの識別子および前記認定された記述部分と対
応させてインデクスに格納しておき、前記「処理内容の
記述部分」と前記処理内容に対応する「処理結果の記述
部分」を別々の入力エリアに入力させる問題内容記述テ
ンプレートを出力装置を介してユーザに出力し、入力装
置を介してユーザが前記テンプレートに入力した文章を
読み取って前記「処理内容の記述部分」と前記処理内容
に対応する「処理結果の記述部分」を認定し、前記認定
した記述部分の各々からキーワードを抽出し、前記イン
デクス中のキーワードと比較・照合して前記ユーザが入
力した「問題内容を表す文章」と前記文章データベース
に格納された文章データの各々との間の類似度を計算
し、類似度の高い文章データから順に出力装置を介して
ユーザに報知する。
【0008】(4)文章データベースを構成する文章デ
ータの各々について、予め定義した条件に従って前記問
題内容記述エリアに記述された文章から「処理内容の記
述部分」と前記処理内容に対応する「処理結果の記述部
分」の少なくとも一方を認定し、さらに、予め定義した
条件に従って前記記述部分の各々に含まれる「用言」と
「用言を修飾する語句」とを対にして抽出し、前記対を
当該文章データの識別子および前記認定された記述部分
と対応させてインデクスに格納しておき、前記「処理内
容の記述部分」と前記処理内容に対応する「処理結果の
記述部分」を別々の入力エリアに入力させ、かつ、各々
の入力エリアの中に「用言」と「用言を修飾する語句」
を別々の入力サブエリアに入力させる問題内容記述テン
プレートを出力装置を介してユーザに出力し、入力装置
を介してユーザが前記テンプレートに入力した文章を読
み取って前記「処理内容の記述部分」と前記処理内容に
対応する「処理結果の記述部分」を認定し、さらに、前
記記述部分の各々に含まれる「用言」と「用言を修飾す
る語句」とを対にして抽出し、前記インデクス中の「用
言」と「用言を修飾する語句」の対と比較・照合して前
記ユーザが入力した「問題内容を表す文章」と前記文章
データベースに格納された文章データの各々との間の類
似度を計算し、類似度の高い文章データから順に出力装
置を介してユーザに報知する。
【0009】(5)文章データベースを構成する文章デ
ータの各々について、(1)予め定義した条件に従って
前記問題内容記述エリアに記述された文章から「処理内
容の記述部分」と前記処理内容に対応する「処理結果の
記述部分」を認定し、さらに、予め定義した条件に従っ
て前記記述部分の各々に含まれる「用言」と「用言を修
飾する語句」とを対にして抽出し、(2)予め定義した
条件に従って前記問題原因記述エリアに記述された文章
から「用言」と「用言を修飾する語句」とを対にして抽
出し、(3)予め定義した条件に従って前記問題対策記
述エリアに記述された文章から「用言」と「用言を修飾
する語句」とを対にして抽出し、前記対を文章データの
識別子および前記記述エリアと対応させてインデクスに
格納するとともに出力装置を介してユーザに前記対デー
タの全てあるいは一部を前記記述エリア別に出力し、入
力装置を介してユーザが選択した前記対データの構成要
素を持つ文章データあるいは文章データに含まれる別の
記述エリアにおける対データを出力装置を介してユーザ
に報知する。
【0010】
【発明の実施の形態】本発明の実施例について、以下図
面を用いて詳細に説明する。なお、これにより本発明が
限定されるものではない。
【0011】本実施形態では、問題内容とその原因,対
策という三種類のデータが日本語で格納された文章デー
タベースを対象として、ユーザが検索操作を行なう場合
を想定して説明する。本発明は、ユーザが直接検索操作
を行なう場合でも、ユーザが第三者に問題を説明して第
三者に検索操作を行なわせる場合でも、どちらにも適用
可能である。
【0012】図1は本実施形態の概要を示す図である。
一つの文章データは問題内容を記述するエリアを示す問
題タグ、問題内容の原因を記述するエリアを示す原因タ
グ、問題内容の解決・対策を記述するエリアを示す対策
タグの三種類の記述エリア(タグ)から構成されてい
る。原因タグ、対策タグのどちらか一方は記述しなくて
も良いが、問題タグには必ず文章を記述する必要があ
る。
【0013】本実施形態では、このような文章データが
複数格納された文章データベースを検索する。そのため
に、まず、文書データの各々を自然言語解析し、予め定
義されたデータ抽出ルール(後述)に従ってある特定の
属性を持つキーワードを抽出する。図1では、問題タグ
に記述された文章「文書を印刷したら、用紙が詰まっ
た。」という文章を解析し、質問者が行なった処理内容
を記述した部分である「文書を印刷する」と、この処理
を実行した結果起こった現象を記述した部分である「用
紙が詰まった」を認定し、さらに、前者から用言「印刷
する」と、その用言を修飾する語句「文書」を抽出す
る。後者についても同様に、用言「詰まる」と修飾語句
「用紙」を抽出する。同様の抽出処理を、原因タグ,対
策タグに記述された文章について行なう。
【0014】図2から図4までは、質問者に問題内容を
記述入力させる画面例を示したものである。
【0015】図2は、質問者に問題内容を記述させる画
面であるが、ここでは、問題内容を記述させるエリア1
12のみを持たせている。質問者は今自分の抱えている
問題内容を任意の日本語文で記述する。後述するよう
に、システムは入力された文章を図1で説明したように
解析,分解してキーワードを抽出し、文章データベース
を検索する。
【0016】図3も、質問者に問題内容を記述させる画
面であるが、ここでは、問題内容の記述エリア112
を、「行なった(行ないたい)処理の内容131」と
「行なった処理の結果起こる現象132」の二つの入力
エリアに分けているのが特徴である。前者は質問者が行
なった処理であり、図1の文章の場合、「文書を印刷し
た」である。後者はその結果起こった現象であり、図1
の文章の場合、「用紙が詰まった」である。予め入力エ
リアを区別することにより、解析精度・処理性能を向上
させることができる。
【0017】図4も、質問者に問題内容を記述させる画
面であるが、ここでは、問題内容の記述エリアを図3の
ように二つのエリアに分けた後、さらに個々のエリアを
「用言」および「用言を修飾する語句」を記述するサブ
エリアに分けている。図4では、「用言を修飾する語
句」を記述するエリアとして、用言に対する主語・目的
語を使っている。各々のエリアには選択肢としていくつ
かの語句が提示されているが、これらは検索対象となる
文章データベースから予め抽出しておいたデータとする
こともできるし、人手で定義しておくこともできる。も
ちろん、あるサブエリアの値を確定した時に、他のサブ
エリアの値を絞り込んで選択肢の個数を少なくして提示
するインタフェースも可能である。
【0018】このように、問題内容とその原因・対策か
らなる文章において記述される問題内容は、「Aしたら
Bした」「Cしたい」「Dする方法は?」などある程度
構造的に類似した文が多いことに着目することにより、
問題内容の記述を簡素化することが可能となる。
【0019】図5は、本実施形態の処理の概要を示す図
である。本システムは、ユーザからの入力を受付け、ま
たシステムの処理結果をユーザに出力する入出力装置
1、ユーザからの指示に基づいて新たな文章データを文
章データベース8に登録する文章登録部2、単語辞書
9,同義語辞書10,データ抽出ルール11などを参照
することにより文章データベース8に格納された文章デ
ータの各々を解析してキーワード等のデータを抽出して
インデクス12を作成するインデクス生成部3、インデ
クスを加工してユーザが求めているデータを生成する表
示データ生成部4、生成されたデータを入出力装置を介
して出力するデータ表示部5、ユーザからの検索実行指
示に基づいて所望の文章データ等を検索する検索実行部
6、検索結果を入出力装置を介してユーザに出力する検
索結果表示部7からなる。
【0020】図6は、本実施形態で説明するシステムの
ハードウェア構成を示すである。システムは大きく、キ
ーボード51,マウス52等の入力装置、出力モニタ5
3等の出力装置,プログラムやデータを格納する記憶装
置60と、記憶装置からプログラムやデータをロードし
て各種の処理演算を実行する処理装置50からなる。ま
た、本システムを他の装置からアクセスするための計算
機ネットワークを持つことも可能である。
【0021】記憶装置60は、一時的にデータを保持す
るワーキングエリア61、インデクス生成部格納エリア
62、表示データ生成部格納エリア63、データ表示部
格納エリア64、検索実行部格納エリア65、検索結果
表示部格納エリア66、文章データベース格納エリア6
7、単語辞書格納エリア68、同義語辞書格納エリア6
9、データ抽出ルール格納エリア70、インデクス格納
エリア71、検索結果格納エリア72から構成される。
【0022】図7は、データ抽出ルール11のデータ構
造の一例を示す図である。データ抽出ルールは文章デー
タからある特定の情報を抽出するために適用されるルー
ルの集合である。本実施形態では、(1)文章中のある
部分が問題内容を表すのか、問題の原因を表すのか、問
題の解決・対策を表すのかを認定したり、(2)問題内
容については、処理の内容に関する記述か、その処理の
内容を行なった結果に関する記述かを認定したりするの
に使用する。
【0023】データ抽出ルール11は、ルールを適用す
る対象となる「種別501」、データを抽出する条件を
語句の品詞情報と使われる語句との組合せで表した「条
件502」、条件502を満たす部分が何かを表す「カ
テゴリ503」からなる。ここでは、用言(動詞)とそ
れを修飾する主語・目的語(名詞)を抽出するので、抽
出するデータは動詞と名詞の組であるが、その他の種類
の語句を抽出するためには、抽出するデータの情報を本
ルールの構成要素として記述する必要がある。
【0024】図7の第一行目のルールは、「もし、「問
題内容」を表す記述エリアの中に、「を」「が」を伴う
名詞が動詞の直前にあり、動詞の直後に「たら」という
語尾表現が続いた場合、その部分に現れる名詞および動
詞を対にして抽出して「処理内容1」というカテゴリを
属性として持たせる」ということを示している(後述す
るインデクスの構造と比較されたい)。例えば、図1の
「文書を印刷したら、用紙が詰まった」の「文書を印刷
したら」という部分は上記ルールを満たしている(ここ
では「印刷」を動詞(サ変動詞)として扱う)。
【0025】同様に、図1の「文書を印刷したら、用紙
が詰まった」の「用紙が詰まった」という部分は図7の
ルールの第四行目を満たすので、この部分のカテゴリを
「処理結果1」として認定する。
【0026】データ抽出ルール11のどのルールにも当
てはまらない文が存在することが考えられるが、この場
合、図7のルールの最後の行に記述しているように、
「その他」というカテゴリを付与する。
【0027】なお、これらのカテゴリ情報は、後述する
ように、検索実行部6で類似度の計算を行なう際に使用
したり、ユーザが問題内容を記述入力する際に提示する
選択肢情報を生成したりする際に使用したりするデータ
である。
【0028】図8は、インデクス12のデータ構造の一
例を示す図である。インデクス12は、各文章データか
ら抽出されたキーワード情報を格納する。ここでいうキ
ーワードとは、一つの単語で構成されることもあれば、
用言とそれを修飾する語句のように組になって構成され
ることもある。
【0029】インデクス12は、文章データを識別する
ID511、その文章データに出現するキーワード51
2、キーワードに係る語句513、キーワードが出現す
る記述エリアを示す種別514、キーワードが出現する
記述部分の属するカテゴリ515からなる。キーワード
が用言の場合、その終止形をキーワードとし、また、キ
ーワードに係る語句として、その用言を修飾する名詞と
して抽出された単語を記述する。例えば、図8の第一行
目は、キーワード「文書」が、001というIDを持つ
文章データの中の問題内容を記述するエリアの中の処理
内容を記述するエリア(カテゴリが処理内容1)に出現
することを示している。また、第二行目は、用言キーワ
ード「印刷」が「文書」という修飾語を伴って001と
いうIDを持つ文章データの中の処理内容を記述するエ
リア(カテゴリが処理内容1)に出現することを示して
いる。
【0030】インデクス12を構成するこれらの構成要
素は、後述するように、検索実行部6で類似度の計算を
行なう際に使用されたり、ユーザが問題内容を記述入力
する際に提示する選択肢情報を生成したりする際に使用
するデータである。
【0031】図9は、得点付けテーブル13のデータ構
造の一例を示す図である。質問者によって入力された問
題内容は、インデクス作成時と同様の処理によって分解
され、図8のインデクス12と同様のデータ構造を持つ
データとしてワーキングエリア61に一時的に格納され
る。
【0032】当該格納されたデータとインデクス12に
格納された文章データ別のデータとを照合することによ
り、文章データ別に類似度(得点)を付与する。その
際、図9に示す得点付けテーブルを参照する。基本的に
は同一あるいは近い属性値を持つ場合、類似度(得点)
を高くすることにより、より類似する文章データを検索
結果の上位にランク付けする。
【0033】図9に示すように、得点付けテーブル13
は、キーワード属性521、入力文キーワード属性値5
22、インデクス中のキーワード属性値523、対応す
る得点524から構成される。例えば、図1の文章デー
タが文章データベース8に格納されており、入力として
同一の問題内容記述文「文書を印刷したら、用紙が詰ま
った」が入力された場合、その類似度は以下の得点の合
計(26点)となる。 (1)キーワード「文書」について ・種別が共に「問題内容」であるので、プラス1点。 ・カテゴリが共に「処理内容1」であるので、プラス3
点。 ・共に動詞「印刷する」に係る語句なので、プラス1
点。 ・共に名詞なので、プラス1点。 (2)キーワード「印刷する」について ・種別が共に「問題内容」なのでプラス1点。 ・カテゴリが共に「処理内容1」であるので、プラス3
点。 ・共に動詞なので、プラス3点。 (3)キーワード「用紙」について ・種別が共に「問題内容」なのでプラス1点。 ・カテゴリが共に「処理結果1」であるので、プラス3
点。 ・共に動詞「詰まる」に係る語句なので、プラス1点。 ・共に名詞なので、プラス1点。 (4)キーワード「印刷する」について ・種別が共に「問題内容」なのでプラス1点。 ・カテゴリが共に「処理結果1」であるので、プラス3
点。 ・共に動詞なので、プラス3点。
【0034】もちろん、図9の得点付けの値は一例であ
り、この値をチューニングすることにより、異なる検索
結果を出力させることが可能である。
【0035】図10は、インデクス生成部3の処理手順
を示す図である。まずインデクス生成対象となる文章デ
ータを読み込む(ステップ211)。次に個々の文章デ
ータについて、まず、文章中のタグ(問題タグ,原因タ
グ,対策タグなど)に従って、どこからどこまでが問題
内容,問題原因,問題対策を記述した部分であるかを認
定する(ステップ212)。次に、認定された記述部分
のそれぞれについて、記述された文章を形態素解析し、
記述文章を構成する単語文字列を認定し、当該単語の属
性を単語辞書9および同義語辞書10を参照し抽出する
(ステップ213)。形態素解析処理については既に製
品も多く市販されており、技術的にも公知であるのでこ
こでの詳細な説明は割愛する。次に、データ抽出ルール
11を参照し、キーワードに関するデータを抽出し、イ
ンデクス12に格納、保持する(ステップ214)。
【0036】図11は、表示データ生成部4の処理手順
を示す図である。まず、インデクス12中のデータを読
み取る(ステップ221)。次に、インデクス12中の
キーワード512の各々について、その種別514、カ
テゴリ515、キーワードに係る語句513に基づい
て、キーワードを仕分けする(ステップ222)。次
に、ある特定の属性を持ったキーワード集合のみを抽出
して、データ表示部5に渡し、入出力装置1を介して質
問者に提示する(ステップ223)。ここでいう、ある
特定の属性とは、質問者によって入力を確定した構成要
素を示しており、例えば、図4において、質問者が問題
内容の記述で、「行なった(行ないたい)処理の内容」
の動詞を「印刷」と確定した場合、表示データ生成部4
は、その旨のデータを受け取り、問題内容の処理内容の
用言として「印刷」を持つ文章データ8の中から、動詞
「印刷」の「キーワードに係る語句(513)」に記述
されている語句を収集し、データ表示部5および入出力
装置1を介して図4のエリア143に表示し直す等の処
理を行なうことが可能である。
【0037】図12は、検索実行部6の処理手順を示す
図である。まず、質問者によって入力された検索条件を
読み取る(ステップ231)。次に、図10で説明した
のと同様の方法で入力された文章を解析してインデクス
12と同一のデータ構造を持つデータを生成し、一時的
にワーキングエリア61に格納する(ステップ23
2)。ただし、入力された検索条件が選択肢から選択さ
れたものである場合、形態素解析処理は不必要である。
次に、インデクス12及び得点付けテーブル13を前記
検索条件から抽出されたデータと照合し、文章データベ
ース8を構成する文章データ毎に類似度を計算する(ス
テップ233)。最後に、類似度をその大小によりソー
トし、類似度の高い上位N件の文章データのIDを検索
結果に格納する(ステップ234)。検索結果表示部7
で、格納された検索結果を取り込み、入出力装置1を介
して質問者に出力される。
【0038】図13は、検索実行結果画面の一例を示す
図である。ここでは、入力を「文書を印刷したら、用紙
が詰まった。」を入力とした場合の結果を示している。
上段に検索結果が5件あった旨のメッセージと、個々の
文章データの類似度、文章ID,文章データの冒頭部分
を出力している。一覧リストの左側にあるチェックボッ
クスを選択することにより、内容の表示(ボタン174
を押す)や、絞り込み検索176(技術的には公知なの
で詳細は割愛)も可能となる。
【0039】下段には、上記検索結果5件から抽出した
問題内容、原因、対策に関して、用言および用言を修飾
する語句の組を別々に表示している。同一の組が存在す
る場合、一つにまとめてその件数をカウントし表示す
る。それぞれの要素の左側にあるチェックボックスを選
択し、「問題検索」ボタン185を押すと、チェックさ
れた要素をもつ検索結果中の文章から問題内容に出現す
る用言および用言を修飾する語句を抽出して同様の形態
で表示する。同様に、「原因検索」ボタン186、対策
検索ボタン187を押すと、それぞれ、対応する「原
因」「対策」を表示する。
【0040】この機能により、例えば、まず検索条件を
入力して関連する文章データを集め、次にそれらの文章
データに書かれた対策情報を整理し、その中で選択した
対策情報に対応する問題内容をチェックして、本当に適
切な事例のみを取得するという作業が実現できる。
【0041】なお、本実施例では、入力として文章ある
いは選択肢から選択された単語集合を用いたが、その他
にも、特定の文章データを選択して、その文章データと
類似する他の文章データを検索することも可能である。
【0042】
【発明の効果】本発明によれば、問題内容とその原因・
対策方法を記述した文章に特化した文章解析を行なうこ
とにより、ユーザの要求により近い文章データを検索す
ることができる。予め文章データから問題内容とその原
因・対策方法に関する記述内容を抽出しておくことによ
り、ユーザが入力する際には選択肢の中から選択するこ
とができるので、ユーザ入力が簡素化される。さらに、
ある文章データについてその問題内容,原因あるいは対
策から類似文章あるいは類似文章を構成する問題内容、
原因あるいは対策を検索することも可能であり、幅広い
検索が実現できる。
【図面の簡単な説明】
【図1】本実施形態の概要イメージを示す図。
【図2】本実施形態の画面出力の一例を示す図。
【図3】本実施形態の画面出力の他の一例を示す図。
【図4】本実施形態の画面出力の他の一例を示す図。
【図5】本実施形態の処理概要を示す図。
【図6】本実施形態のハードウェア構成を示す図。
【図7】本実施形態のデータ抽出ルールのデータ構造の
一例を示す図。
【図8】本実施形態のインデクスのデータ構造の一例を
示す図。
【図9】本実施形態の得点付けテーブルのデータ構造の
一例を示す図。
【図10】本実施形態のインデクス作成部の処理ステッ
プを示す図。
【図11】本実施形態の表示データ生成部の処理ステッ
プを示す図。
【図12】本実施形態の検索実行部の処理ステップを示
す図。
【図13】本実施形態の検索結果出力の一例を示す図。
【符号の説明】
1…入出力装置、2…文章登録部、3…インデクス作成
部、3a…文章記述エリア認識、3b…文章解析、3c
…キーワードデータ抽出、4…表示データ生成部、5…
データ表示部、6…検索実行部、7…検索結果表示部、
8…文章データ、9…単語辞書、10…同義語辞書、1
1…データ抽出ルール、12…インデクス、13…得点
付けテーブル
───────────────────────────────────────────────────── フロントページの続き (72)発明者 森本 由起子 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 衣川 一久 神奈川県横浜市戸塚区信濃町504番地2 日立電子サービス株式会社 Fターム(参考) 5B075 ND03 NK32 PQ74 PR06

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】問題内容を文章で記述した問題内容記述エ
    リアと、「前記問題の原因を文章で記述した問題原因記
    述エリアと前記問題の解決・対策方法を文章で記述した
    問題対策記述エリアの少なくとも一つのエリア」を構成
    要素として持つ文章データを複数格納した文章データベ
    ースを検索するシステムにおける検索方法であって、前
    記文章データの各々について、予め定義した条件に従っ
    て前記問題内容記述エリアに記述された文章から「処理
    内容の記述部分」と前記処理内容に対応する「処理結果
    の記述部分」の少なくとも一方を認定し、前記認定した
    記述部分の各々からキーワードを抽出し、前記キーワー
    ドを当該文章データの識別子および前記認定された記述
    部分と対応させてインデクスに格納しておき、ユーザが
    入力装置を介して入力した「問題内容を表す文章」につ
    いて、前記同様、予め定義した条件に従って前記問題内
    容記述エリアに記述された文章から「処理内容の記述部
    分」と前記処理内容に対応する「処理結果の記述部分」
    の少なくとも一方を認定し、前記認定した記述部分の各
    々からキーワードを抽出し、前記インデクス中のキーワ
    ードと比較・照合して前記ユーザが入力した「問題内容
    を表す文章」と前記文章データベースに格納された文章
    データの各々との間の類似度を計算し、類似度の高い文
    章データから順に出力装置を介してユーザに報知するこ
    とを特徴とする文書検索方法。
  2. 【請求項2】問題内容を文章で記述した問題内容記述エ
    リアと、「前記問題の原因を文章で記述した問題原因記
    述エリアと前記問題の解決・対策方法を文章で記述した
    問題対策記述エリアの少なくとも一つのエリア」を構成
    要素として持つ文章データを複数格納した文章データベ
    ースを検索するシステムにおける検索方法であって、前
    記文章データの各々について、予め定義した条件に従っ
    て前記問題内容記述エリアに記述された文章から「処理
    内容の記述部分」と前記処理内容に対応する「処理結果
    の記述部分」の少なくとも一方を認定し、さらに、予め
    定義した条件に従って前記記述部分の各々に含まれる
    「用言」と「用言を修飾する語句」とを対にして抽出
    し、前記対を当該文章データの識別子および前記認定さ
    れた記述部分と対応させてインデクスに格納しておき、
    ユーザが入力装置を介して入力した「問題内容を表す文
    章」について前記同様、予め定義した条件に従って前記
    問題内容記述エリアに記述された文章から「処理内容の
    記述部分」と前記処理内容に対応する「処理結果の記述
    部分」の少なくとも一方を認定し、さらに、予め定義し
    た条件に従って前記記述部分の各々に含まれる「用言」
    と「用言を修飾する語句」とを対にして抽出し、前記イ
    ンデクス中の「用言」と「用言を修飾する語句」の対と
    比較・照合して前記ユーザが入力した「問題内容を表す
    文章」と前記文章データベースに格納された文章データ
    の各々との間の類似度を計算し、類似度の高い文章デー
    タから順に出力装置を介してユーザに報知することを特
    徴とする文書検索方法。
  3. 【請求項3】問題内容を文章で記述した問題内容記述エ
    リアと、「前記問題の原因を文章で記述した問題原因記
    述エリアと前記問題の解決・対策方法を文章で記述した
    問題対策記述エリアの少なくとも一つのエリア」を構成
    要素として持つ文章データを複数格納した文章データベ
    ースを検索するシステムにおける検索方法であって、前
    記文章データの各々について、予め定義した条件に従っ
    て前記問題内容記述エリアに記述された文章から「処理
    内容の記述部分」と前記処理内容に対応する「処理結果
    の記述部分」の少なくとも一方を認定し、前記認定した
    記述部分の各々からキーワードを抽出し、前記キーワー
    ドを当該文章データの識別子および前記認定された記述
    部分と対応させてインデクスに格納しておき、前記「処
    理内容の記述部分」と前記処理内容に対応する「処理結
    果の記述部分」を別々の入力エリアに入力させる問題内
    容記述テンプレートを出力装置を介してユーザに出力
    し、入力装置を介してユーザが前記テンプレートに入力
    した文章を読み取って前記「処理内容の記述部分」と前
    記処理内容に対応する「処理結果の記述部分」を認定
    し、前記認定した記述部分の各々からキーワードを抽出
    し、前記インデクス中のキーワードと比較・照合して前
    記ユーザが入力した「問題内容を表す文章」と前記文章
    データベースに格納された文章データの各々との間の類
    似度を計算し、類似度の高い文章データから順に出力装
    置を介してユーザに報知することを特徴とする文書検索
    方法。
  4. 【請求項4】問題内容を文章で記述した問題内容記述エ
    リアと、「前記問題の原因を文章で記述した問題原因記
    述エリアと前記問題の解決・対策方法を文章で記述した
    問題対策記述エリアの少なくとも一つのエリア」を構成
    要素として持つ文章データを複数格納した文章データベ
    ースを検索するシステムにおける検索方法であって、前
    記文章データの各々について、予め定義した条件に従っ
    て前記問題内容記述エリアに記述された文章から「処理
    内容の記述部分」と前記処理内容に対応する「処理結果
    の記述部分」の少なくとも一方を認定し、さらに、予め
    定義した条件に従って前記記述部分の各々に含まれる
    「用言」と「用言を修飾する語句」とを対にして抽出
    し、前記対を当該文章データの識別子および前記認定さ
    れた記述部分と対応させてインデクスに格納しておき、
    前記「処理内容の記述部分」と前記処理内容に対応する
    「処理結果の記述部分」を別々の入力エリアに入力さ
    せ、かつ、各々の入力エリアの中に「用言」と「用言を
    修飾する語句」を別々の入力サブエリアに入力させる問
    題内容記述テンプレートを出力装置を介してユーザに出
    力し、入力装置を介してユーザが前記テンプレートに入
    力した文章を読み取って前記「処理内容の記述部分」と
    前記処理内容に対応する「処理結果の記述部分」を認定
    し、さらに、前記記述部分の各々に含まれる「用言」と
    「用言を修飾する語句」とを対にして抽出し、前記イン
    デクス中の「用言」と「用言を修飾する語句」の対と比
    較・照合して前記ユーザが入力した「問題内容を表す文
    章」と前記文章データベースに格納された文章データの
    各々との間の類似度を計算し、類似度の高い文章データ
    から順に出力装置を介してユーザに報知することを特徴
    とする文書検索方法。
  5. 【請求項5】請求項2あるいは請求項4記載の文書検索
    方法について、前記文章データベースからテンプレート
    に入力すべき「用言」と「用言を修飾する語句」を抽出
    して出力装置を介してユーザに提示し、入力装置を介し
    てユーザが選択した値をテンプレートに埋め込むことを
    特徴とする文書検索方法。
  6. 【請求項6】請求項1から請求項5のいずれかに記載の
    文書検索方法について、前記類似度は、抽出されたキー
    ワードが文章データに含まれるか、抽出されたキーワー
    ドが上記エリアのどこに出現したか、「用言」なのか
    「用言を修飾する語句」なのか、の少なくとも一つに基
    づいて算出することを特徴とする文書検索方法。
  7. 【請求項7】問題内容を文章で記述した問題内容記述エ
    リアと、「前記問題の原因を文章で記述した問題原因記
    述エリアと前記問題の解決・対策方法を文章で記述した
    問題対策記述エリアの少なくとも一つのエリア」を構成
    要素として持つ文章データを複数格納した文章データベ
    ースを検索するシステムにおける検索方法であって、前
    記文章データの各々について、(1)予め定義した条件
    に従って前記問題内容記述エリアに記述された文章から
    「処理内容の記述部分」と前記処理内容に対応する「処
    理結果の記述部分」を認定し、さらに、予め定義した条
    件に従って前記記述部分の各々に含まれる「用言」と
    「用言を修飾する語句」とを対にして抽出し、(2)予
    め定義した条件に従って前記問題原因記述エリアに記述
    された文章から「用言」と「用言を修飾する語句」とを
    対にして抽出し、(3)予め定義した条件に従って前記
    問題対策記述エリアに記述された文章から「用言」と
    「用言を修飾する語句」とを対にして抽出し、前記対を
    文章データの識別子および前記記述エリアと対応させて
    インデクスに格納するとともに出力装置を介してユーザ
    に前記対データの全てあるいは一部を前記記述エリア別
    に出力し、入力装置を介してユーザが選択した前記対デ
    ータの構成要素を持つ文章データあるいは文章データに
    含まれる別の記述エリアにおける対データを出力装置を
    介してユーザに報知することを特徴とする文書検索方
    法。
  8. 【請求項8】請求項1から請求項7のいずれかに記載の
    文書検索方法を実施するプログラムを記憶したことを特
    徴とするコンピュータ読み取り可能な記憶媒体。
  9. 【請求項9】請求項1から請求項7のいずれかに記載の
    文書検索方法を具備した文書検索装置。
JP2001173398A 2001-06-08 2001-06-08 情報検索方法 Pending JP2002366556A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001173398A JP2002366556A (ja) 2001-06-08 2001-06-08 情報検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001173398A JP2002366556A (ja) 2001-06-08 2001-06-08 情報検索方法

Publications (1)

Publication Number Publication Date
JP2002366556A true JP2002366556A (ja) 2002-12-20

Family

ID=19014863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001173398A Pending JP2002366556A (ja) 2001-06-08 2001-06-08 情報検索方法

Country Status (1)

Country Link
JP (1) JP2002366556A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012039122A1 (ja) * 2010-09-22 2012-03-29 日本電気株式会社 顧客応対分析システム、顧客応対分析方法および顧客応対分析プログラム
JP2017097534A (ja) * 2015-11-20 2017-06-01 株式会社オウケイウェイヴ クライアントシステム及びサーバ
JP2018005402A (ja) * 2016-06-29 2018-01-11 日本電気株式会社 課題推定装置、課題推定方法及びプログラム
JP7404713B2 (ja) 2018-12-18 2023-12-26 富士電機株式会社 対応提示装置および対応提示方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012039122A1 (ja) * 2010-09-22 2012-03-29 日本電気株式会社 顧客応対分析システム、顧客応対分析方法および顧客応対分析プログラム
JP2017097534A (ja) * 2015-11-20 2017-06-01 株式会社オウケイウェイヴ クライアントシステム及びサーバ
JP2018005402A (ja) * 2016-06-29 2018-01-11 日本電気株式会社 課題推定装置、課題推定方法及びプログラム
JP7404713B2 (ja) 2018-12-18 2023-12-26 富士電機株式会社 対応提示装置および対応提示方法

Similar Documents

Publication Publication Date Title
Amjad et al. “Bend the truth”: Benchmark dataset for fake news detection in Urdu language and its evaluation
JP4306894B2 (ja) 自然言語処理装置及びその方法、及び自然言語認識装置
JP4701292B2 (ja) テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JPH0424869A (ja) 文書処理システム
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JPWO2005096182A1 (ja) 情報抽出システム
JP4967037B2 (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
JP4426894B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
Xu et al. Using SVM to extract acronyms from text
JP3596210B2 (ja) 関連語辞書作成装置
KR20120042562A (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
JPH05120345A (ja) キーワード抽出装置
JPH09198395A (ja) 文書検索装置
JP4005343B2 (ja) 情報検索システム
JP2004355550A (ja) 自然文検索装置、その方法及びプログラム
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP2005115468A (ja) テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP2002366556A (ja) 情報検索方法
JP2010266971A (ja) 端末装置
JP2006119697A (ja) 質問応答システム、質疑応答方法および質疑応答プログラム
Sawalha et al. Linguistically informed and corpus informed morphological analysis of Arabic
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム