JPH0944522A - キーワード抽出装置 - Google Patents

キーワード抽出装置

Info

Publication number
JPH0944522A
JPH0944522A JP7208556A JP20855695A JPH0944522A JP H0944522 A JPH0944522 A JP H0944522A JP 7208556 A JP7208556 A JP 7208556A JP 20855695 A JP20855695 A JP 20855695A JP H0944522 A JPH0944522 A JP H0944522A
Authority
JP
Japan
Prior art keywords
keyword
analysis
extracted
storage means
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7208556A
Other languages
English (en)
Other versions
JP3508312B2 (ja
Inventor
Akio Yamashita
明男 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP20855695A priority Critical patent/JP3508312B2/ja
Publication of JPH0944522A publication Critical patent/JPH0944522A/ja
Application granted granted Critical
Publication of JP3508312B2 publication Critical patent/JP3508312B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 全文検索用のインデックスを作成するとき
に、検索式に指定される可能性のあるキーワードを登録
時に漏れなく抽出することができる。 【解決手段】 文節候補解析手段は、テキスト内容に対
して日本語の文節構造規則を満足する単語の組合せを解
析し、その解析の結果得られた文節候補は文節候補記憶
手段に保持される。解析結果抽出手段は、文節候補記憶
手段の内容からコストが最小になる単語の組合せを抽出
し、その結果は解析結果記憶手段に記憶される。抽出条
件記憶手段は、キーワードを抽出する時の条件を記憶す
る。第1および第2のキーワード抽出手段は、それぞれ
文節候補記憶手段および解析結果記憶手段の内容から抽
出条件記憶手段16の条件に合致するものをキーワード
として抽出し、抽出キー記憶手段19は、抽出されたキ
ーワードを記憶する。形態素解析における中間結果であ
る文節候補からもキーワードを抽出するので、検索の漏
れをなくする全文検索用のキーワードの抽出ができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、全文検索において、あ
らかじめ検索するために登録する文書に対するインデッ
クスを作成し、検索時はそのインデックスを利用して入
力されたキーワードとインデックスとを比較して文書を
特定する技術に関し、特にインデックス作成のためのキ
ーワード抽出装置に関する。
【0002】
【従来の技術】文書を文書検索装置に登録する際に、そ
の文書のキーワードとなる単語を抽出し、文書に対する
索引(インデックス)を作成することが、従来から行わ
れている。キーワードを抽出する技術に関しては、例え
ば、次のような文献が公開されている。
【0003】[1]特開平61−151738号公報
(発明の名称「キーワード抽出装置」) この文献には、文字種と文字数からなるキーワード抽出
規則を用いて、文書からキーワードを抽出することが開
示されている。
【0004】[2]特開平5−006398号公報(発
明の名称「文書登録装置及び文書検索装置」) この文献には、文書またはキーワードを字種の変化点で
区切り、連続する2文字の組をコード化し、インデック
スとすること、また、平仮名の区間はコード化しないこ
と等が開示されている。
【0005】[3]特開平3−116375号公報(発
明の名称「情報検索装置」) この文献には、単語辞書を用いてキーワードが複合語か
単純語かを判定し、複合語であればそのキーワードを構
成する単純語に分割し、すべての単純語をキーワードと
して保持させることが開示されている。
【0006】[4]特開平5−81328号公報(発明
の名称「キーワード自動入力システム」) この文献には、日本語の文章データに対して、文章を文
節に分解し、得られた文節データから品詞解析をおこな
って名詞データを抽出し、抽出された名詞データとこの
データが記述されている文章中の箇所をあらわすデータ
とにより索引データを作成することが開示されている。
【0007】
【発明が解決しようとする課題】特開昭61−1517
38号公報記載の技術では、キーワード抽出規則に合致
するもののみを抽出するので、抽出したキーワードが複
合的なものであるときにそれを構成する単語を抽出する
ことができない。また、読みを抽出できないし、活用の
変化を吸収することもできない。
【0008】特開平5−006398号公報記載の技術
では、平仮名の区間はコード化せず、2文字を単位とし
てコード化するので、「読み取り」などの平仮名と漢字
を組合せたキーワードを抽出することができない。ま
た、読みの抽出や活用の変化の吸収ができない。
【0009】特開平3−116375号公報記載の技術
では、複合語を辞書に登録しておかなければならない
が、これは現実的には難しい。読みの抽出や活用の変化
の吸収ができない。
【0010】特開平5−81328号公報記載の技術で
は、文節に複合語が含まれる場合に、複合語を1つの語
として抽出するので、複合語を構成する単語を抽出する
ことができない。また、抽出されるキーワードが名詞に
限定されるし、読みの抽出や活用の変化を吸収すること
ができない。
【0011】以上のように、従来の技術では、キーワー
ドの抽出において制限が多く、検索に有用なキーワード
を漏れなく抽出することが困難であった。本発明は、上
述の従来技術の問題点を解決し、全文検索用のインデッ
クスを作成するときに、検索式に指定される可能性のあ
るキーワードを登録時に漏れなく抽出することができる
ようにすることを目的とするものである。
【0012】
【課題を解決するための手段】本発明のキーワード抽出
装置は、キーワードを抽出する対象文書中のテキストを
形態素解析する解析手段(12、14)と、その解析手
段による解析の中間結果と、最終的な結果を記憶する解
析結果記憶手段(13、15)と、キーワードを決定す
るための条件を記憶する条件記憶手段(16)と、解析
手段により得られた解析の中間結果および最終結果から
条件記憶手段の保持する条件を満たすものをキーワード
として抽出するキーワード抽出手段(17、18)とを
備えたものである。
【0013】また、本発明のキーワード抽出装置は、キ
ーワード抽出の対象文書のテキストの内容を記憶する入
力記憶手段(11)と、日本語の文節構造規則を満足す
る単語の組合せを解析して文節候補を抽出する文節候補
解析手段(12)と、文節候補解析手段により解析、抽
出されたされた結果を記憶する文節候補記憶手段(1
3)と、文節候補記憶手段の内容からコストが最小にな
る単語の組合せを抽出する解析結果抽出手段(14)
と、解析結果抽出手段の抽出した解析結果を記憶する解
析結果記憶手段(15)と、文節候補記憶手段の内容あ
るいは解析結果記憶手段の内容からキーワードを抽出す
るときの条件を記憶する抽出条件記憶手段(16)と、
文節候補記憶手段の内容から抽出条件記憶手段の条件に
合致するものをキーワードとして抽出する第1キーワー
ド抽出手段(17)と、解析結果記憶手段の内容から抽
出条件記憶手段の条件に合致するものをキーワードとし
て抽出する第2キーワード抽出手段(18)と、第1キ
ーワード抽出手段の抽出したキーワードおよび第2キー
ワード抽出手段の抽出したキーワードを記憶する抽出キ
ーワード記憶手段(19)とを備えたものである。
【0014】
【作用】解析手段は、対象文書中のテキストを形態素解
析して、解析結果の情報を解析結果記憶手段に記憶す
る。キーワード抽出手段は、条件記憶手段に保持された
キーワードを決定するための条件を用いて、解析結果記
憶手段の保持する解析の結果得られた情報から、キーワ
ードを抽出する。前記の解析結果の情報としては、形態
素解析の最終的な結果だけでなく、形態素解析の中間結
果である文節候補も含んでおり、その文節候補からもキ
ーワードを抽出することができる。例えば、形態素解析
の結果最終的に得られる複合語だけでなく、形態素解析
の中間的な結果として得られる複合語の要素である単語
を抽出したりカタカナ文字列の中に含まれる単語を抽出
することができる。したがって、検索の漏れをなくする
全文検索用のキーワードの抽出ができる。また、解析結
果の情報として、語の表記だけでなく読みや品詞の情報
があるが、これらの読みや品詞の情報から、終止形に戻
したり、読みを抽出したり、抽出するキーワードを品詞
によって選別したりすることを、キーワードを抽出する
ときの条件とすることができる。このように抽出したキ
ーワードを用いて検索する際には、検索用のキーワード
の設定の許容幅が広くなり、検索の漏れが少なくなる。
【0015】本発明の具体的態様(請求項4)の動作概
要は、次の通りである。文節候補解析手段は、テキスト
内容に対して日本語の文節構造規則を満足する単語の組
合せを解析し、その解析の結果得られた文節候補は文節
候補記憶手段に保持される。解析結果抽出手段は、文節
候補記憶手段の内容からコストが最小になる単語の組合
せを抽出し、その結果は解析結果記憶手段に記憶され
る。抽出条件記憶手段は、キーワードを抽出する時の条
件を記憶する。第1および第2のキーワード抽出手段
は、それぞれ文節候補記憶手段および解析結果記憶手段
の内容から抽出条件記憶手段の条件に合致するものをキ
ーワードとして抽出し、抽出キー記憶手段は、抽出され
たキーワードを記憶する。従来技術では、形態素解析の
最終的な結果からキーワードを抽出するので、複合語の
場合にその要素である単語をキーワードとすることはで
きなかったが、本発明では、形態素解析における中間結
果である文節候補記憶手段の記憶内容からもキーワード
を抽出するので、検索の漏れの少ない全文検索用のキー
ワードの抽出ができる。
【0016】
【実施例】図1は、本発明の実施例によるキーワード抽
出装置の概略を示す機能ブロック図である。このキーワ
ード抽出装置は、入力記憶手段11、文節候補解析手段
12、文節候補記憶手段13、解析結果抽出手段14、
解析結果記憶手段15、抽出条件記憶手段16、第1キ
ー抽出手段17、第2キー抽出手段18、および抽出キ
ー記憶手段19を備えてなるものである。各要素の機能
は以下の通りである。
【0017】入力記憶手段11は、登録文書のテキスト
内容を記憶する。文節候補解析手段12は、後述する解
析辞書や接続テーブルを参照して、日本語の文節構造規
則を満足する単語の組合せを解析して抽出する。文節候
補記憶手段13は、文節候補解析手段12の解析結果得
られた文節候補を記憶する。解析結果抽出手段14は、
文節候補記憶手段13の内容からコストが最小になる単
語の組合せを抽出する。解析結果記憶手段15は、解析
結果抽出手段14の抽出結果を記憶する。抽出条件記憶
手段16は、文節候補記憶手段13や解析結果記憶手段
15の内容からキーを抽出する時の条件を記憶する。第
1キー抽出手段17は、文節候補記憶手段13の内容か
ら抽出条件記憶手段16の条件に合致する解析結果から
キーを抽出する。第2キー抽出手段18は、解析結果記
憶手段15の内容から抽出条件記憶手段16の条件に合
致する解析結果からキーを抽出する。抽出キー記憶手段
19は、第1キー抽出手段17および第2キー抽出手段
18が抽出したキーを記憶する。
【0018】日本語の形態素解析は、分かち書きされて
いない日本語の文章から単語や文節の情報を解析する処
理である。本実施例は、コスト最小法と呼ばれる形態素
解析に基いている。コスト最小法とは、文節数最小法
(複数の解析結果がある場合に文節の数が最小となるも
のを優先する解析方法)を拡張したもので、単語候補に
コストを割り当て全体のコストが最小となる解析結果を
優先するものである(吉村・日高・吉田:未登録語を含
む日本語の形態素解析のアルゴリズム、九州大学工学集
報、Vol.55、No.6,1982参照)。なお、
文節数最小法は、自立語のコストを1にして、付属のコ
ストを0とした時のコスト最小法に相当する。
【0019】図2は、文節候補解析手段12が解析時に
参照する辞書の一例を示す図である。辞書は、日本語の
文節を構成する単語の情報を格納したもので、各単語に
ついて、見出し21、品詞22、読み23、コスト2
4、その他情報25を保持している。
【0020】図3は、文節候補解析手段12が解析時に
参照する接続テーブルの一例を示す図である。接続テー
ブルは辞書で定義された品詞情報を用いて隣接する2つ
の単語が接続可能かどうかを定義した二次元の配列であ
る。行の品詞は隣接する単語の左側の単語の品詞をあら
わし、列の品詞は隣接する単語の右側の単語の品詞をあ
らわす。配列要素の値が1であれば、接続可能であり、
その値が0であれば接続不可能を意味する。列の品詞で
仮想的な文節の先頭とあるが、これはある単語が文節の
末尾になりうるかどうかを判定するために設けたもので
ある。
【0021】実施例において入力文の解析では、前述の
コスト最小法に基づく形態素解析のアルゴリズムにした
がって解析を行う。このアルゴリズムでは、まず、入力
文に含まれる単語を辞書を用いて切り出し、直前の単語
候補との接続チェック、文節末の判定、コスト更新の処
理を行い、文節候補を抽出する。つぎに、文頭からのコ
ストの総和が最小となるような解析結果を文節候補の中
から抽出する。
【0022】図4は、実施例の動作を示すフローチャー
トである。 ステップS1では、登録対象のテキスト内
容を入力記憶手段11に格納する。ステップS2では、
入力記憶手段11に記憶されたテキストから句点や改行
を手掛かりにして文章を抽出する。ステップ3では、文
章が抽出されたかどうかを判定する。文章が抽出されな
ければ、テキスト中の文章をすべて処理したので処理を
終了する。文章が抽出されれば、処理をステップ4に進
める。ステップ4では、文章を解析し、文節の候補を求
め、結果を文節候補記憶手段13に記憶する。ステップ
4はコスト最小法の最初のステップに対応する。ステッ
プ5では、文節候補記憶手段13からコストが最小とな
る文節構造を抽出し、解析結果記憶手段15に抽出結果
を格納する。ステップ5はコスト最小法の2番目のステ
ップに対応する。ステップ6では、第2キー抽出手段1
8が、解析結果記憶手段15の中から抽出条件記憶手段
16に記憶された抽出条件にマッチするキーを抽出し抽
出キー記憶手段19に記憶する。ステップ7では、第1
キー抽出手段17が、文節候補記憶手段13の中から抽
出条件記憶手段16に記憶された抽出条件にマッチする
キーを抽出し、抽出キー記憶手段19に記憶する。
【0025】図5(a)は第1キー抽出手段17や第2
キー抽出手段18が参照する抽出条件の一例を示した説
明図である。抽出条件として品詞51とその品詞の語の
長さの条件を表す文字数下限52とを対応させている。
この例では、抽出条件として、一般名詞については長さ
が2文字以上のものを抽出し、固有名詞については長さ
が1文字以上のものを抽出し、辞書登録外(例えば英数
字やカタカナなど)については長さが2文字以上のもの
を抽出することを条件としている。
【0026】図5(b)は登録対象文書の内容の一部を
示す内容例である。対象文書に、「テキストファイルに
書き込みます。」という文章53があるものとする。図
5(c)は、文章の文字の境界位置を例示したもので、
解析結果や抽出キーの範囲を始点と終点で表現する場合
に参照する位置情報を示す図である。例えば、「テキス
ト」という文字列は、0と4の範囲に存在する。
【0027】以下、図5(b)に示す文章からキーワー
ドを抽出する動作について具体的に説明する。図4のス
テップS1において、「テキストファイルに書き込みま
す。」という文章を含むテキストを入力記憶手段11に
格納する。ステップS2では句点「。」、改行、ファイ
ルの終端かどうかを手掛かりにして文章を抽出する。以
下の説明では、ある時点で「テキストファイルに書き込
みます。」という文章を抽出したときのステップS2以
降の処理について説明する。ステップS3において文章
が抽出されたので処理をステップS4に進める。ステッ
プS4において、コスト最小法の最初のステップを実行
する。図5(c)に示す各境界位置(0,1,2,…1
5)から始まる単語の候補を図2に例示するような辞書
を検索して求める。また連続するカタカナやアルファベ
ットについては、未登録語の可能性もあるので連続する
カタカナは、適切な品詞情報(実施例では辞書登録外)
とコスト(実施例では80とする)を付与して名詞性の
未登録語として切り出し、あたかも辞書に登録されてい
たかのように扱う。辞書情報を得た後、その辞書内容を
元に直前の単語候補と接続可能かどうかを調べ、接続可
能であれば辞書情報と先頭からのコストの総和の最小値
を計算し、文節候補記憶手段13に記憶する。
【0028】現在の文章の先頭の文字列は「テキスト
…」であり、「テ」「テキ」「テキス」「テキスト」と
いった入力文字列の部分文字列の辞書情報を図2に例示
するような辞書を検索して求める。その結果、「テキス
ト」が検索される。また、先頭の文字「テ」がカタカナ
であるので後続するカタカナ文字列も切り出す。その結
果「テキストファイル」が切り出される。図6のNo
1,No4の文節候補が文節候補記憶手段3に記憶され
る。品詞はそれぞれ名詞類と辞書登録外である。コスト
については、それぞれ70、80であり文頭のコストは
0としているので、文頭からのコストの総和である7
0、80となる。文節末情報は、0であれば、文節末に
なれず、1以上であれば文節末になれることを意味す
る。
【0029】次の切り出し位置は、抽出した単語候補の
終了位置の中で最も小さい位置とする。この場合、「テ
キスト」と「テキストファイル」が抽出されているの
で、最小の終了位置は4である。従って、図5(c)に
定義したように、「ファイルに…」に対して文節候補の
切り出しを行う。この場合ファイル(辞書登録外)とフ
ァイル(名詞類・サ変の語幹)が切り出され、文節候補
記憶手段3のNo2,No3のような文節候補が記憶さ
れる。自分自身のコストは、80と70である。文頭か
らのコストの総和は、開始位置のコストの総和の最小値
(この場合は4番目の位置の最小値)70に自分自身の
コストを加えたもので150と140となる。以後、同
様に処理を進めステップS4の実行後には、図6に示す
ような文節候補が文節候補記憶手段13に記憶される。
【0030】次のステップS5において、コスト最小法
の2番目のステップを実行する。文節候補記憶手段13
からコストが最小となる文節構造を抽出し、解析結果記
憶手段15に抽出結果を格納する。具体的には、最後尾
の文節候補のうち先頭からコストの総和が最小のものを
抽出し、この文節構造と接続可能な文節候補を文末から
文頭に向かって抽出する。接続可能かどうかは、隣接し
ていること、コスト上接続可能なこと、接続テーブルで
接続が定義されているかどうかで判断する。図6に示す
文節候補記憶手段13の内容において、最後尾の文節候
補は「。」である。この開始位置は15で、自分自身の
コストは300で、コストの総和は445である。これ
に接続する直前の文節候補は、終了位置が15でコスト
の総和が145であり、接続テーブルで接続が定義され
たもの、すなわち図6のNo39の文節候補である。以
下同様にして文末側から文頭側に向かってコスト最小と
なる文節候補を抽出した結果を図7(a)に示す。図7
(a)の内容はいわゆる形態素解析結果となる。
【0031】次のステップS6では、第2キー抽出手段
18が、図7(a)の解析結果記憶手段15の中から図
5(a)の抽出条件記憶手段16に記憶された抽出条件
にマッチするキーを抽出し、抽出キー記憶手段19に記
憶する。ここでも、既に抽出した表記については重複し
た抽出は行わない、ステップS6を実行した結果「テキ
ストファイル」が抽出され、図7(b)のNo1に示す
ような内容を抽出キー記憶手段に登録する。
【0032】次のステップS7において、第1キー抽出
手段17が、図6に示す文節候補記憶手段13の記憶内
容中から、図5(a)の抽出条件記憶手段16に記憶さ
れた抽出条件にマッチするキーワードを抽出し、抽出キ
ー記憶手段19に記憶する。図7(b)のNo2からN
o6がステップS7において抽出したキーの内容であ
る。ここで、表記が同じものは重複して抽出しないの
で、図6のNo2,No3の「ファイル」については、
一方しか抽出しない。ステップS7の処理後、ステップ
S2に戻り次の文章に対してステップS2からステップ
S7の処理を文章が抽出できなくなるまで繰り返す。図
4において、ステップS6とステップS7を入れ換え
て、重複したキーの抽出を行わないようにすることで、
同様の効果を得ることができる。
【0033】「テキストファイルに書き込みます。」と
いう文章の形態素解析結果を図7(a)に示している
が、この解析結果から図5(a)に示すような抽出条件
でキーを抽出すると「テキストファイル」だけが抽出さ
れる。このようなキーを用いて全文検索用のインデック
スを作成した場合、「テキスト」「ファイル」「書き込
み」「込み」「ます」といった名詞性の検索語を指定し
て、「テキストファイルに書き込みます。」を含む文書
を検索できなかった。本実施例によれば、図6に示すよ
うな解析の中間結果からも図7(b)に示すようなキー
を抽出するので、「テキストファイルに書き込みま
す。」を含む文書を「テキストファイル」「テキスト」
「ファイル」「書き込み」「込み」「ます」といった名
詞性の検索語から検索できるようになり、検索の漏れを
なくすことができる。
【0034】本発明は、以上に説明した実施例の一部を
次のように変形もしくは置換して実施することもでき
る。
【0035】(1) 図4のステップS6、ステップS
7のキーワードの抽出においてキーワードの表記だけで
なく読みをも抽出するようにする。表記がカタカナの場
合、読みはコード変換することで得られるのでカタカナ
のままでもよい。カタカナの読みを抽出しない場合、検
索語がひらがなの場合カタカナの検索語も生成して検索
する。そのように構成することにより「テキストファイ
ル」「テキスト」「ファイル」「書き込み」「込み」
「ます」、「かきこみ」「こみ」といったキーを抽出す
る。その結果、利用者が検索時に読みはわかるが正確な
表記が指定不可能な場合、登録文書中に送り仮名の有無
によって表記にばらつきがある場合(書き込み、書きこ
み、書込み)についても読みを手掛かりにして所望の文
書を検索することができる。
【0036】(2) 抽出条件記憶手段16の内容を例
えば図8に示すような内容に置換する。図8では、名詞
性以外の品詞についても抽出する指定を行っている。例
えば、5段動詞とは、カ行、ガ行、サ行、タ行、バ行、
マ行、ラ行、ナ行、ハ行、ア行、などの5段活用の語幹
を意味する。抽出条件を図8のように指定することによ
り、「読み込みます」といった文から、「読み込み(名
詞)」「読む(マ行5段)」「込む(マ行5段)」「読
み込む(マ行5段)といったキーを抽出することができ
る。
【0037】(3) 抽出するキーの品詞が活用語を意
味する場合、終止形にして抽出する。規則変化するもの
も(例えば5段動詞、形容詞など)であれば、活用語尾
を除き終止形の活用語を語幹に連結することで終止形を
得ることができる。不規則変化するものについては、不
規則変化系と終止形の対応表を用いて終止形を得る。こ
のように活用語の終止形を抽出することで、活用の違い
に左右されない検索を可能とする。例えば、「読み取
り、読み取った」から「読み取る」といった終止形を抽
出しておくことで、「読み取り」や「読み取った」を含
む文書を「読み取る」という検索語から検索することが
できる。また検索式についても同様のキーの抽出処理を
行うことで「読み取り」や「読み取った」を含む検索式
から「読み取る」という検索語を抽出でき、「読み取
り」や「読み取った」を含む文書を検索することができ
る。
【0038】
【発明の効果】本発明によれば、形態素解析の最終的な
結果だけから全文検索用のキーワードを抽出するだけで
なく、入力文に含まれる単語の候補のような中間的な結
果からも全文検索用キーワードを抽出することができ
る。例えば、複合語だけでなく複合語に含まれる単語を
抽出したりカタカナ文字列の中に含まれる単語を抽出す
ることができる。また、形態素解析をおこなって得られ
るキーワードの読みや品詞の情報から、終止形に戻した
り、読みを抽出したり、抽出するキーワードを品詞によ
って選別でき、また、検索時に終止形で検索することも
できる。その結果、検索の漏れをなくす全文検索用のキ
ーワードの抽出ができる。
【図面の簡単な説明】
【図1】 本発明の実施例のキーワード抽出装置の概略
構成を示す機能ブロック図である。
【図2】 文節候補解析手段2が解析時に参照する辞書
の一例を示す図である。
【図3】 文節候補解析手段2が解析時に参照する接続
テーブルの一例を示す説明図である。
【図4】 実施例の動作を示すフローチャートである。
【図5】 (a)は実施例における第1キー抽出手段7
や第2キー抽出手段8が参照する抽出条件の一例を示す
図、(b)は実施例における登録対象文書の内容の一部
を示す内容例を示す図、(c)は文章の文字の境界位置
を例示した図である。
【図6】 図5(b)に示す例文に対する文節候補記憶
手段の内容を示す図である。
【図7】 (a)は、例文に対する形態素解析結果を示
す図、(b)は形態素解析の中間結果からもキーワード
を抽出した結果を示す図である。
【図8】 抽出条件の他の例を示す図である。
【符号の説明】
11…入力記憶手段、 12…文節候補解析手段、 1
3…文節候補記憶手段、 14…解析結果抽出手段、
15…解析結果記憶手段、 16…抽出条件記憶手段、
17…第1キー抽出手段、 18…第2キー抽出手
段、 19…抽出キー記憶手段。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 キーワードを抽出する対象文書中のテキ
    ストを形態素解析する解析手段と、 解析手段による解析の中間結果と、最終的な解析結果を
    記憶する解析結果記憶手段と、 キーワードを決定するための条件を記憶する条件記憶手
    段と、 解析手段により得られた解析の中間結果および最終結果
    から条件記憶手段の保持する条件を満たすものをキーワ
    ードとして抽出するキーワード抽出手段とを備えたキー
    ワード抽出装置。
  2. 【請求項2】 形態素解析において得られる情報のう
    ち、語の表記のみでなく、語の読みをキーワードとして
    抽出することを特徴とする請求項1記載のキーワード抽
    出装置。
  3. 【請求項3】 形態素解析において得られる情報のう
    ち、語の品詞を調べ、品詞が活用語であるとき、その語
    の終止形をキーワードとして抽出することを特徴とする
    請求項1記載のキーワード抽出装置。
  4. 【請求項4】 登録文書のテキストの内容を記憶する入
    力記憶手段と、 日本語の文節構造規則を満足する単語の組合せを解析し
    て文節候補を抽出する文節候補解析手段と、 文節候補解析手段により解析、抽出されたされた結果を
    記憶する文節候補記憶手段と、 文節候補記憶手段の内容からコストが最小になる単語の
    組合せを抽出する解析結果抽出手段と、 解析結果抽出手段の抽出した解析結果を記憶する解析結
    果記憶手段と、 文節候補記憶手段の内容あるいは解析結果記憶手段の内
    容からキーワードを抽出するときの条件を記憶する抽出
    条件記憶手段と、 文節候補記憶手段の内容から抽出条件記憶手段の条件に
    合致するものをキーワードとして抽出する第1キーワー
    ド抽出手段と、 解析結果記憶手段の内容から抽出条件記憶手段の条件に
    合致するものをキーワードとして抽出する第2キーワー
    ド抽出手段と、 第1キーワード抽出手段の抽出したキーワードおよび第
    2キーワード抽出手段の抽出したキーワードを記憶する
    抽出キーワード記憶手段とを備えたことを特徴とするキ
    ーワード抽出装置。
JP20855695A 1995-07-25 1995-07-25 キーワード抽出装置 Expired - Fee Related JP3508312B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20855695A JP3508312B2 (ja) 1995-07-25 1995-07-25 キーワード抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20855695A JP3508312B2 (ja) 1995-07-25 1995-07-25 キーワード抽出装置

Publications (2)

Publication Number Publication Date
JPH0944522A true JPH0944522A (ja) 1997-02-14
JP3508312B2 JP3508312B2 (ja) 2004-03-22

Family

ID=16558145

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20855695A Expired - Fee Related JP3508312B2 (ja) 1995-07-25 1995-07-25 キーワード抽出装置

Country Status (1)

Country Link
JP (1) JP3508312B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009205397A (ja) * 2008-02-27 2009-09-10 Internatl Business Mach Corp <Ibm> 検索エンジン、検索システム、検索方法およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04211868A (ja) * 1990-07-31 1992-08-03 Dainippon Printing Co Ltd Cd―romデータの検索用キーワードの作成方法
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH0773200A (ja) * 1993-09-07 1995-03-17 Ricoh Co Ltd キーワード抽出方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04211868A (ja) * 1990-07-31 1992-08-03 Dainippon Printing Co Ltd Cd―romデータの検索用キーワードの作成方法
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH0773200A (ja) * 1993-09-07 1995-03-17 Ricoh Co Ltd キーワード抽出方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009205397A (ja) * 2008-02-27 2009-09-10 Internatl Business Mach Corp <Ibm> 検索エンジン、検索システム、検索方法およびプログラム
US8930372B2 (en) 2008-02-27 2015-01-06 International Business Machines Corporation Search engine, search system, search method, and search program product

Also Published As

Publication number Publication date
JP3508312B2 (ja) 2004-03-22

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US5579224A (en) Dictionary creation supporting system
US7269547B2 (en) Tokenizer for a natural language processing system
EP0283685B1 (en) A spelling assistance method for compound words
JP3196868B2 (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP2006012168A (ja) 翻訳メモリシステムにおいてカバレージおよび質を改良する方法
JPH0724056B2 (ja) コンピュータによる形態論的テキスト解析方法
JPH0519184B2 (ja)
JP2002222189A (ja) 翻訳装置、翻訳方法並びに翻訳プログラム
Thet et al. Word segmentation for the Myanmar language
JP4856573B2 (ja) 要約文生成装置及び要約文生成プログラム
JPH0934905A (ja) キーセンテンス抽出方式及び抄録方式及び文検索方式
WO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP3508312B2 (ja) キーワード抽出装置
Al-Taani et al. Searching concepts and keywords in the Holy Quran
JPS63228326A (ja) キ−ワ−ド自動抽出方式
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
Nejja et al. Context's impact on the automatic spelling correction
JPH06266770A (ja) 文書情報検索装置及び検索装置及び機械翻訳装置及び文書作成装置
Bhowmik et al. Development of A Word Based Spell Checker for Bangla Language
JP2001357065A (ja) 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体
JPH0561902A (ja) 機械翻訳システム
JP2897191B2 (ja) 日本語形態素解析システム及び形態素解析方式
JPS6389976A (ja) 言語解析装置

Legal Events

Date Code Title Description
A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20031215

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080109

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090109

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100109

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110109

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140109

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees