JPH0736917A - キーワード自動抽出装置 - Google Patents

キーワード自動抽出装置

Info

Publication number
JPH0736917A
JPH0736917A JP5158293A JP15829393A JPH0736917A JP H0736917 A JPH0736917 A JP H0736917A JP 5158293 A JP5158293 A JP 5158293A JP 15829393 A JP15829393 A JP 15829393A JP H0736917 A JPH0736917 A JP H0736917A
Authority
JP
Japan
Prior art keywords
morpheme
unit
information
dictionary
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5158293A
Other languages
English (en)
Inventor
清 ▲會▼森
Kiyoshi Aimori
Koichi Sakamoto
浩一 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
NEC Solution Innovators Ltd
Original Assignee
NEC Corp
NEC Solution Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, NEC Solution Innovators Ltd filed Critical NEC Corp
Priority to JP5158293A priority Critical patent/JPH0736917A/ja
Publication of JPH0736917A publication Critical patent/JPH0736917A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 数量のキーワード抽出効率を向上させる。 【構成】 形態素解析手段1−1は、解析用辞書1−7
を用いて日本語のテキストデータを形態素に分割する。
形態素辞書情報展開手段1−2は、形態素辞書1−8を
用いて分割された各形態素に対しての品詞情報を展開す
る。数詞・単位列抽出手段1−3は、品詞が数詞と単位
で構成されている形態素列を抽出する。数量認識手段1
−4は、予め規定したパターンで連続している形態素列
を数量として認識する。数量判別手段1−5は、数量と
認識された形態素列が連続しているものについて1つの
数量を表しているか別々の数量を表しているかを判別す
る。数量抽出手段1−6は、判別された数量のうち数量
抽出指定テーブル1−9で指定された単位を有する数量
をキーワードとして抽出する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、コンピュータによる情
報検索システムにおいて、日本語のテキストデータから
キーワードを抽出するキーワード自動抽出方式に関し、
特にテキストデータ中の単語のうち、利用者がキーワー
ドとして抽出したい単位を有する数量を抽出する、キー
ワード自動抽出装置に関する。
【0002】
【従来の技術】従来、データベース化を行う情報は、そ
の情報が持つ意味によって大きく2つに分類される。
【0003】情報には、文献そのものや文献に含まれる
数量などがあるが、ここでは、文献そのものを情報と
し、索引づけによって管理される情報をリファレンスデ
ータと定義し、文献内の数量情報であって、その数量情
報の意味との関係づけによって管理される数量情報をフ
ァクトデータと定義し、分類する。
【0004】リファレンスデータである文献の場合、文
献そのものをテキストデータに変換し、データベースに
蓄積する。この際、文献中からその文献の主題を表す語
をキーワードとして抽出し、そのキーワードを検索キー
として検索できるようにし、情報を活用できるようにし
ている。また、ファクトデータである数量の場合は、文
献中に出現したテキストデータとしての数量を数値デー
タに変換し、その数値データ(項目値)が何を表す数値
データであるか(項目名)の関係づけを行うことで、関
係データベースに蓄積する。数値データはテキストデー
タと違い、演算が可能なため、蓄積された情報から新た
な情報を得ること(容易な分析)ができ、意思決定支援
領域・統計解析領域の分野で活用されている。従来のキ
ーワード自動抽出方式に関する代表的な特許としては、
特開平−135669がある。この特開平−13566
9の方式は、図11に示すように、入力された日本語テ
キストデータから目的節、主語節と思われる文節を重要
文節として抽出し、抽出した重要文節の中より、出現頻
度の高い名詞をキーワードとして抽出するものである。
しかしこの方式は、英小文字を少なくとも1つ含む文節
は重要文節にしないようにし、さらに、数字だけからな
る語はキーワードとして意味を持たないとして抽出しな
いようにしているため、数字と単位を意味する英小文字
で構成されている数量については、キーワードとして抽
出することができなかった。
【0005】
【発明が解決しようとする課題】上述した従来のキーワ
ード自動抽出方式は、文献中の数量をキーワード情報と
して抽出することができなかった為、意思決定支援や統
計解析の分野などにおいて、特定の種別の数量を情報と
して蓄積する際には、文献中から人手によって数量を抽
出するしかなく、キーワード抽出効率が極めて悪いとい
う問題点がある。
【0006】
【課題を解決するための手段】第1の発明は、情報検索
システムにおける情報の検索を行う場合に有効となるキ
ーワードを日本語のテキストデータから自動抽出するキ
ーワード自動抽出装置において、形態素単位の接続に関
する情報を格納している解析用辞書と前記形態素ごとに
品詞情報と単位種別情報を格納している形態素辞書と前
記テキストデータにおける数字と単位を表す英小文字で
構成されている数量のうち抽出したい前記数量の単位を
格納している数量抽出指定テーブルを予め備え、前記解
析用辞書を用いて日本語の前記テキストデータを形態素
に分割する形態素解析手段と、前記形態素辞書を用いて
前記分割された各形態素に対しての品詞情報を展開する
形態素辞書情報展開手段と、前記品詞が数詞と単位で構
成されている形態素列を抽出する数詞・単位列抽出手段
と、予め規定したパターンで連続している前記形態素列
を数量として認識する数量認識手段と、前記数量と認識
された形態素列が連続しているものについて1つの前記
数量を表しているか別々の前記数量を表しているかを判
別する数量判別手段と、前記判別された数量のうち前記
数量抽出指定テーブルで指定された前記単位を有する前
記数量を前記キーワードとして抽出する数量抽出手段と
を備えたことを特徴とする。
【0007】
【実施例】次に、本発明について図面を参照して説明す
る。
【0008】図1は本発明の一実施例を示す構成図であ
る。図1中、形態素解析手段(1−1)は、解析辞書
(1−7)を利用して日本語のテキストデータを形態素
に分割する。形態素辞書情報展開手段(1−2)は、形
態素辞書を利用して形態素解析手段(1−1)により解
析された各形態素に対して品詞情報を展開する。数詞・
単位列抽出手段(1−3)は、形態素辞書情報展開手段
(1−2)により展開された品詞情報をもとに、数詞と
単位で構成されている部分(形態素列)を抽出する。数
量認識手段(1−4)は、数詞・単位列抽出手段3によ
り抽出された形態素列を、システムで予め規定したパタ
ーンで連続している形態素列を数量であると認識する。
数量判別手段(1−5)は、数量認識手段(1−4)に
より認識された数量が形態素列内において連続している
ものについて、1つの数量を表しているか、別々の数量
を表しているかを判別する。数量抽出手段(1−6)
は、数量判別手段(1−5)により判別された数量のう
ち、数量指定テーブル(1−9)に利用者が指定した数
量だけをキーワードとして抽出する。解析用辞書(1−
7)は、形態素単位の接続に関する情報を格納してい
る。形態素辞書(1−8)は、品詞情報、単位種別情報
の2情報を、各形態素ごとに格納している。数量抽出指
定テーブル(1−9)は、利用者が抽出したい数量の単
位を格納している。
【0009】図2は日本語テキストデータの入力例であ
り、図3はそのテキストデータの形態素解析手段(1−
1)による解析結果である。図3中“/”は形態素の区
切りを示している。
【0010】図4は形態素辞書(1−8)の構成例であ
る。図4中4−1は1,600という形態素の品詞情報
は数詞であると登録され、4−2はCCという形態素の
品詞情報は単位であり単位種別情報は容量であると登録
されていることを表している。
【0011】図5は形態素辞書情報展開手段(1−2)
の展開結果である。図5中“/”は形態素の区切りを示
し、5−1は1,600の品詞が数詞であることを表
し、5−2はccの品詞が単位であることを表し、5−3
は105の品詞が数詞であることを表し、5−4は馬力
の品詞が単位であることを表している。
【0012】図6は数詞・単位列抽出手段(1−3)の
抽出結果である。図6中“/”は形態素の区切りを示
し、6−1は1,600の品詞が数詞であることを表
し、6−2はccの品詞が単位であることを表し、6−3
は105の品詞が数詞であることを表し、6−4は馬力
の品詞が単位であることを表している。
【0013】図7は数量認識手段(1−4)の認識結果
である。図7中“/”は数量の区切りを示し、7−1は
1,600ccの品詞が数量であることを表し、7−2は
1,600ccの単位種別が容量であることを表し、7−
3は105馬力の単位種別がエネルギーであることを表
し、7−4は12月の単位種別が時刻であることを表
し、7−5は24日の単位種別が時刻であることを表し
ている。
【0014】図8は数量判別手段(1−5)の結果であ
る。図8中8−1は1,600ccが数量として判別され
たことを表し、8−2はその単位種別が容量であること
を表し、8−3はその単位表記がccであることを表し、
8−4は105馬力が数量として判別されたことを表
し、8−5はその単位種別がエネルギーであることを表
し、8−6は12月24日が数量として判別されたこと
を表し、8−7は12月24日の単位種別が時刻である
ことを表している。
【0015】図9は数量抽出指定テーブル(1−9)の
構成例を示す図である。図9中、第1の指定として、9
−1のhは数量を単位表記で抽出することを表し、9−
2は抽出すべき単位表記がccであることを表し、第2の
指定として、9−3のsは数量を単位種別で抽出するこ
とを表し、9−4は抽出すべき単位種別が容量であるこ
とを表している。
【0016】以下、図1から図10までを用いて説明す
る。
【0017】形態素解析手段(1−1)は、解析用辞書
(1−7)を利用して、日本語において意味を表す最小
単位である形態素に解析する手段である。本発明におけ
る形態素解析手段(1−1)は、最長一致法、接続表を
用いた解析を行っている。すなわち、解析用辞書(1−
7)中に格納している各形態素単位の接続に関する情報
を利用して解析を行う。
【0018】図2の日本語テキストデータ例に対しての
形態素解析手段(1−1)の結果は、図3の形態素解析
結果に示す通りである。形態素辞書情報展開手段(1−
2)は、形態素解析手段(1−1)で解析された形態素
に対し、形態素辞書(1−8)中より情報を展開する手
段である。形態素辞書(1−8)は、品詞情報、単位種
別情報の2情報を、各形態素ごとに格納している。品詞
情報は、すべての形態素に対して与える情報であり、通
常の日本語文法における品詞に、固有の品詞を追加して
形態素を分類している。具体的な品詞としては、名詞、
動詞、サ変動詞語幹、サ変動詞語尾、形容詞、形容動
詞、福詞、連体詞、感動詞、接続詞、助詞、助動詞、単
位、数詞がある。また、単位種別情報は、品詞情報が単
位であるものに与える情報である。単位種別情報は、形
態素が表す単位の種別を重さ、高さ、温度、容量、時刻
などに分類した情報である。形態素辞書情報展開手段
(1−2)による辞書情報の展開を図4、図5を用いて
説明すると、図5の5−1の数詞は図4の4−1の1,
600に関する辞書情報の「品詞=数詞」を展開したも
のであり、図5の5−2の単位、容量は図4の4−2の
ccに関する辞書情報の「品詞=単位、単位種別=容量」
を展開したものである。形態素辞書情報の展開はすべて
の形態素に対して同様に行われる。
【0019】図3に示した形態素解析手段結果に対して
の形態素辞書情報展開手段(1−2)の結果は、図5に
示す通りである。数詞・単位列抽出手段(1−3)は、
形態素辞書情報展開手段(1−2)で展開された品詞情
報をもとに、品詞情報が数詞と単位だけで構成される部
分(形態素列)を抽出する手段である。数詞・単位列抽
出手段(1−3)による形態素列の抽出を図5,図6を
用いて説明すると、図6の6−1の数詞から6−4の単
位までは、図5の5−1の数詞から5−4の単位までの
4つの連続する形態素を形態素列として抽出したもので
ある。形態素列の抽出は、品詞が数詞または単位である
部分に注目し、数詞と単位が連続している部分ごとにす
べて抽出する。
【0020】図5に示した形態素辞書情報展開結果に対
しての数詞・単位列抽出結果は、図6に示す通りであ
る。
【0021】数量認識手段(1−4)は、数詞・単位列
抽出手段(1−3)で抽出された形態素列から、品詞情
報が単位、数詞の順で2つの形態素からなる形態素列で
ある、または品詞情報が数詞、単位の順で2つの形態素
からなる形態素列であるものを数量であると認識する手
段である。ただし、単位から始まる形態素列のうち3つ
以上の形態素からなる形態素列は破棄し、数量認識の対
象としない。数量認識手段(1−4)による数量の認識
を図6,図7を用いて説明すると、図6の6−1の数詞
と6−2の単位から、数詞、単位の順で2つの形態素か
らなる形態素列であると判断し、図7の7−1の1,6
00ccという単位種別が容量で単位表記がccであるよう
な数量であると認識する。数量の認識は形態素列すべて
に対して同様に行う。
【0022】図6に示した数詞・単位列抽出結果に対し
ての数量認識結果は、図7に示す通りである。
【0023】数量判別手段(1−5)は、数量認識手段
(1−4)で認識された数量のうち、単位種別が同じ数
量が連続しているものを1つの数量とし、単位種別が異
なるものを別々の数量として判別する手段である。数量
判別手段(1−5)による数量の判別を図7,図8を用
いて説明すると、図8の8−1の1,600ccと8−4
の105馬力は、図7の7−2の単位種別が容量、7−
3の単位種別がエネルギーであることから、別々の数量
であると判別されたものであり、図8の8−6の12月
24日は、図7の7−4の単位種別が時刻、7−5の単
位種別も時刻であることから、1つの数量であると判別
されたものである。数量の判別は数量認識結果すべてに
対して同様に行う。
【0024】図7に示した数量認識結果に対しての数量
判別結果は、図8に示す通りである。
【0025】数量抽出手段(1−6)は、数量判別手段
(1−5)で判別された数量のうち、数量抽出指定テー
ブル(1−9)に指定された単位表記または単位種別の
数量をキーワードとして抽出する手段である。数量抽出
指定テーブル(1−9)は、キーワードとして抽出した
い単位を表記で指定したい場合はh:の後に表記を記し、
種別で指定したい場合はs:の後に種別を記して指定す
る。数量抽出手段(1−6)によるキーワードの抽出を
図8,図9を用いて説明すると、図8の8−1の1,6
00ccは、図9の9−1のh:と9−2のccより、単位表
記がccの数量はキーワードとして抽出すべき数量として
抽出され、図8の8−6の12月24日は、図9の9−
3のs:と9−4の時刻より、単位種別が時刻の数量はキ
ーワードとして抽出すべき数量として抽出される。
【0026】図8に示した数量判別結果に対してのキー
ワード抽出結果は、図10に示す通りである。
【0027】
【発明の効果】以上説明したように、本発明のキーワー
ド自動抽出装置は、分析や意志決定支援などに利用する
数量を文献中からキーワードとして自動的に抽出するこ
とができるようになり、キーワード抽出効率が極めて向
上する効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例を示すブロック図である。
【図2】本実施例における日本語テキストデータの入力
例を示す図である。
【図3】図2のテキストデータの形態素解析結果の例を
示す図である。
【図4】本実施例における形態素辞書の構成例を示す図
である。
【図5】本実施例における形態素辞書情報展開手段(1
−2)の展開結果を示す図である。
【図6】本実施例における数詞・単位列抽出手段(1−
3)の抽出結果を示す図である。
【図7】本実施例における数量認識手段(1−4)の認
識結果を示す図である。
【図8】本実施例における数量判別手段(1−5)の結
果を示す図である。
【図9】本実施例における数量抽出指定テーブル(1−
9)の構成例を示す図である。
【図10】本実施例におけるキーワード抽出結果を示す
図である。
【図11】従来技術によるキーワード自動抽出方法の一
例を示す図である。
【符号の説明】
1−1 形態素解析手段 1−2 形態素辞書情報展開手段 1−3 数詞・単位列抽出手段 1−4 数量認識手段 1−5 数量判別手段 1−6 数量抽出手段 1−7 解析用辞書 1−8 形態素辞書 1−9 数量抽出指定テーブル

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 情報検索システムにおける情報の検索を
    行う場合に有効となるキーワードを日本語のテキストデ
    ータから自動抽出するキーワード自動抽出装置におい
    て、形態素単位の接続に関する情報を格納している解析
    用辞書と前記形態素ごとに品詞情報と単位種別情報を格
    納している形態素辞書と前記テキストデータにおける数
    字と単位を表す英小文字で構成されている数量のうち抽
    出したい前記数量の単位を格納している数量抽出指定テ
    ーブルを予め備え、前記解析用辞書を用いて日本語の前
    記テキストデータを形態素に分割する形態素解析手段
    と、前記形態素辞書を用いて前記分割された各形態素に
    対しての品詞情報を展開する形態素辞書情報展開手段
    と、前記品詞が数詞と単位で構成されている形態素列を
    抽出する数詞・単位列抽出手段と、予め規定したパター
    ンで連続している前記形態素列を数量として認識する数
    量認識手段と、前記数量と認識された形態素列が連続し
    ているものについて1つの前記数量を表しているか別々
    の前記数量を表しているかを判別する数量判別手段と、
    前記判別された数量のうち前記数量抽出指定テーブルで
    指定された前記単位を有する前記数量を前記キーワード
    として抽出する数量抽出手段とを備えたことを特徴とす
    るキーワード自動抽出装置。
JP5158293A 1993-06-29 1993-06-29 キーワード自動抽出装置 Pending JPH0736917A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5158293A JPH0736917A (ja) 1993-06-29 1993-06-29 キーワード自動抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5158293A JPH0736917A (ja) 1993-06-29 1993-06-29 キーワード自動抽出装置

Publications (1)

Publication Number Publication Date
JPH0736917A true JPH0736917A (ja) 1995-02-07

Family

ID=15668447

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5158293A Pending JPH0736917A (ja) 1993-06-29 1993-06-29 キーワード自動抽出装置

Country Status (1)

Country Link
JP (1) JPH0736917A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180093434A (ko) * 2017-02-13 2018-08-22 주식회사 케이티 검색어를 필터링하는 장치 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6389976A (ja) * 1986-10-03 1988-04-20 Ricoh Co Ltd 言語解析装置
JPS63220360A (ja) * 1987-03-10 1988-09-13 Canon Inc 翻訳装置
JPS63228326A (ja) * 1987-03-18 1988-09-22 Nec Corp キ−ワ−ド自動抽出方式

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6389976A (ja) * 1986-10-03 1988-04-20 Ricoh Co Ltd 言語解析装置
JPS63220360A (ja) * 1987-03-10 1988-09-13 Canon Inc 翻訳装置
JPS63228326A (ja) * 1987-03-18 1988-09-22 Nec Corp キ−ワ−ド自動抽出方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180093434A (ko) * 2017-02-13 2018-08-22 주식회사 케이티 검색어를 필터링하는 장치 및 방법

Similar Documents

Publication Publication Date Title
US6101492A (en) Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP2742115B2 (ja) 類似文書検索装置
US6076051A (en) Information retrieval utilizing semantic representation of text
US7519590B2 (en) Method and system for performing phrase/word clustering and cluster merging
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP2002521767A (ja) 確率を利用した情報検索装置
Alruily et al. Using self organizing map to cluster arabic crime documents
JP2001084255A (ja) 文書検索装置および方法
JP3596210B2 (ja) 関連語辞書作成装置
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
Chandrasekar et al. Gleaning information from the web: Using syntax to filter out irrelevant information
Thangarasu et al. Design and development of stemmer for Tamil language: cluster analysis
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
JP2000259653A (ja) 音声認識装置及び音声認識方法
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
JPH0736917A (ja) キーワード自動抽出装置
JPH05298371A (ja) 検索システム
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JPH03132872A (ja) 索引情報生成装置
JPS5856071A (ja) 日本語による検索システム
JP3693734B2 (ja) 情報検索装置およびその情報検索方法
JPH0232469A (ja) 情報検索方式
JP2000339342A (ja) 文書検索方法および文書検索装置
Yang et al. A study on music mood detection in online digital music database

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19960123