JP4931114B2 - データ表示装置、データ表示方法及びデータ表示プログラム - Google Patents
データ表示装置、データ表示方法及びデータ表示プログラム Download PDFInfo
- Publication number
- JP4931114B2 JP4931114B2 JP2006178922A JP2006178922A JP4931114B2 JP 4931114 B2 JP4931114 B2 JP 4931114B2 JP 2006178922 A JP2006178922 A JP 2006178922A JP 2006178922 A JP2006178922 A JP 2006178922A JP 4931114 B2 JP4931114 B2 JP 4931114B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- keyword
- cluster
- keywords
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
知りたい操作がすぐわかる 標準 Excel全機能Bible 2003,村田吉徳著,技術評論社,2004.2.1発行
一般に、重要なキーワードを含む文書の検索には、主にTF/IDF法が用いられる。ここで、TFとは、一般に、ある文書でのあるキーワードの出現回数を意味し、IDFとは、一般に、予め用意された多数の文書のうち、上記キーワードが出現する文書数の逆数を意味する。
上記の式において、wは、ユーザが入力するキーワード、Σは、tf(w,D)×log(N/df(w))をw∈Wで加算することを意味する。また、tf(w,D)は、文書Dでのwの出現回数であり、df(w)は、全文書においてwが出現した文書の数であり、Nは、文書の総数である。
一般に、Okapiのウェイティング法(下記の文献(1)参照)では、以下の式で算出されるScore(D)が高い文書を検索結果として出力する。
(階層クラスタリング(ボトムアップクラスタリング) による方法)
距離が最も近い成員同士を結合していき、クラスターを作る。そして、距離が最も近いクラスター同士を結合する。成員とは、クラスタリングの対象となるキーワード(単語)であって、あるクラスターに属するキーワード(単語)である。クラスター間の距離の定義は様々ある。例えば、クラスターAとクラスターBとの距離を、クラスターAの成員(すなわち、クラスターAに属するキーワード)とクラスターBの成員(すなわち、クラスターBに属するキーワード)との距離の中で最も小さいものとしてもよい。ここで、成員と成員との距離とは、ベクトルで表現される後述する成員の位置間の距離である。また、例えば、クラスターAとクラスターBとの距離を、クラスターAの成員とクラスターBの成員との距離の中で最も大きいものとしてもよい。また、例えば、クラスターAとクラスターBとの距離を、全てのクラスターAの成員とクラスターBの成員との距離の平均としてもよい。また、全てのクラスターAの成員の位置の平均をクラスターAの位置とし、全てのクラスターBの成員の位置の平均をクラスターBの位置とし、当該クラスターAの位置とクラスターBの位置との距離をクラスターAとクラスターBとの距離としてもよい。
以下に示すWを定義する。
W = ΣΣ(x(i,j)−ave_x(i))^2
^は指数を意味する。例えば、上記の式における1つ目のΣは、i=1からi=gまでの加算、2つ目のΣは、j=1からj=niまでの加算を意味する。また、x(i,j)は、i番目のクラスターのj番目の成員の位置、ave_x(i)は、i番目のクラスターの全ての成員の位置の平均を意味する。クラスター同士を結合していくと、Wの値が増加するが、ウォード法では、Wの値がなるべく大きくならないようにクラスター同士を結合していく。
予めクラスターの個数を決めておいて、クラスターの個数が当該予め決められた数になったときに、クラスター同士を結合するのをやめるようにしてもよい。また、予め距離の閾値を決めておいて、その閾値数以上離れているクラスター同士を結合するのをやめるようにしてもよい。
各成員(単語)の位置は、後述するように、各成員に関する種々の情報(例えば、各成員の属性情報)を用いて求める。上記各成員に関する種々の情報に基づいて、ベクトルの次元を決定する。そして、各成員に関する種々の情報に基づいて、上記決定された次元を持つベクトルの要素の値を求めてベクトル(位置ベクトル)を生成する。生成したベクトルは、各成員の位置を示している。各成員(単語)に関する種々の情報としては、例えば、以下に示すものがある。
・単語に含まれる文字の種類(例えば、ひらがな、カタカナ、漢字、それ以外が、それぞれあるかないか)
・単語の長さ
・単語の語義
・単語の共起語
・単語の共起データ
(1)単語に含まれる文字の種類(例えば、ひらがな、カタカナ、漢字、それ以外が、それぞれあるかないか)
例えば、ある成員の文字の種類を表すために、ひらがなのみからなる単語か否か、カタカナのみからなる単語か否か、漢字のみからなる単語か否か、ひらがなのみ、又は、カタカナのみ、又は、漢字のみからなる単語以外の単語か否かという、4次元のベクトルの要素を用意(例えば、設定)し、当該ベクトルの要素に設定される値(例えば、1又は0)によって決まるベクトルを作成する。成員がひらがなのみからなる単語に該当すれば1の値を、該当しなければ0の値を対応するベクトルの要素に設定する。また、成員がカタカナのみからなる単語に該当すれば1の値を、該当しなければ0の値を対応するベクトルの要素に設定する。また、成員が漢字のみからなる単語に該当すれば1の値を、該当しなければ0の値を対応するベクトルの要素に設定する。また、成員がひらがなのみ、又は、カタカナのみ、又は、漢字のみからなる単語以外の単語に該当すれば1の値を、該当しなければ0の値を対応するベクトルの要素に設定する。
(2)単語の長さ
例えば、1次元のベクトルの要素を用意し、成員(単語)の文字の個数をカウントし、カウントされた成員(単語)の文字の個数を当該ベクトルの要素に設定して、単語の長さの情報を表現してもよい。
(3)単語の語義
例えば、予め記憶手段内に記憶された、以下のような分類語彙表を用意する。
あ, あ,4.310,1,10,*,
あ, 亜,1.104,2,40,,
あ, 亜,3.100,10,40,,
ああ, ああ,3.100,3,40,*,
ああ, ああ,4.310,1,20,*,
ああくとう, アーク燈,1.460,2,70,,
ああす, アース,1.462,6,10,,
ああち, アーチ,1.442,2,20,,
ああむほおる, アームホール,1.184,5,30,,
あある, アール,1.1961,4,10,,
あい, 愛,1.3020,9,10,*,
あい, 相,3.112,1,10,*,
あい, 藍,1.502,6,40,,
あいいく, 愛育,1.3642,1,40,,
あいいん, 愛飲,1.3332,3,60,,
あいいん, 合印,1.3114,1,30,Y,
あいうち, あい打ち,1.357,4,30,,
あいかぎ, 合鍵,1.454,8,50,,
あいかわらず, 相変らず,3.165,2,10,*,
あいかん, 哀歓,1.3011,4,60,,
あいがん, 哀願,1.366,1,100,,
あいがん, 愛翫,1.3852,2,10,,
あいぎ, 合着,1.421,4,40,,
あいきょう, 愛郷,1.3020,11,170,,
あいきょう, 愛嬌,1.3030,4,40,,
上記の"," で区切ってある情報は、それぞれ、単語の読み、単語の見出し語、単語の分類番号、単語の分類番号の下位番号1、単語の分類番号の下位番号2、標本使用頻度が7以上の単語かどうかを示す情報である。
(4)単語の共起語
成員(単語)の共起語を求めて、単語の種類の情報に基づいて決まるベクトルの次元を用意する。そして、当該単語の共起語に合致したベクトルの要素に1を、当該単語の共起語に合致しないベクトルの要素に0を設定する。単語の共起語としては、例えば、図1に示す書誌データDB17中に格納されている書誌データのうち、同じ書誌データ中に成員と共起して出現する単語を当該成員の共起語とする。本発明の一実施形態によれば、例えば、書誌データDB17中に格納されている書誌データとは異なるデータを用意し、当該データにおいて、成員が出現する領域と同一の領域(例えば、同一文、又は,同一段落、又は、同一データレコード等)に出現する単語を、当該成員の共起語とするようにしてもよい。
(5)単語の共起データ
例えば、書誌データ17DB中に格納された書誌データの行数だけのベクトルの次元を用意し、成員(単語)がその書誌データのある行に出現した場合、当該行に対応するベクトルの要素に1を、出現しない場合に、当該行に対応するベクトルの要素に0を入れる。
(最大距離アルゴリズムによるクラスタリング)
ある成員と、当該成員と距離が最も離れた成員を求め、これらの成員をそれぞれのクラスターの中心とする。次に、それぞれのクラスターの中心と各成員との距離の最小値を各成員の距離とし、その距離が最も大きい成員を新たなクラスターの中心とする。当該クラスターの中心を求める処理を繰り返す。例えば、予め定めた数のクラスターになったときに、当該クラスターの中心を求める処理の繰り返しをやめる。また、例えば、クラスター間の距離が予め定めた数以下になったときに、当該クラスターの中心を求める処理の繰り返しをやめる。
(k平均法)
例えば、以下に示すk平均法によって、予め定めた個数(k個)にクラスタリングする。まず、k個の成員をランダムに選択し、選択されたk個の成員をクラスターの中心とする。そして、各成員を、当該各成員に最も近いクラスター中心を持つクラスターの成員とする。
(1)形態素解析を用いた単語の認識による手法
まず、キーワード抽出部11は、書誌データDB17に蓄積されている文書について、形態素解析を行い、単語の認識を行う。そして、特定の名詞の単語をキーワードとして取り出す。例えば、名詞だけをキーワードとして取り出す。但し、「こと」、「もの」などの一般的な名詞は、予め収集しておき、それらの名詞がキーワードとしては取り出されないようにしておく。キーワードとしては、名詞だけでなく、動詞などの他の品詞も取り出すこととしてもよい。
ChaSen は、日本語文を分割し、さらに、各単語の品詞も推定してくれる。
へ ヘ へ 助詞- 格助詞− 一般
行く イク 行く 動詞- 自立 五段・カ行促音便 基本形
EOS
このように、各行に一個の単語が入るように分割され,各単語に読みや品詞の情報が付与される。
(2)TF/IDF法などを利用した方法
書誌データDB17に蓄積されている文書について、形態素解析を行い、例えば、名詞だけを取り出す。そして、取り出された各名詞について、前述したTF/IDF法に基づいて算出される所定のスコアを求め、求まったスコアが所定の値よりも大きいものか、スコアが所定の値よりも大きいものから順に所定の値の個数だけ取り出したものをキーワードとする。なお、上記のスコアは、前述したOkapiのウェイティング法を用いて算出されるスコアを用いてもよい。
(3)高精度な既存のキーワード抽出のツールを利用する方法
一般に文書中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文書の内容が専門的な事項に特化すれば、その傾向はさらに顕著なものとなる。そこで、例えば、(a)形態素解析プログラムによる単語分割、(b)複合語の作成、(c)文書中における重要度の計算、という3つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文書中から抽出することができる。
なお、本発明の実施の形態において、キーワード抽出部11によるキーワードの抽出方法は、上述した3つの方法に限定されるものではない。キーワード抽出部11は、他の任意のキーワードの抽出方法を用いてキーワードを抽出することができる。
(1)機械学習を用いる手法
機械学習を用いて固有表現を抽出する手法がある(例えば、以下の参考文献(1)参照)。
まず、例えば、「日本の首相は小泉さんです。」という文を、各文字に分割し、分割した文字について、以下のように、 B−LOCATION、 I−LOCATION等の正解タグを付与することによって、正解を設定する。以下の一列目は、分割された各文字であり、各文字の正解タグは二列目である。
日 B−LOCATION
本 I−LOCATION
の O
首 O
相 O
は O
小 B−PERSON
泉 I−PERSON
さ O
ん O
で O
す O
。 O
上記において、B −???は、ハイフン以下の固有表現の種類の始まりを意味するタグである。例えば、 B−LOCATIONは、地名という固有表現の始まりを意味しており、 B−PERSONは、人名という固有表現の始まりを意味している。また、I −???は、ハイフン以下の固有表現の種類の始まり以外を意味するタグであり、O はこれら以外である。従って、例えば、文字「日」は、地名という固有表現の始まりに該当する文字であり、文字「本」までが地名という固有表現である。
日 B−LOCATION
の部分は、
日本−B 名詞−B
などの情報を用いる。日本−B は、日本という単語の先頭を意味し、名詞−B は、名詞の先頭を意味する。単語や品詞の認定には、例えば前述したChaSenによる形態素解析を用いる。ChaSenを用いれば、入力された日本語を単語に分割することができる。例えば、ChaSenは、前述したように、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
また、例えば、以下の参考文献(3)に、サポートベクトルマシンを用いて日本語固有表現抽出を行う手法について記載されている。
(2)作成したルールを用いる手法
人手でルールを作って固有表現を取り出すという方法もある。
名詞+「さん」だと人名とする
名詞+「首相」だと人名とする
名詞+「町」だと地名とする
名詞+「市」だと地名とする
などである。
11 キーワード抽出部
12 頻度算出部
13 クラスタリング部
14 データソート部
15 表示部
16 クラスターソート指定部
17 書誌データDB
Claims (4)
- データ表示装置であって、
複数の文書から構成される文書群中に含まれるキーワードを抽出するキーワード抽出手段と、
前記抽出された各キーワードの、前記文書群中に出現する頻度を算出する頻度算出手段と、
前記抽出されたキーワードを各キーワードが属するクラスターにクラスタリングするクラスタリング手段と、
前記算出された各キーワードの頻度の値の高いものから降順に前記各キーワードを並べ、各キーワードが文書に存在するとビット1、存在しないとビット0を割り当てて、各文書について前記並べた降順にキーワードの存否を表す複数ビットから成る2進数で表し、前記文書群を構成する各文書の文書データを頻度が高いキーワードを含む文書の順にするため、各文書を表す前記2進数の大きい数値の順にソートするデータソート手段と、
前記クラスターに属するキーワードのうちの前記文書群を構成する文書に含まれるキーワード、又は、各文書中における前記クラスターに属するキーワードの有無を示す情報を、前記各文書と前記クラスターとに対応付けて画面表示する表示手段とを備え、
前記表示手段は、さらに、各クラスターに属するキーワードが出現する文書数について昇順又は降順に前記各クラスターを並び替えて画面表示するとともに、前記データソート手段でもとめた文書の順に画面表示する
ことを特徴とするデータ表示装置。 - 請求項1に記載のデータ表示装置において、
前記クラスタリング手段は、前記各キーワードのベクトル空間上の位置を示す位置ベクトルを生成し、生成された前記位置ベクトルが示す前記各キーワードの位置情報に基づいて、前記各キーワードが属するクラスターを決定する
ことを特徴とするデータ表示装置。 - データ表示方法であって、
キーワード抽出手段で複数の文書から構成される文書群中に含まれるキーワードを抽出し、
頻度算出手段で前記抽出された各キーワードの、前記文書群中に出現する頻度を算出し、
クラスタリング手段で前記各キーワードを前記各キーワードが属するクラスターにクラスタリングし、
データソート手段で前記算出された各キーワードの頻度の値の高いものから降順に前記各キーワードを並べ、各キーワードが文書に存在するとビット1、存在しないとビット0を割り当てて、各文書について前記並べた降順にキーワードの存否を表す複数ビットから成る2進数で表し、前記文書群を構成する各文書の文書データを頻度が高いキーワードを含む文書の順にするため、各文書を表す前記2進数の大きい数値の順にソートし、
表示手段で前記クラスターに属するキーワードのうちの前記文書群を構成する文書に含まれるキーワード、又は、各文書中における前記クラスターに属するキーワードの有無を示す情報を、前記各文書と前記クラスターとに対応付けて画面表示し、
前記表示手段で、さらに、各クラスターに属するキーワードが出現する文書数について昇順又は降順に前記各クラスターを並び替えて画面表示するとともに、前記データソート手段でもとめた文書の順に画面表示する
ことを特徴とするデータ表示方法。 - データ表示プログラムであって、
コンピュータに、
複数の文書から構成される文書群中に含まれるキーワードを抽出する処理と、
前記抽出された各キーワードの、前記文書群中に出現する頻度を算出する処理と、
前記各キーワードを前記各キーワードが属するクラスターにクラスタリングする処理と、
前記算出された各キーワードの頻度の値の高いものから降順に前記各キーワードを並べ、各キーワードが文書に存在するとビット1、存在しないとビット0を割り当てて、各文書について前記並べた降順にキーワードの存否を表す複数ビットから成る2進数で表し、前記文書群を構成する各文書の文書データを頻度が高いキーワードを含む文書の順にするため、各文書を表す前記2進数の大きい数値の順にソートする処理と、
前記クラスターに属するキーワードのうちの前記文書群を構成する文書に含まれるキーワード、又は、各文書中における前記クラスターに属するキーワードの有無を示す情報を、前記各文書と前記クラスターとに対応付けて画面表示する処理とを実行させるデータ表示プログラムであって、
前記画面表示する処理は、さらに、各クラスターに属するキーワードが出現する文書数について昇順又は降順に前記各クラスターを並び替えて画面表示するとともに、前記ソートする処理でもとめた文書の順に画面表示する
ことを特徴とするデータ表示プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006178922A JP4931114B2 (ja) | 2006-06-29 | 2006-06-29 | データ表示装置、データ表示方法及びデータ表示プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006178922A JP4931114B2 (ja) | 2006-06-29 | 2006-06-29 | データ表示装置、データ表示方法及びデータ表示プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008009671A JP2008009671A (ja) | 2008-01-17 |
JP4931114B2 true JP4931114B2 (ja) | 2012-05-16 |
Family
ID=39067837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006178922A Expired - Fee Related JP4931114B2 (ja) | 2006-06-29 | 2006-06-29 | データ表示装置、データ表示方法及びデータ表示プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4931114B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5384884B2 (ja) * | 2008-09-03 | 2014-01-08 | 日本電信電話株式会社 | 情報検索装置および情報検索プログラム |
JP6495124B2 (ja) * | 2015-07-09 | 2019-04-03 | 日本電信電話株式会社 | 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム |
CN111382340A (zh) * | 2020-03-20 | 2020-07-07 | 北京百度网讯科技有限公司 | 信息识别方法、信息识别装置和电子设备 |
WO2022130578A1 (ja) * | 2020-12-17 | 2022-06-23 | 富士通株式会社 | 類似度判定プログラム、類似度判定装置、及び、類似度判定方法 |
JPWO2022130579A1 (ja) * | 2020-12-17 | 2022-06-23 | ||
CN115098690B (zh) * | 2022-08-24 | 2023-02-24 | 中信天津金融科技服务有限公司 | 一种基于聚类分析的多数据文档分类方法及*** |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005128872A (ja) * | 2003-10-24 | 2005-05-19 | Toshiba Solutions Corp | 文書検索システム及び文書検索プログラム |
JP4325370B2 (ja) * | 2003-11-13 | 2009-09-02 | 日本電信電話株式会社 | 文書関連語彙獲得装置及びプログラム |
-
2006
- 2006-06-29 JP JP2006178922A patent/JP4931114B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008009671A (ja) | 2008-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844658B (zh) | 一种中文文本知识图谱自动构建方法及*** | |
Van Ham et al. | Mapping text with phrase nets | |
CN109219811B (zh) | 相关段落检索*** | |
Meadow et al. | Text information retrieval systems | |
Kowalski | Information retrieval architecture and algorithms | |
US7295967B2 (en) | System and method of analyzing text using dynamic centering resonance analysis | |
US9639609B2 (en) | Enterprise search method and system | |
US20090300046A1 (en) | Method and system for document classification based on document structure and written style | |
CN106997382A (zh) | 基于大数据的创新创意标签自动标注方法及*** | |
US20110295857A1 (en) | System and method for aligning and indexing multilingual documents | |
JP2005157524A (ja) | 質問応答システムおよび質問応答処理方法 | |
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
CN102955848A (zh) | 一种基于语义的三维模型检索***和方法 | |
US20080168343A1 (en) | System and Method of Automatically Mapping a Given Annotator to an Aggregate of Given Annotators | |
JP4931114B2 (ja) | データ表示装置、データ表示方法及びデータ表示プログラム | |
JP4849596B2 (ja) | 質問応答装置、質問応答方法および質問応答プログラム | |
CN113032552A (zh) | 一种基于文本摘要的政策要点抽取方法与提取*** | |
JP2007047974A (ja) | 情報抽出装置および情報抽出方法 | |
Jones | Text and context: document storage and processing | |
JP2008243024A (ja) | 情報取得装置、そのプログラム及び方法 | |
JP4719921B2 (ja) | データ表示装置およびデータ表示プログラム | |
CN112949287B (zh) | 热词挖掘方法、***、计算机设备和存储介质 | |
Eggi | Afaan oromo text retrieval system | |
JPH09319767A (ja) | 類義語辞書登録方法 | |
Agosti | Information access through search engines and digital libraries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090330 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110713 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110719 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110920 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120210 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150224 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |