JP2010198269A - 意味ドリフトの発生評価方法及び装置 - Google Patents

意味ドリフトの発生評価方法及び装置 Download PDF

Info

Publication number
JP2010198269A
JP2010198269A JP2009041832A JP2009041832A JP2010198269A JP 2010198269 A JP2010198269 A JP 2010198269A JP 2009041832 A JP2009041832 A JP 2009041832A JP 2009041832 A JP2009041832 A JP 2009041832A JP 2010198269 A JP2010198269 A JP 2010198269A
Authority
JP
Japan
Prior art keywords
instance
related keyword
semantic drift
drift
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009041832A
Other languages
English (en)
Other versions
JP5020274B2 (ja
Inventor
Shinpei Makimoto
慎平 牧本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2009041832A priority Critical patent/JP5020274B2/ja
Publication of JP2010198269A publication Critical patent/JP2010198269A/ja
Application granted granted Critical
Publication of JP5020274B2 publication Critical patent/JP5020274B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】意味ドリフトが発生していることを認知しうる評価方法及び装置を提供すること。
【解決手段】意味ドリフト発生評価装置1は、新たなインスタンスを抽出するインスタンス抽出部11と、ブートストラップアルゴリズムにより、インスタンス抽出部11により新たに抽出されたインスタンス集合を用いたインスタンス抽出部11の反復実行を制御する反復実行制御部12と、インスタンスの関連キーワードを抽出する関連キーワード抽出部13と、関連キーワードに対して、数値を割り当てて関連キーワードベクトルを生成するベクトル生成部14と、各反復において関連キーワードに付与された関連キーワードベクトルに基づいて、各反復における意味ドリフトの程度を評価する意味ドリフト評価部15とを備える。
【選択図】図1

Description

本発明は、意味ドリフトの発生評価方法及び装置に関する。
従来、人名、地名、組織名といった固有表現や、これらの関係に関する意味知識の獲得方法として、初期値であって所定のカテゴリに属する少量のシードインスタンスに基づいて同一カテゴリに属するインスタンスを抽出し、抽出されたインスタンスにより反復的にインスタンスを増やしていく方法であるブートストラップアルゴリズムが提案されている(例えば、非特許文献1)。ブートストラップアルゴリズムでは、一般的なテキスト文章から、インスタンスを抽出することが可能である。より具体的には、検索ログをインスタンスの獲得源とした場合に、検索ログに含まれる検索クエリを構成する複数の単語のうち、所定のカテゴリに属する単語をシードインスタンスとする。そして、シードインスタンスを含む検索クエリにおいて、シードインスタンス以外の文字列をパターンとして抽出し、抽出したパターンより、インスタンスを抽出する。そして、高い適合率で所定のカテゴリに属するインスタンスを獲得できるものには高い適合度を割り当て、無関係のインスタンスを獲得できるものには、低い適合度を割り当てる。そして、適合度の高い順にパターンを用いることにより、高い適合率でインスタンスを獲得する。さらに、上述のシードインスタンスからインスタンスを獲得する方法と同じ要領で、獲得したインスタンスからの新たなインスタンスを獲得する処理を反復して実行する。このように、ブートストラップアルゴリズムは、少量のシードインスタンスから、大量のインスタンスを獲得できるという利点がある。
小町守,鈴木久美,検索ログからの半教師あり意味知識獲得の改善,人工知能学会論文誌,2008,No.3,pp.217-225,インターネット<URL: http://www.jstage.jst.go.jp/article/tjsai/23/3/217/_pdf/-char/ja/>
しかしながら、非特許文献1に記載の方法では、抽出されたパターンが、複数のカテゴリに出現するパターンであるジェネリックパターンである可能性がある。ジェネリックパターンは、所定のカテゴリ以外のカテゴリとも共起するパターンであることから、非特許文献1に記載の方法では、所定のカテゴリに属するシードインスタンスと関係のないインスタンスを獲得しうる。そして、シードインスタンスと関係のないインスタンスを一度獲得すると、所定のカテゴリと関係のないインスタンスと関連性の高いインスタンスを獲得するパターンを抽出して、獲得するインスタンスが所定のカテゴリと関連性の低いものに変わってしまう意味ドリフト(semantic drift)が発生しうる問題がある。さらに、ジェネリックパターンの有無に関わらず、複数のカテゴリに属しうる曖昧なインスタンスを獲得してしまう場合も、意味ドリフトが発生しうる。
本発明は、このような従来の問題点に鑑みて提案されたものであり、その目的は、意味ドリフトが発生していることを認知しうる評価方法及び装置を提供することにある。
本発明では、以下のような解決手段を提供する。
(1) 所定のカテゴリに含まれるインスタンスをブートストラップアルゴリズムにより獲得する方法において該所定のカテゴリと関連性の高いインスタンスを検索ログを用いて取得する際に、カテゴリの意味が遷移する意味ドリフトの発生状態を評価する意味ドリフト発生評価方法であって、前記検索ログに基づいて、新たなインスタンスを抽出する第1の抽出ステップと、前記ブートストラップアルゴリズムにより、前記第1の抽出ステップにて抽出した新たなインスタンスを用いた前記第1の抽出ステップの実行を反復する際に、予め記憶されている関連キーワード辞書よりインスタンスの関連キーワードを抽出する第2の抽出ステップと、前記関連キーワードに割り当てた数値を要素とする関連キーワードベクトルを生成するステップと、各反復における関連キーワードベクトルに基づいて、各反復における意味ドリフトの程度を評価するステップとを備える意味ドリフト発生評価方法。
(1)記載の意味ドリフト発生評価方法によれば、検索ログに基づいて、新たなインスタンスを抽出する第1の抽出処理を行う。そして、ブートストラップアルゴリズムにより、抽出したインスタンスを用いた第1の抽出処理の実行を反復する。そして、ブートストラップアルゴリズムにより新たなインスタンスの抽出の実行を反復する際に、予め記憶されている関連キーワード辞書よりインスタンスの関連キーワードを抽出する。そして、抽出した関連キーワードに対して割り当てた数値を要素とする関連キーワードベクトルを生成する。そして、各反復における関連キーワードベクトルに基づいて、各反復における意味ドリフトの程度を評価する。
このような方法によれば、各反復における関連キーワードベクトルと該反復の直前における関連キーワードベクトルとについて各反復における意味ドリフトの程度を評価するので、評価内容に基づいて意味ドリフトが発生したことを認知できる。
(2) 前記意味ドリフトの程度を評価するステップは、前記各反復における関連キーワードベクトルと該反復の直前における関連キーワードベクトルとについてコサイン類似度を算出し、該コサイン類似度により意味ドリフトの程度を評価することを特徴とする(1)記載の意味ドリフト発生評価方法。
(2)記載の意味ドリフト発生評価方法によれば、各反復における関連キーワードベクトルと該反復の直前における関連キーワードベクトルとについてコサイン類似度を算出し、該コサイン類似度により意味ドリフトの程度を評価する。このようにすることで、各反復における関連キーワードベクトルが直前の反復からどれだけ関連キーワードが遷移したのかを計測することができる。
(3) 前記意味ドリフトの程度を評価するステップは、前記各反復における関連キーワードベクトルと前記第1の抽出ステップにより前記新たなインスタンスを抽出するときの初期値であるシードインスタンスの関連キーワードベクトルとについてコサイン類似度を算出し、該コサイン類似度により意味ドリフトの程度を評価することを特徴とする(1)記載の意味ドリフト発生評価方法。
(3)記載の意味ドリフト発生評価方法によれば、各反復における関連キーワードベクトルと前記第1の抽出ステップにより前記新たなインスタンスを抽出するときの初期値であるシードインスタンスの関連キーワードベクトルとについてコサイン類似度を算出し、該コサイン類似度により意味ドリフトの程度を評価する。このようにすることで、反復により抽出されたインスタンスの関連キーワードがシードインスタンスの関連キーワードからどの程度遷移したのかを計測することができる。
(4) 所定のカテゴリに含まれるインスタンスをブートストラップアルゴリズムにより獲得する方法において該所定のカテゴリと関連性の高いインスタンスを検索ログを用いて取得する際に、カテゴリの意味が遷移する意味ドリフトの発生状態を評価する意味ドリフト発生評価装置であって、前記検索ログに基づいて、新たなインスタンスを抽出するインスタンス抽出手段と、前記ブートストラップアルゴリズムにより、前記インスタンス抽出手段にて抽出した新たなインスタンスを用いた前記インスタンス抽出手段の実行を反復する反復実行制御手段と、予め記憶されている関連キーワード辞書よりインスタンスの関連キーワードを抽出する関連キーワード抽出手段と、前記関連キーワードに割り当てた数値を要素とする関連キーワードベクトルを生成するベクトル生成手段と、前記反復のそれぞれにおける関連キーワードベクトルに基づいて、該反復のそれぞれにおける意味ドリフトの程度を評価する意味ドリフト評価手段とを備える意味ドリフト発生評価装置。
このような構成によれば、当該装置を構築することにより、(1)と同様の効果が期待できる。
本発明によれば、意味ドリフトが発生していることを認知しうる評価方法及び装置を提供することができる。
本実施形態に係る意味ドリフト発生評価装置1の構成例を示す図である。 本実施形態に係る検索ログDB21を示す図である。 本実施形態に係る関連キーワード辞書DB22を示す図である。 本実施形態に係る意味ドリフト発生評価装置1のハードウェア構成を示す図である。 本実施形態に係る意味ドリフト発生評価装置1が行う処理の流れを示すフローチャートである。 本実施形態に係る制御部10のインスタンス抽出部11におけるインスタンス抽出の処理の流れを示すフローチャートである。 シード類似度及び差分類似度の計測結果を示す図である。
以下、本発明の実施形態について図を参照しながら説明する。
[全体構成]
図1は、本実施形態に係る意味ドリフト発生評価装置1の構成例を示す図である。
意味ドリフト発生評価装置1は、所定のカテゴリに含まれるインスタンス(単語)をブートストラップアルゴリズムにより獲得する方法において、所定のカテゴリと関連性の高いインスタンスを検索ログを用いて取得する際に、所定のカテゴリと関連性の低いインスタンスを取得してしまう意味ドリフトの発生状態を評価する装置である。
意味ドリフト発生評価装置1は、制御部10と、記憶部20と、表示部31と、操作部32とを備える。そして、制御部10は、インスタンス抽出部11と、反復実行制御部12と、関連キーワード抽出部13と、ベクトル生成部14と、意味ドリフト評価部15とから構成される。また、記憶部20は、検索ログデータベース(以下、データベースをDBという)21と、関連キーワード辞書DB22とを記憶する。
インスタンス抽出部11は、検索ログDB21(後述の図2参照)を参照して、新たなインスタンスを抽出する。より具体的には、インスタンス抽出部11は、検索ログDB21より、指定されたインスタンス集合を構成するインスタンスが含まれている検索クエリを抽出する。指定されたインスタンス集合とは、意味ドリフト発生評価装置1により処理が開始された最初の時点ではシードインスタンスの集合であり、インスタンス抽出部11によりインスタンス集合が抽出された後は、インスタンス抽出部11により抽出されたインスタンス集合である。インスタンス抽出部11は、抽出した検索クエリより、当該インスタンス集合に含まれるインスタンス以外の単語をパターンとして抽出し、抽出したパターンにより構成されるパターン集合を生成する。そして、パターン集合に基づいて、検索ログDB21より当該パターン集合を構成するパターンが含まれる検索クエリを抽出する。そして、抽出した検索クエリより、当該パターン以外の単語をインスタンスとして抽出し、抽出したインスタンスにより構成されるインスタンス集合を生成する。また、パターン集合の生成時及びインスタンス集合の生成時に、それぞれパターンの信頼度及びインスタンスの信頼度を算出する。そして、信頼度の高いインスタンスの集合を所定のカテゴリに属する新たなインスタンス集合として抽出する。
パターンの信頼度及びインスタンスの信頼度について、より詳細に説明する。パターン集合P内のパターンpの信頼度をrπ(p)とし(πは下付き文字、以下同じ)、インスタンス集合I内のインスタンスiの信頼度をパターンの信頼度をrι(i)とすると(ιは下付き文字、以下同じ)、rπ(p)は、信頼性の高いパターンが信頼性の高いインスタンスと共起するという直観に基づき、
Figure 2010198269
により算出され、インスタンス集合I中の各インスタンスiとパターンpとの間の重み付き共起として定義されている。
pmi(i,p)は、インスタンスiとパターンpとの相互情報量(PMI:pointwise mutual infomation)であり、max pmiは、パターン集合とインスタンス集合における最大の相互情報量である。pmi(i,p)は、
Figure 2010198269
により算出される。
|i,p|は、インスタンスiとパターンpとが同時に検索された回数、すなわち、検索ログDB21に含まれるインスタンスi及びパターンpを含む検索クエリの数である。また、アスタリスクはワイルドカードである。
インスタンスiの信頼度もパターンpの信頼度の算出方法と同様に、信頼度の高いインスタンスが信頼度の高いパターンと共起するものと定義され、
Figure 2010198269
により算出される。
本実施形態では、数1及び数3に示される数式から確認できるように、rπ(p)とrι(i)とは再帰的に定義される。パターンの信頼度とインスタンスの信頼度は、インスタンス抽出部11により、パターン集合が生成される処理及びインスタンス集合が生成される処理との間で交互に算出される。
反復実行制御部12は、ブートストラップアルゴリズムにより、インスタンス抽出部11により新たに抽出されたインスタンス集合を用いたインスタンス抽出部11の反復実行を制御する。より具体的には、反復実行制御部12は、インスタンス抽出部11の処理回数をカウントし、意味ドリフト発生評価装置1の管理者が指定した回数に達したか否かを判別する。指定した回数に達していない場合には、インスタンス抽出部11によるインスタンスの抽出を反復実行させ、指定した回数に達した場合にはインスタンス抽出部11によるインスタンスの抽出を終了する。このようにインスタンスの抽出を反復実行させることにより、多量のインスタンスの抽出が可能になる。
関連キーワード抽出部13は、関連キーワード辞書DB22(後述の図3参照)を参照して、インスタンスの関連キーワードを抽出する。より具体的には、関連キーワード抽出部13は、関連キーワード辞書DB22を参照して、シードインスタンス又はインスタンス抽出部11により抽出されたインスタンスそれぞれの関連キーワードを1又は複数抽出する。シードインスタンスとは、意味ドリフト発生評価装置1において、インスタンスを取得するための初期値であって人手により定められるものであり、所定のカテゴリに属する。
関連キーワード抽出部13により関連キーワードが抽出されるタイミングは2通りある。すなわち、インスタンスがシードインスタンスである場合には、意味ドリフト発生評価装置1において、インスタンス抽出部11による1回目のインスタンスの抽出がされる前に関連キーワードが抽出される。また、インスタンスがインスタンス抽出部11により抽出されたインスタンスである場合には、インスタンス抽出部11により新たなインスタンスが抽出された直後に関連キーワードが抽出される。
ベクトル生成部14は、関連キーワード抽出部13により抽出された関連キーワードに対して数値を割り当てて、割り当てた数値を要素とする関連キーワードベクトルを生成する。より具体的には、ベクトル生成部14は、インスタンス集合におけるそれぞれのインスタンスにおいて関連キーワード抽出部13により抽出された関連キーワードの数を算出する。そして、当該算出した関連キーワードの数で1を除算して得られた数値を、関連キーワードに割り当て、割り当てた数値を要素とする関連キーワードベクトルを生成する。そして、インスタンス集合に含まれている全てのインスタンスのキーワードベクトルを集計する。
例えば、インスタンス集合Aに含まれるインスタンスがX及びYの2つである場合に、Xの関連キーワードとして、a、b、c、dの4つが抽出され、Yの関連キーワードとして、a及びeの2つが抽出されたとする。そうすると、Xの関連キーワードのそれぞれに対して関連キーワードベクトルとして、1を4で除算した数である0.25が付与され、a(0.25)、b(0.25)、c(0.25)、d(0.25)となる。また、Yの関連キーワードのそれぞれに対して関連キーワードベクトルとして、1を2で除算した数である0.5が付与され、a(0.5)、e(0.5)となる。そして、インスタンス集合のキーワードベクトルは、インスタンスX及びYの関連キーワードベクトルを集計した結果、すなわち、a(0.75)、b(0.25)、c(0.25)、d(0.25)、e(0.5)となる。
意味ドリフト評価部15は、各反復において関連キーワードに付与された関連キーワードベクトルに基づいて、各反復における意味ドリフトの程度を評価する。より具体的には、意味ドリフト評価部15は、インスタンス抽出部11の反復実行後にベクトル生成部14により生成した関連キーワードベクトルと、当該反復実行の直前においてベクトル生成部14により生成した関連キーワードベクトルとについてコサイン類似度を算出する。ここで、コサイン類似度とは、ベクトル間のコサイン距離である。各反復実行において生成した関連キーワードベクトルをAとし、当該反復実行の直前における関連キーワードベクトルをBとすると、コサイン類似度sim(A,B)は、
Figure 2010198269
により算出される。このように、各反復の前後のキーワードベクトルに基づいて算出されたコサイン類似度は、差分類似度と呼ばれる。
例えば、ある反復において抽出されたインスタンス集合Aのキーワードベクトルが、a(0.75)、b(0.25)、c(0.25)、d(0.25)、e(0.5)であり、当該反復の直前のインスタンス集合Bのキーワードベクトルがa(0.33)、b(0.33)、c(0.33)であるとすると、差分類似度としてのコサイン類似度sim(A,B)は、数4の式に基づいて0.72と算出される。
さらに、意味ドリフト評価部15は、インスタンス抽出部11の各反復実行においてベクトル生成部14により生成した関連キーワードベクトルと、シードインスタンスの集合においてベクトル生成部14により生成した関連キーワードベクトルとについてもコサイン類似度を算出する。この場合のコサイン類似度の数式は、数4に示される数式と同様である。このように、シードインスタンスのキーワードベクトル及びある反復におけるキーワードベクトルに基づいて算出されたコサイン類似度は、シード類似度と呼ばれる。
差分類似度及びシード類似度は、いずれも0以上1以下の値をとることとなる。差分類似度は、各反復における関連キーワードベクトルが直前の反復からどれだけ関連キーワードが遷移したのかを計測するものであり、極端に数値が低下した位置で関連キーワードの遷移、すなわち、所定のカテゴリと関連性の低いインスタンスを取得する意味ドリフトが発生していると考えられる。すなわち、関連キーワードが類似している場合には、反復の前後でキーワードベクトルの変化が小さいことから、コサイン類似度が1に近い値となる。また、関連キーワードが類似していない場合には、反復の前後でキーワードベクトルの変化が大きくなり、コサイン類似度が0に近い値となる。すなわち、インスタンス抽出部11の反復実行におけるコサイン類似度をモニタリングすることにより、キーワードベクトルが大きく変化したこと、すなわち、意味ドリフトが発生したことを認知しうる。
シード類似度は、反復により抽出されたインスタンスの関連キーワードがシードインスタンスの関連キーワードからどの程度遷移したのかを計測するものであり、シード類似度を導入することにより、シードインスタンスとシードインスタンスの関連キーワードに基づいて、インスタンス抽出部11の反復実行により抽出されたインスタンス集合の意味ドリフトの度合いについて評価を行うことができる。
なお、本実施形態では、コサイン類似度を算出することにより各反復における意味ドリフトの程度を評価することとしたが、これに限らない。例えば、ユークリッド距離、カルバックル・ライブラー距離を算出することにより、各反復における意味ドリフトの程度を評価することとしてもよい。なお、この場合には、ベクトル生成部14で生成するベクトルを正規化する必要がある。ベクトルの正規化とは、生成した各々のベクトルについて、要素数で除算することをいう。
図2は、本実施形態に係る検索ログDB21を示す図である。検索ログDB21は、所定の検索エンジンより抽出した検索ログに含まれる検索クエリを記憶するものである。検索ログDB21には、検索ログを構成する第1の単語(インスタンス)を記憶する「インスタンス1」フィールドと、検索ログを構成する第2の単語(インスタンス)を記憶する「インスタンス2」フィールドとが含まれている。すなわち、本実施形態では、検索ログDB21に、2つの単語から構成される検索クエリをそれぞれの単語(インスタンス)に分割して格納している。検索ログDB21は、インスタンス抽出部11により、インスタンスを抽出するときに参照される。
なお、本実施形態では、検索ログDB21に2つの単語から構成される検索クエリのみを格納して、この検索クエリに基づいて新たなインスタンスを抽出することとしたが、これに限らない。例えば、検索ログDB21に、3つ以上の単語を含む検索クエリや形態素解析により分解された単語等を記憶させて、当該単語より新たなインスタンスを抽出することとしてもよい。このようにすることで、ソースデータが増加するので、様々なパターンを抽出することができる。
図3は、本実施形態に係る関連キーワード辞書DB22を示す図である。関連キーワード辞書DB22は、インスタンスと、インスタンスに付与されている関連キーワードとを関連付けて記憶したDBであり、予め所定の辞書サイトより抽出されたインスタンス及び関連キーワードを記憶する。関連キーワード辞書DB22は、インスタンスを示す「インスタンス」フィールドと、インスタンスに付与されている関連キーワードを示す「関連キーワード」フィールドとが含まれている。関連キーワード辞書DB22は、関連キーワード抽出部13によりシードインスタンス又は新たに生成したインスタンスの関連キーワードを抽出するときに参照される。
なお、本実施形態では、予め所定の辞書サイトよりインスタンス及び関連キーワードを抽出することとしたが、これに限らない。例えば、検索結果に含まれるスニペットから得たキーワードを用いることとしてもよい。ここで、スニペットとは、検索エンジンにおける検索結果ページに含まれるWebページの紹介文であり、検索クエリに関連するキーワードが含まれている可能性が高い要素である。すなわち、スニペットを分析して、検索クエリ(インスタンス)の関連キーワードを抽出し、検索クエリ及び抽出した関連キーワードを関連キーワードDB22に記憶させることとしてもよい。
表示部31は、意味ドリフト発生評価装置1の機能に関する表示を行い、意味ドリフト発生評価装置1を操作する者に対して、それぞれの機能により出力された情報を視覚的に表示する。操作部32は、意味ドリフト発生評価装置1を操作する者からの直接的な入力を受け付ける。
[意味ドリフト発生評価装置のハードウェア構成]
図4は、本実施形態に係る意味ドリフト発生評価装置1のハードウェア構成を示す図である。本発明が実施される意味ドリフト発生評価装置1は標準的なものでよく、以下に構成の一例を示す。
意味ドリフト発生評価装置1は、制御部10を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F(I/F:インターフェイス)1040、メインメモリ1050、BIOS(Basic Input Output System)1060、表示装置1022、I/Oコントローラ1070、キーボード及びマウス等の入力装置1100、ハードディスク1074、光ディスクドライブ1076、並びに半導体メモリ1078を備える。なお、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078をまとめて記憶部20と呼ぶ。
制御部10は、意味ドリフト発生評価装置1に係る各種機能を統括的に制御する部分であり、ハードディスク1074に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
通信I/F1040は、意味ドリフト発生評価装置1が、通信ネットワークを介して他のサーバ等と情報を送受信する場合のネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
メインメモリ1050は、CPU1010により各種プログラムを実行する際に生成されるデータを一時的に記憶する。BIOS1060は、意味ドリフト発生評価装置1の起動時にCPU1010が実行するブートプログラムや、意味ドリフト発生評価装置1のハードウェアに依存するプログラム等を記録する。
表示装置1022は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含み、表示部31として機能する。
I/Oコントローラ1070には、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078等の記憶装置である記憶部20を接続することができる。
入力装置1100は、意味ドリフト発生評価装置1の管理者による入力の受け付けを行うものであり、操作部32として機能する。
ハードディスク1074は、本ハードウェアを意味ドリフト発生評価装置1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び上述のDBを記憶する。なお、意味ドリフト発生評価装置1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、ブルーレイディスク(Blu−ray Disc:登録商標)ドライブを使用することができる。光ディスクドライブ1076を使用する場合は、光ディスクドライブ1076に対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、意味ドリフト発生評価装置1は、上述のように、制御部10、記憶部20等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。
また、意味ドリフト発生評価装置1は、ハードウェアの数に制限はなく、必要に応じて1又は複数のハードウェアで構成してよい。また、複数のハードウェアで構成する場合には、通信ネットワークを介して各ハードウェアを接続してもよい。例えば、各機能ごとに別サーバ(装置)とし、各サーバ間での信号の送受信により、各サーバを連携させることで、本実施形態の機能を実現してもよい。
[処理フロー]
図5は、本実施形態に係る意味ドリフト発生評価装置1が行う処理の流れを示すフローチャートである。
ステップS1では、制御部10(関連キーワード抽出部13)は、関連キーワード辞書DB22を参照して、シードインスタンスの関連キーワードを抽出する。
ステップS2では、制御部10(ベクトル生成部14)は、ステップS1にて抽出された関連キーワードに対して、数値を割り当てて関連キーワードベクトルを生成する。より具体的には、ベクトル生成部14は、関連キーワード抽出部13により抽出されたインスタンス集合におけるそれぞれのインスタンスに対して抽出された関連キーワードの数を算出する。そして、当該関連キーワードの数で1を除算した数を、関連キーワードベクトルとして関連キーワードに付与する。そして、シードインスタンスの集合に含まれている全てのインスタンスのキーワードベクトルを集計する。
ステップS3では、制御部10(インスタンス抽出部11)は、検索ログDB21を参照して新たなインスタンスを抽出する。インスタンスの抽出については、図6で詳細に説明する。
ステップS4では、制御部10(関連キーワード抽出部13)は、関連キーワード辞書DB22を参照して、ステップS3にて抽出された新たなインスタンスの関連キーワードを抽出する。
ステップS5では、制御部10(ベクトル生成部14)は、ステップS4にて抽出された関連キーワードに対して、数値を割り当てて関連キーワードベクトルを生成する。
ステップS6では、制御部10(意味ドリフト評価部15)は、各反復において関連キーワードに付与された関連キーワードベクトルに基づいて、コサイン類似度を算出して各反復における意味ドリフトの程度を評価する。
ステップS7では、制御部10(反復実行制御部12)は、インスタンス抽出部11の処理回数をカウントする。なお、処理回数のカウントは、意味ドリフト発生評価装置1において処理を開始するときに0にリセットされる。
ステップS8では、制御部10(反復実行制御部12)は、処理を継続するか否かを判別する。より具体的には、ステップS7にてカウントしたインスタンス抽出部11の処理回数が意味ドリフト発生評価装置1の管理者が指定した回数に達したか否かを判別する。この判別結果がYESのときは処理を終了し、NOのときはステップS3に移る。
図6は、本実施形態に係る制御部10のインスタンス抽出部11におけるインスタンス抽出の処理の流れを示すフローチャートである。
ステップS31では、制御部10(インスタンス抽出部11)は、検索ログDB21を参照して、指定されたインスタンス集合を構成するインスタンスを含む検索クエリを抽出する。ステップS32では、制御部10(インスタンス抽出部11)は、ステップS31にて抽出した検索クエリより、指定されたインスタンス集合に含まれるインスタンス以外の単語をパターンとして抽出し、抽出したパターンにより構成されるパターン集合を生成する。
ステップS33では、制御部10(インスタンス抽出部11)は、ステップS32にて生成されたパターン集合に含まれる全てのパターンについて、数式1に従って信頼度を算出する。ステップS34では、制御部10(インスタンス抽出部11)は、検索ログDB21を参照して、ステップS32にて生成されたパターン集合に含まれるパターンを含む検索クエリを抽出する。
ステップS35では、制御部10(インスタンス抽出部11)は、ステップS34にて抽出した検索クエリより、ステップS32にて生成されたパターン集合に含まれるパターン以外の単語をインスタンスとして抽出し、抽出したインスタンスにより構成されるインスタンス集合を生成する。ステップS36では、制御部10(インスタンス抽出部11)は、ステップS35にて生成されたインスタンス集合に含まれる全てのインスタンスについて、数3に示される式に従って信頼度を算出する。
ステップS37では、制御部10(インスタンス抽出部11)は、ステップS36にて算出された信頼度に基づいて、信頼度が高いインスタンスをインスタンス集合として抽出し、インスタンス抽出の処理を終了する。
[実験結果]
続いて、本実施形態に係る意味ドリフト発生評価装置1において、反復実行制御部12によりインスタンスの生成を反復実行したときの、各反復における意味ドリフトの程度を評価したときの実験結果を示す。実験するに当たり、検索ログDB21に記憶するデータとして、Yahoo!(登録商標)検索の2008年8月分の検索ログのうち、空白文字で区切られた2つの単語で構成されたものを用いた。そして、関連キーワード辞書DB22に記憶するデータとして、Wikipedia(登録商標)の2008年7月24日版のダンプを使用した。
また、インスタンス抽出部11により生成されたインスタンス集合に含まれるインスタンスであって、信頼度が上位500位以内のインスタンスを、インスタンス抽出部11により新たに抽出されるインスタンスとした。また、インスタンスの信頼度の算出では、パターン集合に含まれる全てのパターンを用いた。また、インスタンス抽出処理の反復回数を50回とした。また、シードインスタンスとして、所定のカテゴリが「野球選手」である5人の野球選手の氏名を用いることとした。
図7は、シード類似度及び差分類似度の実験結果を示す図である。縦軸は差分類似度及びシード類似度を示し、横軸は反復回数を示す。
図7に示されるように、インスタンス抽出部11の5回目の反復実行後に意味ドリフト評価部15により算出された差分類似度及びシード類似度が、5回目の反復実行前に意味ドリフト評価部15により算出された差分類似度及びシード類似度に比べて、大きく低下していることが確認できる。5回目の反復実行において、入れ替わった236個のインスタンスの精査を行った結果、インスタンス抽出部11により新たに抽出されたインスタンスの中に野球選手が含まれていないこと、すなわち、意味ドリフトの発生を確認できた。したがって、本実施形態に示す意味ドリフト評価部15により、差分類似度を算出し、差分類似度の変化の度合いについて評価することにより意味ドリフトが発生していることを認知できる。
また、シード類似度は、反復により抽出されたインスタンスの関連キーワードがシードインスタンスの関連キーワードからどの程度遷移したのかを計測するものであることから、5回目の反復において抽出されたインスタンスの関連キーワードがシードインスタンスの関連キーワードから大きく遷移したことが確認できる。したがって、意味ドリフト評価部15により、シード類似度を算出し、シード類似度の変化の度合いについて評価することによっても意味ドリフトが発生していることを認知できる。
以上、本発明の実施形態について説明したが、本発明は本実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
1 意味ドリフト発生評価装置
10 制御部
11 インスタンス抽出部
12 反復実行制御部
13 関連キーワード抽出部
14 ベクトル生成部
15 意味ドリフト評価部
21 検索ログDB
22 関連キーワード辞書DB
31 表示部
32 操作部

Claims (4)

  1. 所定のカテゴリに含まれるインスタンスをブートストラップアルゴリズムにより獲得する方法において該所定のカテゴリと関連性の高いインスタンスを検索ログを用いて取得する際に、カテゴリの意味が遷移する意味ドリフトの発生状態を評価する意味ドリフト発生評価方法であって、
    前記検索ログに基づいて、新たなインスタンスを抽出する第1の抽出ステップと、
    前記ブートストラップアルゴリズムにより、前記第1の抽出ステップにて抽出した新たなインスタンスを用いた前記第1の抽出ステップの実行を反復する際に、
    予め記憶されている関連キーワード辞書よりインスタンスの関連キーワードを抽出する第2の抽出ステップと、
    前記関連キーワードに割り当てた数値を要素とする関連キーワードベクトルを生成するステップと、
    各反復における関連キーワードベクトルに基づいて、各反復における意味ドリフトの程度を評価するステップとを備える意味ドリフト発生評価方法。
  2. 前記意味ドリフトの程度を評価するステップは、前記各反復における関連キーワードベクトルと該反復の直前における関連キーワードベクトルとについてコサイン類似度を算出し、該コサイン類似度により意味ドリフトの程度を評価することを特徴とする請求項1記載の意味ドリフト発生評価方法。
  3. 前記意味ドリフトの程度を評価するステップは、前記各反復における関連キーワードベクトルと前記第1の抽出ステップにより前記新たなインスタンスを抽出するときの初期値であるシードインスタンスの関連キーワードベクトルとについてコサイン類似度を算出し、該コサイン類似度により意味ドリフトの程度を評価することを特徴とする請求項1記載の意味ドリフト発生評価方法。
  4. 所定のカテゴリに含まれるインスタンスをブートストラップアルゴリズムにより獲得する方法において該所定のカテゴリと関連性の高いインスタンスを検索ログを用いて取得する際に、カテゴリの意味が遷移する意味ドリフトの発生状態を評価する意味ドリフト発生評価装置であって、
    前記検索ログに基づいて、新たなインスタンスを抽出するインスタンス抽出手段と、
    前記ブートストラップアルゴリズムにより、前記インスタンス抽出手段にて抽出した新たなインスタンスを用いた前記インスタンス抽出手段の実行を反復する反復実行制御手段と、
    予め記憶されている関連キーワード辞書よりインスタンスの関連キーワードを抽出する関連キーワード抽出手段と、
    前記関連キーワードに割り当てた数値を要素とする関連キーワードベクトルを生成するベクトル生成手段と、
    前記反復のそれぞれにおける関連キーワードベクトルに基づいて、該反復のそれぞれにおける意味ドリフトの程度を評価する意味ドリフト評価手段とを備える意味ドリフト発生評価装置。
JP2009041832A 2009-02-25 2009-02-25 意味ドリフトの発生評価方法及び装置 Active JP5020274B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009041832A JP5020274B2 (ja) 2009-02-25 2009-02-25 意味ドリフトの発生評価方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009041832A JP5020274B2 (ja) 2009-02-25 2009-02-25 意味ドリフトの発生評価方法及び装置

Publications (2)

Publication Number Publication Date
JP2010198269A true JP2010198269A (ja) 2010-09-09
JP5020274B2 JP5020274B2 (ja) 2012-09-05

Family

ID=42822940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009041832A Active JP5020274B2 (ja) 2009-02-25 2009-02-25 意味ドリフトの発生評価方法及び装置

Country Status (1)

Country Link
JP (1) JP5020274B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012121011A1 (ja) * 2011-03-04 2012-09-13 楽天株式会社 集合拡張処理装置、集合拡張処理方法、プログラム、及び、非一時的な記録媒体
JP2019159918A (ja) * 2018-03-14 2019-09-19 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092253A (ja) * 2003-09-11 2005-04-07 Fuji Xerox Co Ltd 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092253A (ja) * 2003-09-11 2005-04-07 Fuji Xerox Co Ltd 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012121011A1 (ja) * 2011-03-04 2012-09-13 楽天株式会社 集合拡張処理装置、集合拡張処理方法、プログラム、及び、非一時的な記録媒体
JP2012185666A (ja) * 2011-03-04 2012-09-27 Rakuten Inc 集合拡張処理装置、集合拡張処理方法、プログラム、及び、記録媒体
CN102971733A (zh) * 2011-03-04 2013-03-13 乐天株式会社 集合扩展处理装置、集合扩展处理方法、程序、及非暂时性记录媒体
US9268821B2 (en) 2011-03-04 2016-02-23 Rakuten, Inc. Device and method for term set expansion based on semantic similarity
JP2019159918A (ja) * 2018-03-14 2019-09-19 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
JP7006402B2 (ja) 2018-03-14 2022-01-24 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置

Also Published As

Publication number Publication date
JP5020274B2 (ja) 2012-09-05

Similar Documents

Publication Publication Date Title
US9558264B2 (en) Identifying and displaying relationships between candidate answers
Chen et al. Mining likely analogical apis across third-party libraries via large-scale unsupervised api semantics embedding
US9799040B2 (en) Method and apparatus for computer assisted innovation
JP4878624B2 (ja) 文書処理装置および文書処理方法
EP3218811B1 (en) Testing insecure computing environments using random data sets generated from characterizations of real data sets
US9697099B2 (en) Real-time or frequent ingestion by running pipeline in order of effectiveness
KR20120135218A (ko) 매치를 특징화하는 규칙을 사용하는 메타데이터 소스의 매칭
WO2016130542A1 (en) Code relatives detection
Jain et al. Query2vec: An evaluation of NLP techniques for generalized workload analytics
JP2021193617A (ja) 医療データ検証方法、装置及び電子機器
Li et al. Extracting statistical graph features for accurate and efficient time series classification
Berghe et al. Retrieving taxa names from large biodiversity data collections using a flexible matching workflow
Skaggs et al. Topic modeling for wikipedia link disambiguation
Alarte et al. What web template extractor should I use? A benchmarking and comparison for five template extractors
US20220215186A1 (en) Machine learning enabled text analysis with support for unstructured data
JP5020274B2 (ja) 意味ドリフトの発生評価方法及び装置
Sailaja et al. An overview of pre-processing text clustering methods
CN111639161A (zh) 制度信息处理方法、装置、计算机***和介质
Velloso et al. Extracting records from the web using a signal processing approach
US20230100418A1 (en) Metadata-driven data ingestion
JP5180894B2 (ja) 属性表現獲得方法及び装置及びプログラム
Soltani et al. Detecting the software usage on a compromised system: A triage solution for digital forensics
Prathyusha et al. Normalization Methods for Multiple Sources of Data
JP6081609B2 (ja) データ分析システム及びその方法
Yang et al. Evaluation and assessment of machine learning based user story grouping: A framework and empirical studies

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120612

R150 Certificate of patent or registration of utility model

Ref document number: 5020274

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150622

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250