JP4443999B2 - 情報管理装置および情報管理プログラム - Google Patents

情報管理装置および情報管理プログラム Download PDF

Info

Publication number
JP4443999B2
JP4443999B2 JP2004156097A JP2004156097A JP4443999B2 JP 4443999 B2 JP4443999 B2 JP 4443999B2 JP 2004156097 A JP2004156097 A JP 2004156097A JP 2004156097 A JP2004156097 A JP 2004156097A JP 4443999 B2 JP4443999 B2 JP 4443999B2
Authority
JP
Japan
Prior art keywords
concept
mapping
concepts
topology
partial information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004156097A
Other languages
English (en)
Other versions
JP2005339119A (ja
Inventor
真 中辻
辰幸 木村
和郎 小池
洋一郎 八巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004156097A priority Critical patent/JP4443999B2/ja
Publication of JP2005339119A publication Critical patent/JP2005339119A/ja
Application granted granted Critical
Publication of JP4443999B2 publication Critical patent/JP4443999B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は情報管理装置、情報管理方法および情報管理プログラムに関し、特に、階層的に表現される情報源同士を自動的にマッピングする方法に適用して好適なものである。
今年のインターネットの普及により個人が入手できる情報は格段に増大し、所望の情報に容易にアクセスできるようにするため、これらの情報を階層的に管理することが行われている。
ここで、情報を管理する場合、情報の利用目的や収集されている情報などによって情報管理方法への要求が異なる。このため、各管理者によって独自の概念階層が構築され、各管理者による概念階層の一貫性の維持を許容しつつ、情報を分散管理することが行われている。
また、例えば、非特許文献1には、様々な情報を管理する概念階層を1つの情報源とみなし、それぞれの情報源が持つ情報を相互に利用できるようにするため、インスタンスの分類の類似性に基づいて、各概念間の類似性を同定し、他の情報源との相違を調整する規則として学習する機械学習の手法が開示されている。
また、例えば、非特許文献2には、不均一なオントロジに対する問合せ近似変換において、値域制限や否定を記述可能なオントロジ記述言語に対して拡張することにより、独立に更新あるいはカスタマイズされたオントロジの時間的・空間的広がりに対処する方法が開示されている。
また、例えば、非特許文献3には、他者によって管理されている情報が自分の持つ概念階層のどこに位置するかを容易に同定できるようにするため、機械的に求めたインスタンス間の類似性に基づいて、概念階層間で共有されていないインスタンスを自動的に共有させることにより、同じインスタンスを持っていない概念階層間でも結合が行えるようにする方法が開示されている。
市瀬龍太郎、武田英明、本位田真一"階層的知識間の調整規則の学習"人工知能学会誌、Vol.17,No.3,pp.230−238(2002) 赤埴淳一、平松薫、佐藤哲司"不均一なオントロジに対する問合せ近似変換"人工知能学会研究資料(SIG−SW&ONT−A301−07)(2003) 濱崎雅弘、武田英明、市瀬龍太郎"階層的知識と内容的類似性を用いたインターネットディレクトリの統合"The 17th Annual Conference of the Japanese Society for Artificial Intelligence,1D4−07(2003)
しかしながら、非特許文献1、3に開示された方法では、各概念間または各インスタンス間の類似性のみに基づいて、概念間のマッピングが行われる。このため、これらの方法で得られたマッピング結果を人間が分析すると、語彙的に近いマッピング結果であっても、必ずしも概念間で意味が一致できたと判定できない間違ったマッピング結果が多く得られるという問題があった。
また、非特許文献2に開示された方法では、オントロジ記述言語の拡張に関するものであり、概念間のマッピング結果の精度を向上させることはできないという問題があった。
そこで、本発明の目的は、人手にかかる負担を抑制しつつ、概念間のマッピング精度を向上させることが可能な情報管理装置および情報管理プログラムを提供することである。
上述した課題を解決するために、本発明の情報管理装置によれば、2つの情報源にそれぞれ含まれる互いに近似する概念を抽出する概念間マッピング抽出手段と、前記概念間マッピング手段にて抽出された互いに近似する概念の接続形態に基づいて、互いに親子関係をなす概念集合から構成される部分情報源間で近似する部分情報源を抽出してトポロジマッピングを形成するトポロジマッピング抽出手段と、前記トポロジマッピング抽出手段にて抽出されたトポロジマッピング結果が多重化している部分情報源を検出し、当該検出された部分情報源に含まれる概念の個数に基づいて、トポロジマッピング結果の誤りを検出し、誤りの検出されたトポロジマッピング結果を除去することで前記概念間マッピング抽出手段にて抽出された概念間のマッピング結果の修正を行うトポロジマッピング評価手段とを備えることを特徴とする。
また、本発明の情報管理装置によれば、前記概念間マッピング抽出手段は、2つの情報源にそれぞれ含まれる概念の持つインスタンス間の近似性を計測する近似度計測手段を備えることを特徴とする。
また、本発明の情報管理装置によれば、前記トポロジマッピング抽出手段は、前記マッピングされた概念と親子関係をなす概念のマッピング状態を判定するマッピング状態判定手段と、前記概念間マッピング抽出手段にて抽出された互いに近似する概念の接続形態の近似性を判定する接続形態判定手段とを備え、前記トポロジマッピング抽出手段は、前記接続形態判定手段にて判定された接続形態の近似性に基づいて、互いに親子関係をなす概念集合から構成される部分情報源間でトポロジマッピングを形成することを特徴とする。
た、本発明の情報管理プログラムによれば、2つの情報源についての概念間のマッピングを行うステップと、前記マッピングされた概念の親子関係に基づいて、互いに近似する概念間の接続形態の近似性を判定するステップと、前記概念間の接続形態の近似性に基づいて、当該接続形態の近似している概念集合から構成される部分情報源間で近似する部分情報源を抽出してトポロジマッピングを行うステップと、前記トポロジマッピング結果が多重化している部分情報源を検出するステップと、前記検出された部分情報源に含まれる概念の個数を算出するステップと、前記部分情報源に含まれる概念の個数に基づいて、前記トポロジマッピング結果の誤りを検出し、誤りの検出されたトポロジマッピング結果を除去することにより前記概念間のマッピング結果を修正するステップとをコンピュータに実行させることを特徴とする。
以上説明したように、本発明によれば、各概念間の類似性だけでなく、概念の階層構造を考慮しながら、異なる情報源に含まれる概念間のマッピングを自動的に行うことができる。このため、人手にかかる負担を抑制しつつ、異なる情報源に含まれる概念間のマッピング精度を向上させることが可能となり、他者によって管理されている情報が自分の持つ概念階層のどこに位置するかを精度よく同定することができる。この結果、各管理者ごとに情報が分散管理されている場合においても、自分が必要とする情報に効率よくアクセスすることが可能となり、小規模分散かつ多様なシステムの持つデータに対しても、柔軟なアクセス・連携・管理を実現することができる。
以下、本発明の実施形態に係る情報管理装置について図面を参照しながら説明する。
図1は、本発明の一実施形態に係る情報管理装置の概略構成を示すブロック図である。
図1において、情報管理装置には、概念間マッピング抽出装置2、トポロジマッピング抽出装置3およびトポロジマッピング評価装置4が設けられている。ここで、概念間マッピング抽出装置2は、2つの情報源1a、1bにそれぞれ含まれる互いに近似する概念を抽出する。トポロジマッピング抽出装置3は、概念間マッピング抽出装置2にて抽出された互いに近似する概念の接続形態に基づいてトポロジマッピングを行う。トポロジマッピング評価装置4は、ポロジマッピング抽出装置3にて抽出されたトポロジマッピング結果に基づいて、概念間マッピング抽出装置2にて抽出された概念間のマッピング結果の評価を行う。
ここで、概念間マッピング抽出装置2には、2つの情報源1a、1bにそれぞれ含まれる概念の持つインスタンス間の近似性を計測する近似度計測手段2aを設けることができる。なお、インスタンス間の近似性を計測する方法としては、インスタンスにおける語彙的な近似度やκ統計量などを用いることができる。そして、インスタンス間の近似度がヒューリスティックなしきい値以上の場合、2つの情報源1a、1bにそれぞれ含まれる概念間のマッピングを行うことができる。なお、情報源1a、1bとは、時々刻々と情報を提供するもので、例えば、オントロジ、インターネットディレクトリ、図書の分類目録などの階層構造により構成されるものを言う。また、情報源1a、1bは、画像などのコンテンツデータでもよく、画像間の近似性を計測する場合、画像に付加されているメタ情報を用いるようにしてもよい。
また、トポロジマッピング抽出装置3には、概念間マッピング抽出装置2にてマッピングされた概念と親子関係をなす概念のマッピング状態を判定するマッピング状態判定手段3a、概念間マッピング抽出装置2にて抽出された互いに近似する概念の接続形態の近似性を判定する接続形態判定手段3bを設けることができる。そして、トポロジマッピング抽出装置3は、接続形態判定手段3bにて判定された接続形態の近似性に基づいて、互いに親子関係をなす概念から構成される部分情報源間でトポロジマッピングを形成することができる。なお、部分情報源とは情報源1a、1bの一部分を言い、部分情報源の具体例としてサブオントロジやサブディレクトリなどを挙げることができる。
また、トポロジマッピング評価装置4には、多重化されたトポロジマッピング結果を与える部分情報源を検出する部分情報源検出手段4a、部分情報源検出手段4aにて検出された部分情報源に含まれる概念の個数を算出する概念数算出手段4bおよび概念数算出手段4bにて算出された部分情報源に含まれる概念の個数に基づいて、トポロジマッピング結果の誤りを検出するトポロジマッピング誤り検出手段4cを設けることができる。
なお、マッピングとは、概念と概念とが意味的に等しいかを判定することである。また、トポロジとは、概念集合の接続形態をいう。また、トポロジマッピングとは、概念集合間で概念の接続形態が等しいかを判定することである。
図2は、本発明の一実施形態に係る情報源の構造の一例を示す図である。
図2において、例えば、情報源1aに含まれる概念11の階層構造は木構造で表すことができ、木のノードにはインスタンス12が割り当てられている。また、情報源1bも同様に概念11の木構造で表すことができる。なお、インスタンス12とは情報の実態であり、概念11に割当てられるものである。
図3は、本発明の一実施形態に係る情報管理方法を示すフローチャートである。
図3において、情報源1a、1bが図1の概念間マッピング抽出装置2に入力されると(ステップS1)、近似度計測手段2aは、情報源1a、1bにそれぞれ含まれる概念の持つインスタンス間の近似性を計測する(ステップS2)。そして、概念間マッピング抽出装置2は、情報源1a、1bに含まれる概念の持つインスタンスの近似性に基づいて情報源1a、1bに含まれる概念間のマッピングを行う(ステップS3)。
そして、概念間マッピング抽出装置2にて概念間のマッピングが行われると、そのマッピング結果がトポロジマッピング抽出装置3に出力される。そして、概念間のマッピング結果がトポロジマッピング抽出装置3に出力されると、トポロジマッピング抽出装置3は、概念間マッピング抽出手段2にて抽出された互いに近似する概念の接続形態の近似性に基づいてトポロジマッピングを行う(ステップS4)。
ここで、トポロジマッピングを行う場合、マッピング状態判定手段3aは、概念間マッピング抽出装置2にてマッピングされた概念と親子関係をなす概念のマッピング状態を判定することができる。そして、接続形態判定手段3bは、マッピングされた概念間の親子関係に基づいて、互いに近似する概念間の接続形態の近似性を判定することができる。
図4は、本発明の一実施形態に係るトポロジマッピング抽出方法を示す図である。なお、以下の説明では、情報源1a、1bの持つデータとしてオントロジを例にとって説明する。
図4において、オントロジOAには概念Ca1〜Ca3、オントロジOBには概念Cb1〜Cb3が存在しているものとする。なお、オントロジOA、OBとは、情報源1a、1bの持つデータを、情報源1a、1bに対する概念に基づく体系として定義したものである。そして、概念Ca1〜Ca3は互いに親子関係を構成し、概念Cb1〜Cb3は互いに親子関係を構成しているものとする。
そして、図4(a)に示すように、図1の概念間マッピング抽出装置2にてオントロジOAの概念Ca2とオントロジOBの概念Cb2とが互いにマッピングされているものとする(M1)。そして、トポロジマッピング抽出装置3は、互いにマッピングされている概念Ca2、Cb2がオントロジOA、OBにそれぞれ存在する場合、これらの概念Ca2、Cb2に親概念が存在するかを判断する。
そして、図4(b)に示すように、これらの概念Ca2、Cb2に親概念Ca1、Cb1がそれぞれ存在する場合、トポロジマッピング抽出装置3は、概念間マッピング抽出装置2にて行われたマッピング結果を参照することにより、これらの概念Ca2、Cb2の親概念Ca1、Cb1が互いにマッピングされているかどうかを確認する。そして、概念Ca2、Cb2の親概念Ca1、Cb1が互いにマッピングされている場合(M2)、概念集合{Ca1,Ca2}からなるサブオントロジOSA1と概念集合{Cb1,Cb2}からなるサブオントロジOSB1とは概念の接続形態も等しいと判断し、これらのサブオントロジOSA1、OSB1間でトポロジマッピングを形成する(TM1)。
次に、サブオントロジOSA1、OSB1間でトポロジマッピングが形成されると、トポロジマッピング抽出装置3は、各概念Ca2、Cb2に子概念が存在するかを判断する。
そして、図4(c)に示すように、これらの概念Ca2、Cb2に子概念Ca3、Cb3がそれぞれ存在する場合、トポロジマッピング抽出装置3は、概念間マッピング抽出装置2にて行われたマッピング結果を参照することにより、これらの概念Ca2、Cb2の子概念Ca3、Cb3が互いにマッピングされているかどうかを確認する。そして、概念Ca2、Cb2の子概念Ca3、Cb3が互いにマッピングされている場合(M3)、概念集合{Ca1,Ca2,Ca3}からなるサブオントロジOSA2と概念集合{Cb1,Cb2,Cb3}からなるサブオントロジOSB2とは概念の接続形態も等しいと判断し、これらのサブオントロジOSA2、OSB2間でトポロジマッピングを形成する(TM2)。
以上の操作をオントロジOA、OB間で繰り返し実行することにより、トポロジマッピング抽出装置3はトポロジマッピングを抽出し、トポロジマッピング結果をトポロジマッピング評価装置4に入力する。そして、トポロジマッピング結果がトポロジマッピング評価装置4に入力されると、トポロジマッピング評価装置4は、トポロジマッピング抽出装置3にて抽出されたトポロジマッピング結果に基づいて、概念間マッピング抽出装置2にて抽出された概念間のマッピング結果の評価を行う。
ここで、概念間マッピング抽出装置2にて抽出された概念間のマッピング結果の評価を行う場合、部分情報源検出手段4aは、多重化されたトポロジマッピング結果を与えるサブオントロジを検出することができる。そして、部分情報源検出手段4aにてサブオントロジが検出されると、概念数算出手段4bは、検出されたサブオントロジに含まれる概念の個数を算出する(ステップS5)。そして、トポロジマッピング誤り検出手段4cは、サブオントロジに含まれる概念の個数に基づいて、トポロジマッピング結果の誤りを検出する。
ここで、トポロジマッピング誤り検出手段4cは、検出されたサブオントロジのうち、サブオントロジを構成する概念の個数が最も多いサブオントロジ以外のサブオントロジから形成されるトポロジマッピング結果を誤りとして検出することができる。そして、トポロジマッピング評価装置4は、サブオントロジに含まれる概念の個数に基づいて、トポロジマッピング結果の修正を行う(ステップS6)。そして、修正されたトポロジマッピング結果に従うように概念間のマッピング結果を修正することにより、正しいマッピング結果5を出力することができる。
例えば、概念間マッピングにおいて、図4のオントロジOAのある概念CaiがオントロジOBの複数の概念とマッピングされている場合、部分情報源検出手段4aは、トポロジマッピング結果を参照することにより、トポロジマッピングを形成するオントロジOAのサブオントロジにおいて、概念Caiを含むものを検出する。そして、検出された複数のサブオントロジのうち、サブオントロジを構成する概念の個数が最も多いサブオントロジ以外のトポロジマッピング結果を誤りとして検出する。そして、最終的に得られたトポロジマッピング結果に従う概念間マッピング結果を正解として出力することができる。
これにより、各概念間の類似性だけでなく、概念の階層構造を考慮しながら、異なる情報源1a、1bに含まれる概念間のマッピングを自動的に行うことができる。このため、人手にかかる負担を抑制しつつ、異なる情報源1a、1bに含まれる概念間のマッピング精度を向上させることが可能となり、他者によって管理されている情報が自分の持つ概念階層のどこに位置するかを精度よく同定することができる。この結果、各管理者ごとに情報1a、1bが分散管理されている場合においても、自分が必要とする情報に効率よくアクセスすることが可能となり、小規模分散かつ多様なシステムの持つデータに対しても、柔軟なアクセス・連携・管理を実現することができる。
例えば、概念間の語彙の近似性のみに基づく自動マッピングを行ったために、概念間のマッピング結果に誤りが多く含まれる場合においても、その情報源の概念の階層構造を人手で精査することなく、その概念間のマッピング結果を正しく修正することが可能となる。このため、ある情報源の管理者やユーザが、異なる情報源において等しいと判定された概念の持つインスタンスを自分で管理する情報源に追加したり、インスタンスの発見に活用したりする場合においても、自分の情報源の階層構造にそぐわないインスタンスが追加されることを防止することができ、ユーザは自分の意図に反するインスタンスの発見を防止することができる。
なお、上述した実施形態では、情報源1a、1bの持つデータとしてオントロジOA、OBを例にとって説明したが、オントロジOA、OB以外にも、インターネットディレクトリ、図書の分類目録などの階層的に表現される情報源同士を自動的にマッピングする方法に適用してもよい。
例えば、2つのインターネットディレクトリを概念間でマッピングし、同じ概念と判断された概念に属するインスタンスをどちらか一方のインターネットディレクトリに移動させ、1つのインターネットディレクトリとして統合して保持することができる。これにより、検索ユーザは、概念階層を利用しながら、2つのインターネットディレクトリの持つインスタンスを1回の検索で取得することができる。
なお、図1の概念間マッピング抽出装置2、トポロジマッピング抽出装置3およびトポロジマッピング評価装置4は、これらの装置にて行われる処理を行うプログラムをコンピュータに実行させることにより実現することができる。
以下、“infoseek(登録商標)”と“YAHOO!(登録商標)”のインターネットディレクトリをそれぞれ情報源21a、21bとし、infoseek”と“YAHOO!”のインターネットディレクトリのカテゴリを概念とした場合を例にとって、概念間のトポロジマッピングを行う方法について具体的に説明する。
図5は、“infoseek”と“YAHOO!”のインターネットディレクトリの構成例を示す図である。なお、図5の例では、“infoseek”と“YAHOO!”のインターネットディレクトリのUNIX(登録商標)カテゴリ以下の概念を対象とした。
図5において、“infoseek”の“UNIX(登録商標)”という概念には、“Solaris(登録商標)”、“Linux(登録商標)”および“FreeBSD(登録商標)”という子概念が存在している。また、“Linux”という概念には、“Turbolinux(登録商標)”、“Mklinux(登録商標)”および“新聞と雑誌”という子概念が存在している。
一方、“YAHOO!”の“Unix(登録商標)”という概念には、“Linux”、“Solaris”および“BSD(登録商標)”という子概念が存在している。また、“Linux”という概念には、“ディストリビューション”および“サポートおよび文書”という子概念が存在している。また、“ディストリビューション”という概念には、“TurboLinux”および“Red Hat(登録商標)”という子概念が存在している。
そして、図1の概念間マッピング抽出装置2は、図5のカテゴリを概念として、これらの情報源21a、21bにそれぞれ含まれる概念間のマッピングを行う。ここで、インターネットディレクトリの各カテゴリはページ集合を持っている。そして、情報源21a、21bにそれぞれ含まれる概念間のマッピングには、各カテゴリが持っているページ集合の間の近似度を利用することができる。
例えば、図6に示すように、“infoseek”の“UNIX(登録商標)”という概念と“YAHOO!”の“Unix(登録商標)”という概念との間の近似度を計測する場合、これらのカテゴリが持っているページ集合間の近似度を用いることができる。ここで、ページ集合間の近似度は、例えば、ベクトル空間モデルを用いて計算することができる。すなわち、全てのページとカテゴリを同じ検索語の重みベクトルで表現し、ベクトル間の類似度により文書間の近似度を算出することができる。
そして、infoseek”の“UNIX(登録商標)”という概念と“YAHOO!”の“Unix(登録商標)”という概念との間の近似度S(UNIX(登録商標)、Unix(登録商標))がヒューリスティックなしきい値θより大きい場合、infoseek”の“UNIX(登録商標)”という概念と“YAHOO!”の“Unix(登録商標)”という概念はマッピングできると判断することができる。
すなわち、文書はいくつかのタームによって特徴付けることができるので、個々のタームを各次元に対応させるベクトル空間を考えると、文書をベクトル空間内の点として表現することができる。ここで、各タームに対応する次元方向の大きさを求めるための文書Djにおけるタームtiの重みwjiとして、ターム頻度tfji、文書頻度dfiまたはtfji×idfjを用いることができる。
ターム頻度tfjiはタームtiが文書Djにどの程度の頻度で出現するかを表すもので、以下の式で定義することができる。
tfji=freq(i,j)
ただし、freq(i,j)は文書Djにおけるタームtiの出現頻度である。
また、ターム頻度tfjiの変形として、以下の式で示すように、重み付けKと最大頻度maxi,jで正規化する方法もある。
tfji=K+(K−1)freq(i,j)/(maxi,jfreq(i,j))
さらに、ターム頻度tfjiの変形として、以下の式で示すように、logおよび文書におけるターム数で正規化する方法もある。
tfji=log2(freq(i,j)+1)/log2(文書j中のタームの種類数)
文書頻度dfiはタームtiが文書数を表すもので、以下の式で定義することができる。
dfi=Dfreq(i)
ただし、Dfreq(i)はタームtiが出現する文書数である。実際には、この逆数idfiが使用される。
また、idfiの変形として、以下の式で示すように、logおよび文書集合中の文書総数Nで正規化する方法もある。
idfi=log2(N/Dfreq(i))+1
また、tfji×idfjはターム頻度tfjiと文書頻度dfiの両方の性質を併せ持つもので、文書Djにおけるタームtiの重みwjiは、以下の式で定義することができる。
ji=tfji×idfj
そして、文書Djの特徴ベクトルDj´を、Dj´=(wj1,wj2,・・・,wjm)と表す。ただし、mはベクトル空間の次元数、すなわち、文書集合に現れるタームの総数である。そして、文書Dqの特徴ベクトルDq´を、Dq´=(wq1,wq2,・・・,wqm)と表すと、文書Dj、Dq間の類似度sim(Dj、Dq)は、以下の式で算出することができる。
sim(Dj、Dq)=Dj´・Dq´/(|Dj´||Dq´|)=cosθ
=(wq1j1+wq2j2+・・・+wqmjm)/
(√(wq1 2+wq2 2+・・・+wqm 2)(√(wi1 2+wi2 2+・・・+wim 2
そして、infoseek”の“UNIX(登録商標)”という概念と“YAHOO!”の“Unix(登録商標)”という概念との間の近似度S(UNIX(登録商標)、Unix(登録商標))が算出されると、図7に示すように、infoseek”の“UNIX(登録商標)”という概念について、“YAHOO!”のインターネットディレクトリのUNIX(登録商標)カテゴリ以下の全ての概念との間で総当りにて近似度をそれぞれ算出する。
そして、infoseek”の“UNIX(登録商標)”という概念と、“YAHOO!”のインターネットディレクトリのUNIX(登録商標)カテゴリ以下の全ての概念との間で近似度がそれぞれ算出されると、infoseek”のインターネットディレクトリのUNIX(登録商標)カテゴリ以下の全ての概念について、“YAHOO!”のインターネットディレクトリのUNIX(登録商標)カテゴリ以下の全ての概念との間で総当りにて近似度をそれぞれ算出することにより、図5の“infoseek”と“YAHOO!”のインターネットディレクトリに含まれる概念間のマッピングを行う。
図8は、図5の概念間におけるマッピング結果の一例を示す図である。
図8において、図5の“infoseek”と“YAHOO!”のインターネットディレクトリに含まれる概念間のマッピングの結果、“infoseek”の“UNIX(登録商標)”という概念と“YAHOO!”の“Unix(登録商標)”という概念とがマッピングされ、“infoseek”の“FreeBSD”という概念と“YAHOO!”の“BSD”という概念とがマッピングされ、“infoseek”の“Solaris”という概念と“YAHOO!”の“Solaris”という概念とがマッピングされたものとする。
また、“infoseek”の“Linux”という概念は、“YAHOO!”の“Unix(登録商標)”という概念と“YAHOO!”の“Linux”という概念との双方とマッピングされたものとする。
さらに、“infoseek”の“新聞と雑誌”という概念と“YAHOO!”の“サポートおよび文書”という概念とがマッピングされ、“infoseek”の“Turbolinux”という概念と“YAHOO!”の“TurboLinux”という概念とがマッピングされたものとする。
そして、図5の“infoseek”と“YAHOO!”のインターネットディレクトリに含まれる概念間でマッピングが行われると、マッピングされたこれらのインターネットディレクトリのクラスに対し、その親子クラスのマッピング結果をチェックすることにより、図5の概念間におけるトポロジマッピングを行う。
図9は、図5の概念間におけるトポロジマッピング結果の一例を示す図である。
図9において、図8のマッピング結果を参照すると、例えば、“infoseek”の“Solaris”という概念と“YAHOO!”の“Solaris”という概念とが互いにマッピングされている。そして、“infoseek”の“Solaris”という概念の親概念“UNIX(登録商標)”と、“YAHOO!”の“Solaris”という概念の親概念“Unix(登録商標)”とのマッピング状態をチェックすると、図8のマッピング結果から、“infoseek”の“UNIX(登録商標)”という概念と、“YAHOO!”の“Unix(登録商標)”という概念とは互いにマッピングされていることが判る。
この結果、“infoseek”における概念集合{UNIX(登録商標),Solaris}と、“YAHOO!”における概念集合{Unix(登録商標),Solaris}とはトポロジマッピングを形成できると判断する。
そして、“infoseek”と“YAHOO!”のインターネットディレクトリのUNIX(登録商標)カテゴリ以下のマッピングされている全ての概念について、以上のような操作を実行する。
この結果、概念集合{UNIX(登録商標),Solaris,Linux,FreeBSD,新聞と雑誌}からなるサブディレクトリαと、概念集合{Unix(登録商標),Solaris,Linux,BSD,サポートおよび文書}からなるサブディレクトリα´との間でトポロジマッピングが形成される。また、概念集合{Linux}からなるサブディレクトリβと、概念集合{Unix(登録商標)}からなるサブディレクトリβ´との間でトポロジマッピングが形成される。また、概念集合{Turbolinux}からなるサブディレクトリγと、概念集合{TurboLinux}からなるサブディレクトリγ´との間でトポロジマッピングが形成される。
そして、トポロジマッピングの結果、多重化されたトポロジマッピングが存在する場合、多重化されたトポロジマッピング結果を与えるサブディレクトリを検出する。そして、多重化されたトポロジマッピング結果を与えるサブディレクトリが検出されると、サブディレクトリを構成する概念の個数が最も多いサブディレクトリ以外のサブディレクトリから形成されるトポロジマッピング結果を誤りとして検出する。
すなわち、図9のトポロジマッピング結果を参照すると、多重化されたトポロジマッピング結果を与えるサブディレクトリとして、サブディレクトリα、α´とサブディレクトリβ、β´とが検出される。
そして、多重化されたトポロジマッピング結果を与えるサブディレクトリα、α´とサブディレクトリβ、β´とが検出されると、サブディレクトリα、α´に含まれる概念の個数と、サブディレクトリβ、β´に含まれる概念の個数とを比較する。ここで、サブディレクトリαには、“UNIX(登録商標)”、“Solaris”、“Linux”、“FreeBSD”、“新聞と雑誌”という概念が含まれ、サブディレクトリα´には、“Unix(登録商標)”、“Solaris”、“Linux”、“BSD”、“サポートおよび文書”という概念が含まれている。また、サブディレクトリβには、“Linux”という概念が含まれ、サブディレクトリβ´には、“Unix(登録商標)”という概念が含まれている。このため、サブディレクトリα、α´に含まれる概念の個数と、サブディレクトリβ、β´に含まれる概念の個数とを比較すると、サブディレクトリα、α´に含まれる概念の個数よりも、サブディレクトリβ、β´に含まれる概念の個数の方が少ないと判断することができる。
そして、サブディレクトリα、α´に含まれる概念の個数よりも、サブディレクトリβ、β´に含まれる概念の個数の方が少ないと判断されると、図10に示すように、サブディレクトリβ、β´間のトポロジマッピング結果を誤りと判断する。
そして、サブディレクトリβ、β´間のトポロジマッピング結果の誤りが検出されると、その誤りが修正されたトポロジマッピング結果に従うように、概念間のマッピング結果を修正する。
図11は、図5の概念間におけるマッピング誤りを除去した後のマッピング結果の一例を示す図である。
図11において、図8のマッピングの結果、“infoseek”の“Linux”という概念は、“YAHOO!”の“Unix(登録商標)”という概念と、“YAHOO!”の“Linux”という概念との双方とマッピングされている。そして、図8の“infoseek”の“Linux”という概念と、“YAHOO!”の“Unix(登録商標)”という概念との間のマッピング結果を除去することにより、図10のサブディレクトリβ、β´間のトポロジマッピング結果の誤りを修正することができる。これにより、“infoseek”の“Linux”という概念が、“YAHOO!”の“Linux”という概念とのみマッピングされた結果を出力することができる。
本発明は、概念の階層構造を考慮しながら、異なる情報源に含まれる概念間のマッピングを自動的に行うことができ、インターネットディレクトリの持つインスタンスなどの検索を行う検索エンジンなどに利用することができる。
本発明の一実施形態に係る情報管理装置の概略構成を示すブロック図である。 本発明の一実施形態に係る情報源の構造の一例を示す図である。 本発明の一実施形態に係る情報管理方法を示すフローチャートである。 本発明の一実施形態に係るトポロジマッピング抽出方法を示す図である。 “infoseek”と“YAHOO!”のインターネットディレクトリの構成例を示す図である。 図5の情報源21a、21bにそれぞれ含まれる概念間の近似度計測方法の一例を示す図である。 図5の概念間における総当り方式による近似度計測方法の一例を示す図である。 図5の概念間におけるマッピング結果の一例を示す図である。 図5の概念間におけるトポロジマッピング結果の一例を示す図である。 図5の概念間におけるトポロジマッピング誤りの除去結果の一例を示す図である。 図5の概念間におけるマッピング誤りを除去した後のマッピング結果の一例を示す図である。
符号の説明
1a、1b、21a、21b 情報源
2 概念間マッピング抽出装置
2a 近似度計測手段
3 トポロジマッピング抽出装置
3a マッピング状態判定手段
3b 接続形態判定手段
4 トポロジマッピング評価装置
4a 部分情報源検出手段
4b 概念数算出手段
4c トポロジマッピング誤り検出手段
5 マッピング結果
11、Ca1〜Ca3、Cb1〜Cb3 概念
12 インスタンス
A、OB オントロジ
SA1、OSB1、OSA2、OSB2 サブオントロジ

Claims (6)

  1. 2つの情報源にそれぞれ含まれる互いに近似する概念を抽出する概念間マッピング抽出手段と、
    前記概念間マッピング手段にて抽出された互いに近似する概念の接続形態に基づいて、互いに親子関係をなす概念集合から構成される部分情報源間で近似する部分情報源を抽出してトポロジマッピングを形成するトポロジマッピング抽出手段と、
    前記トポロジマッピング抽出手段にて抽出されたトポロジマッピング結果が多重化している部分情報源を検出し、当該検出された部分情報源に含まれる概念の個数に基づいて、トポロジマッピング結果の誤りを検出し、誤りの検出されたトポロジマッピング結果を除去することで前記概念間マッピング抽出手段にて抽出された概念間のマッピング結果の修正を行うトポロジマッピング評価手段とを備えることを特徴とする情報管理装置。
  2. 前記概念間マッピング抽出手段は、
    2つの情報源にそれぞれ含まれる概念の持つインスタンス間の近似性を計測する近似度計測手段を備えることを特徴とする請求項1記載の情報管理装置。
  3. 前記トポロジマッピング抽出手段は、
    前記マッピングされた概念と親子関係をなす概念のマッピング状態を判定するマッピング状態判定手段と、
    前記概念間マッピング抽出手段にて抽出された互いに近似する概念の接続形態の近似性を判定する接続形態判定手段とを備え、
    前記トポロジマッピング抽出手段は、前記接続形態判定手段にて判定された接続形態の近似性に基づいて、互いに親子関係をなす概念集合から構成される部分情報源間でトポロジマッピングを形成することを特徴とする請求項1または2記載の情報管理装置。
  4. 2つの情報源についての概念間のマッピングを行うステップと、
    前記マッピングされた概念間の親子関係に基づいて、互いに近似する概念間の接続形態の近似性を判定するステップと、
    前記概念間の接続形態の近似性に基づいて、当該接続形態の近似している概念集合から構成される部分情報源間で近似する部分情報源を抽出してトポロジマッピングを行うステップと、
    前記トポロジマッピング結果が多重化している部分情報源を検出するステップと、
    前記検出された部分情報源に含まれる概念の個数を算出するステップと、
    前記部分情報源に含まれる概念の個数に基づいて、前記トポロジマッピング結果の誤りを検出し、誤りの検出されたトポロジマッピング結果を除去することにより前記概念間のマッピング結果を修正するステップとをコンピュータに実行させることを特徴とする情報管理プログラム。
  5. 前記トポロジマッピング結果の誤りを検出するステップは、
    検出された前記部分情報源のうち、部分情報源を構成する概念の個数が最も多い部分情報源以外の部分情報源から形成されるトポロジマッピング結果を誤りとして検出するステップをコンピュータに実行させることを特徴とする請求項4記載の情報管理プログラム。
  6. 前記概念間の接続形態の近似性に基づいてトポロジマッピングを行うステップは、
    互いにマッピングされている概念の親概念のマッピング結果を確認するステップと、
    前記親概念がマッピングされている場合、互いにマッピングされている概念およびその親概念を含む概念集合からなる部分情報源間でトポロジマッピングを形成するステップと、
    前記トポロジマッピングが形成された部分情報源に含まれる概念の子概念のマッピング結果を確認するステップと、
    前記子概念がマッピングされている場合、互いにマッピングされている概念、その親概念およびその子概念を含む概念集合からなる部分情報源間でトポロジマッピングを形成するステップとをコンピュータに実行させることを特徴とする請求項4または5記載の情報管理プログラム。
JP2004156097A 2004-05-26 2004-05-26 情報管理装置および情報管理プログラム Expired - Fee Related JP4443999B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004156097A JP4443999B2 (ja) 2004-05-26 2004-05-26 情報管理装置および情報管理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004156097A JP4443999B2 (ja) 2004-05-26 2004-05-26 情報管理装置および情報管理プログラム

Publications (2)

Publication Number Publication Date
JP2005339119A JP2005339119A (ja) 2005-12-08
JP4443999B2 true JP4443999B2 (ja) 2010-03-31

Family

ID=35492634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004156097A Expired - Fee Related JP4443999B2 (ja) 2004-05-26 2004-05-26 情報管理装置および情報管理プログラム

Country Status (1)

Country Link
JP (1) JP4443999B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4580351B2 (ja) * 2006-02-22 2010-11-10 日本電信電話株式会社 興味情報生成装置、興味情報生成方法および興味情報生成プログラム
JP5431261B2 (ja) * 2010-07-23 2014-03-05 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報管理システム、方法及びプログラム
JP7036760B2 (ja) * 2019-03-13 2022-03-15 株式会社日立製作所 オントロジー拡張支援装置及びオントロジー拡張支援方法

Also Published As

Publication number Publication date
JP2005339119A (ja) 2005-12-08

Similar Documents

Publication Publication Date Title
Kolda et al. Higher-order web link analysis using multilinear algebra
Wang et al. Recom: reinforcement clustering of multi-type interrelated data objects
US9336296B2 (en) Cross-domain clusterability evaluation for cross-guided data clustering based on alignment between data domains
JP5392077B2 (ja) オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム
US8243988B1 (en) Clustering images using an image region graph
US20080208836A1 (en) Regression framework for learning ranking functions using relative preferences
CA2950676A1 (en) Methods and systems for mapping data items to sparse distributed representations
WO2013133985A1 (en) Entity augmentation service from latent relational data
JP2006004411A (ja) ウェブデータベースのスキーママッチングの方法およびシステム
Zhang et al. Cross-domain recommendation with semantic correlation in tagging systems
JP2009282957A (ja) 文書処理装置および文書処理方法
Prudhomme et al. Interpretation and automatic integration of geospatial data into the Semantic Web: Towards a process of automatic geospatial data interpretation, classification and integration using semantic technologies
JP2011180746A (ja) 関係情報拡張装置、関係情報拡張方法、及びプログラム
Kong et al. Entity matching across multiple heterogeneous data sources
JP5747508B2 (ja) 対訳情報検索装置、翻訳装置及びプログラム
Tuarob et al. Improving algorithm search using the algorithm co-citation network
Schmidt et al. Matching domain and top-level ontologies exploring word sense disambiguation and word embedding
Tsapatsoulis Image retrieval via topic modelling of Instagram hashtags
Chuang et al. Automatic query taxonomy generation for information retrieval applications
JP4443999B2 (ja) 情報管理装置および情報管理プログラム
US10296913B1 (en) Integration of heterogenous data using omni-channel ontologies
Kaufmann et al. Combining bottom-up and top-down generation of interactive knowledge maps for enterprise search
KR20160061866A (ko) 개체간 암묵적 관계 추론을 통한 정보 추출 증강 시스템 및 이를 이용한 정보 추출 방법
Preetha et al. Personalized search engines on mining user preferences using clickthrough data
Kashkur et al. Research into plagiarism cases and plagiarism detection methods

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060719

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090501

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090714

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100113

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees