JP2017123168A - セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法及び装置 - Google Patents

セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法及び装置 Download PDF

Info

Publication number
JP2017123168A
JP2017123168A JP2016255039A JP2016255039A JP2017123168A JP 2017123168 A JP2017123168 A JP 2017123168A JP 2016255039 A JP2016255039 A JP 2016255039A JP 2016255039 A JP2016255039 A JP 2016255039A JP 2017123168 A JP2017123168 A JP 2017123168A
Authority
JP
Japan
Prior art keywords
entity
attribute
category
candidate
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016255039A
Other languages
English (en)
Inventor
ミアオ・チンリアン
Qingliang Miao
遥 孟
Yao Meng
遥 孟
双永 宋
Zhuang Yong Song
双永 宋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2017123168A publication Critical patent/JP2017123168A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】本発明はセマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法及び装置を提供する。【解決手段】該方法は、セマンティック知識ベースにおける実体から、ショートテキストにおける実体言及に関連する候補実体を選択するステップと、候補実体及び実体言及の属するカテゴリを決定するステップと、実体言及の属するカテゴリの最も高い識別性を有する属性集合を決定するステップと、該属性集合に基づいて、該カテゴリに属する候補実体と実体言及との類似度を計算するステップと、該類似度に基づいて、候補実体を選択して実体言及に関連付けるステップとを含む。【選択図】図1

Description

本発明は、情報処理の分野に関し、具体的に、セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法及び装置に関する。
近年、DBPedia等のインターネットのセマンティック知識ベース(SKB:Semantic knowledge base)及びミニブログ(microblogging)、ショートメッセージサービス(SMS)等のショートテキスト情報プラットフォームの急速な発展に伴い、インターネットのセマンティック知識ベースにおける実体(entity)にショートテキストにおける「実体言及(mention)」をどのように関連付け、ショートテキストの内容を意味化するのかは、言語情報処理の分野の問題点となった。
ショートテキストの内容の意味化は、ユーザ及びコンピュータにショートテキストの意味情報を効率的に検索、利用させることができ、ショートテキストのデータの意味解析のために必要な基盤を提供できる。また、インターネットの知識ベースをリアルタイムで拡張でき、インターネットの知識ベースの動的な更新能力を向上できる。
このため、本発明は、セマンティック知識ベースにおける実体にショートテキストにおける実体言及を正確に関連付けることを目的とする。
以下は、本発明の態様を基本的に理解させるために、本発明の簡単な概要を説明する。なお、この簡単な概要は、本発明を網羅的な概要ではなく、本発明のポイント又は重要な部分を意図的に特定するものではなく、本発明の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。
本発明は、セマンティック知識ベースにおける実体にショートテキストにおける実体言及を正確に関連付けることができる方法及び装置を提供することを目的とする。
上記の目的を実現するために、本発明の1つの態様では、セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法であって、セマンティック知識ベースにおける実体から、ショートテキストにおける実体言及に関連する候補実体を選択するステップと、候補実体及び実体言及の属するカテゴリを決定するステップと、実体言及の属するカテゴリの最も高い識別性を有する属性集合を決定するステップと、該属性集合に基づいて、該カテゴリに属する候補実体と実体言及との類似度を計算するステップと、前記類似度に基づいて、候補実体を選択して実体言及に関連付けるステップと、を含む、方法を提供する。
本発明のもう1つの態様では、セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける装置であって、セマンティック知識ベースにおける実体から、ショートテキストにおける実体言及に関連する候補実体を選択する候補実体選択手段と、候補実体及び実体言及の属するカテゴリを決定するカテゴリ決定手段と、実体言及の属するカテゴリの最も高い識別性を有する属性集合を決定する属性集合決定手段と、該属性集合に基づいて、該カテゴリに属する候補実体と実体言及との類似度を計算する類似度計算手段と、前記類似度に基づいて、候補実体を選択して実体言及に関連付ける関連付け手段と、を含む、装置を提供する。
本発明のもう1つの態様では、記憶媒体をさらに提供する。該記憶媒体は、機器が読み取り可能なプログラムコードを含み、情報処理装置において該プログラムコードを実行する際に、該プログラムコードは該情報処理装置に本発明の上記の方法を実行させる。
本発明のもう1つの態様では、プログラムプロダクトをさらに提供する。該プログラムプロダクトは、機器が実行可能な指令を含み、情報処理装置において該指令を実行する際に、該指令は該情報処理装置に本発明の上記の方法を実行させる。
下記図面の詳細の説明を通じて、本発明の実施例の上記の目的、他の目的、特徴及び利点はより明確になる。図面におけるユニットは、単なる本発明の原理を示すものである。図面において、同一又は類似する技術的特徴又はユニットは、同一又は類似する記号で示されている。
本発明の実施例に係るセマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法のフローチャートである。 候補実体及び実体言及の属するカテゴリを決定する第1方法のフローチャートである。 候補実体及び実体言及の属するカテゴリを決定する第2方法のフローチャートである。 本発明の実施例に係るセマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける装置の構成を示すブロック図である。 本発明の実施例に係る方法及び装置を実施するためのコンピュータの構成を示すブロック図である。
以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。
なお、本発明を明確にするために、図面には本発明に密に関連する装置の構成要件又は処理のステップのみが示され、本発明と関係のない細部が省略される。また、本発明の図面又は実施形態に示されている要素及び特徴と他の図面又は実施形態に示されている要素及び特徴とを組み合わせてもよい。
以下は、図1を参照しながら本発明の実施例のセマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法のフローを説明する。
図1は、本発明の実施例に係るセマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法のフローチャートである。図1に示すように、本発明の実施例のセマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法は、下記のステップを含む。セマンティック知識ベースにおける実体から、ショートテキストにおける実体言及に関連する候補実体を選択する(ステップS1)。候補実体及び実体言及の属するカテゴリを決定する(ステップS2)。実体言及の属するカテゴリの最も高い識別性を有する属性集合を決定する(ステップS3)。該属性集合に基づいて、該カテゴリに属する候補実体と実体言及との類似度を計算する(ステップS4)。該類似度に基づいて、候補実体を選択して実体言及に関連付ける(ステップS5)。
ステップS1において、ショートテキストにおける実体言及に関連する候補実体を選択する。
即ち、潜在的な関連付け対象を候補として初期的に選択し、後続のステップにおいて選別する。
具体的な実現方法は複数種類ある。例えば、セマンティック知識ベースにおける、実体名が実体言及と同一の同名実体を、候補実体として選択してもよい。該知識ベースは、該方法に適用するシナリオに対応する特定の知識ベース、例えばインターネットのセマンティック知識ベースであるWikipedia(ウィキペディア)、DBPedia、BaiduBaike(百度百科)などを含んでもよいが、これらの知識ベースに限定されない。例えば、実体言及が「apple」である場合は、インターネットのセマンティック知識ベースから、「林檎」、「米国のアップル・インコーポレイテッド」など複数の候補実体を見つけることができる。
セマンティック知識ベースにおける、同名実体と等価関係を有する実体を、候補実体として選択してもよい。ここで、等価関係は、リダイレクト関係及び別称関係を含む。例えば、実体言及「IBM」について、知識ベースから見つけられた内容はリダイレクト・リンク「インターナショナル・ビジネス・マシーンズ・コーポレーション」を含み、この内容は実体言及「IBM」の候補実体とされてもよい。
或いは、セマンティック知識ベースにおける、実体言及をアンカーテキストとするリンク先の実体を、候補実体として選択してもよい。実体言及「ワシントン」について、ウェブページのアンカーテキスト「ワシントン」をクリックし、百科事典における「米国首都のワシントン」にリンクし、「アメリカ人のワシントン」にリンクすると、「米国首都のワシントン」、「アメリカ人のワシントン」を実体言及「ワシントン」の候補実体としてもよい。
或いは、セマンティック知識ベースにおける、実体言及と百科事典の曖昧さ回避の関係を有する実体を、候補実体として選択してもよい。例えば、実体言及「アップル」について、知識ベースから曖昧さ回避ページが見つけられ、「アップル・インコーポレイテッド」、「アップル日刊新聞」、「アップル(映画)」などはいずれも、実体言及「アップル」の候補実体とされてもよい。
或いは、セマンティック知識ベースにおける、実体名が実体言及と実体記述テキストにおいて照応関係を有する実体を、候補実体として選択してもよい。また、セマンティック知識ベースにおける、実体名が実体言及と実体言及の所在するテキストテキストにおいて照応関係を有する実体を、候補実体として選択してもよい。
ここで、セマンティック知識ベースにおける実体の実体名と実体言及とが、該実体の実体記述テキスト又は実体言及の所在するテキストにおいて特定の照応パターンに合致するか否かに基づいて、照応関係を有するか否かを決定してもよい。セマンティック知識ベースにおける該実体の実体記述テキスト又は該実体言及の所在するテキストに対してテキスト解析を行うことによって、照応関係を有するか否かを決定してもよい。テキスト解析は照応解析(anaphora resolution)を含む。
例えば、ショートテキスト「IBM(インターナショナル・ビジネス・マシーンズ・コーポレーション)」、「Agricultural Bank of China(ABC)」における括弧前の内容と括弧内の内容、「計算機はコンピュータとも称される」における「とも称される」前後の内容、「北京時間3月12日、2013アジアチャンピオンズリーグのグループリーグ2回戦、広州恒大サッカークラブチームがアウェーで全北現代と戦い、広州恒大の先発発表」における「広州恒大」と「広州恒大サッカークラブチーム」とは、特定の照応パターンに合致し、テキスト解析、例えば照応解析により、照応関係を有すると決定してもよい。
ステップS2において、候補実体及び実体言及の属するカテゴリを決定する。以下は、2種類の例示的な態様を説明するが、本発明はこれらに限定されない。
カテゴリは、既存の知識ベースにおける実体の分類システムであってもよく、例えば、カテゴリは、機関、人、地名、建物などに分けられてもよい。少なくとも一部の実体は、知識ベースにおいてタイプ情報を有するため、例えば方式1のように、該情報に基づいて実体言及又はタイプ情報を有しない候補実体のカテゴリを決定する。また、例えば方式2のように、タイプ情報を既に有する実体に基づいて訓練データを構築し、分類器を訓練し、該分類器を用いて、タイプ情報を有しない候補実体又は実体言及を分類してもよい。
方式1:主題ベクトルに基づいて、実体言及又はタイプ情報を有しない候補実体の属するカテゴリを決定する。
図2は候補実体及び実体言及の属するカテゴリを決定する第1方法のフローチャートである。
具体的には、ステップS21において、実体言及の所在するテキスト又はタイプ情報を有しない候補実体の実体記述テキスト(例えば主題subject、注釈コメントcomment、要約abstract)に対応する第1主題ベクトルを取得する。実体言及の所在するテキスト又はタイプ情報を有しない候補実体の実体記述テキストを、主題モデルに入力することで、該ベクトルを取得してもよい。
ステップS22において、各カテゴリの実体の実体記述テキストに対応する第2主題ベクトルを取得する。各カテゴリの実体の実体記述テキストを主題モデルに入力することで、該ベクトルを取得してもよい。
ステップS23において、第1主題ベクトルと各カテゴリの第2主題ベクトルとの平均類似度を計算する。
即ち、第1主題ベクトルと各カテゴリの1つ又は複数の実体に対応する1つ又は複数の第2主題ベクトルとの類似度をそれぞれ計算し、各カテゴリの類似度の平均値を計算してもよい。ベクトルの類似度は、例えば余弦夾角に基づいて計算されてもよい。
ステップS24において、平均類似度の最も高いカテゴリを、実体言及又はタイプ情報を有しない候補実体の属するカテゴリとして決定する。
即ち、各カテゴリの平均類似度の大きさを比較し、そのうち最も高い平均類似度を選択し、最も高い平均類似度に対応するカテゴリを、実体言及又はタイプ情報を有しない候補実体の属するカテゴリとして決定する。
方式2:分類器を用いて候補実体及び実体言及の属するカテゴリを決定する。
図3は候補実体及び実体言及の属するカテゴリを決定する第2方法のフローチャートである。
具体的には、ステップ31において、各カテゴリの実体の実体記述テキストと予め定義されたテンプレートとの合致度、該実体記述テキストが各カテゴリに関連するキーワードを含むか否か、各カテゴリの実体の百科事典における対応する主題情報、及び各カテゴリの実体に関連する属性タイプのうち少なくとも1つの特徴に基づいて、分類器を訓練する。
予め定義されたテンプレート特徴:各カテゴリの実体の実体記述テキストと予め定義されたテンプレートとの合致度は、各カテゴリの実体の実体記述テキストが予め定義されたテンプレートに合致できる場合、該特徴が1であり、そうでない場合、該特徴が0であることを意味する。
予め定義されたテンプレートは以下の通りであり、左側は複数のカテゴリの例を示し、右側はカテゴリにそれぞれに対応する予め定義されたテンプレートの例を示している。
Figure 2017123168
キーワード特徴:各カテゴリの実体の実体記述テキストが各カテゴリに関連するキーワードを含むか否かは、各カテゴリの実体の実体記述テキストからキーワードを、各カテゴリに関連するキーワードとして抽出することを意味する。各カテゴリの実体の実体記述テキストにこれらのキーワードが含まれるか否かを判断し、これらのキーワードの少なくとも1つが含まれる場合、該特徴が1であり、そうでない場合、該特徴が0である。各カテゴリに関連するキーワードの例は以下の通りであり、左側は複数のカテゴリの例を示し、右側はカテゴリにそれぞれに対応するキーワードの例を示している。
Figure 2017123168
百科事典主題特徴:各カテゴリの実体の百科事典における対応する主題情報は、例えば実体である青龍山の例えば百度百科における主題情報である。各カテゴリの実体の実体記述テキストにこれらの主題情報が含まれるか否かを判断し、これらの主題情報の少なくとも1つが含まれる場合、該特徴が1であり、そうでない場合、該特徴が0である。各カテゴリに関連する主題情報の例は以下の通りであり、左側は複数のカテゴリの例を示し、右側はカテゴリにそれぞれに対応する主題情報の例を示している。
Figure 2017123168
関連属性タイプ特徴:各カテゴリの実体に関連する属性タイプは、各カテゴリの実体の知識ベースにおける通常又は固有のタイプの属性を意味する。例えば、カテゴリが「人」の実体は通常「出生日」、「出生地」、「国籍」等の属性を含む。カテゴリが「会社」の実体は通常「登録住所」、「設立日」、「経営範囲」等の属性を含む。各カテゴリの実体にこれらの属性が含まれるか否かを判断し、これらの属性の少なくとも1つが含まれる場合、該特徴が1であり、そうでない場合、該特徴が0である。
ステップS32において、分類器を用いて候補実体及び実体言及を分類する。
分類する際に、予め定義されたテンプレート特徴、キーワード特徴、百科事典主題特徴は候補実体の実体記述テキスト、実体言及の所在するテキストに基づくものであり、関連属性タイプ特徴は候補実体及び実体言及そのものに基づくものである。
ステップS3において、実体言及の属するカテゴリの最も高い識別性を有する属性集合を決定する。
属性識別度が識別閾値よりも高い属性を、該カテゴリの最も高い識別性を有する属性集合における属性として決定する。
以下は、属性の属性識別度の計算方式の2つの例を説明する。
方式1:セマンティック知識ベースにおける各カテゴリの各属性について、セマンティック知識ベースにおける該属性の該カテゴリにおいて出現する第1頻度の統計を取り、セマンティック知識ベースにおける該カテゴリの該属性の各属性値の該属性において出現する回数に関する第2頻度の統計を取り、第1頻度と第2頻度との積を、該カテゴリの該属性の属性識別度として計算する。
例えば、候補実体集合Eについて、Eにおける各候補実体eはm(e)個の属性、m(e)個の属性値Vを有し、説明の便宜上、1つの属性が1つの属性値に対応すると仮定し、ここで、i及びjは番号である。Eにおける属性の第1頻度pf及び属性値の第2頻度iefの統計を取る。pfは属性pの集合Eの全ての属性において出現する頻度であり、iefの計算方法として、該属性の各属性値の該属性において出現する回数の逆数の和を求め、該属性の出現総数で除算する。表1の例では、pに対応するpf=3、pに対応する属性値はv、v及びvであると、pに対応するief=(1/1+1/1+1/1)/3=1.0。pに対応するpf=3、pに対応する属性値はv及びvであり、vが1回出現し、vが2回出現すると、pに対応するief=(1/1+1/2)/3=0.5。pに対応するpf=3、pに対応する属性値はvのみであると、pに対応するief=(1/3)/3=0.11。この場合、Eに対応するカテゴリにおけるp、p及びpのそれぞれの属性識別度は、3*1.0=3.0、3*0.5=1.5、及び3*0.11=0.33である。識別閾値δを設定し、δよりも大きい属性は該カテゴリの最も高い識別性を有する属性集合を構成する。また、該カテゴリの最も高い識別性を有する属性集合における属性の属性識別度を正規化する。
Figure 2017123168

表1.候補実体の属性及びその属性値の例
方式2:セマンティック知識ベースにおける各カテゴリの各属性について、実体と属性値との相関行列を計算し、相関行列の各列の最大値を加算し、得られた和を該カテゴリの該属性の属性識別度とする。
例えば、カテゴリについての属性pについて、点別相互情報(PMI:Pointwise Mutual Information)関数により確率P(e|v)を計算して、相関行列Mを取得し、ここで、eは実体であり、vは属性値である。
例えば、以下のように、属性p、p及びpについて行列M1、M2及びM3をそれぞれ取得する。
Figure 2017123168

Figure 2017123168

Figure 2017123168
相関行列Mの各列の最大値を加算し、得られた和を該カテゴリの該属性pの属性識別度とする。
例えば、属性pについて、属性識別度=0.8+0.7+0.5=2.0。
属性pについて、属性識別度=0.9+0.9+0.9=2.6。
属性pについて、属性識別度=0.4+0.4+0.4=1.2。
識別閾値δを設定し、δよりも大きい属性は該カテゴリの最も高い識別性を有する属性集合を構成するようにしてもよい。また、該カテゴリの最も高い識別性を有する属性集合における属性の属性識別度を正規化する。
以上の2つの方式は2つの属性識別度をそれぞれ取得してもよい。そのうち1つの方式を用いて属性識別度を計算してもよいし、2つの属性識別度を併合し、最終的な属性識別度を取得してもよい。
併合の方法は、例えば両者に対して重み付け加算を行ってもよく、重みの総和は1である。
ステップS4において、該属性集合に基づいて、該カテゴリに属する候補実体と実体言及との類似度を計算する。
具体的には、実体言及の所在するテキストから、関係抽出/分類技術を用いて、実体言及の、該属性集合の属性の属性値を抽出し、該カテゴリに属する候補実体の、該属性集合の属性の属性値と実体言及の対応する属性値との類似度に基づいて、該候補実体と該実体言及との類似度を計算する。
即ち、同一のカテゴリに属する候補実体及び実体言及について、該カテゴリの最も高い識別性を有する属性集合における属性に基づいて、その属性値の類似度を比較し、候補実体と実体言及との類似度とする。
例えば、候補実体entityと実体言及mentionとの類似度sim(mention,entity)=Σsim(v(mention),v(entity))となる。
ここで、sim(v(mention),v(entity))は、実体言及mentionと候補実体entityとの属性pに対応する属性値vの類似度である。
また、好ましい態様では、該候補実体と該実体言及との相互照応確率、及び該属性集合の各属性の属性識別度のうち少なくとも1つに基づいて、該候補実体と該実体言及との類似度を計算する。
例えば、候補実体entityと実体言及mentionとの類似度sim(mention,entity)=Σweight(p)*sim(v(mention),v(entity))となる。
ここで、weight(p)は属性pの属性識別度であり、sim(v(mention),v(entity))は、実体言及mentionと候補実体entityとの属性pに対応する属性値vの類似度である。
即ち、候補実体と実体言及との類似度を計算する際に、候補実体と実体言及との相互照応確率、及び該カテゴリの最も高い識別性を有する属性集合における属性の属性識別度の両方の情報を用いてもよい。
ここで、候補実体と実体言及との相互照応確率は、該候補実体を選択する処理において用いられる情報の信頼性を表す。即ち、その前のステップS1において、セマンティック知識ベースにおける実体から、ショートテキストにおける実体言及に関連する候補実体を選択する。複数の方式を用いて候補実体を選択するため、候補実体の由来に基づいて、候補実体を選択する時に用いられる情報の信頼度を表す、異なる相互照応確率を取得してもよい。
例えば、候補実体eと実体言及mの相互照応確率はp(e|m)である。
候補実体eがセマンティック知識ベースにおける同名実体からのものである場合、相互照応確率p(e|m)=1/rとなり、rは同名実体の総数である。
候補実体eが等価関係(リダイレクト関係、別称関係)からのものである場合、相互照応確率p(e|m)=1となる。
候補実体eが特定パターンの照応関係からのものである場合、相互照応確率p(e|m)=1となる。
候補実体eが曖昧さ回避のページからのものである場合、相互照応確率p(e|m)=1/kとなり、kは曖昧な実体の総数である。
候補実体eがインターネットのアンカーテキストからのものである場合、相互照応確率p(e|m)=w/nとなり、wは実体言及とアンカーテキストのリンク先の実体との間に存在するリンク数であり、nは実体言及と全ての実体との間に存在するリンク数である。
ステップS5において、該類似度に基づいて、候補実体を選択して実体言及に関連付ける。
具体的には、類似度が類似度閾値よりも大きい候補実体を実体言及に関連付ける。
また、該類似度が何れも類似度閾値よりも小さい場合、実体言及を新たな実体としてセマンティック知識ベースに追加する。
以下は、図4を参照しながら、セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける装置を説明する。
図4は本発明の実施例に係るセマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける装置の構成を示すブロック図である。図4に示すように、本発明の関連付け装置400は、セマンティック知識ベースにおける実体から、ショートテキストにおける実体言及に関連する候補実体を選択する候補実体選択部41と、候補実体及び実体言及の属するカテゴリを決定するカテゴリ決定部42と、実体言及の属するカテゴリの最も高い識別性を有する属性集合を決定する属性集合決定部43と、該属性集合に基づいて、該カテゴリに属する候補実体と実体言及との類似度を計算する類似度計算部44と、該類似度に基づいて、候補実体を選択して実体言及に関連付ける関連付け部45とを含む。
1つの態様では、候補実体選択部41は、セマンティック知識ベースにおける、実体名が実体言及と同一の同名実体を、候補実体として選択するステップ、セマンティック知識ベースにおける、同名実体と等価関係を有する実体を、候補実体として選択するステップ、セマンティック知識ベースにおける、実体名が実体言及と実体記述テキストにおいて照応関係を有する実体を、候補実体として選択するステップ、セマンティック知識ベースにおける、実体言及と百科事典の曖昧さ回避の関係を有する実体を、候補実体として選択するステップ、セマンティック知識ベースにおける、実体言及をアンカーテキストとするリンク先の実体を、候補実体として選択するステップ、及びセマンティック知識ベースにおける、実体名が実体言及と実体言及の所在するテキストテキストにおいて照応関係を有する実体を、候補実体として選択するステップのうち1つを実行する。
1つの態様では、セマンティック知識ベースにおける実体の実体名と実体言及とが、該実体の実体記述テキスト又は実体言及の所在するテキストにおいて特定の照応パターンに合致するか否かに基づいて、或いはセマンティック知識ベースにおける該実体の実体記述テキスト又は該実体言及の所在するテキストに対してテキスト解析を行うことによって、照応関係を有するか否かを決定する。
1つの態様では、カテゴリ決定部42は、実体言及の所在するテキスト又はタイプ情報を有しない候補実体の実体記述テキストに対応する第1主題ベクトルを取得し、各カテゴリの実体の実体記述テキストに対応する第2主題ベクトルを取得し、第1主題ベクトルと各カテゴリの第2主題ベクトルとの平均類似度を計算し、平均類似度の最も高いカテゴリを、実体言及又はタイプ情報を有しない候補実体の属するカテゴリとして決定する。
1つの態様では、カテゴリ決定部42は、各カテゴリの実体の実体記述テキストと予め定義されたテンプレートとの合致度、前記実体記述テキストが各カテゴリに関連するキーワードを含むか否か、各カテゴリの実体の百科事典における対応する主題情報、及び各カテゴリの実体に関連する属性タイプのうち少なくとも1つの特徴に基づいて、分類器を訓練し、分類器を用いて候補実体及び実体言及を分類する。
1つの態様では、類似度計算部44は、実体言及の所在するテキストから、実体言及の、該属性集合の属性の属性値を抽出し、該カテゴリに属する候補実体の、該属性集合の属性の属性値と実体言及の対応する属性値との類似度に基づいて、該候補実体と該実体言及との類似度を計算する。
1つの態様では、類似度計算部44は、該候補実体と該実体言及との相互照応確率、及び該属性集合の各属性の属性識別度のうち少なくとも1つに基づいて、該候補実体と該実体言及との類似度を計算する。
1つの態様では、属性集合決定部43は、属性の属性識別度を取得するステップにおいて、セマンティック知識ベースにおける各カテゴリの各属性について、セマンティック知識ベースにおける該属性の該カテゴリにおいて出現する第1頻度の統計を取り、セマンティック知識ベースにおける該カテゴリの該属性の各属性値の該属性において出現する回数に関する第2頻度の統計を取り、第1頻度と第2頻度との積を、該カテゴリの該属性の属性識別度として計算し、属性識別度が識別閾値よりも高い属性を、該カテゴリの最も高い識別性を有する属性集合における属性として決定する。
1つの態様では、属性集合決定部43は、属性の属性識別度を取得するステップにおいて、セマンティック知識ベースにおける各カテゴリの各属性について、実体と属性値との相関行列を計算し、相関行列の各列の最大値を加算し、得られた和を該カテゴリの該属性の属性識別度とし、属性識別度が識別閾値よりも高い属性を、該カテゴリの最も高い識別性を有する属性集合における属性として決定する。
1つの態様では、関連付け部45は、類似度が類似度閾値よりも大きい候補実体を実体言及に関連付ける。該類似度が何れも類似度閾値よりも小さい場合、関連付け部45は、実体言及を新たな実体としてセマンティック知識ベースに追加する。
本発明の関連付け装置400に含まれる各部の処理は上述した関連付け方法に含まれる各ステップの処理と類似するため、説明の便宜上、ここでこれらの部分及びユニットの詳細な説明が省略される。
なお、上記装置における各構成要件、ユニットはソフトウェア、ファームウェア、ハードウェア又はそれらの組み合わせにより実現されてもよい。用いられる具体的な手段又は方式の構成は当業者にとって周知であり、ここでその説明が省略される。ソフトウェア又はファームウェアにより実施されている場合、記録媒体又はネットワークから専用のハードウェア構成を有するコンピュータ(例えば図5示されている汎用コンピュータ500)に上記方法を実施するためのソフトウェアを構成するプログラムをインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。
図5は本発明の実施例に係る方法及び装置を実施するためのコンピュータの構成を示すブロック図である。
図5において、中央処理部(即ちCPU)501は、読み出し専用メモリ(ROM)502に記憶されているプログラム、又は記憶部508からランダムアクセスメモリ(RAM)503にロードされたプログラムにより各種の処理を実行する。RAM503には、必要に応じて、CPU501が各種の処理を実行するに必要なデータが記憶されている。CPU501、ROM502、及びRAM503は、バス504を介して互いに接続されている。入力/出力インターフェース505もバス504に接続されている。
入力部506(キーボード、マウスなどを含む)、出力部507(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部508(例えばハードディスクなどを含む)、通信部509(例えばネットワークのインタフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース505に接続されている。通信部509は、ネットワーク、例えばインターネットを介して通信処理を実行する。必要に応じて、ドライブ部510は、入力/出力インターフェース505に接続されてもよい。取り外し可能な媒体511は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライブ部510にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部508にインストールされている。
ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体511を介してソフトウェアを構成するプログラムをインストールする。
また、これらの記憶媒体は、図5に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体511に限定されない。取り外し可能な媒体511は、例えば磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(光ディスク−読み出し専用メモリ(CDROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM502、記憶部508に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。
本発明は、機器に読み取り可能な指令コードを記憶するプログラムプロダクトをさらに提供する。該指令コードは機器により読み出されて、上述した本発明の実施例に係る方法を実行できる。
それに応じて、本発明は、機器読み取り可能な指令コードを記憶するプログラムのプロダクトが記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティックを含むが、これらに限定されない。
なお、本発明の具体的な実施例の上記の説明では、1つの態様について説明及び/又は例示された特徴は同一又は類似の方式で1つ又は複数の他の態様に用いられてもよいし、他の態様における特徴と組み合わせてもよいし、他の態様における特徴の代わりに用いられてもよい。
なお、用語「包括/含む」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。
また、本発明の方法は、明細書に説明された時間的順序で実行するものに限定されず、他の時間的順序で順次、並行、又は独立して実行されてもよい。このため、本明細書に説明された方法の実行順序は、本発明の技術的な範囲を限定するものではない。
以上は本発明の具体的な実施例の説明を通じて本発明を開示するが、上記の全ての実施例及び例は例示的なものであり、制限的なものではない。当業者は、特許請求の範囲の主旨及び範囲内で本発明に対して各種の修正、改良、均等的なものに変更してもよい。これらの修正、改良又は均等的なものに変更することは本発明の保護範囲に含まれるものである。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法であって、
セマンティック知識ベースにおける実体から、ショートテキストにおける実体言及に関連する候補実体を選択するステップと、
候補実体及び実体言及の属するカテゴリを決定するステップと、
実体言及の属するカテゴリの最も高い識別性を有する属性集合を決定するステップと、
該属性集合に基づいて、該カテゴリに属する候補実体と実体言及との類似度を計算するステップと、
前記類似度に基づいて、候補実体を選択して実体言及に関連付けるステップと、を含む、方法。
(付記2)
セマンティック知識ベースにおける実体から、ショートテキストにおける実体言及に関連する候補実体を選択するステップは、
セマンティック知識ベースにおける、実体名が実体言及と同一の同名実体を、候補実体として選択するステップ、
セマンティック知識ベースにおける、同名実体と等価関係を有する実体を、候補実体として選択するステップ、
セマンティック知識ベースにおける、実体名が実体言及と実体記述テキストにおいて照応関係を有する実体を、候補実体として選択するステップ、
セマンティック知識ベースにおける、実体言及と百科事典の曖昧さ回避の関係を有する実体を、候補実体として選択するステップ、
セマンティック知識ベースにおける、実体言及をアンカーテキストとするリンク先の実体を、候補実体として選択するステップ、及び
セマンティック知識ベースにおける、実体名が実体言及と実体言及の所在するテキストテキストにおいて照応関係を有する実体を、候補実体として選択するステップ、のうち1つのステップを含む、付記1に記載の方法。
(付記3)
セマンティック知識ベースにおける実体の実体名と実体言及とが、該実体の実体記述テキスト又は実体言及の所在するテキストにおいて特定の照応パターンに合致するか否かに基づいて、或いは
セマンティック知識ベースにおける該実体の実体記述テキスト又は該実体言及の所在するテキストに対してテキスト解析を行うことによって、
照応関係を有するか否かを決定する、付記2に記載の方法。
(付記4)
実体言及の属するカテゴリを決定するステップは、
実体言及の所在するテキスト又はタイプ情報を有しない候補実体の実体記述テキストに対応する第1主題ベクトルを取得するステップと、
各カテゴリの実体の実体記述テキストに対応する第2主題ベクトルを取得するステップと、
第1主題ベクトルと各カテゴリの第2主題ベクトルとの平均類似度を計算するステップと、
平均類似度の最も高いカテゴリを、実体言及又はタイプ情報を有しない候補実体の属するカテゴリとして決定するステップと、を含む、付記1に記載の方法。
(付記5)
候補実体及び実体言及の属するカテゴリを決定するステップは、
各カテゴリの実体の実体記述テキストと予め定義されたテンプレートとの合致度、前記実体記述テキストが各カテゴリに関連するキーワードを含むか否か、各カテゴリの実体の百科事典における対応する主題情報、及び各カテゴリの実体に関連する属性タイプのうち少なくとも1つの特徴に基づいて、分類器を訓練するステップと、
分類器を用いて候補実体及び実体言及を分類するステップと、を含む、付記1に記載の方法。
(付記6)
該属性集合に基づいて該カテゴリに属する候補実体と実体言及との類似度を計算するステップは、
実体言及の所在するテキストから、実体言及の、該属性集合の属性の属性値を抽出するステップと、
該カテゴリに属する候補実体の、該属性集合の属性の属性値と実体言及の対応する属性値との類似度に基づいて、該候補実体と該実体言及との類似度を計算するステップと、を含む、付記1に記載の方法。
(付記7)
該属性集合に基づいて該カテゴリに属する候補実体と実体言及との類似度を計算するステップは、
該候補実体と該実体言及との相互照応確率、及び該属性集合の各属性の属性識別度のうち少なくとも1つに基づいて、該候補実体と該実体言及との類似度を計算するステップ、を含む、付記6に記載の方法。
(付記8)
実体言及の属するカテゴリの最も高い識別性を有する属性集合を決定するステップは、属性識別度が識別閾値よりも高い属性を、該カテゴリの最も高い識別性を有する属性集合における属性として決定するステップ、を含み、
属性の属性識別度を取得するステップにおいて、
セマンティック知識ベースにおける各カテゴリの各属性について、
セマンティック知識ベースにおける該属性の該カテゴリにおいて出現する第1頻度の統計を取り、
セマンティック知識ベースにおける該カテゴリの該属性の各属性値の該属性において出現する回数に関する第2頻度の統計を取り、
第1頻度と第2頻度との積を、該カテゴリの該属性の属性識別度として計算する、付記1に記載の方法。
(付記9)
実体言及の属するカテゴリの最も高い識別性を有する属性集合を決定するステップは、属性識別度が識別閾値よりも高い属性を、該カテゴリの最も高い識別性を有する属性集合における属性として決定するステップ、を含み、
属性の属性識別度を取得するステップにおいて、
セマンティック知識ベースにおける各カテゴリの各属性について、実体と属性値との相関行列を計算し、
相関行列の各列の最大値を加算し、得られた和を該カテゴリの該属性の属性識別度とする、付記1に記載の方法。
(付記10)
前記類似度に基づいて候補実体を選択して実体言及に関連付けるステップは、類似度が類似度閾値よりも大きい候補実体を実体言及に関連付けるステップ、を含み、前記類似度が何れも類似度閾値よりも小さい場合、実体言及を新たな実体としてセマンティック知識ベースに追加する、付記1に記載の方法。
(付記11)
セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける装置であって、
セマンティック知識ベースにおける実体から、ショートテキストにおける実体言及に関連する候補実体を選択する候補実体選択手段と、
候補実体及び実体言及の属するカテゴリを決定するカテゴリ決定手段と、
実体言及の属するカテゴリの最も高い識別性を有する属性集合を決定する属性集合決定手段と、
該属性集合に基づいて、該カテゴリに属する候補実体と実体言及との類似度を計算する類似度計算手段と、
前記類似度に基づいて、候補実体を選択して実体言及に関連付ける関連付け手段と、を含む、装置。
(付記12)
候補実体選択手段は、
セマンティック知識ベースにおける、実体名が実体言及と同一の同名実体を、候補実体として選択するステップ、
セマンティック知識ベースにおける、同名実体と等価関係を有する実体を、候補実体として選択するステップ、
セマンティック知識ベースにおける、実体名が実体言及と実体記述テキストにおいて照応関係を有する実体を、候補実体として選択するステップ、
セマンティック知識ベースにおける、実体言及と百科事典の曖昧さ回避の関係を有する実体を、候補実体として選択するステップ、
セマンティック知識ベースにおける、実体言及をアンカーテキストとするリンク先の実体を、候補実体として選択するステップ、及び
セマンティック知識ベースにおける、実体名が実体言及と実体言及の所在するテキストテキストにおいて照応関係を有する実体を、候補実体として選択するステップ、のうち1つのステップを実行する、付記11に記載の装置。
(付記13)
セマンティック知識ベースにおける実体の実体名と実体言及とが、該実体の実体記述テキスト又は実体言及の所在するテキストにおいて特定の照応パターンに合致するか否かに基づいて、或いは
セマンティック知識ベースにおける該実体の実体記述テキスト又は該実体言及の所在するテキストに対してテキスト解析を行うことによって、
照応関係を有するか否かを決定する、付記12に記載の装置。
(付記14)
カテゴリ決定手段は、
実体言及の所在するテキスト又はタイプ情報を有しない候補実体の実体記述テキストに対応する第1主題ベクトルを取得し、
各カテゴリの実体の実体記述テキストに対応する第2主題ベクトルを取得し、
第1主題ベクトルと各カテゴリの第2主題ベクトルとの平均類似度を計算し、
平均類似度の最も高いカテゴリを、実体言及又はタイプ情報を有しない候補実体の属するカテゴリとして決定する、付記11に記載の装置。
(付記15)
カテゴリ決定手段は、
各カテゴリの実体の実体記述テキストと予め定義されたテンプレートとの合致度、前記実体記述テキストが各カテゴリに関連するキーワードを含むか否か、各カテゴリの実体の百科事典における対応する主題情報、及び各カテゴリの実体に関連する属性タイプのうち少なくとも1つの特徴に基づいて、分類器を訓練し、
分類器を用いて候補実体及び実体言及を分類する、付記11に記載の装置。
(付記16)
類似度計算手段は、
実体言及の所在するテキストから、実体言及の、該属性集合の属性の属性値を抽出し、
該カテゴリに属する候補実体の、該属性集合の属性の属性値と実体言及の対応する属性値との類似度に基づいて、該候補実体と該実体言及との類似度を計算する、付記11に記載の装置。
(付記17)
類似度計算手段は、
該候補実体と該実体言及との相互照応確率、及び該属性集合の各属性の属性識別度のうち少なくとも1つに基づいて、該候補実体と該実体言及との類似度を計算する、付記16に記載の装置。
(付記18)
属性集合決定手段は、
属性の属性識別度を取得するステップにおいて、セマンティック知識ベースにおける各カテゴリの各属性について、セマンティック知識ベースにおける該属性の該カテゴリにおいて出現する第1頻度の統計を取り、セマンティック知識ベースにおける該カテゴリの該属性の各属性値の該属性において出現する回数に関する第2頻度の統計を取り、第1頻度と第2頻度との積を、該カテゴリの該属性の属性識別度として計算し、
属性識別度が識別閾値よりも高い属性を、該カテゴリの最も高い識別性を有する属性集合における属性として決定する、付記11に記載の装置。
(付記19)
属性集合決定手段は、
属性の属性識別度を取得するステップにおいて、セマンティック知識ベースにおける各カテゴリの各属性について、実体と属性値との相関行列を計算し、相関行列の各列の最大値を加算し、得られた和を該カテゴリの該属性の属性識別度とし、
属性識別度が識別閾値よりも高い属性を、該カテゴリの最も高い識別性を有する属性集合における属性として決定する、付記11に記載の装置。
(付記20)
関連付け手段は、類似度が類似度閾値よりも大きい候補実体を実体言及に関連付け、
前記類似度が何れも類似度閾値よりも小さい場合、関連付け手段は、実体言及を新たな実体としてセマンティック知識ベースに追加する、付記11に記載の装置。

Claims (10)

  1. セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法であって、
    セマンティック知識ベースにおける実体から、ショートテキストにおける実体言及に関連する候補実体を選択するステップと、
    候補実体及び実体言及の属するカテゴリを決定するステップと、
    実体言及の属するカテゴリの最も高い識別性を有する属性集合を決定するステップと、
    該属性集合に基づいて、該カテゴリに属する候補実体と実体言及との類似度を計算するステップと、
    前記類似度に基づいて、候補実体を選択して実体言及に関連付けるステップと、を含む、方法。
  2. セマンティック知識ベースにおける実体から、ショートテキストにおける実体言及に関連する候補実体を選択するステップは、
    セマンティック知識ベースにおける、実体名が実体言及と同一の同名実体を、候補実体として選択するステップ、
    セマンティック知識ベースにおける、同名実体と等価関係を有する実体を、候補実体として選択するステップ、
    セマンティック知識ベースにおける、実体名が実体言及と実体記述テキストにおいて照応関係を有する実体を、候補実体として選択するステップ、
    セマンティック知識ベースにおける、実体言及と百科事典の曖昧さ回避の関係を有する実体を、候補実体として選択するステップ、
    セマンティック知識ベースにおける、実体言及をアンカーテキストとするリンク先の実体を、候補実体として選択するステップ、及び
    セマンティック知識ベースにおける、実体名が実体言及と実体言及の所在するテキストテキストにおいて照応関係を有する実体を、候補実体として選択するステップ、のうち1つのステップを含む、請求項1に記載の方法。
  3. セマンティック知識ベースにおける実体の実体名と実体言及とが、該実体の実体記述テキスト又は実体言及の所在するテキストにおいて特定の照応パターンに合致するか否かに基づいて、或いは
    セマンティック知識ベースにおける該実体の実体記述テキスト又は該実体言及の所在するテキストに対してテキスト解析を行うことによって、
    照応関係を有するか否かを決定する、請求項2に記載の方法。
  4. 実体言及の属するカテゴリを決定するステップは、
    実体言及の所在するテキスト又はタイプ情報を有しない候補実体の実体記述テキストに対応する第1主題ベクトルを取得するステップと、
    各カテゴリの実体の実体記述テキストに対応する第2主題ベクトルを取得するステップと、
    第1主題ベクトルと各カテゴリの第2主題ベクトルとの平均類似度を計算するステップと、
    平均類似度の最も高いカテゴリを、実体言及又はタイプ情報を有しない候補実体の属するカテゴリとして決定するステップと、を含む、請求項1に記載の方法。
  5. 候補実体及び実体言及の属するカテゴリを決定するステップは、
    各カテゴリの実体の実体記述テキストと予め定義されたテンプレートとの合致度、前記実体記述テキストが各カテゴリに関連するキーワードを含むか否か、各カテゴリの実体の百科事典における対応する主題情報、及び各カテゴリの実体に関連する属性タイプのうち少なくとも1つの特徴に基づいて、分類器を訓練するステップと、
    分類器を用いて候補実体及び実体言及を分類するステップと、を含む、請求項1に記載の方法。
  6. 該属性集合に基づいて該カテゴリに属する候補実体と実体言及との類似度を計算するステップは、
    実体言及の所在するテキストから、実体言及の、該属性集合の属性の属性値を抽出するステップと、
    該カテゴリに属する候補実体の、該属性集合の属性の属性値と実体言及の対応する属性値との類似度に基づいて、該候補実体と該実体言及との類似度を計算するステップと、を含む、請求項1に記載の方法。
  7. 該属性集合に基づいて該カテゴリに属する候補実体と実体言及との類似度を計算するステップは、
    該候補実体と該実体言及との相互照応確率、及び該属性集合の各属性の属性識別度のうち少なくとも1つに基づいて、該候補実体と該実体言及との類似度を計算するステップ、を含む、請求項6に記載の方法。
  8. 実体言及の属するカテゴリの最も高い識別性を有する属性集合を決定するステップは、属性識別度が識別閾値よりも高い属性を、該カテゴリの最も高い識別性を有する属性集合における属性として決定するステップ、を含み、
    属性の属性識別度を取得するステップにおいて、
    セマンティック知識ベースにおける各カテゴリの各属性について、
    セマンティック知識ベースにおける該属性の該カテゴリにおいて出現する第1頻度の統計を取り、
    セマンティック知識ベースにおける該カテゴリの該属性の各属性値の該属性において出現する回数に関する第2頻度の統計を取り、
    第1頻度と第2頻度との積を、該カテゴリの該属性の属性識別度として計算する、請求項1に記載の方法。
  9. 実体言及の属するカテゴリの最も高い識別性を有する属性集合を決定するステップは、属性識別度が識別閾値よりも高い属性を、該カテゴリの最も高い識別性を有する属性集合における属性として決定するステップ、を含み、
    属性の属性識別度を取得するステップにおいて、
    セマンティック知識ベースにおける各カテゴリの各属性について、実体と属性値との相関行列を計算し、
    相関行列の各列の最大値を加算し、得られた和を該カテゴリの該属性の属性識別度とする、請求項1に記載の方法。
  10. セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける装置であって、
    セマンティック知識ベースにおける実体から、ショートテキストにおける実体言及に関連する候補実体を選択する候補実体選択手段と、
    候補実体及び実体言及の属するカテゴリを決定するカテゴリ決定手段と、
    実体言及の属するカテゴリの最も高い識別性を有する属性集合を決定する属性集合決定手段と、
    該属性集合に基づいて、該カテゴリに属する候補実体と実体言及との類似度を計算する類似度計算手段と、
    前記類似度に基づいて、候補実体を選択して実体言及に関連付ける関連付け手段と、を含む、装置。
JP2016255039A 2016-01-05 2016-12-28 セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法及び装置 Pending JP2017123168A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610006846.5 2016-01-05
CN201610006846.5A CN106940702A (zh) 2016-01-05 2016-01-05 连接短文本中实体提及与语义知识库中实体的方法和设备

Publications (1)

Publication Number Publication Date
JP2017123168A true JP2017123168A (ja) 2017-07-13

Family

ID=59305794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016255039A Pending JP2017123168A (ja) 2016-01-05 2016-12-28 セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法及び装置

Country Status (2)

Country Link
JP (1) JP2017123168A (ja)
CN (1) CN106940702A (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608960A (zh) * 2017-09-08 2018-01-19 北京奇艺世纪科技有限公司 一种命名实体链接的方法和装置
CN109582933A (zh) * 2018-11-13 2019-04-05 北京合享智慧科技有限公司 一种确定文本新颖度的方法及相关装置
WO2019133671A1 (en) * 2017-12-29 2019-07-04 Robert Bosch Gmbh System and method for domain-independent terminology linking
CN110765271A (zh) * 2018-07-09 2020-02-07 株式会社理光 一种实体发现与实体链接的联合处理方法及装置
CN110928894A (zh) * 2019-11-18 2020-03-27 精硕科技(北京)股份有限公司 实体对齐的方法及装置
CN111159328A (zh) * 2019-11-20 2020-05-15 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 情报知识融合***及方法
CN111259215A (zh) * 2020-02-14 2020-06-09 北京百度网讯科技有限公司 基于多模态的主题分类方法、装置、设备、以及存储介质
CN111259659A (zh) * 2020-01-14 2020-06-09 北京百度网讯科技有限公司 信息处理方法和装置
CN111401049A (zh) * 2020-03-12 2020-07-10 京东方科技集团股份有限公司 一种实体链接方法及装置
CN111523326A (zh) * 2020-04-23 2020-08-11 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
CN111552880A (zh) * 2020-04-30 2020-08-18 杭州网易再顾科技有限公司 基于知识图谱的数据处理方法、装置、介质及电子设备
CN111737430A (zh) * 2020-06-16 2020-10-02 北京百度网讯科技有限公司 实体链接方法、装置、设备以及存储介质
CN112231416A (zh) * 2020-10-14 2021-01-15 中国平安人寿保险股份有限公司 知识图谱本体更新方法、装置、计算机设备及存储介质
CN112417163A (zh) * 2020-11-13 2021-02-26 中译语通科技股份有限公司 基于实体线索片段的候选实体对齐方法及装置
CN113157946A (zh) * 2021-05-14 2021-07-23 咪咕文化科技有限公司 实体链接方法、装置、电子设备及存储介质
CN114661906A (zh) * 2022-03-15 2022-06-24 腾讯科技(深圳)有限公司 一种实体提及分类方法、装置、电子设备及存储介质
CN114896980A (zh) * 2022-07-14 2022-08-12 湖南四方天箭信息科技有限公司 军事实体链接方法、装置、计算机设备和存储介质
CN117520485A (zh) * 2024-01-08 2024-02-06 卓世科技(海南)有限公司 基于知识图谱集成的大语言模型向量检索方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304552B (zh) * 2018-02-01 2021-01-08 浙江大学 一种基于知识库特征抽取的命名实体链接方法
CN109325126B (zh) * 2018-10-31 2022-04-22 中国电子科技集团公司电子科学研究院 语言文本的对象化处理方法、装置及计算机存储介质
CN109902156B (zh) * 2019-01-09 2021-12-24 千城数智(北京)网络科技有限公司 实体检索方法、存储介质和电子设备
CN109933785B (zh) * 2019-02-03 2023-06-20 北京百度网讯科技有限公司 用于实体关联的方法、装置、设备和介质
CN111428507B (zh) * 2020-06-09 2020-09-11 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
CN111931509A (zh) * 2020-08-28 2020-11-13 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN112328710B (zh) * 2020-11-26 2024-06-11 北京百度网讯科技有限公司 实体信息处理方法、装置、电子设备和存储介质
CN112966117A (zh) * 2020-12-28 2021-06-15 成都数之联科技有限公司 实体链接方法
CN112989235B (zh) * 2021-03-09 2023-08-01 北京百度网讯科技有限公司 基于知识库的内链构建方法、装置、设备和存储介质
CN113760995A (zh) * 2021-09-09 2021-12-07 上海明略人工智能(集团)有限公司 一种实体链接方法及***、设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226547A (zh) * 2008-01-11 2008-07-23 孟小峰 一种用在实体识别***中的Web实体识别方法
US8412712B2 (en) * 2008-12-22 2013-04-02 International Business Machines Corporation Grouping methods for best-value determination from values for an attribute type of specific entity
CN102004802B (zh) * 2010-12-30 2012-05-02 北京大学 Xml关键词检索的摘要生成方法
CN104462126B (zh) * 2013-09-22 2018-04-27 富士通株式会社 一种实体链接方法及装置
CN104866625B (zh) * 2015-06-15 2018-08-17 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及***

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608960A (zh) * 2017-09-08 2018-01-19 北京奇艺世纪科技有限公司 一种命名实体链接的方法和装置
CN107608960B (zh) * 2017-09-08 2021-01-08 北京奇艺世纪科技有限公司 一种命名实体链接的方法和装置
US11907662B2 (en) 2017-12-29 2024-02-20 Robert Bosch Gmbh System and method for domain-independent terminology linking
WO2019133671A1 (en) * 2017-12-29 2019-07-04 Robert Bosch Gmbh System and method for domain-independent terminology linking
CN110765271A (zh) * 2018-07-09 2020-02-07 株式会社理光 一种实体发现与实体链接的联合处理方法及装置
CN110765271B (zh) * 2018-07-09 2024-02-09 株式会社理光 一种实体发现与实体链接的联合处理方法及装置
CN109582933A (zh) * 2018-11-13 2019-04-05 北京合享智慧科技有限公司 一种确定文本新颖度的方法及相关装置
CN109582933B (zh) * 2018-11-13 2021-09-03 北京合享智慧科技有限公司 一种确定文本新颖度的方法及相关装置
CN110928894A (zh) * 2019-11-18 2020-03-27 精硕科技(北京)股份有限公司 实体对齐的方法及装置
CN111159328A (zh) * 2019-11-20 2020-05-15 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 情报知识融合***及方法
CN111259659A (zh) * 2020-01-14 2020-06-09 北京百度网讯科技有限公司 信息处理方法和装置
CN111259215A (zh) * 2020-02-14 2020-06-09 北京百度网讯科技有限公司 基于多模态的主题分类方法、装置、设备、以及存储介质
CN111259215B (zh) * 2020-02-14 2023-06-27 北京百度网讯科技有限公司 基于多模态的主题分类方法、装置、设备、以及存储介质
CN111401049A (zh) * 2020-03-12 2020-07-10 京东方科技集团股份有限公司 一种实体链接方法及装置
CN111523326A (zh) * 2020-04-23 2020-08-11 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
US11704492B2 (en) 2020-04-23 2023-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, electronic device, and storage medium for entity linking by determining a linking probability based on splicing of embedding vectors of a target and a reference text
CN111523326B (zh) * 2020-04-23 2023-03-17 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
CN111552880B (zh) * 2020-04-30 2023-06-30 杭州网易再顾科技有限公司 基于知识图谱的数据处理方法、装置、介质及电子设备
CN111552880A (zh) * 2020-04-30 2020-08-18 杭州网易再顾科技有限公司 基于知识图谱的数据处理方法、装置、介质及电子设备
CN111737430A (zh) * 2020-06-16 2020-10-02 北京百度网讯科技有限公司 实体链接方法、装置、设备以及存储介质
CN111737430B (zh) * 2020-06-16 2024-04-05 北京百度网讯科技有限公司 实体链接方法、装置、设备以及存储介质
CN112231416A (zh) * 2020-10-14 2021-01-15 中国平安人寿保险股份有限公司 知识图谱本体更新方法、装置、计算机设备及存储介质
CN112231416B (zh) * 2020-10-14 2024-06-14 中国平安人寿保险股份有限公司 知识图谱本体更新方法、装置、计算机设备及存储介质
CN112417163A (zh) * 2020-11-13 2021-02-26 中译语通科技股份有限公司 基于实体线索片段的候选实体对齐方法及装置
CN113157946A (zh) * 2021-05-14 2021-07-23 咪咕文化科技有限公司 实体链接方法、装置、电子设备及存储介质
CN114661906A (zh) * 2022-03-15 2022-06-24 腾讯科技(深圳)有限公司 一种实体提及分类方法、装置、电子设备及存储介质
CN114896980A (zh) * 2022-07-14 2022-08-12 湖南四方天箭信息科技有限公司 军事实体链接方法、装置、计算机设备和存储介质
CN117520485A (zh) * 2024-01-08 2024-02-06 卓世科技(海南)有限公司 基于知识图谱集成的大语言模型向量检索方法
CN117520485B (zh) * 2024-01-08 2024-03-29 卓世科技(海南)有限公司 基于知识图谱集成的大语言模型向量检索方法

Also Published As

Publication number Publication date
CN106940702A (zh) 2017-07-11

Similar Documents

Publication Publication Date Title
JP2017123168A (ja) セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法及び装置
US11574077B2 (en) Systems and methods for removing identifiable information
WO2019136993A1 (zh) 文本相似度计算方法、装置、计算机设备和存储介质
WO2017202125A1 (zh) 文本分类方法及装置
CN108701155B (zh) 社交网络中的专家检测
US10740802B2 (en) Systems and methods for gaining knowledge about aspects of social life of a person using visual content associated with that person
JP5963609B2 (ja) 画像処理装置、画像処理方法
US11709997B2 (en) Systems and methods for modeling item similarity and correlating item information
TW201416894A (zh) 識別特徵群體的方法及裝置和搜索方法及裝置
US11294971B1 (en) Systems and methods for modeling item similarity using converted image information
TWI670620B (zh) 校驗方法及裝置
US11836120B2 (en) Machine learning techniques for schema mapping
US11514054B1 (en) Supervised graph partitioning for record matching
CN109783805B (zh) 一种网络社区用户识别方法、装置和可读存储介质
US11567851B2 (en) Mathematical models of graphical user interfaces
JP7470235B2 (ja) 語彙抽出支援システムおよび語彙抽出支援方法
CN111949838A (zh) 一种数据的传播路径生成方法、装置、设备及存储介质
CN108427730A (zh) 一种基于随机游走和条件随机场的社会标签推荐方法
TWI714321B (zh) 資料庫更新方法和裝置、電子設備、電腦儲存介質
CN110990834B (zh) 一种android恶意软件的静态检测方法、***及介质
US20150032749A1 (en) Method of creating classification pattern, apparatus, and recording medium
US11593740B1 (en) Computing system for automated evaluation of process workflows
JP6680472B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JPWO2014141452A1 (ja) 文書分析装置及び文書分析プログラム
KR102289014B1 (ko) 클릭스트림 데이터를 사용하여 각각의 유저 유형별 웹사이트 사용 패턴이 반영된 각각의 유형별 퍼소나를 생성함으로써 특정 웹사이트의 유저들을 유형화하는 방법 및 장치