JP5467643B2 - 文書の類似度を判定する方法、装置及びプログラム。 - Google Patents
文書の類似度を判定する方法、装置及びプログラム。 Download PDFInfo
- Publication number
- JP5467643B2 JP5467643B2 JP2010104088A JP2010104088A JP5467643B2 JP 5467643 B2 JP5467643 B2 JP 5467643B2 JP 2010104088 A JP2010104088 A JP 2010104088A JP 2010104088 A JP2010104088 A JP 2010104088A JP 5467643 B2 JP5467643 B2 JP 5467643B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- similarity
- graph
- kernel function
- document data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90339—Query processing by using parallel associative memories or content-addressable memories
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ps(i): ランダムウォークがノードiから開始される確率
pt(j|i): ノードiからノードjへの遷移確率
pq(i): ランダムウォークがノードiで終了する確率
K(v,v'): ノード対(v,v')の類似度を示すカーネル関数
K(e,e'): エッジ対(e,e')の類似度を示すカーネル関数
を用いて計算するにあたり、前記ps(i)、またはpt(j|i)の値が、オブジェクトの面積が全オブジェクト面積に占める割合(面積率)に比例して高く、計算するように構成する。
ランダムウォークに基づくグラフマイニングにおいて、二つのラベル付き有向グラフ G,G'の間のカーネル関数K(G,G')は以下のように表される。
ただし
ps(i): ランダムウォークがノード iから開始される確率
pt(j|i):ノード iからノード jへの遷移確率
pq(i): ランダムウォークがノード iで終了する確率
K(v,v'):ノード対 (v,v')の類似度を示すカーネル関数
K(e,e'):エッジ対 (e,e')の類似度を示すカーネル関数
非特許文献2では、ps及び ptとして一様分布を、ps、pqは定数を用いている。また、 K(v,v')及び K(e,e')については、ノードもしくはエッジに付与されたラベルが一致する場合に 1、一致しない場合に 0 を返す関数を用いている。本発明も同様の関数とする。
テキストおよび非テキストデータを含む文書データに対してグラフマイニングを適用するために、以下において、文書データ内に含まれる各ページをグラフ構造に変換する手続きと、グラフマイニングに必要なパラメータ(ps,pt,pq,K(v,v'),K(e,e'))を決定する。
まず文書データ(例えばプレゼンテーション文書の1ページ)をラベル付き有向グラフへ変換する。まず、オブジェクトをノードに変換する。オブジェクトの持つプロパティ(テキストを含む)をそのノードが持つ特徴量と考えて、後述する K(v,v')の計算に利用する。続いてノード間をエッジで連結する。このときエッジに付与するラベルとして、連結されるノード間の地理的位置関係(上下左右)を用いる。意図的に荒い粒度のエッジラベルを用いることで、微修正に対して頑健なグラフ構造を目指す。有向グラフへの変換例については図4を参照をされたい。
次にランダムウォークに関するパラメータ ps(i),pt(j|i),pq(i)を決定する。ここで ps(i), pt(j|i) をノード毎に調整することで、ノードを考慮する度合いを変えることができる。そこで今回は主要なオブジェクトを重視して些末なオブジェクトを軽視するようにパラメータを調整する。具体的には、オブジェクトがページ上で占める面積率に比例して遷移確率を割り当てる。例えば図4において、ノードv6の面積が 100平方ピクセル、 ノードv4の面積が50平方ピクセル、全オブジェクトの面積の合計が 1000平方ピクセルであった場合、 ps(v6) = 100 = 1000 となり、
pt(v6|v5) = 100= (100 + 50)
pt(v4|v5) = 50 = (100 + 50)
となる。さらにランダムウォークでの開始ノードを乱数で選出する際にも、オブジェクトがページ上で占める面積率に比例して選択されやすくする。上記のようにノードから他のノードに遷移する確率についても面積の広いオブジェクト(ノード)に遷移し易くするわけである。このように面積が広いオブジェクトが選ばれやすくすることで、オブジェクトの重要度を考慮した判定が可能になる。つまり人間が見る文書の類似度感に近い文書の類似度判定を行うことができる。なおオブジェクトの重要度として面積率ではなく、特定の形状にどれだけ近いかを表す形状の近似度や、電子透かし技術によって埋め込まれた不可視の重要度などを用いても良い。
カーネル関数は似通った特徴を持つベクトル対に対して高い値を、異なる特徴を持つベクトル対に対して低い値を返すような関数であり、いくつかの条件、例えば
(K(x,y)= K(y,x),K(x,y) > 0
などを満たすものであれば任意の関数をカーネル関数として利用可能である。
まず K(v,v')については、以下のようなプロパティの一致度を線形補間して得る。ノードおよびエッジの特徴量(プロパティ)は図5のデータ構造の例に示したようにメモリ中に記憶される。
図10に本発明の文書データ類似度判定システムにおける、コンピュータ・ハードウェアのブロック図を一例として示す。本発明の実施形態に係るコンピュータ・システム(1001)は、CPU(1002)とメイン・メモリ(1003)と含み、これらはバス(1004)に接続されている。CPU(1002)は好ましくは、32ビット又は64ビットのアーキテクチャに基づくものであり、例えば、インテル社のXeon(商標)シリーズ、Core(商標)シリーズ、Atom(商標)シリーズ、Pentium(商標)シリーズ、Celeron(商標)シリーズ、AMD社のPhenom(商標)シリーズ、Athlon(商標)シリーズ、Turion(商標)シリーズ及びSempron(商標)などを使用することができる。
710 文書データ取得部
720 有向グラフ変換部
730 グラフデータ記憶部
740 類似度判定部
750 判定結果累積部
760 判定結果出力部
Claims (18)
- 2つの文書データの類似度判定を支援する方法であって、前記文書データはオブジェクトとしてテキスト及び非テキストのデータを含んでおり、前記方法は、コンピュータが、
前記文書データの各々を有向グラフに変換して記憶するステップであって、前記オブジェクトそれぞれがノードに変換され、且つ当該ノード間がエッジで連絡される、前記記憶するステップと、
前記変換された有向グラフ間の類似度を、前記オブジェクトの重要度を用いて計算するステップであって、前記オブジェクトの重要度が、オブジェクトの面積が全オブジェクト面積に占める割合(面積率)であり、当該面積率に比例して、開始ノードが選択されるようにする、前記計算するステップと
を実行することを含む、前記方法。 - 前記有向グラフ間の類似度の計算をグラフマイニングにより行う、請求項1記載の方法。
- 前記グラフマイニングによる類似度の計算が、ノードiから開始される確率と、ノードiとエッジで連結されたノードjに遷移する確率と、ノードiで終了する確率と、ノード対(v,v')の類似度を示すカーネル関数と、エッジ対(e,e')の類似度を示すカーネル関数を用いて計算される、請求項2記載の方法。
- 前記グラフマイニングによる類似度の計算を、ランダムウォークに基づくグラフマイニングにより計算するステップであって、
変換された有向グラフG,G'として、当該有向グラフG,G'間の類似度を表すカーネル関数K(G,G')を
ps(i): ランダムウォークがノードiから開始される確率
pt(j|i): ノードiからノードjへの遷移確率
pq(i): ランダムウォークがノードiで終了する確率
K(v,v'): ノード対(v,v')の類似度を示すカーネル関数
K(e,e'): エッジ対(e,e')の類似度を示すカーネル関数
を用いて計算するにあたり、前記ps(i)、またはpt(j|i)の値が、オブジェクトの面積が全オブジェクト面積に占める割合(面積率)に比例して高く、計算するステップである、請求項3記載の方法。 - 前記有向グラフに変換するステップが、
文書データ中のオブジェクトをノードに変換し、前記オブジェクトのプロパティを当該ノードのもつ特徴量として記憶するステップと、
ノード間をエッジで連結するステップであって、連結される前記ノード間の位置関係を表す情報を記憶する、前記連結するステップと
を含む、請求項1〜5のいずれか一項記載の方法。 - 前記ノードがもつ特徴量が、テキスト、画像、または図形プロパティである、請求項6記載の方法。
- 前記位置関係を表す情報が、上、下、左、または右である、請求項6記載の方法。
- 2つの文書データの類似度判定を支援するシステムであって、前記文書データはオブジェクトとしてテキスト及び非テキストのデータを含んでおり、前記システムが、
前記文書データの各々を有向グラフに変換して記憶する手段であって、前記オブジェクトそれぞれがノードに変換され、且つ当該ノード間がエッジで連絡される、前記記憶する手段と、
前記変換された有向グラフ間の類似度を、前記オブジェクトの重要度を用いて計算する手段であって、前記オブジェクトの重要度が、オブジェクトの面積が全オブジェクト面積に占める割合(面積率)であり、当該面積率に比例して、開始ノードが選択されるようにする、前記計算する手段と
を有する、前記システム。 - 前記有向グラフ間の類似度の計算をグラフマイニングにより行う、請求項9記載のシステム。
- 前記グラフマイニングによる類似度の計算が、ノードiから開始される確率と、ノードiとエッジで連結されたノードjに遷移する確率と、ノードiで終了する確率と、ノード対(v,v')の類似度を示すカーネル関数と、エッジ対(e,e')の類似度を示すカーネル関数を用いて計算される、請求項10記載のシステム。
- 前記グラフマイニングによる類似度の計算を、ランダムウォークに基づくグラフマイニングにより計算する手段であって、
変換された有向グラフG,G'として、当該有向グラフG,G'間の類似度を表すカーネル関数K(G,G')を
ps(i): ランダムウォークがノードiから開始される確率
pt(j|i): ノードiからノードjへの遷移確率
pq(i): ランダムウォークがノードiで終了する確率
K(v,v'): ノード対(v,v')の類似度を示すカーネル関数
K(e,e'): エッジ対(e,e')の類似度を示すカーネル関数
を用いて計算するにあたり、前記ps(i)、またはpt(j|i)の値が、オブジェクトの面積が全オブジェクト面積に占める割合(面積率)に比例して高く、計算する手段である、請求項11記載のシステム。 - 前記有向グラフに変換する手段が、
文書データ中のオブジェクトをノードに変換し、前記オブジェクトのプロパティを当該ノードのもつ特徴量として記憶する手段と、
ノード間をエッジで連結する手段であって、連結される前記ノード間の位置関係を表す情報を記憶する、前記連結する手段と
を有する、請求項9〜13のいずれか一項記載のシステム。 - 前記ノードがもつ特徴量が、テキスト、画像、または図形プロパティである、請求項14記載のシステム。
- 前記位置関係を表す情報が、上、下、左、または右である、請求項14記載のシステム。
- 2つの文書データの類似度判定を支援するためのコンピュータ実行可能なコンピュータ・プログラムであって、コンピュータに請求項1〜8のいずれか一項に記載の方法の各ステップを実行させる、前記コンピュータ・プログラム。
- 請求項17に記載のコンピュータ実行可能なコンピュータ・プログラムをコンピュータ可読に格納する記録媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010104088A JP5467643B2 (ja) | 2010-04-28 | 2010-04-28 | 文書の類似度を判定する方法、装置及びプログラム。 |
US13/088,457 US20110270851A1 (en) | 2010-04-28 | 2011-04-18 | Method, device, and program for determining similarity between documents |
CN201110103501.9A CN102236693B (zh) | 2010-04-28 | 2011-04-25 | 确定文档之间的相似度的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010104088A JP5467643B2 (ja) | 2010-04-28 | 2010-04-28 | 文書の類似度を判定する方法、装置及びプログラム。 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011233023A JP2011233023A (ja) | 2011-11-17 |
JP5467643B2 true JP5467643B2 (ja) | 2014-04-09 |
Family
ID=44859133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010104088A Expired - Fee Related JP5467643B2 (ja) | 2010-04-28 | 2010-04-28 | 文書の類似度を判定する方法、装置及びプログラム。 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20110270851A1 (ja) |
JP (1) | JP5467643B2 (ja) |
CN (1) | CN102236693B (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8499284B2 (en) * | 2008-09-11 | 2013-07-30 | Microsoft Corporation | Visualizing relationships among components using grouping information |
US8509525B1 (en) * | 2011-04-06 | 2013-08-13 | Google Inc. | Clustering of forms from large-scale scanned-document collection |
US9202297B1 (en) | 2011-07-12 | 2015-12-01 | Domo, Inc. | Dynamic expansion of data visualizations |
US9792017B1 (en) | 2011-07-12 | 2017-10-17 | Domo, Inc. | Automatic creation of drill paths |
US10001898B1 (en) | 2011-07-12 | 2018-06-19 | Domo, Inc. | Automated provisioning of relational information for a summary data visualization |
JP2013149061A (ja) * | 2012-01-19 | 2013-08-01 | Nec Corp | 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム |
JP5910867B2 (ja) | 2012-03-13 | 2016-04-27 | 日本電気株式会社 | 文書内の図情報を利用した類似文書の検索システム及び方法 |
CN102651034B (zh) * | 2012-04-11 | 2013-11-20 | 江苏大学 | 一种基于核函数的文档相似检测方法 |
US9158970B2 (en) * | 2012-11-16 | 2015-10-13 | Canon Kabushiki Kaisha | Devices, systems, and methods for visual-attribute refinement |
US9779063B1 (en) * | 2013-03-15 | 2017-10-03 | Not Invented Here LLC | Document processor program having document-type dependent interface |
US9753960B1 (en) * | 2013-03-20 | 2017-09-05 | Amdocs Software Systems Limited | System, method, and computer program for dynamically generating a visual representation of a subset of a graph for display, based on search criteria |
US9405853B2 (en) * | 2013-06-17 | 2016-08-02 | Hewlett Packard Enterprise Development Lp | Reading object queries |
CN105706080B (zh) | 2013-08-07 | 2020-01-10 | 微软技术许可有限责任公司 | 扩增并呈现捕获的数据 |
KR102094507B1 (ko) * | 2013-11-01 | 2020-03-27 | 삼성전자주식회사 | 선택적 정제를 이용한 계층적 중요점 영상 생성 방법, 상기 방법을 기록한 컴퓨터 판독 가능 저장매체 및 중요점 영상 생성 장치. |
JP6315980B2 (ja) | 2013-12-24 | 2018-04-25 | 株式会社東芝 | デコーダ、デコード方法およびプログラム |
US10127230B2 (en) | 2015-05-01 | 2018-11-13 | Microsoft Technology Licensing, Llc | Dynamic content suggestion in sparse traffic environment |
US10740349B2 (en) | 2015-06-22 | 2020-08-11 | Microsoft Technology Licensing, Llc | Document storage for reuse of content within documents |
US10339183B2 (en) | 2015-06-22 | 2019-07-02 | Microsoft Technology Licensing, Llc | Document storage for reuse of content within documents |
US10394949B2 (en) | 2015-06-22 | 2019-08-27 | Microsoft Technology Licensing, Llc | Deconstructing documents into component blocks for reuse in productivity applications |
US10395325B2 (en) * | 2015-11-11 | 2019-08-27 | International Business Machines Corporation | Legal document search based on legal similarity |
US9436760B1 (en) * | 2016-02-05 | 2016-09-06 | Quid, Inc. | Measuring accuracy of semantic graphs with exogenous datasets |
US9558265B1 (en) * | 2016-05-12 | 2017-01-31 | Quid, Inc. | Facilitating targeted analysis via graph generation based on an influencing parameter |
US11222054B2 (en) * | 2018-03-12 | 2022-01-11 | International Business Machines Corporation | Low-complexity methods for assessing distances between pairs of documents |
CN110890977B (zh) * | 2019-10-15 | 2022-06-21 | 平安科技(深圳)有限公司 | 云平台的主机节点监控方法、装置和计算机设备 |
CN114600096A (zh) * | 2019-10-25 | 2022-06-07 | 株式会社半导体能源研究所 | 文档检索*** |
US11830238B2 (en) * | 2019-11-22 | 2023-11-28 | Nippon Telegraph And Telephone Corporation | Identification device, identification method, and identification program |
US11568663B2 (en) * | 2020-05-05 | 2023-01-31 | Jpmorgan Chase Bank, N.A. | Image-based document analysis using neural networks |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3726263B2 (ja) * | 2002-03-01 | 2005-12-14 | ヒューレット・パッカード・カンパニー | 文書分類方法及び装置 |
CN100543735C (zh) * | 2005-10-31 | 2009-09-23 | 北大方正集团有限公司 | 基于文档结构的文档相似性度量方法 |
JP4859025B2 (ja) * | 2005-12-16 | 2012-01-18 | 株式会社リコー | 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体 |
US8332333B2 (en) * | 2006-10-19 | 2012-12-11 | Massachusetts Institute Of Technology | Learning algorithm for ranking on graph data |
JP2008181460A (ja) * | 2007-01-26 | 2008-08-07 | Ricoh Co Ltd | 文書画像検索装置および文書画像検索方法 |
CN101576903B (zh) * | 2009-03-03 | 2011-03-30 | 杜小勇 | 一种文档相似度衡量方法 |
-
2010
- 2010-04-28 JP JP2010104088A patent/JP5467643B2/ja not_active Expired - Fee Related
-
2011
- 2011-04-18 US US13/088,457 patent/US20110270851A1/en not_active Abandoned
- 2011-04-25 CN CN201110103501.9A patent/CN102236693B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN102236693A (zh) | 2011-11-09 |
JP2011233023A (ja) | 2011-11-17 |
US20110270851A1 (en) | 2011-11-03 |
CN102236693B (zh) | 2015-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5467643B2 (ja) | 文書の類似度を判定する方法、装置及びプログラム。 | |
Steiniger et al. | An approach for the classification of urban building structures based on discriminant analysis techniques | |
KR101507662B1 (ko) | 비디오 내 객체들의 시맨틱 파싱 | |
US8879837B2 (en) | Method for identifying pairs of derivative and original images | |
US11379536B2 (en) | Classification device, classification method, generation method, classification program, and generation program | |
US20150228045A1 (en) | Methods for embedding and extracting a watermark in a text document and devices thereof | |
JP6492880B2 (ja) | 機械学習装置、機械学習方法、および機械学習プログラム | |
KR101177626B1 (ko) | 물체 검출 장치 및 방법 | |
JP5629908B2 (ja) | セキュア文書検出方法、セキュア文書検出プログラム、及び光学式文字読取装置 | |
JP5962449B2 (ja) | 判定プログラム、判定方法及び判定装置 | |
JP6651814B2 (ja) | 領域抽出装置、領域抽出プログラム、及び領域抽出方法 | |
CN107305615A (zh) | 数据表识别方法和*** | |
KR20190023503A (ko) | 이미지 기반 특허 검색 장치 | |
Joren et al. | Learning document graphs with attention for image manipulation detection | |
JP2007316950A (ja) | 画像処理方法及び装置及びプログラム | |
TWI621084B (zh) | 跨區域商品對應方法、系統及非暫態電腦可讀取記錄媒體 | |
Al-Jaberi et al. | Topological data analysis to improve exemplar-based inpainting | |
JP2013156946A (ja) | コミック画像データ検出装置、コミック画像データ検出プログラム及びコミック画像データ検出方法 | |
JP2011141664A (ja) | 文書比較装置、文書比較方法、及びプログラム | |
CN112860677A (zh) | 实体判重方法、终端设备及存储介质 | |
Zhang et al. | Small target detection based on faster R-CNN | |
US20140184811A1 (en) | Image processing apparatus, image processing method, and computer program product | |
CN111445375A (zh) | 水印嵌入方案和数据处理方法、装置及设备 | |
JP6777445B2 (ja) | 引用マップ生成装置、引用マップ生成方法およびコンピュータプログラム | |
Mustafa | Quick probabilistic binary image matching: changing the rules of the game |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130521 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130717 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130722 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130819 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130819 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20130819 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130822 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140108 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20140108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140124 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |