JP6017155B2 - 改善された類似文書検出方法、装置、及びコンピュータ読み取り可能な記録媒体 - Google Patents
改善された類似文書検出方法、装置、及びコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP6017155B2 JP6017155B2 JP2012063358A JP2012063358A JP6017155B2 JP 6017155 B2 JP6017155 B2 JP 6017155B2 JP 2012063358 A JP2012063358 A JP 2012063358A JP 2012063358 A JP2012063358 A JP 2012063358A JP 6017155 B2 JP6017155 B2 JP 6017155B2
- Authority
- JP
- Japan
- Prior art keywords
- entity
- similar
- similar document
- document
- document detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図2は、本発明の一実施形態において検出された重複する類似文書を削除した検索データベースを用いた検索結果提供装置を含む全体装置を概略的に示した図である。
図3は、本発明の一実施形態における検索結果提供装置100の詳細な構成図である。
図4を参照して、本発明の一実施形態における検索結果提供装置100の類似文書検出部130についてより詳細に説明すると、類似文書検出部130は、クラスタリング(clustering)手段131、エンティティ(entity)抽出手段132、加重値計算手段133、及び類似文書検出手段134を含んでもよい。
130 類似文書検出部
131 クラスタリング手段
132 エンティティ抽出手段
133 加重値計算手段
134 類似文書検出手段
Claims (23)
- エンティティ抽出手段、加重値計算手段、及び類似文書検出手段を含む類似文書検出装置において行われるコンピュータ・ソフトウエアによる情報処理方法であって、
前記エンティティ抽出手段が、複数のウェブ文書それぞれからエンティティ(entity)及び重要度寄与要素を算出し、
前記加重値計算手段が、前記算出された重要度寄与要素に基づいて各エンティティに対する加重値を計算し、
前記類似文書検出手段が、前記算出された加重値に基づいて前記複数のウェブ文書が類似文書であるか否かを検出し、
前記類似文書であるか否かを検出することは、
前記複数のウェブ文書それぞれに含まれる各エンティティのハッシュ値を抽出し、抽出した各ハッシュ値に前記エンティティの加重値を適用して前記複数のウェブ文書それぞれの特性指数を計算し、
前記計算されたそれぞれの特性指数に基づいて前記複数のウェブ文書が類似文書であるか否かを検出することを含むことを特徴とする改善された類似文書検出方法。 - 前記複数のウェブ文書を所定の方式により一つのクラスタに統合するクラスタリングすることをさらに含むことを特徴とする請求項1に記載の改善された類似文書検出方法。
- 前記所定の方式は、ホスト(Host)クラスタリング、パス(Path)クラスタリング、クエリ(Query)クラスタリング、サイズ(Size)クラスタリング、シムハッシュ(Simhash)クラスタリングまたはDOM(Document Object Model)クラスタリングのうち少なくとも一つ以上を任意の順序で組み合わせたものであることを特徴とする請求項2に記載の改善された類似文書検出方法。
- 前記エンティティ抽出手段が前記エンティティを抽出することは、
前記複数のウェブ文書のうちいずれか一つから文書構造を抽出し、
前記抽出された文書構造に基づいてエンティティを抽出すること、を前記複数のウェブ文書全てに対して繰り返すことにより行われ、
前記エンティティは、前記文書構造のテキストノード、アンカー(anchor)ノード、エンベッド(embed)ノードまたはイメージ(img)ノードのうちいずれか一つ以上のノードから抽出されることを特徴とする請求項1から3のいずれか一項に記載の改善された類似文書検出方法。 - 前記エンティティがテキストノードから抽出される場合、
前記テキストノードの上位ノードの中に存在するID値を前記エンティティに結合して使用することを特徴とする請求項4に記載の改善された類似文書検出方法。 - 前記重要度寄与要素は、
前記エンティティが前記複数のウェブ文書中で核心となる程度の重要度を反映するものであることを特徴とする請求項1から5のいずれか一項に記載の改善された類似文書検出方法。 - 前記重要度寄与要素は、前記エンティティのハッシュ値、または前記エンティティが前記複数のウェブ文書中で重複する回数や頻度のうちいずれか一つ以上を含む値であることを特徴とする請求項6に記載の改善された類似文書検出方法。
- 前記加重値は、前記算出されたエンティティの重複する回数や頻度に反比例する文献出現頻度の逆数(Inverted Document Frequency)を用いて計算されることを特徴とする請求項7に記載の改善された類似文書検出方法。
- 前記特性指数はシムハッシュ(Simhash)であることを特徴とする請求項1から8のいずれか一項に記載の改善された類似文書検出方法。
- 前記類似文書検出手段が前記特性指数に基づいて類似文書であるか否かを検出することは、
前記複数のウェブ文書それぞれが有する特性指数であるシムハッシュ間のハミング距離(hamming distance)が所定数値以下である場合、類似文書として検出されることを特徴とする請求項9に記載の改善された類似文書検出方法。 - 前記類似文書検出手段が前記類似文書検出結果に基づいて前記複数のウェブ文書のうち重複する類似文書を削除する類似文書を削除することをさらに含むことを特徴とする請求項1から10のいずれか一項に記載の改善された類似文書検出方法。
- 請求項1から11のいずれか一項に記載の方法の各ステップをコンピュータ上で行うためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
- 複数のウェブ文書それぞれからエンティティ(entity)及び重要度寄与要素を算出するエンティティ抽出手段と、
前記算出された重要度寄与要素に基づいて各エンティティに対する加重値を計算する加重値計算手段と、
前記算出された加重値に基づいて前記複数のウェブ文書が類似文書であるか否かを検出する類似文書検出手段と、を含み、
前記類似文書検出手段は、
前記複数のウェブ文書それぞれに含まれる各エンティティのハッシュ値を抽出し、抽出した各ハッシュ値に前記エンティティの加重値を適用して前記複数のウェブ文書それぞれの特性指数を計算し、前記計算されたそれぞれの特性指数に基づいて前記複数のウェブ文書が類似文書であるか否かを検出することを特徴とする改善された類似文書検出装置。 - 前記複数のウェブ文書を所定の方式により一つのクラスタに統合し、統合した前記クラスタを前記複数のウェブ文書として前記エンティティ抽出手段に提供するクラスタリング手段をさらに含むことを特徴とする請求項13に記載の改善された類似文書検出装置。
- 前記所定の方式は、ホスト(Host)クラスタリング、パス(Path)クラスタリング、クエリ(Query)クラスタリング、サイズ(Size)クラスタリング、シムハッシュ(Simhash)クラスタリングまたはDOM(Document Object ModeL)クラスタリングのうち少なくとも一つ以上を任意の順序で組み合わせたものであることを特徴とする請求項14に記載の改善された類似文書検出装置。
- 前記エンティティ抽出手段は、
前記複数のウェブ文書のうちいずれか一つから文書構造を抽出し、前記抽出された文書構造に基づいてエンティティを抽出することを前記複数のウェブ文書全てに対して繰り返して行い、
前記エンティティは、前記文書構造のテキストノード、アンカー(anchor)ノード、エンベッド(embed)ノードまたはイメージ(img)ノードのうちいずれか一つ以上のノードから抽出されることを特徴とする請求項13から15のいずれか一項に記載の改善された類似文書検出装置。 - 前記エンティティがテキストノードから抽出される場合、
前記テキストノードの上位ノードの中に存在するID値を前記エンティティに結合して使用することを特徴とする請求項16に記載の改善された類似文書検出装置。 - 前記重要度寄与要素は、
前記エンティティが前記複数のウェブ文書中で核心となる程度の重要度を反映するものであることを特徴とする請求項13から17のいずれか一項に記載の改善された類似文書検出装置。 - 前記重要度寄与要素は、前記エンティティのハッシュ値、または前記エンティティが前記複数のウェブ文書中で重複する回数や頻度のうちいずれか一つ以上を含む値であることを特徴とする請求項18に記載の改善された類似文書検出装置。
- 前記加重値は、前記算出されたエンティティの重複する回数や頻度に反比例する文献出現頻度の逆数(Inverted Document Frequency)を用いて計算されることを特徴とする請求項19に記載の改善された類似文書検出装置。
- 前記特性指数はシムハッシュ(Simhash)であることを特徴とする請求項13から20のいずれか一項に記載の改善された類似文書検出装置。
- 前記特性指数に基づいて類似文書であるか否かを検出することは、
前記複数のウェブ文書それぞれが有する特性指数であるシムハッシュ間のハミング距離(hamming distance)が所定数値以下である場合、類似文書として検出されることを特徴とする請求項21に記載の改善された類似文書検出装置。 - 前記類似文書検出手段は、前記類似文書検出結果に基づいて前記複数のウェブ文書のうち重複する類似文書を削除することをさらに含むことを特徴とする請求項13から22のいずれか一項に記載の改善された類似文書検出装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2011-0042303 | 2011-05-04 | ||
KR1020110042303A KR20120124581A (ko) | 2011-05-04 | 2011-05-04 | 개선된 유사 문서 탐지 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012234522A JP2012234522A (ja) | 2012-11-29 |
JP6017155B2 true JP6017155B2 (ja) | 2016-10-26 |
Family
ID=47090957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012063358A Active JP6017155B2 (ja) | 2011-05-04 | 2012-03-21 | 改善された類似文書検出方法、装置、及びコンピュータ読み取り可能な記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9448999B2 (ja) |
JP (1) | JP6017155B2 (ja) |
KR (1) | KR20120124581A (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101700340B1 (ko) * | 2012-04-06 | 2017-01-26 | 에스케이플래닛 주식회사 | 대용량 데이터의 클러스터 결과 분석 시스템 및 방법 |
US9116974B2 (en) * | 2013-03-15 | 2015-08-25 | Robert Bosch Gmbh | System and method for clustering data in input and output spaces |
KR101508849B1 (ko) * | 2013-10-24 | 2015-04-08 | 한양대학교 산학협력단 | 내용 정보 및 참조 정보를 활용하는 문서들 간의 유사도 측정 방법 및 장치 |
CN104636319B (zh) * | 2013-11-11 | 2018-09-28 | 腾讯科技(北京)有限公司 | 一种文本去重方法和装置 |
US9507761B2 (en) * | 2013-12-26 | 2016-11-29 | International Business Machines Corporation | Comparing webpage elements having asynchronous functionality |
US10287637B2 (en) | 2014-01-25 | 2019-05-14 | uBiome, Inc. | Method and system for microbiome analysis |
CN105630802A (zh) | 2014-10-30 | 2016-06-01 | 阿里巴巴集团控股有限公司 | 网页去重方法及装置 |
CN105988988A (zh) | 2015-02-13 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 文本地址处理方法及装置 |
CN106294105B (zh) * | 2015-05-22 | 2020-07-28 | 深圳市腾讯计算机***有限公司 | 刷量工具检测方法和装置 |
US9578048B1 (en) | 2015-09-16 | 2017-02-21 | RiskIQ Inc. | Identifying phishing websites using DOM characteristics |
WO2017049045A1 (en) * | 2015-09-16 | 2017-03-23 | RiskIQ, Inc. | Using hash signatures of dom objects to identify website similarity |
WO2017096454A1 (en) * | 2015-12-07 | 2017-06-15 | Adlib Publishing Systems Inc. | Clustering documents based on textual content |
CN106909575B (zh) * | 2015-12-23 | 2020-07-31 | 北京国双科技有限公司 | 文本聚类方法和装置 |
WO2017189727A1 (en) * | 2016-04-26 | 2017-11-02 | RiskIQ, Inc. | Techniques for monitoring version numbers of web frameworks |
CN105975547B (zh) * | 2016-04-29 | 2019-06-25 | 武汉大学 | 基于内容与位置特征的近似web文档检测方法 |
KR101804810B1 (ko) * | 2016-07-08 | 2017-12-05 | 금오공과대학교 산학협력단 | 유사문서 판별장치 및 이를 이용한 유사문서 판별방법 |
CN108427956B (zh) * | 2017-02-14 | 2019-08-06 | 腾讯科技(深圳)有限公司 | 一种对象聚类方法和装置 |
US10346291B2 (en) * | 2017-02-21 | 2019-07-09 | International Business Machines Corporation | Testing web applications using clusters |
CN107679062B (zh) * | 2017-07-31 | 2021-02-05 | 石河子大学 | 一种推理群体意图的方法及电子设备 |
CN107835191A (zh) * | 2017-11-29 | 2018-03-23 | 中科信息安全共性技术国家工程研究中心有限公司 | 一种检测网页恶意篡改的方法和装置 |
CN108647789B (zh) * | 2018-05-15 | 2022-04-19 | 浙江大学 | 一种基于状态分布感知采样的智能体深度价值函数学习方法 |
CN109271487A (zh) * | 2018-09-29 | 2019-01-25 | 浪潮软件股份有限公司 | 一种相似文本分析方法 |
US11294974B1 (en) * | 2018-10-04 | 2022-04-05 | Apple Inc. | Golden embeddings |
US11222028B2 (en) * | 2019-01-15 | 2022-01-11 | Oracle International Corporation | Report recommendation engine |
KR102247067B1 (ko) * | 2019-03-28 | 2021-05-03 | 네이버클라우드 주식회사 | 웹사이트에서 수집된 url을 처리하는 방법, 장치 및 컴퓨터 프로그램 |
US20210012426A1 (en) * | 2019-07-08 | 2021-01-14 | Novodynamics, Inc. | Methods and systems for anamoly detection in dental insurance claim submissions |
US11829386B2 (en) | 2020-01-30 | 2023-11-28 | HG Insights, Inc. | Identifying anonymized resume corpus data pertaining to the same individual |
KR102373146B1 (ko) * | 2020-03-24 | 2022-03-14 | 경북대학교 산학협력단 | 군집 기반 중복문서 제거 장치 및 제거 방법 |
WO2022124573A1 (ko) * | 2020-12-07 | 2022-06-16 | 주식회사 앰진시큐러스 | 메뉴 구조 및 스크립트 내 키워드 기반 웹 사이트의 유사도 평가 방법 |
CN113515847B (zh) * | 2021-05-12 | 2023-09-05 | 中国矿业大学 | 一种基于K-means聚类算法的非均质岩石数字岩芯建模方法 |
CN116820352B (zh) * | 2023-08-23 | 2023-11-10 | 湖南奔普智能科技有限公司 | 一种具有数据容灾功能的病区自助结算*** |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7660819B1 (en) * | 2000-07-31 | 2010-02-09 | Alion Science And Technology Corporation | System for similar document detection |
JP2004318527A (ja) * | 2003-04-16 | 2004-11-11 | Seiko Epson Corp | 情報抽出システム、文書抽出システム、情報抽出プログラム及び文書抽出プログラム、並びに情報抽出方法及び文書抽出方法 |
US7627613B1 (en) * | 2003-07-03 | 2009-12-01 | Google Inc. | Duplicate document detection in a web crawler system |
US7680773B1 (en) * | 2005-03-31 | 2010-03-16 | Google Inc. | System for automatically managing duplicate documents when crawling dynamic documents |
US8140505B1 (en) * | 2005-03-31 | 2012-03-20 | Google Inc. | Near-duplicate document detection for web crawling |
US8131722B2 (en) * | 2006-11-20 | 2012-03-06 | Ebay Inc. | Search clustering |
US7698317B2 (en) * | 2007-04-20 | 2010-04-13 | Yahoo! Inc. | Techniques for detecting duplicate web pages |
US7610283B2 (en) * | 2007-06-12 | 2009-10-27 | Microsoft Corporation | Disk-based probabilistic set-similarity indexes |
US8019708B2 (en) * | 2007-12-05 | 2011-09-13 | Yahoo! Inc. | Methods and apparatus for computing graph similarity via signature similarity |
US8055078B2 (en) * | 2008-02-28 | 2011-11-08 | Yahoo! Inc. | Filter for blocking image-based spam |
KR100975510B1 (ko) * | 2008-07-17 | 2010-08-11 | 엔에이치엔(주) | 웹 페이지 색인 업데이트 방법 및 시스템 |
JP5184438B2 (ja) * | 2009-05-15 | 2013-04-17 | 日本電信電話株式会社 | 類似文書を検出するための文書署名生成装置、文書署名生成方法、文書署名生成プログラム |
US9183173B2 (en) * | 2010-03-02 | 2015-11-10 | Microsoft Technology Licensing, Llc | Learning element weighting for similarity measures |
WO2011137386A1 (en) * | 2010-04-30 | 2011-11-03 | Orbis Technologies, Inc. | Systems and methods for semantic search, content correlation and visualization |
US8661341B1 (en) * | 2011-01-19 | 2014-02-25 | Google, Inc. | Simhash based spell correction |
-
2011
- 2011-05-04 KR KR1020110042303A patent/KR20120124581A/ko not_active Application Discontinuation
-
2012
- 2012-03-21 JP JP2012063358A patent/JP6017155B2/ja active Active
- 2012-05-02 US US13/462,592 patent/US9448999B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012234522A (ja) | 2012-11-29 |
KR20120124581A (ko) | 2012-11-14 |
US20120284270A1 (en) | 2012-11-08 |
US9448999B2 (en) | 2016-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6017155B2 (ja) | 改善された類似文書検出方法、装置、及びコンピュータ読み取り可能な記録媒体 | |
US20090089278A1 (en) | Techniques for keyword extraction from urls using statistical analysis | |
US8073838B2 (en) | Pseudo-anchor text extraction | |
CN103294781B (zh) | 一种用于处理页面数据的方法与设备 | |
KR101130108B1 (ko) | 만년력 형태의 웹문서 트랩 검출 및 이를 이용한 검색 데이터베이스 구축 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
US20090083266A1 (en) | Techniques for tokenizing urls | |
JP2010501096A (ja) | ラッパー生成およびテンプレート検出の協同最適化 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN102722499B (zh) | 搜索引擎及其实现方法 | |
JP2006127529A (ja) | 階層を考慮したウェブページのランク付け | |
CN102737021B (zh) | 搜索引擎及其实现方法 | |
CN102722501A (zh) | 搜索引擎及其实现方法 | |
JP2010536086A (ja) | ユーザ中心の情報探索方法およびシステム | |
US20150302090A1 (en) | Method and System for the Structural Analysis of Websites | |
Consoli et al. | A quartet method based on variable neighborhood search for biomedical literature extraction and clustering | |
KR101556714B1 (ko) | 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
Varlamis et al. | An automatic wrapper generation process for large scale crawling of news websites | |
JP2011108242A (ja) | 利用者の要求に応じて動的にもっとも適したイメージを抽出して提供するための方法、システム及びコンピューター判読可能な記録媒体 | |
KR101204362B1 (ko) | 검색 결과 제공 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
JP6749865B2 (ja) | 情報収集装置、および、情報収集方法 | |
JP2010140373A (ja) | 文書群検出方法及び文書群検出装置 | |
Petprasit et al. | Web content extraction based on subject detection and node density | |
KR101843494B1 (ko) | 실시간 중복 문서 탐지 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
Barua et al. | Removing noise content from online news articles | |
Benna et al. | Building a social network, based on collaborative tagging, to enhance social information retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160906 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160928 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6017155 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |