JP2017532690A - 重複ウェブページを除去する方法および装置 - Google Patents

重複ウェブページを除去する方法および装置 Download PDF

Info

Publication number
JP2017532690A
JP2017532690A JP2017522605A JP2017522605A JP2017532690A JP 2017532690 A JP2017532690 A JP 2017532690A JP 2017522605 A JP2017522605 A JP 2017522605A JP 2017522605 A JP2017522605 A JP 2017522605A JP 2017532690 A JP2017532690 A JP 2017532690A
Authority
JP
Japan
Prior art keywords
web page
text characters
feature code
data table
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017522605A
Other languages
English (en)
Other versions
JP6672292B2 (ja
Inventor
タン,シャオペン
Original Assignee
アリババ グループ ホウルディング リミテッド
アリババ グループ ホウルディング リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アリババ グループ ホウルディング リミテッド, アリババ グループ ホウルディング リミテッド filed Critical アリババ グループ ホウルディング リミテッド
Publication of JP2017532690A publication Critical patent/JP2017532690A/ja
Application granted granted Critical
Publication of JP6672292B2 publication Critical patent/JP6672292B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

重複ウェブページを除去する方法および装置が開示される。例示的方法は、所定タイプの複数のウェブページを取得することと、現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することとを含み得る。本方法はまた、特徴コードがデータ表内に含まれるかどうかを判断するためにデータ表を参照することを含み得る。特徴コードがデータ表内に含まれる場合、本方法は、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出すことと、読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がある範囲内であるときに、現在のウェブページを廃棄することとをさらに含み得る。

Description

技術分野
本出願は、インターネット技術に関し、具体的には重複ウェブページを除去する方法および装置に関する。
背景
インターネット技術の発展と共に、インターネットは人々が様々な情報を取得するための重要なソースとなった。しかし、インターネット上の多くの情報は重複している。何十億または数百億のウェブページの中には、重複情報を有する大量のウェブページが存在し、情報処理を困難にする。したがって、重複ウェブページを除去することは極めて重要である。
現在の方法は、ウェブページ内の特徴コードを選択および比較することにより、重複ウェブページを除去することを含み得る。ウェブページの特徴コードにより重複ウェブページを除去する既存の方法は、定位点(locating point)として第1のウェブページ内のピリオド(文章の終わりを示す記号)を最初に選択することと、定位点の両側の一定数の漢字を特徴コードとして選択することとを含み得る。この方法はまた、同じ工程により第2のウェブページ内の別の特徴コードを取得することを含み得る。この方法は、これら2つのウェブページの特徴コードを比較することをさらに含み得る。2つのウェブページの特徴コードが同じであれば、この方法は第2のウェブページが重複ウェブページであると判断することと、重複する第2のウェブページを廃棄することとを含み得る。2つの特徴コードが異なれば、この方法は2つのウェブページが異なると判断することを含み得る。換言すれば、第2のウェブページは第1のウェブページからの複製ページではなない。
特徴コードに基づき重複ウェブページを除去する既存の方法の潜在的問題は、同じ特徴コードを有するが異なるコンテンツを有する2つのウェブページに対する誤判定をなし得ることである。例えば、第1のウェブページが数十の文字を有する詩を含むことがある。ユーザは、第1のウェブページのあるコンテンツを第2のウェブページ内に取り込み、自らの理解に従って数百の文字で上記詩について説明することがある。この説明はいかなるピリオドも含まないことがあり得る。重複ウェブページを除去する方法が特徴コードのみに基づけば、これらの2つのウェブページは同じウェブページであると判断され得る。しかし、2つのウェブページは異なるウェブページである。したがって、重複ウェブページを除去する上記方法の精度は高くないことがあり得る。加えて、上記方法において抽出される特徴コードは不正確であり得る。例えば、ユーザは、含まれたウェブページの表題または編集文内にピリオドを追加し得る。特徴コードが既存の方法に従って抽出される場合、オリジナルウェブページの特徴コードと、転送されたテキストを取り込むウェブページの特徴コードとは異なる。その結果、オリジナルウェブページと、転送されたテキストを取り込むウェブページとは異なるウェブページであると判断され得る。しかし、オリジナルウェブページのテキストと、転送されたテキストを取り込むウェブページのテキストとは同じであり得る。
概要
本出願は、関連技術における上記技術的問題の少なくとも1つをある程度解決することに向けられる。
本出願は、精度を著しく向上し、重複ウェブページを除去する誤判断率を低減し得る、重複ウェブページを除去する方法を提案することを目的とする。
本出願はまた、重複ウェブページを除去する装置を提案することを目的とする。
一態様では、本開示は、重複ウェブページを除去する方法に向けられる。本方法は、所定タイプの複数のウェブページを取得することを含み得る。本方法はまた、現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することを含み得る。本方法は、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表を参照することをさらに含み得る。特徴コードが含まれる場合、本方法は、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出し、かつ読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内であるときに、現在のウェブページを廃棄することを含み得る。
本出願の方法実施形態の1つは、所定タイプの複数のウェブページを取得することと、現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することと、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表を参照することとを含み得る。特徴コードが含まれる場合、本方法はまた、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出し、かつ読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内であるときに、現在のウェブページを廃棄することを含み得る。本方法実施形態は、ウェブページの特徴コードとウェブページ内に含まれるテキスト文字の数とに従って重複ウェブページを除去し得る。本方法実施形態は、特徴コードのみに基づき重複ウェブページを除去する既存の方法と比較して、精度を著しく向上し、重複ウェブページを除去する誤判断率を低減し得る。
別の態様では、本開示は重複ウェブページを除去する装置に向けられる。本装置は、所定タイプの複数のウェブページを取得するように構成される取得モジュールを含み得る。本装置はまた、第1の処理モジュールであって、現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することと、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表を参照することとを行うように構成される第1の処理モジュールを含み得る。特徴コードが含まれる場合、第1の処理モジュールは、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出し、かつ読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内であるときに、現在のウェブページを廃棄するように構成され得る。
本出願の装置実施形態の1つは、所定タイプの複数のウェブページを取得するように構成される取得モジュールを含み得る。本装置はまた、現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することと、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表を参照することとを行うように構成される第1の処理モジュールを含み得る。特徴コードが含まれる場合、第1の処理モジュールは、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出し、かつ読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内であるときに、現在のウェブページを廃棄するように構成され得る。本装置実施形態は、ウェブページの特徴コードとウェブページ内に含まれるテキスト文字の数とに従って重複ウェブページを除去し得る。本方法実施形態は、特徴コードのみに基づき重複ウェブページを除去する既存の方法と比較して、精度を著しく向上し、重複ウェブページを除去する誤判断率を低減し得る。
本出願の一実施形態による重複ウェブページを除去する例示的方法のフローチャートである。 本出願の一実施形態による例示的ウェブページの概略図である。 本出願の一実施形態による別の例示的ウェブページの概略図である。 本出願の一実施形態による重複ウェブページを除去するための例示的装置の構造的概略図である。 本出願の一実施形態による別の例示的重複ウェブページを除去する装置の構造的概略図である。
詳細な説明
本出願の実施形態について以下に詳細に説明する。これらの実施形態の例は添付図面に示される。同じまたは同様の参照番号により指定される同じまたは同様の要素は、同じまたは同様の機能を有し得る。添付図面を参照して説明されるこれらの実施形態は、単に例示的であり、本出願を説明するように意図されている。これらの実施形態は本出願を限定するものと解釈されてならない。
重複ウェブページを除去する方法および装置の実施形態は、以下の添付図面を参照して説明される。
図1は、本出願の一実施形態による重複ウェブページを除去する例示的方法のフローチャートである。図1に示すように、重複ウェブページを除去する方法は以下の工程を含む。
S101:所定タイプの複数のウェブページを取得する。
検索エンジンによってあるキーワードを検索した後、ユーザは、キーワードに関連する複数のウェブページを取得し、テキストを含むウェブページなど、所定タイプのウェブページを複数のウェブページから選択し得る。
S102:現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出し、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表を参照する。特徴コードが含まれる場合、本工程は、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出し、かつ読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内であるときに、現在のウェブページを廃棄することをさらに含む。
テキストを含むウェブページなどの所定タイプの複数のウェブページを取得した後、本方法は、取得されたウェブページ毎に現在のウェブページのテキスト内に含まれる段落を取得することを含み得る。本方法はまた、現在の段落のプリセット位置における第1のプリセット数のテキスト文字を段落毎に選択することと、段落のすべての選択されたテキスト文字を合成する文字ストリングに基づく計算により、特徴コードを生成することとを含み得る。
いくつかの実施形態では、本方法は、現在の段落の中心位置の左側および右側の第2のプリセット数のテキスト文字を選択することを含み得る。第2のプリセット数は第1のプリセット数の半分であり得、および第2のプリセット数は3〜8であり得る。いくつかの実施形態では、第2のプリセット数は、重複ウェブページを除去する能力を改善し、かつ特徴コードの格納スペースを低減するために、5に設定され得る。第1のプリセット数は、したがって10に設定され得る。
例えば、ウェブページは1つのみの段落を含み得、段落は1000の漢字を含み得る。上記方法は、段落の中心位置の左側および右側の5つの漢字をそれぞれ選択することを含み得る。したがって、本方法は、合計10の漢字を選択することを含み得る。これらの10の漢字は、情報理論におけるn字列(n-gram)文法の定義によると10次テキスト(10字列)と均等であり得る。これらの10の漢字の重複確率は、合計6753の漢字が存在することを考慮すると約1/(6753)10であり得る。換言すれば、このウェブページの特徴コードの重複確率は約1/(6753)10であり得る。したがって、各段落の中心位置において10文字を選択する方法は、ウェブページの特徴コードが異なることを効果的に保証し、ウェブページの特徴コードの精度を改善し得る。
いくつかの実施形態では、ウェブページ内のある段落内の文字の数が第1のプリセット数より小さければ、本方法は、特徴コードをいくつかの特定文字で補完することを含み得る。
いくつかの実施形態では、現在のウェブページの各段落から第1のプリセット数(例えば10)の文字を選択した後、本方法はまた、選択された文字をこれらの段落の順番に従って文字ストリングに合成することを含み得る。ウェブページが複製コンテンツを含むかどうかを判断するために迅速かつ効果的に文字ストリングを参照する目的のために、本方法は、文字ストリングに基づく計算により、特徴コードをウェブページ毎に生成することをさらに含み得る。いくつかの実施形態では、本方法は、各ウェブページに対応する文字ストリングをハッシュ関数により計算し、ハッシュ値に変換することを含み得る。各ウェブページのハッシュ値がウェブページの特徴コードとして使用される。
例えば、JAVA(登録商標)プログラムでは、文字ストリングを対応ハッシュ値に変換するためのハッシュ関数のコードは以下の通りである。
上記例では、ハッシュ関数は、文字ストリングの高次ビットに31を掛けて低次ビットを加算することを含む。JAVAにおける整数型の値範囲は−2147483648〜2147483647であり、最大40億の範囲をカバーする。したがって、異なる文字ストリング同士が同じハッシュ値に変換され得る可能性はかなり低い。換言すれば、異なるウェブページ同士が同じ特徴コードを有する可能性は極めて低い。したがって、ウェブページの抽出された特徴コードの精度は高い。
本方法は、ウェブページの特徴コードを取得する一方でウェブページのテキスト構造を考慮することを含み得る。例えば、本方法は、ウェブページのテキスト内の現在の段落のプリセット位置における第1のプリセット数のテキスト文字を段落毎に選択することを含み得る。本方法はまた、すべての段落の選択されたテキスト文字を文字ストリングに合成することと、文字ストリングに従って特徴コードを生成することとを含み得る。定位点としてピリオドを取る特徴コード抽出の既存の方法と比較して、この方法で得られる特徴コードの精度は高い。異なるウェブサイトは、転送情報を含む一方で異なる表題を追加および/または情報を編集し得る。異なるウェブサイトはまた、様々な方法でページを削除、修正、または情報を追加し得る。したがって、同じタイプのウェブページの特徴コードの精度を向上するために、本方法はまた、各ウェブページの特徴コードを抽出する一方で各ウェブページのテキスト内に含まれる文字の数を抽出することを含み得る。
現在のウェブページのテキスト内に含まれる特徴コードと文字の数とを抽出した後、本方法は、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表(例えばハッシュ表)を参照することを含み得る。換言すれば、本方法は、ハッシュ値がハッシュ表内に含まれるかどうかを参照することを含み得る。ハッシュ値がハッシュ表内に含まれれば、本方法は、ハッシュ値に対応するハッシュ表内のウェブページのテキスト文字の数を読み出し、かつ現在のウェブページのテキスト文字の数と比較することを含み得る。2つの数の差が0〜50などのプリセット範囲内であれば、本方法は、現在のウェブページを重複ウェブページとみなし、それを廃棄することを含み得る。
いくつかの実施形態では、ハッシュ表は、特徴コードを編成するための良好なデータ構造(ウェブページのキーコード値または特徴コードを表の位置にマッピングすることにより記録が参照され得る)であり得る。これは参照の速度を加速し得る。ハッシュ表は、効率的検索能力を有し、動的データ格納およびアクセスを支援し得る。
例えば、プリセット範囲は0〜50に設定され得る。ハッシュ表が図3に示すようなウェブページに対応するハッシュ値とウェブページ内に含まれるテキスト文字の数とを格納していると仮定する。図4に示すウェブページの特徴コードとウェブページ内に含まれるテキスト文字の数とを抽出した後、本方法は、ハッシュ表を参照することと、図4に示すウェブページの特徴コードが図3に示すウェブページのものと同じであると判断することとを含み得る。この場合、本方法は、ハッシュ表内のハッシュに対応するウェブページのテキスト文字の数を読み出すことを含み得る。これは、図3に示すウェブページ内に含まれるテキスト文字の数である。本方法は、図4に示すウェブページのテキスト文字の数と図3に示すウェブページのテキスト文字の数との差を計算し、差が18であるという事実を取得することをさらに含み得る。2つのウェブページのテキスト文字の2つの数の差はプリセット範囲内である。したがって、本方法は、図4および図3に示すウェブページが同じウェブページであるとみなし、図4に示すウェブページを廃棄することを含み得る。
いくつかの実施形態では、本方法は、特徴コードがデータ表内に含まれていないときに、現在のウェブページの抽出された特徴コードと抽出されたテキスト文字の数との対応関係をデータ表内に書き込むことを含み得る。
いくつかの実施形態では、本方法は、読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内にないときに、現在のウェブページの抽出された特徴コードと抽出されたテキスト文字の数との対応関係をデータ表内に書き込むことを含み得る。
特徴コードのみに基づく既存の重複ウェブページを除去する方法と比較して、本出願の方法は、2つのウェブページの特徴コードを比較することだけでなく、2つのウェブページのテキスト文字の数の差を比較することも含み得る。したがって、本出願の方法は、同じ特徴コードであるが異なる数のテキスト文字を有するウェブページに関する誤判断率を効果的に低減し得る。さらに、本出願の方法は、従来技術のものと異なる特徴コード抽出の方式を採用し得る。本出願の方法は、同じ特徴コードであるが若干異なる数のテキスト文字を有するウェブページに関する誤判断率を効果的に低減し得る。したがって、重複ウェブページを除去する精度が改善される。
例えば、プリセット範囲は0〜50に設定され得る。現在のウェブページのテキスト文字の数は4900であり得る。現在のウェブページに対応する特徴コードはハッシュ表内に存在し得、特徴コードに対応するウェブページのテキスト文字の数はハッシュ表内の5000であり得る。この場合、本方法は、現在のウェブページと、ハッシュ表内のウェブページとの間のテキスト文字の数の差の絶対値を100として取得することを含み得る。数の差のこのような絶対値はプリセット範囲内にない。したがって、本方法は、現在のウェブページが重複ウェブページではないとみなすことを含み得る。いくつかの実施形態では、本方法は、現在のウェブページの抽出された特徴コードと抽出されたテキスト文字の数との対応関係をハッシュ表内に書き込むことを含み得る。
別の例として、検索エンジンが、キーワードに関連する10のウェブページを取得し得る。それらのうちの3つは同じコンテンツを有するウェブページである。本方法は、これらの10のウェブページの特徴コードと10のウェブページ内に含まれるテキスト文字の数とをそれぞれ抽出することを含み得る。本方法はまた、ハッシュ表に従ってこれらの10のウェブページの中から重複ウェブページを除去することを含み得る。本方法は、重複ウェブページを除去する過程でハッシュ表を確立することを含み得る。ハッシュ表が確立されると、対応する重複ウェブページを除去することは終了する。これら10のウェブページの中から同じウェブページが除去されることになる。本方法は、特徴コードに従って検索システムを確立することと、ウェブページを参照することと、検索システムに従って重複ウェブページを除去することとを含み得る。このようにして重複ウェブページを除去することに基づき、本方法は、重複ウェブページを除去する効率を向上し得る。
一例では5万のウェブページが取得され得る。上記方法は、これらの5万のウェブページの重複ウェブページを除去することを含み得る。本方法により重複ウェブページを除去する精度を評価するための1つの手法は、手動無作為抽出を含み得る。例えば、6人がこのような評価のために50の重複ウェブページを無作為に選択し得る。重複ウェブページを除去した結果を表1に示す。
表1内のエラーの数は、上記方法により除去できないことがあり得る同じウェブページの数を表し得る。いくつかの計算により、表1内の重複ウェブページを除去する精度は96.7%である。
特徴コードのみに基づく既存の方法が同じ50のウェブページの重複ウェブページを除去するために適用された場合の、重複ウェブページを除去した結果が表2に示される。
いくつかの計算により、表2内の重複ウェブページを除去する精度は90.37%である。表1と表2との精度値を比較することにより、上記方法の重複ウェブページを除去する精度は、特徴コードのみに基づく既存の方法より高い。
本出願の方法は、所定タイプの複数のウェブページを取得することと、現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することと、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表を参照することとを含み得る。特徴コードが含まれる場合、本方法はまた、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出し、かつ読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内であるときに、現在のウェブページを廃棄することを含み得る。本方法実施形態は、ウェブページの特徴コードとウェブページ内に含まれるテキスト文字の数とに従って重複ウェブページを除去し得る。本方法実施形態は、特徴コードのみに基づき重複ウェブページを除去する既存の方法と比較して、精度を著しく向上し、重複ウェブページを除去する誤判断率を低減し得る。
本出願はまた、上記実施形態を実施するために重複ウェブページを除去する装置を提案する。
図4は、本出願の一実施形態による重複ウェブページを除去する例示的装置の構造的概略図である。図4に示すように、本装置は、取得モジュール100と第1の処理モジュール200とを含み得る。
取得モジュール100は、所定タイプの複数のウェブページを取得するように構成され得る。第1の処理モジュール200は、現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出するように構成され得る。第1の処理モジュール200はまた、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表を参照するように構成され得る。特徴コードが含まれる場合、第1の処理モジュール200は、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出し、かつ読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内であるときに、現在のウェブページを廃棄するようにさらに構成され得る。
いくつかの実施形態では、複数のタイプのウェブページが存在し得る。取得モジュール100は、テキストを含むウェブページなど、複数のウェブページから所定タイプのウェブページを取得するように構成され得る。
いくつかの実施形態では、第1の処理モジュール200は、現在のウェブページのテキスト内に含まれる段落を取得するように構成され得る。第1の処理モジュール200はまた、現在の段落のプリセット位置における第1のプリセット数のテキスト文字を段落毎に選択するように構成され得る。第1の処理モジュール200は、段落のすべての選択されたテキスト文字を合成する文字ストリングに基づく計算により、特徴コードを生成するようにさらに構成され得る。
いくつかの実施形態では、第1の処理モジュール200は、各ウェブページに対応する文字ストリングをハッシュ関数によりハッシュ値に変換し、ハッシュ値をウェブページの特徴コードとして使用するように構成され得る。
いくつかの実施形態では、第1の処理モジュール200は、現在の段落の中心位置の左側および右側の第2のプリセット数のテキスト文字を選択するように構成され得る。第2のプリセット数は第1のプリセット数の半分であり得、および第2のプリセット数は3〜8に設定され得る。重複ウェブページを除去する能力を向上させると共に特徴コードの格納スペースを低減するために、第1の処理モジュール200は、第2のプリセット数を5に設定するように構成され得る。第1のプリセット数は、したがって10に設定され得る。
いくつかの実施形態では、ウェブページ内のある段落内の文字の数が第1のプリセット数より小さければ、第1の処理モジュール200は、特徴コードをいくつかの特定文字で補完するように構成され得る。
いくつかの実施形態では、上記データ表はハッシュ表であり得る。ハッシュ表は、特徴コードを編成するための良好なデータ構造(ウェブページのキーコード値または特徴コードを表の位置にマッピングすることにより記録が参照され得る)であり得る。これは参照の速度を加速し得る。ハッシュ表は、効率的検索能力を有し得、動的データ格納およびアクセスを支援し得る。
図5に示すように、本装置は、第2の処理モジュール300をさらに含み得る。第2の処理モジュール300は、特徴コードがその中に含まれるかどうかを判断するために第1の処理モジュール200がプリセットデータ表を参照した後、特徴コードがデータ表内に含まれていない場合に、現在のウェブページの抽出された特徴コードと抽出されたテキスト文字の数との対応関係をデータ表内に書き込むように構成され得る。
いくつかの実施形態では、本装置は、第3の処理モジュール400をさらに含み得る。第3の処理モジュール400は、読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内にないときに、現在のウェブページの抽出された特徴コードと抽出されたテキスト文字の数との対応関係をデータ表内に書き込むように構成され得る。
いくつかの実施形態では、プリセットデータ表(例えばハッシュ表)から読み出されたテキスト文字の数と現在のウェブページの抽出されたテキスト文字の数との差がプリセット範囲より小さいことがあり得る。例えば、プリセット範囲は0〜50に設定され得、2つのウェブページの差は120である。第3の処理モジュール400は、現在のウェブページの抽出された特徴コードと抽出されたテキスト文字の数との対応関係をデータ表内に書き込むように構成され得る。
重複ウェブページを除去する装置は、所定タイプの複数のウェブページを取得するように構成される取得モジュールを含み得る。本装置はまた、現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することと、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表を参照することとを行うように構成される第1の処理モジュールを含み得る。特徴コードが含まれる場合、第1の処理モジュールは、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出し、かつ読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内であるときに、現在のウェブページを廃棄するように構成され得る。本装置実施形態は、ウェブページの特徴コードとウェブページ内に含まれるテキスト文字の数とに従って重複ウェブページを除去し得る。本装置実施形態は、特徴コードのみに基づき重複ウェブページを除去する既存の方法と比較して、精度を著しく向上し、重複ウェブページを除去する誤判断率を低減し得る。
本出願では、参照語「実施形態」、「いくつかの実施形態」、「例」、「特定の例」、「いくつかの例」等は、実施形態または例において説明された特定の特徴、構造、材料または特性が本出願の少なくとも1つの実施形態または例に含まれることを意味する。上記用語の例示的表現は、同じ実施形態または例に必ずしも適用されない。加えて、説明された特定の特徴、構造、材料または特性は、任意の1つまたは複数の実施形態または例において好適な方法で組み合わせられ得る。さらに、矛盾がない限り、当業者は、本出願内の様々な実施形態または例と様々な実施形態または例の特徴とを組み合わせ得る。
加えて、用語「第1」、「第2」は、説明目的のためにのみ使用されており、相対的重要性を示すもしくは意味するか、または示された技術的特徴の数を暗黙的に示すと解釈されるべきではない。したがって、用語「第1」、「第2」により定義される特徴は、特徴のうちの少なくとも1つが含まれることを明示的または暗黙的に示し得る。本出願において、用語「複数」の意味は、別途特に定義しない限り少なくとも2つ(2つ、3つ等)である。
フローチャートでまたは他に説明されたいかなる処理または方法も、特定の論理機能または処理工程を実施するための1つまたは複数の実行可能命令を含むコードモジュール、セグメントまたは部分を表すと理解されるべきであり、本出願の好ましい実施形態の範囲は他の実施形態を含み得る。機能は、示されたまたは論述された順番ではなく(ほぼ同時または逆順を含む)実行され得る。これは当業者により理解されるべきである。
フローチャートでまたは他に説明される論理および/または工程(例えば論理機能を実施するための実行可能命令の順序リスト)は、命令実行システム装置またはデバイス(コンピュータベースシステム、プロセッサを含むシステム、または命令実行システム、装置またはデバイスから命令を読み出し、実行し得る他のシステムなど)を利用するための任意のコンピュータ可読媒体内に、または使用するためにそれらの組み合わせで実装され得る。本出願では、「コンピュータ可読媒体」は、命令実行システム、装置、またはデバイスのプログラムを含む、格納する、伝達する、伝播する、または送信する任意の装置、または使用するためにそれらを組み合わせたものであり得る。コンピュータ可読媒体のより詳細な例は、限定しないが、以下のものを含み得る:1つまたは複数の接続線を有する電気コネクタ(電子装置)、携帯型コンピュータディスクドライブ(磁気装置)、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ装置、および携帯コンパクトディスク読み取り専用メモリ(CDROM)。加えて、コンピュータ可読媒体は、プログラムが印刷され得る紙または別の好適な媒体ですらあり得る。プログラムは、紙または他の媒体を光学的に走査し、編集し、解釈し、または必要に応じて他の処理をすることにより電子的方法で取得され、コンピュータメモリ内に格納され得る。
本出願で説明された各要素は、ハードウェア、ソフトウェア、ファームウェアまたはそれらの組み合せにより実装され得る。上記実施形態では、複数の工程または方法は、メモリ内に格納されるソフトウェアまたはファームウェアで実装され、好適な命令実行システムにより実行され得る。例えば、ハードウェア実装は、別の実施形態におけるものと同じであり、当該技術分野において周知の以下の技術のうちの任意の1つまたはそれらの組み合せで実装され得る:データ信号の論理機能を実施する論理ゲート回路を有する個別論理回路、好適な組み合わせ論理ゲート回路を有する専用集積回路、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)等。
当業者は、上記実施形態方法を実施するためのすべてまたはいくつかの工程が、コンピュータ可読記憶媒体内に格納され得るプログラムを介して関連ハードウェアに指示することにより完了され得ることを理解し得る。実行されると、実施形態は本方法実施形態の工程の1つまたは複数の工程の組み合わせを含み得る。
加えて、本出願の各実施形態のすべての機能ユニットは、1つの処理モジュールへ統合され得るか、または各ユニットは別個に物理的に存在し得る。2つ以上のユニットが1つのモジュールへ統合され得ることも可能である。上記統合モジュールは、ハードウェアまたはソフトウェア機能モジュールにより実装され得る。統合モジュールはまた、ソフトウェア機能モジュールにより実装される際にコンピュータ可読記憶媒体内に格納され、別個の製品として販売または使用され得る。
上記記憶媒体は、読み取り専用メモリ、磁気ディスク、光ディスク等であり得る。本出願の実施形態は上に示され説明されたが、上記実施形態は例示的であり、本出願に対する限定と解釈されるべきではないことを理解すべきである。当業者は、本出願の範囲内で上記実施形態を変更、修正、置換、または改変し得る。
例えば、プリセット範囲は0〜50に設定され得る。ハッシュ表が図2に示すようなウェブページに対応するハッシュ値とウェブページ内に含まれるテキスト文字の数とを格納していると仮定する。図3に示すウェブページの特徴コードとウェブページ内に含まれるテキスト文字の数とを抽出した後、本方法は、ハッシュ表を参照することと、図3に示すウェブページの特徴コードが図2に示すウェブページのものと同じであると判断することとを含み得る。この場合、本方法は、ハッシュ表内のハッシュに対応するウェブページのテキスト文字の数を読み出すことを含み得る。これは、図2に示すウェブページ内に含まれるテキスト文字の数である。本方法は、図3に示すウェブページのテキスト文字の数と図2に示すウェブページのテキスト文字の数との差を計算し、差が18であるという事実を取得することをさらに含み得る。2つのウェブページのテキスト文字の2つの数の差はプリセット範囲内である。したがって、本方法は、図3および図2に示すウェブページが同じウェブページであるとみなし、図3に示すウェブページを廃棄することを含み得る。

Claims (12)

  1. 重複ウェブページを除去する方法であって、
    所定タイプの複数のウェブページを取得することと、
    現在のウェブページの特徴コードと前記現在のウェブページ内に含まれるテキスト文字の数とを抽出することと、
    前記特徴コードがデータ表内に含まれるかどうかを判断するために前記データ表を参照することと、
    前記特徴コードが前記データ表内に含まれる場合に、前記特徴コードに対応する前記データ表内で参照される前記ウェブページのテキスト文字の数を読み出し、かつ前記読み出されたテキスト文字の数と前記抽出されたテキスト文字の数との差がある範囲内であるときに、前記現在のウェブページを廃棄することと
    を含む方法。
  2. 前記特徴コードが前記データ表内に含まれるかどうかを判断するために前記データ表を参照した後、前記特徴コードが前記データ表内に含まれていない場合に、前記現在のウェブページの前記抽出された特徴コードと前記抽出されたテキスト文字の数との対応関係を前記データ表内に書き込むことをさらに含む、請求項1に記載の方法。
  3. 前記読み出されたテキスト文字の数と前記抽出されたテキスト文字の数との差が前記範囲内にないときに、前記現在のウェブページの前記抽出された特徴コードと前記抽出されたテキスト文字の数との対応関係を前記データ表内に書き込むことをさらに含む、請求項1に記載の方法。
  4. 前記現在のウェブページの前記特徴コードを抽出することは、
    前記現在のウェブページの前記テキスト内に含まれる段落を取得することと、
    段落毎に、現在の段落の位置における第1の数のテキスト文字を選択することと、
    前記段落のすべての前記選択されたテキスト文字を合成する文字ストリングに基づく計算により、前記特徴コードを生成することと
    を含む、請求項1〜3のいずれか一項に記載の方法。
  5. 前記現在の段落の前記位置における前記第1の数のテキスト文字を選択することは、前記現在の段落の中心位置の左側および右側の第2の数のテキスト文字を選択することを含み、前記第2の数は前記第1の数の半分であり、および前記第2の数は3〜8である、請求項4に記載の方法。
  6. 前記第2の数は5である、請求項5に記載の方法。
  7. 重複ウェブページを除去する装置であって、
    所定タイプの複数のウェブページを取得するように構成される取得モジュールと、
    第1の処理モジュールであって、
    現在のウェブページの特徴コードと前記現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することと、
    前記特徴コードがデータ表内に含まれるかどうかを判断するために前記データ表を参照することと、
    前記特徴コードが前記データ表内に含まれる場合に、前記特徴コードに対応する前記データ表内で参照される前記ウェブページのテキスト文字の数を読み出し、かつ前記読み出されたテキスト文字の数と前記抽出されたテキスト文字の数との差がある範囲内であるときに、前記現在のウェブページを廃棄することと
    を行うように構成される第1の処理モジュールと
    を含む装置。
  8. 前記特徴コードが前記データ表内に含まれるかどうかを判断するために前記データ表を参照した後、前記特徴コードが前記データ表内に含まれていない場合に、前記現在のウェブページの前記抽出された特徴コードと前記抽出されたテキスト文字の数との対応関係を前記データ表内に書き込むように構成される第2の処理モジュールをさらに含む、請求項7に記載の装置。
  9. 前記読み出されたテキスト文字の数と前記抽出されたテキスト文字の数との差が前記範囲内にないときに、前記現在のウェブページの前記抽出された特徴コードと前記抽出されたテキスト文字の数との対応関係を前記データ表内に書き込むように構成される第3の処理モジュールをさらに含む、請求項7に記載の装置。
  10. 前記第1の処理モジュールは、
    前記現在のウェブページの前記テキスト内に含まれる段落を取得することと、
    段落毎に、現在の段落の位置における第1の数のテキスト文字を選択することと、
    前記段落のすべての前記選択されたテキスト文字を合成する文字ストリングに基づく計算により、前記特徴コードを生成することと
    を行うように構成される、請求項7〜9のいずれか一項に記載の装置。
  11. 前記第1の処理モジュールは、前記現在の段落の中心位置の左側および右側の第2の数のテキスト文字を選択するように構成され、前記第2の数は前記第1の数の半分であり、および前記第2の数は3〜8である、請求項10に記載の装置。
  12. 前記第2の数は5である、請求項11に記載の装置。
JP2017522605A 2014-10-30 2015-10-22 重複ウェブページを除去する方法および装置 Active JP6672292B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410599140.5 2014-10-30
CN201410599140.5A CN105630802A (zh) 2014-10-30 2014-10-30 网页去重方法及装置
PCT/CN2015/092510 WO2016066043A1 (zh) 2014-10-30 2015-10-22 网页去重方法及装置

Publications (2)

Publication Number Publication Date
JP2017532690A true JP2017532690A (ja) 2017-11-02
JP6672292B2 JP6672292B2 (ja) 2020-03-25

Family

ID=55856595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017522605A Active JP6672292B2 (ja) 2014-10-30 2015-10-22 重複ウェブページを除去する方法および装置

Country Status (7)

Country Link
US (1) US10691769B2 (ja)
EP (1) EP3214557B1 (ja)
JP (1) JP6672292B2 (ja)
KR (1) KR102179855B1 (ja)
CN (1) CN105630802A (ja)
SG (1) SG11201703563SA (ja)
WO (1) WO2016066043A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630802A (zh) 2014-10-30 2016-06-01 阿里巴巴集团控股有限公司 网页去重方法及装置
US20180107580A1 (en) * 2016-10-14 2018-04-19 Microsoft Technology Licensing, Llc Metadata enabled comparison of user interfaces
CN106527876A (zh) * 2016-11-10 2017-03-22 广东工业大学 一种统计网页字数的方法及***
CN108205810B (zh) * 2016-12-16 2021-08-10 富士通株式会社 图像比较装置及方法、电子设备
CN107729343A (zh) * 2017-07-24 2018-02-23 上海壹账通金融科技有限公司 资源提取方法、计算机可读存储介质及电子设备
CN109033385B (zh) * 2018-07-27 2021-08-27 百度在线网络技术(北京)有限公司 图片检索方法、装置、服务器及存储介质
CN109103953B (zh) * 2018-08-23 2021-07-20 广州市香港科大***研究院 一种电池组主动均衡控制方法、***及装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6421675B1 (en) * 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
KR100406671B1 (ko) * 2000-07-24 2003-11-21 주식회사 유니마이다스 문장 표절 및 도용 검색 방법
US6778986B1 (en) * 2000-07-31 2004-08-17 Eliyon Technologies Corporation Computer method and apparatus for determining site type of a web site
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
US7698317B2 (en) * 2007-04-20 2010-04-13 Yahoo! Inc. Techniques for detecting duplicate web pages
CN101102316A (zh) * 2007-06-22 2008-01-09 腾讯科技(深圳)有限公司 一种网页去重的方法及***
CN101499098B (zh) * 2009-03-04 2012-07-11 阿里巴巴集团控股有限公司 一种网页评估值的确定及运用的方法、***
CN101645082B (zh) * 2009-04-17 2011-04-20 华中科技大学 基于并行编程模式的相似网页去重***
KR20100115048A (ko) * 2009-04-17 2010-10-27 정원석 복사 문서 판별 시스템 및 그 방법
KR20120124581A (ko) * 2011-05-04 2012-11-14 엔에이치엔(주) 개선된 유사 문서 탐지 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN102799647B (zh) * 2012-06-30 2015-01-21 华为技术有限公司 网页去重方法和设备
CN103559259A (zh) * 2013-11-04 2014-02-05 同济大学 基于云平台的消除近似重复网页方法
CN103646078B (zh) * 2013-12-11 2017-01-25 北京启明星辰信息安全技术有限公司 一种实现互联网宣传监测目标评估的方法及装置
CN105630802A (zh) 2014-10-30 2016-06-01 阿里巴巴集团控股有限公司 网页去重方法及装置
US11843679B2 (en) * 2015-07-27 2023-12-12 Wp Company Llc Automated dependency management based on page components

Also Published As

Publication number Publication date
SG11201703563SA (en) 2017-06-29
EP3214557A1 (en) 2017-09-06
US20170235746A1 (en) 2017-08-17
EP3214557A4 (en) 2017-09-06
US10691769B2 (en) 2020-06-23
JP6672292B2 (ja) 2020-03-25
KR102179855B1 (ko) 2020-11-18
EP3214557B1 (en) 2019-02-20
KR20170078777A (ko) 2017-07-07
WO2016066043A1 (zh) 2016-05-06
CN105630802A (zh) 2016-06-01

Similar Documents

Publication Publication Date Title
JP6672292B2 (ja) 重複ウェブページを除去する方法および装置
US10831793B2 (en) Learning thematic similarity metric from article text units
JP5534280B2 (ja) テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム
CN102053991B (zh) 用于多语言文档检索的方法及***
US9224103B1 (en) Automatic annotation for training and evaluation of semantic analysis engines
Goldin Heng Xian and the problem of studying looted artifacts
KR100880531B1 (ko) 단일 데이터 검색을 위한 파일 생성 방법 및 단일 데이터파일의 검색방법 그리고 단일 파일 검색을 위한 rat파일이 저장된 기록매체
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
JP2007164453A5 (ja)
CN109472017B (zh) 获得待生成裁判文书本院认为段相关信息的方法及装置
Laurenson Performance analysis of file carving tools
CN104268192A (zh) 一种网页信息提取方法、装置及终端
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
US20140309984A1 (en) Generating a regular expression for entity extraction
US20160154785A1 (en) Optimizing generation of a regular expression
KR20150081994A (ko) 전자문서 기반 지식 구축 방법 및 장치
CN110866407B (zh) 确定互译文本及文本间相似度分析方法、装置及设备
CN115687566A (zh) 一种全文检索及显示检索结果的方法及装置
KR101698280B1 (ko) 태그에 대한 웹 페이지 검색 장치 및 방법
US20170060998A1 (en) Method and apparatus for mining maximal repeated sequence
CN113434413A (zh) 基于数据差异的数据测试方法、装置、设备及存储介质
JP2010092108A (ja) 類似文章抽出プログラム、方法、装置
CN110543622A (zh) 文本相似度检测方法、装置、电子设备及可读存储介质
KR20150134645A (ko) 저자명 명확화 장치 및 그 방법 및 그 방법을 컴퓨터로 판독할 수 있도록 기록한 기록매체
BR112012013256B1 (pt) método para gerar o resultado de uma pesquisa executada utilizando uma máquina de pesquisa

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170627

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190814

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200304

R150 Certificate of patent or registration of utility model

Ref document number: 6672292

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250