JP2017532690A

JP2017532690A - 重複ウェブページを除去する方法および装置

Info

Publication number: JP2017532690A
Application number: JP2017522605A
Authority: JP
Inventors: タン，シャオペン
Original assignee: アリババグループホウルディングリミテッド
Priority date: 2014-10-30
Filing date: 2015-10-22
Publication date: 2017-11-02
Anticipated expiration: 2035-10-22
Also published as: SG11201703563SA; EP3214557A1; US20170235746A1; EP3214557A4; US10691769B2; JP6672292B2; KR102179855B1; EP3214557B1; KR20170078777A; WO2016066043A1; CN105630802A

Abstract

重複ウェブページを除去する方法および装置が開示される。例示的方法は、所定タイプの複数のウェブページを取得することと、現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することとを含み得る。本方法はまた、特徴コードがデータ表内に含まれるかどうかを判断するためにデータ表を参照することを含み得る。特徴コードがデータ表内に含まれる場合、本方法は、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出すことと、読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がある範囲内であるときに、現在のウェブページを廃棄することとをさらに含み得る。

Description

技術分野
本出願は、インターネット技術に関し、具体的には重複ウェブページを除去する方法および装置に関する。

背景
インターネット技術の発展と共に、インターネットは人々が様々な情報を取得するための重要なソースとなった。しかし、インターネット上の多くの情報は重複している。何十億または数百億のウェブページの中には、重複情報を有する大量のウェブページが存在し、情報処理を困難にする。したがって、重複ウェブページを除去することは極めて重要である。

現在の方法は、ウェブページ内の特徴コードを選択および比較することにより、重複ウェブページを除去することを含み得る。ウェブページの特徴コードにより重複ウェブページを除去する既存の方法は、定位点（locating point）として第１のウェブページ内のピリオド（文章の終わりを示す記号）を最初に選択することと、定位点の両側の一定数の漢字を特徴コードとして選択することとを含み得る。この方法はまた、同じ工程により第２のウェブページ内の別の特徴コードを取得することを含み得る。この方法は、これら２つのウェブページの特徴コードを比較することをさらに含み得る。２つのウェブページの特徴コードが同じであれば、この方法は第２のウェブページが重複ウェブページであると判断することと、重複する第２のウェブページを廃棄することとを含み得る。２つの特徴コードが異なれば、この方法は２つのウェブページが異なると判断することを含み得る。換言すれば、第２のウェブページは第１のウェブページからの複製ページではなない。

特徴コードに基づき重複ウェブページを除去する既存の方法の潜在的問題は、同じ特徴コードを有するが異なるコンテンツを有する２つのウェブページに対する誤判定をなし得ることである。例えば、第１のウェブページが数十の文字を有する詩を含むことがある。ユーザは、第１のウェブページのあるコンテンツを第２のウェブページ内に取り込み、自らの理解に従って数百の文字で上記詩について説明することがある。この説明はいかなるピリオドも含まないことがあり得る。重複ウェブページを除去する方法が特徴コードのみに基づけば、これらの２つのウェブページは同じウェブページであると判断され得る。しかし、２つのウェブページは異なるウェブページである。したがって、重複ウェブページを除去する上記方法の精度は高くないことがあり得る。加えて、上記方法において抽出される特徴コードは不正確であり得る。例えば、ユーザは、含まれたウェブページの表題または編集文内にピリオドを追加し得る。特徴コードが既存の方法に従って抽出される場合、オリジナルウェブページの特徴コードと、転送されたテキストを取り込むウェブページの特徴コードとは異なる。その結果、オリジナルウェブページと、転送されたテキストを取り込むウェブページとは異なるウェブページであると判断され得る。しかし、オリジナルウェブページのテキストと、転送されたテキストを取り込むウェブページのテキストとは同じであり得る。

概要
本出願は、関連技術における上記技術的問題の少なくとも１つをある程度解決することに向けられる。

本出願は、精度を著しく向上し、重複ウェブページを除去する誤判断率を低減し得る、重複ウェブページを除去する方法を提案することを目的とする。

本出願はまた、重複ウェブページを除去する装置を提案することを目的とする。

一態様では、本開示は、重複ウェブページを除去する方法に向けられる。本方法は、所定タイプの複数のウェブページを取得することを含み得る。本方法はまた、現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することを含み得る。本方法は、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表を参照することをさらに含み得る。特徴コードが含まれる場合、本方法は、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出し、かつ読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内であるときに、現在のウェブページを廃棄することを含み得る。

本出願の方法実施形態の１つは、所定タイプの複数のウェブページを取得することと、現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することと、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表を参照することとを含み得る。特徴コードが含まれる場合、本方法はまた、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出し、かつ読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内であるときに、現在のウェブページを廃棄することを含み得る。本方法実施形態は、ウェブページの特徴コードとウェブページ内に含まれるテキスト文字の数とに従って重複ウェブページを除去し得る。本方法実施形態は、特徴コードのみに基づき重複ウェブページを除去する既存の方法と比較して、精度を著しく向上し、重複ウェブページを除去する誤判断率を低減し得る。

別の態様では、本開示は重複ウェブページを除去する装置に向けられる。本装置は、所定タイプの複数のウェブページを取得するように構成される取得モジュールを含み得る。本装置はまた、第１の処理モジュールであって、現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することと、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表を参照することとを行うように構成される第１の処理モジュールを含み得る。特徴コードが含まれる場合、第１の処理モジュールは、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出し、かつ読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内であるときに、現在のウェブページを廃棄するように構成され得る。

本出願の装置実施形態の１つは、所定タイプの複数のウェブページを取得するように構成される取得モジュールを含み得る。本装置はまた、現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することと、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表を参照することとを行うように構成される第１の処理モジュールを含み得る。特徴コードが含まれる場合、第１の処理モジュールは、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出し、かつ読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内であるときに、現在のウェブページを廃棄するように構成され得る。本装置実施形態は、ウェブページの特徴コードとウェブページ内に含まれるテキスト文字の数とに従って重複ウェブページを除去し得る。本方法実施形態は、特徴コードのみに基づき重複ウェブページを除去する既存の方法と比較して、精度を著しく向上し、重複ウェブページを除去する誤判断率を低減し得る。

本出願の一実施形態による重複ウェブページを除去する例示的方法のフローチャートである。本出願の一実施形態による例示的ウェブページの概略図である。本出願の一実施形態による別の例示的ウェブページの概略図である。本出願の一実施形態による重複ウェブページを除去するための例示的装置の構造的概略図である。本出願の一実施形態による別の例示的重複ウェブページを除去する装置の構造的概略図である。

詳細な説明
本出願の実施形態について以下に詳細に説明する。これらの実施形態の例は添付図面に示される。同じまたは同様の参照番号により指定される同じまたは同様の要素は、同じまたは同様の機能を有し得る。添付図面を参照して説明されるこれらの実施形態は、単に例示的であり、本出願を説明するように意図されている。これらの実施形態は本出願を限定するものと解釈されてならない。

重複ウェブページを除去する方法および装置の実施形態は、以下の添付図面を参照して説明される。

図１は、本出願の一実施形態による重複ウェブページを除去する例示的方法のフローチャートである。図１に示すように、重複ウェブページを除去する方法は以下の工程を含む。

Ｓ１０１：所定タイプの複数のウェブページを取得する。

検索エンジンによってあるキーワードを検索した後、ユーザは、キーワードに関連する複数のウェブページを取得し、テキストを含むウェブページなど、所定タイプのウェブページを複数のウェブページから選択し得る。

Ｓ１０２：現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出し、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表を参照する。特徴コードが含まれる場合、本工程は、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出し、かつ読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内であるときに、現在のウェブページを廃棄することをさらに含む。

テキストを含むウェブページなどの所定タイプの複数のウェブページを取得した後、本方法は、取得されたウェブページ毎に現在のウェブページのテキスト内に含まれる段落を取得することを含み得る。本方法はまた、現在の段落のプリセット位置における第１のプリセット数のテキスト文字を段落毎に選択することと、段落のすべての選択されたテキスト文字を合成する文字ストリングに基づく計算により、特徴コードを生成することとを含み得る。

いくつかの実施形態では、本方法は、現在の段落の中心位置の左側および右側の第２のプリセット数のテキスト文字を選択することを含み得る。第２のプリセット数は第１のプリセット数の半分であり得、および第２のプリセット数は３〜８であり得る。いくつかの実施形態では、第２のプリセット数は、重複ウェブページを除去する能力を改善し、かつ特徴コードの格納スペースを低減するために、５に設定され得る。第１のプリセット数は、したがって１０に設定され得る。

例えば、ウェブページは１つのみの段落を含み得、段落は１０００の漢字を含み得る。上記方法は、段落の中心位置の左側および右側の５つの漢字をそれぞれ選択することを含み得る。したがって、本方法は、合計１０の漢字を選択することを含み得る。これらの１０の漢字は、情報理論におけるｎ字列（n-gram）文法の定義によると１０次テキスト（１０字列）と均等であり得る。これらの１０の漢字の重複確率は、合計６７５３の漢字が存在することを考慮すると約１／（６７５３）^１０であり得る。換言すれば、このウェブページの特徴コードの重複確率は約１／（６７５３）^１０であり得る。したがって、各段落の中心位置において１０文字を選択する方法は、ウェブページの特徴コードが異なることを効果的に保証し、ウェブページの特徴コードの精度を改善し得る。

いくつかの実施形態では、ウェブページ内のある段落内の文字の数が第１のプリセット数より小さければ、本方法は、特徴コードをいくつかの特定文字で補完することを含み得る。

いくつかの実施形態では、現在のウェブページの各段落から第１のプリセット数（例えば１０）の文字を選択した後、本方法はまた、選択された文字をこれらの段落の順番に従って文字ストリングに合成することを含み得る。ウェブページが複製コンテンツを含むかどうかを判断するために迅速かつ効果的に文字ストリングを参照する目的のために、本方法は、文字ストリングに基づく計算により、特徴コードをウェブページ毎に生成することをさらに含み得る。いくつかの実施形態では、本方法は、各ウェブページに対応する文字ストリングをハッシュ関数により計算し、ハッシュ値に変換することを含み得る。各ウェブページのハッシュ値がウェブページの特徴コードとして使用される。

例えば、JAVA（登録商標）プログラムでは、文字ストリングを対応ハッシュ値に変換するためのハッシュ関数のコードは以下の通りである。

上記例では、ハッシュ関数は、文字ストリングの高次ビットに３１を掛けて低次ビットを加算することを含む。JAVAにおける整数型の値範囲は−２１４７４８３６４８〜２１４７４８３６４７であり、最大４０億の範囲をカバーする。したがって、異なる文字ストリング同士が同じハッシュ値に変換され得る可能性はかなり低い。換言すれば、異なるウェブページ同士が同じ特徴コードを有する可能性は極めて低い。したがって、ウェブページの抽出された特徴コードの精度は高い。

本方法は、ウェブページの特徴コードを取得する一方でウェブページのテキスト構造を考慮することを含み得る。例えば、本方法は、ウェブページのテキスト内の現在の段落のプリセット位置における第１のプリセット数のテキスト文字を段落毎に選択することを含み得る。本方法はまた、すべての段落の選択されたテキスト文字を文字ストリングに合成することと、文字ストリングに従って特徴コードを生成することとを含み得る。定位点としてピリオドを取る特徴コード抽出の既存の方法と比較して、この方法で得られる特徴コードの精度は高い。異なるウェブサイトは、転送情報を含む一方で異なる表題を追加および／または情報を編集し得る。異なるウェブサイトはまた、様々な方法でページを削除、修正、または情報を追加し得る。したがって、同じタイプのウェブページの特徴コードの精度を向上するために、本方法はまた、各ウェブページの特徴コードを抽出する一方で各ウェブページのテキスト内に含まれる文字の数を抽出することを含み得る。

現在のウェブページのテキスト内に含まれる特徴コードと文字の数とを抽出した後、本方法は、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表（例えばハッシュ表）を参照することを含み得る。換言すれば、本方法は、ハッシュ値がハッシュ表内に含まれるかどうかを参照することを含み得る。ハッシュ値がハッシュ表内に含まれれば、本方法は、ハッシュ値に対応するハッシュ表内のウェブページのテキスト文字の数を読み出し、かつ現在のウェブページのテキスト文字の数と比較することを含み得る。２つの数の差が０〜５０などのプリセット範囲内であれば、本方法は、現在のウェブページを重複ウェブページとみなし、それを廃棄することを含み得る。

いくつかの実施形態では、ハッシュ表は、特徴コードを編成するための良好なデータ構造（ウェブページのキーコード値または特徴コードを表の位置にマッピングすることにより記録が参照され得る）であり得る。これは参照の速度を加速し得る。ハッシュ表は、効率的検索能力を有し、動的データ格納およびアクセスを支援し得る。

例えば、プリセット範囲は０〜５０に設定され得る。ハッシュ表が図３に示すようなウェブページに対応するハッシュ値とウェブページ内に含まれるテキスト文字の数とを格納していると仮定する。図４に示すウェブページの特徴コードとウェブページ内に含まれるテキスト文字の数とを抽出した後、本方法は、ハッシュ表を参照することと、図４に示すウェブページの特徴コードが図３に示すウェブページのものと同じであると判断することとを含み得る。この場合、本方法は、ハッシュ表内のハッシュに対応するウェブページのテキスト文字の数を読み出すことを含み得る。これは、図３に示すウェブページ内に含まれるテキスト文字の数である。本方法は、図４に示すウェブページのテキスト文字の数と図３に示すウェブページのテキスト文字の数との差を計算し、差が１８であるという事実を取得することをさらに含み得る。２つのウェブページのテキスト文字の２つの数の差はプリセット範囲内である。したがって、本方法は、図４および図３に示すウェブページが同じウェブページであるとみなし、図４に示すウェブページを廃棄することを含み得る。

いくつかの実施形態では、本方法は、特徴コードがデータ表内に含まれていないときに、現在のウェブページの抽出された特徴コードと抽出されたテキスト文字の数との対応関係をデータ表内に書き込むことを含み得る。

いくつかの実施形態では、本方法は、読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内にないときに、現在のウェブページの抽出された特徴コードと抽出されたテキスト文字の数との対応関係をデータ表内に書き込むことを含み得る。

特徴コードのみに基づく既存の重複ウェブページを除去する方法と比較して、本出願の方法は、２つのウェブページの特徴コードを比較することだけでなく、２つのウェブページのテキスト文字の数の差を比較することも含み得る。したがって、本出願の方法は、同じ特徴コードであるが異なる数のテキスト文字を有するウェブページに関する誤判断率を効果的に低減し得る。さらに、本出願の方法は、従来技術のものと異なる特徴コード抽出の方式を採用し得る。本出願の方法は、同じ特徴コードであるが若干異なる数のテキスト文字を有するウェブページに関する誤判断率を効果的に低減し得る。したがって、重複ウェブページを除去する精度が改善される。

例えば、プリセット範囲は０〜５０に設定され得る。現在のウェブページのテキスト文字の数は４９００であり得る。現在のウェブページに対応する特徴コードはハッシュ表内に存在し得、特徴コードに対応するウェブページのテキスト文字の数はハッシュ表内の５０００であり得る。この場合、本方法は、現在のウェブページと、ハッシュ表内のウェブページとの間のテキスト文字の数の差の絶対値を１００として取得することを含み得る。数の差のこのような絶対値はプリセット範囲内にない。したがって、本方法は、現在のウェブページが重複ウェブページではないとみなすことを含み得る。いくつかの実施形態では、本方法は、現在のウェブページの抽出された特徴コードと抽出されたテキスト文字の数との対応関係をハッシュ表内に書き込むことを含み得る。

別の例として、検索エンジンが、キーワードに関連する１０のウェブページを取得し得る。それらのうちの３つは同じコンテンツを有するウェブページである。本方法は、これらの１０のウェブページの特徴コードと１０のウェブページ内に含まれるテキスト文字の数とをそれぞれ抽出することを含み得る。本方法はまた、ハッシュ表に従ってこれらの１０のウェブページの中から重複ウェブページを除去することを含み得る。本方法は、重複ウェブページを除去する過程でハッシュ表を確立することを含み得る。ハッシュ表が確立されると、対応する重複ウェブページを除去することは終了する。これら１０のウェブページの中から同じウェブページが除去されることになる。本方法は、特徴コードに従って検索システムを確立することと、ウェブページを参照することと、検索システムに従って重複ウェブページを除去することとを含み得る。このようにして重複ウェブページを除去することに基づき、本方法は、重複ウェブページを除去する効率を向上し得る。

一例では５万のウェブページが取得され得る。上記方法は、これらの５万のウェブページの重複ウェブページを除去することを含み得る。本方法により重複ウェブページを除去する精度を評価するための１つの手法は、手動無作為抽出を含み得る。例えば、６人がこのような評価のために５０の重複ウェブページを無作為に選択し得る。重複ウェブページを除去した結果を表１に示す。

表１内のエラーの数は、上記方法により除去できないことがあり得る同じウェブページの数を表し得る。いくつかの計算により、表１内の重複ウェブページを除去する精度は９６．７％である。

特徴コードのみに基づく既存の方法が同じ５０のウェブページの重複ウェブページを除去するために適用された場合の、重複ウェブページを除去した結果が表２に示される。

いくつかの計算により、表２内の重複ウェブページを除去する精度は９０．３７％である。表１と表２との精度値を比較することにより、上記方法の重複ウェブページを除去する精度は、特徴コードのみに基づく既存の方法より高い。

本出願の方法は、所定タイプの複数のウェブページを取得することと、現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することと、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表を参照することとを含み得る。特徴コードが含まれる場合、本方法はまた、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出し、かつ読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内であるときに、現在のウェブページを廃棄することを含み得る。本方法実施形態は、ウェブページの特徴コードとウェブページ内に含まれるテキスト文字の数とに従って重複ウェブページを除去し得る。本方法実施形態は、特徴コードのみに基づき重複ウェブページを除去する既存の方法と比較して、精度を著しく向上し、重複ウェブページを除去する誤判断率を低減し得る。

本出願はまた、上記実施形態を実施するために重複ウェブページを除去する装置を提案する。

図４は、本出願の一実施形態による重複ウェブページを除去する例示的装置の構造的概略図である。図４に示すように、本装置は、取得モジュール１００と第１の処理モジュール２００とを含み得る。

取得モジュール１００は、所定タイプの複数のウェブページを取得するように構成され得る。第１の処理モジュール２００は、現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出するように構成され得る。第１の処理モジュール２００はまた、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表を参照するように構成され得る。特徴コードが含まれる場合、第１の処理モジュール２００は、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出し、かつ読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内であるときに、現在のウェブページを廃棄するようにさらに構成され得る。

いくつかの実施形態では、複数のタイプのウェブページが存在し得る。取得モジュール１００は、テキストを含むウェブページなど、複数のウェブページから所定タイプのウェブページを取得するように構成され得る。

いくつかの実施形態では、第１の処理モジュール２００は、現在のウェブページのテキスト内に含まれる段落を取得するように構成され得る。第１の処理モジュール２００はまた、現在の段落のプリセット位置における第１のプリセット数のテキスト文字を段落毎に選択するように構成され得る。第１の処理モジュール２００は、段落のすべての選択されたテキスト文字を合成する文字ストリングに基づく計算により、特徴コードを生成するようにさらに構成され得る。

いくつかの実施形態では、第１の処理モジュール２００は、各ウェブページに対応する文字ストリングをハッシュ関数によりハッシュ値に変換し、ハッシュ値をウェブページの特徴コードとして使用するように構成され得る。

いくつかの実施形態では、第１の処理モジュール２００は、現在の段落の中心位置の左側および右側の第２のプリセット数のテキスト文字を選択するように構成され得る。第２のプリセット数は第１のプリセット数の半分であり得、および第２のプリセット数は３〜８に設定され得る。重複ウェブページを除去する能力を向上させると共に特徴コードの格納スペースを低減するために、第１の処理モジュール２００は、第２のプリセット数を５に設定するように構成され得る。第１のプリセット数は、したがって１０に設定され得る。

いくつかの実施形態では、ウェブページ内のある段落内の文字の数が第１のプリセット数より小さければ、第１の処理モジュール２００は、特徴コードをいくつかの特定文字で補完するように構成され得る。

いくつかの実施形態では、上記データ表はハッシュ表であり得る。ハッシュ表は、特徴コードを編成するための良好なデータ構造（ウェブページのキーコード値または特徴コードを表の位置にマッピングすることにより記録が参照され得る）であり得る。これは参照の速度を加速し得る。ハッシュ表は、効率的検索能力を有し得、動的データ格納およびアクセスを支援し得る。

図５に示すように、本装置は、第２の処理モジュール３００をさらに含み得る。第２の処理モジュール３００は、特徴コードがその中に含まれるかどうかを判断するために第１の処理モジュール２００がプリセットデータ表を参照した後、特徴コードがデータ表内に含まれていない場合に、現在のウェブページの抽出された特徴コードと抽出されたテキスト文字の数との対応関係をデータ表内に書き込むように構成され得る。

いくつかの実施形態では、本装置は、第３の処理モジュール４００をさらに含み得る。第３の処理モジュール４００は、読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内にないときに、現在のウェブページの抽出された特徴コードと抽出されたテキスト文字の数との対応関係をデータ表内に書き込むように構成され得る。

いくつかの実施形態では、プリセットデータ表（例えばハッシュ表）から読み出されたテキスト文字の数と現在のウェブページの抽出されたテキスト文字の数との差がプリセット範囲より小さいことがあり得る。例えば、プリセット範囲は０〜５０に設定され得、２つのウェブページの差は１２０である。第３の処理モジュール４００は、現在のウェブページの抽出された特徴コードと抽出されたテキスト文字の数との対応関係をデータ表内に書き込むように構成され得る。

重複ウェブページを除去する装置は、所定タイプの複数のウェブページを取得するように構成される取得モジュールを含み得る。本装置はまた、現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することと、特徴コードがその中に含まれるかどうかを判断するためにプリセットデータ表を参照することとを行うように構成される第１の処理モジュールを含み得る。特徴コードが含まれる場合、第１の処理モジュールは、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出し、かつ読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がプリセット範囲内であるときに、現在のウェブページを廃棄するように構成され得る。本装置実施形態は、ウェブページの特徴コードとウェブページ内に含まれるテキスト文字の数とに従って重複ウェブページを除去し得る。本装置実施形態は、特徴コードのみに基づき重複ウェブページを除去する既存の方法と比較して、精度を著しく向上し、重複ウェブページを除去する誤判断率を低減し得る。

本出願では、参照語「実施形態」、「いくつかの実施形態」、「例」、「特定の例」、「いくつかの例」等は、実施形態または例において説明された特定の特徴、構造、材料または特性が本出願の少なくとも１つの実施形態または例に含まれることを意味する。上記用語の例示的表現は、同じ実施形態または例に必ずしも適用されない。加えて、説明された特定の特徴、構造、材料または特性は、任意の１つまたは複数の実施形態または例において好適な方法で組み合わせられ得る。さらに、矛盾がない限り、当業者は、本出願内の様々な実施形態または例と様々な実施形態または例の特徴とを組み合わせ得る。

加えて、用語「第１」、「第２」は、説明目的のためにのみ使用されており、相対的重要性を示すもしくは意味するか、または示された技術的特徴の数を暗黙的に示すと解釈されるべきではない。したがって、用語「第１」、「第２」により定義される特徴は、特徴のうちの少なくとも１つが含まれることを明示的または暗黙的に示し得る。本出願において、用語「複数」の意味は、別途特に定義しない限り少なくとも２つ（２つ、３つ等）である。

フローチャートでまたは他に説明されたいかなる処理または方法も、特定の論理機能または処理工程を実施するための１つまたは複数の実行可能命令を含むコードモジュール、セグメントまたは部分を表すと理解されるべきであり、本出願の好ましい実施形態の範囲は他の実施形態を含み得る。機能は、示されたまたは論述された順番ではなく（ほぼ同時または逆順を含む）実行され得る。これは当業者により理解されるべきである。

フローチャートでまたは他に説明される論理および／または工程（例えば論理機能を実施するための実行可能命令の順序リスト）は、命令実行システム装置またはデバイス（コンピュータベースシステム、プロセッサを含むシステム、または命令実行システム、装置またはデバイスから命令を読み出し、実行し得る他のシステムなど）を利用するための任意のコンピュータ可読媒体内に、または使用するためにそれらの組み合わせで実装され得る。本出願では、「コンピュータ可読媒体」は、命令実行システム、装置、またはデバイスのプログラムを含む、格納する、伝達する、伝播する、または送信する任意の装置、または使用するためにそれらを組み合わせたものであり得る。コンピュータ可読媒体のより詳細な例は、限定しないが、以下のものを含み得る：１つまたは複数の接続線を有する電気コネクタ（電子装置）、携帯型コンピュータディスクドライブ（磁気装置）、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ装置、および携帯コンパクトディスク読み取り専用メモリ（ＣＤＲＯＭ）。加えて、コンピュータ可読媒体は、プログラムが印刷され得る紙または別の好適な媒体ですらあり得る。プログラムは、紙または他の媒体を光学的に走査し、編集し、解釈し、または必要に応じて他の処理をすることにより電子的方法で取得され、コンピュータメモリ内に格納され得る。

本出願で説明された各要素は、ハードウェア、ソフトウェア、ファームウェアまたはそれらの組み合せにより実装され得る。上記実施形態では、複数の工程または方法は、メモリ内に格納されるソフトウェアまたはファームウェアで実装され、好適な命令実行システムにより実行され得る。例えば、ハードウェア実装は、別の実施形態におけるものと同じであり、当該技術分野において周知の以下の技術のうちの任意の１つまたはそれらの組み合せで実装され得る：データ信号の論理機能を実施する論理ゲート回路を有する個別論理回路、好適な組み合わせ論理ゲート回路を有する専用集積回路、プログラマブルゲートアレイ（ＰＧＡ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）等。

当業者は、上記実施形態方法を実施するためのすべてまたはいくつかの工程が、コンピュータ可読記憶媒体内に格納され得るプログラムを介して関連ハードウェアに指示することにより完了され得ることを理解し得る。実行されると、実施形態は本方法実施形態の工程の１つまたは複数の工程の組み合わせを含み得る。

加えて、本出願の各実施形態のすべての機能ユニットは、１つの処理モジュールへ統合され得るか、または各ユニットは別個に物理的に存在し得る。２つ以上のユニットが１つのモジュールへ統合され得ることも可能である。上記統合モジュールは、ハードウェアまたはソフトウェア機能モジュールにより実装され得る。統合モジュールはまた、ソフトウェア機能モジュールにより実装される際にコンピュータ可読記憶媒体内に格納され、別個の製品として販売または使用され得る。

上記記憶媒体は、読み取り専用メモリ、磁気ディスク、光ディスク等であり得る。本出願の実施形態は上に示され説明されたが、上記実施形態は例示的であり、本出願に対する限定と解釈されるべきではないことを理解すべきである。当業者は、本出願の範囲内で上記実施形態を変更、修正、置換、または改変し得る。

例えば、プリセット範囲は０〜５０に設定され得る。ハッシュ表が図２に示すようなウェブページに対応するハッシュ値とウェブページ内に含まれるテキスト文字の数とを格納していると仮定する。図３に示すウェブページの特徴コードとウェブページ内に含まれるテキスト文字の数とを抽出した後、本方法は、ハッシュ表を参照することと、図３に示すウェブページの特徴コードが図２に示すウェブページのものと同じであると判断することとを含み得る。この場合、本方法は、ハッシュ表内のハッシュに対応するウェブページのテキスト文字の数を読み出すことを含み得る。これは、図２に示すウェブページ内に含まれるテキスト文字の数である。本方法は、図３に示すウェブページのテキスト文字の数と図２に示すウェブページのテキスト文字の数との差を計算し、差が１８であるという事実を取得することをさらに含み得る。２つのウェブページのテキスト文字の２つの数の差はプリセット範囲内である。したがって、本方法は、図３および図２に示すウェブページが同じウェブページであるとみなし、図３に示すウェブページを廃棄することを含み得る。

Claims

重複ウェブページを除去する方法であって、
所定タイプの複数のウェブページを取得することと、
現在のウェブページの特徴コードと前記現在のウェブページ内に含まれるテキスト文字の数とを抽出することと、
前記特徴コードがデータ表内に含まれるかどうかを判断するために前記データ表を参照することと、
前記特徴コードが前記データ表内に含まれる場合に、前記特徴コードに対応する前記データ表内で参照される前記ウェブページのテキスト文字の数を読み出し、かつ前記読み出されたテキスト文字の数と前記抽出されたテキスト文字の数との差がある範囲内であるときに、前記現在のウェブページを廃棄することと
を含む方法。
前記特徴コードが前記データ表内に含まれるかどうかを判断するために前記データ表を参照した後、前記特徴コードが前記データ表内に含まれていない場合に、前記現在のウェブページの前記抽出された特徴コードと前記抽出されたテキスト文字の数との対応関係を前記データ表内に書き込むことをさらに含む、請求項１に記載の方法。
前記読み出されたテキスト文字の数と前記抽出されたテキスト文字の数との差が前記範囲内にないときに、前記現在のウェブページの前記抽出された特徴コードと前記抽出されたテキスト文字の数との対応関係を前記データ表内に書き込むことをさらに含む、請求項１に記載の方法。
前記現在のウェブページの前記特徴コードを抽出することは、
前記現在のウェブページの前記テキスト内に含まれる段落を取得することと、
段落毎に、現在の段落の位置における第１の数のテキスト文字を選択することと、
前記段落のすべての前記選択されたテキスト文字を合成する文字ストリングに基づく計算により、前記特徴コードを生成することと
を含む、請求項１〜３のいずれか一項に記載の方法。
前記現在の段落の前記位置における前記第１の数のテキスト文字を選択することは、前記現在の段落の中心位置の左側および右側の第２の数のテキスト文字を選択することを含み、前記第２の数は前記第１の数の半分であり、および前記第２の数は３〜８である、請求項４に記載の方法。
前記第２の数は５である、請求項５に記載の方法。
重複ウェブページを除去する装置であって、
所定タイプの複数のウェブページを取得するように構成される取得モジュールと、
第１の処理モジュールであって、
現在のウェブページの特徴コードと前記現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することと、
前記特徴コードがデータ表内に含まれるかどうかを判断するために前記データ表を参照することと、
前記特徴コードが前記データ表内に含まれる場合に、前記特徴コードに対応する前記データ表内で参照される前記ウェブページのテキスト文字の数を読み出し、かつ前記読み出されたテキスト文字の数と前記抽出されたテキスト文字の数との差がある範囲内であるときに、前記現在のウェブページを廃棄することと
を行うように構成される第１の処理モジュールと
を含む装置。
前記特徴コードが前記データ表内に含まれるかどうかを判断するために前記データ表を参照した後、前記特徴コードが前記データ表内に含まれていない場合に、前記現在のウェブページの前記抽出された特徴コードと前記抽出されたテキスト文字の数との対応関係を前記データ表内に書き込むように構成される第２の処理モジュールをさらに含む、請求項７に記載の装置。
前記読み出されたテキスト文字の数と前記抽出されたテキスト文字の数との差が前記範囲内にないときに、前記現在のウェブページの前記抽出された特徴コードと前記抽出されたテキスト文字の数との対応関係を前記データ表内に書き込むように構成される第３の処理モジュールをさらに含む、請求項７に記載の装置。
前記第１の処理モジュールは、
前記現在のウェブページの前記テキスト内に含まれる段落を取得することと、
段落毎に、現在の段落の位置における第１の数のテキスト文字を選択することと、
前記段落のすべての前記選択されたテキスト文字を合成する文字ストリングに基づく計算により、前記特徴コードを生成することと
を行うように構成される、請求項７〜９のいずれか一項に記載の装置。
前記第１の処理モジュールは、前記現在の段落の中心位置の左側および右側の第２の数のテキスト文字を選択するように構成され、前記第２の数は前記第１の数の半分であり、および前記第２の数は３〜８である、請求項１０に記載の装置。
前記第２の数は５である、請求項１１に記載の装置。