JP5739500B2 - ウェブ文書履歴情報提供方法およびシステム - Google Patents

ウェブ文書履歴情報提供方法およびシステム Download PDF

Info

Publication number
JP5739500B2
JP5739500B2 JP2013212163A JP2013212163A JP5739500B2 JP 5739500 B2 JP5739500 B2 JP 5739500B2 JP 2013212163 A JP2013212163 A JP 2013212163A JP 2013212163 A JP2013212163 A JP 2013212163A JP 5739500 B2 JP5739500 B2 JP 5739500B2
Authority
JP
Japan
Prior art keywords
web document
history information
document
web
ping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013212163A
Other languages
English (en)
Other versions
JP2014038650A (ja
Inventor
昌 熙 李
昌 熙 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2014038650A publication Critical patent/JP2014038650A/ja
Application granted granted Critical
Publication of JP5739500B2 publication Critical patent/JP5739500B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、原本文書判別方法に関し、より詳細には、オンライン上の様々なコピー文書のうちから原本を判別する方法に関する。
インターネットの発達および普及の増加により、インターネットを用いた多様なサービスが提供されているが、このうちの代表的な例が検索サービスであると言える。このような検索サービスは、ユーザが検索しようとする単語または単語の組み合わせを検索語として入力すれば、検索エンジンが入力された検索語に対応する検索結果の文書をユーザに提供するサービスを意味する。このような、検索結果の文書は、辞書、知識情報、ブログ、グループ、専門資料、サイト、本、ウェプページ、動画などのようなカテゴリで分類されてユーザに提供される。
最近では、特定の主題に対して文書を独創的に作成せずに、他のユーザが作成した文書をコピーしたり、自身のブログやグループなどにポスティングしたりした文書が検索結果の文書として増加している。これは、インターネットで用いられる文書を容易にコピーすることができるため、ユーザは主に新聞記事や専門資料または他人のブログやグループなどから原本文書そのものを同じようにコピーしたり、必要な部分のみを選択的にコピーしたりして文書を作成できるからである。したがって、このようなコピー文書は、原本文書と同一であるか実質的に同じ文書に該当する。したがって、検索結果の文書には、原本文書と同一であるか実質的に同じコピー文書が多数存在するようになる。このような場合、コピー文書が原本文書よりも検索ランキングが下位にランクされるべきであるにもかかわらず、上位にランクされることにより、ユーザに正確な検索結果を提供することができないという問題点がある。
このような問題点を解決するために、原本文書とコピー文書のうちから原本文書を判別する様々な方法が存在するが、コピー文書が原本文書と同一であるか実質的に同じ文書であるため、実質的に原本を判別することは難しい。また、一般的にはウェブ文書の配布時刻が最も早い文書を原本として判別しているが、配布時刻が操作される場合には、原本文書の判別がより一層難しくなるという問題点がある。
本発明は、上述した問題点を解決するためのものであり、ウェブ文書の履歴情報を用いてウェブ文書の原本を判別することができるウェブ文書原本判別方法およびウェブ文書原本判別システムを提供することを技術的課題とする。
また、本発明は、ウェブ文書の原本を判決するために必要なウェブ文書の履歴情報を提供することができるウェブ文書履歴情報提供方法およびウェブ文書履歴情報提供システムを提供することをもう1つの技術的課題とする。
上述した目的を達成するために、本発明の一実施形態に係るウェブ文書履歴情報提供システムと原本文書判別システムとを含むシステムにおけるウェブ文書履歴情報提供方法は、ウェブ文書の生成または変更に関するピング(ping)を受信するステップと、前記ピングを受信した時点の時間情報を用いて、前記ウェブ文書の生成または変更に関する履歴情報を生成するステップと、前記生成されたウェブ文書の履歴情報を原本文書判別システムに提供するステップとを実行し、前記原本文書判別システムは、前記履歴情報に該当するウェブ文書をクローリングし、前記履歴情報を用いてクローリングされたウェブ文書をフィルタリングし、前記フィルタリングは、前記ウェブ文書が生成または変更された時点のウェブ文書がクローリングされた時点で変更されたか否かを判断し、前記ウェブ文書が変更された場合には、前記クローリングされたウェブ文書を除外する
上述した目的を達成するために、本発明の一実施形態に係るウェブ文書履歴情報提供システムと原本文書判別システムとを含むシステムにおいて、前記ウェブ文書履歴情報提供システムは、ウェブ文書の生成または変更に関するピングを受信するピング受信部と、前記ピングを受信した時点の時間情報を用いて、前記ウェブ文書の生成または変更に関する履歴情報を生成する履歴情報生成部と、前記生成されたウェブ文書の履歴情報を原本文書判別システムに提供する履歴情報提供部とを備え、前記原本文書判別システムは、前記履歴情報に該当するウェブ文書をクローリングし、前記履歴情報を用いてクローリングされたウェブ文書をフィルタリングし、前記フィルタリングは、前記ウェブ文書が生成または変更された時点のウェブ文書がクローリングされた時点で変更されたか否かを判断し、前記ウェブ文書が変更された場合には、前記クローリングされたウェブ文書を除外する収集部を備える。
本発明によると、ウェブ文書の生成または変更に関する履歴情報を用いることにより、ウェブ文書の生成時間が操作されても原本を正確に判別することができるという効果がある。
また、本発明によると、ウェブ文書の生成時間が操作されても原本を正確に判別することにより、検索システムが正確な検索ランキングサービスを提供できるという効果がある。
本発明の一実施形態に係るウェブ文書履歴情報提供システムおよび原本判別システムの概略的なブロック図である。 ピングバックプロトコルの例を示す図である。 ピングサーバの例を示す図である。 本発明の一実施形態に係るウェブ文書履歴情報提供方法を示すフローチャートである。 本発明の一実施形態に係るウェブ文書原本判別方法を示すフローチャートである。
以下、図面を参照しながら、本発明の実施形態について詳しく説明する。
図1は、本発明の一実施形態に係るウェブ文書履歴情報提供システムおよび原本判別システムを説明するための概略的なブロック図である。図1に示すように、ウェブ文書履歴情報提供システム200は、ウェブサーバ100と通信網を介して連結しており、ピング受信部220と、履歴情報生成部240と、履歴情報提供部260とを備える。ウェブ文書原本判別システム300は、ウェブ文書履歴情報提供システム200からウェブ文書履歴情報が提供され、履歴情報受信部320と、収集部340と、判別部360とを備える。
一方、ウェブ文書原本判別システム300は、検索システム(図示せず)またはメタブログサーバ(図示せず)に含まれたり、別途構成されたりすることができる。これは、例えば、検索システムで検索サービスを提供するときに、ウェブ文書原本判別システム300によって判別された原本を検索ランキングに反映させるためである。また、ウェブ文書原本判別システム300は、ウェブサーバ100が自主的に原本を判別するために、ウェブサーバ100に含まれて構成されることができる。
ここで、ウェブサーバ100は、説明の便宜上において1つで示したが、グループサーバ、ブログサーバ、ポータルサーバなどウェブ文書が掲示された多様な種類のウェブサーバとすることができる。以下、説明の便宜上、ウェブサーバ100がブログサーバであるものと例示して説明する。
一方、ウェブ文書履歴情報提供システム200は、ウェブサーバと100のピングバックプロトコルによって履歴情報を生成する。ここで、ピングバックプロトコルの一例について図2を参照しながら説明すると、文書aが文書bをリンクとして引用した場合、文書aが掲示されたブログサーバAが、文書bが掲示されたブログサーバBに、文書aが文書bを引用していることを、ピングを用いて自動で知らせるプロトコルを意味する。
言い換えれば、ピングとは、本文に有用な文書をリンクとして引用したときに、これを引用した文書が掲示されたサーバに自動で知らせる信号を意味する。したがって、本発明において、ウェブサーバは、掲示されたウェブ文書が生成または変更された場合、ウェブ文書の生成または変更に関する情報を、ピングを用いて自動でウェブ文書履歴情報提供システムに提供する。
一実施形態において、ウェブ文書履歴情報提供システム200は、ピングサーバとすることができる。ここで、ピングサーバの一例について図3を参照しながら説明すると、ピングサーバは、ネイバー、イーグルス、ティ・ストーリーなどのような様々なブログサーバからブログ内の様々なウェブ文書の生成または変更に関するピングを受信し、ネイバー、ネイト、ダウムのなどの検索システム、またはイオリン、オールブログなどのようなメタブログサーバにウェブ文書の生成または変更に関する履歴情報を提供する役割をする。
再び図1を参照しながら、ウェブ文書履歴情報提供システム200について詳察する。
ピング受信部220は、ウェブ文書の生成または変更に関するピングを受信する。ここで、ピングは、ウェブ文書が生成または変更されるたびに受信する。言い換えれば、上述したように、ウェブ文書履歴情報提供システム200は、ウェブサーバ100とのピングバックプロトコルによって履歴情報を生成するため、ウェブサーバからピングを受信する。
履歴情報生成部240は、ピング受信部220がピングを受信した時点の時間情報を用いて、ウェブ文書の生成または変更に関する履歴情報を生成する。言い換えれば、ピング受信部がピングを受信した時点は、ウェブ文書が生成または変更された時間を意味するため、履歴情報生成部240は、ウェブ文書が生成または変更された時間に関する履歴情報を生成する。
ここで、履歴情報は、ウェブ文書のURL別に生成することができる。例えば、ブログで様々な文書が生成または変更されると仮定すれば、ブログ内のそれぞれの文書に該当するURL別にウェブ文書の生成または変更に関する履歴情報を生成することができる。
一実施形態において、履歴情報生成部240は、受信したピングに該当するウェブ文書の題目およびテキストに関する情報のうちの少なくとも1つを収集し、履歴情報に題目およびテキストに関する情報のうちの少なくとも1つを含ませることができる。例えば、履歴情報生成部は、受信したピングに該当するブログを実際に訪問し、ウェブ文書が生成または変更される当時の題目またはテキストのうちの一部を収集して格納する。
これは、ブログ作成者がウェブ文書を生成または変更してもいないのにピングを操作することができるため、履歴情報生成部がウェブ文書の生成または変更当時に実際にウェブ文書が生成または変更されたかを確認するためである。
履歴情報提供部260は、ウェブ文書の履歴情報を原本文書判別システム300に提供する。言い換えれば、ブログ内の各種ウェブ文書、すなわち、各種文書の生成または変更に関する履歴情報をウェブ文書原本判別システムに提供する。
次に、ウェブ文書原本判別システム300について詳察する。
履歴情報受信部320は、ウェブ文書の生成または変更に関する履歴情報を受信する。言い換えれば、履歴情報受信部320には、ウェブ文書履歴情報提供部200によって生成されたウェブ文書の生成または変更に関する履歴情報が提供される。
一実施形態において、履歴情報は、ウェブ文書が生成または変更された時点のピングバックプロトコルによって生成することができる。上述したように、履歴情報は、ウェブサーバ100とウェブ文書履歴情報提供システム200とのピングバックプロトコルによるピングによって生成することができる。
一実施形態において、履歴情報は、ウェブ文書のURL別に生成することができる。言い換えれば、ウェブ文書のURL別にウェブ文書の生成または変更に関する履歴情報が管理される。
一実施形態において、履歴情報は、ウェブ文書が生成または変更された時点の時間情報を含むことができる。これは、上述したように、履歴情報がピングを受信した時点の時間情報を用いて生成されたためである。
一実施形態において、履歴情報は、ウェブ文書が生成または変更された時点の題目およびテキストに関する情報のうちの少なくとも1つを含むことができる。
収集部340は、履歴情報に該当するウェブ文書をクローリングし、履歴情報を用いてクローリングされたウェブ文書をフィルタリングする。言い換えれば、収集部340は、すべてのウェブ文書をクローリングするのではなく、ウェブ文書履歴情報提供システムから受信した履歴情報に該当するウェブ文書のみを収集し、履歴情報を用いてクローリングされたウェブ文書をフィルタリングする。
一実施形態において、収集部は、ウェブ文書が生成または変更された時点のウェブ文書がクローリングされた時点で変更されたか否かを判断することができる。具体的に、収集部は、ウェブ文書の生成または変更された時点の題目およびテキストに関する情報のうちの少なくとも1つがクローリングされたウェブ文書の題目およびテキストに関する情報のうちの少なくとも1つと一致するか否かを判断することができる。
言い換えれば、収集部は、クローリングされたウェブ文書が生成または変更された時点に比べて変更されたか否かを判断し、変更された場合には、クローリングされたウェブ文書から除外する。これは、ウェブ文書が生成または変更された後、ウェブ文書を他の文書に変えることができるためである。
判別部360は、フィルタリングされたウェブ文書を類似文書グループ別にグルーピングし、履歴情報を基準としてグルーピングされた類似文書の原本を判別する。
一実施形態において、グルーピングされた類似文書は、クローリングされたウェブ文書のチャンクを用いてグルーピングすることができる。ここで、チャンクとは、ウェブ文書の本文を少なくとも1つの固まりに分けるとき、各固まりを指称するものを意味する。判別部は、原本およびコピー文書にこのようなチャンクが共通で存在することがあるため、チャンクを用いて原本およびコピー文書をグルーピングすることができる。一方、判別部は、チャンクを用いる方法に限定されるものではなく、タイムスタンプを用いたり、その他の方法によって類似文書をグルーピングしたりすることができる。
一実施形態において、判別部360は、グルーピングされた類似文書のうち、文書の生成または変更時間が最も早いウェブ文書を原本として判別することができる。言い換えれば、類似文書でグルーピングされた文書のうち、該当するウェブ文書の履歴情報には文書の生成または変更情報が含まれているため、グルーピングされた類似文書のうちで履歴情報に含まれた文書の生成または変更時間が最も早いウェブ文書を原本として判別する。
好ましくは、判別部360は、グルーピングされたそれぞれの類似文書の履歴情報に含まれている文書の生成または変更時間のうち、該当する文書と類似した内容を有する文書の生成または変更時間が最も早いウェブ文書を原本として判別することができる。
以下、図4を参照しながら、本発明の一実施形態に係るウェブ文書履歴情報提供方法について説明する。
ウェブ文書の生成または変更に関するピングを受信する(S410)。ここで、ピングとは、本文に有用な文書をリンクとして引用したとき、これを引用した文書が掲示されたサーバに自動で知らせる信号を意味する。
一実施形態において、ピングは、ウェブ文書が生成または変更されるたびに受信する。したがって、ピングを用いれば、ウェブ文書が生成または変更された時間情報が分かる。
次に、ピングを受信した時点の時間情報を用いて、ウェブ文書の生成または変更に関する履歴情報を生成する(S430)。
ここで、本発明の一実施形態に係るウェブ文書履歴情報提供方法は、ピングに該当するウェブ文書の題目およびテキストに関する情報のうちの少なくとも1つを収集するステップをさらに含むことができ、履歴情報は、題目およびテキストに関する情報のうちの少なくとも1つを含むことができる。
これは、ウェブ文書作成者がウェブ文書を生成または変更してもいないのにピングを操作することができるため、ウェブ文書の生成または変更当時に実際にウェブ文書が生成または変更されたかを確認するためである。
一実施形態において、履歴情報は、ウェブ文書のURL別に生成することができる。例えば、ブログで様々な文書が生成または変更されると仮定すれば、ブログ内のそれぞれの文書に該当するURL別にウェブ文書の生成または変更に関する履歴情報を生成することができる。
最後に、生成されたウェブ文書の履歴情報を原本文書判別システムに提供する(S450)。
したがって、本発明の一実施形態に係る原本文書判別システムは、ウェブ文書履歴情報提供システムから提供されたウェブ文書の履歴情報を用いて、ウェブ文書の原本を判別することができる。以下、図5を参照しながら、本発明の一実施形態に係るウェブ文書原本判別方法について説明する。
まず、ウェブ文書の生成または変更に関する履歴情報を受信する(S510)。一実施形態において、履歴情報は、ウェブ文書が生成または変更された時点のピングバックプロトコルによって生成されることができる。
一実施形態において、履歴情報は、ウェブ文書が生成または変更された時点の時間情報を含むことができる。これは、履歴情報が、ウェブ文書が生成または変更された時点のピングを用いて生成されるためである。
また、履歴情報は、ウェブ文書が生成または変更された時点の題目およびテキストに関する情報のうちの少なくとも1つを含むことができる。
次に、受信された履歴情報に該当するウェブ文書をクローリングし、履歴情報を用いてクローリングされたウェブ文書をフィルタリングする(S530)。
ここで、ウェブ文書が生成または変更された時点のウェブ文書がクローリングされた時点で変更されたか否かを判断することにより、クローリングされたウェブ文書をフィルタリングすることができる。具体的に、ウェブ文書が生成または変更された時点の題目およびテキストに関する情報のうちの少なくとも1つと、クローリングされたウェブ文書の題目およびテキストに関する情報のうちの少なくとも1つが一致するか否かを判断し、クローリングされたウェブ文書をフィルタリングすることができる。言い換えれば、ウェブ文書が生成または変更された時点のウェブ文書がクローリングされた時点で変更された場合には、クローリングされたウェブ文書から除外する。これは、ウェブ文書の検索ランキング操作のために、ウェブ文書が生成または変更された後に該当するウェブ文書を変えることを防ぐためである。
ここで、グルーピングされた類似文書は、クローリングされたウェブ文書のチャンクを用いてグルーピングすることができる。また、チャンクを用いる方法に限定されるものではなく、タイムスタンプを用いたり、その他方法によって類似文書別にグルーピングしたりすることができる。
最後に、フィルタリングされたウェブ文書を類似文書別にグルーピングし、履歴情報を基準としてグルーピングされた類似文書の原本を判別する(S550)。ここで、本発明の一実施形態に係るウェブ文書原本判別方法は、グルーピングされた類似文書のうち、文書の生成または変更時間が最も早いウェブ文書を原本として判別することができる。
好ましくは、グルーピングされたそれぞれの類似文書の履歴情報に含まれている文書の生成または変更時間のうち、該当する文書と類似した内容を有する文書の生成または変更時間が最も早いウェブ文書を原本として判別することができる。
したがって、本発明の一実施形態に係るウェブ文書原本判別方法は、ウェブ文書が生成または変更されるたびに生成された履歴情報を用いることにより、ウェブ文書の生成または変更時間が操作されても正確に原本を判別することができ、正確な原本判別によって検索サービスに正確なランキング情報を提供することができる。
なお、上述したウェブ文書履歴情報提供方法および原本判別システムは、コンピュータにより実現される多様な動作を実行するためのプログラム命令を含むコンピュータ読取可能な記録媒体を含む。当該記録媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含むこともでき、記録媒体およびプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知であり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、およびROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。また、記録媒体は、プログラム命令、データ構造などを保存する信号を送信する搬送波を含む光または金属線、導波管などの送信媒体でもある。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードを含む。前記したハードウェア要素は、本発明の動作を実行するために一以上のソフトウェアモジュールとして作動するように構成することができ、その逆もできる。
上述したように、本発明の好ましい実施形態を参照して説明したが、該当の技術分野において熟練した当業者にとっては、特許請求の範囲に記載された本発明の思想および領域から逸脱しない範囲内で、本発明を多様に修正および変更させることができることを理解することができるであろう。すなわち、本発明の技術的範囲は、特許請求の範囲に基づいて定められ、発明を実施するための最良の形態により制限されるものではない。
100:ウェブサーバ
200:ウェブ文書履歴情報提供システム
220:ピング受信部
240:履歴情報生成部
260:履歴情報提供部
300:ウェブ文書原本判別システム
320:履歴情報受信部
340:収集部
360:判別部

Claims (7)

  1. ウェブ文書履歴情報提供システムと原本文書判別システムとを含むシステムにおけるウェブ文書履歴情報提供方法であって、
    前記ウェブ文書履歴情報提供システムは、ウェブ文書の生成または変更に関するピングを受信するステップと、
    前記ピングを受信した時点の時間情報を用いて、前記ウェブ文書の生成または変更に関する履歴情報を生成するステップと、
    前記生成されたウェブ文書の履歴情報を原本文書判別システムに提供するステップと、
    実行し、
    前記原本文書判別システムは、前記履歴情報に該当するウェブ文書をクローリングし、前記履歴情報を用いてクローリングされたウェブ文書をフィルタリングし、
    前記フィルタリングは、前記ウェブ文書が生成または変更された時点のウェブ文書がクローリングされた時点で変更されたか否かを判断し、
    前記ウェブ文書が変更された場合には、前記クローリングされたウェブ文書を除外することを特徴とするウェブ文書履歴情報提供方法。
  2. 前記ピングは、前記ウェブ文書が生成または変更されるたびに受信することを特徴とする請求項1に記載のウェブ文書履歴情報提供方法。
  3. 前記履歴情報は、前記ウェブ文書のURL別に生成されることを特徴とする請求項1に記載のウェブ文書履歴情報提供方法。
  4. 前記履歴情報を生成するステップは、
    前記ピングに該当するウェブ文書の題目およびテキストに関する情報のうちの少なくとも1つを収集するステップ、
    をさらに含み、
    前記履歴情報は、前記題目およびテキストに関する情報のうちの少なくとも1つを含むことを特徴とする請求項1に記載のウェブ文書履歴情報提供方法。
  5. ウェブ文書履歴情報提供システムと原本文書判別システムとを含むシステムであって、
    前記ウェブ文書履歴情報提供システムは、ウェブ文書の生成または変更に関するピングを受信するピング受信部と、
    前記ピングを受信した時点の時間情報を用いて、前記ウェブ文書の生成または変更に関する履歴情報を生成する履歴情報生成部と、
    前記生成されたウェブ文書の履歴情報を原本文書判別システムに提供する履歴情報提供部と、を備え、
    前記原本文書判別システムは、前記履歴情報に該当するウェブ文書をクローリングし、前記履歴情報を用いてクローリングされたウェブ文書をフィルタリングし、
    前記フィルタリングは、前記ウェブ文書が生成または変更された時点のウェブ文書がクローリングされた時点で変更されたか否かを判断し、
    前記ウェブ文書が変更された場合には、前記クローリングされたウェブ文書を除外する収集部を備えることを特徴とするシステム
  6. 前記ピングは、前記ウェブ文書が生成または変更されるたびに受信することを特徴とする請求項5に記載のシステム
  7. 前記履歴情報生成部は、
    前記受信したピングに該当するウェブ文書の題目およびテキストに関する情報のうちの少なくとも1つを収集し、前記履歴情報に前記題目およびテキストに関する情報のうちの少なくとも1つを含ませることを特徴とする請求項5に記載のシステム
JP2013212163A 2008-10-02 2013-10-09 ウェブ文書履歴情報提供方法およびシステム Active JP5739500B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020080097145A KR101086530B1 (ko) 2008-10-02 2008-10-02 웹 문서 원본 판별 방법 및 시스템, 이를 위한 웹 문서 이력 정보 제공 방법 및 시스템
KR10-2008-0097145 2008-10-02

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009212958A Division JP5417100B2 (ja) 2008-10-02 2009-09-15 ウェブ文書原本判別方法およびウェブ文書原本判別システム

Publications (2)

Publication Number Publication Date
JP2014038650A JP2014038650A (ja) 2014-02-27
JP5739500B2 true JP5739500B2 (ja) 2015-06-24

Family

ID=42076765

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2009212958A Active JP5417100B2 (ja) 2008-10-02 2009-09-15 ウェブ文書原本判別方法およびウェブ文書原本判別システム
JP2013212163A Active JP5739500B2 (ja) 2008-10-02 2013-10-09 ウェブ文書履歴情報提供方法およびシステム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2009212958A Active JP5417100B2 (ja) 2008-10-02 2009-09-15 ウェブ文書原本判別方法およびウェブ文書原本判別システム

Country Status (3)

Country Link
US (1) US9477769B2 (ja)
JP (2) JP5417100B2 (ja)
KR (1) KR101086530B1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499098B (zh) * 2009-03-04 2012-07-11 阿里巴巴集团控股有限公司 一种网页评估值的确定及运用的方法、***
WO2011137386A1 (en) * 2010-04-30 2011-11-03 Orbis Technologies, Inc. Systems and methods for semantic search, content correlation and visualization
JP6084087B2 (ja) * 2013-03-25 2017-02-22 キヤノン株式会社 オリジナル性検証装置、システム、オリジナル性検証方法及びプログラム
CN103399957A (zh) * 2013-08-21 2013-11-20 百度在线网络技术(北京)有限公司 搜索方法、***、搜索引擎和客户端
JPWO2022249259A1 (ja) * 2021-05-24 2022-12-01

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366933B1 (en) * 1995-10-27 2002-04-02 At&T Corp. Method and apparatus for tracking and viewing changes on the web
US6424966B1 (en) * 1998-06-30 2002-07-23 Microsoft Corporation Synchronizing crawler with notification source
US6547829B1 (en) * 1999-06-30 2003-04-15 Microsoft Corporation Method and system for detecting duplicate documents in web crawls
KR20010064736A (ko) 1999-12-18 2001-07-11 이계철 인터넷 웹페이지 갱신정보 제공 시스템 및 그 방법
JP4042100B2 (ja) 2002-04-23 2008-02-06 日本電信電話株式会社 コンテンツ探索情報管理システムと方法およびコンテンツ探索方法ならびにプログラム
US7568151B2 (en) * 2002-06-27 2009-07-28 Microsoft Corporation Notification of activity around documents
JP2004062479A (ja) * 2002-07-29 2004-02-26 Fujitsu Ltd 情報収集装置、方法及びプログラム
KR100459379B1 (ko) 2002-07-30 2004-12-03 주식회사 모비젠 유사 전자문서 판단을 위한 기초데이터 생성방법 및 그시스템
JP4828091B2 (ja) 2003-03-05 2011-11-30 ヒューレット・パッカード・カンパニー クラスタリング方法プログラム及び装置
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US20060064394A1 (en) * 2004-09-17 2006-03-23 International Business Machines Corporation Method for handling changing and disappearing online references to research information
US7908247B2 (en) * 2004-12-21 2011-03-15 Nextpage, Inc. Storage-and transport-independent collaborative document-management system
JP4185059B2 (ja) * 2005-02-18 2008-11-19 大日本印刷株式会社 トレンド予測装置およびトレンド予測方法
US20080097972A1 (en) * 2005-04-18 2008-04-24 Collage Analytics Llc, System and method for efficiently tracking and dating content in very large dynamic document spaces
JP2008537264A (ja) 2005-04-18 2008-09-11 コラージュ・アナリティクス・エルエルシー 非常に大きいダイナミック文書スペース中のコンテンツを効率的に追跡および年代決定するためのシステムおよび方法
JP2007207202A (ja) * 2006-02-01 2007-08-16 Balanco:Kk ウェブログを利用した情報提供システム
JP5082460B2 (ja) * 2007-01-19 2012-11-28 富士ゼロックス株式会社 情報処理装置及びプログラム及び情報処理システム
JP5023715B2 (ja) * 2007-01-25 2012-09-12 富士ゼロックス株式会社 情報処理システム、情報処理装置及びプログラム
KR100788256B1 (ko) 2007-05-29 2007-12-27 주식회사 비전파워 네트워크를 이용한 웹서버 위변조 모니터링 시스템 및모니터링 방법
US8886660B2 (en) * 2008-02-07 2014-11-11 Siemens Enterprise Communications Gmbh & Co. Kg Method and apparatus for tracking a change in a collection of web documents
US7860971B2 (en) * 2008-02-21 2010-12-28 Microsoft Corporation Anti-spam tool for browser
US8332359B2 (en) * 2008-07-28 2012-12-11 International Business Machines Corporation Extended system for accessing electronic documents with revision history in non-compatible repositories

Also Published As

Publication number Publication date
JP5417100B2 (ja) 2014-02-12
KR101086530B1 (ko) 2011-11-23
JP2010086531A (ja) 2010-04-15
JP2014038650A (ja) 2014-02-27
US9477769B2 (en) 2016-10-25
KR20100037836A (ko) 2010-04-12
US20100088589A1 (en) 2010-04-08

Similar Documents

Publication Publication Date Title
CN101782919B (zh) 一种网页表单数据输出方法、装置及表单处理***
JP5739500B2 (ja) ウェブ文書履歴情報提供方法およびシステム
CN100547593C (zh) 在web爬取过程期间给网站排优先级的***和方法
US8326818B2 (en) Method of managing websites registered in search engine and a system thereof
US20180176313A1 (en) System and method for monitoring network traffic
CN1879107B (zh) 基于历史数据的信息检索
CN100483407C (zh) 文档信息管理***和文档信息管理方法
JP2010515996A (ja) 検索結果を提供する方法およびこの方法を実行するシステム
KR101315554B1 (ko) 웹 페이지에 키워드를 할당하기 위한 방법 및 장치
US20080168045A1 (en) Content rank
CN101499098A (zh) 一种网页评估值的确定及运用的方法、***
CN103530365A (zh) 获取资源的下载链接的方法及***
CN104537070A (zh) 挖掘旅游目的地景点的方法和设备
ITMI20100986A1 (it) Distanza di editazione generalizzata per interrogazioni
JP2010536086A (ja) ユーザ中心の情報探索方法およびシステム
CN102402589A (zh) 一种提供与搜索请求相关的参考搜索信息的方法与设备
CN102063454A (zh) 一种搜索与应用相结合的方法和设备
US20080256435A1 (en) Interconnection of Document Preparation, Document Viewing, and Alert Processing in Structured Documents
JP4523952B2 (ja) オンライン上で提供されるニュース記事に加重値を付与する方法及びそのシステム
JPWO2004111877A1 (ja) 情報処理方法及びその装置、及びそのプログラム
CN107025261B (zh) 主题网络语料库
CN102662940A (zh) 书签提取装置、方法以及计算机产品
KR20110122719A (ko) 탐색 엔진 결과 페이지 연구 보조를 위한 시스템 및 방법
JP2006268690A (ja) Faq提示・改善方法、faq提示・改善装置およびfaq提示・改善プログラム
EP1645978A1 (en) Organization of static and dynamic data sets

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140916

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20141216

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20141219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150407

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150423

R150 Certificate of patent or registration of utility model

Ref document number: 5739500

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250