JP4831787B2 - Citation detection device, its program and recording medium - Google Patents

Citation detection device, its program and recording medium Download PDF

Info

Publication number
JP4831787B2
JP4831787B2 JP2009027288A JP2009027288A JP4831787B2 JP 4831787 B2 JP4831787 B2 JP 4831787B2 JP 2009027288 A JP2009027288 A JP 2009027288A JP 2009027288 A JP2009027288 A JP 2009027288A JP 4831787 B2 JP4831787 B2 JP 4831787B2
Authority
JP
Japan
Prior art keywords
document
citation
digest
segment
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009027288A
Other languages
Japanese (ja)
Other versions
JP2010182238A (en
Inventor
俊之 櫻井
義博 松尾
玄一郎 菊井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009027288A priority Critical patent/JP4831787B2/en
Publication of JP2010182238A publication Critical patent/JP2010182238A/en
Application granted granted Critical
Publication of JP4831787B2 publication Critical patent/JP4831787B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ブログ等の任意の文書中に、ニュース、プレスリリース、Wikipedia等の他の文書からの引用が含まれているかどうかを検出する技術に関するものである。ここで、引用とは、他の文書内の文であって文字列の改変が無い連続した2つ以上の文と定義するものとする。   The present invention relates to a technique for detecting whether an arbitrary document such as a blog includes a quote from another document such as news, a press release, or Wikipedia. Here, citation is defined as two or more consecutive sentences that are sentences in other documents and that have no character string modification.

従来のこの種の技術としては、以下の二つがあった。   There are the following two conventional techniques of this type.

・DP(Dynamic Programming)マッチング(従来技術1)
DPマッチングでは、比較すべき2つの文字列を逐次照合しながら当該2つの文字列間の差分を計算して、2つの文書間の類似度を推定する(例えば、非特許文献1参照)。
・ DP (Dynamic Programming) matching (prior art 1)
In DP matching, the difference between the two character strings is calculated while sequentially comparing the two character strings to be compared, and the similarity between the two documents is estimated (for example, see Non-Patent Document 1).

・Simhash(従来技術2)
Simhashでは、文書をベクトル表現し、ランダムに定義された超平面のどちら側にあるかを判別することにより特殊なハッシュ値(simhash)を得て、各文書のsimhash値を比較することで、2つの文書間の類似度を推定する。この際、各文書のSimhash間のハミング距離が文書ベクトル間のコサイン距離の近似値になる性質がある(例えば、非特許文献2参照)。
・ Simhash (Prior Art 2)
In Simhash, a special hash value (simhash) is obtained by vector-expressing a document and determining which side of the hyperplane is defined at random, and by comparing the Simhash values of each document, 2 Estimate the similarity between two documents. At this time, the Hamming distance between Simhashes of each document has a property that becomes an approximate value of the cosine distance between document vectors (see, for example, Non-Patent Document 2).

Needleman,S.B.,Wunsch,C.D.:”A general method applicable to the search for similarities in the amino acid sequence of two proteins.”J.Mol.Biol,Vol.48,pp.443−453,1970.Needleman, S.M. B. Wunsch, C .; D. "A general method applicable to the search for similarities in the amino acid sequence of two proteins." Mol. Biol, Vol. 48, pp. 443-453, 1970. M.S.Charikar.Similarity estimation techniques from rounding algorithms.In STOC’02:Proceedings of the thiry−fourth annual ACM symposium on Theory of computing,pp.380−388,2002.M.M. S. Charikar. Similarity estimation techniques from rounding algorithms. In STOC'02: Proceedings of the third-four annual ACM symposium on Theory of computing, pp. 380-388, 2002.

しかし、前述した従来技術には、以下のような3つの課題があった。   However, the prior art described above has the following three problems.

即ち、従来技術1では、総当たりでマッチングを行う必要があるため、計算量が多くなり、大規模化に向かなかった(課題1)。   That is, in the prior art 1, since it is necessary to perform brute force matching, the amount of calculation increases, and it is not suitable for large scale (Problem 1).

また、従来技術2は、大規模化に向いているが、文書全体に対する引用の割合が小さいと検出できなかった。例えば、図1(a)に示す例のように、引用元文書と引用先文書との間の共通部分の割合が少ないと類似度が低下するため、引用を検出できなかった(課題2)。   Prior art 2 is suitable for enlargement, but could not be detected if the quoting ratio of the entire document was small. For example, as in the example shown in FIG. 1A, if the ratio of the common part between the citation source document and the citation destination document is small, the degree of similarity decreases, so that the citation cannot be detected (Problem 2).

さらにまた、従来技術2では、単語の出現順序を考慮することなく、2つの文書間の類似度を推定するため、引用を正確に検出することができなかった。例えば、図1(b)に示す例のように、引用関係にない2つの文書間でも、単語同士の共通割合が高いと類似度が高くなり、誤って判定してしまうことがあった(課題3)。   Furthermore, in the prior art 2, since the similarity between two documents is estimated without considering the appearance order of words, the citation cannot be accurately detected. For example, as in the example shown in FIG. 1B, even between two documents that are not in a citation relationship, if the common ratio between words is high, the degree of similarity increases, and there is a case where the determination is made erroneously (problem) 3).

本発明では、他の文書、即ち引用元の候補となる文書の集合である原典文書集合中の文書を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約(例えば公知のフィンガープリント)を生成し、各要約を前記部分文字列の出現順に並べた前記文書のダイジェストを、前記部分文字列毎に前方最長一致検索可能な形式でその文書IDとともに登録してなる原典文書データベース(DB)を用意し、一方、入力文書(対象文書)を前記同様のダイジェストに変換し、この入力文書のダイジェストをキーとして原典文書DBを前方最長一致で検索し、この際、連続して一致する要約の数が所定の閾値以上の他の文書があればその文書IDを出力することを特徴とする。   In the present invention, another document, that is, a document in a source document set, which is a set of documents that are candidates for citation sources, is divided into partial character strings that can serve as citation units, and a summary of the partial character strings (for example, known fingers) is divided. The original document database in which digests of the documents in which the summaries are arranged in the order of appearance of the partial character strings are registered together with the document IDs in a format that allows a longest forward matching search for each partial character string ( DB) is prepared, and on the other hand, the input document (target document) is converted into a digest similar to the above, and the source document DB is searched with the longest forward match using the digest of this input document as a key. If there is another document whose number of summaries exceeds a predetermined threshold, the document ID is output.

本発明によれば、他の文書のダイジェストを前方最長一致検索可能な形式にてその文書IDとともに登録した原典文書DBを用いるとともに、入力文書をダイジェストに変換し、ダイジェスト同士を比較して引用が含まれるか否かを判定するため、計算量を少なくすることができるとともに、メモリ使用量、ディスク使用量を削減することができるため、大規模化が可能となる。   According to the present invention, a source document DB in which a digest of another document is registered together with its document ID in a format that can be searched for the longest forward match is used, the input document is converted into a digest, and the digests are compared with each other for citation. Since it is determined whether or not it is included, the amount of calculation can be reduced, and the memory usage and disk usage can be reduced, so that the scale can be increased.

また、ダイジェスト同士の一致する要約の数、即ち一致するダイジェストの長さによって引用か否かを判定するため、文書全体に対する引用の割合の大小にかかわらず、引用を検出可能となる。   In addition, since it is determined whether or not the citation is based on the number of digests that match the digests, that is, the length of the matched digests, the citation can be detected regardless of the ratio of the citation to the entire document.

さらにまた、引用の単位となり得る部分文字列の出現順を保存したまま、ダイジェストの一致する長さで判定するため、文書全体における類似度の高低にかかわらず、引用のみを正しく検出可能となる。   Furthermore, since the order of appearance of the partial character strings that can be a citation unit is preserved and the determination is made based on the matching length of the digests, only the citation can be correctly detected regardless of the level of similarity in the entire document.

従来技術の課題を示す説明図Explanatory drawing showing the problems of the prior art 本発明の原典文書データベース生成装置の実施の形態の一例を示す構成図The block diagram which shows an example of embodiment of the original document database production | generation apparatus of this invention ダイジェスト生成手段の詳細を示す構成図Configuration diagram showing details of digest generation means ダイジェスト生成手段における処理の流れ図Process flow in digest generation means 原典文書DB生成手段における処理の流れ図Flow chart of processing in original document DB generation means 本発明の引用検出装置の実施の形態の一例を示す構成図The block diagram which shows an example of embodiment of the quotation detection apparatus of this invention 引用開始位置及び引用終了位置の説明図Explanatory drawing of citation start position and citation end position 引用検出手段における処理の流れ図Flow chart of processing in citation detection means Suffix Arrayの説明図Illustration of Suffix Array 原典文書集合からダイジェストを生成する際の一例を示す説明図Explanatory drawing which shows an example at the time of producing | generating a digest from a source document collection 原典文書集合からダイジェストを生成する際の一例を示す説明図Explanatory drawing which shows an example at the time of producing | generating a digest from a source document collection 原典文書集合からダイジェストを生成する際の一例を示す説明図Explanatory drawing which shows an example at the time of producing | generating a digest from a source document collection 原典文書集合からダイジェストを生成する際の一例を示す説明図Explanatory drawing which shows an example at the time of producing | generating a digest from a source document collection ダイジェストから原典文書DBを生成する際の一例を示す説明図Explanatory drawing which shows an example at the time of producing | generating a source document DB from a digest 入力文書からダイジェストを生成する際の一例を示す説明図Explanatory drawing which shows an example at the time of producing | generating a digest from an input document 入力文書から引用を検出する際の一例を示す説明図Explanatory drawing showing an example when detecting citations from input documents

本発明において、引用検出を行うには、事前に原典文書DBを作成しておく必要があるため、まず、原典文書集合から原典文書DBを生成する原典文書データベース生成装置について説明し、その次に、原典文書DBに基づいて入力文書中に引用が含まれているかどうかを判定する引用検出装置について説明する。   In the present invention, in order to perform citation detection, it is necessary to create a source document DB in advance. First, a source document database generation device that generates a source document DB from a source document set will be described, and then A citation detection apparatus that determines whether a citation is included in an input document based on the original document DB will be described.

<原典文書データベース生成装置>
図2は本発明の原典文書データベース生成装置の実施の形態の一例を示すもので、図中、1は原典文書集合、2はダイジェスト生成手段、3は原典文書DB生成手段、4は原典文書DBである。
<Original document database generator>
FIG. 2 shows an example of an embodiment of a source document database generation apparatus according to the present invention. In the figure, 1 is a source document set, 2 is a digest generation unit, 3 is a source document DB generation unit, and 4 is a source document DB. It is.

原典文書集合1は、引用元の候補となる文書、例えば各種ニュースサイト、プレスリリース、Wikipedia等の文書の集合からなるもので、各文書には予め固有の文書IDが付されているものとする。   The original document set 1 is composed of a set of documents that are candidates for citations, for example, various news sites, press releases, Wikipedia, and the like, and each document is assigned a unique document ID in advance. .

ダイジェスト生成手段2は、原典文書集合1中の各文書について、文書の文字列を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約、ここではフィンガープリントをそれぞれ生成し、各フィンガープリントを前記部分文字列の出現順に並べて構成した前記文書のダイジェストをその文書IDとともに原典文書DB生成手段3へ出力する。   For each document in the original document set 1, the digest generation means 2 divides the document character string into partial character strings that can serve as citation units, generates a summary of the partial character string, here a fingerprint, The digest of the document in which the fingerprints are arranged in the order of appearance of the partial character strings is output to the original document DB generation unit 3 together with the document ID.

図3はダイジェスト生成手段2の詳細構成を示すもので、セグメンテーション部21、正規化部22、足切り部23及びフィンガープリント生成部24からなっている。また、図4はダイジェスト生成手段2における処理の流れを示すものである。   FIG. 3 shows a detailed configuration of the digest generation means 2, which includes a segmentation unit 21, a normalization unit 22, a foot cut unit 23, and a fingerprint generation unit 24. FIG. 4 shows the flow of processing in the digest generating means 2.

セグメンテーション部21は、入力された文書(テキスト)の文字列を任意のセパレータで区切ることによって引用の単位となり得る部分文字列(以下、セグメント)に分割し、各セグメントをその出現順の情報、ここでは各セグメントの開始位置及び終了位置、並びに前記文書の文書IDとともに正規化部22へ出力する。なお、セパレータとしては、文の区切り位置に現れる頻度の高い任意の文字、記号、これらの組合せ(パターン)、制御文字、タグ等が考えられる。また、開始位置及び終了位置としては、文書の文頭からの文字位置等が考えられる。   The segmentation unit 21 divides a character string of an input document (text) into arbitrary character strings (hereinafter referred to as segments) that can be a citation unit by dividing the character string by an arbitrary separator, and information about the order of appearance of each segment, here Then, the start position and end position of each segment and the document ID of the document are output to the normalization unit 22. In addition, as a separator, arbitrary characters, symbols, combinations (patterns), control characters, tags, and the like that frequently appear at sentence break positions are conceivable. Further, as the start position and the end position, a character position from the beginning of the document can be considered.

正規化部22は、セグメンテーション部21から入力された各セグメントを正規化し、正規化後の各セグメントをその開始位置及び終了位置、並びに文書IDとともに足切り部23へ出力する。ここで、正規化としては、具体的には、アルファベットの大文字小文字の正規化、全角半角文字の正規化、記号の除去、HTMLやXML等のタグの除去等が考えられるが、任意に設定可能である。   The normalization unit 22 normalizes each segment input from the segmentation unit 21 and outputs each segment after normalization to the cut-off unit 23 together with its start position and end position and document ID. Here, specific examples of normalization include normalization of upper and lower case letters of the alphabet, normalization of full-width and half-width characters, removal of symbols, removal of tags such as HTML and XML, etc., but can be arbitrarily set It is.

足切り部23は、正規化部22から入力された正規化後の各セグメントのうち、一定の長さ(length)以下のセグメントを削除し、残りの正規化後の各セグメントをその開始位置及び終了位置、並びに文書IDとともにフィンガープリント生成部24へ出力する。なお、前記一定の長さ(length)の単位としては文字、バイト(byte)、ビット(bit)等が考えられ、その値は任意に変更可能である。   The cut-off unit 23 deletes a segment having a length equal to or less than a certain length from each segment after normalization input from the normalization unit 22, and replaces each segment after normalization with its start position and The end position and the document ID are output to the fingerprint generation unit 24. In addition, as the unit of the fixed length, a character, a byte, a bit, or the like can be considered, and the value can be arbitrarily changed.

フィンガープリント生成部24は、足切り部23から入力された残りの正規化後の各セグメントを任意のハッシュ関数に入力してフィンガープリントをそれぞれ生成し、各フィンガープリントを前記各セグメントの開始位置及び終了位置に従って並べて構成した前記文書のダイジェスト(フィンガープリント列)を各セグメントの開始位置及び終了位置、並びに文書IDとともに出力する。   The fingerprint generation unit 24 inputs each remaining normalized segment input from the cut-off unit 23 to an arbitrary hash function to generate a fingerprint, and generates each fingerprint as a start position of each segment and A digest (fingerprint string) of the documents arranged side by side according to the end position is output together with the start position and end position of each segment and the document ID.

原典文書DB生成手段3は、ダイジェスト生成手段2から入力された原典文書集合1中の各文書に対応するダイジェストについて、前記セグメント毎に前方最長一致検索可能な形式でその文書IDとともに登録して原典文書DB4を生成する。図5は原典文書DB生成手段3における処理の流れを示すものである。   The source document DB generation unit 3 registers the digest corresponding to each document in the source document set 1 input from the digest generation unit 2 together with its document ID in a format that allows the longest forward matching search for each segment. A document DB 4 is generated. FIG. 5 shows the flow of processing in the original document DB generation means 3.

ここで、前方最長一致検索可能なデータベースの形式として、どのようなものを用いても良いが、一例として(後述する)公知のSuffix Arrayを用いることができる。   Here, any database format that can be searched for the longest forward match can be used, but a known Suffix Array (described later) can be used as an example.

原典文書DB4は、原典文書集合1からダイジェスト生成手段2及び原典文書DB生成手段3によって生成されたデータベース、即ち原典文書集合1中の各文書について、文書の文字列を引用の単位となり得るセグメントに分割し、当該セグメントのフィンガープリントをそれぞれ生成し、各フィンガープリントを前記セグメントの出現順に並べて構成した前記文書のダイジェストを、前記セグメント毎に前方最長一致検索可能な形式でその文書IDとともに登録してなるデータベースである。   The source document DB 4 is a database generated from the source document set 1 by the digest generation unit 2 and the source document DB generation unit 3, that is, for each document in the source document set 1, the document character string is a segment that can be a citation unit. Divide and generate fingerprints for each segment, and register the digest of the document in which each fingerprint is arranged in the order of appearance of the segments, along with its document ID in a format that allows the longest forward matching search for each segment. It is a database.

図6は本発明の引用検出装置の実施の形態の一例を示すもので、図中、4は原典文書DB、5はダイジェスト生成手段、6は引用検出手段である。   FIG. 6 shows an example of an embodiment of the citation detection apparatus of the present invention. In the figure, 4 is an original document DB, 5 is a digest generation means, and 6 is a citation detection means.

ダイジェスト生成手段5は、処理対象が入力文書(引用検出対象文書)となる点を除き前述した原典文書データベース生成装置のダイジェスト生成手段2と同一であり、入力文書の文字列を引用の単位となり得るセグメントに分割し、当該セグメントのフィンガープリントをそれぞれ生成し、各フィンガープリントを前記セグメントの開始位置及び終了位置に従って並べて構成した前記入力文書のダイジェストを各セグメントの開始位置及び終了位置、並びにその文書IDとともに引用検出手段6へ出力する。   The digest generation means 5 is the same as the digest generation means 2 of the original document database generation apparatus described above except that the processing target is an input document (quotation detection target document), and the character string of the input document can be a citation unit. Divide into segments, generate fingerprints of the segments, and arrange the digests of the input documents according to the start position and end position of the segments. At the same time, it is output to the citation detection means 6.

引用検出手段6は、ダイジェスト生成手段5から入力された入力文書のダイジェストをキーとして原典文書DB4を前方最長一致で検索し、一致するフィンガープリントの数が所定の閾値以上の他の文書があればその文書ID(引用元文書ID)を、引用開始位置及び引用終了位置とともに出力する。   The citation detection unit 6 searches the original document DB 4 with the longest forward match using the digest of the input document input from the digest generation unit 5 as a key, and if there is another document whose number of matching fingerprints is equal to or greater than a predetermined threshold value. The document ID (citation source document ID) is output together with the citation start position and citation end position.

ここで、引用開始位置及び引用終了位置とは、図7に示すように、対象文書(入力文書)中の引用元文書からの引用部分の先頭位置及び終了位置をそれぞれ表すものとする。   Here, as shown in FIG. 7, the citation start position and the citation end position represent the start position and the end position of the citation portion from the citation source document in the target document (input document), respectively.

図8は引用検出手段6における処理の流れを示すもので、以下、詳細に説明する。   FIG. 8 shows the flow of processing in the citation detection means 6, which will be described in detail below.

ステップ1:一致するフィンガープリント数の最小値として予め定義された値minを所定の閾値Minに代入し、ステップ2に移る。   Step 1: A value min defined in advance as the minimum value of the number of matching fingerprints is substituted into a predetermined threshold value Min, and the process proceeds to Step 2.

ステップ2:ダイジェスト生成手段5から入力された入力文書のダイジェストの末尾まで探索済みであれば終了し、探索済みでなければステップ3に移る。   Step 2: If the search has been completed up to the end of the digest of the input document input from the digest generation means 5, the process ends. If not, the process proceeds to Step 3.

ステップ3:入力文書のダイジェストをキーとして原典文書DB4から前方最長一致のエントリを検索し、ステップ4に移る。   Step 3: Using the digest of the input document as a key, search the source document DB 4 for the longest forward entry, and go to Step 4.

ステップ4:一致したフィンガープリント数が所定の閾値Min以上のエントリが検索された場合は引用であるとみなしてステップ5に移り、閾値未満の場合はステップ8に移る。   Step 4: If an entry with a matching fingerprint count equal to or greater than the predetermined threshold Min is found, it is regarded as citation, and the process proceeds to Step 5, and if it is less than the threshold, the process proceeds to Step 8.

ステップ5:入力文書のダイジェスト中の前記一致したフィンガープリントのうち、先頭のフィンガープリントに対応するセグメントの開始位置及び末尾のフィンガープリントに対応するセグメントの終了位置をそれぞれ引用開始位置及び引用終了位置として、一致したエントリの文書ID(引用元文書ID)とともに出力し、ステップ6に移る。   Step 5: Among the matched fingerprints in the digest of the input document, the start position of the segment corresponding to the first fingerprint and the end position of the segment corresponding to the last fingerprint are set as the citation start position and the citation end position, respectively. , Output together with the document ID (cited document ID) of the matched entry, and go to Step 6.

ステップ6:Minの値をステップ4で検出した引用部分の長さ(一致したフィンガープリント数)に変更し、ステップ7に移る。   Step 6: The value of Min is changed to the length of the quoted portion detected in Step 4 (number of matched fingerprints), and the process proceeds to Step 7.

ステップ7:入力文書のダイジェストを1フィンガープリントだけ末尾側へシフトし、ステップ2に戻る。   Step 7: The digest of the input document is shifted toward the end by one fingerprint, and the process returns to Step 2.

ステップ8:入力文書のダイジェストを1フィンガープリントだけ末尾側へシフトし、ステップ9に移る。   Step 8: The digest of the input document is shifted toward the end by one fingerprint, and the process proceeds to Step 9.

ステップ9:Minの値を1だけ減算(但し、Min≧min)し、ステップ2に戻る。   Step 9: Subtract 1 from the value of Min (where Min ≧ min), and return to Step 2.

<Suffix Array>
Suffix Array(接尾辞配列)とは、高速な文字列検索を可能にするデータ構造であり、どんな部分文字列でも検索可能、単純な仕組みなので実装が簡単という特徴を有する。但し、事前にインデックス(suffix Array)を作成しておく必要がある。
<Suffix Array>
The Suffix Array (suffix array) is a data structure that enables high-speed character string search, and can be searched for any partial character string, and has a feature that it is easy to implement because it is a simple mechanism. However, it is necessary to create an index (suffix array) in advance.

Suffixを文字単位で構成する場合を例にとってSuffix Arrayの作成方法を説明すると、まず、文字列中の各文字に先頭から連番でインデックスポイント(Index point)を割り当て、各インデックスポイントから末尾までの文字列(Suffix)をそれぞれ作成する。そして、各Suffixを辞書順にソートし、その際のインデックスポイント列がsuffix Arrayとなる。   A method for creating a Suffix Array will be described by taking the case where the Suffix is composed of characters as an example. First, an index point is assigned to each character in the character string in order from the beginning, and from each index point to the end. Each character string (Suffix) is created. Then, each Suffix is sorted in dictionary order, and the index point sequence at that time becomes a Suffix Array.

文字列が「ABABDAC」の場合、図9(a)に示すようにIndex pointが与えられ、さらに各Suffixとして「ABABDAC」,「BABDAC」,「ABDAC」,……と得られるが、これらをまとめると、図9(b)に示すようになる。そして、各Suffixを辞書順にソートすると、図9(c)に示すようになり、その結果、図9(d)に示すようなSuffix Arrayが得られる。   When the character string is “ABABDAC”, an index point is given as shown in FIG. 9A, and further, “ABABDAC”, “BABDAC”, “ABDAC”,... As shown in FIG. Then, when each Suffix is sorted in dictionary order, it becomes as shown in FIG. 9C, and as a result, a Suffix Array as shown in FIG. 9D is obtained.

図10乃至図13はダイジェスト生成手段2により原典文書集合からダイジェストを生成する際の一例、ここでは原典文書集合中の文書ID:AAAの文書「今日は、良い天気だなぁ。明日は晴れるかな?晴れるといいな。」からダイジェストを生成する例を示すものである(なお、図10乃至図13には記載の一部に重複有り。)。   FIG. 10 to FIG. 13 show an example of generating a digest from the original document set by the digest generating means 2. Here, the document with document ID: AAA in the original document set “Today is good weather. Will it clear tomorrow? An example of generating a digest from “I hope it clears” is shown (note that there are some overlaps in the descriptions in FIGS. 10 to 13).

まず、セグメンテーション部21により、“。”及び“?”をセパレータとしてセグメントに分割すると、セグメント#1「今日は、良い天気だなぁ。」、セグメント#2「明日は晴れるかな?」、セグメント#3「晴れるといいな。」に分割される。この際、各セグメント#1,#2,#3の開始位置は「1,13,22」であり、終了位置は「12,21,29」である。   First, when the segmentation unit 21 divides “.” And “?” Into segments, the segment # 1 “Today is fine weather today”, the segment # 2 “Is it fine tomorrow?”, The segment # 3 Divided into "I hope it's sunny". At this time, the start positions of the segments # 1, # 2, and # 3 are “1, 13, 22”, and the end positions are “12, 21, 29”.

次に、正規化部22により、句読点及び記号を除去する正規化を行うと、セグメント#1「今日は良い天気だなぁ」、セグメント#2「明日は晴れるかな」、セグメント#3「晴れるといいな」となる。   Next, when normalization unit 22 performs normalization to remove punctuation marks and symbols, segment # 1 “It ’s a good weather today”, segment # 2 “Is it fine for tomorrow”, segment # 3 “It ’s good to be fine” ""

次に、足切り部23により、5文字以下のセグメントを削除するが、ここではいずれも5文字より多いため、削除されるセグメントはない。   Next, a segment of 5 characters or less is deleted by the cut-off unit 23. However, since all of the segments have more than 5 characters, no segment is deleted.

最後に、フィンガープリント生成部24により、任意のハッシュ関数を用いてセグメント#1,#2,#3毎にフィンガープリントを生成、ここでは4バイトのハッシュ値からなるフィンガープリント#1「a31b」、フィンガープリント#2「e2cd」、フィンガープリント#3「dfde」を生成し、これらを各セグメントの開始位置及び終了位置に従って並べてダイジェスト(フィンガープリント列)「a31be2cddfde」として、前記各セグメントの開始位置及び終了位置、並びに文書ID:AAAとともに出力する。   Finally, the fingerprint generation unit 24 generates a fingerprint for each of the segments # 1, # 2, and # 3 using an arbitrary hash function. Here, the fingerprint # 1 “a31b” including a 4-byte hash value is generated. Fingerprint # 2 “e2cd” and fingerprint # 3 “dfde” are generated and arranged according to the start position and end position of each segment to form a digest (fingerprint string) “a31be2cddfde”, and the start position and end of each segment. Output together with position and document ID: AAA.

図14は原典文書DB生成手段3によりダイジェストから原典文書DBを生成する際の一例、ここではSuffixをフィンガープリント長(ここでは4byte)単位で生成する例を示すものである。   FIG. 14 shows an example of generating the original document DB from the digest by the original document DB generating means 3, here, an example in which Suffix is generated in units of fingerprint length (here, 4 bytes).

原典文書として、前述した文書ID:AAAのダイジェスト(フィンガープリント列)「a31be2cddfde」とともに、文書ID:BBBのダイジェスト「3cdfae51bdac」、文書ID:CCCのダイジェスト「12aab4ad3b42」が入力されたとすると、文書ID:AAAのダイジェストのSuffixとして「a31be2cddfde」,「e2cddfde」,「dfde」、文書ID:BBBのダイジェストのSuffixとして「3cdfae51bdac」,「ae51bdac」,「bdac」、文書ID:CCCのダイジェスト「12aab4ad3b42」のSuffixとして「12aab4ad3b42」,「b4ad3b42」,「3b42」がそれぞれ得られ、辞書順にソートされて図14の右側に示すような原典文書DBが生成される。   If the document ID: AAA digest (fingerprint string) “a31be2cddfde”, the document ID: BBB digest “3cdfae51bdac”, and the document ID: CCC digest “12aab4ad3b42” are input as the original document, the document ID: AAA digest Suffix “a31be2cddfde”, “e2cddfde”, “dfde”, document ID: BBB digest Suffix “3cdfae51bdac”, “ae51bdac”, “bdac”, document ID: Cb ab “Su” 4b "12aab4ad3b42", "b4ad3b42", and "3b42" are obtained and sorted in dictionary order. It is original text document DB such as shown on the right side of FIG. 14 is generated.

図15はダイジェスト生成手段5により入力文書からダイジェストを生成する際の一例、ここでは前記文書ID:AAAの文書を引用として含む、文書ID:JJJの入力文書「友達がこんなこと書いてた。今日は、良い天気だなぁ。明日は晴れるかな?晴れるといいな。でも、明日雨らしいよ。」からダイジェストを生成する例を示すものである。   FIG. 15 shows an example when a digest is generated from an input document by the digest generation means 5. Here, the document ID: JJJ, which includes the document ID: AAA document as a citation, is written by a friend. "It's good weather. Is it fine tomorrow? I hope it is fine. But it's raining tomorrow."

詳細は図10乃至図13に示した実施例1の場合と同様なので省略するが、最終的に、ダイジェスト(フィンガープリント列)「b4a3a31be2cddfde34a2」が、各セグメントの開始位置「1,14,26,35,43」及び終了位置「13,25,34,42,53」、並びに文書ID:JJJとともに出力される。   Details are the same as in the case of the first embodiment shown in FIGS. 10 to 13, and will be omitted. However, the digest (fingerprint sequence) “b4a3a31be2cddfde34a2” finally becomes the start position “1, 14, 26, 35 of each segment”. , 43 ”and end position“ 13, 25, 34, 42, 53 ”and document ID: JJJ.

図16は引用検出手段6により入力文書のダイジェストと原典文書DBを比較して引用を検出する際の一例、ここでは前記文書ID:JJJの入力文書のダイジェストと図14に示した原典文書DBを比較して引用を検出する例を示すものである。   FIG. 16 shows an example of detecting a citation by comparing the digest of the input document and the original document DB by the citation detection means 6, here, the digest of the input document with the document ID: JJJ and the original document DB shown in FIG. An example of detecting citations by comparison is shown.

まず、ダイジェスト「b4a3a31be2cddfde34a2」をキーとして、図14に示した原典文書DBから前方最長一致のエントリを検索するが、一致するエントリは存在しない。そこで、入力文書のダイジェストをフィンガープリント長(ここでは4byte)だけシフトして「a31be2cddfde34a2」とし、これをキーとして前記同様に図14に示した原典文書DBを検索すると、先頭から3フィンガープリント長分、原典文書DB中の文書ID:AAAのダイジェストのSuffix「a31be2cddfde」と一致する。   First, using the digest “b4a3a31be2cddfde34a2” as a key, the forward longest matching entry is searched from the original document DB shown in FIG. 14, but there is no matching entry. Therefore, the digest of the input document is shifted by the fingerprint length (4 bytes in this case) to “a31be2cddfde34a2”, and the original document DB shown in FIG. Document ID in the original document DB: Matches the suffix “A31be2cddfde” of AAA digest.

この際、Minが「2」あるいは「3」であれば、一致したフィンガープリントのうち、先頭のフィンガープリントに対応するセグメントの開始位置及び末尾のフィンガープリントに対応するセグメントの終了位置、ここでは「14」及び「42」をそれぞれ引用開始位置及び引用終了位置として、文書ID:AAAとともに出力する。   At this time, if Min is “2” or “3”, among the matched fingerprints, the start position of the segment corresponding to the first fingerprint and the end position of the segment corresponding to the last fingerprint, 14 ”and“ 42 ”are output together with the document ID: AAA as the citation start position and the citation end position, respectively.

1:原典文書集合、2,5:ダイジェスト生成手段、3:原典文書DB生成手段、4:原典文書DB、6は引用検出手段、21:セグメンテーション部、22:正規化部、23:足切り部、24:フィンガープリント生成部。   1: source document set, 2, 5: digest generation unit, 3: source document DB generation unit, 4: source document DB, 6: citation detection unit, 21: segmentation unit, 22: normalization unit, 23: cut off unit 24: Fingerprint generator.

Claims (4)

入力文書中に、他の文書内の文字列の改変が無い連続した2つ以上の文である引用が含まれているかどうかを検出し、含まれていれば当該他の文書の文書IDを出力する装置であって、
他の文書の集合である原典文書集合中の各文書について、文書の文字列を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約をそれぞれ生成し、各要約を前記部分文字列の出現順に並べて構成した前記文書のダイジェストを、前記部分文字列毎に前方最長一致検索可能な形式でその文書IDとともに登録した原典文書データベースと、
入力文書の文字列を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約をそれぞれ生成し、各要約を前記部分文字列の出現順に並べて構成した前記入力文書のダイジェストをその文書IDとともに出力するダイジェスト生成手段と、
変数Minに所定の値minを設定し、前記入力文書のダイジェストをキーとして原典文書データベースを前方最長一致で検索し、
一致する要約の数が前記変数Min未満であれば、前記入力文書のダイジェストを1つの要約分シフトさせ、前記変数Minを前記値min以上の制約のもとでデクリメントして前方一致検索を繰り返し、
一致する要約の数が前記変数Min以上であれば、引用位置と原典文書の引用元となる文書IDを出力し、前記変数Minに当該一致した要約の数を設定し、前記入力文書のダイジェストを1つの要約分シフトさせて前方一致検索を繰り返す引用検出手段とを備えた
ことを特徴とする引用検出装置。
Detects whether the input document contains citations that are two or more consecutive sentences with no modification of the character string in the other document, and if so, outputs the document ID of the other document A device that performs
For each document in the original document set, which is a set of other documents, the document character string is divided into partial character strings that can serve as citation units, and summaries of the partial character strings are generated, respectively. A source document database in which digests of the documents arranged in the order of appearance of columns are registered together with their document IDs in a format that allows the longest forward matching search for each partial character string;
Dividing the character string of the input document into partial character strings that can be used as citation units, generating summaries of the partial character strings, and arranging the digests of the input documents configured by arranging the summaries in the order of appearance of the partial character strings. Digest generating means for outputting together with the ID;
A predetermined value min is set in the variable Min, and the original document database is searched with the longest forward match using the digest of the input document as a key,
If the number of matching summaries is less than the variable Min, the digest of the input document is shifted by one summary, the variable Min is decremented under the constraint of the value min or more, and a forward matching search is repeated.
If the number of matching summaries is equal to or greater than the variable Min, the citation position and the document ID as the citation source of the original document are output, the number of matching summaries is set in the variable Min, and the digest of the input document is set. A citation detection device comprising: citation detection means that shifts one summary and repeats a forward match search .
請求項1に記載の引用検出装置において、
ダイジェスト生成手段は、
文書の文字列を引用の単位となり得るセグメントに分割し、各セグメントをその出現順の情報、前記文書の文書IDとともに出力するセグメンテーション部と、
前記各セグメントを正規化する正規化部と、
前記正規化後の各セグメントのうち、一定の長さ以下のセグメントを削除する足切り部と、
残りの正規化後の各セグメントを任意のハッシュ関数に入力してフィンガープリントをそれぞれ生成し、各フィンガープリントを前記各セグメントの出現順の情報に従って並べて構成した前記文書のダイジェストをその文書IDとともに出力するフィンガープリント生成部とからなる
ことを特徴とする引用検出装置。
The citation detection device according to claim 1,
The digest generation means
A segmentation unit that divides a character string of a document into segments that can be a unit of citation, and outputs each segment together with information on the order of appearance thereof, and a document ID of the document;
A normalization unit for normalizing each segment;
Of each segment after the normalization, a cut-off part that deletes a segment of a certain length or less,
Each remaining segment after normalization is input to an arbitrary hash function to generate a fingerprint, and a digest of the document configured by arranging each fingerprint according to the order of appearance of each segment is output together with the document ID. A citation detection device comprising:
コンピュータを、請求項1または2に記載の装置の各手段として機能させるためのプログラム。 The program for functioning a computer as each means of the apparatus of Claim 1 or 2 . 請求項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
A computer-readable recording medium on which the program according to claim 3 is recorded.
JP2009027288A 2009-02-09 2009-02-09 Citation detection device, its program and recording medium Active JP4831787B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009027288A JP4831787B2 (en) 2009-02-09 2009-02-09 Citation detection device, its program and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009027288A JP4831787B2 (en) 2009-02-09 2009-02-09 Citation detection device, its program and recording medium

Publications (2)

Publication Number Publication Date
JP2010182238A JP2010182238A (en) 2010-08-19
JP4831787B2 true JP4831787B2 (en) 2011-12-07

Family

ID=42763783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009027288A Active JP4831787B2 (en) 2009-02-09 2009-02-09 Citation detection device, its program and recording medium

Country Status (1)

Country Link
JP (1) JP4831787B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5617674B2 (en) * 2011-02-14 2014-11-05 日本電気株式会社 Inter-document similarity calculation apparatus, inter-document similarity calculation method, and inter-document similarity calculation program
JP5367099B2 (en) * 2012-01-10 2013-12-11 株式会社東芝 Difference location extraction apparatus and program
US8935783B2 (en) * 2013-03-08 2015-01-13 Bitdefender IPR Management Ltd. Document classification using multiscale text fingerprints
JP5948304B2 (en) * 2013-11-05 2016-07-06 日本電信電話株式会社 Cited document alteration detection device and method
JP6561529B2 (en) 2015-03-26 2019-08-21 富士通株式会社 Document inspection apparatus, method, and program
JP6547577B2 (en) 2015-10-15 2019-07-24 富士通株式会社 Inspection apparatus, inspection program and inspection method

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07225761A (en) * 1994-02-08 1995-08-22 Hitachi Ltd Matching verification system for document data
JP3416918B2 (en) * 1995-05-25 2003-06-16 日本電信電話株式会社 Automatic keyword extraction method and device
JP4347086B2 (en) * 2004-02-26 2009-10-21 日本電信電話株式会社 Pattern matching apparatus and method, and program
US7424421B2 (en) * 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking

Also Published As

Publication number Publication date
JP2010182238A (en) 2010-08-19

Similar Documents

Publication Publication Date Title
US7805289B2 (en) Aligning hierarchal and sequential document trees to identify parallel data
JP4831787B2 (en) Citation detection device, its program and recording medium
WO2010047286A1 (en) Search system, search method, and program
US20110078562A1 (en) Method and system for tracking authorship of content in data
US20070038447A1 (en) Pattern matching method and apparatus and speech information retrieval system
CN110046348B (en) Method for recognizing main body in subway design specification based on rules and dictionaries
Liu et al. Ranking-based name matching for author disambiguation in bibliographic data
CN112784009B (en) Method and device for mining subject term, electronic equipment and storage medium
CN111325033B (en) Entity identification method, entity identification device, electronic equipment and computer readable storage medium
Laddha et al. Extracting aspect specific opinion expressions
CN113986950A (en) SQL statement processing method, device, equipment and storage medium
CN113282717B (en) Method and device for extracting entity relationship in text, electronic equipment and storage medium
US20210342534A1 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
Iurshina et al. NILK: entity linking dataset targeting NIL-linking cases
Soori et al. Text similarity based on data compression in Arabic
US11556706B2 (en) Effective retrieval of text data based on semantic attributes between morphemes
Kim et al. Extracting clinical relations in electronic health records using enriched parse trees
Zhang et al. Effective and Fast Near Duplicate Detection via Signature‐Based Compression Metrics
KR101663038B1 (en) Entity boundary detection apparatus in text by usage-learning on the entity&#39;s surface string candidates and mtehod thereof
CN113407693B (en) Text similarity comparison method and device for full-media reading
JP2013222418A (en) Passage division method, device and program
WO2009113289A1 (en) New case generation device, new case generation method, and new case generation program
RU2498401C2 (en) Method to detect text objects
Ting et al. Faster classification using compression analytics
Das et al. Language identification of Bengali-English code-mixed data using character & phonetic based LSTM models

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110511

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110613

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110614

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110615

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110616

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110914

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110916

R150 Certificate of patent or registration of utility model

Ref document number: 4831787

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140930

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350