KR101429623B1 - Duplication news detection system and method for detecting duplication news - Google Patents

Duplication news detection system and method for detecting duplication news Download PDF

Info

Publication number
KR101429623B1
KR101429623B1 KR1020120110179A KR20120110179A KR101429623B1 KR 101429623 B1 KR101429623 B1 KR 101429623B1 KR 1020120110179 A KR1020120110179 A KR 1020120110179A KR 20120110179 A KR20120110179 A KR 20120110179A KR 101429623 B1 KR101429623 B1 KR 101429623B1
Authority
KR
South Korea
Prior art keywords
news
similarity
seed
duplicate
title
Prior art date
Application number
KR1020120110179A
Other languages
Korean (ko)
Other versions
KR20140044156A (en
Inventor
김태환
신동욱
김정선
Original Assignee
한양대학교 에리카산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 에리카산학협력단 filed Critical 한양대학교 에리카산학협력단
Priority to KR1020120110179A priority Critical patent/KR101429623B1/en
Publication of KR20140044156A publication Critical patent/KR20140044156A/en
Application granted granted Critical
Publication of KR101429623B1 publication Critical patent/KR101429623B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법에 관한 것으로, 소정의 시드 뉴스의 제목과 하나 이상의 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 상기 제목 간의 유사도에 기초하여 상기 하나 이상의 대상 뉴스 중에서 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부; 및 상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스 중에서 중복 뉴스를 탐지하는 중복 뉴스 탐지부를 포함하는 중복 뉴스 탐지 시스템을 제공한다.The present invention relates to a duplicate news detection system and a duplicate news detection method, and more particularly, to a duplicate news detection system and a duplicated news detection method, which are capable of calculating similarity between a title of a predetermined seed news and a title of one or more target news, A duplicate candidate news detection unit for detecting duplicate candidate news; And a redundant news detection unit for detecting redundant news among the redundant candidate news based on the similarity between the sentences included in the content of the seed news and the sentences included in the content of the overlap candidate news, To provide a duplicate news detection system.

Figure R1020120110179
Figure R1020120110179

Description

중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법{DUPLICATION NEWS DETECTION SYSTEM AND METHOD FOR DETECTING DUPLICATION NEWS}TECHNICAL FIELD [0001] The present invention relates to a duplicate news detection system and a duplicate news detection method,

본 발명은 중복 뉴스(DUPLICATION NEWS)를 탐지하는 시스템 및 방법에 관한 것이다.The present invention relates to a system and method for detecting DUPLICATION NEWS.

일반적으로, 인터넷 검색 엔진은 실시간 발생하는 사건에 관련된 정보를 여러 뉴스 사이트에서 수집하여 제공한다. 뉴스 사이트들은 매일 많은 양의 뉴스들을 제공하고 있으며, 구독자가 관심을 가질만한 이슈가 되는 사건의 경우 대부분의 뉴스 사이트에서 해당 사건에 관련된 유사한 뉴스 기사를 제공한다. 이에 따라, 검색 엔진에 의하여 검색된 리스트에는 여러 뉴스 사이트에서 수집된 다수의 중복 뉴스(duplication news)가 포함된다. 사용자가 인터넷 검색 엔진에 특정 검색어를 입력하여 뉴스를 검색하는 경우에 있어서도 유사한 내용의 뉴스 기사가 중복해서 나타난다. 이와 같이 검색 엔진은 여러 뉴스 사이트에서 동시에 발생하는 중복 뉴스를 처리하지 않고 있어, 수집된 데이터에 중복이 발생한다는 문제가 있다. 이러한 중복 뉴스로 인해 예를 들어 스마트폰과 같은 개인 단말기의 사용자는 이전에 습득하였던 정보와 유사한 뉴스 기사를 불필요하게 반복적으로 제공받게 되며, 원하는 새로운 뉴스를 찾는데 오랜 시간을 들이게 되는 불편을 겪는다.Generally, the Internet search engine collects and provides information related to the events occurring in real time from various news sites. News sites offer a great deal of news every day, and most news sites offer similar news stories related to the event in cases where the issue is likely to be of interest to subscribers. Accordingly, the list searched by the search engine includes a plurality of duplication news collected from various news sites. Even when a user searches for news by inputting a specific search word into the Internet search engine, a news article of a similar content appears redundantly. As such, the search engine does not process duplicate news that occurs simultaneously in various news sites, and there is a problem in that the collected data is duplicated. Due to such overlapping news, for example, a user of a personal terminal such as a smart phone receives a news article similar to previously acquired information unnecessarily and repeatedly, and suffers from a long time for searching for new news desired.

웹 페이지의 중복 검색을 방지하는 종래의 기술은 크게 완전-중복문서 탐지 기법(exact-duplicate document detection method)과 거의-중복문서 탐지 기법(near-duplicate document detection method)으로 구분될 수 있다. 완전-중복문서 탐지 기법은 완전히 동일한 웹페이지를 검출하는 것으로, 각각의 웹 페이지를 해싱한 후 해시 값을 서로 비교함으로써 중복 여부를 판정한다. 거의-중복문서 탐지 기법은 모든 문서가 가지고 있는 문서의 내용을 스캐닝하여 확인하며, 스캐닝한 문서 내용의 유사도가 거의 같으면 거의-중복문서라고 판정한다. 그런데, 비교 대상 문서들의 개수가 많을수록 중복 문서를 검출하는데 많은 시간이 소비된다. 중복 문서를 검출하는 시간을 줄이기 위해 비교 대상 문서들의 개수를 제한하게 되면, 필요로 하는 뉴스 기사가 유실될 수 있다. 뿐만 아니라, 종래의 기술은 단순히 문장의 단어들 간의 유사도를 비교하여 중복 문서를 탐지하므로, 설명하는 내용이 같더라도 표현하는 방법이 다를 경우 중복 문서를 탐지하지 못하거나, 유사한 단어들을 사용하여 반대되는 내용을 설명하는 문서를 중복 문서로 탐지하는 경우가 발생한다.Conventional techniques for preventing duplicate search of web pages can be roughly divided into an exact-duplicate document detection method and a near-duplicate document detection method. A full-overlapping document detection technique detects entirely the same web page. After hashing each web page, the hash values are compared with each other to determine duplication. Near - duplicate document detection technique checks the contents of all documents and confirms that they are almost - duplicate documents when the similarity of scanned documents is almost the same. However, the larger the number of documents to be compared, the more time is required to detect duplicate documents. Limiting the number of documents to be compared in order to reduce the time for detecting duplicate documents may lead to the loss of necessary news articles. In addition, since the conventional technology simply detects duplicate documents by comparing the similarities between words in a sentence, if the description is the same, the duplicate document can not be detected if the description is different, A document describing the content may be detected as a duplicate document.

본 발명은 효율적이면서도 효과적으로 중복 뉴스를 탐지하는 중복 뉴스 탐지 시스템을 제공하는 것을 목적으로 한다.An object of the present invention is to provide a duplicate news detection system that efficiently and effectively detects duplicate news.

본 발명이 해결하고자 하는 과제는 이상에서 언급된 과제로 제한되지 않는다. 언급되지 않은 다른 기술적 과제들은 이하의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The problems to be solved by the present invention are not limited to the above-mentioned problems. Other technical subjects not mentioned may be clearly understood by those skilled in the art from the following description.

본 발명의 일 측면에 따른 중복 뉴스 탐지 시스템은 소정의 시드 뉴스의 제목과 하나 이상의 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 상기 제목 간의 유사도에 기초하여 상기 하나 이상의 대상 뉴스 중에서 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부; 및 상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스 중에서 중복 뉴스를 탐지하는 중복 뉴스 탐지부를 포함한다.The overlapping news detection system according to an aspect of the present invention calculates a similarity degree between a title of a predetermined seed news and a title of one or more target news items and generates a duplicate candidate news item among the one or more target news items based on the calculated degree of similarity between the titles. Detecting duplicate candidate news detectors; And a redundant news detection unit for detecting redundant news among the redundant candidate news based on the similarity between the sentences included in the content of the seed news and the sentences included in the content of the overlap candidate news, .

상기 중복 후보 뉴스 탐지부는, 상기 시드 뉴스와 상기 대상 뉴스로부터 제목을 추출하고, 추출한 제목에 포함된 단어 중에서 단일 단어로는 의미를 갖지 않는 불용어를 제거하고, 불용어를 제거한 단어를 어근의 형태로 변환하는 전처리부; 및 상기 시드 뉴스의 제목과 각각의 대상 뉴스의 제목 간의 유사도를 산출하고, 산출한 상기 제목 간의 유사도에 기초하여 상기 각각의 대상 뉴스가 상기 중복 후보 뉴스에 해당하는지 여부를 판단하는 중복 후보 뉴스 판단부를 포함한다.The duplicate candidate news detection unit extracts a title from the seed news and the target news, removes an insignificant word that does not have a meaning as a single word among the words included in the extracted title, converts the word without the stop word into a root form Lt; / RTI > And a duplicate candidate news judgment unit for calculating a similarity degree between the title of the seed news and the title of each target news and for judging whether or not each of the target news corresponds to the overlapping candidate news based on the calculated similarity between the titles, .

상기 중복 후보 뉴스 판단부는, 상기 시드 뉴스의 제목과, 검색 엔진의 검색 리스트에 나타나는 상기 대상 뉴스의 앵커 제목 간의 제1 유사도를 산출하는 제1 유사도 산출부; 상기 시드 뉴스의 제목과, 상기 대상 뉴스의 컨텐츠에 나타나는 제목 간의 제2 유사도를 산출하는 제2 유사도 산출부; 상기 제1 유사도 및 상기 제2 유사도 중 보다 큰 유사도를 상기 제목 간의 유사도로 결정하는 유사도 결정부; 및 상기 제목 간의 유사도를 소정의 임계값과 비교하여 상기 중복 후보 뉴스를 탐지하는 임계값 비교부를 포함한다.The duplicate candidate news judgment unit may include a first similarity calculating unit for calculating a first similarity degree between the title of the seed news and the anchor title of the target news appearing in the search list of the search engine; A second similarity calculating unit for calculating a second similarity degree between the title of the seed news and a title appearing in the content of the target news; A degree of similarity determination unit for determining a degree of similarity between the first degree of similarity and the second degree of similarity as a degree of similarity between the titles; And a threshold value comparing unit for comparing the similarity between the titles with a predetermined threshold to detect the overlapping candidate news.

상기 중복 후보 뉴스 판단부는, 상기 시드 뉴스의 제목에서 나타나는 단어의 빈도에 비례하고, 상기 시드 뉴스와 상기 대상 뉴스의 모든 제목에서 나타나는 단어의 빈도에 반비례하는 연산을 수행하여 상기 시드 뉴스의 제목에 나타나는 단어의 가중치를 산출하고, 상기 대상 뉴스의 제목에서 나타나는 단어의 빈도에 비례하고, 상기 시드 뉴스와 상기 대상 뉴스의 모든 제목에서 나타나는 단어의 빈도에 반비례하는 연산을 수행하여 상기 대상 뉴스의 제목에 나타나는 단어의 가중치를 산출하며, 상기 제1 유사도 산출부는, 상기 시드 뉴스의 제목과, 상기 대상 뉴스의 상기 앵커 제목에 동시에 포함되는 단어의 가중치들을 합한 값에서 상기 시드 뉴스의 제목에 포함되는 단어의 가중치들과 상기 앵커 제목에 포함되는 단어의 가중치들을 합한 값으로 나눈 값을 상기 제1 유사도로 산출하며, 상기 제2 유사도 산출부는, 상기 시드 뉴스의 제목과, 상기 대상 뉴스의 상기 컨텐츠의 제목에 동시에 포함되는 단어의 가중치들의 합한 값에서 상기 시드 뉴스의 제목에 포함되는 단어의 가중치들과 상기 컨텐츠의 제목에 포함되는 단어의 가중치들을 합한 값으로 나눈 값을 상기 제2 유사도로 산출한다.Wherein the duplicate candidate news judgment unit performs a calculation in inverse proportion to the frequency of words appearing in the seed news and all titles of the target news in proportion to the frequency of the words appearing in the title of the seed news, A weight of a word to be displayed in the title of the target news is calculated and is inversely proportional to a frequency of a word appearing in all the titles of the seed news and the target news in proportion to a frequency of a word appearing in the title of the target news, Wherein the first similarity calculating unit calculates a weight of a word included in the title of the seed news from a sum of the weight of words included simultaneously in the title of the seed news and the anchor title of the target news, And the weights of the words included in the anchor title. And the second degree of similarity calculating unit calculates the degree of similarity of the seed news based on the sum of the weights of the words simultaneously included in the title of the seed news and the title of the content of the target news in the title of the seed news And the weight of words included in the title of the content is calculated by the second degree of similarity.

상기 중복 뉴스 탐지부는, 상기 시드 뉴스와 상기 중복 후보 뉴스로부터 컨텐츠를 추출하고, 추출한 상기 컨텐츠의 구문을 분석하며, 상기 컨텐츠에서 문장을 검출하는 중복 뉴스 탐지 전처리부; 및 상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하고, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스가 상기 중복 뉴스에 해당하는지 여부를 판단하는 중복 뉴스 판단부를 포함한다.The duplicate news detection unit may include a duplicate news detection pre-processing unit for extracting a content from the seed news and the duplicated candidate news, analyzing a syntax of the extracted content, and detecting a sentence in the content; And calculating a similarity between a sentence included in the content of the seed news and a sentence included in the content of the overlap candidate news, and determining whether the duplicate candidate news corresponds to the duplicated news based on the calculated similarity between the sentences And a duplicate news judgment unit.

상기 중복 뉴스 판단부는, 상기 시드 뉴스의 컨텐츠에 포함된 문장의 단어와, 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장의 단어 간의 유사도를 산출하는 단어 유사도 산출부; 상기 시드 뉴스의 컨텐츠에 포함된 문장의 동사와, 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장의 동사 간의 유사도를 산출하는 동사 유사도 산출부; 상기 단어 간의 유사도와 상기 동사 간의 유사도를 곱셈 연산하고, 상기 시드 뉴스의 문장과, 상기 중복 후보 뉴스의 각각의 문장 간의 곱셈 연산 값 중 가장 큰 값을 상기 문장 간의 유사도로 결정하는 문장 유사도 결정부; 상기 시드 뉴스의 모든 문장에 대하여 산출된 문장 간의 유사도들을 합한 값을 상기 시드 뉴스의 문장 개수 및 상기 중복 후보 뉴스의 문장 개수 중 작은 값으로 나누어 뉴스 관계 유사도를 산출하는 뉴스 관계 유사도 산출부; 및 상기 뉴스 관계 유사도를 소정의 임계값과 비교하여 상기 중복 뉴스를 탐지하는 중복 뉴스 탐지 임계값 비교부를 포함한다.The duplicate news determining unit may include a word similarity calculating unit for calculating a similarity between words of sentences included in the contents of the seed news and words of sentences included in the contents of the duplicate candidate news; A verb similarity calculating unit for calculating a verb similarity between a verb of a sentence included in the content of the seed news and a verb of a sentence included in the content of the duplicate candidate news; A sentence similarity degree determining unit for multiplying the similarity degree between the words and the verb similarity degree to determine the largest value among the multiplication operation values between the sentence of the seed news and the respective sentence of the overlapping candidate news as the degree of similarity between the sentences; A news relation similarity calculating unit for calculating a news relation similarity by dividing a sum of similarities between sentences calculated for all sentences of the seed news by a smaller value among a number of sentences of the seed news and a number of sentences of the overlap candidate news; And a duplicate news detection threshold value comparing unit for comparing the news relation similarity with a predetermined threshold to detect the duplicate news.

상기 단어 유사도 산출부는, 상기 시드 뉴스의 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 비례하고, 상기 시드 뉴스와 상기 중복 후보 뉴스의 모든 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 반비례하는 연산을 수행하여 상기 시드 뉴스의 단어의 가중치를 산출하고, 상기 중복 후보 뉴스의 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 비례하고, 상기 시드 뉴스와 상기 중복 후보 뉴스의 모든 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 반비례하는 연산을 수행하여 상기 중복 후보 뉴스의 단어의 가중치를 산출하며, 상기 시드 뉴스의 문장과, 상기 중복 후보 뉴스의 문장에 동시에 포함되는 동사를 제외한 단어의 가중치들을 합한 값에서 상기 시드 뉴스의 문장에 포함되는 동사를 제외한 단어의 가중치들과 상기 중복 후보 뉴스의 문장에 포함되는 동사를 제외한 단어의 가중치들을 합한 값으로 나눈 값을 상기 단어 간의 유사도로 산출한다.Wherein the word similarity degree calculation unit calculates a word similarity degree based on a ratio of a frequency of words in a sentence of the seed news to a frequency of words except for a verb appearing in sentences of all the contents of the seed news and the overlap candidate news, The weight of the words of the seed news is calculated, and the weight of the words of the seed news and the contents of all the contents of the duplicate candidate news, which are proportional to the frequency of the words excluding the verb appearing in the sentence of the content of the duplicate candidate news, The weight of the words of the overlapping candidate news is calculated and the sum of the weights of the words excluding the verbs included in the sentence of the overlapping candidate news simultaneously The verb contained in the sentence of the seed news And calculates the value obtained by dividing the sum of the weights of the words, except for the company included in the sentence of words except the overlapping candidate with the weight of the news by the degree of similarity between the words.

상기 동사 유사도 산출부는, 상기 시드 뉴스의 문장과 상기 중복 후보 뉴스의 문장에서 나타나는 동사를 공통으로 포함하는 워드넷 용어집 기반 계층에서의 최 하위 계층 상위 동사를 검출하고, 상기 시드 뉴스의 문장에서 나타나는 동사, 상기 중복 후보 뉴스의 문장에서 나타나는 동사 및 상기 최 하위 계층 상위 동사의 동의어 어휘의 개수에 비례하는 연산을 수행하여 확률 값을 산출하며, 산출한 상기 확률 값을 이용하여 상기 동사 간의 유사도를 산출한다.Wherein the verb similarity calculation unit detects a lowest-level upper verb in a WordNet glossary-based hierarchy that commonly includes a verb appearing in the sentence of the seed news and a sentence of the overlap candidate news, and verbs appearing in the sentence of the seed news , A probability value is calculated by performing an operation proportional to the number of synonym vocabularies of the verb appearing in the sentence of the duplicate candidate news and the lowest verb algebra verb, and the similarity degree between the verbs is calculated using the calculated probability value .

상기 중복 뉴스 탐지 전처리부는, 상기 시드 뉴스와 상기 중복 후보 뉴스의 태그를 제거하고, 상기 시드 뉴스와 상기 중복 후보 뉴스로부터 컨텐츠를 추출하는 태그 제거부; 상기 컨텐츠의 구문을 분석하는 구문 분석부; 상기 컨텐츠로부터 문장을 검출하는 문장 검출부; 상기 문장으로부터 동사를 추출하는 동사 추출부; 및 상기 문장의 단어 중에서 단일 단어로는 의미를 갖지 않는 불용어를 제거하고, 불용어를 제거한 단어를 어근의 형태로 변환하는 불용어 제거 및 어근 처리부를 포함한다.The duplicate news detection preprocessing unit removes the tags of the seed news and the duplicated candidate news, and extracts the content from the seed news and the duplicate candidate news; A syntax analyzer for analyzing the syntax of the content; A sentence detection unit detecting a sentence from the content; A verb extraction unit for extracting a verb from the sentence; And a root processing unit for removing an insignificant word which does not have a meaning as a single word among the words of the sentence, and for converting a word obtained by removing an insignificant word into a root form.

상기 시드 뉴스는 하나 이상의 뉴스 제공 서버 시스템에서 제공하는 헤드라인 뉴스를 포함하며, 상기 하나 이상의 대상 뉴스는 상기 시드 뉴스의 제목에 나타나는 단어를 포함하는 검색어를 이용하여 검색 엔진이 검색한 뉴스들을 포함한다.The seed news includes headline news provided by one or more news providing server systems, and the one or more target news includes news searched by a search engine using a search word including a word appearing in the title of the seed news .

상기 중복 뉴스 탐지 시스템은 탐지된 상기 중복 뉴스의 리스트를 제거한 웹 페이지를 제공하거나, 상기 시드 뉴스와 상기 중복 뉴스를 결합한 웹 페이지를 제공하는 뉴스 추천부를 더 포함한다.The duplicate news detection system further includes a news recommendation unit for providing a web page from which the list of the detected duplicate news is removed or a web page combining the combined news and the duplicated news.

본 발명의 다른 일 측면에 따른 중복 뉴스 탐지 시스템은 소정의 시드 뉴스를 저장하는 시드뉴스 데이터베이스; 상기 시드 뉴스의 제목에 나타나는 단어를 포함하는 검색어를 이용하여 대상 뉴스들을 검색하는 검색 엔진; 검색된 상기 대상 뉴스들을 저장하는 대상 뉴스 데이터베이스; 상기 시드 뉴스와 상기 대상 뉴스들 각각으로부터 제목을 추출하고, 추출한 상기 시드 뉴스의 제목과 상기 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 상기 제목 간의 유사도에 기초하여 상기 대상 뉴스들 중에서 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부; 상기 시드 뉴스와 상기 중복 후보 뉴스로부터 컨텐츠를 추출하고, 추출한 상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스 중에서 중복 뉴스를 탐지하는 중복 뉴스 탐지부; 탐지된 상기 중복 뉴스를 저장하는 중복 뉴스 데이터베이스; 및 탐지된 상기 중복 뉴스의 리스트를 제거한 웹 페이지를 제공하거나, 상기 시드 뉴스와 상기 중복 뉴스를 결합한 웹 페이지를 제공하는 뉴스 추천부를 포함한다.According to another aspect of the present invention, there is provided a duplicated news detection system including: a seed news database storing predetermined seed news; A search engine for searching for target news using a search term including a word appearing in a title of the seed news; A target news database storing the searched target news; Extracting a title from each of the seed news and the target news, calculating a degree of similarity between the title of the extracted seed news and the title of the target news, calculating a degree of similarity between the seed news and the target news, A duplicate candidate news detection unit for detecting a duplicate candidate news; Extracting content from the seed news and the overlap candidate news, calculating a similarity between a sentence included in the extracted content of the seed news and a sentence contained in the content of the overlap candidate news, and based on the calculated similarity between the sentences, A duplicate news detecting unit for detecting duplicate news among the duplicate candidate news; A duplicate news database for storing the duplicate news detected; And a news recommending unit for providing a web page from which the list of the detected duplicate news is removed or a web page combining the seed news and the duplicate news.

본 발명의 실시예에 의하면 효율적이면서도 효과적으로 중복 뉴스를 탐지할 수 있다.According to the embodiment of the present invention, it is possible to detect duplicate news efficiently and effectively.

도 1은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템의 구성도이다.
도 2는 시드 뉴스와, 중복 뉴스에 해당하는 대상 뉴스의 일 예를 보여주는 도면이다.
도 3은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 후보 뉴스 탐지부의 구성도이다.
도 4는 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 후보 뉴스 판단부의 구성도이다.
도 5는 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 뉴스 탐지부의 구성도이다.
도 6은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 뉴스 탐지 전처리부의 구성도이다.
도 7은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 뉴스 판단부의 구성도이다.
도 8은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 방법의 흐름도이다.
도 9는 본 발명의 일 실시예에 따른 중복 뉴스 탐지 방법을 실행하는 프로그램을 보여주는 도면이다.
도 10은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 방법에 의하여 줄어드는 연산양의 비율과 검색된 적합한 데이터 비율 간의 관계를 보여주는 그래프이다.
도 11은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 방법에 의한 카테고리별 재현율, 정확률 및 F-measure를 보여주는 그래프이다.
1 is a block diagram of a duplicate news detection system according to an embodiment of the present invention.
FIG. 2 is a diagram showing an example of a news item corresponding to seed news and overlapping news.
FIG. 3 is a configuration diagram of a duplicate candidate news detection unit constituting a duplicate news detection system according to an embodiment of the present invention.
FIG. 4 is a configuration diagram of a duplicate candidate news determiner configuring a duplicate news detection system according to an embodiment of the present invention.
FIG. 5 is a configuration diagram of a duplicate news detecting unit that constitutes a duplicated news detecting system according to an embodiment of the present invention.
FIG. 6 is a block diagram of a duplicate news detection preprocessing unit constituting a duplicated news detection system according to an embodiment of the present invention.
FIG. 7 is a block diagram of a duplicate news determination unit that configures a duplicate news detection system according to an embodiment of the present invention.
FIG. 8 is a flowchart of a duplicate news detection method according to an embodiment of the present invention.
9 is a diagram showing a program for executing a duplicate news detection method according to an embodiment of the present invention.
FIG. 10 is a graph showing a relationship between a ratio of operation amount reduced by the overlapping news detection method and an appropriate data ratio retrieved according to an exemplary embodiment of the present invention.
FIG. 11 is a graph showing the recall rate, the accuracy rate, and the F-measure for each category according to the overlapping news detection method according to an embodiment of the present invention.

본 발명의 다른 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술 되는 실시 예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예는 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 만일 정의되지 않더라도, 여기서 사용되는 모든 용어들(기술 혹은 과학 용어들을 포함)은 이 발명이 속한 종래 기술에서 보편적 기술에 의해 일반적으로 수용되는 것과 동일한 의미를 갖는다. 일반적인 사전들에 의해 정의된 용어들은 관련된 기술 그리고/혹은 본 출원의 본문에 의미하는 것과 동일한 의미를 갖는 것으로 해석될 수 있고, 그리고 여기서 명확하게 정의된 표현이 아니더라도 개념화되거나 혹은 과도하게 형식적으로 해석되지 않을 것이다.Other advantages and features of the present invention and methods of achieving them will become apparent with reference to the embodiments described below in detail with reference to the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as being limited to the embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, and will fully convey the concept of the invention to those skilled in the art. Is provided to fully convey the scope of the invention to those skilled in the art, and the invention is only defined by the scope of the claims. Although not defined, all terms (including technical or scientific terms) used herein have the same meaning as commonly accepted by the generic art in the prior art to which this invention belongs. Terms defined by generic dictionaries may be interpreted to have the same meaning as in the related art and / or in the text of this application, and may be conceptualized or overly formalized, even if not expressly defined herein I will not.

본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 '포함한다' 및/또는 이 동사의 다양한 활용형들은 언급된 구성요소, 단계 및/또는 동작 외의 하나 이상의 다른 구성요소, 단계 및/또는 동작의 존재 또는 추가를 배제하지 않는다. 본 명세서에서 '및/또는' 이라는 용어는 나열된 구성들 각각 또는 이들의 다양한 조합을 가리킨다.The terminology used herein is for the purpose of illustrating embodiments and is not intended to be limiting of the present invention. In the present specification, the singular form includes plural forms unless otherwise specified in the specification. As used herein, the terms "comprises" and / or various uses of the verb do not exclude the presence or addition of one or more other elements, steps and / or operations other than the recited elements, steps and / or operations. The term 'and / or' as used herein refers to each of the listed configurations or various combinations thereof.

한편, 본 명세서 전체에서 사용되는 '~부'의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미할 수 있다. 예를 들어 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미할 수 있다. 그렇지만 '~부'가 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '~부'에서 제공되는 기능은 더 작은 수의 구성요소 및 '~부'로 결합되거나 추가적인 구성요소와 '~부'로 더 분리될 수 있다.The term " part " used throughout this specification may mean a unit for processing at least one function or operation. For example, a hardware component, such as a software, FPGA, or ASIC. However, "to" is not meant to be limited to software or hardware. &Quot; to " may be configured to reside on an addressable storage medium and may be configured to play one or more processors. Thus, by way of example, 'parts' may refer to components such as software components, object-oriented software components, class components and task components, and processes, functions, , Subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays, and variables. The functions provided in the components and parts can be combined into a smaller number of components and 'parts' or further separated into additional components and parts.

본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템은 시드 뉴스와 대상 뉴스의 제목 간의 유사도를 이용한 1차 클러스터링을 수행하여 1차적으로 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부와, 시드 뉴스와 대상 뉴스의 컨텐츠의 문장 간의 유사도를 이용한 2차 클러스터링을 수행하여 2차적으로 중복 뉴스를 탐지하는 중복 뉴스 탐지부를 포함한다. 본 발명의 실시예에 의하면 중복 뉴스를 탐지하는데 소요되는 전체 시간을 줄일 수 있다. 또한, 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템은 중복 뉴스 탐지부가 시드 뉴스와 중복 후보 뉴스의 동사를 제외한 단어 간의 유사도 및 시드 뉴스와 중복 후보 뉴스의 동사 간의 유사도를 이용하여 중복 후보 뉴스 중에서 중복 뉴스를 탐지하므로, 중복 뉴스를 정확하게 검출할 수 있다.The overlapping news detection system according to an embodiment of the present invention includes a duplicated candidate news detection unit for performing first clustering using the similarity between the seed news and the target news to detect overlapping candidate news, And a duplicate news detecting unit for detecting duplicate news by performing second-order clustering using similarity between sentences of news contents. According to the embodiment of the present invention, the total time required for detecting duplicate news can be reduced. In addition, the duplicate news detection system according to an embodiment of the present invention uses redundancy news detection unit, duplication candidate news, redundancy candidate news, duplication candidate news, Since it detects news, duplicate news can be accurately detected.

도 1은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템의 구성도이다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템은 시드 뉴스 데이터베이스(101), 검색 엔진(102), 대상 뉴스 데이터베이스(103), 중복 후보 뉴스 탐지부(110), 중복 뉴스 탐지부(120), 중복 뉴스 데이터베이스(130) 및 뉴스 추천부(140)를 포함한다.1 is a block diagram of a duplicate news detection system according to an embodiment of the present invention. Referring to FIG. 1, a duplicate news detection system according to an embodiment of the present invention includes a seed news database 101, a search engine 102, a target news database 103, a duplicate candidate news detection unit 110, A detection unit 120, a duplicate news database 130, and a news recommendation unit 140. [

시드 뉴스 데이터베이스(101)는 시드 뉴스(seed news)들을 저장한다. 시드 뉴스는 대상 뉴스(target news) 중에서 중복 뉴스를 탐지하기 위해 대상 뉴스와 비교되는 뉴스를 의미할 수 있다. 시드 뉴스는 예를 들어 뉴스 제공 서브시스템(104, 105, 106)에서 제공하는 헤드라인 뉴스(headline news)를 포함할 수 있다. 일 예로, 시드 뉴스 데이터베이스(101)는 어느 하나의 뉴스 제공 서브시스템에서 카테고리별로 제공하는 헤드라인 뉴스를 저장할 수 있다. 카테고리는 예를 들어, "정치", "경제", "사회", "문화", "연예" 또는 "스포츠" 등을 포함할 수 있다.The seed news database 101 stores seed news. The seed news may mean news compared with the target news to detect duplicate news among the target news. The seed news may include, for example, a headline news provided by the news providing subsystem 104, 105, 106. For example, the seed news database 101 may store headline news provided for each category in one news providing subsystem. Categories may include, for example, "politics", "economy", "society", "culture", "entertainment" or "sports"

대상 뉴스 데이터베이스(103)는 대상 뉴스(target news)들을 저장한다. 중복 후보 뉴스 탐지부(110) 및 중복 뉴스 탐지부(120)에 의해 대상 뉴스들 중 시드 뉴스와 중복되는 내용을 포함하는 대상 뉴스가 중복 뉴스로 탐지된다. 대상 뉴스는 예를 들어 검색 엔진(102)이 시드 뉴스의 제목에 나타나는 단어를 포함하는 검색어를 이용하여 검색한 뉴스들을 포함할 수 있다. 대상 뉴스는 예를 들어 카테고리별로 수집된 헤드라인 뉴스의 제목에 나타나는 단어들을 검색어로 하여 검색 엔진(102)에 의해 검색된 뉴스일 수 있다.The target news database 103 stores target news. The duplicate candidate news detecting unit 110 and the duplicate news detecting unit 120 detect the target news including the duplicate of the seed news among the target news as the duplicated news. The target news may include, for example, news that the search engine 102 searched using a search term including a word appearing in the title of the seed news. The target news may be news retrieved by the search engine 102 using, for example, words appearing in the title of the headline news collected for each category as a search term.

도 2는 시드 뉴스와, 중복 뉴스에 해당하는 대상 뉴스의 일 예를 보여주는 도면이다. 도 2를 참조하면, 시드 뉴스와 대상 뉴스는 동일한 내용을 포함할 수 있으며, 이러한 경우 대상 뉴스를 중복 뉴스로 탐지할 필요가 있다. 예를 들어 도 2에서 좌측의 시드 뉴스는 인터뷰 내용을 생략하여 제공하며, 우측의 대상 뉴스는 인터뷰 내용(21)을 생략하지 않고 제공한 거의-중복 뉴스의 예에 해당한다. 시드 뉴스와 대상 뉴스가 설명하는 내용이 같더라도 표현하는 방법이 다를 경우 대상 뉴스를 중복 뉴스로 탐지하지 못하거나, 중복 뉴스로 탐지하는데 많은 시간이 소요될 수 있다.FIG. 2 is a diagram showing an example of a news item corresponding to seed news and overlapping news. Referring to FIG. 2, the seed news and the target news may include the same contents. In this case, it is necessary to detect the target news as duplicate news. For example, the seed news on the left in FIG. 2 omits the interview contents, and the target news on the right corresponds to an example of almost-duplicate news provided without omission of the interview content (21). If seed news and target news are the same, the target news may not be detected as duplicate news or it may take a long time to detect duplicate news.

본 발명의 실시예에 따른 중복 뉴스 탐지 시스템은 대상 뉴스들 중에서 중복 뉴스를 빠르고 정확하게 탐지하기 위하여, 중복 후보 뉴스 탐지부(110)와 중복 뉴스 탐지부(120)를 포함한다. 예를 들어 시드 뉴스는 제목(title)과, 컨텐츠(contents)를 포함하며, 대상 뉴스는 텍스트 제목(text title)과, 컨텐츠(contents)를 포함한다. 검색 엔진에 의해 대상 뉴스가 검색될 때, 검색 엔진의 검색 리스트에는 대상 뉴스의 앵커 제목(anchor title)이 나타난다. 대상 뉴스의 제목은 텍스트 제목과 앵커 제목을 포함한다.The overlapping news detection system according to an embodiment of the present invention includes a duplicate candidate news detection unit 110 and a duplicate news detection unit 120 to quickly and accurately detect duplicated news among target news. For example, the seed news includes a title and contents, and the target news includes a text title and contents. When the target news is searched by the search engine, an anchor title of the target news appears in the search list of the search engine. The title of the target news includes a text title and an anchor title.

중복 후보 뉴스 탐지부(110)는 시드 뉴스와 대상 뉴스의 제목(앵커 제목, 텍스트 제목) 간의 유사도에 기초하여 1차적으로 대상 뉴스들 중에서 중복 후보 뉴스를 빠른 속도로 탐지하고, 중복 뉴스 탐지부(120)는 시드 뉴스와 대상 뉴스의 컨텐츠 간의 유사도에 기초하여 2차적으로 중복 후보 뉴스들 중에서 중복 뉴스를 정확하게 탐지할 수 있다.The overlapping candidate news detecting unit 110 detects the overlapping candidate news among the target news at a high speed on the basis of the similarity between the seed news and the title of the target news (anchor title, text title) 120 can precisely detect duplicate news among duplicated candidate news based on the similarity between the seed news and the content of the target news.

중복 후보 뉴스 탐지부(110)는 시드 뉴스와 대상 뉴스들 각각으로부터 제목을 추출하고, 추출한 시드 뉴스의 제목과 각각의 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 제목 간의 유사도에 기초하여 대상 뉴스들 중에서 중복 후보 뉴스를 탐지한다. 도 3은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 후보 뉴스 탐지부의 구성도이다. 도 3을 참조하면, 중복 후보 뉴스 탐지부(110)는 전처리부(111)와 중복 후보 뉴스 판단부(112)를 포함한다. 전처리부(111)는 시드 뉴스와 대상 뉴스로부터 제목을 추출하고, 추출한 제목에 포함된 단어 중에서 불용어를 제거하고, 불용어를 제거한 단어를 어근의 형태로 변환한다. 본 발명의 일 실시예에 있어서, 중복 후보 뉴스 탐지부(110)는 대상 뉴스의 텍스트 제목과 앵커 제목 각각을 시드 뉴스의 제목과 비교하여 중복 후보 뉴스를 탐지할 수 있으며, 이러한 경우 전처리부(111)는 시드 뉴스의 제목과, 대상 뉴스의 텍스트 제목 및 앵커 제목에 대하여 전처리(preprocessing)를 수행할 수 있다.The duplicate candidate news detection unit 110 extracts a title from each of the seed news and the target news, calculates the degree of similarity between the title of the extracted seed news and the title of each target news, Of the candidates. FIG. 3 is a configuration diagram of a duplicate candidate news detection unit constituting a duplicate news detection system according to an embodiment of the present invention. Referring to FIG. 3, the overlapping candidate news detection unit 110 includes a preprocessing unit 111 and a duplicate candidate news determination unit 112. The preprocessing unit 111 extracts the title from the seed news and the target news, removes the abbreviation from the words included in the extracted title, and converts the word without the abbreviation into the form of the root. In an embodiment of the present invention, the overlapping candidate news detection unit 110 may detect overlapping candidate news by comparing each of the text title and the anchor title of the target news with the title of the seed news. In this case, the pre- ) Can perform preprocessing on the title of the seed news, the text title of the target news, and the anchor title.

일 실시예에 있어서, 전처리부(111)는 <title></title>과 같은 HTML 태그(Tag) 정보를 이용하여 시드 뉴스 및 대상 뉴스들로부터 제목을 추출할 수 있다. 전처리부(111)는 추출된 제목에 나타나는 단어에서 불용어(stop word)를 제거하고, 어근 처리(stemming)를 한다. 불용어는 예를 들어 관사 'the', 'a', 'an', 전치사 'to', 'of', 'in', 'into', 'for' 등과 같이 발생 빈도가 높지만 단일 단어로는 의미를 가지지 않는 것을 말한다. 어근 처리는 키워드의 어형론적 변형을 찾아내서 동일한 의미의 여러 단어를 하나의 단어로 변환하는 작업을 의미한다. 예를 들어 영문에서 단어들은 일정 의미를 갖는 어근(stem)과 단어의 형태 변화 타입인 어미(suffix)로 구성되는데, 전처리부(111)는 단어들을 의미를 갖는 어근의 형태로 변환한다. 예를 들어, 'description', 'descriptive', 'descriptor'를 어근 처리하면, 'descript'의 같은 단어로 변경된다.In one embodiment, the preprocessing unit 111 may extract the title from the seed news and the target news using HTML tag information such as <title> </ title>. The preprocessing unit 111 removes a stop word from a word appearing in the extracted title, and performs stemming. An abbreviation is a word that occurs frequently, for example, articles 'the', 'a', 'an', prepositions 'to', 'of', 'in', 'into', 'for' It does not have. The root processing refers to the task of finding the morphological transformation of a keyword and converting multiple words of the same meaning into a single word. For example, words in English are composed of a stem having a certain meaning and a suffix, which is a morphological change type of a word. The preprocessor 111 converts words into a form of a root having meaning. For example, if you parse 'description', 'descriptive', or 'descriptor', it will be changed to the same word in 'descript'.

중복 후보 뉴스 판단부(112)는 시드 뉴스의 제목과 각각의 대상 뉴스의 제목 간의 유사도를 산출하고, 산출한 제목 간의 유사도에 기초하여 각각의 대상 뉴스가 중복 후보 뉴스에 해당하는지 여부를 판단한다. 앞서 언급한 바와 같이, 대상 뉴스의 제목은 검색 엔진의 리스트에 나타나는 앵커 제목(anchor title)과 상세 페이지에 나타나는 텍스트 제목(text title)의 두 가지로 구성될 수 있으며, 중복 후보 뉴스 판단부(112)는 시드 뉴스의 제목과 대상 뉴스의 앵커 제목 간의 유사도 및 시드 뉴스의 제목과 대상 뉴스의 텍스트 제목 간의 유사도에 기초하여 대상 뉴스들 중에서 중복 후보 뉴스를 추출할 수 있다. 일 실시예에 있어서, 중복 후보 뉴스 판단부(112)는 후술될 벡터 모델(vector model)과 변형된 다이스 상관 계수(Dice's coefficient)를 이용하여 제목 간의 유사도를 구하고, 제목 간의 유사도가 미리 설정된 임계값 이상인 대상 뉴스를 중복 뉴스가 될 가능성이 있는 중복 후보 뉴스로 분류할 수 있다.The duplicate candidate news determiner 112 calculates the degree of similarity between the title of the seed news and the title of each target news, and determines whether each target news corresponds to the overlap candidate news based on the calculated degree of similarity between the titles. As described above, the title of the target news may be composed of an anchor title appearing in the list of search engines and a text title appearing on the detail page. The duplicate candidate news determiner 112 ) Can extract duplicate candidate news from the target news based on the similarity between the seed news title and the anchor title of the target news and the similarity between the seed news title and the target news text title. In one embodiment, the overlapping candidate news determiner 112 obtains a similarity between titles using a vector model and a modified Dice's coefficient, which will be described later, Or more of the target news may be classified as duplicate candidate news which may be duplicated news.

도 4는 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 후보 뉴스 판단부의 구성도이다. 도 4를 참조하면, 중복 후보 뉴스 판단부(112)는 제1 유사도 산출부(1121), 제2 유사도 산출부(1122), 유사도 결정부(1123) 및 임계값 비교부(1124)를 포함한다. 제1 유사도 산출부(1121)는 시드 뉴스의 제목과, 검색 엔진의 검색 리스트에 나타나는 대상 뉴스의 앵커 제목 간의 제1 유사도를 산출한다. 제2 유사도 산출부(1122)는 시드 뉴스의 제목과, 대상 뉴스의 컨텐츠에 나타나는 제목 간의 제2 유사도를 산출한다. 유사도 결정부(1123)는 제1 유사도 및 제2 유사도 중 보다 큰 유사도를 제목 간의 유사도로 결정한다. 임계값 비교부(1124)는 제목 간의 유사도를 소정의 임계값과 비교하여 중복 후보 뉴스를 탐지한다.FIG. 4 is a configuration diagram of a duplicate candidate news determiner configuring a duplicate news detection system according to an embodiment of the present invention. 4, the overlapping candidate news determiner 112 includes a first similarity calculating unit 1121, a second similarity calculating unit 1122, a similarity determining unit 1123, and a threshold comparing unit 1124 . The first degree of similarity calculating unit 1121 calculates a first degree of similarity between the title of the seed news and the anchor title of the target news appearing in the search list of the search engine. The second similarity degree calculating section 1122 calculates a second similarity degree between the title of the seed news and the title appearing in the content of the target news. The similarity determination unit 1123 determines a degree of similarity between the first similarity degree and the second similarity degree as similarities between the titles. The threshold value comparator 1124 compares the similarity between titles with a predetermined threshold to detect duplicate candidate news.

이를 보다 구체적으로 설명하면 다음과 같다. 전처리부(111)에 의해 시드 뉴스와 대상 뉴스로부터 추출되어 불용어가 제거되고 어근 처리된 단어들은 아래의 수식 1과 같은 집합들로 나타낼 수 있다.This will be described in more detail as follows. The words extracted from the seed news and the target news by the preprocessing unit 111, and the words that have been excluded from the abbreviations and are root-processed, can be represented by the following Equation (1).

[수식 1][Equation 1]

Figure 112012080501450-pat00001
Figure 112012080501450-pat00001

이때, STi는 i번째 시드 뉴스의 제목에 나타나는 단어들의 집합을 나타내고, CTj는 수집된 j번째 대상 뉴스의 텍스트 제목에 나타나는 단어들의 집합을 나타내고, ATj는 수집된 j번째 대상 뉴스의 앵커 제목에 나타나는 단어들의 집합을 나타내고, sti ,k는 i번째 시드 뉴스의 제목에 나타나는 k번째 단어를 나타내고, ctj ,m는 수집된 j번째 대상 뉴스의 텍스트 제목에 나타나는 m번째 단어를 나타내고, atj ,n는 수집된 j번째 대상 뉴스의 앵커 제목에 나타나는 n번째 단어를 나타낸다.In this case, ST i denotes a set of words appearing in the title of the i-th seed news, CT j denotes a set of words appearing in the text title of the collected j-th target news, AT j denotes anchor St i , k represents the kth word appearing in the title of the ith seed news, ct j , m represents the mth word appearing in the text title of the collected jth news, at j , n represents the n-th word appearing in the anchor title of the collected j-th target news.

중복 후보 뉴스 판단부(112)는 시드 뉴스의 제목에서 나타나는 단어의 빈도에 비례하고, 시드 뉴스와 대상 뉴스의 모든 제목에서 나타나는 단어의 빈도에 반비례하는 연산을 수행하여 시드 뉴스의 제목에 나타나는 단어의 가중치를 산출하고, 대상 뉴스의 제목에서 나타나는 단어의 빈도에 비례하고, 시드 뉴스와 대상 뉴스의 모든 제목에서 나타나는 단어의 빈도에 반비례하는 연산을 수행하여 대상 뉴스의 제목에 나타나는 단어의 가중치를 산출할 수 있다. 중복 후보 뉴스 판단부(112)는 예를 들어 아래의 수식 2와 같이 tf-itf(term frequency inverse title frequency)를 이용하여 단어의 가중치를 산출할 수 있다.The duplicate candidate news determiner 112 performs an operation that is inversely proportional to the frequency of the words appearing in the seed news and all the titles of the target news in proportion to the frequency of the words appearing in the title of the seed news, The weights of the words appearing in the title of the target news are calculated by performing an operation in inverse proportion to the frequency of the words appearing in all the titles of the seed news and the target news in proportion to the frequency of the words appearing in the title of the target news . The duplicate candidate news determiner 112 may calculate the weight of the word using the term frequency inverse title frequency (tf-itf) as shown in Equation 2 below.

[수식 2][Equation 2]

Figure 112012080501450-pat00002
Figure 112012080501450-pat00002

이때, ωt는 시드 뉴스 또는 대상 뉴스의 제목(앵커 제목 또는 컨텐츠 제목)에 나타나는 단어의 가중치를 나타내고,

Figure 112012080501450-pat00003
는 시드 뉴스와 대상 뉴스의 제목에서의 단어의 정규화 빈도를 나타내며,
Figure 112012080501450-pat00004
는 단어의 역제목 빈도수(itf; inverse title frequency)를 나타내며, │T│는 시드 뉴스와 대상 뉴스의 전체 제목의 개수를 나타내며,
Figure 112012080501450-pat00005
는 시드 뉴스와 대상 뉴스의 전체 제목에서 단어 ω가 나타나는 수를 나타낸다. 역제목 빈도수
Figure 112012080501450-pat00006
는 제목에서 흔하게 나오는 단어의 가중치를 낮추는 역할을 한다. 수식 2에서 제목 t에서의 단어 ω의 정규화 빈도
Figure 112012080501450-pat00007
는 아래의 수식 3과 같이 정의될 수 있다.Here,? T represents a weight of a word appearing in the title of the seed news or the target news (anchor title or content title)
Figure 112012080501450-pat00003
Represents the frequency of word normalization in the headings of the seed news and the target news,
Figure 112012080501450-pat00004
Represents the inverse title frequency (itf) of the word, T represents the total number of titles of the seed news and the target news,
Figure 112012080501450-pat00005
Represents the number of occurrences of the word omega in the entire title of the seed news and the target news. Station title frequency
Figure 112012080501450-pat00006
Is used to lower the weight of words that are common in the title. In Equation 2, the normalization frequency of the word &lt; RTI ID = 0.0 &gt;
Figure 112012080501450-pat00007
Can be defined as Equation (3) below.

[수식 3][Equation 3]

Figure 112012080501450-pat00008
Figure 112012080501450-pat00008

이때, freqω,T는 제목 t에서 나타나는 단어 ω의 빈도를 나타내고, maxlfreql,t는 제목 t에서 나타나는 단어들의 빈도들 중 최대값을 나타낸다.In this case, freq ω, T represents the frequency of the word ω appearing in the title t, and max l freq l, t represents the maximum frequency among the frequencies of the words appearing in the title t.

제1 유사도 산출부(1121)는 시드 뉴스의 제목에 나타나는 단어의 가중치와, 대상 뉴스의 앵커 제목에 나타나는 단어의 가중치를 이용하여 시드 뉴스의 제목과 대상 뉴스의 앵커 제목 간의 제1 유사도를 산출한다. 일 실시예에 있어서, 제1 유사도 산출부(1121)는 시드 뉴스의 제목과, 대상 뉴스의 앵커 제목에 동시에 포함되는 단어의 가중치들을 합한 값에서 시드 뉴스의 제목에 포함되는 단어의 가중치들과 앵커 제목에 포함되는 단어의 가중치들을 합한 값으로 나눈 값을 제1 유사도로 산출할 수 있다. 제1 유사도 산출부(1121)는 시드 뉴스의 제목과 대상 뉴스의 앵커 제목에 나타나는 단어의 가중치를 변형된 다이스 상관계수의 수식에 적용함으로써, 단어의 중요도를 반영하여 제1 유사도를 산출할 수 있다. 예를 들어 제1 유사도 산출부(1121)는 아래의 수식 4와 같은 변형된 다이스 상관계수의 수식을 이용하여 시드 뉴스의 제목과 대상 뉴스의 앵커 제목에서 나타나는 단어의 가중치로부터 제1 유사도를 산출할 수 있다.The first similarity calculating unit 1121 calculates the first similarity degree between the seed news title and the anchor title of the target news using the weight of the word appearing in the title of the seed news and the weight of the word appearing in the anchor title of the target news . In one embodiment, the first similarity calculation unit 1121 calculates the weight of words included in the title of the seed news and the weights of the words included in the title of the seed news and the anchor title of the target news, A value obtained by dividing the weights of the words included in the title by the total value can be calculated as the first degree of similarity. The first degree of similarity calculating unit 1121 can calculate the first degree of similarity by reflecting the importance of the word by applying the weights of the words appearing in the title of the seed news and the anchor title of the target news to the formula of the deformed degree correlation coefficient . For example, the first degree-of-similarity calculation unit 1121 calculates the first degree of similarity from the weight of the word appearing in the title of the seed news and the anchor title of the target news using the formula of the modified dice correlation coefficient as shown in Equation 4 below .

[수식 4][Equation 4]

Figure 112012080501450-pat00009
Figure 112012080501450-pat00009

수식 4에서,

Figure 112012080501450-pat00010
는 i번째 시드 뉴스의 제목에 나타나는 단어들의 집합 STi과, 수집된 j번째 대상 뉴스의 앵커 제목에 나타나는 단어들의 집합 ATj 사이의 제1 유사도를 나타내고, p는 시드 뉴스의 제목과 대상 뉴스의 앵커 제목에서 동시에 나타나는 단어를 나타내며, c는 시드 뉴스의 제목과 대상 뉴스의 앵커 제목에서 동시에 나타나는 단어의 개수를 나타내며, sti ,p는 시드 뉴스의 제목에서 나타나는 단어의 가중치를 나타내며, atj ,p는 대상 뉴스의 앵커 제목에서 나타나는 단어의 가중치를 나타내며, a는 시드 뉴스의 제목에서 나타나는 단어의 개수를 나타내며, b는 대상 뉴스의 앵커 제목에서 나타나는 단어의 개수를 나타낸다.In Equation 4,
Figure 112012080501450-pat00010
Represents the first degree of similarity between the set ST i of words appearing in the title of the i th seed news and the set of words AT j appearing in the anchor title of the collected j th target news, p is the title of the seed news, C denotes the number of words appearing simultaneously in the title of the seed news and the anchor title of the target news, st i , p denotes the weight of words appearing in the title of the seed news, and at j , p represents the weight of words appearing in the anchor title of the target news, a represents the number of words appearing in the title of the seed news, and b represents the number of words appearing in the anchor title of the target news.

제2 유사도 산출부(1121)는 시드 뉴스의 제목에 나타나는 단어의 가중치와, 대상 뉴스의 텍스트 제목에 나타나는 단어의 가중치를 이용하여 시드 뉴스의 제목과 대상 뉴스의 텍스트 제목 간의 제2 유사도를 산출한다. 일 실시예에 있어서, 제2 유사도 산출부(1122)는 시드 뉴스의 제목과, 대상 뉴스의 컨텐츠의 텍스트 제목에 동시에 포함되는 단어의 가중치들의 합한 값에서 시드 뉴스의 제목에 포함되는 단어의 가중치들과 대상 뉴스의 텍스트 제목에 포함되는 단어의 가중치들을 합한 값으로 나눈 값을 제2 유사도로 산출할 수 있다.The second similarity calculating unit 1121 calculates a second similarity degree between the title of the seed news and the text title of the target news using the weight of the word appearing in the title of the seed news and the weight of the word appearing in the text title of the target news . In one embodiment, the second degree of similarity calculation unit 1122 calculates the weight of words included in the title of the seed news from the sum of the weights of the words simultaneously included in the title of the seed news and the text title of the content of the target news And the weights of the words included in the text title of the target news by the sum of the weights.

제2 유사도 산출부(1122)는 시드 뉴스의 제목과 대상 뉴스의 텍스트 제목에 나타나는 단어의 가중치를 변형된 다이스 상관계수의 수식에 적용함으로써 단어의 중요도를 반영하여 제2 유사도를 산출할 수 있다. 예를 들어 제2 유사도 산출부(1122)는 아래의 수식 5와 같은 변형된 다이스 상관계수의 수식을 이용하여 시드 뉴스의 제목과 대상 뉴스의 텍스트 제목에서 나타나는 단어의 가중치로부터 제2 유사도를 산출할 수 있다.The second degree of similarity calculating unit 1122 may calculate the second degree of similarity by reflecting the importance of the word by applying the weights of the words appearing in the title of the seed news and the text title of the target news to the formula of the modified degree correlation coefficient. For example, the second degree of similarity calculation unit 1122 calculates a second degree of similarity from the weight of a word appearing in the title of the seed news and the text title of the target news using the formula of the modified dies correlation coefficient as shown in the following equation (5) .

[수식 5][Equation 5]

Figure 112012080501450-pat00011
Figure 112012080501450-pat00011

수식 5에서,

Figure 112012080501450-pat00012
는 i번째 시드 뉴스의 제목에 나타나는 단어들의 집합 STi과, 수집된 j번째 대상 뉴스의 텍스트 제목에 나타나는 단어들의 집합 CTj 사이의 제2 유사도를 나타내며, p는 시드 뉴스의 제목과 대상 뉴스의 텍스트 제목에서 동시에 나타나는 단어를 나타내며, c는 시드 뉴스의 제목과 대상 뉴스의 텍스트 제목에서 동시에 나타나는 단어의 개수를 나타내며, sti ,k는 시드 뉴스의 제목에서 나타나는 단어의 가중치를 나타내며, ctj ,m는 대상 뉴스의 텍스트 제목에서 나타나는 단어의 가중치를 나타내며, a는 시드 뉴스의 제목에서 나타나는 단어의 개수를 나타내며, b는 대상 뉴스의 텍스트 제목에서 나타나는 단어의 개수를 나타낸다.In Equation 5,
Figure 112012080501450-pat00012
Represents the second similarity between the set ST i of words appearing in the title of the i th seed news and the set of words CT j in the text title of the collected j th target news, p is the title of the seed news, C denotes the number of words appearing simultaneously in the title of the seed news and the text title of the target news, st i , k denotes the weight of words appearing in the title of the seed news, ct j , m represents the weight of words appearing in the text title of the target news, a represents the number of words appearing in the title of the seed news, and b represents the number of words appearing in the text title of the target news.

유사도 결정부(1123)는 예를 들어 아래의 수식 6에 따라 제1 유사도

Figure 112012080501450-pat00013
와, 제2 유사도
Figure 112012080501450-pat00014
중에서 최대값을 판단하여 이로부터 시드 뉴스의 제목과 대상 뉴스의 제목 간의 유사도
Figure 112012080501450-pat00015
를 산출한다.For example, the similarity determination unit 1123 determines the similarity degree &lt; RTI ID = 0.0 &gt;
Figure 112012080501450-pat00013
And a second similarity degree
Figure 112012080501450-pat00014
And the similarity between the title of the seed news and the title of the target news
Figure 112012080501450-pat00015
.

[수식 6][Equation 6]

Figure 112012080501450-pat00016
Figure 112012080501450-pat00016

예를 들어, 시드 뉴스 A의 제목에 나타나는 단어가 a, b, c이고, 대상 뉴스 B의 앵커 제목에 나타나는 단어가 a, c, d이고, 대상 뉴스 B의 컨텐츠 제목에 나타나는 단어가 b, c, d인 경우, 앞서 언급된 수식 2를 사용하면 단어 a, b, c, d 각각에 대한 단어의 가중치는 0.1, 0.2, 0.3, 0.2로 산출된다. 시드 뉴스 A의 제목과 대상 뉴스 B의 앵커 제목에서 동시에 나타나는 단어는 a, c이므로, 수식 4에서 분자

Figure 112012080501450-pat00017
는 (0.1+0.3)+(0.1+0.3) = 0.8의 값을 가지며,
Figure 112012080501450-pat00018
는 0.1+0.2+0.3 = 0.6이고,
Figure 112012080501450-pat00019
는 0.1+0.3+0.2 = 0.6이 되어 분모
Figure 112012080501450-pat00020
+
Figure 112012080501450-pat00021
는 1.2의 값을 갖는다. 이에 따라, 제1 유사도
Figure 112012080501450-pat00022
는 0.8/1.2 = 0.67의 값을 갖게 된다.For example, if the words appearing in the title of seed news A are a, b, and c, the words appearing in the anchor title of target news B are a, c, and d, and the words appearing in the content title of target news B are b, c , d, the weight of the word for each of the words a, b, c, and d is calculated as 0.1, 0.2, 0.3, and 0.2 using Equation 2 mentioned above. Since the words simultaneously appearing in the seed news A's title and the target news B's anchor title are a and c,
Figure 112012080501450-pat00017
Has a value of (0.1 + 0.3) + (0.1 + 0.3) = 0.8,
Figure 112012080501450-pat00018
0.1 + 0.2 + 0.3 = 0.6,
Figure 112012080501450-pat00019
Is 0.1 + 0.3 + 0.2 = 0.6,
Figure 112012080501450-pat00020
+
Figure 112012080501450-pat00021
Has a value of 1.2. Accordingly,
Figure 112012080501450-pat00022
Has a value of 0.8 / 1.2 = 0.67.

시드 뉴스 A의 제목과 대상 뉴스 B의 컨텐츠 제목에 동시에 나오는 단어는 b, c이므로, 수학식 5에 의해 분자

Figure 112012080501450-pat00023
는 (0.2+0.3)+(0.2+0.3) = 1의 값을 가지며,
Figure 112012080501450-pat00024
는 0.1+0.2+0.3 = 0.6이 되고,
Figure 112012080501450-pat00025
은 0.2+0.3+0.2 = 0.7이 되어, 분모
Figure 112012080501450-pat00026
+
Figure 112012080501450-pat00027
는 1.3의 값을 갖는다. 이에 따라, 제2 유사도
Figure 112012080501450-pat00028
는 1/1.3 = 0.77의 값을 갖게 된다.Since the words simultaneously appearing in the title of the seed news A and the title of the target news B are b and c,
Figure 112012080501450-pat00023
Has a value of (0.2 + 0.3) + (0.2 + 0.3) = 1,
Figure 112012080501450-pat00024
Is 0.1 + 0.2 + 0.3 = 0.6,
Figure 112012080501450-pat00025
Is 0.2 + 0.3 + 0.2 = 0.7,
Figure 112012080501450-pat00026
+
Figure 112012080501450-pat00027
Has a value of 1.3. Accordingly,
Figure 112012080501450-pat00028
1 / 1.3 = 0.77.

유사도 결정부(1123)는 앞서 언급된 수식 6에 따라 제1 유사도와 제2 유사도 중 큰 값인 0.77을 시드 뉴스의 제목과 대상 뉴스의 제목 간의 유사도

Figure 112012080501450-pat00029
로 결정할 수 있다. 임계값 비교부(1124)는 산출된 제목 간의 유사도를 미리 결정된 임계값 α과 비교하여, 임계값 α를 넘으면 대상 뉴스를 중복 후보 뉴스로 분류하고, 임계값 α를 넘지 않으면 중복 후보 뉴스에서 제외한다. 전술한 과정에 따라 중복 후보 뉴스 탐지부(110)에 의해 1차 클러스터링(Clustering)이 수행된다.The similarity determination unit 1123 determines whether the similarity degree between the title of the seed news and the title of the target news is 0.77, which is a larger value of the first similarity and the second similarity, according to Equation (6)
Figure 112012080501450-pat00029
. The threshold value comparator 1124 compares the similarity between the calculated titles with a predetermined threshold value alpha, classifies the target news as overlapping candidate news if the threshold value exceeds the threshold, and excludes the overlapping candidate news if the threshold value does not exceed the threshold value alpha . Clustering is performed by the overlapping candidate news detection unit 110 according to the above-described process.

다시 도 1을 참조하면, 중복 뉴스 탐지부(120)는 시드 뉴스와 중복 후보 뉴스로부터 컨텐츠를 추출하고, 추출한 시드 뉴스의 컨텐츠에 포함된 문장과 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 문장 간의 유사도에 기초하여 중복 후보 뉴스 중에서 중복 뉴스를 탐지한다. 중복 뉴스 탐지부(120)는 분류된 중복 후보 뉴스의 내용을 분석하여 시드 뉴스의 내용과 유사도 비교를 통해 최종적으로 중복 뉴스인지 아닌지를 판별한다.Referring again to FIG. 1, the overlapping news detection unit 120 extracts content from seed news and overlapping candidate news, calculates the similarity between the sentences included in the extracted seed news and the sentences included in the content of the duplicate candidate news And detects duplicate news among duplicate candidate news based on the similarity between the calculated sentences. The duplicate news detecting unit 120 analyzes the contents of the classified duplicated candidate news and determines whether or not the duplicated news is finally determined by comparing the similarity with the contents of the seed news.

일 실시예에 있어서, 중복 뉴스 탐지부(120)는 전체 내용이 아닌 문장 단위의 의미적 접근을 통해 시드 뉴스와 중복 후보 뉴스의 내용 간의 유사도를 산출할 수 있다. 일반적인 방식에 따라 문장 간의 유사도를 산출하는 경우, 전혀 다른 상반된 내용임에도 불구하고 유사도가 높게 산출되는 경우가 발생할 수 있다. 예를 들어 아래의 세 개의 문장들 중 첫 번째와 세 번째 문장은 전혀 다른 상반된 내용이나, 일반적인 문장 간의 유사도 산출 방식에 의하면 단어들의 유사성으로 인해 유사도가 높게 산출될 수 있다.In one embodiment, the overlapping news detection unit 120 can calculate the similarity between the seed news and the contents of the overlapping candidate news through a semantic approach in units of sentences not the whole content. When the similarity between sentences is calculated according to the general method, the degree of similarity may be calculated to be high despite the completely different contents. For example, the first and third sentences of the following three sentences are entirely different from each other, but the similarity between words can be calculated to be high due to the similarity of words according to the method of calculating similarity between general sentences.

① I bought a computer from a computer shop in Yongsan.① I bought a computer from a computer shop in Yongsan.

② The computer was purchased from a computer shop in Yongsan.② The computer was purchased from a computer shop in Yongsan.

③ The computer was sold to a computer shop in Yongsan..③ The computer was sold to a computer shop in Yongsan ..

이에 따라, 본 발명의 실시예는 문장이 가지는 단어의 색인어와 동사를 구분하여 문장의 유사도를 정확하게 산출한다.Accordingly, the embodiment of the present invention accurately calculates the similarity of a sentence by distinguishing an index word and a verb from the words of the sentence.

도 5는 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 뉴스 탐지부의 구성도이다. 도 5를 참조하면, 중복 뉴스 탐지부(120)는 중복 뉴스 탐지 전처리부(121) 및 중복 뉴스 판단부(122)를 포함한다. 중복 뉴스 탐지 전처리부(121)는 시드 뉴스와 중복 후보 뉴스로부터 컨텐츠를 추출하고, 추출한 컨텐츠의 구문을 분석하며, 컨텐츠에서 문장을 검출한다.FIG. 5 is a configuration diagram of a duplicate news detecting unit that constitutes a duplicated news detecting system according to an embodiment of the present invention. Referring to FIG. 5, the overlapping news detection unit 120 includes a duplicated news detection preprocessing unit 121 and a duplicated news determination unit 122. [ The duplicate news detection preprocessing unit 121 extracts the content from the seed news and the duplicated candidate news, analyzes the syntax of the extracted content, and detects the sentence in the content.

도 6은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 뉴스 탐지 전처리부의 구성도이다. 도 6을 참조하면, 중복 뉴스 탐지 전처리부(121)는 태그 제거부(1211), 구문 분석부(1212), 문장 검출부(1213), 동사 추출부(1214) 및 불용어 제거 및 어근 처리부(1215)를 포함한다. 태그 제거부(1211)는 시드 뉴스와 중복 후보 뉴스의 태그를 제거하고, 시드 뉴스와 중복 후보 뉴스로부터 컨텐츠를 추출한다. 태그 제거부(1211)는 예를 들어 시드 뉴스와 중복 후보 뉴스에서 웹 페이지에 나타나는 HTML 태그(Tag)나, 불필요한 태그들을 제거한다. 구문 분석부(1212)는 컨텐츠의 구문을 분석한다. 구문 분석부(1212)는 예를 들어 스탠포드 파서와 같은 형태소 분석기를 이용하여 태그가 제거된 웹 페이지 뉴스를 구문 분석하여 명사와 동사를 인식할 수 있다. 형태소 분석기는 형태소들로 구성된 단어를 구성 성분별로 분석하여, 명사, 형용사, 동사 등 단어의 품사를 제공한다.FIG. 6 is a block diagram of a duplicate news detection preprocessing unit constituting a duplicated news detection system according to an embodiment of the present invention. 6, the overlapping news detection preprocessing unit 121 includes a tag removal unit 1211, a syntax analysis unit 1212, a sentence detection unit 1213, a verb extraction unit 1214, . The tag removing unit 1211 removes the tags of the seed news and the overlap candidate news, and extracts the content from the seed news and the overlap candidate news. The tag removal unit 1211 removes, for example, HTML tags and unnecessary tags appearing on the web page in the syndication news and the syndication news. The parsing unit 1212 analyzes the syntax of the content. The parser 1212 can recognize a noun and a verb by parsing the tagged web page news using a morpheme analyzer such as a Stanford parser. The morpheme analyzer analyzes the words composed of morphemes by their constituent elements and provides the parts of the words such as nouns, adjectives, and verbs.

문장 검출부(1213)는 구문 분석부(1212)의 구문 분석 결과에 따라, 컨텐츠에서 문장을 검출한다. 문장 검출부(1213)는 예를 들어 형태소 분석기의 분석 결과에서 명사의 형태인 /NNP, /NN과 동사의 형태인 /VBZ, /VBN이 나타나면 문장으로 인식할 수 있다. 문장 검출부(1213)는 마침표의 위치를 이용하여 문장 간을 분리할 수 있으며, 뉴스에서 연속해서 문장의 형태를 가지는 위치를 찾아 뉴스의 내용으로 인지할 수 있다.The sentence detection unit 1213 detects a sentence in the content according to the result of the syntax analysis performed by the syntax analysis unit 1212. The sentence detection unit 1213 can recognize sentences such as / NNP and / NN, which are noun forms, and / VBZ and / VBN, which are forms of verbs, from the analysis result of the morpheme analyzer. The sentence detection unit 1213 can separate the sentences using the position of the period, and can recognize the contents of the news by searching for a position having a sentence shape continuously in the news.

동사 추출부(1214)는 검출된 문장으로부터 동사를 추출한다. 동사 추출부(1214)는 예를 들어 분리된 문장 각각에서 형태소 분석기에 의한 태깅(tagging)이 /VBX 형태로 나타나는 동사를 추출할 수 있다. 추출된 동사는 해당 문장에서 의미를 가지는 동사의 후보가 된다. 예를 들어 스탠포드 파서에서 제공하는 단어 형태의 의존성을 이용하여 의미를 가지는 동사를 선택할 수 있다. 불용어 제거 및 어근 처리부(1215)는 분리된 문장의 단어 중에서 동사를 제거한 나머지 단어에서 단일 단어로는 의미를 갖지 않는 불용어를 제거하고, 불용어를 제거한 단어를 어근의 형태로 변환하는 어근 처리를 한다.The verb extraction unit 1214 extracts the verb from the detected sentence. The verb extractor 1214 may extract a verb, for example, in which the tagging by the morpheme analyzer appears as / VBX in each of the separated sentences. The extracted verb is a verb candidate with meaning in the sentence. For example, you can use the dependency of the word form provided by the Stanford Parser to select verbs with meaning. The abbreviation removal and root processing unit 1215 removes an insignificant word having no meaning as a single word from the remaining words of the separated sentence, and performs a root processing for converting the word without the abbreviation into a root form.

예를 들어, 시드 뉴스 또는 대상 뉴스의 컨텐츠의 문장 중에 "Steve Jobs has succeeded as a businessman."이라는 문장이 포함되어 있을 경우, 이 문장을 형태소 분석기로 POS 태깅(tagging)하면, "Steve/NNP Jobs/NNP has/VBZ succeeded/VBN as/IN a/DT businessman/NN ./."와 같이 나타난다. 여기서, /NNP는 동사와 관련 있는 명사를 나타내며, /VBZ, /VBN은 동사를, /IN은 전치사를, /DT는 관사를, /NN은 명사를 나타낸다.For example, if a sentence in the content of a seed news or a target news contains a sentence "Steve Jobs has succeeded as a businessman.", POS tagging this sentence with a stemmer would result in "Steve / NNP Jobs / NNP has / VBZ succeeded / VBN as / IN a / DT / NN ./. Here, / NNP denotes a noun related to the verb, / VBZ, / VBN denotes a verb, / IN denotes a preposition, / DT denotes an article, and / NN denotes a noun.

동사 추출부(1214)는 예를 들어 태깅된 정보 중 동사를 나타내는 태그 (VP (VBZ has) (VP (VBN succeeded)))를 동사의 후보로 추출하며, 스탠포드 파서에서 제공하는 단어 형태의 의존성을 이용하여 후보로 선출된 동사 중 의미 있는 동사를 선택한다. 해당 문장에 나타나는 단어 형태의 의존성을 살펴보면 nn(Jobs-2, Steve-1), nsubj(succeeded-4, Jobs-2), aux(succeeded-4, has-3), det(businessman-7, a-6), prep_as(succeeded-4, businessman-7)로 표현된다. nn은 명사를 의미하고, nsubj는 명사가 하는 행위를 나타내며, aux는 본동사와 조동사를 나타내며, det는 명사와 관사를 나타내며, prep_as는 두 단어의 충돌 관계를 나타낸다. 단어 형태의 의존성 중 aux의 정보를 살펴보면 succeeded는 본동사이며, has는 조동사인 것을 알 수 있고, 후보로 선택된 두 개의 동사가 succeeded와 has 이기 때문에 해당 문장에서 의미 있는 동사로 succeeded가 선택된다.For example, the verb extractor 1214 extracts a tag (VP (VBN succeeded)) (VP (VBN succeeded)) representing the verb of the tagged information as a candidate of the verb, and determines the dependency of the word form provided by the Stanford parser And the verb is selected from among the candidates selected as candidates. The dependency of the word type in the sentence is nn (Jobs-2, Steve-1), nsubj (succeeded-4, Jobs-2), aux (succeeded-4, has-3) -6), prep_as (succeeded-4, businessman-7). nn represents a noun, nsubj represents an action performed by a noun, aux represents a main verb and auxiliary verb, det indicates a noun and an article, and prep_as indicates a conflict between two words. If we look at the information of aux in the dependence of the word type, succeeded is the vernacular verb, has is the verb verb, and the two verbs selected as candidates are succeeded and has, so succeeded is selected as the verb in the sentence.

다시 도 5를 참조하면, 중복 뉴스 판단부(122)는 시드 뉴스의 컨텐츠에 포함된 문장과 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하고, 산출한 문장 간의 유사도에 기초하여 중복 후보 뉴스가 중복 뉴스에 해당하는지 여부를 판단한다. 도 7은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 뉴스 판단부의 구성도이다. 도 7을 참조하면, 중복 뉴스 판단부(122)는 단어 유사도 산출부(1221), 동사 유사도 산출부(1222), 문장 유사도 결정부(1223), 뉴스 관계 유사도 산출부(1224) 및 중복 뉴스 탐지 임계값 비교부(1225)를 포함한다.5, the overlapping news determining unit 122 calculates similarities between the sentences included in the contents of the seed news and the sentences included in the contents of the overlapping candidate news, and based on the similarities between the calculated sentences, Whether it corresponds to overlapping news. FIG. 7 is a block diagram of a duplicate news determination unit that configures a duplicate news detection system according to an embodiment of the present invention. 7, the overlapping news determining unit 122 includes a word similarity calculating unit 1221, a verb similarity calculating unit 1222, a sentence similarity determining unit 1223, a news relation similarity calculating unit 1224, And a threshold value comparator 1225.

단어 유사도 산출부(1221)는 시드 뉴스의 컨텐츠에 포함된 문장의 단어와, 중복 후보 뉴스의 컨텐츠에 포함된 문장의 단어 간의 유사도를 산출한다. 단어 유사도 산출부(1221)는 시드 뉴스와 중복 후보 뉴스의 문장에서 동사와 불용어를 제외한 어근 처리된 단어들을 이용하여 시드 뉴스와 중복 후보 뉴스의 단어 간의 유사도를 산출한다. 일 실시예에 있어서, 단어 유사도 산출부(1221)는 시드 뉴스의 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 비례하고, 시드 뉴스와 중복 후보 뉴스의 모든 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 반비례하는 연산을 수행하여 시드 뉴스의 단어의 가중치를 산출할 수 있다. 또한, 단어 유사도 산출부(1221)는 중복 후보 뉴스의 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 비례하고, 시드 뉴스와 중복 후보 뉴스의 모든 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 반비례하는 연산을 수행하여 중복 후보 뉴스의 단어의 가중치를 산출할 수 있다.The word similarity degree calculating section 1221 calculates the degree of similarity between the words of the sentences included in the contents of the seed news and the words of the sentences included in the contents of the duplicate candidate news. The word similarity degree calculation unit 1221 calculates the similarity degree between the seed news and the words of the overlap candidate news using the root processed words excluding the verb and the stop words in the sentence of the seed news and the overlap candidate news. In one embodiment, the word similarity degree calculation unit 1221 calculates the word similarity degree in accordance with the frequency of words other than the verbs appearing in the sentence of the seed news, The weight of the word of the seed news can be calculated by performing an operation in inverse proportion to the frequency. In addition, the word similarity degree calculation section 1221 calculates the word similarity degree in proportion to the frequency of the words excluding the verb appearing in the sentence of the content of the duplicate candidate news, and inversely proportional to the frequency of the words except the verb appearing in the sentence of the seed contents The weights of the words of the overlap candidate news can be calculated.

일 실시예에 있어서, 단어 유사도 산출부(1221)는 시드 뉴스의 문장과, 중복 후보 뉴스의 문장에 동시에 포함되는 동사를 제외한 단어의 가중치들을 합한 값에서 시드 뉴스의 문장에 포함되는 동사를 제외한 단어의 가중치들과 중복 후보 뉴스의 문장에 포함되는 동사를 제외한 단어의 가중치들을 합한 값으로 나눈 값을 단어 간의 유사도로 산출할 수 있다. 단어 유사도 산출부(1221)는 예를 들어 벡터 모델과 변형된 다이스 상관계수의 수식을 이용하여 단어 간의 유사도를 산출할 수 있다.In one embodiment, the word similarity degree calculation unit 1221 calculates a word similarity degree from the sum of the weights of words excluding the verbs included in the sentence of the seed news and the sentences of the duplicate candidate news, excluding the verbs included in the sentence of the seed news And the weights of the words other than the verbs included in the sentence of the duplicate candidate news are calculated as the similarities between the words. The word similarity degree calculating unit 1221 can calculate the degree of similarity between words using, for example, a vector model and an equation of a modified die correlation coefficient.

단어 유사도 산출부(1221)는 예를 들어 벡터 모델에서 tf-isf(term frequency inverse sentence frequency)를 이용하여 문장에 사용된 용어의 가중치를 할당할 수 있다. tf-isf는 단어가 문장에 나온 횟수에 비례하고, 그 단어를 포함하고 있는 모든 문장의 전체 개수에 반비례하는 가중치를 할당하여 해당 단어에 중요도를 부여한다. 시드 뉴스와 중복 후보 뉴스의 문장에 나타난 단어들의 집합은 예를 들어 수식 7과 같이 나타낼 수 있다.The word similarity degree calculating unit 1221 may assign a weight of a term used in a sentence using, for example, tf-isf (term frequency inverse sentence frequency) in the vector model. tf-isf gives importance to the word by assigning a weight in inverse proportion to the total number of all sentences containing the word in proportion to the number of times the word appears in the sentence. The set of words appearing in the sentence of the seed news and the duplicate candidate news can be expressed as, for example,

[수식 7][Equation 7]

Figure 112012080501450-pat00030
Figure 112012080501450-pat00030

이때, SCi는 i번째 시드 뉴스의 컨텐츠(본문)에 나타나는 문장들의 집합을 나타내고, TCj는 j번째 중복 후보 뉴스의 컨텐츠(본문)에 나타나는 문장들의 집합을 나타내고, sci ,k는 i번째 시드 뉴스의 컨텐츠 중 k번째 문장에 나타나는 단어들의 집합을 나타내고,tcj ,l은 j번째 중복 후보 뉴스 중 l번째 문장에 나타나는 단어들의 집합을 나타내고, ti ,k,n은 i번째 시드 뉴스의 컨텐츠 중 k번째 문장에 나타나는 n번째 단어를 나타내고, ttj ,l,m은 j번째 중복 후보 뉴스의 컨텐츠 중 l번째 문장에 나타나는 m번째 단어를 나타낸다. 만약, 시드 뉴스의 컨텐츠의 일 부분만을 차용한 중복 후보 뉴스의 경우 중복 뉴스로 검출되지 않을 수 있으므로, 시드 뉴스와 중복 후보 뉴스 중 문장의 수가 작은 문서를 대상으로 비교 문장의 수가 일치될 수 있다.SC i represents a set of sentences appearing in the content (body) of the i-th seed news, TC j represents a set of sentences appearing in the content (body) of the j-th duplicated candidate news, sc i , T ij , l represents a set of words appearing in the lth sentence of the jth duplicate candidate news, t i , k, n represent a set of words appearing in the i th seed news indicates the n-th word appears in the k-th sentence of the content, tt j, l, m represents the m-th word appears in the l-th sentence of the contents of the j-th redundancy candidate news. If duplicate candidate news that borrowed only a part of the contents of the seed news may not be detected as duplicate news, the number of comparison sentences can be matched to a document having a small number of sentences among seed news and duplicate candidate news.

단어 유사도 산출부(1221)는 예를 들어 아래의 수식 8을 이용하여 시드 뉴스와 중복 후보 뉴스의 문장에 나타나는 단어의 가중치를 산출할 수 있다.The word similarity degree calculating section 1221 can calculate the weights of words appearing in the sentence of the seed news and the overlapping candidate news, for example, by using the following equation (8).

[수식 8][Equation 8]

Figure 112012080501450-pat00031
Figure 112012080501450-pat00031

수식 8에서,

Figure 112012080501450-pat00032
는 문장에 나타나는 단어의 개수를 나타내고,
Figure 112012080501450-pat00033
는 문장의 역빈도수를 나타내며,
Figure 112012080501450-pat00034
는 해당 뉴스(시드 뉴스 또는 중복 후보 뉴스)의 본문 중 단어 ω를 포함하는 문장의 개수를 나타내고,
Figure 112012080501450-pat00035
는 해당 뉴스에 나타나는 전체 문장의 개수를 나타낸다.In Equation 8,
Figure 112012080501450-pat00032
Represents the number of words appearing in the sentence,
Figure 112012080501450-pat00033
Represents the inverse frequency of the sentence,
Figure 112012080501450-pat00034
Represents the number of sentences including the word omega among the texts of the news (seed news or duplicate candidate news)
Figure 112012080501450-pat00035
Represents the total number of sentences appearing in the news.

단어 유사도 산출부(1221)는 시드 뉴스의 컨텐츠에 포함된 문장에 나타나는 단어의 가중치와, 중복 후보 뉴스의 컨텐츠에 포함된 문장에 나타나는 단어의 가중치를 이용하여, 시드 뉴스의 문장에 나타나는 단어와 중복 후보 뉴스의 문장에 나타나는 단어 간의 유사도를 산출할 수 있다. 단어 유사도 산출부(1221)는 예를 들어 아래의 수식 9와 같은 변형된 다이스 상관계수 수식에 따라 단어 간의 유사도를 산출할 수 있다.The word similarity degree calculating unit 1221 calculates the word similarity degree by using a weight of a word appearing in the sentence included in the content of the seed news and a weight of a word appearing in the sentence included in the content of the duplicate candidate news, The degree of similarity between the words appearing in the sentence of the candidate news can be calculated. The word similarity degree calculation unit 1221 can calculate the degree of similarity between words according to a modified dice correlation coefficient equation as shown in the following equation (9).

[수식 9][Equation 9]

Figure 112012080501450-pat00036
Figure 112012080501450-pat00036

수식 9에서,

Figure 112012080501450-pat00037
는 시드 뉴스의 문장과 중복 후보 뉴스의 문장 간 단어를 이용한 문장 유사도를 나타내며, p는 시드 뉴스의 문장과 중복 후보 뉴스의 문장에 동시에 나타나는 단어를 나타내며, c는 시드 뉴스의 문장과 중복 후보 뉴스의 문장에 동시에 나타나는 단어의 개수를 나타내며, ti ,k,n은 i번째 시드 뉴스의 본문 중 k번째 문장에 나타나는 n번째 단어의 가중치를 나타내고, ttj ,l,m은 j번째 중복 후보 뉴스 중 l번째 문장에 나타나는 m번째 단어의 가중치를 나타낸다.In Equation 9,
Figure 112012080501450-pat00037
P represents a word appearing simultaneously in a sentence of a seed news and a sentence of a duplicate candidate news, c represents a sentence of a seed news and a sentence of a duplicate candidate news T i , k, n represent the weight of the nth word appearing in the kth sentence of the i th seed news, t t j , l, m represent the weight of the jth duplicate candidate news It represents the weight of the mth word appearing in the lth sentence.

예를 들어 i번째 시드 뉴스의 첫 문장에 나타나는 단어가 a, b, c이고, j번째 중복 후보 뉴스의 첫 문장에 나타나는 단어가 a, c, d이고, 두 번째 문장에 나타나는 단어가 b, c, d인 경우, 수식 8을 사용하여 계산된 a, b, c, d 각각의 단어 가중치는 각각 0.1, 0.2, 0.3, 0.2이다. i번째 시드 뉴스 중 처음 문장과 j번째 중복 후보 뉴스 중 처음 문장에 동시에 나오는 단어는 a, c이므로, 수식 9에서 분자

Figure 112012080501450-pat00038
는 (0.1+0.3)+(0.1+0.3) = 0.8의 값이 된다.For example, if the first sentence of the ith seed news is a, b, c, the first sentence of the jth duplicate candidate news is a, c, d, and the second sentence is b, c , d, the word weights of a, b, c, and d calculated using Eq. 8 are 0.1, 0.2, 0.3, and 0.2, respectively. Since the first sentence of the i-th seed news and the j-th duplicate candidate news are the words a and c simultaneously appearing in the first sentence,
Figure 112012080501450-pat00038
(0.1 + 0.3) + (0.1 + 0.3) = 0.8.

i번째 시드 뉴스 중 처음 문장에 나타나는 단어들은 a, b, c이고, j번째 중복 후보 뉴스의 처음 문장에 나타나는 단어들은 a, c, d이므로, 수식 9에서

Figure 112012080501450-pat00039
는 (0.1+0.2+0.3) = 0.6이고,
Figure 112012080501450-pat00040
은 (0.1+0.3+0.2) = 0.6이 되어 분모
Figure 112012080501450-pat00041
+
Figure 112012080501450-pat00042
는 1.2의 값을 갖는다. 이에 따라 i번째 시드 뉴스의 처음 문장과 j번째 중복 후보 뉴스의 처음 문장 사이의 단어 간의 유사도, 다시 말해 단어의 가중치를 반영한 문장의 유사도
Figure 112012080501450-pat00043
는 0.8/1.2 = 0.66의 값이 된다. 같은 방법으로 i번째 시드 뉴스의 처음 문장과 j번째 중복 후보 뉴스의 두 번째 문장에 대한 유사도를 계산하면 0.77의 값이 된다.Since the words appearing in the first sentence of the ith seed news are a, b, c, and the words appearing in the first sentence of the jth duplicate candidate news are a, c, and d,
Figure 112012080501450-pat00039
(0.1 + 0.2 + 0.3) = 0.6,
Figure 112012080501450-pat00040
(0.1 + 0.3 + 0.2) = 0.6,
Figure 112012080501450-pat00041
+
Figure 112012080501450-pat00042
Has a value of 1.2. Thus, the similarity between words between the first sentence of the ith seed news and the first sentence of the jth duplicate candidate news, that is, the similarity of sentences
Figure 112012080501450-pat00043
Becomes 0.8 / 1.2 = 0.66. In the same way, the similarity between the first sentence of the ith seed news and the second sentence of the jth duplicated candidate news is calculated to be 0.77.

동사 유사도 산출부(1222)는 시드 뉴스의 컨텐츠에 포함된 문장의 동사와, 중복 후보 뉴스의 컨텐츠에 포함된 문장의 동사 간의 유사도를 산출한다. 동사 유사도 산출부(1222)는 시드 뉴스의 문장과 중복 후보 뉴스의 문장에서 나타나는 동사를 공통으로 포함하는 워드넷 용어집 기반 계층에서의 최 하위 계층 상위 동사를 검출하고, 시드 뉴스의 문장에서 나타나는 동사, 중복 후보 뉴스의 문장에서 나타나는 동사 및 최 하위 계층 상위 동사의 동의어 어휘의 개수에 비례하는 연산을 수행하여 확률 값을 산출하며, 산출한 확률 값을 이용하여 동사 간의 유사도를 산출한다. 동사 유사도 산출부(1222)는 예를 들어 워드넷의 동의어 집합과 계층 구조를 이용하여 동사 간의 유사도를 산출할 수 있다.The verb similarity calculation unit 1222 calculates the similarity between the verb of the sentence included in the content of the seed news and the verb of the sentence contained in the content of the duplicate candidate news. The verb similarity calculation unit 1222 detects the lowest-order upper verb in the WordNet glossary-based hierarchy that commonly includes a verb appearing in a sentence of a seed news and a sentence of a duplicate candidate news, and verbs, The similarity between the verbs is calculated by calculating the probability value by performing an operation proportional to the number of the synonym vocabulary of the verb and the lowest verb algebra appearing in the sentence of the duplicate candidate news. The verbally similarity calculation unit 1222 may calculate similarities between verbs using, for example, a synonym set and a hierarchical structure of WordNet.

품사Part of speech 동의어 집합 수Number of synonym sets 상위계층 Upper layer 계념Conceit  Number 최대계층 수Maximum number of tiers 동사verb 13,508개13,508 1414 44 형용사adjective 18,563개18,563 -- -- 부사adverb 3,664개3,664 -- -- system 115,424개115,424

표 1은 워드넷 2.0이 포함하고 있는 품사별 동의어 집합의 수와 구조를 나타낸다. 동사의 경우 13,508개의 동의어 집합을 포함하며, 최상위 노드에서 최하위 동의어 집합까지의 계층 수가 4개를 넘지 않는다. 형용사와 부사는 명사와 동사가 가지는 계층적 구조가 아니라 위성 구조를 가지며, 명사와 동사에서와 같은 계층 체계에 따른 분류가 없고 속성을 정의하는 개념만 있기 때문에, 단어의 의미 유사도 방법은 동사에 적용되고, 형용사나 부사에는 적용되지 않는다.Table 1 shows the number and structure of word-by-word synonym sets included in WordNet 2.0. The verb contains 13,508 synonym sets, and the number of hierarchies from the top node to the lowest synonym set does not exceed four. Adjectives and adverbs are not hierarchical structures of nouns and verbs but have a satellite structure. Since there is no classification according to the hierarchical system such as nouns and verbs, and only the concept of defining attributes, the semantic similarity method of words is applied to verbs And does not apply to adjectives or adverbs.

동사 유사도 산출부(1222)는 예를 들어 아래의 수식 10 내지 수식 13에 따라 i번째 시드 뉴스의 문장에 나타나는 동사

Figure 112012080501450-pat00044
와 j번째 중복 후보 뉴스의 문장에 나타나는 동사
Figure 112012080501450-pat00045
간의 유사도를 산출할 수 있다.The verb similarity calculating unit 1222 calculates the verb similarity calculating unit 1222 according to, for example, Equation 10 through Equation 13 below,
Figure 112012080501450-pat00044
And the verb appearing in the sentence of the jth duplicate candidate news
Figure 112012080501450-pat00045
Can be calculated.

[수식 10][Equation 10]

Figure 112012080501450-pat00046
Figure 112012080501450-pat00046

수식 10에서,

Figure 112012080501450-pat00047
는 k번째 문장에서 추출된 본 동사
Figure 112012080501450-pat00048
의 동의어 집합을 나타낸다. 동사 유사도 산출부(1222)는 동사의 동의어 집합에서 동사
Figure 112012080501450-pat00049
와 관련된 어휘의 개수를 카운트하여 본 동사의 빈도
Figure 112012080501450-pat00050
를 산출할 수 있다.In Equation 10,
Figure 112012080501450-pat00047
Is the verb extracted from the kth sentence
Figure 112012080501450-pat00048
Quot; &lt; / RTI &gt; The verb similarity calculation unit 1222 calculates the verb similarity &lt; RTI ID = 0.0 &gt;
Figure 112012080501450-pat00049
And the frequency of the verb
Figure 112012080501450-pat00050
Can be calculated.

[수식 11][Equation 11]

Figure 112012080501450-pat00051
Figure 112012080501450-pat00051

수식 11에서,

Figure 112012080501450-pat00052
는 본 동사
Figure 112012080501450-pat00053
에 대한 확률 값을 나타내며,
Figure 112012080501450-pat00054
는 최상위 노드에서 최하위 동의어 집합까지의 계층에 나타난 각 루트(root)의 빈도수를 나타낸다. 동사는 아래의 표 2에 나타낸 바와 같은 15개의 최상위 루트를 갖는다.In Equation 11,
Figure 112012080501450-pat00052
This verb
Figure 112012080501450-pat00053
, &Lt; / RTI &gt;
Figure 112012080501450-pat00054
Represents the frequency of each root in the hierarchy from the highest node to the lowest synonym set. The verb has fifteen highest routes as shown in Table 2 below.

Bodily care and functionBodily care and function ChangeChange CognitionCognition CommunicationCommunication Social interactionSocial interaction CometitionCometition ConsumptionConsumption ContactContact Weather verbsWeather verbs CreationCreation EmotionEmotion MotionMotion State verbsState verbs PerceptionPerception PossessionPossession --

[수식 12][Equation 12]

Figure 112012080501450-pat00055
Figure 112012080501450-pat00055

수식 12에서 나타내는 IC는 정보 콘텐츠(Information Contents)의 약자이고,

Figure 112012080501450-pat00056
는 동사
Figure 112012080501450-pat00057
의 확률 값
Figure 112012080501450-pat00058
에 로그의 부정을 취하여 산출된다. 이는 워드넷 용어집 기반으로 계층에서
Figure 112012080501450-pat00059
가 가장 많이 포함할 수 있는 정보 콘텐츠를 추출하기 위해 사용한다.The IC shown in Equation (12) stands for Information Contents,
Figure 112012080501450-pat00056
Is the verb
Figure 112012080501450-pat00057
Probability value of
Figure 112012080501450-pat00058
Is calculated by taking the negative of the log. It is based on the WordNet glossary,
Figure 112012080501450-pat00059
Is used to extract the information content that can be included most.

[수식 13][Equation 13]

Figure 112012080501450-pat00060
Figure 112012080501450-pat00060

수식 13에서

Figure 112014016091545-pat00061
는 i번째 시드 뉴스의 k번째 문장에 나타나는 본 동사
Figure 112014016091545-pat00062
와 j번째 중복 후보 뉴스 중
Figure 112014016091545-pat00063
번째 문장에 나타나는 본 동사
Figure 112014016091545-pat00064
의 유사도를 나타낸다. 두 동사 어휘를 공통으로 포함하는 최 하위 계층 상위 동사(Lowest Common Subsumer : LCS)
Figure 112014016091545-pat00065
가 가지는
Figure 112014016091545-pat00066
값과 각 어휘의
Figure 112014016091545-pat00067
,
Figure 112014016091545-pat00068
를 연산하여 동사 간의 유사도
Figure 112014016091545-pat00069
를 산출한다. 구해진
Figure 112014016091545-pat00070
는 연관성이 있는 동사 어휘 모음 내 얻어낸 의미 유사도 중 가장 높은 값을 갖는다.In Equation 13
Figure 112014016091545-pat00061
Is the verb in the kth sentence of the ith seed news
Figure 112014016091545-pat00062
And jth duplicate candidate news
Figure 112014016091545-pat00063
The verb that appears in the second sentence
Figure 112014016091545-pat00064
. The Lowest Common Subsumer (LCS), which contains both verbs in common,
Figure 112014016091545-pat00065
The
Figure 112014016091545-pat00066
The value and the
Figure 112014016091545-pat00067
,
Figure 112014016091545-pat00068
The similarity between the verbs
Figure 112014016091545-pat00069
. Obtained
Figure 112014016091545-pat00070
Has the highest value among the semantic similarities obtained in the associative verb vowel vowels.

문장 유사도 결정부(1223)는 예를 들어 아래의 수식 14에 나타낸 바와 같이, 단어 간의 유사도와 동사 간의 유사도를 곱셈 연산하며, 시드 뉴스의 각각의 문장과, 중복 후보 뉴스의 모든 문장 간의 곱셈 연산 값 중 가장 큰 값을 문장 간의 유사도로 결정한다.The sentence similarity degree determination unit 1223 multiplies the similarity degree between words and the similarity degree between verbs as shown in the following equation (14), for example, and calculates a multiplication operation value between all the sentences of the seed news and all the sentences of the redundant candidate news The largest value among the sentences is determined as the similarity between the sentences.

[수식 14][Equation 14]

Figure 112012080501450-pat00071
Figure 112012080501450-pat00071

수식 14에서

Figure 112012080501450-pat00072
는 시드 뉴스와 중복 후보 뉴스의 문장 간의 유사도 를 나타내고,
Figure 112012080501450-pat00073
는 시드 뉴스와 중복 후보 뉴스의 동사를 이용하여 산출한 문장의 유사도(동사 간의 유사도)를 나타내고,
Figure 112012080501450-pat00074
는 시드 뉴스와 중복 후보 뉴스의 동사를 제외한 단어를 이용하여 산출한 문장의 유사도(단어 간의 유사도)를 나타내며, L은 중복 후보 뉴스에 나타나는 모든 문장들의 집합을 나타낸다. 문장 유사도 결정부(1223)는 시드 뉴스의 문장과 유사도 쌍으로 산출된 중복 후보 뉴스의 문장에 대하여는 다음 시드 뉴스 문장과의 유사도를 산출할 때 연산에서 제외할 수 있다. 만약 i번째 시드 뉴스의 처음 문장에 나타나는 동사와 j번째 중복 후보 뉴스 중 처음 문장에 나타나는 동사의 유사도 값이 i번째 시드 뉴스 처음 문장에 나타나는 동사와 j번째 중복 후보 뉴스 중 두 번째 문장에 나타나는 동사의 유사도 값과 같다면, 유사도가 가장 높은 두 번째 문장과 유사도의 쌍을 이루고 다음 비교 문장에서 제외된다. 이러한 방법으로 문장의 쌍으로 유사도를 구할 수 있는 모든 뉴스 문장의 유사도를 산출한다.In Equation 14
Figure 112012080501450-pat00072
Indicates the similarity between the seed news and the sentence of the duplicate candidate news,
Figure 112012080501450-pat00073
Shows the similarity (similarity between verbs) of the sentences calculated using the verbs of the syndine news and the duplicate candidate news,
Figure 112012080501450-pat00074
Represents the similarity (similarity between words) of the sentences calculated using words except for the verbs of the seed news and the duplicate candidate news, and L represents the set of all sentences appearing in the duplicate candidate news. The sentence similarity degree determination unit 1223 can exclude the sentence of the duplicate candidate news calculated in the similarity pair with the sentence of the seed news from the calculation when calculating the similarity with the next seed news sentence. If the verb that appears in the first sentence of the ith seed news and the similarity value of the verb in the first sentence of the jth duplicate candidate news is the verb that appears in the first sentence of the ith seed news and the verb that appears in the second sentence of the jth duplicate candidate news If it is the same as the similarity value, it forms a pair of similarity with the second sentence with the highest similarity, and is excluded from the next comparison sentence. In this way, the similarity of all news sentences that can obtain the similarity in pairs of sentences is calculated.

뉴스 관계 유사도 산출부(1224)는 시드 뉴스의 모든 문장에 대하여 산출된 문장 간의 유사도들을 합한 값을 시드 뉴스의 문장 개수 및 중복 후보 뉴스의 문장 개수 중 작은 값으로 나누어 뉴스 관계 유사도를 산출한다. 뉴스 관계 유사도 산출부(1224)는 예를 들어 아래의 수식 15에 나타낸 바와 같이, 문장 간의 유사도를 모두 더한 값을 더해진 문장의 수로 나눔으로써 뉴스 관계 유사도를 산출할 수 있다.The news relation similarity calculation unit 1224 calculates a news relation similarity by dividing the sum of similarities between sentences calculated for all sentences of the seed news by a smaller value among the number of sentences of the seed news and the number of sentences of the duplicate candidate news. The news relation similarity calculating unit 1224 can calculate the news relation similarity by dividing the sum of the similarities between sentences by the number of added sentences, as shown in the following equation (15), for example.

[수식 15][Equation 15]

Figure 112012080501450-pat00075
Figure 112012080501450-pat00075

수식 15에서

Figure 112012080501450-pat00076
는 i번째 시드 뉴스의 내용
Figure 112012080501450-pat00077
과 j번째 중복 후보 뉴스의 내용
Figure 112012080501450-pat00078
사이의 유사도를 나타내며, b는 시드 뉴스의 문장 개수, L은 중복 후보 뉴스의 문장 개수,
Figure 112012080501450-pat00079
는 시드 뉴스의 문장 개수와 중복 후보 뉴스의 문장 개수 중 작은 값을 나타낸다.
Figure 112012080501450-pat00080
는 수식 14에 의해 구해진 시드 뉴스의 문장들에 대한 문장 간의 유사도들을 모두 합한 값이다.
Figure 112012080501450-pat00081
는 시드 뉴스의 각각의 문장과 중복 후보 뉴스의 대응하는 문장 간의 유사도의 평균값을 의미하며, 시드 뉴스와 중복 후보 뉴스 간의 유사도를 나타낸다. 중복 뉴스 탐지 임계값 비교부(1225)는 뉴스 관계 유사도를 소정의 임계값과 비교하여 중복 뉴스를 탐지한다. 중복 뉴스 탐지 임계값 비교부(1225)는 산출된 뉴스 관계 유사도가 중복 뉴스 탐지 임계값을 넘으면 중복 후보 뉴스를 중복 뉴스로 분류하고, 임계값을 넘지 않으면 중복 뉴스에서 제외한다. 이에 따라 중복 뉴스 탐지부(120)에 의해 2차 클러스터링(Clustering)이 수행된다.In Equation 15
Figure 112012080501450-pat00076
Contents of the i-th seed news
Figure 112012080501450-pat00077
And the contents of the jth duplicate candidate news
Figure 112012080501450-pat00078
B is the number of sentences in the seed news, L is the number of sentences in the duplicate candidate news,
Figure 112012080501450-pat00079
Represents the smaller of the number of sentences in the seed news and the number of sentences in the duplicate candidate news.
Figure 112012080501450-pat00080
Is the sum of the similarities between the sentences of the sentences of the seed news obtained by the expression (14).
Figure 112012080501450-pat00081
Means the mean value of the similarity between each sentence in the seed news and the corresponding sentence in the duplicate candidate news, and it indicates the similarity between the seed news and the duplicate candidate news. The overlapping news detection threshold comparison unit 1225 detects the overlapping news by comparing the news relation similarity with a predetermined threshold value. The overlapping news detection threshold value comparator 1225 classifies the overlapping candidate news as duplicate news if the calculated news relation similarity exceeds the overlapping news detection threshold, and excludes duplicate candidate news if the calculated threshold does not exceed the threshold. Accordingly, secondary clustering is performed by the duplicate news detecting unit 120. [

다시 도 1을 참조하면, 중복 뉴스 데이터베이스(130)는 중복 후보 뉴스 탐지부(110) 및 중복 뉴스 탐지부(120)에 의해 탐지된 중복 뉴스들을 카테고리별로 저장한다. 뉴스 추천부(140)는 탐지된 중복 뉴스의 리스트를 제거한 웹 페이지를 제공하거나, 시드 뉴스와 중복 뉴스를 결합한 웹 페이지를 제공할 수 있다. 대안적으로, 뉴스 추천부(140)는 수집된 모든 대상 뉴스를 제공하고, 중복 뉴스로 탐지된 대상 뉴스에 대하여는 웹 페이지에 중복 뉴스임을 나타내는 표시를 하여 중복 뉴스라는 정보를 제공할 수도 있다.Referring again to FIG. 1, the duplicate news database 130 stores the duplicate news detected by the duplicate candidate news detecting unit 110 and the duplicate news detecting unit 120 for each category. The news recommendation unit 140 may provide a web page from which the list of detected duplicate news is removed or a web page that combines the seed news and the duplicate news. Alternatively, the news recommendation unit 140 may provide all of the collected target news, and may provide information indicating duplicate news to the target news detected as the duplicated news, by indicating the duplicated news on the web page.

도 8은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 방법의 흐름도이다. 도 8에 도시된 실시예를 구성하는 단계들은 도 1 내지 도 7에 도시된 실시예의 구성들에 의해 수행될 수 있다. 도 7에 도시된 단계 S81 내지 S82는 1차 클러스터링 단계에 해당하며, 단계 S83 내지 S84는 2차 클러스터링 단계에 해당한다. 먼저 단계 S81에서 중복 후보 뉴스 탐지부(110)의 전처리부(111)는 시드 뉴스와 대상 뉴스로부터 제목을 추출하고, 추출한 제목에 포함된 단어 중에서 단일 단어로는 의미를 갖지 않는 불용어를 제거하고, 불용어를 제거한 단어를 어근의 형태로 변환하는 전처리 단계를 수행한다. 다음으로 단계 S82에서 중복 후보 뉴스 탐지부(110)의 중복 후보 뉴스 판단부(112)는 시드 뉴스의 제목과 대상 뉴스들의 제목 간의 유사도를 산출하며, 산출한 제목 간의 유사도에 기초하여 대상 뉴스들 중에서 중복 후보 뉴스를 추출한다.FIG. 8 is a flowchart of a duplicate news detection method according to an embodiment of the present invention. The steps constituting the embodiment shown in Fig. 8 can be performed by the configurations of the embodiment shown in Figs. Steps S81 to S82 shown in FIG. 7 correspond to a primary clustering step, and steps S83 to S84 correspond to a secondary clustering step. First, in step S81, the preprocessing unit 111 of the overlapping candidate news detection unit 110 extracts a title from the seed news and the target news, removes an insignificant word having no meaning as a single word among the words included in the extracted title, And a preprocessing step of converting a word from which an abbreviation has been removed into a form of a root. Next, in step S82, the redundant candidate news determiner 112 of the overlapped candidate news detector 110 calculates the degree of similarity between the title of the seed news and the title of the target news, and based on the degree of similarity among the calculated titles, Extract duplicate candidate news.

중복 후보 뉴스를 추출하는 단계 S82에 대해 보다 구체적으로 설명하면 다음과 같다. 먼저 단계 S821에서 제1 유사도 산출부(1121) 및 제2 유사도 산출부(1122)는 예를 들어 앞서 언급된 수식 2 내지 수식 5에 따라 제1 유사도 및 제2 유사도를 산출한다. 이때, 제1 유사도는 시드 뉴스의 제목과, 검색 엔진의 검색 리스트에 나타나는 대상 뉴스의 앵커 제목 간의 유사도이며, 제2 유사도는 시드 뉴스의 제목과, 대상 뉴스의 컨텐츠에 나타나는 제목 간의 유사도이다. 단계 S822에서 유사도 결정부(1123)는 예를 들어 앞서 언급된 수식 6에 따라서 제1 유사도 및 제2 유사도 중 보다 큰 유사도를 제목 간의 유사도로 결정한다. 다음으로 단계 S823에서 임계값 비교부(1124)는 제목 간의 유사도를 소정의 임계값과 비교하여 중복 후보 뉴스를 탐지한다.The step S82 of extracting duplicate candidate news will be described in more detail as follows. First, in step S821, the first similarity degree calculating section 1121 and the second similarity degree calculating section 1122 calculate the first similarity degree and the second similarity degree according to Equations (2) through (5) mentioned above, for example. Here, the first degree of similarity is a degree of similarity between the title of the seed news and the anchor title of the target news appearing in the search list of the search engine, and the second degree of similarity is the degree of similarity between the title of the seed news and the title of the target news. In step S822, the similarity determination unit 1123 determines a degree of similarity between the first similarity degree and the second similarity degree as the degree of similarity between titles, for example, according to the above-mentioned Equation (6). Next, in step S823, the threshold value comparator 1124 compares the degree of similarity between titles with a predetermined threshold to detect duplicate candidate news.

다음으로 단계 S83에서 중복 뉴스 탐지부(120)의 전처리부(121)는 시드 뉴스와 중복 후보 뉴스로부터 컨텐츠를 추출하고, 추출한 컨텐츠의 구문을 분석하며, 컨텐츠에서 문장을 검출하는 전처리 작업을 수행한다. 다음으로 단계 S84에서 중복 뉴스 탐지부(120)의 중복 뉴스 판단부(122)는 시드 뉴스의 컨텐츠에 포함된 문장과 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하고, 산출한 문장 간의 유사도에 기초하여 중복 후보 뉴스가 중복 뉴스에 해당하는지 여부를 판단한다. 중복 뉴스를 판단하는 단계 S84에 대하여 보다 구체적으로 설명하면, 먼저 단계 S841에서 단어 유사도 산출부(1221)는 예를 들어 앞서 언급한 수식 8 내지 수식 9에 따라 시드 뉴스의 컨텐츠에 포함된 문장의 단어와, 중복 후보 뉴스의 컨텐츠에 포함된 문장의 단어 간의 유사도를 산출하고, 동사 유사도 산출부(1222)는 예를 들어 앞서 언급한 수식 10 내지 수식 13에 따라 시드 뉴스의 컨텐츠에 포함된 문장의 동사와, 중복 후보 뉴스의 컨텐츠에 포함된 문장의 동사 간의 유사도를 산출한다. 다음으로 단계 S842에서 문장 유사도 결정부(1223)는 예를 들어 앞서 언급한 수식 14에 따라 단어 간의 유사도와 동사 간의 유사도를 곱셈 연산하고, 시드 뉴스의 문장과, 중복 후보 뉴스의 각각의 문장 간의 곱셈 연산 값 중 가장 큰 값을 문장 간의 유사도로 결정한다. 다음으로 단계 S843에서 뉴스 관계 유사도 산출부(1224)는 예를 들어 앞서 언급한 수식 15에 따라 시드 뉴스의 모든 문장에 대하여 산출된 문장 간의 유사도들을 합한 값을 시드 뉴스의 문장 개수 및 중복 후보 뉴스의 문장 개수 중 작은 값으로 나누어 뉴스 관계 유사도를 산출한다. 다음으로 단계 S844에서 임계값 비교부(1225)는 뉴스 관계 유사도를 소정의 임계값과 비교하여 중복 뉴스를 탐지한다. 다음으로 단계 S85에서 뉴스 추천부(140)는 탐지된 중복 뉴스의 리스트를 제거한 웹 페이지를 제공하거나, 시드 뉴스와 중복 뉴스를 결합한 웹 페이지를 제공한다.Next, in step S83, the preprocessing unit 121 of the overlapping news detecting unit 120 extracts the content from the seed news and the overlapping candidate news, analyzes the syntax of the extracted content, and performs a preprocessing operation for detecting a sentence in the content . Next, in step S84, the duplicate news determiner 122 of the duplicate news detector 120 calculates the similarities between the sentences included in the contents of the seed news and the sentences included in the contents of the duplicate candidate news, and calculates the similarities between the sentences It is judged whether or not the duplicate candidate news corresponds to the duplicate news. More specifically, the word similarity degree calculation unit 1221 calculates the word degree of sentence words included in the content of the seed news according to the above-mentioned Equations 8 to 9, for example, in Step S841, And the similarity of the sentences included in the contents of the duplicate candidate news is calculated. The verb similarity calculation unit 1222 calculates the similarity between the words of the sentence included in the content of the seed news, for example, according to the above-mentioned Equations 10 to 13, And the similarity between the verbs in sentences contained in the contents of the duplicate candidate news. Next, in step S842, the sentence similarity degree determination unit 1223 multiplies the similarity degree between words and the similarity degree between the words according to Equation (14), for example, and calculates the multiplication between the sentence of the seed news and the sentence of each of the redundant candidate news The largest value among the computed values is determined as the similarity between the sentences. Next, in step S843, the news relation similarity calculation unit 1224 compares the sum of the similarities between the sentences calculated for all the sentences of the seed news according to the above-mentioned Equation 15, for example, the number of sentences of the seed news, We divide the number of sentences by the smaller value to calculate the news relation similarity. Next, in step S844, the threshold value comparator 1225 compares the news relation similarity with a predetermined threshold to detect duplicate news. Next, in step S85, the news recommendation unit 140 provides a web page from which the list of detected duplicate news is removed or a web page that combines seed news and duplicate news.

도 9는 본 발명의 일 실시예에 따른 중복 뉴스 탐지 방법을 실행하는 프로그램을 보여주는 도면이다. 도 9를 참조하여 본 발명의 일 실시예에 따른 중복 뉴스 탐지 알고리즘에 대해 설명하면 다음과 같다. 먼저, 1번째 라인에서 R[]는 시드 뉴스의 집합을 의미하며, C[]는 수집된 대상 뉴스의 집합을 의미한다. 2번째 라인부터 6번째 라인까지는 값 설정 및 용어를 정의한다. 6번째 라인에서 γ는 1차 중복 후보 뉴스를 탐지하기 위한 임계값이고, β는 최종 중복 뉴스를 탐지하기 위한 임계값이다. 7번째 라인부터 37번째 라인까지는 중복 뉴스를 탐지하는 부분이다. 10번째 라인부터 12번째 라인까지는 1차 중복 후보 뉴스를 탐지하는 부분이다. 11번째 라인에서 Tsimilarity(r.title, c.title)는 시드 뉴스의 제목과 수집된 대상 뉴스의 제목의 유사도를 의미한다. 13번째 라인부터 34번째 라인까지는 1차 중복 후보 뉴스로 선출된 뉴스들 중 중복 뉴스를 탐지하는 부분이다. 18번째 라인에서 vsimilarity(rs.verb, cs.verb)는 시드 뉴스의 문장에 나타나는 의미 동사와 수집된 대상 뉴스의 문장에 나타나는 동사의 의미 유사도를 나타낸다. 19번째 라인의 wsimilarity(rs.words, cs,words)는 시드 뉴스의 문장에 나타나는 단어들과 수집된 대상 뉴스의 문장에 나타나는 단어들의 유사도를 나타낸다. 26번째 라인에서 cs.remove(sentence_location)는 문장의 유사도로 사용된 문장은 비교하는 뉴스의 문장에서 삭제하는 함수를 의미하며, 33번째 라인에서 remove(c)는 시드 뉴스와 유사도 검색을 완료한 수집된 대상 뉴스 중 비교 뉴스를 삭제하는 함수이다.9 is a diagram showing a program for executing a duplicate news detection method according to an embodiment of the present invention. The duplicate news detection algorithm according to an embodiment of the present invention will be described with reference to FIG. First, in the first line, R [] denotes a set of seed news, and C [] denotes a collection of target news collected. From the second line to the sixth line, the value setting and the term are defined. In the sixth line, γ is a threshold value for detecting the first redundant candidate news, and β is a threshold value for detecting the last redundant news. Line 7 through line 37 detect duplicate news. From the 10th line to the 12th line, it is the part that detects the first overlapping candidate news. In the 11th line, Tsimilarity (r.title, c.title) means the similarity between the title of the seed news and the title of the collected news. From line 13 to line 34, it is the part that detects redundant news among the news selected by the first overlapping candidate news. In line 18, vsimilarity (rs.verb, cs.verb) represents the semantic similarity of the verb in the sentence of the semantic verb that appears in the seed news sentence and the sentence of the collected target news. The wsimilarity (rs.words, cs, words) on the 19th line represents the similarity between the words appearing in the seed news sentences and the words appearing in the collected news news sentences. In line 26, cs.remove (sentence_location) means that the sentence used in sentence similarity deletes from the sentence of comparison news. On the 33rd line, remove (c) Is a function that deletes comparison news among the target news.

뉴스 사이트의 6개의 분야(police, business, crime, education, health, web-exclusive)에서 각각 10개의 헤드라인 뉴스(headline news)를 추출하였다. 추출된 뉴스는 제목과 내용을 분류하고, 각각의 헤드라인 뉴스의 제목을 구글(***) 검색 엔진의 뉴스 분야에 질의하였다. 질의 결과 중 각 헤드라인 뉴스마다 상위 20개 또는 그 이하의 뉴스 기사를 수집하였다. 수집한 뉴스 기사는 검색된 리스트에 나타나는 제목(앵커 제목)과 상세 페이지에 나타나는 제목(텍스트 제목) 그리고 내용(컨텐츠)으로 분류하여 저장하였다.Ten headline news items were extracted from six categories of news sites (police, business, crime, education, health, and web-exclusive). The extracted news categorized title and content, and the title of each headline news was inquired into the news field of *** search engine. We collected the top 20 or less news articles for each headline news item in the query results. The collected news articles were categorized into the title (anchor title) appearing in the searched list, the title (text title) and the content (content) appearing on the detail page.

시드 뉴스의 제목과 대상 뉴스(target news)의 앵커 제목 간의 유사도 및 시드 뉴스의 제목과 대상 뉴스의 텍스트 제목 간의 유사도를 전술한 수식 2 내지 수식 5에 따라 산출하였다. 두 개의 유사도 중 시드 뉴스와 대상 뉴스의 제목 간의 유사도 값을 전술한 수식 6에 따라 산출하였다. 이렇게 구해진 제목 간의 유사도 값을 임계값과 비교하여 큰 것을 중복 후보 뉴스로 추출하고 임계값보다 작은 것을 중복 뉴스의 후보에서 제외하였다. 선출된 중복 뉴스 후보들에 대하여 내용의 유사성에 기초하여 중복 뉴스 기사인지 여부를 판별하였다. 이때 사용되는 뉴스의 유사도 측정은 전술한 수식 8 내지 수식 15에 따라 산출하였다.The similarity between the title of the seed news and the anchor title of the target news and the similarity between the title of the seed news and the title of the target news are calculated according to the above-described Equations 2 to 5. [ Among the two similarities, the similarity value between the seed news and the target news title was calculated according to Equation (6). The similarity value between the obtained titles was compared with the threshold value, and the larger one was extracted as the duplicate candidate news, and the smaller one than the threshold value was excluded from the duplicate news candidate. Based on the similarity of the contents to the selected duplicated news candidates, it was judged whether or not they are duplicate news articles. The similarity measure of the news to be used at this time is calculated according to the above-described Equations 8 to 15.

뉴스 사이트에서 선정된 6개의 분야에서 일요일을 제외한 6주 동안 수집된 헤드라인 뉴스(시드 뉴스)와 수집된 뉴스(대상 뉴스)의 수가 아래의 표 3에 나타난다. 표 3에서 헤드라인 뉴스는 헤드라인 뉴스는 각 분야별 중복 뉴스를 탐지해야 하는 그룹의 수이며, 중복 뉴스를 발견해야 하는 클러스터링의 수와 같다.Table 6 below shows the number of headline news (seed news) and collected news (target news) collected during the six weeks excluding Sunday in the six areas selected on the news site. In Table 3, the headline news is the number of groups that need to detect duplicate news for each discipline, and is equal to the number of clusters that need to find duplicate news.

PolicePolice BusinessBusiness CrimeCrime EducationEducation HealthHealth WebWeb -- ExclusiveExclusive 헤드라인 뉴스Headline News 340340 274274 215215 4747 2525 3838 대상 뉴스Target News 6,8006,800 5,4805,480 4,3004,300 940940 500500 760760 평균 중복 수Average number of duplicates 16.416.4 13.513.5 2.82.8 22 3.83.8 22

예를 들어 "Police" 분야에서 수집된 헤드라인 뉴스(시드 뉴스), 즉 탐지해야 하는 그룹의 수는 340개이다. "Police" 분야의 경우 뉴스들의 약 82%가 중복 뉴스에 해당하는 점을 고려하여, 전체 수집된 6,800개의 뉴스(대상 뉴스) 중 5,576개의 뉴스 기사를 중복 뉴스로 탐지한다. 즉, 340개의 클러스터링 그룹 중 한 개의 클러스터링 그룹이 중복 뉴스에 해당하는 것으로 찾아야 하는 평균 뉴스의 수는 16.4개이다. "Business" 분야에서 탐지해야 하는 그룹의 수는 274개이고, 이 분야의 뉴스들 중 약 67%가 중복 뉴스에 해당하므로 전체 수집된 5,480개의 대상 뉴스 중 3,699개의 뉴스 기사를 중복 뉴스로 탐지해야 한다. 즉, 274개의 그룹 중 한 개의 그룹이 찾아야하는 평균 뉴스의 수는 13.5개이다. "Crime" 분야에서 탐지해야 하는 그룹의 수는 215개이고, 이 분야의 뉴스들 중 약 14%가 중복 뉴스에 해당하므로, 전체 수집된 4,300개의 뉴스 중 602개의 뉴스 기사를 탐지해야한다. 즉, 215개의 그룹 중 한 개의 그룹이 찾아야 하는 평균 뉴스의 수는 2.8개이다. "Education" 분야에서 탐지해야하는 그룹의 수는 47개이고, 이 분야의 뉴스들 중 약 11%가 중복 뉴스에 해당하므로, 전체 수집된 940개의 뉴스 중 94개의 뉴스 기사를 탐지해야한다. 즉, 47개의 그룹 중 한 개의 그룹이 찾아야 하는 평균 뉴스의 수는 2개이다. "Health" 분야에서 탐지해야 하는 그룹의 수는 25개이고, 이 분야의 뉴스들 중 약 20%가 중복 뉴스에 해당하므로, 전체 수집된 500개의 뉴스 중 95개의 뉴스 기사를 탐지해야한다. 즉, 25개의 그룹 중 한 개의 그룹이 찾아야 하는 평균 뉴스의 수는 3.8개이다. "Web-exclusive" 분야에서 탐지해야하는 그룹의 수는 38개이고, 이 분야의 뉴스들 중 약 10.5%가 중복 뉴스에 해당하므로, 전체 수집된 760개의 뉴스 중 76개의 뉴스 기사를 탐지해야한다. 즉, 38개의 그룹 중 한 개의 그룹이 찾아야 하는 평균 뉴스의 수는 2개이다.For example, headline news (seed news) collected in the "Police" field, that is, 340 groups to be detected. In the "Police" field, 5,576 of the total 6,800 news items (target news) are detected as duplicate news, considering that 82% of the news correspond to duplicate news. That is, the average number of news that one clustering group of 340 clustering groups should find as overlapping news is 16.4. In the "Business" field, there are 274 groups that need to be detected, and about 67% of the news in this area are duplicate news, so 3,699 news articles from the total collected 5,480 target news should be detected as duplicate news. That is, the average number of news that one group of 274 groups should find is 13.5. In the "Crime" field, the number of groups to be detected is 215, and about 14% of the news in this field is duplicate news, so you need to detect 602 news articles out of the total 4,300 news collected. That is, the average number of news that one group of 215 groups should find is 2.8. In the "Education" field, there are 47 groups, and about 11% of the news in this area is duplicate news, so 94 news articles of the total 940 news should be detected. That is, the average number of news that one of the 47 groups should find is two. In the "Health" field, there are 25 groups to be detected, and about 20% of the news in this area is duplicate news, so you need to detect 95 of the 500 news articles collected. That is, the average number of news that one of the 25 groups should find is 3.8. In the "Web-exclusive" field, there are 38 groups, and about 10.5% of the news in this area is duplicate news, so we need to detect 76 of the total 760 news articles collected. That is, the average number of news that one group of 38 groups should find is two.

6개 분야의 헤드라인 뉴스에서 수집된 뉴스의 수가 다른 것은 뉴스 데이터의 선호도와 연관이 있다. "Police" 분야의 뉴스 업데이트 비율을 보면 하루에 90% 이상의 뉴스 기사가 바뀌고, 수집된 중복의 뉴스 비율을 확인해 보면 약 82%로서 유사한 기사가 가장 많다. "Business" 분야 또한 업데이트 비율과 중복 비율이 76%와 67.5%로 유사한 기사가 많이 작성된다. 그에 비해 "Crime" 분야는 업데이트 비율은 높지만 중복 뉴스의 비율이 낮고, 나머지 "Education", "Health", "Web-exclusive"와 같은 분야는 업데이트 비율과 중복 비율이 약 10% 이다. 이러한 다양한 분야의 특성을 고려하여 1차 중복 후보 뉴스와 2차 중복 뉴스의 탐지 비율을 다르게 하여 실험하였다. 실험에서 2차 중복 뉴스의 내용 유사도 값이 임계값 0.7보다 큰 경우 중복 뉴스로 탐지하였다. The number of news stories collected in the six headline news stories is related to the preference of news data. The news update rate in the "Police" field shows that more than 90% of the news articles are changed per day, and the percentage of the collected duplicates is about 82%. In the "Business" field, too, there are many similar articles with update rate and overlap ratio of 76% and 67.5%. In contrast, the "Crime" sector has a high update rate, but the percentage of overlapping news is low, while the remaining "Education", "Health" and "Web-exclusive" Considering the characteristics of these various fields, we experimented with different detection ratios of first redundant candidate news and second redundant news. In the experiment, duplicate news was detected when the content similarity value of second duplicate news was larger than threshold value 0.7.

PolicePolice BusinessBusiness CrimeCrime EducationEducation HealthHealth WebWeb - - ExclusiveExclusive 클러스터링 수Number of clusters 340340 274274 215215 4747 2525 3838 총 뉴스 수Total News 6,8006,800 5,4805,480 4,3004,300 940940 500500 760760 중복 뉴스 수Duplicate News Count 5,5765,576 3,6993,699 602602 9494 9595 7676 비교 총 뉴스 수 Compare total news 2,312,0002,312,000 1,501,5201,501,520 924,500924,500 44,18044,180 12,50012,500 28,88028,880 검색된 뉴스 수News Searches 45,62745,627 32,67232,672 19,21619,216 1,2681,268 238238 809809 검색된 적합한 뉴스 수The number of relevant news found 5,5135,513 3,6163,616 573573 8989 9191 7171 검색된 적합한 뉴스 비율Percentage of relevant news found 98.9%98.9% 97.7%97.7% 95.1%95.1% 94.7%94.7% 95.8%95.8% 93.4%93.4% 줄어드는 contractible 연산양의Mathematical 비율 ratio 98.0%98.0% 97.8%97.8% 97.9%97.9% 97.1%97.1% 98.1%98.1% 97.2%97.2%

표 4는 1차 클러스터링에서 임계값을 0.3보다 큰 값으로 설정했을 때의 결과를 나타낸다. 표 4의 1차 클러스터링 결과를 보면 "Police" 관련 뉴스는 10개의 헤드라인 뉴스 기사가 매일 새로운 뉴스 기사로 업데이트되기 때문에 클러스터링 개수가 가장 많고, "Business"나 "Crime" 관련 뉴스는 10개 중 7-8개 정도가 새로운 뉴스 기사로 업데이트되기 때문에 클러스터링의 수가 다음으로 많다. 하지만 "Business"와 다르게 "Crime"은 상대적으로 제공되는 뉴스기사가 적기 때문에 클러스터링의 수가 "Business"보다 작다. "Education", "Health", "Web-exclusive" 관련 뉴스는 10개 중 1개 정도가 새로운 뉴스 기사로 업데이트 된다. 이것은 "Police", "Business", "Crime" 과 같은 뉴스는 대중에게 많은 관심을 받고 있는 뉴스이기 때문에 새로운 뉴스가 매일 생성되는 것을 의미하고, "Education", "Health", "Web-exclusive" 관련 뉴스는 상대적으로 대중에게 관심 받지 못하고 제공되는 뉴스 기사가 적다는 것을 의미한다.Table 4 shows the results when the threshold value is set to a value larger than 0.3 in the primary clustering. In the first clustering results in Table 4, "Police" related news is the most clustering count because ten headline news articles are updated with new news articles every day, and "Business" and "Crime" As many as eight of them are updated with new news articles, the next largest number of clusters. Unlike "Business", however, "Crime" has a smaller number of clusters than "Business" because there are fewer news stories available. "Education", "Health" and "Web-exclusive" will be updated with new news articles by about 1 in 10 related news. This means that news such as "Police", "Business" and "Crime" is news that is attracting much attention from the public, so new news is generated every day and "Education", "Health" News is relatively uninterested in the public and means few news stories are provided.

도 11은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 방법에 의하여 줄어드는 연산양의 비율과 검색된 적합한 데이터 비율 간의 관계를 보여주는 그래프이다. 도 11은 1차 클러스터링 한 후 탐지된 중복 후보 뉴스의 비율과 1차 클러스터링을 하게 되었을 때 줄어드는 연산양을 나타낸다. 6개의 분야 모두 줄어드는 연산 양의 비율이 97% 이상으로 일정 수치를 가진다. 하지만 검색된 적합한 뉴스의 비율이 다르다. 대중에게 관심이 있는 "Police", "Business" 같은 경우는 기사가 많이 양산되기 때문에 적합한 뉴스의 비율이 "Crime", "Education", "Health", "Web-exclusive" 보다 상대적으로 높다.FIG. 11 is a graph showing a relationship between a ratio of operation amount reduced by the overlapping news detection method and an appropriate data ratio retrieved according to an embodiment of the present invention. FIG. 11 shows the ratio of detected duplicate candidate news after primary clustering and the amount of computation that is reduced when primary clustering is performed. In all six fields, the ratio of the amount of computation that is shrunk is more than 97%. But the percentage of the right news that is searched is different. In the case of "Police" and "Business", which are of interest to the public, the proportion of the relevant news is relatively higher than "Crime", "Education", "Health", "Web-exclusive"

표 5는 1차 클러스터링 후 중복 뉴스의 후보 수를 나타내며, 각 클러스터링 1개당 수집된 뉴스의 수가 확연히 줄어드는 것을 확인할 수 있다. 대표적인 예로 "Police"를 보면 1차 클러스터링 전에는 1개의 클러스터링 중복 뉴스를 탐지하기 위해서는 수집된 6,800개의 뉴스 문서를 모두 비교해야 하지만 1차 클러스터링 후에는 1개의 클러스터링 중복 뉴스를 탐지하기 위해 134개의 뉴스 기사만을 비교하면 된다.Table 5 shows the number of duplicate news candidates after the first clustering, and it is confirmed that the number of news collected per each clustering is significantly reduced. A typical example is "Police". In order to detect one clustering duplicate news before the first clustering, all 6,800 news articles collected should be compared. However, after the first clustering, only 134 news articles .

PolicePolice BusinessBusiness CrimeCrime EducationEducation HealthHealth WebWeb - - ExclusiveExclusive 클러스터링 수Number of clusters 340340 274274 215215 4747 2525 3838 1개의 클러스터링 당 후보 뉴스 수Number of candidate news per clustering 6,8006,800 5,4805,480 4,3004,300 940940 500500 760760 클러스터링 후 평균 후보 뉴스 수Average number of candidate news after clustering 134134 119119 8989 2727 1010 2121

표 6은 1차 클러스터링 후 중복 후보 뉴스에 대하여 유사도 값을 구하여 그 유사도 값이 0.7보다 큰 값으로 설정했을 때의 중복 뉴스를 탐지한 결과를 나타낸다.Table 6 shows the result of detecting duplicate news when the similarity value is set to a value larger than 0.7 after obtaining the similarity value for the duplicated candidate news after the first clustering.

PolicePolice BusinessBusiness CrimeCrime EducationEducation HealthHealth WebWeb - - ExclusiveExclusive 클러스터링 수Number of clusters 340340 274274 215215 4747 2525 3838 평균 후보뉴스 수Average Candidate News 134134 119119 8989 2727 1010 2121 검출해야 할 평균 중복 수Average number of duplicates to detect 16.416.4 13.513.5 2.82.8 22 3.83.8 22 중복 데이터 총 수Total number of duplicate data 5,5765,576 3,6993,699 602602 9494 9595 7676 검출된 평균 중복 수 Average number of duplicates detected 16.116.1 13.513.5 3.03.0 2.12.1 3.83.8 2.12.1 검출된 데이터 총 수Total number of detected data 5,4795,479 3,6873,687 646646 9898 9696 7979 검색된 적합한 평균 중복 수The appropriate average number of duplicates found 15.815.8 12.712.7 2.62.6 1.81.8 3.63.6 1.81.8 검색된 적합한 데이터 총 수Total eligible data found 5,3735,373 3,4803,480 561561 8686 9191 7070

표 6의 데이터를 이용하여 아래의 수식 22에 따라 정확률을 산출하고, 아래의 수식 23에 따라 재현율을 산출하고, 아래의 수식 24에 따라 F-Measure를 산출하였으며, 그 결과를 카테고리별로 도 12에 도시하였다.Using the data in Table 6, the accuracy rate is calculated according to the following equation (22), the recall rate is calculated according to the following equation (23), and the F-measure is calculated according to the following equation (24) Respectively.

[수식 22][Equation 22]

Figure 112012080501450-pat00082
Figure 112012080501450-pat00082

[수식 23][Equation 23]

Figure 112012080501450-pat00083
Figure 112012080501450-pat00083

[수식 24][Equation 24]

Figure 112012080501450-pat00084
Figure 112012080501450-pat00084

결과적으로 1개의 클러스터가 가지는 평균 중복 뉴스의 수가 많고 수집된 뉴스가 많을수록 높은 성능을 보였으며, 평균 중복 뉴스의 수가 적고 수집된 뉴스 수도 적으면 낮은 성능을 보였다. 전체적으로는 6개의 분야에서 중복 뉴스 탐지 성능은 90% 이상으로 만족할 만한 성능을 보였다.As a result, the average number of duplicated news items in one cluster is high, and the more the collected news items are, the higher the performance is. Overall, the detection performance of overlapping news in six fields was satisfactory with more than 90%.

이상의 실시예들은 본 발명의 이해를 돕기 위하여 제시된 것으로, 본 발명의 범위를 제한하지 않으며, 이로부터 다양한 변형 가능한 실시예들도 본 발명의 범위에 속할 수 있음을 이해하여야 한다. 예를 들어, 본 발명의 실시예에 도시된 각 구성 요소는 분산되어 실시될 수도 있으며, 반대로 여러 개로 분산된 구성 요소들은 결합되어 실시될 수 있다. 따라서, 본 발명의 기술적 보호범위는 특허청구범위의 기술적 사상에 의해 정해져야 할 것이며, 본 발명의 기술적 보호범위는 특허청구범위의 문언적 기재 그 자체로 한정되는 것이 아니라 실질적으로는 기술적 가치가 균등한 범주의 발명에 대하여까지 미치는 것임을 이해하여야 한다.It is to be understood that the above-described embodiments are provided to facilitate understanding of the present invention, and do not limit the scope of the present invention, and it is to be understood that various modifications may be made within the scope of the present invention. For example, each component shown in the embodiment of the present invention may be distributed and implemented, and conversely, a plurality of distributed components may be combined. Therefore, the technical protection scope of the present invention should be determined by the technical idea of the claims, and the technical protection scope of the present invention is not limited to the literary description of the claims, The invention of a category.

100: 중복 뉴스 탐지 시스템 101: 시드 뉴스 데이터베이스
102: 검색 엔진 103: 대상 뉴스 데이터베이스
104~106: 뉴스 제공 서버시스템 110: 중복 후보 뉴스 탐지부
111: 전처리부 112: 중복 후보 뉴스 판단부
120: 중복 뉴스 탐지부 121: 중복 뉴스 탐지 전처리부
122: 중복 뉴스 판단부 130: 중복 뉴스 데이터베이스
140: 뉴스 추천부
100: Duplicate News Detection System 101: Seed News Database
102: search engine 103: target news database
104 to 106: news providing server system 110: duplicate candidate news detection unit
111: preprocessing unit 112: duplicate candidate news judgment unit
120: Duplicate news detection unit 121: Duplicate news detection preprocessing unit
122: Duplicate news judgment unit 130: Duplicate news database
140: news recommendation department

Claims (12)

소정의 시드 뉴스의 제목과 하나 이상의 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 상기 제목 간의 유사도에 기초하여 상기 하나 이상의 대상 뉴스 중에서 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부; 및
상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스 중에서 중복 뉴스를 탐지하는 중복 뉴스 탐지부를 포함하는 중복 뉴스 탐지 시스템.
A duplicate candidate news detection unit for calculating a similarity degree between a title of a predetermined seed news and a title of one or more target news items and detecting duplicate candidate news among the one or more target news items based on the calculated similarity between the titles; And
And a redundant news detection unit for detecting redundant news among the redundant candidate news based on the calculated degree of similarity between the sentences included in the content of the seed news and the sentences included in the content of the overlapping candidate news Duplicate News Detection System.
소정의 시드 뉴스의 제목과 하나 이상의 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 상기 제목 간의 유사도에 기초하여 상기 하나 이상의 대상 뉴스 중에서 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부; 및
상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스 중에서 중복 뉴스를 탐지하는 중복 뉴스 탐지부를 포함하되,
상기 중복 후보 뉴스 탐지부는,
상기 시드 뉴스와 상기 대상 뉴스로부터 제목을 추출하고, 추출한 제목에 포함된 단어 중에서 단일 단어로는 의미를 갖지 않는 불용어를 제거하고, 불용어를 제거한 단어를 어근의 형태로 변환하는 전처리부; 및
상기 시드 뉴스의 제목과 각각의 대상 뉴스의 제목 간의 유사도를 산출하고, 산출한 상기 제목 간의 유사도에 기초하여 상기 각각의 대상 뉴스가 상기 중복 후보 뉴스에 해당하는지 여부를 판단하는 중복 후보 뉴스 판단부를 포함하는 중복 뉴스 탐지 시스템.
A duplicate candidate news detection unit for calculating a similarity degree between a title of a predetermined seed news and a title of one or more target news items and detecting duplicate candidate news among the one or more target news items based on the calculated similarity between the titles; And
And a redundant news detection unit for detecting redundant news among the redundant candidate news based on the calculated degree of similarity between the sentences included in the content of the seed news and the sentences included in the content of the overlapping candidate news However,
The duplicate candidate news detection unit detects,
A preprocessing unit for extracting a title from the seed news and the target news, removing an insignificant word having no meaning as a single word among words included in the extracted title, and converting a word from which the stop word is removed to a root form; And
A duplicate candidate news judgment unit for calculating the similarity between the title of the seed news and the title of each target news and for judging whether or not each of the target news corresponds to the duplicated candidate news based on the calculated similarity between the titles Duplicate News Detection System.
제2항에 있어서,
상기 중복 후보 뉴스 판단부는,
상기 시드 뉴스의 제목과, 검색 엔진의 검색 리스트에 나타나는 상기 대상 뉴스의 앵커 제목 간의 제1 유사도를 산출하는 제1 유사도 산출부;
상기 시드 뉴스의 제목과, 상기 대상 뉴스의 컨텐츠에 나타나는 제목 간의 제2 유사도를 산출하는 제2 유사도 산출부;
상기 제1 유사도 및 상기 제2 유사도 중 보다 큰 유사도를 상기 제목 간의 유사도로 결정하는 유사도 결정부; 및
상기 제목 간의 유사도를 소정의 임계값과 비교하여 상기 중복 후보 뉴스를 탐지하는 임계값 비교부를 포함하는 중복 뉴스 탐지 시스템.
3. The method of claim 2,
The duplicate candidate news judgment unit judges,
A first similarity calculating unit for calculating a first similarity degree between a title of the seed news and an anchor title of the target news appearing in a search list of a search engine;
A second similarity calculating unit for calculating a second similarity degree between the title of the seed news and a title appearing in the content of the target news;
A degree of similarity determination unit for determining a degree of similarity between the first degree of similarity and the second degree of similarity as a degree of similarity between the titles; And
And a threshold value comparing unit for comparing the similarity between the titles with a predetermined threshold value to detect the overlapping candidate news.
제3항에 있어서,
상기 중복 후보 뉴스 판단부는,
상기 시드 뉴스의 제목에서 나타나는 단어의 빈도에 비례하고, 상기 시드 뉴스와 상기 대상 뉴스의 모든 제목에서 나타나는 단어의 빈도에 반비례하는 연산을 수행하여 상기 시드 뉴스의 제목에 나타나는 단어의 가중치를 산출하고, 상기 대상 뉴스의 제목에서 나타나는 단어의 빈도에 비례하고, 상기 시드 뉴스와 상기 대상 뉴스의 모든 제목에서 나타나는 단어의 빈도에 반비례하는 연산을 수행하여 상기 대상 뉴스의 제목에 나타나는 단어의 가중치를 산출하며,
상기 제1 유사도 산출부는,
상기 시드 뉴스의 제목과, 상기 대상 뉴스의 상기 앵커 제목에 동시에 포함되는 단어의 가중치들을 합한 값에서 상기 시드 뉴스의 제목에 포함되는 단어의 가중치들과 상기 앵커 제목에 포함되는 단어의 가중치들을 합한 값으로 나눈 값을 상기 제1 유사도로 산출하며,
상기 제2 유사도 산출부는,
상기 시드 뉴스의 제목과, 상기 대상 뉴스의 상기 컨텐츠의 제목에 동시에 포함되는 단어의 가중치들의 합한 값에서 상기 시드 뉴스의 제목에 포함되는 단어의 가중치들과 상기 컨텐츠의 제목에 포함되는 단어의 가중치들을 합한 값으로 나눈 값을 상기 제2 유사도로 산출하는 중복 뉴스 탐지 시스템.
The method of claim 3,
The duplicate candidate news judgment unit judges,
Calculating a weight of words appearing in the title of the seed news by performing an operation in inverse proportion to the frequency of words appearing in the seed news and all titles of the target news in proportion to the frequency of words appearing in the title of the seed news, Calculating a weight of words appearing in the title of the target news by performing an operation in inverse proportion to the frequency of words appearing in the seed news and all titles of the target news in proportion to the frequency of the words appearing in the title of the target news,
Wherein the first similarity-
A sum of weights of words included in the title of the seed news and weights of words included in the anchor title from a sum of the weight of the seed news and the weight of words included simultaneously in the anchor title of the target news By the first degree of similarity,
Wherein the second similarity-
The weights of the words included in the title of the seed news and the weights of words included in the title of the content from the sum of the weights of the words simultaneously included in the title of the seed news and the title of the contents of the target news, And a value obtained by dividing the sum by the sum of the first and second similarities.
소정의 시드 뉴스의 제목과 하나 이상의 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 상기 제목 간의 유사도에 기초하여 상기 하나 이상의 대상 뉴스 중에서 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부; 및
상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스 중에서 중복 뉴스를 탐지하는 중복 뉴스 탐지부를 포함하되,
상기 중복 뉴스 탐지부는,
상기 시드 뉴스와 상기 중복 후보 뉴스로부터 컨텐츠를 추출하고, 추출한 상기 컨텐츠의 구문을 분석하며, 상기 컨텐츠에서 문장을 검출하는 중복 뉴스 탐지 전처리부; 및
상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하고, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스가 상기 중복 뉴스에 해당하는지 여부를 판단하는 중복 뉴스 판단부를 포함하는 중복 뉴스 탐지 시스템.
A duplicate candidate news detection unit for calculating a similarity degree between a title of a predetermined seed news and a title of one or more target news items and detecting duplicate candidate news among the one or more target news items based on the calculated similarity between the titles; And
And a redundant news detection unit for detecting redundant news among the redundant candidate news based on the calculated degree of similarity between the sentences included in the content of the seed news and the sentences included in the content of the overlapping candidate news However,
The overlapping news detection unit may include:
A duplicate news detection pre-processing unit for extracting contents from the seed news and the overlapping candidate news, analyzing a syntax of the extracted contents, and detecting a sentence in the contents; And
A degree of similarity between a sentence included in the content of the seed news and a sentence included in the content of the overlapping candidate news is calculated and it is determined whether or not the overlapping candidate news corresponds to the overlapping news based on the calculated degree of similarity between the sentences A duplicate news detection system including a duplicate news judgment unit.
제5항에 있어서,
상기 중복 뉴스 판단부는,
상기 시드 뉴스의 컨텐츠에 포함된 문장의 단어와, 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장의 단어 간의 유사도를 산출하는 단어 유사도 산출부;
상기 시드 뉴스의 컨텐츠에 포함된 문장의 동사와, 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장의 동사 간의 유사도를 산출하는 동사 유사도 산출부;
상기 단어 간의 유사도와 상기 동사 간의 유사도를 곱셈 연산하고, 상기 시드 뉴스의 문장과, 상기 중복 후보 뉴스의 각각의 문장 간의 곱셈 연산 값 중 가장 큰 값을 상기 문장 간의 유사도로 결정하는 문장 유사도 결정부;
상기 시드 뉴스의 모든 문장에 대하여 산출된 문장 간의 유사도들을 합한 값을 상기 시드 뉴스의 문장 개수 및 상기 중복 후보 뉴스의 문장 개수 중 작은 값으로 나누어 뉴스 관계 유사도를 산출하는 뉴스 관계 유사도 산출부; 및
상기 뉴스 관계 유사도를 소정의 임계값과 비교하여 상기 중복 뉴스를 탐지하는 중복 뉴스 탐지 임계값 비교부를 포함하는 중복 뉴스 탐지 시스템.
6. The method of claim 5,
The duplicate news determining unit may determine,
A word similarity degree calculating unit for calculating a degree of similarity between words of sentences included in the contents of the seed news and words of sentences included in the contents of the overlapping candidate news;
A verb similarity calculating unit for calculating a verb similarity between a verb of a sentence included in the content of the seed news and a verb of a sentence included in the content of the duplicate candidate news;
A sentence similarity degree determining unit for multiplying the similarity degree between the words and the verb similarity degree to determine the largest value among the multiplication operation values between the sentence of the seed news and the respective sentence of the overlapping candidate news as the degree of similarity between the sentences;
A news relation similarity calculating unit for calculating a news relation similarity by dividing a sum of similarities between sentences calculated for all sentences of the seed news by a smaller value among a number of sentences of the seed news and a number of sentences of the overlap candidate news; And
And a redundant news detection threshold value comparing unit for comparing the news relation similarity with a predetermined threshold value to detect the redundant news.
제6항에 있어서,
상기 단어 유사도 산출부는,
상기 시드 뉴스의 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 비례하고, 상기 시드 뉴스와 상기 중복 후보 뉴스의 모든 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 반비례하는 연산을 수행하여 상기 시드 뉴스의 단어의 가중치를 산출하고, 상기 중복 후보 뉴스의 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 비례하고, 상기 시드 뉴스와 상기 중복 후보 뉴스의 모든 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 반비례하는 연산을 수행하여 상기 중복 후보 뉴스의 단어의 가중치를 산출하며, 상기 시드 뉴스의 문장과, 상기 중복 후보 뉴스의 문장에 동시에 포함되는 동사를 제외한 단어의 가중치들을 합한 값에서 상기 시드 뉴스의 문장에 포함되는 동사를 제외한 단어의 가중치들과 상기 중복 후보 뉴스의 문장에 포함되는 동사를 제외한 단어의 가중치들을 합한 값으로 나눈 값을 상기 단어 간의 유사도로 산출하는 중복 뉴스 탐지 시스템.
The method according to claim 6,
The word similarity degree calculating unit may calculate,
The seed news and the duplicate candidate news are calculated in inverse proportion to the frequencies of the words excluding the verbs appearing in the sentences of all the contents of the seed news and the duplicate candidate news, Wherein the weight of the words excluding the verbs appearing in the sentences of all the contents of the seed news and the duplicate candidate news is proportional to the frequency of the words excluding the verbs appearing in the sentences of the contents of the duplicate candidate news, A weight of words of the overlapping candidate news is calculated by performing inversely proportional calculation to calculate a weight of words of the overlapping candidate news and a weight of words of the overlapping candidate news, Weights of words excluding verbs included in And a weight value of the words other than the verbs included in the sentence of the overlapping candidate news is divided by the sum of the weight values of the words.
제6항에 있어서,
상기 동사 유사도 산출부는,
상기 시드 뉴스의 문장과 상기 중복 후보 뉴스의 문장에서 나타나는 동사를 공통으로 포함하는 워드넷 용어집 기반 계층에서의 최 하위 계층 상위 동사를 검출하고, 상기 시드 뉴스의 문장에서 나타나는 동사, 상기 중복 후보 뉴스의 문장에서 나타나는 동사 및 상기 최 하위 계층 상위 동사의 동의어 어휘의 개수에 비례하는 연산을 수행하여 확률 값을 산출하며, 산출한 상기 확률 값을 이용하여 상기 동사 간의 유사도를 산출하는 중복 뉴스 탐지 시스템.
The method according to claim 6,
Wherein the verb similarity calculating unit comprises:
Detecting a lowest-order upper verb in a WordNet glossary-based hierarchy that commonly includes a sentence of the seed news and a verb appearing in a sentence of the overlapping candidate news; and detecting a verb appearing in the sentence of the seed news, A redundant news detection system for calculating a probability value by performing an operation proportional to a number of synonym vocabularies of a verb appearing in a sentence and an upper vowel of the lowest lowest hierarchical level, and calculating a similarity degree between the verbs using the calculated probability value.
제5항에 있어서,
상기 중복 뉴스 탐지 전처리부는,
상기 시드 뉴스와 상기 중복 후보 뉴스의 태그를 제거하고, 상기 시드 뉴스와 상기 중복 후보 뉴스로부터 컨텐츠를 추출하는 태그 제거부;
상기 컨텐츠의 구문을 분석하는 구문 분석부;
상기 컨텐츠로부터 문장을 검출하는 문장 검출부;
상기 문장으로부터 동사를 추출하는 동사 추출부; 및
상기 문장의 단어 중에서 단일 단어로는 의미를 갖지 않는 불용어를 제거하고, 불용어를 제거한 단어를 어근의 형태로 변환하는 불용어 제거 및 어근 처리부를 포함하는 중복 뉴스 탐지 시스템.
6. The method of claim 5,
The overlapping news detection pre-
A tag removing unit for removing tags of the seed news and the overlapping candidate news, and extracting contents from the seed news and the overlapping candidate news;
A syntax analyzer for analyzing the syntax of the content;
A sentence detection unit detecting a sentence from the content;
A verb extraction unit for extracting a verb from the sentence; And
A redundant news detection system including an abbreviation removing unit and a root processing unit for removing an insignificant word having no meaning as a single word among the words of the sentence and converting a word obtained by removing an insignificant word into a root form.
제1항 내지 제9항 중 어느 하나의 항에 있어서,
상기 시드 뉴스는 하나 이상의 뉴스 제공 서버 시스템에서 제공하는 헤드라인 뉴스를 포함하며,
상기 하나 이상의 대상 뉴스는 상기 시드 뉴스의 제목에 나타나는 단어를 포함하는 검색어를 이용하여 검색 엔진이 검색한 뉴스들을 포함하는 중복 뉴스 탐지 시스템.
10. The method according to any one of claims 1 to 9,
The seed news includes headline news provided by one or more news providing server systems,
Wherein the at least one target news includes news searched by a search engine using a search term including a word appearing in the title of the seed news.
제1항 내지 제9항 중 어느 하나의 항에 있어서,
탐지된 상기 중복 뉴스의 리스트를 제거한 웹 페이지를 제공하거나, 상기 시드 뉴스와 상기 중복 뉴스를 결합한 웹 페이지를 제공하는 뉴스 추천부를 더 포함하는 중복 뉴스 탐지 시스템.
10. The method according to any one of claims 1 to 9,
Further comprising a news recommendation unit for providing a web page from which the list of detected duplicate news is removed or a web page combining the seed news and the duplicate news.
소정의 시드 뉴스를 저장하는 시드뉴스 데이터베이스;
상기 시드 뉴스의 제목에 나타나는 단어를 포함하는 검색어를 이용하여 대상 뉴스들을 검색하는 검색 엔진;
검색된 상기 대상 뉴스들을 저장하는 대상 뉴스 데이터베이스;
상기 시드 뉴스와 상기 대상 뉴스들 각각으로부터 제목을 추출하고, 추출한 상기 시드 뉴스의 제목과 상기 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 상기 제목 간의 유사도에 기초하여 상기 대상 뉴스들 중에서 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부;
상기 시드 뉴스와 상기 중복 후보 뉴스로부터 컨텐츠를 추출하고, 추출한 상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스 중에서 중복 뉴스를 탐지하는 중복 뉴스 탐지부;
탐지된 상기 중복 뉴스를 저장하는 중복 뉴스 데이터베이스; 및
탐지된 상기 중복 뉴스의 리스트를 제거한 웹 페이지를 제공하거나, 상기 시드 뉴스와 상기 중복 뉴스를 결합한 웹 페이지를 제공하는 뉴스 추천부를 포함하는 중복 뉴스 탐지 시스템.
A seed news database storing predetermined seed news;
A search engine for searching for target news using a search term including a word appearing in a title of the seed news;
A target news database storing the searched target news;
Extracting a title from each of the seed news and the target news, calculating a degree of similarity between the title of the extracted seed news and the title of the target news, calculating a degree of similarity between the seed news and the target news, A duplicate candidate news detection unit for detecting a duplicate candidate news;
Extracting content from the seed news and the overlap candidate news, calculating a similarity between a sentence included in the extracted content of the seed news and a sentence contained in the content of the overlap candidate news, and based on the calculated similarity between the sentences, A duplicate news detecting unit for detecting duplicate news among the duplicate candidate news;
A duplicate news database for storing the duplicate news detected; And
And a news recommendation unit for providing a web page from which the list of the detected duplicate news items is removed or providing a web page combining the seed news item and the duplicate news item.
KR1020120110179A 2012-10-04 2012-10-04 Duplication news detection system and method for detecting duplication news KR101429623B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120110179A KR101429623B1 (en) 2012-10-04 2012-10-04 Duplication news detection system and method for detecting duplication news

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120110179A KR101429623B1 (en) 2012-10-04 2012-10-04 Duplication news detection system and method for detecting duplication news

Publications (2)

Publication Number Publication Date
KR20140044156A KR20140044156A (en) 2014-04-14
KR101429623B1 true KR101429623B1 (en) 2014-08-13

Family

ID=50652280

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120110179A KR101429623B1 (en) 2012-10-04 2012-10-04 Duplication news detection system and method for detecting duplication news

Country Status (1)

Country Link
KR (1) KR101429623B1 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102025805B1 (en) * 2017-03-29 2019-11-12 중앙대학교 산학협력단 Device and method for analyzing similarity of documents
CN114666663A (en) * 2019-04-08 2022-06-24 百度(美国)有限责任公司 Method and apparatus for generating video
US11341203B2 (en) * 2019-10-02 2022-05-24 Snapwise Inc. Methods and systems to generate information about news source items describing news events or topics of interest
CN113591474B (en) * 2021-07-21 2024-04-05 西北工业大学 Repeated data detection method of Loc2vec model based on weighted fusion
KR102524690B1 (en) * 2022-07-13 2023-04-24 에이셀테크놀로지스 주식회사 Method for news mapping and apparatus for performing the method
KR20240071156A (en) * 2022-11-15 2024-05-22 삼성전자주식회사 Electronic apparatus and method for controlling thereof

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011033671A1 (en) * 2009-09-18 2011-03-24 株式会社 東芝 Title judgmet device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011033671A1 (en) * 2009-09-18 2011-03-24 株式会社 東芝 Title judgmet device

Also Published As

Publication number Publication date
KR20140044156A (en) 2014-04-14

Similar Documents

Publication Publication Date Title
CN109190117B (en) Short text semantic similarity calculation method based on word vector
CN106844658B (en) Automatic construction method and system of Chinese text knowledge graph
US6189002B1 (en) Process and system for retrieval of documents using context-relevant semantic profiles
Mitra et al. An automatic approach to identify word sense changes in text media across timescales
Zhang et al. Entity linking leveraging automatically generated annotation
KR101377114B1 (en) News snippet generation system and method for generating news snippet
Alzahrani et al. Fuzzy semantic-based string similarity for extrinsic plagiarism detection
CN109960756B (en) News event information induction method
KR101429623B1 (en) Duplication news detection system and method for detecting duplication news
WO2013125286A1 (en) Non-factoid question answering system and computer program
Atkinson et al. Rhetorics-based multi-document summarization
US9892110B2 (en) Automated discovery using textual analysis
CN111090731A (en) Electric power public opinion abstract extraction optimization method and system based on topic clustering
CN111414763A (en) Semantic disambiguation method, device, equipment and storage device for sign language calculation
Aquino et al. Keyword identification in spanish documents using neural networks
Khedkar et al. Customer review analytics for business intelligence
Bhaskar et al. A query focused multi document automatic summarization
CN114706972A (en) Unsupervised scientific and technical information abstract automatic generation method based on multi-sentence compression
Chopra et al. Sentiment analyzing by dictionary based approach
KR20130076684A (en) Multi-document summarization method and system using semmantic analysis between tegs
KR101429621B1 (en) Duplication news detection system and method for detecting duplication news
Yusuf et al. Query expansion method for quran search using semantic search and lucene ranking
Haque et al. An innovative approach of Bangla text summarization by introducing pronoun replacement and improved sentence ranking
Jha et al. Hsas: Hindi subjectivity analysis system
Yunus et al. Semantic method for query translation.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee