KR101804810B1 - 유사문서 판별장치 및 이를 이용한 유사문서 판별방법 - Google Patents

유사문서 판별장치 및 이를 이용한 유사문서 판별방법 Download PDF

Info

Publication number
KR101804810B1
KR101804810B1 KR1020160086863A KR20160086863A KR101804810B1 KR 101804810 B1 KR101804810 B1 KR 101804810B1 KR 1020160086863 A KR1020160086863 A KR 1020160086863A KR 20160086863 A KR20160086863 A KR 20160086863A KR 101804810 B1 KR101804810 B1 KR 101804810B1
Authority
KR
South Korea
Prior art keywords
hash
unit
histogram
text
document
Prior art date
Application number
KR1020160086863A
Other languages
English (en)
Inventor
최태영
김재준
Original Assignee
금오공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 금오공과대학교 산학협력단 filed Critical 금오공과대학교 산학협력단
Priority to KR1020160086863A priority Critical patent/KR101804810B1/ko
Application granted granted Critical
Publication of KR101804810B1 publication Critical patent/KR101804810B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • G06F16/152File search processing using file content signatures, e.g. hash values
    • G06F17/30109
    • G06F17/21

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은, 다수의 문서 각각의 텍스트를 엔그램으로 변환하고, 상기 엔그램을 이용하여 다수의 해시정수의 히스토그램을 산출하는 데이터 산출부와; 상기 다수의 해시정수의 히스토그램을 저장하여 데이터베이스화 하는 저장부와; 상기 저장부의 상기 다수의 해시정수의 히스토그램으로부터 문서거리를 산출하고, 상기 문서거리를 이용하여 상기 다수의 문서 중 적어도 2개의 유사여부를 판별하는 유사 판별부를 포함하는 유사문서 판별장치를 제공한다.

Description

유사문서 판별장치 및 이를 이용한 유사문서 판별방법{Discriminating Apparatus Of Similar Documents And Discriminating Method Using The Same}
본 발명은 유사문서 판별장치에 관한 것으로, 특히 엔그램(N-gram)에 대한 정보를 반영하는 해시정수의 히스토그램을 이용하여 문서 사이의 유사여부를 간편하고 신속하게 판별할 수 있는 유사문서 판별장치 및 이를 이용한 유사문서 판별방법에 관한 것이다.
인터넷의 발달과 함께 신문, 방송, 잡지 등 대중매체로부터 개인의 일기에 이르기까지 다양한 문서와 이에 포함되어 있는 정보가 대량으로 유통되고 있는데, 이러한 대량 유통정보는 새로운 가치를 창조할 수 있다는 장점이 있으나, 표절(plagiarism)과 저작권 침해와 같은 문제를 발생시키는 단점이 있다.
표절은 다른 사람의 저작물의 전부나 일부를 그대로 또는 그 형태나 내용에 다소 변경을 가하여 자신의 것으로 제공 또는 제시하는 행위를 말하는데, 저작권 침해 이외에도 정보의 바람직한 유통 및 활용에 악영향을 미치기 때문에, 표절을 효과적으로 검출하기 위한 연구가 널리 진행되고 있다.
표절을 검출하는 것은 표절로 의심되는 문서 사이의 유사여부를 판별하는 것이라 할 수 있는데, 문서 사이의 유사여부를 판별하는 방법으로는 문자열 비교 방식, 패턴 매칭 방식, 지문법 이용 방식, 벡터 공간 모델 방식, 잠재 의미 분석 방식 등이 제안되고 있다.
그런데, 이러한 종래의 문서 사이의 유사여부 판별 방식에는, 어순을 변경하거나 새로운 단어를 삽입 혹은 삭제한 경우에 표절을 검출하지 못한다거나, 우연히 일치하는 색인어를 표절로 인식하거나 비슷한 의미를 갖는 다른 색인어를 표절로 검출하지 못하거나, 유사성이 낮은 문장이 의미적 관계에 따라 표절로 판정되는 등의 문제가 있다.
본 발명은 상기한 문제점을 해결하고자 안출된 것으로, 엔그램에 대한 정보를 반영하는 해시정수의 히스토그램을 이용하여 문서 사이의 거리를 산출함으로써, 문서 사이의 유사여부를 간편하고 신속하게 판별할 수 있는 유사문서 판별장치 및 이를 이용한 유사문서 판별방법을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위하여, 본 발명은, 다수의 문서 각각의 텍스트를 엔그램으로 변환하고, 상기 엔그램을 이용하여 다수의 해시정수의 히스토그램을 산출하는 데이터 산출부와; 상기 다수의 해시정수의 히스토그램을 저장하여 데이터베이스화 하는 저장부와; 상기 저장부의 상기 다수의 해시정수의 히스토그램으로부터 문서거리를 산출하고, 상기 문서거리를 이용하여 상기 다수의 문서 중 적어도 2개의 유사여부를 판별하는 유사 판별부를 포함하는 유사문서 판별장치를 제공한다.
그리고, 상기 데이터 산출부는, 상기 다수의 문서 각각으로부터 상기 텍스트를 추출하는 텍스트 추출부와; 상기 텍스트를 상기 엔그램으로 변환하는 엔그램 변환부와; 상기 엔그램을 해시함수에 따라 해시정수로 변환하는 해시정수 변환부와; 상기 해시정수로부터 빈도정보를 추출하는 빈도정보 추출부와; 상기 빈도정보를 이용하여 상기 다수의 해시정수의 히스토그램을 산출하는 히스토그램 산출부를 포함할 수 있다.
또한, 상기 해시함수는, 사칙연산, 모듈러연산 및 비트연산 중 적어도 하나를 포함하는 함수일 수 있다.
그리고, 상기 엔그램은 다수의 그램요소를 포함하고, 상기 해시정수는 상기 해시함수에 따라 상기 다수의 그램요소에 대응되는 다수의 해시정수값을 포함하고, 상기 빈도정보는 상기 다수의 해시정수값 각각이 상기 텍스트 전체에서 발생한 횟수에 대한 정보일 수 있다.
또한, 상기 유사 판별부는, 상기 다수의 해시정수의 히스토그램 중 적어도 2개로부터 상기 문서거리를 산출하는 문서거리 산출부와; 상기 문서거리를 미리 결정된 임계거리와 비교하여 유사여부를 판단하는 판단부를 포함할 수 있다.
한편, 본 발명은, 다수의 문서 각각의 텍스트를 엔그램으로 변환하는 단계와; 상기 엔그램을 이용하여 다수의 해시정수의 히스토그램을 산출하는 단계와; 상기 다수의 해시정수의 히스토그램을 저장하여 데이터베이스화 하는 단계와; 상기 다수의 해시정수의 히스토그램으로부터 문서거리를 산출하는 단계와; 상기 문서거리를 이용하여 상기 다수의 문서 중 적어도 2개의 유사여부를 판별하는 단계를 포함하는 유사문서 판별방법을 제공한다.
그리고, 상기 텍스트를 상기 엔그램으로 변환하는 단계는, 상기 다수의 문서 각각으로부터 상기 텍스트를 추출하는 단계를 포함할 수 있다.
또한, 상기 다수의 해시정수의 히스토그램을 산출하는 단계는, 상기 엔그램을 해시함수에 따라 해시정수로 변환하는 단계와; 상기 해시정수로부터 빈도정보를 추출하는 단계와; 상기 빈도정보를 이용하여 상기 다수의 해시정수의 히스토그램을 산출하는 단계를 포함할 수 있다.
그리고, 상기 해시함수는, 사칙연산, 모듈러연산 및 비트연산 중 적어도 하나를 포함하는 함수일 수 있다.
또한, 상기 다수의 문서 중 적어도 2개의 유사여부를 판별하는 단계는, 상기 다수의 해시정수의 히스토그램 중 적어도 2개로부터 상기 문서거리를 산출하는 단계와; 상기 문서거리를 미리 결정된 임계거리와 비교하여 유사여부를 판단하는 단계를 포함할 수 있다.
이상에서 살펴본 바와 같이, 본 발명은, 문서의 텍스트로부터 엔그램에 대한 정보를 반영하는 해시정수의 히스토그램을 산출하고 해시정수의 히스토그램을 이용하여 문서 사이의 거리를 산출함으로써, 문서 사이의 유사여부를 간편하고 신속하게 판별할 수 있는 효과를 갖는다.
도 1은 본 발명의 실시예에 따른 유사문서 판별장치를 도시한 도면.
도 2는 본 발명의 실시예에 따른 유사문서 판별방법을 설명하기 위한 흐름도.
이하, 본 발명의 구체적인 내용을 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 유사문서 판별장치를 도시한 도면이다.
도 1에 도시한 바와 같이, 본 발명의 실시예에 따른 유사문서 판별장치(110)는, 문서로부터 문서 비교에 필요한 문서데이터를 산출하는 데이터 산출부(120), 산출된 문서데이터를 저장하는 저장부(140) 및 저장된 문서데이터를 이용하여 문서 사이의 유사여부를 판별하는 유사 판별부(160)를 포함한다.
구체적으로, 데이터 산출부(120)는, 텍스트 추출부(122), 엔그램 변환부(124), 해시정수 변환부(126), 빈도정보 추출부(128) 및 히스토그램 산출부(130)를 포함하는데, 데이터 산출부(120)가 산출하는 문서데이터는 텍스트, 엔그램, 해시정수, 빈도정보, 해시정수의 히스토그램을 포함할 수 있다.
텍스트 추출부(122)는, 유사문서 판별장치(110)로 입력된 문서로부터 텍스트(text)를 추출하고, 추출된 텍스트를 엔그램 변환부(124)로 전달한다.
엔그램 변환부(124)는, 텍스트 추출부(122)로부터 전달받은 텍스트를 엔그램(N-gram)으로 변환하고, 변환된 엔그램을 해시정수 변환부(126)로 전달한다.
엔그램은 문장에서 인접한 N개의 글자 또는 단어를 말하는 것으로, 1개의 글자 또는 단어의 경우는 유니그램(uni-gram), 2개의 글자 또는 단어의 경우는 바이그램(bi-gram), 3개의 글자 또는 단어의 경우는 트라이그램(tri-gram)이라고 불린다.
엔그램 변환부(124)는 텍스트에서 빈칸, 마침표, 쉼표 등에 따라 단어 또는 어절을 구분한 후, 각 단어 또는 어절을 엔그램으로 변환할 수 있다.
예를 들어, 텍스트의 "히스토그램"라는 어절은, "히스," "스토," "토그," "그램"과 같은 바이그램으로 변환되거나, "히스토," "스토그," "토그램"과 같은 트라이그램으로 변환될 수 있으며, 이러한 바이그램 또는 트라이그램은 엔그램을 구성하는 다수의 그램요소로 부를 수 있다.
이때, 어절의 글자가 N보다 작은 경우에는 전체 어절을 하나의 엔그램으로 간주할 수 있다.
해시정수 변환부(126)는, 엔그램을 특정 범위의 해시정수로 변환하고, 변환된 해시정수를 빈도정보 추출부(126)로 전달한다.
엔그램 변환부(124)에서 산출된 엔그램은 용량이 매우 커서 엔그램을 이용하여 빈도정보를 추출하거나 히스토그램을 산출하는 것은 관리가 불편하고 저장하기 어려운 문제가 있다.
예를 들어, 바이그램의 경우에도 하나의 텍스트에 대응되는 유니코드값이 4바이트(byte)를 차지하므로, 이로부터 산출되는 히스토그램은 16기가바이트 크기의 배열이 되어 파일로 관리하거나 메모리에 저장하기에 어려움이 있다.
따라서, 해시정수 변환부(126)는 엔그램 변환부(124)의 엔그램을 미리 정해진 해시함수에 따라 특정 범위의 해시(hash)정수로 변환한다.
예를 들어, 그림을 다루는 히스토그램은 엔그램을 0에서 255 사이의 범위에 있는 해시정수로 변환함으로써, 총 1024바이트 또는 1KB 크기의 배열을 포함하는 해시정수의 히스토그램으로 변환할 수 있으며, 이 경우 메모리나 파일에서 처리하기에 적합한 크기가 된다.
해시정수 변환부(126)는 서로 다른 엔그램을 가급적 동일한 해시정수로 변환하지 않는 범위에서 다양한 해시함수를 사용할 수 있다.
해시함수는 엔그램을 적정 범위의 해시정수로 변환하는 함수로서, 예를 들어 가감승제의 사칙연산, 모듈러연산, 비트연산 중 적어도 하나와 그 외의 다양한 함수의 조합으로 이루어진 함수일 수 있다.
예를 들어, 가산은 엔그램에서 각각이 하나의 텍스트에 대응되는 유니코드값들을 서로 더하는 연산(C_i + C_{i+1})이고, 감산은 엔그램에서 각각이 하나의 텍스트에 대응되는 유니코드값들을 서로 빼는 연산(C_i - C_{i+1})이며, 실험 결과로는 가산 및 감산 중에서 감산이 각 문서의 특징을 더 정확하게 반영할 수 있음을 알 수 있다.
그리고, 모듈러연산은 나머지연산이라고도 불리며, 0부터 (n-1)까지의 제한된 정수만을 사용하는 연산으로, n보다 작은 양의 정수를 결과값으로 갖는다.
비트연산은 한 개 또는 두 개의 이진수에 대해 비트 단위로 적용되는 연산으로, NOT, OR, XOR, AND 등을 포함한다.
빈도정보 추출부(128)는, 해시정수 변환부(126)로부터 전달받은 해시정수로부터 빈도정보를 추출하고, 추출된 빈도정보를 히스토그램 산출부(130)로 전달한다.
여기서, 빈도정보는, 다수의 그램요소 각각이 텍스트 전체에서 발생한 횟수에 대한 정보를 포함할 수 있으며, 발생한 횟수는 정수일 수 있다.
히스토그램 산출부(130)는, 빈도정보 추출부(128)로부터 전달받은 빈도정보를 이용하여 엔그램에 대한 정보를 반영하는 해시정수의 히스토그램을 산출하고, 산출된 해시정수의 히스토그램을 저장부(140)로 전달한다.
여기서, 해시정수의 히스토그램은, 가로축이 엔그램의 다수의 그램요소에 대응되는 해시정수이고, 세로축이 해당 그램요소에 대응되는 해시정수의 발생 횟수일 수 있다.
저장부(140)는, 히스토그램 산출부(130)로부터 전달받은 해시정수의 히스토그램을 저장하고, 저장된 해시정수의 히스토그램을 유사 판별부(160)로 전달하는데, 다수의 문서에 대한 해시정수의 히스토그램을 축적함으로써 다수의 해시정수의 히스토그램의 데이터베이스를 구축할 수 있다.
여기서, 해시정수의 히스토그램은, 각 그램요소에 대응되는 해시정수 및 해당 발생 횟수가 순차적으로 나열되는 배열의 형태로 저장될 수 있다.
유사 판별부(160)는, 문서거리 산출부(162) 및 판단부(164)를 포함한다.
문서거리 산출부(162)는, 데이터베이스화 된 저장부(140)로부터 유사여부 판별대상인 적어도 2개의 문서의 해시정수의 히스토그램을 전달받고, 전달받은 해시정수의 히스토그램으로부터 문서거리를 산출하고, 산출된 문서거리를 판단부(164)로 전달한다.
여기서, 문서거리는, 판별대상인 적어도 2개의 문서의 해시정수의 히스토그램 사이의 유사성을 나타내는 정량적 척도로서, 유사성에 반비례하여 문서거리가 크면 유사성이 작고 문서거리가 작으면 유사성이 큰 것으로 판단할 수 있다.
이러한 문서거리는 벡터 접근법, 확률적 접근법 등의 다양한 방법으로 산출할 수 있는데, 벡터 접근법은 해시정수의 히스토그램을 고정된 차원의 벡터로 취급하는 것이고, 확률적 접근법은 해시정수의 히스토그램을 확률밀도함수의 경험적 판단을 위한 근거로 이용하는 것이다.
즉, 벡터 접근법에 따라 2개의 해시정수의 히스토그램을 벡터로 해석하여 2개의 벡터 사이의 거리를 문서거리로 산출하거나, 확률적 접근법에 따라 2개의 해시정수의 히스토그램을 확률밀도함수로 해석하여 2개의 확률밀도함수 사이의 비중첩 정도를 문서거리로 산출할 수 있다.
예를 들어, 코사인 유사도(cosine similarity), 가우시안 거리(Gaussian distance), 코사인 유사도 및 가우시안 거리의 조합을 적용하여 문서거리를 산출할 수 있다.
코사인 유사도는, 내적공간의 2개의 벡터 사이의 각도의 코사인값을 이용하여 측정된 벡터간의 유사한 정도를 의미하는 것으로, 벡터의 크기가 아닌 방향의 유사도를 판단하기 위하여 사용되며, 각도가 0도 및 90도 일 때 코사인 유사도는 각각 1 및 0이 된다.
그리고, 코사인 유사도와 가우시안 거리는 일반적으로 반비례한다.
판단부(164)는, 문서거리 산출부(162)로부터 전달받은 문서거리를 미리 결정된 임계거리와 비교하고, 비교결과에 따라 유사여부 판별대상인 적어도 2개의 문서의 유사여부를 판단한다.
예를 들어, 판단부(164)는, 문서거리가 임계거리보다 크면 판별대상인 적어도 2개의 문서를 비유사로 판단하고, 문서거리가 임계거리보다 작으면 판별대상인 적어도 2개의 문서를 유사로 판단할 수 있다.
그리고, 유사문서 판별장치(110)가 다수의 문서를 비교할 경우, 문서거리가 임계거리보다 작은 다수의 문서를 모아서 유사문서의 그룹으로 제시할 수도 있다.
이상과 같이, 본 발명의 실시예에 따른 유사문서 판별장치(110)는, 데이터 산출부(120)가 다수의 문서에 대한 해시정수의 히스토그램을 산출하여 저장부(140)에 축적함으로써, 다수의 해시정수의 히스토그램의 데이터베이스를 구축하고, 유사 판별부(160)가 데이터베이스화 된 다수의 해시정수의 히스토그램을 이용하여 문서거리를 산출함으로써, 문서 사이의 유사여부를 간편하고 신속하고 정확하게 판별할 수 있다.
이러한 유사문서 판별장치(110)를 이용한 유사문서 판별방법을 도면을 참조하여 설명한다.
도 2는 본 발명의 실시예에 따른 유사문서 판별방법을 설명하기 위한 흐름도로서, 도 1을 함께 참조하여 설명한다.
도 2에 도시한 바와 같이, 유사문서 판별장치(110)로 문서가 입력되면, 데이터 산출부(120)의 텍스트 추출부(122)는 입력된 문서로부터 텍스트(text)를 추출하고(st10), 추출된 텍스트를 엔그램 변환부(124)로 전달한다.
이후, 데이터 산출부(120)의 엔그램 변환부(124)는, 텍스트 추출부(122)로부터 전달받은 텍스트를 엔그램(N-gram)으로 변환하고(st12), 변환된 엔그램을 데이터 산출부(120)의 해시정수 변환부(126)로 전달한다.
여기서, 엔그램 변환부(124)는 텍스트에서 빈칸, 마침표, 쉼표 등에 따라 단어 또는 어절을 구분한 후, 각 단어 또는 어절을 엔그램으로 변환할 수 있으며, 어절의 글자가 N보다 작은 경우에는 전체 어절을 하나의 엔그램으로 간주할 수 있다.
이후, 데이터 산출부(120)의 해시정수 변환부(126)는, 미리 정해진 해시함수에 따라 엔그램 변환부(124)로부터 전달받은 엔그램을 해시정수로 변환하고(st14), 변환된 해시정수를 빈도정보 추출부(128)로 전달한다.
여기서, 해시함수는 엔그램을 적정 범위의 해시정수로 변환하는 함수로서, 예를 들어 가감승제의 사칙연산, 모듈러연산, 비트연산 중 적어도 하나와 그 외의 다양한 함수의 조합으로 이루어진 함수일 수 있다.
예를 들어, 가산은 엔그램에서 각각이 하나의 텍스트에 대응되는 유니코드값들을 서로 더하는 연산(C_i + C_{i+1})이고, 감산은 엔그램에서 각각이 하나의 텍스트에 대응되는 유니코드값들을 서로 빼는 연산(C_i - C_{i+1})이다.
그리고, 모듈러연산은 나머지연산이라고도 불리며, 0부터 (n-1)까지의 제한된 정수만을 사용하는 연산으로, n보다 작은 양의 정수를 결과값으로 갖는다.
비트연산은 한 개 또는 두 개의 이진수에 대해 비트 단위로 적용되는 연산으로, NOT, OR, XOR, AND 등을 포함한다.
이후, 데이터 산출부(120)의 빈도정보 추출부(128)는, 해시정수 변환부(126)로부터 전달받은 해시정수로부터 빈도정보를 추출하고(st16), 추출된 빈도정보를 히스토그램 산출부(130)로 전달한다.
여기서, 빈도정보는, 다수의 그램요소 각각이 텍스트 전체에서 발생한 횟수에 대한 정보를 포함할 수 있으며, 발생한 횟수는 정수일 수 있다.
이후, 데이터 산출부(120)의 히스토그램 산출부(130)는, 빈도정보 추출부(128)로부터 전달받은 빈도정보를 이용하여 해시정수의 히스토그램을 산출하고(st18), 산출된 해시정수의 히스토그램을 저장부(140)로 전달한다.
여기서, 해시정수의 히스토그램은, 가로축이 해시정수의 다수의 그램요소이고, 세로축이 해당 그램요소의 발생 횟수일 수 있다.
이후, 저장부(140)는, 히스토그램 산출부(130)로부터 전달받은 해시정수의 히스토그램을 배열의 형태로 저장하고(st20), 저장된 해시정수의 히스토그램을 유사 판별부(160)로 전달한다.
여기서, 저장부(140)는, 다수의 문서에 대한 해시정수의 히스토그램을 지속적으로 축적함으로써 다수의 해시정수의 히스토그램의 데이터베이스를 구축할 수 있으며, 저장부(140)에 저장된 해시정수의 히스토그램의 배열의 형태는 각 그램요소에 대응되는 해시정수 및 해당 발생 횟수가 순차적으로 나열되는 형태일 수 있다.
이후, 외부로부터 유사여부 판별대상인 기준문서와 대상문서의 유사여부 요청이 있을 경우, 유사 판별부(160)의 문서거리 산출부(162)는, 데이터베이스화 된 저장부(140)로부터 기준문서와 대상문서의 해시정수의 히스토그램을 전달받고, 전달받은 해시정수의 히스토그램으로부터 기준문서와 대상문서 사이의 문서거리를 산출하고(st22), 산출된 문서거리를 판단부(164)로 전달한다.
이후, 유사 판별부(160)의 판단부(164)는, 문서거리 산출부(162)로부터 전달받은 문서거리를 미리 결정된 임계거리와 비교하고(st24), 문서거리가 임계거리보다 크면 기준문서와 대상문서를 비유사로 판단하고(st26), 문서거리가 임계거리보다 작으면 기준문서와 대상문서를 유사로 판단한다(st28).
이상과 같이, 본 발명의 실시예에 따른 유사문서 판별방법에서는, 데이터 산출부(120)가 다수의 문서에 대한 엔그램에 대한 정보를 반영하는 해시정수의 히스토그램을 산출하여 저장부(140)에 축적함으로써, 다수의 해시정수의 히스토그램의 데이터베이스를 구축하고, 유사 판별부(160)가 데이터베이스화 된 다수의 해시정수의 히스토그램을 이용하여 문서거리를 산출함으로써, 문서 사이의 유사여부를 간편하고 신속하고 정확하게 판별할 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 기술적 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
110: 유사문서 판별장치 120: 데이터 산출부
122: 텍스트 추출부 124: 엔그램 변환부
126: 빈도정보 추출부 128: 히스토그램 산출부
140: 저장부 160: 유사 판별부
162: 문서거리 산출부 164: 판단부

Claims (10)

  1. 다수의 문서 각각의 텍스트를 엔그램으로 변환하고, 상기 엔그램을 이용하여 다수의 해시정수의 히스토그램을 산출하는 데이터 산출부와;
    상기 다수의 해시정수의 히스토그램을 저장하여 데이터베이스화 하는 저장부와;
    상기 저장부의 상기 다수의 해시정수의 히스토그램으로부터 문서거리를 산출하고, 상기 문서거리를 이용하여 상기 다수의 문서 중 적어도 2개의 유사여부를 판별하는 유사 판별부
    를 포함하고,
    상기 데이터 산출부는,
    상기 다수의 문서 각각으로부터 상기 텍스트를 추출하는 텍스트 추출부와;
    상기 텍스트를 상기 엔그램으로 변환하는 엔그램 변환부와;
    상기 엔그램을 해시함수에 따라 해시정수로 변환하는 해시정수 변환부와;
    상기 해시정수로부터 빈도정보를 추출하는 빈도정보 추출부와;
    상기 빈도정보를 이용하여 상기 다수의 해시정수의 히스토그램을 산출하는 히스토그램 산출부
    를 포함하고,
    상기 해시함수는, 상기 텍스트에 대응되는 유니코드값들을 서로 더하는 연산(C_i + C_{i+1}) 또는 상기 텍스트에 대응되는 유니코드값들을 서로 빼는 연산(C_i - C_{i+1})인 유사문서 판별장치.
  2. 삭제
  3. 삭제
  4. 제 1 항에 있어서,
    상기 엔그램은 다수의 그램요소를 포함하고,
    상기 해시정수는 상기 해시함수에 따라 상기 다수의 그램요소에 대응되는 다수의 해시정수값을 포함하고,
    상기 빈도정보는 상기 다수의 해시정수값 각각이 상기 텍스트 전체에서 발생한 횟수에 대한 정보인 유사문서 판별장치.
  5. 제 1 항에 있어서,
    상기 유사 판별부는,
    상기 다수의 해시정수의 히스토그램 중 적어도 2개로부터 상기 문서거리를 산출하는 문서거리 산출부와;
    상기 문서거리를 미리 결정된 임계거리와 비교하여 유사여부를 판단하는 판단부
    를 포함하는 유사문서 판별장치.
  6. 데이터 산출부가 다수의 문서 각각의 텍스트를 엔그램으로 변환하는 단계와;
    상기 데이터 산출부가 상기 엔그램을 이용하여 다수의 해시정수의 히스토그램을 산출하는 단계와;
    저장부가 상기 다수의 해시정수의 히스토그램을 저장하여 데이터베이스화 하는 단계와;
    유사 판별부가 상기 다수의 해시정수의 히스토그램으로부터 문서거리를 산출하는 단계와;
    상기 유사 판별부가 상기 문서거리를 이용하여 상기 다수의 문서 중 적어도 2개의 유사여부를 판별하는 단계
    를 포함하고,
    상기 텍스트를 상기 엔그램으로 변환하는 단계는,
    상기 데이터 산출부의 텍스트 추출부가 상기 다수의 문서 각각으로부터 상기 텍스트를 추출하는 단계를 포함하고,
    상기 다수의 해시정수의 히스토그램을 산출하는 단계는,
    상기 데이터 산출부의 해시정수 변환부가 상기 엔그램을 해시함수에 따라 해시정수로 변환하는 단계와;
    상기 데이터 산출부의 빈도정보 추출부가 상기 해시정수로부터 빈도정보를 추출하는 단계와;
    상기 데이터 산출부의 히스토그램 산출부가 상기 빈도정보를 이용하여 상기 다수의 해시정수의 히스토그램을 산출하는 단계
    를 포함하고,
    상기 해시함수는, 상기 텍스트에 대응되는 유니코드값들을 서로 더하는 연산(C_i + C_{i+1}) 또는 상기 텍스트에 대응되는 유니코드값들을 서로 빼는 연산(C_i - C_{i+1})인 유사문서 판별방법.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 제 6 항에 있어서,
    상기 다수의 문서 중 적어도 2개의 유사여부를 판별하는 단계는,
    상기 유사 판별부의 문서거리 산출부가 상기 다수의 해시정수의 히스토그램 중 적어도 2개로부터 상기 문서거리를 산출하는 단계와;
    상기 유사 판별부의 판단부가 상기 문서거리를 미리 결정된 임계거리와 비교하여 유사여부를 판단하는 단계
    를 포함하는 유사문서 판별방법.
KR1020160086863A 2016-07-08 2016-07-08 유사문서 판별장치 및 이를 이용한 유사문서 판별방법 KR101804810B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160086863A KR101804810B1 (ko) 2016-07-08 2016-07-08 유사문서 판별장치 및 이를 이용한 유사문서 판별방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160086863A KR101804810B1 (ko) 2016-07-08 2016-07-08 유사문서 판별장치 및 이를 이용한 유사문서 판별방법

Publications (1)

Publication Number Publication Date
KR101804810B1 true KR101804810B1 (ko) 2017-12-05

Family

ID=60921063

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160086863A KR101804810B1 (ko) 2016-07-08 2016-07-08 유사문서 판별장치 및 이를 이용한 유사문서 판별방법

Country Status (1)

Country Link
KR (1) KR101804810B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200204A (zh) * 2020-12-07 2021-01-08 上海蜜度信息技术有限公司 图像特征表征方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139708A (ja) * 2004-11-15 2006-06-01 Ricoh Co Ltd テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム
JP2012234522A (ja) * 2011-05-04 2012-11-29 Nhn Corp 改善された類似文書検出方法、装置、及びコンピュータ読み取り可能な記録媒体
KR101545273B1 (ko) * 2014-12-10 2015-08-20 주식회사 와이즈넛 클러스터링 및 해싱을 이용하여 빅데이터 텍스트의 중복여부를 검출하는 중복문서 검출장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139708A (ja) * 2004-11-15 2006-06-01 Ricoh Co Ltd テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム
JP2012234522A (ja) * 2011-05-04 2012-11-29 Nhn Corp 改善された類似文書検出方法、装置、及びコンピュータ読み取り可能な記録媒体
KR101545273B1 (ko) * 2014-12-10 2015-08-20 주식회사 와이즈넛 클러스터링 및 해싱을 이용하여 빅데이터 텍스트의 중복여부를 검출하는 중복문서 검출장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200204A (zh) * 2020-12-07 2021-01-08 上海蜜度信息技术有限公司 图像特征表征方法及设备
CN112200204B (zh) * 2020-12-07 2021-04-20 上海蜜度信息技术有限公司 图像特征表征方法及设备

Similar Documents

Publication Publication Date Title
US9852337B1 (en) Method and system for assessing similarity of documents
US8374844B2 (en) Hybrid system for named entity resolution
US5548507A (en) Language identification process using coded language words
US20100017850A1 (en) Methods and systems to fingerprint textual information using word runs
Eder Short samples in authorship attribution: a new approach
RU2491622C1 (ru) Способ классификации документов по категориям
US20160154876A1 (en) Using context to extract entities from a document collection
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
Bergsma et al. NADA: A robust system for non-referential pronoun detection
WO2019028990A1 (zh) 代码元素的命名方法、装置、电子设备及介质
CN112381038B (zh) 一种基于图像的文本识别方法、***和介质
Nguyen et al. Text classification of technical papers based on text segmentation
Hashempour et al. Leveraging contextual embeddings and idiom principle for detecting idiomaticity in potentially idiomatic expressions
Karimzadeh Performance evaluation measures for toponym resolution
Akhtar et al. Iitp: Hybrid approach for text normalization in twitter
CN104572632B (zh) 一种确定具有专名译文的词汇的翻译方向的方法
KR20200063067A (ko) 자가 증식된 비윤리 텍스트의 유효성 검증 장치 및 방법
KR101804810B1 (ko) 유사문서 판별장치 및 이를 이용한 유사문서 판별방법
CN112182337B (zh) 从海量短新闻中识别相似新闻的方法及相关设备
JP2018036725A (ja) 整合性判定装置、方法、及びプログラム
Pak et al. The impact of text representation and preprocessing on author identification
Aejas et al. Named entity recognition for cultural heritage preservation
CN109344407B (zh) 基于语义的文档指纹构建方法、存储介质和计算机设备
US8195686B2 (en) Search method and search program
WO2015080559A2 (en) A method and system for automated word sense disambiguation

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant