KR100406671B1 - 문장 표절 및 도용 검색 방법 - Google Patents

문장 표절 및 도용 검색 방법 Download PDF

Info

Publication number
KR100406671B1
KR100406671B1 KR10-2000-0042346A KR20000042346A KR100406671B1 KR 100406671 B1 KR100406671 B1 KR 100406671B1 KR 20000042346 A KR20000042346 A KR 20000042346A KR 100406671 B1 KR100406671 B1 KR 100406671B1
Authority
KR
South Korea
Prior art keywords
plagiarism
theft
sentence
document
feature vector
Prior art date
Application number
KR10-2000-0042346A
Other languages
English (en)
Other versions
KR20020009077A (ko
Inventor
김회율
서창덕
추현곤
Original Assignee
주식회사 유니마이다스
김회율
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 유니마이다스, 김회율 filed Critical 주식회사 유니마이다스
Priority to KR10-2000-0042346A priority Critical patent/KR100406671B1/ko
Publication of KR20020009077A publication Critical patent/KR20020009077A/ko
Application granted granted Critical
Publication of KR100406671B1 publication Critical patent/KR100406671B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 문서/문장의 형태 특징을 이용한 표절 및 도용 검색 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 사용자가 일일이 해당 문서의 내용을 읽지 않고도 두 문서 사이의 특징 요소를 이용하여 내용의 일치 부합성을 파악함으로써, 인터넷상의 문서 및 코드에 대한 저작권을 보호하고 표절 및 도용을 막기 위한 표절 및 도용 검색 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 인터넷을 포함한 네트워크상의 각종 문서 및 코드의 표절/도용을 검사하기 위한 방법에 있어서, 상기 문서 상에 포함되어 있는 각 문장에 대해, 형태소 분석을 통해 여러 개의 단위 형태소들로 분리하고, 각 어절(단위 형태소)의 첫글자들로 이루어진 문자열의 제1 특징벡터를 추출하는 제 1 단계; 상기 제1 특징벡터를 이용하여 데이터베이스를 구축하는 제 2 단계; 네트워크를 통한 원격지의 사용자로부터 표절/도용 검사를 위해 질의 입력된 문서 혹은 문장에 대해, 형태소 분석을 통해 여러 개의 단위 형태소들로 분리하고, 각 어절(단위 형태소)의 첫글자들로 이루어진 문자열의 제2 특징벡터를 추출하는 제 3 단계; 및 상기 제1 및 제2 특징벡터의 문자열을 소정 크기 단위로 분절한 후 글자 매칭을 통해 유사도를 검사하여, 질의 입력된 문서 혹은 문장의 표절/도용 여부를 판정하는 제 4 단계를 포함함.
4. 발명의 중요한 용도
본 발명은 웹상의 문서 및 각종 소스코드에 대한 표절(도용) 검색 등에 이용됨.

Description

문장 표절 및 도용 검색 방법{Method of searching for piracy and steal on a piece of writing}
본 발명은 웹상의 문서 및 각종 소스코드에 대한 표절(혹은 도용)을 검색하는 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 특히 문서상에 포함되어 있는 문장의 패턴 또는 코드 패턴의 특징을 추출하여, 웹상의 문서들 사이의 표절을 판단하고, 표절 문서를 자동으로 검색하는 것이다.
최근, 인터넷상의 데이터 이용이 급격히 증가함과 더불어 전자 출판이 활발해짐에 따라, 기술, 산업 등의 각종 문서 및 프로그램 코드에 대한 저작권 보호는 그 필요성이 점차 증대되고 있는 실정이다.
그러나, 종래의 인터넷 검색 엔진의 경우, 단순한 특징 단어 또는 특정 주제에 대한 분류로만 데이터베이스를 구축하여, 문서의 고유성이나 표절에 대하여 검사할 수 있는 방법이 없었다. 만약에, 개인이 자신의 창작물에 대해 불법 도용 또는 표절을 확인하기 위해서는 일일이 특정 단어 또는 주제를 이용하여, 관련 사이트 및 문서를 찾고, 그 내용을 읽어 표절 여부를 판단해야만 하였다. 이는 실제로 관련 문서의 수가 많아질 경우, 거의 불가능한 일이며, 상당한 시간과 노력이 소요되는 문제점이 있었다.
따라서, 인터넷상의 문서 및 코드에 대한 저작권을 보호하고 표절 및 도용을 막기 위해, 사용자가 일일이 해당 문서의 내용을 읽지 않고도 두 문서 사이의 특징 요소를 이용하여 내용의 일치 부합성을 파악할 수 있는 방안이 필수적으로 요구된다.
상기한 바와 같은 문제점을 해결하기 위하여 안출된 본 발명은, 사용자가 일일이 해당 문서의 내용을 읽지 않고도 두 문서 사이의 특징 요소를 이용하여 내용의 일치 부합성을 파악함으로써, 인터넷상의 문서 및 코드에 대한 저작권을 보호하고 표절 및 도용을 막기 위한 표절 및 도용 검색 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 본 발명이 적용되는 표절 및 도용 검색 시스템의 구성 예시도.
도 2 는 본 발명에 따른 문장 표절 및 도용 검색 방법에 대한 일실시예 흐름도.
도 3a 는 본 발명에 이용되는 데이터베이스 구성 예시도.
도 3b 는 본 발명에 이용되는 질의 구성 예시도.
도 4 는 본 발명에 이용되는 문장 표절 및 도용 검색 서비스를 위한 사용자 인터페이스 예시도.
도 5 는 본 발명에 이용되는 문장의 특징 벡터 추출 예시도.
* 도면의 주요 부분에 대한 부호의 설명
11 : 바이로봇 12 : 사용자 인터페이스부
13 : 어플리케이션 서버 14 : 데이터베이스
상기 목적을 달성하기 위한 본 발명은, 인터넷을 포함한 네트워크상의 각종 문서 및 코드의 표절/도용을 검사하기 위한 방법에 있어서, 상기 문서 상에 포함되어 있는 각 문장에 대해, 형태소 분석을 통해 여러 개의 단위 형태소들로 분리하고, 각 어절(단위 형태소)의 첫글자들로 이루어진 문자열의 제1 특징벡터를 추출하는 제 1 단계; 상기 제1 특징벡터를 이용하여 데이터베이스를 구축하는 제 2 단계; 네트워크를 통한 원격지의 사용자로부터 표절/도용 검사를 위해 질의 입력된 문서 혹은 문장에 대해, 형태소 분석을 통해 여러 개의 단위 형태소들로 분리하고, 각 어절(단위 형태소)의 첫글자들로 이루어진 문자열의 제2 특징벡터를 추출하는 제 3 단계; 및 상기 제1 및 제2 특징벡터의 문자열을 소정 크기 단위로 분절한 후 글자 매칭을 통해 유사도를 검사하여, 질의 입력된 문서 혹은 문장의 표절/도용 여부를 판정하는 제 4 단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은 상기 제 4 단계의 판정결과에 따라, 표절/도용 판정결과를네트워크를 통해 사용자에게 알리는 제 5 단계를 더 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은 상기 제 4 단계의 검색결과에 따라, 표절/도용 검색결과를 상기 데이터베이스에 저장된 부가정보와 함께 네트워크를 통해 사용자에게 알리는 제 6 단계를 더 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명은 네트워크상의 각종 문서 및 코드의 표절/도용을 검사하기 위하여, 프로세서를 구비한 문서(문장) 검색시스템에, 상기 문서 상에 포함되어 있는 각 문장에 대해, 형태소 분석을 통해 여러 개의 단위 형태소들로 분리하고, 각 어절(단위 형태소)의 첫글자들로 이루어진 문자열의 제1 특징벡터를 추출하는 제 1 기능; 상기 제1 특징벡터를 이용하여 데이터베이스를 구축하는 제 2 기능; 네트워크를 통한 원격지의 사용자로부터 표절/도용 검사를 위해 질의 입력된 문서 혹은 문장에 대해, 형태소 분석을 통해 여러 개의 단위 형태소들로 분리하고, 각 어절(단위 형태소)의 첫글자들로 이루어진 문자열의 제2 특징벡터를 추출하는 제 3 기능; 및 상기 제1 및 제2 특징벡터의 문자열을 소정 크기 단위로 분절한 후 글자 매칭을 통해 유사도를 검사하여, 질의 입력된 문서 혹은 문장의 표절/도용 여부를 판정하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
또한, 본 발명은 상기 제 4 기능의 판정결과에 따라, 표절/도용 판정결과를 네트워크를 통해 사용자에게 알리는 제 5 기능을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
또한, 본 발명은 상기 제 4 기능의 검색결과에 따라, 표절/도용 검색결과를 상기 데이터베이스에 저장된 부가정보와 함께 네트워크를 통해 사용자에게 알리는 제 5 기능을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
본 발명은 웹상에 사용되는 각종 문서의 내용을 검색하여, 문서에서의 각 문장의 특징 요소를 추출하여, 문서의 특징 데이터베이스를 구성하고, 사용자의 원문에 대한 표절에 대해 질의가 들어오면, 특징 데이터베이스에서 같은 특징 요소를 가지는 문서, 표절 문서를 검색할 수 있도록 하는 것이다.
본 발명은 웹상의 문서 및 각종 소스코드에 대한 표절 및 도용을 검색하는 방법에 대해 개시한다. 이는 웹상에 등록되어 있는 하이퍼텍스트생성언어(HTML : HyperText Mark-up Language) 문서 및 각종 문서에 대한 내용에 대하여 적용 가능하다.
이를 위해, 본 발명은 인터넷 검색 로봇을 이용해 기존의 인터넷의 HTML을 비롯한 문서들을 검색하여, 각 문서에 대하여 원문에 대한 특징 요소를 검출하고, 이를 데이터베이스(DB)로 만들어 저장한다. 만약, 사용자가 자신이 작성한 문서에 대한 표절이 의심이 가는 경우, 인터넷에 자신의 문서를 이용하여 질의를 하면, 질의한 문서에 대한 특징 요소에 대해 기존 DB에서 검색하여, 표절 여부에 대한 결과를 보여준다. 이때, 표절 검색을 위한 특징 요소의 추출은 문장에서 단어들간의 의미, 통사관계를 이용한 문자 추출 알고리즘을 이용하여, 각 문서에 대한 특징 요소를 추출한다. 그리고, 검색 방법으로는 기존의 근사매칭 알고리즘을 사용하여, 전체 비교 및 부분 비교가 가능하다.이를 보다 상세하게 살펴보면, 표절 검색에 있어서 일반적으로는 두 개의 문서를 비교하여 유사성을 계산하고자 할 때, 그 두 문서의 문자열을 직접 비교하는 것이 아니라, 문서로부터 추출한 특징벡터를 서로 비교한다. 이는 검색엔진이 문서를 직접 검색하는 것이 아니라 문서로부터 미리 추출해 놓은 색인 테이블을 검색한 후 해당 문서이면 원래의 문서를 가져오는 것과 마찬가지 이유이다.이를 위해, 본 발명은 어절의 첫글자만으로 이루어진 문자열로 특징벡터를 구성한다. 예를 들면, "우리는 민족중흥의 역사적 사명을 띠고 이 땅에 태어났다."에서 "우민역사태"의 문자열을 생성하고, 이렇게 만들어진 문자열은 유사도 비교를 위해 n-gram이라고 하는 방법에 근거해 일정크기 단위로 분절되는데 두 글자 단위로 중첩하였을 때의 특징벡터는 "우민", "민역", "역사", "사태"와 같이 된다. 그리고, 본 발명은 이렇게 추출된 문자열을 바탕으로 유사도를 계산하는데, 특징벡터를 비교하는데 있어서 다이스계수(하기의 [수학식 1] 참조)를 이용한 유사도 계산 방식(하기의 [수학식 2] 참조)을 사용하였다.
본 발명에 따르면, 문서상에 포함되어 있는 문자의 패턴 또는 코드 패턴의 특징을 추출하여 웹상의 문서들 사이의 표절을 판단할 수 있고, 표절문서를 자동으로 검색할 수 있다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명이 적용되는 표절 및 도용 검색 시스템의 구성 예시도이다.
도 1에 도시된 바와 같이, 본 발명이 적용되는 웹상의 문서 및 각종 소스코드에 대한 표절 및 도용을 검색하기 위한 표절 및 도용 검색 시스템은, 웹 검색 로봇인 바이로봇(11)을 이용해 웹상의 문서를 계속 탐색하여 새로운 문서들을 찾고, 어플리케이션 서버(13)가 발견된 새로운 문서의 내용에서 문자의 형태적 또는 형태학적 특징을 이용한 특징벡터를 추출하여 문서의 부가적인 정보와 함께 데이터베이스(14)에 저장한다. 만약, 사용자가 자신이 작성한 문서에 대한 표절이 의심이 가는 경우, 사용자 인터페이스(12)를 통해 어플리케이션 서버(13)에 자신의 문서를 이용하여 질의를 하면, 어플리케이션 서버(13)에서는 질의한 문서에 대한 특징요소에 대해 기존 데이터베이스(14)를 검색하여, 표절 여부에 대한 결과를 보여준다. 이때, 표절 검색을 위한 특징요소의 추출은 글자 사이의 상호 관계를 이용한 텍스트 워터마킹 알고리즘을 이용하여, 각 문서에 대한 특징요소를 추출한다. 그리고, 검색 방법으로는 기존의 글자 매칭 알고리즘을 사용하여, 전체 비교 및 부분 비교가 가능하다.
본 발명이 적용되는 웹상의 문서 및 각종 소스코드에 대한 표절 및 도용을 검색하기 위한 표절 및 도용 검색 시스템은, 바이로봇(11)을 이용해 웹상에 있는문서를 가져와 어플리케이션 서버(13)가 문서에서 각 문장의 단어 형태상 특징 벡터를 추출하여 문서별로 데이터베이스(14)에 저장한다. 이렇게 저장된 데이터베이스(14)를 기반으로, 사용자가 도용이나 표절의 의심이 가는 자신의 창작물에 대하여 문서를 이용하여 직접 질의를 하면, 어플리케이션 서버(13)가 창작물의 문서에서 특징벡터를 추출하여 이를 데이터베이스(14)에 기 저장되어 있는 특징벡터와 비교하여, 표절이나 도용에 대하여 검색한다.
이와 같이, 문서에서의 각 문장에 대한 특징벡터를 추출하기 위해, 본 발명에서는 도 3a에 도시된 바와 같이 문서상의 각 문장에 대해 문장의 각 핵심단어에 대한 형태상의 특징을 지을 수 있는 철자 또는 문자를 추출하여 그 문장에 대한 특징벡터로 구성한다. 이 특징벡터는 문서의 부가 정보(문서의 위치, 날짜, 주제 등)와 같이 하나의 테이블로 구성되며, 이 테이블이 데이터베이스(14)로 구성된다. 즉, 현재의 인터넷 검색 시스템의 바이로봇(11)과 같은 기능을 가진 로봇을 이용해, 인터넷상의 문서를 탐색하여 각각의 문서에 대해 특징벡터를 추출하여 데이터베이스(14)에 저장한다.
이후, 인터넷을 포함한 일반적인 네트워크상에서 원격으로 사용자가 자신이 원하는 데이터를 가지고 질의시에, 사용자의 데이터에서 특징벡터를 추출하여 데이터베이스(14)에 데이터를 검색할 수 있는 사용자 질의 인터페이스 및 질의 서비스를 구현한다(도 3b 참조). 이때, 질의로 들어온 문장 혹은 문서의 특징벡터와 기존의 데이터베이스의 특징벡터를 빠르게 비교하는 알고리즘이 요구되며, 특징벡터들의 비교는 벡터상 전체 비교 및 각 부분 비교도 가능하다. 그리고, 특징벡터에 대한 비교 결과는 다시 원격의 사용자에게 데이터에 대한 표절 여부와 함께, 데이터베이스(14)에 저장된 부가정보와 같이 전송된다.
이제, 본 발명에 따른 문서 문장의 형태 특징을 이용한 표절 및 도용 검색 방법에 대해 보다 상세히 설명한다.
도 2 는 본 발명에 따른 표절 및 도용 검색 방법에 대한 일실시예 흐름도이다.
도 2에 도시된 바와 같이, 본 발명에 따른 표절 및 도용 검색 방법은, 인터넷을 포함한 네트워크상의 문서에 대한 표절이나 도용을 검색하기 위해, 바이로봇(11)을 이용해 웹상의 문서를 계속 탐색하여 새로운 문서들을 찾고(201), 이때 발견된 새로운 문서의 내용에서 문장의 형태적 또는 형태학적 특징벡터를 추출하여(202), 추출된 특징벡터를 이용해 데이터베이스(14)를 구성한다(203).
이후, 원격의 사용자가 네트워크를 통해 어플리케이션 서버(13)와 연결된 질의 입력 인터페이스(도 4 참조)를 통해 특정 문서 또는 문장에 대한 표절 또는 도용을 질의하면(204), 어플리케이션 서버(13)에서는 질의로 입력된 문서 또는 문장에 대하여 특징벡터를 추출하고 추출된 특징벡터를 이용하여 데이터베이스(14)에 저장된 특징벡터와의 유사성을 검사한다(205). 그리고, 검색 결과를 네트워크를 통해 사용자에게 전송한다.
오프라인 또는 온라인 작업으로 진행되는 데이터베이스(14) 구축과정(203)에서는, 인터넷을 검색하는 바이로봇(11)이 웹상의 문서를 계속 탐색하여 새로운 문서들을 찾고(201), 발견된 새로운 문서의 내용에서 문장의 형태적 또는 형태학적특징을 이용한 특징벡터를 추출하여(202), 문서의 부가적인 정보와 함께 데이터베이스(14)에 저장한다(203).
문서의 특징벡터는 문서내의 각 문장의 핵심 단어들에 대한 형태학적 특징을 이용하여 구성할 수 있다. 예를 들면, 관사, 전치사 등을 제외한 중요 핵심 단어들의 자음, 모음 또는 자음 겹침, 모음 겹침 등 여러 가지 단어 형태의 요소를 이용하여 특징벡터를 구성한다. 이처럼 핵심단어의 가장 처음에 나오는 자음을 이용하여 특징벡터를 구성한 예가 도 5에 도시되었다.
문서에서 추출된 특징벡터는 도 5와 같이 여러 부가적인 정보와 결합된다. 이때, 웹상의 위치, 저자, 제작 일시, 키워드 등의 정보와 같이 하나의 레코드를 형성하고, 이 레코드가 데이터베이스(14)에 저장된다.
원격 사용자를 위한 인터페이스에서는 사용자가 자신의 창작물에 대한 질의를 하기 위해, 텍스트로 구성된 자신의 문서를 직접 파일로 질의할 수 있으며, 또 문서의 특정 문장 요소에 대하여 질의할 수 있어야 한다. 또한, 자신이 만든 웹 문서의 인터넷 주소를 입력으로 질의 문안을 대신할 수 있다. 이때, 질의 문안으로 들어온 문서 또는 문장에 대하여, 데이터베이스(14) 구축시 사용된 알고리즘과 동일한 알고리즘으로 특징벡터를 구성한다.
원격 사용자 인터페이스에서 생성된 특징벡터는 데이터베이스(14)의 특징벡터와 비교된다. 이때, 질의 특징벡터와 데이터베이스(14)에 저장되어 있는 특징벡터들간의 유사도를 데이터베이스(14)에 등록되어 있는 모든 문서들에 대하여 계산하여 각 특징벡터의 일치 부합 여부를 결정하게 된다.
특징벡터를 추출하기 위해서는 문장을 구성하고 있는 단어의 형태적, 통사적 특징을 파악해야 하는데, 이를 위해 형태소 분석과정을 거친다. 문서로부터 언어의 종류를 파악하고 해당 언어에 대한 형태소 분석기를 선택하여 문장을 처리한다. 이렇게 하면 하나의 문장은 여러 개의 단위 형태소들로 분리된다. 이들로부터 의미있는 단어들로 이루어진 특징벡터를 추출하는데 단어의 첫글자만으로 구성된 특징벡터 문자열을 생성한다. 문장에서 가장 의미있는 것은 명사가 되므로 명사의 첫글자로 이루어진 특징벡터가 생성되는데 문서내에 문장이 100개이면 100개의 특징벡터 문자열이 만들어지며, 이 개별 문자열들은 길이가 제각기 다르다.
일본어와 중국어의 경우 문장에는 띄어쓰기가 없으므로 단순 기계적인 방법으로는 문장에서 의미있는 명사를 추출할 수 없으므로 반드시 형태소 사용해야 하지만 단어 단위로 띄어쓰는 영어와 어절단위로 띄어쓰는 한글의 경우 굳이 형태소 분석기를 이용하지 않아도 된다. 형태소 분석을 하는 일본어와 중국어의 경우 추출된 명사만을 대상으로 첫글자만을 발췌하여 특징벡터를 만들지만 형태소 분석을 하지 않는 경우라면 의미있는 단어의 첫글자만을 발췌한다. 이때, 형태소 분석을 하지 않았으므로 문장의 통사정보를 알 수 없어 의미있는 단어 추출이 곤란하지만 언어적 특성상 그리고 통계적으로 글자 수가 작을수록 조사, 전치사 등 의미없는 글자나 불용어일 가능성이 높으므로 3글자 이상의 단어로부터 첫글자만 추출한다. 다만, 영어의 경우는 4글자 이상의 단어를 대상으로 한다. 한글의 경우 영어와 달리 여러 형태소가 결합하여 하나의 어절을 형성하고 있지만 의미없는 단어인 조사, 어미 등은 단어 뒤에 오므로 문제가 없다.
이제, 질의 문장 혹은 질의 문서로부터 발췌한 특징벡터를 Q, 표절여부를 검사하기 위해 비교 대상이 되는 문서로부터 발췌한 특징벡터를 S라 하면 다음과 같다.
DB: An improved technique for 3D head tracking under varying illumination conditions is proposed. The head is modeled as a texture mapped cylinder. ...
Query: The headwasmodeled as acontourmapped cylinder.
S: ithtuvicp hmtmc ...
Q: hmcmc
DB내 문서들로부터 하나의 문장에 대하여 하나의 문자열이 구성되는데 질의한 문자열이 DB내에 있는 문자열과 비슷하지만 똑같지는 않다. 이 경우 S의 두 번째 문자열 'hmtmc'와 Q의 문자열 'hmcmc'는 가운데 문자 하나만 차이가 날뿐이다. 이 경우 매칭방법은 정확매칭도 부분매칭도 아닌 근사매칭만이 가능하다. 이러한 특징벡터들간의 유사도를 통한 일치 부합 여부의 판정에 있어서, 근사매칭 알고리즘을 사용하여, 표절여부를 판단하게 된다.
정확매칭이나 부분매칭이 아닌 근사매칭을 사용하는 이유는 표절시 문장을 아무런 변형없이 그대로 도용하는 경우도 있으나 일부 단어나 말투 등을 바꾸는 경우도 많기 때문이다. 근사매칭 알고리즘으로 n-gram에 기반한 근사매칭 방법이 있는데 이를 두 특징벡터 비교에 적용한다.
두 문자열 사이의 유사도 측정은 유사계수 공식을 사용하는데 중요한 공식으로는 다이스계수(Dice's coefficient), 자카드계수(Jaccard's coefficient), 코싸인계수(Cosine coefficient), 중복도계수(Overlap coefficient), 타니모토계수(Tanimoto coefficient)가 있으며, 이외 엔젤계수(Angell's coefficient)도 있다.
하기의 (수학식 1)은 다른 계수에 비해 비교적 널리 사용되는 공식으로 (수학식 2)의 n-gram 기반 근사매칭에 사용하였다.
where, gc= Q와 S의 공통 그램수,
gQ, gS= Q, S의 그램수
여기서, 그램이란 특징벡터 문자열을 일정크기 단위로 분절한 단위를 말한다. 분절방법은 여러 가지가 있을 수 있으나, 통상 1, 2, 3글자 단위로 나누며 중첩하거나 하지 않을 수도 있다.
표절 및 도용 여부 판단은 하기의 수학식3(표절 및 도용 여부의 판단 알고리즘)과 같이 이뤄진다.
상기 (수학식3)에서, "Sim(Q,S)"는 질의 벡터와 데이터베이스(14)의 한 레코드 사이의 유사도, "T"는 기준치를 각각 나타낸다.
이상에서와 같이, 본 발명은 문서상에 포함되어 있는 문장의 패턴 또는 코드 패턴의 특징을 추출하여, 웹상의 문서들 사이의 표절을 판단하고, 표절 문서를 자동으로 검색할 수 있다. 이때, 사용자가 검색 결과에 대하여 마우스로 선택하면, 사용자 인터페이스부(12)가 표절 또는 도용이 의심되는 웹 문서로 직접 연결할 수 있다. 또한, 사용자는 특정 주제어를 부가하여, 검색 결과의 범위를 한정 또는 확장하여 검색할 수도 있다.상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.
상기한 바와 같은 본 발명은, 인터넷상에서 무단으로 도용된 글에 대한 보다 정확하고 신속한 검색이 가능하여 웹상 전자 출판물에 대한 저작권의 보호가 보장되며, 웹상의 문서의 도용 및 표절에 대하여 사용자가 직접 찾아 다니며 내용에 대하여 읽을 필요가 없이 단순한 문서 특징벡터의 비교를 통해 웹상 문서와의 표절 여부를 쉽게 판단할 수 있고, 또한 특징벡터의 데이터베이스화를 통해 기존의 전자 출판물의 저작권에 대한 사전 등록 효과를 가져와 표절 시도 및 불법 도용에 대한 사전 예방의 역할도 할 수 있어 학술, 상업, 기술 보도 문서의 무단 도용을 막을 수 있는 효과가 있다.

Claims (12)

  1. 인터넷을 포함한 네트워크상의 각종 문서 및 코드의 표절/도용을 검사하기 위한 방법에 있어서,
    상기 문서 상에 포함되어 있는 각 문장에 대해, 형태소 분석을 통해 여러 개의 단위 형태소들로 분리하고, 각 어절(단위 형태소)의 첫글자들로 이루어진 문자열의 제1 특징벡터를 추출하는 제 1 단계;
    상기 제1 특징벡터를 이용하여 데이터베이스를 구축하는 제 2 단계;
    네트워크를 통한 원격지의 사용자로부터 표절/도용 검사를 위해 질의 입력된 문서 혹은 문장에 대해, 형태소 분석을 통해 여러 개의 단위 형태소들로 분리하고, 각 어절(단위 형태소)의 첫글자들로 이루어진 문자열의 제2 특징벡터를 추출하는 제 3 단계; 및
    상기 제1 및 제2 특징벡터의 문자열을 소정 크기 단위로 분절한 후 글자 매칭을 통해 유사도를 검사하여, 질의 입력된 문서 혹은 문장의 표절/도용 여부를 판정하는 제 4 단계
    를 포함하는 문장 표절 및 도용 검색 방법.
  2. 제 1 항에 있어서,
    상기 제 4 단계의 판정결과에 따라, 표절/도용 판정결과를 네트워크를 통해 사용자에게 알리는 제 5 단계
    를 더 포함하는 문장 표절 및 도용 검색 방법.
  3. 제 1 항에 있어서,
    상기 제 4 단계의 검색결과에 따라, 표절/도용 검색결과를 상기 데이터베이스에 저장된 부가정보와 함께 네트워크를 통해 사용자에게 알리는 제 5 단계
    를 더 포함하는 문장 표절 및 도용 검색 방법.
  4. 제 1 항 내지 제 3 항중 어느 한 항에 있어서,
    상기 제1 및 제2 특징벡터는,
    문장의 형태적 혹은 형태학적 특징을 이용하는 것을 특징으로 하는 문장 표절 및 도용 검색 방법.
  5. 제 4 항에 있어서,
    상기 제 4 단계는,
    상기 제2 특징벡터를 이용하여 상기 데이터베이스에 기 저장된 상기 제1 특징벡터와의 일치성을 검사하여 표절/도용 여부를 판정하되, 상기 제1 및 제2 특징벡터를 비교함에 있어 벡터상 전체 비교 및 각 부분 비교가 가능한 것을 특징으로 하는 문장 표절 및 도용 검색 방법.
  6. 제 4 항에 있어서,
    상기 제 3 단계의 상기 네트워크를 통한 원격지의 사용자로부터 표절/도용 검사를 위한 질의문 입력시에,
    실질적으로, 문서 혹은 문장, 웹 문서의 인터넷 주소가 입력되는 것을 특징으로 하는 문장 표절 및 도용 검색 방법.
  7. 제 4 항에 있어서,
    상기 제 4 단계의 일치성(유사도)을 검사하는 과정은,
    하기의 수학식과 같이, 상기 제1 및 제2 특징벡터의 유사도(Sim(Q,S))를 측정하는 것을 특징으로 하는 문장 표절 및 도용 검색 방법.
    Sim(Q,S) =
    (단, gc= Q와 S의 공통 그램수, gQ, gS= Q, S의 그램수, 그램은 특징벡터 문자열을 일정크기 단위로 분절한 단위임)
  8. 제 4 항에 있어서,
    상기 제 4 단계의 표절/도용 여부를 판정하는 과정은,
    하기의 수학식에 의해 표절/도용 여부를 판정하는 것을 특징으로 하는 문장표절 및 도용 검색 방법.
    Sim(Q,S)〉T(단, 상기 제2 특징벡터와 상기 데이터베이스의 한 레코드 사이의 유사도, T는 기준치임)
  9. 제 3 항에 있어서,
    상기 부가정보는,
    실질적으로, 문서의 위치, 저자, 제작일시, 주제(키워드) 정보를 포함하는 것을 특징으로 하는 문장 표절 및 도용 검색 방법.
  10. 네트워크상의 각종 문서 및 코드의 표절/도용을 검사하기 위하여, 프로세서를 구비한 문서(문장) 검색시스템에,
    상기 문서 상에 포함되어 있는 각 문장에 대해, 형태소 분석을 통해 여러 개의 단위 형태소들로 분리하고, 각 어절(단위 형태소)의 첫글자들로 이루어진 문자열의 제1 특징벡터를 추출하는 제 1 기능;
    상기 제1 특징벡터를 이용하여 데이터베이스를 구축하는 제 2 기능;
    네트워크를 통한 원격지의 사용자로부터 표절/도용 검사를 위해 질의 입력된 문서 혹은 문장에 대해, 형태소 분석을 통해 여러 개의 단위 형태소들로 분리하고, 각 어절(단위 형태소)의 첫글자들로 이루어진 문자열의 제2 특징벡터를 추출하는 제 3 기능; 및
    상기 제1 및 제2 특징벡터의 문자열을 소정 크기 단위로 분절한 후 글자 매칭을 통해 유사도를 검사하여, 질의 입력된 문서 혹은 문장의 표절/도용 여부를 판정하는 제 4 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  11. 제 10 항에 있어서,
    상기 제 4 기능의 판정결과에 따라, 표절/도용 판정결과를 네트워크를 통해 사용자에게 알리는 제 5 기능
    을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  12. 제 10 항에 있어서,
    상기 제 4 기능의 검색결과에 따라, 표절/도용 검색결과를 상기 데이터베이스에 저장된 부가정보와 함께 네트워크를 통해 사용자에게 알리는 제 5 기능
    을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR10-2000-0042346A 2000-07-24 2000-07-24 문장 표절 및 도용 검색 방법 KR100406671B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2000-0042346A KR100406671B1 (ko) 2000-07-24 2000-07-24 문장 표절 및 도용 검색 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2000-0042346A KR100406671B1 (ko) 2000-07-24 2000-07-24 문장 표절 및 도용 검색 방법

Publications (2)

Publication Number Publication Date
KR20020009077A KR20020009077A (ko) 2002-02-01
KR100406671B1 true KR100406671B1 (ko) 2003-11-21

Family

ID=19679500

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0042346A KR100406671B1 (ko) 2000-07-24 2000-07-24 문장 표절 및 도용 검색 방법

Country Status (1)

Country Link
KR (1) KR100406671B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100863943B1 (ko) * 2007-10-04 2008-10-16 부산대학교 산학협력단 표절탐색 방법 및 장치
KR100915995B1 (ko) 2007-06-15 2009-09-10 에스케이 텔레콤주식회사 학습 과제물에 대한 짜깁기를 방지하는 방법과 그를 위한시스템, 사용자 단말기 및 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체
KR100999488B1 (ko) 2008-12-19 2010-12-09 테크놀러지리딩퓨처(주) 문서 표절 탐색 방법 및 장치
KR101033611B1 (ko) * 2010-07-09 2011-05-11 한국과학기술정보연구원 참고 문헌 적합성 판정 시스템 및 방법
KR101033670B1 (ko) * 2008-12-04 2011-05-12 (주)야긴스텍 문서 간 유사도 산출 시스템 및 방법

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030016799A (ko) * 2001-08-22 2003-03-03 장경진 인터넷 기반 문서 비교 시스템 및 방법
CN1635491B (zh) * 2003-12-30 2010-04-28 财团法人资讯工业策进会 特征撷取、数据解密方法以及抄袭文章搜寻的***与方法
KR100711277B1 (ko) * 2005-10-17 2007-04-25 중앙대학교 산학협력단 오엠유씨에스와 서열 정렬 기법을 이용한 텍스트 표절확인방법
KR100717998B1 (ko) * 2005-12-26 2007-05-15 고려대학교 산학협력단 문서의 표절 검사 방법
KR100788440B1 (ko) * 2006-06-29 2007-12-24 중앙대학교 산학협력단 도용 패턴에 기반한 복사 감지시스템
KR100833987B1 (ko) 2006-11-16 2008-05-30 한국전자통신연구원 영상 검색 장치 및 그 방법
KR101027502B1 (ko) * 2008-01-22 2011-04-06 주식회사 비티웍스 콘텐츠 관리 시스템 및 방법
KR100948749B1 (ko) * 2008-03-05 2010-03-22 엔에이치엔(주) 빈출 문구를 이용한 복사 문서 판단 시스템 및 방법,그리고 빈출 문구 추출 시스템 및 방법
KR100986404B1 (ko) * 2008-06-30 2010-10-08 한양대학교 산학협력단 블로그 환경에서 중복포스트의 검출 방법 및 그 장치
KR200452150Y1 (ko) * 2008-10-02 2011-02-08 동원테크 주식회사 자동차용 소음기
KR200452151Y1 (ko) * 2008-10-02 2011-02-08 동원테크 주식회사 자동차용 소음기
GB2490490A (en) 2011-04-28 2012-11-07 Nds Ltd Encoding natural-language text and detecting plagiarism
TWI444838B (zh) * 2011-10-12 2014-07-11 Chun Ching Yang 中文數位反抄襲偵測比對系統與方法
CN105630802A (zh) * 2014-10-30 2016-06-01 阿里巴巴集团控股有限公司 网页去重方法及装置
KR101904063B1 (ko) * 2016-12-30 2018-11-28 주식회사 로크미디어 출판 정보 제공 시스템 및 방법
CN110347806B (zh) * 2019-07-23 2024-02-06 深圳前海微众银行股份有限公司 原创文本甄别方法、装置、设备与计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996032686A1 (en) * 1995-04-10 1996-10-17 Rebus Technology, Inc. System and method for portable document indexing using n-gram word decomposition
US6029167A (en) * 1997-07-25 2000-02-22 Claritech Corporation Method and apparatus for retrieving text using document signatures
KR20000036487A (ko) * 2000-03-17 2000-07-05 임종태 정보검색기술을 이용한 한영번역 데이터베이스 시스템
KR20010107113A (ko) * 2000-05-25 2001-12-07 서정연 자연어 정보 검색 시스템에서 구문 트리를 이용한 자연어질의의 불린 질의 및 벡터 질의 변환 방법
KR20020006339A (ko) * 2000-07-12 2002-01-19 한능우 상표검색방법 및 상표검색시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996032686A1 (en) * 1995-04-10 1996-10-17 Rebus Technology, Inc. System and method for portable document indexing using n-gram word decomposition
US6029167A (en) * 1997-07-25 2000-02-22 Claritech Corporation Method and apparatus for retrieving text using document signatures
KR20000036487A (ko) * 2000-03-17 2000-07-05 임종태 정보검색기술을 이용한 한영번역 데이터베이스 시스템
KR20010107113A (ko) * 2000-05-25 2001-12-07 서정연 자연어 정보 검색 시스템에서 구문 트리를 이용한 자연어질의의 불린 질의 및 벡터 질의 변환 방법
KR20020006339A (ko) * 2000-07-12 2002-01-19 한능우 상표검색방법 및 상표검색시스템

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100915995B1 (ko) 2007-06-15 2009-09-10 에스케이 텔레콤주식회사 학습 과제물에 대한 짜깁기를 방지하는 방법과 그를 위한시스템, 사용자 단말기 및 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체
KR100863943B1 (ko) * 2007-10-04 2008-10-16 부산대학교 산학협력단 표절탐색 방법 및 장치
KR101033670B1 (ko) * 2008-12-04 2011-05-12 (주)야긴스텍 문서 간 유사도 산출 시스템 및 방법
KR100999488B1 (ko) 2008-12-19 2010-12-09 테크놀러지리딩퓨처(주) 문서 표절 탐색 방법 및 장치
KR101033611B1 (ko) * 2010-07-09 2011-05-11 한국과학기술정보연구원 참고 문헌 적합성 판정 시스템 및 방법
WO2012005414A1 (ko) * 2010-07-09 2012-01-12 한국과학기술정보연구원 참고 문헌 적합성 판정 시스템 및 방법

Also Published As

Publication number Publication date
KR20020009077A (ko) 2002-02-01

Similar Documents

Publication Publication Date Title
KR100406671B1 (ko) 문장 표절 및 도용 검색 방법
JP5252725B2 (ja) 名前をハイパーリンクするためのシステム、方法、及びソフトウェア
Cai et al. Block-based web search
US8205155B2 (en) Text management software
US20140289177A1 (en) Finding and disambiguating references to entities on web pages
CN113268569B (zh) 基于语义的关联词查找方法及装置、电子设备、存储介质
Ali et al. Survey of plagiarism detection methods
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
Hourrane et al. Survey of plagiarism detection approaches and big data techniques related to plagiarism candidate retrieval
Savoy Comparative study of monolingual and multilingual search models for use with Asian languages
KR100788440B1 (ko) 도용 패턴에 기반한 복사 감지시스템
Pang et al. A text similarity measurement based on semantic fingerprint of characteristic phrases
Nwesri et al. Stemming Arabic conjunctions and prepositions
JP3594701B2 (ja) キーセンテンス抽出装置
Saygin et al. Sanitization and anonymization of document repositories
Lazarinis Engineering and utilizing a stopword list in Greek web retrieval
Lu et al. Web-based query translation for English-Chinese CLIR
JP3648101B2 (ja) コンテンツ不正利用探索装置およびコンテンツ不正利用探索方法
Jadalla et al. A fingerprinting-based plagiarism detection system for Arabic text-based documents
Roche et al. AcroDef: A quality measure for discriminating expansions of ambiguous acronyms
Chi et al. Word segmentation and recognition for web document framework
JP4298342B2 (ja) 重要度算出装置
Desai et al. A hybrid approach for detection of plagiarism using natural language processing
JP3693734B2 (ja) 情報検索装置およびその情報検索方法
Chen et al. White page construction from web pages for finding people on the Internet

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20071112

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee