KR20030016799A - 인터넷 기반 문서 비교 시스템 및 방법 - Google Patents

인터넷 기반 문서 비교 시스템 및 방법 Download PDF

Info

Publication number
KR20030016799A
KR20030016799A KR1020010050541A KR20010050541A KR20030016799A KR 20030016799 A KR20030016799 A KR 20030016799A KR 1020010050541 A KR1020010050541 A KR 1020010050541A KR 20010050541 A KR20010050541 A KR 20010050541A KR 20030016799 A KR20030016799 A KR 20030016799A
Authority
KR
South Korea
Prior art keywords
data
report
plagiarism
client
internet
Prior art date
Application number
KR1020010050541A
Other languages
English (en)
Inventor
장경진
Original Assignee
장경진
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 장경진 filed Critical 장경진
Priority to KR1020010050541A priority Critical patent/KR20030016799A/ko
Publication of KR20030016799A publication Critical patent/KR20030016799A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 인터넷 기반 문서 비교 시스템 및 방법에 관한 것으로서, 보다 상세하게는 인터넷을 통하여 레포트가 제출되면 레포트의 내용을 분석하고, 분석된 내용을 기초로 레포트와 관련된 자료가 저장되어 있는 데이터베이스를 소정의 기준에 의거하여 검색하고, 제출된 레포트와 검색된 자료를 비교하여 레포트의 독창성, 즉 표절성을 판단하는 시스템 및 방법에 관한 것이다.

Description

인터넷 기반 문서 비교 시스템 및 방법{System and method for internet-based documents comparison}
본 발명은 인터넷 기반 문서 비교 시스템 및 방법에 관한 것으로서, 보다 상세하게는 인터넷을 통하여 레포트가 제출되면 레포트의 내용을 분석하고, 분석된 내용을 기초로 레포트와 관련된 자료가 저장되어 있는 데이터베이스를 소정의 기준에 의거하여 검색하고, 제출된 레포트와 검색된 자료를 비교하여 레포트의 독창성, 즉 표절성을 판단하는 시스템 및 방법에 관한 것이다.
인터넷은 정보의 보고로서 인터넷 이용자들에게 정보에의 접근 기회를 넓혀주었고, 적은 노력으로 원하는 정보를 얻을 수 있게 해 주었다. 이렇게 오픈된 정보가 많은 가운데, 오래 전부터 인터넷 이용자들의 부적절한 정보 이용 및 활용이 사회 문제로 대두되어 왔다.
그러한 문제로서 인식되는 것 중의 하나가 학생들의 레포트 작성과 관련된 베끼기 문제 즉, 표절 레포트 문제이다. 종래에 행해지던 베끼기는 과거에 선배들이 제출한 레포트를 물려받아 이를 베끼거나 동료 학생들의 레포트를 베끼는 형태로 이루어짐으로써 소스(출처)가 한정적이었다. 그만큼 동일한 소스의 레포트도 많았고 이로써 평가자는 비교적 용이하게 표절 레포트를 색출할 수 있었다.
그러나 인터넷이라는 막강한 매체를 통해 레포트 자료실을 제공하는 웹 사이트가 존재하는 오늘날과 같은 환경에서는 과거와 같은 방법으로 즉, 평가자가 일일이 레포트를 수작업으로 대조해가며 표절 여부를 발견하는 것이 용이하지 않다. 현재 인터넷을 이용하여 행해지고 있는 표절은 숙제 및 레포트와 같은 일반적인 과제물에서부터 학위 논문, 심지어 일기까지 그 대상을 가리지 않고 무분별하고 광범위하게 이루어지고 있다. 일예로 한 고등학교의 수행 평가 과제물에서 '석사 논문'급의 레포트가 무더기로 제출되어 발견된 일도 있다. 이러한 표절은 각급 학교의 학생들에게 거의 일상화되어 있으며 그 심각성이 이미 상당한 수준에 달해 있는 상황이다.
상기한 표절 레포트의 폐단은 첫째, 평가자들이 제출된 레포트가 표절된 것이라는 사실조차 몰라 아무런 여과과정없이 평가하고 점수화하여 학생들의 수행 평가에 대한 공정성에 있어서 걸림돌로 작용할 수 있다는 점이다.
둘째, 학생들이 과제물 수행시 과제물의 내용(quality)보다는 편집이나 디자인, 과제물의 양(quantity)에 초점을 맞춤으로써 학생들의 과제물 수행 능력의 저하를 초래할 수도 있다는 점이다.
세째, 이러한 레포트 표절 행위가 습관화되어 문학·음악·미술 등 여타 부문에서도 각고의 노력을 통한 창작보다는 표절을 통한 손쉬운 접근을 택하게 할 수 있다는 즉, 범죄의식을 마비시킬 수 있다는 점이다.
이로써 표절 레포트를 철저하게 색출할 수 있는 수단에 대한 요구가 있었고, 이 과정에서 평가자 스스로 레포트의 표절 여부에 대해 별도로 판단을 해야 하는 부담없이 오로지 레포트의 내용에 대한 평가에 집중할 수 있도록 할 수 있는 시스템 및 방법에 대한 요구가 있었다.
본 발명은 상기한 바와 같은 점을 감안하여 안출한 것으로서, 레포트와 관련된 많은 데이터를 데이터베이스로 구비하고, 피평가자가 제출한 레포트 데이터를 분석하여 분석된 내용을 기초로 소정의 기준에 의거하여 데이터베이스를 검색하고,검색된 데이터와 제출한 레포트 데이터를 비교하여 제출한 레포트 데이터의 표절성 에 관련된 내용을 제공하는 것을 가능하게 하는 것을 목적으로 한다.
도 1은 본 발명에 의한 시스템 구성의 일실시예를 나타내는 블럭도,
도 2a는 본 발명에 의한 방법 구성의 일실시예를 나타내는 흐름도,
도 2b는 표절 관련 데이터를 얻는 방법의 일실시예를 나타내는 흐름도,
도 2c는 레포트 데이터를 분석하는 방법의 일실시예를 나타내는 흐름도,
도 3은 개별 레포트 데이터의 검색 결과의 일예를 나타내는 도면,
도 4는 집단별 레포트 데이터의 검색 결과의 일예를 나타내는 도면이다.
<도면의 주요부분의 부호에 대한 간단한 설명>
10...제1클라이언트, 20...학교 서버,
21...레포트 DB, 30...표절 판단 서버,
31...레포트 분석부, 32...DB 관리부,
33...결과 데이터 생성부, 34...자료 DB,
40...제2클라이언트.
상기한 목적을 달성하기 위하여 본 발명은 인터넷을 통하여 레포트 데이터 전송을 요청받는 제1클라이언트 및 레포트 데이터의 표절성과 관련된 결과 데이터를 전송받는 제2클라이언트가 존재하는 인터넷 기반 문서 비교 시스템에 있어서, 레포트의 주제와 동일 또는 유사 주제에 대해 인터넷상에서 득(得)한 자료, 동일 집단내의 피평가자가 작성한 레포트, 타 집단의 피평가자가 작성한 레포트 및 자체 보유 자료로 이루어진 자료 DB와, 상기 자료 DB와 연동되어 있으며, 상기 제1클라이언트로부터 레포트 데이터를 전송받아 분석하는 레포트 분석부, 분석 결과 추출된 검색어를 이용해 상기 자료 DB로부터 매칭되는 자료를 검색하는 등의 상기 자료 DB와의 각종 작업을 수행하는 DB 관리부, 레포트 데이터와 검색된 자료 데이터를 비교하고 레포트 데이터의 표절성을 판단하여 결과 데이터를 생성하는 결과 데이터 생성부를 구비하여 생성한 결과 데이터를 상기 제2클라이언트에 전송하는 표절 판단 서버를 구비하는 것을 특징으로 한다.
또한, 상기 시스템에 있어서, 상기 제1클라이언트로부터 레포트 데이터를 전송받아 저장하는 레포트 DB와, 상기 레포트 DB와 연동되어 상기 표절 판단 서버로부터 레포트 데이터 전송을 요청받는 학교 서버를 더 구비하며, 상기 학교 서버가 상기 제1클라이언트로부터 레포트 데이터를 전송받으면 상기 표절 판단 서버가 상기 학교 서버로부터 레포트 데이터를 전송받는 것을 다른 특징으로 한다.
또한, 상기 시스템에 있어서, 상기 검색어는 명사 또는 단어(word)인 것을 또 다른 특징으로 한다.
또한, 상기 시스템에 있어서, 상기 결과 데이터는 출처명, 표절 단어수 및 표절율(%) 데이터를 포함하는 것을 또 다른 특징으로 한다.
한편, 인터넷을 통하여 레포트 데이터 전송을 요청받는 제1클라이언트와, 레포트의 주제와 동일 또는 유사 주제에 대한 자료로 이루어진 자료 DB와, 상기 자료 DB와 연동되어 있으며, 상기 제1클라이언트로부터 레포트 데이터를 전송받고 분석하는 레포트 분석부, 검색어를 이용해 상기 자료 DB로부터 매칭되는 자료를 검색하는 등의 상기 자료 DB와의 각종 작업을 수행하는 DB 관리부, 레포트 데이터와 검색된 자료 데이터를 비교하고 레포트 데이터의 표절성을 판단하여 결과 데이터를 생성하는 결과 데이터 생성부를 구비하는 표절 판단 서버와, 상기 표절 판단 서버로부터 레포트 데이터의 표절성과 관련하여 생성한 결과 데이터를 전송받는 제2클라이언트를 구비한 시스템에서의 인터넷 기반 문서 비교 방법에 있어서, 상기 표절 판단 서버가 상기 제1클라이언트로부터 인터넷을 통하여 레포트 데이터를 전송받는 단계와, 상기 표절 판단 서버가 전송받은 레포트 데이터를 이용하여 소정의 작업을 거쳐 표절 관련 데이터를 얻는 단계와, 상기 표절 판단 서버가 상기 제2클라이언트에 표절 관련 데이터인 결과 데이터를 전송하는 단계를 구비하는 것을 다른 특징으로 한다.
또한, 상기 방법에 있어서, 상기 제1클라이언트로부터 레포트 데이터를 전송받아 저장하는 레포트 DB 및 상기 레포트 DB와 연동되어 상기 표절 판단 서버로부터 레포트 데이터 전송을 요청받는 학교 서버를 더 구비한 시스템하에서, 상기 표절 판단 서버가 상기 제1클라이언트로부터 인터넷을 통하여 레포트 데이터를 전송받는 단계는, 상기 제1클라이언트가 인터넷을 통하여 레포트 데이터를 상기 학교 서버에 전송하는 단계와, 상기 표절 판단 서버가 상기 학교 서버로부터 레포트 데이터를 전송받는 단계로 이루어지는 것을 다른 특징으로 한다.
또한, 상기 방법에 있어서, 상기 표절 판단 서버가 전송받은 레포트 데이터를 이용하여 소정의 작업을 거쳐 표절 관련 데이터를 얻는 단계는, 상기 레포트 분석부가 전송받은 레포트 데이터를 분석하는 단계와, 상기 DB 관리부가 분석 결과 추출된 검색어를 이용해 상기 자료 DB로부터 매칭되는 자료 데이터를 검색하는 단계와, 상기 결과 데이터 생성부가 레포트 데이터와 검색된 자료 데이터를 비교하여 레포트 데이터의 표절성과 관련된 결과 데이터를 생성하는 단계로 이루어지는 것을 또 다른 특징으로 한다.
또한, 상기 방법에 있어서, 상기 레포트 분석부가 전송받은 레포트 데이터를 분석하는 단계는, 상기 레포트 분석부가 레포트 데이터를 문장별로 분리하는 단계와, 상기 레포트 분석부가 분리된 문장별로 단어수를 확인하는 단계와, 상기 레포트 분석부가 분리된 문장별로 검색어를 추출하는 단계로 이루어지는 것을 또 다른 특징으로 한다.
또한, 상기 방법에 있어서, 상기 검색어는 명사 또는 단어(word)인 것을 또 다른 특징으로 한다.
또한, 상기 방법에 있어서, 상기 결과 데이터 생성부가 레포트 데이터와 검색된 자료 데이터를 비교하여 레포트 데이터의 표절성과 관련된 결과 데이터를 생성하는 단계에서, 상기 결과 데이터는 출처명, 표절 단어수 및 표절율(%) 데이터를 포함하는 것을 또 다른 특징으로 한다.
이하, 첨부 도면을 참조하여 본 발명에 의한 실시예를 상세하게 설명한다.
도 1은 본 발명에 의한 시스템 구성의 전체적인 블록도로서, 제1클라이언트(10)가 학교 서버(20) 또는 표절 판단 서버(30)측에 작성한 레포트 데이터를 전송하고, 표절 판단 서버(30)측이 레포트 데이터를 미리 구비하고 있는 다른 자료 데이터와 비교 검색하여 생성한 결과 데이터를 제2클라이언트(40)에 전달하도록 하는 것을 가능하게 하는 구성이다.
제1클라이언트(10)는 고등학생 및 대학생 등을 포함하는 피평가자인 레포트 제출자측의 컴퓨터로서, 텍스트 형태의 데이터를 포함하여 작성한 레포트 데이터(이하, 레포트 데이터)를 인터넷을 통하여 전송한다. 이 때, 제1클라이언트(10)는 학교 서버(20) 또는 표절 판단 서버(30)를 택일하여 레포트 데이터를 전송할 수 있다. 한편, 제1클라이언트(10)의 개인정보 즉, 학교명, 대학명, 학과명, 학년, 학번, 이름 데이터 등은 레포트 제출시마다 본문과 함께 작성되어 전송되거나 학교 서버(20) 및 표절 판단 서버(30)에 기(旣) 저장되어 필요할 때마다 불러들여 전송된다.
학교 서버(20)는 레포트 DB(21)와 연동되어 있는 제1클라이언트(10)의 소속 학교의 웹 서버로서, 제1클라이언트(10)가 전송한 레포트 데이터를 수신하여 레포트 DB(21)에 저장하고 또한, 수신한 레포트 데이터를 표절 판단 서버(30)에 전송한다. 표절 판단 서버(30)측으로의 전송은 이벤트가 발생할 때마다 즉, 제1클라이언트(10)가 학교 서버(20)측으로 레포트를 전송할 때마다 이루어질 수도 있고, 일정 기간마다 또는 정해진 기간이 경과하는 즉시 일시에 이루어질 수도 있다. 또한, 표절 판단 서버(30)측의 요청이 있는 경우에 전송하는 것도 가능하다.
표절 판단 서버(30)는 자료 DB(34)와 연동되어 레포트 데이터의 분석된 내용을 기초로 자료 DB(34)에 저장되어 있는 데이터를 검색하여 레포트 데이터의 독창성(originality) 즉, 표절성을 판단하는 수단으로서, 상기 제1클라이언트(10)가 작성한 레포트 데이터를 분석하는 레포트 분석부(31), 검색어를 이용해 자료 DB(34)로부터 매칭되는 자료를 검색하는 등의 자료 DB(34)와 관련된 각종 작업을 수행하는 DB 관리부(32), 레포트 데이터와 검색된 자료 데이터를 비교하여 결과 데이터를 생성하는 결과 데이터 생성부(33)를 구비한다.
상기 레포트 분석부(31)는 레포트 데이터의 표절성을 확인하는 작업을 수행하기 수월하도록 레포트 데이터를 분석하는 수단으로서, 예컨대 레포트 데이터를 문장별로 분리하고, 분리된 문장별로 단어(word, 낱말 개념이 아님. 이하 동일)수를 확인하고, 분리된 문장별로 검색어를 추출한다. 상기 문장은 검색의 단위이고, 상기 단어수는 표절율(%)을 계산하기 위한 값이고, 상기 검색어는 검색시에 이용하기 위한 값으로서, 명사에 한하지 않고 문장의 각 성분 그 자체 즉, 단어도 포함한다.
상기 결과 데이터는 레포트 데이터 중 자료 DB(34)의 데이터 즉, 자료 데이터와 중복되는 부분이 있는 경우 자료 데이터의 저장 위치 즉, 출처명(예컨대, 특정 URL 또는 동일 집단내의 구성원의 이름 등), 표절 단어수 및 표절율(%) 데이터를 포함한다. 상기 표절율(%)은 출처명에 대한 데이터(이하, 표절율1)와 레포트에 대한 데이터(이하, 표절율2) 각각에 대해 얻을 수 있는데, 상기 표절율1(%)은 레포트 데이터의 전체 단어수와 해당 출처명의 전체 표절 단어수의 관계를 통해 구할 수 있고, 상기 표절율2(%)는 레포트 데이터의 전체 단어수와 레포트 데이터의 전체 표절 단어수의 관계를 통해 구할 수 있다. 상세한 설명은 관련된 부분에서 도면과 함께 후술한다.
자료 DB(34)는 인터넷 자료, 동일 집단 레포트, 타 집단 레포트 및 자체 보유 자료로 이루어진다. 상기 인터넷 자료는 사전 및 사후 즉, 제1클라이언트(10)에게 레포트의 주제를 발표하기 전후에 각 레포트의 주제와 동일주제 또는 유사주제에 대해서 인터넷에서 검색해 저장한 자료이고, 상기 동일 집단 레포트 및 타 집단 레포트도 사전 및 사후 즉, 제1클라이언트(10)에게 레포트의 주제를 발표하기 전후에 각 레포트의 주제와 동일주제 또는 유사주제에 대해서 동일집단 및 타 집단으로부터 취해 저장한 자료이고, 상기 자체 보유 자료는 표절 판단 서버(30)측에서 별도로 구비해 축적한 자료이다. 상기 구분은 검색 순서와 관련이 있는 것으로서, 상기한 바와 같은 순서 즉, 인터넷 자료, 동일 집단 레포트, 타 집단 레포트, 자체 보유 자료 순으로 검색이 이루어진다. 그러나, 검색 순서는 상황에 따라 얼마든지 변경 가능하다.
제2클라이언트(40)는 선생님 및 교수님을 포함하는 평가자측의 컴퓨터로서, 상기 표절 판단 서버(30)로부터 레포트 데이터의 독창성 즉, 표절성에 대하여 생성한 결과 데이터를 전송받아 제1클라이언트(10)측의 레포트를 평가하는데 이용한다. 이 경우 평가자는 결과 데이터를 참조하여 표절율(%)이 높은 학생의 레포트를 평가 대상에서 제외할 수 있는 한편, 일률적으로 표절율(%)을 기준으로 해서 평가 대상을 고려하지 않고 중요부분에 대한 표절 여부가 없는지도 확인해서 평가 작업을 수행할 수 있다.
도 2a는 본 발명에 의한 방법의 일실시예를 나타낸 흐름도로서, 이하에서는 도 2a의 흐름도를 참조하여 본 발명에 의한 방법의 실시예를 상세하게 설명한다.
우선, 제1클라이언트(10)가 인터넷을 통하여 표절 판단 서버(30)에 접속하여 텍스트 형태의 데이터를 포함하여 작성한 레포트 데이터(이하, 레포트 데이터)를 전송하고, 표절 판단 서버(30)측은 전송받은 레포트 데이터를 저장한다(S200). 이 때, 제1클라이언트(10)가 학교 서버(20)에 레포트 데이터를 전송하고, 학교 서버(20)측이 전송받은 당해 레포트 데이터를 레포트 DB(21)에 저장함과 동시에 표절 판단 서버(30)측에 전송하는 형태도 무방하다. 한편, 제1클라이언트(10)의 개인정보 즉, 학교명, 대학명, 학과명, 학년, 학번, 이름 데이터 등은 레포트 제출시마다 본문과 함께 작성되어 전송되거나 학교 서버(20) 및 표절 판단 서버(30)에 기(旣) 저장되어 필요할 때마다 불러들여 전송된다.
계속해서, 표절 판단 서버(30)측이 전송받은 레포트 데이터를 이용하여 소정의 작업을 거쳐 표절과 관련된 데이터를 얻는다(S210). 이렇게 소정의 작업을 거쳐 표절 관련 데이터를 얻는 방법의 일예를 도 2b에 나타내었다.
도 2b는 표절 관련 데이터를 얻는 방법의 일실시예를 나타내는 흐름도이다.
우선, 표절 판단 서버(30)측이 전송받은 레포트 데이터를 분석한다(S211). 이 때, 레포트 데이터 분석은 소정의 과정을 거쳐 진행되는데, 도 2c에 관련 과정의 흐름도를 나타내었다.
도 2c는 레포트 데이터를 분석하는 방법의 일실시예를 나타내는 흐름도로서, 도시한 바와 같이, 레포트 데이터 분석은 우선, 레포트 데이터를 문장별로 분리하고(S211-1), 분리된 문장별로 단어수를 확인하고(S211-2), 마지막으로, 분리된 문장별로 검색어를 추출하는(S211-3) 단계를 거쳐 이루어진다. 상기 문장은 검색의 단위이고, 상기 단어수는 표절율(%)을 계산하기 위한 값이고, 상기 검색어는 검색시에 이용하기 위한 값으로서, 명사에 한하지 않고 문장의 각 성분 그 자체 즉, 단어도 포함한다. 예컨대, 다음과 같은 임의의 레포트 데이터는 아래 단계들과 같은 형태로 분석된다.
<레포트 데이터>
주제 : 제품 수명 주기 이론
1. 제품 수명 주기 이론
1) 제품이란?
시장에서 제공되는 물건으로 관심을 끌거나 취득 사용되고 소비되어 욕구를 충족시켜 주는 것이다. 물리적 대상, 서비스, 사람, 장소, 아이디어를 포함하여 제품이라 한다.(이하 생략)
(S211-1 : 문장별로 분리)
A 1 1. 제품 수명 주기 이론
A 2 1) 제품이란?
A 3 시장에서 제공되는 물건으로 관심을 끌거나 취득 사용되고 소비되어 욕구를 충족시켜 주는 것이다.
A 4 물리적 대상, 서비스, 사람, 장소, 아이디어를 포함하여 제품이라 한다.
(S211-2 : 문장별로 단어수 확인)
A 1 4 1.제품 수명 주기 이론
A 2 1 1)제품이란?
A 3 12 시장에서 제공되는 물건으로 관심을 끌거나 취득 사용되고 소비되어 욕구를 충족시켜 주는 것이다.
A 4 9 물리적 대상, 서비스, 사람, 장소, 아이디어를 포함하여 제품이라 한다.
(S211-3 : 문장별로 검색어 추출)
A 1 4 제품, 수명, 주기, 이론
A 2 1 제품
A 3 12 시장, 제공, 물건, 관심, 취득, 사용, 소비, 욕구, 충족
A 4 9 물리, 대상, 서비스, 사람, 장소, 아이디어, 포함, 제품
상기 단계(S211-1)~단계(S211-3)에 나타나는 'A'는 레포트 데이터의 제출자를 식별하기 위한 데이터이고, 그 우측의 숫자는 레포트 데이터내의 문장 번호 데이터이다. 상기 단계(S211-2)~단계(S211-3)의 문장 번호 우측의 숫자는 당해 문장의 단어수이고, 상기 단계(S211-3)의 단어수 우측의 낱말이 검색어이다. 이 때 검색어는 상기한 바와 같은 '제품', '시장' 및 '제공' 등과 같은 명사 형태 뿐만 아니라 '제품이란', '시장에서' 및 '제공되는' 등의 단어 형태로도 추출한다.
이어서, 레포트를 표절한 것인지 확인하기 위해 추출한 검색어를 이용해 자료 DB(34)로부터 레포트 데이터의 소스(source)라고 여겨지는 출처(出處)가 존재하는지 검색한다(S212). 상기 자료 DB(34)는 네 가지 형태의 자료들을 포함한다. 즉, 표절 판단 서버(30)가 인터넷상에서 득(得)한 자료, 제1클라이언트(10)와 동일 집단내 예컨대, 동일학교의 피평가자가 작성한 레포트, 타 집단의 피평가자가 작성한 레포트 및 자체 보유 자료 등 이다. 상기 구분은 검색 순서와 관련이 있는 것으로서, 상기한 순서 즉, 인터넷 자료, 동일 집단 레포트, 타 집단 레포트, 자체 보유 자료 순으로 검색이 이루어진다. 그러나, 검색 순서는 상황에 따라 얼마든지 변경 가능하다.
이 때 검색은 상기 자료 DB(34)와 연계하여 상기한 바와 같이 검색 단위인 문장별로 일련의 방법 및 절차를 거쳐 이루어지는데 아래에서 예를 들어 상세히 설명한다. 상기 단계(S211)의 설시(說示)예의 레포트 데이터 중 세번째 문장을 예로 들면, 우선, 첫번째 검색어 '시장'을 입력값으로 하여 자료 DB(34)로부터 검색을 실행하고 결과값을 얻은 후, 결과내 검색 형태로 하여 동일 문장의 다음 검색어인 '제공'을 입력값으로 하여 검색을 실행하고 이후, 문장의 마지막 검색어인 '충족'에 이르기까지 동일한 형태로 검색을 실행한 후에 한 문장의 검색을 종료한다. 상기한 바와 같이 '시장에서', '제공되는' 및 '물건으로' 등과 같은 검색어를 이용하여 검색할 수 있음은 물론이다. 이 경우에 보다 정확한 비교가 가능함은 물론일 것이다.
이어서, 출처명, 표절 단어수, 표절율(%) 데이터를 포함하는 검색 결과 데이터를 생성한다(S213). 이 때 각 레포트에 대해 문장별로 검색된 데이터를 이용하여 레포트 데이터와 검색된 데이터를 비교하여 레포트별 검색 결과 데이터를 생성하고 또한, 집단의 모든 레포트에 대해 검색이 이루어진 후에 집단별로 검색 결과 데이터를 생성할 수 있다.
도 3은 개별 레포트의 검색 결과에 대한 일예를 나타낸 도면으로서, 레포트 데이터를 이루는 각 문장별 단어수, 표절 단어수 및 출처명에 대한 결과 데이터의 일예를 보여준다. 도 3에서 출처명에 대한 데이터 중 '-'값이 있는 문장(라인)은 표절 데이터가 아닌 독창적인 데이터로 구성되었음을 나타낸다. 레포트 데이터의 모든 문장에 대한 검색이 종료된 경우에는 레포트 데이터의 표절율(%) 데이터를 얻을 수 있다. 상기 표절율(%) 데이터는 도 4에 도시한 바와 같이 두 가지로 나누어진다.
도 4는 집단별 레포트의 검색 결과에 대한 일예를 나타낸 도면으로서, 대학명, 학과명, 학번 및 이름으로 구분되는 각 피평가자의 레포트별 출처명, 표절율1(%), 표절율2(%)에 대한 결과 데이터의 일예를 보여준다. 상기 표절율1(%)은 각 레포트 데이터의 각 출처명별 표절율로서, 레포트 데이터의 총 단어수와 출처명별 전체 표절 단어수의 관계 속에서 얻을 수 있고, 상기 표절율2(%)는 각 레포트 데이터별 표절율로서, 레포트 데이터의 총 단어수와 레포트 데이터의 전체 표절단어수의 관계 속에서 얻을 수 있다. 도 4에서 출처명에 대한 데이터는 개별 레포트의 검색 결과 데이터에서 중복값을 배제하여 유니크(unique)하게 보여주고 있다.
모든 레포트 데이터에 대한 검색이 완료되지 않은 경우에는 단계(S212)로 돌아가 다음 문장(또는 다음 레포트)에 대한 검색을 수행한다.
검색이 완료된 경우에는 마지막으로, 제2클라이언트(40)측으로 표절성과 관련하여 생성된 레포트 데이터의 검색 결과 데이터를 전송한다(S220). 상기 결과 데이터는 전자우편 등을 통해 전송되어질 수 있다. 검색 결과 데이터를 전송받은 제2클라이언트(40)는 표절성에 대한 여부를 별도로 판단해야 하는 부담없이 그 데이터를 참조하여 레포트를 평가할 수 있으므로 레포트 평가 작업을 보다 용이하게 할 수 있다.
이상과 같이 본 발명의 바람직한 실시예를 참조하여 설명하였으나, 본 발명의 범위가 이에 한정되지 않고 필요한 변경을 가하여 실시할 수 있음은 물론이다. 예컨대 상기한 용어들에 있어서, 레포트는 숙제, 과제, 논문 등 평가의 대상이 되는 대부분의 형태를 포함하고, 학교 서버는 표절 판단 서버와 제1클라이언트를 중개하기 위한 구성이라면 여하한 명칭으로 불리워도 본 발명의 범위에 포함된다.
본 발명에 의하면, 인터넷 기반 문서 비교 시스템 및 방법에 있어서, 레포트의 표절성 즉, 표절 부분, 출처명 및 표절율을 자동으로 확인해 줌으로써 레포트 평가자가 레포트를 평가하는 경우에 표절성 여부 판단을 위한 별도의 작업을 해야 하는 부담을 덜 수 있고 또한, 레포트의 표절성에 대한 확인 작업이 용이해짐으로써 표절 레포트의 유포를 예방하는데 기여할 수 있다. 나아가, 피평가자의 성실한 레포트 작성을 유도할 수 있다.

Claims (10)

  1. 인터넷을 통하여 레포트 데이터 전송을 요청받는 제1클라이언트 및 레포트 데이터의 표절성과 관련된 결과 데이터를 전송받는 제2클라이언트가 존재하는 인터넷 기반의 문서 비교 시스템에 있어서,
    레포트의 주제와 동일 또는 유사 주제에 대해 인터넷상에서 득(得)한 자료, 동일 집단내의 피평가자가 작성한 레포트, 타 집단의 피평가자가 작성한 레포트 및 자체 보유 자료로 이루어진 자료 DB; 및
    상기 자료 DB와 연동되어 있으며, 상기 제1클라이언트로부터 레포트 데이터를 전송받아 분석하는 레포트 분석부, 분석 결과 추출된 검색어를 이용해 상기 자료 DB로부터 매칭되는 자료를 검색하는 등의 상기 자료 DB와의 각종 작업을 수행하는 DB 관리부, 레포트 데이터와 검색된 자료 데이터를 비교하고 레포트 데이터의 표절성을 판단하여 결과 데이터를 생성하는 결과 데이터 생성부를 구비하여 생성한 결과 데이터를 상기 제2클라이언트에 전송하는 표절 판단 서버
    를 구비하는 것을 특징으로 하는 인터넷 기반 문서 비교 시스템.
  2. 제1항에 있어서,
    상기 제1클라이언트로부터 레포트 데이터를 전송받아 저장하는 레포트 DB; 및
    상기 레포트 DB와 연동되어 상기 표절 판단 서버로부터 레포트 데이터 전송을 요청받는 학교 서버
    를 더 구비하며, 상기 학교 서버가 상기 제1클라이언트로부터 레포트 데이터를 전송받으면 상기 표절 판단 서버가 상기 학교 서버로부터 레포트 데이터를 전송받는 것을 특징으로 하는 인터넷상에서의 표절 레포트 판단 시스템.
  3. 제1항에 있어서,
    상기 검색어는 명사 또는 단어(word)인 것을 특징으로 하는 인터넷 기반 문서 비교 시스템.
  4. 제1항에 있어서,
    상기 결과 데이터는 출처명, 표절 단어수 및 표절율(%) 데이터를 포함하는 것을 특징으로 하는 인터넷 기반 문서 비교 시스템.
  5. 인터넷을 통하여 레포트 데이터 전송을 요청받는 제1클라이언트와, 레포트의 주제와 동일 또는 유사 주제에 대한 자료로 이루어진 자료 DB와, 상기 자료 DB와 연동되어 있으며, 상기 제1클라이언트로부터 레포트 데이터를 전송받고 분석하는 레포트 분석부, 검색어를 이용해 상기 자료 DB로부터 매칭되는 자료를 검색하는 등의 상기 자료 DB와의 각종 작업을 수행하는 DB 관리부, 레포트 데이터와 검색된 자료 데이터를 비교하고 레포트 데이터의 표절성을 판단하여 결과 데이터를 생성하는 결과 데이터 생성부를 구비하는 표절 판단 서버와, 상기 표절 판단 서버로부터 레포트 데이터의 표절성과 관련하여 생성한 결과 데이터를 전송받는 제2클라이언트를 구비한 시스템에서의 문서 비교 방법에 있어서,
    상기 표절 판단 서버가 상기 제1클라이언트로부터 인터넷을 통하여 레포트 데이터를 전송받는 단계;
    상기 표절 판단 서버가 전송받은 레포트 데이터를 이용하여 소정의 작업을 거쳐 표절 관련 데이터를 얻는 단계; 및
    상기 표절 판단 서버가 상기 제2클라이언트에 표절 관련 데이터인 결과 데이터를 전송하는 단계
    를 구비하는 것을 특징으로 하는 인터넷 기반 문서 비교 방법.
  6. 제5항에 있어서,
    상기 제1클라이언트로부터 레포트 데이터를 전송받아 저장하는 레포트 DB 및
    상기 레포트 DB와 연동되어 상기 표절 판단 서버로부터 레포트 데이터 전송을 요청받는 학교 서버를 더 구비한 시스템하에서,
    상기 표절 판단 서버가 상기 제1클라이언트로부터 인터넷을 통하여 레포트 데이터를 전송받는 단계는,
    상기 제1클라이언트가 인터넷을 통하여 레포트 데이터를 상기 학교 서버에 전송하는 단계; 및
    상기 표절 판단 서버가 상기 학교 서버로부터 레포트 데이터를 전송받는 단계
    로 이루어지는 것을 특징으로 하는 인터넷 기반 문서 비교 방법.
  7. 제5항에 있어서,
    상기 표절 판단 서버가 전송받은 레포트 데이터를 이용하여 소정의 작업을 거쳐 표절 관련 데이터를 얻는 단계는,
    상기 레포트 분석부가 전송받은 레포트 데이터를 분석하는 단계;
    상기 DB 관리부가 분석 결과 추출된 검색어를 이용해 상기 자료 DB로부터 매칭되는 자료 데이터를 검색하는 단계; 및
    상기 결과 데이터 생성부가 레포트 데이터와 검색된 자료 데이터를 비교하여 레포트 데이터의 표절성과 관련된 결과 데이터를 생성하는 단계
    로 이루어지는 것을 특징으로 하는 인터넷 기반의 문서 비교 방법.
  8. 제7항에 있어서,
    상기 레포트 분석부가 전송받은 레포트 데이터를 분석하는 단계는,
    상기 레포트 분석부가 레포트 데이터를 문장별로 분리하는 단계;
    상기 레포트 분석부가 분리된 문장별로 단어수를 확인하는 단계; 및
    상기 레포트 분석부가 분리된 문장별로 검색어를 추출하는 단계
    로 이루어지는 것을 특징으로 하는 인터넷 기반 문서 비교 방법.
  9. 제7항 또는 제8항에 있어서,
    상기 검색어는 명사 또는 단어(word)인 것을 특징으로 하는 인터넷 기반 문서 비교 방법.
  10. 제7항에 있어서,
    상기 결과 데이터 생성부가 레포트 데이터와 검색된 자료 데이터를 비교하여 레포트 데이터의 표절성과 관련된 결과 데이터를 생성하는 단계에서,
    상기 결과 데이터는 출처명, 표절 단어수 및 표절율(%) 데이터를 포함하는 것을 특징으로 하는 인터넷 기반 문서 비교 방법.
KR1020010050541A 2001-08-22 2001-08-22 인터넷 기반 문서 비교 시스템 및 방법 KR20030016799A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020010050541A KR20030016799A (ko) 2001-08-22 2001-08-22 인터넷 기반 문서 비교 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020010050541A KR20030016799A (ko) 2001-08-22 2001-08-22 인터넷 기반 문서 비교 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20030016799A true KR20030016799A (ko) 2003-03-03

Family

ID=27720209

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020010050541A KR20030016799A (ko) 2001-08-22 2001-08-22 인터넷 기반 문서 비교 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20030016799A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100915995B1 (ko) * 2007-06-15 2009-09-10 에스케이 텔레콤주식회사 학습 과제물에 대한 짜깁기를 방지하는 방법과 그를 위한시스템, 사용자 단말기 및 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체
KR100948749B1 (ko) * 2008-03-05 2010-03-22 엔에이치엔(주) 빈출 문구를 이용한 복사 문서 판단 시스템 및 방법,그리고 빈출 문구 추출 시스템 및 방법
CN1635491B (zh) * 2003-12-30 2010-04-28 财团法人资讯工业策进会 特征撷取、数据解密方法以及抄袭文章搜寻的***与方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09282331A (ja) * 1996-04-09 1997-10-31 Canon Inc 文書類似判定装置および文書類似判定方法
JPH10254894A (ja) * 1997-03-11 1998-09-25 Toshiba Corp 類似文書検索装置、類似文書検索方法及び類似文書検索用記憶媒体
JPH1173415A (ja) * 1997-08-27 1999-03-16 Toshiba Corp 類似文書検索装置及び類似文書検索方法
KR20000036758A (ko) * 2000-03-28 2000-07-05 이세룡 문서자료 검색 데이터베이스화 및 이를 이용한 문서자료검색 방법
KR20020009077A (ko) * 2000-07-24 2002-02-01 김회율 문장 표절 및 도용 검색 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09282331A (ja) * 1996-04-09 1997-10-31 Canon Inc 文書類似判定装置および文書類似判定方法
JPH10254894A (ja) * 1997-03-11 1998-09-25 Toshiba Corp 類似文書検索装置、類似文書検索方法及び類似文書検索用記憶媒体
JPH1173415A (ja) * 1997-08-27 1999-03-16 Toshiba Corp 類似文書検索装置及び類似文書検索方法
KR20000036758A (ko) * 2000-03-28 2000-07-05 이세룡 문서자료 검색 데이터베이스화 및 이를 이용한 문서자료검색 방법
KR20020009077A (ko) * 2000-07-24 2002-02-01 김회율 문장 표절 및 도용 검색 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1635491B (zh) * 2003-12-30 2010-04-28 财团法人资讯工业策进会 特征撷取、数据解密方法以及抄袭文章搜寻的***与方法
KR100915995B1 (ko) * 2007-06-15 2009-09-10 에스케이 텔레콤주식회사 학습 과제물에 대한 짜깁기를 방지하는 방법과 그를 위한시스템, 사용자 단말기 및 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체
KR100948749B1 (ko) * 2008-03-05 2010-03-22 엔에이치엔(주) 빈출 문구를 이용한 복사 문서 판단 시스템 및 방법,그리고 빈출 문구 추출 시스템 및 방법

Similar Documents

Publication Publication Date Title
Smeureanu et al. Applying supervised opinion mining techniques on online user reviews
Bar-Ilan What do we know about links and linking? A framework for studying links in academic environments
Sanderson et al. Analyzing geographic queries
Çelik et al. An ontology-based information extraction approach for résumés
Li A review of the development and application of the Web impact factor
Fu et al. Evaluating answer quality across knowledge domains: Using textual and non‐textual features in social Q&A
Li et al. Feature extraction from social media posts for psychometric typing of participants
Paik et al. Applying natural language processing (nlp) based metadata extraction to automatically acquire user preferences
Bar-Ilan et al. Informetric theories and methods for exploring the Internet: An analytical survey of recent research literature
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
Kochuieva et al. Usage of Sentiment Analysis to Tracking Public Opinion.
Belliston et al. Undergraduate use of federated searching: a survey of preferences and perceptions of value-added functionality
Lv et al. Enhanced context-based document relevance assessment and ranking for improved information retrieval to support environmental decision making
Huang et al. Overview of the INEX 2009 link the wiki track
Masood et al. Semantic analysis to identify students’ feedback
Jayarathna et al. Unified relevance feedback for multi-application user interest modeling
KR20030016799A (ko) 인터넷 기반 문서 비교 시스템 및 방법
Malik et al. Sentiment analysis on political tweets
Tolosana-Calasanz et al. On the problem of identifying the quality of geographic metadata
Sarsa et al. Searching Case Law Judgments by Using Other Judgments as a Query
Jones et al. A probabilistic model of information retrieval: Develepment and STatus
Waldhör etBlogAnalysis-Analysing tourism Weblogs and forums using statistical and computer linguistic methods for quality control
Oatley et al. Digital footprints: envisaging and analysing online behaviour
Herrmannova et al. Citations and readership are poor indicators of research excellence: Introducing trueimpactdataset, a new dataset for validating research evaluation metrics
Dietz et al. A component-level analysis of an academic search test collection. Part II: query analysis

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
NORF Unpaid initial registration fee