KR20030016799A

KR20030016799A - 인터넷 기반 문서 비교 시스템 및 방법

Info

Publication number: KR20030016799A
Application number: KR1020010050541A
Authority: KR
Inventors: 장경진
Original assignee: 장경진
Priority date: 2001-08-22
Filing date: 2001-08-22
Publication date: 2003-03-03

Abstract

본 발명은 인터넷 기반 문서 비교 시스템 및 방법에 관한 것으로서, 보다 상세하게는 인터넷을 통하여 레포트가 제출되면 레포트의 내용을 분석하고, 분석된 내용을 기초로 레포트와 관련된 자료가 저장되어 있는 데이터베이스를 소정의 기준에 의거하여 검색하고, 제출된 레포트와 검색된 자료를 비교하여 레포트의 독창성, 즉 표절성을 판단하는 시스템 및 방법에 관한 것이다.

Description

인터넷 기반 문서 비교 시스템 및 방법{System and method for internet-based documents comparison}

인터넷은 정보의 보고로서 인터넷 이용자들에게 정보에의 접근 기회를 넓혀주었고, 적은 노력으로 원하는 정보를 얻을 수 있게 해 주었다. 이렇게 오픈된 정보가 많은 가운데, 오래 전부터 인터넷 이용자들의 부적절한 정보 이용 및 활용이 사회 문제로 대두되어 왔다.

그러한 문제로서 인식되는 것 중의 하나가 학생들의 레포트 작성과 관련된 베끼기 문제 즉, 표절 레포트 문제이다. 종래에 행해지던 베끼기는 과거에 선배들이 제출한 레포트를 물려받아 이를 베끼거나 동료 학생들의 레포트를 베끼는 형태로 이루어짐으로써 소스(출처)가 한정적이었다. 그만큼 동일한 소스의 레포트도 많았고 이로써 평가자는 비교적 용이하게 표절 레포트를 색출할 수 있었다.

그러나 인터넷이라는 막강한 매체를 통해 레포트 자료실을 제공하는 웹 사이트가 존재하는 오늘날과 같은 환경에서는 과거와 같은 방법으로 즉, 평가자가 일일이 레포트를 수작업으로 대조해가며 표절 여부를 발견하는 것이 용이하지 않다. 현재 인터넷을 이용하여 행해지고 있는 표절은 숙제 및 레포트와 같은 일반적인 과제물에서부터 학위 논문, 심지어 일기까지 그 대상을 가리지 않고 무분별하고 광범위하게 이루어지고 있다. 일예로 한 고등학교의 수행 평가 과제물에서 '석사 논문'급의 레포트가 무더기로 제출되어 발견된 일도 있다. 이러한 표절은 각급 학교의 학생들에게 거의 일상화되어 있으며 그 심각성이 이미 상당한 수준에 달해 있는 상황이다.

상기한 표절 레포트의 폐단은 첫째, 평가자들이 제출된 레포트가 표절된 것이라는 사실조차 몰라 아무런 여과과정없이 평가하고 점수화하여 학생들의 수행 평가에 대한 공정성에 있어서 걸림돌로 작용할 수 있다는 점이다.

둘째, 학생들이 과제물 수행시 과제물의 내용(quality)보다는 편집이나 디자인, 과제물의 양(quantity)에 초점을 맞춤으로써 학생들의 과제물 수행 능력의 저하를 초래할 수도 있다는 점이다.

세째, 이러한 레포트 표절 행위가 습관화되어 문학·음악·미술 등 여타 부문에서도 각고의 노력을 통한 창작보다는 표절을 통한 손쉬운 접근을 택하게 할 수 있다는 즉, 범죄의식을 마비시킬 수 있다는 점이다.

이로써 표절 레포트를 철저하게 색출할 수 있는 수단에 대한 요구가 있었고, 이 과정에서 평가자 스스로 레포트의 표절 여부에 대해 별도로 판단을 해야 하는 부담없이 오로지 레포트의 내용에 대한 평가에 집중할 수 있도록 할 수 있는 시스템 및 방법에 대한 요구가 있었다.

본 발명은 상기한 바와 같은 점을 감안하여 안출한 것으로서, 레포트와 관련된 많은 데이터를 데이터베이스로 구비하고, 피평가자가 제출한 레포트 데이터를 분석하여 분석된 내용을 기초로 소정의 기준에 의거하여 데이터베이스를 검색하고,검색된 데이터와 제출한 레포트 데이터를 비교하여 제출한 레포트 데이터의 표절성 에 관련된 내용을 제공하는 것을 가능하게 하는 것을 목적으로 한다.

도 1은 본 발명에 의한 시스템 구성의 일실시예를 나타내는 블럭도,

도 2a는 본 발명에 의한 방법 구성의 일실시예를 나타내는 흐름도,

도 2b는 표절 관련 데이터를 얻는 방법의 일실시예를 나타내는 흐름도,

도 2c는 레포트 데이터를 분석하는 방법의 일실시예를 나타내는 흐름도,

도 3은 개별 레포트 데이터의 검색 결과의 일예를 나타내는 도면,

도 4는 집단별 레포트 데이터의 검색 결과의 일예를 나타내는 도면이다.

<도면의 주요부분의 부호에 대한 간단한 설명>

10...제1클라이언트, 20...학교 서버,

21...레포트 DB, 30...표절 판단 서버,

31...레포트 분석부, 32...DB 관리부,

33...결과 데이터 생성부, 34...자료 DB,

40...제2클라이언트.

상기한 목적을 달성하기 위하여 본 발명은 인터넷을 통하여 레포트 데이터 전송을 요청받는 제1클라이언트 및 레포트 데이터의 표절성과 관련된 결과 데이터를 전송받는 제2클라이언트가 존재하는 인터넷 기반 문서 비교 시스템에 있어서, 레포트의 주제와 동일 또는 유사 주제에 대해 인터넷상에서 득(得)한 자료, 동일 집단내의 피평가자가 작성한 레포트, 타 집단의 피평가자가 작성한 레포트 및 자체 보유 자료로 이루어진 자료 DB와, 상기 자료 DB와 연동되어 있으며, 상기 제1클라이언트로부터 레포트 데이터를 전송받아 분석하는 레포트 분석부, 분석 결과 추출된 검색어를 이용해 상기 자료 DB로부터 매칭되는 자료를 검색하는 등의 상기 자료 DB와의 각종 작업을 수행하는 DB 관리부, 레포트 데이터와 검색된 자료 데이터를 비교하고 레포트 데이터의 표절성을 판단하여 결과 데이터를 생성하는 결과 데이터 생성부를 구비하여 생성한 결과 데이터를 상기 제2클라이언트에 전송하는 표절 판단 서버를 구비하는 것을 특징으로 한다.

또한, 상기 시스템에 있어서, 상기 제1클라이언트로부터 레포트 데이터를 전송받아 저장하는 레포트 DB와, 상기 레포트 DB와 연동되어 상기 표절 판단 서버로부터 레포트 데이터 전송을 요청받는 학교 서버를 더 구비하며, 상기 학교 서버가 상기 제1클라이언트로부터 레포트 데이터를 전송받으면 상기 표절 판단 서버가 상기 학교 서버로부터 레포트 데이터를 전송받는 것을 다른 특징으로 한다.

또한, 상기 시스템에 있어서, 상기 검색어는 명사 또는 단어(word)인 것을 또 다른 특징으로 한다.

또한, 상기 시스템에 있어서, 상기 결과 데이터는 출처명, 표절 단어수 및 표절율(%) 데이터를 포함하는 것을 또 다른 특징으로 한다.

한편, 인터넷을 통하여 레포트 데이터 전송을 요청받는 제1클라이언트와, 레포트의 주제와 동일 또는 유사 주제에 대한 자료로 이루어진 자료 DB와, 상기 자료 DB와 연동되어 있으며, 상기 제1클라이언트로부터 레포트 데이터를 전송받고 분석하는 레포트 분석부, 검색어를 이용해 상기 자료 DB로부터 매칭되는 자료를 검색하는 등의 상기 자료 DB와의 각종 작업을 수행하는 DB 관리부, 레포트 데이터와 검색된 자료 데이터를 비교하고 레포트 데이터의 표절성을 판단하여 결과 데이터를 생성하는 결과 데이터 생성부를 구비하는 표절 판단 서버와, 상기 표절 판단 서버로부터 레포트 데이터의 표절성과 관련하여 생성한 결과 데이터를 전송받는 제2클라이언트를 구비한 시스템에서의 인터넷 기반 문서 비교 방법에 있어서, 상기 표절 판단 서버가 상기 제1클라이언트로부터 인터넷을 통하여 레포트 데이터를 전송받는 단계와, 상기 표절 판단 서버가 전송받은 레포트 데이터를 이용하여 소정의 작업을 거쳐 표절 관련 데이터를 얻는 단계와, 상기 표절 판단 서버가 상기 제2클라이언트에 표절 관련 데이터인 결과 데이터를 전송하는 단계를 구비하는 것을 다른 특징으로 한다.

또한, 상기 방법에 있어서, 상기 제1클라이언트로부터 레포트 데이터를 전송받아 저장하는 레포트 DB 및 상기 레포트 DB와 연동되어 상기 표절 판단 서버로부터 레포트 데이터 전송을 요청받는 학교 서버를 더 구비한 시스템하에서, 상기 표절 판단 서버가 상기 제1클라이언트로부터 인터넷을 통하여 레포트 데이터를 전송받는 단계는, 상기 제1클라이언트가 인터넷을 통하여 레포트 데이터를 상기 학교 서버에 전송하는 단계와, 상기 표절 판단 서버가 상기 학교 서버로부터 레포트 데이터를 전송받는 단계로 이루어지는 것을 다른 특징으로 한다.

또한, 상기 방법에 있어서, 상기 표절 판단 서버가 전송받은 레포트 데이터를 이용하여 소정의 작업을 거쳐 표절 관련 데이터를 얻는 단계는, 상기 레포트 분석부가 전송받은 레포트 데이터를 분석하는 단계와, 상기 DB 관리부가 분석 결과 추출된 검색어를 이용해 상기 자료 DB로부터 매칭되는 자료 데이터를 검색하는 단계와, 상기 결과 데이터 생성부가 레포트 데이터와 검색된 자료 데이터를 비교하여 레포트 데이터의 표절성과 관련된 결과 데이터를 생성하는 단계로 이루어지는 것을 또 다른 특징으로 한다.

또한, 상기 방법에 있어서, 상기 레포트 분석부가 전송받은 레포트 데이터를 분석하는 단계는, 상기 레포트 분석부가 레포트 데이터를 문장별로 분리하는 단계와, 상기 레포트 분석부가 분리된 문장별로 단어수를 확인하는 단계와, 상기 레포트 분석부가 분리된 문장별로 검색어를 추출하는 단계로 이루어지는 것을 또 다른 특징으로 한다.

또한, 상기 방법에 있어서, 상기 검색어는 명사 또는 단어(word)인 것을 또 다른 특징으로 한다.

또한, 상기 방법에 있어서, 상기 결과 데이터 생성부가 레포트 데이터와 검색된 자료 데이터를 비교하여 레포트 데이터의 표절성과 관련된 결과 데이터를 생성하는 단계에서, 상기 결과 데이터는 출처명, 표절 단어수 및 표절율(%) 데이터를 포함하는 것을 또 다른 특징으로 한다.

이하, 첨부 도면을 참조하여 본 발명에 의한 실시예를 상세하게 설명한다.

도 1은 본 발명에 의한 시스템 구성의 전체적인 블록도로서, 제1클라이언트(10)가 학교 서버(20) 또는 표절 판단 서버(30)측에 작성한 레포트 데이터를 전송하고, 표절 판단 서버(30)측이 레포트 데이터를 미리 구비하고 있는 다른 자료 데이터와 비교 검색하여 생성한 결과 데이터를 제2클라이언트(40)에 전달하도록 하는 것을 가능하게 하는 구성이다.

제1클라이언트(10)는 고등학생 및 대학생 등을 포함하는 피평가자인 레포트 제출자측의 컴퓨터로서, 텍스트 형태의 데이터를 포함하여 작성한 레포트 데이터(이하, 레포트 데이터)를 인터넷을 통하여 전송한다. 이 때, 제1클라이언트(10)는 학교 서버(20) 또는 표절 판단 서버(30)를 택일하여 레포트 데이터를 전송할 수 있다. 한편, 제1클라이언트(10)의 개인정보 즉, 학교명, 대학명, 학과명, 학년, 학번, 이름 데이터 등은 레포트 제출시마다 본문과 함께 작성되어 전송되거나 학교 서버(20) 및 표절 판단 서버(30)에 기(旣) 저장되어 필요할 때마다 불러들여 전송된다.

학교 서버(20)는 레포트 DB(21)와 연동되어 있는 제1클라이언트(10)의 소속 학교의 웹 서버로서, 제1클라이언트(10)가 전송한 레포트 데이터를 수신하여 레포트 DB(21)에 저장하고 또한, 수신한 레포트 데이터를 표절 판단 서버(30)에 전송한다. 표절 판단 서버(30)측으로의 전송은 이벤트가 발생할 때마다 즉, 제1클라이언트(10)가 학교 서버(20)측으로 레포트를 전송할 때마다 이루어질 수도 있고, 일정 기간마다 또는 정해진 기간이 경과하는 즉시 일시에 이루어질 수도 있다. 또한, 표절 판단 서버(30)측의 요청이 있는 경우에 전송하는 것도 가능하다.

표절 판단 서버(30)는 자료 DB(34)와 연동되어 레포트 데이터의 분석된 내용을 기초로 자료 DB(34)에 저장되어 있는 데이터를 검색하여 레포트 데이터의 독창성(originality) 즉, 표절성을 판단하는 수단으로서, 상기 제1클라이언트(10)가 작성한 레포트 데이터를 분석하는 레포트 분석부(31), 검색어를 이용해 자료 DB(34)로부터 매칭되는 자료를 검색하는 등의 자료 DB(34)와 관련된 각종 작업을 수행하는 DB 관리부(32), 레포트 데이터와 검색된 자료 데이터를 비교하여 결과 데이터를 생성하는 결과 데이터 생성부(33)를 구비한다.

상기 레포트 분석부(31)는 레포트 데이터의 표절성을 확인하는 작업을 수행하기 수월하도록 레포트 데이터를 분석하는 수단으로서, 예컨대 레포트 데이터를 문장별로 분리하고, 분리된 문장별로 단어(word, 낱말 개념이 아님. 이하 동일)수를 확인하고, 분리된 문장별로 검색어를 추출한다. 상기 문장은 검색의 단위이고, 상기 단어수는 표절율(%)을 계산하기 위한 값이고, 상기 검색어는 검색시에 이용하기 위한 값으로서, 명사에 한하지 않고 문장의 각 성분 그 자체 즉, 단어도 포함한다.

상기 결과 데이터는 레포트 데이터 중 자료 DB(34)의 데이터 즉, 자료 데이터와 중복되는 부분이 있는 경우 자료 데이터의 저장 위치 즉, 출처명(예컨대, 특정 URL 또는 동일 집단내의 구성원의 이름 등), 표절 단어수 및 표절율(%) 데이터를 포함한다. 상기 표절율(%)은 출처명에 대한 데이터(이하, 표절율1)와 레포트에 대한 데이터(이하, 표절율2) 각각에 대해 얻을 수 있는데, 상기 표절율1(%)은 레포트 데이터의 전체 단어수와 해당 출처명의 전체 표절 단어수의 관계를 통해 구할 수 있고, 상기 표절율2(%)는 레포트 데이터의 전체 단어수와 레포트 데이터의 전체 표절 단어수의 관계를 통해 구할 수 있다. 상세한 설명은 관련된 부분에서 도면과 함께 후술한다.

자료 DB(34)는 인터넷 자료, 동일 집단 레포트, 타 집단 레포트 및 자체 보유 자료로 이루어진다. 상기 인터넷 자료는 사전 및 사후 즉, 제1클라이언트(10)에게 레포트의 주제를 발표하기 전후에 각 레포트의 주제와 동일주제 또는 유사주제에 대해서 인터넷에서 검색해 저장한 자료이고, 상기 동일 집단 레포트 및 타 집단 레포트도 사전 및 사후 즉, 제1클라이언트(10)에게 레포트의 주제를 발표하기 전후에 각 레포트의 주제와 동일주제 또는 유사주제에 대해서 동일집단 및 타 집단으로부터 취해 저장한 자료이고, 상기 자체 보유 자료는 표절 판단 서버(30)측에서 별도로 구비해 축적한 자료이다. 상기 구분은 검색 순서와 관련이 있는 것으로서, 상기한 바와 같은 순서 즉, 인터넷 자료, 동일 집단 레포트, 타 집단 레포트, 자체 보유 자료 순으로 검색이 이루어진다. 그러나, 검색 순서는 상황에 따라 얼마든지 변경 가능하다.

제2클라이언트(40)는 선생님 및 교수님을 포함하는 평가자측의 컴퓨터로서, 상기 표절 판단 서버(30)로부터 레포트 데이터의 독창성 즉, 표절성에 대하여 생성한 결과 데이터를 전송받아 제1클라이언트(10)측의 레포트를 평가하는데 이용한다. 이 경우 평가자는 결과 데이터를 참조하여 표절율(%)이 높은 학생의 레포트를 평가 대상에서 제외할 수 있는 한편, 일률적으로 표절율(%)을 기준으로 해서 평가 대상을 고려하지 않고 중요부분에 대한 표절 여부가 없는지도 확인해서 평가 작업을 수행할 수 있다.

도 2a는 본 발명에 의한 방법의 일실시예를 나타낸 흐름도로서, 이하에서는 도 2a의 흐름도를 참조하여 본 발명에 의한 방법의 실시예를 상세하게 설명한다.

우선, 제1클라이언트(10)가 인터넷을 통하여 표절 판단 서버(30)에 접속하여 텍스트 형태의 데이터를 포함하여 작성한 레포트 데이터(이하, 레포트 데이터)를 전송하고, 표절 판단 서버(30)측은 전송받은 레포트 데이터를 저장한다(S200). 이 때, 제1클라이언트(10)가 학교 서버(20)에 레포트 데이터를 전송하고, 학교 서버(20)측이 전송받은 당해 레포트 데이터를 레포트 DB(21)에 저장함과 동시에 표절 판단 서버(30)측에 전송하는 형태도 무방하다. 한편, 제1클라이언트(10)의 개인정보 즉, 학교명, 대학명, 학과명, 학년, 학번, 이름 데이터 등은 레포트 제출시마다 본문과 함께 작성되어 전송되거나 학교 서버(20) 및 표절 판단 서버(30)에 기(旣) 저장되어 필요할 때마다 불러들여 전송된다.

계속해서, 표절 판단 서버(30)측이 전송받은 레포트 데이터를 이용하여 소정의 작업을 거쳐 표절과 관련된 데이터를 얻는다(S210). 이렇게 소정의 작업을 거쳐 표절 관련 데이터를 얻는 방법의 일예를 도 2b에 나타내었다.

도 2b는 표절 관련 데이터를 얻는 방법의 일실시예를 나타내는 흐름도이다.

우선, 표절 판단 서버(30)측이 전송받은 레포트 데이터를 분석한다(S211). 이 때, 레포트 데이터 분석은 소정의 과정을 거쳐 진행되는데, 도 2c에 관련 과정의 흐름도를 나타내었다.

도 2c는 레포트 데이터를 분석하는 방법의 일실시예를 나타내는 흐름도로서, 도시한 바와 같이, 레포트 데이터 분석은 우선, 레포트 데이터를 문장별로 분리하고(S211-1), 분리된 문장별로 단어수를 확인하고(S211-2), 마지막으로, 분리된 문장별로 검색어를 추출하는(S211-3) 단계를 거쳐 이루어진다. 상기 문장은 검색의 단위이고, 상기 단어수는 표절율(%)을 계산하기 위한 값이고, 상기 검색어는 검색시에 이용하기 위한 값으로서, 명사에 한하지 않고 문장의 각 성분 그 자체 즉, 단어도 포함한다. 예컨대, 다음과 같은 임의의 레포트 데이터는 아래 단계들과 같은 형태로 분석된다.

<레포트 데이터>

주제 : 제품 수명 주기 이론

1. 제품 수명 주기 이론

1) 제품이란?

시장에서 제공되는 물건으로 관심을 끌거나 취득 사용되고 소비되어 욕구를 충족시켜 주는 것이다. 물리적 대상, 서비스, 사람, 장소, 아이디어를 포함하여 제품이라 한다.(이하 생략)

(S211-1 : 문장별로 분리)

A 1 1. 제품 수명 주기 이론

A 2 1) 제품이란?

A 3 시장에서 제공되는 물건으로 관심을 끌거나 취득 사용되고 소비되어 욕구를 충족시켜 주는 것이다.

A 4 물리적 대상, 서비스, 사람, 장소, 아이디어를 포함하여 제품이라 한다.

(S211-2 : 문장별로 단어수 확인)

A 1 4 1.제품 수명 주기 이론

A 2 1 1)제품이란?

A 3 12 시장에서 제공되는 물건으로 관심을 끌거나 취득 사용되고 소비되어 욕구를 충족시켜 주는 것이다.

A 4 9 물리적 대상, 서비스, 사람, 장소, 아이디어를 포함하여 제품이라 한다.

(S211-3 : 문장별로 검색어 추출)

A 1 4 제품, 수명, 주기, 이론

A 2 1 제품

A 3 12 시장, 제공, 물건, 관심, 취득, 사용, 소비, 욕구, 충족

A 4 9 물리, 대상, 서비스, 사람, 장소, 아이디어, 포함, 제품

상기 단계(S211-1)~단계(S211-3)에 나타나는 'A'는 레포트 데이터의 제출자를 식별하기 위한 데이터이고, 그 우측의 숫자는 레포트 데이터내의 문장 번호 데이터이다. 상기 단계(S211-2)~단계(S211-3)의 문장 번호 우측의 숫자는 당해 문장의 단어수이고, 상기 단계(S211-3)의 단어수 우측의 낱말이 검색어이다. 이 때 검색어는 상기한 바와 같은 '제품', '시장' 및 '제공' 등과 같은 명사 형태 뿐만 아니라 '제품이란', '시장에서' 및 '제공되는' 등의 단어 형태로도 추출한다.

이어서, 레포트를 표절한 것인지 확인하기 위해 추출한 검색어를 이용해 자료 DB(34)로부터 레포트 데이터의 소스(source)라고 여겨지는 출처(出處)가 존재하는지 검색한다(S212). 상기 자료 DB(34)는 네 가지 형태의 자료들을 포함한다. 즉, 표절 판단 서버(30)가 인터넷상에서 득(得)한 자료, 제1클라이언트(10)와 동일 집단내 예컨대, 동일학교의 피평가자가 작성한 레포트, 타 집단의 피평가자가 작성한 레포트 및 자체 보유 자료 등 이다. 상기 구분은 검색 순서와 관련이 있는 것으로서, 상기한 순서 즉, 인터넷 자료, 동일 집단 레포트, 타 집단 레포트, 자체 보유 자료 순으로 검색이 이루어진다. 그러나, 검색 순서는 상황에 따라 얼마든지 변경 가능하다.

이 때 검색은 상기 자료 DB(34)와 연계하여 상기한 바와 같이 검색 단위인 문장별로 일련의 방법 및 절차를 거쳐 이루어지는데 아래에서 예를 들어 상세히 설명한다. 상기 단계(S211)의 설시(說示)예의 레포트 데이터 중 세번째 문장을 예로 들면, 우선, 첫번째 검색어 '시장'을 입력값으로 하여 자료 DB(34)로부터 검색을 실행하고 결과값을 얻은 후, 결과내 검색 형태로 하여 동일 문장의 다음 검색어인 '제공'을 입력값으로 하여 검색을 실행하고 이후, 문장의 마지막 검색어인 '충족'에 이르기까지 동일한 형태로 검색을 실행한 후에 한 문장의 검색을 종료한다. 상기한 바와 같이 '시장에서', '제공되는' 및 '물건으로' 등과 같은 검색어를 이용하여 검색할 수 있음은 물론이다. 이 경우에 보다 정확한 비교가 가능함은 물론일 것이다.

이어서, 출처명, 표절 단어수, 표절율(%) 데이터를 포함하는 검색 결과 데이터를 생성한다(S213). 이 때 각 레포트에 대해 문장별로 검색된 데이터를 이용하여 레포트 데이터와 검색된 데이터를 비교하여 레포트별 검색 결과 데이터를 생성하고 또한, 집단의 모든 레포트에 대해 검색이 이루어진 후에 집단별로 검색 결과 데이터를 생성할 수 있다.

도 3은 개별 레포트의 검색 결과에 대한 일예를 나타낸 도면으로서, 레포트 데이터를 이루는 각 문장별 단어수, 표절 단어수 및 출처명에 대한 결과 데이터의 일예를 보여준다. 도 3에서 출처명에 대한 데이터 중 '-'값이 있는 문장(라인)은 표절 데이터가 아닌 독창적인 데이터로 구성되었음을 나타낸다. 레포트 데이터의 모든 문장에 대한 검색이 종료된 경우에는 레포트 데이터의 표절율(%) 데이터를 얻을 수 있다. 상기 표절율(%) 데이터는 도 4에 도시한 바와 같이 두 가지로 나누어진다.

도 4는 집단별 레포트의 검색 결과에 대한 일예를 나타낸 도면으로서, 대학명, 학과명, 학번 및 이름으로 구분되는 각 피평가자의 레포트별 출처명, 표절율1(%), 표절율2(%)에 대한 결과 데이터의 일예를 보여준다. 상기 표절율1(%)은 각 레포트 데이터의 각 출처명별 표절율로서, 레포트 데이터의 총 단어수와 출처명별 전체 표절 단어수의 관계 속에서 얻을 수 있고, 상기 표절율2(%)는 각 레포트 데이터별 표절율로서, 레포트 데이터의 총 단어수와 레포트 데이터의 전체 표절단어수의 관계 속에서 얻을 수 있다. 도 4에서 출처명에 대한 데이터는 개별 레포트의 검색 결과 데이터에서 중복값을 배제하여 유니크(unique)하게 보여주고 있다.

모든 레포트 데이터에 대한 검색이 완료되지 않은 경우에는 단계(S212)로 돌아가 다음 문장(또는 다음 레포트)에 대한 검색을 수행한다.

검색이 완료된 경우에는 마지막으로, 제2클라이언트(40)측으로 표절성과 관련하여 생성된 레포트 데이터의 검색 결과 데이터를 전송한다(S220). 상기 결과 데이터는 전자우편 등을 통해 전송되어질 수 있다. 검색 결과 데이터를 전송받은 제2클라이언트(40)는 표절성에 대한 여부를 별도로 판단해야 하는 부담없이 그 데이터를 참조하여 레포트를 평가할 수 있으므로 레포트 평가 작업을 보다 용이하게 할 수 있다.

이상과 같이 본 발명의 바람직한 실시예를 참조하여 설명하였으나, 본 발명의 범위가 이에 한정되지 않고 필요한 변경을 가하여 실시할 수 있음은 물론이다. 예컨대 상기한 용어들에 있어서, 레포트는 숙제, 과제, 논문 등 평가의 대상이 되는 대부분의 형태를 포함하고, 학교 서버는 표절 판단 서버와 제1클라이언트를 중개하기 위한 구성이라면 여하한 명칭으로 불리워도 본 발명의 범위에 포함된다.

본 발명에 의하면, 인터넷 기반 문서 비교 시스템 및 방법에 있어서, 레포트의 표절성 즉, 표절 부분, 출처명 및 표절율을 자동으로 확인해 줌으로써 레포트 평가자가 레포트를 평가하는 경우에 표절성 여부 판단을 위한 별도의 작업을 해야 하는 부담을 덜 수 있고 또한, 레포트의 표절성에 대한 확인 작업이 용이해짐으로써 표절 레포트의 유포를 예방하는데 기여할 수 있다. 나아가, 피평가자의 성실한 레포트 작성을 유도할 수 있다.

Claims

인터넷을 통하여 레포트 데이터 전송을 요청받는 제1클라이언트 및 레포트 데이터의 표절성과 관련된 결과 데이터를 전송받는 제2클라이언트가 존재하는 인터넷 기반의 문서 비교 시스템에 있어서,

레포트의 주제와 동일 또는 유사 주제에 대해 인터넷상에서 득(得)한 자료, 동일 집단내의 피평가자가 작성한 레포트, 타 집단의 피평가자가 작성한 레포트 및 자체 보유 자료로 이루어진 자료 DB; 및

상기 자료 DB와 연동되어 있으며, 상기 제1클라이언트로부터 레포트 데이터를 전송받아 분석하는 레포트 분석부, 분석 결과 추출된 검색어를 이용해 상기 자료 DB로부터 매칭되는 자료를 검색하는 등의 상기 자료 DB와의 각종 작업을 수행하는 DB 관리부, 레포트 데이터와 검색된 자료 데이터를 비교하고 레포트 데이터의 표절성을 판단하여 결과 데이터를 생성하는 결과 데이터 생성부를 구비하여 생성한 결과 데이터를 상기 제2클라이언트에 전송하는 표절 판단 서버

를 구비하는 것을 특징으로 하는 인터넷 기반 문서 비교 시스템.
제1항에 있어서,

상기 제1클라이언트로부터 레포트 데이터를 전송받아 저장하는 레포트 DB; 및

상기 레포트 DB와 연동되어 상기 표절 판단 서버로부터 레포트 데이터 전송을 요청받는 학교 서버

를 더 구비하며, 상기 학교 서버가 상기 제1클라이언트로부터 레포트 데이터를 전송받으면 상기 표절 판단 서버가 상기 학교 서버로부터 레포트 데이터를 전송받는 것을 특징으로 하는 인터넷상에서의 표절 레포트 판단 시스템.
제1항에 있어서,

상기 검색어는 명사 또는 단어(word)인 것을 특징으로 하는 인터넷 기반 문서 비교 시스템.
제1항에 있어서,

상기 결과 데이터는 출처명, 표절 단어수 및 표절율(%) 데이터를 포함하는 것을 특징으로 하는 인터넷 기반 문서 비교 시스템.
인터넷을 통하여 레포트 데이터 전송을 요청받는 제1클라이언트와, 레포트의 주제와 동일 또는 유사 주제에 대한 자료로 이루어진 자료 DB와, 상기 자료 DB와 연동되어 있으며, 상기 제1클라이언트로부터 레포트 데이터를 전송받고 분석하는 레포트 분석부, 검색어를 이용해 상기 자료 DB로부터 매칭되는 자료를 검색하는 등의 상기 자료 DB와의 각종 작업을 수행하는 DB 관리부, 레포트 데이터와 검색된 자료 데이터를 비교하고 레포트 데이터의 표절성을 판단하여 결과 데이터를 생성하는 결과 데이터 생성부를 구비하는 표절 판단 서버와, 상기 표절 판단 서버로부터 레포트 데이터의 표절성과 관련하여 생성한 결과 데이터를 전송받는 제2클라이언트를 구비한 시스템에서의 문서 비교 방법에 있어서,

상기 표절 판단 서버가 상기 제1클라이언트로부터 인터넷을 통하여 레포트 데이터를 전송받는 단계;

상기 표절 판단 서버가 전송받은 레포트 데이터를 이용하여 소정의 작업을 거쳐 표절 관련 데이터를 얻는 단계; 및

상기 표절 판단 서버가 상기 제2클라이언트에 표절 관련 데이터인 결과 데이터를 전송하는 단계

를 구비하는 것을 특징으로 하는 인터넷 기반 문서 비교 방법.
제5항에 있어서,

상기 제1클라이언트로부터 레포트 데이터를 전송받아 저장하는 레포트 DB 및

상기 레포트 DB와 연동되어 상기 표절 판단 서버로부터 레포트 데이터 전송을 요청받는 학교 서버를 더 구비한 시스템하에서,

상기 표절 판단 서버가 상기 제1클라이언트로부터 인터넷을 통하여 레포트 데이터를 전송받는 단계는,

상기 제1클라이언트가 인터넷을 통하여 레포트 데이터를 상기 학교 서버에 전송하는 단계; 및

상기 표절 판단 서버가 상기 학교 서버로부터 레포트 데이터를 전송받는 단계

로 이루어지는 것을 특징으로 하는 인터넷 기반 문서 비교 방법.
제5항에 있어서,

상기 표절 판단 서버가 전송받은 레포트 데이터를 이용하여 소정의 작업을 거쳐 표절 관련 데이터를 얻는 단계는,

상기 레포트 분석부가 전송받은 레포트 데이터를 분석하는 단계;

상기 DB 관리부가 분석 결과 추출된 검색어를 이용해 상기 자료 DB로부터 매칭되는 자료 데이터를 검색하는 단계; 및

상기 결과 데이터 생성부가 레포트 데이터와 검색된 자료 데이터를 비교하여 레포트 데이터의 표절성과 관련된 결과 데이터를 생성하는 단계

로 이루어지는 것을 특징으로 하는 인터넷 기반의 문서 비교 방법.
제7항에 있어서,

상기 레포트 분석부가 전송받은 레포트 데이터를 분석하는 단계는,

상기 레포트 분석부가 레포트 데이터를 문장별로 분리하는 단계;

상기 레포트 분석부가 분리된 문장별로 단어수를 확인하는 단계; 및

상기 레포트 분석부가 분리된 문장별로 검색어를 추출하는 단계

로 이루어지는 것을 특징으로 하는 인터넷 기반 문서 비교 방법.
제7항 또는 제8항에 있어서,

상기 검색어는 명사 또는 단어(word)인 것을 특징으로 하는 인터넷 기반 문서 비교 방법.
제7항에 있어서,

상기 결과 데이터 생성부가 레포트 데이터와 검색된 자료 데이터를 비교하여 레포트 데이터의 표절성과 관련된 결과 데이터를 생성하는 단계에서,

상기 결과 데이터는 출처명, 표절 단어수 및 표절율(%) 데이터를 포함하는 것을 특징으로 하는 인터넷 기반 문서 비교 방법.