KR101977206B1

KR101977206B1 - 유사어 보정 시스템 및 방법

Info

Publication number: KR101977206B1
Application number: KR1020170061079A
Authority: KR
Inventors: 최보람
Original assignee: 주식회사 한글과컴퓨터
Priority date: 2017-05-17
Filing date: 2017-05-17
Publication date: 2019-06-18
Also published as: KR20180126262A

Abstract

본 발명은 문서 또는 복수 단어를 포함하는 문장 내에서 사용된 단어, 구문에 대한 빈도를 산출하고, 이 빈도에 따른 유사 단어 사용여부를 판별하여 단어 또는 구문의 오사용을 판별하고, 판별결과에 따라 보정을 수행하거나, 사용자에게 정보를 제공하도록 한 유사어 보정 시스템 및 보정 방법에 관한 것이다.
본 발명에 따른 유사어 보정 시스템은 전자문서가 출력되는 출력부; 상기 전자문서에 포함된 텍스트를 추출하여 유사 유닛 쌍을 검출하고, 유사 유닛 쌍 중 상대적으로 출현빈도가 적은 유닛을 오탈자로 판단하며, 상기 오탈자로 판단된 유닛을 교정하거나, 표시하여 출력하는 판단부를 포함하여 구성되는 것을 특징으로 한다.

Description

유사어 보정 시스템 및 방법{ASSONANTIC TERMS CORRECTION SYSTEM}

본 발명은 유사어 보정 시스템 및 방법에 관한 것으로 특히, 문서 또는 복수 단어를 포함하는 문장 내에서 사용된 단어, 구문에 대한 빈도를 산출하고, 이 빈도에 따른 유사 단어 사용 여부를 판별하여 단어 또는 구문의 오사용을 판별하고, 판별결과에 따라 보정을 수행하거나, 사용자에게 정보를 제공하도록 한 유사어 보정 시스템 및 보정 방법에 관한 것이다.

문자, 웹페이지, 메신저, 문서작성기와 같이 다양한 종류의 텍스트 입력 및 게시를 위한 프로그램, 장치들이 이용되고 있으며, 음성 못지않게 사용자 상호 간의 소통이 텍스트를 통해 이루어지고 있다.

이러한 텍스트 입력시 키 입력의 실수와 함께 맞춤법 오해, 유사 단어의 이용으로 인한 문법적 오류, 오타가 자주 발생하며, 이러한 오탈자, 틀린 맞춤법, 유사단어는 쉽게 확인되지 않고 그대로 이용되는 경우가 많다. 특히, 글을 작성한 사용자가 반복적으로 글을 확인하는 경우에도 사람의 인지 능력으로 인해 잘못된 글자를 찾아내는 것이 쉽지 않다.

이러한 불편을 해소하기 위해 기존의 장치 또는 프로그램에서는 맞춤법 규칙, 표준어와 관련된 데이터베이스를 유지하고, 데이터베이스에 저장된 데이터를 근거로 작성된 텍스트를 분석하여 오탈자, 문법적 오류를 검증하여 표시하거나, 자동으로 정정하는 서비스를 제공하고 있다.

이러한 서비스나 장치는 오탈자, 잘못된 조사와 같이 오입력된 글자의 검출을 자동으로 하여 표시하거나 정정함으로써 사용자의 편의성을 높이고는 있으나, 형태적인 오류의 검출만이 가능한 한계가 있다.

구체적으로 맞춤법에 맞는 단어이나, 잘못된 단어를 선택하는 경우에 대한 검출이나, 교정이 불가능한 한계가 있다.

한국공개특허 10-2005-0026732(공개일 2005. 03. 16.)

따라서, 본 발명의 목적은 문서 또는 복수 단어를 포함하는 문장 내에서 사용된 단어, 구문에 대한 빈도를 산출하고, 이 빈도에 따른 유사 단어 사용 여부를 판별하여 단어 또는 구문의 오사용을 판별하고, 판별결과에 따라 보정을 수행하거나, 사용자에게 정보를 제공하도록 한 유사어 보정 시스템 및 보정 방법을 제공하는 것이다.

상기 목적을 달성하기 위한 본 발명에 따른 유사어 보정 시스템은 전자문서가 출력되는 출력부; 상기 전자문서에 포함된 텍스트를 추출하여 유사 유닛 쌍을 검출하고, 유사 유닛 쌍 중 상대적으로 출현빈도가 적은 유닛을 오탈자로 판단하며, 상기 오탈자로 판단된 유닛을 교정하거나, 표시하여 출력하는 판단부를 포함하여 구성되는 것을 특징으로 한다.

상기 유닛은 구문, 단어, 어절, 낱글자 및 어조사 중 어느 하나의 단위로 구분되는 것을 특징으로 한다.

상기 판단부는 상기 전자문서에서 미리 정해진 상기 단위로 복수의 상기 유닛을 추출하는 유닛 검출부; 상기 유닛 검출부에서 추출된 상기 유닛 각각에 대해 출현빈도 통계를 포함하는 빈도데이터를 작성하는 통계작성부; 및 상기 통계작성부에 의해 작성된 빈도데이터를 이용하여 상기 유닛 간의 유사여부를 판별하고, 유사한 유닛의 출현빈도를 확인하여 오탈자의 여부를 결정하는 오타 판단부;를 포함하여 구성되는 것을 특징으로 한다.

상기 오타 판단부는 미리 설정되는 유사판단 기준값 이상의 일치율을 가지는 유닛을 유사 유닛으로 판단하는 것을 특징으로 한다.

미리 설정되는 빈도 기준값에 의해 구분되는 상위 출현빈도의 유닛과 유사한 것으로 판단된 하위 출현빈도의 유닛을 오탈자로 판단하는 것을 특징으로 한다.

또한, 본 발명에 따른 유사어 보정 방법은 상기 오타 판단부는 전자문서가 출력부를 통해 출력되는 출력단계; 판단부가 상기 전자문서에 포함된 텍스트를 추출하는 유닛 추출단계; 상기 판단부가 추출된 유닛 중 유사한 유닛 쌍을 검출하는 유닛 쌍 검출단계; 상기 판단부가 유사한 상기 유닛 쌍 중 상대적으로 출현빈도가 적은 유닛을 오탈자로 판단하는 오탈자 판단단계; 및 상기 판단부가 상기 오탈자로 판단된 상기 유닛을 교정하거나, 표시하여 출력하는 교정단계;를 포함하여 구성되는 것을 특징으로 한다.

상기 유닛 추출단계 내지 상기 오탈자 판단단계는 유닛 검출부가 상기 전자문서에서 미리 정해진 상기 단위로 복수의 상기 유닛을 추출하는 단계; 추출된 상기 유닛 각각에 대해 통계작성부가 출현빈도 통계를 포함하는 빈도데이터를 작성하는 단계; 오탈자 판단부가 상기 통계작성부에 의해 작성된 빈도데이터를 이용하여 상기 유닛 간의 유사여부를 판별하고, 유사한 상기 유닛의 출현빈도를 확인하여 오탈자여부를 결정하는 단계를 포함하여 구성되는 것을 특징으로 한다.

상기 결정하는 단계는 상기 오타판단부가 미리 설정되는 유사 판단 기준값 이상의 일치율을 가지는 유닛을 유사 유닛으로 판단하는 것을 특징으로 한다.

상기 결정하는 단계는 상기 오타판단부가 미리 설정되는 빈도 기준값에 의해 구분되는 상위 출현빈도의 유닛과 유사한 것으로 판단된 하위 출현빈도의 유닛을 오탈자로 판단하는 것을 특징으로 한다.

본 발명에 따른 유사어 보정 시스템 및 보정 방법은 문서 또는 복수 단어를 포함하는 문장 내에서 사용된 단어, 구문에 대한 빈도를 산출하고, 이 빈도에 따른 유사 단어 사용 여부를 판별하여 단어 또는 구문의 오사용을 판별하고, 판별결과에 따라 보정을 수행하거나, 사용자에게 정보를 제공함으로써, 단순 오탈자 외에 잘못 사용된 단어 구문을 검출하는 것이 가능해진다.

도 1은 본 발명에 따른 유사어 보정 시스템의 구성을 도시한 구성 예시도.
도 2는 본 발명에 따른 오타 판단 방법을 설명하기 위한 예시도.
도 3은 도 2의 전자문서에 대한 출현빈도 통계 작성의 예를 나타낸 예시도.
도 4는 본 발명에 따른 유사어 교정 방법을 설명하기 위한 예시도.

이하, 본 발명의 바람직한 실시예를 첨부한 도면을 참조하여 당해 분야의 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 설명하기로 한다. 첨부된 도면들에서 구성에 표기된 도면번호는 다른 도면에서도 동일한 구성을 표기할 때에 가능한 한 동일한 도면번호를 사용하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어서 관련된 공지의 기능 또는 공지의 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고 도면에 제시된 어떤 특징들은 설명의 용이함을 위해 확대 또는 축소 또는 단순화된 것이고, 도면 및 그 구성요소들이 반드시 적절한 비율로 도시되어 있지는 않다. 그러나 당업자라면 이러한 상세 사항들을 쉽게 이해할 것이다.

도 1은 본 발명에 따른 유사어 보정 시스템의 구성을 도시한 구성 예시도이다.

도 1을 참조하면, 본 발명에 따른 유사어 보정 시스템은 유닛 검출부(10), 통계작성부(20), 오타 판단부(30), 저장부(40) 및 출력부(50)를 포함하여 구성된다.

유닛 검출부(10)는 처리부(60)를 통해 실행되는 전자문서에 포함된 단어 또는 구문을 구분하여 통계작성부에 전달한다. 이 유닛 검출부(10)는 미리 정해진 구분 단위 예를 들어, 단어, 구문과 같이 의미를 가지는 단위 외에도 어절, 낱글자, 조사와 같이 오탈자를 판단하기 위한 유닛 단위로 구분하고 이를 통계작성부(10)에 전달하는 역할을 한다. 예를 들어 "현재 위치는 강남구 삼성동이고, 이적 위치는 강남구 대치동입니다."와 같은 문장이 있는 경우, 유닛 단위가 단어로 구분되는 경우, "현재", "위치"와 같이 문장에 포함된 단어 즉 유닛을 추출하고 이를 통계 작성부(20)에 전달하게 된다. 여기서 유닛 검출부(10)는 전자문서의 시작부터 끝까지 전 문장에 대해 유닛을 검출할 수도 있고, 페이지와 같이 일정한 단위별로 유닛 검출을 수행할 수 있으며, 제시된 바에 의해서 본 발명을 한정하는 것은 아니다.

통계작성부(20)는 유닛 검출부(10)에 의해 전달된 유닛 단위로 출연빈도를 산출한다. 구체적으로 통계작성부(20)는 유닛 검출부(10)에서 전달되는 유닛 단위로 분류하고, 각 유닛이 미리 정해진 구간 또는 문서 전체에 걸쳐 몇 번 나왔는지를 정리하여, 이를 룩업 테이블과 같은 데이터형태로 생성한다. 그리고 통계작성부(20)는 룩업 테이블 형태로 생성된 데이터를 저장부(40)에 저장하거나 오타 판단부(30)에 전달한다.

오타 판단부(30)는 통계작성부(20)에 의해 작성된 출현빈도를 이용하여 오타판단을 수행한다. 즉, 오타 판단부(30)는 자주 출현한 유닛과 유사한 유닛을 출현빈도 데이터를 통해 확인하고, 출현빈도가 높은 유닛과 유사하면서 매우 낮은 출현빈도를 가지는 유닛이 확인되는 경우 이를 오타로 판단하게 된다. 예를 들어, "주소지 이전"에 관한 설명을 하는 전자문서에서 "이적"이라는 단어가 확인되면 이를 출현빈도에 따라 확인하고 오타판단부(30)가 오타로 판단하게 된다. 오타 판단부(30)는 출현빈도의 높고 낮음을 확인하기 위한 상위 기준값과 하위기준값을 이용하여 상위 기준값 이상의 출현빈도의 유닛에 대해 하위기준값 이하의 유닛을 비교할 수 있으며, 이러한 상위 및 하위 기준값은 미리 정해질 수 있다. 여기서, 상위 기준값 또는 하위 기준값 중 어느 하나만 지정되고 다른 기준값은 정해지지 않은채로 유닛 간의 비교가 이루어질 수 있으며, 제시된 바에 의해서만 본 발명을 한정하는 것은 아니다. 아울러, 오타 판단부(30)는 오타가 확인되는 경우 오타에 관한 정보를 출력부(50)를 통해 출력하거나, 사용자가 오타를 확인할 수 있도록 유닛을 표시하고, 표시된 정보를 사용자가 확인할 수 있도록 출력하게 된다. 한편, 오타 판단부(30)가 유사어 여부를 판단할 수 있도록 유사도 기준값이 출현빈도 기준값과 별도로 설정될 수 있다. 오타판단부는 유사도 기준값에 정해지는 값 이상의 유사도 즉, 일치율을 나타내는 유닛을 상호 유사한 것으로 판단하고, 전술한 출현빈도를 유사한 유닛에 적용하여 오탈자를 판단하게 된다.

저장부(40)는 통계작성부(20)에 의해 작성된 출현 빈도 통계가 저장되며, 오타 판단부(30)의 판단을 위한 기준값이 저장된다.

출력부(50)는 전자문서를 출력하여 제공하며, 오타 판단부(30)에 의해 오타에 관한 정보가 출력되거나, 오타를 확인할 수 있도록 표시된 유닛을 출력한다.

도 2는 본 발명에 따른 오타 판단 방법을 설명하기 위한 예시도이고, 도 3은 도 2의 전자문서에 대한 출현빈도 통계 작성의 예를 나타낸 예시도이다.

도 2 및 도 3을 참조하면, 전술한 바와 같이 본 발명에 따른 유사어 보정 시스템은 기본의 맞춤법 검사에서 확인되지 않은 표준어가 잘못 사용된 경우의 오타 즉, 유사어가 사용된 경우를 검출하여 오타를 검출하고 이를 보정함으로써 잘못된 단어, 구문을 정정할 수 있게 하는 역할을 한다.

이를 위해 본 발명의 유사어 보정 시스템 및 방법은 문서 전반에 걸쳐 특정 유닛의 출현빈도를 확인하고, 출현빈도가 높은 유닛과 낮은 유닛을 비교함으로써 오타 가능성을 확인하여 보정을 하게 된다.

구체적으로 도 2에서와 같이 구청 이전 계획이라는 전자문서를 작성하면, 유닛 검출부(10)는 전자문서에 포함된, 구문, 단어, 어절, 낱글자와 같이 미리 정해진 단위로 유닛을 검출하고, 이를 통계작성부(20)에 전달하게 된다.

통계 작성부(20)는 유닛 검출부(10)에 검출된 유닛을 분류하여 출현빈도를 정리하고 이를 데이터로 작성한다. 이러한 데이터의 형태는 도 3에 도시된 것과 같은 룩업테이블의 형태일 수 있으나, 이로써 본 발명은 한정하는 것은 아니다.

통계 작성부(20)에 의해 유닛을 출현빈도 데이터가 작성되면, 오타 판단부(30)는 미리 정해진 기준값을 이용하여 오타로 판단되는 유사어 즉, 유사한 유닛을 검출하게 된다.

일례로 도 3에 도시된 바와 같이 "이전"과 "이적"이 함께 나타나는 경우 실제로 오타일 가능성이 매우 높으며, 오타 판단부(30)는 이를 확인하여 해당 유닛을 정정하거, 사용자가 확인이 용이하도록 표시하여 출력하게 된다.

좀 더 구체적으로 도 2에 도시된 바와 같이 "구청 이전 계획"이라는 전자 문서가 사용자에 의해 작성되거나 확인되는 경우 문서 내용에는 당연히 "이전"이라는 단어형태의 유닛이 노출빈도가 높아지게 된다. 이때, "이적" 또는 "이점"과 같이 맞춤법에 적합한 단어가 사용되는 경우 기존의 맞춤법 검사 방법에 의해서는 이를 검출할 수 없게 된다.

그러나, 본 발명에서는 "이점", "이적"이라는 단어가 검출되는 이의 사용빈도를 확인하고, 이와 유사하면서 자주 사용된 단어가 있는지 확인하게 된다.

이때, 도 3에서와 같이 자주 사용된 단어인 "이전"이 확인되고, "이전"과 "이점" 또는 "이적"과의 빈도수를 확인하게 된다. 즉, 오타인 경우 "이점"과 "이적"은 출현빈도가 수회 미만으로 확인될 수 있으며, 이때 오타 판단부(30)는 "이점"과 "이적"과 같이 자주 사용된 단어와 유사하면서 출현빈도가 낮은 유닛을 오타로 판단하게 된다. 그리고 전술한 바와 같이 오타로 확인된 유닛에 대해 표시를 하여 출력부(50)를 통해 출력하거나, 보정을 수행하여 문서를 교정함으로써 맞춤법 검사에 의해 확인되지 않는 오탈자를 확인하여 교정하는 것이 가능해진다.

도 4는 본 발명에 따른 유사어 교정 방법을 설명하기 위한 예시도이다.

도 4를 참조하면 본 발명에 따른 유사어 교정 방법은 출력단계(S10), 유닛 추출단계(S20), 유닛 쌍 검출단계(S30), 오탈자 판단단계(S40) 및 교정단계(S50)을 포함하여 구성된다.

출력단계(S10)는 전자문서가 출력부(50)를 통해 출력되는 단계이다. 이 출력단계(S10)에서는 사용자에 의해 작성되거나 사용자가 확인하고자 하는 전자문서가 출력되는 단계이다. 이 전자문서는 복수의 텍스트를 포함하여 구성된다.

유닛 추출 단계(S20)는 전술한 바와 같이 유닛검출부(10)가 전자문서에서 미리 정해진 단위로 유닛을 추출하고 이를 통계작성부(20)에 전달하는 단계이다. 이 유닛 추출 단계(S20)에서 추출되는 단계는 단어 또는 구문과 같이 의미를 가지는 최소 단위로 구성될 수 있으나, 이외에도 낱글자, 어절, 어조사와 같이 형태적인 단위로 구분되어 추출될 수도 있으며, 추출되는 유닛의 단위는 미리 정해진게 된다. 그리고, 이와 같이 추출된 유닛은 통계작성부(20)에 의해 수집되어, 유닛별로 출현빈도가 산출되게 된다.

유닛 쌍 검출 단계(S30)는 오타판단부(30)가 미리 정해진 유사도 기준값을 이용하여 통게작성부(20)에 의해 작성된 출현빈도 중 빈도 기준값 상위의 유닛과 유사한 하위 유닛을 비교하여 검출하는 단계이다. 오타판단부(30)는 출현빈도 데이터가 산출되면, 출현빈도가 높은 유닛과 비슷한 유닛이 있는지 검색하게 되며, 이때 출현빈도가 낮은 유닛을 먼저 비교하여 유닛 쌍을 검출하게 된다. 이때, 미리 설정된 유사도 기준값을 이용하여, 이 유사도 기준값 이상의 일치율을 나타내는 유닛을 유사 유닛으로 판별하게 된다. 즉, 이와 같은 높은 출현빈도와 낮은 출현빈도의 유닛을 비교함으로써 모든 유닛을 비교하지 않고도 빠른 속도로 유사 유닛 특히, 잘못 쓰여진 것으로 판단되는 유닛을 검출할 수 있게 된다.

오탈자 판단단계(S40)는 오타판단부(30)가 유사한 유닛의 출현빈도를 확인하여 유사 유닛 중 어느 하나를 오탈자로 판단하는 단계이다. 즉, 오타판단부(30)는 상위 기준값 이상의 출현빈도로 분류되는 유닛과 유사한 것으로 판단된 유닛 중 하위 기준값 이상의 출현빈도로 분류되는 유닛을 오타로 판단하게 된다.

교정단계(S50)는 오타판단부(30)가 오탈자로 판단한 유닛을 전자문서 상에 확인이 용이하게 표시하거나, 자동으로 교정하는 단계이다. 여기서, 오탈자로 판단된 유닛의 표시는 색, 크기, 형태, 배경색과 같은 요소를 변경하여 표시함으로써 사용자가 확인이 용이하도록 변형할 수 있으나, 이로써 본 발명을 한정하는 것은 아니며, 리스트로 정리하거나, 별도의 창을 통해 확인을 요청할 수도 있다.

이상에서 본 발명의 기술적 사상을 예시하기 위해 구체적인 실시 예로 도시하고 설명하였으나, 본 발명은 상기와 같이 구체적인 실시 예와 동일한 구성 및 작용에만 국한되지 않고, 여러 가지 변형이 본 발명의 범위를 벗어나지 않는 한도 내에서 실시될 수 있다. 따라서, 그와 같은 변형도 본 발명의 범위에 속하는 것으로 간주해야 하며, 본 발명의 범위는 후술하는 특허청구범위에 의해 결정되어야 한다.

10 : 유닛 검출부
20 : 통계 작성부
30 : 오타 판단부
40 : 저장부
50 : 출력부

Claims

전자문서가 출력되는 출력부;
상기 전자문서에 포함된 텍스트를 추출하여 유사 유닛 쌍을 검출하고, 유사 유닛 쌍 중 상대적으로 출현빈도가 적은 유닛을 오탈자로 판단하며, 상기 오탈자로 판단된 유닛을 교정하거나, 표시하여 출력하는 판단부를 포함하고,
상기 판단부는,
상기 전자문서에서 미리 정해진 단위로 복수의 상기 유닛을 추출하는 유닛 검출부;
상기 유닛 검출부에서 추출된 상기 유닛 각각에 대해 출현빈도 통계를 포함하는 빈도데이터를 작성하는 통계작성부; 및
상기 통계작성부에 의해 작성된 빈도데이터를 이용하여 형태적인 오류가 있는 유사 유닛 쌍 및 형태적인 오류가 없어 맞춤법에 적합한 유사 유닛 쌍에 대해서 오탈자의 여부를 판단하는 오타 판단부를 포함하고,
상기 유닛은 구문, 단어, 어절, 낱글자 및 어조사 중 어느 하나의 단위로 구분되는 유사어 보정 시스템.
삭제
삭제
제 1 항에 있어서,
상기 오타 판단부는
미리 설정되는 유사판단 기준값 이상의 일치율을 가지는 유닛을 유사 유닛으로 판단하는 것을 특징으로 하는 유사어 보정 시스템.
제 1 항에 있어서,
상기 오타 판단부는 미리 설정되는 빈도 기준값에 의해 구분되는 상위 출현빈도의 유닛과 유사한 것으로 판단된 하위 출현빈도의 유닛을 오탈자로 판단하는 것을 특징으로 하는 유사어 보정 시스템.
전자문서가 출력부를 통해 출력되는 출력단계;
판단부가 상기 전자문서에 포함된 텍스트를 추출하는 유닛 추출단계;
상기 판단부가 추출된 유닛 중 유사한 유닛 쌍을 검출하는 유닛 쌍 검출단계;
상기 판단부가 유사한 상기 유닛 쌍 중 상대적으로 출현빈도가 적은 유닛을 오탈자로 판단하는 오탈자 판단단계; 및
상기 판단부가 상기 오탈자로 판단된 상기 유닛을 교정하거나, 표시하여 출력하는 교정단계를 포함하되,
상기 유닛 추출단계는,
상기 전자문서에서 미리 정해진 단위로 복수의 상기 유닛을 추출하고,
상기 유닛 쌍 검출단계는,
상기 추출된 유닛 각각에 대하여 작성된 출현빈도 통계를 포함하는 빈도데이터를 기초로 상기 유닛 간의 유사 여부를 판단하여 유사한 상기 유닛 쌍을 검출하고,
상기 오탈자 판단단계는,
상기 유사한 유닛의 출현빈도를 확인하여 형태적인 오류가 있는 유사 유닛 쌍 및 형태적인 오류가 없어 맞춤법에 적합한 유사 유닛 쌍에 대해서 오탈자의 여부를 판단하고,
상기 유닛은 구문, 단어, 어절, 낱글자 및 어조사 중 어느 하나의 단위로 구분되는 유사어 보정 방법.
삭제
삭제
제 6 항에 있어서,
상기 유닛 쌍 검출단계는,
미리 설정되는 유사판단 기준값 이상의 일치율을 가지는 유닛을 유사 유닛으로 판단하는 유사어 보정 방법.
제 6 항에 있어서,
상기 오탈자 판단단계는,
미리 설정되는 빈도 기준값에 의해 구분되는 상위 출현빈도의 유닛과 유사한 것으로 판단된 하위 출현빈도의 유닛을 오탈자로 판단하는 유사어 보정 방법.