KR101668725B1

KR101668725B1 - 잠재 키워드 생성 방법 및 장치

Info

Publication number: KR101668725B1
Application number: KR1020150037571A
Authority: KR
Inventors: 조태민; 이지형; 김누리; 오성탁; 이재동; 이혜우
Original assignee: 성균관대학교산학협력단
Priority date: 2015-03-18
Filing date: 2015-03-18
Publication date: 2016-10-24
Also published as: US11132389B2; US20160275083A1; KR20160112248A

Abstract

본 발명은 대상 문서에서 키워드를 생성하는 방법을 개시하고 있다. 상기 방법은, 상기 대상 문서에서 단일 주요 단어를 추출하는 단계, 상기 주요 단어 간의 결합을 통해 후보 키워드를 생성하는 단계 상기 후보 키워드에 속하는 제 1 단어 및 제 2 단어 간의 응집력을 산출하는 단계, 이웃 문서에서 상기 제 1 단어와 상기 제 2 단어가 동시에 나타나는 단어의 주변을 하나의 문맥으로 보고 상기 대상 문서를 다른 하나의 문맥으로 보아, 두 문맥의 유사도를 기반으로 상기 제 1 단어 및 상기 제 2 단어의 문맥 평가 점수를 산출하는 단계 및 상기 응집력 및 상기 문맥 평가 점수를 기반으로 최종 키워드를 선별하는 단계를 포함한다.

Description

잠재 키워드 생성 방법 및 장치{LATENT KEYPARASE GENERATION METHOD AND APPARATUS}

본 발명의 키워드 생성 방법 및 장치에 관한 것으로, 보다 상세하게는, 주어진 문서에서 키워드를 선별함에 있어서, 문서에 직접 나타나지 않는 잠재 키워드를 생성하기 위한 방법 및 장치에 관한 것이다.

종래 키워드를 선별하는 시스템은 크게 3단계로 이루어져있다. 먼저, 문서에서 후보 키워드를 추출하고, 각 후보 키워드의 점수를 산출한 후, 점수가 높은 후보 키워드를 최종적인 문서의 키워드를 선별하는 것이다. 하지만 이 방법은 후보 키워드를 추출할 때 문서에서 직접적으로 나타나는 구문만 후보 키워드로 선택하여, 문서에서 나타나지 않는 잠재 키워드를 선별하지 못하는 문제점이 존재한다.

위와 같은 방법 외에도 문서에서 후보 키워드를 추출하고, 각 후보 키워드의 속성 값을 산출한 후, 기계학습 기법을 적용해 최종적인 키워드를 선택하는 방법이 있지만, 이 방법 또한 문서에서 나타나는 구문만 후보 키워드로 지정하는 문제점이 존재한다.

상술한 문제점을 해결하기 위한 본 발명의 목적은 문서에서 나타나지 않은 구문을 후보 키워드로 생성하고, 생성된 후보 키워드의 점수를 산출해 주어진 문서의 최종적인 잠재 키워드를 선별하는 잠재 키워드 생성 방법 및 장치를 제공하는 것이다.

상기한 목적을 달성하기 위한 본 발명의 대상 문서에서 키워드를 생성하는 방법에 있어서, 상기 대상 문서에서 단일 주요 단어를 추출하는 단계, 상기 주요 단어 간의 결합을 통해 후보 키워드를 생성하는 단계 상기 후보 키워드에 속하는 제 1 단어 및 제 2 단어 간의 응집력을 산출하는 단계, 이웃 문서에서 상기 제 1 단어와 상기 제 2 단어가 동시에 나타나는 단어의 주변을 하나의 문맥으로 보고 상기 대상 문서를 다른 하나의 문맥으로 보아, 두 문맥의 유사도를 기반으로 상기 제 1 단어 및 상기 제 2 단어의 문맥 평가 점수를 산출하는 단계 및 상기 응집력 및 상기 문맥 평가 점수를 기반으로 최종 키워드를 선별하는 단계를 포함할 수 있다.

상기 응집력은 상기 제 1 단어 및 상기 제 2 단어가 미리 설정된 윈도우 범위 내에 나타나는 횟수를 기반으로 산출될 수 있다.

상기 응집력은 상기 제 1 단어 및 상기 제 2 단어의 거리가 가까울수로 높은 응집력을 갖도록 산출될 수 있다.

상기 응집력은 상기 대상 문서뿐만 아니라 이웃 문서에서의 응집력도 함께 이용하여 산출될 수 있다.

상기 이웃 문서에서의 응집력은 상기 대상 문서와 상기 이웃 문서의 유사도가 높을수록 가중치를 높게 하여 산출될 수 있다.

상기 문맥 평가 점수는 상기 두 문맥의 단어를 벡터 형태로 나타낸 수치와 전체 문서 집합에서 각 단어의 동시 출현 점수를 곱하여 산출될 수 있다.

상기 문맥의 단어를 벡터 형태로 나타낸 수치로 변환함에 있어서, bag-of-words 모델을 이용할 수 있다.

상기 최종 후보 키워드 점수는 상기 응집력 및 상기 문맥 평가 점수를 각각 정규화한 후, 가중치를 두어 합산하여 산출될 수 있다.

상기 이웃 문서는 상기 대상 문서와의 유사도를 기반으로 산출되는 상위 n개(n은 임의의 자연수)의 문서일 수 있다.

상기한 목적을 달성하기 위한 본 발명의 대상 문서에서 키워드를 생성하는 장치는, 상기 대상 문서에서 단일 주요 단어를 추출하는 주요 단어 추출부, 상기 주요 단어 간의 결합을 통해 후보 키워드를 생성하는 후보 키워드 생성부, 상기 후보 키워드에 속하는 개별 단어 중 제 1 단어 및 제 2 단어 간의 응집력 점수를 산출하는 응집력 점수 산출부, 이웃 문서에서 상기 제 1 단어와 상기 제 2 단어가 동시에 나타나는 단어의 주변을 하나의 문맥으로 보고 상기 대상 문서를 다른 하나의 문맥으로 보아, 두 문맥의 유사도를 기반으로 상기 제 1 단어 및 상기 제 2 단어의 문맥 평가 점수를 산출하는 문맥 평가 점수 산출부 및 상기 응집력 및 상기 문맥 평가 점수를 기반으로 최종 키워드를 선별하는 최종 키워드 선별부를 포함할 수 있다.

상기한 목적을 달성하기 위한 본 발명의 대상 문서에서 키워드를 생성하는 시스템은, 복수의 전자 문서를 저장하고 있는 웹 데이터베이스 및 상기 웹 데이터베이스 상의 상기 대상 문서에서 단일 주요 단어를 추출하고, 상기 주요 단어 간의 결합을 통해 후보 키워드를 생성하며, 상기 후보 키워드에 속하는 제 1 단어 및 제 2 단어 간의 응집력을 산출하고, 상기 대상 문서의 이웃 문서에서 상기 제 1 단어와 상기 제 2 단어가 동시에 나타나는 단어의 주변을 하나의 문맥으로 보고 상기 대상 문서를 다른 하나의 문맥으로 보아, 두 문맥의 유사도를 기반으로 상기 제 1 단어 및 상기 제 2 단어의 문맥 평가 점수를 산출하며, 상기 응집력 및 상기 문맥 평가 점수를 기반으로 최종 키워드를 선별하는 키워드 생성 장치를 포함할 수 있다.

본 발명의 잠재 키워드 생성 방법 및 장치에 따르면, 문서에서 나타나지 않는 잠재 키워드를 선별할 수 있고, 이는 종래 키워드 선별 방법이 문서에 나타나는 키워드만 선별하는 것을 극복한 것이고, 이를 통해 보다 넓은 범위의 키워드를 선별하는 것을 가능케 하는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 잠재 키워드 생성 시스템을 나타낸 도면,
도 2는 본 발명의 일 실시예에 따른 잠재 키워드 생성 장치를 개략적으로 나타낸 블록도,
도 3은 본 발명의 일 실시예에 따른 잠재 키워드 생성 장치의 잠재 키워드 분포의 경우의 수를 설명하기 위한 도면,
도 4는 본 발명의 일 실시예에 따른 잠재 키워드 생성 장치의 응집력 점수 산출부의 동작을 나타낸 흐름도,
도 5는 본 발명의 일 실시예에 따른 잠재 키워드 생성 장치의 문맥 평가 점수 산출부의 동작을 나타낸 흐름도,
도 6은 본 발명의 일 실시예에 따른 잠재 키워드 생성 장치의 성능 평가를 위한 그래프,
도 7은 본 발명의 일 실시예에 따른 잠재 키워드 생성 장치의 성능 평가를 나타낸 표이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제 1, 제 2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 일 실시예에 따른 잠재 키워드 생성 시스템을 나타낸 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 잠재 키워드 생성 시스템은 웹 데이터베이스(100), 키워드 생성 장치(110) 및 네트워크(120)를 포함할 수 있다.

도 1을 참조하면, 웹 데이터베이스(100)는 복수 개의 전자문서를 저장하고 있는 데이터베이스이다. 이는 키워드 생성 장치(110)로 네트워크(120)를 통해 전자문서를 전송할 수 있다. 웹 데이터베이스(100)가 키워드 생성 장치(110)로 전송하는 전자 문서는 대상 문서 및 이웃 문서를 포함할 수 있다. 대상 문서는 키워드 생성 장치(110)의 잠재키워드 생성 대상이 되는 문서이고, 이웃 문서는 대상 문서대상 문서의 키워드를 평가함에 있어서 부족한 정보를 참조하기 위한 문서이다.

키워드 생성 장치(110)는 웹 데이터베이스(100)로부터 수신하는 전자문서를 기반으로 잠재 키워드를 생성할 수 있다. 다만, 본 발명의 실시예에 따르면, 키워드 생성 장치(110)는 자신이 가지고 있는 문서 또는 다른 기기로부터 수신하는 문서를 기반으로 잠재 키워드를 생성할 수도 있다. 즉, 반드시 웹 데이터베이스(100)와 연동해야 하는 것은 아니다. 키워드 생성 장치(110)는 PC, 노트북, 태블릿 PC, 스마트 폰, 기타 다른 포터블 디바이스 등의 장치로써 구현될 수 있다.

키워드 생성 장치(110)는 대상 문서에서 단일 주요 단어를 추출하고, 단일 주요 단어 간의 결합을 통해 후보 키워드를 생성할 수 있다. 여기서, 후보 키워드는 단이 주요 단어 간의 조합에 의해 생성되는 단어일 수 있다. 즉, 그 조합은 대상 문서상에 존재할 수도 있고, 존재하지 않을 수도 있다. 존재하지 않는 경우가 발생할 수 있기 때문에, 종래의 키워드 선별 방법(후보 키워드의 개수를 세거나, 후보 키워드가 제목에서 나타나는 것을 측정하는 방법 등)에 의해서는 이러한 잠재키워드를 생성할 수 없는 것이다.

따라서, 본 발명의 일 실시예에 따른 키워드 생성 장치(110)는 잠재키워드 산출을 위해 응집력 점수 및 문맥 평가 점수라는 지표를 도입한다. 키워드 생성 장치(110)는 상기 후보 키워드에 속하는 임의의 두 단일 단어를 추출하여, 두 단어 간의 응집력을 산출한다. 응집력 산출시에 이웃 문서를 이용할 수 있다. 그리고는, 키워드 생성 장치(110)는 이웃 문서에서 상기 추출된 두 단어가 동시에 나타나는 단어의 주변을 하나의 문맥으로 보고, 상기 대상 문서를 다른 하나의 문맥으로 보아, 두 문맥의 유사도를 기반으로 상기 추출된 두 단어의 문맥 평가 점수를 산출할 수 있다. 그리고는, 상기 응집력 점수 및 상기 문맥 평가 점수를 기반으로 최종 키워드를 선별할 수 있다.

키워드 생성 장치(110)는 웹 서버로서, 클라이언트 장치(미도시)와 연결되어 키워드 생성 과정을 수행할 수 있다. 즉, 클라이언트 장치는 웹 데이터베이스 상의 특정 대상 문서를 선택하여 선택 신호 및 키워드 생성 요청을 전송하면, 키워드 생성 장치(110)는 웹 데이터베이스로부터 대상 문서 및 이웃 문서 데이터를 수신하여, 잠재키워드를 생성할 수 있다. 그리고는, 클라이언트 장치로 선별된 잠재키워드를 전송할 수 있다. 클라이언트 장치와 키워드 생성 장치(110)는 네트워크(120)를 통해 연결될 수 있고, 클라이언트 장치는 복수 개일 수 있다.

네트워크(120)는 유무선 네트워크일 수 있고, 무선 통신 네트워크는 3G, 4G, LTE, 와이브로 등의 이동통신망 및 근거리 통신 네트워크를 포함할 수 있으며, 유선 통신 네트워크는 인터넷 기반의 이더넷을 포함할 수 있다.

도 2는 본 발명의 일 실시예에 따른 잠재 키워드 생성 장치를 개략적으로 나타낸 블록도이다. 도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 잠재 키워드 생성 장치는 주요 단어 추출부(210), 후보 키워드 생성부(220), 응집력 점수 산출부(230), 문맥 평가 점수 산출부(240), 키워드 선별부(250) 및 이웃 문서 추출부(205)를 포함할 수 있다.

도 2를 참조하면, 사용자는 사용자 인터페이스(미도시)를 통해 대상 문서(202)를 선택할 수 있고, 이에 대한 키워드 생성을 요청할 수 있다.

주요 단어 추출부(210)는 상기 대상 문서(202)에 나타나는 단일 주요 단어를 추출한다. 단일 주요 단어란, 어구 형태가 아닌 단어 형태를 갖으며, 해당 대상 문서(202) 상에서 중요성이 높은 단어로, 출현 빈도를 기반으로 추출될 수 있다. 주요 단어 추출부(210)는 전처리 과정을 통해, 구두점, 조사 등과 같은 불용어를 제거하고, 순수 단어만을 추출할 수 있다.

후보 키워드 생성부(220)는 주요 단어 추출부(210)에서 추출되는 복수 개의 단일 주요 단어를 임의로 조합하여 후보 키워드를 생성한다. 조합되는 단어의 수는 사용자 설정을 통해 조정할 수 있다. 즉, 2개의 단어의 조합을 통한 후보 키워드를 추출할 수도 있고, 3개 이상의 단어를 조합한 후보 키워드도 생성될 수 있다. 전술한 바와 같이, 이렇게 결합 생성된 후보 키워드는 대상 문서(202) 상에서 직접 나타날 수도 있고, 나타나지 않을 수도 있다. 이를 설명하면 다음과 같다.

도 3은 본 발명의 일 실시예에 따른 잠재 키워드 생성 장치의 잠재 키워드 분포의 경우의 수를 설명하기 위한 도면이다.

도 3을 참조하면, case 1에서는 키워드 k[w₁w₂](임의의 단어 1(w₁) 및 단어 2(w₂)의 조합을 나타냄)는 해당 문서에서 동시에 나타나는 형태로 존재한다. 이러한 경우, 해당 문서 상의 동시 출현 횟수를 측정하여 키워드를 선별하는 방법을 사용하여도 키워드 k[w₁w₂]를 도출할 수 있다.

case 2에서 키워드 k[w₁w₂]는 떨어져서 나타나는 형태로 존재한다. 이러한 경우, 키워드 k[w₁w₂]는 동시 출현 횟수를 측정하였을 시 키워드로 도출되지 않을 수 있다. 다만, 동시 출현을 결정짓는 윈도우 크기를 조정하면 키워드로 도출될 여지가 있다.

case 3에서 키워드 k[w₁w₂]는 대상 문서에는 아예 나타나지 않는다. 다만, 키워드 k[w₁w₂]는 대상 문서에서 붙어서 나타나지 않지만, 의미로만 따졌을 때, 주요 키워드일 수 있다. 이러한 경우는 실험을 통해 분석해 봤을 때, 실제 전체 키워드의 1/4 이상을 차지할 수 있다. 종래의 동시 출현 횟수 측정을 가지고는 이러한 키워르를 도출할 방법이 없지만, 본 발명에 따른 잠재 키워드 생성 방법을 이용하면 이웃 문서에의 응집력 점수, 문맥 평가 점수 적용을 통해 잠재 키워드로 도출될 수 있다. 이하, 응집력 점수 및 문맥 평가 점수 도출 과정을 상세히 설명하고자 한다.

다시 도 2로 돌아가서, 이웃 문서 추출부(205)는 상기 case 3과 같이 대상 문서(202)에서 나타나지 않는 후보 키워드를 대상 문서(202)에서만 평가하기에는 정보가 부족하므로 추가적으로 참고한 이웃 문서를 추출한다. 이웃 문서는 두 문서간의 유사도를 평가하는데 사용되는 코사인 상관관계 값을 기반으로 추출된다. 이웃 문서 추출부(205)는 대상 문서(202)와의 코사인 상관관계 값이 가장 높은 n개의 문서를 이웃 문서로 추출할 수 있다. n은 임의의 자연수로써 사용자 인터페이스를 통해 조정될 수 있는 변수이다. 또한 이웃 문서 추출시, 시간 설정을 통해 특정 기간의 문서만을 추출할 수도 있고, 카테고리 및 영역을 정하여 특정 카테고리, 특정 분야, 특정 저자 등의 이웃 문서만을 추출하도록 세부 설정을 부여할 수 있다. 이웃 문서 추출을 위해 사용되는 코사인 상관관계를 산출 식을 다음과 같다.

여기서, sim(d_g,d_c)는 대상 문서와 임의의 문서간의 유사도를 의미한다. d_g는 대상 문서의 단어 가중치 벡터를, d_c는 임의의 문서(이웃 문서 후보)의 단어 가중치 벡터를 나타내며, 정규화된 Bag-of-Words 코사인 유사도에 의해 정의될 수 있다. 즉, Bag-of-Words 모델은 벡터로 문서의 단어 가중치를 나타내고, 코사인 유사도는 벡터들 간의 유사도를 산출하는데 사용된다.

이와 같은 수학식을 통해 대상 문서와 임의의 문서 간의 유사도를 산출하고, 상위 점수를 갖는 문서가 이웃 문서로 추출된다. 추출된 이웃 문서는 응집력 점수 및 문맥 평가 점수 산출에 사용될 수 있다.

응집력 점수 산출부(230)는 후보 키워드 생성부(220)에서 생성된 후보 키워드에 포함되는 임의의 단어를 기반으로 응집력을 산출한다. 일반적으로 응집력은 두 단어가 같은 문장에서 동시에 나타난(co-occur) 횟수로 정의하는데, 본 발명의 일 실시예에 따르면, 이에 대해 다양한 변형 방법이 적용될 수 있다. 후보 키워드에 단어 pw_x와 단어 pw_y가 속해있고, 이 두 단어의 응집력을 산출한다고 할 때, 응집력 점수 산출부(230)는 두 단어가 동시에 나타난 횟수로 응집력을 산출한다. 이는 도 4를 통해 상세히 설명한다.

도 4는 본 발명의 일 실시예에 따른 잠재 키워드 생성 장치의 응집력 점수 산출부의 동작을 나타낸 흐름도이다.

도 4를 참조하면, 응집력 점수 산출부는 후보 키워드에 속하는 개별 단어 중 임의의 두 단어를 선택한다(S410). 만약 후보 키워드에 속하는 단어가 복수 개라면, 두 개 이상의 단어를 선택하여도 무방하다. 선택된 단어는 응집력 점수 및 문맥 평가 점수 산출에 사용된다. 이후, 응집력 점수 산출부는 다른 후보 키워드를 선택하여 동일한 작업을 반복수행하여, 생성된 모든 후보 키워드에 대한 점수가 산출되도록 한다.

그리고는, 응집력 점수 산출부는 선택된 두 단어의 거리를 산출한다(S420). 거리는 두 단어 사이에 끼인 단어의 개수를 기반으로 산출될 수 있다.

응집력 점수 산출부는 대상 문서 내에서 선택된 두 단어간 거리가 윈도우 크기보다 적게 나타나는 출현빈도를 산출한다(S430). 여기서, 윈도우 크기는 사용자 설정을 통해 정의되는 값으로 윈도우 크기 값 안에 있으면 상기 두 단어가 다른 문장에 있더라도 동시에 나타난 것으로 볼 수 있다. 특히, 응집력 점수 산출부는 pw와 pw_j 간의 두 단어가 가까울수록 높은 응집력이 산출되도록 할 수 있다. 이는 다음의 수학식으로 산출될 수 있다.

여기서, co_d는 문서에서의 동시 출현 점수를 나타내고, pw_x는 특정 후보 케워드에 속하는 어근 단어(primitive word) x를 의미하고, pw_x,i는 i번째 어근 단어를 나타내며, pos(·)는 어근 단어의 문서에서의 위치를 나타내고, ws는 윈도우 크기를 나타낸다.

대상 문서에 대한 계산 후에, 응집력 점수 산출부는 대상 문서에 대한 계산과 동일하게, 이웃 문서에서 선택된 두 단어간 거리가 윈도우 크기보다 적게 나타나는 출현빈도를 산출한다(S440). 즉, 단어 pw_x와 단어 pw_y간의 응집력은 대상 문서의 응집력으로만 산출되는 것이 아나라 이웃 문서의 응집력도 함께 이용한다. 이때, 이웃 문서의 응집력은 대상 문서와 유사할수록 더 좋은 정보가 될 수 있으므로, 이러한 점을 반영하여 코사인 상관관계(유사도)를 가중치로 이용할 수 있다. 이는 다음의 수학식으로 산출될 수 있다.

여기서, S_coh는 응집력 점수를 나타내고, g는 대상 문서를, N은 대상 문서와 이웃 문서들을 나타내고, sim은 d_g와 d_n 사이의 유사도를 나타내고, co_n은 n 내에서의 동시 출현 빈도 점수를 나타낸다.

이웃 문서의 응집력이 계산되면, 수학식 3에 따라 최종 응집력 점수를 산출한다(S450).

본 발명의 다른 실시예에 따르면, 대상 문서의 응집력과 이웃 문서의 응집력 점수를 조합할 때, 점수 배분을 1 대 1의 비율로 대등하게 할 수도 있고, 설정에 따라 다른 비율로 합산하는 것 역시 가능하다. 또는, 상기 case(도 3 참조)에 따라 다른 배분을 갖도록 설정할 수도 있다. 경우에 따라, 이웃 문서의 응집력이 직접 최종 응집력이 되도록 설정할 수 있다.

다시 도 2로 돌아가서, 응집력 점수 산출부(230)에서 응집력 점수 산출이 완료되면, 문맥 평가 점수 산출부(240)는 대상 문서(202)를 하나의 문맥으로 보고, 이웃 문서에서 단어 pw_x와 단어 pw_y가 동시에 나타나는 단어의 주변을 하나의 문맥으로 보고, 두 문맥 사이의 유사도를 기반으로 문맥 평가 점수를 산출할 수 있다. 이는 도 5를 통해 상세히 설명한다.

도 5는 본 발명의 일 실시예에 따른 잠재 키워드 생성 장치의 문맥 평가 점수 산출부의 동작을 나타낸 흐름도이다.

도 5를 참조하면, 문맥 평가 점수 산출부는 대상 문서를 제 1 문맥으로 설정한다(S510). 그리고는, 이웃 문서에서 선택된 두 단어가 동시에 나타나는 단어의 주변을 제 2 문맥으로 설정한다(S520). 여기서, 주변의 범위는 동시에 나타나는 두 단어와 근접한 단어들의 세트(set of words)이고, 이러한 단어들의 세트의 범위는 사용자 설정을 통해 명확히 정의할 수 있다. 예컨대, 윈도우 사이즈를 기반으로 정의할 수 있다(예컨대, 윈도우 2개 사이즈의 범위 등). 특정 문서에서, 문단이 복수 개 나타나면, 복수 개를 더하여 문맥을 형성할 수 있다. 이렇게, 선택된 두 문맥이 서로 유사하면, 단어 pw_x와 단어 pw_y의 결합은 대상 문서에서도 중요해질 수 있다. 따라서, 이를 수치로 나타내는 방식을 통해 점수화한다.

문맥 평가 점수 산출부는 설정된 두 문맥의 단어를 벡터 형태로 나타낸 수치를 산출한다(S530). 이때, 벡터 형태로 나타내는 방법으로 전술한 Bag-of-Words 모델이 사용될 수 있다. 그리고는, 문맥 평가 점수 산출부는 벡터 형태로 산출된 수치와 전체 문서 집합에서 각 단어의 출현 빈도 점수를 응집력 점수 산출부로부터 수신하여, 값을 곱한다(S540). 양 값을 곱하여 최종 산출된 값을 최종 문맥 평가 점수로 산출한다(S550). 이는 다음의 수학식으로 표현할 수 있다.

여기서, d_g는 대상 문서의 단어 가중치 벡터, d_gc는 pw_x와 pw_y 사이의 일반 문맥의 단어 가중치 벡터를 나타내며, w_i,g는 대상 문서 내의 단어 i를 나타내고, F(·)는 단어의 출현 빈도를, co(w_i,g, w_j,gc)는 모든 문서들 내에서의 w_i,g 및 w_j,gc의 동시 출현 점수를 나타낸다.

다시 도 2로 돌아가서, 키워드 선별부(250)는 응집력 점수 산출부(230)로부터 후보 키워드들에 대한 응집력 점수를 수신하고, 문맥 평가 점수 산출부(240)로부터 문맥을 기반으로 평가한 후보 키워드 점수를 수신한다. 그리고는, 두 점수를 각각 정규화한 후, 가중치를 두어 합산한다. 이를 수학식으로 표현하면 다음과 같다.

여기서, S(pw_x, pw_y)는 어근 단어 pw_x와 pw_y 사이의 최종 점수를 나타내고, λ는 응집력 점수 또는 문맥 평가 점수에 가중치를 두는 일종의 댐핑 팩터(damping factor)를 나타내고, S_coh(pw_x, pw_y)는 어근 단어 pw_x와 pw_y 사이의 응집력 점수를 나타내며, S_con(pw_x, pw_y)는 어근 단어 pw_x와 pw_y 사이의 문맥 평가 점수를 나타낸다.

응집력 점수 산출부(230), 문맥 평가 점수 산출부(240) 및 키워드 선별부(250)는 복수 개의 후보 키워드에 대해 응집력 점수, 문맥 평가 점수 산출 및 최종 점수 산출 과정을 반복하여, 모든 후보 키워드에 대한 최종 점수를 산출한다.

그리고는, 키워드 선별부(250)는 위 최종 점수가 가장 높은 상위 후보 키워드 m개(m은 사용자 설정에 의해 변경 가능함)를 대상 문서(202)의 최종 키워드로 선별할 수 있다.

시뮬레이션 결과

본 발명에 따른 잠재 키워드 생성 방법을 검증하기 위해 키워드 선별 분야에서 널리 사용되는 데이터셋으로 실험을 진행하였다. 이 데이터셋은 특정 논문의 초록 2,000개로 이루어져 있으며, 타당한 검증을 위해 초록의 단어가 100개 미만인 데이터는 제외하였다. 초록에서 나타나지 않는 키워드만 선별할 것이므로 초록에서 등장하는 키워드는 제외되었으며, 두 단어로 이루어지지 않은 키워드 또한 제외되었다.

본 실험과 동일한 목표를 갖는 선행연구가 없어 본 실험을 비교하기 위해 기준이 되는 실험을 구성하였으며, 본 발명의 방법의 λ를 변화시켜가며 기준 실험과 비교분석하였다. 실험에 사용된 이웃 문서의 개수 n과 윈도우 크기 w는 각각 8과 25다.

도 6은 본 발명의 일 실시예에 따른 잠재 키워드 생성 장치의 성능 평가를 위한 그래프이다.

도 6을 참조하면, 실험 결과, 본 발명의 잠재 키워드 생성 방법이 키워드의 정확성 등의 평가를 위해 일반적으로 많이 사용되는 precision 평가 점수, recall 평가 점수 및 F-score 평가 점수에서 모두 우수한 성능을 나타내는 것으로 분석되었다. 특히, λ가 0.2일 때 본 발명의 키워드 생성 방법이 키워드를 가장 잘 선별하였으며, 이 경우 기준 실험보다 성능이 4배 이상 좋음을 확인하였다.

도 7은 본 발명의 일 실시예에 따른 잠재 키워드 생성 장치의 성능 평가를 나타낸 표이다.

도 7을 참조하면, 비록 본 발명이 두 단어로 이루어진 잠재 키워드뿐만 아니라, 3 단어 이상으로 이루어진 잠재 키워드에서도 우수한 성능을 나타내어, 향후 더 많은 단어로 이루어진 키워드 선별로의 확장 가능성도 충분함을 알 수 있다.

이상 도면 및 실시예를 참조하여 설명하였지만, 본 발명의 보호범위가 상기 도면 또는 실시예에 의해 한정되는 것을 의미하지는 않으며 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

대상 문서에서 키워드를 생성하는 방법에 있어서,
상기 대상 문서에서 단일 주요 단어를 추출하는 단계;
상기 주요 단어 간의 결합을 통해 후보 키워드를 생성하는 단계;
상기 후보 키워드에 속하는 제 1 단어 및 제 2 단어 간의 응집력을 산출하는 단계, 상기 응집력은 상기 대상문서 및 이웃 문서 중 적어도 하나에서 제 1 단어와 제 2 단어와의 거리가 기설정된 윈도우 범위 내에 포함되는 경우의 빈도 수를 나타냄;
이웃 문서에서 상기 제 1 단어와 상기 제 2 단어가 동시에 나타나는 단어의 주변을 하나의 문맥으로 보고 상기 대상 문서를 다른 하나의 문맥으로 보아, 두 문맥의 유사도를 기반으로 상기 제 1 단어 및 상기 제 2 단어의 문맥 평가 점수를 산출하는 단계, 상기 문맥 평가 점수는 상기 두 문맥의 단어를 벡터 형태로 나타낸 수치와 전체 문서 집합에서 각 단어의 동시 출현 빈도를 곱하여 산출됨; 및
상기 응집력 및 상기 문맥 평가 점수를 기반으로 최종 키워드를 선별하는 단계를 포함하는 것을 특징으로 하는 문서에서 키워드를 생성하는 방법.
삭제
제 1 항에 있어서,
상기 응집력은 상기 제 1 단어 및 상기 제 2 단어의 거리가 가까울수로 높은 응집력을 갖도록 산출되는 것을 특징으로 하는 문서에서 키워드를 생성하는 방법.
제 1 항에 있어서,
상기 응집력은 상기 대상 문서뿐만 아니라 이웃 문서에서의 응집력도 함께 이용하여 산출되는 것을 특징으로 하는 문서에서 키워드를 생성하는 방법.
제 4 항에 있어서,
상기 이웃 문서에서의 응집력은 상기 대상 문서와 상기 이웃 문서의 유사도가 높을수록 가중치를 높게 하여 산출되는 것을 특징으로 하는 문서에서 키워드를 생성하는 방법.
삭제
제 1 항에 있어서,
상기 문맥의 단어를 벡터 형태로 나타낸 수치로 변환함에 있어서, bag-of-words 모델을 이용하는 것을 특징으로 하는 문서에서 키워드를 생성하는 방법.
제 1 항에 있어서,
상기 후보 키워드에 대한 최종 점수는 상기 응집력 및 상기 문맥 평가 점수를 각각 정규화한 후, 가중치를 두어 합산하여 산출되는 것을 특징으로 하는 문서에서 키워드를 생성하는 방법.
제 1 항에 있어서,
상기 이웃 문서는 상기 대상 문서와의 유사도를 기반으로 산출되는 상위 n개(n은 임의의 자연수)의 문서인 것을 특징으로 하는 문서에서 키워드를 생성하는 방법.
대상 문서에서 키워드를 생성하는 장치에 있어서,
상기 대상 문서에서 단일 주요 단어를 추출하는 주요 단어 추출부;
상기 주요 단어 간의 결합을 통해 후보 키워드를 생성하는 후보 키워드 생성부;
상기 후보 키워드에 속하는 개별 단어 중 제 1 단어 및 제 2 단어 간의 응집력 점수를 산출하는 응집력 점수 산출부, 상기 응집력은 상기 대상문서 및 이웃 문서 중 적어도 하나에서 제 1 단어와 제 2 단어와의 거리가 기설정된 윈도우 범위 내에 포함되는 경우의 빈도 수를 나타냄;
이웃 문서에서 상기 제 1 단어와 상기 제 2 단어가 동시에 나타나는 단어의 주변을 하나의 문맥으로 보고 상기 대상 문서를 다른 하나의 문맥으로 보아, 두 문맥의 유사도를 기반으로 상기 제 1 단어 및 상기 제 2 단어의 문맥 평가 점수를 산출하는 문맥 평가 점수 산출부, 상기 문맥 평가 점수는 상기 두 문맥의 단어를 벡터 형태로 나타낸 수치와 전체 문서 집합에서 각 단어의 동시 출현 빈도를 곱하여 산출됨; 및
상기 응집력 및 상기 문맥 평가 점수를 기반으로 최종 키워드를 선별하는 최종 키워드 선별부를 포함하는 것을 특징으로 하는 문서에서 키워드를 생성하는 장치.
삭제
제 10 항에 있어서,
상기 응집력은 상기 제 1 단어 및 상기 제 2 단어의 거리가 가까울수로 높은 응집력을 갖도록 산출되는 것을 특징으로 하는 문서에서 키워드를 생성하는 장치.
제 10 항에 있어서,
상기 응집력은 상기 대상 문서뿐만 아니라 이웃 문서에서의 응집력도 함께 이용하여 산출되는 것을 특징으로 하는 문서에서 키워드를 생성하는 장치.
제 13 항에 있어서,
상기 이웃 문서에서의 응집력은 상기 대상 문서와 상기 이웃 문서의 유사도가 높을수록 가중치를 높게 하여 산출되는 것을 특징으로 하는 문서에서 키워드를 생성하는 장치.
삭제
제 10 항에 있어서,
상기 문맥의 단어를 벡터 형태로 나타낸 수치로 변환함에 있어서, bag-of-words 모델을 이용하는 것을 특징으로 하는 문서에서 키워드를 생성하는 장치.
제 10 항에 있어서,
상기 후보 키워드에 대한 최종 점수는 상기 응집력 및 상기 문맥 평가 점수를 각각 정규화한 후, 가중치를 두어 합산하여 산출되는 것을 특징으로 하는 문서에서 키워드를 생성하는 장치.
제 10 항에 있어서,
상기 이웃 문서는 상기 대상 문서와의 유사도를 기반으로 산출되는 상위 n개(n은 임의의 자연수)의 문서인 것을 특징으로 하는 문서에서 키워드를 생성하는 장치.
대상 문서에서 키워드를 생성하는 시스템에 있어서,
복수의 전자 문서를 저장하고 있는 웹 데이터베이스;
상기 웹 데이터베이스 상의 상기 대상 문서에서 단일 주요 단어를 추출하고, 상기 주요 단어 간의 결합을 통해 후보 키워드를 생성하며, 상기 후보 키워드에 속하는 제 1 단어 및 제 2 단어 간의 응집력 - 상기 응집력은 상기 대상문서 및 이웃 문서 중 적어도 하나에서 제 1 단어와 제 2 단어와의 거리가 기설정된 윈도우 범위 내에 포함되는 경우의 빈도 수를 나타냄 - 을 산출하고, 상기 대상 문서의 이웃 문서에서 상기 제 1 단어와 상기 제 2 단어가 동시에 나타나는 단어의 주변을 하나의 문맥으로 보고 상기 대상 문서를 다른 하나의 문맥으로 보아, 두 문맥의 유사도를 기반으로 상기 제 1 단어 및 상기 제 2 단어의 문맥 평가 점수 - 문맥 평가 점수는 상기 두 문맥의 단어를 벡터 형태로 나타낸 수치와 전체 문서 집합에서 각 단어의 동시 출현 빈도를 곱하여 산출됨 - 를 산출하며, 상기 응집력 및 상기 문맥 평가 점수를 기반으로 최종 키워드를 선별하는 키워드 생성 장치를 포함하는 것을 특징으로 하는 문서에서 키워드를 생성하는 시스템.