KR101710010B1

KR101710010B1 - 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템

Info

Publication number: KR101710010B1
Application number: KR1020150189996A
Authority: KR
Inventors: 김누리; 이지형; 이재동; 김다해; 김베드로
Original assignee: 성균관대학교산학협력단
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2017-02-24

Abstract

본 발명은 문서의 상대적 특징을 반영한 문서 요약 방법 및 문서 요약 시스템을 제공한다. 상기 방법은 대상 문서와 배경 문서들을 그래프로 모델링하는 단계, 문장 간 유사도에 기반하여 문장들을 클러스터링하는 단계와 상기 대상 문서와 배경 문서들 간 공통 특징들과 고유 특징들 중 적어도 하나를 포함하여 문장들을 랭킹(ranking)하는 단계를 포함한다.

Description

문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템{DOCUMENT SUMMARIZATION METHOD CONSIDERING RELATIVE CHARACTERISTICS IN A DOCUMENT SET AND DOCUMENT SUMMARIZATION SYSTEM USING THEREOF}

본 발명은 문서를 자동으로 요약하는 방법 및 시스템에 관한 것으로 더 구체적으로는 특허 문서와 같은 특성화된 문서의 요약에 관한 것이다.

빅 데이터의 시대에서는, 문서들의 요약을 자동 생성하는 방법이 중요하게 된다. 일반적으로 대량의 문서들이 생성되는 연구 개발 프로젝트에서, 문서 요약 방법은 관리자들 또는 감독자들이 프로젝트를 이해하고 관리하는 것을 도울 수 있다. 문서 요약 방법들은 문서들의 중요 정보를 유지하는 한편, 문서 또는 문서 세트의 개요를 제공할 수 있다. 문서 요약의 주요 이슈는 주어진 문서의 각 단어 또는 문장이 문서의 중요 콘텐츠에 관련있는지 여부를 식별하는 것이다.

도 1 및 도 2는 종래 문서 요약 방법을 나타낸 도면이다. 도 1은 요약의 대상이 되는 문서 내에서 문장들의 스코어링(scoring)을 통한 문장 랭킹 기법의 순서도로 중요 문장을 추출하여 요약문을 생성한다. 도 2는 요약의 대상이 되는 문서 집합 내에서 문장들의 스코어링(scoring)을 통한 문장 랭킹 기법의 순서도로 중요 문장을 추출하여 요약문을 생성한다. 이 때 중요 문장은 전체 문서에서 공통적으로 나타나는 특징을 내포한다.

대부분의 종래 문서 요약 연구들은 요약을 위한 중요 정보를 캡처하기 위해 대상 문서들에만 초점을 맞추었다. 그러나, 유사한 콘텐츠를 가지는 다수의 문서들이 있는 경우, 단지 대상 문서들만을 고려하는 것은 좋은 요약을 생성하기에 충분하지 않을 수 있다. 유사한 콘텐츠를 가지는 문서들은 다른 문서들과 공유되는 공통 특징들뿐만 아니라, 그 자체의 고유 특징들을 가질 수 있다. 단지 대상 문서만을 고려하여 대상 문서로부터 중요 문장들을 추출하려 한다면, 문서들의 고유 특징들을 간과하기 쉽다. 해당 이슈에 대한 일반적이고 객관적인 사실들 같은, 많은 문서들에 의해 공유되는 공통 특징들이 해당 이슈에 대한 가장 중요한 정보일 수 있다. 따라서, 단일 문서 측면에서, 이러한 공통 특징들은 그 자체의 고유 특징들보다 더 중요하게 간주될 수 있다. 그러므로, 공통 특징들에 관련된 문장들은 고유 특징들에 관련된 문장들보다 더 쉽게 선택된다. 따라서, 공통 특징들 뿐만 아니라 고유 특징들까지 추출하여 좋은 요약을 생성하기 위해, 공통성과 내재성 모두를 고려하여 문장들을 평가할 필요가 있다.

본 발명의 목적은 문서 집합 내에서 요약을 대상으로 하는 문서와 그 외 문서들 사이에 존재하는 고유 특징을 분석하고, 대상 문서만이 갖는 고유 특징과 전체 문서들이 갖는 공통된 특징을 반영하여 문서를 자동 요약하는 문서의 상대적 특징을 반영한 문서 요약 방법 및 상기 방법을 이용하는 문서 요약 시스템을 제공하는 것이다.

본 발명의 일 측면에 따르면, 본 발명은 문서의 상대적 특징을 반영한 문서 요약 방법을 제공한다. 상기 방법은 대상 문서와 배경 문서들을 그래프로 모델링하는 단계, 문장 간 유사도에 기반하여 문장들을 클러스터링하는 단계와 상기 대상 문서와 배경 문서들 간 공통 특징들과 고유 특징들 중 적어도 하나를 포함하여 문장들을 랭킹(ranking)하는 단계를 포함한다.

상기 대상 문서와 배경 문서들을 그래프로 모델링하는 단계는 사용자 요청에 대응하는 대상 문서 및 상기 대상 문서와 유사한 콘텐츠를 가지는 배경 문서들을 수집하는 단계, 상기 대상 문서와 배경 문서들로부터 문장들을 분리하는 단계, 상기 문장들에서 불용어를 제거하는 단계, 상기 문장들 각각의 텍스트에서 어간을 추출하여 해당 문장을 변형하는 단계, 상기 분리된 문장들 간 유사도를 계산하는 단계와 상기 분리된 문장들과 상기 유사도를 그래프로 표현하는 단계를 포함할 수 있다.

상기 분리된 문장들 간 유사도를 계산하는 단계는 자카드 유사도(Jaccard Similarity)를 이용하는 것을 특징으로 할 수 있다.

상기 문장 간 유사도에 기반하여 문장들을 클러스터링하는 단계는 각 클러스터가 유사한 문장들로 구성되는 스펙트럴 클러스터링을 하는 단계와 각 클러스터별 불순도(impurity)를 측정하는 엔트로피를 계산하는 단계를 포함할 수 있다.

상기 엔트로피는 다음 수학식

,

(

,

: 해당 클러스터의 정규화된 엔트로피,

:

번째 문서로부터의 문장 개수,

: 해당 클러스터의 문장들의 총 수,

: 해당 클러스터 내 문서의 수)을 이용하여 계산하는 것을 특징으로 할 수 있다.

상기 문장들을 랭킹(ranking)하는 단계는 문장 간 유사도, 클러스터의 크기, 클러스터의 엔트로피 중 적어도 하나를 포함하여 문장 간 가중치를 계산하는 단계와 텍스트랭크(TextRank) 알고리즘에 기반하여 문장 점수를 계산하는 단계를 포함할 수 있다.

상기 문장 간 가중치는 다음 수학식

(

,

:

와

를 포함하는 클러스터

의 엔트로피,

: 두 문장 간 자카드 유사도(Jaccard Similarity),

,

: 클러스터

의 크기,

: 다양성 파라미터)을 이용하여 계산하는 것을 특징으로 할 수 있다.

상기 문장 점수는 다음 수학식

(

: 0.85로 설정된 댐핑 팩터(damping factor),

:

에 인접한 이웃 세트)을 이용하여 계산하는 것을 특징으로 할 수 있다.

상기 문서의 상대적 특징을 반영한 문서 요약 방법은 문장 랭킹 순위가 높은 문장들을 추출하여 요약문을 생성하는 단계를 더 포함할 수 있다.

본 발명의 또다른 측면에 따르면, 본 발명은 문서의 상대적 특징을 반영한 문서 요약 시스템을 제공한다. 상기 시스템은 대상 문서와 배경 문서들을 그래프로 모델링하고, 문장 간 유사도에 기반하여 문장들을 클러스터링하고, 대상 문서와 배경 문서들 간 공통 특징들과 고유 특징들 중 적어도 하나를 포함하여 문장들을 랭킹(ranking)하는 문장 점수 계산부를 포함한다.

상기 문장 점수 계산부는 대상 문서와 배경 문서들을 그래프로 모델링하는 문서 모델링 수단, 문장 간 유사도에 기반하여 문장들을 클러스터링하는 클러스터링 수단과 대상 문서와 배경 문서들 간 공통 특징들과 고유 특징들 중 적어도 하나를 포함하여 문장들을 랭킹(ranking)하는 문장 랭킹 수단을 포함하는 것을 특징으로 할 수 있다.

상기 문서 모델링 수단은 사용자 요청에 대응하는 대상 문서 및 상기 대상 문서와 유사한 콘텐츠를 가지는 배경 문서들을 수집하고, 상기 대상 문서와 배경 문서들로부터 문장들을 분리하고, 상기 문장들에서 불용어를 제거하고, 상기 문장들 각각의 텍스트에서 어간을 추출하여 해당 문장을 변형하고, 상기 분리된 문장들 간 유사도를 계산하고, 상기 분리된 문장들과 상기 유사도를 그래프로 표현하는 것을 특징으로 할 수 있다.

상기 분리된 문장들 간 유사도는 자카드 유사도(Jaccard Similarity)를 이용하여 계산하는 것을 특징으로 할 수 있다.

상기 클러스터링 수단은 각 클러스터가 유사한 문장들로 구성되는 스펙트럴 클러스터링을 하고, 각 클러스터별 불순도(impurity)를 측정하는 엔트로피를 계산하는 것을 특징으로 할 수 있다.

상기 엔트로피는 다음 수학식

,

(

,

: 해당 클러스터의 정규화된 엔트로피,

:

번째 문서로부터의 문장 개수,

: 해당 클러스터의 문장들의 총 수,

상기 문장 랭킹(ranking)수단은 문장 간 유사도, 클러스터의 크기, 클러스터의 엔트로피 중 적어도 하나를 포함하여 문장 간 가중치를 계산하고, 텍스트랭크(TextRank) 알고리즘에 기반하여 문장 점수를 계산하는 것을 특징으로 할 수 있다.

상기 문장 간 가중치는 다음 수학식

(

,

:

와

를 포함하는 클러스터

의 엔트로피,

: 두 문장 간 자카드 유사도(Jaccard Similarity),

,

: 클러스터

의 크기,

상기 문장 점수는 다음 수학식

(

: 0.85로 설정된 댐핑 팩터(damping factor),

:

상기 문서의 상대적 특징을 반영한 문서 요약 시스템은 문서 요약에 대한 사용자 요청을 수신하는 사용자 요청 수신부와 문장 랭킹 순위가 높은 문장들을 추출하여 요약문을 생성하는 요약문 생성부를 더 포함할 수 있다.

본 발명의 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템에 따르면 문서 집합 내에서 요약 대상 문서만이 갖는 고유 특징과 전체 문서들이 갖는 공통된 특징을 반영하여 문서를 자동 요약할 수 있다. 또한 대상 문서만의 특징을 중심적으로 요약하거나 그 정도를 설정할 수 있어 사용자가 원하는 요약 대상에 따라 구체적이고 명확한 정보를 제공할 수 있다.

도 1 및 도 2는 종래 방식에 따른 문서 요약 방법의 순서도이다.
도 3는 본 발명의 일 실시예에 따른 문서의 상대적 특징을 반영한 문서 요약 방법의 순서도이다.
도 4a 및 도 4b는 본 발명의 일 실시예에 따른 문서들을 그래프로 모델링하는 단계의 순서도 및 그래프 표현을 나타낸 도면이다.
도 5a 및 도 5b는 본 발명의 일 실시예에 따른 문장들을 클러스터링하는 단계의 순서도 및 클러스터링의 예를 나타낸 도면이다.
도 6a 및 도 6b는 본 발명의 일 실시예에 따른 문장들을 랭킹하는 단계의 순서도 및 텍스트랭크(TextRank) 적용의 예를 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 문서의 상대적 특징을 반영한 문서 요약 시스템의 개략적인 블록도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등을 포함하는 용어가 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재 항목들의 조합 또는 복수의 관련된 기재 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여 본 발명에 바람직한 실시 예를 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어 도면 부호에 상관없이 동일하거나 대응하는 구성요소는 동일한 참조번호를 부여하고 이에 대해 중복되는 설명은 생략하기로 한다.

문서의 상대적 특징을 반영한 문서 요약 방법

도 3은 본 발명의 일 실시예에 따른 문서의 상대적 특징을 반영한 문서 요약 방법의 순서도이다. 도 3을 참조하면, 문서의 상대적 특징을 반영한 문서 요약 방법은 문서 모델링 단계(S1), 문장 클러스터링 단계(S2) 및 문장 랭킹 단계(S3)를 포함한다. 또한 요약문 생성 단계(S4)를 더 포함할 수 있다.

상기 문서 모델링 단계(S1)는 공통 특징들 및 고유 특징들에 관하여 문장들을 스코어링하기 위해 문서들을 모델링하는 단계이다. 도 4를 참조하면, 이 단계는 요약 대상 문서 및 요약 대상 문서와 유사한 콘텐츠를 가지는 배경 문서들을 수집하는 단계(S11), 문서들의 모든 문장들을 분리하는 단계(S12), 전체 문장들에서 관사, 전치사, 조사 등의 불용어를 제거하는 단계(S13), 각 문장의 텍스트에서 어간을 추출하여 해당 문장을 변형시키는 단계(Stemming)(S14), 상기 분리된 문장들 간의 유사도를 계산하는 단계(S15)와 상기 분리된 문장들과 상기 유사도를 그래프로 표현하는 단계(S16)를 포함할 수 있다. 상기 유사도는 자카드 유사도(Jaccard Similarity)를 이용하여 계산될 수 있다. 자카드 유사도는 두 집합 사이의 유사도를 비교하기 위해 많이 사용되는 특정 방법 중 하나이다. 이 측정 방법은 두 집합의 교집합의 수를 두 집합의 합집합의 수로 나눔으로써 유사도를 측정한다(수학식 1).

상기 그래프로 표현하는 단계(S16)에서는 각 문장을 정점으로, 각 간선을 문장 간 유사도로 표현하여 문서들을 그래프로 모델링한다(수학식 2 참조).

(

: 정점 세트,

: 간선 세트)

도 4b는 문서의 그래프 모델링의 예를 나타낸 도면이다. 도 4b를 참조하면 각 정점은 특정 문서의 특정 문장을 나타내고, 각 간선은 두 문장간 유사도를 나타낸다.

상기 문장 클러스터링 단계(S2)는 유사한 문장들로 클러스터를 생성하는 단계이다. 도 5a를 참조하면, 이 단계(S2)는 스펙트럴 클러스터링 단계(S21) 및 클러스터별 엔트로피 계산 단계(S22)를 포함할 수 있다. 상기 스펙트럴 클러스터링 단계(S21)에서는 상기 그래프 표현에서 일부 간선을 제거하여 k개의 서로 고립된 성분 그래프로 분할한다. 이 때 동일한 성분 그래프 내 정점 간의 유사도의 합을 최대화하는 동시에, 서로 다른 성분 그래프에 속한 정점 간의 유사도의 합을 최소화하는 형태로 그래프를 분할한다. 스펙트럴 클러스터링은 그래프 기반 군집 분석 방법 중의 하나로 라플라시안(Laplacian) 행렬을 이용한 그래프 분할(graph partitioning) 기반의 군집분석 기법이다. 이 방법은 K-means 클러스터링과 같은 전통적인 군집 분석 기법과는 대조적으로 다양한 군집의 형태에 대해 좋은 성능을 보인다. 상기 클러스터별 엔트로피 계산 단계(S22)에서는 각 클러스터별 불순도를 나타내는 엔트로피를 계산한다. 각 클러스터에 속한 문장들이 다양한 문서들로부터 온 문장들이면 엔트로피 값은 높아지고, 그렇지 않으면 엔트로피 값은 낮아진다. 다음 수학식 3을 이용하여 각 클러스터별 엔트로피 값을 계산할 수 있다.

(

,

: 해당 클러스터의 정규화된 엔트로피,

:

번째 문서로부터의 문장 개수,

: 해당 클러스터의 문장들의 총 수,

: 해당 클러스터 내 문서의 수)

각 클러스터 별 엔트로피는 각 클러스터의 문장 개수가 다르기 때문에 수학식 3에 나타난 바와 같이 그 최대 값(

)으로 나누어 정규화된다.

도 5b는 클러스터링의 예를 나타낸 도면이다. 도 5b를 참조하면, 간선 거리가 가까운(유사한) 문장들끼리 군집화되는 것을 볼 수 있다.

상기 문장 랭킹 단계(S3)는 문서들 간 공통 특징들과 고유 특징들 중 적어도 하나를 포함하여 수정된 텍스트랭크(TextRank) 알고리즘으로 문장들을 랭킹하는 단계이다. 도 6a를 참조하면, 이 단계(S3)는 문장 간 가중치 계산 단계(S31)과 문장 점수 계산 단계(S32)를 포함할 수 있다. 상기 문장 간 가중치 계산 단계(S31)에서는 문장 간 유사도, 클러스터의 크기, 클러스터의 엔트로피 중 적어도 하나를 포함하여 문장 간 가중치를 계산한다. 다음의 수학식 4를 이용하여 문장 간 가중치를 계산할 수 있다.

(

,

:

와

를 포함하는 클러스터

의 엔트로피,

: 두 문장 간 자카드 유사도(Jaccard Similarity),

,

: 클러스터

의 크기,

: 다양성 파라미터)

수학식 4에서 다양성 파라미터인

를 조정하여 문서 요약시 전체 문서에 대한 공통 특징을 더 포함하게 할지, 요약 대상이 되는 문서에 대한 고유 특징을 더 포함하게 할지를 결정할 수 있다. 예를 들어,

값이 0이면 고유 특징만을 포함하여 요약을 생성할 수 있고,

값이 1이면 공통 특징만을 포함하여 요약을 생성할 수 있다.

상기 문장 점수 계산 단계(S32)는 상기 계산된 문장 간 가중치 값을 고려하여 문장들을 랭킹하는 단계이다. 상기 문장 점수는 다음 수학식 5를 이용하여 계산될 수 있다.

(

: 0.85로 설정된 댐핑 팩터(damping factor),

:

에 인접한 이웃 세트)

상기 수학식 5을 이용하여 수렴값을 가질 때까지 문장들의 점수를 계산하는 과정을 반복한다. 상기 수렴값으로 문장들의 순위를 매길 수 있다.

도 6b는 텍스트랭크(TextRank) 알고리즘 적용의 예이다. 도 6b에서 보는 바와 같이, 문장 간 간 유사도에 가중치를 부여의 결과를 간선 가중치값(Edge weights)이 클수록 그래프의 간선을 굵게 표시하여 나타낼 수 있다.

상기 요약문 생성단계(S4)는 상기 문장들의 랭킹 순위가 높은 문장들을 추출하여 요약문을 생성하는 단계이다. 이 단계에서는 사용자 디바이스 환경 또는 사용자의 사전 설정에 적합하도록 요약문의 길이를 조절하여 생성할 수 있다.

이하에서는, 본 발명의 또다른 실시예에 따른 문서의 상대적 특징을 반영한 문서 요약 시스템에 관해 설명한다.

문서의 상대적 특징을 반영한 문서 요약 시스템

도 7은 문서의 상대적 특징을 반영한 문서 요약 시스템의 개략적인 블록도의 예이다. 도 7를 참조하면, 상기 문서 요약 시스템은 사용자 요청 수신부(100), 문장 점수 계산부(200) 및 요약문 생성부(300)를 포함한다.

상기 사용자 요청 수신부(100)는 요약문 생성을 위한 사용자 요청을 수신한다. 자주 요청되는 특징은 미리 요청 목록을 제공하여 사용자가 선택하여 입력한 것을 수신할 수도 있다.

상기 문장 점수 계산부(200)는 문서 모델링 수단(210), 클러스터링 수단(220), 및 문장 랭킹 수단(230)을 포함한다.

상기 문서 모델링 수단(210)은 사용자 요청에 대응하는 대상 문서 및 상기 대상 문서와 유사한 콘텐츠를 가지는 배경 문서들을 수집하고, 상기 대상 문서와 배경 문서들로부터 문장들을 분리하고, 상기 분리된 문장들 간 유사도를 계산하고, 상기 분리된 문장들과 상기 유사도를 그래프로 표현한다.

상기 클러스터링 수단(220)은 각 클러스터가 유사한 문장들로 구성되는 스펙트럴 클러스터링을 하고, 각 클러스터별 불순도(impurity)를 측정하는 엔트로피를 계산한다. 상기 문장 랭킹 수단은 문장 간 유사도, 클러스터의 크기, 클러스터의 엔트로피 중 적어도 하나를 포함하여 문장 간 가중치를 계산하고, 텍스트랭크(TextRank) 알고리즘에 기반하여 문장 점수를 계산한다.

상기 요약문 생성부(300)는 상기 문장 점수를 기준으로 랭킹 순위가 높은 문장을 추출하여 요약문을 생성한다. 요약문 생성시, 사용자 디바이스 환경 또는 사용자의 사전 설정에 적합하도록 요약문의 길이를 조절하여 생성할 수 있다.

이하에서는 본 발명의 일 실시예에 따른 문서의 상대적 특징을 반영한 문서 요약 방법과 기존 문서 요약 방법과의 성능 비교 실험의 예를 설명한다.

실험 예

본 실험에서는 실험 데이터로 DUC(Document Understanding Conference)에서 제공하는 DUC 2002의 문서 세트를 사용하였다. DUC 2002 데이터세트는 60개의 문서 세트로 구성되고, 각 문서 세트당 10개의 문서가 존재하며, 각 문서의 10-200 단어 요약문이 제공된다. 그러나, DUC 2002 데이터세트는 단일 문서에만 초점을 두어 요약된 것이어서, 본 실험에서는 전문가에 의해 생성된 요약문들도 사용하였다. 전문가 데이터세트는 배경 문서 세트와 비교시 해당 문서만이 가지는 고유 및 중요 정보 모두를 고려하여 생성되었다.

평가 지표로는 ROUGE를 사용하였다. ROUGE-N은 후보 요약문과 참조 요약문들 간 n-gram 복원(recall)이다. ROUGE-N은 다음 수학식 6을 이용하여 계산된다.

은 두 문서의 유사도를 측정하기 위한 N-그램 알고리즘 기반의 지표이다. 수학식 6에서

은 n-gram이고,

은 참조 요약문들에서 발생하는 n-gram의 총 개수이다.

는 후보 요약문이고,

는 참조 요약문들이다.

다른 기법들과의 비교를 위해, 텍스트랭크(TextRank) 기법이 기본으로 사용되었다. 본 실험에서는 요약문의 길이와 클러스터

의 개수를 각각 100과 2로 설정하였다. 정보 가중치 파라미터

는 0부터 1 사이 값 중 0.2로 설정하였고, 댐핑 팩터(damping factor)

는 0.85로 설정하였다.

다음 표 1 및 표2는 각각 DUC 2002 데이터세트와 전문가 데이터 세트를 사용한 실험 결과를 복원(Recall), 정확도(Precision) 및 F-measure로 평가한 것이다.

표 1 및 표 2에서 나타난 바와 같이,

가 0에 가까울 때, 최상의 성능을 보인다. 달리 말하면, 특정 정보의 영향이 클수록, DUC 및 전문가에 의해 생성된 요약문에 유사해진다는 것을 의미한다. 또한, 전문가 요약문과의 비교 결과가 DUC 2002 요약문과의 비교 결과보다 더 좋은 결과를 보였다. 이러한 결과로부터, 대부분의 사람들은 여러 문서들을 요약할 때 중요한 정보뿐만 아니라 특정 정보를 고려하여 요약문을 생성한다는 것 또한 도출될 수 있다. 그러므로 문서의 상대적 특징을 반영한 문서 요약 방법은 다중 문서 요약 시스템에 활용되어 좋은 성능을 나타낼 수 있다.

Claims

문서의 상대적 특징을 반영한 문서 요약 방법에 있어서, 상기 방법은
대상 문서와 배경 문서들을 그래프로 모델링하는 단계;
문장 간 유사도에 기반하여 문장들을 클러스터링하는 단계; 및
상기 대상 문서와 배경 문서들 간 공통 특징들과 고유 특징들 중 적어도 하나를 포함하여 문장들을 랭킹(ranking)하는 단계를 포함하되,
상기 문장 간 유사도에 기반하여 문장들을 클러스터링하는 단계는
각 클러스터가 유사한 문장들로 구성되는 스펙트럴 클러스터링을 하는 단계; 및
각 클러스터별 불순도(impurity)를 측정하는 엔트로피를 계산하는 단계를 포함하는 문서의 상대적 특징을 반영한 문서 요약 방법.
제1항에 있어서,
상기 대상 문서와 배경 문서들을 그래프로 모델링하는 단계는
사용자 요청에 대응하는 대상 문서 및 상기 대상 문서와 유사한 콘텐츠를 가지는 배경 문서들을 수집하는 단계;
상기 대상 문서와 배경 문서들로부터 문장들을 분리하는 단계;
상기 문장들에서 불용어를 제거하는 단계;
상기 문장들 각각의 텍스트에서 어간을 추출하여 해당 문장을 변형하는 단계;
상기 분리된 문장들 간 유사도를 계산하는 단계; 및
상기 분리된 문장들과 상기 유사도를 그래프로 표현하는 단계를 포함하는 문서의 상대적 특징을 반영한 문서 요약 방법.
제2항에 있어서,
상기 분리된 문장들 간 유사도를 계산하는 단계는 자카드 유사도(Jaccard Similarity)를 이용하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 방법.
삭제
제1항에 있어서,
상기 엔트로피는 다음 수학식

,
(
,
: 해당 클러스터의 정규화된 엔트로피,
:
번째 문서로부터의 문장 개수,
: 해당 클러스터의 문장들의 총 수,
: 해당 클러스터 내 문서의 수)
을 이용하여 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 방법.
제1항에 있어서,
상기 문장들을 랭킹(ranking)하는 단계는
문장 간 유사도, 클러스터의 크기, 클러스터의 엔트로피 중 적어도 하나를 포함하여 문장 간 가중치를 계산하는 단계; 및
텍스트랭크(TextRank) 알고리즘에 기반하여 문장 점수를 계산하는 단계를 포함하는 문서의 상대적 특징을 반영한 문서 요약 방법.
제6항에 있어서,
상기 문장 간 가중치는 다음 수학식

(
,
:
와
를 포함하는 클러스터
의 엔트로피,
: 두 문장 간 자카드 유사도(Jaccard Similarity),
,
: 클러스터
의 크기,
: 다양성 파라미터)
을 이용하여 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 방법.
제7항에 있어서,
상기 문장 점수는 다음 수학식

(
: 0.85로 설정된 댐핑 팩터(damping factor),
:
에 인접한 이웃 세트)
을 이용하여 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 방법.
제1항에 있어서,
상기 방법은
문장 랭킹 순위가 높은 문장들을 추출하여 요약문을 생성하는 단계를 더 포함하는 문서의 상대적 특징을 반영한 문서 요약 방법.
대상 문서와 배경 문서들을 그래프로 모델링하고, 문장 간 유사도에 기반하여 문장들을 클러스터링하고, 대상 문서와 배경 문서들 간 공통 특징들과 고유 특징들 중 적어도 하나를 포함하여 문장들을 랭킹(ranking)하는 문장 점수 계산부를 포함하되,
대상 문서와 배경 문서들을 그래프로 모델링하는 문서 모델링 수단;
문장 간 유사도에 기반하여 문장들을 클러스터링하는 클러스터링 수단; 및
대상 문서와 배경 문서들 간 공통 특징들과 고유 특징들 중 적어도 하나를 포함하여 문장들을 랭킹(ranking)하는 문장 랭킹 수단을 포함하고,
상기 클러스터링 수단은
각 클러스터가 유사한 문장들로 구성되는 스펙트럴 클러스터링을 하고, 각 클러스터별 불순도(impurity)를 측정하는 엔트로피를 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 시스템.
삭제
제10항에 있어서,
상기 문서 모델링 수단은
사용자 요청에 대응하는 대상 문서 및 상기 대상 문서와 유사한 콘텐츠를 가지는 배경 문서들을 수집하고, 상기 대상 문서와 배경 문서들로부터 문장들을 분리하고, 상기 문장들에서 불용어를 제거하고, 상기 문장들 각각의 텍스트에서 어간을 추출하여 해당 문장을 변형하고, 상기 분리된 문장들 간 유사도를 계산하고, 상기 분리된 문장들과 상기 유사도를 그래프로 표현하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 시스템.
제12항에 있어서,
상기 분리된 문장들 간 유사도는 자카드 유사도(Jaccard Similarity)를 이용하여 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 시스템.
삭제
제10항에 있어서,
상기 엔트로피는 다음 수학식

,
(
,
: 해당 클러스터의 정규화된 엔트로피,
:
번째 문서로부터의 문장 개수,
: 해당 클러스터의 문장들의 총 수,
: 해당 클러스터 내 문서의 수)
을 이용하여 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 시스템.
제10항에 있어서,
상기 문장 랭킹(ranking)수단은
문장 간 유사도, 클러스터의 크기, 클러스터의 엔트로피 중 적어도 하나를 포함하여 문장 간 가중치를 계산하고, 텍스트랭크(TextRank) 알고리즘에 기반하여 문장 점수를 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 시스템.
제16항에 있어서,
상기 문장 간 가중치는 다음 수학식

(
,
:
와
를 포함하는 클러스터
의 엔트로피,
: 두 문장 간 자카드 유사도(Jaccard Similarity),
,
: 클러스터
의 크기,
: 다양성 파라미터)
을 이용하여 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 시스템.
제17항에 있어서,
상기 문장 점수는 다음 수학식

(
: 0.85로 설정된 댐핑 팩터(damping factor),
:
에 인접한 이웃 세트)
을 이용하여 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 시스템.
제10항에 있어서,
상기 시스템은
문서 요약에 대한 사용자 요청을 수신하는 사용자 요청 수신부; 및
문장 랭킹 순위가 높은 문장들을 추출하여 요약문을 생성하는 요약문 생성부를 더 포함하는 문서의 상대적 특징을 반영한 문서 요약 시스템.