KR101710010B1 - 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템 - Google Patents

문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템 Download PDF

Info

Publication number
KR101710010B1
KR101710010B1 KR1020150189996A KR20150189996A KR101710010B1 KR 101710010 B1 KR101710010 B1 KR 101710010B1 KR 1020150189996 A KR1020150189996 A KR 1020150189996A KR 20150189996 A KR20150189996 A KR 20150189996A KR 101710010 B1 KR101710010 B1 KR 101710010B1
Authority
KR
South Korea
Prior art keywords
document
sentences
sentence
cluster
similarity
Prior art date
Application number
KR1020150189996A
Other languages
English (en)
Inventor
김누리
이지형
이재동
김다해
김베드로
Original Assignee
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단 filed Critical 성균관대학교산학협력단
Priority to KR1020150189996A priority Critical patent/KR101710010B1/ko
Application granted granted Critical
Publication of KR101710010B1 publication Critical patent/KR101710010B1/ko

Links

Images

Classifications

    • G06F17/21
    • G06F17/211
    • G06F17/2705
    • G06F17/273
    • G06F17/30705

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 문서의 상대적 특징을 반영한 문서 요약 방법 및 문서 요약 시스템을 제공한다. 상기 방법은 대상 문서와 배경 문서들을 그래프로 모델링하는 단계, 문장 간 유사도에 기반하여 문장들을 클러스터링하는 단계와 상기 대상 문서와 배경 문서들 간 공통 특징들과 고유 특징들 중 적어도 하나를 포함하여 문장들을 랭킹(ranking)하는 단계를 포함한다.

Description

문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템{DOCUMENT SUMMARIZATION METHOD CONSIDERING RELATIVE CHARACTERISTICS IN A DOCUMENT SET AND DOCUMENT SUMMARIZATION SYSTEM USING THEREOF}
본 발명은 문서를 자동으로 요약하는 방법 및 시스템에 관한 것으로 더 구체적으로는 특허 문서와 같은 특성화된 문서의 요약에 관한 것이다.
빅 데이터의 시대에서는, 문서들의 요약을 자동 생성하는 방법이 중요하게 된다. 일반적으로 대량의 문서들이 생성되는 연구 개발 프로젝트에서, 문서 요약 방법은 관리자들 또는 감독자들이 프로젝트를 이해하고 관리하는 것을 도울 수 있다. 문서 요약 방법들은 문서들의 중요 정보를 유지하는 한편, 문서 또는 문서 세트의 개요를 제공할 수 있다. 문서 요약의 주요 이슈는 주어진 문서의 각 단어 또는 문장이 문서의 중요 콘텐츠에 관련있는지 여부를 식별하는 것이다.
도 1 및 도 2는 종래 문서 요약 방법을 나타낸 도면이다. 도 1은 요약의 대상이 되는 문서 내에서 문장들의 스코어링(scoring)을 통한 문장 랭킹 기법의 순서도로 중요 문장을 추출하여 요약문을 생성한다. 도 2는 요약의 대상이 되는 문서 집합 내에서 문장들의 스코어링(scoring)을 통한 문장 랭킹 기법의 순서도로 중요 문장을 추출하여 요약문을 생성한다. 이 때 중요 문장은 전체 문서에서 공통적으로 나타나는 특징을 내포한다.
대부분의 종래 문서 요약 연구들은 요약을 위한 중요 정보를 캡처하기 위해 대상 문서들에만 초점을 맞추었다. 그러나, 유사한 콘텐츠를 가지는 다수의 문서들이 있는 경우, 단지 대상 문서들만을 고려하는 것은 좋은 요약을 생성하기에 충분하지 않을 수 있다. 유사한 콘텐츠를 가지는 문서들은 다른 문서들과 공유되는 공통 특징들뿐만 아니라, 그 자체의 고유 특징들을 가질 수 있다. 단지 대상 문서만을 고려하여 대상 문서로부터 중요 문장들을 추출하려 한다면, 문서들의 고유 특징들을 간과하기 쉽다. 해당 이슈에 대한 일반적이고 객관적인 사실들 같은, 많은 문서들에 의해 공유되는 공통 특징들이 해당 이슈에 대한 가장 중요한 정보일 수 있다. 따라서, 단일 문서 측면에서, 이러한 공통 특징들은 그 자체의 고유 특징들보다 더 중요하게 간주될 수 있다. 그러므로, 공통 특징들에 관련된 문장들은 고유 특징들에 관련된 문장들보다 더 쉽게 선택된다. 따라서, 공통 특징들 뿐만 아니라 고유 특징들까지 추출하여 좋은 요약을 생성하기 위해, 공통성과 내재성 모두를 고려하여 문장들을 평가할 필요가 있다.
본 발명의 목적은 문서 집합 내에서 요약을 대상으로 하는 문서와 그 외 문서들 사이에 존재하는 고유 특징을 분석하고, 대상 문서만이 갖는 고유 특징과 전체 문서들이 갖는 공통된 특징을 반영하여 문서를 자동 요약하는 문서의 상대적 특징을 반영한 문서 요약 방법 및 상기 방법을 이용하는 문서 요약 시스템을 제공하는 것이다.
본 발명의 일 측면에 따르면, 본 발명은 문서의 상대적 특징을 반영한 문서 요약 방법을 제공한다. 상기 방법은 대상 문서와 배경 문서들을 그래프로 모델링하는 단계, 문장 간 유사도에 기반하여 문장들을 클러스터링하는 단계와 상기 대상 문서와 배경 문서들 간 공통 특징들과 고유 특징들 중 적어도 하나를 포함하여 문장들을 랭킹(ranking)하는 단계를 포함한다.
상기 대상 문서와 배경 문서들을 그래프로 모델링하는 단계는 사용자 요청에 대응하는 대상 문서 및 상기 대상 문서와 유사한 콘텐츠를 가지는 배경 문서들을 수집하는 단계, 상기 대상 문서와 배경 문서들로부터 문장들을 분리하는 단계, 상기 문장들에서 불용어를 제거하는 단계, 상기 문장들 각각의 텍스트에서 어간을 추출하여 해당 문장을 변형하는 단계, 상기 분리된 문장들 간 유사도를 계산하는 단계와 상기 분리된 문장들과 상기 유사도를 그래프로 표현하는 단계를 포함할 수 있다.
상기 분리된 문장들 간 유사도를 계산하는 단계는 자카드 유사도(Jaccard Similarity)를 이용하는 것을 특징으로 할 수 있다.
상기 문장 간 유사도에 기반하여 문장들을 클러스터링하는 단계는 각 클러스터가 유사한 문장들로 구성되는 스펙트럴 클러스터링을 하는 단계와 각 클러스터별 불순도(impurity)를 측정하는 엔트로피를 계산하는 단계를 포함할 수 있다.
상기 엔트로피는 다음 수학식
Figure 112015128951062-pat00001
,
Figure 112015128951062-pat00002
(
Figure 112015128951062-pat00003
,
Figure 112015128951062-pat00004
: 해당 클러스터의 정규화된 엔트로피,
Figure 112015128951062-pat00005
:
Figure 112015128951062-pat00006
번째 문서로부터의 문장 개수,
Figure 112015128951062-pat00007
: 해당 클러스터의 문장들의 총 수,
Figure 112015128951062-pat00008
: 해당 클러스터 내 문서의 수)을 이용하여 계산하는 것을 특징으로 할 수 있다.
상기 문장들을 랭킹(ranking)하는 단계는 문장 간 유사도, 클러스터의 크기, 클러스터의 엔트로피 중 적어도 하나를 포함하여 문장 간 가중치를 계산하는 단계와 텍스트랭크(TextRank) 알고리즘에 기반하여 문장 점수를 계산하는 단계를 포함할 수 있다.
상기 문장 간 가중치는 다음 수학식
Figure 112015128951062-pat00009
(
Figure 112015128951062-pat00010
,
Figure 112015128951062-pat00011
:
Figure 112015128951062-pat00012
Figure 112015128951062-pat00013
를 포함하는 클러스터
Figure 112015128951062-pat00014
의 엔트로피,
Figure 112015128951062-pat00015
: 두 문장 간 자카드 유사도(Jaccard Similarity),
Figure 112015128951062-pat00016
,
Figure 112015128951062-pat00017
: 클러스터
Figure 112015128951062-pat00018
의 크기,
Figure 112015128951062-pat00019
: 다양성 파라미터)을 이용하여 계산하는 것을 특징으로 할 수 있다.
상기 문장 점수는 다음 수학식
Figure 112015128951062-pat00020
(
Figure 112015128951062-pat00021
: 0.85로 설정된 댐핑 팩터(damping factor),
Figure 112015128951062-pat00022
:
Figure 112015128951062-pat00023
에 인접한 이웃 세트)을 이용하여 계산하는 것을 특징으로 할 수 있다.
상기 문서의 상대적 특징을 반영한 문서 요약 방법은 문장 랭킹 순위가 높은 문장들을 추출하여 요약문을 생성하는 단계를 더 포함할 수 있다.
본 발명의 또다른 측면에 따르면, 본 발명은 문서의 상대적 특징을 반영한 문서 요약 시스템을 제공한다. 상기 시스템은 대상 문서와 배경 문서들을 그래프로 모델링하고, 문장 간 유사도에 기반하여 문장들을 클러스터링하고, 대상 문서와 배경 문서들 간 공통 특징들과 고유 특징들 중 적어도 하나를 포함하여 문장들을 랭킹(ranking)하는 문장 점수 계산부를 포함한다.
상기 문장 점수 계산부는 대상 문서와 배경 문서들을 그래프로 모델링하는 문서 모델링 수단, 문장 간 유사도에 기반하여 문장들을 클러스터링하는 클러스터링 수단과 대상 문서와 배경 문서들 간 공통 특징들과 고유 특징들 중 적어도 하나를 포함하여 문장들을 랭킹(ranking)하는 문장 랭킹 수단을 포함하는 것을 특징으로 할 수 있다.
상기 문서 모델링 수단은 사용자 요청에 대응하는 대상 문서 및 상기 대상 문서와 유사한 콘텐츠를 가지는 배경 문서들을 수집하고, 상기 대상 문서와 배경 문서들로부터 문장들을 분리하고, 상기 문장들에서 불용어를 제거하고, 상기 문장들 각각의 텍스트에서 어간을 추출하여 해당 문장을 변형하고, 상기 분리된 문장들 간 유사도를 계산하고, 상기 분리된 문장들과 상기 유사도를 그래프로 표현하는 것을 특징으로 할 수 있다.
상기 분리된 문장들 간 유사도는 자카드 유사도(Jaccard Similarity)를 이용하여 계산하는 것을 특징으로 할 수 있다.
상기 클러스터링 수단은 각 클러스터가 유사한 문장들로 구성되는 스펙트럴 클러스터링을 하고, 각 클러스터별 불순도(impurity)를 측정하는 엔트로피를 계산하는 것을 특징으로 할 수 있다.
상기 엔트로피는 다음 수학식
Figure 112015128951062-pat00024
,
Figure 112015128951062-pat00025
(
Figure 112015128951062-pat00026
,
Figure 112015128951062-pat00027
: 해당 클러스터의 정규화된 엔트로피,
Figure 112015128951062-pat00028
:
Figure 112015128951062-pat00029
번째 문서로부터의 문장 개수,
Figure 112015128951062-pat00030
: 해당 클러스터의 문장들의 총 수,
Figure 112015128951062-pat00031
: 해당 클러스터 내 문서의 수)을 이용하여 계산하는 것을 특징으로 할 수 있다.
상기 문장 랭킹(ranking)수단은 문장 간 유사도, 클러스터의 크기, 클러스터의 엔트로피 중 적어도 하나를 포함하여 문장 간 가중치를 계산하고, 텍스트랭크(TextRank) 알고리즘에 기반하여 문장 점수를 계산하는 것을 특징으로 할 수 있다.
상기 문장 간 가중치는 다음 수학식
Figure 112015128951062-pat00032
(
Figure 112015128951062-pat00033
,
Figure 112015128951062-pat00034
:
Figure 112015128951062-pat00035
Figure 112015128951062-pat00036
를 포함하는 클러스터
Figure 112015128951062-pat00037
의 엔트로피,
Figure 112015128951062-pat00038
: 두 문장 간 자카드 유사도(Jaccard Similarity),
Figure 112015128951062-pat00039
,
Figure 112015128951062-pat00040
: 클러스터
Figure 112015128951062-pat00041
의 크기,
Figure 112015128951062-pat00042
: 다양성 파라미터)을 이용하여 계산하는 것을 특징으로 할 수 있다.
상기 문장 점수는 다음 수학식
Figure 112015128951062-pat00043
(
Figure 112015128951062-pat00044
: 0.85로 설정된 댐핑 팩터(damping factor),
Figure 112015128951062-pat00045
:
Figure 112015128951062-pat00046
에 인접한 이웃 세트)을 이용하여 계산하는 것을 특징으로 할 수 있다.
상기 문서의 상대적 특징을 반영한 문서 요약 시스템은 문서 요약에 대한 사용자 요청을 수신하는 사용자 요청 수신부와 문장 랭킹 순위가 높은 문장들을 추출하여 요약문을 생성하는 요약문 생성부를 더 포함할 수 있다.
본 발명의 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템에 따르면 문서 집합 내에서 요약 대상 문서만이 갖는 고유 특징과 전체 문서들이 갖는 공통된 특징을 반영하여 문서를 자동 요약할 수 있다. 또한 대상 문서만의 특징을 중심적으로 요약하거나 그 정도를 설정할 수 있어 사용자가 원하는 요약 대상에 따라 구체적이고 명확한 정보를 제공할 수 있다.
도 1 및 도 2는 종래 방식에 따른 문서 요약 방법의 순서도이다.
도 3는 본 발명의 일 실시예에 따른 문서의 상대적 특징을 반영한 문서 요약 방법의 순서도이다.
도 4a 및 도 4b는 본 발명의 일 실시예에 따른 문서들을 그래프로 모델링하는 단계의 순서도 및 그래프 표현을 나타낸 도면이다.
도 5a 및 도 5b는 본 발명의 일 실시예에 따른 문장들을 클러스터링하는 단계의 순서도 및 클러스터링의 예를 나타낸 도면이다.
도 6a 및 도 6b는 본 발명의 일 실시예에 따른 문장들을 랭킹하는 단계의 순서도 및 텍스트랭크(TextRank) 적용의 예를 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 문서의 상대적 특징을 반영한 문서 요약 시스템의 개략적인 블록도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등을 포함하는 용어가 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재 항목들의 조합 또는 복수의 관련된 기재 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여 본 발명에 바람직한 실시 예를 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어 도면 부호에 상관없이 동일하거나 대응하는 구성요소는 동일한 참조번호를 부여하고 이에 대해 중복되는 설명은 생략하기로 한다.
문서의 상대적 특징을 반영한 문서 요약 방법
도 3은 본 발명의 일 실시예에 따른 문서의 상대적 특징을 반영한 문서 요약 방법의 순서도이다. 도 3을 참조하면, 문서의 상대적 특징을 반영한 문서 요약 방법은 문서 모델링 단계(S1), 문장 클러스터링 단계(S2) 및 문장 랭킹 단계(S3)를 포함한다. 또한 요약문 생성 단계(S4)를 더 포함할 수 있다.
상기 문서 모델링 단계(S1)는 공통 특징들 및 고유 특징들에 관하여 문장들을 스코어링하기 위해 문서들을 모델링하는 단계이다. 도 4를 참조하면, 이 단계는 요약 대상 문서 및 요약 대상 문서와 유사한 콘텐츠를 가지는 배경 문서들을 수집하는 단계(S11), 문서들의 모든 문장들을 분리하는 단계(S12), 전체 문장들에서 관사, 전치사, 조사 등의 불용어를 제거하는 단계(S13), 각 문장의 텍스트에서 어간을 추출하여 해당 문장을 변형시키는 단계(Stemming)(S14), 상기 분리된 문장들 간의 유사도를 계산하는 단계(S15)와 상기 분리된 문장들과 상기 유사도를 그래프로 표현하는 단계(S16)를 포함할 수 있다. 상기 유사도는 자카드 유사도(Jaccard Similarity)를 이용하여 계산될 수 있다. 자카드 유사도는 두 집합 사이의 유사도를 비교하기 위해 많이 사용되는 특정 방법 중 하나이다. 이 측정 방법은 두 집합의 교집합의 수를 두 집합의 합집합의 수로 나눔으로써 유사도를 측정한다(수학식 1).
Figure 112015128951062-pat00047
상기 그래프로 표현하는 단계(S16)에서는 각 문장을 정점으로, 각 간선을 문장 간 유사도로 표현하여 문서들을 그래프로 모델링한다(수학식 2 참조).
Figure 112015128951062-pat00048
(
Figure 112015128951062-pat00049
: 정점 세트,
Figure 112015128951062-pat00050
: 간선 세트)
도 4b는 문서의 그래프 모델링의 예를 나타낸 도면이다. 도 4b를 참조하면 각 정점은 특정 문서의 특정 문장을 나타내고, 각 간선은 두 문장간 유사도를 나타낸다.
상기 문장 클러스터링 단계(S2)는 유사한 문장들로 클러스터를 생성하는 단계이다. 도 5a를 참조하면, 이 단계(S2)는 스펙트럴 클러스터링 단계(S21) 및 클러스터별 엔트로피 계산 단계(S22)를 포함할 수 있다. 상기 스펙트럴 클러스터링 단계(S21)에서는 상기 그래프 표현에서 일부 간선을 제거하여 k개의 서로 고립된 성분 그래프로 분할한다. 이 때 동일한 성분 그래프 내 정점 간의 유사도의 합을 최대화하는 동시에, 서로 다른 성분 그래프에 속한 정점 간의 유사도의 합을 최소화하는 형태로 그래프를 분할한다. 스펙트럴 클러스터링은 그래프 기반 군집 분석 방법 중의 하나로 라플라시안(Laplacian) 행렬을 이용한 그래프 분할(graph partitioning) 기반의 군집분석 기법이다. 이 방법은 K-means 클러스터링과 같은 전통적인 군집 분석 기법과는 대조적으로 다양한 군집의 형태에 대해 좋은 성능을 보인다. 상기 클러스터별 엔트로피 계산 단계(S22)에서는 각 클러스터별 불순도를 나타내는 엔트로피를 계산한다. 각 클러스터에 속한 문장들이 다양한 문서들로부터 온 문장들이면 엔트로피 값은 높아지고, 그렇지 않으면 엔트로피 값은 낮아진다. 다음 수학식 3을 이용하여 각 클러스터별 엔트로피 값을 계산할 수 있다.
Figure 112015128951062-pat00051
(
Figure 112015128951062-pat00052
,
Figure 112015128951062-pat00053
: 해당 클러스터의 정규화된 엔트로피,
Figure 112015128951062-pat00054
:
Figure 112015128951062-pat00055
번째 문서로부터의 문장 개수,
Figure 112015128951062-pat00056
: 해당 클러스터의 문장들의 총 수,
Figure 112015128951062-pat00057
: 해당 클러스터 내 문서의 수)
각 클러스터 별 엔트로피는 각 클러스터의 문장 개수가 다르기 때문에 수학식 3에 나타난 바와 같이 그 최대 값(
Figure 112015128951062-pat00058
)으로 나누어 정규화된다.
도 5b는 클러스터링의 예를 나타낸 도면이다. 도 5b를 참조하면, 간선 거리가 가까운(유사한) 문장들끼리 군집화되는 것을 볼 수 있다.
상기 문장 랭킹 단계(S3)는 문서들 간 공통 특징들과 고유 특징들 중 적어도 하나를 포함하여 수정된 텍스트랭크(TextRank) 알고리즘으로 문장들을 랭킹하는 단계이다. 도 6a를 참조하면, 이 단계(S3)는 문장 간 가중치 계산 단계(S31)과 문장 점수 계산 단계(S32)를 포함할 수 있다. 상기 문장 간 가중치 계산 단계(S31)에서는 문장 간 유사도, 클러스터의 크기, 클러스터의 엔트로피 중 적어도 하나를 포함하여 문장 간 가중치를 계산한다. 다음의 수학식 4를 이용하여 문장 간 가중치를 계산할 수 있다.
Figure 112015128951062-pat00059
(
Figure 112015128951062-pat00060
,
Figure 112015128951062-pat00061
:
Figure 112015128951062-pat00062
Figure 112015128951062-pat00063
를 포함하는 클러스터
Figure 112015128951062-pat00064
의 엔트로피,
Figure 112015128951062-pat00065
: 두 문장 간 자카드 유사도(Jaccard Similarity),
Figure 112015128951062-pat00066
,
Figure 112015128951062-pat00067
: 클러스터
Figure 112015128951062-pat00068
의 크기,
Figure 112015128951062-pat00069
: 다양성 파라미터)
수학식 4에서 다양성 파라미터인
Figure 112015128951062-pat00070
를 조정하여 문서 요약시 전체 문서에 대한 공통 특징을 더 포함하게 할지, 요약 대상이 되는 문서에 대한 고유 특징을 더 포함하게 할지를 결정할 수 있다. 예를 들어,
Figure 112015128951062-pat00071
값이 0이면 고유 특징만을 포함하여 요약을 생성할 수 있고,
Figure 112015128951062-pat00072
값이 1이면 공통 특징만을 포함하여 요약을 생성할 수 있다.
상기 문장 점수 계산 단계(S32)는 상기 계산된 문장 간 가중치 값을 고려하여 문장들을 랭킹하는 단계이다. 상기 문장 점수는 다음 수학식 5를 이용하여 계산될 수 있다.
Figure 112015128951062-pat00073
(
Figure 112015128951062-pat00074
: 0.85로 설정된 댐핑 팩터(damping factor),
Figure 112015128951062-pat00075
:
Figure 112015128951062-pat00076
에 인접한 이웃 세트)
상기 수학식 5을 이용하여 수렴값을 가질 때까지 문장들의 점수를 계산하는 과정을 반복한다. 상기 수렴값으로 문장들의 순위를 매길 수 있다.
도 6b는 텍스트랭크(TextRank) 알고리즘 적용의 예이다. 도 6b에서 보는 바와 같이, 문장 간 간 유사도에 가중치를 부여의 결과를 간선 가중치값(Edge weights)이 클수록 그래프의 간선을 굵게 표시하여 나타낼 수 있다.
상기 요약문 생성단계(S4)는 상기 문장들의 랭킹 순위가 높은 문장들을 추출하여 요약문을 생성하는 단계이다. 이 단계에서는 사용자 디바이스 환경 또는 사용자의 사전 설정에 적합하도록 요약문의 길이를 조절하여 생성할 수 있다.
이하에서는, 본 발명의 또다른 실시예에 따른 문서의 상대적 특징을 반영한 문서 요약 시스템에 관해 설명한다.
문서의 상대적 특징을 반영한 문서 요약 시스템
도 7은 문서의 상대적 특징을 반영한 문서 요약 시스템의 개략적인 블록도의 예이다. 도 7를 참조하면, 상기 문서 요약 시스템은 사용자 요청 수신부(100), 문장 점수 계산부(200) 및 요약문 생성부(300)를 포함한다.
상기 사용자 요청 수신부(100)는 요약문 생성을 위한 사용자 요청을 수신한다. 자주 요청되는 특징은 미리 요청 목록을 제공하여 사용자가 선택하여 입력한 것을 수신할 수도 있다.
상기 문장 점수 계산부(200)는 문서 모델링 수단(210), 클러스터링 수단(220), 및 문장 랭킹 수단(230)을 포함한다.
상기 문서 모델링 수단(210)은 사용자 요청에 대응하는 대상 문서 및 상기 대상 문서와 유사한 콘텐츠를 가지는 배경 문서들을 수집하고, 상기 대상 문서와 배경 문서들로부터 문장들을 분리하고, 상기 분리된 문장들 간 유사도를 계산하고, 상기 분리된 문장들과 상기 유사도를 그래프로 표현한다.
상기 클러스터링 수단(220)은 각 클러스터가 유사한 문장들로 구성되는 스펙트럴 클러스터링을 하고, 각 클러스터별 불순도(impurity)를 측정하는 엔트로피를 계산한다. 상기 문장 랭킹 수단은 문장 간 유사도, 클러스터의 크기, 클러스터의 엔트로피 중 적어도 하나를 포함하여 문장 간 가중치를 계산하고, 텍스트랭크(TextRank) 알고리즘에 기반하여 문장 점수를 계산한다.
상기 요약문 생성부(300)는 상기 문장 점수를 기준으로 랭킹 순위가 높은 문장을 추출하여 요약문을 생성한다. 요약문 생성시, 사용자 디바이스 환경 또는 사용자의 사전 설정에 적합하도록 요약문의 길이를 조절하여 생성할 수 있다.
이하에서는 본 발명의 일 실시예에 따른 문서의 상대적 특징을 반영한 문서 요약 방법과 기존 문서 요약 방법과의 성능 비교 실험의 예를 설명한다.
실험 예
본 실험에서는 실험 데이터로 DUC(Document Understanding Conference)에서 제공하는 DUC 2002의 문서 세트를 사용하였다. DUC 2002 데이터세트는 60개의 문서 세트로 구성되고, 각 문서 세트당 10개의 문서가 존재하며, 각 문서의 10-200 단어 요약문이 제공된다. 그러나, DUC 2002 데이터세트는 단일 문서에만 초점을 두어 요약된 것이어서, 본 실험에서는 전문가에 의해 생성된 요약문들도 사용하였다. 전문가 데이터세트는 배경 문서 세트와 비교시 해당 문서만이 가지는 고유 및 중요 정보 모두를 고려하여 생성되었다.
평가 지표로는 ROUGE를 사용하였다. ROUGE-N은 후보 요약문과 참조 요약문들 간 n-gram 복원(recall)이다. ROUGE-N은 다음 수학식 6을 이용하여 계산된다.
Figure 112015128951062-pat00077
Figure 112015128951062-pat00078
은 두 문서의 유사도를 측정하기 위한 N-그램 알고리즘 기반의 지표이다. 수학식 6에서
Figure 112015128951062-pat00079
은 n-gram이고,
Figure 112015128951062-pat00080
은 참조 요약문들에서 발생하는 n-gram의 총 개수이다.
Figure 112015128951062-pat00081
는 후보 요약문이고,
Figure 112015128951062-pat00082
는 참조 요약문들이다.
다른 기법들과의 비교를 위해, 텍스트랭크(TextRank) 기법이 기본으로 사용되었다. 본 실험에서는 요약문의 길이와 클러스터
Figure 112015128951062-pat00083
의 개수를 각각 100과 2로 설정하였다. 정보 가중치 파라미터
Figure 112015128951062-pat00084
는 0부터 1 사이 값 중 0.2로 설정하였고, 댐핑 팩터(damping factor)
Figure 112015128951062-pat00085
는 0.85로 설정하였다.
다음 표 1 및 표2는 각각 DUC 2002 데이터세트와 전문가 데이터 세트를 사용한 실험 결과를 복원(Recall), 정확도(Precision) 및 F-measure로 평가한 것이다.
Figure 112015128951062-pat00086
Figure 112015128951062-pat00087
표 1 및 표 2에서 나타난 바와 같이,
Figure 112015128951062-pat00088
가 0에 가까울 때, 최상의 성능을 보인다. 달리 말하면, 특정 정보의 영향이 클수록, DUC 및 전문가에 의해 생성된 요약문에 유사해진다는 것을 의미한다. 또한, 전문가 요약문과의 비교 결과가 DUC 2002 요약문과의 비교 결과보다 더 좋은 결과를 보였다. 이러한 결과로부터, 대부분의 사람들은 여러 문서들을 요약할 때 중요한 정보뿐만 아니라 특정 정보를 고려하여 요약문을 생성한다는 것 또한 도출될 수 있다. 그러므로 문서의 상대적 특징을 반영한 문서 요약 방법은 다중 문서 요약 시스템에 활용되어 좋은 성능을 나타낼 수 있다.

Claims (19)

  1. 문서의 상대적 특징을 반영한 문서 요약 방법에 있어서, 상기 방법은
    대상 문서와 배경 문서들을 그래프로 모델링하는 단계;
    문장 간 유사도에 기반하여 문장들을 클러스터링하는 단계; 및
    상기 대상 문서와 배경 문서들 간 공통 특징들과 고유 특징들 중 적어도 하나를 포함하여 문장들을 랭킹(ranking)하는 단계를 포함하되,
    상기 문장 간 유사도에 기반하여 문장들을 클러스터링하는 단계는
    각 클러스터가 유사한 문장들로 구성되는 스펙트럴 클러스터링을 하는 단계; 및
    각 클러스터별 불순도(impurity)를 측정하는 엔트로피를 계산하는 단계를 포함하는 문서의 상대적 특징을 반영한 문서 요약 방법.
  2. 제1항에 있어서,
    상기 대상 문서와 배경 문서들을 그래프로 모델링하는 단계는
    사용자 요청에 대응하는 대상 문서 및 상기 대상 문서와 유사한 콘텐츠를 가지는 배경 문서들을 수집하는 단계;
    상기 대상 문서와 배경 문서들로부터 문장들을 분리하는 단계;
    상기 문장들에서 불용어를 제거하는 단계;
    상기 문장들 각각의 텍스트에서 어간을 추출하여 해당 문장을 변형하는 단계;
    상기 분리된 문장들 간 유사도를 계산하는 단계; 및
    상기 분리된 문장들과 상기 유사도를 그래프로 표현하는 단계를 포함하는 문서의 상대적 특징을 반영한 문서 요약 방법.
  3. 제2항에 있어서,
    상기 분리된 문장들 간 유사도를 계산하는 단계는 자카드 유사도(Jaccard Similarity)를 이용하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 엔트로피는 다음 수학식
    Figure 112016101961773-pat00089
    ,
    (
    Figure 112016101961773-pat00090
    ,
    Figure 112016101961773-pat00091
    : 해당 클러스터의 정규화된 엔트로피,
    Figure 112016101961773-pat00092
    :
    Figure 112016101961773-pat00093
    번째 문서로부터의 문장 개수,
    Figure 112016101961773-pat00094
    : 해당 클러스터의 문장들의 총 수,
    Figure 112016101961773-pat00095
    : 해당 클러스터 내 문서의 수)
    을 이용하여 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 방법.
  6. 제1항에 있어서,
    상기 문장들을 랭킹(ranking)하는 단계는
    문장 간 유사도, 클러스터의 크기, 클러스터의 엔트로피 중 적어도 하나를 포함하여 문장 간 가중치를 계산하는 단계; 및
    텍스트랭크(TextRank) 알고리즘에 기반하여 문장 점수를 계산하는 단계를 포함하는 문서의 상대적 특징을 반영한 문서 요약 방법.
  7. 제6항에 있어서,
    상기 문장 간 가중치는 다음 수학식
    Figure 112015128951062-pat00096

    (
    Figure 112015128951062-pat00097
    ,
    Figure 112015128951062-pat00098
    :
    Figure 112015128951062-pat00099
    Figure 112015128951062-pat00100
    를 포함하는 클러스터
    Figure 112015128951062-pat00101
    의 엔트로피,
    Figure 112015128951062-pat00102
    : 두 문장 간 자카드 유사도(Jaccard Similarity),
    Figure 112015128951062-pat00103
    ,
    Figure 112015128951062-pat00104
    : 클러스터
    Figure 112015128951062-pat00105
    의 크기,
    Figure 112015128951062-pat00106
    : 다양성 파라미터)
    을 이용하여 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 방법.
  8. 제7항에 있어서,
    상기 문장 점수는 다음 수학식
    Figure 112015128951062-pat00107

    (
    Figure 112015128951062-pat00108
    : 0.85로 설정된 댐핑 팩터(damping factor),
    Figure 112015128951062-pat00109
    :
    Figure 112015128951062-pat00110
    에 인접한 이웃 세트)
    을 이용하여 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 방법.
  9. 제1항에 있어서,
    상기 방법은
    문장 랭킹 순위가 높은 문장들을 추출하여 요약문을 생성하는 단계를 더 포함하는 문서의 상대적 특징을 반영한 문서 요약 방법.
  10. 대상 문서와 배경 문서들을 그래프로 모델링하고, 문장 간 유사도에 기반하여 문장들을 클러스터링하고, 대상 문서와 배경 문서들 간 공통 특징들과 고유 특징들 중 적어도 하나를 포함하여 문장들을 랭킹(ranking)하는 문장 점수 계산부를 포함하되,
    대상 문서와 배경 문서들을 그래프로 모델링하는 문서 모델링 수단;
    문장 간 유사도에 기반하여 문장들을 클러스터링하는 클러스터링 수단; 및
    대상 문서와 배경 문서들 간 공통 특징들과 고유 특징들 중 적어도 하나를 포함하여 문장들을 랭킹(ranking)하는 문장 랭킹 수단을 포함하고,
    상기 클러스터링 수단은
    각 클러스터가 유사한 문장들로 구성되는 스펙트럴 클러스터링을 하고, 각 클러스터별 불순도(impurity)를 측정하는 엔트로피를 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 시스템.
  11. 삭제
  12. 제10항에 있어서,
    상기 문서 모델링 수단은
    사용자 요청에 대응하는 대상 문서 및 상기 대상 문서와 유사한 콘텐츠를 가지는 배경 문서들을 수집하고, 상기 대상 문서와 배경 문서들로부터 문장들을 분리하고, 상기 문장들에서 불용어를 제거하고, 상기 문장들 각각의 텍스트에서 어간을 추출하여 해당 문장을 변형하고, 상기 분리된 문장들 간 유사도를 계산하고, 상기 분리된 문장들과 상기 유사도를 그래프로 표현하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 시스템.
  13. 제12항에 있어서,
    상기 분리된 문장들 간 유사도는 자카드 유사도(Jaccard Similarity)를 이용하여 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 시스템.
  14. 삭제
  15. 제10항에 있어서,
    상기 엔트로피는 다음 수학식
    Figure 112016101961773-pat00111
    ,
    (
    Figure 112016101961773-pat00112
    ,
    Figure 112016101961773-pat00113
    : 해당 클러스터의 정규화된 엔트로피,
    Figure 112016101961773-pat00114
    :
    Figure 112016101961773-pat00115
    번째 문서로부터의 문장 개수,
    Figure 112016101961773-pat00116
    : 해당 클러스터의 문장들의 총 수,
    Figure 112016101961773-pat00117
    : 해당 클러스터 내 문서의 수)
    을 이용하여 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 시스템.
  16. 제10항에 있어서,
    상기 문장 랭킹(ranking)수단은
    문장 간 유사도, 클러스터의 크기, 클러스터의 엔트로피 중 적어도 하나를 포함하여 문장 간 가중치를 계산하고, 텍스트랭크(TextRank) 알고리즘에 기반하여 문장 점수를 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 시스템.
  17. 제16항에 있어서,
    상기 문장 간 가중치는 다음 수학식
    Figure 112015128951062-pat00118

    (
    Figure 112015128951062-pat00119
    ,
    Figure 112015128951062-pat00120
    :
    Figure 112015128951062-pat00121
    Figure 112015128951062-pat00122
    를 포함하는 클러스터
    Figure 112015128951062-pat00123
    의 엔트로피,
    Figure 112015128951062-pat00124
    : 두 문장 간 자카드 유사도(Jaccard Similarity),
    Figure 112015128951062-pat00125
    ,
    Figure 112015128951062-pat00126
    : 클러스터
    Figure 112015128951062-pat00127
    의 크기,
    Figure 112015128951062-pat00128
    : 다양성 파라미터)
    을 이용하여 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 시스템.
  18. 제17항에 있어서,
    상기 문장 점수는 다음 수학식
    Figure 112015128951062-pat00129

    (
    Figure 112015128951062-pat00130
    : 0.85로 설정된 댐핑 팩터(damping factor),
    Figure 112015128951062-pat00131
    :
    Figure 112015128951062-pat00132
    에 인접한 이웃 세트)
    을 이용하여 계산하는 것을 특징으로 하는 문서의 상대적 특징을 반영한 문서 요약 시스템.
  19. 제10항에 있어서,
    상기 시스템은
    문서 요약에 대한 사용자 요청을 수신하는 사용자 요청 수신부; 및
    문장 랭킹 순위가 높은 문장들을 추출하여 요약문을 생성하는 요약문 생성부를 더 포함하는 문서의 상대적 특징을 반영한 문서 요약 시스템.
KR1020150189996A 2015-12-30 2015-12-30 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템 KR101710010B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150189996A KR101710010B1 (ko) 2015-12-30 2015-12-30 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150189996A KR101710010B1 (ko) 2015-12-30 2015-12-30 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR101710010B1 true KR101710010B1 (ko) 2017-02-24

Family

ID=58313638

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150189996A KR101710010B1 (ko) 2015-12-30 2015-12-30 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101710010B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210151281A (ko) * 2020-06-04 2021-12-14 동국대학교 산학협력단 Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치
KR20220063806A (ko) * 2020-11-09 2022-05-18 주식회사 코난테크놀로지 인공지능을 이용한 음성 기반 세일즈 정보 추출 및 리드 추천방법과 이를 수행하는 데이터 분석장치
KR20220067183A (ko) * 2020-11-17 2022-05-24 주식회사 한글과컴퓨터 주요 키워드를 기반으로 전자 문서에 대한 요약문을 생성하는 전자 장치 및 그 동작 방법
US11836175B1 (en) 2022-06-29 2023-12-05 Microsoft Technology Licensing, Llc Systems and methods for semantic search via focused summarizations

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120083947A (ko) * 2011-01-19 2012-07-27 훈 백 슬레이브 디스플레이 장치, 셋톱박스 및 이를 포함하는 디지털 콘텐츠 제어 시스템
KR20140012613A (ko) * 2010-09-08 2014-02-03 엔테그리스, 아이엔씨. 고 전도성 정전 척

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140012613A (ko) * 2010-09-08 2014-02-03 엔테그리스, 아이엔씨. 고 전도성 정전 척
KR20120083947A (ko) * 2011-01-19 2012-07-27 훈 백 슬레이브 디스플레이 장치, 셋톱박스 및 이를 포함하는 디지털 콘텐츠 제어 시스템

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210151281A (ko) * 2020-06-04 2021-12-14 동국대학교 산학협력단 Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치
KR102535852B1 (ko) * 2020-06-04 2023-05-24 동국대학교 산학협력단 Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치
KR20220063806A (ko) * 2020-11-09 2022-05-18 주식회사 코난테크놀로지 인공지능을 이용한 음성 기반 세일즈 정보 추출 및 리드 추천방법과 이를 수행하는 데이터 분석장치
KR102507810B1 (ko) 2020-11-09 2023-03-10 주식회사 코난테크놀로지 인공지능을 이용한 음성 기반 세일즈 정보 추출 및 리드 추천방법과 이를 수행하는 데이터 분석장치
KR20220067183A (ko) * 2020-11-17 2022-05-24 주식회사 한글과컴퓨터 주요 키워드를 기반으로 전자 문서에 대한 요약문을 생성하는 전자 장치 및 그 동작 방법
KR102500725B1 (ko) * 2020-11-17 2023-02-16 주식회사 한글과컴퓨터 주요 키워드를 기반으로 전자 문서에 대한 요약문을 생성하는 전자 장치 및 그 동작 방법
US11836175B1 (en) 2022-06-29 2023-12-05 Microsoft Technology Licensing, Llc Systems and methods for semantic search via focused summarizations

Similar Documents

Publication Publication Date Title
JP5531395B2 (ja) 単語親和度による単語クラスタの識別
KR101681109B1 (ko) 대표 색인어와 유사도를 이용한 문서 자동 분류 방법
KR101923146B1 (ko) 워드 벡터를 이용한 시맨틱 검색 시스템 및 방법
RU2547213C2 (ru) Присвоение применимых на практике атрибутов данных, которые описывают идентичность личности
US8812504B2 (en) Keyword presentation apparatus and method
AU2015299050A1 (en) Methods and systems for mapping data items to sparse distributed representations
JP2009537901A (ja) 検索による注釈付与
KR101710010B1 (ko) 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템
KR20130056207A (ko) 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램
KR20160098084A (ko) 관심대상 문서 필터링 시스템 및 그 방법
KR101616544B1 (ko) Lda를 이용한 특허 문헌 분석 방법
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
KR101651780B1 (ko) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템
Pedersen et al. Automatic cluster stopping with criterion functions and the gap statistic
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP5324677B2 (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
KR101753768B1 (ko) 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
Pal et al. Word sense disambiguation in Bengali: An unsupervised approach
JP5362807B2 (ja) ドキュメントランク付け方法および装置
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
US10984005B2 (en) Database search apparatus and method of searching databases
Moloshnikov et al. An algorithm of finding thematically similar documents with creating context-semantic graph based on probabilistic-entropy approach
US9104755B2 (en) Ontology enhancement method and system
JP2010128598A (ja) 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200217

Year of fee payment: 4