KR102546412B1

KR102546412B1 - 딥러닝 기반의 유형별 문서의 요약문 생성 시스템

Info

Publication number: KR102546412B1
Application number: KR1020220176859A
Authority: KR
Inventors: 고형석; 심지현; 이홍재
Original assignee: 주식회사 유알피
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-06-22

Abstract

본 발명은 딥러닝 기반의 유형별 문서의 요약문 생성 시스템에 관한 것으로, 논문, 뉴스기사, 보고서, 결재문서 등의 유형별로 분류한 문서 전체를 문장 단위로 분리하고, 상기 분리한 문장 중에서 핵심 문장을 추출하고, 상기 추출한 핵심 문장을 이용하여 요약문을 생성함으로써, 문서의 실제 내용과 가장 근사한 요약문을 생성할 수 있도록 하는 딥러닝 기반의 유형별 문서의 요약문 생성 시스템에 관한 것이다.

Description

딥러닝 기반의 유형별 문서의 요약문 생성 시스템{SYSTEM FOR GENERATING SUMMARY OF DOCUMENT BY TYPE BASED ON DEEP LEARNING}

본 발명은 딥러닝 기반의 유형별 문서의 요약문 생성 시스템에 관한 것으로, 더욱 상세하게는 논문, 뉴스기사, 보고서, 결재문서 등의 유형별로 분류한 문서 전체를 문장 단위로 분리하고, 상기 분리한 문장 중에서 핵심 문장을 추출하고, 상기 추출한 핵심 문장을 이용하여 요약문을 생성함으로써, 문서의 실제 내용과 가장 근사한 요약문을 생성할 수 있도록 하는 딥러닝 기반의 유형별 문서의 요약문 생성 시스템에 관한 것이다.

최근 디지털시대로 전환하면서, 아날로그적인 많은 부분이 디지털로서 점점 많이 변환되고 있다. 이러한 시대적 변환은 가정, 기업, 공공기관의 환경을 많이 변화시키고 있다. 특히, 사무실에서의 변화가 가장 극심한데, 사무실 내의 모든 문서가 페이퍼리스 정책에 따라 디지털화되어, 내부 결제 및 관리를 디지털 문서로서 유지되고 있다.

여기서, 디지털 문서들을 효과적으로 관리하고 검색하기 위해서는, 효과적인 데이터베이스를 구축하는 것이 중요하다. 이를 위해서, 문서들을 자동적으로 분석하여 요약문을 생성하는 모델이 필요한 실정이다.

그러나, 현재 문서의 종류가 무엇인지 자동으로 확인하고, 상기 확인한 문서 전체를 간략하게 요약한 요약문을 생성하는 기술이 개발 및 사용되지 못하여, 각종 유형의 문서에 대한 디지털화 작업에 많은 비용, 시간 및 인력이 소요되는 문제점이 있었다.

따라서 본 발명에서는 논문, 뉴스기사, 보고서, 결재문서 등의 유형에 따라 문서를 분류하고, 상기 분류한 문서 전체를 문장 단위로 분리한 후 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거하는 전처리를 수행하고, 상기 전처리한 문장 중에서 핵심 문장을 추출하고, 상기 추출한 핵심 문장을 이용하여 요약문을 생성할 수 있는 방안을 제시하고자 한다.

다음으로 본 발명의 기술분야에 존재하는 선행발명에 대하여 간단하게 설명하고, 이어서 본 발명이 상기 선행발명에 비해서 차별적으로 이루고자 하는 기술적 사항에 대해서 기술하고자 한다.

먼저 한국등록특허 제2217248호(2021.02.28.)는 적어도 하나 이상의 비정형 텍스트 문서를 읽어 들여, 상기 비정형 텍스트 문서의 상태를 판별하는 단계와, 판별된 비정형 텍스트 문서의 상태에 따라 적합한 임베딩 방식을 달리 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 단계와, 상기 벡터화된 문장에 대하여 조사 또는 어미가 있는 경우가 고려된 시퀀스-투-시퀀스(Sequence to sequence) 모델을 적용함으로써 상기 비정형 텍스트 문서로부터 요약문을 생성하는 단계를 포함하는 텍스트 문서 요약을 위한 자질 추출 및 학습 방법에 관한 선행발명이다.

또한 한국등록특허 제2402466호(2022.05.26.)는 사용자 입력 쿼리와 요약할 문서들로부터 키워드를 추출하고, 상기 추출된 키워드의 랭킹을 계산하는 단계, 상기 계산된 키워드의 랭킹을 기반으로 클러스터링하고, 상기 클러스터링된 클러스터별로 중심이 되는 서브 토픽을 찾아 클러스터별로 키워드의 랭킹을 재계산하는 단계, 및 상기 재계산된 키워드의 랭킹을 기반으로 클러스터별 문장 스코어를 계산하고, 상기 계산된 문장 스코어의 순위가 기설정된 순위 이상인 상위 문장을 상기 문서들의 클러스터별 요약 결과로 제공하는 단계를 포함하는 키워드 클러스터링을 이용한 문서 요약 방법 및 장치에 관한 선행발명이다.

하지만, 본 발명은 유형별로 분류한 문서 전체를 문장 단위로 분리 및 전처리하고, 이들 문장 중에서 추출한 핵심 문장으로부터 요약문을 생성하는 것이므로, 비정형 텍스트 문서를 읽어, 문서의 상태에 따라 적합한 임베딩 방식을 적용하여 문장을 벡터화한 후 요약문을 생성하는 상기 한국등록특허 제2217248호, 및 사용자 입력 쿼리와 요약할 문서로부터 키워드를 추출하고, 추출된 키워드의 랭킹을 계산하여 클러스터링하고, 클러스터별 요약결과를 제공하는 상기 한국등록특허 제2402466호와 비교할 때, 현저한 구성상 차이점이 있다.

본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 논문, 뉴스기사, 보고서, 결재문서 등의 각종 유형별 문서에 근사한 요약문을 생성할 수 있는 시스템 및 방법을 제공하는 것을 목적으로 한다.

또한 본 발명은 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거한 정제된 문장만을 이용하여 문서 전체에서 요약문을 생성할 수 있는 시스템 및 방법을 제공하는 것을 다른 목적으로 한다.

또한 본 발명은 문서의 길이, 문서 구조(예: 표지, 제목, 목차, 본문, 표 등) 등의 패턴을 이용하거나 딥러닝 학습모델을 통해 문서 유형을 분류하고, 상기 분류한 문서 유형에 따라 문장 단위 분리 및 전처리를 수행하고, 상기 전처리한 문장 중에서 핵심 문장을 추출하여 요약문을 생성할 수 있는 시스템 및 방법을 제공하는 것을 또 다른 목적으로 한다.

본 발명의 일 실시예에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 시스템은, 문서의 유형을 분류하는 문서 유형 분류부; 상기 분류한 문서에서 적어도 하나 이상의 핵심 문장을 추출하는 핵심 문장 추출부; 및 상기 추출한 적어도 하나 이상의 핵심 문장을 참조하여 요약문을 생성하는 요약문 생성부;를 포함하며, 특정 유형으로 분류된 문서에서 추출한 문장을 토대로 상기 문서의 실제 내용과 근사한 요약문을 생성할 수 있다.

또한, 상기 유형별 문서의 요약문 생성 시스템은, 상기 문서 유형 분류부를 통해 특정 유형으로 분류된 문서 전체를 문장 단위로 분리하는 문서 분리부; 및 상기 문장 단위로 분리한 각 문장에서 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거하는 전처리부;를 더 포함할 수 있다.

또한, 상기 유형별 문서의 요약문 생성 시스템은, 클라이언트 단말로부터 요약문 생성을 위한 각 유형별 문서를 수집하는 문서 수집부; 및 상기 클라이언트 단말로부터 요약문 생성을 위한 문서를 제공받는 문서 입력부;를 더 포함하며, 상기 클라이언트 단말은, 상기 문서에 대한 요약문을 생성하여 저장, 관리하기 위한 정부기관, 지방자치단체, 기업 및 개인이 사용하는 통신단말일 수 있다.

또한, 상기 문서 유형 분류부는, 기 생성된 유형 분류용 딥러닝 학습모델에 문서를 입력하여 논문, 뉴스기사, 보고서 및 결재문서를 포함한 문서의 유형을 분류하거나, 또는 상기 문서의 길이나 구조를 확인하고, 상기 확인한 문서의 길이나 구조를 기설정된 패턴과 비교하여 문서의 유형을 분류할 수 있다.

또한, 상기 핵심 문장 추출부는, 기 생성된 유사 의미 문장 추출용 딥러닝 학습모델을 이용하여 상기 전처리부를 통해 정제된 상기 문서의 각 문장 중에서 본문과 유사한 의미의 문장을 순위별로 추출하는 것으로 핵심 문장을 추출하거나, 상기 전처리부를 통해 정제된 상기 문서의 각 문장을 기 생성된 요약문 적합여부 검출용 딥러닝 학습모델에 입력하여 요약문으로 적합한지를 확인한 다음 이진분류를 수행하는 것으로 핵심 문장을 추출하거나, 또는 상기 전처리부를 통해 정제된 상기 문서의 각 문장 내 단어를 이용한 가중치 계산을 통해서 핵심 문장을 추출할 수 있다.

또한, 상기 요약문 생성부는, 상기 핵심 문장 추출부를 통해 추출한 적어도 하나 이상의 핵심 문장을 토대로 사전에 설정된 횟수만큼 요약문을 생성하고, 상기 생성한 요약문 중에서 핵심 문장에 없는 신규 단어가 가장 적은 문장을 최종 요약문으로 선택할 수 있다.

아울러, 본 발명의 일 실시예에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 방법은, 유형별 문서의 요약문 생성 시스템에서, 문서의 유형을 분류하는 문서 유형 분류 단계; 상기 유형별 문서의 요약문 생성 시스템에서, 상기 분류한 문서에서 적어도 하나 이상의 핵심 문장을 추출하는 핵심 문장 추출 단계; 및 상기 유형별 문서의 요약문 생성 시스템에서, 상기 추출한 적어도 하나 이상의 핵심 문장을 참조하여 요약문을 생성하는 요약문 생성 단계;를 포함하며, 특정 유형으로 분류된 문서에서 추출한 문장을 토대로 상기 문서의 실제 내용과 근사한 요약문을 생성할 수 있다.

또한, 상기 유형별 문서의 요약문 생성 방법은, 상기 유형별 문서의 요약문 생성 시스템에서, 상기 문서 유형 분류 단계를 통해 특정 유형으로 분류된 문서 전체를 문장 단위로 분리하는 문서 분리 단계; 및 상기 유형별 문서의 요약문 생성 시스템에서, 상기 문장 단위로 분리한 각 문장에서 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거하는 전처리 단계;를 더 포함할 수 있다.

또한, 상기 유형별 문서의 요약문 생성 방법은, 상기 유형별 문서의 요약문 생성 시스템에서, 클라이언트 단말로부터 요약문 생성을 위한 각 유형별 문서를 수집하는 문서 수집 단계; 및 상기 클라이언트 단말로부터 요약문 생성을 위한 문서를 제공받는 문서 입력 단계;를 더 포함하며, 상기 클라이언트 단말은, 상기 문서에 대한 요약문을 생성하여 저장, 관리하기 위한 정부기관, 지방자치단체, 기업 및 개인이 사용하는 통신단말일 수 있다.

또한, 상기 문서 유형 분류 단계는, 기 생성된 유형 분류용 딥러닝 학습모델에 문서를 입력하여 논문, 뉴스기사, 보고서 및 결재문서를 포함한 문서의 유형을 분류하거나, 또는 상기 문서의 길이나 구조를 확인하고, 상기 확인한 문서의 길이나 구조를 기설정된 패턴과 비교하여 문서의 유형을 분류할 수 있다.

또한, 상기 핵심 문장 추출 단계는, 기 생성된 유사 의미 문장 추출용 딥러닝 학습모델을 이용하여 상기 전처리 단계에서 정제된 상기 문서의 각 문장 중에서 본문과 유사한 의미의 문장을 순위별로 추출하는 것을 통해 핵심 문장을 추출하거나, 상기 전처리 단계에서 정제된 상기 문서의 각 문장을 기 생성된 요약문 적합여부 검출용 딥러닝 학습모델에 입력하여 요약문으로 적합한지를 확인한 다음 이진분류를 수행하는 것을 통해 핵심 문장을 추출하거나, 또는 상기 전처리 단계에서 정제된 상기 문서의 각 문장 내 단어를 이용한 가중치 계산을 통해 핵심 문장을 추출할 수 있다.

또한, 상기 요약문 생성 단계는, 상기 핵심 문장 추출 단계를 통해 추출한 적어도 하나 이상의 핵심 문장을 토대로 사전에 설정된 횟수만큼 요약문을 생성하는 단계: 및 상기 생성한 요약문 중에서 핵심 문장에 없는 신규 단어가 가장 적은 문장을 최종 요약문으로 선택하는 단계:를 포함할 수 있다.

이상에서와 같이 본 발명의 딥러닝 기반의 유형별 문서의 요약문 생성 시스템에 따르면, 문서 길이나 문서 구조 등의 패턴 또는 딥 러닝을 통해 논문, 뉴스기사, 보고서, 결재문서 등의 유형별 문서를 분류하고, 상기 분류한 문서 전체를 문장 단위로 분리한 후 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거하는 전처리를 수행하고, 상기 전처리한 문장 중에서 핵심 문장을 추출하고, 상기 추출한 핵심 문장을 이용하여 요약문을 생성함으로써, 문서의 실제 내용에 가장 근사한 요약문을 생성할 수 있는 효과가 있다.

다만, 본 발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 시스템을 포함한 전체 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 시스템의 구성을 보다 상세하게 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 방법의 동작과정을 상세하게 나타낸 순서도이다.

이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다.

또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.

도 1은 본 발명의 일 실시예에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 시스템을 포함한 전체 구성을 나타낸 도면이다.

도 1에 도시된 바와 같이, 본 발명은 딥러닝 기반의 유형별 문서의 요약문 생성 시스템(100, 이하 문서의 요약문 생성 시스템이라 약칭함), 복수의 클라이언트 단말(200), 데이터베이스(300) 등을 포함하여 구성된다.

또한, 상기 유형별 문서의 요약문 생성 시스템(100)은 도면에 도시하지는 않았지만, 하드웨어적으로는 프로세서, 메모리 및 이들을 연결하는 버스와 각종 인터페이스 카드 등을 포함하며, 소프트웨어적으로는 상기 메모리에 상기 프로세서를 통해서 구동할 프로그램들이 저장되어 있으며, 사용자나 네트워크상의 명령에 따라 동작을 수행하도록 사용자 인터페이스, 각종 동작프로그램의 업데이트를 관리하는 업데이트 관리부, 데이터베이스 등의 외부 장치와 데이터 송수신을 위한 인터페이스부 등을 추가로 포함할 수 있다.

상기 유형별 문서의 요약문 생성 시스템(100)은 논문, 뉴스기사, 보고서, 결재문서 등의 각종 유형별 문서에 대하여 가장 근사한 요약문을 생성하여 데이터베이스(300)에 저장, 관리하고, 상기 데이터베이스(300)에 저장, 관리중인 각종 문서를 이용하고자 하는 클라이언트의 검색 편의를 제공하기 위한 사업자가 운영하는 서버 컴퓨터이다.

상기 유형별 문서의 요약문 생성 시스템(100)은 각종 유형별 문서에 대한 요약문을 생성할 때, 두 가지 방식을 적용할 수 있다.

첫 번째 방식은, 상기 유형별 문서의 요약문 생성 시스템(100)에서 상기 각 클라이언트 단말(200)로부터 각종 유형별 문서를 주기적으로 직접 수집하여 요약문 생성을 수행하는 방식이다.

두 번째 방식은, 상기 유형별 문서의 요약문 생성 시스템(100)에서 상기 각 클라이언트 단말(200)의 요청에 따라 해당 클라이언트 단말(200)로부터 각종 유형별 문서를 직접 제공받아 요약문 생성을 수행하는 방식이다.

또한, 본 발명에서는 상기 유형별 문서의 요약문 생성 시스템(100)은 각 문서별로 생성하는 요약문의 품질 및 정확도를 향상시키기 위해서, 각 문서에서 불용어, 불용 문장, 특수문자, 표, 이미지 등을 제거하는 전처리 과정을 수행하며, 전처리를 수행한 문서를 대상으로 요약문을 생성할 수 있다.

또한, 상기 유형별 문서의 요약문 생성 시스템(100)은 상기 클라이언트 단말(200)로부터 수집하거나 혹은 제공받은 문서가 어떠한 유형의 문서인지를 분류할 때, 딥러닝 학습모델을 적용할 수 있으며, 유형을 확인한 문서로부터 요약문 생성을 위한 핵심 문장을 적어도 하나 이상 추출할 때에도 딥러닝 학습모델을 적용할 수 있다. 이에 대해서는 하기 도 2에서 보다 상세하게 설명하기로 한다.

또한, 상기 유형별 문서의 요약문 생성 시스템(100)은 각종 유형별 문서에 대한 요약문을 생성한 다음, 상기 생성한 요약문과 원본 문서를 상기 데이터베이스(300)에 저장하여 관리할 수 있다. 그리고 네트워크를 통해 통신 접속을 수행한 상기 클라이언트 단말(200)의 요청에 의해 요약문의 검색 서비스를 지원할 수 있다. 이때 해당 요약문을 확인한 클라이언트의 요구에 의해 원본 문서를 제공하는 것도 가능할 것이다.

상기 클라이언트 단말(200)은 각종 유형별 문서를 보유하고 있는 정부기관이나 지방자치단체의 관리자, 기업의 관리자는 물론, 개인이 사용하는 유무선 통신망 이용이 가능한 PC, 스마트폰, 태블릿 등의 각종 통신단말이다.

상기 클라이언트 단말(200)은 각종 유형별 문서를 수집하는 상기 유형별 문서의 요약문 생성 시스템(100)의 요청에 따라 보유하고 있는 문서를 제공할 수 있으며, 그 이외에 요약문 생성을 위한 문서를 직접 상기 유형별 문서의 요약문 생성 시스템(100)에 제공하는 것도 가능하다.

또한, 상기 클라이언트 단말(200)은 웹은 물론, 클라우드, 애플리케이션 프로그램 등을 통해 상기 유형별 문서의 요약문 생성 시스템(100)에 접속하여 각종 유형별 문서에 대한 요약문 검색을 수행할 수 있다.

상기 데이터베이스(300)는 상기 유형별 문서의 요약문 생성 시스템(100)에서 수행한 각종 유형별 문서로부터 생성한 요약문을 저장하여 관리한다. 이때 해당 요약문의 원본 문서와 링크할 수 있는 정보를 함께 저장할 수 있다.

또한 상기 데이터베이스(300)는 상기 유형별 문서의 요약문 생성 시스템(100)에서 사용되는 각종 동작프로그램은 물론, 문서의 유형분류나 요약문 생성 시 사용되는 딥러닝 학습모델을 저장하고 있다.

도 2는 본 발명의 일 실시예에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 시스템의 구성을 보다 상세하게 나타낸 블록도이다.

도 2에 도시된 바와 같이, 상기 유형별 문서의 요약문 생성 시스템(100)은 문서 수집부(110), 문서 입력부(120), 문서 유형 분류부(130), 문서 분리부(140), 전처리부(150), 핵심 문장 추출부(160), 요약문 생성부(170) 등을 포함하여 구성된다.

상기 문서 수집부(110)는 요약문 생성을 위한 문서를 주기적으로 수집하고, 상기 수집한 문서를 상기 문서 유형 분류부(130)로 제공한다. 예를 들어, 네트워크를 통해 정부기관, 지방자치단체 및 기업의 관리자, 일반 개별 사용자 등이 보유하고 있는 클라이언트 단말(200)로부터 논문, 뉴스기사, 보고서, 결재문서 등의 다양한 유형에 따른 문서를 수집하는 것이다.

상기 문서 입력부(120)는 요약문 생성을 위한 문서를 보유하고 있는 클라이언트 단말(200)로부터 제공되는 각종 유형별 문서를 입력받아 상기 문서 유형 분류부(130)로 제공한다.

이때 상기 문서 수집부(110)와 문서 입력부(120)는 상기 유형별 문서의 요약문 생성 시스템(100)의 사용 및 설치 환경에 따라 문서 수집이나 문서 입력 중 어느 하나만을 독립적으로 수행하거나, 동시에 수행하도록 구성될 수 있다.

또한, 상기 각 유형별 문서는 상기 각 클라이언트 단말(200) 이외에, 각 문서별 전문 데이터베이스 서버, 학교나 연구기관의 서버 등으로부터 수집 혹은 제공받아 요약문 생성에 사용할 수 있음을 밝혀둔다.

상기 문서 유형 분류부(130)는 상기 문서 수집부(110) 또는 문서 입력부(120)부터로 전달되는 문서의 유형을 분류하고, 상기 분류한 문서에 대한 정보(즉 어떠한 유형의 문서인지에 대한 정보)를 문서 분리부(140)로 제공한다.

이때 상기 문서 유형 분류부(130)는 문서 유형을 분류할 때 2가지 방식을 적용할 수 있다.

예를 들어, 기 생성된 유형 분류용 딥러닝 학습모델에 문서를 입력하여 문서의 유형을 분류하는 방식을 사용하거나, 상기 문서의 길이나 구조(예: 표지, 제목, 목차, 본문, 표 등)를 확인하고, 상기 확인한 문서의 길이나 구조를 기 설정된 패턴과 비교하여 문서의 유형을 분류하는 방식을 사용할 수 있다.

여기서, 상기 문서의 유형은 학술논문, 뉴스기사, 결과보고서, 평가서, 활용보고서, 보도자료, 사내 결재문서 등과 같이 정부, 기업, 개인 등이 사용하는 모든 형태의 문서를 적용할 수 있다.

또한, 상기 문서 유형 분류를 위한 방식은 하나의 예시로서, 본 발명에서는 상기 2가지 방식을 예로 하여 설명하지만, 그 이외에 문서 유형을 분류할 수 있는 방법이라면 제한을 두지 않고 사용 가능함을 밝혀둔다.

상기 문서 분리부(140)는 상기 문서 유형 분류부(130)를 통해 특정 유형으로 분류된 문서에 대한 정보가 전달되면, 상기 문서 전체를 문장 단위로 분리하고, 상기 분리한 각 문장을 상기 전처리부(150)로 제공한다.

이때 문장 분리의 규칙은 상기 문서 유형 분류부(130)에서 분류한 유형별로 다르게 설정될 수 있다. 예를 들어, 개행 기준으로 분리하거나, 마침표 기준으로 분리하는 등 다양한 규칙으로 설정할 수 있는 것이다.

상기 전처리부(150)는 상기 문서 분리부(140)를 통해 각각의 개별 문장 단위로 분리한 각 문장에서 문서 유형에 따라 정의된 불용어 및 불용 문장, 특수문자나 기호, 한자 치환, 표, 이미지 등을 제거하는 전처리(preprocessing) 작업을 수행하고, 상기 전처리 작업을 통해 정제된 문장을 상기 핵심 문장 추출부(160)로 제공한다.

여기서, 개체명 인식 결과 인명에 해당하는 언어, 서식과 관련된 단어, 특정 단어 이후에 나타나는 유형의 단어 등은 불용어로 정의하여 사전에 등록해 두고, 전처리 과정에서 활용할 수 있도록 한다.

이때 서식과 관련된 단어는 목차, 수신, 내부결재, 제목, 첨부, 붙임, 별첨, 관리번호, 문서번호, 사업명, 경유, 전화번호, 팩스번호, 심의자료, 구분, 직위 등의 단어로서, 띄어쓰기(예: 목 차, 사 업 명 등)를 포함할 수 있다. 또한 특정 단어 이후에 나타나는 유형의 단어는 아래와 같이, 다음과 같이, 붙임과 같이 등의 단어이다.

또한, 불용 문장의 경우에도 다음과 같이 정의하여 전처리 과정에서 활용할 수 있도록 한다.

예를 들어, 표, 이미지 등과 같이 문장 형태의 정보 값이 없는 길이 3천 이상인 문장, 문장 내 문자 비율 중 숫자가 80% 이상인 숫자 통계 등의 문장, 제목과 문장 간의 의미 벡터를 비교했을 때 85% 이상의 유사도를 보이는 문장(제목과 요약문이 중복으로 표시되는 경우를 방지), 한글 문서 추출 오류로 인한 문장(예: 이 문서는 상위 버전의 배포용 문서입니다. 문서를 읽으려면 최신 버전의 한글 또는 한글 전용 뷰어가 필요합니다), 숫자+'.' 혹은 숫자+')' 등으로 시작하는 문단 제목일 확률이 높은 길이 15자 미만의 문장(예: 4. 견적서 제출자격), 결재문서 유형(예: 가치 있는 우편 같이하는 행복, 국민의 나라 정의로운 대한민국, 오직 광주 시민과 함께, 시민행복 김포의 가치를 두 배로 등)의 문장 등은 불용 문장으로 정의하여 제거한다.

상기 핵심 문장 추출부(160)는 상기 전처리부(150)를 통해 정제된 문장들 중에서 적어도 하나 이상의 핵심 문장을 추출하고, 상기 추출한 핵심 문장을 상기 요약문 생성부(170)로 전달하여, 특정 유형으로 분류된 문서에서 추출한 핵심 문장을 토대로 상기 문서의 실제 내용과 근사한 요약문을 생성할 수 있도록 한다.

이때 상기 핵심 문장 추출부(160)는 전처리된 각 문장으로부터 핵심 문장을 추출할 때 다음과 같은 여러 가지 방식을 적용할 수 있다.

예를 들어, 상기 핵심 문장 추출부(160)는 기 생성된 유사 의미 문장 추출용 딥러닝 학습모델(SBERT(Sentence Bidirectional Encoder Representations from Transformers) 모델)을 이용하여 상기 전처리부(150)에서 정제한 각 문장 중에서 본문과 유사한 의미의 문장을 순위별로 추출하는 것을 통해서 적어도 하나 이상의 핵심 문장을 추출할 수 있다.

또한, 상기 핵심 문장 추출부(160)는 상기 전처리부(150)에서 정제한 각 문장을 기 생성된 요약문 적합여부 검출용 딥러닝 학습모델(BERTsum 모델)에 입력하여 요약문으로 적합한지를 확인한 다음, 이진분류를 수행하는 것을 통해서 적어도 하나 이상의 핵심 문장을 추출할 수 있다.

또한, 상기 핵심 문장 추출부(160)는 상기 전처리부(150)에서 정제한 각 문장 내 단어를 이용한 가중치 계산(TextRank 모델)을 통해서 적어도 하나 이상의 핵심 문장을 추출할 수 있다.

상기 요약문 생성부(170)는 상기 핵심 문장 추출부(160)에서 추출한 적어도 하나 이상의 핵심 문장을 참조하여 해당 문서와 가장 근사한 요약문을 생성하고, 이를 상기 데이터베이스(300)에 저장하여 관리한다.

여기서, 상기 요약문 생성부(170)는 요약 문장을 생성할 때 GPT3(Generative Pre-trained Transformer 3), BART(Bidirectional and Auto-Regressive Transformers), T5, PEGASUS(Pre-training with Extracted Gap-sentences for Abstractive Summarization), LED(Longformer Encoder-Decoder) 등 복수개의 모델을 포함할 수 있고, 상기 모델 중 정확도가 가장 높은 모델을 지정할 수 있다.

이때 상기 요약문 생성부(170)는 상기 핵심 문장 추출부(160)에서 추출한 적어도 하나 이상의 핵심 문장을 토대로 사전에 설정된 횟수(예를 들어, 3회)만큼 요약문을 생성하고, 상기 생성한 각 횟수별 요약문 중에서 핵심 문장에 없는 신규 단어가 가장 적은 문장을 확인하고, 이를 최종 요약문으로 선택하는 방식으로 요약문을 생성할 수 있다.

다음에는, 이와 같이 구성된 본 발명에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 방법의 일 실시예를 도 3을 참조하여 상세하게 설명한다. 이때 본 발명의 방법에 따른 각 단계는 사용 환경이나 당업자에 의해 순서가 변경될 수 있다.

도 3은 본 발명의 일 실시예에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 방법의 동작과정을 상세하게 나타낸 순서도이다.

도 3에 도시된 바와 같이, 유형별 문서의 요약문 생성 시스템(100)에서는 클라이언트 단말(200)로부터 요약문 생성을 위한 각 유형별 문서를 수집하거나, 또는 상기 클라이언트 단말(200)로부터 요약문 생성을 위한 문서를 제공받는 단계를 수행한다(S100).

즉, 각종 유형별 문서에 대한 요약문을 생성하여 저장, 관리하기 위한 정부기관, 지방자치단체, 기업 및 개인인 상기 클라이언트 단말(200)에 문서 제공을 요청하여 수집하거나, 상기 클라이언트 단말(200)로부터 문서의 요약문 생성을 요청받는 것이다.

이 과정에서, 상기 유형별 문서의 요약문 생성 시스템(100)은 문서 수집이나 문서 입력 중 어느 하나만을 독립적으로 수행하거나, 동시에 수행할 수 있다.

또한, 상기 유형별 문서의 요약문 생성 시스템(100)은 클라이언트로부터 수집 혹은 제공받은 문서의 유형을 분류하는 문서 유형 분류 단계를 수행한다(S200).

이때 상기 S200 단계를 통해 수행되는 문서 유형 분류는 기 생성된 유형 분류용 딥러닝 학습모델을 이용하거나, 상기 문서의 길이나 구조를 기설정된 패턴과 비교하는 방식을 통해 수행됨은 상기 설명한 바와 같다.

또한, 상기 유형별 문서의 요약문 생성 시스템(100)은 상기 S200 단계에서 특정 유형으로 분류된 문서 전체를 문장 단위로 분리하는 문서 분리 단계를 수행한다(S300).

이어서, 상기 유형별 문서의 요약문 생성 시스템(100)은 상기 S300 단계에서 문장 단위로 분리한 각 문장에서 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거하는 전처리 단계를 수행한다(S400).

또한, 상기 유형별 문서의 요약문 생성 시스템(100)은 상기 S400 단계에서 전처리된 각 문장으로부터 적어도 하나 이상의 핵심 문장을 추출하는 핵심 문장 추출 단계를 수행한다(S500).

예를 들어, SBERT 모델을 통해 상기 S400 단계에서 정제한 각 문장 중에서 본문과 유사한 의미의 문장을 순위별로 추출하여 핵심 문장을 추출하거나, BERTsum 모델을 통해 상기 S400 단계에서 정제한 각 문장이 요약문으로 적합한지를 확인하여 핵심 문장을 추출하거나, TextRank 모델을 통해 상기 S400 단계에서 정제한 각 문장 내 단어를 이용한 가중치에 따라 핵심 문장을 추출하는 것이다.

상기 S500 단계를 통해 특정 유형의 문서에서 분리한 각 문장 중에서 핵심 문장을 추출한 이후, 상기 유형별 문서의 요약문 생성 시스템(100)은 상기 추출한 적어도 하나 이상의 핵심 문장을 참조하여 요약문을 생성하는 요약문 생성 단계를 수행한다(S600). 즉, 특정 유형으로 분류된 문서에서 추출한 핵심 문장을 토대로 상기 문서의 실제 내용과 근사한 요약문을 생성하는 것이다.

이때 상기 유형별 문서의 요약문 생성 시스템(100)은 상기 S500 단계에서 추출한 적어도 하나 이상의 핵심 문장을 토대로 사전에 설정된 횟수만큼 요약문을 생성하고, 상기 생성한 요약문 중에서 핵심 문장에 없는 신규 단어가 가장 적은 문장을 최종 요약문으로 선택하는 방식으로 요약문을 생성함은 상기 설명한 바와 같다.

이처럼, 본 발명은 논문, 뉴스기사, 보고서, 결재문서 등의 유형으로 분류한 문서 전체를 문장 단위로 분리하고, 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거하는 전처리를 수행한 다음, 상기 전처리한 문장 중에서 딥 러닝을 통해 핵심 문장을 추출하여, 요약문을 생성하기 때문에, 문서의 실제 내용에 가장 근사한 요약문을 생성하는 것이 가능하다.

첨부된 도면은 본 발명의 기술적 사상을 보다 명확하게 표현하기 위해, 본 발명의 기술적 사상과 관련성이 없거나 떨어지는 구성에 대해서는 간략하게 표현하거나 생략하였다.

상기에서는 본 발명에 따른 실시예를 기준으로 본 발명의 구성과 특징을 설명하였으나 본 발명은 이에 한정되지 않으며, 본 발명의 사상과 범위 내에서 다양하게 변경 또는 변형할 수 있음은 본 발명이 속하는 기술분야의 당업자에게 명백한 것이며, 따라서 이와 같은 변경 또는 변형은 첨부된 특허청구범위에 속함을 밝혀둔다.

100 : 유형별 문서의 요약문 생성 시스템
110 : 문서 수집부 120 : 문서 입력부
130 : 문서 유형 분류부 140 : 문서 분리부
150 : 전처리부 160 : 핵심 문장 추출부
170 : 요약문 생성부 200 : 클라이언트 단말
300 : 데이터베이스

Claims

문서의 유형을 분류하는 문서 유형 분류부;
상기 분류한 문서에서 적어도 하나 이상의 핵심 문장을 추출하는 핵심 문장 추출부; 및
상기 추출한 적어도 하나 이상의 핵심 문장을 참조하여 요약문을 생성하는 요약문 생성부;를 포함하며,
상기 문서 유형 분류부는, 유형 분류용 딥러닝 모델에 문서를 입력하여, 학술논문, 뉴스기사, 결과보고서, 평가서, 활용보고서, 보도자료 및 사내 결재문서를 포함한 정부, 기업 및 개인이 사용하는 문서의 유형을 분류하는 것을 더 포함하며,
상기 요약문 생성부는, 상기 핵심 문장 추출부를 통해 추출한 적어도 하나 이상의 핵심 문장을 토대로 사전에 설정된 횟수만큼 요약문을 생성하고, 상기 생성한 요약문 중에서 핵심 문장에 없는 신규 단어가 가장 적은 문장을 최종 요약문으로 선택하는 것을 더 포함하며,
특정 유형으로 분류된 문서에서 추출한 문장을 토대로 상기 문서의 요약문을 생성하는 것을 특징으로 하는 딥러닝 기반의 유형별 문서의 요약문 생성 시스템.
청구항 1에 있어서,
상기 유형별 문서의 요약문 생성 시스템은,
상기 문서 유형 분류부를 통해 특정 유형으로 분류된 문서 전체를 문장 단위로 분리하는 문서 분리부; 및
상기 문장 단위로 분리한 각 문장에서 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거하는 전처리부;를 더 포함하는 것을 특징으로 하는 딥러닝 기반의 유형별 문서의 요약문 생성 시스템.
청구항 1에 있어서,
상기 유형별 문서의 요약문 생성 시스템은,
클라이언트 단말로부터 요약문 생성을 위한 각 유형별 문서를 수집하는 문서 수집부; 및
상기 클라이언트 단말로부터 요약문 생성을 위한 문서를 제공받는 문서 입력부;를 더 포함하며,
상기 클라이언트 단말은, 상기 문서에 대한 요약문을 생성하여 저장, 관리하기 위한 정부기관, 지방자치단체, 기업 및 개인이 사용하는 통신단말인 것을 특징으로 하는 딥러닝 기반의 유형별 문서의 요약문 생성 시스템.
삭제
청구항 2에 있어서,
상기 핵심 문장 추출부는,
유사 의미 문장 추출용 딥러닝 모델을 이용하여 상기 전처리부를 통해 정제된 상기 문서의 각 문장 중에서 본문과 유사한 의미의 문장을 순위별로 추출하는 것으로 핵심 문장을 추출하거나,
상기 전처리부를 통해 정제된 상기 문서의 각 문장을 요약문 적합여부 검출용 딥러닝 모델에 입력하여 이진분류를 수행하는 것으로 핵심 문장을 추출하거나, 또는
상기 전처리부를 통해 정제된 상기 문서의 각 문장 내 단어를 이용한 가중치 계산을 통해서 핵심 문장을 추출하는 것을 특징으로 하는 딥러닝 기반의 유형별 문서의 요약문 생성 시스템.
삭제
유형별 문서의 요약문 생성 시스템에서, 문서의 유형을 분류하는 문서 유형 분류 단계;
상기 유형별 문서의 요약문 생성 시스템에서, 상기 분류한 문서에서 적어도 하나 이상의 핵심 문장을 추출하는 핵심 문장 추출 단계; 및
상기 유형별 문서의 요약문 생성 시스템에서, 상기 추출한 적어도 하나 이상의 핵심 문장을 참조하여 요약문을 생성하는 요약문 생성 단계;를 포함하며,
상기 문서 유형 분류 단계는, 유형 분류용 딥러닝 모델에 문서를 입력하여, 학술논문, 뉴스기사, 결과보고서, 평가서, 활용보고서, 보도자료 및 사내 결재문서를 포함한 정부, 기업 및 개인이 사용하는 문서의 유형을 분류하는 것을 더 포함하며,
상기 요약문 생성 단계는, 상기 핵심 문장 추출 단계를 통해 추출한 적어도 하나 이상의 핵심 문장을 토대로 사전에 설정된 횟수만큼 요약문을 생성하고, 상기 생성한 요약문 중에서 핵심 문장에 없는 신규 단어가 가장 적은 문장을 최종 요약문으로 선택하는 것을 더 포함하며,
특정 유형으로 분류된 문서에서 추출한 문장을 토대로 상기 문서의 요약문을 생성하는 것을 특징으로 하는 딥러닝 기반의 유형별 문서의 요약문 생성 방법.
청구항 7에 있어서,
상기 유형별 문서의 요약문 생성 방법은,
상기 유형별 문서의 요약문 생성 시스템에서, 상기 문서 유형 분류 단계를 통해 특정 유형으로 분류된 문서 전체를 문장 단위로 분리하는 문서 분리 단계; 및
상기 유형별 문서의 요약문 생성 시스템에서, 상기 문장 단위로 분리한 각 문장에서 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거하는 전처리 단계;를 더 포함하는 것을 특징으로 하는 딥러닝 기반의 유형별 문서의 요약문 생성 방법.
청구항 7에 있어서,
상기 유형별 문서의 요약문 생성 방법은,
상기 유형별 문서의 요약문 생성 시스템에서, 클라이언트 단말로부터 요약문 생성을 위한 각 유형별 문서를 수집하는 문서 수집 단계; 및
상기 클라이언트 단말로부터 요약문 생성을 위한 문서를 제공받는 문서 입력 단계;를 더 포함하며,
상기 클라이언트 단말은, 상기 문서에 대한 요약문을 생성하여 저장, 관리하기 위한 정부기관, 지방자치단체, 기업 및 개인이 사용하는 통신단말인 것을 특징으로 하는 딥러닝 기반의 유형별 문서의 요약문 생성 방법.
삭제
청구항 8에 있어서,
상기 핵심 문장 추출 단계는,
유사 의미 문장 추출용 딥러닝 모델을 이용하여 상기 전처리 단계에서 정제된 상기 문서의 각 문장 중에서 본문과 유사한 의미의 문장을 순위별로 추출하는 것을 통해 핵심 문장을 추출하거나,
상기 전처리 단계에서 정제된 상기 문서의 각 문장을 요약문 적합여부 검출용 딥러닝 모델에 입력하여 이진분류를 수행하는 것을 통해 핵심 문장을 추출하거나, 또는
상기 전처리 단계에서 정제된 상기 문서의 각 문장 내 단어를 이용한 가중치 계산을 통해 핵심 문장을 추출하는 것을 특징으로 하는 딥러닝 기반의 유형별 문서의 요약문 생성 방법.
삭제