KR102546412B1 - 딥러닝 기반의 유형별 문서의 요약문 생성 시스템 - Google Patents

딥러닝 기반의 유형별 문서의 요약문 생성 시스템 Download PDF

Info

Publication number
KR102546412B1
KR102546412B1 KR1020220176859A KR20220176859A KR102546412B1 KR 102546412 B1 KR102546412 B1 KR 102546412B1 KR 1020220176859 A KR1020220176859 A KR 1020220176859A KR 20220176859 A KR20220176859 A KR 20220176859A KR 102546412 B1 KR102546412 B1 KR 102546412B1
Authority
KR
South Korea
Prior art keywords
document
sentence
type
generating
sentences
Prior art date
Application number
KR1020220176859A
Other languages
English (en)
Inventor
고형석
심지현
이홍재
Original Assignee
주식회사 유알피
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 유알피 filed Critical 주식회사 유알피
Priority to KR1020220176859A priority Critical patent/KR102546412B1/ko
Application granted granted Critical
Publication of KR102546412B1 publication Critical patent/KR102546412B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 딥러닝 기반의 유형별 문서의 요약문 생성 시스템에 관한 것으로, 논문, 뉴스기사, 보고서, 결재문서 등의 유형별로 분류한 문서 전체를 문장 단위로 분리하고, 상기 분리한 문장 중에서 핵심 문장을 추출하고, 상기 추출한 핵심 문장을 이용하여 요약문을 생성함으로써, 문서의 실제 내용과 가장 근사한 요약문을 생성할 수 있도록 하는 딥러닝 기반의 유형별 문서의 요약문 생성 시스템에 관한 것이다.

Description

딥러닝 기반의 유형별 문서의 요약문 생성 시스템{SYSTEM FOR GENERATING SUMMARY OF DOCUMENT BY TYPE BASED ON DEEP LEARNING}
본 발명은 딥러닝 기반의 유형별 문서의 요약문 생성 시스템에 관한 것으로, 더욱 상세하게는 논문, 뉴스기사, 보고서, 결재문서 등의 유형별로 분류한 문서 전체를 문장 단위로 분리하고, 상기 분리한 문장 중에서 핵심 문장을 추출하고, 상기 추출한 핵심 문장을 이용하여 요약문을 생성함으로써, 문서의 실제 내용과 가장 근사한 요약문을 생성할 수 있도록 하는 딥러닝 기반의 유형별 문서의 요약문 생성 시스템에 관한 것이다.
최근 디지털시대로 전환하면서, 아날로그적인 많은 부분이 디지털로서 점점 많이 변환되고 있다. 이러한 시대적 변환은 가정, 기업, 공공기관의 환경을 많이 변화시키고 있다. 특히, 사무실에서의 변화가 가장 극심한데, 사무실 내의 모든 문서가 페이퍼리스 정책에 따라 디지털화되어, 내부 결제 및 관리를 디지털 문서로서 유지되고 있다.
여기서, 디지털 문서들을 효과적으로 관리하고 검색하기 위해서는, 효과적인 데이터베이스를 구축하는 것이 중요하다. 이를 위해서, 문서들을 자동적으로 분석하여 요약문을 생성하는 모델이 필요한 실정이다.
그러나, 현재 문서의 종류가 무엇인지 자동으로 확인하고, 상기 확인한 문서 전체를 간략하게 요약한 요약문을 생성하는 기술이 개발 및 사용되지 못하여, 각종 유형의 문서에 대한 디지털화 작업에 많은 비용, 시간 및 인력이 소요되는 문제점이 있었다.
따라서 본 발명에서는 논문, 뉴스기사, 보고서, 결재문서 등의 유형에 따라 문서를 분류하고, 상기 분류한 문서 전체를 문장 단위로 분리한 후 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거하는 전처리를 수행하고, 상기 전처리한 문장 중에서 핵심 문장을 추출하고, 상기 추출한 핵심 문장을 이용하여 요약문을 생성할 수 있는 방안을 제시하고자 한다.
다음으로 본 발명의 기술분야에 존재하는 선행발명에 대하여 간단하게 설명하고, 이어서 본 발명이 상기 선행발명에 비해서 차별적으로 이루고자 하는 기술적 사항에 대해서 기술하고자 한다.
먼저 한국등록특허 제2217248호(2021.02.28.)는 적어도 하나 이상의 비정형 텍스트 문서를 읽어 들여, 상기 비정형 텍스트 문서의 상태를 판별하는 단계와, 판별된 비정형 텍스트 문서의 상태에 따라 적합한 임베딩 방식을 달리 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 단계와, 상기 벡터화된 문장에 대하여 조사 또는 어미가 있는 경우가 고려된 시퀀스-투-시퀀스(Sequence to sequence) 모델을 적용함으로써 상기 비정형 텍스트 문서로부터 요약문을 생성하는 단계를 포함하는 텍스트 문서 요약을 위한 자질 추출 및 학습 방법에 관한 선행발명이다.
또한 한국등록특허 제2402466호(2022.05.26.)는 사용자 입력 쿼리와 요약할 문서들로부터 키워드를 추출하고, 상기 추출된 키워드의 랭킹을 계산하는 단계, 상기 계산된 키워드의 랭킹을 기반으로 클러스터링하고, 상기 클러스터링된 클러스터별로 중심이 되는 서브 토픽을 찾아 클러스터별로 키워드의 랭킹을 재계산하는 단계, 및 상기 재계산된 키워드의 랭킹을 기반으로 클러스터별 문장 스코어를 계산하고, 상기 계산된 문장 스코어의 순위가 기설정된 순위 이상인 상위 문장을 상기 문서들의 클러스터별 요약 결과로 제공하는 단계를 포함하는 키워드 클러스터링을 이용한 문서 요약 방법 및 장치에 관한 선행발명이다.
하지만, 본 발명은 유형별로 분류한 문서 전체를 문장 단위로 분리 및 전처리하고, 이들 문장 중에서 추출한 핵심 문장으로부터 요약문을 생성하는 것이므로, 비정형 텍스트 문서를 읽어, 문서의 상태에 따라 적합한 임베딩 방식을 적용하여 문장을 벡터화한 후 요약문을 생성하는 상기 한국등록특허 제2217248호, 및 사용자 입력 쿼리와 요약할 문서로부터 키워드를 추출하고, 추출된 키워드의 랭킹을 계산하여 클러스터링하고, 클러스터별 요약결과를 제공하는 상기 한국등록특허 제2402466호와 비교할 때, 현저한 구성상 차이점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 논문, 뉴스기사, 보고서, 결재문서 등의 각종 유형별 문서에 근사한 요약문을 생성할 수 있는 시스템 및 방법을 제공하는 것을 목적으로 한다.
또한 본 발명은 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거한 정제된 문장만을 이용하여 문서 전체에서 요약문을 생성할 수 있는 시스템 및 방법을 제공하는 것을 다른 목적으로 한다.
또한 본 발명은 문서의 길이, 문서 구조(예: 표지, 제목, 목차, 본문, 표 등) 등의 패턴을 이용하거나 딥러닝 학습모델을 통해 문서 유형을 분류하고, 상기 분류한 문서 유형에 따라 문장 단위 분리 및 전처리를 수행하고, 상기 전처리한 문장 중에서 핵심 문장을 추출하여 요약문을 생성할 수 있는 시스템 및 방법을 제공하는 것을 또 다른 목적으로 한다.
본 발명의 일 실시예에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 시스템은, 문서의 유형을 분류하는 문서 유형 분류부; 상기 분류한 문서에서 적어도 하나 이상의 핵심 문장을 추출하는 핵심 문장 추출부; 및 상기 추출한 적어도 하나 이상의 핵심 문장을 참조하여 요약문을 생성하는 요약문 생성부;를 포함하며, 특정 유형으로 분류된 문서에서 추출한 문장을 토대로 상기 문서의 실제 내용과 근사한 요약문을 생성할 수 있다.
또한, 상기 유형별 문서의 요약문 생성 시스템은, 상기 문서 유형 분류부를 통해 특정 유형으로 분류된 문서 전체를 문장 단위로 분리하는 문서 분리부; 및 상기 문장 단위로 분리한 각 문장에서 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거하는 전처리부;를 더 포함할 수 있다.
또한, 상기 유형별 문서의 요약문 생성 시스템은, 클라이언트 단말로부터 요약문 생성을 위한 각 유형별 문서를 수집하는 문서 수집부; 및 상기 클라이언트 단말로부터 요약문 생성을 위한 문서를 제공받는 문서 입력부;를 더 포함하며, 상기 클라이언트 단말은, 상기 문서에 대한 요약문을 생성하여 저장, 관리하기 위한 정부기관, 지방자치단체, 기업 및 개인이 사용하는 통신단말일 수 있다.
또한, 상기 문서 유형 분류부는, 기 생성된 유형 분류용 딥러닝 학습모델에 문서를 입력하여 논문, 뉴스기사, 보고서 및 결재문서를 포함한 문서의 유형을 분류하거나, 또는 상기 문서의 길이나 구조를 확인하고, 상기 확인한 문서의 길이나 구조를 기설정된 패턴과 비교하여 문서의 유형을 분류할 수 있다.
또한, 상기 핵심 문장 추출부는, 기 생성된 유사 의미 문장 추출용 딥러닝 학습모델을 이용하여 상기 전처리부를 통해 정제된 상기 문서의 각 문장 중에서 본문과 유사한 의미의 문장을 순위별로 추출하는 것으로 핵심 문장을 추출하거나, 상기 전처리부를 통해 정제된 상기 문서의 각 문장을 기 생성된 요약문 적합여부 검출용 딥러닝 학습모델에 입력하여 요약문으로 적합한지를 확인한 다음 이진분류를 수행하는 것으로 핵심 문장을 추출하거나, 또는 상기 전처리부를 통해 정제된 상기 문서의 각 문장 내 단어를 이용한 가중치 계산을 통해서 핵심 문장을 추출할 수 있다.
또한, 상기 요약문 생성부는, 상기 핵심 문장 추출부를 통해 추출한 적어도 하나 이상의 핵심 문장을 토대로 사전에 설정된 횟수만큼 요약문을 생성하고, 상기 생성한 요약문 중에서 핵심 문장에 없는 신규 단어가 가장 적은 문장을 최종 요약문으로 선택할 수 있다.
아울러, 본 발명의 일 실시예에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 방법은, 유형별 문서의 요약문 생성 시스템에서, 문서의 유형을 분류하는 문서 유형 분류 단계; 상기 유형별 문서의 요약문 생성 시스템에서, 상기 분류한 문서에서 적어도 하나 이상의 핵심 문장을 추출하는 핵심 문장 추출 단계; 및 상기 유형별 문서의 요약문 생성 시스템에서, 상기 추출한 적어도 하나 이상의 핵심 문장을 참조하여 요약문을 생성하는 요약문 생성 단계;를 포함하며, 특정 유형으로 분류된 문서에서 추출한 문장을 토대로 상기 문서의 실제 내용과 근사한 요약문을 생성할 수 있다.
또한, 상기 유형별 문서의 요약문 생성 방법은, 상기 유형별 문서의 요약문 생성 시스템에서, 상기 문서 유형 분류 단계를 통해 특정 유형으로 분류된 문서 전체를 문장 단위로 분리하는 문서 분리 단계; 및 상기 유형별 문서의 요약문 생성 시스템에서, 상기 문장 단위로 분리한 각 문장에서 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거하는 전처리 단계;를 더 포함할 수 있다.
또한, 상기 유형별 문서의 요약문 생성 방법은, 상기 유형별 문서의 요약문 생성 시스템에서, 클라이언트 단말로부터 요약문 생성을 위한 각 유형별 문서를 수집하는 문서 수집 단계; 및 상기 클라이언트 단말로부터 요약문 생성을 위한 문서를 제공받는 문서 입력 단계;를 더 포함하며, 상기 클라이언트 단말은, 상기 문서에 대한 요약문을 생성하여 저장, 관리하기 위한 정부기관, 지방자치단체, 기업 및 개인이 사용하는 통신단말일 수 있다.
또한, 상기 문서 유형 분류 단계는, 기 생성된 유형 분류용 딥러닝 학습모델에 문서를 입력하여 논문, 뉴스기사, 보고서 및 결재문서를 포함한 문서의 유형을 분류하거나, 또는 상기 문서의 길이나 구조를 확인하고, 상기 확인한 문서의 길이나 구조를 기설정된 패턴과 비교하여 문서의 유형을 분류할 수 있다.
또한, 상기 핵심 문장 추출 단계는, 기 생성된 유사 의미 문장 추출용 딥러닝 학습모델을 이용하여 상기 전처리 단계에서 정제된 상기 문서의 각 문장 중에서 본문과 유사한 의미의 문장을 순위별로 추출하는 것을 통해 핵심 문장을 추출하거나, 상기 전처리 단계에서 정제된 상기 문서의 각 문장을 기 생성된 요약문 적합여부 검출용 딥러닝 학습모델에 입력하여 요약문으로 적합한지를 확인한 다음 이진분류를 수행하는 것을 통해 핵심 문장을 추출하거나, 또는 상기 전처리 단계에서 정제된 상기 문서의 각 문장 내 단어를 이용한 가중치 계산을 통해 핵심 문장을 추출할 수 있다.
또한, 상기 요약문 생성 단계는, 상기 핵심 문장 추출 단계를 통해 추출한 적어도 하나 이상의 핵심 문장을 토대로 사전에 설정된 횟수만큼 요약문을 생성하는 단계: 및 상기 생성한 요약문 중에서 핵심 문장에 없는 신규 단어가 가장 적은 문장을 최종 요약문으로 선택하는 단계:를 포함할 수 있다.
이상에서와 같이 본 발명의 딥러닝 기반의 유형별 문서의 요약문 생성 시스템에 따르면, 문서 길이나 문서 구조 등의 패턴 또는 딥 러닝을 통해 논문, 뉴스기사, 보고서, 결재문서 등의 유형별 문서를 분류하고, 상기 분류한 문서 전체를 문장 단위로 분리한 후 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거하는 전처리를 수행하고, 상기 전처리한 문장 중에서 핵심 문장을 추출하고, 상기 추출한 핵심 문장을 이용하여 요약문을 생성함으로써, 문서의 실제 내용에 가장 근사한 요약문을 생성할 수 있는 효과가 있다.
다만, 본 발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 시스템을 포함한 전체 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 시스템의 구성을 보다 상세하게 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 방법의 동작과정을 상세하게 나타낸 순서도이다.
이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다.
또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 시스템을 포함한 전체 구성을 나타낸 도면이다.
도 1에 도시된 바와 같이, 본 발명은 딥러닝 기반의 유형별 문서의 요약문 생성 시스템(100, 이하 문서의 요약문 생성 시스템이라 약칭함), 복수의 클라이언트 단말(200), 데이터베이스(300) 등을 포함하여 구성된다.
또한, 상기 유형별 문서의 요약문 생성 시스템(100)은 도면에 도시하지는 않았지만, 하드웨어적으로는 프로세서, 메모리 및 이들을 연결하는 버스와 각종 인터페이스 카드 등을 포함하며, 소프트웨어적으로는 상기 메모리에 상기 프로세서를 통해서 구동할 프로그램들이 저장되어 있으며, 사용자나 네트워크상의 명령에 따라 동작을 수행하도록 사용자 인터페이스, 각종 동작프로그램의 업데이트를 관리하는 업데이트 관리부, 데이터베이스 등의 외부 장치와 데이터 송수신을 위한 인터페이스부 등을 추가로 포함할 수 있다.
상기 유형별 문서의 요약문 생성 시스템(100)은 논문, 뉴스기사, 보고서, 결재문서 등의 각종 유형별 문서에 대하여 가장 근사한 요약문을 생성하여 데이터베이스(300)에 저장, 관리하고, 상기 데이터베이스(300)에 저장, 관리중인 각종 문서를 이용하고자 하는 클라이언트의 검색 편의를 제공하기 위한 사업자가 운영하는 서버 컴퓨터이다.
상기 유형별 문서의 요약문 생성 시스템(100)은 각종 유형별 문서에 대한 요약문을 생성할 때, 두 가지 방식을 적용할 수 있다.
첫 번째 방식은, 상기 유형별 문서의 요약문 생성 시스템(100)에서 상기 각 클라이언트 단말(200)로부터 각종 유형별 문서를 주기적으로 직접 수집하여 요약문 생성을 수행하는 방식이다.
두 번째 방식은, 상기 유형별 문서의 요약문 생성 시스템(100)에서 상기 각 클라이언트 단말(200)의 요청에 따라 해당 클라이언트 단말(200)로부터 각종 유형별 문서를 직접 제공받아 요약문 생성을 수행하는 방식이다.
또한, 본 발명에서는 상기 유형별 문서의 요약문 생성 시스템(100)은 각 문서별로 생성하는 요약문의 품질 및 정확도를 향상시키기 위해서, 각 문서에서 불용어, 불용 문장, 특수문자, 표, 이미지 등을 제거하는 전처리 과정을 수행하며, 전처리를 수행한 문서를 대상으로 요약문을 생성할 수 있다.
또한, 상기 유형별 문서의 요약문 생성 시스템(100)은 상기 클라이언트 단말(200)로부터 수집하거나 혹은 제공받은 문서가 어떠한 유형의 문서인지를 분류할 때, 딥러닝 학습모델을 적용할 수 있으며, 유형을 확인한 문서로부터 요약문 생성을 위한 핵심 문장을 적어도 하나 이상 추출할 때에도 딥러닝 학습모델을 적용할 수 있다. 이에 대해서는 하기 도 2에서 보다 상세하게 설명하기로 한다.
또한, 상기 유형별 문서의 요약문 생성 시스템(100)은 각종 유형별 문서에 대한 요약문을 생성한 다음, 상기 생성한 요약문과 원본 문서를 상기 데이터베이스(300)에 저장하여 관리할 수 있다. 그리고 네트워크를 통해 통신 접속을 수행한 상기 클라이언트 단말(200)의 요청에 의해 요약문의 검색 서비스를 지원할 수 있다. 이때 해당 요약문을 확인한 클라이언트의 요구에 의해 원본 문서를 제공하는 것도 가능할 것이다.
상기 클라이언트 단말(200)은 각종 유형별 문서를 보유하고 있는 정부기관이나 지방자치단체의 관리자, 기업의 관리자는 물론, 개인이 사용하는 유무선 통신망 이용이 가능한 PC, 스마트폰, 태블릿 등의 각종 통신단말이다.
상기 클라이언트 단말(200)은 각종 유형별 문서를 수집하는 상기 유형별 문서의 요약문 생성 시스템(100)의 요청에 따라 보유하고 있는 문서를 제공할 수 있으며, 그 이외에 요약문 생성을 위한 문서를 직접 상기 유형별 문서의 요약문 생성 시스템(100)에 제공하는 것도 가능하다.
또한, 상기 클라이언트 단말(200)은 웹은 물론, 클라우드, 애플리케이션 프로그램 등을 통해 상기 유형별 문서의 요약문 생성 시스템(100)에 접속하여 각종 유형별 문서에 대한 요약문 검색을 수행할 수 있다.
상기 데이터베이스(300)는 상기 유형별 문서의 요약문 생성 시스템(100)에서 수행한 각종 유형별 문서로부터 생성한 요약문을 저장하여 관리한다. 이때 해당 요약문의 원본 문서와 링크할 수 있는 정보를 함께 저장할 수 있다.
또한 상기 데이터베이스(300)는 상기 유형별 문서의 요약문 생성 시스템(100)에서 사용되는 각종 동작프로그램은 물론, 문서의 유형분류나 요약문 생성 시 사용되는 딥러닝 학습모델을 저장하고 있다.
도 2는 본 발명의 일 실시예에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 시스템의 구성을 보다 상세하게 나타낸 블록도이다.
도 2에 도시된 바와 같이, 상기 유형별 문서의 요약문 생성 시스템(100)은 문서 수집부(110), 문서 입력부(120), 문서 유형 분류부(130), 문서 분리부(140), 전처리부(150), 핵심 문장 추출부(160), 요약문 생성부(170) 등을 포함하여 구성된다.
상기 문서 수집부(110)는 요약문 생성을 위한 문서를 주기적으로 수집하고, 상기 수집한 문서를 상기 문서 유형 분류부(130)로 제공한다. 예를 들어, 네트워크를 통해 정부기관, 지방자치단체 및 기업의 관리자, 일반 개별 사용자 등이 보유하고 있는 클라이언트 단말(200)로부터 논문, 뉴스기사, 보고서, 결재문서 등의 다양한 유형에 따른 문서를 수집하는 것이다.
상기 문서 입력부(120)는 요약문 생성을 위한 문서를 보유하고 있는 클라이언트 단말(200)로부터 제공되는 각종 유형별 문서를 입력받아 상기 문서 유형 분류부(130)로 제공한다.
이때 상기 문서 수집부(110)와 문서 입력부(120)는 상기 유형별 문서의 요약문 생성 시스템(100)의 사용 및 설치 환경에 따라 문서 수집이나 문서 입력 중 어느 하나만을 독립적으로 수행하거나, 동시에 수행하도록 구성될 수 있다.
또한, 상기 각 유형별 문서는 상기 각 클라이언트 단말(200) 이외에, 각 문서별 전문 데이터베이스 서버, 학교나 연구기관의 서버 등으로부터 수집 혹은 제공받아 요약문 생성에 사용할 수 있음을 밝혀둔다.
상기 문서 유형 분류부(130)는 상기 문서 수집부(110) 또는 문서 입력부(120)부터로 전달되는 문서의 유형을 분류하고, 상기 분류한 문서에 대한 정보(즉 어떠한 유형의 문서인지에 대한 정보)를 문서 분리부(140)로 제공한다.
이때 상기 문서 유형 분류부(130)는 문서 유형을 분류할 때 2가지 방식을 적용할 수 있다.
예를 들어, 기 생성된 유형 분류용 딥러닝 학습모델에 문서를 입력하여 문서의 유형을 분류하는 방식을 사용하거나, 상기 문서의 길이나 구조(예: 표지, 제목, 목차, 본문, 표 등)를 확인하고, 상기 확인한 문서의 길이나 구조를 기 설정된 패턴과 비교하여 문서의 유형을 분류하는 방식을 사용할 수 있다.
여기서, 상기 문서의 유형은 학술논문, 뉴스기사, 결과보고서, 평가서, 활용보고서, 보도자료, 사내 결재문서 등과 같이 정부, 기업, 개인 등이 사용하는 모든 형태의 문서를 적용할 수 있다.
또한, 상기 문서 유형 분류를 위한 방식은 하나의 예시로서, 본 발명에서는 상기 2가지 방식을 예로 하여 설명하지만, 그 이외에 문서 유형을 분류할 수 있는 방법이라면 제한을 두지 않고 사용 가능함을 밝혀둔다.
상기 문서 분리부(140)는 상기 문서 유형 분류부(130)를 통해 특정 유형으로 분류된 문서에 대한 정보가 전달되면, 상기 문서 전체를 문장 단위로 분리하고, 상기 분리한 각 문장을 상기 전처리부(150)로 제공한다.
이때 문장 분리의 규칙은 상기 문서 유형 분류부(130)에서 분류한 유형별로 다르게 설정될 수 있다. 예를 들어, 개행 기준으로 분리하거나, 마침표 기준으로 분리하는 등 다양한 규칙으로 설정할 수 있는 것이다.
상기 전처리부(150)는 상기 문서 분리부(140)를 통해 각각의 개별 문장 단위로 분리한 각 문장에서 문서 유형에 따라 정의된 불용어 및 불용 문장, 특수문자나 기호, 한자 치환, 표, 이미지 등을 제거하는 전처리(preprocessing) 작업을 수행하고, 상기 전처리 작업을 통해 정제된 문장을 상기 핵심 문장 추출부(160)로 제공한다.
여기서, 개체명 인식 결과 인명에 해당하는 언어, 서식과 관련된 단어, 특정 단어 이후에 나타나는 유형의 단어 등은 불용어로 정의하여 사전에 등록해 두고, 전처리 과정에서 활용할 수 있도록 한다.
이때 서식과 관련된 단어는 목차, 수신, 내부결재, 제목, 첨부, 붙임, 별첨, 관리번호, 문서번호, 사업명, 경유, 전화번호, 팩스번호, 심의자료, 구분, 직위 등의 단어로서, 띄어쓰기(예: 목 차, 사 업 명 등)를 포함할 수 있다. 또한 특정 단어 이후에 나타나는 유형의 단어는 아래와 같이, 다음과 같이, 붙임과 같이 등의 단어이다.
또한, 불용 문장의 경우에도 다음과 같이 정의하여 전처리 과정에서 활용할 수 있도록 한다.
예를 들어, 표, 이미지 등과 같이 문장 형태의 정보 값이 없는 길이 3천 이상인 문장, 문장 내 문자 비율 중 숫자가 80% 이상인 숫자 통계 등의 문장, 제목과 문장 간의 의미 벡터를 비교했을 때 85% 이상의 유사도를 보이는 문장(제목과 요약문이 중복으로 표시되는 경우를 방지), 한글 문서 추출 오류로 인한 문장(예: 이 문서는 상위 버전의 배포용 문서입니다. 문서를 읽으려면 최신 버전의 한글 또는 한글 전용 뷰어가 필요합니다), 숫자+'.' 혹은 숫자+')' 등으로 시작하는 문단 제목일 확률이 높은 길이 15자 미만의 문장(예: 4. 견적서 제출자격), 결재문서 유형(예: 가치 있는 우편 같이하는 행복, 국민의 나라 정의로운 대한민국, 오직 광주 시민과 함께, 시민행복 김포의 가치를 두 배로 등)의 문장 등은 불용 문장으로 정의하여 제거한다.
상기 핵심 문장 추출부(160)는 상기 전처리부(150)를 통해 정제된 문장들 중에서 적어도 하나 이상의 핵심 문장을 추출하고, 상기 추출한 핵심 문장을 상기 요약문 생성부(170)로 전달하여, 특정 유형으로 분류된 문서에서 추출한 핵심 문장을 토대로 상기 문서의 실제 내용과 근사한 요약문을 생성할 수 있도록 한다.
이때 상기 핵심 문장 추출부(160)는 전처리된 각 문장으로부터 핵심 문장을 추출할 때 다음과 같은 여러 가지 방식을 적용할 수 있다.
예를 들어, 상기 핵심 문장 추출부(160)는 기 생성된 유사 의미 문장 추출용 딥러닝 학습모델(SBERT(Sentence Bidirectional Encoder Representations from Transformers) 모델)을 이용하여 상기 전처리부(150)에서 정제한 각 문장 중에서 본문과 유사한 의미의 문장을 순위별로 추출하는 것을 통해서 적어도 하나 이상의 핵심 문장을 추출할 수 있다.
또한, 상기 핵심 문장 추출부(160)는 상기 전처리부(150)에서 정제한 각 문장을 기 생성된 요약문 적합여부 검출용 딥러닝 학습모델(BERTsum 모델)에 입력하여 요약문으로 적합한지를 확인한 다음, 이진분류를 수행하는 것을 통해서 적어도 하나 이상의 핵심 문장을 추출할 수 있다.
또한, 상기 핵심 문장 추출부(160)는 상기 전처리부(150)에서 정제한 각 문장 내 단어를 이용한 가중치 계산(TextRank 모델)을 통해서 적어도 하나 이상의 핵심 문장을 추출할 수 있다.
상기 요약문 생성부(170)는 상기 핵심 문장 추출부(160)에서 추출한 적어도 하나 이상의 핵심 문장을 참조하여 해당 문서와 가장 근사한 요약문을 생성하고, 이를 상기 데이터베이스(300)에 저장하여 관리한다.
여기서, 상기 요약문 생성부(170)는 요약 문장을 생성할 때 GPT3(Generative Pre-trained Transformer 3), BART(Bidirectional and Auto-Regressive Transformers), T5, PEGASUS(Pre-training with Extracted Gap-sentences for Abstractive Summarization), LED(Longformer Encoder-Decoder) 등 복수개의 모델을 포함할 수 있고, 상기 모델 중 정확도가 가장 높은 모델을 지정할 수 있다.
이때 상기 요약문 생성부(170)는 상기 핵심 문장 추출부(160)에서 추출한 적어도 하나 이상의 핵심 문장을 토대로 사전에 설정된 횟수(예를 들어, 3회)만큼 요약문을 생성하고, 상기 생성한 각 횟수별 요약문 중에서 핵심 문장에 없는 신규 단어가 가장 적은 문장을 확인하고, 이를 최종 요약문으로 선택하는 방식으로 요약문을 생성할 수 있다.
다음에는, 이와 같이 구성된 본 발명에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 방법의 일 실시예를 도 3을 참조하여 상세하게 설명한다. 이때 본 발명의 방법에 따른 각 단계는 사용 환경이나 당업자에 의해 순서가 변경될 수 있다.
도 3은 본 발명의 일 실시예에 따른 딥러닝 기반의 유형별 문서의 요약문 생성 방법의 동작과정을 상세하게 나타낸 순서도이다.
도 3에 도시된 바와 같이, 유형별 문서의 요약문 생성 시스템(100)에서는 클라이언트 단말(200)로부터 요약문 생성을 위한 각 유형별 문서를 수집하거나, 또는 상기 클라이언트 단말(200)로부터 요약문 생성을 위한 문서를 제공받는 단계를 수행한다(S100).
즉, 각종 유형별 문서에 대한 요약문을 생성하여 저장, 관리하기 위한 정부기관, 지방자치단체, 기업 및 개인인 상기 클라이언트 단말(200)에 문서 제공을 요청하여 수집하거나, 상기 클라이언트 단말(200)로부터 문서의 요약문 생성을 요청받는 것이다.
이 과정에서, 상기 유형별 문서의 요약문 생성 시스템(100)은 문서 수집이나 문서 입력 중 어느 하나만을 독립적으로 수행하거나, 동시에 수행할 수 있다.
또한, 상기 유형별 문서의 요약문 생성 시스템(100)은 클라이언트로부터 수집 혹은 제공받은 문서의 유형을 분류하는 문서 유형 분류 단계를 수행한다(S200).
이때 상기 S200 단계를 통해 수행되는 문서 유형 분류는 기 생성된 유형 분류용 딥러닝 학습모델을 이용하거나, 상기 문서의 길이나 구조를 기설정된 패턴과 비교하는 방식을 통해 수행됨은 상기 설명한 바와 같다.
또한, 상기 유형별 문서의 요약문 생성 시스템(100)은 상기 S200 단계에서 특정 유형으로 분류된 문서 전체를 문장 단위로 분리하는 문서 분리 단계를 수행한다(S300).
이어서, 상기 유형별 문서의 요약문 생성 시스템(100)은 상기 S300 단계에서 문장 단위로 분리한 각 문장에서 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거하는 전처리 단계를 수행한다(S400).
또한, 상기 유형별 문서의 요약문 생성 시스템(100)은 상기 S400 단계에서 전처리된 각 문장으로부터 적어도 하나 이상의 핵심 문장을 추출하는 핵심 문장 추출 단계를 수행한다(S500).
예를 들어, SBERT 모델을 통해 상기 S400 단계에서 정제한 각 문장 중에서 본문과 유사한 의미의 문장을 순위별로 추출하여 핵심 문장을 추출하거나, BERTsum 모델을 통해 상기 S400 단계에서 정제한 각 문장이 요약문으로 적합한지를 확인하여 핵심 문장을 추출하거나, TextRank 모델을 통해 상기 S400 단계에서 정제한 각 문장 내 단어를 이용한 가중치에 따라 핵심 문장을 추출하는 것이다.
상기 S500 단계를 통해 특정 유형의 문서에서 분리한 각 문장 중에서 핵심 문장을 추출한 이후, 상기 유형별 문서의 요약문 생성 시스템(100)은 상기 추출한 적어도 하나 이상의 핵심 문장을 참조하여 요약문을 생성하는 요약문 생성 단계를 수행한다(S600). 즉, 특정 유형으로 분류된 문서에서 추출한 핵심 문장을 토대로 상기 문서의 실제 내용과 근사한 요약문을 생성하는 것이다.
이때 상기 유형별 문서의 요약문 생성 시스템(100)은 상기 S500 단계에서 추출한 적어도 하나 이상의 핵심 문장을 토대로 사전에 설정된 횟수만큼 요약문을 생성하고, 상기 생성한 요약문 중에서 핵심 문장에 없는 신규 단어가 가장 적은 문장을 최종 요약문으로 선택하는 방식으로 요약문을 생성함은 상기 설명한 바와 같다.
이처럼, 본 발명은 논문, 뉴스기사, 보고서, 결재문서 등의 유형으로 분류한 문서 전체를 문장 단위로 분리하고, 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거하는 전처리를 수행한 다음, 상기 전처리한 문장 중에서 딥 러닝을 통해 핵심 문장을 추출하여, 요약문을 생성하기 때문에, 문서의 실제 내용에 가장 근사한 요약문을 생성하는 것이 가능하다.
첨부된 도면은 본 발명의 기술적 사상을 보다 명확하게 표현하기 위해, 본 발명의 기술적 사상과 관련성이 없거나 떨어지는 구성에 대해서는 간략하게 표현하거나 생략하였다.
상기에서는 본 발명에 따른 실시예를 기준으로 본 발명의 구성과 특징을 설명하였으나 본 발명은 이에 한정되지 않으며, 본 발명의 사상과 범위 내에서 다양하게 변경 또는 변형할 수 있음은 본 발명이 속하는 기술분야의 당업자에게 명백한 것이며, 따라서 이와 같은 변경 또는 변형은 첨부된 특허청구범위에 속함을 밝혀둔다.
100 : 유형별 문서의 요약문 생성 시스템
110 : 문서 수집부 120 : 문서 입력부
130 : 문서 유형 분류부 140 : 문서 분리부
150 : 전처리부 160 : 핵심 문장 추출부
170 : 요약문 생성부 200 : 클라이언트 단말
300 : 데이터베이스

Claims (12)

  1. 문서의 유형을 분류하는 문서 유형 분류부;
    상기 분류한 문서에서 적어도 하나 이상의 핵심 문장을 추출하는 핵심 문장 추출부; 및
    상기 추출한 적어도 하나 이상의 핵심 문장을 참조하여 요약문을 생성하는 요약문 생성부;를 포함하며,
    상기 문서 유형 분류부는, 유형 분류용 딥러닝 모델에 문서를 입력하여, 학술논문, 뉴스기사, 결과보고서, 평가서, 활용보고서, 보도자료 및 사내 결재문서를 포함한 정부, 기업 및 개인이 사용하는 문서의 유형을 분류하는 것을 더 포함하며,
    상기 요약문 생성부는, 상기 핵심 문장 추출부를 통해 추출한 적어도 하나 이상의 핵심 문장을 토대로 사전에 설정된 횟수만큼 요약문을 생성하고, 상기 생성한 요약문 중에서 핵심 문장에 없는 신규 단어가 가장 적은 문장을 최종 요약문으로 선택하는 것을 더 포함하며,
    특정 유형으로 분류된 문서에서 추출한 문장을 토대로 상기 문서의 요약문을 생성하는 것을 특징으로 하는 딥러닝 기반의 유형별 문서의 요약문 생성 시스템.
  2. 청구항 1에 있어서,
    상기 유형별 문서의 요약문 생성 시스템은,
    상기 문서 유형 분류부를 통해 특정 유형으로 분류된 문서 전체를 문장 단위로 분리하는 문서 분리부; 및
    상기 문장 단위로 분리한 각 문장에서 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거하는 전처리부;를 더 포함하는 것을 특징으로 하는 딥러닝 기반의 유형별 문서의 요약문 생성 시스템.
  3. 청구항 1에 있어서,
    상기 유형별 문서의 요약문 생성 시스템은,
    클라이언트 단말로부터 요약문 생성을 위한 각 유형별 문서를 수집하는 문서 수집부; 및
    상기 클라이언트 단말로부터 요약문 생성을 위한 문서를 제공받는 문서 입력부;를 더 포함하며,
    상기 클라이언트 단말은, 상기 문서에 대한 요약문을 생성하여 저장, 관리하기 위한 정부기관, 지방자치단체, 기업 및 개인이 사용하는 통신단말인 것을 특징으로 하는 딥러닝 기반의 유형별 문서의 요약문 생성 시스템.
  4. 삭제
  5. 청구항 2에 있어서,
    상기 핵심 문장 추출부는,
    유사 의미 문장 추출용 딥러닝 모델을 이용하여 상기 전처리부를 통해 정제된 상기 문서의 각 문장 중에서 본문과 유사한 의미의 문장을 순위별로 추출하는 것으로 핵심 문장을 추출하거나,
    상기 전처리부를 통해 정제된 상기 문서의 각 문장을 요약문 적합여부 검출용 딥러닝 모델에 입력하여 이진분류를 수행하는 것으로 핵심 문장을 추출하거나, 또는
    상기 전처리부를 통해 정제된 상기 문서의 각 문장 내 단어를 이용한 가중치 계산을 통해서 핵심 문장을 추출하는 것을 특징으로 하는 딥러닝 기반의 유형별 문서의 요약문 생성 시스템.
  6. 삭제
  7. 유형별 문서의 요약문 생성 시스템에서, 문서의 유형을 분류하는 문서 유형 분류 단계;
    상기 유형별 문서의 요약문 생성 시스템에서, 상기 분류한 문서에서 적어도 하나 이상의 핵심 문장을 추출하는 핵심 문장 추출 단계; 및
    상기 유형별 문서의 요약문 생성 시스템에서, 상기 추출한 적어도 하나 이상의 핵심 문장을 참조하여 요약문을 생성하는 요약문 생성 단계;를 포함하며,
    상기 문서 유형 분류 단계는, 유형 분류용 딥러닝 모델에 문서를 입력하여, 학술논문, 뉴스기사, 결과보고서, 평가서, 활용보고서, 보도자료 및 사내 결재문서를 포함한 정부, 기업 및 개인이 사용하는 문서의 유형을 분류하는 것을 더 포함하며,
    상기 요약문 생성 단계는, 상기 핵심 문장 추출 단계를 통해 추출한 적어도 하나 이상의 핵심 문장을 토대로 사전에 설정된 횟수만큼 요약문을 생성하고, 상기 생성한 요약문 중에서 핵심 문장에 없는 신규 단어가 가장 적은 문장을 최종 요약문으로 선택하는 것을 더 포함하며,
    특정 유형으로 분류된 문서에서 추출한 문장을 토대로 상기 문서의 요약문을 생성하는 것을 특징으로 하는 딥러닝 기반의 유형별 문서의 요약문 생성 방법.
  8. 청구항 7에 있어서,
    상기 유형별 문서의 요약문 생성 방법은,
    상기 유형별 문서의 요약문 생성 시스템에서, 상기 문서 유형 분류 단계를 통해 특정 유형으로 분류된 문서 전체를 문장 단위로 분리하는 문서 분리 단계; 및
    상기 유형별 문서의 요약문 생성 시스템에서, 상기 문장 단위로 분리한 각 문장에서 불용어, 불용 문장, 특수문자, 표 및 이미지를 제거하는 전처리 단계;를 더 포함하는 것을 특징으로 하는 딥러닝 기반의 유형별 문서의 요약문 생성 방법.
  9. 청구항 7에 있어서,
    상기 유형별 문서의 요약문 생성 방법은,
    상기 유형별 문서의 요약문 생성 시스템에서, 클라이언트 단말로부터 요약문 생성을 위한 각 유형별 문서를 수집하는 문서 수집 단계; 및
    상기 클라이언트 단말로부터 요약문 생성을 위한 문서를 제공받는 문서 입력 단계;를 더 포함하며,
    상기 클라이언트 단말은, 상기 문서에 대한 요약문을 생성하여 저장, 관리하기 위한 정부기관, 지방자치단체, 기업 및 개인이 사용하는 통신단말인 것을 특징으로 하는 딥러닝 기반의 유형별 문서의 요약문 생성 방법.
  10. 삭제
  11. 청구항 8에 있어서,
    상기 핵심 문장 추출 단계는,
    유사 의미 문장 추출용 딥러닝 모델을 이용하여 상기 전처리 단계에서 정제된 상기 문서의 각 문장 중에서 본문과 유사한 의미의 문장을 순위별로 추출하는 것을 통해 핵심 문장을 추출하거나,
    상기 전처리 단계에서 정제된 상기 문서의 각 문장을 요약문 적합여부 검출용 딥러닝 모델에 입력하여 이진분류를 수행하는 것을 통해 핵심 문장을 추출하거나, 또는
    상기 전처리 단계에서 정제된 상기 문서의 각 문장 내 단어를 이용한 가중치 계산을 통해 핵심 문장을 추출하는 것을 특징으로 하는 딥러닝 기반의 유형별 문서의 요약문 생성 방법.
  12. 삭제
KR1020220176859A 2022-12-16 2022-12-16 딥러닝 기반의 유형별 문서의 요약문 생성 시스템 KR102546412B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220176859A KR102546412B1 (ko) 2022-12-16 2022-12-16 딥러닝 기반의 유형별 문서의 요약문 생성 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220176859A KR102546412B1 (ko) 2022-12-16 2022-12-16 딥러닝 기반의 유형별 문서의 요약문 생성 시스템

Publications (1)

Publication Number Publication Date
KR102546412B1 true KR102546412B1 (ko) 2023-06-22

Family

ID=86988963

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220176859A KR102546412B1 (ko) 2022-12-16 2022-12-16 딥러닝 기반의 유형별 문서의 요약문 생성 시스템

Country Status (1)

Country Link
KR (1) KR102546412B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102687013B1 (ko) 2023-12-11 2024-07-22 (주)유알피 생성형 ai 기반 검색키워드 분석을 통한 지능형 문서 검색 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254900A (ja) * 1997-03-14 1998-09-25 Omron Corp 自動文書要約装置及び方法
KR101508260B1 (ko) * 2014-02-04 2015-04-07 성균관대학교산학협력단 문서 특징을 반영하는 요약문 생성 장치 및 방법
JP2015194919A (ja) * 2014-03-31 2015-11-05 大日本印刷株式会社 文書要約装置、文書要約方法、及び、プログラム
KR20210125275A (ko) * 2020-04-08 2021-10-18 에스케이 주식회사 딥러닝 기반 문서 요약 생성 방법 및 시스템
KR20220043505A (ko) * 2020-09-29 2022-04-05 창원대학교 산학협력단 문서 요약장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254900A (ja) * 1997-03-14 1998-09-25 Omron Corp 自動文書要約装置及び方法
KR101508260B1 (ko) * 2014-02-04 2015-04-07 성균관대학교산학협력단 문서 특징을 반영하는 요약문 생성 장치 및 방법
JP2015194919A (ja) * 2014-03-31 2015-11-05 大日本印刷株式会社 文書要約装置、文書要約方法、及び、プログラム
KR20210125275A (ko) * 2020-04-08 2021-10-18 에스케이 주식회사 딥러닝 기반 문서 요약 생성 방법 및 시스템
KR20220043505A (ko) * 2020-09-29 2022-04-05 창원대학교 산학협력단 문서 요약장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
박재언 외. "BERT 기반의 사전 학습 언어 모형을 이용한 한국어 문서 추출 요약 베이스라인 설계." 한국정보기술학회논문지 20.6 (2022): 19-32. (2022.06.30.) 1부.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102687013B1 (ko) 2023-12-11 2024-07-22 (주)유알피 생성형 ai 기반 검색키워드 분석을 통한 지능형 문서 검색 방법

Similar Documents

Publication Publication Date Title
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN111753099A (zh) 一种基于知识图谱增强档案实体关联度的方法及***
CN109992645A (zh) 一种基于文本数据的资料管理***及方法
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
US20100262597A1 (en) Method and system for searching information of collective emotion based on comments about contents on internet
CN108595525B (zh) 一种律师信息处理方法和***
JP2021022359A (ja) 管理システム及び管理方法
CN112100396A (zh) 一种数据处理方法和装置
KR102426919B1 (ko) 지능형 문서 플랫폼 운영 방법 및 이를 구현하는 지능형 문서 플랫폼
CN111723256A (zh) 一种基于信息资源库的政务用户画像构建方法及其***
CN108681548A (zh) 一种律师信息处理方法和***
Chan et al. Automated online news classification with personalization
CN116070599A (zh) 智能化题库生成及辅助管理***
CN108681977A (zh) 一种律师信息处理方法和***
CN113742496B (zh) 一种基于异构资源融合的电力知识学习***及方法
KR102540944B1 (ko) 메타데이터를 활용한 인공지능 기반 문서관리 및 통합 검색 지원 디지털 콘텐츠 시스템
KR102546412B1 (ko) 딥러닝 기반의 유형별 문서의 요약문 생성 시스템
KR102256007B1 (ko) 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법
CN111460114A (zh) 检索方法、装置、设备及计算机可读存储介质
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
Goh Using named entity recognition for automatic indexing
KR101458857B1 (ko) 특허 분석 시스템 및 방법과 이를 실행하기 위한 프로그램이 기록된 기록매체
JPH07182368A (ja) データ加工システム
CN113204644B (zh) 一种基于知识图谱的政务百科构建方法
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant