KR101541170B1 - 텍스트 요약 장치 및 방법 - Google Patents

텍스트 요약 장치 및 방법 Download PDF

Info

Publication number
KR101541170B1
KR101541170B1 KR1020140142828A KR20140142828A KR101541170B1 KR 101541170 B1 KR101541170 B1 KR 101541170B1 KR 1020140142828 A KR1020140142828 A KR 1020140142828A KR 20140142828 A KR20140142828 A KR 20140142828A KR 101541170 B1 KR101541170 B1 KR 101541170B1
Authority
KR
South Korea
Prior art keywords
triple
sentence
main
extracting
rdf
Prior art date
Application number
KR1020140142828A
Other languages
English (en)
Inventor
송도규
Original Assignee
(주)센솔로지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)센솔로지 filed Critical (주)센솔로지
Priority to KR1020140142828A priority Critical patent/KR101541170B1/ko
Application granted granted Critical
Publication of KR101541170B1 publication Critical patent/KR101541170B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 기반으로 텍스트를 요약하는 장치로서, 복수의 문장으로 구성된 입력문을 복수의 RDF 트리플로 변환하는 RDF 트리플 변환부, 프레디키트에 포함된 자질과 어휘 중 적어도 하나를 기초로, 상기 복수의 RDF 트리플 중에서 적어도 하나의 주요 트리플을 추출하는 주요 트리플 결정부, 상기 입력문에서 상기 적어도 하나의 주요 트리플에 해당하는 문장을 추출하여 요약문을 작성하는 요약문 작성부를 포함한다.

Description

텍스트 요약 장치 및 방법{APPARATUS AND METHOD FOR SUMMARIZING TEXT}
본 발명은 텍스트 요약 장치 및 방법에 관한 것이다.
현재 우리는 각종 문서뿐 아니라 뉴스, 블로그, SNS 등 소셜미디어에 수시로 포스팅되는 텍스트양이 폭증하는 빅데이터 시대에 살고 있다. 따라서, 많은 텍스트들 중에서 관심있는 텍스트만을 선별하는 데에도 과도한 시간이 요구된다. 이에 컴퓨터가 사람을 대신하여 텍스트의 의미를 파악하고, 선호/비선호의 감성 분석을 하며 텍스트의 주요 내용을 요약하여 리포팅해 준다면, 우리의 일상생활을 편리하게 향상시키고 인류의 생활양식에 유용한 변화를 가져올 수 있다. 그러나 컴퓨터는 자연언어의 유연성과 풍부한 표현력을 충분히 다루지 못하는 한계가 있다. 현재 컴퓨터가 텍스트 요약을 하는 방법은, 대부분 언급 빈도가 높은 어휘가 포함된 문장을 추출하는 방법이므로, 이렇게 의미를 도외시한 단순한 방법으로는 사용자에게 실용성 있는 서비스를 제공하기 어렵다.
컴퓨터에서 자연언어를 자동으로 처리하기 위한 연구는 오래전부터 시도되었으나 텍스트의 의미를 이해하기에는 충분치 못하였다. 최근 언어를 컴퓨터가 이해할 수 있는 포맷인 리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 트리플로 변환하여 텍스트의 의미를 이해하는 기술이 연구되고 있다. RDF 트리플은 월드 와이드 웹 컨소시엄(World Wide Web Consortium, W3C)이 관장하는 국제 표준으로서, 지식과 정보를 서브젝트[Subject(resource)], 프레디키트[Predicate(property)], 오브젝트[Object(literal)]의 세 쌍으로 나타내는 형식이다. 그러나, 지금까지 제시된 방법론은 텍스트의 감성분석과 요약, 리포팅을 충분히 구현하지 못하는 한계가 있다.
국제특허출원의 출원공개공보 공개번호 특1997-7007499(1997년12월01일 공개) 대한민국공개특허공보 공개번호 특2003-0039575(2003년05월22일 공개) 대한민국공개특허공보 공개번호 10-2009-0003090(2009년01월09일 공개)
본 발명이 해결하고자 하는 과제는 RDF 트리플을 기초로 텍스트의 감성 내용을 분석하여 텍스트를 요약하고 리포팅하는 장치 및 방법을 제공하는 것이다.
본 발명의 한 실시예에 따른 리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 기반으로 텍스트를 요약하는 장치로서, 복수의 문장으로 구성된 입력문을 복수의 RDF 트리플로 변환하는 RDF 트리플 생성부, 프레디키트에 포함된 자질과 어휘 중 적어도 하나를 기초로, 상기 복수의 RDF 트리플 중에서 적어도 하나의 주요 트리플을 추출하는 주요 트리플 결정부, 그리고 상기 입력문에서 상기 적어도 하나의 주요 트리플에 해당하는 문장을 추출하여 요약문을 작성하는 요약문 작성부를 포함한다.
상기 주요 트리플 결정부는 상기 복수의 RDF 트리플 중에서, 프레디키트에 지정된 의미자질이 포함된 트리플을 상기 주요 트리플로 추출하는 제1 트리플 추출부를 포함할 수 있다.
상기 지정된 의미자질은 선호 자질과 비선호 자질 중 어느 하나일 수 있다.
상기 주요 트리플 결정부는 상기 복수의 RDF 트리플 중에서, 프레디키트에 지정된 형태의 어휘가 포함된 트리플을 주요 트리플로 추출하는 제2 트리플 추출부를 더 포함할 수 있다.
상기 지정된 형태의 어휘는 "~하", "~지", "~되", "~돼", "수 있", 그리고 "수 없"는 중 적어도 하나를 포함할 수 있다.
상기 요약문 작성부는 상기 입력문에서 상기 적어도 하나의 주요 트리플에 해당하는 적어도 하나의 주요 문장을 추출하는 주요 문장 추출부, 상기 적어도 하나의 주요 문장 각각에서 지정된 어구를 제거하여 각 정제 문장을 생성하는 불필요 어구 제거부, 그리고 상기 불필요 어구 제거부에서 생성된 정제 문장들을 모아서 요약문을 만드는 요약문 생성부를 포함할 수 있다.
상기 지정된 어구는 접속사, 부사어, 관형어, 감탄사 중 어느 하나에 해당할 수 있다.
상기 텍스트 요약 장치는 상기 요약문 작성부에서 작성된 요약문을 사용자에게 리포팅하는 요약문 리포팅부를 더 포함할 수 있다.
본 발명의 다른 실시예에 따라 리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 기반으로 장치가 텍스트를 요약하는 방법으로서, 복수의 문장으로 구성된 입력문을 복수의 RDF 트리플로 변환하는 단계, 상기 복수의 RDF 트리플 중에서, 지정된 의미자질과 지정된 형태의 어휘 중 적어도 하나가 프레디키트에 포함된 트리플을 주요 트리플로 추출하는 단계, 그리고 상기 입력문에서 상기 주요 트리플에 해당하는 문장을 추출하여 요약문을 작성하는 단계를 포함한다.
상기 주요 트리플로 추출하는 단계는 상기 복수의 RDF 트리플 중에서, 선호 자질과 비선호 자질 중 어느 하나가 프레디키트에 포함된 트리플을 상기 주요 트리플로 추출할 수 있다.
상기 주요 트리플로 추출하는 단계는 상기 복수의 RDF 트리플 중에서, "~하", "~지", "~되", "~돼", "수 있", 그리고 "수 없" 중 어느 하나가 프레디키트에 포함된 트리플을 상기 주요 트리플로 추출할 수 있다.
상기 요약문을 작성하는 단계는 상기 입력문에서 상기 주요 트리플 각각에 해당하는 적어도 하나의 주요 문장을 추출하는 단계, 상기 적어도 하나의 주요 문장에서 지정된 어구를 제거하는 단계, 그리고 상기 지정된 어구가 제거된 적어도 하나의 문장을 모아서 상기 요약문을 만드는 단계를 포함할 수 있다.
상기 지정된 어구는 접속사, 부사어, 관형어, 감탄사 중 어느 하나에 해당하는 어구일 수 있다.
상기 텍스트 요약 방법은 상기 요약문을 사용자에게 리포팅하는 단계를 더 포함할 수 있다.
본 발명의 실시예에 따르면 텍스트 요약 장치가 사용자를 대신하여 텍스트의 의미를 파악하고, 선호/비선호의 감성을 포함하는 내용을 추출하여 텍스트를 요약할 수 있다. 본 발명의 실시예에 따르면 방대한 양의 텍스트를 컴퓨터가 대신 읽고 의미상 중요한 문장을 추출하여 요약하고 리포팅하므로, 사용자는 모든 텍스트를 읽고 선별할 필요없이, 중요한 텍스트를 쉽고 빠르게 파악할 수 있다. 따라서, 본 발명의 실시예에 따르면 사용자는 관심있는 텍스트 또는 중요한 텍스트를 간과하는 위험도 줄일 수 있다.
도 1은 본 발명의 한 실시예에 따른 텍스트 요약 장치의 블록도이다.
도 2는 본 발명의 한 실시예에 따른 텍스트 요약 방법의 흐름도이다.
도 3은 본 발명의 한 실시예에 따른 RDF 트리플 생성 방법의 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이제 도면을 참고하여 본 발명의 실시예에 따른 텍스트 요약 장치 및 방법에 대해 설명한다.
도 1은 본 발명의 한 실시예에 따른 텍스트 요약 장치의 블록도이다.
도 1을 참고하면, 텍스트 요약 장치(앞으로, "요약 장치"라고 함)(10)는 복수의 문장으로 구성된 텍스트를 RDF(Resource Description Framework) 트리플들로 변환하고, RDF 트리플들 중에서 프레디키트의 자질과 어휘 형태를 참조하여 선별된 RDF 트리플들로 요약문을 작성한다.
요약 장치(10)는 텍스트 입력부(100), RDF 트리플 생성부(200), RDF 트리플 리파지토리(300), 주요 트리플 결정부(400), 요약문 작성부(500), 그리고 요약문 리포팅부(600)를 포함한다.
텍스트 입력부(100)는 적어도 하나의 문장으로 구성된 텍스트(입력문)를 입력받는다. 텍스트 입력부(100)는 이메일, 인터넷 뉴스, 소셜미디어 등의 웹 문서, 그리고 워드프로세서 문서와 같이 다양한 종류의 텍스트를 입력받을 수 있다.
RDF 트리플 생성부(200)는 텍스트 입력부(100)로 입력된 입력문을 RDF 트리플로 변환하여 RDF 트리플 리파지토리(300)에 저장한다. RDF 트리플 생성부(200)는 형태소 분석부(210), 어절 생성부(220), 문장 성분 분석부(230), 그리고 RDF 트리플 변환부(240)를 포함한다.
형태소 분석부(210)는 입력문을 형태소 분석기와 전자사전을 이용하여 형태소로 분석한다. 형태소는 문장을 구성하는 요소 중 의미를 가진 가장 작은 단위이다. 전자사전은 형태소를 표제어로 하며, 각 형태소의 문법자질과 의미자질을 포함한다. 의미자질은 선호/비선호 자질을 포함한다. 선호/비선호 자질은 감성 관련 자질이라고 할 수 있다.
어절 생성부(220)는 형태소를 기초로 어절을 생성한다. 어절은 맞춤법에 맞게 쓰여진 문장에서 공백으로 구분되는 문장 구성 요소이다. 어절은 품사적 성격에 따라 체언(NN), 용언(VV), 관형어(MM), 부사어(MA), 감탄사(IC), 접속사(CONJ)로 구분된다.
문장 성분 분석부(230)는 어절의 문장 내에서의 역할, 즉 문장 성분을 분석한다. 문장 성분은 주어(SBJ), 목적어(OBJ), 서술어(PRD), 보어(CMP), 수식어(MOD), 부가어(AJT), 접속어(CNJ), 독립어(INT)로 구분된다.
RDF 트리플 변환부(240)는 형태소 분석부(210), 어절 생성부(220), 그리고 문장 성분 분석부(230)에 의해 분석된 문장 성분과 문장 분절 정보를 기초로 입력문에 포함된 문장 각각을 RDF 트리플로 변환한다. RDF 트리플은 서브젝트, 프레디키트, 오브젝트의 세 쌍으로 구성된다.
RDF 트리플 리파지토리(300)는 RDF 트리플 변환부(240)에서 변환된 RDF 트리플들을 저장한다.
주요 트리플 결정부(400)는 RDF 트리플 리파지토리(300)에 저장된 입력문의 RDF 트리플들 중에서, 주요 RDF 트리플을 선별한다. 이때, 주요 트리플 결정부(400)는 RDF 트리플의 프레디키트를 분석하여 주요 RDF 트리플을 선별한다. 주요 트리플 결정부(400)는 감성 트리플 추출부(410), 주요 트리플 추가 추출부(420), 그리고 출력부(430)를 포함한다.
감성 트리플 추출부(410)는 입력문의 RDF 트리플들 중에서, 지정된 의미자질, 예를 들면, 선호/비선호 자질을 가진 RDF 트리플을 추출한다. RDF 트리플의 프레디키트는 다양한 자질을 포함할 수 있는데, 만약, 프레디키트의 자질 중 '선호'라는 자질이 있는 경우, 해당 RDF 트리플을 감성 트리플로 추출하고, 더 구체적으로 선호 트리플로 태깅할 수 있다. 마찬가지로, 프레디키트의 자질 중 '비선호'라는 자질이 있는 경우, 해당 RDF 트리플을 감성 트리플로 추출하고, 더 구체적으로 비선호 트리플로 태깅할 수 있다. 예를 들어, "스마트폰A는 화질은 좋은데, 반응감이 나쁘다"라는 문장은 표 1의 RDF 트리플로 변환된다. 트리플1의 프레디키트 "좋다"는 선호 자질이고, 트리플1의 프레디키트 "나쁘다"는 비선호 자질이므로, 감성 트리플 추출부(410)는 트리플1과 트리플2를 감성 트리플로 추출한다.
서브젝트 프레디키트 오브젝트
트리플1 스마트폰A 좋다 화질
트리플2 스마트폰A 나쁘다 반응감
주요 트리플 추가 추출부(420)는 입력문의 RDF 트리플들 중에서, 감성 트리플 이외에도 특정 형태의 어휘를 포함하는 RDF 트리플을 추출한다. 주요 트리플 추가 추출부(420)가 지정한 특정 형태의 어휘는 다양할 수 있고, 사용자마다 자신이 원하는 정보를 설정할 수 있다. 예를 들어, 주요 트리플 추가 추출부(420)는 프레디키트에 "~하", "~지", "~되(돼)", "수 있", "수 없"과 같은 형태의 어휘가 있는 트리플을 주요 트리플로 추출할 수 있다.
출력부(430)는 감성 트리플 추출부(410)와 주요 트리플 추가 추출부(420)에서 추출된 트리플들을 주요 RDF 트리플로 출력한다.
주요 트리플 결정부(400)가 주요 RDF 트리플을 결정하는 방법을 다음에서, 예를 들어 설명한다.
입력문이 "스마트워치의 화면은 2인치 커브드 디스플레이가 사용됐다. 기본 디스플레이 바탕화면은 아날로그 바늘시계 그림이다. 일단 선명한 OLED 디스플레이를 통한 시계 디자인은 흠잡을 데 없을 만큼 훌륭하다. 여기에 러버 재질의 일반 손목시계 스트랩과 팔찌 형태의 스트랩을 모두 제공해 사용자 취향대로 선택할 수 있도록 했다. A전자는 향후 새로운 디자인과 재질이 적용된 스트랩을 추가로 출시할 계획이다."인 경우, RDF 트리플 리파지토리(300)에 표 2와 같은 RDF 트리플들이 저장된다.
서브젝트 프레디키트 오브젝트
트리플1 스마트워치의 화면 사용되다 2인치 커브드 디스플레이
트리플2 기본 디스플레이 바탕화면 이다 아날로그 바늘시계 그림
트리플3 ?x 훌륭하다 시계 디자인
트리플4 ?x 제공하다 러버 재질의 일반 손목시계 스트랩
트리플5 ?x 제공하다 팔찌 형태의 스트랩
트리플6 ?y 선택할 수 있다 ?x
트리플7 A전자 출시할 계획이다 새로운 디자인과 재질이 적용된 스트랩
주요 트리플 결정부(400)는 표 2의 트리플들 중에서, 프레디키트에 선호/비선호 자질이 있거나, 특정 형태의 어휘(예를 들면,"~하", "~지", "~되(돼)", "수 있", "수 없")를 포함하는 트리플을 추출한다. 주요 트리플 결정부(400)는 표 3과 같이 프레디키트에 선호 자질(훌륭하다)이 있는 트리플3, 그리고, 프레디키트에 특정 형태의 어휘가 포함되어 있는 트리플1(~되), 트리플4(~하), 트리플5(~하), 트리플6(수 있)을 주요 RDF 트리플로 결정한다.
서브젝트 프레디키트 오브젝트
트리플1 스마트워치의 화면 사용 2인치 커브드 디스플레이
트리플3 ?x 훌륭 시계 디자인
트리플4 ?x 제공 러버 재질의 일반 손목시계 스트랩
트리플5 ?x 제공 팔찌 형태의 스트랩
트리플6 ?y 선택할 수 있 ?x
요약문 작성부(500)는 주요 트리플 결정부(400)에서 추출한 주요 RDF 트리플을 기초로 요약문을 작성한다. 요약문 작성부(500)는 주요 문장 추출부(510), 불필요 어구 제거부(520), 그리고 요약문 생성부(530)를 포함한다.
주요 문장 추출부(510)는 텍스트 입력부(100)의 입력문에서 주요 RDF 트리플에 해당하는 문장을 추출한다. 주요 RDF 트리플이 표 3인 경우, 주요 문장 추출부(510)는 트리플1에 해당하는 문장(스마트워치의 화면은 2인치 커브드 디스플레이가 사용됐다.), 트리플3에 해당하는 문장(일단 선명한 OLED 디스플레이를 통한 시계 디자인은 흠잡을 데 없을 만큼 훌륭하다.), 트리플4부터 트리플6에 해당하는 문장(여기에 러버 재질의 일반 손목시계 스트랩과 팔찌 형태의 스트랩을 모두 제공해 사용자 취향대로 선택할 수 있도록 했다.)을 주요 문장으로 추출한다. 주요 문장을 모아보면 다음과 같다.
<주요 문장> 스마트워치의 화면은 2인치 커브드 디스플레이가 사용됐다. 일단 선명한 OLED 디스플레이를 통한 시계 디자인은 흠잡을 데 없을 만큼 훌륭하다. 여기에 러버 재질의 일반 손목시계 스트랩과 팔찌 형태의 스트랩을 모두 제공해 사용자 취향대로 선택할 수 있도록 했다.
불필요 어구 제거부(520)는 주요 문장 추출부(510)에서 추출한 주요 문장에서 불필요 어구를 제거하여 문장을 정제한다. 불필요 어구는 다양하게 설정될 수 있고, 예를 들면, 불필요 어구 제거부(520)는 주요 문장에서 접속사, 부사어, 관형어, 감탄사를 제거한다.
요약문 생성부(530)는 불필요 어구 제거부(520)에 의해 정제된 문장을 모아서 요약문으로 출력한다. 예를 들면, 요약문 생성부(530)는 주요 문장에서 접속사, 부사어, 관형어, 감탄사가 제거된 다음과 같은 요약문을 출력할 수 있다.
<요약문> 스마트워치의 화면은 2인치 커브드 디스플레이가 사용됐다. 시계 디자인은 훌륭하다. 러버 재질의 일반 손목시계 스트랩과 팔찌 형태의 스트랩을 제공해 사용자 취향대로 선택할 수 있도록 했다.
요약문 리포팅부(600)는 요약문 작성부(500)에서 출력한 요약문을 사용자에게 리포팅한다. 사용자에게 리포팅하는 방법은 다양할 수 있고, 요약문 리포팅부(600)는 사용자가 지정한 단말로 요약문을 전송할 수 있다.
도 2는 본 발명의 한 실시예에 따른 텍스트 요약 방법의 흐름도이다.
도 2를 참고하면, 요약 장치(10)는 입력문을 복수의 RDF 트리플로 변환한다(S110).
요약 장치(10)는 복수의 RDF 트리플 중에서, 프레디키트에, 관심있는 의미자질이 포함된 트리플을 주요 트리플로 추출한다(S120). 관심있는 의미자질은 입력문의 성격, 사용자의 관심사항 등에 따라 다르게 설정될 수 있다. 예를 들어, 요약 장치(10)는 선호/비선호 자질과 같은 감성적 자질을 관심있는 의미자질로 설정할 수 있고, 프레디키트에 "좋다", "나쁘다"와 같은 선호/비선호 표현이 있는 트리플을 주요 트리플로 결정할 수 있다.
요약 장치(10)는 복수의 RDF 트리플 중에서, 프레디키트에, 지정된 형태의 어휘가 포함된 트리플을 주요 트리플로 추출한다(S130). 예를 들면, 요약 장치(10)는 프레디키트에 "~하", "~지", "~되(돼)", "수 있", "수 없"의 어휘가 있는 트리플을 주요 트리플로 선별한다.
요약 장치(10)는 입력문에서 주요 트리플에 해당하는 주요 문장을 추출한다(S140). 요약 장치(10)는 주요 트리플에 해당하는 모든 문장을 주요 문장으로 추출할 수 있지만, 문장의 개수나 길이, 글자 수 등을 고려하여 주요 트리플에 해당하는 문장들 중에서 가중치에 따라 주요 문장을 선별할 수 있다. 이때, 요약 장치(10)는 관심있는 의미자질이 포함된 트리플에 해당하는 문장의 가중치를 높게 설정할 수 있다.
요약 장치(10)는 주요 문장에서 지정된 불필요 어구를 제거한다(S150).
요약 장치(10)는 불필요 어구가 제거된 문장들로 요약문을 작성한다(S160).
요약 장치(10)는 요약문을 사용자에게 리포팅한다(S170).
도 3은 본 발명의 한 실시예에 따른 RDF 트리플 생성 방법의 흐름도이다.
도 3을 참고하면, 요약 장치(10)는 복수의 문장으로 구성된 입력문을 입력받는다(S210).
요약 장치(10)는 입력문을 형태소로 분석한다(S220).
요약 장치(10)는 입력문의 형태소를 기초로 어절을 생성한다(S230).
요약 장치(10)는 입력문의 문장 성분을 분석한다(S240).
요약 장치(10)는 입력문의 문장 분석 정보를 기초로 각 문장을 RDF 트리플로 변환한다(S250). RDF 트리플은 RDF 트리플 리파지토리(300)에 저장된다.
이와 같이, 요약 장치(10)가 사용자를 대신하여 텍스트의 의미를 파악하고, 의미적으로 중요한 문장을 추출하여 텍스트를 요약할 수 있다. 따라서, 요약 장치(10)가 방대한 양의 텍스트를 대신 읽고 의미상 중요한 문장을 추출하여 요약하고 리포팅하므로, 사용자는 모든 텍스트를 읽고 선별할 필요없이, 중요한 텍스트를 쉽고 빠르게 파악할 수 있다. 또한, 사용자는 관심있는 텍스트 또는 중요한 텍스트를 간과하는 위험도 줄일 수 있다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (14)

  1. 리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 기반으로 텍스트를 요약하는 장치로서,
    복수의 문장으로 구성된 입력문을 복수의 RDF 트리플로 변환하는 RDF 트리플 생성부,
    프레디키트에 포함된 자질과 어휘 중 적어도 하나를 기초로, 상기 복수의 RDF 트리플 중에서 적어도 하나의 주요 트리플을 추출하는 주요 트리플 결정부, 그리고
    상기 입력문에서 상기 적어도 하나의 주요 트리플에 해당하는 문장을 추출하여 요약문을 작성하는 요약문 작성부
    를 포함하는 텍스트 요약 장치.
  2. 제1항에서,
    상기 주요 트리플 결정부는
    상기 복수의 RDF 트리플 중에서, 프레디키트에 지정된 의미자질이 포함된 트리플을 상기 주요 트리플로 추출하는 제1 트리플 추출부
    를 포함하는 텍스트 요약 장치.
  3. 제2항에서,
    상기 지정된 의미자질은 선호 자질과 비선호 자질 중 어느 하나인 텍스트 요약 장치.
  4. 제2항에서,
    상기 주요 트리플 결정부는
    상기 복수의 RDF 트리플 중에서, 프레디키트에 지정된 형태의 어휘가 포함된 트리플을 주요 트리플로 추출하는 제2 트리플 추출부
    를 더 포함하는 텍스트 요약 장치.
  5. 제4항에서,
    상기 지정된 형태의 어휘는
    "~하", "~지", "~되", "~돼", "수 있", 그리고 "수 없"는 중 적어도 하나를 포함하는 텍스트 요약 장치.
  6. 제1항에서,
    상기 요약문 작성부는
    상기 입력문에서 상기 적어도 하나의 주요 트리플에 해당하는 적어도 하나의 주요 문장을 추출하는 주요 문장 추출부,
    상기 적어도 하나의 주요 문장 각각에서 지정된 어구를 제거하여 각 정제 문장을 생성하는 불필요 어구 제거부, 그리고
    상기 불필요 어구 제거부에서 생성된 정제 문장들을 모아서 요약문을 만드는 요약문 생성부
    를 포함하는 텍스트 요약 장치.
  7. 제6항에서,
    상기 지정된 어구는 접속사, 부사어, 관형어, 감탄사 중 어느 하나에 해당하는 어구인 텍스트 요약 장치.
  8. 제1항에서,
    상기 요약문 작성부에서 작성된 요약문을 사용자에게 리포팅하는 요약문 리포팅부
    를 더 포함하는 텍스트 요약 장치.
  9. 리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 기반으로 장치가 텍스트를 요약하는 방법으로서,
    복수의 문장으로 구성된 입력문을 복수의 RDF 트리플로 변환하는 단계,
    상기 복수의 RDF 트리플 중에서, 지정된 의미자질과 지정된 형태의 어휘 중 적어도 하나가 프레디키트에 포함된 트리플을 주요 트리플로 추출하는 단계, 그리고
    상기 입력문에서 상기 주요 트리플에 해당하는 문장을 추출하여 요약문을 작성하는 단계
    를 포함하는 텍스트 요약 방법.
  10. 제9항에서,
    상기 주요 트리플로 추출하는 단계는
    상기 복수의 RDF 트리플 중에서, 선호 자질과 비선호 자질 중 어느 하나가 프레디키트에 포함된 트리플을 상기 주요 트리플로 추출하는 텍스트 요약 방법.
  11. 제9항에서,
    상기 주요 트리플로 추출하는 단계는
    상기 복수의 RDF 트리플 중에서, "~하", "~지", "~되", "~돼", "수 있", 그리고 "수 없" 중 어느 하나가 프레디키트에 포함된 트리플을 상기 주요 트리플로 추출하는 텍스트 요약 방법.
  12. 제9항에서,
    상기 요약문을 작성하는 단계는
    상기 입력문에서 상기 주요 트리플 각각에 해당하는 적어도 하나의 주요 문장을 추출하는 단계,
    상기 적어도 하나의 주요 문장에서 지정된 어구를 제거하는 단계, 그리고
    상기 지정된 어구가 제거된 적어도 하나의 문장을 모아서 상기 요약문을 만드는 단계
    를 포함하는 텍스트 요약 방법.
  13. 제12항에서,
    상기 지정된 어구는 접속사, 부사어, 관형어, 감탄사 중 어느 하나에 해당하는 어구인 텍스트 요약 방법.
  14. 제9항에서,
    상기 요약문을 사용자에게 리포팅하는 단계
    를 더 포함하는 텍스트 요약 방법.
KR1020140142828A 2014-10-21 2014-10-21 텍스트 요약 장치 및 방법 KR101541170B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140142828A KR101541170B1 (ko) 2014-10-21 2014-10-21 텍스트 요약 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140142828A KR101541170B1 (ko) 2014-10-21 2014-10-21 텍스트 요약 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101541170B1 true KR101541170B1 (ko) 2015-08-03

Family

ID=53873151

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140142828A KR101541170B1 (ko) 2014-10-21 2014-10-21 텍스트 요약 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101541170B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061864A (zh) * 2019-12-23 2020-04-24 中国人民解放军国防科技大学 基于特征提取的开源社区Fork摘要自动生成方法、***及介质
CN111428473A (zh) * 2020-03-16 2020-07-17 北京明略软件***有限公司 一种信息处理的方法、装置、计算机存储介质及终端
CN112182451A (zh) * 2020-09-18 2021-01-05 武汉绿色网络信息服务有限责任公司 网页内容摘要生成方法、设备、存储介质及装置
KR20220063005A (ko) * 2020-11-09 2022-05-17 경희대학교 산학협력단 환자 건강 요약 생성 장치 및 그 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061864A (zh) * 2019-12-23 2020-04-24 中国人民解放军国防科技大学 基于特征提取的开源社区Fork摘要自动生成方法、***及介质
CN111061864B (zh) * 2019-12-23 2022-10-18 中国人民解放军国防科技大学 基于特征提取的开源社区Fork摘要自动生成方法、***及介质
CN111428473A (zh) * 2020-03-16 2020-07-17 北京明略软件***有限公司 一种信息处理的方法、装置、计算机存储介质及终端
CN112182451A (zh) * 2020-09-18 2021-01-05 武汉绿色网络信息服务有限责任公司 网页内容摘要生成方法、设备、存储介质及装置
KR20220063005A (ko) * 2020-11-09 2022-05-17 경희대학교 산학협력단 환자 건강 요약 생성 장치 및 그 방법
KR102468250B1 (ko) 2020-11-09 2022-11-16 경희대학교 산학협력단 환자 건강 요약 생성 장치 및 그 방법

Similar Documents

Publication Publication Date Title
RU2571373C2 (ru) Метод анализа тональности текстовых данных
US20180095946A1 (en) Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
JP2010181993A (ja) 絵文字を含む文章ファイルを評価する評価分析サーバ、方法及びプログラム
Sezer TS corpus project: An online Turkish dictionary and TS DIY corpus
KR101541170B1 (ko) 텍스트 요약 장치 및 방법
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
US20170060834A1 (en) Natural Language Determiner
Şeker et al. Extending a CRF-based named entity recognition model for Turkish well formed text and user generated content 1
Chandu et al. Webshodh: A code mixed factoid question answering system for web
JP2008203984A (ja) 文字列変換装置及び文字列変換方法
Kurniawan et al. Indonesian Lexicon-Based Sentiment Analysis of Online Religious Lectures Review
JP5362651B2 (ja) 重要語句抽出装置及び方法及びプログラム
Dadoun et al. Sentiment Classification Techniques Applied to Swedish Tweets Investigating the Effects of translation on Sentiments from Swedish into English
Destaw et al. Question answering classification for Amharic social media community based questions
Cuetos et al. SUBTLEX-ESP: frecuencias de las palabras espanolas basadas en los subtitulos de las peliculas.
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
MM et al. Constructing twitter corpus of Iraqi Arabic Dialect (CIAD) for sentiment analysis
Ogrodniczuk et al. Lexical correction of polish twitter political data
Medhat et al. Corpora preparation and stopword list generation for Arabic data in social network
Claeser et al. Token level code-switching detection using Wikipedia as a lexical resource
Mustafa et al. Translation techniques used in translating a smartphone user manual
Al-Arfaj et al. Arabic NLP tools for ontology construction from Arabic text: An overview
Goh et al. An assessment of substitute words in the context of academic writing proposed by pre-trained and specific word embedding models
Coats et al. Gender and grammatical Frequencies in social media English from the Nordic countries

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150807

Year of fee payment: 6