KR101541170B1

KR101541170B1 - 텍스트 요약 장치 및 방법

Info

Publication number: KR101541170B1
Application number: KR1020140142828A
Authority: KR
Inventors: 송도규
Original assignee: (주)센솔로지
Priority date: 2014-10-21
Filing date: 2014-10-21
Publication date: 2015-08-03

Abstract

리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 기반으로 텍스트를 요약하는 장치로서, 복수의 문장으로 구성된 입력문을 복수의 RDF 트리플로 변환하는 RDF 트리플 변환부, 프레디키트에 포함된 자질과 어휘 중 적어도 하나를 기초로, 상기 복수의 RDF 트리플 중에서 적어도 하나의 주요 트리플을 추출하는 주요 트리플 결정부, 상기 입력문에서 상기 적어도 하나의 주요 트리플에 해당하는 문장을 추출하여 요약문을 작성하는 요약문 작성부를 포함한다.

Description

텍스트 요약 장치 및 방법{APPARATUS AND METHOD FOR SUMMARIZING TEXT}

본 발명은 텍스트 요약 장치 및 방법에 관한 것이다.

현재 우리는 각종 문서뿐 아니라 뉴스, 블로그, SNS 등 소셜미디어에 수시로 포스팅되는 텍스트양이 폭증하는 빅데이터 시대에 살고 있다. 따라서, 많은 텍스트들 중에서 관심있는 텍스트만을 선별하는 데에도 과도한 시간이 요구된다. 이에 컴퓨터가 사람을 대신하여 텍스트의 의미를 파악하고, 선호/비선호의 감성 분석을 하며 텍스트의 주요 내용을 요약하여 리포팅해 준다면, 우리의 일상생활을 편리하게 향상시키고 인류의 생활양식에 유용한 변화를 가져올 수 있다. 그러나 컴퓨터는 자연언어의 유연성과 풍부한 표현력을 충분히 다루지 못하는 한계가 있다. 현재 컴퓨터가 텍스트 요약을 하는 방법은, 대부분 언급 빈도가 높은 어휘가 포함된 문장을 추출하는 방법이므로, 이렇게 의미를 도외시한 단순한 방법으로는 사용자에게 실용성 있는 서비스를 제공하기 어렵다.

컴퓨터에서 자연언어를 자동으로 처리하기 위한 연구는 오래전부터 시도되었으나 텍스트의 의미를 이해하기에는 충분치 못하였다. 최근 언어를 컴퓨터가 이해할 수 있는 포맷인 리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 트리플로 변환하여 텍스트의 의미를 이해하는 기술이 연구되고 있다. RDF 트리플은 월드 와이드 웹 컨소시엄(World Wide Web Consortium, W3C)이 관장하는 국제 표준으로서, 지식과 정보를 서브젝트[Subject(resource)], 프레디키트[Predicate(property)], 오브젝트[Object(literal)]의 세 쌍으로 나타내는 형식이다. 그러나, 지금까지 제시된 방법론은 텍스트의 감성분석과 요약, 리포팅을 충분히 구현하지 못하는 한계가 있다.

국제특허출원의 출원공개공보 공개번호 특1997-7007499(1997년12월01일 공개) 대한민국공개특허공보 공개번호 특2003-0039575(2003년05월22일 공개) 대한민국공개특허공보 공개번호 10-2009-0003090(2009년01월09일 공개)

본 발명이 해결하고자 하는 과제는 RDF 트리플을 기초로 텍스트의 감성 내용을 분석하여 텍스트를 요약하고 리포팅하는 장치 및 방법을 제공하는 것이다.

본 발명의 한 실시예에 따른 리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 기반으로 텍스트를 요약하는 장치로서, 복수의 문장으로 구성된 입력문을 복수의 RDF 트리플로 변환하는 RDF 트리플 생성부, 프레디키트에 포함된 자질과 어휘 중 적어도 하나를 기초로, 상기 복수의 RDF 트리플 중에서 적어도 하나의 주요 트리플을 추출하는 주요 트리플 결정부, 그리고 상기 입력문에서 상기 적어도 하나의 주요 트리플에 해당하는 문장을 추출하여 요약문을 작성하는 요약문 작성부를 포함한다.

상기 주요 트리플 결정부는 상기 복수의 RDF 트리플 중에서, 프레디키트에 지정된 의미자질이 포함된 트리플을 상기 주요 트리플로 추출하는 제1 트리플 추출부를 포함할 수 있다.

상기 지정된 의미자질은 선호 자질과 비선호 자질 중 어느 하나일 수 있다.

상기 주요 트리플 결정부는 상기 복수의 RDF 트리플 중에서, 프레디키트에 지정된 형태의 어휘가 포함된 트리플을 주요 트리플로 추출하는 제2 트리플 추출부를 더 포함할 수 있다.

상기 지정된 형태의 어휘는 "~하", "~지", "~되", "~돼", "수 있", 그리고 "수 없"는 중 적어도 하나를 포함할 수 있다.

상기 요약문 작성부는 상기 입력문에서 상기 적어도 하나의 주요 트리플에 해당하는 적어도 하나의 주요 문장을 추출하는 주요 문장 추출부, 상기 적어도 하나의 주요 문장 각각에서 지정된 어구를 제거하여 각 정제 문장을 생성하는 불필요 어구 제거부, 그리고 상기 불필요 어구 제거부에서 생성된 정제 문장들을 모아서 요약문을 만드는 요약문 생성부를 포함할 수 있다.

상기 지정된 어구는 접속사, 부사어, 관형어, 감탄사 중 어느 하나에 해당할 수 있다.

상기 텍스트 요약 장치는 상기 요약문 작성부에서 작성된 요약문을 사용자에게 리포팅하는 요약문 리포팅부를 더 포함할 수 있다.

본 발명의 다른 실시예에 따라 리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 기반으로 장치가 텍스트를 요약하는 방법으로서, 복수의 문장으로 구성된 입력문을 복수의 RDF 트리플로 변환하는 단계, 상기 복수의 RDF 트리플 중에서, 지정된 의미자질과 지정된 형태의 어휘 중 적어도 하나가 프레디키트에 포함된 트리플을 주요 트리플로 추출하는 단계, 그리고 상기 입력문에서 상기 주요 트리플에 해당하는 문장을 추출하여 요약문을 작성하는 단계를 포함한다.

상기 주요 트리플로 추출하는 단계는 상기 복수의 RDF 트리플 중에서, 선호 자질과 비선호 자질 중 어느 하나가 프레디키트에 포함된 트리플을 상기 주요 트리플로 추출할 수 있다.

상기 주요 트리플로 추출하는 단계는 상기 복수의 RDF 트리플 중에서, "~하", "~지", "~되", "~돼", "수 있", 그리고 "수 없" 중 어느 하나가 프레디키트에 포함된 트리플을 상기 주요 트리플로 추출할 수 있다.

상기 요약문을 작성하는 단계는 상기 입력문에서 상기 주요 트리플 각각에 해당하는 적어도 하나의 주요 문장을 추출하는 단계, 상기 적어도 하나의 주요 문장에서 지정된 어구를 제거하는 단계, 그리고 상기 지정된 어구가 제거된 적어도 하나의 문장을 모아서 상기 요약문을 만드는 단계를 포함할 수 있다.

상기 지정된 어구는 접속사, 부사어, 관형어, 감탄사 중 어느 하나에 해당하는 어구일 수 있다.

상기 텍스트 요약 방법은 상기 요약문을 사용자에게 리포팅하는 단계를 더 포함할 수 있다.

본 발명의 실시예에 따르면 텍스트 요약 장치가 사용자를 대신하여 텍스트의 의미를 파악하고, 선호/비선호의 감성을 포함하는 내용을 추출하여 텍스트를 요약할 수 있다. 본 발명의 실시예에 따르면 방대한 양의 텍스트를 컴퓨터가 대신 읽고 의미상 중요한 문장을 추출하여 요약하고 리포팅하므로, 사용자는 모든 텍스트를 읽고 선별할 필요없이, 중요한 텍스트를 쉽고 빠르게 파악할 수 있다. 따라서, 본 발명의 실시예에 따르면 사용자는 관심있는 텍스트 또는 중요한 텍스트를 간과하는 위험도 줄일 수 있다.

도 1은 본 발명의 한 실시예에 따른 텍스트 요약 장치의 블록도이다.
도 2는 본 발명의 한 실시예에 따른 텍스트 요약 방법의 흐름도이다.
도 3은 본 발명의 한 실시예에 따른 RDF 트리플 생성 방법의 흐름도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이제 도면을 참고하여 본 발명의 실시예에 따른 텍스트 요약 장치 및 방법에 대해 설명한다.

도 1은 본 발명의 한 실시예에 따른 텍스트 요약 장치의 블록도이다.

도 1을 참고하면, 텍스트 요약 장치(앞으로, "요약 장치"라고 함)(10)는 복수의 문장으로 구성된 텍스트를 RDF(Resource Description Framework) 트리플들로 변환하고, RDF 트리플들 중에서 프레디키트의 자질과 어휘 형태를 참조하여 선별된 RDF 트리플들로 요약문을 작성한다.

요약 장치(10)는 텍스트 입력부(100), RDF 트리플 생성부(200), RDF 트리플 리파지토리(300), 주요 트리플 결정부(400), 요약문 작성부(500), 그리고 요약문 리포팅부(600)를 포함한다.

텍스트 입력부(100)는 적어도 하나의 문장으로 구성된 텍스트(입력문)를 입력받는다. 텍스트 입력부(100)는 이메일, 인터넷 뉴스, 소셜미디어 등의 웹 문서, 그리고 워드프로세서 문서와 같이 다양한 종류의 텍스트를 입력받을 수 있다.

RDF 트리플 생성부(200)는 텍스트 입력부(100)로 입력된 입력문을 RDF 트리플로 변환하여 RDF 트리플 리파지토리(300)에 저장한다. RDF 트리플 생성부(200)는 형태소 분석부(210), 어절 생성부(220), 문장 성분 분석부(230), 그리고 RDF 트리플 변환부(240)를 포함한다.

형태소 분석부(210)는 입력문을 형태소 분석기와 전자사전을 이용하여 형태소로 분석한다. 형태소는 문장을 구성하는 요소 중 의미를 가진 가장 작은 단위이다. 전자사전은 형태소를 표제어로 하며, 각 형태소의 문법자질과 의미자질을 포함한다. 의미자질은 선호/비선호 자질을 포함한다. 선호/비선호 자질은 감성 관련 자질이라고 할 수 있다.

어절 생성부(220)는 형태소를 기초로 어절을 생성한다. 어절은 맞춤법에 맞게 쓰여진 문장에서 공백으로 구분되는 문장 구성 요소이다. 어절은 품사적 성격에 따라 체언(NN), 용언(VV), 관형어(MM), 부사어(MA), 감탄사(IC), 접속사(CONJ)로 구분된다.

문장 성분 분석부(230)는 어절의 문장 내에서의 역할, 즉 문장 성분을 분석한다. 문장 성분은 주어(SBJ), 목적어(OBJ), 서술어(PRD), 보어(CMP), 수식어(MOD), 부가어(AJT), 접속어(CNJ), 독립어(INT)로 구분된다.

RDF 트리플 변환부(240)는 형태소 분석부(210), 어절 생성부(220), 그리고 문장 성분 분석부(230)에 의해 분석된 문장 성분과 문장 분절 정보를 기초로 입력문에 포함된 문장 각각을 RDF 트리플로 변환한다. RDF 트리플은 서브젝트, 프레디키트, 오브젝트의 세 쌍으로 구성된다.

RDF 트리플 리파지토리(300)는 RDF 트리플 변환부(240)에서 변환된 RDF 트리플들을 저장한다.

주요 트리플 결정부(400)는 RDF 트리플 리파지토리(300)에 저장된 입력문의 RDF 트리플들 중에서, 주요 RDF 트리플을 선별한다. 이때, 주요 트리플 결정부(400)는 RDF 트리플의 프레디키트를 분석하여 주요 RDF 트리플을 선별한다. 주요 트리플 결정부(400)는 감성 트리플 추출부(410), 주요 트리플 추가 추출부(420), 그리고 출력부(430)를 포함한다.

감성 트리플 추출부(410)는 입력문의 RDF 트리플들 중에서, 지정된 의미자질, 예를 들면, 선호/비선호 자질을 가진 RDF 트리플을 추출한다. RDF 트리플의 프레디키트는 다양한 자질을 포함할 수 있는데, 만약, 프레디키트의 자질 중 '선호'라는 자질이 있는 경우, 해당 RDF 트리플을 감성 트리플로 추출하고, 더 구체적으로 선호 트리플로 태깅할 수 있다. 마찬가지로, 프레디키트의 자질 중 '비선호'라는 자질이 있는 경우, 해당 RDF 트리플을 감성 트리플로 추출하고, 더 구체적으로 비선호 트리플로 태깅할 수 있다. 예를 들어, "스마트폰A는 화질은 좋은데, 반응감이 나쁘다"라는 문장은 표 1의 RDF 트리플로 변환된다. 트리플1의 프레디키트 "좋다"는 선호 자질이고, 트리플1의 프레디키트 "나쁘다"는 비선호 자질이므로, 감성 트리플 추출부(410)는 트리플1과 트리플2를 감성 트리플로 추출한다.

	서브젝트	프레디키트	오브젝트
트리플1	스마트폰A	좋다	화질
트리플2	스마트폰A	나쁘다	반응감

주요 트리플 추가 추출부(420)는 입력문의 RDF 트리플들 중에서, 감성 트리플 이외에도 특정 형태의 어휘를 포함하는 RDF 트리플을 추출한다. 주요 트리플 추가 추출부(420)가 지정한 특정 형태의 어휘는 다양할 수 있고, 사용자마다 자신이 원하는 정보를 설정할 수 있다. 예를 들어, 주요 트리플 추가 추출부(420)는 프레디키트에 "~하", "~지", "~되(돼)", "수 있", "수 없"과 같은 형태의 어휘가 있는 트리플을 주요 트리플로 추출할 수 있다.

출력부(430)는 감성 트리플 추출부(410)와 주요 트리플 추가 추출부(420)에서 추출된 트리플들을 주요 RDF 트리플로 출력한다.

주요 트리플 결정부(400)가 주요 RDF 트리플을 결정하는 방법을 다음에서, 예를 들어 설명한다.

입력문이 "스마트워치의 화면은 2인치 커브드 디스플레이가 사용됐다. 기본 디스플레이 바탕화면은 아날로그 바늘시계 그림이다. 일단 선명한 OLED 디스플레이를 통한 시계 디자인은 흠잡을 데 없을 만큼 훌륭하다. 여기에 러버 재질의 일반 손목시계 스트랩과 팔찌 형태의 스트랩을 모두 제공해 사용자 취향대로 선택할 수 있도록 했다. A전자는 향후 새로운 디자인과 재질이 적용된 스트랩을 추가로 출시할 계획이다."인 경우, RDF 트리플 리파지토리(300)에 표 2와 같은 RDF 트리플들이 저장된다.

	서브젝트	프레디키트	오브젝트
트리플1	스마트워치의 화면	사용되다	2인치 커브드 디스플레이
트리플2	기본 디스플레이 바탕화면	이다	아날로그 바늘시계 그림
트리플3	?x	훌륭하다	시계 디자인
트리플4	?x	제공하다	러버 재질의 일반 손목시계 스트랩
트리플5	?x	제공하다	팔찌 형태의 스트랩
트리플6	?y	선택할 수 있다	?x
트리플7	A전자	출시할 계획이다	새로운 디자인과 재질이 적용된 스트랩

주요 트리플 결정부(400)는 표 2의 트리플들 중에서, 프레디키트에 선호/비선호 자질이 있거나, 특정 형태의 어휘(예를 들면,"~하", "~지", "~되(돼)", "수 있", "수 없")를 포함하는 트리플을 추출한다. 주요 트리플 결정부(400)는 표 3과 같이 프레디키트에 선호 자질(훌륭하다)이 있는 트리플3, 그리고, 프레디키트에 특정 형태의 어휘가 포함되어 있는 트리플1(~되), 트리플4(~하), 트리플5(~하), 트리플6(수 있)을 주요 RDF 트리플로 결정한다.

	서브젝트	프레디키트	오브젝트
트리플1	스마트워치의 화면	사용되다	2인치 커브드 디스플레이
트리플3	?x	훌륭하다	시계 디자인
트리플4	?x	제공하다	러버 재질의 일반 손목시계 스트랩
트리플5	?x	제공하다	팔찌 형태의 스트랩
트리플6	?y	선택할 수 있다	?x

요약문 작성부(500)는 주요 트리플 결정부(400)에서 추출한 주요 RDF 트리플을 기초로 요약문을 작성한다. 요약문 작성부(500)는 주요 문장 추출부(510), 불필요 어구 제거부(520), 그리고 요약문 생성부(530)를 포함한다.

주요 문장 추출부(510)는 텍스트 입력부(100)의 입력문에서 주요 RDF 트리플에 해당하는 문장을 추출한다. 주요 RDF 트리플이 표 3인 경우, 주요 문장 추출부(510)는 트리플1에 해당하는 문장(스마트워치의 화면은 2인치 커브드 디스플레이가 사용됐다.), 트리플3에 해당하는 문장(일단 선명한 OLED 디스플레이를 통한 시계 디자인은 흠잡을 데 없을 만큼 훌륭하다.), 트리플4부터 트리플6에 해당하는 문장(여기에 러버 재질의 일반 손목시계 스트랩과 팔찌 형태의 스트랩을 모두 제공해 사용자 취향대로 선택할 수 있도록 했다.)을 주요 문장으로 추출한다. 주요 문장을 모아보면 다음과 같다.

<주요 문장> 스마트워치의 화면은 2인치 커브드 디스플레이가 사용됐다. 일단 선명한 OLED 디스플레이를 통한 시계 디자인은 흠잡을 데 없을 만큼 훌륭하다. 여기에 러버 재질의 일반 손목시계 스트랩과 팔찌 형태의 스트랩을 모두 제공해 사용자 취향대로 선택할 수 있도록 했다.

불필요 어구 제거부(520)는 주요 문장 추출부(510)에서 추출한 주요 문장에서 불필요 어구를 제거하여 문장을 정제한다. 불필요 어구는 다양하게 설정될 수 있고, 예를 들면, 불필요 어구 제거부(520)는 주요 문장에서 접속사, 부사어, 관형어, 감탄사를 제거한다.

요약문 생성부(530)는 불필요 어구 제거부(520)에 의해 정제된 문장을 모아서 요약문으로 출력한다. 예를 들면, 요약문 생성부(530)는 주요 문장에서 접속사, 부사어, 관형어, 감탄사가 제거된 다음과 같은 요약문을 출력할 수 있다.

<요약문> 스마트워치의 화면은 2인치 커브드 디스플레이가 사용됐다. 시계 디자인은 훌륭하다. 러버 재질의 일반 손목시계 스트랩과 팔찌 형태의 스트랩을 제공해 사용자 취향대로 선택할 수 있도록 했다.

요약문 리포팅부(600)는 요약문 작성부(500)에서 출력한 요약문을 사용자에게 리포팅한다. 사용자에게 리포팅하는 방법은 다양할 수 있고, 요약문 리포팅부(600)는 사용자가 지정한 단말로 요약문을 전송할 수 있다.

도 2는 본 발명의 한 실시예에 따른 텍스트 요약 방법의 흐름도이다.

도 2를 참고하면, 요약 장치(10)는 입력문을 복수의 RDF 트리플로 변환한다(S110).

요약 장치(10)는 복수의 RDF 트리플 중에서, 프레디키트에, 관심있는 의미자질이 포함된 트리플을 주요 트리플로 추출한다(S120). 관심있는 의미자질은 입력문의 성격, 사용자의 관심사항 등에 따라 다르게 설정될 수 있다. 예를 들어, 요약 장치(10)는 선호/비선호 자질과 같은 감성적 자질을 관심있는 의미자질로 설정할 수 있고, 프레디키트에 "좋다", "나쁘다"와 같은 선호/비선호 표현이 있는 트리플을 주요 트리플로 결정할 수 있다.

요약 장치(10)는 복수의 RDF 트리플 중에서, 프레디키트에, 지정된 형태의 어휘가 포함된 트리플을 주요 트리플로 추출한다(S130). 예를 들면, 요약 장치(10)는 프레디키트에 "~하", "~지", "~되(돼)", "수 있", "수 없"의 어휘가 있는 트리플을 주요 트리플로 선별한다.

요약 장치(10)는 입력문에서 주요 트리플에 해당하는 주요 문장을 추출한다(S140). 요약 장치(10)는 주요 트리플에 해당하는 모든 문장을 주요 문장으로 추출할 수 있지만, 문장의 개수나 길이, 글자 수 등을 고려하여 주요 트리플에 해당하는 문장들 중에서 가중치에 따라 주요 문장을 선별할 수 있다. 이때, 요약 장치(10)는 관심있는 의미자질이 포함된 트리플에 해당하는 문장의 가중치를 높게 설정할 수 있다.

요약 장치(10)는 주요 문장에서 지정된 불필요 어구를 제거한다(S150).

요약 장치(10)는 불필요 어구가 제거된 문장들로 요약문을 작성한다(S160).

요약 장치(10)는 요약문을 사용자에게 리포팅한다(S170).

도 3은 본 발명의 한 실시예에 따른 RDF 트리플 생성 방법의 흐름도이다.

도 3을 참고하면, 요약 장치(10)는 복수의 문장으로 구성된 입력문을 입력받는다(S210).

요약 장치(10)는 입력문을 형태소로 분석한다(S220).

요약 장치(10)는 입력문의 형태소를 기초로 어절을 생성한다(S230).

요약 장치(10)는 입력문의 문장 성분을 분석한다(S240).

요약 장치(10)는 입력문의 문장 분석 정보를 기초로 각 문장을 RDF 트리플로 변환한다(S250). RDF 트리플은 RDF 트리플 리파지토리(300)에 저장된다.

이와 같이, 요약 장치(10)가 사용자를 대신하여 텍스트의 의미를 파악하고, 의미적으로 중요한 문장을 추출하여 텍스트를 요약할 수 있다. 따라서, 요약 장치(10)가 방대한 양의 텍스트를 대신 읽고 의미상 중요한 문장을 추출하여 요약하고 리포팅하므로, 사용자는 모든 텍스트를 읽고 선별할 필요없이, 중요한 텍스트를 쉽고 빠르게 파악할 수 있다. 또한, 사용자는 관심있는 텍스트 또는 중요한 텍스트를 간과하는 위험도 줄일 수 있다.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 기반으로 텍스트를 요약하는 장치로서,
복수의 문장으로 구성된 입력문을 복수의 RDF 트리플로 변환하는 RDF 트리플 생성부,
프레디키트에 포함된 자질과 어휘 중 적어도 하나를 기초로, 상기 복수의 RDF 트리플 중에서 적어도 하나의 주요 트리플을 추출하는 주요 트리플 결정부, 그리고
상기 입력문에서 상기 적어도 하나의 주요 트리플에 해당하는 문장을 추출하여 요약문을 작성하는 요약문 작성부
를 포함하는 텍스트 요약 장치.
제1항에서,
상기 주요 트리플 결정부는
상기 복수의 RDF 트리플 중에서, 프레디키트에 지정된 의미자질이 포함된 트리플을 상기 주요 트리플로 추출하는 제1 트리플 추출부
를 포함하는 텍스트 요약 장치.
제2항에서,
상기 지정된 의미자질은 선호 자질과 비선호 자질 중 어느 하나인 텍스트 요약 장치.
제2항에서,
상기 주요 트리플 결정부는
상기 복수의 RDF 트리플 중에서, 프레디키트에 지정된 형태의 어휘가 포함된 트리플을 주요 트리플로 추출하는 제2 트리플 추출부
를 더 포함하는 텍스트 요약 장치.
제4항에서,
상기 지정된 형태의 어휘는
"~하", "~지", "~되", "~돼", "수 있", 그리고 "수 없"는 중 적어도 하나를 포함하는 텍스트 요약 장치.
제1항에서,
상기 요약문 작성부는
상기 입력문에서 상기 적어도 하나의 주요 트리플에 해당하는 적어도 하나의 주요 문장을 추출하는 주요 문장 추출부,
상기 적어도 하나의 주요 문장 각각에서 지정된 어구를 제거하여 각 정제 문장을 생성하는 불필요 어구 제거부, 그리고
상기 불필요 어구 제거부에서 생성된 정제 문장들을 모아서 요약문을 만드는 요약문 생성부
를 포함하는 텍스트 요약 장치.
제6항에서,
상기 지정된 어구는 접속사, 부사어, 관형어, 감탄사 중 어느 하나에 해당하는 어구인 텍스트 요약 장치.
제1항에서,
상기 요약문 작성부에서 작성된 요약문을 사용자에게 리포팅하는 요약문 리포팅부
를 더 포함하는 텍스트 요약 장치.
리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 기반으로 장치가 텍스트를 요약하는 방법으로서,
복수의 문장으로 구성된 입력문을 복수의 RDF 트리플로 변환하는 단계,
상기 복수의 RDF 트리플 중에서, 지정된 의미자질과 지정된 형태의 어휘 중 적어도 하나가 프레디키트에 포함된 트리플을 주요 트리플로 추출하는 단계, 그리고
상기 입력문에서 상기 주요 트리플에 해당하는 문장을 추출하여 요약문을 작성하는 단계
를 포함하는 텍스트 요약 방법.
제9항에서,
상기 주요 트리플로 추출하는 단계는
상기 복수의 RDF 트리플 중에서, 선호 자질과 비선호 자질 중 어느 하나가 프레디키트에 포함된 트리플을 상기 주요 트리플로 추출하는 텍스트 요약 방법.
제9항에서,
상기 주요 트리플로 추출하는 단계는
상기 복수의 RDF 트리플 중에서, "~하", "~지", "~되", "~돼", "수 있", 그리고 "수 없" 중 어느 하나가 프레디키트에 포함된 트리플을 상기 주요 트리플로 추출하는 텍스트 요약 방법.
제9항에서,
상기 요약문을 작성하는 단계는
상기 입력문에서 상기 주요 트리플 각각에 해당하는 적어도 하나의 주요 문장을 추출하는 단계,
상기 적어도 하나의 주요 문장에서 지정된 어구를 제거하는 단계, 그리고
상기 지정된 어구가 제거된 적어도 하나의 문장을 모아서 상기 요약문을 만드는 단계
를 포함하는 텍스트 요약 방법.
제12항에서,
상기 지정된 어구는 접속사, 부사어, 관형어, 감탄사 중 어느 하나에 해당하는 어구인 텍스트 요약 방법.
제9항에서,
상기 요약문을 사용자에게 리포팅하는 단계
를 더 포함하는 텍스트 요약 방법.