KR100731283B1

KR100731283B1 - 질의어에 따른 대량문서기반 성향 분석시스템

Info

Publication number: KR100731283B1
Application number: KR1020050037722A
Authority: KR
Inventors: 박정호; 하정필
Original assignee: 주식회사 알에스엔
Priority date: 2005-05-04
Filing date: 2005-05-04
Publication date: 2007-06-21
Also published as: US20090276411A1; WO2006118360A1; KR20060115261A

Abstract

본 발명은 질의어에 따른 대량문서기반 성향 분석시스템에 관한 것으로서, 더욱 상세하게는 대량문서자료를 토대로 사용자가 입력한 질의어로부터 관련 문장을 검색하여 단어간의 연관도, 단어 및 문장의 성향, 최근 해당 단어 및 문장의 출현 빈도등을 분석한 포괄적인 레포트를 제공하는 질의어에 따른 대량문서기반 성향 분석시스템에 관한 것이다.

이를 실현하기 위하여 본 발명인 질의어에 따른 대량문서기반 성향 분석시스템은,

온라인상의 웹문서를 수집 및 분류하여 문서디비(120)에 저장하는 문서수집부(105)와;

오프라인상의 문서를 스캐닝하여 파일로 저장하는 문서스캐닝부(110)와;

상기 스캐닝된 파일에서 문서를 인식하여 텍스트로 된 문서를 문서디비(120)에 저장하는 문서인식부(115)와;

상기의 온라인상의 웹문서를 수집하거나 오프라인상의 문서를 스캐닝 후 문서인식 또는 직접입력등을 통해 실시간으로 추가되는 문서를 키워드로 분류해서 저장하는 문서디비(120)와;

사용자가 원하는 단어를 하나 이상 입력하는 질의어입력부(125)와;

사용자가 입력한 질의를 키워드로 상기 문서디비(120)로부터 단어 및 문장을 획득하여 버퍼에 저장하는 문장획득부(130)와;

상기 획득된 단어 및 문장들으로부터 유사한 항목끼리 분류하는 단어/문장분류부(135)와;

분류된 단어 및 문장간의 연관도 및 중요도를 분석하는 연관도/중요도분석부(140)와;

자동 분류된 단어, 문장군중에 대표되는 문장을 생성하는 대표문장생성부(145)와;

각 문장군에 해당하는 단어, 문장들의 성향을 연산하기 위하여 문서내 단어를 근거하여 긍정어, 부정어 및 각각의 단어에 따른 점수를 부여하는 성향연산부(150)와;

긍정어, 부정어로 분류되고 각 단어의 성향 점수가 저장되는 성향단어디비(155)와;

대표문장 및 대표문장이 속하는 문장군의 성향 점수를 제시하는 분석결과출력부(160);를 포함하여 구성되는 것을 특징으로 한다.

본 발명을 통해 사용자가 입력한 질의어에 대해 온라인 또는 오프라인 대량문서를 기반으로 관련 단어, 문장을 검색하고 해당 문서의 단어간의 연관도, 단어 및 문장의 성향, 최근 해당 단어 및 문장의 출현 빈도 등을 분석한 포괄적인 레포트를 사용자에게 제공함으로써,

사용자는 질의한 제시어가 최근 특정기간동안 생성된 대량의 문서분석 결과 나타나는 성향(Positive Image, Negative Image 또는 Non Applicable)과 중요도 기반의 연관단어 및 추세 변화를 미리 예측할 수 있는 효과가 있다.

성향분석, 질의어, 대표문장, 단어연관도.

Description

질의어에 따른 대량문서기반 성향 분석시스템{Issue Trend Analysis System}

도 1은 본 발명의 일실시예에 따른 질의어에 따른 대량문서기반 성향 분석시스템의 전체 구성도이다.

도 2는 본 발명의 일실시예에 따른 질의어에 대해 질의자에게 디스플레이되는 화면을 나타낸 제1 예시도다.

도 3은 본 발명의 일실시예에 따른 질의어에 대해 질의자에게 디스플레이되는 화면을 나타낸 제2 예시도이다.

* 도면의 주요 부분에 대한 부호의 설명 *

105 : 문서수집부 110 : 문서스캐닝부

115 : 문서인식부 120 : 문서디비

125 : 질의어입력부 130 : 문장획득부

135 : 문장분류부 140 : 연관도/중요도분석부

145 : 대표문장생성부 150 : 성향연산부

155 : 성향단어디비 160 : 분석결과출력부

일반적으로 사용자가 질의어를 입력할 경우에 사용자들이 자신이 원하는 질의어의 출현 빈도수 및 그 질의어의 성향이 긍정적 이미지(Positive Image), 부정적 이미지(Negative Image)를 한 눈에 파악할 수 없었다.

따라서, 사용자가 질의한 제시어가 대량의 문서 안에서 어떤 성향(Positive Image, Negative Image 또는 Non Applicable)의 의미를 내포하는지를 명확하게 인식하지 못한 상태에서 단순 질의어를 포함하는 문서검색을 할 수 밖에 없었다.

본 발명은 상기의 문제점을 해결하기 위한 것으로, 제 1 목적으로는 실시간으로 업데이트되는 문서디비에서 각 단어별 연관관계와 중요도를 분석하는데 있으며, 제 2 목적으로는 성향단어디비를 토대로 문서의 성향을 분석하는데 있으며, 상기 제 1 목적 및 제 2 목적을 통해 사용자가 입력한 질의어로부터 관련 문서를 검 색하고 해당 질의어의 연관단어, 문서의 성향, 최근 해당 주제의 출현 빈도등을 포함한 포괄적인 레포트를 사용자에게 제공하는데 그 목적이 있다.

상기의 목적을 달성하기 위하여 본 발명인 질의어에 따른 대량문서기반 성향 분석시스템은,

분류된 단어 및 문장간의 연관도 및 중요도를 분석하는 연관도/중요도분석부 (140)와;

이하, 첨부된 도면을 참조하여 본 발명인 질의어에 따른 대량문서기반 성향 분석시스템의 바람직한 실시예를 상세하게 설명한다.

도 1에 도시된 바와 같이, 본 발명에 따른 질의어에 따른 대량문서기반 성향 분석시스템은,

대표문장 및 대표문장이 속하는 문장군의 성향 점수를 제시하는 분석결과출력부(160);를 포함하여 구성된다.

상기 문서수집부(105)는 온라인상의 웹문서를 로봇엔진을 통하여 수집하고 분류하여 문서디비(120)로 저장하는 기능을 수행하는데, 이는 당업자들에게 널리 이용되고 있는 공지기술이므로 이에 대한 상세한 설명은 생략하도록 한다.

상기 문서스캐닝부(110)를 통해 스캐닝된 파일을 문서인식부(115)에서 인식하여 텍스트로 된 문서를 문서디비(120)로 저장한다. 따라서, 상기의 웹문서 및 텍스트로 된 문서를 문서디비(120)에 키워드로 분류하여 저장하게 된다.

상기 문서인식부(115)를 통해 스캐닝된 파일을 인식하고, 문서인식된 것을 텍스트로 변환하여 생성하게 되는데, 이때 사용되는 문서처리자동화기술은 인쇄체와 필기체 숫자, 영문, 한글등을 멀티 오씨알(구조적 OCR 및 통계적 OCR로 이루어짐) 방식을 사용하여 인식하므로 99%의 높은 인식률과 빠른 속도를 제공할 수 있어 사용자 지정에 따른 특성 인식이 가능하므로 사용자에게 편리성을 제공할 수 있다.

좀 더 상세히 설명하자면, 형태 인식은 여러 종류의 양식을 자동인식 및 분류하는데 관리자에 의해 설정된 순서로 자동 분류 또는 입력자의 판단에 따라 첨부 문서를 분류하게 된다. 또한, 간지를 자동 인식하여 건별로 하나의 이미지 문건을 생성하여 인식된 결과중 불확실한 건이나 오작성된 양식을 오류목록을 통해 확인 및 수정 하며 각 이미지를 보면서도 인식된 결과 및 첨부물을 구분 및 수정한다.

한편 형태 출력은 다양한 종류의 양식을 자동을 인식하고 반복되는 양식을 제거하여 필요한 정보만을 신속히 추출하며 오씨알(OCR) 및 아이씨알(ICR)의 정확도를 높이기 위해 데이터의 질을 향상시키게 된다. 이는 인식 대상의 위치나 오염에 상관없이 인식할 수 있도록 하는 모듈을 장착하고 있다.

상기 연관도/중요도분석부(140)는 질의어와 색인어간의 연관도 및 노출 빈도수 및 문서의 가중치를 기반으로 중요도를 판단하여 순위를 정하는 것을 특징으로 한다.

상기 성향연산부(150)는 성향 분석을 하기 위해 질의어를 포함하는 문서에서 추출된 단어에 대해서 성향단어디비(155)를 참고하여 긍정 또는 부정 성향 판단을 하는 것을 특징으로 한다.

상기 분석결과출력부(160)는 대량의 문서에서 질의어와 연관이 많은 키워드 또는 문장에 대해서 기간별로 중요도 또는 성향을 생성하는 것을 특징으로 한다.

다음은 각 부에 대한 상세한 설명을 도 1 및 도 2 및 도3을 참조하여 설명하도록 한다.

예를 들자면, 상기 질의어입력부(125)는 사용자가 원하는 단어를 하나 이상 입력하는 것으로서, 예를 들어 '담배'라고 질의를 할 수 있다.

예를 들자면, 상기 질의어입력부(125)에 '담배'라는 키워드를 포함하는 문서를 문서디비(110)에서 검색하고, 각 문서로부터 분석에 필요한 단어 및 문장을 추출하여 임시로 저장하게 된다. 도 2에 도시한 예로서는 55,385건의 문서가 검색되었다.

상기 획득된 단어 및 문장들으로부터 유사한 문장끼리 분류하는 단어/문장분류부(135)는 도 2를 참조하여 설명하자면, '담배','스트레스'를 포함하는 문서가 전체 문서중 3,070건이 있으며, '담배','친구'가 전체 문서중 2,013건이 있음을 의미한다.

상기의 단어/문장분류부(135)는 유사도 검사를 키워드를 기준으로 하고 있으며, 이는 명사, 형용사, 동사의 원형등을 이용하여 분류하게 된다.

상기를 통해 추출된 명사, 형용사, 동사의 원형을 색인어로 등록시켜 사용자가 검색시 활용할 수 있게 된다.

상기 연관도/중요도분석부(140)는 질의어와 색인어간의 연관도 및 노출 빈도수 및 문서의 가중치를 기반으로 중요도를 판단하여 순위를 정한다.

대표문장생성부(130)는 자동 분류된 문장군중에 대표되는 문장을 생성하는 기능을 수행하는데 도 2를 참조하여 설명하자면, '담배'라는 키워드를 가진 문장들중 가장 빈도가 많은 문장을 대표 문장으로 추출한다. 도 2를 참조하여 설명하자면, '담배는 암을 유발한다' 와 '담배는 스트레스 해소에 필요하다.' 등등의 대표 문장을 추출하게 된다.

본 발명에서 설명하고 있는 성향 분석이란 하나의 문장 또는 그 이상의 문서 단위에서 주체단어(주어가 되는 명사)에 대하여 문장에 사용된 형용사 및 동사의 원형을 복구하고, 복구된 원형의 형용사, 동사에 대한 성향단어디비(155)를 참조하여 긍정 또는 부정(Positive image, Negative image) 성향을 띠고 있는지를 판단하게 된다.

상기 성향연산부(150)는 각 문장군에 해당하는 문장들의 성향을 연산하기 위하여 문장내 단어를 근거하여 긍정어, 부정어 및 각각의 단어에 따른 점수를 부여하게 되는데, 도 2를 참조하여 설명하자면, '담배',‘스트레스’로 분류된 문장군이 3,070건인데, 이에 대한 대표문장은 '담배는 스트레스 해소에 필요하다.'이며 상기에 속한 문장들의 각각의 성향 점수를 연산하여 종합 평균을 산출한다. 예를 들어 설명하자면, '흔히 담배가 스트레스 해소에 최고라고 말합니다. 내뿜는 연기 속으로 답답한 마음을 실어 보내면 훨씬 시원해지는 것처럼 느끼는 것입니다.'를 추출한다면 담배, 스트레스, 해소, 최고, 연기, 내뿜다, 답답하다, 마음, 싣다, 보내다, 시원하다, 느끼다 로 키워드가 추출된다.

성향단어디비는 사용되는 단어를(예를 들면 단어사전에 있는 단어) 평범한 사람을 기준으로 호(好), 불호(不好)의 성향에 따라 긍정, 부정을 분류하고 긍정의 정도, 부정의 정도를 수치로 환산하여 미리 구축한 데이터베이스이다.
예를 들어 상기 긍정어, 부정어로 분류되고 각 단어의 성향 점수가 저장되는 성향단어디비(155)에서 성향 점수 부여를 '담배' 성향은 부정5, '스트레스' 성향은 부정5, '해소' 긍정12, '최고' 성향은 긍정7, '연기' 성향은 0, '내뿜다' 성향은 0, '답답하다' 성향은 부정8, '마음' 성향은 0, '싣다' 성향은 0, '보내다' 성향은 부정1, ‘시원하다’ 성향은 긍정7, ‘느끼다’ 성향은 0으로 가정하면, 연산결과는 '-5-5+12+7+0+0-8+0+0-1+7+0 = +7'이 된다. 상기 예를 든 문장은 긍정7이라는 성향을 갖게 된다.

상기와 같이, 성향연산부에서는 '담배'와 관계된 모든 문장들을 점수로 환산하고, 중요도 순서대로 배열하여 제시하되, 평균을 산출하면 긍정75%로 성향이 결정되는 것이다.(도면 2 참조)

도2에 도시한 대표문장은 통계적 접근 방법을 사용하여 중요도가 높은 단어들을 이용하여 대표문장에 포함될 문장을 추출하게 된다. 이때, 문장들간의 유사도는 내적(Inner Product)을 사용하며, 문장의 중요도는 유사도를 이용한다. 상기에서도 설명했듯이, 문장은 명사, 형용사, 동사의 원형등을 이용하여 분류하게 된다.
상기 기술과 관련된 문헌으로는 2001년 6월에 한국인지과학회에서 발행한 '도합유사도를 이용한 한국어 문서요약 시스템'이 있다.

본 발명에서 설명하고 있는 성향 분석이란 하나의 문장 또는 그 이상의 문서 단위에서 주체단어(주어가 되는 명사)에 대하여 문장에 사용된 형용사 및 동사의 원형을 복구하고, 복구된 원형의 형용사, 동사에 대한 성향단어디비(155)를 참조하여 긍정 또는 부정(혹은 찬성/반대) 성향을 띠고 있는지를 파악하게 된다.

결론적으로 본 발명을 통해 사용자가 입력한 질의어에 대해 온라인 또는 오프라인 대량문서를 기반으로 관련 단어, 문장을 검색하고 해당 문서의 단어간의 연관도, 단어 및 문장의 성향, 최근 해당 단어 및 문장의 출현 빈도 등을 분석한 포괄적인 레포트를 사용자에게 제공함으로써,

이상에서와 같은 내용의 본 발명이 속하는 기술분야의 당업자는 본 발명의 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시된 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구 범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되 는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

본 발명은 질의어에 따른 대량문서기반 성향 분석시스템으로, 사용자가 입력한 질의어에 대해 온라인 또는 오프라인 대량문서를 기반으로 관련 단어, 문장을 검색하고 해당 문서의 단어간의 연관도, 단어 및 문장의 성향, 최근 해당 단어 및 문장의 출현 빈도 등을 분석한 포괄적인 레포트를 사용자에게 제공함으로써,

Claims

삭제
삭제
삭제
온라인상의 웹문서를 수집 및 분류하여 문서디비(120)에 저장하는 문서수집부(105)와;

문서가 스캐닝되어 파일로 저장되는 문서스캐닝부(110)와;

상기 스캐닝된 파일에서 문서를 인식하여 텍스트로 된 문서를 문서디비(120)에 저장하는 문서인식부(115)와;

상기의 온라인상의 웹문서를 수집하거나 문서가 스캐닝 된 후 문서인식 또는 직접입력등을 통해 실시간으로 추가되는 문서를 키워드로 분류해서 저장하는 문서디비(120)와;

사용자의 원하는 단어가 하나 이상 입력되는 질의어입력부(125)와;

사용자에 의해 입력된 질의를 키워드로하여 상기 문서디비(120)로부터 단어 및 문장을 획득하여 버퍼에 저장하는 문장획득부(130)와;

상기 획득된 단어 및 문장들으로부터 유사한 항목끼리 분류하는 단어/문장분류부(135)와;

분류된 단어 및 문장간의 연관도 및 중요도를 분석하되, 질의어와 색인어간의 연관도 및 노출 빈도수 및 문서의 가중치를 기반으로 중요도를 판단하여 순위를 정하기 위한 연관도/중요도분석부(140)와;

자동 분류된 단어, 문장군중에 대표되는 문장을 생성하는 대표문장생성부(145)와;

각 문장군에 해당하는 단어, 문장들의 성향을 연산하기 위하여 문서내 단어를 근거하여 긍정어, 부정어 및 각각의 단어에 따른 점수를 부여하되, 성향 분석을 하기 위해 질의어를 포함하는 문서에서 추출된 단어에 대해서 성향단어디비(155)를 참고하여 긍정 또는 부정 성향 판단하기 위한 성향연산부(150)와;

긍정어, 부정어로 분류되고 각 단어의 성향 점수가 저장되는 성향단어디비(155)와;

대표문장 및 대표문장이 속하는 문장군의 성향 점수를 제시하며, 대량의 문서에서 질의어와 연관이 많은 키워드 또는 문장에 대해서 기간별로 중요도 또는 성향을 생성하기 위한 분석결과출력부(160);를 포함하여 구성되는 것을 특징으로 하는 질의어에 따른 대량문서기반 성향 분석시스템.