KR100731283B1 - 질의어에 따른 대량문서기반 성향 분석시스템 - Google Patents

질의어에 따른 대량문서기반 성향 분석시스템 Download PDF

Info

Publication number
KR100731283B1
KR100731283B1 KR1020050037722A KR20050037722A KR100731283B1 KR 100731283 B1 KR100731283 B1 KR 100731283B1 KR 1020050037722 A KR1020050037722 A KR 1020050037722A KR 20050037722 A KR20050037722 A KR 20050037722A KR 100731283 B1 KR100731283 B1 KR 100731283B1
Authority
KR
South Korea
Prior art keywords
document
words
word
sentence
propensity
Prior art date
Application number
KR1020050037722A
Other languages
English (en)
Other versions
KR20060115261A (ko
Inventor
박정호
하정필
Original Assignee
주식회사 알에스엔
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 알에스엔 filed Critical 주식회사 알에스엔
Priority to KR1020050037722A priority Critical patent/KR100731283B1/ko
Priority to US11/913,548 priority patent/US20090276411A1/en
Priority to PCT/KR2005/001531 priority patent/WO2006118360A1/en
Publication of KR20060115261A publication Critical patent/KR20060115261A/ko
Application granted granted Critical
Publication of KR100731283B1 publication Critical patent/KR100731283B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 질의어에 따른 대량문서기반 성향 분석시스템에 관한 것으로서, 더욱 상세하게는 대량문서자료를 토대로 사용자가 입력한 질의어로부터 관련 문장을 검색하여 단어간의 연관도, 단어 및 문장의 성향, 최근 해당 단어 및 문장의 출현 빈도등을 분석한 포괄적인 레포트를 제공하는 질의어에 따른 대량문서기반 성향 분석시스템에 관한 것이다.
이를 실현하기 위하여 본 발명인 질의어에 따른 대량문서기반 성향 분석시스템은,
온라인상의 웹문서를 수집 및 분류하여 문서디비(120)에 저장하는 문서수집부(105)와;
오프라인상의 문서를 스캐닝하여 파일로 저장하는 문서스캐닝부(110)와;
상기 스캐닝된 파일에서 문서를 인식하여 텍스트로 된 문서를 문서디비(120)에 저장하는 문서인식부(115)와;
상기의 온라인상의 웹문서를 수집하거나 오프라인상의 문서를 스캐닝 후 문서인식 또는 직접입력등을 통해 실시간으로 추가되는 문서를 키워드로 분류해서 저장하는 문서디비(120)와;
사용자가 원하는 단어를 하나 이상 입력하는 질의어입력부(125)와;
사용자가 입력한 질의를 키워드로 상기 문서디비(120)로부터 단어 및 문장을 획득하여 버퍼에 저장하는 문장획득부(130)와;
상기 획득된 단어 및 문장들으로부터 유사한 항목끼리 분류하는 단어/문장분류부(135)와;
분류된 단어 및 문장간의 연관도 및 중요도를 분석하는 연관도/중요도분석부(140)와;
자동 분류된 단어, 문장군중에 대표되는 문장을 생성하는 대표문장생성부(145)와;
각 문장군에 해당하는 단어, 문장들의 성향을 연산하기 위하여 문서내 단어를 근거하여 긍정어, 부정어 및 각각의 단어에 따른 점수를 부여하는 성향연산부(150)와;
긍정어, 부정어로 분류되고 각 단어의 성향 점수가 저장되는 성향단어디비(155)와;
대표문장 및 대표문장이 속하는 문장군의 성향 점수를 제시하는 분석결과출력부(160);를 포함하여 구성되는 것을 특징으로 한다.
본 발명을 통해 사용자가 입력한 질의어에 대해 온라인 또는 오프라인 대량문서를 기반으로 관련 단어, 문장을 검색하고 해당 문서의 단어간의 연관도, 단어 및 문장의 성향, 최근 해당 단어 및 문장의 출현 빈도 등을 분석한 포괄적인 레포트를 사용자에게 제공함으로써,
사용자는 질의한 제시어가 최근 특정기간동안 생성된 대량의 문서분석 결과 나타나는 성향(Positive Image, Negative Image 또는 Non Applicable)과 중요도 기반의 연관단어 및 추세 변화를 미리 예측할 수 있는 효과가 있다.
성향분석, 질의어, 대표문장, 단어연관도.

Description

질의어에 따른 대량문서기반 성향 분석시스템{Issue Trend Analysis System}
도 1은 본 발명의 일실시예에 따른 질의어에 따른 대량문서기반 성향 분석시스템의 전체 구성도이다.
도 2는 본 발명의 일실시예에 따른 질의어에 대해 질의자에게 디스플레이되는 화면을 나타낸 제1 예시도다.
도 3은 본 발명의 일실시예에 따른 질의어에 대해 질의자에게 디스플레이되는 화면을 나타낸 제2 예시도이다.
* 도면의 주요 부분에 대한 부호의 설명 *
105 : 문서수집부 110 : 문서스캐닝부
115 : 문서인식부 120 : 문서디비
125 : 질의어입력부 130 : 문장획득부
135 : 문장분류부 140 : 연관도/중요도분석부
145 : 대표문장생성부 150 : 성향연산부
155 : 성향단어디비 160 : 분석결과출력부
본 발명은 질의어에 따른 대량문서기반 성향 분석시스템에 관한 것으로서, 더욱 상세하게는 대량문서자료를 토대로 사용자가 입력한 질의어로부터 관련 문장을 검색하여 단어간의 연관도, 단어 및 문장의 성향, 최근 해당 단어 및 문장의 출현 빈도등을 분석한 포괄적인 레포트를 제공하는 질의어에 따른 대량문서기반 성향 분석시스템에 관한 것이다.
일반적으로 사용자가 질의어를 입력할 경우에 사용자들이 자신이 원하는 질의어의 출현 빈도수 및 그 질의어의 성향이 긍정적 이미지(Positive Image), 부정적 이미지(Negative Image)를 한 눈에 파악할 수 없었다.
따라서, 사용자가 질의한 제시어가 대량의 문서 안에서 어떤 성향(Positive Image, Negative Image 또는 Non Applicable)의 의미를 내포하는지를 명확하게 인식하지 못한 상태에서 단순 질의어를 포함하는 문서검색을 할 수 밖에 없었다.
본 발명은 상기의 문제점을 해결하기 위한 것으로, 제 1 목적으로는 실시간으로 업데이트되는 문서디비에서 각 단어별 연관관계와 중요도를 분석하는데 있으며, 제 2 목적으로는 성향단어디비를 토대로 문서의 성향을 분석하는데 있으며, 상기 제 1 목적 및 제 2 목적을 통해 사용자가 입력한 질의어로부터 관련 문서를 검 색하고 해당 질의어의 연관단어, 문서의 성향, 최근 해당 주제의 출현 빈도등을 포함한 포괄적인 레포트를 사용자에게 제공하는데 그 목적이 있다.
상기의 목적을 달성하기 위하여 본 발명인 질의어에 따른 대량문서기반 성향 분석시스템은,
온라인상의 웹문서를 수집 및 분류하여 문서디비(120)에 저장하는 문서수집부(105)와;
오프라인상의 문서를 스캐닝하여 파일로 저장하는 문서스캐닝부(110)와;
상기 스캐닝된 파일에서 문서를 인식하여 텍스트로 된 문서를 문서디비(120)에 저장하는 문서인식부(115)와;
상기의 온라인상의 웹문서를 수집하거나 오프라인상의 문서를 스캐닝 후 문서인식 또는 직접입력등을 통해 실시간으로 추가되는 문서를 키워드로 분류해서 저장하는 문서디비(120)와;
사용자가 원하는 단어를 하나 이상 입력하는 질의어입력부(125)와;
사용자가 입력한 질의를 키워드로 상기 문서디비(120)로부터 단어 및 문장을 획득하여 버퍼에 저장하는 문장획득부(130)와;
상기 획득된 단어 및 문장들으로부터 유사한 항목끼리 분류하는 단어/문장분류부(135)와;
분류된 단어 및 문장간의 연관도 및 중요도를 분석하는 연관도/중요도분석부 (140)와;
자동 분류된 단어, 문장군중에 대표되는 문장을 생성하는 대표문장생성부(145)와;
각 문장군에 해당하는 단어, 문장들의 성향을 연산하기 위하여 문서내 단어를 근거하여 긍정어, 부정어 및 각각의 단어에 따른 점수를 부여하는 성향연산부(150)와;
긍정어, 부정어로 분류되고 각 단어의 성향 점수가 저장되는 성향단어디비(155)와;
대표문장 및 대표문장이 속하는 문장군의 성향 점수를 제시하는 분석결과출력부(160);를 포함하여 구성되는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명인 질의어에 따른 대량문서기반 성향 분석시스템의 바람직한 실시예를 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 질의어에 따른 대량문서기반 성향 분석시스템의 전체 구성도이다.
도 2는 본 발명의 일실시예에 따른 질의어에 대해 질의자에게 디스플레이되는 화면을 나타낸 제1 예시도다.
도 3은 본 발명의 일실시예에 따른 질의어에 대해 질의자에게 디스플레이되는 화면을 나타낸 제2 예시도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 질의어에 따른 대량문서기반 성향 분석시스템은,
온라인상의 웹문서를 수집 및 분류하여 문서디비(120)에 저장하는 문서수집부(105)와;
오프라인상의 문서를 스캐닝하여 파일로 저장하는 문서스캐닝부(110)와;
상기 스캐닝된 파일에서 문서를 인식하여 텍스트로 된 문서를 문서디비(120)에 저장하는 문서인식부(115)와;
상기의 온라인상의 웹문서를 수집하거나 오프라인상의 문서를 스캐닝 후 문서인식 또는 직접입력등을 통해 실시간으로 추가되는 문서를 키워드로 분류해서 저장하는 문서디비(120)와;
사용자가 원하는 단어를 하나 이상 입력하는 질의어입력부(125)와;
사용자가 입력한 질의를 키워드로 상기 문서디비(120)로부터 단어 및 문장을 획득하여 버퍼에 저장하는 문장획득부(130)와;
상기 획득된 단어 및 문장들으로부터 유사한 항목끼리 분류하는 단어/문장분류부(135)와;
분류된 단어 및 문장간의 연관도 및 중요도를 분석하는 연관도/중요도분석부(140)와;
자동 분류된 단어, 문장군중에 대표되는 문장을 생성하는 대표문장생성부(145)와;
각 문장군에 해당하는 단어, 문장들의 성향을 연산하기 위하여 문서내 단어를 근거하여 긍정어, 부정어 및 각각의 단어에 따른 점수를 부여하는 성향연산부(150)와;
긍정어, 부정어로 분류되고 각 단어의 성향 점수가 저장되는 성향단어디비(155)와;
대표문장 및 대표문장이 속하는 문장군의 성향 점수를 제시하는 분석결과출력부(160);를 포함하여 구성된다.
상기 문서수집부(105)는 온라인상의 웹문서를 로봇엔진을 통하여 수집하고 분류하여 문서디비(120)로 저장하는 기능을 수행하는데, 이는 당업자들에게 널리 이용되고 있는 공지기술이므로 이에 대한 상세한 설명은 생략하도록 한다.
상기 문서스캐닝부(110)를 통해 스캐닝된 파일을 문서인식부(115)에서 인식하여 텍스트로 된 문서를 문서디비(120)로 저장한다. 따라서, 상기의 웹문서 및 텍스트로 된 문서를 문서디비(120)에 키워드로 분류하여 저장하게 된다.
상기 문서인식부(115)를 통해 스캐닝된 파일을 인식하고, 문서인식된 것을 텍스트로 변환하여 생성하게 되는데, 이때 사용되는 문서처리자동화기술은 인쇄체와 필기체 숫자, 영문, 한글등을 멀티 오씨알(구조적 OCR 및 통계적 OCR로 이루어짐) 방식을 사용하여 인식하므로 99%의 높은 인식률과 빠른 속도를 제공할 수 있어 사용자 지정에 따른 특성 인식이 가능하므로 사용자에게 편리성을 제공할 수 있다.
좀 더 상세히 설명하자면, 형태 인식은 여러 종류의 양식을 자동인식 및 분류하는데 관리자에 의해 설정된 순서로 자동 분류 또는 입력자의 판단에 따라 첨부 문서를 분류하게 된다. 또한, 간지를 자동 인식하여 건별로 하나의 이미지 문건을 생성하여 인식된 결과중 불확실한 건이나 오작성된 양식을 오류목록을 통해 확인 및 수정 하며 각 이미지를 보면서도 인식된 결과 및 첨부물을 구분 및 수정한다.
한편 형태 출력은 다양한 종류의 양식을 자동을 인식하고 반복되는 양식을 제거하여 필요한 정보만을 신속히 추출하며 오씨알(OCR) 및 아이씨알(ICR)의 정확도를 높이기 위해 데이터의 질을 향상시키게 된다. 이는 인식 대상의 위치나 오염에 상관없이 인식할 수 있도록 하는 모듈을 장착하고 있다.
상기 연관도/중요도분석부(140)는 질의어와 색인어간의 연관도 및 노출 빈도수 및 문서의 가중치를 기반으로 중요도를 판단하여 순위를 정하는 것을 특징으로 한다.
상기 성향연산부(150)는 성향 분석을 하기 위해 질의어를 포함하는 문서에서 추출된 단어에 대해서 성향단어디비(155)를 참고하여 긍정 또는 부정 성향 판단을 하는 것을 특징으로 한다.
상기 분석결과출력부(160)는 대량의 문서에서 질의어와 연관이 많은 키워드 또는 문장에 대해서 기간별로 중요도 또는 성향을 생성하는 것을 특징으로 한다.
다음은 각 부에 대한 상세한 설명을 도 1 및 도 2 및 도3을 참조하여 설명하도록 한다.
예를 들자면, 상기 질의어입력부(125)는 사용자가 원하는 단어를 하나 이상 입력하는 것으로서, 예를 들어 '담배'라고 질의를 할 수 있다.
예를 들자면, 상기 질의어입력부(125)에 '담배'라는 키워드를 포함하는 문서를 문서디비(110)에서 검색하고, 각 문서로부터 분석에 필요한 단어 및 문장을 추출하여 임시로 저장하게 된다. 도 2에 도시한 예로서는 55,385건의 문서가 검색되었다.
상기 획득된 단어 및 문장들으로부터 유사한 문장끼리 분류하는 단어/문장분류부(135)는 도 2를 참조하여 설명하자면, '담배','스트레스'를 포함하는 문서가 전체 문서중 3,070건이 있으며, '담배','친구'가 전체 문서중 2,013건이 있음을 의미한다.
상기의 단어/문장분류부(135)는 유사도 검사를 키워드를 기준으로 하고 있으며, 이는 명사, 형용사, 동사의 원형등을 이용하여 분류하게 된다.
상기를 통해 추출된 명사, 형용사, 동사의 원형을 색인어로 등록시켜 사용자가 검색시 활용할 수 있게 된다.
상기 연관도/중요도분석부(140)는 질의어와 색인어간의 연관도 및 노출 빈도수 및 문서의 가중치를 기반으로 중요도를 판단하여 순위를 정한다.
대표문장생성부(130)는 자동 분류된 문장군중에 대표되는 문장을 생성하는 기능을 수행하는데 도 2를 참조하여 설명하자면, '담배'라는 키워드를 가진 문장들중 가장 빈도가 많은 문장을 대표 문장으로 추출한다. 도 2를 참조하여 설명하자면, '담배는 암을 유발한다' 와 '담배는 스트레스 해소에 필요하다.' 등등의 대표 문장을 추출하게 된다.
본 발명에서 설명하고 있는 성향 분석이란 하나의 문장 또는 그 이상의 문서 단위에서 주체단어(주어가 되는 명사)에 대하여 문장에 사용된 형용사 및 동사의 원형을 복구하고, 복구된 원형의 형용사, 동사에 대한 성향단어디비(155)를 참조하여 긍정 또는 부정(Positive image, Negative image) 성향을 띠고 있는지를 판단하게 된다.
상기 성향연산부(150)는 각 문장군에 해당하는 문장들의 성향을 연산하기 위하여 문장내 단어를 근거하여 긍정어, 부정어 및 각각의 단어에 따른 점수를 부여하게 되는데, 도 2를 참조하여 설명하자면, '담배',‘스트레스’로 분류된 문장군이 3,070건인데, 이에 대한 대표문장은 '담배는 스트레스 해소에 필요하다.'이며 상기에 속한 문장들의 각각의 성향 점수를 연산하여 종합 평균을 산출한다. 예를 들어 설명하자면, '흔히 담배가 스트레스 해소에 최고라고 말합니다. 내뿜는 연기 속으로 답답한 마음을 실어 보내면 훨씬 시원해지는 것처럼 느끼는 것입니다.'를 추출한다면 담배, 스트레스, 해소, 최고, 연기, 내뿜다, 답답하다, 마음, 싣다, 보내다, 시원하다, 느끼다 로 키워드가 추출된다.
성향단어디비는 사용되는 단어를(예를 들면 단어사전에 있는 단어) 평범한 사람을 기준으로 호(好), 불호(不好)의 성향에 따라 긍정, 부정을 분류하고 긍정의 정도, 부정의 정도를 수치로 환산하여 미리 구축한 데이터베이스이다.
예를 들어 상기 긍정어, 부정어로 분류되고 각 단어의 성향 점수가 저장되는 성향단어디비(155)에서 성향 점수 부여를 '담배' 성향은 부정5, '스트레스' 성향은 부정5, '해소' 긍정12, '최고' 성향은 긍정7, '연기' 성향은 0, '내뿜다' 성향은 0, '답답하다' 성향은 부정8, '마음' 성향은 0, '싣다' 성향은 0, '보내다' 성향은 부정1, ‘시원하다’ 성향은 긍정7, ‘느끼다’ 성향은 0으로 가정하면, 연산결과는 '-5-5+12+7+0+0-8+0+0-1+7+0 = +7'이 된다. 상기 예를 든 문장은 긍정7이라는 성향을 갖게 된다.
상기와 같이, 성향연산부에서는 '담배'와 관계된 모든 문장들을 점수로 환산하고, 중요도 순서대로 배열하여 제시하되, 평균을 산출하면 긍정75%로 성향이 결정되는 것이다.(도면 2 참조)
도2에 도시한 대표문장은 통계적 접근 방법을 사용하여 중요도가 높은 단어들을 이용하여 대표문장에 포함될 문장을 추출하게 된다. 이때, 문장들간의 유사도는 내적(Inner Product)을 사용하며, 문장의 중요도는 유사도를 이용한다. 상기에서도 설명했듯이, 문장은 명사, 형용사, 동사의 원형등을 이용하여 분류하게 된다.
상기 기술과 관련된 문헌으로는 2001년 6월에 한국인지과학회에서 발행한 '도합유사도를 이용한 한국어 문서요약 시스템'이 있다.
본 발명에서 설명하고 있는 성향 분석이란 하나의 문장 또는 그 이상의 문서 단위에서 주체단어(주어가 되는 명사)에 대하여 문장에 사용된 형용사 및 동사의 원형을 복구하고, 복구된 원형의 형용사, 동사에 대한 성향단어디비(155)를 참조하여 긍정 또는 부정(혹은 찬성/반대) 성향을 띠고 있는지를 파악하게 된다.
결론적으로 본 발명을 통해 사용자가 입력한 질의어에 대해 온라인 또는 오프라인 대량문서를 기반으로 관련 단어, 문장을 검색하고 해당 문서의 단어간의 연관도, 단어 및 문장의 성향, 최근 해당 단어 및 문장의 출현 빈도 등을 분석한 포괄적인 레포트를 사용자에게 제공함으로써,
사용자는 질의한 제시어가 최근 특정기간동안 생성된 대량의 문서분석 결과 나타나는 성향(Positive Image, Negative Image 또는 Non Applicable)과 중요도 기반의 연관단어 및 추세 변화를 미리 예측할 수 있는 효과가 있다.
이상에서와 같은 내용의 본 발명이 속하는 기술분야의 당업자는 본 발명의 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시된 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구 범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되 는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
본 발명은 질의어에 따른 대량문서기반 성향 분석시스템으로, 사용자가 입력한 질의어에 대해 온라인 또는 오프라인 대량문서를 기반으로 관련 단어, 문장을 검색하고 해당 문서의 단어간의 연관도, 단어 및 문장의 성향, 최근 해당 단어 및 문장의 출현 빈도 등을 분석한 포괄적인 레포트를 사용자에게 제공함으로써,
사용자는 질의한 제시어가 최근 특정기간동안 생성된 대량의 문서분석 결과 나타나는 성향(Positive Image, Negative Image 또는 Non Applicable)과 중요도 기반의 연관단어 및 추세 변화를 미리 예측할 수 있는 효과가 있다.

Claims (4)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 온라인상의 웹문서를 수집 및 분류하여 문서디비(120)에 저장하는 문서수집부(105)와;
    문서가 스캐닝되어 파일로 저장되는 문서스캐닝부(110)와;
    상기 스캐닝된 파일에서 문서를 인식하여 텍스트로 된 문서를 문서디비(120)에 저장하는 문서인식부(115)와;
    상기의 온라인상의 웹문서를 수집하거나 문서가 스캐닝 된 후 문서인식 또는 직접입력등을 통해 실시간으로 추가되는 문서를 키워드로 분류해서 저장하는 문서디비(120)와;
    사용자의 원하는 단어가 하나 이상 입력되는 질의어입력부(125)와;
    사용자에 의해 입력된 질의를 키워드로하여 상기 문서디비(120)로부터 단어 및 문장을 획득하여 버퍼에 저장하는 문장획득부(130)와;
    상기 획득된 단어 및 문장들으로부터 유사한 항목끼리 분류하는 단어/문장분류부(135)와;
    분류된 단어 및 문장간의 연관도 및 중요도를 분석하되, 질의어와 색인어간의 연관도 및 노출 빈도수 및 문서의 가중치를 기반으로 중요도를 판단하여 순위를 정하기 위한 연관도/중요도분석부(140)와;
    자동 분류된 단어, 문장군중에 대표되는 문장을 생성하는 대표문장생성부(145)와;
    각 문장군에 해당하는 단어, 문장들의 성향을 연산하기 위하여 문서내 단어를 근거하여 긍정어, 부정어 및 각각의 단어에 따른 점수를 부여하되, 성향 분석을 하기 위해 질의어를 포함하는 문서에서 추출된 단어에 대해서 성향단어디비(155)를 참고하여 긍정 또는 부정 성향 판단하기 위한 성향연산부(150)와;
    긍정어, 부정어로 분류되고 각 단어의 성향 점수가 저장되는 성향단어디비(155)와;
    대표문장 및 대표문장이 속하는 문장군의 성향 점수를 제시하며, 대량의 문서에서 질의어와 연관이 많은 키워드 또는 문장에 대해서 기간별로 중요도 또는 성향을 생성하기 위한 분석결과출력부(160);를 포함하여 구성되는 것을 특징으로 하는 질의어에 따른 대량문서기반 성향 분석시스템.
KR1020050037722A 2005-05-04 2005-05-04 질의어에 따른 대량문서기반 성향 분석시스템 KR100731283B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020050037722A KR100731283B1 (ko) 2005-05-04 2005-05-04 질의어에 따른 대량문서기반 성향 분석시스템
US11/913,548 US20090276411A1 (en) 2005-05-04 2005-05-25 Issue trend analysis system
PCT/KR2005/001531 WO2006118360A1 (en) 2005-05-04 2005-05-25 Issue trend analysis system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050037722A KR100731283B1 (ko) 2005-05-04 2005-05-04 질의어에 따른 대량문서기반 성향 분석시스템

Publications (2)

Publication Number Publication Date
KR20060115261A KR20060115261A (ko) 2006-11-08
KR100731283B1 true KR100731283B1 (ko) 2007-06-21

Family

ID=37308134

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050037722A KR100731283B1 (ko) 2005-05-04 2005-05-04 질의어에 따른 대량문서기반 성향 분석시스템

Country Status (3)

Country Link
US (1) US20090276411A1 (ko)
KR (1) KR100731283B1 (ko)
WO (1) WO2006118360A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008070415A2 (en) * 2006-11-14 2008-06-12 Deepdive Technologies Inc. Networked information collection apparatus and method
KR100837751B1 (ko) * 2006-12-12 2008-06-13 엔에이치엔(주) 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템
US7685084B2 (en) * 2007-02-09 2010-03-23 Yahoo! Inc. Term expansion using associative matching of labeled term pairs
KR100936595B1 (ko) * 2007-08-14 2010-01-13 엔에이치엔비즈니스플랫폼 주식회사 단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템
KR100869545B1 (ko) * 2008-04-28 2008-11-19 한국생명공학연구원 검색 히스토리를 생성하는 되풀이 검색시스템
KR101012169B1 (ko) * 2008-10-23 2011-02-07 엔에이치엔비즈니스플랫폼 주식회사 연관 광고 통합을 기반으로 한 광고 제공 방법 및 그 시스템
JP5048852B2 (ja) * 2011-02-25 2012-10-17 楽天株式会社 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
KR101389449B1 (ko) * 2011-07-07 2014-04-28 경북대학교 산학협력단 자료 분석 장치 및 방법
KR101351555B1 (ko) * 2012-04-05 2014-01-16 주식회사 알에스엔 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템
US9582486B2 (en) 2014-05-13 2017-02-28 Lc Cns Co., Ltd. Apparatus and method for classifying and analyzing documents including text
KR102681898B1 (ko) * 2023-10-25 2024-07-04 주식회사 깔로 Ai 모델을 이용한 여론 조사 및 여론 예측을 위한 참여 플랫폼을 운영하는 서버 및 이를 이용한 여론 조사 및 예측 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020072140A (ko) * 2001-03-09 2002-09-14 서정연 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법
KR20040029895A (ko) * 2002-10-02 2004-04-08 씨씨알 주식회사 검색 시스템

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH083815B2 (ja) * 1985-10-25 1996-01-17 株式会社日立製作所 自然言語の共起関係辞書保守方法
WO1999063456A1 (fr) * 1998-06-04 1999-12-09 Matsushita Electric Industrial Co., Ltd. Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme
JP3791879B2 (ja) * 1999-07-19 2006-06-28 富士通株式会社 文書要約装置およびその方法
KR20010106666A (ko) * 2000-05-22 2001-12-07 복인근 웹페이지로부터 정보를 추출하고 저장하기 위한 방법과시스템, 그리고 추출된 데이터를 저장하는 저장매체
KR100378240B1 (ko) * 2000-08-23 2003-03-29 학교법인 통진학원 엔트로피와 사용자 프로파일을 적용한 문서순위 조정방법
US20030020749A1 (en) * 2001-07-10 2003-01-30 Suhayya Abu-Hakima Concept-based message/document viewer for electronic communications and internet searching
KR100488112B1 (ko) * 2001-12-28 2005-05-06 엘지전자 주식회사 음성 포탈 시스템에서의 검색 및 문서 변환 장치
KR20040017008A (ko) * 2002-08-20 2004-02-26 주식회사 케이랩 검색엔진을 활용한 정보 제공 시스템 및 그 방법
US7158957B2 (en) * 2002-11-21 2007-01-02 Honeywell International Inc. Supervised self organizing maps with fuzzy error correction
GB2399427A (en) * 2003-03-12 2004-09-15 Canon Kk Apparatus for and method of summarising text
JP2004280661A (ja) * 2003-03-18 2004-10-07 Fujitsu Ltd 検索方法及びプログラム
US20050171685A1 (en) * 2004-02-02 2005-08-04 Terry Leung Navigation apparatus, navigation system, and navigation method
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
US7409332B2 (en) * 2004-07-14 2008-08-05 Microsoft Corporation Method and apparatus for initializing iterative training of translation probabilities
EP1825395A4 (en) * 2004-10-25 2010-07-07 Yuanhua Tang FULL TEXT INTERROGATION AND RESEARCH SYSTEMS AND METHODS OF USE
US20060212421A1 (en) * 2005-03-18 2006-09-21 Oyarce Guillermo A Contextual phrase analyzer
US20060218115A1 (en) * 2005-03-24 2006-09-28 Microsoft Corporation Implicit queries for electronic documents
US8135728B2 (en) * 2005-03-24 2012-03-13 Microsoft Corporation Web document keyword and phrase extraction
US7453992B2 (en) * 2005-04-14 2008-11-18 International Business Machines Corporation System and method for management of call data using a vector based model and relational data structure

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020072140A (ko) * 2001-03-09 2002-09-14 서정연 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법
KR20040029895A (ko) * 2002-10-02 2004-04-08 씨씨알 주식회사 검색 시스템

Also Published As

Publication number Publication date
US20090276411A1 (en) 2009-11-05
WO2006118360A1 (en) 2006-11-09
KR20060115261A (ko) 2006-11-08

Similar Documents

Publication Publication Date Title
KR100731283B1 (ko) 질의어에 따른 대량문서기반 성향 분석시스템
KR102020756B1 (ko) 머신러닝을 이용한 리뷰 분석 방법
Lin et al. Emotion classification of online news articles from the reader's perspective
El et al. Authorship analysis studies: A survey
Doermann The indexing and retrieval of document images: A survey
CN105912576B (zh) 情感分类方法及***
US7424421B2 (en) Word collection method and system for use in word-breaking
US8510312B1 (en) Automatic metadata identification
CN112581006A (zh) 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法
JPH1074250A (ja) 文書処理装置、文書処理方法、および記憶媒体
CN111460091B (zh) 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法
CN107102976A (zh) 基于微博的娱乐新闻自动构建技术与***
KR101059557B1 (ko) 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
JPH11328317A (ja) 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
Digamberrao et al. Author identification on literature in different languages: a systematic survey
Ringlstetter et al. Adaptive text correction with Web-crawled domain-dependent dictionaries
US20220292127A1 (en) Information management system
KR101400548B1 (ko) 문서의 자동 학습 장치와 이를 이용한 문서 자동 학습 방법, 문서의 자동 분류 장치와 이를 이용한 문서 자동 분류 방법
Li-Juan et al. A classification method of Vietnamese news events based on maximum entropy model
JP4362492B2 (ja) 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム
KR101712507B1 (ko) 마이크로블로그의 개체명 링킹 시스템.
BAZRFKAN et al. Using machine learning methods to summarize persian texts
JP2007241636A (ja) 文書データ解析装置および文書データ解析プログラム
JPH10198683A (ja) 文書画像分類方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120508

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130430

Year of fee payment: 7