KR102140976B1 - 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법 - Google Patents

텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법 Download PDF

Info

Publication number
KR102140976B1
KR102140976B1 KR1020200038500A KR20200038500A KR102140976B1 KR 102140976 B1 KR102140976 B1 KR 102140976B1 KR 1020200038500 A KR1020200038500 A KR 1020200038500A KR 20200038500 A KR20200038500 A KR 20200038500A KR 102140976 B1 KR102140976 B1 KR 102140976B1
Authority
KR
South Korea
Prior art keywords
word
words
text
feature extraction
text data
Prior art date
Application number
KR1020200038500A
Other languages
English (en)
Inventor
김지혁
김건민
Original Assignee
(주)위세아이텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)위세아이텍 filed Critical (주)위세아이텍
Priority to KR1020200038500A priority Critical patent/KR102140976B1/ko
Application granted granted Critical
Publication of KR102140976B1 publication Critical patent/KR102140976B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

텍스트 피처 추출 장치에 관한 것이며, 텍스트 피처 추출 장치는, 복수의 사전을 이용하여 입력받은 텍스트 데이터에서 주요 단어를 추출하는 단어 추출 프로세서 및 추출된 상기 주요 단어를 텍스트 분석 알고리즘에 적용하여 벡터화한 후 주성분 분석을 이용하여 상기 텍스트 데이터의 피처를 추출하는 피처 추출 실행부를 포함할 수 있다.

Description

텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법{DEVICE AND METHOD FOR EXTRACTING FEATURES EXTRACTED BY APPLYING PRINCIPAL COMPONENT ANALYSIS TO WORD VECTORS GENERATED FROM TEXT DATA}
본원은 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법에 관한 것이다.
기존의 텍스트 데이터에서 피처를 추출하는 과정은 데이터에 형태소 분석을 실시하여 추출한 단어 모음에 대하여 벡터화를 실시하여 피처를 추출하는 방식을 사용하고 있다.
그러나 이 방식은 텍스트 데이터의 용량이 커질 경우 피처의 개수가 너무 많아질 수 있으며 이는 정형 데이터와 같이 사용할 경우, 머신러닝을 이용하여 데이터 분석을 할 때 지나치게 많은 피처의 수로 인해 성능이 좋지 않을 가능성이 높다.
머신러닝을 이용하여 정형 데이터와 텍스트 데이터가 혼합된 데이터를 분석 시 단어의 벡터화를 실시하는 것뿐만 아니라 이 벡터에 대해 주성분 분석을 이용하여 소수의 피처를 추출할 필요성이 있다.
이를 위해 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 기술이 필요하다.
본원의 배경이 되는 기술은 한국공개특허공보 제10-2015-0048751호에 개시되어 있다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하여, 머신러닝을 이용하여 정형 데이터와 텍스트 데이터가 혼합된 데이터를 분석 시 성능을 높일 수 있는 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법을 제공하는 것을 목적으로 한다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 정형 데이터와 텍스트 데이터가 혼합된 데이터를 분석 시 텍스트 데이터에 TF-IDF 방식을 적용하여 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출할 수 있는 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법을 제공하는 것을 목적으로 한다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어를 시각화하여 어느 단어가 피처에 영향력을 많이 미쳤는지에 대한 정보를 파악할 수 있는 기능을 제공하려는 것을 목적으로 한다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처 3개에 대하여 벤 다이어그램 모양을 활용한 워드 클라우드 방식의 시각화 기능을 제공하려는 것을 목적으로 한다.
다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 텍스트 피처 추출 장치는, 복수의 사전을 이용하여 입력받은 텍스트 데이터에서 주요 단어를 추출하는 단어 추출 프로세서 및 추출된 상기 주요 단어를 텍스트 분석 알고리즘에 적용하여 벡터화한 후 주성분 분석을 이용하여 상기 텍스트 데이터의 피처를 추출하는 피처 추출 실행부를 포함할 수 있다.
또한, 상기 단어 추출 프로세서는, 사용자로부터 주요 단어와 관련된 입력 정보를 획득하는 사용자 사전 입력부, 복수의 일반 명사를 포함하는 명사 사전을 획득하는 자체 사전 입력부, 상기 텍스트 데이터에서 형태소를 분리하고, 단어가 될 수 있는 형태소를 추출하는 단어 후보 추출부 및 상기 단어 후보 추출부에서 추출한 형태소 목록에서 상기 복수의 사전을 이용하여 상기 주요 단어를 추출하는 주요 단어 추출부를 포함할 수 있다.
또한, 상기 피처 추출 실행부는, 상기 주요 단어 추출부에서 추출한 주요 단어를 상기 텍스트 분석 알고리즘에 적용하여 각 주요 단어를 벡터화하는 단어 벡터 생성부 및 상기 단어 벡터 생성부에서 벡터화된 단어에 주성분 분석을 이용하여 피처를 추출하는 피처 추출부를 포함할 수 있다.
또한, 상기 단어 후보 추출부는, 두 글자 이상의 한글 단어로부터 상기 단어가 될 수 있는 형태소를 추출할 수 있다.
또한, 상기 주요 단어 추출부는, 상기 명사 사전을 이용하여 상기 텍스트 데이터에서 명사인 단어들을 추출하고, 비 명사 사전을 이용하여 명사가 아닌 단어들을 제거할 수 있다.
또한, 상기 주요 단어 추출부는, 상기 복수의 사전 중 사용자 사전에 포함된 단어에 제1우선순위를 부여하고, 명사 사전에 포함된 단어에 제2우선순위를 부여하여, 상기 주요 단어를 추출할 수 있다.
본원의 일 실시예에 따르면, 텍스트 피처 추출 방법은, 텍스트 데이터를 입력받는 단계, 상기 텍스트 데이터에서 형태소를 분석하는 단계, 형태소가 분석된 상기 텍스트 데이터에서 주요 단어를 추출하는 단계, 추출된 주요 단어를 텍스트 분석 알고리즘에 적용하여 벡터화하는 단계 및 주성분 분석에 벡터화된 주요 단어를 적용하여 피처를 추출하는 단계를 포함할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 머신러닝을 이용하여 정형 데이터와 텍스트 데이터가 혼합된 데이터를 분석 시 성능을 높일 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어를 시각화하여 나타낼 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 텍스트 데이터 분석 시 단어의 벡터화를 실시하고 피처를 추출하는 과정에서 피처에 대한 설명력을 제공할 수 있다.
다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.
도 1은 본원의 일 실시예에 따른 텍스트 데이터 피처 추출 장치의 개략적인 블록도이다.
도 2는 본원의 일 실시예에 따른 텍스트 데이터 피처 추출 장치의 단어 후보 추출부에서 추출한 단어를 개략적으로 나타낸 도면이다.
도 3은 본원의 일 실시예에 따른 텍스트 데이터 피처 추출 장치의 피처 추출부에서 추출한 피처 값을 개략적으로 나타낸 도면이다.
도 4는 본원의 일 실시예에 따른 텍스트 데이터 장치의 피처 추출 과정을 설명하기 위해 개략적으로 나타낸 개요도이다.
도 5는 본원의 일 실시예에 따른 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 방법에 대한 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
본원은 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법에 관한 것이다.
도 1은 본원의 일 실시예에 따른 텍스트 피처 추출 장치의 개략적인 블록도이다.
도 1을 참조하면, 텍스트 피처 추출 장치(120)는 단어 추출 프로세서(130) 및 피처 추출 실행부(140)를 포함할 수 있다. 다만, 텍스트 피처 추출 장치(120)의 구성이 이에 한정되는 것은 아니다. 예를 들어, 텍스트 피처 추출 장치(102)는 텍스트 데이터를 입력받기 위한 텍스트 데이터 입력부(미도시)를 포함할 수 있다. 또한, 텍스트 피처 추출 장치(120)는 추출된 피처를 저장하기 위한 데이터베이스(미도시)를 포함할 수 있다.
본원의 일 실시예에 따르면, 텍스트 피처 추출 장치(120)는 외부 서버(미도시)로부터 텍스트 데이터(110)를 입력받을 수 있다. 또한, 텍스트 피처 추출 장치(120)는 사용자 단말(미도시)로부터 텍스트 데이터(110)를 입력받을 수 있다. 텍스트 데이터(110)는 피처를 추출하기 위한 데이터로서, 한글, 영어, 특수문자, 숫자 등을 포함하는 문서일 수 있다. 또한, 텍스트 데이터(110)는 법률 문서, 계약서, 시방서, ITB, 해양 및 육상 플랜트 데이터, ERP(전사적 자원관리), PMIS(사업관리 정보시스템), 상용데이터, 공공데이터, 빅데이터 통합 정보, 공공데이터, Open API 등을 포함할 수 있다. 사용자는 피처 추출을 원하는 텍스트(문서)를 텍스트 피처 추출 장치(120)에 입력하고, 텍스트 피처 추출 장치(120)는 입력받은 텍스트 데이터에 형태소 분석 후 사전을 이용하여 주요 단어를 추출하고 추출된 주요 단어에 텍스트 분석 알고리즘을 적용하여 벡터화한 후, 벡터에 주성분 분석을 적용하여 미리 설정된 개수(예를 들어, 3개)의 피처를 추출할 수 있다.
본원의 일 실시예에 따르면, 단어 추출 프로세서(130)는 복수의 사전을 이용하여 입력받은 텍스트 데이터에서 주요 단어를 추출할 수 있다. 단어 추출 프로세서(130)는 사용자 사전, 자체 사전 등의 복수의 사전을 이용하여 주요 단어를 추출할 수 있다. 복수의 사전은 사용자 사전, 자체 사전, 비명사 사전, 인명사전, 자명 사전 등을 포함할 수 있다. 단어 추출 프로세서(130)는 사용자의 입력 정보에 기반하여 사용자 사전을 구축할 수 있다. 또한, 단어 추출 프로세서(130)는 복수의 일반 명사를 포함하는 명사 사전을 구축할 수 있다. 또한, 단어 추출 프로세서(130)는 복수의 일반 명사를 포함하는 명사 사전을 외부 서버로부터 획득할 수 있다. 또한, 단어 추출 프로세서(130)는 텍스트 데이터에서 형태소를 분리하고, 단어가 될 수 있는 형태소를 추출할 수 있다.
예시적으로, 단어 추출 프로세서(130)는 텍스트 데이터에서 명사 후보를 추출할 수 있다. 텍스트 데이터가 한국어일 경우, 단어 추출 프로세서(130)는 명사 추출 함수(예를 들어, soynlp의 LRNounExtractor_v2 함수)를 적용하여 명사 후보를 추출할 수 있다. 또한, 단어 추출 프로세서(130)는 사전을 이용하여 명사를 추출할 수 있다. 명사는 의미상 존재를 가지는 단어의 부류로서, 대상의 이름을 나타내는 것일 수 있다.
또한, 단어 추출 프로세서(130)는 복수의 사전을 이용하여 명사를 추출할 수 있다. 일예로, 명사 추출 함수(예를 들어, soynlp의 LRNounExtractor_v2 함수)를 이용하여 추출한 단어 중에서는 명사 외에도 한글자짜리 단어도 있고 특수문자나 외국어가 섞인 단어도 있고 명사가 아닌 단어들도 존재한다. 또한, 함수가 추출하지 못한 단어 중에서 사용자가 추출하기를 원하는 단어들도 있고 추출한 단어 중 사용자가 특별히 더 주요하게 생각하는 핵심단어가 있을 수 있다. 단어 추출 프로세서(130)는 주요 단어들만 남겨서 벡터화를 하기 위해 준비된 사전을 이용하여 단어의 품질을 개선한다.
본원의 일 실시예에 따르면, 피처 추출 실행부(140)는 추출된 주요 단어를 텍스트 분석 알고리즘에 적용하여 벡터화한 후 주성분 분석을 이용하여 텍스트 데이터의 피처를 추출할 수 있다. 일예로, 주성분 분석(PCA)은 변수들이 통계적으로 상관관계가 없도록 데이터 셋을 회전시키는 기술이다. 회전한 뒤에 데이터를 설명하는 데 얼마나 중요하나에 따라 종종 새로운 특성 중 일부만 선택한다. 이 새로운 특성을 주성분(각 주성분은 기존 데이터의 변수 모두의 영향을 받는다.)이라 하며 일부만 택하였을 경우 차원이 줄어들기에 차원 축소의 용도로 사용하기도 한다. 주성분 분석을 이용하여 텍스트 데이터의 피처를 추출하는데, 단어를 벡터화하여 모두 피처로 사용할 경우, 피처의 개수가 너무 많아지게 되므로 예측하는 데 있어 성능이 좋지 않을 수 있다는 문제점이 있다. 따라서 피처 추출 실행부(140)는 주성분 분석을 이용하여 피처를 추출할 수 있다. 추출하는 피처의 수는 시각화하기도 편하고 보편적으로 각 벡터의 분산을 80% 내지 90% 표현할 수 있는 미리 설정된 개수(예를 들어, 3개)를 기본값으로 설정할 수 있다.
또한, 피처 추출 실행부(140)는 벡터 추출 패키지(예를 들어, Scikit-Learn의 feature_extraction의 서브패키지 중 하나인 feature_extraction.text)를 이용하여 주요 명사를 벡터화할 수 있다. 벡터 추출 패키지(예를 들어, Scikit-Learn의 feature_extraction의 서브패키지 중 하나인 feature_extraction.text)는 문서 전처리 클래스를 제공하며 이 클래스의 함수 중 빈도수를 기반으로 단어를 벡터화하는 함수인 텍스트 분석 함수(예를 들어, TfidfTransformer 함수)를 이용하여 주요 명사들을 벡터화한다.
본원의 일 실시예에 따르면, 단어 추출 프로세서(130)는 사용자 사전 입력부(131), 자체 사전 입력부(132), 단어 후보 추출부(133) 및 주요 단어 추출부(134)를 포함할 수 있다.
본원의 일 실시예에 따르면, 사용자 사전 입력부(131)는 사용자로부터 주요 단어와 관련된 입력 정보를 획득할 수 있다. 사용자 사전 입력부(131)는 사용자가 사용자 단말(미도시)을 통해 입력한 사용자 입력 정보에 기반하여 사용자 사전을 구축할 수 있다. 또한, 사용자 사전 입력부(131)는 사용자가 텍스트 데이터에서 추출하고자 하는 단어가 있을 경우, 해당 단어들을 추출하기 위해 사용자 사전을 구축할 수 있다. 달리 말해, 사용자 사전 입력부(131) 사용자 단말(미도시)을 통해 한글, 영어 특수문자 중 적어도 어느 하나를 입력한 사용자 입력 정보에 기반하여 사용자 사전을 구축할 수 있다. 사용자 사전에 포함된 단어는 주요 단어 추출부에서 단어 추출 시 가장 높은 우선순위가 부여될 수 있다. 또한, 사용자 사전은 자체 사전 입력부(132)에 포함된 자체 사전으로는 데이터 특성에 맞는 단어를 전부 추출할 수 없을 수도 있는 한계를 극복하고, 사용자가 특별히 중요하다고 판단하는 단어들을 최우선순위에 놓기 위해서 사용자가 입력하는 사전이다.
본원의 일 실시예에 따르면, 사용자 사전 입력부(131)는 사용자 단말(미도시)로 단어 입력 메뉴를 제공할 수 있다. 예를 들어, 사용자 사전 입력부(131)가 제공하는 어플리케이션 프로그램을 사용자 단말(미도시)이 다운로드하여 설치하고, 설치된 어플리케이션을 통해 단어 입력 메뉴가 제공될 수 있다.
사용자는 단어 입력 메뉴를 통해, 우선적으로 추출해야 할 단어들을 입력할 수 있다. 사용자 사전 입력부(131)는 사용자 단말(미도시)로부터 입력되는 단어들을 수집하여 사용자 사전을 구축할 수 있다.
사용자 사전 입력부(131)는 사용자 단말(미도시)과 데이터, 콘텐츠, 각종 통신 신호를 네트워크를 통해 송수신하고, 데이터 저장 및 처리의 기능을 가지는 모든 종류의 서버, 단말, 또는 디바이스를 포함할 수 있다.
사용자 단말(미도시)은 네트워크를 통해 사용자 사전 입력부(131)와 연동되는 디바이스로서, 예를 들면, 스마트폰(Smartphone), 스마트패드(Smart Pad), 태블릿 PC, 웨어러블 디바이스 등과 PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기 같은 모든 종류의 무선 통신 장치 및 데스크탑 컴퓨터, 스마트 TV와 같은 고정용 단말기일 수도 있다.
사용자 사전 입력부(131) 및 사용자 단말(미도시) 간의 정보 공유를 위한 네트워크의 일 예로는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5G 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 유무선 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, Wifi 네트워크, NFC(Near Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함될 수 있으며, 이에 한정된 것은 아니다.
본원의 일 실시예에 따르면, 자체 사전 입력부(132)는 복수의 일반 명사를 포함하는 명사 사전을 획득할 수 있다. 일예로, 명사 사전은 자체적으로 보유한 명사가 포함된 사전일 수 있다. 예시적으로, 명사 사전에 포함된 단어 수는 31만 7151개이다. 전문 용어(예를 들어, 법률 용어 등 전문직, 전공별로 사용하는 특수한 단어들)의 수는 적으나 일상적인 단어 수는 다수 포함될 수 있다. 또한, 자체 사전 입력부(132)는 복수의 일반 명사를 포함하는 데이터베이스를 외부 서버로부터 획득할 수 있다. 자체 사전 입력부(132)는 외부 서버(미도시)로부터 특정 명사 사전을 획득할 수 있다. 달리 말해, 자체 사전 입력부(132)는 입력받은 텍스트 데이터(110)의 특징(특성)을 고려하여 외부 서버(미도시)로부터 특정 명사 사전을 획득할 수 있다. 예를 들어, 입력받은 텍스트 데이터(110)가 판결문 데이터인 경우, 자체 사전 입력부(132)는 법률 용어가 포함된 명사 사전을 외부 서버(미도시)로부터 획득할 수 있다.
또한, 자체 사전 입력부(132)는 비(非)명사 사전을 포함할 수 있다. 비(非)명사 사전은 ‘~친다, ~란다, ~렵다, ~므로, ~었다, ~있다, ~없다, ~한다, ~된다, 시킴, ~됨, 있음, 없음, ~하여, ~하면, ~되면, ~렀다, 어디, 않다’ 같이 명사가 아닌 품사를 가진 단어와 ‘??, ?O’ 같이 명사가 될 수 없는 어휘들로 구성되어 있다. 비(非)명사 사전 명사가 아닌 품사와 오탈자에 해당하는 단어를 포함할 수 있다. 또한, 비(非)명사 사전은 100% 명사인 단어가 아닌 단어들에 대하여 명사가 확실히 아닌 단어를 제거하기 위해 사용될 수 있다.
또한, 자체 사전 입력부(132)는 인명(人名) 사전 및 지명(地名) 사전을 포함할 수 있다. 인명(人名) 사전은 사람 이름으로 구성된 사전일 수 있다. 또한, 지명(地名) 사전은 지역 이름, 지하철역, 도시명 등을 포함하는 사전일 수 있다. 사람 이름과 지역명, 지하철역, 유명 장소 등은 데이터에 따라 필요할 수도 있고 불필요할 수도 있는 단어다. 사용자가 이를 불필요하다고 간주할 경우 제거할 수 있다.
본원의 일 실시예에 따르면, 단어 후보 추출부(133)는 텍스트 데이터에서 형태소를 분리하고, 단어가 될 수 있는 형태소를 추출할 수 있다. 일예로, 단어 후보 추출부(133)는 텍스트 데이터를 이용하여 형태소 분석을 실시하고, 문장, 구문 등에 단어가 될 수 있는 형태소를 추출할 수 있다. 단어 후보 추출부(13)는 텍스트 데이터에서 명사를 추출하기 위해 Komoran(Korean Morphological Analyzer) 형태소 분석을 수행할 수 있다. Komoran 형태소 분석은 기존 형태소 분석과 달리 여러 어절을 하나의 품사로 분석이 가능하여 공백이 포함된 텍스트 데이터를 더 정확하게 Tokenize할 수 있다.
한국어는 L + [R] 구조이다. L 옆에 등장하는 R의 분포는 L이 명사인지 아닌지를 판단하는 좋은 힌트가 된다. 하지만, 조사들을 R로 가지고 있으면서 규칙기반으로 명사를 찾을 수는 없다. 예를 들어, '-은'은 대표적인 조사지만 '손나은'이 '손나 + 은'은 아니다. 연예 뉴스에서 '에이핑크 맴버 손나은'은 자주 등장하지만 '손나 + 은', '손나 + 이', '손나 + 에게' 같은 어절은 자주 등장하지 않는다. 이와 같이 단어 추출 프로세서(130)는 L - R의 이분 그래프(bipartite graph)의 정보를 이용하여 해당 단어가 명사인지 아닌지 판단할 수 있다. 단어 추출 프로세서(130)는 세종 말뭉치를 이용하여 명사 뒤에 등장하는 R set을 모아뒀으며, R set의 단어들은 명사 가능 점수가 학습되어 있다. 명사 가능 점수의 범위는 [-1, 1]이다. 예를 들어, "내서"라는 단어는 -0.530702이고, "있게"라는 단어는 1.000000이고, "있는"이라는 단어는 0.327824이고, "쓰는"이라는 단어는 0.079298이고, "었다며"라는 단어는 -1.000000이고, "였다며"라는 단어는 0.437399이고, '했 + 었다며'이라면 '했'은 명사 점수가 -1.0이다. '재미 + 있게' 3번, '재미 + 있는' 2번 등장하였다면 재미의 명사 가능 점수는 (3 x 1.0 + 2 x 0.33) / 5 = 0.732점이다. 명사 추출의 한계점(threshold)이 0.5라면 '재미'는 명사로 추출될 수 있다. 달리 말해, 단어 후보 추출부(113)는 미리 설정된 명사 추출의 한계점에 기반하여 특정 명사를 추출할 수 있다.
이 방법은 주어진 문서 집합에서 어절들의 구조를 학습하여 그 주어진 문서 집합의 명사를 추출할 수 있다. 즉, 학습 데이터가 필요하지 않은 통계 기반의 자율(unsupervised) 학습 방법이다. 따라서 사전에 등록되지 않은 명사를 추출할 수 있는 장점이 있다. 본원의 단어 후보 추출부(133)는 명사 추출 함수(예를 들어, soynlp의 LRNounExtractor_v2 함수)를 이용하여 명사 후보를 추출할 수 있다.
또한, 단어 후보 추출부(133)는 두 글자 이상의 한글 단어로부터 단어가 될 수 있는 형태소를 추출할 수 있다. 특정 함수(예를 들어, LRNounExtractor_v2 함수)를 이용하여 추출한 단어 중에서는 명사 외에도 한글자짜리 단어도 있고 특수문자나 외국어가 섞인 단어도 있고 명사가 아닌 단어들도 존재한다. 또한, 함수가 추출하지 못한 단어 중에서 사용자가 추출하기를 원하는 단어들도 있고 추출한 단어 중 사용자가 특별히 더 주요하게 생각하는 핵심단어가 있을 수 있다. 단어 후보 추출부(133)는 주요 단어들만 남겨서 벡터화를 하기 위해 준비된 사전을 이용하여 단어의 품질을 개선할 수 있다. 단어 후보 추출부(133)는 텍스트 데이터(110)에서 형태소를 분리하고 명사를 추출할 수 있다. 또한, 단어 후보 추출부(133)는 텍스트 데이터(110)에서 2글자 이상의 한글로만 구성된 형태소를 추출할 수 있다.
예시적으로, 단어 후보 추출부(133)는 두 글자 이상의 한글 단어만 남기는 작업을 수행할 수 있다. 한글자 짜리 단어는 의미가 다양한 것이 많고, 조사인 경우가 많으므로 단어 후보 추출부(133)는 한글자 짜리 단어를 제외할 수 있다. 또한, 단어 후보 추출부(133)는 특수 문자나 외국어가 섞인 단어는 사용자가 입력한 것만 사용하기 위해 텍스트 데이터에 특수 문자 또는 외국어가 섞어있는 경우, 해당 단어를 제외(삭제)할 수 있다.
본원의 일 실시예에 따르면, 주요 단어 추출부(134)는 단어 후보 추출부(133)에서 추출한 형태소 목록에서 복수의 사전을 이용하여 주요 단어를 추출할 수 있다. 달리 말해, 주요 단어 추출부(134)는 단어 후보 추출부(133)에서 추출한 형태소 목록에서 사용자 사전, 자체 명사 사전, 비(非)명사 사전, 인명(人名)사전, 지명(地名)사전을 이용하여 단어를 추출할 수 있다.
또한, 주요 단어 추출부(134)는 명사 사전을 이용하여 텍스트 데이터에서 명사인 단어들을 추출할 수 있다. 주요 단어 추출부(134)는 kkma, mecab 등 다른 konlpy의 사전과 자체적으로 구축한 명사 사전을 이용하여 추출한 단어 중 명사인 단어를 추출할 수 있다. 주요 단어 추출부(134)는 사용자 사전의 유무와 관계없이 명사 사전을 이용하여 텍스트 데이터에서 명사인 단어들을 추출할 수 있다. 이렇게 추출한 단어들은 100% 명사로 간주하여 사용될 수 있다. 명사 사전의 단어 보유 수는 31만 7151개이다. 전문 용어(예: 법률 용어 등 전문직, 전공별로 사용하는 특수한 단어들)의 수는 적으나 일상적인 단어 수는 다수 확보되어 있다.
또한, 주요 단어 추출부(134)는 비 명사 사전을 이용하여 명사가 아닌 단어들을 제거할 수 있다. 주요 단어 추출부(134)는 비(非)명사 사전을 사용하여 100% 명사인 단어가 아닌 단어들을 삭제(제거)할 수 있다. 이때, 비(非)명사 사전은 ‘~친다, ~란다, ~렵다, ~므로, ~었다, ~있다, ~없다, ~한다, ~된다, 시킴, ~됨, 있음, 없음, ~하여, ~하면, ~되면, ~렀다, 어디, 않다’ 같이 명사가 아닌 품사를 가진 단어와 ‘??, ?O’ 같이 명사가 될 수 없는 어휘들로 구성되어 있다. 비(非)명사 사전으로 필터링을 거친 후 남은 단어들은 비지도 학습으로 얻은 신조어, 합성명사, 전문 용어 등으로 간주하고 사용여부를 결정할 수 있다.
일예로, 사람 이름과 지역명, 지하철역, 유명 장소 등은 데이터에 따라 필요할 수도 있고 불필요할 수도 있는 단어다. 주요 단어 추출부(134)는 사용자의 입력 정보에 기반하여 해당 단어를 삭제(제거)할 수 있다. 주요 단어 추출부(134)는 비 명사 사전을 이용하여 제거된 단어 모음에 대하여 추가적으로 인명, 지명을 제거하고 싶을 때 인명 사전 및 지명 사전을 적용하여 단어를 제거(삭제)할 수 있다.
또한, 주요 단어 추출부(134)는 사용자 사전을 이용하여 단어들을 제거할 수 있다. 사용자 사전은 사용자가 해당 텍스트 피처 추출에서 중요하다고 판단하는 단어들을 입력한 사전일 수 있다.
또한, 주요 단어 추출부(134)는 복수의 사전 중 사용자 사전에 포함된 단어에 제1우선순위를 부여할 수 있다. 또한, 주요 단어 추출부(134)는 복수의 사전 중 명사 사전에 포함된 단어에 제2우선순위를 부여할 수 있다. 주요 단어 추출부(134)는 우선순위가 부여된 단어 목록에서 주요 단어를 추출할 수 있다. 일예로, 주요 단어 추출부(134)는 단어 후보 추출부(133)에서 추출한 형태소 목록에 복수의 사전 중 사용자 사전에 포함된 단어가 존재하는 경우, 해당 단어에 제1우선순위를 부여할 수 있다. 또한, 주요 단어 추출부(134)는 단어 후보 추출부(133)에서 추출한 형태소 목록에 복수의 사전 중 명사 사전에 포함된 단어가 존재하는 경우, 해당 단어에 제2우선순위를 부여할 수 있다. 주요 단어 추출부(134)는 단어 후보 추출부(133)에서 추출한 형태소 목록에 부여된 우선순위에 기반하여 최종 주요 단어를 추출할 수 있다. 일예로, 주요 단어 추출부(134)는 미리 설정된 랭크 이내의 단어를 주요 단어로 추출할 수 있다. 한편, 주요 단어 추출부(134)는 단어 후보 추출부(133)에서 추출한 형태소 목록에 복수의 사전 중 사용자 사전에 포함된 단어가 존재하는 경우, 해당 단어에 제1가중치를 부여할 수 있다. 또한, 주요 단어 추출부(134)는 단어 후보 추출부(133)에서 추출한 형태소 목록에 복수의 사전 중 명사 사전에 포함된 단어가 존재하는 경우, 해당 단어에 제2가중치를 부여할 수 있다. 여기서, 제1가중치는 제2가중치보다 높은 것일 수 있다. 주요 단어 추출부(134)는 가중치가 부여된 단어 목록은 재 생성하고, 주요 단어를 추출할 수 있다.
본원의 일 실시예에 따르면, 단어 벡터 생성부(141)는 주요 단어 추출부(134)에서 추출한 주요 단어를 텍스트 분석 알고리즘에 적용하여 주요 단어를 벡터화할 수 있다. 단어 벡터 생성부(141)는 주요 단어 추출부(134)에서 추출한 단어에 대하여 텍스트 분석 알고리즘(예를 들어, TF-IDF기법)을 적용하여 각 단어를 벡터화할 수 있다. 일예로, 단어 벡터 생성부(141)는 벡터 추출 패키지(예를 들어, Scikit-Learn의 feature_extraction의 서브패키지 중 하나인 feature_extraction.text)를 이용하여 주요 단어를 벡터화할 수 있다. 벡터 추출 패키지(예를 들어, Scikit-Learn의 feature_extraction의 서브패키지 중 하나인 feature_extraction.text)는 문서 전처리 클래스를 제공하며 이 클래스의 함수 중 빈도수를 기반으로 단어를 벡터화하는 함수인 텍스트 분석 함수(예를 들어, TfidfTransformer 함수)를 이용하여 주요 명사들을 벡터화할 수 있다.
일예로, 단어 벡터 생성부(141)는 문서에 포함된 단어의 빈도수를 산출할 수 있다. 텍스트 데이터(문서)에서의 단어의 빈도수는 수학식 1과 같이 표현될 수 있다. 여기서, d는 텍스트 데이터(문서)이고, t는 단어일 수 있다. 즉, 수학식 1은 문서 d에서 단어 t의 빈도수를 의미할 수 있다. TF의 값은 상황에 따라 정규화될 수 있다.
[수학식 1]
Figure 112020033217833-pat00001
또한, 단어 벡터 생성부(141)는 불린 빈도(Boolean Frequency)를 이용하여 텍스트 데이터(110)에 단어가 포함된 경우 1, 단어가 포함되지 않은 경우 0으로 표기할 수 있다. 일예로, 불린 빈도는 수학식 2와 같이 표현될 수 있다.
[수학식 2]
Figure 112020033217833-pat00002
일예로, 단어 벡터 생성부(141)는 불린 빈도를 이용하여 텍스트 데이터(110)에 단어가 포함된 경우 또는 단어가 포함되지 않는 경우를 포기함으로써, TF(Term Frequency)의 값이 지나치게 커지는 것을 방지할 수 있다. 반면, 단어 벡터 생성부(141)는 텍스트 데이터(110)에 단어가 1번이 나타나나 100번이 나타나나 똑같은 가중치를 부여하기 때문에, TF가 중요하지 않은 경우, 즉 단어의 등장 유무만 중요할 때 불린 빈도를 적용하여 단어를 단어의 등장 유무를 표기할 수 있다.
또한, 단어 벡터 생성부(141)는 로그 스케일 빈도(Logarithmically Scaled Frequency)를 수학식 3과 같이 표현할 수 있다. 로그 스케일 빈도는 크기를 줄이기 위해 로크 스케일로 변환한 값을 의미할 수 있다. 이때, 텍스트 데이터(110)에 나타나는 단어의 빈도수 차이가 적으면 TF 값의 변화가 크지만 단어의 빈도가 무수히 늘어나는 경우엔 TF 값의 차이가 거의 없게 된다.
[수학식 3]
Figure 112020033217833-pat00003
또한, 단어 벡터 생성부(141)는 텍스트 데이터(110)의 길이에 따라 단어의 상대적 빈도 값을 조정할 수 있다. 달리 말해, 증가 빈도(Augmented Frequency)는 문서 길이에 따라 단어의 상대적 빈도 값을 조정해주는 방법으로 단어의 빈도를 문서 내 단어들의 단어 빈도 중 최댓값으로 나눠주는 방법을 의미한다. 증가 빈도는 수학식 4와 같이 표현될 수 있다. 수학식 4는 편차를 줄이기 위해 조정된 수식일 수 있다.
[수학식 4]
Figure 112020033217833-pat00004
예를 들어, 단어 벡터 생성부(141)는 제1문서에서 A라는 단어가 100번, 제2문서에서 5번, 제3 문서에서 8번이 등장하면 분모가 100으로 고정할 수 있다.
IDF(inverse document frequency)는 특정한 단어가 들어 있는 문서의 수에 반비례하는 수를 의미할 수 있다. IDF(inverse document frequency)는 전체 문서에서 자주 발생하는 단어의 중요도를 낮추기 위해 사용될 수 있다. 이때, 그냥 역수를 취하면 전체 문서의 수가 많아질수록 IDF(inverse document frequency)의 값이 기하급수적으로 커지게 되므로 IDF 또한, 로그를 취한다. IDF(inverse document frequency)는 수학식 5와 같이 표현될 수 있다.
[수학식 5]
Figure 112020033217833-pat00005
TF-IDF 인코딩은 한 문서에서 많이 나타나는 중요도는 높이고(TF), 전체 문서에서 자주 발생하는 단어의 중요도는 낮추는 방법이다. TF-IDF는 수학식 6과 같이 표현될 수 있다.
[수학식 6]
Figure 112020033217833-pat00006
예시적으로 수학식 6은
Figure 112020033217833-pat00007
값(중요도)이 커지게 됨을 의미할 수 있다.
예시적으로, 단어 벡터 생성부(141)는 텍스트 데이터(110)를 입력받고, 텍스트 데이터(110)에 포함된 단어별로 번호를 부여할 수 있다.
Corpus = ['This is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document?']
단어별로 번호 부여 {'and': 0, 'document': 1, 'first': 2, 'is': 3, 'last': 4, 'one': 5, 'second': 6, 'the': 7, 'third': 8, 'this': 9}
단어 벡터 생성부(141)는 TF값만 적용하여 행렬을 생성할 수 있다. 여기서, 행은 단어별로 부여된 번호를 나타내고, 열은, 문장을 나타내는 것일 수 있다.
TF값만 취할 경우 : array([[0, 1, 1, 1, 0, 0, 0, 1, 0, 1],
[0, 1, 0, 1, 0, 0, 2, 1, 0, 1],
[1, 0, 0, 0, 0, 1, 0, 1, 1, 0],
[0, 1, 1, 1, 0, 0, 0, 1, 0, 1])
또한, 단어 벡터 생성부(141)는 T TF-IDF 값을 적용하여 행렬을 생성할 수 있다. 여기서, 행은 단어별로 부여된 번호를 나타내고, 열은, 문장을 나타내는 것일 수 있다.
Array ([[0. , 0.3894, 0.5577, 0.462 , 0. , 0. , 0. , 0.3294, 0. , 0.4629],
[0. , 0.2415, 0. , 0.2870, 0. , 0. , 0.8573, 0.2042, 0. , 0.2870],
[0.5566, 0. , 0. , 0. , 0. , 0.5566, 0. , 0.2652, 0.5566, 0. ],
[0. , 0.3894, 0.5577, 0.4629 , 0. , 0. , 0. , 0.3294, 0. , 0.4629]
앞서 설명된 예시는 일 실시예일 뿐 이에 한정되는 것은 아니다. 보다 다양한 일 실시예에 존재할 수 있다.
본원의 일 실시예에 따르면, 피처 추출부(142)는 단어 벡터 생성부(141)에서 벡터화된 단어에 주성분 분석을 이용하여 피처를 추출할 수 있다. 피처 추출부(142)는 단어 벡터를 3차원으로 차원 축소하여 새로운 피처 3개를 추출할 수 있다. 주성분 분석(PCA)는 변수들이 통계적으로 상관관계가 없도록 데이터 셋을 회전시키는 기술이다. 회전한 뒤에 데이터를 설명하는 데 얼마나 중요하냐에 따라 종종 새로운 특성 중 일부만 선택한다. 이 새로운 특성을 주성분(각 주성분은 기존 데이터의 변수 모두의 영향을 받는다.)이라 하며 일부만 택하였을 경우 차원이 줄어들기에 차원 축소의 용도로 사용하기도 한다.
또한, 피처 추출부(142)는 단어를 벡터화하여 모두 피처로 사용할 경우, 피처의 개수가 너무 많아지게 되므로 예측하는 데 있어 성능이 좋지 않을 수 있다는 문제점이 있다. 따라서 주성분 분석을 이용하여 피처를 추출한다. 추출하는 피처의 수는 시각화하기도 편하고 보편적으로 각 벡터의 분산을 80% 내지 90% 표현할 수 있는 미리 설정된 개수(예를 들어, 3개)를 기본값으로 한다.
또한, 피처 추출부(142)는 추출하는 피처의 이름을 생성할 수 있다. 예를 들어, 기존의 텍스트 데이터(110)에 포함된 텍스트 변수명이 ‘text’일 경우, 추출되는 3개의 피처의 이름은 차례대로 ‘text_PCA_1’, ‘text_PCA_2’, ‘text_PCA_3’로 생성할 수 있다.
본원의 일 실시예에 따르면, 피처 추출부(142)는 주성분 분석을 이용하여 피처를 추출했을 경우, 주성분 분석에 사용된 각 변수들이 추출된 피처에 미치는 영향도를 추출할 수 있다. 예를 들어, 피처 추출부(142)는 Scikit-Learn의 decomposition의 함수인 PCA.components_를 이용하여 영향도를 추출할 수 있다. 이 함수는 각 PCA를 이용하여 피처를 추출했을 경우, PCA에 사용된 각 변수들이 추출된 피처에 어느 정도 영향을 미치고 있는지를 표현할 수 있다.
예를 들어, A, BC, D, E 변수를 PCA 적용하여 두 개의 변수 M, N을 추출했을 경우 [표1]과 같은 영향도가 추출될 수 있다.
A B C D E
M -0.3 -0.4 0.5 0.7 0.1
N 0.1 -0.7 -0.4 -0.5 0.3
A, B, C, D, E 변수가 변수 M에 미치는 영향도는 각각 -0.3, -0.4, 0.5, 0.7, 0.1이고 변수 N에 미치는 영향도는 각각 0.1, -0.7, -0.4, -0.5, 0.3이다. 즉, M에 양의 상관관계를 가장 높게 띄는 변수는 D, 음의 상관관계를 가장 높게 띄는 변수는 B이고 N에 양의 상관관계를 가장 높게 띄는 변수는 E, 음의 상관관계를 가장 높게 띄는 변수는 B이다. 피처 추출부(142)는 각 영향도에 제곱하여 더했을 경우 1이 나오도록 생성할 수 있다. 예를 들어, 피처 추출부(142)는 표1에 도시된 변수별 각각의 영향도에 제곱을 곱하여 아래와 같이 도출할 수 있다.
Figure 112020033217833-pat00008
피처 추출부(142)는 이를 토대로 기존의 각 변수가 PCA로 추출된 피처에 어느 정도 영향을 미치는지 백분율로 나타낼 수 있다.
표1에 영향도를 제곱하면 표2와 같이 표현될 수 있으며, 이를 백분율로 나타내면 표3과 같이 표현될 수 있다. 피처 추출부(142)는 이를 통해 각 피처별로 어떤 변수가 주요했는지(영향을 많이 끼쳤는지)파악할 수 있다.
A B C D E
M 0.09 0.16 0.25 0.49 0.01
N 0.01 0.49 -0.16 0.25 0.09
A B C D E
M 9% 16% 25% 49% 1%
N 1% 49% 16% 25% 9%
도 2는 본원의 일 실시예에 따른 텍스트 피처 추출 장치의 단어 후보 추출부에서 추출한 단어를 개략적으로 나타낸 도면이고, 도 3은 본원의 일 실시예에 따른 텍스트 피처 추출 장치의 피처 추출부에서 추출한 피처 값을 개략적으로 나타낸 도면이다.
예시적으로, 텍스트 피처 추출 장치(120)는 텍스트 데이터(110)를 입력받을 수 있다. 텍스트 데이터(110)는 표4와 같은 텍스트를 포함할 수 있다. 일예로, 텍스트 데이터(110)는 법정 판결문 데이터를 포함할 수 있다.
precedent Text
<신청인, 심판청구인><상대방, 피심판청구인><원심판결>대구고등법원 1981.3.31. 선고 80르93 판결<주 문>상고허가신청을 각하한다.<이 유>소송촉진등에 관한 특례법 제12조에 규정된 상고허가신청은 민사소송사건에 적용되는 것이고, 이 사건과 같은 가사심판사건에는 그 적용이 없음이동법 제2조의 규정에 비추어 명백하다(신청인은당원 81므43호로 상고도 제기하고 있다).그러므로 이 신청은 부적법하여 이를 각하하기로 하고 관여법관의 일치된 의견으로 주문과 같이 결정한다
<피 고 인><상 고 인> 피고인<원심판결>대구지방법원 1990.2.2. 선고 89노1675 판결<주 문>상고를 기각한다.<이 유> 피고인의 상고이유에 대하여 판단한다.국가공무원법 제66조 제1항이헌법 제11조 제1항,제21조 제1항,제31조 제4항,제33조나제37조 제2항에 위반되는 법률이라고 볼 수 없으므로(당원 1990.4.10 선고 90도332 판결 참조), 논지는 이유가 없다.그러므로 피고인의 상고를 기각하기로 관여법관의 의견이 일치되어 주문과같이 판결한다
<채 무 자> 주식회사 고성다인레이저<관 리 인><주 문>이 사건 회생절차를 폐지한다.<이 유> 위 사건에 관하여 관리인이 2010. 5. 31. 제출하고, 2010. 7. 26. 수정허가 된 회생계획안은 2010. 7. 26. 개최된 회생계획안의 결의를 위한 관계인 집회에서채무자 회생 및 파산에 관한 법률 제237조의 가결요건에 해당하는 동의를 얻지 못하여 부결되었으므로, 이 법원은채무자 회생 및 파산에 관한 법률 제286조 제1항 제2호에 의하여 주문과 같이 결정한다
<피 고 인><항 소 인> 검사<검 사> 배성훈<변 호 인> 사법연수생 조민근(국선)<원심판결> 서울남부지방법원 2011. 4. 15. 선고 2010고단4002 판결<주 문>검사의 항소를 기각한다.<이 유>검사는 이 사건 항소이유로서, 피고인이 일본에 머무는 동안 공소시효가 정지된다는 취지의 주장을 하나, 원심이 그 판결이유에서 판단한 바와 같이 공소시효가 정지된다고 볼 수 없다. 따라서, 검사의 항소는 이유 없으므로,형사소송법 제364조 제4항에 의하여 이를 기각한다
<신 청 인> 동대구세무서장<상 대 방> 김경조<원심판결>대구고등법원 1981.2.10. 선고 80구200 판결<주 문>상고허가신청을 각하한다.<이 유>소송촉진등에 관한 특례법 제12조에 규정된 상고허가신청은 민사소송사건에 적용되는 것이고 이 사건과 같은 행정소송사건에는 그 적용이 없음이동법 제2조의 규정에 비추어 명백하다.그러므로 행정소송사건에 관하여 상고허가신청을 한 이 사건 신청은 부적법하므로 이를 각하하기로 하여 관여법관의 일치된 의견으로 주문과 같이 결정한다
<재항고인> 이상학<원 심>서울고등 1960. 10. 6. 선고 60민공178, 179 판결<이 유> 직권으로 심안컨대경매법 제34조에 의하면 동법에 의한 부동산 경매에 있어서는 부동산 강제경매의 경우와는 달라 신립에 의해서만 경매에 가름하여 입찰을 명할 수 있고 직권으로는 명할 수 없는 것임에도 불구하고 일건 기록에 의하면 경매법원이 이해관계인의 신립없이 직권으로 입찰을 명하여 본건 경락을 허가하였음은 위법하다 아니할 수 없고 동 위법을 간과한 원심결정 역시 위법이다
<신 청 인><피신청인> 교육인적자원부장관(대리인 변호사 김종인)<주 문>이 사건 신청을 모두 기각한다.<신청취지>피신청인이 2004. 2. 5. 신청인류정희,손병기,배인호,윤은현,정성균,이진복에 대하여 한 임원취임승인취소처분 및 같은 날 행한 신청외서정문,이정도,정인기,김병찬,김종찬,강영신,정기오을학교법인 유신학원의 임시이사로 선임한 처분은이 법원 2004구합5751호 사건의 판결 선고시까지 그 효력을 정지한다.<이 유>이 사건 신청은 모두 이유 없으므로 주문과 같이 결정한다
<신 청 인> 신분식<상 대 방> 부산직할시 남구청장<원심판결> 대구고등법원 1982.8.17. 선고 81구120 판결<주 문>상고허가신청을 각하한다.<이 유>소송촉진등에관한특례법 제12조에 규정된 상고허가신청은 민사소송사건에 적용되는 것이고 이 사건과 같은 행정소송사건에는 그 적용이 없음이동법 제2조의 규정에 비추어 명백하다.그러므로 행정소송사건에 관하여 상고허가신청을 한 이 사건 신청은 부적법하므로 이를 각하하기로 하여 관여법관의 일치된 의견으로 주문과 같이 결정한다
<원고, 피상고인> 유상록 외 1인<피고, 상고인> 서울특별시관재국장<피고 보조참가인, 상고인> 주길환<원심판결>제1심서울고등 1956. 8. 16. 선고 56행24<이 유> 기록에 의하면 원판결은 원고등이 무관리상태에 있는 본건 대지에 대하여 제1차로 피고에 대하여 임대차계약 신청을 한 사실을 확정하고 원고등이 본건 대지에 대한 연고권자이라고 판시하였으나 해 사실만 가지고는 귀속재산에 대한 연고권이 발생할 수 없다 할 것이므로 원판결에는 법률의 해석을 그릇한 위법이 있다
<피 고 인><상 고 인> 피고인<원심판결>서울형사지방법원 1991.7.24. 선고 91노2429 판결<주 문>상고를 기각한다.<이 유> 상고이유를 본다.원심인용의 제1심판결이 든 증거에 의하면피고인이 다른 사람 소유의 광고용 간판을 백색페인트로 도색하여 광고문안을 지워 버린 사실을 인정할 수 있고 사실이 이와 같다면 재물손괴죄를 구성하는 것이므로 원심판결에 법리의 오해나 채증법칙을 어긴 위법이 없다.그러므로 상고를 기각하기로 관여 법관의 일치된 의견으로 주문과 같이 판결한다
단어 추출 프로세서(130)는 표1에 도시된 판결문 데이터 ‘precedentText’에 형태소 분석 후 사전을 이용하여 주요 단어를 추출할 수 있다. 피처 추출 실행부(140)는 추출된 주요 단어에 대해 TF-IDF 방식으로 벡터화를 한 후, 벡터에 주성분 분석을 적용하여 피처 3개를 추출할 수 있다. 여기서, 사용된 판결문의 수는 20000개, 사용자 사전에 사용한 단어는 법령 용어 9400개, 명사 사전의 단어의 수는 31만 7151개, 비(非)명사 사전의 단어의 수는 9682개, 인명(人名)사전의 단어의 수는 3467만5174개, 지명(地名)사전의 단어의 수는 50675개일 수 있다.
또한, 단어 후보 추출부(133)에서 추출한 단어의 수는 104887개이며 그 중 일부를 나타내면 다음과 같다.
('“Feraud"부분', '건축사업무정지처분은', '"디자인학원경영업"', '권리범위확인심판청구', '거절사정불복항고심판', '판단한다.원판결이유', '한국도시개발주식회사', '1966.11.23', '제95조,제100조', '하천부지점용허가신청', '없이만연', '지점소재', '중임등기', '충당사용', '입금교부', '조사평가', '대여할수', …, '해태사업', '행복동인', '당해영업', '시정가능', '가령식품', '청문장소', '5일전인', '예상손해', '계약번호', '기득임차', '대지29', '197평', '허가된다', '이의제출', '단일채무')
또한, 주요 단어 추출부(134)에서 추출한 단어의 수는 101625개이며 그 중 일부를 나타내면 다음과 같다.
('가감', '가검역증', '가격결정', '가격결정방법', '가격기준', '가격동향', '가격변동', '가격변동지수', '가격비교', '가격사정', '가격수준', '가격시점', '가격안정', '가격정보', …, '희망가액', '희망돼지', '희망돼지저금통', '희망백화점', '희망신청', '희망신청서', '희박하므', '히로뽕성분', ' '히로뽕제조', '히로뽕제조원료', '히로뽕주사')
또한, 단어 벡터 생성부로 얻은 벡터 101625개 중 일부를 나타내면 도 2와 같다.
또한, 피처 추출부(142)에서 추출한 피처의 값의 일부를 나타내면 도 3과 같다. 도3에 붉은 색으로 표시된 값은 음수 값을 나타내는 것일 수 있다.
앞서 도 2 및 도 3을 이용하여 설명된 과정을 거쳐, 텍스트 피처 추출 장치(120)는 텍스트 데이터(110)에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출할 수 있으며, 머신러닝을 이용하여 정형 데이터와 텍스트 데이터가 혼합된 데이터를 분석 시 성능을 높일 수 있다.
본원의 다른 일 실시예에 따르면, 텍스트 피처 추출 장치는 추출된 피처를 시각화하여 제공할 수 있는 피처의 주요 단어 시각화 장치(미도시)를 더 포함할 수 있다.
일예로, 피처의 주요 단어 시각화 장치(미도시)는 텍스트 데이터를 입력한 후 주요 명사를 추출한 뒤, TF-IDF 기법을 이용하여 벡터화를 진행한 후 PCA 기법을 적용하여 3개의 피처를 추출하는 과정에서 사용자는 최종적으로 추출된 피처만 확인할 수 있다. 그러나 이 피처는 PCA로 추출한 것이어서 숫자로만 구성되어 있어 어느 단어가 각 피처별로 영향도를 많이 끼쳤는지 사용자는 알 수가 없다. 피처의 주요 단어 시각화 장치(미도시)는 Scikit-Learn의 decomposition의 함수인 PCA.components_를 이용하여 얻어낸 각 단어 벡터별로 피처에 끼진 영향도를 알 수 있으므로 이 영향도가 높은 단어들을 사용자에게 시각화여 제공하여 사용자에게 어떤 단어가 주요하게 사용되었는지 직관적으로 알 수 있도록 한다. 영향도는 백분율로 환산한 값을 제공하며 특정 값 이상의 영향도를 가진 단어들만 제공하는 방식으로 시각화 방법을 설계하였다. 피처의 주요 단어 시각화 장치(미도시)는 벤 다이어그램 형태의 워드 클라우드를 생성하여 주요 단어를 시각화할 수 있다.
또한, 피처의 주요 단어 시각화 장치(미도시)는, 텍스트 데이터에서 주성분 분석을 이용하여 추출한 복수의 피처의 목표 변수에 대한 중요도 값을 입력하는 피처 정보 입력부, 사용자 입력 정보에 기반하여 상기 중요도 값에 연관된 기준 값을 설정하는 기준 중요도 입력부, 상기 복수의 피처에 대하여 각 단어 벡터별로 각 피처에 미친 영향도를 추출하는 단어별 중요도 추출부, 상기 단어별 중요도 추출부에서 추출한 값에 대하여 중요도를 백분율로 환산하는 단어별 중요도 계산부 및 각 단어별 중요도와 추출된 피처에 대한 정보를 벤 다이어그램 그래프 형태로 시각화하는 시각화 실행부를 포함할 수 있다. 또한, 상기 피처 정보 입력부는, 상기 목표 변수가 설정된 경우, 추출된 상기 피처와 상기 목표 변수와의 영향도를 계산하고, 상기 목표 변수에 대한 중요도값을 입력할 수 있다. 또한, 상기 시각화 실행부는, 각 단어별 중요도와 추출된 피처의 빈도수에 따라 출력 위치, 출력 크기 및 출력 색을 결정하여 클라우드 형태로 시각화할 수 있다. 또한, 상기 피처 정보 입력부는, 상기 텍스트 데이터의 변수명과 상기 목표 변수가 있는 경우, 상기 피처 추출 실행부에서 추출된 피처에 기반하여 상기 목표 변수에 대한 변수 중요도 값을 입력할 수 있다.
본원의 일 실시예에 따르면, 피처의 주요 단어 시각화 장치(미도시)는 각 단어별 중요도와 추출된 피처에 대한 정보를 벤 다이어그램 그래프 형태로 시각화할 수 있다. 또한, 각 단어별 중요도와 추출된 피처에 대한 정보를 벤 다이어그램 모양을 활용한 워드 클라우드 방식을 활용하여 시각화할 수 있다.
또한, 피처의 주요 단어 시각화 장치(미도시)는 각 단어별 중요도와 추출된 피처의 빈도수에 따라 출력 위치, 출력 크기 및 출력 색을 결정하여 클라우드 형태로 시각화할 수 있다. 클라우드 형태의 시각화하는 것은, 핵심적인 단어를 돋보이게 하는 시각화하여, 기사에서 사용된 단어들을 빈도수에 따라 서로 다른 크기와 색으로 표현할 수 있다. 또한, 피처의 주요 단어 시각화 장치(미도시)는 사용자 단말(미도시)로 클라우드 형태로 시각화한 그래프를 제공할 수 있다.
피처의 주요 단어 시각화 장치(미도시)는 벤 다이어그램 모양의 워드 클라우드를 적용하여 피처의 주요 단어를 시각화할 수 있다.
예시적으로, 추출된 복수의 피처별로(예를 들어, 3개의 피처별로) 각각 주요 단어들이 있다. 예시적으로, 단어들의 모임을 W1, W2, W3라 하면 W1, W2, W3는 서로 다른 단어들로만 구성되어 있고, W1, W2, W3는 서로 공유하는 단어들이 존재할 수 있다. 이 공유하는 단어들은 각 피처에 모두 영향을 미쳤으므로 중요한 단어들이라고 간주할 수 있다. 따라서 피처의 주요 단어 시각화 장치(미도시)는 이를 나타내기 위해 벤 다이어그램 모양의 형태로 시각화를 할 수 있다. 일예로, 피처의 주요 단어 시각화 장치(미도시)는 제1특징 변수의 제1영역(예를 들어, W1 영역)을 제1색으로 결정하여 출력할 수 있다. 또한, 제1특징 변수의 제1영역의 변수 중요도, 주요 단어 등의 중요도, 영향도에 기반하여 단어의 출력 위치 및 출력 크기를 달리하여 출력할 수 있다. 또한, 피처의 주요 단어 시각화 장치(미도시)는 제2특징 변수의 제2영역(예를 들어, W2 영역)을 제2색으로 결정하여 출력할 수 있다. 또한, 제2특징 변수의 제2영역의 변수 중요도, 주요 단어 등의 중요도, 영향도에 기반하여 단어의 출력 위치 및 출력 크기를 달리하여 출력할 수 있다. 또한, 피처의 주요 단어 시각화 장치(미도시)는 제1특징변수 및 제2특징 변수의 교집합 영역(예를 들어, W1&W2)을 제3색으로 결정하여 출력할 수 있다. 또한, 제1특징변수 및 제2특징 변수의 교집합 영역(예를 들어, W1&W2)의 변수 중요도, 주요 단어 등의 중요도, 영향도에 기반하여 단어의 출력 위치 및 출력 크기를 달리하여 출력할 수 있다.
또한, 단어 구름(word cloud, 워드 클라우드)은 문서에 사용된 단어의 빈도를 계산해서 시각적으로 표현하는 것을 의미한다. 단어 구름(word cloud, 워드 클라우드)을 사용함으로써, 많이 나오는 단어는 크게 표시되기 때문에 한눈에 문서의 핵심 내용을 파악할 수 있다. 또한, 단어 구름(word cloud, 워드 클라우드)은 태그 구름(tag cloud)이라고도 부른다. 태그는 옷이나 물건에 소재나 취급 방법 등을 설명하기 위해 붙이는 꼬리표다. 웹 페이지나 소셜네트워크 서비스(SNS)에서 콘텐츠를 설명하기 위해 붙이는 키워드를 태그라고 부른다. 태그 구름은 웹 사이트에서 태그의 중요도를 글자 크기나 색깔로 표시한다. 또한, 워크 클라우드는 표현하려는 콘텐츠의 성격에 따라 문서 구름(text cloud)과 데이터 구름(data cloud)으로 구분하기도 한다. 문서 구름이 문서에 포함된 단어를 시각적으로 표현한 것이라면 데이터 구름은 단어 대신에 숫자 정보를 크기와 색깔로 표현한 것을 말한다. 예를 들어, 인구 규모에 따라 국가명의 크기나 색을 달리해서 표현하거나 주식시장에서 주가의 등락과 거래량을 반영해 회사명의 크기와 색을 결정한다. 또한, 워드 클라우드 기법을 이용하여 벤 다이어그램의 각 영역별로 주요 단어들을 표시한다.
또한, 피처의 주요 단어 시각화 장치(미도시)는 빈도수에 해당하는 값에 중요도를 대입함으로써 중요도가 높을수록 단어의 크기가 크게 표시되도록 한다. 중요도를 대입할 때 백분율이 정수가 되게끔 적절히 변환하여 대입한다. 또한, 피처의 주요 단어 시각화 장치(미도시)는 벤 다이어그램의 영역별로 배경의 색을 다르게 했기 때문에 단어의 색까지 다르면 사용자가 보기가 불편할 수 있으므로 단어의 색은 검은 색으로 통일한여 제공할 수 있다.
도 4는 본원의 일 실시예에 따른 텍스트 데이터 장치의 피처 추출 과정을 설명하기 위해 개략적으로 나타낸 개요도이다.
예시적으로 도 4를 참조하면, 텍스트 피처 추출 장치(120)는 텍스트 데이터(110)를 입력받을 수 있다. 텍스트 피처 추출 장치(120)는 입력받은 텍스트 데이터(110)에서 명사를 추출할 수 있다. 또한, 텍스트 피처 추출 장치(120)는 추출된 명사에서 2글자 이상의 한글 명사 후보를 생성할 수 있다. 텍스트 피처 추출 장치(120)는 생성된 한글 명사 후보에서 사전에 있는 명사 즉, 자체 사전에 포함된 명사를 추출할 수 있다. 또한, 텍스트 피처 추출 장치(120)는 명사 후보에서 사전에 없는 명사 즉, 자체 사전에 포함되지 않는 명사를 필터링할 수 있다. 이때, 필터링은, 비명사 사전, 인명 사전, 지명 사전을 이용하여 수행될 수 있으며, 텍스트 피처 추출 장치(120)는 명사 후보에 비명사 사전, 인명 사전, 지명 사전에 포함된 명사를 제거하는 필터링을 수행할 수 있다. 텍스트 피처 추출 장치(120)는 사용자 사전에 포함된 명사 및 자체 명사 사전, 필터링 거친 명사 후보를 기반으로 주요 명사 목록을 생성할 수 있다. 이때, 텍스트 피처 추출 장치(120)는 사용자 사전에 포함된 명사(단어)가 최우선 순위에 놓이도록 주요 명사 목록을 생성할 수 있다. 또한, 텍스트 피처 추출 장치(120)는 사용자 사전에 포함된 명사(단어) 이후에 명사 사전에 포함된 명사(단어)가 놓이도록 주요 명사 목록을 생성할 수 있다. 텍스트 피처 추출 장치(120)는 텍스트 분석 알고리즘(예를 들어, TF-IDF)에 주요 명사 목록을 적용하여 벡터화할 수 있다. 텍스트 피처 추출 장치(120)는 벡터화된 명사로부터 미리 설정된 개수(예를 들어, 3개)의 피처를 추출할 수 있다.
이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.
도 5는 본원의 일 실시예에 따른 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 방법에 대한 동작 흐름도이다.
도 5에 도시된 텍스트 피처 추출 방법은 앞서 설명된 텍스트 피처 추출 장치(120)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 텍스트 피처 추출 장치(120)에 대하여 설명된 내용은 텍스트 데이터 피처 추출 방법에 대한 설명에도 동일하게 적용될 수 있다.
단계 S501에서, 텍스트 피처 추출 장치(120)는 텍스트 데이터(110)를 입력받을 수 있다. 일예로, 텍스트 피처 추출 장치(120)는 외부서버(미도시)로부터 텍스트 데이터(110)를 입력받을 수 있다. 또한, 텍스트 피처 추출 장치(120)는 사용자 단말(미도시)로부터 텍스트 데이터(110)를 입력받을 수 있다.
단계 S502에서, 텍스트 피처 추출 장치(120)는 텍스트 데이터(110)에서 형태소를 분석할 수 있다. 텍스트 피처 추출 장치(120)는 문장으로 구성된 텍스트 데이터(110)를 형태소 분석 알고리즘에 적용하여 형태소 분석을 수행할 수 있다. 형태소 분석(morphological analysis)은 자연언어 분석의 첫 단계로서, 입력 문자열을 형태소 열로 바꾸는 작업을 의미한다. 형태소(morpheme)는 의미의 최소단위로써, 더 이상 분석 불가능한 가장 작은 의미 요소를 말한다. 또한, 형태소는 문법적 혹은 관계적인 뜻을 나타내는 단어 또는 단어의 부분을 말한다. 한국어 형태소 분석에는, 전처리, 문법 형태소 분리, 체언 분석, 용언 분석, 단일 형태소 분석, 복합어 추정, 조사 생략, 준말 처리, 후처리 과정을 거칠 수 있다. 이때, 문법 형태소 사전, 어휘 형태소 사전, 전문 용어 사전, 사용자 정의 사전, 기분석 사전 등에 기반하여 텍스트 데이터에서 형태소 분석을 수행할 수 있다. 일예로, 텍스트 피처 추출 장치(120)는 konlpy를 이용하여 형태소 분석을 수행할 수 있다.
단계 S503에서, 텍스트 피처 추출 장치(120)는 형태소가 분석된 텍스트 데이터에서 주요 단어를 추출할 수 있다.
단계 S504에서, 텍스트 피처 추출 장치(120)는 추출된 주요 단어를 텍스트 분석 알고리즘에 적용하여 벡터화할 수 있다.
단계 S505에서, 텍스트 피처 추출 장치(120)는 주성분 분석에 벡터화된 주요 단어를 적용하여 피처를 추출할 수 있다.
도면에 도시하진 않았으나, 단계 S506 이후에 텍스트 피처 추출 장치(120)는
상술한 설명에서, 단계 S501 내지 S505은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
본원의 일 실시 예에 따른 텍스트 피처 추출 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
또한, 전술한 텍스트 피처 추출 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.
110: 텍스트 데이터
120: 텍스트 피처 추출 장치
130: 단어 추출 프로세서
140: 피처 추출 실행부

Claims (7)

  1. 텍스트 피처 추출 장치에 있어서,
    복수의 사전을 이용하여 입력받은 텍스트 데이터에서 주요 단어를 추출하는 단어 추출 프로세서;
    추출된 상기 주요 단어를 텍스트 분석 알고리즘에 적용하여 벡터화한 후 주성분 분석을 이용하여 상기 텍스트 데이터의 피처를 추출하는 피처 추출 실행부; 및
    추출된 피처를 시각화하여 제공할 수 있는 피처의 주요 단어 시각화 장치,
    를 포함하되,
    상기 피처 추출 실행부는,
    추출된 주요 단어를 TF-IDF 기법을 이용하는 상기 텍스트 분석 알고리즘에 적용하여 각 주요 단어를 벡터화하는 단어 벡터 생성부; 및
    상기 단어 벡터 생성부에서 벡터화된 단어에 주성분 분석을 이용하여 피처를 추출하는 피처 추출부
    를 포함하고,
    상기 피처 추출부는,
    상기 주성분 분석에 사용된 단어들이 상기 주성분 분석을 이용하여 추출된 상기 피처에 미치는 영향도 분석을 수행하되,
    상기 피처의 주요 단어 시각화 장치는,
    상기 피처 추출부에서 분석한 영향도 분석 결과를 벤 다이어그램 형태의 워드 클라우드를 생성하여 주요 단어를 시각화하는 것인, 텍스트 피처 추출 장치.
  2. 제1항에 있어서,
    상기 단어 추출 프로세서는,
    사용자로부터 주요 단어와 관련된 입력 정보를 획득하는 사용자 사전 입력부;
    복수의 일반 명사를 포함하는 명사 사전을 획득하는 자체 사전 입력부;
    상기 텍스트 데이터에서 형태소를 분리하고, 단어가 될 수 있는 형태소를 추출하는 단어 후보 추출부; 및
    상기 단어 후보 추출부에서 추출한 형태소 목록에서 상기 복수의 사전을 이용하여 상기 주요 단어를 추출하는 주요 단어 추출부,
    를 포함하는, 텍스트 피처 추출 장치.
  3. 삭제
  4. 제2항에 있어서,
    상기 단어 후보 추출부는,
    두 글자 이상의 한글 단어로부터 상기 단어가 될 수 있는 형태소를 추출하는 것인, 텍스트 피처 추출 장치.
  5. 제4항에 있어서,
    상기 주요 단어 추출부는,
    상기 명사 사전을 이용하여 상기 텍스트 데이터에서 명사인 단어들을 추출하고, 비 명사 사전을 이용하여 명사가 아닌 단어들을 제거하는 것인, 텍스트 피처 추출 장치.
  6. 삭제
  7. 컴퓨터로 구현되는 텍스트 피처 추출 장치에 의해 각 단계가 수행되는 텍스트 피처 추출 방법에 있어서,
    텍스트 데이터를 입력받는 단계;
    상기 텍스트 데이터에서 형태소를 분석하는 단계;
    형태소가 분석된 상기 텍스트 데이터에서 주요 단어를 추출하는 단계;
    추출된 주요 단어를 텍스트 분석 알고리즘에 적용하여 벡터화하는 단계;
    주성분 분석에 벡터화된 주요 단어를 적용하여 피처를 추출하는 단계; 및
    추출된 피처를 시각화하여 제공하는 단계,
    를 포함하되,
    상기 벡터화하는 단계는,
    추출된 주요 단어를 TF-IDF 기법을 이용하는 상기 텍스트 분석 알고리즘에 적용하여 각 주요 단어를 벡터화하고,
    상기 피처를 추출하는 단계는,
    상기 주성분 분석에 사용된 단어들이 상기 주성분 분석을 이용하여 추출된 상기 피처에 미치는 영향도 분석을 수행하고,
    상기 시각화하여 제공하는 단계는,
    상기 영향도 분석 결과를 벤 다이어그램 형태의 워드 클라우드를 생성하여 주요 단어를 시각화하는 것인, 텍스트 피처 추출 방법.
KR1020200038500A 2020-03-30 2020-03-30 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법 KR102140976B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200038500A KR102140976B1 (ko) 2020-03-30 2020-03-30 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200038500A KR102140976B1 (ko) 2020-03-30 2020-03-30 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102140976B1 true KR102140976B1 (ko) 2020-08-04

Family

ID=72049059

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200038500A KR102140976B1 (ko) 2020-03-30 2020-03-30 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102140976B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113849646A (zh) * 2021-09-28 2021-12-28 西安邮电大学 一种文本情感分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100033585A (ko) * 2008-09-22 2010-03-31 숭실대학교산학협력단 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
KR20140146387A (ko) * 2013-06-17 2014-12-26 김동현 Pca 기법을 활용한 어휘의 시각화 방법 및 그 장치
US20190362703A1 (en) * 2017-02-15 2019-11-28 Nippon Telegraph And Telephone Corporation Word vectorization model learning device, word vectorization device, speech synthesis device, method thereof, and program
KR102069084B1 (ko) * 2019-03-28 2020-02-11 (주)위세아이텍 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100033585A (ko) * 2008-09-22 2010-03-31 숭실대학교산학협력단 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
KR20140146387A (ko) * 2013-06-17 2014-12-26 김동현 Pca 기법을 활용한 어휘의 시각화 방법 및 그 장치
US20190362703A1 (en) * 2017-02-15 2019-11-28 Nippon Telegraph And Telephone Corporation Word vectorization model learning device, word vectorization device, speech synthesis device, method thereof, and program
KR102069084B1 (ko) * 2019-03-28 2020-02-11 (주)위세아이텍 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
F. Boudin et al., How Document Pre-processing affects Keyphrase Extraction Performance, arXiv:1610.07809, 2016, https://arxiv.org (2016.10.25.) 1부. *
SAS. SAS Visual Data Mining and Machine earning. fact sheet. SAS. 2017. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113849646A (zh) * 2021-09-28 2021-12-28 西安邮电大学 一种文本情感分析方法

Similar Documents

Publication Publication Date Title
Mostafa More than words: Social networks’ text mining for consumer brand sentiments
US20210034707A1 (en) Neural network system for text classification
Zamith et al. Constructing climate change in the Americas: An analysis of news coverage in US and South American newspapers
del Pilar Salas-Zárate et al. A study on LIWC categories for opinion mining in Spanish reviews
KR102128852B1 (ko) 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법
EP3848797A1 (en) Automatic parameter value resolution for api evaluation
Sarlöv Herlin Exploring the national contexts and cultural ideas that preceded the Landscape Character Assessment method in England
CN110795568A (zh) 基于用户信息知识图谱的风险评估方法、装置和电子设备
US11263523B1 (en) System and method for organizational health analysis
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
US20210089667A1 (en) System and method for implementing attribute classification for pii data
Evans Journalistic norms, cultural values, and coverage of climate change in the Philippines
Lee Park et al. The duality of the Brazilian jeitinho: An empirical investigation and conceptual framework
Katenko et al. The concept of monitoring the reliability of information in the professional social network using a convolutional neural network
KR102121901B1 (ko) 정책자금 온라인 심사평가 시스템
Zhang et al. Understand corporate social responsibility from an agenda setting perspective: a cross-national analysis of newspaper using computer-assisted content analysis
Ren et al. New methods and the study of vulnerable groups: using machine learning to identify immigrant-oriented nonprofit organizations
KR102140976B1 (ko) 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법
Matthews et al. Sourcing UK covid-19 news: An analysis of sourcing patterns of 15 UK news outlets reporting on covid-19 across Facebook, Twitter, and Instagram
Zhong et al. CSR image construction of Chinese construction enterprises in Africa based on data mining and corpus analysis
Kreiner et al. Crisis management knowledge from social media
CN115080741A (zh) 一种问卷调查分析方法、装置、存储介质及设备
Ruichen [Retracted] The Basic Principles of Marxism with the Internet as a Carrier
CN115048523A (zh) 文本分类方法、装置、设备以及存储介质
Passi et al. Twitter sentiment analysis of the 2019 indian election

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant