KR102128852B1 - 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법 - Google Patents

텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법 Download PDF

Info

Publication number
KR102128852B1
KR102128852B1 KR1020200038520A KR20200038520A KR102128852B1 KR 102128852 B1 KR102128852 B1 KR 102128852B1 KR 1020200038520 A KR1020200038520 A KR 1020200038520A KR 20200038520 A KR20200038520 A KR 20200038520A KR 102128852 B1 KR102128852 B1 KR 102128852B1
Authority
KR
South Korea
Prior art keywords
word
feature
importance
words
extracted
Prior art date
Application number
KR1020200038520A
Other languages
English (en)
Inventor
김지혁
김건민
Original Assignee
(주)위세아이텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)위세아이텍 filed Critical (주)위세아이텍
Priority to KR1020200038520A priority Critical patent/KR102128852B1/ko
Application granted granted Critical
Publication of KR102128852B1 publication Critical patent/KR102128852B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

피처의 주요 단어 시각화 장치에 관한 것이며, 피처의 주요 단어 시각화 장치는, 텍스트 데이터에서 주성분 분석을 이용하여 추출한 복수의 피처의 목표 변수에 대한 중요도 값을 입력하는 피처 정보 입력부, 사용자 입력 정보에 기반하여 상기 중요도 값에 연관된 기준 값을 설정하는 기준 중요도 입력부, 상기 복수의 피처에 대하여 각 단어 벡터별로 각 피처에 미친 영향도를 추출하는 단어별 중요도 추출부, 상기 단어별 중요도 추출부에서 추출한 값에 대하여 중요도를 백분율로 환산하는 단어별 중요도 계산부 및 각 단어별 중요도와 추출된 피처에 대한 정보를 벤 다이어그램 그래프 형태로 시각화하는 시각화 실행부를 포함할 수 있다.

Description

텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법{DEVICE AND METHOD FOR VISUALIZING KEY WORDS OF FEATURES EXTRACTED BY APPLYING PRINCIPAL COMPONENT ANALYSIS TO WORD VECTORS FROM TEXT DATA}
본원은 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법에 관한 것이다.
기존의 텍스트 데이터 시각화 과정은 데이터에 형태소 분석을 실시하여 추출한 단어 모음에 대하여 단어의 빈도수를 기준으로 중요도를 나타내는 워드 클라우드 방식을 적용하는 방식을 사용하고 있다.
그러나 이 방식은 텍스트 데이터에서 단어를 벡터로 만든 뒤 주성분 분석(PCA, Principal Component Analysis)를 적용하여 추출한 피처에 대하여 이 피처에 영향력을 많이 끼친 단어를 뽑아서 시각화를 하지 못한다.
텍스트 데이터 분석 시 단어의 벡터화를 실시하고 피처를 추출하는 과정에서 피처에 대한 설명력을 얻기 위해서 어느 단어가 피처에 영향력을 많이 미쳤는지에 대한 정보를 파악할 필요성이 있다.
이를 위해 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 기술이 필요하다.
본원의 배경이 되는 기술은 한국공개특허공보 제10-2015-0048751호에 개시되어 있다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어를 시각화하여 어느 단어가 피처에 영향력을 많이 미쳤는지에 대한 정보를 파악할 수 있는 기능을 제공하려는 것을 목적으로 한다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처 3개에 대하여 벤 다이어그램 모양을 활용한 워드 클라우드 방식의 시각화 기능을 제공하려는 것을 목적으로 한다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하여, 머신러닝을 이용하여 정형 데이터와 텍스트 데이터가 혼합된 데이터를 분석 시 성능을 높일 수 있는 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법을 제공하는 것을 목적으로 한다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 정형 데이터와 텍스트 데이터가 혼합된 데이터를 분석 시 텍스트 데이터에 TF-IDF 방식을 적용하여 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출할 수 있는 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법을 제공하는 것을 목적으로 한다.
다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 피처의 주요 단어 시각화 장치는, 텍스트 데이터에서 주성분 분석을 이용하여 추출한 복수의 피처의 목표 변수에 대한 중요도 값을 입력하는 피처 정보 입력부, 사용자 입력 정보에 기반하여 상기 중요도 값에 연관된 기준 값을 설정하는 기준 중요도 입력부, 상기 복수의 피처에 대하여 각 단어 벡터별로 각 피처에 미친 영향도를 추출하는 단어별 중요도 추출부, 상기 단어별 중요도 추출부에서 추출한 값에 대하여 중요도를 백분율로 환산하는 단어별 중요도 계산부 및 각 단어별 중요도와 추출된 피처에 대한 정보를 벤 다이어그램 그래프 형태로 시각화하는 시각화 실행부를 포함할 수 있다.
또한, 상기 피처 정보 입력부는, 상기 목표 변수가 설정된 경우, 추출된 상기 피처와 상기 목표 변수와의 영향도를 계산하고, 상기 목표 변수에 대한 중요도 값을 입력할 수 있다.
또한, 상기 시각화 실행부는, 각 단어별 중요도와 추출된 피처의 빈도수에 따라 출력 위치, 출력 크기 및 출력 색을 결정하여 클라우드 형태로 시각화할 수 있다.
또한, 피처의 주요 단어 시각화 장치는, 복수의 사전을 이용하여 입력받은 텍스트 데이터에서 주요 단어를 추출하는 단어 추출 프로세서 및 추출된 상기 주요 단어를 텍스트 분석 알고리즘에 적용하여 벡터화한 후 주성분 분석을 이용하여 상기 텍스트 데이터의 피처를 추출하는 피처 추출 실행부를 더 포함할 수 있다.
또한, 상기 피처 정보 입력부는, 상기 텍스트 데이터의 변수명과 상기 목표 변수가 있는 경우, 상기 피처 추출 실행부에서 추출된 피처에 기반하여 상기 목표 변수에 대한 변수 중요도 값을 입력할 수 있다.
본원의 일 실시예에 따르면, 피처의 주요 단어 시각화 방법은, 텍스트 데이터에서 주성분 분석을 이용하여 추출한 복수의 피처의 목표 변수에 대한 중요도 값을 입력받는 단계, 사용자 입력 정보에 기반하여 상기 중요도 값에 연관된 기준 값을 설정하는 단계, 상기 복수의 피처에 대하여 각 단어 벡터별로 각 피처에 미친 영향도를 추출하는 단계, 상기 복수의 피처에 대하여 각 단어 벡터별로 각 피처에 미친 영향도를 추출한 값에 대하여 중요도를 백분율로 환산하는 단계 및 각 단어별 중요도와 추출된 피처에 대한 정보를 벤 다이어그램 그래프 형태로 시각화하는 단계를 포함할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어를 시각화하여 나타낼 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 텍스트 데이터 분석 시 단어의 벡터화를 실시하고 피처를 추출하는 과정에서 피처에 대한 설명력을 제공할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 머신러닝을 이용하여 정형 데이터와 텍스트 데이터가 혼합된 데이터를 분석 시 성능을 높일 수 있다.
다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.
도 1은 본원의 일 실시예에 따른 피처의 주요 단어 시각화 장치의 개략적인 구성도이다.
도 2는 본원의 일 실시예에 따른 피처의 주요 단어 시각화 장치의 시각화 도구를 설명하기 위한 도면이다.
도 3 은 본원의 일 실시예에 따른 피처의 주요 단어 시각화 장치에 제1텍스트 데이터에서 추출된 피처에 사용된 단어 목록을 시각화한 도면이다.
도 4a 내지 도 4c는 본원의 일 실시예에 따른 피처의 주요 단어 시각화 장치에 제2텍스트 데이터에서 추출된 피처에 사용된 단어 목록을 시각화한 도면이다.
도 5a 내지 도 5c는 본원의 일 실시예에 따른 피처의 주요 단어 시각화 장치에 제3텍스트 데이터에서 추출된 피처에 사용된 단어 목록을 시각화한 도면이다.
도 6a 내지 도 6c는 본원의 일 실시예에 따른 피처의 주요 단어 시각화 장치에 제4텍스트 데이터에서 추출된 피처에 사용된 단어 목록을 시각화한 도면이다.
도 7a 내지 도 7c는 본원의 일 실시예에 따른 피처의 주요 단어 시각화 장치에 제5텍스트 데이터에서 추출된 피처에 사용된 단어 목록을 시각화한 도면이다.
도 8은 본원의 일 실시예에 따른 텍스트 데이터 피처 추출 장치의 개략적인 블록도이다.
도 9는 본원의 일 실시예에 따른 텍스트 데이터 장치의 피처 추출 과정을 설명하기 위해 개략적으로 나타낸 개요도이다.
도 10은 본원의 일 실시예에 따른 피처의 주요 단어 시각화 방법에 대한 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본원의 일 실시예에 따른 피처의 주요 단어 시각화 장치의 개략적인 구성도이다.
도 1을 참조하면, 피처의 주요 단어 시각화 장치(150)는 피처 정보 입력부(151), 기준 중요도 입력부(152), 단어별 중요도 추출부(153), 단어별 중요도 계산부(154) 및 시각화 실행부(160)를 포함할 수 있다. 또한, 피처의 주요 단어 시각화 장치(150)는 텍스트 피처 추출 장치(120)로부터 추출된 피처를 제공받을 수 있다. 텍스트 피처 추출 장치(120)는 단어 추출 프로세서(130) 및 피처 추출 실행부(140)를 포함할 수 있다. 다만, 텍스트 피처 추출 장치(120)의 구성이 이에 한정되는 것은 아니다. 예를 들어, 텍스트 피처 추출 장치(102)는 텍스트 데이터를 입력받기 위한 텍스트 데이터 입력부(미도시) 를 포함할 수 있다. 또한, 텍스트 피처 추출 장치(120)는 추출된 피처를 저장하기 위한 데이터베이스(미도시)를 포함할 수 있다.
본원의 일 실시예에 따르면, 텍스트 데이터를 입력한 후 주요 명사를 추출한 뒤, 텍스트 분석 알고리즘(예를 들어, TF-IDF 기법)을 이용하여 벡터화를 진행한 후 주성분 분석(예를 들어, PCA) 기법을 적용하여 3개의 피처를 추출하는 과정에서 사용자는 최종적으로 추출된 피처만 확인할 수 있다. 그러나 이 피처는 주성분 분석(예를 들어, PCA) 기법으로 추출한 것이어서 숫자로만 구성되어 있어 어느 단어가 각 피처별로 영향도를 많이 끼쳤는지 사용자는 알 수가 없다.
또한, 피처의 주요 단어 시각화 장치(150)는 Scikit-Learn의 decomposition의 함수인 PCA.components_를 이용하여 얻어낸 각 단어 벡터별로 피처에 끼진 영향도를 알 수 있으므로 이 영향도가 높은 단어들을 사용자에게 시각화여 제공하여 사용자에게 어떤 단어가 주요하게 사용되었는지 직관적으로 알 수 있도록 한다. 영향도는 백분율로 환산한 값을 제공하며 특정 값 이상의 영향도를 가진 단어들만 제공하는 방식으로 시각화 방법을 설계하였다.
또한, 피처의 주요 단어 시각화 장치(150)는 텍스트 데이터의 변수명과 목표변수가 있는 경우, 주성분 분석으로 추출한 피처의 목표변수에 대한 변수 중요도 값을 입력할 수 있다. 또한, 피처의 주요 단어 시각화 장치(150)는 특정 값 이상의 중요도를 가진 단어를 추출하기 위해 사용자가 입력하는 기준 값을 입력할 수 있다. 또한, 피처의 주요 단어 시각화 장치(150)는 단어 벡터에 주성분 분석을 적용하여 추출한 3개의 피처에 대하여 각 단어 벡터별로 각 피처에 미친 영향도를 추출할 수 있다. 또한, 피처의 주요 단어 시각화 장치(150)는 단어별 중요도 추출부에서 추출한 값에 대하여 중요도를 백분율로 환산할 수 있다. 또한, 피처의 주요 단어 시각화 장치(150)는 각 단어별 중요도와 추출된 피처에 대한 정보를 벤 다이어그램 모양을 활용한 워드 클라우드 방식을 활용하여 시각화할 수 있다.
본원의 일 실시예에 따르면, 텍스트 피처 추출 장치(120)는 외부 서버(미도시)로부터 텍스트 데이터(110)를 입력받을 수 있다. 또한, 텍스트 피처 추출 장치(120)는 사용자 단말(미도시)로부터 텍스트 데이터(110)를 입력받을 수 있다. 텍스트 데이터(110)는 피처를 추출하기 위한 데이터로서, 한글, 영어, 특수문자, 숫자 등을 포함하는 문서일 수 있다. 또한, 텍스트 데이터(110)는 법률 문서, 계약서, 시방서, ITB, 해양 및 육상 플랜트 데이터, ERP(전사적 자원관리), PMIS(사업관리 정보시스템), 상용데이터, 공공데이터, 빅데이터 통합 정보, 공공데이터, Open API 등을 포함할 수 있다. 사용자는 피처 추출을 원하는 텍스트(문서)를 텍스트 피처 추출 장치(120)에 입력하고, 텍스트 피처 추출 장치(120)는 입력받은 텍스트 데이터에 형태소 분석 후 사전을 이용하여 주요 단어를 추출하고 추출된 주요 단어에 텍스트 분석 알고리즘을 적용하여 벡터화한 후, 벡터에 주성분 분석을 적용하여 미리 설정된 개수(예를 들어, 3개)의 피처를 추출할 수 있다.
본원의 일 실시예에 따르면, 단어 추출 프로세서(130)는 복수의 사전을 이용하여 입력받은 텍스트 데이터에서 주요 단어를 추출할 수 있다. 단어 추출 프로세서(130)는 사용자 사전, 자체 사전 등의 복수의 사전을 이용하여 주요 단어를 추출할 수 있다. 복수의 사전은 사용자 사전, 자체 사전, 비명사 사전, 인명사전, 자명 사전 등을 포함할 수 있다. 단어 추출 프로세서(130)는 사용자의 입력 정보에 기반하여 사용자 사전을 구축할 수 있다. 또한, 단어 추출 프로세서(130)는 복수의 일반 명사를 포함하는 명사 사전을 구축할 수 있다. 또한, 단어 추출 프로세서(130)는 복수의 일반 명사를 포함하는 명사 사전을 외부 서버로부터 획득할 수 있다. 또한, 단어 추출 프로세서(130)는 텍스트 데이터에서 형태소를 분리하고, 단어가 될 수 있는 형태소를 추출할 수 있다.
예시적으로, 단어 추출 프로세서(130)는 텍스트 데이터에서 명사 후보를 추출할 수 있다. 텍스트 데이터가 한국어일 경우, 단어 추출 프로세서(130)는 명사 추출 함수(예를 들어, soynlp의 LRNounExtractor_v2 함수)를 적용하여 명사 후보를 추출할 수 있다. 또한, 단어 추출 프로세서(130)는 사전을 이용하여 명사를 추출할 수 있다. 명사는 의미상 존재를 가지는 단어의 부류로서, 대상의 이름을 나타내는 것일 수 있다.
또한, 단어 추출 프로세서(130)는 복수의 사전을 이용하여 명사를 추출할 수 있다. 일예로, 명사 추출 함수(예를 들어, soynlp의 LRNounExtractor_v2 함수)를 이용하여 추출한 단어 중에서는 명사 외에도 한 글자짜리 단어도 있고 특수문자나 외국어가 섞인 단어도 있고 명사가 아닌 단어들도 존재한다. 또한, 함수가 추출하지 못한 단어 중에서 사용자가 추출하기를 원하는 단어들도 있고 추출한 단어 중 사용자가 특별히 더 주요하게 생각하는 핵심단어가 있을 수 있다. 단어 추출 프로세서(130)는 주요 단어들만 남겨서 벡터화를 하기 위해 준비된 사전을 이용하여 단어의 품질을 개선한다.
본원의 일 실시예에 따르면, 피처 추출 실행부(140)는 추출된 주요 단어를 텍스트 분석 알고리즘에 적용하여 벡터화한 후 주성분 분석을 이용하여 텍스트 데이터의 피처를 추출할 수 있다. 일예로, 주성분 분석(PCA)은 변수들이 통계적으로 상관관계가 없도록 데이터 셋을 회전시키는 기술이다. 회전한 뒤에 데이터를 설명하는 데 얼마나 중요하나에 따라 종종 새로운 특성 중 일부만 선택한다. 이 새로운 특성을 주성분(각 주성분은 기존 데이터의 변수 모두의 영향을 받는다.)이라 하며 일부만 택하였을 경우 차원이 줄어들기에 차원 축소의 용도로 사용하기도 한다. 주성분 분석을 이용하여 텍스트 데이터의 피처를 추출하는데, 단어를 벡터화하여 모두 피처로 사용할 경우, 피처의 개수가 너무 많아지게 되므로 예측하는 데 있어 성능이 좋지 않을 수 있다는 문제점이 있다. 따라서 피처 추출 실행부(140)는 주성분 분석을 이용하여 피처를 추출할 수 있다. 추출하는 피처의 수는 시각화하기도 편하고 보편적으로 각 벡터의 분산을 80% 내지 90% 표현할 수 있는 미리 설정된 개수(예를 들어, 3개)를 기본값으로 설정할 수 있다.
또한, 피처 추출 실행부(140)는 벡터 추출 패키지(예를 들어, Scikit-Learn의 feature_extraction의 서브패키지 중 하나인 feature_extraction.text)를 이용하여 주요 명사를 벡터화할 수 있다. 벡터 추출 패키지(예를 들어, Scikit-Learn의 feature_extraction의 서브패키지 중 하나인 feature_extraction.text)는 문서 전처리 클래스를 제공하며 이 클래스의 함수 중 빈도수를 기반으로 단어를 벡터화하는 함수인 텍스트 분석 함수(예를 들어, TfidfTransformer 함수)를 이용하여 주요 명사들을 벡터화한다.
본원의 일 실시예에 따르면, 피처 정보 입력부(151)는 텍스트 데이터(110)에서 주성분 분석을 이용하여 추출한 복수의 피처의 목표 변수에 대한 중요도 값을 입력할 수 있다. 일예로, 피처 정보 입력부(151)는 텍스트 데이터(110)에서 주성분 분석을 이용하여 추출한 복수의 피처의 정보를 텍스트 피처 추출 장치(120)로부터 제공받을 수 있다. 일예로, 피처 정보 입력부(151)는 텍스트 변수명이 ‘text’이고, 이 변수에서 추출한 단어가 ‘단어1’, ‘단어2’, ... 였을 경우 PCA에 사용된 각 변수들이 추출된 피처에 어느 정도 영향을 미치고 있는지를 표1과 같이 표현할 수 있다. 표1에 도시된 영향도는 아직 양의 상관관계, 음의 상관관계를 나타내는 값으로 도시된 상태일 수 있다.
단어 text_PCA_1 text_PCA_2 text_PCA_3
단어1 0.003124 -0.093125 0.007445
단어2 0.024356 0.098631 0.024323
단어3 -0.345432 -0.145223 -0.343252
단어4 -0.002244 -0.032174 -0.001175
단어5 0.000229 0.011312 -0.09022
... ... ... ...
또한, 피처 정보 입력부(151)는 목표 변수가 설정된 경우, 추출된 피처와 목표 변수와의 영향도를 계산하고, 목표 변수에 대한 중요도 값을 입력할 수 있다. 피처 정보 입력부(151)는 피처 추출부(142)에서 벡터화된 단어에 주성분 분석을 이용하여 추출된 피처와 설정된 목표 변수와의 영향도를 계산할 수 있다. 또한, 피처 정보 입력부(151)는 목표 변수에 대한 중요도 값을 입력할 수 있다. 또한, 피처 정보 입력부(151)는 텍스트 데이터(110)의 변수명과 목표 변수가 있는 경우, 피처 추출 실행부(140)에서 추출된 피처에 기반하여 목표 변수에 대한 변수 중요도 값을 입력할 수 있다. 일예로, 피처 정보 입력부(151)는 목표 변수가 있는 경우, 텍스트에서 추출된 피처가 목표 변수와 어느 정도 영향이 있는지 나타내는 값(예측 변수 영향도)을 입력할 수 있다. 예를 들어, 목표 변수명이 ‘target’이고 텍스트 변수명이 ‘text’일 때 추출된 세 피처 ‘text_PCA_1’, ‘text_PCA_2’, ‘text_PCA_3’ 각각에 대하여 목표 변수에 대한 영향도를 계산 후 입력할 수 있다. 여기서 사용된 영향도 계산 방법은, tree 기반 계산 방법 또는 p-value test 방법을 포함할 수 있으나, 이에 한정되는 것은 아니다.
본원의 일 실시예에 따르면, 기준 중요도 입력부(152)는 사용자 입력 정보에 기반하여 중요도 값에 연관된 기준 값을 설정할 수 있다. 또한, 기준 중요도 입력부(152)는 특정 값 이상의 중요도를 가진 단어를 추출하기 위해 사용자가 입력하는 기준 값을 입력할 수 있다. 기준 중요도 입력부(152)는 사용자 단말(미도시)로부터 중요도 값과 연관된 기준 값을 수신할 수 있다. 기준 중요도 입력부(152)는 사용자 단말(미도시)로 기준 값 설정 메뉴를 제공할 수 있다. 사용자는 사용자 단말(미도시)을 이용하여 중요도 값과 연관된 기준 값 정보를 입력할 수 있다. 예를 들어, 기준 중요도 입력부(152)는 사용자 입력 정보가 0.01일 경우, 기준값(기본값)을 0.01으로 설정할 수 있다. 또한, 기준 중요 입력부(152)는 사용자 입력 정보가 수신되지 않는 경우, 미리 설정된 중요도 값에 연관된 기준 값을 설정할 수 있다. 미리 설정된 중요도 값에 연관된 기준 값은 0.001%, 0.005%, 0.01%, 0.05%, 0.1%, 0.5%일 수 있다.
본원의 일 실시예에 따르면, 단어별 중요도 추출부(153)는 복수의 피처에 대하여 각 단어 벡터별로 각 피처에 미친 영향도를 추출할 수 있다. 단어별 중요도 추출부(153)는 단어 벡터에 주성분 분석을 적용하여 추출한 3개의 피처에 대하여 각 단어 벡터별로 각 피처에 미친 영향도를 추출할 수 있다.
또한, 단어별 중요도 추출부(153)는 주성분 분석을 이용하여 피처를 추출했을 경우, 주성분 분석에 사용된 각 변수들이 추출된 피처에 미치는 영향도를 추출할 수 있다. 예를 들어, 단어별 중요도 추출부(153)는 Scikit-Learn의 decomposition의 함수인 PCA.components_를 이용하여 영향도를 추출할 수 있다. 이 함수는 각 PCA를 이용하여 피처를 추출했을 경우, PCA에 사용된 각 변수들이 추출된 피처에 어느 정도 영향을 미치고 있는지를 표현할 수 있다.
예를 들어, A, B, C, D, E 변수를 PCA 적용하여 두 개의 변수 M, N을 추출했을 경우 [표2]와 같은 영향도가 추출될 수 있다.
A B C D E
M -0.3 -0.4 0.5 0.7 0.1
N 0.1 -0.7 -0.4 -0.5 0.3
A, B C, D, E 변수가 변수 M에 미치는 영향도는 각각 -0.3, -0.4, 0.5, 0.7, 0.1이고 변수 N에 미치는 영향도는 각각 0.1, -0.7, -0.4, -0.5, 0.3이다. 즉, M에 양의 상관관계를 가장 높게 띄는 변수는 D, 음의 상관관계를 가장 높게 띄는 변수는 B이고 N에 양의 상관관계를 가장 높게 띄는 변수는 E, 음의 상관관계를 가장 높게 띄는 변수는 B이다. 단어별 중요도 추출부(153)는 각 영향도에 제곱하여 더했을 경우 1이 나오도록 생성할 수 있다.예를 들어, 단어별 중요도 추출부(153)는 표2에 도시된 변수의 각 영향도에 제곱을 곱하여 아래와 같이 도출할 수 있다.
Figure 112020033227227-pat00001
본원의 일 실시예에 따르면, 단어별 중요도 계산부(154)는 단어별 중요도 추출부(153)에서 추출한 값에 대하여 중요도를 백분율로 환산할 수 있다. 피처 추출부(142)는 단어별 중요도 추출부(153)에서 추출한 값을 토대로 기존의 각 변수가 PCA로 추출된 피처에 어느 정도 영향을 미치는지 백분율로 나타낼 수 있다. 또한, 각 영향도는 제곱하여 더했을 때 1이 나오도록 계산되어 있으므로 단어별 중요도 계산부(154)는 각 영향도를 제곱한 뒤 100을 곱하여 백분율로 계산할 수 있다.
표2에 영향도를 제곱하면 표3과 같이 표현될 수 있으며, 이를 백분율으로 나타내면 표4와 같이 표현될 수 있다. 단어별 중요도 추출부(153)는 이를 통해 각 피처별로 어떤 변수가 주요했는지(영향을 많이 끼쳤는지)파악할 수 있다.
A B C D E
M 0.09 0.16 0.25 0.49 0.01
N 0.01 0.49 -0.16 0.25 0.09
A B C D E
M 9% 16% 25% 49% 1%
N 1% 49% 16% 25% 9%
본원의 일 실시예에 따르면, 시각화 실행부(160)는 각 단어별 중요도와 추출된 피처에 대한 정보를 벤 다이어그램 그래프 형태로 시각화할 수 있다. 또한, 각 단어별 중요도와 추출된 피처에 대한 정보를 벤 다이어그램 모양을 활용한 워드 클라우드 방식을 활용하여 시각화할 수 있다.또한, 시각화 실행부(160)는 각 단어별 중요도와 추출된 피처의 빈도수에 따라 출력 위치, 출력 크기 및 출력 색을 결정하여 클라우드 형태로 시각화할 수 있다. 클라우드 형태의 시각화하는 것은, 핵심적인 단어를 돋보이게 하는 시각화하여, 기사에서 사용된 단어들을 빈도수에 따라 서로 다른 크기와 색으로 표현할 수 있다. 또한, 시각화 실행부(160)는 사용자 단말(미도시)로 클라우드 형태로 시각화한 그래프를 제공할 수 있다.
도 2는 본원의 일 실시예에 따른 피처의 주요 단어 시각화 장치의 시각화 도구를 설명하기 위한 도면이다. 도 2를 참조하면, 시각화 실행부(160)는 벤 다이어그램 모양의 워드 클라우드를 적용하여 피처의 주요 단어를 시각화할 수 있다.
예시적으로 도 2의 (a)를 참조하면, 추출된 복수의 피처별로(예를 들어, 3개의 피처별로) 각각 주요 단어들이 있다. 예시적으로, 단어들의 모임을 W1, W2, W3라 하면 W1, W2, W3는 서로 다른 단어들로만 구성되어 있고, W1, W2, W3는 서로 공유하는 단어들이 존재할 수 있다. 이 공유하는 단어들은 각 피처에 모두 영향을 미쳤으므로 중요한 단어들이라고 간주할 수 있다. 따라서 시각화 실행부(160)는 이를 나타내기 위해 벤 다이어그램 모양의 형태로 시각화를 할 수 있다. 일예로, 시각화 실행부(160)는 제1특징 변수의 제1영역(예를 들어, W1 영역)을 제1색으로 결정하여 출력할 수 있다. 또한, 제1특징 변수의 제1영역의 변수 중요도, 주요 단어 등의 중요도, 영향도에 기반하여 단어의 출력 위치 및 출력 크기를 달리하여 출력할 수 있다. 또한, 시각화 실행부(160)는 제2특징 변수의 제2영역(예를 들어, W2 영역)을 제2색으로 결정하여 출력할 수 있다. 또한, 제2특징 변수의 제2영역의 변수 중요도, 주요 단어 등의 중요도, 영향도에 기반하여 단어의 출력 위치 및 출력 크기를 달리하여 출력할 수 있다. 또한, 시각화 실행부(160)는 제1특징변수 및 제2특징 변수의 교집합 영역(예를 들어, W1&W2)을 제3색으로 결정하여 출력할 수 있다. 또한, 제1특징변수 및 제2특징 변수의 교집합 영역(예를 들어, W1&W2)의 변수 중요도, 주요 단어 등의 중요도, 영향도에 기반하여 단어의 출력 위치 및 출력 크기를 달리하여 출력할 수 있다.
또한, 도 2의 (b)를 참조하면, 단어 구름(word cloud, 워드 클라우드)은 문서에 사용된 단어의 빈도를 계산해서 시각적으로 표현하는 것을 의미한다. 단어 구름(word cloud, 워드 클라우드)을 사용함으로써, 많이 나오는 단어는 크게 표시되기 때문에 한눈에 문서의 핵심 내용을 파악할 수 있다. 또한, 단어 구름(word cloud, 워드 클라우드)은 태그 구름(tag cloud)이라고도 부른다. 태그는 옷이나 물건에 소재나 취급 방법 등을 설명하기 위해 붙이는 꼬리표다. 웹 페이지나 소셜네트워크 서비스(SNS)에서 콘텐츠를 설명하기 위해 붙이는 키워드를 태그라고 부른다. 태그 구름은 웹 사이트에서 태그의 중요도를 글자 크기나 색깔로 표시한다. 또한, 워크 클라우드는 표현하려는 콘텐츠의 성격에 따라 문서 구름(text cloud)과 데이터 구름(data cloud)으로 구분하기도 한다. 문서 구름이 문서에 포함된 단어를 시각적으로 표현한 것이라면 데이터 구름은 단어 대신에 숫자 정보를 크기와 색깔로 표현한 것을 말한다. 예를 들어, 인구 규모에 따라 국가명의 크기나 색을 달리해서 표현하거나 주식시장에서 주가의 등락과 거래량을 반영해 회사명의 크기와 색을 결정한다. 또한, 워드 클라우드 기법을 이용하여 벤 다이어그램의 각 영역별로 주요 단어들을 표시한다. 또한, 시각화 실행부(160)는 빈도수에 해당하는 값에 중요도를 대입함으로써 중요도가 높을수록 단어의 크기가 크게 표시되도록 한다. 중요도를 대입할 때 백분율이 정수가 되게끔 적절히 변환하여 대입한다. 또한, 시각화 실행부(160)는 벤 다이어그램의 영역별로 배경의 색을 다르게 했기 때문에 단어의 색까지 다르면 사용자가 보기가 불편할 수 있으므로 단어의 색은 검은색으로 통일하여 제공할 수 있다.
도 3 은 본원의 일 실시예에 따른 피처의 주요 단어 시각화 장치에 제1텍스트 데이터에서 추출된 피처에 사용된 단어 목록을 시각화한 도면이다.
예시적으로 도 3을 참조하면, 피처의 주요 단어 시각화 장치(150)는 피처에 사용된 단어 목록을 벤 다이어그램 형태의 워드 클라우드를 생성하여 시각화할 수 있다. 피처의 주요 단어 시각화 장치(150)는 피처 영향도가 기준값 이상인 단어들을 벤 다이어그램 형태의 워드 클라우드에 도시할 수 있다.
피처의 주요 단어 시각화 장치(150)는 텍스트 변수명이 ‘text’일 때 추출된 세 피처 ‘text_PCA_1’ ‘text_PCA_2’, ‘text_PCA_3’에 대해서 피처에 끼친 영향도가 기준값 이상인 단어들을 벤 다이어그램 안에 워드 클라우드를 이용하여 나타낼 수 있다. 여기서, 피처의 주요 단어 시각화 장치(150)는 벤 다이어그램의 겹치는 부분(교집합)에는 여러 피처에 동시에 영향을 많이 끼친 단어들을 표시할 수 있다. 즉, 가장 정중앙에 있는 단어들은 세 피처 모두에 영향을 많이 끼친 단어를 모은 것이다. 또한, 피처의 주요 단어 시각화 장치(150)는 변수 정보 표시 상자를 도시할 수 있다. 변수 정보 표시 상자는 목표 변수명이 ‘target’이고 텍스트 변수명이 ‘text’일 때 추출된 세 피처 ‘text_PCA_1’, ‘text_PCA_2’, ‘text_PCA_3’에 각각에 대해서 target에 대한 변수 영향도와 각 피처별 주요 단어의 개수를 포함할 수 있다.
도 8은 본원의 일 실시예에 따른 텍스트 데이터 피처 추출 장치의 개략적인 블록도이다. 도 8을 참조하면, 단어 추출 프로세서(130)는 사용자 사전 입력부(131), 자체 사전 입력부(132), 단어 후보 추출부(133) 및 주요 단어 추출부(134)를 포함할 수 있다.
본원의 일 실시예에 따르면, 사용자 사전 입력부(131)는 사용자로부터 주요 단어와 관련된 입력 정보를 획득할 수 있다. 사용자 사전 입력부(131)는 사용자가 사용자 단말(미도시)을 통해 입력한 사용자 입력 정보에 기반하여 사용자 사전을 구축할 수 있다. 또한, 사용자 사전 입력부(131)는 사용자가 텍스트 데이터에서 추출하고자 하는 단어가 있을 경우, 해당 단어들을 추출하기 위해 사용자 사전을 구축할 수 있다. 달리 말해, 사용자 사전 입력부(131) 사용자 단말(미도시)을 통해 한글, 영어 특수문자 중 적어도 어느 하나를 입력한 사용자 입력 정보에 기반하여 사용자 사전을 구축할 수 있다. 사용자 사전에 포함된 단어는 주요 단어 추출부에서 단어 추출 시 가장 높은 우선순위가 부여될 수 있다. 또한, 사용자 사전은 자체 사전 입력부(132)에 포함된 자체 사전으로는 데이터 특성에 맞는 단어를 전부 추출할 수 없을 수도 있는 한계를 극복하고, 사용자가 특별히 중요하다고 판단하는 단어들을 최우선순위에 놓기 위해서 사용자가 입력하는 사전이다.
본원의 일 실시예에 따르면, 사용자 사전 입력부(131)는 사용자 단말(미도시)로 단어 입력 메뉴를 제공할 수 있다. 예를 들어, 사용자 사전 입력부(131)가 제공하는 어플리케이션 프로그램을 사용자 단말(미도시)이 다운로드하여 설치하고, 설치된 어플리케이션을 통해 단어 입력 메뉴가 제공될 수 있다.
사용자는 단어 입력 메뉴를 통해, 우선적으로 추출해야 될 단어들을 입력할 수 있다. 사용자 사전 입력부(131)는 사용자 단말(미도시)로부터 입력되는 단어들을 수집하여 사용자 사전을 구축할 수 있다.
사용자 사전 입력부(131)는 사용자 단말(미도시)과 데이터, 콘텐츠, 각종 통신 신호를 네트워크를 통해 송수신하고, 데이터 저장 및 처리의 기능을 가지는 모든 종류의 서버, 단말, 또는 디바이스를 포함할 수 있다.
사용자 단말(미도시)은 네트워크를 통해 사용자 사전 입력부(131)와 연동되는 디바이스로서, 예를 들면, 스마트폰(Smartphone), 스마트패드(Smart Pad), 태블릿 PC, 웨어러블 디바이스 등과 PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기 같은 모든 종류의 무선 통신 장치 및 데스크탑 컴퓨터, 스마트 TV와 같은 고정용 단말기일 수도 있다.
사용자 사전 입력부(131) 및 사용자 단말(미도시) 간의 정보 공유를 위한 네트워크의 일 예로는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5G 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 유무선 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, Wifi 네트워크, NFC(Near Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함될 수 있으며, 이에 한정된 것은 아니다.
본원의 일 실시예에 따르면, 자체 사전 입력부(132)는 복수의 일반 명사를 포함하는 명사 사전을 획득할 수 있다. 일예로, 명사 사전은 자체적으로 보유한 명사가 포함된 사전일 수 있다. 예시적으로, 명사 사전에 포함된 단어 수는 31만 7151개이다. 전문 용어(예를 들어, 법률 용어 등 전문직, 전공별로 사용하는 특수한 단어들)의 수는 적으나 일상적인 단어 수는 다수 포함될 수 있다. 또한, 자체 사전 입력부(132)는 복수의 일반 명사를 포함하는 데이터베이스를 외부 서버로부터 획득할 수 있다. 자체 사전 입력부(132)는 외부 서버(미도시)로부터 특정 명사 사전을 획득할 수 있다. 달리 말해, 자체 사전 입력부(132)는 입력받은 텍스트 데이터(110)의 특징(특성)을 고려하여 외부 서버(미도시)로부터 특정 명사 사전을 획득할 수 있다. 예를 들어, 입력받은 텍스트 데이터(110)가 판결문 데이터인 경우, 자체 사전 입력부(132)는 법률 용어가 포함된 명사 사전을 외부 서버(미도시)로부터 획득할 수 있다.
또한, 자체 사전 입력부(132)는 비(非)명사 사전을 포함할 수 있다. 비(非)명사 사전은 ‘~친다, ~란다, ~렵다, ~므로, ~었다, ~있다, ~없다, ~한다, ~된다, 시킴, ~됨, 있음, 없음, ~하여, ~하면, ~되면, ~렀다, 어디, 않다’ 같이 명사가 아닌 품사를 가진 단어와 ‘??, ?O’ 같이 명사가 될 수 없는 어휘들로 구성되어 있다. 비(非)명사 사전 명사가 아닌 품사와 오탈자에 해당하는 단어를 포함할 수 있다. 또한, 비(非)명사 사전은 100% 명사인 단어가 아닌 단어들에 대하여 명사가 확실히 아닌 단어를 제거하기 위해 사용될 수 있다.
또한, 자체 사전 입력부(132)는 인명(人名) 사전 및 지명(地名) 사전을 포함할 수 있다. 인명(人名) 사전은 사람 이름으로 구성된 사전일 수 있다. 또한, 지명(地名) 사전은 지역 이름, 지하철역, 도시명 등을 포함하는 사전일 수 있다. 사람 이름과 지역명, 지하철역, 유명 장소 등은 데이터에 따라 필요할 수도 있고 불필요할 수도 있는 단어다. 사용자가 이를 불필요하다고 간주할 경우 제거할 수 있다.
본원의 일 실시예에 따르면, 단어 후보 추출부(133)는 텍스트 데이터에서 형태소를 분리하고, 단어가 될 수 있는 형태소를 추출할 수 있다. 일예로, 단어 후보 추출부(133)는 텍스트 데이터를 이용하여 형태소 분석을 실시하고, 문장, 구문 등의 단어가 될 수 있는 형태소를 추출할 수 있다. 단어 후보 추출부(133)는 텍스트 데이터에서 명사를 추출하기 위해 Komoran(Korean Morphological Analyzer) 형태소 분석을 수행할 수 있다. Komoran 형태소 분석은 기존 형태소 분석과 달리 여러 어절을 하나의 품사로 분석이 가능하여 공백이 포함된 텍스트 데이터를 더 정확하게 Tokenize할 수 있다.
한국어는 L + [R] 구조이다. L 옆에 등장하는 R의 분포는 L이 명사인지 아닌지를 판단하는 좋은 힌트가 된다. 하지만, 조사들을 R로 가지고 있으면서 규칙기반으로 명사를 찾을 수는 없다. 예를 들어, '-은'은 대표적인 조사지만 '손나은'이 '손나 + 은'은 아니다. 연예 뉴스에서 '에이핑크 맴버 손나은'은 자주 등장하지만 '손나 + 은', '손나 + 이', '손나 + 에게' 같은 어절은 자주 등장하지 않는다. 이와 같이 단어 추출 프로세서(130)는 L - R의 이분 그래프(bipartite graph)의 정보를 이용하여 해당 단어가 명사인지 아닌지 판단할 수 있다. 단어 추출 프로세서(130)는 세종 말뭉치를 이용하여 명사 뒤에 등장하는 R set을 모아뒀으며, R set의 단어들은 명사 가능 점수가 학습되어 있다. 명사 가능 점수의 범위는 [-1, 1]이다. 예를 들어, "내서"라는 단어는 -0.530702이고, "있게"라는 단어는 1.000000이고, "있는"이라는 단어는 0.327824이고, "쓰는"이라는 단어는 0.079298이고, "었다며"라는 단어는 -1.000000이고, "였다며"라는 단어는 0.437399이고, '했 + 었다며'이라면 '했'은 명사 점수가 -1.0이다. '재미 + 있게' 3번, '재미 + 있는' 2번 등장하였다면 재미의 명사 가능 점수는 (3 x 1.0 + 2 x 0.33) / 5 = 0.732점이다. 명사 추출의 한계점(threshold)이 0.5라면 '재미'는 명사로 추출될 수 있다. 달리 말해, 단어 후보 추출부(113)는 미리 설정된 명사 추출의 한계점에 기반하여 특정 명사를 추출할 수 있다.
이 방법은 주어진 문서 집합에서 어절들의 구조를 학습하여 그 주어진 문서 집합의 명사를 추출할 수 있다. 즉, 학습 데이터가 필요하지 않은 통계 기반의 자율(unsupervised) 학습 방법이다. 따라서 사전에 등록되지 않은 명사를 추출할 수 있는 장점이 있다. 본원의 단어 후보 추출부(133)는 명사 추출 함수(예를 들어, soynlp의 LRNounExtractor_v2 함수)를 이용하여 명사 후보를 추출할 수 있다.
또한, 단어 후보 추출부(133)는 두 글자 이상의 한글 단어로부터 단어가 될 수 있는 형태소를 추출할 수 있다. 특정 함수(예를 들어, LRNounExtractor_v2 함수)를 이용하여 추출한 단어 중에서는 명사 외에도 한글자짜리 단어도 있고 특수문자나 외국어가 섞인 단어도 있고 명사가 아닌 단어들도 존재한다. 또한, 함수가 추출하지 못한 단어 중에서 사용자가 추출하기를 원하는 단어들도 있고 추출한 단어 중 사용자가 특별히 더 주요하게 생각하는 핵심단어가 있을 수 있다. 단어 후보 추출부(133)는 주요 단어들만 남겨서 벡터화를 하기 위해 준비된 사전을 이용하여 단어의 품질을 개선할 수 있다. 단어 후보 추출부(133)는 텍스트 데이터(110)에서 형태소를 분리하고 명사를 추출할 수 있다. 또한, 단어 후보 추출부(133)는 텍스트 데이터(110)에서 2글자 이상의 한글로만 구성된 형태소를 추출할 수 있다.
예시적으로, 단어 후보 추출부(133)는 두 글자 이상의 한글 단어만 남기는 작업을 수행할 수 있다. 한글자 짜리 단어는 의미가 다양한 것이 많고, 조사인 경우가 많으므로 단어 후보 추출부(133)는 한글자 짜리 단어를 제외할 수 있다. 또한, 단어 후보 추출부(133)는 특수 문자나 외국어가 섞인 단어는 사용자가 입력한 것만 사용하기 위해 텍스트 데이터에 특수 문자 또는 외국어가 섞어있는 경우, 해당 단어를 제외(삭제)할 수 있다.
본원의 일 실시예에 따르면, 주요 단어 추출부(134)는 단어 후보 추출부(133)에서 추출한 형태소 목록에서 복수의 사전을 이용하여 주요 단어를 추출할 수 있다. 달리 말해, 주요 단어 추출부(134)는 단어 후보 추출부(133)에서 추출한 형태소 목록에서 사용자 사전, 자체 명사 사전, 비(非)명사 사전, 인명(人名)사전, 지명(地名)사전을 이용하여 단어를 추출할 수 있다.
또한, 주요 단어 추출부(134)는 명사 사전을 이용하여 텍스트 데이터에서 명사인 단어들을 추출할 수 있다. 주요 단어 추출부(134)는 kkma, mecab 등 다른 konlpy의 사전과 자체적으로 구축한 명사 사전을 이용하여 추출한 단어 중 명사인 단어를 추출할 수 있다. 주요 단어 추출부(134)는 사용자 사전의 유무와 관계없이 명사 사전을 이용하여 텍스트 데이터에서 명사인 단어들을 추출할 수 있다. 이렇게 추출한 단어들은 100% 명사로 간주하여 사용될 수 있다. 명사 사전의 단어 보유 수는 31만 7151개이다. 전문 용어(예: 법률 용어 등 전문직, 전공별로 사용하는 특수한 단어들)의 수는 적으나 일상적인 단어 수는 다수 확보되어 있다.
또한, 주요 단어 추출부(134)는 비 명사 사전을 이용하여 명사가 아닌 단어들을 제거할 수 있다. 주요 단어 추출부(134)는 비(非)명사 사전을 사용하여 100% 명사인 단어가 아닌 단어들을 삭제(제거)할 수 있다. 이때, 비(非)명사 사전은 ‘~친다, ~란다, ~렵다, ~므로, ~었다, ~있다, ~없다, ~한다, ~된다, 시킴, ~됨, 있음, 없음, ~하여, ~하면, ~되면, ~렀다, 어디, 않다’ 같이 명사가 아닌 품사를 가진 단어와 ‘??, ?O’ 같이 명사가 될 수 없는 어휘들로 구성되어 있다. 비(非)명사 사전으로 필터링을 거친 후 남은 단어들은 비지도 학습으로 얻은 신조어, 합성명사, 전문 용어 등으로 간주하고 사용여부를 결정할 수 있다.
일예로, 사람 이름과 지역명, 지하철역, 유명 장소 등은 데이터에 따라 필요할 수도 있고 불필요할 수도 있는 단어다. 주요 단어 추출부(134)는 사용자의 입력 정보에 기반하여 해당 단어를 삭제(제거)할 수 있다. 주요 단어 추출부(134)는 비 명사 사전을 이용하여 제거된 단어 모음에 대하여 추가적으로 인명, 지명을 제거하고 싶을 때 인명 사전 및 지명 사전을 적용하여 단어를 제거(삭제)할 수 있다.
또한, 주요 단어 추출부(134)는 사용자 사전을 이용하여 단어들을 제거할 수 있다. 사용자 사전은 사용자가 해당 텍스트 피처 추출에서 중요하다고 판단하는 단어들을 입력한 사전일 수 있다.
또한, 주요 단어 추출부(134)는 복수의 사전 중 사용자 사전에 포함된 단어에 제1우선순위를 부여할 수 있다. 또한, 주요 단어 추출부(134)는 복수의 사전 중 명사 사전에 포함된 단어에 제2우선순위를 부여할 수 있다. 주요 단어 추출부(134)는 우선순위가 부여된 단어 목록에서 주요 단어를 추출할 수 있다. 일예로, 주요 단어 추출부(134)는 단어 후보 추출부(133)에서 추출한 형태소 목록에 복수의 사전 중 사용자 사전에 포함된 단어가 존재하는 경우, 해당 단어에 제1우선순위를 부여할 수 있다. 또한, 주요 단어 추출부(134)는 단어 후보 추출부(133)에서 추출한 형태소 목록에 복수의 사전 중 명사 사전에 포함된 단어가 존재하는 경우, 해당 단어에 제2우선순위를 부여할 수 있다. 주요 단어 추출부(134)는 단어 후보 추출부(133)에서 추출한 형태소 목록에 부여된 우선순위에 기반하여 최종 주요 단어를 추출할 수 있다. 일예로, 주요 단어 추출부(134)는 미리 설정된 랭크 이내의 단어를 주요 단어로 추출할 수 있다. 한편, 주요 단어 추출부(134)는 단어 후보 추출부(133)에서 추출한 형태소 목록에 복수의 사전 중 사용자 사전에 포함된 단어가 존재하는 경우, 해당 단어에 제1가중치를 부여할 수 있다. 또한, 주요 단어 추출부(134)는 단어 후보 추출부(133)에서 추출한 형태소 목록에 복수의 사전 중 명사 사전에 포함된 단어가 존재하는 경우, 해당 단어에 제2가중치를 부여할 수 있다. 여기서, 제1가중치는 제2가중치보다 높은 것일 수 있다. 주요 단어 추출부(134)는 가중치가 부여된 단어 목록은 재 생성하고, 주요 단어를 추출할 수 있다.
본원의 일 실시예에 따르면, 단어 벡터 생성부(141)는 주요 단어 추출부(134)에서 추출한 주요 단어를 텍스트 분석 알고리즘에 적용하여 주요 단어를 벡터화할 수 있다. 단어 벡터 생성부(141)는 주요 단어 추출부(134)에서 추출한 단어에 대하여 텍스트 분석 알고리즘(예를 들어, TF-IDF기법)을 적용하여 각 단어를 벡터화할 수 있다. 일예로, 단어 벡터 생성부(141)는 벡터 추출 패키지(예를 들어, Scikit-Learn의 feature_extraction의 서브패키지 중 하나인 feature_extraction.text)를 이용하여 주요 단어를 벡터화할 수 있다. 벡터 추출 패키지(예를 들어, Scikit-Learn의 feature_extraction의 서브패키지 중 하나인 feature_extraction.text)는 문서 전처리 클래스를 제공하며 이 클래스의 함수 중 빈도수를 기반으로 단어를 벡터화하는 함수인 텍스트 분석 함수(예를 들어, TfidfTransformer 함수)를 이용하여 주요 명사들을 벡터화할 수 있다.
일예로, 단어 벡터 생성부(141)는 문서에 포함된 단어의 빈도수를 산출할 수 있다. 텍스트 데이터(문서)에서의 단어의 빈도수는 수학식 1과 같이 표현될 수 있다. 여기서, d는 텍스트 데이터(문서)이고, t는 단어일 수 있다. 즉, 수학식 1은 문서 d에서 단어 t의 빈도수를 의미할 수 있다. TF의 값은 상황에 따라 정규화될 수 있다.
[수학식 1]
Figure 112020033227227-pat00002
또한, 단어 벡터 생성부(141)는 불린 빈도(Boolean Frequency)를 이용하여 텍스트 데이터(110)에 단어가 포함된 경우 1, 단어가 포함되지 않은 경우 0으로 표기할 수 있다. 일예로, 불린 빈도는 수학식 2와 같이 표현될 수 있다.
[수학식 2]
Figure 112020033227227-pat00003
일예로, 단어 벡터 생성부(141)는 불린 빈도를 이용하여 텍스트 데이터(110)에 단어가 포함된 경우 또는 단어가 포함되지 않는 경우를 포기함으로써, TF(Term Frequency)의 값이 지나치게 커지는 것을 방지할 수 있다. 반면, 단어 벡터 생성부(141)는 텍스트 데이터(110)에 단어가 1번이 나타나나 100번이 나타나나 똑같은 가중치를 부여하기 때문에, TF가 중요하지 않은 경우, 즉 단어의 등장 유무만 중요할 때 불린 빈도를 적용하여 단어를 단어의 등장 유무를 표기할 수 있다.
또한, 단어 벡터 생성부(141)는 로그 스케일 빈도(Logarithmically Scaled Frequency)를 수학식 3과 같이 표현할 수 있다. 로그 스케일 빈도는 크기를 줄이기 위해 로크 스케일로 변환한 값을 의미할 수 있다. 이때, 텍스트 데이터(110)에 나타나는 단어의 빈도수 차이가 적으면 TF 값의 변화가 크지만 단어의 빈도가 무수히 늘어나는 경우엔 TF 값의 차이가 거의 없게 된다.
[수학식 3]
Figure 112020033227227-pat00004
또한, 단어 벡터 생성부(141)는 텍스트 데이터(110)의 길이에 따라 단어의 상대적 빈도 값을 조정할 수 있다. 달리 말해, 증가 빈도(Augmented Frequency)는 문서 길이에 따라 단어의 상대적 빈도 값을 조정해주는 방법으로 단어의 빈도를 문서 내 단어들의 단어 빈도 중 최댓값으로 나눠주는 방법을 의미한다. 증가 빈도는 수학식 4와 같이 표현될 수 있다. 수학식 4는 편차를 줄이기 위해 조정된 수식일 수 있다.
[수학식 4]
Figure 112020033227227-pat00005
예를 들어, 단어 벡터 생성부(141)는 제1문서에서 A라는 단어가 100번, 제2문서에서 5번, 제3 문서에서 8번이 등장하면 분모가 100으로 고정할 수 있다.
IDF(inverse document frequency)는 특정한 단어가 들어 있는 문서의 수에 반비례하는 수를 의미할 수 있다. IDF(inverse document frequency)는 전체 문서에서 자주 발생하는 단어의 중요도를 낮추기 위해 사용될 수 있다. 이때, 그냥 역수를 취하면 전체 문서의 수가 많아질수록 IDF(inverse document frequency)의 값이 기하급수적으로 커지게 되므로 IDF 또한, 로그를 취한다. IDF(inverse document frequency)는 수학식 5와 같이 표현될 수 있다.
[수학식 5]
Figure 112020033227227-pat00006
TF-IDF 인코딩은 한 문서에서 많이 나타나는 중요도는 높이고(TF), 전체 문서에서 자주 발생하는 단어의 중요도는 낮추는 방법이다. TF-IDF는 수학식 6과 같이 표현될 수 있다.
[수학식 6]
Figure 112020033227227-pat00007
예시적으로 수학식 6은
Figure 112020033227227-pat00008
값(중요도)이 커지게 됨을 의미할 수 있다.
예시적으로, 단어 벡터 생성부(141)는 텍스트 데이터(110)를 입력받고, 텍스트 데이터(110)에 포함된 단어별로 번호를 부여할 수 있다.
Corpus = ['This is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document?']
단어별로 번호 부여 {'and': 0, 'document': 1, 'first': 2, 'is': 3, 'last': 4, 'one': 5, 'second': 6, 'the': 7, 'third': 8, 'this': 9}
단어 벡터 생성부(141)는 TF값만 적용하여 행렬을 생성할 수 있다. 여기서, 행은 단어별로 부여된 번호를 나타내고, 열은, 문장을 나타내는 것일 수 있다.
TF값만 취할 경우 : array([[0, 1, 1, 1, 0, 0, 0, 1, 0, 1],
[0, 1, 0, 1, 0, 0, 2, 1, 0, 1],
[1, 0, 0, 0, 0, 1, 0, 1, 1, 0],
[0, 1, 1, 1, 0, 0, 0, 1, 0, 1])
또한, 단어 벡터 생성부(141)는 T TF-IDF 값을 적용하여 행렬을 생성할 수 있다. 여기서, 행은 단어별로 부여된 번호를 나타내고, 열은, 문장을 나타내는 것일 수 있다.
Array ([[0. , 0.3894, 0.5577, 0.462 , 0. , 0. , 0. , 0.3294, 0. , 0.4629],
[0. , 0.2415, 0. , 0.2870, 0. , 0. , 0.8573, 0.2042, 0. , 0.2870],
[0.5566, 0. , 0. , 0. , 0. , 0.5566, 0. , 0.2652, 0.5566, 0. ],
[0. , 0.3894, 0.5577, 0.4629 , 0. , 0. , 0. , 0.3294, 0. , 0.4629]
앞서 설명된 예시는 일 예일뿐 이에 한정되는 것은 아니다. 보다 다양한 일 실시예에 존재할 수 있다.
본원의 일 실시예에 따르면, 피처 추출부(142)는 단어 벡터 생성부(141)에서 벡터화된 단어에 주성분 분석을 이용하여 피처를 추출할 수 있다. 피처 추출부(142)는 단어 벡터를 3차원으로 차원 축소하여 새로운 피처 3개를 추출할 수 있다. 주성분 분석(PCA)은 변수들이 통계적으로 상관관계가 없도록 데이터 셋을 회전시키는 기술이다. 회전한 뒤에 데이터를 설명하는 데 얼마나 중요하냐에 따라 종종 새로운 특성 중 일부만 선택한다. 이 새로운 특성을 주성분(각 주성분은 기존 데이터의 변수 모두의 영향을 받는다.)이라 하며 일부만 택하였을 경우 차원이 줄어들기에 차원 축소의 용도로 사용하기도 한다.
또한, 피처 추출부(142)는 단어를 벡터화하여 모두 피처로 사용할 경우, 피처의 개수가 너무 많아지게 되므로 예측하는데 있어 성능이 좋지 않을 수 있다는 문제점이 있다. 따라서 주성분 분석을 이용하여 피처를 추출한다. 추출하는 피처의 수는 시각화하기도 편하고 보편적으로 각 벡터의 분산을 80% 내지 90% 표현할 수 있는 미리 설정된 개수(예를 들어, 3개)를 기본값으로 한다.
또한, 피처 추출부(142)는 추출하는 피처의 이름을 생성할 수 있다. 예를 들어, 기존의 텍스트 데이터(110)에 포함된 텍스트 변수명이 ‘text’일 경우, 추출되는 3개의 피처의 이름은 차례대로 ‘text_PCA_1’, ‘text_PCA_2’, ‘text_PCA_3’로 생성할 수 있다.
본원의 일 실시예에 따르면, 피처 추출부(142)는 주성분 분석을 이용하여 피처를 추출했을 경우, 주성분 분석에 사용된 각 변수들이 추출된 피처에 미치는 영향도를 추출할 수 있다. 예를 들어, 피처 추출부(142)는 Scikit-Learn의 decomposition의 함수인 PCA.components_를 이용하여 영향도를 추출할 수 있다. 이 함수는 각 PCA를 이용하여 피처를 추출했을 경우, PCA에 사용된 각 변수들이 추출된 피처에 어느 정도 영향을 미치고 있는지를 표현할 수 있다.
예시적으로, 텍스트 피처 추출 장치(120)는 텍스트 데이터(110)를 입력받을 수 있다. 텍스트 데이터(110)는 표5와 같은 텍스트를 포함할 수 있다. 일예로, 텍스트 데이터(110)는 법정 판결문 데이터를 포함할 수 있다.
precedent Text
<신청인, 심판청구인><상대방, 피심판청구인><원심판결>대구고등법원 1981.3.31. 선고 80르93 판결<주 문>상고허가신청을 각하한다.<이 유>소송촉진등에 관한 특례법 제12조에 규정된 상고허가신청은 민사소송사건에 적용되는 것이고, 이 사건과 같은 가사심판사건에는 그 적용이 없음이동법 제2조의 규정에 비추어 명백하다(신청인은당원 81므43호로 상고도 제기하고 있다).그러므로 이 신청은 부적법하여 이를 각하하기로 하고 관여법관의 일치된 의견으로 주문과 같이 결정한다
<피 고 인><상 고 인> 피고인<원심판결>대구지방법원 1990.2.2. 선고 89노1675 판결<주 문>상고를 기각한다.<이 유> 피고인의 상고이유에 대하여 판단한다.국가공무원법 제66조 제1항이헌법 제11조 제1항,제21조 제1항,제31조 제4항,제33조나제37조 제2항에 위반되는 법률이라고 볼 수 없으므로(당원 1990.4.10 선고 90도332 판결 참조), 논지는 이유가 없다.그러므로 피고인의 상고를 기각하기로 관여법관의 의견이 일치되어 주문과같이 판결한다
<채 무 자> 주식회사 고성다인레이저<관 리 인><주 문>이 사건 회생절차를 폐지한다.<이 유> 위 사건에 관하여 관리인이 2010. 5. 31. 제출하고, 2010. 7. 26. 수정허가 된 회생계획안은 2010. 7. 26. 개최된 회생계획안의 결의를 위한 관계인 집회에서채무자 회생 및 파산에 관한 법률 제237조의 가결요건에 해당하는 동의를 얻지 못하여 부결되었으므로, 이 법원은채무자 회생 및 파산에 관한 법률 제286조 제1항 제2호에 의하여 주문과 같이 결정한다
<피 고 인><항 소 인> 검사<검 사> 배성훈<변 호 인> 사법연수생 조민근(국선)<원심판결> 서울남부지방법원 2011. 4. 15. 선고 2010고단4002 판결<주 문>검사의 항소를 기각한다.<이 유>검사는 이 사건 항소이유로서, 피고인이 일본에 머무는 동안 공소시효가 정지된다는 취지의 주장을 하나, 원심이 그 판결이유에서 판단한 바와 같이 공소시효가 정지된다고 볼 수 없다. 따라서, 검사의 항소는 이유 없으므로,형사소송법 제364조 제4항에 의하여 이를 기각한다
<신 청 인> 동대구세무서장<상 대 방> 김경조<원심판결>대구고등법원 1981.2.10. 선고 80구200 판결<주 문>상고허가신청을 각하한다.<이 유>소송촉진등에 관한 특례법 제12조에 규정된 상고허가신청은 민사소송사건에 적용되는 것이고 이 사건과 같은 행정소송사건에는 그 적용이 없음이동법 제2조의 규정에 비추어 명백하다.그러므로 행정소송사건에 관하여 상고허가신청을 한 이 사건 신청은 부적법하므로 이를 각하하기로 하여 관여법관의 일치된 의견으로 주문과 같이 결정한다
<재항고인> 이상학<원 심>서울고등 1960. 10. 6. 선고 60민공178, 179 판결<이 유> 직권으로 심안컨대경매법 제34조에 의하면 동법에 의한 부동산 경매에 있어서는 부동산 강제경매의 경우와는 달라 신립에 의해서만 경매에 가름하여 입찰을 명할 수 있고 직권으로는 명할 수 없는 것임에도 불구하고 일건 기록에 의하면 경매법원이 이해관계인의 신립없이 직권으로 입찰을 명하여 본건 경락을 허가하였음은 위법하다 아니할 수 없고 동 위법을 간과한 원심결정 역시 위법이다
<신 청 인><피신청인> 교육인적자원부장관(대리인 변호사 김종인)<주 문>이 사건 신청을 모두 기각한다.<신청취지>피신청인이 2004. 2. 5. 신청인류정희,손병기,배인호,윤은현,정성균,이진복에 대하여 한 임원취임승인취소처분 및 같은 날 행한 신청외서정문,이정도,정인기,김병찬,김종찬,강영신,정기오을학교법인 유신학원의 임시이사로 선임한 처분은이 법원 2004구합5751호 사건의 판결 선고시까지 그 효력을 정지한다.<이 유>이 사건 신청은 모두 이유 없으므로 주문과 같이 결정한다
<신 청 인> 신분식<상 대 방> 부산직할시 남구청장<원심판결> 대구고등법원 1982.8.17. 선고 81구120 판결<주 문>상고허가신청을 각하한다.<이 유>소송촉진등에관한특례법 제12조에 규정된 상고허가신청은 민사소송사건에 적용되는 것이고 이 사건과 같은 행정소송사건에는 그 적용이 없음이동법 제2조의 규정에 비추어 명백하다.그러므로 행정소송사건에 관하여 상고허가신청을 한 이 사건 신청은 부적법하므로 이를 각하하기로 하여 관여법관의 일치된 의견으로 주문과 같이 결정한다
<원고, 피상고인> 유상록 외 1인<피고, 상고인> 서울특별시관재국장<피고 보조참가인, 상고인> 주길환<원심판결>제1심서울고등 1956. 8. 16. 선고 56행24<이 유> 기록에 의하면 원판결은 원고등이 무관리상태에 있는 본건 대지에 대하여 제1차로 피고에 대하여 임대차계약 신청을 한 사실을 확정하고 원고등이 본건 대지에 대한 연고권자이라고 판시하였으나 해 사실만 가지고는 귀속재산에 대한 연고권이 발생할 수 없다 할 것이므로 원판결에는 법률의 해석을 그릇한 위법이 있다
<피 고 인><상 고 인> 피고인<원심판결>서울형사지방법원 1991.7.24. 선고 91노2429 판결<주 문>상고를 기각한다.<이 유> 상고이유를 본다.원심인용의 제1심판결이 든 증거에 의하면피고인이 다른 사람 소유의 광고용 간판을 백색페인트로 도색하여 광고문안을 지워 버린 사실을 인정할 수 있고 사실이 이와 같다면 재물손괴죄를 구성하는 것이므로 원심판결에 법리의 오해나 채증법칙을 어긴 위법이 없다.그러므로 상고를 기각하기로 관여 법관의 일치된 의견으로 주문과 같이 판결한다
단어 추출 프로세서(130)는 표5에 도시된 판결문 데이터 ‘precedentText’에 형태소 분석 후 사전을 이용하여 주요 단어를 추출할 수 있다. 피처 추출 실행부(140)는 추출된 주요 단어에 대해TF-IDF 방식으로 벡터화를 한 후, 벡터에 주성분 분석을 적용하여 피처 3개를 추출할 수 있다. 여기서, 사용된 판결문의 수는 20000개, 사용자 사전에 사용한 단어는 법령 용어 9400개, 명사 사전의 단어의 수는 31만7151개, 비(非)명사 사전의 단어의 수는 9682개, 인명(人名)사전의 단어의 수는 3467만5174개, 지명(地名)사전의 단어의 수는 50675개일 수 있다.
또한, 단어 후보 추출부(133)에서 추출한 단어의 수는 104887개이며 그 중 일부를 나타내면 다음과 같다.
('“Feraud"부분', '건축사업무정지처분은', '"디자인학원경영업"', '권리범위확인심판청구', '거절사정불복항고심판', '판단한다.원판결이유', '한국도시개발주식회사', '1966.11.23', '제95조,제100조', '하천부지점용허가신청', '없이만연', '지점소재', '중임등기', '충당사용', '입금교부', '조사평가', '대여할수', …, '해태사업', '행복동인', '당해영업', '시정가능', '가령식품', '청문장소', '5일전인', '예상손해', '계약번호', '기득임차', '대지29', '197평', '허가된다', '이의제출', '단일채무')
또한, 주요 단어 추출부(134)에서 추출한 단어의 수는 101625개이며 그 중 일부를 나타내면 다음과 같다.
('가감', '가검역증', '가격결정', '가격결정방법', '가격기준', '가격동향', '가격변동', '가격변동지수', '가격비교', '가격사정', '가격수준', '가격시점', '가격안정', '가격정보', …, '희망가액', '희망돼지', '희망돼지저금통', '희망백화점', '희망신청', '희망신청서', '희박하므', '히로뽕성분', ' '히로뽕제조', '히로뽕제조원료', '히로뽕주사')
도 4a 내지 도 4c는 본원의 일 실시예에 따른 피처의 주요 단어 시각화 장치에 제2텍스트 데이터에서 추출된 피처에 사용된 단어 목록을 시각화한 도면이다.
본원의 일 실시예에 따르면, 제2텍스트 데이터는, 판결문 데이터 'precedentText'일 수 있다. 피처의 주요 단어 시각화 장치(150)는 표5에 되시된 판결문 데이터에 대해 형태소 분석, 단어 추출, 단어의 벡터화를 거쳐 얻은 벡터화된 단어에 대해 주성분 분석을 실시하여 추출한 피처에 어느 단어가 피처에 영향력을 많이 미쳤는지 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화할 수 있다. 형태소 분석, 단어 추출, 단어의 벡터화를 거쳐 얻은 벡터화된 단어에 대해 주성분 분석을 실시는 텍스트 피처 추출 장치(120)에서 수행될 수 있다. 텍스트 텍스트 피처 추출 장치(120)는 판결문 데이터 ‘precedentText’에 형태소 분석 후 주요 단어를 추출하고 그 단어에 대해TF-IDF 방식으로 벡터화를 한 후, 벡터에 주성분 분석을 적용하여 피처 3개를 추출할 수 있다. 이때, 사용된 판결문의 수는 20000개, 피처 추출 시 사용된 단어의 수는 13185개일 수 있다. 또한, 피처의 주요 단어 시각화 장치(150)는 중요도가 0.01%, 0.05%, 0.1%, 0.5%, 1% 이상의 단어 모음을 각각 시각화하여 제공할 수 있으며, 도 4a 내지 도 4c와 같이 도시된 중요도의 기준값에 따라 어느 단어가 영향도가 높았는지 직관적으로 파악할 수 있다.
일예로, 도 4a의 (a)는 제2텍스트 데이터에서 피처 영향도가 0.01% 이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 또한, 도 4a의 (b)는 제2텍스트 데이터에서 피처 영향도가 0.05% 이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 도4b의(c)는 제2텍스트 데이터에서 피처 영향도가 0.1% 이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 또한, 도 4b의 (d)는 제2텍스트 데이터에서 피처 영향도가 0.5% 이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 또한, 도 4c의 (e)는 제2텍스트 데이터에서 피처 영향도가 1% 이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다.
도 5a 내지 도 5c는 본원의 일 실시예에 따른 피처의 주요 단어 시각화 장치에 제3텍스트 데이터에서 추출된 피처에 사용된 단어 목록을 시각화한 도면이다. 본원의 일 실시예에 따르면, 제3텍스트 데이터는 네이버 영화 리뷰 데이터를 포함할 수 있다. 텍스트 텍스트 피처 추출 장치(120)는 제3텍스트 데이터를 이용하여 형태소 분석, 단어 추출, 단어의 벡터화를 거쳐 얻은 벡터화된 단어에 대해 주성분 분석을 실시할 수 있다. 제3텍스트 데이터는 네이버 영화 리뷰에 등록된 15931개의 리뷰를 모아 생성한 데이터일 수 있다. 텍스트 텍스트 피처 추출 장치(120)는 사용자의 입력 정보에 기반하여 리뷰에서 긍정, 부정을 나타내는 키워드를 직접 입력하여 사용자 사전을 생성할 수 있다. 사용자 사전은 총 393개의 단어를 포함할 수 있다. 이 단어에는 명사뿐만 아니라 형용사, 동사 등 명사가 아닌 품사도 들어있으며 신조어(예를 들어: 허니잼, 예스잼 등)도 포함될 수 있다. 텍스트 텍스트 피처 추출 장치(120)는 명사 추출 시 자체 명사 사전, 비명사 사전, 인명 사전, 지명 사전 전부를 사용하였으며, 사용자 사전까지 반영한 후, 추출된 단어의 총 개수는 2308개이다. 피처의 주요 단어 시각화 장치(150)는 표6과 같이 각 피처별 단어 개수 분포를 생성할 수 있다. 달리 말해, 표6은 제3텍스트 데이터에 각 피처별 단어 개수 분포를 중요도 구간에 기반하여 생성한 것일 수 있다. 각 피처별 상위 중요도 단어는, 제1피처(review_PCA_1)에서 관람(47%), 관람객(47%), 재밌(1%), 영화(1%)를 포함할 수 있다. 또한, 제2피처(review_PCA_2)의 주요 단어는 영화(74%), 재밌(7%), 연기(3%), 너무(2%), 관람(1%)을 포함할 수 있다. 또한, 제3피처(review_PCA_3)의 주요 단어는 재밌(39%), 재미(36%), 재미있(19%), 영화(3%), 재미없(1%)으로 나타났으며, 이를 통해 ‘영화, 재미, 관람’과 관련된 단어가 중요도가 높았음을 알 수 있다.
중요도 구간 review_PCA_1 review_PCA_2 review_PCA_3
0이상 0.001미만 2120 2138 2228
0.001이상 0.005미만 139 88 43
0.005이상 0.01미만 18 27 12
0.01이상 0.05미만 20 26 15
0.05이상 0.1미만 4 11 2
0.1이상 0.3미만 1 9 1
0.3이상 0.5미만 1 2 2
0.5이상 1미만 1 2 0
1이상 10미만 2 4 2
10이상 20미만 0 0 1
20이상 30미만 0 0 0
30이상 40미만 0 0 2
40이상 50미만 2 0 0
50이상 0 1 0
일예로, 도5a의 (a)는 제3텍스트 데이터에서 피처 영향도가 0.001%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 또한, 도5b의 (b)는 제3텍스트 데이터에서 피처 영향도가 0.005%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 도5b의(c)는 제3텍스트 데이터에서 피처 영향도가 0.01%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 또한, 도5b의(d)는 제3텍스트 데이터에서 피처 영향도가 0.05%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 또한, 도5c의 (e)는 제3텍스트 데이터에서 피처 영향도가 0.1%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 또한, 도5c의 (f)는 제3텍스트 데이터에서 피처 영향도가 0.5%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다.도 6a 내지 도 6c는 본원의 일 실시예에 따른 피처의 주요 단어 시각화 장치에 제4텍스트 데이터에서 추출된 피처에 사용된 단어 목록을 시각화한 도면이다.
본원의 일 실시예에 따르면, 제4텍스트 데이터는, 네이버 뉴스 타이틀 데이터일 수 있다. 피처의 주요 단어 시각화 장치(150)는 제4텍스트 데이터에 대해 형태소 분석, 단어 추출, 단어의 벡터화를 거쳐 얻은 벡터화된 단어에 대해 주성분 분석을 실시하여 추출한 피처에 어느 단어가 피처에 영향력을 많이 미쳤는지 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화할 수 있다. 형태소 분석, 단어 추출, 단어의 벡터화를 거쳐 얻은 벡터화된 단어에 대해 주성분 분석을 실시는 텍스트 텍스트 피처 추출 장치(120)에서 수행될 수 있다. 텍스트 텍스트 피처 추출 장치(120)는 제4텍스트 데이터에 형태소 분석 후 주요 단어를 추출하고 그 단어에 대해TF-IDF 방식으로 벡터화를 한 후, 벡터에 주성분 분석을 적용하여 피처 3개를 추출할 수 있다. 이때, 텍스트 텍스트 피처 추출 장치(120)는 사용자 사전을 이용하지 않고, 명사 사전, 비명사 사전, 인명 사전, 지명 사전만을 이용하여 명사를 추출할 수 있다. 여기서 사용된 제4텍스트 데이터는, 네이버 뉴스 타이틀 96000개를 모아 생성한 데이터를 포함할 수 있다. 텍스트 텍스트 피처 추출 장치(120)는 사용자 사전까지 반영 후 총 5324개의 단어를 추출할 수 있다.
피처의 주요 단어 시각화 장치(150)는 표7과 같이 각 피처별 단어 개수 분포를 생성할 수 있다. 달리 말해, 표7은 제4텍스트 데이터에 각 피처별 단어 개수 분포를 중요도 구간에 기반하여 생성한 것일 수 있다. 제1피처(text_PCA_1)는 날씨(26%), 먼지(18%), 미세(17%), 미세먼지(17%), 내일(3%), 전국(3%), 더위(2%), 서울(1%)의 주요 단어를 포함할 수 있다. 또한, 제2피처(text_PCA_2)의 주요 단어는 회담(37%), 정상(18%), 트럼프(12%), 북미(12%), 남북(5%), 대통령(2%) 등의 주요 단어가 포함될 수 있다. 또한, 제3피처(text_PCA_3)는 날씨(19%), 미세(13%), 먼지(13%), 미세먼지(13%), 서울(6%), 한국(5%), 전국(4%), 폭염(4%), 내일(3%), 더위(3%), 한파(1%)의 주요 단어를 포함할 수 있다. text_PCA_1, text_PCA_3은 날씨와 관련된 단어가 중요도가 높고 text_PCA_2는 북미 정상회담, 남북정상회담과 관련된 단어가 중요도가 높았음을 알 수 있다. 또한, 피처의 주요 단어 시각화 장치(150)는 중요도가 0.01%, 0.05%, 0.1%, 0.5%, 1% 이상의 단어 모음을 각각 시각화하여 제공할 수 있으며, 도 4a 내지 도 4c와 같이 도시된 중요도의 기준값에 따라 어느 단어가 영향도가 높았는지 직관적으로 파악할 수 있다.
중요도 구간 text_PCA_1 text_PCA_2 text_PCA_3
0이상 0.001미만 4848 4699 4849
0.001이상 0.005미만 286 383 256
0.005이상 0.01미만 52 88 56
0.01이상 0.05미만 80 102 84
0.05이상 0.1미만 12 20 25
0.1이상 0.3미만 25 18 32
0.3이상 0.5미만 10 8 5
0.5이상 1미만 3 0 6
1이상 10미만 4 2 7
10이상 20미만 3 3 4
20이상 30미만 1 0 0
30이상 40미만 0 1 0
40이상 50미만 0 0 0
50이상 0 0 0
일예로, 도6a의 (a)는 제4텍스트 데이터에서 피처 영향도가 0.001%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 또한, 도6b의 (b)는 제4텍스트 데이터에서 피처 영향도가 0.005%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 도6b의(c)는 제4텍스트 데이터에서 피처 영향도가 0.01%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 또한, 도6b의(d)는 제4텍스트 데이터에서 피처 영향도가 0.05%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 또한, 도5c의 (e)는 제4텍스트 데이터에서 피처 영향도가 0.1%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 또한, 도5c의 (f)는 제4텍스트 데이터에서 피처 영향도가 0.5%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다.도 7a 내지 도 7c는 본원의 일 실시예에 따른 피처의 주요 단어 시각화 장치에 제5텍스트 데이터에서 추출된 피처에 사용된 단어 목록을 시각화한 도면이다. 본원의 일 실시예에 따르면, 제5텍스트 데이터는 판결문 데이터를 포함할 수 있다. 제5텍스트 데이터는 20000개의 판결문이 포함된 데이터일 수 있다. 피처의 주요 단어 시각화 장치(150)는 20000개의 판결문이 포함된 제5 텍스트 데이터에 대해 형태소 분석, 단어 추출, 단어의 벡터화를 거쳐 얻은 벡터화된 단어에 대해 주성분 분석을 실시하여 추출한 피처에 어느 단어가 피처에 영향력을 많이 미쳤는지 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화할 수 있다. 형태소 분석, 단어 추출, 단어의 벡터화를 거쳐 얻은 벡터화된 단어에 대해 주성분 분석을 실시는 텍스트 텍스트 피처 추출 장치(120)에서 수행될 수 있다. 텍스트 텍스트 피처 추출 장치(120)는 20000개의 판결문이 포함된 제5 텍스트 데이터에 형태소 분석 후 주요 단어를 추출하고 그 단어에 대해TF-IDF 방식으로 벡터화를 한 후, 벡터에 주성분 분석을 적용하여 피처 3개를 추출할 수 있다. 텍스트 텍스트 피처 추출 장치(120)는 사용자 사전을 한국법제연구원에서 제작한 '2015 한영법령 표준용어집‘을 이용하여 법률 용어를 모아 구성한 사전으로 선택하고 명사 추출 과정을 수행할 수 있다. 사용자 사전에 포함된 법령 용어는 9400개이고, 법령명은 1965개이고, 기관명 및 직군은 3809개이며, 이 중 법률 용어 9400개를 사용자 사전에 입력하여 피처 추출을 수행할 수 있다. 명사 추출 시 자체 명사 사전, 비명사 사전, 인명 사전, 지명 사전 전부를 사용하였다. 사용자 사전까지 반영한 후, 추출된 단어의 총 개수는 13185개이다. 또한, 피처의 주요 단어 시각화 장치(150)는 중요도가 0.01%, 0.05%, 0.1%, 0.5%, 1% 이상의 단어 모음을 각각 시각화하여 제공할 수 있으며, 도 7a 내지 도 7c와 같이 도시된 중요도의 기준값에 따라 어느 단어가 영향도가 높았는지 직관적으로 파악할 수 있다. 피처의 주요 단어 시각화 장치(150)는 표8과 같이 각 피처별 단어 개수 분포를 생성할 수 있다. 달리 말해, 표8은 제5텍스트 데이터에 각 피처별 단어 개수 분호를 중요도 구간에 기반하여 생성한 것일 수 있다. 제1피처(precedentText_PCA_1)는 결정(34%), 상고(33%), 경매(4%), 상고인(3%), 상고이유(2%), 부담(2%), 비용(2%), 사실(1%), 경락(1%)의 주요 단어들을 포함할 수 있다. 또한, 제2피처(precedentText_PCA_2)는 고의(11%), 소송(9%), 소인(8%), 부담(5%), 비용(5%), 사실(3%), 소송대리(3%), 소송대리인(3%), 대리인(3%), 대리(3%), 구금(3%), 구금일수(3%), 산입(3%), 검사(2%), 변론(2%), 변론종결(2%), 소비(2%), 감호(2%), 민사소송(2%), 범죄(2%), 공소(2%), 결의(1%), 상고인(1%), 소송비용(1%)의 주요 단어를 포함할 수 있다. 또한, 제3피처(precedentText_PCA_3)는 소인(15%), 상고(12%), 결정(9%), 상고인(4%), 변론종결(4%), 소비(4%), 결의(3%), 감호(3%), 변론(3%), 경매(2%), 기재(2%), 감호청구(2%), 본문(1%), 구금(1%), 구금일수(1%), 등기(1%), 산입(1%), 소유(1%), 소송비용(1%), 공소(1%), 고의(1%), 범죄(1%)의 주요 단어를 포함할 수 있다. 이를 통해 특정 판결과 관련된 단어는 많이 보이지 않고 자주 쓰이는 단어의 중요도가 전반적으로 높았음을 알 수 있다.
중요도 구간 precedentText_PCA_1 precedentText_PCA_2 precedentText_PCA_3
0이상 0.001미만 12350 12155 12486
0.001이상 0.005미만 392 521 362
0.005이상 0.01미만 120 157 90
0.01이상 0.05미만 201 219 138
0.05이상 0.1미만 53 39 30
0.1이상 0.3미만 27 51 39
0.3이상 0.5미만 15 16 13
0.5이상 1미만 12 12 9
1이상 10미만 13 12 17
10이상 20미만 1 3 0
20이상 30미만 1 0 0
30이상 40미만 0 0 0
40이상 50미만 0 0 1
50이상 0 0 0
일예로, 도7a의 (a)는 제5텍스트 데이터에서 피처 영향도가 0.001%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 또한, 도7b의 (b)는 제5텍스트 데이터에서 피처 영향도가 0.005%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 도7b의(c)는 제5텍스트 데이터에서 피처 영향도가 0.01%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 또한, 도7b의(d)는 제5텍스트 데이터에서 피처 영향도가 0.05%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 또한, 도5c의 (e)는 제5텍스트 데이터에서 피처 영향도가 0.1%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다. 또한, 도5c의 (f)는 제5텍스트 데이터에서 피처 영향도가 0.5%이상인 단어를 벤 다이어그램 모양의 워드 클라우드 방식으로 시각화한 것일 수 있다.도 9는 본원의 일 실시예에 따른 텍스트 데이터 장치의 피처 추출 과정을 설명하기 위해 개략적으로 나타낸 개요도이다.
예시적으로 도 9를 참조하면, 텍스트 피처 추출 장치(120)는 텍스트 데이터(110)를 입력받을 수 있다. 텍스트 피처 추출 장치(120)는 입력받은 텍스트 데이터(110)에서 명사를 추출할 수 있다. 또한, 텍스트 피처 추출 장치(120)는 추출된 명사에서 2글자 이상의 한글 명사 후보를 생성할 수 있다. 텍스트 피처 추출 장치(120)는 생성된 한글 명사 후보에서 사전에 있는 명사 즉, 자체 사전에 포함된 명사를 추출할 수 있다. 또한, 텍스트 피처 추출 장치(120)는 명사 후보에서 사전에 없는 명사 즉, 자체 사전에 포함되지 않는 명사를 필터링할 수 있다. 이때, 필터링은, 비명사 사전, 인명 사전, 지명 사전을 이용하여 수행될 수 있으며, 텍스트 피처 추출 장치(120)는 명사 후보에 비명사 사전, 인명 사전, 지명 사전에 포함된 명사를 제거하는 필터링을 수행할 수 있다. 텍스트 피처 추출 장치(120)는 사용자 사전에 포함된 명사 및 자체 명사 사전, 필터링 거친 명사 후보를 기반으로 주요 명사 목록을 생성할 수 있다. 이때, 텍스트 피처 추출 장치(120)는 사용자 사전에 포함된 명사(단어)가 최우선 순위에 놓이도록 주요 명사 목록을 생성할 수 있다. 또한, 텍스트 피처 추출 장치(120)는 사용자 사전에 포함된 명사(단어) 이후에 명사 사전에 포함된 명사(단어)가 놓이도록 주요 명사 목록을 생성할 수 있다. 텍스트 피처 추출 장치(120)는 텍스트 분석 알고리즘(예를 들어, TF-IDF)에 주요 명사 목록을 적용하여 벡터화할 수 있다. 텍스트 피처 추출 장치(120)는 벡터화된 명사로부터 미리 설정된 개수(예를 들어, 3개)의 피처를 추출할 수 있다.
이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.
도 10은 본원의 일 실시예에 따른 피처의 주요 단어 시각화 방법에 대한 동작 흐름도이다.
도 10에 도시된 피처의 주요 단어 시각화 방법은 앞서 설명된 피처의 주요 단어 시각화 장치(150)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 피처의 주요 단어 시각화 장치(150)에 대하여 설명된 내용은 피처의 주요 단어 시각화 방법에 대한 설명에도 동일하게 적용될 수 있다.
단계 S101에서, 피처의 주요 단어 시각화 장치(150)는 텍스트 데이터에서 주성분 분석을 이용하여 추출한 복수의 피처의 목표 변수에 대한 중요도 값을 입력받을 수 있다.
단계 S102에서, 피처의 주요 단어 시각화 장치(150)는 사용자 입력 정보에 기반하여 상기 중요도 값에 연관된 기준 값을 설정할 수 있다.
단계 S103에서, 피처의 주요 단어 시각화 장치(150)는 복수의 피처에 대하여 각 단어 벡터별로 각 피처에 미친 영향도를 추출할 수 있다.
단계 S104에서, 피처의 주요 단어 시각화 장치(150)는 복수의 피처에 대하여 각 단어 벡터별로 각 피처에 미친 영향도를 추출한 값에 대하여 중요도를 백분율로 환산할 수 있다.
단계 S105에서, 피처의 주요 단어 시각화 장치(150)는 각 단어별 중요도와 추출된 피처에 대한 정보를 벤 다이어그램 그래프 형태로 시각화할 수 있다.
또한, 도면에 도시하진 않았으나, 단계 S101 이전에 피처의 주요 단어 시각화 장치(150)는 텍스트 피처 추출 장치(120)에 의하여 추출된 복수의 피처 정보를 제공받을 수 있다.
본원의 일 실시예에 따르면, 텍스트 피처 추출 장치(120)는 텍스트 데이터(110)를 입력받을 수 있다. 일예로, 텍스트 피처 추출 장치(120)는 외부서버(미도시)로부터 텍스트 데이터(110)를 입력받을 수 있다. 또한, 텍스트 피처 추출 장치(120)는 사용자 단말(미도시)로부터 텍스트 데이터(110)를 입력받을 수 있다. 또한, 텍스트 피처 추출 장치(120)는 텍스트 데이터(110)에서 형태소를 분석할 수 있다. 텍스트 피처 추출 장치(120)는 문장으로 구성된 텍스트 데이터(110)를 형태소 분석 알고리즘에 적용하여 형태소 분석을 수행할 수 있다. 형태소 분석(morphological analysis)은 자연언어 분석의 첫 단계로서, 입력 문자열을 형태소 열로 바꾸는 작업을 의미한다. 형태소(morpheme)는 의미의 최소단위로써, 더 이상 분석 불가능한 가장 작은 의미 요소를 말한다. 또한, 형태소는 문법적 혹은 관계적인 뜻을 나타내는 단어 또는 단어의 부분을 말한다. 한국어 형태소 분석에는, 전처리, 문법 형태소 분리, 체언 분석, 용언 분석, 단일 형태소 분석, 복합어 추정, 조사 생략, 준말 처리, 후처리 과정을 거칠 수 있다. 이때, 문법 형태소 사전, 어휘 형태소 사전, 전문 용어 사전, 사용자 정의 사전, 기분석 사전 등에 기반하여 텍스트 데이터에서 형태소 분석을 수행할 수 있다. 일예로, 텍스트 피처 추출 장치(120)는 konlpy를 이용하여 형태소 분석을 수행할 수 있다. 또한, 텍스트 피처 추출 장치(120)는 형태소가 분석된 텍스트 데이터에서 주요 단어를 추출할 수 있다. 또한, 텍스트 피처 추출 장치(120)는 추출된 주요 단어를 텍스트 분석 알고리즘에 적용하여 벡터화할 수 있다. 또한, 텍스트 피처 추출 장치(120)는 주성분 분석에 벡터화된 주요 단어를 적용하여 피처를 추출할 수 있다. 또한, 텍스트 피처 추출 장치(120)는 추출된 피처를 피처의 주요 단어 시각화 장치(150)로 제공할 수 있다.
상술한 설명에서, 단계 S101 내지 S105는 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
본원의 일 실시 예에 따른 피처의 주요 단어 시각화 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
또한, 전술한 피처의 주요 단어 시각화 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.
110: 텍스트 데이터
120: 텍스트 피처 추출 장치
130: 단어 추출 프로세서
140: 피처 추출 실행부
150: 피처의 주요 단어 시각화 장치
160: 시각화 실행부

Claims (6)

  1. 피처의 주요 단어 시각화 장치에 있어서,
    텍스트 데이터에서 주성분 분석을 이용하여 추출한 복수의 피처의 목표 변수에 대한 중요도 값을 입력하는 피처 정보 입력부;
    사용자 입력 정보에 기반하여 상기 중요도 값에 연관된 기준 값을 설정하는 기준 중요도 입력부;
    상기 복수의 피처에 대하여 각 단어 벡터별로 각 피처에 미친 영향도를 추출하는 단어별 중요도 추출부;
    상기 단어별 중요도 추출부에서 추출한 값에 대하여 중요도를 백분율로 환산하는 단어별 중요도 계산부; 및
    각 단어별 중요도와 추출된 피처에 대한 정보를 벤 다이어그램 그래프 형태로 시각화하는 시각화 실행부,
    를 포함하되,
    상기 피처 정보 입력부는,
    상기 목표 변수가 설정된 경우, 추출된 상기 피처와 상기 목표 변수와의 영향도를 계산하고, 상기 목표 변수에 대한 중요도 값을 입력하는 것인, 피처의 주요 단어 시각화 장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 시각화 실행부는,
    각 단어별 중요도와 추출된 피처의 빈도수에 따라 출력 위치, 출력 크기 및 출력 색을 결정하여 클라우드 형태로 시각화하는 것인, 피처의 주요 단어 시각화 장치.
  4. 제1항에 있어서,
    복수의 사전을 이용하여 입력받은 텍스트 데이터에서 주요 단어를 추출하는 단어 추출 프로세서; 및
    추출된 상기 주요 단어를 텍스트 분석 알고리즘에 적용하여 벡터화한 후 주성분 분석을 이용하여 상기 텍스트 데이터의 피처를 추출하는 피처 추출 실행부,
    를 더 포함하는 피처의 주요 단어 시각화 장치.
  5. 제4항에 있어서,
    상기 피처 정보 입력부는,
    상기 텍스트 데이터의 변수명과 상기 목표 변수가 있는 경우, 상기 피처 추출 실행부에서 추출된 피처에 기반하여 상기 목표 변수에 대한 변수 중요도 값을 입력하는 것인, 피처의 주요 단어 시각화 장치.
  6. 컴퓨터로 구현되는 피처의 주요 단어 시각화 장치에 의해 각 단계가 수행되는 피처의 주요 단어 시각화 방법에 있어서,
    텍스트 데이터에서 주성분 분석을 이용하여 추출한 복수의 피처의 목표 변수에 대한 중요도 값을 입력받는 단계;
    사용자 입력 정보에 기반하여 상기 중요도 값에 연관된 기준 값을 설정하는 단계;
    상기 복수의 피처에 대하여 각 단어 벡터별로 각 피처에 미친 영향도를 추출하는 단계;
    상기 복수의 피처에 대하여 각 단어 벡터별로 각 피처에 미친 영향도를 추출한 값에 대하여 중요도를 백분율로 환산하는 단계; 및
    각 단어별 중요도와 추출된 피처에 대한 정보를 벤 다이어그램 그래프 형태로 시각화하는 단계,
    를 포함하되,
    상기 중요도 값을 입력받는 단계는,
    상기 목표 변수가 설정된 경우, 추출된 상기 피처와 상기 목표 변수와의 영향도를 계산하고, 상기 목표 변수에 대한 중요도 값을 입력하는 것인, 피처의 주요 단어 시각화 방법.

KR1020200038520A 2020-03-30 2020-03-30 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법 KR102128852B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200038520A KR102128852B1 (ko) 2020-03-30 2020-03-30 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200038520A KR102128852B1 (ko) 2020-03-30 2020-03-30 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102128852B1 true KR102128852B1 (ko) 2020-07-01

Family

ID=71601872

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200038520A KR102128852B1 (ko) 2020-03-30 2020-03-30 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102128852B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101018A (zh) * 2020-08-05 2020-12-18 中国工业互联网研究院 一种基于词频矩阵特征向量计算文本中新词的方法及***
CN112381143A (zh) * 2020-11-13 2021-02-19 长城计算机软件与***有限公司 基于机器学习的变量自动分类方法及***
KR102573799B1 (ko) * 2022-08-08 2023-09-01 엔에프엔 유한회사 머신 러닝을 이용한 경영 성과 예측 방법 및 이를 이용한 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100090178A (ko) * 2009-02-05 2010-08-13 한국과학기술연구원 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
KR101864286B1 (ko) * 2017-11-10 2018-07-04 주식회사 한컴엠디에스 머신 러닝 알고리즘을 이용하는 방법 및 장치
KR101966558B1 (ko) * 2017-12-08 2019-04-05 세종대학교산학협력단 장비 재고상태 및 수리부속 조달 요구를 시각화하는 시스템 및 방법
KR20190050230A (ko) * 2017-11-02 2019-05-10 디어젠 주식회사 피쳐 영향 판단 방법 및 그 시스템
KR102037796B1 (ko) * 2019-03-28 2019-11-26 (주)위세아이텍 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치 및 방법
KR102069084B1 (ko) * 2019-03-28 2020-02-11 (주)위세아이텍 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100090178A (ko) * 2009-02-05 2010-08-13 한국과학기술연구원 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
KR20190050230A (ko) * 2017-11-02 2019-05-10 디어젠 주식회사 피쳐 영향 판단 방법 및 그 시스템
KR101864286B1 (ko) * 2017-11-10 2018-07-04 주식회사 한컴엠디에스 머신 러닝 알고리즘을 이용하는 방법 및 장치
KR101966558B1 (ko) * 2017-12-08 2019-04-05 세종대학교산학협력단 장비 재고상태 및 수리부속 조달 요구를 시각화하는 시스템 및 방법
KR102037796B1 (ko) * 2019-03-28 2019-11-26 (주)위세아이텍 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치 및 방법
KR102069084B1 (ko) * 2019-03-28 2020-02-11 (주)위세아이텍 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
F. Boudin et al., How Document Pre-processing affects Keyphrase Extraction Performance, arXiv:1610.07809, 2016, https://arxiv.org (2016.10.25.) 1부. *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101018A (zh) * 2020-08-05 2020-12-18 中国工业互联网研究院 一种基于词频矩阵特征向量计算文本中新词的方法及***
CN112101018B (zh) * 2020-08-05 2024-03-12 北京工联科技有限公司 一种基于词频矩阵特征向量计算文本中新词的方法及***
CN112381143A (zh) * 2020-11-13 2021-02-19 长城计算机软件与***有限公司 基于机器学习的变量自动分类方法及***
CN112381143B (zh) * 2020-11-13 2023-12-05 新长城科技有限公司 基于机器学习的变量自动分类方法及***
KR102573799B1 (ko) * 2022-08-08 2023-09-01 엔에프엔 유한회사 머신 러닝을 이용한 경영 성과 예측 방법 및 이를 이용한 장치

Similar Documents

Publication Publication Date Title
KR102128852B1 (ko) 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법
Mostafa More than words: Social networks’ text mining for consumer brand sentiments
Forehand Mission and organizational performance in the healthcare industry
Antonio et al. Hotel online reviews: creating a multi-source aggregated index
CN107807962B (zh) 一种使用lda主题模型对法律判决文书进行相似度匹配的方法
CN110442872B (zh) 一种文本要素完整性审核方法及装置
Liu et al. What affects the online ratings of restaurant consumers: a research perspective on text-mining big data analysis
CN110795568A (zh) 基于用户信息知识图谱的风险评估方法、装置和电子设备
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN110569350B (zh) 法条推荐方法、设备和存储介质
Sun et al. Listen to the voices from tourists: evaluation of wetland ecotourism satisfaction using an online reviews mining approach
Katenko et al. The concept of monitoring the reliability of information in the professional social network using a convolutional neural network
Lei et al. Examining research topics with a dependency-based noun phrase extraction method: a case in accounting
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
Liu “Contesting the cynicism of neoliberalism” A corpus-assisted discourse study of press representations of the Sino-US currency dispute
KR101326313B1 (ko) 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
CN114303140A (zh) 与产品和服务相关的知识产权数据分析
Ren et al. New methods and the study of vulnerable groups: using machine learning to identify immigrant-oriented nonprofit organizations
Kocich Multilingual sentiment mapping using Twitter, Open Source tools, and dictionary based machine translation approach
Wright et al. The Whiteboard: Decoupling of ethnic and gender diversity reporting and practice in corporate Australia
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN117197569A (zh) 图像审核方法、图像审核模型训练方法、装置和设备
KR102140976B1 (ko) 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법
Kreiner et al. Crisis management knowledge from social media
CN115080741A (zh) 一种问卷调查分析方法、装置、存储介质及设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant