KR102175658B1 - 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치 - Google Patents

텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치 Download PDF

Info

Publication number
KR102175658B1
KR102175658B1 KR1020190023397A KR20190023397A KR102175658B1 KR 102175658 B1 KR102175658 B1 KR 102175658B1 KR 1020190023397 A KR1020190023397 A KR 1020190023397A KR 20190023397 A KR20190023397 A KR 20190023397A KR 102175658 B1 KR102175658 B1 KR 102175658B1
Authority
KR
South Korea
Prior art keywords
cluster
screen
word
analysis
displaying
Prior art date
Application number
KR1020190023397A
Other languages
English (en)
Other versions
KR20190110435A (ko
Inventor
징롱 저우
Original Assignee
가부시키가이샤 스크린 홀딩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시키가이샤 스크린 홀딩스 filed Critical 가부시키가이샤 스크린 홀딩스
Publication of KR20190110435A publication Critical patent/KR20190110435A/ko
Application granted granted Critical
Publication of KR102175658B1 publication Critical patent/KR102175658B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3349Reuse of stored results of previous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)

Abstract

텍스트 마이닝 방법은, 날짜를 갖는 문으로 이루어지는 텍스트 데이터로부터 단어를 추출하는 스텝과, 추출한 단어에 대해 분석 기간별로 계층적 클러스터 분석을 실시하는 스텝과, 계층적 클러스터 분석의 결과를 포함하는 화면을 표시하는 스텝을 구비한다. 분석 결과를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때에, 주목어를 포함하는 클러스터에 포함되는 단어에 기초하는 클러스터명을 시간축을 따라 나타냄으로써, 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 나타내는 제 2 화면을 표시한다. 이로써, 계층적 클러스터 분석 결과의 시간 경과에 따른 변화를 용이하게 인식할 수 있도록 한다.

Description

텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치{TEXT MINING METHOD, TEXT MINING PROGRAM AND TEXT MINING APPARATUS}
본 발명은 텍스트 마이닝에 관한 것으로, 특히, 계층적 클러스터 분석의 결과를 포함하는 화면을 표시하는 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치에 관한 것이다.
최근, 자유 기술된 텍스트 데이터를 해석하고, 해석 결과로부터 유용한 정보를 구하는 텍스트 마이닝이 주목받고 있다. 텍스트 마이닝에서는, 예를 들어, 분석 대상인 텍스트 데이터로부터 단어를 추출하고, 단어의 출현 빈도나 출현 경향 등을 해석함으로써, 정보를 구한다.
이하, 텍스트 데이터로부터 추출한 단어에 대해 계층적 클러스터 분석을 실시하고, 그 결과를 포함하는 화면을 표시하는 텍스트 마이닝 장치에 대해서 생각해 본다. 계층적 클러스터 분석에서는, 단어 간의 유사도에 기초하여, 유사도가 높은 단어를 포함하는 클러스터가 계층적으로 작성된다. 일반적으로, 계층적 클러스터 분석의 결과는, 도 10 에 나타내는 수형도 (덴드로그램) 를 이용하여 분석자에게 제공된다. 분석자는, 계층적 클러스터 분석의 결과에 기초하여, 텍스트 데이터의 개요를 파악할 수 있다.
일본 공개특허공보 2018-18118호에는, 계층적 클러스터 분석의 결과를 도 11 에 나타내는 양태로 표시하는 텍스트 마이닝 장치가 기재되어 있다. 이 문헌에 기재된 텍스트 마이닝 장치는, 클러스터수 m 과 클러스터 내의 최대 표시 데이터수 n 이 주어졌을 때에, 계층적 클러스터 분석의 결과로부터 m 개의 클러스터를 구하고, 구한 m 개의 클러스터를 구름형 도형으로 화면에 표시하고, 각 클러스터의 내부에 n 개 이하의 단어를 표시한다.
텍스트 데이터 중에는, 보수 작업 기록이나 콜 센터의 전화 응대 기록 등과 같이, 날짜를 갖는 문 (文) 으로 이루어지고, 장기간에 걸쳐 누적적으로 축적되는 것이 있다. 이와 같은 텍스트 데이터에 대해 계층적 클러스터 분석을 실시할 때에는, 텍스트 데이터를 예를 들어 월별로 나누고, 각 월의 텍스트 데이터에 대해 계층적 클러스터 분석을 실시한다. 이로써, 계층적 클러스터 분석의 결과를 월별로 구할 수 있다.
이 경우, 분석자는, 텍스트 데이터 중에서 주목해야 할 단어 (이하, 주목어라고 한다) 를 선택하고, 각 월에서 주목어를 포함하는 클러스터, 주목어를 포함하는 클러스터가 변화하는 시기, 주목어의 출현 빈도의 시간 경과에 따른 변화 등을 알고 싶다고 생각한다. 그러나, 종래의 텍스트 마이닝 장치에서는, 이용자는 계층적 클러스터 분석 결과의 시간 경과에 따른 변화를 용이하게 인식할 수 없다.
그 때문에, 본 발명은, 이용자가 계층적 클러스터 분석 결과의 시간 경과에 따른 변화를 용이하게 인식할 수 있는 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치를 제공하는 것을 목적으로 한다.
본 발명의 제 1 국면은, 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하는 텍스트 마이닝 방법으로서,
날짜를 갖는 문으로 이루어지는 텍스트 데이터로부터 단어를 추출하는 스텝과,
상기 단어에 대해 분석 기간별로 계층적 클러스터 분석을 실시하는 스텝과,
상기 계층적 클러스터 분석의 결과를 포함하는 화면을 표시하는 스텝을 구비하고,
상기 결과를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때에, 상기 화면을 표시하는 스텝은, 상기 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 나타내는 제 2 화면을 표시하는 것을 특징으로 한다.
본 발명의 제 2 국면은, 본 발명의 제 1 국면에 있어서,
상기 제 2 화면은, 상기 클러스터에 포함되는 단어에 기초하는 클러스터명을 시간축을 따라 나타내는 것을 특징으로 한다.
본 발명의 제 3 국면은, 본 발명의 제 2 국면에 있어서,
상기 클러스터명은, 상기 클러스터에 포함되는 단어를 출현 빈도가 높은 순으로 소정의 개수 이하만큼 연결한 것인 것을 특징으로 한다.
본 발명의 제 4 국면은, 본 발명의 제 2 국면에 있어서,
상기 제 2 화면은, 상기 클러스터명이 변화하는 시기에 대응하는 위치에, 상기 클러스터명의 변화의 정도에 따른 양태를 갖는 마크를 추가로 포함하는 것을 특징으로 한다.
본 발명의 제 5 국면은, 본 발명의 제 4 국면에 있어서,
상기 마크는, 상기 클러스터명의 변화의 정도에 따른 색을 갖는 화살표인 것을 특징으로 한다.
본 발명의 제 6 국면은, 본 발명의 제 2 국면에 있어서,
상기 클러스터명을 구성하는 단어 중 앞의 클러스터명으로부터 변화한 단어는, 상기 제 2 화면 내에서 강조 표시되는 것을 특징으로 한다.
본 발명의 제 7 국면은, 본 발명의 제 2 국면에 있어서,
상기 제 2 화면은, 상기 시간축을 따라 상기 주목어의 출현 빈도의 시간 경과에 따른 변화를 나타내는 그래프를 추가로 포함하는 것을 특징으로 한다.
본 발명의 제 8 국면은, 본 발명의 제 7 국면에 있어서,
상기 제 2 화면은, 상기 클러스터명이 변화하는 시기에 대응하는 위치에 경계선을 추가로 포함하고, 상기 그래프의 배경은, 상기 경계선마다 상이한 양태를 갖는 것을 특징으로 한다.
본 발명의 제 9 국면은, 본 발명의 제 2 국면에 있어서,
상기 클러스터명이 크게 변화하는 것이 많은 경우에는, 상기 화면을 표시하는 스텝은, 경고 메세지를 포함하는 화면을 표시하는 것을 특징으로 한다.
본 발명의 제 10 국면은, 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하기 위한 텍스트 마이닝 프로그램으로서,
날짜를 갖는 문으로 이루어지는 텍스트 데이터로부터 단어를 추출하는 스텝과,
상기 단어에 대해 분석 기간별로 계층적 클러스터 분석을 실시하는 스텝과,
상기 계층적 클러스터 분석의 결과를 포함하는 화면을 표시하는 스텝을 컴퓨터에 CPU 가 메모리를 이용하여 실행시키고,
상기 결과를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때에, 상기 화면을 표시하는 스텝은, 상기 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 나타내는 제 2 화면을 표시하는 것을 특징으로 한다.
본 발명의 제 11 국면은, 본 발명의 제 10 국면에 있어서,
상기 제 2 화면은, 상기 클러스터에 포함되는 단어에 기초하는 클러스터명을 시간축을 따라 나타내는 것을 특징으로 한다.
본 발명의 제 12 국면은, 본 발명의 제 11 국면에 있어서,
상기 클러스터명은, 상기 클러스터에 포함되는 단어를 출현 빈도가 높은 순으로 소정의 개수 이하만큼 연결한 것인 것을 특징으로 한다.
본 발명의 제 13 국면은, 본 발명의 제 11 국면에 있어서,
상기 제 2 화면은, 상기 클러스터명이 변화하는 시기에 대응하는 위치에, 상기 클러스터명의 변화의 정도에 따른 양태를 갖는 마크를 추가로 포함하는 것을 특징으로 한다.
본 발명의 제 14 국면은, 본 발명의 제 13 국면에 있어서,
상기 마크는, 상기 클러스터명의 변화의 정도에 따른 색을 갖는 화살표인 것을 특징으로 한다.
본 발명의 제 15 국면은, 본 발명의 제 11 국면에 있어서,
상기 클러스터명을 구성하는 단어 중 앞의 클러스터명으로부터 변화한 단어는, 상기 제 2 화면 내에서 강조 표시되는 것을 특징으로 한다.
본 발명의 제 16 국면은, 본 발명의 제 11 국면에 있어서,
상기 제 2 화면은, 상기 시간축을 따라 상기 주목어의 출현 빈도의 시간 경과에 따른 변화를 나타내는 그래프를 추가로 포함하는 것을 특징으로 한다.
본 발명의 제 17 국면은, 본 발명의 제 16 국면에 있어서,
상기 제 2 화면은, 상기 클러스터명이 변화하는 시기에 대응하는 위치에 경계선을 추가로 포함하고, 상기 그래프의 배경은, 상기 경계선마다 상이한 양태를 갖는 것을 특징으로 한다.
본 발명의 제 18 국면은, 본 발명의 제 11 국면에 있어서,
상기 클러스터명이 크게 변화하는 것이 많은 경우에는, 상기 화면을 표시하는 스텝은, 경고 메세지를 포함하는 화면을 표시하는 것을 특징으로 한다.
본 발명의 제 19 국면은, 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하는 텍스트 마이닝 장치로서,
날짜를 갖는 문으로 이루어지는 텍스트 데이터로부터 단어를 추출하는 단어 추출부와,
상기 단어에 대해 분석 기간별로 계층적 클러스터 분석을 실시하는 클러스터링 처리부와,
상기 계층적 클러스터 분석의 결과를 포함하는 화면을 표시하는 화면 표시부를 구비하고,
상기 결과를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때에, 상기 화면 표시부는, 상기 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 나타내는 제 2 화면을 표시하는 것을 특징으로 한다.
본 발명의 제 20 국면은, 본 발명의 제 19 국면에 있어서,
상기 제 2 화면은, 상기 클러스터에 포함되는 단어에 기초하는 클러스터명을 시간축을 따라 나타내는 것을 특징으로 한다.
상기 제 1, 제 10 또는 제 19 국면에 의하면, 계층적 클러스터 분석의 결과를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때에, 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 나타내는 제 2 화면을 표시함으로써, 이용자는 계층적 클러스터 분석 결과의 시간 경과에 따른 변화를 용이하게 인식할 수 있다.
상기 제 2, 제 11 또는 제 20 국면에 의하면, 주목어를 포함하는 클러스터에 포함되는 단어에 기초하는 클러스터명을 시간축을 따라 나타냄으로써, 이용자는 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 용이하게 인식할 수 있다.
상기 제 3 또는 제 12 국면에 의하면, 주목어를 포함하는 클러스터 내에서 출현 빈도가 높은 단어를 연결한 클러스터명을 시간축을 따라 나타냄으로써, 이용자는 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 용이하게 인식할 수 있다.
상기 제 4, 제 5, 제 13 또는 제 14 국면에 의하면, 주목어를 포함하는 클러스터 이름의 변화의 정도에 따른 양태를 갖는 마크 (변화의 정도에 따른 색을 갖는 화살표) 를 포함하는 제 2 화면을 표시함으로써, 이용자는 주목어를 포함하는 클러스터의 변화의 정도를 용이하게 인식할 수 있다.
상기 제 6 또는 제 15 국면에 의하면, 주목어를 포함하는 클러스터의 이름을 구성하는 단어 중 변화된 단어를 강조 표시함으로써, 이용자는 주목어를 포함하는 클러스터에 있어서 출현 빈도가 높은 단어가 어떻게 변화했는지를 용이하게 인식할 수 있다.
상기 제 7 또는 제 16 국면에 의하면, 주목어를 포함하는 클러스터의 시간 경과에 따른 변화에 추가하여, 주목어의 출현 빈도의 시간 경과에 따른 변화를 나타내는 그래프를 포함하는 화면을 표시함으로써, 이용자는 계층적 클러스터 분석 결과의 시간 경과에 따른 변화를 용이하게 인식할 수 있다.
상기 제 8 또는 제 17 국면에 의하면, 주목어를 포함하는 클러스터의 이름이 변화하는 시기에 대응하는 위치에 경계선을 표시하고, 그래프의 배경의 양태를 경계선마다 바꿈으로써, 이용자는 주목어를 포함하는 클러스터가 변화하는 시기를 용이하게 인식할 수 있다.
상기 제 9 또는 제 18 국면에 의하면, 주목어를 포함하는 클러스터의 이름이 크게 변화하는 것이 많은 경우에 경고 메세지를 포함하는 화면을 표시함으로써, 이용자는 계층적 클러스터 분석이 잘 되고 있지 않음을 인식할 수 있다.
도 1 은 본 발명의 실시형태에 관련된 텍스트 마이닝 장치의 구성을 나타내는 블록도이다.
도 2 는 도 1 에 나타내는 텍스트 마이닝 장치로서 동작하는 컴퓨터의 구성을 나타내는 블록도이다.
도 3 은 도 1 에 나타내는 텍스트 마이닝 장치의 동작을 나타내는 플로 차트이다.
도 4 는 도 1 에 나타내는 텍스트 마이닝 장치가 표시하는 계층적 클러스터 분석의 결과를 나타내는 창의 예를 나타내는 도면이다.
도 5 는 도 4 에 나타내는 창 내에서 주목어를 지정하는 조작을 나타내는 도면이다.
도 6 은 도 1 에 나타내는 텍스트 마이닝 장치가 표시하는 분석 결과의 시간 경과에 따른 변화를 나타내는 창의 예를 나타내는 도면이다.
도 7 은 도 1 에 나타내는 텍스트 마이닝 장치의 표시 화면의 예를 나타내는 도면이다.
도 8a 는 계층적 클러스터 분석 결과의 시간 경과에 따른 변화의 예를 나타내는 도면이다.
도 8b 는 도 8a 에 이어지는 도면이다.
도 8c 는 도 8b 에 이어지는 도면이다.
도 8d 는 도 8c 에 이어지는 도면이다.
도 9 는 도 1 에 나타내는 텍스트 마이닝 장치가 표시하는 창을 나타내는 도면이다.
도 10 은 수형도의 예를 나타내는 도면이다.
도 11 은 종래의 텍스트 마이닝 장치에 있어서의 계층적 클러스터 분석 결과의 표시 양태를 나타내는 도면이다.
이하, 도면을 참조하여, 본 발명의 실시형태에 관련된 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치에 대하여 설명한다. 본 실시형태에 관련된 텍스트 마이닝 방법은, 전형적으로는 컴퓨터를 사용하여 실행된다. 본 실시형태에 관련된 텍스트 마이닝 프로그램은, 컴퓨터를 사용하여 텍스트 마이닝 방법을 실시하기 위한 프로그램이다. 본 실시형태에 관련된 텍스트 마이닝 장치는, 전형적으로는 컴퓨터를 사용하여 구성된다. 텍스트 마이닝 프로그램을 실행하는 컴퓨터는, 텍스트 마이닝 장치로서 기능한다.
도 1 은, 본 발명의 실시형태에 관련된 텍스트 마이닝 장치의 구성을 나타내는 블록도이다. 도 1 에 나타내는 텍스트 마이닝 장치 (10) 는, 지시 입력부 (11), 텍스트 데이터 기억부 (12), 단어 추출부 (13), 클러스터링 처리부 (14), 분석 결과 기억부 (15), 및 화면 표시부 (16) 를 구비하고 있다. 텍스트 마이닝 장치 (10) 는, 텍스트 데이터 기억부 (12) 에 기억된 텍스트 데이터에 대해 계층적 클러스터 분석을 실시하고, 분석 결과를 포함하는 화면을 표시한다.
텍스트 마이닝 장치 (10) 의 동작의 개요는, 이하와 같다. 지시 입력부 (11) 에는, 이용자 (텍스트 데이터의 분석자) 로부터의 지시가 입력된다. 텍스트 데이터 기억부 (12) 는, 자유 기술된 1 이상의 텍스트 데이터를 기억하고 있다. 단어 추출부 (13) 는, 텍스트 데이터 기억부 (12) 에 기억된 텍스트 데이터에 대해 형태소 해석을 실시함으로써, 텍스트 데이터로부터 단어를 추출한다. 클러스터링 처리부 (14) 는, 단어 추출부 (13) 에서 추출된 단어에 대해 계층적 클러스터 분석을 실시한다. 분석 결과 기억부 (15) 는, 클러스터링 처리부 (14) 에 의한 분석 결과를 기억한다. 화면 표시부 (16) 는, 분석 결과 기억부 (15) 에 기억된 분석 결과에 기초하여 화면 데이터를 표시한다.
텍스트 데이터 기억부 (12) 는, 날짜를 갖는 문으로 이루어지고, 장기간 (예를 들어, 수년간) 에 걸쳐 누적적으로 축적된 텍스트 데이터를 기억하고 있다. 이용자는, 지시 입력부 (11) 를 사용하여, 분석 대상인 텍스트 데이터와 분석 기간과 분석 간격을 지정하는 지시, 주목어를 지정하는 지시 등을 입력한다. 단어 추출부 (13), 클러스터링 처리부 (14), 및 화면 표시부 (16) 는, 이용자로부터의 지시에 따라, 텍스트 데이터에 대해 계층적 클러스터 분석을 실시한 결과를 포함하는 화면을 표시하기 위한 동작을 실시한다. 또, 화면 표시부 (16) 는, 이용자로부터의 지시에 따라, 계층적 클러스터 분석 결과의 시간 경과에 따른 변화를 포함하는 화면을 표시한다.
도 2 는, 텍스트 마이닝 장치 (10) 로서 기능하는 컴퓨터의 구성을 나타내는 블록도이다. 도 2 에 나타내는 컴퓨터 (20) 는, CPU (21), 메인 메모리 (22), 기억부 (23), 입력부 (24), 표시부 (25), 통신부 (26), 및 기록 매체 판독부 (27) 를 구비하고 있다. 메인 메모리 (22) 에는, 예를 들어, DRAM 이 사용된다. 기억부 (23) 에는, 예를 들어, 하드 디스크나 솔리드 스테이트 드라이브가 사용된다. 입력부 (24) 에는, 예를 들어, 키보드 (28) 나 마우스 (29) 가 포함된다. 표시부 (25) 에는, 예를 들어, 액정 디스플레이가 사용된다. 통신부 (26) 는, 유선 통신 또는 무선 통신의 인터페이스 회로이다. 기록 매체 판독부 (27) 는, 프로그램 등을 기억한 기록 매체 (30) 의 인터페이스 회로이다. 기록 매체 (30) 에는, 예를 들어, CD-ROM, DVD-ROM, USB 메모리 등의 비일과성의 기록 매체가 사용된다.
컴퓨터 (20) 가 텍스트 마이닝 프로그램 (31) 을 실행하는 경우, 기억부 (23) 는, 텍스트 마이닝 프로그램 (31) 과 텍스트 데이터 (32) 를 기억한다. 텍스트 마이닝 프로그램 (31) 과 텍스트 데이터 (32) 는, 예를 들어, 서버나 다른 컴퓨터로부터 통신부 (26) 를 사용해서 수신한 것이어도 되고, 기록 매체 (30) 로부터 기록 매체 판독부 (27) 를 사용해서 판독 출력한 것이어도 된다.
텍스트 마이닝 프로그램 (31) 을 실행할 때에는, 텍스트 마이닝 프로그램 (31) 과 텍스트 데이터 (32) 는 메인 메모리 (22) 에 복사 전송된다. CPU (21) 는, 메인 메모리 (22) 를 작업용 메모리로서 이용하여, 메인 메모리 (22) 에 기억된 텍스트 마이닝 프로그램 (31) 을 실행함으로써, 텍스트 데이터 (32) 로부터 단어를 추출하는 처리, 추출한 단어에 대해 계층적 클러스터 분석을 실시하는 처리, 분석 결과를 포함하는 화면을 표시하는 처리 등을 실시한다. 이 때 컴퓨터 (20) 는, 텍스트 마이닝 장치 (10) 로서 기능한다. 또한, 이상으로 서술한 컴퓨터 (20) 의 구성은 일례에 불과하며, 임의의 컴퓨터를 사용하여 텍스트 마이닝 장치 (10) 를 구성할 수 있다.
도 3 은, 텍스트 마이닝 장치 (10) 의 동작을 나타내는 플로 차트이다. 도 3 에 나타내는 동작을 실시하기 전에, 텍스트 데이터 기억부 (12) 는, 자유 기술되고, 누적적으로 축적된 1 이상의 텍스트 데이터를 기억하고 있다. 텍스트 데이터는 날짜 (예를 들어, 작업일이나 접수일 등) 를 갖는 문으로 이루어지고, 텍스트 데이터는 날짜에 의해 복수의 부분으로 분할된다. 텍스트 마이닝 장치 (10) 는, 텍스트 데이터 기억부 (12) 에 기억된 텍스트 데이터 중에서 이용자가 지정한 텍스트 데이터에 대해 처리를 실시한다.
도 3 에 있어서, 지시 입력부 (11) 는, 먼저 이용자로부터 분석 대상인 텍스트 데이터, 분석 기간, 및 분석 간격을 지정하는 지시를 수취한다 (스텝 S101). 이용자는, 입력부 (24) 를 사용하여, 화면에 표시된 다이얼로그 박스 (도시 생략) 에 이들 정보를 입력한다. 수취한 지시는, 텍스트 마이닝 장치 (10) 의 각 부에 대해 출력된다.
다음으로, 단어 추출부 (13) 는, 텍스트 데이터 기억부 (12) 로부터 지정된 텍스트 데이터를 판독 출력한다 (스텝 S102). 다음으로, 단어 추출부 (13) 는, 스텝 S102 에서 판독 출력한 텍스트 데이터에 대해 형태소 해석을 실시함으로써, 판독 출력한 텍스트 데이터로부터 단어를 추출한다 (스텝 S103). 이 때, 단어 추출부 (13) 는, 판독 출력한 텍스트 데이터로부터, 이후의 분석에서 필요해지는 단어만을 추출한다.
다음으로, 클러스터링 처리부 (14) 는, 스텝 S103 에서 추출된 단어에 대해 계층적 클러스터 분석을 실시한다 (스텝 S104). 다음으로, 클러스터링 처리부 (14) 는, 스텝 S103 에서 추출된 단어의 출현 빈도를 구한다 (스텝 S105). 다음으로, 분석 결과 기억부 (15) 는, 스텝 S104 에서 구한 계층적 클러스터 분석의 결과와 스텝 S105 에서 구한 단어의 출현 빈도를 기억한다 (스텝 S106).
클러스터링 처리부 (14) 는, 지시 입력부 (11) 로부터, 이용자가 지정한 분석 기간과 분석 간격을 수취한다. 분석 기간은, 분석 대상인 텍스트 데이터 중, 실제로 계층적 클러스터 분석을 실시하는 기간을 나타낸다. 분석 기간은, 분석 간격을 단위로 하여 복수의 기간으로 분할된다. 예를 들어, 분석 기간이 2005 년 6 월 1 일부터 2015 년 5 월 31 일까지의 기간이고, 분석 간격이 1 개월인 경우, 11 년의 분석 기간은 132 개의 기간으로 분할된다.
분할 후의 기간의 개수를 p 로 한다. 클러스터링 처리부 (14) 는, 스텝 S104 에 있어서, p 개의 기간 각각에 대하여 계층적 클러스터 분석을 실시한다. 보다 상세하게는, 클러스터링 처리부 (14) 는, p 개의 기간 각각에 대하여, 스텝 S103 에서 추출된 단어에 대해, 스텝 S102 에서 판독 출력된 텍스트 데이터 중 기간 내의 일시를 갖는 문을 사용하여 계층적 클러스터 분석을 실시한다. 클러스터링 처리부 (14) 는, 예를 들어, 텍스트 데이터 (32) 에 있어서의 2 개의 단어 간의 거리 (2 개의 단어가 어느 정도 떨어져 나타나는지) 에 기초하여, 2 개의 단어 간의 유사도를 구한다. 클러스터링 처리부 (14) 는, 구한 단어 간의 유사도에 기초하여, 소정의 방법 (예를 들어, 최단 거리법, 최장 거리법, 군 평균법, 십진법, 워드법 등) 을 이용하여 계층적 클러스터 분석을 실시한다.
클러스터링 처리부 (14) 는, 스텝 S105 에 있어서, p 개의 기간 각각에 대하여 단어의 출현 빈도를 구한다. 스텝 S104 에서는 계층적 클러스터 분석의 결과가 p 개 구해지고, 스텝 S105 에서는 단어의 출현 빈도가 p 개씩 구해진다. 분석 결과 기억부 (15) 는, 스텝 S106 에 있어서, p 개의 기간 각각에 대하여, 계층적 클러스터 분석의 결과와 단어의 출현 빈도를 기억한다.
다음으로, 화면 표시부 (16) 는, 분석 결과 기억부 (15) 에 기억된 계층적 클러스터 분석의 결과를 포함하는 화면을 표시한다 (스텝 S107). 도 4 는, 스텝 S107 에서 표시되는 창의 예를 나타내는 도면이다. 도 4 에 나타내는 창 (41) 은, 계층적 클러스터 분석의 결과를 포함하고 있다. 계층적 클러스터 분석의 결과에 대해 클러스터수를 설정하면, 각 클러스터에 포함되는 단어가 결정된다. 텍스트 마이닝 장치 (10) 는, 계층적 클러스터 분석의 결과를 포함하는 화면을 표시할 때에, 수형도 대신에, 복수의 클러스터를 도 4 에 나타내는 양태로 표시한다.
텍스트 마이닝 장치 (10) 는, 동작 파라미터로서, 클러스터수와 클러스터 내의 최대 표시 데이터수를 갖는다. 이하, 전자를 m, 후자를 n 으로 한다. 이들 값은, 초기 상태에서는 소정의 초기값으로 설정되어 있다. 이용자는, 지시 입력부 (11) 를 사용하여, 이들의 값을 임의로 설정해도 된다. 텍스트 마이닝 장치 (10) 에서는, 스텝 S103 에서 추출된 단어는, m 개의 클러스터로 분류된다. 각 클러스터에는, 1 개 이상의 단어가 포함된다. 창 (41) 에는 m 개의 클러스터가 구름형 도형으로 표시되고, 각 클러스터의 내부에는 각 클러스터에 포함되는 단어가 표시된다. 각 클러스터의 내부에 표시되는 단어의 개수는, n 개 이하로 제한된다. 예를 들어, n = 5 일 때에 어떤 클러스터가 10 개의 단어를 포함하는 경우, 화면에 표시되는 클러스터의 내부에는 5 개의 단어가 표시된다.
다음으로, 지시 입력부 (11) 는, 이용자로부터 지시를 수취한다 (스텝 S111). 다음으로, 텍스트 마이닝 장치 (10) 는, 스텝 S111 에서 수취한 지시가 주목어를 지정하는 지시인지 여부를 판단한다 (스텝 S112). 텍스트 마이닝 장치 (10) 의 제어는, 예인 경우에는 스텝 S121 로 진행되고, 아니오인 경우에는 스텝 S113 으로 진행된다.
후자의 경우, 스텝 S111 에서 수취한 지시는, 예를 들어, 창을 이동시키는 지시, 창을 비표시로 하는 지시, 창을 닫는 지시 등이다. 화면 표시부 (16) 는, 스텝 S111 에서 수취한 지시에 따라, 갱신 후의 화면을 표시한다 (스텝 S113). 그 후, 텍스트 마이닝 장치 (10) 의 제어는, 스텝 S111 로 진행된다.
스텝 S111 을 실행할 때에는, 계층적 클러스터 분석의 결과를 포함하는 화면이 표시되어 있다. 이하, 스텝 S111 을 실행할 때에, 도 4 에 나타내는 창 (41) 을 포함하는 화면이 표시되어 있는 것으로 한다. 또, 마우스 커서 (43) 가 표시 화면 내의 어떤 요소 위에 있을 때에 마우스 (29) 의 버튼을 클릭하는 것을 「요소를 클릭한다」라고 하고, 주목어를 포함하는 클러스터를 「주목어 클러스터」라고 하고, 주목어 클러스터에 붙여지는 이름을 「주목어 클러스터명」이라고 한다.
도 5 는, 주목어를 지정하는 조작을 나타내는 도면이다. 이용자는, 창 (41) 내에서 주목어로서 지정하는 단어 (여기에서는 「분해」) 를 클릭한다 (1 회째 클릭). 이 때, 표시 화면 내에 컨텍스트 메뉴 (42) 가 나타난다. 이용자는, 컨텍스트 메뉴 (42) 중에서 항목 「분석 결과의 시간 경과에 따른 변화로」를 클릭한다 (2 회째 클릭). 이 조작에 의해, 1 회째에 클릭된 단어가 주목어로서 지정된다.
스텝 S112 에서 예인 경우, 화면 표시부 (16) 는, 분석 결과 기억부 (15) 로부터 계층적 클러스터 분석의 결과와 주목어의 출현 빈도를 판독 출력한다 (스텝 S121). 다음으로, 화면 표시부 (16) 는, 판독 출력한 데이터에 기초하여, 계층적 클러스터 분석 결과의 시간 경과에 따른 변화를 포함하는 화면을 표시한다 (스텝 S122).
도 6 은, 스텝 S122 에서 표시되는, 분석 결과의 시간 경과에 따른 변화를 나타내는 창을 나타내는 도면이다. 도 6 에 나타내는 창 (51) 은, 스텝 S111 에 있어서, 주목어로서 「분해」를 지정했을 때에 표시된다. 창 (51) 은, 예를 들어 도 7 에 나타내는 바와 같이, 도 4 에 나타내는 창 (41) 에 겹쳐 표시된다.
창 (51) 은, 수평 방향으로 연신하는 시간축을 따라, 주목어의 출현 빈도의 시간 경과에 따른 변화를 나타내는 꺾은선 그래프 (52) 를 포함하고 있다. 주목어의 출현 빈도에는, 예를 들어, 주목어 클러스터에 포함되는 모든 단어의 출현 횟수의 합계 중에서 주목어의 출현 횟수가 차지하는 비율이 사용된다. 주목어의 출현 빈도는, 이용자로부터의 지시에 따라, 주목어의 출현 횟수로 바뀌어도 된다.
계층적 클러스터 분석에 의해 얻어지는 클러스터의 구성 (클러스터에 포함되는 요소) 은, 시간 경과에 따라 변화한다. 클러스터의 시간 경과에 따른 변화를 나타내기 위해, 클러스터에는 자동적으로 이름이 붙여진다. 클러스터가 1 개의 단어만을 포함하는 경우에는, 클러스터명에는 그 단어가 그대로 사용된다. 클러스터가 2 개의 단어를 포함하는 경우에는, 클러스터명에는 2 개의 단어를 출현 빈도가 높은 순으로 연결한 것이 사용된다. 클러스터가 3 개 이상의 단어를 포함하는 경우에는, 클러스터명에는 클러스터에 포함되는 단어 중 출현 빈도가 높은 3 개의 단어를 출현 빈도가 큰 순으로 연결한 것이 사용된다. 또한, 클러스터명을 구성하는 단어의 집합이 동일한 경우, 단어의 순서가 상이해도 동일한 클러스터명으로서 취급된다.
도 8a ∼ 도 8d 는, 계층적 클러스터 분석 결과의 시간 경과에 따른 변화의 예를 나타내는 도면이다. 도 8a ∼ 도 8d 에는, 다른 달에 있어서의 계층적 클러스터 분석의 결과가 기재되어 있다. 도 8a ∼ 도 8d 에 있어서, 구름형 도형은 클러스터를 나타내고, 밑줄을 그은 문자열은 클러스터명을 나타낸다. 원의 사이즈는, 원 안에 기재된 단어의 출현 빈도를 나타낸다.
도 8a 에 나타내는 분석 결과에서는, 텍스트 데이터로부터 추출된 단어는, 「구동」과 「분해」를 포함하는 클러스터, 「배기」와 「압」과 「플로」와 「밸브」를 포함하는 클러스터, 및 「벨트」와 「회전」과 「체크」와 「모터」와 「팽팽함」을 포함하는 클러스터로 분류되어 있다. 이들 3 개의 클러스터에는, 각각 「구동·분해」, 「배기·압·플로」, 및 「벨트·회전·체크」라는 이름이 붙여진다. 도 8b ∼ 도 8d 에 나타내는 분석 결과에 대해서도, 3 개의 클러스터에 동일한 방법으로 이름이 붙여진다.
주목어로서 「분해」를 지정했을 때, 주목어 클러스터명은, 도 8a 에 나타내는 분석 결과에서는 「분해·구동」이고, 도 8b 에 나타내는 분석 결과에서는 「구동·벨트·회전」이고, 도 8c 에 나타내는 분석 결과에서는 「배기·압·플로」이고, 도 8d 에 나타내는 분석 결과에서는 「배기·압·분해」이다. 이와 같이 주목어 클러스터명은, 시간 경과에 따라 변화한다.
도 6 에 나타내는 창 (51) 은, 꺾은선 그래프 (52) 에 추가하여, 주목어 클러스터명 (53), 경계선 (54), 및 화살표 (55) 를 포함하고 있다. 주목어 클러스터명 (53) 은, 수평 방향으로 연신하는 시간축을 따라, 꺾은선 그래프 (52) 의 상부에 표시된다. 경계선 (54) 은, 꺾은선 그래프 (52) 내에서, 주목어 클러스터명 (53) 이 변화하는 시기에 대응하는 위치에 표시된다. 주목어 클러스터명 (53) 은, 경계선 (54) 으로 구획된 기간마다 표시된다. 꺾은선 그래프 (52) 의 배경은, 경계선 (54) 마다 상이한 양태 (예를 들어, 다른 색이나 다른 패턴) 를 갖는다. 주목어 클러스터명 (53) 을 구성하는 단어 중 앞의 클러스터명으로부터 변화한 단어 (구 (舊) 주목어 클러스터명에는 포함되지 않고, 신 (新) 주목어 클러스터명에 포함되어 있는 단어) 는, 강조 표시된다. 창 (51) 에서는, 그러한 단어는 고딕체로 또한 이탤릭체로 표시되어 있다.
화살표 (55) 는, 경계선 (54) 의 상부에서, 주목어 클러스터명 (53) 이 변화하는 시기에 대응하는 위치에 표시된다. 화살표 (55) 는, 주목어 클러스터명 (53) 의 변화의 정도에 따른 양태로 표시된다. 주목어 클러스터명 (53) 을 구성하는 단어가 모두 변화하는 경우에는, 빨간 화살표 (55r) 가 표시된다. 주목어 클러스터명 (53) 을 구성하는 단어가 2 개 변화하는 경우에는, 파란 화살표 (55b) 가 표시된다. 주목어 클러스터명 (53) 을 구성하는 단어가 1 개 변화하는 경우에는, 검은 화살표 (55n) 가 표시된다. 또한, 화살표 (55) 의 표시 양태는, 주목어 클러스터명 (53) 의 변화의 정도에 따라 다르기만 하면 임의여도 된다. 예를 들어, 화살표 (55) 의 표시 사이즈가, 주목어 클러스터명 (53) 의 변화의 정도에 따라 상이해도 된다.
도 6 에 나타내는 예에서는, 주목어 클러스터명 (53) 은, 「구동·분해」, 「구동·벨트·회전」, 「배기·압·플로」, 및 「배기·압·분해」의 순으로 시간 경과에 따라 변화한다. 1 회째 변화에서는 주목어 클러스터명 (53) 을 구성하는 단어가 2 개 변화하므로, 최초의 경계선 (54) 위에는 파란 화살표 (55b) 가 표시된다. 2 회째 변화에서는 주목어 클러스터명 (53) 을 구성하는 단어가 모두 변화하므로, 2 번째 경계선 (54) 위에는 빨간 화살표 (55r) 가 표시된다. 3 번째 변화에서는 주목어 클러스터명 (53) 을 구성하는 단어가 1 개 변화하므로, 3 회째 경계선 (54) 위에는 검은 화살표 (55n) 가 표시된다.
다음으로, 화면 표시부 (16) 는, 스텝 S122 에서 표시한 화면에 포함되는 화살표 (55) 의 개수를 종류별로 구한다 (스텝 S123). 다음으로, 화면 표시부 (16) 는, 각 종류의 화살표 (55) 의 개수에 기초하여, 주목어 클러스터명 (53) 의 변화가 큰지 여부를 판단한다 (스텝 S124). 화면 표시부 (16) 는, 예를 들어, 빨간 화살표 (55r) 의 개수가 화살표 (55) 의 총수의 30 % 를 초과한 경우에 예라고 판단해도 되고, 빨간 화살표 (55r) 의 개수와 파란 화살표 (55b) 의 개수의 합계가 화살표 (55) 의 총수의 60 % 를 초과한 경우에 예라고 판단해도 된다. 텍스트 마이닝 장치 (10) 의 제어는, 예인 경우에는 스텝 S125 로 진행되고, 아니오인 경우에는 스텝 S111 로 진행된다.
전자의 경우, 화면 표시부 (16) 는, 경고 메세지를 포함하는 화면을 표시한다 (스텝 S125). 도 9 는, 스텝 S125 에서 표시되는 창을 나타내는 도면이다. 도 9 에 나타내는 창 (61) 은, 주목어 클러스터의 구성이 크게 변화하는 경우가 많기 때문에, 계층적 클러스터 분석의 설정 (예를 들어, 클러스터수나 대상 단어수) 을 재조정할 것을 권하는 취지의 경고 메세지를 포함하고 있다. 그 후, 텍스트 마이닝 장치 (10) 의 제어는, 스텝 S111 로 진행된다.
이상으로 나타내는 바와 같이, 본 실시형태에 관련된 텍스트 마이닝 방법은, 날짜를 갖는 문으로 이루어지는 텍스트 데이터로부터 단어를 추출하는 스텝 (스텝 S102, S103) 과, 추출한 단어에 대해 분석 기간별로 계층적 클러스터 분석을 실시하는 스텝 (스텝 S104) 과, 계층적 클러스터 분석에 의한 분석 결과를 포함하는 화면을 표시하는 스텝 (스텝 S107, S113, S121 ∼ S125) 을 구비하고 있다. 분석 결과를 포함하는 제 1 화면 (창 (41) 을 포함하는 화면) 내에서 주목어를 지정하는 지시가 입력되었을 때에 (도 5), 화면을 표시하는 스텝 (스텝 S122) 은, 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 나타내는 제 2 화면 (창 (51) 을 포함하는 화면) 을 표시한다. 본 실시형태에 관련된 텍스트 마이닝 방법에 의하면, 계층적 클러스터 분석의 결과를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때에, 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 나타내는 제 2 화면을 표시함으로써, 이용자는 계층적 클러스터 분석 결과의 시간 경과에 따른 변화를 용이하게 인식할 수 있다.
또, 제 2 화면은, 주목어를 포함하는 클러스터에 포함되는 단어에 기초하는 클러스터명 (주목어 클러스터명 (53)) 을 시간축을 따라 나타낸다. 또, 이 클러스터명은, 주목어를 포함하는 클러스터에 포함되는 단어를 출현 빈도가 높은 순으로 소정의 개수 이하 (3 개 이하) 만큼 연결한 것이다. 따라서, 이용자는 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 용이하게 인식할 수 있다.
또, 제 2 화면은, 주목어를 포함하는 클러스터의 이름이 변화하는 시기에 대응하는 위치에, 클러스터명의 변화의 정도에 따른 양태를 갖는 마크를 포함하고 있다. 이 마크는, 클러스터명의 변화의 정도에 따른 색을 갖는 화살표 (55) 여도 된다. 이와 같은 마크 (화살표 (55)) 를 포함하는 제 2 화면을 표시함으로써, 이용자는 주목어를 포함하는 클러스터 이름의 변화의 정도를 용이하게 인식할 수 있다. 또, 클러스터명을 구성하는 단어 중 앞의 클러스터명으로부터 변화한 단어 (도 6 에 나타내는 「벨트」, 「회전」 등) 는, 제 2 화면 내에서 강조 표시된다. 따라서, 이용자는 주목어를 포함하는 클러스터에 있어서 출현 빈도가 높은 단어가 어떻게 변화했는지를 용이하게 인식할 수 있다.
또, 제 2 화면은, 시간축을 따라 주목어의 출현 빈도의 시간 경과에 따른 변화를 나타내는 그래프 (꺾은선 그래프 (52)) 를 포함하고 있다. 주목어를 포함하는 클러스터의 시간 경과에 따른 변화에 추가하여, 주목어의 출현 빈도의 시간 경과에 따른 변화를 나타내는 그래프를 포함하는 화면을 표시함으로써, 이용자는 계층적 클러스터 분석 결과의 시간 경과에 따른 변화를 용이하게 인식할 수 있다. 또, 제 2 화면은, 주목어를 포함하는 클러스터의 이름이 변화하는 시기에 대응하는 위치에 경계선 (54) 을 포함하고, 그래프의 배경은, 경계선마다 상이한 양태를 갖는다. 따라서, 이용자는 주목어를 포함하는 클러스터가 변화하는 시기를 용이하게 인식할 수 있다. 또, 주목어를 포함하는 클러스터의 이름이 크게 변화하는 것이 많은 경우에는, 화면을 표시하는 스텝은, 경고 메세지를 포함하는 화면 (창 (61) 을 포함하는 화면) 을 표시한다. 따라서, 이용자는 계층적 클러스터 분석이 잘 되고 있지 않음을 인식할 수 있다.
본 실시형태에 관련된 텍스트 마이닝 장치 (10) 및 텍스트 마이닝 프로그램 (31) 은, 상기의 텍스트 마이닝 방법과 동일한 특징을 가지며, 동일한 효과를 나타낸다. 본 실시형태에 관련된 텍스트 마이닝 방법, 텍스트 마이닝 장치 (10), 및 텍스트 마이닝 프로그램 (31) 에 의하면, 이용자는 계층적 클러스터 분석 결과의 시간 경과에 따른 변화를 용이하게 인식할 수 있다.
이상에서 본 발명을 상세하게 설명했지만, 이상의 설명은 모든 면에서 예시적인 것으로서 제한적인 것은 아니다. 다수의 다른 변경이나 변형이 본 발명의 범위를 일탈하지 않고 안출 가능한 것으로 이해된다.
10 : 텍스트 마이닝 장치
11 : 지시 입력부
12 : 텍스트 데이터 기억부
13 : 단어 추출부
14 : 클러스터링 처리부
15 : 분석 결과 기억부
16 : 화면 표시부
20 : 컴퓨터
21 : CPU
22 : 메인 메모리
29 : 마우스
30 : 기록 매체
31 : 텍스트 마이닝 프로그램
32 : 텍스트 데이터
41, 51, 61 : 창
42 : 컨텍스트 메뉴
43 : 마우스 커서
52 : 꺾은선 그래프
53 : 주목어 클러스터명
54 : 경계선
55 : 화살표

Claims (20)

  1. 삭제
  2. 삭제
  3. 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하는 텍스트 마이닝 방법으로서,
    날짜를 갖는 문으로 이루어지는 텍스트 데이터로부터 단어를 추출하는 스텝과,
    상기 단어에 대해 분석 기간별로 계층적 클러스터 분석을 실시하는 스텝과,
    상기 계층적 클러스터 분석의 결과를 포함하는 화면을 표시하는 스텝을 구비하고,
    상기 결과를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때에, 상기 화면을 표시하는 스텝은, 상기 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 나타내는 제 2 화면을 표시하고,
    상기 제 2 화면은, 상기 클러스터에 포함되는 단어에 기초하는 클러스터명을 시간축을 따라 나타내고,
    상기 클러스터명은, 상기 클러스터에 포함되는 단어를 출현 빈도가 높은 순으로 소정의 개수 이하만큼 연결한 것인 것을 특징으로 하는, 텍스트 마이닝 방법.
  4. 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하는 텍스트 마이닝 방법으로서,
    날짜를 갖는 문으로 이루어지는 텍스트 데이터로부터 단어를 추출하는 스텝과,
    상기 단어에 대해 분석 기간별로 계층적 클러스터 분석을 실시하는 스텝과,
    상기 계층적 클러스터 분석의 결과를 포함하는 화면을 표시하는 스텝을 구비하고,
    상기 결과를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때에, 상기 화면을 표시하는 스텝은, 상기 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 나타내는 제 2 화면을 표시하고,
    상기 제 2 화면은, 상기 클러스터에 포함되는 단어에 기초하는 클러스터명을 시간축을 따라 나타내고,
    상기 제 2 화면은, 상기 클러스터명이 변화하는 시기에 대응하는 위치에, 상기 클러스터명의 변화의 정도에 따른 양태를 갖는 마크를 추가로 포함하는 것을 특징으로 하는, 텍스트 마이닝 방법.
  5. 제 4 항에 있어서,
    상기 마크는, 상기 클러스터명의 변화의 정도에 따른 색을 갖는 화살표인 것을 특징으로 하는, 텍스트 마이닝 방법.
  6. 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하는 텍스트 마이닝 방법으로서,
    날짜를 갖는 문으로 이루어지는 텍스트 데이터로부터 단어를 추출하는 스텝과,
    상기 단어에 대해 분석 기간별로 계층적 클러스터 분석을 실시하는 스텝과,
    상기 계층적 클러스터 분석의 결과를 포함하는 화면을 표시하는 스텝을 구비하고,
    상기 결과를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때에, 상기 화면을 표시하는 스텝은, 상기 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 나타내는 제 2 화면을 표시하고,
    상기 제 2 화면은, 상기 클러스터에 포함되는 단어에 기초하는 클러스터명을 시간축을 따라 나타내고,
    상기 클러스터명을 구성하는 단어 중 앞의 클러스터명으로부터 변화한 단어는, 상기 제 2 화면 내에서 강조 표시되는 것을 특징으로 하는, 텍스트 마이닝 방법.
  7. 삭제
  8. 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하는 텍스트 마이닝 방법으로서,
    날짜를 갖는 문으로 이루어지는 텍스트 데이터로부터 단어를 추출하는 스텝과,
    상기 단어에 대해 분석 기간별로 계층적 클러스터 분석을 실시하는 스텝과,
    상기 계층적 클러스터 분석의 결과를 포함하는 화면을 표시하는 스텝을 구비하고,
    상기 결과를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때에, 상기 화면을 표시하는 스텝은, 상기 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 나타내는 제 2 화면을 표시하고,
    상기 제 2 화면은, 상기 클러스터에 포함되는 단어에 기초하는 클러스터명을 시간축을 따라 나타내고,
    상기 제 2 화면은, 상기 시간축을 따라 상기 주목어의 출현 빈도의 시간 경과에 따른 변화를 나타내는 그래프를 추가로 포함하고,
    상기 제 2 화면은, 상기 클러스터명이 변화하는 시기에 대응하는 위치에 경계선을 추가로 포함하고, 상기 그래프의 배경은, 상기 경계선마다 상이한 양태를 갖는 것을 특징으로 하는, 텍스트 마이닝 방법.
  9. 삭제
  10. 삭제
  11. 삭제
  12. 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하기 위한, 기록 매체에 저장된 텍스트 마이닝 프로그램으로서,
    날짜를 갖는 문으로 이루어지는 텍스트 데이터로부터 단어를 추출하는 스텝과,
    상기 단어에 대해 분석 기간별로 계층적 클러스터 분석을 실시하는 스텝과,
    상기 계층적 클러스터 분석의 결과를 포함하는 화면을 표시하는 스텝을 컴퓨터에 CPU 가 메모리를 이용하여 실행시키고,
    상기 결과를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때에, 상기 화면을 표시하는 스텝은, 상기 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 나타내는 제 2 화면을 표시하고,
    상기 제 2 화면은, 상기 클러스터에 포함되는 단어에 기초하는 클러스터명을 시간축을 따라 나타내고,
    상기 클러스터명은, 상기 클러스터에 포함되는 단어를 출현 빈도가 높은 순으로 소정의 개수 이하만큼 연결한 것인 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.
  13. 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하기 위한, 기록 매체에 저장된 텍스트 마이닝 프로그램으로서,
    날짜를 갖는 문으로 이루어지는 텍스트 데이터로부터 단어를 추출하는 스텝과,
    상기 단어에 대해 분석 기간별로 계층적 클러스터 분석을 실시하는 스텝과,
    상기 계층적 클러스터 분석의 결과를 포함하는 화면을 표시하는 스텝을 컴퓨터에 CPU 가 메모리를 이용하여 실행시키고,
    상기 결과를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때에, 상기 화면을 표시하는 스텝은, 상기 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 나타내는 제 2 화면을 표시하고,
    상기 제 2 화면은, 상기 클러스터에 포함되는 단어에 기초하는 클러스터명을 시간축을 따라 나타내고,
    상기 제 2 화면은, 상기 클러스터명이 변화하는 시기에 대응하는 위치에, 상기 클러스터명의 변화의 정도에 따른 양태를 갖는 마크를 추가로 포함하는 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.
  14. 제 13 항에 있어서,
    상기 마크는, 상기 클러스터명의 변화의 정도에 따른 색을 갖는 화살표인 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.
  15. 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하기 위한, 기록 매체에 저장된 텍스트 마이닝 프로그램으로서,
    날짜를 갖는 문으로 이루어지는 텍스트 데이터로부터 단어를 추출하는 스텝과,
    상기 단어에 대해 분석 기간별로 계층적 클러스터 분석을 실시하는 스텝과,
    상기 계층적 클러스터 분석의 결과를 포함하는 화면을 표시하는 스텝을 컴퓨터에 CPU 가 메모리를 이용하여 실행시키고,
    상기 결과를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때에, 상기 화면을 표시하는 스텝은, 상기 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 나타내는 제 2 화면을 표시하고,
    상기 제 2 화면은, 상기 클러스터에 포함되는 단어에 기초하는 클러스터명을 시간축을 따라 나타내고,
    상기 클러스터명을 구성하는 단어 중 앞의 클러스터명으로부터 변화한 단어는, 상기 제 2 화면 내에서 강조 표시되는 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.
  16. 삭제
  17. 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하기 위한, 기록 매체에 저장된 텍스트 마이닝 프로그램으로서,
    날짜를 갖는 문으로 이루어지는 텍스트 데이터로부터 단어를 추출하는 스텝과,
    상기 단어에 대해 분석 기간별로 계층적 클러스터 분석을 실시하는 스텝과,
    상기 계층적 클러스터 분석의 결과를 포함하는 화면을 표시하는 스텝을 컴퓨터에 CPU 가 메모리를 이용하여 실행시키고,
    상기 결과를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때에, 상기 화면을 표시하는 스텝은, 상기 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 나타내는 제 2 화면을 표시하고,
    상기 제 2 화면은, 상기 클러스터에 포함되는 단어에 기초하는 클러스터명을 시간축을 따라 나타내고,
    상기 제 2 화면은, 상기 시간축을 따라 상기 주목어의 출현 빈도의 시간 경과에 따른 변화를 나타내는 그래프를 추가로 포함하고,
    상기 제 2 화면은, 상기 클러스터명이 변화하는 시기에 대응하는 위치에 경계선을 추가로 포함하고, 상기 그래프의 배경은, 상기 경계선마다 상이한 양태를 갖는 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.
  18. 삭제
  19. 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하는 텍스트 마이닝 장치로서,
    날짜를 갖는 문으로 이루어지는 텍스트 데이터로부터 단어를 추출하는 단어 추출부와,
    상기 단어에 대해 분석 기간별로 계층적 클러스터 분석을 실시하는 클러스터링 처리부와,
    상기 계층적 클러스터 분석의 결과를 포함하는 화면을 표시하는 화면 표시부를 구비하고,
    상기 결과를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때에, 상기 화면 표시부는, 상기 주목어를 포함하는 클러스터의 시간 경과에 따른 변화를 나타내는 제 2 화면을 표시하고,
    상기 제 2 화면은, 상기 클러스터에 포함되는 단어에 기초하는 클러스터명을 시간축을 따라 나타내고,
    상기 제 2 화면은, 상기 클러스터명이 변화하는 시기에 대응하는 위치에, 상기 클러스터명의 변화의 정도에 따른 양태를 갖는 마크를 추가로 포함하는 것을 특징으로 하는, 텍스트 마이닝 장치.
  20. 제 19 항에 있어서,
    상기 마크는, 상기 클러스터명의 변화의 정도에 따른 색을 갖는 화살표인 것을 특징으로 하는, 텍스트 마이닝 장치.
KR1020190023397A 2018-03-20 2019-02-27 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치 KR102175658B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPJP-P-2018-052073 2018-03-20
JP2018052073A JP7078429B2 (ja) 2018-03-20 2018-03-20 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Publications (2)

Publication Number Publication Date
KR20190110435A KR20190110435A (ko) 2019-09-30
KR102175658B1 true KR102175658B1 (ko) 2020-11-06

Family

ID=68064564

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190023397A KR102175658B1 (ko) 2018-03-20 2019-02-27 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치

Country Status (4)

Country Link
JP (1) JP7078429B2 (ko)
KR (1) KR102175658B1 (ko)
CN (1) CN110309260B (ko)
TW (1) TWI736860B (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102359033B1 (ko) * 2020-02-18 2022-02-04 목포해양대학교 산학협력단 Lng 선박 정비 연관성을 이용한 예방 정비 모델 생성 방법 및 그 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018018118A (ja) 2016-07-25 2018-02-01 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4404323B2 (ja) * 1999-02-05 2010-01-27 経済産業大臣 シソーラスブラウジングシステムと方法
KR100913027B1 (ko) * 2002-09-23 2009-08-20 이원석 데이터 마이닝 시스템 및 그 방법
US7644053B2 (en) * 2004-03-03 2010-01-05 The Boeing Company System, method, and computer program product for combination of cognitive causal models with reasoning and text processing for knowledge driven decision support
JP2007086911A (ja) * 2005-09-20 2007-04-05 Nec Corp 文章入力装置、文章入力方法及び文章入力用プログラム
KR100816934B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 결과를 이용한 군집화 시스템 및 그 방법
JP4342575B2 (ja) * 2007-06-25 2009-10-14 株式会社東芝 キーワード提示のための装置、方法、及びプログラム
JP5330046B2 (ja) * 2009-03-23 2013-10-30 株式会社東芝 共起表現抽出装置及び共起表現抽出方法
JP5284990B2 (ja) * 2010-01-08 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
KR101091185B1 (ko) * 2010-02-25 2011-12-09 고려대학교 산학협력단 뉴스 데이터 분석 장치 및 방법
TWI501097B (zh) * 2012-12-22 2015-09-21 Ind Tech Res Inst 文字串流訊息分析系統和方法
JP5592552B1 (ja) * 2013-10-25 2014-09-17 株式会社Ubic 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム
CN103593340B (zh) * 2013-10-28 2017-08-29 余自立 自然表达信息处理方法、处理及回应方法、设备及***
CN104978407B (zh) * 2015-06-18 2018-03-06 上海交通大学 用于高维数据特征属性变化趋势的可视化呈现***及方法
CN106933809A (zh) * 2017-03-27 2017-07-07 三角兽(北京)科技有限公司 信息处理装置及信息处理方法
CN107291886A (zh) * 2017-06-21 2017-10-24 广西科技大学 一种基于增量聚类算法的微博话题检测方法及***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018018118A (ja) 2016-07-25 2018-02-01 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
임명수, 김남규, 기간별 이슈 매핑을 통한 이슈 생명주기 분석 방법론, J Intell Inform System 2014.12: 20(4), 25-41페이지.*

Also Published As

Publication number Publication date
CN110309260A (zh) 2019-10-08
CN110309260B (zh) 2023-07-18
KR20190110435A (ko) 2019-09-30
TWI736860B (zh) 2021-08-21
TW201941083A (zh) 2019-10-16
JP7078429B2 (ja) 2022-05-31
JP2019164592A (ja) 2019-09-26

Similar Documents

Publication Publication Date Title
US11348294B2 (en) Systems and methods for updating a third party visualization in response to a query
US9589233B2 (en) Automatic recognition and insights of data
RU2417421C2 (ru) Автоматическое размещение полей в сводной таблице данных
US11954427B2 (en) Transformation in tabular data cleaning tool
JP5318291B2 (ja) プログラマブル表示器の画面作成システム
US7797356B2 (en) Dynamically detecting exceptions based on data changes
US9684877B2 (en) System and method for improved consumption models for analytics
US11068119B2 (en) Optimizing an arrangement of content on a display of a user device based on user focus
KR102175658B1 (ko) 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치
JP2007011604A (ja) 不具合診断システム及びプログラム
US9529843B2 (en) Highly portable and dynamic user interface component to specify and perform simple to complex filtering on data using natural language-like user interface
US11392260B2 (en) Display control device, display control method, and display control program
JP3606484B2 (ja) データベース装置
CN110780970A (zh) 数据筛选方法、装置、设备及计算机可读存储介质
CN113383312A (zh) 在数据可视化用户界面中分析自然语言表达
CN105607754A (zh) 一种基于辅助码的输入方法和装置
CN104765685A (zh) 一种内核进程图形化分析方法
CN112749235A (zh) 解析分类结果的方法、装置及电子设备
US10304224B2 (en) Dynamic graphic entity determination
JP5982135B2 (ja) データ管理装置
WO2023105696A1 (ja) 情報付与装置、情報付与方法及び情報付与プログラム
JP2009003496A (ja) 帳票データ変換装置
CN117951408A (zh) 信息展示方法、装置、电子设备及可读存储介质
KR20190110428A (ko) 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant