TW201807597A - 文字探勘方法、記錄有文字探勘程式之電腦可讀取之記錄媒體及文字探勘裝置 - Google Patents

文字探勘方法、記錄有文字探勘程式之電腦可讀取之記錄媒體及文字探勘裝置 Download PDF

Info

Publication number
TW201807597A
TW201807597A TW106122011A TW106122011A TW201807597A TW 201807597 A TW201807597 A TW 201807597A TW 106122011 A TW106122011 A TW 106122011A TW 106122011 A TW106122011 A TW 106122011A TW 201807597 A TW201807597 A TW 201807597A
Authority
TW
Taiwan
Prior art keywords
screen
analysis
text
data
group
Prior art date
Application number
TW106122011A
Other languages
English (en)
Other versions
TWI686716B (zh
Inventor
秋田正史
中村康則
周景龍
Original Assignee
斯庫林集團股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 斯庫林集團股份有限公司 filed Critical 斯庫林集團股份有限公司
Publication of TW201807597A publication Critical patent/TW201807597A/zh
Application granted granted Critical
Publication of TWI686716B publication Critical patent/TWI686716B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

在文字分析步驟(S109~S110)中,對自被輸入之文字資料所擷取之單字進行階層式集群分析。在畫面生成步驟(S111)中,根據群組數m與群組內之最多資料數n,自文字分析步驟之分析結果求得m個集群,而生成用以將包含n個以下之集群所包含之單字之群組顯示於畫面之畫面資料。在分析結果顯示步驟(S112)中,根據所生成之畫面資料來顯示畫面。藉此,將階層式集群分析之結果,以使用者可直觀地理解之方式顯示於畫面。

Description

文字探勘方法、記錄有文字探勘程式之電腦可讀取之記錄媒體及文字探勘裝置
本發明係關於文字探勘,尤其關於將文字資料之分析結果顯示於畫面之文字探勘方法、文字探勘程式、及文字探勘裝置。
近年來,解析以自由形態所記載之大量文字資料,並從解析結果求得有用資訊之文字探勘受到矚目。在文字探勘中,例如自分析對象之文字資料擷取單字,並藉由解析單字的出現頻率與出現趨勢等來求得資訊。
以下,針對對自文字資料所擷取之單字進行階層式集群分析而將分析結果顯示於畫面之文字探勘裝置進行探討。在階層式集群分析中,根據單字間之相似度,而階層式地製作包含相似度高之單字之集群。一般而言,階層式集群分析之結果係使用圖15所示之樹狀圖(樹狀結構圖;dendrogram),而被提供給使用者(分析者)。
與本案發明相關連地,於專利文獻1記載有一種分群裝置,其具有建構樹狀圖,探索樹狀圖而生成可自下層至上層進行特定之索引並儲存於儲存手段之階層式分群手段。於引證2記載有一種提供查詢裝置,其具有:距離矩陣計算手段,其計算出關鍵字間之距離,生成可探索關鍵字與關鍵字間之距離之距離矩陣資料並儲存於儲存手段;及分群手段,其使用距離矩陣將關鍵字階層式分 群,並作為可自下層至上層地探索所建構之樹狀圖之由下往上索引而儲存於儲存手段。
[先前技術文獻] [專利文獻]
[專利文獻1]日本專利特開2011-216021號公報
[專利文獻2]日本專利特開2012-150539號公報
習知之文字探勘裝置,使用樹狀圖將階層式集群分析之結果顯示於畫面。然而,如此之文字探勘裝置存在有使用者無法直觀地理解分析結果之問題。例如,於圖15所示之分析結果中,在使用者將集群數設定為4時,如圖16所示,會在樹狀圖上設定切割線。然而,使用者並無法僅從看到如此之樹狀圖,便直觀地認知各集群所包含之單字。又,使用者在單字數較多而變更集群數之情形時,並無法直觀地掌握各集群所包含之單字會如何地變化。
又,因為樹狀圖並未記載單字的出現頻率,因此使用者無法得知哪個單字較重要。又,於分析對象之文字資料為具有年月日或時刻等之資訊之時間序列資料之情形時,使用者有時會期望能得知分析結果在時間上的變化。然而,在習知之文字探勘裝置中,並無法滿足使用者的上述期望。
因此,本發明之目的,在於提供將階層式集群分析之結果以使用者可直觀地理解之方式顯示於畫面之文字探勘方法、文字探勘程式、及文字探勘裝置。
本發明第1態樣係一種文字探勘方法,係將文字資料之分析結果顯示於畫面者,其特徵在於具備有:文字分析步驟,其對自被輸入之文字資料所擷取之單字(單語,即單詞,word,vocabulary)進行階層式集群分析;畫面生成步驟,其根據上述文字分析步驟之分析結果來生成畫面資料;及分析結果顯示步驟,其根據上述畫面資料來顯示畫面;上述畫面生成步驟根據群組數與群組內之最多資料數,自上述分析結果求得上述群組數之集群,而生成用以將包含上述最多資料數以下之上述集群所包含之單字之群組顯示於畫面之畫面資料。
本發明第2態樣之特徵在於,於本發明之第1態樣中,上述群組所包含之單字係自對應於上述群組之集群所包含之單字中,依出現頻率高之順序所選擇。
本發明第3態樣之特徵在於,於本發明之第2態樣中,上述群組在上述畫面內,具有對應於與上述群組對應之集群所包含之單字之出現頻率之合計的尺寸。
本發明第4態樣之特徵在於,於本發明之第3態樣中,上述群組所包含之單字在上述畫面內,具有對應於上述單字之出現頻率的尺寸。
本發明第5態樣之特徵在於,於本發明之第1態樣中,進一步具備有用以輸入來自使用者之指示之指示輸入步驟,上述文字分析步驟及上述畫面生成步驟之任一者,係根據在上述指示輸入步驟所輸入之指示而被執行。
本發明第6態樣之特徵在於,於本發明之第5態樣中,上述指示輸入步驟接收上述群組數之設定指示,上述畫面生成步驟根據在上述指示輸入步驟所設定之群組數,來生成上述畫面資料。
本發明第7態樣之特徵在於,於本發明之第5態樣中,上述指示輸入步驟接收上述最多資料數之設定指示,上述畫面生成步驟根據在上述指示輸入步驟所設定之最多資料數,來生成上述畫面資料。
本發明第8態樣之特徵在於,於本發明之第5態樣中,上述指示輸入步驟接收分析對象期間之設定指示,上述文字分析步驟對上述文字資料中在上述指示輸入步驟所設定之分析對象期間內之文字資料所包含之單字,進行上述階層式集群分析。
本發明第9態樣之特徵在於,於本發明之第5態樣中,上述指示輸入步驟接收分析目的之設定指示,上述文字分析步驟自上述文字資料擷取對應於在上述指示輸入步驟中所設定之分析目的之種類的單字,來進行上述階層式集群分析。
本發明第10態樣之特徵在於,於本發明之第5態樣中,上述指示輸入步驟接收單字除外指示,上述文字分析步驟將在上述指示輸入步驟所指示之單字除外,而進行上述階層式集群分析。
本發明第11態樣之特徵在於,於本發明之第5態樣 中,上述指示輸入步驟接收近義詞登錄指示,上述文字分析步驟將在上述指示輸入步驟所指示之複數個單字視為相同之單字,而進行上述階層式集群分析。
本發明第12態樣之特徵在於,於本發明之第5態樣中,上述指示輸入步驟接收複合詞登錄指示,上述文字分析步驟將在上述指示輸入步驟所指示之複數個單字合併為1個單字,而進行上述階層式集群分析。
本發明之第13態樣之特徵在於,於本發明之第1態樣中,上述畫面生成步驟生成畫面資料,該畫面資料係用以顯示包含上述群組之分析結果畫面、及用以設定上述分析結果畫面之顯示態樣之分析設定畫面。
本發明第14態樣係一種電腦可讀取之記錄媒體,其記錄有將文字資料之分析結果顯示於畫面之文字探勘程式,其特徵在於CPU(中央處理單元)利用記憶體使電腦執行如下之步驟:文字分析步驟,其對自被輸入之文字資料所擷取之單字進行階層式集群分析;畫面生成步驟,其根據上述文字分析步驟之分析結果,來生成畫面資料;及分析結果顯示步驟,其根據上述畫面資料來顯示畫面;上述畫面生成步驟根據群組數與群組內之最多資料數,自上述分析結果求得上述群組數之集群,而生成用以將包含上述最多資料 數以下之上述集群所包含之單字之群組顯示於畫面之畫面資料。
本發明第15態樣之特徵在於,於本發明之第14態樣中,上述群組所包含之單字係自對應於上述群組之集群所包含之單字中,依出現頻率高之順序所選擇。
本發明第16態樣之特徵在於,於本發明之第15態樣中,上述群組在上述畫面內,具有對應於與上述群組對應之集群所包含之單字之出現頻率之合計的尺寸。
本發明第17態樣之特徵在於,於本發明之第16態樣中,上述群組所包含之單字在上述畫面內,具有對應於上述單字之出現頻率的尺寸。
本發明第18態樣之特徵在於,於本發明之第14態樣中,使上述電腦進一步執行用以輸入來自使用者之指示之指示輸入步驟,上述文字分析步驟及上述畫面生成步驟之任一者,係根據在上述指示輸入步驟所輸入之指示而被執行。
本發明第19態樣之特徵在於,於本發明之第14態樣中,上述畫面生成步驟生成畫面資料,該畫面資料係用以顯示包含上述群組之分析結果畫面、及用以設定上述分析結果畫面之顯示態樣之分析設定畫面。
本發明之第20態樣係一種文字探勘裝置,係將文字資料之分析結果顯示於畫面者,其特徵在於具備有:文字分析部,其對自被輸入之文字資料所擷取之單字進行階層式集群分析;畫面生成部,其根據上述文字分析部之分析結果,來生成畫面資料;及分析結果顯示部,其根據上述畫面資料來顯示畫面;上述畫面生成部根據群組數與群組內之最多資料數,自上述分析結果求得上述群組數之集群,而生成用以將包含上述最多資料數以下之上述集群所包含之單字之群組顯示於畫面。
本發明第21態樣之特徵在於,於本發明之第20態樣中,上述群組所包含之單字係自對應於上述群組之集群所包含之單字中,依出現頻率高之順序所選擇。
本發明第22態樣之特徵在於,於本發明之第21態樣中,上述群組在上述畫面內,具有對應於與上述群組對應之集群所包含之單字之出現頻率之合計的尺寸。
本發明第23態樣之特徵在於,於本發明之第22態樣中,上述群組所包含之單字在上述畫面內,具有對應於上述單字之出現頻率的尺寸。
本發明第24態樣之特徵在於,於本發明之第20態樣中, 進一步具備有用以輸入來自使用者之指示之指示輸入部,上述文字分析部及上述畫面生成部之任一者,根據在上述指示輸入部所輸入之指示來動作。
本發明第25態樣之特徵在於,於本發明之第20態樣中,上述畫面生成部生成畫面資料,該畫面資料係用以顯示包含上述群組之分析結果畫面、及用以設定上述分析結果畫面之顯示態樣之分析設定畫面。
根據本發明第1、第14或第20態樣,基於對文字資料所包含之單字進行階層式集群分析後之結果,包含集群所包含之單字之群組被顯示於畫面。又,群組所包含之單字數,被限制在最多資料數以下。因此,使用者看到畫面時可直觀地理解階層式集群分析之結果。
根據本發明第2、第15或第21態樣,在群組之內部,集群所包含之單字中出現頻率高之單字被顯示。因此,使用者可容易地認知各集群所包含之出現頻率高之單字。
藉由本發明第3、第16或第22態樣,群組在畫面內具有對應於集群所包含之單字之出現頻率之合計的尺寸。因此,使用者可容易地認知單字出現頻率之合計大之集群。
藉由本發明第4、第17或第23態樣,單字在畫面內具有對應於單字頻率之尺寸。因此,使用者可容易地認知出現頻率高之單字。
根據本發明第5、第18或第24態樣,可對應於來自 使用者之指示,切換階層式集群分析之結果之顯示態樣。
根據本發明第6態樣,可對應於來自使用者之指示,切換畫面所顯示之群組的個數(集群個數)。
根據本發明第7態樣,可對應於來自使用者之指示,切換群組所包含之單字之個數的上限值。
根據本發明第8態樣,對使用者所指示之分析對象期間內之文字資料所包含之單字進行階層式集群分析之結果被顯示於畫面。因此,使用者可容易地認知階層式集群分析之結果在時間上的變化。
根據本發明第9態樣,可對應於使用者所指示之分析目的,切換分析對象之單字種類並將進行階層式集群分析後之結果顯示於畫面。
根據本發明第10態樣,可將使用者所指示之單字除外,並將進行階層式集群分析後之結果顯示於畫面。
根據本發明第11態樣,可將使用者所指示之複數個單字視為相同單字,並將進行階層式集群分析後之結果顯示於畫面。
根據本發明第12態樣,可將使用者所指示之複數個單字合併為1個單字,並將進行階層式集群分析後之結果顯示於畫面。
根據本發明第13、第19或第25態樣,分析結果畫面與分析設定畫面被顯示。因此,使用者可使用分析設定畫面而容易地切換進行階層式集群分析後之結果之顯示態樣。
5‧‧‧文字資料
10‧‧‧文字探勘裝置
11‧‧‧指示輸入部
12‧‧‧文字分析部
13‧‧‧畫面生成部
14‧‧‧分析結果顯示部
20‧‧‧電腦
21‧‧‧CPU
22‧‧‧主記憶體
23‧‧‧儲存部
24‧‧‧輸入部
25‧‧‧顯示部
26‧‧‧通信部
27‧‧‧記錄媒體讀取部
28‧‧‧鍵盤
29‧‧‧滑鼠
30‧‧‧記錄媒體
31‧‧‧文字探勘程式
40‧‧‧顯示畫面
41、61~68‧‧‧分析結果畫面
42‧‧‧分析設定畫面
51‧‧‧資料指定畫面
52‧‧‧目的指定畫面
53‧‧‧近義詞列表選擇畫面
54‧‧‧複合詞列表選擇畫面
m‧‧‧群組數(集群數)
n‧‧‧群組內之最多資料數
W1~W6‧‧‧單字
圖1係顯示本發明實施形態之文字探勘裝置之構成之方塊圖。
圖2係顯示作為圖1所示之文字探勘裝置而發揮功能之電腦之構成之方塊圖。
圖3係顯示圖1所示之文字探勘裝置之顯示畫面之圖。
圖4係顯示圖1所示之文字探勘裝置之動作之流程圖。
圖5係圖1所示之文字探勘裝置之畫面資料生成處理之流程圖。
圖6係顯示圖1所示之文字探勘裝置之資料指定畫面之圖。
圖7係顯示被輸入於圖1所示之文字探勘裝置之文字資料之例子之圖。
圖8係顯示圖1所示之文字探勘裝置之目的指定畫面之圖。
圖9係顯示圖1所示之文字探勘裝置之近義詞列表選擇畫面之圖。
圖10係顯示圖1所示之文字探勘裝置之複合詞列表選擇畫面之圖。
圖11A係顯示於圖1所示之文字探勘裝置中設定分析對象期間前之分析結果畫面之圖。
圖11B係顯示於圖1所示之文字探勘裝置中設定分析對象期間後之分析結果畫面之圖。
圖12A係顯示於圖1所示之文字探勘裝置中進行單字除外前之分析結果畫面之圖。
圖12B係顯示於圖1所示之文字探勘裝置中進行單字除外後之分析結果畫面之圖。
圖13A係顯示於圖1所示之文字探勘裝置中進行近義詞登錄前之分析結果畫面之圖。
圖13B係顯示於圖1所示之文字探勘裝置中進行近義詞登錄後之分析結果畫面之圖。
圖14A係顯示於圖1所示之文字探勘裝置中進行複合詞登錄前之分析結果畫面之圖。
圖14B係顯示於圖1所示之文字探勘裝置中進行複合詞登錄後之分析結果畫面之圖。
圖15係顯示樹狀圖之例子之圖。
圖16係顯示對圖15所示之樹狀圖設定集群數之情況之圖。
圖17係顯示在圖式及其說明所出現之單字之圖。
以下,參照圖式,對本發明實施形態之文字探勘方法、文字探勘程式、及文字探勘裝置進行說明。本實施形態之文字探勘方法,通常係使用電腦來執行。本實施形態之文字探勘程式係為了使用電腦來實施文字探勘方法之程式。本實施形態之文字探勘裝置通常係使用電腦所構成。執行文字探勘程式之電腦係作為文字探勘裝置而發揮功能。
圖1係顯示本發明之實施形態之文字探勘裝置之構成之方塊圖。圖1所示之文字探勘裝置10具備有指示輸入部11、文字分析部12、畫面生成部13、及分析結果顯示部14。於文字探勘裝置10輸入有分析對象之文字資料5。文字探勘裝置10對自被輸入之文字資料5所擷取之單字進行階層式集群分析,並將分析結果顯示於畫面。
文字探勘裝置10之動作的概要如以下所述。於指示輸入部11輸入有來自使用者之指示。文字分析部12自被輸入之文字資料5擷取單字,並對所擷取之單字進行階層式集群分析。畫面生成部13根據文字分析部12之分析結果來生成畫面資料。分析結果顯示部14根據由畫面生成部13所生成之畫面資料來顯示畫面。
被輸入至指示輸入部11之來自使用者之指示,包含群組數之設定、群組內之最多資料數之設定、分析對象期間之設定、單字除外、近義詞登錄、複合詞登錄等。於文字資料5為具有年月日或時刻等之資訊之時間序列資料之情形時,文字分析部12對被輸入之文字資料5中在指示輸入部11被設定之分析對象期間內之文字資料所包含之單字,進行階層式集群分析。
畫面生成部13在生成畫面資料時,係依照群組數與群組內之最多資料數(細節將如後述之)。又,於使用者輸入新的指示時,在所指示之處理被進行後,畫面生成部13生成新的畫面資料,而分析結果顯示部14顯示新的畫面。如此,文字探勘裝置10對應於來自使用者之指示,切換文字資料5之分析態樣與分析結果之顯示態樣。
圖2係顯示作為文字探勘裝置10而發揮功能之電腦之構成之方塊圖。圖2所示之電腦20,具備有CPU(Central Processing Unit;中央處理單元)21、主記憶體22、儲存部23、輸入部24、顯示部25、通信部26、及記錄媒體讀取部27。主記憶體22例如使用DRAM(Dynamic Random Access Memory;動態隨機存取記憶體)。儲存部23例如使用硬碟(Hard Disk)或固態硬碟(Solid State Drive)。輸入部24例如包含有鍵盤(Keyboard)28與滑鼠 (Mouse)29。顯示部25例如使用液晶顯示器。通信部26係有線通信或無線通信之介面電路。記錄媒體讀取部27係儲存有程式等之記錄媒體30之介面電路。記錄媒體30例如使用CD-ROM(Compact Disc Read-Only Memory;唯讀記憶光碟)、DVD-ROM(Digital Versatile Disc Read-Only Memory;數位多功能影音唯讀記憶光碟)、USB(Universal Serial Bus;通用序列匯流排)記憶體等非過渡性之記錄媒體。
於電腦20執行文字探勘程式31之情形時,儲存部23儲存文字探勘程式31與文字資料5。文字探勘程式31與文字資料5例如既可為使用通信部26自伺服器或其他電腦接收者,亦可為使用記錄媒體讀取部27自記錄媒體30所讀取者。
於執行文字探勘程式31時,文字探勘程式31與文字資料5被複製傳送至主記憶體22。CPU 21將主記憶體22作為作業用記憶體來使用,藉由執行被儲存於主記憶體22之文字探勘程式31,來處理被儲存於主記憶體22之文字資料5。此時,電腦20作為文字探勘裝置10而發揮功能。再者,以上所述之電腦20之構成僅為一例,可使用任意之電腦來構成文字探勘裝置10。
以下,文字資料5設為包含日文單字之日文資料。圖17係顯示圖式及其說明所出現之單字之圖。於圖17之各列記載有單字(日文單字)與單字的意思。於以下之說明中在提及日文單字時,有時會在單字後之括號內記載單字的意思。再者,文字資料5亦可為任意語言的資料。
圖3係顯示文字探勘裝置10之顯示畫面之圖。圖3所示之顯示畫面40,包含有分析結果畫面41與分析設定畫面42。 於分析結果畫面41顯示有文字分析部12之分析結果。於分析設定畫面42顯示有GUI(圖形化使用者介面;Graphical User Interface)元件,該GUI元件係用以設定文字分析部12之分析態樣與畫面生成部13所生成之畫面資料的特性。
若對階層式集群分析之結果設定集群數,則決定各集群所包含之單字。於將對自文字資料5擷取之單字進行階層式集群分析後之結果顯示於畫面時,文字探勘裝置10係以圖3所示之態樣顯示與集群對應之群組,以取代樹狀圖。
於以下之說明中,將於畫面所顯示之集群亦稱為群組。使用者使用指示輸入部11,來指定群組數(集群數)與群組內之最多資料數(群組所包含之單字數之上限值)。以下,將前者設為m,後者設為n。
在文字探勘裝置10中,文字資料5所包含之單字係分類為m個集群,且各集群包含有1個以上之單字。於分析結果畫面41顯示有m個群組,於各群組之內部顯示有單字。群組係使用雲狀圖形來顯示,群組所包含之單字係顯示於橢圓區域之內部。各群組所包含之單字被限制在n個以下。例如,在n=5之時的集群包含有10個單字之情形時,在分析結果畫面41中,於群組之內部顯示有5個單字。
於分析設定畫面42顯示有用以設定群組數m之第1滑動條與2個第1按鈕(標示有記號「+」或「-」者)、用以設定群組內之最多資料數n之第2滑動條與2個第2按鈕、及用以設定分析對象期間之4個方框與2個第3按鈕(標示有向左箭頭或向右箭頭者)。
使用者藉由操作滑鼠29,使第1滑動條之捲動塊朝左右移動或按下第1按鈕,來指示群組數m。群組數m於標示有記號「+」之第1按鈕被按下時會增加,於標示有記號「-」之第1按鈕被按下時則會減少。群組數m之初始值,例如被設定為文字分析部12之分析結果所包含之單字之種類的平方根,或者為接近該平方根之整數。例如,於文字分析部12之分析結果包含有16種類之單字之情形時,群組數m之初始值係設定為4。
使用者藉由操作滑鼠29,使第2滑動條之捲動塊朝左右移動或按下第2按鈕,來指示群組內之最多資料數n。群組內之最多資料數n於第2按鈕被按下時會增加或減少。群組內之最多資料數n之初始值,例如被設定為5。
於文字資料5為時間序列資料之情形時,使用者藉由操作鍵盤28或滑鼠29,使用4個方框來指定年月日與時刻或按下第3按鈕,來指示分析對象期間。分析對象期間於標示有向左箭頭之第3按鈕被按下時,朝向過去移動既定量(例如1個月),而於標示有向右箭頭之第3按鈕被按下時則朝向相反方向移動既定量。分析對象期間之初始值,例如被設定為自文字資料5最舊之時刻至最新之時刻之期間。再者,於文字資料5並非時間序列資料之情形時,使用者無法指定分析對象期間。
於分析結果畫面41顯示有1個以上且m個以下之群組,於各群組之內部顯示有1個以上且n個以下之單字。各群組在畫面內,對應之集群所包含之單字之出現頻率之合計越大者越被放大地顯示。於集群所包含之單字數超過n個之情形時,於群組之內部顯示出現頻率高之n個單字。群組所包含之單字與包含該等之橢 圓區域,在畫面內單字之出現頻率越高者越被放大地顯示。於各群組標示有名稱。群組之名稱係使用集群所包含之單字中出現頻率最高之單字。群組之名稱係於群組之內部標示底線來顯示。再者,於在橢圓區域之內部無法顯示單字之情形時,取代單字而顯示記號「...」。
於分析結果畫面41顯示有用以指定縮放倍率之第3滑動條及2個第4按鈕(標示有記號「+」或「-」者)。使用者藉由操作滑鼠29,使第3滑動條之捲動塊朝左右移動或按下第4按鈕,來設定縮放倍率。於分析結果畫面41,包含單字之群組係對應於所設定之縮放倍率而放大或縮小地被顯示。縮放倍率之初始值係設定為100%。於初始狀態之分析結果畫面41,顯示有所有的群組。
於使用者在分析設定畫面42中變更群組數m、群組內之最多資料數n、或分析對象期間時,分析結果畫面41之內容係與該等對應地產生變化。於使用者在分析結果畫面41中指示單字除外、近義詞登錄、或複合詞登錄時,分析結果畫面41之內容也與該等對應地產生變化。
於對自文字資料5所擷取之單字進行階層式集群分析時,文字探勘裝置10參照儲存有應除外之單字之除外單字列表、儲存有應作為近義詞來處理之單字之近義詞列表、及儲存有應作為複合詞來處理之單字之複合詞列表。具有相同意思(或大致相同意思)之複數個單字與代表該等單字之1個單字被建立對應而被儲存於近義詞列表。若加以連結便成為1個複合詞之複數個單字與連結該等單字之複合詞被建立對應而被儲存於複合詞列表。例如「daigakusei(大學生)」及「gakusei(學生)」與代表兩者之「daigakusei」 被建立對應而被儲存於近義詞列表。例如「nintai(忍耐)」及「tsuyoi(強)」與連結兩者之「nintaizuyoi(忍耐力高)」被建立對應而被儲存於複合詞列表。文字探勘裝置10存在有具有複數個近義詞列表與複數個複合詞列表之情形。
圖4係顯示文字探勘裝置10之動作之流程圖。圖5係顯示文字探勘裝置10之畫面資料生成處理(圖4所示之步驟S111)之細節之流程圖。輸入部24與執行步驟S113之CPU 21係作為指示輸入部11而發揮功能。執行步驟S109~S110之CPU 21係作為文字分析部12而發揮功能。執行步驟S111之CPU 21係作為畫面生成部13而發揮功能。顯示部25與執行步驟S112之CPU 21係作為分析結果顯示部14而發揮功能。以下,參照圖4及圖5而對文字探勘裝置10之動作進行說明。
首先,CPU 21使顯示部25顯示圖6所示之資料指定畫面51(步驟S101)。於資料指定畫面51顯示有用以指定檔案名稱之方框、及用以指定資料夾名之方框。使用者藉由於資料指定畫面51中指定檔案名稱或資料夾名,來指定分析對象之文字資料5。文字資料5既可被儲存於硬碟等之儲存部23,亦可被儲存於使用通信部26所連接之伺服器或其他電腦等。
接著,CPU 21將使用資料指定畫面51所指定之文字資料5傳送至主記憶體22。藉此,文字資料5被輸入至文字探勘裝置10(步驟S102)。圖7係顯示文字資料5之例子之圖。圖7所示之文字資料係大學生所製作之報告之資料,且為具有年月日之資訊之時間序列資料。圖7所示之文字資料,自上依序為「關於本授課內容中大學生與社會之關係...」、「一般大學生畢業後在出社會前打 工或...」、「我們學生要有認知是付了昂貴的學費在學習...」、及「學生生活是為了使自我信心成長很珍貴的時間。而且...」。再者,文字探勘裝置10所分析之文字資料5之種類為任意。
接著,CPU 21使顯示部25顯示圖8所示之目的指定畫面52(步驟S103)。於目的指定畫面52顯示有對應於內容、特徵、及評價之3個選項按鈕(Radio Button)。使用者藉由操作滑鼠29按下任一選項按鈕,而自內容、特徵、及評價之中選擇分析目的。接著,CPU 21接收使用目的指定畫面52所指定之分析目的。藉此,分析目的被輸入至文字探勘裝置10(步驟S104)。
接著,CPU 21使顯示部25顯示圖9所示之近義詞列表選擇畫面53(步驟S105)。於近義詞列表選擇畫面53顯示有文字探勘裝置10所具有近義詞列表之名稱、及被登錄於各近義詞列表之近義詞。使用者藉由操作滑鼠29,於近義詞列表選擇畫面53中選擇任一近義詞列表,來指定要使用之近義詞列表。藉此,在文字探勘裝置10中選擇近義詞列表(步驟S106)。
接著,CPU 21使顯示部25顯示圖10所示之複合詞列表選擇畫面54(步驟S107)。於複合詞列表選擇畫面54顯示有文字探勘裝置10所具有複合詞列表之名稱、及被登錄於各複合詞列表之複合詞。使用者藉由操作滑鼠29,於複合詞列表選擇畫面54中選擇任一複合詞列表,來指定要使用之複合詞列表。藉此,在文字探勘裝置10中選擇複合詞列表(步驟S108)。
接著,CPU 21考量除外單字列表、近義詞列表、及複合詞列表,而自在步驟S102被輸入之文字資料5中屬於分析對象期間內之文字資料,擷取對應於在步驟S104所指定之分析目的 之種類之單字(步驟S109)。CPU 21在分析目的為「內容」之情形時,自文字資料5擷取名詞、專有名詞、地名、及人名。CPU 21在分析目的為「特徵」之情形時,係自文字資料5擷取名詞、專有名詞、(SA)行變格活用名詞、及動詞。CPU 21在分析目的為「評價」之情形時,自文字資料5擷取形容詞、形容動詞、及感嘆詞。再者,文字探勘裝置10亦可支援前述之3個以外之分析目的。又,CPU 21亦可根據各分析目的而擷取與前述不同種類之單字。
於文字資料5為時間序列資料之情形時,CPU 21在執行步驟S109時,僅自文字資料5中由使用者所指示之分析對象期間所包含之文字資料擷取單字。又,於單字W1被儲存於除外單字列表之情形時,CPU 21在執行步驟S109時會完全忽略文字資料5所包含之單字W1。又,於單字W2及單字W3與代表兩者之單字W2被建立對應而被儲存於所選擇之近義詞列表之情形時,CPU 21在執行步驟S109時,會將文字資料5所包含之單字W3全部作為單字W2來處理。又,於單字W4及單字W5與連結兩者之單字W6被建立對應而被儲存於所選擇之複合詞列表之情形時,CPU 21在執行步驟S109時,會將文字資料5所包含之連接之單字W4與單字W5全部作為單字W6來處理。
接著,CPU 21對在步驟S109所擷取之單字進行階層式集群分析(步驟S110)。CPU 21於步驟S110中,例如根據文字資料5中2個單字間之距離(2個單字呈現分開什麼程度的距離),來求得2個單字間之相似度。CPU 21根據所求得之單字間之相似度,而使用既定之方法(例如,最短距離法、最長距離法、群平均法、十進位法、華德法(Ward’s Method)等)進行階層式集群分析。又, CPU 21在步驟S110中,求得各單字之出現頻率。
接著,CPU 21根據在步驟S110所求得之階層式集群分析之結果,來生成用以顯示分析結果之畫面資料(步驟S111)。CPU 21在步驟S111中,進行圖5所示之處理。
CPU 21將群組數設為m,並將群組內之最多資料數設為n(步驟S201)。接著,CPU 21針對階層式集群分析之結果,將集群數設定為m,來求得m個集群(步驟S202)。接著,CPU 21針對各集群,來求得集群所包含之單字之出現頻率之合計(步驟S203)。接著,CPU 21根據在步驟S203所求得之出現頻率之合計,來決定各群組之顯示尺寸(步驟S204)。在步驟S204中,集群所包含之單字之出現頻率之合計越大,群組之顯示尺寸便被決定為越大。
接著,CPU 21針對各集群,自集群所包含之單字中選擇應顯示之單字(步驟S205)。在步驟S205中,自各集群所包含之單字中,依出現頻率高之順序,被選擇出n個以下之單字。接著,CPU 21針對在步驟S205所選擇之各單字,根據單字之出現頻率來決定單字之顯示尺寸(步驟S206)。在步驟S206中,出現頻率越高之單字,單字之顯示尺寸便被決定為越大。
接著,CPU 21生成用以顯示階層式集群分析之結果之畫面資料(步驟S207)。在步驟S207所生成之畫面資料,包含具有在步驟S204所決定之尺寸之m個群組(以雲狀圖形來表示)。於各群組之內部,包含具有在步驟S206所決定之尺寸之n個以下之單字。單字在畫面內,被顯示於群組之內部。CPU 21於執行步驟S207之後,結束畫面資料生成處理。
接著,CPU 21使顯示部25顯示基於在步驟S111所生成之畫面資料的畫面(步驟S112)。接著,CPU 21接收來自使用者之指示(步驟S113)。接著,CPU 21根據在步驟S113所接收之指示之種類,前進至步驟S115~S120中之任一者(步驟S114)。
CPU 21於在步驟S113所接收之指示為「群組數之設定」之情形時,朝向步驟S115前進。於該情形時,CPU 21將群組數m設定為使用者所指示之值(步驟S115),並朝向步驟S111前進。其後,根據所設定之群組數m生成畫面資料,並顯示新的畫面。藉此,包含所指定之個數之群組之分析結果畫面被顯示。
CPU 21於在步驟S113所接收之指示為「群組內之最多資料數之設定」之情形時,朝向步驟S116前進。於該情形時,CPU 21將群組內之最多資料數n設定為使用者所指示之值(步驟S116),並朝向步驟S111前進。其後,根據所設定之群組內之最多資料數n生成畫面資料,並顯示新的畫面。藉此,各群組所包含之單字個數被限制在所指定之值以下之分析結果畫面被顯示。
CPU 21於在步驟S113所接收之指示為「分析對象期間之設定」之情形時,朝向步驟S117前進。於該情形時,CPU 21將分析對象期間設定為使用者所指示之期間(步驟S117),並朝向步驟S109前進。其後,參照所設定之分析對象期間進行階層式集群分析,生成用以顯示新的分析結果之畫面資料,並顯示新的畫面。藉此,針對所指定之分析對象期間內之文字資料所包含之單字,進行階層式集群分析之結果被顯示於畫面。
圖11A係顯示設定分析對象期間前之分析結果畫面之圖。圖11B係顯示設定分析對象期間後之分析結果畫面之圖。於 圖11A所示之設定前之分析結果畫面61,顯示有對所輸入之文字資料5中自2014年1月1日0時0分至2015年12月31日24時0分為止之文字資料所包含之單字進行階層式集群分析之結果。於圖11B所示之設定後之分析結果畫面62,顯示有對所輸入之文字資料5中自2014年3月1日0時0分至2014年9月30日24時0分為止之文字資料所包含之單字進行階層式集群分析之結果。分析結果畫面61之顯示內容與分析結果畫面62之顯示內容不同。使用者可藉由觀察設定分析對象期間前後之分析結果畫面,而容易地認知階層式集群分析結果在時間上的變化。
CPU 21於在步驟S113所接收之指示為「單字除外」之情形時,朝向步驟S118前進。於該情形時,CPU 21將所指定之單字追加至除外單字列表(步驟S118),並朝向步驟S109前進。其後,將所指定之單字除外而進行階層式集群分析,生成用以顯示新的分析結果之畫面資料,並顯示新的畫面。藉此,將所指定之單字除外而進行階層式集群分析之結果,被顯示於畫面。
圖12A係顯示進行單字除外前之分析結果畫面之圖。圖12B係顯示進行單字除外後之分析結果畫面之圖。使用者操作滑鼠29,於選擇應除外之單字之後,指示進行單字除外。在圖12A所示之單字除外前之分析結果畫面63中,選擇「shakai(社會)」,並自選單中選擇「單字除外」。其後,將「shakai」除外而進行階層式集群分析之結果被顯示於畫面。於圖12B所示之單字除外後之分析結果畫面64,取代「shakai」而顯示「shingaku(升學)」。在與「shakai」相同集群所包含之單字中,「shingaku」係僅次於分析結果畫面63所顯示之5個單字,出現頻率最高者。
CPU 21於在步驟S113所接收之指示為「近義詞登錄」之情形時,朝向步驟S119前進。於該情形時,CPU 21將所指示之單字追加至使用中之近義詞列表(步驟S119),並朝向步驟S109前進。其後,考量所指示之近義詞而進行階層式集群分析,生成用以顯示新的分析結果之畫面資料,並顯示新的畫面。藉此,將所指示之單字作為近義詞而進行階層式集群分析之結果,被顯示於畫面。
圖13A係顯示進行近義詞登錄前之分析結果畫面之圖。圖13B係顯示進行近義詞登錄後之分析結果畫面之圖。使用者操作滑鼠29,於選擇應作為近義詞登錄之複數個單字後,指示進行近義詞登錄。在圖13A所示之近義詞登錄前之分析結果畫面65中,選擇「daigakusei(大學生)」與「gakusei(學生)」,並自選單中選擇「近義詞登錄」。其後,將「daigakusei」與「gakusei」作為近義詞而進行階層式集群分析後之結果,被顯示於畫面。在圖13B所示之近義詞登錄後之分析結果畫面66中,「daigakusei」以較分析結果畫面65更大之尺寸被顯示,且「shingaku(升學)」取代「gakusei」而被顯示。根據「daigakusei」之出現頻率與「gakusei」之出現頻率之合計,「daigakusei」係以較分析結果畫面65內之「daigakusei」更大之尺寸被顯示。
CPU 21於在步驟S113所接收之指示為「複合詞登錄」之情形時,朝向步驟S120前進。於該情形時,CPU 21將所指示之單字追加至使用中之複合詞列表(步驟S120),並朝向步驟S109前進。其後,考量所指示之複合詞而進行階層式集群分析,生成用以顯示新的分析結果之畫面資料,並顯示新的畫面。藉此,將所指定之單字作為複合詞而進行階層式集群分析之結果被顯示於畫面。
圖14A係顯示進行複合詞登錄前之分析結果畫面之圖。圖14B係顯示進行複合詞登錄後之分析結果畫面之圖。使用者於操作滑鼠29來選擇應作為複合詞而加以登錄之複數個單字後,指示進行「近義詞登錄」。在圖14A所示之複合詞登錄前之分析結果畫面67中,「nintai(忍耐)」與「tsuyoi(強)」被選擇,且「複合詞登錄」自選單中被選擇。其後,將「nintai」與「tsuyoi」作為複合詞而進行階層式集群分析後之結果被顯示於畫面。在圖14B所示之複合詞登錄後之分析結果畫面68中,取代「nintai」及「tsuyoi」,而以「nintai」及「tsuyoi」以下之尺寸來顯示「nintaizuyoi(忍耐力高)」。
如以上所示,本實施形態之文字探勘方法具備有:文字分析步驟,其對自被輸入之文字資料所擷取之單字進行階層式集群分析;畫面生成步驟,其根據文字分析步驟之分析結果,生成畫面資料;及分析結果顯示步驟,其根據畫面資料來顯示畫面。畫面生成步驟,根據群組數m與群組內之最多資料數n,自分析結果求得m個集群,而生成用以將包含n個以下之集群所包含之單字之群組顯示於畫面之畫面資料。根據本實施形態之文字探勘方法,可根據對文字資料所包含之單字進行階層式集群分析之結果,使含有集群所包含之單字之群組被顯示於畫面。又,群組所包含單字的數量,被限制在n個以下。因此,使用者在看到畫面時,可直觀地理解階層式集群分析之結果。
又,群組所包含之單字係自對應於群組之集群所包含之單字中,依出現頻率高之順序所選擇。因此,於群組之內部,顯示有集群所包含之單字中出現頻率高之單字。因此,使用者可容易 地認知各集群所包含之出現頻率高之單字。又,群組在畫面內具有對應於與群組對應之集群所包含之單字之出現頻率之合計的尺寸。因此,使用者可容易地認知單字出現頻率之合計較大之集群。又,群組所包含之單字在畫面內具有對應於單字之出現頻率之尺寸。因此,使用者可容易地認知出現頻率高之單字。
又,文字探勘方法具備有用以輸入來自使用者之指示之指示輸入步驟,且文字分析步驟及畫面生成步驟之任一者係根據在指示輸入步驟所輸入之指示來執行。因此,可根據來自使用者之指示,切換階層式集群分析之結果之顯示態樣。尤其,指示輸入步驟接收群組數m之設定指示,而畫面生成步驟根據在指示輸入步驟所指定之群組數m來生成畫面資料。藉此,根據來自使用者之指示,切換顯示於畫面之區域個數(集群個數)。又,指示輸入步驟接收群組內之最多資料數n,而畫面生成步驟根據在指示輸入步驟所指定之群組內之最多資料數n來生成畫面資料。藉此,根據來自使用者之指示,切換於區域內所顯示單字的個數。
又,指示輸入步驟接收分析對象期間之指示,而文字分析步驟對文字資料中在指示輸入步驟所指定之分析對象期間內之文字資料所包含之單字進行階層式集群分析。因此,對使用者所指示之分析對象期間內之文字資料所包含之單字進行階層式集群分析之結果被顯示於畫面。因此,使用者可容易地認知階層式集群分析之結果在時間上的變化。又,指示輸入步驟接收分析目的之設定指示,而文字分析步驟自文字資料5擷取對應於在指示輸入步驟所設定之分析目的之種類之單字,來進行階層式集群分析。藉此,可根據使用者所指示之分析目的來切換分析對象之單字種類,並將 進行階層式集群分析之結果顯示於畫面。
又,指示輸入步驟接收單字除外指示,而文字分析步驟將在指示輸入步驟所指示之單字除外,而進行階層式集群分析。藉此,可將使用者所指示之單字除外而顯示進行階層式集群分析之結果。又,指示輸入步驟接收近義詞登錄指示,而文字分析步驟將在指示輸入步驟所指示之複數個單字視為相同之單字,而進行階層式集群分析。藉此,可將使用者所指示之複數個單字視為相同單字並將進行階層式集群分析之結果顯示於畫面。又,指示輸入步驟接收複合詞登錄指示,而文字分析步驟將在指示輸入步驟所指示之複數個單字合併為1個單字,而進行階層式集群分析。藉此,可將使用者所指示之複數個單字合併為1個單字並將進行階層式集群分析之結果顯示於畫面。
又,畫面生成步驟生成畫面資料,該畫面資料係用以顯示包含群組之分析結果畫面、及用以設定分析結果畫面之顯示態樣之分析設定畫面。因此,分析結果畫面與分析設定畫面被顯示。因此,使用者可使用分析設定畫面而容易地切換進行階層式集群分析之結果之顯示態樣。
本實施形態之文字探勘程式31、及本實施形態之文字探勘裝置10具有與本實施形態之文字探勘處理方法相同之構成,而發揮相同之效果。
根據本實施形態之文字探勘方法、文字探勘程式、及文字探勘裝置,可根據對文字資料所包含之單字進行階層式集群分析之結果,使包含最多資料數以下之集群所包含之單字之群組被顯示於畫面。因此,使用者在看到畫面時,可直觀地理解階層式集群 分析之結果。
再者,本案係主張根據在2016年7月25日所提出申請之發明名稱為「文字探勘方法、文字探勘程式、及文字探勘裝置」之日本專利特願2016-145065號之優先權而提出申請案,該等申請之內容係藉由引用而包含於本申請案。
40‧‧‧顯示畫面
41‧‧‧分析結果畫面
42‧‧‧分析設定畫面

Claims (25)

  1. 一種文字探勘方法,係將文字資料之分析結果顯示於畫面者;其特徵在於,其具備有:文字分析步驟,其對自被輸入之文字資料所擷取之單字進行階層式集群分析;畫面生成步驟,其根據上述文字分析步驟之分析結果來生成畫面資料;及分析結果顯示步驟,其根據上述畫面資料來顯示畫面;上述畫面生成步驟根據群組數與群組內之最多資料數,自上述分析結果求得上述群組數之集群,而生成用以將包含上述最多資料數以下之上述集群所包含之單字之群組顯示於畫面之畫面資料。
  2. 如請求項1之文字探勘方法,其中,上述群組所包含之單字係自對應於上述群組之集群所包含之單字中,依出現頻率高之順序所選擇。
  3. 如請求項2之文字探勘方法,其中,上述群組在上述畫面內,具有對應於與上述群組對應之集群所包含之單字之出現頻率之合計的尺寸。
  4. 如請求項3之文字探勘方法,其中,上述群組所包含之單字在上述畫面內,具有對應於上述單字之出現頻率的尺寸。
  5. 如請求項1之文字探勘方法,其中,進一步具備有用以輸入來自使用者之指示之指示輸入步驟,上述文字分析步驟及上述畫面生成步驟之任一者,係根據在上述指示輸入步驟所輸入之指示而被執行。
  6. 如請求項5之文字探勘方法,其中,上述指示輸入步驟接收上 述群組數之設定指示,上述畫面生成步驟根據在上述指示輸入步驟所設定之群組數,來生成上述畫面資料。
  7. 如請求項5之文字探勘方法,其中,上述指示輸入步驟接收上述最多資料數之設定指示,上述畫面生成步驟根據在上述指示輸入步驟所設定之最多資料數,來生成上述畫面資料。
  8. 如請求項5之文字探勘方法,其中,上述指示輸入步驟接收分析對象期間之設定指示,上述文字分析步驟對上述文字資料中在上述指示輸入步驟所設定之分析對象期間內之文字資料所包含之單字,進行上述階層式集群分析。
  9. 如請求項5之文字探勘方法,其中,上述指示輸入步驟接收分析目的之設定指示,上述文字分析步驟自上述文字資料擷取對應於在上述指示輸入步驟所設定之分析目的之種類的單字,來進行上述階層式集群分析。
  10. 如請求項5之文字探勘方法,其中,上述指示輸入步驟接收單字除外指示,上述文字分析步驟將在上述指示輸入步驟所指示之單字除外,而進行上述階層式集群分析。
  11. 如請求項5之文字探勘方法,其中,上述指示輸入步驟接收近義詞登錄指示,上述文字分析步驟將在上述指示輸入步驟所指示之複數個單字 視為相同之單字,而進行上述階層式集群分析。
  12. 如請求項5之文字探勘方法,其中,上述指示輸入步驟接收複合詞登錄指示,上述文字分析步驟將在上述指示輸入步驟所指示之複數個單字合併為1個單字,而進行上述階層式集群分析。
  13. 如請求項1之文字探勘方法,其中,上述畫面生成步驟生成畫面資料,該畫面資料係用以顯示包含上述群組之分析結果畫面、及用以設定上述分析結果畫面之顯示態樣之分析設定畫面。
  14. 一種電腦可讀取之記錄媒體,其記錄有將文字資料之分析結果顯示於畫面之文字探勘程式,其特徵在於,CPU利用記憶體使電腦執行如下之步驟:文字分析步驟,其對自被輸入之文字資料所擷取之單字進行階層式集群分析;畫面生成步驟,其根據上述文字分析步驟之分析結果,來生成畫面資料;及分析結果顯示步驟,其根據上述畫面資料來顯示畫面;上述畫面生成步驟根據群組數與群組內之最多資料數,自上述分析結果求得上述群組數之集群,而生成用以將包含上述最多資料數以下之上述集群所包含之單字之群組顯示於畫面之畫面資料。
  15. 如請求項14之電腦可讀取之記錄媒體,其中,上述群組所包含之單字係自對應於上述群組之集群所包含之單字中,依出現頻率高之順序所選擇。
  16. 如請求項15之電腦可讀取之記錄媒體,其中,上述群組在上述畫面內,具有對應於與上述群組對應之集群所包含之單字之出現 頻率之合計的尺寸。
  17. 如請求項16之電腦可讀取之記錄媒體,其中,上述群組所包含之單字在上述畫面內,具有對應於上述單字之出現頻率的尺寸。
  18. 如請求項14之電腦可讀取之記錄媒體,其中,使上述電腦進一步執行用以輸入來自使用者之指示之指示輸入步驟,上述文字分析步驟及上述畫面生成步驟之任一者,係根據在上述指示輸入步驟所輸入之指示而被執行。
  19. 如請求項14之電腦可讀取之記錄媒體,其中,上述畫面生成步驟生成畫面資料,該畫面資料係用以顯示包含上述群組之分析結果畫面、及用以設定上述分析結果畫面之顯示態樣之分析設定畫面。
  20. 一種文字探勘裝置,係將文字資料之分析結果顯示於畫面者,其特徵在於,其具備有:文字分析部,其對自被輸入之文字資料所擷取之單字進行階層式集群分析;畫面生成部,其根據上述文字分析部之分析結果,來生成畫面資料;及分析結果顯示部,其根據上述畫面資料來顯示畫面;上述畫面生成部根據群組數與群組內之最多資料數,自上述分析結果求得上述群組數之集群,而生成用以將包含上述最多資料數以下之上述集群所包含之單字之群組顯示於畫面之畫面資料。
  21. 如請求項20之文字探勘裝置,其中,上述群組所包含之單字係自對應於上述群組之集群所包含之單字中,依出現頻率高之順序進行所選擇。
  22. 如請求項21之文字探勘裝置,其中,上述群組在上述畫面內,具有對應於與上述群組對應之集群所包含之單字之出現頻率之合計的尺寸。
  23. 如請求項22之文字探勘裝置,其中,上述群組所包含之單字在上述畫面內,具有對應於上述單字之出現頻率的尺寸。
  24. 如請求項20之文字探勘裝置,其中,進一步具備有用以輸入來自使用者之指示之指示輸入部,上述文字分析部及上述畫面生成部之任一者,根據在上述指示輸入部所輸入之指示來動作。
  25. 如請求項20之文字探勘裝置,其中,上述畫面生成部生成畫面資料,該畫面資料係用以顯示包含上述群組之分析結果畫面、及用以設定上述分析結果畫面之顯示態樣之分析設定畫面。
TW106122011A 2016-07-25 2017-06-30 文字探勘方法、記錄有文字探勘程式之電腦可讀取之記錄媒體及文字探勘裝置 TWI686716B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016145065A JP6794162B2 (ja) 2016-07-25 2016-07-25 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
JP2016-145065 2016-07-25

Publications (2)

Publication Number Publication Date
TW201807597A true TW201807597A (zh) 2018-03-01
TWI686716B TWI686716B (zh) 2020-03-01

Family

ID=61015910

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106122011A TWI686716B (zh) 2016-07-25 2017-06-30 文字探勘方法、記錄有文字探勘程式之電腦可讀取之記錄媒體及文字探勘裝置

Country Status (5)

Country Link
JP (1) JP6794162B2 (zh)
KR (1) KR102180487B1 (zh)
CN (1) CN109478191B (zh)
TW (1) TWI686716B (zh)
WO (1) WO2018020842A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7078429B2 (ja) * 2018-03-20 2022-05-31 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
US11636144B2 (en) 2019-05-17 2023-04-25 Aixs, Inc. Cluster analysis method, cluster analysis system, and cluster analysis program
WO2021171373A1 (ja) * 2020-02-25 2021-09-02 日本電気株式会社 アイテム分類支援システム、方法およびプログラム
EP4266186A4 (en) * 2020-12-16 2024-01-17 Fujitsu Limited INFORMATION PROCESSING PROGRAM, INFORMATION PROCESSING METHOD, AND INFORMATION PROCESSING DEVICE

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3577819B2 (ja) * 1995-07-14 2004-10-20 富士ゼロックス株式会社 情報探索装置及び情報探索方法
JP4404323B2 (ja) * 1999-02-05 2010-01-27 経済産業大臣 シソーラスブラウジングシステムと方法
US6611825B1 (en) 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
JP2003044491A (ja) * 2001-07-30 2003-02-14 Toshiba Corp 知識分析システムならびに同システムにおける分析条件設定方法、分析条件保存方法および再分析処理方法
JP2005107688A (ja) * 2003-09-29 2005-04-21 Nippon Telegr & Teleph Corp <Ntt> 情報表示方法及びシステム及び情報表示プログラム
WO2005091170A1 (ja) * 2004-03-18 2005-09-29 Nec Corporation テキストマイニング装置、その方法及びプログラム
KR20090069874A (ko) * 2007-12-26 2009-07-01 한국과학기술정보연구원 지식맵 분석을 위한 키워드 선정 및 유사도계수 선정 방법및 그 시스템과 그 방법에 대한 컴퓨터 프로그램을 저장한기록매체
JP5022319B2 (ja) * 2008-08-04 2012-09-12 日本電信電話株式会社 テキストマイニング装置、方法、プログラム及びその記録媒体
JP5439261B2 (ja) 2010-04-01 2014-03-12 日本電信電話株式会社 クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
JP5545876B2 (ja) 2011-01-17 2014-07-09 日本電信電話株式会社 クエリ提供装置、クエリ提供方法及びクエリ提供プログラム
US9477704B1 (en) * 2012-12-31 2016-10-25 Teradata Us, Inc. Sentiment expression analysis based on keyword hierarchy
TW201516713A (zh) * 2013-10-16 2015-05-01 Chunghwa Telecom Co Ltd 基於群體特徵值的文件分類方法
CN104142918B (zh) * 2014-07-31 2017-04-05 天津大学 基于tf‑idf特征的短文本聚类以及热点主题提取方法
CN104504024B (zh) * 2014-12-11 2018-09-07 中国科学院计算技术研究所 基于微博内容的关键词挖掘方法及***
CN105550365A (zh) * 2016-01-15 2016-05-04 中国科学院自动化研究所 一种基于文本主题模型的可视化分析***

Also Published As

Publication number Publication date
JP6794162B2 (ja) 2020-12-02
TWI686716B (zh) 2020-03-01
KR102180487B1 (ko) 2020-11-18
CN109478191A (zh) 2019-03-15
CN109478191B (zh) 2022-04-08
JP2018018118A (ja) 2018-02-01
KR20190018480A (ko) 2019-02-22
WO2018020842A1 (ja) 2018-02-01

Similar Documents

Publication Publication Date Title
JP6185127B2 (ja) 電子文書の検索方法及び電子文書検索のグラフィカル表示方法
US9411482B2 (en) Visualizing user interfaces
US9690831B2 (en) Computer-implemented system and method for visual search construction, document triage, and coverage tracking
US8577834B2 (en) Methodologies and analytics tools for locating experts with specific sets of expertise
US20170032026A1 (en) Interactive visualization of big data sets and models including textual data
TWI686716B (zh) 文字探勘方法、記錄有文字探勘程式之電腦可讀取之記錄媒體及文字探勘裝置
Lohmann et al. Visual analysis of microblog content using time-varying co-occurrence highlighting in tag clouds
US10354003B2 (en) Data filtering based on a cell entry
KR101773574B1 (ko) 데이터 테이블의 차트 시각화 방법
Samet et al. Using animation to visualize spatio-temporal varying COVID-19 data
JP7281024B1 (ja) 求職者検索システム、情報処理方法及びプログラム
US20180300039A1 (en) Tree Frog Computer Navigation System for the Hierarchical Visualization of Data
JP6325132B2 (ja) データ収集装置、及びデータ収集方法
JP2014102625A (ja) 情報検索システム、プログラム、および方法
JP2016045552A (ja) 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置
JP2009134378A (ja) 文書群提示装置および文書群提示プログラム
Valkanas et al. A ui prototype for emotion-based event detection in the live web
JP2017528777A (ja) テキスト情報の入力方法及び装置
Moriyama et al. Visual user interface to supporting information seeking behavior in context searching
Nizamee et al. Visualizing the web search results with web search visualization using scatter plot
TWI703457B (zh) 文字探勘方法、文字探勘程式及文字探勘裝置
JP2014021916A (ja) 情報表示プログラム、情報表示装置
Arnold et al. News Visualization based on Semantic Knowledge.
JP2013190988A (ja) 文書分析装置および文書分析プログラム
Qureshi et al. A perspective-aware approach to search: visualizing perspectives in news search results