TWI477987B

TWI477987B - 新聞文本情緒傾向分析方法

Info

Publication number: TWI477987B
Application number: TW101140206A
Authority: TW
Inventors: yang cheng Lu; Jen Nan Chen; Sue Jin Ker; yu chen Wei
Original assignee: Univ Ming Chuan
Priority date: 2012-10-30
Filing date: 2012-10-30
Publication date: 2015-03-21
Also published as: CN103793371A; TW201416887A; CN103793371B

Description

新聞文本情緒傾向分析方法

本發明涉及一種新聞文本情緒傾向分析方法，尤指一種使用一有限狀態自動機(finite state automata)與一熵(entropy)值之新聞文本情緒傾向分析方法。

財經領域的新聞文本情緒傾向分析的相關研究證實，財經新聞的內容常會影響金融市場的股票價格、交易量，甚至公司未來的營收；因此其具有實際運用上的重要價值。

目前有關新聞文本情緒傾向分析的習知技藝中，已存在利用機器學習技術來自動判斷財經新聞的情緒傾向為樂觀或悲觀的技術。惟因該技術尚須經過情緒語言的模型訓練與測試，故必須收集相當數量之歷史資料以作為訓練之用，以及必須先行計算語料的詞彙機率分佈等資料，故其應用上較受限制，應尚有改善空間。

因此，如何進一步改善新聞文本情緒傾向分析的現有技術，以使其無須經過情緒語言的模型訓練與測試，及無須計算語料的詞彙機率分佈，以提高其使用效率，實為一值得進一步探討的議題。

職是之故，發明人鑒於習知技術之缺失，乃思及改良發明之意念，終能發明出本案之「新聞文本情緒傾向分析方法」。

本案之主要目的在於提出一種新聞文本情緒傾向分析方法，該方法具有不需建立語料的詞彙機率分佈，以分句為單位，經由有限狀態自動機推估分句的情緒傾向，以及整合各分句之情緒傾向，經由熵(entropy)值之計算，推估文本之情緒傾向等特色，具有提高新聞文本情緒傾向分析效率及縮短新聞文本情緒傾向分析方法之相關應用模組的建立時程等優點。

本案之又一主要目的在於提供一種用於分析一新聞文本之一情緒傾向之方法，包含：提供一情緒詞彙庫、一否定修飾詞彙庫與一有限狀態自動機(finite state automata)；對該新聞文本進行一分句分詞處理，以產生複數個句子，其中各該句子包括至少一子句，且各該子句包括至少一詞彙；使用該情緒詞彙庫與該否定修飾詞彙庫對該複數個句子及其各該分句之各該詞彙進行一詞彙比對，以標示各該詞彙為一樂觀詞彙、一悲觀詞彙、一非情緒詞彙或一否定修飾詞彙；依據該詞彙比對之一結果，而將各該詞彙分別轉換為一代表符號；使用該有限狀態自動機與各該代表符號，以推算各該分句之一情緒傾向是屬於一樂觀、一悲觀或一中性；以句子為單位分別加總該新聞文本中各該句子所包含之各該分句之各該情緒傾向後，據以計算經加總之所有句子所對應之各該情緒傾向之一熵(entropy)值；以及依據該等熵值以決定該新聞文本之該情緒傾向是屬於該樂觀、該悲觀或該中性。

本案之下一主要目的在於提供一種用於分析一新聞文本之一情緒傾向之方法，包含：提供一情緒詞彙庫、一否定修飾詞彙庫與一有限狀態自動機(finite state automata)；對該新聞文本進行一分句分詞處理，以產生複數個句子，其中各該句子包含至少一子句，各該子句包含至少一詞彙；使用該否定修飾詞彙庫與該情緒詞彙庫對該複數個句子進行一詞彙比對，以標示各該詞彙為一樂觀詞彙、一悲觀詞彙、一非情緒詞彙或一否定修飾詞彙；依據各該詞彙比對之一結果，而將各該詞彙分別轉換為一代表符號；以及使用該有限狀態自動機與各該分句之各該詞彙之各該代表符號以推算各該分句之一情緒傾向。

本案之另一主要目的在於提供一種分析一文本之方法，包含：提供複數詞彙庫及一有限狀態自動機；分析該文本以產生複數個句子，各該句子包含具有至少一詞彙之至少一分句；將該至少一詞彙與該複數詞彙庫進行比對，以標示該至少一詞彙之一屬性及對應該屬性之一代號；使用該有限狀態自動機比對該代號，以推算各該分句之一情緒傾向；以各該句子為單位累加該等情緒傾向而計算出該文本中各該情緒傾向之一熵(entropy)值；以及依據該熵值以決定該文本之一情緒狀態。

本案之再一主要目的在於提供一種分析一文本之方法，包含：拆解該文本成複數句子，各該句子包括至少一分句，且各該分句包括至少一詞彙；分析該至少一詞彙之一屬性，其中該屬性係選自由一樂觀詞彙、一悲觀詞彙、一非情緒詞彙及一否定修飾詞彙所組成之群組其中之一；累計各該分句中之所有詞彙之各該屬性，以推算各該分句之一情緒傾向；以及以各該句子為單位累加各該分句之該等情緒傾向而計算出該文本中各該情緒傾向之一熵(entropy)值，以決定該文本之一情緒傾向。

為了讓本發明之上述目的、特徵、和優點能更明顯易懂，下文特舉較佳實施例，並配合所附圖式，作詳細說明如下：

第一圖是顯示一依據本發明構想之較佳實施例之用於分析一新聞文本之一情緒傾向之方法的流程圖。在第一圖中顯示有一情緒詞彙庫1、一否定修飾詞彙庫2、以及一有限狀態自動機3。如第一圖所示，該用於分析一新聞文本之一情緒傾向之方法，包括下列之步驟：(S1)提供一新聞文本；(S2)進行分句與分詞處理；(S3)轉換分句詞彙為情緒符號；(S4)透過有限狀態自動機決定各分句之一情緒傾向；(S5)輸出分句情緒傾向；(S6)以句子為單位累計各分句情緒傾向；(S7)計算文本之情緒傾向熵(entropy)值；以及(S8)推估文本之情緒傾向。

如第一圖所示之該情緒詞彙庫1包括複數個樂觀詞彙與複數個悲觀詞彙，例如：

◆情緒詞彙庫

另，如第一圖所示之否定修飾詞彙庫2包括複數個否定修飾詞彙，例如：

◆否定修飾詞彙庫

如前所述，依據本發明構想所提出之用於分析新聞文本情緒傾向之方法，具有以下之特色：1.不需建立語料的詞彙機率分佈；2.以分句為單位，經由有限狀態自動機推估分句的情緒傾向；以及整合各分句之情緒傾向，經由熵(entropy)值之計算，推估文本之情緒傾向。

此外，如第一圖所示之有限狀態自動機3，其各該分句之一情緒傾向的決定，是依據下表而進行一狀態之轉換，最左側行中所示為各該分句的各個目前狀態，最上側之列中所示為輸入之下一詞彙的代號，而表中各狀態為為各該分句的下一狀態。其中，S₀ 表示其情緒傾向為樂觀，S₁ 表示其情緒傾向為悲觀，S₂ 表示其情緒傾向為中性。

1.輸入符號說明：+：表樂觀詞彙；-：表悲觀詞彙；~：表否定修飾詞彙；？：表非情緒詞彙。

2.各該分句之一情緒傾向的起始狀態為S₂ 。

3.當最終狀態為S₀ 表輸入之分句其情緒傾向屬樂觀；當最終狀態為S₁ 表輸入之分句其情緒傾向屬悲觀；當最終狀態為S₂ 表輸入之分句其情緒傾向屬中性。

4.該有限狀態自動機之上述矩陣值，係經由觀察隨機產出之文本所獲得規則。

以本發明所提出之用於分析新聞文本情緒傾向方法來分析一新聞的兩個範例，分別列示如下。本發明所提出之用於分析新聞文本情緒傾向的方法，使用一則情緒新聞為樣本範例，透過斷詞系統將語料斷詞，經由上述如第一圖所示之該有限狀態自動機3的概念運算，最後應用熵(entropy)值計算該新聞文本之情緒傾向的運算過程如下：

◆情緒傾向之判定可分為下列幾個步驟：

1.建立特徵詞彙資料庫。

2.利用「有限狀態自動機」，將詞彙情緒狀態轉換為分句的情緒狀態。

3統計每一子句中各分句的情緒分類，藉由熵(entropy)值計算出這三類的統計量。

一、新聞文本偏負面情緒的範例(以下文本已經過斷詞處理)

下則新聞含標題共有4個句子，每個句子之分句數分別為1、4、5、4，如(表1)說明：各分句詞彙內容依據情緒詞彙庫與否定修飾詞彙庫再轉換為情緒符號，透過有限狀態自動機輸出分句情緒傾向，如(表2)說明：依據(表2)，以句子為單位累計各分句情緒傾向，再藉由entropy推估該篇文章之情緒傾向，詳細說明如下述(表3)：

熵值權重計算步驟

◆步驟一：正規化矩陣表中各分句情緒傾向X_ij 的接近程度d_ij 。

◆步驟二：將d_ij 轉化成發生機率P_ij 。

◆步驟三：由P_ij 計算各準則之熵值e_j 。

其中m為句子，n為情緒傾向，情緒傾向包括正向(+)、負向(-)與無法判斷(？)。

評估值=(熵⁺ -熵^- )/(熵⁺ +熵^- )=(0.4591-0.7595)/(0.4591+0.7595)=-0.2465

情緒門檻設定，情緒傾向門檻可依使用者自行設定：例如，樂觀門檻值=0.1，若情緒傾向≧0.1，則判斷為樂觀新聞；例如，悲觀門檻值=-0.1，若情緒傾向≦-0.1，則判斷為判斷為悲觀新聞。因為上述新聞文本之評估值=-0.2465≦-0.1，故上述之新聞文本，經判斷其情緒傾向為悲觀，亦即其為一悲觀新聞。

經熵(entropy)值之運算後，可推估新聞文本之情緒傾向，除財經新聞外，其他新聞文本，例如政治新聞或國際新聞，其情緒樣本判斷邏輯皆與上述財經新聞相同，故往後本發明所提出之此一情緒傾向分析方法，將可運用在推估大量文本之情緒傾向上。

二、新聞文本偏正面情緒的範例(以下文本已經過斷詞處理)

上則新聞含標題共有7個句子，每個句子之分句數分別為1、3、6、7、2、2、4，如(表11)說明：

各分句詞彙內容依據情緒詞彙庫與否定修飾詞彙庫再轉換為情緒符號，透過有限狀態自動機輸出分句情緒傾向，如(表12)說明：

依據(表12)，以句子為單位累計各分句情緒傾向，再藉由熵推估該篇文章之情緒傾向，詳細說明如下述：

熵值權重計算步驟

◆步驟二：將d_ij 轉化成發生機率P_ij 。

◆步驟三：由P_ij 計算各準則之熵值e_j 。

其中，m為句子，n為情緒傾向，情緒傾向包括正向(+)、負向(-)與無法判斷(？)。

評估值=(熵⁺ -熵^- )/(熵⁺ +熵^- )=(0.9010-0.4360)/(0.9010+0.4360)=0.35

因為上述新聞文本之評估值=0.35≧0.1，故上述之新聞文本，經判斷其情緒傾向為樂觀，亦即其為一樂觀新聞。

三、依據本發明構想所提出之用於分析新聞文本情緒傾向之方法的正確率實證：

(一)、正確情緒傾向判別

由五位人工判別情緒新聞30則，採用多數決制，決定出「正確情緒傾向」，結果如(表21)所示：

1.「新聞3」中四位認為此篇文章情緒傾向為正，一位為負。經由多數決可判定，此文章正確情緒傾向為正。

2.「新聞8」中四位認為此篇文章情緒傾向為正，一位為負。經由多數決可判定，此文章正確情緒傾向為正。

3.「新聞28」中一位認為此篇文章情緒傾向為正，四位為負。經由多數決可判定，此文章正確情緒傾向為負。

(二)、人工判斷正確率

隨機抽樣出五位人員判斷，當其中意見不相符合時，判斷為人工判別錯誤，樣本包含30則新聞，其中「新聞3」、「新聞8」與「新聞28」，共三則之人工判斷結果並不一致，因此(30-3)/30=0.9，可求出人工判斷正確率為90%，平均花費時間為18.6分鐘。

(三)、機器判斷正確率

經由機器判斷結果，與正確情緒傾向加以判斷，結果如(表22)所示：由上述分析與結果可知，當樣本包含30則新聞時，經人工判讀之正確率為90%，平均花費時間為18.6分鐘。而使用依據本發明構想所提出之用於分析新聞文本情緒傾向之方法，由機器判斷的正確率則為83.3%，所花費之時間則僅需5.1秒，故使用本發明所提出之方法，可驗證由機器判斷文本之情緒傾向，確實具有相對較高之正確率與花費相對較短之時間，因此可透過本發明之分析文本之情緒傾向的方法，由機器先行推估新聞文本之情緒傾向，再由人工檢驗其正確性，將可大量減少所投入的人力與時間，且品質之一致性亦可獲得控制。故本發明所提出之用於分析新聞文本情緒傾向之方法確實具有其優點。

實施例：

1.一種用於分析一新聞文本之一情緒傾向之方法，包含：提供一情緒詞彙庫、一否定修飾詞彙庫與一有限狀態自動機(finite state automata)；對該新聞文本進行一分句分詞處理，以產生複數個句子，其中各該句子包括至少一子句，且各該子句包括至少一詞彙；使用該情緒詞彙庫與該否定修飾詞彙庫對該複數個句子及其各該分句之各該詞彙進行一詞彙比對，以標示各該詞彙為一樂觀詞彙、一悲觀詞彙、一非情緒詞彙或一否定修飾詞彙；依據該詞彙比對之一結果，而將各該詞彙分別轉換為一代表符號；使用該有限狀態自動機與各該代表符號，以推算各該分句之一情緒傾向是屬於一樂觀、一悲觀或一中性；以句子為單位分別加總該新聞文本中各該句子所包含之各該分句之各該情緒傾向後，據以計算經加總之所有句子所對應之各該情緒傾向之一熵(entropy)值；以及依據該等熵值以決定該新聞文本之該情緒傾向是屬於該樂觀、該悲觀或該中性。

2.根據實施例1所述之方法，其中各該分句之該情緒傾向的一判定過程是自各該分句之一目前狀態經加入各該分句之一下一詞彙後，由該有限狀態自動機據以轉換至一下一狀態；而在進一步加入另一下一詞彙前，該下一狀態又取代該原有之目前狀態而成為該目前狀態，如此循環運作，直至所有之各該分句均被判定完畢；當各該分句之該目前狀態為該樂觀，而各該分句之該下一詞彙分別為該樂觀詞彙、該悲觀詞彙、該否定修飾詞彙或該非情緒詞彙時，則加入該下一詞彙後，各該分句之該下一狀態分別成為該樂觀、該悲觀、該悲觀或該樂觀；當各該分句之該目前狀態為該悲觀，而各該分句之該下一詞彙分別為該樂觀詞彙、該悲觀詞彙、該否定修飾詞彙或該非情緒詞彙時，則加入該下一詞彙後，各該分句之該下一狀態分別成為該悲觀、該悲觀、該樂觀或該悲觀；當各該分句之該目前狀態為該中性，而各該分句之該下一詞彙分別為該樂觀詞彙、該悲觀詞彙、該否定修飾詞彙或該非情緒詞彙時，則加入該下一詞彙後，各該分句之該下一狀態分別成為該樂觀、該悲觀、該悲觀或該中性；各該分句之該情緒傾向之一起始狀態為該中性，當某一特定分句之一最終狀態為該樂觀時，表示該特定分句的該情緒傾向為該樂觀；當該特定分句之該最終狀態為該悲觀時，表示該特定分句的該情緒傾向為該悲觀；而當該特定分句之該最終狀態為該中性時，表示該特定分句的該情緒傾向為該中性。

3.根據實施例1或2所述之方法，其中該以句子為單位分別加總步驟更包含下列之步驟：

對各該情緒傾向在該新聞文本內之一出現頻率作正規化處理，並將正規化後之該出現頻率轉化成一發生機率p_ij ；由p_ij 計算各該情緒傾向之一熵值

其中k=1/ln(m)，i=1,2,3,...,m，m表示該複數個句子之一總數，j=1,2,3,...,n，n表示各該情緒傾向之一總數；以及求算一評估值=(熵值⁺ -熵值^- )/(熵值⁺ +熵值^- ) 式(2)

其中熵值⁺ 為當該情緒傾向為樂觀時之熵值，熵值^- 為當該情緒傾向為悲觀時之熵值，當該評估值大於一第一門檻值時，該新聞文本之情緒傾向為該樂觀，而當該評估值小於一第二門檻值時，該新聞文本之情緒傾向為該悲觀。

4.根據實施例1-3所述之方法，其中該第一門檻值為一正實數值，而該第二門檻值為一負實數值。

5.根據實施例1-4所述之方法，其中該新聞文本是選自一財經新聞、一政治新聞與一國際新聞及其組合所組成群組的其中之一，該新聞文本中之各該句子是以一句號與其他句子彼此分隔，而各該句子中之每一分句是以一逗號或一分號與該句子之其他分句彼此分隔。

6.一種用於分析一新聞文本之一情緒傾向之方法，包含：提供一情緒詞彙庫、一否定修飾詞彙庫與一有限狀態自動機(finite state automata)；對該新聞文本進行一分句分詞處理，以產生複數個句子，其中各該句子包含至少一子句，各該子句包含至少一詞彙；使用該否定修飾詞彙庫與該情緒詞彙庫對該複數個句子進行一詞彙比對，以標示各該詞彙為一樂觀詞彙、一悲觀詞彙、一非情緒詞彙或一否定修飾詞彙；依據各該詞彙比對之一結果，而將各該詞彙分別轉換為一代表符號；以及使用該有限狀態自動機與各該分句之各該詞彙之各該代表符號以推算各該分句之一情緒傾向。

7.根據實施例6所述之方法，更包含：經加總該新聞文本中各該句子所包含之各該分句之各該情緒傾向後，計算該新聞文本中各該情緒傾向之一熵(entropy)值，以決定該新聞文本該情緒傾向是屬於一樂觀、一悲觀或一中性。

8.一種分析一文本之方法，包含：提供複數詞彙庫及一有限狀態自動機；分析該文本以產生複數個句子，各該句子包含具有至少一詞彙之至少一分句；將該至少一詞彙與該複數詞彙庫進行比對，以標示該至少一詞彙之一屬性及對應該屬性之一代號；使用該有限狀態自動機比對該代號，以推算各該分句之一情緒傾向；以各該句子為單位累加該等情緒傾向而計算出該文本中各該情緒傾向之一熵(entropy)值；以及依據該熵值以決定該文本之一情緒狀態。

9.根據實施例8所述之方法，其中該文本為一新聞聞本，該複數詞彙庫包括一情緒詞彙庫與一否定修飾詞彙庫，該情緒詞彙庫包括複數個樂觀詞彙與複數個悲觀詞彙，該否定修飾詞彙庫包括複數個否定修飾詞彙，而該文本之各該情緒傾向是屬於一樂觀、一悲觀或一中性。

10.一種分析一文本之方法，包含：拆解該文本成複數句子，各該句子包括至少一分句，且各該至少一分句包括至少一詞彙；分析該至少一詞彙之一屬性，其中該屬性係選自由一樂觀詞彙、一悲觀詞彙、一非情緒詞彙及一否定修飾詞彙所組成之群組其中之一；累計各該分句中之所有詞彙之各該屬性，以推算各該分句之一情緒傾向；以及以各該句子為單位累加各該分句之該等情緒傾向而計算出該文本中各該情緒傾向之一熵(entropy)值，以決定該文本之一情緒傾向。

綜上所述，本發明在於提供一種新聞文本情緒傾向分析方法，該方法具有不需建立語料的詞彙機率分佈，以分句為單位，經由有限狀態自動機推估分句的情緒傾向，以及整合各分句之情緒傾向，經由熵(entropy)值之計算，推估文本之情緒傾向等特色，具有提高新聞文本情緒傾向分析效率及縮短新聞文本情緒傾向分析方法之相關應用模組的建立時程等優點，故其確實具有進步性與新穎性。

是以，縱使本案已由上述之實施例所詳細敘述而可由熟悉本技藝之人士任施匠思而為諸般修飾，然皆不脫如附申請專利範圍所欲保護者。

1‧‧‧情緒詞彙庫

2‧‧‧否定修飾詞彙庫

3‧‧‧有限狀態自動機

第一圖：其係顯示一依據本發明構想之較佳實施例之用於分析一新聞文本之一情緒傾向之方法的流程圖。

1‧‧‧情緒詞彙庫

2‧‧‧否定修飾詞彙庫

3‧‧‧有限狀態自動機

Claims

一種用於分析一新聞文本之一情緒傾向之方法，包含：提供一情緒詞彙庫、一否定修飾詞彙庫與一有限狀態自動機(finite state automata)；對該新聞文本進行一分句分詞處理，以產生複數個句子，其中各該句子包括至少一子句，且各該子句包括至少一詞彙；使用該情緒詞彙庫與該否定修飾詞彙庫對該複數個句子及其各該分句之各該詞彙進行一詞彙比對，以標示各該詞彙為一樂觀詞彙、一悲觀詞彙、一非情緒詞彙或一否定修飾詞彙；依據該詞彙比對之一結果，而將各該詞彙分別轉換為一代表符號；使用該有限狀態自動機與各該代表符號，以推算各該分句之一情緒傾向是屬於一樂觀、一悲觀或一中性；各該分句之該情緒傾向的一判定過程是自各該分句之一目前狀態經加入各該分句之一下一詞彙後，由該有限狀態自動機據以轉換至一下一狀態；而在進一步加入另一下一詞彙前，該下一狀態又取代該原有之目前狀態而成為該目前狀態，如此循環運作，直至所有之各該分句均被判定完畢；當各該分句之該目前狀態為該樂觀，而各該分句之該下一詞彙分別為該樂觀詞彙、該悲觀詞彙、該否定修飾詞彙或該非情緒詞彙時，則加入該下一詞彙後，各該分句之該下一狀態分別成為該樂觀、該悲觀、該悲觀或該樂觀；當各該分句之該目前狀態為該悲觀，而各該分句之該下一詞彙分別為該樂觀詞彙、該悲觀詞彙、該否定修飾詞彙或該非情緒詞彙時，則加入該下一詞彙後，各該分句之該下一狀態分別成為該悲觀、該悲觀、該樂觀或該悲觀；當各該分句之該目前狀態為該中性，而各該分句之該下一詞彙分別為該樂觀詞彙、該悲觀詞彙、該否定修飾詞彙或該非情緒詞彙時，則加入該下一詞彙後，各該分句之該下一狀態分別成為該樂觀、該悲觀、該悲觀或該中性；各該分句之該情緒傾向之一起始狀態為該中性，當某一特定分句之一最終狀態為該樂觀時，表示該特定分句的該情緒傾向為該樂觀；當該特定分句之該最終狀態為該悲觀時，表示該特定分句的該情緒傾向為該悲觀；而當該特定分句之該最終狀態為該中性時，表示該特定分句的該情緒傾向為該中性；以句子為單位分別加總該新聞文本中各該句子所包含之各該分句之各該情緒傾向後，據以計算經加總之所有句子所對應之各該情緒傾向之一熵(entropy)值；以及依據該等熵值以決定該新聞文本之該情緒傾向是屬於該樂觀、該悲觀或該中性。
如申請專利範圍第1項所述之方法，其中該以句子為單位分別加總步驟更包含下列之步驟：對各該情緒傾向在該新聞文本內之一出現頻率作正規化處理，並將正規化後之該出現頻率轉化成一發生機率pij；由p_ij 計算各該情緒傾向之一熵值其中k=1/ln(m)，i=1,2,3,...,m，m表示該複數個句子之一總數，j=1,2,3,...,n，n表示各該情緒傾向之一總數；以及求算一評估值=(熵值⁺ -熵值^- )/(熵值⁺ +熵值^- ) 式(2)其中熵值+為當該情緒傾向為樂觀時之熵值，熵值-為當該情緒傾向為悲觀時之熵值，當該評估值大於一第一門檻值時，該新聞文本之情緒傾向為該樂觀，而當該評估值小於一第二門檻值時，該新聞文本之情緒傾向為該悲觀。
如申請專利範圍第2項所述之方法，其中該第一門檻值為一正實數值，而該第二門檻值為一負實數值。
如申請專利範圍第1項所述之方法，其中該新聞文本是選自一財經新聞、一政治新聞與一國際新聞及其組合所組成群組的其中之一，該新聞文本中之各該句子是以一句號與其他句子彼此分隔，而各該句子中之每一分句是以一逗號或一分號與該句子之其他分句彼此分隔。