TWI675304B - 意見詞彙擴充系統及意見詞彙擴充方法 - Google Patents

意見詞彙擴充系統及意見詞彙擴充方法 Download PDF

Info

Publication number
TWI675304B
TWI675304B TW107119472A TW107119472A TWI675304B TW I675304 B TWI675304 B TW I675304B TW 107119472 A TW107119472 A TW 107119472A TW 107119472 A TW107119472 A TW 107119472A TW I675304 B TWI675304 B TW I675304B
Authority
TW
Taiwan
Prior art keywords
opinion
words
vocabulary
candidate
item
Prior art date
Application number
TW107119472A
Other languages
English (en)
Other versions
TW202001619A (zh
Inventor
蕭瑞祥
王雅詩
Original Assignee
淡江大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 淡江大學 filed Critical 淡江大學
Priority to TW107119472A priority Critical patent/TWI675304B/zh
Priority to CN201811341060.4A priority patent/CN110569497A/zh
Application granted granted Critical
Publication of TWI675304B publication Critical patent/TWI675304B/zh
Publication of TW202001619A publication Critical patent/TW202001619A/zh

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一種意見詞彙擴充方法,其可包含下列步驟:由複數個詞彙中計算出代表一目標領域之複數個領域代表詞彙;根據一詞性組合由該些詞彙中抽取出複數個候選意見詞彙;根據該些候選意見詞彙之相似度將該些候選意見詞彙分為複數個群集;以及由該些領域代表詞彙選擇出複數個正向種子詞彙及複數個負向種子詞彙,並根據該些正向種子詞彙及該些負向種子詞彙計算各個群集之各個候選意見詞彙之情感傾向。

Description

意見詞彙擴充系統及意見詞彙擴充方法
本發明係有關於一種意見詞彙擴充系統,特別是一種基於詞性組合之意見詞彙擴充系統。本發明還涉及此意見詞彙擴充系統採用之意見詞彙擴充方法。
意見詞彙的擴增與建立是意見分析中的基礎,而意見詞彙的詞性判斷也是意見分析中極為重要的一環;一般而言,意見詞彙的擴增與建立通常有三種方式:(1)手動方式:即透過人力的方式截取及建立所需要的意見詞彙;(2)基於字典的方式:即透過既有的字典再配上同義與反義之詞彙資源或是帶有詞彙關係之資源任何資源協助擴增既有的意見詞彙;(3)基於語料庫的方式:即透過統計或觀察的方法得知想要擷取的意見詞彙的詞性、上下文…等等規律,透過制定規則的方式於語料庫中找出所需的意見詞彙。
然而,透過手動方式進行意見詞彙的擴增與建立較缺乏效率,且無法有效地提升意見詞彙的涵蓋率,而基於字典的方式及基於語料庫的方式也同樣有無法有效地提升意見詞彙的涵蓋率的問題。
而意見詞彙的詞性判斷通常也是利用上述三種方式。然而,透過手動方式進行意見詞彙的詞性判斷雖然可達到較高的精準度,但較缺乏效率;基於字典的方式及基於語料庫的方式則有精準度不高的問題。
因此,如何提出一種意見詞彙分析技術,能夠有效改善習知技藝之各種限制已成為一個刻不容緩的問題。
有鑑於上述習知技藝之問題,本發明之其中一目的就是在提供一種意見詞彙擴充系統及意見詞彙擴充方法,以解決習知技藝的各種問題。
根據本發明之其中一目的,提出一種意見詞彙擴充系統,其可包含目標領域詞彙計算模組、意見詞彙抽取模組、意見詞彙相似度分群模組及意見詞彙情感傾向分析模組。目標領域詞彙計算模組可由複數個詞彙中計算出代表一目標領域之複數個領域代表詞彙。意見詞彙抽取模組可根據一詞性組合由該些詞彙中抽取出複數個候選意見詞彙。意見詞彙相似度分群模組可由該些領域代表詞彙選擇出複數個正向種子詞彙及複數個負向種子詞彙,並可根據該些正向種子詞彙及該些負向種子詞彙計算各個群集之各個候選意見詞彙之情感傾向。
根據本發明之其中一目的,再提出一種意見詞彙擴充方法,其可包含下列步驟:由複數個詞彙中計算出代表一目標領域之複數個領域代表詞彙;根據一詞性組合由該些詞彙中抽取出複數個候選意見詞彙;根據該些候選意見詞彙之相似度將該些候選意見詞彙分為複數個群集;以及由該些領域代表詞彙選擇出複數個正向種子詞彙及複數個負向種子詞彙,並根據該些正向種子詞彙及該些負向種子詞彙計算各個群集之各個候選意見詞彙之情感傾向。
承上所述,依本發明之意見詞彙擴充系統及意見詞彙擴充方法,其可具有一或多個下述優點:
(1)本發明之一實施例中,意見詞彙擴充系統可透過包含成語類型及形容詞類型之特殊詞性組合來進行候選意見詞彙的抽取,因此可大幅地提升意見詞彙的涵蓋率。
(2)本發明之一實施例中,意見詞彙擴充系統可透過有更效的情感傾向分析步驟來進行意見詞彙的情感傾向分析,故可以大幅提升意見詞彙的詞性判斷的精準度。
(3)本發明之一實施例中,意見詞彙擴充系統可採用特殊設計之機制來更有快速地進行意見詞彙的擴增與建立及意見詞彙的詞性判斷,故可大幅提升效率。
以下將參照相關圖式,說明依本發明之意見詞彙擴充系統及意見詞彙擴充方法之實施例,為了清楚與方便圖式說明之故,圖式中的各部件在尺寸與比例上可能會被誇大或縮小地呈現。在以下描述及/或申請專利範圍中,當提及元件「連接」或「耦合」至另一元件時,其可以直接連接或耦合至該另一元件或可存在介入元件;而當提及元件「直接連接」或「直接耦合」至另一元件時,不存在介入元件,用於描述元件或層之間之關係之其他字詞應以相同方式解釋。為使便於理解,下述實施例中之相同元件係以相同之符號標示來進行說明。
請參閱第1圖,其係為本發明之第一實施例之意見詞彙擴充系統之方塊圖。如圖所示,意見詞彙擴充系統1可包含資料預處理模組11、目標領域詞彙計算模組12、意見詞彙抽取模組13、意見詞彙相似度分群模組14及無效意見詞彙過濾模組15。
資料預處理模組11可由評論資料庫D取得複數個產品評論文章;該些產品評論文章可透過自動化網路爬蟲程式取得。然後,資料預處理模組11可透過分詞器將該些產品評論文章進行斷詞及詞性標註以產生複數個詞彙;在一實施例中,分詞器可為Jieba斷詞演算法。
目標領域詞彙計算模組12可由該些詞彙中計算出代表一目標領域之複數個領域代表詞彙;在一實施例中,目標領域詞彙計算模組12可透過詞頻-逆向文件頻率(TF-IDF)演算法由該些詞彙中計算出代表此目標領域之該些領域代表詞彙。
意見詞彙抽取模組13可根據詞性組合由該些詞彙中抽取出複數個候選意見詞彙;在一實施例中,此詞性組合可根據Jieba斷詞演算法之定義產生;例如,此詞性組合可包含動語素類型、動詞類型、副動詞類型、副詞加動語素類型、副詞加動詞類型及副詞加副動詞類型,並可進一步衍伸出成語類型及形容詞類型。
意見詞彙相似度分群模組14可根據該些候選意見詞彙之相似度將該些候選意見詞彙分為複數個群集;在一實施例中,意見詞彙相似度分群模組14可採用單次分群(Single-Pass)演算法及萊文斯坦距離(Levenshtein Distance)演算法計算該些候選意見詞彙之相似度,並可將該些候選意見詞彙分為該些群集。
無效意見詞彙過濾模組15可分別計算該些候選意見詞彙與該些領域代表詞彙之各種兩兩組合之點間互訊息(PMI)以由該些候選意見詞彙過濾掉部份無效意見詞彙。
由上述可知,意見詞彙擴充系統1可透過包含動語素類型、動詞類型、副動詞類型、副詞加動語素類型、副詞加動詞類型及副詞加副動詞類型之特殊詞性組合來進行候選意見詞彙的抽取,且上述之詞性組合還可進一步衍伸出成語類型及形容詞類型,因此可大幅地提升意見詞彙的涵蓋率。
當然,上述僅為舉例,意見詞彙擴充系統1之各元件及其協同關係還可依實際需求變化,本發明並不以此為限。
請參閱第2圖,其係為本發明之第一實施例之流程圖。如圖所示,意見詞彙擴充系統1採用之意見詞彙擴充方法可包含下列步驟:
步驟S21:透過一分詞器將複數個產品評論文章進行斷詞及詞性標註以產生複數個詞彙。
步驟S22:由該些詞彙中計算出代表一目標領域之複數個領域代表詞彙。
步驟S23:根據一詞性組合由該些詞彙中抽取出複數個候選意見詞彙。
步驟S24:根據該些候選意見詞彙之相似度將該些候選意見詞彙分為複數個群集。
步驟S25:分別計算該些候選意見詞彙與該些領域代表詞彙之各種兩兩組合之點間互訊息以由該些候選意見詞彙過濾掉部份無效意見詞彙。
請參閱第3圖,其係為本發明之第二實施例之意見詞彙擴充系統之方塊圖,本實施例以美食領域及美妝領域作為例子來舉例說明。如圖所示,意見詞彙擴充系統1可包含資料預處理模組11、目標領域詞彙計算模組12、意見詞彙抽取模組13、意見詞彙相似度分群模組14、無效意見詞彙過濾模組15及意見詞彙情感傾向分析模組16。
資料預處理模組11可由評論資料庫D取得複數個美食及美妝產品評論文章;該些美食及美妝產品評論文章可透過自動化網路爬蟲程式取得,而其中無效的資訊會被過濾。由於在進行後續的步驟前,必須先進行斷詞及詞性標註,故資料預處理模組11可透過Jieba斷詞演算法將該些美食及美妝產品評論文章進行斷詞及詞性標註以產生複數個詞彙,詞性標註如下表1所示:
原始句子 斷詞與詞性標註結果
擦時感覺保濕、不會黏膩不舒服 擦[v]時[ng]感覺[n]保濕[v]、[x]不會[v]黏膩[a]不舒服[x]
單點的餐點算是比較有特色,但價格有點太貴 單點[n]的[uj]餐點[n]算是[v]比較[d]有特色[x],[x]但[x]價格[n]有點[n]太貴[nr]
表1
表1中出現之代號之定義均來自Jieba詞性表,應為本領域中具有通常知識者所熟知,故不在此多加贅述。
為了判斷詞彙與美食及美妝領域的相關性,故在此必須先計算該些詞彙中能夠代表美食及美妝的詞彙。目標領域詞彙計算模組12可挑出斷詞後的所有美食及美妝產品評論文章內標註詞性為名詞的詞彙作為後續的運算詞彙,以協助後續步驟搭配候選意見詞彙;接下來,目標領域詞彙計算模組12可透過詞頻-逆向文件頻率(TF-IDF)演算法由前述步驟中挑選出來的各個詞彙在每一篇美食及美妝產品評論文章的TF-IDF結果,並記錄下來每篇美食及美妝產品評論文章前幾名的代表詞彙;然後,目標領域詞彙計算模組12可依據代表詞彙成為文章代表詞的次數作為門檻值,再依據詞彙出現在美食及美妝領域評論文章的機率決定此代表詞彙之領域傾向以找出多個美食及美妝領域之領域代表詞彙;在本實施例中,這個階段會排除掉在兩個領域成為代表詞彙機率接近50%的詞彙,該類即表示此代表詞彙不具有美食或是美妝的領域代表性,此階段之產出如表2 所示:
詞彙 美食領域傾向 美妝領域傾向 主要代表領域
效果 0.20% 99.80% 美妝
服務 99.96% 0.04% 美食
肌膚 0.01% 99.99% 美妝
用餐 99.95% 0.05% 美食
皮膚 0.04% 99.96% 美妝
表2
意見詞彙抽取模組13可根據詞性組合由該些詞彙中抽取出複數個候選意見詞彙;在一實施例中,此詞性組合可根據Jieba斷詞演算法之定義產生,如表3所示:
詞性組合
動語素[Vg]
動詞[V]
副動詞[Vd]
副詞+動語素[d+Vg]
副詞+動詞[d+v]
副詞+副動詞[d+dv]
表3
表3中出現之代號之定義均來自Jieba詞性表,應為本領域中具有通常知識者所熟知,故不在此多加贅述。
此詞性組合更可進一步衍伸出成語類型,如表4所示:
型態一 「成語」與其他詞性搭配出現,會被當作如形容詞般的使用,所以標註時會標註出前後帶有「名詞」、「助詞」、「副詞」有關的詞性組合:
(A) N+I;例如:香味/深得我心 (E) ADV+I;例如:彷彿/精雕細琢
(B) I+N;例如:賞心悅目/眼影 (F) I+U;例如:晶瑩剔透/的
(C) I+V;例如:迫不及待/想
型態二 當「成語」是用來總結評價之感想或是單獨出現描述產品本身,則會前後與標點符號相接,如:物超所值/!;或是、/炯炯有神。
表4
此詞性組合更可進一步衍伸出形容詞類型,如表5所示:
規則 舉例
N+A 質地/清爽
A+N 均勻/膚色
V+A 不夠/持久
A+V 容易/吸收
ADV+A 特/滑嫩
表5
意見詞彙抽取模組13在標註與「形容詞」有關的的詞彙規則會在「形容詞」以基準點前後尋找相關的詞性組合,帶有名詞的組合之後會於後續的步驟還原成只剩下形容詞,其餘的組合則保持著意見片語(Opinion Phrases)的型態。
在表4及表5中,N表示名詞;I表示感嘆詞;ADV表示副詞;U表示助詞;V表示動詞;A表示形容詞。
意見詞彙相似度分群模組14可採用單次分群(Single-Pass)演算法及萊文斯坦距離(Levenshtein Distance)演算法計算該些候選意見詞彙之相似度,並可將該些候選意見詞彙分為該些群集,其中萊文斯坦距離(Levenshtein Distance)演算法之公式如下: 萊文斯坦距離=1-編輯次數/Max(字串1長度, 字串2長度)………………….(1)
式(1)中分子的「編輯次數」指的是要將目標比對的詞組[字串1, 字串2]編輯至一模一樣的操作次數,其中編輯所涵蓋的操作有:「字元***、字元刪除與字元替換」,而分母的Max(字串1 長度, 字串2 長度)則是只要取出比對詞組中的字串長度最大值。
單次分群(Single-Pass)演算法可包含下列步驟:步驟一:自詞彙集合中抽取一詞彙,在無分群結果的情形下,此詞彙將成為第一個群集,且此詞彙也成為第一個群集之代表字;步驟二:取出剩餘的所有詞彙,一一針對現有群集的代表字進行字串相似度計算(Levenshtein Distance);步驟三:若有達到門檻值,則加入該分群,並透過重新計算以高頻率為選擇依之共同代表字;步驟四:若目標計算之詞彙無法被分群,則此詞彙將自行成立一個群集,並先以自身作為代表字;步驟五:重複步驟二至步驟四,直到所有詞彙都已經過分群運算。透過上述的方式,意見詞彙相似度分群模組14可將該些候選意見詞彙分為該些群集。
無效意見詞彙過濾模組15可分別計算該些候選意見詞彙與該些領域代表詞彙之各種兩兩組合之點間互訊息(PMI)以由該些候選意見詞彙過濾掉部份無效意見詞彙。
最後,意見詞彙情感傾向分析模組16可由該些領域代表詞彙選擇出複數個正向種子詞彙及複數個負向種子詞彙,並可透過情感傾向點間互訊息(SO-PMI)演算法根據該些正向種子詞彙及該些負向種子詞彙計算各個該群集之各個該候選意見詞彙之情感傾向;本實施例採用之情感傾向點間互訊息(SO-PMI)演算法如式(2)所示: ……………………………………………..(2)
其中,SO-PMI(Word)表示情感傾向點間互訊息演算法之計算結果。
在本實施例中,上述之種子集合如表6所示:
美食 正向種子 好吃、甜、新、香、很好、特別、軟、棒、親切、美味
負向種子 老、差、貴、不太、不好、失望、怪、不足、腥、擁擠
美妝 正向種子 好、香、很好、舒服、乾淨、細緻、方便、特別、新、均勻
負向種子 不太、差、不好、不舒服、澀、老、不適、痛、貴、不喜歡
表6
由上述可知,意見詞彙擴充系統1可透過特殊詞性組合來進行候選意見詞彙的抽取,且上述之詞性組合還可進一步衍伸出成語類型及形容詞類型,因此可大幅地提升意見詞彙的涵蓋率;此外,意見詞彙擴充系統1可透過有更效的情感傾向分析步驟來進行意見詞彙的情感傾向分析,故可以大幅提升意見詞彙的詞性判斷的精準度及效率。因此,意見詞彙擴充系統1確實可有效地改善習知技藝之不足。
值得一提的是,目前進行意見詞彙的擴增與建立通常是透過手動的方式、基於字典的方式或基於語料庫的方式進行;然而,透過手動的方式進行意見詞彙的擴增與建立較缺乏效率,且無法有效地提升意見詞彙的涵蓋率,而基於字典的方式及基於語料庫的方式也同樣有無法有效地提升意見詞彙的涵蓋率的問題。相反的,根據本發明之實施例,意見詞彙擴充系統可透過包含成語類型及形容詞類型之特殊詞性組合來進行候選意見詞彙的抽取,因此可大幅地提升意見詞彙的涵蓋率。
目前進行意見詞彙的詞性判斷通常也是利用手動的方式、基於字典的方式或基於語料庫的方式進行。然而,透過手動方式進行意見詞彙的詞性判斷雖然可達到較高的精準度,但較缺乏效率;基於字典的方式及基於語料庫的方式則有精準度不高的問題。相反的,根據本發明之實施例,意見詞彙擴充系統可透過有更效的情感傾向分析步驟來進行意見詞彙的情感傾向分析,故可以大幅提升意見詞彙的詞性判斷的精準度,且意見詞彙擴充系統可採用特殊設計之機制來更有快速地進行意見詞彙的擴增與建立及意見詞彙的詞性判斷,故可大幅提升效率。由上述可知,本發明實具進步性之專利要件。
請參閱第4圖,其係為本發明之第二實施例之流程圖。如圖所示,意見詞彙擴充系統1採用之意見詞彙擴充方法可包含下列步驟:
步驟S41:透過Jieba斷詞演算法將複數個產品評論文章進行斷詞及詞性標註以產生複數個詞彙。
步驟S42:透過詞頻-逆向文件頻率演算法由該些詞彙中計算出代表一目標領域之複數個領域代表詞彙。
步驟S43:根據一詞性組合由該些詞彙中抽取出複數個候選意見詞彙。
步驟S44:透過單次分群演算法及萊文斯坦距離演算法計算根據該些候選意見詞彙之相似度將該些候選意見詞彙分為複數個群集。
步驟S45:分別計算該些候選意見詞彙與該些領域代表詞彙之各種兩兩組合之點間互訊息以由該些候選意見詞彙過濾掉部份無效意見詞彙。
步驟S46:該些領域代表詞彙選擇出複數個正向種子詞彙及複數個負向種子詞彙,並透過情感傾向點間互訊息演算法根據該些正向種子詞彙及該些負向種子詞彙計算各個群集之各個候選意見詞彙之情感傾向。
綜上所述,根據本發明之實施例,意見詞彙擴充系統可透過包含成語類型及形容詞類型之特殊詞性組合來進行候選意見詞彙的抽取,因此可大幅地提升意見詞彙的涵蓋率。
此外,根據本發明之實施例,意見詞彙擴充系統可透過有更效的情感傾向分析步驟來進行意見詞彙的情感傾向分析,故可以大幅提升意見詞彙的詞性判斷的精準度。
另外,根據本發明之實施例,意見詞彙擴充系統可採用特殊設計之機制來更有快速地進行意見詞彙的擴增與建立及意見詞彙的詞性判斷,故可大幅提升效率。
可見本發明在突破先前之技術下,確實已達到所欲增進之功效,且也非熟悉該項技藝者所易於思及,其所具之進步性、實用性,顯已符合專利之申請要件,爰依法提出專利申請,懇請 貴局核准本件發明專利申請案,以勵創作,至感德便。
以上所述僅為舉例性,而非為限制性者。其它任何未脫離本發明之精神與範疇,而對其進行之等效修改或變更,均應該包含於後附之申請專利範圍中。
1‧‧‧意見詞彙擴充系統
11‧‧‧資料預處理模組
12‧‧‧目標領域詞彙計算模組
13‧‧‧意見詞彙抽取模組
14‧‧‧意見詞彙相似度分群模組
15‧‧‧無效意見詞彙過濾模組
16‧‧‧意見詞彙情感傾向分析模組
D‧‧‧評論資料庫
S21~S25、S41~S46‧‧‧步驟流程
第1圖 係為本發明之第一實施例之意見詞彙擴充系統之方塊圖。
第2圖 係為本發明之第一實施例之流程圖。
第3圖 係為本發明之第二實施例之意見詞彙擴充系統之方塊圖。
第4圖 係為本發明之第二實施例之流程圖。

Claims (16)

  1. 一種意見詞彙擴充系統,係包含:一目標領域詞彙計算模組,係由複數個詞彙中計算出代表一目標領域之複數個領域代表詞彙;一意見詞彙抽取模組,係根據一詞性組合由該些詞彙中抽取出複數個候選意見詞彙,該詞性組合包含一動語素類型、一動詞類型、一副動詞類型、一副詞加動語素類型、一副詞加動詞類型、一副詞加副動詞類型、一成語類型及一形容詞類型;一意見詞彙相似度分群模組,係根據該些候選意見詞彙之相似度將該些候選意見詞彙分為複數個群集;以及一意見詞彙情感傾向分析模組,係由該些領域代表詞彙選擇出複數個正向種子詞彙及複數個負向種子詞彙,並根據該些正向種子詞彙及該些負向種子詞彙計算各個該群集之各個該候選意見詞彙之情感傾向。
  2. 如申請專利範圍第1項所述之意見詞彙擴充系統,更包含一資料預處理模組,係透過一分詞器將複數個產品評論文章進行斷詞及詞性標註以產生該些詞彙。
  3. 如申請專利範圍第2項所述之意見詞彙擴充系統,其中該分詞器係為一Jieba斷詞演算法。
  4. 如申請專利範圍第1項所述之意見詞彙擴充系統,更包含一無效意見詞彙過濾模組,係分別計算該些候選意見詞彙與該些領域代表詞彙之各種兩兩組合之一點間互訊息以由該些候選意見詞彙過濾掉部份無效意見詞彙。
  5. 如申請專利範圍第1項所述之意見詞彙擴充系統,其中該詞性組合係根據一Jieba斷詞演算法之定義產生。
  6. 如申請專利範圍第1項所述之意見詞彙擴充系統,其中該目標領域詞彙計算模組係透過一詞頻-逆向文件頻率演算法由該些詞彙中計算出代表該目標領域之該些領域代表詞彙。
  7. 如申請專利範圍第1項所述之意見詞彙擴充系統,其中該意見詞彙相似度分群模組係採用一單次分群演算法及一萊文斯坦距離演算法計算該些候選意見詞彙之相似度,並將該些候選意見詞彙分為該些群集。
  8. 如申請專利範圍第1項所述之意見詞彙擴充系統,其中該意見詞彙情感傾向分析模組係透過一情感傾向點間互訊息演算法根據該些正向種子詞彙及該些負向種子詞彙計算各個該群集之各個該候選意見詞彙之情感傾向。
  9. 一種意見詞彙擴充方法,係包含下列步驟:由複數個詞彙中計算出代表一目標領域之複數個領域代表詞彙;根據一詞性組合由該些詞彙中抽取出複數個候選意見詞彙,該詞性組合包含一動語素類型、一動詞類型、一副動詞類型、一副詞加動語素類型、一副詞加動詞類型、一副詞加副動詞類型、一成語類型及一形容詞類型;根據該些候選意見詞彙之相似度將該些候選意見詞彙分為複數個群集;以及由該些領域代表詞彙選擇出複數個正向種子詞彙及複數個負向種子詞彙,並根據該些正向種子詞彙及該些負向種子詞彙計算各個該群集之各個該候選意見詞彙之情感傾向。
  10. 如申請專利範圍第9項所述之意見詞彙擴充方法,更包含下列步驟: 透過分詞器將複數個產品評論文章進行斷詞及詞性標註以產生該些詞彙。
  11. 如申請專利範圍第10項所述之意見詞彙擴充方法,其中該分詞器係為一Jieba斷詞演算法。
  12. 如申請專利範圍第9項所述之意見詞彙擴充方法,更包含下列步驟:分別計算該些候選意見詞彙與該些領域代表詞彙之各種兩兩組合之一點間互訊息以由該些候選意見詞彙過濾掉部份無效意見詞彙。
  13. 如申請專利範圍第9項所述之意見詞彙擴充方法,其中該詞性組合係根據一Jieba斷詞演算法之定義產生。
  14. 如申請專利範圍第9項所述之意見詞彙擴充方法,其中代表該目標領域之該些領域代表詞彙係透過一詞頻-逆向文件頻率演算法計算。
  15. 如申請專利範圍第9項所述之意見詞彙擴充方法,其中該些候選意見詞彙之相似度係透過一單次分群演算法及一萊文斯坦距離演算法計算並將該些候選意見詞彙分為該些群集。
  16. 如申請專利範圍第9項所述之意見詞彙擴充方法,其中各個該群集之各個該候選意見詞彙之情感傾向係透過一情感傾向點間互訊息演算法計算。
TW107119472A 2018-06-06 2018-06-06 意見詞彙擴充系統及意見詞彙擴充方法 TWI675304B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW107119472A TWI675304B (zh) 2018-06-06 2018-06-06 意見詞彙擴充系統及意見詞彙擴充方法
CN201811341060.4A CN110569497A (zh) 2018-06-06 2018-11-12 意见词汇扩充***及意见词汇扩充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107119472A TWI675304B (zh) 2018-06-06 2018-06-06 意見詞彙擴充系統及意見詞彙擴充方法

Publications (2)

Publication Number Publication Date
TWI675304B true TWI675304B (zh) 2019-10-21
TW202001619A TW202001619A (zh) 2020-01-01

Family

ID=68772434

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107119472A TWI675304B (zh) 2018-06-06 2018-06-06 意見詞彙擴充系統及意見詞彙擴充方法

Country Status (2)

Country Link
CN (1) CN110569497A (zh)
TW (1) TWI675304B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201248437A (en) * 2011-04-21 2012-12-01 Palo Alto Res Ct Inc Incorporating lexicon knowledge into SVM learning to improve sentiment classification
US20130018824A1 (en) * 2011-07-11 2013-01-17 Accenture Global Services Limited Sentiment classifiers based on feature extraction
CN106610955A (zh) * 2016-12-13 2017-05-03 成都数联铭品科技有限公司 基于词典的多维度情感分析方法
CN107832297A (zh) * 2017-11-09 2018-03-23 电子科技大学 一种面向特征词粒度的领域情感词典构建方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9588964B2 (en) * 2012-09-18 2017-03-07 Adobe Systems Incorporated Natural language vocabulary generation and usage
CN105117428B (zh) * 2015-08-04 2018-12-04 电子科技大学 一种基于词语对齐模型的web评论情感分析方法
CN106776551B (zh) * 2016-12-06 2020-05-08 桂林电子科技大学 一种英语作文情感观点的分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201248437A (en) * 2011-04-21 2012-12-01 Palo Alto Res Ct Inc Incorporating lexicon knowledge into SVM learning to improve sentiment classification
US20130018824A1 (en) * 2011-07-11 2013-01-17 Accenture Global Services Limited Sentiment classifiers based on feature extraction
CN106610955A (zh) * 2016-12-13 2017-05-03 成都数联铭品科技有限公司 基于词典的多维度情感分析方法
CN107832297A (zh) * 2017-11-09 2018-03-23 电子科技大学 一种面向特征词粒度的领域情感词典构建方法

Also Published As

Publication number Publication date
CN110569497A (zh) 2019-12-13
TW202001619A (zh) 2020-01-01

Similar Documents

Publication Publication Date Title
Boudin et al. Keyphrase extraction for n-best reranking in multi-sentence compression
CN108287922B (zh) 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
Sanguinetti et al. PoSTWITA-UD: an Italian Twitter Treebank in universal dependencies
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和***
Morrissey Data-driven machine translation for sign languages
WO2018000272A1 (zh) 一种语料生成装置和方法
Yu et al. How to avoid sentences spelling boring? towards a neural approach to unsupervised metaphor generation
JP2007025788A (ja) 単語用法差異情報取得プログラム及び同装置
Tiwari et al. Ensemble approach for twitter sentiment analysis
Garcia et al. Transcription systems for sign languages: a sketch of the different graphical representations of sign language and their characteristics
Kaur et al. A stem to stern sentiment analysis emotion detection
CN103336803B (zh) 一种嵌名春联的计算机生成方法
Al-Horaibi et al. Sentiment analysis of arabic tweets using semantic resources
Zhao et al. Give the truth: Incorporate semantic slot into abstractive dialogue summarization
JP2003271592A (ja) テキスト生成方法及びテキスト生成装置
TWI675304B (zh) 意見詞彙擴充系統及意見詞彙擴充方法
MacKinlay et al. The effects of semantic annotations on precision parse ranking
Ou et al. Automatic multimedia-based question-answer pairs generation in computer assisted healthy education system
He et al. Language post positioned characteristic based Chinese-Vietnamese statistical machine translation method
Magnolini et al. Fbk-hlt-nlp at semeval-2016 task 2: A multitask, deep learning approach for interpretable semantic textual similarity
Ljajić et al. Processing of negation in sentiment analysis for the serbian language
CN110489522A (zh) 一种基于用户评分的情感词典构建方法
CN110096618A (zh) 一种基于分维度情感分析的电影推荐方法
Demir et al. Turkish normalization lexicon for social media
Meghawry et al. Semantic extraction of Arabic multiword expressions