CN111897954A - 一种用户评论方面挖掘***、方法、及存储介质 - Google Patents
一种用户评论方面挖掘***、方法、及存储介质 Download PDFInfo
- Publication number
- CN111897954A CN111897954A CN202010666552.1A CN202010666552A CN111897954A CN 111897954 A CN111897954 A CN 111897954A CN 202010666552 A CN202010666552 A CN 202010666552A CN 111897954 A CN111897954 A CN 111897954A
- Authority
- CN
- China
- Prior art keywords
- vector
- word
- comment
- vector information
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005065 mining Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 153
- 238000013507 mapping Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 45
- 239000011159 matrix material Substances 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 13
- 238000005259 measurement Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000009412 basement excavation Methods 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 12
- 230000008569 process Effects 0.000 abstract description 7
- 230000007246 mechanism Effects 0.000 abstract description 4
- 230000002457 bidirectional effect Effects 0.000 abstract description 2
- 238000001914 filtration Methods 0.000 abstract description 2
- 238000012552 review Methods 0.000 description 13
- 238000012360 testing method Methods 0.000 description 11
- 230000000052 comparative effect Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了用户评论方面挖掘***、方法、及存储介质,借助Word2vec以及全局的Attention机制和双向长短期记忆网络来依次处理文本:首先使用Word2vec得到每个单词的向量表示,通过词嵌入层将上下文中经常同时出现的词映射到嵌入空间中相近的位置;然后利用Attention机制过滤句子中的词嵌入得到方面向量,利用Bi‑LSTM提取文本的上下文语义信息得到语义向量,通过对得到的方面向量和语义向量进行拼接;利用方面嵌入的线性组合对结果进行重构。最终得到每个方面的代表词,相比传统提取方面LDA方法和忽略文本语义特征的神经网络方法,本发明有效的解决了传统的深度方面挖掘模型未考虑到文本的上下文语义信息的问题,模型结构简单、易于扩展、鲁棒性强,在实践中易于推广使用。
Description
技术领域
本发明涉及文本数据信息挖掘技术领域,具体涉及一种用户评论方面挖掘方法、***、设备及存储介质。
背景技术
随着移动互联网的迅猛发展和智能手机的普及,人们可以随时随地针对某个对象发表评论和意见,也可以对不同领域的不同商品进行评价。有效地分析这些评价,能够辅助厂家进行销售、未来发展的决策,亦能帮助消费者筛选合乎自己期待的产品。但单纯对评论语句进行情感极性判断,不能提供有效的信息,还需要进一步确定情感词描述的对象。
例如,随着网络教育、网络学***台进行自主学***台一门课程的学***台的看法。一些潜在的用户希望从这些大量的评论文本中获得该课程的评价从而助于他们做出相应的决策。尤其是对于学习者生成的课程评论文本,如果没有及时对一些评论进行反馈或者处理,可能会造成一些问题。然而评论文本数据量庞大,对于***来说不容易进行阅读以及总结归纳。
方面指的是用户发表评论的对象,也就是观点特征。方面挖掘是情绪分析的关键任务之一,它的目标是从所表达的评论中提取方面实体词。对文本中的方面进行挖掘并总结可以极大的帮助***进行决策。
现有涉及用户评论方面挖掘的研究技术主要包括:基于潜狄利克雷分配(LDA)的无监督方面挖掘方法或者基于神经网络的方面挖掘方法。该方法存在的主要问题在于,基于LDA的无监督方面挖掘方法未考虑单词的共现特性,从而导致在单个方面的推测上效果很差;而现阶段的基于神经网络的方面挖掘方法,其网络模型的词表示是直接使用该词的词嵌入表示,该方法主要问题在于:在处理的过程中忽略了文本的深层语义特征,从而影响了方面提取的性能。
发明内容
本发明的目的在于针对用户评论文本方面挖掘方面现有技术存在缺陷或者不足,规避挖掘未考虑文本自身语义特征而导致方面提取精度较低的技术问题,本发明公开一种用户评论方面挖掘方法、***、设备及存储介质。
为了实现上述任务,本发明采用如下技术方案予以实现:
一种用户评论方面挖掘***,该***基于计算机可读指令,至少包括:
预处理单元:用于原始评论文本数据集进行处理,得到预处理后的语料集;
词训练单元:用于对预处理后的语料集进行处理,得到评论文本词向量集;
挖掘模型构建单元:用于对评论文本词向量集进行编码,并对编码后得到的方面向量信息和语义向量信息进行解码,得到嵌入模型;
训练单元:分别对评论文本词向量集编码的结果与其编码对应的解码结果,和编码对应的解码结果与负样本进行相似度衡量;
映射单元:用于对挖掘模型构建单元得到的嵌入模型进行词空间映射,得到方面代表词;
所述的预处理单元、词训练单元、挖掘模型构建单元、训练单元、映射单元依次连接。
根据本发明的整体技术构思,本发明还公开了一种用户评论方面挖掘方法,包括如下步骤:
步骤S1,原始评论文本数据集进行处理,得到预处理后的语料集;
步骤S2,预处理后的语料集进行处理,得到评论文本词向量集;
步骤S3,评论文本词向量集进行编码,并对编码后得到的方面向量信息和语义向
量信息进行解码,得到嵌入模型;
步骤S4,分别对评论文本词向量集编码的结果与其编码对应的解码结果,和编码
对应的解码结果与负样本进行相似度衡量;
步骤S5,对得到的嵌入模型进行词空间映射,得到方面代表词。
本发明的技术方案还可以应用于计算机设备之中,包括收发器、存储器和处理器,所述的存储器中存储有计算机可读指令,所述计算机可读指令被处理器执行时,使得处理器执行用户评论方面挖掘相关系列方法。
本发明还可以应用制成任意一种计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本发明总体的用户评论方面挖掘识别方法。
本发明与现有技术相比有益的技术效果:
1.与常规的基于LDA的无监督方面挖掘方法相比,本算法采用一个两阶段的网络结构用于方面挖掘,使方面与词共享相同的嵌入空间,同时模型中采用Bi-LSTM捕获到语义信息,然后与方面信息进行拼接融合,有效的解决了传统的深度方面挖掘模型未考虑到文本的上下文语义信息的问题。
2.本发明的模型具有较好的方面挖掘性能,使得用户评论文本挖掘得到的方面更具有可靠性,为潜在客户的决策提供了帮助,为平台的改进提供了参考。
3.本发明的模型结构简单、易于扩展、鲁棒性强,在实践中易于推广使用。
附图说明
图1是本发明的用户评论方面挖掘***结构框架图。
图2是本发明的用户评论方面挖掘方法主流程图。
图3是本发明的无监督神经网络的用户评论观方面挖掘原理逻辑示意图。
图4是本发明在测试实施例中所涉及的***框架示意图。
图5是本发明实施例中计算机设备的结构示意图。
图6是在本发明在restaurant数据集上的方面识别结果对比图。
以下结合附图及具体实施方式,对本发明涉及的具体内容作进一步详细说明。
具体实施方式
参见图1一种用户评论方面挖掘***,该***基于计算机可读指令,至少包括:
预处理单元:用于原始评论文本数据集进行处理,得到预处理后的语料集;
词训练单元:用于对预处理后的语料集进行处理,得到评论文本词向量集;
挖掘模型构建单元:用于对评论文本词向量集进行编码,并对编码后得到的方面向量信息和语义向量信息进行解码,得到嵌入模型;
训练单元:分别对评论文本词向量集编码的结果与其编码对应的解码结果,和编码对应的解码结果与负样本进行相似度衡量;
映射单元:用于对挖掘模型构建单元得到的嵌入模型进行词空间映射,得到方面代表词;
所述的预处理单元、词训练单元、挖掘模型构建单元、训练单元、映射单元依次连接。
进一步地,所述的词训练单元,使用Word2vec算法将预处理后的语料集,得到评论文本词向量集。
进一步地,所述的挖掘模型构建单元对评论文本词向量集进行编码包括:
1)构建方面编码器和语义编码器;
2)分别通过方面编码器和语义编码器获得获取评论文本词的方面向量信息和语义向量信息;
3)对获取的方面向量信息和语义向量信息进行拼接融合,得到融合后的向量信息;
所述的挖掘模型构建单元对编码后得到的方面向量信息和语义向量信息进行解码是对融合后的向量信息进行维度规约和重构,得到嵌入模型。
具体地,所述的训练单元中相似度衡量是评论文本词向量集编码得到的融合后的向量与重构后文本向量内积最大,且评论文本词向量集编码得到的融合后的向量与负样本内积最小,即为训练目标。
参见图2所示:本发明还公开了一种用户评论方面挖掘方法,包括如下步骤:
步骤S1,原始评论文本数据集进行处理,得到预处理后的语料集;
步骤S2,预处理后的语料集进行处理,得到评论文本词向量集;
步骤S3,评论文本词向量集进行编码,并对编码后得到的方面向量信息和语义向
量信息进行解码,得到嵌入模型;
步骤S4,分别对评论文本词向量集编码的结果与其编码对应的解码结果,和编码
对应的解码结果与负样本进行相似度衡量;
步骤S5,对得到的嵌入模型进行词空间映射,得到方面代表词。
参见图3,本发明所遵循的无监督神经网络的用户评论观方面挖掘原理,在本发明中,选择Word2vec以及全局的Attention机制和双向长短期记忆网络来依次处理文本:首先使用Word2vec得到每个单词的向量表示,通过词嵌入层将上下文中经常同时出现的词映射到嵌入空间中相近的位置;然后利用Attention机制过滤句子中的词嵌入得到方面向量,利用Bi-LSTM提取文本的上下文语义信息得到语义向量,通过对得到的方面向量和语义向量进行拼接;再利用方面嵌入的线性组合对结果进行重构。最终即可学习到一组方面嵌入。因此,本发明的提出基于无监督神经网络的文本方面挖掘方法用于挖掘用户评论中的方面代表词。
以下结合本发明的用户评论方面挖掘方法的各个分步骤,进一步解释说明本发明的整体技术构思。
步骤2采用Word2vec算法得出文本词向量字典,从文本词向量字典中获取每个评论文本词对应的向量,得出评论文本词向量集。具体表示如下:
首先将句子s中的每个单词w与一个特征向量ew联系起来,其中ew∈Rd,词嵌入可以将上下文中经常同时出现的词映射到嵌入空间中邻近的点,因此,将词嵌入作为特征向量,与单词相关的特征向量对应单词嵌入矩阵E∈Rn×d中的行,其中n为单词个数,则句子s的词嵌入表示如E所示:
进一步地,所述的步骤3具体包括如下步骤:
步骤S3.1构建方面编码器和语义编码器;
步骤S3.2通过方面编码器获取评论文本词的方面向量信息;通过语义编码器获取
评论文本词的语义向量信息;
步骤S3.3对获取的方面向量信息和语义向量信息进行拼接融合,得到融合后的向量信息;
步骤S3.4对融合后的向量信息进行维度规约和重构,得到嵌入矩阵T;
本发明的步骤S3.2,进一步包括如下步骤:
步骤S3.2.1根据式(1)计算每一条评论中涉及的所有评论文本词嵌入的平均值ys
步骤S3.2.2根据式(2)得到评论文本词的方面向量信息zs;
步骤S3.2.3使用Bi-LSTM捕获评论文本的深度语义信息,通过式(3)对于每个单词的语义词表示向量的计算得到评论文本的语义向量信息cBi_LSTM
本发明的步骤3.3进一步包括如下步骤:
步骤S3.3.1方面向量信息和语义向量信息通过向量拼接法完成信息拼接,采用式(4)得到拼接后的向量信息:
其中,zs表示评论文本词的方面向量信息,cBi_LSTM表示评论文本词的语义向量
信息,W1为第一加权矩阵参数,b1为第一偏置向量;
步骤S3.3.2对拼接后的向量信息使用非线性函数softmax进行归一化处理,采用
式(5)得到融合后的向量信息Zc;
其中,b1为偏置向量,W1为加权矩阵参数;
本发明的S3.4进一步包括如下步骤:
步骤S3.4.1通过权重矩阵的映射维度对融合后的向量信息进行降维,然后用非线性函数softmax通过式(6)得到归一化结果:
Pt=softmax(W2·Zc+b2) (6)
其中,Zc是步骤S3.3.2中融合得到的文本向量表示;b2为第二偏置向量,W2为加权矩阵参数;
步骤S3.4.2对融合后的向量信息通过式(7)进行重构,重构后得到文本的向量表示rs;T矩阵的维度设置为待挖掘方面种类的数量。
rs=TT·Pt (7)
其中,Pt是步骤S3.4.1中进行维度规约的结果,TT是方面嵌入矩阵T(T∈RK×d)的转置形式。
本发明整体技术步骤涉及的步骤S4,具体包括如下步骤:
评论文本词向量集编码得到的融合后的向量与重构后文本向量内积最大,且评论文本词向量集编码得到的融合后的向量与负样本内积最小,通过式(8)进行迭代计算:
L=J+δU (8)
本发明的步骤S4整体是一个对训练数据集训练优化的过程,该步骤的目标是最小化重构误差。对于每个输入的句子,先从训练数据中随机抽取个句子作为负样本,将第i个负样本表示为ni,ni通过计算其词嵌入的平均值得到。本方案的训练目标是使重构的文本向量rs与目标句嵌入Zc尽可能相似,而与负样本尽可能不同。因此,本发明的训练目标可以用一个Hinge loss(铰链损失)函数J进行表示,使rs与Zc之间的内积最大,同时使rs与负样本之间的内积最小。为了避免训练时方面嵌入矩阵T遇到的冗余问题,在目标函数J中添加一个正则化项U,来增强方面嵌入的多样性。当任意两个不同的方面嵌入向量之间的点积为0时,U达到最小。因此,正则化项U促使方面嵌入矩阵T的行之间的正交性,并减少不同方面向量之间的冗余。最终的目标函数L表示为J和U之和:
L=J+δU
其中,δ为控制正则项所占权重的超参数。
本发明的整体步骤S5,进一步地,是对方面嵌入矩阵T进行词空间映射,利用余弦作为相似度度量,得到方面代表词。
实施例1
在本实施例中及对比例中,均选用的数据集为Restaurant真实文本数据集,Restaurant真实文本数据集是得到广泛使用的餐厅评论语料库,其中包含来自纽约Citysearch的5万多家餐厅的评论,语料库中提供了一个带有方面标签的共有3400条评论文本的子集,这些带标签的句子用于最终方面识别的评估,手动标记的方面标签共有6个,分别是:Food,Staff,Ambience,Price,Anecdotes和Miscellaneous。
因为Restaurant真实文本数据集预先规定了14个方面,所以最后输出结果应为这14个方面对应的方面代表词集合,参见图2、图4所示:
首先对Restaurant真实文本数据集进行预处理,剔除数据集中的字符、表情等非英文文本数据,借助Python工具将数据中的英文字母大写变小写;使用英文停用词词典去除文本中的停用词,再对结果提取单词主干,得到预处理后的语料。因为Restaurant数据集自身已经划分好了训练集和测试集,所以这里不再对数据集进行划分。
以训练集数据构建方面挖掘模型:
将训练集中的评论文本中的每个评论文本词w与特征向量ew联系起来,其中ew∈Rd,因为词嵌入可以将上下文中经常同时出现的词映射到嵌入空间中邻近的点,因此,将词嵌入作为特征向量,将与特征向量对应的单词嵌入矩阵E∈Rn×d中的行,其中n为单词个数,则句子s的词嵌入表示如E所示:
使用由word2vec训练的单词向量初始化词嵌入矩阵E,在训练单词向量时,采用Word2vec的skip-gram算法进行计算,计算时,设置输出的词嵌入大小d为200,窗口大小为10。
按照本发明方法所述步骤对训练集数据逐步进行处理,得到归一化结果Pt。
本实施例中,即以Restaurant数据构建模型的过程中,使用Adam修正嵌入矩阵E并优化其他参数,Bi-LSTM计算单元数量设置为200,模型的迭代次数epoch设置为15,一次训练所选取的样本数batch size设置为50,学习率设置为0.001;设置每个输入样本的负样本m数量为20,正交性惩罚权重δ设置为1,将Restaurant语料库的方面数设置为14。
经过15次迭代,完成模型训练,成功获得到一组方面嵌入矩阵T。
这里对于T的设置包括:模型训练前,将T矩阵的维度设置为14,通过在词嵌入上运行k-means算法得到簇的中心点来初始化方面嵌入矩阵T。
然后对得到的方面嵌入矩阵T进行词空间映射,利用余弦相似度度量,在嵌入空间中查找距离最近的方面代表词,然后按照对得到的值按照大小进行排序,最终取排序前面距离最近的一组词,即为方面代表词。
再基于Bi-AE模型从Restaurant数据集中挖掘得到的方面代表词与金标准映射关系表(表1)将14个方面各自的代表词映射到表3中对应的金标签上,并将映射结果填入测试代码中的聚类映射集中。
表1 Restaurant数据集上模型挖掘得到的方面代表词与金标准映射关系表
注:使用Bi-AE模型挖掘后手动推断方面列表(左),模型训练得到的每个方面的代表词(中),黄金标准方面标签(右)。
以Restaurant测试集对已经训练好的Bi-AE模型进行测试:
Restaurant测试集是带有方面标注的评论文本,首先对测试集数据按照和训练集一样的预处理步骤进行处理。然后将经过预处理的测试数据的每条评论文本依次送入训练好的模型,模型的输出为该条评论文本中挖掘出的方面实体词,然后将该方面实体词与该评论的真实方面标签进行对比。
模型测试结果如图6所示。
对比例1
在本对比例中,选用的数据集为Restaurant真实文本数据集,本对比例与实施例1的区别在于,采用传统的非神经网络的无监督方面挖掘方法对Restaurant真实文本数据进行方面挖掘,这些对比方法大都是基于LDA主题模型或者是在LDA主题模型基础上的演变发展。
用测试集评估预测标签和真实标签的匹配度,评价指标采用精准率(Precision,P),召回率(Recall,R)和F1值,计算每个方面对应的P、R、F1值;测试完成后,分别计算每个方面对应的P、R、F1值。以此判断模型的精确程度。
表2给出了Bi-AE模型和传统非神经网络方法在数据集Restaurant上的实验结果对比。
表2 Restaurant数据集上模型与传统模型方面识别结果对比
如表2所示,通过实施例1和对比例1可以看出,对于restaurant数据集,本方法的在数据集定义的“food”、“staff”、“ambience”三个方面得到的准确率P比基于LDA无监督方面挖掘方法所取得的最优结果分别提升了2.6%、0.5%、0%;得到的召回率R比基于LDA无监督方面挖掘方法所取得的最优结果分别提升了-0.8%、11%、13.7%。得到的F1值比比基于LDA无监督方面挖掘方法所取得的最有结果分别提升了3.4%、13.7%、11.3%。
通过以上对比数据可以看出,相比传统的基于LDA无监督方面挖掘方法,本发明方法很好地考虑了文本中词语的共现特性。
对比例2
在本对比例中采用传统的基于神经网络的无监督方面挖掘方法对Restaurant真实文本数据进行方面挖掘。评价指标采用精准率(Precision,P),召回率(Recall,R)和F1值,计算每个方面对应的P、R、F1值;测试完成后,分别计算每个方面对应的P、R、F1值。以此判断模型的精确程度。
表3给出了Bi-AE模型和神经网络方法在数据集Restaurant上的实验结果对比。
表3 Restaurant数据集上模型与神经网络模型方面识别结果对比
如表3所示,通过实施例1和对比例2可以看出,对于同一公开的Restaurant真实文本数据集,与基于神经网络的无监督方面挖掘方法相比,在“food”方面上本发明方法的准确率达到了最高;在“staff”方面上本方案在P、R、F1三个评价指标上均取得了最高的结果;在“ambience”方面,本发明方法在F1值上取得了最高值,在准确率和召回率方面也与其余模型相差不大。综上所述,相比当前基于神经网络的无监督方面挖掘方法,本发明方法能有效解决词语一词多义现象。
实施例2
从实施例1的评估分析中可以看出Bi-AE模型在方面挖掘任务上具有不错的表现,从而有效的保障了Bi-AE模型应用于MOOC课程评论的方面挖掘的可实践性和准确性。在本实施例中,选用不带有方面标签的MOOC数据,经过对MOOC课程评论数据的总结,本实施例实验设置的MOOC课程评论的方面种类为五类,分别为{Course,Video,Assignment,Platform,Other},其中“Course”方面表示与课程内容相关;“Video”方面表示与视频相关;“Assignment”方面则表示与课程作业布置相关;“Platform”方面表示与MOOC平台提供的服务以及技术支持等相关的内容;“Other”方面则指的是其余少数不可区分方面的代表词。
首先对MOOC数据进行预处理,剔除数据集中的字符、表情等非英文文本数据,借助Python工具将数据中的英文字母大写变小写;使用英文停用词词典去除文本中的停用词,再对结果提取单词主干,得到预处理后的语料。本实施例的目的是为了使用Bi-AE模型从MOOC数据中挖掘出每个方面的代表词,从而直接获知用户在使用MOOC平台时所关注的对象特征。故将所有数据均用于模型训练。
以MOOC数据构建方面挖掘模型:
使用由word2vec训练的单词向量初始化词嵌入矩阵,在训练单词向量时,采用Word2vec的skip-gram算法进行计算,计算时,设置输出的词嵌入大小d为200,窗口大小为10。
按照本发明方法所述步骤对训练集数据逐步进行处理,得到归一化结果Pt。
本实施例中,即以MOOC数据构建模型的过程中,使用Adam修正嵌入矩阵E并优化其他参数,Bi-LSTM计算单元数量设置为200,模型的迭代次数epoch设置为15,一次训练所选取的样本数batch size设置为50,学习率设置为0.001;设置每个输入样本的负样本m数量为10,正交性惩罚权重δ设置为1,将MOOC语料库的方面数设置为5。
按照训练目标开始对模型进行训练,不断更新loss函数值,经过15次迭代,完成模型训练,成功获得到一组方面嵌入矩阵T。
这里对于T的设置包括:模型训练前,将T矩阵的维度设置为5,通过在词嵌入上运行k-means算法得到簇的中心点来初始化方面嵌入矩阵T。
然后对得到的方面嵌入矩阵T进行词空间映射,利用余弦相似度度量,在嵌入空间中查找距离最近的方面代表词,然后按照对得到的值按照大小进行排序,最终取排序前面距离最近的一组词,即为方面代表词。
表4展示了Bi-AE模型从MOOC的Education子数据集中挖掘得到每个方面对应的部分方面代表词。***、教师甚至是平台可以从表4中看出在MOOC课程评论中,大家所谈论的“对象”,即用户所关注的重点。方便潜在MOOC用户、教师甚至是MOOC平台后续做出对应决策。
表4 MOOC课程评论数据集上模型挖掘到的方面和代表词对应表
注:使用Bi-AE模型挖掘后手动推断方面列表(左),模型训练得到的每个方面的代表词(中)。
基于相同的技术构思,本申请还提供了一种计算机设备,如图5所示,该计算机设备包括收发器、处理器和存储器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述各实施方式中的所述用户评论方面挖掘方法。
基于相同的技术构思,本申请还提供了一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施方式中的所述的用户评论方面挖掘方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质如(ROM/RAM)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本申请的保护之内。
Claims (10)
1.一种用户评论方面挖掘***,其特征在于,该***基于计算机可读指令,至少包括:
预处理单元:用于原始评论文本数据集进行处理,得到预处理后的语料集;
词训练单元:用于对预处理后的语料集进行处理,得到评论文本词向量集;
挖掘模型构建单元:用于对评论文本词向量集进行编码,并对编码后得到的方面向量信息和语义向量信息进行解码,得到嵌入模型;
训练单元:分别对评论文本词向量集编码的结果与其编码对应的解码结果,和编码对应的解码结果与负样本进行相似度衡量;
映射单元:用于对挖掘模型构建单元得到的嵌入模型进行词空间映射,得到方面代表词;
所述的预处理单元、词训练单元、挖掘模型构建单元、训练单元、映射单元依次连接。
2.如权利要求1所述的用户评论方面挖掘***,其特征在于:所述的词训练单元,使用Word2vec算法将预处理后的语料集,得到评论文本词向量集。
3.如权利要求1所述的用户评论方面挖掘***,其特征在于:所述的挖掘模型构建单元对评论文本词向量集进行编码包括:
1)构建方面编码器和语义编码器;
2)分别通过方面编码器和语义编码器获得获取评论文本词的方面向量信息和语义向量信息;
3)对获取的方面向量信息和语义向量信息进行拼接融合,得到融合后的向量信息;
所述的挖掘模型构建单元对编码后得到的方面向量信息和语义向量信息进行解码是对融合后的向量信息进行维度规约和重构,得到嵌入模型。
4.如权利要求1所述的用户评论方面挖掘***,其特征在于:所述的训练单元中相似度衡量是评论文本词向量集编码得到的融合后的向量与重构后文本向量内积最大,且评论文本词向量集编码得到的融合后的向量与负样本内积最小,即为训练目标。
5.如权利要求1-4任意一项权利要求所述的一种用户评论方面挖掘方法,其特征在于:包括如下步骤:
步骤S1,原始评论文本数据集进行处理,得到预处理后的语料集;
步骤S2,预处理后的语料集进行处理,得到评论文本词向量集;
步骤S3,评论文本词向量集进行编码,并对编码后得到的方面向量信息和语义向量信息进行解码,得到嵌入模型;
步骤S4,分别对评论文本词向量集编码的结果与其编码对应的解码结果,和编码对应的解码结果与负样本进行相似度衡量;
步骤S5,对得到的嵌入模型进行词空间映射,得到方面代表词。
6.如权利要求5所述的用户评论方面挖掘方法,其特征在于:所述的步骤2采用Word2vec算法得出文本词向量字典,从文本词向量字典中获取每个评论文本词对应的向量,得出评论文本词向量集。
7.如权利要求5所述的用户评论方面挖掘方法,其特征在于:所述的步骤3具体包括如下步骤:
步骤S3.1构建方面编码器和语义编码器;
步骤S3.2通过方面编码器获取评论文本词的方面向量信息;通过语义编码器获取评论文本词的语义向量信息;
步骤S3.3对获取的方面向量信息和语义向量信息进行拼接融合,得到融合后的向量信息;
步骤S3.4对融合后的向量信息进行维度规约和重构,得到嵌入矩阵T;
所述的步骤S3.2,进一步包括如下步骤:
步骤S3.2.1根据式(1)计算每一条评论中涉及的所有评论文本词嵌入的平均值ys
步骤S3.2.2根据式(2)得到评论文本词的方面向量信息zs;
步骤S3.2.3使用Bi-LSTM捕获评论文本的深度语义信息,通过式(3)对于每个单词的语义词表示向量的计算得到评论文本的语义向量信息cBi_LSTM
所述的步骤3.3进一步包括如下步骤:
步骤S3.3.1方面向量信息和语义向量信息通过向量拼接法完成信息拼接,采用式(4)得到拼接后的向量信息:
其中,zs表示评论文本词的方面向量信息,cBi_LSTM表示评论文本词的语义向量信息,W1为第一加权矩阵参数,b1为第一偏置向量;
步骤S3.3.2对拼接后的向量信息使用非线性函数softmax进行归一化处理,采用式(5)得到融合后的向量信息Zc;
其中,b1为偏置向量,W1为加权矩阵参数;
所述的步骤S3.4进一步包括如下步骤:
步骤S3.4.1通过权重矩阵的映射维度对融合后的向量信息进行降维,然后用非线性函数softmax通过式(6)得到归一化结果:
pt=softmax(W2·Zc+b2) (6)
其中,Zc是步骤S3.3.2中融合得到的文本向量表示;b2为第二偏置向量,W2为加权矩阵参数;
步骤S3.4.2对融合后的向量信息通过式(7)进行重构,重构后得到文本的向量表示rs;
rs=TT·Pt (7)
其中,Pt是步骤S3.4.1中进行维度规约的结果,TT是方面嵌入矩阵T(T∈RK×d)的转置形式。
9.一种计算机设备,其特征在于:包括收发器、存储器和处理器,所述的存储器中存储有计算机可读指令,所述计算机可读指令被处理器执行时,使得处理器执行如权利要求5-8任意所述的用户评论方面挖掘方法。
10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求5-8中的任意所述的用户评论方面挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010666552.1A CN111897954B (zh) | 2020-07-10 | 2020-07-10 | 一种用户评论方面挖掘***、方法、及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010666552.1A CN111897954B (zh) | 2020-07-10 | 2020-07-10 | 一种用户评论方面挖掘***、方法、及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111897954A true CN111897954A (zh) | 2020-11-06 |
CN111897954B CN111897954B (zh) | 2024-04-02 |
Family
ID=73192355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010666552.1A Active CN111897954B (zh) | 2020-07-10 | 2020-07-10 | 一种用户评论方面挖掘***、方法、及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111897954B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434161A (zh) * | 2020-11-24 | 2021-03-02 | 哈尔滨工程大学 | 一种采用双向长短期记忆网络的方面级情感分析方法 |
CN112463956A (zh) * | 2020-11-26 | 2021-03-09 | 重庆邮电大学 | 基于对抗学习和分层神经网络的文本摘要生成***和方法 |
CN112541340A (zh) * | 2020-12-18 | 2021-03-23 | 昆明理工大学 | 基于变分双主题表征的弱监督涉案微博评价对象识别方法 |
CN112597278A (zh) * | 2020-12-25 | 2021-04-02 | 北京知因智慧科技有限公司 | 一种语义信息融合方法、装置、电子设备及存储介质 |
CN112926311A (zh) * | 2021-02-03 | 2021-06-08 | 昆明理工大学 | 一种结合序列和主题信息的无监督方面词提取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180285344A1 (en) * | 2017-04-04 | 2018-10-04 | Sap Se | Unsupervised aspect extraction from raw data using word embeddings |
US20180293499A1 (en) * | 2017-04-11 | 2018-10-11 | Sap Se | Unsupervised neural attention model for aspect extraction |
CN108984724A (zh) * | 2018-07-10 | 2018-12-11 | 凯尔博特信息科技(昆山)有限公司 | 利用高维表示提高特定属性情感分类准确率方法 |
CN110517121A (zh) * | 2019-09-23 | 2019-11-29 | 重庆邮电大学 | 基于评论文本情感分析的商品推荐方法及商品推荐装置 |
-
2020
- 2020-07-10 CN CN202010666552.1A patent/CN111897954B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180285344A1 (en) * | 2017-04-04 | 2018-10-04 | Sap Se | Unsupervised aspect extraction from raw data using word embeddings |
US20180293499A1 (en) * | 2017-04-11 | 2018-10-11 | Sap Se | Unsupervised neural attention model for aspect extraction |
CN108984724A (zh) * | 2018-07-10 | 2018-12-11 | 凯尔博特信息科技(昆山)有限公司 | 利用高维表示提高特定属性情感分类准确率方法 |
CN110517121A (zh) * | 2019-09-23 | 2019-11-29 | 重庆邮电大学 | 基于评论文本情感分析的商品推荐方法及商品推荐装置 |
Non-Patent Citations (2)
Title |
---|
张伟智;陈羽中;郭昆;林涵阳;: "一种融合摘要与主体特征的混合神经网络文本主题分类方法", 计算机与数字工程, no. 05 * |
王铃;陶宏才;: "基于LSTM前融合中文情感倾向分类模型的研究", 成都信息工程大学学报, no. 02 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434161A (zh) * | 2020-11-24 | 2021-03-02 | 哈尔滨工程大学 | 一种采用双向长短期记忆网络的方面级情感分析方法 |
CN112463956A (zh) * | 2020-11-26 | 2021-03-09 | 重庆邮电大学 | 基于对抗学习和分层神经网络的文本摘要生成***和方法 |
CN112541340A (zh) * | 2020-12-18 | 2021-03-23 | 昆明理工大学 | 基于变分双主题表征的弱监督涉案微博评价对象识别方法 |
CN112597278A (zh) * | 2020-12-25 | 2021-04-02 | 北京知因智慧科技有限公司 | 一种语义信息融合方法、装置、电子设备及存储介质 |
CN112926311A (zh) * | 2021-02-03 | 2021-06-08 | 昆明理工大学 | 一种结合序列和主题信息的无监督方面词提取方法 |
CN112926311B (zh) * | 2021-02-03 | 2022-08-02 | 昆明理工大学 | 一种结合序列和主题信息的无监督方面词提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111897954B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532554B (zh) | 一种中文摘要生成方法、***及存储介质 | |
CN110222188B (zh) | 一种多任务学习的公司公告处理方法及服务端 | |
CN111897954B (zh) | 一种用户评论方面挖掘***、方法、及存储介质 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
Qiu et al. | DGeoSegmenter: A dictionary-based Chinese word segmenter for the geoscience domain | |
CN111414476A (zh) | 一种基于多任务学习的属性级情感分析方法 | |
CN110738057A (zh) | 一种基于语法约束和语言模型的文本风格迁移方法 | |
CN110162594B (zh) | 文本数据的观点生成方法、装置及电子设备 | |
CN110046356B (zh) | 标签嵌入的微博文本情绪多标签分类方法 | |
CN112241626A (zh) | 一种语义匹配、语义相似度模型训练方法及装置 | |
CN112651940B (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN112069320B (zh) | 一种基于跨度的细粒度情感分析方法 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN111625715B (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN114255159A (zh) | 手写文本图像生成方法、装置、电子设备和存储介质 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN112632377A (zh) | 一种基于用户评论情感分析与矩阵分解的推荐方法 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及*** | |
CN114398480A (zh) | 基于关键信息抽取的金融舆情细分方面检测方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |