CN110020147A

CN110020147A - 模型生成、评论识别的方法、***、设备及存储介质

Info

Publication number: CN110020147A
Application number: CN201711225988.1A
Authority: CN
Inventors: 王颖帅; 李晓霞; 苗诗雨
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2019-07-16

Abstract

本发明公开了一种模型生成、评论识别的方法、***、设备及存储介质，其中模型生成的方法包括以下步骤：S₁、获取历史评论数据；S₂、对每条历史评论数据进行标注，以生成第一中间数据，每条第一中间数据包括历史评论数据和对应的标签，标签为垃圾评论或有价值评论；S₃、将每条第一中间数据转换成历史评论序列；S₄、获取特征，将历史评论序列和特征输入至循环神经网络进行模型训练，以生成垃圾评论的分类识别模型。本发明将循环神经网络应用于垃圾评论识别，利用历史评论数据进行训练生成垃圾评论的分类识别模型，通过该模型对新的待识别评论数据进行识别以确定是否为垃圾评论，降低了识别成本，提升了垃圾评论识别的覆盖度和精确度。

Description

模型生成、评论识别的方法、***、设备及存储介质

技术领域

本发明属于垃圾评论识别领域，特别涉及一种基于循环神经网络的垃圾评论的模型生成、评论识别的方法、***、设备及存储介质。

背景技术

随着互联网和人工智能的发展，在线评论的数量和影响力不断增加，评论可以在多个领域对人产生影响，在互联网领域尤其重要，有效地挖掘用户信息可以进一步改善产品；对用户而言，通过评论内容了解已经购买了物品的用户对该物品的反馈，可以帮助自己及时了解物品的优缺点、性价比等信息，最终帮助用户做出购买决策。但是评论往往充斥着较多的噪音，有些评论没有对物品本身进行评价，而是写了一些不相关的诗词，有些评论是广告、链接甚至是具有攻击性的词语，这些评论统称为垃圾评论。垃圾评论的识别是一项充满挑战性的工作，也是很有意义的。

现有技术中通常采用层次分析法进行垃圾评论的识别，具体由分析师结合业务经验确定特征权重，然后给出评论得分的计算公式。该方法的缺点是：第一，人力成本较大，需要专家即有业务经验的产品分析师给予评价的环节较多，不符合当今时代机器学习人工智能的趋势；第二，在数据量较大时，该方法为了保证特征向量的精确度通常计算会比较复杂；第三，层次分析法是统计学的思维，是小样本数据上做权重估计，定性成分多，定量成分少，所以计算结果不够准确。

发明内容

本发明要解决的技术问题是为了克服现有技术中垃圾评论的识别方式存在人力成本高、计算复杂且精确度不高的缺陷，提供一种能够提升垃圾评论的识别精确度的基于循环神经网络的垃圾评论的模型生成、评论识别的方法、***、设备及存储介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供了一种模型生成的方法，其特点在于，包括以下步骤：

S₁、获取历史评论数据；

S₂、对每条历史评论数据进行标注，以生成第一中间数据，每条所述第一中间数据包括所述历史评论数据和对应的标签，所述标签为垃圾评论或有价值评论；

S₃、将每条所述第一中间数据转换成历史评论序列；

S₄、获取特征，将所述历史评论序列和所述特征输入至循环神经网络进行模型训练，以生成垃圾评论的分类识别模型。

本方案中，历史评论数据为评论文字数据，该文字数据需转换为评论序列后循环神经网络才能识别以便进行模型训练。

本方案中，首先对历史评论数据进行标注，以确定每条历史评论数据是垃圾评论还是有价值评论，然后将特征和标注后的历史评论数据对应的历史评论序列输入至循环神经网络进行训练，最终生成垃圾评论的分类识别模型。该分类识别模型能够用于后续新的评论数据是否为垃圾评论的识别。

本方案中，将循环神经网络应用于垃圾评论识别，利用历史评论数据进行训练生成适用于垃圾评论的分类识别模型，以帮助后续新的评论数据是否为垃圾评论提供决策。通过该分类识别模型能够自动识别新的评论数据是否为垃圾评论，不再依赖于人工参与，从而降低了垃圾识别的人力成本。

较佳地，所述循环神经网络为LSTM(Long Short-Term Memory，长短期记忆网络)。

较佳地，步骤S₄中进行模型训练包括调试核心参数的步骤，所述核心参数包括batch_size，num_steps，vocab_size，hidden_units和learning_rate。

本方案中，循环神经网络采用LSTM，LSTM所包括的众多参数中影响垃圾评论识别准确度的核心参数包括batch_size，num_steps，vocab_size，hidden_units和learning_rate。其中batch_size表示梯度下降迭代一批数据的个数，即每次训练在训练集中取batch_size个样本训练，一般为2的倍数；num_steps表示深度学习的步数，取值范围是正整数；vocab_size表示循环神经网络词语滑动窗口的大小；hidden_units表示深度学习隐含层个数；learning_rate表示深度神经网络的学习速率。

本方案中，循环神经网络内部通过选取训练数据对每个参数进行前向传播获得预测值，并通过反向传播更新参数，最终挑选出影响垃圾评论识别准确度的核心参数并确定每个核心参数的值。

较佳地，batch_size为64，num_steps为100，vocab_size为2，hidden_units为8，learning_rate为0.001。

较佳地，步骤S₄中采用TensorFlow(第二代人工智能学习***)调试所述核心参数。

本方案中，利用分布式TensorFlow，具体为多台设备同时读取参数的取值，并且当反向传播算法完成之后，同步更新参数的取值，单个设备不会单独对参数进行更新，而会等待所有设备都完成反向传播之后，再统一更新参数，在每一轮迭代时，不同设备随机获取一小部分数据，各自训练参数的梯度，当所有设备完成反向传播的计算之后，需要计算出不同设备上参数梯度的平均值，最后更新参数。

本方案中，通过分布式TensorFlow，多GPU(Graphics Processing Unit，图形处理器)并行训练模型，处理大数据量的历史评论序列，处理速度更快，能够提升用户体验。

较佳地，所述模型生成的方法还包括提取特征以生成所述特征。

较佳地，所述特征包括商品的评论特征和用户特征；

所述商品的评论特征包括以下特征中的至少一种：

评论者的评论等级分、评论创建时间距当前时间的距离、评论分数、评论点赞的个数、评论回复数、评论长度、评论中的图片个数、评论是否有追评和评论中包含的商品标签的数量；

所述用户特征包括以下特征中的至少一种：

用户性别、用户购买力等级、用户会员级别信息和用户价值分。

本方案中，可以通过特征工程从历史评论数据中提取特征供循环神经网络训练模型使用。

较佳地，步骤S₁和步骤S₂之间还包括LDA(Latent Dirichlet Allocation，一种文档主题生成模型)主题聚类，所述LAD主题聚类包括以下步骤：

T₁、将每条所述历史评论数据转换为历史特征向量；

T₂、获取所述特征，将所述历史特征向量和所述特征输入至LDA模型进行主题聚类，以得到所述LDA模型的每个类别下的所述历史特征向量的数量；

T₃、逐一判断每个类别下的所述历史特征向量的数量是否小于预设值，若是则执行步骤T₄，若否则执行步骤T₅；

T₄、对所述历史特征向量的数量小于所述预设值的类别下的所述历史特征向量所对应的所述历史评论数据进行标注，以生成第二中间数据，每条所述第二中间数据包括所述历史评论数据和对应的标签，所述第二中间数据中的标签为垃圾评论；

T₅、将所述历史特征向量的数量大于或等于所述预设值的类别下的所述历史特征向量对应的所述历史评论数据设置为待标注历史评论数据；

步骤S₂为：

对每条待标注历史评论数据进行标注，以生成第一中间数据，每条所述第一中间数据包括所述待标注历史评论数据和对应的标签，所述标签为垃圾评论或有价值评论；

步骤S₃为：将每条所述第一中间数据和每条所述第二中间数据转换成历史评论序列。

本方案中，获取历史评论数据后首先进行LDA主题聚类，主题聚类下分布包括很少的评论的分类下的历史评论数据直接打标签为垃圾评论，其它的历史评论数据再经过标注后以确定为垃圾评论还是有价值评论，然后再输入至循环神经网络中进行训练。

本方案中，在机器学习的算法上，结合监督学习和非监督学习，具体为首先由LDA主题聚类为深度学习训练集提供启发式的垃圾标签识别，然后再进行训练集的其它数据的垃圾标签的标注，最后将标注后的历史评论数据输入至循环神经网络进行模型训练以及参数的最优化调试。

本方案中，首先通过LAD主题聚类对所有的历史评论数据进行聚类，由此能够确定一部分历史评论数据为垃圾评论，从而降低了标注的工作量，同时也提升了垃圾评论的精确度。

较佳地，步骤S₁和步骤S₂之间还包括以下步骤：

对所述历史评论数据进行数据清洗；

步骤S₂中对数据清洗后的每条历史评论数据进行标注，以生成所述第一中间数据。

本方案中，还包括历史评论数据的数据清洗步骤，具体可以包括评论的缺失值数据处理、评论数据的异常值处理和评论数据的启发式处理。评论数据的异常值处理，例如评论图片正常情况在几十个范围内，偶尔有一个评论的图片是1万个，可以认为这个评论图片数据是异常值数据，清除掉，该数据不再使用；评论数据的启发式处理，例如有一个评论，没有任何语言，都是标点符号和数字，就认为这个评论是垃圾评论，也可以直接打标签为垃圾评论，后续送入循环神经网络使用。

较佳地，步骤S₃包括以下步骤：

S₃₁、采用word2vec(一款将词表征为实数值向量的工具)将所述第一中间数据计算出每一个词语的向量；

S₃₂、对所述第一中间数据所包括的所有词语求平均以生成所述历史评论序列。

本方案中，通过word2vec将第一中间数据计算生成词语的向量，然后再对所有词语求平均以生成历史评论序列，从而实现了把由文字组成的句子转化成了数学的向量，该向量供后续流程使用。

本发明还提供了一种模型生成的***，其特点在于，包括数据获取模块、第一标签标注模块、第一数据转换模块和模型训练模块；

所述数据获取模块用于获取历史评论数据；

所述第一标签标注模块用于对每条历史评论数据进行标注，以生成第一中间数据，每条所述第一中间数据包括所述历史评论数据和对应的标签，所述标签为垃圾评论或有价值评论；

所述第一数据转换模块用于将每条所述第一中间数据转换成历史评论序列；

所述模型训练模块用于获取特征，将所述历史评论序列和所述特征输入至循环神经网络进行模型训练，以生成垃圾评论的分类识别模型。

较佳地，所述模型训练模块还包括核心参数调试模块；

所述核心参数调试模块用于调试核心参数，所述核心参数包括batch_size，num_steps，vocab_size，hidden_units和learning_rate。

较佳地，所述模型生成的***还包括特征提取模块，所述特征提取模块用于生成所述特征。

较佳地，所述模型生成的***还包括LDA主题聚类模块，所述LDA主题聚类模块包括第二数据转换模块、聚类执行模块、判断模块、第二标签标注模块和数据设置模块；

所述数据获取模块还用于在获取历史评论数据之后调用所述第二数据转换模块；

所述第二数据转换模块用于将每条所述历史评论数据转换为历史特征向量，调用所述聚类执行模块；

所述聚类执行模块用于获取所述特征，将所述历史特征向量和所述特征输入至LDA模型进行主题聚类，以得到所述LDA模型的每个类别下的所述历史特征向量的数量，调用所述判断模块；

所述判断模块用于逐一判断每个类别下的所述历史特征向量的数量是否小于预设值，若是则调用所述第二标签标注模块，若否则调用所述数据设置模块；

所述第二标签标注模块用于对所述历史特征向量的数量小于所述预设值的类别下的所述历史特征向量对应的所述历史评论数据进行标注，以生成第二中间数据，每条所述第二中间数据包括所述历史评论数据和对应的标签，所述第二中间数据中的标签为垃圾评论；

所述数据设置模块用于将所述历史特征向量的数量大于或等于所述预设值的类别下的所述历史特征向量对应的所述历史评论数据设置为待标注历史评论数据；

所述第一标签标注模块用于对每条待标注历史评论数据进行标注，以生成所述第一中间数据，每条所述第一中间数据包括所述待标注历史评论数据和对应的标签，所述标签为垃圾评论或有价值评论；

所述第一数据转换模块用于将每条所述第一中间数据和每条所述第二中间数据转换成历史评论序列。

较佳地，所述模型生成的***还包括数据清洗模块；

所述数据获取模块还用于在获取历史评论数据之后调用所述数据清洗模块；

所述数据清洗模块用于对所述历史评论数据进行数据清洗；

所述第一标签标注模块用于对数据清洗后的每条历史评论数据进行标注，以生成所述第一中间数据。

较佳地，所述第一数据转换模块包括词语向量生成模块和评价序列生成模块；

所述词语向量生成模块用于采用word2vec将所述第一中间数据计算出每一个词语的向量；

所述评价序列生成模块用于对所述第一中间数据所包括的所有词语求平均以生成所述历史评论序列。

本发明还提供了一种模型生成的设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特点在于，所述处理器执行所述程序时实现前述的模型生成的方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特点在于，所述程序被处理器执行时实现前述的模型生成的方法的步骤。

本发明还提供了一种评论识别的方法，其特点在于，包括以下步骤：

L₁、获取待识别评论数据；

L₂、将所述待识别评论数据转换成待识别评论序列；

L₃、将所述待识别评论序列输入至前述的模型生成的方法的步骤S₄所生成的分类识别模型；

L₄、所述分类识别模型判断所述待识别评论序列所对应的所述待识别评论数据是否为垃圾评论。

本方案中，待识别评论数据为新的待识别的评论数据，该数据输入前述根据历史评论数据生成的分类识别模型后能够直接被识别为垃圾评论还是有价值评论。本方案提供的评论识别的方法能够自动识别待识别评论数据是否为垃圾评论，降低了识别成本，提升了垃圾评论识别的覆盖度和精确度。另外，垃圾评论被有效识别，展示给用户的都是有参考价值的评论，由此进一步提高了用户体验。

本发明还提供了一种评论识别的***，其特点在于，包括待识别数据获取模块、序列生成模块、输入模块以及前述的模型生成的***；

所述待识别数据获取模块用于获取待识别评论数据；

所述序列生成模块用于将所述待识别评论数据转换成待识别评论序列；

所述输入模块用于将所述待识别评论序列输入至所述分类识别模型；

所述分类识别模型用于判断所述待识别评论序列所对应的所述待识别评论数据是否为垃圾评论。

本发明还提供了一种评论识别的设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特点在于，所述处理器执行所述程序时实现前述的评论识别的方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特点在于，所述程序被处理器执行时实现前述的评论识别的方法的步骤。

本发明的积极进步效果在于：本发明提供的模型生成、评论识别的方法、***、设备及存储介质将循环神经网络应用于垃圾评论识别，利用历史评论数据进行训练生成适用于垃圾评论的分类识别模型，再通过该分类识别模型对新的待识别评论数据进行识别以确定是否为垃圾评论。本发明能够自动识别待识别评论数据是否为垃圾评论，降低了识别成本，提升了垃圾评论识别的覆盖度和精确度。另外，垃圾评论被有效识别，展示给用户的都是有参考价值的评论，由此进一步提高了用户体验。

附图说明

图1为本发明实施例1的模型生成的方法的流程图。

图2为本发明实施例1中步骤108的流程图。

图3为本发明实施例1中分布式训练模型的流程图。

图4为本发明实施例2的模型生成的***的模块示意图。

图5为本发明实施例4的模型生成的设备的硬件结构示意图。

图6为本发明实施例5的评论识别的方法的流程图。

图7为本发明实施例6的评论识别的***的模块示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

如图1所示，本实施例提供的模型生成的方法包括以下步骤：

步骤101、获取历史评论数据；

步骤102、对所述历史评论数据进行数据清洗；

步骤103、对数据清洗后的历史评论数据进行特征提取以获得特征；

步骤104、将每条数据清洗后的所述历史评论数据转换为历史特征向量；

步骤105、将所述历史特征向量和所述特征输入至LDA模型进行主题聚类，以得到所述LDA模型的每个类别下的所述历史特征向量的数量；

步骤106、逐一判断每个类别下的所述历史特征向量的数量是否小于预设值，若是则对该类别下的所述历史特征向量所对应的所述历史评论数据进行标注，以生成第二中间数据，每条所述第二中间数据包括所述历史评论数据和与之对应的标签，所述第二中间数据中的标签的值为垃圾评论；若否则将该类别下的所述历史特征向量对应的所述历史评论数据设置为待标注历史评论数据；

步骤107、对每条待标注历史评论数据进行标注，以生成第一中间数据，每条所述第一中间数据包括所述待标注历史评论数据和对应的标签，所述标签为垃圾评论或有价值评论；

步骤108、将每条所述第一中间数据和每条所述第二中间数据转换成历史评论序列；

步骤109、将所述历史评论序列和所述特征输入至LSTM进行模型训练，采用TensorFlow调试核心参数，以生成垃圾评论的分类识别模型。

其中，步骤108对应的流程如图2所示，包括以下步骤：

步骤1081、采用word2vec，分别对所述第一中间数据和所述第二中间数据进行计算，以得出每一个词语的向量；

步骤1082、分别对所述第一中间数据和所述第二中间数据所包括的所有词语求平均以生成所述历史评论序列。

本实施例中，核心参数包括batch_size，num_steps，vocab_size，hidden_units和learning_rate。

其中，batch_size在LSTM中表示梯度下降迭代一批数据的个数，即每次训练在训练集中取batch_size个样本进行训练，本实施例中batch_size取值为64。

num_steps在LSTM中表示深度学习的步数，本实施例中取值为100。

vocab_size在LSTM中表示循环神经网络词语滑动窗口的大小，本实施例中取值为2。

hidden_units在LSTM中表示深度学习隐含层个数，本实施例中取值为8。

learning_rate在LSTM中表示深度神经网络的学习速率，本实施例中取值为0.001。

本实施例中还涉及五个LSTM中的核心参数data_dir，ps_hosts，worker_hosts，job_name，tf.device，本实施例中这些参数直接指定。其中data_dir表示训练数据路径，本实施例中分为训练集，验证集，测试集；ps_hosts表示分布式TensorFlow集群负责接收参数的机器；worker_hosts表示分布式TensorFlow集群负责计算训练模型的机器；job_name用于表示训练模型启动的一个应用任务的名称；tf.device用于指定训练过程中使用GPU还是CPU(Central Processing Unit，中央处理器)。

本实施例中，所述特征包括商品的评论特征和用户特征；所述商品的评论特征包括评论者的评论等级分、评论创建时间距当前时间的距离、评论分数(包括好评、中评和差评)、评论点赞的个数、评论回复数、评论长度、评论中的图片个数、评论是否有追评和评论中包含的商品标签的数量；所述用户特征包括用户性别、用户购买力等级、用户会员级别信息和用户价值分。其中用户会员级别信息类似于京东的该用户是否是plus(京东的一种会员等级)会员。

本实施例中，首先对历史评论数据进行数据清洗，数据清洗具体包括评论的缺失值数据处理、评论数据的异常值处理和评论数据的启发式处理。评论数据的异常值处理，例如评论图片正常情况在几十个范围内，偶尔有一个评论的图片是1万个，可以认为这个评论图片数据是异常值数据，清除掉，该数据不再使用；评论数据的启发式处理，例如有一个评论，没有任何语言，都是标点符号和数字，就认为这个评论是垃圾评论，也可以直接打标签为垃圾评论，后续送入循环神经网络使用。

本实施例中，对于数据清洗后的历史评论数据转换为历史特征向量后通过LAD主题聚类进行聚类，具体为，将主题聚类下分布包括很少的评论的分类下的历史评论数据直接打标签为垃圾评论，其它的历史评论数据设置为待标注历史评论数据后再经过标注以确定该数据是垃圾评论还是有价值评论，然后再输入至循环神经网络中进行训练。由此能够直接确定一部分历史评论数据为垃圾评论，从而降低了标注的工作量，同时也提升了垃圾评论的精确度。

本实施例中，对于历史评论数据依次经过数据清洗、LDA主题聚类标注和重新设置后，对于设置为待标注历史评论数据还需要进行人工标注，以确定每一条待标注历史评论数据是垃圾评论还是有价值评论，然后再对标注后的第一中间数据进行数据转换，将文字数据转换为LSTM能够处理的向量，具体为首先通过word2vec分别对第一中间数据和第二中间数据计进行算，通过计算能够生成对应的词语的向量，然后再对用户一句评论里面的所有词语求平均，生成历史评论序列，也就是一句话的向量，从而实现了把由文字组成的句子转化成了数学的向量，然后再将特征和历史评论序列输入至LSTM进行训练，采用TensorFlow调试核心参数，最终生成垃圾评论的分类识别模型。该分类识别模型用于后续新的评论数据是否为垃圾评论的识别。

本实施例中，利用分布式TensorFlow进行模型训练，如图3所示，为多台设备同时读取参数的取值，并且当反向传播算法完成之后，同步更新参数的取值，单个设备不会单独对参数进行更新，而会等待所有设备都完成反向传播之后，再统一更新参数，在每一轮迭代时，不同设备随机获取一小部分数据，各自训练参数的梯度，当所有设备完成反向传播的计算之后，需要计算出不同设备上参数梯度的平均值，最后更新参数。

本实施例中，通过分布式TensorFlow，多GPU并行训练模型，处理大数据量的历史评论序列，处理速度更快，能够提升用户体验。

本实施例中，将循环神经网络应用于垃圾评论识别，循环神经网络采用LSTM，利用历史评论数据进行训练生成适用于垃圾评论的分类识别模型，以帮助后续新的评论数据是识别是否垃圾评论提供决策。通过该分类识别模型能够自动识别新的评论数据是否为垃圾评论，不再依赖于人工参与，从而降低了垃圾识别的人力成本。

本实施例中，在机器学习的算法上，结合监督学习和非监督学习，具体为首先由LDA主题聚类为深度学习训练集提供启发式的垃圾标签识别，然后再进行训练集的其它数据的垃圾标签的标注，最后将标注后的历史评论数据输入至循环神经网络进行模型训练以及参数的最优化调试。

实施例2

如图4所示，本实施例的模型生成的***包括数据获取模块1、数据清洗模块2、特征提取模块3、LDA主题聚类模块4、第一标签标注模块5、第一数据转换模块6和模型训练模块7；

所述模型训练模块7还包括核心参数调试模块701；

所述LDA主题聚类模块4包括第二数据转换模块401、聚类执行模块402、判断模块403、第二标签标注模块404和数据设置模块405；

所述第一数据转换模块6包括词语向量生成模块601和评价序列生成模块602；

所述数据获取模块1用于获取历史评论数据，所述数据获取模块1还用于在获取历史评论数据之后调用所述数据清洗模块2；

所述数据清洗模块2用于对所述历史评论数据进行数据清洗；

所述特征提取模块3用于对数据清洗后的历史评论数据进行特征提取获得特征，调用所述第二数据转换模块401；

所述第二数据转换模块401用于将每条数据清洗后的历史评论数据转换为历史特征向量，调用所述聚类执行模块402；

所述聚类执行模块402用于将所述历史特征向量和所述特征输入至LDA模型进行主题聚类，以得到所述LDA模型的每个类别下的所述历史特征向量的数量，调用所述判断模块403；

所述判断模块403用于逐一判断每个类别下的所述历史特征向量的数量是否小于预设值，若是则调用所述第二标签标注模块404，若否则调用所述数据设置模块405；所述第二标签标注模块404用于对所述历史特征向量的数量小于所述预设值的类别下的所述历史特征向量对应的所述历史评论数据进行标注，以生成第二中间数据，每条所述第二中间数据包括所述历史评论数据和对应的标签，所述第二中间数据中的标签为垃圾评论；所述数据设置模块405用于将所述历史特征向量的数量大于或等于所述预设值的类别下的所述历史特征向量对应的所述历史评论数据设置为待标注历史评论数据；所述判断模块403处理完所有类别下的历史特征向量后调用所述第一标签标注模块5；

所述第一标签标注模块5用于对每条待标注历史评论数据进行标注，以生成第一中间数据，每条所述第一中间数据包括所述待标注历史评论数据和对应的标签，所述标签为垃圾评论或有价值评论，所述第一标签标注模块5标注完后调用所述第一数据转换模块6；

所述第一数据转换模块6用于将每条所述第一中间数据和每条所述第二中间数据转换成历史评论序列并调用所述模型训练模块7。

所述模型训练模块7用于将所述历史评论序列和所述特征输入至循环神经网络进行模型训练，所述模型训练模块701采用TensorFlow调试所述核心参数，以生成垃圾评论的分类识别模型。

所述词语向量生成模块601用于分别采用word2vec将所述第一中间数据和所述第二中间数据计算出每一个词语的向量并调用所述评价序列生成模块602；

所述评价序列生成模块602用于分别对所述第一中间数据和所述第二中间数据所包括的所有词语求平均以生成所述历史评论序列。

本实施例中，所述循环神经网络采用LSTM。

本实施例中，核心参数包括batch_size，num_steps，vocab_size，hidden_units和learning_rate。batch_size取值为64，num_steps取值为100，vocab_size取值为2，hidden_units取值为8，learning_rate取值为0.001。

本实施例中，所述特征包括商品的评论特征和用户特征；所述商品的评论特征包括评论者的评论等级分、评论创建时间距当前时间的距离、评论分数、评论点赞的个数、评论回复数、评论长度、评论中的图片个数、评论是否有追评和评论中包含的商品标签的数量；所述用户特征包括用户性别、用户购买力等级、用户会员级别信息和用户价值分。

本实施例提供的模型生成的***，将循环神经网络应用于垃圾评论识别，循环神经网络采用LSTM，能够利用历史评论数据进行训练生成适用于垃圾评论的分类识别模型，以帮助后续新的评论数据是识别是否垃圾评论提供决策。通过该分类识别模型能够自动识别新的评论数据是否为垃圾评论，不再依赖于人工参与，从而降低了垃圾识别的人力成本。

实施例3

图5为本发明实施例3提供的一种模型生成的设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性模型生成的设备50的框图。图5显示的模型生成的设备50仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，模型生成的设备50可以以通用计算设备的形式表现，例如其可以为服务器设备。模型生成的设备50的组件可以包括但不限于：上述至少一个处理器51、上述至少一个存储器52、连接不同***组件(包括存储器52和处理器51)的总线53。

总线53包括数据总线、地址总线和控制总线。

存储器52可以包括易失性存储器，例如随机存取存储器(RAM)521和/或高速缓存存储器522，还可以进一步包括只读存储器(ROM)523。

存储器52还可以包括具有一组(至少一个)程序模块524的程序/实用工具525，这样的程序模块524包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器51通过运行存储在存储器52中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1所提供的模型生成的方法。

模型生成的设备50也可以与一个或多个外部设备54(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口55进行。并且，模型生成的设备50还可以通过网络适配器56与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器56通过总线53与模型生成的设备50的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)***、磁带驱动器以及数据备份存储***等。

应当注意，尽管在上文详细描述中提及了模型生成的设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1所提供的模型生成的方法的步骤。

实施例5

如图6所示，本实施例的评论识别的方法包括以下步骤：

步骤M1、获取待识别评论数据；

步骤M2、将所述待识别评论数据转换成待识别评论序列；

步骤M3、将所述待识别评论序列输入至实施例1所述的模型生成的方法的步骤109所生成的分类识别模型；

步骤M4、所述分类识别模型判断所述待识别评论序列所对应的所述待识别评论数据是否为垃圾评论。

本实施例中，待识别评论数据为新的待识别的评论数据，该数据输入实施例1根据历史评论数据生成的分类识别模型后能够直接被识别为垃圾评论还是有价值评论。

本实施例提供的评论识别的方法能够自动识别待识别评论数据是否为垃圾评论，降低了识别成本，提升了垃圾评论识别的覆盖度和精确度。另外，垃圾评论被有效识别，展示给用户的都是有参考价值的评论，由此进一步提高了用户体验。

实施例6

如图7所示，本实施例的一种评论识别的***，包括待识别数据获取模块8、序列生成模块9、输入模块10以及实施例2所述的模型生成的***11；

所述待识别数据获取模块8用于获取待识别评论数据；

所述序列生成模块9用于将所述待识别评论数据转换成待识别评论序列；

所述输入模块10用于将所述待识别评论序列输入至所述分类识别模型；

本实施例提供的评论识别的***能够自动识别待识别评论数据是否为垃圾评论，降低了识别成本，提升了垃圾评论识别的覆盖度和精确度。另外，垃圾评论被有效识别，展示给用户的都是有参考价值的评论，由此进一步提高了用户体验。

实施例7

本实施例提供了一种评论识别的设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例5所提供的评论识别的方法。

实施例8

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例5所提供的评论识别的方法的步骤。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种模型生成的方法，其特征在于，包括以下步骤：

S₁、获取历史评论数据；

S₃、将每条所述第一中间数据转换成历史评论序列；

2.如权利要求1所述的模型生成的方法，其特征在于，所述循环神经网络为LSTM。

3.如权利要求1所述的模型生成的方法，其特征在于，步骤S₄中进行模型训练包括调试核心参数的步骤，所述核心参数包括batch_size，num_steps，vocab_size，hidden_units和learning_rate。

4.如权利要求3所述的模型生成的方法，其特征在于，batch_size为64，num_steps为100，vocab_size为2，hidden_units为8，learning_rate为0.001。

5.如权利要求3所述的模型生成的方法，其特征在于，步骤S₄中采用TensorFlow调试所述核心参数。

6.如权利要求1所述的模型生成的方法，其特征在于，所述模型生成的方法还包括提取特征以生成所述特征。

7.如权利要求6所述的模型生成的方法，其特征在于，所述特征包括商品的评论特征和用户特征；

所述商品的评论特征包括以下特征中的至少一种：

所述用户特征包括以下特征中的至少一种：

8.如权利要求7所述的模型生成的方法，其特征在于，步骤S₁和步骤S₂之间还包括LDA主题聚类，所述LAD主题聚类包括以下步骤：

T₁、将每条所述历史评论数据转换为历史特征向量；

步骤S₂为：

对每条待标注历史评论数据进行标注，以生成所述第一中间数据，每条所述第一中间数据包括所述待标注历史评论数据和对应的标签，所述标签为垃圾评论或有价值评论；

9.如权利要求1所述的模型生成的方法，其特征在于，步骤S₁和步骤S₂之间还包括以下步骤：

对所述历史评论数据进行数据清洗；

10.如权利要求1所述的模型生成的方法，其特征在于，步骤S₃包括以下步骤：

S₃₁、采用word2vec将所述第一中间数据计算出每一个词语的向量；

11.一种模型生成的***，其特征在于，包括数据获取模块、第一标签标注模块、第一数据转换模块和模型训练模块；

所述数据获取模块用于获取历史评论数据；

12.如权利要求11所述的模型生成的***，其特征在于，所述模型训练模块还包括核心参数调试模块；

13.如权利要求11所述的模型生成的***，其特征在于，所述模型生成的***还包括特征提取模块，所述特征提取模块用于生成所述特征。

14.如权利要求13所述的模型生成的***，其特征在于，所述模型生成的***还包括LDA主题聚类模块，所述LDA主题聚类模块包括第二数据转换模块、聚类执行模块、判断模块、第二标签标注模块和数据设置模块；

15.如权利要求11所述的模型生成的***，其特征在于，所述模型生成的***还包括数据清洗模块；

所述数据清洗模块用于对所述历史评论数据进行数据清洗；

16.如权利要求11所述的模型生成的***，其特征在于，所述第一数据转换模块包括词语向量生成模块和评价序列生成模块；

17.一种模型生成的设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至10任一项所述的模型生成的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至10任一项所述的模型生成的方法的步骤。

19.一种评论识别的方法，其特征在于，包括以下步骤：

L₁、获取待识别评论数据；

L₂、将所述待识别评论数据转换成待识别评论序列；

L₃、将所述待识别评论序列输入至权利要求1至10任一项所述的模型生成的方法的步骤S₄所生成的分类识别模型；

20.一种评论识别的***，其特征在于，包括待识别数据获取模块、序列生成模块、输入模块以及权利要求11至16任一项所述的模型生成的***；

所述待识别数据获取模块用于获取待识别评论数据；

21.一种评论识别的设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求19所述的评论识别的方法。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求19所述的评论识别的方法的步骤。