CN111639247B

CN111639247B - 用于评估评论的质量的方法、装置、设备以及计算机可读存储介质

Info

Publication number: CN111639247B
Application number: CN201910157083.8A
Authority: CN
Inventors: 范淼; 孙明明; 李平; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2023-08-01
Anticipated expiration: 2039-03-01
Also published as: US11756094B2; US20200278976A1; CN111639247A

Abstract

根据本公开的示例实施例，提供了一种用于评估评论的质量的方法、装置、设备以及计算机可读存储介质。方法包括从对象的元数据中选择与对象的评论相关联的元数据键，其中元数据包括多个键值对。方法还包括基于元数据确定与所选择的元数据键相对应的值，并且基于评论以及与元数据键相对应的值来评估评论的质量。本公开的实施例在评估评论的质量时不仅考虑评论本身的内容，而且引入与评论密切相关的对象元数据，由此能够提高评论评估的准确率。

Description

用于评估评论的质量的方法、装置、设备以及计算机可读存储介质

技术领域

本公开的实施例总体上涉及信息技术领域，并且更具体地涉及用于评估评论的质量的方法、装置、电子设备以及计算机可读存储介质。

背景技术

随着网络技术的发展，网络用户人数不断增多，各种网络平台上的用户生成内容也变多，用户可以在各种网络平台上对各种对象进行评论。例如，用户在浏览网络文章或视频后，可以对文章或视频进行评论，以发表自己的观点或意见。再例如，用户可以对在电子商务平台上购买的产品进行评论，以对产品的使用体验等进行评价。这些网络评论不仅丰富了被评论对象的相关信息，而且可以提供更加客观真实的对象介绍。

由于网络用户数目的巨大，网络上充斥着大量的用户评论，用户评论数目呈现着爆发式增长。这些评论由不同的用户各自生成，其质量参差不齐，有些评论能够帮助其他用户快速地了解产品，而有些评论提供的信息价值非常有限，甚至与被评论对象毫无关联。传统地，可以按照一定的规则对同一对象的所有评论进行排序，例如，可以对所有评论按照发布时间进行排序，也可以按照其他用户的点赞数目进行排序。

发明内容

根据本公开的示例实施例，提供了一种用于评估评论的质量的方法、装置、电子设备以及计算机可读存储介质。

在本公开的第一方面中，提供了一种用于评估评论的质量的方法。该方法包括：从对象的元数据中选择与对象的评论相关联的元数据键，其中元数据包括多个键值对；基于元数据，确定与所选择的元数据键相对应的值；以及基于评论以及与元数据键相对应的值，评估评论的质量。

在本公开的第二方面中，提供了一种用于评估评论的质量的装置。该装置包括：选择模块，被配置为从对象的元数据中选择与对象的评论相关联的元数据键，其中元数据包括多个键值对；确定模块，被配置为基于元数据来确定与所选择的元数据键相对应的值；以及评估模块，被配置为基于评论以及与元数据键相对应的值来评估评论的质量。

在本公开的第三方面中，提供了一种电子设备，其包括一个或多个处理器以及存储装置，其中存储装置用于存储一个或多个程序。一个或多个程序当被一个或多个处理器执行，使得电子设备实现根据本公开的实施例的方法或过程。

在本公开的第四方面中，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的实施例的方法或过程。

应当理解，本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的用于评估评论的质量的环境的示意图；

图2示出了根据本公开的实施例的用于评估评论的质量的方法的流程图；

图3示出了根据本公开的实施例的用于评估评论的质量的架构的示意图；

图4示出了根据本公开的实施例的用于训练选择器模型和预测器模型的方法的流程图；

图5示出了根据本公开的实施例的网络平台上的示例用户评论的示图；

图6示出了根据本公开的实施例的网络平台上的示例元数据的示图；

图7示出了根据本公开的实施例的用于使用评论评估模型进行评论价值自动评估的过程的示意图；

图8示出了根据本公开的实施例的用于评估评论的质量的装置的框图；以及

图9示出了能够实施本公开的多个实施例的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。

在本公开的实施例的描述中，术语“评论”也可以被称为点评、留言、回复等，其指代与某个对象或某类对象相关的内容(例如，意见、建议、评价、观点等)，例如，评论可以为电子商务平台上的用户评论、信息流(feed)应用中的用户评论等。这样的对象可以是物理或虚拟对象，诸如产品、服务、特定形式的内容(新闻、视频、短文本等)。评论通常是由相应的评论者编写，并且被提交给特定平台或网站。在本公开的某些实施例中，在以文本形式给出的评论的基础上进行讨论。在一些情况中，评论也可能包括以音频、视频、图片等形式给出的内容。针对这些情况，可以将这些音频、视频、图片等形式的内容转换为文本形式或者也可以忽略非文本内容。

在本公开的实施例的描述中，评论的“质量”指的是该评论有助于其他用户评估目标对象的程度，也被称为评论的价值、有用性或有用程度。通常，用户期望能够从评论者所给出的评论中评估、了解或认知特定对象的一个或多个方面(诸如质量、特点、功能、优缺点、细节等)。如果评论中包含这些方面的信息，用户倾向于认为评论是高质量。否则，该评论将被认为是低质量的。评论的质量可以由高质量、低质量等来表示，也可以由具体数值的得分来表示。

利用计算设备，对海量的用户评论进行质量(即价值)评估是一项非常有意义并且很有挑战性的工作。传统地，为了实现对网络上海量用户评论的质量的评估，可以采用众包的方式去获得其他用户对某个评论的价值的主观评价。例如，可以为每条评论提供一个“票选”(例如，点赞)按钮，如果其他用户认为这条评论有价值或者质量高，则可以通过点赞来进行反馈。然而，这种方法仅仅可以收集小部分评论的评价，而大部分的网络评论没有投票数据，也即大部分的网络评论未被其他用户标记。

一种传统的评论评估方法是利用人工对用户评论文本进行特征分析，例如，可以分析评论文本的结构特征(诸如句子数量、长度等)、词法特征(诸如包括长度为1、2或3的连续子字符串的出现频率)、词性特征(统计评论中的动词、名词等)、情感特征(评论的情感类别)、语义特征(语义类别等)，等等，然后根据这些人工界定的特征来进行机器学习分类，并将训练好的模型用于评论质量的评估。然而，这种方法需要大量的人工及专家知识进行特征提取，增加了训练成本，并且人为界定的特征无法保证全面性和通用性，造成泛化能力较差。此外，传统的方法有没有考虑被评论对象本身的元数据信息，因此，这种方法无法获得足够的准确性。

本申请的发明人认识到，评估一个评论的质量应该考虑被评论对象的元数据(metadata，例如产品名称、品牌、类别，等等)，这是因为一个评论是否是高质量与对象本身的元数据信息密切相关，并且考虑对象元数据可以提供更多的信息作为机器学习模型的特征。

本公开的实施例提出了一种用于评估评论的质量的方案，能够实现准确且低成本地评估用户评论的价值。本公开的实施例在评估评论的质量时不仅考虑评论本身的内容，而且引入与评论密切相关的元数据信息，由此能够提高评论评估的准确率。以下将参考附图1-9详细描述本公开的一些示例实施例。

图1示出了根据本公开的实施例的用于评估评论的质量的环境100的示意图。如图1所示，在环境100中，评论评估模型120能够对输入的评论111、112、113进行自动评估，并且分别生成相应的评估结果131、132、133。根据本公开的实施例，评论评估模型120在对评论进行评估时，不仅仅考虑评论本身的内容(例如评论文本本身)，而且考虑的被评论对象的元数据信息。

如图1所示，针对输入的评论111，评论评估模型120能够确定评论111涉及的是元数据140中的元数据键121(例如涉及对象的品牌)，而元数据140可以包括多个键值对(key-value pair)。然后，评论评估模型120从元数据140获得与元数据键121对应的值，并基于评论111和元数据键121对应的值来获得评估结果131(例如指示高质量的评估结果)。同样地，评论评估模型120可以自动选择评论112所涉及的元数据键122以及评论112所涉及的元数据键123，然后，评论评估模型120根据评论本身以及与元数据键对应的值分别获得评估结果132和133。在一些实施例中，评估结果可以直接为高质量或低质量。备选地，评估结果也可以为每个评论的相应得分，如果得分大于某个阈值，则可以说明其为高质量，而得分低于相同阈值或另一阈值，则可以说明其为低质量。

因此，根据本公开的实施例的评论评估模型120能够获得更高的评论评估准确率。可以将高质量的用户评论挑选出来置顶显示供其他用户参考，或者按照评论的得分从高到低进行排名并显示，使得浏览对象的用户能够快速地了解被评论对象的特点，从而辅助用户进行决策，由此提升用户体验。

图2示出了根据本公开的实施例的用于评估评论的质量的方法的流程图。应当理解，图2所示出的方法200可以由以上参考图1所描述的论评估模型120来执行。

在框202，从对象的元数据中选择与对象的评论相关联的元数据键，其中元数据包括多个键值对。例如，参考图1所描述的评论评估模型120从元数据140中选择评论111所对应的元数据键121，例如评论111涉及被评论对象的品牌。

在框204，基于元数据，确定与所选择的元数据键相对应的值。例如，评论评估模型120可以通过查询元数据140，获得被评论对象的具体品牌名称。

在框206，基于评论以及与元数据键相对应的值，评估评论的质量。例如，评论评估模型120组合元数据键对应的值和评论内容本身，使用已经构建或训练好的评论评估模型来确定评论的质量。以下参考图3-4描述了训练评论评估模型的示例实现。因此，方法200在评估评论的质量时不仅考虑评论本身的内容，而且引入与评论密切相关的元数据信息，由此能够提高评论评估的准确率。

图3示出了根据本公开的实施例的用于评估评论的质量的示例架构300的示意图，其可以为基于深度神经网络的强化学习框架以用于评估用户评论的价值。如图3所示，参考图1所示出的评论评估模型120可以包括选择器模型310、预测器模型320以及优化模块350，其中选择器模型310可以执行选择元数据键以及确定对应值的动作，而预测器模型320可以根据所确定的对应值和评论内容来评估或预测评论的质量，其中选择器模型310可以被设置为强化学习的代理(agent)。

在本公开的一些实施例中，可以使用训练集330来同时训练选择器模型和预测器模型，训练集包括多个评论以及指示每个评论的质量的标注数据。标注数据可以为针对每条评论而人工标注的结论，例如，人工将某条评论标注为高质量或低质量。在一些实施例中，标注数据也可以为从网络抓取的评论的投票数据，并且投票数据由多个网络用户提供。例如，如果某条评论被很多人点赞，则能够说明这条评论的质量较高，通过这种方式，可以自动地获得训练集中的标注数据，减少模型训练的人工成本。

例如，图5示出了根据本公开的实施例的电子商务平台的示例用户评论的示图500。如图500所示，评论相关信息包括用户的评论者的用户名510，评论的内容520、评论的发表时间等。此外，还可以包括评论者对于对象的主观评价(在图5的示例中为五星好评)。图5还包括针对评论520的投票数据530，其指示105人对评论520进行了点赞。因此，可以将投票数据530作为标注数据与评论520成对地存储作为用于训练的训练集330。

返回参考图3，元数据340包括多个对象中的每个对象元数据信息，其通过键值对的形式来表示。例如图6示出了根据本公开的实施例的电子商务平台上的示例元数据的示图600。图6示出了一个手机的产品介绍页面，其包括该手机的一些技术细节610，可以将技术细节610中的一些或全部提取处理作为ABC手机的元数据340。在一些实施例中，可以设置一些通用的元数据键，例如对象名称、品牌、类别等。备选地，还可以针对一类对象设置特定的元数据键。例如，如图6所示，针对手机产品，其元数据键可以包括屏幕尺寸、重量、颜色、摄像头像素、存储器、存储空间、电池，等等。

返回参考图3，选择器模型310针对从训练集330获得的某个评论，从评论对应的对象的元数据340选择某个元数据键。在一些实施例中，可以获得每个元数据键的概率分布，并选择概率最大的一个元数据键。接下来，选择器模型310根据元数据340确定所选择的元数据键对应的值，并且将值发送给预测器模型320。

预测器模型320根据从训练集330接收到的评论以及从选择器模型310接收到的对应的值，来确定评论的质量，例如，预测器模型320可以预测评论的得分。由于预测器模型320除了考虑评论本身之外，还考虑被评论对象的对应的元数据信息，因而能够更准确地预测评论的得分。接下来，预测器模型320可以将所预测的得分传递到优化模块350以用于训练优化。

优化模块350基于从预测器模型320获得得分以及从训练集330获得的对应的标注数据，计算预测的损失，并通过随机梯度下降法优化预测器模型320。此外，优化模块350还可以根据预测器模型320的表现给予选择器模型310一个奖励，然后通过策略梯度法优化选择器模型310。例如，如果预测得分与标注数据非常接近，则说明选择器模型310所选择的键是准确的，可以给予选择器模型310一个奖励，相反，如果预测得分与标注数据差别很大，则可以不向选择器模型310提供奖励。

图4示出了根据本公开的实施例的用于训练选择器模型和预测器模型的方法400的流程图。例如，方法400可以在参考以上图2所描述的方法200之前执行。

在框402，在训练开始之前，可以初始化选择器模型310和预测器模型320中所有要学习的参数。在框404，将训练集330中的评论以及对应的元数据340输入到选择器模型310中以进行元数据键的选择。在框406，将评论以及与选择器模型310所选出的元数据键对应的值输入到预测器模型320中以进行预测。

在框408，基于预测结果与评论的标注数据之间的预测损失，优化预测器模型320。在一些实施例中，可以通过随机梯度下降是来优化预测器模型。随机梯度下降法通过每个样本迭代更新一次，其最小化每个样本的损失函数，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是整体方向是朝向全局最优解，最终的结果往往是在全局最优解附近。

在框410，根据预测器模型320的表现，确定是否给予选择器模型310一个奖励，而如果确定给予选择器模型奖励，使用奖励来优化选择器模型。在一些实施例中，可以通过策略梯度法来优化选择器模型。策略梯度法是一种强化学习方法，是常用的一种策略优化方法，其通过不断计算策略期望总奖赏关于策略参数的梯度来更新策略参数，最终收敛于最优策略。因此，本公开的实施例能够在训练过程中同时优化训练选择器模型和预测器模型，提高了训练效率。在一些实施例中，还可以将用户评论的星级打分也作为对于选择器模型的一种奖励。

在框412，判断是否满足停止训练条件。在一些实施例中，停止训练条件可以为误差损失已经收敛，或者迭代次数已经超过预定次数。如果尚未满足停止训练条件，则继续使用训练集中的评论来进行训练，并重复迭代执行步骤404-410。如果已经满足停止训练条件，则在框414完成对选择器模型310和预测器模型320的训练。

在完成对选择器模型310和预测器模型320的训练之后，可以采用训练好的参数来出初始化对选择器模型310和预测器模型320，进而能够对新的用户评论进行自动质量评估。例如，如果针对新的评论，如果预测得分大于0.5，则可以判断评论具有价值；如果预测得分小于0.5，可以判断评论没有价值。因此，本公开的实施例能够同时训练选择器模型和预测器模型，节省了训练成本。此外，由于使用了选择器模型选择评论对应的元数据键，因而能够显著提高模型的准确率。

本公开的实施例的基于深度神经网络的强化学习框架能够省去人工设置的特征，自动学习评论内容的特征表示，从而挖掘出高质量评论。评论文本甚至可以不需要进行预处理，直接作为输入，输出即为针对评论的质量的评估结果。自动学习的特征能够显著提高模型准确率，此外，使用对象的元数据信息来辅助进行评论评估不仅能够提升模型准确率，还能够提高模型的泛化能力。

图7示出了根据本公开的实施例的用于使用评论评估模型进行评论价值自动评估的过程700的示意图。如图7所示，假设用户评论c包括n个词或字，在框701，通过查询预设的或者训练得到的向量表的方式将每个词或字转换为词向量(例如l维度向量)，可以获得评论向量C∈R^l×n。接下来，为了实现用户评论c的局部上下文嵌入，在框703，可以将评论向量C经过双向长短期记忆(Bi-LSTM)编码得到上下文向量H_c，如下式(1)所示：

H_c＝Bi-LSTM(C) (1)

其中Hc∈R^2l×n表示上下文嵌入，每个词或字可以获得具有2l长度的两个隐单元，其编码用户评论的前向和后向上下文信息。

同样地，假设被评论对象的元数据包括k个键，在框705，通过将元数据中的每个元数据键转换为预定维度向量(例如l维度向量)，生成元数据键向量K∈R^l×k。接下来，通过将上下文向量H_c和元数据键向量K相乘得到元数据键感知的用户评论表示，即注意力矩阵，将注意力矩阵的每一行相加，然后通过Softmax函数可以得到元数据键的概率分布，并选择概率最大的元数据键。例如，可以使用B∈R^k×n来获得元数据键向量K与用户评论C的上下文向量H_c之间的双线性关系，如下式(2)所示：

B＝ReLU(K^TWH_c) (2)

其中W∈R^l×2l是修正线性单元(ReLU)的权重矩阵。

B的第i行包含用户评论的上下文向量对准的方面/主题特征，将Reduce_max策略用于B的每行以保持针对每个元数据键的最有效特征，并且使用Softmax函数来获得策略p，如下式(3)所示：

p＝Softmax(Reduce_max(B,axis＝1)) (3)

选择器模型π可根据策略p选择元数据键对应的值υ～π(υ|K，C)。接下来，假设值有m个词或字，在框707，通过查询向量表的方式可以将每个词或字转换为词向量，获得值向量V∈R^l×m。在框709，可以将值向量V经过Bi-LSTM编码得到上下文向量H_v∈R^2l×m，如下式(4)所示：

H_v＝Bi-LSTM(V) (4)

在框711，将用户评论的上下文向量H_c和值的上下文向量H_v进行结合，以便更好地编码以提高预测的准确率。例如，可以通过Match-LSTM进行结合得到匹配表示矩阵，匹配的结果可以作为奖励反馈给元数据键选择器模型。在框713，将匹配矩阵表示通过输出网络进行预测，例如参考图3所描述的预测器模型，其使用深度神经网络进行训练和预测，任何已知的或者将来开发的神经网络可以与本公开的实施例结合使用。例如，可以通过词级匹配机制，如下式(5)所示：

其中W′∈R^2l×2l是权重矩阵，并且b′∈R^2l是基向量。输出矢量积拷贝基向量b′共m次以生成2l×m矩阵，其中e∈R^m。然后，Q∈R^m×n是保持值v与用户评论c之间的词级匹配信息的稀疏矩阵。

接下来，可以将Softmax函数应用于Q的每列以获得G∈R^m×n，其第i列表示值v中的所有词针对用户评论c中的第i个词的归一化注意力权重，其中G如下式(6)所示：

G＝softmax(Q) (6)

然后，使用注意力矩阵G∈R^m×n和Hv∈R^2l×m来重新形成对象已知的评论表示如如下式(7)所示：

将用户评论C的上下文向量H_c和对象已知的评论表示结合在一起，以利用特征矩阵H∈R^2l×n来预测用户评论的有用性，其中H如下式(8)所示：

定义损失函数L(s_g|H_c)，其将H_c作为特征来预测真相得分s_g判断的有用性得分s_p。给定由选择器模型选择的值v，目标是最小化期望，如下式(9)所示：

其中Θ是待学习的参数。J(Θ)关于Θ的梯度如下式(10)所示：

其中表示通过随机梯度下降训练预测器模型，并使用强化学习算法来利用logπ(υ|K，C)的梯度和奖励L(s^g|υ，H^c)∈(0.1，1.0]来更新选择器模型。通过这种方式，完成针对选择器模型和预测器模型二者的训练。然而，应当理解，图7中示出的是用于实现评论评估模型的训练和预测的一个示例实现。

图8示出了根据本公开的实施例的用于评估评论的质量的装置800的框图。如图8所示，装置800包括选择模块810、确定模块820以及评估模块830。选择模块810被配置为从对象的元数据中选择与对象的评论相关联的元数据键，其中元数据包括多个键值对。确定模块820被配置为基于元数据来确定与所选择的元数据键相对应的值。评估模块830被配置为基于评论以及与元数据键相对应的值来评估评论的质量。

在一些实施例中，其中选择模块810包括：第一向量生成模块，被配置为通过将评论中的每个词或字转换为词向量来生成评论的第一向量；第二向量生成模块，被配置为通过将元数据中的每个元数据键转换为预定维度向量生成元数据的第二向量；相关性确定模块，被配置为基于评论的第一向量和元数据的第二向量，确定元数据中每个元数据键与评论的相关性；以及元数据键选择模块，被配置为选择元数据中与评论相关性最大的元数据键。

在一些实施例中，其中评估模块830包括：第三向量生成模块，被配置为生成与元数据键相对应的值的第三向量；以及质量确定模块，被配置为基于值的第三向量和评论的第一向量，确定评论的质量。

在一些实施例中，其中质量确定模块包括：得分确定模块，被配置为基于值的第三向量和评论的第一向量，确定评论的得分；高质量确定模块，被配置为响应于得分大于第一阈值，将评论确定为高质量；以及低质量确定模块，被配置为响应于得分小于第二阈值，将评论确定为低质量，其中第一阈值大于或者等于第二阈值。

在一些实施例中，其中选择模块810和确定模块820被包括在选择器模型中，评估模块830被包括在预测器模型中，并且装置800还包括：训练模块，被配置为使用训练集来同时训练选择器模型和预测器模型，其中训练集包括多个评论以及指示每个评论的质量的标注数据。

在一些实施例中。其中训练模块包括：初始化模块，被配置为初始化选择器模型和预测器模型的参数；第二选择模块，被配置为将训练集中的第一评论以及与第一评论相对应的第一元数据输入到选择器模型中以选择第一元数据键；预测模块，被配置为将第一评论以及与第一元数据键相对应的第一值输入到预测器模型中以生成第一预测结果；第一优化模块，被配置为基于第一预测结果与第一评论的第一标注数据之间的预测损失，优化预测器模型；第三确定模块，被配置为根据预测器模型的表现，确定是否给予选择器模型奖励；以及第二优化模块，被配置为响应于确定给予选择器模型奖励，使用奖励来优化选择器模型。

在一些实施例中，其中第一优化模块包括第三优化模块，其被配置为通过随机梯度下降法来优化预测器模型；以及第二优化模块包括第四优化模块，其被配置为通过策略梯度法来优化选择器模型。

在一些实施例中，其中标注数据为从网络抓取的评论的投票数据，并且投票数据由多个网络用户提供。

应当理解，图8中所示出的选择模块810、确定模块820以及评估模块830可以被包括一个或多个电子设备中。而且，应当理解，图8中所示出的模块可以执行参考本公开的实施例的方法或过程中的步骤或动作。

图9示出了可以用来实施本公开的实施例的示例设备900的示意性框图。应当理解，设备900可以用于实现本公开所描述的用于评估评论的质量的装置800。如图所示，设备900包括中央处理单元(CPU)901，其可以根据被存储在只读存储器(ROM)902中的计算机程序指令或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序指令，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。CPU901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元901执行上文所描述的各个方法和过程，例如方法200和400。例如，在一些实施例中，方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由CPU 901执行时，可以执行上文描述的方法的一个或多个动作或步骤。备选地，在其他实施例中，CPU 901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)，等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各动作或步骤，但是这应当理解为要求这样动作或步骤以所示出的特定次序或以顺序次序执行，或者要求所有图示的动作或步骤应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开的实施例，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于评估评论的质量的方法，包括：

从对象的元数据中选择与所述对象的评论相关联的元数据键，所述元数据包括多个键值对；

基于所述元数据，确定与所选择的所述元数据键相对应的值；以及

基于所述评论以及与所述元数据键相对应的所述值，评估所述评论的质量；

其中选择所述元数据键包括：

通过将所述评论中的每个词或字转换为词向量，来生成所述评论的第一向量；

通过将所述元数据中的每个元数据键转换为预定维度向量，生成所述元数据的第二向量；

基于所述评论的所述第一向量和所述元数据的所述第二向量，确定所述元数据中每个元数据键与所述评论的相关性；以及

选择所述元数据中与所述评论相关性最大的元数据键；

其中评估所述评论的所述质量包括：

生成与所述元数据键相对应的所述值的第三向量；以及

基于所述值的所述第三向量和所述评论的所述第一向量，确定所述评论的所述质量。

2.根据权利要求1所述的方法，其中确定所述评论的所述质量包括：

基于所述值的所述第三向量和所述评论的所述第一向量，确定所述评论的得分；

响应于所述得分大于第一阈值，将所述评论确定为高质量；以及

响应于所述得分小于第二阈值，将所述评论确定为低质量，所述第一阈值大于或者等于所述第二阈值。

3.根据权利要求1所述的方法，其中选择所述元数据键和确定所述值的步骤由选择器模型来执行，评估所述质量的步骤由预测器模型来执行，并且所述方法还包括：

使用训练集来同时训练所述选择器模型和所述预测器模型，所述训练集包括多个评论以及指示每个评论的质量的标注数据。

4.根据权利要求3所述的方法，其中训练所述选择器模型和所述预测器模型包括：

初始化所述选择器模型和所述预测器模型的参数；

将所述训练集中的第一评论以及与所述第一评论相对应的第一元数据输入到所述选择器模型中以选择第一元数据键；

将所述第一评论以及与所述第一元数据键相对应的第一值输入到所述预测器模型中以生成第一预测结果；

基于所述第一预测结果与所述第一评论的第一标注数据之间的预测损失，优化所述预测器模型；

根据所述预测器模型的表现，确定是否给予所述选择器模型奖励；以及

响应于确定给予所述选择器模型所述奖励，使用所述奖励来优化所述选择器模型。

5.根据权利要求4所述的方法，其中：

优化所述预测器模型包括：通过随机梯度下降法来优化所述预测器模型；以及

优化所述选择器模型包括：通过策略梯度法来优化所述选择器模型。

6.根据权利要求3所述的方法，其中所述标注数据为从网络抓取的评论的投票数据，并且所述投票数据由多个网络用户提供。

7.一种用于评估评论的质量的装置，包括：

选择模块，被配置为从对象的元数据中选择与所述对象的评论相关联的元数据键，所述元数据包括多个键值对；

确定模块，被配置为基于所述元数据来确定与所选择的所述元数据键相对应的值；以及

评估模块，被配置为基于所述评论以及与所述元数据键相对应的所述值来评估所述评论的质量；

其中所述选择模块包括：

第一向量生成模块，被配置为通过将所述评论中的每个词或字转换为词向量来生成所述评论的第一向量；

第二向量生成模块，被配置为通过将所述元数据中的每个元数据键转换为预定维度向量生成所述元数据的第二向量；

相关性确定模块，被配置为基于所述评论的所述第一向量和所述元数据的所述第二向量，确定所述元数据中每个元数据键与所述评论的相关性；以及

元数据键选择模块，被配置为选择所述元数据中与所述评论相关性最大的元数据键；

其中所述评估模块包括：

第三向量生成模块，被配置为生成与所述元数据键相对应的所述值的第三向量；以及

质量确定模块，被配置为基于所述值的所述第三向量和所述评论的所述第一向量，确定所述评论的所述质量。

8.根据权利要求7所述的装置，其中所述质量确定模块包括：

得分确定模块，被配置为基于所述值的所述第三向量和所述评论的所述第一向量，确定所述评论的得分；

高质量确定模块，被配置为响应于所述得分大于第一阈值，将所述评论确定为高质量；以及

低质量确定模块，被配置为响应于所述得分小于第二阈值，将所述评论确定为低质量，所述第一阈值大于或者等于所述第二阈值。

9.根据权利要求7所述的装置，其中所述选择模块和所述确定模块被包括在选择器模型中，所述评估模块被包括在预测器模型中，并且所述装置还包括：

训练模块，被配置为使用训练集来同时训练所述选择器模型和所述预测器模型，所述训练集包括多个评论以及指示每个评论的质量的标注数据。

10.根据权利要求9所述的装置，其中所述训练模块包括：

初始化模块，被配置为初始化所述选择器模型和所述预测器模型的参数；

第一元数据键选择模块，被配置为将所述训练集中的第一评论以及与所述第一评论相对应的第一元数据输入到所述选择器模型中以选择第一元数据键；

预测模块，被配置为将所述第一评论以及与所述第一元数据键相对应的第一值输入到所述预测器模型中以生成第一预测结果；

第一优化模块，被配置为基于所述第一预测结果与所述第一评论的第一标注数据之间的预测损失，优化所述预测器模型；

第三确定模块，被配置为根据所述预测器模型的表现，确定是否给予所述选择器模型奖励；以及

第二优化模块，被配置为响应于确定给予所述选择器模型所述奖励，使用所述奖励来优化所述选择器模型。

11.根据权利要求10所述的装置，其中：

所述第一优化模块包括：第三优化模块，被配置为通过随机梯度下降法来优化所述预测器模型；以及

所述第二优化模块包括：第四优化模块，被配置为通过策略梯度法来优化所述选择器模型。

12.根据权利要求9所述的装置，其中所述标注数据为从网络抓取的评论的投票数据，并且所述投票数据由多个网络用户提供。

13.一种电子设备，所述电子设备包括：

一个或多个处理器；以及

存储装置，其用于存储一个或多个程序，所述一个或多个程序当被所述一个或多个处理器执行，使得所述电子设备实现根据权利要求1-6中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-6中任一项所述的方法。