CN114580372A

CN114580372A - 文本处理方法、装置、设备和存储介质

Info

Publication number: CN114580372A
Application number: CN202011379123.2A
Authority: CN
Inventors: 李嘉诚; 董建强; 佟泽雨; 王征
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2022-06-03

Abstract

本公开涉及文本处理方法、装置、设备和存储介质。在此描述的方法包括获取包括文本信息的多个评论。该方法还包括利用用于检测评论可信度的模型来提取多个评论各自对应的多个第一特征表示，每个第一特征表示具有第一维度。该方法还包括利用模型来将多个第一特征表示转换为多个评论各自对应的多个第二特征表示，每个第二特征表示具有小于第一维度的第二维度。该方法还包括基于多个第一特征表示和多个第二特征表示并且根据训练目标来训练模型，训练目标被确定为至少使多个评论中相似评论对应的第一特征表示之间的第一相似度降低，并且使多个评论中相似评论对应的第二特征表示之间的相应第二相似度降低。这有助于更准确预测评论的可信度。

Description

文本处理方法、装置、设备和存储介质

技术领域

本公开总体上涉及自然语言处理领域，更特别地涉及文本处理方法、装置、设备和计算机可读存储介质。

背景技术

用户在许多互联网平台中都可以公开评论特定对象，例如特定产品、服务、以及诸如新闻、视频、图像之类的内容，等等。这样的评论不仅丰富了被评论对象的相关信息，而且也有助于其他用户了解被评论对象的质量、特点等。因此，用户的可信评论是非常有价值的。由于对象的评论可能会影响其他用户的消费、使用决定，这导致了虚假评论的产生，用以推销商品，妨碍对有用评论的获取，诋毁竞争对手等等。虚假评论也称为垃圾评论。这类评论会误导用户，使用户做出错误决策，甚至会受到经济损失。此外，虚假评论对于产品或服务提供者而言也不利，因为这会降低平台的可信度，导致用户流失等。因此，期望能够有效过滤垃圾评论。

发明内容

根据本公开的一些实施例，提供了一种文本处理的方案，特别是用于训练用于检测评论可信度的模型的方案。所训练的模型能够更有效地预测评论的可信度，帮助过滤垃圾评论。

在本公开的第一方面，提供了一种文本处理方法。该方法包括获取包括文本信息的多个评论；利用用于检测评论可信度的模型来提取多个评论各自对应的多个第一特征表示，每个第一特征表示具有第一维度；利用模型来将多个第一特征表示转换为多个评论各自对应的多个第二特征表示，每个第二特征表示具有小于第一维度的第二维度，模型被配置为基于多个第二特征表示来分别确定多个评论各自的多个可信度估计；以及基于多个第一特征表示和多个第二特征表示并且根据训练目标来训练模型，训练目标被确定为至少使多个评论中相似评论对应的第一特征表示之间的第一相似度降低，并且使多个评论中相似评论对应的第二特征表示之间的相应第二相似度降低。

在本公开的第二方面，提供了一种文本处理装置。该装置包括评论获取模块，被配置为获取包括文本信息的多个评论；特征表示提取模块，被配置为利用用于检测评论可信度的模型来提取多个评论各自对应的多个第一特征表示，每个第一特征表示具有第一维度；特征表示转换模块，被配置为利用模型来将多个第一特征表示转换为多个评论各自对应的多个第二特征表示，每个第二特征表示具有小于第一维度的第二维度，模型被配置为基于多个第二特征表示来分别确定多个评论各自的多个可信度估计；以及模型训练模块，被配置为基于多个第一特征表示和多个第二特征表示并且根据训练目标来训练模型，训练目标被确定为至少使多个评论中相似评论对应的第一特征表示之间的第一相似度降低，并且使多个评论中相似评论对应的第二特征表示之间的相应第二相似度降低。

在本公开的第三方面，提供了一种电子设备，包括存储器和处理器，其中存储器用于存储计算机可执行指令，计算机可执行指令被处理器执行以实现根据本公开的第一方面的方法。

在本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，其中计算机可执行指令被处理器执行实现根据本公开的第一方面的方法。

附图说明

结合附图并参考以下详细说明，本公开各实现方式的特征、优点及其他方面将变得更加明显。在此以示例性而非限制性的方式示出了本公开的若干实现方式，在附图中：

图1示出了本公开的实施例能够在其中实现的示例计算环境；

图2示出了根据本公开的一些实施例的模型训练装置的示意图；

图3示出了根据本公开的一些实施例的图2的模型训练装置中的谱学习模块的示例结构框图；

图4示出了根据本公开的一些实施例的图2的模型训练装置中的先验信息约束模块的示例结构框图；

图5示出了根据本公开的一些实施例的图2的模型训练装置中的可信度估计学习模块的示例结构框图；

图6示出了根据本公开的一些实施例的文本处理方法的流程图；

图7示出了根据本公开的一些实施例的文本处理装置的框图；以及

图8示出了其中可以实施本公开的一个或多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实现。虽然附图中显示了本公开的优选实现，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实现所限制。相反，提供这些实现是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实现”和“一个实现”表示“至少一个示例实现”。术语“另一实现”表示“至少一个另外的实现”。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如本文中所使用的，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联，从而在训练完成后可以针对给定的输入，生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法，通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中，“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”，这些术语在本文中可互换地使用。

通常，机器学习可以包括三个阶段，即训练阶段、测试阶段和使用阶段(也称为推理阶段)。在训练阶段，给定的模型可以使用大量的训练数据进行训练，不断迭代，直到模型能够从训练数据中获取一致的、与人类智慧所能够做出的推理类似的推理。通过训练，模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。经训练的模型的参数值被确定。在测试阶段，将测试输入应用到训练后的模型，测试模型是否能够提供正确的输出，从而确定模型的性能。在使用阶段，模型可以被用于基于训练得到的参数值，对实际的输入进行处理，确定对应的输出。

如以上提及的，期望能够有效过滤垃圾评论。由于机器学习、深度学习技术的不断发展，已经提出可以利用各种机器学习模型来确定检测垃圾评论。所提出的机器学习模型可以被配置为预测评论的可信度，可信度较低的评论可以被确定为是虚假评论。

大多数基于机器学习的方法依赖于有监督训练方式来训练模型。然而，有监督训练需要一定数量的有标签样本数据。在虚假评论检测的应用下，有标签样本数据的构建需要人为地标记出虚假评论，其中虚假评论标记的准确度还依赖于专家知识等信息。因此，有监督训练的成本较高。为此，需要改进虚假评论检测模型的训练方式，以缓解对有标签样本数据的依赖，降低模型训练的成本。除有监督训练之外，无监督训练方式可以解决这个问题。

此外，在实际应用中，虚假评论的模式可能会不断变化，以试图绕开检测。这使基于先前的标签样本数据训练出的模型可能无法检测具有新模式的虚假评论。由于无监督训练方式不依赖于有标签样本数据，因此可以更快地追踪虚假评论的新模式。

然而，当前在虚假评论检测的应用中对无监督训练方式的研究较少，还没有特别有效的方案可以利用。例如，评论主要包含文本信息，因此一些方案提出利用特定于文本的异常检测方法来检测虚假评论，但已经发现这样的效果不佳。因此，期望能够更好地改进基于无监督训练的异常评论检测。

图1示出了示出了本公开的实施例能够在其中实现的示例计算环境100。如图1所示，示例环境100包括计算设备110，其包括模型训练装置112，被配置为训练用于检测评论可信度的模型114。根据本公开的示例实施例，模型训练装置112通过无监督训练方式，基于训练数据来训练模型114。用于训练的训练数据包括多个评论102，这些评论102可以是关于特定对象的评论，例如关于产品、服务、各种类型的内容的评论。评论102可能是不带标记的，即事先不知道评论是可信评论或是虚假评论。评论102有时也称为样本评论或训练评论。

模型114可以根据需要而具有不同的模型配置。模型114的输入可以是评论，而输出是关于该评论的可信度估计，其指示评论是否可信或可信的程度。在一些示例中，模型114可以是适合处理文本信息的神经网络模型。

总体上，如图1所示，模型114可以被划分为特征表示提取部分122和可信度估计部分124。对于给定的评论d_i，模型114可以输出该评论的可信度估计，被表示为s_i＝f^UNSP(d_i)，其中f^UNSP()可以表示模型114的总体处理，s_i表示评论d_i的可信度估计。

特征表示提取部分122被配置为从评论提取特征表示。输入的评论可能包含多个词、词组的一个或多个句子。特征表示提取部分122可以被配置为支持各种长度的文本的输入，以将输入映射到特定维度的向量空间。评论的特征表示有时也被称为向量化表示、句向量、句嵌入(embedding)、向量编码等，其通常可以由一定维度的数值组成。特征表示提取部分112可以将不同评论映射到具有相同维度的特征表示中，每个特征表示所包含的数值不同，以指示不同评论之间的区别。

可信度估计部分124被配置为基于特征表示提取部分122提取的特征表示，来确定输入的评论的可信度估计。在一些示例中，可信度估计部分124可以被配置为将评论划分为两类，即可信评论和虚假(垃圾)评论。在另一些示例中，可信度估计还可以将评论划分为更多类别，不同类别指示评论的不同可信度等级。例如，不同可信度等级可以包括高可信度，中可信度和低可信度。在不同情况下，输出的可信度估计可以包括输入的评论属于不同类别(两个或更多类别)的概率。在不同应用中，可信评论与虚假评论的划分可能不同，这取决于实际需要。

经过训练，模型114具有预测评论的可信度的能力。训练后的模型114可以被提供给计算设备130，用于评论可信度检测。例如，计算设备130可以将待检测的目标评论132作为模型114的输入，通过模型114确定目标评论132的目标可信度估计134，从而可以确定目标评论132是否是虚假评论。

计算设备110、130可以是终端设备或是服务端设备。终端设备例如可以是各种便携式或固定终端，诸如、平板电脑、台式计算机、笔记本计算机、手机、通用计算设备等。服务端设备例如可以是集中式服务器、分布式服务器、大型机、边缘计算设备、或者云等。注意，虽然被示出为分离的设备，在一些情况下，计算设备110、130的功能可以由单个物理设备来实现。也就是说，单个物理设备可以被配置执行模型的训练和使用。本公开的实施例在此方面不受限制。

在利用非监督方式来训练用于检测评论可信度时，期望将文本形式的评论映射到低维的特征表示，并基于特征表示来检测异常评论作为虚假评论。低维的特征表示有助于促进计算有效性。然而，通过用于文本处理的常规方法来生成的低维特征表示可能无法很好地区分可信评论和虚假评论。发明人通过在相应维度空间中分析这些特征表示后发现，随着特征表示的维度降低，从虚假评论提取的特征表示无法与从可信评论提取的特征表示很好地区分。

本公开的实施例提出了一种用于训练用于检测评论可信度的模型的方案。根据该方案，从用于模型训练的多个评论提取第一维度的多个第一特征表示，并将这些特征表示分别转换成更低维度的多个第二特征表示。模型的训练目标是至少使多个评论中相似评论对应的第一特征表示之间的第一相似度降低，并且使多个评论中相似评论对应的第二特征表示之间的相应第二相似度降低。基于这样的训练目标来执行无监督的模型训练，通过评论的不同维度的特征表示的共同约束，使得虚假评论与可信评论在低维向量空间中仍具有较好的区分度，从而有助于更准确预测评论的可信度。无监督的模型训练还能够避免对带标签的训练数据的依赖性，降低模型训练成本。

以下将继续参考附图描述本公开的一些示例实施例。

图2示出了根据本公开的一些实施例的模型训练装置的示意图。为便于讨论，参考图1来讨论模型的训练，因此在图2中示出了图1的模型训练装置112，其被配置为训练用于检测评论可信度的模型114。

模型训练装置112可以在单个计算设备或者多个计算设备来实现。模型训练装置112可以被实现为在与使用模型的设备不同的设备上，例如模型训练装置112可以不同于计算设备110。当然，在一些情况下，模型训练和模型使用也可以被实现在同一个设备或同一组设备上。这取决于实际的计算资源部署的需要。

模型训练装置112包括谱学习模块210，其被配置为使模型114学习到评论的特征表示，以使从评论提取的低维特征表示能够准确确定评论的可信度估计。模型训练装置112还包括可信度估计学习模块210，其被配置为使模型114能够基于评论的特征表示来准确确定评论的可信度估计。在一些实施例中，模型训练装置112还可以包括先验信息约束模块230，其被配置为在模型114的训练中应用先验信息的约束，以进一步提高模型对评论可信度的检测准确性。

下文将针对各个学习模块来详细讨论模型114的训练过程。

如以上提及的，计算设备110获得多个评论102被用作训练数据，用于在无监督方式下训练模型114。在一些实施例中，可以从关于特定对象的评论来源中采集评论数据，例如在一段时间内发布的评论，以获得多个评论102。由于用户发布的评论数据的个性化程度高，在一些实施例中，可以对采集到的评论数据执行预处理以获得多个评论102。对训练数据的预处理有时也称为数据清洗。预处理可以包括发现并纠正可识别的数据，检查数据一致性，处理无效单词或无效编码格式等。预处理操作可以包括对评论数据执行去噪处理、识别有缺失的评论数据等等。去噪处理例如可以包括删除评论数据中的停用词、符号、诸如表情等异常编码格式的信息，以保留其中的文本信息。去噪处理还可以包括将仅包括有限字/词(例如，一个字/词)的评论数据作为噪声数据删除，将没有出现文本信息的评论数据删除，等等。在一些实施例中，还可以从采集到的评论数据中识别空评论信息作为缺失数据，并删除缺失数据。经过预处理后，获取包括文本信息的多个评论数据102用于模型训练。

谱学习模块210被配置为使模型114学习到评论的特征表示，因此主要关注于优化模型114的特征表示提取部分122。图3示出了谱学习模块210的示例结构框图。如图3所述，谱学习模块210将多个评论102应用到模型114的特征表示提取部分122，并基于提取的特征表示来训练模型114。如图3所示，模型114的特征表示提取部分122可以包括特征表示提取模块310和特征表示转换模块320。特征表示提取模块310被配置为提取每个评论102的第一特征表示，并且特征表示转换模块320被配置为将每个评论102的第一特征表示转换为第二特征表示，以实现维度降低。

在一些实施例中，为了便于处理，可以将文本信息形式的评论102转换为向量化表示。例如，一条评论102中的每个词(或其他粒度的文本单元)映射到对应的向量化表示，其例如可以是一定维度的向量。评论102的各个词的向量化表示组成评论102的向量化表示，其例如可以是具有一定维度的二维矩阵，该矩阵中每一行表示评论102中的一个词的向量化表示。

假设用于模型训练的多个评论102是

将一个评论102(被表示为di)划分成L个句子，并且每个句子包括T个词，每个词的向量化表示可以被表示为e_i＝LookupTable(d_i)，其中

p表示词的向量化表示的维度。词的向量化表示例如可以通过查找表来确定。可以通过已有各种技术来构建单词的向量表示的查找表。词的向量化表示可以包括p个数值组成的向量。不同词的向量化表示不同。特征表示提取模块310被配置为从评论的向量化表示中提取评论的特征表示，该特征表示能够捕捉评论中有助于可信度检测的特点。

对于评论d_i，特征表示提取模块310的特征表示提取可以被表示为x_i＝GSP(e_i)，其中GSP()表示特征表示提取模块310的处理，

表示评论d_i在嵌入空间中的第一特征表示。假设第一特征表示具有第一维度p。取决于模型114的配置，特征表示提取模块310可以由各种适于特征提取的网络结构组成。在一些示例中，特征表示提取模块310可以包括全局加和池化(global sum pooling)网络层，该网络层的输入为评论的向量化表示e_i，输出为评论的第一特征表示x_i。在其他示例中，特征表示提取模块310还可以基于其他自然语言处理技术的网络结构。模型的训练过程要学习到第一特征表示模块310的参数值，以使得第一特征表示模块310能够从输入的评论提取到更好的第一特征表示用于区分可信评论和虚假评论。

为了获得更可靠的概率解释的低维特征表示，谱学习模块210的目标在于使要获得从嵌入空间到更低维空间的映射

以将评论的第一特征表示转换为低维的第二特征表示，即

其中

m表示在按批次的无监督训练中一个小批次(minibatch)的评论的数目，

其中yi表示评论d_i的第二特征表示，K表示第二特征表示的维度(也称“第二维度”)。第二维度K小于第一维度p。在一些实施例中，第二维度K可以被确定为等于模型114的聚类数目，例如在将可信度划分为两个可信度等级的情况下，K可以是2。在这种情况下，第二特征表示的低维空间称为聚类空间。在一些实施例中，第二维度K也可以是其他值。

如图1所示，在模型训练过程中，在每次基于小批次的训练迭代中，对于当前用于训练的m个评论102，利用当前的特征表示提取模块310来提取评论的第一特征表示。m个评论的第一特征表示形成

第二特征提取模块320将每个评论的第一特征表示转换为第二特征表示。取决于模型114的配置，特征表示转换模块320可以由各种适于特征提取的网络结构组成。在一些示例中，特征表示转换模块320可以包括一个或多个全连(FC)网络层，该网络层的输入为评论的第一特征表示x_i，输出为评论的转换后的另一特征表示y’_i。在其他示例中，特征表示转换模块320还可以基于其他自然语言处理技术的网络结构。模型的训练过程要学习到第二特征表示模块320的参数值，以使得第二特征表示模块320能够提取到更好的第二特征表示用于区分可信评论和虚假评论。

在训练过程中，对于m个评论，特征表示转换模块320的特征表示提取可以被表示为Y＝MLP_sp(X)，其中MLPsp()表示特征表示转换模块320的处理，

其包括m个评论中每个评论转换后的特征表示y’_i。由于在嵌入空间中的欧式距离等于扩散距离，Y可以表示第二维度中每个维度的概率。在K等于聚类数目的情况下，Y可以表示每个类别(例如评论的可信度等级)的概率。

在一些实施例中，为了避免流形崩溃(manifold collapse)现象，谱学习模块210还可以要求针对多个评论102提取的第二特征表示满足正交约束。相应地，如图3所示，谱学习模块210还可以包括正交约束模块330。正交约束模块330被配置为使输出的第二特征表示关于第二特征表示的低维空间在期望上是标准正交的。为了满足正交约束，正交约束模块330进一步如下处理特征表示转换模块320输出的特征表示，以获得用于后续可信度估计的第二特征表示y_i：

在一些实施例中，在不引入正交约束的情况下，每个评论102的第一特征表示在由特征表示转换模块320处理后称为该评论102的第二特征表示。

为了实现模型训练，谱学习模块210还可以包括基于损失函数的学习模块340，其被配置为基于模型114的特征表示提取部分122生成的多个评论102的第一特征表示和第二特征表示来训练模型114，例如更新模型114的参数值。

在训练的初始阶段，特征表示提取部分122的特征表示提取模块310和特征表示转换模块320以及可信度估计模块124可以具有初始的参数值，这些初始的参数值可以是通过模型的预训练过程或者是其他方式确定的。正交约束模块330可以不需要参数值进行处理。模型的训练过程是基于训练数据(即评论102)不断地更新模型114的参数值，直到满足训练目标。在每次迭代中可以基于小批次的训练数据来更新一次参数值。

在训练过程中，谱学习模块210要满足的训练目标是使多个评论102中相似评论对应的第一特征表示之间的第一相似度降低，并且使多个评论102中相似评论对应的第二特征表示之间的相应第二相似度降低。也就是说，在评论的不同维度的特征表示中，维持相似评论与不相似评论之间的区别度。这也称为谱学习(spectral learning)。这样，在可信评论与虚假评论的低维度第二特征表示之间也可能形成明显的分界线，从而有助于模型114学习到如何准确区分可信评论和虚假评论。

在一些实施例中，基于损失函数的学习模块340可以构造相应的成本函数或损失函数来达成促使模型114的训练达到上述训练目标。在一些实施例中，在谱学习模块210的损失函数可以基于多个评论102的第一特征表示之间的相似度以及第二特征表示之间的相似度来构建。例如，谱学习模块340中的损失函数可以被确定为：

其中

可以被称为谱学习损失，||A-B||²表示A与B之间的欧式距离。在公式(2)中，一对评论d_i和d_j的第一特征表示x_i和x_j之间的相似度由这两个第一特征表示的欧式距离来确定，第二特征表示y_i和y_j之间的相似度由这两个第二特征表示的欧式距离来确定。距离越大意味着两个特征表示之间的相似度越小，反之则相似度越大。

基于损失函数的学***均相似度和第二特征表示之间的第二平均相似度不断降低。模型训练的收敛条件例如可以是损失函数的损失最小化，例如等于零或者等于其他可接受的值。

在一些实施例中，如以上提及的，模型114的训练还可以包括先验信息约束模块230。图4示出了先验信息约束模块230的示例结构框图。如图4所示，先验信息约束模块230包括上下文相关信息确定模块410，其被配置为通过组合多个评论102的多个第一特征表示X来生成上下文相关特征表示。这样的特征表示的组合能够更好地捕获评论中的语义上下文。在一些实施例中，上下文相关特征表示可以被表示为

其表示在一般应用中m个评论102的上下文信息的压缩表示。上下文相关特征表示c的维度可以与单个评论的第一特征表示的维度(即第一维度)相同，为p。

先验信息约束模块230还可以包括基于损失函数的学***均相似度降低，这类似于谱学习损失。在一些实施例中，基于损失函数的学习模块420可以构造相应的成本函数或损失函数来达成促使模型114的训练达到这样的训练目标。在一些实施例中，基于损失函数的学习模块420可以确定如下的损失函数：

其中

可以被称为上下文损失。在公式(3)中，上下文相关特征表示c与评论di的第一特征表示x_i之间的相似度由这两个特征表示的欧式距离来确定，距离越大意味着两个特征表示之间的相似度越小，反之则相似度越大。

在一些实施例中，备选地或附加地，先验信息约束模块230还可以使上下文相关特征表示c满足正交约束，这也类似于谱学习损失。这样的正交约束使上下文相关特征表示c正则化到具有正交性。在一些实施例中，基于损失函数的学习模块420可以构造相应的成本函数或损失函数来达成促使模型114的训练达到这样的训练目标。在一些实施例中，基于损失函数的学习模块420可以确定如下的损失函数：

其中

可以被称为上下文正交损失，I表示单位矩阵，

表示Frobenius范数。

为了达到训练目标，基于损失函数的学***均相似度(有时为了区别称为“第三平均相似度”)不断降低，和/或使上下文相关特征表示c更趋近于正交性。模型训练的收敛条件例如可以是损失函数的损失最小化，例如等于零或者等于其他可接受的值。

在一些实施例中，先验信息约束模块230还可以考虑针对多个评论102的先验噪声估计，并且模型114的训练目标还要使先验噪声估计降低或最小化。在考虑先验噪声估计的实施例中，如图3所示，先验信息约束模块230还可以包括先验噪声生成模块430，其被配置为确定多个评论102的多个第一特征表示X的先验噪声估计。先验噪声生成模块430的处理可以被表示为

其中

表示多个样本的先验噪声估计，其与多个第一特征表示的维度相同。在一些实施例，先验噪声生成模块430被配置为对多个第一特征表示X采样来生成多个随机特征表示，用以表示先验噪声估计。因此，多个随机特征表示可以被表示为

先验信息约束模块230中的基于损失函数的学习模块420可以被配置为通过对多个随机特征表示Z和多个第一特征表示X施加先验约束来降低或最小化先验噪声估计。先验信息约束模块230还包括映射模块440，其被配置为对多个随机特征表示Z执行映射处理，以及对多个第一特征表示X执行映射处理。映射模块440的处理被表示为MLPp，其例如可以由一个或多个FC网络层构成。对多个随机特征表示Z执行映射处理可以被表示为

并且对多个第一特征表示X执行的映射处理可以被表示为MLP_p(x_i)。基于损失函数的学习模块420可以构造相应的成本函数或损失函数来达成促使模型114的训练达到降低或最小化先验噪声估计的训练目标。在一些实施例中，基于损失函数的学习模块420可以确定如下的损失函数：

其中

可以被称为先验噪声损失，log()表示对数似然估计。

为了达到训练目标，基于损失函数的学习模块420可能需要更新模型114的参数值，以使先验噪声损失

越来越小，直到达到收敛条件。例如，在基于公式(5)的先验噪声损失来满足训练目标时，为使损失减小，需要让模型114针对m个评论102计算的第一特征表示，由先验噪声模块430和映射模块440确定的输出满足先验噪声损失降低或最小化的目标。模型训练的收敛条件例如可以是损失函数的损失最小化，例如等于零或者等于其他可接受的值。因此，在训练过程中，先验噪声模块430和映射模块440的参数值也会被不断更新，以满足训练目标。

在一些实施例中，模型114的训练目标可能还需要考虑对于评论的可信度估计的结果，与使可信度估计更满足预期。可信度估计学习模块220被配置为促进模型114满足这样的训练目标。图5示出了可信度估计学习模块220的示例结构框图。如图5所示，可信度估计学习模块220将由模型114的特征表示提取部分122生成的多个第二特征表示Y_oth分别应用到模型114的可信度估计部分124，以生成针对多个评论102的多个可信度估计。

在图5的示例中，假设模型114的可信度估计部分124包括全连层部分510和基于softmax函数的输出层520。通过将所获得的各个第二特征表示Y_oth分别施加到可信度估计部分124，可以确定针对多个评论102的可信度估计

其中

表示m个评论102各自的可信度估计，每个可信度估计指示对应评论102在K个可信度等级的得分(或概率)。得分或概率越高，意味着评论102具有相应的可信度等级，例如可信评论或虚假评论，或高、中、低可信度的评论等等。

可信度估计学习模块220可以假设多个可信度估计满足高斯混合模型(GMM)，要求模型114的训练目标使基于多个可信度估计的GMM的对数似然估计降低。可信度估计学习模块220可以包括基于损失函数的学习模块530。基于损失函数的学习模块530可以基于针对m个评论的多个可信度估计，确定GMM的各个参数，包括混合概率

均值

和方差

混合概率

均值

和方差

例如可以以如下方式确定：

其中

表示针对评论d_i的可信度估计，y_i表示针对评论d_i的第二特征表示。

在GMM的各个参数的基础上，基于损失函数的学习模块530可以构建基于对数似然估计的损失函数，例如如下：

其中

可以被称为可信度估计损失，其可以被认为是GMM的密度估计的样本能量，log()表示对数似然估计。

为了达到对数似然估计降低的目标，基于损失函数的学习模块530可能需要更新模型114的参数值，以使可信度估计损失

越来越小，直到达到收敛条件。例如，在基于公式(9)的可信度估计损失

来满足训练目标时，为使损失减小，需要调整模型114对评论102提取的第二特征表示和基于第二特征表示确定的可信度估计。模型训练的收敛条件例如可以是损失函数的损失最小化，例如等于零或者等于其他可接受的值。在训练的初始阶段，全连层部分510和输出层520可以具有初始的参数值，这些初始的参数值可以是通过模型的预训练过程或者是其他方式确定的。

在上文的示例实施例中，讨论了为了满足不同方面的训练目标而需要构建的损失函数。在一些实施例中，针对模型114的训练，对于给定的全部评论102

模型114的训练目标可以基于上述一个或多个损失函数来构建。例如，模型114的训练目标可以被表示为以下的目标函数：

其中

表示谱学习损失，

表示上下文损失，

表示上下文正交损失，

表示先验噪声损失，λ表示针对先验噪声损失的权重，

表示可信度估计损失。在考虑这些类型的损失的情况下，模型114的训练目标是使总体损失

降低或最小化。在一些实施例中，模型训练装置112可以包括全局学习模块(未示出)，用于通过将全局损失

减小或最小化来满足模型114的训练目标。

应当理解，在其他实施例中，公式(10)中的一个或多个损失可以不考虑。例如，上下文损失

上下文正交损失

和/或先验噪声损失

中的一项或多项损失可以不省略。在一些实施例中，除了先验噪声损失之外，一个或多个其他损失也可以由相应的权重加权，不同权重指示对应损失的重要程度。

通过应用各种模型训练技术，可以满足模型114的训练目标，达到收敛条件。经过训练后，模型114的各个部分，包括特征表示部分122中的各个模块(例如，图3示出的特征表示提取模块310、特征表示转换模块320和正交约束模块330)以及可信度估计部分124的各个模块(例如，图5示出的全连层部分510和输出层520)的参数值被确定，从而获得经训练的模型114。注意，在一些实施例中，虽然在模型训练过程中更新先验噪声模块430和映射模块440的参数值，但这两个模块在模型应用阶段不会考虑。

训练得到的模型114可以被投入应用。例如，在图1的计算环境100中，模型114可以由计算设备130用于确定目标评论132的目标可信度估计134。基于训练确定的参数值，模型114提取目标评论132的具有第二维度的第二特征表示，并且基于第二特征表示来确定目标可信度估计134。目标可信度估计134指示目标评论132的可信度等级，例如是否是虚假评论，或者在多个可信度级别中的哪个可信度级别。

随着模型的应用，根据采集到用户新发布的评论数据，还可以继续利用新采集到的评论来修正模型114的样本数据集，以进一步优化模型114，提高对虚假评论检测的精确度。进一步的模型优化也是基于非监督方式，以根据上文讨论的一些实施例来实现。

下文将给出根据本公开的一些实施例的方法的流程图和可能的装置的框图。

图6示出了根据本公开的实施例的文本处理方法600的流程图。文本处理方法600用于训练用于检测评论可信度的模型，例如模型114。在一些实施例中，方法600可以被实现在图1的模型训练装置112处。为便于讨论，从模型训练装置112的角度来描述方法600。

在框610，模型训练装置112获取包括文本信息的多个评论。在框620，模型训练装置112利用用于检测评论可信度的模型114来提取多个评论各自对应的多个第一特征表示，每个第一特征表示具有第一维度。在框630，模型训练装置112利用模型114来将多个第一特征表示转换为多个评论各自对应的多个第二特征表示，每个第二特征表示具有小于第一维度的第二维度。该模型被配置为基于多个第二特征表示来分别确定多个评论各自的多个可信度估计。在框640，模型训练装置112基于多个第一特征表示和多个第二特征表示并且根据训练目标来训练模型114，训练目标被确定为至少使多个评论中相似评论对应的第一特征表示之间的第一相似度降低，并且使多个评论中相似评论对应的第二特征表示之间的相应第二相似度降低。

在一些实施例中，多个第二特征表示可以被确定为满足正交约束。

在一些实施例中，训练模型114可以包括：确定多个第一特征表示之间的第一平均相似度；确定多个第二特征表示之间的第二平均相似度；以及通过使第一平均相似度和第二平均相似度降低来满足训练目标。

在一些实施例中，方法600还可以包括通过组合多个第一特征表示来生成上下文相关特征表示。训练目标还可以被确定为使上下文相关特征表示与多个第一特征表示之间的第三平均相似度降低。在一些实施例中，训练目标还被确定为使上下文相关特征表示满足正交约束。

在一些实施例中，方法600还可以包括通过对多个第一特征表示采样来生成多个随机特征表示，多个随机特征表示与多个第一特征表示的维度相同并且指示针对多个评论的先验噪声估计。训练目标还可以被确定为使先验噪声估计降低。

在一些实施例中，方法600还可以包括利用模型114，基于多个第二特征表示来分别确定多个评论各自的多个可信度估计。训练目标还可以被确定为使基于多个可信度估计的高斯混合模型的对数似然估计降低。

在一些实施例中，方法600还可以包括获取待检测的目标评论；以及使用经训练的模型114，基于目标评论来确定目标评论的目标可信度估计。

图7示出了根据本公开的某些实施例的文本处理装置700的示意性结构框图。文本处理装置700可以被实现为或者被包括在模型训练装置112中。

如图所示，文本处理装置700包括评论获取模块700，被配置为获取包括文本信息的多个评论。文本处理装置700还包括特征表示提取模块720，被配置为利用用于检测评论可信度的模型来提取多个评论各自对应的多个第一特征表示，每个第一特征表示具有第一维度，模型114被配置为基于多个第二特征表示来分别确定多个评论各自的多个可信度估计。文本处理装置700还包括特征表示转换模块730，被配置为利用模型114来将多个第一特征表示转换为多个评论各自对应的多个第二特征表示，每个第二特征表示具有小于第一维度的第二维度。文本处理装置700还包括模型训练模块740，被配置为基于多个第一特征表示和多个第二特征表示并且根据训练目标来训练模型114，训练目标被确定为至少使多个评论中相似评论对应的第一特征表示之间的第一相似度降低，并且使多个评论中相似评论对应的第二特征表示之间的相应第二相似度降低。

在一些实施例中，模型114训练模块740可以包括：第一平均相似度确定模块，被配置为确定多个第一特征表示之间的第一平均相似度；第二平均相似度确定模块，被配置为确定多个第二特征表示之间的第二平均相似度；以及基于相似度的训练模块，被配置为通过使第一平均相似度和第二平均相似度降低来满足训练目标。

在一些实施例中，装置700还可以包括上下文确定模块，被配置为通过组合多个第一特征表示来生成上下文相关特征表示。其中训练目标还可以被确定为使上下文相关特征表示与多个第一特征表示之间的第三平均相似度降低。

在一些实施例中，训练目标还可以被确定为使上下文相关特征表示满足正交约束。

在一些实施例中，装置700还可以包括：先验信息确定模块，被配置为通过对多个第一特征表示采样来生成多个随机特征表示，多个随机特征表示与多个第一特征表示的维度相同并且指示针对多个评论的先验噪声估计。训练目标还被确定为使先验噪声估计降低。

在一些实施例中，装置700还可以包括：可信度估计模块，被配置为利用模型114，基于多个第二特征表示来分别确定多个评论各自的多个可信度估计。训练目标还可以被确定为使基于多个可信度估计的高斯混合模型的对数似然估计降低。

在一些实施例中，装置700还可以包括：目标评论获取模块，被配置为获取待检测的目标评论；以及目标可信度估计模块，被配置为使用经训练的模型114，基于目标评论来确定目标评论的目标可信度估计。

图8示出了示出了其中可以实施本公开的一个或多个实施例的计算设备/服务器800的框图。应当理解，图8所示出的计算设备/服务器800仅仅是示例性的，而不应当构成对本文所描述的实施例的功能和范围的任何限制。图8所示出的计算设备/服务器800可以用于实现图1的计算设备110或130、模型训练装置112或图7的装置700。

如图8所示，计算设备/服务器800是通用计算设备的形式。计算设备/服务器800的组件可以包括但不限于一个或多个处理器或处理单元810、存储器820、存储设备830、一个或多个通信单元840、一个或多个输入设备850以及一个或多个输出设备860。处理单元810可以是实际或虚拟处理器并且能够根据存储器820中存储的程序来执行各种处理。在多处理器***中，多个处理单元并行执行计算机可执行指令，以提高计算设备/服务器800的并行处理能力。

计算设备/服务器800通常包括多个计算机存储介质。这样的介质可以是计算设备/服务器800可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器820可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备830可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备/服务器800内被访问。

计算设备/服务器800可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图8中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器820可以包括计算机程序产品825，其具有一个或多个程序模块，这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。

通信单元840实现通过通信介质与其他计算设备进行通信。附加地，计算设备/服务器800的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备/服务器800可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备850可以是一个或多个输入设备，例如鼠标、键盘、追踪球等。输出设备860可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备/服务器800还可以根据需要通过通信单元840与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备/服务器800交互的设备进行通信，或者与使得计算设备/服务器800与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实现方式，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式，还提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，而计算机可执行指令被处理器执行以实现上文描述的方法。

这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims

1.一种文本处理方法，包括：

获取包括文本信息的多个评论；

利用用于检测评论可信度的模型来提取所述多个评论各自对应的多个第一特征表示，每个第一特征表示具有第一维度；

利用所述模型来将所述多个第一特征表示转换为所述多个评论各自对应的多个第二特征表示，每个第二特征表示具有小于所述第一维度的第二维度，所述模型被配置为基于所述多个第二特征表示来分别确定所述多个评论各自的多个可信度估计；以及

基于所述多个第一特征表示和所述多个第二特征表示并且根据训练目标来训练所述模型，所述训练目标被确定为至少使所述多个评论中相似评论对应的第一特征表示之间的第一相似度降低，并且使所述多个评论中相似评论对应的第二特征表示之间的相应第二相似度降低。

2.根据权利要求1所述的方法，其中所述多个第二特征表示被确定为满足正交约束。

3.根据权利要求1所述的方法，其中训练所述模型包括：

确定所述多个第一特征表示之间的第一平均相似度；

确定所述多个第二特征表示之间的第二平均相似度；以及

通过使所述第一平均相似度和所述第二平均相似度降低来满足所述训练目标。

4.根据权利要求1所述的方法，还包括：

通过组合所述多个第一特征表示来生成上下文相关特征表示，

其中所述训练目标还被确定为使所述上下文相关特征表示与所述多个第一特征表示之间的第三平均相似度降低。

5.根据权利要求4所述的方法，其中所述训练目标还被确定为使所述上下文相关特征表示满足正交约束。

6.根据权利要求1所述的方法，还包括：

通过对所述多个第一特征表示采样来生成多个随机特征表示，所述多个随机特征表示与所述多个第一特征表示的维度相同并且指示针对所述多个评论的先验噪声估计，

其中所述训练目标还被确定为使所述先验噪声估计降低。

7.根据权利要求1所述的方法，还包括：

利用所述模型，基于所述多个第二特征表示来分别确定所述多个评论各自的多个可信度估计，

其中所述训练目标还被确定为使基于所述多个可信度估计的高斯混合模型的对数似然估计降低。

8.根据权利要求1至7中任一项所述的方法，还包括：

获取待检测的目标评论；以及

使用经训练的所述模型，基于所述目标评论来确定所述目标评论的目标可信度估计。

9.一种文本处理装置，所述装置包括：

评论获取模块，被配置为获取包括文本信息的多个评论；

特征表示提取模块，被配置为利用用于检测评论可信度的模型来提取所述多个评论各自对应的多个第一特征表示，每个第一特征表示具有第一维度；

特征表示转换模块，被配置为利用所述模型来将所述多个第一特征表示转换为所述多个评论各自对应的多个第二特征表示，每个第二特征表示具有小于所述第一维度的第二维度，所述模型被配置为基于所述多个第二特征表示来分别确定所述多个评论各自的多个可信度估计；以及

模型训练模块，被配置为基于所述多个第一特征表示和所述多个第二特征表示并且根据训练目标来训练所述模型，所述训练目标被确定为至少使所述多个评论中相似评论对应的第一特征表示之间的第一相似度降低，并且使所述多个评论中相似评论对应的第二特征表示之间的相应第二相似度降低。

10.根据权利要求9所述的装置，其中所述多个第二特征表示被确定为满足正交约束。

11.根据权利要求9所述的装置，其中所述模型训练模块包括：

第一平均相似度确定模块，被配置为确定所述多个第一特征表示之间的第一平均相似度；

第二平均相似度确定模块，被配置为确定所述多个第二特征表示之间的第二平均相似度；以及

基于相似度的训练模块，被配置为通过使所述第一平均相似度和所述第二平均相似度降低来满足所述训练目标。

12.根据权利要求9所述的装置，还包括：

上下文确定模块，被配置为通过组合所述多个第一特征表示来生成上下文相关特征表示，

13.根据权利要求12所述的装置，其中所述训练目标还被确定为使所述上下文相关特征表示满足正交约束。

14.根据权利要求9所述的装置，还包括：

先验信息确定模块，被配置为通过对所述多个第一特征表示采样来生成多个随机特征表示，所述多个随机特征表示与所述多个第一特征表示的维度相同并且指示针对所述多个评论的先验噪声估计，

其中所述训练目标还被确定为使所述先验噪声估计降低。

15.根据权利要求9所述的装置，还包括：

可信度估计模块，被配置为利用所述模型，基于所述多个第二特征表示来分别确定所述多个评论各自的多个可信度估计，

16.根据权利要求9至15中任一项所述的装置，还包括：

目标评论获取模块，被配置为获取待检测的目标评论；以及

目标可信度估计模块，被配置为使用经训练的所述模型，基于所述目标评论来确定所述目标评论的目标可信度估计。

17.一种电子设备，包括：

处理器；以及

存储器，存储有计算机可执行指令，当所述计算机可执行指令被所述处理器执行时被配置以实现根据权利要求1至8中任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机可执行指令，其中所述计算机可执行指令被处理器执行以实现根据权利要求1至8中任一项所述的方法。