CN113591464A

CN113591464A - 变体文本检测方法、模型训练方法、装置及电子设备

Info

Publication number: CN113591464A
Application number: CN202110860112.4A
Authority: CN
Inventors: 孙晓洁; 吕中厚; 王洋; 高梦晗
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-11-02
Anticipated expiration: 2041-07-28
Also published as: CN113591464B

Abstract

本公开提供了一种变体文本检测方法、模型训练方法、装置及电子设备，涉及人工智能技术领域，尤其涉及文本处理领域。该方法包括：将多个文本分别输入变体文本检测模型，得到多个文本中每个文本的变体分数，变体文本检测模型是采用变体文本样本对文本识别模型进行训练得到的；根据每个文本的变体分数确定多个文本中的第一变体文本，并确定第一变体文本对应的第一账户；确定与第一账户相关的可疑账户；对可疑账户提交的文本进行内容特征检测，并根据内容特征检测的结果，确定可疑账户提交的文本中的第二变体文本，实现了对变体文本及时主动地挖掘。

Description

变体文本检测方法、模型训练方法、装置及电子设备

技术领域

本公开涉及人工智能技术领域中的文本处理技术，尤其涉及一种变体文本检测方法、模型训练方法、装置及电子设备。

背景技术

UGC(User Generated Content，用户生成内容)平台常常会受到黑产团队的侵害，黑产团队往往通过大量账户以变体文本等形式发布其想要传递的违规网址等违禁内容。为了实现内容发布的目的，黑产团队通过对文本进行同音、谐音、近形、甚至结构上的变异等方式构造变体文本，在保障文本语义传达的情况下，通过变体文本绕过UGC 平台的风控检查，该行为严重影响了正常用户的使用体验，因此，对UGC 平台的内容进行变体文本检测十分必要。

相关技术中，通常是利用训练后的文本检测模型对UGC平台的内容进行检测，模型的检测能力与训练时的样本相关，然而，由于变体文本同时具有形式变异和语义正常传递这两个特性，在构造样本时很难构造出同时满足这两个特性的样本，且黑产全队的新的变体文本形式层出不穷，导致模型难以检测出新的变体文本。

发明内容

本公开提供了一种实现了对变体文本进行及时主动地挖掘的变体文本检测方法、模型训练方法、装置及电子设备。

根据本公开的一方面，提供了一种变体文本检测方法，方法包括：

将多个文本分别输入变体文本检测模型，得到多个文本中每个文本的变体分数，变体文本检测模型是采用变体文本样本对文本识别模型进行训练得到的；

根据每个文本的变体分数确定多个文本中的第一变体文本，并确定第一变体文本对应的第一账户；

确定与第一账户相关的可疑账户；

对可疑账户提交的文本进行内容特征检测，并根据内容特征检测的结果，确定可疑账户提交的文本中的第二变体文本。

根据本公开的另一方面，提供了一种模型训练方法，方法包括：

获取第一变体文本和第二变体文本，其中，第一变体文本是将多个文本分别输入变体文本检测模型，得到每个文本的变体分数后，根据每个文本的变体分数得到的变体文本，第二变体文本是对与第一变体文本对应的第一账户相关的可疑账户提交的文本进行内容特征检测，并根据内容特征检测的结果确定出的变体文本；

采用第一变体文本和第二变体文本，对变体文本检测模型进行训练，以更新变体文本检测模型的模型参数。

根据本公开的再一方面，提供了一种变体文本检测装置，装置包括：

输入模块，用于将多个文本分别输入变体文本检测模型，得到多个文本中每个文本的变体分数，变体文本检测模型是采用变体文本样本对文本识别模型进行训练得到的；

第一确定模块，用于根据每个文本的变体分数确定多个文本中的第一变体文本，并确定第一变体文本对应的第一账户；

第二确定模块，用于确定与第一账户相关的可疑账户；

检测模块，用于对可疑账户提交的文本进行内容特征检测，并根据内容特征检测的结果，确定可疑账户提交的文本中的第二变体文本。

根据本公开的再一方面，提供了一种模型训练装置，装置包括：

获取模块，用于获取第一变体文本和第二变体文本，其中，第一变体文本是将多个文本分别输入变体文本检测模型，得到每个文本的变体分数后，根据每个文本的变体分数得到的变体文本，第二变体文本是对与第一变体文本对应的第一账户相关的可疑账户提交的文本进行内容特征检测，并根据内容特征检测的结果确定出的变体文本；

训练模块，用于采用第一变体文本和第二变体文本，对变体文本检测模型进行训练，以更新变体文本检测模型的模型参数。

根据本公开的再一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述第一方面或第二方面的方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行上述第一方面或第二方面的方法。

根据本公开的又一方面，提供了一种计算机程序产品，程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行第一方面或第二方面的方法。

根据本公开的技术方案，实现了对变体文本的及时主动地挖掘。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的变体文本检测方法的流程示意图；

图2是根据本公开实施例提供的模型训练方法的流程示意图；

图3是根据本公开实施例提供的变体文本检测装置的结构示意图；

图4是根据本公开实施例提供的模型训练装置的结构示意图；

图5是用来实现本公开实施例的变体文本检测方法的电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

利用文本检测模型对UGC平台的内容进行变体文本检测时，模型的检测能力与训练时的样本相关，若要提高模型的检测能力，则需要扩充模型训练的相关样本，然而，由于变体文本同时具有形式变异和语义正常传递这两个特性，在构造样本时很难构造出同时满足这两个特性的样本。

示例的，在传统方法中，通过对现有样本进行对抗增强，比如首先提取现有样本中的关键词而后对其进行拼音、字形等变异，生成对抗样本以获取更多的训练数据，增强模型检测能力。这种传统的方法可以保证生成的变体文本满足语义正常传递的特性，但是其变异形式单一，但是实际中，黑产团队构造变体文本的形式层出不穷，因此，采用这种传统的方法获得样本对模型进行训练，仍不足以实现对新的变体文本形式的及时检测。

示例的，在基于深度学习的方法中，例如对抗生成网络，利用一个生成器和一个判别器，生成器的目标是生成可以绕过判别器检测的变体样本，判别器的目标则是正确识别出生成器生成的变体样本，通过这种方法提高判别器的变体文本检测能力。然而，这种基于深度学习的方法很难保***生成的变体样本具有正确的语义，会导致生成的变体样本向形式变异无限倾斜，导致判别器的训练出现偏差，因此，仍不足以实现对新的变体文本形式的及时检测。

基于上述原因，目前，在变体文本检测中，只能被动地等待黑产团队新的变体文本形式大规模出现后才能收集相关的变体文本来训练提升模型的检测能力，导致变体文本检测严重滞后，新的变体文本形式不能被及时发现。

为了解决上述问题，本公开实施例提出一种变体文本检测方法，首先对于已经大规模流行的变体形式可以使用变体文本检测模型检测，从而可以根据检测到的变体文本抓出黑产团队的部分账户，同时，考虑到同一黑产团队常常会批量组织多个账户在短时间内进行有目的性的“松散同步”攻击，因此，可以通过已知的这些账户，挖掘出属于同一黑产团队的其余尚未被发现的可疑账户，进而对这些可疑账户提交的文本，通过变体检测模型结合内容特征检测，确定其中的变体文本，从而可以在黑产团队新的变体文本形式大规模流行之前将其发现。

本公开提供一种变体文本检测方法、模型训练方法、装置及电子设备，应用于人工智能、文本处理领域，实现了对变体文本的及时主动地挖掘。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

下面，将通过具体的实施例对本公开提供的变体文本检测方法进行详细地说明。可以理解的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1是根据本公开实施例提供的变体文本检测方法的流程示意图。如图1所示，该方法包括：

S101、将多个文本分别输入变体文本检测模型，得到多个文本中每个文本的变体分数。

其中，变体文本检测模型是采用变体文本样本对文本识别模型进行训练得到的。变体文本检测模型的输入为文本，输出是文本的变体分数，其中，变体分数用于表示该文本为变体文本的概率，变体分数越高，则该文本为变体文本的概率越大。

对于UGC平台中所有用户提交的文本，均需要进行变体文本检测，本步骤中的多个文本可以包括任意用户提交的文本，将每个文本分别输入变体文本检测模型，得到每个文本的变体分数。

S102、根据每个文本的变体分数确定多个文本中的第一变体文本，并确定第一变体文本对应的第一账户。

由于每个文本的变体分数可以表示该文本为变体文本的概率，因此，对于概率较高的部分文本，可以将其确定为变体文本，即第一变体文本。同时，根据还可以确定发布第一变体文本的用户的账户，即第一账户。可选的，对于这些已经确定的第一变体文本，可以在UGC平台中将其删除，对于这些第一账户可以禁止其再次发布文本。

S103、确定与第一账户相关的可疑账户。

由于黑产团队往往在一段时间内利用大量账户来发布变体文本，因此可以基于账户之间的关联，确定与第一账户相关的可疑账户，以通过对可疑账户提交的文本进行检测来及时发现新的变体文本。

S104、对可疑账户提交的文本进行内容特征检测，并根据内容特征检测的结果，确定可疑账户提交的文本中的第二变体文本。

对于可疑账户提交的文本，除了通过变体文本检测模型来识别其中可能已经存在的第一变体文本，还进一步进行内容特征检测，内容特征检测可以包括对文本的相似度、语义、特殊字符或关键字等多方面特征的检测，通过对可以账户提交的文本进行内容特征检测的结果，及时挖掘出新的文本变体形式，识别其中未被变体文本检测模型检测出的第二变体文本。

本公开实施例的变体文本检测方法，首先对于任意用户提交的文本均可以采用变体文本检测模型进行初步检测，确定其中的第一变体文本和对应的第一账户，进而挖掘出与第一账户相关的同一黑产团队的可疑账户，对这些可疑账户提交的文本，结合内容特征检测的方法，确定出其中未被变体文本检测模型检测到的第二变体文本，从而可以在黑产团队新的变体文本形式大规模流行之前将其发现，实现了变体文本的及时主动地挖掘。

在上述实施例的基础上，首先对S102中根据每个文本的变体分数确定多个文本中的第一变体文本进行说明。

可选的，将变体分数大于或等于第一阈值的第一文本确定为第一变体文本。可选的，对于变体分数大于或等于第二阈值且小于第一阈值的第二文本，输出第一指示信息，第一指示信息用于指示为第二文本添加标注，若接收到第二文本的标注为变体文本，则将第二文本确定为第一变体文本。

将每个文本输入至变体文本检测模型后得到每个文本的变体分数，变体分数大于或等于第一阈值的第一文本为变体文本的概率较高，可以直接将其确定为第一变体文本，保证了对于这类变体文本的快速自动识别。

对于变体分数大于或等于第二阈值且小于第一阈值的第二文本，可以再进一步经过审核确认，确定其是否为变体文本。对于第二文本，可以输出第一指示信息，第一指示信息用于指示审核人员为第二文本添加标注，审核人员在对第二文本审核后为第二文本添加标注，例如若审核后确定为变体文本，则审核人员为第二文本添加的标注为变体文本，此时可以将第二文本确定为第一变体文本。若审核后确定第二文本不是变体文本，则审核人员为第二文本添加的标注为非变体文本，此时第二文本不会被确定为第一变体文本。从而，保证了变体分数较高的第二文本的检测准确率，也避免非变体文本被误检测为变体文本。

在上述确定第一变体文本后，根据第一变体文本对应的第一账户，还可以确定与第一账户相关的同一个黑产团队的可疑账户。以下对S103中确定与第一账户相关的可疑账户进行说明。

可选的，将与第一账户的互联网协议(Internet Protocol，IP)地址相同的账户确定为可疑账户。

黑产团队往往在一段时间内利用大量账户来发布变体文本，由于其使用的账户数量较大，在实际操作中往往会出现多个账户共用IP地址的情况，因此，可以将与第一账户的IP地址相同的账户确定为可疑账户，可疑快速锁定大量可疑用户，进而能够挖掘潜在的变体文本。

可选的，将与第一账户的互动值大于预设值的账户确定为可疑账户。

同一个黑产团队的账户往往会在UGC平台中进行互相关注、转发、评论等行为，因此，可以将与第一账户互动较多的账户确定为可疑账户。示例的，通过对账户之间的互动值进行计算，将与第一账户的互动值大于预设值的账户确定为可疑账户，保证了挖掘可疑账户的全面性。

对于可疑账户提交的文本，需要进行重点检测，以挖掘新的文本变体形式，以下进行说明。

将可疑账户提交的文本输入变体文本检测模型，得到可疑账户提交的文本的变体分数。对可疑账户提交的文本中，变体分数大于或等于第一阈值的第一文本，以及，变体分数大于或等于第二阈值且小于第一阈值的第二文本，按照前述实施例中的方法进行类似处理，此处不再赘述。

对可疑账户提交的文本中，变体分数大于或等于第三阈值且小于第二阈值的第四文本，输出第三指示信息，第三指示信息用于指示为第四文本添加标注，若接收到第四文本的标注为变体文本，则将第四文本确定为第二变体文本。与前述类似的，对于第四文本，可以输出第三指示信息，第三指示信息用于指示审核人员为第四文本添加标注，审核人员在对第四文本审核后为第四文本添加标注，例如若审核后确定为变体文本，则审核人员为第四文本添加的标注为变体文本，此时可以将第四文本确定为第一变体文本。若审核后确定第四文本不是变体文本，则审核人员为第四文本添加的标注为非变体文本，此时第四文本不会被确定为第一变体文本。从而，实现了对可疑账户提交的文本中，未被变体文本检测模型检测出的一部分变体文本的检测。

对可疑账户提交的文本中，变体分数小于第三阈值的第三文本，进行内容特征检测。由于变体分数小于第三阈值的第三文本的数量可能较多，采用内容特征检测的方法可以提高检测效率。

可选的，对第三文本进行内容特征检测后，若内容特征检测的结果满足预设条件，则输出第二指示信息，第二指示信息用于指示为第三文本添加标注，若接收到第三文本的标注为变体文本，则将第三文本确定为第二变体文本。其中，内容特征检测的结果满足预设条件表示第三文本为变体文本的概率较高，此时需要进一步审核确定第三文本是否为变体文本，若内容特征检测的结果不满足预设条件，则表示第三文本为变体文本的概率较低，无需进行处理。内容特征检测的结果满足预设条件时输出的第二指示信息同样用于指示对第三文本进行标注，若接收到第三文本被标注为变体文本，则将第三文本确定为第二变体文本。通过先对第三文本进行内容特征检测，再在内容特征检测的结果满足预设条件的情况下，输出第二指示信息以提示审核人员进行标注，可以在保证变体文本检测准确性的前提下，减少需要进行标注的文本数量。

以下进一步对内容特征检测的方式以及内容特征检测的结果进行说明。

在一种实施方式中，对第三文本进行内容特征检测，包括：对第三文本中的所有文本两两进行相似度检测，若两个文本的相似度大于相似度阈值，则确定两个文本为相似文本。相应的，若内容特征检测的结果满足预设条件，则输出第二指示信息，包括：若第三文本中相似文本的数量大于预设值，则输出第二指示信息。

由于属于同一黑产团队的账户发布的变体文本想要传达的信息通常是相同的，因此其变体方式和变体内容也往往有很高的相似性，因此，对于第三文本可以两两进行相似度比对，示例的，将同一黑产团队的可疑账户的所有第三文本进行分词，构造文本词袋，之后结合文本词袋为每一条第三文本生成词向量，利用词向量计算两两文本之间的余弦相似度，若余弦相似度高于相似度预置，则确定两个文本是相似的，若相似文本数量过多，则输出第二指示信息，以指示审核人员对其进行审核标注。通过相似度比对，可以有效挖掘出同一黑产团队提交的变体文本，对于新的变体文本形式也能够及时发现。

在一种实施方式中，对第三文本进行内容特征检测，包括：对第三文本和第三文本的上级文本对象进行语义相关性检测，得到第三文本和第三文本的上级文本对象的相关性分数。相应的，若内容特征检测的结果满足预设条件，则输出第二指示信息，包括：若第三文本和第三文本的上级文本对象的相关性分数小于相关性阈值，则输出第二指示信息。

为了逃避监管，黑产团队的账户发布的文本和其上级文本对象在语义上常常是完全无关的，例如，内容与标题完全无关，因此，可以对第三文本和第三文本的上级文本对象进行语义相关性检测，对于相关性较低的第三文本，同样输出第二指示信息，以指示审核人员对其进行审核标注。从而，通过语义相关性挖掘可疑账户可能发布的变体文本，对于新的变体文本形式也能够及时发现。

在一种实施方式中，对第三文本进行内容特征检测，包括：将第三文本与预设的特殊字符库进行匹配，得到第三文本中包含的特殊字符的数量。相应的，若内容特征检测的结果满足预设条件，则输出第二指示信息，包括：若第三文本中包含的特殊字符的数量大于特殊字符阈值，则输出第二指示信息。

由于黑产团队发布的变体文本往往包括大量的特殊字符，因此，通过特殊字符检测，也可以挖掘可疑账户可能发布的变体文本，对于包含特殊字符较多的第三文本，同样输出第二指示信息，以指示审核人员对其进行审核标注，从而能够及时挖掘新的变体文本。

在一种实施方式中，对第三文本进行内容特征检测，包括：将第三文本与关键词词库进行匹配，得到第三文本中包括的关键词的数量，其中，关键词词库是通过对预设的变体文本进行关键词提取获得的。相应的，若内容特征检测的结果满足预设条件，则输出第二指示信息，包括：若第三文本中包括的关键词的数量大于关键词阈值，则输出第二指示信息。

尽管黑产团队常常新的变体文本形式来发布变体文本，但是由于其发布的内容往往是类似的违规内容，因此，其发布的变体文本中也常常会有重复出现的关键词，因此，在对可疑账户的第三文本进行内容特征检测时，可以利用关键词词库进行匹配，关键词词库是通过对已经检测出的变体文本进行关键词提取获得的，对于命中关键词词库多次的第三文本，同样输出第二指示信息，以指示审核人员对其进行审核标注，从而能够及时挖掘新的变体文本。

可以理解的是，在实际应用中可以采用上述各实施例中进行内容特征检测的方法中的一种或多种来对第三文本进行内容特征检测，只要采用任一种方法进行内容特征检测的结果满足响应方法的预设条件，则输出第二指示信息，以指示审核人员对其进行审核标注。从而保证能够尽量全面的挖掘出可能存在的变体文本。

在上述实施例中介绍了变体文本检测方法，在采用上述方法确定出变体文本后，还可以利用确定出的变体文本(例如前述的第一变体文本和第二变体文本)作为训练样本。图2是根据本公开实施例提供的模型训练方法的流程示意图。如图2所示，该方法包括：

S201、获取第一变体文本和第二变体文本。

其中，第一变体文本是将多个文本分别输入变体文本检测模型，得到每个文本的变体分数后，根据每个文本的变体分数得到的变体文本，第二变体文本是对与第一变体文本对应的第一账户相关的可疑账户提交的文本进行内容特征检测，并根据内容特征检测的结果确定出的变体文本。

S202、采用第一变体文本和第二变体文本，对变体文本检测模型进行训练，以更新变体文本检测模型的模型参数。

采用前述实施例的变体文本检测方法所检测出的变体文本作为训练样本对变体文本检测模型进行训练，由于采用前述方法所得到的变体文本中可能包括了挖掘出的新的形式的变体文本，因此，将其作为样本对文本检测模型进行训练后，可以使得文本检测模型能够检测出最新的变体文本，大大提高了变体文本检测模型的检测能力，可以避免由于构造的样本质量较差而导致训练得到的模型检测能力的局限性和偏差，实现了新型变体文本的挖掘和模型检测能力迭代增强之间的全流程闭环，解决了相关技术中被动等待变体文本大规模流程后能够实现检测的局面。

图3是根据本公开实施例提供的变体文本检测装置的结构示意图。如图3所示，变体文本检测装置300包括：

输入模块301，用于将多个文本分别输入变体文本检测模型，得到多个文本中每个文本的变体分数，变体文本检测模型是采用变体文本样本对文本识别模型进行训练得到的；

第一确定模块302，用于根据每个文本的变体分数确定多个文本中的第一变体文本，并确定第一变体文本对应的第一账户；

第二确定模块303，用于确定与第一账户相关的可疑账户；

检测模块304，用于对可疑账户提交的文本进行内容特征检测，并根据内容特征检测的结果，确定可疑账户提交的文本中的第二变体文本。

可选的，第一确定模块302包括：

第一确定单元，用于将变体分数大于或等于第一阈值的第一文本确定为第一变体文本。

可选的，变体文本检测装置300还包括：

第二确定单元，用于对于变体分数大于或等于第二阈值且小于第一阈值的第二文本，输出第一指示信息，第一指示信息用于指示为第二文本添加标注，若接收到第二文本的标注为变体文本，则将第二文本确定为第一变体文本。

可选的，第二确定模块包括：

第三确定单元，用于将与第一账户的互联网协议地址相同的账户确定为可疑账户。

可选的，第二确定模块包括：

第四确定单元，用于将与第一账户的互动值大于预设值的账户确定为可疑账户。

可选的，检测模块304包括：

输入单元，用于将可疑账户提交的文本输入变体文本检测模型，得到可疑账户提交的文本的变体分数；

检测单元，用于对可疑账户提交的文本中，变体分数小于第三阈值的第三文本，进行内容特征检测。

可选的，检测模块304包括：第五确定单元，用于若内容特征检测的结果满足预设条件，则输出第二指示信息，第二指示信息用于指示为第三文本添加标注，若接收到第三文本的标注为变体文本，则将第三文本确定为第二变体文本。

可选的，检测单元包括：第一检测子单元，用于对第三文本中的所有文本两两进行相似度检测，若两个文本的相似度大于相似度阈值，则确定两个文本为相似文本；

第五确定单元包括：第一输出子单元，用于若第三文本中相似文本的数量大于预设值，则输出第二指示信息。

可选的，检测单元包括：第二检测子单元，用于对第三文本和第三文本的上级文本对象进行语义相关性检测，得到第三文本和第三文本的上级文本对象的相关性分数；

第五确定单元包括：第二输出子单元，若第三文本和第三文本的上级文本对象的相关性分数小于相关性阈值，则输出第二指示信息。

可选的，检测单元包括：第三检测子单元，将第三文本与预设的特殊字符库进行匹配，得到第三文本中包含的特殊字符的数量；

第五确定单元包括：第三输出子单元，若第三文本中包含的特殊字符的数量大于特殊字符阈值，则输出第二指示信息。

可选的，检测单元包括：第四检测子单元，将第三文本与关键词词库进行匹配，得到第三文本中包括的关键词的数量，其中，关键词词库是通过对预设的变体文本进行关键词提取获得的；

第五确定单元包括：第四输出子单元，若第三文本中包括的关键词的数量大于关键词阈值，则输出第二指示信息。

可选的，变体文本检测装置300还包括：第五输出子单元，用于对可疑账户提交的文本中，变体分数大于或等于第三阈值且小于第二阈值的第四文本，输出第三指示信息，第三指示信息用于指示为第四文本添加标注，若接收到第四文本的标注为变体文本，则将第四文本确定为第二变体文本。

本公开实施例的装置可用于执行上述方法实施例中的变体文本检测方法，其实现原理和技术效果类似，此处不再赘述。

图4是根据本公开实施例提供的模型训练装置的结构示意图。如图4 所示，模型训练装置400包括：

获取模块401，用于获取第一变体文本和第二变体文本，其中，第一变体文本是将多个文本分别输入变体文本检测模型，得到每个文本的变体分数后，根据每个文本的变体分数得到的变体文本，第二变体文本是对与第一变体文本对应的第一账户相关的可疑账户提交的文本进行内容特征检测，并根据内容特征检测的结果确定出的变体文本；

训练模块402，用于采用第一变体文本和第二变体文本，对变体文本检测模型进行训练，以更新变体文本检测模型的模型参数。

本公开实施例的装置可用于执行上述方法实施例中的模型训练方法，其实现原理和技术效果类似，此处不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备和存储有计算机指令的非瞬时计算机可读存储介质。

根据本公开的实施例，本公开还提供了一种计算机程序产品，程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图5是用来实现本公开实施例的变体文本检测方法的电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，电子设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O) 接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如变体文本检测方法。例如，在一些实施例中，变体文本检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由 ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的变体文本检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元 501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行变体文本检测方法。

用来实现本公开实施例的模型方法的电子设备与图5所示的用来实现本公开实施例的变体文本检测方法的电子设备类似，此处不再赘述。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/ 或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种变体文本检测方法，包括：

将多个文本分别输入变体文本检测模型，得到多个文本中每个文本的变体分数，所述变体文本检测模型是采用变体文本样本对文本识别模型进行训练得到的；

根据所述每个文本的变体分数确定所述多个文本中的第一变体文本，并确定所述第一变体文本对应的第一账户；

确定与所述第一账户相关的可疑账户；

对所述可疑账户提交的文本进行内容特征检测，并根据内容特征检测的结果，确定所述可疑账户提交的文本中的第二变体文本。

2.根据权利要求1所述的方法，其中，所述根据所述每个文本的变体分数确定所述多个文本中的第一变体文本，包括：

将变体分数大于或等于第一阈值的第一文本确定为所述第一变体文本。

3.根据权利要求2所述的方法，还包括：

对于变体分数大于或等于第二阈值且小于所述第一阈值的第二文本，输出第一指示信息，所述第一指示信息用于指示为所述第二文本添加标注，若接收到所述第二文本的标注为变体文本，则将所述第二文本确定为所述第一变体文本。

4.根据权利要求1-3任一项所述的方法，其中，所述确定与所述第一账户相关的可疑账户，包括：

将与所述第一账户的互联网协议地址相同的账户确定为所述可疑账户。

5.根据权利要求1-3任一项所述的方法，其中，所述确定与所述第一账户相关的可疑账户，包括：

将与所述第一账户的互动值大于预设值的账户确定为所述可疑账户。

6.根据权利要求1-5任一项所述的方法，其中，所述对所述可疑账户提交的文本进行内容特征检测，包括：

将所述可疑账户提交的文本输入所述变体文本检测模型，得到所述可疑账户提交的文本的变体分数；

对所述可疑账户提交的文本中，变体分数小于第三阈值的第三文本，进行内容特征检测。

7.根据权利要求6所述的方法，其中，所述根据内容特征检测的结果，确定所述可疑账户提交的文本中的第二变体文本，包括：

若所述内容特征检测的结果满足预设条件，则输出第二指示信息，所述第二指示信息用于指示为所述第三文本添加标注，若接收到所述第三文本的标注为变体文本，则将所述第三文本确定为所述第二变体文本。

8.根据权利要求7所述的方法，其中，所述对所述可疑账户提交的文本中，变体分数小于第三阈值的第三文本，进行内容特征检测，包括：

对所述第三文本中的所有文本两两进行相似度检测，若两个文本的相似度大于相似度阈值，则确定所述两个文本为相似文本；

所述若所述内容特征检测的结果满足预设条件，则输出第二指示信息，包括：

若所述第三文本中相似文本的数量大于预设值，则输出所述第二指示信息。

9.根据权利要求7所述的方法，其中，所述对所述可疑账户提交的文本中，变体分数小于第三阈值的第三文本，进行内容特征检测，包括：

对所述第三文本和所述第三文本的上级文本对象进行语义相关性检测，得到所述第三文本和所述第三文本的上级文本对象的相关性分数；

若所述第三文本和所述第三文本的上级文本对象的相关性分数小于相关性阈值，则输出所述第二指示信息。

10.根据权利要求7所述的方法，其中，所述对所述可疑账户提交的文本中，变体分数小于第三阈值的第三文本，进行内容特征检测，包括：

将所述第三文本与预设的特殊字符库进行匹配，得到所述第三文本中包含的特殊字符的数量；

若所述第三文本中包含的特殊字符的数量大于特殊字符阈值，则输出所述第二指示信息。

11.根据权利要求7所述的方法，其中，所述对所述可疑账户提交的文本中，变体分数小于第三阈值的第三文本，进行内容特征检测，包括：

将所述第三文本与关键词词库进行匹配，得到所述第三文本中包括的关键词的数量，其中，所述关键词词库是通过对预设的变体文本进行关键词提取获得的；

若所述第三文本中包括的关键词的数量大于关键词阈值，则输出所述第二指示信息。

12.根据权利要求6-11任一项所述的方法，还包括：

对所述可疑账户提交的文本中，变体分数大于或等于第三阈值且小于第二阈值的第四文本，输出第三指示信息，所述第三指示信息用于指示为所述第四文本添加标注，若接收到所述第四文本的标注为变体文本，则将所述第四文本确定为所述第二变体文本。

13.一种模型训练方法，包括：

获取第一变体文本和第二变体文本，其中，所述第一变体文本是将多个文本分别输入变体文本检测模型，得到每个文本的变体分数后，根据所述每个文本的变体分数得到的变体文本，所述第二变体文本是对与所述第一变体文本对应的第一账户相关的可疑账户提交的文本进行内容特征检测，并根据所述内容特征检测的结果确定出的变体文本；

采用所述第一变体文本和所述第二变体文本，对所述变体文本检测模型进行训练，以更新所述变体文本检测模型的模型参数。

14.一种变体文本检测装置，包括：

输入模块，用于将多个文本分别输入变体文本检测模型，得到所述多个文本中每个文本的变体分数，所述变体文本检测模型是采用变体文本样本对文本识别模型进行训练得到的；

第一确定模块，用于根据所述每个文本的变体分数确定所述多个文本中的第一变体文本，并确定所述第一变体文本对应的第一账户；

第二确定模块，用于确定与所述第一账户相关的可疑账户；

检测模块，用于对所述可疑账户提交的文本进行内容特征检测，并根据内容特征检测的结果，确定所述可疑账户提交的文本中的第二变体文本。

15.根据权利要求14所述的装置，其中，所述第一确定模块包括：

第一确定单元，用于将变体分数大于或等于第一阈值的第一文本确定为所述第一变体文本。

16.根据权利要求15所述的装置，还包括：

第二确定单元，用于对于变体分数大于或等于第二阈值且小于所述第一阈值的第二文本，输出第一指示信息，所述第一指示信息用于指示为所述第二文本添加标注，若接收到所述第二文本的标注为变体文本，则将所述第二文本确定为所述第一变体文本。

17.根据权利要求14-16任一项所述的装置，其中，所述第二确定模块包括：

第三确定单元，用于将与所述第一账户的互联网协议地址相同的账户确定为所述可疑账户。

18.根据权利要求14-16任一项所述的装置，其中，所述第二确定模块包括：

第四确定单元，用于将与所述第一账户的互动值大于预设值的账户确定为所述可疑账户。

19.根据权利要求14-18任一项所述的装置，其中，所述检测模块包括：

输入单元，用于将所述可疑账户提交的文本输入所述变体文本检测模型，得到所述可疑账户提交的文本的变体分数；

检测单元，用于对所述可疑账户提交的文本中，变体分数小于第三阈值的第三文本，进行内容特征检测。

20.根据权利要求19所述的装置，其中，所述检测模块包括：

第五确定单元，用于若所述内容特征检测的结果满足预设条件，则输出第二指示信息，所述第二指示信息用于指示为所述第三文本添加标注，若接收到所述第三文本的标注为变体文本，则将所述第三文本确定为所述第二变体文本。

21.根据权利要求20所述的装置，其中，所述检测单元包括：

第一检测子单元，用于对所述第三文本中的所有文本两两进行相似度检测，若两个文本的相似度大于相似度阈值，则确定所述两个文本为相似文本；

所述第五确定单元包括：

第一输出子单元，用于若所述第三文本中相似文本的数量大于预设值，则输出所述第二指示信息。

22.根据权利要求20所述的装置，其中，所述检测单元包括：

第二检测子单元，用于对所述第三文本和所述第三文本的上级文本对象进行语义相关性检测，得到所述第三文本和所述第三文本的上级文本对象的相关性分数；

所述第五确定单元包括：

第二输出子单元，若所述第三文本和所述第三文本的上级文本对象的相关性分数小于相关性阈值，则输出所述第二指示信息。

23.根据权利要求20所述的装置，其中，所述检测单元包括：

第三检测子单元，将所述第三文本与预设的特殊字符库进行匹配，得到所述第三文本中包含的特殊字符的数量；

所述第五确定单元包括：

第三输出子单元，若所述第三文本中包含的特殊字符的数量大于特殊字符阈值，则输出所述第二指示信息。

24.根据权利要求20所述的装置，其中，所述检测单元包括：

第四检测子单元，将所述第三文本与关键词词库进行匹配，得到所述第三文本中包括的关键词的数量，其中，所述关键词词库是通过对预设的变体文本进行关键词提取获得的；

所述第五确定单元包括：

第四输出子单元，若所述第三文本中包括的关键词的数量大于关键词阈值，则输出所述第二指示信息。

25.根据权利要求19-24任一项所述的装置，还包括：

第五输出子单元，用于对所述可疑账户提交的文本中，变体分数大于或等于第三阈值且小于第二阈值的第四文本，输出第三指示信息，所述第三指示信息用于指示为所述第四文本添加标注，若接收到所述第四文本的标注为变体文本，则将所述第四文本确定为所述第二变体文本。

26.一种模型训练装置，包括：

获取模块，用于获取第一变体文本和第二变体文本，其中，所述第一变体文本是将多个文本分别输入变体文本检测模型，得到每个文本的变体分数后，根据所述每个文本的变体分数得到的变体文本，所述第二变体文本是对与所述第一变体文本对应的第一账户相关的可疑账户提交的文本进行内容特征检测，并根据所述内容特征检测的结果确定出的变体文本；

训练模块，用于采用所述第一变体文本和所述第二变体文本，对所述变体文本检测模型进行训练，以更新所述变体文本检测模型的模型参数。

27.一种电子设备，包括：

至少一个处理器；以及与至少一个处理器通信连接的存储器；

其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行权利要求1-13中任一项的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-13中任一项所述的方法。

29.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现权利要求1-13中任一项所述的方法。