CN112989167B

CN112989167B - 搬运账号的识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112989167B
Application number: CN202110406785.2A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-08-06
Anticipated expiration: 2041-04-15
Also published as: CN112989167A

Abstract

本申请提供了一种搬运账号的识别方法、装置、设备及计算机可读存储介质；方法包括：对基于目标账号发布的媒体信息进行专业度检测，得到所述目标账号的专业性特征；对所述媒体信息进行平稳度检测，得到用于表征所述目标账号进行媒体信息发布的平稳度的平稳性特征；对所述媒体信息进行重复度检测，得到用于表征所述目标账号进行媒体信息发布的重复度的重复性特征；将所述专业性特征、所述平稳性特征及所述重复性特征进行特征融合，得到所述目标账号对应的融合特征；基于所述融合特征，对所述目标账号进行搬运账号识别，得到用于表征所述目标账号是否为搬运账号的识别结果。通过本申请，能够提高搬运账号的识别效率。

Description

搬运账号的识别方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种搬运账号的识别方法、装置、设备及计算机可读存储介质。

背景技术

随着互联网的快速发展，自媒体得到了前所未有的发展，为了吸引用户，每个自媒体平台均致力于吸引大量的优质内容提供者以期提供更多的优质内容，优质内容提供者主要来源于主动注册和生态拓展，由于主动注册依赖于自媒体平台的知名度且需消耗大量宣传营销成本，因此生态拓展就成为了另外一条重要途径。

在自媒体平台的激励诱惑下，由于原创账号成本较高，故产生了大量的搬运账号，所谓搬运账号为通过复制其他原创账号的媒体信息来牟取利益的账号，为了保证账号的生态健康发展，在对账号进行生态拓展过程中，尤其需要避免拓展或者引入搬运账号或者变相的搬运账号，然而相关技术中通常是通过人工经验识别搬运账号的，十分依赖人力，导致识别效率低。

发明内容

本申请实施例提供一种搬运账号的识别方法、装置、设备及计算机可读存储介质，能够提高搬运账号的识别效率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种搬运账号的识别方法，包括：

对基于目标账号发布的媒体信息进行专业度检测，得到所述目标账号的专业性特征；

其中，所述专业性特征，用于表征所述目标账号的影响度、以及所述目标账号与所述媒体信息的一致性；

对所述媒体信息进行平稳度检测，得到用于表征所述目标账号进行媒体信息发布的平稳度的平稳性特征；

对所述媒体信息进行重复度检测，得到用于表征所述目标账号进行媒体信息发布的重复度的重复性特征；

将所述专业性特征、所述平稳性特征及所述重复性特征进行特征融合，得到所述目标账号对应的融合特征；

基于所述融合特征，对所述目标账号进行搬运账号识别，得到用于表征所述目标账号是否为搬运账号的识别结果。

本申请实施例提供一种搬运账号的识别装置，包括：

第一检测模块，用于对基于目标账号发布的媒体信息进行专业度检测，得到所述目标账号的专业性特征；

第二检测模块，用于对所述媒体信息进行平稳度检测，得到用于表征所述目标账号进行媒体信息发布的平稳度的平稳性特征；

第三检测模块，用于对所述媒体信息进行重复度检测，得到用于表征所述目标账号进行媒体信息发布的重复度的重复性特征；

特征融合模块，用于将所述专业性特征、所述平稳性特征及所述重复性特征进行特征融合，得到所述目标账号对应的融合特征；

账号识别模块，用于基于所述融合特征，对所述目标账号进行搬运账号识别，得到用于表征所述目标账号是否为搬运账号的识别结果。

上述方案中，所述第一检测模块，还用于对所述目标账号进行影响度检测，得到所述目标账号的账号影响度；

对所述媒体信息进行垂直度检测，得到用于表征所述目标账号进行媒体信息发布的垂直度的账号垂直度；

对所述媒体信息进行匹配度检测，得到用于表征所述目标账号与所述媒体信息一致性的账号匹配度；

结合所述账号影响度、所述账号垂直度及所述账号匹配度，确定所述目标账号的专业性特征。

上述方案中，所述第一检测模块，还用于对所述目标账号进行影响度检测，得到所述目标账号在至少两个自媒体平台的账号等级；

获取所述账号等级对应的权重，并基于所述权重对所述至少两个账号等级进行加权求和，得到所述目标账号的账号影响度。

上述方案中，所述第一检测模块，还用于对所述媒体信息进行类别检测，得到所述媒体信息的信息类别；

确定自媒体平台中媒体信息的信息总类别；

获取所述信息类别与所述信息总类别的比值，并基于所述比值确定用于表征所述目标账号进行媒体信息发布的垂直度的账号垂直度。

上述方案中，所述第一检测模块，还用于对所述目标账号进行类别检测，得到所述目标账号的账号类别，并对所述媒体信息进行类别检测，得到所述媒体信息的信息类别；

将所述账号类别与所述信息类别进行匹配，并当所述目标账号与所述媒体信息相匹配时，确定所述目标账号与所述媒体信息的类别相一致；

获取基于所述目标账号在目标时间段内发布的类别相一致的媒体信息的信息数量，以及基于所述目标账号在所述目标时间段内发布的媒体信息的总数量；

将所述信息数量与所述总数量的比值，确定为用于表征所述目标账号与所述媒体信息一致性的账号匹配度。

上述方案中，所述第一检测模块，还用于分别确定所述账号影响度、所述账号垂直度和所述账号匹配度的权重；

基于确定的权重，对所述账号影响度、所述账号垂直度和所述账号匹配度进行加权求和，得到所述目标账号的专业性特征。

上述方案中，当所述目标账号存在对应多个目标时间段内的媒体信息时，所述第二检测模块，还用于分别对所述多个目标时间段内的媒体信息进行平稳度检测，得到基于所述目标账号在各所述目标时间段内进行媒体信息发布的平稳度；

分别获取相邻的目标时间段对应的平稳度之间的差值；

基于各所述差值，确定用于表征所述目标账号进行媒体信息发布的平稳度的平稳性特征。

上述方案中，所述第二检测模块，还用于分别获取各所述目标时间段内的媒体信息的发布数量、所述发布数量的均值和方差；

获取基于所述目标账号在各所述目标时间段内进行媒体信息发布的平稳度与所述均值和方差之间的映射关系；

基于所述均值和方差、以及相应的所述映射关系，确定基于所述目标账号在各所述目标时间段内进行媒体信息发布的平稳度。

上述方案中，所述媒体信息包括多个属性信息，所述第三检测模块，用于分别对所述多个属性信息进行重复度检测，得到所述目标账号对应各所述属性信息的属性重复度；

将各所述属性重复度进行聚合处理，得到用于表征所述目标账号进行媒体信息发布的重复度的重复性特征。

上述方案中，所述第三检测模块，还用于分别对每个属性信息执行以下处理：

对所述媒体信息的属性信息进行特征提取，得到所述媒体信息的属性特征，并对参考媒体信息的所述属性信息进行特征提取，得到所述参考媒体信息的属性特征；

将所述媒体信息的属性特征与所述参考媒体信息的属性特征进行特征匹配，得到匹配结果；

基于所述匹配结果，确定所述目标账号对应所述属性信息的属性重复度。

上述方案中，所述装置还包括：

账号处理模块，用于当所述识别结果表征所述目标账号为搬运账号时，确定所述目标账号的搬运类型；

基于所述搬运类型，分配与所述搬运类型相适配的推送流量至所述目标账号。

上述方案中，所述特征融合模块，还用于通过账号分类模型的特征融合层，对所述专业性特征、所述平稳性特征及所述重复性特征进行特征融合，得到所述目标账号对应的融合特征；

相应的，所述账号识别模块，还用于通过所述账号分类模型的分类预测层，对所述融合特征进行分类预测，得到所述目标账号所属的账号类别。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的搬运账号的识别方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的搬运账号的识别方法。

本申请实施例具有以下有益效果：

通过分别对基于目标账号发布的媒体信息进行专业度检测、平稳度检测和重复度检测，得到目标账号的专业性特征、平稳性特征和重复性特征，并将专业性特征、平稳性特征和重复性特征进行特征融合，得到目标账号的融合特征，并基于融合特征对目标账号进行搬运账号识别，得到用于表征目标账号是否为搬运账号的识别结果；如此，实现对目标账号的自动识别，提高了搬运账号的识别效率，另外由于结合了目标账号的专业性特征、平稳性特征和重复性特征，能够使对目标账号进行搬运账号识别的结果更加准确，提高了搬运账号的识别准确率。

附图说明

图1为本申请实施例提供的搬运账号的识别***100的架构示意图；

图2为本申请实施例提供的电子设备500的一个可选的结构示意图；

图3为本申请实施例提供的搬运账号的识别方法的流程示意图；

图4为本申请实施例提供的搬运账号的识别方法的流程示意图；

图5为本申请实施例提供的搬运账号的识别方法的流程示意图；

图6为本申请实施例提供的搬运账号的识别方法的流程示意图；

图7为本申请实施例提供的账号分类模型的示意图；

图8为本申请实施例提供的账号分类模型的示意图；

图9为本申请实施例提供的账号搬运示意图；

图10为本申请实施例提供的搬运账号的识别***的架构示意图；

图11为本申请实施例提供的搬运账号的识别装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1）机器学习（ML，Machine Learning)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

2）无监督学习：利用无标签的数据学习数据的分布或数据与数据之间的关系被称作无监督学习，无监督学习最常应用的场景是聚类和降维，其中，聚类就是根据数据的“相似性”将数据分为多类的过程评估两个不同样本之间的“相似性”，通常使用的方法就是计算两个样本之间的“距离”；降维就是在保证数据所具有的代表性特征或分布的情况下，将高维数据转化为低维数据的过程，起到精简数据，提高其他机器学习算法效率的作用。常用的无监督学习算法主要有主成分分析方法等、等距映射方法、局部线性嵌入方法、拉普拉斯特征映射方法、黑塞局部线性嵌入方法和局部切空间排列方法等。

3）内容：推荐客户端推荐给用户阅读的内容，可以是视频、图片、文本、图文等，图文可以是自媒体主动编辑发布的包括竖版的小图文或横版的短图文，文章通常是自媒体开一个公众号后主动编辑发布的。

4）视频：推荐客户端推荐给用户阅读的视频，视频包括竖版的小视频和横版的短视频，可以是专业生产内容（PGC，Professional Generated Content）或者用户原创内容（UGC，User Generated Content）以信息流（Feeds）的形式提供。

5）信息流（feeds）：又称消息来源，持续更新并呈现给用户内容的信息流。feeds是将用户主动订阅的若干消息源组合在一起形成内容聚合器，帮助用户持续地获取最新的订阅源内容，其中，订阅源一般是新闻网站以及博客。feeds的展现形式有很多种，主要的有时间线（timeline）以及等级（rank），timeline是一种feeds展示方式，按照feeds内容更新的时间先后顺序，将内容展示给用户，例如微博、朋友圈；rank是按照某些因素计算内容的权重，从而决定内容展示的先后顺序。

6）属性信息：对于一个对象的抽象方面的刻画。一个具体事物，总是有许许多多的性质与关系，一个事物的性质与关系都是事物的属性。事物与属性是不可分的，一个事物与另一个事物的相同或相异，也就是一个事物的属性与另一事物的属性的相同或相异。由于事物属性的相同或相异，客观世界中就形成了许多不同的事物类。具有相同属性的事物就形成一类，具有不同属性的事物就分别地形成不同的类。

参见图1，图1为本申请实施例提供的搬运账号的识别***100的架构示意图，为实现支撑一个示例性应用，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，本申请实施例提供的搬运账号的识别方法可由终端400或服务器200单独实施，当由终端400单独实施时，可以客户端的形式安装在终端400上，使终端400上的客户端具备本地搬运账号的识别功能，其也可以作为相关客户端的插件，根据需要下载到客户端后进行本地使用，以上这种部署方式中，搬运账号的识别***可以直接在本地完成所有检测过程，不需要接入外部网络，可保证数据的绝对安全。

在一些实施例中，本申请实施例提供的搬运账号的识别方法可由终端400和服务器200协同实施，例如，终端400发送针对基于目标账号发布的媒体信息的账号识别请求至服务器200；服务器200基于账号识别请求，对基于目标账号发布的媒体信息进行专业度检测，得到目标账号的专业性特征；对媒体信息进行平稳度检测，得到目标账号的平稳性特征；对媒体信息进行重复度检测，得到目标账号的重复性特征；将专业性特征、平稳性特征及重复性特征进行特征融合，得到目标账号对应的融合特征；基于融合特征，对目标账号进行搬运账号识别，得到用于表征目标账号是否为搬运账号的识别结果；并将识别结果返回至终端400；在实际应用中，当识别结果表征目标账号为搬运账号时，服务器200还可确定目标账号的搬运类型，并基于搬运类型，对目标账号执行与搬运类型相适配的处理策略，如分配与搬运类型相适配的推送流量至目标账号。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（CDN，ContentDelivery Network）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

接下来对实施本申请实施例的搬运账号的识别方法的电子设备进行说明。参见图2，图2为本申请实施例提供的电子设备500的一个可选的结构示意图，在实际应用中，电子设备500可以为图1中的终端400或服务器200，以电子设备为图1所示的服务器200为例，图2所示的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线***540耦合在一起。可理解，总线***540用于实现这些组件之间的连接通信。总线***540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（ROM，Read Only Memory），易失性存储器可以是随机存取存储器（RAM，Random Access Memory）。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***551，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个（有线或无线）网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（USB，Universal Serial Bus）等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531（例如，显示屏、扬声器等）使得能够呈现信息（例如，用于操作***设备和显示内容和信息的用户接口）；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的搬运账号的识别装置可以采用软件方式实现，图2示出了存储在存储器550中的搬运账号的识别装置555，其可以是程序和插件等形式的软件，包括以下软件模块：第一检测模块5551、第二检测模块5552、第三检测模块5553、特征融合模块5554和账号识别模块5555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的搬运账号的识别装置可以采用硬件方式实现，作为示例，本申请实施例提供的搬运账号的识别装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的搬运账号的识别方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（ASIC，Application SpecificIntegrated Circuit）、DSP、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，Complex Programmable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable Gate Array）或其他电子元件。

基于上述对本申请实施例提供的搬运账号的识别***及电子设备的说明，接下来对本申请实施例提供的搬运账号的识别方法进行说明，参见图3，图3为本申请实施例提供的搬运账号的识别方法的流程示意图，以图1中的服务器200实施本申请实施例提供的搬运账号的识别为例进行说明。

步骤101：服务器对基于目标账号发布的媒体信息进行专业度检测，得到目标账号的专业性特征。

其中，目标账号为能够供发布媒体信息的账号，可以为媒体账号或自媒体账号。专业性特征，用于表征目标账号的影响度、账号垂直度以及目标账号与媒体信息的一致性。

参见图4，图4为本申请实施例提供的搬运账号的识别方法的流程示意图，在一些实施例中，图4示出图3中的步骤101可通过步骤1011-步骤1014实现：

步骤1011：对目标账号进行影响度检测，得到目标账号的账号影响度。

其中，账号影响度用于表征目标账号的影响力的大小。

在一些实施例中，服务器可通过如下方式对目标账号进行影响度检测，得到目标账号的账号影响度：对目标账号进行影响度检测，得到目标账号在至少两个自媒体平台的账号等级；获取账号等级对应的权重，并基于权重对至少两个账号等级进行加权求和，得到目标账号的账号影响度。

这里，目标账号的账号影响度主要通过该目标账号在多个媒体平台的认证情况或账号等级来确定的，假设，目标账号加入n（大于等于2）个媒体平台，该目标账号在第i个媒体平台的账号等级为Level(i)，且账号等级对应的权重为α _i，则该目标账号的账号影响度

。

在一些实施例中，目标账号的账号影响度还可以用账号等级对应的账号评分来表征，假设目标账号在第i个媒体平台的账号等级为Level(i)，账号等级分为1-5级，则将第i个账号等级换算为百分制的账号评分

，对应的权重为α_i，则该目标账号的账号影响度

。

在实际应用中，目标账号在其他媒体平台上的账号等级越高，在未入驻新媒体平台的情况下，若基于该目标账号在该新媒体平台上发布了媒体信息，则该目标账号被搬运至该新媒体平台的可能性就越大；若该目标账号已入驻新媒体平台，且在新媒体平台上能够找到该目标账号以及基于该目标账号发布的媒体信息，则说明该目标账号在新媒体平台上的认可度越高，无需进行账号拓展。

步骤1012：对媒体信息进行垂直度检测，得到用于表征目标账号进行媒体信息发布的垂直度的账号垂直度。

其中，账号垂直度是指目标账号的标签类别，用于表征基于目标账号发布的媒体信息的垂直度或专注度，也即体现的是目标账号在擅长领域发表内容的专注程度，若目标账号今天发美食，明天发美妆，后天发搞笑段子，则该目标账号的账号垂直度评分将会降低；由于每一个目标账号都有属于自己的标签类别，如美食类、美妆类、搞笑类等，***会根据目标账号的标签类别将基于该目标账号发布的媒体信息推荐给拥有相同标签类别的用户，目标账号的类别专注度越高，账号垂直度越高，粉丝越精准，后续作品的推荐量就会越高。

在一些实施例中，服务器可通过如下方式对媒体信息进行垂直度检测，得到用于表征目标账号进行媒体信息发布的垂直度的账号垂直度：对媒体信息进行类别检测，得到媒体信息的信息类别；确定自媒体平台中媒体信息的信息总类别；获取信息类别与所述信息总类别的比值，并基于比值确定用于表征目标账号进行媒体信息发布的垂直度的账号垂直度。

这里判断账号垂直度的主要出发点倾向于将基于目标账号发布的媒体信息的信息类别比较集中的目标账号，可以认为该目标账号的创作专注度比较高，也可以认为账号垂直度越高，作者越专注，可能是搬运集中也可能是创作领域越集中。

在实际实施时，统计目标账号在目标时间段（如1个月）内发布的媒体信息的信息类别，如将基于目标账号发布的媒体信息输入至信息类别分类模型中，得到用于表征媒体信息的信息类别的分类结果，获取基于目标账号发布的媒体信息的信息类别与媒体平台中媒体信息的总类别的比值P _i，则目标账号的账号垂直度

，其中，i表示第i个信息类别，n为信息总类别，P _i为第i个信息类别的比例。

步骤1013：对媒体信息进行匹配度检测，得到用于表征目标账号与媒体信息一致性的账号匹配度。

其中，账号匹配度用于表征基于目标账号发布的媒体信息与目标账号一致性所占的比例，比例越高，账号匹配度就越高。

在一些实施例中，服务器可通过如下方式对媒体信息进行匹配度检测，得到用于表征目标账号与媒体信息一致性的账号匹配度：对目标账号进行类别检测，得到目标账号的账号类别，并对媒体信息进行类别检测，得到媒体信息的信息类别；将账号类别与信息类别进行匹配，并当目标账号与媒体信息相匹配时，确定目标账号与媒体信息的类别相一致；获取基于目标账号在目标时间段内发布的类别相一致的媒体信息的信息数量，以及基于目标账号在目标时间段内发布的媒体信息的总数量；将类别相一致的媒体信息的信息数量与媒体信息的总数量的比值，确定为用于表征目标账号与媒体信息一致性的账号匹配度。

这里，在将账号类别与信息类别进行匹配时，可通过分别对账号类别和信息类别进行特征提取，得到账号类别对应的账号类别特征和信息类别对应的信息类别特征，并计算账号类别特征与信息类别特征之间的相似度值（如余弦相似度值），根据两者之间的相似度值，确定目标账号与媒体信息的类别是否一致，如当两者之间的相似度值超过相似度阈值时，确定目标账号与媒体信息的类别相一致；当两者之间的相似度值未超过相似度阈值时，确定目标账号与媒体信息的类别不一致，当目标账号与媒体信息的类别不一致时，表征目标账号很有可能为变异账号或搬运账号。

统计目标时间段（如一个月）内基于目标账号发布的类别相一致的媒体信息的信息数量T _{consisteny_count}，和该目标时间段内基于目标账号发布的媒体信息的总数量T _total，则该目标账号的账号匹配度

。

步骤1014：结合账号影响度、账号垂直度及账号匹配度，确定目标账号的专业性特征。

在一些实施例中，服务器可通过如下方式结合账号影响度、账号垂直度及账号匹配度，确定目标账号的专业性特征：分别确定账号影响度、账号垂直度和账号匹配度的权重；基于确定的权重，对账号影响度、账号垂直度和账号匹配度进行加权求和，得到目标账号的专业性特征。

这里，将账号影响度、账号垂直度及账号匹配度进行融合处理，得到目标账号的专业性特征，表达式如下所示：

其中，α为账号影响度的控制参数，β为账号垂直度的控制参数，χ为账号匹配度的控制参数，可根据经验值设置，如α=0.5、β=0.3、χ=0.2。

步骤102：对媒体信息进行平稳度检测，得到用于表征目标账号进行媒体信息发布的平稳度的平稳性特征。

其中，平稳性特征用于刻画基于目标账号进行媒体信息发布的平稳度和活跃度，通常情况下，媒体平台会将近期坚持发布媒体信息的账号（热点高）设置在推送头部。由于搬运账号的创作成本较低，发布的媒体信息的数量较多，搬运者为了获取利益，倾向搬运各种热点高或位于推送头部的账号。

参见图5，图5为本申请实施例提供的搬运账号的识别方法的流程示意图，在一些实施例中，当目标账号存在对应多个目标时间段内的媒体信息时，图5示出图3中的步骤102可通过步骤1021-步骤1023实现：

步骤1021：分别对多个目标时间段内的媒体信息进行平稳度检测，得到基于目标账号在各目标时间段内进行媒体信息发布的平稳度；

在一些实施例中，服务器可通过如下方式分别对多个目标时间段内的媒体信息进行平稳度检测，得到基于目标账号在各目标时间段内进行媒体信息发布的平稳度：分别获取各目标时间段内的媒体信息的发布数量、发布数量的均值和方差；获取基于目标账号在各目标时间段内进行媒体信息发布的平稳度与均值和方差之间的映射关系；基于均值和方差、以及相应的映射关系，确定基于目标账号在各目标时间段内进行媒体信息发布的平稳度。

上述映射关系的表达式为：

，其中，S _account为目标账号在目标时间段内进行媒体信息发布的平稳度，σ ₁和σ ₂分别为目标时间段内媒体信息的发布数量的均值和方差，α为均值的控制参数，β为方差的控制参数，控制参数可设置，如α=1、β=2，η ₁为均值的平滑系数，η ₂为方差的平滑系数，平滑系数可设置，如η ₁=10、η ₂=10。

在实际实施时，通过统计账号在目标时间段内的内容平稳性来实现平稳度的检测，例如，在一个月内，以周为单位，计算每一周该目标账号发布的媒体信息的数量的均值和方差，根据上述表达式计算出目标账号在每一周内进行媒体信息发布的平稳度。

步骤1022：分别获取相邻的目标时间段对应的平稳度之间的差值；

步骤1023：基于各差值，确定用于表征目标账号进行媒体信息发布的平稳度的平稳性特征。

这里，仍然以在一个月内，以周为单位为例，在计算出目标账号在每一周内进行媒体信息发布的平稳度之后，获取每相邻周的平稳度之间的差值，如获取第二周对应的平稳度与第一周对应的平稳度之间的差值、第三周对应的平稳度与第二周对应的平稳度之间的差值、第四周对应的平稳度与第三周对应的平稳度之间的差值，基于这几个差值，确定用于表征目标账号进行媒体信息发布的波动情况的平稳性特征。

步骤103：对媒体信息进行重复度检测，得到用于表征目标账号进行媒体信息发布的重复度的重复性特征。

其中，重复性特征通过对基于目标账号进行媒体信息的发布时间、及基于位于推送头部（高等级）的目标账号发布的媒体信息的流水排重，度量的是账号的搬运程度。

参见图6，图6为本申请实施例提供的搬运账号的识别方法的流程示意图，在一些实施例中，当基于目标账号发布的媒体信息包括多个属性信息时，图6示出图3中的步骤103可通过步骤1031-步骤1032实现：

步骤1031：分别对所多个属性信息进行重复度检测，得到目标账号对应各属性信息的属性重复度。

在一些实施例中，服务器可通过如下方式分别对多个属性信息进行重复度检测，得到目标账号对应各所述属性信息的属性重复度：

分别对每个属性信息执行以下处理：对媒体信息的属性信息进行特征提取，得到媒体信息的属性特征，并对参考媒体信息的属性信息进行特征提取，得到参考媒体信息的属性特征；将媒体信息的属性特征与参考媒体信息的属性特征进行特征匹配，得到匹配结果；基于匹配结果，确定目标账号对应属性信息的属性重复度。

在实际应用中，统计基于目标账号在目标时间段内发布的多条媒体信息，并对每条媒体信息进行重复度检测，参考媒体信息为基于位于推送头部（高等级）的目标账号发布的信息，为了识别出搬运账号，需要将目标账号发布的媒体信息的属性信息与参考媒体信息的属性信息进行重复度检测，即筛选排查出基于目标账号发布的、与参考媒体信息存在重复的媒体信息，其中，属性信息包括但不限于：标题、文本、图像、视频、音频。

当属性信息为文本属性信息（如标题、文本）时，需要对文本属性信息进行基于文本的编码处理。例如，对标题、文本等文本属性信息分词处理，得到文本属性信息的多个词语，然后向量化文本属性信息的多个词语，得到多个词语分别对应的词向量，对多个词语分别对应的词向量进行平均，以获得媒体信息的文本属性信息的属性特征，并采用上述方式获取参考媒体信息的文本属性信息的属性特征，并将媒体信息的文本属性信息的属性特征与参考媒体信息的文本属性信息的属性特征进行匹配（如计算两者之间的余弦相似度值），并基于匹配结果，确定目标账号对应属性信息的属性重复度。

例如，对于标题这一文本属性信息，将媒体信息的标题对应的标题特征（属性特征）与参考媒体信息的标题对应的标题特征（属性特征）进行匹配，并基于匹配结果确定目标账号对应标题的标题重复度X _{txt_title}。对于正文这一文本属性信息，将媒体信息的正文对应的正文特征（属性特征）与参考媒体信息的正文对应的正文特征（属性特征）进行匹配，并基于匹配结果确定目标账号对应正文的正文重复度X _{bert_content}。

在一些实施例中，还可采用相似度算法（如simhash算法）计算正文重复度，如对媒体信息的正文进行分词处理，并去掉噪音词（如助词、语气词、人称代词），得到正文的特征词序列，并为每个特征词加上权重（特征词出现次数）；对于提取的特征词进行hash值运算，转变成位值，根据每个位是否为1，进行权重加减处理；然后将每个特征词的序列值累加，合并降维成只有一个序列串（大于0记为1，小于0记为0），即得到正文的二进制签名（即正文特征）；同理，采用上述方式获取参考媒体信息的正文对应的二进制签名，并将媒体信息的正文对应的二进制签名与参考媒体信息的正文对应的二进制签名进行匹配（如相似度），并基于匹配结果确定目标账号对应正文的正文simhash结果，即正文重复度X _{txt_content}。

当属性信息为图像属性信息（如封面图、插图）时，对媒体信息的图像属性信息进行编码处理，得到媒体信息的图像编码特征（属性特征），并对参考媒体信息的多个属性信息中的图像属性信息进行编码处理，得到参考媒体信息的图像编码特征（属性特征），将媒体信息的图像编码特征与参考媒体信息的图像编码特征进行匹配（如计算两者之间的余弦相似度值），并基于匹配结果，确定目标账号对应图像属性信息的图像重复度X _pic。

当属性信息为视频属性信息时，对媒体信息的视频属性信息进行视频指纹提取，得到媒体信息的视频指纹特征（视频指纹向量或属性特征），对参考媒体信息的视频属性信息进行视频指纹提取，得到参考媒体信息的视频指纹特征（视频指纹向量或属性特征），并将媒体信息的视频指纹特征与参考媒体信息的视频指纹特征进行匹配（如计算两者之间的余弦相似度值），并基于匹配结果，确定目标账号对应视频属性信息的视频重复度X _{video_content}。

当属性信息为音频属性信息时，对媒体信息的音频属性信息进行音频指纹提取，得到媒体信息的音频指纹特征（音频指纹向量或属性特征），对参考媒体信息的音频属性信息进行音频指纹提取，得到参考媒体信息的音频指纹特征（音频指纹向量或属性特征），并将媒体信息的音频指纹特征与参考媒体信息的音频指纹特征进行匹配（如计算两者之间的余弦相似度值），并基于匹配结果，确定目标账号对应音频属性信息的视频重复度X _{voice_content}。

步骤1032：将各属性重复度进行聚合处理，得到用于表征目标账号进行媒体信息发布的重复度的重复性特征。

这里，基于上述各个属性重复度，可采用如下表达式得到目标账号的重复性特征S _copy：S _copy=||X _{txt_title}+X _{txt_content}+X _pic+X _{bert_content}+X _{video_content}+X _{voice_content}||₃；其中，|| ||₃表示3-范数。

步骤104：将专业性特征、平稳性特征及重复性特征进行特征融合，得到目标账号对应的融合特征。

在实际应用中，可通过如下表达式得到目标账号对应的融合特征S _copy-account :

；

其中，α为重复性特征的控制参数，β为平稳性特征的控制参数，χ为重复性特征的控制参数，控制参数可设置，如α=2、β=1、χ=0.5。

步骤105：基于融合特征，对目标账号进行搬运账号识别，得到用于表征目标账号是否为搬运账号的识别结果。

在一些实施例中，服务器可通过如下方式将专业性特征、平稳性特征及重复性特征进行特征融合，得到目标账号对应的融合特征：

通过账号分类模型的特征融合层，对专业性特征、平稳性特征及重复性特征进行特征融合，得到目标账号对应的融合特征；相应的，服务器可通过如下方式基于融合特征，目标账号进行搬运账号识别，得到用于表征目标账号是否为搬运账号的识别结果：通过账号分类模型的分类预测层，对融合特征进行分类预测，得到目标账号所属的账号类别。

参见图7，图7为本申请实施例提供的账号分类模型的示意图，账号分类模型包括：特征融合层和分类预测层，将目标账号的专业性特征、平稳性特征及重复性特征进行特征融合，如将专业性特征、平稳性特征及重复性特征输入至特征融合层，进行特征融合，得到融合特征，然后将融合特征输入至分类预测层，通过分类预测层对融合特征进行分类预测，得到目标账号所属的账号类别。

在实际应用中，账号分类模型还可以包含特征提取层，也即直接通过账号分类模型的特征提取层对基于目标账号发布的媒体信息进行特征提取，得到目标账号的专业性特征、平稳性特征及重复性特征，而不需要通过其它方式预先对基于目标账号发布的媒体信息进行特征提取，如此简化了账号分类预测的过程。

参见图8，图8为本申请实施例提供的账号分类模型的示意图，账号分类模型包括：特征提取层、特征融合层和分类预测层，其中，特征提取层包括第一子特征提取层、第二子特征提取层、第三子特征提取层，通过第一子特征提取层对基于目标账号发布的媒体信息进行专业度检测，得到目标账号的专业性特征，通过第二子特征提取层对基于目标账号发布的媒体信息进行平稳度检测，得到目标账号的平稳性特征，通过第三子特征提取层对基于目标账号发布的媒体信息进行重复度检测，得到目标账号的重复性特征，然后将目标账号的专业性特征、平稳性特征及重复性特征输入至特征融合层，得到融合特征，最后将融合特征输入至分类预测层，输出目标账号所属的账号类别。

在一些实施例中，当识别结果表征目标账号为搬运账号时，确定目标账号的搬运类型；基于搬运类型，分配与搬运类型相适配的推送流量至目标账号。

在实际实施时，可根据搬运账号所发布的媒体信息的来源账号数量，或搬运账号所发布的媒体信息的数量占比来确定搬运账号的搬运类型，例如，若搬运账号A所发布的媒体信息的来源账号数量为N个（如5个）以上，M个（如10个）以下，或搬运账号A所发布的媒体信息的数量占M个来源账号所发布的媒体信息的数量的占比超过比例阈值（如60%），则将搬运账号A的搬运类型定义为垂直搬运；若搬运账号A所发布的大部分媒体信息（如70%以上）和明确界定的原创账号名单发布的媒体信息相重复，则将搬运账号A的搬运类型定义为定向搬运；不属于上述定义的，定义为杂乱搬运。

在对账号进行生态拓展过程中，为了保证账号生态的健康发展，针对不同的搬运类型，在不同阶段采用不同的管理策略对相应的账号进行管理控制，如分配与搬运类型相适配的推送流量至目标账号，例如，若目标账号的搬运类型为垂直搬运、且该目标账号搬运的来源账号已入驻同一媒体平台，为了保护来源账号（即原创作者），则媒体平台分配较多的推送流量或推送粉丝给来源账号，并分配较少的推送流量至该目标账号（搬运账号），以逐步封禁该目标账号（搬运账号）。

在一些实施例中，还可结合区块链技术，将目标账号的识别结果保存于区块链上，如在确定目标账号的识别结果后，生成用于存储识别结果的交易，提交生成的交易至区块链网络的节点，以使所述节点对交易共识后存储识别结果至区块链网络；在存储至区块链网络之前，服务器还可对识别结果进行哈希变换，得到对应识别结果的摘要信息；将得到的识别结果的摘要信息存储至区块链网络；如此，用户可从区块链网络中获取对应目标账号的识别结果，以确定该目标账号的识别结果。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。以目标账号为自媒体账号、媒体平台为自媒体平台为例，自媒体有别于由专业媒体机构主导的信息传播，它是由普通大众主导的信息传播活动。同时，它也是指为个体提供信息生产、积累、共享、传播内容兼具私密性和公开性的信息传播方式，非常适合在移动时代的快速阅读和消费，通常以feeds形式展示出来供用户快速刷新。各种不同的自媒体创作各自图文等内容，用户可以订阅这些内容，然后当内容有更新的时候，将对应的内容推送给用户，当然用户也可以主动刷新feeds获取最新的内容。

自媒体内容生产者主要包括原创账号和搬运账号，随着用户需求越来越高，自媒体平台越来越期望原创作者和优质内容的出现，自媒体账号生态建设需要大量的优质内容提供者，优质内容提供者主要来源于主动注册和生态拓展，由于主动注册依赖于自媒体平台的知名度且需消耗大量宣传营销成本，因此生态拓展就成为了另外一条重要途径。

在自媒体平台的激励诱惑下，由于原创账号成本较高，故产生了大量的搬运账号，所谓搬运账号为通过复制其他原创账号的媒体信息来牟取利益的账号，为了保证自媒体账号的生态健康发展，在对自媒体账号进行生态拓展过程中，尤其需要避免拓展或者引入搬运账号或者变相的搬运账号，因此需要对自媒体账号的发文行为和状态进行自动监控和筛选，识别当中的搬运账号，然后针对不同的搬运类型和搬运程度的账号采用不同的策略，比如定期的离线流程发现搬运迹象后，再来做替换和打压，然而相关技术中通常是通过人工经验识别筛选搬运账号，缺少搬运账号自动识别和对应的处理措施，导致生态拓展和筛选的效率低。

为了解决上述问题，本申请实施例提供一种搬运账号的识别方法，基于账号的发文行为和平台内外信息，构建搬运账号识别模型，提供搬运账号识别模型对账号的发文行为和状态进行自动的搬运监控和筛选，识别当中的搬运账号，及在账号持续运营中，识别搬运账号的搬运类型，并针对不同搬运类型采用不同的措施，促进账号生态的发展。

本申请实施例提供的账号识别模型包括以下几部分：

1、账号发文的专业性特征

账号发文的专业性特征即为上述的自媒体账号的专业性特征，专业性特征主要从账号影响度、账号垂直度及账号匹配度来考虑，接下来将逐一进行说明。

（1）账号影响度：主要通过该自媒体账号在多个自媒体平台的认证情况或账号等级来确定的，假设，某自媒体账号加入n（大于等于2）个自媒体平台，该自媒体账号在第i个自媒体平台的账号等级为Level(i) ，账号等级分为1-5级，则将第i个账号等级换算为百分制的账号评分S _level= Level(i)*100/5，对应的权重为α _i，则该自媒体账号的账号影响度

。

在实际应用中，自媒体账号在其他自媒体平台上的账号等级越高，在未入驻新自媒体平台的情况下，若基于该自媒体账号在该新自媒体平台上发文（即发布了媒体信息），则该自媒体账号被搬运至该新自媒体平台的可能性就越大；若该自媒体账号已入驻新自媒体平台，且在新自媒体平台上能够找到该自媒体账号以及该自媒体账号的发文，则说明该自媒体账号在新自媒体平台上的认可度越高，无需进行账号拓展。

（2）账号垂直度：用于表征基于自媒体账号发文的垂直度或专注度，也即体现的是自媒体账号在擅长领域发表内容的专注程度，若一个自媒体账号今天发美食，明天发美妆，后天发搞笑段子，则该自媒体账号的账号垂直度（评分）将会降低；自媒体账号的类别专注度越高，账号垂直度越高，粉丝越精准，后续作品的推荐量就会越高。

这里判断账号垂直度的主要出发点倾向于将基于自媒体账号发文类别比较集中的自媒体账号，可以认为该自媒体账号的创作专注度比较高，也可以认为账号垂直度越高，作者越专注，可能是搬运集中也可能是创作领域越集中。

在实际实施时，统计某一自媒体账号在目标时间段（如1个月）内发文类别，如将自媒体账号的发文（即发布的媒体信息）输入至类别分类模型中，得到用于表征发文垂类（即信息类别）的分类结果，获取发文垂类与自媒体平台中的发文垂类总数（即总类别）的比值P _i，则自媒体账号的账号垂直度

，其中，i表示第i个发文类别，n为发文垂类总数，P _i为第i个发文类别的比例。

（3）账号匹配度：用于表征账号发文的号文一致性，即自媒体账号与该自媒体账号发文的一致性。这里，通过使用自媒体账号的账号类别与账号发文类别的匹配来判断，比如将账号类别和发文类别分别通过神经网络模型向量化，来比较二者向量的距离，以确定一个账号发布的内容是否和账号定位一致。

在实际实施时，可统计目标时间段（如一个月）内基于自媒体账号发布的号文一致性（即类别相一致）的发文数量T _{consisteny_count}，和该目标时间段内该自媒体账号发文总数量T _total，则该自媒体账号的账号匹配度为

。

在确定账号影响度、账号垂直度及账号匹配度后，将账号影响度、账号垂直度及账号匹配度进行融合处理，得到自媒体账号的专业性特征S _profession:S _profession=α*S _{cp_level}+β*H _profession+χ*S _{account_consisteny}，其中，α为账号影响度的控制参数，β为账号垂直度的控制参数，χ为账号匹配度的控制参数，可根据经验值设置，如α=0.5、β=0.3、χ=0.2。

2、账号发文的平稳性特征

账号发文的平稳性特征即为上述的自媒体账号的平稳性特征，用于刻画账号内容发文的平稳性和近期的活跃性，在实际应用中，将账号中坚持发文、且近期发文活跃的账号排在前面，通常情况下，搬运账号的创作成本很低，发文量很大，搬运者为了获取利益，倾向搬运各种不同的基于排在前面的账号发布的内容，即倾向搬运热点和头部大V（拥有众多粉丝的用户）内容。

在实际实施时，统计账号在目标时间段内如在一个月内，以周为单位，计算每一周该账号发文数量的均值和方差，根据以下表达式计算出该账号在每一周内进行发文的平稳度

，其中，S _account为账号在一周内发文的平稳度，σ ₁和σ ₂分别为一周内发文数量的均值和方差，α为均值的控制参数，β为方差的控制参数，控制参数可设置，如α=1、β=2，η ₁为均值的平滑系数，η ₂为方差的平滑系数，平滑系数可设置，如η ₁=10、η ₂=10。

在计算出自媒体账号在每一周内进行媒体信息发布的平稳度之后，获取每相邻周的平稳度之间的差值，如获取第二周对应的平稳度与第一周对应的平稳度之间的差值、第三周对应的平稳度与第二周对应的平稳度之间的差值、第四周对应的平稳度与第三周对应的平稳度之间的差值，基于这几个差值，确定用于表征账号发文的波动情况的平稳性特征。

3、账号发文的重复性特征

账号发文的重复性特征即为上述的自媒体账号的重复性特征。在实际应用中，每一篇新发布的内容入都需要经过入库、机器处理和人工处理的全链路，其中，机器处理中第一步最重要就是排重处理（排重比对库包括平台内容入驻的发布内容及监控账号的所有发文，后者通常是待拓展账号内容及爬取对应的内容，用于拓展分析）。由于头部高等级别账号很少，而这些账号的内容被抄袭和搬运的可能性较大，同时增加对头部高等级别账号的覆盖也是生态拓展建设中的重要部分。对于搬运账号的识别，需要利用监控账号的发文与头部账号的发文进行排重筛选，计算每一篇待识别的账号发布内容的重复分数，然后对每个重复分数进行3范数聚合，从而得到重复性特征的表达。

在实际应用中，统计账号在目标时间段（如一个月）内发布的多条内容，并对每条内容进行重复度检测，如将待识别的账号发布的内容与头部高等级别账号发布的参考内容进行排重处理，以确定排重结果，其中，比较对象涉及以下至少之一：标题、文本、图像、视频、音频，以得到各个维度对应的排重结果，并将各个维度的排重结果进行3-范数聚合，得到账号发文的重复性特征S _copy为：S _copy=||X _{txt_title}+X _{txt_content}+X _pic+X _{bert_content}+X _{video_content}+X _{voice_content}||₃，其中，X _{txt_title}表征标题排重结果，X _{txt_content}表征正文simhash排重结果，X _pic表征图像排重结果，X _{bert_content}表征正文BERT排重结果，X _{video_content}表征视频排重结果，X _{voice_content}表征音频排重结果。

上述中，X _{bert_content}是通过预训练的转换器的双向编码器表示（BERT，Bidirectional Encoder Representations from Transformers）模型，对正文进行特征提取，BERT模型在对正文进行特征提取时，需要获取正文的上下文信息的词嵌入、位置嵌入、分割嵌入，将词嵌入、位置嵌入、分割嵌入输入BERT模型，通过BERT模型对上下文信息进行语义特征提取，得到上下文特征，作为正文特征，并将该正文特征与参考内容的正文对应的正文特征进行匹配，并基于匹配结果确定账号对应正文的正文重复度X _{bert_content}。词嵌入是指将单词划分成一组有限的公共子词单元，能在单词的有效性和字符的灵活性之间取得一个折中的平衡；位置嵌入是指将单词的位置信息编码成特征向量，位置嵌入是向模型中引入单词位置关系的至关重要的一环。位置嵌入的具体内容参考我之前的分析；用于区分两个句子，例如B是否是A的下文。

在得到账号的将专业性特征、平稳性特征及重复性特征之后，将专业性特征、平稳性特征及重复性特征进行特征融合，得到账号对应的融合特征

_:

，其中，α为重复性特征的控制参数，β为平稳性特征的控制参数，χ为重复性特征的控制参数，控制参数可设置，如α=2、β=1、χ=0.5。

在得到账号的融合特征后，可基于融合特征，对账号进行搬运账号识别，得到用于表征该账号是否为搬运账号的识别结果，当识别结果表征该账号为搬运账号时，确定该账号的搬运类型，并针对不同的搬运类型，在不同阶段采用不同的管理策略对相应的账号进行管理控制，如分配与搬运类型相适配的推送流量至该账号。

参见图9，图9为本申请实施例提供的账号搬运示意图，图9中，圆圈越大表示基于圆圈所指示的账号的发文数量越大，账号等级越高。根据相似重复内容发文时间和搬运方向判断账号的搬运类型，搬运类型包括：定向搬运、垂直搬运和杂乱搬运，其中，定向搬运也称为1v1搬运，如图9中的D账号；垂直搬运也称为1vN搬运，如图9中的C账号，属于这种搬运类型的账号可有选择性选择一批账号进行定向搬运，以搬运基于所选择账号发布的相对优质的内容，这对自媒体平台是有益的；杂乱搬运不在原创名单中，属于此类搬运类型的账号是指发文与很多账号的发文都有重复的账号，该类账号看到啥搬啥，对自媒体平台的价值较低。

在实际实施时，可根据搬运账号发文的来源账号数量，或搬运账号发文数量占比来确定搬运账号的搬运类型，例如，若搬运账号A发文的来源账号数量为N个（如5个）以上，M个（如10个）以下，或搬运账号A的发文数量占M个来源账号发文数量的占比超过比例阈值（如60%），则将搬运账号A的搬运类型定义为垂直搬运；若搬运账号A发文的大部分内容（如70%以上）和明确界定的原创账号名单发文相重复，则将搬运账号A的搬运类型定义为定向搬运；不属于上述定义的，定义为杂乱搬运。

在对账号进行生态拓展过程中，为了保证账号生态的健康发展，针对不同的搬运类型，在不同阶段采用不同的管理策略对相应的账号进行管理控制，参见表1，表1为本申请实施例提供的账号管理表，如表1所示，若账号的搬运类型为垂直搬运、且该账号搬运的来源账号（原创）已入驻同一自媒体平台，为了保护来源账号（原创），则自媒体平台分配较多的推送流量或推送粉丝给来源账号，并分配较少的推送流量至该搬运账号，以逐步封禁搬运账号。

表1

下面具体说明本申请实施例提供的搬运账号的识别***，参见图10，图10为本申请实施例提供的搬运账号的识别***的架构示意图，***中各个模块的功能如下：

一、内容生产端和内容消费端

（1）PGC、UGC、多频道网络（MCN，Multi-Channel Network）、专业用户原创生产内容（PUGC，Professional User Generated Content）等内容生产端，通过移动端或者后端应用程序接口（API，Application Programming Interface），提供本地或者网页（web）发布***提供的图文内容、视频或者图集等内容，这些都是分发内容的主要内容来源；

（2）内容生产端通过与上下行内容接口服务的通讯，先获取上传服务器接口地址，然后再发布内容（即媒体信息）；

（3）内容消费端与上下行内容接口服务通讯，获取访问内容的索引信息（例如访问内容的地址），然后上下行内容接口服务和内容分发出口服务通讯，直接消费内容，消费的前提通过Feeds推荐分发获得内容的索引；

（4）Feeds及用户点击行为和环境上报模块，收集用户当前网络环境及用户对Feeds中间信息的点击操作行为和Feeds内容的曝光数据，上报给统计上报接口服务器；

（5）内容消费端消费内容的互动信息，如果是视频内容，上报视频播放过的播放时长、缓存时间及内容的各种互动行为，如评论、点赞、转发、收藏、分享等互动信息，通过用户行为及分发统计上报接口上报。

二、上下行内容接口服务

（1）和内容生产端直接通讯，获取前端提交的内容，包括内容的标题、发布者、摘要、封面图、发布时间、拍摄的图文等文件（属性信息），直接通过该服务器把文件存入内容数据库；

（2）内容分发出口服务和推荐分发***通讯，获取推荐分发的结果，下发到内容消费端展示在用户的Feeds列表当中；

（3）内容分发出口服务通常是一组地域上就近部署在用户附近的接入服务；

（4）在内容数据库入库处依据发布者的账号来源和账号注册资料，通过运营的配置设定账号等级白名单，这个主要是和运营策略密切相关的；

（5）同时给统计接口服务器上报每个账号的发文流水信息，包括发文时间和内容类型，同时也把账号发布的内容标记信息，如分类或标签，选择的封面图，标题作为扩展信息保存在内容数据库当中。

三、内容数据库

（1）内容的核心数据库，所有生产者发布内容的元信息都保存在这个数据库当中，即内容本身的元信息，比如文件大小、封面图链接、码率、文件格式、标题、发布时间、作者、视频文件大小、视频格式、是否原创的标记或者首发等，还包括人工审核过程中对内容的分类（包括一、二、三级别分类和标签信息，例如一篇讲解某手机的文章，一级分类是科技，二级分类是智能手机，三级分类是国内手机，标签信息是XX）；

（2）人工审核过程当中会读取内容数据库当中的信息，同时人工审核的结果和状态也会回传进入内容数据库进行保存，人工审核结果也是后续衡量账号识别模型效率的一个重要依据；

（3）整个业务流程当中内容处理主要包括机器处理和人工审核处理，依据不同的内容标记内容库分为不同的内容池，推荐分发服务器和排重服务器，内容特征建模服务都需要从内容数据库当中获取内容，例如，图文排重服务器会依据业务需求加载过去一段时间（如一周）已经入库启用的内容，对于重复重新入库的内容将加上过滤标记不再提供给内容推荐服务输出到用户，这些重复流水用于识别搬运的重复特征建模；

（4）排重服务和搬运账号识别服务都是机器处理过程，处理的结果保存在内容数据库中。

四、调度中心服务

（1）负责内容流转的整个调度过程，通过上下行内容接口服务接收入库的内容，然后从内容数据库中获取元信息；

（2）调度排重服务器，对重复入库的内容进行标记和过滤，同时把排重流水信息同步给搬运特征挖掘模型（账号识别模型）作为输入；

（3）调度搬运账号识别服务，评估计算每一发文账号的搬运（人工已经标记和认证为原创账号的账号可以豁免不经过这个过程），用于后续的人工审核调度或者分发过程降权或者分成激励等实际应用场景当中；

（4）对于机器无法处理的内容，比如政治敏感，安全问题需要人工审核的，调用人工审核***进行人工审核的处理。

五、人工审核***

（1）需要读取内容数据库中图文内容本身的原始信息，例如一个业务复杂的基于页面（web）数据库开发的***，主要是确保推送的内容符合当地法律和政策允许的访问，如是否涉及色情、赌博、政治敏感的特性进行初步过滤；

（2）审核的内容来自于自媒体平台主动发布和网络爬虫从公共网络上获取的；

（3）审核的结果最后通过调度中心，写入内容数据库当中。

六、排重服务

（1）和调度中心服务通讯主要包括标题排重，封面图的图片排重，内容正文排重及视频指纹和音频指纹排重，通常是将图文内容标题和正文向量化，采用simhash及BERT正文向量，图片向量排重，对于视频内容抽取视频指纹和音频指纹构建向量，然后计算向量之间的距离，如欧式距离来确定是否重复；

（2）和搬运特征模型挖掘模块通讯，提供排重流水原始信息。

七、用户行为及分发统计上报接口

（1）接收内容消费端用户当前网络环境及用户对Feeds中间信息的点击操作行为和Feeds文章的曝光数据的上报；

（2）将上报的统计数据结果写入统计数据库；

（3）接受内容生产入口上报的账号发文原始流水。

八、搬运特征模型挖掘

（1）搬运特征模型也即上述的账号识别模型，对自媒体账号发文的专业性特征，账号发文的平稳性特性和账号相互发文重复性特征进行挖掘；

（2）建模的内容数据通过读取内容数据库当中的内容元数据，统计数据库和排重服务流水信息。

九、搬运账号识别服务

（1）工程化实现上述的搬运特征模型挖掘的特征结果来进行搬运账号服务，核心是实现搬运账号识别的融合和按照规则区分不同的细粒度搬运账号的搬运类型；

（2）与调度中心服务通讯，完成发文账号的搬运识别结果的标记区分及应用策略。

十、统计数据库

（1）接收内容消费端的统计数据上报，为后续的统计分析和挖掘提供数据支撑；

（2）接收内容生产端的发文流水上报结果。

综上，本申请实施例提供的自媒体搬运账号的识别方法具有以下有益效果：

（1）在账号生态建设拓展中，能够筛选出有效的搬运账号线索，提升搬运账号的识别效率；

（2）在无原创账号的情况下，在推荐分发时，对于搬运账号降权分发或者限制分发，乃至取消分发，加速引入原创账号，能够让流量集中在真正的内容创作者上；

（3）原创头部账号的内容尽快完成处理和分发，将搬运账号放在审核调度的末尾或者低质搬运直接禁用，使整个内容生态进入良性的循环，压缩搬运账号的生存空间。

下面继续说明本申请实施例提供的搬运账号的识别装置555的实施为软件模块的示例性结构，在一些实施例中，如图11所示，图11为本申请实施例提供的搬运账号的识别装置的结构示意图，存储在存储器550的搬运账号的识别装置555中的软件模块包括：

第一检测模块5551，用于对基于目标账号发布的媒体信息进行专业度检测，得到所述目标账号的专业性特征；

第二检测模块5552，用于对所述媒体信息进行平稳度检测，得到用于表征所述目标账号进行媒体信息发布的平稳度的平稳性特征；

第三检测模块5553，用于对所述媒体信息进行重复度检测，得到用于表征所述目标账号进行媒体信息发布的重复度的重复性特征；

特征融合模块5554，用于将所述专业性特征、所述平稳性特征及所述重复性特征进行特征融合，得到所述目标账号对应的融合特征；

账号识别模块5555，用于基于所述融合特征，对所述目标账号进行搬运账号识别，得到用于表征所述目标账号是否为搬运账号的识别结果。

在一些实施例中，所述第一检测模块，还用于对所述目标账号进行影响度检测，得到所述目标账号的账号影响度；

在一些实施例中，所述第一检测模块，还用于对所述目标账号进行影响度检测，得到所述目标账号在至少两个自媒体平台的账号等级；

在一些实施例中，所述第一检测模块，还用于对所述媒体信息进行类别检测，得到所述媒体信息的信息类别；

确定自媒体平台中媒体信息的信息总类别；

在一些实施例中，所述第一检测模块，还用于对所述目标账号进行类别检测，得到所述目标账号的账号类别，并对所述媒体信息进行类别检测，得到所述媒体信息的信息类别；

在一些实施例中，所述第一检测模块，还用于分别确定所述账号影响度、所述账号垂直度和所述账号匹配度的权重；

在一些实施例中，当所述目标账号存在对应多个目标时间段内的媒体信息时，所述第二检测模块，还用于分别对所述多个目标时间段内的媒体信息进行平稳度检测，得到基于所述目标账号在各所述目标时间段内进行媒体信息发布的平稳度；

分别获取相邻的目标时间段对应的平稳度之间的差值；

在一些实施例中，所述第二检测模块，还用于分别获取各所述目标时间段内的媒体信息的发布数量、所述发布数量的均值和方差；

在一些实施例中，所述媒体信息包括多个属性信息，所述第三检测模块，用于分别对所述多个属性信息进行重复度检测，得到所述目标账号对应各所述属性信息的属性重复度；

在一些实施例中，所述第三检测模块，还用于分别对每个属性信息执行以下处理：

在一些实施例中，所述装置还包括：

在一些实施例中，所述特征融合模块，还用于通过账号分类模型的特征融合层，对所述专业性特征、所述平稳性特征及所述重复性特征进行特征融合，得到所述目标账号对应的融合特征；

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的搬运账号的识别方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的搬运账号的识别方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，Hyper TextMarkup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种搬运账号的识别方法，其特征在于，所述方法包括：

其中，所述专业性特征用于表征所述目标账号的账号影响度、账号垂直度以及所述目标账号与所述媒体信息的一致性，所述账号影响度用于表征所述目标账号的影响力的大小；

基于所述融合特征，对所述目标账号进行搬运账号识别，得到用于表征所述目标账号是否为搬运账号的识别结果；

其中，当所述目标账号存在对应多个目标时间段内的媒体信息时，所述对所述媒体信息进行平稳度检测，得到用于表征所述目标账号进行媒体信息发布的平稳度的平稳性特征，包括：

分别获取各所述目标时间段内的媒体信息的发布数量、所述发布数量的均值和方差；

基于所述均值和方差、以及相应的所述映射关系，确定基于所述目标账号在各所述目标时间段内进行媒体信息发布的平稳度；

分别获取相邻的目标时间段对应的平稳度之间的差值；

2.如权利要求1所述的方法，其特征在于，所述对基于目标账号发布的媒体信息进行专业度检测，得到所述目标账号的专业性特征，包括：

对所述目标账号进行影响度检测，得到所述目标账号的账号影响度；

3.如权利要求2所述的方法，其特征在于，所述对所述目标账号进行影响度检测，得到所述目标账号的账号影响度，包括：

对所述目标账号进行影响度检测，得到所述目标账号在至少两个自媒体平台的账号等级；

4.如权利要求2所述的方法，其特征在于，所述对所述媒体信息进行垂直度检测，得到用于表征所述目标账号进行媒体信息发布的垂直度的账号垂直度，包括：

对所述媒体信息进行类别检测，得到所述媒体信息的信息类别；

确定自媒体平台中媒体信息的信息总类别；

5.如权利要求2所述的方法，其特征在于，所述对所述媒体信息进行匹配度检测，得到用于表征所述目标账号与所述媒体信息一致性的账号匹配度，包括：

对所述目标账号进行类别检测，得到所述目标账号的账号类别，并对所述媒体信息进行类别检测，得到所述媒体信息的信息类别；

6.如权利要求2所述的方法，其特征在于，所述结合所述账号影响度、所述账号垂直度及所述账号匹配度，确定所述目标账号的专业性特征，包括：

分别确定所述账号影响度、所述账号垂直度和所述账号匹配度的权重；

7.如权利要求1所述的方法，其特征在于，所述媒体信息包括多个属性信息，所述对所述媒体信息进行重复度检测，得到用于表征所述目标账号进行媒体信息发布的重复度的重复性特征，包括：

分别对所述多个属性信息进行重复度检测，得到所述目标账号对应各所述属性信息的属性重复度；

8.如权利要求7所述的方法，其特征在于，所述分别对所述多个属性信息进行重复度检测，得到所述目标账号对应各所述属性信息的属性重复度，包括：

分别对每个属性信息执行以下处理：

9.如权利要求1所述的方法，其特征在于，所述将所述专业性特征、所述平稳性特征及所述重复性特征进行特征融合，得到所述目标账号对应的融合特征，包括：

通过账号分类模型的特征融合层，对所述专业性特征、所述平稳性特征及所述重复性特征进行特征融合，得到所述目标账号对应的融合特征；

相应的，所述基于所述融合特征，对所述目标账号进行搬运账号识别，得到用于表征所述目标账号是否为搬运账号的识别结果，包括：

通过所述账号分类模型的分类预测层，对所述融合特征进行分类预测，得到所述目标账号所属的账号类别。

10.如权利要求1所述的方法，其特征在于，所述方法还包括：

当所述识别结果表征所述目标账号为搬运账号时，确定所述目标账号的搬运类型；

11.一种搬运账号的识别装置，其特征在于，所述装置包括：

账号识别模块，用于基于所述融合特征，对所述目标账号进行搬运账号识别，得到用于表征所述目标账号是否为搬运账号的识别结果；

其中，当所述目标账号存在对应多个目标时间段内的媒体信息时，所述第二检测模块，还用于分别获取各所述目标时间段内的媒体信息的发布数量、所述发布数量的均值和方差；

分别获取相邻的目标时间段对应的平稳度之间的差值；

12.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至10任一项所述的搬运账号的识别方法。

13.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至10任一项所述的搬运账号的识别方法。