CN105824806B - 一种公众账号的质量评价方法和装置 - Google Patents

一种公众账号的质量评价方法和装置 Download PDF

Info

Publication number
CN105824806B
CN105824806B CN201610420186.5A CN201610420186A CN105824806B CN 105824806 B CN105824806 B CN 105824806B CN 201610420186 A CN201610420186 A CN 201610420186A CN 105824806 B CN105824806 B CN 105824806B
Authority
CN
China
Prior art keywords
public
data
account
regression model
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610420186.5A
Other languages
English (en)
Other versions
CN105824806A (zh
Inventor
陈明星
陈谦
万伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610420186.5A priority Critical patent/CN105824806B/zh
Publication of CN105824806A publication Critical patent/CN105824806A/zh
Application granted granted Critical
Publication of CN105824806B publication Critical patent/CN105824806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种公众账号的质量评价方法和装置,用于实现对公众账号的质量做出有效且准确的评价。本发明实施例提供一种公众账号的质量评价方法,包括:获取通过回归算法从样本数据中学***台中的多个公众账号以及所述多个公众账号对应的指标统计数据;将待评价的公众账号输入到所述回归模型中,通过所述回归模型对所述待评价的公众账号进行分数值预测;获取所述回归模型预测后输出的分数值作为所述待评价的公众账号的质量分数。

Description

一种公众账号的质量评价方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种公众账号的质量评价方法和装置。
背景技术
公众平台的最终定位在于为公众服务,用户对公众平台给予很高的期望。公众平台拥有大量的用户,公众平台希望能够不断挖掘自己用户的价值,为这个平台增加更优质的内容,创造更好的粘性,形成一个不一样的生态循环,这是公众平台在发展阶段的更重要方向。在公众平台中各种组织、企业以及个人都可以注册进来,不同的注册使用方都有不同的公众账号,利用公众账号可以在公众平台上进行自媒体活动,简单来说就是进行一对多的媒体行为活动,比如商家通过申请公众平台中的公众账号,可以展示商家的官网、各种活动等,从而形成了线上线下互动的营销方式。
公众账号在公众平台中处于重要的地位,随着公众平台的推出和积累,目前公众账号的数量越来越多,甚至达到数百亿级别,但是各种公众账号的质量参差不齐,比如存在很多的僵尸公众账号、传销公众账号等等。随着公众平台的快速开展,高质量的公众账号在很多场景下均有广泛的需求,但是目前的公众平台中对于公众账号的质量优劣无法做出有效的评价。
发明内容
本发明实施例提供了一种公众账号的质量评价方法和装置,用于实现对公众账号的质量做出有效的评价。
为解决上述技术问题,本发明实施例提供以下技术方案:
第一方面,本发明实施例提供一种公众账号的质量评价方法,包括:
获取通过回归算法从样本数据中学***台中的多个公众账号以及所述多个公众账号对应的指标统计数据;
将待评价的公众账号输入到所述回归模型中,通过所述回归模型对所述待评价的公众账号进行分数值预测;
获取所述回归模型预测后输出的分数值作为所述待评价的公众账号的质量分数。
第二方面,本发明实施例还提供一种公众账号的质量评价装置,包括:
模型获取模块,用于获取通过回归算法从样本数据中学***台中的多个公众账号以及所述多个公众账号对应的指标统计数据;
模型预测模块,用于将待评价的公众账号输入到所述回归模型中,通过所述回归模型对所述待评价的公众账号进行分数值预测;
质量评价模块,用于获取所述回归模型预测后输出的分数值作为所述待评价的公众账号的质量分数。
从以上技术方案可以看出,本发明实施例具有以下优点:
在本发明实施例中,首先获取通过回归算法从样本数据中学***台中的多个公众账号以及多个公众账号对应的指标统计数据,然后将待评价的公众账号输入到回归模型中,通过回归模型对待评价的公众账号进行分数值预测,最后获取回归模型预测后输出的分数值作为待评价的公众账号的质量分数。本发明实施例中可以从公众平台中提取到样本数据来训练得到回归模型,通过回归模型可以对待评价的公众账号进行分数值预测,从而得到待评价的公众账号的质量分数。由于回归模型是通过从公众平台中提取出的样本数据训练得到,样本数据来源于公众平台,公众平台中的公众账号可以通过该回归模型进行质量评价,从而可以实现对公众账号的质量做出有效的评价。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种公众账号的质量评价方法的流程方框示意图;
图2为本发明实施例提供的公众账号的质量评价方法的一种应用场景示意图;
图3-a为本发明实施例提供的一种公众账号的质量评价装置的组成结构示意图;
图3-b为本发明实施例提供的另一种公众账号的质量评价装置的组成结构示意图;
图3-c为本发明实施例提供的一种模型训练模块的组成结构示意图;
图3-d为本发明实施例提供的另一种模型训练模块的组成结构示意图;
图3-e为本发明实施例提供的一种第一模型处理模块的组成结构示意图;
图4为本发明实施例提供的公众账号的质量评价方法应用于服务器的组成结构示意图。
具体实施方式
本发明实施例提供了一种公众账号的质量评价方法和装置,用于实现对公众账号的质量做出有效的评价。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、***、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
以下分别进行详细说明。
本发明公众账号的质量评价方法的一个实施例,具体可以应用于对公众平台中的公众账号进行质量评价,该公众账号可以是社交网站中的账号,也可以是游戏场景中的账号,也可以是支付场景中的账号,此处不做限定。请参阅图1所示,本发明一个实施例提供的公众账号的质量评价方法,可以包括如下步骤:
101、获取通过回归算法从样本数据中学***台中的多个公众账号以及多个公众账号对应的指标统计数据。
在本发明实施例中,首先获取到可用于预测公众账号质量得分的回归模型,本发明实施例采用回归模型来预测公众账号质量得分,该回归模型的实现方式可以有多种,例如,逻辑回归(英文全称:Logist Regression,英文简称:LR)模型,也可以是随机森林回归(英文全称:Random Frorest Regressor,英文简称:RFReg)模型,随机梯度下降(英文全称:Stochastic Gradient Descent Regressor,英文简称:SGD Reg),支持向量回归(英文全称:Support Vector Regression,英文简称:SVR)模型等,具体实现方式不做限定。本发明实施例中回归模型通过回归算法从样本数据中学***台中的多个公众账号以及多个公众账号对应的指标统计数据。在公众平台中记录有多个公众账号,以及每个公众账号产生的指标统计数据,从公众平台中提取到样本数据,通过该样本数据训练出来的回归模型可以用于对公众平台中的公众账号进行质量评价。
在本发明的一些实施例中,步骤101获取通过回归算法从样本数据中学习得到的回归模型之前,本发明实施例提供的公众账号的质量评价方法还可以包括如下步骤:
A1、从公众平台中获取到多个公众账号以及多个公众账号对应的指标统计数据;
A2、以多个公众账号以及多个公众账号对应的指标统计数据作为样本数据,通过回归算法对回归模型进行训练学习,输出学习得到的回归模型。
其中,公众平台中记录有大量的公众账号,可以从这些公众账号中选取部分公众账号用于样本数据,样本数据中除了包括多个公众账号,还包括多个公众账号对应的指标统计数据,公众账号的指标统计数据是指针对多个指标分别从公众平台中收集到的与该公众账号有关的数据。在实际应用中可以根据公众平台中对公众账号设置的具体指标来获取统计数据。获取到样本数据之后,可以使用回归算法对回归模型进行训练学习,输出学习得到的回归模型。其中,可使用的回归算法可以有多种,举例说明如下:可以采用逻辑回归、支持向量回归等回归算法对回归模型进行训练学习,当回归模型的特征数据满足预置的条件要求时可以输出学习得到的回归模型,对于不同的回归模型可以设置相应的条件要求,此处不做限定。
在本发明的一些实施例中,步骤A2以多个公众账号以及多个公众账号对应的指标统计数据作为样本数据,通过回归算法对回归模型进行训练学习,输出学习得到的回归模型,具体可以包括如下步骤:
A20、以多个公众账号以及多个公众账号对应的指标统计数据作为样本数据,通过回归算法分别对多个回归模型进行训练学习,输出学习得到的多个回归模型。
也就是说,本发明实施例中在模型训练阶段可以使用样本数据来训练多个回归模型,则可以输出学习得到的多个回归模型。在这种实现场景下,步骤101获取通过回归算法从样本数据中学习得到的回归模型,具体可以包括如下步骤:
1010、对多个回归模型分别进行预测效果评估,从多个回归模型中选择出评估效果最好的回归模型作为获取到的回归模型。
在执行步骤A20的实现场景下,本发明实施例可以执行步骤1010,对多个回归模型分别进行预测效果评估,从多个回归模型中选择出评估效果最好的回归模型作为获取到的回归模型。其中,可以使用效果评估方法来对多个回归模型分别进行评估,例如可以使用的效果评估方法是最小均方误差(英文全称:Mean squared error,英文简称:MSE),也可以采用平方相关系数(英文名称:Squared Correlation Coefficient),具体此处不做限定。从多个回归模型中选择出的回归模型可以作为后续步骤102中预测评分所用的模型。通过多个回归模型的选择,可以使用评估效果最好的回归模型,从而提高对公众账号的质量评分预测的准确性。
在本发明的一些实施例中,公众账号对应的指标统计数据可以包括:运营指标统计数据、粉丝指标统计数据、文章指标统计数据和互动指标统计数据。其中,运营指标统计数据是指从公众平台针对平台运营所设置的运营指标中收集到的数据,该运营指标可以指的是公众账号的文章原创度、抄袭比例等,运营指标可以根据公众平台的具体实现来配置。粉丝指标统计数据是指公众平台中从公众账号的粉丝指标中收集到的数据,粉丝指标可以指的是公众账号所拥有的粉丝数据,例如粉丝数量、粉丝的等级分布、粉丝的活跃程度等。文章指标统计数据可以指的是从公众平台针对公众账号设置的文章指标收集到的数据,该文章指标可以指的是公众账号的文章发表数据、文章被阅读的数据、文章被转发的数据等。互动指标统计数据可以指的是从公众平台中公众账号和粉丝的互动指标收集到的数据,例如公众账号发送的消息数据、粉丝留言的消息数据等。针对上述描述的运营指标、粉丝指标、文章指标、互动指标分别收集到的数据可以构成公众账号对应的指标统计数据。
在本发明的另一些实施例中,公众账号对应的指标统计数据可以包括:粉丝对公众账号的上行行为指标统计数据、公众账号支付指标统计数据、公众账号对粉丝的下行消息指标统计数据。其中,上行行为指标统计数据指的是从公众平台中粉丝主动执行的行为,例如粉丝发送消息给公众账号,粉丝阅读公众账号发表的文章,粉丝转发公众账号发表的文章等。公众账号支付指标统计数据指的是公众平台中粉丝给公众账号转账的支付数据,下行消息指标统计数据指的是公众平台中公众账号为粉丝回复的消息数据。针对上述描述的上行行为指标、支付指标、下行消息指标分别收集到的数据可以构成公众账号对应的指标统计数据。
需要说明的是,在实际应用中,公众平台中记录的公众账号对应的指标统计数据可以有多种实现方式,具体取决于公众平台对公众账号的具体配置。举例说明如下,在社交应用的公众平台中,可以从公众平台上收集公众账号及其粉丝数据及粉丝对该公众账号的阅读文章、点击菜单、发送消息等指标统计数据、该公众账号发送及接收消息数据、该公众账号发表的文章被阅读或者转发的数据、对应粉丝通过该公众账号进行支付行为的数据等等相关指标等统计数据。
在本发明的一些实施例中,步骤A2以多个公众账号以及多个公众账号对应的指标统计数据作为样本数据,通过回归算法对回归模型进行训练学习,输出学习得到的回归模型,具体可以包括如下步骤:
A21、将样本数据分为两类,得到训练样本数据和测试样本数据,训练样本数据包括:训练公众账号以及训练公众账号对应的指标统计数据,测试样本数据包括:测试公众账号以及测试公众账号对应的指标统计数据,其中,从公众平台获取到的多个公众账号分为两类:训练公众账号和测试公众账号;
A22、使用训练样本数据,通过回归算法对回归模型进行特征工程分析得到回归模型的第一特征数据,根据回归模型的第一特征数据对回归模型进行预测优化后输出训练完成的回归模型;
A23、使用测试样本数据,通过回归算法对训练完成的回归模型进行特征工程分析得到回归模型的第二特征数据,根据回归模型的第二特征数据对回归模型进行评测优化后输出学习得到的回归模型。
其中,在步骤A21中,首先将样本数据分为两类,得到训练样本数据和测试样本数据,训练样本数据是用来训练回归模型的,测试样本数据是回归模型要识别的对象,在实际应用中,可以按照数据比例来划分样本数据,将样本数据分为训练样本数据和测试样本数据,例如,可以将总样本数的70%-75%的样本数据作为训练样本数据,其余的样本数据作为测试样本数据。
对样本数据进行分类后,首先对训练样本数据执行步骤A22,使用训练样本数据,通过回归算法对回归模型进行特征工程分析得到回归模型的第一特征数据,根据回归模型的第一特征数据对回归模型进行预测优化后输出训练完成的回归模型。其中,特征工程是将原始数据转化为特征,更好表示预测模型处理的实际问题,提升对于未知数据的准确性。它是用目标问题所在的公众账号知识或者自动化的方法来生成、提取、删减或者组合变化得到特征。本发明实施例中,对训练样本数据进行特征工程分析之后,可以得到回归模型的第一特征数据,该第一特征数据是通过回归算法对训练样本数据进行分析后的特征向量,然后根据回归模型的第一特征数据对回归模型进行预测优化后输出训练完成的回归模型,具体的预测优化方式可以结合采用的回归算法和回归模型来完成。
进一步的,在本发明的一些实施例中,步骤A22使用训练样本数据,通过回归算法对回归模型进行特征工程分析得到回归模型的第一特征数据,具体可以包括如下步骤:
A221、对训练样本数据中训练公众账号对应的指标统计数据按照特征重要性进行筛选分析,将筛选出来的特征数据写入质量特征列表;
A222、判断质量特征列表中的特征数据在历史时间段内是否发生变化,将质量特征列表中按照稳定性从高到低输出的特征数据作为回归模型的第一特征数据。
其中,在训练回归模型时,可以对训练公众账号对应的指标统计数据按照特征重要性进行筛选分析,按照重要程度可以将筛选出来的特征数据写入质量特征列表中,在质量特征列表中可以包括多个特征数据,然后再对质量特征列表中的特征数据进行稳定性分析,例如可以设置一个历史时间段,从公众平台中观察质量特征列表中的特征数据是否发变化,将质量特征列表中按照稳定性从高到低输出的特征数据作为回归模型的第一特征数据。本发明实施例中通过对收集的特征数据按照重要性分析、稳定性分析等过程进行特征筛选,最后得到的质量特征列表中可以保留对最终分值预测有帮助的特征数据。
在输出通过训练样本数据训练完成的回归模型之后,可以执行步骤A23,用训练完成的回归模型对测试样本数据进行测试。具体的,可以使用测试样本数据,通过回归算法对训练完成的回归模型进行特征工程分析得到回归模型的第二特征数据,根据回归模型的第二特征数据对回归模型进行评测优化后输出学习得到的回归模型。该第二特征数据是通过回归算法对测试样本数据进行分析后的特征向量,然后根据回归模型的第二特征数据对回归模型进行评测优化后输出学习得到的回归模型,,具体的预测优化方式可以结合采用的回归算法和回归模型来完成。
在本发明的一些实施例中,步骤A22使用训练样本数据,通过回归算法对回归模型进行特征工程分析得到回归模型的第一特征数据之前,本发明实施例提供的公众账号的质量评价方法还可以包括如下步骤:
B1、对训练样本数据和测试样本数据分别进行数据标注,得到标注后的训练样本数据和标注后的测试样本数据;
B2、对标注后的训练样本数据和标注后的测试样本数据分别进行数据筛选。
其中,在对样本数据进行分类得到训练样本数据和测试样本数据之后,可以按照训练样本数据和测试样本数据分别进行数据标注,以从训练样本数据和测试样本数据分别标注出数据,然后针对训练样本数据和测试样本数据分别进行数据筛选。举例说明如下,对于标注好的公众账号可以按照0~100分各个分数范围按照相同比例进行筛选,从而可以有效的保证样本均衡,例如共筛选出训练样本数据大约2万条,筛选出测试样本数据大约1万多条。
在本发明的一些实施例中,公众账号可以包括:订阅型公众账号和服务型公众账号。例如,运营主体是组织(比如企业、媒体、公益组织)的,可以申请服务型公众账号,运营主体是组织和个人的可以申请订阅型公众账号。则在数据标注和筛选的过程中可以分别按照订阅型公众账号和服务型公众账号进行数据标注和筛选,从而实现样本数据的均衡。
102、将待评价的公众账号输入到回归模型中,通过回归模型对待评价的公众账号进行分数值预测。
在本发明实施例中,获取到通过回归算法从样本数据中学***台中的多个公众账号,完成训练后的回归模型可以识别出具体的公众账号的质量高低。具体的,将待评价的公众账号输入到回归模型中,则通过该回归模型中的特征数据可以对该评价的公众账号进行分数值预测。其中,待评价的公众账号可以是一个公众账号,也可以指的是多个公众账号,此时可以通过回归模型对多个待评价的公众账号进行分数值预测。
103、获取回归模型预测后输出的分数值作为待评价的公众账号的质量分数。
在本发明实施例中,通过步骤102回归模型对待评价的公众账号进行分数值预测后,可以将回归模型预测后输出的分数值作为待评价的公众账号的质量分数。例如,回归模型预测后输出的分数值的取值区间为从0到100,每个待评价的公众账号通过回归模型预测后输出的分数值按照从高到低进行排序,分数值越高的公众账号代表其质量越高。
通过以上实施例对本发明实施例的描述可知,首先获取通过回归算法从样本数据中学***台中的多个公众账号以及多个公众账号对应的指标统计数据,然后将待评价的公众账号输入到回归模型中,通过回归模型对待评价的公众账号进行分数值预测,最后获取回归模型预测后输出的分数值作为待评价的公众账号的质量分数。本发明实施例中可以从公众平台中提取到样本数据来训练得到回归模型,通过回归模型可以对待评价的公众账号进行分数值预测,从而得到待评价的公众账号的质量分数。由于回归模型是通过从公众平台中提取出的样本数据训练得到,样本数据来源于公众平台,公众平台中的公众账号可以通过该回归模型进行质量评价,从而可以实现对公众账号的质量做出有效的评价。
为便于更好的理解和实施本发明实施例的上述方案,下面举例相应的应用场景来进行具体说明。
随着公众账号平台的商业化进程的开展,具有优质文章质量、高活跃粉丝等等特征的高质量公众账号在很多业务比如像广告投放、商业营销、征信业务等等均有需求并使用到,而高质量的公众账号更能达到事倍功半的效果,因此高质量的公众账号挖掘迫在眉急,本发明实施例中可以将公众账号的质量打通过回归模型来实现,并通过公众平台上的一些指标统计数据(比如每周发布文章数、文章被阅读比例、活跃粉丝等等)进行再加工处理汇总成各个纬度的特征数据,并利用机器学***台上收集公众账号及其粉丝数据及粉丝对该公众账号的阅读文章、点击菜单、发送消息、该公众账号发送及接收消息数据、该公众账号发表的文章被阅读或者转发的数据、对应粉丝通过该公众账号进行支付行为的数据等等相关运营指标等统计数据。
请参阅图2所示,为本发明实施例提供的公众账号的质量评价方法的一种应用场景示意图。本发明实施例中可以将公众账号的质量评分问题通过机器学***台标注出的数据,利用回归算法如逻辑回归、支持向量回归等等首先训练出回归模型,最终实现对每个公众账号进行分数预测打分,分数值范围可以为[0,100],其中,分数值越高越好代表该公众账号的质量越好越优质,其中0分为最差,100分为最好。整个回归模型框架如图2所示,可以分为:前期公众账号数据准备分析、训练样本数据和测试样本数据的标注以及筛选、特征工程分析、模型预测及评测优化、结果预测等几个步骤。其中,机器学习中需要对收集的特征进行按照重要性分析、稳定性分析等过程进行特征筛选,从而得到对最终结果有帮助的特征。
如图2所示,在本发明实施例提供的公众账号的质量挖掘框架中,训练样本数据首先对回归模型进行人工特征工程分析,从而完成对回归模型的训练,测试样本数据也对回归模型进行人工特征工程分析,从而完成对回归模型的评测,接下来再对该回归模型进行迭代优化,从而确定出回归模型的特征数据。该回归模型可以用于对待评价的公众账号进行分数值预测,然后输出预测结果。
在本发明实施例中,样本数据可以从公众平台中来选择,回归模型的特征数据通过对指标统计数据进行筛选后得到。例如,图2中用到的基础特征数据来自公众账号的底层一些统计数据,主要有粉丝与公众账号的上行行为数据、公众账号支付数据、公众账号给粉丝的下行消息数据等三大类数据。其中,公众账号支付数据是指粉丝给该公众账号支付的数据。具体的,指标统计数据可以包括公众账号相关数据,以及相关的属性信息,主要有公众账号粉丝情况、公众账号与粉丝上行消息数据、公众账号支付数据、公众账号与粉丝下行消息、公众账号接口数据等等,其中公众账号接口数据指的是在公众账号里面打开的一些外面链接数据。为增加模型的可信度及鲁棒性,在模型训练的时候,同时考虑过去一段时间内各类特征的相关统计数值。
在本发明实施例中,还可以按照订阅型公众账号和服务型公众账号分别进行数据标注以及模型训练,例如,对于标注好的公众账号可以按照0~100分各个分数范围按照相同比例进行刷选,这样保证样本均衡问题,共筛选出训练样本数据大约2万条,测试样本数据大约1万多条。
需要说明的是,在本发明实施例中,可以使用的回归模型有多种,例如LR模型,也可以是RFReg模型,SGD Reg模型,SVR模型等,不限定的是,本发明实施例中采用的回归模型还可以是其它可用的模型,比如决策树及其变体、神经网络、深度学习等等模型。本发明实施例中提到特征数据的替换,还可以改用文本、文章等等公众账号其它可涉及的数据指标等等。本发明实施例中可以使用机器学习模型,还可以替换成一些人工经验对一些相关指标,比如从运营指标、粉丝指标、文章指标和互动指标这四个大出发分别计算相关统计指标,然后进行加权组合算出最终的分数值来表示这个公众账号的质量分的方案。另外,本发明实施例中标注数据除了图2所示的人工进行标注之外,还可以利用主动学习(英文全称:active learning)方法进行逐步标注。例如,每次人工标注少量样本,然后回归模型利用人工标注的样本进行扩学习更多的样本,人工再对模型标注的样本进行确认,整个过程不断持续,直到标注样本达到足够数量。
通过前述对本发明的举例说明可知,本发明实施例中利用回归算法对公众账号的指标进行重要性筛选,并结合过去一段时间内的这些指标值的变化情况,汇总成公众账号的质量特征列表,然后利用回归模型进行训练和预测,因此更具有鲁棒性和稳定性。本发明实施例产出的高质量的公众账号有着广泛的应用场景,比如像广告投放、商业营销活动、征信业务等等,通常情况下,20%的高质量公众账号能够覆盖80%的用户群体,因此能够在这些应用场景中往往能达到事倍功半的效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
为便于更好的实施本发明实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图3-a所示,本发明实施例提供的一种公众账号的质量评价装置300,可以包括:模型获取模块301、模型预测模块302和质量评价模块303,其中,
模型获取模块301,用于获取通过回归算法从样本数据中学***台中的多个公众账号以及所述多个公众账号对应的指标统计数据;
模型预测模块302,用于将待评价的公众账号输入到所述回归模型中,通过所述回归模型对所述待评价的公众账号进行分数值预测;
质量评价模块303,用于获取所述回归模型预测后输出的分数值作为所述待评价的公众账号的质量分数。
在本发明的一些实施例中,请参阅图3-b所示,所述公众账号的质量评价装置300,还包括:数据获取模块304和模型训练模块305,其中,
所述数据获取模块304,用于所述模型获取模块301获取通过回归算法从样本数据中学***台中获取到多个公众账号以及所述多个公众账号对应的指标统计数据;
所述模型训练模块305,用于以所述多个公众账号以及所述多个公众账号对应的指标统计数据作为样本数据,通过回归算法对回归模型进行训练学习,输出学习得到的回归模型。
在本发明的一些实施例中,请参阅图3-c所示,所述模型训练模块305,包括:
数据分类模块3051,用于将样本数据分为两类,得到训练样本数据和测试样本数据,所述训练样本数据包括:训练公众账号以及所述训练公众账号对应的指标统计数据,所述测试样本数据包括:测试公众账号以及所述测试公众账号对应的指标统计数据,其中,从公众平台获取到的所述多个公众账号分为两类:所述训练公众账号和所述测试公众账号;
第一模型处理模块3052,用于使用所述训练样本数据,通过回归算法对所述回归模型进行特征工程分析得到回归模型的第一特征数据,根据所述回归模型的第一特征数据对所述回归模型进行预测优化后输出训练完成的回归模型;
第二模型处理模块3053,用于使用所述测试样本数据,通过所述回归算法对所述训练完成的回归模型进行特征工程分析得到回归模型的第二特征数据,根据所述回归模型的第二特征数据对所述回归模型进行评测优化后输出学习得到的回归模型。
在本发明的一些实施例中,请参阅图3-d所示,相对于图3-c所示,所述模型训练模块300,还包括:数据标注模块3054和数据筛选模块3055,其中,
所述数据标注模块3054,用于所述第一模型处理模块3052使用所述训练样本数据,通过回归算法对所述回归模型进行特征工程分析得到回归模型的第一特征数据之前,对所述训练样本数据和所述测试样本数据分别进行数据标注,得到标注后的训练样本数据和标注后的测试样本数据;
所述数据筛选模块3055,用于对所述标注后的训练样本数据和所述标注后的测试样本数据分别进行数据筛选。
在本发明的一些实施例中,请参阅图3-e所示,所述第一模型处理模块3052,包括:
重要性分析模块30521,用于对所述训练样本数据中所述训练公众账号对应的指标统计数据按照特征重要性进行筛选分析,将筛选出来的特征数据写入质量特征列表;
稳定性分析模块30522,用于判断所述质量特征列表中的特征数据在历史时间段内是否发生变化,将所述质量特征列表中按照稳定性从高到低输出的特征数据作为所述回归模型的第一特征数据。
在本发明的一些实施例中,所述模型训练模块305,具体用于以所述多个公众账号以及所述多个公众账号对应的指标统计数据作为样本数据,通过回归算法分别对多个回归模型进行训练学习,输出学习得到的多个回归模型;
所述模型获取模块301,具体用于对所述多个回归模型分别进行预测效果评估,从所述多个回归模型中选择出评估效果最好的回归模型作为获取到的回归模型。
在本发明的一些实施例中,所述指标统计数据,包括:运营指标统计数据、粉丝指标统计数据、文章指标统计数据和互动指标统计数据。
在本发明的一些实施例中,所述指标统计数据,包括:粉丝对公众账号的上行行为指标统计数据、公众账号支付指标统计数据、公众账号对粉丝的下行消息指标统计数据。
通过以上实施例对本发明实施例的描述可知,首先获取通过回归算法从样本数据中学***台中的多个公众账号以及多个公众账号对应的指标统计数据,然后将待评价的公众账号输入到回归模型中,通过回归模型对待评价的公众账号进行分数值预测,最后获取回归模型预测后输出的分数值作为待评价的公众账号的质量分数。本发明实施例中可以从公众平台中提取到样本数据来训练得到回归模型,通过回归模型可以对待评价的公众账号进行分数值预测,从而得到待评价的公众账号的质量分数。由于回归模型是通过从公众平台中提取出的样本数据训练得到,样本数据来源于公众平台,公众平台中的公众账号可以通过该回归模型进行质量评价,从而可以实现对公众账号的质量做出有效的评价。
图4是本发明实施例提供的一种服务器结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processingunits,CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作***1141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的公众账号的质量评价方法步骤可以基于该图4所示的服务器结构。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种公众账号的质量评价方法,其特征在于,包括:
从公众平台中获取到多个公众账号以及所述多个公众账号对应的指标统计数据;
将样本数据分为两类,得到训练样本数据和测试样本数据,所述训练样本数据包括:训练公众账号以及所述训练公众账号对应的指标统计数据,所述测试样本数据包括:测试公众账号以及所述测试公众账号对应的指标统计数据,其中,从公众平台获取到的所述多个公众账号分为两类:所述训练公众账号和所述测试公众账号;其中,所述指标统计数据,包括:运营指标统计数据、粉丝指标统计数据、文章指标统计数据和互动指标统计数据;或,所述指标统计数据,包括:粉丝对公众账号的上行行为指标统计数据、公众账号支付指标统计数据、公众账号对粉丝的下行消息指标统计数据;
对所述训练样本数据中所述训练公众账号对应的指标统计数据按照特征重要性进行筛选分析,将筛选出来的特征数据写入质量特征列表,判断所述质量特征列表中的特征数据在历史时间段内是否发生变化,将所述质量特征列表中按照稳定性从高到低输出的特征数据作为所述回归模型的第一特征数据;根据所述回归模型的第一特征数据对所述回归模型进行预测优化后输出训练完成的回归模型;
使用所述测试样本数据,通过所述回归算法对所述训练完成的回归模型进行特征工程分析得到回归模型的第二特征数据,根据所述回归模型的第二特征数据对所述回归模型进行评测优化后输出学习得到的回归模型;
获取通过回归算法从样本数据中学***台中的多个公众账号以及所述多个公众账号对应的指标统计数据;
将待评价的公众账号输入到所述回归模型中,通过所述回归模型对所述待评价的公众账号进行分数值预测;
获取所述回归模型预测后输出的分数值作为所述待评价的公众账号的质量分数。
2.根据权利要求1所述的方法,其特征在于,所述使用所述训练样本数据,通过回归算法对所述回归模型进行特征工程分析得到回归模型的第一特征数据之前,所述方法还包括:
对所述训练样本数据和所述测试样本数据分别进行数据标注,得到标注后的训练样本数据和标注后的测试样本数据;
对所述标注后的训练样本数据和所述标注后的测试样本数据分别进行数据筛选。
3.根据权利要求1所述的方法,其特征在于,所述以所述多个公众账号以及所述多个公众账号对应的指标统计数据作为样本数据,通过回归算法对回归模型进行训练学习,输出学习得到的回归模型,包括:
以所述多个公众账号以及所述多个公众账号对应的指标统计数据作为样本数据,通过回归算法分别对多个回归模型进行训练学习,输出学习得到的多个回归模型;
所述获取通过回归算法从样本数据中学习得到的回归模型,包括:
对所述多个回归模型分别进行预测效果评估,从所述多个回归模型中选择出评估效果最好的回归模型作为获取到的回归模型。
4.一种公众账号的质量评价装置,其特征在于,包括:
数据获取模块,用于模型获取模块获取通过回归算法从样本数据中学***台中获取到多个公众账号以及所述多个公众账号对应的指标统计数据;
数据分类模块,用于将样本数据分为两类,得到训练样本数据和测试样本数据,所述训练样本数据包括:训练公众账号以及所述训练公众账号对应的指标统计数据,所述测试样本数据包括:测试公众账号以及所述测试公众账号对应的指标统计数据,其中,从公众平台获取到的所述多个公众账号分为两类:所述训练公众账号和所述测试公众账号;其中,所述指标统计数据,包括:运营指标统计数据、粉丝指标统计数据、文章指标统计数据和互动指标统计数据;或,所述指标统计数据,包括:粉丝对公众账号的上行行为指标统计数据、公众账号支付指标统计数据、公众账号对粉丝的下行消息指标统计数据;
第一模型处理模块,用于使用所述训练样本数据,通过回归算法对所述回归模型进行特征工程分析得到回归模型的第一特征数据,根据所述回归模型的第一特征数据对所述回归模型进行预测优化后输出训练完成的回归模型;所述第一模型处理模块,包括:重要性分析模块,用于对所述训练样本数据中所述训练公众账号对应的指标统计数据按照特征重要性进行筛选分析,将筛选出来的特征数据写入质量特征列表;稳定性分析模块,用于判断所述质量特征列表中的特征数据在历史时间段内是否发生变化,将所述质量特征列表中按照稳定性从高到低输出的特征数据作为所述回归模型的第一特征数据;
第二模型处理模块,用于使用所述测试样本数据,通过所述回归算法对所述训练完成的回归模型进行特征工程分析得到回归模型的第二特征数据,根据所述回归模型的第二特征数据对所述回归模型进行评测优化后输出学***台中的多个公众账号以及所述多个公众账号对应的指标统计数据;
模型预测模块,用于将待评价的公众账号输入到所述回归模型中,通过所述回归模型对所述待评价的公众账号进行分数值预测;
质量评价模块,用于获取所述回归模型预测后输出的分数值作为所述待评价的公众账号的质量分数。
5.根据权利要求4所述的装置,其特征在于,所述模型训练模块,还包括:数据标注模块和数据筛选模块,其中,
所述数据标注模块,用于所述第一模型处理模块使用所述训练样本数据,通过回归算法对所述回归模型进行特征工程分析得到回归模型的第一特征数据之前,对所述训练样本数据和所述测试样本数据分别进行数据标注,得到标注后的训练样本数据和标注后的测试样本数据;
所述数据筛选模块,用于对所述标注后的训练样本数据和所述标注后的测试样本数据分别进行数据筛选。
6.根据权利要求4所述的装置,其特征在于,所述模型训练模块,具体用于以所述多个公众账号以及所述多个公众账号对应的指标统计数据作为样本数据,通过回归算法分别对多个回归模型进行训练学习,输出学习得到的多个回归模型;
所述模型获取模块,具体用于对所述多个回归模型分别进行预测效果评估,从所述多个回归模型中选择出评估效果最好的回归模型作为获取到的回归模型。
CN201610420186.5A 2016-06-13 2016-06-13 一种公众账号的质量评价方法和装置 Active CN105824806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610420186.5A CN105824806B (zh) 2016-06-13 2016-06-13 一种公众账号的质量评价方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610420186.5A CN105824806B (zh) 2016-06-13 2016-06-13 一种公众账号的质量评价方法和装置

Publications (2)

Publication Number Publication Date
CN105824806A CN105824806A (zh) 2016-08-03
CN105824806B true CN105824806B (zh) 2018-10-23

Family

ID=56532199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610420186.5A Active CN105824806B (zh) 2016-06-13 2016-06-13 一种公众账号的质量评价方法和装置

Country Status (1)

Country Link
CN (1) CN105824806B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106657016A (zh) * 2016-11-10 2017-05-10 北京奇艺世纪科技有限公司 一种非法用户名的识别方法和***
CN108416684B (zh) * 2017-02-10 2021-09-07 腾讯科技(深圳)有限公司 一种账号主体的可信程度评估方法、装置及服务器
CN107845408B (zh) * 2017-10-25 2020-10-27 医渡云(北京)技术有限公司 数据评价方法及装置、存储介质及电子设备
CN108829750A (zh) * 2018-05-24 2018-11-16 国信优易数据有限公司 一种数据质量确定***以及方法
CN108920617B (zh) * 2018-06-28 2022-07-12 中译语通科技股份有限公司 一种数据采集的判定***及方法、信息数据处理终端
CN110570025A (zh) * 2019-08-20 2019-12-13 精硕科技(北京)股份有限公司 一种微信文章真实阅读率的预测方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571934A (zh) * 2009-05-26 2009-11-04 北京航空航天大学 一种基于支持向量机的企业自主创新能力预测方法
CN102945279A (zh) * 2012-11-14 2013-02-27 清华大学 微博用户影响力的评估方法及装置
CN103761266A (zh) * 2014-01-02 2014-04-30 北京集奥聚合网络技术有限公司 基于多级逻辑回归的点击率预测方法和***
CN104915397A (zh) * 2015-05-28 2015-09-16 国家计算机网络与信息安全管理中心 一种微博传播趋势预测方法及装置
CN105224608A (zh) * 2015-09-06 2016-01-06 华南理工大学 基于微博数据分析的热点新闻预测方法及***
CN105512245A (zh) * 2015-11-30 2016-04-20 青岛智能产业技术研究院 一种基于回归模型建立企业画像的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571934A (zh) * 2009-05-26 2009-11-04 北京航空航天大学 一种基于支持向量机的企业自主创新能力预测方法
CN102945279A (zh) * 2012-11-14 2013-02-27 清华大学 微博用户影响力的评估方法及装置
CN103761266A (zh) * 2014-01-02 2014-04-30 北京集奥聚合网络技术有限公司 基于多级逻辑回归的点击率预测方法和***
CN104915397A (zh) * 2015-05-28 2015-09-16 国家计算机网络与信息安全管理中心 一种微博传播趋势预测方法及装置
CN105224608A (zh) * 2015-09-06 2016-01-06 华南理工大学 基于微博数据分析的热点新闻预测方法及***
CN105512245A (zh) * 2015-11-30 2016-04-20 青岛智能产业技术研究院 一种基于回归模型建立企业画像的方法

Also Published As

Publication number Publication date
CN105824806A (zh) 2016-08-03

Similar Documents

Publication Publication Date Title
CN105824806B (zh) 一种公众账号的质量评价方法和装置
Nabizadeh et al. Adaptive learning path recommender approach using auxiliary learning objects
US11521221B2 (en) Predictive modeling with entity representations computed from neural network models simultaneously trained on multiple tasks
Garber et al. From density to destiny: Using spatial dimension of sales data for early prediction of new product success
CN109902708A (zh) 一种推荐模型训练方法及相关装置
CN108804704A (zh) 一种用户深度画像方法及装置
CN110427560A (zh) 一种应用于推荐***的模型训练方法以及相关装置
US11086754B2 (en) Automated feedback-based application optimization
JP2018077821A (ja) ユーザによって訪問される施設のカテゴリの予測モデルを生成する方法、プログラム、サーバ装置、及び処理装置
Ameli Heuristic methods for calculating dynamic traffic assignment
CN112070310A (zh) 基于人工智能的流失用户预测方法、装置及电子设备
CN110503447A (zh) 用于确定商品销量预测值的方法及装置
CN108629358A (zh) 对象类别的预测方法及装置
CN110245080A (zh) 生成场景测试用例的方法及装置
CN109656541A (zh) 开发资源的推荐方法、装置、存储介质和电子设备
CN107808346A (zh) 一种潜在目标对象的评估方法及评估装置
CN109189922B (zh) 评论评估模型的训练方法和装置
Al-Sharafi et al. Cloud computing adoption in higher education: an integrated theoretical model
Sundsøy et al. Towards real-time prediction of unemployment and profession
Farmer et al. Habitat models for land-use planning: assumptions and strategies for development
CN110263250A (zh) 一种推荐模型的生成方法及装置
Colbaugh et al. Emerging topic detection for business intelligence via predictive analysis of'meme'dynamics
Nurhidayat et al. Analysis and Classification of Customer Churn Using Machine Learning Models
CN113128739B (zh) 用户触达时间的预测方法、预测模型训练方法及相关装置
CN108132883A (zh) 一种软件测试数据分析方法、装置、***及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant