CN108876098A - 确定用户质量的方法及装置 - Google Patents
确定用户质量的方法及装置 Download PDFInfo
- Publication number
- CN108876098A CN108876098A CN201810402323.1A CN201810402323A CN108876098A CN 108876098 A CN108876098 A CN 108876098A CN 201810402323 A CN201810402323 A CN 201810402323A CN 108876098 A CN108876098 A CN 108876098A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- quality
- users
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013441 quality evaluation Methods 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000012552 review Methods 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 16
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims description 12
- 244000046052 Phaseolus vulgaris Species 0.000 claims description 12
- 238000000513 principal component analysis Methods 0.000 description 19
- 210000003813 thumb Anatomy 0.000 description 15
- 241001269238 Data Species 0.000 description 12
- 238000009825 accumulation Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种确定用户质量的方法及装置,涉及互联网技术领域。所述方法包括:获取多个用户的质量评价特征,所述质量评价特征包括用户特征和归属于各用户的节目数据的数据特征中的至少一种,根据所述质量评价特征,对所述多个用户进行聚类处理,根据聚类结果确定所述多个用户的用户质量数据。本发明能够提高确定用户质量数据的准确性和效率。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种确定用户质量的方法及装置。
背景技术
随着互联网技术的发展,网络已经能够为用户提供越来越多得到便利。通常用户可以向服务器上传数据,从而向其它用户分享数据,如果该用户的用户质量较低,则该用户所上传数据的质量也可能会较低,从而对其它用户及网络环境造成不良影响。
现有技术中,可以事先获取大量的用户作为样本用户,由标注人员按照标注标准对样本用户进行标注,然后按照标注后的样本用户对机器学习模型进行训练,采用训练的模型确定其他用户的用户质量。但由于不同应用场景中对用户质量也有不同的需求,而对样本用户进行标注的标注标准往往难以切合确定用户质量的实际需求,从而导致难以采用训练的模型准确地确定用户质量数据,同时大量的标注操作还会导致确定用户质量的效率低下。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的确定用户质量的方法及装置。
依据本发明的一个方面,提供了一种确定用户质量的方法,包括:
获取多个用户的质量评价特征,所述质量评价特征包括用户特征和归属于各用户的节目数据的数据特征中的至少一种;
根据所述质量评价特征,对所述多个用户进行聚类处理;
根据聚类结果确定所述多个用户的用户质量数据。
可选的,所述节目数据包括多媒体数据,所述数据特征包括播放完整度、平均粉丝数目、平均点赞数目、平均评论数目、平均播放次数、平均清晰度和平均评论情感分析数据中的至少一个。
可选的,所述根据所述质量评价特征,对所述多个用户进行聚类处理包括:
对所述质量评价特征进行PCA(principal components analysis,主成分分析)变换;
根据PCA变换后的质量评价特征,对所述多个用户进行聚类处理。
可选的,所述根据聚类结果确定所述多个用户的用户质量数据包括:
从聚类中抽取至少一个用户作为样本用户;
接收提交的针对所述样本用户的用户质量数据;
将所述样本用户的用户质量数据作为所述聚类中各用户的用户质量数据。
可选的,所述多个用户中包括样本用户,所述根据聚类结果确定所述多个用户的用户质量数据包括:
确定聚类中包括所述样本用户;
将所述样本用户的用户质量数据作为所述聚类中各用户的用户质量数据。
可选的,在所述根据聚类结果确定所述多个用户的用户质量数据之后,所述方法还包括:
按照所述多个用户的用户质量数据,确定提供所述节目数据的次序;
按照所述次序提供所述节目数据。
根据本发明的另一方面,提供了一种确定用户质量的装置,包括:
获取模块,用于获取多个用户的质量评价特征,所述质量评价特征包括用户特征和归属于各用户的节目数据的数据特征中的至少一种;
聚类模块,用于根据所述质量评价特征,对所述多个用户进行聚类处理;
第一确定模块,用于根据聚类结果确定所述多个用户的用户质量数据。
可选的,所述节目数据包括多媒体数据,所述数据特征包括播放完整度、平均粉丝数目、平均点赞数目、平均评论数目、平均播放次数、平均清晰度和平均评论情感分析数据中的至少一个。
可选的,所述聚类模块包括:
变换子模块,用于对所述质量评价特征进行PCA变换;
聚类子模块,用于根据PCA变换后的质量评价特征,对所述多个用户进行聚类处理。
可选的,所述第一确定模块包括:
抽取子模块,用于从聚类中抽取至少一个用户作为样本用户;
接收子模块,用于接收提交的针对所述样本用户的用户质量数据;
第一确定子模块,用于将所述样本用户的用户质量数据作为所述聚类中各用户的用户质量数据。
可选的,所述多个用户中包括样本用户,所述第一确定模块包括:
第二确定子模块,用于确定聚类中包括所述样本用户;
第三确定子模块,用于将所述样本用户的用户质量数据作为所述聚类中各用户的用户质量数据。
可选的,所述装置还包括:
第二确定模块,用于按照所述多个用户的用户质量数据,确定提供所述节目数据的次序;
提供模块,用于按照所述次序提供所述节目数据。
在本发明实施例中,能够获取用户特征和/或归属于各用户的节目数据的数据特征作为质量评价特征,根据质量评价特征对多个用户进行聚类处理,进而基于聚类结果确定该多个用户的用户质量数据。由于不需要事先按照标注标准对大量的样本用户进行标注,所以减少了因大量标注所导致的效率低下的问题,也减少了由于标注标准难以符合实际需求所导致的准确性递较低的问题,也即是,提高了确定用户质量数据的准确性和效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是根据本发明实施例一的一种确定用户质量的方法的步骤流程图;
图2是根据本发明实施例二的一种确定用户质量的方法的步骤流程图;
图3是根据本发明实施例二的另一种确定用户质量的方法的步骤流程图;
图4是根据本发明实施例三的一种确定用户质量的装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
参照图1,示出了本发明实施例中的一种确定用户质量的方法的步骤流程图。具体步骤包括:
步骤101,获取多个用户的质量评价特征,所述质量评价特征包括用户特征和归属于各用户的节目数据的数据特征中的至少一种。
由于不同用户所受教育水平、所处环境以及社会经历等多方面因素均可能不同,所以不同用户的质量也会有所差异,而用户质量可能会直接影响到该用户向服务器所上传的数据的质量,进而影响到该数据所在网络环境以及获取该数据的其它用户的,因此,为了便于后续确定用户的用户质量,以便于对用户或用户所上传的数据进行管控,优化网络环境,可以获取用户的用户特征和/或归属于该用户的节目数据的数据特征,以作为该用户的质量评价特征。
其中,服务器可以包括提供C2C(Customer to Customer)类型的提供节目数据的服务器。用户可以在该服务器中注册,并向该服务器上传节目数据,该节目数据能够被其它用户获取得到。当然,在另一些应用场景中,该服务器也可能只获取上传的节目数据,而不向其它用户提供该节目数据。
节目数据可以包括多媒体数据,比如音频或视频;当然,也可以包括其它类型的数据,比如小说等文本数据、计算机程序代码或网页等。
其中,归属于用户的节目数据,可以为该用户上传的节目数据。
质量评价特征为用于确定用户质量的特征,该质量评价特征可以包括用户特征和归属于该用户的节目数据的数据特征中的至少一种。当质量评价特征包括的特征越多,越能够全面地对用户质量进行评价,越能够提高后续确定用户质量数据的准确性。
用户特征即为用户所体具有的特征,比如注册时长、上传节目数据的频率、上传节目数据的数目或粉丝数目。当然,在实际应用中,用户特征还可以包括其它特征,比如年龄、学历或国籍等。
注册时长为用户在服务器中注册时刻至当前时刻的时长。注册时长越长,则说明该用户为忠实用户的可能性越高,相应的,该用户得到用户质量也就越高。
另外,用户上传节目数据的频率的越高、上传节目数据的数目越多、粉丝数越多,则该用户的用户质量越高。
可以对用户的注册事件、上传节目数据事件、关注或取消关注事件等用户事件进行检测,从而确定用户的用户特征。当然,在实际应用中,对于年龄、学历或国籍等可以直接由用户提交得到的用户特征,还可以向用户提供用户特征提交入口,通过该用户特征提交入口接收提交的用户特征。
用户事件为对用户操作进行记录得到的事件。比如,用户注册事件即为记录用户进行注册的事件,其中可以包括用户注册的时刻等信息;上传节目数据事件即为记录用户向服务器上传数据的事件,其中可以包括上传数据的时刻和所上传的节目数据。
数据特征为节目数据所具有的特征,比如数据大小、播放时长、播放次数或点赞数目。当然,在实际应用中,数据特征还可以包括其它特征。
当数据大小越大、播放时长越长、播放次数越多、点赞次数越多,说明归属于该用户的节目数据质量越高,相应的,该用户的用户质量也越高。
其中,对应于用户的数据特征,可以为归属于该用户的多个节目数据的数据特征之和,或者,为归属于该用户的多个节目数据的数据特征的均值。
例如,归属于用户1的节目数据包括节目数据1、节目数据2和节目数据3。其中,节目数据1的播放时长为1分钟、播放次数为1000、点赞数目为1000;节目数据2的播放时长为60分钟、播放次数为12000、点赞数目为10000;节目数据3的播放时长为139分钟、播放次数为2000、点赞数目为1000。因此,若对应于用户的数据特征为归属于该用户的多个节目数据的数据特征之和,则对应于用户1的数据特征为节目数据1、节目数据2和节目数据3的数据特征之和,包括播放时长为200分钟、播放次数为15000、点赞数目为12000;若对应于用户的数据特征为归属于该用户的多个节目数据的数据特征的均值,则对应于用户1的数据特征为节目数据1、节目数据2和节目数据3的数据特征的均值,包括播放时长为67分钟、播放次数为5000、点赞数目为4000。
可以对针对该节目数据的用户事件进行统计,从而得到该节目数据的数据特征,比如,可以将针对该节目数据的播放事件的数目,确定为该节目数据的播放次数;将针对该节目数据的点赞事件的数目,确定为该节目数据的点赞数。当然,在实际应用中对于数据大小或播放时长等数据特征,还可以直接对节目数据进行检测或者接收上传该节目数据的用户提交得到。
步骤102,根据所述质量评价特征,对所述多个用户进行聚类处理。
由于聚类处理能够将包括多个对象的集合分成由类似的对象组成的聚类,无论在何种应用场景中,均能够将用质量评价特征相似的用户划分至同一聚类,同一聚类中用户的质量评价数据即可以是相同的,所以为了便于后续根据聚类结果确定各用户的质量评价数据,减少在采用机器学习模型确定用户质量数据时,由于难以准确制定符合实际需求的标注标准而导致的准确性较低的问题、以及由于大量标注操作而导致的效率低下的问题,即提高确定用户质量的准确性和效率,可以根据质量评价特征对多个用户聚类处理。
聚类处理可以包括K-means(K均值)聚类、层次聚类、GMM(Gaussian MixtureModel,混合高斯模型)聚类或谱聚类,聚类处理所得到的聚类结果中可以包括至少一个聚类。其中,K-means聚类能够随机地选择预设数目(比如k个)对象,每个对象初始地代表了一个类的平均值或中心,即选择k个初始质心;对剩余的每个对象,根据其与各类中心的距离,将它赋给最近的类;然后重新计算每个类的平均值。这个过程不断重复,直到准则函数收敛,质心不发生明显的变化。K-means聚类的原理简单,易于实现,时间复杂度低,能够提高聚类的效率。层次聚类算法能够先计算对象之间的距离,每次将距离最近的对象合并至一个类,然后计算类与类之间的距离,将距离最近的类合并为一个大类,直至不存在合并条件的类。层次聚类算法不需要事先设定聚类的数目,聚类规则容易定义。GMM聚类是概率式的聚类方法,假设所有对象都是有某个给定参数的多元高斯分布所生成,基于给定的聚类个数K,使用EM(Expectation Maximization,期望最大化)算法求解,最终得到聚类结果。谱聚类能够将每个对象作为图中的顶点V,将顶点之间的相似度量化作为顶点间连接边E的权值,从而得到基于相似度的无向加权图G(V,E),从而将聚类转化为图的划分,然后基于图论的最优划分准则,使划分成的子图内部相似度最大、子图之间相速度最小,从而完成聚类。当然,在实际应用中,也可以通过其它的聚类方式对多个用户进行聚类处理。
用户质量数据为说明用户质量的数据,该用户质量数据可以通过数值、字母或符号来表示。
步骤103,根据聚类结果确定所述多个用户的用户质量数据。
由于同一聚类所包括的用户的用户质量数据可以相同,因此对于聚类结果中的各聚类,可以将该聚类中任一用户的用户质量数据,作为该聚类中所有用户的用户质量数据。
聚类结果中可以包括至少一个聚类,各聚类中可以包括至少一个用户。
可以将聚类结果提供给相关技术人员,对于聚类结果中各聚类,接收相关技术人员针对任一用户提交的用户质量数据,并将该用户质量数据作为该聚类中所有用户的用户质量数据。
在本发明实施例中,能够获取用户特征和/或归属于各用户的节目数据的数据特征作为质量评价特征,根据质量评价特征对多个用户进行聚类处理,进而基于聚类结果确定该多个用户的用户质量数据。由于不需要事先按照标注标准对大量的样本用户进行标注,所以减少了因大量标注所导致的效率低下的问题,也减少了由于标注标准难以符合实际需求所导致的准确性递较低的问题,也即是,提高了确定用户质量数据的准确性和效率。
实施例二
参照图2,示出了本发明实施例中的一种确定用户质量的方法的步骤流程图。具体步骤包括:
步骤201,获取多个用户的质量评价特征,所述质量评价特征包括用户特征和归属于各用户的节目数据的数据特征中的至少一种。
其中,获取多个用户的质量评价特征的方式,可以参见前述中的相关描述,此处不再一一赘述。
在本发明实施例中,可选的,为了能够获取到更多维度的质量评价特征,提高后续对用户进行聚类处理的准确性,进而提高确定用户质量数据的准确性,若所述节目数据包括多媒体数据,则所述数据特征可以包括播放完整度、平均粉丝数目、平均点赞数目、平均评论数目、平均播放次数、平均清晰度和平均评论情感分析数据中的至少一个。
播放完整度为多媒体数据播放的完整程度。当节目数据的播放完整度越高,则说明其它用户对该节目数据的满意程度越高,进而该节目数据所归属的用户的用户质量也就越高。
可以获取归属于同一用户的多个多媒体数据中各多媒体数据的播放时长,将获取到的播放时长分别与播放时长阈值进行比较,将该多个多媒体数据的播放时长大于播放时长阈值的次数,与该多个多媒体节目的播放次数之和的比值,作为对应该用户的播放完整度。
其中,播放时长阈值可以通过事先确定得到,例如,该播放时长阈值可以为30秒或60秒。
平均粉丝数目为该用户的粉丝数目,与归属于该用户的节目数据的数目之间的比值,从而说明该用户的粉丝针对归属于该用户的各节目数据的平均数目。
平均点赞数目为归属于该用户的多个节目数据中各节目数据的点赞数目的均值。
平均评论数目为归属于该用户的多个节目数据中各节目数据的评论数目的均值。
平均播放次数为归属于该用户的多个节目数据中各节目数据的播放次数的均值。
平均清晰度为归属于该用户的多个节目数据中各节目数据的清晰度的均值。当节目数据的清晰度越高,则该节目数据所归属的用户的用户质量也越高。
平均评论情感分析数据为归属于该用户的多个节目数据中各节目数据的评论情感分析数据的均值。
可以基于NLP(Neuro Linguistic Programming,神经语言程序学),对针对节目数据的评论进行情感分析,从而确定针对该节目数据的评论情感分析数据,该评论情感分析数据用于说明针对该节目数据的评论主要负面或正面,且当正面的评论越多时,该评论情感分析数据越高。
其中,NLP为研究人的语言与身心状态之间相互作用的程序。
另外,在本发明示例的另一可选实施例中,若节目数据包括多媒体数据,则数据特征还可以包括点赞总数目、播放总次数和评论总数目中的至少一个。
其中,点赞总数目即为归属用户的多媒体数据的点赞数目之和,播放总次数即为归属用户的多媒体数据被播放的次数之和,评论总数目即为针对归属用户的多媒体数据的评论数目之和。
步骤202,对所述质量评价特征进行PCA变换。
由于质量评价特征可能会包括一个以上的特征,不同的特征之间可能会存在一定程度的线性相关,即存在共线性,存在共线性的特征在聚类处理的过程中可能会互相作用,其中一个特征的影响可能会相对减弱,另一个特征的影响可能会相对增强,从而导致聚类结果不准确。因此,为了消除特征之间可能存在的共线性,进一步提高聚类结果的准确性,可以对质量评价特征进行PCA变换。
PCA变换,又称为主分量分析,是一种简化数据集的技术,能够通过线性变换,将数据变换至新的坐标***中,使任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二坐标(称为第二主成分)上,依次类推,之后,计算主成分的方差贡献率,根据主成分的方差贡献率,计算方差累积贡献率,选择方差累积贡献率大于预设方差累积贡献率时所包括的方差贡献率所对应的主成分,由于主成分是按照方差大小排列的,因此,所选择的主成分即为较大的主成分,所选择的主成分对应的数据即为PCA变换之后的数据。PCA变换能够用于减少数据集的维数,同时保持数据集中对方差贡献最大的特征。
方差贡献率指单个公因子引起的变异占总变异的比例,说明此公因子对因变量的影响力大小。在本发明实施例中,方差贡献率即可作为相应的用户质量评价特征的重要程度。
方差累积贡献率为多个公因子的方差贡献率之和,指多个公因子引起的变异占总变异比例,说明所有公因子对因变量的合计影响力。预设方差累积贡献率指多个公因子引起的变异占总变异的预设比例。在本发明实施例中,当方差累积贡献率大于预设方差累积贡献率时,方差累积贡献率所包括的方差贡献率所对应的用户质量评价特征即为主要的用户质量评价特征,且其中最小的方差贡献率即可作为重要程度阈值。
其中,预设方差累积贡献率可以通过事先接收提交的数值的方式等确定。
例如,预设累积方差贡献率可以为80%、85%或90%。
在本发明实施例中,可以将前述中获取到的多个用户的质量评价特征,作为PCA变换的输入,从而输出得到主要的质量评价特征。其中,主要的质量评价特征可以为重要程度大于重要程度阈值的质量评价特征,重要程度阈值可以通过事先确定得到。
例如,获取得到30个用户的质量评价特征,且各用户具有20个质量评价特征,因此,将30*20个用户质量特征进行PCA变换,得到30*5个用户质量特征,即进行PCA变换之后,各用户具有5个质量评价特征,该5个质量评价特征可以为20个质量评价特征中重要程度大于重要程度阈值的质量评价特征,即主要的质量评价特征。
步骤203,根据PCA变换后的质量评价特征,对所述多个用户进行聚类处理。
可以根据PCA变换之后的质量评价特征,对多个用户进行聚类处理,成功而得到聚类结果。
步骤204,根据聚类结果确定所述多个用户的用户质量数据。
其中,根据聚类结果确定多个用户的用户质量数据的方式,可以参见前述中的相关描述,此处不再一一赘述。
在本发明实施例中,可选的,为了确保不需要依赖事先按照标注标准对大量样本进行标注也能够确定用户质量数据,进而提高确定用户质量数据的准确性和效率,可以从聚类中抽取至少一个用户作为样本用户,接收提交的针对所述样本用户的用户质量数据,将所述样本用户的用户质量数据作为所述聚类中各用户的用户质量数据。
可以将抽取的样本用户提供给相关技术人员,从而接收相关技术人员针对该样本用户提交的用户质量数据,从而确定得到样本用户的用户质量数据。若从聚类中抽取了一个用户作为样本用户,则可以将该用户的用户质量数据作为该聚类中各用户的用户质量数据;若从聚类中抽取了一个以上的用户作为样本用户,则可以将该至少一个以上的样本用户的用户质量数据的平均值,作为该聚类中各用户的用户质量数据。
例如,聚类中包括15个用户,随机从该聚类中抽取用户1,相关技术人员对该用户1进行评估,确定该用户1的用户质量数据为80,则可以确定该聚类中15个用户的用户质量数据均为80。
当然,在实际应用中,也可以通过其它方式来确定样本用户的用户质量数据。
在本发明实施例中,可选的,为了确保不需要依赖事先按照标注标准对大量样进行标注也能够确定用户质量数据,进而提高确定用户质量数据的准确性和效率,所述多个用户中包括样本用户,相应的,可以确定聚类中包括所述样本用户,将所述样本用户的用户质量数据作为所述聚类中各用户的用户质量数据。当然,若确定该聚类中不包括所述样本用户,则可以从聚类中抽取至少一个用户作为样本用户,接收提交的针对所述样本用户的用户质量数据,将所述样本用户的用户质量数据作为所述聚类中各用户的用户质量数据。
可以事先获取多个用户,并确定该多个用户的用户质量数据,将该多个用户作为样本用户与其它的未确定用户质量数据的用户进行聚类处理,从而得到包括该样本用户的聚类。
由前述可知,本发明实施例可以根据用户针对样本用户提交的用户质量数据,来确定聚类结果中用户的用户质量数据。一方面,各聚类中只需存在一个样本用户,便能够确定该聚类中各用户的用户质量数据,也即是只需要确定很少数量(即聚类结果中聚类的数目)的样本用户的用户质量数据,这与采用机器学习模型确定用户质量数据过程中的需要事先对大量样本用户进行标注是完全不同的;另一方面,本发明实施例中的样本用户可以在聚类处理之前确定,也可以在聚类处理之后抽取得到,因此该样本与在采用机器学习模型确定用户质量数据之前,用于对机器学习模型进行训练的样本用户的作用也是完全不同的。
步骤204,按照所述多个用户的用户质量数据,确定提供所述节目数据的次序,按照所述次序提供所述节目数据。
由于用户质量较高的用户能够提供质量较高的节目数据,因此为了优先提供质量较高的节目数据,提高提供节目数据的效果,可以按照用户质量数据的,确定提供节目数据的次序,并按照该次序提供节目数据。
可以按照多个用户的用户质量数据,确定该多个用户的次序,按照所提供的节目数据所归属的用户以及该多个用户的次序,确定该节目数据的次序。
例如,一种应用于视频分享平台的确定用户质量的方法步骤流程图可以如图3所示。
步骤301,特征抽取;
其中,抽取到的特征可以包括视频播放完整度、平均粉丝数目、粉丝数目、视频上传频率、平均播放次数、播放总次数、平均点赞数目、点赞总数目、平均情感分析数据、清晰度等,当然,在实际应用中,还可以包括其它特征。
步骤302,PCA变换,即对前述中抽取到的特征进行PAC变换;
步骤303,聚类处理,即根据PCA变换后的特征,对用户进行聚类处理;
步骤304,类别质量标定。
对于各聚类,随机抽取预设数目(比如即几十个)的样本用户,接收针对样本用户提交的用户质量数据,作为该聚类中所有用户的用户质量数据。
其中,预设数目可以通过事先确定得到。
在本发明实施例中,首先,能够获取用户特征和/或归属于各用户的节目数据的数据特征作为质量评价特征,根据质量评价特征对多个用户进行聚类处理,进而基于聚类结果确定该多个用户的用户质量数据。由于不需要事先按照标注标准对大量的样本用户进行标注,所以减少了因大量标注所导致的效率低下的问题,也减少了由于标注标准难以符合实际需求所导致的准确性递较低的问题,也即是,提高了确定用户质量数据的准确性和效率。
其次,能够对获取到的质量评价特征进行PCA转换,从而减少其中存在线性相关的质量评价特征可能对聚类结果的影响,进一步提高了聚类结果的准确性。
另外,可以从聚类中抽取至少一个用户作为样本用户,确定样本用户的用户质量数据,进而将所确定的用户质量数据确定为该聚类中各用户的用户质量数据,或者,确定聚类中已有的样本用户,将该样本用户的用户质量数据确定为该聚类中各用户的用户质量数据,从而确保了不需要依赖事先按照标注标准对大量样进行标注也能够确定用户质量数据,提高了确定用户质量数据的准确性和效率,
需要说明的是,对于前述的方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必需的。
实施例五
参照图4,示出了本发明实施例中的一种确定用户质量的装置的结构框图。所述装置可以包括:
获取模块401,用于获取多个用户的质量评价特征,所述质量评价特征包括用户特征和归属于各用户的节目数据的数据特征中的至少一种;
聚类模块402,用于根据所述质量评价特征,对所述多个用户进行聚类处理;
第一确定模块403,用于根据聚类结果确定所述多个用户的用户质量数据。
可选的,所述节目数据包括多媒体数据,所述数据特征包括播放完整度、平均粉丝数目、平均点赞数目、平均评论数目、平均播放次数、平均清晰度和平均评论情感分析数据中的至少一个。
可选的,所述聚类模块包括:
变换子模块,用于对所述质量评价特征进行PCA变换;
聚类子模块,用于根据PCA变换后的质量评价特征,对所述多个用户进行聚类处理。
可选的,所述第一确定模块包括:
抽取子模块,用于从聚类中抽取至少一个用户作为样本用户;
接收子模块,用于接收提交的针对所述样本用户的用户质量数据;
第一确定子模块,用于将所述样本用户的用户质量数据作为所述聚类中各用户的用户质量数据。
可选的,所述多个用户中包括样本用户,所述第一确定模块包括:
第二确定子模块,用于确定聚类中包括所述样本用户;
第三确定子模块,用于将所述样本用户的用户质量数据作为所述聚类中各用户的用户质量数据。
可选的,所述装置还包括:
第二确定模块,用于按照所述多个用户的用户质量数据,确定提供所述节目数据的次序;
提供模块,用于按照所述次序提供所述节目数据。
在本发明实施例中,能够获取用户特征和/或归属于各用户的节目数据的数据特征作为质量评价特征,根据质量评价特征对多个用户进行聚类处理,进而基于聚类结果确定该多个用户的用户质量数据。由于不需要事先按照标注标准对大量的样本用户进行标注,所以减少了因大量标注所导致的效率低下的问题,也减少了由于标注标准难以符合实际需求所导致的准确性递较低的问题,也即是,提高了确定用户质量数据的准确性和效率。
对于上述确定用户质量的装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此提供确定用户质量的方法及装置不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造具有本发明方案的***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的确定用户质量的方法及装置方案中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (12)
1.一种确定用户质量的方法,其特征在于,包括:
获取多个用户的质量评价特征,所述质量评价特征包括用户特征和归属于各用户的节目数据的数据特征中的至少一种;
根据所述质量评价特征,对所述多个用户进行聚类处理;
根据聚类结果确定所述多个用户的用户质量数据。
2.根据权利要求1所述的方法,其特征在于,所述节目数据包括多媒体数据,所述数据特征包括播放完整度、平均粉丝数目、平均点赞数目、平均评论数目、平均播放次数、平均清晰度和平均评论情感分析数据中的至少一个。
3.根据权利要求1所述的方法,其特征在于,所述根据所述质量评价特征,对所述多个用户进行聚类处理包括:
对所述质量评价特征进行PCA变换;
根据PCA变换后的质量评价特征,对所述多个用户进行聚类处理。
4.根据权利要求1所述的方法,其特征在于,所述根据聚类结果确定所述多个用户的用户质量数据包括:
从聚类中抽取至少一个用户作为样本用户;
接收提交的针对所述样本用户的用户质量数据;
将所述样本用户的用户质量数据作为所述聚类中各用户的用户质量数据。
5.根据权利要求1所述的方法,其特征在于,所述多个用户中包括样本用户,所述根据聚类结果确定所述多个用户的用户质量数据包括:
确定聚类中包括所述样本用户;
将所述样本用户的用户质量数据作为所述聚类中各用户的用户质量数据。
6.根据权利要求1所述的方法,其特征在于,在所述根据聚类结果确定所述多个用户的用户质量数据之后,所述方法还包括:
按照所述多个用户的用户质量数据,确定提供所述节目数据的次序;
按照所述次序提供所述节目数据。
7.一种确定用户质量的装置,其特征在于,包括:
获取模块,用于获取多个用户的质量评价特征,所述质量评价特征包括用户特征和归属于各用户的节目数据的数据特征中的至少一种;
聚类模块,用于根据所述质量评价特征,对所述多个用户进行聚类处理;
第一确定模块,用于根据聚类结果确定所述多个用户的用户质量数据。
8.根据权利要求7所述的装置,其特征在于,所述节目数据包括多媒体数据,所述数据特征包括播放完整度、平均粉丝数目、平均点赞数目、平均评论数目、平均播放次数、平均清晰度和平均评论情感分析数据中的至少一个。
9.根据权利要求7所述的装置,其特征在于,所述聚类模块包括:
变换子模块,用于对所述质量评价特征进行PCA变换;
聚类子模块,用于根据PCA变换后的质量评价特征,对所述多个用户进行聚类处理。
10.根据权利要求7所述的装置,其特征在于,所述第一确定模块包括:
抽取子模块,用于从聚类中抽取至少一个用户作为样本用户;
接收子模块,用于接收提交的针对所述样本用户的用户质量数据;
第一确定子模块,用于将所述样本用户的用户质量数据作为所述聚类中各用户的用户质量数据。
11.根据权利要求7所述的装置,其特征在于,所述多个用户中包括样本用户,所述第一确定模块包括:
第二确定子模块,用于确定聚类中包括所述样本用户;
第三确定子模块,用于将所述样本用户的用户质量数据作为所述聚类中各用户的用户质量数据。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于按照所述多个用户的用户质量数据,确定提供所述节目数据的次序;
提供模块,用于按照所述次序提供所述节目数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810402323.1A CN108876098A (zh) | 2018-04-28 | 2018-04-28 | 确定用户质量的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810402323.1A CN108876098A (zh) | 2018-04-28 | 2018-04-28 | 确定用户质量的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108876098A true CN108876098A (zh) | 2018-11-23 |
Family
ID=64326991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810402323.1A Pending CN108876098A (zh) | 2018-04-28 | 2018-04-28 | 确定用户质量的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108876098A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102984191A (zh) * | 2011-09-07 | 2013-03-20 | 百度在线网络技术(北京)有限公司 | 用于确定行为相关质量信息的方法、装置和设备 |
CN103856789A (zh) * | 2014-03-13 | 2014-06-11 | 赛特斯信息科技股份有限公司 | 基于用户行为分析实现ott业务质量保障的***及方法 |
US9454729B2 (en) * | 2011-03-29 | 2016-09-27 | Manyworlds, Inc. | Serendipity generating method, system, and device |
CN106446078A (zh) * | 2016-09-08 | 2017-02-22 | 乐视控股(北京)有限公司 | 一种信息的推荐方法和推荐装置 |
CN107426177A (zh) * | 2017-06-13 | 2017-12-01 | 努比亚技术有限公司 | 一种用户行为聚类分析方法及终端、计算机可读存储介质 |
-
2018
- 2018-04-28 CN CN201810402323.1A patent/CN108876098A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9454729B2 (en) * | 2011-03-29 | 2016-09-27 | Manyworlds, Inc. | Serendipity generating method, system, and device |
CN102984191A (zh) * | 2011-09-07 | 2013-03-20 | 百度在线网络技术(北京)有限公司 | 用于确定行为相关质量信息的方法、装置和设备 |
CN103856789A (zh) * | 2014-03-13 | 2014-06-11 | 赛特斯信息科技股份有限公司 | 基于用户行为分析实现ott业务质量保障的***及方法 |
CN106446078A (zh) * | 2016-09-08 | 2017-02-22 | 乐视控股(北京)有限公司 | 一种信息的推荐方法和推荐装置 |
CN107426177A (zh) * | 2017-06-13 | 2017-12-01 | 努比亚技术有限公司 | 一种用户行为聚类分析方法及终端、计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491529B (zh) | 信息推荐方法及装置 | |
Rubinstein et al. | A comparative study of image retargeting | |
Kennard et al. | Evaluating word embeddings using a representative suite of practical tasks | |
CN111125574B (zh) | 用于生成信息的方法和装置 | |
CN109447156B (zh) | 用于生成模型的方法和装置 | |
CN106709318B (zh) | 一种用户设备唯一性的识别方法、装置和计算设备 | |
CN109729395A (zh) | 视频质量评估方法、装置、存储介质和计算机设备 | |
US10210214B2 (en) | Scalable trend detection in a personalized search context | |
CN108959329B (zh) | 一种文本分类方法、装置、介质及设备 | |
CN110245080B (zh) | 生成场景测试用例的方法及装置 | |
KR102078627B1 (ko) | 사용자-입력 컨텐츠와 연관된 실시간 피드백 정보 제공 방법 및 시스템 | |
CN110334356A (zh) | 文章质量的确定方法、文章筛选方法、以及相应的装置 | |
KR101804967B1 (ko) | 사용자 맥락, 추천 음악, 이용 행태로 구성된 데이터베이스를 활용한 음악 콘텐츠 추천 방법 및 시스템 | |
CN113688310B (zh) | 一种内容推荐方法、装置、设备及存储介质 | |
CN114037545A (zh) | 客户推荐方法、装置、设备及存储介质 | |
CN106991425B (zh) | 商品交易质量的检测方法和装置 | |
JP6169511B2 (ja) | コメント文章に基づいて投稿者の心理遷移を分析する装置、プログラム及び方法 | |
CN109740156B (zh) | 反馈信息处理方法、装置、电子设备及存储介质 | |
CN115222443A (zh) | 客户群体划分方法、装置、设备及存储介质 | |
CN113886697A (zh) | 基于聚类算法的活动推荐方法、装置、设备及存储介质 | |
CN108647227A (zh) | 一种推荐方法及装置 | |
CN110188277B (zh) | 一种资源的推荐方法及装置 | |
CN111667018A (zh) | 一种对象聚类的方法、装置、计算机可读介质及电子设备 | |
KR20210029006A (ko) | 제품 평가 마이닝 방법 및 이를 수행하는 장치 | |
CN104933047B (zh) | 一种确定搜索词的价值的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181123 |