CN110020201A

CN110020201A - 一种基于用户画像聚类的用户类型自动化标注***

Info

Publication number: CN110020201A
Application number: CN201910232018.7A
Authority: CN
Inventors: 白琳; 蔡承烨; 李国斌; 周新运; 吴怀林; 王建飞; 赵敏
Original assignee: Beijing Open Distance Education Center Co ltd; Institute of Software of CAS
Current assignee: Beijing Open Distance Education Center Co ltd; Institute of Software of CAS
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2019-07-16
Anticipated expiration: 2039-03-26
Also published as: CN110020201B

Abstract

本发明涉及一种基于用户画像聚类的用户类型自动化标注***，包括用户画像数据采集模块、用户画像特征处理模块、用户画像聚类模块和用户类型标注模块；通过运行四个***模块，该***能为用户自动化的标出其所属的类型，并支持以配置文件的形式对需要标注的类型进行更新，极大的简化了用户类型标注的流程。在实际应用中，每个周期***都会自动运行，并对全平台的用户进行自动化标注。其标注结果可应用于用户管理、数据挖掘、数据展示等相关工作，对平台的管理者与用户都具有积极的意义。

Description

一种基于用户画像聚类的用户类型自动化标注***

技术领域

本发明涉及一种基于用户画像聚类的用户类型自动化标注***，属于计算机人工智能领域。

背景技术

在许多互联网平台中，根据平台的数据挖掘、运营管理、报表展示等工作需求，都需要对用户进行类型标注。通常其标注结果需要直观的体现出用户在平台中的活跃度或用户对平台中各功能模块的参与程度等用户相关的特征，为平台的功能模块管理、机器学习分类或回归等预测、提升用户界面体验等工作提供数据基础。目前，用户类型标注方法主要分为两类：完全人工类型标注方法以及半自动类型标注方法。

完全人工类型标注方法主要是使用现有的一些标注***来手动去对用户类型进行标注，常用的标注***如IEPY、DeepDive、BRAT等，标注***会提供非常友好的标注界面，高亮相关的用户特征，有效提高标注人员的标注效率。但是，当需要标注的数据量达到一定规模时，完全人工类型标注方法需要投入较多的人力与时间，使得标注周期延长，标注成本高昂。而且，人工标注时的错误率也是一个难以避免的问题。

半自动类型标注方法的原理是只对部分数据进行标注，然后使用已标注的数据来训练机器学习分类模型(如SVM、LR、Random Forest、GBDT等)，最后使用训练好的模型来对未标注的数据进行类型预测，并为其标注预测的类型。半自动类型标注方法能有效克服完全人工类型标注方法无法针对大规模数据进行标注问题，只需人工标注部分数据。但由于依赖少部分人工标注，当原有标注类型发生变化，需要增加新类型或删除原有类型，或者某一类型的标注规则发生改变，半自动类型标注方法需要重新对数据进行标注，再训练新的机器学习分类模型，由此增加了更新和维护的成本。

因此，原有方法存在以下局限：

(1)过于依赖人工标注数据，需要投入人力来进行数据标注工作，使得标注成本较高，并有一定的标注错误。

(2)难以更新和维护，当标注类型发生变化或标注规则发生改变时，需要投入较高的更新和维护成本来满足新的数据需求。

发明内容

本发明技术解决问题：克服传统用户类型标注***过于依赖人工标注数据和标注类型难以更新及维护的问题，提供一种基于用户画像聚类的用户类型自动化标注***，能为用户自动化的标出其所属的类型，并支持以配置文件的形式对需要标注的类型进行更新，极大的简化了用户类型标注的流程。

本发明提出的于用户画像聚类的用户类型自动化标注***，设计了一套独立的模块来将用户画像信息转化为用户特征向量，并基于K-means聚类算法对用户特征向量进行聚类，此外，还针对聚类结果设计了相应的***模块来将聚类结果映射到指定的用户类型中，从而自动化的为用户标注其所属类型。

本发明的技术解决方案：基于用户画像聚类的用户类型自动化标注***，如图1所示，包含如下四个***模块：

用户画像数据采集模块、用户画像特征处理模块、用户画像聚类模块和用户类型标注模块；通过上述四个***模块的组合，可以完成本发明基于用户画像聚类的用户类型自动化标注***。下面将分别描述用户画像数据采集模块、用户画像特征处理模块、用户画像聚类模块以及用户类型标注模块的基本内容。

1.用户画像数据采集模块

首先对相关概念进行解释说明。

用户画像：用户画像又称用户角色，是一种勾画目标用户、联系用户诉求与设计方向的有效工具。用户画像包含若干个用户画像维度，能体现用户在***中的不同特征，包括静态特征及行为特征等。

用户画像维度：描述用户在某一角度的特征，是用户画像的主要构成单位。一个用户画像维度由若干个用户画像维度特征构成。

用户画像维度特征：用户画像构成的基本单位，通常可以从平台数据库的用户相关字段，或者对用户行为信息的统计计算来获得。

用户画像数据采集模块的主要功能是，根据配置文件的信息，从平台数据库中读取原始数据，并对原始数据进行用户画像维度标注以及用户画像维度特征计算，最终生成用户画像数据，供用户画像特征处理模块调用。

用户画像数据采集模块的实现步骤如下所示：

(1)配置文件解析：配置文件以json的格式存储用户画像特征名称以及与特征名称相应的数据库字段、特征所属维度以及特征计算规则。读取配置文件，并对配置文件的内容进行解析。处理并生成用户画像特征队列；

(2)获取用户画像特征名称：用户画像特征队列进行出队操作，获取当前待处理的用户画像特征名称；

(3)用户画像维度标注：根据配置信息中与当前用户画像特征名称相应的用户画像维度，将当前用户画像名称存储到用户画像维度字典中，维度字典的数据结构为(key：用户画像维度，value:用户画像特征名称)；

(4)原始数据读取：根据配置信息中与当前用户画像特征名称相应的数据库字段名，从数据库中读取相关的原始数据；

(5)用户画像维度特征计算：根据配置信息中与当前用户画像特征名称相应的特征计算规则，使用从数据库读入的原始数据来计算用户画像特征值。并将用户画像特征名称与用户画像特征值存入用户画像特征数组中，数组中每一个元素的数据结构为(用户画像特征名称，用户画像特征值)；

(6)逻辑判断：判断用户画像特征队列是否为空。若队列不为空则跳转到步骤(2)，若队列为空则跳转到步骤(7)；

(7)输出用户画像数据：将用户画像维度字典与用户画像特征数组中的数据组合成用户画像数据并输出，用户画像数据的格式为(用户画像特征名称，用户画像维度，用户画像特征值)。

2.用户画像特征处理模块

首先对相关概念进行解释说明。

用户画像维度分值：用于刻画用户在当前用户画像维度下的得分，分数越高，用户在当前用户画像唯独下的特征越明显。

用户画像特征向量：由若干个用户画像维度分值组合成的向量，k个用户画像维度可以拼接成1个k维向量。

用户画像特征处理模块的主要功能是，以用户画像数据为输入，为用户画像数据进行维度划分，然后分别针对每个维度进行特征清洗并修正异常数据，修正后的数据经过特征归一化以及特征组合后生成当前维度的特征值，最后将各维度的特征组合生成用户画像特征向量，供用户画像聚类模块调用。

用户画像特征处理模块的实现步骤如下所示：

(1)读入用户画像数据：数据加载过程会读取用户画像数据中的数据，并构造符合用户画像特征处理模块格式的数据，基本数据格式为：每一个用户的用户画像数据包含n个用户画像维度，每个用户画像维度包含若干个用户画像维度特征数据，以二维变长数组的数据结构存储。

(2)维度划分：对用户画像数据按照用户画像维度进行划分，将不同用户在相同用户画像维度下的用户画像维度特征数据进行拼接，对于每一个用户画像维度，产生一个m×k的用户画像维度二维数组，包含m个用户，每行表示1个用户的k个用户画像维度特征数据。

(3)用户画像维度分值计算：分别基于每一个用户画像维度二维数组，计算当前用户画像维度下的用户画像维度分值。对于每一个用户画像维度，其用户画像维度分值的计算过程如步骤(3.1)到步骤(3.3)所示。

(3.1)特征清洗：对用户画像维度二维数组中用户画像维度特征数据进行清洗，修正异常数据。异常数据包括两个部分：缺失值和异常值，对于缺失值采取缺失值补零操作，对于异常值会根据数据的所属区间，将区间外的值置为区间的最大值或最小值。

(3.2)特征归一化：对用户画像维度特征数据进行归一化，将其转化为[0,1]之间的值，对于每一个用户画像维度特征，归一化步骤为：首先，将不同用户的相同用户画像维度特征组合成一维数组，然后对从小到大进行排序产生排好序的数组，并记录中的每一个元素y第一次出现的位置的下标j，最后对中的每一个元素x计算归一化结果，计算公式为：

其中，N_x表示元素x的归一化结果，j_x为元素x在数组中第一次出现的位置的下标j，|X|为数组的长度；

(3.3)特征组合：对每一个用户，将该用户各个用户画像维度特征的归一化结果进行组合，计算出相应的用户画像维度分值S。计算公式为：

其中W_i为当前用户画像维度中第i个用户画像维度特征的权重，N_i为当前用户画像维度中第i个用户画像维度特征归一化结果。

(4)维度组合：对于每一个用户，将其n个用户画像维度的用户画像维度分值进行组合，并拼接成用户画像特征向量v_u。

(5)输出用户画像特征向量：将所有用户的用户画像特征向量v_u组合成二维数组的数据格式并输出。

3.用户画像聚类模块

首先对相关概念进行解释说明。

聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。

聚类蔟：由聚类所生成的一组数据对象的集合。聚类完成后会生成若干个聚类蔟。

聚类中心：聚类蔟中，由对象集合计算产生的中心点。

用户画像聚类模块的主要功能是，读取用户画像特征向量，根据配置文件的信息初始化聚类模型，然后初始化各个类别的聚类中心，通过对损失函数的最小化操作，不断计算并更新各个类别的聚类中心，达到指定的循环次数或目标函数最小化到指定值之后，输出各个类别的聚类中心以及每一个用户的聚类结果。

用户画像聚类模块的实现步骤如下所示：

(1)数据加载：获取用户画像特征处理模块生成的用户画像特征向量，并从配置文件中读取模型参数数据，包含聚类蔟个数k，中心初始化形式，最大迭代次数，损失函数最小值，并行度等模型参数数据。

(2)初始化聚类模型：使用读取的模型参数初始化k-means聚类模型，并根据聚类中心个数k，中心初始化形式来初始化k个聚类中心，初始化形式可选择随机点初始化、随机特征初始化以及预训练初始化。

(3)计算聚类中心：对于用户画像特征向量中的每一条特征数据，使用k-means模型计算其与k个聚类中心的距离，并把当前用户画像特征划分到距离最近的聚类中心所属的聚类簇中。最后，分别计算k个聚类簇中特征的均值，将其作为新的聚类中心。

(4)最小化目标函数：本发明中对k-means模型采用的损失函数为基于欧式距离的误差平方和损失函数，其公式为：

其中k为聚类中心的个数，C_i为第i个聚类中心，c_ij为第i个聚类中的第j维特征值，x_j为用户特征向量的第j维特征值，d为用户特征向量的维度；若损失函数没有低于最小值或当前迭代次数没有大于最大迭代次数，则跳转到步骤(3)。

(5)输出各类别聚类中心结果：分别将k个聚类中心的标签值以及中心值按照(标签值-聚类中心)的形式组织成聚类中心数据，供用户类型标注模块调用。

(6)输出用户画像聚类结果：对于每一个用户，将最后一轮迭代中用户被划分到的聚类蔟的标签值作为该用户的用户画像聚类结果，并按照(用户id-标签值)的形式组织成用户画像聚类结果数据，供用户类型标注模块调用。

4.用户类型标注模块

用户类型标注模块的主要功能是，获取聚类中心结果，将聚类中心结果数据进行中心值归一化，并组织成聚类中心集合池，然后从配置文件中按照格式解析出用户类型-匹配规则优先级队列，并从该队列中优先级最高的用户类型开始，在聚类中心集合池中进行用户类型匹配，若匹配成功则为用户画像聚类结果中属于标签值属于当前聚类中心的用户标注该用户类型，直至中心集合池为空或优先级队列为空。最终产生用户类型标注结果。

用户类型标注模块的实现步骤如下所示：

(1)用户画像聚类结果数据加载：将用户画像聚类模块生成的用户画像聚类结果数据加载到当前模块中。

(2)聚类结果划分：针对用户画像聚类结果数据，根据标签值进行划分，每个标签值会产生相应的用户集合，最终将用户画像聚类结果数据划分为k个用户集合数据。

(3)聚类中心结果数据加载：将用户画像聚类模块生成的聚类中心结果数据加载到当前模块中。

(4)中心值归一化：对据聚类中心结果数据进行中心值归一化，将聚类中心中每一个维度的值转化成[1,t]之间的值，其中t为聚类中心的个数。归一化的方式为：对于聚类中心每一个维度，将t个维度中当前维度的值组织成长度为t的数组，并对当前数组从小到大进行排序，取排序结果中每个值的位置序号作为该值的归一化结果。

(5)构造聚类中心集合池：将归一化后的聚类中心数据自支撑聚类中心集合池，集合池中包含t个聚类中心数据。

(6)配置文件解析：配置文件以json的形式存储了用户类型名称及相应的匹配规则，解析配置文件中的json数据，提取用户类型名称字符串，及相应的匹配规则字符串，组织成形如(用户类型名称-匹配规则)的名称-规则数据。

(7)用户类型-匹配规则优先级队列：使用名称-规则数据构造用户类型-匹配规则优先级队列，解析匹配规则字符串，获取匹配优先级并构造匹配逻辑，最终组织成队列形式的用户类型-匹配规则优先级队列，优先级最高的用户类型先入队。队列的每一个元素为(匹配逻辑-用户类型)形式的数据结构。

(8)获取当前用户类型：用户类型-匹配规则优先级队列出队，得到当前需要匹配的(匹配逻辑-用户类型)数据。

(9)聚类中心池判断：判断聚类中心池是否为空，若为空则跳转到步骤(14)，否则跳转到步骤(10)。

(10)用户类型匹配：遍历聚类中心池，将每一个聚类中心输入(匹配逻辑-用户类型)数据结构中，并使用匹配逻辑进行匹配，若匹配通过则会返回匹配系数。若有多个聚类中心匹配通过，则取匹配系数最高的聚类中心作为匹配结果。若所有聚类中心均未匹配成功，则跳转到步骤(8)。

(11)用户类型标注：取用户类型匹配的匹配结果，与该聚类中心相对应的标签值，为属于此标签值的用户集合数据中的所有用户标注当前用户类型。

(12)聚类中心集合池删除操作：将步骤(10)中匹配到的聚类中心从聚类中心集合池中删除。

(13)优先级队列推进：判断用户类型-匹配规则优先级队列是否为空，若为不为空则跳转到步骤(8)，若不为空则跳转到步骤(14)。

(14)输出用户类型标注结果：将k个用户集合数据的标注结果组合，生成最终的用户类型标注结果并存入标注结果数据库中。

本发明与现有技术相比的优点在于：在许多互联网平台中，根据平台的数据挖掘、运营管理、报表展示等工作需求，都需要对用户进行类型标注。类型标注***可以为平台中的用户标注相应的类型，标注结果可以直观的体现出用户在平台中的活跃度或用户对平台中各功能模块的参与程度等用户相关的特征，为平台的教学任务制定、机器学***台的用户进行自动化标注。

附图说明

图1为本发明的基于用户画像聚类的用户类型自动化标注***集成图；

图2为本发明中用户画像数据采集模块实现过程图；

图3为本发明中用户画像特征处理模块实现过程图；

图4为本发明的用户画像聚类模块实现过程图；

图5为本发明的用户类型标注模块实现过程图。

具体实施方式

以下结合具体实例和附图对本发明进行详细说明。

如图1所示，本发明的***包含三个模块，分别是用户画像特征处理模块、用户画像聚类模块和用户类型标注模块。***的运行步骤为：

用户画像数据采集模块：读取配置文件，并根据配置文件信息从平台数据库中读取相应的数据，处理并生成用户画像数据，并传入用户画像特征处理模块。

用户画像特征处理模块：以用户画像数据为输入，处理并生成用户画像特征向量，将用户画像特征向量传入用户画像聚类模块。

用户画像聚类模块：获取用户画像特征向量，从配置信息中获取k-means聚类模型的模型参数数据，计算并生成用户画像聚类结果以及用户画像聚类中心。

用户类型标注模块：读取配置信息，构造用户类型-匹配规则优先级列表，并根据用户画像聚类结果以及用户画像聚类中心，为用户标注相应的用户类型，生成用户类型标注结果。

保存用户类型标注结果：将用户类型标注结果存入标注结果数据库。

上述步骤中各模块的具体实现过程如下：

1.用户画像数据采集模块

用户画像数据采集模块实现过程如图2所示：

(6)逻辑判断：判断用户画像特征队列是否为空。若队列不为空则跳转到步骤2，若队列为空则跳转到步骤7；

2.用户画像特征处理模块

用户画像特征处理模块实现过程如图3所示：

(1)读入用户画像数据：数据加载过程会读取用户画像数据采集模块生成的用户画像数据，并构造符合用户画像特征处理模块格式的数据，基本数据格式为：每一个用户的用户画像数据包含5个用户画像维度，每个用户画像维度包含若干个用户画像维度特征数据，以二维变长数组的数据结构存储。

(2)维度划分：对用户画像数据按照用户画像维度进行划分，将不同用户在相同用户画像维度下的用户画像维度特征数据进行拼接，对于每一个用户画像维度，产生一个用户画像维度二维数组。

(3.2)特征归一化：对用户画像维度特征数据进行归一化，将其转化为[0,1]之间的值，对于每一个用户画像维度特征，其归一化步骤相同。以学习内容访问维度中的课程访问次数为例，归一化步骤为：首先，将不同用户的课程访问次数组合成一维数组，然后对该数组从小到大进行排序产生排好序的新数组，并记录新数组中的每一个元素，其第一次出现的位置的下标，最后对原数组中的每一个元素使用公式1计算得到归一化结果。

(3.3)特征组合：对每一个用户，将该用户各个用户画像维度特征的归一化结果进行组合，使用如(公式2)所示的公式计算出相应的用户画像维度分值。

(4)维度组合：对于每一个用户，将其5个用户画像维度的用户画像维度分值进行组合，拼接成维度为5的用户画像特征向量。

(5)输出用户画像特征向量：将所有用户的用户画像特征向量组合成二维数组的数据格式并输出。

3.用户画像聚类模块

用户画像聚类模块实现过程如图4所示：

(1)数据加载：获取用户画像特征处理模块生成的用户画像特征向量，并从配置文件中读取模型参数数据，模型各项参数设定为：聚类蔟个数为5，中心初始化形式为预训练初始化，最大迭代次数为200，损失函数最小值为，并行度为50。

(2)初始化聚类模型：使用读取的模型参数初始化k-means聚类模型，并根据使用预训练初始化形式来初始化5个聚类中心。

(3)计算聚类中心：对于用户画像特征向量中的每一条特征数据，使用k-means模型计算其与5个聚类中心的距离，并把当前用户画像特征划分到距离最近的聚类中心所属的聚类簇中。最后，分别计算5个聚类簇中特征的均值，将其作为新的聚类中心。

(4)最小化目标函数：计算如公式3所示的损失函数，若损失函数没有低于最小值或当前迭代次数没有大于最大迭代次数，则跳转到步骤(3)，否则，跳转到步骤(5)。

(5)输出各类别聚类中心结果：分别将5个聚类中心的标签值以及中心值按照(标签值-聚类中心)的形式组织成聚类中心数据，供用户类型标注模块调用。5个聚类中心的标签值分别为0、1、2、3、4、5。

4.用户类型标注模块

用户类型标注模块实现过程如图5所示：

(2)聚类结果划分：针对用户画像聚类结果数据，根据标签值进行划分，每个标签值会产生相应的用户集合，最终将用户画像聚类结果数据划分为5个用户集合数据。

(4)中心值归一化：对据聚类中心结果数据进行中心值归一化，针对在线教育平台用户画像，将聚类中心中每一个维度的值转化成[1,5]之间的值。归一化的方式为：对于聚类中心每一个维度，取5个聚类中心中当前维度的值，然后将当前维度的值组织成长度为5的数组，并对当前数组从小到大进行排序，取排序结果中每个值的位置序号作为该值的归一化结果。

(5)构造聚类中心集合池：将归一化后的聚类中心数据组织成聚类中心集合池，集合池中包含5个聚类中心数据。

(6)配置文件解析：配置文件以json的形式存储了用户类型名称及相应的匹配规则，解析配置文件中的json数据，提取用户类型名称字符串，及相应的匹配规则字符串，组织成形如(用户类型名称-匹配规则)的名称-规则数据。在此实例中，配置文件中定义了5个用户类型以及相应的匹配规则，以用户类型1为例，其匹配规则为聚类中心5个维度的值均小于2。

(14)输出用户类型标注结果：将5个用户集合数据的标注结果组合，生成最终的用户类型标注结果并存入标注结果数据库中，供管理人员或其他***查询使用。

本发明未详细描述的部分属于本领域公知技术。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于用户画像聚类的用户类型自动化标注***，其特征在于：包括，用户画像数据采集模块、用户画像特征处理模块、用户画像聚类模块和用户类型标注模块；

用户画像数据采集模块：根据配置文件的信息，从平台数据库中读取原始数据，并对原始数据进行用户画像维度标注以及用户画像维度特征计算，最终生成用户画像数据，用户画像数据将会输入到用户画像特征处理模块中；

用户画像特征处理模块：以用户画像数据为输入，为用户画像数据进行维度划分，然后分别针对每个维度进行特征清洗并修正异常数据，修正后的数据经过特征归一化以及特征组合后生成当前维度的特征值，最后将各维度的特征组合生成用户画像特征向量；

用户画像聚类模块：读取用户画像特征处理模块生成的用户画像特征向量，根据配置文件的信息初始化聚类模型，然后初始化各个类别的聚类中心，通过对损失函数的最小化操作，不断计算并更新各个类别的聚类中心，达到指定的循环次数或目标函数最小化到指定值之后，输出各个类别的聚类中心结果数据以及每一个用户的聚类结果数据；

用户类型标注模块：获取聚类中心结果数据，将聚类中心结果数据进行中心值归一化，并组织成聚类中心集合池，然后从配置文件中按照格式解析出用户类型-匹配规则优先级队列，并从该队列中优先级最高的用户类型开始，在聚类中心集合池中进行用户类型匹配，若匹配成功则为用户画像聚类结果中属于标签值属于当前聚类中心的用户标注该用户类型，直至中心集合池为空或优先级队列为空，最终产生用户类型标注结果。

2.根据权利要求1所述的一种基于用户画像聚类的用户类型自动化标注***，其特征在于：所述用户画像数据采集模块实现如下：

(1)配置文件解析：配置文件以json的格式存储用户画像特征名称以及与特征名称相应的数据库字段、特征所属维度以及特征计算规则，读取配置文件，并对配置文件的内容进行解析，处理并生成用户画像特征队列；

(5)用户画像维度特征计算：根据配置信息中与当前用户画像特征名称相应的特征计算规则，使用从数据库读入的原始数据来计算用户画像特征值，并将用户画像特征名称与用户画像特征值存入用户画像特征数组中，数组中每一个元素的数据结构为(用户画像特征名称，用户画像特征值)；

(6)逻辑判断：判断用户画像特征队列是否为空，若队列不为空则跳转到步骤2，若队列为空则跳转到步骤7；

3.根据权利要求1所述的一种基于用户画像聚类的用户类型自动化标注***，其特征在于：所述用户画像特征处理模块实现如下：

(1)读入用户画像数据：数据加载过程会读取用户画像数据中的数据，并构造符合用户画像特征处理模块格式的数据，基本数据格式为：每一个用户的用户画像数据包含n个用户画像维度，每个用户画像维度包含若干个用户画像维度特征数据，以二维变长数组的数据结构存储；

(2)维度划分：对用户画像数据按照用户画像维度进行划分，将不同用户在相同用户画像维度下的用户画像维度特征数据进行拼接，对于每一个用户画像维度，产生一个m×k的用户画像维度二维数组，包含m个用户，每行表示1个用户的k个用户画像维度特征数据；

(3)用户画像维度分值计算：分别基于每一个用户画像维度二维数组，计算当前用户画像维度下的用户画像维度分值；

对于每一个用户画像维度，其用户画像维度分值的计算过程如步骤(1)到步骤(3)。

4.根据权利要求1所述的一种基于用户画像聚类的用户类型自动化标注***，其特征在于：所述用户画像维度分值计算具体实现如下：

(1)特征清洗：对用户画像维度二维数组中用户画像维度特征数据进行清洗，修正异常数据；异常数据包括两个部分：缺失值和异常值，对于缺失值采取缺失值补零操作，对于异常值会根据数据的所属区间，将区间外的值置为区间的最大值或最小值；

(2)特征归一化：对用户画像维度特征数据进行归一化，将其转化为[0,1]之间的值，对于每一个用户画像维度特征，归一化步骤为：首先，将不同用户的相同用户画像维度特征组合成一维数组，然后对从小到大进行排序产生排好序的数组，并记录中的每一个元素y第一次出现的位置的下标j，最后对中的每一个元素x计算归一化结果，计算公式为：

(3)特征组合：对每一个用户，将该用户各个用户画像维度特征的归一化结果进行组合，计算出相应的用户画像维度分值S，计算公式为：

其中W_i为当前用户画像维度中第i个用户画像维度特征的权重，N_i为当前用户画像维度中第i个用户画像维度特征的归一化结果；

(4)维度组合：对于每一个用户，将其n个用户画像维度的用户画像维度分值进行组合，并拼接成用户画像特征向量v_u；

5.根据权利要求1所述的一种基于用户画像聚类的用户类型自动化标注***，其特征在于：所述用户画像聚类模块的实现步骤如下：

(1)数据加载：获取用户画像特征处理模块生成的用户画像特征向量，并从配置文件中读取模型参数数据，模型参数数据包含聚类蔟个数k、中心初始化形式、最大迭代次数、损失函数最小值和并行度；

(2)初始化聚类模型：使用读取的模型参数初始化k-means聚类模型，并根据聚类中心个数k，中心初始化形式来初始化k个聚类中心；

(3)计算聚类中心：对于用户画像特征向量中的每一条特征数据，使用k-means模型计算其与k个聚类中心的距离，并把当前用户画像特征划分到距离最近的聚类中心所属的聚类簇中；最后，分别计算k个聚类簇中特征的均值，将所述均值作为新的聚类中心；

(4)最小化目标函数：对k-means模型采用的损失函数为基于欧式距离的误差平方和损失函数，公式为：

其中k为聚类中心的个数，C_i为第i个聚类中心，c_ij为第i个聚类中的第j维特征值，x_j为用户特征向量的第j维特征值，d为用户特征向量的维度；若损失函数没有低于最小值或当前迭代次数没有大于最大迭代次数，则跳转到步骤(3)；

(5)输出各类别聚类中心结果：分别将k个聚类中心的标签值以及中心值按照标签值-聚类中心的形式组织成聚类中心结果数据；

(6)输出用户画像聚类结果：对于每一个用户，将最后一轮迭代中用户被划分到的聚类蔟的标签值作为该用户的用户画像聚类结果，并按照用户id-标签值的形式组织成用户画像聚类结果数据。

6.根据权利要求1所述的一种基于用户画像聚类的用户类型自动化标注***，其特征在于：所述用户类型标注模块的实现步骤如下：

(1)用户画像聚类结果数据加载：将用户画像聚类模块生成的用户画像聚类结果数据加载；

(2)聚类结果划分：针对用户画像聚类结果数据，根据标签值进行划分，每个标签值会产生相应的用户集合，最终将用户画像聚类结果数据划分为k个用户集合数据；

(3)聚类中心结果数据加载：将用户画像聚类模块生成的聚类中心结果数据加载；

(4)中心值归一化：对据聚类中心结果数据进行中心值归一化，将聚类中心中每一个维度的值转化成[1,t]之间的值，其中t为聚类中心的个数，得到归一化后的聚类中心数据；

(5)构造聚类中心集合池：将归一化后的聚类中心数据自支撑聚类中心集合池，集合池中包含t个聚类中心数据；

(6)配置文件解析：配置文件以json的形式存储用户类型名称及相应的匹配规则，解析配置文件中的json数据，提取用户类型名称字符串，及相应的匹配规则字符串，组织成形为用户类型名称-匹配规则的名称-规则数据；

(7)用户类型-匹配规则优先级队列：使用名称-规则数据构造用户类型-匹配规则优先级队列，解析匹配规则字符串，获取匹配优先级并构造匹配逻辑，最终组织成队列形式的用户类型-匹配规则优先级队列，优先级最高的用户类型先入队，队列的每一个元素为匹配逻辑-用户类型形式的数据结构；

(8)获取当前用户类型：用户类型-匹配规则优先级队列出队，得到当前需要匹配的匹配逻辑-用户类型数据；

(9)聚类中心池判断：判断聚类中心池是否为空，若为空则跳转到步骤(14)，否则跳转到步骤(10)；

(10)用户类型匹配：遍历聚类中心池，将每一个聚类中心输入匹配逻辑-用户类型数据结构中，并使用匹配逻辑进行匹配，若匹配通过则会返回匹配系数，若有多个聚类中心匹配通过，则取匹配系数最高的聚类中心作为匹配结果；若所有聚类中心均未匹配成功，则跳转到步骤(8)；

(11)用户类型标注：取用户类型匹配的匹配结果，与该聚类中心相对应的标签值，为属于此标签值的用户集合数据中的所有用户标注当前用户类型；

(12)聚类中心集合池删除操作：将步骤(10)中匹配到的聚类中心从聚类中心集合池中删除；

(13)优先级队列推进：判断用户类型-匹配规则优先级队列是否为空，若为不为空则跳转到步骤(8)，若不为空则跳转到步骤(14)；

(14)输出用户类型标注结果：将k个用户集合数据的标注结果组合，生成最终的用户类型标注结果并存入标注结果数据库中，供管理人员或其他***查询使用。

7.根据权利要求6所述的一种基于用户画像聚类的用户类型自动化标注***，其特征在于：所述步骤(4)中，归一化的方式为：对于聚类中心每一个维度，将t个维度中当前维度的值组织成长度为t的数组，并对当前数组从小到大进行排序，取排序结果中每个值的位置序号作为该值的归一化结果。