CN111597330A

CN111597330A - 一种基于支持向量机的面向智能专家推荐的用户画像方法

Info

Publication number: CN111597330A
Application number: CN201910129637.3A
Authority: CN
Inventors: 曹聪; 张路; 刘燕兵; 曹亚男; 谭建龙; 郭莉
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2020-08-28

Abstract

本发明公开了一种基于支持向量机的面向智能专家推荐的用户画像方法，其步骤包括：1)利用设定专家的个人信息，获取一专家信息数据集；2)对该专家信息数据集中的每一条专家信息处理为一个由词语序列构建而成的句子；3)计算每篇文档中的每个词语的TF‑IDF值，构成TF‑IDF权重矩阵tdm；4)利用该TF‑IDF权重矩阵tdm生成TF‑IDF特征空间；然后在该TF‑IDF特征空间中构建并训练支持向量机模型；5)根据待构建画像专家的文本信息生成对应TF‑IDF值，然后在该TF‑IDF特征空间中利用训练后的支持向量机模型对该TF‑IDF值进行分类，生成该待构建画像专家的用户画像。本方法用户画像准确性高。

Description

一种基于支持向量机的面向智能专家推荐的用户画像方法

技术领域

本发明属于文本信息处理与识别领域，尤其涉及一种基于支持向量机的面向智能专家推荐的用户画像方法。

背景技术

用户画像(personas)源于企业自身发展运营的客观需求，是根据生理特征、兴趣爱好等用户个人信息抽象出来的标签化用户模型。在实际的产品开发运营过程中，由于目标用户定位不明确，用户需求不清晰等诸多原因，产品的开发运营过程往往不是一帆风顺的。为解决这一问题，用户画像技术应运而生。用户画像技术可以抽象用户信息，勾画用户属性，从用户信息中提取高度精炼的特征，并根据这些特征“标记”用户以实现对用户的标签化。用户画像在定位目标用户，减少开发人员分歧，提高产品开发效率等方面有诸多优势。因此，用户画像技术在工业界和学术界引起了广泛的专注。

而面向智能专家推荐的用户画像，顾名思义，目标人群或用户是专家。随着国家对科学研究领域的发展日益关注，各式科学研究项目不计其数，而申请这些科研项目的相关领域专家更是数不胜数。因此，如何自动化地衡量专家的科研能力，实现智能化推荐专家以完成项目成为亟待解决的问题。而在智能推荐专家过程中，针对人数众多繁杂的专家的学术画像分类是不可或缺的步骤。

现有的用户画像技术方案主要分为两大类——定性描述和基于分类的方法。前者往往通过调研问卷、电话访谈等手段获得用户的定性特征。例如，技术人员首先确定好待建立用户画像的目标人群以及列出能勾画目标人群用户画像的相关问题，如用户的年龄、性别、爱好等，然后通过问卷调查、走访交谈等方式收集记录目标人群对这些问题的回答。最终，在目标人群的答案的基础上，剔除无效冗余信息，提取高度精炼的特征，实现对用户的“标签化”，建立目标人群的用户画像。

而后者则是将机器学习中经典的分类算法，如k最近邻、朴素贝叶斯等应用于用户画像技术方案中。首先，收集大量关于用户的文本信息，图像信息等数据。这些数据本身往往蕴含了大量丰富的语义信息，所以用户画像技术问题自然而然的转换为文本分析问题或者图像分析问题。然后，实现机器学习中的分类算法，如k最近邻、朴素贝叶斯等。它们已经在文本挖掘、图像分析等诸多领域取得了令人满意的成果。通过实现以上一种算法，或者实现以上多种算法并结合的方式，在收集的用户数据上建立模型并训练，最后使用训练完毕的模型从用户数据中提取特征，对样本进行分类，即对用户生成“标签”，进而勾画用户画像。

在大数据时代，数据规模不断扩大，数据结构日益复杂。而现有的用户画像技术方案中，定性描述虽然能勾画目标人群的用户画像，但存在着效率低，用户画像准确性不高、缺乏说服力等诸多缺点。这些缺点导致定性描述方法愈发无法满足实际需求。而基于分类的方法，如k最近邻，朴素贝叶斯等，虽然有着坚实的理论基础，拥有一定的说服力，但仍然存在准确性不高等不足。此外，由于隐私、安全等诸多外在因素的限制，缺乏国内各高校和科研院所专家的数据，阻碍了专家学术画像的构建。

发明内容

本申请提案提出一种基于支持向量机的面向智能专家推荐的用户画像的方法，本申请提案以文本分类的思想，根据TF-IDF算法生成特征空间，并在其中训练支持向量机分类器以构建专家学术画像。

本发明的基本思想是，通过开放式数据获取技术得到专家信息(文本形式)，自主构建大规模专家数据集，并利用已经建立较为完善成熟体系的机器学习分类算法中的支持向量机算法，以文本分类的形式从专家信息中提取高度精炼的特征并对用户进行“标记”，以建立专家的用户画像。支持向量机建立的用户画像，克服了效率低，用户画像准确性不高等缺点。实验结果表明，基于支持向量机的面向专家智能推荐的用户画像技术取得了令人满意的成果。

本发明的技术方案为：

一种基于支持向量机的面向智能专家推荐的用户画像方法，其步骤包括：

1)利用设定专家的个人信息，获取一专家信息数据集；

2)对该专家信息数据集中的每一条专家信息处理为一个由词语序列构建而成的句子；

3)计算每篇文档中的每个词语的TF-IDF值，构成TF-IDF权重矩阵tdm；其中，步骤2)处理后的每一专家信息对应一篇文档；

4)利用该TF-IDF权重矩阵tdm生成TF-IDF特征空间；然后在该TF-IDF特征空间中构建并训练支持向量机模型；

5)根据待构建画像专家的文本信息生成对应TF-IDF值，然后在该TF-IDF特征空间中利用训练后的支持向量机模型对该TF-IDF值进行分类，生成该待构建画像专家的用户画像。

进一步的，所述支持向量机模型为线性核函数的支持向量机模型，支持向量机训练时的惩罚因子c取值为1.6。

进一步的，所述支持向量机模型的为多项式朴素贝叶斯，其中多项式朴素贝叶斯的平滑参数alpha取值为0.001。

进一步的，所述支持向量机模型为多项式核函数的支持向量机；其中，degree取值为1、支持向量机训练时的惩罚因子c取值为1.7。

进一步的，所述支持向量机模型为高斯核函数的支持向量机，支持向量机训练时的惩罚因子c取值为1.7。

进一步的，所述支持向量机模型为Sigmoid核函数的支持向量机，支持向量机训练时的惩罚因子c取值为1.7。

进一步的，步骤2)中，对每一条专家信息首先去除标点符号、数字和不可见字符，然后进行中文分词，然后去除分词结果中的停用词和低频词，将专家的文本信息处理为一个由词语序列构建而成的句子。

进一步的，训练支持向量机模型过程中利用网格搜索寻求支持向量机的最优参数集以使支持向量机模型最优化。

进一步的，利用选定的专家个人信息，获取并增量更新百度百科上的各高校与科研院所的专家的百度词条信息，生成专家信息数据集。

本申请提案将以专家的相关信息(文本形式)为输入，通过一系列数据处理操作，输出专家的类别，即“标签”，以勾画专家的用户画像。其算法流程图如图1所示。

1、本申请提案提出的基于支持向量机的面向智能专家推荐的用户画像方法需要获得专家的数据(文本形式)以从中提取高度精炼的特征(自动提取)，从而根据提取的特征“标记”专家，实现专家的“标签化”，勾画专家的用户画像；

2、由于真实数据集中往往存在大量的“噪声”数据，会干扰专家用户画像的建立。因此，本申请提案需要对原始数据进行预处理，去除原始数据集中的“噪声”数据，使其更容易被提取出精炼、非冗余的特征；

3、因为专家信息是以文本形式存储的，需要被转化为数字形式以便于实现支持向量机算法。因此，在完成对专家原始数据集的预处理操作之后，本申请提案将通过实现TF-IDF算法，构建TF-IDF空间以实现文本表示；

4、在构建TF-IDF空间之后，本申请提案将实现支持向量机算法，在数据集上训练模型，以勾画专家的用户画像，并在训练过程中利用网格搜索寻求支持向量机的最优参数集以使模型最优化；

5、在模型训练完毕之后，本申请提案将在数据集上采用国际通用的模型评分标准对本申请提案的模型进行评分以检验其效果。

与现有的用户画像技术方案相比，本申请提案有以下几项技术优点：

1、本申请提案对数据要求宽松，只须文本形式即可，通用性强；

2、本申请提案所采取的数据预处理操作，实现的TF-IDF算法和支持向量机算法等简单易实现，易于使用；

3、本申请提案克服了现有的用户画像技术方案中效率低，用户画像准确性不高、缺乏说服力等诸多缺点，以定量表示的形式勾画用户画像，有着坚实的理论基础。

附图说明

图1为本发明方法流程图；

图2为数据预处理示意图；

图3为TF-IDF空间示意图；

图4为实验结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明作进一步详细说明。

如图1所示，本申请提案提出的基于支持向量机的面向智能专家推荐的用户画像方法主要包括五个关键过程：数据采集、数据预处理、构建TF-IDF空间、训练模型和预测。下面，将通过分别详细阐述以上五个关键过程的方式说明本申请提案的具体实施方式。

过程一：数据采集

如前所述，本申请提案将为专家勾画用户画像。因此，需要采集关于专家的信息以提取特征“标记”专家，勾画用户画像。值得一提的是，每位专家的数据最终应由一段文本信息表示，如一段关于专家的文字介绍等。除此之外，本申请提案对专家的信息没有额外要求，具有一定的通用性。

然而，具体到本申请提案——基于支持向量机的面向智能专家推荐的用户画像方法，由于安全，隐私等诸多外在条件的限制，国内外尚无公开的关于专家的数据集，对于专家的用户画像研究造成了一定阻碍。因此，本申请提案利用部分已有的专家个人信息，自动地获取，并增量更新百度百科上的国内各高校与科研院所的专家的百度词条信息，构建了多达四万余位国内专家的信息的大规模数据集。此数据集是目前为止，第一个关于国内专家信息的可靠数据集，语料库。它不仅可以用于专家的用户画像研究，还可以用于其他研究领域，具有首创性，规模大，准确性高，自动化，增量更新等特点。

过程二：数据预处理

在真实数据中，往往存在大量的冗余信息，存在大量的缺省值，存在大量的噪音，也可能因为人工错误导致异常点的存在。此外，就本申请提案的数据集而言，因为其文本信息的特点，还存在非结构化，包含大量停用词等诸多不利于提取特征的因素。因此，数据预处理是本申请提案的必不可少的一环，需要对原始数据进行数据预处理操作。

常见的数据预处理操作包括数值归一化，数据结构化，数据去冗余等。就本申请提案而言，将对原始数据集采取去除标点符号、不可见字符和标点符号，中文分词，去除停用词，去除低频词等数据预处理操作。最终，将专家的文本信息处理为一个由词语序列构建而成的句子。

1、去除标点符号、数字和不可见字符

在文本信息中，往往存在大量的标点符号。而标点符号的存在旨在帮助人们阅读文本内容和理解文本信息，对于勾画用户画像意义不大。因此，为了更好地勾画用户画像，需要从原始数据集中去除标点符号。同理，文本信息中的数字和不可见字符等都将从原始数据集中被去除。本申请提案将构建正则表达式匹配数据中的标点符号、数字和不可见字符，然后将其从原始数据集中去除。

2、中文分词

中文分词是指将句子切分成一个个词组成的序列。在自然语言处理领域，尤其是处理中文文本时，往往需要将一个完整句子或者短语切分为一个个单独的词。因为词语往往比字更能传达原生的语义，如“张三是程序员”中，“张”，“三”这两个字之间具有很强的相关性，将其以词语“张三”为单位传达语义的效果比两个字分开表达要好得多。而由于中文的自身特点，词与词之间不存在像英文一般拥有分界符以便区分。因此，本申请提案将对原始数据集进行中文分词操作，并以空格作为词语之间的分界符。

3、去除停用词

停用词是指帮助表示其他词语，其本身没有特殊含义的词语，如啊、嗯等。停用词本身对于勾画用户画像没什么帮助，甚至可能起到阻碍效果。因此，本申请提案将对原始数据集进行去除停用词操作。

4、去除低频词

去除低频词低频词是指在文档集或者语料库中出现频率过低的词语，如在一篇长达一万五千字的文档中，“计算机”一词只出现了一次，则可以说明“计算机”对于反映文档主题收效甚微，甚至产生干扰。因此，为了更好地提取特征，勾画专家的用户画像，本申请提案将去除原始数据集中的低频词。

最终，在完成对原始数据集的去除标点符号、不可见字符和标点符号，中文分词，去除停用词，去除低频词等数据预处理操作之后，原始数据集应该如图2所示。

原始数据集中的“。”作为标点符号被去除，“的”作为停用词被去除，“一名”作为低频词被去除，词语间以空格为分界符。

过程三：构建TF-IDF空间

计算机是二进制的，即无论上层信息是文字，图像亦或是其他形式，最终都需要转换成数字，进而转换为01序列，使计算机能正常识别。因此，在数据预处理之后，需要将原始数据集(文本信息)表示成数字，才能顺利勾画专家的用户画像。时下，将文本信息表示成数字有多种方式，如统计词频，TF-IDF，词嵌入等。本申请提案根据数据集较小，数据本身较为简单等特点，将采用TF-IDF算法表示专家的文本信息。

TF-IDF，全称为Term Frequency–Inverse Document Frequency，中文名为词频-逆文本频率，TF代表词频，IDF代表逆文本频率。它使用文档集或者语料库中的词语的频率信息衡量词语的重要性。

如果一个给定词语在该文档中频繁出现，但是在文档集或者语料库中很少出现，则说明该词语对于所处文档的重要性很高。因此，TF-IDF在某种程度可以衡量给定词语对于所处文档的重要程度，将所处文档与文档集或者语料库中的其他文档区分开来，可以用于分类技术。

而在本申请提案中，文档即每位专家的文本信息，词语即每位专家文本信息中的词语。本申请提案将所有专家的文本信息集合在一起构成一个文档集合，通过实现TF-IDF算法，计算每篇文档中的每个词语的TF-IDF值，构成TF-IDF权重矩阵tdm。其中，tdm[i][j]表示第i篇文档的第j个词语的TF-IDF值，i表示文档id，j表示词语id。权重矩阵tdm即为用于构建和训练分类器所需要的TF-IDF特征空间，示意图如图3所示。本申请提案将利用每位专家对应文本信息中词语的TF-IDF值(不同专家对应文本信息中词语的TF-IDF值是不同)，即在TF-IDF特征空间中构建并训练支持向量机分类器，最终获取专家的用户画像。

过程四：训练模型

支持向量机，英文名为Support Vector Machine，简称为SVM，是机器学习中的一种经典分类算法。支持向量机有坚实的统计学基础，并且因为空间映射思想与核函数技巧，其在处理小样本、非线性、高维数据等难题时表现出特有的优势。

为了更好地对样本进行分类，支持向量机往往将原始样本空间中的点，如TF-IDF特征空间中的点，映射到高维特征空间中，并利用核函数技巧计算样本点之间的内积使样本线性可分。而常用的核函数有以下几种：

·线性核函数

·多项式核函数

其中，d≥1，为多项式的次数。

·高斯核函数

其中，σ＞0，为高斯核的带宽。此外，高斯核亦称RBF核。

·Sigmoid核函数

其中，tanh为双曲正切函数，β＞0,θ＜0。

过程五：预测

最终，在模型训练完毕之后，本申请提案将选取效果最佳的支持向量机模型，在数据集上对待构建画像的专家的文本信息进行分类，并采用国际通用的模型评分标准对本申请提案的模型进行评分，并与其他用户画像技术方案进行比较以检验其勾画专家的用户画像的效果。

本申请提案对待构建画像的专家的文本信息无特殊要求，只需一段关于专家的文字描述即可。

在输入专家信息,即一段关于专家的文字描述后，本申请提案对其进行过程二同样的数据预处理操作，并在之前过程三已经建立的TF-IDF特征空间，利用过程四已经训练好的支持向量机模型对该专家信息进行分类，从而构建该专家的用户画像。

为验证本申请提案中线性核函数的支持向量机在勾画专家用户画像问题上的性能，本节将在同一专家数据集上对比线性核函数的支持向量机与其他用户画像技术方案勾画用户画像的效果。

本节实验将采用准确率、召回率和F1-Mearsure三项评分标准检验各用户画像技术方案勾画用户画像的效果。

本节实验的硬件环境为2.8GHz CPU、506.3GB内存、88核服务器，操作***为64位Linux***。

具体到本实验的数据集，由于安全，隐私等诸多外在条件的限制，国内外尚无公开的关于专家的数据集。因此，本节实验的数据集为从百度百科上爬取的国内各高校与科研院所的专家的百度词条信息。最终，本节实验的数据集如表1所示。本实验的数据集将以9：1的比例划分为训练集与测试集。

表1各类别样本数

类别	样本数位)
		A1	170
A2	137
		A3	940
A4	2061
		A5	1488
A6	4374
		A7	1055
A8	518
		A9	9490
A10	14428
		A11	791
A12	1933

其中，表1中的类别属性中各项含义见表2。

表2专家分类体系

类别	含义
		A1	院士
A2	各高校校长(含副)，知名三甲医院院长(含副)
		A3	863计划,973计划等重大科研计划专家
A4	各行业学会会长(含副)
		A5	各高校实验室、研究室主任(含副)
A6	各高校院长、各知名三甲医院科室主任(含副)
		A7	长江学者,国家杰出青年科学基金获得者
A8	百人计划、千人计划、万人计划专家
		A9	教授、研究员
A10	副教授、副研究员、工程师
		A11	讲师、助理教授、助理研究员
A12	其他

表2的专家分类体系是本申请提案自主构建的。它综合参考了国内相关行业的标注，考虑了国内有影响力的学术头衔，并按照影响力大小构建了层次体系，具有一定的可靠性。而每个样本，是每位专家的信息，即如前述的一段关于专家的文字描述。

此外，为了完成去除停用词操作，需要有包含大量停用词的停用词表以供参照。本申请提案集合了网上几个著名的公开停用词表，如百度停用词表，哈尔滨工业大学停用词表，四川大学停用词表等。

最终，本节的实验结果如图4和表3所示，而利用网格搜索寻求得到的各用户画像技术方案的最优参数集如表4所示。

表3各用户画像技术方案得分

模型	准确率	召回率	F1-Mearsure
				k最近邻	0.370	0.405	0.362
高斯朴素贝叶斯	0.583	0.211	0.173
				多项式朴素贝叶斯	0.518	0.463	0.415
伯努利朴素贝叶斯	0.584	0.405	0.428
				线性核函数的支持向量机	0.860	0.835	0.844
多项式核函数的支持向量机	0.056	0.237	0.091
				高斯核函数的支持向量机	0.056	0.237	0.091
Sigmoid核函数的支持向量机	0.056	0.237	0.091

表4各用户画像技术方案最优参数集

其中，k最近邻的参数n_neighbors表示k近邻算法中的邻居数；alpha表示多项式朴素贝叶斯的一个平滑参数；c表示支持向量机训练时的惩罚因子，c越大惩罚力度越大，对分类错误的样本越关注；degree表示多项式核函数的支持向量机的参数d。此外，因为以上模型是在二维的TF-IDF空间训练，k最近邻的相似性度量函数采取欧几里得距离函数，而高斯朴素贝叶斯以及伯努利朴素贝叶斯没有参数值得优化，故没有使用网格搜索。

本节实验分析如下：

由表2可知，本节实验中专家类别一共有12个，每个样本属于且只属于一个类别。因此，随机根据一篇关于专家的文档进行分类，其正确结果在1/12左右。而从表3中可以看出，线性核函数的支持向量机准确率不但远高于人工随机选择，而且其在三项评分标准中都远高于其他用户画像技术方案，令人满意！而对于以上实验结果，具体分析有以下几点：

1)本申请提案自主构建了关于国内各高校和科研院所的，多达四万余位专家的大规模数据集。它是第一个关于国内专家信息的数据集，具有一定的首创性。此外，此数据集具有准确性高，自动获取，增量更新等特点；

2)本申请提案首次信息检索和数据挖掘中的经典算法，TF-IDF算法用于专家的用户画像领域中。本申请提案通过实现TF-IDF算法，计算每位专家对应文档中词语的TF-IDF值，获取专家信息的特征，较好地反映了专家的用户画像与其文本信息之间的隐含关系；

3)在最终的实验结果中，k最近邻虽具有思想简单，无需训练等优点，但是也正是由于其算法自身特点，分类结果容易偏向于样本数量多的类别。恰巧本实验样本中，各类之间的样本数差别较大，比如B2类别的样本数是B3类别的4倍多。这无疑会对算法结果带来负面影响，而k最近邻受此影响最为严重。

4)朴素贝叶斯算法基于贝叶斯定理和属性条件独立性假设，具有参数较少，易于实现等优点。与k最近邻相比，朴素贝叶斯算法使用概率论的理论知识，挖掘出样本分布等深层次特征。因此，朴素贝叶斯算法的分类效果往往比k最近邻好。具体到朴素贝叶斯的三种版本，它们在三项评分标准中的得分略有差异。它们的本质区别在于对数据分布的假设不同。而文本分类问题中，文本信息分布可能更偏向于多项式分布。这也是在文本分类领域中，多项式朴素贝叶斯的实验结果较好的原因之一。

5)支持向量机泛化能力强，拥有很好的鲁棒性，通过采用空间映射的思想和核函数的技巧解决了非线性分类问题，很好地避免了维灾难问题。因此，支持向量机往往分类效果要优于朴素贝叶斯，k最近邻。然而，核函数的选择对于支持向量机的分类结果有着举足轻重的影响。因此，正如实验结果所示，不同核函数的支持向量机的实验结果是完全不同的。从表3可以得知，线性核函数的支持向量机在三项评分指标的得分远远高于其他核函数的支持向量机。至于线性核函数的支持向量机的实验结果优于其他核函数，应该是因为样本分布所处的原始空间是线性可分的，映射到高维的特征空间反而适得其反。这一点也可以从多项式核函数的参数d的最佳值等于1的事实看出。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于支持向量机的面向智能专家推荐的用户画像方法，其步骤包括：

1)利用设定专家的个人信息，获取一专家信息数据集；

2.如权利要求1所述的方法，其特征在于，所述支持向量机模型为线性核函数的支持向量机模型，支持向量机训练时的惩罚因子c取值为1.6。

3.如权利要求1所述的方法，其特征在于，所述支持向量机模型的为多项式朴素贝叶斯，其中多项式朴素贝叶斯的平滑参数alpha取值为0.001。

4.如权利要求1所述的方法，其特征在于，所述支持向量机模型为多项式核函数的支持向量机；其中，degree取值为1、支持向量机训练时的惩罚因子c取值为1.7。

5.如权利要求1所述的方法，其特征在于，所述支持向量机模型为高斯核函数的支持向量机，支持向量机训练时的惩罚因子c取值为1.7。

6.如权利要求1所述的方法，其特征在于，所述支持向量机模型为Sigmoid核函数的支持向量机，支持向量机训练时的惩罚因子c取值为1.7。

7.如权利要求1所述的方法，其特征在于，步骤2)中，对每一条专家信息首先去除标点符号、数字和不可见字符，然后进行中文分词，然后去除分词结果中的停用词和低频词，将专家的文本信息处理为一个由词语序列构建而成的句子。

8.如权利要求1所述的方法，其特征在于，训练支持向量机模型过程中利用网格搜索寻求支持向量机的最优参数集以使支持向量机模型最优化。

9.如权利要求1所述的方法，其特征在于，利用选定的专家个人信息，获取并增量更新百度百科上的各高校与科研院所的专家的百度词条信息，生成专家信息数据集。