CN112580332A

CN112580332A - 一种基于标签分层延深建模的企业画像方法

Info

Publication number: CN112580332A
Application number: CN202011303829.0A
Authority: CN
Inventors: 李翔; 丁行硕; 王媛媛; 朱全银; 高尚兵; 王留洋; 马甲林; 张柯文; 成洁怡
Original assignee: Huaiyin Institute of Technology
Current assignee: Yami Technology Guangzhou Co ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-03-30
Anticipated expiration: 2040-11-19
Also published as: CN112580332B

Abstract

发明公开了一种基于标签分层延深建模的企业画像方法，首先对企业模糊标签进行统计和筛选，筛选出如批发业、零售业等不能完整概括企业特点的标签，使用Bert模型依据企业经营范围和企业标签对筛选出的标签进行分类延深；然后将企业名称、企业简介、经营范围信息整合，基于预先建立好的企业词库进行特征拓展，分别使用TextRank、TF‑IDF、LDA主题模型从综合信息中抽取关键词，将处理后的关键词作为更深层的企业延深标签；最后，将本建模方法应用到企业画像***中，优化标签精确概括能力。本发明普遍适用于标签延深建模和标签提取问题，充分考虑了标签延深的层次关系，可以有效的提高标签和企业画像***的准确度。

Description

一种基于标签分层延深建模的企业画像方法

技术领域

本发明属于企业画像和自然语言处理技术领域，特别涉及一种基于标签分层延深建模的企业画像方法。

背景技术

本发明中的标签分层延深对画像技术有重要的作用和意义。在面对画像标签问题的时候，研究者们通常会选择分类匹配，但是这种模型存在明显的不足，忽视了标签的由浅入深的分层关系，标签无法精确概括企业特点，且无法对标签做进一步的延深建模。因此，通过结合神经网络和自然语言处理能够很好的解决标签延深建模问题，从而提高标签和画像***的准确度。

李翔、朱全银等人已有的研究基础包括：X.Li,Z.Wang,S.Gao,R.Hu,Q.Zhu andL.Wang,"An Intelligent Context-Aware Management Framework for Cold ChainLogistics Distribution,"in IEEE Transactions on Intelligent TransportationSystems.doi:10.1109/TITS.2018.2889069；X.Li,Z.Wang,L.Wang,R.Hu and Q.Zhu,"AMulti-Dimensional Context-Aware Recommendation Approach Based on ImprovedRandom Forest Algorithm,"in IEEE Access,vol.6,pp.45071-45085,2018,doi:10.1109/ACCESS.2018.2865436；Li,X.,Wang,Z.,Hu,R.et al.Recommendation algorithmbased on improved spectral clustering and transfer learning.Pattern AnalApplic 22,633–647(2019)；李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759；李翔、朱全银等人申请、公开与授权的相关专利：朱全银,潘舒新,李翔等.一种多维度网页浏览行为评估方法.发明专利号ZL2017100546758.1，2020.02.07；朱全银,李翔,胡荣林等.一种科技新闻的增量学习多层次二分类方法.发明专利号ZL 201510642902.X，2018.08.10；朱全银,邵武杰,李翔等.一种科学新闻标题的多层次多分类方法.发明专利号ZL 201610114278.0，2019.04.19；朱全银,尹永华,李翔等.一种基于神经网络的多品种商品价格预测的数据预处理方法.发明专利号ZL201210325368.6，2016.06.08；朱全银,辛诚,李翔等.一种基于K-means和LDA双向验证的网络行为习惯聚类方法.发明专利号ZL 201610565749.X，2019.06.11。

企业画像：

企业画像是大数据时代下的产物，是基于用户画像而产生，它通过企业的基本信息，抽取出标签化的企业模型，使用图表的形式将企业信息全方位展示出来。企业画像标签的建立是通过最基础的统计类标签，以及企业用户行为而产生的规则类标签，最后在使用数据挖掘对企业某些属性进行预测判断，挖掘潜在的价值信息，这些标签就组成了企业画像的标签体系。企业画像能够形象展示出一个企业的综合实力，当企业在进行项目合作时，可以将画像信息作为重要依据。同时还可以减少企业之间的竞争，使企业趋利避害。而对于政府，了解企业信息有利于对企业进行监管。

杨灵运，杨文峰等.一种提供企业画像的方法及***：CN111666377A,2020.06.03，此发明提供了一种企业画像的方法和***，通过采集企业的标识信息，进行分析处理标签数据建立企业画像，此发明虽然提供了企业画像的构建方法，但并没有对标签进行更深层的研究；许青圆，王启力等.一种创建企业画像的方法及装置：CN108572967A，2018.09.25，此发明提出了一种创建企业画像的方法及***，通过获取企业画像数据进行分类，然后对分类后数据与企业信息进行匹配，此发明虽然能够将企业标签进行划分，但分类后的标签概括能力有限，无法精准描述企业特点；倪晓春，曾帅等.一种基于回归模型建立企业画像的方法：CN105512245A，2016.4.20，此发明基于回归模型建立企业画像，该方法充分利用了文本的潜在语义信息，来弥补传统企业画像的不足，但没有考虑到标签由浅入深的递进关系，只是将特征词进行了拓展抽取。

上述各发明在处理相关领域时都取得了显著的效果，但传统的企业画像还存在以下问题：1、传统企业画像的标签定义模糊，不能充分刻画企业特点，导致标签准确率下降；2、传统企业画像没有对标签进行由浅入深的延深建模，无法提取到更适合企业特点的关键词汇。针对这些问题，本发明提出了一种基于标签分层延深建模的企业画像方法及***。该方法首先对企业模糊标签进行统计和筛选，筛选出不能完整概括企业特点的标签，使用Bert模型依据企业经营范围和统计标签对筛选出的标签进行分类延深；然后将信息整合，基于预先建立好的企业库进行特征拓展，使用多种算法抽取关键词作为更深层的企业延深标签。本发明普遍适用于标签延深建模和标签提取问题，充分考虑了标签延深的层次关系，可以有效的提高标签和企业画像***的准确度。

发明内容

发明目的：针对现有技术中存在的问题，本发明提出一种基于标签分层延深建模的企业画像方法，能够精确刻画企业特点，弥补传统企业画像的不足，提高实际应用效率。

技术方案：为解决上述技术问题，本发明提供一种基于标签分层延深建模的企业画像方法，具体步骤如下：

(1)对企业标签数据集D和企业多源数据集D1进行去重、去空，清洗后得到企业数据集D2和D3；

(2)统计和筛选数据集D2，筛选出不能完整概括企业特点的标签数据集，将其定义为D4，并统计出所有标签集合作为延深依据；

(3)构建Bert模型，将数据集D4作为模型的输入，在进行语义学习后，使用softmax层进行第一层标签的分类延深；

(4)将D3数据集中的企业名称、企业简介、经营范围信息整合，分别使用TextRank、TF-IDF、LDA主题模型进行关键词抽取，然后对抽取后的关键词进行处理，将处理后的词作为下一层的延深标签；

(5)基于此标签延深方法，将本方法应用到企业画像***中，提高标签和企业画像***的准确度。

进一步的，所述步骤(1)中得到企业数据集D2和D3的具体方法为：

(1.1)定义Text为单个多源待清洗信息集，定义id,content1,content2，content3分别为企业序号、企业名称、企业简介和企业经营范围，并且满足关系

Text＝{id,content1,content2,content3}；

(1.2)定义Text1为单个企业经营范围待清洗信息集，定义id,content3,label分别为企业序号、企业经营范围和企业标签，并且满足关系Text1＝{id,content3,label}；

(1.3)定义D为第一层标签延深待清洗数据集，D1为下一层标签延深待清洗数据集，D＝{Text1₁,Text1₂,…,Text1_a,…,Text1_len(D)}，Text1_a为D中第a个待清洗企业标签数据，D1＝{Text₁,Text₂,…,Text_a1,…,Text_len(D1)}，Text_a1为D1中第a个待清洗企业多源数据，其中len(D)为D中文本数量，变量a∈[1,len(D)]，len(D1)为D1中文本数量，变量a1∈[1,len(D1)]；

(1.4)对数据集D中的文本进行去重和去空操作后，得到清洗后第一层企业数据集D2＝{T₁,T₂,…,T_b,…,T_len(D2)}，T_b为D2中第b个待处理企业标签数据，其中，len(D2)为D2中文本数量，变量b∈[1,len(D2)]；

(1.5)对数据集D1中的文本进行去重和去空操作后，得到下一层企业数据集D3＝{T₁,T₂,…,T_b1,…,T_len(D3)}，T_b1为D3中第b个待处理企业多源数据，其中，len(D3)为D3中文本数量，变量b1∈[1,len(D3)]。

进一步的，所述步骤(2)中筛选出不能完整概括企业特点的标签数据集，将其定义为D4，并统计出所有标签集合作为延深依据的具体方法为：

(2.1)对D2数据集进行筛选，筛选出如批发业、零售业等不能完整概括企业特点，却能被其它标签延深的数据集，定义D4＝{T₁,T₂,…,T_c,…,T_len(D4)}为筛选后的数据集，D5＝{T₁,T₂,…,T_d,…,T_len(D5)}为其余数据集，D4的标签类别数为n，list4表示D4的标签集合；

(2.2)对D5数据集进行统计，统计出所有标签作为延深依据，m为D5数据集的类别数，list5为D5的标签集合；

(2.3)将list5的标签集合作为标签分类延深的label；

(2.4)将第一层数据集D5作为训练集，并依据list5标签集合对D4数据集进行分类延深。

进一步的，所述步骤(3)中使用softmax层进行第一层标签的分类延深的具体方法为：

(3.1)建立Bert模型，使用D5训练集进行模型训练；

(3.2)处理数据集D4，将待处理文本内容T_c固定为统一长度L_max；

(3.3)定义循环变量i，且i赋初值为1；

(3.4)如果i≤len(D4)则跳转到步骤(3.5)，否则跳转到步骤(3.9)；

(3.5)定义len(T_i)为文本中第i个文本信息的长度，如果len(T_i)+2≤L_max则补0后跳转下一步，否则截取文本前L_max个单位，跳转下一步；

(3.6)i＝i+1；

(3.7)将每个文本送入BERT模型中的Token Embeddings层，输出结果表示为V1，同时在Segment Embeddings层和Position Embeddings层抽取出文本信息和位置信息，输出结果表示为V2和V3；

(3.8)将三种不同输出V1、V2和V3相加，得到的结果表示为V，将向量V作为BERT模型的输入，在最后一层神经元得到字向量序列s_i＝{V(W₁),V(W₂),…,V(W_f),…,V(W_Lmax)}；其中V(W_f)为第f个结合文本信息的向量表示；

(3.9)结束循环，输出字向量序列S＝{s₁,s₂,s₃,…,s_f,…,s_len(D3)}；

(3.10)将向量序列使用softmax函数进行文档分类预测，得到分类概率预测向量P＝{p₁,p₂,…,p_g,…,p_h}，其中p_g表示该文本第g类的概率，h为类别总数；

(3.11)查找向量P中的最大值，并将最大值对应的的结果输出，即标签分类延深结果y。

进一步的，所述步骤(4)中将处理后的词作为下一层的延深标签的具体方法为：

(4.1)步骤(1.5)中清洗后数据集D3＝{T₁,T₂,…,T_b1,…,T_len(D3)}，且T＝{id,content1,content2,content3}，其中id,content1,content2，content3分别为企业序号、企业名称、企业简介和企业经营范围；

(4.2)定义D6为待整合数据集，len(D6)为D6中待整合文本数量，D6＝{T₁,T₂,…,T_a,…,T_len(D6)}；

(4.3)将企业名称、企业简介、经营范围信息整合，整合后企业文本为content4，且满足T1＝{id,content4}，D7＝{T1₁,T1₂,…,T1_a,…,T1_len(D7)}，其中T1为单个整合后文本，D7为整合后企业数据集；

(4.4)对影响抽取结果的词语进行统计，建立停用词词典；

(4.5)通过收集企业领域专业词汇建立企业字典；

(4.6)使用TextRank对D7企业整合数据集中所有名词进行关键词抽取，得到抽取结果K1集合；

(4.7)然后使用TF-IDF对D7企业整合数据集中所有名词进行关键词抽取，得到抽取结果K2集合；

(4.8)最后使用LDA主题模型对D7企业整合数据集中所有名词进行关键词抽取，得到抽取结果K3集合；

(4.9)对抽取出的K1、K2和K3关键词集合进行整理与合并，得到关键词集合K，其中K＝{W₁,W₂,…,W_i,…,W_len(D7)}，W_i为单个企业关键词集合，i<len(D7)；

(4.10)将抽取出的关键词W_i作为进一步的延深标签；

(4.11)统计获得的标签，按照层次关系为企业打上所有标签。

进一步的，所述步骤(5)中基于此标签延深方法，将本方法应用到企业画像***中，提高标签和企业画像***的准确度的具体方法为：

(5.1)企业画像***包括预处理模块、标签分类延深模块、关键词抽取延深模块、标签整合模块、画像展示模块；

(5.2)输入待延深企业文本，预处理模块对文本进行预处理，去除噪声；

(5.3)将预处理后的企业文本传入标签分类延深模块进行标签的分类延深；

(5.4)将企业名称、企业简介、经营范围信息整合，在关键词抽取延深模块中进一步丰富标签内容；

(5.5)在标签整合模块对延深后的所有标签进行整合，并为企业打上所有标签；

(5.6)生成企业画像信息，通过画像展示模块将标签信息进行展示。

本发明采用上述技术方案，具有以下有益效果：

本发明基于已有的企业文本标签数据集，利用Bert和关键词抽取进行标签分层延深建模，具体描述如下：本发明利用Bert模型对企业经营范围数据集进行第一层的分类延深，然后在结合多种抽取算法对整合后的数据集进行进一步的抽取延深，最后通过标签整合，使标签能够精确刻画企业特点，同时优化标签建模的速率，缩减从业者的工作时长，提高企业画像***的运行效率。

附图说明

图1为本发明总体流程图；

图2为具体实施例中数据清洗流程图；

图3为具体实施例中统计筛选数据流程图；

图4为具体实施例中Bert模型分类延深流程图；

图5为具体实施例中关键词抽取延深流程图；

图6为具体实施例中企业画像***应用流程图。

具体实施方式

下面结合工程国家标准的具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1-图6所示，本发明所述的一种基于标签分层延深建模的企业画像方法，包括如下步骤：

步骤1：对企业标签数据集D和企业多源数据D1进行去重、去空，清洗后得到企业数据集D2和D3，具体方法为：

步骤1.1：定义Text为单个多源待清洗信息集，定义id,content1,content2，content3分别为企业序号、企业名称、企业简介和企业经营范围，并且满足关系Text＝{id,content1,content2,content3}；

步骤1.2：定义Text1为单个企业经营范围待清洗信息集，定义id,content3,label分别为企业序号、企业经营范围和企业标签，并且满足关系Text1＝{id,content3,label}；

步骤1.3：定义D为第一层标签延深待清洗数据集，D1为下一层标签延深待清洗数据集，D＝{Text1₁,Text1₂,…,Text1_a,…,Text1_len(D)}，Text1_a为D中第a个待清洗企业标签数据，D1＝{Text₁,Text₂,…,Text_a1,…,Text_len(D1)}，Text_a1为D1中第a个待清洗企业多源数据，其中len(D)为D中文本数量，变量a∈[1,len(D)]，len(D1)为D1中文本数量，变量a1∈[1,len(D1)]；

步骤1.4：对数据集D中的文本进行去重和去空操作后，得到清洗后第一层企业数据集D2＝{T₁,T₂,…,T_b,…,T_len(D2)}，T_b为D2中第b个待处理企业标签数据，其中，len(D2)为D2中文本数量，变量b∈[1,len(D2)]；

步骤1.5：对数据集D1中的文本进行去重和去空操作后，得到下一层企业数据集D3＝{T₁,T₂,…,T_b1,…,T_len(D3)}，T_b1为D3中第b个待处理企业多源数据，其中，len(D3)为D3中文本数量，变量b1∈[1,len(D3)]。

步骤2：统计和筛选数据集D2，筛选出不能完整概括企业特点的标签数据集，将其定义为D4，并统计出所有标签集合作为延深依据，具体方法为：

步骤2.1：对D2数据集进行筛选，筛选出如批发业、零售业等不能完整概括企业特点，却能被其它标签延深的数据集，定义D4＝{T₁,T₂,…,T_c,…,T_len(D4)}为筛选后的数据集，D5＝{T₁,T₂,…,T_d,…,T_len(D5)}为其余数据集，D4的标签类别数为n，list4表示D4的标签集合；

步骤2.2：对D5数据集进行统计，统计出所有标签作为延深依据，m为D5数据集的类别数，list5为D5的标签集合；

步骤2.3：将list5的标签集合作为标签分类延深的label；

步骤2.4：将第一层数据集D5作为训练集，并依据list5标签集合对D4数据集进行分类延深。

步骤3：构建Bert模型，将数据集D4作为模型的输入，在进行语义学习后，使用softmax层进行第一层标签的分类延深，具体方法为：

步骤3.1：建立Bert模型，使用D5训练集进行模型训练；

步骤3.2：处理数据集D4，将待处理文本内容T_c固定为统一长度L_max；

步骤3.3：定义循环变量i，且i赋初值为1；

步骤3.4：如果i≤len(D4)则跳转到步骤3.5，否则跳转到步骤3.9；

步骤3.5：定义len(T_i)为文本中第i个文本信息的长度，如果len(T_i)+2≤L_max则补0后跳转下一步，否则截取文本前L_max个单位，跳转下一步；

步骤3.6：i＝i+1；

步骤3.7：将每个文本送入BERT模型中的Token Embeddings层，输出结果表示为V1，同时在Segment Embeddings层和Position Embeddings层抽取出文本信息和位置信息，输出结果表示为V2和V3；

步骤3.8：将三种不同输出V1、V2和V3相加，得到的结果表示为V，将向量V作为BERT模型的输入，在最后一层神经元得到字向量序列s_i＝{V(W₁),V(W₂),…,V(W_f),…,V(W_Lmax)}；其中V(W_f)为第f个结合文本信息的向量表示；

步骤3.9：结束循环，输出字向量序列S＝{s₁,s₂,s₃,…,s_f,…,s_len(D3)}；

步骤3.10：将向量序列使用softmax函数进行文档分类预测，得到分类概率预测向量P＝{p₁,p₂,…,p_g,…,p_h}，其中p_g表示该文本第g类的概率，h为类别总数；

步骤3.11：查找向量P中的最大值，并将最大值对应的的结果输出，即标签分类延深结果y。

步骤4：将D3数据集中的企业名称、企业简介、经营范围信息整合，分别使用TextRank、TF-IDF、LDA主题模型进行关键词抽取，然后对抽取后的关键词进行处理，将处理后的词作为下一层的延深标签，具体方法为：

步骤4.1：步骤1.5中清洗后数据集D3＝{T₁,T₂,…,T_b1,…,T_len(D3)}，且T＝{id,content1,content2,content3}，其中id,content1,content2，content3分别为企业序号、企业名称、企业简介和企业经营范围；

步骤4.2：定义D6为待整合数据集，len(D6)为D6中待整合文本数量，D6＝{T₁,T₂,…,T_a,…,T_len(D6)}；

步骤4.3：将企业名称、企业简介、经营范围信息整合，整合后企业文本为content4，且满足T1＝{id,content4}，D7＝{T1₁,T1₂,…,T1_a,…,T1_len(D7)}，其中T1为单个整合后文本，D7为整合后企业数据集；

步骤4.4：对影响抽取结果的词语进行统计，建立停用词词典；

步骤4.5：通过收集企业领域专业词汇建立企业字典；

步骤4.6：使用TextRank对D7企业整合数据集中所有名词进行关键词抽取，得到抽取结果K1集合；

步骤4.7：然后使用TF-IDF对D7企业整合数据集中所有名词进行关键词抽取，得到抽取结果K2集合；

步骤4.8：最后使用LDA主题模型对D7企业整合数据集中所有名词进行关键词抽取，得到抽取结果K3集合；

步骤4.9：对抽取出的K1、K2和K3关键词集合进行整理与合并，得到关键词集合K，其中K＝{W₁,W₂,…,W_i,…,W_len(D7)}，W_i为单个企业关键词集合，i<len(D7)；

步骤4.10：将抽取出的关键词W_i作为进一步的延深标签；

步骤4.11：统计获得的标签，按照层次关系为企业打上所有标签。

步骤5：基于此标签延深方法，将本方法应用到企业画像***中，提高标签和企业画像***的准确度，具体方法为：

步骤5.1：企业画像***包括预处理模块、标签分类延深模块、关键词抽取延深模块、标签整合模块、画像展示模块；

步骤5.2：输入待延深企业文本，预处理模块对文本进行预处理，去除噪声；

步骤5.3：将预处理后的企业文本传入标签分类延深模块进行标签的分类延深；

步骤5.4：将企业名称、企业简介、经营范围信息整合，在关键词抽取延深模块中进一步丰富标签内容；

步骤5.5：在标签整合模块对延深后的所有标签进行整合，并为企业打上所有标签；

步骤5.6：生成企业画像信息，通过画像展示模块将标签信息进行展示。

表1变量说明表

以上所述仅为本发明的实施例子而己，并不用于限制本发明。凡在本发明的原则之内，所作的等同替换，均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims

1.一种基于标签分层延深建模的企业画像方法，其特征在于，具体步骤如下：

2.根据权利要求1所述的一种基于标签分层延深建模的企业画像方法，其特征在于，所述步骤(1)中得到企业数据集D2和D3的具体方法为：