CN112580332A - 一种基于标签分层延深建模的企业画像方法 - Google Patents

一种基于标签分层延深建模的企业画像方法 Download PDF

Info

Publication number
CN112580332A
CN112580332A CN202011303829.0A CN202011303829A CN112580332A CN 112580332 A CN112580332 A CN 112580332A CN 202011303829 A CN202011303829 A CN 202011303829A CN 112580332 A CN112580332 A CN 112580332A
Authority
CN
China
Prior art keywords
enterprise
deepening
label
len
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011303829.0A
Other languages
English (en)
Other versions
CN112580332B (zh
Inventor
李翔
丁行硕
王媛媛
朱全银
高尚兵
王留洋
马甲林
张柯文
成洁怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202011303829.0A priority Critical patent/CN112580332B/zh
Publication of CN112580332A publication Critical patent/CN112580332A/zh
Application granted granted Critical
Publication of CN112580332B publication Critical patent/CN112580332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

发明公开了一种基于标签分层延深建模的企业画像方法,首先对企业模糊标签进行统计和筛选,筛选出如批发业、零售业等不能完整概括企业特点的标签,使用Bert模型依据企业经营范围和企业标签对筛选出的标签进行分类延深;然后将企业名称、企业简介、经营范围信息整合,基于预先建立好的企业词库进行特征拓展,分别使用TextRank、TF‑IDF、LDA主题模型从综合信息中抽取关键词,将处理后的关键词作为更深层的企业延深标签;最后,将本建模方法应用到企业画像***中,优化标签精确概括能力。本发明普遍适用于标签延深建模和标签提取问题,充分考虑了标签延深的层次关系,可以有效的提高标签和企业画像***的准确度。

Description

一种基于标签分层延深建模的企业画像方法
技术领域
本发明属于企业画像和自然语言处理技术领域,特别涉及一种基于标签分层延深建模的企业画像方法。
背景技术
本发明中的标签分层延深对画像技术有重要的作用和意义。在面对画像标签问题的时候,研究者们通常会选择分类匹配,但是这种模型存在明显的不足,忽视了标签的由浅入深的分层关系,标签无法精确概括企业特点,且无法对标签做进一步的延深建模。因此,通过结合神经网络和自然语言处理能够很好的解决标签延深建模问题,从而提高标签和画像***的准确度。
李翔、朱全银等人已有的研究基础包括:X.Li,Z.Wang,S.Gao,R.Hu,Q.Zhu andL.Wang,"An Intelligent Context-Aware Management Framework for Cold ChainLogistics Distribution,"in IEEE Transactions on Intelligent TransportationSystems.doi:10.1109/TITS.2018.2889069;X.Li,Z.Wang,L.Wang,R.Hu and Q.Zhu,"AMulti-Dimensional Context-Aware Recommendation Approach Based on ImprovedRandom Forest Algorithm,"in IEEE Access,vol.6,pp.45071-45085,2018,doi:10.1109/ACCESS.2018.2865436;Li,X.,Wang,Z.,Hu,R.et al.Recommendation algorithmbased on improved spectral clustering and transfer learning.Pattern AnalApplic 22,633–647(2019);李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;李翔、朱全银等人申请、公开与授权的相关专利:朱全银,潘舒新,李翔等.一种多维度网页浏览行为评估方法.发明专利号ZL2017100546758.1,2020.02.07;朱全银,李翔,胡荣林等.一种科技新闻的增量学习多层次二分类方法.发明专利号ZL 201510642902.X,2018.08.10;朱全银,邵武杰,李翔等.一种科学新闻标题的多层次多分类方法.发明专利号ZL 201610114278.0,2019.04.19;朱全银,尹永华,李翔等.一种基于神经网络的多品种商品价格预测的数据预处理方法.发明专利号ZL201210325368.6,2016.06.08;朱全银,辛诚,李翔等.一种基于K-means和LDA双向验证的网络行为习惯聚类方法.发明专利号ZL 201610565749.X,2019.06.11。
企业画像:
企业画像是大数据时代下的产物,是基于用户画像而产生,它通过企业的基本信息,抽取出标签化的企业模型,使用图表的形式将企业信息全方位展示出来。企业画像标签的建立是通过最基础的统计类标签,以及企业用户行为而产生的规则类标签,最后在使用数据挖掘对企业某些属性进行预测判断,挖掘潜在的价值信息,这些标签就组成了企业画像的标签体系。企业画像能够形象展示出一个企业的综合实力,当企业在进行项目合作时,可以将画像信息作为重要依据。同时还可以减少企业之间的竞争,使企业趋利避害。而对于政府,了解企业信息有利于对企业进行监管。
杨灵运,杨文峰等.一种提供企业画像的方法及***:CN111666377A,2020.06.03,此发明提供了一种企业画像的方法和***,通过采集企业的标识信息,进行分析处理标签数据建立企业画像,此发明虽然提供了企业画像的构建方法,但并没有对标签进行更深层的研究;许青圆,王启力等.一种创建企业画像的方法及装置:CN108572967A,2018.09.25,此发明提出了一种创建企业画像的方法及***,通过获取企业画像数据进行分类,然后对分类后数据与企业信息进行匹配,此发明虽然能够将企业标签进行划分,但分类后的标签概括能力有限,无法精准描述企业特点;倪晓春,曾帅等.一种基于回归模型建立企业画像的方法:CN105512245A,2016.4.20,此发明基于回归模型建立企业画像,该方法充分利用了文本的潜在语义信息,来弥补传统企业画像的不足,但没有考虑到标签由浅入深的递进关系,只是将特征词进行了拓展抽取。
上述各发明在处理相关领域时都取得了显著的效果,但传统的企业画像还存在以下问题:1、传统企业画像的标签定义模糊,不能充分刻画企业特点,导致标签准确率下降;2、传统企业画像没有对标签进行由浅入深的延深建模,无法提取到更适合企业特点的关键词汇。针对这些问题,本发明提出了一种基于标签分层延深建模的企业画像方法及***。该方法首先对企业模糊标签进行统计和筛选,筛选出不能完整概括企业特点的标签,使用Bert模型依据企业经营范围和统计标签对筛选出的标签进行分类延深;然后将信息整合,基于预先建立好的企业库进行特征拓展,使用多种算法抽取关键词作为更深层的企业延深标签。本发明普遍适用于标签延深建模和标签提取问题,充分考虑了标签延深的层次关系,可以有效的提高标签和企业画像***的准确度。
发明内容
发明目的:针对现有技术中存在的问题,本发明提出一种基于标签分层延深建模的企业画像方法,能够精确刻画企业特点,弥补传统企业画像的不足,提高实际应用效率。
技术方案:为解决上述技术问题,本发明提供一种基于标签分层延深建模的企业画像方法,具体步骤如下:
(1)对企业标签数据集D和企业多源数据集D1进行去重、去空,清洗后得到企业数据集D2和D3;
(2)统计和筛选数据集D2,筛选出不能完整概括企业特点的标签数据集,将其定义为D4,并统计出所有标签集合作为延深依据;
(3)构建Bert模型,将数据集D4作为模型的输入,在进行语义学习后,使用softmax层进行第一层标签的分类延深;
(4)将D3数据集中的企业名称、企业简介、经营范围信息整合,分别使用TextRank、TF-IDF、LDA主题模型进行关键词抽取,然后对抽取后的关键词进行处理,将处理后的词作为下一层的延深标签;
(5)基于此标签延深方法,将本方法应用到企业画像***中,提高标签和企业画像***的准确度。
进一步的,所述步骤(1)中得到企业数据集D2和D3的具体方法为:
(1.1)定义Text为单个多源待清洗信息集,定义id,content1,content2,content3分别为企业序号、企业名称、企业简介和企业经营范围,并且满足关系
Text={id,content1,content2,content3};
(1.2)定义Text1为单个企业经营范围待清洗信息集,定义id,content3,label分别为企业序号、企业经营范围和企业标签,并且满足关系Text1={id,content3,label};
(1.3)定义D为第一层标签延深待清洗数据集,D1为下一层标签延深待清洗数据集,D={Text11,Text12,…,Text1a,…,Text1len(D)},Text1a为D中第a个待清洗企业标签数据,D1={Text1,Text2,…,Texta1,…,Textlen(D1)},Texta1为D1中第a个待清洗企业多源数据,其中len(D)为D中文本数量,变量a∈[1,len(D)],len(D1)为D1中文本数量,变量a1∈[1,len(D1)];
(1.4)对数据集D中的文本进行去重和去空操作后,得到清洗后第一层企业数据集D2={T1,T2,…,Tb,…,Tlen(D2)},Tb为D2中第b个待处理企业标签数据,其中,len(D2)为D2中文本数量,变量b∈[1,len(D2)];
(1.5)对数据集D1中的文本进行去重和去空操作后,得到下一层企业数据集D3={T1,T2,…,Tb1,…,Tlen(D3)},Tb1为D3中第b个待处理企业多源数据,其中,len(D3)为D3中文本数量,变量b1∈[1,len(D3)]。
进一步的,所述步骤(2)中筛选出不能完整概括企业特点的标签数据集,将其定义为D4,并统计出所有标签集合作为延深依据的具体方法为:
(2.1)对D2数据集进行筛选,筛选出如批发业、零售业等不能完整概括企业特点,却能被其它标签延深的数据集,定义D4={T1,T2,…,Tc,…,Tlen(D4)}为筛选后的数据集,D5={T1,T2,…,Td,…,Tlen(D5)}为其余数据集,D4的标签类别数为n,list4表示D4的标签集合;
(2.2)对D5数据集进行统计,统计出所有标签作为延深依据,m为D5数据集的类别数,list5为D5的标签集合;
(2.3)将list5的标签集合作为标签分类延深的label;
(2.4)将第一层数据集D5作为训练集,并依据list5标签集合对D4数据集进行分类延深。
进一步的,所述步骤(3)中使用softmax层进行第一层标签的分类延深的具体方法为:
(3.1)建立Bert模型,使用D5训练集进行模型训练;
(3.2)处理数据集D4,将待处理文本内容Tc固定为统一长度Lmax
(3.3)定义循环变量i,且i赋初值为1;
(3.4)如果i≤len(D4)则跳转到步骤(3.5),否则跳转到步骤(3.9);
(3.5)定义len(Ti)为文本中第i个文本信息的长度,如果len(Ti)+2≤Lmax则补0后跳转下一步,否则截取文本前Lmax个单位,跳转下一步;
(3.6)i=i+1;
(3.7)将每个文本送入BERT模型中的Token Embeddings层,输出结果表示为V1,同时在Segment Embeddings层和Position Embeddings层抽取出文本信息和位置信息,输出结果表示为V2和V3;
(3.8)将三种不同输出V1、V2和V3相加,得到的结果表示为V,将向量V作为BERT模型的输入,在最后一层神经元得到字向量序列si={V(W1),V(W2),…,V(Wf),…,V(WLmax)};其中V(Wf)为第f个结合文本信息的向量表示;
(3.9)结束循环,输出字向量序列S={s1,s2,s3,…,sf,…,slen(D3)};
(3.10)将向量序列使用softmax函数进行文档分类预测,得到分类概率预测向量P={p1,p2,…,pg,…,ph},其中pg表示该文本第g类的概率,h为类别总数;
(3.11)查找向量P中的最大值,并将最大值对应的的结果输出,即标签分类延深结果y。
进一步的,所述步骤(4)中将处理后的词作为下一层的延深标签的具体方法为:
(4.1)步骤(1.5)中清洗后数据集D3={T1,T2,…,Tb1,…,Tlen(D3)},且T={id,content1,content2,content3},其中id,content1,content2,content3分别为企业序号、企业名称、企业简介和企业经营范围;
(4.2)定义D6为待整合数据集,len(D6)为D6中待整合文本数量,D6={T1,T2,…,Ta,…,Tlen(D6)};
(4.3)将企业名称、企业简介、经营范围信息整合,整合后企业文本为content4,且满足T1={id,content4},D7={T11,T12,…,T1a,…,T1len(D7)},其中T1为单个整合后文本,D7为整合后企业数据集;
(4.4)对影响抽取结果的词语进行统计,建立停用词词典;
(4.5)通过收集企业领域专业词汇建立企业字典;
(4.6)使用TextRank对D7企业整合数据集中所有名词进行关键词抽取,得到抽取结果K1集合;
(4.7)然后使用TF-IDF对D7企业整合数据集中所有名词进行关键词抽取,得到抽取结果K2集合;
(4.8)最后使用LDA主题模型对D7企业整合数据集中所有名词进行关键词抽取,得到抽取结果K3集合;
(4.9)对抽取出的K1、K2和K3关键词集合进行整理与合并,得到关键词集合K,其中K={W1,W2,…,Wi,…,Wlen(D7)},Wi为单个企业关键词集合,i<len(D7);
(4.10)将抽取出的关键词Wi作为进一步的延深标签;
(4.11)统计获得的标签,按照层次关系为企业打上所有标签。
进一步的,所述步骤(5)中基于此标签延深方法,将本方法应用到企业画像***中,提高标签和企业画像***的准确度的具体方法为:
(5.1)企业画像***包括预处理模块、标签分类延深模块、关键词抽取延深模块、标签整合模块、画像展示模块;
(5.2)输入待延深企业文本,预处理模块对文本进行预处理,去除噪声;
(5.3)将预处理后的企业文本传入标签分类延深模块进行标签的分类延深;
(5.4)将企业名称、企业简介、经营范围信息整合,在关键词抽取延深模块中进一步丰富标签内容;
(5.5)在标签整合模块对延深后的所有标签进行整合,并为企业打上所有标签;
(5.6)生成企业画像信息,通过画像展示模块将标签信息进行展示。
本发明采用上述技术方案,具有以下有益效果:
本发明基于已有的企业文本标签数据集,利用Bert和关键词抽取进行标签分层延深建模,具体描述如下:本发明利用Bert模型对企业经营范围数据集进行第一层的分类延深,然后在结合多种抽取算法对整合后的数据集进行进一步的抽取延深,最后通过标签整合,使标签能够精确刻画企业特点,同时优化标签建模的速率,缩减从业者的工作时长,提高企业画像***的运行效率。
附图说明
图1为本发明总体流程图;
图2为具体实施例中数据清洗流程图;
图3为具体实施例中统计筛选数据流程图;
图4为具体实施例中Bert模型分类延深流程图;
图5为具体实施例中关键词抽取延深流程图;
图6为具体实施例中企业画像***应用流程图。
具体实施方式
下面结合工程国家标准的具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1-图6所示,本发明所述的一种基于标签分层延深建模的企业画像方法,包括如下步骤:
步骤1:对企业标签数据集D和企业多源数据D1进行去重、去空,清洗后得到企业数据集D2和D3,具体方法为:
步骤1.1:定义Text为单个多源待清洗信息集,定义id,content1,content2,content3分别为企业序号、企业名称、企业简介和企业经营范围,并且满足关系Text={id,content1,content2,content3};
步骤1.2:定义Text1为单个企业经营范围待清洗信息集,定义id,content3,label分别为企业序号、企业经营范围和企业标签,并且满足关系Text1={id,content3,label};
步骤1.3:定义D为第一层标签延深待清洗数据集,D1为下一层标签延深待清洗数据集,D={Text11,Text12,…,Text1a,…,Text1len(D)},Text1a为D中第a个待清洗企业标签数据,D1={Text1,Text2,…,Texta1,…,Textlen(D1)},Texta1为D1中第a个待清洗企业多源数据,其中len(D)为D中文本数量,变量a∈[1,len(D)],len(D1)为D1中文本数量,变量a1∈[1,len(D1)];
步骤1.4:对数据集D中的文本进行去重和去空操作后,得到清洗后第一层企业数据集D2={T1,T2,…,Tb,…,Tlen(D2)},Tb为D2中第b个待处理企业标签数据,其中,len(D2)为D2中文本数量,变量b∈[1,len(D2)];
步骤1.5:对数据集D1中的文本进行去重和去空操作后,得到下一层企业数据集D3={T1,T2,…,Tb1,…,Tlen(D3)},Tb1为D3中第b个待处理企业多源数据,其中,len(D3)为D3中文本数量,变量b1∈[1,len(D3)]。
步骤2:统计和筛选数据集D2,筛选出不能完整概括企业特点的标签数据集,将其定义为D4,并统计出所有标签集合作为延深依据,具体方法为:
步骤2.1:对D2数据集进行筛选,筛选出如批发业、零售业等不能完整概括企业特点,却能被其它标签延深的数据集,定义D4={T1,T2,…,Tc,…,Tlen(D4)}为筛选后的数据集,D5={T1,T2,…,Td,…,Tlen(D5)}为其余数据集,D4的标签类别数为n,list4表示D4的标签集合;
步骤2.2:对D5数据集进行统计,统计出所有标签作为延深依据,m为D5数据集的类别数,list5为D5的标签集合;
步骤2.3:将list5的标签集合作为标签分类延深的label;
步骤2.4:将第一层数据集D5作为训练集,并依据list5标签集合对D4数据集进行分类延深。
步骤3:构建Bert模型,将数据集D4作为模型的输入,在进行语义学习后,使用softmax层进行第一层标签的分类延深,具体方法为:
步骤3.1:建立Bert模型,使用D5训练集进行模型训练;
步骤3.2:处理数据集D4,将待处理文本内容Tc固定为统一长度Lmax
步骤3.3:定义循环变量i,且i赋初值为1;
步骤3.4:如果i≤len(D4)则跳转到步骤3.5,否则跳转到步骤3.9;
步骤3.5:定义len(Ti)为文本中第i个文本信息的长度,如果len(Ti)+2≤Lmax则补0后跳转下一步,否则截取文本前Lmax个单位,跳转下一步;
步骤3.6:i=i+1;
步骤3.7:将每个文本送入BERT模型中的Token Embeddings层,输出结果表示为V1,同时在Segment Embeddings层和Position Embeddings层抽取出文本信息和位置信息,输出结果表示为V2和V3;
步骤3.8:将三种不同输出V1、V2和V3相加,得到的结果表示为V,将向量V作为BERT模型的输入,在最后一层神经元得到字向量序列si={V(W1),V(W2),…,V(Wf),…,V(WLmax)};其中V(Wf)为第f个结合文本信息的向量表示;
步骤3.9:结束循环,输出字向量序列S={s1,s2,s3,…,sf,…,slen(D3)};
步骤3.10:将向量序列使用softmax函数进行文档分类预测,得到分类概率预测向量P={p1,p2,…,pg,…,ph},其中pg表示该文本第g类的概率,h为类别总数;
步骤3.11:查找向量P中的最大值,并将最大值对应的的结果输出,即标签分类延深结果y。
步骤4:将D3数据集中的企业名称、企业简介、经营范围信息整合,分别使用TextRank、TF-IDF、LDA主题模型进行关键词抽取,然后对抽取后的关键词进行处理,将处理后的词作为下一层的延深标签,具体方法为:
步骤4.1:步骤1.5中清洗后数据集D3={T1,T2,…,Tb1,…,Tlen(D3)},且T={id,content1,content2,content3},其中id,content1,content2,content3分别为企业序号、企业名称、企业简介和企业经营范围;
步骤4.2:定义D6为待整合数据集,len(D6)为D6中待整合文本数量,D6={T1,T2,…,Ta,…,Tlen(D6)};
步骤4.3:将企业名称、企业简介、经营范围信息整合,整合后企业文本为content4,且满足T1={id,content4},D7={T11,T12,…,T1a,…,T1len(D7)},其中T1为单个整合后文本,D7为整合后企业数据集;
步骤4.4:对影响抽取结果的词语进行统计,建立停用词词典;
步骤4.5:通过收集企业领域专业词汇建立企业字典;
步骤4.6:使用TextRank对D7企业整合数据集中所有名词进行关键词抽取,得到抽取结果K1集合;
步骤4.7:然后使用TF-IDF对D7企业整合数据集中所有名词进行关键词抽取,得到抽取结果K2集合;
步骤4.8:最后使用LDA主题模型对D7企业整合数据集中所有名词进行关键词抽取,得到抽取结果K3集合;
步骤4.9:对抽取出的K1、K2和K3关键词集合进行整理与合并,得到关键词集合K,其中K={W1,W2,…,Wi,…,Wlen(D7)},Wi为单个企业关键词集合,i<len(D7);
步骤4.10:将抽取出的关键词Wi作为进一步的延深标签;
步骤4.11:统计获得的标签,按照层次关系为企业打上所有标签。
步骤5:基于此标签延深方法,将本方法应用到企业画像***中,提高标签和企业画像***的准确度,具体方法为:
步骤5.1:企业画像***包括预处理模块、标签分类延深模块、关键词抽取延深模块、标签整合模块、画像展示模块;
步骤5.2:输入待延深企业文本,预处理模块对文本进行预处理,去除噪声;
步骤5.3:将预处理后的企业文本传入标签分类延深模块进行标签的分类延深;
步骤5.4:将企业名称、企业简介、经营范围信息整合,在关键词抽取延深模块中进一步丰富标签内容;
步骤5.5:在标签整合模块对延深后的所有标签进行整合,并为企业打上所有标签;
步骤5.6:生成企业画像信息,通过画像展示模块将标签信息进行展示。
表1变量说明表
Figure BDA0002787662650000081
Figure BDA0002787662650000091
Figure BDA0002787662650000101
以上所述仅为本发明的实施例子而己,并不用于限制本发明。凡在本发明的原则之内,所作的等同替换,均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims (6)

1.一种基于标签分层延深建模的企业画像方法,其特征在于,具体步骤如下:
(1)对企业标签数据集D和企业多源数据集D1进行去重、去空,清洗后得到企业数据集D2和D3;
(2)统计和筛选数据集D2,筛选出不能完整概括企业特点的标签数据集,将其定义为D4,并统计出所有标签集合作为延深依据;
(3)构建Bert模型,将数据集D4作为模型的输入,在进行语义学习后,使用softmax层进行第一层标签的分类延深;
(4)将D3数据集中的企业名称、企业简介、经营范围信息整合,分别使用TextRank、TF-IDF、LDA主题模型进行关键词抽取,然后对抽取后的关键词进行处理,将处理后的词作为下一层的延深标签;
(5)基于此标签延深方法,将本方法应用到企业画像***中,提高标签和企业画像***的准确度。
2.根据权利要求1所述的一种基于标签分层延深建模的企业画像方法,其特征在于,所述步骤(1)中得到企业数据集D2和D3的具体方法为:
(1.1)定义Text为单个多源待清洗信息集,定义id,content1,content2,content3分别为企业序号、企业名称、企业简介和企业经营范围,并且满足关系
Text={id,content1,content2,content3};
(1.2)定义Text1为单个企业经营范围待清洗信息集,定义id,content3,label分别为企业序号、企业经营范围和企业标签,并且满足关系Text1={id,content3,label};
(1.3)定义D为第一层标签延深待清洗数据集,D1为下一层标签延深待清洗数据集,D={Text11,Text12,…,Text1a,…,Text1len(D)},Text1a为D中第a个待清洗企业标签数据,D1={Text1,Text2,…,Texta1,…,Textlen(D1)},Texta1为D1中第a个待清洗企业多源数据,其中len(D)为D中文本数量,变量a∈[1,len(D)],len(D1)为D1中文本数量,变量a1∈[1,len(D1)];
(1.4)对数据集D中的文本进行去重和去空操作后,得到清洗后第一层企业数据集D2={T1,T2,…,Tb,…,Tlen(D2)},Tb为D2中第b个待处理企业标签数据,其中,len(D2)为D2中文本数量,变量b∈[1,len(D2)];
(1.5)对数据集D1中的文本进行去重和去空操作后,得到下一层企业数据集D3={T1,T2,…,Tb1,…,Tlen(D3)},Tb1为D3中第b个待处理企业多源数据,其中,len(D3)为D3中文本数量,变量b1∈[1,len(D3)]。
3.根据权利要求1所述的一种基于标签分层延深建模的企业画像方法,其特征在于,所述步骤(2)中筛选出不能完整概括企业特点的标签数据集,将其定义为D4,并统计出所有标签集合作为延深依据的具体方法为:
(2.1)对D2数据集进行筛选,筛选出如批发业、零售业等不能完整概括企业特点,却能被其它标签延深的数据集,定义D4={T1,T2,…,Tc,…,Tlen(D4)}为筛选后的数据集,D5={T1,T2,…,Td,…,Tlen(D5)}为其余数据集,D4的标签类别数为n,list4表示D4的标签集合;
(2.2)对D5数据集进行统计,统计出所有标签作为延深依据,m为D5数据集的类别数,list5为D5的标签集合;
(2.3)将list5的标签集合作为标签分类延深的label;
(2.4)将第一层数据集D5作为训练集,并依据list5标签集合对D4数据集进行分类延深。
4.根据权利要求1所述的一种基于标签分层延深建模的企业画像方法,其特征在于,所述步骤(3)中使用softmax层进行第一层标签的分类延深的具体方法为:
(3.1)建立Bert模型,使用D5训练集进行模型训练;
(3.2)处理数据集D4,将待处理文本内容Tc固定为统一长度Lmax
(3.3)定义循环变量i,且i赋初值为1;
(3.4)如果i≤len(D4)则跳转到步骤(3.5),否则跳转到步骤(3.9);
(3.5)定义len(Ti)为文本中第i个文本信息的长度,如果len(Ti)+2≤Lmax则补0后跳转下一步,否则截取文本前Lmax个单位,跳转下一步;
(3.6)i=i+1;
(3.7)将每个文本送入BERT模型中的Token Embeddings层,输出结果表示为V1,同时在Segment Embeddings层和Position Embeddings层抽取出文本信息和位置信息,输出结果表示为V2和V3;
(3.8)将三种不同输出V1、V2和V3相加,得到的结果表示为V,将向量V作为BERT模型的输入,在最后一层神经元得到字向量序列si={V(W1),V(W2),…,V(Wf),…,V(WLmax)};其中V(Wf)为第f个结合文本信息的向量表示;
(3.9)结束循环,输出字向量序列S={s1,s2,s3,…,sf,…,slen(D3)};
(3.10)将向量序列使用softmax函数进行文档分类预测,得到分类概率预测向量P={p1,p2,…,pg,…,ph},其中pg表示该文本第g类的概率,h为类别总数;
(3.11)查找向量P中的最大值,并将最大值对应的的结果输出,即标签分类延深结果y。
5.根据权利要求1所述的一种基于标签分层延深建模的企业画像方法,其特征在于,所述步骤(4)中将处理后的词作为下一层的延深标签的具体方法为:
(4.1)步骤(1.5)中清洗后数据集D3={T1,T2,…,Tb1,…,Tlen(D3)},且T={id,content1,content2,content3},其中id,content1,content2,content3分别为企业序号、企业名称、企业简介和企业经营范围;
(4.2)定义D6为待整合数据集,len(D6)为D6中待整合文本数量,D6={T1,T2,…,Ta,…,Tlen(D6)};
(4.3)将企业名称、企业简介、经营范围信息整合,整合后企业文本为content4,且满足T1={id,content4},D7={T11,T12,…,T1a,…,T1len(D7)},其中T1为单个整合后文本,D7为整合后企业数据集;
(4.4)对影响抽取结果的词语进行统计,建立停用词词典;
(4.5)通过收集企业领域专业词汇建立企业字典;
(4.6)使用TextRank对D7企业整合数据集中所有名词进行关键词抽取,得到抽取结果K1集合;
(4.7)然后使用TF-IDF对D7企业整合数据集中所有名词进行关键词抽取,得到抽取结果K2集合;
(4.8)最后使用LDA主题模型对D7企业整合数据集中所有名词进行关键词抽取,得到抽取结果K3集合;
(4.9)对抽取出的K1、K2和K3关键词集合进行整理与合并,得到关键词集合K,其中K={W1,W2,…,Wi,…,Wlen(D7)},Wi为单个企业关键词集合,i<len(D7);
(4.10)将抽取出的关键词Wi作为进一步的延深标签;
(4.11)统计获得的标签,按照层次关系为企业打上所有标签。
6.根据权利要求1所述的一种基于标签分层延深建模的企业画像方法,其特征在于,所述步骤(5)中基于此标签延深方法,将本方法应用到企业画像***中,提高标签和企业画像***的准确度的具体方法为:
(5.1)企业画像***包括预处理模块、标签分类延深模块、关键词抽取延深模块、标签整合模块、画像展示模块;
(5.2)输入待延深企业文本,预处理模块对文本进行预处理,去除噪声;
(5.3)将预处理后的企业文本传入标签分类延深模块进行标签的分类延深;
(5.4)将企业名称、企业简介、经营范围信息整合,在关键词抽取延深模块中进一步丰富标签内容;
(5.5)在标签整合模块对延深后的所有标签进行整合,并为企业打上所有标签;
(5.6)生成企业画像信息,通过画像展示模块将标签信息进行展示。
CN202011303829.0A 2020-11-19 2020-11-19 一种基于标签分层延深建模的企业画像方法 Active CN112580332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011303829.0A CN112580332B (zh) 2020-11-19 2020-11-19 一种基于标签分层延深建模的企业画像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011303829.0A CN112580332B (zh) 2020-11-19 2020-11-19 一种基于标签分层延深建模的企业画像方法

Publications (2)

Publication Number Publication Date
CN112580332A true CN112580332A (zh) 2021-03-30
CN112580332B CN112580332B (zh) 2022-07-12

Family

ID=75122937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011303829.0A Active CN112580332B (zh) 2020-11-19 2020-11-19 一种基于标签分层延深建模的企业画像方法

Country Status (1)

Country Link
CN (1) CN112580332B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836903A (zh) * 2021-08-17 2021-12-24 淮阴工学院 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置
CN114218380A (zh) * 2021-12-03 2022-03-22 淮阴工学院 基于多模态的冷链配载用户画像标签抽取方法及装置
CN114398485A (zh) * 2021-12-29 2022-04-26 淮阴工学院 基于多视角融合的专家画像构建方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512245A (zh) * 2015-11-30 2016-04-20 青岛智能产业技术研究院 一种基于回归模型建立企业画像的方法
CN110135901A (zh) * 2019-05-10 2019-08-16 重庆天蓬网络有限公司 一种企业用户画像构建方法、***、介质和电子设备
CN110705855A (zh) * 2019-09-23 2020-01-17 清华苏州环境创新研究院 一种企业环境画像评价方法及***
CN111191001A (zh) * 2019-12-23 2020-05-22 浙江大胜达包装股份有限公司 一种面向纸包装及其相关行业的企业多元标签标识方法
CN111950932A (zh) * 2020-08-26 2020-11-17 北京信息科技大学 基于多源信息融合的中小微企业综合质量画像方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512245A (zh) * 2015-11-30 2016-04-20 青岛智能产业技术研究院 一种基于回归模型建立企业画像的方法
CN110135901A (zh) * 2019-05-10 2019-08-16 重庆天蓬网络有限公司 一种企业用户画像构建方法、***、介质和电子设备
CN110705855A (zh) * 2019-09-23 2020-01-17 清华苏州环境创新研究院 一种企业环境画像评价方法及***
CN111191001A (zh) * 2019-12-23 2020-05-22 浙江大胜达包装股份有限公司 一种面向纸包装及其相关行业的企业多元标签标识方法
CN111950932A (zh) * 2020-08-26 2020-11-17 北京信息科技大学 基于多源信息融合的中小微企业综合质量画像方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LACASSE, P.M ET.AL: "A hierarchical, fuzzy inference approach to data filtration and feature prioritization in the connected manufacturing enterprise", 《JOURNAL OF BIG DATA》 *
丁行硕 等: "基于标签分层延深建模的企业画像构建方法", 《计算机应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836903A (zh) * 2021-08-17 2021-12-24 淮阴工学院 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置
CN113836903B (zh) * 2021-08-17 2023-07-18 淮阴工学院 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置
CN114218380A (zh) * 2021-12-03 2022-03-22 淮阴工学院 基于多模态的冷链配载用户画像标签抽取方法及装置
CN114398485A (zh) * 2021-12-29 2022-04-26 淮阴工学院 基于多视角融合的专家画像构建方法及装置

Also Published As

Publication number Publication date
CN112580332B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN112580332B (zh) 一种基于标签分层延深建模的企业画像方法
CN112434151A (zh) 一种专利推荐方法、装置、计算机设备及存储介质
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
Rashid et al. Feature level opinion mining of educational student feedback data using sequential pattern mining and association rule mining
CN111353050A (zh) 一种电信客服垂直领域的词库构建方法及工具
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN112836509A (zh) 一种专家***知识库构建方法及***
TWI828928B (zh) 高擴展性、多標籤的文本分類方法和裝置
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
CN116468460A (zh) 基于人工智能的消费金融客户画像识别***及其方法
CN114942974A (zh) 电商平台商品用户评价情感倾向分类方法
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN116756347B (zh) 一种基于大数据的语义信息检索方法
Sajeevan et al. An enhanced approach for movie review analysis using deep learning techniques
Swami et al. Resume classifier and summarizer
CN107908749A (zh) 一种基于搜索引擎的人物检索***及方法
CN116823321A (zh) 一种电商用经济管理数据分析方法及***
CN117291190A (zh) 一种基于情感词典和lda主题模型的用户需求计算方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
Schmitt et al. Outlier detection on semantic space for sentiment analysis with convolutional neural networks
CN114817533A (zh) 基于时间特征的弹幕情感分析方法
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN111667306A (zh) 面向定制化生产的客户需求识别方法、***及终端
Kalaiarasu et al. Sentiment analysis using improved novel convolutional neural network (SNCNN)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230512

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 223005 Jiangsu Huaian economic and Technological Development Zone, 1 East Road.

Patentee before: HUAIYIN INSTITUTE OF TECHNOLOGY