CN109033132A - 利用知识图谱计算文本和主体相关度的方法以及装置 - Google Patents

利用知识图谱计算文本和主体相关度的方法以及装置 Download PDF

Info

Publication number
CN109033132A
CN109033132A CN201810567101.5A CN201810567101A CN109033132A CN 109033132 A CN109033132 A CN 109033132A CN 201810567101 A CN201810567101 A CN 201810567101A CN 109033132 A CN109033132 A CN 109033132A
Authority
CN
China
Prior art keywords
enterprise
text
candidate
keyword
dominant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810567101.5A
Other languages
English (en)
Other versions
CN109033132B (zh
Inventor
孙雨轩
吴成龙
周劼人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Securities Credit Reporting (shenzhen) Co Ltd
Original Assignee
China Securities Credit Reporting (shenzhen) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Securities Credit Reporting (shenzhen) Co Ltd filed Critical China Securities Credit Reporting (shenzhen) Co Ltd
Priority to CN201810567101.5A priority Critical patent/CN109033132B/zh
Publication of CN109033132A publication Critical patent/CN109033132A/zh
Application granted granted Critical
Publication of CN109033132B publication Critical patent/CN109033132B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种利用知识图谱计算文本和主体相关度的方法以及装置,所述方法包括:获取文本;对文本进行分词处理,提取文本中出现的关键词集合,通过预先建立的知识图谱,检索与关键词相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,其中,所述知识图谱包括目标节点信息、相关联的节点信息、所述目标节点信息与所述相关联的节点信息之间的关系及关联性权重,所述目标节点信息包括第一企业主体信息,所述相关联的节点信息包括与所述第一主体企业主体信息相关联的第二主体信息、产品或自然人信息;根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频计算文本与所述候选的企业主体的关联度。

Description

利用知识图谱计算文本和主体相关度的方法以及装置
技术领域
本发明涉及一种利用知识图谱计算文本和主体相关度的方法以及装置。
背景技术
在信息时代,海量数据的获取和处理分析是一大难点。在一些行业(例如金融行业),人们关注企业各个维度的信息,用以帮助经营投资等决策。一方面,市场参与者需要更广、更全的数据,另一方面,也要求这些数据能够及时地被处理。企业舆情信息是市场参与者重点关注的一个维度,作为一种非结构化文本信息,舆情信息具有数据分散、数据量大、数据格式复杂、及时性强等特点。因此,利用技术手段,如自然语言处理,对这类数据进行高效地处理并提取有价值信息,是众多金融从业者的需求。面对纷繁复杂的舆情信息,如何将其和关注的企业关联起来,筛掉价值不大或跟主体不相关的信息,是进行数据分析和挖掘的重要一步。
将文本信息和企业主体关联,常见的方法,是构建企业主体的关键词库,包括企业的工商名称、企业简称、企业上市代码等,并以此为准,在文本信息库进行关键词匹配检索,将匹配到的文本作为该企业主体的相关信息。该类方法,一方面需要提前构建较全的企业关键词库作为检索依据;另一方面,对匹配检索得到的结果,进行关联程度排序也效果不佳,往往出现文本中出现了关键词,却不是该企业的信息,因此依然会有较多的冗余信息;同时,通过关键词直接匹配关联,对于企业的重点关联企业的重要信息也会疏漏,造成信息丢失。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:提供一种利用知识图谱计算文本和主体相关度的方法以及装置,能够在对海量文本分析时,对传统单用关键词匹配的方式进行了优化。结合知识图谱方法,能够对目标主体关联和文本信息进行关联程度进行量化,丰富了文本信息和目标主体的关联维度,为后续进一步分析提供基础。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种利用知识图谱计算文本与企业主体相关度的方法,包括以下步骤:
获取文本;
对文本进行分词处理,提取文本中出现的关键词集合,通过预先建立的知识图谱,检索与关键词相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,其中,所述知识图谱包括目标节点信息、相关联的节点信息、所述目标节点信息与所述相关联的节点信息之间的关系及关联性权重,所述目标节点信息包括第一企业主体信息,所述相关联的节点信息包括与所述第一主体企业主体信息相关联的第二主体信息、产品或自然人信息;
根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频计算文本与所述候选的企业主体的关联度。
进一步的,在对文本进行分词处理,提取文本中出现的关键词集合,通过预先建立的知识图谱,检索与关键词相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合的步骤中,包括:
对文本进行分词处理,得到所有的关键词以形成关键词集合,所述关键词集合记为K,在所述知识图谱中搜索所述关键词集合K中的关键词,获取与所述关键词集合K相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,所述候选的企业集合记为C。
进一步的,在根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频计算文本与所述候选的企业主体的关联度的步骤中,包括:
令F为关键词集合K的词频矩阵:
fi表示第i个关键词的词频;
令R为主体集合C及其关键词集合K的相关性矩阵,知识图谱节点相连即为1,图谱节点不相连即为0:
为主体集合C及与其相关的关键词的加总词频向量:
其中,表示文本中与第i个候选的企业主体相关的全部关键词词频之和;
定义相关度因子RX,RX用来衡量本文本中候选的企业主体之间的相关顺序;
其中,
其中,
定义相关度因子RY,用来衡量不同文本之间候选的企业主体的相关顺序,β>0,β为缩放调节参数,scale>0为文本信息总分词数经清洗后得到的分词词语数量,用于衡量文本篇幅;
其中,0≤ryi≤1
得到文本与候选的企业主体集合C的相关度矩阵RKC
其中,⊙为矩阵点乘运算,表示本文本对第i个候选的企业主体的关联度。
进一步的,在计算文本与所述候选的企业主体的关联度的步骤中,还包括:
根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、关系权重计算文本与所述候选的企业主体的关联度。
进一步的,根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、关系权重计算文本与所述候选的企业主体的关联度的步骤中,包括:
首先统计关键词K集合的词频向量F:
fi表示第i个关键词的词频;
令R为候选的企业集合C及其关键词集合K的相关系数矩阵:
rij表示第i个候选的企业主体与第j个关键词的相关系数;
为相关系数加权词频矩阵:
其中表示第i个候选的企业主体的关键词加权词频之和;
定义相关度因子RX,RX用来衡量本文本中候选的企业主体之间的相关顺序;
其中,
其中,
定义相关度因子RY,用来衡量不同文本之间候选的企业主体的相关顺序,β>0,β为缩放调节参数,scale>0为文本信息总分词数经清洗后得到的分词词语数量,用于衡量文本篇幅;
其中,0≤ryi≤1;
得到文本与候选的企业主体集合C的相关度矩阵RKC
其中,⊙为矩阵点乘运算,表示本文本对第i个候选的企业主体的关联度。
进一步的,在对所述文本进行分词处理的步骤之前,还包括:
对所述文本进行段落划分预处理,并对段落位置赋予相应权重;
在计算所述文本与所述候选的企业主体的关联度的步骤中,还包括:
根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、段落位置、关系权重、文本篇幅计算文本与所述候选的企业主体的关联度。
进一步的,通过以下公式对所述文本进行段落划分预处理:
其中,表示不小于x的整数,所述P为文本的自然段,所述P≥1,所述H为文本被拆分的部分,分别记为part1,…,partH,标题被记为part0,所述H≥1,每部分的段落数量记为L=(l0,l1,…,lH),表示第一部分占总段数P的最大比例, 表示第H部分占总段数P的最大比例,
进一步的,在根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、段落位置、关系权重、文本篇幅计算文本与所述候选的企业主体的关联度的步骤中,包括以下子步骤:
令W为关键词在段落位置的权重矩阵:
其中wi表示关键词在第i部分所得的权重,w0指关键词在标题所得的权重;
令R为企业主体集合C及其关键词集合K的相关系数矩阵:
rij表示第i个候选的企业主体与第j个关键词的相关系数;
F为关键词K在不同段落位置所得的词频矩阵:
fij表示第i个关键词在partj部分的词频;
为相关系数加权词频矩阵:
其中表示第i个候选的企业主体在partj部分的加权词频之和;
定义相关度因子RX,RX用来衡量本文本中候选的企业主体之间的相关顺序;
其中,
其中,
定义相关度因子RY,用来衡量不同文本之间候选的企业主体的相关顺序,β>0,β为缩放调节参数,scale>0为文本信息总分词数经清洗后得到的分词词语数量,用于衡量文本篇幅;
其中,0≤ryi≤1
得到文本与候选的企业主体集合C的相关度矩阵RKC
其中,⊙为矩阵点乘运算,表示本文本对第i个候选的企业主体的关联度。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种利用知识图谱计算文本与企业主体相关度的装置,包括:
文本获取模块,用于获取文本;
分词模块,用于对文本进行分词处理,提取文本中出现的关键词集合,通过预先建立的知识图谱,检索与关键词相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,其中,所述知识图谱包括若干节点信息、每一节点信息与对应的节点信息之间的关系及关联性权重,所述若干节点信息中,其中的节点信息为企业主体信息,其余的节点信息为相应企业主体对应的产品信息或自然人信息;
关联度计算模块,用于根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频计算文本与所述候选的企业主体的关联度。
进一步的,所述关联度计算模块,还用于根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、关系权重计算文本与所述候选的企业主体的关联度。
本发明构建了金融领域的知识图谱,以此作为候选匹配关键词的关系网,涵盖了企业为目标主体的工商全称、简称、产品、高管、股东、投资等关系;在发明中,对关键词所出的段落位置赋予不同权重,对文本不同段落的重要性纳入了考虑范围;利用知识图谱技术构建的复杂关系网,对可能的关键词都进行关联度计算,并最终进行加权并进行量化,提高文本和目标主体关联的成功率和准确率。
附图说明
图1是本发明利用知识图谱计算文本与企业主体相关度的方法第一实施例的流程图。
图2是本发明知识图谱的结构示意图。
图3是本发明利用知识图谱计算文本与企业主体相关度的方法第二实施例的流程图。
图4是具体实例中样本文章的示意图。
图5是具体实例中与所述样本文章相关的知识图谱的示意图。
图6是本发明利用知识图谱计算文本与企业主体相关度的装置一实施例的方框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,本发明利用知识图谱计算文本与企业主体相关度的方法,包括以下步骤:
S101、获取文本;
所述文本可以是舆情文本(即舆情信息)。
S102、对文本进行分词处理,提取文本中出现的关键词集合,通过预先建立的知识图谱,检索与关键词相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,其中,所述知识图谱包括目标节点信息、相关联的节点信息、所述目标节点信息与所述相关联的节点信息之间的关系及关联性权重,所述目标节点信息包括第一企业主体信息,所述相关联的节点信息包括与所述第一主体企业主体信息相关联的第二主体信息、产品或自然人信息;
所述知识图谱具体通过以下方式建立:从数据库(例如语料库)中提取目标节点信息、相关联的节点信息,根据所述目标节点信息与所述相关联的节点信息之间的关系赋予相应的关联性权重,从而构成所述知识图谱(可参见图2)。其中,所述目标节点信息为第一企业主体信息(例如企业名称为:XX股份有限公司),与所述目标节点信息相关联的节点信息可以是与第一企业主体信息相关联的第二主体信息、与所述第一主体企业信息相关联的自然人信息(例如第一主体企业下的高管、股东等)、或者与所述第一主体企业信息相关联的产品(例如第一主体企业研发、上市的产品)。在所述知识图谱中,无论第一主体企业信息还是第二企业主体信息,均可以成为目标节点信息,当图中2中的第二企业主体A成为目标节点信息时,那么图2中原有的第一企业主体则为所述第二企业主体A相关联的节点信息,只是它们的关系有相应变化。所述知识图谱中,还体现了每一目标节点信息与其相关联的节点信息之间的关系以及关联性权重,第一企业主体与第二企业主体之间的关系包括但不限于:投资关系、供求关系、担保关系等等,自然人与第一企业主体之间的关系包括任职关系等(例如股东、高管、员工等)。例如第二企业主体A与所述第一企业主体的关系为:第二企业主体A为第一企业主体的供应商,关联性权重为0.65,产品A为第一企业主体下的产品,关联性权重为0.5,自然人B为第一企业主体的股东,关联性权重为1。上述知识图谱中,依据不同关系的属性信息赋予相应相关性,例如投资关系比例越大,相关性越大;任职职位越重要,相关性越大等,具体构建方式本发明不详细说明。构建的知识图谱可以通过图数据库存储信息,并可供检索查询。
在S102步骤中,通过分词处理,得到所有的关键词以形成关键词集合,所述关键词集合记为K,在所述知识图谱中搜索所述关键词集合K中的关键词,获取与所述关键词集合K相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,所述候选的企业集合记为C。
S103、根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频计算文本与所述候选的企业主体的关联度。其中,依据词频计算关联度的方式如下:
令F为关键词集合K的词频矩阵:
fi表示第i个关键词的词频;
令R为主体集合C及其关键词集合K的相关性矩阵,知识图谱节点相连即为1,图谱节点不相连即为0:
为主体集合C及与其相关的关键词的加总词频向量:
其中,表示文本中与第i个候选的企业主体相关的全部关键词词频之和;
定义相关度因子RX,RX用来衡量本文本中候选的企业主体之间的相关顺序;
其中,
其中,
定义相关度因子RY,用来衡量不同文本之间候选的企业主体的相关顺序,β>0,β为缩放调节参数,scale>0为文本信息总分词数经清洗后得到的分词词语数量,用于衡量文本篇幅;
其中,0≤ryi≤1
得到文本与候选的企业主体集合C的相关度矩阵RKC
其中,⊙为矩阵点乘运算,表示本文本对第i个候选的企业主体的关联度。基于此关联度,可以设定阈值筛选与本文本相关度比较紧密的企业主体;同时,也可以对与第i个主体相关的不同文本进行筛选、排序。
作为一种优选的或可选的,还可通过词频、关键词与候选的企业主体的相关系数计算所述文本与所述候选的企业主体的关联度,如下:
首先统计关键词K集合的词频向量F:
fi表示第i个关键词的词频;
令R为候选的企业集合C及其关键词集合K的相关系数矩阵:
rij表示第i个候选的企业主体与第j个关键词的相关系数;
为相关系数加权词频矩阵:
其中表示第i个候选的企业主体的关键词加权词频之和;
定义相关度因子RX,RX用来衡量本文本中候选的企业主体之间的相关顺序;
其中,
其中,
定义相关度因子RY,用来衡量不同文本之间候选的企业主体的相关顺序,β>0,β为缩放调节参数,scale>0为文本信息总分词数经清洗后得到的分词词语数量,用于衡量文本篇幅。
其中,0≤ryi≤1
得到文本与候选的企业主体集合C的相关度矩阵RKC
其中,⊙为矩阵点乘运算,表示本文本对第i个候选的企业主体的关联度。基于此关联度,可以设定阈值筛选与本文本相关度比较紧密的企业主体;同时,也可以对与第i个主体相关的不同文本进行筛选、排序。
可理解的,在其他的实施例中,关系权重的计算是为了更好的、更精确的计算出关键词与候选的企业主体之间的关联度,在一些实施例,该关系权重并非必须的技术特征。
本发明实施方式,根据预先建立的知识图谱为依据,当提取出文本中的关键词后,将每一关键词通过所述知识图谱进行检索以得到与所述关键词对应的企业主体,将该对应的企业主体作为候选的企业主体,以形成候选的企业主体集合,然后根据关键词出现在文本中的词频、与候选的企业主体之间的关系权重,而得到所述文本与所述候选的企业主体的关联度,提高文本与企业主体(称目标企业主体)关联的成功率和准确率,丰富了文本信息与目标企业主体的关联维度,为后续进一步分析提供更精确的基础。
请参见图3,图3是本发明利用知识图谱计算文本与企业主体相关度的方法第二实施例的流程图。本实施例的利用知识图谱计算文本与企业主体相关度的方法包括以下步骤:
S201、获取文本;
S202、对所述文本进行段落划分预处理;
本步骤中,通过以下方式对所述文本进行段落划分预处理:
设定舆情文本信息包含标题、正文两个主要部分,正文有P≥1个自然段。设定将文本正文拆分成H≥1部分,分别记为part1,…,partH,将part0记为标题部分,每部分的段落数量记为L=(l0,l1,…,lH)。考虑文本的不同段落在文本中具有不同的重要性,在文本拆分时,对正文首尾部分的长度进行限制,令分别为第1部分和第H部分占总段数P最大比例,本实施例中,可以取对于拆分每部分的包含的段落数量计算公式为:
其中,表示不小于x的整数。所述P为文本的自然段,所述P≥1,所述H为文本被拆分的部分,分别记为part1,…,partH,标题被记为part0,所述H≥1,每部分的段落数量记为L=(l0,l1,…,lH),表示第一部分占总段数P的最大比例, 表示第H部分占总段数P的最大比例,
本步骤中,在所述段落划分预处理步骤之后,还为段落位置赋予相应的权重。一般地,对文本的标题、前部分段落和尾部分段落赋予较高权重,文本中间位置权重相对较低。例如,文本的标题部分的权重w0为0.35,前部分的权重w1为0.25,尾部分的权重wH为0.25,中间部分w2~wH-1为0.15。
S203、对文本进行分词处理,提取文本中出现的关键词集合,通过预先建立的知识图谱,检索与关键词相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,其中,所述知识图谱包括目标节点信息、相关联的节点信息、所述目标节点信息与所述相关联的节点信息之间的关系及关联性权重,所述目标节点信息包括第一企业主体信息,所述相关联的节点信息包括与所述第一主体企业主体信息相关联的第二主体信息、产品或自然人信息;
本步骤中,对S202步骤得到的分段文本进行分词处理,并结合知识图谱得到文本中所有能够在知识图谱中能够找到的候选词,将其作为关键词进行标记,所有关键词形成关键词集合记为K,在所述知识图谱中搜索所述关键词集合K中的关键词,获取与所述关键词集合K相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,所述候选的企业集合记为C。
S204、根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、段落位置、关系权重、文本篇幅计算文本与所述候选的企业主体的关联度,所述文本篇幅通过分词步骤中所分得的词的数量而确定。
本步骤,通过以下方式计算文本与所述候选的企业主体的关联度:
令W为关键词在段落位置的权重矩阵:
其中wi表示关键词在第i部分所得的权重,w0指关键词在标题所得的权重;
令R为主体集合C及其关键词集合K的相关系数矩阵:
rij表示第i个候选的企业主体与第j个关键词的相关系数;
F为关键词K在不同段落位置所得的词频矩阵:
fij表示第i个关键词在partj部分的词频;
为相关系数加权词频矩阵:
其中表示第i个候选的企业主体在partj部分的加权词频之和;
定义相关度因子RX,RX用来衡量本文本中候选的企业主体之间的相关顺序;
其中,
其中,
定义相关度因子RY,用来衡量不同文本之间候选的企业主体的相关顺序,β>0,β为缩放调节参数,scale>0为文本信息总分词数经清洗后得到的分词词语数量,用于衡量文本篇幅。
其中,0≤ryi≤1
得到文本与候选的企业主体集合C的相关度矩阵RKC
其中,⊙为矩阵点乘运算,表示本文本对第i个候选的企业主体的关联度。基于此关联度,可以设定阈值筛选与本文本相关度比较紧密的企业主体;同时,也可以对与第i个主体相关的不同文本进行筛选、排序。
本发明实施方式,通过对文本进行段落划分预处理,并对文本段落赋予相应的权重,这样,在分词处理后,通过文本所在的段落位置确定关键词的权重矩阵,再结相关系数加权词频矩阵,能够得到相关度因子,得到文本与候选的企业主体集合C的相关度矩阵,从而更精确的得到整个文本与候选的企业主体集合C中的每一个企业主体的关联度。
以下通过一具体实例来详解阐述如何利用知识图谱计算文本与企业主体相关度的方法:
请参见图4及图5,图4为该实例的样本文章,图5为与该样本文章相对应的知识图谱,因位置有限,仅展示以“乐视网信息技术(北京)股份有限公司”为中心的部分知识图谱。
第一步,对样本文章进行预处理,在样本文章中,正文一共有四个自然段,P=4,取H=3,
根据该公式得到的段落及权重如下表:
表1W=(0.35,0.25,0.15,0.25)
第二步,提取文本中的关键词并提取候选主体集合
(1)标题和正文中的关键词集合:
K={乐视、孙宏斌、朋友圈、乐视网、新乐视智家、腾讯、腾讯视频、乐视电视、乐创文娱}
(2)在知识图谱中进行检索,与K有直接关联的企业集合:
C={乐视网信息技术(北京)股份有限公司、深圳市腾讯计算机***有限公司}
第三步,计算舆情文本与候选目标主体的关联度
结合知识图谱中的相关系数(连线上的数字),可得主体集合C及其关键词集合K的相关系数矩阵R:
表2
词频矩阵F如下:
可得矩阵如下:
清洗文本信息总分词词语数量后,得到分词数为148个,scale=148,取β=100
得到文本与主体集合C的相关度矩阵RKC如下:
所以样本文章与“乐视网信息技术(北京)股份有限公司”的关联度为0.526,与“深圳市腾讯计算机***有限公司”的关联度为0.122。(以上具体实例中系数均为举例假设)
请参见图6,本发明还公开了一种利用知识图谱计算文本与企业主体相关度的装置,包括:
文本获取模块,用于获取文本;
分词模块,用于对文本进行分词处理,提取文本中出现的关键词集合,通过预先建立的知识图谱,检索与关键词相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,其中,所述知识图谱包括若干节点信息、每一节点信息与对应的节点信息之间的关系及关联性权重,所述若干节点信息中,其中的节点信息为企业主体信息,其余的节点信息为相应企业主体对应的产品信息或自然人信息;
关联度计算模块,用于根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、关系权重计算文本与所述候选的企业主体的关联度。
作为可选的,还包括段落划分预处理模块,用于对所述文本进行段落划分预处理,还用于对文本段落赋予相应的权重;
所述关联度计算模块还用于根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、段落位置、关系权重、文本篇幅计算文本与所述候选的企业主体的关联度。
作为可选的,所述段落划分预处理模块通过以下公式进行段落划分预处理:
其中,表示不小于x的整数,所述P为文本的自然段,所述P≥1,所述H为文本被拆分的部分,分别记为part1,…,partH,标题被记为part0,所述H≥1,每部分的段落数量记为L=(l0,l1,…,lH),表示第一部分占总段数P的最大比例, 表示第H部分占总段数P的最大比例,
作为可选的,所述分词模块还用于对通过段落划分得到的分段文本进行分词处理,得到所有的关键词以形成关键词集合,所述关键词集合记为K,在所述知识图谱中搜索所述关键词集合K中的关键词,获取与所述关键词集合K相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,所述候选的企业集合记为C。
本发明实施方式,所述利用知识图谱计算文本与企业主体相关度的装置的各模块的功能描述可参见上述方法的描述,此处便不再一一赘述。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种利用知识图谱计算文本与企业主体相关度的方法,包括以下步骤:
获取文本;
对文本进行分词处理,提取文本中出现的关键词集合,通过预先建立的知识图谱,检索与关键词相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,其中,所述知识图谱包括目标节点信息、相关联的节点信息、所述目标节点信息与所述相关联的节点信息之间的关系及关联性权重,所述目标节点信息包括第一企业主体信息,所述相关联的节点信息包括与所述第一主体企业主体信息相关联的第二主体信息、产品或自然人信息;
根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频计算文本与所述候选的企业主体的关联度。
2.如权利要求1所述的利用知识图谱计算文本与企业主体相关度的方法,其特征在于,在对文本进行分词处理,提取文本中出现的关键词集合,通过预先建立的知识图谱,检索与关键词相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合的步骤中,包括:
对文本进行分词处理,得到所有的关键词以形成关键词集合,所述关键词集合记为K,在所述知识图谱中搜索所述关键词集合K中的关键词,获取与所述关键词集合K相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,所述候选的企业集合记为C。
3.如权利要求2所述的利用知识图谱计算文本与企业主体相关度的方法,其特征在于,在根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频计算文本与所述候选的企业主体的关联度的步骤中,包括:
令F为关键词集合K的词频矩阵:
fi表示第i个关键词的词频;
令R为主体集合C及其关键词集合K的相关性矩阵,知识图谱节点相连即为1,图谱节点不相连即为0:
为主体集合C及与其相关的关键词的加总词频向量:
其中,表示文本中与第i个候选的企业主体相关的全部关键词词频之和;
定义相关度因子RX,RX用来衡量本文本中候选的企业主体之间的相关顺序;
其中,u=(1,…,1),
其中,0≤rxi≤1,
定义相关度因子RY,用来衡量不同文本之间候选的企业主体的相关顺序,β>0,β为缩放调节参数,scale>0为文本信息总分词数经清洗后得到的分词词语数量,用于衡量文本篇幅;
其中,0≤ryi≤1
得到文本与候选的企业主体集合C的相关度矩阵RKC
其中,⊙为矩阵点乘运算,表示本文本对第i个候选的企业主体的关联度。
4.如权利要求2所述的利用知识图谱计算文本与企业主体相关度的方法,其特征在于,在计算文本与所述候选的企业主体的关联度的步骤中,还包括:
根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、关系权重计算文本与所述候选的企业主体的关联度。
5.如权利要求4所述的利用知识图谱计算文本与企业主体相关度的方法,其特征在于,根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、关系权重计算文本与所述候选的企业主体的关联度的步骤中,包括:
首先统计关键词K集合的词频向量F:
fi表示第i个关键词的词频;
令R为候选的企业集合C及其关键词集合K的相关系数矩阵:
rij表示第i个候选的企业主体与第j个关键词的相关系数;
为相关系数加权词频矩阵:
其中表示第i个候选的企业主体的关键词加权词频之和;
定义相关度因子RX,RX用来衡量本文本中候选的企业主体之间的相关顺序;
其中,u=(1,…,1),
其中,0≤rxi≤1,
定义相关度因子RY,用来衡量不同文本之间候选的企业主体的相关顺序,β>0,β为缩放调节参数,scale>0为文本信息总分词数经清洗后得到的分词词语数量,用于衡量文本篇幅;
其中,0≤ryi≤1;
得到文本与候选的企业主体集合C的相关度矩阵RKC
其中,⊙为矩阵点乘运算,表示本文本对第i个候选的企业主体的关联度。
6.如权利要求4所述的利用知识图谱计算文本与企业主体相关度的方法,其特征在于,在对所述文本进行分词处理的步骤之前,还包括:
对所述文本进行段落划分预处理,并对段落位置赋予相应权重;
在计算所述文本与所述候选的企业主体的关联度的步骤中,还包括:
根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、段落位置、关系权重、文本篇幅计算文本与所述候选的企业主体的关联度。
7.如权利要求6所述的利用知识图谱计算文本与企业主体相关度的方法,其特征在于,通过以下公式对所述文本进行段落划分预处理:
其中,表示不小于x的整数,所述P为文本的自然段,所述P≥1,所述H为文本被拆分的部分,分别记为part1,…,partH,标题被记为part0,所述H≥1,每部分的段落数量记为L=(l0,l1,…,lH),表示第一部分占总段数P的最大比例, 表示第H部分占总段数P的最大比例,
8.如权利要求7所述的利用知识图谱计算文本与企业主体相关度的方法,其特征在于,在根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、段落位置、关系权重、文本篇幅计算文本与所述候选的企业主体的关联度的步骤中,包括以下子步骤:
令W为关键词在段落位置的权重矩阵:
W=(w0,w1,…,wH),
其中wi表示关键词在第i部分所得的权重,w0指关键词在标题所得的权重;
令R为企业主体集合C及其关键词集合K的相关系数矩阵:
rij表示第i个候选的企业主体与第j个关键词的相关系数;
F为关键词K在不同段落位置所得的词频矩阵:
fij表示第i个关键词在partj部分的词频;
为相关系数加权词频矩阵:
其中表示第i个候选的企业主体在partj部分的加权词频之和;
定义相关度因子RX,RX用来衡量本文本中候选的企业主体之间的相关顺序;
其中,u=(1,…,1),
其中,0≤rxi≤1,
定义相关度因子RY,用来衡量不同文本之间候选的企业主体的相关顺序,β>0,β为缩放调节参数,scale>0为文本信息总分词数经清洗后得到的分词词语数量,用于衡量文本篇幅;
其中,0≤ryi≤1
得到文本与候选的企业主体集合C的相关度矩阵RKC
其中,⊙为矩阵点乘运算,表示本文本对第i个候选的企业主体的关联度。
9.一种利用知识图谱计算文本与企业主体相关度的装置,包括:
文本获取模块,用于获取文本;
分词模块,用于对文本进行分词处理,提取文本中出现的关键词集合,通过预先建立的知识图谱,检索与关键词相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,其中,所述知识图谱包括若干节点信息、每一节点信息与对应的节点信息之间的关系及关联性权重,所述若干节点信息中,其中的节点信息为企业主体信息,其余的节点信息为相应企业主体对应的产品信息或自然人信息;
关联度计算模块,用于根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频计算文本与所述候选的企业主体的关联度。
10.如权利要求9所述的利用知识图谱计算文本与企业主体相关度的装置,其特征在于,所述关联度计算模块,还用于根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、关系权重计算文本与所述候选的企业主体的关联度。
CN201810567101.5A 2018-06-05 2018-06-05 利用知识图谱计算文本和主体相关度的方法以及装置 Active CN109033132B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810567101.5A CN109033132B (zh) 2018-06-05 2018-06-05 利用知识图谱计算文本和主体相关度的方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810567101.5A CN109033132B (zh) 2018-06-05 2018-06-05 利用知识图谱计算文本和主体相关度的方法以及装置

Publications (2)

Publication Number Publication Date
CN109033132A true CN109033132A (zh) 2018-12-18
CN109033132B CN109033132B (zh) 2020-12-11

Family

ID=64611958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810567101.5A Active CN109033132B (zh) 2018-06-05 2018-06-05 利用知识图谱计算文本和主体相关度的方法以及装置

Country Status (1)

Country Link
CN (1) CN109033132B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815499A (zh) * 2019-01-25 2019-05-28 杭州凡闻科技有限公司 信息关联方法和***
CN111881183A (zh) * 2020-07-28 2020-11-03 北京金堤科技有限公司 企业名称匹配方法和装置、以及存储介质和电子设备
CN112732883A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 基于知识图谱的模糊匹配方法、装置和计算机设备
WO2021098648A1 (zh) * 2019-11-22 2021-05-27 深圳前海微众银行股份有限公司 文本推荐方法、装置、设备及介质
WO2021103594A1 (zh) * 2019-11-25 2021-06-03 深圳壹账通智能科技有限公司 一种默契度检测方法、设备、服务器及可读存储介质
CN113688628A (zh) * 2021-07-28 2021-11-23 上海携宁计算机科技股份有限公司 文本识别方法、电子设备和计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
CN104346446A (zh) * 2014-10-27 2015-02-11 百度在线网络技术(北京)有限公司 一种基于知识图谱的论文关联信息推荐方法及装置
US20150310073A1 (en) * 2014-04-29 2015-10-29 Microsoft Corporation Finding patterns in a knowledge base to compose table answers
CN105117487A (zh) * 2015-09-19 2015-12-02 杭州电子科技大学 一种基于内容结构的图书语义检索方法
CN105354321A (zh) * 2015-11-16 2016-02-24 中国建设银行股份有限公司 一种查询数据处理方法和装置
CN106095858A (zh) * 2016-06-02 2016-11-09 海信集团有限公司 一种音视频搜索方法、装置和终端
CN107679186A (zh) * 2017-09-30 2018-02-09 北京奇虎科技有限公司 基于实体库进行实体搜索的方法及装置
CN108038204A (zh) * 2017-12-15 2018-05-15 福州大学 针对社交媒体的观点检索***及方法
CN108090167A (zh) * 2017-12-14 2018-05-29 畅捷通信息技术股份有限公司 数据检索的方法、***、计算设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
US20150310073A1 (en) * 2014-04-29 2015-10-29 Microsoft Corporation Finding patterns in a knowledge base to compose table answers
CN104346446A (zh) * 2014-10-27 2015-02-11 百度在线网络技术(北京)有限公司 一种基于知识图谱的论文关联信息推荐方法及装置
CN105117487A (zh) * 2015-09-19 2015-12-02 杭州电子科技大学 一种基于内容结构的图书语义检索方法
CN105354321A (zh) * 2015-11-16 2016-02-24 中国建设银行股份有限公司 一种查询数据处理方法和装置
CN106095858A (zh) * 2016-06-02 2016-11-09 海信集团有限公司 一种音视频搜索方法、装置和终端
CN107679186A (zh) * 2017-09-30 2018-02-09 北京奇虎科技有限公司 基于实体库进行实体搜索的方法及装置
CN108090167A (zh) * 2017-12-14 2018-05-29 畅捷通信息技术股份有限公司 数据检索的方法、***、计算设备及存储介质
CN108038204A (zh) * 2017-12-15 2018-05-15 福州大学 针对社交媒体的观点检索***及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YOOKYUNG JO ET AL.: ""Detecting research topics via the correlation between graphs and texts"", 《 PROCEEDINGS OF THE 13TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *
张云秋 等: ""非相关文献知识发现的关键技术研究"", 《情报学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815499A (zh) * 2019-01-25 2019-05-28 杭州凡闻科技有限公司 信息关联方法和***
WO2021098648A1 (zh) * 2019-11-22 2021-05-27 深圳前海微众银行股份有限公司 文本推荐方法、装置、设备及介质
WO2021103594A1 (zh) * 2019-11-25 2021-06-03 深圳壹账通智能科技有限公司 一种默契度检测方法、设备、服务器及可读存储介质
CN111881183A (zh) * 2020-07-28 2020-11-03 北京金堤科技有限公司 企业名称匹配方法和装置、以及存储介质和电子设备
CN112732883A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 基于知识图谱的模糊匹配方法、装置和计算机设备
CN113688628A (zh) * 2021-07-28 2021-11-23 上海携宁计算机科技股份有限公司 文本识别方法、电子设备和计算机可读存储介质
CN113688628B (zh) * 2021-07-28 2023-09-22 上海携宁计算机科技股份有限公司 文本识别方法、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN109033132B (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN109033132A (zh) 利用知识图谱计算文本和主体相关度的方法以及装置
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN103678576B (zh) 基于动态语义分析的全文检索***
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及***
CN105045875B (zh) 个性化信息检索方法及装置
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN110968782A (zh) 一种面向学者的用户画像构建及应用方法
CN103309886A (zh) 一种基于交易平台的结构化信息搜索方法和装置
CN107315738A (zh) 一种文本信息的创新度评估方法
CN105740448B (zh) 面向话题的多微博时序文摘方法
CN105378730A (zh) 社交媒体分析与输出
CN113407729B (zh) 一种面向司法的个性化案例推荐方法及***
CN114254201A (zh) 一种科技项目评审专家的推荐方法
CN110287329A (zh) 一种基于商品文本分类的电商类目属性挖掘方法
CN110750995A (zh) 一种基于自定义图谱的文件管理方法
CN115905489B (zh) 一种提供招投标信息搜索服务的方法
CN114971730A (zh) 文案素材提取方法及其装置、设备、介质、产品
CN107341199A (zh) 一种基于文献信息共性模式的推荐方法
CN113190593A (zh) 一种基于数字人文知识图谱的搜索推荐方法
CN110110218B (zh) 一种身份关联方法及终端
CN112508376A (zh) 一种指标体系构建方法
Chen et al. Data analysis and knowledge discovery in web recruitment—based on big data related jobs
CN107908749B (zh) 一种基于搜索引擎的人物检索***及方法
CN108717445A (zh) 一种基于历史数据的在线社交平台用户兴趣推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant