CN115982390A - 一种产业链构建和迭代扩充开发方法 - Google Patents

一种产业链构建和迭代扩充开发方法 Download PDF

Info

Publication number
CN115982390A
CN115982390A CN202310260247.6A CN202310260247A CN115982390A CN 115982390 A CN115982390 A CN 115982390A CN 202310260247 A CN202310260247 A CN 202310260247A CN 115982390 A CN115982390 A CN 115982390A
Authority
CN
China
Prior art keywords
industry
industrial
target
words
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310260247.6A
Other languages
English (en)
Other versions
CN115982390B (zh
Inventor
鄂海红
宋美娜
梁月梅
周文安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202310260247.6A priority Critical patent/CN115982390B/zh
Publication of CN115982390A publication Critical patent/CN115982390A/zh
Application granted granted Critical
Publication of CN115982390B publication Critical patent/CN115982390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提出一种产业链构建和迭代扩充开发方法,包括,获取用户输入的目标产业类型,同时获取目标产业类型对应的产业语料数据;设计产业新词发现算法对产业语料数据进行无监督预分词,得到产业新词;根据上下位关系和并列语义关系提取方法确定产业新词之间的关系,并根据产业新词以及产业新词之间的关系构建目标产业链树;通过针对产业链上下游逻辑以及节点关联关系设计目标产业链树的数据存储结构,通过数据存储结构基于原有产业链树进行迭代更新。通过本发明提出的方法,极大地提升了产业图谱构建以及更新的效率。

Description

一种产业链构建和迭代扩充开发方法
技术领域
本发明属于数据可视化技术与数据应用技术领域。
背景技术
目前,对某产业进行分析时,需要构建该产业的产业链图谱,构建过程往往需要人工大量查阅产业资料,比较繁琐,另外人工查阅资料构建产业链图谱可能出现构建不全面等问题。
产业链需要具备足够大的复用性、迭代性和扩展性。产业本身是动态的,随着行业的发展,不断会有新的行业出现。如何挖掘产业中出现的新词,如何获取产业词之间的层次联系,在原有产业图谱数据中加入这些行业的变化,使整个图谱变得与时俱进,也是一个很大挑战。
同时,产业链的主观性非常强,目前存在不同的行业标准,不同的网站、机构也将同一产业名词归为不同的行业,不同的人对产业链的构建、产业链节点、关系的类型,产业链的颗粒度问题都有不同的理解,不同的设定会直接导致不同的应用结果。现有技术在发现产业新词、个性化构建产业链方面,缺少通用性的开发方法,不利于提高工程化开发效率。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种产业链构建和迭代扩充开发方法,用于解决目前产业图谱人工资料分析精准度较低、构建扩充繁琐的局限性。
为达上述目的,本发明第一方面实施例提出了一种产业链构建和迭代扩充开发方法,包括:
获取用户输入的目标产业类型,同时获取所述目标产业类型对应的产业语料数据;
设计产业新词发现算法对所述产业语料数据进行无监督预分词,得到产业新词;
根据上下位关系和并列语义关系提取方法确定所述产业新词之间的关系,并根据所述产业新词以及所述产业新词之间的关系构建目标产业链树;
通过针对产业链上下游逻辑以及节点关联关系设计所述目标产业链树的数据存储结构,通过所述数据存储结构基于原有产业链树进行迭代更新。
另外,根据本发明上述实施例的一种产业链构建和迭代扩充开发方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,在获取所述目标产业类型对应的产业语料数据之后,还包括:
对所述产业语料数据进行统一的预处理,包括是将所述产业语料数据按照中文字符、非中文字符的方式进行切割,去除语气词、编码符号。
进一步地,在本发明的一个实施例中,所述设计产业新词发现算法对所述产业语料数据进行无监督预分词,包括:
将所述产业语料数据分割成单字符的集合,将所述集合中的字符两两组合作为候选词;
构建 Trie树存储候选词;
查询所述Trie树,获取前缀和后缀的频次列表,计算所述候选词的左右信息熵以及所述候选词构成片段的左右信息熵;
查询所述 Trie树,获取所述候选词的词频以及左右片段的词频,根据所述词频计算点间互信息;
根据公式计算所述候选词的得分,通过对所述得分设置阈值过滤得分较低的候选词,得到目标领域的候选词集,其中所述公式表示为:
其中,表示点间互信息,表示候选词构成片段的左右信息熵,表示候选词的左右信息熵。
进一步地,在本发明的一个实施例中,所述根据上下位关系和并列语义关系提取方法确定所述产业新词之间的关系,并根据所述产业新词以及所述产业新词之间的关系构建目标产业链树,包括:
通过上下位关系和并列语义关系提取方法来进行目标产业链树的深度扩展和宽度扩展;其中,通过宽度展开算法进行所述目标产业链树的宽度扩展,通过深度扩展进行所述目标产业链树的深度扩展。
进一步地,在本发明的一个实施例中,所述通过宽度展开算法进行所述目标产业链树的宽度扩展,包括:
用实体表示产业新词,类型表示所述产业新词的词性,定义实体和类型之间的关联权重:
其中,表示实体,表示实体类型, 返回的置信度分数;
记两个实体的兄弟相似度为,使用匹配模式特征计算两个兄弟实体的相似度:
其中,表示跳过模式,表示跳过模式的集合;
使用所述实体和所述类型的特征计算;其中,表示获取到的所有特征;
通过word2vec获取两个实体的嵌入特征,使用乘法度量来计算兄弟姐妹相似度:
根据所述兄弟姐妹相似度计算所述实体的得分:
根据所述得分对所述实体进行筛选,从而进行所述目标产业链树的宽度扩展。
进一步地,在本发明的一个实施例中,所述通过深度扩展进行所述目标产业链树的深度扩展,包括:
表示项的嵌入向量,给定一个目标父节点,一组参考边,其中的父节点,计算将节点置于父节点之下的评分:
其中,表示向量之间的余弦相似度;
基于对每个候选实体进行评分,并选择得分高于阈值的实体作为节点下的初始子节点进行所述目标产业链树的深度扩展。
进一步地,在本发明的一个实施例中,所述通过针对产业链上下游逻辑以及节点关联关系设计所述目标产业链树的数据存储结构,包括:
设计parent_id字段,存储父节点的唯一标识;
采用full_path字段存储当前节点的所有层级祖先节点,用id#id#id…方式拼接字符串表示。
为达上述目的,本发明第二方面实施例提出了一种产业链构建和迭代扩充开发装置,包括以下模块:
获取模块,用于获取用户输入的目标产业类型,同时获取所述目标产业类型对应的产业语料数据;
筛选模块,用于设计产业新词发现算法对所述产业语料数据进行无监督预分词,得到产业新词;
构建模块,用于根据上下位关系和并列语义关系提取方法确定所述产业新词之间的关系,并根据所述产业新词以及所述产业新词之间的关系构建目标产业链树;
更新模块,用于通过针对产业链上下游逻辑以及节点关联关系设计所述目标产业链树的数据存储结构,通过所述数据存储结构基于原有产业链树进行迭代更新。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的一种产业链构建和迭代扩充开发方法。
为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的一种产业链构建和迭代扩充开发方法。
本发明实施例提出的产业链构建和迭代扩充开发方法,涵盖了产业图谱快速构建、发现产业新词、产业层次关系抽取、更新迭代等核心业务,解决目前产业图谱人工资料分析精准度较低、构建扩充繁琐的局限性,用户可以根据产业图谱需求,方便快捷的生成以及扩充对应类别下的产业图谱,平衡了自动化加工流程与人工干预的关系,提高应用的可扩展性和开发效率。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种产业链构建和迭代扩充开发方法的流程示意图。
图2为本发明实施例所提供的一种产业新词发现方法的流程示意图。
图3为本发明实施例所提供的候选词的左右信息熵以及候选词构成片段的左右信息熵示意图。
图4为本发明实施例所提供的一种分层树展开算法过程概览示意图。
图5为本发明实施例所提供的一种新产业链的补丁数据生成示意图。
图6-9为本发明实施例所提供的一种产业图谱导入实现过程示意图。
图10为本发明实施例所提供的一种产业链构建和迭代扩充开发装置的流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的产业链构建和迭代扩充开发方法。
图1为本发明实施例所提供的一种产业链构建和迭代扩充开发方法的流程示意图。
如图1所示,该产业链构建和迭代扩充开发方法包括以下步骤:
S101:获取用户输入的目标产业类型,同时获取所述目标产业类型对应的产业语料数据;
S102:设计产业新词发现算法对所述产业语料数据进行无监督预分词,得到产业新词;
S103:根据上下位关系和并列语义关系提取方法确定所述产业新词之间的关系,并根据所述产业新词以及所述产业新词之间的关系构建目标产业链树;
S104:通过针对产业链上下游逻辑以及节点关联关系设计所述目标产业链树的数据存储结构,通过所述数据存储结构基于原有产业链树进行迭代更新。
本发明采用无监督方法,根据词的共同特征,利用统计策略将一段大规模语料中可能成词的文本片段全部提取出来,对语料进行切分,形成若干块文本片段,这相当于一次粗浅的分词。然后再利用语言知识排除不是新词语的“无用片段”以及计算相关度,寻找相关度最大的字与字的组合,再对这些文本片段作一次清洗与过滤。最后,把所有抽取得到的词和已有的词库进行比较,不在词库范围内的文本片段即可作为新词词库。图2为产业新词发现方法的流程图。
产业语料导入***后,需要先对数据进行统一的预处理。产业语料中往往是不仅仅包含中文字符的,还包含大量的***数字、大小写的英文字母、省略号等特殊标点,这为后续的产业新词识别带来了一定的阻碍。以产业投研报告为例,报告使用大量的数值以便增强真实性和说服力,假设设定产业名词最长片段的长度为8个字符,那么数值和字母之间非常容易组合出很多8个字符的片段,这些片段往往还有着较大的邻接熵和互信息,如果不做处理,那么这些不具产业链图谱构建价值的片段都会成为产业新词词表中词条。
进一步地,在本发明的一个实施例中,在获取所述目标产业类型对应的产业语料数据之后,还包括:
对所述产业语料数据进行统一的预处理,包括是将所述产业语料数据按照中文字符、非中文字符的方式进行切割,去除语气词、编码符号。
切割后的语料由原本的一个长句将变成多个短句,然后在得到的这些短句上进行后续的新词识别工作。
进一步地,在本发明的一个实施例中,所述设计产业新词发现算法对所述产业语料数据进行无监督预分词,包括:
将所述产业语料数据分割成单字符的集合,将所述集合中的字符两两组合作为候选词;
构建 Trie树存储候选词;
查询所述Trie树,获取前缀和后缀的频次列表,计算所述候选词的左右信息熵以及所述候选词构成片段的左右信息熵;
查询所述 Trie树,获取所述候选词的词频以及左右片段的词频,根据所述词频计算点间互信息;
根据公式计算所述候选词的得分,通过对所述得分设置阈值过滤得分较低的候选词,得到目标领域的候选词集,其中所述公式表示为:
其中,表示点间互信息,表示候选词构成片段的左右信息熵,表示候选词的左右信息熵。
具体的,将语料分割成一个单字符集合,将字符两两组合作为候选词。因为需要前缀和后缀来计算信息熵,因此需要存储长度为3的片段。由于后续涉及到前后缀的查找和词频的统计,所以本发明使用 Trie 树来存储数据。用 3-gram 序列构建前缀 Trie 树和后缀 Trie 树,Trie 树以单个字符为节点,每个节点记录从根节点到当前节点构成词汇出现的频次。
查询 Trie 树,获取前缀和后缀的频次列表,计算候选词的左右信息熵以及候选词构成片段的左右信息熵。因为涉及到的信息熵比较多,我们对每个信息熵作如下区分标记(Candidate 为候选词,left 为左边构成的片段,right 为右边构成的片段,h_l_l、h_l_r分别为left片段的左右信息熵,h_r_l、h_r_r分别为rigth片段的左右信息熵,h_l、h_r分别为候选词的左右信息熵)。如图3所示。
查询 Trie 树,获取候选词的词频以及左右片段的词频。有了词频之后便可以很方便的得到实际出现概率P(a,b)和期望出现概率P(a)*P(b),从而计算出互信息和内部凝合度。本发明使用的成词标准主要有两个:内部凝固度、自由运用程度。内部凝固程度衡量的是该词语的出现频率和该词语是有意义的搭配的程度,内部凝固程度越高,该文本片段越可能是一个词语;自由运用程度考察的是该词语左右邻字的丰富程度,自由运用程度越高,该文本片段越可能是一个词语。
内部凝固度用来衡量词搭配是否合理,借助计算语言学中的点互信息(PMI)这一指标进行计算。若PMI高,即两个词共现的频率远大于两个词自由拼接的乘积概率,则说明这两个词搭配更为合理一些。PMI的计算公式如下所示:
其中,分别表示a、b、ab组合在语料中出现概率。
针对多元片段的词,将片段逐字拆分为两个子片段,计算所有拆分后的的互信息,取所有互信息的最小值作为内部凝固度,计算公式如下:
其中,表示长度为m的字符串,表示词的出现频率。
查询 Trie 树,获取子片段的的左右邻接字符,计算候选词左右邻接熵。光看文本片段内部的凝合程度还不够,我们还需要从整体来看它在外部的表现。假设字片段的左邻接字符结合为,右邻接字符结合为,左右邻接熵的计算公式分别为:
本发明中候选词的边界自由度同时关注左右两边的邻接嫡,以左右自由度较高的词作为一个合理的词,因此在对候选词打分时选择左右邻接熵中的较小值作为邻接熵值加入计算,用来衡量一个词的左邻字与右邻字的丰富程度,熵越大则丰富程度越高。自由运用程度的计算公式如下:
对新词成词的特点, 在实际应用中,本发明为每一个候选词计算了一个分数,表示在当前上下文成为新词的可能性。分数计算公式如下:
分数由三个对应部分组成:
1)点间互信息:点间互信息越高,内部聚合程度越高。
2)两个单词片段信息熵的最小值:这个数值越大,则意味着两个单词一起出现的可能性越小。
3)单词左右信息熵的最小值:这个数值越大就表示着候选词出现的语境越多,越有可能成词。
因此,分数越高表示成词的可能性越大。通过对得分设置一定的阈值来过滤得分较低的候选词,将其别除出候选词集,最后得到目标领域的候选词集。
候选词集中还存在一些中文中的常用词语,这些词语也不应该作为目标领城的新词存在。基于此,从百度下载得到中文的停用词表,这里的停用词就是中文的常用词,如果候选词集中的词语存在于停用词表中,也将其别除出候选词集。同时,候选词集中的词语相对于源领域来说不一定都是新词,因此还需要过滤掉源领域语料中存在的词。
得到的产业新词词表仍然存在较多的垃圾字符串和误切分的字符串,这些垃圾串大多同于常用搭配和词语内部片段,单纯使用算法无法过滤掉这些不合理的候选词。所以还需要经过人工审核,支持用户随时对候选词内容进行增删改查以及导出。令人欣慰的是,通过新词发现算法的层层筛选,已经可以得到较高质量的结果,大大减少了人工干预的工作量。通过人工审核后的候选词作为这些产业领域的新词将被存储下来,以便后续基于这些产业新词进行产业链的构建以及更新迭代。
基于以上步骤,可以得到一个目标领域的新词词表。
抽取出产业新词后,接下来需要根据产业新词含义以及特点确定新词在产业链的层级位置,从语料中查找产业新词中存在上下位关系的实体对,构建起产业链的层次结构,将产业新词加入到产业链中。产业图谱通常关注产业上下游关系,为此,本发明使用分层树结构建立起产业关系的网络,通过上下位关系和并列语义关系提取方法来进行分层树的深度扩展和宽度扩展。
进一步地,在本发明的一个实施例中,所述根据上下位关系和并列语义关系提取方法确定所述产业新词之间的关系,并根据所述产业新词以及所述产业新词之间的关系构建目标产业链树,包括:
通过上下位关系和并列语义关系提取方法来进行目标产业链树的深度扩展和宽度扩展;其中,通过宽度展开算法进行所述目标产业链树的宽度扩展,通过深度扩展进行所述目标产业链树的深度扩展。
进一步地,在本发明的一个实施例中,所述通过宽度展开算法进行所述目标产业链树的宽度扩展,包括:
用实体表示产业新词,类型表示所述产业新词的词性,定义实体和类型之间的关联权重:
其中,表示实体,表示实体类型, 返回的置信度分数;
记两个实体的兄弟相似度为,使用匹配模式特征计算两个兄弟实体的相似度:
其中,表示跳过模式,表示跳过模式的集合;
使用所述实体和所述类型的特征计算;其中,表示获取到的所有特征;
通过word2vec获取两个实体的嵌入特征,使用乘法度量来计算兄弟姐妹相似度:
根据所述兄弟姐妹相似度计算所述实体的得分:
根据所述得分对所述实体进行筛选,从而进行所述目标产业链树的宽度扩展。
进一步地,在本发明的一个实施例中,所述通过深度扩展进行所述目标产业链树的深度扩展,包括:
表示项的嵌入向量,给定一个目标父节点,一组参考边,其中的父节点,计算将节点置于父节点之下的评分:
其中,表示向量之间的余弦相似度;
基于对每个候选实体进行评分,并选择得分高于阈值的实体作为节点下的初始子节点进行所述目标产业链树的深度扩展。
如图4所示,显示了两个预期的宽度扩展结果。当给定集合{“上游支撑”,“中游平台”},我们想要找到它们的兄弟节点“下游集成服务”,并将其放在父节点“人工智能”下。类似地,我们的目标是找到{"基础硬件", "应用技术"}的所有兄弟姐妹,并将它们附加到父节点"上游支撑"下。
这自然形成了一个树宽度扩展问题,因此采用宽度展开算法来解决它。宽度展开算法中的一个关键组件是计算两个实体的兄弟相似度,记为。本来主要通过并列语义模式匹配方法,在自然语言中一般使用一些标点符号(如顿号等)、固定的词(如“或”、“和”等)或句式来表示并列关系,由此可以得出并列语义的匹配模式。首先在每对实体和匹配匹配模式之间分配权重如下:
其中,是实体e和跳过模式sk之间的原始共现计数,|V|是候选实体的总数。
类似地,我们可以这样定义实体和类型之间的关联权重:
其中,是概念知识图谱返回的置信度分数,表示它相信实体具有类型的信心程度。通过将每个实体链接到概念知识图谱来获取它的类型信息,返回类型作为该实体的特性。对于不可链接的实体,它们根本没有这种实体类型特性。本发明选用微软提出的Probase(A Probabilistic Taxonomy)作为输入的概念知识图谱,利用该图谱,可以将实体映射到不同的语义概念,并根据实体文本内容被标记上相应的概率标签。
在此之后,使用匹配模式特征计算两个兄弟实体的相似度,如下所示:
其中SK表示选择的匹配模式特征集。类似地,可以使用所有类型特征来计算,最后,根据两个实体的嵌入特征,使用余弦相似度计算两个实体之间的相似度。
为了结合上述三种相似性,本发明使用乘法度量来计算兄弟姐妹相似度,如下所示:
给定一个种子实体集S和一个候选实体列表V,首先根据每个匹配模式特征与S中实体的累积强度(即)对其进行评分,然后选择得分最高的前200个匹配模式特征。在此基础上,采用无替换抽样方法生成了10个匹配模式特征子集, t = 1,2,…10。每个子集有120个匹配模式特性。
给定一个,只有当它与中至少一个匹配模式特征有关联时,我们才会考虑V中的候选实体。被考虑实体的得分计算方法如下:
对于每个,我们可以根据它们的分数获得候选实体的排名列表。我们用表示实体中的秩,如果不出现在中,我们设。最后,我们计算每个实体的平均倒数秩(mrr),并将平均秩高于r的实体加入集合S,如下所示:
上述聚合机制的关键见解是,不相关的实体不会频繁出现在多个的顶部位置,因此可能具有较低的mrr分数。在本发明中,设r = 5。
对于分类树中新添加的节点(例如,图4中的节点“下游集成服务”),它们还没有任何子节点,因此我们不能直接应用宽度扩展算法。为了解决这个问题,我们使用深度展开算法,通过考虑目标节点的兄弟节点和侄子/侄女节点之间的关系来获取目标节点的初始子节点。以图4中的节点“下游集成服务”为例。该节点是由前面的宽度扩展算法生成的,因此没有任何子节点。我们的目标是通过建模节点“下游集成服务”的兄弟节点(例如,“上游支撑”)和它的侄子/侄女节点(例如“中间件”、“操作***”)之间的兄弟姐妹之间的关系来找到它的初始子节点(例如“终端设备”和“应用软件”)。
我们的深度扩展算法依赖于术语嵌入,它将术语语义编码在固定长度的密集向量中。我们用v(t)表示项t的嵌入向量。两个项嵌入的偏移量可以表示它们之间的关系,从而得到v(" 上游支撑 ")−v("基础硬件")≈v("下游集成服务")−v("应用软件")。因此,给定一个目标父节点,一组参考边,其中的父节点,我们计算将节点置于父节点之下的评分如下:
其中,表示向量之间的余弦相似度。最后,基于对每个候选实体进行评分,并选择得分高于阈值的实体作为节点下的初始子节点。
至此,可以得到一个目标领域的的产业链分层关系树。
产业链上下游关系,是产业图谱中的核心,容错率极低,所以一般由分析师、专家来人工构建。因此,本文针对产业链上下游逻辑以及节点关联关系设计了产业图谱的数据存储结构,并提供产业图谱可视化编辑、图谱数据一键导入等功能,通过设计产业图谱数据转化处理方法实现步骤简化,用户可以从自动化挖掘出来的产业新词中选取合适的产业名词,方便快捷地自定义构建产业链或者基于原有产业图谱进行迭代更新,为后续产业图谱精细化分析和前瞻性研判提供便利。
进一步地,在本发明的一个实施例中,所述通过针对产业链上下游逻辑以及节点关联关系设计所述目标产业链树的数据存储结构,包括:
设计parent_id字段,存储父节点的唯一标识;
采用full_path字段存储当前节点的所有层级祖先节点,用id#id#id…方式拼接字符串表示。
具体的,在产业图谱应用场景下,产业图谱通常关注上下游关系以及产业节点之间的层级从属关系,一般层级不会太深,基本在十层以内,所以本文数据库设计目标是一个存储多级结构及简单高效获取一个完整分支。针对这种数据量比较大的有限分层的层级结构,本文设计了一个parent_id字段,存储父节点的唯一标识,这样可以快速获取产业的所属方向,也可以通过递归查询得到一棵产业图谱树。在产业图谱可视化分析方面,当展示某个领域的产业图谱时,需要频繁地提取某节点的所有子节点信息,但是如果只有parent_id,当这棵树的深度比较深时,获得一棵树时将需要查询很多次数据库,效率非常低。为了提高效率,本文采用full_path字段存储当前节点的所有层级祖先节点,用id#id#id…方式拼接字符串表示,这样可以方便地用 like 语句前缀匹配某个节点及其子节点,同时还能得到每个节点在树中的层级位置,可以在应用代码层面更方便、高效地拼接树。如果更新了一棵树中节点的关系,只需要维护好该节点及其子节点的full_path字段。这样的设计方案不仅能够满足产业图谱结构数据的查询和封装,而且便于维护节点及其子节点的层级关系。整体的数据库表主要字段设计如表1所示。
表1
为更有利于理解和分析产业图谱数据,本发明采用平铺层布局的方式来观察图谱数据。在Web应用程序开发领域,基于Ajax技术的JavaScript树形控件已经被广泛使用,本发明使用AntV的G6图可视化引擎实现,它提供了图的创建、渲染、元素的配置、布局、交互、动画等基础的图可视化能力,完美的解决了产业图谱层级数据的展示和编辑问题。用户可以对节点、边进行增删改,也可以通过拖动的方式对产业图谱的节点上下位关系进行更改,点击节点可以配置产业节点实体概念和属性,如实体定义、所属领域等,增加产业图谱的灵活性和拓展能力。
前端编辑操作之后需要持久化到数据库,为了方便数据库增删改查,本发明采用Tree Diff算法进行新旧两棵树节点比较,比较节点差异,从而确定需要更新的节点,形成补丁数据传送给服务端。本发明采用的是深度优先的策略,深度优先保证了修改子节点时其祖先节点是最新的。新节点与旧节点的比较主要是围绕三件事来达到数据库维护的目的,创建新节点,删除废节点,更新已有节点。用户的每一编辑动作将被暂时存储在前端,前端的“新增”、“修改”和“删除”都不是直接操作数据库,而是对数据打上状态标记,将需要进行新增、修改和删除的数据分别放到 add 对象、update 对象 和 delete 对象中,点击“保存”时才将分类之后的数据传给服务器。具体步骤如下:
(1)如果节点内容中没有id属性,则认为这个节点是新增的,加入add对象中。因为节点***数据库时自动生成节点唯一标识id,服务端将这个id放在节点内容内返回给浏览器,所以每个已存在的节点均有id属性。
如果节点内容有id属性,比较新旧节点除children外的各项属性值是否一致;
1)属性值一致,则认为该节点无需修改;
2)属性值不一致,则将这个节点加入update对象中,为parent_id、full_path重新赋值;
判断新节点与旧节点的子节点相关状况;
1)只有新节点有子节点,转到步骤(1);
2)只有旧节点有子节点,则认为新节点抛弃了旧节点的子节点,所以需要删除旧节点的子节点,将其加入到delete对象中;
3)新旧节点都有子节点的情况下,遍历查询新节点的子节点集合和旧节点的子节点集合的交集,id相同即可认为是交集,这部分节点将进行下一步判断,转到步骤(1)。不在集合中的新节点子节点,则认为该节点是新增的,加入add对象中。不在集合中的旧节点子节点,则将该节点加入delete对象中。
如图5所示是新产业链的补丁数据生成示意图,服务器接收到请求以及补丁数据后后再对数据库进行批量增删改操作,对 add 类型对象中的数据进行新增,对 update类型对象中的数据进行修改,对 delete 类型对象中的数据进行删除。
除可视化编辑之外,平台还提供了产业图谱一键导入功能,用户可以通过Excel表导入的方式创建或者更新产业图谱。其核心实现步骤如下:
读取Excel文件。本文使用的是Node.js的node-xlsx模块来实现Excel文件流的读写,Node模块读取是按Excel一行一行的读取,所以读取到的数据结构是一个二维数组,有合并行或列的单元格读取到的值为NULL。如图6,读取结果为图7。
将每一行中的有效数据转为具有层级的树形结构。Node脚本读取到的二维数组可以转化为嵌套的结构,每行数组的长度就是当前行的最大深度。如图7,第二行前三个值为NULL,代表第一行的前三个数据,因此,只需要将第二行生成的嵌套对象和第一行生成的嵌套对象合并,同理再将第二行数据和第三行数据合并,后边以此类推即可得到完整的树。在实现过程中,如果遇到多个同级的数据行,此时无法确定是***哪个数据行,通过观察数据的规律后发现,每次***的时候只需要获取当前数据所在项的深度,然后***到比当前数据深度多一的父级的最后***当前数据,即可保证***的层级不会错误。所以本文使用深度优先搜索算法,搜索出比当前级大一级的父级对象树,即可得出父级关系,结合父节点的完整路径full_path和产业领域root_id,从而可以构建新节点存储进数据中,如图8。同时在父级树的children数组的最后一项***当前对象如图是前三项生成的json对象和第四项的合并,可以得出当前节点到根节点的产业图谱json结构,如图9,完全符合前端树形控件所需的产业层级数据结构,便于前端进行可视化展示。
本发明实施例提出的产业链构建和迭代扩充开发方法,涵盖了产业图谱快速构建、发现产业新词、产业层次关系抽取、更新迭代等核心业务,解决目前产业图谱人工资料分析精准度较低、构建扩充繁琐的局限性,用户可以根据产业图谱需求,方便快捷的生成以及扩充对应类别下的产业图谱,平衡了自动化加工流程与人工干预的关系,提高应用的可扩展性和开发效率。
为了实现上述实施例,本发明还提出产业链构建和迭代扩充开发装置。
图10为本发明实施例提供的一种产业链构建和迭代扩充开发装置的结构示意图。
如图10所示,该产业链构建和迭代扩充开发装置包括:获取模块100,筛选模块200,构建模块300,更新模块400,其中,
获取模块,用于获取用户输入的目标产业类型,同时获取所述目标产业类型对应的产业语料数据;
筛选模块,用于设计产业新词发现算法对所述产业语料数据进行无监督预分词,得到产业新词;
构建模块,用于根据上下位关系和并列语义关系提取方法确定所述产业新词之间的关系,并根据所述产业新词以及所述产业新词之间的关系构建目标产业链树;
更新模块,用于通过针对产业链上下游逻辑以及节点关联关系设计所述目标产业链树的数据存储结构,通过所述数据存储结构基于原有产业链树进行迭代更新。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的产业链构建和迭代扩充开发方法。
为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的产业链构建和迭代扩充开发方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种产业链构建和迭代扩充开发方法,其特征在于,包括以下步骤:
获取用户输入的目标产业类型,同时获取所述目标产业类型对应的产业语料数据;
设计产业新词发现算法对所述产业语料数据进行无监督预分词,得到产业新词;
根据上下位关系和并列语义关系提取方法确定所述产业新词之间的关系,并根据所述产业新词以及所述产业新词之间的关系构建目标产业链树;
通过针对产业链上下游逻辑以及节点关联关系设计所述目标产业链树的数据存储结构,通过所述数据存储结构基于原有产业链树进行迭代更新。
2.根据权利要求1所述的方法,其特征在于,在获取所述目标产业类型对应的产业语料数据之后,还包括:
对所述产业语料数据进行统一的预处理,包括是将所述产业语料数据按照中文字符、非中文字符的方式进行切割,去除语气词、编码符号。
3.根据权利要求1所述的方法,其特征在于,所述设计产业新词发现算法对所述产业语料数据进行无监督预分词,包括:
将所述产业语料数据分割成单字符的集合,将所述集合中的字符两两组合作为候选词;
构建 Trie树存储候选词;
查询所述Trie树,获取前缀和后缀的频次列表,计算所述候选词的左右信息熵以及所述候选词构成片段的左右信息熵;
查询所述 Trie树,获取所述候选词的词频以及左右片段的词频,根据所述词频计算点间互信息;
根据公式计算所述候选词的得分,通过对所述得分设置阈值过滤得分较低的候选词,得到目标领域的候选词集,其中所述公式表示为:
其中,表示点间互信息,表示候选词构成片段的左右信息熵,表示候选词的左右信息熵。
4.根据权利要求1所述的方法,其特征在于,所述根据上下位关系和并列语义关系提取方法确定所述产业新词之间的关系,并根据所述产业新词以及所述产业新词之间的关系构建目标产业链树,包括:
通过上下位关系和并列语义关系提取方法来进行目标产业链树的深度扩展和宽度扩展;其中,通过宽度展开算法进行所述目标产业链树的宽度扩展,通过深度扩展进行所述目标产业链树的深度扩展。
5.根据权利要求4所述的方法,其特征在于,所述通过宽度展开算法进行所述目标产业链树的宽度扩展,包括:
用实体表示产业新词,类型表示所述产业新词的词性,定义实体和类型之间的关联权重:
其中,表示实体,表示实体类型, 返回的置信度分数;
记两个实体的兄弟相似度为,使用匹配模式特征计算两个兄弟实体的相似度:
其中,表示跳过模式,表示跳过模式的集合;
使用所述实体和所述类型的特征计算;其中,表示获取到的所有特征;
通过word2vec获取两个实体的嵌入特征,使用乘法度量来计算兄弟姐妹相似度:
根据所述兄弟姐妹相似度计算所述实体的得分:
根据所述得分对所述实体进行筛选,从而进行所述目标产业链树的宽度扩展。
6.根据权利要求4所述的方法,其特征在于,所述通过深度扩展进行所述目标产业链树的深度扩展,包括:
表示项的嵌入向量,给定一个目标父节点,一组参考边,其中的父节点,计算将节点置于父节点之下的评分:
其中,表示向量之间的余弦相似度;
基于对每个候选实体进行评分,并选择得分高于阈值的实体作为节点下的初始子节点进行所述目标产业链树的深度扩展。
7.根据权利要求1所述的方法,其特征在于,所述通过针对产业链上下游逻辑以及节点关联关系设计所述目标产业链树的数据存储结构,包括:
设计parent_id字段,存储父节点的唯一标识;
采用full_path字段存储当前节点的所有层级祖先节点,用id#id#id…方式拼接字符串表示。
8.一种产业链构建和迭代扩充开发装置,其特征在于,包括以下模块:
获取模块,用于获取用户输入的目标产业类型,同时获取所述目标产业类型对应的产业语料数据;
筛选模块,用于设计产业新词发现算法对所述产业语料数据进行无监督预分词,得到产业新词;
构建模块,用于根据上下位关系和并列语义关系提取方法确定所述产业新词之间的关系,并根据所述产业新词以及所述产业新词之间的关系构建目标产业链树;
更新模块,用于通过针对产业链上下游逻辑以及节点关联关系设计所述目标产业链树的数据存储结构,通过所述数据存储结构基于原有产业链树进行迭代更新。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-7中任一所述的产业链构建和迭代扩充开发方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的产业链构建和迭代扩充开发方法。
CN202310260247.6A 2023-03-17 2023-03-17 一种产业链构建和迭代扩充开发方法 Active CN115982390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310260247.6A CN115982390B (zh) 2023-03-17 2023-03-17 一种产业链构建和迭代扩充开发方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310260247.6A CN115982390B (zh) 2023-03-17 2023-03-17 一种产业链构建和迭代扩充开发方法

Publications (2)

Publication Number Publication Date
CN115982390A true CN115982390A (zh) 2023-04-18
CN115982390B CN115982390B (zh) 2023-06-23

Family

ID=85968496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310260247.6A Active CN115982390B (zh) 2023-03-17 2023-03-17 一种产业链构建和迭代扩充开发方法

Country Status (1)

Country Link
CN (1) CN115982390B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975626A (zh) * 2023-06-09 2023-10-31 浙江大学 一种供应链数据模型的自动更新方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017185674A1 (zh) * 2016-04-29 2017-11-02 乐视控股(北京)有限公司 新词发现方法及装置
CN111897917A (zh) * 2020-07-28 2020-11-06 嘉兴运达智能设备有限公司 基于多模态自然语言特征的轨道交通行业术语提取方法
CN112860692A (zh) * 2021-01-29 2021-05-28 城云科技(中国)有限公司 一种数据库表结构转换方法、装置及其电子设备
CN113779200A (zh) * 2021-09-14 2021-12-10 中国电信集团***集成有限责任公司 目标行业词库的生成方法、处理器及装置
CN114742061A (zh) * 2022-04-26 2022-07-12 平安国际智慧城市科技股份有限公司 文本处理方法、装置、电子设备及存储介质
CN114757147A (zh) * 2022-04-02 2022-07-15 辽宁工程技术大学 一种基于bert的自动分层树扩展方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017185674A1 (zh) * 2016-04-29 2017-11-02 乐视控股(北京)有限公司 新词发现方法及装置
CN111897917A (zh) * 2020-07-28 2020-11-06 嘉兴运达智能设备有限公司 基于多模态自然语言特征的轨道交通行业术语提取方法
CN112860692A (zh) * 2021-01-29 2021-05-28 城云科技(中国)有限公司 一种数据库表结构转换方法、装置及其电子设备
CN113779200A (zh) * 2021-09-14 2021-12-10 中国电信集团***集成有限责任公司 目标行业词库的生成方法、处理器及装置
CN114757147A (zh) * 2022-04-02 2022-07-15 辽宁工程技术大学 一种基于bert的自动分层树扩展方法
CN114742061A (zh) * 2022-04-26 2022-07-12 平安国际智慧城市科技股份有限公司 文本处理方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975626A (zh) * 2023-06-09 2023-10-31 浙江大学 一种供应链数据模型的自动更新方法及装置
CN116975626B (zh) * 2023-06-09 2024-04-19 浙江大学 一种供应链数据模型的自动更新方法及装置

Also Published As

Publication number Publication date
CN115982390B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
Zhang et al. Ad hoc table retrieval using semantic similarity
CN104317801B (zh) 一种面向大数据的数据清洗***及方法
CN104268148B (zh) 一种基于时间串的论坛页面信息自动抽取方法及***
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
CN104462582B (zh) 一种基于结构和内容二级过滤的Web数据相似性检测方法
CN105045875B (zh) 个性化信息检索方法及装置
US20150006528A1 (en) Hierarchical data structure of documents
CN103559199B (zh) 网页信息抽取方法和装置
Bing et al. Towards a unified solution: data record region detection and segmentation
CN106528648A (zh) 结合Redis内存数据库的分布式RDF关键词近似搜索方法
Ujwal et al. Classification-based adaptive web scraper
Ahmadi et al. Unsupervised matching of data and text
CN115982390B (zh) 一种产业链构建和迭代扩充开发方法
CN102637202B (zh) 一种迭代式概念属性名称自动获取方法和***
CN115617981A (zh) 一种面向社交网络短文本的信息层次摘要提取方法
CN107491524B (zh) 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置
CN110162580A (zh) 基于分布式预警平台的数据挖掘与深度分析方法及应用
Zeng et al. Construction of scenic spot knowledge graph based on ontology
Sharma et al. A probabilistic approach to apriori algorithm
Alobaid et al. Knowledge-graph-based semantic labeling: Balancing coverage and specificity
Li et al. A novel approach for mining probabilistic frequent itemsets over uncertain data streams
CN116401375B (zh) 一种知识图谱构建方法及***
JP5903372B2 (ja) キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム
Ganeshmoorthy et al. Eliminating the Web Noise by Text Categorization and Optimization Algorithm
Pamulaparty et al. A novel approach to perform document clustering using effectiveness and efficiency of simhash

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant