CN112307153B - 一种产业知识库自动构建方法、装置及存储介质 - Google Patents
一种产业知识库自动构建方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112307153B CN112307153B CN202011064551.6A CN202011064551A CN112307153B CN 112307153 B CN112307153 B CN 112307153B CN 202011064551 A CN202011064551 A CN 202011064551A CN 112307153 B CN112307153 B CN 112307153B
- Authority
- CN
- China
- Prior art keywords
- entity
- document
- event
- entities
- industrial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种产业知识库自动构建方法、装置及存储介质。本发明在梳理出产业领域概念体系的前提下,针对不同类型的数据来源,利用模型、规则、词典等先验知识,对企业、人才等核心实体类型及其之间的关系进行高效构建,并支持对知识的按需批量更新;此外,针对产业资讯等非结构化文档数据,利用深度学习与规则相结合的方法,对文档本身进行碎片化和语义标引,对核心事件类型进行面向主体的细粒度事件抽取,并通过设计标准化文本信息抽取数据结构解决各处理阶段输出的服务及其之间的通信问题;进一步通过基于上下文的实体链接技术,实现对企业和人才等核心实体的动态事件获取,并辅助指导更新已有知识,进一步丰富产业知识维度。
Description
技术领域
本发明涉及计算机***、大数据、人工智能、知识图谱构建、自然语言处理等领域,具体涉及一种产业知识库自动构建方法。
背景技术
随着大数据和人工智能技术的发展,越来越多的场景技术应用案例正在形成。基于数据智能和知识智能技术的产业发展认知决策场景应用将对该领域的工作模式起到重要的转折作用。
传统的产业认知决策过程存在数据依据不足、数据来源复杂、数据孤岛严重、知识无法沉淀、无标准化***支撑等问题,且大量依靠滞后和不够精准的人工统计数据,并没有充分结合大数据人工智能技术和标准自动化知识构建流程。基于此问题,本发明提出了一整套产业知识库自动构建方法,旨在利用数据智能技术和领域先验知识实现较为完整的产业知识库自动化构建。
结合产业认知决策场景需求,产业知识库的构建需解决包括概念体系、核心实体、动态事件、文档数据等数据和知识的处理与关联,并保持持续高质量知识的更新维护,进而支撑上层基于概念、实体、关系、属性的真实展示和深度分析需求。这使得产业知识库的构建涉及多种大数据梳理与人工智能技术,一方面,针对实体信息丰富、数据来源多样、数据质量不一等特点,需要利用规则和算法等手段解决对于每种实体知识构建流程;另一方面,对于大量复杂的非结构化文本数据,需要基于知识与算法相结合的方式实现机器阅读流程;进一步,对于知识库的持续扩充和更新,需要在实体库和动态事件之间建立精准的关联,保持知识库的高质量演化。
因此,需要建立一种较为通用的技术方法流程,实现产业知识库构建过程中的自动化、高性能、可持续等特点。
发明内容
本发明的目的是解决现有技术中存在的问题,并提供一种产业知识库自动构建方法,用于实现产业认知决策场景下知识库构建的自动化、高性能、可持续等特点。
为了实现上述发明目的,本发明具体采用的技术方案如下:
一种产业知识库自动构建方法,其包括如下步骤:
S1、针对目标产业领域,构建包含概念、实体、事件、文档、属性和关系的产业知识库知识体系模型;
S2、初步采集目标产业中包括企业实体和人才实体在内的感兴趣实体,构建企业实体与所在产业领域的关系以及人才实体与所就职企业的关系,形成产业知识库;
S3、针对目标产业采集产业资讯文档数据,基于深度学习和规则相结合的方法对采集得到的文档进行核心句识别、主题分类和实体识别,得到包含文档基础信息和文档中提及实体的结构化文档库;再对采集得到的文档进行事件级别的事件细粒度抽取,得到包含实体和事件信息的事件库;
S4、基于S3中得到的文档库和事件库,利用实体链接技术对S2中得到的产业知识库进行知识扩展与动态更新,更新范围包括实体新增、实体关系新增、实体关系更新、以及实体与文档和/或事件之间的关联,以保持产业知识库的持续构建与更新。
作为优选,所述的产业知识库知识体系模型中,顶级知识类型包括概念、实体、事件和文档,概念类型包括产业领域和事件类型,实体类型包括企业和人才,关系类型包括文档关于的事件类型、文档提及的企业、事件涉及的企业、事件涉及的人才、企业所属的产业领域、企业与企业的合作、企业之间的投资以及人才在企业的就职。
作为优选,所述S2中,产业知识库的构建方法如下:
S21、定向批量采集目标产业中感兴趣企业实体的资料数据,并对资料数据进行属性结构化清洗,获取企业实体不同维度的结构化信息,信息维度包括企业简介、经营范围和产品信息;
S22、基于不同产业领域词汇的词典,对每个企业实体不同维度的结构化信息进行匹配打分,根据各维度的加权分数通过阈值法确定企业实体所属的产业领域,构建企业实体与所在产业领域的关系;
S23、获取目标产业领域的候选人才实体的名录以及其对应的简历文本,并将候选人才实体的属性进行规范化处理,使其与外部人才数据库中的属性体系保持一致;然后基于候选人才实体在简历信息中的已知属性在外部人才数据库中进行匹配;若匹配过程中存在唯一匹配对象,则在两者之间形成链接,以外部人才数据库中的属性信息对候选人才实体的简历信息进行属性扩充;若匹配过程中存在多个匹配对象,则基于相似度计算和主动学习的实体匹配方法重新匹配得到唯一匹配对象,在两者之间形成链接,以外部人才数据库中的属性信息对候选人才实体的简历文本进行属性扩充;
S24:针对候选人才实体的简历文本,利用实体识别模型检测出文本中提及的企业实体序列;将企业实体序列与预设的企业实体库中准确的企业名称和别名进行匹配,筛选出候选人才实体就职过的企业实体列表;最后将企业实体列表中的各企业实体ID记录于候选人才实体的数据结构中,构建人才实体与所就职企业的关系。
作为优选,所述S22中,计算各维度的加权分数时,通过众包方式进行人工校验,利用反馈信息调整不同维度的权重和打分规则。
作为优选,所述S23中,基于相似度计算和主动学习的实体匹配方法具体如下:
针对任意两个待判断是否相同的人才实体,对两者共有的维度属性进行相似度计算,并将不同维度的相似度按照其贡献权重进行加权,得到两者的总相似度,总相似度最大的一组人才实体视为同一个人才实体;在不断进行匹配的过程中,通过主动学习持续优化不同维度的贡献权重。
作为优选,所述S3中,文档库和事件库的构建方法如下:
S31:获取目标产业相关的产业资讯文档数据,并计算文档之间的相似度以判断是否存在重复的文档,筛除重复文档同时记录每个文档的出现频次;
S32:对S31中剩余的每个文档进行碎片化处理,使文档的正文按句子为单位进行分割;然后计算文档标题与文档中各句子之间的相似度,选取得出最大相似度的句子作为文档的核心句;
S33:基于不同主题的事件触发词和/或事件语言表达模板,对文档的核心句进行匹配,以匹配程度最高的主题作为文档所述事件的主题;若文档的核心句无法匹配到主题,则以文档正文进行重新匹配,实现文档所述事件的主题分类;
S34:利用经过预训练的实体识别模型,对文档中提及的实体进行识别,提取出文档中的实体;
S35:根据文档所述事件的主题分类结果,对文档进行细粒度事件抽取;在抽取过程中,针对每种事件类型进行角色和属性建模,并采用序列标注和分类策略,构建基于文本的实体识别模型和关系抽取模型,最终综合模型的预测结果形成结构化事件信息;结构化事件信息包括事件所涉及的企业实体以及事件所涉及的人才主体;
S36:针对每个文档,将S32~S34得到的数据以自然语言标注的结构化文档数据格式进行存储,归入结构化文档库;结构化文档格式的属性包括文档的ID、标题、摘要、内容、发布日期、来源、URL、提及实体对象、主题标签列表和文档出现频次;
S37:针对每个文档,将S35中得到的结构化事件信息按照面向主体的事件数据格式进行存储,并归入事件库;所述事件数据格式中的维度包括主体实体对象、客体实体对象列表、事件属性信息、事件来源文档ID列表、事件触发词列表。
作为优选,所述S31中,所述文档之间的相似度判断采用Simhash算法,首先针对结构化的文档数据各个属性进行哈希运算,并按位比较不同文档间的哈希值的距离,若一个属性的哈希值距离低于距离阈值则基于该属性判定为相同文档;对于两个文档而言,判定为相同文档的属性个数超过个数阈值时,判断两个文档相同。
作为优选,所述S4中,对产业知识库进行知识扩展与动态更新的方法如下:
S41:根据S3中得到的文档库和事件库,将文档与文档中提及的实体行关联,将事件与事件中提及的实体行关联;对于文档或事件中未能关联上的新增实体,将其暂时置于待审查和采集清单中,以待后续扩充;
S42:对于涉及实体之间新增关系或者关系发生变更的事件,在产业数据库中对于实体之间的关系进行新增或更新。
本发明的另一目的在于提供一种产业知识库自动构建装置,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如前述任一方案所述的产业知识库自动构建方法。
本发明的另一目的在于提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如前述任一方案所述的产业知识库自动构建方法。
相对于现有技术而言,本发明具有以下有益效果:
本发明提供的产业知识库自动构建方法,可面向产业认知决策场景中的应用需求,在梳理出产业领域概念体系的前提下,针对不同类型的数据来源,利用模型、规则、词典等先验知识,对企业、人才等核心实体类型及其之间的关系进行高效构建,并支持对知识的按需批量更新;此外,针对产业资讯等非结构化文档数据,利用深度学习与规则相结合的方法,对文档本身进行碎片化和语义标引,对核心事件类型进行面向主体的细粒度事件抽取,并通过设计标准化文本信息抽取数据结构解决各处理阶段输出的服务及其之间的通信问题;进一步通过基于上下文的实体链接技术,实现对企业和人才等核心实体的动态事件获取,并辅助指导更新已有知识,进一步丰富产业知识维度,有助于持续提升产业知识库质量,支撑上层产品的高价值情报服务。
附图说明
图1为本发明实施例提供的一种产业知识库自动构建流程示意图;
图2为本发明实施例提供的包含核心实体库、文档库、事件库及其关系构建的详细流程示意图;
图3为本发明实施例可泛化扩展出的产业认知决策场景知识模型体系示意图。
具体实施方式
下面将结合本发明附图对本发明实施例中的技术方案进行更加详细地描述。
本发明实施例提供了一种面向产业认知决策场景的产业知识库自动构建方法,如图1所示,根据产业领域的知识体系建模结果,分别实施面向企业、人才及其关系的产业核心实体库构建流程,和基于产业资讯信息抽取的产业文档库与事件库构建流程,并基于实体链接技术实施产业知识库的实体扩充与关系更新,最终实现产业知识库的持续和高质量自动化构建。
需要说明的是,本发明所涉及的产业知识库自动构建方法,是基于已有数据和技术基础之上设计并实施的,需要依赖于部分领域专业知识和数据库基础,具体包括产业知识概念体系的专业梳理能力、第三方完整人才数据库、稳定的实体与资讯公开数据源等。随着产业认知决策场景需求的不断扩展,所依赖的外部资源可能会随之增加,需要基于资源的质量和任务的难度进行针对性的详细流程和方法设计,但主要流程均包含在本发明所述的模块中,因此,本发明具有一定的场景通用性和流程扩展指导意义。
本发明所述的产业知识库自动构建方法,融合了产业认知决策场景的多种数据类型、多种知识类型、多种构建流程、多种技术手段,实现了大数据与人工智能技术的充分结合。具体而言,数据类型涉及结构化数据库数据、半结构化互联网数据、非结构化文本数据;知识类型包括层级概念体系、核心实体、动态事件、资讯文档、以及它们各自的属性和之间的关系;构建流程包括核心知识库构建流程、文档库与事件库构建流程、知识库持续新增与更新流程等;技术手段涉及深度学习与主动学习、词典与规则匹配、文本相似度计算、实体链接与融合等。
下面以图1和图2所示的产业知识库整体构建流程和产业知识库详细构建流程为例,阐述构建过程中所涉及的具体技术方法。
如图1所示,在产业知识库整体构建方法中,涉及的主要流程包括:
S1、针对目标产业领域,构建包含概念、实体、事件、文档、属性和关系的产业知识库知识体系模型;
S2、初步采集目标产业中包括企业实体和人才实体在内的感兴趣实体,构建企业实体与所在产业领域的关系以及人才实体与所就职企业的关系,形成产业知识库;
S3、针对目标产业采集产业资讯文档数据,基于深度学习和规则相结合的方法对采集得到的文档进行核心句识别、主题分类和实体识别,得到包含文档基础信息和文档中提及实体的结构化文档库;再对采集得到的文档进行事件级别的事件细粒度抽取,得到包含实体和事件信息的事件库;
S4、基于S3中得到的文档库和事件库,利用实体链接技术对S2中得到的产业知识库进行知识扩展与动态更新,更新范围包括实体新增、实体关系新增、实体关系更新、以及实体与文档和/或事件之间的关联,以保持产业知识库的持续构建与更新。
其中S2和S3分别为本发明的主流程1和主流程2。
主流程1的核心在于:在梳理出产业领域概念体系的前提下,依赖于第三方数据库资源,基于模型、规则、词典等方法,进行核心实体及其关系的知识库构建流程,涉及企业、人才等实体类型,分别建立针对特定实体类型和关系类型开展知识构建方法的设计;
主流程2的核心在于:在梳理出事件类型概念体系的前提下,基于深度学习和规则相结合的产业资讯文档数据信息抽取方法,进行文档库与事件库的知识库构建流程,涉及文档碎片化、语义主题分类、核心实体识别、动态事件抽取等具体任务,并设计标准化数据结构支撑不同流程模块间的通信。
S4属于本发明中的主流程3,其核心在于:在主流程1与主流程2的基础上,基于实体链接技术开展知识扩展与动态更新流程,涉及核心实体新增、实体关系新增、实体关系更新、以及实体与文档和事件之间关联的建立,实现产业知识库的持续构建与质量提升。
下面参见图2所示,对该产业知识库整体构建方法中具体涉及的流程详述如下:
S1、产业知识库知识体系建模:
在进入自动化知识库构建流程之前,需要根据场景需求进行产业知识库知识体系建模,涉及概念类型、核心实体、动态事件、资讯文档及其属性和相互之间的关系类型。其中,概念类型包括产业领域体系和事件类型体系,其中产业领域包括人工智能产业链、集成电路产业链等,其概念实例具有层级包含结构和上下游关系;核心实体类型包括企业、人才等,可在本实施例基础上进一步扩展出产品、专利、园区等核心实体,需要分别设计出各个类型的属性维度;动态事件体类型包括投融资事件、企业合作事件、产品发布事件等,需要针对不同事件类型分别设计事件角色和属性维度;资讯文档则包括文档属性维度及待链接的实体等信息。
下面以通式Eh-<R>-Et表示某种关系类型,R为关系名称,如“就职于”,Eh为该关系类型的头实体类型,如“人才”,Et为该关系类型的尾实体类型,如“企业”。
在该产业知识库知识体系模型中,知识体系之间的关系包括:文档—<关于>—事件类型、文档—<提及>—企业、事件—<主体>—企业、事件—<主体>—人才、企业—<属于>—产业领域、企业—<合作>—企业、企业—<投资>—企业、人才—<就职于>—企业等。
在主流程1中,实现了一种产业核心实体库构建方法,包括以下子流程:
子流程1-1:核心实体构建,包括基于定向批量采集和属性结构化清洗的企业实体库构建方法,与基于种子人才整理、第三方人才库链接与扩充、人才属性完善的人才实体库构建方法流程。
在子流程1-1中,人才实体的构建采用基于候选实体筛选+实体相似度计算匹配的流程方法,实现人才实体与第三方人才数据库的链接与属性扩充,并结合人机交互的主动学习方法进一步提升实体库构建效率。
子流程1-2:核心实体间关系构建,包括人才—<就职于>—企业和企业—<属于>—产业领域的关系构建流程。在该子流程中,人才—<就职于>—企业的关系构建,遵循准确性优先原则。
下面,详细描述主流程1的具体实现过程如下
S21、定向批量采集目标产业中感兴趣企业实体的资料数据,该采集过程可以在线下进行,资料数据可以从企业的网站、微信公众号等途径获取。资料采集完毕后,对资料数据进行属性结构化清洗,获取企业实体不同维度的结构化信息,信息维度包括企业简介、经营范围和产品信息等。
S22、基于不同产业领域词汇的词典,对每个企业实体不同维度的结构化信息进行匹配打分,根据各维度的加权分数通过阈值法确定企业实体所属的产业领域,构建企业实体与所在产业领域的关系,即创建企业—<属于>—产业领域的关系。
此处企业—<属于>—产业领域的关系构建采用企业多属性文本语义词匹配与综合打分方法,通过领域专业知识对企业的简介、经营范围、产品信息等维度进行权重赋值。因此需要预先对产业领域相关词汇进行梳理和归类,然后设计打分规则,通过设置阈值实现关系存在性的判断。在实际使用时,可以进一步通过众包方式进行人工校验,利用反馈信息调整权重和打分规则。
S23、获取目标产业领域的候选人才实体的名录以及其对应的简历文本,并将候选人才实体的属性进行规范化处理,使其与外部人才数据库中的属性体系保持一致。然后基于候选人才实体在简历信息中的已知属性在外部人才数据库中进行匹配,缩小链接范围。根据匹配结果选择以下方式进行链接:
若匹配过程中存在唯一匹配对象,则在两者之间形成链接,以外部人才数据库中的属性信息对候选人才实体的简历信息进行属性扩充。
若匹配过程中存在多个匹配对象,则基于相似度计算和主动学习的实体匹配方法重新匹配得到唯一匹配对象,在两者之间形成链接,以外部人才数据库中的属性信息对候选人才实体的简历文本进行属性扩充。
此处,基于相似度计算和主动学习的实体匹配方法具体如下:
针对任意两个待判断是否相同的人才实体,对两者共有的维度属性进行相似度计算,并将不同维度的相似度按照其贡献权重进行加权,得到两者的总相似度,总相似度最大的一组人才实体视为同一个人才实体;在不断进行匹配的过程中,通过主动学习持续优化不同维度的贡献权重。
该基于相似度计算和主动学习的实体匹配方法,通过交互式判断两个实体是否相同,可持续优化实体共有维度属性对相似度计算的贡献权重,最终模型可用于较准确地判断两个新实体是否相同。相似度计算的函数可采用Margin Loss,Sim()为自定义属性相似度函数,可选用多种字符串相似度算法,相似度计算公式如下:
S24:针对候选人才实体的简历文本,利用中文实体识别模型检测出文本中提及的企业实体序列,对于曾就职的多个企业实体的情况,模型需能够识别出最近就职的企业实体。
然后将企业实体序列与预设的企业实体库中准确的企业名称和别名进行匹配,筛选出候选人才实体就职过的企业实体列表,以更正简历中可能不规范的企业名称。同时,为了提高可信度,可以考虑使用人才姓名与候选企业实体的高管属性列表中的姓名进行匹配,筛选出可靠的实际就职的企业实体。
最后将企业实体列表中的各企业实体ID记录于候选人才实体的数据结构中(relations),构建人才实体与所就职企业的关系,创建人才—<就职于>—企业关系。
在主流程2中,实现了一种产业资讯文档信息抽取方法,用于构建文档库和动态事件库,包括以下子流程:
子流程2-1:针对产业资讯文档数据的处理,实现文档级相似度计算和重复文档判断,用于避免针对转载类资讯的重复处理,同时记录文档的转载频次。
子流程2-2:针对产业资讯文档数据的处理,实现文本信息抽取流程(机器阅读流程),通过文档的碎片化核心句识别、主题类别标引、核心实体识别、事件细粒度抽取等步骤,实现对文档库和事件库的自动构建。
下面,详细描述主流程2中子流程2-1和子流程2-2的具体实现过程如下
S31:通过网站、微信公众号等途径,获取目标产业相关的产业资讯文档数据。由于这些文档之间可能存在转载情况,其内容是重复的,因此需先计算文档之间的相似度以判断是否存在重复的文档,筛除重复文档同时记录每个文档的出现频次,即转载频次。
文档重复性判断方法采用计算文档的综合哈希值,再进行相似度运算和相同文档判断的流程。文档特征哈希算法采用Simhash实现,能够对于相似的文本产生相近的值。首先针对结构化的文档数据各个属性进行哈希运算,并按位比较不同文档间的哈希值的距离,若一个属性的哈希值距离低于距离阈值则基于该属性判定为相同文档;对于两个文档而言,判定为相同文档的属性个数超过个数阈值时,判断两个文档相同。
为了提升每次文档相似判断的性能,采用Redis缓存已计算过的7天内的文档哈希值,并在每次计算时支持快速特征值读取。判断两文档是否相同的计算公式如下,:
其中Dist()可使用如汉明距离等按位距离方法,t表示相同判定的个数阈值,实施例中设置为3。
S32:对S31中剩余的每个不重复文档进行碎片化处理,使文档的正文按句子为单位进行分割;然后计算文档标题与文档中各句子之间的相似度,选取得出最大相似度的句子作为文档的核心句。
S33:基于不同主题的事件触发词和事件语言表达模板,对文档的核心句进行匹配,以匹配程度最高的主题作为文档所述事件的主题;若文档的核心句无法匹配到主题,则以文档正文进行重新匹配,实现文档所述事件的主题分类。
S34:利用经过预训练的实体识别模型,对文档中提及的实体进行识别,提取出文档中的实体。
S35:根据文档所述事件的主题分类结果,对文档进行细粒度事件抽取;在抽取过程中,针对每种事件类型进行角色和属性建模,并采用序列标注和分类策略,构建基于文本的实体识别模型和关系抽取模型,最终综合模型的预测结果形成结构化事件信息;结构化事件信息包括事件所涉及的企业实体以及事件所涉及的人才主体。
S36:针对每个文档,将S32~S34得到的数据以自然语言标注的结构化文档数据格式进行存储,归入结构化文档库;结构化文档格式的属性包括文档的ID、标题、摘要(即核心句)、内容、发布日期、来源、URL、提及实体对象、主题标签列表和文档出现频次。
S37:针对每个文档,将S35中得到的结构化事件信息按照面向主体的事件数据格式(SOE)进行存储,并归入事件库;所述事件数据格式中的维度包括主体实体对象(subject)、客体实体对象列表(object)、事件属性信息(properties)、事件来源文档ID列表(doc_ids)、事件触发词列表(action_words)等。
在上述S32中,实现基于文本相似度算法的资讯文档核心句识别与文档碎片化流程,依赖于文档标题与文档中句子的相似度计算完成。标题与句子的相似度算法采用Jaccard文本相似度计算实现,计算结果按由高到低排序,选取得出最大相似度的句子作为文档的核心句。
在上述S33中,基于事件类型体系梳理,结合对事件触发词与事件语言表达模板的梳理和匹配,实现文档所述事件主题分类的标引流程,支撑结构化文档库构建。事件触发词与表达模板基于各个事件类型分别构建。
在上述S34中,先基于开放通用实体识别模型对文档中提及的核心实体进行基本识别,同时进行领域语料积累和专用核心实体识别模型构建,逐渐替换掉通用实体识别流程实现性能提升。模型训练采用经典的LSTM+CRF算法,模型迭代直至实现对企业与人才的精准实体识别。
在上述S35中,基于事件类型角色体系的梳理,结合文本序列标注与关系分类算法,实现细粒度事件抽取流程。针对每种事件类型进行角色属性建模和算法模型构建,以投融资事件为例,设计出包括投资人、融资方、融资轮次、融资金额、融资日期等具体角色和属性,并分别采用序列标注和分类策略,构建基于文本的实体识别模型和关系抽取模型,最终组合模型预测结果形成结构化事件信息。其中,实体序列识别采用LSTM+CRF算法,关系分类抽取采用TextCNN算法实现。
在主流程3中,实现了一种产业知识持续扩展与动态更新方法,基于实体链接技术联合主流程1和主流程2的输出,对各知识体系类型及其关系进行持续更新,包括以下子流程:
子流程3-1:采用基于针对不同实体类型特征的实体链接方法,实现对企业和人才的实体关联,支撑知识库的持续扩充与更新。
子流程3-2:实现知识库的持续构建与扩充流程,对包括文档与实体关系、事件与实体关系、实体实例对象、实体之间的关系等知识进行新增和更新。
下面,详细描述主流程3中子流程3-1和子流程3-2的具体实现过程如下
S41:根据前述流程得到的文档库和事件库,将文档与文档中提及的实体行关联,将事件与事件中提及的实体行关联。
S42:对于涉及实体之间新增关系或者关系发生变更的事件,在产业数据库中对于实体之间的关系进行新增或更新。
在上述S41中,文档—<提及>—企业、事件—<主体>—企业、事件—<主体>—人才等均基于实体链接结果直接实现。对于未被链接上的实体,经校验流程后,可纳入待扩充实体清单,等待周期性的实体采集与清洗流程启动完成实体实例的新增。
另外,针对企业的实体链接,采用半自动方法构建出企业的别名清单,包括企业全称字符切割式别名自动生成和人工众包式的别名梳理,其中众包别名梳理可基于对企业实体序列的识别结果进快速校验实现,提升扩充效率。
另外,针对人才的实体链接,采用多维度属性信息综合匹配,优先根据人才姓名和所在机构进行完全字符匹配,实现有限候选人才的初步判定,再根据事件其他属性甚至事件来源文档的上下文信息如人才工作经历介绍进行匹配,最终确定唯一的人才实体。
在上述S42中,对部分事件类型,如投融资事件、企业合作事件等,利用事件所链接到的实体及实体在事件中的角色,在知识库中建立企业之间的投资关系和合作关系等关系信息。针对如高管离职事件等事件类型,需删除人才—<就职于>—企业的关系信息,进行知识库更新。
如图3所示,需要说明的是,本发明所涉及的概念体系、实体类型、文档事件类型及其之间的关系等均只是产业认知决策领域的一部分代表性知识类型,其他核心知识维度还包括产品类型体系、技术领域体系等概念体系;产品实体库、专利实体库、机构实体库等核心实体类型;行业研报、学术论文、区域政策等文档类型;企业上市、领导视察、行业会议等动态事件类型,以及以上各类概念、实体、文档、事件之间的关系。需要根据各个维度的数据来源特征和处理任务逻辑进行相对应的技术流程研发,但均可纳入到本发明中所阐述的三个主要流程范畴内,即基于结构化和半结构化数据的实体与实体之间关系的知识库构建;基于非结构化文档和文本信息抽取技术的文档库与事件库构建;基于实体链接技术的实体与关系持续自动扩充与更新。
本发明面向产业认知决策领域,采用产业知识建模、核心实体关系库构建、产业资讯文档事件库构建、知识库持续扩充更新等流程,实现了一种自动化、可扩展、可泛化、可解释的产业知识库构建方法。该方法结合了文本信息抽取、结构化数据处理、人机知识交互等大数据与人工智能技术,综合运营了数据智能和知识智能的前沿技术思想,是人工智能在特定领域场景下的典型示范性应用,为该领域内的认知决策方式提供了新的解决思路,实现了降本增效的目的。
Claims (9)
1.一种产业知识库自动构建方法,其特征在于,包括如下步骤:
S1、针对目标产业领域,构建包含概念、实体、事件、文档、属性和关系的产业知识库知识体系模型;
S2、初步采集目标产业中包括企业实体和人才实体在内的感兴趣实体,构建企业实体与所在产业领域的关系以及人才实体与所就职企业的关系,形成产业知识库;
S3、针对目标产业采集产业资讯文档数据,基于深度学习和规则相结合的方法对采集得到的文档进行核心句识别、主题分类和实体识别,得到包含文档基础信息和文档中提及实体的结构化文档库;再对采集得到的文档进行事件级别的事件细粒度抽取,得到包含实体和事件信息的事件库;
S4、基于S3中得到的文档库和事件库,利用实体链接技术对S2中得到的产业知识库进行知识扩展与动态更新,更新范围包括实体新增、实体关系新增、实体关系更新、以及实体与文档和/或事件之间的关联,以保持产业知识库的持续构建与更新;
所述S2中,产业知识库的构建方法如下:
S21、定向批量采集目标产业中感兴趣企业实体的资料数据,并对资料数据进行属性结构化清洗,获取企业实体不同维度的结构化信息,信息维度包括企业简介、经营范围和产品信息;
S22、基于不同产业领域词汇的词典,对每个企业实体不同维度的结构化信息进行匹配打分,根据各维度的加权分数通过阈值法确定企业实体所属的产业领域,构建企业实体与所在产业领域的关系;
S23、获取目标产业领域的候选人才实体的名录以及其对应的简历文本,并将候选人才实体的属性进行规范化处理,使其与外部人才数据库中的属性体系保持一致;然后基于候选人才实体在简历信息中的已知属性在外部人才数据库中进行匹配;若匹配过程中存在唯一匹配对象,则在两者之间形成链接,以外部人才数据库中的属性信息对候选人才实体的简历信息进行属性扩充;若匹配过程中存在多个匹配对象,则基于相似度计算和主动学习的实体匹配方法重新匹配得到唯一匹配对象,在两者之间形成链接,以外部人才数据库中的属性信息对候选人才实体的简历文本进行属性扩充;
S24:针对候选人才实体的简历文本,利用实体识别模型检测出文本中提及的企业实体序列;将企业实体序列与预设的企业实体库中准确的企业名称和别名进行匹配,筛选出候选人才实体就职过的企业实体列表;最后将企业实体列表中的各企业实体ID记录于候选人才实体的数据结构中,构建人才实体与所就职企业的关系。
2.如权利要求1所述的产业知识库自动构建方法,其特征在于,所述的产业知识库知识体系模型中,顶级知识类型包括概念、实体、事件和文档,概念类型包括产业领域和事件类型,实体类型包括企业和人才,关系类型包括文档关于的事件类型、文档提及的企业、事件涉及的企业、事件涉及的人才、企业所属的产业领域、企业与企业的合作、企业之间的投资以及人才在企业的就职。
3.如权利要求1所述的产业知识库自动构建方法,其特征在于,所述S22中,计算各维度的加权分数时,通过众包方式进行人工校验,利用反馈信息调整不同维度的权重和打分规则。
4.如权利要求1所述的产业知识库自动构建方法,其特征在于,所述S23中,基于相似度计算和主动学习的实体匹配方法具体如下:
针对任意两个待判断是否相同的人才实体,对两者共有的维度属性进行相似度计算,并将不同维度的相似度按照其贡献权重进行加权,得到两者的总相似度,总相似度最大的一组人才实体视为同一个人才实体;在不断进行匹配的过程中,通过主动学习持续优化不同维度的贡献权重。
5.如权利要求1所述的产业知识库自动构建方法,其特征在于,所述S3中,文档库和事件库的构建方法如下:
S31:获取目标产业相关的产业资讯文档数据,并计算文档之间的相似度以判断是否存在重复的文档,筛除重复文档同时记录每个文档的出现频次;
S32:对S31中剩余的每个文档进行碎片化处理,使文档的正文按句子为单位进行分割;然后计算文档标题与文档中各句子之间的相似度,选取得出最大相似度的句子作为文档的核心句;
S33:基于不同主题的事件触发词和/或事件语言表达模板,对文档的核心句进行匹配,以匹配程度最高的主题作为文档所述事件的主题;若文档的核心句无法匹配到主题,则以文档正文进行重新匹配,实现文档所述事件的主题分类;
S34:利用经过预训练的实体识别模型,对文档中提及的实体进行识别,提取出文档中的实体;
S35:根据文档所述事件的主题分类结果,对文档进行细粒度事件抽取;在抽取过程中,针对每种事件类型进行角色和属性建模,并采用序列标注和分类策略,构建基于文本的实体识别模型和关系抽取模型,最终综合模型的预测结果形成结构化事件信息;结构化事件信息包括事件所涉及的企业实体以及事件所涉及的人才主体;
S36:针对每个文档,将S32~S34得到的数据以自然语言标注的结构化文档数据格式进行存储,归入结构化文档库;结构化文档格式的属性包括文档的ID、标题、摘要、内容、发布日期、来源、URL、提及实体对象、主题标签列表和文档出现频次;
S37:针对每个文档,将S35中得到的结构化事件信息按照面向主体的事件数据格式进行存储,并归入事件库;所述事件数据格式中的维度包括主体实体对象、客体实体对象列表、事件属性信息、事件来源文档ID列表、事件触发词列表。
6.如权利要求5所述的产业知识库自动构建方法,其特征在于,所述S31中,所述文档之间的相似度判断采用Simhash算法,首先针对结构化的文档数据各个属性进行哈希运算,并按位比较不同文档间的哈希值的距离,若一个属性的哈希值距离低于距离阈值则基于该属性判定为相同文档;对于两个文档而言,判定为相同文档的属性个数超过个数阈值时,判断两个文档相同。
7.如权利要求1所述的产业知识库自动构建方法,其特征在于,所述S4中,对产业知识库进行知识扩展与动态更新的方法如下:
S41:根据S3中得到的文档库和事件库,将文档与文档中提及的实体行关联,将事件与事件中提及的实体行关联;对于文档或事件中未能关联上的新增实体,将其暂时置于待审查和采集清单中,以待后续扩充;
S42:对于涉及实体之间新增关系或者关系发生变更的事件,在产业数据库中对于实体之间的关系进行新增或更新。
8.一种产业知识库自动构建装置,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1~7任一项所述的产业知识库自动构建方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1~7任一项所述的产业知识库自动构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011064551.6A CN112307153B (zh) | 2020-09-30 | 2020-09-30 | 一种产业知识库自动构建方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011064551.6A CN112307153B (zh) | 2020-09-30 | 2020-09-30 | 一种产业知识库自动构建方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112307153A CN112307153A (zh) | 2021-02-02 |
CN112307153B true CN112307153B (zh) | 2022-06-10 |
Family
ID=74488480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011064551.6A Active CN112307153B (zh) | 2020-09-30 | 2020-09-30 | 一种产业知识库自动构建方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307153B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065343B (zh) * | 2021-03-25 | 2022-06-10 | 天津大学 | 一种基于语义的企业研发资源信息建模方法 |
CN113434687A (zh) * | 2021-07-22 | 2021-09-24 | 高向咨询(深圳)有限公司 | 自动简历查找方法、自动招聘***、计算机存储介质 |
CN115600246A (zh) * | 2022-11-04 | 2023-01-13 | 东莞市新思维市场信息咨询有限公司(Cn) | 一种基于大数据的信息收集分析*** |
CN116049447B (zh) * | 2023-03-24 | 2023-06-13 | 中科雨辰科技有限公司 | 一种基于知识库的实体链接*** |
CN116112434B (zh) * | 2023-04-12 | 2023-06-09 | 深圳市网联天下科技有限公司 | 一种路由器数据智能缓存方法及*** |
CN116955613B (zh) * | 2023-06-12 | 2024-02-27 | 广州数说故事信息科技有限公司 | 一种基于研报数据和大语言模型生成产品概念的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101076793A (zh) * | 2004-08-31 | 2007-11-21 | 国际商业机器公司 | 企业数据集成***的体系结构 |
CN109189866A (zh) * | 2018-08-22 | 2019-01-11 | 北京大学 | 一种构建装备故障诊断领域知识本体知识库的方法和*** |
CN110019754A (zh) * | 2019-01-30 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种知识库的建立方法、装置及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9542652B2 (en) * | 2013-02-28 | 2017-01-10 | Microsoft Technology Licensing, Llc | Posterior probability pursuit for entity disambiguation |
US9619571B2 (en) * | 2013-12-02 | 2017-04-11 | Qbase, LLC | Method for searching related entities through entity co-occurrence |
-
2020
- 2020-09-30 CN CN202011064551.6A patent/CN112307153B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101076793A (zh) * | 2004-08-31 | 2007-11-21 | 国际商业机器公司 | 企业数据集成***的体系结构 |
CN109189866A (zh) * | 2018-08-22 | 2019-01-11 | 北京大学 | 一种构建装备故障诊断领域知识本体知识库的方法和*** |
CN110019754A (zh) * | 2019-01-30 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种知识库的建立方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
陈大值.知识图谱在银行业的应用场景及可行性研究.《中国金融电脑》.2019, * |
Also Published As
Publication number | Publication date |
---|---|
CN112307153A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112307153B (zh) | 一种产业知识库自动构建方法、装置及存储介质 | |
CN110298032B (zh) | 文本分类语料标注训练*** | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN108897857B (zh) | 面向领域的中文文本主题句生成方法 | |
CN109271529B (zh) | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 | |
CN110110335B (zh) | 一种基于层叠模型的命名实体识别方法 | |
CN107239529B (zh) | 一种基于深度学习的舆情热点类别划分方法 | |
CN111967761B (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN110717031A (zh) | 一种智能会议纪要生成方法和*** | |
CN112051986B (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN111597347A (zh) | 知识嵌入的缺陷报告重构方法及装置 | |
WO2020010834A1 (zh) | 一种faq问答库泛化方法、装置及设备 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN114090861A (zh) | 一种基于知识图谱的教育领域搜索引擎构建方法 | |
CN113934909A (zh) | 基于预训练语言结合深度学习模型的金融事件抽取方法 | |
CN114265935A (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及*** | |
CN113886562A (zh) | 一种ai简历筛选方法、***、设备和存储介质 | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN112115264A (zh) | 面向数据分布变化的文本分类模型调整方法 | |
CN114911893A (zh) | 基于知识图谱的自动化构建知识库的方法及*** | |
CN104794209A (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及*** | |
CN114238653A (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
CN112163069A (zh) | 一种基于图神经网络节点特征传播优化的文本分类方法 | |
CN115203429B (zh) | 一种用于构建审计领域本体框架的知识图谱自动扩充方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Zong Chang Inventor after: Wang Yunfei Inventor after: Yang Yanfei Inventor after: Xu Keming Inventor before: Zong Chang Inventor before: Wang Yunfei Inventor before: Yang Yanfei Inventor before: Xu Keming Inventor before: Shao Jian |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |