CN106156286A - 面向专业文献知识实体的类型抽取***及方法 - Google Patents

面向专业文献知识实体的类型抽取***及方法 Download PDF

Info

Publication number
CN106156286A
CN106156286A CN201610488849.7A CN201610488849A CN106156286A CN 106156286 A CN106156286 A CN 106156286A CN 201610488849 A CN201610488849 A CN 201610488849A CN 106156286 A CN106156286 A CN 106156286A
Authority
CN
China
Prior art keywords
type
entity
knowledge
knowledge entity
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610488849.7A
Other languages
English (en)
Other versions
CN106156286B (zh
Inventor
温雯
伍思杰
蔡瑞初
郝志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201610488849.7A priority Critical patent/CN106156286B/zh
Publication of CN106156286A publication Critical patent/CN106156286A/zh
Application granted granted Critical
Publication of CN106156286B publication Critical patent/CN106156286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向专业文献知识实体的类型抽取***,该***包括:用户查询及反馈接口、在线爬虫及管理模块、知识实体识别模块、知识实体的类型抽取模块、类型标签传播及索引库建立模块、知识实体类型关系图模型构建模块、数据可视化模块。本发明***能够根据用户查询的实体关键词进行实体类型抽取,然后可视化地呈现出知识实体之间的类型关系、层次关系和时序演变模式。另外,本发明还提出的一种面向专业文献知识实体的类型抽取方法,本发明方法可以有效的对专业领域的知识实体进行类型标签抽取,解决了人工预定义类型的局限性和主观性的问题,有助于专业知识网络的结构化实现。

Description

面向专业文献知识实体的类型抽取***及方法
技术领域
本发明涉及文本挖掘及信息抽取领域,具体涉及一种面向专业文献知识实体的类型抽取***和抽取方法。
背景技术
随着互联网的快速普及和硬件存储技术的发展,人们可以轻松的在不同的设备上浏览、获取到各类的数字资源,也可以通过众多的学术数据库或学术搜索引擎获取到所需的专业文献,如Google Scholar、百度学术、Cnki、万方数据等等.。由此看来,从互联网上获取海量的电子资源的确成为了一件轻松简单的事情,但是随之出现的问题是,现有的知识服务已经无法满足人们对信息“快速、简单、准确”的需求。面对这样的知识服务需求,我们需要针对这类专业文献文本进行实体识别并抽取出实体的类型信息,建立结构化的专业知识体系,以辅助用户进行文献检索。现在大部分的类型信息抽取***和技术都是针对一些日常社交文本,如微博、Facebook、Twitter等,而针对这类有着众多专业术语的学术文献的研究却较少。
目前,虽然针对专业文献领域的信息抽取研究并不多,但其可观的应用前景和知识服务的需要也引发了国内外的研究热潮,并取得了一定的研究成果。例如国外的Googleknowledge graph和Google Trends,国内的哈尔滨工业大学的同义词词林,万方数据的知识脉络检索等。其中,Google knowledge graph是把用户的检索对象当作一个实体,而不是单纯的关键词匹配检索,可以有效的得到实体相关的一些属性和具体资料;Google Trends是对用户的搜索记录进行分析,得到一些关键词的热点趋势;国内的“同义词词林”则是利用互联网的数据进行实体上下位关系的挖掘从而得到大部分实体的上下位关系,但是却缺少对专业文献知识实体这类特殊的专业术语进行分析;而万方数据的知识脉络检索是根据相关文献和参考文献的关系对文献的关键词进行关联,然后按时序排列展示出某段时间与用户检索词最相关的词汇。
现有的类型抽取技术主要存在以下几个方面的不足:A)类型需要人工预先定义,带有局限性;B)需要大量的人工标注,耗时耗力;C)针对专业领域的类型抽取还少,大部分应用于常用实体信息抽取方法在专业领域并不适用;D)缺少直观、形象的树图可视化演示,大部分***仍然是以文字、数据演示为主。
发明内容
本发明的目的在于克服现有专业领域实体类型抽取技术存在的上述不足,提出一种面向专业文献知识实体的类型抽取方法及***。
为实现上述目的,本发明的技术方案为:
本发明公开了面向专业文献知识实体的类型抽取***,包括以下7个模块:
(a)查询及反馈接口,用于用户的输入处理和查询处理,将数据可视化结果反馈给用户;
(b)在线爬虫及管理模块,用于后台自动化地爬取管理员指定或默认的专业文献页面及进行页面数据的预处理;
(c)知识实体识别模块,用于对预处理后的文献标题及摘要数据进行知识实体识别;
(d)类型标签抽取模块,用于实现对模块(c)中得到的知识实体进行类型标签抽取及部分实体类型标注,得到类型标签集合和部分已标注实体;
(e)类型标签传播及索引库建立模块,以模块(c)中的未标知识实体集合、模块(d)的类型标签集合和部分已标注实体为输入,进行基于多标签加权的标签传播及建立知识实体及其类型关系索引库;
(f)知识实体类型关系图模型构建模块,根据用户输入的关键词对索引库进行检索,并构建出不同的知识实体类型关系图模型;
(g)数据可视化模块,对模块(f)中的模型进行Web可视化实现。
本发明还公开了面向专业文献知识实体的类型抽取方法,采用上述抽取***,进行以下步骤:
S1.数据爬取及预处理:管理员设置文献爬取地址和范围,在线爬虫及管理模块在后台根据指定的范围对文献页面进行爬取,同时对爬取的页面数据进行预处理;
S2.知识实体识别提取:知识实体识别模块对预处理后的文献信息进行实体识别并提取出来;
S3.类型抽取和标注:知识实体类型抽取模块对提取的知识实体进行类型抽取和标注,得到类型标签集合和部分已标注实体;
S4.建立索引库:将得到的知识实体及其类型标签集合和部分已标注实体进行数据库存储,进行基于多标签加权的标签传播,得到类型标签矩阵并建立知识实体及其类型的索引库;
S5.获取关键字:通过用户查询及反馈接口获取用户查询的知识实体关键字;
S6.建立类型列表:根据关键字在步骤S4中创建的索引库进行知识实体索引项进行匹配,从而得到与关键字相关的知识实体列表,按照相似性排序后得到最终的知识实体及其类型列表;
S7.根据需求建模:根据用户需求利用知识实体类型关系图模型构建模块对获得的知识实体及其类型列表进行建模;
S8.数据可视化:数据可视化模块将步骤S7得到的模型进行Web可视化数据处理,返回JSON数据到前端并实现Web前端可视化演示。
使用本发明的面向专业文献知识实体的类型抽取***及方法,具有以下几个方面的优点:
1)本发明在类型预定义方面解决了类型人工定义的局限性问题,使用无监督的启发式规则方法对全部实体进行类型标签抽取,获得最有可能的类型标签集;由于提出的类型抽取方法是无监督与半监督方法的结合,因此抽取的过程无需大量的人工标注,而且灵活性和通用性也比一般的有监督或半监督方法要强。另外,这种方法是通过分析专业领域知识实体的特性进行改进的,适用于不同的专业领域知识实体的类型抽取,有助于专业知识网络的结构化实现。
2)可以指定爬取文献页面。管理员可以指定爬取页面的地址和范围,因此本***可以轻松扩展到其他领域专业文献的数据采集,检索量并不局限在本地数据库。例如:当在线的论文数据库有更新时,管理员也可以更新爬取范围,***的爬虫就会自动爬取新数据并更新本地数据库。
3)检索到的知识实体类型开放、多样。本***并非人工预定义实体类型,而是利用结合摘要的基于启发式规则的方法来进行类型标签集合抽取,再进行不可靠类型标签筛选,得到最终的类型标签集合。这样得到的标签集合解决了人工预定义的局限性和主观性的问题,可以开放、全面、客观的得到比较合理的类型集合,覆盖了大部分的知识实体。
4)用户可以通过可视化界面得到类型相关的知识脉络图。本***利用知识实体类型关系图模型构建模块对获得的知识实体及其类型列表进行建模,分别得到基于同一类型的实体层次关系树模型、基于类型分组的知识关系图模型和基于时序的知识热点跟踪图模型,最后使用可视化模型将其反馈给用户。
5)***性能高,使用简便。***采用MVC架构的思想,前台的用户检索及可视化模块和后台的爬取分析模块是分隔开的,因此,后台的数据爬取、预处理、抽取和标注等流程并不会拖慢前端的可视化显示。另外,由于建立了索引库,所以前端检索和获取数据时速度很快,性能较高。基于Web的可视化也使得用户使用十分简单方便,不需要安装任何客户端即可使用。
附图说明
图1为本发明的面向专业文献知识实体的类型抽取***架构图。
图2为本发明的面向专业文献知识实体的类型抽取方法的流程图。
图3为本发明的基于条件随机场的知识实体识别步骤的流程图。
图4为本发明的实体类型抽取与标注步骤的实现原理图。
图5为本发明的基于多标签加权的标签传播算法的实现原理图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1示出了本发明的面向专业文献知识实体的类型抽取***架构图。
参照图1,本发明的实体类型抽取***包括用户查询及反馈接口、在线爬虫及管理模块、知识实体识别模块、知识实体的类型抽取模块、类型标签传播及索引库建立模块、知识实体类型关系图模型构建模块、数据可视化模块,共7个模块。
查询及反馈接口,用于用户的输入处理和查询处理,将数据可视化结果反馈给用户;
在线爬虫及管理模块,用于后台自动化地爬取管理员指定或默认的专业文献页面及进行页面数据的预处理;
知识实体识别模块,用于对预处理后的文献标题及摘要数据进行知识实体识别,得到知识实体集合;
知识实体的类型抽取模块,用于实现对得到的知识实体集合进行类型标签抽取及部分实体类型标注,得到类型标签集合和部分已标注实体;
类型标签传播及索引库建立模块,以未标知识实体集合和类型标签集合和部分已标注实体为输入,进行基于多标签加权的标签传播,然后建立知识实体及其类型关系索引库,进行本地存储;
知识实体类型关系图模型构建模块,根据用户输入的关键词对索引库进行检索,并构建出不同的知识实体类型关系图模型;
数据可视化模块,对构建好树图模型进行Web可视化实现。
本发明还公开了上述实体类型抽取***的抽取方法,图2为本发明的面向专业文献的知识实体类型抽取方法的流程图。以下详述知识实体类型抽取方法步骤。
S1.数据爬取及预处理
管理员通过管理模块设置爬取地址和范围;在线爬虫模块在后台根据指定的范围对文献页面进行爬取;对爬取的页面数据进行数据预处理,例如中文分词、去停用词,特征筛选等。
S2.知识实体识别提取
利用知识实体识别模块对清理后的文献标题、摘要、关键词等文献信息进行实体识别并提取出来。
S3.类型抽取和标注
利用知识实体类型抽取模块对步骤S2中得到的知识实体进行类型抽取和标注,得到类型标签集合和部分已标注实体,具体过程如下:
(S3-1)结合文献摘要信息中知识实体的相关上下文以辅助类型标签抽取,以抽取到的知识实体为基础,对文献的摘要进行知识实体匹配,把在摘要中匹配到的知识实体及其后相邻的名词抽取出来,添加到知识实体集合中;
(S3-2)利用基于启发式规则的方法对步骤(S3-1)中得到知识实体集合进行类型标签抽取,得到候选类型标签集合,类型抽取的同时获得部分已标注实体;
(S3-3)筛选掉不可靠的类型标签,通过统计类型标签与其所属知识实体共现的频次,然后根据频次特征筛选掉共现频次低且对应知识实体出现频次少的类型标签,输出筛选后的类型标签集合。
S4.建立索引库
将得到的知识实体及其类型标签集合和标注实体进行数据库存储,进行基于多标签加权的标签传播,得到类型标签矩阵并建立知识实体及其类型的索引库。基于多标签加权的标签传播包括以下步骤:
(S4-1)构建并初始化转换概率矩阵T,用于表示知识实体之间的转换概率。
转换概率矩阵T按公式1计算。
其中,Tij表示从节点Xj转移到节点Xi的概率,也就是知识实体ej转移到知识实体ei的概率,转移概率Wij由下面公式2计算得到。
其中,sij是知识实体ei和ej的相似度,参数用于调整sij的比例,参数为sij的平均值。知识实体间的相似度S使用编辑距离进行度量:编辑距离越大,相似度越小,假设源字符串与目标字符串长度的最大值为Lmax,编辑距离为LD,相似度S利用以下公式3计算。
S=1-LD/Lmax (公式3)
(S4-2)构建并初始化类型标签矩阵Y,用于表示每个知识实体包含的类型标签及其类型标签权重。设第一层抽取中成功抽出类型词的知识实体个数为l,未能抽出类型词的知识实体个数为u,则定义类型标签矩阵Y是一个(l+u)×R的矩阵(R为已抽取类型词去重词典个数)。因此,设YL为已标类型矩阵,YU为未标类型矩阵,YN为每次传播迭代后的新增标注矩阵。类型标签权重及类型标签矩阵Y由公式4、5计算得到。
其中,设知识实体ei在第一层类型标注后有K个类型标签,Cik是第i个实体的k标签的出现频次,Wik是知识实体ei拥有类型标签k的权重,Wik以标签k在ei中出现的频率来度量,当知识实体ei拥有类型标签k时,则Yij=Wik,否则Yij=0。
(S4-3)对于每一个已标实体,循环对所有未标实体进行转换概率计算,如果知识实体之间的转换概率大于阈值(阈值ζ按公式6计算),则进行标签传播。一轮传播结束后,将新标知识实体集合替换原来的已标知识实体集合,得到第t代的新增标注矩阵
其中,N为的行数,为第t次迭代时的新增标注矩阵。
(S4-4)循环迭代进行步骤(S4-3)的标签传播过程,直到新标知识实体集合为空或未标类型矩阵不再改变,迭代结束,输出最新的已标类型矩阵(第t+1代标签传播迭代完成)。
S5.获得关键字
通过用户查询及反馈接口获取到用户查询的知识实体关键字。
S6.建立类型形表:
根据用户输入的关键字在索引库进行知识实体索引项进行匹配,从而得到与关键字相关的知识实体列表,按照相似性排序后得到最终的知识实体及其类型列表;
S7.根据需求建模
根据用户需求,利用知识实体类型关系图模型构建模块对获得的知识实体及其类型列表进行建模,分别得到基于同一类型的实体层次关系树模型、基于类型分组的知识关系图模型和基于时序的知识热点跟踪图模型。具体建模过程如下详述:
(S7-1)根据用户输入的关键词从知识实体索引库中提取出与该关键词相关的知识实体集合,相关关系包括标题中和摘要中的共现关系、包含关系以及扩展关系。
(S7-2)构建基于同一类型的实体层次关系树模型,验证知识实体集合中两两个实体之间的扩展或包含关系,如果实体ei包含实体ej,则建立树图模型中父子关系R(ei,ej),表示ei是ej的父节点,依次类推,建立层次关系模型。
(S7-3)构建基于类型分组的知识关系图模型,对知识实体集合中的知识实体按类型进行分组,统计每个类型分组的权值,分组内的知识实体也按照实体权重降序排序;筛选出权值最高的N个分组,每个分组筛选出排在前M个的知识实体,按照关键词、类型分组、实体的次序构造三层的图模型。
(S7-4)构建基于时序的知识热点跟踪图模型,根据知识实体的时间进行排序,构建按照半年为周期的时间段分组,分别统计每个时间段出现的相关的知识实体数量,各个时间段分组内的知识实体按照实体权重进行排序,最后以时间分组和对应实体列表构建热点跟踪图模型。
(S7-5)把步骤(S7-2)、(S7-3)、(S7-4)所述的模型转换成JSON形式的数据并输出到数据可视化模块。
S8.数据可视化
利用数据可视化模块步骤S7中的三个模型进行Web可视化数据处理,返回JSON数据到前端并实现Web前端可视化演示。
如图3为本发明的基于条件随机场的知识实体识别步骤的流程图。首先,对预处理后的文献数据集进行特征抽取,包括词性特征、前后导词特征、前后缀特征等。下一步把部分标注数据集及抽取到的特征都放进CRF模型进行训练,得到训练后的CRF模型。然后使用训练后的CRF模型对未标数据进行实体标注,得到标注好的数据集后计算其F1值。如果F1值提升幅度大于前一代的F1值,则进行半监督迭代过程。半监督迭代过程首先把标注数据集分割成10份,分别计算各自的F1值,选择最好的那一份数据集组合到人工标注数据集中,重新对CRF模型进行训练。重复上述训练、标注过程,直到F1值不在提升,迭代过程结束,输出实体标注集。
图4为本发明的实体类型抽取与标注步骤的实现原理图。流程的第一步是进行实体识别,然后使用结合摘要的基于启发式规则的类型抽取方法进行类型的抽取,得到是全体类型标签集合和部分已标注的数据(类型词出现在实体内部)。接着,利用基于多标签加权的标签传播算法进行类型标签传播及标注,最后得到类型标注结果。
图5为本发明的基于多标签加权的标签传播算法的实现原理图。该图主要说明试题类型标注步骤中的基于多标签加权的标签传播算法的实现原理。其中,图左侧的是已标签的l个实体及其k个标签数据作为输入数据,每一个标签有自身对应的权值Wik,而图右侧的是将进行标签传播的n-l-1个未标实体,在标签传播之前,最右侧的输出标签是不存在的。如图5所示的例子,已标实体e1和e2同时满足对实体el+1的标签传播条件时,实体e1把标签1-3传播到实体el+1,而最右侧新标签1-3对应的新权值为Wik*Tij。然后,实体e2把标签2、4、5传播到实体el+1,其中标签4和标签5的新权值也是Wik*Tij,而标签2中已经有权值,所以进行权值的累加,因此标签2中权值为W12*T1,l+1+W22*T2,l+1
综上,本发明的面向专业文献知识实体的类型抽取***及方法,以在线爬虫爬取的专业文献数据为基础,进行知识实体的识别、实体类型标签的抽取、类型标注及标签传播,得到知识实体的类型及其基于类型的关系,建立索引库进行本地存储。然后,根据用户输入的关键词从知识实体索引库中提取出与该关键词相关的知识实体集合,构建基于同一类型的实体层次关系树模型、基于类型分组的知识关系图模型、基于时序的知识热点跟踪图模型,最后使用数据可视化技术进行前端绘图并呈现给用户,本发明实施简单,抽取准确率高,具有很强的实际价值和现实意义。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.面向专业文献知识实体的类型抽取***,其特征在于,包括以下7个模块:
(a)查询及反馈接口,用于用户的输入处理和查询处理,将数据可视化结果反馈给用户;
(b)在线爬虫及管理模块,用于后台自动化地爬取管理员指定或默认的专业文献页面及进行页面数据的预处理;
(c)知识实体识别模块,用于对预处理后的文献标题及摘要数据进行知识实体识别;
(d)类型标签抽取模块,用于实现对模块(c)中得到的知识实体进行类型标签抽取及部分实体类型标注,得到类型标签集合和部分已标注实体;
(e)类型标签传播及索引库建立模块,以模块(c)中的未标知识实体集合、模块(d)的类型标签集合和部分已标注实体为输入,进行基于多标签加权的标签传播及建立知识实体及其类型关系索引库;
(f)知识实体类型关系图模型构建模块,根据用户输入的关键词对索引库进行检索,并构建出不同的知识实体类型关系图模型;
(g)数据可视化模块,对模块(f)中的模型进行Web可视化实现。
2.面向专业文献知识实体的类型抽取方法,其特征在于,采用权利要求1所述的抽取***,进行以下步骤,
S1.数据爬取及预处理:管理员设置文献爬取地址和范围,在线爬虫及管理模块在后台根据指定的范围对文献页面进行爬取,同时对爬取的页面数据进行预处理;
S2.知识实体识别提取:知识实体识别模块对预处理后的文献信息进行实体识别并提取出来;
S3.类型抽取和标注:知识实体类型抽取模块对提取的知识实体进行类型抽取和标注,得到类型标签集合和部分已标注实体;
S4.建立索引库:将得到的知识实体及其类型标签集合和部分已标注实体进行数据库存储,进行基于多标签加权的标签传播,得到类型标签矩阵并建立知识实体及其类型的索引库;
S5.获取关键字:通过用户查询及反馈接口获取用户查询的知识实体关键字;
S6.建立类型列表:根据关键字在步骤S4中创建的索引库进行知识实体索引项进行匹配,从而得到与关键字相关的知识实体列表,按照相似性排序后得到最终的知识实体及其类型列表;
S7.根据需求建模:根据用户需求利用知识实体类型关系图模型构建模块对获得的知识实体及其类型列表进行建模;
S8.数据可视化:数据可视化模块将步骤S7得到的模型进行Web可视化数据处理,返回JSON数据到前端并实现Web前端可视化演示。
3.根据权利要求2所述面向专业文献知识实体的类型抽取方法,其特征在于,步骤S3中知识实体类型标签抽取的步骤如下:
(S3-1)结合文献摘要信息中知识实体的相关上下文以辅助类型标签抽取,以抽取到的知识实体为基础,对文献的摘要进行知识实体匹配,把在摘要中匹配到的知识实体及其后相邻的名词抽取出来,添加到知识实体集合中;
(S3-2)利用基于启发式规则的方法对步骤(S3-1)中得到知识实体集合进行类型标签抽取,得到候选类型标签集合,类型抽取的同时获得部分已标注实体;
(S3-3)筛选掉不可靠的类型标签,通过统计类型标签与其所属知识实体共现的频次,然后根据频次特征筛选掉共现频次低且对应知识实体出现频次少的类型标签,输出筛选后的类型标签集合。
4.根据权利要求2所述面向专业文献知识实体的类型抽取方法,其特征在于,步骤S4中基于多标签加权的标签传播包括以下步骤:
(S4-1)构建并初始化转换概率矩阵T,用于表示知识实体之间的转换概率;
(S4-2)构建并初始化类型标签矩阵Y,用于表示每个知识实体包含的类型标签及其类型标签权重,其中,设YL为已标类型矩阵,YU为未标类型矩阵,YN为每次传播迭代后的新增标注矩阵;
(S4-3)对于每一个已标实体,循环对所有未标实体进行转换概率计算,如果知识实体之间的转换概率大于阈值,则进行标签传播,一轮传播结束后,将新标知识实体集合替换原来的已标知识实体集合,得到第t代的新增标注矩阵
(S4-4)循环迭代进行步骤(S4-3)的标签传播过程,直到新标知识实体集合为空或未标类型矩阵不再改变,迭代结束,设第t+1代标签传播迭代完成,则输出最新的已标类型矩阵
5.根据权利要求4所述面向专业文献知识实体的类型抽取方法,其特征在于,步骤(S4-1)中,转换概率矩阵T:
T i j = P ( j → i ) = W i j Σ k = 1 n W k j ,
其中,Tij表示从节点Xj转移到节点Xi的 概率,也就是知识实体ej转移到知识实体ei的概率,转移概率Wij由下面公式计算得到:
W i j = exp ( - S i j 2 ∂ 2 )
其中,sij是知识实体ei和ej的相似度,参数用于调整sij的比例,参数为sij的平均值。
6.根据权利要求5所述面向专业文献知识实体的类型抽取方法,其特征在于,知识实体间的相似度S使用编辑距离进行度量:编辑距离越大,相似度越小,假设源字符串与目标字符串长度的最大值为Lmax,编辑距离为LD,相似度S利用以下公式计算:
S=1-LD/Lmax
7.根据权利要求5或6所述面向专业文献知识实体的类型抽取***及方法,其特征在于,步骤(S4-2)中,设第一层抽取中成功抽出类型词的知识实体个数为l,未能抽出类型词的知识实体个数为u,则定义类型标签矩阵Y是一个(l+u)×R的矩阵,R为已抽取类型词去重词典个数,类型标签权重及类型标签矩阵Y的计算公式如下:
W i k = C i k Σ 0 l = K C i l
Y i j = W i k , i f y i i s l a b e l r j ; 0 , o t h e r w i s e .
其中,设知识实体ei在第一层类型标注后有K个类型标签,Cik是第i个实体的k标签的出现频次,Wik是知识实体ei拥有类型标签k的权重,Wik以标签k在ei中出现的频率来度量,当知识实体ei拥有类型标签k时,则Yij=Wik,否则Yij=0。
8.根据权利要求7所述面向专业文献知识实体的类型抽取***及方法,其特征在于,步骤(S4-3)中,转换概率阈值ζ的计算方法:
ζ = Σ k = 0 N T k j / N
其中,N为的行数,为第t次迭代后的新增标注矩阵。
9.根据权利要求2或8所述的面向专业文献知识实体的类型抽取***的抽取方法,其特征在于:步骤S7中,建模生成三种树图模型,分别为基于同一类型的实体层次关系树模型、基于类型分组的知识关系图模型和基于时序的知识热点跟踪图模型。
10.根据权利要求9所述面向专业文献知识实体的类型抽取***,其特征在于,步骤S7中建模的具体方法为:
(S7-1)根据用户输入的关键词从知识实体索引库中提取出与该关键词相关的知识实体集合,相关关系包括标题中和摘要中的共现关系、包含关系以及扩展关系;
(S7-2)构建基于同一类型的实体层次关系树模型,验证知识实体集合中两两个实体之间的扩展或包含关系,如果实体ei包含实体ej,则建立树图模型中父子关系R(ei,ej),表示ei是ej的父节点,依次类推,建立层次关系模型;
(S7-3)构建基于类型分组的知识关系图模型,对知识实体集合中的知识实体按类型进行分组,统计每个类型分组的权值,分组内的知识实体也按照实体权重降序排序;筛选出权值最高的N个分组,每个分组筛选出排在前M个的知识实体,按照关键词、类型分组、实体的次序构造三层的图模型;
(S7-4)构建基于时序的知识热点跟踪图模型,根据知识实体的时间进行排序,构建按照半年为周期的时间段分组,分别统计每个时间段出现的相关的知识实体数量,各个时间段分组内的知识实体按照实体权重进行排序,最后以时间分组和对应实体列表构建热点跟踪图模型;
(S7-5)把步骤(S7-2)、(S7-3)、(S7-4)所述的模型转换成JSON形式的数据并输出到数据可视化模块。
CN201610488849.7A 2016-06-24 2016-06-24 面向专业文献知识实体的类型抽取***及方法 Active CN106156286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610488849.7A CN106156286B (zh) 2016-06-24 2016-06-24 面向专业文献知识实体的类型抽取***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610488849.7A CN106156286B (zh) 2016-06-24 2016-06-24 面向专业文献知识实体的类型抽取***及方法

Publications (2)

Publication Number Publication Date
CN106156286A true CN106156286A (zh) 2016-11-23
CN106156286B CN106156286B (zh) 2019-09-17

Family

ID=57350111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610488849.7A Active CN106156286B (zh) 2016-06-24 2016-06-24 面向专业文献知识实体的类型抽取***及方法

Country Status (1)

Country Link
CN (1) CN106156286B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038220A (zh) * 2017-12-22 2018-05-15 新奥(中国)燃气投资有限公司 一种关键词展示方法和装置
CN108415900A (zh) * 2018-02-05 2018-08-17 中国科学院信息工程研究所 一种基于多级共现关系词图的可视化文本信息发现方法及***
CN108702361A (zh) * 2016-02-26 2018-10-23 三菱电机株式会社 应用树图属性的json数据的实时验证
CN108984683A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 结构化数据的提取方法、***、设备及存储介质
CN109508382A (zh) * 2018-10-19 2019-03-22 北京明略软件***有限公司 一种标签标注方法和装置、计算机可读存储介质
CN109543153A (zh) * 2018-11-13 2019-03-29 成都数联铭品科技有限公司 一种序列标注***及方法
CN109815338A (zh) * 2018-12-28 2019-05-28 北京市遥感信息研究所 基于混合高斯模型的知识图谱中关系抽取方法和***
CN110209814A (zh) * 2019-05-23 2019-09-06 西安交通大学 一种利用领域建模从百科知识网站抽取知识主题的方法
CN110309291A (zh) * 2019-07-09 2019-10-08 国网山东省电力公司 一种面向时序文献数据分析的方法及装置
CN111221957A (zh) * 2020-01-10 2020-06-02 合肥工业大学 一种基于知识组织的科技信息自动化处理方法及***
CN111259213A (zh) * 2020-01-07 2020-06-09 中国联合网络通信集团有限公司 数据可视化的处理方法及装置
CN111325018A (zh) * 2020-01-21 2020-06-23 上海恒企教育培训有限公司 一种基于web检索和新词发现的领域词典构建方法
CN111597245A (zh) * 2020-05-20 2020-08-28 政采云有限公司 一种数据抽取方法、装置、信息统计方法及相关设备
CN111797296A (zh) * 2020-07-08 2020-10-20 中国人民解放军军事科学院军事医学研究院 基于网络爬取的毒物-靶标文献知识挖掘方法及***
CN111950264A (zh) * 2020-08-05 2020-11-17 广东工业大学 文本数据增强方法及知识元抽取方法
CN112862020A (zh) * 2021-04-25 2021-05-28 北京芯盾时代科技有限公司 一种数据识别方法、装置及存储介质
CN113076432A (zh) * 2021-04-30 2021-07-06 平安科技(深圳)有限公司 文献知识脉络生成方法、装置及存储介质
CN113128234A (zh) * 2021-06-17 2021-07-16 明品云(北京)数据科技有限公司 一种实体识别模型的建立方法、***、电子设备及介质
CN115169848A (zh) * 2022-06-28 2022-10-11 上海东普信息科技有限公司 物流业务数据的统计分析方法、装置、设备及存储介质
CN115952304A (zh) * 2023-03-13 2023-04-11 苏州超云生命智能产业研究院有限公司 一种变异文献的检索方法、装置、设备及存储介质
CN116796750A (zh) * 2023-08-24 2023-09-22 宁波甬恒瑶瑶智能科技有限公司 一种基于ner模型基因文献信息提取方法、***及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902649A (zh) * 2014-02-17 2014-07-02 复旦大学 一种基于在线百科链接实体的知识抽取方法
CN104216934A (zh) * 2013-09-29 2014-12-17 北大方正集团有限公司 一种知识抽取方法及***
CN105550253A (zh) * 2015-12-09 2016-05-04 百度在线网络技术(北京)有限公司 一种类型关系的获取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216934A (zh) * 2013-09-29 2014-12-17 北大方正集团有限公司 一种知识抽取方法及***
CN103902649A (zh) * 2014-02-17 2014-07-02 复旦大学 一种基于在线百科链接实体的知识抽取方法
CN105550253A (zh) * 2015-12-09 2016-05-04 百度在线网络技术(北京)有限公司 一种类型关系的获取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
THOMAS LIN: "No Noun Phrase Left Behind: Detecting and Typing Unlinkable Entities", 《COMPUTER SCIENCE & ENGINEERING》 *
陈毅恒: "文本检索结果聚类及类别标签抽取技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108702361A (zh) * 2016-02-26 2018-10-23 三菱电机株式会社 应用树图属性的json数据的实时验证
CN108038220A (zh) * 2017-12-22 2018-05-15 新奥(中国)燃气投资有限公司 一种关键词展示方法和装置
CN108415900A (zh) * 2018-02-05 2018-08-17 中国科学院信息工程研究所 一种基于多级共现关系词图的可视化文本信息发现方法及***
CN108984683A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 结构化数据的提取方法、***、设备及存储介质
CN109508382A (zh) * 2018-10-19 2019-03-22 北京明略软件***有限公司 一种标签标注方法和装置、计算机可读存储介质
CN109543153A (zh) * 2018-11-13 2019-03-29 成都数联铭品科技有限公司 一种序列标注***及方法
CN109543153B (zh) * 2018-11-13 2023-08-18 成都数联铭品科技有限公司 一种序列标注***及方法
CN109815338A (zh) * 2018-12-28 2019-05-28 北京市遥感信息研究所 基于混合高斯模型的知识图谱中关系抽取方法和***
CN110209814B (zh) * 2019-05-23 2021-02-02 西安交通大学 一种利用领域建模从百科知识网站抽取知识主题的方法
CN110209814A (zh) * 2019-05-23 2019-09-06 西安交通大学 一种利用领域建模从百科知识网站抽取知识主题的方法
CN110309291B (zh) * 2019-07-09 2021-04-13 国网山东省电力公司 一种面向时序文献数据分析的方法及装置
CN110309291A (zh) * 2019-07-09 2019-10-08 国网山东省电力公司 一种面向时序文献数据分析的方法及装置
CN111259213A (zh) * 2020-01-07 2020-06-09 中国联合网络通信集团有限公司 数据可视化的处理方法及装置
CN111221957A (zh) * 2020-01-10 2020-06-02 合肥工业大学 一种基于知识组织的科技信息自动化处理方法及***
CN111325018B (zh) * 2020-01-21 2023-08-11 上海恒企教育培训有限公司 一种基于web检索和新词发现的领域词典构建方法
CN111325018A (zh) * 2020-01-21 2020-06-23 上海恒企教育培训有限公司 一种基于web检索和新词发现的领域词典构建方法
CN111597245A (zh) * 2020-05-20 2020-08-28 政采云有限公司 一种数据抽取方法、装置、信息统计方法及相关设备
CN111597245B (zh) * 2020-05-20 2023-09-29 政采云有限公司 一种数据抽取方法、装置及相关设备
CN111797296A (zh) * 2020-07-08 2020-10-20 中国人民解放军军事科学院军事医学研究院 基于网络爬取的毒物-靶标文献知识挖掘方法及***
CN111797296B (zh) * 2020-07-08 2024-04-09 中国人民解放军军事科学院军事医学研究院 基于网络爬取的毒物-靶标文献知识挖掘方法及***
CN111950264B (zh) * 2020-08-05 2024-04-26 广东工业大学 文本数据增强方法及知识元抽取方法
CN111950264A (zh) * 2020-08-05 2020-11-17 广东工业大学 文本数据增强方法及知识元抽取方法
CN112862020A (zh) * 2021-04-25 2021-05-28 北京芯盾时代科技有限公司 一种数据识别方法、装置及存储介质
CN112862020B (zh) * 2021-04-25 2021-08-03 北京芯盾时代科技有限公司 一种数据识别方法、装置及存储介质
CN113076432B (zh) * 2021-04-30 2024-05-03 平安科技(深圳)有限公司 文献知识脉络生成方法、装置及存储介质
CN113076432A (zh) * 2021-04-30 2021-07-06 平安科技(深圳)有限公司 文献知识脉络生成方法、装置及存储介质
CN113128234B (zh) * 2021-06-17 2021-11-02 明品云(北京)数据科技有限公司 一种实体识别模型的建立方法、***、电子设备及介质
CN113128234A (zh) * 2021-06-17 2021-07-16 明品云(北京)数据科技有限公司 一种实体识别模型的建立方法、***、电子设备及介质
CN115169848A (zh) * 2022-06-28 2022-10-11 上海东普信息科技有限公司 物流业务数据的统计分析方法、装置、设备及存储介质
CN115952304A (zh) * 2023-03-13 2023-04-11 苏州超云生命智能产业研究院有限公司 一种变异文献的检索方法、装置、设备及存储介质
CN116796750A (zh) * 2023-08-24 2023-09-22 宁波甬恒瑶瑶智能科技有限公司 一种基于ner模型基因文献信息提取方法、***及存储介质
CN116796750B (zh) * 2023-08-24 2023-11-10 宁波甬恒瑶瑶智能科技有限公司 一种基于ner模型基因文献信息提取方法、***及存储介质

Also Published As

Publication number Publication date
CN106156286B (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
CN106156286B (zh) 面向专业文献知识实体的类型抽取***及方法
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN106250412B (zh) 基于多源实体融合的知识图谱构建方法
CN108874878A (zh) 一种知识图谱的构建***及方法
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及***
CN106055675B (zh) 一种基于卷积神经网络和距离监督的关系抽取方法
CN103678670B (zh) 一种微博热词与热点话题挖掘***及方法
CN111339313A (zh) 一种基于多模态融合的知识库构建方法
CN109271506A (zh) 一种基于深度学习的电力通信领域知识图谱问答***的构建方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答***构建方法
CN105045875B (zh) 个性化信息检索方法及装置
CN106909643A (zh) 基于知识图谱的社交媒体大数据主题发现方法
CN105512245A (zh) 一种基于回归模型建立企业画像的方法
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐***
Shah et al. Sentimental Analysis Using Supervised Learning Algorithms
CN104484380A (zh) 个性化搜索方法及装置
Lu Semi-supervised microblog sentiment analysis using social relation and text similarity
CN111191099B (zh) 一种基于社交媒体的用户活动类型识别方法
CN109858020A (zh) 一种基于语义图获取税务业务问题答案的方法及***
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN115310005A (zh) 基于元路径融合和异构网络的神经网络推荐方法及***
CN116561264A (zh) 一种基于知识图谱的智能问答***的构建方法
CN104217026B (zh) 一种基于图模型的中文微博客倾向性检索方法
CN117033654A (zh) 一种面向科技迷雾识别的科技事件图谱构建方法
CN108363759A (zh) 基于结构化数据的主题树生成方法及***及智能对话方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant