CN110598204B - 基于知识图谱的实体识别数据增强方法及*** - Google Patents
基于知识图谱的实体识别数据增强方法及*** Download PDFInfo
- Publication number
- CN110598204B CN110598204B CN201910699296.3A CN201910699296A CN110598204B CN 110598204 B CN110598204 B CN 110598204B CN 201910699296 A CN201910699296 A CN 201910699296A CN 110598204 B CN110598204 B CN 110598204B
- Authority
- CN
- China
- Prior art keywords
- question
- entity
- answer data
- answer
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于知识图谱的实体识别数据增强方法,包括:采集确定领域的问答数据;识别问答数据的标注信息,并根据标注信息识别问答数据的意图,以建立问答数据中的实体在知识图谱中的结构;从实体中识别出与意图相关的第一实体,并对第一实体概念化成第一概念以获取第一问答数据模板,第一问答数据模板包括第一概念与关系词;对关系词进行分词,得到分词词语;根据每个分词词语与意图的相关程度,对每个分词词语分别赋予对应的权重,以获得保留的分词词语;将保留的分词词语及第一概念进行组合,以生成第二问答数据模板并加入至问答数据库中。通过本发明能够提升垂直领域中问答***的搭建速度,且能够有效提高问句实体识别的召回率。
Description
技术领域
本发明实施例涉及大数据领域,尤其涉及一种基于知识图谱的实体识别数据增强方法、***、计算机设备及可读存储介质。
背景技术
知识图谱是利用可视化技术或结构化方式来描述实体和实体关系知识,为搜索引擎用户提供高质量的知识检索服务。知识图谱是构建下一代搜索引擎的雏形,使得搜索更加语义化和智能化。知识图谱需要对实体进行识别,目前的知识图谱大多是从传统领域进行研究,通过将用户问句中所提及的实体识别出来。例如,以医疗领域为例,需要识别的实体一般包括药品、疾病及症状等。基于实体识别的结果,问答***才能将实体与图片进行链接,将识别出的实体对应到图片上,在进行用户意图识别,通过查找图谱给出对应问题的答案。实体识别在学界与业界采用的基准模型均为双向长短期记忆网络条件随机场(Bi-directional Long Short-Term Memory Network Conditional Random Field,biLSTM-CRF)模型,该深度学习模型需要大量标注语句进行训练。
然,垂直领域问答数据,特别是适合于知识图谱的智能问答***(KnowledgeGraph Question Answering System,KGQA)进行回答的问句,通常是较为匮乏的。数据稀疏性导致模型无法充分训练,使得模型很容易出现过拟合,泛化性能较差,尤其是在实际业务场景中召回率太低,对用户输入的问句不能很好的提取其中的实体。
故,本发明旨在解决垂直领域数据缺乏,问答***搭建困难,问句实体识别的召回率低的问题。
发明内容
有鉴于此,有必要提供一种基于知识图谱的实体识别数据增强方法、***、计算机设备及计算机可读存储介质,能够提升垂直领域中问答***的搭建速度,且能够有效提高问句实体识别的召回率。
为实现上述目的,本发明实施例提供了一种基于知识图谱的实体识别数据增强方法,所述方法包括:
从问答数据库采集确定领域的问答数据,其中,所述确定领域至少包括医疗领域和/或旅游领域;
识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息;
根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词;
对所述关系词进行分词,得到分词词语;
根据每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高;
根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语;
将所述保留的词语及所述第一概念进行组合,以生成新的第二问答数据模板;及
将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。
可选地,所述根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板的步骤,还包括步骤:
识别所述第一实体的属性;
将所述第一实体按照所述属性进行分类;及
将属性相同的第一实体划分为同一问答数据模板。
可选地,所述根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语的步骤,还包括步骤:
将所述权重与数据库中存储的预设权重进行比较;及
当所述权重高于或等于所述预设权重时,保留与所述权重对应的分词词语。
可选地,所述将所述权重与数据库中存储的预设权重进行比较的步骤之后,还包括步骤:
当所述权重低于所述预设权重时,将与所述权重对应的分词词语删除。
可选地,所述根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板的步骤,还包括步骤:
根据所述知识图谱确认所述第一实体的子图结构;及
将所述子图结构中与所述第一实体的属性相同的第二实体代替所述第一实体以获取第三问答数据模板;
保存所述第三问答数据模板,以对所述问答数据库进行扩充。
可选地,所述基于知识图谱的实体识别数据增强方法还包括步骤:
根据所述意图从所述实体中识别出与所述意图不相关的第三实体,按照预设规则将与所述第三实体的属性相同的第四实体代替所述第三实体以获取第四问答数据模板;
保存所述第四问答数据模板,以对所述问答数据库进行扩充。
可选地,所述基于知识图谱的实体识别数据增强方法还包括步骤:
当所述第一实体或所述第二实体与第五实体为同一事物时,将所述第五实体代替所述第一实体或所述第二实体以获取第五问答数据模板;
保存所述第五问答数据模板,以对所述问答数据库进行扩充。
为实现上述目的,本发明实施例还提供了一种基于知识图谱的实体识别数据增强***,包括:
采集模块,用于从问答数据库采集确定领域的问答数据,其中,所述确定领域至少包括医疗领域和/或旅游领域;
识别模块,用于识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息;
获取模块,用于根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词;
分词模块,用于对所述关系词进行分词,得到分词词语;
赋予模块,用于根据每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高;
筛选模块,用于根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语;
生成模块,用于将所述保留的分词词语及所述第一概念进行组合,以生成新的第二问答数据模板;及
扩充模块,用于将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。
可选地,所述获取模块,还用于:
识别所述第一实体的属性;
将所述第一实体按照所述属性进行分类;及
将属性相同的第一实体划分为同一问答数据模板。
可选地,所述筛选模块,还用于:
将所述权重与数据库中存储的预设权重进行比较;及
当所述权重高于或等于所述预设权重时,保留与所述权重对应的分词词语。
可选地,所述筛选模块,还用于当所述权重低于所述预设权重时,将与所述权重对应的分词词语删除。
可选地,所述扩充模块,还用于:
根据所述知识图谱确认所述第一实体的子图结构;及
将所述子图结构中与所述第一实体的属性相同的第二实体代替所述第一实体以获取第三问答数据模板;
保存所述第三问答数据模板,以对所述问答数据库进行扩充。
可选地,所述扩充模块,还用于根据所述意图从所述实体中识别出与所述意图不相关的第三实体,按照预设规则将与所述第三实体的属性相同的第四实体代替所述第三实体以获取第四问答数据模板;
保存所述第四问答数据模板,以对所述问答数据库进行扩充。
可选地,所述扩充模块,还用于当所述第一实体或所述第二实体与第五实体为同一事物时,将所述第五实体代替所述第一实体或所述第二实体以获取第五问答数据模板;
保存所述第五问答数据模板,以对所述问答数据库进行扩充。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上所述的基于知识图谱的实体识别数据增强方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的基于知识图谱的实体识别数据增强方法的步骤。
本发明实施例提供的基于知识图谱的实体识别数据增强方法、***、计算机设备及计算机可读存储介质,通过采集垂直领域的问答数据,识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板,对所述第一问答数据模板中的关系词进行分词得到分词词语,并根据每个分词词语与所述意图的相关程度,以筛选出相关程度高的分词词语,根据筛选结果生成第二问答数据模板,将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。本发明能够提升垂直领域中问答***的搭建速度,且能够有效提高问句实体识别的召回率。
附图说明
图1为本发明实施例一之基于知识图谱的实体识别数据增强方法的步骤流程图。
图2为本发明实施例二之计算机设备的硬件架构示意图。
图3为本发明实施例三之基于知识图谱的实体识别数据增强***的程序模块示意图。
附图标记:
计算机设备 | 2 |
存储器 | 21 |
处理器 | 22 |
网络接口 | 23 |
基于知识图谱的实体识别数据增强*** | 20 |
采集模块 | 201 |
识别模块 | 202 |
获取模块 | 203 |
分词模块 | 204 |
赋予模块 | 205 |
筛选模块 | 206 |
生成模块 | 207 |
扩充模块 | 208 |
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
实施例一
参阅图1,示出了本发明实施例一之基于知识图谱的实体识别数据增强方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。需要说明是,本实施例以计算机设备2为执行主体进行示例性描述。具体如下:
步骤S100,从问答数据库采集确定领域的问答数据,其中,所述确定领域至少包括医疗领域和/或旅游领域。
例如:若需要对医疗领域的实体进行识别,则采集医疗领域的问答数据。若需要对旅游领域的实体进行识别,则采集旅游领域的问答数据。实体指的是具有可区别性且独立存在的某种事物,例如医疗领域中的高血脂和阿托伐他汀。需要说明的是,所述医疗领域及所述旅游领域的确立,通过建立知识库,所述知识库存储有预设的医疗领域、旅游领域分类以及与所述医疗领域、旅游领域对应的问答数据。然后,根据所述知识库中存储的所述问答数据进行确定领域的问答数据采集,例如对确定领域中医疗领域的问答数据采集。
步骤S102,识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息。
在一较佳实施例中,用户根据采集到的所述问答数据的意图,对所述问答数据中的实体及关系进行标注,所述计算机设备2获取所述用户对所述问答数据的标注信息,以建立所述实体在知识图谱中的对应关系。
步骤S104,根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词。
在一较佳实施例中,当对所述第一实体概念化时,首先识别所述第一实体的属性,然后将所述第一实体按照所述属性进行分类,并将属性相同的第一实体划分为同一问答数据模板后,获取所述第一问答数据模板。
需要说明的是,概念是实体的抽象表示,实体是概念的具象实例,属性是一个实体指向它的属性值。当需要对实体进行概念化时,先识别所述实体的属性,例如:高血脂的属性是病,高血脂是疾病的具象实例,疾病是高血脂的抽象表示。
示例性地,在医疗领域中,问句为“高血脂患者服用阿托伐他汀有什么注意事项”,该问句中实体“高血脂”的属性为疾病<disease>,实体“阿托伐他汀”的属性为药品<medicine>,则该问句划分的问句模板为“<disease>患者服用<medicine>有什么注意事项”。若还有一问句为“糖尿病患者服用二甲双胍有什么注意事项”,由于该问句中实体“糖尿病”的属性为疾病<disease>,另一实体“二甲双胍”的属性为药品<medicine>,则该问句划分的问句模板也为“<disease>患者服用<medicine>时有什么注意事项”。
步骤S106,对所述关系词进行分词,得到分词词语。
步骤S108,根据每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高。
步骤S110,根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语。
在一较佳实施例中,当根据所述权重对所述每个分词词语进行筛选时,当所述权重高于或等于数据库中存储的预设权重时,保留与所述权重对应的分词词语;当所述权重低于所述预设权重时,将与所述权重对应的分词词语删除。
步骤S112,将所述保留的分词词语及所述第一概念进行组合,以生成新的第二问答数据模板。
步骤S114,将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。
示例性地,若问句模板为“<disease>患者服用<medicine>时有什么注意事项”,其中关系词为“患者服用”“时有什么注意事项”,对所述关系词分词之后,分词结果为“患者”“服用”“时”“有”“什么”“注意”“事项”,并对词语“患者”“服用”“时”“有”“什么”“注意”“事项”分别赋予相应的权重,其中,赋予“时”的权重为0.2,“注意”的权重为0.6,而预设权重为0.5,则将词语“时”删除,并将词语“注意”保留。最后,将“<disease>”“患者”“服用”“<medicine>”“有”“什么”“注意”“事项”进行重组,生成新的问句模板“<disease>患者服用<medicine>有什么注意事项”,并将该新的问句模板加入至所述问答数据库中。
在另一较佳实施例中,识别所述问答数据模板的语义,根据所述语义扩充多个与所述语义相同的其他问答数据模板,例如:问答数据模板为“<disease>患者服用<medicine>有什么注意事项”,根据问答数据模板的语义扩充出问答数据模板“<disease>病人吃<medicine>的注意事项有什么”、“<disease>病人吃<medicine>需要注意什么”及“<disease>病人吃<medicine>有什么注意事项”等。
在另一较佳实施例中,当根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板时,根据所述知识图谱确认所述第一实体的子图结构。然后,将所述子图结构中与所述第一实体的属性相同的第二实体代替所述第一实体以获取第三问答数据模板。最后,将所述第三问答数据模板保存于问答数据库中,以对所述问答数据库进行扩充。
示例性地,问答数据为“张三感冒时喝999感冒灵颗粒有什么注意事项”中,实体“感冒”与该问答数据的意图相关,则确认知识图谱中“感冒”的子图结构,若子图结构中包括“头痛”“鼻塞”等实体,由于“头痛”“鼻塞”实体与“感冒”实体的属性均为疾病<disease>,则将所述“头痛”“鼻塞”等实体替换为“感冒”实体,并将替换之后的问答数据加入至问答数据库中,以对所述问答数据库进行扩充。
在另一较佳实施例中,根据所述意图从所述实体中识别出与所述意图不相关的第三实体时,按照预设规则将与所述第三实体的属性相同的第四实体代替所述第三实体以获取第四问答数据模板,其中所述预设规则可以为随机将与所述第三实体的属性相同的第四实体代替所述第三实体以获取第四问答数据模板。最后,将所述第四问答数据模板保存于数据库中,以对所述问答数据进行扩充。例如:问答数据为“张三感冒时喝999感冒灵颗粒有什么注意事项”中,实体“张三”与该问答数据的意图无关,“张三”实体属于姓名属性,则随机将同属于姓名属性的“李四”实体可替换“张三”实体,并将替换之后的问答数据加入至问答数据库中,以对所述问答数据库进行扩充。
在另一较佳实施例中,当所述第一实体或所述第二实体与第五实体为同一事物时,则将所述第五实体代替所述第一实体或所述第二实体以获取第五问答数据。最后,将所述第五问答数据保存于问答数据库中,以对所述问答数据进行扩充。例如:“999感冒灵颗粒”实体的别名为“感冒灵颗粒”,则将所述“感冒灵颗粒”实体代替“999感冒灵颗粒”实体,并将替换之后的问答数据加入至问答数据库中,以对所述问答数据库进行扩充。
通过本发明实施例,提升了垂直领域中问答***的搭建速度,且极大地提高了问句实体识别的召回率。
实施例二
请参阅图2,示出了本发明实施例二之计算机设备的硬件架构示意图。计算机设备2包括,但不仅限于,可通过***总线相互通信连接存储器21、处理22以及网络接口23,图2仅示出了具有组件21-23的计算机设备2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器21至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,所述存储器也可以是所述计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器21还可以既包括所述计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述计算机设备2的操作***和各类应用软件,例如基于知识图谱的实体识别数据增强***20的程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述计算机设备2的总体操作。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述基于知识图谱的实体识别数据增强***20等。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子设备之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
实施例三
请参阅图3,示出了本发明实施例三之基于知识图谱的实体识别数据增强***的程序模块示意图。在本实施例中,基于知识图谱的实体识别数据增强***20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述基于知识图谱的实体识别数据增强方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述基于知识图谱的实体识别数据增强***20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
采集模块201,用于从问答数据库采集确定领域的问答数据,其中,所述确定领域至少包括医疗领域和/或旅游领域。
例如:若需要对医疗领域的实体进行识别,则所述采集模块201采集医疗领域的问答数据。若需要对旅游领域的实体进行识别,则所述采集模块201采集旅游领域的问答数据。实体指的是具有可区别性且独立存在的某种事物,例如医疗领域中的高血脂和阿托伐他汀。需要说明的是,所述医疗领域及所述旅游领域的确立,通过建立知识库,所述知识库存储有预设的医疗领域、旅游领域分类以及与所述医疗领域、旅游领域对应的问答数据。然后,根据所述知识库中存储的所述问答数据进行确定领域的问答数据采集,例如对确定领域中医疗领域的问答数据采集。
识别模块202,用于识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息。
在一较佳实施例中,用户根据采集到的所述问答数据,对所述问答数据中的实体及关系进行标注,所述识别模块202识别所述用户对所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述实体在知识图谱中的对应关系。
获取模块203,用于根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词。
具体地,当对所述第一实体进行概念化时,首先识别所述第一实体的属性,然后将所述第一实体按照所述属性进行分类,并将属性相同的第一实体划分为同一问答数据模板后,所述获取模块203获取所述第一问答数据模板。
需要说明的是,概念是实体的抽象表示,实体是概念的具象实例,属性是一个实体指向它的属性值。当需要对实体进行概念化时,先识别所述实体的属性,例如:高血脂的属性是病,高血脂是疾病的具象实例,疾病是高血脂的抽象表示。
示例性地,在医疗领域中,问句为“高血脂患者服用阿托伐他汀有什么注意事项”,该问句中实体“高血脂”的属性为疾病<disease>,实体“阿托伐他汀”的属性为药品<medicine>,则该问句划分的问句模板为“<disease>患者服用<medicine>有什么注意事项”。若还有一问句为“糖尿病患者服用二甲双胍有什么注意事项”,由于该问句中实体“糖尿病”的属性为疾病<disease>,另一实体“二甲双胍”的属性为药品<medicine>,则该问句划分的问句模板也为“<disease>患者服用<medicine>时有什么注意事项”。
分词模块204,用于对所述关系词进行分词,得到分词词语。
赋予模块205,用于每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高。
筛选模块206,用于根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语。
在一较佳实施例中,当根据所述权重对所述每个分词词语进行筛选时,当所述权重高于或等于数据库中存储的预设权重时,所述筛选模块206保留与所述权重对应的分词词语;当所述权重低于所述预设权重时,所述筛选模块206将与所述权重对应的分词词语删除。
生成模块207,用于将保留的分词词语及所述第一概念进行组合,以生成新的第二问答数据模板。
扩充模块208,用于将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。
示例性地,若问句模板为“<disease>患者服用<medicine>时有什么注意事项”,其中关系词为“患者服用”“时有什么注意事项”,所述分词模块204对所述关系词分词之后,分词结果为“患者”“服用”“时”“有”“什么”“注意”“事项”,然后所述赋予模块205对词语“患者”“服用”“时”“有”“什么”“注意”“事项”分别赋予相应的权重,其中,赋予“时”的权重为0.2,“注意”的权重为0.6,而预设权重为0.5,则所述筛选模块206将词语“时”删除,并将词语“注意”保留。然后,所述生成模块207将“<disease>”“患者”“服用”“<medicine>”“有”“什么”“注意”“事项”进行重组,生成新的问句模板“<disease>患者服用<medicine>有什么注意事项”。最后,所述扩充模块208将该新的问句模板加入至问答数据库中。
在另一较佳实施例中,所述计算机设备2识别所述问答数据模板的语义,根据所述语义扩充多个与所述语义相同的其他问答数据模板,例如:问答数据模板为“<disease>患者服用<medicine>有什么注意事项”,根据问答数据模板的语义扩充出问答数据模板“<disease>病人吃<medicine>的注意事项有什么”、“<disease>病人吃<medicine>需要注意什么”及“<disease>病人吃<medicine>有什么注意事项”等。
在另一较佳实施例中,当根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板时,所述扩充模块208根据所述知识图谱确认所述第一实体的子图结构。然后,将所述子图结构中与所述第一实体的属性相同的第二实体代替所述第一实体以获取第三问答数据模板。最后,将所述第三问答数据模板保存于数据库中,以对所述问答数据库进行扩充。
示例性地,问答数据为“张三感冒时喝999感冒灵颗粒有什么注意事项”中,实体“感冒”与该问答数据的意图相关,则确认知识图谱中“感冒”的子图结构,若子图结构中包括“头痛”“鼻塞”等实体,由于“头痛”“鼻塞”实体与“感冒”实体的属性均为疾病<disease>,则将所述“头痛”“鼻塞”等实体替换为“感冒”实体,并将替换之后的问答数据加入至问答数据库中,以对所述问答数据库进行扩充。
在另一较佳实施例中,根据所述意图从所述实体中识别出与所述意图不相关的第三实体时,按照预设规则将与所述第三实体的属性相同的第四实体代替所述第三实体以获取第四问答数据模板,其中所述预设规则可以为随机将与所述第三实体的属性相同的第四实体代替所述第三实体以获取第四问答数据模板。最后,将所述第四问答数据模板保存于数据库中,以对所述问答数据进行扩充。例如:问答数据为“张三感冒时喝999感冒灵颗粒有什么注意事项”中,实体“张三”与该问答数据的意图无关,“张三”实体属于姓名属性,则随机将同属于姓名属性的“李四”实体可替换“张三”实体,并将替换之后的问答数据加入至问答数据库中,以对所述问答数据库进行扩充。
在另一较佳实施例中,当所述第一实体或所述第二实体与第五实体为同一事物时,则所述扩充模块208将所述第五实体代替所述第一实体或所述第二实体以获取第五问答数据。最后,将所述第五问答数据保存于数据库中,以对所述问答数据进行扩充。例如:“999感冒灵颗粒”实体的别名为“感冒灵颗粒”,则将所述“感冒灵颗粒”实体代替“999感冒灵颗粒”实体,并将替换之后的问答数据加入至问答数据库中,以对所述问答数据库进行扩充。
通过本发明实施例,提升了垂直领域中问答***的搭建速度,且极大地提高了问句实体识别的召回率。
本发明还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过***总线相互通信连接的存储器、处理器等。
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储基于知识图谱的实体识别数据增强***20,被处理器执行时实现实施例一的基于知识图谱的实体识别数据增强方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于知识图谱的实体识别数据增强方法,其特征在于,包括步骤:
从问答数据库采集确定领域的问答数据,其中,所述确定领域至少包括医疗领域和/或旅游领域;
识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息;
根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词;
对所述关系词进行分词,得到分词词语;
根据每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高;
根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语;
将所述保留的分词词语及所述第一概念进行组合,以生成新的第二问答数据模板;及
将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。
2.如权利要求1所述的基于知识图谱的实体识别数据增强方法,其特征在于,所述根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板的步骤,还包括步骤:
识别所述第一实体的属性;
将所述第一实体按照所述属性进行分类;及
将属性相同的第一实体划分为同一问答数据模板。
3.如权利要求1所述的基于知识图谱的实体识别数据增强方法,其特征在于,所述根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语的步骤,还包括步骤:
将所述权重与数据库中存储的预设权重进行比较;及
当所述权重高于或等于所述预设权重时,保留与所述权重对应的分词词语。
4.如权利要求3所述的基于知识图谱的实体识别数据增强方法,其特征在于,所述将所述权重与数据库中存储的预设权重进行比较的步骤之后,还包括步骤:
当所述权重低于所述预设权重时,将与所述权重对应的分词词语删除。
5.如权利要求1所述的基于知识图谱的实体识别数据增强方法,其特征在于,所述根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板的步骤,还包括步骤:
根据所述知识图谱确认所述第一实体的子图结构;及
将所述子图结构中与所述第一实体的属性相同的第二实体代替所述第一实体以获取第三问答数据模板;
保存所述第三问答数据模板,以对所述问答数据库进行扩充。
6.如权利要求5所述的基于知识图谱的实体识别数据增强方法,其特征在于,所述方法还包括步骤:
根据所述意图从所述实体中识别出与所述意图不相关的第三实体,按照预设规则将与所述第三实体的属性相同的第四实体代替所述第三实体以获取第四问答数据模板;
保存所述第四问答数据模板,以对所述问答数据库进行扩充。
7.如权利要求5或6所述的基于知识图谱的实体识别数据增强方法,其特征在于,所述方法还包括步骤:
当所述第一实体或所述第二实体与第五实体为同一事物时,将所述第五实体代替所述第一实体或所述第二实体以获取第五问答数据模板;
保存所述第五问答数据模板,以对所述问答数据库进行扩充。
8.一种基于知识图谱的实体识别数据增强***,其特征在于,包括:
采集模块,用于从问答数据库采集确定领域的问答数据,其中,所述确定领域至少包括医疗领域和/或旅游领域;
识别模块,用于识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息;
获取模块,用于根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词;
分词模块,用于对所述关系词进行分词,得到分词词语;
赋予模块,用于根据每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高;
筛选模块,用于根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语;
生成模块,用于将所述保留的分词词语及所述第一概念进行组合,以生成新的第二问答数据模板;
扩充模块,用于将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。
9.一种计算机设备,其特征在于,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的基于知识图谱的实体识别数据增强方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1-7中任一项所述的基于知识图谱的实体识别数据增强方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910699296.3A CN110598204B (zh) | 2019-07-31 | 2019-07-31 | 基于知识图谱的实体识别数据增强方法及*** |
PCT/CN2019/117762 WO2021017290A1 (zh) | 2019-07-31 | 2019-11-13 | 基于知识图谱的实体识别数据增强方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910699296.3A CN110598204B (zh) | 2019-07-31 | 2019-07-31 | 基于知识图谱的实体识别数据增强方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598204A CN110598204A (zh) | 2019-12-20 |
CN110598204B true CN110598204B (zh) | 2023-07-25 |
Family
ID=68853142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910699296.3A Active CN110598204B (zh) | 2019-07-31 | 2019-07-31 | 基于知识图谱的实体识别数据增强方法及*** |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110598204B (zh) |
WO (1) | WO2021017290A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339252B (zh) * | 2020-02-25 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 一种搜索方法、装置及存储介质 |
CN112015919A (zh) * | 2020-09-15 | 2020-12-01 | 重庆广播电视大学重庆工商职业学院 | 一种基于学习辅助知识图谱的对话管理方法 |
CN113157939A (zh) * | 2021-03-26 | 2021-07-23 | 联想(北京)有限公司 | 一种信息处理方法及装置 |
CN113392202A (zh) * | 2021-06-22 | 2021-09-14 | 中国工商银行股份有限公司 | 基于知识图谱的问答***和方法 |
CN115146037A (zh) * | 2021-08-09 | 2022-10-04 | 上海蓬海涞讯数据技术有限公司 | 基于知识图谱的问答方法及***、电子设备及存储介质 |
CN116737520B (zh) * | 2023-06-12 | 2024-05-03 | 北京优特捷信息技术有限公司 | 一种日志数据的数据编织方法、装置、设备及存储介质 |
CN117688189B (zh) * | 2023-12-27 | 2024-06-14 | 珠江水利委员会珠江水利科学研究院 | 一种融合知识图谱、知识库和大型语言模型的问答***构建方法 |
CN118116087A (zh) * | 2024-04-29 | 2024-05-31 | 广东康软科技股份有限公司 | 应用于数字化医疗服务的活体身份验证方法及*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160046572A (ko) * | 2014-10-21 | 2016-04-29 | 포항공과대학교 산학협력단 | 데이터베이스의 데이터 확장 방법 및 장치 |
CN107766483A (zh) * | 2017-10-13 | 2018-03-06 | 华中科技大学 | 一种基于知识图谱的交互式问答方法及*** |
CN108345640A (zh) * | 2018-01-12 | 2018-07-31 | 上海大学 | 一种基于神经网络语义分析的问答语料库构建方法 |
CN108509519A (zh) * | 2018-03-09 | 2018-09-07 | 北京邮电大学 | 基于深度学习的通用知识图谱增强问答交互***及方法 |
CN109657037A (zh) * | 2018-12-21 | 2019-04-19 | 焦点科技股份有限公司 | 一种基于实体类型和语义相似度的知识图谱问答方法及*** |
CN109918627A (zh) * | 2019-01-08 | 2019-06-21 | 平安科技(深圳)有限公司 | 文本生成方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170193393A1 (en) * | 2016-01-04 | 2017-07-06 | International Business Machines Corporation | Automated Knowledge Graph Creation |
US10275515B2 (en) * | 2017-02-21 | 2019-04-30 | International Business Machines Corporation | Question-answer pair generation |
CN108427735A (zh) * | 2018-02-28 | 2018-08-21 | 东华大学 | 基于电子病历的临床知识图谱构建方法 |
CN109492077B (zh) * | 2018-09-29 | 2020-09-29 | 北京智通云联科技有限公司 | 基于知识图谱的石化领域问答方法及*** |
CN109189946B (zh) * | 2018-11-06 | 2021-11-26 | 湖南云智迅联科技发展有限公司 | 一种将设备故障语句描述转换为知识图谱表达的方法 |
-
2019
- 2019-07-31 CN CN201910699296.3A patent/CN110598204B/zh active Active
- 2019-11-13 WO PCT/CN2019/117762 patent/WO2021017290A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160046572A (ko) * | 2014-10-21 | 2016-04-29 | 포항공과대학교 산학협력단 | 데이터베이스의 데이터 확장 방법 및 장치 |
CN107766483A (zh) * | 2017-10-13 | 2018-03-06 | 华中科技大学 | 一种基于知识图谱的交互式问答方法及*** |
CN108345640A (zh) * | 2018-01-12 | 2018-07-31 | 上海大学 | 一种基于神经网络语义分析的问答语料库构建方法 |
CN108509519A (zh) * | 2018-03-09 | 2018-09-07 | 北京邮电大学 | 基于深度学习的通用知识图谱增强问答交互***及方法 |
CN109657037A (zh) * | 2018-12-21 | 2019-04-19 | 焦点科技股份有限公司 | 一种基于实体类型和语义相似度的知识图谱问答方法及*** |
CN109918627A (zh) * | 2019-01-08 | 2019-06-21 | 平安科技(深圳)有限公司 | 文本生成方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于知识图谱的旅游景点问答***;时雨;古天龙;宾辰忠;孙彦鹏;;桂林电子科技大学学报(04);第42-48页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110598204A (zh) | 2019-12-20 |
WO2021017290A1 (zh) | 2021-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598204B (zh) | 基于知识图谱的实体识别数据增强方法及*** | |
CN110033018B (zh) | 图形相似度判断方法、装置及计算机可读存储介质 | |
CN110348294A (zh) | Pdf文档中图表的定位方法、装置及计算机设备 | |
CN110990390B (zh) | 数据协同处理方法、装置、计算机设备和存储介质 | |
CN110765754B (zh) | 文本数据排版方法、装置、计算机设备及存储介质 | |
CN107133263B (zh) | Poi推荐方法、装置、设备及计算机可读存储介质 | |
CN111930962A (zh) | 文献数据价值评估方法、装置、电子设备及存储介质 | |
CN108170752B (zh) | 基于模板的元数据管理方法和*** | |
CN110674144A (zh) | 用户画像生成方法、装置、计算机设备和存储介质 | |
CN112287069A (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN110752027B (zh) | 电子病历数据推送方法、装置、计算机设备和存储介质 | |
CN111696656A (zh) | 一种互联网医疗平台的医生评价方法、装置 | |
CN112199951A (zh) | 一种事件信息生成的方法及装置 | |
WO2021114615A1 (zh) | 行为风险识别的可视化方法、装置、设备及存储介质 | |
CN111126422B (zh) | 行业模型的建立及行业的确定方法、装置、设备及介质 | |
CN113568934B (zh) | 一种数据查询方法、装置、电子设备和存储介质 | |
CN115840863A (zh) | 网页内容溯源方法、知识图谱构建方法以及相关设备 | |
CN111403011B (zh) | 挂号科室推送方法、装置、***、电子设备及存储介质 | |
CN111985578A (zh) | 多源数据融合方法、装置、计算机设备及存储介质 | |
CN111311463A (zh) | 基于数据标签建立人口画像的数据处理方法及*** | |
CN114693435A (zh) | 催收名单的智能回访的方法、装置、电子设备及存储介质 | |
CN113254672B (zh) | 异常账号的识别方法、***、设备及可读存储介质 | |
CN113468948A (zh) | 基于视图数据的治安防控方法、模块、设备及存储介质 | |
CN112966125A (zh) | 一种地理位置识别方法、装置及设备 | |
CN111143626A (zh) | 团伙识别方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |