CN111339267A - 基于知识图谱的问答方法及***、计算机设备及介质 - Google Patents

基于知识图谱的问答方法及***、计算机设备及介质 Download PDF

Info

Publication number
CN111339267A
CN111339267A CN202010096035.5A CN202010096035A CN111339267A CN 111339267 A CN111339267 A CN 111339267A CN 202010096035 A CN202010096035 A CN 202010096035A CN 111339267 A CN111339267 A CN 111339267A
Authority
CN
China
Prior art keywords
entity
target
knowledge graph
feature vectors
semantic feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010096035.5A
Other languages
English (en)
Inventor
代亚菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN202010096035.5A priority Critical patent/CN111339267A/zh
Publication of CN111339267A publication Critical patent/CN111339267A/zh
Priority to PCT/CN2021/076049 priority patent/WO2021164618A1/zh
Priority to EP21756573.8A priority patent/EP4109295A4/en
Priority to US17/613,629 priority patent/US20220254507A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Human Computer Interaction (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于知识图谱的问答方法及***、计算机设备及介质。该方法的一具体实施方式包括:接收用户输入的问询语句;响应于用户的实体链接查询请求,将所述问询语句中的实体指称项在知识图谱中映射的目标实体进行显示;响应于用户的知识图谱查询请求,将目标实体对应的结果进行显示。该实施方式具有响应快速、具有较高的准确率等优点,适于在各领域进行应用。

Description

基于知识图谱的问答方法及***、计算机设备及介质
技术领域
本发明涉及计算机技术领域。更具体地,涉及一种基于知识图谱的问答方法及***、计算机设备及介质。
背景技术
传统的FAQ问答***需要准备问答对,耗费人力且覆盖面窄。知识图谱是当前知识工程领域的研究热点,以医学知识图谱为例,可利用医学知识图谱技术将各种医疗信息相互连接,广泛用于支持问答、辅助决策支持等智能医疗应用。基于医学知识图谱的问答***答案简练精确且覆盖面广,以“高血压的典型症状是什么?”为例,FAQ问答***需要人工解答保存或爬虫提取该问题的答案进行筛选,耗费人力,且需要进行句子层级的问题相似度匹配,例如“我经常头晕乏力是得了高血压吗”这种问题很难在FAQ数据库中与“高血压的典型症状是什么?”匹配上,而基于医学知识图谱的问答***,根据命名实体识别可提取用户输入的问题语句中的疾病名称与症状,进而查询到得到较精确的回答。但是,文本中自然语言的表述往往具有多样性和歧义性,存在大量的简写、缩写、不规范的表达和模糊的表达,例如“肾移植”既可作为治疗手段,也可作为发病原因,再例如“彩色超声多普勒”、“彩色超声Doppler检查”、“彩色多普勒超声检查”均指代同一检查方式,这就导致了现有的例如基于医学知识图谱的问答***等各种基于知识图谱的问答***存在着响应速度较慢、准确性不足等问题。
因此,需要提供一种新的基于知识图谱的问答方法及***、计算机设备及介质。
发明内容
本发明的目的在于提供一种基于知识图谱的问答方法及***、计算机设备及介质,以解决现有技术存在的问题中的至少一个。
为达到上述目的,本发明采用下述技术方案:
本发明第一方面提供了一种基于知识图谱的问答方法,包括:
接收用户输入的问询语句;
响应于用户的实体链接查询请求,将所述问询语句中的实体指称项在知识图谱中映射的目标实体进行显示;
响应于用户的知识图谱查询请求,将目标实体对应的结果进行显示。
本发明第一方面提供的问答方法,将可能存在简写、缩写、不规范的表达和模糊的表达的用户输入语句映射为知识图谱中的目标实体,从而可准确查询到答案,具有响应快速、具有较高的准确率等优点,适于在各领域进行应用。
可选地,所述响应于用户的实体链接查询请求,将所述问询语句中的实体指称项在知识图谱中映射的目标实体进行显示包括:
解析问询语句中的实体指称项;
对解析出的实体指称项与知识图谱中的目标实体进行实体链接,得到所述实体指称项在知识图谱中映射的目标实体;
将所述映射的目标实体进行显示。
此可选方式通过实体链接将可能存在简写、缩写、不规范的表达和模糊的表达的用户输入语句准确映射为知识图谱中的目标实体,可保证查询到的答***性。
可选地,所述对解析出的实体指称项与知识图谱中的目标实体进行实体链接,得到所述实体指称项在知识图谱中映射的目标实体包括:
提取所述实体指称项的语义特征向量并将所述实体指称项的语义特征向量输入预设的神经网络,以使得所述神经网络对所述实体指称项的语义特征向量与知识图谱中的各目标实体的的语义特征向量进行匹配并输出所述实体指称项在知识图谱中映射的目标实体。
此可选方式可通过神经网络对实体指称项进行准确高效的分类判断,保证实体链接的效率与准确性,从而保证问答的响应速度和答***性。
可选地,所述对解析出的实体指称项与知识图谱中的目标实体进行实体链接,得到所述实体指称项在知识图谱中映射的目标实体包括:
步骤一、对实体指称项进行与知识图谱中的各目标实体的匹配,若存在匹配结果则将匹配结果中的目标实体作为所述实体指称项在知识图谱中映射的目标实体,若不存在则转入步骤二;
步骤二、对实体指称项进行名称词典查询,其中,名称词典包括各目标实体的标准名称及至少一个别称,若存在包含实体指称项的别称则将对应的目标实体作为所述实体指称项在知识图谱中映射的目标实体,若不存在则转入步骤三;
步骤三、提取所述实体指称项的语义特征向量并将所述实体指称项的语义特征向量输入预设的神经网络,以使得所述神经网络对所述实体指称项的语义特征向量与知识图谱中的各目标实体的的语义特征向量进行匹配并输出所述实体指称项在知识图谱中映射的目标实体。
此可选方式基于综合执行效率、有效性等因素而设定为依次执行的多种实现实体链接的方式,可在保证实体链接的准确性的同时进一步提升实体链接的效率,以在保证答案准确性的同时进一步提升问答的响应速度。
可选地,所述提取所述实体指称项的语义特征向量并将所述实体指称项的语义特征向量输入预设的神经网络,以使得所述神经网络对所述实体指称项的语义特征向量与知识图谱中的各目标实体的的语义特征向量进行匹配并输出所述实体指称项在知识图谱中映射的目标实体包括:
根据所述实体指称项与知识图谱中的各目标实体的特征比对,生成候选目标实体集;
提取所述实体指称项的语义特征向量并将所述实体指称项的语义特征向量输入预设的神经网络,以使得所述神经网络对所述实体指称项的语义特征向量与候选目标实体集中的目标实体的的语义特征向量进行匹配并输出所述实体指称项在知识图谱中映射的目标实体。
此可选方式可提升实体链接的效率,以提升问答的响应速度。
可选地,所述根据所述实体指称项与知识图谱中的各目标实体的特征比对,生成候选目标实体集包括:对实体指称项与知识图谱中的各目标实体分别进行基于局部字符串匹配特征、拼音一致特征、首字符一致特征与戴斯相似系数的特征比对,若局部字符串匹配特征、拼音一致特征、首字符一致特征与戴斯相似系数中的一项符合,则将对应的目标实体置入候选目标实体集中。
此可选方式基于多种特征的比对,可保证候选目标实体集的准确率与召回率,可在保证候选目标实体集准确性的同时保证提升实体链接的效率的效果,以在保证答案准确性的同时提升问答的响应速度。
可选地,在所述提取所述实体指称项的语义特征向量并将所述实体指称项的语义特征向量输入预设的神经网络之前,还包括:对所述候选目标实体集中的目标实体进行筛选。
此可选方式可通过对候选目标实体集中的目标实体的筛选,进一步提升实体链接的效率,以进一步提升问答的响应速度。
可选地,所述对所述候选目标实体集中的目标实体进行筛选包括:对所述候选目标实体集中的目标实体进行同存关键词筛选、基于同义词替换的同存关键词筛选、基于字符长度差的筛选中的至少一项。
此可选方式基于多维度的筛选,可保证候选目标实体集的准确率与召回率,可在保证候选目标实体集准确性的同时保证进一步提升实体链接的效率的效果,以在保证答案准确性的同时进一步提升问答的响应速度。
可选地,所述神经网络为基于Keras深度学习框架的神经网络。
可选地,所述知识图谱为医学知识图谱。
本发明第二方面提供了一种执行本发明第一方面提供的问答方法的基于知识图谱的问答***,包括交互模块、实体链接查询模块、目标实体显示模块、知识图谱查询模块和问询结果显示模块;
所述交互模块,用于接收用户输入的问询语句;
所述实体链接查询模块,用于响应于用户的实体链接查询请求,将所述问询语句中的实体指称项在知识图谱中映射的目标实体在所述目标实体显示模块进行显示;
所述知识图谱查询模块,用于响应于用户的知识图谱查询请求,将目标实体对应的结果在所述问询结果显示模块进行显示。
本发明第三方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明第一方面提供的方法。
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一方面提供的方法。
本发明的有益效果如下:
本发明所述技术方案具有响应快速、具有较高的准确率等优点,适于在各领域进行应用。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明;
图1示出本发明实施例提供的基于医学知识图谱的问答***的示意图。
图2示出本发明实施例提供的基于医学知识图谱的问答***的交互界面示意图。
图3示出本发明实施例提供的基于医学知识图谱的问答方法的流程图。
图4示出本发明实施例提供的基于医学知识图谱的问答方法中步骤S12 的流程图。
图5示出本发明实施例提供的基于医学知识图谱的问答方法中步骤S122 的流程图。
图6示出实现本发明实施例提供的基于医学知识图谱的问答***的计算机***的结构示意图。
具体实施方式
为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
以应用较为广泛的医学问答领域为例进行说明,如图1所示,本发明一个实施例提供了一种基于医学知识图谱的问答***1,包括交互模块10、实体链接查询模块12、目标实体显示模块14、知识图谱查询模块16和问询结果显示模块18。
在一个具体示例中,以可视化的形式展示了问答***1,如图2所示,交互模块10为一人机交互输入框,用户可以在该输入框中输入问询语句,例如“嗜酒会导致什么疾病呢”。在一个优选示例中,为了提示用户,在输入框中预置问询范例语句,如**是××吗?,其中**可以为症状的描述词,××可以为疾病的描述词。在另一个优选示例中,本发明的***允许用户只输入症状的描述词,例如只需要输入上述示例中的“**”,而无需输入“是××吗?”在这些示例中,***1解析出该问询语句中的实体指称项为“嗜酒”。
当然,本领域技术人员能够理解,本发明的交互输入框中也支持用户输入“××的症状是什么”这样的问询语句,其中××是表示疾病的描述词,例如“高血压的症状是什么”。在这个示例中,***1解析出该问询语句中的实体指称项为“高血压”。
接下来,仍以用户输入的问询语句为“嗜酒会导致什么疾病呢”为例来解释本发明。
实体链接查询模块12在图2的示例中以一查询按钮显示,如“查看实体链接结果”按钮。响应于用户的查询请求(在图2的示例中即响应于用户点击按钮),将实体指称项(例如嗜酒)在医学知识图谱中映射的目标实体(在上述嗜酒的例子中,映射的目标实体为酗酒)显示在目标实体显示模块14中。
其中,实体链接查询模块12对解析出的实体指称项与医学知识图谱中的目标实体进行实体链接,得到所述实体指称项在医学知识图谱中映射的目标实体。
目标实体显示模块14用于显示所映射的目标实体。目标实体显示模块14 在图2的实例中为一显示框,在上述示例中,显示框中显示实体指称项和目标实体二者,例如如图2所示:嗜酒-->酗酒。这种情况下,用户可以清楚地看到***解析的实体指称项和映射的目标实体分别是什么。本领域技术人员能够理解,显示框可以仅显示目标实体,而由***解析出的实体指称项并不呈现给用户。
知识图谱查询模块16在图2的示例中以一查询按钮显示,如“查看知识图谱搜索结果”按钮。响应于用户的查询请求(在图2的示例中即响应于用户点击按钮),知识图谱查询模块16将目标实体对应的结果显示在问询结果显示模块18中。
例如,在目标实体为酗酒的例子中,显示的是与酗酒相关的疾病;而在目标实体为高血压的例子中,显示的是高血压对应的症状。
问询结果显示模块18用于显示问询结果。在一个示例中,问询结果显示模块18如图2所示的显示框,以语句方式显示结果,在上述嗜酒的示例中,显示框中显示“可能导致脂肪肝、胰腺炎、垂体卒中…”。在语句较长,***检测到超出显示框的显示边界时,未显示部分以“…”代替,用户在看“…”,可以将指针设备例如鼠标悬浮在显示框上,这时将悬浮显示完整的语句。
在另一个优选的示例中,问询结果显示模块18如图2所示的显示拓扑图,以更直观的图形方式显示结果,在上述嗜酒的示例中,在显示拓扑图中,以目标实体(酗酒)为中心,呈发散状呈现对应的问询结果,例如脂肪肝、胰腺炎、垂体卒中等,每一种疾病和酗酒之间以箭头连接。
本领域技术人员能够理解,显示拓扑图不限于此,例如还可以以树形关系图来表示。
在另一个示例中,问询结果显示模块18可以以显示框和显示拓扑图两种方式同时呈现。
接下来,结合问答***1,本实施例还提供了一种基于医学知识图谱的问答方法,如图3所示,包括:
S10、接收用户输入的问询语句。
在上述示例中,用户在人机交互输入框中输入问询语句。
S12、响应于用户的实体链接查询请求,将所述问询语句中的实体指称项在医学知识图谱中映射的目标实体进行显示。
在上述示例中,用户点击“查看实体链接结果”按钮,向实体链接查询模块12发起实体链接查询请求。
如图4所示,步骤S12进一步包括:
S120、解析问询语句中的实体指称项。
在一个具体示例中,可利用条件随机场对用户输入的语句进行命名实体识别,以得到实体指称项。
S122、对解析出的实体指称项与医学知识图谱中的目标实体进行实体链接,得到所述实体指称项在医学知识图谱中映射的目标实体。
在一个具体示例中,本实施例中的医学知识图谱包含症状、预防、常见人群等实体种类共14种,实体总数7万余,三元组总数20万余。
在本实施例的一些可选的实现方式中,步骤S122进一步包括:
提取所述实体指称项的语义特征向量并将所述实体指称项的语义特征向量输入预设的神经网络,以使得所述神经网络对所述实体指称项的语义特征向量与医学知识图谱中的各目标实体的的语义特征向量进行匹配并输出所述实体指称项在医学知识图谱中映射的目标实体。
此实现方式可通过神经网络对实体指称项进行准确高效的分类判断,保证实体链接的效率与准确性,从而保证问答的响应速度和答***性。
在本实施例的另一可选的实现方式中,如图5所示,步骤S122进一步包括:
S1221、对实体指称项进行与医学知识图谱中的各目标实体的匹配,若存在匹配结果(即实体指称项精确匹配)则将匹配结果中的目标实体作为所述实体指称项在医学知识图谱中映射的目标实体。
在一个具体示例中,若医学知识图谱中的目标实体与实体指称项的字符相同,则判定该目标实体与实体指称项匹配,即存在匹配结果。
若不匹配,转向S1222、对实体指称项进行名称词典查询,其中,名称词典包括各目标实体的标准名称及至少一个别称,若存在包含实体指称项的别称则将对应的目标实体作为所述实体指称项在医学知识图谱中映射的目标实体。
在一个具体示例中,名称词典的key值为百度百科标题名称、value值为别称标签下的名称,若实体指称项包含于某value中则返回对应的key值作为该实体指称项在医学知识图谱中映射的目标实体。
若不存在则转向S1223、提取所述实体指称项的语义特征向量并将所述实体指称项的语义特征向量输入预设的神经网络,以使得所述神经网络对所述实体指称项的语义特征向量与医学知识图谱中的各目标实体的的语义特征向量进行匹配并输出所述实体指称项在医学知识图谱中映射的目标实体。
在本实施例的一些可选的实现方式中,所述神经网络为基于Keras深度学习框架的神经网络。
在本实施例的一些可选的实现方式中,步骤S1223进一步包括:
S12231、根据所述实体指称项与医学知识图谱中的各目标实体的特征比对,生成候选目标实体集。
在本实施例的一些可选的实现方式中,S12231包括:
对实体指称项与医学知识图谱中的各目标实体分别进行基于局部字符串匹配特征、拼音一致特征、首字符一致特征与戴斯相似系数的特征比对,若局部字符串匹配特征、拼音一致特征、首字符一致特征与戴斯相似系数中的一项符合,则将对应的目标实体置入候选目标实体集中。
此实现方式基于多种特征的比对,可保证候选目标实体集的准确率与召回率,可在保证候选目标实体集准确性的同时保证提升实体链接的效率的效果,以在保证答案准确性的同时提升问答的响应速度。具体而言,局部字符串匹配特征、拼音一致特征、首字符一致特征与戴斯相似系数这四种特征是针对中文文本特点设置的,其中,局部字符串匹配特征是指实体指称项包含于候选目标实体、实体指称项包含候选目标实体、实体指称项单个字符包含于候选目标实体中的任一种情况。
S12233、提取所述实体指称项的语义特征向量并将所述实体指称项的语义特征向量输入预设的神经网络,以使得所述神经网络对所述实体指称项的语义特征向量与候选目标实体集中的目标实体的的语义特征向量进行匹配并输出所述实体指称项在医学知识图谱中映射的目标实体。
此实现方式可提升实体链接的效率,以提升问答的响应速度。
在一个具体示例中,为了避免人工设计特征的工作,直接使用word2vec 提取实体指称项的语义特征向量,即得到包含实体语义信息的特征向量,输入基于Keras深度学习框架的神经网络,以使得该神经网络对<实体指称项,候选实体>对进行分类判断出准确的目标实体,其中,实现二分类的基于Keras 深度学习框架的神经网络的网络参数可设置如下:输入维度为400的语义向量值。epochs设置为50,batch_size设置为512,使用relu做为激活函数的全连接网络,binary_crossentropy做为损失函数。经实验证明该神经网络的分类准确率可达95%以上。
此可选方式基于综合执行效率、有效性等因素而设定为依次执行的多种实现实体链接的方式,可在保证实体链接的准确性的同时进一步提升实体链接的效率,以在保证答案准确性的同时进一步提升问答的响应速度。
在本实施例的一些可选的实现方式中,在S12233之前,S1223还包括步骤S12232:对所述候选目标实体集中的目标实体进行筛选。
此实现方式可通过对候选目标实体集中的目标实体的筛选,进一步提升实体链接的效率,以进一步提升问答的响应速度。
在本实施例的一些可选的实现方式中,S12232包括:
对所述候选目标实体集中的目标实体进行同存关键词筛选、基于同义词替换的同存关键词筛选、基于字符长度差的筛选中的至少一项,其中,同存关键词筛选例如身体部位需同时存在于实体指称项与候选目标实体,基于同义词替换的同存关键词筛选例如粪与便作为同义词,替换后未同时存在于实体指称项与候选目标实体中则筛除该候选目标实体,基于字符长度差的筛选例如设置保留条件为实体指称项与候选目标实体的字符长度差小于等于4。
此实现方式基于多维度的筛选,可保证候选目标实体集的准确率与召回率,可在保证候选目标实体集准确性的同时保证进一步提升实体链接的效率的效果,以在保证答案准确性的同时进一步提升问答的响应速度。
上述S1221-S1223是基于综合执行效率、有效性等因素而设定为依次执行的多种实现实体链接的方式,可在保证实体链接的准确性的同时进一步提升实体链接的效率,以在保证答案准确性的同时进一步提升问答的响应速度。具体而言,这是一种针对医疗领域中文文本特点所设计的实体链接方法,并将该方法用于医疗问答,在以医学知识图谱作为知识库,通过命名实体识别得到实体指称项的基础上,首先进行精确匹配,若精确匹配未能在医学知识图谱中匹配到目标实体,则再进行名称词典查询,若名称词典查询也未能找到目标实体,则最终采用基于多个特征构建的高质量的候选实体集,在候选实体消歧过程中利用神经网络及包含语义信息的特征向量(词向量)提高实体链接到目标实体的准确率,进而提高答***率。
在中文医学语料上使用本实施例提出的方法进行实体链接,可准确地将实体指称项映射到医学知识图谱中的目标实体,从而可利用neo4j中的Cypher 语句查询医学知识图谱而得到的答案并输出,具有响应快速、具有较高的准确率等优点,具有实用价值。
在步骤S122之后,步骤S12还包括:
S124、将映射的目标实体发送到目标实体显示模块14进行显示。
在上述示例中,在显示框中进行显示。
在步骤S12后,本发明的一个实施例的问答方法还包括:
S14、响应于用户的知识图谱查询请求,将目标实体对应的结果进行显示。
在上述示例中,知识图谱查询模块16将目标实体对应的结果显示在问询结果显示模块18中,例如以显示框和/或显示拓扑图的形式。
本实施例提供的问答方法,通过实体链接将可能存在简写、缩写、不规范的表达和模糊的表达的用户输入语句准确映射为医学知识图谱中的目标实体,从而可准确查询到答案,具有响应快速、具有较高的准确率等优点。
本领域技术人员可理解的是,尽管上述示例是以医学知识图谱为基础构成的***和方法,然而,上述实施例提供的问答方法也可应用于其他领域的问答***及基于知识图谱的智能搜索和个性化推荐等领域。
上述实施例提供的基于医学知识图谱的问答***可以终端设备实现,终端设备可以是各种电子设备,包括但不限于个人电脑、智能手机、平板电脑、个人数字助理等等。
另外,上述实施例提供的基于医学知识图谱的问答***还可以相互配合的终端设备和服务器实现,其中,终端设备实现交互模块,服务器实现命名实体识别模块、实体链接模块和查询模块。服务器可以是提供各种服务的服务器,服务器可以对接收到的数据(终端设备发送的用户输入的语句)进行存储、分析等处理,并将处理结果(问答结果)反馈给终端设备,由终端设备通过触控屏等交互模块输出给用户。终端设备与服务器通过网络进行通信,该网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
在本实施例中,所称的“接收”的具体实现对应于用户使用终端设备的方式。例如,用户使用键盘向个人电脑输入数据,则个人电脑接收用户所输入的数据;例如,用户通过在个人电脑执行基于医学知识图谱的问答方法的应用程序GUI界面上通过鼠标点选、键盘操作等方式输入数据,则个人电脑捕获这些操作从而接收用户所输入的数据;例如,用户通过语音的方式输入数据,则个人电脑通过语音转文本的方法接收用户所输入的数据;例如,用户使用手机端App,则服务器可以通过与用户所使用的手机的交互接收用户所输入的数据。
在一个具体示例中,上述实施例提供的基于医学知识图谱的问答***以个人电脑实现,个人电脑中存储有人机交互软件,将利用python开发的问答***模块封装后在软件中进行调用,用户可查看图形化的查询结果,交互界面如图2所示。
如图6所示,适于用来实现上述实施例提供的基于医学知识图谱的问答***的计算机***,包括中央处理模块(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有计算机***操作所需的各种程序和数据。CPU、ROM以及RAM通过总线被此相连。输入/输入(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
特别地,根据本实施例,上文流程图描述的过程可以被实现为计算机软件程序。例如,本实施例包括一种计算机程序产品,其包括有形地包含在计算机可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。
附图中的流程图和示意图,图示了本实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器,包括命名实体识别模块、实体链接模块等。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。例如,实体链接查询模块还可以被描述为“实体映射查询模块”或“实体对应查询模块”。
作为另一方面,本实施例还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质,也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当上述一个或者多个程序被一个设备执行时,使得上述设备:接收用户输入的问询语句;响应于用户的实体链接查询请求,将所述问询语句中的实体指称项在医学知识图谱中映射的目标实体进行显示;响应于用户的知识图谱查询请求,将目标实体对应的结果进行显示。
需要说明的是,在本发明的描述中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于本领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (13)

1.一种基于知识图谱的问答方法,其特征在于,包括:
接收用户输入的问询语句;
响应于用户的实体链接查询请求,将所述问询语句中的实体指称项在知识图谱中映射的目标实体进行显示;
响应于用户的知识图谱查询请求,将目标实体对应的结果进行显示。
2.根据权利要求1所述的方法,其特征在于,所述响应于用户的实体链接查询请求,将所述问询语句中的实体指称项在知识图谱中映射的目标实体进行显示包括:
解析问询语句中的实体指称项;
对解析出的实体指称项与知识图谱中的目标实体进行实体链接,得到所述实体指称项在知识图谱中映射的目标实体;
将所述映射的目标实体进行显示。
3.根据权利要求2所述的方法,其特征在于,所述对解析出的实体指称项与知识图谱中的目标实体进行实体链接,得到所述实体指称项在知识图谱中映射的目标实体包括:
提取所述实体指称项的语义特征向量并将所述实体指称项的语义特征向量输入预设的神经网络,以使得所述神经网络对所述实体指称项的语义特征向量与知识图谱中的各目标实体的的语义特征向量进行匹配并输出所述实体指称项在知识图谱中映射的目标实体。
4.根据权利要求2所述的方法,其特征在于,所述对解析出的实体指称项与知识图谱中的目标实体进行实体链接,得到所述实体指称项在知识图谱中映射的目标实体包括:
步骤一、对实体指称项进行与知识图谱中的各目标实体的匹配,若存在匹配结果则将匹配结果中的目标实体作为所述实体指称项在知识图谱中映射的目标实体,若不存在则转入步骤二;
步骤二、对实体指称项进行名称词典查询,其中,名称词典包括各目标实体的标准名称及至少一个别称,若存在包含实体指称项的别称则将对应的目标实体作为所述实体指称项在知识图谱中映射的目标实体,若不存在则转入步骤三;
步骤三、提取所述实体指称项的语义特征向量并将所述实体指称项的语义特征向量输入预设的神经网络,以使得所述神经网络对所述实体指称项的语义特征向量与知识图谱中的各目标实体的的语义特征向量进行匹配并输出所述实体指称项在知识图谱中映射的目标实体。
5.根据权利要求3或4所述的方法,其特征在于,所述提取所述实体指称项的语义特征向量并将所述实体指称项的语义特征向量输入预设的神经网络,以使得所述神经网络对所述实体指称项的语义特征向量与知识图谱中的各目标实体的的语义特征向量进行匹配并输出所述实体指称项在知识图谱中映射的目标实体包括:
根据所述实体指称项与知识图谱中的各目标实体的特征比对,生成候选目标实体集;
提取所述实体指称项的语义特征向量并将所述实体指称项的语义特征向量输入预设的神经网络,以使得所述神经网络对所述实体指称项的语义特征向量与候选目标实体集中的目标实体的的语义特征向量进行匹配并输出所述实体指称项在知识图谱中映射的目标实体。
6.根据权利要求5所述的方法,其特征在于,所述根据所述实体指称项与知识图谱中的各目标实体的特征比对,生成候选目标实体集进一步包括:对实体指称项与知识图谱中的各目标实体分别进行基于局部字符串匹配特征、拼音一致特征、首字符一致特征与戴斯相似系数的特征比对,若局部字符串匹配特征、拼音一致特征、首字符一致特征与戴斯相似系数中的一项符合,则将对应的目标实体置入候选目标实体集中。
7.根据权利要求5所述的方法,其特征在于,在所述提取所述实体指称项的语义特征向量并将所述实体指称项的语义特征向量输入预设的神经网络之前,还包括:对所述候选目标实体集中的目标实体进行筛选。
8.根据权利要求7所述的方法,其特征在于,所述对所述候选目标实体集中的目标实体进行筛选包括:对所述候选目标实体集中的目标实体进行同存关键词筛选、基于同义词替换的同存关键词筛选、基于字符长度差的筛选中的至少一项。
9.根据权利要求3或4所述的方法,其特征在于,所述神经网络为基于Keras深度学习框架的神经网络。
10.根据权利要求1所述的方法,其特征在于,所述知识图谱为医学知识图谱。
11.一种执行如权利要求1-10中任一项所述方法的基于知识图谱的问答***,其特征在于,包括交互模块、实体链接查询模块、目标实体显示模块、知识图谱查询模块和问询结果显示模块;
所述交互模块,用于接收用户输入的问询语句;
所述实体链接查询模块,用于响应于用户的实体链接查询请求,将所述问询语句中的实体指称项在知识图谱中映射的目标实体在所述目标实体显示模块进行显示;
所述知识图谱查询模块,用于响应于用户的知识图谱查询请求,将目标实体对应的结果在所述问询结果显示模块进行显示。
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-10中任一项所述的方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一项所述的方法。
CN202010096035.5A 2020-02-17 2020-02-17 基于知识图谱的问答方法及***、计算机设备及介质 Pending CN111339267A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010096035.5A CN111339267A (zh) 2020-02-17 2020-02-17 基于知识图谱的问答方法及***、计算机设备及介质
PCT/CN2021/076049 WO2021164618A1 (zh) 2020-02-17 2021-02-08 基于知识图谱的问答方法及装置、计算机设备及介质
EP21756573.8A EP4109295A4 (en) 2020-02-17 2021-02-08 KNOWLEDGE-GRAPH BASED QUESTION-ANSWERING METHOD AND DEVICE, COMPUTER DEVICE AND MEDIUM
US17/613,629 US20220254507A1 (en) 2020-02-17 2021-02-08 Knowledge graph-based question answering method, computer device, and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010096035.5A CN111339267A (zh) 2020-02-17 2020-02-17 基于知识图谱的问答方法及***、计算机设备及介质

Publications (1)

Publication Number Publication Date
CN111339267A true CN111339267A (zh) 2020-06-26

Family

ID=71185249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010096035.5A Pending CN111339267A (zh) 2020-02-17 2020-02-17 基于知识图谱的问答方法及***、计算机设备及介质

Country Status (4)

Country Link
US (1) US20220254507A1 (zh)
EP (1) EP4109295A4 (zh)
CN (1) CN111339267A (zh)
WO (1) WO2021164618A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819577A (zh) * 2021-01-28 2021-05-18 长沙市到家悠享网络科技有限公司 依赖关系可视化方法、装置、设备和存储介质
CN112995297A (zh) * 2021-02-06 2021-06-18 四川省农业科学院农业信息与农村经济研究所 一种基于知识图谱的四川农作物育种成果服务***
WO2021164618A1 (zh) * 2020-02-17 2021-08-26 京东方科技集团股份有限公司 基于知识图谱的问答方法及装置、计算机设备及介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704494B (zh) * 2021-08-27 2024-04-05 北京百度网讯科技有限公司 基于知识图谱的实体检索方法、装置、设备以及存储介质
CN114116838B (zh) * 2021-11-22 2022-10-21 北京百度网讯科技有限公司 数据处理方法、装置、电子设备以及存储介质
CN114372133A (zh) * 2022-01-11 2022-04-19 北京百度网讯科技有限公司 查询信息问答方法、相关装置及计算机程序产品
CN116049375B (zh) * 2023-03-06 2023-05-30 环球数科集团有限公司 一种基于aigc的智能客服应答***
CN117668205B (zh) * 2024-02-02 2024-04-30 深圳市快金数据技术服务有限公司 智慧物流客服处理方法、***、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681537A (zh) * 2018-05-08 2018-10-19 中国人民解放军国防科技大学 一种基于神经网络及词向量的中文实体链接方法
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答***
US20190018839A1 (en) * 2017-07-14 2019-01-17 Guangzhou Shenma Mobile Information Technology Co., Ltd. Knowledge map-based question-answer method, device, and storage medium
CN110516260A (zh) * 2019-08-30 2019-11-29 腾讯科技(深圳)有限公司 实体推荐方法、装置、存储介质及设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035917B (zh) * 2014-06-10 2017-07-07 复旦大学 一种基于语义空间映射的知识图谱管理方法和***
US10509889B2 (en) * 2014-11-06 2019-12-17 ezDI, Inc. Data processing system and method for computer-assisted coding of natural language medical text
US10606846B2 (en) * 2015-10-16 2020-03-31 Baidu Usa Llc Systems and methods for human inspired simple question answering (HISQA)
CN106844603B (zh) * 2017-01-16 2021-05-11 竹间智能科技(上海)有限公司 实体热门度的计算方法及装置、应用方法及装置
EP3557439A1 (en) * 2018-04-16 2019-10-23 Tata Consultancy Services Limited Deep learning techniques based multi-purpose conversational agents for processing natural language queries
CN109657037A (zh) * 2018-12-21 2019-04-19 焦点科技股份有限公司 一种基于实体类型和语义相似度的知识图谱问答方法及***
CN111339267A (zh) * 2020-02-17 2020-06-26 京东方科技集团股份有限公司 基于知识图谱的问答方法及***、计算机设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190018839A1 (en) * 2017-07-14 2019-01-17 Guangzhou Shenma Mobile Information Technology Co., Ltd. Knowledge map-based question-answer method, device, and storage medium
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答***
CN108681537A (zh) * 2018-05-08 2018-10-19 中国人民解放军国防科技大学 一种基于神经网络及词向量的中文实体链接方法
CN110516260A (zh) * 2019-08-30 2019-11-29 腾讯科技(深圳)有限公司 实体推荐方法、装置、存储介质及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021164618A1 (zh) * 2020-02-17 2021-08-26 京东方科技集团股份有限公司 基于知识图谱的问答方法及装置、计算机设备及介质
CN112819577A (zh) * 2021-01-28 2021-05-18 长沙市到家悠享网络科技有限公司 依赖关系可视化方法、装置、设备和存储介质
CN112995297A (zh) * 2021-02-06 2021-06-18 四川省农业科学院农业信息与农村经济研究所 一种基于知识图谱的四川农作物育种成果服务***
CN112995297B (zh) * 2021-02-06 2022-06-03 四川省农业科学院农业信息与农村经济研究所 一种基于知识图谱的四川农作物育种成果服务***

Also Published As

Publication number Publication date
WO2021164618A1 (zh) 2021-08-26
EP4109295A1 (en) 2022-12-28
US20220254507A1 (en) 2022-08-11
EP4109295A4 (en) 2023-08-09

Similar Documents

Publication Publication Date Title
CN111339267A (zh) 基于知识图谱的问答方法及***、计算机设备及介质
US11669579B2 (en) Method and apparatus for providing search results
US11573939B2 (en) Process and apparatus for selecting an item from a database
US10262062B2 (en) Natural language system question classifier, semantic representations, and logical form templates
CN109190049B (zh) 关键词推荐方法、***、电子设备和计算机可读介质
US9305050B2 (en) Aggregator, filter and delivery system for online context dependent interaction, systems and methods
US20080189257A1 (en) World-wide classified listing search with translation
EP3958145A1 (en) Method and apparatus for semantic retrieval, device and storage medium
CN111931500B (zh) 搜索信息的处理方法、装置
TR201816343T4 (tr) Farklı bir karakter setinde yazılmış sorguları ve/veya farklı sayfalardan dili kullanarak aramaya yönelik sistemler ve yöntemler.
KR20120073229A (ko) 신뢰 질의 시스템 및 방법
US20130124194A1 (en) Systems and methods for manipulating data using natural language commands
US11030405B2 (en) Method and device for generating statement
US11651015B2 (en) Method and apparatus for presenting information
US20220129448A1 (en) Intelligent dialogue method and apparatus, and storage medium
CN112507139B (zh) 基于知识图谱的问答方法、***、设备及存储介质
US20230137487A1 (en) System for identification of web elements in forms on web pages
CN117688189B (zh) 一种融合知识图谱、知识库和大型语言模型的问答***构建方法
CN110990527A (zh) 自动问答方法及装置、存储介质及电子设备
WO2022253138A1 (zh) 文本处理方法、装置和电子设备
US20200097532A1 (en) Intelligent Normalization and De-Normalization of Tables for Multiple Processing Scenarios
CN115982322A (zh) 一种水利行业设计领域知识图谱的检索方法及检索***
US11681732B2 (en) Tuning query generation patterns
CN116226478B (zh) 信息处理方法、模型训练方法、装置、设备及存储介质
US20230005385A1 (en) Literacy Method and System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination