CN112925918B - 一种基于疾病领域知识图谱的问答匹配*** - Google Patents

一种基于疾病领域知识图谱的问答匹配*** Download PDF

Info

Publication number
CN112925918B
CN112925918B CN202110213829.XA CN202110213829A CN112925918B CN 112925918 B CN112925918 B CN 112925918B CN 202110213829 A CN202110213829 A CN 202110213829A CN 112925918 B CN112925918 B CN 112925918B
Authority
CN
China
Prior art keywords
entity
character
bert
domain
disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110213829.XA
Other languages
English (en)
Other versions
CN112925918A (zh
Inventor
倪妙玲
孙庆华
王聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110213829.XA priority Critical patent/CN112925918B/zh
Publication of CN112925918A publication Critical patent/CN112925918A/zh
Application granted granted Critical
Publication of CN112925918B publication Critical patent/CN112925918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于疾病领域知识图谱的问答匹配***,包括预处理模块、命名实体识别模块、实体链接模块及关系匹配模块,本发明解决了现有技术中通用领域的语义表示模型在疾病领域中语义表示不足,出现实体存在识别边界错误的情况,并且会进一步影响实体链接的效果,最终导致答案准确率较低的问题。

Description

一种基于疾病领域知识图谱的问答匹配***
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于疾病领域知识图谱的问答匹配***。
背景技术
问答***是自然语言处理领域中常见的一种应用,作为信息检索***的一种常见的表现形式,其可以通过对用户输入的问题进行分析,借助深度学习等算法从众多信息中迅速获取准确有效的信息返回用户,回答用户的问题,满足用户对快速获取准确信息的需求。
知识图谱以接近人类认知思维的形式对数据进行组织和理解,为互联网上海量、异构、动态的大数据管理和使用提供了一种优秀的解决方案。知识图谱综合了众多方面的技术和方法,有知识表示、知识抽取(命名实体识别、关系抽取等)、知识融合、知识存储、知识推理、图计算、可视化、语义搜索、知识问答、知识众包等。知识图谱一般遵循RDF三元组数据结构,即(s,p,o)形式,对应主实体subject、关系predicate、尾实体object。知识图谱包含数千万级或者亿级规模实体,以及数十亿或百亿事实(即属性值和与其他实体的关系),这些实体被组织在成千上万由语义体现的客观世界概念结构中。图1展示了冠心病领域知识图谱的一部分,箭头表示关系,箭头从主实体指向尾实体。圆圈表示实体或属性,实体是对客观个体的抽象,如身体部位、疾病、症状。而属性值是用来描述实体的,分为文本型和数值型,如“不能治愈”、“80%”。
基于医疗知识图谱的问答***,可以帮助用户在海量医疗数据中筛选出问题的精准答案并返回给用户,同时借助结构化的知识图谱,可为***一定的解释性。
现有技术中存在的缺陷是:
1、基于通用领域的词向量表示模型缺乏领域知识,导致原因是BERT是在通用语料上进行预训练,而疾病领域专业术语较多,实体较复杂,如“风湿性二尖瓣狭窄”本身是一个完整的实体,同时也嵌套了疾病实体“二尖瓣狭窄”,但由于风湿性二尖瓣狭窄在常见的通用训练语料上出现较少,导致对应的语义向量学习较差,仅识别出二尖瓣狭窄。
2、基于流水线的实体链接和实体识别过程存在累积错误,导致原因是流水线是指实体链接和实体识别是串行的过程,实体链接是基于实体识别的结果进行判断,导致错误传递。当实体识别模块输出错误的实体提及,会导致实体无法链接到知识图谱中真正的实体词。
发明内容
为了克服现有技术存在的两种缺陷,本发明提供一种基于疾病领域知识图谱的问答匹配***。
本发明采用如下技术方案:
一种基于疾病领域知识图谱的问答匹配***,包括:
预处理模块,用于针对用户输入的问题进行预处理,记预处理模块输出Q;
命名实体识别模块,用于确定实体提及的起始位置和结束位置,预测输出Q中各个字符作为句子实体提及开始位置和结束位置的概率,根据起始位置和结束位置的概率确定实体提及的起始位置和结束位置,该命名实体识别模块使用BERTdomain进行微调;
实体链接模块,用于将实体提及链接到疾病知识图谱中的实体词,并通过该实体词检索在疾病知识图谱中对应的所有关系;
关系匹配模块,用于将实体词对应的关系与预处理模块的输出Q进行匹配,判断是否与用户问题一致,一致则输出,且使用BERTdomain进行微调。
进一步,所述预处理包括对用户输入的文字问题使用正则化去除空格及标点符号,并且将字母统一为小写。
进一步,预测输出Q中各个字符作为句子实体提及开始位置和结束位置的概率,确定实体提及,具体为:
通过疾病领域预训练后的BERTdomain模型对预处理模块的输出Q进行编码输出特征向量,该特征向量经过两个Softmax分类层预测每个字符作为实体提及开始位置和结束位置的概率,实体开始位置和结束位置对应的字符串即为实体提及。
进一步,获取疾病疾领域的BERTdomain模型的预训练过程为:
首先将临床诊疗文献以及电子病历中疾病名称存为词典文件;
然后将临床诊疗文献以及电子病历中的文本内容按找标点符号切分为句子;
对切分后的句子使用最大词典匹配法查找句子是否包含了词典文件中的疾病词,若包含该疾病词,则将该疾病词进行遮蔽,即将该疾病词替换为MASK;对于不包含疾病词的句子,则随机遮蔽某个字符,由此构造疾病领域的MLM任务数据集;
最后通过MLM任务数据集对BERT模型进行预训练,MLM任务的目标是通过句子的上下文信息预测被替换为MASK的词,从而使得模型学习到句子的双向信息,通过MLM任务获得BERTdomain模型以及字符向量Echar
进一步,所述命名实体识别模块中使用BERTdomain进行微调,微调是在BERTdomain的基础上添加面向下游任务的网络参数,并微调整个网络的参数,命名实体识别模块是在BERTdomain的基础上分别拼接两个softmax分类层,分别用于预测输出Q中各个字符作为实体提及起始位置和结束位置的概率。另外,在微调阶段将BERTdomain原始输入中的段编码替换为分词编码。微调阶段中BERTdomain的网络参数使用预训练阶段保存的模型参数进行初始化。
进一步,命名实体识别模块实体提及起始位置和结束位置的概率采用如下公式计算:
Figure BDA0002953228470000031
其中,L是Q的字符个数,
Figure BDA0002953228470000032
表示Q中第k个字符ck的特征编码,是BERTdomain输出,hk是Softmax分类层的网络参数。
进一步,所述分词编码具体为:通过分词工具对输出Q进行切分,根据分词结果为每个字符打上一个标签,标签集合为{B,M,E,S},其中B代表这个字符是词汇的开始字符,M代表这个字符是词汇的中间字符,E代表这个字符是词汇的结束字符,而S代表单字词,对应分词编码分别为EB、EM、ES、EE
进一步,所述实体链接模块通过检索的方式实现,具体分为两阶段,离线阶段和在线查找阶段:
离线阶段:将疾病知识图谱中的实体词以及实体别名按字切分,统计TF-IDF;
对统计后的实体词建立字索引,记录出现过包含某个字的所有实体词以及该字在实体词中出现的位置信息;
在线查找阶段:用户输入的问题经过预处理得到Q,通过命名实体识别模块得到实体提及,对实体提及按字切分,查找对应的字索引。按照TF-IDF累加,按照分数从大到小排序,选取得分最高的前2个实体词作为候选实体;
计算各个候选实体与实体提及的DICE距离d1和候选实体与Q的DICE距离d2的加权和,若该加权和大于阈值则保留候选实体,否则去除候选实体。
进一步,DICE距离为:
Figure BDA0002953228470000041
X、Y、S依次表示实体词、实体提及、用户输入,α、β是参数,a∩b表示a与b的公共字符,|*|表示字符长度。
进一步,两个Softmax分类层的网络参数不同。
本发明的有益效果:
(1)本发明采用更丰富更专业的领域疾病字符表示。以往的预训练模型是使用通用的语料预训练,疾病领域中存在专业术语多,实体嵌套等问题,因此通过疾病领域的临床诊疗文献和电子病历预训练,可以获得疾病领域的字符向量表示和领域预训练模型BERT;
(2)本发明实体边界识别更精准,利用知识图谱中的实体辅助分词,按照分词结果增加了分词编码,通过分词结果辅助实体边界识别;
(3)本发明缓解实体识别和实体链接之间的耦合。实体链接使用基于检索的实体链接方法,针对实体识别的结果直接影响实体链接的结果,在计算DICE距离时,增加实体词与句子的DICE距离的计算,避免由于实体边界识别错误导致的DICE距离较小。
附图说明
图1是现有技术中冠心病领域知识图谱的局部示意图,图中示出主实体、关系、属性及尾实体的示意图;
图2是本发明的工作流程图;
图3是本发明的命名实体识别模块的示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
如图1-图3所示,一种基于疾病领域知识图谱的问答匹配***,基于已构建的疾病知识图谱,对用户提出的问题进行分析,并提供相关的答案,包括
预处理模块,用于针对用户输入的问题使用正则化去除空格、标点符号等,并且大小写统一为小写,然后记预处理模块输出为Q;
命名实体识别模块,用于确定实体提及的起始位置和结束位置,经过两个Softmax分类层预测输出Q中各个字符作为句子实体提及开始位置和结束位置的概率,根据起始位置和结束位置的概率确定对应的字符串,即为实体提及。该命名实体识别模块使用BERTdomain进行微调。
概率计算公式为:
Figure BDA0002953228470000051
其中,L是预处理模块的输出Q的字符个数,
Figure BDA0002953228470000052
表示第k个字符ck的特征编码,是BERTdomain的输出,hk是分类层的网络参数,实体开始和结束位置预测时使用的网络层仅分类层网络参数是独立的,即hk不同,而BERTdomain相同。
Figure BDA0002953228470000053
是通过领域预训练的BERTdomain获得。原始的BERT输入为:字符编码、位置编码以及段编码,命名实体模块使用BERTdomain微调。BERTdomain的输入分为3部分:字符编码、位置编码以及分词编码。其中字符编码是BERTdomain预训练得到的字符表示Echar,位置编码是各个字符的位置表示,用于BERT模型的时序判断,与原始BERT的位置编码表示相同。原始的段编码则去掉,替换为分词编码,因为命名实体识别任务是单个句子的任务,不涉及多个句子,所以不需要段编码表示每个字符属于哪个句子。
分词编码具体为:通过分词工具对输出Q进行分词,根据分词结果为每个字符打上一个标签,标签集合为{B,M,E,S},其中B代表这个字符是词汇的开始字符,M代表这个字符是词汇的中间字符,E代表这个字符是词汇的结束字符,而S代表单字词。按照分词结果,分词结果为B,对应的分词边界编码为EB,其它类似,EB、EM、ES、EE均是网络参数。通过引入分词编码,为实体边界的识别提供一定的先验知识。如用户输入“风湿性二尖瓣狭窄怎么治”,分词后“狭窄”是相连的词,将分词的结果作为命名实体识别模块的特征,可减少出现实体提及中仅包含“狭”,却不包含“窄”这类实体边界识别错误的情况。
实体链接模块是用于将实体识别模块输出的实体提及链接到知识图谱中的实体词s,该模块使用基于检索的实体链接方法实现。具体实施方法为:将知识图谱中的所有实体词以及实体别名(以下实体词指实体词以及实体别名)按字切分,统计TF-IDF(termfrequency–inverse document frequency)。TF是词频(Term Frequency),表示某个词在一篇文章中出现的频率。IDF是逆文本频率指数(Inverse Document Frequency),表示文章总数与某个词在文章出现的次数的比值,一般将该比值取对数。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并在其它文章中很少出现,则认为此词或者短语具有很好的类别区分能力。对于实体链接模块,TF表示实体词中某个字在实体词中的频率,IDF为所有实体词数量除以包含该字的实体词个数。统计后对实体词进行倒排索引,记录出现过包含某个字的所有实体词及该字在实体词中出现的位置信息。当输入实体提及,按字切分,按字获取实体词的索引,得到包含该字的各个实体词以及TF-IDF,实体词按照命中的字,对TF-IDF累加,按照分数从大到小排序,选取得分最高的前2个实体词作为候选实体词。
根据以下距离公式判断top2候选实体词是否符合。X、Y、S依次表示候选实体词、实体提及、预处理模块的输出Q,α、β是参数,a∩b表示a与b的公共字符,|*|表示字符长度。
下述公式(2)是候选实体词与实体提及的DICE距离d1和候选实体词与句子的DICE距离d2的加权和,若该加权和大于阈值则保留该候选实体词,否则去除该候选实体词。
计算时不仅关注实体提及与实体词的DICE距离d1,还关注实体与句子的DICE距离d2,在一定程度上减少由于实体提及边界漏识别导致d1较小,导致实体提及无法链接到正确的实体词。如输入“风湿性二尖瓣狭窄怎么治”,实体提及仅包含了“二尖瓣狭窄”,召回的top1实体是“二尖瓣狭窄”,top2实体是“风湿性二尖瓣狭窄”。计算d1,top1实体比top2实体得分高,而计算d2,top1实体比top2实体得分少,通过d1和d2的加权和,可以减少由于实体边界识别错误导致实体链接时错误链接到“二尖瓣狭窄”的情况。
Figure BDA0002953228470000061
实体链接模块中先根据字索引计算TF-IDF,得到两个候选实体词,根据候选实体词计算两个DICE距离的加权和,若符合阈值,就将对应的候选实体词称为实体词,实体词的数量可能为0,1,2个。
关系匹配模块是用于判断关系p是否与用户输入的意图匹配,若匹配,则知识图谱中(s,p,o)中o即为待输出的答案。关系匹配模块的具体实施方法为:根据实体链接得到的实体词,进行知识图谱的关系检索。实体词与关系进行拼接,作为句子1,用户输入作为句子2,多个关系对应有多个句子1,与BERT预训练中的NSP任务一致。使用[CLS]的字符表示作为句子的特征向量,进行Softmax分类,判断句子1(实体词与关系拼接的句子)与句子2(用户输入经过预处理的句子Q)是否在语义上相近。在关系匹配时使用实体词与关系拼接后的句子与Q进行匹配,而不是仅使用关系与去除实体提及后的非实体提及部分进行匹配。这是因为考虑到实体链接中是基于字匹配的,需要综合考虑实体和关系两部分是否与用户输入的实体和意图相匹配。而仅使用去除实体提及后的非实体提及部分进行匹配,可能会因为实体提及边界识别错误,导致非实体提及部分的语义发生影响,导致与关系的匹配度不高。选取分数最高的且概率大于阈值的关系记为p,将(s,p,o)中对应的o作为用户输入的答案。
本发明使用BERT模型有两个阶段:
阶段1:预训练阶段。通过屏蔽语言模型(masked language model,MLM)任务预训练,因为原始的BERT训练语料是通用领域的,而没有针对疾病领域的,因此对部分疾病词的字符表示效果较差。所以通过设计疾病领域的MLM任务,得到疾病领域的BERTdomain。该MLM任务的输入的编码向量与通用领域的BERT预训练中的一致,输入的编码向量为字符向量、段编码、位置向量三者的和。字符向量、段编码、位置向量均是可学习的参数,预训练结束后将输入中的字符向量Echar和模型参数保存为文件。预训练阶段BERTdomain的输入为字符向量、段编码、位置向量三者之和。输出称为字符特征向量。
阶段2:微调阶段。微调阶段是在BERTdomain的基础上添加面向下游任务的网络参数,并微调整个网络的参数。微调阶段BERTdomain的参数使用阶段1的模型参数初始化,学习率较小,一般为10^-5,而面向下游任务的网络参数则是随机初始化。根据下游任务设计新的损失函数,对模型参数进行微调,因为学习率比较小,所以下游任务模型参数调整也比较小,离模型的输出层越远的网络层参数调整越小。
对于本问答***,下游任务包括两个任务:实体识别和关系匹配。
实体识别:针对该任务,将BERTdomain输入中的段编码更改为分词编码。在BERTdomain的基础上分别拼接两个softmax分类层,分别用于预测Q中各个字符作为实体提及起始位置和结束位置的概率。BERTdomain的网络参数采用预训练阶段保存的模型参数文件进行初始化。
关系匹配:针对该任务,BERTdomain的输入不变,为字符向量、段编码、位置向量三者的和。在BERTdomain的基础上拼接一个softmax分类层,预测输出Q与【实体词+关系】是否一致。BERTdomain的网络参数采用预训练阶段保存的模型参数文件进行初始化。
本发明与现有技术不同之处在于:
(1)命名实体识别模块和关系匹配模块使用疾病领域预训练的BERT模型以及疾病领域的字符向量表示。通过MLM任务进行预训练,预训练的语料来自疾病领域的临床诊疗文献和电子病历;
(2)命名实体识别模块是单个句子任务,因此不需要段编码。同时,利用知识图谱中的实体辅助分词,按照分词结果获得分词编码。将原始的BERT模型输入中的段编码替换分词编码,通过分词结果辅助实体边界识别。
(3)实体链接模块使用基于检索的实体链接方法实现。针对实体识别的结果直接影响实体链接的结果,在计算DICE距离时,增加实体词与句子的DICE距离的计算,减少由于实体边界漏识别导致的DICE距离小于阈值。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于疾病领域知识图谱的问答匹配***,其特征在于,包括:
预处理模块,用于针对用户输入的问题进行预处理,记预处理模块输出Q;
命名实体识别模块,用于确定实体提及的起始位置和结束位置,预测输出Q中各个字符作为句子实体提及的开始位置和结束位置的概率,根据输出的开始位置和结束位置的概率确定实体提及,其中实体提及为实体开始位置和结束位置对应的字符串;该命名实体识别模块使用BERTdomain进行微调;
实体链接模块,用于将实体提及链接到疾病知识图谱中的实体词,并通过该实体词检索在疾病知识图谱中对应的所有关系;
关系匹配模块,用于将实体词对应的关系与用户输入问题进行匹配,判断是否与用户问题一致,一致则输出,且使用BERTdomain进行微调;
实体链接模块通过检索的方式实现,具体分为两阶段,离线阶段和在线查找阶段:
离线阶段:将疾病知识图谱中的实体词以及实体别名按字切分,统计TF-IDF;
对统计后的实体词建立字索引,记录出现过包含某个字的所有实体词以及该字在实体词中出现的位置信息;
在线查找阶段:用户输入的问题经过预处理得到Q,通过命名实体识别模块得到实体提及,对实体提及按字切分,查找对应的字索引,按照TF-IDF累加,按照分数从大到小排序,选取得分最高的前2个实体词作为候选实体;
计算各个候选实体与实体提及的DICE距离d1和候选实体与Q的DICE距离d2的加权和,若该加权和大于阈值则保留候选实体,否则去除候选实体;
获取疾病疾领域的BERTdomain模型的预训练过程为:
首先将临床诊疗文献以及电子病历中疾病名称存为词典文件;
然后将临床诊疗文献以及电子病历中的文本内容按标点符号切分为句子;
对切分后的句子使用最大词典匹配法查找句子是否包含了词典文件中的疾病词,若包含该疾病词,则将该疾病词进行遮蔽,即将该疾病词替换为MASK;对于不包含疾病词的句子,则随机遮蔽某个字符,由此构造疾病领域的MLM任务数据集;
最后通过MLM任务数据集对BERT模型进行预训练,MLM任务的目标是通过句子的上下文信息预测被替换为MASK的词,从而使得模型学习到句子的双向信息,通过MLM任务获得BERTdomain模型以及字符向量Echar
所述命名实体识别模块中使用BERTdomain进行微调,微调是在BERTdomain的基础上添加面向下游任务的网络参数,并微调整个网络的参数,命名实体模块是在BERTdomain的基础上分别拼接两个softmax分类层,分别用于预测输出Q中各个字符作为实体提及的起始位置和结束位置的概率,另外,在微调阶段将BERTdomain原始输入中的段编码替换为分词编码,微调阶段中BERTdomain输入中的字符编码使用预训练阶段保存的字符向量Echar进行初始化。
2.根据权利要求1所述的问答匹配***,其特征在于,所述预处理包括对用户输入的文字问题使用正则化去除空格及标点符号,并且将字母统一为小写。
3.根据权利要求1所述的问答匹配***,其特征在于,预测输出Q中各个字符作为句子实体提及的开始位置和结束位置的概率,确定实体提及,具体为:
通过疾病领域预训练后的BERTdomain模型对预处理模块的输出Q进行编码输出特征向量,该特征向量经过两个Softmax分类层预测每个字符作为实体提及开始位置和结束位置的概率,实体开始位置和结束位置对应的字符串即为实体提及。
4.根据权利要求1所述的问答匹配***,其特征在于,命名实体识别模块实体提及起始位置和结束位置的概率采用如下公式计算:
Figure FDA0004008156620000021
其中,L是Q的字符个数,
Figure FDA0004008156620000022
表示Q中第k个字符ck的特征编码,是BERTdomain输出,hk是Softmax分类层的网络参数。
5.根据权利要求1所述的问答匹配***,其特征在于,所述分词编码具体为:通过分词工具对输出Q进行分词,根据分词结果为每个字符打上一个标签,标签集合为{B,M,E,S},其中B代表这个字符是词汇的开始字符,M代表这个字符是词汇的中间字符,E代表这个字符是词汇的结束字符,而S代表单字词,对应分词编码分别为EB、EM、ES、EE
6.根据权利要求1所述的问答匹配***,其特征在于,DICE距离为:
Figure FDA0004008156620000023
X、Y、S依次表示候选实体词、实体提及、预处理模块的输出Q,α、β是参数,X∩Y表示X与Y的公共字符,X∩S表示X与S的公共字符,符号“||”表示字符长度。
7.根据权利要求3所述的问答匹配***,其特征在于,两个Softmax分类层的网络参数不同。
CN202110213829.XA 2021-02-26 2021-02-26 一种基于疾病领域知识图谱的问答匹配*** Active CN112925918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110213829.XA CN112925918B (zh) 2021-02-26 2021-02-26 一种基于疾病领域知识图谱的问答匹配***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110213829.XA CN112925918B (zh) 2021-02-26 2021-02-26 一种基于疾病领域知识图谱的问答匹配***

Publications (2)

Publication Number Publication Date
CN112925918A CN112925918A (zh) 2021-06-08
CN112925918B true CN112925918B (zh) 2023-03-24

Family

ID=76172049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110213829.XA Active CN112925918B (zh) 2021-02-26 2021-02-26 一种基于疾病领域知识图谱的问答匹配***

Country Status (1)

Country Link
CN (1) CN112925918B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420160A (zh) * 2021-06-24 2021-09-21 竹间智能科技(上海)有限公司 数据处理方法和设备
CN114723073B (zh) * 2022-06-07 2023-09-05 阿里健康科技(杭州)有限公司 语言模型预训练、产品搜索方法、装置以及计算机设备
CN116821712B (zh) * 2023-08-25 2023-12-19 中电科大数据研究院有限公司 非结构化文本与知识图谱的语义匹配方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407443A (zh) * 2016-09-28 2017-02-15 医渡云(北京)技术有限公司 一种结构化医疗数据生成方法及装置
CN110704631A (zh) * 2019-08-16 2020-01-17 北京紫冬认知科技有限公司 医疗知识图谱的构建方法及装置
CN110827941A (zh) * 2019-11-06 2020-02-21 山东众阳健康科技集团有限公司 电子病历信息校正方法及***
CN111191453A (zh) * 2019-12-25 2020-05-22 中国电子科技集团公司第十五研究所 一种基于对抗训练的命名实体识别方法
CN111914074A (zh) * 2020-07-16 2020-11-10 华中师范大学 基于深度学习与知识图谱的限定领域对话生成方法及***
CN112002411A (zh) * 2020-08-20 2020-11-27 杭州电子科技大学 一种基于电子病历的心脑血管病知识图谱问答方法
CN112131401A (zh) * 2020-09-14 2020-12-25 腾讯科技(深圳)有限公司 一种概念知识图谱构建方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102131099B1 (ko) * 2014-02-13 2020-08-05 삼성전자 주식회사 지식 그래프에 기초한 사용자 인터페이스 요소의 동적 수정 방법
CN109964224A (zh) * 2016-09-22 2019-07-02 恩芙润斯公司 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的***、方法和计算机可读介质
US10754882B2 (en) * 2017-10-24 2020-08-25 Optra Health, Inc Method of retrieving information from a health report through a machine assisted interrogation process
US11195620B2 (en) * 2019-01-04 2021-12-07 International Business Machines Corporation Progress evaluation of a diagnosis process
CN110032648B (zh) * 2019-03-19 2021-05-07 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法
CN111104498B (zh) * 2019-12-12 2023-04-25 华南理工大学 一种任务型对话***中的语义理解方法
CN110765257B (zh) * 2019-12-30 2020-03-31 杭州识度科技有限公司 一种知识图谱驱动型的法律智能咨询***
CN111444313B (zh) * 2020-03-04 2023-10-24 深圳追一科技有限公司 基于知识图谱的问答方法、装置、计算机设备和存储介质
CN111462841B (zh) * 2020-03-12 2023-06-20 华南理工大学 一种基于知识图谱的抑郁症智能诊断装置及***
CN111414393B (zh) * 2020-03-26 2021-02-23 湖南科创信息技术股份有限公司 一种基于医学知识图谱的语义相似病例检索方法及设备
CN112035635A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 医疗领域意图识别方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407443A (zh) * 2016-09-28 2017-02-15 医渡云(北京)技术有限公司 一种结构化医疗数据生成方法及装置
CN110704631A (zh) * 2019-08-16 2020-01-17 北京紫冬认知科技有限公司 医疗知识图谱的构建方法及装置
CN110827941A (zh) * 2019-11-06 2020-02-21 山东众阳健康科技集团有限公司 电子病历信息校正方法及***
CN111191453A (zh) * 2019-12-25 2020-05-22 中国电子科技集团公司第十五研究所 一种基于对抗训练的命名实体识别方法
CN111914074A (zh) * 2020-07-16 2020-11-10 华中师范大学 基于深度学习与知识图谱的限定领域对话生成方法及***
CN112002411A (zh) * 2020-08-20 2020-11-27 杭州电子科技大学 一种基于电子病历的心脑血管病知识图谱问答方法
CN112131401A (zh) * 2020-09-14 2020-12-25 腾讯科技(深圳)有限公司 一种概念知识图谱构建方法和装置

Also Published As

Publication number Publication date
CN112925918A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN112925918B (zh) 一种基于疾病领域知识图谱的问答匹配***
CN112002411A (zh) 一种基于电子病历的心脑血管病知识图谱问答方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索***
CN110765277B (zh) 一种基于知识图谱的移动端的在线设备故障诊断方法
CN117573843B (zh) 一种基于知识校准和检索增强的医疗辅助问答方法及***
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN112328800A (zh) 自动生成编程规范问题答案的***及方法
US20220114340A1 (en) System and method for an automatic search and comparison tool
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及***
CN112784532A (zh) 用于短文本情感分类的多头注意力记忆网络
Manik et al. Out-of-Scope Intent Detection on A Knowledge-Based Chatbot.
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
KR20230077588A (ko) 금융 용어 언어 모델에 기반하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법 및 시스템
CN114388141A (zh) 一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法
CN115828854B (zh) 一种基于上下文消歧的高效表格实体链接方法
Li et al. Approach of intelligence question-answering system based on physical fitness knowledge graph
Saikh et al. COVIDRead: A large-scale question answering dataset on COVID-19
CN116992002A (zh) 一种智能护理方案应答方法及***
Alwaneen et al. Stacked dynamic memory-coattention network for answering why-questions in Arabic
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN115238705A (zh) 语义解析结果重排序方法及***
Jing et al. Graph-of-Tweets: A Graph Merging Approach to Sub-event Identification
Prajapati et al. Automatic Question Tagging using Machine Learning and Deep learning Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant