CN112115238B - 一种基于bert和知识库的问答方法和*** - Google Patents

一种基于bert和知识库的问答方法和*** Download PDF

Info

Publication number
CN112115238B
CN112115238B CN202011177960.7A CN202011177960A CN112115238B CN 112115238 B CN112115238 B CN 112115238B CN 202011177960 A CN202011177960 A CN 202011177960A CN 112115238 B CN112115238 B CN 112115238B
Authority
CN
China
Prior art keywords
bert
question
answer
text
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011177960.7A
Other languages
English (en)
Other versions
CN112115238A (zh
Inventor
廖伟智
黄明彤
阴艳超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202011177960.7A priority Critical patent/CN112115238B/zh
Publication of CN112115238A publication Critical patent/CN112115238A/zh
Application granted granted Critical
Publication of CN112115238B publication Critical patent/CN112115238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于BERT和知识库的问答方法和***,应用于信息检索领域,针对现有的知识库问答***存在的缺陷,本发明构分别建基于BERT‑CRF和语言模型的命名实体识别模型,与基于BERT和语言模型的文本相似度二分类模型;并对两个模型进行训练,采用训练完成的两个模型对待解答的问题语料进行处理,能得到该问题的正确答案,并自动改写回答。

Description

一种基于BERT和知识库的问答方法和***
技术领域
本发明属于信息检索领域,特别涉及一种问答搜索技术。
背景技术
传统的问答搜索,基于关键字检索,未考虑到问题文本的语义信息。知识库问答***,提问者通过输入具体的问题文本,对问题文本在线分析处理,随后进行检索输出最匹配的答案文本,得到对提问的快速、精准回答。
知识库问答***和方法主要分为三类:
1)基于信息检索的方法
通过从问题文本中提取问题实体以及属性关系,随后在知识库中进行检索。
2)基于语义分析的方法
通过在知识库中检索问题文本的逻辑表达式,得到检索结果再转换为答案。
3)基于深度学习的方法
通过对问题文本的预处理,得到向量化的输入,同时将知识库中的三元组文本,映射到向量空间,通过相似度的分析计算,得到相似度最高的三元组结果。
现有技术缺陷:
1、基于语义分析的方法,在逻辑表达式和自然语言语义之间存在障碍;
2、基于信息检索的方法,不能分析问题文本中的语义信息,尤其不能对上下文的信息进行充分利用,得到对实体的歧义消除;
3、现有模型如CNN、RNN、Bi-LSTM等,其模型训练效果,准确度、F1值等没有BERT、Transformer等前沿模型的效果好,缺少对问题文本内部的字或词之间的相关性分析。
发明内容
为解决上述技术问题,本发明提出一种基于BERT(Bidirectional EncoderRepresentations from Transformers)和知识库的问答方法和***。
本发明采用的技术方案之一为:一种基于BERT和知识库的问答方法,包括:
A、获取用于构建知识库以及用于BERT下游任务训练的问答语料,并进行预处理;
B、根据步骤A预处理后的问答语料,构建问答知识库;
C、根据步骤A预处理后的问答语料,构建基于BERT的语言模型;
D、根据步骤C获取BERT语言模型的训练问答语料数据,进行标注,形成标注语料;
E、根据步骤C得到的BERT语言模型和步骤D预处理后的标注语料,构建基于BERT-CRF和语言模型的命名实体识别模型;
F、根据步骤C得到的BERT语言模型和步骤D预处理后的标注语料构建基于BERT和语言模型的文本相似度二分类模型;
G、利用步骤E得到的BERT-CRF(Conditional Random Fields)模型和步骤F得到的BERT和语言模型的文本属性二分类模型,使用标注的语料分别进行训练,分别得到带有参数权重的BERT-CRF语言模型和BERT文本相似度二分类模型;
H、利用步骤E、F得到带有参数权重的BERT-CRF语言模型和BERT文本相似度二分类模型,再结合步骤B得到的问答知识库,对待解答的问题语料进行处理,得到该问题的正确答案,并自动改写回答。
所述步骤A预处理后的问答语料包括:实体标注数据集合、根据实体标注数据集合得到的用来匹配句子相似度的样本集合、三元数组集合,所述三元数组集合包括问题实体、属性实体和答案文本。
步骤B采用三元数组结合构建问答知识库。
本发明采用的方案之二为:一种基于BERT和知识库的问答***,包含有:问题文本输入模块,用于输入问题文本,并将文本向量化;BERT-CRF命名实体识别模块,用于对问题文本进行命名实体识别,识别出问题实体;知识库检索模块,用于对问题实体进行检索,得到候选的三元组实体,将候选属性反馈给BERT文本属性识别模块,同时将BERT文本属性识别模块反馈回来的最佳属性结合问题实体,得到最后的最佳三元组;BERT属性识别模块,用于对候选的属性和问题文本进行相关性分析,得到最佳属性,反馈回知识库;回答生成模块,用于对知识库检索模块得到的最佳三元组改写为答案文本,输出给提问者。
本发明的有益效果:本发明的基于BERT和知识库的问答方法即***,通过结合BERT-CRF命名实体模型和BERT文本相似度二分类模型,利用多头注意力机制,更好的利用了字与字或词与词之间的关系,通过BERT词嵌入得到了更多层次的语义表示,其中BERT-CRF在命名实体识别模型在NLPCC-ICCPOL 2016KBQA公开数据集上测试的平均F1值达到了99.4%,提高了在问答过程中的识别准确性,结合检索知识库,得到更为准确的回答。
附图说明
图1为本发明的方案流程图;
图2为本发明实施例提供的BERT预训练语言模型总体构架示意图;
图3为本发明实施例提供的双向Transformer层结构示意图;
图4为本发明实施例提供的基于BERT-CRF和语言模型的命名实体识别模型;
图5为本发明实施例提供的基于BERT和语言模型的文本相似度二分类模型;
图6为本发明实施例提供的基于BERT和知识库的问答***结构框图。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
如图1所示,本发明的一种基于BERT和知识库的问答方法,包括以下步骤:
A、获取用于构建知识库以及用于BERT下游任务训练的问答语料,并进行预处理;
B、根据步骤A预处理后的问答语料,构建问答知识库,由问题实体,属性实体,答案文本组成三元组,存放为问答知识库;
C、根据步骤A预处理后的问答语料,构建基于BERT的语言模型;
D、根据步骤C获取BERT语言模型的训练问答语料数据,进行标注,形成标注语料;
E、根据步骤C得到的BERT语言模型和步骤D预处理后的标注语料构建基于BERT-CRF和语言模型的命名实体识别模型;
F、根据步骤C得到的BERT语言模型和步骤D预处理后的标注语料构建基于BERT和语言模型的文本相似度二分类模型;
G、利用步骤E得到的BERT-CRF模型和步骤F得到的BERT和语言模型的文本属性二分类模型,使用标注的语料分别进行训练,分别得到带有参数权重的BERT-CRF语言模型和BERT文本相似度二分类模型;
H、利用步骤E、F得到带有参数权重的BERT-CRF语言模型和BERT文本相似度二分类模型,再结合步骤B得到的问答知识库,对待解答的问题语料进行处理,得到该问题的正确答案,并自动改写回答。
所述步骤A中,对获取用于构建知识库以及用于BERT下游任务训练的问答语料,并进行预处理。具体包括以下步骤:
A1、将原始问答对数据切分为训练集、验证集、测试集,其中每一对数据包含有问题文本、问题实体、属性实体、答案文本这四个组成部分;
原始数据示例:
专利有哪些类型?(问题文本);专利(问题实体);类型(属性实体);发明、实用新型和外观设计(答案文本);
A2、将原始问答对数据自动生成训练集、验证集、测试集生成实体标注数据,即构建用来训练实体识别的样本集合,构造实体识别训练集、验证集、测试集,实体序列标注,用于训练BERT-CRF模型;
A3、将A2步骤中通过实体识别训练集、验证集、测试集中的数据,构建出用来匹配句子相似度的样本集合构造属性关联训练集、验证集、测试集,用于二分类任务,即用于训练BERT二分类模型;
A4、处理用于构建问答知识库的原始数据,将原始的包含有问题文本、问题实体、属性实体、答案文本的数据,处理成为干净的三元组数据集合,处理后的三元组数据集合包括有问题实体、属性实体和答案文本。
三元组数据示例:
{(问题实体),(属性实体),(答案文本)}
{专利,类型,发明、实用新型和外观设计}
将A4中处理后的三元组数据集合,加载存放进数据库中。
如步骤C所述,通过步骤A预处理后的问答语料,构建基于BERT的语言模型。步骤如下:
构建BERT预训练语言模型,该模型有着强大的语言特征提取能力,方便下游任务在线提取特征,BERT预训练语言模型总体构架如图2所示,其构建过程包括以下分步骤:
C1、构建Embedding层,所述Embedding层由三种Embedding(Token Embeddings、Segment Embeddings、Position Embeddings)求和而成:
Token Embeddings是词向量,第一个单词是CLS标志,可以用于之后的分类任务
Segment Embeddings用来区别两种句子,因为预训练不光做LM还要做以两个句子为输入的分类任务
Position Embeddings是三角函数学习出来的
C2、Masked LM,用于训练深度双向的语言表示,即遮盖住原始语料的一部分,之后再预测被遮盖住的部分词或字,随机mask每一个句子中15%的字,用其上下文来做预测,其中,80%是采用[mask],例如“专利有哪些类型?”→“专利有哪些[mask][mask]?”,10%是随机取一个词来代替mask的词,“专利有哪些类型?”→“专利有哪些地方?”,10%保持不变,“专利有哪些类型?”→“专利有哪些类型?”。
C3、构建双向Transformer层结构,是基于自注意力机制的深度网络,结构如图3所示;
该层结构的关键部分就是自注意力机制,它主要是通过同一个句子中的词与词之间的关联程度调整权重系数矩阵来获取词的表征:
Figure GDA0003868393940000051
其中:Q表示表Query向量,K表示Key向量,V表示Value向量,
Figure GDA0003868393940000052
R表示全体实数的集合,dk为Q、K的输入向量维度,
Figure GDA0003868393940000053
为惩罚因子,通过自注意力机制,关联了一个句子内的字或词语的,一定程度上表示了一句话中不同词或字的相关性。
其中每一个子层(自注意力机制层、前馈神经网络层)都会接一个残差Add模块和一个Normailize层归一化模块,即为图3中的Add&Normailize层,残差连接是为了解决网络训练困难的问题,层归一化是在最后一维上做归一化,可以防止层内的数值变化过大,加速模型的训练过程,使其更快的收敛。
步骤D获取BERT语言模型的训练问答语料数据,进行标注,形成标注语料。
D1、BERT-CRF实体识别处理语料部分采用BIO标注,因为只需标注出问题实体,不用分多个实体类型标注,统一使用一种基于字的BIO标注。示例:
专/利/有/哪/些/类/型?→B-NER/I-NER/O/O/O/O/O
D2、标注BERT属性相似度模型训练语料,采用0、1标注,同时随机自动采样5条负样本,示例如下,由“问题+属性+0/1”组成。
Figure GDA0003868393940000054
步骤E根据步骤C得到的BERT语言模型和步骤D预处理后的标注语料构建基于BERT-CRF和语言模型的命名实体识别模型,如图4所示,包括以下分步骤:
E1、构建用于下游实体识别任务的实体识别模型,BERT原理同步骤C。
E2、CRF层,通过考虑标签之间的相邻关系获得全局最优标签序列,用来分割和标记序列数据,是一种根据输入序列预测输出序列的判别式方法。CRF应用到命名实体识别中是在给定需要预测的文本序列X={x1,x2,···,xn},根据BERT模型的输出预测序列Y={y1,y2,···,yn},定义评估分数计算公式如:
Figure GDA0003868393940000061
其中,W表示标签迁移矩阵,Wi,j表示标签i转移为标签j的分数,n为序列长度,
Figure GDA0003868393940000062
表示该位置的第yi个标签的得分。
P计算概率公式表示原始序列基于预测序列的对应概率。
Figure GDA0003868393940000063
F、根据步骤C得到的BERT语言模型和步骤D预处理后的标注语料构建基于BERT和语言模型的文本相似度二分类模型;
F1、构建Bert下游任务用于属性相似度训练以及测试问题属性。结构如图5所示。
步骤G利用步骤E得到的BERT-CRF模型和步骤F得到的BERT和语言模型的文本属性二分类模型,使用标注的语料分别进行训练,分别得到带有参数权重的BERT-CRF语言模型和BERT文本相似度二分类模型;
步骤H利用步骤E、F得到带有参数权重的BERT-CRF语言模型和BERT文本相似度二分类模型,再结合步骤A得到的问答知识库,对待解答的问题语料进行处理,得到该问题的正确答案,并自动改写回答。
H1、问题文本通过带有参数权重的BERT-CRF模型,在线提取实体,查询知识库得到候选三元组{(问题实体),(属性实体),(答案文本)}。
H2、问题文本通过BERT文本属性相似度二分类模型,将属性实体与问题文本进行相关性预测,得到标签为1的匹配。
H3、得到准确的三元组文本,进行正确答案的改写,输出问题的答案。
如图6所示为本发明的***部分,包含:问题文本输入模块,用于输入问题文本,并将文本向量化;BERT-CRF命名实体识别模块,用于对问题文本进行命名实体识别,识别出问题实体;知识库检索模块,用于对问题实体进行检索,得到候选的三元组实体,将候选属性反馈给BERT文本属性识别模块,同时将BERT文本属性识别模块反馈回来的最佳属性结合问题实体,得到最后的最佳三元组;BERT属性识别模块,用于对候选的属性和问题文本进行相关性分析,得到最佳属性,反馈回知识库;回答生成模块,用于对知识库检索模块得到的最佳三元组改写为答案文本,输出给提问者。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (6)

1.一种基于BERT和知识库的问答方法,其特征在于,包括:
A、获取用于构建知识库以及用于BERT下游任务训练的问答语料,并进行预处理;
B、根据步骤A预处理后的问答语料,构建问答知识库;
C、根据步骤A预处理后的问答语料,构建基于BERT的语言模型;所述步骤C包括以下分步骤:
C1、构建Embedding层,所述Embedding层由三种Embedding求和而成,所述三种Embedding包括:Token Embeddings、Segment Embeddings、Position Embeddings;
C2、Masked LM,用于训练深度双向的语言表示,具体的:遮盖住原始语料的一部分,之后再预测被遮盖住的部分词或字,随机mask每一个句子中15%的字,用其上下文来做预测,所有原始语料中,80%是采用[mask],10%是随机取一个词来代替mask的词,剩下的10%保持不变;
C3、基于自注意力机制构建双向Transformer层结构;
D、根据步骤C获取BERT语言模型的训练问答语料数据,进行标注,形成标注语料;
E、根据步骤C得到的BERT语言模型和步骤D预处理后的标注语料,构建基于BERT-CRF和语言模型的命名实体识别模型;
F、根据步骤C得到的BERT语言模型和步骤D预处理后的标注语料构建基于BERT和语言模型的文本相似度二分类模型;
G、利用步骤E得到的BERT-CRF模型和步骤F得到的BERT和语言模型的文本属性二分类模型,使用标注的语料分别进行训练,分别得到带有参数权重的BERT-CRF语言模型和BERT文本相似度二分类模型;
H、利用步骤E、F得到带有参数权重的BERT-CRF语言模型和BERT文本相似度二分类模型,再结合步骤B得到的问答知识库,对待解答的问题语料进行处理,得到该问题的正确答案,并自动改写回答。
2.根据权利要求1所述的一种基于BERT和知识库的问答方法,其特征在于,所述步骤A预处理后的问答语料包括:实体标注数据集合、根据实体标注数据集合得到的用来匹配句子相似度的样本集合、三元数组集合,所述三元数组集合包括问题实体、属性实体和答案文本。
3.根据权利要求1所述的一种基于BERT和知识库的问答方法,其特征在于,步骤B采用三元数组结合构建问答知识库。
4.根据权利要求1所述的一种基于BERT和知识库的问答方法,其特征在于,所述自注意力机制,通过同一个句子中的词与词之间的关联程度调整权重系数矩阵来获取词的表征:
Figure FDA0003868393930000021
其中:Q表示表Query向量,K表示Key向量,V表示Value向量,dk为Q、K的输入向量维度,
Figure FDA0003868393930000022
为惩罚因子。
5.根据权利要求1所述的一种基于BERT和知识库的问答方法,其特征在于,步骤D包括:
D1、BERT-CRF实体识别处理语料部分采用BIO标注;
D2、标注BERT属性相似度模型训练语料,采用0、1标注。
6.一种基于BERT和知识库的问答***,其特征在于,包括:问题文本输入模块、BERT-CRF命名实体识别模块、知识库检索模块、BERT属性识别模块、回答生成模块;
BERT-CRF命名实体识别模块的构建过程为:
C1、构建Embedding层,所述Embedding层由三种Embedding求和而成,所述三种Embedding包括:Token Embeddings、Segment Embeddings、Position Embeddings;
C2、Masked LM,用于训练深度双向的语言表示,具体的:遮盖住原始语料的一部分,之后再预测被遮盖住的部分词或字,随机mask每一个句子中15%的字,用其上下文来做预测,所有原始语料中,80%是采用[mask],10%是随机取一个词来代替mask的词,剩下的10%保持不变;
C3、基于自注意力机制构建双向Transformer层结构;
所述问题文本输入模块,用于输入问题文本,并将文本向量化;BERT-CRF命名实体识别模块,用于对问题文本进行命名实体识别,识别出问题实体;知识库检索模块,用于对问题实体进行检索,得到候选的三元组实体,将候选属性反馈给BERT属性识别模块,同时将BERT属性识别模块反馈回来的最佳属性结合问题实体,得到最后的最佳三元组;BERT属性识别模块,用于对候选的属性和问题文本进行相关性分析,得到最佳属性,反馈回知识库;回答生成模块,用于对知识库检索模块得到的最佳三元组改写为答案文本,输出给提问者。
CN202011177960.7A 2020-10-29 2020-10-29 一种基于bert和知识库的问答方法和*** Active CN112115238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011177960.7A CN112115238B (zh) 2020-10-29 2020-10-29 一种基于bert和知识库的问答方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011177960.7A CN112115238B (zh) 2020-10-29 2020-10-29 一种基于bert和知识库的问答方法和***

Publications (2)

Publication Number Publication Date
CN112115238A CN112115238A (zh) 2020-12-22
CN112115238B true CN112115238B (zh) 2022-11-15

Family

ID=73794987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011177960.7A Active CN112115238B (zh) 2020-10-29 2020-10-29 一种基于bert和知识库的问答方法和***

Country Status (1)

Country Link
CN (1) CN112115238B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667808A (zh) * 2020-12-23 2021-04-16 沈阳新松机器人自动化股份有限公司 一种基于bert模型的关系抽取方法及其***
CN112765314B (zh) * 2020-12-31 2023-08-18 广东电网有限责任公司 一种基于电力本体知识库的电力信息检索方法
CN112733541A (zh) * 2021-01-06 2021-04-30 重庆邮电大学 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法
CN113360606A (zh) * 2021-06-24 2021-09-07 哈尔滨工业大学 一种基于Filter的知识图谱问答联合训练方法
CN113553410B (zh) * 2021-06-30 2023-09-22 北京百度网讯科技有限公司 长文档处理方法、处理装置、电子设备和存储介质
CN113435213B (zh) * 2021-07-09 2024-04-30 支付宝(杭州)信息技术有限公司 针对用户问题和知识库返回答案的方法和装置
CN113689851B (zh) * 2021-07-27 2024-02-02 国家电网有限公司 调度专业语言理解***及方法
CN113642862A (zh) * 2021-07-29 2021-11-12 国网江苏省电力有限公司 基于bert-mbigru-crf模型的电网调度指令命名实体识别方法及***
CN113808709B (zh) * 2021-08-31 2024-03-22 天津师范大学 一种基于文本分析的心理弹性预测方法及***
CN114398256B (zh) * 2021-12-06 2024-06-04 南京行者易智能交通科技有限公司 一种基于Bert模型的大数据自动测试方法
CN114417880A (zh) * 2021-12-31 2022-04-29 福建亿榕信息技术有限公司 一种基于电网实训问答知识库的交互式智能问答方法
CN115422934B (zh) * 2022-07-08 2023-06-16 中国科学院空间应用工程与技术中心 一种航天文本数据的实体识别与链接方法、***
CN116089594B (zh) * 2023-04-07 2023-07-25 之江实验室 基于bert问答模型从文本中抽取结构化数据的方法和装置
CN116595148B (zh) * 2023-05-25 2023-12-29 北京快牛智营科技有限公司 一种利用大型语言模型实现对话流程的方法及***
CN116756295B (zh) * 2023-08-16 2023-11-03 北京盛通知行教育科技集团有限公司 知识库的检索方法、装置及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390023A (zh) * 2019-07-02 2019-10-29 安徽继远软件有限公司 一种基于改进bert模型的知识图谱构建方法
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN111027595A (zh) * 2019-11-19 2020-04-17 电子科技大学 双阶段语义词向量生成方法
CN111090990A (zh) * 2019-12-10 2020-05-01 中电健康云科技有限公司 一种医疗体检报告单文字识别及纠正方法
CN111414465A (zh) * 2020-03-16 2020-07-14 北京明略软件***有限公司 基于知识图谱的问答***中的处理方法和装置
CN111563383A (zh) * 2020-04-09 2020-08-21 华南理工大学 一种基于BERT与SemiCRF的中文命名实体识别方法
CN111680511A (zh) * 2020-04-21 2020-09-18 华东师范大学 一种多神经网络协作的军事领域命名实体识别方法
CN111767368A (zh) * 2020-05-27 2020-10-13 重庆邮电大学 一种基于实体链接的问答知识图谱构建方法及存储介质
CN111831792A (zh) * 2020-07-03 2020-10-27 国网江苏省电力有限公司信息通信分公司 一种电力知识库构建方法及***

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442676A (zh) * 2019-07-02 2019-11-12 北京邮电大学 基于多轮对话的专利检索方法及装置
CN110765257B (zh) * 2019-12-30 2020-03-31 杭州识度科技有限公司 一种知识图谱驱动型的法律智能咨询***
CN111159385B (zh) * 2019-12-31 2023-07-04 南京烽火星空通信发展有限公司 一种基于动态知识图谱的无模板通用智能问答方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390023A (zh) * 2019-07-02 2019-10-29 安徽继远软件有限公司 一种基于改进bert模型的知识图谱构建方法
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN111027595A (zh) * 2019-11-19 2020-04-17 电子科技大学 双阶段语义词向量生成方法
CN111090990A (zh) * 2019-12-10 2020-05-01 中电健康云科技有限公司 一种医疗体检报告单文字识别及纠正方法
CN111414465A (zh) * 2020-03-16 2020-07-14 北京明略软件***有限公司 基于知识图谱的问答***中的处理方法和装置
CN111563383A (zh) * 2020-04-09 2020-08-21 华南理工大学 一种基于BERT与SemiCRF的中文命名实体识别方法
CN111680511A (zh) * 2020-04-21 2020-09-18 华东师范大学 一种多神经网络协作的军事领域命名实体识别方法
CN111767368A (zh) * 2020-05-27 2020-10-13 重庆邮电大学 一种基于实体链接的问答知识图谱构建方法及存储介质
CN111831792A (zh) * 2020-07-03 2020-10-27 国网江苏省电力有限公司信息通信分公司 一种电力知识库构建方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于机器阅读理解的中文智能问答技术研究与实现;贾欣;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200715;I138-1594 *

Also Published As

Publication number Publication date
CN112115238A (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN112115238B (zh) 一种基于bert和知识库的问答方法和***
CN111444721B (zh) 一种基于预训练语言模型的中文文本关键信息抽取方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN112989834B (zh) 一种基于平格增强线性转换器的命名实体识别方法和***
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN109271537B (zh) 一种基于蒸馏学习的文本到图像生成方法和***
CN111914556B (zh) 基于情感语义转移图谱的情感引导方法及***
CN111858896B (zh) 一种基于深度学习的知识库问答方法
CN114239585B (zh) 一种生物医学嵌套命名实体识别方法
CN112270188B (zh) 一种提问式的分析路径推荐方法、***及存储介质
CN113962219A (zh) 面向电力变压器知识检索和问答的语义匹配方法及***
CN112328800A (zh) 自动生成编程规范问题答案的***及方法
CN116127090B (zh) 基于融合和半监督信息抽取的航空***知识图谱构建方法
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及***
CN114491024A (zh) 一种基于小样本的特定领域多标签文本分类方法
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN112988970A (zh) 一种服务于智能问答***的文本匹配算法
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN114493783A (zh) 一种基于双重检索机制的商品匹配方法
CN117236338B (zh) 一种稠密实体文本的命名实体识别模型及其训练方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配***及方法
CN117454898A (zh) 一种根据输入文本实现法人实体标准化输出的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant