CN110502621B

CN110502621B - 问答方法、问答装置、计算机设备及存储介质

Info

Publication number: CN110502621B
Application number: CN201910593110.6A
Authority: CN
Inventors: 朱威; 梁欣; 李春宇; 丁佳佳; 倪渊; 谢国彤
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2023-06-13
Anticipated expiration: 2039-07-03
Also published as: CN110502621A; WO2021000676A1

Abstract

本发明公开了问答方法、装置、计算机设备及存储介质，包括：获取用户的输入信息；识别输入信息中的命名实体，并将命名实体链接至中文知识图谱中与命名实体相对应的候选实体，形成实体对，其中实体对包括命名实体和候选实体；通过关系模型在中文知识图谱中匹配出候选实体的候选关系；根据实体对和候选关系，形成候选三元组，其中候选三元组包括命名实体、候选实体及候选关系；基于学习排序模型，获取各候选三元组相对应的排序结果；及根据排序结果，查询所述中文知识图谱，以获取输入信息的答案。该方法可以有效利用外部资源，通过文本挖掘可以提供大量的语境信息，并且基于学习排序模型，在问答语料数据较少时也可以获得较好的回答。

Description

问答方法、问答装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种问答方法、问答装置、计算机设备及存储介质。

背景技术

问答***是信息检索***的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题。传统的问答***分为问句处理和答案检索两大部分。其中，问句处理的基础是分词。答案检索多采用评分机制，即从海量文本数据中选取一系列候选答案，然后构建选择函数从候选答案中选取最接近的答案。而这种传统的问答装置因为在处理长文本名词和构建的选择函数的不同而出现不同程度的错误。

在这种情况下，基于知识图谱的问答***应运而生。目前，基于知识图谱的问答***主要的研究方向有三类。第一类：规则型，这一类型通过固定的规则来判定一个用户问句是否是在询问知识库中的某个事实。第二类：模板学习，这一类型收集大量模板，通过已经标注好对应的知识库事实，并通过大量数据学习一个自然语言问句对应某个模板的概率。第三类：基于深度学习的语义匹配，通过神经网络模型，学习一个问句与知识图谱中某个关系的语义相似度，其中问句已做过实体识别并将问句中实体用特殊符号代替。

规则型的知识库问答***精确度很高，但是并不灵活，每一类问题都需要写一个规则，而模板学习和深度学习方法往往需要根据大规模问答语料进行学习，难以在开发初期就应用在一个问答数据匮乏的垂直领域。

发明内容

有鉴于此，本发明提出一种问答方法、问答装置、计算机设备及存储介质，能够在问答语料数据较少的情况下，得到一个准确的回答。

首先，为实现上述目的，本发明提出一种问答方法，该问答方法包括步骤：

获取用户的输入信息；

识别所述输入信息中的命名实体，并将所述命名实体链接至所述中文知识图谱中与所述命名实体相对应的候选实体，形成实体对，其中所述实体对包括所述命名实体和所述候选实体；

通过关系模型在所述中文知识图谱中匹配出所述候选实体的候选关系；

根据所述实体对和所述候选关系，形成候选三元组；其中所述候选三元组包括所述命名实体、所述候选实体及所述候选关系；

基于学习排序模型获取各所述候选三元组相对应的排序结果；及

根据所述排序结果查询所述中文知识图谱，以获取所述输入信息的答案。

进一步地，所述识别所述输入信息中的命名实体具体包括：

对所述输入信息进行标注，获取标注结果；及

根据所述标注结果，通过循环神经网络模型识别出所述输入信息中的命名实体。

进一步地，所述识别所述输入信息中的命名实体，并将所述命名实体链接至所述中文知识图谱中与所述命名实体相对应的候选实体，形成实体对的步骤包括：

计算各所述实体对中所述命名实体与所述候选实体之间的相似度，其中所述相似度是根据汉字字符相似度、拼音字符相似度、词向量相似度及实体受关注度得到的；

根据各所述相似度对各实体对排序，以获取各所述实体对对应的排列名次；及

根据所述排列名次选取相对应的所述实体对。

进一步地，所述关系模板包括第一实体、第二实体及第一实体与第二实体之间的关系。

进一步地，所述基于学习排序模型，获取各所述候选三元组相对应的排序结果具体包括：

计算各所述三元组相对应的各特征向量；及

将各所述特征向量输入至所述学习排序模型中以获取各所述候选三元组相对应的排序结果。

进一步地，所述计算各所述三元组的各特征向量的步骤包括：

根据所述三元组计算所述命名实体与所述候选实体之间的第一相似度特征；

除去所述输入信息中的所述命名实体以获取剩余词语，并计算所述剩余词语与同义词以及上下文词汇之间的第二相似度特征；

根据所述输入信息生成高维向量，其中所述高维向量是依据所述输入信息中是否存在预设词汇生成的；及

根据所述第一相似度特征、所述第二相似度特征和所述高维向量，生成所述特征向量。

进一步地，所述学习排序模型是通过训练第一样本和各所述候选三元组所形成的第二样本得到的，其中第一样本是由所述输入信息的标准答案构成的三元组。

一种基于学习排序的中文知识图谱的问答装置，所述问答装置包括：

第一获取模块，用于获取用户的输入信息；

识别及链接模块，用于识别所述输入信息中的命名实体，并将所述命名实体链接至所述中文知识图谱中与所述命名实体相对应的候选实体，形成实体对，其中所述实体对包括所述命名实体和所述候选实体；

匹配模块，用于通过关系模型在所述中文知识图谱中匹配出所述候选实体的候选关系；

形成模块，用于根据所述实体对和所述候选关系，形成候选三元组；其中所述候选三元组包括所述命名实体、所述候选实体及所述候选关系；

第二获取模块，用于基于学习排序模型获取各所述候选三元组相对应的排序结果；及

第三获取模块，用于根据所述排序结果查询所述中文知识图谱，以获取所述输入信息的答案。

为实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

为实现上述目的，本发明还提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

相较于传统技术，本发明所提出的基于知识图谱的问答方法、计算机设备及存储介质，能够有效的利用外部资源，通过宽度学习模型有效利用关系事实的同义词或上线文词等外部资源，这一部分外部资源可以通过文本挖掘或者直接利用中文词体等方式快速得到。也通过宽度学习模型和深度学习模型的结合，能够降低模型所需的数据量，在训练数据较少的时候也能得到较好的输出结果，这在开发新的垂直领域的知识图谱问答的时候有着非常重要的意义。

附图说明

图1是本发明第一实施例之问答方法的流程示意图；

图2是本发明第二实施例之问答方法的流程示意图；

图3是本发明第三实施例之问答方法的流程示意图；

图4是本发明第四实施例之问答方法的流程示意图；

图5是本发明第五实施例之问答方法的流程示意图；

图6是本发明第六实施例之问答装置的方框示意图；

图7是本发明第七实施例之问答装置的方框示意图；及

图8是本发明第八实施例之问答装置中同义词收集单元的方框示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

请参考图1，第一实施例中提供了一种问答方法。该问答方法包括：

步骤S110:获取用户的输入信息。

其中，输入信息可以是自然查询语句(如问句)，如用户在搜索网站上输入问句：“咳嗽需要吃什么药？”本实施例对获取输入信息的方式不做限定。

步骤S120:识别所述输入信息中的命名实体，并将所述命名实体链接至所述中文知识图谱中的候选实体，形成实体对，其中所述实体对包括所述命名实体和所述候选实体。

具体地，通过利用标注集方法、循环神经网络模型对输入信息进行序列标注，再根据序列标注的结果从而完成命名实体的识别(具体步骤将在第二实施例中详细介绍)。例如“咳嗽需要吃什么药？”，先通过BIO标注集方法对其进行标注，根据标注结果获取该问句的向量信息，再将该向量信息作为循环神经网络模型的输入，从而识别出“咳嗽“这一命名实体。接着，将该命名实体对应到中文知识图谱中的全局唯一标识符(Globally UniqueIdentifier,GUID)，从而将该命名实体链接到知识图谱中对应的候选实体，如咳嗽。另外，知识图谱中的每个候选实体都唯一对应一个GUID，通过该GUID可以区分中文知识图谱中的不同候选实体。

其中，中文知识图谱是一种储存复杂结构化信息的新型技术。中文知识图谱中存储了大量事实型知识，其内部存储了实体及实体间的关系信息。中文知识图谱多以RDF(Resource Description Framework)的格式存储数据，一条事实被表示为一个(S,P,O)三元组，形如(subject，predicate，object)，其中S和O表示为实体，O有时也表示为属性值，P表示S和O之间的关系。实体链接是解决命名实体歧义问题的一种重要方法，该方法通过将具有歧义的实体指称项链接到给定的知识图谱中从而实现实体歧义的消除。

另外，由于命名实体均存在别名或其他信息，中文知识图谱中的每个候选实体及其对应的名字和别名，获取别名信息，反向构建别名到候选实体的词典用于实体链接。构建词典时，需要对别名字符串进行统一化处理，比如转换为小写字符，删去特殊字符等，并且通过获取实体在知识图谱种出现的频率作为知名度对别名词典中的实体进行排序。识别出命名实体识别后，我们使用命名实体在别名词典中查找得到候选实体，并且根据实体的知名度选取排名靠前的作为候选实体。

步骤S130:通过关系模板在所述中文知识图谱中匹配出所述候选实体的候选关系。

具体地，关系模板通过自然语言理解技术理解用户的输入信息(如问句)所表达的语义，并与中文知识图谱中的三元组(S，P，O)中的关系P进行匹配，以此确定该输入信息所表达的语义与中文知识图谱中对应的候选关系。其中，关系模板包括第一实体、第二实体及第一实体与第二实体之间的关系。关系模板是通过在中文知识图谱中提取一些三元组，并从这些三元组中提取关系信息，从而根据这些关系信息经过训练得到与这些关系信息对应的关系模板。

步骤S140:根据所述实体对和所述候选关系，形成候选三元组；其中所述候选三元组包括所述命名实体、所述候选实体及所述候选关系。

具体地，利用上述步骤所识别出的命名实体，该命名实体在中文知识图谱中对应的候选实体以及候选关系，从而形成各候选三元组。

步骤S150:基于学习排序模型获取各所述候选三元组相对应的排序结果。

具体地，将各候选三元组转换为相应的向量信息，并作为学习排序模型的输入，经过该学习排序模型的一系列计算，从而输出与各候选三元组相对应的排序结果。其中排序结果可根据排名越靠前越准确，排名越靠后越不准确的规则进行排列，也可以是其他方式，本实施例不做限定。

其中，学习排序模型是利用学习排序算法进行计算的。学习排序算法(Learningtorank，LTR)是一种监督学习(SupervisedLearning，SL)的排序方法。LTR一般说来有三类方法：单文档方法(Pointwise)，文档对方法(Pairwise)，文档列表方法(Listwise)。本实施例中学习排序算法采用的是文档对方法(Pairwise)。

在一实施例中，学习排序模型是通过训练第一样本和各候选三元组所形成的第二样本得到的，其中第一样本是由所输入信息的标准答案构成的三元组。例如，根据一个问句的标准答案的三元组(命名实体、候选实体、候选关系)，在中文知识图谱中随机采取10个候选实体，在依据这个候选实体采集候选关系，最终得到50个三元组(命名实体、候选实体、候选关系)组成的负样本(N)。其中该标准答案的三元组(命名实体、候选实体、候选关系)为正样本(P)。将该正样本(P)与负样本(N)中的一个结合，生成两个样本，即即(P，N)样本和(N，P)样本。(P，N)样本的标签为1，(N，P)样本的标签为0。学习排序模型可根据该样本训练并得到。

步骤S160:根据所述排序结果查询所述中文知识图谱，以获取所述输入信息的答案。

具体地，根据各候选三元组的排序结果，选取排名在预设值之前的候选三元组，再将所选取的这些候选三元组转换为中文知识图谱中的查询语言，从而在中文知识图谱中执行该查询语句，查询后返回该输入信息对应的答案。

总之，该问答方法可以利用学习排序模型有效地利用外部资源，在问答语料数据较少的情况下，对于用户的问题也能获得准确的回答。

在第二实施例中，请参考图2，第一实施例中的步骤S120中识别所述输入信息中的命名实体这一步骤包括：

步骤S210，对所述输入信息进行标注，获取标注结果。

假设用户输入的问句为q：X＝(x₁,x₂,…,x_n),x_i表示问句中的每个词，使用BIEO标注方法标注问句中的每个字，“B”是命名实体的开始，“I”表示命名实体内部，“E”表示命名实体的结束，“O”表示不是命名实体。Y＝(y₁,y₂,…,y_n)表示标注结果，通过该标注方法得到的标注结果的得分为：

其中矩阵P∈R^K×n即为条件随机场的状态特征矩阵，P_i，j表示句子中的第j个字被标注为第i种标签的得分，A∈R^(K+2)×(k+2)表示状态转移矩阵，其元素A_i，j表示从第i种标签转移到第j种标签的得分。标注方法也可以是其他标注方法，如BIO，BIOES等，本实施例不做限定。例如，通过BIEO标注集方法对问句的标注情况如下：钓(O)鱼(O)比(O)赛(O)在(O)厦(B-LOC)门(I-LOC)市(E-LOC)举(O)行(O)。采用标注集是为了尽可能的减少噪点，从而识别及提取出的实体准确率更高。

步骤S220，根据所述标注结果，通过循环神经网络模型，识别出所述输入信息中的命名实体。

具体地，将上述步骤中的标注结果，从而获取到每个字的标注结果，再根据该标注结果，获得每个字的向量信息。例如，将每个字的标注结果转换为one-hot向量，再将每个字的one-hot向量映射为低维稠密的字向量，然后将该句子中的每个字的字向量进行依次组合排列，从而获得整个句子的向量信息。再将整个句子的向量信息输入至循环神经网络模型中，即可识别出问句中的命名实体。其中循环神经网络模型可计算出问句中的输入信息中的每个字对应的标签的概率并获得最优标签序列。其中该最优标签序列即为识别出的命名实体。循环神经网络模型可以是双向长短时记忆循环神经网络模型，也可以是条件随机场模型等，本实施例对其不做限定。

在第三个实施例中，请参考图3，第一个实施例中步骤S130之后，所述问答方法还包括：

步骤S310，计算各所述实体对中所述命名实体与所述候选实体之间的相似度，其中所述相似度是根据汉字字符相似度、拼音字符相似度、词向量相似度及实体受关注度得到的。

具体地，计算出实体对中命名实体与候选实体之间的汉字字符相似度、拼音字符相似度、词向量相似度及实体受关注度，综合各相似度从而得到各实体对相对应的相似度。其中，相似度越高说明命名实体与候选实体之间越相似。计算相似度的方法有基于词袋模型的，通过将命名实体和候选实体向量化之后，转化为计算空间中的距离，距离越小相似度越高；也有计算两个向量间夹角的余弦。该余弦的大小可直接反映相似度，即余弦越小相似度越高；本实施例对计算相似度的方法不做限定。本实施例通过在汉字字符、拼音字符、词向量及关注度等不同方面分别计算相似度，最后再综合得到相似度，从而可以更准确的判断命名实体与候选实体之间的相似程度，也有利于找到最优的候选实体。

步骤S320，根据各所述相似度对各实体对排序，以获取各所述实体对对应的排列名次。

具体地，根据上述步骤计算出来的相似度，从而按照相似度的大小对各实体对进行排序，进而得到各实体对在所有实体对中的排列名次。其中，相似度越高，说明候选实体与命名实体的匹配程度越高，相似度越低说明候选实体与命名实体的匹配程度越低。

步骤S330，根据所述排列名次选取相对应的所述实体对。

具体地，选取排列名次在预设名次之前的各实体对。其中，预设名次可根据实际情况进行设定。在本实施例中，预设名次为第10名，从而可以选取出排名前十的实体对，所选取的实体对中的候选实体也更接近输入信息中的命名实体。

在第四个实施例中，请参考图4，第一个实施例中步骤S150包括；

步骤S410，计算各所述三元组相对应的各特征向量。

具体地，将各三元组中的命名实体，候选实体及候选关系转换为one-hot向量，再映射为低维稠密的字向量，最后再对每个字向量进行排列，获取到每个三元组的特征向量。

步骤S420，将各所述特征向量输入至所述学习排序模型中以获取各所述候选三元组相对应的排序结果。

具体地，将各特征向量作为学习排序模型的输入，经过学习排序模型的计算，输出各三元组相对应的排序结果。

在第五个实施例中，请参考图5，第四个实施中步骤S410包括：

步骤S510，根据所述三元组计算所述命名实体与所述候选实体之间的第一相似度特征。

具体地，对于三元组(命名实体、候选实体、候选关系)，计算命名实体与候选实体之间的第一相似度特征。其中该第一相似度特征可以为相似值。

步骤S520，除去所述输入信息中的所述命名实体以获取剩余词语，并计算所述剩余词语与同义词以及上下文词汇之间的第二相似度特征。

具体地，将用户所输入的输入信息中除去词组中的词，获取到所剩余的的一些字或词，计算这些字或词与相邻的词组中的词的相似度特征，还计算这些字或词与其同义词的相似度特征，两部分相似度特征结合从而获得第二相似度特征。

步骤S530，根据所述输入信息生成高维向量，其中所述高维向量是依据所述输入信息中是否存在预设词汇生成的。

具体地，对于用户输入的自然语言问句，根据该问句中的字是否出现在预设词汇中，从而生成与该问句相应的高维向量。其中该高维向量中的每一个位置都代表一个字，如果该自然语言问句中存在该字，那么在该位置的值为1，否则为0。例如用户输入“阿司匹林是哪些病人吃的”，如果只有阿司匹林这四个字存在于预设词汇中，那么该问句所对应的高维向量就是在阿司匹林这四个字出现的位置为1，其他均为0，该高维向量的维度可根据实际情况设定。

步骤S540，根据所述第一相似度特征、所述第二相似度特征和所述高维向量，生成所述特征向量。

具体地，将第一相似度特征值、第二相似度特征和高维向量进行拼接，从而获取到最终的特征向量。

在第六个实施例中，请参考图6，提供了一种基于学习排序的中文知识图谱的问答装置600。该问答装置600包括：

第一获取模块610，用于获取用户的输入信息。

识别及链接模块620，用于识别所述输入信息中的命名实体，并将所述命名实体链接至所述中文知识图谱中与所述命名实体相对应的候选实体，形成实体对，其中所述实体对包括所述命名实体和所述候选实体。

具体地，通过利用标注集方法、循环神经网络模型对输入信息进行序列标注，再根据序列标注的结果完成命名实体的识别(具体步骤将在第二实施例中详细介绍)。例如“咳嗽需要吃什么药？”，先通过BIO标注集方法对其进行标注，根据标注结果获取该问句的向量信息，再将该向量信息作为循环神经网络模型的输入，从而识别出“咳嗽“这一命名实体。接着，将该命名实体对应到中文知识图谱中的全局唯一标识符(Globally UniqueIdentifier,GUID)，从而将该命名实体链接到知识图谱中对应的候选实体。另外，知识图谱中的每个候选实体都唯一对应一个GUID，通过该GUID可以区分中文知识图谱中的不同候选实体。

匹配模块630，用于通过关系模型在所述中文知识图谱中匹配出所述候选实体的候选关系。

具体地，关系模板通过自然语言理解技术理解用户的输入信息(如问句)所表达的语义，并与中文知识图谱中的三元组(S，P，O)中的关系P进行匹配，以此确定该输入信息所表达的语义与中文知识图谱中对应的候选关系。其中，关系模板是通过在中文知识图谱中提取一些三元组，并从这些三元组中提取关系信息，从而根据这些关系信息经过训练得到与这些关系信息对应的关系模板。

形成模块640，用于根据所述实体对和所述候选关系，形成候选三元组；其中所述候选三元组包括所述命名实体、所述候选实体及所述候选关系。

第二获取模块650，用于基于学习排序模型获取各所述候选三元组相对应的排序结果。

具体地，将各候选三元组作为学习排序模型的输入，经过该学习排序模型的一系列计算，从而输出与各候选三元组相对应的排序结果。其中排序结果可根据排名越靠前越准确，排名越靠后越不准确的规则进行排列，也可以是其他方式，本实施例不做限定。

第三获取模块660，用于根据所述排序结果查询所述中文知识图谱，以获取所述输入信息的答案。

另外，请参考图7，基于学习排序的中文知识图谱的问答装置600还包括线下模块700，该线下模块700用于为上述问答装置的运行做准备。

线下模块700包括实体提及率单元710、同义词收集单元720、上下文挖掘单元730、问题模板单元740及学习排序单元750。

实体提及率单元710用于对中文知识图谱中的候选实体被提及次数进行打分。具体地，给中文知识图谱中的候选实体进行提及率打分，其中该提及率表示该候选实体受用户的关注程度。这一部分可以借助已经做好的提及率排名(例如：患者最关心的药品排行榜)，也可以通过爬取网上用户提问，计算实体被用户提及的频率。

同义词收集单元720用于收集中文知识图谱中每个候选关系的关系名称，其中关系名称包括标准名称和标准名称的同义词。

具体地，中文知识图谱中每个候选关系有一个标准名称，例如“xx药品治疗xx疾病”这个关系，标准名称叫……适应症……，但是由于中文自然语言的多样性，用户可能会说“xx药主治什么”,“xx药功能是什么”等等。所以需要收集关系名称(或者关系谓词)的同义词。该同义词收集单元612用于收集中文知识图谱中每个候选关系的关系名称，这个关系名称包括标准名称和该标准名称的同义词，从而确保后期问答的准确性。

上下文挖掘单元730用于基于文本挖掘方法，找出中文知识图谱中两个候选实体之间的连接关系。具体地，上下文挖掘单元完全基于远程监督的文本挖掘。在两个候选实体间的连接关系(考虑最长2跳的三元组事实)可能有多个。在专业领域的文本集中，找到这两个候选实体同时出现的一句话，对这句话做依存语法树分析，如果这两个实体在依存语法树上的最小路径长度小于等于4，则这个最短路径上的词就作为这两个候选实体间关系(可能有多个)的上下文词(如果这个词不是关系的同义词的话)。专业领域一般文本资料(如专业文献等)数据充分，但是问答语料(特别是适宜于目前知识图谱的问答语料)可能相对稀缺。通过文本挖掘，可以为该问答装置提供大量语境信息，从而有效的利用外部资源。

问题模板单元740用于将问句划分为预先定义的问句形式。具体地，将问句按照预先定义的问句形式进行划分，这样在中文知识图谱中的搜索也更方便、更高效。这一步可以规定所比较的关系空间是距离主体实体两跳或者三跳之内。

学习排序单元750用于根据问句获取训练数据。具体地，学习排序单元根据问句获取到训练数据，基于pairwise learning to rank这样一个排序算法。虽然可能问答预料数据较少，但是却可以通过生成负样本的方式扩大训练数据，得到一个性能较好的问答模型。

其中，请参考图8，同义词收集单元720包括标注子单元721、记录频率子单元722及人工审核子单元723。

标注子单元721用于标注问句中的实体与知识图谱中候选实体的关系。记录频率子单元722用于去掉问句中的实体名称、停用词及标点符号，获取剩余词语，利用词频-逆文本频率方法，对所述剩余词语打分，获取剩余词语的分值，记录分值超过预设值的剩余词语。

具体地，记录频率子单元722通过去掉问句中的实体名称、停用词及标点符号后，获取到问句中的剩余词语，利用词频-逆文本频率方法，对该剩余词语打分，收集分数较高的词语，比如分值排名前十五的词语。

其中，TF-IDF是Term Frequency-Inverse Document Frequency的缩写，即“词频-逆文本频率”。它由两部分组成，TF和IDF。TF表示的是词频，之前的向量化也就是做了文本中各个词的出现频率统计，并作为文本特征。IDF，即“逆文本频率”。有些词的词频很高但重要性却很低，IDF就是来帮助我们来反应这个词的重要性，进而修正仅仅用词频表示的词特征值。

概括来讲，IDF反映了一个词在所有文本中出现的频率，如果一个词在很多的文本中出现，那么它的IDF值应该低，比如“我”字。而反过来如果一个词在比较少的文本中出现，那么它的IDF值应该高。比如一些专业的名词如“机器学习”。这样的词IDF值应该高。一个极端的情况，如果一个词在所有的文本中都出现，那么它的IDF值应该为0。

人工审核子单元823用于手动过滤掉每个关系下不合理的同义词。具体地，如希望同义词集较为准确，可以做一定的人工审核，即每类关系下，手动过滤掉不合理的同义词。

本发明还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过装置总线相互通信连接的存储器、处理器等。

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储电子装置20，被处理器执行时实现本发明的问答方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种问答方法，其特征在于，所述问答方法包括：

获取用户的输入信息；

识别所述输入信息中的命名实体，并将所述命名实体链接至中文知识图谱中与所述命名实体相对应的候选实体，形成实体对，其中所述实体对包括所述命名实体和所述候选实体；

通过关系模板在所述中文知识图谱中匹配出所述候选实体的候选关系；

根据所述实体对和所述候选关系，形成候选三元组，其中所述候选三元组包括所述命名实体、所述候选实体及所述候选关系；

根据所述排序结果查询所述中文知识图谱，以获取所述输入信息的答案；

所述基于学习排序模型获取各所述候选三元组相对应的排序结果具体包括：

计算各所述三元组相对应的各特征向量；及

将各所述特征向量输入至所述学习排序模型中以获取各所述候选三元组相对应的排序结果；

所述计算各所述三元组的各特征向量的步骤包括：

根据所述第一相似度特征、所述第二相似度特征和所述高维向量，生成所述特征向量，具体为：将所述第一相似度特征、所述第二相似度特征和所述高维向量进行拼接，获取到最终的特征向量。

2.如权利要求1所述的问答方法，其特征在于，所述识别所述输入信息中的命名实体具体包括：

对所述输入信息进行标注，获取标注结果；及根据所述标注结果，通过循环神经网络模型识别出所述输入信息中的命名实体。

3.如权利要求1所述的问答方法，其特征在于，所述识别所述输入信息中的命名实体，并将所述命名实体链接至所述中文知识图谱中与所述命名实体相对应的候选实体，形成实体对的步骤之后，所述问答方法还包括：

根据所述排列名次选取相对应的所述实体对。

4.如权利要求1所述的问答方法，其特征在于，所述关系模板包括第一实体、第二实体及第一实体与第二实体之间的关系。

5.如权利要求1所述的问答方法，其特征在于，所述学习排序模型是通过训练第一样本和各所述候选三元组所形成的第二样本得到的，其中第一样本是由所述输入信息的标准答案构成的三元组。

6.一种问答装置，其特征在于，所述问答装置包括：

第一获取模块，用于获取用户的输入信息；

识别及链接模块，用于识别所述输入信息中的命名实体，并将所述命名实体链接至中文知识图谱中与所述命名实体相对应的候选实体，形成实体对，其中所述实体对包括所述命名实体和所述候选实体；

第三获取模块，用于根据所述排序结果查询所述中文知识图谱，以获取所述输入信息的答案；

计算各所述三元组相对应的各特征向量；及

所述计算各所述三元组的各特征向量的步骤包括：

7.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一项所述问答方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至5任一项所述问答方法的步骤。