CN113806558B

CN113806558B - 问题选择方法、知识图谱构建方法、装置及电子设备

Info

Publication number: CN113806558B
Application number: CN202111105937.1A
Authority: CN
Inventors: 李海滨; 郭玮; 储开龙
Original assignee: Hubei Tiantian Digital Chain Technology Co ltd
Current assignee: Hubei Tiantian Digital Chain Technology Co ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2024-03-26
Anticipated expiration: 2041-09-22
Also published as: CN113806558A

Abstract

本申请提供一种问题选择方法、知识图谱构建方法、装置及电子设备，属于计算机技术领域。该问题选择方法包括获取预先建立的问题知识图谱，所述问题知识图谱包括问题集和所述问题集中任意两个问题的语义相似度；从所述问题知识图谱中确定第一问题；从所述问题知识图谱中确定与所述第一问题的语义相似度相关的目标问题；输出所述第一问题和所述目标问题。由于目标问题与第一问题的语义相似度相关，因此，目标问题和第一问题均是同一知识面的问题，通过目标问题和第一问题对面试者进行提问，能较为全面地考核面试者对该知识面的掌握程度，从而实现帮助面试官提问，降低面试对面试官个人专业能力的要求。

Description

问题选择方法、知识图谱构建方法、装置及电子设备

技术领域

本申请涉及计算机的技术领域，具体而言，涉及一种问题选择方法、知识图谱构建方法、装置及电子设备。

背景技术

在面试中，面试官会向面试者提问，以判断面试者是否符合面试要求，但目前的面试方法依靠面试官的个人能力来对面试者进行提问，这种面试方法往往需要至少一位人力资源管理方面的专业人员和至少一位面试岗位所属领域的专业人员作为面试官，同时对面试者进行面试，在面试官向面试者针对面试岗位所属技术领域提出一个问题后，往往还需要针对该领域再次向面试者提出其他问题，以全面考核面试者的专业能力，但该方法要求面试官全面掌握该领域的专业知识，对面试官的个人专业能力要求较高，使得在面试时，需要具有专业能力较高的人员作为面试官，提高了面试的人力成本，并且现有的面试方式效率较低。

发明内容

本申请提供一种问题选择方法、知识图谱构建方法、装置及电子设备，以改善现有面试方式存在面试效率低以及面试所需人力成本高的问题。

第一方面，本申请提供一种问题选择方法，包括：获取预先建立的问题知识图谱，所述问题知识图谱包括问题集和所述问题集中任意两个问题的语义相似度，其中，所述问题集中的问题表征所述问题知识图谱中的问题节点，任意两个问题的语义相似度表征对应的两个问题节点的连接关系；从所述问题知识图谱中确定第一问题；从所述问题知识图谱中确定与所述第一问题的语义相似度相关的目标问题；输出所述第一问题和所述目标问题。

本申请实施例中，通过事先建立问题知识图谱，使得在面试时，可以在确定第一问题后，从问题知识图谱中确定与第一问题的语义相似度相关的目标问题。由于目标问题与第一问题的语义相似度相关，因此，目标问题和第一问题均是同一知识面的问题，通过目标问题和第一问题对面试者进行提问，能较为全面地考核面试者对该知识面的掌握程度，从而实现帮助面试官提问，降低面试对面试官个人专业能力的要求，进而改善了现有面试方式存在面试效率低以及面试所需人力成本高的问题。

结合上述第一方面提供的技术方案，在一些可能的实施方式中，从所述问题知识图谱中确定与所述第一问题的语义相似度相关的目标问题，包括：从所述问题知识图谱中确定与所述第一问题的语义相似度大于预设阈值的目标问题。

本申请实施例中，将知识图谱中与第一问题的语义相似度大于预设阈值的问题作为目标问题，通过预设阈值来对知识图谱中的问题进行筛选，可以使最终得到的目标问题与第一问题的相关性更高，从而尽可能保证目标问题与第一问题考核的知识点属于同一知识面。

结合上述第一方面提供的技术方案，在一些可能的实施方式中，从所述问题知识图谱中确定与所述第一问题的语义相似度相关的目标问题，包括：从所述问题知识图谱中确定与所述第一问题的语义相似度大于第一预设阈值的第二问题，并从所述问题知识图谱中将所述第一问题删除，得到第二问题知识图谱；从所述第二问题知识图谱中确定与所述第二问题的语义相似度大于第二预设阈值的第三问题，并从所述第二问题知识图谱中将所述第二问题删除，得到第三问题知识图谱，直至满足预设停止条件；所述目标问题包括第二问题、第三问题。

本申请实施例中，通过第一预设阈值来对问题知识图谱中的问题进行筛选，得到与第一问题的语义相似度大于第一预设阈值的第二问题，并从问题知识图谱中删除第一问题，得到第二问题知识图谱；再通过第二预设阈值来对第二问题知识图谱中的问题进行筛选，得到与第二问题的语义相似度大于第一预设阈值的第三问题，并从问题知识图谱中删除第二问题，得到第二问题知识图谱，以此类推，直至满足预设停止条件，得到包括第二问题、第三问题的目标问题。基于此，使得得到的第二问题与第一问题考核的知识点属于同一知识面，第三问题与第二问题考核的知识点属于同一知识面，从而层层递进地对面试者进行提问，进而能更加全面地对面试者在该知识面进行考核。

结合上述第一方面提供的技术方案，在一些可能的实施方式中，所述获取预先建立的问题知识图谱，包括：获取问题集，所述问题集中包括至少两个问题；基于预先训练好的BERT(Bidirectional Encoder Representations from Transformers，来自变压器的双向编码器表示)模型，得到所述问题集中每个问题的知识图谱向量；基于所述每个问题的知识图谱向量，得到所述问题集中任意两个问题的语义相似度；基于所述问题集以及所述问题集中任意两个问题的语义相似度，构建所述问题知识图谱。

本申请实施例中，通过预先训练好的BERT模型，得到问题集中每个问题的知识图谱向量，然后通过每个问题的知识图谱向量，得到问题集中任意两个问题的语义相似度，进而将问题集中的问题作为问题知识图谱中的节点，语义相似度作为该语义相似度对应的两个问题所在节点的连接关系。由于考核相同知识面的问题中，必然包括相同的词语，因此，考核的知识点越接近的问题的语义相似度越大，因此，将问题间的语义相似度作为问题知识图谱节点间的连接关系，使得得到的问题知识图谱更加符合实际需求，通过获取问题集中每个问题的知识图谱向量，进而得到问题集中任意两个问题的语义相似度，并以此来建立问题知识图谱，使得在面试时，能够快速的找到与第一问题相关的目标问题。

结合上述第一方面提供的技术方案，在一些可能的实施方式中，所述基于预先训练好的BERT模型，得到所述问题集中每个问题的知识图谱向量，包括：获取所述问题集中每一个问题包括的所有实体；针对每一个问题，基于所述预先训练好的BERT模型和该问题中包括的所有实体，得到该问题中每个实体的语义向量；基于该问题中所有实体的语义向量和预设规则，得到该问题的知识图谱向量。

本申请实施例中，通过BERT模型得到一个问题中的所有实体的语义向量，再基于该问题所有实体的语义向量和预设规则，得到该问题的知识图谱向量，由于问题的知识图谱向量仅由该问题中的实体决定，可以有效减少语气词、关联词等与考核知识点无关的词语对问题的知识图谱向量的影响，使得知识图谱向量能更准确地表示该问题考核的知识点，进而使得最终得到的问题知识图谱能更加准确地反映不同问题的相关性。

结合上述第一方面提供的技术方案，在一些可能的实施方式中，训练所述BERT模型的过程，包括：获取训练问题集，所述训练问题集中的每一个问题的实体均标注有真实命名实体标签；将所述训练问题集输入BERT预训练模型，得到所述训练问题集中每个问题包括的字的训练语义向量；将得到的所述训练语义向量输入分类模型，得到每个实体的预测命名实体标签；基于所述真实命名实体标签、所述预测命名实体标签和反向传播算法，更新所述BERT模型和所述分类模型的参数，直至满足预设条件，得到训练好的BERT模型。

本申请实施例中，在训练BERT模型时，通过引入分类模型来得到每个实体的预测命名实体标签，然后再基于真实命名实体标签、预测命名实体标签和反向传播算法，以此来更新BERT模型和分类模型的参数，以加快模型的训练，从而减少训练的时间，并且能提高模型的准确性。

结合上述第一方面提供的技术方案，在一些可能的实施方式中，获取所述问题集中每一个问题包括的实体，包括：将所述问题集输入所述BERT模型，得到所述问题集中每个问题包括的字的语义向量；将得到的所述语义向量输入训练好的分类模型，得到每个实体的命名实体标签；根据每个问题中包括的实体的命名实体标签，得到该问题包括的实体。

第二方面，本申请还提供了一种知识图谱构建方法，包括：获取问题集，所述问题集中包括至少两个问题；基于预先训练好的BERT模型，得到所述问题集中每个问题的知识图谱向量；基于所述每个问题的知识图谱向量，得到所述问题集中任意两个问题的语义相似度；基于所述问题集以及所述问题集中任意两个问题的语义相似度，构建问题知识图谱，所述问题集中的问题表征所述问题知识图谱中的问题节点，任意两个问题的语义相似度表征对应的两个问题节点的连接关系。

第三方面，本申请还提供了一种问题选择装置，包括获取模块、确定模块和输出模块。获取模块用于获取预先建立的问题知识图谱，所述问题知识图谱包括问题集和所述问题集中任意两个问题的语义相似度，其中，所述问题集中的问题表征所述问题知识图谱中的问题节点，任意两个问题的语义相似度表征对应的两个问题节点的连接关系；确定模块用于从所述问题知识图谱中确定第一问题；所述确定模块还用于从所述问题知识图谱中确定与所述第一问题的语义相似度相关的目标问题；输出模块用于输出所述第一问题和所述目标问题。

第四方面，本申请还提供了一种知识图谱构建装置，包括：获取模块、处理模块。获取模块用于获取问题集，所述问题集中包括至少两个问题；处理模块用于基于预先训练好的BERT模型，得到所述问题集中每个问题的知识图谱向量；所述处理模块还用于基于所述每个问题的知识图谱向量，得到所述问题集中任意两个问题的语义相似度；所述处理模块还用于基于所述问题集以及所述问题集中任意两个问题的语义相似度，构建问题知识图谱，所述问题集中的问题表征所述问题知识图谱中的问题节点，任意两个问题的语义相似度表征对应的两个问题节点的连接关系。

第五方面，本申请实施例还提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器连接；所述存储器，用于存储程序；所述处理器，用于调用存储于所述存储器中的程序，以执行如上述第一方面实施例和/或结合上述第一方面实施例的任一种可能的实施方式提供的方法，或者，执行如上述第二方面实施例提供的方法。

第六方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被计算机运行时，执行如上述第一方面实施例和/或结合上述第一方面实施例的任一种可能的实施方式提供的方法，或者，执行如上述第二方面实施例提供的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例示出的一种问题选择方法的流程示意图；

图2为本申请实施例提供的一种问题知识图谱结构示意图；

图3为本申请实施例示出的一种命名实体标注模型的结构示意图；

图4为本申请实施例示出的一种知识图谱构建方法的流程示意图；

图5为本申请实施例示出的一种问题选择装置的结构框图；

图6为本申请实施例示出的一种知识图谱构建装置的结构框图；

图7为本申请实施例示出的电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再者，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

下面将结合附图对本申请的技术方案进行清楚、完整地描述。

请参阅图1，图1为本申请实施例提供的一种问题选择方法，下面将结合图1对其所包含的步骤进行说明。

S110：获取预先建立的问题知识图谱。

上述问题知识图谱可以是预先获取的，存储在数据库中，在需要时直接调用即可。

其中，上述问题知识图谱包括问题集和问题集中任意两个问题的语义相似度，问题集中的问题表征问题知识图谱中的问题节点，任意两个问题的语义相似度表征对应的两个问题节点的连接关系。

一种实施方式下，上述问题知识图谱包括的问题均为某一特定技术领域的问题，例如可以是算法工程师面试中遇到的技术性面试问题，算法工程师面试中遇到的技术性面试问题可以是：XGBoost算法的原理是什么？XGBoost防止过度拟合的方法是什么？GBDT和XGBoost的联系和区别是什么？梯度提升树GBDT的基本原理是什么？等问题。此处示例仅为便于理解，不应作为对本申请的限制。

一种实施方式下，获取预先建立的问题知识图谱的过程可以为：首先获取问题集，该问题集中包括至少两个问题；然后基于预先训练好的BERT模型，得到问题集中每个问题的知识图谱向量；再基于每个问题的知识图谱向量，得到问题集中任意两个问题的语义相似度；最后基于问题集以及所述问题集中任意两个问题的语义相似度，构建问题知识图谱。其中，将问题集中的问题作为问题知识图谱中的节点，语义相似度作为该语义相似度对应的两个问题所在节点的连接关系。

一种实施方式下，将两个问题的知识图谱向量的余弦相似度作为两个问题的语义相似度。另外，在计算语义相似度时，可以不计算某一问题与其自身的语义相似度。

一种实施方式下，当问题集中包括有重复的问题时，将相同问题的语义相似度设置为0。

为了便于理解，请参阅图2，图2为本申请实施例提供的一种问题知识图谱的结构示意图。图2所示的知识图谱中包括有4个问题，即问题1、问题2、问题3、问题4，其中，相似度1表征问题1和问题2的语义相似度；相似度2表征问题2和问题3的语义相似度；相似度3表征问题3和问题4的语义相似度；相似度4表征问题1和问题4的语义相似度；相似度5表征问题2和问题4的语义相似度；相似度6表征问题1和问题3的语义相似度，任意两个问题间通过彼此的语义相似度连接。

一种实施方式下，基于预先训练好的BERT模型，得到所述问题集中每个问题的知识图谱向量的过程可以是，首先获取所述问题集中每一个问题包括的所有实体；然后针对每一个问题，基于预先训练好的BERT模型和该问题中包括的所有实体，得到该问题中每个实体的语义向量；最后基于该问题中所有实体的语义向量和预设规则，得到该问题的知识图谱向量。

其中，此处的预设规则可以是计算同一问题中的所有实体的语义向量的平均值；或者，可以是计算同一问题中的所有实体的语义向量和，即同一问题中的所有实体的语义向量求和。

其中，获取问题集中每一个问题包括的实体的过程可以是：通过人工标注命名完成对实体的标注，然后将标注过的词语作为实体；或者通过NER(Named EntityRecognition，命名实体识别)完成对问题集中每一个问题包括的实体的命名实体识别，得到每个实体的命名实体标签，获取每一个问题中拥有命名实体标签的词语；或者是先将该问题集输入BERT模型，得到该问题集中每个问题包括的字的语义向量；然后将得到的语义向量输入训练好的分类模型，得到每个实体的命名实体标签；最后获取每一个问题中拥有命名实体标签的词语，其中，每一个问题中拥有命名实体标签的词语即为该问题的实体。

其中，上述的每个问题包括的字即可以表示中文中的每个文字，也可以表示其它语言中的每个单词，例如英语中的每个单词。

一种实施方式下，训练BERT模型的过程可以是，首先获取训练问题集，该训练问题集中的每一个问题的实体均标注有真实命名实体标签；然后将训练问题集输入BERT预训练模型，得到训练问题集中每个问题包括的字的训练语义向量；再将得到的训练语义向量输入分类模型，得到每个实体的预测命名实体标签；最后基于真实命名实体标签、预测命名实体标签和反向传播算法，更新BERT预训练模型和分类模型的参数，直至满足预设条件，得到训练好的BERT模型。

其中，此处的预设条件可以是真实命名实体标签和预测命名实体标签的误差小于等于预设误差阈值，此处的预设误差阈值可以根据实际需求设定，此处不作限制。

一种实施方式下，可以利用线性层+softmax函数作为上述的分类模型。

其中，上述的训练问题集可以是总体面试问题集的子集，该总体面试问题集包括为面试准备的所有问题，且该训练问题集包括总体面试问题集中60％-80％的问题，具体的比例可以根据实际情况设置，此处不作限制。上述总体面试问题集除训练问题集外的问题构成测试问题集，用于对训练好的BERT模型进行测试。

为了便于理解，请参阅图3，图3为本申请实施例提供的一种利用BERT模型和线性层+softmax函数对语句进行实体标注的结构图。其中，BERT模型将输入的问题数据中每个字的语义向量输入到线性层中，即语义向量1、语义向量2、语义向量3……语义向量n，线性层给出输入的语句中每个词的NER标签，即命名实体标签。

S120：从问题知识图谱中确定第一问题。

从问题知识图谱中确定第一问题，一种实施方式下，可以按照设定程序自动从问题知识图谱中选择一个问题作为第一问题，例如，可以是随机从问题知识图谱中选择一个问题作为第一问题。另一种实施方式下，可以是响应用户选择问题的操作，从问题知识图谱中选择与用户操作对应的问题作为第一问题。

S130：从问题知识图谱中确定与第一问题的语义相似度相关的目标问题。

将问题知识图谱中与第一问题的语义相似度相关的问题作为目标问题。其中，目标问题的数量可以根据实际需求设定，例如，可以是1、2、3、4、5、6……N，N为正整数。

一种实施方式下，S130的实现过程可以是：从问题知识图谱中确定与第一问题的语义相似度大于预设阈值的目标问题。其中，预设阈值可以根据实际需求设定，例如，可以是0.9、0.8、0.7、0.6、0.5、0.4、0.3、0.2、0.1……K，0<K<1。

其中，当目标问题的数量为N，且问题知识图谱中，与第一问题的语义相似度大于预设阈值的问题数量为N时，将与第一问题的语义相似度大于预设阈值的问题作为目标问题。当问题知识图谱中，与第一问题的语义相似度大于预设阈值的问题数量大于N时，从与第一问题的语义相似度大于预设阈值的问题中随机选择N个问题作为目标问题。当问题知识图谱中，与第一问题的语义相似度大于预设阈值的问题数量小于N时，降低预设阈值，直至与第一问题的语义相似度大于修改后的预设阈值的问题数量大于等于N时，从与第一问题的语义相似度大于预设阈值的问题中随机选择N个问题作为目标问题，其中，降低预设阈值的大小可以是预设的一个固定值，如每次降低0.01，具体的降低数值此处不作限制；也可以是对预设阈值进行等比例降低，如每次降低预设阈值的1％，具体的降低比例此处不作限制。

一种实施方式下，将问题知识图谱中与第一问题的语义相似度最大的前N个问题作为目标问题，例如，按照相似度从高到底的顺序，选取相似度最大的前N个问题作为目标问题。其中，N为正整数。

一种实施方式下，S130的实现过程可以是：从问题知识图谱中确定与第一问题的语义相似度大于第一预设阈值的第二问题，并从问题知识图谱中将第一问题删除，得到第二问题知识图谱；从第二问题知识图谱中确定与第二问题的语义相似度大于第二预设阈值的第三问题，并从第二问题知识图谱中将第二问题删除，得到第三问题知识图谱，直至满足预设停止条件；目标问题包括第二问题、第三问题。其中，第二知识图谱为删除了第一问题的知识图谱；第三知识图谱为删除了第二问题的第二知识图谱。

其中，上述的预设停止条件可以是循环的次数达到预设值，该预设值为正整数，当预设值为1时，在得到第二问题后停止循环，此时的目标问题包括第一问题和第二问题；当预设值问2时，此时的目标问题包括第一问题、第二问题和第三问题；当预设值为n时(n为正整数)，此时的目标问题包括第一问题、第二问题、第三问题……和第n+1问题。并且，第一预设阈值、第二预设阈值……第n预设阈值可以相同，即都取同一个值；也可以是第一预设阈值、第二预设阈值……第n预设阈值中部分相同或全部不同，第一预设阈值、第二预设阈值……第n预设阈值具体的取值可以根据实际需求设置，此处不作限制。

一种实施方式下，上述的预设停止条件可以是得到预设数量的目标问题，例如在预设数量为4时，即需要得到的目标问题的数量为4，若每次从问题知识图谱中选择问题时，只选择1个，则在得到第五问题后停止循环，此时的目标问题包括第二问题、第三问题、第四问题、第五问题。此处的预设数量可以根据实际需求设置，预设数量可以是正整数，上述的举例仅为便于理解，不应作为对本申请的限制。

一种实施方式下，从问题知识图谱中确定与第n问题的语义相似度大于第n预设阈值的第n+1问题，可以是从与第n问题的语义相似度大于第n预设阈值的问题中随机选择一个问题作为第n+1问题；或者将与第n问题的语义相似度最大的问题作为第n+1问题。

又一种实施方式下，从问题知识图谱中确定与第一问题的语义相似度大于第一预设阈值的第二问题时，选择k₁个问题作为第二问题，k₁为正整数；在从问题知识图谱中确定与第二问题的语义相似度大于第二预设阈值的第三问题时，针对第二问题中的每一个问题，从问题知识图谱中确定与该问题的语义相似度大于第二预设阈值的k₂个问题作为第三问题，k₂为正整数，即第三问题包括个k₁×k₂个问题；以此类推，在第n次循环时，从问题知识图谱中确定与第n问题的语义相似度大于第n预设阈值的k_n个问题作为第n+1问题，k_n为正整数，即第n+1问题包括个k₁×k₂……×k_n个问题。其中，k₁、k₂……、k_n可以是相等的，也可以是部分相等或全部不相等，k₁、k₂……、k_n的具体的数值可以根据实际需求设置，此处不作限制。

从问题知识图谱中选择问题的具体实现方式与前文从问题知识图谱中确定目标问题的实现方式一致，此处不再赘述。

S140：输出第一问题和目标问题。

输出第一问题和目标问题，以使如面试官能根据该问题对面试者进行提问。

请参阅图4，图4为本申请实施例提供的一种知识图谱构建方法，下面将结合图1对其所包含的步骤进行说明。

S210：获取问题集。

S220：基于预先训练好的BERT模型，得到问题集中每个问题的知识图谱向量。

S230：基于每个问题的知识图谱向量，得到问题集中任意两个问题的语义相似度。

S240：基于问题集以及问题集中任意两个问题的语义相似度，构建问题知识图谱。

构建知识图谱的具体过程在前文已叙述清楚，此处不再赘述。

请参阅图5，图5为本申请实施例提供的一种问题选择装置10，包括获取模块110、确定模块120、输出模块130。

获取模块110，用于获取预先建立的问题知识图谱，所述问题知识图谱包括问题集和所述问题集中任意两个问题的语义相似度，其中，所述问题集中的问题表征所述问题知识图谱中的问题节点，任意两个问题的语义相似度表征对应的两个问题节点的连接关系。

确定模块120用于从所述问题知识图谱中确定第一问题。

确定模块120还用于从所述问题知识图谱中确定与所述第一问题的语义相似度相关的目标问题。

输出模块130用于输出所述第一问题和所述目标问题。

确定模块120具体用于从所述问题知识图谱中确定与所述第一问题的语义相似度大于预设阈值的目标问题。

确定模块120具体用于从所述问题知识图谱中确定与所述第一问题的语义相似度大于第一预设阈值的第二问题，并从所述问题知识图谱中将所述第一问题删除，得到第二问题知识图谱；从所述第二问题知识图谱中确定与所述第二问题的语义相似度大于第二预设阈值的第三问题，并从所述第二问题知识图谱中将所述第二问题删除，得到第三问题知识图谱，直至满足预设停止条件；所述目标问题包括所述第二问题、所述第三问题。

问题选择装置10还包括构建模块，构建模块用于获取问题集，所述问题集中包括至少两个问题；基于预先训练好的BERT模型，得到所述问题集中每个问题的知识图谱向量；基于所述每个问题的知识图谱向量，得到所述问题集中任意两个问题的语义相似度；基于所述问题集以及所述问题集中任意两个问题的语义相似度，构建所述问题知识图谱。

构建模块具体用于获取所述问题集中每一个问题包括的所有实体；针对每一个问题，基于所述预先训练好的BERT模型和该问题中包括的所有实体，得到该问题中每个字的语义向量；基于该问题中所有实体的语义向量和预设规则，得到该问题的知识图谱向量。

构建模块具体用于将所述问题集输入所述BERT模型，得到所述问题集中每个问题包括的字的语义向量；将得到的所述训练语义向量输入训练好的分类模型，得到每个实体的命名实体标签；根据每个问题中包括的实体的命名实体标签，得到该问题包括的实体。

问题选择装置10还包括训练模块，训练模块用于获取训练问题集，所述训练问题集中的每一个问题的实体均标注有真实命名实体标签；将所述训练问题集输入BERT预训练模型，得到所述训练问题集中每个问题包括的实体的训练语义向量；将得到的所述训练语义向量输入分类模型，得到每个实体的预测命名实体标签；基于所述真实命名实体标签、所述预测命名实体标签和反向传播算法，更新所述BERT预训练模型和所述分类模型的参数，直至满足预设条件，得到训练好的BERT模型。

其中，问题选择装置10的具体工作内容和实现原理在前文已叙述清楚，此处不再赘述。

请参阅图6，图6为本申请实施例提供的一种知识图谱构建装置20，包括获取模块210和处理模块220。

获取模块210用于获取问题集，所述问题集中包括至少两个问题；

处理模块220用于基于预先训练好的BERT模型，得到所述问题集中每个问题的知识图谱向量；

处理模块220还用于基于所述每个问题的知识图谱向量，得到所述问题集中任意两个问题的语义相似度；

处理模块220还用于基于所述问题集以及所述问题集中任意两个问题的语义相似度，构建问题知识图谱，所述问题集中的问题表征所述问题知识图谱中的问题节点，任意两个问题的语义相似度表征对应的两个问题节点的连接关系。

其中，知识图谱构建装置20的具体工作内容和实现原理在前文已叙述清楚，此处不再赘述。

请参阅图7，其为本申请实施例提供的一种电子设备。所述电子设备300包括：收发器310、存储器320、通讯总线330、处理器340。

所述收发器310、所述存储器320、处理器340各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线330或信号线实现电性连接。其中，收发器310用于收发数据。存储器320用于存储计算机程序，如存储有图5或图6中所示的软件功能模块，即图5中的问题选择装置10，或图6中的知识图谱构建装置20。其中，问题选择装置10包括至少一个可以软件或固件(firmware)的形式存储于所述存储器320中或固化在所述电子设备300的操作***(operating system，OS)中的软件功能模块。所述处理器340，用于执行存储器320中存储的可执行模块。

例如，处理器340在执行问题选择装置10包括的软件功能模块或计算机程序时，用于：获取预先建立的问题知识图谱，所述问题知识图谱包括问题集和所述问题集中任意两个问题的语义相似度，其中，所述问题集中的问题表征所述问题知识图谱中的问题节点，任意两个问题的语义相似度表征对应的两个问题节点的连接关系；从所述问题知识图谱中确定第一问题；从所述问题知识图谱中确定与所述第一问题的语义相似度相关的目标问题；输出所述第一问题和所述目标问题。

例如，处理器340在执行知识图谱构建装置20包括的软件功能模块或计算机程序时，用于：获取问题集，所述问题集中包括至少两个问题；基于预先训练好的BERT模型，得到所述问题集中每个问题的知识图谱向量；基于所述每个问题的知识图谱向量，得到所述问题集中任意两个问题的语义相似度；基于所述问题集以及所述问题集中任意两个问题的语义相似度，构建问题知识图谱，所述问题集中的问题表征所述问题知识图谱中的问题节点，任意两个问题的语义相似度表征对应的两个问题节点的连接关系。

其中，存储器320可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器340可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器340也可以是任何常规的处理器等。

其中，上述的电子设备300，包括但不限于个人电脑、服务器等。

本申请实施例还提供了一种非易失性计算机可读取存储介质(以下简称存储介质)，该存储介质上存储有计算机程序，该计算机程序被计算机如上述的电子设备300运行时，执行上述所示的问题选择方法和/或知识图谱构建方法。

其中，上述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种问题选择方法，其特征在于，包括：

获取预先建立的问题知识图谱，所述问题知识图谱包括问题集和所述问题集中任意两个问题的语义相似度，其中，所述问题集中的问题表征所述问题知识图谱中的问题节点，任意两个问题的语义相似度表征对应的两个问题节点的连接关系；

从所述问题知识图谱中确定第一问题；

从所述问题知识图谱中确定与所述第一问题的语义相似度相关的目标问题；

输出所述第一问题和所述目标问题；

其中，从所述问题知识图谱中确定与所述第一问题的语义相似度相关的目标问题，包括：

从所述问题知识图谱中确定与所述第一问题的语义相似度大于第一预设阈值的第二问题，并从所述问题知识图谱中将所述第一问题删除，得到第二问题知识图谱；

从所述第二问题知识图谱中确定与所述第二问题的语义相似度大于第二预设阈值的第三问题，并从所述第二问题知识图谱中将所述第二问题删除，得到第三问题知识图谱，直至满足预设停止条件；所述目标问题包括所述第二问题、所述第三问题。

2.根据权利要求1所述的方法，其特征在于，从所述问题知识图谱中确定与所述第一问题的语义相似度相关的目标问题，包括：

从所述问题知识图谱中确定与所述第一问题的语义相似度大于预设阈值的目标问题。

3.根据权利要求1所述的方法，其特征在于，所述获取预先建立的问题知识图谱，包括：

获取问题集，所述问题集中包括至少两个问题；

基于预先训练好的BERT模型，得到所述问题集中每个问题的知识图谱向量；

基于所述每个问题的知识图谱向量，得到所述问题集中任意两个问题的语义相似度；

基于所述问题集以及所述问题集中任意两个问题的语义相似度，构建所述问题知识图谱。

4.根据权利要求3所述的方法，其特征在于，所述基于预先训练好的BERT模型，得到所述问题集中每个问题的知识图谱向量，包括：

获取所述问题集中每一个问题包括的所有实体；

针对每一个问题，基于所述预先训练好的BERT模型和该问题中包括的所有实体，得到该问题中每个实体的语义向量；

基于该问题中所有实体的语义向量和预设规则，得到该问题的知识图谱向量。

5.根据权利要求3所述的方法，其特征在于，训练所述BERT模型的过程，包括：

获取训练问题集，所述训练问题集中的每一个问题的实体均标注有真实命名实体标签；

将所述训练问题集输入BERT预训练模型，得到所述训练问题集中每个问题包括的字的训练语义向量；

将得到的所述训练语义向量输入分类模型，得到每个实体的预测命名实体标签；

基于所述真实命名实体标签、所述预测命名实体标签和反向传播算法，更新所述BERT预训练模型和所述分类模型的参数，直至满足预设条件，得到训练好的BERT模型。

6.根据权利要求4所述的方法，其特征在于，获取所述问题集中每一个问题包括的实体，包括：

将所述问题集输入所述BERT模型，得到所述问题集中每个问题包括的所有字的语义向量；

将得到的所述语义向量输入训练好的分类模型，得到每个问题中包括的实体的命名实体标签；

根据每个问题中包括的实体的命名实体标签，得到该问题包括的实体。

7.一种问题选择装置，其特征在于，包括：

获取模块，用于获取预先建立的问题知识图谱，所述问题知识图谱包括问题集和所述问题集中任意两个问题的语义相似度，其中，所述问题集中的问题表征所述问题知识图谱中的问题节点，任意两个问题的语义相似度表征对应的两个问题节点的连接关系；

确定模块，用于从所述问题知识图谱中确定第一问题；

所述确定模块，还用于从所述问题知识图谱中确定与所述第一问题的语义相似度相关的目标问题；

输出模块，用于输出所述第一问题和所述目标问题；

所述确定模块，具体用于从所述问题知识图谱中确定与所述第一问题的语义相似度大于第一预设阈值的第二问题，并从所述问题知识图谱中将所述第一问题删除，得到第二问题知识图谱；从所述第二问题知识图谱中确定与所述第二问题的语义相似度大于第二预设阈值的第三问题，并从所述第二问题知识图谱中将所述第二问题删除，得到第三问题知识图谱，直至满足预设停止条件；所述目标问题包括所述第二问题、所述第三问题。

8.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器连接；

所述存储器，用于存储程序；

所述处理器，用于调用存储于所述存储器中的程序，以执行如权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被计算机运行时，执行如权利要求1-6中任一项所述的方法。