CN112035605A

CN112035605A - 题目推荐方法、装置、设备及存储介质

Info

Publication number: CN112035605A
Application number: CN202010774748.2A
Authority: CN
Inventors: 陈静
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-12-04

Abstract

本申请提供一种题目推荐方法、装置、设备及存储介质，所述方法包括：获取题目的初始难度标签以及针对于所述题目的交互数据；所述交互数据表征用户对所述题目的作答情况；根据所述题目的初始难度标签建立关于题目难度的先验分布，并基于所述交互数据对所述先验分布进行修正，获取关于题目难度的后验分布；根据所述后验分布确定所述题目修正后的难度标签；根据所述题目修正后的难度标签进行题目推荐。本申请实施例保证了最终得到的题目难度的准确性和稳定性，从而实现题目的精准推荐。

Description

题目推荐方法、装置、设备及存储介质

技术领域

本申请涉及计算机软件技术领域，尤其涉及一种题目推荐方法、装置、设备及存储介质。

背景技术

在教学环节中，***。

影响题目难度的因素诸多，例如题目涉及的方法、知识点、题型的新颖度等，而且一门学科下题目的量往往是十万或百万量级的，这意味着题目难度的标注是一个费时费力的工作，且标注的质量直接影响到后续根据题目难度进行精准推荐的应用。

发明内容

有鉴于此，本申请提供一种题目推荐方法、装置、设备及存储介质。

根据本申请实施例的第一方面，提供一种题目推荐方法，所述方法包括：

获取题目的初始难度标签以及针对于所述题目的交互数据；所述交互数据表征用户对所述题目的作答情况；

根据所述题目的初始难度标签建立关于题目难度的先验分布，并基于所述交互数据对所述先验分布进行修正，获取关于题目难度的后验分布；

根据所述后验分布确定所述题目修正后的难度标签；

根据所述题目修正后的难度标签进行题目推荐。

可选地，所述获取题目的初始难度标签，包括：

获取若干题目的题目信息，所述题目信息包括所述题目涉及的知识点；

根据所述题目信息确定属于同一知识点下的题目两两之间的相似度；

若所述题目对应有初始难度标签，根据所述属于同一知识点下的题目两两之间的相似度确定所述题目的一个或多个相似题目；

基于所述一个或多个相似题目的初始难度标签来修正所述题目的初始难度标签。

可选地，所述获取题目的初始难度标签，包括：

若所述题目未对应有初始难度标签，根据所述属于同一知识点下的题目两两之间的相似度将所述若干题目聚类成一个或多个题目集；

从所述题目集中确定代表题目，并获取用户标注的所述代表题目的初始难度标签；

将所述代表题目的初始难度标签也确定为所述题目集中除所述代表题目之外的其他题目的初始难度标签。

可选地，所述题目信息还包括题干信息和题目解析信息，所述题干信息和所述题目解析信息以文本方式和/或图像方式展示；

所述根据所述题目信息确定属于同一知识点下的题目两两之间的相似度，包括：

根据以文本方式展示的所述题干信息和/或所述题目解析信息获取所述题目的文本向量，和/或，根据以图像方式展示的所述题干信息和/或所述题目解析信息获取所述题目的图像特征；

根据属于同一知识点下的题目的文本向量之间的距离确定文本相似度，和/或，根据属于同一知识点下的题目的图像特征之间的距离确定图像相似度；

根据所述文本相似度和/或所述图像相似度确定属于同一知识点下的题目两两之间的相似度。

可选地，所述基于所述一个或多个相似题目的初始难度标签来修正所述题目的初始难度标签，包括：

若所述题目的初始难度标签为离散值，将所述相似题目的初始难度标签和所述题目的初始难度标签中频数最高的一个作为所述题目的修正后的初始难度标签；

若所述题目的初始难度标签为连续值，将所述相似题目的初始难度标签和所述题目的初始难度标签的加权平均结果作为所述题目的修正后的初始难度标签。

可选地，在所述题目集中，与所述代表题目的相似度高于预设阈值的题目的数量最多。

可选地，在所述获取题目的初始难度标签之后，还包括：

根据题目属性对所述题目的初始难度标签进行调整，获取调整后的初始难度标签；

所述根据所述题目的初始难度标签建立针对于题目难度的先验分布，包括：根据所述题目调整后的初始难度标签建立针对于题目难度的先验分布。

可选地，所述题目属性至少包括以下一种：题目题型和题目涉及的知识点数量。

可选地，所述交互数据至少包括用户对所述题目的作答时间；

所述在获取针对于所述题目的交互数据之后，还包括：

对于同一用户对同一题目多次作答得到的多个交互数据，过滤除第一次作答得到的交互数据之外的其他交互数据；和/或，

对于同一题目对应的交互数据，过滤掉所述作答时间不在预设范围内的交互数据。

可选地，所述交互数据至少包括用户对所述题目作答的正误情况；

所述先验分布和所述后验分布均为beta分布；

所述基于所述交互数据对所述先验分布进行修正，包括：

根据用户对所述题目作答的正误情况统计出所述交互数据中用户作答正确的数量和作答错误的数量；

根据所述交互数据中用户作答正确的数量和作答错误的数量对所述先验分布进行修正。

可选地，所述题目修正后的难度标签为所述后验分布的期望值。

根据本申请实施例的第二方面，提供一种题目推荐装置，所述装置包括：

题目数据获取模块，用于获取题目的初始难度标签以及针对于所述题目的交互数据；所述交互数据表征用户对所述题目的作答情况；

题目难度修正模块，用于根据所述题目的初始难度标签建立关于题目难度的先验分布，并基于所述用户的交互数据对所述先验分布进行修正，获取关于题目难度的后验分布；

题目难度确定模块，用于根据所述题目难度的后验分布确定所述题目修正后的难度标签；

题目推荐模块，用于根据所述题目修正后的难度标签进行题目推荐。

根据本申请实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储可执行指令的存储器；

其中，所述处理器执行所述可执行指令时，被配置为实现第一方面任意一项所述的方法。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现本申请实施例的第一方面中任一所述方法的步骤。

本申请实施例具有如下有益效果：

本申请实施例使用贝叶斯推断来进行题目难度的迭代更新，首先基于题目的初始难度标签建立针对于题目难度的先验分布，然后基于交互数据对所述先验分布进行修正以获取针对于题目难度的后验分布，当交互数据较少时，交互数据对题目难度产生的调节作用也较小，相应的，初始难度对题目难度产生的影响较大；而当交互数据较多时，交互数据对题目难度产生的调节作用也较大，相应的，初始难度对题目难度的影响就下降了，从而有效平衡了题目的初始难度标签和所述交互数据分别对题目难度的影响，也有利于消除交互数据的数据偶然性误差，保证了最终得到的题目难度的准确性和稳定性，从而基于所述题目修正后的难度标签进行精准推荐。

附图说明

图1为本申请根据一示例性实施例示出的一种题目推荐方法的实施例流程图；

图2为本申请根据一示例性实施例示出的第二种题目推荐方法的实施例流程图；

图3为本申请根据一示例性实施例示出的第三种题目推荐方法的实施例流程图；

图4为本申请根据一示例性实施例示出的一种题目推荐装置的实施例结构图；

图5为本申请根据一示例性实施例示出的一种电子设备的硬件结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在教学环节中，***。

相关技术中关于题目难度的标注通常是基于答题交互数据的题目难度确定方法，即直接根据答题准确率作为题目难度。但这种方法依赖于题目被练习的次数，若练习的交互记录较少，结果误差较大，且对于海量题库而言，很难保证每道题都被曝光，若题目未被曝光，则没有相应的难度标签，从而难以实现根据题目难度进行精准推荐。

基于此，请参阅图1，本申请实施例提供了一种题目推荐方法，所述方法可应用于电子设备上，所述电子设备包括但不限于电脑、智能交互平板、手机、服务器或者云端服务器等计算设备，所述方法包括：

在步骤S101中，获取题目的初始难度标签以及针对于所述题目的交互数据；所述交互数据表征用户对所述题目的作答情况。

在步骤S102中，根据所述题目的初始难度标签建立关于题目难度的先验分布，并基于所述交互数据对所述先验分布进行修正，获取关于题目难度的后验分布。

在步骤S103中，根据所述后验分布确定所述题目修正后的难度标签。

在步骤S104中，根据所述题目修正后的难度标签进行题目推荐。

在一实施例中，所述电子设备可以先获取所述题目的初始难度标签，然后根据所述题目的初始难度标签建立针对于题目难度的先验分布，所述针对于题目难度的先验分布反映了在根据交互数据进行统计实验之前根据其他经验或者其他知识而得到的有关于所述题目的题目难度的概率分布，反映的是对于所述题目的题目难度的经验认识，先验分布不必有客观的依据，它可以部分地或完全地基于主观信念。

其中，所述电子设备可以通过以下两种实现方式来获取所述题目的初始难度标签：

在第一种实现方式中，在所述题目对应有初始难度标签的情况下，考虑到人工标注的误差问题，对于统一的题目，不同对象的衡量标准、难度尺度不完全相同，容易造成同一道题或同一类型的题难度具有明显差异，如果直接使用人工标注的结果，可能会使得误差传递，影响后续操作的效果。

基于此，所述电子设备在所述题目对应有初始难度标签的情况下，对所述题目的初始难度标签进行修正，所述电子设备首先获取若干题目的题目信息，所述题目信息包括所述题目涉及的知识点，然后根据所述题目信息确定属于同一知识点下的题目两两之间的相似度，再根据所述属于同一知识点下的题目两两之间的相似度确定所述题目的一个或多个相似题目，最后基于所述一个或多个相似题目的初始难度标签来修正所述本题目的初始难度标签。

本实施例实现了对具有初始难度标签的题目的修正，通过对具有高相似度的题目进行统一的修正，使得具有高相似度的题目具有相同或相近的初始难度标签，提高了题目难度的衡量标准的统一性和规范性，从而也提高了后续操作的准确度。

在第二种实现方式中，若所述题目未对应有初始难度标签，考虑到目前虽然题目内容花样百出，但如果是属于同一个知识点的话，很多题都是换汤不换药，有的题目只是数值不同，有的只是文字背景不同，使用的解题方法是一样的，因为都是基于同一个知识点的内容。

基于此，所述电子设备可以通过聚类将高相似的题目划分到一起，选出其中一个作为需要标注的代表，从而减少标注的数据量，节省人力；在所述题目未对应有初始难度标签的情况下，所述电子设备首先获取若干题目的题目信息，所述题目信息包括所述题目涉及的知识点，然后根据所述题目信息确定属于同一知识点下的题目两两之间的相似度，根据所述属于同一知识点下的题目两两之间的相似度将所述若干题目聚类成一个或多个题目集，从所述题目集中确定代表题目并获取用户标注的所述代表题目的初始难度标签，最后将所述代表题目的初始难度标签也确定为所述题目集中除所述代表题目之外的其他题目的初始难度标签。

本实施例中，考虑到题目未对应有初始难度标签时，人工标注是一个费时费力的工作，因此利用题目间的相似度，通过聚类将高相似的题目划分到一起，选出其中一个作为需要标注的代表，则用户只需标注作为代表的题目的初始难度标签即可，对此类下的其他题进行利用代表题目的初始难度标签进行统一的难度初始化，从而可以减少需要标注的量，减少标注成本，也提高了标注的效率，另一方面，也使得具有高相似度的题目具有相同或相近的初始难度标签，提高了题目难度的衡量标准的统一性和规范性。

在一实施例中，考虑到题目题型或者涉及的知识点数量等题目属性的影响，也会造成题目难度有所不同；在一个例子中，比如同样一道题，作为判断题时有50％的蒙对概率，作为选择题时有25％的蒙对概率，作为填空题时，则较难蒙中，而作为问答题时，不仅要求答案正确，还要求步骤正确，因此这四类题型的题目难度依次递增的；在另一个例子中，涉及多个知识点组合的题目的题目难度显然比仅涉及一个知识点的题目的题目难度更大。

基于此，所述电子设备在获取题目的初始难度标签之后，根据题目属性对所述题目的初始难度标签进行调整，获取调整后的初始难度标签；所述题目属性至少包括以下一种：题目题型和题目涉及的知识点数量。本实施例中，基于题目属性对所述题目的题目难度进行微调，进一步提高所述题目的初始难度标签的准确性。

在一种实现方式中，可以基于实际应用场景为题目属性中的多个属性值分别设置难度调整值，根据不同属性值对应的难度调整值为该属性值下的题目的题目难度进行调整；在一个例子中，可以根据所述题目的初始难度标签与对应的难度调整值之和确定所述题目调整后的初始难度标签。

在一个例子中，比如所述题目属性为题目题型，题目题型包括判断题、选择题、填空题和问答题，设置判断题的难度调整值为-0.2，选择题的难度调整值为-0.1，填空题的难度调整值为0，问答题的难度调整值为+0.1，所述题目的初始难度标签为0.4；如果所述题目是判断题，则所述题目调整后的初始难度标签为0.2(0.4-0.2)；如果所述题目是选择题，则所述题目调整后的初始难度标签为0.3(0.4-0.1)；如果所述题目是填空题，则所述题目调整后的初始难度标签为0.4，即不进行调整；如果所述题目是问答题，则所述题目调整后的初始难度标签为0.5(0.5+0.1)。

在另一个例子中，比如所述题目属性为题目涉及的知识点数量，设置涉及1个知识点的数量的难度调整值为-0.2，涉及2个知识点的数量的难度调整值为-0.1，涉及3个知识点的数量的难度调整值为0，涉及4个知识点的数量的难度调整值为+0.1，所述题目的初始难度标签为0.4，如果涉及1个知识点，则所述题目调整后的初始难度标签为0.2(0.4-0.2)；如果涉及2个知识点，则所述题目调整后的初始难度标签为0.3(0.4-0.1)；如果涉及3个知识点，则所述题目调整后的初始难度标签为0.4，即不进行调整；如果涉及4个知识点，则所述题目调整后的初始难度标签为0.5(0.5+0.1)。

当然，以上均为举例说明，并不构成对本申请的实施例的限制，所述题目属性对于所述题目的初始难度标签的影响所占的权重是比较小的，即基于所述题目属性对所述题目的初始难度标签进行调整的幅度是比较小的，从而避免不同知识点下的题目因受到题目题型或者知识点数量的影响过大，保证最终确定的所述题目的初始难度标签的准确性。

在一实施例中，在获取所述题目的初始难度标签之后，所述电子设备还需获取针对于所述题目的交互数据，所述交互数据表征用户对所述题目的作答情况，然后所述电子设备根据所述题目的初始难度标签建立关于题目难度的先验分布，并基于所述交互数据对所述先验分布进行修正，获取关于题目难度的后验分布，并根据所述后验分布确定所述题目修正后的难度标签，最后根据所述题目修正后的难度标签进行题目推荐。

本申请实施例使用贝叶斯推断来进行题目难度的迭代更新，首先基于题目的初始难度标签建立针对于题目难度的先验分布，然后基于交互数据对所述先验分布进行修正以获取针对于题目难度的后验分布，当交互数据较少时，交互数据对题目难度产生的调节作用也较小，相应的，初始难度对题目难度产生的影响较大；而当交互数据较多时，交互数据对题目难度产生的调节作用也较大，相应的，初始难度对题目难度的影响就下降了，从而有效平衡了题目的初始难度标签和所述交互数据分别对题目难度的影响，也有利于消除交互数据的数据偶然性误差，保证了最终得到的题目难度的准确性和稳定性，从而提高后续基于所述题目修正后的难度标签进行精准推荐的效果。

在一实施例中，所述交互数据至少包括用户对每一道所述题目的作答时间以及对所述题目作答的正误情况，考虑到重复答题会使得题目正确率偏高，但这降低题目正确率与题目难度的相关性，基于此，所述电子设备对于同一用户对同一题目多次作答得到的多个交互数据，过滤除第一次作答得到的交互数据之外的其他交互数据，从而提高后续步骤的准确性。还有，考虑到不同层次学生答题时间差异较大，如果获取所有学生针对于所述题目的交互数据，可能无法反映出准确的题目难度，因此，所述电子设备对于同一题目对应的交互数据，过滤掉作答时间不在预设范围内的交互数据。可以理解的是，所述预设范围可以依据实际应用场景进行具体设置，本申请实施例对此不做任何限制，比如规定的作答时间是20min，则可以获取作答时间在5min～15min之间的交互数据，并将作答时间不在5min～15min之间的交互数据过滤掉。本实施例中，考虑到重复答题会使得题目正确率偏高，且不同层次学生答题时间差异较大的问题，过滤掉相应的交互数据，有利于提高后续操作的准确性。

在一实施例中，在获取所述题目的初始难度标签以及针对于所述题目的交互数据之后，所述电子设备基于所述题目的初始难度标签建立有关于题目难度的先验分布，并基于所述交互数据对所述先验分布进行修正，获取针对于关于题目难度的后验分布，即是说，先验分布+交互数据→后验分布。

其中，所述题目的交互数据包括用户对所述题目作答的正误情况，假设用户对所述题目作答的正误情况仅与题目难度相关，则可以根据所述交互数据令用户作答错误的概率为题目难度的二项分布，记所述交互数据的数量为n，题目难度为θ，令用户作答错误的概率为题目难度的二项分布，则有X～b(n,θ)，表示用户作答错误的概率X服从参数n和θ的二项分布。而根据Beta分布与二项分布的共轭先验性质，用beta分布作为先验分布，根据所述交互数据令用户作答错误的概率为题目难度的二项分布，通过贝叶斯推断之后，得到的关于题目难度的后验分布也为Beta分布。因此，基于该特点，本申请实施例中采用beta分布作为关于题目难度的先验分布，如果所述题目的初始难度标签不在[0,1]的区间内，所述电子设备可以将所述题目的初始难度标签映射到[0,1]的区间内，并根据映射后的初始难度标签获取关于题目难度的先验分布(即beta分布)，具体来说，所述电子设备可以根据映射后的初始难度标签获取beta分布的两个参数，从而确定beta分布，设beta分布的两个参数分别为α和β，设映射后的初始难度标签为θ，则有

则可以用beta(α，β)来表示关于题目难度的先验分布。

在一实施例中，所述交互数据至少包括用户对所述题目作答是否正确的结果的正误情况，则所述电子设备可以根据用户对所述题目作答的正误情况统计出所述交互数据中用户作答正确的数量和作答错误的数量，然后根据所述交互数据中用户作答正确的数量和作答错误的数量对所述先验分布进行修正，得到关于题目难度的后验分布。

即是说，有beta(α，β)表示关于题目难度的先验分布，设所述交互数据中用户作答的总数量为n，作答错误的数量为n_w，则有beta(α，β)+(n_w，n-n_w)→beta(α+n_w，β+n-n_w)，即得到关于题目难度的后验分布可以表示为beta(α+n_w，β+n-n_w)，其中，n-n_w表示所述交互数据中用户作答正确的数量。

在一种实现方式中，所述题目修正后的难度标签可以为所述后验分布的期望值。在一个例子中，设所述题目修正后的难度标签为θ_new，则

进一步地，可以根据所述后验分布获取所述题目修正后的难度标签的方差，设所述方差为S，则

所述题目修正后的难度标签的方差可以用来表示所述题目修正后的难度标签的稳定性。则在一种实现方式中，可以根据多次获取的交互数据对所述题目的初始难度标签分别进行多次修正，并根据所述题目修正后的难度标签的方差选出更稳定的所述题目修正后的难度标签。在另一种实现方式中，考虑到交互数据越多，所述题目修正后的难度标签的方差越小，则可以获取尽可能多的交互数据，对所述题目的初始难度标签构建的先验分布进行修正。

相应的，请参阅图2，本申请实施例还提供了第二种题目推荐方法，所述方法包括：

在步骤S201中，获取若干题目的题目信息，所述题目信息包括所述题目涉及的知识点。

在步骤S202中，根据所述题目信息确定属于同一知识点下的题目两两之间的相似度。

在步骤S203中，若所述题目对应有初始难度标签，根据所述属于同一知识点下的题目两两之间的相似度确定所述题目的一个或多个相似题目。

在步骤S204中，基于所述一个或多个相似题目的初始难度标签来修正所述题目的初始难度标签。

在步骤S205中，获取针对于所述题目的交互数据；所述交互数据表征用户对所述题目的作答情况。与步骤S101类似，此处不再赘述。

在步骤S206中，根据所述题目的初始难度标签建立关于题目难度的先验分布，并基于所述交互数据对所述先验分布进行修正，获取关于题目难度的后验分布。与步骤S102类似，此处不再赘述。

在步骤S207中，根据所述后验分布确定所述题目修正后的难度标签。与步骤S103类似，此处不再赘述。

在步骤S208中，根据所述题目修正后的难度标签进行题目推荐。与步骤S104类似，此处不再赘述。

在所述题目对应有题目难度标签的情况下，考虑到人工标注的误差问题，对于统一的题目，不同对象的衡量标准、难度尺度不完全相同，容易造成同一道题或同一类型的题难度具有明显差异，如果直接使用人工标注的结果，可能会使得误差传递，影响后续操作的效果。

基于此，所述电子设备在所述题目对应有初始难度标签的情况下，对所述题目的初始难度标签进行修正，所述电子设备首先获取若干题目的题目信息，所述题目信息包括所述题目涉及的知识点，然后根据所述题目信息确定属于同一知识点下的题目两两之间的相似度，再根据所述属于同一知识点下的题目两两之间的相似度确定所述题目的一个或多个相似题目，最后基于所述一个或多个相似题目的初始难度标签来修正所述本题目的初始难度标签。本实施例实现了对具有初始难度标签的题目的修正，通过对具有高相似度的题目进行统一的修正，使得具有高相似度的题目具有相同或相近的初始难度标签，提高了题目难度的衡量标准的统一性和规范性，从而也提高了后续操作的准确度。

在一实施例中，所述题目信息还包括题干信息和题目解析信息，所述题干信息和所述题目解析信息以文本方式和/或图像方式展示，其中，和/或表示两者或者两者之一；则在获取所述属于同一知识点下的题目两两之间的相似度时，首先，所述电子设备可以根据以文本方式展示的所述题干信息和/或所述题目解析信息获取所述题目的文本向量，和/或，根据以图像方式展示的所述题干信息和/或所述题目解析信息获取所述题目的图像特征。

其中，对于所述文本向量或者所述图像特征的获取方式，本申请实施例对此不做任何限制；在一个例子中，所述电子设备可以基于Word2vec模型、glove模型、ELMo模型、bert模型或者TF-IDF方法等将以文本方式展示的所述题干信息和所述题目解析信息转化为文本向量；在一个例子中，所述图像特征可以是基于像素点的特征，比如所述图像特征可以是图像的像素值；在一个例子中，所述电子设备可以是基于SIFT(尺度不变特征变换)算法、SURF算法或者方向梯度直方图等特征提取算法从以图像方式展示的所述题干信息和所述题目解析信息中提取出图像特征。

接着，所述电子设备在获取所述文本向量和/或图像特征之后，根据属于同一知识点下的题目的文本向量之间的距离确定文本相似度，和/或，根据属于同一知识点下的题目的图像特征之间的距离确定图像相似度；其中，本申请实施例对于所述属于同一知识点下的题目的文本向量之间的距离、所述属于同一知识点下的题目的图像特征之间的距离的具体计算方式不做任何限制，可依据实际应用场景进行具体设置；在一个例子中，所述电子设备可以计算所述属于同一知识点下的题目的文本向量和/或图像向量之间的余弦距离、欧式距离、曼哈顿距离、汉明距离或者切比雪夫距离等。

最后，所述电子设备根据所述文本相似度和/或所述图像相似度确定属于同一知识点下的题目两两之间的相似度。其中，当所述电子设备根据所述文本相似度和所述图像相似度确定属于同一知识点下的题目两两之间的相似度时，可以为所述文本相似度和所述图像相似度分别设置一个加权系数，通过加权求和的方式获取所述属于同一知识点下的题目两两之间的相似度，即属于同一知识点下的题目两两之间的相似度＝文本相似度*加权系数+图像相似度*加权系数；所述加权系数的取值在0～1之间，所述加权系数的具体取值可依据实际应用场景进行具体设置。本实施例中，只计算属于同一知识点下的题目之间的相似度，保证了确定的题目之间的相似度的准确定和可比性。

在一实施例中，可以根据实际应用场景设置有关于相似度的第一阈值，则所述电子设备可以根据属于同一知识点下的所述题目与其他题目两两之间的相似度是否高于所述第一阈值来确定所述其他题目是否为所述题目的相似题目，若所述相似度高于所述第一阈值，则所述其他题目为所述题目的相似题目，即所述题目的相似题目可以是与所述题目的相似度高于所述第一阈值的题目。

在一实施例中，在确定所述题目的一个或多个相似题目之后，所述电子设备可以基于所述一个或多个相似题目的初始难度标签来修正所述题目的初始难度标签。

若所述题目的初始难度标签为离散值，则所述电子设备将所述相似题目的初始难度标签和所述题目的初始难度标签中频数最高的一个作为所述题目的修正后的初始难度标签；在一个例子中，比如将难度标签设置为(1,2,3)3个等级，难度标签1表示简单，难度标签2表示中等，难度标签3表示困难，所述题目的初始难度标签为1，所述题目有3个相似题目，相似题目1的初始难度标签为2，相似题目2的初始难度标签为3，相似题目3的初始难度标签为2，其中，难度标签2的频数最高，则所述电子设备将所述题目的初始难度标签均修正为2。本实施例中，对具有高相似度的题目进行统一的修正，使得具有高相似度的题目具有相同或相近的初始难度标签，提高了题目难度的衡量标准的统一性和规范性。

若所述题目的初始难度标签为连续值，则所述电子设备将所述相似题目的初始难度标签和所述题目的初始难度标签的加权平均结果作为所述题目的修正后的初始难度标签。在一个例子中，可以基于相似度进行加权求和，即是说，将所述相似度作为加权系数，所述题目有2个相似题目，分别为相似题目1和相似题目2，所述题目与相似题目1的相似度为A1，相似题目1的初始难度标签为B1，所述题目与相似题目2的相似度为A2，相似题目2的初始难度标签为B2，设所述题目修正后的初始难度标签为C，则C＝(A1×B1+A2×B2)/(A1+A2)。在一个例子中，比如将难度标签设置为[0,1]的区间内，所述题目的难度标签为0.2，所述题目有2个相似题目，分别为相似题目1和相似题目2，相似题目1的初始难度标签为0.3，相似题目2的初始难度标签为0.4，所述题目与相似题目1的相似度为0.6，与相似题目2的相似度为0.8，则所述题目修正后的初始难度标签为0.36((0.3×0.6+0.4×0.8)/(0.6+0.8))。

相应的，请参阅图3，本申请实施例还提供了第三种题目推荐方法，所述方法包括：

在步骤S301中，获取若干题目的题目信息，所述题目信息包括所述题目涉及的知识点。

在步骤S302中，根据所述题目信息确定属于同一知识点下的题目两两之间的相似度。

在步骤S303中，若所述题目未对应有初始难度标签，根据所述属于同一知识点下的题目两两之间的相似度将所述若干题目聚类成一个或多个题目集。

在步骤S304中，从所述题目集中确定代表题目并获取用户标注的所述代表题目的初始难度标签。

在步骤S305中，将所述代表题目的初始难度标签也确定为所述题目集中除所述代表题目之外的其他题目的初始难度标签。

在步骤S306中，获取针对于所述题目的交互数据；所述交互数据表征用户对所述题目的作答情况。与步骤S101类似，此处不再赘述。

在步骤S307中，根据所述题目的初始难度标签建立关于题目难度的先验分布，并基于所述交互数据对所述先验分布进行修正，获取关于题目难度的后验分布。与步骤S102类似，此处不再赘述。

在步骤S308中，根据所述后验分布确定所述题目修正后的难度标签。与步骤S103类似，此处不再赘述。

在步骤S309中，根据所述题目修正后的难度标签进行题目推荐。与步骤S104类似，此处不再赘述。

若所述题目未对应有初始难度标签，考虑到目前虽然题目内容花样百出，但如果是属于同一个知识点的话，很多题都是换汤不换药，有的题目只是数值不同，有的只是文字背景不同，使用的解题方法是一样的，因为都是基于同一个知识点的内容。

基于此，所述电子设备可以通过聚类将高相似的题目划分到一起，选出其中一个作为需要标注的代表，从而减少标注的数据量，节省人力；在所述题目未对应有初始难度标签的情况下，所述电子设备首先获取若干题目的题目信息，所述题目信息包括所述题目涉及的知识点，然后根据所述题目信息确定属于同一知识点下的所述题目两两之间的相似度，根据所述属于同一知识点下题目两两之间的相似度将所述若干题目聚类成一个或多个题目集，从所述题目集中确定代表题目并获取用户标注的所述代表题目的初始难度标签，最后将所述代表题目的初始难度标签也确定为所述题目集中除所述代表题目之外的其他题目的初始难度标签。本实施例中，考虑到题目难度无初始值时，人工标注是一个费时费力的工作，因此利用题目间的相似度，通过聚类将高相似的题目划分到一起，选出其中一个作为需要标注的代表，则用户只需标注作为代表的题目的初始难度标签即可，对此类下的其他题进行利用代表题目的初始难度标签进行统一的难度初始化，从而可以减少需要标注的量，减少标注成本，也提高了标注的效率，另一方面，也使得具有高相似度的题目具有相同或相近的初始难度标签，提高了题目难度的衡量标准的统一性和规范性。

在一实施例中，所述题目信息还包括题干信息和题目解析信息，所述题干信息和所述题目解析信息以文本方式和/或图像方式展示，其中，和/或表示两者或者两者之一；则在获取所述属于同一知识点下的题目两两之间的相似度时，首先，所述电子设备可以根据以文本方式展示的所述题干信息和/或所述题目解析信息获取所述题目的文本向量，和/或，根据以图像方式展示的所述题干信息和/或所述题目解析信息获取所述题目的图像特征。其中，对于所述文本向量或者所述图像特征的获取方式，本申请实施例对此不做任何限制；在一个例子中，所述电子设备可以基于Word2vec模型、glove模型、ELMo模型、bert模型或者TF-IDF方法等将以文本方式展示的所述题干信息和所述题目解析信息转化为文本向量；在一个例子中，所述图像特征可以是基于像素点的特征，比如所述图像特征可以是图像的像素值；在一个例子中，所述电子设备可以是基于SIFT(尺度不变特征变换)算法、SURF算法或者方向梯度直方图等特征提取算法从以图像方式展示的所述题干信息和所述题目解析信息中提取出图像特征。

在一实施例中，在所述题目未对应有初始难度标签的情况下，所述电子设备可以根据所述属于同一知识点下的题目两两之间的相似度将所述若干题目聚类成一个或多个题目集，所述题目集中包括一个或多个题目。可以理解的是，本申请实施例对于使用的聚类方法不做任何限制，可依据实际应用场景进行具体设置，例如所述聚类方法可以是K-means方法或者层次聚类方法等。

在一实施例中，在获得一个或多个题目集之后，对于每一个题目集，所述电子设备可以从所述题目集中确定出代表题目，作为其中一种实现方式，所述电子设备可以确定所述题目集中每一个题目与其他题目的相似度高于预设阈值的数量，并将数量最多的一个作为的题目作为所述代表题目，即是说，在所述题目集中，与所述代表题目的相似度高于预设阈值的题目的数量最多。

在选出每个题目集对应的代表题目之后，可以由用户对该代表题目的初始难度标签进行标注，比如，可以将所述代表题目显示在交互界面上，由用户基于自身的经验在所述交互界面上输入该代表题目的初始难度标签。

在获取每个题目集对应的所述代表题目的初始难度标签之后，所述电子设备将所述代表题目的初始难度标签也确定为相应的所述题目集中除所述代表题目之外的其他题目的初始难度标签。本实施例中，用户只需标注题目集的代表题目而无需标注题目集中的所有题目，从而可以减少需要标注的量，减少标注成本，也提高了标注的效率；另一方面，也使得具有高相似度的题目具有相同或相近的初始难度标签，提高了题目难度的衡量标准的统一性和规范性。

与本申请的题目推荐方法的实施例相对应，本申请还提供了题目推荐装置、电子设备以及计算机可读存储介质的实施例。

请参阅图4，为本申请题目推荐装置的一个实施例框图，该装置包括：

题目数据获取模块401，用于获取题目的初始难度标签以及针对于所述题目的交互数据；所述交互数据表征用户对所述题目的作答情况。

题目难度修正模块402，用于根据所述题目的初始难度标签建立关于题目难度的先验分布，并基于所述交互数据对所述先验分布进行修正，获取关于题目难度的后验分布。

题目难度确定模块403，用于根据所述后验分布确定所述题目修正后的难度标签。

题目推荐模块404，用于根据所述题目修正后的难度标签进行题目推荐。

在一实施例中，所述题目数据获取模块401包括：

题目信息获取单元，用于获取若干题目的题目信息，所述题目信息包括所述题目涉及的知识点。

相似度确定单元，用于根据所述题目信息确定属于同一知识点下的题目两两之间的相似度。

相似题目确定单元，用于若所述题目对应有初始难度标签，根据所述属于同一知识点下的题目两两之间的相似度确定所述题目的一个或多个相似题目。

初始难度标签修正单元，用于基于所述一个或多个相似题目的初始难度标签来修正所述题目的初始难度标签。

在一实施例中，所述题目数据获取模块401包括：

题目集确定单元，用于若所述题目未对应有初始难度标签，根据所述属于同一知识点下的题目两两之间的相似度将所述若干题目聚类成一个或多个题目集。

代表题目确定及标注单元，用于从所述题目集中确定代表题目，并获取用户标注的所述代表题目的初始难度标签。

初始难度标签确定单元，用于将所述代表题目的初始难度标签也确定为所述题目集中除所述代表题目之外的其他题目的初始难度标签。

在一实施例中，所述题目信息还包括题干信息和题目解析信息，所述题干信息和所述题目解析信息以文本方式和/或图像方式展示。

所述相似度确定单元包括：

文本向量和/或图像特征确定子单元，用于根据以文本方式展示的所述题干信息和/或所述题目解析信息获取所述题目的文本向量，和/或，根据以图像方式展示的所述题干信息和/或所述题目解析信息获取所述题目的图像特征。

相似度确定子单元，用于根据属于同一知识点下的题目的文本向量之间的距离确定文本相似度，和/或，根据属于同一知识点下的题目的图像特征之间的距离确定图像相似度；以及，根据所述文本相似度和/或所述图像相似度确定属于同一知识点下的题目两两之间的相似度。

在一实施例中，所述初始难度标签修正单元包括：

第一修正子单元，用于若所述题目的初始难度标签为离散值，将所述相似题目的初始难度标签和所述题目的初始难度标签中频数最高的一个作为所述题目的修正后的初始难度标签。

第二修正子单元，用于若所述题目的初始难度标签为连续值，将所述相似题目的初始难度标签和所述题目的初始难度标签的加权平均结果作为所述题目的修正后的初始难度标签。

在一实施例中，在所述题目集中，与所述代表题目的相似度高于预设阈值的题目的数量最多。

在一实施例中，在所述获题目数据获取模块401之后，还包括：

初始难度标签调整模块，用于根据题目属性对所述题目的初始难度标签进行调整，获取调整后的初始难度标签。

所述题目难度修正模块402还包括：根据所述题目调整后的初始难度标签建立针对于题目难度的先验分布。

在一实施例中，所述题目属性至少包括以下一种：题目题型和题目涉及的知识点数量。

在一实施例中，所述交互数据至少包括用户对所述题目的作答时间。

在所述获题目数据获取模块401之后，还包括：

交互数据过滤模块，用于对于同一用户对同一题目多次作答得到的多个交互数据，过滤除第一次作答得到的交互数据之外的其他交互数据；和/或，对于同一题目对应的交互数据，过滤掉所述作答时间不在预设范围内的交互数据。

在一实施例中，所述交互数据至少包括用户对所述题目作答的正误情况；所述先验分布和所述后验分布均为beta分布。

所述题目难度修正模块402还包括：

统计单元，用于根据用户对所述题目作答的正误情况统计出所述交互数据中用户作答正确的数量和作答错误的数量。

修正单元，用于根据所述交互数据中用户作答正确的数量和作答错误的数量对所述先验分布进行修正。

在一实施例中，所述题目修正后的难度标签为所述后验分布的期望值。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，如图5所示本申请还提供一种电子设备50，包括有处理器51；用于存储可执行指令的存储器52，其中，处理器51执行所述可执行指令时，被配置为：

根据所述题目的初始难度标签建立关于题目难度的先验分布，并基于所述用户的交互数据对所述先验分布进行修正，获取关于题目难度的后验分布；

根据所述题目难度的后验分布确定所述题目修正后的难度标签。

所述处理器51执行所述存储器52中包括的可执行指令，所述处理器51可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器52存储继承所述题目推荐方法的可执行指令，所述存储器52可以包括至少一种类型的存储介质，存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且，设备可以与通过网络连接执行存储器的存储功能的网络存储装置协作。存储器52可以是设备50的内部存储单元，例如设备50的硬盘或内存。存储器52也可以是设备50的外部存储设备，例如设备50上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器52还可以既包括设备50的内部存储单元也包括外部存储设备。存储器52用于存储计算机程序55以及设备所需的其他程序和数据。存储器52还可以用于暂时地存储已经输出或者将要输出的数据。

这里描述的各种实施方式可以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施。对于软件实施，诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器中并且由控制器执行。

电子设备50可以是桌上型计算机、笔记本、掌上电脑、服务器、云服务器及手机等计算设备。设备可包括，但不仅限于，处理器51、存储器52。本领域技术人员可以理解，图5仅仅是电子设备50的示例，并不构成对电子设备50的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如设备还可以包括输入输出设备、网络接入设备、总线等。

上述设备中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由装置的处理器执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当存储介质中的指令由终端的处理器执行时，使得终端能够执行上述方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

以上仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种题目推荐方法，其特征在于，包括：

根据所述后验分布确定所述题目修正后的难度标签；

根据所述题目修正后的难度标签进行题目推荐。

2.根据权利要求1所述的方法，其特征在于，所述获取题目的初始难度标签，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取题目的初始难度标签，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述题目信息还包括题干信息和题目解析信息，所述题干信息和所述题目解析信息以文本方式和/或图像方式展示；

5.根据权利要求2所述的方法，其特征在于，所述基于所述一个或多个相似题目的初始难度标签来修正所述题目的初始难度标签，包括：

6.根据权利要求3所述的方法，其特征在于，在所述题目集中，与所述代表题目的相似度高于预设阈值的题目的数量最多。

7.根据权利要求1所述的方法，其特征在于，在所述获取题目的初始难度标签之后，还包括：

8.根据权利要求7所述的方法，其特征在于，所述题目属性至少包括以下一种：题目题型和题目涉及的知识点数量。

9.根据权利要求1所述的方法，其特征在于，所述交互数据至少包括用户对所述题目的作答时间；

所述在获取针对于所述题目的交互数据之后，还包括：

10.根据权利要求9所述的方法，其特征在于，所述交互数据至少包括用户对所述题目作答的正误情况；

所述先验分布和所述后验分布均为beta分布；

所述基于所述交互数据对所述先验分布进行修正，包括：

11.根据权利要求10所述的方法，其特征在于，所述题目修正后的难度标签为所述后验分布的期望值。

12.一种题目推荐装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括：

处理器；

用于存储可执行指令的存储器；

其中，所述处理器执行所述可执行指令时，被配置为实现权利要求1至11任意一项所述的方法。

14.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，该指令被处理器执行时实现权利要求1至11任一所述方法的步骤。