CN105373594A

CN105373594A - 一种筛查题库中重复试题的方法及装置

Info

Publication number: CN105373594A
Application number: CN201510700751.9A
Authority: CN
Inventors: 周忠杰
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2015-10-23
Filing date: 2015-10-23
Publication date: 2016-03-02
Anticipated expiration: 2035-10-23
Also published as: CN105373594B

Abstract

本发明公开了一种筛查题库中重复试题的方法及装置，该方法包括：按照预设规则从题库中提取试题得到待查重试题；针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合，得到相似试题集合；分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征，按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度，得到与所述待查重试题重复的试题。本发明解决了现有筛查题库中重复试题的方法优化效果差，准确度不高的技术问题，保证题库的质量，降低题库维护成本，大大提高了产品的用户体验。

Description

一种筛查题库中重复试题的方法及装置

技术领域

本发明涉及筛查题库中重复试题的技术领域，尤其涉及一种筛查题库中重复试题的方法及装置。

背景技术

随着互联网时代浪潮到来，传统教育行业慢慢被颠覆，在线教育产品随着这个趋势井喷式的爆发出来，在这些产品之中最为突出的产品类型当属题库类和拍照答疑类，为了解决现在学生作业多，作业中遇到难题无法及时寻求帮助等的问题，题库类和拍照答疑类产品必须保证后台题库量大，尽量使得学生能够从题库中搜索他们想要的题目和答案解析，然而，题库的质量对学生能否快速搜索到他们想要的答案解析和用户体验有着重要影响，甚至决定了该产品是否能够成功。

此类产品中，由于数学题目中含有较多的图形、公式、字母符号，受目前图像识别技术的限制等原因，导致题库中数学题目有大量的重复试题，造成了以下三种情况：

1、服务器压力大，题库维护成本高；

2、搜索耗时增加，用户体验差；

3、推送给学生用户的内容有太多重复内容，用户体验差；

4、题库解析是人工解答，答题成本增加。

发明内容

本发明提供一种筛查题库中重复试题的方法及装置，解决了现有筛查题库中重复试题的方法优化效果差，准确度不高的技术问题，保证题库的质量，降低题库维护成本，大大提高了产品的用户体验。

本发明采用以下技术方案：

第一方面，本发明提供一种筛查题库中重复试题的方法，包括：

按照预设规则从题库中提取试题得到待查重试题；

针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合，得到相似试题集合；

分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征，按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度，得到与所述待查重试题重复的试题。

进一步地，所述方法还包括：

从所述题库中删除所述与待查重试题重复的试题。

进一步地，所述针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合，得到相似试题集合，具体为：

采用布尔模型和余弦定理分别计算出所述题库中其他试题与所述待查重试题的第一相似度值，如果所述第一相似度值大于预设第一相似度值，则该试题与所述待查重试题相似度较高，得到相似试题集合。

进一步地，所述题库为数学题库；所述数据特征包括数字、字母、汉字和汉字的长度。

进一步地，所述分别提取所述待查重试题的数据特征和所述相似试题集合中每个试题的数据特征，按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度，得到与所述待查重试题重复的试题，包括：

如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字和字母，使用JaroDistance算法判断所述相似试题集合中试题是否与所述待查重试题重复，得到与所述待查重试题重复的试题；

如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字，包含字母，使用Dice系数判断所述相似试题集合中试题是否与所述待查重试题重复，得到与所述待查重试题重复的试题；

如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字和汉字，且汉字的长度小于预设长度，提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字，使用最大公共子序列计算二者的第二相似度值，并且采用布尔模型和余弦定理计算二者的第三相似度值，根据所述第二相似度值和所述第三相似度值，得到与所述待查重试题重复的试题；

如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母，同时汉字的长度大于或等于所述预设长度，且大写字母小于预设个数，提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字，使用最大公共子序列计算二者的第四相似度值，并且采用Dice系数计算第五相似度值，根据所述第四相似度值和所述第五相似度值，得到与所述待查重试题重复的试题；

如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母，同时汉字的长度大于或等于所述预设长度，且大写字母大于或等于预设个数，提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字，使用最大公共子序列计算二者的第六相似度值，根据所述第六相似度值，得到与所述待查重试题重复的试题。

进一步地，所述第一预设相似度值等于0.7；所述第二预设相似度值、第三预设相似度值、第四预设相似度值和第六预设相似度值均等于0.9；所述第五预设相似度值等于1。

第二方面，本发明提供一种筛查题库中重复试题的装置，包括：

待查重试题提取单元，用于按照预设规则从题库中提取试题得到待查重试题；

相似试题集合获取单元，用于针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合，得到相似试题集合；

重复试题获得单元，用于分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征，按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度，得到与所述待查重试题重复的试题。

进一步地，还包括：重复试题删除单元，用于从所述题库中删除所述与待查重试题重复的试题。

进一步地，所述相似试题集合获取单元，具体用于采用布尔模型和余弦定理分别计算出所述题库中其他试题与所述待查重试题的第一相似度值，如果所述第一相似度值大于预设第一相似度值，则该试题与所述待查重试题相似度较高，得到相似试题集合。

进一步地，所述数据特征包括数字、字母、汉字和汉字的长度。

进一步地，所述重复试题获得单元，具体用于如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字和字母，使用JaroDistance算法判断所述相似试题集合中试题是否与所述待查重试题重复，得到与所述待查重试题重复的试题；如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字，包含字母，使用Dice系数判断所述相似试题集合中试题是否与所述待查重试题重复，得到与所述待查重试题重复的试题；如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字和汉字，且汉字的长度小于预设长度，提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字，使用最大公共子序列计算二者的第二相似度值，并且采用布尔模型和余弦定理计算二者的第三相似度值，根据所述第二相似度值和所述第三相似度值，得到与所述待查重试题重复的试题；如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母，同时汉字的长度大于或等于所述预设长度，且大写字母小于预设个数，提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字，使用最大公共子序列计算二者的第四相似度值，并且采用Dice系数计算第五相似度值，根据所述第四相似度值和所述第五相似度值，得到与所述待查重试题重复的试题；如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母，同时汉字的长度大于或等于所述预设长度，且大写字母大于或等于预设个数，提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字，使用最大公共子序列计算二者的第六相似度值，根据所述第六相似度值，得到与所述待查重试题重复的试题。

本发明提供的技术方案带来如下有益效果：

首先筛选出与待查重试题相似度较高的相似试题集合，然后将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度，得到与所述待查重试题重复的试题，针对不同的数据特征利用不同相似度算法来计算相似度，大大提高了重复试题查询的准确度，保证题库的质量，降低题库维护成本，也减少了用户使用题库查询试题的时间，提高了学习效率，大大提高了产品的用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本发明实施例的内容和这些附图获得其他的附图。

图1是本发明实施例提供的筛查题库中重复试题的方法第一个实施例的方法流程图。

图2是本发明实施例提供的预设决策树模型实施例的方法流程图。

图3是本发明实施例提供的筛查题库中重复试题的方法第二个实施例的方法流程图。

图4是本发明实施例提供的筛查题库中重复试题的装置的结构方框图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的筛查题库中重复试题的方法第一个实施例的方法流程图。参考图1所示，该筛查题库中重复试题的方法包括：

S101、按照预设规则从题库中提取试题得到待查重试题。

所述预设规则包括遍历算法，即：将题库中序数为1的试题先和序数为2的试题相比较，判断完成后继续循环遍历下去逐个比较。

本实施例中，所述题库为数学题库；当然，在其他一些实施例中，题库也可以为化学题库或者物理题库，区分不同题库有利于题库数据特征的提取，提高用户搜索的效率，便于题库的维护。

S102、针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合，得到相似试题集合。

本实施例中，采用布尔模型和余弦定理分别计算出所述题库中其他试题与所述待查重试题的第一相似度值，如果所述第一相似度值大于预设第一相似度值，则该试题与所述待查重试题相似度较高，得到相似试题集合。预设第一相似度值优选为0.7。当然，在其他一些实施例中，也可以采用其他的聚类算法得到相似试题集合。采用布尔模型和余弦定理计算相似度的原理详情请查看Apachelucene，代码开源，此处不再详述。

S103、分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征，按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度，得到与所述待查重试题重复的试题。

当题库为数学题库时，所述数据特征包括数字、字母、汉字和汉字的长度。不同类型题库的数据特征选取不同，本实施例以数学题库为例说明。

预设决策树模型针对不同的数据特征选用不同的相似度算法，以提高查重的准确度。

图2是本发明实施例提供的预设决策树模型实施例的方法流程图。参考图2所示，

本实施例中，使用预设决策树模型进行查重具体为：

S1030、如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字和字母，使用JaroDistance算法判断所述相似试题集合中试题是否与所述待查重试题重复，得到与所述待查重试题重复的试题。

JaroDistance算法为：

d_{j} = \{\begin{matrix} 0 & \begin{matrix} i f & m = 0 \end{matrix} \\ \frac{1}{3} (\frac{m}{| s_{1} |} + \frac{m}{| s_{2} |} + \frac{m - t}{m}) & o t h e r w i s e \end{matrix},

其中，S1、S2为待比较相似度的字符串；m为匹配的字符数；t是换位的数目。

如果S1和S2的编辑距离相差不超过那我们就认为这两个字符串相同。

JaroDistance算法的详细内容可以参考相关资料，此处不再详述。

S1031、如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字，包含字母，使用Dice系数判断所述相似试题集合中试题是否与所述待查重试题重复，得到与所述待查重试题重复的试题。

Dice系数可以计算两个字符串的相似度：

Dice(S1,S2)＝2*comm(S1,S2)/(leng(S1)+leng(S2))；

其中，comm(S1,S2)是S1、S2中相同字符的个数，leng(S1)，leng(S2)是字符串S1、S2的长度。

S1032、如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字和汉字，且汉字的长度小于预设长度，提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字，使用最大公共子序列计算二者的第二相似度值，并且采用布尔模型和余弦定理计算二者的第三相似度值，根据所述第二相似度值和所述第三相似度值，得到与所述待查重试题重复的试题。

具体地，如果所述第二相似度值大于预设第二相似度值，且所述第三相似度值大于预设第三相似度值，则得到与所述待查重试题重复的试题。

预设第二相似度值和预设第三相似度值均优选为0.9。

S1033、如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母，同时汉字的长度大于或等于所述预设长度，且大写字母小于预设个数，提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字，使用最大公共子序列计算二者的第四相似度值，并且采用Dice系数计算第五相似度值，根据所述第四相似度值和所述第五相似度值，得到与所述待查重试题重复的试题。

具体地，如果所述第四相似度值大于预设第四相似度值，且所述第五相似度值等于预设第五相似度值，则得到与所述待查重试题重复的试题。

预设第四相似度值优选为0.9；预设第五相似度值为1。

S1034、如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母，同时汉字的长度大于或等于所述预设长度，且大写字母大于或等于预设个数，提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字，使用最大公共子序列计算二者的第六相似度值，根据所述第六相似度值，得到与所述待查重试题重复的试题。

具体地，如果所述第六相似度值大于预设第六相似度值，则得到与所述待查重试题重复的试题。

预设第六相似度值优选为0.9。

上述预设决策树模型仅作为本发明的一个具体实例，采用上述预设决策树模型进行数学题库的查重准确度高，有利于提高题库的质量。当然也可以采用其他的预设决策树模型进行试题查重，并不作为对本发明的限制。

综上，本发明提供的筛查题库中重复试题的方法首先筛选出与待查重试题相似度较高的相似试题集合，然后将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度，得到与所述待查重试题重复的试题，针对不同的数据特征利用不同相似度算法来计算相似度，大大提高了重复试题查询的准确度，保证题库的质量，降低题库维护成本，也减少了用户使用题库查询试题的时间，提高了学习效率，大大提高了产品的用户体验。

图3是本发明实施例提供的筛查题库中重复试题的方法第二个实施例的方法流程图。参考图3所示，该筛查题库中重复试题的方法包括：

S101、按照预设规则从题库中提取试题得到待查重试题。

S104、从所述题库中删除所述与待查重试题重复的试题。

从题库中查找到重复试题后则删除该重复试题，更新题库，提取下一待查重试题重复上述步骤，直到题库中所有试题均进行了查重处理。

本实施例中步骤S101、步骤S102及步骤S103的详细内容请参考图1所示的对应内容，此处不再赘述。

综上，本发明提供的提供的筛查题库中重复试题的方法首先筛选出与待查重试题相似度较高的相似试题集合，然后将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度，得到与所述待查重试题重复的试题，将查出的重复试题删除，针对不同的数据特征利用不同相似度算法来计算相似度，大大提高了重复试题查询的准确度，优化了题库的质量，降低题库维护成本，也减少了用户使用题库查询试题的时间，提高了学习效率，大大提高了产品的用户体验。

图4是本发明实施例提供的筛查题库中重复试题的装置的结构方框图。参考图4所示，该筛查题库中重复试题的装置包括：

待查重试题提取单元10，用于按照预设规则从题库中提取试题得到待查重试题；所述预设规则包括遍历算法。

相似试题集合获取单元20，用于针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合，得到相似试题集合；具体用于采用布尔模型和余弦定理分别计算出所述题库中其他试题与所述待查重试题的第一相似度值，如果所述第一相似度值大于预设第一相似度值，则该试题与所述待查重试题相似度较高，得到相似试题集合。

重复试题获得单元30，用于分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征，按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中，得到与所述待查重试题重复的试题；所述数据特征包括数字、字母、汉字和汉字的长度；具体用于如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字和字母，使用JaroDistance算法判断所述相似试题集合中试题是否与所述待查重试题重复，得到与所述待查重试题重复的试题；如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字，包含字母，使用Dice系数判断所述相似试题集合中试题是否与所述待查重试题重复，得到与所述待查重试题重复的试题；如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字和汉字，且汉字的长度小于预设长度，提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字，使用最大公共子序列计算二者的第二相似度值，并且采用布尔模型和余弦定理计算二者的第三相似度值，根据所述第二相似度值和所述第三相似度值，得到与所述待查重试题重复的试题；如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母，同时汉字的长度大于或等于所述预设长度，且大写字母小于预设个数，提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字，使用最大公共子序列计算二者的第四相似度值，并且采用Dice系数计算第五相似度值，根据所述第四相似度值和所述第五相似度值，得到与所述待查重试题重复的试题；如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母，同时汉字的长度大于或等于所述预设长度，且大写字母大于或等于预设个数，提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字，使用最大公共子序列计算二者的第六相似度值，根据所述第六相似度值，得到与所述待查重试题重复的试题。

装置的详细内容请参考图1所示的方法，此处不再赘述。

综上，本发明提供的筛查题库中重复试题的装置首先筛选出与待查重试题相似度较高的相似试题集合，然后将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度，得到与所述待查重试题重复的试题，将查出的重复试题删除，针对不同的数据特征利用不同相似度算法来计算相似度，大大提高了重复试题查询的准确度，保证题库的质量，降低题库维护成本，也减少了用户使用题库查询试题的时间，提高了学习效率，大大提高了产品的用户体验。

优选地，筛查题库中重复试题的装置还包括重复试题删除单元40，用于从所述题库中删除所述与待查重试题重复的试题。删除与待查重试题重复的试题有利于优化题库，提高题库的质量。

以上内容仅为本发明的较佳实施例，对于本领域的普通技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，本说明书内容不应理解为对本发明的限制。

Claims

1.一种筛查题库中重复试题的方法，其特征在于，包括：

按照预设规则从题库中提取试题得到待查重试题；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述题库中删除所述与待查重试题重复的试题。

3.根据权利要求1所述的方法，其特征在于，所述针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合，得到相似试题集合，具体为：

4.根据权利要求3所述的方法，其特征在于，所述题库为数学题库；所述数据特征包括数字、字母、汉字和汉字的长度。

5.根据权利要求4所述的方法，其特征在于，所述分别提取所述待查重试题的数据特征和所述相似试题集合中每个试题的数据特征，按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度，得到与所述待查重试题重复的试题，包括：

6.一种根据权利要求5所述的方法，其特征在于，所述第一预设相似度值等于0.7；所述第二预设相似度值、第三预设相似度值、第四预设相似度值和第六预设相似度值均等于0.9；所述第五预设相似度值等于1。

7.一种筛查题库中重复试题的装置，其特征在于，包括：

8.根据权利要求7所述的筛查题库中重复试题的装置，其特征在于，还包括：

重复试题删除单元，用于从所述题库中删除所述与待查重试题重复的试题。

9.根据权利要求7所述的筛查题库中重复试题的装置，其特征在于，所述相似试题集合获取单元，具体用于采用布尔模型和余弦定理分别计算出所述题库中其他试题与所述待查重试题的第一相似度值，如果所述第一相似度值大于预设第一相似度值，则该试题与所述待查重试题相似度较高，得到相似试题集合。

10.根据权利要求9所述的筛查题库中重复试题的装置，其特征在于，所述数据特征包括数字、字母、汉字和汉字的长度。

11.根据权利要求10所述的筛查题库中重复试题的装置，其特征在于，所述重复试题获得单元，具体用于如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字和字母，使用JaroDistance算法判断所述相似试题集合中试题是否与所述待查重试题重复，得到与所述待查重试题重复的试题；如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字，包含字母，使用Dice系数判断所述相似试题集合中试题是否与所述待查重试题重复，得到与所述待查重试题重复的试题；如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字和汉字，且汉字的长度小于预设长度，提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字，使用最大公共子序列计算二者的第二相似度值，并且采用布尔模型和余弦定理计算二者的第三相似度值，根据所述第二相似度值和所述第三相似度值，得到与所述待查重试题重复的试题；如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母，同时汉字的长度大于或等于所述预设长度，且大写字母小于预设个数，提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字，使用最大公共子序列计算二者的第四相似度值，并且采用Dice系数计算第五相似度值，根据所述第四相似度值和所述第五相似度值，得到与所述待查重试题重复的试题；如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母，同时汉字的长度大于或等于所述预设长度，且大写字母大于或等于预设个数，提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字，使用最大公共子序列计算二者的第六相似度值，根据所述第六相似度值，得到与所述待查重试题重复的试题。