CN105373594A - 一种筛查题库中重复试题的方法及装置 - Google Patents

一种筛查题库中重复试题的方法及装置 Download PDF

Info

Publication number
CN105373594A
CN105373594A CN201510700751.9A CN201510700751A CN105373594A CN 105373594 A CN105373594 A CN 105373594A CN 201510700751 A CN201510700751 A CN 201510700751A CN 105373594 A CN105373594 A CN 105373594A
Authority
CN
China
Prior art keywords
examination question
checked
retry
data characteristics
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510700751.9A
Other languages
English (en)
Other versions
CN105373594B (zh
Inventor
周忠杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201510700751.9A priority Critical patent/CN105373594B/zh
Publication of CN105373594A publication Critical patent/CN105373594A/zh
Application granted granted Critical
Publication of CN105373594B publication Critical patent/CN105373594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种筛查题库中重复试题的方法及装置,该方法包括:按照预设规则从题库中提取试题得到待查重试题;针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合,得到相似试题集合;分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题。本发明解决了现有筛查题库中重复试题的方法优化效果差,准确度不高的技术问题,保证题库的质量,降低题库维护成本,大大提高了产品的用户体验。

Description

一种筛查题库中重复试题的方法及装置
技术领域
本发明涉及筛查题库中重复试题的技术领域,尤其涉及一种筛查题库中重复试题的方法及装置。
背景技术
随着互联网时代浪潮到来,传统教育行业慢慢被颠覆,在线教育产品随着这个趋势井喷式的爆发出来,在这些产品之中最为突出的产品类型当属题库类和拍照答疑类,为了解决现在学生作业多,作业中遇到难题无法及时寻求帮助等的问题,题库类和拍照答疑类产品必须保证后台题库量大,尽量使得学生能够从题库中搜索他们想要的题目和答案解析,然而,题库的质量对学生能否快速搜索到他们想要的答案解析和用户体验有着重要影响,甚至决定了该产品是否能够成功。
此类产品中,由于数学题目中含有较多的图形、公式、字母符号,受目前图像识别技术的限制等原因,导致题库中数学题目有大量的重复试题,造成了以下三种情况:
1、服务器压力大,题库维护成本高;
2、搜索耗时增加,用户体验差;
3、推送给学生用户的内容有太多重复内容,用户体验差;
4、题库解析是人工解答,答题成本增加。
发明内容
本发明提供一种筛查题库中重复试题的方法及装置,解决了现有筛查题库中重复试题的方法优化效果差,准确度不高的技术问题,保证题库的质量,降低题库维护成本,大大提高了产品的用户体验。
本发明采用以下技术方案:
第一方面,本发明提供一种筛查题库中重复试题的方法,包括:
按照预设规则从题库中提取试题得到待查重试题;
针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合,得到相似试题集合;
分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题。
进一步地,所述方法还包括:
从所述题库中删除所述与待查重试题重复的试题。
进一步地,所述针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合,得到相似试题集合,具体为:
采用布尔模型和余弦定理分别计算出所述题库中其他试题与所述待查重试题的第一相似度值,如果所述第一相似度值大于预设第一相似度值,则该试题与所述待查重试题相似度较高,得到相似试题集合。
进一步地,所述题库为数学题库;所述数据特征包括数字、字母、汉字和汉字的长度。
进一步地,所述分别提取所述待查重试题的数据特征和所述相似试题集合中每个试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题,包括:
如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字和字母,使用JaroDistance算法判断所述相似试题集合中试题是否与所述待查重试题重复,得到与所述待查重试题重复的试题;
如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字,包含字母,使用Dice系数判断所述相似试题集合中试题是否与所述待查重试题重复,得到与所述待查重试题重复的试题;
如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字和汉字,且汉字的长度小于预设长度,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第二相似度值,并且采用布尔模型和余弦定理计算二者的第三相似度值,根据所述第二相似度值和所述第三相似度值,得到与所述待查重试题重复的试题;
如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母,同时汉字的长度大于或等于所述预设长度,且大写字母小于预设个数,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第四相似度值,并且采用Dice系数计算第五相似度值,根据所述第四相似度值和所述第五相似度值,得到与所述待查重试题重复的试题;
如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母,同时汉字的长度大于或等于所述预设长度,且大写字母大于或等于预设个数,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第六相似度值,根据所述第六相似度值,得到与所述待查重试题重复的试题。
进一步地,所述第一预设相似度值等于0.7;所述第二预设相似度值、第三预设相似度值、第四预设相似度值和第六预设相似度值均等于0.9;所述第五预设相似度值等于1。
第二方面,本发明提供一种筛查题库中重复试题的装置,包括:
待查重试题提取单元,用于按照预设规则从题库中提取试题得到待查重试题;
相似试题集合获取单元,用于针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合,得到相似试题集合;
重复试题获得单元,用于分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题。
进一步地,还包括:重复试题删除单元,用于从所述题库中删除所述与待查重试题重复的试题。
进一步地,所述相似试题集合获取单元,具体用于采用布尔模型和余弦定理分别计算出所述题库中其他试题与所述待查重试题的第一相似度值,如果所述第一相似度值大于预设第一相似度值,则该试题与所述待查重试题相似度较高,得到相似试题集合。
进一步地,所述数据特征包括数字、字母、汉字和汉字的长度。
进一步地,所述重复试题获得单元,具体用于如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字和字母,使用JaroDistance算法判断所述相似试题集合中试题是否与所述待查重试题重复,得到与所述待查重试题重复的试题;如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字,包含字母,使用Dice系数判断所述相似试题集合中试题是否与所述待查重试题重复,得到与所述待查重试题重复的试题;如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字和汉字,且汉字的长度小于预设长度,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第二相似度值,并且采用布尔模型和余弦定理计算二者的第三相似度值,根据所述第二相似度值和所述第三相似度值,得到与所述待查重试题重复的试题;如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母,同时汉字的长度大于或等于所述预设长度,且大写字母小于预设个数,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第四相似度值,并且采用Dice系数计算第五相似度值,根据所述第四相似度值和所述第五相似度值,得到与所述待查重试题重复的试题;如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母,同时汉字的长度大于或等于所述预设长度,且大写字母大于或等于预设个数,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第六相似度值,根据所述第六相似度值,得到与所述待查重试题重复的试题。
本发明提供的技术方案带来如下有益效果:
首先筛选出与待查重试题相似度较高的相似试题集合,然后将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题,针对不同的数据特征利用不同相似度算法来计算相似度,大大提高了重复试题查询的准确度,保证题库的质量,降低题库维护成本,也减少了用户使用题库查询试题的时间,提高了学习效率,大大提高了产品的用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
图1是本发明实施例提供的筛查题库中重复试题的方法第一个实施例的方法流程图。
图2是本发明实施例提供的预设决策树模型实施例的方法流程图。
图3是本发明实施例提供的筛查题库中重复试题的方法第二个实施例的方法流程图。
图4是本发明实施例提供的筛查题库中重复试题的装置的结构方框图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的筛查题库中重复试题的方法第一个实施例的方法流程图。参考图1所示,该筛查题库中重复试题的方法包括:
S101、按照预设规则从题库中提取试题得到待查重试题。
所述预设规则包括遍历算法,即:将题库中序数为1的试题先和序数为2的试题相比较,判断完成后继续循环遍历下去逐个比较。
本实施例中,所述题库为数学题库;当然,在其他一些实施例中,题库也可以为化学题库或者物理题库,区分不同题库有利于题库数据特征的提取,提高用户搜索的效率,便于题库的维护。
S102、针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合,得到相似试题集合。
本实施例中,采用布尔模型和余弦定理分别计算出所述题库中其他试题与所述待查重试题的第一相似度值,如果所述第一相似度值大于预设第一相似度值,则该试题与所述待查重试题相似度较高,得到相似试题集合。预设第一相似度值优选为0.7。当然,在其他一些实施例中,也可以采用其他的聚类算法得到相似试题集合。采用布尔模型和余弦定理计算相似度的原理详情请查看Apachelucene,代码开源,此处不再详述。
S103、分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题。
当题库为数学题库时,所述数据特征包括数字、字母、汉字和汉字的长度。不同类型题库的数据特征选取不同,本实施例以数学题库为例说明。
预设决策树模型针对不同的数据特征选用不同的相似度算法,以提高查重的准确度。
图2是本发明实施例提供的预设决策树模型实施例的方法流程图。参考图2所示,
本实施例中,使用预设决策树模型进行查重具体为:
S1030、如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字和字母,使用JaroDistance算法判断所述相似试题集合中试题是否与所述待查重试题重复,得到与所述待查重试题重复的试题。
JaroDistance算法为:
d j = 0 i f m = 0 1 3 ( m | s 1 | + m | s 2 | + m - t m ) o t h e r w i s e , 其中,S1、S2为待比较相似度的字符串;m为匹配的字符数;t是换位的数目。
如果S1和S2的编辑距离相差不超过那我们就认为这两个字符串相同。
JaroDistance算法的详细内容可以参考相关资料,此处不再详述。
S1031、如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字,包含字母,使用Dice系数判断所述相似试题集合中试题是否与所述待查重试题重复,得到与所述待查重试题重复的试题。
Dice系数可以计算两个字符串的相似度:
Dice(S1,S2)=2*comm(S1,S2)/(leng(S1)+leng(S2));
其中,comm(S1,S2)是S1、S2中相同字符的个数,leng(S1),leng(S2)是字符串S1、S2的长度。
S1032、如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字和汉字,且汉字的长度小于预设长度,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第二相似度值,并且采用布尔模型和余弦定理计算二者的第三相似度值,根据所述第二相似度值和所述第三相似度值,得到与所述待查重试题重复的试题。
具体地,如果所述第二相似度值大于预设第二相似度值,且所述第三相似度值大于预设第三相似度值,则得到与所述待查重试题重复的试题。
预设第二相似度值和预设第三相似度值均优选为0.9。
S1033、如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母,同时汉字的长度大于或等于所述预设长度,且大写字母小于预设个数,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第四相似度值,并且采用Dice系数计算第五相似度值,根据所述第四相似度值和所述第五相似度值,得到与所述待查重试题重复的试题。
具体地,如果所述第四相似度值大于预设第四相似度值,且所述第五相似度值等于预设第五相似度值,则得到与所述待查重试题重复的试题。
预设第四相似度值优选为0.9;预设第五相似度值为1。
S1034、如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母,同时汉字的长度大于或等于所述预设长度,且大写字母大于或等于预设个数,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第六相似度值,根据所述第六相似度值,得到与所述待查重试题重复的试题。
具体地,如果所述第六相似度值大于预设第六相似度值,则得到与所述待查重试题重复的试题。
预设第六相似度值优选为0.9。
上述预设决策树模型仅作为本发明的一个具体实例,采用上述预设决策树模型进行数学题库的查重准确度高,有利于提高题库的质量。当然也可以采用其他的预设决策树模型进行试题查重,并不作为对本发明的限制。
综上,本发明提供的筛查题库中重复试题的方法首先筛选出与待查重试题相似度较高的相似试题集合,然后将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题,针对不同的数据特征利用不同相似度算法来计算相似度,大大提高了重复试题查询的准确度,保证题库的质量,降低题库维护成本,也减少了用户使用题库查询试题的时间,提高了学习效率,大大提高了产品的用户体验。
图3是本发明实施例提供的筛查题库中重复试题的方法第二个实施例的方法流程图。参考图3所示,该筛查题库中重复试题的方法包括:
S101、按照预设规则从题库中提取试题得到待查重试题。
所述预设规则包括遍历算法,即:将题库中序数为1的试题先和序数为2的试题相比较,判断完成后继续循环遍历下去逐个比较。
本实施例中,所述题库为数学题库;当然,在其他一些实施例中,题库也可以为化学题库或者物理题库,区分不同题库有利于题库数据特征的提取,提高用户搜索的效率,便于题库的维护。
S102、针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合,得到相似试题集合。
本实施例中,采用布尔模型和余弦定理分别计算出所述题库中其他试题与所述待查重试题的第一相似度值,如果所述第一相似度值大于预设第一相似度值,则该试题与所述待查重试题相似度较高,得到相似试题集合。预设第一相似度值优选为0.7。当然,在其他一些实施例中,也可以采用其他的聚类算法得到相似试题集合。采用布尔模型和余弦定理计算相似度的原理详情请查看Apachelucene,代码开源,此处不再详述。
S103、分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题。
S104、从所述题库中删除所述与待查重试题重复的试题。
从题库中查找到重复试题后则删除该重复试题,更新题库,提取下一待查重试题重复上述步骤,直到题库中所有试题均进行了查重处理。
本实施例中步骤S101、步骤S102及步骤S103的详细内容请参考图1所示的对应内容,此处不再赘述。
综上,本发明提供的提供的筛查题库中重复试题的方法首先筛选出与待查重试题相似度较高的相似试题集合,然后将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题,将查出的重复试题删除,针对不同的数据特征利用不同相似度算法来计算相似度,大大提高了重复试题查询的准确度,优化了题库的质量,降低题库维护成本,也减少了用户使用题库查询试题的时间,提高了学习效率,大大提高了产品的用户体验。
图4是本发明实施例提供的筛查题库中重复试题的装置的结构方框图。参考图4所示,该筛查题库中重复试题的装置包括:
待查重试题提取单元10,用于按照预设规则从题库中提取试题得到待查重试题;所述预设规则包括遍历算法。
相似试题集合获取单元20,用于针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合,得到相似试题集合;具体用于采用布尔模型和余弦定理分别计算出所述题库中其他试题与所述待查重试题的第一相似度值,如果所述第一相似度值大于预设第一相似度值,则该试题与所述待查重试题相似度较高,得到相似试题集合。
重复试题获得单元30,用于分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中,得到与所述待查重试题重复的试题;所述数据特征包括数字、字母、汉字和汉字的长度;具体用于如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字和字母,使用JaroDistance算法判断所述相似试题集合中试题是否与所述待查重试题重复,得到与所述待查重试题重复的试题;如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字,包含字母,使用Dice系数判断所述相似试题集合中试题是否与所述待查重试题重复,得到与所述待查重试题重复的试题;如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字和汉字,且汉字的长度小于预设长度,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第二相似度值,并且采用布尔模型和余弦定理计算二者的第三相似度值,根据所述第二相似度值和所述第三相似度值,得到与所述待查重试题重复的试题;如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母,同时汉字的长度大于或等于所述预设长度,且大写字母小于预设个数,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第四相似度值,并且采用Dice系数计算第五相似度值,根据所述第四相似度值和所述第五相似度值,得到与所述待查重试题重复的试题;如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母,同时汉字的长度大于或等于所述预设长度,且大写字母大于或等于预设个数,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第六相似度值,根据所述第六相似度值,得到与所述待查重试题重复的试题。
装置的详细内容请参考图1所示的方法,此处不再赘述。
综上,本发明提供的筛查题库中重复试题的装置首先筛选出与待查重试题相似度较高的相似试题集合,然后将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题,将查出的重复试题删除,针对不同的数据特征利用不同相似度算法来计算相似度,大大提高了重复试题查询的准确度,保证题库的质量,降低题库维护成本,也减少了用户使用题库查询试题的时间,提高了学习效率,大大提高了产品的用户体验。
优选地,筛查题库中重复试题的装置还包括重复试题删除单元40,用于从所述题库中删除所述与待查重试题重复的试题。删除与待查重试题重复的试题有利于优化题库,提高题库的质量。
以上内容仅为本发明的较佳实施例,对于本领域的普通技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种筛查题库中重复试题的方法,其特征在于,包括:
按照预设规则从题库中提取试题得到待查重试题;
针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合,得到相似试题集合;
分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述题库中删除所述与待查重试题重复的试题。
3.根据权利要求1所述的方法,其特征在于,所述针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合,得到相似试题集合,具体为:
采用布尔模型和余弦定理分别计算出所述题库中其他试题与所述待查重试题的第一相似度值,如果所述第一相似度值大于预设第一相似度值,则该试题与所述待查重试题相似度较高,得到相似试题集合。
4.根据权利要求3所述的方法,其特征在于,所述题库为数学题库;所述数据特征包括数字、字母、汉字和汉字的长度。
5.根据权利要求4所述的方法,其特征在于,所述分别提取所述待查重试题的数据特征和所述相似试题集合中每个试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题,包括:
如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字和字母,使用JaroDistance算法判断所述相似试题集合中试题是否与所述待查重试题重复,得到与所述待查重试题重复的试题;
如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字,包含字母,使用Dice系数判断所述相似试题集合中试题是否与所述待查重试题重复,得到与所述待查重试题重复的试题;
如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字和汉字,且汉字的长度小于预设长度,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第二相似度值,并且采用布尔模型和余弦定理计算二者的第三相似度值,根据所述第二相似度值和所述第三相似度值,得到与所述待查重试题重复的试题;
如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母,同时汉字的长度大于或等于所述预设长度,且大写字母小于预设个数,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第四相似度值,并且采用Dice系数计算第五相似度值,根据所述第四相似度值和所述第五相似度值,得到与所述待查重试题重复的试题;
如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母,同时汉字的长度大于或等于所述预设长度,且大写字母大于或等于预设个数,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第六相似度值,根据所述第六相似度值,得到与所述待查重试题重复的试题。
6.一种根据权利要求5所述的方法,其特征在于,所述第一预设相似度值等于0.7;所述第二预设相似度值、第三预设相似度值、第四预设相似度值和第六预设相似度值均等于0.9;所述第五预设相似度值等于1。
7.一种筛查题库中重复试题的装置,其特征在于,包括:
待查重试题提取单元,用于按照预设规则从题库中提取试题得到待查重试题;
相似试题集合获取单元,用于针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合,得到相似试题集合;
重复试题获得单元,用于分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题。
8.根据权利要求7所述的筛查题库中重复试题的装置,其特征在于,还包括:
重复试题删除单元,用于从所述题库中删除所述与待查重试题重复的试题。
9.根据权利要求7所述的筛查题库中重复试题的装置,其特征在于,所述相似试题集合获取单元,具体用于采用布尔模型和余弦定理分别计算出所述题库中其他试题与所述待查重试题的第一相似度值,如果所述第一相似度值大于预设第一相似度值,则该试题与所述待查重试题相似度较高,得到相似试题集合。
10.根据权利要求9所述的筛查题库中重复试题的装置,其特征在于,所述数据特征包括数字、字母、汉字和汉字的长度。
11.根据权利要求10所述的筛查题库中重复试题的装置,其特征在于,所述重复试题获得单元,具体用于如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字和字母,使用JaroDistance算法判断所述相似试题集合中试题是否与所述待查重试题重复,得到与所述待查重试题重复的试题;如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字,包含字母,使用Dice系数判断所述相似试题集合中试题是否与所述待查重试题重复,得到与所述待查重试题重复的试题;如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字和汉字,且汉字的长度小于预设长度,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第二相似度值,并且采用布尔模型和余弦定理计算二者的第三相似度值,根据所述第二相似度值和所述第三相似度值,得到与所述待查重试题重复的试题;如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母,同时汉字的长度大于或等于所述预设长度,且大写字母小于预设个数,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第四相似度值,并且采用Dice系数计算第五相似度值,根据所述第四相似度值和所述第五相似度值,得到与所述待查重试题重复的试题;如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母,同时汉字的长度大于或等于所述预设长度,且大写字母大于或等于预设个数,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第六相似度值,根据所述第六相似度值,得到与所述待查重试题重复的试题。
CN201510700751.9A 2015-10-23 2015-10-23 一种筛查题库中重复试题的方法及装置 Active CN105373594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510700751.9A CN105373594B (zh) 2015-10-23 2015-10-23 一种筛查题库中重复试题的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510700751.9A CN105373594B (zh) 2015-10-23 2015-10-23 一种筛查题库中重复试题的方法及装置

Publications (2)

Publication Number Publication Date
CN105373594A true CN105373594A (zh) 2016-03-02
CN105373594B CN105373594B (zh) 2019-05-21

Family

ID=55375793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510700751.9A Active CN105373594B (zh) 2015-10-23 2015-10-23 一种筛查题库中重复试题的方法及装置

Country Status (1)

Country Link
CN (1) CN105373594B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955962A (zh) * 2016-05-10 2016-09-21 北京新唐思创教育科技有限公司 题目相似度的计算方法及装置
CN106023009A (zh) * 2016-05-05 2016-10-12 广东小天才科技有限公司 一种试卷试题库建立方法及***
CN106326417A (zh) * 2016-08-24 2017-01-11 冯玉国 一种试题数据处理方法及***
CN106611058A (zh) * 2016-12-27 2017-05-03 广东小天才科技有限公司 一种试题搜索方法及装置
CN106815372A (zh) * 2017-02-06 2017-06-09 广东小天才科技有限公司 一种基于理科试题库的试题去重方法及装置、用户设备
CN107977347A (zh) * 2017-12-04 2018-05-01 海南云江科技有限公司 一种题目去重方法和计算设备
CN108062333A (zh) * 2016-11-08 2018-05-22 小船出海教育科技(北京)有限公司 劣质题目数据的处理方法和装置
CN109086313A (zh) * 2018-06-27 2018-12-25 马赫 一种基于逆文本相似度进行试题命制排重方法
CN110390019A (zh) * 2019-07-26 2019-10-29 江苏曲速教育科技有限公司 一种试题的聚类方法、去重方法及***
CN110990389A (zh) * 2019-11-29 2020-04-10 上海易点时空网络有限公司 精简题库的方法、装置及计算机可读存储介质
CN111552782A (zh) * 2020-04-30 2020-08-18 尚杰 一种题目搜索处理方法和装置
CN111612370A (zh) * 2020-05-28 2020-09-01 上海卓越睿新数码科技有限公司 快速审核课程内容的技术方法
CN113051886A (zh) * 2021-03-25 2021-06-29 科大讯飞股份有限公司 一种试题查重方法、装置、存储介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629272A (zh) * 2012-03-14 2012-08-08 北京邮电大学 一种基于聚类的考试***试题库优化方法
CN103136302A (zh) * 2011-12-05 2013-06-05 北大方正集团有限公司 试题重复输出的方法和装置
CN104504953A (zh) * 2014-12-30 2015-04-08 浪潮(北京)电子信息产业有限公司 一种随机生成试卷的方法和装置
CN104657923A (zh) * 2015-01-15 2015-05-27 广东小天才科技有限公司 一种试题查重判重方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136302A (zh) * 2011-12-05 2013-06-05 北大方正集团有限公司 试题重复输出的方法和装置
CN102629272A (zh) * 2012-03-14 2012-08-08 北京邮电大学 一种基于聚类的考试***试题库优化方法
CN104504953A (zh) * 2014-12-30 2015-04-08 浪潮(北京)电子信息产业有限公司 一种随机生成试卷的方法和装置
CN104657923A (zh) * 2015-01-15 2015-05-27 广东小天才科技有限公司 一种试题查重判重方法和装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106023009A (zh) * 2016-05-05 2016-10-12 广东小天才科技有限公司 一种试卷试题库建立方法及***
CN105955962A (zh) * 2016-05-10 2016-09-21 北京新唐思创教育科技有限公司 题目相似度的计算方法及装置
CN105955962B (zh) * 2016-05-10 2019-11-05 北京新唐思创教育科技有限公司 题目相似度的计算方法及装置
CN106326417A (zh) * 2016-08-24 2017-01-11 冯玉国 一种试题数据处理方法及***
CN108062333A (zh) * 2016-11-08 2018-05-22 小船出海教育科技(北京)有限公司 劣质题目数据的处理方法和装置
CN106611058A (zh) * 2016-12-27 2017-05-03 广东小天才科技有限公司 一种试题搜索方法及装置
CN106815372A (zh) * 2017-02-06 2017-06-09 广东小天才科技有限公司 一种基于理科试题库的试题去重方法及装置、用户设备
CN107977347B (zh) * 2017-12-04 2021-12-21 海南云江科技有限公司 一种题目去重方法和计算设备
CN107977347A (zh) * 2017-12-04 2018-05-01 海南云江科技有限公司 一种题目去重方法和计算设备
CN109086313A (zh) * 2018-06-27 2018-12-25 马赫 一种基于逆文本相似度进行试题命制排重方法
CN110390019A (zh) * 2019-07-26 2019-10-29 江苏曲速教育科技有限公司 一种试题的聚类方法、去重方法及***
CN110990389A (zh) * 2019-11-29 2020-04-10 上海易点时空网络有限公司 精简题库的方法、装置及计算机可读存储介质
CN111552782A (zh) * 2020-04-30 2020-08-18 尚杰 一种题目搜索处理方法和装置
CN111612370A (zh) * 2020-05-28 2020-09-01 上海卓越睿新数码科技有限公司 快速审核课程内容的技术方法
CN113051886A (zh) * 2021-03-25 2021-06-29 科大讯飞股份有限公司 一种试题查重方法、装置、存储介质及设备
CN113051886B (zh) * 2021-03-25 2023-12-01 科大讯飞股份有限公司 一种试题查重方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN105373594B (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN105373594A (zh) 一种筛查题库中重复试题的方法及装置
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN110334346B (zh) 一种pdf文件的信息抽取方法和装置
CN108052588B (zh) 一种基于卷积神经网络的文档自动问答***的构建方法
CN109766424A (zh) 一种阅读理解模型训练数据的过滤方法及装置
CN111831789B (zh) 一种基于多层语义特征提取结构的问答文本匹配方法
CN105224665A (zh) 一种错题管理方法及***
US20170039297A1 (en) Learning Graph
WO2020074023A1 (zh) 基于深度学习的医学文献中关键句筛选方法及装置
CN112131881B (zh) 信息抽取方法及装置、电子设备、存储介质
CN104008106A (zh) 一种获取热点话题的方法及装置
CN116561538A (zh) 问答评分方法、问答评分装置、电子设备及存储介质
CN110781302A (zh) 文本中事件角色的处理方法、装置、设备及存储介质
CN111143521A (zh) 基于知识图谱的法条检索方法、***、装置及存储介质
CN103136302A (zh) 试题重复输出的方法和装置
CN110688452A (zh) 一种文本语义相似度评估方法、***、介质和设备
US9830533B2 (en) Analyzing and exploring images posted on social media
CN112487020A (zh) 用于SQL to text的图到自然语言语句的转换方法及***
CN110619119A (zh) 文本智能编辑方法、装置及计算机可读存储介质
CN111143507A (zh) 一种基于复合式问题的阅读理解方法
CN106126590A (zh) 一种基于关键信息的无人机侦察视频检索方法
Hasanati et al. Implementation of support vector machine with lexicon based for sentimenT ANALYSIS ON TWITter
CN114329181A (zh) 一种题目推荐方法、装置及电子设备
CN111897955B (zh) 基于编解码的评语生成方法、装置、设备和存储介质
CN110929022A (zh) 一种文本摘要生成方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant