CN106815372A - 一种基于理科试题库的试题去重方法及装置、用户设备 - Google Patents

一种基于理科试题库的试题去重方法及装置、用户设备 Download PDF

Info

Publication number
CN106815372A
CN106815372A CN201710065948.9A CN201710065948A CN106815372A CN 106815372 A CN106815372 A CN 106815372A CN 201710065948 A CN201710065948 A CN 201710065948A CN 106815372 A CN106815372 A CN 106815372A
Authority
CN
China
Prior art keywords
examination question
character
question
target
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710065948.9A
Other languages
English (en)
Inventor
涂继宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201710065948.9A priority Critical patent/CN106815372A/zh
Publication of CN106815372A publication Critical patent/CN106815372A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于理科试题库的试题去重方法及装置、用户设备,该方法包括:接收携带有试题内容的试题去重指令;响应所述试题去重指令,从理科试题库包括的所有试题中,搜索与所述试题内容的相似度大于预设相似度阈值的多个目标试题;判断所述试题内容的试题关键字符中是否存在与预设关键字符匹配的第一字符,若存在,针对搜索到的每个所述目标试题,依次提取所述目标试题中的第二字符;比较所述第一字符和所述第二字符是否相同,若相同,则对所述多个目标试题执行试题去重操作。本发明实施例可以提高重复试题的识别率,同时,可以提高去除重题的精度。

Description

一种基于理科试题库的试题去重方法及装置、用户设备
技术领域
本发明涉及智能设备技术领域,尤其涉及一种基于理科试题库的试题去重方法及装置、用户设备。
背景技术
目前,随着历年***工作的开展,试题库里面积累的试题也越来越多,逐步形成了海量的试题库。针对用于学生搜题的海量试题库来说,一方面,需要将重复的试题屏蔽掉,不能让学生搜题时出现许多相同的试题,这就需要对海量的试题库进行去重,另一方面,学生也希望被去重的是重复试题。目前的去重方法是将内容的相似度大于预设相似度阈值的试题屏蔽掉。
然而,针对理科试题来说,即使一个数字不同,或者一个运算符号不同,也不等同于原题,目前的去重方法存在很大的缺陷,容易屏蔽掉较多的非重复试题,使得重复试题的识别率不高。
发明内容
本发明实施例公开了一种基于理科试题库的试题去重方法及装置、用户设备,可以提高重复试题的识别率,同时,可以提高去除重题的精度。
本发明实施例第一方面公开一种基于理科试题库的试题去重方法,包括:
接收携带有试题内容的试题去重指令;
响应所述试题去重指令,从理科试题库包括的所有试题中,搜索与所述试题内容的相似度大于预设相似度阈值的多个目标试题;
判断所述试题内容的试题关键字符中是否存在与预设关键字符匹配的第一字符,若存在,针对搜索到的每个所述目标试题,依次提取所述目标试题中的第二字符;
比较所述第一字符和所述第二字符是否相同,若相同,则对所述多个目标试题执行试题去重操作。
作为一种可选的实施方式,在本发明实施例第一方面中,所述第一字符和所述第二字符均包括多个字符,在比较所述第一字符和所述第二字符相同时,所述方法还包括:
确定所述第一字符包括的多个字符在所述试题内容中出现的第一顺序,以及确定所述第二字符包括的多个字符在所述目标试题中出现的第二顺序;
判断所述第一顺序与所述第二顺序是否相同,若相同,则执行所述的对所述多个目标试题执行试题去重操作的步骤。
作为一种可选的实施方式,在本发明实施例第一方面中,在判断所述第一顺序与所述第二顺序相同时,所述方法还包括:
确定所述第一字符中每个字符在所述试题内容中所处的第一位置,以及确定所述第二字符中每个字符在所述目标试题中所处的第二位置;
判断所述第一位置与所述第二位置是否相同,若相同,则执行所述的对所述多个目标试题执行试题去重操作的步骤。
作为一种可选的实施方式,在本发明实施例第一方面中,所述方法还包括:
若判断所述试题内容的试题关键字符中不存在与预设关键字符匹配的第一字符,则对所述多个目标试题执行试题去重操作。
作为一种可选的实施方式,在本发明实施例第一方面中,所述对所述多个目标试题执行试题去重操作包括:
从所述多个目标试题中选择任一个目标试题作为保留试题,并删除除所述保留试题之外的剩余目标试题;或,
获取所述多个目标试题中每个所述目标试题所占的存储空间,确定存储空间最小的目标试题作为保留试题,并删除除所述保留试题之外的剩余目标试题。
本发明实施例第二方面公开一种试题去重装置,包括:
接收单元,用于接收携带有试题内容的试题去重指令;
搜索单元,用于响应所述试题去重指令,从理科试题库包括的所有试题中,搜索与所述试题内容的相似度大于预设相似度阈值的多个目标试题;
第一判断单元,用于判断所述试题内容的试题关键字符中是否存在与预设关键字符匹配的第一字符;
提取单元,用于当所述第一判断单元判断所述试题内容的试题关键字符中存在与预设关键字符匹配的第一字符时,针对搜索到的每个所述目标试题,依次提取所述目标试题中的第二字符;
比较单元,用于比较所述第一字符和所述第二字符是否相同;
去重单元,用于在所述比较单元比较所述第一字符和所述第二字符相同时,对所述多个目标试题执行试题去重操作。
作为一种可选的实施方式,在本发明实施例第二方面中:所述第一字符和所述第二字符均包括多个字符,所述试题去重装置还包括:
确定单元,用于在所述比较单元比较所述第一字符和所述第二字符相同时,确定所述第一字符包括的多个字符在所述试题内容中出现的第一顺序,以及确定所述第二字符包括的多个字符在所述目标试题中出现的第二顺序;
第二判断单元,用于判断所述第一顺序与所述第二顺序是否相同;
所述去重单元,具体用于当所述第二判断单元判断所述第一顺序与所述第二顺序相同时,对所述多个目标试题执行试题去重操作。
作为一种可选的实施方式,在本发明实施例第二方面中,
所述确定单元,还用于当所述第二判断单元判断所述第一顺序与所述第二顺序相同时,确定所述第一字符中每个字符在所述试题内容中所处的第一位置,以及确定所述第二字符中每个字符在所述目标试题中所处的第二位置;
所述第二判断单元,还用于判断所述第一位置与所述第二位置是否相同;
所述去重单元,具体用于当所述第二判断单元判断所述第一顺序与所述第二顺序相同且所述第一位置与所述第二位置相同时,对所述多个目标试题执行试题去重操作。
作为一种可选的实施方式,在本发明实施例第二方面中,所述去重单元,还用于在所述第一判断单元判断所述试题内容的试题关键字符中不存在与预设关键字符匹配的第一字符时,对所述多个目标试题执行试题去重操作。
作为一种可选的实施方式,在本发明实施例第二方面中,所述去重单元对所述多个目标试题执行试题去重操作的方式具体为:
从所述多个目标试题中选择任一个目标试题作为保留试题,并删除除所述保留试题之外的剩余目标试题;或,
获取所述多个目标试题中每个所述目标试题所占的存储空间,确定存储空间最小的目标试题作为保留试题,并删除除所述保留试题之外的剩余目标试题。
本发明实施例第三方面公开一种用户设备,包括本发明实施例第二方面公开的所述试题去重装置。
与现有技术相比,本发明实施例具备以下有益效果:
本发明实施例中,用户设备可以接收携带有试题内容的试题去重指令;响应试题去重指令,从理科试题库包括的所有试题中,搜索与试题内容的相似度大于预设相似度阈值的多个目标试题;进一步地,用户设备可以判断试题内容的试题关键字符中是否存在与预设关键字符匹配的第一字符,若存在,针对搜索到的每个目标试题,依次提取目标试题中的第二字符,更进一步地,用户设备可以比较第一字符和第二字符是否相同,若相同,则对多个目标试题执行试题去重操作。可见,实施本发明实施例,用户设备可以从相似度大于预设相似度阈值的多个目标试题中,进一步比较试题内容的试题关键字符中的第一字符和目标试题中的第二字符是否相同,如果相同,确定该多个目标试题为重复试题,用户设备可以对该多个目标试题执行试题去重操作,从而可以提高重复试题的识别率,同时,可以提高去除重题的精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于理科试题库的试题去重方法的流程示意图;
图2是本发明实施例公开的另一种基于理科试题库的试题去重方法的流程示意图;
图3是本发明实施例公开的另一种基于理科试题库的试题去重方法的流程示意图;
图4是本发明实施例公开的另一种基于理科试题库的试题去重方法的流程示意图;
图5是本发明实施例公开的一种试题去重装置的结构示意图;
图6是本发明实施例公开的另一种试题去重装置的结构示意图;
图7是本发明实施例公开的一种用户设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种基于理科试题库的试题去重方法及装置、用户设备,可以提高重复试题的识别率。以下进行结合附图进行详细描述。
实施例一
请参阅图1,图1是本发明实施例公开的一种基于理科试题库的试题去重方法的流程示意图。如图1所示,该基于理科试题库的试题去重方法可以包括以下步骤:
101、用户设备接收携带有试题内容的试题去重指令。
本发明实施例中,该用户设备可以为安装有JAVA WEB开发的应用程序并具备联网功能的各种电子设备,比如:智能手机、笔记本电脑、个人计算机(Personal Computer,PC)、个人数字助理(Personal Digital Assistant,PDA)、移动互联网设备(Mobile InternetDevice,MID)、智能穿戴设备(如智能手表、智能手环)等各类电子设备。
其中,该试题内容为针对理科试题的试题内容,该试题内容包括了试题的主要关键信息,可以用于学生根据该试题内容来分析试题,并解答试题。
本发明实施例中,理科试题库中存储有海量的理科试题,可以包括但不限于数学试题、物理试题以及化学试题等,该理科试题库可以存储在服务器中,用户设备通过连接网络就可以访问服务器中理科试题库存储的理科试题了。
其中,该试题去重指令用于对多个重复试题执行去重操作。
102、用户设备响应试题去重指令,从理科试题库包括的所有试题中,搜索与试题内容的相似度大于预设相似度阈值的多个目标试题。
本发明实施例中,可以预先设置一个预设相似度阈值,比如:80%。用户设备可以将该试题内容放入搜索引擎(如lucene搜索引擎)中进行搜索,具体的,将理科试题库包括的所有试题依次与该试题内容进行比对,如果相似度大于预设相似度阈值,则确定该试题为目标试题,并提取所有相似度大于预设相似度阈值的多个目标试题。
可选的,在搜索之前,用户设备可以对试题内容做进一步地处理,比如:删除试题内容中的中英文空格、标点符号等,然后在将处理后的试题内容放入搜索引擎中进行搜索。由于中英文空格、标点符号不影响理科试题的内容,将他们删除后在进行搜索,可以提高筛选的精确度。
103、用户设备判断试题内容的试题关键字符中是否存在与预设关键字符匹配的第一字符,若存在,执行步骤104~105,若不存在,执行步骤106。
本发明实施例中,该试题内容的试题关键字符可以包括但不限于标点符号、文本符号、数字符号、字母符号以及运算符号;该预设关键字符可以包括但不限于数字符号、字母符号以及运算符号,另外,还可以包括用于表征数字、字母、运算等含义的文本字符;该第一字符可以包括但不限于数字符号、字母符号以及运算符号,另外,还可以包括用于表征数字、字母、运算等含义的文本字符。其中,标点符号比如“”,。;数字字符比如1、2、3、4….,字母符号比如a、b、c、d、A、B、C、D….,运算符号比如+、-、×、÷…。
举例来说,假设该预设关键字符包括数字符号、字母符号以及运算符号,如果用户设备判断试题内容的试题关键字符中存在数字符号、字母符号以及运算符号中的一种或多种的组合,则可以确定该试题内容的试题关键字符中存在与预设关键字符匹配的第一字符。
通常,针对理科试题来说,诸如数字符号、字母符号以及运算符号将会影响理科试题的分析及解答,即使试题的相似度大于预设相似度阈值,也不能确保该试题为重复试题。比如,试题1:一张长6分米、宽4分米的长方形一共可剪成多少个底和高都是2分米的直角三角形?试题2:一张长5分米、宽4分米的长方形一共可剪成多少个底和高都是2分米的直角三角形?该试题1和试题2的相似度大于预设相似度阈值,但该试题1和试题2是两个不同的试题。
本发明实施例中,如果用户设备判断试题内容的试题关键字符中不存在与预设关键字符匹配的第一字符,则可以直接执行步骤106。
104、用户设备针对搜索到的每个目标试题,依次提取目标试题中的第二字符。
其中,该第二字符可以包括但不限于标点符号、文本符号、数字符号、字母符号以及运算符号。
105、用户设备比较第一字符和第二字符是否相同,若相同,执行步骤106,若不同,执行步骤107。
本发明实施例中,针对搜索到的每个目标试题,用户设备可以比较第一字符和第二字符是否相同,如果每个目标试题中的第二字符与第一字符均相同,则可以确定该多个目标试题为重复试题,可以执行步骤106,如果每个目标试题中的第二字符与第一字符均不同,则可以确定该多个目标试题为非重复试题,可以执行步骤107。
106、用户设备对多个目标试题执行试题去重操作,并结束本流程。
具体的,用户设备对多个目标试题执行试题去重操作包括:
从多个目标试题中选择任一个目标试题作为保留试题,并删除除保留试题之外的剩余目标试题;或,
获取多个目标试题中每个目标试题所占的存储空间,确定存储空间最小的目标试题作为保留试题,并删除除保留试题之外的剩余目标试题。
本发明实施例中,由于该多个目标试题为重复试题,故只需要保留其中一个试题即可,用户设备可以从多个目标试题中选择任一个目标试题作为保留试题,并删除除保留试题之外的剩余目标试题。
或者,可选的,用户设备可以获取多个目标试题中每个目标试题所占的存储空间,确定存储空间最小的目标试题作为保留试题,并删除除保留试题之外的剩余目标试题,这样,不仅可以节省理科试题库的存储空间,同时,还可以存储更多不同的试题。
107、用户设备保留该多个目标试题。
作为另一种可选的实施方式,针对每个目标试题,用户设备比较第一字符和第二字符是否相同,如果相同,提取该目标试题,并统计提取的目标试题的数量,若该数量大于1,则对提取的所有目标试题执行试题去重操作,若该数量等于1,则保留提取的该目标试题;如果不同,则保留该目标试题。
在图1所描述的方法,本发明实施例中,用户设备可以接收携带有试题内容的试题去重指令;响应试题去重指令,从理科试题库包括的所有试题中,搜索与试题内容的相似度大于预设相似度阈值的多个目标试题;进一步地,用户设备可以判断试题内容的试题关键字符中是否存在与预设关键字符匹配的第一字符,若存在,针对搜索到的每个目标试题,依次提取目标试题中的第二字符,更进一步地,用户设备可以比较第一字符和第二字符是否相同,若相同,则对多个目标试题执行试题去重操作。可见,实施本发明实施例,用户设备可以从相似度大于预设相似度阈值的多个目标试题中,进一步比较试题内容的试题关键字符中的第一字符和目标试题中的第二字符是否相同,如果相同,确定该多个目标试题为重复试题,用户设备可以对该多个目标试题执行试题去重操作,从而可以提高重复试题的识别率,同时,可以提高去除重题的精度。
实施例二
请参阅图2,图2是本发明实施例公开的另一种基于理科试题库的试题去重方法的流程示意图。如图2所示,该基于理科试题库的试题去重方法可以包括以下步骤:
201、用户设备接收携带有试题内容的试题去重指令。
202、用户设备响应试题去重指令,从理科试题库包括的所有试题中,搜索与试题内容的相似度大于预设相似度阈值的多个目标试题。
203、用户设备判断试题内容的试题关键字符中是否存在与预设关键字符匹配的第一字符,若存在,执行步骤204~205,若不存在,执行步骤208。
204、用户设备针对搜索到的每个目标试题,依次提取目标试题中的第二字符。
205、用户设备比较第一字符和第二字符是否相同,若相同,执行步骤206~207,若不同,执行步骤209。
206、用户设备确定第一字符包括的多个字符在试题内容中出现的第一顺序,以及确定第二字符包括的多个字符在目标试题中出现的第二顺序。
本发明实施例中,在第一字符和第二字符均为多个字符的情况下,即使字符均相同,但是,字符的不同顺序同样会影响试题的分析以及解答,也即两个试题是不同的。
举例来说,试题1:一个上底为6分米、下底为4分米、高为3分米的梯形的面积是多少?试题2:一个上底为3分米、下底为4分米、高为6分米的梯形的面积是多少?试题1中的数字符号的顺序是6、4、3,试题2中的数字符号的顺序是3、4、6,很显然,数字符号的顺序影响了试题1和试题2的分析与解答,该试题1和试题2是不同的两道题。
207、用户设备判断第一顺序与第二顺序是否相同,若相同,执行步骤208,若不同,执行步骤209。
208、用户设备对多个目标试题执行试题去重操作,并结束本流程。
本发明实施例中,如果用户设备判断试题内容的试题关键字符中存在与预设关键字符匹配的第一字符,且第一字符和第二字符相同,且第一顺序与第二顺序相同,则可以确定该多个目标试题为重复试题,可以对多个目标试题执行试题去重操作;如果用户设备判断试题内容的试题关键字符中不存在与预设关键字符匹配的第一字符,同样用户设备可以对多个目标试题执行试题去重操作。
209、用户设备保留该多个目标试题。
本发明实施例中,如果用户设备判断试题内容的试题关键字符中存在与预设关键字符匹配的第一字符且第一字符和第二字符不同,或者,如果用户设备判断试题内容的试题关键字符中存在与预设关键字符匹配的第一字符且第一字符和第二字符相同且第一顺序与第二顺序不同,则可以保留该多个目标试题。
其中,实施图2所描述的方法中,用户设备可以从相似度大于预设相似度阈值的多个目标试题中,进一步比较试题内容的试题关键字符中的第一字符和目标试题中的第二字符是否相同,如果相同,进一步判断第一字符包括的多个字符在试题内容中出现的第一顺序与第二字符包括的多个字符在目标试题中出现的第二顺序是否相同,如果相同,确定该多个目标试题为重复试题,用户设备可以对该多个目标试题执行试题去重操作,从而可以提高重复试题的识别率。
实施例三
请参阅图3,图3是本发明实施例公开的另一种基于理科试题库的试题去重方法的流程示意图。如图3所示,该基于理科试题库的试题去重方法可以包括以下步骤:
301、用户设备接收携带有试题内容的试题去重指令。
302、用户设备响应试题去重指令,从理科试题库包括的所有试题中,搜索与试题内容的相似度大于预设相似度阈值的多个目标试题。
303、用户设备判断试题内容的试题关键字符中是否存在与预设关键字符匹配的第一字符,若存在,执行步骤304~305,若不存在,执行步骤308。
304、用户设备针对搜索到的每个目标试题,依次提取目标试题中的第二字符。
305、用户设备比较第一字符和第二字符是否相同,若相同,执行步骤306,若不同,执行步骤307。
306、用户设备确定第一字符中每个字符在试题内容中所处的第一位置,以及确定第二字符中每个字符在目标试题中所处的第二位置。
本发明实施例中,在第一字符和第二字符均为多个字符的情况下,即使字符均相同,但是,每个字符所处的位置同样会影响试题的分析以及解答,也即两个试题是不同的。
举例来说,试题1:一个上底为6分米、下底为4分米、高为3分米的梯形的面积是多少?试题2:一个上底为6分米、下底为3分米、高为4分米的梯形的面积是多少?试题1中的数字符号6与试题2中的数字符号6所处的位置是相同的,但是,试题1中的数字符号4与试题2中的数字符号4所处的位置是不同的,试题1中的数字符号3与试题2中的数字符号3所处的位置也是不同的,很显然,数字符号的位置影响了试题1和试题2的分析与解答,该试题1和试题2是不同的两道题。
307、用户设备判断第一位置与第二位置是否相同,若相同,执行步骤308,若不同,执行步骤309。
308、用户设备对多个目标试题执行试题去重操作,并结束本流程。
本发明实施例中,如果用户设备判断试题内容的试题关键字符中存在与预设关键字符匹配的第一字符,且第一字符和第二字符相同,且第一位置与第二位置相同,则可以确定该多个目标试题为重复试题,可以对多个目标试题执行试题去重操作;如果用户设备判断试题内容的试题关键字符中不存在与预设关键字符匹配的第一字符,同样用户设备可以对多个目标试题执行试题去重操作。
309、用户设备保留该多个目标试题。
本发明实施例中,如果用户设备判断试题内容的试题关键字符中存在与预设关键字符匹配的第一字符且第一字符和第二字符不同,或者,如果用户设备判断试题内容的试题关键字符中存在与预设关键字符匹配的第一字符且第一字符和第二字符相同且第一位置与第二位置不同,则可以保留该多个目标试题。
其中,实施图3所描述的方法中,用户设备可以从相似度大于预设相似度阈值的多个目标试题中,进一步比较试题内容的试题关键字符中的第一字符和目标试题中的第二字符是否相同,如果相同,进一步判断第一字符中每个字符在试题内容中所处的第一位置与第二字符中每个字符在目标试题中所处的第二位置是否相同,如果相同,确定该多个目标试题为重复试题,用户设备可以对该多个目标试题执行试题去重操作,从而可以提高重复试题的识别率。
实施例四
请参阅图4,图4是本发明实施例公开的另一种基于理科试题库的试题去重方法的流程示意图。如图4所示,该基于理科试题库的试题去重方法可以包括以下步骤:
401、用户设备接收携带有试题内容的试题去重指令。
402、用户设备响应试题去重指令,从理科试题库包括的所有试题中,搜索与试题内容的相似度大于预设相似度阈值的多个目标试题。
404、用户设备判断试题内容的试题关键字符中是否存在与预设关键字符匹配的第一字符,若存在,执行步骤404~405,若不存在,执行步骤409。
404、用户设备针对搜索到的每个目标试题,依次提取目标试题中的第二字符。
405、用户设备比较第一字符和第二字符是否相同,若相同,执行步骤406~408,若不同,执行步骤410。
406、用户设备确定第一字符包括的多个字符在试题内容中出现的第一顺序,以及确定第一字符中每个字符在试题内容中所处的第一位置。
407、用户设备确定第二字符包括的多个字符在目标试题中出现的第二顺序,以及确定第二字符中每个字符在目标试题中所处的第二位置。
可选的,步骤406以及407可以同时执行,也可以先执行步骤406后执行步骤407,或者,也可以先执行步骤407后执行步骤406,本发明实施例不做限定。
408、用户设备判断第一顺序与第二顺序是否相同,以及判断第一位置与第二位置是否相同,若第一顺序与第二顺序相同且第一位置与第二位置相同,执行步骤409,若第一顺序与第二顺序不同和/或第一位置与第二位置不同,执行步骤410。
可选的,用户设备可以同时判断第一顺序与第二顺序是否相同,以及判断第一位置与第二位置是否相同,或者,用户设备可以先判断第一顺序与第二顺序是否相同,若相同,再判断第一位置与第二位置是否相同,或者,用户设备可以先判断判断第一位置与第二位置是否相同,若相同,再判断第一顺序与第二顺序是否相同,本发明实施例不做限定。
409、用户设备对多个目标试题执行试题去重操作,并结束本流程。
410、用户设备保留该多个目标试题。
其中,实施图4所描述的方法中,用户设备可以从相似度大于预设相似度阈值的多个目标试题中,进一步比较试题内容的试题关键字符中的第一字符和目标试题中的第二字符是否相同,如果相同,进一步判断第一字符包括的多个字符在试题内容中出现的第一顺序与第二字符包括的多个字符在目标试题中出现的第二顺序是否相同,以及判断第一字符中每个字符在试题内容中所处的第一位置与第二字符中每个字符在目标试题中所处的第二位置是否相同,如果第一顺序与第二顺序相同且第一位置与第二位置相同,则确定该多个目标试题为重复试题,用户设备可以对该多个目标试题执行试题去重操作,从而可以提高重复试题的识别率。
实施例五
请参阅图5,图5是本发明实施例公开的一种试题去重装置的结构示意图。其中,该试题去重装置可以用于执行图1~图4中所描述方法中的部分或全部步骤,具体请参见图1~图4中的相关描述,在此不再赘述。如图5所示,该试题去重装置可以包括:
接收单元501,用于接收携带有试题内容的试题去重指令;
搜索单元502,用于响应所述试题去重指令,从理科试题库包括的所有试题中,搜索与所述试题内容的相似度大于预设相似度阈值的多个目标试题;
第一判断单元503,用于判断所述试题内容的试题关键字符中是否存在与预设关键字符匹配的第一字符;
提取单元504,用于当所述第一判断单元503判断所述试题内容的试题关键字符中存在与预设关键字符匹配的第一字符时,针对搜索到的每个所述目标试题,依次提取所述目标试题中的第二字符;
比较单元505,用于比较所述第一字符和所述第二字符是否相同;
去重单元506,用于在所述比较单元505比较所述第一字符和所述第二字符相同时,对所述多个目标试题执行试题去重操作。
可选的,所述去重单元506,还用于在所述第一判断单元503判断所述试题内容的试题关键字符中不存在与预设关键字符匹配的第一字符时,对所述多个目标试题执行试题去重操作。
可选的,所述去重单元506对所述多个目标试题执行试题去重操作的方式具体为:
从所述多个目标试题中选择任一个目标试题作为保留试题,并删除除所述保留试题之外的剩余目标试题;或,
获取所述多个目标试题中每个所述目标试题所占的存储空间,确定存储空间最小的目标试题作为保留试题,并删除除所述保留试题之外的剩余目标试题。
其中,在图5所描述的试题去重装置中,可以从相似度大于预设相似度阈值的多个目标试题中,进一步比较试题内容的试题关键字符中的第一字符和目标试题中的第二字符是否相同,如果相同,确定该多个目标试题为重复试题,可以对该多个目标试题执行试题去重操作,从而可以提高重复试题的识别率,同时,可以提高去除重题的精度。
实施例六
请参阅图6,图6是本发明实施例公开的另一种试题去重装置的结构示意图。其中,该试题去重装置可以用于执行图1~图4中所描述方法中的部分或全部步骤,具体请参见图1~图4中的相关描述,在此不再赘述。图6所示的试题去重装置是由于图5所示的试题去重装置进行优化得到的。图6中,第一字符和第二字符均包括多个字符,与图5所示的试题去重装置相比,图6所示的试题去重装置还可以包括:
确定单元507,用于在所述比较单元505比较所述第一字符和所述第二字符相同时,确定所述第一字符包括的多个字符在所述试题内容中出现的第一顺序,以及确定所述第二字符包括的多个字符在所述目标试题中出现的第二顺序;
第二判断单元508,用于判断所述第一顺序与所述第二顺序是否相同;
所述去重单元506,具体用于当所述第二判断单元508判断所述第一顺序与所述第二顺序相同时,对所述多个目标试题执行试题去重操作。
可选的,所述确定单元507,还用于当所述第二判断单元508判断所述第一顺序与所述第二顺序相同时,确定所述第一字符中每个字符在所述试题内容中所处的第一位置,以及确定所述第二字符中每个字符在所述目标试题中所处的第二位置;
所述第二判断单元508,还用于判断所述第一位置与所述第二位置是否相同;
所述去重单元506,具体用于当所述第二判断单元508判断所述第一顺序与所述第二顺序相同且所述第一位置与所述第二位置相同时,对所述多个目标试题执行试题去重操作。
其中,实施图6所描述的试题去重装置,可以从相似度大于预设相似度阈值的多个目标试题中,进一步比较试题内容的试题关键字符中的第一字符和目标试题中的第二字符是否相同,如果相同,确定该多个目标试题为重复试题,可以对该多个目标试题执行试题去重操作,从而可以提高重复试题的识别率,同时,可以提高去除重题的精度。
实施例七
请参阅图7,图7是本发明实施例公开的一种用户设备的结构示意图。其中,图7所示的用户设备包括图5~图6任意一种试题去重装置。实施图7所示的用户设备,可以提高重复试题的识别率,同时,可以提高去除重题的精度。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种基于理科试题库的试题去重方法及装置、用户设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种基于理科试题库的试题去重方法,其特征在于,包括:
接收携带有试题内容的试题去重指令;
响应所述试题去重指令,从理科试题库包括的所有试题中,搜索与所述试题内容的相似度大于预设相似度阈值的多个目标试题;
判断所述试题内容的试题关键字符中是否存在与预设关键字符匹配的第一字符,若存在,针对搜索到的每个所述目标试题,依次提取所述目标试题中的第二字符;
比较所述第一字符和所述第二字符是否相同,若相同,则对所述多个目标试题执行试题去重操作。
2.根据权利要求1所述的方法,其特征在于,所述第一字符和所述第二字符均包括多个字符,在比较所述第一字符和所述第二字符相同时,所述方法还包括:
确定所述第一字符包括的多个字符在所述试题内容中出现的第一顺序,以及确定所述第二字符包括的多个字符在所述目标试题中出现的第二顺序;
判断所述第一顺序与所述第二顺序是否相同,若相同,则执行所述的对所述多个目标试题执行试题去重操作的步骤。
3.根据权利要求2所述的方法,其特征在于,在判断所述第一顺序与所述第二顺序相同时,所述方法还包括:
确定所述第一字符中每个字符在所述试题内容中所处的第一位置,以及确定所述第二字符中每个字符在所述目标试题中所处的第二位置;
判断所述第一位置与所述第二位置是否相同,若相同,则执行所述的对所述多个目标试题执行试题去重操作的步骤。
4.根据权利要求1~3任一项所述的方法,其特征在于,所述方法还包括:
若判断所述试题内容的试题关键字符中不存在与预设关键字符匹配的第一字符,则对所述多个目标试题执行试题去重操作。
5.根据权利要求4所述的方法,其特征在于,所述对所述多个目标试题执行试题去重操作包括:
从所述多个目标试题中选择任一个目标试题作为保留试题,并删除除所述保留试题之外的剩余目标试题;或,
获取所述多个目标试题中每个所述目标试题所占的存储空间,确定存储空间最小的目标试题作为保留试题,并删除除所述保留试题之外的剩余目标试题。
6.一种试题去重装置,其特征在于,包括:
接收单元,用于接收携带有试题内容的试题去重指令;
搜索单元,用于响应所述试题去重指令,从理科试题库包括的所有试题中,搜索与所述试题内容的相似度大于预设相似度阈值的多个目标试题;
第一判断单元,用于判断所述试题内容的试题关键字符中是否存在与预设关键字符匹配的第一字符;
提取单元,用于当所述第一判断单元判断所述试题内容的试题关键字符中存在与预设关键字符匹配的第一字符时,针对搜索到的每个所述目标试题,依次提取所述目标试题中的第二字符;
比较单元,用于比较所述第一字符和所述第二字符是否相同;
去重单元,用于在所述比较单元比较所述第一字符和所述第二字符相同时,对所述多个目标试题执行试题去重操作。
7.根据权利要求6所述的试题去重装置,其特征在于,所述第一字符和所述第二字符均包括多个字符,所述试题去重装置还包括:
确定单元,用于在所述比较单元比较所述第一字符和所述第二字符相同时,确定所述第一字符包括的多个字符在所述试题内容中出现的第一顺序,以及确定所述第二字符包括的多个字符在所述目标试题中出现的第二顺序;
第二判断单元,用于判断所述第一顺序与所述第二顺序是否相同;
所述去重单元,具体用于当所述第二判断单元判断所述第一顺序与所述第二顺序相同时,对所述多个目标试题执行试题去重操作。
8.根据权利要求7所述的试题去重装置,其特征在于,
所述确定单元,还用于当所述第二判断单元判断所述第一顺序与所述第二顺序相同时,确定所述第一字符中每个字符在所述试题内容中所处的第一位置,以及确定所述第二字符中每个字符在所述目标试题中所处的第二位置;
所述第二判断单元,还用于判断所述第一位置与所述第二位置是否相同;
所述去重单元,具体用于当所述第二判断单元判断所述第一顺序与所述第二顺序相同且所述第一位置与所述第二位置相同时,对所述多个目标试题执行试题去重操作。
9.根据权利要求6~8任一项所述的试题去重装置,其特征在于,所述去重单元,还用于在所述第一判断单元判断所述试题内容的试题关键字符中不存在与预设关键字符匹配的第一字符时,对所述多个目标试题执行试题去重操作。
10.根据权利要求9所述的试题去重装置,其特征在于,所述去重单元对所述多个目标试题执行试题去重操作的方式具体为:
从所述多个目标试题中选择任一个目标试题作为保留试题,并删除除所述保留试题之外的剩余目标试题;或,
获取所述多个目标试题中每个所述目标试题所占的存储空间,确定存储空间最小的目标试题作为保留试题,并删除除所述保留试题之外的剩余目标试题。
11.一种用户设备,其特征在于,包括权利要求6~权利要求10任意一项所述的试题去重装置。
CN201710065948.9A 2017-02-06 2017-02-06 一种基于理科试题库的试题去重方法及装置、用户设备 Pending CN106815372A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710065948.9A CN106815372A (zh) 2017-02-06 2017-02-06 一种基于理科试题库的试题去重方法及装置、用户设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710065948.9A CN106815372A (zh) 2017-02-06 2017-02-06 一种基于理科试题库的试题去重方法及装置、用户设备

Publications (1)

Publication Number Publication Date
CN106815372A true CN106815372A (zh) 2017-06-09

Family

ID=59111375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710065948.9A Pending CN106815372A (zh) 2017-02-06 2017-02-06 一种基于理科试题库的试题去重方法及装置、用户设备

Country Status (1)

Country Link
CN (1) CN106815372A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578659A (zh) * 2017-09-27 2018-01-12 广东小天才科技有限公司 电子题目的生成方法、生成装置及终端
CN108984702A (zh) * 2018-07-06 2018-12-11 深圳市卓帆技术有限公司 试题比对方法及***
CN111552782A (zh) * 2020-04-30 2020-08-18 尚杰 一种题目搜索处理方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629272A (zh) * 2012-03-14 2012-08-08 北京邮电大学 一种基于聚类的考试***试题库优化方法
CN105373594A (zh) * 2015-10-23 2016-03-02 广东小天才科技有限公司 一种筛查题库中重复试题的方法及装置
CN105824798A (zh) * 2016-03-03 2016-08-03 云南电网有限责任公司教育培训评价中心 基于试题关键字相似性的试题库中的试题去重方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629272A (zh) * 2012-03-14 2012-08-08 北京邮电大学 一种基于聚类的考试***试题库优化方法
CN105373594A (zh) * 2015-10-23 2016-03-02 广东小天才科技有限公司 一种筛查题库中重复试题的方法及装置
CN105824798A (zh) * 2016-03-03 2016-08-03 云南电网有限责任公司教育培训评价中心 基于试题关键字相似性的试题库中的试题去重方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578659A (zh) * 2017-09-27 2018-01-12 广东小天才科技有限公司 电子题目的生成方法、生成装置及终端
CN108984702A (zh) * 2018-07-06 2018-12-11 深圳市卓帆技术有限公司 试题比对方法及***
CN111552782A (zh) * 2020-04-30 2020-08-18 尚杰 一种题目搜索处理方法和装置

Similar Documents

Publication Publication Date Title
EP3623762B1 (en) Internet text mining-based method and apparatus for judging validity of point of interest
CN108629043B (zh) 网页目标信息的提取方法、装置及存储介质
CN110837550A (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
Fakhari et al. Combination of classification and regression in decision tree for multi-labeling image annotation and retrieval
Chow et al. Multilayer SOM with tree-structured data for efficient document retrieval and plagiarism detection
CN106055539B (zh) 姓名消歧的方法和装置
RU2591175C1 (ru) Способ и система для глобальной идентификации в коллекции документов
CN103617213B (zh) 识别新闻网页属性特征的方法和***
Yates et al. Extracting adverse drug reactions from social media
CN109471944A (zh) 文本分类模型的训练方法、装置及可读存储介质
CN106815372A (zh) 一种基于理科试题库的试题去重方法及装置、用户设备
Allahverdipour et al. An improved k-nearest neighbor with crow search algorithm for feature selection in text documents classification
CN107085583A (zh) 一种基于内容的电子文档管理方法及装置
CN110377690A (zh) 一种基于远程关系抽取的信息获取方法和***
CN108229170A (zh) 利用大数据和神经网络的软件分析方法和装置
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN106537387A (zh) 检索/存储与事件相关联的图像
CN115658080A (zh) 一种软件开源代码成分的识别方法及***
CN109344233A (zh) 一种中文人名识别方法
Guo et al. " Read" More from Business Cards: Toward a Smart Social Contact Management System
EP4270238A1 (en) Extracting content from freeform text samples into custom fields in a software application
Uryupina et al. Multilingual mention detection for coreference resolution
CN114780745A (zh) 用于构建知识体系的方法及装置、电子设备、存储介质
Mittal et al. Evaluation of a hybrid approach of personalized web information retrieval using the FIRE data set
Kaveh-Yazdy et al. Aleph or Aleph-Maddah, that is the question! Spelling correction for search engine autocomplete service

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170609

RJ01 Rejection of invention patent application after publication