CN106599054A - 一种题目分类及推送的方法及*** - Google Patents
一种题目分类及推送的方法及*** Download PDFInfo
- Publication number
- CN106599054A CN106599054A CN201611009278.0A CN201611009278A CN106599054A CN 106599054 A CN106599054 A CN 106599054A CN 201611009278 A CN201611009278 A CN 201611009278A CN 106599054 A CN106599054 A CN 106599054A
- Authority
- CN
- China
- Prior art keywords
- exercise question
- classification
- degree
- word
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及分类领域,尤其涉及一种题目分类及推送的方法及***。本发明通过根据预设知识点分类模型分类第一题目,得到第一分类集合和第一关联度集合;所述第一关联度集合中的元素为所述第一题目与所述第一分类集合中各分类的关联度;计算所述第一题目与所述第一分类集合中各分类包含的题目的相似度,得到与所述第一分类集合中各分类对应的相似度集合;根据所述相似度集合和所述第一关联度集合,得到第二关联度集合;根据所述第二关联度集合,得到近似题集合;推送所述近似题集合。实现提高题目分类的准确性和推送的近题目的相关性。
Description
技术领域
本发明涉及分类领域,尤其涉及一种题目分类及推送的方法及***。
背景技术
大数据时代,每天所产生的数据量***式的增长。K12教育作为中国最重要的教育形式之一,每天产生的数据量不可忽视。中国在线教育的规模正以每年30%以上的速度增长,市场估值将超过1600亿元。k12在线教育资源成为了各个企业必争之地,若能对日益增长的题目数据加以分析利用,合理分类到相应知识点中,当学生遇到难解或薄弱题后,推送与该知识点关联度大的题目供学生深入练习,能提高应用的用户体验。
申请号为201510246727.2的专利文献提供一种题目推荐方法,通过接收检索题目;获取所述检索题目的题目属性信息,并根据所述题目属性信息获取初步检索结果;获取用户的用户描述信息,并根据所述用户描述信息对所述初步检索结果进行排序,得到排序后的结果;从所述排序后的结果后选择预设个数的结果,确定为推荐题目。实现提高推荐题目与检索题目的相关性,从而提高推荐效果。
但是,上述专利文献根据用户描述信息对所述初步检索结果进行排序,其分类结果的准确性依赖于用户描述信息的准确性。
发明内容
本发明所要解决的技术问题是:提供一种题目分类及推送的方法及***,实现提高题目分类的准确性和推送题目的相关性。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种题目分类及推送的方法,包括:
S1、根据预设知识点分类模型分类第一题目,得到第一分类集合和第一关联度集合;所述第一关联度集合中的元素为所述第一题目与所述第一分类集合中各分类的关联度;
S2、计算所述第一题目与所述第一分类集合中各分类包含的题目的相似度,得到与所述第一分类集合中各分类对应的相似度集合;
S3、根据所述相似度集合和所述第一关联度集合,得到第二关联度集合;
S4、根据所述第二关联度集合,得到近似题集合;
S5、推送所述近似题集合。
本发明还提供一种题目分类及推送的***,包括:
分类模块,根据预设知识点分类模型分类第一题目,得到第一分类集合和第一关联度集合;所述第一关联度集合中的元素为所述第一题目与所述第一分类集合中各分类的关联度;
计算模块,用于计算所述第一题目与所述第一分类集合中各分类包含的题目的相似度,得到与所述第一分类集合中各分类对应的相似度集合;
第一处理模块,用于根据所述相似度集合和所述第一关联度集合,得到第二关联度集合;
第二处理模块,用于根据所述第二关联度集合,得到近似题集合;
推送模块,用于推送所述近似题集合。
本发明的有益效果在于:区别于现有技术直接根据分类模型的分类结果推送相关的近似题,本发明通过将第一题目与根据知识点分类模型得到的知识点分类中的题目进行相似度分析,根据相似度计算第一题目与所述知识点分类的关联度,再从关联度较大的知识点分类中提取与第一题目相似度高的题目作为近似题推送给用户,能够提高推送的近似题与第一题目的相关性。
附图说明
图1为本发明一种题目分类及推送的方法的流程框图;
图2为本发明一种题目分类及推送的***的结构框图;
标号说明:
1、分类模块;2、计算模块;3、第一处理模块;4、第二处理模块;5、推送模块。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
本发明最关键的构思在于:通过将第一题目与根据知识点分类模型得到的知识点分类中的题目进行相似度分析,重新计算第一题目与各知识点分类的关联度,能够提高推送的近似题与第一题目的相关性。
如图1所示,本发明提供一种题目分类及推送的方法,包括:
S1、根据预设知识点分类模型分类第一题目,得到第一分类集合和第一关联度集合;所述第一关联度集合中的元素为所述第一题目与所述第一分类集合中各分类的关联度;
S2、计算所述第一题目与所述第一分类集合中各分类包含的题目的相似度,得到与所述第一分类集合中各分类对应的相似度集合;
S3、根据所述相似度集合和所述第一关联度集合,得到第二关联度集合;
S4、根据所述第二关联度集合,得到近似题集合;
S5、推送所述近似题集合。
进一步地,所述S1具体为:
部署不同的预设知识点分类模型于预设分类集群中的各节点;
发送所述第一题目至所述预设分类集群中的各节点,得到所述第一分类集合和所述第一关联度集合。
由上述描述可知,使用分布式集群有利于处理大规模批量题目的近似题推送任务,提高推送的效率。
进一步地,还包括:
获取所述近似题集合中各题目对应的分类,得到第二分类集合;
根据所述第二分类集合更新所述预设知识点分类模型。
由上述描述可知,定期根据分类结果更新知识点分类模型,能够提高分类模型分类的精确度,从而提高推送近似题的相关性。
进一步地,发送所述第一题目至所述预设分类集群中的各节点,得到所述第一分类集合和所述第一关联度集合,具体为:
发送所述第一题目至所述预设分类集群中的各节点,得到与所述节点相应的分类集合和关联度集合;
根据所述节点上部署的知识点分类模型得到所述节点的权重值;
根据所述节点的权重值和所述节点相应的分类集合和关联度集合,得到所述第一分类集合和所述第一关联度集合。
由上述描述可知,分别在分类集群中的节点上部署多种不同的分类模型,因此,各节点得到的分类结果不同,根据各节点上部署的分类模型确定其权重值,综合分析权重值及相应的分类结果,得到与第一题目关联度大的知识点分类。实现根据实际的应用场景调整各节点的权重值,有利于根据用户的不同需求推送最符合用户期望的近似题。
进一步地,所述S1具体为:
根据预设的转义字符转换所述第一题目中的符号,得到第二题目;
提取所述第二题目的特征,得到特征向量;所述特征向量包括词频向量和语义向量;
根据所述预设知识点分类模型,得到与所述特征向量相应的第一分类集合和第一关联度集合。
由上述描述可知,由于不同来源的题目的描述方式可能不同,尤其是不同的公式编辑器对公式中的符号的描述差异较大,因此,通过预设的转义字符转换所述公式中的符号,可归一化不同描述方式但代表相同意思的符号,从而准确并充分利用题目中的信息,提高题目分类的精确度,从而提高推送题目的相关性及获取近似题的效率。
例如:待推送近似题的题目1为“使函数有意义的的正整数取值范围组成的集合的元素有?”。待推送近似题的题目2为“使函数有意义的y=(5-x)1/2的正整数取值范围组成的集合的元素有?”。实际上,题目1和题目2本质上是相同的,但是现有的方法无法充分利用题目中公式的信息,只是推送计算变量的取值范围从而使函数有意义的题目,而无法更具有针对性地推送计算变量的取值范围从而使带有根号的函数有意义的题目。且现有的方法无法识别和判断相同的题目,造成需重复解析同一题目从而获得近似题,效率低。
进一步地,根据所述预设知识点分类模型,得到与所述特征向量相应的第一分类集合和第一关联度集合,具体为:
部署基于词频的知识点分类模型于预设分类集群中的节点;
部署基于语义的知识点分类模型于预设分类集群中的节点;
发送所述第一题目至所述预设分类集群中的各节点,得到所述第一分类集合和所述第一关联度集合。
由上述描述可知,通过所述分类集群得到的与第一题目相关的知识点分类包括从词频和语义两个维度得到的分类结果,由于综合考虑了题目中的词频和语义,能够提高分类的精确度,从而提高推送的近似题与第一题目的相关性。
进一步地,提取所述第二题目的特征,得到特征向量;所述特征向量包括词频向量和语义向量,具体为:
解析所述第二题目,得到中文字符栈和非中文字符栈;
使用切词算法对所述中文字符栈中的字符进行切词处理,并使用预设的正则表达式匹配所述非中文字符栈中存储的公式,得到第三题目;
从所述第三题目中删除停止词,得到第四题目;
根据所述第四题目构建词频向量;所述词频向量中元素的个数为所述第四题目中不同词的数量,所述词频向量中元素的值为与所述元素相应的词在所述第四题目中出现的次数;
根据预设的维度建立语义特征抽取模型;
根据所述语义特征抽取模型构建与所述第四题目相应的语义向量。
由上述描述可知,由于现有的切词算法会删除题目中的非中文字符,只对中文字符进行切词处理,因此,本发明先将题目中的中文字符和非中文字符分别放入不同的栈,对中文字符栈进行切词处理,对非中文字符栈使用正则表达式匹配相应的公式,尽量将公式中可识别的部分分开,能够在保留题目中信息的同时,对题目进行切词,有利于提取题目中的特征向量。此外,使用栈保存中文字符和非中文字符能够保证字符顺序不变,在切词处理过程中不改变题目的原意。再者,删除题目中的停止词,即无意义的词,如“的”、“它”、“在”、“为”、“里面”等,能够更精确地提取题目的特征向量,忽略无关信息,降低特征向量的冗余度。
进一步地,从所述第三题目中删除停止词,得到第四题目,具体为:
计算所述第三题目中各个词的权重;
根据所述权重将所述第三题目中的词排序,形成第一队列;
从所述第三题目中删除与所述第一队列前预设个数元素相应的词,得到第四题目。
由上述描述可知,由于不同学科和不同学龄段的停止词的具体内容不同,现有的停止词获取方法为通过停止词表进行查阅,灵活性和针对性较低,本发明通过停止词计算算法,如TF-IDF算法,计算各个词在题目中的权重,并删除所述第三题目中权重较小的词,能够针对不同学科获得不同的停止词,从而提高获取到的近似题的相关性。
例如,常见词汇“加速度”在物理学科中是经常出现的词汇,而且对题意的理解也是很重要的,然而在生物学中,1000道题目都未必能有这种词汇,因此如果在生物学科中发现有“加速度”,就可以认定为其是停止词,并不能作为生物学科中重要的词看待,可以将其删除。
其中,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母区别于IDF),以防止它偏向长的文件。其计算公式如下:
上述公式中ni,j是该词在文件dj中出现的次数,而分母这是在文件dj中所有字词出现的次数的和。
逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。其公式如下所示:
其中|D|是语料文件的总数,|{j:ti∈dj}|包含词语ti的文件数目,如果该词不在语料库中,就会导致被除数为0,因此一般情况下使用的是1+|{j:ti∈dj}|。最后得到TF-IDF的公式,如下所示:
tf-idfi,j=tfi,j×idfi
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
进一步地,根据所述第二关联度集合,得到近似题集合,具体为:
根据所述第二关联度集合排序所述第一分类集合中的分类,得到第一分类队列;
从所述第一分类队列中获取预设分类数的分类,得到第二分类集合;
获取所述第二分类集合中与所述第一题目的相似度大于预设相似度阈值的题目,得到近似题集合。
由上述描述可知,通过从与第一题目的关联度相关的知识点分类中选取与第一题目相似度较高的题目形成近似题集合,实现提高推送的近似题集合与第一题目的相关性。
如图2所示,本发明还提供一种题目分类及推送的***,包括:
分类模块1,根据预设知识点分类模型分类第一题目,得到第一分类集合和第一关联度集合;所述第一关联度集合中的元素为所述第一题目与所述第一分类集合中各分类的关联度;
计算模块2,用于计算所述第一题目与所述第一分类集合中各分类包含的题目的相似度,得到与所述第一分类集合中各分类对应的相似度集合;
第一处理模块3,用于根据所述相似度集合和所述第一关联度集合,得到第二关联度集合;
第二处理模块4,用于根据所述第二关联度集合,得到近似题集合;
推送模块5,用于推送所述近似题集合。
由上述描述可知,通过所述题目分类及推送的***,实现提高题目分类的精确度,从而进一步提高推送的近似题与第一题目的相关性。
本发明的实施例为:
S1、在预设的分类集群的节点上分别部署基于词频的知识点分类模型和基于语义的知识点分类模型;
其中,所述基于词频的知识点分类模型具体为:
(1)新题目的输入;
(2)将新题目进行latex格式的转换;
(3)文本的切词处理,并根据训练过程得到的停止词,删除对应的停止词
(4)将新题目构建成词频向量;
(5)将词频向量输入到预先训练完成的基于词频的知识点分类模型中,并得到相应的知识点及其权重。
训练所述基于词频的知识点分类模型的过程具体为:
(1)训练题目的输入;
(2)将训练题目转换成latex格式;
(3)文本的切词处理;
(4)利用停止词算法(TF-IDF)计算每个词的权重,并根据设定的阈值得到停止词,将训练题目中的停止词删除;
(5)将每个训练题目都转化成词频向量;
(6)根据分类算法设定相应的参数;
(7)将词频向量都输入到分类算法中进行训练,并得到基于词频的知识点分类模型。
所述基于语义的知识点分类模型具体为:
(1)新题目的输入;
(2)将新题目进行latex格式的转换;
(3)文本的切词处理,并根据训练过程得到的停止词,删除对应的停止词;
(4)将新题目输入预先训练好的语义特征抽取模型中,得到对应的语义向量;
(5)将语义向量输入到预先训练完成的基于语义的知识点分类模型中,并得到相应的知识点及其权重。
训练所述基于语义的知识点分类模型的过程具体为:
(1)训练题目的输入;
(2)将训练题目转换成latex格式;
(3)文本的切词处理;
(4)将切词后的训练题目输入到语义特征抽取模型中(例如word2vec模型),并根据设定的模型参数得到针对训练题目的语义特征抽取模型;
(5)将每个训练题目都输入到语义特征抽取模型中,得到针对每个训练题目的语义向量;
(6)设定相应的分类算法(例如随机森林以及xgboost算法);
(7)将语义向量都输入到分类算法中进行训练,并得到基于语义的知识点分类模型。
S2、发送所述第一题目至所述预设分类集群中的各节点;所述各节点对所述第一题目进行分类处理,具体为:
S21、根据预设的转义字符转换所述第一题目中的符号,得到第二题目;
其中,符号的转义字符为“\sqrt”,符号“=”的转义字符为英文状态下输入的等于号,符号“-”的转义字符为英文状态下输入的减号。经转义字符转换后得到的第二题目为“使函数有意义的y=\sqrt(5-x)正整数取值范围组成的集合的元素有?”
S22、解析所述第二题目,得到中文字符栈和非中文字符栈;
使用切词算法对所述中文字符栈中的字符进行切词处理,并使用预设的正则表达式匹配所述非中文字符栈中存储的公式,得到第三题目;
计算所述第三题目中各个词的权重;
根据所述权重将所述第三题目中的词排序,形成第一队列;
从所述第三题目中删除与所述第一队列前预设个数元素相应的词,得到第四题目;
根据所述第四题目构建词频向量;所述词频向量中元素的个数为所述第四题目中不同词的数量,所述词频向量中元素的值为与所述元素相应的词在所述第四题目中出现的次数;
根据预设的维度建立语义特征抽取模型;
根据所述语义特征抽取模型构建与所述第四题目相应的语义向量;
其中,使用jieba切词算法对所述中文字符栈中的字符进行切词处理,并使用预设的正则表达式匹配所述非中文字符栈中存储的公式,具体为:
利用jieba切词算法首先将中文字符串中的字符进行切词,得到第三题目“使@函数@有意义@的@@的@正整数@取值范围@组成@的@集合@的@元素@有@?”,符号@为表示分隔符。
使用TF-IDF算法计算所述第三题目中各个词的权重,得到所述第三题目中各个词的权重依次为:
“使”:0.05,“函数”:0.51,“有意义”:0.22,“的”:0.02,“y”:0.09,“=”:0.07,“\sqrt”:0.22,“(”:0.01,“5”:0.01,“-”:0.07,“x”:0.07,“)”:0.01,“正整数”:0.49,“取值范围”:0.44,“组成”:0.15,“的”:0.02,“集合”:0.38,“的”:0.02,“元素”:0.35,“有”:0.05,“?”:0.01。从第三题目中删除词的权重较小的词,得到第四题目,所述第四题目为:“函数@有意义@\sqrt@正整数@取值范围@组成@集合@元素”。
统计第四题目中每个词出现的次数,根据所有非停止词所构建的非停止词向量,构建第四题目的词频向量,具体为:
若所有训练集中非停止词的数量为1000个,那么第四题目的词频向量长度为1000,向量中的每个元素代表了对应词在该题目中出现的次数,那么在第四题目中出现的词,例如“函数”只出现一次,那么在第四题目的词频向量中,“函数”所对应的维度值将为1,若该题目中“函数”如果出现了两次,那么“函数”所对应的维度值为2。其余未在该题目中出现的词的维度值都为0。
将第四题目中出现的每个词输入到已经训练好的语义模型中(例如word2vec或者GloVe模型)获得每个词的向量,由于得到的每个词的向量是等长的,因此可以将每个词的向量进行叠加,即相同维度值相加,得到一个包含整个题目的向量,语义模型是一种可以保存语义上下文关系的表示方法,构建第四题目的语义向量的过程具体为:
将第四题目输入到预训练好的语义模型中,可以根据预训练模型的参数设置得到每个词的语义向量,例如:由于实际中每个词的向量长度一般会设置为100到200维,为了说明问题,这里设每个词的向量为4维。
函数 | 0.41 | 0.12 | 0.02 | 0.31 |
有意义 | 0.21 | 0.01 | 0.02 | 0.22 |
\sqrt | 0.02 | 0.08 | 0.06 | 0.05 |
正整数 | 0.35 | 0.14 | 0.21 | 0.33 |
取值范围 | 0.01 | 0.03 | 0.05 | 0.06 |
组成 | 0.23 | 0.41 | 0.05 | 0.02 |
集合 | 0.14 | 0.02 | 0.13 | 0.09 |
元素 | 0.06 | 0.04 | 0.07 | 0.08 |
最后将上面的每个词相同维度的值相加,就可得到第四题目的语义向量:
1.43 | 0.85 | 0.61 | 1.16 |
并将每维上的值都除以第四题目的总词数(8个)得到:
0.17875 | 0.10625 | 0.07625 | 0.145 |
以上就是第四题目的语义向量。
S23、根据所述预设知识点分类模型,得到与所述词频向量和所述语义向量相应的第一分类集合和第一关联度集合;
其中,第一知识点集合为:{集合元素的取值范围,函数的表示方法,集合的表示法,集合中元素的最值,根的存在性和及根的个数判定,函数的值,根式运算},且第四题目与各个知识点的关联度分别为:{0.85,0.04,0.03,0.02,0.03,0.02,0.01}。第二知识点集合为:{集合元素的取值范围,根式运算,集合的表示法,集合中元素的最值,集合的相等,函数的定义域及其求法函数的值},且第四题目与各个知识点的关联度分别为:{0.73,0.08,0.08,0.04,0.04,0.02}。获取第一知识点集合和第二知识点集合中的知识点,形成第三知识点集合。所述第三知识点集合的知识点同时满足第四题目的词频向量和语义向量的特征,与第四题目的关联度较大,第三知识点集合中的知识点所对应的分类形成第一分类集合。
S24、计算所述第一题目与所述第一分类集合中各分类包含的题目的相似度,得到与所述第一分类集合中各分类对应的相似度集合;
根据所述相似度集合和所述第一关联度集合,得到第二关联度集合;
根据所述第二关联度集合排序所述第一分类集合中的分类,得到第一分类队列;
从所述第一分类队列中获取预设分类数的分类,得到第二分类集合;
获取所述第二分类集合中与所述第一题目的相似度大于预设相似度阈值的题目,得到近似题集合;
其中,计算相似度的余弦距离公式如下所示:
其中,x表示第一题目的特征向量,y表示所述分类中各题目的特征向量,cosθ的值越接近1,表示两个题目的相似度越高。
所述第一题目与所述第一分类集合中各分类的第一关联度分别为:
{集合元素的取值范围:1.58,函数的表示方法:0.04,集合的表示法:0.11,集合中元素的最值:0.06,根的存在性和及根的个数判定:0.03,函数的值:0.02,根式运算:0.09,集合中元素的最值:0.04,集合的相等:0.04,函数的定义域及其求法函数的值:0.02}根据相似度集合和第一关联度集合得到第二关联度集合的过程具体为:
(1)获取上述第一分类集合中第一关联度较大的四个元素,即集合元素的取值范围、集合的表示法、根式运算、集合中元素的最值,将题库中所有属于这些知识点的题目的TF-IDF向量提取出来。
(2)分别利用余弦距离公式将所提取出来的题目与第一题目的特征向量计算余弦距离。
(3)将得到所有题目与第一题目的余弦距离进行排序得到第二关联度集合。从第二关联度较大的相应分类中选取与第一题目相似度较高的题目形成近似题集合。
S25、推送所述近似题集合;
S26、获取所述近似题集合中各题目对应的分类,得到第二分类集合;
根据所述第二分类集合更新所述预设知识点分类模型。
其中,更新知识点分类模型的过程具体为:
(1)首先计算题目分词后的题目长度,第四题目为:“函数@有意义@\sqrt@正整数@取值范围@组成@集合@元素”。第四题目的题目长度等于8。
(2)设updateWeight为需要判断的参数,即当第四题目大于5,那么updateWeight=0.5,否则:
即第四题目的updateWeight=0.5。
(3)计算incomeWeight,该值是指该知识点下相似度超过0.1的近似题的平均近似度,假设该知识点下所有题目的集合为A,a∈A,x为当前所查询的题目,如第四题目。
定义A'={x|sim(a,x)>0.1},其中,sim(a,x)为题目a与x的近似度。计算每个知识点的incomeWeight为:
(4)根据如下公式:
newWeight=oldWeight×(1-updateWeight)+incomeWeight×updateWeight
更新每个知识点的权重值,其中newWeight为更新后的该知识点权重,oldWeight为原先知识点的权重,例如第四题目的旧知识点权重分别为:1.58、0.11、0.09、0.06,最终得到的newWeight即为新的知识点权重。
综上所述,本发明提供的一种题目分类及推送的方法及***,通过将第一题目与根据知识点分类模型得到的知识点分类中的题目进行相似度分析,根据相似度计算第一题目与所述知识点分类的关联度,再从关联度较大的知识点分类中提取与第一题目相似度高的题目作为近似题推送给用户,能够提高推送的近似题与第一题目的相关性。进一步地,由上述描述可知,使用分布式集群有利于处理大规模批量题目的近似题推送任务,提高推送的效率。进一步地,定期根据分类结果更新知识点分类模型,能够提高分类模型分类的精确度,从而提高推送近似题的相关性。进一步地,实现根据实际的应用场景调整各节点的权重值,有利于根据用户的不同需求推送最符合用户期望的近似题。进一步地,通过预设的转义字符转换所述公式中的符号,可归一化不同描述方式但代表相同意思的符号,从而准确并充分利用题目中的信息,提高题目分类的精确度,从而提高推送题目的相关性及获取近似题的效率。进一步地,通过综合考虑了题目中的词频和语义,能够提高分类的精确度,从而提高推送的近似题与第一题目的相关性。进一步地,能够在保留题目中信息的同时,对题目进行切词,有利于提取题目中的特征向量。此外,使用栈保存中文字符和非中文字符能够保证字符顺序不变,在切词处理过程中不改变题目的原意。进一步地,本发明通过停止词计算算法,计算各个词在题目中的权重,并删除所述第三题目中权重较小的词,能够针对不同学科获得不同的停止词,从而提高获取到的近似题的相关性。进一步地,通过从与第一题目的关联度相关的知识点分类中选取与第一题目相似度较高的题目形成近似题集合,实现提高推送的近似题集合与第一题目的相关性。本发明还提供一种题目分类及推送的***,通过所述题目分类及推送的***,实现提高题目分类的精确度,从而进一步提高推送的近似题与第一题目的相关性。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种题目分类及推送的方法,其特征在于,包括:
S1、根据预设知识点分类模型分类第一题目,得到第一分类集合和第一关联度集合;所述第一关联度集合中的元素为所述第一题目与所述第一分类集合中各分类的关联度;
S2、计算所述第一题目与所述第一分类集合中各分类包含的题目的相似度,得到与所述第一分类集合中各分类对应的相似度集合;
S3、根据所述相似度集合和所述第一关联度集合,得到第二关联度集合;
S4、根据所述第二关联度集合,得到近似题集合;
S5、推送所述近似题集合。
2.根据权利要求1所述的题目分类及推送的方法,其特征在于,所述S1具体为:
部署不同的预设知识点分类模型于预设分类集群中的各节点;
发送所述第一题目至所述预设分类集群中的各节点,得到所述第一分类集合和所述第一关联度集合。
3.根据权利要求2所述的题目分类及推送的方法,其特征在于,还包括:
获取所述近似题集合中各题目对应的分类,得到第二分类集合;
根据所述第二分类集合更新所述预设知识点分类模型。
4.根据权利要求2所述的题目分类及推送的方法,其特征在于,发送所述第一题目至所述预设分类集群中的各节点,得到所述第一分类集合和所述第一关联度集合,具体为:
发送所述第一题目至所述预设分类集群中的各节点,得到与所述节点相应的分类集合和关联度集合;
根据所述节点上部署的知识点分类模型得到所述节点的权重值;
根据所述节点的权重值和所述节点相应的分类集合和关联度集合,得到所述第一分类集合和所述第一关联度集合。
5.根据权利要求1所述的题目分类及推送的方法,其特征在于,所述S1具体为:
根据预设的转义字符转换所述第一题目中的符号,得到第二题目;
提取所述第二题目的特征,得到特征向量;所述特征向量包括词频向量和语义向量;
根据所述预设知识点分类模型,得到与所述特征向量相应的第一分类集合和第一关联度集合。
6.根据权利要求5所述的题目分类及推送的方法,其特征在于,根据所述预设知识点分类模型,得到与所述特征向量相应的第一分类集合和第一关联度集合,具体为:
部署基于词频的知识点分类模型于预设分类集群中的节点;
部署基于语义的知识点分类模型于预设分类集群中的节点;
发送所述第一题目至所述预设分类集群中的各节点,得到所述第一分类集合和所述第一关联度集合。
7.根据权利要求5所述的题目分类及推送的方法,其特征在于,提取所述第二题目的特征,得到特征向量;所述特征向量包括词频向量和语义向量,具体为:
解析所述第二题目,得到中文字符栈和非中文字符栈;
使用切词算法对所述中文字符栈中的字符进行切词处理,并使用预设的正则表达式匹配所述非中文字符栈中存储的公式,得到第三题目;
从所述第三题目中删除停止词,得到第四题目;
根据所述第四题目构建词频向量;所述词频向量中元素的个数为所述第四题目中不同词的数量,所述词频向量中元素的值为与所述元素相应的词在所述第四题目中出现的次数;
根据预设的维度建立语义特征抽取模型;
根据所述语义特征抽取模型构建与所述第四题目相应的语义向量。
8.根据权利要求7所述的题目分类及推送的方法,其特征在于,从所述第三题目中删除停止词,得到第四题目,具体为:
计算所述第三题目中各个词的权重;
根据所述权重将所述第三题目中的词排序,形成第一队列;
从所述第三题目中删除与所述第一队列前预设个数元素相应的词,得到第四题目。
9.根据权利要求1所述的题目分类及推送的方法,其特征在于,根据所述第二关联度集合,得到近似题集合,具体为:
根据所述第二关联度集合排序所述第一分类集合中的分类,得到第一分类队列;
从所述第一分类队列中获取预设分类数的分类,得到第二分类集合;
获取所述第二分类集合中与所述第一题目的相似度大于预设相似度阈值的题目,得到近似题集合。
10.一种题目分类及推送的***,其特征在于,包括:
分类模块,根据预设知识点分类模型分类第一题目,得到第一分类集合和第一关联度集合;所述第一关联度集合中的元素为所述第一题目与所述第一分类集合中各分类的关联度;
计算模块,用于计算所述第一题目与所述第一分类集合中各分类包含的题目的相似度,得到与所述第一分类集合中各分类对应的相似度集合;
第一处理模块,用于根据所述相似度集合和所述第一关联度集合,得到第二关联度集合;
第二处理模块,用于根据所述第二关联度集合,得到近似题集合;
推送模块,用于推送所述近似题集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611009278.0A CN106599054B (zh) | 2016-11-16 | 2016-11-16 | 一种题目分类及推送的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611009278.0A CN106599054B (zh) | 2016-11-16 | 2016-11-16 | 一种题目分类及推送的方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106599054A true CN106599054A (zh) | 2017-04-26 |
CN106599054B CN106599054B (zh) | 2019-12-24 |
Family
ID=58590375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611009278.0A Active CN106599054B (zh) | 2016-11-16 | 2016-11-16 | 一种题目分类及推送的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106599054B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463553A (zh) * | 2017-09-12 | 2017-12-12 | 复旦大学 | 针对初等数学题目的文本语义抽取、表示与建模方法和*** |
CN108182275A (zh) * | 2018-01-24 | 2018-06-19 | 上海互教教育科技有限公司 | 一种数学变式训练题推送***以及关联方法 |
CN108376132A (zh) * | 2018-03-16 | 2018-08-07 | 中国科学技术大学 | 相似试题的判定方法及*** |
CN108765221A (zh) * | 2018-05-15 | 2018-11-06 | 广西英腾教育科技股份有限公司 | 抽题方法及装置 |
CN109189920A (zh) * | 2018-08-02 | 2019-01-11 | 上海欣方智能***有限公司 | 扫黑案件分类方法及*** |
CN109685137A (zh) * | 2018-12-24 | 2019-04-26 | 上海仁静信息技术有限公司 | 一种题目分类方法、装置、电子设备及存储介质 |
CN109785691A (zh) * | 2019-01-18 | 2019-05-21 | 广东小天才科技有限公司 | 一种通过终端辅助学习的方法和*** |
CN110136512A (zh) * | 2019-04-17 | 2019-08-16 | 许昌学院 | 一种英语等级考试习题及答案解析的自动归类*** |
CN110472044A (zh) * | 2019-07-11 | 2019-11-19 | 平安国际智慧城市科技股份有限公司 | 数学题的知识点分类方法、装置、可读存储介质及服务器 |
CN111881285A (zh) * | 2020-07-28 | 2020-11-03 | 扬州大学 | 一种错题收集及重难点知识提取方法 |
CN112257966A (zh) * | 2020-12-18 | 2021-01-22 | 北京世纪好未来教育科技有限公司 | 模型处理方法、装置、电子设备及存储介质 |
CN112989760A (zh) * | 2019-12-17 | 2021-06-18 | 北京一起教育信息咨询有限责任公司 | 为题目打标签的方法、装置、存储介质及电子设备 |
WO2021253480A1 (zh) * | 2020-06-19 | 2021-12-23 | 平安科技(深圳)有限公司 | 习题智能推荐方法、装置、计算机设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079026A (zh) * | 2007-07-02 | 2007-11-28 | 北京百问百答网络技术有限公司 | 文本相似度、词义相似度计算方法和***及应用*** |
CN101685455A (zh) * | 2008-09-28 | 2010-03-31 | 华为技术有限公司 | 数据检索的方法和*** |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN104834729A (zh) * | 2015-05-14 | 2015-08-12 | 百度在线网络技术(北京)有限公司 | 题目推荐方法和题目推荐装置 |
CN105095223A (zh) * | 2014-04-25 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 文本分类方法及服务器 |
CN105589972A (zh) * | 2016-01-08 | 2016-05-18 | 天津车之家科技有限公司 | 训练分类模型的方法及装置、对搜索词分类的方法及装置 |
CN105893362A (zh) * | 2014-09-26 | 2016-08-24 | 北大方正集团有限公司 | 获取知识点语义向量的方法、确定相关知识点的方法及*** |
CN105930509A (zh) * | 2016-05-11 | 2016-09-07 | 华东师范大学 | 基于统计与模板匹配的领域概念自动抽取精化方法及*** |
CN106021288A (zh) * | 2016-04-27 | 2016-10-12 | 南京慕测信息科技有限公司 | 一种基于自然语言分析的随堂测试答案快速自动分类方法 |
-
2016
- 2016-11-16 CN CN201611009278.0A patent/CN106599054B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079026A (zh) * | 2007-07-02 | 2007-11-28 | 北京百问百答网络技术有限公司 | 文本相似度、词义相似度计算方法和***及应用*** |
CN101685455A (zh) * | 2008-09-28 | 2010-03-31 | 华为技术有限公司 | 数据检索的方法和*** |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN105095223A (zh) * | 2014-04-25 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 文本分类方法及服务器 |
CN105893362A (zh) * | 2014-09-26 | 2016-08-24 | 北大方正集团有限公司 | 获取知识点语义向量的方法、确定相关知识点的方法及*** |
CN104834729A (zh) * | 2015-05-14 | 2015-08-12 | 百度在线网络技术(北京)有限公司 | 题目推荐方法和题目推荐装置 |
CN105589972A (zh) * | 2016-01-08 | 2016-05-18 | 天津车之家科技有限公司 | 训练分类模型的方法及装置、对搜索词分类的方法及装置 |
CN106021288A (zh) * | 2016-04-27 | 2016-10-12 | 南京慕测信息科技有限公司 | 一种基于自然语言分析的随堂测试答案快速自动分类方法 |
CN105930509A (zh) * | 2016-05-11 | 2016-09-07 | 华东师范大学 | 基于统计与模板匹配的领域概念自动抽取精化方法及*** |
Non-Patent Citations (4)
Title |
---|
吴旭等: "面向机构知识库结构化数据的文本相似度评价算法", 《技术研究》 * |
董奥根等: "基于向量空间模型的知识点与试题自动关联方法", 《计算机与现代化》 * |
许鑫: "《基于文本特征计算的信息分析方法》", 30 November 2015, 上海科学技术文献出版社 * |
麦好: "《机器学习实践指南 案例应用解析》", 30 April 2014, 机械工业出版社 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463553A (zh) * | 2017-09-12 | 2017-12-12 | 复旦大学 | 针对初等数学题目的文本语义抽取、表示与建模方法和*** |
CN107463553B (zh) * | 2017-09-12 | 2021-03-30 | 复旦大学 | 针对初等数学题目的文本语义抽取、表示与建模方法和*** |
CN108182275A (zh) * | 2018-01-24 | 2018-06-19 | 上海互教教育科技有限公司 | 一种数学变式训练题推送***以及关联方法 |
CN108376132B (zh) * | 2018-03-16 | 2020-08-28 | 中国科学技术大学 | 相似试题的判定方法及*** |
CN108376132A (zh) * | 2018-03-16 | 2018-08-07 | 中国科学技术大学 | 相似试题的判定方法及*** |
CN108765221A (zh) * | 2018-05-15 | 2018-11-06 | 广西英腾教育科技股份有限公司 | 抽题方法及装置 |
CN109189920A (zh) * | 2018-08-02 | 2019-01-11 | 上海欣方智能***有限公司 | 扫黑案件分类方法及*** |
CN109685137A (zh) * | 2018-12-24 | 2019-04-26 | 上海仁静信息技术有限公司 | 一种题目分类方法、装置、电子设备及存储介质 |
CN109785691A (zh) * | 2019-01-18 | 2019-05-21 | 广东小天才科技有限公司 | 一种通过终端辅助学习的方法和*** |
CN109785691B (zh) * | 2019-01-18 | 2021-09-24 | 广东小天才科技有限公司 | 一种通过终端辅助学习的方法和*** |
CN110136512A (zh) * | 2019-04-17 | 2019-08-16 | 许昌学院 | 一种英语等级考试习题及答案解析的自动归类*** |
CN110472044A (zh) * | 2019-07-11 | 2019-11-19 | 平安国际智慧城市科技股份有限公司 | 数学题的知识点分类方法、装置、可读存储介质及服务器 |
CN112989760A (zh) * | 2019-12-17 | 2021-06-18 | 北京一起教育信息咨询有限责任公司 | 为题目打标签的方法、装置、存储介质及电子设备 |
WO2021253480A1 (zh) * | 2020-06-19 | 2021-12-23 | 平安科技(深圳)有限公司 | 习题智能推荐方法、装置、计算机设备及存储介质 |
CN111881285A (zh) * | 2020-07-28 | 2020-11-03 | 扬州大学 | 一种错题收集及重难点知识提取方法 |
CN112257966A (zh) * | 2020-12-18 | 2021-01-22 | 北京世纪好未来教育科技有限公司 | 模型处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106599054B (zh) | 2019-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106599054A (zh) | 一种题目分类及推送的方法及*** | |
CN102411563B (zh) | 一种识别目标词的方法、装置及*** | |
CN105808526B (zh) | 商品短文本核心词提取方法和装置 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN102289522B (zh) | 一种对于文本智能分类的方法 | |
CN108763213A (zh) | 主题特征文本关键词提取方法 | |
CN106651696B (zh) | 一种近似题推送方法及*** | |
CN103207913B (zh) | 商品细粒度语义关系的获取方法和*** | |
CN107122413A (zh) | 一种基于图模型的关键词提取方法及装置 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN107038480A (zh) | 一种基于卷积神经网络的文本情感分类方法 | |
CN107992542A (zh) | 一种基于主题模型的相似文章推荐方法 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN102033919A (zh) | 文本关键词提取方法及*** | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN110134799B (zh) | 一种基于bm25算法的文本语料库的搭建和优化方法 | |
CN107943824A (zh) | 一种基于lda的大数据新闻分类方法、***及装置 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN103020167B (zh) | 一种计算机中文文本分类方法 | |
CN109063147A (zh) | 基于文本相似度的在线课程论坛内容推荐方法及*** | |
CN103593431A (zh) | 网络舆情分析方法和装置 | |
CN101702167A (zh) | 一种基于互联网的模板抽取属性和评论词的方法 | |
CN109815400A (zh) | 基于长文本的人物兴趣提取方法 | |
CN107463715A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |