CN109214445A - 一种基于人工智能的多标签分类方法 - Google Patents
一种基于人工智能的多标签分类方法 Download PDFInfo
- Publication number
- CN109214445A CN109214445A CN201810978962.2A CN201810978962A CN109214445A CN 109214445 A CN109214445 A CN 109214445A CN 201810978962 A CN201810978962 A CN 201810978962A CN 109214445 A CN109214445 A CN 109214445A
- Authority
- CN
- China
- Prior art keywords
- knowledge point
- probability
- topic
- knowledge
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于人工智能的多标签分类方法,涉及互联网教育领域。本发明的方法步骤为:1)训练数据集:获取题目集;合并为字符串S;对字符串S进行预处理;统计该知识点下出现该关键词的概率;统计该知识点在数据集中出现的概率;2)对任意目标新题提取多知识点:将目标新题的内容合并为一个字符串Sn;对字符串Sn进行预处理;统计该知识点下出现该题Q的概率;目标新题包含该知识点的概率;进行归一化;对目标题目包含某知识点的概率进行排序;将上一步获得的知识点作为目标题目涉及的知识点。同现有技术相比,本发明采用短文本多标签的分类方式,具有良好的可扩展性,适合互联网教育领域。
Description
技术领域
本发明涉及互联网教育领域,特别是题目多知识点的提取方法。
背景技术
随着移动互联网时代的到来,人们每时每刻都在产生海量的数据。在教育领域,每年诞生了大量的新题,如何快速精准的确定每道题目涉及的所有知识点对广大教育工作者具有重要意义。我们考虑使用文本分类的方式,来解决这个问题。
现有技术中,机器学习针对文本分类的算法层出不穷,如朴素贝叶斯算法,K-近邻算法,神经网络算法和支持向量机等等。例如,中国专利公开号是‘CN108073677 A'的“一种基于人工智能的多级文本多标签分类方法及***”,其主要思想就是利用神经网络构建多级文本多标签分类模型。不过该方法主要针对细粒度文本(子句)的分类问题,更适用于电商网站的用户评论分析,这样的文本有明显的正面情感和负面情感。而教育领域的题目涉及不同的知识点,知识点高达数千个,无法单纯的以两方面划分,因此在教育领域很难应用。
再例如,中国专利公开号为‘CN 104866573 A’的“一种文本分类方法”,主要使用TFIDF对文本进行分类。这种方法认为在文本分类过程中,关键词的权重起决定性的作用。然而 TFIDF初衷是抑制某一文档内无意义高频词的负面影响,低频词将因此而被凸现出来。但是在教育领域,某一类题目中出现常见词并不等于无意义词,更可能是该分类的关键词,因此无法在教育领域得到应用。
发明内容
针对上述现有技术中存在的局限性和不足,本发明的目的是提供一种基于人工智能的多标签分类方法。它采用短文本多标签的分类方式,具有良好的可扩展性,适合互联网教育领域。
为了达到上述发明目的,本发明的技术方案以如下方式实现:
一种基于人工智能的多标签分类方法,其方法步骤为:
1)训练数据集:
获取某一具体科目的题目集。
将每道题的题目、选项、答案、解析内容合并为一个字符串S。
对字符串S进行预处理,获得关键词组。
统计各个关键词在各知识点中出现的次数W和各个知识点在数据集中出现的次数K,以W/K作为该知识点下出现该关键词的概率P(W/K);同时,统计总的数据集的次数A,以K/A作为该知识点在数据集中出现的概率P(K)。
2)对任意目标新题提取多知识点:
将目标新题的题干、选项、答案、解析内容合并为一个字符串Sn。
对字符串Sn进行预处理,获得题目的一组关键词。
对每一个知识点,将所有关键词在该知识点中出现的概率P(W/K)相乘,作为在该知识点下出现该题Q的概率P(Q/K)。
对所获得的P(Q/K)与该知识点在训练集中出现的概率P(K)相乘即可表示目标新题包含该知识点的概率P(K/Q)。
对所有的P(K/Q)进行概率归一化。
对目标题目包含某知识点的概率进行排序,将返回概率超过阈值Y的几个知识点从小到大排列;其中,阈值Y通过测试集获得:
步骤1:从题库中获取一组题目作为测试集;
步骤2:对测试集的预处理同训练数据集相同;
步骤3:将阈值初始值设置为w0。
步骤4:对测试集提取多个知识点,若测试集中题目原本的知识点出现在提取所得的知识点集中,视作提取结果正确,否则结果错误,统计正确率;
步骤5:调整阈值,使得正确率达到目标正确率,即为目标阈值w;如果正确率不达标,将阈值调整为之前的一半,返回步骤4,继续算法。
将上一步获得的知识点作为目标题目涉及的知识点。
在上述多标签分类方法中,所述对字符串S进行预处理包括:去除图片,加载学科词汇,英文短语以及特殊符号,对文本进行分词,然后去除停用词。
在上述多标签分类方法中,所述对字符串Sn进行预处理包括:去除图片,加载学科词汇,英文短语以及特殊符号,对文本进行分词,然后去除停用词。
在上述多标签分类方法中,所述返回概率超过阈值w的几个知识点,最多五个。
同现有技术相比,本发明中使用的多知识点提取方法,是基于理论实践都很成熟的朴素贝叶斯算法,并特别针对于教育领域做出了改进,在短文本分类上表现良好。且本发明方法具有良好的可扩展性,每个知识点和关键词都有独立的概率,适合持续学习,对于新收集的训练集,如果出现新的类别或关键词,可以很容易更新已有模型。
下面结合附图和具体实施方式对本发明做进一步说明。
附图说明
图1为本发明中练数据集的方法流程图
图2为本发明中对任意新题提取多知识点的方法流程图。
具体实施方式
参看图1和图2,本发明的方法步骤为:
1)训练数据集:
获取某一具体科目的题目集,例如获取20000道生物题。
选取一系列学科专业词汇及英文专业短语,在分词过程中不可分。将每道题的题目、选项、答案、解析等文字内容合并为一个字符串S。
对字符串S进行预处理,去除图片,加载学科词汇,英文短语以及特殊符号,对文本进行分词,然后去除停用词,获得关键词组。
统计各个关键词在各知识点中出现的次数W和各个知识点在数据集中出现的次数K,以W/K作为该知识点下出现该关键词的概率P(W/K)。同时,统计各个知识点在数据集中出现的次数和总的数据集的次数A,以K/A作为该知识点在数据集中出现的概率P(K);
2)对任意目标新题提取多知识点:
将目标新题的题干、选项、答案、解析内容合并为一个字符串Sn。
对字符串Sn进行预处理,去除图片,加载学科词汇,英文短语以及特殊符号,对文本进行分词,然后去除停用词,获得题目的一组关键词。
对每一个知识点,将所有关键词在该知识点中出现的概率P(W/K)相乘,作为在该知识点下出现该题Q的概率P(Q/K);
对所获得的P(Q/K)与该知识点在训练集中出现的概率P(K)相乘即可表示目标新题包含该知识点的概率P(K/Q)。
对新题包含的各个知识点概率P(K/Q)进行概率归一化。
对目标题目包含某知识点的概率进行排序,将返回概率超过阈值Y的几个知识点,最多五个从小到大排列。其中,阈值Y通过测试集获得:
步骤1:从题库中获取5000道生物题作为测试集。
步骤2:对测试集的预处理同训练数据集相同。
步骤3:将阈值初始值设置为0.01。
步骤4: 对测试集提取多个知识点,若测试集中题目原本的知识点出现在提取所得的知识点集中,视作提取结果正确,否则结果错误,统计正确率。
步骤5: 如果正确率达标,则该阈值即为目标阈值。如果正确率不达标,将阈值调整为之前的一半,返回步骤4,继续算法。
将上一步获得的知识点作为目标题目涉及的知识点。
上述具体实施方式仅是本发明算法的具体个案,专利保护范围包括但不限于上述具体实施方式。任何符合本申请技术方案的方法或者所属领域的普通技术人员对其做出的适当变化或替换,皆应落入本发明的专利保护范围。
Claims (4)
1.一种基于人工智能的多标签分类方法,其方法步骤为:
1)训练数据集:
获取某一具体科目的题目集;
将每道题的题目、选项、答案、解析内容合并为一个字符串S;
对字符串S进行预处理,获得关键词组;
统计各个关键词在各知识点中出现的次数W和各个知识点在数据集中出现的次数K,以W/K作为该知识点下出现该关键词的概率P(W/K);同时,统计总的数据集的次数A,以K/A作为该知识点在数据集中出现的概率P(K);
2)对任意目标新题提取多知识点:
将目标新题的题干、选项、答案、解析内容合并为一个字符串Sn;
对字符串Sn进行预处理,获得题目的一组关键词;
对每一个知识点,将所有关键词在该知识点中出现的概率P(W/K)相乘,作为在该知识点下出现该题Q的概率P(Q/K);
对所获得的P(Q/K)与该知识点在训练集中出现的概率P(K)相乘即可表示目标新题包含该知识点的概率P(K/Q);
对所有的P(K/Q)进行概率归一化;
对目标题目包含某知识点的概率进行排序,将返回概率超过阈值Y的几个知识点从小到大排列;其中,阈值Y通过测试集获得:
步骤1:从题库中获取一组题目作为测试集;
步骤2:对测试集的预处理同训练数据集相同;
步骤3:将阈值初始值设置为w0;
步骤4:对测试集提取多个知识点,若测试集中题目原本的知识点出现在提取所得的知识点集中,视作提取结果正确,否则结果错误,统计正确率;
步骤5:调整阈值,使得正确率达到目标正确率,即为目标阈值w;如果正确率不达标,将阈值调整为之前的一半,返回步骤4,继续算法;
将上一步获得的知识点作为目标题目涉及的知识点。
2.根据权利要求1所述基于人工智能的多标签分类方法,其特征在于,所述对字符串S进行预处理包括:去除图片,加载学科词汇,英文短语以及特殊符号,对文本进行分词,然后去除停用词。
3.根据权利要求1或2所述基于人工智能的多标签分类方法,其特征在于,所述对字符串Sn进行预处理包括:去除图片,加载学科词汇,英文短语以及特殊符号,对文本进行分词,然后去除停用词。
4.根据权利要求3所述基于人工智能的多标签分类方法,其特征在于,所述返回概率超过阈值w的几个知识点,最多五个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810978962.2A CN109214445A (zh) | 2018-08-27 | 2018-08-27 | 一种基于人工智能的多标签分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810978962.2A CN109214445A (zh) | 2018-08-27 | 2018-08-27 | 一种基于人工智能的多标签分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109214445A true CN109214445A (zh) | 2019-01-15 |
Family
ID=64989699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810978962.2A Pending CN109214445A (zh) | 2018-08-27 | 2018-08-27 | 一种基于人工智能的多标签分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109214445A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852071A (zh) * | 2019-11-08 | 2020-02-28 | 科大讯飞股份有限公司 | 知识点检测方法、装置、设备及可读存储介质 |
CN111767307A (zh) * | 2020-07-06 | 2020-10-13 | 北京猿力未来科技有限公司 | 对象处理方法及***、数学题目批改方法及*** |
CN111881285A (zh) * | 2020-07-28 | 2020-11-03 | 扬州大学 | 一种错题收集及重难点知识提取方法 |
CN112163421A (zh) * | 2020-10-09 | 2021-01-01 | 厦门大学 | 一种基于N-Gram的新型关键词提取方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402566A (zh) * | 2011-08-09 | 2012-04-04 | 江苏欣网视讯科技有限公司 | 基于中文网页自动分类技术的Web用户行为分析方法 |
KR101232641B1 (ko) * | 2012-07-25 | 2013-02-15 | 공주대학교 산학협력단 | 컨텍스트 모델링 기반 자동 블로깅 시스템 |
CN105183831A (zh) * | 2015-08-31 | 2015-12-23 | 上海德唐数据科技有限公司 | 一种针对不同学科题目文本分类的方法 |
CN107168951A (zh) * | 2017-05-10 | 2017-09-15 | 山东大学 | 一种基于规则与词典的监狱犯人短信自动审核方法 |
CN107229614A (zh) * | 2017-06-29 | 2017-10-03 | 百度在线网络技术(北京)有限公司 | 用于分类数据的方法和装置 |
CN107562918A (zh) * | 2017-09-12 | 2018-01-09 | 北京点易通科技有限公司 | 一种数学题知识点发现与批量标签获取方法 |
CN108108462A (zh) * | 2017-12-29 | 2018-06-01 | 河南科技大学 | 一种基于特征分类的文本情感分析方法 |
WO2018107953A1 (zh) * | 2016-12-12 | 2018-06-21 | 惠州Tcl移动通信有限公司 | 智能终端及其应用程序的自动分类方法 |
-
2018
- 2018-08-27 CN CN201810978962.2A patent/CN109214445A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402566A (zh) * | 2011-08-09 | 2012-04-04 | 江苏欣网视讯科技有限公司 | 基于中文网页自动分类技术的Web用户行为分析方法 |
KR101232641B1 (ko) * | 2012-07-25 | 2013-02-15 | 공주대학교 산학협력단 | 컨텍스트 모델링 기반 자동 블로깅 시스템 |
CN105183831A (zh) * | 2015-08-31 | 2015-12-23 | 上海德唐数据科技有限公司 | 一种针对不同学科题目文本分类的方法 |
WO2018107953A1 (zh) * | 2016-12-12 | 2018-06-21 | 惠州Tcl移动通信有限公司 | 智能终端及其应用程序的自动分类方法 |
CN107168951A (zh) * | 2017-05-10 | 2017-09-15 | 山东大学 | 一种基于规则与词典的监狱犯人短信自动审核方法 |
CN107229614A (zh) * | 2017-06-29 | 2017-10-03 | 百度在线网络技术(北京)有限公司 | 用于分类数据的方法和装置 |
CN107562918A (zh) * | 2017-09-12 | 2018-01-09 | 北京点易通科技有限公司 | 一种数学题知识点发现与批量标签获取方法 |
CN108108462A (zh) * | 2017-12-29 | 2018-06-01 | 河南科技大学 | 一种基于特征分类的文本情感分析方法 |
Non-Patent Citations (1)
Title |
---|
闫琰: ""基于深度学习的文本表示与分类方法研究"", 《中国博士学位论文全文数据库》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852071A (zh) * | 2019-11-08 | 2020-02-28 | 科大讯飞股份有限公司 | 知识点检测方法、装置、设备及可读存储介质 |
CN110852071B (zh) * | 2019-11-08 | 2023-10-24 | 科大讯飞股份有限公司 | 知识点检测方法、装置、设备及可读存储介质 |
CN111767307A (zh) * | 2020-07-06 | 2020-10-13 | 北京猿力未来科技有限公司 | 对象处理方法及***、数学题目批改方法及*** |
CN111881285A (zh) * | 2020-07-28 | 2020-11-03 | 扬州大学 | 一种错题收集及重难点知识提取方法 |
CN112163421A (zh) * | 2020-10-09 | 2021-01-01 | 厦门大学 | 一种基于N-Gram的新型关键词提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN103914494B (zh) | 一种微博用户身份识别方法及*** | |
CN102411563B (zh) | 一种识别目标词的方法、装置及*** | |
CN107609121A (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN109214445A (zh) | 一种基于人工智能的多标签分类方法 | |
CN107608999A (zh) | 一种适用于自动问答***的问句分类方法 | |
CN108874921A (zh) | 提取文本特征词的方法、装置、终端设备及存储介质 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN109299271A (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
CN107545038B (zh) | 一种文本分类方法与设备 | |
CN110955776A (zh) | 一种政务文本分类模型的构建方法 | |
CN108804595B (zh) | 一种基于word2vec的短文本表示方法 | |
CN107688630B (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
TW201405341A (zh) | 基於產品識別的資訊分類方法及資訊分類系統 | |
CN106897290B (zh) | 一种建立关键词模型的方法及装置 | |
CN105488098B (zh) | 一种基于领域差异性的新词提取方法 | |
CN105930416A (zh) | 一种用户反馈信息的可视化处理方法及*** | |
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
Zhang et al. | Semi-supervised discovery of informative tweets during the emerging disasters | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN108021667A (zh) | 一种文本分类方法和装置 | |
CN108268470A (zh) | 一种基于演化聚类的评论文本分类提取方法 | |
CN105224955A (zh) | 基于微博大数据获取网络服务状态的方法 | |
CN107341142B (zh) | 一种基于关键词提取分析的企业关系计算方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190115 |
|
WD01 | Invention patent application deemed withdrawn after publication |