CN111078874B - 基于随机子空间的决策树分类的对外汉语难度评估方法 - Google Patents
基于随机子空间的决策树分类的对外汉语难度评估方法 Download PDFInfo
- Publication number
- CN111078874B CN111078874B CN201911206414.9A CN201911206414A CN111078874B CN 111078874 B CN111078874 B CN 111078874B CN 201911206414 A CN201911206414 A CN 201911206414A CN 111078874 B CN111078874 B CN 111078874B
- Authority
- CN
- China
- Prior art keywords
- chinese
- article
- svm
- decision tree
- foreign
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,根据文章的长度,易读性等特点生成86个统计特征,用svm进行分类,得到置信度1。将encoding特征,用svm进行分类,得到置信度2。将得到的2个置信度,融合作为新的特征,用决策树来进行分类。对于encoding特征数据:通过BERT模型提取的encoding的‑1层输出信息结果,然后再做average‑>max pooling处理,得到总共有768维特征,不需要做归一化。本发明避免了传统算法低效且欠拟合的问题,最合理的使用了所有信息,使得分类依据增多效果显著。本方法在对外汉语难度评估上取得了85.6%的准确率。
Description
技术领域
本发明属于教育信息化领域,具体涉及一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法。
背景技术
众所周知,阅读应该循序渐进,从易到难。太难容易导致学生的自信心受挫,对阅读丧失兴趣。而过于简单,低水平重复,则不利于阅读能力的持续提升,无法满足升入大学后阅读复杂文本,开展相关研究的学术要求。总之,只有难度适合的才是最好的。随着中国的发展,中国在国际舞台上扮演的角色越来越重要了,这使得更多的人有了学习汉语的需求。学习汉语文本是最有效的方式之一,但是学习一定难度汉语文本需要汉语学习者自身具备一定的文化素养,若是汉语学习者不满足对应文本对其汉语功底要求,则会事倍功半并且会极大的打击汉语学习者的兴趣爱好。并且在培养汉语学习者的写作能力的时候,应该有针对性的提供各种文体给其参考,并且能基于汉语学习者所写的作文文体来进行评判打分。故汉语文本的分类是辅助汉语学习***的关键技术。
对外汉语分级读物的难易度指的是该级别的读物是否适合汉语语言程度达到该级别的汉语学习者来阅读,是否会出现读物过难,或者读物太容易的情况。
文本分类是利用计算机对文本集按照一定的分类体系或者标准来进行自动分类标记,根据其是否使用深度学习技术分为两大类,第一类是基于传统机器学习文本分类,第二类是基于深度学习文本分类。当然第二类中的文本分类技术中有些情况会使用深度学习的方法和传统机器学习的方法相结合。
90年代后期,传统机器学习飞速发展,对于文本分类问题形成了一套固有的模式,特征工程+分类器模型。这里的特征工程就是将文本中的信息提炼,使计算机可以轻松识别读取文本中的信息,通常特征工程分为三步,第一步文本预处理,第二步特征提取,第三步文本表示。分类器模型比较著名的有朴素贝叶斯分类算法、KNN、SVM、最大熵等等。
在基于深度神经网络的NLP方法中,文本中的字/词通常都用一维向量来表示(一般称之为“词向量”);在此基础上,神经网络会将文本中各个字或词的一维词向量作为输入,经过一系列复杂的转换后,输出一个一维词向量作为文本的语义表示。特别地,通常希望语义相近的字/词在特征向量空间上的距离也比较接近,如此一来,由字/词向量转换而来的文本向量也能够包含更为准确的语义信息。因此,BERT模型的主要输入是文本中各个字/词的原始词向量,该向量既可以随机初始化,也可以利用Word2Vector等算法进行预训练以作为初始值;输出是文本中各个字/词融合了全文语义信息后的向量表示。
目前关于中文文本分类多是对于微博和新闻等简单短小的文本集进行分类,而针对于可供汉语学习者的汉语文本分类若是使用现有的方法效果都不太理想。
发明内容
针对现有技术以上缺陷或改进需求中的至少一种,特别是由于汉语学习者的文本分类问题的复杂性,在面对汉语学习者不同的需求的时候,分类的标准会发生相应的变化,针对于该任务本发明提出了一种基于Bert模型、svm和决策树特征融合的对外汉语难度评估方法。根据文章的长度,易读性等特点生成86个统计特征,用svm进行分类,得到置信度1。将encoding特征,用svm进行分类,得到置信度2。将得到的2个置信度,融合作为新的特征,用决策树来进行分类。
为实现上述目的,按照本发明的一个方面,提供了一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,包括如下步骤:
S1、对对外汉语文章进行预处理;
S2、对于步骤S1预处理之后的对外汉语文章,根据对外汉语文章的长度,文章的易读性,文章的生词量生成多个特征;
S3、然后使用基于随机子空间的svm结合对包含所有上述特征的文章进行分类,得到置信度1;
S4、对于步骤S1预处理之后的对外汉语文章,通过BERT模型提取的encoding的-1层输出信息结果,再做average->max pooling处理,得到文章的多维encoding特征;
S5、将encoding特征,使用基于随机子空间的svm进行分类,得到置信度2;
S6、将得到的2个置信度,融合作为新的特征,用决策树来进行分类。
优选地,步骤S1中,对对外汉语文章进行预处理包括保存为txt格式。
优选地,步骤S1中,对对外汉语文章进行预处理包括删除文章中的空行。
优选地,步骤S1中,对对外汉语文章进行预处理包括对文章进行分句。
优选地,步骤S1中,分句为利用python将每篇文章以句子为单位进行切割,存储在list结构中,并且去除标点符号。
优选地,步骤S2中生成的多个特征包括总字数,总笔画数,段落数,总句数,生词数。
优选地,步骤S6中,将置信度1和置信度2使用求加权平均值,来作为这篇文章的综合输出。上述优选技术特征只要彼此之间未构成冲突就可以相互组合。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,利用Bert模型较强的文本特征提取能力,获得对外汉语文章的包含丰富语义信息的表示,再结合传统的文章字词的统计特征,这能够充分利用文章的各种特征。本发明避免了传统算法低效且欠拟合的问题,最合理的使用了所有信息,使得分类依据增多效果显著。本方法在对外汉语难度评估上取得了85.6%的准确率。
附图说明
图1是本发明的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法的总体示意图;
图2是本发明使用的基于Bert模型提取文章的encoding特征的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面结合具体实施方式对本发明进一步详细说明。
如图1所示,本发明提供一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,包括如下步骤:
S1、对对外汉语文章进行预处理,包括保存为txt格式、删除文章中的空行、对文章进行分句。分句为利用python将每篇文章以句子为单位进行切割,存储在list结构中,并且去除标点符号;
S2、对于步骤S1预处理之后的对外汉语文章,根据对外汉语文章的长度,文章的易读性,文章的生词量生成多个特征,例如86个,包括总字数,总笔画数,段落数,总句数,生词数;
S3、然后使用基于随机子空间的svm结合对包含所有上述特征的文章进行分类,得到置信度1;
S4、对于步骤S1预处理之后的对外汉语文章,通过BERT模型提取的encoding的-1层输出信息结果,再做average->max pooling处理,得到文章的多维encoding特征,如图2所示;
S5、将encoding特征,使用基于随机子空间的svm进行分类,得到置信度2;
S6、将得到的2个置信度,融合作为新的特征,用决策树来进行分类。优选地,步骤S6中,将置信度1和置信度2使用求加权平均值,来作为这篇文章的综合输出。上述优选技术特征只要彼此之间未构成冲突就可以相互组合。
下面以详细实例进行说明,本发明提供了一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,包括以下步骤:
(1)利用爬虫技术将作文网上的作文按照年级爬取(小学一年级到高中三年级),并以年级为标准对数据集进行正确的划分,并将年级信息写入文件名的前面,存储为txt格式。
(2)对于每一个年级的文章需要选取一篇最具有代表性的作为标杆文章单独拿出来,作为每一类型的标准代表。
(3)利用python将每篇文章以句子为单位进行切割,存储在list结构中,并且需要去除标点符号。
(4)、对于以上预处理之后的对外汉语文章,根据对外汉语文章的长度,文章的易读性,文章的生词量生成多个特征,例如86个,包括总字数,总笔画数,段落数,总句数,生词数;对外汉语分级读物的难易度,本发明从三个角度考察对外汉语分级读物的难易度,一是读物的长度,即读物中所含的中文字数,二是读物的易读性,即读物的平均句长和平均每百字句数,三是读物的生词量,即读物中出现的生词数量。
(5)、然后使用基于随机子空间的svm结合对包含所有上述特征的文章进行分类,得到置信度1。
(6)、对于预处理之后的对外汉语文章,通过BERT模型提取的encoding的-1层输出信息结果,再做average->max pooling处理,得到文章的多维encoding特征,如图2所示,对于每一句话的输入,Bert结构都会进行编码,所以会改变label注意力加权机制及字词的权重值,多核心会使label嵌入的边界更加细致,能更好的拟合数据。
(7)、将encoding特征,使用基于随机子空间的svm进行分类,得到置信度2。
(8)、将得到的2个置信度,融合作为新的特征,用决策树来进行分类。其中,将训练的时候每一篇文章是切割为多个句子的组合,所以句子才是输入的基础单元,而在对于一篇文章的每一个句子进行分类后,要使用求加权平均值来作为这篇文章的综合输出。
<实验说明及结果>
本实例从13个作文网上爬取了共51356篇作文作文,依照从小学到高中12个年级进行作文分类,分别筛选出了各类作文4000篇、共48000篇作文,将作文存入txt格式,训练集和测试集和验证集比例为7:2:1分割,然后使用训练集按照具体实施方法去实施训练,同时观察验证集的准确率来选择终止训练的时间点。
每一次训练固定核心的模型时,会打乱所有样本顺序重取训练集、测试集和验证集,再次训练并验证,总共进行了10***作,下表结果为10次实验结果的平均值。
具体的实验效果如表1。
表1.实验结果
模型 | svm核 | F1-score均值 |
SVM+Bert+DT(Decision Tree) | 线性核函数 | 82.32% |
SVM+Bert+DT | 多项式核函数 | 82.47% |
SVM+Bert+DT | RBF核函数(高斯核函数) | 85.6% |
综上所述,针对对外汉语文章难度评估的文本分类问题,本发明提出了一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估及自动分类方法,利用Bert模型较强的文本特征提取能力,获得对外汉语文章的包含丰富语义信息的表示,再结合传统的文章字词的统计特征,这能够充分利用文章的各种特征。本发明避免了传统算法低效且欠拟合的问题,最合理的使用了所有信息,使得分类依据增多效果显著。本方法在对外汉语难度评估上取得了85.6%的准确率。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,其特征在于,包括如下步骤:
S1、对对外汉语文章进行预处理;
S2、对于步骤S1预处理之后的对外汉语文章,根据对外汉语文章的长度,文章的易读性,文章的生词量生成多个特征;
S3、然后使用基于随机子空间的svm结合对包含所有上述特征的文章进行分类,得到置信度1;
S4、对于步骤S1预处理之后的对外汉语文章,通过BERT模型提取的encoding的-1层输出信息结果,再做average->max pooling处理,得到文章的多维encoding特征;
S5、将encoding特征,使用基于随机子空间的svm进行分类,得到置信度2;
S6、将得到的2个置信度,融合作为新的特征,用决策树来进行分类。
2.如权利要求1所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,其特征在于:
步骤S1中,对对外汉语文章进行预处理包括保存为txt格式。
3.如权利要求2所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,其特征在于:
步骤S1中,对对外汉语文章进行预处理包括删除文章中的空行。
4.如权利要求3所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,其特征在于:
步骤S1中,对对外汉语文章进行预处理包括对文章进行分句。
5.如权利要求4所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,其特征在于:
步骤S1中,分句为利用python将每篇文章以句子为单位进行切割,存储在list结构中,并且去除标点符号。
6.如权利要求1所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,其特征在于:
步骤S2中生成的多个特征包括总字数,总笔画数,段落数,总句数,生词数。
7.如权利要求1所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,其特征在于:
步骤S6中,将置信度1和置信度2使用求加权平均值,来作为这篇文章的综合输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911206414.9A CN111078874B (zh) | 2019-11-29 | 2019-11-29 | 基于随机子空间的决策树分类的对外汉语难度评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911206414.9A CN111078874B (zh) | 2019-11-29 | 2019-11-29 | 基于随机子空间的决策树分类的对外汉语难度评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111078874A CN111078874A (zh) | 2020-04-28 |
CN111078874B true CN111078874B (zh) | 2023-04-07 |
Family
ID=70312204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911206414.9A Active CN111078874B (zh) | 2019-11-29 | 2019-11-29 | 基于随机子空间的决策树分类的对外汉语难度评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111078874B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797229A (zh) * | 2020-06-10 | 2020-10-20 | 南京擎盾信息科技有限公司 | 文本表示方法、装置和文本分类方法 |
CN112631139B (zh) * | 2020-12-14 | 2022-04-22 | 山东大学 | 智能家居指令合理性实时检测***及方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200521895A (en) * | 2003-12-26 | 2005-07-01 | Inventec Besta Co Ltd | System and method to recognize the degree of mastering difficulty for a language text |
CN101814066A (zh) * | 2009-02-23 | 2010-08-25 | 富士通株式会社 | 文本阅读难度判断设备及其方法 |
CN103207854A (zh) * | 2012-01-11 | 2013-07-17 | 宋曜廷 | 中文文本可读性计量***及其方法 |
CN105068993A (zh) * | 2015-07-31 | 2015-11-18 | 成都思戴科科技有限公司 | 一种评估文本难度的方法 |
CN105468713A (zh) * | 2015-11-19 | 2016-04-06 | 西安交通大学 | 一种多模型融合的短文本分类方法 |
CN107145514A (zh) * | 2017-04-01 | 2017-09-08 | 华南理工大学 | 基于决策树和svm混合模型的中文句型分类方法 |
CN107506346A (zh) * | 2017-07-10 | 2017-12-22 | 北京享阅教育科技有限公司 | 一种基于机器学习的中文阅读难度分级方法及*** |
CN107977362A (zh) * | 2017-12-11 | 2018-05-01 | 中山大学 | 一种用于中文文本定级以及计算中文文本难度评分的方法 |
CN108984531A (zh) * | 2018-07-23 | 2018-12-11 | 深圳市悦好教育科技有限公司 | 基于语文教材的图书阅读难度方法及*** |
CN109977408A (zh) * | 2019-03-27 | 2019-07-05 | 西安电子科技大学 | 基于深度学习的英语阅读分级和读物推荐***的实现方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007249755A (ja) * | 2006-03-17 | 2007-09-27 | Ibm Japan Ltd | ドキュメントを理解する難易度を評価するシステムおよびその方法 |
WO2019204086A1 (en) * | 2018-04-18 | 2019-10-24 | HelpShift, Inc. | System and methods for processing and interpreting text messages |
-
2019
- 2019-11-29 CN CN201911206414.9A patent/CN111078874B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200521895A (en) * | 2003-12-26 | 2005-07-01 | Inventec Besta Co Ltd | System and method to recognize the degree of mastering difficulty for a language text |
CN101814066A (zh) * | 2009-02-23 | 2010-08-25 | 富士通株式会社 | 文本阅读难度判断设备及其方法 |
CN103207854A (zh) * | 2012-01-11 | 2013-07-17 | 宋曜廷 | 中文文本可读性计量***及其方法 |
CN105068993A (zh) * | 2015-07-31 | 2015-11-18 | 成都思戴科科技有限公司 | 一种评估文本难度的方法 |
CN105468713A (zh) * | 2015-11-19 | 2016-04-06 | 西安交通大学 | 一种多模型融合的短文本分类方法 |
CN107145514A (zh) * | 2017-04-01 | 2017-09-08 | 华南理工大学 | 基于决策树和svm混合模型的中文句型分类方法 |
CN107506346A (zh) * | 2017-07-10 | 2017-12-22 | 北京享阅教育科技有限公司 | 一种基于机器学习的中文阅读难度分级方法及*** |
CN107977362A (zh) * | 2017-12-11 | 2018-05-01 | 中山大学 | 一种用于中文文本定级以及计算中文文本难度评分的方法 |
CN108984531A (zh) * | 2018-07-23 | 2018-12-11 | 深圳市悦好教育科技有限公司 | 基于语文教材的图书阅读难度方法及*** |
CN109977408A (zh) * | 2019-03-27 | 2019-07-05 | 西安电子科技大学 | 基于深度学习的英语阅读分级和读物推荐***的实现方法 |
Non-Patent Citations (2)
Title |
---|
基于回归模型的对外汉语阅读材料的可读性自动评估研究;曾致中;《中国教育信息化》;全文 * |
基于随机森林算法的对外汉语文本可读性评估;杨文媞;《中国教育信息化》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111078874A (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977416B (zh) | 一种多层次自然语言反垃圾文本方法及*** | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN111160031A (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN111966917A (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN105205124B (zh) | 一种基于随机特征子空间的半监督文本情感分类方法 | |
CN108446271A (zh) | 基于汉字部件特征的卷积神经网络的文本情感分析方法 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN112711948A (zh) | 一种中文句子的命名实体识别方法及装置 | |
CN109101490B (zh) | 一种基于融合特征表示的事实型隐式情感识别方法和*** | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN112287100A (zh) | 文本识别方法、拼写纠错方法及语音识别方法 | |
CN112395421B (zh) | 课程标签的生成方法、装置、计算机设备及介质 | |
CN111078874B (zh) | 基于随机子空间的决策树分类的对外汉语难度评估方法 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN113112239A (zh) | 一种便捷式岗位人才筛选方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
Fauziah et al. | Lexicon Based Sentiment Analysis in Indonesia Languages: A Systematic Literature Review | |
CN113220964B (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN110705306B (zh) | 一种作文文题一致性的测评方法 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |