CN103810293B - 基于Hadoop的文本分类方法及装置 - Google Patents

基于Hadoop的文本分类方法及装置 Download PDF

Info

Publication number
CN103810293B
CN103810293B CN201410073364.2A CN201410073364A CN103810293B CN 103810293 B CN103810293 B CN 103810293B CN 201410073364 A CN201410073364 A CN 201410073364A CN 103810293 B CN103810293 B CN 103810293B
Authority
CN
China
Prior art keywords
text
classification
sequencefile
entry
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410073364.2A
Other languages
English (en)
Other versions
CN103810293A (zh
Inventor
万睿
张国强
谢浩安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU WINHONG INFORMATION TECHNOLOGY Co Ltd
Original Assignee
GUANGZHOU WINHONG INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU WINHONG INFORMATION TECHNOLOGY Co Ltd filed Critical GUANGZHOU WINHONG INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410073364.2A priority Critical patent/CN103810293B/zh
Publication of CN103810293A publication Critical patent/CN103810293A/zh
Application granted granted Critical
Publication of CN103810293B publication Critical patent/CN103810293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于Hadoop的文本分类方法及装置。该方法包括:将经过分词处理的文本保存至一训练数据集中;使不同类别的文本的数量相等;将训练数据集的文本文件写入SequenceFile文件中;通过MapReduce模块统计文本包含的词条和类别、按照TF‑IDF加权模型计算文本的每个词条的TF‑IDF值并根据TF‑IDF值将文本转换为用于贝叶斯分类器的一维向量、统计每个文本文件的文本的长度并根据长度对一维向量进行加权;得到分类模型;利用分类模型,对待分类的文本进行分类。本发明能解决传统的训练分类器数据不均衡的问题。

Description

基于Hadoop的文本分类方法及装置
技术领域
本发明涉及文本分类技术。
背景技术
朴素贝叶斯分类算法作为一种优秀的分类算法,因为其准确率高,易于理解,容易实现等特点被广泛应用于各种分类任务中,是目前最广泛使用的文本分类方法之一。
近年来随着信息技术的发展,文档分类任务呈现出新的特点,这些特点主要体现在以下三个方面:一,每天都有海量的新增数据需要进行处理,这些数据通常是TB级以上,同时数据量呈现出快速增长的趋势。二,可用于训练分类器的已有数据往往存在数据不均衡现象,不仅不同类别的训练数据之间存在不均衡现象,而且同一类别的不同文本之间也存在不均衡现象。三,训练数据往往是大量的包含中文文本小文件,这些特点给传统的朴素贝叶斯分类技术带来了挑战。
传统的朴素贝叶斯分类技术主要存在两方面的问题:一方面传统朴素贝叶斯算法往往基于单机计算,无法在可接受的时间内处理海量数据,无法满足当前海量数据的处理要求。另外一方面,由于传统朴素贝叶斯算法的分类准确率完全依赖于训练数据,当训练数据存在不均衡时,分类效果会大打折扣,无法满足很多应用场景的要求,例如在对医院的病例文本进行分类时,采用历史病历作为训练数据时,罕见病的病历会远少于常见病的病历,如果采用传统朴素贝叶斯分类技术,训练的分类器对罕见病的分类效果会非常差,而对常见病的分类效果较好,这与医生更关心罕见病的分类准确率的需求相违背,使分类***的实用性大打折扣。此外,大量的小文件直接上传至集群往往速度较慢,无法在可接受的时间内实现上传。
Hadoop Distributed File System,简称HDFS,是一个分布式文件***。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求这样可以实现流的形式访问(streaming access)文件***中的数据。HDFS开始是为开源的apache项目nutch的基础结构而创建,HDFS是hadoop项目的一部分,而hadoop又是Iucene的一部分。
随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。MapReduce是Google提出的一种实现分布式并行计算任务的通用软件框架,它简化了由普通计算机组成的超大集群上的并行软件编程模式,可用于大规模数据集的并行计算。
SequenceFile是一个由二进制形式key/value的字节流组成的存储文件,SequenceFile可压缩可切分,非常适合hadoop文件存储特性,SequenceFile的写入由SequenceFile.Writer来实现,根据压缩类型SequenceFile。
发明内容
本发明的目的在于提出一种基于Hadoop的文本分类方法及装置,其能解决训练分类器数据不均衡的问题。
为了达到上述目的,本发明所采用的技术方案如下:
基于Hadoop的文本分类方法,其包括以下步骤:
步骤1、对训练用的文本进行分词处理,将每一个经过分词处理的文本保存至一训练数据集中对应的一个文本文件中;
步骤2、对训练数据集的文本文件的文本进行采样,以使不同类别的文本的数量相等;
步骤3、将训练数据集的文本文件写入SequenceFile文件中,并将SequenceFile文件上传至Hadoop文件***;
步骤4、通过MapReduce模块统计SequenceFile文件的文本文件的文本包含的词条和类别,其中,所述词条和类别分别对应贝叶斯分类器的属性值和类别标签;
步骤5、通过MapReduce模块按照TF-IDF加权模型计算SequenceFile文件的每个文本文件的文本的每个词条的TF-IDF值,根据所述TF-IDF值将文本转换为用于贝叶斯分类器的一维向量;
步骤6、通过MapReduce模块统计每个文本文件的文本的长度,根据所述长度对一维向量进行加权,以使所有文本的权重相等;
步骤7、利用一维向量,根据贝叶斯分类器,统计每个类别的先验概率和每个词条属于每个类别的先验概率,得到分类模型;
步骤8、利用分类模型,对待分类的文本进行分类。
本发明还提出了一种基于Hadoop的文本分类装置,其包括以下模块:
分词模块,用于对训练用的文本进行分词处理,将每一个经过分词处理的文本保存至一训练数据集中对应的一个文本文件中;
采样模块,用于对训练数据集的文本文件的文本进行采样,以使不同类别的文本的数量相等;
上传模块,用于将训练数据集的文本文件写入SequenceFile文件中,并将SequenceFile文件上传至Hadoop文件***;
统计模块,用于通过MapReduce模块统计SequenceFile文件的文本文件的文本包含的词条和类别,其中,所述词条和类别分别对应贝叶斯分类器的属性值和类别标签;
第一加权模块,用于通过MapReduce模块按照TF-IDF加权模型计算SequenceFile文件的每个文本文件的文本的每个词条的TF-IDF值,根据所述TF-IDF值将文本转换为用于贝叶斯分类器的一维向量;
第二加权模块,用于通过MapReduce模块统计每个文本文件的文本的长度,根据所述长度对一维向量进行加权,以使所有文本的权重相等;
模型建立模块,用于利用一维向量,根据贝叶斯分类器,统计每个类别的先验概率和每个词条属于每个类别的先验概率,得到分类模型;
分类模块,用于利用分类模型,对待分类的文本进行分类。
本发明通过采用hadoop集群并对传统朴素贝叶斯分类方法进行改进,具有如下有益效果:
(1)通过将小文件写入sequencefile格式的压缩文件,将sequencefile作为小文件的容器,然后上传sequencefile至集群文件***HDFS,提升数据集上传速度,充分利用sequencefile提供java接口,可多文件,可分割,且无需解压即可作为MapReduce的输入数据的特点,有效克服Hadoop集群不适合处理小文件的缺点。
(2)通过对训练数据进行加权,克服了因为不同文本长度不同带来的不均衡问题,提高了分类准确率。
(3)通过MapReduce并行计算框架对分类模型进行训练,提高了训练效率,适应了新形势下海量数据的处理要求。
(4)通过对训练的文本进行采样处理,克服了训练的文本不同类别训练数据分布不均衡的问题,提高了分类准确率。
附图说明
图1为本发明较佳实施例的基于Hadoop的文本分类方法的流程图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述。
结合图1所示,一种基于Hadoop的文本分类方法,其包括以下步骤:
步骤S1、对训练用的文本进行分词处理,将每一个经过分词处理的文本保存至一训练数据集中对应的一个文本文件中。可使用IK、ICTCLAS等开源分词包,对训练用的文本进行自动的中文分词,将标点及停止词去除,这里的停止词是指出现频率很高但是没有实际意义的词,如“与”、“的”、“得”等。并将分词后得到的词条用空格分隔输出到本地的训练数据集中,例如“阐释机器学习概念”这句话经分词后将变成“阐释”、“机器学习”、“概念”三个词条,训练数据集中每一个文本文件存储一条经过分词的文本。
步骤S2、对训练数据集的文本文件的文本进行采样,以使不同类别的文本的数量相等。由于不同类别的文本数量不一致,所以需要通过采样进行平衡。采样前,首先需要根据实际数据的分布情况设定阈值(即每个类别经过采样后最终包含的文本数量,阈值的选取可以根据实际效果进行调整),然后,根据阈值可以将文本数量大于阈值的类别划分为多数类,将文本数量小于阈值的类别设为少数类,最后,对于多数类的文本,将随机从中抽取等于阈值的n份文本作为训练数据,而对于少数类的文本,则将重复已有文本,使其包含的文本数量等于阈值。
步骤S3、将训练数据集的文本文件写入SequenceFile文件中,并将SequenceFile文件上传至Hadoop文件***。首先,提供Hadoop文件***HDFS的本地文件***接口(getLocalFileSystem)读取本地文件***的训练数据集中的文本文件,然后将文件路径和内容以键值对的形式写入SequenceFile中,并提供将SequenceFile的输出路径设为集群文件***HDFS中的地址,实现文件流式压缩上传,其中每个文件以键值对的形式读取,将该文件在训练数据集内的相对路径(包含文件名)作为键,而该文件的内容作为值,与本领域常用的压缩上传方法相比,充分利用了SequenceFile可分割,支持java接口,可多文件,可被MapReduce直接读取的特点,无需在集群文件***中对压缩文件进行解压,无需生成大量元数据。
步骤S4、通过MapReduce模块统计SequenceFile文件的文本文件的文本包含的词条和类别,其中,所述词条和类别分别对应贝叶斯分类器的属性值(attribute)和类别标签(label)。MapReduce模块统计有哪些不同的类别时,由于原始数据在创建训练数据集时即按照所属类别将不同类别的文本文件存入不同的文件夹下,文件夹名即为文本所属类别,所以在这里只需将SequenceFile中存储文件路径的键取出,并将路径前缀去除,即可得到类别名称(即文件夹名字);MapReduce模块还用于统计有哪些不同的词条,这里的属性值是指经过分词后的词条,如果已经建立了专业词典,则可以根据专业词典对这些词条进行过滤。
步骤S5、通过MapReduce模块按照TF-IDF加权模型计算SequenceFile文件的每个文本文件的文本的每个词条的TF-IDF值,根据所述TF-IDF值将文本转换为用于贝叶斯分类器的一维向量。其中,TF-IDF值的计算包括两个步骤:首先,计算每个词的“词频”(TF)和“逆文档频率”(IDF),然后,通过将TF值与IDF值相乘得到TF-IDF值,一个词的TF-IDF值越大则代表该词的重要性越大,反之则代表该词的重要性越小。
TF计算公式如下:
词频(TF)=某个词在当前文本出现的次数
IDF计算公式如下:
逆文档频率(IDF)=log(数据集的文档总数/(包含该词的文档数+1))
其中,第一次MapReduce用于计算训练数据集的文本总数;
第二次MapReduce用于计算包含每个词条的文本数从而得到IDF值。
第三次MapReduce用于计算每个文档中每个词的TF值,并将TF值与该词条的IDF值相乘得到TF-IDF值,将文本转换为一维向量。
通过计算文本中每个词条的TF-IDF值后,即可将文本转换为各个词条的TF-IDF值组成的一维向量,例如在一个训练数据集中一个文本“中国蜜蜂养殖”经过分词后变成“中国蜜蜂养殖”,然后计算TF-IDF值如下表所示:
然后就可以将文本“中国蜜蜂养殖”转换为一维向量(0.0121,0.0543,0.0482)。
步骤S6、通过MapReduce模块统计每个文本文件的文本的长度(包含词条的数量),根据所述长度对一维向量进行加权,增加长度较短的文本的权重,使其与长度较长文本的权重一致,即使所有文本的权重相等。
具体计算公式如下:
某个词加权后的值=某个词TF-IDF值/该文本的长度。
步骤S7、利用一维向量,根据贝叶斯分类器,统计每个类别的先验概率和每个词条属于每个类别的先验概率,得到分类模型。之所以需要计算先验概率是因为我们可以通过贝叶斯定理以这些先验概率为基础预测未知数据属于每个类别的条件概率。
贝叶斯定理简单来说就是当我们知道P(A|B)的概率时获得P(B|A)的概率的一种方法,贝叶斯公式如下:
根据贝叶斯公式,我们如果计算出P(A|B)、P(B)、P(A)即可通过贝叶斯公式计算得到P(B|A)的值,其中P(A|B)、P(B)、P(A)的概率值我们可以通过对训练数据进行统计得到,在文本分类时,可以假设A代表一个词,而B代表一个类别,所以P(B|A)表示词A属于类别B的条件概率,P(A|B)表示类别B中的文本包含词A的概率(即包含A的文本数量/类别B中文本总数),P(B)代表类别B的文本总数占数据集文本总数的比例(类别B文本数量/数据集文本总数),P(A)代表数据集中包含词A的文本所占比例(包含词A的文本数量/数据集文本总数),从而可以借助训练数据中得到的条件概率值和先验概率预测待预测文本中词的条件概率,然后通过对文本中词的条件概率进行叠加,即可得到文本属于每个类别的条件概率。
具体来说,在进行文本分类时,我们首先计算文本中每个词属于不同类别的条件概率,然后将这些概率相加得到该文本属于每个类别的条件概率。比如说一个文本包含2个词“nba火箭”其中nba有100%概率是属于“体育”类别,而“火箭”有30%概率属于“体育”,70%概率属于“军事”,这时文本属于体育的总条件概率值就是100%+30%=130%,而属于军事的总条件概率值为0%+70%=70%,这时文本属于体育的总条件概率值较大,所以该文本的类别被预测为“体育”。
步骤S8、利用分类模型,对待分类的文本进行分类。待分类文本会经过分词、向量化、加权,生成一维向量,然后使用分类模型计算该一维向量属于每个类别的条件概率,最后将概率最大的类别作为分类结果输出,输出的分类结果为类别名称,例如对于一个新闻数据集,包含军事、财经、体育等20个类别的文本,则输入一个文本后,输出的是该文本所属类别的名称,比如输入一篇NBA相关文本,则输出“体育”。
本发明还提出了一种基于Hadoop的文本分类装置,其包括以下模块:
分词模块,用于对训练用的文本进行分词处理,将每一个经过分词处理的文本保存至一训练数据集中对应的一个文本文件中;
采样模块,用于对训练数据集的文本文件的文本进行采样,以使不同类别的文本的数量相等;
上传模块,用于将训练数据集的文本文件写入SequenceFile文件中,并将SequenceFile文件上传至Hadoop文件***;
统计模块,用于通过MapReduce模块统计SequenceFile文件的文本文件的文本包含的词条和类别,其中,所述词条和类别分别对应贝叶斯分类器的属性值和类别标签;
第一加权模块,用于通过MapReduce模块按照TF-IDF加权模型计算SequenceFile文件的每个文本文件的文本的每个词条的TF-IDF值,根据所述TF-IDF值将文本转换为用于贝叶斯分类器的一维向量;
第二加权模块,用于通过MapReduce模块统计每个文本文件的文本的长度,根据所述长度对一维向量进行加权,以使所有文本的权重相等;
模型建立模块,用于利用一维向量,根据贝叶斯分类器,统计每个类别的先验概率和每个词条属于每个类别的先验概率,得到分类模型;
分类模块,用于利用分类模型,对待分类的文本进行分类。
对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及变形,而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims (2)

1.基于Hadoop的文本分类方法,其特征在于,包括以下步骤:
步骤1、对训练用的文本进行分词处理,将每一个经过分词处理的文本保存至一训练数据集中对应的一个文本文件中;
步骤2、对训练数据集的文本文件的文本进行采样,以使不同类别的文本的数量相等;
步骤3、将训练数据集的文本文件写入SequenceFile文件中,并将SequenceFile文件上传至Hadoop文件***;
步骤4、通过MapReduce模块统计SequenceFile文件的文本文件的文本包含的词条和类别,其中,所述词条和类别分别对应贝叶斯分类器的属性值和类别标签;
步骤5、通过MapReduce模块按照TF-IDF加权模型计算SequenceFile文件的每个文本文件的文本的每个词条的TF-IDF值,根据所述TF-IDF值将文本转换为用于贝叶斯分类器的一维向量;
步骤6、通过MapReduce模块统计每个文本文件的文本的长度,根据所述长度对一维向量进行加权,以使所有文本的权重相等;
步骤7、利用一维向量,根据贝叶斯分类器,统计每个类别的先验概率和每个词条属于每个类别的先验概率,得到分类模型;
步骤8、利用分类模型,对待分类的文本进行分类。
2.基于Hadoop的文本分类装置,其特征在于,包括以下模块:
分词模块,用于对训练用的文本进行分词处理,将每一个经过分词处理的文本保存至一训练数据集中对应的一个文本文件中;
采样模块,用于对训练数据集的文本文件的文本进行采样,以使不同类别的文本的数量相等;
上传模块,用于将训练数据集的文本文件写入SequenceFile文件中,并将SequenceFile文件上传至Hadoop文件***;
统计模块,用于通过MapReduce模块统计SequenceFile文件的文本文件的文本包含的词条和类别,其中,所述词条和类别分别对应贝叶斯分类器的属性值和类别标签;
第一加权模块,用于通过MapReduce模块按照TF-IDF加权模型计算SequenceFile文件的每个文本文件的文本的每个词条的TF-IDF值,根据所述TF-IDF值将文本转换为用于贝叶斯分类器的一维向量;
第二加权模块,用于通过MapReduce模块统计每个文本文件的文本的长度,根据所述长度对一维向量进行加权,以使所有文本的权重相等;
模型建立模块,用于利用一维向量,根据贝叶斯分类器,统计每个类别的先验概率和每个词条属于每个类别的先验概率,得到分类模型;
分类模块,用于利用分类模型,对待分类的文本进行分类。
CN201410073364.2A 2014-02-28 2014-02-28 基于Hadoop的文本分类方法及装置 Active CN103810293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410073364.2A CN103810293B (zh) 2014-02-28 2014-02-28 基于Hadoop的文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410073364.2A CN103810293B (zh) 2014-02-28 2014-02-28 基于Hadoop的文本分类方法及装置

Publications (2)

Publication Number Publication Date
CN103810293A CN103810293A (zh) 2014-05-21
CN103810293B true CN103810293B (zh) 2017-06-16

Family

ID=50707063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410073364.2A Active CN103810293B (zh) 2014-02-28 2014-02-28 基于Hadoop的文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN103810293B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123393B (zh) * 2014-08-12 2017-11-10 中国联合网络通信集团有限公司 一种短信文本的分类方法和***
CN104536830A (zh) * 2015-01-09 2015-04-22 哈尔滨工程大学 一种基于MapReduce的KNN文本分类方法
CN104866606B (zh) * 2015-06-02 2019-02-01 浙江师范大学 一种MapReduce并行化大数据文本分类方法
CN105183813B (zh) * 2015-08-26 2017-03-15 山东省计算中心(国家超级计算济南中心) 基于互信息的用于文档分类的并行特征选择方法
CN105740424A (zh) * 2016-01-29 2016-07-06 湖南大学 一种基于 Spark 平台的高效率文本分类方法
CN106021360A (zh) * 2016-05-10 2016-10-12 深圳前海信息技术有限公司 自主学习优化MapReduce处理数据的方法和装置
CN106067037A (zh) * 2016-05-27 2016-11-02 大连楼兰科技股份有限公司 故障码识别和分类平台
CN106202172B (zh) * 2016-06-24 2019-07-30 中国农业银行股份有限公司 文本压缩方法及装置
CN106202556B (zh) * 2016-07-28 2019-08-30 中国电子科技集团公司第二十八研究所 一种基于Spark的海量文本关键词快速提取方法
CN106649238A (zh) * 2016-12-20 2017-05-10 北京云知声信息技术有限公司 语音转写方法及装置
CN108572953B (zh) * 2017-03-07 2023-06-20 上海颐为网络科技有限公司 一种词条结构的合并方法
CN107992633B (zh) * 2018-01-09 2021-07-27 国网福建省电力有限公司 基于关键词特征的电子文档自动分类方法及***
CN108920508A (zh) * 2018-05-29 2018-11-30 福建新大陆软件工程有限公司 基于lda算法的文本分类模型训练方法及***
CN110874534B (zh) * 2018-08-31 2023-04-28 阿里巴巴集团控股有限公司 数据处理方法和数据处理装置
CN110287159B (zh) * 2019-06-03 2021-11-12 北京一览群智数据科技有限责任公司 一种文件处理方法及装置
CN110781675A (zh) * 2019-09-25 2020-02-11 苏宁云计算有限公司 文本分类方法和装置
CN111737464B (zh) * 2020-06-12 2024-07-23 网易(杭州)网络有限公司 文本分类方法、装置和电子设备
CN111881398B (zh) * 2020-06-29 2024-02-09 腾讯科技(深圳)有限公司 页面类型确定方法、装置和设备及计算机存储介质
CN112182218A (zh) * 2020-09-30 2021-01-05 中国平安财产保险股份有限公司 文本数据的分类方法及装置
CN112215002A (zh) * 2020-11-02 2021-01-12 浙江大学 一种基于改进朴素贝叶斯的电力***文本数据分类方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103248677A (zh) * 2013-04-24 2013-08-14 深圳天源迪科信息技术股份有限公司 互联网行为分析***及其工作方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103248677A (zh) * 2013-04-24 2013-08-14 深圳天源迪科信息技术股份有限公司 互联网行为分析***及其工作方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Map Reduce的Bagging贝叶斯文本分类;冀素琴;《计算机工程》;20120831;第38卷(第16期);文章第204-第206页 *

Also Published As

Publication number Publication date
CN103810293A (zh) 2014-05-21

Similar Documents

Publication Publication Date Title
CN103810293B (zh) 基于Hadoop的文本分类方法及装置
Prabhat et al. Sentiment classification on big data using Naïve Bayes and logistic regression
Rodrigues et al. A new big data approach for topic classification and sentiment analysis of Twitter data
CN107766585B (zh) 一种面向社交网络的特定事件抽取方法
CN103279478B (zh) 一种基于分布式互信息文档特征提取方法
US11074412B1 (en) Machine learning classification system
Kong et al. An ensemble-based approach to fast classification of multi-label data streams
CN108197144B (zh) 一种基于BTM和Single-pass的热点话题发现方法
CN107066555A (zh) 面向专业领域的在线主题检测方法
CN109284432A (zh) 基于大数据平台的网络舆情分析***
CN104536830A (zh) 一种基于MapReduce的KNN文本分类方法
Sari et al. Sentiment Analysis of Customer Satisfaction on Transportation Network Company Using Naive Bayes Classifier
Chaudhary et al. TopicBERT for energy efficient document classification
CN104361037A (zh) 微博分类方法及装置
CN110232127A (zh) 文本分类方法及装置
Ranjan et al. Document classification using lstm neural network
Ali et al. A probabilistic framework for short text classification
CN105117466A (zh) 一种互联网信息筛选***及方法
Mahmud et al. Deep learning based sentiment analysis from Bangla text using glove word embedding along with convolutional neural network
Mani et al. Email spam detection using gated recurrent neural network
Nahar et al. Filtering Bengali political and sports news of social media from textual information
Li et al. Web page classification method based on semantics and structure
CN108596205A (zh) 基于地域相关因子与稀疏表示的微博转发行为预测方法
Amazal et al. A parallel global tfidf feature selection using hadoop for big data text classification
Kumari et al. Sentiment analysis on Aadhaar for Twitter Data—A hybrid classification approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: 510630, Guangzhou, Guangdong, Zhongshan, Tianhe District Road, No. 89 West, 4 floor, room 20, South A

Applicant after: GUANGZHOU WINHONG INFORMATION TECHNOLOGY CO., LTD.

Address before: 510630, Guangzhou, Guangdong, Zhongshan, Tianhe District Road, No. 89 West, 4 floor, room 20, South A

Applicant before: GUANGZHOU WINHONG INFORMATION TECHNOLOGY CO., LTD.

CB02 Change of applicant information

Address after: 510630, Guangzhou, Guangdong, Zhongshan, Tianhe District Road, No. 89 West, 4 floor, room 20, South A

Applicant after: GUANGZHOU WINHONG INFORMATION TECHNOLOGY CO., LTD.

Address before: 510630, Guangzhou, Guangdong, Zhongshan, Tianhe District Road, No. 89 West, 4 floor, room 20, South A

Applicant before: GUANGZHOU WINHONG INFORMATION TECHNOLOGY CO., LTD.

COR Change of bibliographic data
GR01 Patent grant