CN109165294B - 一种基于贝叶斯分类的短文本分类方法 - Google Patents

一种基于贝叶斯分类的短文本分类方法 Download PDF

Info

Publication number
CN109165294B
CN109165294B CN201810951636.2A CN201810951636A CN109165294B CN 109165294 B CN109165294 B CN 109165294B CN 201810951636 A CN201810951636 A CN 201810951636A CN 109165294 B CN109165294 B CN 109165294B
Authority
CN
China
Prior art keywords
classification
short text
data
text
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810951636.2A
Other languages
English (en)
Other versions
CN109165294A (zh
Inventor
水新莹
张宇光
黄亚坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Xunfei Intelligent Technology Co ltd
Original Assignee
Anhui Xunfei Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Xunfei Intelligent Technology Co ltd filed Critical Anhui Xunfei Intelligent Technology Co ltd
Priority to CN201810951636.2A priority Critical patent/CN109165294B/zh
Publication of CN109165294A publication Critical patent/CN109165294A/zh
Application granted granted Critical
Publication of CN109165294B publication Critical patent/CN109165294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于贝叶斯分类的短文本分类方法,涉及智慧城市和电子政务领域,该方法包括有以下步骤:(1)数据预处理与类别标注;(2)完成短文本数据的分词和增量特征向量提取,主要分为以下两个核心步骤;(3)建立基于贝叶斯的短文本分类模型;(4)对已处理的数据集合划分为训练集和测试集,进行分类模型训练,并根据训练集的结果进行模型的优化;(5)根据已训练好的模型,输入未知类别的短文本数据,输出为当前输入文本属于每个类别的概率,选取概率最大的类别作为最终分类类别的结果,该种基于贝叶斯分类的短文本分类方法能够高效、智能、自动的对短文本内容进行有效的分类。

Description

一种基于贝叶斯分类的短文本分类方法
技术领域
本发明涉及智慧城市和电子政务领域,具体涉及一种基于贝叶斯分类的短文本分类方法。
背景技术:
随着移动互联网和社交网络的发展,微博、微信等社交软件的兴起,公司及政府部门也逐渐利用社交软件建立联系、进行沟通。发布频率高、文本内容短小是移动社交媒体的特点,短文本内容的规模也在飞速增长。搜索引擎、智能客服和舆情监测领域中,短文本也是被研究的重点。面对如此庞大以及不断递增的网民数量,从各种各样的现象描述、私信、评论等不完整文本信息中,提取出有用的信息,对媒体、政府等决策者显得极为重要。人工处理庞大规模的短文本分类、提取等效率低下,通常无法有效完成任务,因此,如何高效、智能、自动的对短文本内容进行有效的分类对提升电子政务的建设的有着重要意义。
现有文本分类的技术主要从关键词的代表程度,即广泛性提出权重等类似的方法来进行核心分类算法的设计;例如,现有文献中《一种基于聚类词嵌入的文本分类方法》,主要是将k-均值算法应用到文档的单词向量上,获得固定大小的集群集合,每个集群的质心被解释为一个超词嵌入,文本集合中的每个嵌入词都被分配到最近的集群中心。每个集群的质心被解释为一个超词嵌入,文本集合中的每个嵌入词都被分配到最近的集群中心。每个文本被表示为一个超级单词嵌入包,计算每个超级单词嵌入在各自文本中的频率,即获得文本的类型。
分析上述短文本分类方法可知,关键词的选择影响了分类效果,需要考虑关键词的数量和特征的广泛性,而在短文本分类中,短文本特征关键词少,在实际分类过程中,关键词难以有效表达短文本的内在含义,容易产生一个文本存在多个分类类别的结果;此外,短文本中的语义信息也影响着分类的结果,而现有技术中在提取特征关键词方法对长文本的分类具有较好的效果,而短文本难以有效进行分类
如申请号为CN201710216502.1公开了一种获得用于自动标注语料的文本分类器方法及文本分类器,该方法包括确定概念集合,用每个概念对应的概念关键词集合中的概念关键词对未标注语料文本进行匹配并自动标注处理;对于每个概念,当该概念对应的标注语料文本集合中文本数量符合阈值条件时,则对该概念进行训练相对应的文本分类模型,得到对应的文本分类器,最终获得所有文本数量符合阈值条件的与该概念对应的文本分类器集合。该种算法结构,具有普适性,可灵活地改变分类体系,节约了计算时间和资源,并且本发明提供少量的初始语料文本即可,且自动标注,无需人工标注,进一步节约时间和成本,但是该种分类方法并未公开如何通过自主训练使其准确性更高的技术方案。
如申请号为CN201710882685.0公开了一种建立文本分类模型与文本分类的方法、装置,建立方法包括:获取训练样本;基于实体词典对文本进行切词后获取对应的向量矩阵;利用文本的向量矩阵以及文本的分类,训练第一分类模型和第二分类模型;在训练过程中,利用第一分类模型与第二分类模型的损失函数得到文本分类模型的损失函数,并利用文本分类模型的损失函数对第一和第二分类模型调整参数,得到由第一和第二分类模型构成的文本分类模型。文本分类的方法包括:获取待分类的文本;基于实体词典对文本进行切词后获取文本对应的向量矩阵;将向量矩阵输入文本分类模型,根据文本分类模型的输出,得到该文本的分类结果,但是该种分类方法并未公开如何通过自主训练使其准确性更高的技术方案。
发明内容
本发明的目的在于提供一种基于贝叶斯分类的短文本分类方法,以解决现有技术中导致的上述多项缺陷。
一种基于贝叶斯分类的短文本分类方法,其特征在于,该方法包括有以下步骤:
(1)数据预处理与类别标注:
步骤一:抽取上报的历史短文本数据,并对数据进行常规数据清洗,数据集成处理,提高数据质量;
步骤二:对完成初步清洗后的数据,历史已处理短文本已人工完成类别标注,对当前未处理的部分数据进行人工类别标注,完成数据预处理过程;
(2)完成短文本数据的分词和增量特征向量提取,包括以下两个核心步骤:
步骤一:基于Python的三方库Jieba分词对清洗后的短文本内容进行分词;
步骤二:提取增量特征向量,并结合TF-IDF进行关键词提取,若关键词过少,则直接使用全部分词词组作为最终的分类参数输入;
(3)建立基于贝叶斯的短文本分类模型;
(4)对已处理的数据集合划分为训练集和测试集,进行分类模型训练,并根据训练集的结果进行模型的优化;
(5)根据已训练好的模型,输入未知类别的短文本数据,输出为当前输入文本属于每个类别的概率,选取概率最大的类别作为最终分类类别的结果。
优选的,所述数据预处理包括有以下四个步骤:
步骤一:将原始数据进行清洗分类,利用Kettle将文本分成三个类别,分别是大类序号,小类序号,以及文本;
步骤二:将处理好的数据存入数据库;
步骤三:利用Jiaba分词对第三个字段的内容也就是纯文本进行分词;
步骤四:根据词性将分好的词每行留下三个词存入数据库。
优选的,所述增量特征向量和TF-IDF特征词提取法进行特征关键词的提取包括以下两个步骤:
步骤一:记B=(B1,B2,...,Bu)为从文本中提取的特征词组成的特征向量,将描述特征向量的特征词的词语概括为一个新的特征词Bu+1,给予命名,以此类推,当u=5,6,...,m便得到增量特征向量B=(B1,B2,...,Bm);
步骤二:如果某个词或短语在一篇文章中出现频率的TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类,TF-IDF的特征提取函数为:f(w)=TF(w)xIDF(w),根据上述公式对短文本内容完成特征关键词提取,首先,将特征词w的TF值记为TF(w),经常将特征项频率TF与反文档频率IDF结合起来使用;然后计算IDF(w)=log[N/n(w)+1],N为文本总数,n(w)为包含w的文本数。
优选的,对输入的短文本样本记录,B=(B1,B2,...,Bm)为提取的特征向量,C1,C2,...,Cn为n个分类结果;P(Ci|B),i=1,2,...,n表示待分类文本属于第i个分类结果的概率;P(Bj|Ci),j=1,2,...,m,i=1,2,...,n表示第j个特征词属于第i类的概率,在具体计算中,基于贝叶斯公式为下所示:
Figure GDA0003130320690000051
当分类新的文本时,只需要计算出n个类别中P(Ci|B)的值,将新的样本判定到概率值最大的类中,其中,概率P(B)是与类别无关的常数,再根据特征向量B=(B1,B2,...,Bm)各个特征词之间独立性,上述计算公式可简化为:
Figure GDA0003130320690000052
优选的,根据建立的模型,计算出未知短文本信息的类别归属,若N为预测的样本总数,Cou(Ci)表示第i个分类在样本中的计数,则P(Ci)=Cou(Ci)/N,Cou(Bij)表示第i个分类中,第j个特征词的个数,则P(Bj|Ci)=Cou(Bij)/Cou(Ci),最后,计算出待分类样本属于每个类别的概率,得出最大的概率
Figure GDA0003130320690000053
本发明的优点在于:该基于贝叶斯分类的短文本分类方法,根据用户上报的短文本内容分析后进行分类并分发至业务单位,对于核心的短文本分类过程,首先对源数据进行数据清洗、规整集成等处理,并抽取部分短文数据作为训练数据,根据分类的需求对抽取的数据进行分类标注;接着,基于Python的三方库Jieba分词对清洗后的短文本内容进行分词,并基于TF-IDF提取关键词,考虑到短文本内容少,因此,TF-IDF提取的关键词作为贝叶斯分类建模前的参考,若提取的关键词过少,则直接使用短文本分词后的词组进行分类建模,根据上述步骤,基于贝叶斯公式建立分类模型,并调整相关模型,直至分类测试的精度趋于稳定为止。
附图说明
图1为本发明的方法流程图。
图2为本发明中数据处理的流程图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
如图1和图2所示,一种基于贝叶斯分类的短文本分类方法,其特征在于,该方法包括有以下步骤:
(1)数据预处理与类别标注:
步骤一:抽取上报的历史短文本数据,并对数据进行常规数据清洗,数据集成等处理,提高数据质量;
步骤二:对完成初步清洗后的数据,历史已处理短文本已人工完成类别标注,对当前未处理的部分数据进行人工类别标注,完成数据预处理过程;
(2)完成短文本数据的分词和增量特征向量提取,主要分为以下两个核心步骤:
步骤一:基于Python的三方库Jieba分词对清洗后的短文本内容进行分词;
步骤二:提取增量特征向量,并结合TF-IDF进行关键词提取,若关键词过少,则直接使用全部分词词组作为最终的分类参数输入;
(3)建立基于贝叶斯的短文本分类模型;
(4)对已处理的数据集合划分为训练集和测试集,进行分类模型训练,并根据训练集的结果进行模型的优化;
(5)根据已训练好的模型,输入未知类别的短文本数据,输出为当前输入文本属于每个类别的概率,选取概率最大的类别作为最终分类类别的结果。
值得注意的是,所述数据预处理包括有以下四个步骤:
步骤一:将原始数据进行清洗分类,利用Kettle将文本分成三个类别,分别是大类序号,小类序号,以及文本;
步骤二:将处理好的数据存入数据库;
步骤三:利用Jiaba分词对第三个字段的内容也就是纯文本进行分词;
步骤四:根据词性将分好的词每行留下三个词存入数据库。
在本实施例中,所述增量特征向量和TF-IDF特征词提取法进行特征关键词的提取包括以下两个步骤:
步骤一:记B=(B1,B2,...,Bu)为从文本中提取的特征词组成的特征向量,将描述特征向量的特征词的词语概括为一个新的特征词Bu+1,给予命名,以此类推,当u=5,6,...,m便得到增量特征向量B=(B1,B2,...,Bm);
步骤二:如果某个词或短语在一篇文章中出现频率的TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类,TF-IDF的特征提取函数为:f(w)=TF(w)xIDF(w),根据上述公式对短文本内容完成特征关键词提取,首先,将特征词w的TF值记为TF(w),经常将特征项频率TF与反文档频率IDF结合起来使用;然后计算IDF(w)=log[N/n(w)+1],N为文本总数,n(w)为包含w的文本数。
在本实施例中,对输入的短文本样本记录,B=(B1,B2,...,Bm)为提取的特征向量,C1,C2,...,Cn为n个分类结果;P(Ci|B),i=1,2,...,n表示待分类文本属于第i个分类结果的概率;P(Bj|Ci),j=1,2,...,m,i=1,2,...,n表示第j个特征词属于第i类的概率,在具体计算中,基于贝叶斯公式为下所示:
Figure GDA0003130320690000081
当分类新的文本时,只需要计算出n个类别中P(Ci|B)的值,将新的样本判定到概率值最大的类中,其中,概率P(B)是与类别无关的常数,再根据特征向量B=(B1,B2,...,Bm)各个特征词之间独立性,上述计算公式可简化为:
Figure GDA0003130320690000082
此外,根据建立的模型,计算出未知短文本信息的类别归属,若N为预测的样本总数,Cou(Ci)表示第i个分类在样本中的计数,则P(Ci)=Cou(Ci)/N,Cou(Bij)表示第i个分类中,第j个特征词的个数,则P(Bj|Ci)=Cou(Bij)/Cou(Ci),最后,计算出待分类样本属于每个类别的概率,得出最大的概率
Figure GDA0003130320690000083
基于上述,该基于贝叶斯分类的短文本分类方法,该方法包括有以下步骤:(1)数据预处理与类别标注;(2)完成短文本数据的分词和增量特征向量提取,主要分为以下两个核心步骤;(3)建立基于贝叶斯的短文本分类模型;(4)对已处理的数据集合划分为训练集和测试集,进行分类模型训练,并根据训练集的结果进行模型的优化;(5)根据已训练好的模型,输入未知类别的短文本数据,输出为当前输入文本属于每个类别的概率,选取概率最大的类别作为最终分类类别的结果,根据用户上报的短文本内容分析后进行分类并分发至业务单位,对于核心的短文本分类过程,首先对源数据进行数据清洗、规整集成等处理,并抽取部分短文数据作为训练数据,根据分类的需求对抽取的数据进行分类标注;接着,基于Python的三方库Jieba分词对清洗后的短文本内容进行分词,并基于TF-IDF提取关键词,考虑到短文本内容少,因此,TF-IDF提取的关键词作为贝叶斯分类建模前的参考,若提取的关键词过少,则直接使用短文本分词后的词组进行分类建模,根据上述步骤,基于贝叶斯公式建立分类模型,并调整相关模型,直至分类测试的精度趋于稳定为止。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims (3)

1.一种基于贝叶斯分类的短文本分类方法,其特征在于,该方法包括有以下步骤:
(1)数据预处理与类别标注:
步骤一:抽取上报的历史短文本数据,并对数据进行常规数据清洗,数据集成处理,提高数据质量;
步骤二:对完成初步清洗后的数据,历史已处理短文本已人工完成类别标注,对当前未处理的部分数据进行人工类别标注,完成数据预处理过程;
(2)完成短文本数据的分词和增量特征向量提取,包括以下两个核心步骤:
步骤一:基于Python的三方库Jieba分词对清洗后的短文本内容进行分词;
步骤二:提取增量特征向量,并结合TF-IDF进行关键词提取,若关键词过少,则直接使用全部分词词组作为最终的分类参数输入;
(3)建立基于贝叶斯的短文本分类模型;
(4)对已处理的数据集合划分为训练集和测试集,进行分类模型训练,并根据训练集的结果进行模型的优化;
(5)根据已训练好的模型,输入未知类别的短文本数据,输出为当前输入文本属于每个类别的概率,选取概率最大的类别作为最终分类类别的结果;
所述数据预处理包括有以下四个步骤:
步骤一:将原始数据进行清洗分类,利用Kettle将文本分成三个类别,分别是大类序号,小类序号,以及文本;
步骤二:将处理好的数据存入数据库;
步骤三:利用Jiaba分词对第三个字段的内容也就是纯文本进行分词;
步骤四:根据词性将分好的词每行留下三个词存入数据库;
所述增量特征向量和TF-IDF特征词提取法进行特征关键词的提取包括以下两个步骤:
步骤一:记B=(B1,B2,...,Bu)为从文本中提取的特征词组成的特征向量,将描述特征向量的特征词的词语概括为一个新的特征词Bu+1,给予命名,以此类推,当u=5,6,...,m便得到增量特征向量B=(B1,B2,...,Bm);
步骤二:如果某个词或短语在一篇文章中出现频率的TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类,TF-IDF的特征提取函数为:f(w)=TF(w)x IDF(w),根据上述公式对短文本内容完成特征关键词提取,首先,将特征词w的TF值记为TF(w),将特征项频率TF与反文档频率IDF结合起来使用;然后计算IDF(w)=log[N/n(w)+1],N为文本总数,n(w)为包含w的文本数。
2.根据权利要求1 所述的一种基于贝叶斯分类的短文本分类方法,其特征在于:对输入的短文本样本记录,B=(B1,B2,...,Bm)为提取的特征向量,C1,C2,...,Cn为n个分类结果;P(Ci|B),i=1,2,...,n表示待分类文本属于第i个分类结果的概率;P(Bj|Ci),j=1,2,...,m,i=1,2,...,n表示第j个特征词属于第i类的概率,在具体计算中,基于贝叶斯公式为下所示:
Figure FDA0003130320680000021
当分类新的文本时,只需要计算出n个类别中P(Ci|B)的值,将新的样本判定到概率值最大的类中,其中,概率P(B)是与类别无关的常数,再根据特征向量B=(B1,B2,...,Bm)各个特征词之间独立性,上述计算公式可简化为:
Figure FDA0003130320680000031
3.根据权利要求1所述的一种基于贝叶斯分类的短文本分类方法,其特征在于:根据建立的模型,计算出未知短文本信息的类别归属,若N为预测的样本总数,Cou(Ci)表示第i个分类在样本中的计数,则P(Ci)=Cou(Ci)/N,Cou(Bij)表示第i个分类中,第j个特征词的个数,则P(Bj|Ci)=Cou(Bij)/Cou(Ci),最后,计算出待分类样本属于每个类别的概率,得出最大的概率
Figure FDA0003130320680000032
CN201810951636.2A 2018-08-21 2018-08-21 一种基于贝叶斯分类的短文本分类方法 Active CN109165294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810951636.2A CN109165294B (zh) 2018-08-21 2018-08-21 一种基于贝叶斯分类的短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810951636.2A CN109165294B (zh) 2018-08-21 2018-08-21 一种基于贝叶斯分类的短文本分类方法

Publications (2)

Publication Number Publication Date
CN109165294A CN109165294A (zh) 2019-01-08
CN109165294B true CN109165294B (zh) 2021-09-24

Family

ID=64896189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810951636.2A Active CN109165294B (zh) 2018-08-21 2018-08-21 一种基于贝叶斯分类的短文本分类方法

Country Status (1)

Country Link
CN (1) CN109165294B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902173B (zh) * 2019-01-31 2020-10-27 青岛科技大学 一种中文文本分类方法
CN110287316A (zh) * 2019-06-04 2019-09-27 深圳前海微众银行股份有限公司 一种告警分类方法、装置、电子设备及存储介质
CN110619363A (zh) * 2019-09-17 2019-12-27 陕西优百信息技术有限公司 物料数据长描述对应小类名称分类方法
CN111159414B (zh) * 2020-04-02 2020-07-14 成都数联铭品科技有限公司 文本分类方法及***、电子设备、计算机可读存储介质
CN111488459B (zh) * 2020-04-15 2022-07-22 焦点科技股份有限公司 一种基于关键词的产品分类方法
CN111985222B (zh) * 2020-08-24 2023-07-18 平安国际智慧城市科技股份有限公司 文本关键词识别方法及相关设备
CN112084308A (zh) * 2020-09-16 2020-12-15 中国信息通信研究院 用于文本类型数据识别的方法、***及存储介质
CN112214598B (zh) * 2020-09-27 2023-01-13 吾征智能技术(北京)有限公司 一种基于头发状况的认知***
CN112559748A (zh) * 2020-12-18 2021-03-26 厦门市法度信息科技有限公司 一种笔录数据案由分类方法、终端设备及存储介质
CN112883159A (zh) * 2021-02-25 2021-06-01 北京精准沟通传媒科技股份有限公司 对领域评价短文本生成层级化类别标签的方法、介质及电子设备
CN113869356A (zh) * 2021-08-17 2021-12-31 杭州华亭科技有限公司 一种基于贝叶斯分类的人员脱逃倾向性判断方法
CN114528404A (zh) * 2022-02-18 2022-05-24 浪潮卓数大数据产业发展有限公司 一种识别省市区的方法及装置
CN116956930A (zh) * 2023-09-20 2023-10-27 北京九栖科技有限责任公司 一种融合规则和学习模型的短文本信息提取方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725732B1 (en) * 2009-03-13 2014-05-13 Google Inc. Classifying text into hierarchical categories
CN104850650A (zh) * 2015-05-29 2015-08-19 清华大学 基于类标关系的短文本扩充方法
WO2016090197A1 (en) * 2014-12-05 2016-06-09 Lightning Source Inc. Automated content classification/filtering
CN106407482A (zh) * 2016-12-01 2017-02-15 合肥工业大学 一种基于多特征融合的网络学术报告分类方法
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725732B1 (en) * 2009-03-13 2014-05-13 Google Inc. Classifying text into hierarchical categories
WO2016090197A1 (en) * 2014-12-05 2016-06-09 Lightning Source Inc. Automated content classification/filtering
CN104850650A (zh) * 2015-05-29 2015-08-19 清华大学 基于类标关系的短文本扩充方法
CN106407482A (zh) * 2016-12-01 2017-02-15 合肥工业大学 一种基于多特征融合的网络学术报告分类方法
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于***的中文短文本分类研究;范云杰、刘怀亮;《现代图书情报技术》;20121231;全文 *

Also Published As

Publication number Publication date
CN109165294A (zh) 2019-01-08

Similar Documents

Publication Publication Date Title
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN109241255B (zh) 一种基于深度学习的意图识别方法
CN105183833A (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN113360647B (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
CN108596637B (zh) 一种电商服务问题自动发现***
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及***
CN111966888B (zh) 融合外部数据的基于方面类别的可解释性推荐方法及***
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
TWI828928B (zh) 高擴展性、多標籤的文本分類方法和裝置
CN115409018A (zh) 基于大数据的公司舆情监测***及其方法
CN116304020A (zh) 一种基于义原分析和跨度特征的工业文本实体抽取方法
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和***
CN111754208A (zh) 一种招聘简历自动筛选方法
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及***
CN114722198A (zh) 产品分类编码确定方法、***及相关装置
CN114239579A (zh) 基于正则表达式和crf模型的电力可研文档提取方法及装置
CN109871889B (zh) 突发事件下大众心理评估方法
CN116975738A (zh) 一种面向问句意图识别的多项式朴素贝叶斯分类方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
Kang et al. Sentiment analysis on Malaysian airlines with BERT
CN113239277A (zh) 一种基于用户评论的概率矩阵分解推荐方法
CN115080732A (zh) 投诉工单处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 241000 room 01, 18 / F, iFLYTEK intelligent building, No. 9, Wenjin West Road, Yijiang District, Wuhu City, Anhui Province

Patentee after: ANHUI XUNFEI INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: 241000 Floor 9, block A1, Wanjiang Fortune Plaza, Jiujiang District, Wuhu City, Anhui Province

Patentee before: ANHUI XUNFEI INTELLIGENT TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder