CN106095996A - 用于文本分类的方法 - Google Patents

用于文本分类的方法 Download PDF

Info

Publication number
CN106095996A
CN106095996A CN201610457431.XA CN201610457431A CN106095996A CN 106095996 A CN106095996 A CN 106095996A CN 201610457431 A CN201610457431 A CN 201610457431A CN 106095996 A CN106095996 A CN 106095996A
Authority
CN
China
Prior art keywords
text
word
feature
sorted
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610457431.XA
Other languages
English (en)
Other versions
CN106095996B (zh
Inventor
李甫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Liangziyun Digital New Media Technology Co Ltd
Quantum Cloud Future (beijing) Mdt Infotech Ltd
Original Assignee
Wuxi Liangziyun Digital New Media Technology Co Ltd
Quantum Cloud Future (beijing) Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Liangziyun Digital New Media Technology Co Ltd, Quantum Cloud Future (beijing) Mdt Infotech Ltd filed Critical Wuxi Liangziyun Digital New Media Technology Co Ltd
Priority to CN201610457431.XA priority Critical patent/CN106095996B/zh
Publication of CN106095996A publication Critical patent/CN106095996A/zh
Application granted granted Critical
Publication of CN106095996B publication Critical patent/CN106095996B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用于文本分类的方法,所述方法包括:获取预先标注好类别的文本集合作为训练样本,对训练样本中的文本进行预处理,得到训练用特征词集合;提取特征词,获得特征词典;由特征词典生成训练样本中各文本的特征向量,并获取训练样本的特征向量集;利用特征向量集训练SVM分类器;对待分类的文本进行预处理,得到待分类文本的特征词集;根据特征词典生成待分类文本的特征向量;将该特征向量输入经过训练的SVM分类器,得到待分类文本的类别。

Description

用于文本分类的方法
技术领域
本发明涉及数据分类技术领域,尤其涉及一种用于文本分类的方法。
背景技术
文本信息是一种广泛存在于各个领域的数据,使用分类模型对文本进行分类有着广阔的应用市场。文本分类时,特征提取的优劣对分类准确率有着极大的影响。如果将所有词都作为特征词会造成两方面不利影响:1.特征维度过高并且稀疏;2.很多词普遍存在于各个类别,区分性不强,如果这些词作为特征,将会降低分类效果。因此,需要对文本进行特征词的选择。考虑到各个领域的特征词并不一样,因此并无通用的特征词,常用方法是通过领域专家进行特征词挑选。采用领域专家进行挑选的方法比较耗费人力,并且提取出来的特征词依赖于领域专家的主观意愿,不同专家会得到不同的结果,这对后续的工作将产生不利的影响。
随着大数据的发展,机器学习得到了越来越多的应用。本发明提供了一种文本分类方法,其中采用了基于机器学习进行特征自动提取的方法,该方法无需领域专家参与即可快速完成对文本特征词的提取,并用提取出来的特征词构建特征向量,用于文本的分类。
发明内容
鉴于上述的分析,本发明旨在提供一种文本分类方法,用以解决现有文本分类方法,需要领域专家参与,易受到人为主观认识的影响,导致分类准确率不高的问题。
为了实现本发明的目的,提出了一种用于文本分类的方法,包括以下步骤:
步骤1.获取预先标注好类别的文本集合作为训练样本,该训练样本有n+1个类别,其中1至n为有效类、第n+1类为无效类,n≥1;
步骤2.对训练样本中的文本进行预处理,得到训练用特征词集合;对该集合中有效类的特征词进行提取,再结合无效类的全部特征词,得到特征词典;由特征词典生成训练样本中各文本的特征向量,并获取训练样本的特征向量集;
步骤3.利用特征向量集训练SVM分类器;
步骤4.获取待分类的文本,对待分类的文本进行预处理,得到待分类文本的特征词集;根据特征词典生成待分类文本的特征向量;将该特征向量输入经过训练的SVM分类器,得到待分类文本类别。
其中,步骤2和步骤4中的预处理,包括分词处理,具体步骤为:使用分词工具对文本进行分词,获得文本词集;
其中,对中文文本采用中文分词器;对英文文本,使用空格分词,且英文分词完成后,使用词干提取的方式归一化时态和单复数。
预处理还可以包括停用词、同义词处理,具体为:使用预先建立的停用词表处理分词结果,剔除停用词;使用预先建立的同义词表替换同义词。
步骤2中的特征词提取进一步包括步骤:
S21.计算特征词的TF-IDF值;其中TF-IDF值为TF×IDF,TF表示指定类中具体词的词频,IDF是指反文档频率,IDF=log(D/n),式中n表示词出现的文档数,D为总文档数;
S22.将特征词按对应的TF-IDF值从高到低进行排序;
S23.提取排序后的前N个特征词,N≥1。
上述N的确定可以采用下述步骤:根据排序结果,依次用当前词的TF-IDF值减去下一个词的TF-IDF值,记为当前值的差值,选取差值最大的词为选取点,即差值最大的词为第N个词。
步骤3中根据特征词典生成待分类文本的特征向量的步骤,进一步包括:将待分类文本的特征词集与特征词典进行比较,根据以下规则对特征向量进行重新赋值,获得待分类文本的特征向量;所述规则为:若特征词典中的词出现在待分类文本的特征词集中,则获取该特征词在训练样本中的TF-IDF值作为特征向量中相应位置的特征值;若特征词典中的词没有出现在待分类文本的特征词集中,则该特征词相应位置的特征值为0。
本发明有益效果如下:采用提取特征词、构建特征字典、训练分类器的方式,实现了特征词的自动提取和文本的自动分类;通过以TF-IDF值之间的差值作为特征词选取依据,能选取合适数量的特征词,降低特征词的维度,进而加快文本分类的速度。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为文本分类方法的流程示意图;
图2为特征词提取的示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。
本发明的一个具体实施例,公开了一种针对快递评论的文本分类的方法,具体包括如下步骤:
随机获取网络中有关快递评论的数据作为文本集合,由多位工作人员对文本集合中的各个快递评论标注类别,分别标记为很快、快、慢、很慢、无效这5个类别。统计标记结果后,根据每条快递评论标记类别的多少,确定其最终类别。再按照训练样本:测试集=10:1的比例随机分割标注好的文本集合,得到标注好的训练样本和测试集。其中,无效类是指那些不属于任何所需的类别(即与快递评价无关的文本集合),也可以作为拒绝类。无效类不参与特征词提取的过程,仅作为分类时的类别,参与分类器的训练。
S1.获取上述标注好类别的训练样本,该训练样本有5个类别,其中1至4为有效类(很快、快、慢、很慢)、第5类为无效类。
S2.对训练样本中的文本进行预处理,预处理包括分词、停用词和同义词处理,得到训练用特征词集合,具体包括下述步骤:
S21.使用分词工具对训练样本中的每条文本进行分词,获得训练样本的文本词集。如果文本是中文,则采用中文分词器;如果是英文,则使用空格进行分词,且在英文分词完成后使用词干提取的方式归一化时态和单复数。
具体地,可以采用ICTCLAS(Institute of Computing Technology,ChineseLexical Analysis System,汉语词法分析***)和IK Analyzer(IK分词器)等分词工具作为中文分词器。
S22.使用预先建立的停用词表对分词结果进行处理,剔除停用词,获取训练样本中各个类别的原始特征词集合。
其中,对分词结果进行的处理包括去除没有实际意义的字或者词,如“的、了、不但、而且、虽然、但是”等,以及一些生僻字和特殊符号。
S23.使用预先建立的同义词表对原始特征词集合中的同义词进行替换,使得所有同义词均用一个词来表示,得到训练用特征词集合。
S3.对训练用特征词集合中有效类的特征词进行特征选择,再结合无效类的全部特征词,得到特征词典。特征词提取得过多,会造成特征维度过高,不利于分类器的训练,因此核心问题就是提取合适数量的特征词。
特征词提取具体包括如下步骤:
S31.对训练用特征词集合中的所有词计算TF-IDF(Term Frequency-InverseDocument Frequency,词频-逆文本率)值。
其中,TF-IDF值为TF×IDF,TF是指词频,表示指定类中具体词的词频;IDF是指反文档频率,IDF=log(D/n),式中n表示该词出现的文档数,D为总文档数。TF值越高,表明该词越能代表该类的特征;而IDF即log(D/n)越低,则说明该词普遍存在于各个文档,因此区分能力较弱。综合TF和IDF的特点,本发明使用TF×IDF作为词的区分性指标,记为TF-IDF。TF-IDF越大,排序越靠前,说明该词的类别区分性越强。
S32.将每一有效类中的词按对应的TF-IDF值从高到低进行排序,依次用当前词的TF-IDF值减去下一个词的TF-IDF值,记为当前值的差值,选取差值最大的词为选取点,选取该词前面(包括该词)的所有词为该有效类别的特征词,再结合无效类的全部特征词,得到特征词典。由于每一个有效类中,经过步骤S31已经排好序,当前词的TF-IDF值肯定大于等于下一个词的值,故差值大于等于0。差值越大则说明两个特征词之间的分类能力差别越大,即前一个词的分类能力明显大于后面的词。因此,利用差值作为特征词选取依据,能选取合适数量的特征词。
S4.由特征词典生成训练样本中文本的特征向量,并获取训练样本的特征向量集,其中特征向量的值是TF-IDF值。
S5.利用特征向量集训练SVM分类器,得到经过训练的SVM分类器。
S6.获取待分类的文本,该文本可以是来源于互联网的快递评论。
S7.对待分类的文本进行预处理,得到待分类文本的特征词集;其中,预处理包括分词、停用词和同义词处理,具体包括下述步骤
S71.使用分词工具对待分类文本进行分词,获得待分类文本的文本词集,其中分词方法同步骤S21;
S72.使用停用词表对分词后得到的文本词集进行处理,剔除停用词,所述停用词表与步骤S22中使用的相同。
S73.使用同义词表对停用词处理后的文本词集中的同义词进行替换,使得所有同义词均用一个词来表示。所述同义词表与步骤S23中使用的相同。
S8.根据特征词典生成待分类文本的特征向量。具体地:将待分类文本的特征词集与步骤S3中的特征词典进行比较,根据以下规则对S3中的特征向量进行重新赋值,获得待分类文本的特征向量。若特征词典中的词出现在待分类文本的特征词集中,则获取该词在训练样本中的TF-IDF值作为特征向量中相应位置的特征值;若特征词典中的词没有出现在待分类文本的特征词集中,则该词相应位置的特征值为0。由此生成待分类文本的特征向量。
S9.将待分类文本的特征向量输入经过训练的SVM分类器,得到待分类文本的类别。
本实施例将测试集作为待分类的文本集合,经过步骤S7-S9,预测测试集中文本的类别。分类结果与人工选定关键词方法进行比对,比较结果如下:
实验结果表明,本发明所提出的特征提取方法在分类效果上优于人工挑选关键词的方式,并且分类速度快,实现了自动分类,无需领域专家参与,不受专家主观认识的影响。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种用于文本分类的方法,其特征在于,包括以下步骤:
步骤1.获取预先标注好类别的文本集合作为训练样本,该训练样本有n+1个类别,其中1至n为有效类、第n+1类为无效类,n≥1;
步骤2.对训练样本中的文本进行预处理,得到训练用特征词集合;对该集合中有效类的特征词进行提取,再结合无效类的全部特征词,得到特征词典;由特征词典生成训练样本中各文本的特征向量,并获取训练样本的特征向量集;
步骤3.利用特征向量集训练SVM分类器;
步骤4.获取待分类的文本,对待分类的文本进行预处理,得到待分类文本的特征词集;根据特征词典生成待分类文本的特征向量;将该特征向量输入经过训练的SVM分类器,得到待分类文本的类别。
2.根据权利要求1所述的用于文本分类的方法,其特征在于,步骤2和步骤4中的预处理,包括分:使用分词工具对文本进行分词,获得文本词集。
3.根据权利要求2所述的用于文本分类的方法,其特征在于,对中文文本采用中文分词器;对英文文本,使用空格分词,且英文分词完成后,使用词干提取的方式归一化时态和单复数。
4.根据权利要求2所述的用于文本分类的方法,其特征在于,步骤2和步骤4中的预处理,还包括停用词、同义词处理,具体为:
a.使用预先建立的停用词表处理分词结果,剔除停用词;
b.使用预先建立的同义词表替换同义词。
5.根据权利要求1所述的用于文本分类的方法,其特征在于,步骤2中有效类的特征词提取进一步包括:
S21.计算特征词的TF-IDF值;其中TF-IDF值为TF×IDF,TF表示指定类中具体词的词频,IDF是指反文档频率,IDF=log(D/n),式中n表示词出现的文档数,D为总文档数;
S22.将特征词按对应的TF-IDF值从高到低进行排序;
S23.提取排序后的前N个特征词,N≥1。
6.根据权利要求5所述的用于文本分类的方法,其特征在于,步骤S23中N的确定步骤如下:根据排序结果,依次用当前词的TF-IDF值减去下一个词的TF-IDF值,记为当前值的差值,选取差值最大的词为选取点,即差值最大的词为第N个词。
7.根据权利要求1所述的用于文本分类的方法,其特征在于,步骤3中根据特征词典生成待分类文本的特征向量的步骤,进一步包括:将待分类文本的特征词集与特征词典进行比较,根据以下规则对特征向量进行重新赋值,获得待分类文本的特征向量,所述规则为:若特征词典中的词出现在待分类文本的特征词集中,则获取该特征词在训练样本中的TF-IDF值作为特征向量中相应位置的特征值;若特征词典中的词没有出现在待分类文本的特征词集中,则该特征词相应位置的特征值为0。
CN201610457431.XA 2016-06-22 2016-06-22 用于文本分类的方法 Expired - Fee Related CN106095996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610457431.XA CN106095996B (zh) 2016-06-22 2016-06-22 用于文本分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610457431.XA CN106095996B (zh) 2016-06-22 2016-06-22 用于文本分类的方法

Publications (2)

Publication Number Publication Date
CN106095996A true CN106095996A (zh) 2016-11-09
CN106095996B CN106095996B (zh) 2020-02-21

Family

ID=57237782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610457431.XA Expired - Fee Related CN106095996B (zh) 2016-06-22 2016-06-22 用于文本分类的方法

Country Status (1)

Country Link
CN (1) CN106095996B (zh)

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599072A (zh) * 2016-11-21 2017-04-26 东软集团股份有限公司 一种文本聚类方法及装置
CN106778046A (zh) * 2017-02-28 2017-05-31 思派(北京)网络科技有限公司 一种基于特征值进行***癌复发预测的***和方法
CN106934223A (zh) * 2017-02-28 2017-07-07 思派(北京)网络科技有限公司 一种基于大数据的血液病智能分类***及方法
CN106951917A (zh) * 2017-02-28 2017-07-14 思派(北京)网络科技有限公司 一种淋巴瘤病理类型的智能分类***和方法
CN107092679A (zh) * 2017-04-21 2017-08-25 北京邮电大学 一种特征词向量获得方法、文本分类方法及装置
CN107102983A (zh) * 2017-04-20 2017-08-29 北京工业大学 一种基于网络知识源的中文概念的词向量表示方法
CN107833603A (zh) * 2017-11-13 2018-03-23 医渡云(北京)技术有限公司 电子病历文档分类方法、装置、电子设备及存储介质
CN107862051A (zh) * 2017-11-08 2018-03-30 郑州云海信息技术有限公司 一种文件分类方法、***及一种文件分类设备
CN108427720A (zh) * 2018-02-08 2018-08-21 中国科学院计算技术研究所 ***日志分类方法
CN108520030A (zh) * 2018-03-27 2018-09-11 深圳中兴网信科技有限公司 文本分类方法、文本分类***及计算机装置
CN108733733A (zh) * 2017-04-21 2018-11-02 为朔生物医学有限公司 基于机器学习的生物医学文本分类方法、***和存储介质
CN108898274A (zh) * 2018-05-30 2018-11-27 国网浙江省电力有限公司宁波供电公司 一种电力调度日志缺陷分类方法
CN108959236A (zh) * 2017-05-19 2018-12-07 百度在线网络技术(北京)有限公司 医学文献分类模型训练方法、医学文献分类方法及其装置
CN109101534A (zh) * 2018-06-26 2018-12-28 珠海宏桥高科技有限公司 一种基于文本规则的自动文档分发方法和装置
CN109670014A (zh) * 2018-11-21 2019-04-23 北京大学 一种基于规则匹配和机器学习的论文作者名消歧方法
CN109741190A (zh) * 2018-12-27 2019-05-10 清华大学 一种个股公告分类的方法、***及设备
CN110019792A (zh) * 2017-10-30 2019-07-16 阿里巴巴集团控股有限公司 文本分类方法及装置和分类器模型训练方法
CN110020420A (zh) * 2018-01-10 2019-07-16 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN110188199A (zh) * 2019-05-21 2019-08-30 北京鸿联九五信息产业有限公司 一种用于智能语音交互的文本分类方法
CN110264318A (zh) * 2019-06-26 2019-09-20 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及存储介质
CN110362815A (zh) * 2018-04-11 2019-10-22 北京京东尚科信息技术有限公司 文本向量生成方法和装置
CN110717040A (zh) * 2019-09-18 2020-01-21 平安科技(深圳)有限公司 词典扩充方法及装置、电子设备、存储介质
CN110750731A (zh) * 2019-09-27 2020-02-04 成都数联铭品科技有限公司 针对新闻舆情的去重方法及***
CN110895703A (zh) * 2018-09-12 2020-03-20 北京国双科技有限公司 法律文书案由识别方法及装置
CN111597334A (zh) * 2020-04-30 2020-08-28 陈韬文 电气图纸文本分类方法、***、装置及介质
CN111597329A (zh) * 2019-02-19 2020-08-28 北大方正集团有限公司 一种基于多语种的情感分类方法及***
CN112445910A (zh) * 2019-09-02 2021-03-05 上海哔哩哔哩科技有限公司 一种信息分类方法及***
US10997403B1 (en) 2018-12-19 2021-05-04 First American Financial Corporation System and method for automated selection of best description from descriptions extracted from a plurality of data sources using numeric comparison and textual centrality measure
US11048711B1 (en) 2018-12-19 2021-06-29 First American Financial Corporation System and method for automated classification of structured property description extracted from data source using numeric representation and keyword search
CN113111164A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型接处警文本居住地信息提取方法和装置
CN113111898A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于支持向量机的车辆类型确定方法和装置
CN113111169A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型的接处警文本地址信息提取方法和装置
CN113111172A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型的接处警文本人物信息提取方法和装置
CN113111895A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于支持向量机的处警警情类别确定方法和装置
CN113111897A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于支持向量机的接警警情类别确定方法和装置
CN113111174A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于深度学习模型的群体识别方法与装置、设备及介质
CN113111165A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型的接警警情类别确定方法和装置
CN113111171A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型的处警警情类别确定方法和装置
CN113111170A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型接处警文本轨迹地信息提取方法和装置
CN113111166A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型接处警警情发生地类型确定方法和装置
CN113111175A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于深度学习模型极端行为识别方法与装置、设备及介质
CN113111176A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于深度学习模型作案手段识别方法与装置、设备及介质
CN113535964A (zh) * 2021-09-15 2021-10-22 深圳前海环融联易信息科技服务有限公司 企业分类模型智能构建方法、装置、设备及介质
CN113901223A (zh) * 2021-11-19 2022-01-07 企查查科技有限公司 企业分类模型的生成方法、装置、计算机设备、存储介质
US11321527B1 (en) 2021-01-21 2022-05-03 International Business Machines Corporation Effective classification of data based on curated features
CN114936376A (zh) * 2022-06-14 2022-08-23 中国电信股份有限公司 文本定密方法及装置、非易失性存储介质、处理器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN104965867A (zh) * 2015-06-08 2015-10-07 南京师范大学 基于chi特征选取的文本事件分类方法
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
CN104978354A (zh) * 2014-04-10 2015-10-14 中电长城网际***应用有限公司 文本分类方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
CN104978354A (zh) * 2014-04-10 2015-10-14 中电长城网际***应用有限公司 文本分类方法和装置
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN104965867A (zh) * 2015-06-08 2015-10-07 南京师范大学 基于chi特征选取的文本事件分类方法

Cited By (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599072A (zh) * 2016-11-21 2017-04-26 东软集团股份有限公司 一种文本聚类方法及装置
CN106778046A (zh) * 2017-02-28 2017-05-31 思派(北京)网络科技有限公司 一种基于特征值进行***癌复发预测的***和方法
CN106934223A (zh) * 2017-02-28 2017-07-07 思派(北京)网络科技有限公司 一种基于大数据的血液病智能分类***及方法
CN106951917A (zh) * 2017-02-28 2017-07-14 思派(北京)网络科技有限公司 一种淋巴瘤病理类型的智能分类***和方法
CN107102983B (zh) * 2017-04-20 2020-12-04 北京工业大学 一种基于网络知识源的中文概念的词向量表示方法
CN107102983A (zh) * 2017-04-20 2017-08-29 北京工业大学 一种基于网络知识源的中文概念的词向量表示方法
CN107092679A (zh) * 2017-04-21 2017-08-25 北京邮电大学 一种特征词向量获得方法、文本分类方法及装置
CN108733733A (zh) * 2017-04-21 2018-11-02 为朔生物医学有限公司 基于机器学习的生物医学文本分类方法、***和存储介质
CN107092679B (zh) * 2017-04-21 2020-01-03 北京邮电大学 一种特征词向量获得方法、文本分类方法及装置
CN108733733B (zh) * 2017-04-21 2022-03-08 为朔生物医学有限公司 基于机器学习的生物医学文本分类方法、***和存储介质
CN108959236B (zh) * 2017-05-19 2021-11-09 百度在线网络技术(北京)有限公司 医学文献分类模型训练方法、医学文献分类方法及其装置
CN108959236A (zh) * 2017-05-19 2018-12-07 百度在线网络技术(北京)有限公司 医学文献分类模型训练方法、医学文献分类方法及其装置
CN110019792A (zh) * 2017-10-30 2019-07-16 阿里巴巴集团控股有限公司 文本分类方法及装置和分类器模型训练方法
CN107862051A (zh) * 2017-11-08 2018-03-30 郑州云海信息技术有限公司 一种文件分类方法、***及一种文件分类设备
CN107833603A (zh) * 2017-11-13 2018-03-23 医渡云(北京)技术有限公司 电子病历文档分类方法、装置、电子设备及存储介质
CN110020420B (zh) * 2018-01-10 2023-07-21 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN110020420A (zh) * 2018-01-10 2019-07-16 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN108427720A (zh) * 2018-02-08 2018-08-21 中国科学院计算技术研究所 ***日志分类方法
CN108520030B (zh) * 2018-03-27 2022-02-11 深圳中兴网信科技有限公司 文本分类方法、文本分类***及计算机装置
CN108520030A (zh) * 2018-03-27 2018-09-11 深圳中兴网信科技有限公司 文本分类方法、文本分类***及计算机装置
CN110362815A (zh) * 2018-04-11 2019-10-22 北京京东尚科信息技术有限公司 文本向量生成方法和装置
CN108898274A (zh) * 2018-05-30 2018-11-27 国网浙江省电力有限公司宁波供电公司 一种电力调度日志缺陷分类方法
CN109101534A (zh) * 2018-06-26 2018-12-28 珠海宏桥高科技有限公司 一种基于文本规则的自动文档分发方法和装置
CN110895703B (zh) * 2018-09-12 2023-05-23 北京国双科技有限公司 法律文书案由识别方法及装置
CN110895703A (zh) * 2018-09-12 2020-03-20 北京国双科技有限公司 法律文书案由识别方法及装置
CN109670014A (zh) * 2018-11-21 2019-04-23 北京大学 一种基于规则匹配和机器学习的论文作者名消歧方法
CN109670014B (zh) * 2018-11-21 2021-02-19 北京大学 一种基于规则匹配和机器学习的论文作者名消歧方法
US11048711B1 (en) 2018-12-19 2021-06-29 First American Financial Corporation System and method for automated classification of structured property description extracted from data source using numeric representation and keyword search
US11790680B1 (en) 2018-12-19 2023-10-17 First American Financial Corporation System and method for automated selection of best description from descriptions extracted from a plurality of data sources using numeric comparison and textual centrality measure
US11232114B1 (en) 2018-12-19 2022-01-25 First American Financial Corporation System and method for automated classification of structured property description extracted from data source using numeric representation and keyword search
US10997403B1 (en) 2018-12-19 2021-05-04 First American Financial Corporation System and method for automated selection of best description from descriptions extracted from a plurality of data sources using numeric comparison and textual centrality measure
CN109741190A (zh) * 2018-12-27 2019-05-10 清华大学 一种个股公告分类的方法、***及设备
CN111597329B (zh) * 2019-02-19 2023-09-19 新方正控股发展有限责任公司 一种基于多语种的情感分类方法及***
CN111597329A (zh) * 2019-02-19 2020-08-28 北大方正集团有限公司 一种基于多语种的情感分类方法及***
CN110188199A (zh) * 2019-05-21 2019-08-30 北京鸿联九五信息产业有限公司 一种用于智能语音交互的文本分类方法
CN110264318A (zh) * 2019-06-26 2019-09-20 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及存储介质
CN112445910A (zh) * 2019-09-02 2021-03-05 上海哔哩哔哩科技有限公司 一种信息分类方法及***
CN110717040A (zh) * 2019-09-18 2020-01-21 平安科技(深圳)有限公司 词典扩充方法及装置、电子设备、存储介质
CN110750731A (zh) * 2019-09-27 2020-02-04 成都数联铭品科技有限公司 针对新闻舆情的去重方法及***
CN110750731B (zh) * 2019-09-27 2023-10-27 成都数联铭品科技有限公司 针对新闻舆情的去重方法及***
CN113111897A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于支持向量机的接警警情类别确定方法和装置
CN113111170A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型接处警文本轨迹地信息提取方法和装置
CN113111166A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型接处警警情发生地类型确定方法和装置
CN113111171A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型的处警警情类别确定方法和装置
CN113111165A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型的接警警情类别确定方法和装置
CN113111164A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型接处警文本居住地信息提取方法和装置
CN113111898A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于支持向量机的车辆类型确定方法和装置
CN113111895A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于支持向量机的处警警情类别确定方法和装置
CN113111172A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型的接处警文本人物信息提取方法和装置
CN113111169A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型的接处警文本地址信息提取方法和装置
CN113111176A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于深度学习模型作案手段识别方法与装置、设备及介质
CN113111175A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于深度学习模型极端行为识别方法与装置、设备及介质
CN113111174A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于深度学习模型的群体识别方法与装置、设备及介质
CN111597334A (zh) * 2020-04-30 2020-08-28 陈韬文 电气图纸文本分类方法、***、装置及介质
US11321527B1 (en) 2021-01-21 2022-05-03 International Business Machines Corporation Effective classification of data based on curated features
WO2023039925A1 (zh) * 2021-09-15 2023-03-23 深圳前海环融联易信息科技服务有限公司 企业分类模型智能构建方法、装置、设备及介质
CN113535964B (zh) * 2021-09-15 2021-12-24 深圳前海环融联易信息科技服务有限公司 企业分类模型智能构建方法、装置、设备及介质
CN113535964A (zh) * 2021-09-15 2021-10-22 深圳前海环融联易信息科技服务有限公司 企业分类模型智能构建方法、装置、设备及介质
CN113901223A (zh) * 2021-11-19 2022-01-07 企查查科技有限公司 企业分类模型的生成方法、装置、计算机设备、存储介质
CN113901223B (zh) * 2021-11-19 2024-01-26 企查查科技股份有限公司 企业分类模型的生成方法、装置、计算机设备、存储介质
CN114936376A (zh) * 2022-06-14 2022-08-23 中国电信股份有限公司 文本定密方法及装置、非易失性存储介质、处理器

Also Published As

Publication number Publication date
CN106095996B (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN106095996A (zh) 用于文本分类的方法
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN106294320B (zh) 一种面向学术论文的术语抽取方法及***
CN103049501B (zh) 基于互信息和条件随机场模型的中文领域术语识别方法
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN104298665A (zh) 一种中文文本中评价对象的识别方法及装置
CN109376251A (zh) 一种基于词向量学习模型的微博中文情感词典构建方法
CN105022725A (zh) 一种应用于金融Web领域的文本情感倾向分析方法
CN102541838B (zh) 用于优化情感分类器的方法和设备
CN107169086B (zh) 一种文本分类方法
CN103064971A (zh) 一种基于评分和中文情感分析的垃圾评论检测方法
CN104679728A (zh) 一种文本相似度检测方法
CN104008091A (zh) 一种基于情感值的网络文本情感分析方法
CN103020167B (zh) 一种计算机中文文本分类方法
CN105224520B (zh) 一种中文专利文献术语自动识别方法
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN103593431A (zh) 网络舆情分析方法和装置
Masala et al. jurBERT: A Romanian BERT model for legal judgement prediction
CN106445906A (zh) 领域词典中中长词词组的生成方法及装置
CN102880631A (zh) 一种基于双层分类模型的中文作者识别方法及其装置
CN104462409A (zh) 基于AdaBoost的跨语言情感资源数据识别方法
CN104346326A (zh) 一种情绪文本的情绪特征确定方法及装置
CN104850617A (zh) 短文本处理方法及装置
CN105045913A (zh) 基于WordNet以及潜在语义分析的文本分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200221

Termination date: 20210622