CN109558489A - 文本分类方法及装置 - Google Patents

文本分类方法及装置 Download PDF

Info

Publication number
CN109558489A
CN109558489A CN201811471905.1A CN201811471905A CN109558489A CN 109558489 A CN109558489 A CN 109558489A CN 201811471905 A CN201811471905 A CN 201811471905A CN 109558489 A CN109558489 A CN 109558489A
Authority
CN
China
Prior art keywords
words
bag
word
concern
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811471905.1A
Other languages
English (en)
Inventor
赵卓成
马奥
吴明
陈英华
章祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhongfu Information Technology Co Ltd
Original Assignee
Nanjing Zhongfu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhongfu Information Technology Co Ltd filed Critical Nanjing Zhongfu Information Technology Co Ltd
Priority to CN201811471905.1A priority Critical patent/CN109558489A/zh
Publication of CN109558489A publication Critical patent/CN109558489A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种文本分类方法及装置,涉及数据处理技术领域。本公开提供的文本分类方法及装置,基于预先构建的词袋库预先生成策略匹配库,以使策略匹配库包括词袋库中各词袋的关注词,并通过预先生成的策略匹配库,对输入的数据进行扫描匹配,输出匹配后的数据结果;并计算输出的数据结果的参量值,将计算得到的参量值与数据结果对应匹配的关注词的参量值进行比对,判断比对结果是否在预设的误差范围内,在判断过后,输出在预设的误差范围内数据结果,并进行分类处理,实现了快速对输入数据的分类处理,提高了数据分类的效率。

Description

文本分类方法及装置
技术领域
本公开涉及数据处理技术领域,具体而言,本公开涉及一种文本分类方法及装置。
背景技术
随着大数据时代的发展,在一些需要处理和分析海量信息的高性能、高实时性的***中,由于数据过于庞大,因此更需要对数据流量进行分类过滤,快速获取需要处理的文本数据,但是,目前,对于文本的分类,往往需要对输入的文本进行预处理、提取特征等操作,严重影响分类的效率。
发明内容
有鉴于此,本公开提供一种文本分类方法及装置。
本公开提供一种文本分类方法,所述方法包括:
基于预先生成的策略匹配库,对输入的数据进行扫描匹配,输出匹配后的数据结果;所述策略匹配库基于预先构建的词袋库生成,所述词袋库中包括多个词袋,各所述词袋包括多个关注词以及各所述关注词的参量值,所述策略匹配库包括各所述词袋的关注词。
计算得到输出的数据结果的参量值。
将计算得到的参量值与所述数据结果对应匹配的关注词的参量值进行比对,判断比对结果是否在预设的误差范围内。
输出在所述预设的误差范围内的数据结果,并进行分类处理。
进一步的,所述策略匹配库通过以下步骤生成:
输入预先构建的词袋库并在匹配引擎中注册策略库。
取出各所述词袋中的各所述关注词,并将各所述关注词通过预编译函数编译到注册的策略库中,生成策略匹配库,以对输入的数据进行扫描匹配。
进一步的,所述词袋库通过以下的步骤构建:
输入语料库,对所述语料库中的各类文档进行中文分词操作,得到多个分词。
对各所述分词进行特征提取,得到多个关注词。
对所述多个关注词进行分类合并,去除无用词,得到各类文档对应的词表。
基于各类文档对应的词表,对各类文档进行降维处理,并将各类文档与对应词表中的关注词进行关联,得到各类文档对应的词袋。
对各类文档对应词袋中的关注词计算参量值,并将计算的参量值标注于对应词袋中的关注词,得到词袋库。
进一步的,对各所述分词进行特征提取,得到多个关注词的步骤包括:
对各所述分词计算卡方统计值。
根据计算的卡方统计值,对各分词进行排序,取前N项卡方统计值最高的分词作为关注词;其中,N为预设值。
进一步的,对各类文档对应词袋中的关注词计算参量值的步骤包括:
对各类文档对应词袋中的关注词计算逆文档频率以及词频。
根据计算得到的逆文档频率以及词频,计算得到各类文档对应词袋中的关注词的参量值。
进一步的,所述输出的数据结果包括匹配命中的关注词以及该关注词被匹配命中的次数,计算得到输出的数据结果的参量值的步骤包括:
根据所述数据结果中的匹配命中的关注词以及该关注词被匹配命中的次数,对匹配命中的关注词计算逆文档频率以及词频。
根据计算得到的逆文档频率以及词频,计算得到所述数据结果中的关注词的参量值。
本公开提供一种文本分类装置,包括计算模块、匹配模块以及分类模块;
所述匹配模块用于基于预先生成的策略匹配库,对输入的数据进行扫描匹配,输出匹配后的数据结果;所述策略匹配库基于预先构建的词袋库生成,所述词袋库中包括多个词袋,各所述词袋包括多个关注词以及各所述关注词的参量值,所述策略匹配库包括各所述词袋的关注词。
所述计算模块用于计算得到输出的数据结果的参量值。
所述分类模块用于将计算得到的参量值与所述数据结果对应匹配的关注词的参量值进行比对,判断比对结果是否在预设的误差范围内;并输出在所述预设的误差范围内的数据结果,并进行分类处理。
进一步的,所述匹配模块包括第一输入子模块以及生成模块。
所述第一输入子模块用于输入预先构建的词袋库并在匹配引擎中注册策略库。
所述生成模块用于取出各所述词袋中的各所述关注词,并将各所述关注词通过预编译函数编译到注册的策略库中,生成策略匹配库,以对输入的数据进行扫描匹配。
进一步的,所述文本分类装置还包括构建模块;所述构建模块用于构建所述词袋库,所述构建模块包括第二输入子模块、提取子模块、处理子模块以及构建子模块。
所述第二输入子模块用于输入语料库,并对所述语料库中的各类文档进行中文分词操作,得到多个分词。
所述提取子模块用于对各所述分词进行特征提取,得到多个关注词。
所述处理子模块用于对所述多个关注词进行分类合并,去除无用词,得到各类文档对应的词表;并基于各类文档对应的词表,对各类文档进行降维处理,并将各类文档与对应词表中的关注词进行关联,得到各类文档对应的词袋。
所述构建子模块用于对各类文档对应词袋中的关注词计算参量值,并将计算的参量值标注于对应词袋中的关注词,得到词袋库。
进一步的,所述提取子模块用于对各所述分词进行特征提取,得到多个关注词包括:
所述提取子模块用于对各所述分词计算卡方统计值。
并根据计算的卡方统计值,对各分词进行排序,取前N项卡方统计值最高的分词作为关注词;其中,N为预设值。
本公开提供的文本分类方法及装置,基于预先构建的词袋库预先生成策略匹配库,以使策略匹配库包括词袋库中各词袋的关注词,并通过预先生成的策略匹配库,对输入的数据进行扫描匹配,输出匹配后的数据结果;并计算输出的数据结果的参量值,将计算得到的参量值与数据结果对应匹配的关注词的参量值进行比对,判断比对结果是否在预设的误差范围内,在判断过后,输出在预设的误差范围内数据结果,并进行分类处理,实现了快速对输入数据的分类处理,提高了数据分类的效率。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本公开所提供的电子设备的方框示意图。
图2为本公开所提供的文本分类装置的一种方框示意图。
图3为本公开所提供的文本分类方法的一种流程示意图。
图4为本公开所提供的文本分类方法的又一种流程示意图。
图5为本公开所提供的文本分类方法的又一种流程示意图。
图6为本公开所提供的文本分类方法的又一种流程示意图。
图7为本公开所提供的文本分类方法的又一种流程示意图。
图8为本公开所提供的文本分类方法的又一种流程示意图。
图9为本公开所提供的文本分类装置的另一种方框示意图。
图10为本公开所提供的文本分类装置的另一种方框示意图。
图标:100-电子设备;10-文本分类装置;11-计算模块;12-匹配模块;121-第一输入子模块;122-生成模块;13-分类模块;14-构建模块;141-第二输入子模块;142-提取子模块;143-处理子模块;144-构建子模块;20-存储器;30-处理器;40-通信单元。
具体实施方式
下面将结合本公开中附图,对本公开中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
文本分类是指计算机将基于一篇文章或一段信息归于预先给定的某一类或者几类的过程。文本分类流程主要包括训练-建模、预测-分类;其中就需要经过文本预处理阶段(主要包括分词、去停用词...),特征提取阶段(主要包括特征项评分、特征权重的计算),文本表示阶段(该阶段的是将文本信息转化成计算机可以理解的方式--常用词袋模型(BagOf Words,BOW)或向量空间模型(Vector Space Model)),最后喂入分类器(比如朴素贝叶斯分类算法、K最近邻分类算法(k-Nearest Neighbor,KNN)、支持向量机(Support VectorMachine,SVM)、最大熵和神经网络)进行预测分类。
随着大数据时代的发展,在一些需要处理和分析海量信息的高性能、高实时性的***中,由于数据过于庞大,因此更需要对数据流量进行分类过滤,快速获取需要处理的文本数据,但是,目前,基于上述过程对于文本的分类,往往需要对输入的文本进行预处理、提取特征等操作,严重影响分类的效率。
基于上述研究,本公开提供一种文本分类方法及装置,以改善上述问题。
请结合参阅图1,本公开提供的文本分类方法应用于图1所示的电子设备100。由所述电子设备100执行本公开所提供的文本分类方法。在本公开中,所述电子设备100可以是,但不限于,个人电脑(Personal Computer,PC)、笔记本电脑、个人数字助理(PersonalDigital Assistant,PDA)或服务器等具有数据处理能力的电子设备100。
所述电子设备100包括图2所示的文本分类装置10、存储器20、处理器30以及通信单元40;所述存储器20、处理器30以及通信单元40各个元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互直接可通过一条或多条通讯总线或信号线实现电性连接。所述文本分类装置10包括至少一个可以软件或固件(Firmware)的形式存储于所述存储器20中的软件功能模块,所述处理器30通过运行存储在存储器20内的软件程序以及模块,从而执行各种功能应用以及数据处理。
所述存储器20可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
所述处理器30可以是一种集成电路芯片,具有信号的处理能力。所述处理器30可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等。
所述通信单元40用于通过网络建立所述电子设备100与其他外部设备之间的通信连接,并通过所述网络进行数据传输。
请结合参阅图3,图3为本公开所提供的文本分类方法的流程示意图。下面对图3所示的文本分类方法的具体流程进行详细阐述。
步骤S10:基于预先生成的策略匹配库,对输入的数据进行扫描匹配,输出匹配后的数据结果。
其中,所述策略匹配库基于预先构建的词袋库生成,所述词袋库中包括多个词袋,各所述词袋包括多个关注词以及各所述关注词的参量值,所述策略匹配库包括各所述词袋的关注词。
步骤S20:计算得到输出的数据结果的参量值。
其中,在将输入的数据与所述策略匹配库中的关注词进行匹配,输出匹配后的数据结果后,通过处理函数对所述输出的数据结果计算参量值。
步骤S30:将计算得到的参量值与所述数据结果对应匹配的关注词的参量值进行比对,判断比对结果是否在预设的误差范围内。
其中,与所述数据结果对应匹配的关注词的参量值作为比对的标准,在将计算得到的参量值与所述数据结果对应匹配的关注词的参量值进行比对时,误差范围可以根据实际情况所需而动态调整。
步骤S40:输出在所述预设的误差范围内的数据结果,并进行分类处理。
其中,在将计算得到的参量值与所述数据结果对应匹配的关注词的参量值进行比对后,输出在所述预设的误差范围内的数据结果,完成数据的筛选分类。在本公开中,根据实际不同的功能需求,对输出的数据结果可以设定为分类或者过滤,本质上过滤是筛掉无用数据,分类是获取有用数据。例如,对输出的数据结果设定为分类,则在构建词袋库及策略匹配库时,根据需求设定需要的关注词,进而,在根据设定为需要的关注词对输入的数据进行扫描匹配时,则可快速的筛选分类出所需要的数据。再例如,对输出的数据结果设定为过滤,则在构建词袋库及策略匹配库时,根据需求设定不需要的关注词,进而,在根据设定为不需要的关注词对输入的数据进行扫描匹配时,则可快速的筛选过滤掉不需要的数据。不仅简化了数据分类的步骤,而且大大提高了数据分类的效率,在大数据流量下,可以实现快速对输入数据的筛选分类。
进一步的,请结合参阅图4,所述策略匹配库通过以下步骤生成。
步骤S11:输入预先构建的词袋库并在匹配引擎中注册策略库。
其中,预先构建的词袋库会由加载引擎按照预设时间间隔进行维护更新,进一步的,加载引擎会按照加载策略进行词袋库的动态加载并支持热加载,将词袋库中各所述词袋的关注词进行数据结构的映射转换,进而完成词袋库的映射转换,在完成映射转换后,将映射好的词袋库输入到匹配引擎中。同时,在匹配引擎中注册策略库。在本公开中,匹配引擎支持多种匹配算法,包括AC多模式匹配算法、BM模式匹配算法以及、Hyperscan匹配算法在内的主流高效匹配算法,因此,在本公开中,根据实际情况需要,可以选择相应算法来完成匹配。可选地,在本公开中,选择Hyperscan匹配算法来完成输入数据的扫描匹配,则在输入词袋库时,将hyperscan函数族注册到匹配引擎中,进行策略库的注册。
步骤S12:取出各所述词袋中的各所述关注词,并将各所述关注词通过预编译函数编译到注册的策略库中,生成策略匹配库,以对输入的数据进行扫描匹配。
其中,将词袋库输入到匹配引擎中后,取出各所述词袋中的各所述关注词,通过预编译函数将各所述关注词编译到注册的策略库中,生成匹配时所需要的策略匹配库。在生成策略匹配库后,对输入的数据,只需要通过匹配函数,将输入的数据与策略匹配库中的各所述关注词进行扫描匹配,即可得到匹配的数据结果,后续只需对匹配得到数据结果进行计算、比对,则可完成输入的数据的分类。不仅简化了数据分类的步骤,而且大大提高了分类的效率。
在本公开中,为了快速得到匹配的数据结果,还可在取出各所述词袋中的各所述关注词后,为每个关注词分配对应的策略ID,根据分配的策略ID可快速得到各所述关注词匹配命中的次数。
进一步的,所述词袋库通过以下的步骤构建。
步骤S50:输入语料库,对所述语料库中的各类文档进行中文分词操作,得到多个分词。
其中,所述语料库是在语言的实际使用中真实出现的语音材料,每类文档都具有确定的分类信息。
在输入所述语料库后,对所述语料库中的各类文档进行中文分词操作,对所述语料库中的各类文档的分词操作,可选用mmseg中文分词算法、逆向最大匹配算法、双向最大匹配法等算法,可选的,本公开选用mmseg中文分词算法,通过载入常用词词表,将文本切割成词典形式,得到多个分词。
步骤S60:对各所述分词进行特征提取,得到多个关注词。
其中,对各所述分词进行特征提取,则计算各所述分词的词频以及卡方统计量。计算得到的词频会带入后续参量值的计算。
步骤S70:对所述多个关注词进行分类合并,去除无用词,得到各类文档对应的词表。
其中,在对各所述分词进行特征提取,得到多个关注词后,对所述关注词进行分类合并,将同一类文档的关注词进行汇总,并去除无用词以及停用词,得到各类文档对应的词表。
步骤S80:基于各类文档对应的词表,对各类文档进行降维处理,并将各类文档与对应词表中的关注词进行关联,得到各类文档对应的词袋。
其中,根据各类文档对应的词表,对各类文档进行降维处理,消除关注词的同义性和多义性,在对各类文档降维处理后,将各类文档与对应词表中的关注词进行关联,进而,对各类文档都可以得到对应的词袋。
步骤S90:对各类文档对应词袋中的关注词计算参量值,并将计算的参量值标注于对应词袋中的关注词,得到词袋库。
其中,在得到各类文档对应的词袋后,对各类文档对应词袋中的关注词计算参量值,并将计算的参量值标注于对应词袋中的关注词,进而得到词袋库。对各类文档对应词袋中的关注词计算的参量值会用于后续数据结果的比对。
在本公开中,所述语料库会按照预设时间间隔进行更新输入,进而所述词袋库也会按照预设时间间隔进行更新,并将更新后的词袋库实时输入到匹配引擎中,更新策略匹配库,以保证数据匹配及分类的准确性。
进一步的,请结合参阅图6,对各所述分词进行特征提取,得到多个关注词的步骤包括:
步骤S61:对各所述分词计算卡方统计值。
其中,卡方统计值是得到词表的重要指标,卡方统计值的计算过程如下:
其中,ti表示特征项,即分词;Cj表示文档的类别;A表示属于Cj类且包含ti的文档频数;B表示不属于Cj类但包含ti的文档频数;C表示属于Cj类但不包含ti的文档频数;D表示即不属于Cj类也不包含ti的文档频数,假设N为所述语料库中的文档总数,则特征项ti于Cj的卡方统计值为:
步骤S62:根据计算的卡方统计值,对各分词进行排序,取前N项卡方统计值最高的分词作为关注词;其中,N为预设值。
其中,在计算得到各分词的卡方统计值后,根据计算得到的卡方统计值,对各分词进行排序,选取前N项卡方统计值最高的分词作为关注词。N为预设值,可以根据实际情况设定。
进一步的,请结合参阅图7,对各类文档对应词袋中的关注词计算参量值的步骤包括:
步骤S91:对各类文档对应词袋中的关注词计算逆文档频率以及词频。
其中,各类文档对应词袋中的关注词的词频通过以下公式计算:
其中,分子ni,j是该关注词在文档中的出现次数,分母表示文档中所有字词的出现次数之和。根据以上公式则可得到各所述关注词的词频tfi,j
其中,各类文档对应词袋中的关注词的逆文档频率可通过以下公式计算得到:
其中,D表示语料库的总文件数目,ti表示关注词;d表示语料库中含特征项的词(即关注词ti)的文件的数目;通过语料库总的文档总数D除以语料库中包含某个关注词ti的文档的数目,再将得到的商取对数,这样就得到该关注词的逆文档频率idfi。根据逆文档频率公式则可计算得到各所述关注词的逆文档频率。
步骤S92:根据计算得到的逆文档频率以及词频,计算得到各类文档对应词袋中的关注词的参量值。
其中,根据计算得到的逆文档频率以及词频,计算得到各类文档对应词袋中的关注词的参量值,其计算公式如下:
tfidfi,j=tfi,j·idfi
其中,tfi,j表示词频;idfi表示逆文档频率,根据公式tfidfi,j=tfi,j·idfi即可计算得到各所述关注词的参量值,计算得到的参量值会作为标准值用于后续数据结果的比对。
进一步的,请结合参阅图8,所述输出的数据结果包括匹配命中的关注词以及该关注词被匹配命中的次数,计算得到输出的数据结果的参量值的步骤包括:
步骤S21:根据所述数据结果中的匹配命中的关注词以及该关注词被匹配命中的次数,对匹配命中的关注词计算逆文档频率以及词频。
步骤S22:根据计算得到的逆文档频率以及词频,计算得到所述数据结果中的关注词的参量值。
其中,步骤S21至步骤S22的具体过程可参照步骤S91至步骤S92。
请返回结合参阅图2,本公开提供一种文本分类装置10,包括计算模块11、匹配模块12以及分类模块13。
所述匹配模块12用于基于预先生成的策略匹配库,对输入的数据进行扫描匹配,输出匹配后的数据结果;所述策略匹配库基于预先构建的词袋库生成,所述词袋库中包括多个词袋,各所述词袋包括多个关注词以及各所述关注词的参量值,所述策略匹配库包括各所述词袋的关注词。
所述计算模块11用于计算得到输出的数据结果的参量值。
所述分类模块13用于将计算得到的参量值与所述数据结果对应匹配的关注词的参量值进行比对,判断比对结果是否在预设的误差范围内;并输出在所述预设的误差范围内的数据结果,并进行分类处理。
进一步的,所述匹配模块12包括第一输入子模块121以及生成模块122。
所述第一输入子模块121用于输入预先构建的词袋库并在匹配引擎中注册策略库。
所述生成模块122用于取出各所述词袋中的各所述关注词,并将各所述关注词通过预编译函数编译到注册的策略库中,生成策略匹配库,以对输入的数据进行扫描匹配。
进一步的,所述文本分类装置10还包括构建模块14;所述构建模块14用于构建所述词袋库,所述构建模块14包括第二输入子模块141、提取子模块142、处理子模块143以及构建子模块144。
所述第二输入子模块141用于输入语料库,并对所述语料库中的各类文档进行中文分词操作,得到多个分词。
所述提取子模块142用于对各所述分词进行特征提取,得到多个关注词。
所述处理子模块143用于对所述多个关注词进行分类合并,去除无用词,得到各类文档对应的词表;并基于各类文档对应的词表,对各类文档进行降维处理,并将各类文档与对应词表中的关注词进行关联,得到各类文档对应的词袋。
所述构建子模块144用于对各类文档对应词袋中的关注词计算参量值,并将计算的参量值标注于对应词袋中的关注词,得到词袋库。
进一步的,所述提取子模块142用于对各所述分词进行特征提取,得到多个关注词包括:
所述提取子模块142用于对各所述分词计算卡方统计值,并根据计算的卡方统计值,对各分词进行排序,取前N项卡方统计值最高的分词作为关注词;其中,N为预设值。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的文本分类装置10的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上,本公开提供的文本分类方法及装置,基于预先构建的词袋库预先生成策略匹配库,以使策略匹配库包括词袋库中各词袋的关注词,并通过预先生成的策略匹配库,对输入的数据进行扫描匹配,输出匹配后的数据结果;并计算输出的数据结果的参量值,将计算得到的参量值与数据结果对应匹配的关注词的参量值进行比对,判断比对结果是否在预设的误差范围内,在判断过后,输出在预设的误差范围内的数据结果,实现了快速对输入数据的分类处理,提高了数据分类的效率;并且在本公开中,可以根据实际的功能需求,对输出的数据结果可以设定为分类或者过滤,进而对数据进行筛选分类,不仅简化了数据分类的步骤,而且大大提高了数据分类的效率,在大数据流量下,可以实现快速对输入数据的筛选分类。除此之外,本公开所提供的文本分类方法及装置,按照预设时间间隔更新词袋库,并将更新后的词袋库实时输入到匹配引擎中,更新策略匹配库,以保证数据匹配及分类的准确性。
在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本公开的可选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种文本分类方法,其特征在于,所述方法包括:
基于预先生成的策略匹配库,对输入的数据进行扫描匹配,输出匹配后的数据结果;所述策略匹配库基于预先构建的词袋库生成,所述词袋库中包括多个词袋,各所述词袋包括多个关注词以及各所述关注词的参量值,所述策略匹配库包括各所述词袋的关注词;
计算得到输出的数据结果的参量值;
将计算得到的参量值与所述数据结果对应匹配的关注词的参量值进行比对,判断比对结果是否在预设的误差范围内;
输出在所述预设的误差范围内的数据结果,并进行分类处理。
2.根据权利要求1所述的文本分类方法,其特征在于,所述策略匹配库通过以下步骤生成:
输入预先构建的词袋库并在匹配引擎中注册策略库;
取出各所述词袋中的各所述关注词,并将各所述关注词通过预编译函数编译到注册的策略库中,生成策略匹配库,以对输入的数据进行扫描匹配。
3.根据权利要求1所述的文本分类方法,其特征在于,所述词袋库通过以下的步骤构建:
输入语料库,对所述语料库中的各类文档进行中文分词操作,得到多个分词;
对各所述分词进行特征提取,得到多个关注词;
对所述多个关注词进行分类合并,去除无用词,得到各类文档对应的词表;
基于各类文档对应的词表,对各类文档进行降维处理,并将各类文档与对应词表中的关注词进行关联,得到各类文档对应的词袋;
对各类文档对应词袋中的关注词计算参量值,并将计算的参量值标注于对应词袋中的关注词,得到词袋库。
4.根据权利要求3所述的文本分类方法,其特征在于,对各所述分词进行特征提取,得到多个关注词的步骤包括:
对各所述分词计算卡方统计值;
根据计算的卡方统计值,对各分词进行排序,取前N项卡方统计值最高的分词作为关注词;其中,N为预设值。
5.根据权利要求3所述的文本分类方法,其特征在于,对各类文档对应词袋中的关注词计算参量值的步骤包括:
对各类文档对应词袋中的关注词计算逆文档频率以及词频;
根据计算得到的逆文档频率以及词频,计算得到各类文档对应词袋中的关注词的参量值。
6.根据权利要求1所述的文本分类方法,其特征在于,所述输出的数据结果包括匹配命中的关注词以及该关注词被匹配命中的次数,计算得到输出的数据结果的参量值的步骤包括:
根据所述数据结果中的匹配命中的关注词以及该关注词被匹配命中的次数,对匹配命中的关注词计算逆文档频率以及词频;
根据计算得到的逆文档频率以及词频,计算得到所述数据结果中的关注词的参量值。
7.一种文本分类装置,其特征在于,包括计算模块、匹配模块以及分类模块;
所述匹配模块用于基于预先生成的策略匹配库,对输入的数据进行扫描匹配,输出匹配后的数据结果;所述策略匹配库基于预先构建的词袋库生成,所述词袋库中包括多个词袋,各所述词袋包括多个关注词以及各所述关注词的参量值,所述策略匹配库包括各所述词袋的关注词;
所述计算模块用于计算得到输出的数据结果的参量值;
所述分类模块用于将计算得到的参量值与所述数据结果对应匹配的关注词的参量值进行比对,判断比对结果是否在预设的误差范围内;并输出在所述预设的误差范围内数据结果,并进行分类处理。
8.根据权利要求7所述的文本分类装置,其特征在于,所述匹配模块包括第一输入子模块以及生成模块;
所述第一输入子模块用于输入预先构建的词袋库并在匹配引擎中注册策略库;
所述生成模块用于取出各所述词袋中的各所述关注词,并将各所述关注词通过预编译函数编译到注册的策略库中,生成策略匹配库,以对输入的数据进行扫描匹配。
9.根据权利要求7所述的文本分类装置,其特征在于,所述文本分类装置还包括构建模块;所述构建模块用于构建所述词袋库,所述构建模块包括第二输入子模块、提取子模块、处理子模块以及构建子模块;
所述第二输入子模块用于输入语料库,并对所述语料库中的各类文档进行中文分词操作,得到多个分词;
所述提取子模块用于对各所述分词进行特征提取,得到多个关注词;
所述处理子模块用于对所述多个关注词进行分类合并,去除无用词,得到各类文档对应的词表;并基于各类文档对应的词表,对各类文档进行降维处理,并将各类文档与对应词表中的关注词进行关联,得到各类文档对应的词袋;
所述构建子模块用于对各类文档对应词袋中的关注词计算参量值,并将计算的参量值标注于对应词袋中的关注词,得到词袋库。
10.根据权利要求9所述的文本分类装置,其特征在于,所述提取子模块用于对各所述分词进行特征提取,得到多个关注词包括:
所述提取子模块用于对各所述分词计算卡方统计值;
并根据计算的卡方统计值,对各分词进行排序,取前N项卡方统计值最高的分词作为关注词;其中,N为预设值。
CN201811471905.1A 2018-12-03 2018-12-03 文本分类方法及装置 Pending CN109558489A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811471905.1A CN109558489A (zh) 2018-12-03 2018-12-03 文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811471905.1A CN109558489A (zh) 2018-12-03 2018-12-03 文本分类方法及装置

Publications (1)

Publication Number Publication Date
CN109558489A true CN109558489A (zh) 2019-04-02

Family

ID=65868814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811471905.1A Pending CN109558489A (zh) 2018-12-03 2018-12-03 文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN109558489A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241099A (zh) * 2020-01-09 2020-06-05 佛山科学技术学院 一种工业大数据存储方法及装置
CN111258993A (zh) * 2020-01-09 2020-06-09 佛山科学技术学院 一种工业大数据的异常数据过滤方法及装置
CN112036176A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 文本聚类方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577739A (zh) * 2017-08-28 2018-01-12 深圳市空谷幽兰人工智能科技有限公司 一种半监督的领域词挖掘与分类的方法和设备
CN107590177A (zh) * 2017-07-31 2018-01-16 南京邮电大学 一种结合监督学习的中文文本分类方法
CN108255813A (zh) * 2018-01-23 2018-07-06 重庆邮电大学 一种基于词频-逆文档与crf的文本匹配方法
CN108573031A (zh) * 2018-03-26 2018-09-25 上海万行信息科技有限公司 一种基于内容的投诉分类方法和***
CN108763510A (zh) * 2018-05-30 2018-11-06 北京五八信息技术有限公司 意图识别方法、装置、设备及存储介质
CN109933670A (zh) * 2019-03-19 2019-06-25 中南大学 一种基于组合矩阵计算语义距离的文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590177A (zh) * 2017-07-31 2018-01-16 南京邮电大学 一种结合监督学习的中文文本分类方法
CN107577739A (zh) * 2017-08-28 2018-01-12 深圳市空谷幽兰人工智能科技有限公司 一种半监督的领域词挖掘与分类的方法和设备
CN108255813A (zh) * 2018-01-23 2018-07-06 重庆邮电大学 一种基于词频-逆文档与crf的文本匹配方法
CN108573031A (zh) * 2018-03-26 2018-09-25 上海万行信息科技有限公司 一种基于内容的投诉分类方法和***
CN108763510A (zh) * 2018-05-30 2018-11-06 北京五八信息技术有限公司 意图识别方法、装置、设备及存储介质
CN109933670A (zh) * 2019-03-19 2019-06-25 中南大学 一种基于组合矩阵计算语义距离的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
万红: "《水资源规划与利用》", 31 March 2018 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241099A (zh) * 2020-01-09 2020-06-05 佛山科学技术学院 一种工业大数据存储方法及装置
CN111258993A (zh) * 2020-01-09 2020-06-09 佛山科学技术学院 一种工业大数据的异常数据过滤方法及装置
CN112036176A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 文本聚类方法及装置
CN112036176B (zh) * 2020-07-22 2024-05-24 大箴(杭州)科技有限公司 文本聚类方法及装置

Similar Documents

Publication Publication Date Title
De Battisti et al. A decade of research in statistics: A topic model approach
CN109558489A (zh) 文本分类方法及装置
CN110163478A (zh) 一种合同条款的风险审查方法及装置
CN105630767B (zh) 一种文本相似性的比较方法以及装置
CN108897798A (zh) 用电客服工单分类方法、装置以及电子设备
CN110362544A (zh) 日志处理***、日志处理方法、终端及存储介质
CN106598949B (zh) 一种词语对文本贡献度的确定方法及装置
Astorino et al. Support vector machine polyhedral separability in semisupervised learning
CN107391545A (zh) 一种对用户进行分类的方法、输入方法及装置
CN111046282B (zh) 文本标签设置方法、装置、介质以及电子设备
CN106503153B (zh) 一种计算机文本分类体系
CN109299235A (zh) 知识库搜索方法、装置及计算机可读存储介质
CN111737473A (zh) 文本分类方法、装置及设备
Dong et al. SA-CGAN: An oversampling method based on single attribute guided conditional GAN for multi-class imbalanced learning
Nguyen et al. An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis
Lee et al. A hybrid system for imbalanced data mining
Costa et al. Fault classification on transmission lines using knn-dtw
Li et al. Mix-up augmentation for oracle character recognition with imbalanced data distribution
Du et al. Accelerated k-nearest neighbors algorithm based on principal component analysis for text categorization
CN109471953A (zh) 一种语音数据检索方法及终端设备
CN110390011A (zh) 数据分类的方法和装置
Amazal et al. A parallel global tfidf feature selection using hadoop for big data text classification
CN116204647A (zh) 一种目标比对学习模型的建立、文本聚类方法及装置
Harakawa et al. Extraction of hierarchical structure of Web communities including salient keyword estimation for Web video retrieval
Hossain et al. Narratives in the network: interactive methods for mining cell signaling networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination