CN110222180A - 一种文本数据分类与信息挖掘方法 - Google Patents

一种文本数据分类与信息挖掘方法 Download PDF

Info

Publication number
CN110222180A
CN110222180A CN201910481105.6A CN201910481105A CN110222180A CN 110222180 A CN110222180 A CN 110222180A CN 201910481105 A CN201910481105 A CN 201910481105A CN 110222180 A CN110222180 A CN 110222180A
Authority
CN
China
Prior art keywords
text
classification
data
text data
membership
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910481105.6A
Other languages
English (en)
Other versions
CN110222180B (zh
Inventor
鲁玥
王玉
曲皓
张逍玉
孔祥智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201910481105.6A priority Critical patent/CN110222180B/zh
Publication of CN110222180A publication Critical patent/CN110222180A/zh
Application granted granted Critical
Publication of CN110222180B publication Critical patent/CN110222180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本数据分类与信息挖掘方法,属于计算机技术领域。本发明通过利用根据实际数据建立的关键词库,使得文本特征向量的维数大大降低、信息集中,克服了文本大数据处理过程中高维‑稀疏的问题,便于支持向量机算法的实现。同时定义了隶属度差异化系数来选取可靠个体,以增强文本分类的准确性。进一步的,本发明在训练支持向量机之前,利用两层模糊分类初步得到其类别,无需提前获知训练数据的类别对于12345热线文本数据,本申请还提出了针对不同类别利用群体智能的方法对分类后的问题文本给出解决方案,能充分调动不同领域的专业人士给予解答。

Description

一种文本数据分类与信息挖掘方法
技术领域
本发明涉及一种文本数据分类与信息挖掘方法,属于计算机技术领域。
背景技术
文本分类是自然语言处理领域中一个很重要的问题,广泛应用于垃圾信息过滤、用户评论情感倾向识别、用户查询意图识别、新闻分类等。目的在于更好的提取文本中所含的共同信息,发掘规律特性,提高文本进一步处理的效率。
比如与人们日常生活密切相关的12345市长热线的文本数据分类,通过分类更好的将人民群众反映的大量问题进行总结,由专业人员给出准确而又统一的答案,形成知识库,避免了政府人员工作的重复,提高工作效率;通过分类还可以获取不同地区不同类别的信息数量,从而对地区的发展和各方面存在的问题有一个整体上的把握,针对突出和亟待解决的问题给出解决方案,提高地区的发展和人民的幸福指数。
现有的文本分类方法存在着高维-稀疏的问题,其训练样本可靠性较差必然导致其分类不准确,且通常需要获取一些已分类文本,比如申请号为CN201710356683.8的专利申请公开了一种文本数据分类方法及服务器,其分类方法就是利用已分类数据提取特征分词,计算各个特征分词的权重并以向量表示,而特征分词的权重根据每个特征词在所属的文本数据类别中出现的次数计算得到;将这些已分类文本一部分作为样本集训练支持向量机,一部分作为测试集测试,输出支持向量机的决策函数对为分类数据分类。
发明内容
为了解决目前文本分类方法中存在的高维-稀疏从而导致分类不准确、且需要获取已分类文本的问题,本发明提供了一种文本数据分类与信息挖掘方法,所述方法包括:
S1:建立不同层级不同类别的关键词库,并根据关键词库确定每条文本数据对应的文本特征向量;为描述方便,假设第i条文本数据所含总关键词数为ni、总类别个数为k、所含第j类关键词的数目为mij,则第i条文本数据的特征向量为[mi1,mi2···,mij···mik];
S2:根据S1建立好的关键词库,基于分层模糊分类的方法对各条文本数据进行分类,分类过程中,计算每条文本数据对各类的隶属度;第i条文本数据对第j类的隶属度其中mij表示第i条文本数据所含第j类关键词的数目;根据隶属度将各条文本数据模糊分类至对应的类别;
S3:选取隶属度差异化大的文本数据作为可靠个体,通过支持向量机的训练得到训练函数;定义第i条文本数据的隶属度差异化系数为:
定义差异化系数的阈值λ;
当βi≥λ时,称该个体隶属度差异大,为可靠个体,作为支持向量机的训练数据,
当βi<λ时,称该个体隶属度差异小,为不可靠个体;
S4:采用训练好的支持向量机训练函数对待分类的文本数据进行分类。
可选的,所述S3中支持向量机如下:
选取高斯核函数(xi,yi)表示训练数据,xi表示训练数据的输入,yi表示对应的输出,αi表示Lagrange乘子,n为训练数据个数;
取αj>0对应的样本训练支持向量机,得到决策函数:
可选的,所述S1之前,还包括文本预处理,得到离散化后的数据文本。
可选的,所述文本预处理,得到离散化后的数据文本包括:根据NLPIR汉语分词***对每条文本分词,利用已有停用词词典去停用词,得到离散化后的数据文本。
可选的,所述S1之前,还包括根据已有文本数据确定不同层级不同类别的关键词库所包含的关键词。
可选的,所述方法应用于12345市长热线文本数据的分类。
可选的,所述12345市长热线文本数据的分类中,设置至少两个层级。
可选的,当设置为两个层级时,第一层是性质类别,第二层是职能类别。
可选的,所述性质类别包括咨询和投诉两类,其中咨询一类包括经济违法和社会服务中的至少两项;投诉一类包括行政职能和民生投诉、法制投诉、消费维权中的至少两项。本发明的第二个目的在于提供上述方法在文本分类领域内的应用。
本发明有益效果是:
通过利用根据实际数据建立的关键词库,使得文本特征向量的维数大大降低、信息集中,克服了文本大数据处理过程中高维-稀疏的问题,便于支持向量机算法的实现。同时定义了隶属度差异化系数来选取可靠个体,以增强文本分类的准确性。进一步的,针对12345热线文本数据,通过利用两层模糊分类将文本分类获取最初分类信息,此过程不需要获取已分类的文本,节省了步骤;对于12345热线文本数据,本申请还提出了针对不同类别利用群体智能的方法对分类后的问题文本给出解决方案,能充分调动不同领域的专业人士给予解答。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的实现流程图。
图2为本发明的具体实施步骤图。
图3为本发明的文本两层模糊分类类别图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
12345政府服务热线,即“非紧急救助服务***”,用来帮助诉求人解决生活、生产中所遇困难和问题,是市委、市政府关注民生、倾听民意的平台,其通常会由话务员记录电话内容,进而对记录的内容进行文本分类,由对应的相关部分解决所反映的问题和困难。
本发明提供的文本数据分类与信息挖掘方法即可应用于12345热线文本分类中,下述以此为例进行说明。
实施例一:
本实施例提供一种文本数据分类与信息挖掘方法,参见图1-3,所述方法包括:
步骤一:文本预处理
在获取到12345市长热线的大量文本数据后,首先根据NLPIR汉语分词***对每条文本分词,利用已有停用词词典去停用词,得到离散化后的数据文本,即初始文本向量。
步骤二:获取文本特征向量
建立不同层级不同类别的关键词库,并根据关键词库确定每条文本数据对应的文本特征向量;
根据文本关键词和类别的实际特征建立类别关键词库,将步骤一得到的初始文本向量与所建立的不同层级不同类别的关键词库进行匹配,得到文本在各类别关键词库上的词频,构成文本特征向量。
针对12345市长热线文本内容,建立不同层级不同类别的关键词库过程中,通常可将其划分为两个层级:
第一层是性质类别,包括咨询和投诉两类;比如,咨询一类对应的关键词库可能包含“了解、请问、询问、咨询、条例、标准、查询”等,而投诉一类对应的关键词库可能包含“反映、解决,亟待,举报、投诉、建议”等。
第二层是职能类别,其中咨询一类中包括经济违法和社会服务两类,投诉一类中包括行政职能和民生投诉,法制投诉、消费维权。
咨询大类下的两小类,比如经济违法类对应的关键词库可能包含“违法,贷款、案件、钱、资金、法律、诈骗、……”,社会服务类对应的关键词库可能包含“,油烟、扰民、协调、社保卡、公积金、身份证、***、医保、……”。
投诉大类下的四小类:比如行政职能类对应的关键词库可能包含“职能、办公、拖延、领导、纪委、政府、官方、……”,民生投诉类对应的关键词库可能包含“纠纷、扰民、流动摊贩、小区、家具、……”,法制投诉类对应的关键词库可能包含“安全、法律、违反、监管、欺诈、……”,消费维权类对应的关键词库可能包含“买、卖、订购、退款、过期、销售、退货、无证、经营、服务态度、消费、……”。
行政职能:职能、办公、拖延、领导、纪委、政府、官方
民生投诉:纠纷、扰民、流动摊贩、小区、家具
法制投诉:安全、法律、违反、监管、欺诈
消费维权:买、卖、订购、退款、过期、销售、退货、无证、经营、服务态度、消费
上述关键词库可能包含的文本数据仅为示例,实际应用中可根据12345市长热线文本数据的特点总结提取类别关键词。
分类结构见附图3。
文本特征向量:每条文本数据由唯一的特征向量标识,特征向量的列数是类别个数。设第i条文本数据所含总关键词数为ni,总类别个数为k,所含第j类关键词的数目为mij,则第i条文本数据的特征向量为[mi1,mi2···,mij···mik]。
假设2017年10月4号10992行数据为:
市民反映:小榄镇升平中路海港城店自然醒家具,2017年10月3日16:00左右在该店购买一套床上用品4件套和两个枕头,其称该店实体店枕头标价398元买一送一,可在该店的淘宝旗舰店(自然醒家具店)只需要199元一个,还有床上用品4件套实体店销售199元一套送一张被子,但在淘宝店销售119元一套,市民表示这是属于捆绑性销售,存在欺诈消费者,现要求商家退货退款,请相关部门介入处理,谢谢”。
上述数据对应的文本特征向量即为:
第一层模糊分类特征向量[0,1];
第二层模糊分类特征向量[0,2,1,8];
根据此步骤可知,本申请大大降低了文本特征向量的维度,传统文本分类方法需要统计预处理后的文本中所有出现的词语的词频,但并非所有词语对于文本分类都有帮助,所以本申请通过建库的过程,只获取库中出现关键词的词频,此部分词语可以对文本分类提供帮助。
步骤三:分层模糊分类确定初始类别
计算文本对于类别的隶属度,并基于分层模糊分类的方法对文本进行初始分类。
上述建立不同层级不同类别的关键词库过程已经针对12345市长热线文本内容,建立了图3所示两层的结构,在确定每条文本数据的初始类别时,需计算其隶属度:
隶属度:第i条文本数据对第j类的隶属度其中mij表示第i条文本数据所含第j类关键词的数目。
分层模糊分类:根据该条文本数据中的关键词,首先确定文本对性质类别的隶属度,将文本数据分到值最大的隶属度对应的性质类别中,第一层模糊分类完成。
再次确定文本对每个性质类别包含的职能类别的隶属度,在每个性质类别下进行第二层模糊分类,同样将文本数据分到值最大的隶属度对应的职能类别中。比如,上述步骤二中给出的文本数据,通过分层模糊分类,其对应于投诉类中的消费维权类。
步骤四:利用可靠个体训练支持向量机
选取隶属度差异化大的文本数据作为可靠个体通过支持向量机的训练得到训练函数,根据训练函数预测其他不可靠文本数据的类别。
其中,可靠个体:选取隶属度差异化大的文本个体作为可靠个体,为此定义隶属度差异化系数,定义第i条文本数据个体的隶属度差异化系数为:
其中mij表示第i个文本所含第j类关键词的数目,k表示类别个数,定义差异化系数的阈值λ;
当βi≥λ时,称该个体隶属度差异大,为可靠个体,作为支持向量机的训练数据,
当βi<λ时,称该个体隶属度差异小,为不可靠个体。
其中λ的取值可根据实际情况设定,比如,可以根据比例确定,若要选取全部数据的20%作为训练数据,则取隶属度差异化系数大的前20%作为训练数据,
构造支持向量机如下:
选取高斯核函数(xi,yi)表示训练数据,xi表示训练数据的输入,yi表示对应的输出,αi表示Lagrange乘子。一般只有一部分αi不为零,则αi对应的样本xi就是支持向量。取某个αj>0对应的样本:
决策函数:
选取可靠的文本个体作为上述支持向量机的输入,训练该支持向量机,得到决策函数;利用已训练的支持向量机,对不可靠个体进行重新分类,得到不可靠的所属的类别,完成整个分类过程。
步骤五:提供解决方案
根据数据分类结果,针对每一个类别的问题提供解决方案。
对于性质类别为投诉的文本个体所包含的问题,是属于性质比较严重的亟待解决的问题,根据文本的职能类别分配到各个对应的部门,由专职人员回复并给予处理;
对于性质类别为咨询的文本个体所包含的问题,可通过连接相关职能类别的知识库获取答案,知识库的建立可以运用群体智能,不同种类的问题由不同专业的人提供相关答案,并且有不同意见者可以修改问题的解决方案。
步骤六:关键词库的更新
关键词库的更新:关键词库的更新是对12345市长热线文本数据的实时反映,将每个时段出现的热词、新词加入到对应的类别中。
本申请通过利用根据实际数据建立的关键词库,使得文本特征向量的维数大大降低、信息集中,克服了文本大数据处理过程中高维-稀疏的问题,便于支持向量机算法的实现。同时定义了隶属度差异化系数来选取可靠个体,以增强文本分类的准确性。进一步的,本发明在训练支持向量机之前,利用两层模糊分类初步得到其类别,无需提前获知训练数据的类别对于12345热线文本数据,本申请还提出了针对不同类别利用群体智能的方法对分类后的问题文本给出解决方案,能充分调动不同领域的专业人士给予解答。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本数据分类与信息挖掘方法,其特征在于,所述方法包括:
S1:建立不同层级不同类别的关键词库,并根据关键词库确定每条文本数据对应的文本特征向量;为描述方便,假设第i条文本数据所含总关键词数为ni、总类别个数为k、所含第j类关键词的数目为mij,则第i条文本数据的特征向量为[mi1,mi2···,mij···mik];
S2:根据S1建立好的关键词库,基于分层模糊分类的方法对各条文本数据进行分类,分类过程中,计算每条文本数据对各类的隶属度;第i条文本数据对第j类的隶属度其中mij表示第i条文本数据所含第j类关键词的数目;根据隶属度将各条文本数据模糊分类至对应的类别;
S3:选取隶属度差异化大的文本数据作为可靠个体,通过支持向量机的训练得到训练函数;定义第i条文本数据的隶属度差异化系数为:
定义差异化系数的阈值λ;
当βi≥λ时,称该个体隶属度差异大,为可靠个体,作为支持向量机的训练数据,
当βi<λ时,称该个体隶属度差异小,为不可靠个体;
S4:采用训练好的支持向量机训练函数对待分类的文本数据进行分类。
2.根据权利要求1所述的方法,其特征在于,所述S3中支持向量机如下:
选取高斯核函数(xi,yi)表示训练数据,xi表示训练数据的输入,yi表示对应的输出,αi表示Lagrange乘子;n为训练数据个数;
取某个αj>0对应的样本:训练支持向量机,得到决策函数:
3.根据权利要求2所述的方法,其特征在于,所述S1之前,还包括文本预处理,得到离散化后的数据文本。
4.根据权利要求3所述的方法,其特征在于,所述文本预处理,得到离散化后的数据文本包括:根据NLPIR汉语分词***对每条文本分词,利用已有停用词词典去停用词,得到离散化后的数据文本。
5.根据权利要求4所述的方法,其特征在于,所述S1之前,还包括根据已有文本数据确定不同层级不同类别的关键词库所包含的关键词。
6.根据权利要求5所述的方法,其特征在于,所述方法应用于12345市长热线文本数据的分类。
7.根据权利要求6所述的方法,其特征在于,所述12345市长热线文本数据的分类中,设置至少两个层级。
8.根据权利要求7所述的方法,其特征在于,当设置为两个层级时,第一层是性质类别,第二层是职能类别。
9.根据权利要求8所述的方法,其特征在于,所述性质类别包括咨询和投诉两类,其中咨询一类包括经济违法和社会服务中的至少两项;投诉一类包括行政职能和民生投诉、法制投诉、消费维权中的至少两项。
10.权利要求1-5任一所述的方法在文本分类领域内的应用。
CN201910481105.6A 2019-06-04 2019-06-04 一种文本数据分类与信息挖掘方法 Active CN110222180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910481105.6A CN110222180B (zh) 2019-06-04 2019-06-04 一种文本数据分类与信息挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910481105.6A CN110222180B (zh) 2019-06-04 2019-06-04 一种文本数据分类与信息挖掘方法

Publications (2)

Publication Number Publication Date
CN110222180A true CN110222180A (zh) 2019-09-10
CN110222180B CN110222180B (zh) 2021-05-28

Family

ID=67819241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910481105.6A Active CN110222180B (zh) 2019-06-04 2019-06-04 一种文本数据分类与信息挖掘方法

Country Status (1)

Country Link
CN (1) CN110222180B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259057A (zh) * 2020-01-15 2020-06-09 浙江连信科技有限公司 用于民生诉求分析的数据处理方法及装置
CN112131379A (zh) * 2020-08-20 2020-12-25 彭涛 用于识别问题类别的方法、装置、电子设备及存储介质
CN112650850A (zh) * 2020-12-25 2021-04-13 胡友彬 风云卫星遥感测绘数据管理***

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6868411B2 (en) * 2001-08-13 2005-03-15 Xerox Corporation Fuzzy text categorizer
CN101763404A (zh) * 2009-12-10 2010-06-30 陕西鼎泰科技发展有限责任公司 基于模糊聚类的网络文本数据检测方法
CN104331498A (zh) * 2014-11-19 2015-02-04 亚信科技(南京)有限公司 一种对互联网用户访问的网页内容自动分类的方法
CN104391835A (zh) * 2014-09-30 2015-03-04 中南大学 文本中特征词选择方法及装置
CN104502103A (zh) * 2014-12-07 2015-04-08 北京工业大学 一种基于模糊支持向量机的轴承故障诊断方法
US20150149155A1 (en) * 2011-09-24 2015-05-28 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN106021578A (zh) * 2016-06-01 2016-10-12 南京邮电大学 一种基于聚类和隶属度融合的改进型文本分类算法
CN107943856A (zh) * 2017-11-07 2018-04-20 南京邮电大学 一种基于扩充标记样本的文本分类方法及***
CN108304468A (zh) * 2017-12-27 2018-07-20 ***股份有限公司 一种文本分类方法以及文本分类装置
CN108563722A (zh) * 2018-04-03 2018-09-21 有米科技股份有限公司 文本信息的行业分类方法、***、计算机设备和存储介质
CN108959293A (zh) * 2017-05-19 2018-12-07 华为技术有限公司 一种文本数据分类方法及服务器
CN109829571A (zh) * 2019-01-11 2019-05-31 国网浙江省电力有限公司 一种基于多表融合数据的用户短期用电量预测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6868411B2 (en) * 2001-08-13 2005-03-15 Xerox Corporation Fuzzy text categorizer
CN101763404A (zh) * 2009-12-10 2010-06-30 陕西鼎泰科技发展有限责任公司 基于模糊聚类的网络文本数据检测方法
US20150149155A1 (en) * 2011-09-24 2015-05-28 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN104391835A (zh) * 2014-09-30 2015-03-04 中南大学 文本中特征词选择方法及装置
CN104331498A (zh) * 2014-11-19 2015-02-04 亚信科技(南京)有限公司 一种对互联网用户访问的网页内容自动分类的方法
CN104502103A (zh) * 2014-12-07 2015-04-08 北京工业大学 一种基于模糊支持向量机的轴承故障诊断方法
CN106021578A (zh) * 2016-06-01 2016-10-12 南京邮电大学 一种基于聚类和隶属度融合的改进型文本分类算法
CN108959293A (zh) * 2017-05-19 2018-12-07 华为技术有限公司 一种文本数据分类方法及服务器
CN107943856A (zh) * 2017-11-07 2018-04-20 南京邮电大学 一种基于扩充标记样本的文本分类方法及***
CN108304468A (zh) * 2017-12-27 2018-07-20 ***股份有限公司 一种文本分类方法以及文本分类装置
CN108563722A (zh) * 2018-04-03 2018-09-21 有米科技股份有限公司 文本信息的行业分类方法、***、计算机设备和存储介质
CN109829571A (zh) * 2019-01-11 2019-05-31 国网浙江省电力有限公司 一种基于多表融合数据的用户短期用电量预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAN LIU等: "A Fuzzy Approach to Text Classification With Two-Stage Training for Ambiguous Instances", 《IEEE TRANSACTIONS ON COMPUTATIONAL SOCIAL SYSTEMS》 *
JOSE,J.S.等: "Ensemble Multi-Label Text Categorization Based on Pyramidal Cluster Membership Approach", 《JOURNAL OF THEORETICAL AND APPLIED INFORMATION TECHNOLOGY》 *
代亮: "基于支持向量机的文本分类问题研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
周冰等: "基于簇过滤的优势集模糊聚类集成", 《计算机与网络》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259057A (zh) * 2020-01-15 2020-06-09 浙江连信科技有限公司 用于民生诉求分析的数据处理方法及装置
CN112131379A (zh) * 2020-08-20 2020-12-25 彭涛 用于识别问题类别的方法、装置、电子设备及存储介质
CN112650850A (zh) * 2020-12-25 2021-04-13 胡友彬 风云卫星遥感测绘数据管理***

Also Published As

Publication number Publication date
CN110222180B (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
US11954739B2 (en) Methods and systems for automatically detecting fraud and compliance issues in expense reports and invoices
Huang et al. Using social media mining technology to improve stock price forecast accuracy
US10896392B2 (en) Methods and systems for generating supply chain representations
Wei et al. Discovering bank risk factors from financial statements based on a new semi‐supervised text mining algorithm
Goel et al. Do sentiments matter in fraud detection? Estimating semantic orientation of annual reports
Curtis et al. Business information systems: Analysis, design and practice
WO2004061714A1 (ja) 技術評価装置、技術評価プログラム、技術評価方法
CN110222180A (zh) 一种文本数据分类与信息挖掘方法
CN109492097B (zh) 一种企业新闻数据风险分类方法
Coulter The impact of news media on Bitcoin prices: modelling data driven discourses in the crypto-economy with natural language processing
CN113919927A (zh) 一种基于数据处理的审计平台
Zheng et al. [Retracted] Using an Optimized Learning Vector Quantization‐(LVQ‐) Based Neural Network in Accounting Fraud Recognition
Da et al. Non-financial indicators for credit risk analysis of Chinese technology-oriented micro and small enterprises
Stefanov et al. Issues in the Disclosure of Financial Information by Multinational Enterprises.
Lim Environmental, social, and governance (ESG) and artificial intelligence in finance: State-of-the-art and research takeaways
Okazaki et al. Nowcasting of Corporate Research and Development trends through news article analysis by BERTopic: The case of Japanese electric company
Wang et al. Fake review identification methods based on multidimensional feature engineering
Koralun-Bereźnicka Corporate performance
Yu et al. Neural network based transaction classification system for chinese transaction behavior analysis
Xie et al. A big data technique for internet financial risk control
Tao et al. Establishment of cross-border e-commerce credit evaluation system based on big data
Erhomosele et al. Full Cost Vs Successful Efforts Accounting: A Systematic
Yao Application of data mining technology in financial fraud identification
Alexakis et al. Textual machine learning: An application to computational economics research
Sun Deep learning applications in audit decision making

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant