CN107247728A - 文本处理方法、装置及计算机存储介质 - Google Patents
文本处理方法、装置及计算机存储介质 Download PDFInfo
- Publication number
- CN107247728A CN107247728A CN201710303481.7A CN201710303481A CN107247728A CN 107247728 A CN107247728 A CN 107247728A CN 201710303481 A CN201710303481 A CN 201710303481A CN 107247728 A CN107247728 A CN 107247728A
- Authority
- CN
- China
- Prior art keywords
- text
- pending
- pending text
- theme
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 68
- 238000012545 processing Methods 0.000 claims abstract description 55
- 238000011156 evaluation Methods 0.000 claims abstract description 45
- 238000005457 optimization Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 description 17
- 244000105624 Arachis hypogaea Species 0.000 description 8
- 241000287828 Gallus gallus Species 0.000 description 8
- 235000020232 peanut Nutrition 0.000 description 8
- 235000013311 vegetables Nutrition 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 235000013555 soy sauce Nutrition 0.000 description 4
- 101150041570 TOP1 gene Proteins 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 2
- 238000000205 computational method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 208000012260 Accidental injury Diseases 0.000 description 1
- 240000004160 Capsicum annuum Species 0.000 description 1
- 244000179525 Dracocephalum moldavica Species 0.000 description 1
- 241000227653 Lycopersicon Species 0.000 description 1
- 240000003768 Solanum lycopersicum Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000002896 database filtering Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003921 oil Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000009923 sugaring Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 235000021419 vinegar Nutrition 0.000 description 1
- 239000000052 vinegar Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种文本处理方法、装置及计算机存储介质,涉及文本处理领域以及反作弊领域。其中,所述文本处理方法包括:基于词袋,对待处理文本进行重要度评价;根据主题模型以及所述待处理文本的重要度评价,确定所述待处理文本对应的主题向量;根据对所述主题向量的聚类结果,对所述待处理文本进行文本选取或分类。本发明实施例提供的技术方案能够对待处理文本进行准确地分类、选取等处理;在应用于反作弊场景时,能够为高效确定作弊文本提供基础。
Description
技术领域
本发明实施例涉及文本处理领域以及反作弊领域,尤其涉及一种文本处理方法、装置及计算机存储介质。
背景技术
随着电子商务、O2O(O2O是指将线下的商务机会与互联网结合,让互联网成为线下交易的平台)等新兴技术领域的发展,出现了很多不同方式的作弊手段。以O2O领域为例,为了获取补贴,存在异常刷单的作弊情况。
在异常刷单中通常采用异常备注作为与商家或内部人员进行沟通的暗号。通过暗号,商家或者内部人员可以清楚的知道哪单是用来作弊的,或者需要商家进行结算的(例如雇人刷销量)。举几个异常备注的例子:“龙首谭君臣”,这个就是明确的告诉商家,我是谭君臣帮你套补贴刷销量的;“0029”,这个很有可能是违规拉新的暗号;“骑士xxx送”,这个可能是帮骑士刷kpi(关键绩效指标,Key Performance Indicator)或者违规拉新;“李刚他爸”,和点的菜品毫不相干,可能是结算的特定暗号;“***xxxxxxx”,这个明显就是要求本单给这个帐号打钱;“番茄炒蛋不加蛋”,这种就是用反话来表示我是特定暗号,别人没法模仿。
为了识别异常备注,现有的手段是人工为备注添加标签,这不仅需要大量的人力成本,并且具有主观性,无法精确识别异常备注。此外,人工添加标签还存在大量误伤,无法排除用户因偶然的错误点击而形成的备注。
发明内容
本发明实施例提供一种文本处理方法、装置及计算机存储介质,用以解决现有技术中无法精确进行文本处理的问题。
第一方面,本发明实施例中提供了一种文本处理方法,包括:
基于词袋,对待处理文本进行重要度评价;
根据主题模型以及所述待处理文本的重要度评价,确定所述待处理文本对应的主题向量;
根据对所述主题向量的聚类结果,对所述待处理文本进行文本选取或分类。
结合第一方面,本发明在第一方面的第一种实现方式中,所述待处理文本的重要度评价包括以TF-IDF(term frequency–inverse document frequency)值而计的所述待处理文本的重要度评价。
结合第一方面,本发明在第一方面的第二种实现方式中,所述根据主题模型以及所述待处理文本的重要度评价确定所述待处理文本对应的主题向量,包括:基于所述待处理文本及其重要度评价训练所述主题模型,确定所述待处理文本对应的主题;根据所述待处理文本对应的主题将所述待处理文本转换为所述主题向量。
结合第一方面,本发明在第一方面的第三种实现方式中,所述根据对所述主题向量的聚类结果从所述待处理文本中选取目标文本,包括:根据所述聚类结果选取指定类别的待处理文本作为目标文本。
结合第一方面或第一方面的上述任一实现方式,还包括:基于基础数据库过滤所选取的目标文本,得到第一目标文本;根据所述第一目标文本中待处理文本在预设时间内的出现频率,对所述第一目标文本进行过滤,得到第二目标文本。
第二方面,本发明实施例提供了一种文本处理装置,包括:
评价模块,用于基于词袋,对待处理文本进行重要度评价;
主题向量模块,用于根据主题模型以及所述待处理文本的重要度评价确定所述待处理文本对应的主题向量;
文本处理模块,用于根据对所述主题向量的聚类结果,对所述待处理文本进行文本选取或分类。
结合第二方面,本发明在第二方面的第一种实现方式中,所述待处理文本的重要度评价包括以TF-IDF值而计的所述待处理文本的重要度评价。
结合第二方面,本发明在第二方面的第二种实现方式中,所述主题向量模块包括:训练子模块,用于基于所述待处理文本及其重要度评价训练所述主题模型,确定所述待处理文本对应的主题;转换子模块,用于根据所述待处理文本对应的主题将所述待处理文本转换为所述主题向量。
结合第二方面,本发明在第二方面的第三种实现方式中,所述文本处理模块具体用于:根据所述聚类结果选取指定类别的待处理文本作为目标文本。
结合第二方面或第二方面的任一实现方式,还包括:第一优化子模块,用于基于基础数据库过滤所选取的目标文本,得到第一目标文本;第二优化子模块,用于根据所述第一目标文本中待处理文本在预设时间内的出现频率,对所述第一目标文本进行过滤,得到第二目标文本。
所述文本处理装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,文本处理装置的结构中包括处理器和存储器,所述存储器用于存储支持文本处理装置执行上述第一方面或其各种实现方式的文本处理方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述文本处理装置还可以包括通信接口,用于文本处理装置与其他设备或通信网络通信。
第三方面,本发明实施例提供了一种计算机存储介质,用于储存文本处理装置所用的计算机软件指令,所述指令被执行时实现上述第一方面或其任意实现方式所提供的文本处理方法。
本发明实施例能够对待处理文本进行准确地分类、选取等处理;在应用于反作弊场景时,能够为高效确定作弊文本提供基础。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明的一种实施例的文本处理方法的流程示意图的一例;
图2示出了根据本发明另一个实施例的文本处理方法的流程示意图的一例;
图3示出了根据本发明再一个实施例的文本处理方法的流程示意图的一例;
图4A示出了根据本发明一个实施例的文本处理装置的框图的一例;
图4B示出了图4A所示文本处理装置的主题向量模块的框图的一例;
图5示出了根据本发明另一个实施例的文本处理装置的框图的一例。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是根据本发明实施例的一种文本处理方法的流程示意图的一例。参照图1,所述方法包括:
100:基于词袋,对待处理文本进行重要度评价。
可选地,在本实施例的一种实现方式中,以O2O领域的备注(例如,外卖下单时填写的备注)为例,通过对指定时间段(例如,两个月)内的订单的备注进行分词、词频统计和过滤处理,得到唯一词袋。其中,所述过滤处理包括过滤掉常用词、停用词、低频词以及过高频词(“常用”、“过高”的量度可以自定义)。
可选地,在本实施例的一种实现方式中,根据词袋将待处理文本(例如,待处理的备注)转换为关于词袋的稀疏矩阵,进而求出反映待处理文本重要程度的TF-IDF值。可选地,在本实施例的其它实现方式中,也可以采用其它反映待处理文本重要性的值,例如,词频。
102:根据主题模型以及所述待处理文本的重要度评价,确定所述待处理文本对应的主题向量。
可选地,在本实施例的一种实现方式中,所述主题模型为LDA(Latent DirichletAllocation)主题模型。可选地,在本实施例的其它实现方式中,还可以采用潜在语义分析(Latent Semantic Analysis)、概率潜在语义分析(Probabilistic Latent SemanticAnalysis)、深度学习等方式代替LDA主题模型。
可选地,在本实施例的一种实现方式中,处理102具体可以通过以下方式实现:基于所述待处理文本及其重要度评价训练所述主题模型,确定所述待处理文本对应的主题;根据所述待处理文本对应的主题将所述待处理文本转换为所述主题向量。与处理102相关的更具体的说明,请参照下文相关描述。
104:根据对所述主题向量的聚类结果进行文本分类或选取。具体而言,根据对所述主题向量的聚类结果从所述待处理文本中选取目标文本,或,根据对所述主题向量的聚类结果将所述待处理文本分类。
可选地,在本实施例的一种实现方式中,采用k-means聚类算法对所述待处理文本对应的主题向量进行聚类,得到一定数量或指定数量的分类。
可选地,在本实施例的一种实现方式中,在处理104中,根据所述聚类结果选取指定类别的待处理文本(即,指定类别的主题向量所对应的待处理文本)作为所述目标文本。
采用本实施例提供的文本处理方法,能够尽可能地保证同一聚类所对应的待处理文本相似度较高而不同聚类中的相似度较小,从而对文本进行准确的分类、选取等处理。例如,当应用于反作弊场景时,能够为高效确定作弊文本提供基础。
图2是根据本发明实施例的一种文本处理方法的流程示意图的另一例。参照图2,所述方法包括:
200:基于词袋,对待处理文本进行重要度评价。
202:根据主题模型以及所述待处理文本的重要度评价,确定所述待处理文本对应的主题向量。
204:根据对所述主题向量的聚类结果从所述待处理文本中选取目标文本。
其中,关于200~204的说明请参照前文对于100~104的描述,此处不再赘述。
206:基于基础数据库过滤所述目标文本,得到第一目标文本。
在本实施例的一种实现方式中,所述基础数据库与所述待处理文本属于相同领域,包含所述相同领域内的关键词。例如,在外卖领域,所述待处理文本如果是备注,则所述基础数据库可以是外卖领域的菜品库,包含菜品名称。这样,可以从目标文本中过滤掉与基础数据库中的数据关联度较高的待处理文本。
208:根据所述第一目标文本中待处理文本在预设时间内的出现频率,对所述第一目标文本进行过滤,得到第二目标文本。
采用本实施例提供的文本处理方法,能够对采用图1所示实施例中的方法所得到的文本处理结果进行优化。其中,采用处理206得到的第一目标文本或采用处理208得到的第二目标文本,能够更准确地代表期望得到的文本(包括文本集的概念),例如,异常备注。
图3是根据本发明实施例的一种应用于O2O领域的文本处理方法的流程示意图。在本实施例中,仅以应用于O2O领域为例进行说明但不代表本发明仅适用于O2O领域。此外,其中提及的待处理的备注可理解为前文所述的待处理文本。参照图3,所述方法包括:
步骤1:词袋获取。具体而言,针对两个月内的所有订单的备注进行分词和词频统计,过滤常用词、停用词、过滤低频词和过高频词,从而获取唯一词袋。
关于词袋获取,举例而言:
比如一句话(即一条待处理文本)是:“宫保鸡丁不加糖,多来点酱油,就好吃了”。
分词之后得到:宫保鸡丁||不加||糖||多||来点||酱油||就||好吃||了。
分完词之后,可以发现“就”和“了”属于停用词,因此过滤掉。此外,根据近两个月的所有订单备注,统计其它词出现的次数,假设有78条备注包含宫保鸡丁,可以得到类似于如下形式的统计结果:
{带:10000000,宫保鸡丁:78,糖:21,我勒个去:1,x:xx}。
然后,过滤掉里面那些只出现一两次的超低频词(我了个去)和有数量级差距的最常出现的词(带),得到唯一词袋。
步骤2:计算TF-IDF值。具体而言,根据词袋,将待处理备注转换为关于词袋的稀疏矩阵,进而求出各个待处理备注的TF-IDF值。
在TF-IDF中,TF表示词条在文档(假设为文档d)中出现的频率。IDF(inversedocument frequency,逆向文件频率)的主要思想是:如果包含词条t的文档(用n表示)越小,则IDF越大,也就说明词条t具有很好的类别区分能力。
对于在某一特定文件里的词语来说,它的重要性可表示为:
(公式1)
其中,ni,j表示该词在文档中的出现次数,∑knk,j表示所有字词出现次数之和。
IDF是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。公式如下:
(公式2)
其中,|D|表示总文件数,|{j:ti∈dj}|表示包含该词语中文件的数目。
TF-IDF的值为TF与IDF的乘积,如下:
tfidfi,j=tfi,j×idfi (公式3)
关于稀疏矩阵,举例而言,如果词袋是{亲爱:3,你好:12,我好:1,大家好:6};那么针对新来的一句话——“亲爱的朋友们大家好”,会转为稀疏矩阵[(0,3),(3,6)]。即“亲爱”在词袋的0号位置出现,值为3;“大家好”在词袋的3号位置出现,值为6。而基于[(0,3),(3,6)]即可得到TF-IDF值。
步骤3:将待处理备注转换为主题向量。具体而言,采用LDA主题模型对待处理备注进行训练得到多条主题,基于从中选取的预设数目的主题(例如,排序在前100的主题)进行主题转换,从而将待处理备注转换为主题向量。
下面对步骤3所涉及或可能涉及的部分内容进行举例说明。
关于主题向量,假设采用LDA主题模型训练的时候,限定每个主题包含10(可以自定义)个关键词,那么得到的结果最终是如下形式:
T=w1d1+w2d2+…+wndn (公式4)
Top1=0.036*酱油+0.036*多带+0.032*少放+0.030*辣椒油+....
训练完LDA模型之后,可以得到n条主题,这里取前100个主题。而上面的例子Top1则为100个主题里面的一条,每条主题里面含有10个词组(可以自定义),即公式4里面的n=10。
在将备注转换为主题向量时,对每条备注进行主题的归属,比如备注‘多带酱油,少放醋’,正好被归属到上面所给的主题Top1,则根据这条主题,将其转为向量:
0.036,0.036,0.032,0,0.......
在向量中,只有前3个有值,因为备注中只包含前3个词,而不包含的值为0。
最后,在对这个向量进行标准化计算,得到:
(公式5)
关于LDA计算,其大致逻辑如下。
首先定义文档集合D和主题(topic)集合T。D中每个文档d看作一个单词序列<w1,w2,...,wn>,wi表示第i个单词。设d有n个单词(LDA里面称之为wordbag,实际上每个单词的出现位置对LDA算法无影响)。
D中涉及的所有不同单词组成一个大集合VOCABULARY(简称VOC),LDA以文档集合D作为输入,希望训练出如下两个结果向量(设聚成k个topic,VOC中共包含m个词):
对于每个D中的文档d,对应到不同topic的概率θd<pt1,...,ptk>。其中,pti表示d对应T中第i个topic的概率。计算方法是直观的,pti=nti/n。其中nti表示d中对应第i个topic的词的数目,n是d中所有词的总数。
对于每个T中的topict,生成不同单词的概率φt<pw1,...,pwm>。其中,pwi表示t生成VOC中第i个单词的概率。计算方法同样很直观,pwi=Nwi/N。其中,Nwi表示对应到topict的VOC中第i个单词的数目,N表示所有对应到topict的单词总数。
LDA的核心公式如下:
p(w|d)=p(w|t)*p(t|d) (公式6)
该公式以Topic作为中间层,可以通过当前的θd和φt给出文档d中出现单词w的概率。其中p(t|d)利用θd计算得到,p(w|t)利用φt计算得到。
实际上,利用当前的θd和φt,可以为一个文档中的一个单词计算它对应任意一个topic时的p(w|d),然后根据这些结果来更新这个词应该对应的topic。然后,如果这个更新改变了这个单词所对应的Topic,就会反过来影响θd和φt。
步骤4:对主题向量进行聚类。具体而言,利用k-means聚类算法将步骤3输出的主题向量进行聚类,最终获得例如4种类别。
举例而言,在步骤4中,因为所有主题都是相同的向量长度(总的主题词库是相同的),所以使用k-means算法将这些主题聚类,可以得到更为精简的四种类别。比如得到结果为:主题1、主题2、主题3、主题4都为类别1;主题5、主题6为类别2,……这样可以得到4种类别。
步骤5:为聚类结果进行等级标记。例如,通过人工校验,确定步骤4确定的4种类别中,哪个类别中包含大量的异常备注,并对4种类别进行等级区分,例如分为5级、4级、3级、2级。级别越高的备注越正常。主题向量的类别也就是备注的类别。
在步骤5中,还可以保存k-means模型,以便如图3中虚线框所示,根据保存的k-means模型对最新获取(例如,当天获取)的备注进行分类。
k-means算法接受输入量k;然后将n个数据对象划分为k个聚类。k-means算法是一种基于样本间相似性度量的间接聚类方法,属于非监督学习方法。其大致过程如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。
在本发明实施例的一种具体实现中,可以直接将等级2对应的备注作为异常备注。
步骤6:从步骤5的输出结果中筛选出等级为2的备注,即等级为2的主题向量对应的备注。
步骤7:备注过滤与重新标记。具体而言,如图所示,对于等级为2的备注,一方面,基于外卖菜品数据库对其进行过滤,将过滤出来的备注归为级别3;另一方面,基于最近一星期(时间可以自定义)内的备注统计近一星期内备注出现的频率,将级别2的备注中出现频率较高或满足一定条件的备注归为级别1,并将级别1的备注确定为异常备注。
在步骤7中,举例而言,比如待处理备注为“换成宫保鸡丁”,将其切词得到:换成||宫保鸡丁。但是这条备注在前期处理中不一定会被识别为好备注。但是它包含宫保鸡丁这个菜名,所以,通过匹配外卖菜品数据库(包含所有或多数菜品名称,例:西红柿炒鸡蛋),通过将‘宫保鸡丁’和菜品库里面所有的菜品进行匹配,就可以确定这条备注比较偏向为好备注,故将其归为级别3。
在步骤7中,举例而言,外卖刷单者在套取补贴时一般具有连续性,比如一个异常备注“曹操123”,这个备注可能是一个暗号。但是如果在近一个星期内,这个备注只有一次,很可能这个人是闹着玩或者打错了。所以在本发明的一种实施例中可以单独统计近一个星期的备注情况,将出现2次以下的备注过滤掉(所有这些是基于这些备注,被模型归为现阶段最差的级别2的基础上),最后剩下的归为最差的级别1。
采用上述步骤,可以将待处理备注划分为5个区间,所对应的数字(级别)越高,备注越可信;数字越小,备注越异常。而根据发明人的实践,综合考虑异常备注对平台的影响以及对商家的影响,采用步骤5或6或8确定的异常备注均具有较高的准确度。
以上结合附图对根据本发明实施例的方法实施例进行了说明。下面结合附图对根据本发明实施例的装置或产品实施例进行说明。
图4A是根据本发明实施例的一种文本处理装置的框图的一例。参照图4A,文本处理装置包括评价模块40、主题向量模块42和文本处理模块44。下面进行具体说明。
在本实施例中,评价模块40用于基于词袋,对待处理文本进行重要度评价。可选地,在本实施例的一种实现方式中,以O2O领域的备注(例如,用户评价)为例,通过对指定时间段(例如,两个月)内的订单的备注进行分词、词频统计和过滤处理,得到唯一词袋。可选地,在本实施例的一种实现方式中,所述待处理文本的重要度评价包括以TF-IDF值而计的所述待处理文本的重要度评价。
在本实施例中,主题向量模块42用于根据主题模型以及所述待处理文本的重要度评价确定所述待处理文本对应的主题向量。可选地,在本实施例的一种实现方式中,所述主题模型为LDA主题模型。
可选地,在本实施例的一种实现方式中,如图4B所示,主题向量模块42包括训练子模块422和转换子模块424。
其中,训练子模块422用于基于所述待处理文本及其重要度评价训练所述主题模型,确定所述待处理文本对应的主题;转换子模块424用于根据所述待处理文本对应的主题将所述待处理文本转换为所述主题向量。
在本实施例中,文本处理模块44用于根据对所述主题向量的聚类结果从所述待处理文本中选取目标文本,例如,根据所述聚类结果选取指定类别的主题向量所对应的待处理文本作为所述目标文本。或者,文本处理模块44用于根据对所述主题向量的聚类结果将所述待处理文本分类。
可选地,在本实施例的一种实现方式中,文本处理模块44采用k-means聚类算法对所述待处理文本对应的主题向量进行聚类,从而得到一定数量或指定数量的分类。
采用本实施例提供的文本处理装置,能够尽可能地保证同一聚类所对应的待处理文本相似度较高而不同聚类中的相似度较小,从而对文本进行准确的分类、选取等处理。例如,在应用于反作弊的场景时,能够为高效确定作弊文本提供基础(例如,分类基础)。
图5是根据本发明实施例的一种文本处理装置的框图的另一例。参照图5,文本处理装置包括评价模块50、主题向量模块52、文本处理模块54、第一优化子模块56和第二优化子模块58。其中,关于评价模块50、主题向量模块52、文本处理模块54的说明,请参见图4A-4B所示实施例中的对应说明,此处不赘述。
在本实施例中,第一优化子模块56用于基于基础数据库过滤文本处理模块54选取的目标文本,得到第一目标文本。其中,所述基础数据库与所述待处理文本属于相同领域。更具体而言,所述基础数据库包含所述相同领域内的关键词,例如,在外卖领域,所述待处理文本是用户做出的备注,所述基础数据库则为外卖菜品数据库。
在本实施例中,第二优化子模块58用于根据所述第一目标文本中待处理文本在预设时间内的出现频率,对所述第一目标文本进行过滤,得到第二目标文本。
采用本实施例提供的文本处理装置,除了具有图4所示装置的优点之外,还能够对目标文本进行优化,从而得到能够更准确地代表期望得到的文本的优化结果。
在一个可能的设计中,本发明上述各种实施例或实现方式提供的文本处理装置的结构中包括处理器和存储器,所述存储器用于存储支持所述文本处理装置执行上述图1至图3中所示的任一实施例或其实现方式中提及的方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
所述程序包括一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理器调用执行。
所述处理器用于执行所述指令以实现以下处理:
基于词袋,对待处理文本进行重要度评价;
根据主题模型以及所述待处理文本的重要度评价,确定所述待处理文本对应的主题向量;
根据对所述主题向量的聚类结果,对所述待处理文本进行文本选取或分类。
其中,关于各个步骤以及可选步骤的详细说明,请参照前文的相关描述,此处不再追溯。
本发明实施例还提供一种计算机存储介质,用于储存所述文本处理装置所用的计算机软件指令,所述计算机指令被执行时实现上述图1至图3中所示的任一实施例或其实现方式中提及的方法。
示例性而言,本发明提供的实施例或实现方式,具有以下部分或全部优点:
无需投入大量人力为备注进行标注;
可以输出表示备注异常级别的异常等级,从而便于后续在不同情况下使用。例如,在识别作弊用户时,为了严格的防止误伤,可以只采用等级为1的异常备注和等级为5的可信好备注;
可以准确召回异常备注,例如,等级为1的异常备注具有很高的准确率;
可以实现模型的自动更新迭代。由于模型中可以采用很多统计变量,所以采用本发明只需要每天进行最近一段时间内的统计,即可自适应最近一段时间的备注情况。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
本发明公开A1、一种文本处理方法,例如,适用于反作弊,包括:
基于词袋,对待处理文本进行重要度评价;
根据主题模型以及所述待处理文本的重要度评价,确定所述待处理文本对应的主题向量;
根据对所述主题向量的聚类结果,对所述待处理文本进行文本选取或分类。
A2、如A1所述的方法中,所述待处理文本的重要度评价包括以TF-IDF值而计的所述待处理文本的重要度评价。
A3、如A1所述的方法中,所述根据主题模型以及所述待处理文本的重要度评价确定所述待处理文本对应的主题向量,包括:
基于所述待处理文本及其重要度评价训练所述主题模型,确定所述待处理文本对应的主题;
根据所述待处理文本对应的主题将所述待处理文本转换为所述主题向量。
A4、如求A1所述的方法中,所述根据对所述主题向量的聚类结果,对所述待处理文本进行文本选取,包括:
根据所述聚类结果选取指定类别的主题向量所对应的待处理文本作为目标文本。
A5、如A1~A4中任一项所述的方法,还包括:
基于基础数据库过滤所选取的目标文本,得到第一目标文本;
根据所述第一目标文本中待处理文本在预设时间内的出现频率,对所述第一目标文本进行过滤,得到第二目标文本。
本发明还公开了B6、一种文本处理装置,包括:
评价模块,用于基于词袋,对待处理文本进行重要度评价;
主题向量模块,用于根据主题模型以及所述待处理文本的重要度评价,确定所述待处理文本对应的主题向量;
文本处理模块,用于根据对所述主题向量的聚类结果,对所述待处理文本进行文本选取或分类。
B7、如B6所述的装置中,所述待处理文本的重要度评价包括以TF-IDF值而计的所述待处理文本的重要度评价。
B8、如B6所述的装置,所述主题向量模块包括:
训练子模块,用于基于所述待处理文本及其重要度评价训练所述主题模型,确定所述待处理文本对应的主题;
转换子模块,用于根据所述待处理文本对应的主题将所述待处理文本转换为所述主题向量。
B9、如B6所述的装置中,所述文本处理模块具体用于:根据所述聚类结果选取指定类别的主题向量所对应的待处理文本作为所述目标文本。
B10、如B6~B9中任一项所述的装置,还包括:
第一优化子模块,用于基于基础数据库过滤所述文本处理模块选取的目标文本,得到第一目标文本;
第二优化子模块,用于根据所述第一目标文本中待处理文本在预设时间内的出现频率,对所述第一目标文本进行过滤,得到第二目标文本。
本发明还公开了C11、一种文本处理装置(例如,计算机设备),包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理器调用执行;
所述处理器用于执行所述指令以实现如上述A1-A5中任一项所述的文文本处理方法。
本发明还公开了D12、一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被执行时实现如上述A1-A5中任一项所述的文本处理方法。
Claims (10)
1.一种文本处理方法,其特征在于,包括:
基于词袋,对待处理文本进行重要度评价;
根据主题模型以及所述待处理文本的重要度评价,确定所述待处理文本对应的主题向量;
根据对所述主题向量的聚类结果,对所述待处理文本进行文本选取或分类。
2.根据权利要求1所述的方法,其特征在于,所述根据主题模型以及所述待处理文本的重要度评价,确定所述待处理文本对应的主题向量,包括:
基于所述待处理文本及其重要度评价训练所述主题模型,确定所述待处理文本对应的主题;
根据所述待处理文本对应的主题将所述待处理文本转换为所述主题向量。
3.根据权利要求1所述的方法,其特征在于,所述根据对所述主题向量的聚类结果,对所述待处理文本进行文本选取,包括:
根据所述聚类结果选取指定类别的待处理文本作为目标文本。
4.根据权利要求3中任一项所述的方法,其特征在于,还包括:
基于基础数据库过滤所述目标文本,得到第一目标文本;
根据所述第一目标文本中待处理文本在预设时间内的出现频率,对所述第一目标文本进行过滤,得到第二目标文本。
5.一种文本处理装置,其特征在于,包括:
评价模块,用于基于词袋,对待处理文本进行重要度评价;
主题向量模块,用于根据主题模型以及所述待处理文本的重要度评价,确定所述待处理文本对应的主题向量;
文本处理模块,用于根据对所述主题向量的聚类结果,对所述待处理文本进行文本选取或分类。
6.根据权利要求5所述的装置,其特征在于,所述主题向量模块包括:
训练子模块,用于基于所述待处理文本及其重要度评价训练所述主题模型,确定所述待处理文本对应的主题;
转换子模块,用于根据所述待处理文本对应的主题将所述待处理文本转换为所述主题向量。
7.根据权利要求5所述的装置,其特征在于,所述文本处理模块具体用于:
根据所述聚类结果选取指定类别的待处理文本作为目标文本。
8.根据权利要求7中任一项所述的装置,其特征在于,还包括:
第一优化子模块,用于基于基础数据库过滤所述目标文本,得到第一目标文本;
第二优化子模块,用于根据所述第一目标文本中待处理文本在预设时间内的出现频率,对所述第一目标文本进行过滤,得到第二目标文本。
9.一种文本处理装置,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理器调用执行;
所述处理器用于执行所述计算机指令以实现如权利要求1-4中任一项所述的文本处理方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被执行时实现如权利要求1-4中任一项所述的文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710303481.7A CN107247728B (zh) | 2017-05-02 | 2017-05-02 | 文本处理方法、装置及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710303481.7A CN107247728B (zh) | 2017-05-02 | 2017-05-02 | 文本处理方法、装置及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107247728A true CN107247728A (zh) | 2017-10-13 |
CN107247728B CN107247728B (zh) | 2021-04-27 |
Family
ID=60017280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710303481.7A Expired - Fee Related CN107247728B (zh) | 2017-05-02 | 2017-05-02 | 文本处理方法、装置及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107247728B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595593A (zh) * | 2018-04-19 | 2018-09-28 | 南京大学 | 基于主题模型的会议研究热点与发展趋势信息分析方法 |
CN108596789A (zh) * | 2018-03-29 | 2018-09-28 | 客如云科技(成都)有限责任公司 | 一种菜品标准化的方法 |
CN108717637A (zh) * | 2018-03-22 | 2018-10-30 | 浙江大学 | 一种电商安全相关实体的自动挖掘方法及*** |
CN110188352A (zh) * | 2019-05-28 | 2019-08-30 | 北京金山数字娱乐科技有限公司 | 一种文本主题确定方法、装置、计算设备及存储介质 |
CN111861596A (zh) * | 2019-04-04 | 2020-10-30 | 北京京东尚科信息技术有限公司 | 一种文本分类方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100125540A1 (en) * | 2008-11-14 | 2010-05-20 | Palo Alto Research Center Incorporated | System And Method For Providing Robust Topic Identification In Social Indexes |
CN102929937A (zh) * | 2012-09-28 | 2013-02-13 | 福州博远无线网络科技有限公司 | 基于文本主题模型的商品分类的数据处理方法 |
CN103092975A (zh) * | 2013-01-25 | 2013-05-08 | 武汉大学 | 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法 |
CN103473380A (zh) * | 2013-09-30 | 2013-12-25 | 南京大学 | 一种计算机文本情感分类方法 |
CN103793501A (zh) * | 2014-01-20 | 2014-05-14 | 惠州学院 | 基于社交网络的主题社团发现方法 |
CN104850650A (zh) * | 2015-05-29 | 2015-08-19 | 清华大学 | 基于类标关系的短文本扩充方法 |
CN104850617A (zh) * | 2015-05-15 | 2015-08-19 | 百度在线网络技术(北京)有限公司 | 短文本处理方法及装置 |
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机***有限公司 | 文本标签的提取方法和装置 |
-
2017
- 2017-05-02 CN CN201710303481.7A patent/CN107247728B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100125540A1 (en) * | 2008-11-14 | 2010-05-20 | Palo Alto Research Center Incorporated | System And Method For Providing Robust Topic Identification In Social Indexes |
CN102929937A (zh) * | 2012-09-28 | 2013-02-13 | 福州博远无线网络科技有限公司 | 基于文本主题模型的商品分类的数据处理方法 |
CN103092975A (zh) * | 2013-01-25 | 2013-05-08 | 武汉大学 | 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法 |
CN103473380A (zh) * | 2013-09-30 | 2013-12-25 | 南京大学 | 一种计算机文本情感分类方法 |
CN103793501A (zh) * | 2014-01-20 | 2014-05-14 | 惠州学院 | 基于社交网络的主题社团发现方法 |
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机***有限公司 | 文本标签的提取方法和装置 |
CN104850617A (zh) * | 2015-05-15 | 2015-08-19 | 百度在线网络技术(北京)有限公司 | 短文本处理方法及装置 |
CN104850650A (zh) * | 2015-05-29 | 2015-08-19 | 清华大学 | 基于类标关系的短文本扩充方法 |
Non-Patent Citations (1)
Title |
---|
张群: "词向量与LDA相融合的短文本分类方法", 《现代图书情报技术》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717637A (zh) * | 2018-03-22 | 2018-10-30 | 浙江大学 | 一种电商安全相关实体的自动挖掘方法及*** |
CN108596789A (zh) * | 2018-03-29 | 2018-09-28 | 客如云科技(成都)有限责任公司 | 一种菜品标准化的方法 |
CN108596789B (zh) * | 2018-03-29 | 2022-08-30 | 时时同云科技(成都)有限责任公司 | 一种菜品标准化的方法 |
CN108595593A (zh) * | 2018-04-19 | 2018-09-28 | 南京大学 | 基于主题模型的会议研究热点与发展趋势信息分析方法 |
CN108595593B (zh) * | 2018-04-19 | 2021-11-23 | 南京大学 | 基于主题模型的会议研究热点与发展趋势信息分析方法 |
CN111861596A (zh) * | 2019-04-04 | 2020-10-30 | 北京京东尚科信息技术有限公司 | 一种文本分类方法和装置 |
CN111861596B (zh) * | 2019-04-04 | 2024-04-12 | 北京京东振世信息技术有限公司 | 一种文本分类方法和装置 |
CN110188352A (zh) * | 2019-05-28 | 2019-08-30 | 北京金山数字娱乐科技有限公司 | 一种文本主题确定方法、装置、计算设备及存储介质 |
CN110188352B (zh) * | 2019-05-28 | 2023-05-26 | 北京金山数字娱乐科技有限公司 | 一种文本主题确定方法、装置、计算设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107247728B (zh) | 2021-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107247728A (zh) | 文本处理方法、装置及计算机存储介质 | |
US20210019313A1 (en) | Answer management in a question-answering environment | |
CN107918905A (zh) | 异常交易识别方法、装置及服务器 | |
CN109345399B (zh) | 理赔风险评估方法、装置、计算机设备及存储介质 | |
US20140108190A1 (en) | Recommending product information | |
CN107146089A (zh) | 一种刷单识别方法及装置,电子设备 | |
US11004096B2 (en) | Buy intent estimation and its applications for social media data | |
CN107220845A (zh) | 用户复购概率预测/用户质量确定方法、装置及电子设备 | |
WO2013163062A1 (en) | Recommending keywords | |
CN108269125A (zh) | 评论信息质量评估方法及***、评论信息处理方法及*** | |
CN108491388A (zh) | 数据集获取方法、分类方法、装置、设备及存储介质 | |
CN109783724A (zh) | 社交网络信息的管理方法、终端设备及介质 | |
CN108027814A (zh) | 停用词识别方法与装置 | |
CN106528768A (zh) | 一种咨询热点分析方法及装置 | |
CN108228622A (zh) | 业务问题的分类方法及装置 | |
CN109767269A (zh) | 一种游戏数据的处理方法和装置 | |
CN110516033A (zh) | 一种计算用户偏好的方法和装置 | |
CN109960719A (zh) | 一种文件处理方法和相关装置 | |
CN109754290A (zh) | 一种游戏数据的处理方法和装置 | |
CN110502752A (zh) | 一种文本处理方法、装置、设备及计算机存储介质 | |
CN112528638A (zh) | 异常对象识别方法及装置、电子设备、存储介质 | |
CN112184292A (zh) | 基于人工智能决策树的营销方法和装置 | |
CN111382265B (zh) | 搜索方法、装置、设备和介质 | |
CN110136701A (zh) | 语音交互服务处理方法、装置和设备 | |
CN108921431A (zh) | 政企客户聚类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Building N3, building 12, No. 27, Jiancai Chengzhong Road, Haidian District, Beijing 100086 Applicant after: Beijing Xingxuan Technology Co.,Ltd. Address before: 100085 Beijing, Haidian District on the road to the information on the ground floor of the 1 to the 3 floor of the 2 floor, room 11, 202 Applicant before: Beijing Xiaodu Information Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210427 |