CN110377728A

CN110377728A - 文字数据处理方法、***、介质及装置

Info

Publication number: CN110377728A
Application number: CN201910492143.1A
Authority: CN
Inventors: 刘梦超; 张一祎
Original assignee: Shanghai Xingji Information Technology Co Ltd
Current assignee: Shanghai Xingji Information Technology Co Ltd
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2019-10-25

Abstract

本发明提供一种文字数据处理方法、***、介质及装置，包括以下步骤：获取第一分类的历史处理文字数据和新增文字数据；按照第一预设规则对所述新增文字数据进行处理获得第二分类的新增处理文字数据；按照第二预设规则对所述第二分类的新增处理文字数据和第一分类的历史处理文字数据进行处理获得最终分类的历史处理文字数据。本发明的一种文字数据处理方法、***、介质及装置，用于文字数据量突变情况下实现对文字数据的准实时、微批次处理，提高了文字数据处理的准确性、可维护性和扩展性。

Description

文字数据处理方法、***、介质及装置

技术领域

本发明涉及文字数据分类技术领域，特别是涉及一种文字数据处理方法、***、介质及装置。

背景技术

在舆情监测***中，我们通常需要对某个专项如波音737max坠机时间，在指定时间段内的文字数据进行处理，以便于查看该专项(事件)下所有新闻话题的发生、发酵、持续到消退过程中的变化过程。文字数据包括但不限于：各国文字、***数字、数学符号、标点符号、空格。

但是，由于新闻事件的文章量具有突变的特点，即在某个时间段的文章量很少，而在热点时刻的文字数据量又变得很大。因此，***需要对文字数据进行缓冲，防止文字数据量剧增时，超过***的有效负荷，从而导致***奔溃。另外，在准确性方面，因为新闻具有不确定性，因此，采用有监督的学习算法，很难对文字数据模型进行足够的训练。在非监督学习方法中，常用的处理算法，如线性判别式分析算法、KMEANS算法、邻近算法，需要根据文章数量动态地调整K值，所以，使用的时候，也是非常困难。

综上所述，如何应对文字数据量的剧烈变化，如何保证文字数据处理方法的准确性、可维护性和扩展性成为需要解决的问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种文字数据处理方法、***、介质及装置，用于解决现有技术中如何保证文字数据处理方法的准确性的问题。

为实现上述目的及其他相关目的，本发明提供一种文字数据处理方法，包括以下步骤：获取第一分类的历史处理文字数据和新增文字数据；按照第一预设规则对所述新增文字数据进行处理获得第二分类的新增处理文字数据；按照第二预设规则对所述第二分类的新增处理文字数据和第一分类的历史处理文字数据进行处理获得最终分类的历史处理文字数据。

于本发明的一实施例中，所述按照第一预设规则对所述新增文字数据进行处理获得第二分类的新增处理文字数据，包括以下步骤：提取预设数量的所述新增文字数据的一级文字数据的特征词向量；判断所述新增文字数据的一级文字数据的特征词向量之间的相似性，当所述新增文字数据的一级文字数据的特征词向量之间的相似性大于等于第一词向量相似性预设值时，将所述新增文字数据归为同一类；当所述新增文字数据的一级文字数据的特征词向量之间的相似性小于第一词向量相似性预设值时，判断所述新增文字数据的二级文字数据的内容的相似性，当所述新增文字数据的二级文字数据的内容的相似性小于第一内容相似性预设值时，将所述新增文字数据归为同一类；当所述新增文字数据的二级文字数据的内容的相似性大于等于第一内容相似性预设值时，则将所述新增文字数据归为另一类，直到对所有的所述新增文字数据进行处理获得第二分类的新增处理文字数据。

于本发明的一实施例中，所述一级文字数据为文章的标题，所述二级文字数据为文章的正文。

于本发明的一实施例中，基于汉语言处理包提取预设数量的所述新增文字数据的一级文字数据的特征词向量。

于本发明的一实施例中，基于杰卡德相似系数算法判断所述新增文字数据的一级文字数据的特征词向量之间的相似性。

于本发明的一实施例中，基于文本相似性算法判断所述新增文字数据的二级文字数据的内容的相似性。

于本发明的一实施例中，所述按照第二预设规则对所述第二分类的新增处理文字数据和第一分类的历史处理文字数据进行处理获得最终分类的历史处理文字数据，包括以下步骤：判断所述第二分类的新增处理文字数据和第一分类的历史处理文字数据的各个分类是否有重合；若有重合则将所述第二分类的新增处理文字数据和第一分类的历史处理文字数据重合的分类的文字数据合并为一个分类的文字数据；将所述第二分类的新增处理文字数据与第一分类的历史处理文字数据不重合部分的分类的新增文字数据和上述重合的分类的文字数据一起组成最终分类的历史处理文字数据。

为实现上述目的，本发明还提供一种文字数据处理***，包括：获取模块、第一分类模块和第二分类模块；所述获取模块用于获取第一分类的历史处理文字数据和新增文字数据；所述第一分类模块用于按照第一预设规则对所述新增文字数据进行处理获得第二分类的新增处理文字数据；所述第二分类模块用于按照第二预设规则对所述第二分类的新增处理文字数据和第一分类的历史处理文字数据进行处理获得最终分类的历史处理文字数据。

为实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一上述文字数据处理方法。

为实现上述目的，本发明还提供一种文字数据处理装置，包括：处理器和存储器；所述存储器用于存储计算机程序；所述处理器与所述存储器相连，用于执行所述存储器存储的计算机程序，以使所述文字数据处理装置执行任一上述的文字数据处理方法。

如上所述，本发明的一种文字数据处理方法、***、介质及装置，具有以下有益效果：用于文字数据量突变情况下实现对文字数据的准实时、微批次处理，提高了文字数据处理的准确性、可维护性和扩展性。

附图说明

图1显示为本发明的文字数据处理方法于一实施例中的流程图；

图2显示为本发明的文字数据处理方法于又一实施例中的流程图；

图3显示为本发明的文字数据处理***于一实施例中的结构示意图；

图4显示为本发明的文字数据处理装置于一实施例中的结构示意图。

元件标号说明

31 获取模块

32 第一分类模块

33 第二分类模块

41 处理器

42 存储器

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，故图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明的文字数据处理方法、***、介质及装置，用于文字数据量突变情况下实现对文字数据的处理，提高了文字数据处理的准确性。

如图1所示，于一实施例中，本发明的文字数据处理方法，包括以下步骤：

步骤S11、获取第一分类的历史处理文字数据和新增文字数据。

于本发明一实施例中，所述第一分类的历史处理文字数据为已经对历史文字数据进行分类获得的第一分类的历史处理文字数据，所述第一分类的历史处理文字数据可以有一种或两种以上分类的历史文字数据组成，每一种分类下的历史文字数据属于同一类。具体地，通过对历史文字数据的一级文字数据的特征词向量之间的相似性和历史文字数据的二级文字数据的内容的相似性进行分析获得第一分类的历史处理文字数据。提取预设数量的所述历史文字数据的一级文字数据的特征词向量；判断所述历史文字数据的一级文字数据的特征词向量之间的相似性，当所述历史文字数据的一级文字数据的特征词向量之间的相似性大于等于第一历史词向量相似性预设值时，将所述历史文字数据归为同一类；当所述历史文字数据的一级文字数据的特征词向量之间的相似性小于第一历史词向量相似性预设值时，判断所述历史文字数据的二级文字数据的内容的相似性，当所述历史文字数据的二级文字数据的内容的相似性小于第一历史内容相似性预设值时，将所述历史文字数据归为同一类；当所述历史文字数据的二级文字数据的内容的相似性大于等于第一历史内容相似性预设值时，则将所述历史文字数据归为另一类，直到对所有的所述历史文字数据进行处理获得第一分类的历史处理文字数据。

于本发明一实施例中，所述特征词向量包括但不限于以下至少一种：名词、动词、形容词。

于本发明一实施例中，所述新增文字数据的获取量可以根据需求设置，例如设置获取10条、100条的新增文字数据，从而实现了文字数据的微批次处理。

于本发明一实施例中，所述新增文字数据的获取可以根据新闻时效性实时获取，从而实现了对文字数据的准实时处理。

于本发明一实施例中，所述历史文字数据为历史文章，所述历史文字数据的一级文字数据为历史文章的标题，所述历史文字数据的二级文字数据为历史文章的正文。所述历史文章是指在新增文字数据时间段之前的文章。进一步提升了文字数据处理方法的准确性。

于本发明一实施例中，基于汉语言处理包提取预设数量的所述历史文字数据的一级文字数据的特征词向量。汉语言处理包(HanLP)是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。所述汉语言处理包可用于提取预设数量的所述历史文字数据的一级文字数据的特征词向量。具体地，利用所述汉语言处理包中的感知机模型提取预设数量的所述历史文字数据的一级文字数据的特征词向量。进一步提升了文字数据处理方法的准确性。

于本发明一实施例中，基于杰卡德相似系数算法判断所述历史文字数据的一级文字数据的特征词向量之间的相似性。具体地，杰卡德相似系数(Jaccard similaritycoefficient)，也称杰卡德指数(Jaccard Index)，是用来衡量两个集合相似度的一种指标。Jaccard相似指数用来度量两个集合之间的相似性，它被定义为两个集合交集的元素个数除以并集的元素个数。输入任意两个字符串，根据公式来计算两个字符串的Jaccard相似度。基于字的文本相似度杰卡德相似系数算法的原理是：(1)计算两个文本中字的交集。(2)计算两个文本中字的并集。(3)交集内的字的个数除以并集内的字的个数即为文本相似度值。具体地，所述第一历史词向量相似性预设值为0.65。

于本发明一实施例中，基于文本相似性算法判断所述历史文字数据的二级文字数据的内容的相似性。具体地，文本相似性算法(Simhash算法)是为了计算一篇文档之间的相似度存在的，通过simhash算法可以计算出文档的simhash值，通过各个文档计算出的二进制值来计算文档之间的汉明距离，然后根据汉明距离来比较文档之间的相似度。汉明距离是指两个相同长度的字符串相同位置上不同的字符的个数。simhash算法分为5个步骤：分词、hash、加权、合并、降维，具体过程如下所述：分词：给定一段语句，进行分词，得到有效的特征向量，然后为每一个特征向量设置1-5等5个级别的权重(如果是给定一个文本，那么特征向量可以是文本中的词，其权重可以是这个词出现的次数)。例如给定一段语句：“CSDN博客结构之法算法之道的作者July”，分词后为：“CSDN、博客、结构、之、法、算法、之、道、的、作者、July”，然后为每个特征向量赋予权值：CSDN(4)博客(5)结构(3)之(1)法(2)算法(3)之(1)道(2)的(1)作者(5)July(5)，其中括号里的数字代表这个单词在整条语句中的重要程度，数字越大代表越重要。Hash：通过hash函数计算各个特征向量的hash值，hash值为二进制数01组成的n-bit签名。比如“CSDN”的hash值Hash(CSDN)为100101，“博客”的hash值Hash(博客)为“101011”。就这样，字符串就变成了一系列数字。加权：在hash值的基础上，给所有特征向量进行加权，即W＝Hash*weight，且遇到1则hash值和权值正相乘，遇到0则hash值和权值负相乘。例如给“CSDN”的hash值“100101”加权得到：W(CSDN)＝100101 4＝4 -4 -4 4-4 4，给“博客”的hash值“101011”加权得到：W(博客)＝101011 5＝5 -5 5 -5 5 5，其余特征向量类似此般操作。合并：将上述各个特征向量的加权结果累加，变成只有一个序列串。拿前两个特征向量举例，例如“CSDN”的“4 -4 -4 4 -4 4”和“博客”的“5 -5 5 -5 5 5”进行累加，得到“4+5 -4+-5 -4+5 4+-5 -4+5 4+5”，得到“9 -9 1 -1 1”。降维：对于n-bit签名的累加结果，如果大于0则置1，否则置0，从而得到该语句的simhash值，最后我们便可以根据不同语句simhash的海明距离来判断它们的相似度。例如把上面计算出来的“9 -9 1 -1 1 9”降维(某位大于0记为1，小于0记为0)，得到的01串为：“1 0 1 0 1 1”，从而形成它们的simhash签名。每篇文档得到SimHash签名值后，接着计算两个签名的海明距离即可。根据经验值，对64位的SimHash值，海明距离在3以内的可认为相似度比较高。海明距离的求法：异或时，只有在两个比较的位不同时其结果是1，否则结果为0，两个二进制“异或”后得到1的个数即为海明距离的大小。举个例子，上面我们计算到的“CSDN博客”的simhash签名值为“1 0 1 0 1 1”，假定我们计算出另外一个短语的签名值为“1 0 1 0 0 0”，那么根据异或规则，我们可以计算出这两个签名的海明距离为2，从而判定这两个短语的相似度是比较高的。具体地，所述汉明距离即simhash距离即第一内容相似性预设值为15。

于本发明一实施例中，当所述预设数量历史文字数据为第一历史文字数据、第二历史文字数据、第三历史文字数据和第四历史文字数据时，对所述第一历史文字数据分别和所述第二历史文字数据、第三历史文字数据和第四历史文字数据的一级文字数据的特征词向量之间的相似性与第一历史词向量相似性预设值进行比较，当所述第一历史文字数据分别和所述第二历史文字数据的一级文字数据的特征词向量之间的相似性大于等于第一历史词向量相似性预设值时，将所述第一历史文字数据和所述第二历史文字数据归为同一类；当所述第一历史文字数据与第三历史文字数据和第四历史文字数据的一级文字数据的特征词向量之间的相似性小于第一历史词向量相似性预设值时，判断所述第一历史文字数据与第三历史文字数据和第四历史文字数据的二级文字数据的内容的相似性，当所述第一历史文字数据与第三历史文字数据的二级文字数据的内容的相似性小于第一历史内容相似性预设值时，将所述第一历史文字数据与第三历史文字数据归为同一类，则此时，第一历史文字数据、第二历史文字数据、第三历史文字数据归为同一类而第四历史文字数据归为另一类；即当所述第一历史文字数据和第四历史文字数据的二级文字数据的内容的相似性大于等于第一历史内容相似性预设值时，则将所述第四历史文字数据归为另一类，直到对所有的所述历史文字数据进行处理获得第一分类的历史处理文字数据。

步骤S12、按照第一预设规则对所述新增文字数据进行处理获得第二分类的新增处理文字数据。

于本发明一实施例中，所述按照第一预设规则对所述新增文字数据进行处理获得第二分类的新增处理文字数据，包括以下步骤：提取预设数量的所述新增文字数据的一级文字数据的特征词向量；判断所述新增文字数据的一级文字数据的特征词向量之间的相似性，当所述新增文字数据的一级文字数据的特征词向量之间的相似性大于等于第一词向量相似性预设值时，将所述新增文字数据归为同一类；当所述新增文字数据的一级文字数据的特征词向量之间的相似性小于第一词向量相似性预设值时，判断所述新增文字数据的二级文字数据的内容的相似性，当所述新增文字数据的二级文字数据的内容的相似性大于等于第一内容相似性预设值时，将所述新增文字数据归为同一类；当所述新增文字数据的二级文字数据的内容的相似性小于第一内容相似性预设值时，则将所述新增文字数据归为另一类，直到对所有的所述新增文字数据进行处理获得第二分类的新增处理文字数据。

于本发明一实施例中，所述新增文字数据为文章，所述一级文字数据为文章的标题，所述二级文字数据为文章的正文。

于本发明一实施例中，基于汉语言处理包提取预设数量的所述新增文字数据的一级文字数据的特征词向量。进一步提升了文字数据处理方法的准确性。

于本发明一实施例中，基于杰卡德相似系数算法判断所述新增文字数据的一级文字数据的特征词向量之间的相似性。进一步提升了文字数据处理方法的准确性。

于本发明一实施例中，基于文本相似性算法判断所述新增文字数据的二级文字数据的内容的相似性。进一步提升了文字数据处理方法的准确性。

于本发明一实施例中，所述第一词向量相似性预设值、第一内容相似性预设值是可以根据处理需求进行调节的，如果新增文字数据量过大，可以增大所述第一词向量相似性预设值、减小第一内容相似性预设值；如果如果新增文字数据量过小，可以减小所述第一词向量相似性预设值、增大第一内容相似性预设值。从而实现了文字数据处理的可维护性、可扩展性。

如图2所示，于本发明一实施例中，按照第一预设规则对所述新增文字数据进行处理获得第二分类的新增处理文字数据包括以下步骤，在完成步骤S11，获取第一分类的历史处理文字数据和新增文字数据中的获取所述新增文字数据后，即步骤S1101，读取新增文字数据a、b、c、d。步骤S12，按照第一预设规则对所述新增文字数据进行处理获得第二分类的新增处理文字数据包括以下步骤。步骤S1201，提取所述新增文字数据a、b、c、d的一级文字数据的特征词向量。步骤S1202，初始新增处理文字数据为空。步骤S1203，将所述将新增文字数据a加入新增处理文字数据中，成为a类新增处理文字数据，依次比较新增文字数据b，c，d与a类新增处理文字数据的相似性。步骤S1204，比较新增文字数据b与a类新增处理文字数据的相似性。具体包括判断新增文字数据b是否已经在新增处理文字数据中。步骤S1205，若新增文字数据b已经在新增处理文字数据中，则读取下一新增文字数据c。步骤S1206，若新增文字数据b不在新增处理文字数据中，则依次与新增处理文字数据中的每一类新增处理文字数据进行比较，即将新增文字数据b与a类新增处理文字数据进行比较。步骤S1207，判断新增文字数据b与a类新增处理文字数据的一级文字数据的特征词向量之间的相似性，判断所述词向量之间的相似性是否大于等于第一词向量相似性预设值，即基于杰卡德相似系数算法判断所述新增文字数据的一级文字数据的特征词向量之间的相似性是否大于等于第一词向量相似性预设值，即大于等于0.65。步骤S1208，当新增文字数据b与a类新增处理文字数据的一级文字数据的特征词向量之间的相似性小于0.65时，判断新增文字数据b与a类新增处理文字数据的二级文字数据的内容的相似性，即基于文本相似性算法判断所述新增文字数据的二级文字数据的内容的相似性是否小于第一内容相似性预设值，即小于15。步骤S1209，当新增文字数据b与a类新增处理文字数据的二级文字数据的内容的相似性大于等于15时，增加b类新增处理文字数据，即将新增文字数据b添加到b类新增处理文字数据，即a类与b类属于不同的类。步骤S1210，当新增文字数据b与a类新增处理文字数据的一级文字数据的特征词向量之间的相似性大于等于0.65时，或当新增文字数据b与a类新增处理文字数据的二级文字数据的内容的相似性小于15时，将新增文字数据b添加到a类新增处理文字数据中。步骤S1211，更新新增处理文字数据的分类。步骤S1212，判断所有新增文字数据是否都已经处理，即获得了第二分类的新增处理文字数据，则步骤S12结束。

步骤S13、按照第二预设规则对所述第二分类的新增处理文字数据和第一分类的历史处理文字数据进行处理获得最终分类的历史处理文字数据。

于本发明一实施例中，所述按照第二预设规则对所述第二分类的新增处理文字数据和第一分类的历史处理文字数据进行处理获得最终分类的历史处理文字数据，包括以下步骤：判断所述第二分类的新增处理文字数据和第一分类的历史处理文字数据的各个分类是否有重合；若有重合则将所述第二分类的新增处理文字数据和第一分类的历史处理文字数据重合的分类的文字数据和并为一个分类的文字数据；将所述第二分类的新增处理文字数据与第一分类的历史处理文字数据不重合部分的分类的新增文字数据和上述重合的分类的文字数据一起组成最终分类的历史处理文字数据。基于新增文字数据的处理和历史处理文字数据的处理，从而保证文字数据处理方法的准确性。

于本发明一实施例中，所述第一分类的历史处理文字数据为已经对历史文字数据进行分类获得的第一分类的历史处理文字数据，所述第一分类的历史处理文字数据可以有一个或两个以上分类的历史文字数据组成。所述第二分类的新增处理文字数据为已经对新增文字数据进行分类获得的第二分类的新增处理文字数据，所述第二分类的新增处理文字数据可以有一个或两个以上分类的新增文字数据组成。

于本发明一实施例中，所述按照第二预设规则对所述第二分类的新增处理文字数据和第一分类的历史处理文字数据进行处理获得最终分类的历史处理文字数据，包括以下步骤：判断所述新增处理文字数据与历史处理文字数据的一级文字数据的特征词向量之间的相似性，当所述新增处理文字数据与历史处理文字数据的一级文字数据的特征词向量之间的相似性大于等于第二词向量相似性预设值时，将所述新增处理文字数据与历史处理文字数据归为同一类；当所述新增处理文字数据与历史处理文字数据的一级文字数据的特征词向量之间的相似性小于第二词向量相似性预设值时；判断所述新增处理文字数据与历史处理文字数据的二级文字数据的内容的相似性，当所述新增处理文字数据与历史处理文字数据的二级文字数据的内容的相似性小于第二内容相似性预设值时，将所述新增处理文字数据与历史处理文字数据归为同一类；当所述新增处理文字数据与历史处理文字数据的二级文字数据的内容的相似性大于等于第二内容相似性预设值时，将所述新增处理文字数据归为另一类，直到对所有的所述第二分类的新增处理文字数据和第一分类的历史处理文字数据进行处理获得最终分类的历史处理文字数据。

于本发明一实施例中，所述按照第二预设规则对所述第二分类的新增处理文字数据和第一分类的历史处理文字数据进行处理获得最终分类的历史处理文字数据，包括以下步骤：判断所述第二分类的新增处理文字数据与第一分类的历史处理文字数据的各个分类下的一级文字数据的特征词向量之间的相似性，当所述第二分类的新增处理文字数据的其中一个分类的新增文字数据的一级文字数据的特征词向量与第一分类的历史处理文字数据的其中一个分类的历史文字数据的一级文字数据的特征词向量之间的相似性大于等于第二词向量相似性预设值时，将所述新增处理文字数据的所述其中一个分类下的新增文字数据与所述第一分类的历史处理文字数据的相应其中一个分类下的历史文字数据归为同一类文字数据。当所述第二分类的新增处理文字数据的所述其中一个分类的新增文字数据的一级文字数据的特征词向量与第一分类的历史处理文字数据的所述其中一个分类的历史文字数据的一级文字数据的特征词向量之间的相似性小于第二词向量相似性预设值时；判断所述第二分类的新增处理文字数据的所述其中一个分类的新增文字数据与第一分类的历史处理文字数据的所述其中一个分类的历史文字数据的二级文字数据的内容的相似性，当所述第二分类的新增处理文字数据的所述其中一个分类的新增文字数据与第一分类的历史处理文字数据的所述其中一个分类的历史文字数据的二级文字数据的内容的相似性小于第二内容相似性预设值时，将所述第二分类的新增处理文字数据的所述其中一个分类的新增文字数据与所述第一分类的历史处理文字数据的所述其中一个分类的历史文字数据归为同一类文字数据，即所述新增处理文字数据的所述其中一个分类与所述第一分类的历史处理文字数据的相应其中一个分类重合。当所述第二分类的新增处理文字数据的所述其中一个分类的新增文字数据与第一分类的历史处理文字数据的所述其中一个分类的历史文字数据的二级文字数据的内容的相似性大于等于第二内容相似性预设值时，将所述第二分类的新增处理文字数据的所述其中一个分类归为另一类，且将所述第二分类的新增处理文字数据与第一分类的历史处理文字数据不重合部分的分类的新增文字数据和所述第二分类的新增处理文字数据与第一分类的历史处理文字数据重合的分类的文字数据一起组成最终分类的历史处理文字数据，直到对所有的所述第二分类的新增处理文字数据的所有分类和第一分类的历史处理文字数据的所有分类进行处理获得最终分类的历史处理文字数据。

于本发明一实施例中，所述第二词向量相似性预设值、第二内容相似性预设值是可以根据处理需求进行调节的，如果新增文字数据量过大，可以增大所述第二词向量相似性预设值、减小第二内容相似性预设值；如果如果新增文字数据量过小，可以减小所述第二词向量相似性预设值、增大第二内容相似性预设值。从而实现了文字数据处理的可维护性、可扩展性。

于本发明一实施例中，所述新增文字数据为文章，所述历史文字数据为文章，所述一级文字数据为文章的标题，所述二级文字数据为文章的正文。进一步提升了文字数据处理方法的准确性。

于本发明一实施例中，基于汉语言处理包提取预设数量的所述新增文字数据的一级文字数据的特征词向量。基于汉语言处理包提取预设数量的所述历史文字数据的一级文字数据的特征词向量。进一步提升了文字数据处理方法的准确性。

于本发明一实施例中，基于杰卡德相似系数算法判断所述新增处理文字数据的新增文字数据的一级文字数据的特征词向量与历史处理文字数据的历史文字数据的一级文字数据的特征词向量之间的相似性。

于本发明一实施例中，基于文本相似性算法判断所述新增处理文字数据的新增文字数据的二级文字数据与所述历史处理文字数据的历史文字数据的二级文字数据的内容的相似性。

如图3所示，于一实施例中，本发明的文字数据处理***，包括获取模块31、第一分类模块32和第二分类模块33。

所述获取模块31用于获取第一分类的历史处理文字数据和新增文字数据。

于本发明一实施例中，所述第一分类的历史处理文字数据为已经对历史文字数据进行分类获得的第一分类的历史处理文字数据，所述第一分类的历史处理文字数据可以有一种或两种以上分类的历史文字数据组成，每一种分类下的历史文字数据属于同一类。具体地，通过对历史文字数据的一级文字数据的特征词向量之间的相似性和历史文字数据的二级文字数据的内容的相似性进行分析获得第一分类的历史处理文字数据。提取预设数量的所述历史文字数据的一级文字数据的特征词向量；判断所述历史文字数据的一级文字数据的特征词向量之间的相似性，当所述历史文字数据的一级文字数据的特征词向量之间的相似性大于等于第一历史词向量相似性预设值时，将所述历史文字数据归为同一类；当所述历史文字数据的一级文字数据的特征词向量之间的相似性小于于第一历史词向量相似性预设值时，判断所述历史文字数据的二级文字数据的内容的相似性，当所述历史文字数据的二级文字数据的内容的相似性小于第一历史内容相似性预设值时，将所述历史文字数据归为同一类；当所述历史文字数据的二级文字数据的内容的相似性大于等于第一历史内容相似性预设值时，则将所述历史文字数据归为另一类，直到对所有的所述历史文字数据进行处理获得第一分类的历史处理文字数据。

于本发明一实施例中，所述历史文字数据为历史文章，所述历史文字数据的一级文字数据为历史文章的标题，所述历史文字数据的二级文字数据为历史文章的正文。所述历史文章是指在新增文字数据时间段之前的文章。

于本发明一实施例中，基于汉语言处理包提取预设数量的所述历史文字数据的一级文字数据的特征词向量。汉语言处理包(HanLP)是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。所述汉语言处理包可用于提取预设数量的所述历史文字数据的一级文字数据的特征词向量。具体地，利用所述汉语言处理包中的感知机模型提取预设数量的所述历史文字数据的一级文字数据的特征词向量。

于本发明一实施例中，基于文本相似性算法判断所述历史文字数据的二级文字数据的内容的相似性。具体地，文本相似性算法(Simhash算法)是为了计算一篇文档之间的相似度存在的，通过simhash算法可以计算出文档的simhash值，通过各个文档计算出的二进制值来计算文档之间的汉明距离，然后根据汉明距离来比较文档之间的相似度。汉明距离是指两个相同长度的字符串相同位置上不同的字符的个数。simhash算法分为5个步骤：分词、hash、加权、合并、降维，具体过程如下所述：分词：给定一段语句，进行分词，得到有效的特征向量，然后为每一个特征向量设置1-5等5个级别的权重(如果是给定一个文本，那么特征向量可以是文本中的词，其权重可以是这个词出现的次数)。例如给定一段语句：“CSDN博客结构之法算法之道的作者July”，分词后为：“CSDN、博客、结构、之、法、算法、之、道、的、作者、July”，然后为每个特征向量赋予权值：CSDN(4)博客(5)结构(3)之(1)法(2)算法(3)之(1)道(2)的(1)作者(5)July(5)，其中括号里的数字代表这个单词在整条语句中的重要程度，数字越大代表越重要。Hash：通过hash函数计算各个特征向量的hash值，hash值为二进制数01组成的n-bit签名。比如“CSDN”的hash值Hash(CSDN)为100101，“博客”的hash值Hash(博客)为“101011”。就这样，字符串就变成了一系列数字。加权：在hash值的基础上，给所有特征向量进行加权，即W＝Hash*weight，且遇到1则hash值和权值正相乘，遇到0则hash值和权值负相乘。例如给“CSDN”的hash值“100101”加权得到：W(CSDN)＝100101 4＝4 -4 -4 4-4 4，给“博客”的hash值“101011”加权得到：W(博客)＝1010115＝5 -5 5 -5 5 5，其余特征向量类似此般操作。合并：将上述各个特征向量的加权结果累加，变成只有一个序列串。拿前两个特征向量举例，例如“CSDN”的“4 -4 -4 4 -4 4”和“博客”的“5 -5 5 -5 5 5”进行累加，得到“4+5 -4+-5 -4+5 4+-5 -4+5 4+5”，得到“9 -9 1 -1 1”。降维：对于n-bit签名的累加结果，如果大于0则置1，否则置0，从而得到该语句的simhash值，最后我们便可以根据不同语句simhash的海明距离来判断它们的相似度。例如把上面计算出来的“9 -9 1 -1 1 9”降维(某位大于0记为1，小于0记为0)，得到的01串为：“1 0 1 0 1 1”，从而形成它们的simhash签名。每篇文档得到SimHash签名值后，接着计算两个签名的海明距离即可。根据经验值，对64位的SimHash值，海明距离在3以内的可认为相似度比较高。海明距离的求法：异或时，只有在两个比较的位不同时其结果是1，否则结果为0，两个二进制“异或”后得到1的个数即为海明距离的大小。举个例子，上面我们计算到的“CSDN博客”的simhash签名值为“1 0 1 0 1 1”，假定我们计算出另外一个短语的签名值为“1 0 1 0 0 0”，那么根据异或规则，我们可以计算出这两个签名的海明距离为2，从而判定这两个短语的相似度是比较高的。具体地，所述汉明距离即simhash距离即第一内容相似性预设值为15。

于本发明一实施例中，当所述预设数量历史文字数据为第一历史文字数据、第二历史文字数据、第三历史文字数据和第四历史文字数据时，对所述第一历史文字数据分别和所述第二历史文字数据、第三历史文字数据和第四历史文字数据的一级文字数据的特征词向量之间的相似性与第一历史词向量相似性预设值进行比较，当所述第一历史文字数据分别和所述第二历史文字数据的一级文字数据的特征词向量之间的相似性大于等于第一历史词向量相似性预设值时，将所述第一历史文字数据和所述第二历史文字数据归为同一类；当所述所述第一历史文字数据与第三历史文字数据和第四历史文字数据的一级文字数据的特征词向量之间的相似性小于第一历史词向量相似性预设值时，判断所述第一历史文字数据与第三历史文字数据和第四历史文字数据的二级文字数据的内容的相似性，当所述第一历史文字数据与第三历史文字数据的二级文字数据的内容的相似性小于第一历史内容相似性预设值时，将所述第一历史文字数据与第三历史文字数据归为同一类，则此时，第一历史文字数据、第二历史文字数据、第三历史文字数据归为同一类而第四历史文字数据归为另一类；即当所述第一历史文字数据和第四历史文字数据的二级文字数据的内容的相似性大于等于第一历史内容相似性预设值时，则将所述第四历史文字数据归为另一类，直到对所有的所述历史文字数据进行处理获得第一分类的历史处理文字数据。

所述第一分类模块32用于按照第一预设规则对所述新增文字数据进行处理获得第二分类的新增处理文字数据。

于本发明一实施例中，所述按照第一预设规则对所述新增文字数据进行处理获得第二分类的新增处理文字数据，包括以下步骤：提取预设数量的所述新增文字数据的一级文字数据的特征词向量；判断所述新增文字数据的一级文字数据的特征词向量之间的相似性，当所述新增文字数据的一级文字数据的特征词向量之间的相似性大于等于第一词向量相似性预设值时，将所述新增文字数据归为同一类；当所述新增文字数据的一级文字数据的特征词向量之间的相似性小于于第一词向量相似性预设值时，判断所述新增文字数据的二级文字数据的内容的相似性，当所述新增文字数据的二级文字数据的内容的相似性大于等于第一内容相似性预设值时，将所述新增文字数据归为同一类；当所述新增文字数据的二级文字数据的内容的相似性小于第一内容相似性预设值时，则将所述新增文字数据归为另一类，直到对所有的所述新增文字数据进行处理获得第二分类的新增处理文字数据。

于本发明一实施例中，基于汉语言处理包提取预设数量的所述新增文字数据的一级文字数据的特征词向量。

于本发明一实施例中，基于杰卡德相似系数算法判断所述新增文字数据的一级文字数据的特征词向量之间的相似性。

于本发明一实施例中，基于文本相似性算法判断所述新增文字数据的二级文字数据的内容的相似性。

于本发明一实施例中，所述第一词向量相似性预设值、第一内容相似性预设值是可以根据处理需求进行调节的，如果新增文字数据量过大，可以增大所述第一词向量相似性预设值、减小第一内容相似性预设值；如果如果新增文字数据量过小，可以减小所述第一词向量相似性预设值、增大第一内容相似性预设值。

所述第二分类模块33用于按照第二预设规则对所述第二分类的新增处理文字数据和第一分类的历史处理文字数据进行处理获得最终分类的历史处理文字数据。

于本发明一实施例中，所述按照第二预设规则对所述第二分类的新增处理文字数据和第一分类的历史处理文字数据进行处理获得最终分类的历史处理文字数据，包括以下步骤：判断所述第二分类的新增处理文字数据和第一分类的历史处理文字数据的各个分类是否有重合；若有重合则将所述第二分类的新增处理文字数据和第一分类的历史处理文字数据重合的分类的文字数据和并为一个分类的文字数据；将所述第二分类的新增处理文字数据与第一分类的历史处理文字数据不重合部分的分类的新增文字数据和上述重合的分类的文字数据一起组成最终分类的历史处理文字数据。

于本发明一实施例中，所述按照第二预设规则对所述第二分类的新增处理文字数据和第一分类的历史处理文字数据进行处理获得最终分类的历史处理文字数据，包括以下步骤：判断所述新增处理文字数据与历史处理文字数据的一级文字数据的特征词向量之间的相似性，当所述新增处理文字数据与历史处理文字数据的一级文字数据的特征词向量之间的相似性大于等于第二词向量相似性预设值时，将所述新增处理文字数据与历史处理文字数据归为同一类；当所述新增处理文字数据与历史处理文字数据的一级文字数据的特征之间的相似性小于第二词向量相似性预设值时；判断所述新增处理文字数据与历史处理文字数据的二级文字数据的内容的相似性，当所述新增处理文字数据与历史处理文字数据的二级文字数据的内容的相似性小于第二内容相似性预设值时，将所述新增处理文字数据与历史处理文字数据归为同一类；当所述新增处理文字数据与历史处理文字数据的二级文字数据的内容的相似性大于等于第二内容相似性预设值时，将所述新增处理文字数据归为另一类，直到对所有的所述第二分类的新增处理文字数据和第一分类的历史处理文字数据进行处理获得最终分类的历史处理文字数据。

于本发明一实施例中，所述第二词向量相似性预设值、第二内容相似性预设值是可以根据处理需求进行调节的，如果新增文字数据量过大，可以增大所述第二词向量相似性预设值、减小第二内容相似性预设值；如果如果新增文字数据量过小，可以减小所述第二词向量相似性预设值、增大第二内容相似性预设值。

于本发明一实施例中，所述新增文字数据为文章，所述历史文字数据为文章，所述一级文字数据为文章的标题，所述二级文字数据为文章的正文。

于本发明一实施例中，基于汉语言处理包提取预设数量的所述新增文字数据的一级文字数据的特征词向量。基于汉语言处理包提取预设数量的所述历史文字数据的一级文字数据的特征词向量。

需要说明的是，应理解以上***的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(Digital Singnal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上***(system-on-a-chip，简称SOC)的形式实现。

于本发明一实施例中，本发明还包括一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一所述文字数据处理方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

如图4所示，于一实施例中，本发明的文字数据处理装置包括：处理器41和存储器42；所述存储器42用于存储计算机程序；所述处理器41与所述存储器42相连，用于执行所述存储器42存储的计算机程序，以使所述文字数据处理装置执行任一所述的文字数据处理方法。

具体地，所述存储器41包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

优选地，所述处理器42可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，本发明文字数据处理方法、***、介质及装置，用于文字数据量突变情况下实现对文字数据的准实时、微批次处理，提高了文字数据处理的准确性、可维护性和扩展性。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种文字数据处理方法，其特征在于，包括以下步骤：

获取第一分类的历史处理文字数据和新增文字数据；

按照第一预设规则对所述新增文字数据进行处理获得第二分类的新增处理文字数据；

按照第二预设规则对所述第二分类的新增处理文字数据和第一分类的历史处理文字数据进行处理获得最终分类的历史处理文字数据。

2.根据权利要求1所述的文字数据处理方法，其特征在于，所述按照第一预设规则对所述新增文字数据进行处理获得第二分类的新增处理文字数据，包括以下步骤：

提取预设数量的所述新增文字数据的一级文字数据的特征词向量；

判断所述新增文字数据的一级文字数据的特征词向量之间的相似性，当所述新增文字数据的一级文字数据的特征词向量之间的相似性大于等于第一词向量相似性预设值时，将所述新增文字数据归为同一类；

当所述新增文字数据的一级文字数据的特征词向量之间的相似性小于第一词向量相似性预设值时，判断所述新增文字数据的二级文字数据的内容的相似性，当所述新增文字数据的二级文字数据的内容的相似性小于第一内容相似性预设值时，将所述新增文字数据归为同一类；

当所述新增文字数据的二级文字数据的内容的相似性大于等于第一内容相似性预设值时，则将所述新增文字数据归为另一类，直到对所有的所述新增文字数据进行处理获得第二分类的新增处理文字数据。

3.根据权利要求2所述的文字数据处理方法，其特征在于，所述新增文字数据为文章，所述一级文字数据为文章的标题，所述二级文字数据为文章的正文。

4.根据权利要求2所述的文字数据处理方法，其特征在于，基于汉语言处理包提取预设数量的所述新增文字数据的一级文字数据的特征词向量。

5.根据权利要求2所述的文字数据处理方法，其特征在于，基于杰卡德相似系数算法判断所述新增文字数据的一级文字数据的特征词向量之间的相似性。

6.根据权利要求2所述的文字数据处理方法，其特征在于，基于文本相似性算法判断所述新增文字数据的二级文字数据的内容的相似性。

7.根据权利要求1所述的文字数据处理方法，其特征在于，所述按照第二预设规则对所述第二分类的新增处理文字数据和第一分类的历史处理文字数据进行处理获得最终分类的历史处理文字数据，包括以下步骤：

判断所述第二分类的新增处理文字数据和第一分类的历史处理文字数据的各个分类是否有重合；

若有重合则将所述第二分类的新增处理文字数据和第一分类的历史处理文字数据重合的分类的文字数据合并为一个分类的文字数据；

将所述第二分类的新增处理文字数据与第一分类的历史处理文字数据不重合部分的分类的新增文字数据和上述重合的分类的文字数据一起组成最终分类的历史处理文字数据。

8.一种文字数据处理***，其特征在于，包括：获取模块、第一分类模块和第二分类模块；

所述获取模块用于获取第一分类的历史处理文字数据和新增文字数据；

所述第一分类模块用于按照第一预设规则对所述新增文字数据进行处理获得第二分类的新增处理文字数据；

所述第二分类模块用于按照第二预设规则对所述第二分类的新增处理文字数据和第一分类的历史处理文字数据进行处理获得最终分类的历史处理文字数据。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7中任一项所述文字数据处理方法。

10.一种文字数据处理装置，其特征在于，包括：处理器和存储器；

所述存储器用于存储计算机程序；

所述处理器与所述存储器相连，用于执行所述存储器存储的计算机程序，以使所述文字数据处理装置执行权利要求1至7中任一项所述的文字数据处理方法。