CN104750668A

CN104750668A - 一种统计表格有效内容的方法

Info

Publication number: CN104750668A
Application number: CN201510141995.8A
Authority: CN
Inventors: 江潮; 贺建华; 蒋汉华
Original assignee: Language Network (wuhan) Information Technology Co Ltd
Current assignee: Language network (Wuhan) Information Technology Co., Ltd.
Priority date: 2015-03-27
Filing date: 2015-03-27
Publication date: 2015-07-01
Anticipated expiration: 2035-03-27
Also published as: CN104750668B

Abstract

本发明涉及计算机的数据挖掘应用技术领域，尤其涉及到电子数据表格的内容统计。本发明自动的过滤掉文档中的噪音部分，然后计算两笔数据的相似度，依据相似度的值对数据进行分类，然后依次统计每个分类中数据集合的有效部分，最终在将所有分类中的数据汇总累加得出最后的总体有效部分数据。本发明自动避免掉重复内容的重复计算，对有效部分的统计准确率高；同时无需人工处理，统计效率高。值得推广应用。

Description

一种统计表格有效内容的方法

技术领域

本发明涉及计算机的数据挖掘应用技术领域，尤其涉及到电子数据表格的内容统计。

背景技术

目前统计电子数据表格文档内容，都是采用excel自带的统计功能，但这样统计出来的数据仅仅是excel文档中所有内容的总和，而这些内容并不全是有效内容，里面充满部分的html代码，url连接地址，标点符号等噪音部分，以及相同列下不同数据之间重复的部分。因此，按照现有统计方式统计出的电子数据表格内容数量远远大于文档中有效的部分，无法适应人们对表格中有效内容的统计需求。例如，当此excel是需要作为翻译的原文件，这些噪音部分是不需要作为翻译的字数统计，而且相同列下不同数据之间重复的部分也不需要在作为翻译的字数统计，那么要完成此项工作，需要人为的去判断和剔除噪音部分和去除同一列数据相同重复的部分，当excel数据越来越多的时候，人工干预成本也会越来越高，效率也会越来越低，出错几率会越来越高，最终统计出的数值准确率也会越来越低。

发明内容

本发明所要解决的技术问题是提供一种统计表格有效内容的方法，克服现有技术存在的无效内容统计的缺陷。

为解决上述技术问题，本发明提供一种统计表格有效内容的方法，包括以下步骤：

步骤Ⅰ、文档预处理，过滤掉文档中的噪音部分；

步骤Ⅱ、通过计算数据的相似度，依据相似度的值对数据进行分类；

步骤Ⅲ、计算每个分类中数据集合的有效部分数；

步骤Ⅳ、将所有分类中的有效部分数累加得出最后有效部分数。

所述过滤掉文档中的噪音部分为，去除每笔数据中跟文档内容不相关的html标签，url连接地址，标点符号，空格。

优选的，所述步骤Ⅱ包括以下步骤：

ⅰ、首先将所有数据加载到集合G中，然后按照文本大小对集合G进行倒序排序，也就是将长度最长的排在第一位，长度最短的排在最后一位。

ⅱ、取出集合G中一笔数据D，将其保存在分类集合L1中，并将该数据D从集合G中删除。

ⅲ、计算数据D依次与集合G中的其他数据GD的相似度，当该相似度数值大于等于预先设置好的文本相似度阀值时，则将GD也存入集合L1中，并且保存D->GD的最小编辑数S1，并在集合G中删除数据GD。

ⅳ、重复步骤ⅱ、ⅲ的方式，形成分类集合L2，…，Ln。

优选的，所述计算数据的相似度，包括如下步骤：

通过编辑距离算法计算出两笔数据之间的最小编辑数，

根据所述编辑次数来计算出两笔数据的相似度。

所述计算每个分类中数据集合的有效部分数，包括以下步骤：

3.1、循环遍历L1集合，以第一笔数据LD1为参照对象，依次取出第二笔数据对象LD2，并取出LD2对象中的最小编辑次数S1，计算出这两笔数据的有效内容数据L1A1，L1A1＝S1+(LD2对象文本数据长度)；

3.2、根据3.1的方式，依次取出第三笔数据LD3直到LDn，最终得出L1A2…L1A(n-1)，最后统计出集合L1有效内容数L1A，

L1A＝(L1A1+L1A2+….+L1A1(n-1))-(LD1对象文本数据长度)*(集合L1长度-1)；

3.3、重复步骤3.1到3.2的操作，依次计算出分类集合L2，…，Ln分别对应的有效内容数L2A，…，LnA；

3.4、无法匹配集合W中有效内容数WA为该集合中每笔对象文本长度之和的累加。

本发明自动的过滤掉文档中的噪音部分，然后计算两笔数据的相似度，依据相似度的值对数据进行分类，然后依次统计每个分类中数据集合的有效部分，最终在将所有分类中的数据汇总累加得出最后的总体有效部分数据。本发明自动避免掉重复内容的重复计算，对有效部分的统计准确率高；同时无需人工处理，统计效率高。值得推广应用。

附图说明

下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。

图1为本发明具体实施方式的流程图。

具体实施方式

结合图1所示，本发明主要包括如下步骤：

步骤1、文档预处理，清除文档中相关内容噪音部分内容。

为了提高模块效率和统计准确性,在模块执行之前，首先要对文档中相关内容进行过滤。去除每笔数据中跟文档内容不相关的html标签，url连接地址，标点符号，空格等等噪音内容。这些内容严格意义上说并不属于文档中的有效内容，因此在统计的时候并不需要将这些内容统计在最后的结果中。

步骤2、数据归类，通过计算数据的相似度将同类数据归为一类。

2.1首先将所有数据加载到集合G中，然后按照文本大小对集合G进行倒序排序，也就是将长度最长的排在第一位，长度最短的排在最后一位。

2.2取出集合G中一笔数据D，将其保存在分类集合L1中，并将该数据D从集合G中删除。

2.3将数据D依次与集合G中的其他数据GD通过编辑距离算法得出最小编辑数，根据最小编辑数得出D、GD两笔文本数据的相似度，当该相似度数值大于等于预先设置好的文本相似度阀值时，则将GD也存入集合L1中，并且保存D->GD的最小编辑数S1，并在集合G中删除数据GD。

2.4重复步骤2.2、2.3的操作，并将新的数据存入新的分类集合L2…Ln中。

2.5整理分类集合L1…Ln，取出集合长度为1的集合，这些集合数据都为无法匹配数据，将这些数据全部取出，保存入无法匹配集合W中。

此刻数据的分类完成，最终得出分类集合L1，….，Ln，以及无法匹配集合W。

上述的编辑距离指的是两个字符串之间，由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，***一个字符，删除一个字符。本发明为了减少算法复杂度，将替换，***，删除的权重都设成1。编辑距离算法包括以下步骤：

步骤(1)、设置n为字符串s(‘最新最热最好’)的长度。设置m为字符串t(‘最新最热’)的长度。并构造如下二维数组d[n+1,m+1]，如下表1所示。

表1

步骤(2)、初始化二位数组d[n+1,m+1]；

按照数值的循序依次将d[0,m+1]和d[n+1,0]数值填满，如表2所示。

表2

步骤(3)、以表2中的A处为例，设置单元d[1,1]为下面的最小值之一：

a、紧邻该单元上方+1：d[1,0]+1；

b、紧邻该单元左侧+1：d[0,1]+1；

c、该单元对角线上方和左侧+cost：d[0,0]+cost(cost值表示两个相同位置的字符是否相等)；

以目前表格中数值来看，a数值为2，b数值为2，c由于d[0,1]等于d[1,0],故cost等于0，反之为1，则a,b,c三笔数据为(2,2,0)，取最小数0，则A处的数值为0。

步骤(4)、按照步骤(3)的规则依次对B处，C处，D处以及整个数组其他空余地方计算出数值，则最终的d[n+1,m+1]便是最小编辑距离的值，则当前’最新最热’‐>’最新最热最好’最小编辑距离为2。最终形成如表3所示。

表3

步骤3、分类集合有效内容统计。

3.1循环遍历L1集合，以第一笔数据LD1为参照对象，依次取出第二笔数据对象LD2，并取出LD2对象中的最小编辑次数S1，计算出这两笔数据的有效内容数据L1A1，L1A1＝S1+(LD2对象文本数据长度)。

3.2根据3.1的方式，依次取出第三笔数据LD3直到LDn，最终得出L1A2…L1A(n-1)，最后统计出集合L1有效内容数L1A，

L1A＝(L1A1+L1A2+….+L1A1(n-1))-(LD1对象文本数据长度)*(集合L1长度-1)。

3.3重复3.1到3.2的操作，依次计算出L2A…LnA，无法匹配集合W中有效内容数WA为该集合中每笔对象文本长度之和的累加。

步骤4、最终当前文档中统计的有效内容数LS为：

LS＝L1A+L2A+…+LnA+WA。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种统计表格有效内容的方法，其特征在于，包括以下步骤：

步骤Ⅰ、文档预处理，过滤掉文档中的噪音部分；

步骤Ⅲ、计算每个分类中数据集合的有效部分数；

步骤Ⅳ、将所有分类中的有效部分数累加得出所有有效部分数。

2.根据权利要求1所述的统计表格有效内容的方法，其特征在于，所述过滤掉文档中的噪音部分为，去除每笔数据中跟文档内容不相关的html标签，url连接地址，标点符号和空格。

3.根据权利要求1所述的统计表格有效内容的方法，其特征在于，所述步骤Ⅱ包括以下步骤：

ⅰ、首先将所有数据加载到集合G中，然后按照文本大小对集合G进行倒序排序，也就是将长度最长的排在第一位，长度最短的排在最后一位；

ⅱ、取出集合G中一笔数据D，将其保存在分类集合L1中，并将该数据D从集合G中删除；

ⅲ、计算数据D依次与集合G中的其他数据GD的相似度，当该相似度数值大于等于预先设置好的文本相似度阀值时，则将GD也存入集合L1中，并且保存D->GD的最小编辑数S1，并在集合G中删除数据GD；

ⅳ、重复步骤ⅱ、ⅲ的方式，形成分类集合L2，…，Ln。

4.根据权利要求3所述的统计表格有效内容的方法，其特征在于，所述计算数据的相似度，包括如下步骤：

通过编辑距离算法比较两笔数据最小编辑次数；

通过所述编辑次数来计算出两笔数据的相似度。

5.根据权利要求1所述的统计表格有效内容的方法，其特征在于，所述计算每个分类中数据集合的有效部分数，包括以下步骤：

3.2、根据步骤3.1的方式，依次取出第三笔数据LD3直到LDn，最终得出L1A2…L1A(n-1)，最后统计出集合L1有效内容数L1A，