CN104750668A - 一种统计表格有效内容的方法 - Google Patents

一种统计表格有效内容的方法 Download PDF

Info

Publication number
CN104750668A
CN104750668A CN201510141995.8A CN201510141995A CN104750668A CN 104750668 A CN104750668 A CN 104750668A CN 201510141995 A CN201510141995 A CN 201510141995A CN 104750668 A CN104750668 A CN 104750668A
Authority
CN
China
Prior art keywords
data
effective content
similarity
classification
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510141995.8A
Other languages
English (en)
Other versions
CN104750668B (zh
Inventor
江潮
贺建华
蒋汉华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language network (Wuhan) Information Technology Co., Ltd.
Original Assignee
Language Network (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Language Network (wuhan) Information Technology Co Ltd filed Critical Language Network (wuhan) Information Technology Co Ltd
Priority to CN201510141995.8A priority Critical patent/CN104750668B/zh
Publication of CN104750668A publication Critical patent/CN104750668A/zh
Application granted granted Critical
Publication of CN104750668B publication Critical patent/CN104750668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机的数据挖掘应用技术领域,尤其涉及到电子数据表格的内容统计。本发明自动的过滤掉文档中的噪音部分,然后计算两笔数据的相似度,依据相似度的值对数据进行分类,然后依次统计每个分类中数据集合的有效部分,最终在将所有分类中的数据汇总累加得出最后的总体有效部分数据。本发明自动避免掉重复内容的重复计算,对有效部分的统计准确率高;同时无需人工处理,统计效率高。值得推广应用。

Description

一种统计表格有效内容的方法
技术领域
本发明涉及计算机的数据挖掘应用技术领域,尤其涉及到电子数据表格的内容统计。
背景技术
目前统计电子数据表格文档内容,都是采用excel自带的统计功能,但这样统计出来的数据仅仅是excel文档中所有内容的总和,而这些内容并不全是有效内容,里面充满部分的html代码,url连接地址,标点符号等噪音部分,以及相同列下不同数据之间重复的部分。因此,按照现有统计方式统计出的电子数据表格内容数量远远大于文档中有效的部分,无法适应人们对表格中有效内容的统计需求。例如,当此excel是需要作为翻译的原文件,这些噪音部分是不需要作为翻译的字数统计,而且相同列下不同数据之间重复的部分也不需要在作为翻译的字数统计,那么要完成此项工作,需要人为的去判断和剔除噪音部分和去除同一列数据相同重复的部分,当excel数据越来越多的时候,人工干预成本也会越来越高,效率也会越来越低,出错几率会越来越高,最终统计出的数值准确率也会越来越低。
发明内容
本发明所要解决的技术问题是提供一种统计表格有效内容的方法,克服现有技术存在的无效内容统计的缺陷。
为解决上述技术问题,本发明提供一种统计表格有效内容的方法,包括以下步骤:
步骤Ⅰ、文档预处理,过滤掉文档中的噪音部分;
步骤Ⅱ、通过计算数据的相似度,依据相似度的值对数据进行分类;
步骤Ⅲ、计算每个分类中数据集合的有效部分数;
步骤Ⅳ、将所有分类中的有效部分数累加得出最后有效部分数。
所述过滤掉文档中的噪音部分为,去除每笔数据中跟文档内容不相关的html标签,url连接地址,标点符号,空格。
优选的,所述步骤Ⅱ包括以下步骤:
ⅰ、首先将所有数据加载到集合G中,然后按照文本大小对集合G进行倒序排序,也就是将长度最长的排在第一位,长度最短的排在最后一位。
ⅱ、取出集合G中一笔数据D,将其保存在分类集合L1中,并将该数据D从集合G中删除。
ⅲ、计算数据D依次与集合G中的其他数据GD的相似度,当该相似度数值大于等于预先设置好的文本相似度阀值时,则将GD也存入集合L1中,并且保存D->GD的最小编辑数S1,并在集合G中删除数据GD。
ⅳ、重复步骤ⅱ、ⅲ的方式,形成分类集合L2,…,Ln。
优选的,所述计算数据的相似度,包括如下步骤:
通过编辑距离算法计算出两笔数据之间的最小编辑数,
根据所述编辑次数来计算出两笔数据的相似度。
所述计算每个分类中数据集合的有效部分数,包括以下步骤:
3.1、循环遍历L1集合,以第一笔数据LD1为参照对象,依次取出第二笔数据对象LD2,并取出LD2对象中的最小编辑次数S1,计算出这两笔数据的有效内容数据L1A1,L1A1=S1+(LD2对象文本数据长度);
3.2、根据3.1的方式,依次取出第三笔数据LD3直到LDn,最终得出L1A2…L1A(n-1),最后统计出集合L1有效内容数L1A,
L1A=(L1A1+L1A2+….+L1A1(n-1))-(LD1对象文本数据长度)*(集合L1长度-1);
3.3、重复步骤3.1到3.2的操作,依次计算出分类集合L2,…,Ln分别对应的有效内容数L2A,…,LnA;
3.4、无法匹配集合W中有效内容数WA为该集合中每笔对象文本长度之和的累加。
本发明自动的过滤掉文档中的噪音部分,然后计算两笔数据的相似度,依据相似度的值对数据进行分类,然后依次统计每个分类中数据集合的有效部分,最终在将所有分类中的数据汇总累加得出最后的总体有效部分数据。本发明自动避免掉重复内容的重复计算,对有效部分的统计准确率高;同时无需人工处理,统计效率高。值得推广应用。
附图说明
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
图1为本发明具体实施方式的流程图。
具体实施方式
结合图1所示,本发明主要包括如下步骤:
步骤1、文档预处理,清除文档中相关内容噪音部分内容。
为了提高模块效率和统计准确性,在模块执行之前,首先要对文档中相关内容进行过滤。去除每笔数据中跟文档内容不相关的html标签,url连接地址,标点符号,空格等等噪音内容。这些内容严格意义上说并不属于文档中的有效内容,因此在统计的时候并不需要将这些内容统计在最后的结果中。
步骤2、数据归类,通过计算数据的相似度将同类数据归为一类。
2.1首先将所有数据加载到集合G中,然后按照文本大小对集合G进行倒序排序,也就是将长度最长的排在第一位,长度最短的排在最后一位。
2.2取出集合G中一笔数据D,将其保存在分类集合L1中,并将该数据D从集合G中删除。
2.3将数据D依次与集合G中的其他数据GD通过编辑距离算法得出最小编辑数,根据最小编辑数得出D、GD两笔文本数据的相似度,当该相似度数值大于等于预先设置好的文本相似度阀值时,则将GD也存入集合L1中,并且保存D->GD的最小编辑数S1,并在集合G中删除数据GD。
2.4重复步骤2.2、2.3的操作,并将新的数据存入新的分类集合L2…Ln中。
2.5整理分类集合L1…Ln,取出集合长度为1的集合,这些集合数据都为无法匹配数据,将这些数据全部取出,保存入无法匹配集合W中。
此刻数据的分类完成,最终得出分类集合L1,….,Ln,以及无法匹配集合W。
上述的编辑距离指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,***一个字符,删除一个字符。本发明为了减少算法复杂度,将替换,***,删除的权重都设成1。编辑距离算法包括以下步骤:
步骤(1)、设置n为字符串s(‘最新最热最好’)的长度。设置m为字符串t(‘最新最热’)的长度。并构造如下二维数组d[n+1,m+1],如下表1所示。
表1
步骤(2)、初始化二位数组d[n+1,m+1];
按照数值的循序依次将d[0,m+1]和d[n+1,0]数值填满,如表2所示。
表2
步骤(3)、以表2中的A处为例,设置单元d[1,1]为下面的最小值之一:
a、紧邻该单元上方+1:d[1,0]+1;
b、紧邻该单元左侧+1:d[0,1]+1;
c、该单元对角线上方和左侧+cost:d[0,0]+cost(cost值表示两个相同位置的字符是否相等);
以目前表格中数值来看,a数值为2,b数值为2,c由于d[0,1]等于d[1,0],故cost等于0,反之为1,则a,b,c三笔数据为(2,2,0),取最小数0,则A处的数值为0。
步骤(4)、按照步骤(3)的规则依次对B处,C处,D处以及整个数组其他空余地方计算出数值,则最终的d[n+1,m+1]便是最小编辑距离的值,则当前’最新最热’‐>’最新最热最好’最小编辑距离为2。最终形成如表3所示。
表3
步骤3、分类集合有效内容统计。
3.1循环遍历L1集合,以第一笔数据LD1为参照对象,依次取出第二笔数据对象LD2,并取出LD2对象中的最小编辑次数S1,计算出这两笔数据的有效内容数据L1A1,L1A1=S1+(LD2对象文本数据长度)。
3.2根据3.1的方式,依次取出第三笔数据LD3直到LDn,最终得出L1A2…L1A(n-1),最后统计出集合L1有效内容数L1A,
L1A=(L1A1+L1A2+….+L1A1(n-1))-(LD1对象文本数据长度)*(集合L1长度-1)。
3.3重复3.1到3.2的操作,依次计算出L2A…LnA,无法匹配集合W中有效内容数WA为该集合中每笔对象文本长度之和的累加。
步骤4、最终当前文档中统计的有效内容数LS为:
LS=L1A+L2A+…+LnA+WA。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种统计表格有效内容的方法,其特征在于,包括以下步骤:
步骤Ⅰ、文档预处理,过滤掉文档中的噪音部分;
步骤Ⅱ、通过计算数据的相似度,依据相似度的值对数据进行分类;
步骤Ⅲ、计算每个分类中数据集合的有效部分数;
步骤Ⅳ、将所有分类中的有效部分数累加得出所有有效部分数。
2.根据权利要求1所述的统计表格有效内容的方法,其特征在于,所述过滤掉文档中的噪音部分为,去除每笔数据中跟文档内容不相关的html标签,url连接地址,标点符号和空格。
3.根据权利要求1所述的统计表格有效内容的方法,其特征在于,所述步骤Ⅱ包括以下步骤:
ⅰ、首先将所有数据加载到集合G中,然后按照文本大小对集合G进行倒序排序,也就是将长度最长的排在第一位,长度最短的排在最后一位;
ⅱ、取出集合G中一笔数据D,将其保存在分类集合L1中,并将该数据D从集合G中删除;
ⅲ、计算数据D依次与集合G中的其他数据GD的相似度,当该相似度数值大于等于预先设置好的文本相似度阀值时,则将GD也存入集合L1中,并且保存D->GD的最小编辑数S1,并在集合G中删除数据GD;
ⅳ、重复步骤ⅱ、ⅲ的方式,形成分类集合L2,…,Ln。
4.根据权利要求3所述的统计表格有效内容的方法,其特征在于,所述计算数据的相似度,包括如下步骤:
通过编辑距离算法比较两笔数据最小编辑次数;
通过所述编辑次数来计算出两笔数据的相似度。
5.根据权利要求1所述的统计表格有效内容的方法,其特征在于,所述计算每个分类中数据集合的有效部分数,包括以下步骤:
3.1、循环遍历L1集合,以第一笔数据LD1为参照对象,依次取出第二笔数据对象LD2,并取出LD2对象中的最小编辑次数S1,计算出这两笔数据的有效内容数据L1A1,L1A1=S1+(LD2对象文本数据长度);
3.2、根据步骤3.1的方式,依次取出第三笔数据LD3直到LDn,最终得出L1A2…L1A(n-1),最后统计出集合L1有效内容数L1A,
L1A=(L1A1+L1A2+….+L1A1(n-1))-(LD1对象文本数据长度)*(集合L1长度-1);
3.3、重复步骤3.1到3.2的操作,依次计算出分类集合L2,…,Ln分别对应的有效内容数L2A,…,LnA;
3.4、无法匹配集合W中有效内容数WA为该集合中每笔对象文本长度之和的累加。
CN201510141995.8A 2015-03-27 2015-03-27 一种统计表格有效内容的方法 Active CN104750668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510141995.8A CN104750668B (zh) 2015-03-27 2015-03-27 一种统计表格有效内容的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510141995.8A CN104750668B (zh) 2015-03-27 2015-03-27 一种统计表格有效内容的方法

Publications (2)

Publication Number Publication Date
CN104750668A true CN104750668A (zh) 2015-07-01
CN104750668B CN104750668B (zh) 2017-10-17

Family

ID=53590380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510141995.8A Active CN104750668B (zh) 2015-03-27 2015-03-27 一种统计表格有效内容的方法

Country Status (1)

Country Link
CN (1) CN104750668B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874250A (zh) * 2017-02-15 2017-06-20 中车株洲电机有限公司 一种基于word域的自动运算方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080126335A1 (en) * 2006-11-29 2008-05-29 Oracle International Corporation Efficient computation of document similarity
CN102270206A (zh) * 2010-06-03 2011-12-07 北京迅捷英翔网络科技有限公司 一种有效网页内容的抓取方法及装置
US20140013205A1 (en) * 2012-06-29 2014-01-09 The Governors Of The University Of Alberta Methods for matching xml documents
CN104008166A (zh) * 2014-05-30 2014-08-27 华东师范大学 一种基于形态和语义相似度的对话短文本聚类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080126335A1 (en) * 2006-11-29 2008-05-29 Oracle International Corporation Efficient computation of document similarity
CN102270206A (zh) * 2010-06-03 2011-12-07 北京迅捷英翔网络科技有限公司 一种有效网页内容的抓取方法及装置
US20140013205A1 (en) * 2012-06-29 2014-01-09 The Governors Of The University Of Alberta Methods for matching xml documents
CN104008166A (zh) * 2014-05-30 2014-08-27 华东师范大学 一种基于形态和语义相似度的对话短文本聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
叶焕倬 等: "基于改进编辑距离的相似重复记录清理算法", 《现代图书情报技术》 *
王华伟 等: "《翻译项目管理实务》", 31 December 2012, 中国对外翻译出版有限公司 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874250A (zh) * 2017-02-15 2017-06-20 中车株洲电机有限公司 一种基于word域的自动运算方法及***

Also Published As

Publication number Publication date
CN104750668B (zh) 2017-10-17

Similar Documents

Publication Publication Date Title
CN103823838B (zh) 一种多格式文档录入并比对的方法
CN104200369B (zh) 一种确定商品配送范围的方法和装置
CN101770446B (zh) 一种版式文件中表格识别方法及***
CN102591612B (zh) 一种基于标点连续性的通用网页正文提取方法及其***
CN104504150A (zh) 新闻舆情监测***
CN106709032A (zh) 抽取电子表格文档中结构化信息的方法及装置
CN102682085A (zh) 一种网页去重的方法
CN103106245A (zh) 基于大规模术语语料库对译稿自动碎片化分类的方法
CN102298638A (zh) 使用网页标签聚类提取新闻网页内容的方法和***
CN110390038A (zh) 基于dom树的页面分块方法、装置、设备及存储介质
CN110888981B (zh) 基于标题的文档聚类方法、装置、终端设备及介质
CN1702651A (zh) 特定类型信息文件的识别方法和装置
CN105589894B (zh) 文档索引建立方法和装置、文档检索方法和装置
CN102929906A (zh) 基于内容特征和主题特征的文本分组聚类方法
CN106909669A (zh) 一种推广信息的检测方法及装置
CN104572679A (zh) 舆情数据存储方法和装置
CN104504151A (zh) 微信舆情监测***
CN105589908A (zh) 用于事务集合的关联规则计算方法
CN106407226B (zh) 一种数据处理方法、备份服务器及存储***
CN106161193A (zh) 一种邮件处理方法、装置和***
CN104462061B (zh) 词语提取方法及提取装置
CN105373605A (zh) 数据文件批量存储方法及***
CN105790967A (zh) 一种网络日志处理方法和装置
CN106886613A (zh) 一种并行化的文本聚类方法
CN104750668A (zh) 一种统计表格有效内容的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: WUHAN TRANSN INFORMATION TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: YULIANWANG (WUHAN) INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20150731

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150731

Address after: 430074, Optics Valley Software Park, East Lake Development Zone, Wuhan, south of Hubei, South Lake Road, Optics Valley Software Park, 2, six, 5, No. 205

Applicant after: Wuhan Transn Information Technology Co., Ltd.

Address before: 430074, Optics Valley Software Park, East Lake Development Zone, Wuhan, south of Hubei, South Lake Road, Optics Valley Software Park, 2, six, 6, No. 206

Applicant before: Language network (Wuhan) Information Technology Co., Ltd.

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 430074, Optics Valley Software Park, East Lake Development Zone, Wuhan, south of Hubei, South Lake Road, Optics Valley Software Park, 2, six, 5, No. 205

Patentee after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430074, Optics Valley Software Park, East Lake Development Zone, Wuhan, south of Hubei, South Lake Road, Optics Valley Software Park, 2, six, 5, No. 205

Patentee before: Wuhan Transn Information Technology Co., Ltd.