CN105893503B

CN105893503B - 一种内容无关的文本快速过滤方法

Info

Publication number: CN105893503B
Application number: CN201610192303.7A
Authority: CN
Inventors: 张帆; 金哲凡
Original assignee: Zhejiang University of Media and Communications
Current assignee: Zhejiang University of Media and Communications
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2019-05-14
Anticipated expiration: 2036-03-30
Also published as: CN105893503A

Abstract

本发明涉及计算机信息检索领域，具体涉及一种应用于图书馆信息检索、抄袭检测、著作权侵权检测等场合中的内容无关的文本快速过滤方法。使用分隔符将母文本A和目标文本B各自分割成系列片段，对每一文本片段使用能值函数求值，所述能值函数与文本内容无关且与文本包含的噪声正相关；在求得的母文本A和目标文本B的能值中，将小于预定义能值阈值H的量滤去，得到能值序列N与M；对M作自相似分析；在允许误差约束下将M与N作匹配比较，如果穷尽N，目标文本B与母文本A的任意一部分内容的匹配度均低于阈值，则目标文本B被排除。使用本发明的文本快速过滤方法，避免了对文本内容的分析，计算量小，过滤速度快，且可以屏蔽部分噪声影响。

Description

一种内容无关的文本快速过滤方法

技术领域

本发明涉及计算机信息检索领域，具体涉及一种应用于图书馆信息检索、抄袭检测、著作权侵权检测等需要进行文本过滤的场合中的内容无关的文本快速过滤方法。

背景技术

文本是人类的自然语言的书写表示，是半结构或无结构的，缺乏计算机可理解的语义。文本处理技术广泛应用于信息检索、搜索引擎、抄袭检测、著作权保护等领域，其作用是从海量、异构、分布的文本中发现隐含知识和模式。文本处理技术以适当的数学模型表示文本，使之既要包含足够的信息以反映文本的特征，又不至于过于复杂而超出计算机的处理能力。目前主要的方法是使用分词算法和词频统计技术从文本中抽取特征词，并对其向量化。当文本较大时，文本向量的维度会相应增大，给后续工作带来巨大的计算开销，并且损害分类、聚类处理的精确性。对这个问题正面的解决办法是对文本向量作净化处理，在保证原文含义的基础上，找出对文本特征类别最具代表性的文本特征，即通过特征选择来降维。这要求特征项要能够确实标识文本内容，具有将目标文本与其他文本相区分的能力，且分离也比较容易实现。

在中文文本中可以采用字、词或短语作为表示文本的特征项。字、词、短语虽都是文本内容，相比较而言，词比字具有更强的表达能力，而词和短语相比，词的切分难度比短语的切分难度小得多。因此，目前大多数中文文本分类***都采用词作为特征项，称作特征词。这些特征词作为文本的中间表示形式，用来实现文本与文本、文本与用户目标之间的相似度计算。

在浩如烟海的网络信息中，80％的信息以文本的形式存放，这些来自网络的文本可能带有噪声，且对某些应用来说80％以上是无关的。如能不触及文本内容，快速过滤掉无关的含噪声的文本，将大大节约计算机***的计算能力。

发明内容

本发明解决的技术问题在于提供一种内容无关的文本快速过滤方法，快速排除与母文本A中的任意一部分内容匹配度低于匹配阈值的含有噪音的目标文本B。

为了实现上述目的，本发明采用了如下技术方案：

一种内容无关的文本快速过滤方法，用于对含有噪音的目标文本B，当其与母文本A中的任意一部分内容匹配度低于匹配阈值时，将其快速排除，其中A＝(a₁a₂...a_i...a_x)，B＝(b₁b₂...b_i...b_y)，a_i∈S,b_i∈S且x＞y，S为出现在母文本A和目标文本B中的所有符号的集合，包括但不限于文字、字母、标点、数理记号、分段符、换行符；包括如下步骤：

S1、定义能值函数F(c_pc_p+1...c_q)＝q-p+1,其中，c_i∈S，p≤i≤q，所述能值函数的函数值是与文本内容无关但与文本包含的噪声正相关的实数，预定义能值阈值为H，并定义能值序列N和M，所述能值序列中的元素为所述能值函数的函数值，所述能值序列N和M初始时为空；

S2、定义有限集合L＝{l|l＝(l₁l₂...l_t),l_i∈S,t≥1}，其中，l为在S中任意选取的分隔符和/或标点符号组成的长度大于等于1的序列；定义L的子集L’,即，L'＝{l'|l'＝(l'₁l'₂...l'_t),l'_i∈S,t≥1}，令l'∈L'；

S3、以l对母文本A作分割，即A＝(a₁a₂...la_s...a_tl...a_x)，从左至右对每一个片段(a_s...a_t)使用所述能值函数求值：n＝F(a_s...a_t)＝t-s+1；如果n≤H，忽略n；如果n＞H，则将n加入能值序列N的末尾；如此处理母文本A后得到能值序列N＝(n₁n₂...n_z),z＜＝x；

S4、以l'对目标文本B作分割，即B＝(b₁b₂...l'b_u...b_vl'...b_y)，从左至右对每一个片段(b_u...b_v)使用所述能值函数求值：m＝F(b_u...b_v)＝v-u+1；如果m≤H，忽略m；如果m＞H，则将m加入能值序列M的末尾；如此处理目标文本B后得到能值序列M＝(m₁m₂...m_w),w＜＝y；

S5、对所述能值序列M作自相似性分析，得到M的自相似性序列为R_M＝(r₁r₂...r_i...r_w)，其中r_i为整数且r_i∈[0..w]；

S6、预定义能值误差上限e和累积误差上限E；取i的初值为1，g的初值为0，将能值序列M＝(m₁m₂...m_w)与N＝(n_in_i+1...n_i+w-1)从左到右按序作比较，即，当变量j从1增加至w时，对每个j：

a.如果|m_j-n_i+j-1|＞e，且i＝z-w+1，则认为目标文本B与母文本A中的任意一部分内容匹配度低于匹配阈值，排除目标文本B；

b.如果|m_j-n_i+j-1|＞e，且i≠z-w+1，则令i＝i+j-1-r_j，并令g＝0，变量j加1后继续进行比较；

c.如果|m_j-n_i+j-1|≤e，则令g＝g+|m_j-n_i+j-1|；若g>E且i＝z-w+1，则认为目标文本B与母文本A中的任意一部分内容匹配度低于阈值，排除目标文本B；若g>E，且i≠z-w+1，则令i＝i+j-1-r_j，并令g＝0，变量j加1后继续进行比较；

若变量j增加至w后，目标文本B仍未排除，则保留目标文本B；B是否与A匹配取决于后续的内容相似度比较。

进一步的，步骤S4中，求取r_i的步骤如下：

S51、从m₁开始从左往右列出m_i所有左序子序列：(m₁)，(m₁m₂)，(m₁m₂m₃)……(m₁m₂...m_i-1)

S52、从m_i开始从右往左列出m_i所有右序子序列：(m_i)，(m_i-1m_i)，(m_i-2m_i-1m_i)……(m₂m₃...m_i)

S53、取左序子序列和右序子序列中共有项的最大长度为r_i。

本发明的内容无关的文本快速过滤方法，使用分隔符将母文本A和目标文本B各自分割成系列片段，对每一文本片段使用能值函数求值，所述能值函数与文本内容无关且与文本包含的噪声正相关。在求得的母文本A和目标文本B的能值中，将小于预定义能值阈值H的量滤去，得到能值序列N与M。再对M作自相似分析以加快比较速度；之后，在允许误差约束下将M与N作匹配比较，如果穷尽N，目标文本B与母文本A的任意一部分内容的匹配度均低于阈值，则目标文本B被排除。

使用本发明的文本快速过滤方法，在进行信息检索、搜索引擎、抄袭检测、著作权保护等领域的文本处理时，避免了对文本内容的分析，计算量小，过滤速度快，且可以屏蔽部分噪声影响。实际应用中，大部分网页内容可以被过滤掉，从而减少了加入内容库的内容，并降低了后续内容匹配计算的计算量，减轻了***负担。本发明也可应用于图书信息检索、抄袭检测等需要处理大规模文本的场合。

附图说明

图1为一种网络著作权侵权检测***的架构图；

图2为本发明的实施例的流程示意图。

具体实施方式

为了进一步理解本发明，下面结合实施例对本发明优选实施方案进行描述，但是应当理解，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明权利要求的限制。

本发明可在文学作品著作权网络侵权的检测中得到典型应用。

著作权，英美法系术语称为版权，是最普遍知识产权形式，凡是人的智力活动产生、具有独创性并且可复制的作品皆拥有著作权。著作权载体以文艺作品最为常见，如小说、诗歌、剧本、音乐、戏剧、曲艺、舞蹈、杂技、美术、摄影、电影等；科学和工程作品也有著作权，如工程设计图、产品设计图、地图、示意图、计算机软件等。

随着博客、微博、社交媒体、朋友圈、文库等各种形式的网络媒体蓬勃发展，一方面促进了文化传播，另一方面也使著作权侵权行为日益泛滥，严重侵害了作者的合法权益，扰乱了经济秩序。因此，需要通过计算机技术手段，构造著作权保护的平台。

图1给出了一种网络著作权侵权检测***的架构图。如图所示，该***运行于集群并行的硬件平台上，分为以下几个部分：

1)Web内容获取：根据一定策略将网上数据抓取到内容库；

2)特征生成：对原作进行特征提取，存入特征索引库；

3)侵权检测：执行侵权检测；

4)电子取证：如确认存在侵权，由取证服务器对侵权现场进行取证，产生可信的司法证据。

由于爬虫抓取网络内容具有盲目性，99％以上的内容是不侵犯任何著作权的。用于侵权检测的文本内容特征提取、基于特征的相似性比较都是耗时的计算，如不能将这99％的内容快速滤去大部分，将影响***的性能乃至可行性。在互联网内容进入内容库之前，可使用本发明的文本快速过滤方法对其进行过滤。步骤如下：

一、定义要素

符号集S为文字、字母、标点、数理记号、分段符、换行符等所有出现在文本中的符号的集合。定义能值函数F(c_pc_p+1...c_q)＝p-q+1，其中，c_i∈S，p≤i≤q。该能值函数的函数值即能值是文本(c_pc_p＋1...c_q)的长度，它与文本内容无关，而文本越长可能包含的噪声越大。定义能值阀值H＝15；

定义能值序列N和M，所述能值序列中的元素为所述能值函数的函数值，N和M初始时为空。

二、处理原作库

原作库包含一批需保护的文学作品原作，数据量大，是十亿、百亿级的文字量。打通作品界限将其连成一个长串，记为母文本A＝(a₁a₂...a_i...a_x)，a_i∈S。原作库中的原作为标准txt文本，定义有限集合L＝{l|l＝(l₁l₂...l_t),l_i∈S,t≥1}为S中的分隔符集，其中，l为在S中任意选取的分隔符和/或标点符号组成的长度大于等于1的序列。

本实施例中，l选取为ASCII码的回车换行。以l对母文本A作分割，即A＝(a₁a₂...la_s...a_tl...a_x)，从左至右对每一个片段(a_s...a_t)使用所述能值函数求值：n＝F(a_s...a_t)＝t-s+1；如果n≤H，忽略n；如果n＞H，则将n加入能值序列N的末尾；如此处理母文本A后得到能值序列N＝(n₁n₂...n_z),z＜＝x。

以上过程只需计算一次。当新的文本加入原作库时，对其做同样的分割和能值计算，结果附于能值序列N末尾即可。

三、处理网络内容

网络内容通常为片段，数据量较小，万把字、甚至几千字的量级为多见。且网络内容可能含有噪声，如乱码、错误码、短广告、网站标志性***文字等，应尽量消除其影响。

设爬虫程序抓取到一个的网络内容为目标文本B＝(b₁b₂...b_i...b_y)，b_i∈S且y＜x，定义有限集合L'＝{l'|l'＝(l'₁l'₂...l'_t),l'_i∈S,t≥1}为L的子集，即，令l'∈L'。

本实施例中，l’选取为HTML分割标记为分隔符，包括<br>，<p>等；以l’对B作分割，即B＝(b₁b₂...l'b_u...b_vl'...b_y)，从左至右对每一个片段(b_u...b_v)使用所述能值函数求值：m＝F(b_u...b_v)＝v-u+1；如果m≤H，忽略m；如果m＞H，则将m加入能值序列M的末尾；如此处理目标文本B后得到能值序列M＝(m₁m₂...m_w),w＜＝y。

继而对M作自相似性分析。M的自相似性序列为R_M＝(r₁r₂...r_i...r_w)，其中r_i为整数且r_i∈[0..w]。求取r_i的步骤如下：

S41、从m₁开始从左往右列出m_i所有左序子序列：(m₁)，(m₁m₂)，(m₁m₂m₃)……(m₁m₂...m_i-1)

S42、从m_i开始从右往左列出m_i所有右序子序列：(m_i)，(m_i-1m_i)，(m_i-2m_i-1m_i)……(m₂m₃...m_i)

S43、取左序子序列和右序子序列中共有项的最大长度为r_i。

四、过滤

预定义能值误差上限e＝4，累积误差上限E＝10⁹。实际E可根据统计经验得出，这里E取极大数表示不作累积误差检查。

取i的初值为1，g的初值为0；

将能值序列M＝(m₁m₂...m_w)与N＝(n_in_i+1...n_i+w-1)从左到右按序作比较，即，当变量j从1增加至w时，对每个j：

如果|m_j-n_i+j-1|＞e，且i＝z-w+1，则认为目标文本B与母文本A中的任意一部分内容匹配度低于匹配阈值，排除目标文本B；

如果|m_j-n_i+j-1|＞e，且i≠z-w+1，则令i＝i+j-1-r_j，并令g＝0，变量j加1后继续进行比较；

如果|m_j-n_i+j-1|≤e，则令g＝g+|m_j-n_i+j-1|；若g>E且i＝z-w+1，则认为目标文本B与母文本A中的任意一部分内容匹配度低于阈值，排除目标文本B；若g>E，且i≠z-w+1，则令i＝i+j-1-r_j，并令g＝0，变量j加1后继续进行比较；

如果从m₁到m_w的比较都未超过误差，则证明B未被排除，B需要被加入内容库；B是否真被A包含需要后续的内容相似度比较来确定。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种内容无关的文本快速过滤方法，用于对含有噪音的目标文本B，当其与母文本A中的任意一部分内容匹配度低于匹配阈值时，将其快速排除，其中A＝(a₁a₂...a_i...a_x)，B＝(b₁b₂...b_i...b_y)，a_i∈S,b_i∈S且x＞y，S为出现在母文本A和目标文本B中的所有符号的集合，包括但不限于文字、字母、标点、数理记号、分段符、换行符，其特征在于，包括如下步骤：

S1、定义能值函数F(c_pc_p+1...c_q)＝q-p+1,其中，c_i∈S，p≤i≤q，所述能值函数的函数值是与文本内容无关但与文本包含的噪声正相关的实数，预定义能值阈值为H；并定义能值序列N和M，所述能值序列中的元素为所述能值函数的函数值，所述能值序列N和M初始时为空；

S2、定义有限集合L＝{l|l＝(l₁l₂...l_t),l_i∈S,t≥1}，其中，l为在S中任意选取的分隔符和/或标点符号组成的长度大于等于1的序列；定义L的子集L’,即L'＝{l'|l'＝(l'₁l'₂...l'_t),l'_i∈S,t≥1}，令l'∈L'；

S4，以l'对目标文本B作分割，即B＝(b₁b₂...l'b_u...b_vl'...b_y)，从左至右对每一个片段(b_u...b_v)使用所述能值函数求值：m＝F(b_u...b_v)＝v-u+1；如果m≤H，忽略m；如果m＞H，则将m加入能值序列M的末尾；如此处理目标文本B后得到能值序列M＝(m₁m₂...m_w),w＜＝y；

2.如权利要求1所述的内容无关的文本快速过滤方法，其特征在于，步骤S5中，求取r_i的步骤如下：

S53、取左序子序列和右序子序列中共有项的最大长度为r_i。