CN105893503B - 一种内容无关的文本快速过滤方法 - Google Patents
一种内容无关的文本快速过滤方法 Download PDFInfo
- Publication number
- CN105893503B CN105893503B CN201610192303.7A CN201610192303A CN105893503B CN 105893503 B CN105893503 B CN 105893503B CN 201610192303 A CN201610192303 A CN 201610192303A CN 105893503 B CN105893503 B CN 105893503B
- Authority
- CN
- China
- Prior art keywords
- text
- value
- sequence
- content
- target text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机信息检索领域,具体涉及一种应用于图书馆信息检索、抄袭检测、著作权侵权检测等场合中的内容无关的文本快速过滤方法。使用分隔符将母文本A和目标文本B各自分割成系列片段,对每一文本片段使用能值函数求值,所述能值函数与文本内容无关且与文本包含的噪声正相关;在求得的母文本A和目标文本B的能值中,将小于预定义能值阈值H的量滤去,得到能值序列N与M;对M作自相似分析;在允许误差约束下将M与N作匹配比较,如果穷尽N,目标文本B与母文本A的任意一部分内容的匹配度均低于阈值,则目标文本B被排除。使用本发明的文本快速过滤方法,避免了对文本内容的分析,计算量小,过滤速度快,且可以屏蔽部分噪声影响。
Description
技术领域
本发明涉及计算机信息检索领域,具体涉及一种应用于图书馆信息检索、抄袭检测、著作权侵权检测等需要进行文本过滤的场合中的内容无关的文本快速过滤方法。
背景技术
文本是人类的自然语言的书写表示,是半结构或无结构的,缺乏计算机可理解的语义。文本处理技术广泛应用于信息检索、搜索引擎、抄袭检测、著作权保护等领域,其作用是从海量、异构、分布的文本中发现隐含知识和模式。文本处理技术以适当的数学模型表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂而超出计算机的处理能力。目前主要的方法是使用分词算法和词频统计技术从文本中抽取特征词,并对其向量化。当文本较大时,文本向量的维度会相应增大,给后续工作带来巨大的计算开销,并且损害分类、聚类处理的精确性。对这个问题正面的解决办法是对文本向量作净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征,即通过特征选择来降维。这要求特征项要能够确实标识文本内容,具有将目标文本与其他文本相区分的能力,且分离也比较容易实现。
在中文文本中可以采用字、词或短语作为表示文本的特征项。字、词、短语虽都是文本内容,相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类***都采用词作为特征项,称作特征词。这些特征词作为文本的中间表示形式,用来实现文本与文本、文本与用户目标之间的相似度计算。
在浩如烟海的网络信息中,80%的信息以文本的形式存放,这些来自网络的文本可能带有噪声,且对某些应用来说80%以上是无关的。如能不触及文本内容,快速过滤掉无关的含噪声的文本,将大大节约计算机***的计算能力。
发明内容
本发明解决的技术问题在于提供一种内容无关的文本快速过滤方法,快速排除与母文本A中的任意一部分内容匹配度低于匹配阈值的含有噪音的目标文本B。
为了实现上述目的,本发明采用了如下技术方案:
一种内容无关的文本快速过滤方法,用于对含有噪音的目标文本B,当其与母文本A中的任意一部分内容匹配度低于匹配阈值时,将其快速排除,其中A=(a1a2...ai...ax),B=(b1b2...bi...by),ai∈S,bi∈S且x>y,S为出现在母文本A和目标文本B中的所有符号的集合,包括但不限于文字、字母、标点、数理记号、分段符、换行符;包括如下步骤:
S1、定义能值函数F(cpcp+1...cq)=q-p+1,其中,ci∈S,p≤i≤q,所述能值函数的函数值是与文本内容无关但与文本包含的噪声正相关的实数,预定义能值阈值为H,并定义能值序列N和M,所述能值序列中的元素为所述能值函数的函数值,所述能值序列N和M初始时为空;
S2、定义有限集合L={l|l=(l1l2...lt),li∈S,t≥1},其中,l为在S中任意选取的分隔符和/或标点符号组成的长度大于等于1的序列;定义L的子集L’,即,L'={l'|l'=(l'1l'2...l't),l'i∈S,t≥1},令l'∈L';
S3、以l对母文本A作分割,即A=(a1a2...las...atl...ax),从左至右对每一个片段(as...at)使用所述能值函数求值:n=F(as...at)=t-s+1;如果n≤H,忽略n;如果n>H,则将n加入能值序列N的末尾;如此处理母文本A后得到能值序列N=(n1n2...nz),z<=x;
S4、以l'对目标文本B作分割,即B=(b1b2...l'bu...bvl'...by),从左至右对每一个片段(bu...bv)使用所述能值函数求值:m=F(bu...bv)=v-u+1;如果m≤H,忽略m;如果m>H,则将m加入能值序列M的末尾;如此处理目标文本B后得到能值序列M=(m1m2...mw),w<=y;
S5、对所述能值序列M作自相似性分析,得到M的自相似性序列为RM=(r1r2...ri...rw),其中ri为整数且ri∈[0..w];
S6、预定义能值误差上限e和累积误差上限E;取i的初值为1,g的初值为0,将能值序列M=(m1m2...mw)与N=(nini+1...ni+w-1)从左到右按序作比较,即,当变量j从1增加至w时,对每个j:
a.如果|mj-ni+j-1|>e,且i=z-w+1,则认为目标文本B与母文本A中的任意一部分内容匹配度低于匹配阈值,排除目标文本B;
b.如果|mj-ni+j-1|>e,且i≠z-w+1,则令i=i+j-1-rj,并令g=0,变量j加1后继续进行比较;
c.如果|mj-ni+j-1|≤e,则令g=g+|mj-ni+j-1|;若g>E且i=z-w+1,则认为目标文本B与母文本A中的任意一部分内容匹配度低于阈值,排除目标文本B;若g>E,且i≠z-w+1,则令i=i+j-1-rj,并令g=0,变量j加1后继续进行比较;
若变量j增加至w后,目标文本B仍未排除,则保留目标文本B;B是否与A匹配取决于后续的内容相似度比较。
进一步的,步骤S4中,求取ri的步骤如下:
S51、从m1开始从左往右列出mi所有左序子序列:(m1),(m1m2),(m1m2m3)……(m1m2...mi-1)
S52、从mi开始从右往左列出mi所有右序子序列:(mi),(mi-1mi),(mi-2mi-1mi)……(m2m3...mi)
S53、取左序子序列和右序子序列中共有项的最大长度为ri。
本发明的内容无关的文本快速过滤方法,使用分隔符将母文本A和目标文本B各自分割成系列片段,对每一文本片段使用能值函数求值,所述能值函数与文本内容无关且与文本包含的噪声正相关。在求得的母文本A和目标文本B的能值中,将小于预定义能值阈值H的量滤去,得到能值序列N与M。再对M作自相似分析以加快比较速度;之后,在允许误差约束下将M与N作匹配比较,如果穷尽N,目标文本B与母文本A的任意一部分内容的匹配度均低于阈值,则目标文本B被排除。
使用本发明的文本快速过滤方法,在进行信息检索、搜索引擎、抄袭检测、著作权保护等领域的文本处理时,避免了对文本内容的分析,计算量小,过滤速度快,且可以屏蔽部分噪声影响。实际应用中,大部分网页内容可以被过滤掉,从而减少了加入内容库的内容,并降低了后续内容匹配计算的计算量,减轻了***负担。本发明也可应用于图书信息检索、抄袭检测等需要处理大规模文本的场合。
附图说明
图1为一种网络著作权侵权检测***的架构图;
图2为本发明的实施例的流程示意图。
具体实施方式
为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
本发明可在文学作品著作权网络侵权的检测中得到典型应用。
著作权,英美法系术语称为版权,是最普遍知识产权形式,凡是人的智力活动产生、具有独创性并且可复制的作品皆拥有著作权。著作权载体以文艺作品最为常见,如小说、诗歌、剧本、音乐、戏剧、曲艺、舞蹈、杂技、美术、摄影、电影等;科学和工程作品也有著作权,如工程设计图、产品设计图、地图、示意图、计算机软件等。
随着博客、微博、社交媒体、朋友圈、文库等各种形式的网络媒体蓬勃发展,一方面促进了文化传播,另一方面也使著作权侵权行为日益泛滥,严重侵害了作者的合法权益,扰乱了经济秩序。因此,需要通过计算机技术手段,构造著作权保护的平台。
图1给出了一种网络著作权侵权检测***的架构图。如图所示,该***运行于集群并行的硬件平台上,分为以下几个部分:
1)Web内容获取:根据一定策略将网上数据抓取到内容库;
2)特征生成:对原作进行特征提取,存入特征索引库;
3)侵权检测:执行侵权检测;
4)电子取证:如确认存在侵权,由取证服务器对侵权现场进行取证,产生可信的司法证据。
由于爬虫抓取网络内容具有盲目性,99%以上的内容是不侵犯任何著作权的。用于侵权检测的文本内容特征提取、基于特征的相似性比较都是耗时的计算,如不能将这99%的内容快速滤去大部分,将影响***的性能乃至可行性。在互联网内容进入内容库之前,可使用本发明的文本快速过滤方法对其进行过滤。步骤如下:
一、定义要素
符号集S为文字、字母、标点、数理记号、分段符、换行符等所有出现在文本中的符号的集合。定义能值函数F(cpcp+1...cq)=p-q+1,其中,ci∈S,p≤i≤q。该能值函数的函数值即能值是文本(cpcp+1...cq)的长度,它与文本内容无关,而文本越长可能包含的噪声越大。定义能值阀值H=15;
定义能值序列N和M,所述能值序列中的元素为所述能值函数的函数值,N和M初始时为空。
二、处理原作库
原作库包含一批需保护的文学作品原作,数据量大,是十亿、百亿级的文字量。打通作品界限将其连成一个长串,记为母文本A=(a1a2...ai...ax),ai∈S。原作库中的原作为标准txt文本,定义有限集合L={l|l=(l1l2...lt),li∈S,t≥1}为S中的分隔符集,其中,l为在S中任意选取的分隔符和/或标点符号组成的长度大于等于1的序列。
本实施例中,l选取为ASCII码的回车换行。以l对母文本A作分割,即A=(a1a2...las...atl...ax),从左至右对每一个片段(as...at)使用所述能值函数求值:n=F(as...at)=t-s+1;如果n≤H,忽略n;如果n>H,则将n加入能值序列N的末尾;如此处理母文本A后得到能值序列N=(n1n2...nz),z<=x。
以上过程只需计算一次。当新的文本加入原作库时,对其做同样的分割和能值计算,结果附于能值序列N末尾即可。
三、处理网络内容
网络内容通常为片段,数据量较小,万把字、甚至几千字的量级为多见。且网络内容可能含有噪声,如乱码、错误码、短广告、网站标志性***文字等,应尽量消除其影响。
设爬虫程序抓取到一个的网络内容为目标文本B=(b1b2...bi...by),bi∈S且y<x,定义有限集合L'={l'|l'=(l'1l'2...l't),l'i∈S,t≥1}为L的子集,即,令l'∈L'。
本实施例中,l’选取为HTML分割标记为分隔符,包括<br>,<p>等;以l’对B作分割,即B=(b1b2...l'bu...bvl'...by),从左至右对每一个片段(bu...bv)使用所述能值函数求值:m=F(bu...bv)=v-u+1;如果m≤H,忽略m;如果m>H,则将m加入能值序列M的末尾;如此处理目标文本B后得到能值序列M=(m1m2...mw),w<=y。
继而对M作自相似性分析。M的自相似性序列为RM=(r1r2...ri...rw),其中ri为整数且ri∈[0..w]。求取ri的步骤如下:
S41、从m1开始从左往右列出mi所有左序子序列:(m1),(m1m2),(m1m2m3)……(m1m2...mi-1)
S42、从mi开始从右往左列出mi所有右序子序列:(mi),(mi-1mi),(mi-2mi-1mi)……(m2m3...mi)
S43、取左序子序列和右序子序列中共有项的最大长度为ri。
四、过滤
预定义能值误差上限e=4,累积误差上限E=109。实际E可根据统计经验得出,这里E取极大数表示不作累积误差检查。
取i的初值为1,g的初值为0;
将能值序列M=(m1m2...mw)与N=(nini+1...ni+w-1)从左到右按序作比较,即,当变量j从1增加至w时,对每个j:
如果|mj-ni+j-1|>e,且i=z-w+1,则认为目标文本B与母文本A中的任意一部分内容匹配度低于匹配阈值,排除目标文本B;
如果|mj-ni+j-1|>e,且i≠z-w+1,则令i=i+j-1-rj,并令g=0,变量j加1后继续进行比较;
如果|mj-ni+j-1|≤e,则令g=g+|mj-ni+j-1|;若g>E且i=z-w+1,则认为目标文本B与母文本A中的任意一部分内容匹配度低于阈值,排除目标文本B;若g>E,且i≠z-w+1,则令i=i+j-1-rj,并令g=0,变量j加1后继续进行比较;
如果从m1到mw的比较都未超过误差,则证明B未被排除,B需要被加入内容库;B是否真被A包含需要后续的内容相似度比较来确定。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (2)
1.一种内容无关的文本快速过滤方法,用于对含有噪音的目标文本B,当其与母文本A中的任意一部分内容匹配度低于匹配阈值时,将其快速排除,其中A=(a1a2...ai...ax),B=(b1b2...bi...by),ai∈S,bi∈S且x>y,S为出现在母文本A和目标文本B中的所有符号的集合,包括但不限于文字、字母、标点、数理记号、分段符、换行符,其特征在于,包括如下步骤:
S1、定义能值函数F(cpcp+1...cq)=q-p+1,其中,ci∈S,p≤i≤q,所述能值函数的函数值是与文本内容无关但与文本包含的噪声正相关的实数,预定义能值阈值为H;并定义能值序列N和M,所述能值序列中的元素为所述能值函数的函数值,所述能值序列N和M初始时为空;
S2、定义有限集合L={l|l=(l1l2...lt),li∈S,t≥1},其中,l为在S中任意选取的分隔符和/或标点符号组成的长度大于等于1的序列;定义L的子集L’,即L'={l'|l'=(l'1l'2...l't),l'i∈S,t≥1},令l'∈L';
S3、以l对母文本A作分割,即A=(a1a2...las...atl...ax),从左至右对每一个片段(as...at)使用所述能值函数求值:n=F(as...at)=t-s+1;如果n≤H,忽略n;如果n>H,则将n加入能值序列N的末尾;如此处理母文本A后得到能值序列N=(n1n2...nz),z<=x;
S4,以l'对目标文本B作分割,即B=(b1b2...l'bu...bvl'...by),从左至右对每一个片段(bu...bv)使用所述能值函数求值:m=F(bu...bv)=v-u+1;如果m≤H,忽略m;如果m>H,则将m加入能值序列M的末尾;如此处理目标文本B后得到能值序列M=(m1m2...mw),w<=y;
S5、对所述能值序列M作自相似性分析,得到M的自相似性序列为RM=(r1r2...ri...rw),其中ri为整数且ri∈[0..w];
S6、预定义能值误差上限e和累积误差上限E;取i的初值为1,g的初值为0,将能值序列M=(m1m2...mw)与N=(nini+1...ni+w-1)从左到右按序作比较,即,当变量j从1增加至w时,对每个j:
a.如果|mj-ni+j-1|>e,且i=z-w+1,则认为目标文本B与母文本A中的任意一部分内容匹配度低于匹配阈值,排除目标文本B;
b.如果|mj-ni+j-1|>e,且i≠z-w+1,则令i=i+j-1-rj,并令g=0,变量j加1后继续进行比较;
c.如果|mj-ni+j-1|≤e,则令g=g+|mj-ni+j-1|;若g>E且i=z-w+1,则认为目标文本B与母文本A中的任意一部分内容匹配度低于阈值,排除目标文本B;若g>E,且i≠z-w+1,则令i=i+j-1-rj,并令g=0,变量j加1后继续进行比较;
若变量j增加至w后,目标文本B仍未排除,则保留目标文本B;B是否与A匹配取决于后续的内容相似度比较。
2.如权利要求1所述的内容无关的文本快速过滤方法,其特征在于,步骤S5中,求取ri的步骤如下:
S51、从m1开始从左往右列出mi所有左序子序列:(m1),(m1m2),(m1m2m3)……(m1m2...mi-1)
S52、从mi开始从右往左列出mi所有右序子序列:(mi),(mi-1mi),(mi-2mi-1mi)……(m2m3...mi)
S53、取左序子序列和右序子序列中共有项的最大长度为ri。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610192303.7A CN105893503B (zh) | 2016-03-30 | 2016-03-30 | 一种内容无关的文本快速过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610192303.7A CN105893503B (zh) | 2016-03-30 | 2016-03-30 | 一种内容无关的文本快速过滤方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105893503A CN105893503A (zh) | 2016-08-24 |
CN105893503B true CN105893503B (zh) | 2019-05-14 |
Family
ID=57014620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610192303.7A Expired - Fee Related CN105893503B (zh) | 2016-03-30 | 2016-03-30 | 一种内容无关的文本快速过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105893503B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909628A (zh) * | 2017-01-24 | 2017-06-30 | 南京大学 | 一种基于区间的文本相似搜索方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315622A (zh) * | 2007-05-30 | 2008-12-03 | 香港中文大学 | 检测文件相似度的***及方法 |
CN101859309A (zh) * | 2009-04-07 | 2010-10-13 | 慧科讯业有限公司 | 重复文本识别***及方法 |
CN102053993A (zh) * | 2009-11-10 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 一种文本过滤方法及文本过滤*** |
CN102214232A (zh) * | 2011-06-28 | 2011-10-12 | 东软集团股份有限公司 | 一种文本数据相似度的计算方法及装置 |
CN104679728A (zh) * | 2015-02-06 | 2015-06-03 | 中国农业大学 | 一种文本相似度检测方法 |
-
2016
- 2016-03-30 CN CN201610192303.7A patent/CN105893503B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315622A (zh) * | 2007-05-30 | 2008-12-03 | 香港中文大学 | 检测文件相似度的***及方法 |
CN101859309A (zh) * | 2009-04-07 | 2010-10-13 | 慧科讯业有限公司 | 重复文本识别***及方法 |
CN102053993A (zh) * | 2009-11-10 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 一种文本过滤方法及文本过滤*** |
CN102214232A (zh) * | 2011-06-28 | 2011-10-12 | 东软集团股份有限公司 | 一种文本数据相似度的计算方法及装置 |
CN104679728A (zh) * | 2015-02-06 | 2015-06-03 | 中国农业大学 | 一种文本相似度检测方法 |
Non-Patent Citations (3)
Title |
---|
A Prefix-Filter based Method for Spatio-Textual Similarity Join;S Liu 等;《IEEE Transactions on Knowledge & Data Engine》;20141231;第26卷(第10期);第2354-2367页 |
文本结构分析与基于示例的文本过滤;林鸿飞等;《小型微型计算机***》;20000430;第21卷(第04期);第422-425页 |
文本过滤研究概述;刘淑梅;《信息技术》;20091231(第9期);第187-189页 |
Also Published As
Publication number | Publication date |
---|---|
CN105893503A (zh) | 2016-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106599181B (zh) | 一种基于主题模型的新闻热点检测方法 | |
WO2021227831A1 (zh) | 威胁情报的主题检测方法、装置和计算机存储介质 | |
Huang et al. | JSContana: Malicious JavaScript detection using adaptable context analysis and key feature extraction | |
Yang et al. | Ordering-sensitive and semantic-aware topic modeling | |
CN104239490B (zh) | 一种用于ugc网站平台的多账户检测方法及装置 | |
CN106649749B (zh) | 一种基于汉语音位特征的文本查重方法 | |
KR20140053717A (ko) | 감상 기반 질의 처리 시스템 및 방법 | |
Kumar et al. | Sarc-M: Sarcasm detection in typo-graphic memes | |
Gupta et al. | Plagiarism detection in text documents using sentence bounded stop word n-grams | |
Yu et al. | Detecting SQL injection attacks based on text analysis | |
CN105893503B (zh) | 一种内容无关的文本快速过滤方法 | |
CN113887191A (zh) | 文章的相似性检测方法及装置 | |
Brüggermann et al. | Storyline detection and tracking using dynamic latent dirichlet allocation | |
US8108391B1 (en) | Identifying non-compositional compounds | |
Ali et al. | Detection of plagiarism in Urdu text documents | |
Van Canneyt et al. | Detecting newsworthy topics in twitter | |
Umakanth et al. | Classification and ranking of trending topics in twitter using tweets text | |
Ma et al. | A profile-based authorship attribution approach to forensic identification in Chinese online messages | |
Munot et al. | Conceptual framework for abstractive text summarization | |
Manishina et al. | Tag thunder: Towards non-visual web page skimming | |
CN113657116B (zh) | 基于视觉语义关系的社交媒体流行度预测方法及装置 | |
Yang et al. | Exploring word similarity to improve chinese personal name disambiguation | |
CN111563276B (zh) | 一种网页篡改检测方法、检测***及相关设备 | |
Liu et al. | An improved topic detection method for chinese microblog based on incremental clustering. | |
KR101987605B1 (ko) | 음악 감성 인식 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190514 |