CN105224518B - 文本相似度的计算方法及***、相似文本的查找方法及*** - Google Patents

文本相似度的计算方法及***、相似文本的查找方法及*** Download PDF

Info

Publication number
CN105224518B
CN105224518B CN201410270637.2A CN201410270637A CN105224518B CN 105224518 B CN105224518 B CN 105224518B CN 201410270637 A CN201410270637 A CN 201410270637A CN 105224518 B CN105224518 B CN 105224518B
Authority
CN
China
Prior art keywords
text
frequency
vocabulary
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410270637.2A
Other languages
English (en)
Other versions
CN105224518A (zh
Inventor
刘健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410270637.2A priority Critical patent/CN105224518B/zh
Publication of CN105224518A publication Critical patent/CN105224518A/zh
Application granted granted Critical
Publication of CN105224518B publication Critical patent/CN105224518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及计算机技术领域,公开了一种文本相似度的计算方法及***、相似文本的查找方法及***。其中,该文本相似度的计算方法包括:获取需要进行文本相似度计算的第一文本和第二文本;分别将第一文本、第二文本进行词汇分割,获得第一词汇集合和第二词汇集合;分别将所述第一词汇集合和所述第二词汇集合中的停用词删除,获得第三词汇集合和第四词汇集合;分别将所述第三词汇集合和所述第四词汇集合中的高频词汇提取出来组成第五词汇集合和第六词汇集合;根据所述第五词汇集合和第六词汇集合计算所述第一文本和所述第二文本。实施本发明实施例,可以提高文本相似度计算的准确度,提高相似文本查找的效率。

Description

文本相似度的计算方法及***、相似文本的查找方法及***
技术领域
本发明涉及计算机技术领域,具体涉及一种文本相似度的计算方法及***、相似文本的查找方法及***。
背景技术
文本相似度计算和相似文本的查找在论文反抄袭、网站反假冒等领域有着广泛的应用,例如:
1、仿冒网站识别,以仿冒工商银行网站为例,如果发现某网站内容与工商银行官网(http://www.icbc.com.cn)内容接近,可以认为此网站为仿冒网站。
2、论文抄袭识别,通过将论文与论文库中的其它论文进行比较,判定是否存在抄袭行为。
3、商品推荐***,比如用户在网站购买一本介绍计算机操作***的书籍时,可以自动推荐与该书内容相似的其他书籍。
4、相似去重,搜索引擎中自动对相似网页进行去重,以提供给用户更多有用的信息。
现有技术中常见的文本相似度计算方法包括以下几种:
方案1、最长公共字串算法,假设两个字符串长度分别为n和m,最长公共字串长度为c,则相似度为c/MIN(n,m),即c除以n和m中较小的值。比如“我叫张三”与“我叫李四”两段文本,其最长公共字串为“我叫”,相似度为2/MIN(4,4)=2/4=0.5。
方案2、最少编辑距离算法,指将一个字符串转化为另一个字符串所需的最小编辑(增删改操作)次数。比如上例中的需要将“张”改为“李”,“三”改为“四”,共2次编辑。假设两个字符串长度分别为n和m,最少编辑距离为d,则相似度为1-d/MIN(n,m)。
在计算得到文本相似度之后,可以再将相似度与阈值(例如以0.8为阈值)相比,超过阈值则为认为文本相似。
现有技术中的各种文本相似度计算方法都存在一些问题:
方案1和方案2都很容易绕过,通过简单的词汇、语句或段落换位就会导致相似度大大较低,其准确度较低。比如下面两段实质内容相同的文本内容:“他现在的名字是张三”与“现在张三是他的名字”,采用方案1:最长公共字串是“的名字”,相似度只有3/9=0.33;采用方案2:最小编辑距离为9,相似度为1-9/9=0;采用现有技术的方法来计算其文本相似度很低,可能被认为不相似。
综上,现有技术中的文本相似度计算方法,存在准确度不高的问题,也不利于从文本库中查找到待测文本的相似文本。
发明内容
本发明实施例所要解决的技术问题是提供一种文本相似度的计算方法及***、相似文本的查找方法及***,用于提高文本相似度计算的准确度,利于从文本库中查找待测文本的相似文本。
本发明实施例提供一种文本相似度的计算方法,包括:
获取需要进行文本相似度计算的第一文本和第二文本;
将所述第一文本进行词汇分割获得第一词汇集合,将所述第二文本进行词汇分割获得第二词汇集合;
将所述第一词汇集合中的停用词删除获得第三词汇集合,将所述第二词汇集合中的停用词删除获得第四词汇集合;
从所述第三词汇集合中提取高频词汇组成第五词汇集合,从所述第四词汇集合中提出高频词汇组成第六词汇集合;所述高频词汇为词频逆向文档频率TFIDF值高于第一阈值的词汇;
根据所述第五词汇集合以及第六词汇集合计算所述第一文本和所述第二文本的文本相似度。
相应的,本发明实施例还提供一种相似文本的查找方法,包括:
获取高频词汇与文本编号的数据结构,所述数据结构包括文本库中各个高频词汇与包括所述各个高频词汇的相应文本的编号的信息;
对第三文本进行词汇分割,获得第七词汇集合;
将所述第七词汇集合中的停用词删除,获得第八词汇集合;
将所述第八词汇集合中的高频词汇提取出来组成第九词汇集合;所述高频词汇为词频逆向文档频率TFIDF值高于第二阈值的词汇;
利用所述数据结构和所述第九词汇集合查找所述第三文本的相似文本。
相应的,本发明实施例还提供一种文本相似度的计算***,包括:
第一获取单元,用于获取需要进行文本相似度计算的第一文本和第二文本;
第一分割单元,用于将所述第一文本进行词汇分割获得第一词汇集合,将所述第二文本进行词汇分割获得第二词汇集合;
第一删除单元,用于将所述第一词汇集合中的停用词删除获得第三词汇集合,将所述第二词汇集合中的停用词删除获得第四词汇集合;
第一提取单元,用于将所述第三词汇集合中的高频词汇提取出来组成第五词汇集合,将所述第四词汇集合中的高频词汇提取出来组成第六词汇集合;所述高频词汇为词频逆向文档频率TFIDF值高于第一阈值的词汇;
计算单元,用于根据所述第五词汇集合以及第六词汇集合计算所述第一文本和所述第二文本的文本相似度。
相应的,本发明实施例还提供一种相似文本的查找***,包括:
第二获取单元,用于高频词汇与文本编号的数据结构,所述数据结构包括文本库中各个高频词汇与包括所述各个高频词汇的相应文本的编号的信息;
第二分割单元,用于对第三文本进行词汇分割,获得第七词汇集合;
第二删除单元,用于将所述第七词汇集合中的停用词删除,获得第八词汇集合;
第二提取单元,用于将所述第八词汇集合中的高频词汇提取出来组成第九词汇集合;所述高频词汇为词频逆向文档频率TFIDF值高于第二阈值的词汇;
查找单元,用于利用所述数据结构和所述第九词汇集合查找所述第三文本的相似文本。
上述的文本相似度的计算方法及***、相似文本的查找方法及***,通过对文本进行词汇分割、停用词删除、高频词汇提取,利用文本的高频词汇进行相似度计算或相似文本的查找,可以提高文本相似度计算的准确率,提高相似文本查找的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的文本相似度的计算方法的流程示意图;
图2是本发明实施例二提供的相似文本的查找方法的流程第一示意图;
图3是本发明实施例二提供的相似文本的查找方法的流程第二示意图;
图4是本发明实施例二提供的相似文本的查找方法的流程第三示意图;
图5是本发明实施例二提供的相似文本的查找方法的流程第四示意图;
图6是本发明实施例三提供的文本相似度的计算***的结构示意图;
图7是本发明实施例四提供的相似文本的查找***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺 序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一:
本发明实施例提供一种文本相似度的计算方法,如图1所示,该方法可以包括:
101、获取需要进行文本相似度计算的第一文本和第二文本;
本实施例中,第一文本、第二文本可以指代任意两个需要进行文本相似度计算的文本;
需要说明的,本实施例中的文本可以包括文档(例如文章、论文、书籍等)、网页等类型的文本,在此不对文本的类型进行具体的限制;
102、将上述第一文本进行词汇分割获得第一词汇集合,将上述第二文本进行词汇分割获得第二词汇集合;
举例来说,本实施例中可以采用现有技术中的各种分词***来对文本进行词汇分割,例如对于英文,由于各个单词之间有空格,可以根据空格来进行词汇分割,对于中文,可以利用中国科学院计算技术研究所的ICTCLAS(汉语词法分析***,Institute ofComputing Technology,Chinese Lexical Analysis System),)***,或者腾讯公司的SOSO(搜搜)搜索引擎的分词***来实现文本的词汇分割,在此不对采用哪种分词方式或***进行具体的限制;
103、将上述第一词汇集合中的停用词删除获得第三词汇集合,将上述第二词汇集合中的停用词删除获得第四词汇集合;
在上述103之前,该方法还可包括:获取停用词表;
停用词表用来限定哪些词汇属于需要删除的停用词,举例来说,停用词表中可“包括“你、我、他、的、在、是”等常见的无实际含义的词汇,本实施例中,停用词表具体包括哪些停用词,可以由用户根据需要进行合理的设置,在此不作具体的限制;
104、将上述第三词汇集合高频词汇提取出来组成第五词汇集合,将上述 第四词汇集合中的高频词汇提取出来组成第六词汇集合;上述高频词汇为文本库中TFIDF(termfrequency inverse document frequency,词频逆向文档频率值)高于第一阈值的词汇;
TFIDF值可以用来表示一个词汇的重要程度,如果某个词汇在一个文本中出现的频率TF高,并且在其他文章中很少出现,则其TFIDF值较大,认为此词或者短语具有很好的类别区分能力,适合用来分类;
TIFIDF值的相关计算方法属于现有技术,在此不再赘述;
其中,第一阈值的具体取值可以由用户进行合适的设置,在此不对其具体取值做具体的限制;
105、根据上述第五词汇集合以及第六词汇集合计算上述第一文本和上述第二文本的文本相似度。
本发明实施例提供的上述文本相似度的计算方法,通过从文本中将高频词汇提取出来,利用文本包括的高频词汇来计算文本相似度,排除了文本中各个词汇、段落的顺序等因素对文本相似度造成的影响,提高了文本相似度计算的准确性。
举例来说,上述105可以包括:
根据上述第五词汇集合以及第六词汇集合计算上述第一文本和上述第二文本的文本相似度S=C/min(A,B);
其中,A为上述第五词汇集合中的词汇个数,B为上述第六词汇集合中的词汇个数,C为上述第五词汇集合与上述第六词汇集合中相同词汇的个数。
当然本领域技术人员还可以对上述文本相似度的计算公式进行其它的变形或者修改,在此不对公式的具体形式进行限制。
下面以一个具体的实例来说明本实施例提供的文本相似度的计算方法:
例如文本1包括的内容为“张三的专业是计算机”,文本2包括的内容为“李四的专业是文学和电影”;
第一步,对文本1、2进行词汇分割,得到文本1的词汇集合为“张三、的、专业、是、计算机”,文本2的词汇集合为“李四、的、专业、是、文学、和、电影”;
第二步,去停用词,假设停用词表中包括“的”“是”“和”,则去停用词之后,文本1的词汇集合为“张三、专业、计算机”,文本2的词汇集合为“李四、专业、文学、电影”;
第三步,提取高频词汇,假设“张三”、“专业”“计算机”、“李四”、“文学”、“电影”均为高频词汇,则文本1的高频词汇集合为“张三、专业、计算机”,文本2的高频词汇集合为“李四、专业、文学、电影”;
第四步,计算文本相似度,文本1包括3个高频词汇,文本2包括4个高频词汇,文本1和文本2包括的相同高频词汇为1个,则文本1和文本2的文本相似度S12=1/min(3,4)=1/3=0.33。
一般来说,文本相似度的检测常常需要跟大量的样本进行比较来查找大量样本中与待测样本相似的样本,比如仿冒网站检测***中,已经事先收集了大量的正规网站内容(比如工商银行、腾讯网、淘宝网等),需要判断新出现的某个网站内容是否与收录网站相似;论文抄袭检测***中,已经事先收集了大量学术论文,需要判断新出现的论文与已收录论文是否相似。
假设当前已收录文本数为N,采用现有方案,需要将待检测文本与库中的N个文本逐个比较。当N较小(比如几十或几百)时,整体的计算开销还比较小;在实际大规模运用中,如果N非常大时(比如全世界已发表科技论文的数量在千万级别以上,中国国内的网站数目在百万级别),则计算开销非常可观,以平均计算一次文本相似度耗时0.1ms,N为100万计算,则每次比较需要耗时100s,相当于单机每秒只能处理0.01个文本,其效率显然过于低下。
下面的实施例二可以解决样本数量巨大时的文本相似度计算,从文本库中查找出与待测文本相似的文本,提高计算速度,请参考以下描述。
实施例二:
本发明实施例提供一种相似文本的查找方法,如图2所示,该方法可以包括:
201、获取高频词汇与文本编号的数据结构,上述数据结构包括文本库中各个高频词汇与包括上述各个高频词汇的相应文本的编号的信息;
202、对第三文本进行词汇分割,获得第七词汇集合;
具体的词汇分割方法可以与前述实施例的描述相同,在此不再赘述;
203、将上述第七词汇集合中的停用词删除,获得第八词汇集合;
具体的停用词删除方法,可以与前述实施例的描述相同,在此不再赘述;
204、将上述第八词汇集合中的高频词汇提取出来组成第九词汇集合;
其中,高频词汇为在文本库中TFIDF值高于第二阈值的词汇;
其中,第二阈值的具体取值可以由用户进行合适的设置,在此不对其具体取值做具体的限制;
在一个实施例中,第二阈值可以与上述第一阈值相等;
205、利用上述数据结构和上述第九词汇集合查找上述第三文本的相似文本。
本实施例提供的相似文本的查找方法,对第三文本进行分割、停用词删除和高频词提取之后,可利用高频词汇与文档编号的数据结构来查找第三文本的相似文本,不需要再将文本库中的各个文本逐一的与第三文本进行比较,可以提高查找速度,文本库中文本数量越大,提高效果越明显。
优选地,如图3所示,在上述201之前,还可以包括:
200、依次对文本库中各个文本进行词汇分割、停用词删除、高频词汇提取的处理,生成高频词汇与文本编号的数据结构。
举例来说,如图4所示,200可以包括:
200A、初始设置n=1;
200B、对文本库中的第n个文本进行词汇分割;
200C、删除对第n个文本词汇分割后得到的词汇中的停用词;
200D、从删除停用词之后得到的第n个文本的词汇集合中提取高频词汇,得到第n个文本的高频词汇集合;
200E、判断n是否大于或等于文本库中包括的文本总数N,如果是,则执行200G,否则执行200F;
200F、n=n+1,返回200B,以对下一个文本进行处理;
200G、综合各个文本的高频词汇集合,生成高频词汇与文本编号的数据 结构。
举例来说,如图5所示,上述205可以包括:
205A、利用上述数据结构查找与上述第三文本包括至少一个相同高频词汇的文本;
205B、计算与上述第三文本包括至少一个相同高频词汇的各个文本与上述第三文本的文本相似度S=F/min(D,E);上述D表示第九词汇集合中的高频词汇的个数,上述E表示第四文本包括的高频词汇的个数,上述F表示上述第三文本与第四文本包括的相同高频词汇的个数;上述第四文本为与上述第三文本包括至少一个相同高频词汇的任意一个文本;
即此处可以采用与前述实施例相同的计算方法来计算文本之间的文本相似度;
205C、将与上述第三文本的文本相似度满足预置条件的文本确定为上述第三文本的相似文本。
本实施例中,将与上述第三文本的文本相似度满足预置条件的文本定义为第三文本的相似文本,其中预置条件可以包括:
1、相似度大于或等于第三阈值;此处第三阈值的具体取值也可以根据实际需要进行设置,例如设置为0.7、0.9等值;或者,
2、相似度最高的文本,或相似度最高的前M个文本;M为预先设定的整数。
当然,预置条件还可以有其它的形式,本领域技术人员可以根据实际需要进行合适的设置,在此不作具体的限制。
需要说明的是,上述高频词汇与文本编号的数据结构可以有多种形式,例如“倒排索引”、“签名文件”、“后缀树”等形式,本实施例中不对上述数据结构的具体形式进行限制。
下面以倒排索引来说明上述高频词汇与文本编号的数据结构:
假设文档1的高频词汇集合为{张三,专业,计算机},生成如下倒排索引:
高频词汇 文本编号
张三 1
专业 1
计算机 1
表中每一行代表某个高频词汇出现在哪些文本中。
假设文档2的高频词汇集合为{李四,专业,文学,电影},将其添加到上面的倒排索引中,得到:
高频词汇 文本编号
张三 1
专业 1,2
计算机 1
李四 2
文学 2
电影 2
然后将文本3、4、……N的高频词汇集合添加到上述倒排索引中,形成高频词汇与文本编号的倒排索引结构。
在对文本库中的所有文本进行处理形成高频词汇与文本编号的倒排索引结构之后,对于需要查找最相似文本的第三文本,在得到第三文本的第九高频词汇集合之后,对第九高频词汇集合中的每个高频词汇,查找包括该高频词汇的对应文本,可组成一相似文本集;然后计算该相似文本集中的各个文本与第三文本的相似度;将相似度满足预置条件文本确定为第三文本的相似文本。
例如,假设文档D的高频词汇集合为{a,b,c,d},通过倒排索引得到的对应文本为文本1、2、3、4、5、6、7、8,其中,高频词汇a出现在文本1、3、5中,高频词汇b出现在文本2、3中,高频词汇c出现在文本4、5、8中,高频词汇d出现在文本3、4、6、7中。
遍历所有高频词汇,发现3出现3次,文本4和文本5各出现2次,其他文本出现1次,假设文本1~8的高频词汇集合大小均为10,则:
各个文本对文本D的相似程度为:
SD-1(文本D与文本1的相似程度)=1/min(4,10)=0.25;
SD-2=1/min(4,10)=0.25;
SD-3=3/min(4,10)=0.75;
SD-4=2/min(4,10)=0.5;
SD-5=2/min(4,10)=0.5;
SD-6=1/min(4,10)=0.25;
SD-7=1/min(4,10)=0.25;
SD-8=1/min(4,10)=0.25;
假设预置条件为:相似度最高的文本,则可确定文本3是文本D的相似文本,相似度为0.75。
实施例三:
本发明实施例还提供一种文本相似度的计算***,如图6所示,该***可以包括:
第一获取单元601,用于获取需要进行文本相似度计算的第一文本和第二文本;
第一分割单元602,用于将第一文本进行词汇分割获得第一词汇集合,将第二文本进行词汇分割获得第二词汇集合;
第一删除单元603,用于将上述第一词汇集合中的停用词删除,获得第三词汇集合,将上述第二词汇集合中的停用词删除获得第四词汇集合;
第一提取单元604,用于将上述第三词汇集合中的高频词汇提取出来组成第五词汇集合,将上述第四词汇集合中的高频词汇提取出来组成第六词汇集合;上述高频词汇为词频逆向文档频率TFIDF值高于第一阈值的词汇;
计算单元605,用于根据所述第五词汇集合以及第六词汇集合计算所述第一文本和所述第二文本的文本相似度。
本实施例提供的上述文本相似度的计算***,通过从文本中将高频词汇提取出来,根据待测文本的包括的相同高频词汇的个数来计算文本相似度,排除了文本中各个词汇、段落的顺序等因素对文本相似度造成的影响,提高了文本相似度计算的准确性。
优选地,上述第一获取单元还可以用于获取停用词表,举例来说,停用词表中可“包括“你、我、他、的、在、是”等常见的无实际含义的词汇,本实施例中,停用词表具体包括哪些停用词,可以由用户根据需要进行合理的设置,在此不作具体的限制。
举例来说,计算单元605可以具体用于根据上述第五词汇集合以及第六词汇集合计算上述第一文本和上述第二文本的文本相似度S=C/min(A,B);
其中,A为上述第五词汇集合中的词汇个数,B为上述第六词汇集合中的词汇个数,C为上述第五词汇集合与上述第六词汇集合中相同词汇的个数。
当然本领域技术人员还可以对上述文本相似度的计算公式进行其它的变形或者修改,在此不对公式的具体形式进行限制。
实施例四:
本发明实施例还提供一种相似文本的查找***,如图7所示,该***可以包括:
第二获取单元701,用于获取高频词汇与文本编号的数据结构,上述数据结构包括文本库中各个高频词汇与包括上述各个高频词汇的相应文本的编号的信息;
第二分割单元702,用于对第三文本进行词汇分割,获得第七词汇集合;
第二删除单元703,用于将上述第七词汇集合中的停用词删除,获得第八词汇集合;
第二提取单元704,用于将上述第八词汇集合中的高频词汇提取出来组成第九词汇集合;上述高频词汇为文本库中TFIDF值高于第二阈值的词汇;
其中,第二阈值的具体取值可以由用户进行合适的设置,在此不对其具体取值做具体的限制;
在一个实施例中,第二阈值可以与上述第一阈值相等;
查找单元705,用于利用上述数据结构和上述第九词汇集合查找上述第三文本的相似文本。
本实施例提供的相似文本的查找***,对第三文本进行分割、停用词删除和高频词提取之后,可利用高频词汇与文档编号的数据结构来查找第三文 本的相似文本,不需要再将文本库中的各个文本逐一的与第三文本进行比较,可以提高查找速度,文本库中文本数量越大,提高效果越明显。
进一步地,本实施提供的相似文本的查找***还可以包括:
处理单元,用于依次对文本库中各个文本进行词汇分割、停用词删除、高频词汇提取的处理,生成高频词汇与文本编号的数据结构。
需要说明的是,上述高频词汇与文本编号的数据结构可以有多种形式,例如“倒排索引”、“签名文件”、“后缀树”等形式,本实施例中不对上述数据结构的具体形式进行限制。
具体来说,上述查找单元可以包括:
查找子单元,用于利用上述数据结构查找与上述第三文本包括至少一个相同高频词汇的文本;
计算子单元,用于计算与上述第三文本包括至少一个相同高频词汇的各个文本与上述第三文本的文本相似度S=F/min(D,E);上述D表示第九词汇集合中的高频词汇的个数,上述E表示第四文本包括的高频词汇的个数,上述F表示上述第三文本与上述第四文本包括的相同高频词汇的个数;上述第四文本为与上述第三文本包括至少一个相同高频词汇的任意一个文本;
确定子单元,用于将与上述第三文本的文本相似度满足预置条件的文本确定为上述第三文本的相似文本。
本实施例中,将与上述第三文本的文本相似度满足预置条件的文本定义为第三文本的相似文本,其中预置条件可以包括:
1、相似度大于或等于第三阈值;此处第三阈值的具体取值也可以根据实际需要进行设置,例如设置为0.7、0.9等值;或者,
2、相似度最高的文本,或相似度最高的前M个文本;M为预先设定的整数。
当然,预置条件还可以有其它的形式,本领域技术人员可以根据实际需要进行合适的设置,在此不作具体的限制。
需要说明的是,以上各实施例均属于同一发明构思,各实施例的描述各有侧重,在个别实施例中描述未详尽之处,可参考其他实施例中的描述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
以上对本发明实施例所提供的文本相似度的计算方法及***、相似文本的查找方法及***进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种相似文本的查找方法,其特征在于,用于解决样本数量巨大时的文本相似度计算,从文本库中查找出与待测文本相似的文本,提高计算速度;所述方法包括:
依次对所述文本库中各个文本进行词汇分割、停用词删除、高频词汇提取的处理,生成高频词汇与文本编号的数据结构;包括:
A、初始设置n=1;
B、对文本库中的第n个文本进行词汇分割;
C、删除对第n个文本词汇分割后得到的词汇中的停用词;
D、从删除停用词之后得到的第n个文本的词汇集合中提取高频词汇,得到第n个文本的高频词汇集合;
E、判断n是否大于或等于文本库中包括的文本总数N,如果是,则执行步骤G;否则执行步骤F;
F、n=n+1,返回步骤B,以对下一个文本进行处理;
G、综合各个文本的高频词汇集合,生成高频词汇与文本编号的数据结构;
获取高频词汇与文本编号的数据结构,所述数据结构包括文本库中各个高频词汇与包括所述各个高频词汇的相应文本的编号的信息;
对第三文本进行词汇分割,获得第七词汇集合;
将所述第七词汇集合中的停用词删除,获得第八词汇集合;
将所述第八词汇集合中的高频词汇提取出来组成第九词汇集合;所述高频词汇为词频逆向文档频率TFIDF值高于第二阈值的词汇;
利用所述数据结构和所述第九词汇集合查找所述第三文本的相似文本;包括:
利用所述数据结构查找与所述第三文本包括至少一个相同高频词汇的文本;
计算与所述第三文本包括至少一个相同高频词汇的各个文本与所述第三文本的文本相似度S=F/min(D,E);所述D表示第九词汇集合中的高频词汇的个数,所述E表示第四文本包括的高频词汇的个数,所述F表示所述第三文本与第四文本包括的相同高频词汇的个数;所述第四文本为与所述第三文本包括至少一个相同高频词汇的任意一个文本;
将与所述第三文本的文本相似度满足预置条件的文本确定为上述第三文本的相似文本;
其中,所述预置条件包括:相似度大于或等于第三阈值;或者,相似度最高的文本,或相似度最高的前M个文本;M为预先设定的整数。
2.根据权利要求1所述的方法,其特征在于,在所述对文本库中的第n个文本进行词汇分割后还包括:
获取停用词表;其中,所述停用词表用来限定属于需要删除的常见的无实际含义的停用词。
3.根据权利要求1或2所述的方法,其特征在于,所述高频词汇与文本编号的数据结构为“倒排索引”、“签名文件”或“后缀树”形式。
4.一种相似文本的查找***,其特征在于,包括:
处理单元,用于依次对文本库中各个文本进行词汇分割、停用词删除、高频词汇提取的处理,生成高频词汇与文本编号的数据结构;
所述处理单元还用于:A、初始设置n=1;
B、对文本库中的第n个文本进行词汇分割;
C、删除对第n个文本词汇分割后得到的词汇中的停用词;
D、从删除停用词之后得到的第n个文本的词汇集合中提取高频词汇,得到第n个文本的高频词汇集合;
E、判断n是否大于或等于文本库中包括的文本总数N,如果是,则执行步骤G;否则执行步骤F;
F、n=n+1,返回步骤B,以对下一个文本进行处理;
G、综合各个文本的高频词汇集合,生成高频词汇与文本编号的数据结构;
第二获取单元,用于高频词汇与文本编号的数据结构,所述数据结构包括文本库中各个高频词汇与包括所述各个高频词汇的相应文本的编号的信息;
第二分割单元,用于对第三文本进行词汇分割,获得第七词汇集合;
第二删除单元,用于将所述第七词汇集合中的停用词删除,获得第八词汇集合;
第二提取单元,用于将所述第八词汇集合中的高频词汇提取出来组成第九词汇集合;所述高频词汇为词频逆向文档频率TFIDF值高于第二阈值的词汇;
查找单元,用于利用所述数据结构和所述第九词汇集合查找所述第三文本的相似文本;
所述查找单元包括:
查找子单元,用于利用所述数据结构查找与所述第三文本包括至少一个相同高频词汇的文本;
计算子单元,用于计算与所述第三文本包括至少一个相同高频词汇的各个文本与所述第三文本的文本相似度S=F/min(D,E);所述D表示第九词汇集合中的高频词汇的个数,所述E表示第四文本包括的高频词汇的个数,所述F表示所述第三文本与所述第四文本包括的相同高频词汇的个数;所述第四文本为与所述第三文本包括至少一个相同高频词汇的任意一个文本;
确定子单元,用于将与所述第三文本的文本相似度满足预置条件的文本确定为所述第三文本的相似文本,其中,所述预置条件包括:相似度大于或等于第三阈值;或者,相似度最高的文本,或相似度最高的前M个文本;M为预先设定的整数。
5.根据权利要求4所述的***,其特征在于,所述第一获取单元,还用于获取停用词表;其中,所述停用词表用来限定属于需要删除的常见的无实际含义的停用词。
6.根据权利要求4或5所述的***,其特征在于,所述高频词汇与文本编号的数据结构为“倒排索引”、“签名文件”或“后缀树”形式。
CN201410270637.2A 2014-06-17 2014-06-17 文本相似度的计算方法及***、相似文本的查找方法及*** Active CN105224518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410270637.2A CN105224518B (zh) 2014-06-17 2014-06-17 文本相似度的计算方法及***、相似文本的查找方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410270637.2A CN105224518B (zh) 2014-06-17 2014-06-17 文本相似度的计算方法及***、相似文本的查找方法及***

Publications (2)

Publication Number Publication Date
CN105224518A CN105224518A (zh) 2016-01-06
CN105224518B true CN105224518B (zh) 2020-03-17

Family

ID=54993497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410270637.2A Active CN105224518B (zh) 2014-06-17 2014-06-17 文本相似度的计算方法及***、相似文本的查找方法及***

Country Status (1)

Country Link
CN (1) CN105224518B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273391A (zh) * 2016-04-08 2017-10-20 北京国双科技有限公司 文书推荐方法和装置
CN106528507B (zh) * 2016-10-25 2018-12-18 中南林业科技大学 一种中文文本相似度的检测方法及检测装置
CN107085568B (zh) * 2017-03-29 2022-11-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107491425A (zh) * 2017-07-26 2017-12-19 合肥美的智能科技有限公司 确定方法、确定装置、计算机装置和计算机可读存储介质
CN109325509B (zh) * 2017-07-31 2023-01-17 北京国双科技有限公司 相似度确定方法及装置
CN110019660A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN107870976A (zh) * 2017-09-25 2018-04-03 平安科技(深圳)有限公司 简历识别装置、方法及计算机可读存储介质
CN108763569A (zh) * 2018-06-05 2018-11-06 北京玄科技有限公司 文本相似度计算方法及装置、智能机器人
CN110866407B (zh) * 2018-08-17 2024-03-01 阿里巴巴集团控股有限公司 确定互译文本及文本间相似度分析方法、装置及设备
CN109635084B (zh) * 2018-11-30 2020-11-24 宁波深擎信息科技有限公司 一种多源数据文档实时快速去重方法及***
CN109614478B (zh) * 2018-12-18 2020-12-08 北京中科闻歌科技股份有限公司 词向量模型的构建方法、关键词匹配方法及装置
CN109977194B (zh) * 2019-03-20 2021-08-10 华南理工大学 基于无监督学习的文本相似度计算方法、***、设备及介质
CN110083832B (zh) * 2019-04-17 2020-12-29 北大方正集团有限公司 文章转载关系的识别方法、装置、设备及可读存储介质
CN110321931A (zh) * 2019-06-05 2019-10-11 上海易点时空网络有限公司 原创内容仲裁方法及装置
CN112528630A (zh) * 2019-09-19 2021-03-19 北京国双科技有限公司 文本相似度确定方法、装置、存储介质和电子设备
CN112435688B (zh) * 2020-11-20 2024-06-18 腾讯音乐娱乐科技(深圳)有限公司 音频识别方法、服务器及存储介质
CN115455950B (zh) * 2022-09-27 2023-06-16 中科雨辰科技有限公司 一种获取文本的数据处理***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693279A (zh) * 2012-04-28 2012-09-26 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及***
CN103823862A (zh) * 2014-02-24 2014-05-28 西安交通大学 一种跨语言的电子文本剽窃检测***及其检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8738361B2 (en) * 2009-07-01 2014-05-27 International Business Machines Corporation Systems and methods for extracting patterns from graph and unstructered data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693279A (zh) * 2012-04-28 2012-09-26 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及***
CN103823862A (zh) * 2014-02-24 2014-05-28 西安交通大学 一种跨语言的电子文本剽窃检测***及其检测方法

Also Published As

Publication number Publication date
CN105224518A (zh) 2016-01-06

Similar Documents

Publication Publication Date Title
CN105224518B (zh) 文本相似度的计算方法及***、相似文本的查找方法及***
CN106033416B (zh) 一种字符串处理方法及装置
CN108829658B (zh) 新词发现的方法及装置
CN107544988B (zh) 一种获取舆情数据的方法和装置
JP2005085285A5 (zh)
Maier et al. Machine translation vs. multilingual dictionaries assessing two strategies for the topic modeling of multilingual text collections
CN105069021A (zh) 基于领域的中文短文本情感分类方法
US20140074816A1 (en) Method and apparatus for generating a query candidate set
CN107688616B (zh) 使实体的独特事实显现
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
CN109101491B (zh) 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
WO2014114175A1 (zh) 一种提供搜索引擎标签的方法和装置
CN110705261B (zh) 中文文本分词方法及其***
CN105574004B (zh) 一种网页去重方法和设备
CN111160445B (zh) 投标文件相似度计算方法及装置
JP2021501387A (ja) 自然言語処理のための表現を抽出するための方法、コンピュータ・プログラム及びコンピュータ・システム
CN106649367B (zh) 检测关键词推广程度的方法和装置
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
KR101545273B1 (ko) 클러스터링 및 해싱을 이용하여 빅데이터 텍스트의 중복여부를 검출하는 중복문서 검출장치 및 방법
JP5694989B2 (ja) 文書分類装置及びプログラム
CN109063117B (zh) 一种基于特征抽取的网络安全博客分类方法及***
CN108959295B (zh) 一种原生对象的识别方法和装置
US11150871B2 (en) Information density of documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant