CN111221959A

CN111221959A - 一种wnlp文本溯源模型

Info

Publication number: CN111221959A
Application number: CN201910927078.0A
Authority: CN
Inventors: 胡峰稳; 邹殷凡; 刘一兵; 张振华
Original assignee: Wuhan Chuangxiang Outer Code Technology Co Ltd
Current assignee: Wuhan Chuangxiang Outer Code Technology Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-06-02

Abstract

本发明涉及一种WNLP文本溯源模型，包括文本主旨、文本部分内容和文本库，根据所述文本库所有文本涉及领域，对所述文本库内所属文本进行分类；根据所述文本主旨选择对应的所属领域文本类；再根据所述文本主旨从所属领域文本类中筛选出对应的多数文本；在利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本；通过对文本库进行分类，选择从对应领域的文本进行检测，然后抽选出与文本内容具有一定相似性的文本，这样有序逐层减小筛选文件数量，使对原文本进行相似度检测的时候，不需要对整个文本库的文本进行扫描筛选，缩小扫选范围，减少计算量，提高原文本相似度检测速度，进而快速判断原文本内容是否源于其他文本内容。

Description

一种WNLP文本溯源模型

技术领域

本发明涉及文本溯源技术领域，尤其是涉及一种WNLP文本溯源模型。

背景技术

文本溯源其目的就是检测学术文本是否复制其他文本内容，主要对其文本进行检测，查询文本内容与主旨是否与现有文本内容重复。

现在文本溯源方法，通过多种相似度算法，计算被查询文本与现有文本库中所记载的所有文本内容是否相似，通过大量的计算，进而得出查询文本是否抄袭。

现有技术有这样不足；通过直接在大量的文本库中，直接对原文本进行相似度计算，其计算量太大，进而使计算时间较长。

发明内容

本发明针对现有技术中存在的技术问题，提供一种WNLP文本溯源模型。

本发明解决上述技术问题的技术方案如下：一种WNLP文本溯源模型，包括文本主旨、文本部分内容和文本库，根据所述文本库所有文本涉及领域，对所述文本库内所属文本进行分类；

根据所述文本主旨选择对应的所属领域文本类；

根据所述文本主旨从所属领域文本类中筛选出对应的多数文本；

利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本；

从再次筛选中的文本中，在利用相似度算法，计算原文章和多数文本中相似度数值，进而测得能否查询出文本的出处。

优选地，上述的一种WNLP文本溯源模型，其中通过Rocchio算法将所述文本库的所有文本按照不同领域进行分类处理形成不同的所属领域文本。

优选地，上述的一种WNLP文本溯源模型，其中通过TF-IDF算法根据所述文本主旨从所属文本中筛选出对应的多数文本。

优选地，上述的一种WNLP文本溯源模型，其中根据所述文本部分内容通过TF-IDF算法从所属文本中筛选出与所述文本部分内容相似的文本。

优选地，上述的一种WNLP文本溯源模型，其中利用余弦相似性算法计算原文本与诸多相似的文本的相似度，从而通过相似度判断原文章是否出处于其他文本。

本发明的有益效果是：通过对文本库进行分类，选择从对应领域的文本进行检测，然后抽选出与文本内容具有一定相似性的文本，这样有序逐层减小筛选文件数量，使对原文本进行相似度检测的时候，不需要对整个文本库的文本进行扫描筛选，缩小扫选范围，减少计算量，提高原文本相似度检测速度，进而快速判断原文本内容是否源于其他文本内容。

附图说明

图1为本发明为流程示意图；

图2为本发明工作原理示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种WNLP文本溯源模型，包括文本主旨、文本部分内容和文本库，

S10：根据文本库所有文本涉及领域，对文本库内所属文本进行分类；

通过Rocchio算法将文本库的所有文本按照不同领域进行分类处理形成不同的所属领域文本。

S20：根据文本主旨选择对应的所属领域文本类；

根据文本主旨，在现在分类好的不同的所属领域文本选择对应的所属领域文本类。

S30：根据文本主旨从所属领域文本类中筛选出对应的多数文本；

通过TF-IDF算法根据文本主旨从所属文本中筛选出对应的多数文本。

S40：利用相似度算法通过文本部分内容计算出原文章与现有文本的相似的文本；

根据文本部分内容通过TF-IDF算法从所属文本中筛选出与文本部分内容相似的文本。

S50：从再次筛选中的文本中，在利用相似度算法，计算原文章和多数文本中相似度数值，进而测得能否查询出文本的出处。

利用余弦相似性算法计算原文本与诸多相似的文本的相似度，从而通过相似度判断原文章是否出处于其他文本。

首先通过Rocchio算法将文本库的所有文本按照不同领域进行分类处理形成不同的所属领域文本，依据根据文本主旨，在现在分类好的不同的所属领域文本选择对应的所属领域文本类，在通过TF-IDF算法根据文本主旨从所属文本中筛选出对应的多数文本，然后根据文本部分内容通过TF-IDF算法从所属文本中筛选出与文本部分内容相似的文本，最后利用余弦相似性算法计算原文本与诸多相似的文本的相似度，从而通过相似度判断原文章是否出处于其他文本,通过这一系列的操作，有序逐层减小筛选文件数量，使对原文本进行相似度检测的时候，不需要对整个文本库的文本进行扫描筛选，缩小扫选范围，减少计算量，提高原文本相似度检测速度，进而快速判断原文本内容是否源于其他文本内容。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种WNLP文本溯源模型，包括文本主旨、文本部分内容和文本库，其特征在于：根据所述文本库所有文本涉及领域，对所述文本库内所属文本进行分类；

根据所述文本主旨选择对应的所属领域文本类；

2.根据权利要求1所述的一种WNLP文本溯源模型，其特征在于：通过Rocchio算法将所述文本库的所有文本按照不同领域进行分类处理形成不同的所属领域文本。

3.根据权利要求1所述的一种WNLP文本溯源模型，其特征在于：通过TF-IDF算法根据所述文本主旨从所属文本中筛选出对应的多数文本。

4.根据权利要求1所述的一种WNLP文本溯源模型，其特征在于：根据所述文本部分内容通过TF-IDF算法从所属文本中筛选出与所述文本部分内容相似的文本。

5.根据权利要求1所述的一种WNLP文本溯源模型，其特征在于：利用余弦相似性算法计算原文本与诸多相似的文本的相似度，从而通过相似度判断原文章是否出处于其他文本。