CN111221959A - 一种wnlp文本溯源模型 - Google Patents

一种wnlp文本溯源模型 Download PDF

Info

Publication number
CN111221959A
CN111221959A CN201910927078.0A CN201910927078A CN111221959A CN 111221959 A CN111221959 A CN 111221959A CN 201910927078 A CN201910927078 A CN 201910927078A CN 111221959 A CN111221959 A CN 111221959A
Authority
CN
China
Prior art keywords
text
texts
similarity
original
wnlp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910927078.0A
Other languages
English (en)
Inventor
胡峰稳
邹殷凡
刘一兵
张振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Chuangxiang Outer Code Technology Co Ltd
Original Assignee
Wuhan Chuangxiang Outer Code Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Chuangxiang Outer Code Technology Co Ltd filed Critical Wuhan Chuangxiang Outer Code Technology Co Ltd
Priority to CN201910927078.0A priority Critical patent/CN111221959A/zh
Publication of CN111221959A publication Critical patent/CN111221959A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种WNLP文本溯源模型,包括文本主旨、文本部分内容和文本库,根据所述文本库所有文本涉及领域,对所述文本库内所属文本进行分类;根据所述文本主旨选择对应的所属领域文本类;再根据所述文本主旨从所属领域文本类中筛选出对应的多数文本;在利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本;通过对文本库进行分类,选择从对应领域的文本进行检测,然后抽选出与文本内容具有一定相似性的文本,这样有序逐层减小筛选文件数量,使对原文本进行相似度检测的时候,不需要对整个文本库的文本进行扫描筛选,缩小扫选范围,减少计算量,提高原文本相似度检测速度,进而快速判断原文本内容是否源于其他文本内容。

Description

一种WNLP文本溯源模型
技术领域
本发明涉及文本溯源技术领域,尤其是涉及一种WNLP文本溯源模型。
背景技术
文本溯源其目的就是检测学术文本是否复制其他文本内容,主要对其文本进行检测,查询文本内容与主旨是否与现有文本内容重复。
现在文本溯源方法,通过多种相似度算法,计算被查询文本与现有文本库中所记载的所有文本内容是否相似,通过大量的计算,进而得出查询文本是否抄袭。
现有技术有这样不足;通过直接在大量的文本库中,直接对原文本进行相似度计算,其计算量太大,进而使计算时间较长。
发明内容
本发明针对现有技术中存在的技术问题,提供一种WNLP文本溯源模型。
本发明解决上述技术问题的技术方案如下:一种WNLP文本溯源模型,包括文本主旨、文本部分内容和文本库,根据所述文本库所有文本涉及领域,对所述文本库内所属文本进行分类;
根据所述文本主旨选择对应的所属领域文本类;
根据所述文本主旨从所属领域文本类中筛选出对应的多数文本;
利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本;
从再次筛选中的文本中,在利用相似度算法,计算原文章和多数文本中相似度数值,进而测得能否查询出文本的出处。
优选地,上述的一种WNLP文本溯源模型,其中通过Rocchio算法将所述文本库的所有文本按照不同领域进行分类处理形成不同的所属领域文本。
优选地,上述的一种WNLP文本溯源模型,其中通过TF-IDF算法根据所述文本主旨从所属文本中筛选出对应的多数文本。
优选地,上述的一种WNLP文本溯源模型,其中根据所述文本部分内容通过TF-IDF算法从所属文本中筛选出与所述文本部分内容相似的文本。
优选地,上述的一种WNLP文本溯源模型,其中利用余弦相似性算法计算原文本与诸多相似的文本的相似度,从而通过相似度判断原文章是否出处于其他文本。
本发明的有益效果是:通过对文本库进行分类,选择从对应领域的文本进行检测,然后抽选出与文本内容具有一定相似性的文本,这样有序逐层减小筛选文件数量,使对原文本进行相似度检测的时候,不需要对整个文本库的文本进行扫描筛选,缩小扫选范围,减少计算量,提高原文本相似度检测速度,进而快速判断原文本内容是否源于其他文本内容。
附图说明
图1为本发明为流程示意图;
图2为本发明工作原理示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种WNLP文本溯源模型,包括文本主旨、文本部分内容和文本库,
S10:根据文本库所有文本涉及领域,对文本库内所属文本进行分类;
通过Rocchio算法将文本库的所有文本按照不同领域进行分类处理形成不同的所属领域文本。
S20:根据文本主旨选择对应的所属领域文本类;
根据文本主旨,在现在分类好的不同的所属领域文本选择对应的所属领域文本类。
S30:根据文本主旨从所属领域文本类中筛选出对应的多数文本;
通过TF-IDF算法根据文本主旨从所属文本中筛选出对应的多数文本。
S40:利用相似度算法通过文本部分内容计算出原文章与现有文本的相似的文本;
根据文本部分内容通过TF-IDF算法从所属文本中筛选出与文本部分内容相似的文本。
S50:从再次筛选中的文本中,在利用相似度算法,计算原文章和多数文本中相似度数值,进而测得能否查询出文本的出处。
利用余弦相似性算法计算原文本与诸多相似的文本的相似度,从而通过相似度判断原文章是否出处于其他文本。
首先通过Rocchio算法将文本库的所有文本按照不同领域进行分类处理形成不同的所属领域文本,依据根据文本主旨,在现在分类好的不同的所属领域文本选择对应的所属领域文本类,在通过TF-IDF算法根据文本主旨从所属文本中筛选出对应的多数文本,然后根据文本部分内容通过TF-IDF算法从所属文本中筛选出与文本部分内容相似的文本,最后利用余弦相似性算法计算原文本与诸多相似的文本的相似度,从而通过相似度判断原文章是否出处于其他文本,通过这一系列的操作,有序逐层减小筛选文件数量,使对原文本进行相似度检测的时候,不需要对整个文本库的文本进行扫描筛选,缩小扫选范围,减少计算量,提高原文本相似度检测速度,进而快速判断原文本内容是否源于其他文本内容。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种WNLP文本溯源模型,包括文本主旨、文本部分内容和文本库,其特征在于:根据所述文本库所有文本涉及领域,对所述文本库内所属文本进行分类;
根据所述文本主旨选择对应的所属领域文本类;
根据所述文本主旨从所属领域文本类中筛选出对应的多数文本;
利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本;
从再次筛选中的文本中,在利用相似度算法,计算原文章和多数文本中相似度数值,进而测得能否查询出文本的出处。
2.根据权利要求1所述的一种WNLP文本溯源模型,其特征在于:通过Rocchio算法将所述文本库的所有文本按照不同领域进行分类处理形成不同的所属领域文本。
3.根据权利要求1所述的一种WNLP文本溯源模型,其特征在于:通过TF-IDF算法根据所述文本主旨从所属文本中筛选出对应的多数文本。
4.根据权利要求1所述的一种WNLP文本溯源模型,其特征在于:根据所述文本部分内容通过TF-IDF算法从所属文本中筛选出与所述文本部分内容相似的文本。
5.根据权利要求1所述的一种WNLP文本溯源模型,其特征在于:利用余弦相似性算法计算原文本与诸多相似的文本的相似度,从而通过相似度判断原文章是否出处于其他文本。
CN201910927078.0A 2019-09-27 2019-09-27 一种wnlp文本溯源模型 Pending CN111221959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910927078.0A CN111221959A (zh) 2019-09-27 2019-09-27 一种wnlp文本溯源模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910927078.0A CN111221959A (zh) 2019-09-27 2019-09-27 一种wnlp文本溯源模型

Publications (1)

Publication Number Publication Date
CN111221959A true CN111221959A (zh) 2020-06-02

Family

ID=70828961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910927078.0A Pending CN111221959A (zh) 2019-09-27 2019-09-27 一种wnlp文本溯源模型

Country Status (1)

Country Link
CN (1) CN111221959A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022021697A1 (zh) * 2020-07-31 2022-02-03 中诚区块链研究院(南京)有限公司 一种涉及多领域溯源***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
CN105117466A (zh) * 2015-08-27 2015-12-02 中国电信股份有限公司湖北号百信息服务分公司 一种互联网信息筛选***及方法
CN109299263A (zh) * 2018-10-10 2019-02-01 上海观安信息技术股份有限公司 文本分类方法、电子设备及计算机程序产品
CN110019642A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN110019660A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
CN105117466A (zh) * 2015-08-27 2015-12-02 中国电信股份有限公司湖北号百信息服务分公司 一种互联网信息筛选***及方法
CN110019642A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN110019660A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN109299263A (zh) * 2018-10-10 2019-02-01 上海观安信息技术股份有限公司 文本分类方法、电子设备及计算机程序产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022021697A1 (zh) * 2020-07-31 2022-02-03 中诚区块链研究院(南京)有限公司 一种涉及多领域溯源***

Similar Documents

Publication Publication Date Title
CN102682514B (zh) 一种纸类识别方法及相关装置
Choi et al. Malware detection using malware image and deep learning
CN104866498A (zh) 一种信息处理方法及装置
CN103377177A (zh) 一种数字版式文件中识别表格的方法及装置
CN106445908A (zh) 文本识别方法和装置
CN104346406A (zh) 训练语料扩充装置和训练语料扩充方法
CN103345528A (zh) 一种基于关联分析和knn的文本分类方法
CN108182175A (zh) 一种文本质量指标获取方法及装置
ATE475492T1 (de) Verfahren zur handhabung von übertragungen einschliesslich einer grafischen klassifizierung der zu den übertragungen gehörenden signaturen
CN104298923A (zh) 漏洞类型识别方法以及装置
CN103631787A (zh) 网页类型识别方法以及网页类型识别装置
CN111221959A (zh) 一种wnlp文本溯源模型
CN107204183A (zh) 一种音频文件检测方法及装置
CN108427686A (zh) 文本数据查询方法及装置
EP3296822A3 (en) Model-plant mismatch detection using model parameter data clustering for paper machines or other systems
KR101030130B1 (ko) 중복 콘텐츠 검출 장치 및 검출 방법
CN108241662A (zh) 数据标注的优化方法及装置
CN103902723A (zh) 一种媒体文件编目元数据聚合方法及装置
CN103885964A (zh) 一种内容审核方法和***
CN105718499B (zh) 地质资料数据清洗方法及***
KR20160100887A (ko) 코드 블록 비교를 통한 악성 코드 탐지 방법
Anding et al. Application of intelligent image processing in the construction material industry
CN105335467A (zh) 一种用于出版行业热点选题的新颖性判断方法与***
CN105405025A (zh) 一种用户账号的访问类型的确定方法及装置
KR101904643B1 (ko) 의사결정트리를 이용한 기사 생성 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200602