CN111221959A - 一种wnlp文本溯源模型 - Google Patents
一种wnlp文本溯源模型 Download PDFInfo
- Publication number
- CN111221959A CN111221959A CN201910927078.0A CN201910927078A CN111221959A CN 111221959 A CN111221959 A CN 111221959A CN 201910927078 A CN201910927078 A CN 201910927078A CN 111221959 A CN111221959 A CN 111221959A
- Authority
- CN
- China
- Prior art keywords
- text
- texts
- similarity
- original
- wnlp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000001514 detection method Methods 0.000 abstract description 5
- 238000000034 method Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种WNLP文本溯源模型,包括文本主旨、文本部分内容和文本库,根据所述文本库所有文本涉及领域,对所述文本库内所属文本进行分类;根据所述文本主旨选择对应的所属领域文本类;再根据所述文本主旨从所属领域文本类中筛选出对应的多数文本;在利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本;通过对文本库进行分类,选择从对应领域的文本进行检测,然后抽选出与文本内容具有一定相似性的文本,这样有序逐层减小筛选文件数量,使对原文本进行相似度检测的时候,不需要对整个文本库的文本进行扫描筛选,缩小扫选范围,减少计算量,提高原文本相似度检测速度,进而快速判断原文本内容是否源于其他文本内容。
Description
技术领域
本发明涉及文本溯源技术领域,尤其是涉及一种WNLP文本溯源模型。
背景技术
文本溯源其目的就是检测学术文本是否复制其他文本内容,主要对其文本进行检测,查询文本内容与主旨是否与现有文本内容重复。
现在文本溯源方法,通过多种相似度算法,计算被查询文本与现有文本库中所记载的所有文本内容是否相似,通过大量的计算,进而得出查询文本是否抄袭。
现有技术有这样不足;通过直接在大量的文本库中,直接对原文本进行相似度计算,其计算量太大,进而使计算时间较长。
发明内容
本发明针对现有技术中存在的技术问题,提供一种WNLP文本溯源模型。
本发明解决上述技术问题的技术方案如下:一种WNLP文本溯源模型,包括文本主旨、文本部分内容和文本库,根据所述文本库所有文本涉及领域,对所述文本库内所属文本进行分类;
根据所述文本主旨选择对应的所属领域文本类;
根据所述文本主旨从所属领域文本类中筛选出对应的多数文本;
利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本;
从再次筛选中的文本中,在利用相似度算法,计算原文章和多数文本中相似度数值,进而测得能否查询出文本的出处。
优选地,上述的一种WNLP文本溯源模型,其中通过Rocchio算法将所述文本库的所有文本按照不同领域进行分类处理形成不同的所属领域文本。
优选地,上述的一种WNLP文本溯源模型,其中通过TF-IDF算法根据所述文本主旨从所属文本中筛选出对应的多数文本。
优选地,上述的一种WNLP文本溯源模型,其中根据所述文本部分内容通过TF-IDF算法从所属文本中筛选出与所述文本部分内容相似的文本。
优选地,上述的一种WNLP文本溯源模型,其中利用余弦相似性算法计算原文本与诸多相似的文本的相似度,从而通过相似度判断原文章是否出处于其他文本。
本发明的有益效果是:通过对文本库进行分类,选择从对应领域的文本进行检测,然后抽选出与文本内容具有一定相似性的文本,这样有序逐层减小筛选文件数量,使对原文本进行相似度检测的时候,不需要对整个文本库的文本进行扫描筛选,缩小扫选范围,减少计算量,提高原文本相似度检测速度,进而快速判断原文本内容是否源于其他文本内容。
附图说明
图1为本发明为流程示意图;
图2为本发明工作原理示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种WNLP文本溯源模型,包括文本主旨、文本部分内容和文本库,
S10:根据文本库所有文本涉及领域,对文本库内所属文本进行分类;
通过Rocchio算法将文本库的所有文本按照不同领域进行分类处理形成不同的所属领域文本。
S20:根据文本主旨选择对应的所属领域文本类;
根据文本主旨,在现在分类好的不同的所属领域文本选择对应的所属领域文本类。
S30:根据文本主旨从所属领域文本类中筛选出对应的多数文本;
通过TF-IDF算法根据文本主旨从所属文本中筛选出对应的多数文本。
S40:利用相似度算法通过文本部分内容计算出原文章与现有文本的相似的文本;
根据文本部分内容通过TF-IDF算法从所属文本中筛选出与文本部分内容相似的文本。
S50:从再次筛选中的文本中,在利用相似度算法,计算原文章和多数文本中相似度数值,进而测得能否查询出文本的出处。
利用余弦相似性算法计算原文本与诸多相似的文本的相似度,从而通过相似度判断原文章是否出处于其他文本。
首先通过Rocchio算法将文本库的所有文本按照不同领域进行分类处理形成不同的所属领域文本,依据根据文本主旨,在现在分类好的不同的所属领域文本选择对应的所属领域文本类,在通过TF-IDF算法根据文本主旨从所属文本中筛选出对应的多数文本,然后根据文本部分内容通过TF-IDF算法从所属文本中筛选出与文本部分内容相似的文本,最后利用余弦相似性算法计算原文本与诸多相似的文本的相似度,从而通过相似度判断原文章是否出处于其他文本,通过这一系列的操作,有序逐层减小筛选文件数量,使对原文本进行相似度检测的时候,不需要对整个文本库的文本进行扫描筛选,缩小扫选范围,减少计算量,提高原文本相似度检测速度,进而快速判断原文本内容是否源于其他文本内容。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种WNLP文本溯源模型,包括文本主旨、文本部分内容和文本库,其特征在于:根据所述文本库所有文本涉及领域,对所述文本库内所属文本进行分类;
根据所述文本主旨选择对应的所属领域文本类;
根据所述文本主旨从所属领域文本类中筛选出对应的多数文本;
利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本;
从再次筛选中的文本中,在利用相似度算法,计算原文章和多数文本中相似度数值,进而测得能否查询出文本的出处。
2.根据权利要求1所述的一种WNLP文本溯源模型,其特征在于:通过Rocchio算法将所述文本库的所有文本按照不同领域进行分类处理形成不同的所属领域文本。
3.根据权利要求1所述的一种WNLP文本溯源模型,其特征在于:通过TF-IDF算法根据所述文本主旨从所属文本中筛选出对应的多数文本。
4.根据权利要求1所述的一种WNLP文本溯源模型,其特征在于:根据所述文本部分内容通过TF-IDF算法从所属文本中筛选出与所述文本部分内容相似的文本。
5.根据权利要求1所述的一种WNLP文本溯源模型,其特征在于:利用余弦相似性算法计算原文本与诸多相似的文本的相似度,从而通过相似度判断原文章是否出处于其他文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910927078.0A CN111221959A (zh) | 2019-09-27 | 2019-09-27 | 一种wnlp文本溯源模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910927078.0A CN111221959A (zh) | 2019-09-27 | 2019-09-27 | 一种wnlp文本溯源模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111221959A true CN111221959A (zh) | 2020-06-02 |
Family
ID=70828961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910927078.0A Pending CN111221959A (zh) | 2019-09-27 | 2019-09-27 | 一种wnlp文本溯源模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111221959A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022021697A1 (zh) * | 2020-07-31 | 2022-02-03 | 中诚区块链研究院(南京)有限公司 | 一种涉及多领域溯源*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
CN105117466A (zh) * | 2015-08-27 | 2015-12-02 | 中国电信股份有限公司湖北号百信息服务分公司 | 一种互联网信息筛选***及方法 |
CN109299263A (zh) * | 2018-10-10 | 2019-02-01 | 上海观安信息技术股份有限公司 | 文本分类方法、电子设备及计算机程序产品 |
CN110019642A (zh) * | 2017-08-06 | 2019-07-16 | 北京国双科技有限公司 | 一种相似文本检测方法及装置 |
CN110019660A (zh) * | 2017-08-06 | 2019-07-16 | 北京国双科技有限公司 | 一种相似文本检测方法及装置 |
-
2019
- 2019-09-27 CN CN201910927078.0A patent/CN111221959A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
CN105117466A (zh) * | 2015-08-27 | 2015-12-02 | 中国电信股份有限公司湖北号百信息服务分公司 | 一种互联网信息筛选***及方法 |
CN110019642A (zh) * | 2017-08-06 | 2019-07-16 | 北京国双科技有限公司 | 一种相似文本检测方法及装置 |
CN110019660A (zh) * | 2017-08-06 | 2019-07-16 | 北京国双科技有限公司 | 一种相似文本检测方法及装置 |
CN109299263A (zh) * | 2018-10-10 | 2019-02-01 | 上海观安信息技术股份有限公司 | 文本分类方法、电子设备及计算机程序产品 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022021697A1 (zh) * | 2020-07-31 | 2022-02-03 | 中诚区块链研究院(南京)有限公司 | 一种涉及多领域溯源*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102682514B (zh) | 一种纸类识别方法及相关装置 | |
Choi et al. | Malware detection using malware image and deep learning | |
CN104866498A (zh) | 一种信息处理方法及装置 | |
CN103377177A (zh) | 一种数字版式文件中识别表格的方法及装置 | |
CN106445908A (zh) | 文本识别方法和装置 | |
CN104346406A (zh) | 训练语料扩充装置和训练语料扩充方法 | |
CN103345528A (zh) | 一种基于关联分析和knn的文本分类方法 | |
CN108182175A (zh) | 一种文本质量指标获取方法及装置 | |
ATE475492T1 (de) | Verfahren zur handhabung von übertragungen einschliesslich einer grafischen klassifizierung der zu den übertragungen gehörenden signaturen | |
CN104298923A (zh) | 漏洞类型识别方法以及装置 | |
CN103631787A (zh) | 网页类型识别方法以及网页类型识别装置 | |
CN111221959A (zh) | 一种wnlp文本溯源模型 | |
CN107204183A (zh) | 一种音频文件检测方法及装置 | |
CN108427686A (zh) | 文本数据查询方法及装置 | |
EP3296822A3 (en) | Model-plant mismatch detection using model parameter data clustering for paper machines or other systems | |
KR101030130B1 (ko) | 중복 콘텐츠 검출 장치 및 검출 방법 | |
CN108241662A (zh) | 数据标注的优化方法及装置 | |
CN103902723A (zh) | 一种媒体文件编目元数据聚合方法及装置 | |
CN103885964A (zh) | 一种内容审核方法和*** | |
CN105718499B (zh) | 地质资料数据清洗方法及*** | |
KR20160100887A (ko) | 코드 블록 비교를 통한 악성 코드 탐지 방법 | |
Anding et al. | Application of intelligent image processing in the construction material industry | |
CN105335467A (zh) | 一种用于出版行业热点选题的新颖性判断方法与*** | |
CN105405025A (zh) | 一种用户账号的访问类型的确定方法及装置 | |
KR101904643B1 (ko) | 의사결정트리를 이용한 기사 생성 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200602 |