CN113887191A - 文章的相似性检测方法及装置 - Google Patents
文章的相似性检测方法及装置 Download PDFInfo
- Publication number
- CN113887191A CN113887191A CN202111214203.7A CN202111214203A CN113887191A CN 113887191 A CN113887191 A CN 113887191A CN 202111214203 A CN202111214203 A CN 202111214203A CN 113887191 A CN113887191 A CN 113887191A
- Authority
- CN
- China
- Prior art keywords
- article
- entity
- similarity
- similar
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000001514 detection method Methods 0.000 claims abstract description 66
- 238000003062 neural network model Methods 0.000 claims abstract description 36
- 238000000605 extraction Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开披露了一种文章的相似性检测方法及装置。该方法包括:利用神经网络模型提取待检测的第一文章和第二文章的文本特征;确定所述第一文章和所述第二文章的文本特征的相似性;在所述第一文章和所述第二文章的文本特征相似的情况下,对所述第一文章和所述第二文章进行句子粒度的比较,以确定所述第一文章和所述第二文章的相似性。另外,本公开还可以将第一文章和第二文章的相似性检测结果上传到区块链***进行存证。
Description
技术领域
本公开涉及信息处理技术领域,具体涉及一种文章的相似性检测方法及装置。
背景技术
随着互联网的高速发展和信息的快速传播,文学作品和小说的传播速度越来越快,随之而来也产生了越来越多的侵权行为。为了保障创作者的利益,就需要对文章进行相似性检测。
目前的检测方式有两种,一种是基于关键词的检测方式,另一种是基于句子粒度的检测方式。基于关键词的检测方式,由于没有考虑关键词在句子中的位置,会导致误检和漏检的问题。基于句子粒度的检测方式虽然有较高的检测准确率,但是如果文章的篇幅较长、或者待检测的文章数量较多,会导致检测效率降低。因此,亟需一种高效快速且具有较高准确率的检测方式。
发明内容
本公开实施例提供一种文章的相似性检测方法及装置,能够在保证检测准确率的同时,提高检测效率。
第一方面,提供一种文章的相似性检测方法,包括:利用神经网络模型提取待检测的第一文章和第二文章的文本特征;确定所述第一文章和所述第二文章的文本特征的相似性;在所述第一文章和所述第二文章的文本特征相似的情况下,对所述第一文章和所述第二文章进行句子粒度的比较,以确定所述第一文章和所述第二文章的相似性。
第二方面,提供一种文章的相似性检测装置,包括:提取单元,用于利用神经网络模型提取待检测的第一文章和第二文章的文本特征;确定单元,用于确定所述第一文章和所述第二文章的文本特征的相似性;比较单元,用于在所述第一文章和所述第二文章的文本特征相似的情况下,对所述第一文章和所述第二文章进行句子粒度的比较,以确定所述第一文章和所述第二文章的相似性。
第三方面,提供一种文章的相似性检测装置,包括:存储器和处理器,所述存储器中存储有可执行代码,所述处理器被配置为执行所述可执行代码,以实现如第一方面所述的方法。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行代码,当所述可执行代码被执行时,能够实现如第一方面所述的方法。
第五方面,提供一种计算机程序产品,包括可执行代码,当所述可执行代码被执行时,能够实现如第一方面所述的方法。
本公开实施例提供的相似性检测方法,在对文章进行句子粒度的检测之前,利用神经网络模型提取文章的文本特征,并比较文本特征之间的相似性,以过滤掉一些不相关的文章,减少不必要的比较,提高检测效率。然后再对文本特征相似的文章进行句子粒度的比较,以确定文章的相似性,从而保证检测结果的准确性。
附图说明
图1为本公开一实施例提供的文章的相似性检测方法的流程示意图。
图2为本公开另一实施例提供的文章的相似性检测方法的流程示意图。
图3为本公开一实施例提供的文章的相似性检测装置的结构示意图。
图4为本公开另一实施例提供的文章的相似性检测装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本公开一部分实施例,而不是全部的实施例。
随着互联网的高速发展和信息的快速传播,形成了大量的文学和小说创作类网站。随着用户付费习惯的养成,给创作者带来不菲的收入和创作生态的良性循环。但是在利益的驱使下,部分不法分子利用人工或借助工具的方式,对文学和小说内容进行加工和抄袭,方式不限于更换主要角色姓名、地点名称,句子粒度统一替换和剧情仿写等方式。为了保障创作者的利益,就需要对文章进行相似性检测。
目前,常见的检测方法有两种。第一种是利用关键词进行相似性检测。例如,分别抽取两篇文章的关键词,比较两篇文章中的相同关键词的数量和频次,根据相同关键词的数量和频次确定文章的相似性。第二种是以句子为粒度进行相似性检测,这种方式类似于学位论文抄袭检测的方法。在进行句子粒度的检测之前,可以先根据文章中的标点符号,将文章划分为多个句子,如将任意两个连续的标点符号之间的内容作为一个句子。然后比较两篇文章中的多个句子之间的相似性,进一步可以根据相似句子的数量或比例,确定文章的相似性。例如,如果句子中相同的字超过一定阈值,则可以判定句子抄袭;如果抄袭的句子超过文章一定比例,则可以判定文章抄袭。
针对第一种方法,由于没有考虑关键词在句子中的位置,会导致误检和漏检的问题。如果关键词数量偏少,则会导致检测准确率下降;如果增加关键词的数量,也难以识别文章中实体替换的内容。针对第二种方法,由于其使用的是句子粒度的检测方式,在一定程度上能够保留文章的结构信息,因此,第二种方法的检测准确率高于第一种。但是,如果文章的数量较多,或者文章的篇幅较长,直接对文章进行句子粒度的比较,将会带来非常大的计算量,导致检测效率降低。尤其是长篇文学和长篇小说,这类文章中的句子数量巨大,直接进行句子粒度的检测将会严重影响检测性能。
基于此,本公开提出一种文章的相似度检测方法,在对文章进行句子粒度的检测之前,利用神经网络模型提取文章的文本特征,并比较文本特征之间的相似性,以过滤掉一些不相关的文章,减少不必要的比较,提高检测效率。然后再对文本特征相似的文章进行句子粒度的比较,以确定文章的相似性,能够保证检测准确率。
本公开实施例的方法可用于对文章进行侵权检测。例如,创作者可以将自己的原创作品与各网站或数据库中的文章进行比较,以确定是否有其他用户抄袭自己的文章。
图1是本公开实施例提供的一种文章的相似性检测方法。图1所示的方法包括步骤S110~步骤S130。
步骤S110、利用神经网络模型提取待检测的第一文章和第二文章的文本特征。
本公开实施例对第一文章和第二文章的类型不做具体限定。第一文章和第二文章可以为小说、文学作品、论文等。第一文章和第二文章中的一个可以为原创文章,另一个为数据库中的文章。
本公开实施例的神经网络模型可以是利用多个样本文章对原始神经网络模型进行训练得到的。在对原始神经网络模型进行训练时,可以先对多篇样本文章进行人工标注,然后将该多篇文章输入原始神经网络模型,利用标注结果对原始神经网络模型进行训练,从而得到训练后的神经网络模型。
神经网络模型可用于提取文章的文本特征,例如可以通过对文章进行自然语言处理,提取文章的文本特征。文本特征可以包括类目信息、标签信息、实体信息中的至少一种,下文将会进行详细介绍。
在步骤S120、确定第一文章和第二文章的文本特征的相似性。
将第一文章的文本特征与第二文章的文本特征进行比较,确定第一文章和第二文章的文本特征是否相似。如果第一文章和第二文章的文本特征不相似,则可以确定第一文章和第二文章不相似。如果第一文章和第二文章的文本特征相似,则进行步骤S130的操作。
在步骤S130、在第一文章和第二文章的文本特征相似的情况下,对第一文章和第二文章进行句子粒度的比较,以确定第一文章和第二文章的相似性。
本公开实施例在对文章进行句子粒度的比较之前,先对文章的文本特征进行相似性的比较,文本特征不相似的文章不用进行句子粒度的比较,而仅对文本特征相似的文章进行句子粒度的比较,从而可以提前过滤掉一些不相关的文章,避免不必要的比较,提高检测效率。另外,通过对文本特征相似的文章进行句子粒度的比较,可以保证检测结果的准确性。
文本特征可以包括类目信息、标签信息和实体信息中的至少一种。本公开实施例可以在第一文章和第二文章的类目信息、标签信息和实体信息中的至少一种信息相似的情况下,对第一文章和第二文章进行句子粒度的比较。可选地,本公开实施例可以在第一文章和第二文章的类目信息、标签信息和实体信息均相似的情况下,对第一文章和第二文章进行句子粒度的比较。
文章的类目可以指文章的类型,可以通过对文章的标题、描述和内容属性等信息进行分析,确定文章的类目信息。例如,对于金庸的《天龙八部》,其类目信息为“武侠”。又例如,对于刘慈欣的《三体》,其类目信息为“科幻”。
文章的类目信息可以是通过第一神经网络模型提取的,第一神经网络模型也可以称为类目分类器。类目分类器可以通过人工标注对神经网络模型进行训练得到。
一篇文章可以属于一个或多个类目。如果一篇文章属于一个类目,则可以根据第一文章的类目与第二文章的类目是否相同,确定第一文章和第二文章的类目是否相似。如果一篇文章属于多个类目,则可以根据第一文章和第二文章的类目信息的概率分布是否相似,确定第一文章和第二文章的类目是否相似。
文章的标签信息可以是通过第二神经网络模型提取的,第二神经网络模型也可以称为标签抽取模块。标签抽取模块可以使用其他业务场景(如搜索场景或电商场景)中的标签生成器,也可以通过人工标注对神经网络模型进行训练得到。标签信息可用于表征文章的关键属性。一篇文章可以有一个或多个标签。例如,《天龙八部》的可能标签有“武林恩怨”,“民族大义”等。
将第一文章输入第二神经网络模型,得到第一文章的标签信息;将第二文章输入第二神经网络模型,得到第二文章的标签信息。本公开实施例可以通过比较第一文章的标签信息与第二文章的标签信息的交并比,确定第一文章和第二文章的标签是否相似性。如果交并比大于或等于预设阈值,则可以确定第一文章和第二文章的标签相似;如果交并比小于预设阈值,则可以确定第一文章和第二文章的标签不相似。
文章的实体信息可以是通过第三神经网络模型提取的。第三神经网络模型可用于识别文中具有特定意义或者指代性强的实体,包括但不限于人名、地名、组织机构名、日期、时间、专有名词等。以《天龙八部》为例,对该文章提取的实体特征可以包括“段誉”、“乔峰”、“玉门关”和“六脉神剑”等。
考虑到不法分子会通过实体替换对文章进行仿写,来防止被检测出抄袭。为了避免漏检测出这类仿写文章,本公开实施例还可以通过构建实体特征的关系链接图,来确定文章的实体是否相似。
本公开实施例的实体信息可以包括实体特征(或实体序列)和实体特征的关系链接图。实体特征可以是上文描述的人名、地名、组织机构名等信息。关系链接图可以指各实体特征之间的关系,如各人物之间的关系。本公开实施例可以在第一文章和第二文章的实体特征相似和/或关系链接图相似的情况下,确定第一文章和第二章的实体相似。具体地,可以先比较第一文章和第二文章的实体特征是否相似,如果实体特征相似,则可以确定第一文章和第二文章实体相似。如果实体特征不相似,则进一步确定第一文章和第二文章的关系链接图是否相似。如果关系链接图相似,则可以确定第一文章和第二文章的实体相似。如果关系链接图不相似,则可以确定第一文章和第二文章的实体不相似。
举例说明,将第一文章输入第三神经网络模型,得到第一文章的实体特征,记为实体特征1。将第二文章输入第三神经网络模型,得到第二文章的实体特征,记为实体特征2。可以理解的是,实体特征1和实体特征2可以包括多个实体特征。本公开实施例可以先确定实体特征1和实体特征2是否相似,如实体特征1和实体特征2的交并比是否超过一定阈值。如果实体特征1和实体特征2的交并比超过一定阈值,则可以确定第一文章和第二文章的实体相似。如果实体特征1和实体特征2的交并比没有超过一定阈值,则可以构建实体特征1的关系连接图,记为关系链接图1,构建实体特征2的关系链接图,记为关系链接图2。比较关系链接图1和关系链接图2之间的相似性。如果关系链接图1和关系链接图2相似,则可以确定第一文章和第二文章的实体相似。如果关系接图1和关系链接图2不相似,则可以确定第一文章和第二文章的实体不相似,进而确定第一文章和第二文章不相似。通过比较关系链接图的相似性,可以有效检测出实体替换的仿写文章,也就是说,在人名、地名、关键实体名被篡改的情况下,仍可以有效检测出抄袭文章,从而提高检测结果的准确率。
本公开实施例可以依次比较第一文章和第二文章的类目信息、标签信息和实体信息的相似性,在第一文章和第二文章的类目信息、标签信息和实体信息均相似的情况下,对第一文章和第二文章进行句子粒度的比较。通过类目信息、标签信息和实体信息的逐级过滤,实现由粗到细的检测粒度,可以进一步提高检测效率。下面结合图2,对本公开实施例的相似性检测方法进行详细描述。
将第一文章输入第一神经网络模型进行类目预测,得到第一文章的类目,记为类目1。将第二文章输入第一神经网络模型进行类目预测,得到第二文章的类目,记为类目2。比较类目1和类目2是否属于同一个类目。如果类目1和类目2属于同一个类目,则继续进行标签相似性的比较。如果类目1和类目2不属于同一个类目,则可以确定第一文章和第二文章不相似。
如果第一文章和第二文章的类目相似,则将第一文章输入第二神经网络模型进行标签抽取,得到第一文章的标签信息,记为标签1,将第二文章输入第二神经网络模型进行标签抽取,得到第二文章的标签信息,记为标签2。如果标签1和标签2的交并比大于或等于一定阈值,则可以继续进行实体相似性的比较。如果标签1和标签2的交并比小于一定阈值,则可以确定第一文章和第二文章不相似。该阈值可以是根据人工经验确定的,或者该阈值也可以是通过训练好的神经网络模型得到的。
如果第一文章和第二文章的标签相似,则可以将第一文章输入第三神经网络模型,得到第一文章的实体信息,记为实体信息1,将第二文章输入第三神经网络模型,得到第二文章的实体信息,记为实体信息2。比较实体信息1和实体信息2之间的相似性。如果实体信息1和实体信息2相似,则可以对第一文章和第二文章进行句子粒度的比较。如果实体信息1和实体信息2不相似,则可以确定第一文章和第二文章不相似。
在第一文章和第二文章的类目信息、标签信息和实体信息均相似的情况下,可以对第一文章和第二文章进行句子粒度的比较,以确定第一文章和第二文章是否相似。本公开实施例对句子粒度的比较方式不作具体限定。
作为一个示例,可以直接对第一文章和第二文章进行句子粒度的比较。例如,将第一文章拆分为多个句子,将第二文章也拆分为多个句子,比较两篇文章中两两句子之间的相似性。
作为另一个示例,可以分别对第一文章和第二文章进行内容分段,得到多个第一分段和多个第二分段,如图2所示。先比较多个第一分段和多个第二分段之间的相似性,如对分段后的内容进行向量化,找到一定数量的相似的分段内容对。然后再对相似的分段内容对进行句子粒度的比较,确定第一文章和第二文章的相似性。在进行句子细粒度的检测之前,先对分段内容进行相似性的比较,对于不相似的分段内容对,可以不用进行句子粒度的比较,而仅对相似的分段内容对进行句子粒度的比较,从而可以有效缩小计算规模,提高检测效率。
举例说明,假设对第一文章进行内容分段,得到4个分段,分别记为分段a、分段b、分段c、分段d。对第二文章进行内容分段,得到3个分段,分别记为分段x、分段y、分段z。比较该4个分段和该3个分段之间的相似性。以分段a与分段x、分段y、分段z进行相似性比较为例,如果分段a和分段x比较相似,而和分段y、分段z不相似,则分段a和分段x为相似的分段内容对,分段a和分段y、分段a和分段z为不相似的分段内容对。在进行句子粒度的检测时,可以仅对分段a和分段x进行句子粒度的比较,而不用对分段a和分段y、分段a和分段z进行句子粒度的比较,从而能够大大减小计算的规模,提高计算效率。同理,第一文章中的分段b、分段c和分段d也可以分别与第二文章中的分段进行比较,以确定相似的分段内容对。
在对分段a和分段x进行句子粒度的比较时,可以先确定分段a和分段x中相似的句子,然后对相似的句子进行汇总,确定分段a和分段x之间的相似性。例如,如果分段a和分段x中相似的句子占整个分段内容的比例(即相似度)超过一定阈值,则可以认为分段a和分段x相似。将第一文章和第二文章中的分段内容对的相似度进行平均,可以确定第一文章和第二文章的相似度。如果分段内容对的平均相似度大于一定阈值,则可以认为第一文章和第二文章相似。
对文章进行内容分段的方式有多种,本公开实施例对此不做具体限定。例如,为了操作简单,可以按照文章的章节,对文章进行内容分段,也就是说,可以将一个或多个章节作为一个分段。这种方式比较适合篇幅较长的文章,如长篇小说。又例如,可以按顺序进行层次聚类得到多个分段,这种方式比较适合篇幅较短的文章,如短篇小说。
此外,本公开实施例还可以将第一文章和第二文章的相似性检测结果上传到区块链***,以固定证据。区块链是一种以密码学技术为基础的分布式链式存储记账技术。区块链通过去中心化或多中心化的方式对大量数据进行组织和维护,具有分布式、不可篡改性、可溯源、安全可信等特点,因而在多个领域得到广泛应用。使用区块链***对相似性检测结果进行记录,可以保证相似性检测结果可查询,来源可追溯,遇到安全问题时可根据区块链的存证信息寻找对应的解决方案。
第一文章和第二文章的相似性检测结果包括但不限于类目相似性的检测结果、标签相似性的检测结果、实体相似性的检测结果、分段内容的相似性检测结果以及句子粒度的相似性检测结果上传到区块链***。当然,本公开实施例还可以将相似的分段内容对、相似的句子对上传到区块链***,以为相似性检测结果提供理论依据。
除了区块链***之外,本公开实施例也可以使用具有高安全认证级别的数据存储设备记录相似性检测结果。
本公开实施例中句子粒度的比较可以采用编辑距离、句子向量化等方式进行对比,以确定句子之间的相似性。当然,也可以使用其他模型,如SimHash算法、基于转换器的双向编码表征(Bidirectional Encoder Representations from Transformers,BERT)等模型计算句子之间的相似性。BERT是一个语言表示模型,其主要模型结构是trasnformer的encoder堆叠而成,广泛应用于自然语言处理应用场景中。SimHash也叫相似散列(哈希),是一类特殊的信息指纹,常用来比较文章的相似性。相对于传统哈希,SimHash能够检测具有一定改动文章的相似性。
上文结合图1和图2,详细描述了本公开的方法实施例,下面结合图3和图4,详细描述本公开的装置实施例。应理解,方法实施例的描述与装置实施例的描述相互对应,因此,未详细描述的部分可以参见前面方法实施例。
图3是本公开一实施例提供的文章的相似性检测装置的结构示意图。该装置300可以包括提取单元310、确定单元320和比较单元330。
提取单元310,用于利用神经网络模型提取待检测的第一文章和第二文章的文本特征。
确定单元320,用于确定所述第一文章和所述第二文章的文本特征的相似性。
比较单元330,用于在所述第一文章和所述第二文章的文本特征相似的情况下,对所述第一文章和所述第二文章进行句子粒度的比较,以确定所述第一文章和所述第二文章的相似性。
可选地,所述文本特征包括以下信息中的至少一种:类目信息、标签信息和实体信息,所述比较单元330用于:在所述第一文章和所述第二文章的类目信息、标签信息和实体信息中的至少一个相似的情况下,对所述第一文章和所述第二文章进行句子粒度的比较。
可选地,所述实体信息包括实体特征和实体关系链接图,所述确定单元320用于:利用所述神经网络模型提取所述第一文章和所述第二文章的实体特征;构建所述第一文章的实体特征的关系链接图和所述第二文章的实体特征的关系链接图;确定所述第一文章和所述第二文章的实体特征的相似性和/或关系链接图的相似性;所述比较单元330用于:在所述第一文章和所述第二文章的实体特征相似和/或关系链接图相似的情况下,对所述第一文章和所述第二文章进行句子粒度的比较。
可选地,所述比较单元330用于:分别对所述第一文章和所述第二文章进行分段,得到多个第一分段和多个第二分段;确定所述多个第一分段和所述多个第二分段之间相似的分段内容对;对所述相似的分段内容对进行句子粒度的比较。
可选地,所述装置300还包括上传单元,用于:将所述第一文章和所述第二文章的相似性检测结果上传到区块链***。
图4是本公开另一实施例提供的文章的相似性检测装置的结构示意图。图4所示的装置400可以是服务器。装置400可以包括存储器410和处理器420。存储器410可以用于存储可执行代码。处理器420可以用于执行存储器410中存储的可执行代码,以实现前文描述的各个方法中的步骤。在一些实施例中,该装置400还可以包括网络接口430,处理器420与外部设备的数据交换可以通过该网络接口430实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(Digital Video Disc,DVD))、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
本领域普通技术人员可以意识到,结合本公开实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
在本公开所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。
Claims (11)
1.一种文章的相似性检测方法,包括:
利用神经网络模型提取待检测的第一文章和第二文章的文本特征;
确定所述第一文章和所述第二文章的文本特征的相似性;
在所述第一文章和所述第二文章的文本特征相似的情况下,对所述第一文章和所述第二文章进行句子粒度的比较,以确定所述第一文章和所述第二文章的相似性。
2.根据权利要求1所述的方法,所述文本特征包括以下信息中的至少一种:类目信息、标签信息和实体信息,所述在所述第一文章和所述第二文章的文本特征相似的情况下,对所述第一文章和所述第二文章进行句子粒度的比较,包括:
在所述第一文章和所述第二文章的类目信息、标签信息和实体信息中的至少一个相似的情况下,对所述第一文章和所述第二文章进行句子粒度的比较。
3.根据权利要求2所述的方法,所述实体信息包括实体特征和实体关系链接图,所述确定所述第一文章和所述第二文章的文本特征的相似性,包括:
利用所述神经网络模型提取所述第一文章和所述第二文章的实体特征;
构建所述第一文章的实体特征的关系链接图和所述第二文章的实体特征的关系链接图;
确定所述第一文章和所述第二文章的实体特征的相似性和/或关系链接图的相似性;
所述在所述第一文章和所述第二文章的文本特征相似的情况下,对所述第一文章和所述第二文章进行句子粒度的比较,包括:
在所述第一文章和所述第二文章的实体特征相似和/或关系链接图相似的情况下,对所述第一文章和所述第二文章进行句子粒度的比较。
4.根据权利要求1所述的方法,所述对所述第一文章和所述第二文章进行句子粒度的比较,包括:
分别对所述第一文章和所述第二文章进行分段,得到多个第一分段和多个第二分段;
确定所述多个第一分段和所述多个第二分段之间相似的分段内容对;
对所述相似的分段内容对进行句子粒度的比较。
5.根据权利要求1所述的方法,所述方法还包括:
将所述第一文章和所述第二文章的相似性检测结果上传到区块链***。
6.一种文章的相似性检测装置,包括:
提取单元,用于利用神经网络模型提取待检测的第一文章和第二文章的文本特征;
确定单元,用于确定所述第一文章和所述第二文章的文本特征的相似性;
比较单元,用于在所述第一文章和所述第二文章的文本特征相似的情况下,对所述第一文章和所述第二文章进行句子粒度的比较,以确定所述第一文章和所述第二文章的相似性。
7.根据权利要求6所述的装置,所述文本特征包括以下信息中的至少一种:类目信息、标签信息和实体信息,所述比较单元用于:
在所述第一文章和所述第二文章的类目信息、标签信息和实体信息中的至少一个相似的情况下,对所述第一文章和所述第二文章进行句子粒度的比较。
8.根据权利要求7所述的装置,所述实体信息包括实体特征和实体关系链接图,所述确定单元用于:
利用所述神经网络模型提取所述第一文章和所述第二文章的实体特征;
构建所述第一文章的实体特征的关系链接图和所述第二文章的实体特征的关系链接图;
确定所述第一文章和所述第二文章的实体特征的相似性和/或关系链接图的相似性;
所述比较单元用于:在所述第一文章和所述第二文章的实体特征相似和/或关系链接图相似的情况下,对所述第一文章和所述第二文章进行句子粒度的比较。
9.根据权利要求6所述的装置,所述比较单元用于:
分别对所述第一文章和所述第二文章进行分段,得到多个第一分段和多个第二分段;
确定所述多个第一分段和所述多个第二分段之间相似的分段内容对;
对所述相似的分段内容对进行句子粒度的比较。
10.根据权利要求6所述的装置,所述装置还包括上传单元,用于:
将所述第一文章和所述第二文章的相似性检测结果上传到区块链***。
11.一种文章的相似性检测装置,包括:存储器和处理器,所述存储器中存储有可执行代码,所述处理器被配置为执行所述可执行代码,以实现如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111214203.7A CN113887191A (zh) | 2021-10-18 | 2021-10-18 | 文章的相似性检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111214203.7A CN113887191A (zh) | 2021-10-18 | 2021-10-18 | 文章的相似性检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113887191A true CN113887191A (zh) | 2022-01-04 |
Family
ID=79003369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111214203.7A Pending CN113887191A (zh) | 2021-10-18 | 2021-10-18 | 文章的相似性检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887191A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492373A (zh) * | 2022-04-07 | 2022-05-13 | 中国信息通信研究院 | 基于区块链的作品侵权判定方法和装置 |
CN115098629A (zh) * | 2022-06-22 | 2022-09-23 | 马上消费金融股份有限公司 | 文件处理方法、装置、服务器及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635089A (zh) * | 2018-12-14 | 2019-04-16 | 苏州阳澄湖数字文化创意园投资有限公司 | 一种基于语义网络的文学作品新颖度评价***和方法 |
CN110083832A (zh) * | 2019-04-17 | 2019-08-02 | 北大方正集团有限公司 | 文章转载关系的识别方法、装置、设备及可读存储介质 |
CN111967243A (zh) * | 2020-07-30 | 2020-11-20 | 苏州浪潮智能科技有限公司 | 一种文本比对的方法和设备 |
CN113255369A (zh) * | 2021-06-10 | 2021-08-13 | 平安国际智慧城市科技股份有限公司 | 文本相似度分析的方法、装置及存储介质 |
-
2021
- 2021-10-18 CN CN202111214203.7A patent/CN113887191A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635089A (zh) * | 2018-12-14 | 2019-04-16 | 苏州阳澄湖数字文化创意园投资有限公司 | 一种基于语义网络的文学作品新颖度评价***和方法 |
CN110083832A (zh) * | 2019-04-17 | 2019-08-02 | 北大方正集团有限公司 | 文章转载关系的识别方法、装置、设备及可读存储介质 |
CN111967243A (zh) * | 2020-07-30 | 2020-11-20 | 苏州浪潮智能科技有限公司 | 一种文本比对的方法和设备 |
CN113255369A (zh) * | 2021-06-10 | 2021-08-13 | 平安国际智慧城市科技股份有限公司 | 文本相似度分析的方法、装置及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492373A (zh) * | 2022-04-07 | 2022-05-13 | 中国信息通信研究院 | 基于区块链的作品侵权判定方法和装置 |
CN115098629A (zh) * | 2022-06-22 | 2022-09-23 | 马上消费金融股份有限公司 | 文件处理方法、装置、服务器及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107463605B (zh) | 低质新闻资源的识别方法及装置、计算机设备及可读介质 | |
US20240028651A1 (en) | System and method for processing documents | |
Urvoy et al. | Tracking web spam with html style similarities | |
CN111581355B (zh) | 威胁情报的主题检测方法、装置和计算机存储介质 | |
WO2021135469A1 (zh) | 基于机器学习的信息抽取方法、装置、计算机设备及介质 | |
CN110532352B (zh) | 文本查重方法及装置、计算机可读存储介质、电子设备 | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN111475603A (zh) | 企业标识识别方法、装置、计算机设备及存储介质 | |
US20150242393A1 (en) | System and Method for Classifying Text Sentiment Classes Based on Past Examples | |
CN110866107A (zh) | 素材语料的生成方法、装置、计算机设备和存储介质 | |
CN113887191A (zh) | 文章的相似性检测方法及装置 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN112084448A (zh) | 相似信息处理方法以及装置 | |
CN112417887A (zh) | 敏感词句识别模型处理方法、及其相关设备 | |
Kim et al. | Discovering undisclosed paid partnership on social media via aspect-attentive sponsored post learning | |
CN115618866A (zh) | 一种工程项目投标文件的段落识别与主题提取方法及*** | |
WO2019015133A1 (zh) | 一种输入法的词库管理方法及装置 | |
CN112632223A (zh) | 案事件知识图谱构建方法及相关设备 | |
Yurtsever et al. | Figure search by text in large scale digital document collections | |
CN116841779A (zh) | 异常日志检测方法、装置、电子设备和可读存储介质 | |
CN113742450B (zh) | 用户数据等级落标的方法、装置、电子设备和存储介质 | |
CN107169065B (zh) | 一种特定内容的去除方法和装置 | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
Malhotra et al. | Web page segmentation towards information extraction for web semantics | |
CN115098619A (zh) | 资讯去重方法、装置、电子设备及计算机可读取存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |