CN112380833B - 一种逐句段对比的相似文本查找方法及装置 - Google Patents

一种逐句段对比的相似文本查找方法及装置 Download PDF

Info

Publication number
CN112380833B
CN112380833B CN202011309156.XA CN202011309156A CN112380833B CN 112380833 B CN112380833 B CN 112380833B CN 202011309156 A CN202011309156 A CN 202011309156A CN 112380833 B CN112380833 B CN 112380833B
Authority
CN
China
Prior art keywords
text
processed
paragraph
contrast
verified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011309156.XA
Other languages
English (en)
Other versions
CN112380833A (zh
Inventor
贺倩明
雷宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Deli Technology Co ltd
Original Assignee
Shenzhen Deli Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Deli Technology Co ltd filed Critical Shenzhen Deli Technology Co ltd
Priority to CN202011309156.XA priority Critical patent/CN112380833B/zh
Publication of CN112380833A publication Critical patent/CN112380833A/zh
Application granted granted Critical
Publication of CN112380833B publication Critical patent/CN112380833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,涉及一种逐句段对比的相似文本查找方法及装置。其中,该方法包括:对待处理文本以及多个对比文本均进行分段处理,得到对应的多个待处理段落以及每个对比文本的多个对比段落,计算得到所有段落的数字指纹,以数字指纹为基础确定出与待处理段落相同的对比段落,再对剩余的段落通过动态规划算法进行处理,最终得到待处理文本与每个对比文本的相似度,确定出相似度高的对比文本。本发明相较于现有技术中基于计算最小编辑距离和降维比对的方式进行查重,通过上述步骤能够以句段为单位结合数字指纹进行初步处理,再通过动态规划算法精确处理,既保证了查找比对的效率,同时使得得到的相似度结果更加准确。

Description

一种逐句段对比的相似文本查找方法及装置
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种逐句段对比的相似文本查找方法及装置。
背景技术
目前,针对相似文本查找的任务主要有两种解决方法:计算最小编辑距离的方法和降维比对的方法。
计算最小编辑距离的方法,是通过计算将一个文本文档转化为另一个文本文档所需的最少编辑操作次数来实现的。此处编辑操作包括***、删除和替换,编辑距离越小,两个文本文档的相似度越大。此种方法的局限之处在于其仅为依序逐字遍历比较,故无法识别出段落顺序不同但段落内容高度相同的相似文本。此方法需要从篇章开头逐字遍历正文内容,处理较长篇幅的文本过分耗时。
降维比对的方法,是通过将文本正文内容降维到低维向量空间上来实现的。基于“若两文本内容是相似的,那么分别映射到低维向量空间之后所得向量也是相似的”这一假设,将文本转化为向量或哈希值,分别通过计算两向量的夹角余弦值和两哈希值的海明距离来判定相似程度。此种方法的局限之处在于降维后文本被模糊化,无法将相似度精确表达出来,只可以低维空间上的数值为标准界定相似度是否达到既定标准。
有鉴于此,如何提供一种高效准确的相似文本查找方案,是本领域技术人员需要解决的。
发明内容
本发明的目的在于提供一种逐句段对比的相似文本查找方法及装置。
第一方面,本发明实施例提供一种逐句段对比的相似文本查找方法,应用于计算机设备,计算机设备与文本数据库服务器通信连接,文本数据库服务器存储有多个对比文本;
方法包括:
获取待处理文本;
基于预设分隔符将待处理文本和目标对比文本进行分段处理,得到待处理文本的多个待处理段落和目标对比文本的多个目标对比段落,其中,目标对比文本为多个对比文本中的任一个;
计算得到每个待处理段落和每个目标对比段落的数字指纹;
从多个待处理段落中确定出第一待处理段落、以及从多个目标对比段落中确定出第一对比段落,并统计得到相同段落参数,其中,第一对比段落的数字指纹与第一待处理段落的数字指纹相同;
在第二对比段落占多个目标对比段落中的占比不超过预设占比的条件下,对第二对比段落和第二待处理段落利用动态规划算法计算得到相似段落参数,其中,第二对比段落为多个目标对比段落中除第一对比段落外的段落,第二待处理段落为多个待处理段落中除第一待处理段落外的段落;
根据相同段落参数和相似段落参数计算得到待处理文本和目标对比文本的文本相似度;
重复上述步骤,直至确定出每个对比文本与待处理文本的文本相似度。
可选地,文本数据库服务器还存储有每个对比文本的文本长度,每个对比文本包括对应的标记,每个对比文本包括对应的对比前缀,方法还包括:
获取待处理文本并确定待处理文本的文本长度和标记,其中,待处理文本包括待处理前缀;
根据待处理文本的文本长度和每个对比文本的文本长度,构建文本处理列表,其中,待处理文本的标记和每个对比文本的标记按照文件长度在文本处理列表中进行排序;
从文本处理列表中分别确定第一标记和第二标记,其中,第一标记对应的对比文本的文本长度大于待处理文本的文本长度,第二标记对应的对比文本的文本长度小于待处理文本的文本长度;
根据待处理文本和待处理前缀从第一标记对应的对比文本中确定出第一相似文本;
根据待处理文本和第二标记对应的对比文本的对比前缀从第二标记对应的对比文本中确定出第二相似文本。
可选地,每个对比文本包括对应的对比前缀,方法还包括:
获取待处理文本的对比前缀;
从多个对比文本中确认出待定对比文本,其中,待定对比文本的对比前缀与待处理文本的对比前缀一致;
将待处理文本与每个待定对比文本进行逐字对比,直至得到与待处理文本完全相同的相同文本。
可选地,方法还包括:
获取待对比文本,并对待对比文本进行分段处理,得到多个待对比段落;
将每个待处理段落的数值指纹和每个待对比段落的数字指纹进行对比得到原始待处理段落和原始待对比段落,其中,原始待处理段落和原始待对比段落的数字指纹相同,原始待处理段落和原始待对比段落一一对应;
对原始待处理段落进行分句处理得到多个原始待处理句段;
对原始待对比段落进行分句处理得到多个原始待对比句段;
为每个原始待处理句段和每个原始待对比句段均配置标签;
响应与对比操作,根据标签确定出目标原始待处理句段与目标原始待对比句段之间的修改操作,其中,目标原始待处理句段为多个原始待处理段落中任一原始待处理段落中任一原始待处理句段,目标原始待对比句段为与目标原始待处理段落对应的目标原始待对比段落中任一原始待对比句段。
可选地,在获取待处理文本的步骤之前,方法还包括:
若获取到来自于待处理文本的初始化请求,则根据初始化请求对授权组件进行初始化处理,其中,授权组件用于确定待验证信息所对应的授权结果;
当授权组件已完成初始化时,对文本查询事项进行初始化处理;
当文本查询事项已完成初始化时,显示初始化结果,其中,初始化结果用于指示待处理文本通过调用文本查询事项的接口发送文本查询指令;
当获取到针对于待处理文本的文本查询指令时,根据文本查询指令获取待验证信息,其中,待验证信息为根据预设向量以及预设知识图谱生成的,预设知识图谱为采用第二加密规则对预设向量进行关联操作后得到的,预设向量为采用第一加密规则对加密元素待配置向量进行加密处理后得到的,加密元素待配置向量为对预先构建的加密元素进行向量化后得到的,且预先构建的加密元素满足合法配置条件;
获取第一加密规则和第二加密规则;
对待验证信息进行解析处理,得到预设向量以及预设知识图谱;
采用第二加密规则对预设向量进行关联操作,得到待验证预设知识图谱;
若待验证预设知识图谱与预设知识图谱匹配一致,则采用第一加密规则对预设向量进行解密处理,得到加密元素待配置向量;
对加密元素待配置向量进行解码处理,得到加密元素,其中,加密元素包括用户标识以及加密时限,用户标识用于确定文本查询事项的用户身份,加密时限用于确定待验证信息的起始时间以及终止时间;
获取指令触发节点、待验证用户标识以及待验证文本查询事项标识,其中,加密元素还包括文本查询事项标识,待验证文本查询事项标识与文本查询事项具有对应关系,指令触发节点为获取文本查询指令所对应的时间,待验证用户标识为根据待处理文本确定的;
若指令触发节点未超过加密时限,待验证用户标识与用户标识匹配一致,且待验证文本查询事项标识与文本查询事项标识匹配一致,则确定待验证信息所对应的授权结果为第一授权结果,其中,第一授权结果表示待验证信息已验证成功;
若指令触发节点超过加密时限,或,待验证用户标识与用户标识不匹配,或,待验证文本查询事项标识与文本查询事项标识不匹配,则确定待验证信息所对应的授权结果为第二授权结果,其中,第二授权结果表示待验证信息已验证失败;
若授权结果用于指示待验证信息已验证成功,则针对于待处理文本启动文本查询事项的调用功能。
可选地,获取第一加密规则,包括:
获取第一私钥以及已加密的私钥;
采用第一私钥对已加密的私钥进行解密处理,得到第一加密规则;
获取第二加密规则,包括:
获取第二私钥以及已加密的公钥信息;
采用第二私钥对已加密的公钥信息进行解密处理,得到第二加密规则。
可选地,当获取到针对于待处理文本的文本查询指令时,根据文本查询指令获取待验证信息,包括:
当接收到终端设备发送的针对于待处理文本的文本查询指令时,根据文本查询指令获取待验证信息,其中,若授权结果用于指示待验证信息已验证成功,则针对于待处理文本启动文本查询事项的调用功能,包括:
若授权结果用于指示待验证信息已验证成功,则针对于待处理文本启动文本查询事项的调用功能,或,向终端设备发送授权结果,以使终端设备针对于待处理文本启动文本查询事项的调用功能;
方法还包括:
若授权结果用于指示待验证信息已验证失败,则针对于待处理文本拒绝调用文本查询事项,或,向终端设备发送授权结果,以使终端设备针对于待处理文本拒绝调用文本查询事项。
第二方明,本发明实施例提供一种逐句段对比的相似文本查找装置,应用于计算机设备,计算机设备与文本数据库服务器通信连接,文本数据库服务器存储有多个对比文本;
装置包括:
获取模块,用于获取待处理文本;
分段模块,用于基于预设分隔符将待处理文本和目标对比文本进行分段处理,得到待处理文本的多个待处理段落和目标对比文本的多个目标对比段落,其中,目标对比文本为多个对比文本中的任一个;
计算模块,用于计算得到每个待处理段落和每个目标对比段落的数字指纹;从多个待处理段落中确定出第一待处理段落、以及从多个目标对比段落中确定出第一对比段落,并统计得到相同段落参数,其中,第一对比段落的数字指纹与第一待处理段落的数字指纹相同;在第二对比段落占多个目标对比段落中的占比不超过预设占比的条件下,对第二对比段落和第二待处理段落利用动态规划算法计算得到相似段落参数,其中,第二对比段落为多个目标对比段落中除第一对比段落外的段落,第二待处理段落为多个待处理段落中除第一待处理段落外的段落;根据相同段落参数和相似段落参数计算得到待处理文本和目标对比文本的文本相似度;
确定模块,用于重复上述步骤,直至确定出每个对比文本与待处理文本的文本相似度。
可选地,文本数据库服务器还存储有每个对比文本的文本长度,每个对比文本包括对应的标记,每个对比文本包括对应的对比前缀,确定模块还用于:
获取待处理文本并确定待处理文本的文本长度和标记,其中,待处理文本包括待处理前缀;根据待处理文本的文本长度和每个对比文本的文本长度,构建文本处理列表,其中,待处理文本的标记和每个对比文本的标记按照文件长度在文本处理列表中进行排序;从文本处理列表中分别确定第一标记和第二标记,其中,第一标记对应的对比文本的文本长度大于待处理文本的文本长度,第二标记对应的对比文本的文本长度小于待处理文本的文本长度;根据待处理文本和待处理前缀从第一标记对应的对比文本中确定出第一相似文本;根据待处理文本和第二标记对应的对比文本的对比前缀从第二标记对应的对比文本中确定出第二相似文本。
可选地,每个对比文本包括对应的对比前缀,确定模块还用于:
获取待处理文本的对比前缀;从多个对比文本中确认出待定对比文本,其中,待定对比文本的对比前缀与待处理文本的对比前缀一致;将待处理文本与每个待定对比文本进行逐字对比,直至得到与待处理文本完全相同的相同文本。
相比现有技术,本发明提供的有益效果包括:采用本发明实施例提供的一种逐句段对比的相似文本查找方法及装置,通过获取待处理文本;进而基于预设分隔符将待处理文本和目标对比文本进行分段处理,得到待处理文本的多个待处理段落和目标对比文本的多个目标对比段落,其中,目标对比文本为多个对比文本中的任一个;再计算得到每个待处理段落和每个目标对比段落的数字指纹;接着从多个待处理段落中确定出第一待处理段落、以及从多个目标对比段落中确定出第一对比段落,并统计得到相同段落参数,其中,第一对比段落的数字指纹与第一待处理段落的数字指纹相同;再由在第二对比段落占多个目标对比段落中的占比不超过预设占比的条件下,对第二对比段落和第二待处理段落利用动态规划算法计算得到相似段落参数,其中,第二对比段落为多个目标对比段落中除第一对比段落外的段落,第二待处理段落为多个待处理段落中除第一待处理段落外的段落;然后根据相同段落参数和相似段落参数计算得到待处理文本和目标对比文本的文本相似度;最终重复上述步骤,直至确定出每个对比文本与待处理文本的文本相似度,通过上述步骤,巧妙地利用了句段为单位结合数字指纹进行初步处理,再通过动态规划算法精确处理,既保证了查找比对的效率,同时使得得到的相似度结果更加准确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的逐句段对比的相似文本查找***的交互示意图;
图2为本发明实施例提供的逐句段对比的相似文本查找方法的步骤流程示意图;
图3为本发明实施例提供的替换矩阵示例的示意图;
图4为本发明实施例提供的替换举证回溯过程的示意图;
图5为本发明实施例提供的逐句段对比的相似文本查找装置的结构示意框图;
图6为本发明实施例提供的计算机设备的结构示意框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,“设置”、“连接”等术语应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图,对本发明的具体实施方式进行详细说明。
图1是本公开一种实施例提供的逐句段对比的相似文本查找***的交互示意图。逐句段对比的相似文本查找***可以包括计算机设备100以及与计算机设备100通信连接的文本数据库服务器200。图1所示的逐句段对比的相似文本查找***仅为一种可行的示例,在其它可行的实施例中,该逐句段对比的相似文本查找***也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分,文本数据库服务器200存储有多个对比文本。
本实施例中,逐句段对比的相似文本查找***中的计算机设备100和文本数据库服务器200可以通过配合执行以下方法实施例所描述的逐句段对比的相似文本查找方法,具体计算机设备100和文本数据库服务器200的执行步骤部分可以参照以下方法实施例的详细描述。
为了解决前述背景技术中的技术问题,图2为本公开实施例提供的逐句段对比的相似文本查找方法的流程示意图,本实施例提供的逐句段对比的相似文本查找方法可以由图1中所示的计算机设备100执行,下面对该逐句段对比的相似文本查找方法进行详细介绍。
步骤201,获取待处理文本。
在本发明实施例中,待处理文本可以是指用户想要进行查重或者寻找相似文本的文本,可以是用户预先得到的,也可以是从文本数据库服务器200选取的,在此不做限制。
步骤202,基于预设分隔符将待处理文本和目标对比文本进行分段处理,得到待处理文本的多个待处理段落和目标对比文本的多个目标对比段落。
其中,目标对比文本为多个对比文本中的任一个。
如前所描述的,在文本数据库服务器200中可以有多个对比文本,由于多个对比文本都是预先存储在文本数据库服务器200中的,因此可以提前对其进行分段处理,可以直接获取分段处理后的多个对比文本。应当理解的是,在实际情况中,不论是待处理文本还是对比文本,都采取了常规的分隔符进行分段方便阅读,在本发明实施例中,也可以利用预设分隔符作为依据,实现待处理文本和对比文本的分段处理。
步骤203,计算得到每个待处理段落和每个目标对比段落的数字指纹。
在本发明实施例中,数字指纹为MD5(Message-Digest Algorithm 5,密码散列函数)值,可以将待处理文本以及多个对别文本的标识与句段MD5值列表存储为键值对的形式,由于文本数目多、正文长,在此采用多线程并行处理的方式缩短整体耗时。
步骤204,从多个待处理段落中确定出第一待处理段落、以及从多个目标对比段落中确定出第一对比段落,并统计得到相同段落参数。
其中,第一对比段落的数字指纹与第一待处理段落的数字指纹相同。
可选的,在待处理文本与每一对比文本比对时,对待处理文本的各句段分别遍历待对比文本的每一句段,判断两MD5值是否相等,若相等则将本句段文本字数累计入相同文本长度的变量中,若不相等则将本句段文本字数累计入不相同文本长度的变量中。
步骤205,在第二对比段落占多个目标对比段落中的占比不超过预设占比的条件下,对第二对比段落和第二待处理段落利用动态规划算法计算得到相似段落参数。
其中,第二对比段落为多个目标对比段落中除第一对比段落外的段落,第二待处理段落为多个待处理段落中除第一待处理段落外的段落。
因既定的相似度标准通常较高,若存在接近标准但未达到标准的对比文本,比对耗时较长而不必要,故在比对过程中累计相同句段长度的同时,也累计不同句段的长度,每累计一次当即判断不相同文本比率是否达到既定相似度对应的不相似比率,进而避免不必要的比对,大大减少在相似度不达既定标准的文档的比对上的耗时。
可选的,对于剩余的句段(即第二对比段落),采用动态规划的方法,以整句文字的替换矩阵计算两个文字序列比对的最高得分,以此序列比对的方法得到这两个句段中的相似的连续文本的字数,作为两句段相似部分进行累计。
为了能够更加清楚地解释本发明提出的方案,请集合参考图3,以两文本字符串AGCTAGCT与AGTCTGCAT为例,由序列比对递推计算式算得替换矩阵,而由替换矩阵右下角开始的回溯过程请结合参考图4,图4中加粗的位置即为两文本字符串的不连续的最长公共子串,即GCTGCT。
步骤206,根据相同段落参数和相似段落参数计算得到待处理文本和目标对比文本的文本相似度。
在前述方案的基础上,句段遍历结束后,以相同文本长度与整篇文本长度计算比例,得到此两则文本文档的相似度比率数值。将此相似度数值与既定的相似度标准比较,若超过则认定为达到相似度标准。
步骤207,重复上述步骤,直至确定出每个对比文本与待处理文本的文本相似度。
通过上述步骤,能够从文本数据库服务器200中确定出与待处理文本相似度高的对比文本,在查找相似文本时分句段生成MD5值作为本句段的唯一标识,以句段为单位进行匹配,有效地解决了现有技术中因文本数目多、正文长带来的耗时长的问题,并取得当前较佳的结果。
在前述基础上,文本数据库服务器200还存储有每个对比文本的文本长度,每个对比文本包括对应的标记,每个对比文本包括对应的对比前缀,方法还提供了以下的示例。
步骤301,获取待处理文本并确定待处理文本的文本长度和标记,其中,待处理文本包括待处理前缀。
步骤302,根据待处理文本的文本长度和每个对比文本的文本长度,构建文本处理列表。
其中,待处理文本的标记和每个对比文本的标记按照文件长度在文本处理列表中进行排序。
步骤303,从文本处理列表中分别确定第一标记和第二标记。
其中,第一标记对应的对比文本的文本长度大于待处理文本的文本长度,第二标记对应的对比文本的文本长度小于待处理文本的文本长度。
步骤304,根据待处理文本和待处理前缀从第一标记对应的对比文本中确定出第一相似文本。
步骤305,根据待处理文本和第二标记对应的对比文本的对比前缀从第二标记对应的对比文本中确定出第二相似文本。
对于每则需要被查找包含关系的文本文档,先以二分查找的方法在上述文本长度有序的列表中查找当前文本文档的位置,由此将文本列表分成比当前文本正文更长和更短的两部分,分别对应查找包含当前文本的文本和被当前文本包含的文本,从而减少遍历待查找文本文档时正文长度比较判断的耗时。
在前述基础上,每个对比文本包括对应的对比前缀,方法还提供了以下的实施方式。
步骤401,获取待处理文本的对比前缀。
步骤402,从多个对比文本中确认出待定对比文本。
其中,待定对比文本的对比前缀与待处理文本的对比前缀一致。
步骤403,将待处理文本与每个待定对比文本进行逐字对比,直至得到与待处理文本完全相同的相同文本。
除了查找相似文本,在实际情况中,还可能会出现较为严重的抄袭现象,可以通过上述方案确定出是否存在与待处理文本完全相同的对比文本。可选的,对待处理文本和每个对比文本取各自的前缀,查找相似文本时先与各文本的前缀比对,再与具有相同前缀的正文逐字比对,得到正文内容完全相同的文本文档,即预处理将文本正文前缀和拥有此前缀的文本的唯一标识以键值对的形式存储,查找完全相同的文档时,先遍历这一键值对,查找本文档的前缀。若不存在本文档前缀这个键,则在多个对比文本内不存在与待处理文本完全相同的文本文档;若存在本文档前缀这个键,则所有可能与待处理文本完全相同的文本文档都存在于这个键对应的值列表中,对此列表中的每则文本文档依次与当前文本文档的正文进行比对,进而得到与当前文本文档完全相同的文本文档。
除了前述的方案,在本发明实施例中,还提供了以下的实施方式。
步骤501,获取待对比文本,并对待对比文本进行分段处理,得到多个待对比段落。
步骤502,将每个待处理段落的数值指纹和每个待对比段落的数字指纹进行对比得到原始待处理段落和原始待对比段落。
其中,原始待处理段落和原始待对比段落的数字指纹相同,原始待处理段落和原始待对比段落一一对应。
步骤503,对原始待处理段落进行分句处理得到多个原始待处理句段。
步骤504,对原始待对比段落进行分句处理得到多个原始待对比句段。
步骤505,为每个原始待处理句段和每个原始待对比句段均配置标签。
步骤506,响应与对比操作,根据标签确定出目标原始待处理句段与目标原始待对比句段之间的修改操作。
其中,目标原始待处理句段为多个原始待处理段落中任一原始待处理段落中任一原始待处理句段,目标原始待对比句段为与目标原始待处理段落对应的目标原始待对比段落中任一原始待对比句段。
除了前述方案,本发明实施例还提供了一种能够对修改部分快速确定额示例,可选地,预处理分别将两篇文本(待处理文本和待对比文本)划分为句段,遍历两文本各句段并比较MD5值,标记出有重复出现的句段,每处重复只记录一次。再次依序遍历两文本各段时,以其是否重复出现过的标签值为遍历时游标是否后移的依据,分情况区分当前句段为未变更、新增、删减或变更句段。其中,当上一句段为变更句段时,下一句段的删减或新增无法识别,因此需要在遍历结束后单独处理,修改识别标志。
作为一种可替换的实施例,在前述步骤201之前,本发明实施例还包括以下的具体实施方式。
步骤601,若获取到来自于待处理文本的初始化请求,则根据初始化请求对授权组件进行初始化处理。
其中,授权组件用于确定待验证信息所对应的授权结果。
应当理解的是,文本的相似度查询在实际生活中大多应用于论文查重、学术研究等领域,因此一般会涉及权限问题,即并不是任何人都能够使用前述方案,基于此,在获取待处理文本进行前述处理之前,可以先对是否执行后续操作进行确定。在本发明实施例中,初始化请求可以是用户在想要对待处理文本进行查询前预先做的。
步骤602,当授权组件已完成初始化时,对文本查询事项进行初始化处理。
在相关的授权组件完成初始化后,可以进一步对文本查询事项进行初始化。
步骤603,当文本查询事项已完成初始化时,显示初始化结果。
其中,初始化结果用于指示待处理文本通过调用文本查询事项的接口发送文本查询指令。
在文本查询事项也初始化完成后,便可以显示初始化结果,在初始化结果为正常时,可以认为后续执行的操作可以正常进行。
步骤604,当获取到针对于待处理文本的文本查询指令时,根据文本查询指令获取待验证信息。
其中,待验证信息为根据预设向量以及预设知识图谱生成的,预设知识图谱为采用第二加密规则对预设向量进行关联操作后得到的,预设向量为采用第一加密规则对加密元素待配置向量进行加密处理后得到的,加密元素待配置向量为对预先构建的加密元素进行向量化后得到的,且预先构建的加密元素满足合法配置条件。
在本发明实施例中,文本查询指令可以是想要对待处理文本进行查重等操作的用户发出的,而待验证信息可以是指该用户的权限相关信息。
步骤605,获取第一加密规则和第二加密规则。
在本发明实施例中第一加密规则和第二加密规则均是为了对用户的授权隐私信息进行保密设置,也是为了保证用户的权限的安全性。
步骤606,对待验证信息进行解析处理,得到预设向量以及预设知识图谱。
步骤607,采用第二加密规则对预设向量进行关联操作,得到待验证预设知识图谱。
步骤608,若待验证预设知识图谱与预设知识图谱匹配一致,则采用第一加密规则对预设向量进行解密处理,得到加密元素待配置向量。
通过上述步骤,在待验证预设知识图谱和预设知识图谱能够匹配的情况下,可以认为用户的请求初步是符合条件的,因此可以利用第一加密规则对预设向量进行解密处理,得到加密元素待配置向量。
步骤609,对加密元素待配置向量进行解码处理,得到加密元素。
其中,加密元素包括用户标识以及加密时限,用户标识用于确定文本查询事项的用户身份,加密时限用于确定待验证信息的起始时间以及终止时间。
对加密元素待配置向量进行解码处理后,能够得到用户标识以及加密时限,用户标识可以具体指用户的身份信息,包括注册ID等,而加密时限可以认为是待验证信息的有效时限,即包括了待验证信息的起始时间以及终止时间。
步骤610,获取指令触发节点、待验证用户标识以及待验证文本查询事项标识。
其中,加密元素还包括文本查询事项标识,待验证文本查询事项标识与文本查询事项具有对应关系,指令触发节点为获取文本查询指令所对应的时间,待验证用户标识为根据待处理文本确定的。
在本发明实施例中,指令触发节点可以表征当前的时间,待验证用户标识可以是与待处理文本关联的,例如是该文本的作者,又或者该文本作者的导师的身份信息,在此不作限制。
步骤611,若指令触发节点未超过加密时限,待验证用户标识与用户标识匹配一致,且待验证文本查询事项标识与文本查询事项标识匹配一致,则确定待验证信息所对应的授权结果为第一授权结果。
其中,第一授权结果表示待验证信息已验证成功。
步骤612,若指令触发节点超过加密时限,或,待验证用户标识与用户标识不匹配,或,待验证文本查询事项标识与文本查询事项标识不匹配,则确定待验证信息所对应的授权结果为第二授权结果。
其中,第二授权结果表示待验证信息已验证失败。
通过上述步骤,能够确定待验证信息对应的授权结果是成功或者失败。
步骤613,若授权结果用于指示待验证信息已验证成功,则针对于待处理文本启动文本查询事项的调用功能。
在待验证信息已验证成功的基础书上,可以针对于待处理文本启动文本查询事项的调用功能,即开始执行前述步骤201。在本发明实施例的其他实施方式中,还提供了譬如以下方案判定验证信息的授权结果,若指令触发节点未超过加密时限,且待验证用户标识与用户标识匹配一致,则确定待验证信息所对应的授权结果为第一授权结果,其中,第一授权结果表示待验证信息已验证成功;若指令触发节点超过加密时限,或,待验证用户标识与用户标识不匹配,则确定待验证信息所对应的授权结果为第二授权结果,其中,第二授权结果表示待验证信息已验证失败。
通过上述步骤,能够在授权通过的情况下才进行前述对于待处理文本的查重相关步骤,提高了本方案使用的安全性,避免了本发明实施了提出的方案在后续使用中容易被破解的问题。
在前述基础上,为了能够更加清楚的对本发明提供的方案进行解释,前述步骤605包括以下的实施方式。
子步骤605-1,获取第一私钥以及已加密的私钥。
子步骤605-2,采用第一私钥对已加密的私钥进行解密处理,得到第一加密规则。
相应的,前述步骤605还包括以下的实施方式。
子步骤605-3,获取第二私钥以及已加密的公钥信息。
子步骤605-4,采用第二私钥对已加密的公钥信息进行解密处理,得到第二加密规则。
作为一种可替换的实施方式,前述步骤604可以由以下的步骤具体实现。
子步骤604-1,当接收到终端设备发送的针对于待处理文本的文本查询指令时,根据文本查询指令获取待验证信息。
其中,若授权结果用于指示待验证信息已验证成功,则针对于待处理文本启动文本查询事项的调用功能,包括:
(1)若授权结果用于指示待验证信息已验证成功,则针对于待处理文本启动文本查询事项的调用功能,或,向终端设备发送授权结果,以使终端设备针对于待处理文本启动文本查询事项的调用功能。
(2)若授权结果用于指示待验证信息已验证失败,则针对于待处理文本拒绝调用文本查询事项,或,向终端设备发送授权结果,以使终端设备针对于待处理文本拒绝调用文本查询事项。
在前述基础上,为了能够准确的对第二授权结果进行判定,本发明实施例还提供了譬如以下方案:若待验证预设知识图谱与预设知识图谱不匹配,则确定待验证信息所对应的授权结果为第二授权结果,其中,第二授权结果表示待验证信息已验证失败。相应的,前述采用第一加密规则对预设向量进行解密处理,得到加密元素待配置向量的示例可以由以下步骤实施:(1)采用第一加密规则对预设向量进行解密处理。(2)若解密成功,则得到加密元素待配置向量。(3)若解密失败,则确定待验证信息所对应的授权结果为第二授权结果。
为了能够能加清楚的描述前述步骤,加密元素还包括待验证信息类型,其中,待验证信息类型为弱相关类型或强相关类型。基于此,本发明实施例还提供了譬如以下的方案。
若待验证信息类型为弱相关类型,则获取待验证信息的首次使用时间。
根据指令触发节点以及首次使用时间,确定已使用时间。
若已使用时间小于弱相关类型所对应的时间阈值,则执行根据指令触发节点与加密时限之间的匹配关系,以及待验证用户标识与用户标识之间的匹配关系,确定待验证信息所对应的授权结果的步骤。
相应的,若待验证信息类型为强相关类型,则执行根据指令触发节点与加密时限之间的匹配关系,以及待验证用户标识与用户标识之间的匹配关系,确定待验证信息所对应的授权结果的步骤。
除了前述步骤,本发明实施例还提供了譬如以下的示例,待验证信息为根据预设向量以及预设知识图谱生成的,预设知识图谱为采用第二加密规则对预设向量进行关联操作后得到的,预设向量为采用第一加密规则对加密元素待配置向量进行加密处理后得到的,加密元素待配置向量为对加密元素进行向量化后得到的。
本发明实施例提供一种逐句段对比的相似文本查找装置110,应用于计算机设备100,计算机设备100与文本数据库服务器200通信连接,文本数据库服务器200存储有多个对比文本,请结合参考图5,逐句段对比的相似文本查找装置110包括:
获取模块1101,用于获取待处理文本。
分段模块1102,用于基于预设分隔符将待处理文本和目标对比文本进行分段处理,得到待处理文本的多个待处理段落和目标对比文本的多个目标对比段落,其中,目标对比文本为多个对比文本中的任一个。
计算模块1103,用于计算得到每个待处理段落和每个目标对比段落的数字指纹;从多个待处理段落中确定出第一待处理段落、以及从多个目标对比段落中确定出第一对比段落,并统计得到相同段落参数,其中,第一对比段落的数字指纹与第一待处理段落的数字指纹相同;在第二对比段落占多个目标对比段落中的占比不超过预设占比的条件下,对第二对比段落和第二待处理段落利用动态规划算法计算得到相似段落参数,其中,第二对比段落为多个目标对比段落中除第一对比段落外的段落,第二待处理段落为多个待处理段落中除第一待处理段落外的段落;根据相同段落参数和相似段落参数计算得到待处理文本和目标对比文本的文本相似度。
确定模块1104,用于重复上述步骤,直至确定出每个对比文本与待处理文本的文本相似度。
进一步地,文本数据库服务器200还存储有每个对比文本的文本长度,每个对比文本包括对应的标记,每个对比文本包括对应的对比前缀,确定模块1104还用于:
获取待处理文本并确定待处理文本的文本长度和标记,其中,待处理文本包括待处理前缀;根据待处理文本的文本长度和每个对比文本的文本长度,构建文本处理列表,其中,待处理文本的标记和每个对比文本的标记按照文件长度在文本处理列表中进行排序;从文本处理列表中分别确定第一标记和第二标记,其中,第一标记对应的对比文本的文本长度大于待处理文本的文本长度,第二标记对应的对比文本的文本长度小于待处理文本的文本长度;根据待处理文本和待处理前缀从第一标记对应的对比文本中确定出第一相似文本;根据待处理文本和第二标记对应的对比文本的对比前缀从第二标记对应的对比文本中确定出第二相似文本。
进一步地,每个对比文本包括对应的对比前缀,确定模块1104还用于:
获取待处理文本的对比前缀;从多个对比文本中确认出待定对比文本,其中,待定对比文本的对比前缀与待处理文本的对比前缀一致;将待处理文本与每个待定对比文本进行逐字对比,直至得到与待处理文本完全相同的相同文本。
进一步地,确定模块1104还用于:
获取待对比文本,并对待对比文本进行分段处理,得到多个待对比段落;将每个待处理段落的数值指纹和每个待对比段落的数字指纹进行对比得到原始待处理段落和原始待对比段落,其中,原始待处理段落和原始待对比段落的数字指纹相同,原始待处理段落和原始待对比段落一一对应;对原始待处理段落进行分句处理得到多个原始待处理句段;对原始待对比段落进行分句处理得到多个原始待对比句段;为每个原始待处理句段和每个原始待对比句段均配置标签;响应与对比操作,根据标签确定出目标原始待处理句段与目标原始待对比句段之间的修改操作,其中,目标原始待处理句段为多个原始待处理段落中任一原始待处理段落中任一原始待处理句段,目标原始待对比句段为与目标原始待处理段落对应的目标原始待对比段落中任一原始待对比句段。
进一步地,确定模块1104还用于:
若获取到来自于待处理文本的初始化请求,则根据初始化请求对授权组件进行初始化处理,其中,授权组件用于确定待验证信息所对应的授权结果;当授权组件已完成初始化时,对文本查询事项进行初始化处理;当文本查询事项已完成初始化时,显示初始化结果,其中,初始化结果用于指示待处理文本通过调用文本查询事项的接口发送文本查询指令;当获取到针对于待处理文本的文本查询指令时,根据文本查询指令获取待验证信息,其中,待验证信息为根据预设向量以及预设知识图谱生成的,预设知识图谱为采用第二加密规则对预设向量进行关联操作后得到的,预设向量为采用第一加密规则对加密元素待配置向量进行加密处理后得到的,加密元素待配置向量为对预先构建的加密元素进行向量化后得到的,且预先构建的加密元素满足合法配置条件;获取第一加密规则和第二加密规则;对待验证信息进行解析处理,得到预设向量以及预设知识图谱;采用第二加密规则对预设向量进行关联操作,得到待验证预设知识图谱;若待验证预设知识图谱与预设知识图谱匹配一致,则采用第一加密规则对预设向量进行解密处理,得到加密元素待配置向量;对加密元素待配置向量进行解码处理,得到加密元素,其中,加密元素包括用户标识以及加密时限,用户标识用于确定文本查询事项的用户身份,加密时限用于确定待验证信息的起始时间以及终止时间;获取指令触发节点、待验证用户标识以及待验证文本查询事项标识,其中,加密元素还包括文本查询事项标识,待验证文本查询事项标识与文本查询事项具有对应关系,指令触发节点为获取文本查询指令所对应的时间,待验证用户标识为根据待处理文本确定的;若指令触发节点未超过加密时限,待验证用户标识与用户标识匹配一致,且待验证文本查询事项标识与文本查询事项标识匹配一致,则确定待验证信息所对应的授权结果为第一授权结果,其中,第一授权结果表示待验证信息已验证成功;若指令触发节点超过加密时限,或,待验证用户标识与用户标识不匹配,或,待验证文本查询事项标识与文本查询事项标识不匹配,则确定待验证信息所对应的授权结果为第二授权结果,其中,第二授权结果表示待验证信息已验证失败;若授权结果用于指示待验证信息已验证成功,则针对于待处理文本启动文本查询事项的调用功能。
进一步地,确定模块1104具体用于:
获取第一私钥以及已加密的私钥;采用第一私钥对已加密的私钥进行解密处理,得到第一加密规则;获取第二私钥以及已加密的公钥信息;采用第二私钥对已加密的公钥信息进行解密处理,得到第二加密规则。
进一步地,确定模块1104具体用于:当接收到终端设备发送的针对于待处理文本的文本查询指令时,根据文本查询指令获取待验证信息,其中,若授权结果用于指示待验证信息已验证成功,则针对于待处理文本启动文本查询事项的调用功能,包括:若授权结果用于指示待验证信息已验证成功,则针对于待处理文本启动文本查询事项的调用功能,或,向终端设备发送授权结果,以使终端设备针对于待处理文本启动文本查询事项的调用功能。
确定模块1104具体还用于:
若授权结果用于指示待验证信息已验证失败,则针对于待处理文本拒绝调用文本查询事项,或,向终端设备发送授权结果,以使终端设备针对于待处理文本拒绝调用文本查询事项。
需要说明的是,前述在逐句段对比的相似文本查找装置110的实现原理可以参考前述逐句段对比的相似文本查找方法的实现原理,在此不再赘述。应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块1101可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上逐句段对比的相似文本查找装置110的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,ASIC),或,一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessing unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上***(system-on-a-chip,SOC)的形式实现。
本发明实施例提供一种计算机设备100,计算机设备100包括处理器及存储有计算机指令的非易失性存储器,计算机指令被处理器执行时,计算机设备100执行前述的逐句段对比的相似文本查找装置110。如图6所示,图6为本发明实施例提供的计算机设备100的结构框图。计算机设备100包括逐句段对比的相似文本查找装置110、存储器111、处理器112及通信单元113。
为实现数据的传输或交互,存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接。例如,可通过一条或多条通讯总线或信号线实现这些元件相互之间电性连接。逐句段对比的相似文本查找装置110包括至少一个可以软件或固件(firmware)的形式存储于存储器111中或固化在计算机设备100的操作***(operatingsystem,OS)中的软件功能模块。处理器112用于执行存储器111中存储的逐句段对比的相似文本查找装置110,例如逐句段对比的相似文本查找装置110所包括的软件功能模块及计算机程序等。
本发明实施例提供一种可读存储介质,可读存储介质包括计算机程序,计算机程序运行时控制可读存储介质所在计算机设备100执行前述的逐句段对比的相似文本查找方法。
综上所述,本发明实施例提供一种逐句段对比的相似文本查找方法及装置,通过获取待处理文本;进而基于预设分隔符将待处理文本和目标对比文本进行分段处理,得到待处理文本的多个待处理段落和目标对比文本的多个目标对比段落,其中,目标对比文本为多个对比文本中的任一个;再计算得到每个待处理段落和每个目标对比段落的数字指纹;接着从多个待处理段落中确定出第一待处理段落、以及从多个目标对比段落中确定出第一对比段落,并统计得到相同段落参数,其中,第一对比段落的数字指纹与第一待处理段落的数字指纹相同;再由在第二对比段落占多个目标对比段落中的占比不超过预设占比的条件下,对第二对比段落和第二待处理段落利用动态规划算法计算得到相似段落参数,其中,第二对比段落为多个目标对比段落中除第一对比段落外的段落,第二待处理段落为多个待处理段落中除第一待处理段落外的段落;然后根据相同段落参数和相似段落参数计算得到待处理文本和目标对比文本的文本相似度;最终重复上述步骤,直至确定出每个对比文本与待处理文本的文本相似度,通过上述步骤,巧妙地利用了句段为单位结合数字指纹进行初步处理,再通过动态规划算法精确处理,既保证了查找比对的效率,同时使得得到的相似度结果更加准确。
出于说明目的,前面的描述是参考具体实施例而进行的。但是,上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。根据上述教导,众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用,从而使本领域技术人员最佳地利用本公开,并利用具有不同修改的各种实施例以适于预期的特定应用。

Claims (10)

1.一种逐句段对比的相似文本查找方法,其特征在于,应用于计算机设备,所述计算机设备与文本数据库服务器通信连接,所述文本数据库服务器存储有多个对比文本;
所述方法包括:
获取待处理文本;
基于预设分隔符将所述待处理文本和目标对比文本进行分段处理,得到所述待处理文本的多个待处理段落和所述目标对比文本的多个目标对比段落,其中,所述目标对比文本为所述多个对比文本中的任一个;
计算得到每个所述待处理段落和每个所述目标对比段落的数字指纹;
从所述多个待处理段落中确定出第一待处理段落、以及从所述多个目标对比段落中确定出第一对比段落,并统计得到相同段落参数,其中,所述第一对比段落的数字指纹与所述第一待处理段落的数字指纹相同;
在第二对比段落占所述多个目标对比段落中的占比不超过预设占比的条件下,对所述第二对比段落和第二待处理段落利用动态规划算法计算得到相似段落参数,其中,所述第二对比段落为所述多个目标对比段落中除所述第一对比段落外的段落,所述第二待处理段落为所述多个待处理段落中除所述第一待处理段落外的段落;
根据所述相同段落参数和所述相似段落参数计算得到所述待处理文本和所述目标对比文本的文本相似度;
重复所述基于预设分隔符将所述待处理文本和目标对比文本进行分段处理的步骤至所述根据所述相同段落参数和所述相似段落参数计算得到所述待处理文本和所述目标对比文本的文本相似度的步骤,直至确定出每个所述对比文本与所述待处理文本的文本相似度。
2.根据权利要求1所述的方法,其特征在于,所述文本数据库服务器还存储有每个所述对比文本的文本长度,每个所述对比文本包括对应的标记,每个所述对比文本包括对应的对比前缀,所述方法还包括:
获取待处理文本并确定所述待处理文本的文本长度和标记,其中,所述待处理文本包括待处理前缀;
根据所述待处理文本的文本长度和每个所述对比文本的文本长度,构建文本处理列表,其中,所述待处理文本的标记和每个所述对比文本的标记按照文件长度在所述文本处理列表中进行排序;
从所述文本处理列表中分别确定第一标记和第二标记,其中,所述第一标记对应的对比文本的文本长度大于所述待处理文本的文本长度,所述第二标记对应的对比文本的文本长度小于所述待处理文本的文本长度;
根据所述待处理文本和所述待处理前缀从所述第一标记对应的对比文本中确定出第一相似文本;
根据所述待处理文本和所述第二标记对应的对比文本的对比前缀从所述第二标记对应的对比文本中确定出第二相似文本。
3.根据权利要求1所述的方法,其特征在于,每个所述对比文本包括对应的对比前缀,所述方法还包括:
获取所述待处理文本的对比前缀;
从所述多个对比文本中确认出待定对比文本,其中,所述待定对比文本的对比前缀与所述待处理文本的对比前缀一致;
将所述待处理文本与每个所述待定对比文本进行逐字对比,直至得到与所述待处理文本完全相同的相同文本。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取待对比文本,并对所述待对比文本进行分段处理,得到多个待对比段落;
将每个所述待处理段落的数值指纹和每个所述待对比段落的数字指纹进行对比得到原始待处理段落和原始待对比段落,其中,所述原始待处理段落和所述原始待对比段落的数字指纹相同,所述原始待处理段落和所述原始待对比段落一一对应;
对所述原始待处理段落进行分句处理得到多个原始待处理句段;
对所述原始待对比段落进行分句处理得到多个原始待对比句段;
为每个所述原始待处理句段和每个所述原始待对比句段均配置标签;
响应与对比操作,根据所述标签确定出目标原始待处理句段与目标原始待对比句段之间的修改操作,其中,所述目标原始待处理句段为多个原始待处理段落中任一原始待处理段落中任一原始待处理句段,所述目标原始待对比句段为与目标原始待处理段落对应的目标原始待对比段落中任一原始待对比句段。
5.根据权利要求1所述的方法,其特征在于,在所述获取待处理文本的步骤之前,所述方法还包括:
若获取到来自于所述待处理文本的初始化请求,则根据所述初始化请求对授权组件进行初始化处理,其中,所述授权组件用于确定待验证信息所对应的授权结果;
当所述授权组件已完成初始化时,对文本查询事项进行初始化处理;
当所述文本查询事项已完成初始化时,显示初始化结果,其中,所述初始化结果用于指示所述待处理文本通过调用所述文本查询事项的接口发送文本查询指令;
当获取到针对于待处理文本的所述文本查询指令时,根据所述文本查询指令获取所述待验证信息,其中,所述待验证信息为根据预设向量以及预设知识图谱生成的,所述预设知识图谱为采用第二加密规则对预设向量进行关联操作后得到的,所述预设向量为采用第一加密规则对加密元素待配置向量进行加密处理后得到的,所述加密元素待配置向量为对预先构建的加密元素进行向量化后得到的,且所述预先构建的加密元素满足合法配置条件;
获取所述第一加密规则和所述第二加密规则;
对所述待验证信息进行解析处理,得到所述预设向量以及所述预设知识图谱;
采用所述第二加密规则对所述预设向量进行关联操作,得到待验证预设知识图谱;
若所述待验证预设知识图谱与所述预设知识图谱匹配一致,则采用所述第一加密规则对所述预设向量进行解密处理,得到所述加密元素待配置向量;
对所述加密元素待配置向量进行解码处理,得到所述加密元素,其中,所述加密元素包括用户标识以及加密时限,所述用户标识用于确定文本查询事项的用户身份,所述加密时限用于确定所述待验证信息的起始时间以及终止时间;
获取指令触发节点、待验证用户标识以及待验证文本查询事项标识,其中,所述加密元素还包括文本查询事项标识,所述待验证文本查询事项标识与所述文本查询事项具有对应关系,所述指令触发节点为获取所述文本查询指令所对应的时间,所述待验证用户标识为根据所述待处理文本确定的;
若所述指令触发节点未超过所述加密时限,所述待验证用户标识与所述用户标识匹配一致,且所述待验证文本查询事项标识与所述文本查询事项标识匹配一致,则确定所述待验证信息所对应的授权结果为第一授权结果,其中,所述第一授权结果表示所述待验证信息已验证成功;
若所述指令触发节点超过所述加密时限,或,所述待验证用户标识与所述用户标识不匹配,或,所述待验证文本查询事项标识与所述文本查询事项标识不匹配,则确定所述待验证信息所对应的授权结果为第二授权结果,其中,所述第二授权结果表示所述待验证信息已验证失败;
若所述授权结果用于指示所述待验证信息已验证成功,则针对于所述待处理文本启动所述文本查询事项的调用功能。
6.根据权利要求5所述的方法,其特征在于,获取第一加密规则,包括:
获取第一私钥以及已加密的私钥;
采用所述第一私钥对所述已加密的私钥进行解密处理,得到所述第一加密规则;
获取第二加密规则,包括:
获取第二私钥以及已加密的公钥信息;
采用所述第二私钥对所述已加密的公钥信息进行解密处理,得到所述第二加密规则。
7.根据权利要求5所述的方法,其特征在于,所述当获取到针对于待处理文本的所述文本查询指令时,根据所述文本查询指令获取所述待验证信息,包括:
当接收到终端设备发送的针对于所述待处理文本的所述文本查询指令时,根据所述文本查询指令获取所述待验证信息;
所述若所述授权结果用于指示所述待验证信息已验证成功,则针对于所述待处理文本启动所述文本查询事项的调用功能,包括:
若所述授权结果用于指示所述待验证信息已验证成功,则针对于所述待处理文本启动所述文本查询事项的调用功能,或,向所述终端设备发送所述授权结果,以使所述终端设备针对于所述待处理文本启动所述文本查询事项的调用功能;
所述方法还包括:
若所述授权结果用于指示所述待验证信息已验证失败,则针对于所述待处理文本拒绝调用所述文本查询事项,或,向所述终端设备发送所述授权结果,以使所述终端设备针对于所述待处理文本拒绝调用所述文本查询事项。
8.一种逐句段对比的相似文本查找装置,其特征在于,应用于计算机设备,所述计算机设备与文本数据库服务器通信连接,所述文本数据库服务器存储有多个对比文本;
所述装置包括:
获取模块,用于获取待处理文本;
分段模块,用于基于预设分隔符将所述待处理文本和目标对比文本进行分段处理,得到所述待处理文本的多个待处理段落和所述目标对比文本的多个目标对比段落,其中,所述目标对比文本为所述多个对比文本中的任一个;
计算模块,用于计算得到每个所述待处理段落和每个所述目标对比段落的数字指纹;从所述多个待处理段落中确定出第一待处理段落、以及从所述多个目标对比段落中确定出第一对比段落,并统计得到相同段落参数,其中,所述第一对比段落的数字指纹与所述第一待处理段落的数字指纹相同;在第二对比段落占所述多个目标对比段落中的占比不超过预设占比的条件下,对所述第二对比段落和第二待处理段落利用动态规划算法计算得到相似段落参数,其中,所述第二对比段落为所述多个目标对比段落中除所述第一对比段落外的段落,所述第二待处理段落为所述多个待处理段落中除所述第一待处理段落外的段落;根据所述相同段落参数和所述相似段落参数计算得到所述待处理文本和所述目标对比文本的文本相似度;
确定模块,用于重复所述基于预设分隔符将所述待处理文本和目标对比文本进行分段处理的步骤至所述根据所述相同段落参数和所述相似段落参数计算得到所述待处理文本和所述目标对比文本的文本相似度的步骤,直至确定出每个所述对比文本与所述待处理文本的文本相似度。
9.根据权利要求8所述的装置,其特征在于,所述文本数据库服务器还存储有每个所述对比文本的文本长度,每个所述对比文本包括对应的标记,每个所述对比文本包括对应的对比前缀,所述确定模块还用于:
获取待处理文本并确定所述待处理文本的文本长度和标记,其中,所述待处理文本包括待处理前缀;根据所述待处理文本的文本长度和每个所述对比文本的文本长度,构建文本处理列表,其中,所述待处理文本的标记和每个所述对比文本的标记按照文件长度在所述文本处理列表中进行排序;从所述文本处理列表中分别确定第一标记和第二标记,其中,所述第一标记对应的对比文本的文本长度大于所述待处理文本的文本长度,所述第二标记对应的对比文本的文本长度小于所述待处理文本的文本长度;根据所述待处理文本和所述待处理前缀从所述第一标记对应的对比文本中确定出第一相似文本;根据所述待处理文本和所述第二标记对应的对比文本的对比前缀从所述第二标记对应的对比文本中确定出第二相似文本。
10.根据权利要求8所述的装置,其特征在于,每个所述对比文本包括对应的对比前缀,所述确定模块还用于:
获取所述待处理文本的对比前缀;从所述多个对比文本中确认出待定对比文本,其中,所述待定对比文本的对比前缀与所述待处理文本的对比前缀一致;将所述待处理文本与每个所述待定对比文本进行逐字对比,直至得到与所述待处理文本完全相同的相同文本。
CN202011309156.XA 2020-11-20 2020-11-20 一种逐句段对比的相似文本查找方法及装置 Active CN112380833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011309156.XA CN112380833B (zh) 2020-11-20 2020-11-20 一种逐句段对比的相似文本查找方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011309156.XA CN112380833B (zh) 2020-11-20 2020-11-20 一种逐句段对比的相似文本查找方法及装置

Publications (2)

Publication Number Publication Date
CN112380833A CN112380833A (zh) 2021-02-19
CN112380833B true CN112380833B (zh) 2021-05-14

Family

ID=74584482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011309156.XA Active CN112380833B (zh) 2020-11-20 2020-11-20 一种逐句段对比的相似文本查找方法及装置

Country Status (1)

Country Link
CN (1) CN112380833B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268564B (zh) * 2021-05-24 2023-07-21 平安科技(深圳)有限公司 相似问题的生成方法、装置、设备及存储介质
CN113590467B (zh) * 2021-06-30 2023-07-21 平安健康保险股份有限公司 数据比对方法、***、计算机设备及计算机可读存储介质
CN113949765A (zh) * 2021-10-18 2022-01-18 北京博瑞彤芸科技股份有限公司 云通讯录的实现方法及装置
CN115017269B (zh) * 2022-08-05 2022-10-25 中科雨辰科技有限公司 一种确定相似文本的数据处理***
CN116204918B (zh) * 2023-01-17 2024-03-26 内蒙古科技大学 自然语言处理中的文本相似度保密计算方法及设备
CN117375627B (zh) * 2023-12-08 2024-04-05 深圳市纷享互联科技有限责任公司 适用于字符串的纯文本格式数据的无损压缩方法和***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653700A (zh) * 2015-03-13 2016-06-08 Tcl集团股份有限公司 视频检索方法及***
CN109359183A (zh) * 2018-10-11 2019-02-19 南京中孚信息技术有限公司 文本信息的查重方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538803A (zh) * 2020-04-20 2020-08-14 京东方科技集团股份有限公司 待匹配的候选提问文本获取方法及装置、设备及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653700A (zh) * 2015-03-13 2016-06-08 Tcl集团股份有限公司 视频检索方法及***
CN109359183A (zh) * 2018-10-11 2019-02-19 南京中孚信息技术有限公司 文本信息的查重方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Plagiarism Detection Through Multilevel Text Comparison;Manuel Zini et al.;《Second International Conference on Automated Production of Cross Media Content for Multi-Channel Distribution (AXMEDIS"06)》;20061213;第1-5页 *
基于提取关键词的中文文档复制检测研究;麻会东 等;《计算机工程与科学》;20071031;第29卷(第10期);第63-64页,第88页 *

Also Published As

Publication number Publication date
CN112380833A (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
CN112380833B (zh) 一种逐句段对比的相似文本查找方法及装置
CN105718502B (zh) 用于高效特征匹配的方法和设备
US8699799B2 (en) Fingerprint verification method and apparatus with high security
CN110019640B (zh) 涉密文件检查方法及装置
US10083194B2 (en) Process for obtaining candidate data from a remote storage server for comparison to a data to be identified
CN107819748B (zh) 一种抗破解的验证码实现方法及装置
Lutsenko et al. Biometric cryptosystems: overview, state-of-the-art and perspective directions
CN112417475A (zh) 指纹图像加密方法、装置、电子设备及可读存储介质
Rathgeb et al. Preventing the cross-matching attack in Bloom filter-based cancelable biometrics
You et al. A transformer based approach for image manipulation chain detection
CN109359481B (zh) 一种基于bk树的反碰撞搜索约减方法
CN116055067B (zh) 一种弱口令检测的方法、装置、电子设备及介质
CN111414621B (zh) 一种恶意网页文件识别方法及装置
CN105450591A (zh) 一种验证信息的方法、***、客户端及服务器
CN115314268B (zh) 基于流量指纹和行为的恶意加密流量检测方法和***
CN115565222A (zh) 人脸识别方法、人脸识别***、终端设备及存储介质
CN115935299A (zh) 授权控制方法、装置、计算机设备和存储介质
CN113849538A (zh) 一种基于模糊搜索多选项的智能提取方法及***
CN115695054B (zh) 基于机器学习的waf拦截页面识别的方法、装置及相关组件
CN113052157B (zh) 标牌检测方法、装置、计算机设备和存储介质
CN116756718B (zh) 一种基于U-Sketch的生物特征数据纠错方法、***、工具
CN115408720A (zh) 数据定密方法、装置、处理设备及存储介质
Jeyaseeli et al. Design of an Efficient Smart Phone Data Extraction Tool Using Aho-Corasick Algorithm.
CN112926422B (zh) 一种基于oph的可撤销二值特征的模板保护方法
CN115001833B (zh) 登录方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant