CN107992470A - 一种基于相似度的文本查重方法及*** - Google Patents

一种基于相似度的文本查重方法及*** Download PDF

Info

Publication number
CN107992470A
CN107992470A CN201711088752.8A CN201711088752A CN107992470A CN 107992470 A CN107992470 A CN 107992470A CN 201711088752 A CN201711088752 A CN 201711088752A CN 107992470 A CN107992470 A CN 107992470A
Authority
CN
China
Prior art keywords
text
similarities
similarity
similar
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711088752.8A
Other languages
English (en)
Inventor
肖云
王闰强
胡松波
何洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201711088752.8A priority Critical patent/CN107992470A/zh
Publication of CN107992470A publication Critical patent/CN107992470A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于相似度的文本查重方法,其步骤包括:对待对比文本进行预处理;从文本数据库中筛选出与所述待对比文本的粗粒度相似度大于一相似候选集阈值的所有候选文本并组成相似候选集;以句子为分段单位,对所述待对比文本和所述候选文本进行分段;通过计算所述候选文本与所述待对比文本的TFIDF相似度、LDA相似度、doc2vec相似度和word2vec相似度来确定细粒度相似度;筛选出细粒度相似度超过一相似判定阈值的候选文本,确定其为所述待对比文本的相似文本,实现查重。本发明还提供一种基于相似度的文本查重***,以实现上述方法。

Description

一种基于相似度的文本查重方法及***
技术领域
本发明涉及数字版权领域,具体为一种基于相似度的文本查重方法及***。
背景技术
目前,数字版权技术广泛应用于防止数字媒体的非法复制。现有针对文本的数字版权技术,主要是要识别分析文本相似程度,通常使用Hash技术对文本进行查重,及时发现文本是否被非法复制,达到版权保护的目的。但是,一段文本可能通过简单的修改就会使Hash后的编码发生变化,此时再利用上述现有技术对文本查重,其效果就不是很理想。
发明内容
本发明的目的是提供一种基于相似度的文本查重方法及***,用于对传统文本数字版权中的文本查重,解决效果不理想的问题。
为了实现上述目的,本发明采用的技术方案如下:
一种基于相似度的文本查重方法,其步骤包括:
对待对比文本进行预处理;
从文本数据库中筛选出与所述待对比文本的粗粒度相似度大于一相似候选集阈值的所有候选文本并组成相似候选集;
以句子为分段单位,对所述待对比文本和所述候选文本进行分段;
通过计算所述候选文本与所述待对比文本的TFIDF相似度、LDA相似度、doc2vec相似度和word2vec相似度来确定细粒度相似度;
筛选出细粒度相似度超过一相似判定阈值的候选文本,确定其为所述待对比文本的相似文本,实现查重。
优选地,所述预处理包括对所述待对比文本进行分词处理和停用词过滤处理。
优选地,所述粗粒度相似度是指所述待对比文本与所述候选文本的相同词的数量占二者总词量的比例。
优选地,所述相似候选集阈值的确定方法是:从所述文本数据库中选取一定数量的文本,通过相似性标注产生相似文本对集合S1,计算该集合S1包含的相似文本对的Jaccard相似度,选取最小Jaccard相似度作为相似候选集阈值。
优选地,计算所述TFIDF相似度的方法是:先分别对所述待对比文本和所述候选文本进行TFIDF向量化,获得向量;再计算该两个向量的余弦相似度,即为TFIDF相似度。
优选地,计算所述LDA相似度的方法是:先分别对所述待对比文本和所述候选文本进行LDA向量化,获得向量;再计算该两个向量的余弦相似度,即为LDA相似度。
优选地,计算所述doc2vec相似度的方法是:先分别对所述待对比文本和所述候选文本进行doc2vec向量化,获得向量;再计算该两个向量的余弦相似度,即为doc2vec相似度。
优选地,计算所述word2vec相似度的方法是:先分别对所述待对比文本和所述候选文本进行word2vec向量化,获得向量;再计算该两个向量的余弦相似度,即为word2vec相似度。
优选地,所述余弦相似度是通过SIMcos(vec1,vec2)函数计算得到。
优选地,所述TFIDF、LDA、doc2vec及word2vec的向量化所用的函数模型需通过从所述文本数据库中选取的一定数量的文本进行训练。
优选地,所述相似判定阈值的确定方法是:将所述相似文本对集合S1进行精细标注产生相似文本对集合S2,在相似文本对集合S2中计算文本对的细粒度相似度,将使得针对该文本对的相似性判定的准确率和召回率取得一相对平衡的最高值或者使得该文本对的F1值取得最高值的阈值作为相似判定阈值。
优选地,所述细粒度相似度等于所述TFIDF相似度、LDA相似度、doc2vec相似度和word2vec相似度与各自所占权重的乘积的加和。
优选地,所述各权重值为从所述相似文本对集合S2中选取的最大AUC值。
一种基于相似度的文本查重***,包括存储器和处理器,所述存储器存储计算机程序,所述程序被配置为由所述处理器执行,所述程序包括用于执行上述方法中各步骤的指令。
本发明提供的基于相似度的文本查重方法,在接受到待对比文本后,从文本数据库中根据粗粒度相似度大于相似候选集阈值来筛选出相似候选集,进而计算每一候选文本与待对比文本的细粒度相似度,进一步地通过相似判定阈值限定,从而从诸多候选文本中找出相似文本。其中,利用TFIDF相似度、LDA相似度、doc2vec相似度和word2vec相似度进行融合来确定候选文本和相似文本的细粒度相似度,从各个角度去确定文本相似程度,增强了文本相似度的准确性,并且经过实验对比发现,当使用单一相似度判断相似方法时,准确率在86%到89%左右,而使用本专利中的判断方法时,准确率达到93%左右。
附图说明
图1是一种基于相似度的文本查重方法流程图。
图2是细粒度相似度组成示意图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
本实施例提供一种基于相似度的文本查重方法,利用文本相似度进行查重处理,如图1所示,步骤包括:
1、对待对比文本D1进行预处理:
预处理包括分词和去停用词,其中分词可以使用结巴等开源的分词工具,去停用词人为设定停用词表或者收集网上已用的停用词表完成去停用词的功能。
2、获取相似候选集:
从文本数据库中筛选出相似候选集,该集合中的每一个候选文本D2与待对比文本D1的粗粒度相似度SIMjaccard(D1,D2)都大于相似候选集阈值。
SIMjaccard(D1,D2)=Count(D1∩D2)/Count(D1UD2),其中Count(D1∩D2)表示D1、D2中相同词的个数,Count(D1UD2)表示D1、D2总共词的个数。
其中,相似候选集阈值确定方法是,首先从文本数据库中选取20万篇文本,然后进行相似性标注产生5万相似文本对,组成集合S1,计算这些相似文本对的Jaccard相似度,然后选取最小Jaccard相似度作为相似候选集阈值,保证相似的文本尽可能的被召回回来。
3、计算细粒度相似度Similarity(D1,D2):
细粒度相似度Similarity(D1,D2)由TFIDF相似度、LDA相似度、doc2vec相似度、word2vec相似度确定,如图2所示,具体计算过程如下:
1)计算TFIDF相似度SIMtfidf(D1,D2):
SIMtfidf(D1,D2)=SIMcos(TFIDFvec(D1),TFIDFvec(D2)),其中SIMcos表示求两个向量的余弦相似度,TFIDFvec(D1)和TFIDFvec(D2)分别表示对待对比文本D1以及候选文本D2进行TFIDF向量化。
TFIDFvec(D)函数作用是把一篇文本TFIDF向量化,它的输入是一篇文本,输出是一个向量。TFIDFvec(D)函数主要有两个过程平率:计算文本平率tf和逆向文本平率idf;
以上式子中ni,j是词ti在文本dj中的出现次数,而分母则是在文本dj中所有字词的出现次数之和;
以上式子中|D|表示语料中的文本总数;
tfidfi,j=tfi,j*idfi
以上式子表示一个词的tfidf等于其它词频乘以该词的逆向文本频率。
其中每个词的逆向文本频率会使用预先准备的语料集合训练好,本发明中使用从文本数据库中选取的20万篇预先准备的文本训练逆得到每个词的逆向文本频率,以及产生一个词典,后面只有在该词典中出现的词才会参与计算。
2)计算LDA相似度SIMlda(D1,D2):
SIMlda(D1,D2)=SIMcos(LDAvec(D1),LDAvec(D2)),其中SIMcos表示求两个向量的余弦相似度,LDAvec(D1)和LDAvec(D2)分别表示对待对比文本D1以及候选文本D2进行LDA向量化。
LDAvec(D)函数的作用是把一篇文本LDA向量化,它的输入是一篇文本,输出是一个向量。LDAvec(D)由两个部分组成:第一部分确定参数,这一部分使用20万篇文本训练LDA模型,确定LDA模型参数;第二部分生成向量,这一部分传入一篇文本,生成这篇文本对应的主题向量,这个主题向量经过归一化,其中每一个维度代表传入文本在该维度代表的主题上的主题值,这部分实现主要通过python中gensim库来实现。
3)计算doc2vec相似度SIMdoc2vec(D1,D2):
SIMdoc2vec(D1,D2)=SIMcos(DOC2VECvec(D1),DOC2VECvec(D2)),其中SIMcos表示两个向量的余弦相似度,DOC2VECvec(D1)和DOC2VECvec(D2)分别表示对待对比文本D1以及候选文本D2进行doc2vec向量化。
DOC2VECvec(D)函数的作用是把一篇文本DOC2VEC向量化,它的输入是一篇文本,输出是一个向量。DOC2VECvec(D)由两个部分组成:第一部分确定参数,这一部分使用20万篇文本训练DOC2VEC模型,确定模型参数;第二部分生成向量,这一部分传入一篇文本,生成这篇文本对应的DOC2VEC向量,这个向量是用连续的数值对一段文本的分布式表示,该部分实现主要通过python中的gensim库来实现。
4)计算word2vec相似度SIMword2vec(D1,D2):
SIMword2vec(D1,D2)=SIMcos(WORD2VECvec(D1),WORD2VECvec(D2)),其中SIMcos表示计算两个向量的余弦相似度,WORD2VEC(D1)以及WORD2VEC(D2)分别表示对待对比文本D1以及候选文本D2进行word2vec向量化。
WORD2VECvec(D)函数的作用是把一篇文本WORD2VEC向量化,它的输入是一篇文本,输出是一个向量。WORD2VECvec(D)由两个部分组成:第一部分确定每个词的词向量,这一部分使用20万篇文本训练WORD2VEC模型,然后得到每个词的词向量;第二部分生成向量,这一部分传入一篇文本,生成这篇文本对应的WORD2VEC向量,这一部分首先获取该文本中每个词的词向量,然后对这些词向量各个维度求和取平均,最后用各个维度的平均值组成一个新的向量,用这个向量来表示该文本,该部分中WORD2VEC模型使用***开源的模型实现。
前四步中出现的SIMcos(vec1,vec2),其具体计算方式是:
其中vec1、vec2分别表示两个向量,n表示向量的维度。
5)计算细粒度相似度Similarityi(D1,D2):
Similarity(D1,D2)=w1*SIMtfidf(D1,D2)+w2*SIMlda(D1,D2)+w3*SIMdoc2vec(D1,D2)+w4*SIMword2vec(D1,D2);其中,w1、w2、w3、w4分别表示四种相似度最后在细粒度相似度中所占的权重,w1+w2+w3+w4=1。
另外,w1、w2、w3、w4的确定方法是:将相似文本对集合S1进行精细标注产生相似文本对集合S2,其中相似的文本对标记为1,不相似的标记为0,然后选取使得相似文本对集合S2的AUC值最大的w1、w2、w3、w4,此时的w1、w2、w3、w4使得细粒度相似度对文本是否相似更具有区分度。
4、选出相似文本:
筛选出细粒度相似度超过相似判定阈值的候选文本,确定为相似文本。
其中,相似判定阈值的确定需要在相似文本对集合S2上计算细粒度相似度;再确定一个阈值,使得针对相似文本对集合S2相似性判定的准确率和召回率相对来说较高,达到一个平衡,或者也可以直接选取使得F1值最高的阈值作为相似判定阈值。
本发明中出现的如Jaccard相似度、tfidf、lda、word2vec、doc2vec、auc、F1等概念或方法都是机器学习中经常出现的概念和方法,参考相关文档即可知道其具体理论以及计算方式,本发明不再赘述,应可理解。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种基于相似度的文本查重方法,其步骤包括:
对待对比文本进行预处理;
从文本数据库中筛选出与所述待对比文本的粗粒度相似度大于一相似候选集阈值的所有候选文本并组成相似候选集;
以句子为分段单位,对所述待对比文本和所述候选文本进行分段;
通过计算所述候选文本与所述待对比文本的TFIDF相似度、LDA相似度、doc2vec相似度和word2vec相似度来确定细粒度相似度;
筛选出细粒度相似度超过一相似判定阈值的候选文本,确定其为所述待对比文本的相似文本,实现查重。
2.根据权利要求1所述的方法,其特征在于,所述预处理包括对所述待对比文本进行分词处理和停用词过滤处理。
3.根据权利要求1所述的方法,其特征在于,所述粗粒度相似度是指所述待对比文本与所述候选文本的相同词的数量占二者总词量的比例。
4.根据权利要求1所述的方法,其特征在于,所述相似候选集阈值的确定方法是:从所述文本数据库中选取一定数量的文本,通过相似性标注产生相似文本对集合S1,计算该集合S1包含的相似文本对的Jaccard相似度,选取最小Jaccard相似度作为所述相似候选集阈值。
5.根据权利要求4所述的方法,其特征在于,所述相似判定阈值的确定方法是:将所述相似文本对集合S1进行精细标注产生相似文本对集合S2,在该集合S2中计算所包含的文本对的细粒度相似度,将使得针对该文本对的相似性判定的准确率和召回率取得一相对平衡的最高值或者使得该文本对的F1值取得最高值的阈值作为所述相似判定阈值。
6.根据权利要求5所述的方法,其特征在于,所述细粒度相似度等于所述TFIDF相似度、LDA相似度、doc2vec相似度和word2vec相似度与各自所占权重的乘积的加和;所述各权重值为从所述相似文本对集合S2中选取的最大AUC值。
7.根据权利要求1或5所述的方法,其特征在于,
计算所述TFIDF相似度的方法是:先分别对所述待对比文本和所述候选文本进行TFIDF向量化,获得向量;再计算该两个向量的余弦相似度,即为TFIDF相似度;
计算所述LDA相似度的方法是:先分别对所述待对比文本和所述候选文本进行LDA向量化,获得向量;再计算该两个向量的余弦相似度,即为LDA相似度;
计算所述doc2vec相似度的方法是:先分别对所述待对比文本和所述候选文本进行doc2vec向量化,获得向量;再计算该两个向量的余弦相似度,即为doc2vec相似度;
计算所述word2vec相似度的方法是:先分别对所述待对比文本和所述候选文本进行word2vec向量化,获得向量;再计算该两个向量的余弦相似度,即为word2vec相似度。
8.根据权利要求7所述的方法,其特征在于,所述余弦相似度是通过SIMcos(vec1,vec2)函数计算得到。
9.根据权利要求8所述的方法,其特征在于,所述TFIDF、LDA、doc2vec及word2vec的向量化所用的函数模型需通过从所述文本数据库中选取的一定数量的文本进行训练。
10.一种基于相似度的文本查重***,包括存储器和处理器,所述存储器存储计算机程序,所述程序被配置为由所述处理器执行,所述程序包括用于执行上述权利要求1-9任一权利要求所述方法的各步骤的指令。
CN201711088752.8A 2017-11-08 2017-11-08 一种基于相似度的文本查重方法及*** Pending CN107992470A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711088752.8A CN107992470A (zh) 2017-11-08 2017-11-08 一种基于相似度的文本查重方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711088752.8A CN107992470A (zh) 2017-11-08 2017-11-08 一种基于相似度的文本查重方法及***

Publications (1)

Publication Number Publication Date
CN107992470A true CN107992470A (zh) 2018-05-04

Family

ID=62030639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711088752.8A Pending CN107992470A (zh) 2017-11-08 2017-11-08 一种基于相似度的文本查重方法及***

Country Status (1)

Country Link
CN (1) CN107992470A (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804418A (zh) * 2018-05-21 2018-11-13 浪潮软件集团有限公司 一种基于语义分析的文档查重方法和装置
CN108846031A (zh) * 2018-05-28 2018-11-20 同方知网数字出版技术股份有限公司 一种面向电力行业的项目相似性对比方法
CN108897738A (zh) * 2018-07-01 2018-11-27 东莞市华睿电子科技有限公司 一种电子作文存在抄袭嫌疑的自动提醒方法
CN108920633A (zh) * 2018-07-01 2018-11-30 东莞市华睿电子科技有限公司 一种论文相似度的检测方法
CN109165291A (zh) * 2018-06-29 2019-01-08 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN109190102A (zh) * 2018-09-12 2019-01-11 张连祥 招商引资项目谈判方案自动生成的***及方法
CN109345006A (zh) * 2018-09-12 2019-02-15 张连祥 一种基于区域发展目标的招商政策分析优化方法及***
CN109446324A (zh) * 2018-10-16 2019-03-08 北京字节跳动网络技术有限公司 样本数据的处理方法、装置、存储介质及电子设备
CN109657232A (zh) * 2018-11-16 2019-04-19 北京九狐时代智能科技有限公司 一种意图识别方法
CN109783778A (zh) * 2018-12-20 2019-05-21 北京中科闻歌科技股份有限公司 文本溯源方法、设备及存储介质
CN109858012A (zh) * 2018-11-30 2019-06-07 武汉斗鱼网络科技有限公司 弹幕文本相似度计算方法、存储介质、设备及***
CN110110744A (zh) * 2019-03-27 2019-08-09 平安国际智慧城市科技股份有限公司 基于语义理解的文本配对方法、装置及计算机设备
CN110322895A (zh) * 2018-03-27 2019-10-11 亿度慧达教育科技(北京)有限公司 语音评测方法及计算机存储介质
CN110347806A (zh) * 2019-07-23 2019-10-18 深圳前海微众银行股份有限公司 原创文本甄别方法、装置、设备与计算机可读存储介质
CN110377843A (zh) * 2019-07-17 2019-10-25 网易(杭州)网络有限公司 直播间处理方法及装置、电子设备、存储介质
CN110472201A (zh) * 2019-07-26 2019-11-19 阿里巴巴集团控股有限公司 基于区块链的文本相似性检测方法及装置、电子设备
CN110532352A (zh) * 2019-08-20 2019-12-03 腾讯科技(深圳)有限公司 文本查重方法及装置、计算机可读存储介质、电子设备
CN110781272A (zh) * 2019-09-10 2020-02-11 杭州云深科技有限公司 一种文本匹配方法和装置、存储介质
CN110837555A (zh) * 2019-11-11 2020-02-25 苏州朗动网络科技有限公司 海量文本去重筛选的方法、设备和存储介质
CN110929002A (zh) * 2018-09-03 2020-03-27 广州神马移动信息科技有限公司 相似文章去重的方法、装置、终端及计算机可读存储介质
CN111581347A (zh) * 2020-04-28 2020-08-25 中国工商银行股份有限公司 语句相似度匹配方法及装置
CN111860662A (zh) * 2020-07-24 2020-10-30 南开大学 一种相似性检测模型的训练方法及装置、应用方法及装置
US10909317B2 (en) 2019-07-26 2021-02-02 Advanced New Technologies Co., Ltd. Blockchain-based text similarity detection method, apparatus and electronic device
CN112529091A (zh) * 2020-12-18 2021-03-19 广州视源电子科技股份有限公司 课件相似度检测方法、装置及存储介质
CN112580299A (zh) * 2020-12-30 2021-03-30 讯飞智元信息科技有限公司 智能评标方法、评标设备及计算机存储介质
CN113641800A (zh) * 2021-10-18 2021-11-12 中国铁道科学研究院集团有限公司科学技术信息研究所 一种文本查重方法、装置、设备及可读存储介质
CN117951256A (zh) * 2024-03-25 2024-04-30 北京长河数智科技有限责任公司 一种基于分层特征向量搜索的文档查重方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302779A (zh) * 2015-10-23 2016-02-03 北京慧点科技有限公司 一种文本相似度比对方法及装置
CN106970910A (zh) * 2017-03-31 2017-07-21 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107015961A (zh) * 2016-01-27 2017-08-04 中文在线数字出版集团股份有限公司 一种文本相似性比对方法
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302779A (zh) * 2015-10-23 2016-02-03 北京慧点科技有限公司 一种文本相似度比对方法及装置
CN107015961A (zh) * 2016-01-27 2017-08-04 中文在线数字出版集团股份有限公司 一种文本相似性比对方法
CN106970910A (zh) * 2017-03-31 2017-07-21 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322895A (zh) * 2018-03-27 2019-10-11 亿度慧达教育科技(北京)有限公司 语音评测方法及计算机存储介质
CN108804418A (zh) * 2018-05-21 2018-11-13 浪潮软件集团有限公司 一种基于语义分析的文档查重方法和装置
CN108804418B (zh) * 2018-05-21 2022-03-08 浪潮软件股份有限公司 一种基于语义分析的文档查重方法和装置
CN108846031A (zh) * 2018-05-28 2018-11-20 同方知网数字出版技术股份有限公司 一种面向电力行业的项目相似性对比方法
CN109165291A (zh) * 2018-06-29 2019-01-08 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN109165291B (zh) * 2018-06-29 2021-07-09 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN108920633A (zh) * 2018-07-01 2018-11-30 东莞市华睿电子科技有限公司 一种论文相似度的检测方法
CN108920633B (zh) * 2018-07-01 2021-12-03 湖北通远格知科技有限公司 一种论文相似度的检测方法
CN108897738A (zh) * 2018-07-01 2018-11-27 东莞市华睿电子科技有限公司 一种电子作文存在抄袭嫌疑的自动提醒方法
CN110929002A (zh) * 2018-09-03 2020-03-27 广州神马移动信息科技有限公司 相似文章去重的方法、装置、终端及计算机可读存储介质
CN109190102A (zh) * 2018-09-12 2019-01-11 张连祥 招商引资项目谈判方案自动生成的***及方法
CN109345006A (zh) * 2018-09-12 2019-02-15 张连祥 一种基于区域发展目标的招商政策分析优化方法及***
CN109446324A (zh) * 2018-10-16 2019-03-08 北京字节跳动网络技术有限公司 样本数据的处理方法、装置、存储介质及电子设备
CN109446324B (zh) * 2018-10-16 2020-12-15 北京字节跳动网络技术有限公司 样本数据的处理方法、装置、存储介质及电子设备
CN109657232A (zh) * 2018-11-16 2019-04-19 北京九狐时代智能科技有限公司 一种意图识别方法
CN109858012A (zh) * 2018-11-30 2019-06-07 武汉斗鱼网络科技有限公司 弹幕文本相似度计算方法、存储介质、设备及***
CN109858012B (zh) * 2018-11-30 2023-11-28 喀斯玛汇智(无锡)科技有限公司 弹幕文本相似度计算方法、存储介质、设备及***
CN109783778A (zh) * 2018-12-20 2019-05-21 北京中科闻歌科技股份有限公司 文本溯源方法、设备及存储介质
CN109783778B (zh) * 2018-12-20 2020-10-23 北京中科闻歌科技股份有限公司 文本溯源方法、设备及存储介质
CN110110744A (zh) * 2019-03-27 2019-08-09 平安国际智慧城市科技股份有限公司 基于语义理解的文本配对方法、装置及计算机设备
CN110377843A (zh) * 2019-07-17 2019-10-25 网易(杭州)网络有限公司 直播间处理方法及装置、电子设备、存储介质
WO2021012958A1 (zh) * 2019-07-23 2021-01-28 深圳前海微众银行股份有限公司 原创文本甄别方法、装置、设备与计算机可读存储介质
CN110347806B (zh) * 2019-07-23 2024-02-06 深圳前海微众银行股份有限公司 原创文本甄别方法、装置、设备与计算机可读存储介质
CN110347806A (zh) * 2019-07-23 2019-10-18 深圳前海微众银行股份有限公司 原创文本甄别方法、装置、设备与计算机可读存储介质
CN111898360B (zh) * 2019-07-26 2023-09-26 创新先进技术有限公司 基于区块链的文本相似性检测方法及装置、电子设备
TWI737183B (zh) * 2019-07-26 2021-08-21 開曼群島商創新先進技術有限公司 基於區塊鏈的文件相似性檢測方法、系統及非暫態電腦可讀媒體
US10909317B2 (en) 2019-07-26 2021-02-02 Advanced New Technologies Co., Ltd. Blockchain-based text similarity detection method, apparatus and electronic device
CN111898360A (zh) * 2019-07-26 2020-11-06 创新先进技术有限公司 基于区块链的文本相似性检测方法及装置、电子设备
CN110472201A (zh) * 2019-07-26 2019-11-19 阿里巴巴集团控股有限公司 基于区块链的文本相似性检测方法及装置、电子设备
US11100284B2 (en) 2019-07-26 2021-08-24 Advanced New Technologies Co., Ltd. Blockchain-based text similarity detection method, apparatus and electronic device
CN110532352A (zh) * 2019-08-20 2019-12-03 腾讯科技(深圳)有限公司 文本查重方法及装置、计算机可读存储介质、电子设备
CN110532352B (zh) * 2019-08-20 2023-10-27 腾讯科技(深圳)有限公司 文本查重方法及装置、计算机可读存储介质、电子设备
CN110781272A (zh) * 2019-09-10 2020-02-11 杭州云深科技有限公司 一种文本匹配方法和装置、存储介质
CN110837555A (zh) * 2019-11-11 2020-02-25 苏州朗动网络科技有限公司 海量文本去重筛选的方法、设备和存储介质
CN111581347B (zh) * 2020-04-28 2023-07-21 中国工商银行股份有限公司 语句相似度匹配方法及装置
CN111581347A (zh) * 2020-04-28 2020-08-25 中国工商银行股份有限公司 语句相似度匹配方法及装置
CN111860662A (zh) * 2020-07-24 2020-10-30 南开大学 一种相似性检测模型的训练方法及装置、应用方法及装置
CN111860662B (zh) * 2020-07-24 2023-03-24 南开大学 一种相似性检测模型的训练方法及装置、应用方法及装置
CN112529091A (zh) * 2020-12-18 2021-03-19 广州视源电子科技股份有限公司 课件相似度检测方法、装置及存储介质
CN112580299A (zh) * 2020-12-30 2021-03-30 讯飞智元信息科技有限公司 智能评标方法、评标设备及计算机存储介质
CN113641800B (zh) * 2021-10-18 2022-04-08 中国铁道科学研究院集团有限公司科学技术信息研究所 一种文本查重方法、装置、设备及可读存储介质
CN113641800A (zh) * 2021-10-18 2021-11-12 中国铁道科学研究院集团有限公司科学技术信息研究所 一种文本查重方法、装置、设备及可读存储介质
CN117951256A (zh) * 2024-03-25 2024-04-30 北京长河数智科技有限责任公司 一种基于分层特征向量搜索的文档查重方法
CN117951256B (zh) * 2024-03-25 2024-05-31 北京长河数智科技有限责任公司 一种基于分层特征向量搜索的文档查重方法

Similar Documents

Publication Publication Date Title
CN107992470A (zh) 一种基于相似度的文本查重方法及***
Zhu et al. Clinical concept extraction with contextual word embedding
CN108984530A (zh) 一种网络敏感内容的检测方法及检测***
CN108108433A (zh) 一种基于规则和数据网络融合的情感分析方法
Song et al. Personalized sentiment classification based on latent individuality of microblog users
CN108763477A (zh) 一种短文本分类方法及***
CN105302779A (zh) 一种文本相似度比对方法及装置
CN108596360B (zh) 一种基于机器学习的判决预测方法及***
CN105488023B (zh) 一种文本相似度评估方法及装置
CN106598949B (zh) 一种词语对文本贡献度的确定方法及装置
CN106372117A (zh) 一种基于词共现的文本分类方法及其装置
Greenwood et al. Improving semi-supervised acquisition of relation extraction patterns
CN108804595A (zh) 一种基于word2vec的短文本表示方法
Gao et al. Text classification research based on improved Word2vec and CNN
CN106649749A (zh) 一种基于汉语音位特征的文本查重方法
CN109766550A (zh) 一种文本品牌识别方法、识别装置和存储介质
CN108268470A (zh) 一种基于演化聚类的评论文本分类提取方法
CN110298024A (zh) 涉密文档的检测方法、装置及存储介质
CN110019805A (zh) 文章主题挖掘方法和装置及计算机可读存储介质
Chen et al. Consistent prototype learning for few-shot continual relation extraction
CN111325015B (zh) 一种基于语义分析的文档查重方法及***
Daowadung et al. Stop word in readability assessment of Thai text
Jameel et al. Word and document embedding with vMF-mixture priors on context word vectors
CN109189910A (zh) 一种面向移动应用问题报告的标签自动推荐方法
CN114912446A (zh) 一种关键词抽取方法、装置及储存介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180504