CN113011194B - 融合关键词特征和多粒度语义特征的文本相似度计算方法 - Google Patents

融合关键词特征和多粒度语义特征的文本相似度计算方法 Download PDF

Info

Publication number
CN113011194B
CN113011194B CN202110403916.1A CN202110403916A CN113011194B CN 113011194 B CN113011194 B CN 113011194B CN 202110403916 A CN202110403916 A CN 202110403916A CN 113011194 B CN113011194 B CN 113011194B
Authority
CN
China
Prior art keywords
text
keyword
semantic
word
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110403916.1A
Other languages
English (en)
Other versions
CN113011194A (zh
Inventor
刘丹
张成辉
史梦雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110403916.1A priority Critical patent/CN113011194B/zh
Publication of CN113011194A publication Critical patent/CN113011194A/zh
Application granted granted Critical
Publication of CN113011194B publication Critical patent/CN113011194B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合关键词特征和多粒度语义特征的文本相似度计算方法,属于自然语言智能处理技术领域。本发明首先基于关键词特征,引入Ksimhash算法,计算当前两个文本的相似度sim1;其次,利用TFIDF算法,抽取出文本关键词,并利用Word2vec模型得到每个词对应的词向量,利用关键词以及关键词向量信息得到文本对应的词语语义向量,基于词语语义向量,计算当前两个文本的相似度sim2;然后,利用Doc2vec模型,得到每篇文本对应的篇章语义向量,基于文本语义向量,计算当前两个文本的相似度sim3;最后,对sim1、sim2、sim3相加求平均,得到最终文本的相似度结果。本发明计算得到的相似度准确度高,可用于文本检索、查重等应用领域。

Description

融合关键词特征和多粒度语义特征的文本相似度计算方法
技术领域
本发明属于自然语言智能处理技术领域,特别涉及一种融合关键词特征和多粒度语义特征的文本相似度计算方法。
背景技术
在比较两篇文章的相似度时,传统的算法有通常以下两类:
一类方案是先将两篇文章分别进行分词,得到一系列词语特征向量,然后计算特征向量之间的距离,如计算它们之间的欧氏距离、海明距离或者夹角余弦等等,从而通过距离的大小来判断两篇文章的相似度。另一类方案是传统hash,考虑为每一个文本通过hash的方式生成一个指纹。第一类方案单纯的使用词特征向量来表征文本内容,容易造成语义的缺失;而第二类方案,其设计目的是为了让整个分布尽可能地均匀,但如果输入内容一旦出现轻微变化,hash值就可能会生很大变化。
Ksimhash作为关键词哈希的一种,其主要思想是降维,将高维的特征向量映射成低维的特征向量,通过两个向量的海明距离来确定文章是否重复或者高度近似。在信息论中,两个等长字符串之间的海明距离是两个字符串对应位置不同字符的个数。即它是将一个字符串变换成另外一个字符串所需要替换的字符个数。
在文本的语义表征层面,Word2vec是常用的词语层向量表示模型。在Word2vec词袋模型训练完成之后,Word2vec模型可映射每个词到一个向量,该向量在一定程度上放映了该词语义特征。在Word2vec模型上引申出的Doc2vec模型,可用于预测一个向量来表示不同的文本或段落语义,该模型的结构克服了Word2vec词袋模型忽略词顺序以及忽略上下文关系的缺点。
发明内容
基于以上技术问题,本发明提供了一种融合关键词特征和多粒度语义特征的文本相似度计算方法,以提升文本间的相似度度量的准确性。
本发明的融合关键词特征和多粒度语义特征的文本相似度计算方法,在获取任意两个文本di和dj的相似度时,执行下列步骤;
步骤1:抽取文本di和dj的关键词;
步骤2:基于Ksimhash算法抽取文本的关键词特征指纹fi1和fj1,并计算fi1和fj1的海明距离得到文本di和dj的关键词特征相似度sim1
步骤3:计算文本di和dj的词语语义相似度sim2
步骤4:计算文本di和dj的篇章语义相似度sim3
步骤5:综合关键词特征相似度sim1、词语语义相似度sim2和篇章语义相似度sim3,得到文本di和dj的相似度sim。
优选的,所述步骤1中,抽取文本的关键词具体为:
步骤1.1:对文本的内容进行文本预处理,得到文本候选词集,所述文本预处理包括:分词、去停用词。
步骤1.2:从文本候选词集中抽取文本的关键词:计算文本候选词集中的所有词语的TFIDF值,将前K个TFIDF值最大的词语作为文本关键词,其中K的取值为正整数,可基于实际应用场景进行设置;
优选的,所述步骤2中,抽取文本的关键词特征指包括:
步骤2.1:计算每个关键词k(k=1,2,…,K)的指定位数(例如16位)hash值Kh:对组成每个关键词的字编码进行指定位数的hash运算,得到各字的hash值,再将各字的hash值进行位异或运算,得到该关键词的hash值;
步骤2.2:计算每个关键词的加权hash值:关键词k的加权值Wk=TFIDFk×Kh,TFIDFk表示关键词k的TFIDF值,即关键词的权重且Kh为1的位和权重TFIDFk正相乘,为0的位和权重TFIDFk负相乘。例如一个关键词Kh=[010110],其对应的权重为TFIDFk=5,则加权后得到[-5,5,-5,5,5,-5];
步骤2.3:将所有关键词的加权hash值进行求和(即按位求和),得到累加向量。如[-5,5,-5,5,5,5]、[-3,-3,-3,3,-3,3]、[1,-1,-1,1,1,1]累加后得到[-7,1,-9,9,3,9];
步骤2.4:对得到的累加向量进行降维计算得到文本的关键词特征指纹:对累加向量的每个元素值进行判断,大于0则置为1,否则置为0,从而得到文本di和dj各自的关键词特征指纹fi1和fj1进而基于文本di和dj的关键词特征指纹,计算两者之间的海明距离,得到文本di和dj的关键词特征相似度sim1
例如,对累加向量[-7,1,-9,9,3,9]进行降维计算,得到的文本的关键词特征指纹为010111。
进一步的,文本di和dj的关键词特征相似度sim1可以设置为:
Figure BDA0003021486390000021
其中,Hi,j表示文本di和dj的关键词特征指纹之间的海明距离,max()函数表示取最大值,函数len()表示计算字符串的长度。在计算两个关键词特征指纹之间的海明距离时,若两个文本的关键词特征指纹的长度(字符串长度)不相同时,对长度较短的关键词特征指纹进行低位补位操作,使两者长度相同。优选的,在低位补0以使得两个关键词特征指纹的长度相同。
优选的,所述步骤3包括以下步骤:
步骤3.1:基于文本的每个关键词,将其前后N个词作为上下文,建立实数向量(例如采用word2vec的CBOW模型的超参数建立),最终使得每个关键词wi都对应一个语义向量
Figure BDA0003021486390000031
其中N为正整数,
步骤3.2:计算文本的词语语义指纹f2:将K个关键词的语义向量求和,得到文本的词语语义指纹f2,即:
Figure BDA0003021486390000032
步骤3.3:计算文本di和文本dj对应的词语语义指纹fi2和fj2的余弦相似度,得到di和dj的词语语义相似度sim2
优选的,所述步骤4包括以下步骤:
步骤4.1:抽取文本中前L个最长的句子作为文本的代表句,并获取每个代表句的句向量,以使得每个代表句sl都对应一个语义向量
Figure BDA0003021486390000034
其中,L为正整数;示例性的,可以采用DOC2VEC中的PV-DM模型计算代表句的句向量;
步骤4.2:计算文本的篇章语义指纹f3:将L个代表句的语义向量求和得到篇章语义指纹f3,即:
Figure BDA0003021486390000033
步骤4.3:计算文本di和dj对应的篇章语义指纹fi3和fj3的余弦相似度,得到di和dj的篇章语义相似度sim3
优选的,所述步骤5中,基于关键词特征相似度sim1、词语语义相似度sim2和篇章语义相似度sim3的均值得到文本di和dj的相似度sim。
综上所述,由于采用了上述技术方案,本发明的有益效果是:在计算两个文本的相似度时,充分考虑文本的关键词特征以及语义特征。同时语义特征的关注点不止停留在词语粒度层,还扩展到整个篇章粒度层,建立多维度文本表示向量,使得文本相似度计算更加准确。本发明可以用于文章的查重,文章的检索等应用领域。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种融合关键词特征和多粒度语义特征的文本相似度计算方法的处理流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例针对传统文本相似度计算方法忽略文本关键词特征与语义特征相结合,以及过多关注词语语义,忽略句子、段落、文本等粗粒度层语义的问题,提出一种融合关键词特征和多粒度语义特征的文本相似度计算方法,参见图1,本发明实施例提供的融合关键词特征和多粒度语义特征的文本相似度计算方法包括下列步骤:
在本实施例中,以计算文本di和dj的相似度为例进行描述,虑了三个维度的特征:关键词特征、词语级语义特征、文本级语义特征。
步骤1:基于Ksimhash算法,得到文本指纹,计算两个文本指纹的海明距离,得到两个文本在关键词特征上的相似度。具体为:
步骤1.1:对当前文本di的文本内容进行分词。
本实施例中,分词采用的工具为jieba,文本di进行分词处理后形成词袋,即di=[wi1,wi2,…,win],wik代表文本di中第k(k=1,2,…,n)个词语,词袋中每个词语之间没有语义关联;
步骤1.2:去除词袋中的停用词。
去停用词时引入停用词表,判断词袋中的每个词是否在停用词表中出现,若出现,则在词袋中去除该词;
步骤1.3:去除停用词后,得到一个过滤后的词袋di=[wi1,wi2,…,wim],该词袋中,wik(k=1,2,…,m)代表文本di中出现且未出现在停用词表中的词语。
基于过滤后的词袋,抽取当前文本的关键词,考虑当前词袋中每个词的词频逆文本频率特征,利用TFIDF(Term Frequency–Inverse Document Frequency)算法,得到当前文本TFIDF值排名前K(K的取值为经验值,优选的取值范围为[5,10],本实施例中,K的值设为10)的词语,形成关键词列表
Figure BDA0003021486390000043
每个关键词keywordi-k都对应一个权重weighti-k,即权重为其对应的TFIDF值。
其中,TFIDF计算公式如下:
Figure BDA0003021486390000041
Figure BDA0003021486390000042
Figure BDA0003021486390000051
其中,count(wik)代表词语wik在文本di中出现的次数,|di|表示当前文本的总词数,N代表文本总数,I(wik,dm)代表词语wik是否在文本dm中出现,若出现,I(wik,dm)值为1,若未出现,I(wik,dm)值为0。
从而最终得到一个词语-权重集合(wk,weightk);
步骤1.4:对当前文本的关键词列表中的词语进行哈希操作,计算每个关键词的hash值,得到(hashk,weightk)集合;
步骤1.5:每个关键词keywordi-k在hash值的基础上,根据其对应的权重weighti-k进行加权,即:Wk=hashk×weightk,hash值为1则和权重正相乘,为0则和权重负相乘。例如一个词经过hash后得到[010110],它对应的权重为5,则加权后得到[-5,5,-5,5,5,-5];
步骤1.6:将关键词列表中的所有词对应的加权hash向量进行求和,如[-5,5,-5,5,5,5]、[-3,-3,-3,3,-3,3]、[1,-1,-1,1,1,1]累加后得到[-7,1,-9,9,3,9];
步骤1.7:对得到的累加向量进行降维操作。即:大于0就置为1,否则置为0,从而得到该语句的Ksimhash值。
例如,[-7,1,-9,9,3,9],得到010111,该值作为当前文本的Ksimhash值。
示例性的,基于上述计算处理后可得到di文本的Ksimhash值为fi1:0011010101000110111001110000100010000110010111011101010000100100,dj文本的Ksimhash值为fj1:0010110100010011110011100100100011001110110011011000110101001101;
步骤1.8:利用文本di和dj各自对应的文本指纹fi1和fj1,计算fi1和fj1的海明距离Hi,j。海明距离的定义为文本指纹的差异的位数。
步骤1.9:获取di和dj的关键词特征相似度sim1,其中
Figure BDA0003021486390000052
对应上述示例,可得到取di和dj的关键词特征相似度sim1为0.65625。
步骤2:基于Word2vec模型,得到两个文本在词语的语义向量,计算两个词语级语义向量的余弦相似度。具体为:
步骤2.1:利用所有文本,基于Word2vec模型,训练词向量,使得每个词wn都对应一个语义向量
Figure BDA0003021486390000053
步骤2.2:对于当前文本di,利用TFIDF算法得到文本对应的关键词列表
Figure BDA0003021486390000054
Figure BDA0003021486390000055
列表中每个词语keywordi-k都对应一个词向量
Figure BDA0003021486390000061
计算当前文本对应的词语语义向量,即:
Figure BDA0003021486390000062
示例性的,可将语义向量的维度设置为200维。
步骤2.3:对每篇文本都进行步骤2的操作,使得每篇文本都有其唯一对应的词语语义向量;
步骤2.4:计算文本di和文本dj对应的词语语义向量fi2和fj2的余弦相似度,得到di和dj的词语语义相似度sim2。设fi2和fj2的维度为n,即fi2=[fi21,fi22,…,fi2n],fj2=[fj21,fj22,…,fj2n],则sim2的计算公式为:
Figure BDA0003021486390000063
示例性的,本示例中计算得到的sim2=0.15181794593072392。
步骤3:基于Doc2vec模型,得到两个文本在篇章的语义向量,计算两个文本级语义向量的余弦相似度。具体步骤如下:
步骤3.1:利用Doc2vec模型,得到文本di和文本dj各自对应的文本向量fi3和fj3;即基于文本的代表句获取文本向量fi3和fj3。示例性的,在计算各代表句的语义向量时,可将语义向量的维度设置为200维。
步骤3.2:计算fi3和fj3的余弦相似度,得到di和dj的篇章语义相似度sim3。设fi3和fj3的维度为n,即fi3=[fi31,fi32,…,fi3n],fj3=[fj31,fj32,…,fj3n],sim3(0.34401781495762856)的计算公式为:
Figure BDA0003021486390000064
示例性的,本示例中计算得到的sim3=0.34401781495762856。
步骤4:对三个局部相似度值sim1、sim2、sim3相加求平均,得到文本di和文本dj最终的相似值sim:。
Figure BDA0003021486390000065
对应上述三个示例,可得到文本di和文本dj最终的相似值sim为:0.3840285869627842。
本发明实施例所提供的相似度计算方法可用于文本检索、查重等应用领域。例如,待处理文本记为文本di,检索的文本集或查重的文本库中任意一篇文本记为文本dj,首先计算文本di和文本dj最终的相似值sim,将相似值sim达到第一指定阈值(大于或等于指定阈值)的文本dj作为其检索或查重结果。
进一步的,还可以首选对检索的文本集或查重的文本库进行聚类,得到多个聚类结果(多个簇),然后首先计算文本di与每个聚类中心所对应的文本之间的相似度sim,当其达到第二指定阈值时,得到其所属的簇,然后再分别计算文本di与该簇中各文本之间的相似度sim,将最大相似度sim对应的文本作为其查重或检索结果。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (6)

1.一种融合关键词特征和多粒度语义特征的文本相似度计算方法,在获取任意两个文本di和dj的相似度时,其特征在于,执行下列步骤;
步骤1:抽取文本di和dj的关键词:
步骤1.1:对文本的内容进行文本预处理,得到文本候选词集,所述文本预处理包括:分词、去停用词;
步骤1.2:从文本候选词集中抽取文本的关键词:计算文本候选词集中的所有词语的TFIDF值,将前K个TFIDF值最大的词语作为文本关键词,其中K的取值为正整数;
步骤2:基于Ksimhash算法抽取文本的关键词特征指纹fi1和fj1,并计算fi1和fj1的海明距离得到文本di和dj的关键词特征相似度sim1
其中,文本的关键词特征指纹的计算为:
步骤2.1:计算每个关键词k的指定位数hash值Kh:对组成每个关键词的字编码进行指定位数的hash运算,得到各字的hash值,再将各字的hash值进行位异或运算,得到当前关键词的hash值;
步骤2.2:计算每个关键词的加权hash值:
定义关键词k的加权值Wk=TFIDFk×Kh
其中TFIDFk表示关键词k的TFIDF值,
且Kh为1的位和TFIDFk正相乘,为0的位和TFIDFk负相乘;
步骤2.3:将文本的所有关键词的加权hash值进行求和,得到累加向量;
步骤2.4:对得到的累加向量进行降维计算得到文本的关键词特征指纹:对累加向量的每个元素值进行判断,大于0则置为1,否则置为0;
步骤3:计算文本di和dj的词语语义相似度sim2
步骤4:计算文本di和dj的篇章语义相似度sim3
步骤5:综合关键词特征相似度sim1、词语语义相似度sim2和篇章语义相似度sim3,得到文本di和dj的相似度sim。
2.如权利要求1所述的方法,其特征在于,将K的取值范围设置为[5,10]。
3.如权利要求1或2所述的方法,其特征在于,所述文本di和dj的关键词特征相似度sim1为:
Figure FDA0003538281230000011
其中,Hi,j表示文本di和dj的关键词特征指纹fi1和fj1之间的海明距离,max()函数表示取最大值,函数len()表示计算字符串的长度,且在计算关键词特征指纹fi1和fj1之间的海明距离时,若关键词特征指纹fi1和fj1的长度不同时,对长度较短的关键词特征指纹进行低位补位操作。
4.如权利要求1所述的方法,其特征在于,所述步骤3包括以下步骤:
步骤3.1:基于文本的每个关键词,将其前后N个词作为上下文,建立实数向量,以使得每个关键词wi都对应一个语义向量
Figure FDA0003538281230000021
其中N为正整数;
步骤3.2:对文本的所有关键词的语义向量求和,得到文本的词语语义指纹f2
步骤3.3:计算文本di和文本dj对应的词语语义指纹fi2和fj2的余弦相似度,得到di和dj的词语语义相似度sim2
5.如权利要求1所述的方法,其特征在于,所述步骤4包括以下步骤:
步骤4.1:抽取文本中前L个最长的句子作为文本的代表句,并获取每个代表句的句向量,以使得每个代表句sl都对应一个语义向量
Figure FDA0003538281230000022
其中,L为正整数;
步骤4.2:将L个代表句的语义向量求和得到篇章语义指纹f3
步骤4.3:计算文本di和dj对应的篇章语义指纹fi3和fj3的余弦相似度,得到di和dj的篇章语义相似度sim3
6.如权利要求1所述的方法,其特征在于,所述步骤5中,基于关键词特征相似度sim1、词语语义相似度sim2和篇章语义相似度sim3的均值得到文本di和dj的相似度sim。
CN202110403916.1A 2021-04-15 2021-04-15 融合关键词特征和多粒度语义特征的文本相似度计算方法 Expired - Fee Related CN113011194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110403916.1A CN113011194B (zh) 2021-04-15 2021-04-15 融合关键词特征和多粒度语义特征的文本相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110403916.1A CN113011194B (zh) 2021-04-15 2021-04-15 融合关键词特征和多粒度语义特征的文本相似度计算方法

Publications (2)

Publication Number Publication Date
CN113011194A CN113011194A (zh) 2021-06-22
CN113011194B true CN113011194B (zh) 2022-05-03

Family

ID=76388805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110403916.1A Expired - Fee Related CN113011194B (zh) 2021-04-15 2021-04-15 融合关键词特征和多粒度语义特征的文本相似度计算方法

Country Status (1)

Country Link
CN (1) CN113011194B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792119A (zh) * 2021-09-17 2021-12-14 平安科技(深圳)有限公司 一种文章原创度评价***、方法、设备及介质
CN113641800B (zh) * 2021-10-18 2022-04-08 中国铁道科学研究院集团有限公司科学技术信息研究所 一种文本查重方法、装置、设备及可读存储介质
CN114943236A (zh) * 2022-06-30 2022-08-26 北京金山数字娱乐科技有限公司 关键词提取方法及装置
CN117371439B (zh) * 2023-12-04 2024-03-08 环球数科集团有限公司 一种基于aigc的相似词判断方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682104A (zh) * 2012-05-04 2012-09-19 中南大学 一种查找相似文本的方法及连接位相似性度量算法
CN103441924A (zh) * 2013-09-03 2013-12-11 盈世信息科技(北京)有限公司 一种基于短文本的垃圾邮件过滤方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404037B (zh) * 2008-11-18 2011-05-18 西安交通大学 一种检测及定位电子文本内容剽窃的方法
US8661341B1 (en) * 2011-01-19 2014-02-25 Google, Inc. Simhash based spell correction
CN107644010B (zh) * 2016-07-20 2021-05-25 阿里巴巴集团控股有限公司 一种文本相似度计算方法及装置
CN107193803B (zh) * 2017-05-26 2020-07-10 北京东方科诺科技发展有限公司 一种基于语义的特定任务文本关键词提取方法
CN108132929A (zh) * 2017-12-25 2018-06-08 上海大学 一种海量非结构化文本的相似性计算方法
CN109948125B (zh) * 2019-03-25 2020-12-08 成都信息工程大学 改进的Simhash算法在文本去重中的方法及***
CN112257453B (zh) * 2020-09-23 2022-02-22 昆明理工大学 融合关键词和语义特征的汉越文本相似度计算方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682104A (zh) * 2012-05-04 2012-09-19 中南大学 一种查找相似文本的方法及连接位相似性度量算法
CN103441924A (zh) * 2013-09-03 2013-12-11 盈世信息科技(北京)有限公司 一种基于短文本的垃圾邮件过滤方法及装置

Also Published As

Publication number Publication date
CN113011194A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN113011194B (zh) 融合关键词特征和多粒度语义特征的文本相似度计算方法
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与***
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN110196980B (zh) 一种基于卷积网络在中文分词任务上的领域迁移
CN107832306A (zh) 一种基于Doc2vec的相似实体挖掘方法
CN109344399B (zh) 一种基于堆叠双向lstm神经网络的文本相似度计算方法
US11580119B2 (en) System and method for automatic persona generation using small text components
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
WO2017193685A1 (zh) 社交网络中数据的处理方法和装置
Tan et al. phi-LSTM: a phrase-based hierarchical LSTM model for image captioning
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及***
CN111666752B (zh) 一种基于关键词注意力机制的电路教材实体关系抽取方法
CN112417153A (zh) 文本分类方法、装置、终端设备和可读存储介质
KR102091633B1 (ko) 연관법령 제공 방법
WO2023173537A1 (zh) 文本情感分析方法、装置、设备及存储介质
WO2022242074A1 (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN112417082B (zh) 一种科研成果数据消歧归档存储方法
CN113158659A (zh) 一种基于司法文本的涉案财物计算方法
Tian et al. Chinese short text multi-classification based on word and part-of-speech tagging embedding
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN115599915A (zh) 基于TextRank与注意力机制的长文本分类方法
Lin et al. Text classification feature extraction method based on deep learning for unbalanced data sets
CN110717015B (zh) 一种基于神经网络的多义词识别方法
Waykar et al. Intent aware optimization for content based lecture video retrieval using Grey Wolf optimizer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220503

CF01 Termination of patent right due to non-payment of annual fee