CN103049569A - 基于向量空间模型的文本相似性匹配方法 - Google Patents

基于向量空间模型的文本相似性匹配方法 Download PDF

Info

Publication number
CN103049569A
CN103049569A CN2012105931481A CN201210593148A CN103049569A CN 103049569 A CN103049569 A CN 103049569A CN 2012105931481 A CN2012105931481 A CN 2012105931481A CN 201210593148 A CN201210593148 A CN 201210593148A CN 103049569 A CN103049569 A CN 103049569A
Authority
CN
China
Prior art keywords
keyword
text
similarity
vector space
space model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105931481A
Other languages
English (en)
Inventor
江潮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd filed Critical WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority to CN2012105931481A priority Critical patent/CN103049569A/zh
Publication of CN103049569A publication Critical patent/CN103049569A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于向量空间模型的文本相似性匹配方法,包括:提取文本的关键词,对所有关键词进行聚类,生成关键词概念树;根据构建的待翻译文本中关键词的关键词概念树计算文本的相似性,按相似性的大小得到在翻译参考文献库中匹配的文本。本发明技术方案相对准确反映了文本之间的联系,这样可以更加充分地反映文本的相似度。

Description

基于向量空间模型的文本相似性匹配方法
技术领域
本发明涉及一种计算机技术,具体说,涉及一种基于向量空间模型的文本相似性匹配方法。
背景技术
现在一些常用的文本检索模型,包括基于文字的检索模型和基于结构的检索模型。基于文本的检索模型又包括:向量空间模型、近似模型、概率模型和统计语言检索模型;基于结构的文本检索模型又包括:内部结构检索模型、外部结构检索模型。
文本的相似度,即两篇文本之间相似程度的数值度量,取两篇文本D1、D2,若(D1∩D2)/(D1∪D2)越接近1表示两篇文本的相似度越高,反之相反。在文本检索技术中,相似度计算主要用于衡量文本对象之间的相似程度,在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分,对象的特征表示和特征集合之间的相似关系。在信息检索、网页判重、推荐***等,都涉及到对象之间或者对象和对象集合的相似性的计算。针对不同的应用场景,受限于数据规模、时空开销等的限制,相似度计算方法的选择又会有所区别和不同。
通常使用的计算相似度的方法是VSM(向量空间模型)。这种模型通过对文本提取关键词,然后进行权值赋值,将文本表示成由权重不同的关键词构成的向量,通过计算两个文本的向量距离从而得到文本的相似度。
由于关键词很可能存在同义词、一词多义等现象,所以用传统的向量空间模型方法得到的相似度计算结果精度不高,结果往往并不令人满意;关键词加权算法仅仅是寻求文本和关键词之间的关系,不能横向地联系不同文本间关键词之间的关系,给文本检索带来了如下问题:
(1)关键词不能准确表达用户需求。
用户很难选择准确的关键词来进行搜索,因为其中涉及到查询和概念之间的语义映射问题。用户给出的查询关键词不能很好地反映用户的意图。
(2)关键词不能反映文本内容。
如果关键词外延太大,就很难或者无法检索到相关文本。
(3)一词多义现象。
由于关键词匹配技术很难解决一词多义现象,往往会检索出大量无关信息。
(4)关键词以同义方式在文中出现。
用户的查询关键词有时并不在文中直接出现,而是以同义词、近义词或者关键词的其他构词方式出现,这样,文本就不能检索到。当查询关键词与文本主题词构成概念上下位关系时,则更加难以检索到。
发明内容
本发明所解决的技术问题是提供一种基于向量空间模型的文本相似性匹配方法,相对准确反映了文本之间的联系,这样可以更加充分地反映文本的相似度。
技术方案如下:
一种基于向量空间模型的文本相似性匹配方法,包括:
提取文本的关键词,对所有关键词进行聚类,生成关键词概念树;
根据构建的待翻译文本中关键词的关键词概念树计算文本的相似性,按相似性的大小得到在翻译参考文献库中匹配的文本。
进一步,所述生成关键词概念树的步骤包括:
提取待分类文档和参考库中的所有关键词,得到关键词集合;
对关键词集合中的关键词进行聚类,把相同概念的关键词聚合为一个概念类集合,根据所述概念类集合生成所述关键词概念树。
进一步,若关键词ki出现的概率p(ki)>P1;且有,在出现ki的该文本中也出现关键词kj的条件概率p(kj|ki)>P2,则认为关键词kj和ki表达相同概念,P1和P2为设定概率阀值。
进一步,生成所述关键词概念树的过程具体步骤包括:
提取待分类文档和参考库中的所有关键词,得到关键词集合C={k1,k2,…,kn},计算C中每个关键词k在参考库中出现的概率p(k),即出现关键词k的文本数和集合中文本总数之比;
根据设定阀值过滤关键词,取pmin<p(k)<pmax的关键词,将其作为待合并的集合项,设符合条件的关键词个数为m个,其中pmax和pmin为设定好的高低限阀值;
对过滤后得到的关键词按p(k)进行降序排序,并将每一个关键词作为一个集合,这样得到初始的m个待合并集合,记为{k1},{k2},….,{km};
在这m个关键词中,计算在关键词ki出现的文本中关键词kj也出现的概率,记为p(kj|ki),共计
Figure BDA00002687023200031
个条件概率,(1≤i,j≤m;i≠j);p(kj|ki)=p(kjki)/p(ki),p(kjki)为kj和ki同时出现在同一篇文本中的概率;
合并待合并集合,生成根节点为关键词集合C的关键词概念树。
进一步,对于待合并的两个关键词集合C1和C2,合并条件为:存在ki属于C1,kj属于C2,且p(ki)>P1,p(kj|ki)>P2,当p(ki)和p(kj|ki)大于所述设定阀值时,关键词ki和kj表达相同概念,满足其所在的集合的合并条件之一;在合并后的集合中任给一个关键词ki,其与集合中一半以上关键词都满足条件p(kj|ki)>P2;若两个集合满足以上两个条件,则概念具有很大相似性,属于可合并的集合,合并后生成上一层概念类集合。
进一步,在参考库中查找匹配的文本的过程包括:提取参考库内所有文档的关键词,组成关键词集合;根据所述关键词概念树的结构,通过改进的文本相似度计算公式,计算待分类文本与参考库中每个文本的相似性,按照相似度降序返回结果文本。
进一步,在翻译参考文献库中查找匹配的文本的过程具体步骤包括:
定义H为生成的概念树的高度,定义depth(k)为节点k在树中的深度,即为从根节点到该节点所经历的边数;
定义com(ki,kj)为离节点ki和kj最近的共同父节点,任两个节点必有一个共同的父节点即根节点;
任两个关键词的积的计算公式:ki×kj=depth(com(ki,kj))/H;
设向量A={a1,a2,…,an},B={b1,b2,…,bn},定义向量计算: A * B = &Sigma; i = 1 n &Sigma; j = 1 n ( a i &times; b j ) ;
文本的相似度计算公式为: Sim ( d 1 , d 2 ) = d 1 * d 2 d 1 * d 1 d 2 * d 2 , d1和d2表示文本向量。
与现有技术相比,技术效果包括:
现有技术中,在用向量空间模型方法对文本进行相似度计算时,若两个文本的向量表示为d1={k1,k2,k3},d2={k4,k5,k6},由于这两个文本向量垂直,所以其相似度为0。由于两个文本进行比较的关键词可能存在的同义关系、概念上下位关系等,只采用相同关键词进行匹配的计算方式不能有效地体现文本之间的关系。
因此,本发明中,通过对关键词进行概念聚类,将概念相似的关键词聚合在一起,通过一种改进的向量余弦计算法,互相垂直的向量的相似度就可能不为0,相对准确反映了文本之间的联系,较之传统的向量空间法,这样可以更加充分地反映文本的相似度。
附图说明
图1是本发明中构建的一个4层的概念树示意图;
具体实施方式
本发明主要涉及技术为文本检索技术中的文本相似度技术。文本检索是一项交叉学科,从大学科上来看,横跨了计算机、情报、数理统计等学科,从具体研究方向上来看,包含文本检索、自然语言处理、数据挖掘、机器学习等技术。
翻译参考文献库(简称参考库)是一个有海量文本的庞大的资源库,采用复杂的相似性检索的方法,对待翻译的文本在其中进行相似性检索,从而找到相似参考文本集合的操作,速度很慢,难以做到快速检索。然而采用相对简单的VSN向量空间法进行相似性检索,其精度非常低,本方法利用一种改进的VSM方法,在保持VSM方法检索速度的前提下可以较大的提高检索精度,得到一个相对精确的相似参考文档集合。
本发明中,给出一种基于向量空间模型的文本相似度计算方法。
步骤1:提取待分类文本的所有关键词,提取参考库内所有文档的关键词,组成关键词集合,对所有关键词进行聚类,生成关键词概念树;
本发明技术方案给出了一个合适的聚类算法,并对关键词概念树的生成进行了详细的描述。
步骤11:提取待分类文本和参考库中的所有关键词,得到关键词集合C={k1,k2,…,kn};
步骤12:对关键词集合中的关键词进行聚类,把相同概念的关键词聚合为同一个概念集合;
如果两个关键词经常在一篇文本中同时出现,即它们同时出现在同一篇文本中的概率大于某一阀值的时候,我们认为其表达相同概念,属于可以合并的概念。即,若关键词ki在文本集中出现的概率p(ki)>P1;且有,在出现ki的该文本中也出现关键词kj的条件概率p(kj|ki)>P2,则认为关键词kj、ki表达相同概念,合并之(P1和P2为设定好的概率阀值)。
同理对于待合并的两个关键词集合C1、C2,若满足如下两个条件:
条件1:存在ki属于C1,kj属于C2,且p(ki)>P1,p(kj|ki)>P2;
当p(ki)和p(kj|ki)大于相应阀值时,我们认为关键词ki和kj表达相同概念,满足其所在的集合的合并条件之一。
条件2:在合并后的集合中任给一个关键词ki,其与集合中一半以上关键词都满足以下条件:p(kj|ki)>P2。
如果同时满足条件1和条件2,则我们认为这两个集合的概念具有满足一定的相似性,属于可以合并的集合,合并后生成上一层概念类集合。
当剩余的任两个关键词集合合并时,都不满足上面的条件,合并终止,剩余的集合的父节点为由所有关键词构成的集合C。
关键词聚类的步骤如下:
步骤121:提取所有关键词,得到关键词集合C={k1,k2,…,kn};
计算C中每个关键词k在出现的概率,即为出现关键词k的文本数和文本总数之比,记为p(k)。
步骤122:根据设定阀值过滤关键词;
取pmin<p(k)<pmax的关键词,将其作为待合并的集合项,设符合条件的关键词个数为m个(pmax、pmin为设定好的高低限阀值,用来去除极高频词和极低频词)。
步骤123:对过滤后得到的关键词按p(k)进行降序排序,并将每一个关键词作为一个集合,这样得到初始的m个待合并集合,记为{k1},{k2},…,{km};
步骤124:在这m个关键词中,计算在关键词ki出现的文本中,关键词kj也出现的概率,记为p(kj|ki),共计个条件概率,(1≤i,j≤m;i≠j);
p(kj|ki)的计算方法:p(kj|ki)=p(kjki)/p(ki),p(kj ki)为kj、ki同时出现在同一篇文本中的概率。
步骤125:合并集合I和J,(I,J为待合并集合);
当同时满足以下两个条件时合并:
i.满足p(ki)>P1,p(kj|ki)>P2;
ii.
Figure BDA00002687023200063
满足|{kj∈I UJ|p(kj|ki)>P2}|>(|I|+|J|)/2,|X|表示集合X中元素的个数。
步骤126:当任两个集合都不符合这两个条件的时合并结束。同时得到第一层聚类关键词集合C={C1,C2,…,Cq};
步骤127:对C={C1,C2,…,Cq},取阈值P3<P2,用上述步骤11至17再次进行聚类(步骤125和126),生成上一层概念集合。
重复此过程,直到聚类集合无法再聚类为止,这些无法再聚类的概念集合为根节点C的子节点,这样就生成一颗根节点为关键词集合C的关键词概念树。
如图1所示,是本发明中构建的一个4层的概念树示意图。
步骤2:根据构建的待翻译文本中关键词的关键词概念树,在翻译参考文献库中查找匹配的文本。
本发明定义了一种基于关键词概念树的向量余弦的计算方法,即一种新的文本相似度计算的方法。
步骤21:根据关键词概念树的结构,采用改进的方法计算不同关键词的相似度;
步骤22:采用改进的余弦相似性方法,计算待译文本和参考译文库中文本的相似度;
在VSM向量空间模型中,任意两个关键词ki、kj是完全垂直的,其积为0。而在本发明的概念树中,任意两个概念ki、kj并不一定是垂直的,而是由它们共同的父节点离根节点的距离决定。例如在图1中k1、k2共同的最近父节点为C11,其离根节点的距离为2,树的高度为3,所以k1×k2=2/3。
1.定义H为生成的概念树的高度。
2.定义depth(k)为节点k在树中的深度,即为从根节点到该节点所经历的边数;
3.定义com(ki,kj)为离节点ki和kj最近的共同父节点,任两个节点必有一个共同的父节点即根节点;
4.任两个关键词的积的计算公式:ki×kj=depth(com(ki,kj))/H;
5.设向量A={a1,a2,…,an},B={b1,b2,…,bn},定义向量计算: A * B = &Sigma; i = 1 n &Sigma; j = 1 n ( a i &times; b j ) ;
6.文本的相似度计算公式为: Sim ( d 1 , d 2 ) = d 1 * d 2 d 1 * d 1 d 2 * d 2 , d1和d2表示文本向量。
步骤23:按照相似度降序返回结果文本。
下面按照本发明技术方案,对具体应用进行说明。
应用一:采用译员成果文档内容相似性匹配的方法优化译员检索
每个译员都有很多自己翻译过的文档,这些翻译过的文档构成了该译员的文档库,众多译员的文档库构成一个庞大的“译员成果文档库”;当一篇待翻译的文档要寻找合适的译员进行翻译,可以将此文档在“译员成果文档库”中进行相似性匹配,从库中匹配出相似度高的文档,这些相似度高的文档对应的译员,就是合适的译员,按照相似度排序就是译员合适度的排序。由于译员曾经翻译过类似的文档,翻译起来就可以做到又快又好。
应用二:采用分类文档库相似性匹配实现文档自动化分类
建立一个按照既定分类标准分类的标准文档库,其中每个分类都有一定数量的样例文档,用尚未分类的文档,通过相似性匹配,匹配出在分类文档库中的相似度超过预定值的所有文档,将这些相似文档的分类情况进行汇总统计和带入计算模型进行加权计算,计算出该文档的分类情况得分,得分最高的分类就是该文档最可能的分类。得分第二的分类得分如果与第一的得分相差不多,可以作为辅助分类。
应用三:采用学科领域划分与相似性检索结合的稿件碎片化策略
在进行大的文档翻译任务时,将大的翻译稿件打碎成多个较小的翻译碎片稿件,是促进分工提高翻译效率的常用方法,但是如何将稿件“打碎”的策略就成为关键环节。这里采用的方法是将稿件的内容不按照单纯的段落章节来进行打碎,而是根据关键词判断段落内容的学科领域,按照学科领域对稿件的内容进行初步的划分,然后再用划分的碎片稿件在历史成果文档库中进行相似性检索,得出这些碎片稿件适合的译员,再按照译员来进行碎片的整合:将适合于同一个或者同一类译员翻译的碎片稿件进行合并或者部分合并,这样最终得到稿件碎片化的结果就是理想的,非常便于安排任务和有利于保障翻译质量。

Claims (7)

1.一种基于向量空间模型的文本相似性匹配方法,包括:
提取文本的关键词,对所有关键词进行聚类,生成关键词概念树;
根据构建的待翻译文本中关键词的关键词概念树计算文本的相似性,按相似性的大小得到在翻译参考文献库中匹配的文本。
2.如权利要求1所述的基于向量空间模型的文本相似性匹配方法,其特征在于,所述生成关键词概念树的步骤包括:
提取待分类文档和参考库中的所有关键词,得到关键词集合;
对关键词集合中的关键词进行聚类,把相同概念的关键词聚合为一个概念类集合,根据所述概念类集合生成所述关键词概念树。
3.如权利要求2所述的基于向量空间模型的文本相似性匹配方法,其特征在于,若关键词ki出现的概率p(ki)>P1;且有,在出现ki的该文本中也出现关键词kj的条件概率p(kj|ki)>P2,则认为关键词kj和ki表达相同概念,P1和P2为设定概率阀值。
4.如权利要求3所述的基于向量空间模型的文本相似性匹配方法,其特征在于,生成所述关键词概念树的过程具体步骤包括:
提取待分类文档和参考库中的所有关键词,得到关键词集合C={k1,k2,…,kn},计算C中每个关键词k在出现的概率,出现关键词k的文本数和文本总数之比记为p(k);
根据设定阀值过滤关键词,取pmin<p(k)<pmax的关键词,将其作为待合并的集合项,设符合条件的关键词个数为m个,其中pmax和pmin为设定好的高低限阀值;
对过滤后得到的关键词按p(k)进行降序排序,并将每一个关键词作为一个集合,这样得到初始的m个待合并集合,记为{k1},{k2},…,{km};
在这m个关键词中,计算在关键词ki出现的文本中关键词kj出现的概率,记为p(kj|ki),共计
Figure FDA00002687023100011
个条件概率,(1≤i,j≤m;i≠j);p(kj|ki)=p(kjki)/p(ki),p(kjki)为kj和ki同时出现在同一篇文本中的概率;
合并待合并集合,生成根节点为关键词集合C的关键词概念树。
5.如权利要求4所述的基于向量空间模型的文本相似性匹配方法,其特征在于,对于待合并的两个关键词集合C1和C2,合并条件为:存在ki属于C1,kj属于C2,且p(ki)>P1,p(kj|ki)>P2,当p(ki)和p(kj|ki)大于所述设定阀值时,关键词ki和kj表达相同概念,满足其所在的集合的合并条件之一;在合并后的集合中任给一个关键词ki,其与集合中一半以上关键词都满足条件p(kj|ki)>P2;若两个集合满足以上两个条件,则概念具有很大相似性,属于可合并的集合,合并后生成上一层概念类集合。
6.如权利要求1所述的基于向量空间模型的文本相似性匹配方法,其特征在于,在翻译参考文献库中查找匹配的文本的过程包括:提取翻译参考文献库内所有文档的关键词,组成关键词集合;根据所述关键词概念树的结构,通过改进的文本相似度计算公式,计算待分类文本与参考库合中每个文本的相似性,按照相似度降序返回结果文本。
7.如权利要求6所述的基于向量空间模型的文本相似性匹配方法,其特征在于,在翻译参考文献库中查找匹配的文本的过程具体步骤包括:
定义H为生成的概念树的高度,定义depth(k)为节点k在树中的深度,即为从根节点到该节点所经历的边数;
定义com(ki,kj)为离节点ki和kj最近的共同父节点,任两个节点必有一个共同的父节点即根节点;
任两个关键词的积的计算公式:ki×kj=depth(com(ki,kj))/H;
设向量A={a1,a2,…,an},B={b1,b2,…,bn},定义向量计算: A * B = &Sigma; i = 1 n &Sigma; j = 1 n ( a i &times; b j ) ;
文本的相似度计算公式为: Sim ( d 1 , d 2 ) = d 1 * d 2 d 1 * d 1 d 2 * d 2 , d1和d2表示文本向量。
CN2012105931481A 2012-12-31 2012-12-31 基于向量空间模型的文本相似性匹配方法 Pending CN103049569A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012105931481A CN103049569A (zh) 2012-12-31 2012-12-31 基于向量空间模型的文本相似性匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012105931481A CN103049569A (zh) 2012-12-31 2012-12-31 基于向量空间模型的文本相似性匹配方法

Publications (1)

Publication Number Publication Date
CN103049569A true CN103049569A (zh) 2013-04-17

Family

ID=48062209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105931481A Pending CN103049569A (zh) 2012-12-31 2012-12-31 基于向量空间模型的文本相似性匹配方法

Country Status (1)

Country Link
CN (1) CN103049569A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678287A (zh) * 2013-11-30 2014-03-26 武汉传神信息技术有限公司 一种关键词翻译统一的方法
CN103678277A (zh) * 2013-12-04 2014-03-26 东软集团股份有限公司 基于文档分段的构建主题-词汇分布的方法及***
CN103761264A (zh) * 2013-12-31 2014-04-30 浙江大学 基于商品评论文档集的概念层次创建方法
CN104424279A (zh) * 2013-08-30 2015-03-18 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN104572645A (zh) * 2013-10-11 2015-04-29 高德软件有限公司 兴趣点数据关联方法及装置
CN104778158A (zh) * 2015-03-04 2015-07-15 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN104866631A (zh) * 2015-06-18 2015-08-26 北京京东尚科信息技术有限公司 咨询问题聚合的方法和装置
CN105138521A (zh) * 2015-08-27 2015-12-09 武汉传神信息技术有限公司 一种翻译行业风险项目通用推荐译员方法
CN105279147A (zh) * 2015-09-29 2016-01-27 武汉传神信息技术有限公司 一种译员稿件快速匹配方法
CN106250412A (zh) * 2016-07-22 2016-12-21 浙江大学 基于多源实体融合的知识图谱构建方法
CN106372122A (zh) * 2016-08-23 2017-02-01 温州大学瓯江学院 一种基于维基语义匹配的文档分类方法及***
CN106503457A (zh) * 2016-10-26 2017-03-15 清华大学 基于转化医学分析平台的临床数据集成技术数据导入方法
CN106776563A (zh) * 2016-12-21 2017-05-31 语联网(武汉)信息技术有限公司 一种为待译稿件匹配译员的方法
CN106802881A (zh) * 2016-12-25 2017-06-06 语联网(武汉)信息技术有限公司 一种基于停用词表为待译稿件匹配译员的方法
CN106844303A (zh) * 2016-12-23 2017-06-13 语联网(武汉)信息技术有限公司 一种基于相似度匹配算法为待译稿件匹配译员的方法
CN106844304A (zh) * 2016-12-26 2017-06-13 语联网(武汉)信息技术有限公司 一种基于译稿分类为待译稿件匹配译员的方法
CN107562854A (zh) * 2017-08-28 2018-01-09 云南大学 一种定量分析党建数据的建模方法
CN108182182A (zh) * 2017-12-27 2018-06-19 传神语联网网络科技股份有限公司 翻译数据库中文档匹配方法、装置及计算机可读存储介质
CN109284486A (zh) * 2018-08-14 2019-01-29 重庆邂智科技有限公司 文本相似性度量方法、装置、终端及存储介质
CN109636199A (zh) * 2018-12-14 2019-04-16 语联网(武汉)信息技术有限公司 一种为待译稿件匹配译员的方法及***
CN110019785A (zh) * 2017-09-29 2019-07-16 北京国双科技有限公司 一种文本分类方法及装置
CN110196906A (zh) * 2019-01-04 2019-09-03 华南理工大学 面向金融行业的基于深度学习文本相似性检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1828610A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种改进的基于文档结构的文档相似性度量方法
CN101004761A (zh) * 2007-01-10 2007-07-25 复旦大学 大规模文本逐次二分的层次聚类方法
US20110213777A1 (en) * 2010-02-01 2011-09-01 Alibaba Group Holding Limited Method and Apparatus of Text Classification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1828610A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种改进的基于文档结构的文档相似性度量方法
CN101004761A (zh) * 2007-01-10 2007-07-25 复旦大学 大规模文本逐次二分的层次聚类方法
US20110213777A1 (en) * 2010-02-01 2011-09-01 Alibaba Group Holding Limited Method and Apparatus of Text Classification

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕月娥: "中文科技期刊数据库文献分类与检索", 《临沂师范学院学报》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424279A (zh) * 2013-08-30 2015-03-18 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN104424279B (zh) * 2013-08-30 2018-11-20 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN104572645A (zh) * 2013-10-11 2015-04-29 高德软件有限公司 兴趣点数据关联方法及装置
CN103678287B (zh) * 2013-11-30 2016-12-07 语联网(武汉)信息技术有限公司 一种关键词翻译统一的方法
CN103678287A (zh) * 2013-11-30 2014-03-26 武汉传神信息技术有限公司 一种关键词翻译统一的方法
CN103678277A (zh) * 2013-12-04 2014-03-26 东软集团股份有限公司 基于文档分段的构建主题-词汇分布的方法及***
CN103761264A (zh) * 2013-12-31 2014-04-30 浙江大学 基于商品评论文档集的概念层次创建方法
CN103761264B (zh) * 2013-12-31 2017-01-18 浙江大学 基于商品评论文档集的概念层次创建方法
CN104778158A (zh) * 2015-03-04 2015-07-15 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN104778158B (zh) * 2015-03-04 2018-07-17 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN104866631A (zh) * 2015-06-18 2015-08-26 北京京东尚科信息技术有限公司 咨询问题聚合的方法和装置
CN105138521A (zh) * 2015-08-27 2015-12-09 武汉传神信息技术有限公司 一种翻译行业风险项目通用推荐译员方法
CN105138521B (zh) * 2015-08-27 2017-12-22 武汉传神信息技术有限公司 一种翻译行业风险项目通用推荐译员方法
CN105279147A (zh) * 2015-09-29 2016-01-27 武汉传神信息技术有限公司 一种译员稿件快速匹配方法
CN105279147B (zh) * 2015-09-29 2018-02-23 语联网(武汉)信息技术有限公司 一种译员稿件快速匹配方法
CN106250412B (zh) * 2016-07-22 2019-04-23 浙江大学 基于多源实体融合的知识图谱构建方法
CN106250412A (zh) * 2016-07-22 2016-12-21 浙江大学 基于多源实体融合的知识图谱构建方法
CN106372122A (zh) * 2016-08-23 2017-02-01 温州大学瓯江学院 一种基于维基语义匹配的文档分类方法及***
CN106503457B (zh) * 2016-10-26 2018-12-11 清华大学 基于转化医学分析平台的临床数据集成技术数据导入方法
CN106503457A (zh) * 2016-10-26 2017-03-15 清华大学 基于转化医学分析平台的临床数据集成技术数据导入方法
CN106776563A (zh) * 2016-12-21 2017-05-31 语联网(武汉)信息技术有限公司 一种为待译稿件匹配译员的方法
CN106844303A (zh) * 2016-12-23 2017-06-13 语联网(武汉)信息技术有限公司 一种基于相似度匹配算法为待译稿件匹配译员的方法
CN106802881A (zh) * 2016-12-25 2017-06-06 语联网(武汉)信息技术有限公司 一种基于停用词表为待译稿件匹配译员的方法
CN106844304A (zh) * 2016-12-26 2017-06-13 语联网(武汉)信息技术有限公司 一种基于译稿分类为待译稿件匹配译员的方法
CN107562854B (zh) * 2017-08-28 2020-09-22 云南大学 一种定量分析党建数据的建模方法
CN107562854A (zh) * 2017-08-28 2018-01-09 云南大学 一种定量分析党建数据的建模方法
CN110019785A (zh) * 2017-09-29 2019-07-16 北京国双科技有限公司 一种文本分类方法及装置
CN110019785B (zh) * 2017-09-29 2022-03-01 北京国双科技有限公司 一种文本分类方法及装置
CN108182182A (zh) * 2017-12-27 2018-06-19 传神语联网网络科技股份有限公司 翻译数据库中文档匹配方法、装置及计算机可读存储介质
CN109284486A (zh) * 2018-08-14 2019-01-29 重庆邂智科技有限公司 文本相似性度量方法、装置、终端及存储介质
CN109284486B (zh) * 2018-08-14 2023-08-22 重庆邂智科技有限公司 文本相似性度量方法、装置、终端及存储介质
CN109636199A (zh) * 2018-12-14 2019-04-16 语联网(武汉)信息技术有限公司 一种为待译稿件匹配译员的方法及***
CN110196906A (zh) * 2019-01-04 2019-09-03 华南理工大学 面向金融行业的基于深度学习文本相似性检测方法

Similar Documents

Publication Publication Date Title
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
US10437867B2 (en) Scenario generating apparatus and computer program therefor
CN107122413A (zh) 一种基于图模型的关键词提取方法及装置
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及***
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN102591988B (zh) 基于语义图的短文本分类方法
CN106776562A (zh) 一种关键词提取方法和提取***
US10095685B2 (en) Phrase pair collecting apparatus and computer program therefor
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
WO2021051518A1 (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN105653518A (zh) 一种基于微博数据的特定群体发现及扩充方法
CN103970729A (zh) 一种基于语义类的多主题提取方法
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN102637192A (zh) 一种自然语言问答的方法
CN102495892A (zh) 一种网页信息抽取方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN101097570A (zh) 一种自动识别分类广告类型的广告分类方法
CN105138864B (zh) 基于生物医学文献的蛋白质交互关系数据库构建方法
CN102253982A (zh) 一种基于查询语义和点击流数据的查询建议方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN102054029A (zh) 一种基于社会网络和人名上下文的人物信息消歧处理方法
CN111221968B (zh) 基于学科树聚类的作者消歧方法及装置
CN115796181A (zh) 一种针对化工领域的文本关系抽取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130417