CN112765976A - 文本相似度计算方法、装置、设备及存储介质 - Google Patents
文本相似度计算方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112765976A CN112765976A CN202011615982.7A CN202011615982A CN112765976A CN 112765976 A CN112765976 A CN 112765976A CN 202011615982 A CN202011615982 A CN 202011615982A CN 112765976 A CN112765976 A CN 112765976A
- Authority
- CN
- China
- Prior art keywords
- text
- word vector
- alignment distance
- vector sequence
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 105
- 239000013598 vector Substances 0.000 claims abstract description 104
- 230000011218 segmentation Effects 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 230000015654 memory Effects 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Linguistics (AREA)
- Computational Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种文本相似度计算方法、装置、设备及存储介质,所述文本相似度计算方法包括:获取第一文本和第二文本;分别对所述第一文本和所述第二文本进行分词,得到第一分词数组和第二分词数组;在词向量库中查找对应于所述第一分词数组的第一词向量序列,以及对应于所述第二分词数组的第二词向量序列;生成所述第一词向量序列和所述第二词向量序列的对齐距离矩阵;对所述对齐距离矩阵进行优化匹配计算,得到所述第一文本和所述第二文本的对齐距离;基于所述对齐距离,计算所述第一文本和所述第二文本的相似度。本申请实现了提高文本相似度计算的准确率。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种文本相似度计算方法、装置、设备及存储介质。
背景技术
随着移动智能终端设备,社交网络的普及与发展,新闻摘要、微博博文、商品评论等短文本数据大量涌出(字符长度小于200的文本数据形式),如何在海量的短文本数据中挖掘出具有商业价值的信息成为现在众多中文自然语言处理研究学者的重点。中文使用人数多且词汇丰富,有灵活多样的词义表达,如果通过对新闻摘要的相似度比较进行聚类分析,提取热点话题或作为检索关键词,有助于用户快捷地了解到一些比较重要的新闻信息。
短文本具有字符数目较少,内容稀疏,语义信息丰富,表达形式多样的特点,因此,在机器翻译、情感分析、信息检索等人工智能领域,短文本发挥着巨大作用。现有的一些文本相似度计算方法存在文本特征表达局限,不够客观,且无法将深层次的词汇特征信息与整体语序结构建立有效关联。
发明内容
本申请实施例的目的在于提供一种文本相似度计算方法、装置、设备及存储介质,用以实现提高文本相似度计算的准确率。
本申请实施例第一方面提供了一种文本相似度计算方法,包括:获取第一文本和第二文本;分别对所述第一文本和所述第二文本进行分词,得到第一分词数组和第二分词数组;在词向量库中查找对应于所述第一分词数组的第一词向量序列,以及对应于所述第二分词数组的第二词向量序列;生成所述第一词向量序列和所述第二词向量序列的对齐距离矩阵;对所述对齐距离矩阵进行优化匹配计算,得到所述第一文本和所述第二文本的对齐距离;基于所述对齐距离,计算所述第一文本和所述第二文本的相似度。
于一实施例中,在所述获取第一文本和第二文本之前,还包括:获取预存语料数据;对所述预存语料数据进行文本分词处理;基于文本分词处理后的所述预存语料数据,进行词向量模型训练,构建词向量库。
于一实施例中,所述生成所述第一词向量序列和所述第二词向量序列的对齐距离矩阵,包括:获取所述第一词向量序列和所述第二词向量序列中的最大长度值;基于所述最大长度值,对所述第一词向量序列和所述第二词向量序列中较短的序列进行填充,得到长度相同的所述第一词向量序列和所述第二词向量序列;利用动态时间规整算法,计算所述对齐距离矩阵。
于一实施例中,所述对所述对齐距离矩阵进行优化匹配计算,得到所述第一文本和所述第二文本的对齐距离,包括:获取所述对齐距离矩阵每行每列的最小元素值;遍历所述对齐距离矩阵,将所述对齐距离矩阵中的每个元素减去所述元素所在行列的所述最小元素值,得到第一矩阵;基于所述第一矩阵中独立零元素的第一位置,生成第二矩阵,所述第二矩阵与所述对齐距离矩阵的行列数相同,所述第二矩阵中与所述第一位置相同的第二位置的元素为1,除所述第二位置以外的其他位置的元素为0;将所述对齐距离矩阵中对应于所述第二位置的元素相加,得到所述对齐距离。
于一实施例中,所述基于所述对齐距离,计算所述第一文本和所述第二文本的相似度,包括:获取所述第一矩阵中所述独立零元素的个数;根据所述独立零元素的个数和所述对齐距离,计算所述相似度。
本申请实施例第二方面提供了一种文本相似度计算装置,包括:获取模块,用于获取第一文本和第二文本;分词模块,用于分别对所述第一文本和所述第二文本进行分词,得到第一分词数组和第二分词数组;查找模块,用于在词向量库中查找对应于所述第一分词数组的第一词向量序列,以及对应于所述第二分词数组的第二词向量序列;生成模块,用于生成所述第一词向量序列和所述第二词向量序列的对齐距离矩阵;匹配模块,用于对所述对齐距离矩阵进行优化匹配计算,得到所述第一文本和所述第二文本的对齐距离;计算模块,用于基于所述对齐距离,计算所述第一文本和所述第二文本的相似度。
于一实施例中,还包括:构建模块,用于获取预存语料数据,对所述预存语料数据进行文本分词处理,基于文本分词处理后的所述预存语料数据,进行词向量模型训练,构建词向量库。
于一实施例中,所述生成模块用于:获取所述第一词向量序列和所述第二词向量序列中的最大长度值;基于所述最大长度值,对所述第一词向量序列和所述第二词向量序列中较短的序列进行填充,得到长度相同的所述第一词向量序列和所述第二词向量序列;利用动态时间规整算法,计算所述对齐距离矩阵。
于一实施例中,所述匹配模块用于:获取所述对齐距离矩阵每行每列的最小元素值;遍历所述对齐距离矩阵,将所述对齐距离矩阵中的每个元素减去所述元素所在行列的所述最小元素值,得到第一矩阵;基于所述第一矩阵中独立零元素的第一位置,生成第二矩阵,所述第二矩阵与所述对齐距离矩阵的行列数相同,所述第二矩阵中与所述第一位置相同的第二位置的元素为1,除所述第二位置以外的其他位置的元素为0;将所述对齐距离矩阵中对应于所述第二位置的元素相加,得到所述对齐距离。
于一实施例中,所述计算模块用于:获取所述第一矩阵中所述独立零元素的个数;根据所述独立零元素的个数和所述对齐距离,计算所述相似度。
本申请实施例第三方面提供了一种电子设备,包括:存储器,用以存储计算机程序;处理器,用以执行本申请实施例第一方面及其任一实施例的方法。
本申请实施例第四方面提供了一种非暂态电子设备可读存储介质,包括:程序,当其藉由电子设备运行时,使得所述电子设备执行本申请实施例第一方面及其任一实施例的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一实施例的电子设备的结构示意图;
图2为本申请一实施例的文本相似度计算方法的流程示意图;
图3为本申请一实施例的文本相似度计算装置的结构示意图。
附图标记:
100-电子设备,110-总线,120-处理器,130-存储器,300-文本相似度计算装置,310-获取模块,320-分词模块,330-查找模块,340-生成模块,350-匹配模块,360-计算模块,370-构建模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,并不表示排列序号,也不能理解为指示或暗示相对重要性。
在本申请的描述中,术语“包括”、“包含”等表示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、步骤、操作、元素、组件和/或其集合的存在或添加。
在本申请的描述中,除非另有明确的规定和限定,术语“安装”、“设置”、“设有”、“连接”、“配置为”应做广义理解。例如,可以是固定连接,也可以是可拆卸连接,或整体式构造;可以是机械连接,也可以是电连接;可以是直接相连,也可以是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
请参看图1,其为本申请一实施例的电子设备100的结构示意图,包括至少一个处理器120和存储器130,图1中以一个处理器为例。处理器120和存储器130通过总线110连接,存储器130存储有可被至少一个处理器120执行的指令,指令被至少一个处理器120执行,以使至少一个处理器120执行如下述实施例中的文本相似度计算方法。
于一实施例中,处理器120可以是通用处理器,包括但不限于中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等,还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器120是电子设备100的控制中心,利用各种接口和线路连接整个电子设备100的各个部分。处理器120可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。
于一实施例中,存储器130可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,包括但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),静态随机存取存储器(Static Random Access Memory,简称SRAM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(ElectricErasable Programmable Read-Only Memory,EEPROM)等。
图1所示的电子设备100的结构仅为示意,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
如图2所示,其为本申请一实施例的文本相似度计算方法的流程示意图,该方法可由图1所示的电子设备100来执行,以实现提高短文本相似度计算的准确率。该方法包括如下步骤:
步骤210:获取第一文本和第二文本。
在上述步骤中,第一文本和第二文本均为短文本,短文本是一种字符长度小于200的文本数据形式。
于一实施例中,在获取第一文本和第二文本之前,还可以包括:获取预存语料数据;对预存语料数据进行文本分词处理;基于文本分词处理后的预存语料数据,进行词向量模型训练,构建词向量库。
在上述步骤中,预存语料数据可以是新闻语料,可以使用jieba工具对预存语料数据进行文本分词处理,采用Word2vec对预存语料数据进行训练学习,构建词向量库。Word2vec是来源于Google开发的词向量计算模型,其利用深度学习的思想,可以从大规模的文本数据中自动学习词语数据的本质信息。词向量模型的训练可以基于CBOW模型(Continuous Bag-of-Words Model,连续词袋模型)。
步骤220:分别对第一文本和第二文本进行分词,得到第一分词数组和第二分词数组。
在上述步骤中,使用jieba工具对第一文本进行分词,得到第一分词数组,对第二文本进行分词,得到第二分词数组。
步骤230:在词向量库中查找对应于第一分词数组的第一词向量序列,以及对应于第二分词数组的第二词向量序列。
在上述步骤中,根据第一分词数组,在词向量库中检索得到第一词向量序列,根据第二分词数组,在词向量库中检索得到第二词向量序列。
步骤240:生成第一词向量序列和第二词向量序列的对齐距离矩阵。
在上述步骤中,可以通过DTW(Dynamic Time Warping,动态时间规整)算法计算第一词向量序列和第二词向量序列的元素间的对齐距离,形成一个对齐距离矩阵。
于一实施例中,生成第一词向量序列和第二词向量序列的对齐距离矩阵可以包括:获取第一词向量序列和第二词向量序列中的最大长度值;基于最大长度值,对第一词向量序列和第二词向量序列中较短的序列进行填充,得到长度相同的第一词向量序列和第二词向量序列;利用动态时间规整算法,计算对齐距离矩阵。
在上述步骤中,为了使生成的对齐距离矩阵的行列数保持一致,可以对第一词向量序列和第二词向量序列进行定量分析,按照两者中的最大长度值,对较短的词向量序列进行填充,使得填充后的第一词向量序列和第二词向量序列长度保持一致,从而使根据DTW算法计算得到的对齐距离矩阵为一个方阵。
步骤250:对对齐距离矩阵进行优化匹配计算,得到第一文本和第二文本的对齐距离。
在上述步骤中,可以采用匈牙利算法,对生成的对齐距离矩阵进行行列最优化匹配,挑选出每行每列中最小的对齐距离,然后进行累加运算。
于一实施例中,对对齐距离矩阵进行优化匹配计算,得到第一文本和第二文本的对齐距离可以包括:获取对齐距离矩阵每行每列的最小元素值;遍历对齐距离矩阵,将对齐距离矩阵中的每个元素减去元素所在行列的最小元素值,得到第一矩阵;基于第一矩阵中独立零元素的第一位置,生成第二矩阵,第二矩阵与对齐距离矩阵的行列数相同,第二矩阵中与第一位置相同的第二位置的元素为1,除第二位置以外的其他位置的元素为0;将对齐距离矩阵中对应于第二位置的元素相加,得到对齐距离。
例如,第一文本为“湖南政府今年将加强文明建设”,第二文本为“今年湖南政府重点加强文明建设”,利用DTW算法得到的对齐距离矩阵W可以表示为:
可以将对齐距离矩阵W中的每一行减去各行的最小元素值,所得矩阵的每一列再减去当前各列的最小元素值,得到第一矩阵,也可以将对齐距离矩阵W中的每一列减去各列的最小元素值,所得矩阵的每一行再减去当前各行的最小元素值,得到第一矩阵。在第一矩阵中寻找独立零元素,独立零元素是指矩阵中处在不同行不同列的零元素,将独立零元素的位置标记为第一位置。生成一个与对齐距离矩阵W的行列数相同的零矩阵,将该零矩阵中与第一位置相同的位置标记为第二位置,将第二位置的元素替换为1,得到第二矩阵W2。
接上述例子,第二矩阵W2可以表示为:
将对齐距离矩阵W中对应于第二位置的元素相加,得到对齐距离,上述例子中,第一文本和第二文本的对齐距离d=0+0+0+0.4895+0+0+0=0.4895。
于一实施例中,获取对齐距离矩阵每行每列的最小元素值之后,可以比较行列中最小元素的总数目,以数目小的一方开始遍历,从而更快速的获得含独立零元素的第一矩阵。
步骤260:基于对齐距离,计算第一文本和第二文本的相似度。
在上述步骤中,第一文本和第二文本的对齐距离越小,则第一文本和第二文本的相似度越高。
于一实施例中,基于对齐距离,计算第一文本和第二文本的相似度,可以包括:获取第一矩阵中独立零元素的个数;根据独立零元素的个数和对齐距离,计算相似度。
在上述步骤中,第一文本和第二文本的相似度可以采用以下公式计算:
其中,Sim(s1,s2)表示第一文本s1和第二文本s2的相似度,d(s1,s2)表示第一文本s1和第二文本s2的对齐距离,Count0表示第一矩阵中独立零元素的个数。接上述例子,第一文本和第二文本的对齐距离为0.4895,第一矩阵中独立零元素的个数为7,则
本申请的文本相似度计算方法可以根据语序的凌乱程度,对语义相近的短文本进行良好的相似度等级划分,对一般场景下的短文本,能够进行合理有效的相似度计算。
如图3所示,其为本申请一实施例的文本相似度计算装置300的结构示意图,该装置可应用于图1所示的电子设备100,包括:获取模块310、分词模块320、查找模块330、生成模块340、匹配模块350和计算模块360。各个模块的原理关系如下:
获取模块310,用于获取第一文本和第二文本。
分词模块320,用于分别对第一文本和第二文本进行分词,得到第一分词数组和第二分词数组。
查找模块330,用于在词向量库中查找对应于第一分词数组的第一词向量序列,以及对应于第二分词数组的第二词向量序列。
生成模块340,用于生成第一词向量序列和第二词向量序列的对齐距离矩阵。
匹配模块350,用于对对齐距离矩阵进行优化匹配计算,得到第一文本和第二文本的对齐距离。
计算模块360,用于基于对齐距离,计算第一文本和第二文本的相似度。
于一实施例中,文本相似度计算装置300还包括:构建模块370,用于获取预存语料数据,对预存语料数据进行文本分词处理,基于文本分词处理后的预存语料数据,进行词向量模型训练,构建词向量库。
于一实施例中,生成模块340用于:获取第一词向量序列和第二词向量序列中的最大长度值;基于最大长度值,对第一词向量序列和第二词向量序列中较短的序列进行填充,得到长度相同的第一词向量序列和第二词向量序列;利用动态时间规整算法,计算对齐距离矩阵。
于一实施例中,匹配模块350用于:获取对齐距离矩阵每行每列的最小元素值;遍历对齐距离矩阵,将对齐距离矩阵中的每个元素减去元素所在行列的最小元素值,得到第一矩阵;基于第一矩阵中独立零元素的第一位置,生成第二矩阵,第二矩阵与对齐距离矩阵的行列数相同,第二矩阵中与第一位置相同的第二位置的元素为1,除第二位置以外的其他位置的元素为0;将对齐距离矩阵中对应于第二位置的元素相加,得到对齐距离。
于一实施例中,计算模块360用于:获取第一矩阵中独立零元素的个数;根据独立零元素的个数和对齐距离,计算相似度。
上述文本相似度计算装置300的详细描述,请参见上述实施例中相关方法步骤的描述。
本发明实施例还提供了一种电子设备可读存储介质,包括:程序,当其在电子设备上运行时,使得电子设备可执行上述实施例中方法的全部或部分流程。其中,存储介质可为磁盘、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等。存储介质还可以包括上述种类的存储器的组合。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。
在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上仅为本申请的优选实施例而已,仅用于说明本申请的技术方案,并不用于限制本申请。对于本技术领域的普通技术人员而言,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种文本相似度计算方法,其特征在于,包括:
获取第一文本和第二文本;
分别对所述第一文本和所述第二文本进行分词,得到第一分词数组和第二分词数组;
在词向量库中查找对应于所述第一分词数组的第一词向量序列,以及对应于所述第二分词数组的第二词向量序列;
生成所述第一词向量序列和所述第二词向量序列的对齐距离矩阵;
对所述对齐距离矩阵进行优化匹配计算,得到所述第一文本和所述第二文本的对齐距离;
基于所述对齐距离,计算所述第一文本和所述第二文本的相似度。
2.根据权利要求1所述的方法,其特征在于,在所述获取第一文本和第二文本之前,还包括:
获取预存语料数据;
对所述预存语料数据进行文本分词处理;
基于文本分词处理后的所述预存语料数据,进行词向量模型训练,构建词向量库。
3.根据权利要求1所述的方法,其特征在于,所述生成所述第一词向量序列和所述第二词向量序列的对齐距离矩阵,包括:
获取所述第一词向量序列和所述第二词向量序列中的最大长度值;
基于所述最大长度值,对所述第一词向量序列和所述第二词向量序列中较短的序列进行填充,得到长度相同的所述第一词向量序列和所述第二词向量序列;
利用动态时间规整算法,计算所述对齐距离矩阵。
4.根据权利要求1所述的方法,其特征在于,所述对所述对齐距离矩阵进行优化匹配计算,得到所述第一文本和所述第二文本的对齐距离,包括:
获取所述对齐距离矩阵每行每列的最小元素值;
遍历所述对齐距离矩阵,将所述对齐距离矩阵中的每个元素减去所述元素所在行列的所述最小元素值,得到第一矩阵;
基于所述第一矩阵中独立零元素的第一位置,生成第二矩阵,所述第二矩阵与所述对齐距离矩阵的行列数相同,所述第二矩阵中与所述第一位置相同的第二位置的元素为1,除所述第二位置以外的其他位置的元素为0;
将所述对齐距离矩阵中对应于所述第二位置的元素相加,得到所述对齐距离。
5.根据权利要求4所述的方法,其特征在于,所述基于所述对齐距离,计算所述第一文本和所述第二文本的相似度,包括:
获取所述第一矩阵中所述独立零元素的个数;
根据所述独立零元素的个数和所述对齐距离,计算所述相似度。
6.一种文本相似度计算装置,其特征在于,包括:
获取模块,用于获取第一文本和第二文本;
分词模块,用于分别对所述第一文本和所述第二文本进行分词,得到第一分词数组和第二分词数组;
查找模块,用于在词向量库中查找对应于所述第一分词数组的第一词向量序列,以及对应于所述第二分词数组的第二词向量序列;
生成模块,用于生成所述第一词向量序列和所述第二词向量序列的对齐距离矩阵;
匹配模块,用于对所述对齐距离矩阵进行优化匹配计算,得到所述第一文本和所述第二文本的对齐距离;
计算模块,用于基于所述对齐距离,计算所述第一文本和所述第二文本的相似度。
7.根据权利要求6所述的装置,其特征在于,还包括:
构建模块,用于获取预存语料数据,对所述预存语料数据进行文本分词处理,基于文本分词处理后的所述预存语料数据,进行词向量模型训练,构建词向量库。
8.根据权利要求6所述的装置,其特征在于,所述生成模块用于:
获取所述第一词向量序列和所述第二词向量序列中的最大长度值;
基于所述最大长度值,对所述第一词向量序列和所述第二词向量序列中较短的序列进行填充,得到长度相同的所述第一词向量序列和所述第二词向量序列;
利用动态时间规整算法,计算所述对齐距离矩阵。
9.一种电子设备,其特征在于,包括:
存储器,用以存储计算机程序;
处理器,用以执行如权利要求1至5中任一项所述的方法。
10.一种非暂态电子设备可读存储介质,其特征在于,包括:程序,当其藉由电子设备运行时,使得所述电子设备执行权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011615982.7A CN112765976A (zh) | 2020-12-30 | 2020-12-30 | 文本相似度计算方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011615982.7A CN112765976A (zh) | 2020-12-30 | 2020-12-30 | 文本相似度计算方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112765976A true CN112765976A (zh) | 2021-05-07 |
Family
ID=75697855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011615982.7A Pending CN112765976A (zh) | 2020-12-30 | 2020-12-30 | 文本相似度计算方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765976A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022262542A1 (zh) * | 2021-06-15 | 2022-12-22 | 南京硅基智能科技有限公司 | 文本输出方法及***、存储介质、电子装置 |
CN116028631A (zh) * | 2023-03-30 | 2023-04-28 | 粤港澳大湾区数字经济研究院(福田) | 一种多事件检测方法及相关设备 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106776548A (zh) * | 2016-12-06 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种文本的相似度计算的方法和装置 |
CN106776559A (zh) * | 2016-12-14 | 2017-05-31 | 东软集团股份有限公司 | 文本语义相似度计算的方法及装置 |
CN107704474A (zh) * | 2016-08-08 | 2018-02-16 | 华为技术有限公司 | 属性对齐方法和装置 |
CN109101620A (zh) * | 2018-08-08 | 2018-12-28 | 广州神马移动信息科技有限公司 | 相似度计算方法、聚类方法、装置、存储介质及电子设备 |
CN109858015A (zh) * | 2018-12-12 | 2019-06-07 | 湖北工业大学 | 一种基于ctw和km算法的语义相似度计算方法及装置 |
CN110134852A (zh) * | 2019-05-06 | 2019-08-16 | 北京四维图新科技股份有限公司 | 一种文档的去重方法、设备及可读介质 |
CN110532554A (zh) * | 2019-08-26 | 2019-12-03 | 南京信息职业技术学院 | 一种中文摘要生成方法、***及存储介质 |
CN110704621A (zh) * | 2019-09-25 | 2020-01-17 | 北京大米科技有限公司 | 文本处理方法、装置及存储介质和电子设备 |
CN110929498A (zh) * | 2018-09-20 | 2020-03-27 | ***通信有限公司研究院 | 一种短文本相似度的计算方法及装置、可读存储介质 |
CN110956039A (zh) * | 2019-12-04 | 2020-04-03 | 中国太平洋保险(集团)股份有限公司 | 一种基于多维度向量化编码的文本相似度计算方法及装置 |
CN111159336A (zh) * | 2019-12-20 | 2020-05-15 | 银江股份有限公司 | 一种半监督司法实体及事件联合提取方法 |
CN111309905A (zh) * | 2020-02-06 | 2020-06-19 | 北京明略软件***有限公司 | 一种对话语句的聚类方法、装置、电子设备及存储介质 |
CN111445903A (zh) * | 2020-03-27 | 2020-07-24 | 中国工商银行股份有限公司 | 企业名称识别方法及装置 |
CN112131341A (zh) * | 2020-08-24 | 2020-12-25 | 博锐尚格科技股份有限公司 | 文本相似度计算方法、装置、电子设备和存储介质 |
-
2020
- 2020-12-30 CN CN202011615982.7A patent/CN112765976A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704474A (zh) * | 2016-08-08 | 2018-02-16 | 华为技术有限公司 | 属性对齐方法和装置 |
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106776548A (zh) * | 2016-12-06 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种文本的相似度计算的方法和装置 |
CN106776559A (zh) * | 2016-12-14 | 2017-05-31 | 东软集团股份有限公司 | 文本语义相似度计算的方法及装置 |
CN109101620A (zh) * | 2018-08-08 | 2018-12-28 | 广州神马移动信息科技有限公司 | 相似度计算方法、聚类方法、装置、存储介质及电子设备 |
CN110929498A (zh) * | 2018-09-20 | 2020-03-27 | ***通信有限公司研究院 | 一种短文本相似度的计算方法及装置、可读存储介质 |
CN109858015A (zh) * | 2018-12-12 | 2019-06-07 | 湖北工业大学 | 一种基于ctw和km算法的语义相似度计算方法及装置 |
CN110134852A (zh) * | 2019-05-06 | 2019-08-16 | 北京四维图新科技股份有限公司 | 一种文档的去重方法、设备及可读介质 |
CN110532554A (zh) * | 2019-08-26 | 2019-12-03 | 南京信息职业技术学院 | 一种中文摘要生成方法、***及存储介质 |
CN110704621A (zh) * | 2019-09-25 | 2020-01-17 | 北京大米科技有限公司 | 文本处理方法、装置及存储介质和电子设备 |
CN110956039A (zh) * | 2019-12-04 | 2020-04-03 | 中国太平洋保险(集团)股份有限公司 | 一种基于多维度向量化编码的文本相似度计算方法及装置 |
CN111159336A (zh) * | 2019-12-20 | 2020-05-15 | 银江股份有限公司 | 一种半监督司法实体及事件联合提取方法 |
CN111309905A (zh) * | 2020-02-06 | 2020-06-19 | 北京明略软件***有限公司 | 一种对话语句的聚类方法、装置、电子设备及存储介质 |
CN111445903A (zh) * | 2020-03-27 | 2020-07-24 | 中国工商银行股份有限公司 | 企业名称识别方法及装置 |
CN112131341A (zh) * | 2020-08-24 | 2020-12-25 | 博锐尚格科技股份有限公司 | 文本相似度计算方法、装置、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
李星: "基于时间翘曲距离的短文本语义相似度研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 2020, pages 138 - 563 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022262542A1 (zh) * | 2021-06-15 | 2022-12-22 | 南京硅基智能科技有限公司 | 文本输出方法及***、存储介质、电子装置 |
US11651139B2 (en) | 2021-06-15 | 2023-05-16 | Nanjing Silicon Intelligence Technology Co., Ltd. | Text output method and system, storage medium, and electronic device |
CN116028631A (zh) * | 2023-03-30 | 2023-04-28 | 粤港澳大湾区数字经济研究院(福田) | 一种多事件检测方法及相关设备 |
CN116028631B (zh) * | 2023-03-30 | 2023-07-14 | 粤港澳大湾区数字经济研究院(福田) | 一种多事件检测方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11544474B2 (en) | Generation of text from structured data | |
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
CN112131920B (zh) | 用于扫描图像中的表格信息的数据结构生成 | |
CN111666401B (zh) | 基于图结构的公文推荐方法、装置、计算机设备及介质 | |
US8868609B2 (en) | Tagging method and apparatus based on structured data set | |
CN111885000B (zh) | 一种基于图神经网络的网络攻击检测方法、***及装置 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN110674297B (zh) | 舆情文本分类模型构建和舆情文本分类方法、装置及设备 | |
CN115495555A (zh) | 一种基于深度学习的文献检索方法和*** | |
CN111143551A (zh) | 文本预处理方法、分类方法、装置及设备 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN115688779B (zh) | 一种基于自监督深度学习的地址识别方法 | |
CN112765976A (zh) | 文本相似度计算方法、装置、设备及存储介质 | |
CN114547257B (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
CN112434533A (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN115392235A (zh) | 字符匹配方法、装置、电子设备及可读存储介质 | |
CN111859079A (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
CN111737461B (zh) | 文本的处理方法、装置、电子设备及计算机可读存储介质 | |
WO2021047327A1 (zh) | 目标概念图谱的构建方法、装置、计算机设备和存储介质 | |
CN112800771B (zh) | 文章识别方法、装置、计算机可读存储介质和计算机设备 | |
CN117077679A (zh) | 命名实体识别方法和装置 | |
CN112749256A (zh) | 文本处理方法、装置、设备及存储介质 | |
CN115512374A (zh) | 针对表格文本的深度学习特征提取分类方法及装置 | |
CN111522903A (zh) | 一种深度哈希检索方法、设备及介质 | |
CN111625579A (zh) | 一种信息处理方法、装置及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |