CN114580385A - 一种结合语法的文本语义相似度计算方法 - Google Patents

一种结合语法的文本语义相似度计算方法 Download PDF

Info

Publication number
CN114580385A
CN114580385A CN202210252170.3A CN202210252170A CN114580385A CN 114580385 A CN114580385 A CN 114580385A CN 202210252170 A CN202210252170 A CN 202210252170A CN 114580385 A CN114580385 A CN 114580385A
Authority
CN
China
Prior art keywords
sentences
grammar
semantic
feature vectors
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210252170.3A
Other languages
English (en)
Inventor
龙军
向一平
刘磊
李浩然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202210252170.3A priority Critical patent/CN114580385A/zh
Publication of CN114580385A publication Critical patent/CN114580385A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种结合语法的文本语义相似度计算方法,包括获取待计算语义相似度的两个句子;通过深度语义交互模型提取两个句子的语义特征向量;分别构建两个句子的语法依存树,并进行结构化嵌入,分别获得两个句子的语法树特征向量;将两个句子各自的语义特征向量与语法树特征向量进行拼接,分别得到两个句子的最终语义特征向量;基于两个句子的最终语义特征向量计算得到两个句子的语义相似度。本发明的方案提取的句子特征结合了句子中的语法信息,提取到的特征更加全面、深入,充分考虑了句子中的上下文关系,计算得到的相似度准确性更高,同时兼顾平衡了准确率和计算效率。

Description

一种结合语法的文本语义相似度计算方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种结合语法的文本语义相似度计算方法。
背景技术
研究语义层面的相似度计算可以使得计算机更好地对句子进行语义理解。同时,语义理解在各项研究中都有着非常重要的作用。在信息检索中,语义相似度计算可以找出问题匹配程度最高的搜索结果;对于社区问答,可以通过语义相似度计算将相近的问题进行分类使得对某一个问题的回答更加集中;对于翻译软件,语义相似度可以作为原句与译文之间的评价指标。因此,语义相似度计算在各个领域都具有重要的研究意义与价值。
语义相似度计算是自然语言处理领域中一个难题,同时也是文本处理中使用最广泛的技术。对于文本而言,由于多义词,近义词与语言中复杂的语法结构等问题,导致表达同一个意思的句子句式可以有非常多的形式。目前,对于句子的语义相似度计算方式一般分为两类:语义表征方式与语义交互方式。其中语义表征的方式是对句子对中的每一个句子单独计算其语义向量,通过这两个向量计算相似度,而语义交互方式则需要同时对两个句子进行语义建模,并且在建模过程中考虑到两个句子之间的交互特征,从而计算相似度得分。这两种方式互有优劣,对于语义表征方式,一般计算复杂度较低,计算效率高,但是准确率相对而言较低。而语义交互方式的复杂度一般比较高,计算效率较低,其准确率相对而言较高。
发明内容
鉴于现有技术的不足之处,本发明提供了结合语法的文本语义相似度计算方法,以解决现有的语义相似度计算方法难以兼顾准确率和计算效率的问题。
为了实现上述目的,本发明采用如下技术方案。
一种结合语法的文本语义相似度计算方法,包括:
获取待计算语义相似度的两个句子;
通过深度语义交互模型提取两个句子的语义特征向量;
分别构建两个句子的语法依存树,并进行结构化嵌入,分别获得两个句子的语法树特征向量;
将两个句子各自的语义特征向量与语法树特征向量进行拼接,分别得到两个句子的最终语义特征向量;
基于两个句子的最终语义特征向量计算得到两个句子的语义相似度。
进一步地,所述通过深度语义交互模型为使用词MASK训练的BERT衍生模型。
进一步地,构建两个句子的语法依存树过程包括:
分别对两个句子进行语法分析;
基于语法分析并使用Stanford Dependencies所定义的依存树结构得到两个句子的语法依存树。
进一步地,将两个句子的语法依存树进行结构化嵌入,分别获得两个句子的语法树特征向量,过程包括:
对于每个句子的语法依存树,定义语法序列Cp为依存树节点的所有子节点,顺序为词汇在句子中的原始顺序;
定义一个最长序列长度l;
将语法序列Cp中的所有元素输入词嵌入模型中进行计算获取其词嵌入;如果语法序列Cp中元素长度不足l,词嵌入以零矩阵填充以达到最长序列长度;如果语法序列Cp中元素长度超过l,则截断超过长度的元素,仅保留前l个元素,此时新得到的语法序列定义为
Figure BDA0003547138440000021
分别对两个句子中每个句子中的所有词计算其
Figure BDA0003547138440000022
得到两个句子的语法序列
Figure BDA0003547138440000023
Figure BDA0003547138440000024
Figure BDA0003547138440000025
Figure BDA0003547138440000026
分别将两个句子的语法序列输入一个双向LSTM神经网络中,得到每个句子中每个词的语法树嵌入,通过拼接从而得到每个句子的语法树特征向量。
进一步地,分别将两个句子的语法序列输入一个双向LSTM神经网络中,得到每个句子中每个词的语法树嵌入,通过拼接从而得到每个句子的语法树特征向量,具体包括:
两个句子的语法序列输入一个双向LSTM神经网络中,该双向LSTM神经网络在t时刻的输出为:
Figure BDA0003547138440000027
其中,
Figure BDA0003547138440000028
表示t时刻双向LSTM神经网络的正向输出,
Figure BDA0003547138440000029
表示t时刻双向LSTM神经网络的反向输出,wf和wb代表正向LSTM与反向LSTM的隐藏层状态,bt代表偏移量;
对于词汇p,获取其语法序列在双向LSTM神经网络的正向网络和反向网络的最后一层状态,构建词汇p的语法树嵌入V=[Ew,fm,bn],其中,
Figure BDA0003547138440000031
表示词汇p的词嵌入,fm表示双向LSTM网络中正向网络的最后一层计算结果,bn表示双向LSTM网络中反向网络的最后一层计算结果;
对于每个句子中每一个词汇都获取其语法树嵌入,通过拼接从而得到每个句子的语法树特征向量。
进一步地,基于两个句子的最终语义特征向量计算得到两个句子的语义相似度,具体包括:
将两个句子的最终语义特征向量输入最终的预测层计算出最终的语义相似度;
预测层的计算过程包括:将两个句子的最终语义特征向量进行融合,输入一个多层感知机,多层感知机每个隐藏层使用双曲正切函数tanh作为激活函数,多层感知机的计算公式为:
Figure BDA0003547138440000032
其中,s表示多层感知机的输出,W1和W2为参数,b1和b2为偏移量,MA和MB分别表示两个句子的最终语义特征向量,σ代表tanh激活函数;
多层感知机的输出继续送入一个全连接层,并且使用sigmoid函数作为激活函数,得到一个范围在[0,1]的最终相似度,即为两个句子的语义相似度。
有益效果
本发明提出了一种结合语法的文本语义相似度计算方法,对需要计算的句子对,通过深度语义交互模型对句子对分别进行特征提取,获取句子对的语义特征向量;通过对句子的语法结构分别进行分析,获取句子对的语法依存树;通过神经网络对语法树进行计算,使其转化为语法树特征向量;分别将句子的语义特征向量与语法树特征向量进行拼接,得到结合语法的最终语义特征向量;计算句子的最终语义特征向量之间的向量距离,进而得到句子对之间的语义相似度。通过本发明的方案提取的句子特征不仅包含了词汇和句子编码,还结合了句子的语法特征,提取到的特征更加全面、深入,计算得到的相似度准确性更高,而且计算效率高,兼顾平衡了准确率和计算效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的结合语法的文本语义相似度计算方法流程图;
图2是本发明实施例提供的语义特征向量提取结构图;
图3中(a)和(b)是本发明实施例提供的语法依存树示例的两种表示方式;
图4是本发明实施例提供的语法树特征向量提取结构示意图;
图5是本发明实施例提供的预测层结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
如图1所示,本发明实施例提供了一种结合语法的文本语义相似度计算方法,包括:
S1:获取待计算语义相似度的两个句子。
S2:通过深度语义交互模型提取两个句子的语义特征向量。
具体地,因为语法依存树节点是词而不是BERTbase模型所用的字粒度,深度语义交互模型应该应用使用全词mask训练的BERT衍生模型,如Chinese-BERT-wwm等。
如图2所示,对于输入BERT衍生模型中的句子对A={A1,A2,…,An}和B={B1,B2,…,Bm},首先通过将其串联为一个序列x,然后将其输入嵌入层获取其结构化嵌入表示:
Figure BDA0003547138440000041
H(0)=Embedding(x)
H(i)=Transformer(H(i-1))
其中,L代表BERT衍生模型的层数,N为最大序列长度,d为隐藏层的维度。H表示隐藏层计算结果,H(0)就是第0层的结果,第0层就是初始化后的矩阵向量,之后每一层都是通过前一层的输出作为输入,故第一层初始化的输入是句子,之后的每一层输入是上一层的输出。在语义特征向量中,算法取其最后一层的输出作为最终的语义特征表示。Embedding的计算方式与词嵌入模型计算方式一致,Transformer计算方式与谷歌提出的Transformer框架的计算方式一致,两者均为现有技术,在此不进行赘述。
S3:分别构建两个句子的语法依存树,并进行结构化嵌入,分别获得两个句子的语法树特征向量。
具体地,构建两个句子的语法依存树过程包括:
分别对两个句子进行语法分析;
基于语法分析并使用Stanford Dependencies所定义的依存树结构得到两个句子的语法依存树。
对于每个句子而言,语法依存树定义了句子中表示依赖关系的有向的词汇之间的方式,树的连接方式代表了其语法上的定义,树的结点值为句子中的某一词汇。通过这样的方式,可以将句子中的语法结构转化为树形表示,通过节点之间的连接可以确定句子中不同的成分与成分之间的语法关系,如图3所示的例子中,以“红色轿车在角落快速调转了方向。”为例进行了两种方式的展示,可以看到根节点“调转”与其子节点“方向”之间的关系为dobj,代表直接宾语。
如图4所示,将两个句子的语法依存树进行结构化嵌入,分别获得两个句子的语法树特征向量,过程包括:
对于每个句子的语法依存树,定义语法序列Cp为依存树节点的所有子节点,顺序为词汇在句子中的原始顺序;
为了防止最终结果维度***,定义一个最长序列长度l;
将语法序列Cp中的所有元素输入词嵌入模型中进行计算获取其词嵌入;考虑维度对齐问题,如果语法序列Cp中元素长度不足l,词嵌入以零矩阵填充以达到最长序列长度;如果语法序列Cp中元素长度超过l,则截断超过长度的元素,仅保留前l个元素,此时新得到的语法序列定义为
Figure BDA0003547138440000051
这里的语法序列依旧是单个词的所有子节点那个词序列,以图3中的语法依存树为例,对于“调转”这个词而言,它的词序列Cp是[轿车,角落,快速,了,方向],如果l指定为3,则需要舍弃掉后面两个词语,只保留前3个,词序列更新为[轿车,角落,快速],同样的,如果序列长度小于3,则在计算的时候使用零矩阵填充。
分别对两个句子中每个句子中的所有词计算其
Figure BDA0003547138440000052
得到两个句子的语法序列
Figure BDA0003547138440000053
Figure BDA0003547138440000054
Figure BDA0003547138440000055
Figure BDA0003547138440000056
分别两个句子的语法序列输入一个双向LSTM神经网络中,该双向LSTM神经网络在t时刻的输出为:
Figure BDA0003547138440000057
其中,
Figure BDA0003547138440000058
表示t时刻双向LSTM神经网络的正向输出,
Figure BDA0003547138440000059
表示t时刻双向LSTM神经网络的反向输出,wf和wb代表正向LSTM与反向LSTM的隐藏层状态,bt代表偏移量;神经网络的隐层状态根据以下公式更新:
Figure BDA00035471384400000510
其中i为语法序列中的第i个节点;
Figure BDA00035471384400000511
就是词汇p的序列中第i层的隐藏层状态。隐藏层状态都是一样的计算方式,只是计算顺序不同有了正向和反向。
Figure BDA0003547138440000061
为第i层词汇p的状态(即该时刻的输入)。
对于词汇p,获取其语法序列在双向LSTM神经网络的正向网络和反向网络的最后一层状态,构建词汇p的语法树嵌入V=[Ew,fm,bn],其中,
Figure BDA0003547138440000062
表示词汇p的词嵌入,fm表示双向LSTM网络中正向网络的最后一层计算结果,bn表示双向LSTM网络中反向网络的最后一层计算结果;
对于每个句子中每一个词汇都获取其语法树嵌入,通过拼接从而得到每个句子的语法树特征向量。
S4:将两个句子各自的语义特征向量与语法树特征向量进行拼接,分别得到两个句子的最终语义特征向量。
S5:基于两个句子的最终语义特征向量计算得到两个句子的语义相似度。具体包括:
将两个句子的最终语义特征向量输入最终的预测层计算出最终的语义相似度;
如图5所示,预测层的计算过程包括:将两个句子的最终语义特征向量进行融合,输入一个带有三个隐藏层的多层感知机,隐藏层分别设置其隐层单元为256,64,16(隐层单元个数可以根据前方计算后的向量确定不同的值),多层感知机每个隐藏层使用双曲正切函数tanh作为激活函数,多层感知机的计算公式为:
Figure BDA0003547138440000063
其中,s表示多层感知机的输出,W1和W2为参数,b1和b2为偏移量,MA和MB分别表示两个句子的最终语义特征向量,σ代表tanh激活函数;
多层感知机的输出继续送入一个全连接层,并且使用sigmoid函数作为激活函数,得到一个范围在[0,1]的最终相似度,即为两个句子的语义相似度。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
本发明可以计算句子对中的语义相似度,相比于传统的字面相似度检测方式,本发明通过深度神经网络挖掘出了句子文本中所蕴涵的深层语义信息,可以在字面相似度很高但是语义不一样的情况下检测出比字面相似度方法更为准确的结果。同时,算法通过引入语法依存树的方式将句子的语法结构也作为语义信息考虑到了计算过程中,将语法信息作为特征,增强了句子的语义信息。本发明可以作为查重***的重要辅助功能,也可以作为一些分类与问答任务的主要计算方式。算法通过结合语法的语义计算模型,能够从多角度、多层次地提取文本的语义特征,主要通过使用Chinese-BERT-wwm等全词Mask训练的衍生模型克服原生BERT模型中文支持度不足的问题,使用多头注意力机制提取文本间的交互信息。同时引入了成熟的语法依存树表示方法,对句子的语法进行深入分析,从语法角度进行特征提取。对提取出来的语法树,通过进行词嵌入与相似性矩阵计算后输入一个双向LSTM网络中,通过LSTM网络捕获语法树中的信息,将这些信息整合成最终语义特征。这些措施可以更加有效的对句子的语义进行分析,帮助计算机更好的理解在一些语法变换下的相似句子。最终将这些语义特征输入一个带有多层感知机与全连接层的预测层中,将语义特征进行降维与交互,并最终使用sigmoid激活函数将相似度转换为一个范围在[0,1]之间的具体数值,使用该数值来衡量任意两个句子之间的语义层面的相似度,本算法通过这些方式克服了语义鸿沟的问题,提高了文本语义相似度计算的准确性。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种结合语法的文本语义相似度计算方法,其特征在于,包括:
获取待计算语义相似度的两个句子;
通过深度语义交互模型提取两个句子的语义特征向量;
分别构建两个句子的语法依存树,并进行结构化嵌入,分别获得两个句子的语法树特征向量;
将两个句子各自的语义特征向量与语法树特征向量进行拼接,分别得到两个句子的最终语义特征向量;
基于两个句子的最终语义特征向量计算得到两个句子的语义相似度。
2.根据权利要求1所述的结合语法的文本语义相似度计算方法,其特征在于,所述深度语义交互模型为使用词MASK训练的BERT衍生模型。
3.根据权利要求1所述的结合语法的文本语义相似度计算方法,其特征在于,构建两个句子的语法依存树过程包括:
分别对两个句子进行语法分析;
基于语法分析并使用Stanford Dependencies所定义的依存树结构得到两个句子的语法依存树。
4.根据权利要求1至3任一项所述的结合语法的文本语义相似度计算方法,其特征在于,将两个句子的语法依存树进行结构化嵌入,分别获得两个句子的语法树特征向量,过程包括:
对于每个句子的语法依存树,定义语法序列Cp为依存树节点的所有子节点,顺序为词汇在句子中的原始顺序;
定义一个最长序列长度l;
将语法序列Cp中的所有元素输入词嵌入模型中进行计算获取其词嵌入;如果语法序列Cp中元素长度不足l,词嵌入以零矩阵填充以达到最长序列长度;如果语法序列Cp中元素长度超过l,则截断超过长度的元素,仅保留前l个元素,此时新得到的语法序列定义为
Figure FDA0003547138430000011
分别对两个句子中每个句子中的所有词计算其
Figure FDA0003547138430000012
得到两个句子的语法序列
Figure FDA0003547138430000013
Figure FDA0003547138430000014
Figure FDA0003547138430000015
Figure FDA0003547138430000016
分别将两个句子的语法序列输入一个双向LSTM神经网络中,得到每个句子中每个词的语法树嵌入,通过拼接从而得到每个句子的语法树特征向量。
5.根据权利要求4所述的结合语法的文本语义相似度计算方法,其特征在于,分别将两个句子的语法序列输入一个双向LSTM神经网络中,得到每个句子中每个词的语法树嵌入,通过拼接从而得到每个句子的语法树特征向量,具体包括:
两个句子的语法序列输入一个双向LSTM神经网络中,该双向LSTM神经网络在t时刻的输出为:
Figure FDA0003547138430000021
其中,
Figure FDA0003547138430000022
表示t时刻双向LSTM神经网络的正向输出,
Figure FDA0003547138430000023
表示t时刻双向LSTM神经网络的反向输出,wf和wb代表正向LSTM与反向LSTM的隐藏层状态,bt代表偏移量;
对于词汇p,获取其语法序列在双向LSTM神经网络的正向网络和反向网络的最后一层状态,构建词汇p的语法树嵌入V=[Ew,fm,bn],其中,
Figure FDA0003547138430000024
表示词汇p的词嵌入,fm表示双向LSTM网络中正向网络的最后一层计算结果,bn表示双向LSTM网络中反向网络的最后一层计算结果;
对于每个句子中每一个词汇都获取其语法树嵌入,通过拼接从而得到每个句子的语法树特征向量。
6.根据权利要求1所述的结合语法的文本语义相似度计算方法,其特征在于,基于两个句子的最终语义特征向量计算得到两个句子的语义相似度,具体包括:
将两个句子的最终语义特征向量输入最终的预测层计算出最终的语义相似度;
预测层的计算过程包括:将两个句子的最终语义特征向量进行融合,输入一个多层感知机,多层感知机每个隐藏层使用双曲正切函数tanh作为激活函数,多层感知机的计算公式为:
Figure FDA0003547138430000025
其中,s表示多层感知机的输出,W1和W2为参数,b1和b2为偏移量,MA和MB分别表示两个句子的最终语义特征向量,σ代表tanh激活函数;
多层感知机的输出继续送入一个全连接层,并且使用sigmoid函数作为激活函数,得到一个范围在[0,1]的最终相似度,即为两个句子的语义相似度。
CN202210252170.3A 2022-03-15 2022-03-15 一种结合语法的文本语义相似度计算方法 Pending CN114580385A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210252170.3A CN114580385A (zh) 2022-03-15 2022-03-15 一种结合语法的文本语义相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210252170.3A CN114580385A (zh) 2022-03-15 2022-03-15 一种结合语法的文本语义相似度计算方法

Publications (1)

Publication Number Publication Date
CN114580385A true CN114580385A (zh) 2022-06-03

Family

ID=81780657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210252170.3A Pending CN114580385A (zh) 2022-03-15 2022-03-15 一种结合语法的文本语义相似度计算方法

Country Status (1)

Country Link
CN (1) CN114580385A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117194614A (zh) * 2023-11-02 2023-12-08 北京中电普华信息技术有限公司 一种文本差异识别方法、装置和计算机可读介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117194614A (zh) * 2023-11-02 2023-12-08 北京中电普华信息技术有限公司 一种文本差异识别方法、装置和计算机可读介质
CN117194614B (zh) * 2023-11-02 2024-01-30 北京中电普华信息技术有限公司 一种文本差异识别方法、装置和计算机可读介质

Similar Documents

Publication Publication Date Title
Zhang et al. SG-Net: Syntax guided transformer for language representation
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN112734881B (zh) 基于显著性场景图分析的文本合成图像方法及***
CN110309511B (zh) 基于共享表示的多任务语言分析***及方法
CN113378547B (zh) 一种基于gcn的汉语复句隐式关系分析方法及装置
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN114547298A (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN112733547A (zh) 一种利用语义依存分析的中文问句语义理解方法
CN111144410A (zh) 一种跨模态的图像语义提取方法、***、设备及介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及***
CN114742069A (zh) 一种代码相似度检测方法及装置
CN116204674A (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
CN114580385A (zh) 一种结合语法的文本语义相似度计算方法
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
KR102594734B1 (ko) LDA(Latent Dirichlet Allocation) 토픽 모델링 기법을 이용한 텍스트 분석 방법 및 이를 수행하는 텍스트 분석 장치
CN113392629B (zh) 基于预训练模型的人称代词消解方法
CN114580376A (zh) 基于成分句法分析的中文摘要生成方法
CN114972907A (zh) 基于强化学习和对比学习的图像语义理解及文本生成
CN113468875A (zh) 一种面向SCADA***自然语言交互接口语义分析的MNet方法
Fan et al. Knowledge base question answering via path matching
CN113076421A (zh) 一种社交噪音文本实体关系抽取优化方法及***
CN112966502A (zh) 一种基于长难句化简的电力专利文本实体关系抽取方法
Zhang et al. An Extractive Text Summarization Model Based on Rhetorical Structure Theory
Ghorpade et al. ITTS model: speech generation for image captioning using feature extraction for end-to-end synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination