CN114580385A - 一种结合语法的文本语义相似度计算方法 - Google Patents
一种结合语法的文本语义相似度计算方法 Download PDFInfo
- Publication number
- CN114580385A CN114580385A CN202210252170.3A CN202210252170A CN114580385A CN 114580385 A CN114580385 A CN 114580385A CN 202210252170 A CN202210252170 A CN 202210252170A CN 114580385 A CN114580385 A CN 114580385A
- Authority
- CN
- China
- Prior art keywords
- sentences
- grammar
- semantic
- feature vectors
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 62
- 230000003993 interaction Effects 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 230000002457 bidirectional effect Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种结合语法的文本语义相似度计算方法,包括获取待计算语义相似度的两个句子;通过深度语义交互模型提取两个句子的语义特征向量;分别构建两个句子的语法依存树,并进行结构化嵌入,分别获得两个句子的语法树特征向量;将两个句子各自的语义特征向量与语法树特征向量进行拼接,分别得到两个句子的最终语义特征向量;基于两个句子的最终语义特征向量计算得到两个句子的语义相似度。本发明的方案提取的句子特征结合了句子中的语法信息,提取到的特征更加全面、深入,充分考虑了句子中的上下文关系,计算得到的相似度准确性更高,同时兼顾平衡了准确率和计算效率。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种结合语法的文本语义相似度计算方法。
背景技术
研究语义层面的相似度计算可以使得计算机更好地对句子进行语义理解。同时,语义理解在各项研究中都有着非常重要的作用。在信息检索中,语义相似度计算可以找出问题匹配程度最高的搜索结果;对于社区问答,可以通过语义相似度计算将相近的问题进行分类使得对某一个问题的回答更加集中;对于翻译软件,语义相似度可以作为原句与译文之间的评价指标。因此,语义相似度计算在各个领域都具有重要的研究意义与价值。
语义相似度计算是自然语言处理领域中一个难题,同时也是文本处理中使用最广泛的技术。对于文本而言,由于多义词,近义词与语言中复杂的语法结构等问题,导致表达同一个意思的句子句式可以有非常多的形式。目前,对于句子的语义相似度计算方式一般分为两类:语义表征方式与语义交互方式。其中语义表征的方式是对句子对中的每一个句子单独计算其语义向量,通过这两个向量计算相似度,而语义交互方式则需要同时对两个句子进行语义建模,并且在建模过程中考虑到两个句子之间的交互特征,从而计算相似度得分。这两种方式互有优劣,对于语义表征方式,一般计算复杂度较低,计算效率高,但是准确率相对而言较低。而语义交互方式的复杂度一般比较高,计算效率较低,其准确率相对而言较高。
发明内容
鉴于现有技术的不足之处,本发明提供了结合语法的文本语义相似度计算方法,以解决现有的语义相似度计算方法难以兼顾准确率和计算效率的问题。
为了实现上述目的,本发明采用如下技术方案。
一种结合语法的文本语义相似度计算方法,包括:
获取待计算语义相似度的两个句子;
通过深度语义交互模型提取两个句子的语义特征向量;
分别构建两个句子的语法依存树,并进行结构化嵌入,分别获得两个句子的语法树特征向量;
将两个句子各自的语义特征向量与语法树特征向量进行拼接,分别得到两个句子的最终语义特征向量;
基于两个句子的最终语义特征向量计算得到两个句子的语义相似度。
进一步地,所述通过深度语义交互模型为使用词MASK训练的BERT衍生模型。
进一步地,构建两个句子的语法依存树过程包括:
分别对两个句子进行语法分析;
基于语法分析并使用Stanford Dependencies所定义的依存树结构得到两个句子的语法依存树。
进一步地,将两个句子的语法依存树进行结构化嵌入,分别获得两个句子的语法树特征向量,过程包括:
对于每个句子的语法依存树,定义语法序列Cp为依存树节点的所有子节点,顺序为词汇在句子中的原始顺序;
定义一个最长序列长度l;
将语法序列Cp中的所有元素输入词嵌入模型中进行计算获取其词嵌入;如果语法序列Cp中元素长度不足l,词嵌入以零矩阵填充以达到最长序列长度;如果语法序列Cp中元素长度超过l,则截断超过长度的元素,仅保留前l个元素,此时新得到的语法序列定义为
分别将两个句子的语法序列输入一个双向LSTM神经网络中,得到每个句子中每个词的语法树嵌入,通过拼接从而得到每个句子的语法树特征向量。
进一步地,分别将两个句子的语法序列输入一个双向LSTM神经网络中,得到每个句子中每个词的语法树嵌入,通过拼接从而得到每个句子的语法树特征向量,具体包括:
两个句子的语法序列输入一个双向LSTM神经网络中,该双向LSTM神经网络在t时刻的输出为:
对于词汇p,获取其语法序列在双向LSTM神经网络的正向网络和反向网络的最后一层状态,构建词汇p的语法树嵌入V=[Ew,fm,bn],其中,表示词汇p的词嵌入,fm表示双向LSTM网络中正向网络的最后一层计算结果,bn表示双向LSTM网络中反向网络的最后一层计算结果;
对于每个句子中每一个词汇都获取其语法树嵌入,通过拼接从而得到每个句子的语法树特征向量。
进一步地,基于两个句子的最终语义特征向量计算得到两个句子的语义相似度,具体包括:
将两个句子的最终语义特征向量输入最终的预测层计算出最终的语义相似度;
预测层的计算过程包括:将两个句子的最终语义特征向量进行融合,输入一个多层感知机,多层感知机每个隐藏层使用双曲正切函数tanh作为激活函数,多层感知机的计算公式为:
其中,s表示多层感知机的输出,W1和W2为参数,b1和b2为偏移量,MA和MB分别表示两个句子的最终语义特征向量,σ代表tanh激活函数;
多层感知机的输出继续送入一个全连接层,并且使用sigmoid函数作为激活函数,得到一个范围在[0,1]的最终相似度,即为两个句子的语义相似度。
有益效果
本发明提出了一种结合语法的文本语义相似度计算方法,对需要计算的句子对,通过深度语义交互模型对句子对分别进行特征提取,获取句子对的语义特征向量;通过对句子的语法结构分别进行分析,获取句子对的语法依存树;通过神经网络对语法树进行计算,使其转化为语法树特征向量;分别将句子的语义特征向量与语法树特征向量进行拼接,得到结合语法的最终语义特征向量;计算句子的最终语义特征向量之间的向量距离,进而得到句子对之间的语义相似度。通过本发明的方案提取的句子特征不仅包含了词汇和句子编码,还结合了句子的语法特征,提取到的特征更加全面、深入,计算得到的相似度准确性更高,而且计算效率高,兼顾平衡了准确率和计算效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的结合语法的文本语义相似度计算方法流程图;
图2是本发明实施例提供的语义特征向量提取结构图;
图3中(a)和(b)是本发明实施例提供的语法依存树示例的两种表示方式;
图4是本发明实施例提供的语法树特征向量提取结构示意图;
图5是本发明实施例提供的预测层结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
如图1所示,本发明实施例提供了一种结合语法的文本语义相似度计算方法,包括:
S1:获取待计算语义相似度的两个句子。
S2:通过深度语义交互模型提取两个句子的语义特征向量。
具体地,因为语法依存树节点是词而不是BERTbase模型所用的字粒度,深度语义交互模型应该应用使用全词mask训练的BERT衍生模型,如Chinese-BERT-wwm等。
如图2所示,对于输入BERT衍生模型中的句子对A={A1,A2,…,An}和B={B1,B2,…,Bm},首先通过将其串联为一个序列x,然后将其输入嵌入层获取其结构化嵌入表示:
H(0)=Embedding(x)
H(i)=Transformer(H(i-1))
其中,L代表BERT衍生模型的层数,N为最大序列长度,d为隐藏层的维度。H表示隐藏层计算结果,H(0)就是第0层的结果,第0层就是初始化后的矩阵向量,之后每一层都是通过前一层的输出作为输入,故第一层初始化的输入是句子,之后的每一层输入是上一层的输出。在语义特征向量中,算法取其最后一层的输出作为最终的语义特征表示。Embedding的计算方式与词嵌入模型计算方式一致,Transformer计算方式与谷歌提出的Transformer框架的计算方式一致,两者均为现有技术,在此不进行赘述。
S3:分别构建两个句子的语法依存树,并进行结构化嵌入,分别获得两个句子的语法树特征向量。
具体地,构建两个句子的语法依存树过程包括:
分别对两个句子进行语法分析;
基于语法分析并使用Stanford Dependencies所定义的依存树结构得到两个句子的语法依存树。
对于每个句子而言,语法依存树定义了句子中表示依赖关系的有向的词汇之间的方式,树的连接方式代表了其语法上的定义,树的结点值为句子中的某一词汇。通过这样的方式,可以将句子中的语法结构转化为树形表示,通过节点之间的连接可以确定句子中不同的成分与成分之间的语法关系,如图3所示的例子中,以“红色轿车在角落快速调转了方向。”为例进行了两种方式的展示,可以看到根节点“调转”与其子节点“方向”之间的关系为dobj,代表直接宾语。
如图4所示,将两个句子的语法依存树进行结构化嵌入,分别获得两个句子的语法树特征向量,过程包括:
对于每个句子的语法依存树,定义语法序列Cp为依存树节点的所有子节点,顺序为词汇在句子中的原始顺序;
为了防止最终结果维度***,定义一个最长序列长度l;
将语法序列Cp中的所有元素输入词嵌入模型中进行计算获取其词嵌入;考虑维度对齐问题,如果语法序列Cp中元素长度不足l,词嵌入以零矩阵填充以达到最长序列长度;如果语法序列Cp中元素长度超过l,则截断超过长度的元素,仅保留前l个元素,此时新得到的语法序列定义为这里的语法序列依旧是单个词的所有子节点那个词序列,以图3中的语法依存树为例,对于“调转”这个词而言,它的词序列Cp是[轿车,角落,快速,了,方向],如果l指定为3,则需要舍弃掉后面两个词语,只保留前3个,词序列更新为[轿车,角落,快速],同样的,如果序列长度小于3,则在计算的时候使用零矩阵填充。
分别两个句子的语法序列输入一个双向LSTM神经网络中,该双向LSTM神经网络在t时刻的输出为:
其中,表示t时刻双向LSTM神经网络的正向输出,表示t时刻双向LSTM神经网络的反向输出,wf和wb代表正向LSTM与反向LSTM的隐藏层状态,bt代表偏移量;神经网络的隐层状态根据以下公式更新:其中i为语法序列中的第i个节点;就是词汇p的序列中第i层的隐藏层状态。隐藏层状态都是一样的计算方式,只是计算顺序不同有了正向和反向。为第i层词汇p的状态(即该时刻的输入)。
对于词汇p,获取其语法序列在双向LSTM神经网络的正向网络和反向网络的最后一层状态,构建词汇p的语法树嵌入V=[Ew,fm,bn],其中,表示词汇p的词嵌入,fm表示双向LSTM网络中正向网络的最后一层计算结果,bn表示双向LSTM网络中反向网络的最后一层计算结果;
对于每个句子中每一个词汇都获取其语法树嵌入,通过拼接从而得到每个句子的语法树特征向量。
S4:将两个句子各自的语义特征向量与语法树特征向量进行拼接,分别得到两个句子的最终语义特征向量。
S5:基于两个句子的最终语义特征向量计算得到两个句子的语义相似度。具体包括:
将两个句子的最终语义特征向量输入最终的预测层计算出最终的语义相似度;
如图5所示,预测层的计算过程包括:将两个句子的最终语义特征向量进行融合,输入一个带有三个隐藏层的多层感知机,隐藏层分别设置其隐层单元为256,64,16(隐层单元个数可以根据前方计算后的向量确定不同的值),多层感知机每个隐藏层使用双曲正切函数tanh作为激活函数,多层感知机的计算公式为:
其中,s表示多层感知机的输出,W1和W2为参数,b1和b2为偏移量,MA和MB分别表示两个句子的最终语义特征向量,σ代表tanh激活函数;
多层感知机的输出继续送入一个全连接层,并且使用sigmoid函数作为激活函数,得到一个范围在[0,1]的最终相似度,即为两个句子的语义相似度。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
本发明可以计算句子对中的语义相似度,相比于传统的字面相似度检测方式,本发明通过深度神经网络挖掘出了句子文本中所蕴涵的深层语义信息,可以在字面相似度很高但是语义不一样的情况下检测出比字面相似度方法更为准确的结果。同时,算法通过引入语法依存树的方式将句子的语法结构也作为语义信息考虑到了计算过程中,将语法信息作为特征,增强了句子的语义信息。本发明可以作为查重***的重要辅助功能,也可以作为一些分类与问答任务的主要计算方式。算法通过结合语法的语义计算模型,能够从多角度、多层次地提取文本的语义特征,主要通过使用Chinese-BERT-wwm等全词Mask训练的衍生模型克服原生BERT模型中文支持度不足的问题,使用多头注意力机制提取文本间的交互信息。同时引入了成熟的语法依存树表示方法,对句子的语法进行深入分析,从语法角度进行特征提取。对提取出来的语法树,通过进行词嵌入与相似性矩阵计算后输入一个双向LSTM网络中,通过LSTM网络捕获语法树中的信息,将这些信息整合成最终语义特征。这些措施可以更加有效的对句子的语义进行分析,帮助计算机更好的理解在一些语法变换下的相似句子。最终将这些语义特征输入一个带有多层感知机与全连接层的预测层中,将语义特征进行降维与交互,并最终使用sigmoid激活函数将相似度转换为一个范围在[0,1]之间的具体数值,使用该数值来衡量任意两个句子之间的语义层面的相似度,本算法通过这些方式克服了语义鸿沟的问题,提高了文本语义相似度计算的准确性。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (6)
1.一种结合语法的文本语义相似度计算方法,其特征在于,包括:
获取待计算语义相似度的两个句子;
通过深度语义交互模型提取两个句子的语义特征向量;
分别构建两个句子的语法依存树,并进行结构化嵌入,分别获得两个句子的语法树特征向量;
将两个句子各自的语义特征向量与语法树特征向量进行拼接,分别得到两个句子的最终语义特征向量;
基于两个句子的最终语义特征向量计算得到两个句子的语义相似度。
2.根据权利要求1所述的结合语法的文本语义相似度计算方法,其特征在于,所述深度语义交互模型为使用词MASK训练的BERT衍生模型。
3.根据权利要求1所述的结合语法的文本语义相似度计算方法,其特征在于,构建两个句子的语法依存树过程包括:
分别对两个句子进行语法分析;
基于语法分析并使用Stanford Dependencies所定义的依存树结构得到两个句子的语法依存树。
4.根据权利要求1至3任一项所述的结合语法的文本语义相似度计算方法,其特征在于,将两个句子的语法依存树进行结构化嵌入,分别获得两个句子的语法树特征向量,过程包括:
对于每个句子的语法依存树,定义语法序列Cp为依存树节点的所有子节点,顺序为词汇在句子中的原始顺序;
定义一个最长序列长度l;
将语法序列Cp中的所有元素输入词嵌入模型中进行计算获取其词嵌入;如果语法序列Cp中元素长度不足l,词嵌入以零矩阵填充以达到最长序列长度;如果语法序列Cp中元素长度超过l,则截断超过长度的元素,仅保留前l个元素,此时新得到的语法序列定义为
分别将两个句子的语法序列输入一个双向LSTM神经网络中,得到每个句子中每个词的语法树嵌入,通过拼接从而得到每个句子的语法树特征向量。
5.根据权利要求4所述的结合语法的文本语义相似度计算方法,其特征在于,分别将两个句子的语法序列输入一个双向LSTM神经网络中,得到每个句子中每个词的语法树嵌入,通过拼接从而得到每个句子的语法树特征向量,具体包括:
两个句子的语法序列输入一个双向LSTM神经网络中,该双向LSTM神经网络在t时刻的输出为:
对于词汇p,获取其语法序列在双向LSTM神经网络的正向网络和反向网络的最后一层状态,构建词汇p的语法树嵌入V=[Ew,fm,bn],其中,表示词汇p的词嵌入,fm表示双向LSTM网络中正向网络的最后一层计算结果,bn表示双向LSTM网络中反向网络的最后一层计算结果;
对于每个句子中每一个词汇都获取其语法树嵌入,通过拼接从而得到每个句子的语法树特征向量。
6.根据权利要求1所述的结合语法的文本语义相似度计算方法,其特征在于,基于两个句子的最终语义特征向量计算得到两个句子的语义相似度,具体包括:
将两个句子的最终语义特征向量输入最终的预测层计算出最终的语义相似度;
预测层的计算过程包括:将两个句子的最终语义特征向量进行融合,输入一个多层感知机,多层感知机每个隐藏层使用双曲正切函数tanh作为激活函数,多层感知机的计算公式为:
其中,s表示多层感知机的输出,W1和W2为参数,b1和b2为偏移量,MA和MB分别表示两个句子的最终语义特征向量,σ代表tanh激活函数;
多层感知机的输出继续送入一个全连接层,并且使用sigmoid函数作为激活函数,得到一个范围在[0,1]的最终相似度,即为两个句子的语义相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210252170.3A CN114580385A (zh) | 2022-03-15 | 2022-03-15 | 一种结合语法的文本语义相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210252170.3A CN114580385A (zh) | 2022-03-15 | 2022-03-15 | 一种结合语法的文本语义相似度计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114580385A true CN114580385A (zh) | 2022-06-03 |
Family
ID=81780657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210252170.3A Pending CN114580385A (zh) | 2022-03-15 | 2022-03-15 | 一种结合语法的文本语义相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114580385A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117194614A (zh) * | 2023-11-02 | 2023-12-08 | 北京中电普华信息技术有限公司 | 一种文本差异识别方法、装置和计算机可读介质 |
-
2022
- 2022-03-15 CN CN202210252170.3A patent/CN114580385A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117194614A (zh) * | 2023-11-02 | 2023-12-08 | 北京中电普华信息技术有限公司 | 一种文本差异识别方法、装置和计算机可读介质 |
CN117194614B (zh) * | 2023-11-02 | 2024-01-30 | 北京中电普华信息技术有限公司 | 一种文本差异识别方法、装置和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | SG-Net: Syntax guided transformer for language representation | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN112734881B (zh) | 基于显著性场景图分析的文本合成图像方法及*** | |
CN110309511B (zh) | 基于共享表示的多任务语言分析***及方法 | |
CN113378547B (zh) | 一种基于gcn的汉语复句隐式关系分析方法及装置 | |
CN110765755A (zh) | 一种基于双重选择门的语义相似度特征提取方法 | |
CN114547298A (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN112733547A (zh) | 一种利用语义依存分析的中文问句语义理解方法 | |
CN111144410A (zh) | 一种跨模态的图像语义提取方法、***、设备及介质 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及*** | |
CN114742069A (zh) | 一种代码相似度检测方法及装置 | |
CN116204674A (zh) | 一种基于视觉概念词关联结构化建模的图像描述方法 | |
CN114580385A (zh) | 一种结合语法的文本语义相似度计算方法 | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 | |
CN113449517B (zh) | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 | |
KR102594734B1 (ko) | LDA(Latent Dirichlet Allocation) 토픽 모델링 기법을 이용한 텍스트 분석 방법 및 이를 수행하는 텍스트 분석 장치 | |
CN113392629B (zh) | 基于预训练模型的人称代词消解方法 | |
CN114580376A (zh) | 基于成分句法分析的中文摘要生成方法 | |
CN114972907A (zh) | 基于强化学习和对比学习的图像语义理解及文本生成 | |
CN113468875A (zh) | 一种面向SCADA***自然语言交互接口语义分析的MNet方法 | |
Fan et al. | Knowledge base question answering via path matching | |
CN113076421A (zh) | 一种社交噪音文本实体关系抽取优化方法及*** | |
CN112966502A (zh) | 一种基于长难句化简的电力专利文本实体关系抽取方法 | |
Zhang et al. | An Extractive Text Summarization Model Based on Rhetorical Structure Theory | |
Ghorpade et al. | ITTS model: speech generation for image captioning using feature extraction for end-to-end synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |