CN113535914B - 一种文本语义相似度计算方法 - Google Patents

一种文本语义相似度计算方法 Download PDF

Info

Publication number
CN113535914B
CN113535914B CN202110654980.7A CN202110654980A CN113535914B CN 113535914 B CN113535914 B CN 113535914B CN 202110654980 A CN202110654980 A CN 202110654980A CN 113535914 B CN113535914 B CN 113535914B
Authority
CN
China
Prior art keywords
text
matrix
texts
information
bilstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110654980.7A
Other languages
English (en)
Other versions
CN113535914A (zh
Inventor
许晓伟
张善平
王晓东
曹媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202110654980.7A priority Critical patent/CN113535914B/zh
Publication of CN113535914A publication Critical patent/CN113535914A/zh
Application granted granted Critical
Publication of CN113535914B publication Critical patent/CN113535914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本语义相似度计算法方法,包括:将文本转化为向量矩阵,利用Siamese BiLSTM网络并结合Co‑Attention机制,得到包含文本交互信息的全局特征矩阵,利用CapsNet网络提取文本的局部特征,并使用SENet网络自动校准每个局部特征的重要程度,得到文本的局部特征矩阵;将全局特征矩阵和局部特征矩阵融合后再一次使用BiLSTM网络提取上下文信息,得到两个文本的相似度矩阵,最后通过融合、池化、全连接层判断文本的语义相似度,充分提取文本的有效特征信息;因为提取到了待匹配文本的交互信息,同时保留了文本的有价值信息,提高了文本语义相似度计算的准确性。

Description

一种文本语义相似度计算方法
技术领域
本发明属于自然语言处理技术领域,具体地说,是涉及一种基于特征自适应校准和Co-attention机制的文本语义相似度计算方法。
背景技术
随着互联网技术的快速为了使计算机能够更好的理解人类的意图,从海量的文本信息中返回给人类需要的信息,自然语言处理成为研究的热门领域。发展和社交网络的普遍应用,微博、影评、新闻等文本信息呈现爆发式增长。
文本语义相似度计算是自然语言处理领域中的基础性任务,在信息检索、文本分类、问答***等方面发挥着不可替代的作用,因此,进行文本相似度计算的研究具有十分重要的意义。
近几年的文本语义相似度的研究工作可以分为三类:一是基于关键词和字符串匹配的传统方法;Kondrak提出N-Gram模型来计算文本的相似度,通过计算两个文本中公共N元组与总N元组数量的比值来表征文本相似度;Niwattanakul等提出Jaccard系数来衡量两个文本之间的相似度,没有关注集合元素之间的差异性;基于关键词的方法只关注了待匹配文本的词汇层面的相似度,没有考虑文本的语义信息,具有很大的局限性。二是基于向量空间模型的计算方法;Salton等首次提出向量空间模型(VSM),VSM基于词频统计将文本映射成向量;Landauer等基于VSM模型提出了LSA模型,通过奇异值分解(SVD)把文本从单词向量空间映射到了语义向量空间,使向量具有一定的语义信息;基于向量空间的计算方法通常使用欧式距离、余弦距离、曼哈顿距离等来表征文本的相似度,较好的补充了传统的基于词汇匹配方法的不足;在这类方法中文本被表示为高维、稀疏向量,不利于相似度的计算;假设词与词之间是相互独立的,忽略一词多义、近义词和同义词现象,因此这种假设很难满足实际情况;忽视了文本中词与词之间的上下文联系,缺乏足够的语义信息。三是基于深度学习的计算方法;Mikolov等提出了word2vec模型,对比one-hot模型,word2vec模型利用词的上下文信息训练出低维、稠密的词向量,语义信息更加丰富;Yin等对句子对进行建模,提出了三种将注意力机制与CNN融合的方案,并在AS、PI等任务上进行了验证;Kusner等人依托词嵌入研究的发展,提出词移动距离来度量两个文本之间的相似度;基于深度学习的方法通过神经网络提取文本特征以判断文本的相似度,在一定程度上包含了语义信息,但是缺乏句子间的对照等文本特征。
上述,传统的基于统计的文本相似度计算方法具有一定缺陷:文本被表示为高维、稀疏向量,不利于相似度的计算;假设词与词之间是相互独立的,忽略一词多义、近义词和同义词现象,因此这种假设很难满足实际情况;忽视文本中词与词之间的上下文联系,缺乏语义信息。使用预训练语言模型并结合神经网络的方法也存在着一些不足:卷积神经网络关注文本的局部信息,通过向量矩阵提取文本的局部特征,但是缺乏上下文的交互信息,并且卷积和池化过程会造成较多有效特征的丢失;循环神经网络虽然可以提取上下文的交互信息,但是对于远距离的依赖关系,缺乏提取文本特征的能力。
发明内容
本发明的目的在于提供一种文本语义相似度计算方法,以弥补现有技术中的不足,使用了Co-Attention机制提取到了待匹配文本的交互信息,同时使用SECapsNet网络充分保留了文本的有价值信息,充分提取到文本的有效特征信息,提高了短文本语义相似度计算的准确性。
本发明采用以下技术方案予以实现:
提出一种文本语义相似度计算方法,包括:
步骤1、将文本转化为向量矩阵;
步骤2、利用Siamese BiLSTM网络提取文本的全局特征,并结合Co-Attention机制提取包含文本交互信息的全局特征矩阵;
步骤3、对向量矩阵使用CapsNet提取文本的局部特征,使用SENet网络校准每个局部特征的重要程度,得到局部特征矩阵;
步骤4、对全局特征矩阵和局部特征矩阵进行融合,使用BILSTM网络提取上下文信息,得到两个文本的语义相似度矩阵;
步骤5、对两个语义相似度矩阵进行融合,通过池化、全连接层判断两个文本的语义相似度。
进一步的,步骤1具体包括:将句子的长度截取为m,使用n维预训练的GloVe模型进行词嵌入,将文本表示为含有语义信息的m*n向量矩阵。
进一步的,步骤2具体包括:使用共享参数的Siamese BiLSTM网络提取文本的全局特征,得到两个文本的全局特征矩阵M和N;使用Co-Attention机制结合全局特征矩阵M和N,得到矩阵L=MT*N;对L分别按行和按列求softmax,得到第一文本对第二文本的attention矩阵AN=softmax(L)和AM=softmax(LT);将attention应用到第二文本中,在基于加入attention之后的第二文本的信息生成第一文本的attention矩阵CN=M*AN和CM=CN*AM,得到含有交互信息的全局特征矩阵。
进一步的,使用SENet网络校准每个局部特征的重要程度,具体包括:将CapsNet网络DigitCaps层的输出作为文本局部特征矩阵,将其输入到SENet网络中,构建SECapsNet网络对文本的局部特征进行校准。
进一步,使用共享参数的Siamese BiLSTM网络提取文本的全局特征,得到两个文本的全局特征矩阵M和N,具体为:
使用两个LSTM分别从前后两个方向进行运算,BiLSTM在t时刻的输出为:
其中,表示t时刻前向LSTM的输出,/>表示t时刻后向LSTM的输出,wf和wb分别为前向LSTM和后向LSTM的隐藏层状态,bt表示偏置量,ht表示BiLSTM在t时刻的输出。
与现有技术相比,本发明的优点和积极效果是:本发明提出的文本语义相似度计算法方法,首先对文本进行预处理,并使用预训练的GloVe模型进行词嵌入,将文本转化为向量矩阵;然后利用Siamese BiLSTM网络并结合Co-Attention机制提取文本的全局特征和交互信息,得到包含文本交互信息的全局特征矩阵;同时利用CapsNet网络提取文本的局部特征,并使用SENet网络自动校准每个局部特征的重要程度,构成SECapsNet网络,得到文本的局部特征矩阵;将全局特征矩阵和局部特征矩阵融合后再一次使用BiLSTM网络提取上下文信息,得到两个文本的相似度矩阵,最后通过融合、池化、全连接层判断文本的语义相似度,充分提取文本的有效特征信息;与现有技术相比,本发明因为使用了Co-Attention机制提取到了待匹配文本的交互信息,同时SECapsNet网络充分保留了文本的有价值信息,故能够充分提取到文本的有效特征信息,提高了文本语义相似度计算的准确性。
结合附图阅读本发明实施方式的详细描述后,本发明的其他特点和优点将变得更加清楚。
附图说明
图1为本发明提出的文本语义相似度计算方法流程图;
图2为本发明提出的文本语义相似度计算方法的技术流程框图;
图3为本发明中BILSTM模型结构图;
图4为本发明中CapsNet模型结构图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步详细的说明。
本发明提出的文本语义相似度计算方法,如图1和图2所示,包括如下步骤:
步骤S1:将文本转化为向量矩阵。
首先,针对待匹配文本(以下以第一文本和第二文本为例)中存在的拼写错误、大小写混乱等问题,对文本进行预处理,包括但不限定于拼写检查、符号替换和缩略语统一化等。
预处理之后,使用预训练的GloVe模型进行词嵌入:
因为在大数据集上训练GloVe模型需要花费大量的时间,因此在本发明一些实施例中,使用300维预训练的GloVe模型进行词嵌入,该模型基于亿级数据集语料库进行训练,生成的文本向量含有更多的语义信息,可避免维度过小带来的携带信息不足和维度过大造成的维度灾难问题。
对于词嵌入字典外的单词也进行300维的随机化嵌入。同时,鉴于数据集中句子长度不一的问题,在本发明一些实施例中,将句子的长度截取为25,通过词嵌入层,原始的句子被表示为25*300的向量矩阵。
步骤S2:利用Siamese BiLSTM网络提取文本的全局特征,并结合Co-Attention机制提取包含文本交互信息的全局特征矩阵。
使用两个LSTM分别从前后两个方向进行运算,BiLSTM模型结构如图3所示,BiLSTM在t时刻的输出为:
其中,表示t时刻前向LSTM的输出,/>表示t时刻后向LSTM的输出,wf和wb分别为前向LSTM和后向LSTM的隐藏层状态,bt表示偏置量,ht表示BiLSTM在t时刻的输出,那么ht由/>和/>共同决定;最终通过BiLSTM网络提取得到两个文本的全局特征矩阵M和N;图中,et表示分词后的词。
再使用Co-Attention机制获取两个文本的交互信息,得到包含文本交互信息的全局特征矩阵CM和CN
具体的,首先,使用Co-Attention机制结合BiLSTM提取的全局特征矩阵M和N的信息,得到矩阵
L=MT*N
对信息结合后的矩阵L分别按行和按列求softmax,得到对第一文本A和第二文本B的attention矩阵:
AN=softmax(L)
AM=softmax(LT)
矩阵AN表示第一文本A中的每一个单词对第二文本B中的每一个单词有一个attention,矩阵AM同理。
接着,先将attention应用到第二文本B中,再基于加入attention之后的第二文本B的信息生成第一文本A的attention:
CN=M*AN
CM=CN*AM
这样就实现了两个文本的信息交互,得到了含有交互信息的两个文本的全局特征矩阵CM和CN
步骤S3:对向量矩阵使用CapsNet提取文本的局部特征,使用SENet网络校准每个局部特征的重要程度,得到局部特征矩阵。
本发明使用CapsNet网络提取文本的局部特征,该模型结构如图4所示,CapsNet用于分类任务时由输入层、卷积层、PrimaryCaps层、DigitCaps层和全连接层组成。输入层是原始数据的矩阵表示;Cov1层是一个标准的卷积层,通过卷积核提取输入数据的特征信息;在PrimaryCaps层,提取到的特征被封装在多个primary胶囊中,用于综合反应某个类别的特征;DigitCaps层在PrimaryCaps层输出的向量基础上进行传播和动态路由更新;最后在全连接层对提取到的特征信息进行解码判断原始数据的类别。
CapsNet网络中的动态路由算法如下实施例所示:
1)初始化所有l层capsule i和l+1层capsule j:bij=0
2)For r=1 to 3do
3)对于l层中每个capsule i:cij=softmax(bij)
4)对于l+1层中每个capsule j:ui=vi*wi,sj=∑icijui
5)对于l+1层中每个capsule j:
vj=Squash(sj)
6)对所有l层capsule i和l+1层capsule j:bij=bij+uivj
7)return vj
其中,vi是输入向量,wi是权重矩阵,ui由vi和wi相乘得到,cij叫做couplingcoefficients,表示下层胶囊激活上层胶囊的可能性,通过bij进行迭代更新,Squash是挤压操作,类似于激活函数,vj代表输出向量。
传统的卷积神经网络通过卷积和池化操作提取文本的局部特征,会造成大量有效信息和文本特征的丢失,相较于传统的卷积神经网络,本发明使用CapsNet网络提取文本的局部特征能够保留更多的文本的原始顺序和语义表示等有价值信息。
同时,本发明将CapsNet网络DigitCaps层的输出作为文本局部特征矩阵,并将其输入到SENet网络中,构建了SECapsNet网络。SENet网络主要由Squeeze、Excitation、Reweight三部分组成,Squeeze使用全局平均池化对卷积得到的多层特征通道U进行压缩,从而使得感受野由局部转为全局,这样便能够获得足够多的有效信息;Excitation负责为每个特征生成权重,类似于循环神经网络中门的机制;Reweight在Squeeze和Excitation操作的基础上,可以完成在通道维度上的对原始特征的重标定。
因此,SECapsNet网络不仅包含了更多的文本特征和语义信息,而且实现了对文本局部特征的自适应校准。
步骤S4:对全局特征矩阵和局部特征矩阵进行融合,使用BILSTM网络提取上下文信息,得到两个文本的语义相似度矩阵。
在本发明实施例中,使用拼接的方法将文本的全局特征和局部特征进行融合,融合后的特征矩阵包含更多的文本特征。
BILSTM网络仍然采用共享参数的Siamese结构,再次对融合后的特征矩阵提取上下文信息和文本特征,可得到两个文本的语义相似度矩阵。
步骤S5:对两个语义相似度矩阵进行融合,通过池化、全连接层判断两个文本的语义相似度。
将第一文本A的语义相似度矩阵和第二文本B的语义相似度矩阵进行融合,通过池化操作提取文本特征,池化方式为全局平均池化和全局最大值池化。
在全连接层,使用3层Dense网络作为全连接层,分别设置隐藏层单元为128,32和1。
下面,基于Quora Questions Pairs数据集对本发明提出的语义相似度计算方法进行实验,该数据集由40多万个问题对组成,其中0或1表示两个问题的含义是否相同。
本发明实施例选取10000个样本的平衡数据作为开发集,再选取10000个样本的平衡数据作为测试集,保留其余的实例作为训练集,Quora数据集的样例如下表一所示:
表一
实验过程使用准确率、召回率、精确率和F1值来综合评价模型的性能。
对于一个二分类问题,预测结果与实际结果两两结合会出现四种情况:TP、TN、FP、FN。
TP(True Positive)表示将正类预测为正类的数目;TN(True Negative)表示将负类预测为负类的数目;FP(False Positive)表示将负类预测为正类的数目;FN(FalseNegative)表示将正类预测为负类的数目。
准确率(Accuracy)即预测正确的结果占总样本的百分比,能够衡量模型对整个数据集的判别能力;召回率(Recall)是指实际为正的样本中被预测为正样本的概率;精确率(Precision)是所有预测为正的样本中实际为正样本的概率;F1值是精准率和召回率的调和均值,F1值越高说明模型整体表现越好。
为了验证本发明提出方法的有效性,设置了三组对比实验:
实验1:与经典模型的对比实验。
实验2:实验过程中先后融入注意力机制和CapsNet网络的对比实验。
实验3:与其他文献提出的方法进行的对比实验。
在实验1中,将本发明的模型与经典的LSTM、BiLSTM、siameselstm等模型进行了比较。实验结果如表二所示:
表二
由表二可以看出,与传统方法相比,本发明提出的方法在文本语义相似度方面表现更好,准确率达到87.31%。
由于BiLSTM模型能够同时提取前向和后向序列信息,因此BiLSTM模型的性能优于LSTM模型。融入Siamese结构后,相较于LSTM模型,BiLSTM模型的准确度、查全率、查准率和F1值都有显著提高,表明连体结构可以有效地提高模型的性能。因此,在本发明提出的方法中均采用Siamese结构。
在实验2中,将本文提出的方法与先后融入了注意力机制和CapsNet网络的模型方法进行了比较,实验结果见表三:
表三
根据BiLSTM和BiLSTM-Attention模型的结果,融入注意力机制的BiLSTM模型具有较高的准确性和F1值,这表明注意机制通过提取文本间的交互信息,提高了模型的准确性。从表三还可以看出,融入CapsNet网络后的方法精确度达到了88.27%,这说明CapsNet网络能够更好地提取文本的局部特征。整合SENet网络后,方法的精度有所下降,但其他指标都有所提高,特别是召回率提高了3.3%,该结果表明SENet网络可以通过学习建立特征通道间的依赖关系,进一步提高特征的利用率。
在实验3中,将本发明提出的方法与其他文献中提出的方法进行了比较,实验结果如表四:
表四
最后,与其他文献提出的方法进行了对比实验。在提出BiLSTM-DenseNet方法的文献中,利用堆叠的BiLSTM网络来提取文本特征,因此需要较长的时间来训练模型,与该模型相比,本发明提出的方法精确度提高了1.81%,F1值提高了0.25%;从表四还可以看出,本发明提出的方法比BiLSTM-CNN模型具有更好的精度和F1值。
综上,基于Quora问题对数据集的实验结果表明了该方法的有效性。
应该指出的是,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (1)

1.一种文本语义相似度计算方法,其特征在于,包括:
步骤1、将文本转化为向量矩阵;
步骤2、利用Siamese BiLSTM网络提取文本的全局特征,并结合Co-Attention机制提取包含文本交互信息的全局特征矩阵;
步骤3、对向量矩阵使用CapsNet提取文本的局部特征,使用SENet网络校准每个局部特征的重要程度,得到局部特征矩阵;
步骤4、对全局特征矩阵和局部特征矩阵进行融合,使用BILSTM网络提取上下文信息,得到两个文本的语义相似度矩阵;
步骤5、对两个语义相似度矩阵进行融合,通过池化、全连接层判断两个文本的语义相似度;
步骤1具体包括:
将句子的长度截取为m,使用n维预训练的GloVe模型进行词嵌入,将文本表示为含有语义信息的m*n向量矩阵;
步骤2具体包括:
使用共享参数的Siamese BiLSTM网络提取文本的全局特征,得到两个文本的全局特征矩阵M和N;
使用Co-Attention机制结合全局特征矩阵M和N,得到矩阵
对L分别按行和按列求softmax,得到第一文本对第二文本的attention矩阵和/>
将attention应用到第二文本中,在基于加入attention之后的第二文本的信息生成第一文本的attention矩阵和/>,得到含有交互信息的全局特征矩阵;
使用SENet网络校准每个局部特征的重要程度,具体包括:
将CapsNet网络DigitCaps层的输出作为文本局部特征矩阵,将其输入到SENet网络中,构建SECapsNet网络对文本的局部特征进行校准;
使用共享参数的Siamese BiLSTM网络提取文本的全局特征,得到两个文本的全局特征矩阵M和N,具体为:
使用两个LSTM分别从前后两个方向进行运算, BiLSTM在t时刻的输出为:;其中,/>表示t时刻前向LSTM的输出,/>表示t时刻后向LSTM的输出,/>和/>分别为前向LSTM和后向LSTM的隐藏层状态,/>表示偏置量,/>表示BiLSTM在t时刻的输出。
CN202110654980.7A 2021-06-11 2021-06-11 一种文本语义相似度计算方法 Active CN113535914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110654980.7A CN113535914B (zh) 2021-06-11 2021-06-11 一种文本语义相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110654980.7A CN113535914B (zh) 2021-06-11 2021-06-11 一种文本语义相似度计算方法

Publications (2)

Publication Number Publication Date
CN113535914A CN113535914A (zh) 2021-10-22
CN113535914B true CN113535914B (zh) 2024-05-21

Family

ID=78124918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110654980.7A Active CN113535914B (zh) 2021-06-11 2021-06-11 一种文本语义相似度计算方法

Country Status (1)

Country Link
CN (1) CN113535914B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型
CN109948089A (zh) * 2019-02-21 2019-06-28 中国海洋大学 一种提取网页正文的方法及装置
CN110245234A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种基于本体和语义相似度的多源数据样本关联方法
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型
CN109948089A (zh) * 2019-02-21 2019-06-28 中国海洋大学 一种提取网页正文的方法及装置
CN110245234A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种基于本体和语义相似度的多源数据样本关联方法
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Detecting fake news with capsule neural networks;Mohammad Hadi Goldani等;Applied Soft Computing Journal;1-8 *
示例图像的特征表示和检索;象炫璐;中国优秀硕士论文全文数据库 信息科技II辑;I138-1322 *

Also Published As

Publication number Publication date
CN113535914A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
TWI732271B (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
Li et al. Visual to text: Survey of image and video captioning
CN108319686B (zh) 基于受限文本空间的对抗性跨媒体检索方法
CN107291693B (zh) 一种改进词向量模型的语义计算方法
CN106919646B (zh) 中文文本摘要生成***及方法
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及***
CN108628935B (zh) 一种基于端到端记忆网络的问答方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索***
CN111027595A (zh) 双阶段语义词向量生成方法
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和***
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算***、方法、及存储介质
CN114428850B (zh) 一种文本检索匹配方法和***
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及***
CN116205222A (zh) 一种基于多通道注意力融合的方面级情感分析***及方法
CN113407697A (zh) 深度百科学习的中文医疗问句分类***
Fang et al. A method of automatic text summarisation based on long short-term memory
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及***
CN115563314A (zh) 多源信息融合增强的知识图谱表示学习方法
Hashemzadeh et al. Improving keyword extraction in multilingual texts.
CN115018941A (zh) 一种基于改进版文本解析器的文本至图像生成算法
CN114880427A (zh) 基于多层级注意力机制的模型、事件论元抽取方法及***
CN114757184A (zh) 实现航空领域知识问答的方法和***
CN113255360A (zh) 基于层次化自注意力网络的文档评级方法和装置
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant