CN104657350B - 融合隐式语义特征的短文本哈希学习方法 - Google Patents

融合隐式语义特征的短文本哈希学习方法 Download PDF

Info

Publication number
CN104657350B
CN104657350B CN201510096518.4A CN201510096518A CN104657350B CN 104657350 B CN104657350 B CN 104657350B CN 201510096518 A CN201510096518 A CN 201510096518A CN 104657350 B CN104657350 B CN 104657350B
Authority
CN
China
Prior art keywords
text
semantic
hash
vector
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510096518.4A
Other languages
English (en)
Other versions
CN104657350A (zh
Inventor
徐博
许家铭
郝红卫
田冠华
王方圆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201510096518.4A priority Critical patent/CN104657350B/zh
Publication of CN104657350A publication Critical patent/CN104657350A/zh
Application granted granted Critical
Publication of CN104657350B publication Critical patent/CN104657350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的融合隐式语义特征的短文本哈希学习方法,包括:将训练文本通过哈希损失函数进行降维二值化生成低维二值码;从训练文本中获取词特征和位置特征,根据词特征和位置特征通过查表获取对应的词向量和位置向量;将词向量和位置向量通过卷积神经网络模型进行耦合,得到训练文本的隐式语义特征;将低维二值码进行训练得到更新的卷积神经网络模型;利用更新的卷积神经网络模型对训练文本进行编码生成语义哈希码,并将查询文本通过卷积神经网络模型对语义哈希码进行映射生成查询文本的哈希码;查询文本的哈希码在二值汉明空间中对语义哈希码进行匹配,得到查询文本的语义相似文本。本发明可以获得查询文本的语义相似文本。

Description

融合隐式语义特征的短文本哈希学习方法
技术领域
本发明涉及信息检索领域,特别是涉及一种融合隐式语义特征的短文本哈希学习方法。
背景技术
哈希学习方法广泛的应用于近似搜索技术,该技术应用于信息检索、内容重复检测、标签预测以及推荐***中。目前,哈希学习方法是将基于文本的显式语义特征映射到低维二值空间中,该方法不能很好的保存语义之间的相似信息。例如,有两个文本“Presidentwrite his first computer program”和“Obama kick off hour of code”,通过采用上述的哈希学习方法,不能使文本中的显式特征“President”和“Obama”以及“program”和“code”进行语义关联。为了解决文本中的显式特征之间的语义关联,采用潜层语义模型方法来构建文本的相似性,然而,这些方法仍然是基于词袋模型进行训练,没有考虑文本中的上下位关系和词序关系,也不能很好的保存语义之间的相似信息。
发明内容
本发明提供的融合隐式语义特征的短文本哈希学习方法,从而获得查询文本的语义相似文本。
根据本发明的一方面,提供一种融合隐式语义特征的短文本哈希学习方法,所述方法包括:将训练文本通过哈希损失函数进行降维二值化生成低维二值码;从所述训练文本中获取词特征和位置特征,根据所述词特征和位置特征通过查表分别获取所述词特征和位置特征对应的词向量和位置向量;将所述词向量和位置向量通过卷积神经网络模型进行耦合,得到训练文本的隐式语义特征;将所述低维二值码进行训练得到更新的卷积神经网络模型;利用所述更新的卷积神经网络模型对所述训练文本进行编码生成语义哈希码,并将查询文本通过所述卷积神经网络模型对所述语义哈希码进行映射生成所述查询文本的哈希码;所述查询文本的哈希码在二值汉明空间中对所述语义哈希码进行匹配,得到所述查询文本的语义相似文本。
本发明提供的融合隐式语义特征的短文本哈希学习方法,通过将训练文本通过哈希损失函数进行降维二值化生成低维二值码,利用更新的卷积神经网络模型对训练文本进行编码生成语义哈希码,并将查询文本通过卷积神经网络模型对语义哈希码进行映射生成查询文本的哈希码;查询文本的哈希码在二值汉明空间中对语义哈希码进行匹配,从而获得查询文本的语义相似文本。
附图说明
图1为本发明实施例提供的融合隐式语义特征的短文本哈希学习方法的流程图;
图2为本发明实施例提供的融合隐式语义特征的短文本哈希学习方法的框架示意图;
图3为本发明实施例提供的检索性能示意图;
图4为本发明另一实施例提供的检索性能示意图。
具体实施方式
本发明的总体构思是,通过将训练文本通过哈希损失函数进行降维二值化生成低维二值码,利用更新的卷积神经网络模型对训练文本进行编码生成语义哈希码,并将查询文本通过卷积神经网络模型对语义哈希码进行映射生成查询文本的哈希码;查询文本的哈希码在二值汉明空间中对语义哈希码进行匹配,从而获得查询文本的语义相似文本。
下面结合附图对本发明实施例提供的融合隐式语义特征的短文本哈希学习方法进行详细描述。
图1为本发明实施例提供的融合隐式语义特征的短文本哈希学习方法的流程图。
参照图1,在步骤S101,将训练文本通过哈希损失函数进行降维二值化生成低维二值码。
根据本发明的示例性实施例,所述将训练文本通过哈希损失函数进行降维二值化生成低维二值码包括:
在步骤S1011,根据所述训练文本构造相似度矩阵。
在步骤S1012,通过所述相似度矩阵获取拉普拉斯特征向量。
在步骤S1013,通过所述拉普拉斯特征向量获取中值向量。
在步骤S1014,通过所述中值向量对所述拉普拉斯特征向量进行二值化,从而生成所述低维二值码。
根据本发明的示例性实施例,所述根据所述训练文本构造相似度矩阵包括:
根据公式(1)计算相似度矩阵:
其中,Sij为所述相似度矩阵,NNk(x)为所述训练文本x的k近邻集合,cij为置信系数。
这里,训练文本用x表示,相似度矩阵用Sij表示,相似度度量方法包括夹角余弦、欧式距离、高斯核和线性核。可以是例如,但不限于以高斯核构建局部相似度矩阵为例。
在本发明THC-I中cij始终为1,而在THC-II和THC-IV模型中利用标签信息调节该系数。当两个样本xi和xj共享任意相同标签时(Tij=1),置cij一个较高的值a。相反地,如果两个样本xi和xj不共享任何标签时(Tij=0),置cij一个较低的值b。如公式(2)所示:
其中,参数a和b满足1≥a≥b>0。针对特定数据集,标签的可信度越高则设定参数a和b间的差距越大。本发明实施例中,设定参数a=1,b=0.1。
在步骤S1012,通过所述相似度矩阵获取拉普拉斯特征向量,拉普拉斯特征向量用表示。
为得到预训练文本集合的低维二值码Y(0),设计其优化目标函数如公式(3)所示:
s.t.Y∈{-1,1}n×r,YT1=0,YTY=I
其中,Sij是由公式(1)构造的局部相似度矩阵,yi是文本xi的低维二值码,||·||F是F-范数。通过松弛二值码离散化的约束条件Y∈{-1,1}n×r,最优的l维实值向量可以通过求解拉普拉斯特征映射问题解决,在此不做赘述。
在步骤S1013,通过拉普拉斯特征向量获取中值向量,其中,中值向量
在步骤S102,从所述训练文本中获取词特征和位置特征,根据所述词特征和位置特征通过查表分别获取所述词特征和位置特征对应的词向量和位置向量。
这里,通过从词特征的分布式向量化表示中进行查表得到词向量。同时,词向量化在模型中做为参数进行更新。
同样地,通过从位置特征的分布式向量化表示中进行查表得到位置向量。位置向量表示全部随机初始化,并在模型训练中做为参数进行更新。
在步骤S103,将所述词向量和位置向量通过卷积神经网络模型进行耦合,得到训练文本的隐式语义特征。
根据本发明的示例性实施例,所述将所述词向量和位置向量通过卷积神经网络模型进行耦合,获取所述训练文本的隐式语义特征包括:
在步骤S1031,将所述词向量和位置向量分别进行一维卷积,获取特征矩阵。
在步骤S1032,所述特征矩阵通过塌陷操作获取一维特征向量。
在步骤S1033,从所述一维特征向量中选取最大神经单元。
在步骤S1034,所述最大神经单元根据正切激活函数得到所述训练文本的隐式语义特征。
在步骤S1031中,将所述词向量和位置向量分别进行一维卷积,获取特征矩阵。
首先整合词向量和位置向量,训练文本中的每个词则重新表示为每个文本的矩阵化特征表示为
本发明实例中,在文本矩阵化特征表示上使用一维卷积,这里w是卷积核的框口大小,n1是卷积核的个数。为了方便表示,引入对角矩阵化表示。如第j个卷积核如公式(4)所示:
通过第j个一维卷积核,得到卷积后的特征矩阵
其中,XF如公式(6)所示:
根据本发明的示例性实施例,所述特征矩阵通过塌陷操作获取一维特征向量包括:
根据公式(7)计算一维特征向量:
其中,为所述一维特征向量,(dw+dp)为维数。
这里,给定第j个卷积操作之后的特征矩阵Cj,塌陷操作则直接地将t×(dw+dp)维特征矩阵压缩成t×1维向量。通过塌陷层,特征矩阵Cj被压缩成一维向量
根据本发明的示例性实施例,所述最大神经单元根据正切激活函数得到所述训练文本的隐式语义特征包括:
根据下式计算所述训练文本的隐式语义特征:
其中,m为所述训练文本的隐式语义特征。
这里,在第j个塌陷层之后得到的特征向量在特征向量上进行k-最大采样操作,得到最大的k个神经单元。然后,利用正切激活函数得到隐式的语义特征。
在步骤S104,将所述低维二值码进行训练得到更新的卷积神经网络模型。
根据本发明的示例性实施例,所述将所述低维二值码进行训练得到更新的卷积神经网络模型包括:
在步骤S1041,将训练文本的隐式语义特征和显示语义特征输入所述卷积神经网络模型的输出层;
在步骤S1042,将所述低维二值码进行误差反向传播得到更新的卷积神经网络模型的参数。
这里,在步骤S1041中,训练文本的隐式语义特征用m表示,训练文本的显式语义特征用TF-IDF表示,将训练文本的隐式语义特征m和训练文本的显式语义特征用TF-IDF进行线性变换,具体由公式(9)可知:
O(H)=WZm+αWOx (9)
其中,为输出向量,为线性变换矩阵,x为TF-IDF特征向量,α为特征融合系数。
为了进行二值化,得到哈希码,在输出层特征O(H)使用r个逻辑斯特回归,具体由公式(10)可知:
如果训练文本中包括标签信息t∈{0,1}c×n,则在扩展模型THC-III和THC-IV中,增加c个额外的输出单元拟合标签信息,具体由公式(11)可知:
O(C)=W′Zm+αW′Ox (11)
这里, 是线性转换矩阵,并且在额外的输出单元上使用c个逻辑斯特回归,具体由公式(12)可知:
这里,在步骤S1042中,将模型中需要更新的参数统一定义为θ,具体由公式(13)可知:
θ={E(W),E(P),W,WZ,WO,W′Z,W′O} (13)
给定一个训练集合预训练的低维二值码Y(0)以及标签信息t={t1,t2...,tn}∈{0,1}c×n,则基于交叉熵的目标函数由公式(14)可知为:
通过采用随机梯度下降方法更新参数θ以优化目标函数,具体由公式(15)可知:
在步骤S105,利用所述更新的卷积神经网络模型对所述训练文本进行编码生成语义哈希码,并将查询文本通过所述卷积神经网络模型对所述语义哈希码进行映射生成所述查询文本的哈希码。
在步骤S106,所述查询文本的哈希码在二值汉明空间中对所述语义哈希码进行匹配,得到所述查询文本的语义相似文本。
根据本发明的示例性实施例,查询文本的哈希码在二值汉明空间中对语义哈希码进行匹配,得到查询文本的语义相似文本包括:
查询文本的哈希码在二值汉明空间中对语义哈希码进行匹配,得到匹配的语义哈希码;
将匹配的语义哈希码根据汉明距离进行排序,得到查询文本的语义相似文本。
本发明实施例提供的融合隐式语义特征的短文本哈希学习方法,通过将训练文本通过哈希损失函数进行降维二值化生成低维二值码,利用更新的卷积神经网络模型对训练文本进行编码生成语义哈希码,并将查询文本通过卷积神经网络模型对语义哈希码进行映射生成查询文本的哈希码;查询文本的哈希码在二值汉明空间中对语义哈希码进行匹配,从而获得查询文本的语义相似文本。
图2为本发明实施例提供的融合隐式语义特征的短文本哈希学习方法的框架示意图。
参照图2,融合隐式语义特征的短文本哈希学习方法包括两个阶段,第一阶段是哈希码预训练阶段;第二阶段是哈希函数训练与预测阶段。
第一阶段:将训练文本通过哈希损失函数进行降维二值化生成低维二值码。
第二阶段:从所述训练文本中获取词特征和位置特征,根据所述词特征和位置特征通过查表分别获取所述词特征和位置特征对应的词向量和位置向量;
将词向量和位置向量分别进行一维卷积,获取特征矩阵;
特征矩阵通过塌陷操作获取一维特征向量;
从一维特征向量中选取最大神经单元;
最大神经单元根据正切激活函数得到所述训练文本的隐式语义特征;
将训练文本的隐式语义特征和显示语义特征输入所述卷积神经网络模型的输出层;
将低维二值码进行误差反向传播得到更新的卷积神经网络模型的参数;
利用更新的卷积神经网络模型对训练文本进行编码生成语义哈希码,并将查询文本通过所述卷积神经网络模型对语义哈希码进行映射生成查询文本的哈希码;
查询文本的哈希码在二值汉明空间中对语义哈希码进行匹配,得到查询文本的语义相似文本。
为了准确的评估本发明的检索性能,本发明检索***通过前N个返回结果的平均精度来评价本发明的总体效果。
由于短文本数据集的原始特征不能很好的反映文档间的语义相似关系,本发明试验中通过判别两个样本之间是否共享任意标签来决定是否为语义相关文本,试验中的所有评测指标结果为所有测试样本在训练样本检索结果的平均值。
本发明试验中采用一种公开短文本数据集,该数据集包含8种类别文本。实验中对该数据集不做任何处理(包括去停用词和词干还原等操作),并以类别标签作为标签信息使用,实验中所采用文本数据集的统计信息如表1所示:
表1
数据集 类别数 训练/测试数量 长度(平均/最大) 词典维数
SearchSnippets 8 10060/2280 17.2/38 26265
在试验中,固定卷积核的宽度w为3,卷积核的个数n1为80,k-最大采样层中的k为2,词向量表示层的维数dw为50,位置向量表示层的维数dp为8,并且学习率λ为0.01。另外,输出层的特征权重α在本发明实验中从0.001到1024进行逐步调节,最终选择的最优值α为16。
在实验中默认采用公开的基于GloVe工具训练好的50维词向量,并与其他词向量进行对比,如Senna语向量和随机初始化。具体参照如表2所示的GloVe和Senna词向量的覆盖度统计信息:
表2
本发明中提出四种变种模型,分别为:
THC-I:为本发明的基本模型,训练整个哈希函数不需要任何标签;
THC-II:在阶段1-哈希码预训练阶段融入标签信息;
THC-III:在阶段2-哈希函数训练与预测阶段融入标签信息;
THC-IV:在阶段1和2中同时融入标签信息。
本发明试验中采用以下对比哈希方法:
对比方法一:自学习哈希方法,该方法是一种典型的两步哈希方法,第一步采用文本原始特征进行拉普拉斯特征降维,通过中值向量进行二值化后得哈希码。第二步,由前一阶段生成训练样本原始特征及对应的r维哈希码,训练r个二值支持向量机分类器作为哈希函数。
对比方法二:基于高斯核的自学习哈希方法,该方法是对比方法一的一个改进版,在哈希函数训练阶段采用了基于高斯核的r个二值支持向量机。
对比方法三:监督型自学习哈希方法,该方法是对比方法一的进一步改进版,加入全监督信息作为约束。在构建局部相似度矩阵S时,只考虑具有相同类别标签的样本间相似度。
对比方法四:快速哈希方法(FastHash),该方法基于两步哈希方法,利用决策树模型作为哈希函数,可以解决高维数据的哈希映射问题,考虑了全监督信息。
表3为本发明方法、自学***均检索精度指标。THC-I、自学习哈希方法和基于高斯核的自学习哈希方法在训练过程中无需使用任何带标签数据,THC-II、THC-III、THC-IV、快速哈希以及监督型自学习哈希在哈希学习过程中均使用了标签信息进行训练。
表3
可以看出,本发明方法中的基本方法THC-I明显区别于其他未使用标签的哈希方法(基于高斯核的自学习哈希方法和自学习哈希方法)。相比于监督型哈希学习方法,THC-II、THC-III和THC-IV同样给出更优的检索性能,且THC-IV为最优变种模型。我们发现由于引入词向量和卷积神经网络结构,本发明中基于无标签数据的基本方法THC-I的性能甚至超过了对比方法中的监督型哈希方法。具体参照表4中对比本发明方法的学习特征中词向量、位置向量、TF-IDF以及其他词向量的特征(例如,Senna词向量及随机初始化)对检索性能的影响。
表4
可以看出,在词特征基础上添加了位置特征后,检索的平均精度有1%-2%的提升,而且已经大大优于基于显式特征TF-IDF的检索性能8%左右。然后本发明方法中将显式特征同隐式特征进行融合时,***的检索平均精度继续提升了1%左右。本发明试验中同时对比了其他词向量特征对检索性能的影响。可以看到基于Senna词向量的检索结果只比本发明默认采用的GloVe词向量低2%左右。然而,即使本发明方法中把词向量特征作为参数进行更新,但基于随机初始化词向量的检索性能下降了10%左右。试验表明利用基于大量语料无监督学习的词向量进行模型参数初始化的必要性。
接下来,我们研究本发明方法中特征融合参数α对检索性能的影响。我们调节α从0.001逐次变化到1024,相应的检索结果参照如图3所示的本发明实施例提供的检索性能示意图。可以看到,当我们调节参数α变大时,检索性能趋于基于显式特征的检索结果,同样地,当我们调节参数α变小时,检索性能趋于基于隐式特征的检索结果。并且只有调节参数α到一个最优值时,***可以达到最好的检索性能。
对于卷积神经网络结构,本发明实验中固定了词向量维数,学习率,以及卷积核的框口大小。我们启发式地限制了隐式特征的神经元个数为160,具体参照表5中不同的卷积神经网络结构
表5
框架-1 框架-2 框架-3 框架-4 框架-5
卷积核个数 160 80 40 20 10
K-最大个数 1 2 4 8 16
相应的检索结果参照如图4所示的本发明另一实施例提供的检索性能示意图。我们可以看到当K-最大采样个数小于4时,检索性能下降缓慢。然而,由于随着卷积核个数的增多,卷积层和塌陷层的输出神经元个数增多会导致计算复杂度会增大,因而本发明试验中统一折中选择了框架-2,即80个卷积核,2-最大采样结构。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种融合隐式语义特征的短文本哈希学习方法,其特征在于,所述方法包括:
将训练文本通过哈希损失函数进行降维二值化生成低维二值码;
从所述训练文本中获取词特征和位置特征,根据所述词特征和位置特征通过查表分别获取所述词特征和位置特征对应的词向量和位置向量;
将所述词向量和位置向量通过卷积神经网络模型进行耦合,得到训练文本的隐式语义特征;
将所述低维二值码进行训练得到更新的卷积神经网络模型;
利用所述更新的卷积神经网络模型对所述训练文本进行编码生成语义哈希码,并将查询文本通过所述卷积神经网络模型对所述语义哈希码进行映射生成所述查询文本的哈希码;
所述查询文本的哈希码在二值汉明空间中对所述语义哈希码进行匹配,得到所述查询文本的语义相似文本;
所述将训练文本通过哈希损失函数进行降维二值化生成低维二值码包括:
根据所述训练文本构造相似度矩阵;
通过所述相似度矩阵获取拉普拉斯特征向量;
通过所述拉普拉斯特征向量获取中值向量;
通过所述中值向量对所述拉普拉斯特征向量进行二值化,从而生成所述低维二值码;
所述将所述词向量和位置向量通过卷积神经网络模型进行耦合,获取所述训练文本的隐式语义特征包括:
将所述词向量和位置向量分别进行一维卷积,获取特征矩阵;
所述特征矩阵通过塌陷操作获取一维特征向量;
从所述一维特征向量中选取最大神经单元;
所述最大神经单元根据正切激活函数得到所述训练文本的隐式语义特征。
2.根据权利要求1所述的方法,其特征在于,所述根据所述训练文本构造相似度矩阵包括:
根据下式计算所述相似度矩阵:
其中,Sij为所述相似度矩阵,NNk(x)为所述训练文本x的k近邻集合,cij为置信系数;所述σ表示调优参数。
3.根据权利要求1所述的方法,其特征在于,所述特征矩阵通过塌陷操作获取一维特征向量包括:
根据下式计算所述一维特征向量:
C j , p ( 0 ) = Σ q = 1 d w + d p C j , p , q
其中,(dw+dp)为维数;表示一维特征向量;表示中的第p个值;dw表示词向量维度;dp表示位置向量维度;(0)表示特征经过塌陷操作后的标识符号;Cj表示塌陷操作前特征矩阵;p表示一维特征向量的特征值的项数;Cj,p表示Cj第p行特征向量;q表示塌陷操作前特征矩阵第p行特征向量的特征元素脚标。
4.根据权利要求3所述的方法,其特征在于,所述最大神经单元根据正切激活函数得到所述训练文本的隐式语义特征包括:
根据下式计算所述训练文本的隐式语义特征:
m = tanh ( C ^ ( 0 ) )
其中,m为所述训练文本的隐式语义特征;表示n1个卷积核通道上进行k-最大采样后组成的最大神经单元向量;(0)表示特征经过塌陷操作后的标识符号;表示训练文本的隐式语义特征。
5.根据权利要求4所述的方法,其特征在于,所述将所述低维二值码进行训练得到更新的卷积神经网络模型包括:
将所述训练文本的隐式语义特征和显式语义特征输入所述卷积神经网络模型的输出层;
将所述低维二值码进行误差反向传播得到更新的卷积神经网络模型的参数。
6.根据权利要求1或5所述的方法,其特征在于,所述查询文本的哈希码在二值汉明空间中对所述语义哈希码进行匹配,得到所述查询文本的语义相似文本包括:
所述查询文本的哈希码在二值汉明空间中对所述语义哈希码进行匹配,得到匹配的语义哈希码;
将所述匹配的语义哈希码根据汉明距离进行排序,得到所述查询文本的语义相似文本。
CN201510096518.4A 2015-03-04 2015-03-04 融合隐式语义特征的短文本哈希学习方法 Active CN104657350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510096518.4A CN104657350B (zh) 2015-03-04 2015-03-04 融合隐式语义特征的短文本哈希学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510096518.4A CN104657350B (zh) 2015-03-04 2015-03-04 融合隐式语义特征的短文本哈希学习方法

Publications (2)

Publication Number Publication Date
CN104657350A CN104657350A (zh) 2015-05-27
CN104657350B true CN104657350B (zh) 2017-06-09

Family

ID=53248499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510096518.4A Active CN104657350B (zh) 2015-03-04 2015-03-04 融合隐式语义特征的短文本哈希学习方法

Country Status (1)

Country Link
CN (1) CN104657350B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220220A (zh) * 2016-03-22 2017-09-29 索尼公司 用于文本处理的电子设备和方法
CN106095735A (zh) * 2016-06-06 2016-11-09 北京中加国道科技有限责任公司 一种基于深度神经网络检测学术文献抄袭的方法
CN106354701B (zh) * 2016-08-30 2019-06-21 腾讯科技(深圳)有限公司 汉字处理方法和装置
CN108073576A (zh) * 2016-11-09 2018-05-25 上海诺悦智能科技有限公司 智能搜索方法、搜索装置以及搜索引擎***
CN106776545B (zh) * 2016-11-29 2019-12-24 西安交通大学 一种通过深度卷积神经网络进行短文本间相似度计算的方法
CN106776553A (zh) * 2016-12-07 2017-05-31 中山大学 一种基于深度学习的非对称文本哈希方法
CN107016708B (zh) * 2017-03-24 2020-06-05 杭州电子科技大学 一种基于深度学习的图像哈希编码方法
CN107092918B (zh) * 2017-03-29 2020-10-30 太原理工大学 一种基于语义特征和有监督哈希的图像检索方法
CN107145910A (zh) * 2017-05-08 2017-09-08 京东方科技集团股份有限公司 医学影像的表现生成***、其训练方法及表现生成方法
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN107391575B (zh) * 2017-06-20 2020-08-04 浙江理工大学 一种基于词向量模型的隐式特征识别方法
CN107563408A (zh) * 2017-08-01 2018-01-09 天津大学 基于拉普拉斯图关系和多视角特征融合的细胞分类方法
CN107967253A (zh) * 2017-10-27 2018-04-27 北京大学 一种基于迁移学习的低资源领域分词器训练方法及分词方法
CN107894979B (zh) * 2017-11-21 2021-09-17 北京百度网讯科技有限公司 用于语义挖掘的复合词处理方法、装置及其设备
CN109840321B (zh) * 2017-11-29 2022-02-01 腾讯科技(深圳)有限公司 文本推荐方法、装置及电子设备
CN108536669B (zh) * 2018-02-27 2019-10-22 北京达佳互联信息技术有限公司 文字信息处理方法、装置及终端
CN108874941B (zh) * 2018-06-04 2021-09-21 成都知道创宇信息技术有限公司 基于卷积特征和多重哈希映射的大数据url去重方法
CN108959551B (zh) * 2018-06-29 2021-07-13 北京百度网讯科技有限公司 近邻语义的挖掘方法、装置、存储介质和终端设备
CN109241317B (zh) * 2018-09-13 2022-01-11 北京工商大学 基于深度学习网络中度量损失的行人哈希检索方法
CN109615006B (zh) * 2018-12-10 2021-08-17 北京市商汤科技开发有限公司 文字识别方法及装置、电子设备和存储介质
CN110119784B (zh) * 2019-05-16 2020-08-04 重庆天蓬网络有限公司 一种订单推荐方法及装置
CN111581332A (zh) * 2020-04-29 2020-08-25 山东大学 基于三元组深度哈希学习的相似司法案例匹配方法及***
CN111737406B (zh) * 2020-07-28 2022-11-29 腾讯科技(深圳)有限公司 文本检索方法、装置及设备、文本检索模型的训练方法
CN112364198B (zh) * 2020-11-17 2023-06-30 深圳大学 一种跨模态哈希检索方法、终端设备及存储介质
CN112488231B (zh) * 2020-12-11 2024-07-02 北京工业大学 一种具有平衡相似性的余弦度量监督深度哈希算法
CN113935329B (zh) * 2021-10-13 2022-12-13 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法
CN115495546B (zh) * 2022-11-21 2023-04-07 中国科学技术大学 相似文本检索方法、***、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823862A (zh) * 2014-02-24 2014-05-28 西安交通大学 一种跨语言的电子文本剽窃检测***及其检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8874434B2 (en) * 2010-06-02 2014-10-28 Nec Laboratories America, Inc. Method and apparatus for full natural language parsing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823862A (zh) * 2014-02-24 2014-05-28 西安交通大学 一种跨语言的电子文本剽窃检测***及其检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Convolutional Neural Network for Modelling Sentences;Nal Kalchbrenner et al.;《Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics》;20140630;第655-665页 *
Learning Semantic Representations Using Convolutional Neural Networks for Web Search;Yelong Shen et al.;《Proceedings of the 23rd International Conference on World Wide Web》;20140407;第373-374页 *
Relation Classification via Convolutional Deep Neural Network;Daojian Zeng et al.;《Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics》;20140823;第1-10页 *
基于神经网络的文本聚类促进本体的构建;付渊 等;《电脑开发与应用》;20060531;第19卷(第5期);第13-15页 *

Also Published As

Publication number Publication date
CN104657350A (zh) 2015-05-27

Similar Documents

Publication Publication Date Title
CN104657350B (zh) 融合隐式语义特征的短文本哈希学习方法
CN110347835B (zh) 文本聚类方法、电子装置及存储介质
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、***及介质
KR101999152B1 (ko) 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
CN104915386B (zh) 一种基于深度语义特征学习的短文本聚类方法
CN110750640B (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
Leimeister et al. Skip-gram word embeddings in hyperbolic space
JP2022089883A (ja) クロスモーダルな特徴の抽出方法、抽出装置、ならびに、プログラム
WO2023134084A1 (zh) 多标签识别方法、装置、电子设备及存储介质
Xu et al. Convolutional neural networks for text hashing
CN112085565A (zh) 基于深度学习的信息推荐方法、装置、设备及存储介质
Li et al. A generative word embedding model and its low rank positive semidefinite solution
US20230334286A1 (en) Machine-learning method and system to optimize health-care resources using doctor-interpretable entity profiles
US20220114464A1 (en) Systems and methods for counterfactual explanation in machine learning models
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN112287672A (zh) 文本意图识别方法及装置、电子设备、存储介质
Grzegorczyk Vector representations of text data in deep learning
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN112836502B (zh) 一种金融领域事件隐式因果关系抽取方法
CN112163114B (zh) 一种基于特征融合的图像检索方法
CN112597300A (zh) 文本聚类方法、装置、终端设备及存储介质
CN111191031A (zh) 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
WO2023155304A1 (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN111027681B (zh) 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN115392357A (zh) 分类模型训练、标注数据样本抽检方法、介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant