CN106776553A - 一种基于深度学习的非对称文本哈希方法 - Google Patents
一种基于深度学习的非对称文本哈希方法 Download PDFInfo
- Publication number
- CN106776553A CN106776553A CN201611117022.1A CN201611117022A CN106776553A CN 106776553 A CN106776553 A CN 106776553A CN 201611117022 A CN201611117022 A CN 201611117022A CN 106776553 A CN106776553 A CN 106776553A
- Authority
- CN
- China
- Prior art keywords
- text
- hash
- coding
- training set
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013135 deep learning Methods 0.000 title claims abstract description 14
- 230000007935 neutral effect Effects 0.000 claims abstract description 17
- 229910002056 binary alloy Inorganic materials 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 26
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 2
- 230000006641 stabilisation Effects 0.000 claims description 2
- 238000011105 stabilization Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 6
- 238000011161 development Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于深度学习的非对称文本哈希方法,该方法使用了最小化文本之间语义相似度和二进制哈希编码相似度之间的差值保持哈希编码的语义一致性,使得二进制编码具有相似信息保存性;采用异构的神经网络分别对检索文本和被检索文本进行哈希学习,能够提高文本哈希学习的效率。
Description
技术领域
本发明涉及文本信息检索领域与深度学习领域,更具体地,涉及一种基于深度学习的非对称文本哈希方法。
背景技术
随着互联网的发展,各类网站层出不穷。搜索引擎作为通用的文本检索工具成为了链接用户和网站的重要入口。在传统搜索引擎中,用户需要输入一些关键词,搜索引擎根据这些关键词使用索引技术检索出与用户请求相关度较高的文章。近几年来,随着自然语言处理技术的进步,和社交网络以及多媒体技术的发展,出现了更加丰富的文本检索的需求,例如:问答***、语音助手、推荐***等。这些需求使得基于关键字匹配的文本检索方法开始遇到瓶颈。
语义哈希学习办法是解决海量文本数据的快速相似查询问题的一类有效的办法。这些办法可以从训练文本数据学习,得到将文本特征映射到二进制编码的哈希函数。该二进制编码具有相似信息保存性,即是二进制编码相似的文本语义相似,二进制编码不相似的文本语义不相似。我们能够使用文本计算出的二进制编码快速检索语义相近的其他文本。
文本特征的表示方法有TF-IDF、主题模型等。近几年来,以深度学习为代表的机器学习方法在文本分类、语言模型、语法解析等领域都有突破性的成果。相比于传统的文本特征的模型,深度学习有着强大的学习能力和灵活的表示能力,能够很好地处理各种文本建模任务,成为自然语言处理领域的研究热点。
一般来说,文本哈希学习有以下几个主要部分构成:
将文本映射成为二进制编码的哈希函数。哈希函数能够从文本序列中提取出语义信息并将语义信息表示成合适的二进制哈希编码。
优化哈希函数的学习过程。将哈希函数的学习转化为哈希编码的相似度和语义相似度之间的优化问题进行求解,得到适合特定文本检索任务的哈希函数。
然而目前文本哈希学习方法只使用单一哈希函数同时对检索和被检索的文本进行建模,然而,往往现实应用中,检索的文本和被检索的文本的表述方式有着很大的不同。这导致了这些哈希办法不能准确地检索出有效信息。
发明内容
本发明提供一种提高文本哈希学习的效率的基于深度学习的非对称文本哈希方法。
为了达到上述技术效果,本发明的技术方案如下:
一种基于深度学习的非对称文本哈希方法,包括以下步骤:
S1:提取训练集文本语义标签,计算样本之间的语义相似度;
S2:根据训练集样本语义标签和语义相似度计算训练集文本的二进制哈希编码,该二进制哈希编码具有保证保持在训练集上有最佳的语义保持的性能,即期望哈希编码;
S3:将训练集文本输入到神经网络中,计算出文本对应的哈希编码;
S4:计算神经网络输出的哈希编码和S2中得到的期望哈希编码的偏差,并通过反向传播算法训练神经网络参数。
进一步地,所述步骤S1中计算计算样本之间的语义相似度的过程如下:
根据训练文本中的文档分类类别,如果文档类别相同,那么语义相似度为1,如果文档类别不同,那么语义相似度为-1。
进一步地,所述步骤S2的过程如下:
随机化初始化训练集文本中各个样本的哈希编码,计算哈希编码的相似度和语义相似度的差值,使用梯度下降的方法,优化哈希值各个比特位的取值,最终收敛到稳定的哈希编码值。
进一步地,所述步骤S3的过程如下:
对于训练集文本,文本先经过分词和去停词转化为词语序列,通过查表的方法,查询各个词语的向量值,将检索文本和被检索文本输入到不同神经网络,分别得到对应的固定长度为L在[-1,1]区间的哈希值向量。
进一步地,所述步骤S4的过程如下:
以S3中得到的哈希值和期望哈希值的差值来计算所产生的损失,利用反向传播算法更新对应神经网络的参数。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法使用了最小化文本之间语义相似度和二进制哈希编码相似度之间的差值保持哈希编码的语义一致性,使得二进制编码具有相似信息保存性;采用异构的神经网络分别对检索文本和被检索文本进行哈希学习,能够提高文本哈希学习的效率。
附图说明
图1为本发明方法流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于深度学习的非对称文本哈希方法,包括以下步骤
A、预处理:提取训练集文本语义标签,计算样本之间的语义相似度;
B、计算期望哈希编码:根据训练集样本语义标签,计算训练集样本的二进制哈希编码,该二进制编码保证保持在训练集上有最佳的语义保持的性能;
C、计算文本哈希编码:将文本输入到对应的神经网络中,计算出文本对应的哈希编码;
D、优化神经网络参数:计算神经网络输出的哈希编码和期望哈希编码的偏差,并通过反向传播算法训练神经网络参数。
上述步骤具体为:
步骤A:提取训练集文本语义标签,计算样本之间的语义相似度。假设训练文本存在K中不同的语义标签类别,所有的文本都被归类为其中一种分类。实际情况下,训练文本集合中的样本可以达到百万量级,因此在确定的硬件条件下无法载入所有样本之间的语义相似度。在本实施例中,将使用批处理的方式优化哈希编码,具体方式如下:每次随机抽取N个检索文本样本和M个被检索文本样本,计算样本之间的相似度矩阵S。利用这样的方式,可以在有限的硬件条件下分批训练。但相似度矩阵的计算不局限于此。
步骤B:计算期望哈希编码。期望哈希编码是用于作为神经网络的监督信号的中间结果。本实施方案能够最终实现的将任意文本作为输入,通过神经网络最终输出与具有语义保持性的二进制哈希编码。本实施例中,将使用梯度下降的方式来求解期望哈希编码,具体方式如下:每个样本预先随机初始化长度为L取值在[-1,1]之间的随机向量。对于检索样本的哈希编码组成的矩阵X和被检索样本组成的矩阵Y,其实际哈希编码的相似度矩阵为XYT,损失函数为||S-XYT||2。通过梯度下降的算法最小化损失函数。当损失函数收敛后,将各个维度的取值根据最近原则映射到-1或1取值上。
步骤C:在本实施方案中,神经网络的输入为文本词语向量矩阵,输出为文本的二进制哈希编码。对于输入数据,文本先经过分词和去停词转化为词语序列,通过查表的方法,查询各个词语的向量值。将检索文本和被检索文本输入到不同神经网络,分别得到对应的固定长度为L在[-1,1]区间的哈希值向量。
步骤D:在本实施方案中,每次输入一批文本,都会产生输出值和预期值之间的差值。通过后向传播(back propagation)算法,将差值传播到神经网络的每一个层中,即可实现神经网络的训练。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (5)
1.一种基于深度学习的非对称文本哈希方法,其特征在于,包括以下步骤:
S1:提取训练集文本语义标签,计算样本之间的语义相似度;
S2:根据训练集样本语义标签和语义相似度计算训练集文本的二进制哈希编码,该二进制哈希编码具有保持在训练集上有最佳的语义保持的性能,即期望哈希编码;
S3:将训练集文本输入到神经网络中,计算出文本对应的哈希编码;
S4:计算神经网络输出的哈希编码和S2中得到的期望哈希编码的偏差,并通过反向传播算法训练神经网络参数。
2.根据权利要求1所述的基于深度学习的非对称文本哈希方法,其特征在于,所述步骤S1中计算计算样本之间的语义相似度的过程如下:
根据训练文本中的文档分类类别,如果文档类别相同,那么语义相似度为1,如果文档类别不同,那么语义相似度为-1。
3.根据权利要求2所述的基于深度学习的非对称文本哈希方法,其特征在于,所述步骤S2的过程如下:
随机化初始化训练集文本中各个样本的哈希编码,计算哈希编码的相似度和语义相似度的差值,使用梯度下降的方法,优化哈希值各个比特位的取值,最终收敛到稳定的哈希编码值。
4.根据权利要求3所述的基于深度学习的非对称文本哈希方法,其特征在于,所述步骤S3的过程如下:
对于训练集文本,文本先经过分词和去停词转化为词语序列,通过查表的方法,查询各个词语的向量值,将检索文本和被检索文本输入到不同神经网络,分别得到对应的固定长度为L在[-1,1]区间的哈希值向量。
5.根据权利要求4所述的基于深度学习的非对称文本哈希方法,其特征在于,所述步骤S4的过程如下:
以S3中得到的哈希值和期望哈希值的差值来计算所产生的损失,利用反向传播算法更新对应神经网络的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611117022.1A CN106776553A (zh) | 2016-12-07 | 2016-12-07 | 一种基于深度学习的非对称文本哈希方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611117022.1A CN106776553A (zh) | 2016-12-07 | 2016-12-07 | 一种基于深度学习的非对称文本哈希方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106776553A true CN106776553A (zh) | 2017-05-31 |
Family
ID=58882183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611117022.1A Pending CN106776553A (zh) | 2016-12-07 | 2016-12-07 | 一种基于深度学习的非对称文本哈希方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106776553A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280207A (zh) * | 2018-01-30 | 2018-07-13 | 深圳市茁壮网络股份有限公司 | 一种构造完美哈希的方法 |
CN113055018A (zh) * | 2021-03-18 | 2021-06-29 | 深圳前海黑顿科技有限公司 | 一种基于启发式线性变换的语义编码无损压缩***及方法 |
CN113935329A (zh) * | 2021-10-13 | 2022-01-14 | 昆明理工大学 | 基于自适应特征识别与去噪的非对称文本匹配方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346440A (zh) * | 2014-10-10 | 2015-02-11 | 浙江大学 | 一种基于神经网络的跨媒体哈希索引方法 |
CN104408153A (zh) * | 2014-12-03 | 2015-03-11 | 中国科学院自动化研究所 | 一种基于多粒度主题模型的短文本哈希学习方法 |
CN104657350A (zh) * | 2015-03-04 | 2015-05-27 | 中国科学院自动化研究所 | 融合隐式语义特征的短文本哈希学习方法 |
CN104834748A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 一种利用基于深度语义排序哈希编码的图像检索方法 |
CN105139072A (zh) * | 2015-09-09 | 2015-12-09 | 东华大学 | 应用于非循迹智能小车避障***的强化学习算法 |
CN105328155A (zh) * | 2015-10-08 | 2016-02-17 | 东北电力大学 | 一种基于改进神经网络的漏钢可视化特征预报方法 |
CN105469096A (zh) * | 2015-11-18 | 2016-04-06 | 南京大学 | 一种基于哈希二值编码的特征袋图像检索方法 |
-
2016
- 2016-12-07 CN CN201611117022.1A patent/CN106776553A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346440A (zh) * | 2014-10-10 | 2015-02-11 | 浙江大学 | 一种基于神经网络的跨媒体哈希索引方法 |
CN104408153A (zh) * | 2014-12-03 | 2015-03-11 | 中国科学院自动化研究所 | 一种基于多粒度主题模型的短文本哈希学习方法 |
CN104657350A (zh) * | 2015-03-04 | 2015-05-27 | 中国科学院自动化研究所 | 融合隐式语义特征的短文本哈希学习方法 |
CN104834748A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 一种利用基于深度语义排序哈希编码的图像检索方法 |
CN105139072A (zh) * | 2015-09-09 | 2015-12-09 | 东华大学 | 应用于非循迹智能小车避障***的强化学习算法 |
CN105328155A (zh) * | 2015-10-08 | 2016-02-17 | 东北电力大学 | 一种基于改进神经网络的漏钢可视化特征预报方法 |
CN105469096A (zh) * | 2015-11-18 | 2016-04-06 | 南京大学 | 一种基于哈希二值编码的特征袋图像检索方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280207A (zh) * | 2018-01-30 | 2018-07-13 | 深圳市茁壮网络股份有限公司 | 一种构造完美哈希的方法 |
CN113055018A (zh) * | 2021-03-18 | 2021-06-29 | 深圳前海黑顿科技有限公司 | 一种基于启发式线性变换的语义编码无损压缩***及方法 |
CN113935329A (zh) * | 2021-10-13 | 2022-01-14 | 昆明理工大学 | 基于自适应特征识别与去噪的非对称文本匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108170736B (zh) | 一种基于循环注意力机制的文档快速扫描定性方法 | |
Feizollah et al. | Halal products on Twitter: Data extraction and sentiment analysis using stack of deep learning algorithms | |
CN104615767B (zh) | 搜索排序模型的训练方法、搜索处理方法及装置 | |
US9449271B2 (en) | Classifying resources using a deep network | |
CN108647251B (zh) | 基于宽深度门循环联合模型的推荐排序方法 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及*** | |
CN104102626B (zh) | 一种用于短文本语义相似度计算的方法 | |
AU2014201827B2 (en) | Scoring concept terms using a deep network | |
CN107220237A (zh) | 一种基于卷积神经网络的企业实体关系抽取的方法 | |
CN106202294B (zh) | 基于关键词和主题模型融合的相关新闻计算方法及装置 | |
CN106557563A (zh) | 基于人工智能的查询语句推荐方法及装置 | |
CN108733644B (zh) | 一种文本情感分析方法、计算机可读存储介质及终端设备 | |
CN107122455A (zh) | 一种基于微博的网络用户增强表示方法 | |
CN109992784B (zh) | 一种融合多模态信息的异构网络构建和距离度量方法 | |
CN106776553A (zh) | 一种基于深度学习的非对称文本哈希方法 | |
CN110019653A (zh) | 一种融合文本和标签网络的社交内容表征方法和*** | |
CN107908757B (zh) | 网站分类方法及*** | |
CN115329085A (zh) | 一种社交机器人分类方法及*** | |
Setayesh et al. | Presentation of an Extended Version of the PageRank Algorithm to Rank Web Pages Inspired by Ant Colony Algorithm | |
Shan | Social Network Text Sentiment Analysis Method Based on CNN‐BiGRU in Big Data Environment | |
CN110020214B (zh) | 一种融合知识的社交网络流式事件检测*** | |
CN109241438B (zh) | 基于要素的跨通道热点事件发现方法、装置及存储介质 | |
Uddin et al. | End-to-end neural network for paraphrased question answering architecture with single supporting line in Bangla language | |
CN111026850A (zh) | 一种自注意力机制的双向编码表征的知识产权匹配技术 | |
Zou et al. | Exploiting Popularity and Similarity for Link Recommendation in Twitter Networks. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |
|
RJ01 | Rejection of invention patent application after publication |