CN111178084A - 一种提高语义相似度训练方法及装置 - Google Patents
一种提高语义相似度训练方法及装置 Download PDFInfo
- Publication number
- CN111178084A CN111178084A CN201911369927.1A CN201911369927A CN111178084A CN 111178084 A CN111178084 A CN 111178084A CN 201911369927 A CN201911369927 A CN 201911369927A CN 111178084 A CN111178084 A CN 111178084A
- Authority
- CN
- China
- Prior art keywords
- training
- sample data
- semantic similarity
- data
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种提高语义相似度训练方法,所述方法包括:S1:从数据库中获取至少两个样本数据,基于孪生网络的语义相似度计算模型,提取两个样本数据的特征向量,计算两个特征向量的相似度,形成训练数据;S2:通过对偶方式构造所述训练数据,得到对偶训练数据,基于孪生网络的语义相似度计算模型,对所述对偶训练数据进行相似度训练,形成增强性语义相似模型。本发明提出一种训练孪生网络数据增强的方法,利用相似的传递性,通过对偶构造方式训练孪生网络,有效提高基于孪生网络的语义相似度的精度。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种提高语义相似度训练方法及装置。
背景技术
随着人工智能的发展和普及,智能客服在社会的需求越来越大,而采用智能客服回答客户的问题基本都有一个行业内的知识库,常常称为FAQ问答对,FAQ问答对知识库的规模决定了一部分机器人的智能程度,机器人另外一部分的智能程度由相似问句检索决定,尤其是相似问句检索精度,如果知识库中存在相应的知识,但是相似度检索模块却没能检索到库中存在的问答对会导致机器人无法给出回答,显得智能程度很低;如果相似度检索模块检索到了错误的问答对,就会导致答非所问,会显得机器人非常傻,大幅度降低用户体验,如何提升FAQ检索精度成为智能客服的关键技术。
现有计算语义相似度的主流方法为基于有监督的孪生网络,其网络结构为左右两个输入,各自输入一个句子,输出为两者是否相似的一个label,1表示相似,0表示不相似,左右两边共享权值。该方法对于判断两个词之间的相似性精度尚可,但是对于判断两个句子之间的相似性直接用cos效果尚缺,于是各种优化方法接踵而至,如采用负欧式距离作为距离度量等,目前最流行的方法为采用全连接函数,最后加上一个sigmoid函数用作二分类,得到相似或者不相似的label。
发明内容
本发明提供一种提高语义相似度训练方法及装置,其主要目的在于实现能根据对偶构造出的数据,用于数据增强训练,提高数据相似度训练的精度。
为实现上述目的,本发明还提供一种提高语义相似度训练方法,所述方法包括:
S1:从数据库中获取至少两个样本数据,基于孪生网络的语义相似度计算模型,提取两个样本数据的特征向量,计算两个特征向量的相似度,形成训练数据;
S2:通过对偶方式构造所述训练数据,得到对偶训练数据,基于孪生网络的语义相似度计算模型,对所述对偶训练数据进行相似度训练,形成增强性语义相似模型。
优选的,步骤S1进一步包括:
S11:所述两个样本数据分别作为所述基于孪生网络语义相似度计算模型的第一输入和第二输入,计算两个样本的相似度,并标注二者是否匹配的关联性标识;
步骤S2进一步包括:
S21:通过对偶方式构造所述两个样本数据分别作为所述基于孪生网络语义相似度计算模型的第二输入和第一输入,得到与步骤S11相同的相似度,并标注与步骤S11相同的关联性标识。
优选的,所述是否匹配的关联性包括:
所述两个样本数据之间为彼此关联,即二者匹配;
所述两个样本数据之间为彼此不关联,即二者不匹配。
优选的,所述数据库包括正样本数据和负样本数据;其中
所述正样本数据用于存储关联匹配的多个样本数据;
所述负样本数据用于存储不匹配的多个样本数据。
为实现上述目的,本发明还提供一种提高语义相似度训练装置,所述装置包括:
获取单元,用于从数据库中获取至少两个样本数据,基于孪生网络的语义相似度计算模型,提取两个样本数据的特征向量,计算两个特征向量的相似度,形成训练数据;
对偶构造单元,用于通过对偶方式构造所述训练数据,得到对偶训练数据,基于孪生网络的语义相似度计算模型,对所述对偶训练数据进行相似度训练,形成增强性语义相似模型。
本发明实现了基于孪生网络建立的语义相似度模型,利用权值共享以及相似的传递性,可以简单的通过相似的传递性对于孪生网络的训练做一个数据增强,即A与B相似,则必定有B与A相似,以此可以将训练数据集翻倍,提升孪生网络的精度。
附图说明
图1为本发明一实施例提供的提高语义相似度训练方法的流程示意图;
图2为本发明一实施例提供的一种提高语义相似度训练装置的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明一实施例提供一种提高语义相似度训练方法,该方法应用于电子设备中,所述电子设备包括,但不限于医美机器人、终端、电子设备等等。该方法基于孪生网络建立的语义相似度模型,利用权值共享以及相似的传递性,可以简单的通过相似的传递性对于孪生网络的训练做一个数据增强,以此可以将训练数据集翻倍,提升孪生网络的精度。
参照图1所示,为本发明一实施例提供的提高语义相似度训练方法的流程示意图,流程示意图应用于电子设备中。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。本实施例提高语义相似度训练方法并不限于流程图中所示步骤,此外流程图中所示步骤中,某些步骤可以省略、步骤之间的顺序可以改变。
所述方法包括:
S1:从数据库中获取至少两个样本数据,基于孪生网络的语义相似度计算模型,提取两个样本数据的特征向量,计算两个特征向量的相似度,形成训练数据;
S2:通过对偶方式构造所述训练数据,得到对偶训练数据,基于孪生网络的语义相似度计算模型,对所述对偶训练数据进行相似度训练,形成增强性语义相似模型。
优选的,步骤S1进一步包括:
S11:所述两个样本数据分别作为所述基于孪生网络语义相似度计算模型的第一输入和第二输入,计算两个样本的相似度,并标注二者是否匹配的关联性标识;
例如,对于孪生网络的训练数据格式通常如下,对于相似的句子标注为1,对于不相似的句子标注为0,如下表所示:
第一输入 | 第二输入 | 标注 |
句子1 | 句子2 | 1 |
句子1 | 句子2 | 0 |
...... | ...... | ...... |
句子1 | 句子2 | 1 |
步骤S2进一步包括:
S21:通过对偶方式构造所述两个样本数据分别作为所述基于孪生网络语义相似度计算模型的第二输入和第一输入,得到与步骤S11相同的相似度,并标注与步骤S11相同的关联性标识。
优选的,所述是否匹配的关联性包括:
所述两个样本数据之间为彼此关联,即二者匹配;
所述两个样本数据之间为彼此不关联,即二者不匹配。
优选的,所述数据库包括正样本数据和负样本数据;其中
所述正样本数据用于存储关联匹配的多个样本数据;
所述负样本数据用于存储不匹配的多个样本数据。
例如,对于孪生网络的训练,将以上类似的句子输入进去训练是目前所有的孪生网络所共有的,但由于权值共享以及相似的传递性,可以简单的通过相似的传递性对于孪生网络的训练做一个数据增强,即A与B相似,则必定有B与A相似,以此可以将训练数据集翻倍,提升孪生网络的精度。以下为数据增强后的数据,如下表所示:
第一输入 | 第二输入 | 标注 | |
句子1 | 句子2 | 1 | |
对偶构造 | 句子2 | 句子1 | 1 |
句子1 | 句子2 | 0 | |
对偶构造 | 句子2 | 句子1 | 0 |
...... | ...... | ...... |
上表中,通过对句子对偶构造出的数据,用于数据增强训练,通过此种方式训练孪生网络在内部数据集上精度可提高0.5%个点左右。
本方案提出一种训练孪生网络数据增强的方法,利用相似的传递性,通过一个简单的原输入和对偶输入加入到训练集中训练孪生网络,有效提高基于孪生网络的语义相似度的精度。
参照图2所示为本发明一实施例提供的一种提高语义相似度训练装置的结构框图;所述装置包括:
获取单元,用于从数据库中获取至少两个样本数据,基于孪生网络的语义相似度计算模型,提取两个样本数据的特征向量,计算两个特征向量的相似度,形成训练数据。进一步包括:
(1)所述两个样本数据分别作为所述基于孪生网络语义相似度计算模型的第一输入和第二输入,计算两个样本的相似度,并标注二者是否匹配的关联性标识;
(2)通过对偶方式构造所述两个样本数据分别作为所述基于孪生网络语义相似度计算模型的第二输入和第一输入,得到与上述(1)相同的相似度,并标注与上述(1)相同的关联性标识。
对偶构造单元,用于通过对偶方式构造所述训练数据,得到对偶训练数据,基于孪生网络的语义相似度计算模型,对所述对偶训练数据进行相似度训练,形成增强性语义相似模型。
所述两个样本数据之间为彼此关联,即二者匹配;
所述两个样本数据之间为彼此不关联,即二者不匹配。
所述数据库包括正样本数据和负样本数据;其中
所述正样本数据用于存储关联匹配的多个样本数据;
所述负样本数据用于存储不匹配的多个样本数据。
本方案实现了基于孪生网络建立的语义相似度模型,利用权值共享以及相似的传递性,可以简单的通过相似的传递性对于孪生网络的训练做一个数据增强,即A与B相似,则必定有B与A相似,以此可以将训练数据集翻倍,提升孪生网络的精度。
上述实施例中的实施方案可以进一步组合或者替换,且实施例仅仅是对本发明的优选实施例进行描述,并非对本发明的构思和范围进行限定,在不脱离本发明设计思想的前提下,本领域中专业技术人员对本发明的技术方案作出的各种变化和改进,均属于本发明的保护范围。
Claims (5)
1.一种提高语义相似度训练方法,其特征在于,所述方法包括:
S1:从数据库中获取至少两个样本数据,基于孪生网络的语义相似度计算模型,提取两个样本数据的特征向量,计算两个特征向量的相似度,形成训练数据;
S2:通过对偶方式构造所述训练数据,得到对偶训练数据,基于孪生网络的语义相似度计算模型,对所述对偶训练数据进行相似度训练,形成增强性语义相似模型。
2.根据权利要求1所述的一种语义相似度训练方法,其特征在于,步骤S1进一步包括:
S11:所述两个样本数据分别作为所述基于孪生网络语义相似度计算模型的第一输入和第二输入,计算两个样本的相似度,并标注二者是否匹配的关联性标识;
步骤S2进一步包括:
S21:通过对偶方式构造所述两个样本数据分别作为所述基于孪生网络语义相似度计算模型的第二输入和第一输入,得到与步骤S11相同的相似度,并标注与步骤S11相同的关联性标识。
3.根据权利要求2所述的一种语义相似度训练方法,其特征在于,所述是否匹配的关联性包括:
所述两个样本数据之间为彼此关联,即二者匹配;
所述两个样本数据之间为彼此不关联,即二者不匹配。
4.根据权利要求1所述的一种语义相似度训练方法,其特征在于,所述数据库包括正样本数据和负样本数据;其中
所述正样本数据用于存储关联匹配的多个样本数据;
所述负样本数据用于存储不匹配的多个样本数据。
5.一种提高语义相似度训练装置,其特征在于,所述装置包括:
获取单元,用于从数据库中获取至少两个样本数据,基于孪生网络的语义相似度计算模型,提取两个样本数据的特征向量,计算两个特征向量的相似度,形成训练数据;
对偶构造单元,用于通过对偶方式构造所述训练数据,得到对偶训练数据,基于孪生网络的语义相似度计算模型,对所述对偶训练数据进行相似度训练,形成增强性语义相似模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911369927.1A CN111178084A (zh) | 2019-12-26 | 2019-12-26 | 一种提高语义相似度训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911369927.1A CN111178084A (zh) | 2019-12-26 | 2019-12-26 | 一种提高语义相似度训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111178084A true CN111178084A (zh) | 2020-05-19 |
Family
ID=70657480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911369927.1A Pending CN111178084A (zh) | 2019-12-26 | 2019-12-26 | 一种提高语义相似度训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178084A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507106A (zh) * | 2021-02-05 | 2021-03-16 | 恒生电子股份有限公司 | 深度学习模型的训练方法、装置和faq相似度判别方法 |
CN112800777A (zh) * | 2021-04-14 | 2021-05-14 | 北京育学园健康管理中心有限公司 | 语义确定方法 |
CN113420113A (zh) * | 2021-06-21 | 2021-09-21 | 平安科技(深圳)有限公司 | 语义召回模型训练、召回问答方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967255A (zh) * | 2017-11-08 | 2018-04-27 | 北京广利核***工程有限公司 | 一种判定文本相似性的方法和*** |
US20190034793A1 (en) * | 2017-07-25 | 2019-01-31 | Linkedin Corporation | Semantic clustering based retrieval for candidate set expansion |
US20190147602A1 (en) * | 2017-11-13 | 2019-05-16 | Qualcomm Technologies, Inc. | Hybrid and self-aware long-term object tracking |
CN110413988A (zh) * | 2019-06-17 | 2019-11-05 | 平安科技(深圳)有限公司 | 文本信息匹配度量的方法、装置、服务器及存储介质 |
-
2019
- 2019-12-26 CN CN201911369927.1A patent/CN111178084A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190034793A1 (en) * | 2017-07-25 | 2019-01-31 | Linkedin Corporation | Semantic clustering based retrieval for candidate set expansion |
CN107967255A (zh) * | 2017-11-08 | 2018-04-27 | 北京广利核***工程有限公司 | 一种判定文本相似性的方法和*** |
US20190147602A1 (en) * | 2017-11-13 | 2019-05-16 | Qualcomm Technologies, Inc. | Hybrid and self-aware long-term object tracking |
CN110413988A (zh) * | 2019-06-17 | 2019-11-05 | 平安科技(深圳)有限公司 | 文本信息匹配度量的方法、装置、服务器及存储介质 |
Non-Patent Citations (6)
Title |
---|
LEI WANG等: "Twin Feature and Similarity Maximal Matching for Image", 《ICMR’15》 * |
LEI WANG等: "Twin Feature and Similarity Maximal Matching for Image", 《ICMR’15》, 26 June 2015 (2015-06-26), pages 59 - 66, XP059030614, DOI: 10.1145/2671188.2749345 * |
PAUL NECULOIU等: "Learning Text Similarity with Siamese Recurrent Networks", PROCEEDINGS OF THE 1ST WORKSHOP ON REPRESENTATION LEARNING FOR NLP, pages 148 - 157 * |
仇祝令 等: "基于孪生神经网络在线判别特征的视觉跟踪算法", 《光学学报》 * |
仇祝令 等: "基于孪生神经网络在线判别特征的视觉跟踪算法", 《光学学报》, vol. 39, no. 9, 30 September 2019 (2019-09-30), pages 0915003 - 1 * |
李三水: "问题相似度计算问题初探", pages 1 - 5, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/41964553> * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507106A (zh) * | 2021-02-05 | 2021-03-16 | 恒生电子股份有限公司 | 深度学习模型的训练方法、装置和faq相似度判别方法 |
CN112507106B (zh) * | 2021-02-05 | 2021-05-04 | 恒生电子股份有限公司 | 深度学习模型的训练方法、装置和faq相似度判别方法 |
CN112800777A (zh) * | 2021-04-14 | 2021-05-14 | 北京育学园健康管理中心有限公司 | 语义确定方法 |
CN112800777B (zh) * | 2021-04-14 | 2021-07-30 | 北京育学园健康管理中心有限公司 | 语义确定方法 |
CN113420113A (zh) * | 2021-06-21 | 2021-09-21 | 平安科技(深圳)有限公司 | 语义召回模型训练、召回问答方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200301954A1 (en) | Reply information obtaining method and apparatus | |
CN111178084A (zh) | 一种提高语义相似度训练方法及装置 | |
CN110266899A (zh) | 客户意图的识别方法和客服*** | |
CN110781277A (zh) | 文本识别模型相似度训练方法、***、识别方法及终端 | |
CN111078837A (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN108959531A (zh) | 信息搜索方法、装置、设备及存储介质 | |
CN108452526B (zh) | 游戏故障原因的查询方法和装置、存储介质、电子装置 | |
CN110266900A (zh) | 客户意图的识别方法、装置及客服*** | |
CN110825860B (zh) | 知识库问答抽取方法、***、移动终端及存储介质 | |
CN115470338B (zh) | 一种基于多路召回的多场景智能问答方法和*** | |
CN110362664A (zh) | 一种对聊天机器人faq知识库存储与匹配的方法及装置 | |
CN114238645A (zh) | 一种基于bert孪生注意力网络与融合图嵌入特征的关系选择方法 | |
CN109992659B (zh) | 用于文本排序的方法和装置 | |
CN109145092B (zh) | 一种数据库更新、智能问答管理方法、装置及其设备 | |
CN114491010A (zh) | 信息抽取模型的训练方法及装置 | |
CN112632264A (zh) | 智能问答方法、装置、电子设备及存储介质 | |
CN116956068A (zh) | 基于规则引擎的意图识别方法、装置、电子设备及介质 | |
CN106844732A (zh) | 针对无法直接采集的会话场景标签进行自动获取的方法 | |
CN115795018A (zh) | 一种面向电网领域的多策略智能搜索问答方法及*** | |
CN110825930A (zh) | 基于人工智能自动识别社区问答论坛中的正确回答的方法 | |
CN110955835A (zh) | 一种基于大数据技术的共享平台信息发布*** | |
CN113886547B (zh) | 基于人工智能的客户实时对话转接方法、装置和电子设备 | |
CN114186048A (zh) | 基于人工智能的问答回复方法、装置、计算机设备及介质 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN112966084B (zh) | 基于知识图谱的答案查询方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |