CN114490950A - 编码器模型的训练方法及存储介质、相似度预测方法及*** - Google Patents

编码器模型的训练方法及存储介质、相似度预测方法及*** Download PDF

Info

Publication number
CN114490950A
CN114490950A CN202210360834.8A CN202210360834A CN114490950A CN 114490950 A CN114490950 A CN 114490950A CN 202210360834 A CN202210360834 A CN 202210360834A CN 114490950 A CN114490950 A CN 114490950A
Authority
CN
China
Prior art keywords
neural network
text
encoder model
text sequence
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210360834.8A
Other languages
English (en)
Other versions
CN114490950B (zh
Inventor
肖清
赵文博
李剑锋
许程冲
周丽萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unicom Guangdong Industrial Internet Co Ltd
Original Assignee
China Unicom Guangdong Industrial Internet Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unicom Guangdong Industrial Internet Co Ltd filed Critical China Unicom Guangdong Industrial Internet Co Ltd
Priority to CN202210360834.8A priority Critical patent/CN114490950B/zh
Publication of CN114490950A publication Critical patent/CN114490950A/zh
Application granted granted Critical
Publication of CN114490950B publication Critical patent/CN114490950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供编码器模型的训练方法及存储介质、相似度预测方法及***,包括:将两个文本序列输入嵌入层得到文本序列向量;将两个文本序列向量输入孪生神经网络编码器模型,以使其基于相同的神经网络参数确定隐状态;根据神经网络参数构造自监督损失函数;将隐状态输入池化层以使其根据隐状态进行池化处理,根据池化处理后的文本序列向量确定两个文本序列的相似度,并以其构造有监督损失函数;根据自监督和有监督损失函数确定损失函数,以更新神经网络参数;继续将新的文本序列输入直至损失函数的数值为最小值。该方法大幅提高了模型在计算文本序列相似度时的推理带宽,且基于已训练的神经网络编码器模型能够实现两个文本序列相似度的精准计算。

Description

编码器模型的训练方法及存储介质、相似度预测方法及***
技术领域
本发明涉及文本相似度领域,更具体地,涉及编码器模型的训练方法及存储介质、相似度预测方法及***。
背景技术
文本相似度是指衡量两个文本的相似程度,应用的场景包括有文本分类、聚类、文本主题检测、主题跟踪、机器翻译等等。更具体地,在语音通信场景对通话线路进行监管也会要求确定文本之间的相似度,但语音通信场景中获取到的对话内容噪声大、夹杂口音、信息完整度不足,在现有技术中判断对话内容是否相似时需要依赖人工抽检,耗费大量人力和时间,且人工抽检存在的问题是抽检覆盖面较小,且人工检测存在主观性较强的问题,无法全面准确地检测出对话内容的相似性,因此通话线路监管的可信性和准确性也较低。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷,提供编码器模型的训练方法及存储介质、相似度预测方法及***,用于解决现有技术中在确定文本相似度时依赖人工抽检,存在检测覆盖面小且主观性较强的问题。
本发明采用的技术方案包括:
第一方面,本发明提供一种深度神经网络编码器模型的训练方法,包括:对两个不同的文本序列执行训练操作;所述训练操作为:将两个所述文本序列输入嵌入层进行向量化,得到两个文本序列向量;将两个所述文本序列向量输入孪生神经网络编码器模型,以使所述神经网络编码器模型基于相同的神经网络参数确定两个所述文本序列向量的隐状态;同时根据所述神经网络参数构造所述神经网络编码器模型的自监督损失函数;将两个所述文本序列向量的隐状态输入池化层,以使所述池化层根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理,根据池化处理后的两个所述文本序列向量确定两个所述文本序列的相似度;根据两个所述文本序列的相似度构造所述神经网络编码器模型的有监督损失函数;根据所述自监督损失函数和所述有监督损失函数确定所述神经网络编码器模型的损失函数,以使所述神经网络编码器模型根据所述损失函数更新神经网络参数;继续对新的两个不同的文本序列执行所述训练操作直至所述损失函数的数值为最小值,得到已训练的神经网络编码器模型。
第二方面,本发明提供一种文本序列的相似度预测方法,将两个不同的文本序列输入嵌入层进行向量化,得到两个文本序列向量;将两个所述文本序列向量输入由上述的深度神经网络编码器模型的训练方法训练得到的孪生神经网络编码器模型,以使所述神经网络编码器模型输出两个所述文本序列向量的隐状态;将两个所述文本序列向量的隐状态输入池化层,以使所述池化层根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理;根据池化处理后的两个文本序列向量确定两个所述文本序列的相似度。
第三方面,本发明提供一种文本序列的相似度预测***,包括:词输入模块、词嵌入模块、由上述的深度神经网络编码器模型的训练方法训练得到的孪生神经网络编码器模型、隐状态池化模块、向量相似度计算模块;所述词输入模块用于将外部输入的两种不同的文本数据序列化得到两个不同的文本序列,并将其输出至所述词嵌入模块;所述词嵌入模块用于将两个所述文本序列进行向量化,得到两个文本序列向量并将其输出至所述神经网络编码器模型;所述神经网络编码器模型用于基于所述神经网络参数确定两个所述文本序列向量的隐状态,并将其输出至隐状态池化模块;所述隐状态池化模块用于根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理,并将池化处理后的文本序列向量输出至向量相似度计算模块;所述向量相似度计算模块用于根据池化处理后的两个文本序列向量确定两个文本序列的相似度。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的深度神经网络编码器模型的训练方法,和/或上述的文本序列的相似度预测方法。
与现有技术相比,本发明的有益效果为:
本实施例提供的编码器模型的训练方法,用于训练得到已训练的孪生神经网络编码器模型,由于孪生神经网络编码器模型共享同一个神经网络参数,因此大幅提高了该模型在计算文本序列之间语义相似度时的推理带宽,且基于已训练的神经网络编码器模型能够实现两个文本序列相似度的精准计算。同时,在训练过程中,采用自监督与有监督的方式联合训练神经网络编码器模型,以使最终更新得到的神经网络参数有利于提高神经网络编码器模型在语义层面计算语义相似度的准确性。
附图说明
图1为实施例1的方法步骤S110~S180的流程示意图。
图2为实施例1的神经网络编码器模型的训练过程示意图。
图3为实施例1的神经网络编码器模型的隐状态计算过程示意图。
图4为实施例2的方法步骤S210~S240的流程示意图。
图5为实施例2的预测方法的预测过程示意图。
图6为实施例3的预测***的预测过程示意图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例1
本实施例提供一种深度神经网络编码器模型的训练方法,用于训练孪生神经网络编码器模型,孪生神经网络在广义上既可以由两个子网络构成,也可以由一个网络构成,关键在于孪生神经网络共享同一神经网络参数。
结合图1、2所示,该方法包括以下步骤:
S110、将两个不同的文本序列输入嵌入层进行向量化,得到两个文本序列向量;
在本步骤中,文本序列是指已经经过预处理后的文本数据,以使其满足嵌入层兼容的输入格式。在具体的实施方式中,预处理包括:
对原始文本数据进行数据清洗;读取预设特殊符号、停用词与用户词典词表,去除文本数据中的特殊符号,结合所读取的用户词典对文本序列进行分词,去除文本数据中存在的停用词。将文本数据转换为多个子文本序列,并按长度将多个子文本序列进行排序并拼接,再根据预先设定的训练批次的数据大小进行裁切,得到若干个文本序列作为训练数据。
从训练数据中随机采样选择作为输入的多组文本序列,每组文本序列中包括两个不同的文本序列,并获取每一组文本序列对应的标签,由于本实施例提供的训练方法用于训练计算文本序列相似度的神经网络编码器模型,因此标签为每组文本序列中两个不同的文本序列之间的真实相似度。在输入嵌入层之前将已经选择作为输入的多组文本序列转换为整型数据。在优选的实施方式中,可采用Tokenizer将文本数据转换为整型数据。
嵌入层用于将输入的文本序列转换为具有固定大小的向量,具体是将文本序列映射到向量空间中,从而得到两个文本序列的文本序列向量。
S120、将两个文本序列向量输入孪生神经网络编码器模型,以使神经网络编码器模型确定两个文本序列向量的隐状态;
在本步骤中,神经网络编码器模型接收到两个文本序列向量后,基于相同的神经网络参数确定两个文本序列向量的隐状态。神经网络参数指神经网络编码器模型骨干网的参数。隐状态是指经过神经网络中的一系列矩阵运算和非线性变换后得到的高维向量。
神经网络编码器模型初始化时根据内部各模块分配显存空间,加载预训练的参数并读取神经网络参数。在具体的实施方式中,神经网络编码模型可由(BidirectionalEncoder Representation from Transformers,双向Transformer编码器)预训练语言模型实现,在初始化该神经网络编码模型时,需加载预训练的BERT参数,再读取神经网络参数。
如图3所示,在具体的实施过程中,神经网络编码器模型由N个神经网络编码器子模块组成,用于迭代计算文本序列向量的隐状态。
神经网络编码器模型中的单个编码器模型子模块在接收到两个文本序列向量x1和x2后,首先确定每个文本序列向量的隐状态,对得到的隐状态进行层标准化处理,用以缓解模型训练过程中的梯度***问题。将经过层标准化处理后的隐状态输入子模块中的残差模块进行计算,用以避免由于神经网络编码器模型的网络层数过多而产生梯度弥散。将残差模块输出的隐状态输入子模块中的全连接层中进行处理,得到该编码器子模块输出的对应文本序列向量x1的隐状态u1和对应文本序列向量x2的隐状态u2
将N个编码器子模块前后串联,每个编码器模型子模块基于各自内部的神经网络参数计算其自身关于文本序列向量的隐状态,并将该子模块最终输出的文本序列向量的隐状态输出至下一个编码器模型子模块,作为下一个编码器模型子模块的输入,直至最后一个编码器模型子模块输出文本序列向量的隐状态,作为最终模型输出的文本序列向量的隐状态。
具体地,神经网络编码器模型中的每个编码器模型子模块可根据式子:
Figure 177999DEST_PATH_IMAGE001
确定文本序列向量的隐状态,其中,
Figure 222485DEST_PATH_IMAGE002
为文本序列向量的隐状态,
Figure 685828DEST_PATH_IMAGE003
为非线性激活函数,
Figure 233484DEST_PATH_IMAGE004
为注意力机制变换,
Figure 465882DEST_PATH_IMAGE005
为神经网络参数,
Figure 706370DEST_PATH_IMAGE006
为输入的文本序列向量。
S130、根据神经网络参数构造神经网络编码器模型的自监督损失函数;
自监督损失函数的变量为神经网络编码器模型的神经网络参数,用于通过梯度下降的方式更新神经网络参数以使该损失函数达到最小值。
在具体的实施方式中,自监督损失函数为:
Figure 657009DEST_PATH_IMAGE007
其中,
Figure 273935DEST_PATH_IMAGE008
表示概率密度函数,
Figure 610107DEST_PATH_IMAGE009
为神经网络参数,
Figure 21497DEST_PATH_IMAGE010
为遮掩语言模型输出层的对应参数,
Figure 193852DEST_PATH_IMAGE011
为下一句预测模型输出层的对应参数。遮掩语言模型(Masked Language Model,MLM)是指通过随机对输入文本序列中的某些位置进行遮掩,再对文本序列遮掩的位置进行预测的模型。下一句预测模型(NextSentencePrediction, NSP)是指用于预测两个句子是否是连续的两个句子的模型。
Figure 348890DEST_PATH_IMAGE012
为遮掩语言模型的训练数据集,
Figure 290301DEST_PATH_IMAGE013
为下一句预测模型的训练数据集,
Figure 872592DEST_PATH_IMAGE014
Figure 781511DEST_PATH_IMAGE015
分别为遮掩语言模型对遮掩位置所预测的词语以及该位置真实的词语,
Figure 740240DEST_PATH_IMAGE016
表示下一句预测模型输出的与前后两个文本序列的连接关系,
Figure 801737DEST_PATH_IMAGE017
表示与前后两个文本序列的真实连接关系。
S140、将神经网络编码器模型输出的两个文本序列向量的隐状态输入池化层,以使池化层根据两个文本序列向量的隐状态对两个文本序列向量进行池化处理;
在本步骤中,池化层在接收到两个文本序列向量的隐状态后,具体是将该隐状态映射到固定尺寸的语义向量空间,从而得到文本序列向量在统一尺寸的语义向量,即为进行池化处理后的文本序列向量。该固定尺寸是预先设定的。
S150、根据池化处理后的两个文本序列向量确定两个文本序列的相似度;
在本步骤中,可以利用现有技术中常用的计算两个向量之间的相似度的方法确定两个文本序列的相似度。在具体的实施方式中,可利用式子
Figure 554929DEST_PATH_IMAGE018
确定两个文本序列的相似度。
其中,
Figure 701877DEST_PATH_IMAGE019
为两个文本序列的相似度,
Figure 198717DEST_PATH_IMAGE020
Figure 98409DEST_PATH_IMAGE021
分别表示两个文本序列,
Figure 288082DEST_PATH_IMAGE022
为两个池化处理后的文本序列向量的向量积,
Figure 922326DEST_PATH_IMAGE023
为两个池化处理后的文本序列向量的模的乘积。
S160、根据两个文本序列的相似度构造神经网络编码器模型的有监督损失函数;
有监督损失函数由神经网络编码器模型确定的两个文本序列的相似度以及真实的相似度构造,两个文本序列的相似度基于池化后的文本序列向量计算得到,池化后的文本序列向量基于神经网络编码器模型输出的隐状态得到,隐状态基于神经网络参数得到,因此神经网络参数必定影响了两个文本序列的相似度计算,该有监督损失函数的变量仍然是神经网络编码器模型的神经网络参数,通过梯度下降的方式更新神经网络参数,使两个文本序列的相似度与真实的相似度尽可能地接近,从而使有监督损失函数达到最小值。
在具体的实施方式中,有监督损失函数为:
Figure 957278DEST_PATH_IMAGE024
其中,
Figure 727788DEST_PATH_IMAGE025
Figure 88362DEST_PATH_IMAGE026
Figure 209902DEST_PATH_IMAGE027
的真实文本相似度,
Figure 300742DEST_PATH_IMAGE028
为每次执行训练操作时所抓取的文本序列的数量。
S170、根据自监督损失函数和有监督损失函数确定神经网络编码器模型的损失函数,以使神经网络编码器模型根据损失函数更新神经网络参数;
在本步骤中,结合自监督损失函数和有监督损失函数构造神经网络编码器模型的损失函数,即联合了自监督和有监督的两种方式联合训练神经网络编码器,有利于得到神经网络参数的最优解。自监督损失函数和有监督损失函数的结合方式可以是将两者相加或对两者执行任何适用的运算方式。
在具体的实施方式中,损失函数为
Figure 191338DEST_PATH_IMAGE029
。其中,
Figure 457234DEST_PATH_IMAGE030
为自监督损失函数;
Figure 800490DEST_PATH_IMAGE031
为有监督损失函数,
Figure 708404DEST_PATH_IMAGE032
为调整权重的超参数,即可通过调整
Figure 453506DEST_PATH_IMAGE033
的值可以调整有监督损失函数和自监督损失函数在整体损失函数中所占权重,
Figure 155882DEST_PATH_IMAGE032
满足小于1。
S180、判断损失函数的数值是否达到最小值,如否,更新神经网络参数,并对新的两个不同的文本序列重新执行步骤S110,如是,得到已训练的神经网络编码器模型。
由于以上步骤仅输入一组即两个不同的文本序列至神经网络编码器模型,需要重新执行步骤S110,向神经网络编码器模型不断输入新的文本序列以对其进行训练,训练过程中神经网络编码器模型的神经网络参数以梯度下降的方式不断更新,直至损失函数的数值为最小值,神经网络编码器模型训练完成,得到已训练的神经网络编码器模型。
本实施例提供的深度神经网络编码器模型的训练方法,用于训练孪生神经网络编码器模型,训练得到的神经网络编码器模型大幅提高了文本序列之间语义相似度计算时的推理带宽,则基于该神经网络编码器模型能够实现两个文本序列相似度的精准计算。同时,在训练过程中,采用自监督与有监督相结合的方式构造神经网络编码器模型的损失函数,用以联合训练神经网络编码器模型,最终更新得到的神经网络参数有利于提高神经网络编码器模型在语义层面计算语义相似度的准确性。由于该神经网络编码器模型较好地捕捉了上下文语义信息,当应用于通信线路这类多轮对话场景时,能够更智能地自动区分不同通话场景,及时发现异常通信行为,提升语音业务治理的智能化程度。
实施例2
基于与实施例1相同的构思,本实施例提供一种文本序列的相似度预测方法,主要利用通过实施例提供的神经网络编码器模型的训练方法训练得到的神经网络编码器模型对两个不同的文本序列的相似度进行预测。
结合图3、4所示,该方法包括:
S210、将两个不同的文本序列输入嵌入层进行向量化,得到两个文本序列向量;
在本步骤执行之前,可先确定需要预测相似度的两种文本数据,并将其进行序列化等预处理,使其成为两种文本序列,且为嵌入层、神经网络编码器模型以及池化层所兼容。
S220、将两个文本序列向量输入已训练的神经网络编码器模型,以使神经网络编码器模型输出两个文本序列向量的隐状态;
已训练的神经网络编码器模型在接收到两个文本序列向量后,神经网络编码器模型的每个编码器模型子模块根据式子
Figure 235703DEST_PATH_IMAGE034
确定文本序列向量的隐状态,其中,
Figure 150569DEST_PATH_IMAGE035
为文本序列向量的隐状态,
Figure 15757DEST_PATH_IMAGE036
为非线性激活函数,
Figure 623456DEST_PATH_IMAGE037
为注意力机制变换,
Figure 941305DEST_PATH_IMAGE038
为神经网络参数,
Figure 925441DEST_PATH_IMAGE039
为输入的文本序列向量。
在具体的实施过程中,神经网络编码器模型中包含多个神经网络编码器模型子模块,以前后串联的方式将一个子模块的输出作为下一个子模块的输入,用于迭代计算文本序列向量的隐状态,最后一个编码器模型子模块输出文本序列向量的隐状态,作为最终模型输出的文本序列向量的隐状态。
S230、将两个文本序列向量的隐状态输入池化层,以使池化层根据两个文本序列向量的隐状态对两个文本序列向量作池化处理;
池化层接收到两个文本序列向量的隐状态后,将两个文本序列的隐状态映射到固定尺寸的语义向量空间,得到统一尺寸的语义向量。
S240、根据池化处理后的两个文本序列向量确定两个文本序列的相似度。
在本步骤中,利用式子
Figure 628824DEST_PATH_IMAGE040
确定两个文本序列的相似度。
其中,
Figure 673003DEST_PATH_IMAGE041
为两个文本序列的相似度,
Figure 212569DEST_PATH_IMAGE042
Figure 396DEST_PATH_IMAGE043
分别表示两个文本序列,
Figure 574597DEST_PATH_IMAGE044
为两个池化处理后的文本序列向量的向量积,
Figure 773366DEST_PATH_IMAGE045
为两个池化处理后的文本序列向量的模的乘积。
利用实施例1提供的训练方法得到的孪生神经网络编码器模型,基于已确定的神经网络参数能够实现语义层面计算语义相似度的高准确性,且当输入的文本序列为通信线路中监管的对话内容时,该神经网络编码器模型能够更智能地自动区分不同通话场景,及时发现异常通信行为,提升语音业务治理的智能化程度。
本实施例提供的文本序列的相似度预测方法与实施例1基于同一构思,因此与实施例1出现相同的步骤以及名词,其定义、解释、具体/优选的实施方式,以及所带来的有益效果均可参考实施例1中的说明,在本实施例中不再赘述。
实施例3
基于与实施例1、2相同的构思,本实施例提供一种文本序列的相似度预测***,主要利用通过实施例1提供的神经网络编码器模型的训练方法训练得到的神经网络编码器模型对两个不同的文本序列的相似度进行预测。
如图5所示,该***包括:词输入模块310、词嵌入模块320、由实施例1提供的训练方法训练得到的神经网络编码器模型、隐状态池化模块330、向量相似度计算模块340。
词输入模块310用于接收外部输入的两种文本数据,并将其序列化得到两个不同的文本序列,并将其输出至词嵌入模块320。
词嵌入模块320用于将两个文本序列进行向量化,具体是将文本序列映射到向量空间中,从而得到两个文本序列的文本序列向量,并将其输出至神经网络编码器模型。神经网络编码器模型用于基于神经网络参数确定两个文本序列向量的隐状态,并将其输出至隐状态池化模块330。
已训练的神经网络编码器模型在接收到两个文本序列向量后,神经网络编码器模型的每个编码器模型子模块根据式子
Figure 800228DEST_PATH_IMAGE046
确定文本序列向量的隐状态,其中,
Figure 391747DEST_PATH_IMAGE047
为文本序列向量的隐状态,
Figure 820454DEST_PATH_IMAGE048
为非线性激活函数,
Figure 206436DEST_PATH_IMAGE049
为注意力机制变换,
Figure 986173DEST_PATH_IMAGE050
为神经网络参数,
Figure 850224DEST_PATH_IMAGE051
为输入的文本序列向量。
在具体的实施过程中,神经网络编码器模型中包含多个神经网络编码器模型子模块,以前后串联的方式将一个子模块的输出作为下一个子模块的输入,用于迭代计算文本序列向量的隐状态,最后一个编码器模型子模块输出文本序列向量的隐状态,作为最终模型输出的文本序列向量的隐状态。
隐状态池化模块330用于根据两个文本序列向量的隐状态对两个文本序列向量进行池化处理,具体是将两个文本序列的隐状态映射到固定尺寸的语义向量空间,得到统一尺寸的语义向量,作为池化处理后的文本序列向量输出至向量相似度计算模块340。
向量相似度计算模块340用于根据池化处理后的两个文本序列向量确定两个文本序列的相似度。
向量相似度计算模块340具体用于利用式子
Figure 385635DEST_PATH_IMAGE052
确定两个文本序列的相似度。其中,
Figure 208097DEST_PATH_IMAGE053
两个文本序列的相似度,
Figure 209551DEST_PATH_IMAGE020
Figure 611714DEST_PATH_IMAGE054
分别表示两个文本序列,
Figure 15013DEST_PATH_IMAGE055
为两个池化处理后的文本序列向量的向量积,
Figure 8377DEST_PATH_IMAGE056
为两个池化处理后的文本序列向量的模的乘积。
本实施例提供的文本序列的相似度预测***与实施例1、2基于同一构思,因此与实施例1、2出现相同的步骤以及名词,其定义、解释、具体/优选的实施方式,以及所带来的有益效果均可参考实施例1、2中的说明,在本实施例中不再赘述。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种深度神经网络编码器模型的训练方法,其特征在于,包括:
对两个不同的文本序列执行训练操作;
所述训练操作为:
将两个所述文本序列输入嵌入层进行向量化,得到两个文本序列向量;
将两个所述文本序列向量输入孪生神经网络编码器模型,以使所述神经网络编码器模型基于相同的神经网络参数确定两个所述文本序列向量的隐状态;
同时根据所述神经网络参数构造所述神经网络编码器模型的自监督损失函数;
将两个所述文本序列向量的隐状态输入池化层,以使所述池化层根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理,根据池化处理后的两个所述文本序列向量确定两个所述文本序列的相似度;
根据两个所述文本序列的相似度构造所述神经网络编码器模型的有监督损失函数;
根据所述自监督损失函数和所述有监督损失函数确定所述神经网络编码器模型的损失函数,以使所述神经网络编码器模型根据所述损失函数更新神经网络参数;
继续对新的两个不同的文本序列执行所述训练操作直至所述损失函数的数值为最小值,得到已训练的神经网络编码器模型。
2.根据权利要求1所述的深度神经网络编码器模型的训练方法,其特征在于,
根据所述自监督损失函数和所述有监督损失函数确定所述神经网络编码器模型的损失函数,具体包括:将所述自监督损失函数以及所述有监督损失函数的和作为所述神经网络编码器模型的损失函数。
3.根据权利要求1所述的深度神经网络编码器模型的训练方法,其特征在于,
根据池化处理后的两个所述文本序列向量确定两个所述文本序列的相似度,具体包括:利用式子
Figure 789973DEST_PATH_IMAGE001
确定两个所述文本序列的相似度;
其中,
Figure 535075DEST_PATH_IMAGE002
为两个所述文本序列的相似度,
Figure 971873DEST_PATH_IMAGE003
Figure 802426DEST_PATH_IMAGE004
分别表示两个文本序列,
Figure 248451DEST_PATH_IMAGE005
为两个池化处理后的文本序列向量的向量积;
Figure 582480DEST_PATH_IMAGE006
为两个池化处理后的文本序列向量的模的乘积。
4.根据权利要求3所述的深度神经网络编码器模型的训练方法,其特征在于,所述有监督损失函数为:
Figure 705026DEST_PATH_IMAGE007
其中,
Figure 22874DEST_PATH_IMAGE008
Figure 7011DEST_PATH_IMAGE009
Figure 726705DEST_PATH_IMAGE010
的真实文本相似度,
Figure 505305DEST_PATH_IMAGE011
为每次执行训练操作时所抓取的文本序列的数量。
5.根据权利要求4所述的深度神经网络编码器模型的训练方法,其特征在于,所述自监督损失函数为:
Figure 310450DEST_PATH_IMAGE012
其中,
Figure 98278DEST_PATH_IMAGE013
表示概率密度函数,
Figure 924676DEST_PATH_IMAGE014
为所述神经网络参数,
Figure 139757DEST_PATH_IMAGE015
Figure 901039DEST_PATH_IMAGE016
分别表示遮掩语言模型和下一句预测模型对应输出层的参数,
Figure 492558DEST_PATH_IMAGE017
Figure 921265DEST_PATH_IMAGE018
分别为遮掩语言模型和下一句预测模型的训练数据集,
Figure 307247DEST_PATH_IMAGE019
Figure 86984DEST_PATH_IMAGE020
分别为遮掩语言模型的预测词语和真实词语,
Figure 200302DEST_PATH_IMAGE021
表示下一句预测模型输出的与前后两个文本序列的连接关系,
Figure 483516DEST_PATH_IMAGE022
表示与前后两个文本序列的真实连接关系。
6.根据权利要求5所述的深度神经网络编码器模型的训练方法,其特征在于,所述损失函数为:
Figure 305979DEST_PATH_IMAGE023
其中,
Figure 307433DEST_PATH_IMAGE024
为所述自监督损失函数;
Figure 975174DEST_PATH_IMAGE025
为所述有监督损失函数,
Figure 378474DEST_PATH_IMAGE026
为用于调整有监督损失函数和自监督损失函数的权重的超参数,
Figure 355526DEST_PATH_IMAGE027
满足小于1。
7.根据权利要求1所述的深度神经网络编码器模型的训练方法,其特征在于,所述神经网络编码器模型基于相同的神经网络参数确定两个所述文本序列向量的隐状态,具体包括:
所述神经网络编码器模型利用式子
Figure 844276DEST_PATH_IMAGE028
确定两个所述文本序列向量的隐状态;
其中,
Figure 50130DEST_PATH_IMAGE029
为文本序列向量的隐状态,
Figure 307936DEST_PATH_IMAGE030
为非线性激活函数,
Figure 472201DEST_PATH_IMAGE031
为注意力机制变换,
Figure 182668DEST_PATH_IMAGE032
为所述神经网络参数,
Figure 457791DEST_PATH_IMAGE033
为输入的文本序列向量。
8.一种文本序列的相似度预测方法,其特征在于,
将两个不同的文本序列输入嵌入层进行向量化,得到两个文本序列向量;
将两个所述文本序列向量输入由权利要求1~7任一项所述的深度神经网络编码器模型的训练方法训练得到的孪生神经网络编码器模型,以使所述神经网络编码器模型输出两个所述文本序列向量的隐状态;
将两个所述文本序列向量的隐状态输入池化层,以使所述池化层根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理;
根据池化处理后的两个文本序列向量确定两个所述文本序列的相似度。
9.一种文本序列的相似度预测***,其特征在于,包括:词输入模块、词嵌入模块、由权利要求1~7任一项所述的深度神经网络编码器模型的训练方法训练得到的孪生神经网络编码器模型、隐状态池化模块、向量相似度计算模块;
所述词输入模块用于将外部输入的两种不同的文本数据序列化得到两个不同的文本序列,并将其输出至所述词嵌入模块;
所述词嵌入模块用于将两个所述文本序列进行向量化,得到两个文本序列向量并将其输出至所述神经网络编码器模型;
所述神经网络编码器模型用于基于所述神经网络参数确定两个所述文本序列向量的隐状态,并将其输出至隐状态池化模块;
所述隐状态池化模块用于根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理,并将池化处理后的文本序列向量输出至向量相似度计算模块;
所述向量相似度计算模块用于根据池化处理后的两个文本序列向量确定两个文本序列的相似度。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7任一项所述的深度神经网络编码器模型的训练方法,和/或权利要求8所述的文本序列的相似度预测方法。
CN202210360834.8A 2022-04-07 2022-04-07 编码器模型的训练方法及存储介质、相似度预测方法及*** Active CN114490950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210360834.8A CN114490950B (zh) 2022-04-07 2022-04-07 编码器模型的训练方法及存储介质、相似度预测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210360834.8A CN114490950B (zh) 2022-04-07 2022-04-07 编码器模型的训练方法及存储介质、相似度预测方法及***

Publications (2)

Publication Number Publication Date
CN114490950A true CN114490950A (zh) 2022-05-13
CN114490950B CN114490950B (zh) 2022-07-12

Family

ID=81487384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210360834.8A Active CN114490950B (zh) 2022-04-07 2022-04-07 编码器模型的训练方法及存储介质、相似度预测方法及***

Country Status (1)

Country Link
CN (1) CN114490950B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743545A (zh) * 2022-06-14 2022-07-12 联通(广东)产业互联网有限公司 方言种类预测模型的训练方法、设备及存储介质
CN115357690A (zh) * 2022-10-19 2022-11-18 有米科技股份有限公司 基于文本模态自监督的文本去重方法及装置
CN115660871A (zh) * 2022-11-08 2023-01-31 上海栈略数据技术有限公司 医学临床过程无监督建模方法、计算机设备、存储介质
WO2024067779A1 (zh) * 2022-09-30 2024-04-04 华为技术有限公司 一种数据处理方法及相关装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3054403A2 (en) * 2015-02-06 2016-08-10 Google, Inc. Recurrent neural networks for data item generation
CN108388888A (zh) * 2018-03-23 2018-08-10 腾讯科技(深圳)有限公司 一种车辆识别方法、装置和存储介质
CN109614471A (zh) * 2018-12-07 2019-04-12 北京大学 一种基于生成式对抗网络的开放式问题自动生成方法
CN110009013A (zh) * 2019-03-21 2019-07-12 腾讯科技(深圳)有限公司 编码器训练及表征信息提取方法和装置
CN110347839A (zh) * 2019-07-18 2019-10-18 湖南数定智能科技有限公司 一种基于生成式多任务学习模型的文本分类方法
US20200026954A1 (en) * 2019-09-27 2020-01-23 Intel Corporation Video tracking with deep siamese networks and bayesian optimization
CN111144565A (zh) * 2019-12-27 2020-05-12 中国人民解放军军事科学院国防科技创新研究院 基于一致性训练的自监督领域自适应深度学习方法
CN112149689A (zh) * 2020-09-28 2020-12-29 上海交通大学 基于目标领域自监督学习的无监督领域适应方法和***
CN112396479A (zh) * 2021-01-20 2021-02-23 成都晓多科技有限公司 一种基于知识图谱的服饰搭配推荐方法及***
CN113159945A (zh) * 2021-03-12 2021-07-23 华东师范大学 一种基于多任务自监督学习的股票涨跌预测方法
US20210326660A1 (en) * 2020-04-21 2021-10-21 Google Llc Supervised Contrastive Learning with Multiple Positive Examples
CN113553906A (zh) * 2021-06-16 2021-10-26 之江实验室 基于类中心域对齐的判别无监督跨域行人重识别方法
CN113705772A (zh) * 2021-07-21 2021-11-26 浪潮(北京)电子信息产业有限公司 一种模型训练方法、装置、设备及可读存储介质
CN113936647A (zh) * 2021-12-17 2022-01-14 中国科学院自动化研究所 语音识别模型的训练方法、语音识别方法和***
CN114003698A (zh) * 2021-12-27 2022-02-01 成都晓多科技有限公司 一种文本检索方法、***、设备及存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3054403A2 (en) * 2015-02-06 2016-08-10 Google, Inc. Recurrent neural networks for data item generation
CN108388888A (zh) * 2018-03-23 2018-08-10 腾讯科技(深圳)有限公司 一种车辆识别方法、装置和存储介质
CN109614471A (zh) * 2018-12-07 2019-04-12 北京大学 一种基于生成式对抗网络的开放式问题自动生成方法
CN110009013A (zh) * 2019-03-21 2019-07-12 腾讯科技(深圳)有限公司 编码器训练及表征信息提取方法和装置
CN110347839A (zh) * 2019-07-18 2019-10-18 湖南数定智能科技有限公司 一种基于生成式多任务学习模型的文本分类方法
US20200026954A1 (en) * 2019-09-27 2020-01-23 Intel Corporation Video tracking with deep siamese networks and bayesian optimization
CN111144565A (zh) * 2019-12-27 2020-05-12 中国人民解放军军事科学院国防科技创新研究院 基于一致性训练的自监督领域自适应深度学习方法
US20210326660A1 (en) * 2020-04-21 2021-10-21 Google Llc Supervised Contrastive Learning with Multiple Positive Examples
CN112149689A (zh) * 2020-09-28 2020-12-29 上海交通大学 基于目标领域自监督学习的无监督领域适应方法和***
CN112396479A (zh) * 2021-01-20 2021-02-23 成都晓多科技有限公司 一种基于知识图谱的服饰搭配推荐方法及***
CN113159945A (zh) * 2021-03-12 2021-07-23 华东师范大学 一种基于多任务自监督学习的股票涨跌预测方法
CN113553906A (zh) * 2021-06-16 2021-10-26 之江实验室 基于类中心域对齐的判别无监督跨域行人重识别方法
CN113705772A (zh) * 2021-07-21 2021-11-26 浪潮(北京)电子信息产业有限公司 一种模型训练方法、装置、设备及可读存储介质
CN113936647A (zh) * 2021-12-17 2022-01-14 中国科学院自动化研究所 语音识别模型的训练方法、语音识别方法和***
CN114003698A (zh) * 2021-12-27 2022-02-01 成都晓多科技有限公司 一种文本检索方法、***、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐流畅: "预训练深度学习架构下的语义地址匹配与语义空间融合模型研究", 《中国优秀博硕士学位论文全文数据库(博士)基础科学辑》 *
赵龙龙: "基于深度学习组合模型的滚动轴承故障诊断", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743545A (zh) * 2022-06-14 2022-07-12 联通(广东)产业互联网有限公司 方言种类预测模型的训练方法、设备及存储介质
CN114743545B (zh) * 2022-06-14 2022-09-02 联通(广东)产业互联网有限公司 方言种类预测模型的训练方法、设备及存储介质
WO2024067779A1 (zh) * 2022-09-30 2024-04-04 华为技术有限公司 一种数据处理方法及相关装置
CN115357690A (zh) * 2022-10-19 2022-11-18 有米科技股份有限公司 基于文本模态自监督的文本去重方法及装置
CN115660871A (zh) * 2022-11-08 2023-01-31 上海栈略数据技术有限公司 医学临床过程无监督建模方法、计算机设备、存储介质
CN115660871B (zh) * 2022-11-08 2023-06-06 上海栈略数据技术有限公司 医学临床过程无监督建模方法、计算机设备、存储介质

Also Published As

Publication number Publication date
CN114490950B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN114490950B (zh) 编码器模型的训练方法及存储介质、相似度预测方法及***
CN112116030B (zh) 一种基于向量标准化和知识蒸馏的图像分类方法
Gu et al. Stack-captioning: Coarse-to-fine learning for image captioning
CN108427771B (zh) 摘要文本生成方法、装置和计算机设备
CN111708882B (zh) 基于Transformer的中文文本信息缺失的补全方法
WO2022142041A1 (zh) 意图识别模型的训练方法、装置、计算机设备和存储介质
CN110648659B (zh) 基于多任务模型的语音识别与关键词检测装置和方法
CN111930914B (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN109902301B (zh) 基于深度神经网络的关系推理方法、装置及设备
WO2020155619A1 (zh) 带情感的机器聊天方法、装置、计算机设备及存储介质
CN111813954B (zh) 文本语句中两实体的关系确定方法、装置和电子设备
CN113254615A (zh) 文本处理方法、装置、设备及介质
CN110942774A (zh) 一种人机交互***、其对话方法、介质和设备
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN115204143A (zh) 一种基于prompt的文本相似度计算方法及***
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
CN115757695A (zh) 一种日志语言模型训练方法及***
CN114662601A (zh) 基于正负样本的意图分类模型训练方法及装置
CN113177113B (zh) 任务型对话模型预训练方法、装置、设备及存储介质
CN114626529B (zh) 一种自然语言推理微调方法、***、装置及存储介质
CN114925681A (zh) 知识图谱问答问句实体链接方法、装置、设备及介质
CN115759043A (zh) 一种文档级敏感信息检测模型训练及预测方法
CN115495579A (zh) 5g通信助理文本分类的方法、装置、电子设备及存储介质
CN114333790A (zh) 数据处理方法、装置、设备、存储介质及程序产品
CN114282058A (zh) 模型训练与视频主题预测的方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant