CN115758145A

CN115758145A - 模型训练方法、文本识别方法、电子设备及可读存储装置

Info

Publication number: CN115758145A
Application number: CN202211438283.9A
Authority: CN
Inventors: 詹乐
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-03-07

Abstract

本申请公开了一种基于智能客服的模型训练方法、文本识别方法、电子设备及计算机可读存储装置。该模型训练方法包括：获取智能客服的文本训练集，其中，文本训练集包括正样本和负样本，正样本包括两个相同的文本，负样本包括不同文本；将正样本以及若干负样本输入智能客户模型，获取智能客户模型的对于正样本的第一预测语义相似度，以及负样本的第二预测语义相似度；基于正样本的第一预测语义相似度，以及若干负样本的第二预测语义相似度，获取智能客户模型的预测损失值；按照预测损失值，与文本训练集的标记相似度对智能客户模型进行训练，以得到最终的智能客户模型。通过上述方式，本申请能够使得智能客户模型返回的结果更准确。

Description

模型训练方法、文本识别方法、电子设备及可读存储装置

技术领域

本申请涉及数据处理领域，特别是涉及一种模型训练方法、文本识别方法、电子设备及计算机可读存储装置。

背景技术

近年来，智能客服被广泛应用于各种领域，在智能客服使用之前，需要对其进行模型训练以改善服务质量，提高客户满意度。通常传统的智能客服模型的回复是基于大量的文本数据，使用BM25或浅层的神经网络来回数据进行召回排序，根据排序高低来返回对应的结果。这种方式虽然速度快，但是由于上述技术没有语义分析能力或语义分析能力较差，因此其无法对文本的语义进行准确完整的分析，返回的结果准确率较低。而当智能客服返回的文本结果不准确时，容易降低客户的满意程度。

发明内容

本申请主要目的是提供一种基于智能客服端的模型训练方法、文本识别方法、电子设备及计算机可读存储装置，能够解决智能客户模型返回结果不准确的技术问题。

为解决上述技术问题，本申请采用的第一个技术方案是：提供一种基于智能客服的模型训练方法。该方法包括：获取智能客服的文本训练集，其中，文本训练集包括正样本和负样本，正样本包括两个相同的文本，负样本包括不同文本；将正样本以及若干负样本输入智能客户模型，获取智能客户模型的对于正样本的第一预测语义相似度，以及负样本的第二预测语义相似度；基于正样本的第一预测语义相似度，以及若干负样本的第二预测语义相似度，获取智能客户模型的预测损失值；按照预测损失值，与文本训练集的标记相似度对智能客户模型进行训练，以得到最终的智能客户模型。

为解决上述技术问题，本申请采用的第二个技术方案是：提供一种文本识别方法。该方法包括：获取至少两个文本；将至少两个文本输入至利用如第一个技术方案中的模型训练方法训练得到的智能客户模型中，以得到文本之间的预测语义相似度。

为解决上述技术问题，本申请采用的第三个技术方案是：提供一种电子设备。该电子设备包括存储器和处理器，存储器用于存储程序数据，程序数据能够被处理器执行，以实现如第一个技术方案中所述的方法。

为解决上述技术问题，本申请采用的第四个技术方案是：提供一种计算机可读存储装置。该计算机可读存储装置存储有程序数据，能够被处理器执行，以实现如第一个技术方案中所述的方法。

本申请的有益效果是：先获取正样本和负样本，将正样本和负样本输入至智能客户模型得到与正负样本对应的第一预测语义相似度以及第二预测语义相似度。第一预测语义相似度对应了两相同的文本经过该智能客户模型后的语义相似度，第二预测语义相似度对应了两不同文本经过该智能客户模型后的语义相似度，利用该第一预测语义相似度以及第二预测语义相似度计算预测损失值，利用该预测损失值对智能客户模型进行训练使得智能客户模型对相似或相同的文本输出的预测语义相似度更高，对不同的文本输出的预测语义相似度更低。按照所述预测损失值对智能客户模型训练完成之后，得到的智能客户模型能够更加准确地判断出相同或相似语义的文本，从而能够进一步进行准确的结果输出。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请基于智能客服的模型训练方法第一实施例的流程示意图；

图2是本申请智能客户模型一实施例的结构示意图；

图3是将文本输入至智能客户模型中生成预测语义相似度一过程的示意图；

图4是本申请模型训练方法第二实施例的流程示意图；

图5是本申请文本识别方法一实施例的流程示意图；

图6是本申请电子设备一实施例的结构示意图；

图7是本申请计算机可读存储装置一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在介绍本申请的技术方案之前，先对相关技术进行简单地介绍。

对比学习是自然语言处理以提升模型效果的主要方式。通过构建大量不同的正负样本来提升模型的泛化能力，核心思想就是拉近每个样本与正样本之间的距离，拉远其与负样本之间的距离。正样本即语义相似的文本样本，而负样本为语义不相似的文本样本，正负样本的确定是相对的，只能说对于某一样本来说，哪些样本是正样本，哪些样本是负样本。在实际生活中，人经历过长年的学习，可以快速清楚地判断出不同的文本是否为语义相似的文本，同样对于人工智能来说，使用好的学习模型，经历过大量数据的训练，进行对比学习，其就能够快速判断筛查文本的内容，而且人工智能还能够降低人为造成的误判，提高文本识别的准确率。

参照图1为本申请基于智能客服的模型训练方法第一实施例的流程示意图。其包括以下步骤：

S11：获取智能客服的文本训练集。

文本训练集包括正样本和负样本，正样本包括两个相同的文本，负样本包括不同文本。文本训练集中可包括多个训练文本，每个训练文本与自身关联构成一正样本，每个训练文本与其他的训练文本关联就构成一负样本。因此，在训练集中，对于每个训练文本来说。其都对应着一个正样本以及多个负样本。

S12：将正样本以及若干负样本输入智能客户模型，获取智能客户模型的对于正样本的第一预测语义相似度，以及负样本的第二预测语义相似度。

在对智能客户模型进行训练的过程中，将文本训练集中的文本数据输出至智能客户模型中，每一文本数据对于自身来说是正样本，而对于其他文本数据来说就是负样本。对于输入的一对文本数据，智能客户模型会生成这一对文本数据的预测语义相似度。对于一个文本数据来说，我们将智能客户模型输出的其与正样本的预测语义相似度作为第一预测语义相似度，将智能客户模型输出的其余负样本的预测语义相似度作为第二预测语义相似度。

S13：基于正样本的第一预测语义相似度，以及若干负样本的第二预测语义相似度，获取智能客户模型的预测损失值。

在文本训练集中，对于每个训练文本来说，其对应着一个正样本，也就是其自身，以及多个负样本，也就是其他训练文本。因此将文本训练集输出至智能客户模型中时，其对于一个训练文本，可以输出其对应的与正样本的第一预测语义相似度，以及对应的多个与辅样本的第二预测语义相似度，而根据第一预测语义相似度以及第二预测语义相似度能够生成该智能客户模型的预测损失值。预测损失值的作用是通过比较模型的预测输出和预期输出来确定模型的输出性能，进而寻找优化方向。如果预测输出和预期输出二者之间的偏差非常大，则损失值就会很大，如果预测输出和预期输出二者之间的偏差非常小，则损失值就会很小。使用适当的预测损失值，在智能客户模型在文本训练集中进行训练时，对模型进行惩罚，使得模型的输出的预测结果更加接近与预期结果。

在一实施例中，智能客户模型包括simcse模型。但该simcse模型的损失函数不仅包括原始的simcse模型损失函数，还包括有训练文本与其正样本，也就是正样本，对应的均方误差损失值。

原始的simcse模型损失函数L为

其中，

为第一预测语义相似度、s(z_i，z_j)为第二预测语义相似度、T为温度系数。该对比损失的实际上是一个交叉熵损失，其在计算好文本之间的相似度之后，用相似度除以温度系数，接着采用交叉熵损失的方式进行计算。

为计算Zi与Zi+的sim函数，sim函数为计算余弦相似度的函数。T是一个控制softamx函数分布的超参数，T越大时，函数分布越平滑，T越小时，正负样本之间的差距就越大，T可以用于调整模型的收敛速度。

本申请中所使用的simcse模型损失函数L为

其中，

为正样本对应的均方误差损失值。均方误差损失值的计算公式为

其中，n为向量A的维度，该公式即计算A与B所有维度之间的差值的均值。当A和B为正样本经过模型输出得到的正例对时，该公式计算的就是训练文本与其正样本的损失。均方误差损失会进一步使得较大的误差会比较小的误差对模型产生更大的惩罚，使得模型收敛的更快速。

S14：按照预测损失值，与文本训练集的标记相似度对智能客户模型进行训练，以得到最终的智能客户模型。

依照得到的预测损失值以及文本训练集的标记相似度，对智能客户模型进行训练。文本训练集的标记相似度为事先对训练文本进行计算得到的各个文本之间的相似度，将其作为两个样本的标准相似度。训练完成后，最终得到能够准确判断文本语义的智能客户模型。

综上所述，本实施例先获取正样本和负样本，将正样本和负样本输入至智能客户模型得到与正负样本对应的第一预测语义相似度以及第二预测语义相似度。第一预测语义相似度对应了两相同的文本经过该智能客户模型后的语义相似度，第二预测语义相似度对应了两不同文本经过该智能客户模型后的语义相似度，利用该第一预测语义相似度以及第二预测语义相似度计算预测损失值，利用该预测损失值对智能客户模型进行训练使得智能客户模型对相似或相同的文本输出的预测语义相似度更高，对不同的文本输出的预测语义相似度更低。按照所述预测损失值对智能客户模型训练完成之后，得到的智能客户模型能够更加准确地判断出相同或相似语义的文本，从而能够进一步进行准确的结果输出。

参照图2，图2为本申请智能客户模型一实施例的结构示意图。

智能客户模型包括若干的编码模块10以及采样模块20，编码模块10用于基于文本得到对应的向量，采样模块20用于对向量进行等比例随机采样。

在一实施例中，编码模块10的输入为文本经过嵌入操作得到的向量。嵌入操作为Embedding。Embedding是用一个数值向量表示一个对象的方法。这里的对象可以是一个词，一个物品，一首音乐等等。一个物品能被向量表示，是因为这个向量跟其他物品向量之间的距离反映了这些物品的相似性。更进一步来说，两个向量间的距离向量能够反映它们之间的关系。编码模块10可以是encoder模块，采样模块20可以是dropout模块。

参照图3，图3为将文本输入至智能客户模型中生成预测语义相似度一过程的示意图。Ea为文本A经过Embedding后的向量表示。将Ea输入至编码模块10后，会再次经过采样模块20，得到最终的向量结果Za。将Ea再次输入至编码模块10后，又经过一次采样模块20生成一向量结果Za+。向量Za+就作为向量Za的正例，而其他文本输出的向量就作为向量Za的反例。由于采样模块20对向量是按照等比例进行随机采样的，因此虽然输入的是同一文本向量，但是输出的向量结果Za和Za+并不相同。由于向量结果Za和Za+并不相同，因此无法保证正样本得到的向量结果Za和Za+一直是相近的，因此为了降低这种差异，需要对损失函数进行优化。

如图2所示，图2所示的智能客户模型相当于一种simcse模型结构。而simcse的损失函数L为

为了降低正样本输出结果不相近的差异，在原有的损失函数的基础上增加文本与正样本的损失来调整输出的向量结果，从而调节文本之间的相似度。

因此本申请中该模型结构的损失函数L为

增加的

在多次的训练过程中，会对正样本对应的均方误差损失值进行优化，使其最小化，从而拉近了文本与其对应正例的距离，使得语义相近的文本之间的相似度更高。

在智能客户模型在训练文本集上进行训练时，需要在文本训练集中文本之间设置一标记相似度作为标准结果，以结合模型的输出结果和预测损失值对损失值进行进一步的优化。而文本训练集中标记相似度的获取方式为利用余弦相似度计算文本之间的相似度。

参照图4，图4为本申请模型训练方法第二实施例的流程示意图。本实施例应用于文本训练集输入至智能客户模型之前。

S21：对文本训练集中的文本使用word2vec技术以及加权平均的方法得到文本对应的句向量。

对文本训练集中的文本数据使用word2vec技术进行训练得到文本数据的词向量，然后使用加权平均的方法得到各个文本对应的句向量。word2vec(word to vector)是一个生成对“词”的向量表达的模型。得到词向量后，根据文本对词向量进行加权平均，就能够得到对应该文本的句向量。

S22：利用余弦相似度计算文本之间的相似度。

在得到各个文本的句向量后，利用余弦相似度作为文本之间的相似度，作为文本之间的标记相似度。余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。这结果是与向量的长度无关的，仅仅与向量的指向方向相关。余弦相似度通常用于正空间，因此给出的值为-1到1之间。

本实施例中，使用余弦相似度计算文本向量时间的相似度后，取两位小数数值的结果作为标记结果。

在传统的客服模型训练的过程中，训练数据是已经标注过的问答对数据，由标准问句与相似问句共同构成。标注结果是‘0’或者‘1’，只有2个结果。这样的数据在问答场景中存在一个明显的弊端，模型无法学习到真正有用的信息。例如‘企业网银转账到账时间’与‘企业网银汇款到账时间’，我们标记为‘1’。‘企业网银转账转账到账时间’与‘数字口袋转账到账时间’，我们标记为‘0’。虽然后面这2句主语关键词不相同，但是他们的标注若为‘0’的话，模型默认2句话完全不一样，学不到这2个句子的有用信息，如果标注为‘0.5’这样的数值，则能够给相似文本标记更多的中间数值，使得模型能够学习地更加精确。

因此，本申请利用余弦相似度来对文本进行标记，并保留两位小数，以使得客户模型能够有效地学习到相似文本之间的有用信息，从而能够准确判断相似文本。

参照图5，图5为本申请文本识别方法一实施例的流程示意图。

S31：获取至少两个文本。

S32：将至少两个文本输入至智能客户模型中，以得到文本之间的语义相似度。

获取想要判断相似度的文本数据，将文本数据输入至通过上述模型训练方法任一实施例及可能的组合所提供的方法所训练的客户模型中，从而得到对应的各个文本之间文本相似度。

如图6所示，图6为本申请电子设备一实施例的结构示意图。

该电子设备包括处理器110、存储器120。

处理器110控制电子设备的操作，处理器110还可以称为CPU(Central ProcessingUnit，中央处理单元)。处理器110可能是一种集成电路芯片，具有信号序列的处理能力。处理器110还可以是通用处理器、数字信号序列处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器120存储处理器110工作所需要的指令和程序数据。

处理器110用于执行指令以实现本申请前述模型训练方法或文本识别的任一实施例及可能的组合所提供的方法。

如图7所示，图7为本申请计算机可读存储装置一实施例的结构示意图。

本申请可读存储装置一实施例包括存储器210，存储器210存储有程序数据，该程序数据被执行时实现本申请模型训练方法或文本识别方法任一实施例及可能的组合所提供的方法。

存储器210可以包括U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等可以存储程序指令的介质，或者也可以为存储有该程序指令的服务器，该服务器可将存储的程序指令发送给其他设备运行，或者也可以自运行该存储的程序指令。

利用上述方法训练的模型，在多种场景下进行测试，在不增加响应时间的前提下，相比传统的客户模型，平均下来，其模型准确率提升了百分之六点五，拒识率提升了百分之九。

综上所述，本申请先获取正样本和负样本，将正样本和负样本输入至智能客户模型得到与正负样本对应的第一预测语义相似度以及第二预测语义相似度。第一预测语义相似度对应了两相同的文本经过该智能客户模型后的语义相似度，第二预测语义相似度对应了两不同文本经过该智能客户模型后的语义相似度，利用该第一预测语义相似度以及第二预测语义相似度计算预测损失值，利用该预测损失值对智能客户模型进行训练使得智能客户模型对相似或相同的文本输出的预测语义相似度更高，对不同的文本输出的预测语义相似度更低。进一步地，本申请通过优化simcse模型的损失函数，在原有损失函数的基础上，增加了文本与正例的损失，拉近了文本与其对应正例的距离，使得语义相近的文本之间的相似度更高。本申请还通过余弦相似度对文本之间的相似度进行标注，保留了小数精度，使得标注文本之间的相似度关系不仅仅局限于“0”或“1”，即相似或不相似两种情况，而能够对文本之间的相似程度进行区分而进行不同数值的标注，使得模型能够学习到文本之间更多的有效信息，能够更加精准地判断文本之间语义的相似性。通过上述方法，再按照所述预测损失值对智能客户模型训练完成之后，得到的智能客户模型能够更加准确地判断出相同或相似语义的文本，从而能够进一步进行准确的结果输出。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于智能客服的模型训练方法，其特征在于，所述模型训练方法包括：

获取所述智能客服的文本训练集，其中，所述文本训练集包括正样本和负样本，所述正样本包括两个相同的文本，所述负样本包括不同文本；

将所述正样本以及若干所述负样本输入智能客户模型，获取所述智能客户模型的对于所述正样本的第一预测语义相似度，以及所述负样本的第二预测语义相似度；

基于所述正样本的第一预测语义相似度，以及若干所述负样本的第二预测语义相似度，获取所述智能客户模型的预测损失值；

按照所述预测损失值，与所述文本训练集的标记相似度对所述智能客户模型进行训练，以得到最终的智能客户模型。

2.根据权利要求1所述的方法，其特征在于，所述预测损失值包括simcse模型的损失值加上与所述正样本对应的均方误差损失值。

3.根据权利要求2所述的方法，其特征在于，所述预测损失值为

其中，

为所述第一预测语义相似度、s(z_i，z_j)为所述第二预测语义相似度、T为温度系数、

为所述正样本对应的均方误差损失值。

4.根据权利要求1所述的方法，其特征在于，所述智能客户模型包括若干的编码模块以及采样模块，所述编码模块用于基于所述文本得到对应的向量，所述采样模块用于对所述向量进行等比例随机采样。

5.根据权利要求4所述的方法，其特征在于，所述编码模块的输入为所述文本经过嵌入操作得到的向量。

6.根据权利要求1所述的方法，其特征在于，所述文本训练集的标记相似度的获取方式为利用余弦相似度计算所述文本之间的相似度。

7.根据权利要求6所述的方法，其特征在于，所述利用余弦相似度计算所述文本之间的相似度之前，包括：

对所述文本训练集中的文本使用word2vec技术以及加权平均的方法得到所述文本对应的句向量。

8.一种文本识别方法，其特征在于，所述方法包括：

获取至少两个文本；

将所述至少两个文本输入至利用如权利要求1-7中任一项所述的模型训练方法训练得到的智能客户模型中，以得到所述文本之间的预测语义相似度。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器用于存储程序数据，所述程序数据能够被所述处理器执行，以实现如权利要求1-8任一项所述的方法。

10.一种计算机可读存储装置，其特征在于，存储有程序数据，能够被处理器执行，以实现如权利要求1-8任一项所述的方法。