CN117764075A

CN117764075A - 文本语义关系识别模型训练方法、识别方法、介质及设备

Info

Publication number: CN117764075A
Application number: CN202311562821.XA
Authority: CN
Inventors: 张章伟; 安鹏; 沙爱晖; 周斌
Original assignee: Shanghai Shizhuang Information Technology Co ltd
Current assignee: Shanghai Shizhuang Information Technology Co ltd
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-03-26

Abstract

本申请提供一种文本语义关系识别模型训练方法、识别方法、介质及设备，所述训练方法包括：基于第一文本和第二文本获取训练组装文本；基于所述训练组装文本构建文本语义关系识别模型的训练数据集；基于所述训练数据集训练所述文本语义关系识别模型以获取训练好的文本语义关系识别模型。本申请提供的文本语义关系识别模型训练方法、识别方法、介质及设备，对于字数、词顺序、关键词内容相差较大的两个文本，同样能有效判别出两文本是否存在语义关系，有效提升了文本间语义关系的判别准确度。本申请应用于电商话题场景下能够避免制定复杂话题标准，便于用户浏览和理解话题，同时也减少话题活动审核中的人工成本，提升话题活动中的审核效率。

Description

文本语义关系识别模型训练方法、识别方法、介质及设备

技术领域

本申请涉及大数据分析技术领域，特别是涉及一种文本语义关系识别模型训练方法、识别方法、介质及设备。

背景技术

随着电商业务形态的丰富，对文本的理解程度要求也不断提高，此时便需要进行语义间的关系判别，从而更好地理解用户的意图和行为。例如，在话题活动中，需要判别用户发文是否符合相关话题的发布标准，这就涉及到对文本语义关系的判断。由于互联网上用户发布文本丰富多样，一般制定的话题标准与用户发文之间存在语义关系，话题发布标准只进行概要描述，当用户发文被此描述在语义上蕴含时，即可认为用户发文是否符合话题发布标准。

对此，传统方法在判断文本语义关系时需要将两个文本分别处理成向量，计算两个向量间的余弦距离从而进行语义相似度判别。其中，文本的字数、词顺序、关键词内容占据的权重较高，无法对字数、词顺序相差较大的文本间的语义关系进行有效判别。只有当两个文本的字数、词顺序、关键词内容都相似时，才能得到较高分数。但是，业务场景下由于用户在相同话题下的发文过于丰富，话题发布标准一般只进行概要描述，这与用户发文在字数、顺序等特征上相差较大，传统方法在这种情况下便不能有效判别用户发文与话题标准这两个文本间是否存在语义关系。

发明内容

本申请的目的在于提供一种文本语义关系识别模型训练方法、识别方法、介质及设备，用于解决现有技术无法很好判断文本之间语义关系的技术问题。

第一方面，本申请提供一种文本语义关系识别模型的训练方法，所述训练方法包括基于第一文本和第二文本获取训练组装文本；基于所述训练组装文本构建文本语义关系识别模型的训练数据集；基于所述训练数据集训练所述文本语义关系识别模型以获取训练好的文本语义关系识别模型。

在第一方面的一种实现方式中，基于第一文本和第二文本获取训练组装文本包括：基于特殊符号组装连接所述第一文本和所述第二文本以获取所述组装训练文本。

在第一方面的一种实现方式中，所述特殊符号为计算机编码表达的符号。

在第一方面的一种实现方式中，基于第一文本和第二文本获取训练组装文本还包括：对所述第一文本和所述第二文本进行数据清洗。

在第一方面的一种实现方式中，基于所述训练组装文本构建文本语义关系识别模型的训练数据集包括：对所述训练组装文本进行人工标注以获取文本语义关系标注结果；基于所述训练组装文本和所述文本语义关系标注结果构建所述训练数据集。

在第一方面的一种实现方式中，所述文本语义关系标注结果包括：所述第一文本和所述第二文本具有语义关系的所述训练组装文本标注为真实语义关系；所述第一文本和所述第二文本不具有语义关系的所述训练组装文本标注为无关语义关系。

本申请的第二方面提供一种文本语义关系识别方法，所述方法包括获取待识别的组装文本；基于文本语义关系识别模型对所述待识别的组装文本进行识别；所述文本语义关系识别模型为经第一方面所述的训练方法训练好的文本语义关系识别模型。

在第二方面的一种实现方式中，获取待识别的组装文本包括：获取待识别的第一文本和第二文本；基于特殊符号组装连接所述第一文本和所述第二文本以获取所述待识别的组装文本。

本申请的第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请第一方面所述的文本语义关系识别模型的训练方法和/或本申请第二方面所述的文本语义关系识别方法。

本申请的第四方面提供一种电子设备，所述电子设备包括：存储器，存储有一计算机程序；处理器，与所述存储器通信相连，调用所述计算机程序时执行本申请第一方面所述的文本语义关系识别模型的训练方法和/或本申请第二方面所述的文本语义关系识别方法。

如上所述，本申请实施例提供的文本语义关系识别模型训练方法、识别方法、介质及设备，具有以下有益效果：对于字数、词顺序、关键词内容相差较大的两个文本，同样能有效判别出两文本是否存在语义关系，有效提升了文本间语义关系的判别准确度。本申请应用于电商话题场景下能够避免制定复杂话题标准，便于用户浏览和理解话题，同时也减少话题活动审核中的人工成本，提升话题活动中的审核效率。

附图说明

图1显示为本申请实施例中文本语义关系识别模型训练方法的流程示意图。

图2显示为本申请实施例中文本语义关系识别模型训练方法的流程示意图。

图3显示为本申请实施例中文本语义关系识别方法的流程示意图。

图4显示为本申请实施例中电子设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，图示中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。此外，在本文中，诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

本申请提供一种文本语义关系识别模型训练方法、识别方法、介质及设备，对于字数、词顺序、关键词内容相差较大的两个文本，同样能有效判别出两文本是否存在语义关系，有效提升了文本间语义关系的判别准确度。

接下来将通过具体实施例结合附图的方式对本申请提供的文本语义关系识别模型训练方法、识别方法、介质及设备进行描述。

如图1所示，于一实施例中，本申请的文本语义关系识别模型训练方法包括步骤S1～S3：

S1：基于第一文本和第二文本获取训练组装文本。

具体的，对第一文本和第二文本进行数据清洗。

在一实施例中，第一文本为用户发文，第二文本为话题标准。则数据清洗包括对用户发文和话题标准中的不可识别字符进行清洗过滤，对用户发文内嵌套的话题名称进行剔除。

具体的，基于特殊符号组装连接所述第一文本和所述第二文本以获取所述组装训练文本。

具体的，特殊符号为计算机编码表达的符号。

在一实施例中，采用“|”作为特殊符号组装连接第一文本“AAA”和第二文本“BBB”，则组装训练文本为“AAA|BBB”。

S2：基于所述训练组装文本构建文本语义关系识别模型的训练数据集。

具体的，如图2所示，步骤S2包括S21和S22。

S21：对所述训练组装文本进行人工标注以获取文本语义关系标注结果。

具体的，所述文本语义关系标注结果包括：所述第一文本和所述第二文本具有语义关系的所述训练组装文本标注为真实语义关系；所述第一文本和所述第二文本不具有语义关系的所述训练组装文本标注为无关语义关系。

在一实施例中，第一文本为用户发文“AAA”，第二文本为话题标准“BBB”，组装训练文本为“AAA|BBB”。在步骤S21中，人工根据话题标准判别用户发文“AAA”是否符合话题标准“BBB”，即“AAA”在语义上是否被“BBB”包括在内。若“AAA”符合话题标准，则该训练组装文本“AAA|BBB”标注为真实语义关系；若不符合话题标准，则该训练组装文本“AAA|BBB”标注为无关语义关系。

需要说明的是，步骤S21还包括对标注进行质检。不符合标注要求的需要重新进行标注。

S22：基于所述训练组装文本和所述文本语义关系标注结果构建所述训练数据集。

具体的，根据训练组装文本和文本语义关系标注结果构建模型训练集与测试集。

S3：基于所述训练数据集训练所述文本语义关系识别模型以获取训练好的文本语义关系识别模型。

具体的，基于训练集训练文本语义关系识别模型，建立独立的语义空间模型可对任意一个语义空间内的向量进行是否存在语义关系的判别。

需要说明的是，文本语义关系识别模型在此不做限制，可以选用任一大容量模型。

如图3所示，本申请还提供了一种文本语义关系识别方法，包括步骤S4～S5：

S4：获取待识别的组装文本。

具体的，获取待识别的第一文本和第二文本，再基于特殊符号组装连接所述第一文本和所述第二文本以获取所述待识别的组装文本。

在一实施例中，第一文本为“AAA”，第二文本为“BBB”，采用“|”作为特殊符号组装连接第一文本“AAA”和第二文本“BBB”，则待识别的组装文本为“AAA|BBB”。

S5：基于文本语义关系识别模型对所述待识别的组装文本进行识别。

具体的，将待识别的组装文本输入经步骤S1～S3训练好的文本语义关系识别模型，生成文本语义关系识别结果。

在一实施例中，将待识别的组装文本为“AAA|BBB”输入文本语义关系识别模型中，通过文本语义关系识别模型最终只处理成一个向量，并对该向量进行是否包含语义关系的判别。

本申请实施例所述的文本语义关系识别模型的训练方法和/或文本语义关系识别方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本申请的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本申请的保护范围内。

本申请还提供一种电子设备。如图4所示，本实施例提供一种电子设备90，所述电子设备90包括：存储器901，被配置为存储计算机程序；以及处理器902，与所述存储器901通信相连，并且被配置为调用所述计算机程序以执行所述的文本语义关系识别模型训练方法和/或文本语义关系识别方法。

所述存储器901包括：ROM(Read Only Memory image)、RAM(Random AccessMemory)、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器902与所述存储器901相连，用于执行所述存储器901存储的计算机程序，以使所述电子设备执行上述的文本语义关系识别模型训练方法和/或文本语义关系识别方法。

优选地，所述处理器902可以是通用处理器，包括中央处理器(CentralProcessing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置或方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，模块/单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或单元可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的，作为模块/单元显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本申请实施例的目的。例如，在本申请各个实施例中的各功能模块/单元可以集成在一个处理模块中，也可以是各个模块/单元单独物理存在，也可以两个或两个以上模块/单元集成在一个模块/单元中。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例还提供了一种计算机可读存储介质。本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(magnetictape)，软盘(floppy disk)，光盘(optical disc)及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本申请实施例还可以提供一种计算机程序产品，所述计算机程序产品包括一个或多个计算机指令。在计算设备上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机或数据中心进行传输。

所述计算机程序产品被计算机执行时，所述计算机执行前述方法实施例所述的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述方法的情况下，可以下载该计算机程序产品并在计算机上执行该计算机程序产品。

如上所述，本申请提供的文本语义关系识别模型训练方法、识别方法、介质及设备对于字数、词顺序、关键词内容相差较大的两个文本，同样能有效判别出两文本是否存在语义关系，有效提升了文本间语义关系的判别准确度。本申请应用于电商话题场景下能够避免制定复杂话题标准，便于用户浏览和理解话题，同时也减少话题活动审核中的人工成本，提升话题活动中的审核效率。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种文本语义关系识别模型的训练方法，其特征在于，包括：

基于第一文本和第二文本获取训练组装文本；

基于所述训练组装文本构建文本语义关系识别模型的训练数据集；

基于所述训练数据集训练所述文本语义关系识别模型以获取训练好的文本语义关系识别模型。

2.根据权利要求1所述的一种文本语义关系识别模型的训练方法，其特征在于，基于第一文本和第二文本获取训练组装文本包括：

基于特殊符号组装连接所述第一文本和所述第二文本以获取所述组装训练文本。

3.根据权利要求2所述的一种文本语义关系识别模型的训练方法，其特征在于，所述特殊符号为计算机编码表达的符号。

4.根据权利要求1所述的一种文本语义关系识别模型的训练方法，其特征在于，基于第一文本和第二文本获取训练组装文本还包括：

对所述第一文本和所述第二文本进行数据清洗。

5.根据权利要求1所述的一种文本语义关系识别模型的训练方法，其特征在于，基于所述训练组装文本构建文本语义关系识别模型的训练数据集包括：

对所述训练组装文本进行人工标注以获取文本语义关系标注结果；

基于所述训练组装文本和所述文本语义关系标注结果构建所述训练数据集。

6.根据权利要求5所述的一种文本语义关系识别模型的训练方法，其特征在于，所述文本语义关系标注结果包括：

所述第一文本和所述第二文本具有语义关系的所述训练组装文本标注为真实语义关系；

所述第一文本和所述第二文本不具有语义关系的所述训练组装文本标注为无关语义关系。

7.一种文本语义关系识别方法，其特征在于，包括：

获取待识别的组装文本；

基于文本语义关系识别模型对所述待识别的组装文本进行识别；所述文本语义关系识别模型为经权利要求1～6任一项所述的训练方法训练好的文本语义关系识别模型。

8.根据权利要求6所述的文本语义关系识别方法，其特征在于，获取待识别的组装文本包括：

获取待识别的第一文本和第二文本；

基于特殊符号组装连接所述第一文本和所述第二文本以获取所述待识别的组装文本。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该计算机程序被处理器执行时实现权利要求1至6中任一项所述的文本语义关系识别模型的训练方法和/或权利要求7至8中任一项所述的文本语义关系识别方法。

10.一种设备，其特征在于，所述设备包括：

存储器，存储有一计算机程序；

处理器，与所述存储器通信相连，调用所述计算机程序时执行权利要求1至6中任一项所述的文本语义关系识别的训练方法和/或权利要求7至8中任一项所述的文本语义关系识别方法。