CN113449109A

CN113449109A - 安全类别标签检测方法、装置、计算机设备及存储介质

Info

Publication number: CN113449109A
Application number: CN202110762951.2A
Authority: CN
Inventors: 吴智东
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-09-28

Abstract

本申请公开一种安全类别标签检测方法、装置、计算机设备及存储介质，包括：获取待检测安全类别标签的文本信息；调用序列标注模型为文本信息标注文本信息中的关键词及关键词所属的安全类别标签，根据各安全类别标签所标注的关键词计算该文本信息分别属于各安全类别标签的分词评估分值；调用文本分类模型为文本信息进行分类评估，获得该文本信息分别命中所述各个安全类别标签的全文评估分值；将各个安全类别标签相对应的两种分值进行线性融合，获得文本信息分别属于各个安全类别标签的综合评估分值，确定综合评估分值最大者为文本信息的安全类别标签。本申请通过融合两种标签分类模型，从词组及全文的维度精准地检测文本信息的安全类别。

Description

安全类别标签检测方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及信息安全领域，尤其是一种安全类别标签检测方法、装置、计算机设备及存储介质。

背景技术

在现有的技术中，较多是使用违规关键词，对信息内容进行匹配，当匹配内容中存在的关键词，结合白名单进行判断内容是否违规；也有部分技术，计算了信息文本与数据库中黑名单内容的文本相似性，当相似度高于阈值时，则判断内容违规。

通过关键词匹配的方法，忽略了文本之间的语义信息，召回出来的数据大多数是与违规类别不相关的噪声数据。而通过相似度的方法，则非常依赖于收集的样本库，当信息文本出现了数据库中不存在的样本，那么该方法很大可能会出现漏召回的情况。因此，如何提高推送的信息文本的违规检测的质量，成为需要本领域技术人员解决的技术问题。

发明内容

本申请的目的在于克服现有技术的至少部分不足而提供一种安全类别标签检测方法、装置、计算机设备及存储介质。

为实现本申请的目的，采用如下技术方案：

适应本申请的目的之一而提出的一种安全类别标签检测方法，包括如下步骤：

获取待检测安全类别标签的文本信息；

调用序列标注模型为所述文本信息标注文本信息中的关键词及关键词所属的安全类别标签，根据各安全类别标签所标注的关键词计算该文本信息分别属于各安全类别标签的分词评估分值，所述序列标注模型被预先训练至收敛状态；

调用文本分类模型为所述文本信息进行分类评估，获得该文本信息分别命中所述各个安全类别标签的全文评估分值，所述文本分类模型被预先训练至收敛状态；

将各个安全类别标签相对应的分词评估分值与全文评估分值进行线性融合，获得所述文本信息分别属于各个安全类别标签的综合评估分值，确定综合评估分值最大者为所述文本信息的安全类别标签。

进一步的实施例中，获取待检测安全类别标签的文本信息的步骤，包括：响应文本信息提交事件，提取其中的文本信息，该文本信息包含待发布广告的内容文本、待发布公告的内容文本或待发表文章的内容文本；

而在确定综合评估分值最大者为所述文本信息的安全类别标签之后，包括如下步骤：判断所述安全类别标签的安全属性，当其为非安全属性时，禁止发布该文本信息；当其为安全属性时，允许发布该文本信息。

进一步的实施例中，调用序列标注模型为所述文本信息标注文本信息中的关键词及关键词所属的安全类别标签，根据各安全类别标签所标注的关键词计算该文本信息分别属于各安全类别标签的分词评估分值，包括如下具体步骤：

将所述文本信息导入序列标注模型中进行基于语义特征的关键词提取，获得表征为语义向量的关键词序列；

所述序列标注模型基于所述语义向量对关键词序列进行标签预测，获得描述各个关键词相对应的安全类别标签的标签序列；

所述序列标注模型根据所述标签序列中属于非安全属性的安全类别标签所对应的关键词计算该文本信息分别属于各安全类别标签的分词评估分值。

进一步的实施例中，根据所述标签序列中属于非安全属性的安全类别标签所对应的关键词计算该文本信息分别属于各安全类别标签的分词评估分值的步骤中，每个安全类别标签相对应的分词评估分值的计算步骤如下：

确定该安全类别标签所标注的所有关键词各自的字数之和值；

确定所述文本信息的总字数；

以所述和值与所述总字数的比值作为该安全类别标签相对应的分词评估分值。

进一步的实施例中，调用文本分类模型为所述文本信息进行分类评估，获得该文本信息分别命中所述各个安全类别标签的全文评估分值，包括如下具体步骤：

将所述文本信息导入文本分类模型中进行基于语义特征提取，获得文本表征的语义向量；

所述文本分类模型以回归分类器对所述语义向量进行分类，获得整个语义向量命中所述各个安全类别标签的概率，作为各个安全类别标签相应的所述全文评估分值。

进一步的实施例中，将各个安全类别标签相对应的分词评估分值与全文评估分值进行线性融合的步骤中，所述分词评估分值与全文评估分值分别携带各自的权重，两个权重以同一预设的超参数体现彼此的相关性，以实现彼此的线性加权，以获得所述文本信息分别属于各个安全类别标签的综合评估分值。

较佳的实施例中，所述序列标注模型与所述文本分类模型基于同一文本预训练模型构造其语义特征提取器,用于实现所述基于语义特征的提取。

适应本申请的目的而提出的一种安全类别标签检测装置，其包括：

文本信息获取模块，用于获取待检测安全类别标签的文本信息；

分词估计分值计算模块，用于调用序列标注模型为所述文本信息标注文本信息中的关键词及关键词所属的安全类别标签，根据各安全类别标签所标注的关键词计算该文本信息分别属于各安全类别标签的分词评估分值，所述序列标注模型被预先训练至收敛状态；

全文评估分值获取模块，用于调用文本分类模型为所述文本信息进行分类评估，获得该文本信息分别命中所述各个安全类别标签的全文评估分值，所述文本分类模型被预先训练至收敛状态；

综合评估值获取模块，用于将各个安全类别标签相对应的分词评估分值与全文评估分值进行线性融合，获得所述文本信息分别属于各个安全类别标签的综合评估分值，确定综合评估分值最大者为所述文本信息的安全类别标签。

进一步的实施例中，所述分词估计分值计算模块包括：

关键词序列子模块，用于将所述文本信息导入序列标注模型中进行基于语义特征的关键词提取，获得表征为语义向量的关键词序列；

标签预测子模块，用于所述序列标注模型基于所述语义向量对关键词序列进行标签预测，获得描述各个关键词相对应的安全类别标签的标签序列；

评估分值子模块，用于所述序列标注模型根据所述标签序列中属于非安全属性的安全类别标签所对应的关键词计算该文本信息分别属于各安全类别标签的分词评估分值。

进一步的实施例中，所述全文评估分值获取模块包括：

关键词序列子模块，用于将所述文本信息导入文本分类模型中进行基于语义特征提取，获得文本表征的语义向量；

全文评分子模块，用于所述文本分类模型以回归分类器对所述语义向量进行分类，获得整个语义向量命中所述各个安全类别标签的概率，作为各个安全类别标签相应的所述全文评估分值。

为解决上述技术问题本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述安全类别标签检测方法的步骤。

为解决上述技术问题本发明实施例还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述安全类别标签检测方法的步骤。

本发明实施例的有益效果是：

本申请提出了一种基于标签序列的文本违规内容检测技术，该技术通过结合序列标注模型及文本分类模型，从词组的维度及全文的维度分别预测待发布的文本信息属于安全类别标签的分值，最后将两类分值进行线性融合，确定文本信息所属的安全类别标签。

首先，本申请采用基于序列标注的构造所述序列标注模型及文本分类模型，计算文本信息命中各安全类别标签的分值，相比传统的关键词匹配方法，只能从词库中抽取相应的关键词进行匹配以判断文本信息中是否存在违规词，基于序列标注及分值对文本信息进行违规词检测，能够增强违规词抽取模型的泛化能力，能够对一些不在训练集词库中的未登录词进行抽取，增强了违规词识别能力，有效地防止因文本信息中包含的违规词为库中所不存在的关键词而无法将文本信息确定为违规的文本信息的情况出现。

其次，本申请通过将序列标注模型及文本分类模型进行融合，以构造从多个维度检测文本信息违规类别的算法构架，对文本信息进行分析，相比单一的检测方法，往往会侧重于关注某一维度的信息，无法准确地确定出文本信息的安全类别，通过融合多种检测分类方法，能够在提高模型对各种文本信息的关注点覆盖能力的同时，也提升了整体方案的检测违规词的准确性。

另外，本申请使用基于神经网络的多分类模型来对文本信息所属的安全类进行分类的方法，融合了神经网络技术，能自动化地检测出文本信息是否存在违规词，以及文本信息的违规类别检测。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为实施本申请的技术方案相关的一种典型的网络部署架构示意图；

图2为本申请的安全类别标签检测方法的典型实施例的流程示意图；

图3为图2中步骤S12的具体步骤所形成的流程示意图；

图4为图3中步骤S123的具体步骤所形成的流程示意图；

图5为图2中步骤S13的具体步骤所形成的流程示意图；

图6为本申请的安全类别标签检测装置的典型实施例的原理框图；

图7为本申请一个实施例的计算机设备的基本结构框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、 “一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接” 到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信***)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位***)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

请参阅图1，本申请相关技术方案实施时所需的硬件基础可按图中所示的架构进行部署。本申请所称服务器80部署在云端，作为一个业务服务器，其可以负责进一步连接起相关数据服务器以及其他提供相关支持的服务器等，以此构成逻辑上相关联的服务机群，来为相关的终端设备例如图中所示的智能手机81 和个人计算机82或者第三方服务器(未图示)提供服务。所述的智能手机和个人计算机均可通过公知的网络接入方式接入互联网，与云端的服务器80建立数据通信链路，以便运行所述服务器所提供的服务相关的终端应用程序。

对于服务器而言，所述的应用程序通常会被构建为服务进程，开放相应的程序接口，供各种终端设备上运行的应用程序进行远程调用，本申请中适于运行于服务器的相关技术方案，便可以此种方式实现于服务器中。

所述的应用程序，是指运行于服务器或终端设备上的应用程序，这一应用程序采用编程的方式实现了本申请的相关技术方案，其程序代码可被以计算机可执行指令的形式保存于计算机能识别的非易失性存储介质中，并被中央处理器调入内存中运行，通过该应用程序在计算机的运行而构造出本申请的相关装置。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

请参阅图2，本申请的一种安全类别标签检测方法，在其典型实施例中，其包括如下步骤：

步骤S11，获取待检测安全类别标签的文本信息：

服务器获取待检测安全类别标签的所述文本信息，该文本信息一般用于商业推广或文章发表等发布至互联网中进行传播的文本内容，为了防止不安全或违规的文本内容在互联网中进行传播，服务器将获取所述文本信息，检测该文本信息所属的安全类别标签，判断该文本信息是否可发布至互联网中，当该文本信息所属的安全类别标签的属性为安全属性时，允许分布该文本信息，当属性为非安全属性时，禁止分布该文本信息。

该文本信息一般由与服务器数据通信链路的互联网平台所提交，当该平台自身或平台用户发布广告、公告及文章等文本内容的文本信息时，服务器将响应文本信息提交事件，获取该些文本信息，以检测该些文本信息所属的安全类别标签，判断该些文本信息是否可进行发布。

所述的安全类别标签是指用于表征所述文本信息是否进行发布的标签，该安全类别标签的类型分为：安全属性类型及非安全属性类型，其中非安全属性类型具有可分为：赌博、涉政、仿造、侵权或恐暴等违反网络安全或扰乱市场秩序的类型，所述安全属性可分为：服饰、小说、诗歌、运动或电子产品等商品类型或文学类型的类型；该些安全类别标签被序列标注模型及文本分类模型用于计算所述文本信息的分词评估分值及全文评估分值。

步骤S12，调用序列标注模型为所述文本信息标注文本信息中的关键词及关键词所属的安全类别标签，根据各安全类别标签所标注的关键词计算该文本信息分别属于各安全类别标签的分词评估分值，所述序列标注模型被预先训练至收敛状态：

服务器调用已预先训练至收敛状态所述序列标注模型，标注所述文本信息的关键词序列中所包含的各关键词所属的安全类别标签，并根据该些安全类别标签所标注的关键词，计算该文本信息分别属于该些安全类别标签的分词评估分值。

所述的序列标注模型根据已预先配置的关键词标签库训练至收敛状态，所述关键词标签库中存储着多个文本信息及各自相对应的所述安全类别标签，通过爬虫***或人工收集等数据捕捉方式所获取该些文本信息，并对该些文本信息使用分词器，获取各文本信息所包含的分词，以对该些分词配置对应的所述安全类别标签，并将完成安全类别标签配置的文本信息构造为所述关键词标签库；所述安全类别标签根据平台所制定的规则所构建，其类型分为安全属性及非安全属性两大类，各类型中包含着相对应的小类，例如，所述非安全属性类型具有可分为：赌博、涉政、仿造、侵权或恐暴等违反网络安全或扰乱市场秩序的类型，所述安全属性可分为：服饰、小说、诗歌、运动或电子产品等商品类型或文学类型的类型。

具体的，所述关键词标签库中存储的文本信息及安全类别标签的存储架构如下所示：

D₁：{(X_i，Y_i)|i∈1，...，n}

其中i表示数据集的第i条数据记录,X_i表示第i个文本信息，即一个文本句子或段落，由l_i个字符组成，表示为

Y_i表示第i 个文本信息中，每个词对应的所示安全类别标签，由l_i个标安全类别标签组成，表示为

所述序列标注模型结合已训练至收敛状态的Bert模型、条件随机场(CRF) 及维特比算法(Viterbi)所构造以进行训练，所述Bert模型基于语义特征对所述文本信息进行关键词提取，已将该文本信息转换为表征语义向量的关键词序列，所述条件随机场(CRF)及维特比算法(Viterbi)将计算出所述关键词序列命中各所述安全类别标签所组成的路径中概率最大的路径。本领域技术人员可根据实际业务场景，在实现所述序列标注模型的功能的情况下，可使用其他神经网络模型模型及算法构造所述序列标注模型进行训练，恕不赘述。

关于所述序列标注模型的训练实施方式，一般通过将所述关键词标签库中的所有安全类别标签作为随机变量导入至所述条件随机场模型(CRF)，将该关键词标签库中存储的各文本信息导入至所述序列标注模型中，所述序列标注模型使用基于文本预训练模型Bert构造的语义特征提取器，以基于语义特征对所述文本信息进行关键词提取，获取该文本信息相对应的表征为语义向量的关键词序列，并根据所述条件随机场模型(CRF)及维特比路径算法，计算该关键词序列与所述条件随机场模型中各所述安全类别标签所组成的路径的概率，并将该些概率中概率最大的路径中各安全类别标签确定为该文本信息的对应的安全类别标签，之后查询所述关键词标签库中该文本信息预先配置的安全类别标签是否为被存在至概率最大的路径中所包含的安全标签，若否，则修改所述条件随机场模型中各安全类别标签所对应的概率，以此类推，直至计算出各所述文本信息概率最大的路径中包含的安全类别标签大部分为其在所述违规词标签中预先配置的安全类别标签，则表征所述序列标注模型为训练至收敛状态。

具体的，所述序列标注模型的训练过程如下：

使用基于文本预训练模型Bert构造的语义特征提取器，作为文本信息的语义特征提取器，将文本信息转换为表征成语义向量的所述关键词序列。

V_bert＝Bert(X_i).

完成所述关键词序列的转换后，使用条件随机场模型，在Bert的输出层 V_bert上添加一个解码层，即CRF层。经过viterbi算法解码后得到的所述关键词序列的所预测命中的各安全类别标签。

P_seq＝CRF(V_bert).

使用极小化负对数似然函数的思想，构造损失函数：

Loss_seq＝-log(P_seq).

遍历所述关键词标签库，使用AdamW算法对模型参数进行优化更新。迭代上述过程，直至所述序列标注模型训练至收敛状态。

服务器获取所述文本信息后，将该文本信息导入至所述序列标注模型中，所述序列标注模型将使用基于文本预训练模型Bert构造的语义特征提取器，以基于语义特征对该文本信息进行关键词提取，以构造表征为语义向量的关键词序列，并基于该关键词序列的语义向量对该关键词向量进行标签预测，获取描述各关键词相对应的所述安全类别标签的标签序列，以根据该些安全类别标签中所有非安全属性的安全类别标签所对应的关键词，计算所述文本信息分别属于该些安全类别表的所述分词评估分值。

例如，将所述文本信息X_s，输入到所示序列标注模型M_seq，模型对输入进行解码，将获得：

Y_s＝(y_s1，y_s2，...，y_sn)＝M_seq(X_s)

其中y_sn表示输入文本X_s中第n个字对应的预测标签。

请参考图3，关于所述序列标注模型计算所述文本信息的各所述分词评估分值的实施方式，其具体实施步骤如下：

步骤S121，将所述文本信息导入序列标注模型中进行基于语义特征的关键词提取，获得表征为语义向量的关键词序列：

服务器将所述文本信息导入至所述序列标注模型中，以便该序列标注模型对该文本信息进行基于语义特征的关键词提取，获取表征为所述语义向量的所述关键词序列。

所述序列标注模型将调用分词器，对所述文本信息进行分词处理，获取该文本信息包含的字符，并为该些字符转化为所述关键词序列。

关于分词器的选择，当所述文本信息为中文文本时，选择面向于中文领域的LTP分词器、THULAC分词器、jieba分词器或KCWS分词器对所述文本信息进行分词，以初步获得所述文本信息中包含的所有字符，若所述文本信息为英文文本时，则可通过去除空格及非英文的特殊字符以获取其所包含的关键词组，或选择相应的面向英文领域的分词器，例如，spacy的large model作为分词器。本领域技术人员可根据实际业务场景选择现有的分词器进行分词，恕不赘述。

所述关键词序列由所述序列标注模型根据所述文本信息所包含的字符进行基于语义特征的关键词提取，所述序列标注模型使用语义特征提取器，该语义特征提取器一般是指文本预训练模型Bert，先将所述文本信息转为对于该文本信息包含的各字符的字向量，再将该些字向量转换为表征文本信息的全局语义信息的文本向量，最后向该文本向量的不同位置的字符附加一个不同的向量以转换为位置向量，以表征该文本信息中不同字符所携带的语义信息之间的差异，通过对该文本信息进行有序的向量转换，以构造表征所述文本信息的语义向量的所述关键词序列。

步骤S122，所述序列标注模型基于所述语义向量对关键词序列进行标签预测，获得描述各个关键词相对应的安全类别标签的标签序列：

所述序列标注模型完成所述关键词序列的构造后，将基于该关键词序列的语义向量对该关键词序列进行标签预测，获取描述各关键词相对应的安全类型标签的标签序列。

具体的，所述序列标注模型将所述关键词序列输入至所述条件随机场模型 (CRF)中进行所述标签预测，该条件随机场模型(CRF)根据该关键词序列的语义向量，为其标注相应的所述安全类别标签，当所述关键词序列为[仿,造,爱, 迪,达,盛,夏，上,新,空，气，鞋，垫，自，如，迈,步，体，验]时，所述条件随机场模型(CRF) 获取的该些关键词相对应的所述安全类别标签的标签序列：

['B-fake'，'I-fake'，'O'，'O'，'O'，'O'，'O'，'O'，'O'，'O','O'，'O'，'O'，'O','O','O','O','O'，'O'，'O'，'O']。

所述安全类别标签通常用BIO标注，B表示词的开始，I表示词的延续，O 表示非实体词。

步骤S123，所述序列标注模型根据所述标签序列中属于非安全属性的安全类别标签所对应的关键词计算该文本信息分别属于各安全类别标签的分词评估分值：

所述序列标注模型根据从所述标签序列中抽取属于非安全属性的所述安全类别标签所对于的关键词，计算所述文本信息分别属于各安全类别标签的所述分词评估分值。

例如，当当所述关键词序列为[仿，造,爱,迪,达,盛,夏,上,新,空,气,鞋,垫,自，如, 迈,步，体，验]时，其所述所述安全类别标签的标签序列为：

['B-fake'，'I-fake','O'，'O'，'O'，'O'，'O'，'O'，'O'，'O'，'O'，'O'，'O'，'O'，'O'，'O'，'O'，'O'，'O'，'O'，'O']

那么“仿造”这个词就被抽取出来，其相对应所述安全类别标签为“fake” 的关键词ω，该安全类别标签为非安全属性。

具体的，所述序列标注模型计算所述文本信息分别属于各安全类别标签的所述分词评估分值的表达式如下：

其中

表示文本信息X_s在安全类别标签为c_i的分词评估分值，

表示文本信息X_s包含的字的个数，

表示模型抽取的关键词ω中属于安全类别标签c_i的第j个词，l表示该关键词ω的字的个数，h表示模型抽取的关键词中属于非安全属性的所述安全类别标签c_i的关键词词总数。

请参考图4，关于所述序列标注模型计算所述文本信息的某一安全类别标签的分词评估分值的实施方式，其具体实施步骤如下：

步骤S1231，确定该安全类别标签所标注的所有关键词各自的字数之和值：

所述序列标注模型确定所述关键词序列中属于某一非安全属性的安全类别标签相对应一个或多个关键词各自的字数，并将该些字数进行求和计算，以求出该些关键词的字数的和值。

步骤S1232，确定所述文本信息的总字数：

所述序列标注模型确定所述关键词序列所属的文本信息的总字数。

步骤S1233，以所述和值与所述总字数的比值作为该安全类别标签相对应的分词评估分值：

所属序列标注模型将所述关键词的字数的和值除以所述文本信息的总字数，将该除法运输所求得的比值作为该文本信息的所述安全类别标签的分词评估分值。

步骤S13，调用文本分类模型为所述文本信息进行分类评估，获得该文本信息分别命中所述各个安全类别标签的全文评估分值，所述文本分类模型被预先训练至收敛状态：

服务器调用已预先训练至收敛状态的所述文本分类模型，对所述文本信息的所述关键词序列进行所述分类评估，获取该关键词序列命中各所述各个安全类别标签的所述全文评估分值。

所述的文本分类模型根据已预先配置的文本标签库训练至收敛状态，所述文本标签库中存储着多个文本信息及各自相对应的所述安全类别标签，通过爬虫***或人工收集等数据捕捉方式所获取该些文本信息，根据该些文本信息的语义为其配置相应的所述安全类别标签进行标注。

具体的，所述文本标签库中的文本信息及安全类别标签的存储架构如下所示：

D₂：{(X_i，C_i)|i∈1，...，n}.

其中i表示所述文本标签库的第i条文本信息。X_i表示第i个文本信息， C_i表示第i个文本信息所属安全类别标签，C_i∈(1，2，...，k)，其中k表示文本信息所对应的安全类别标签的数量。

具体的，关于所述文本分类模型的训练过程如下：

训练所述文本分类模型。此模型用于对文本信息进行安全类别标签的分类。同样使用基于文本预训练模型Bert构造的语义特征提取器，将所述文本标签库中的文本信息转换为表征全文语义的语义向量。

V_bert＝Bert(X_i)

完成所述关键词序列的转换后，使用基于softmax函数构造的回归分类器，对所述语义向量进行安全类别标签的预测

P_cls＝Softmax(V_bert)

计算预测的安全类别标签和所述文本标签库中该文本信息标注的安全类别标签之间的交叉熵，并以此作为损失函数

Loss_cls＝CrossEntropy(P_cls)

遍历所述文本标签库，使用AdamW算法对模型参数进行优化更新。迭代上述过程，直至所述文本分类模型训练至收敛状态。

一种实施例中，所述序列标注模型与所述文本分类模型所使用的所述语义特征提取器为同一文本预训练模型构造的语义特征提取器，以实现各模型中关于文本信息的语义向量的构造，以简化各模型的网络，所述语义特征提取器可基于Bert模型进行构造，或基于GPT或ERNIE等文本预训练模型进行构造，本领域技术人员可根据实际业务选择相应的模型构造所述语义特征提取器，恕不赘述。

服务器将所述文本信息导入至已训练至收敛状态的所述文本分类模型中，该文本分类模型将使用基于文本预训练模型Bert构造的语义特征提取器，以基于语义特征对该文本信息的全文语义进行语义特征提取，以构造该文本信息相对应的语义向量，并调用所述回归分类器Softmax，对所述关键词序列进行所述安全类别标签的分类，获取该关键词序列命中各所述安全类别标签的概率，作为该文本信息命中各所述安全类别标签的所述全文评估分值。

请参考图5，关于所述文本分类模型预测所述文本信息命中各所述安全类别标签的全文评估分值的实施方式，其具体实施步骤如下：

步骤S131，将所述文本信息导入文本分类模型中进行基于语义特征提取，获得文本表征的语义向量：

服务器将所述文本信息导入至所述文本分类模型中，以便该文本分类模型对该文本信息进行基于语义特征提取，获取该文本信息的全文语义所表征的所述语义向量。

需要注意的是，相比所述序列标注模型的关键词提取，所述文本分类模型是从根据所述文本信息的全文语义进行语义特征提取，构造该文本信息的全文语义所表的所述语义向量。

步骤S132，所述文本分类模型以回归分类器对所述语义向量进行分类，获得整个语义向量命中所述各个安全类别标签的概率，作为各个安全类别标签相应的所述全文评估分值：

所述文本分类模型获取所述文本信息相对应的所述语义向量后，将调用所述回归分类器对该语义向量进行分类，获取基于整个所述的语义向量表征的全文语义所命中各所述安全类别标签的概率，作为该文本信息的各所述安全类别标签相对应的所述全文评估分值。

所述回归分类器一般是基于归一化指数函数(Softmax activation function)所构造，以预测所述所述语义向量与不同所述安全类别标签的预测结果概率，该些预测结果概率的总和为1，所述文本分类模型将该些预测结果概率确定为所文本信息命中各所述安全类别标签的所述全文评估分值。

具体的，所述文本分类模型计算所述文本信息分别属于各安全类别标签的所述全文评估分值的表达式如下：

将所述文本信息X_s，输入到所述文本分类模型M_cls，该模型对输入进行安全类别标签的预测。

其中c_k表示第k个安全类别标签。

可以理解，所述序列标注模型是从文本信息所包含关键词的维度，对文本信息进行所述安全类别标签的预测，根据文本信息包含的各关键词，使用条件随机场(CRF)及维特比路径算法，计算出该文本信息的命中各所述安全类别标签的所述分词评估分值，而所述文本分类模型是从文本信息的全文语义的维度，对文本信息进行所述安全类别标签的预测，根据该文本信息的全文语义表征的语义向量，使用归一化指数函数(Softmaxactivation function)，计算出该文本信息命中各所述所述安全类别标签的所述全文评估分值。

步骤S14，将各个安全类别标签相对应的分词评估分值与全文评估分值进行线性融合，获得所述文本信息分别属于各个安全类别标签的综合评估分值，确定综合评估分值最大者为所述文本信息的安全类别标签：

服务器获取所述所述文本信息的所述分词评估分值及全文评估分值后，将该些分词评估分值及全文评估分值进行所述线性融合，获取所述文本信息分别属于各个所属安全类别标签的所述综合评估分值，将该些综合评估分值最大者确定为所述文本信息的安全类别标签。

可以理解，服务器为所述文本信息所计算的所述分词评估分值与全文评估分值的数量是相同的，所述序列标注模型及文本分类模型从不同维度(词维度及全文维度)分别预测所述文本信息命中所有所述安全类别标签中各安全类别标签的概率，因此，服务器可根据该些分词评估分值及全文评估分值所对应的安全类别标签，调用超参数，将该文本信息的同一安全类别标签的分词评估分值及全文评估值进行线性相加，获取该安全类别标签的综合评估分值，以此类推，直至计算出该文本信息分别属于各个所属安全类别标签的所述综合评估，完成所述线性融合的计算。

所述超参数为预先设置的参数，该超参数一般是根据所述序列标注模型及文本分类模型的输出或输入数据估计或数据学习得到，或根据网格搜索和交叉验证得到，本领域技术人员可根据实际业务场景设置所述超参数，以使所述文本信息的综合评估分值可准确确定该文本信息的安全类别标签，恕不赘述。

具体的，服务器通过引入超参数α，按照元素操作，将各安全类别标签一一对应的全文评估值(Scorecls)及分词评估分值(Scoreseq)进行线性相加，得到各安全类别标签相应的所述综合评估分值，将该些综合评估分值中分值最大的综合评估分值相对应安全类别标签确定为所述文本信息的安全类别标签，具体的表达式如下：

S＝αScore_cls+(1-α)Score_seq

c＝argmax(S)

所述分词评估分值与全文评估分值分别携带各自的权重，两个权重以同一预设的超参数，具体如上述的表达式所示，所示全文评估值(Scorecls)的权重为α，所述分词评估分值(Scoreseq)的权重为(1-α)，该些权重可体现所述分词评估分值与全文评估分值彼此的相关性，以实现彼此的线性加权，以获得所述文本信息分别属于各个安全类别标签的综合评估分值。

服务器确定综合评估分值最大者为所述文本信息的安全类别标签后，将判断该安全类别标签的安全属性，若其为非安全属性，将禁止发布该文本信息至相应的平台中进行输出展示，若其为安全属性时，允许发布该文本信息至相应的平台中进行输出展示。

进一步，可以通过将上述各实施例所揭示的方法中的各个步骤进行功能化，构造出本申请的一种安全类别标签检测装置，按照这一思路，请参阅图6，安全类别标签检测方法的一个典型实施例中，该装置包括：文本信息获取模块11、分词估计分值计算模块12、全文评估分值获取模块13及综合评估值获取模块 14，其中，文本信息获取模块11，用于获取待检测安全类别标签的文本信息；分词估计分值计算模块12，用于调用序列标注模型为所述文本信息标注文本信息中的关键词及关键词所属的安全类别标签，根据各安全类别标签所标注的关键词计算该文本信息分别属于各安全类别标签的分词评估分值，所述序列标注模型被预先训练至收敛状态；全文评估分值获取模块13，用于调用文本分类模型为所述文本信息进行分类评估，获得该文本信息分别命中所述各个安全类别标签的全文评估分值，所述文本分类模型被预先训练至收敛状态；综合评估值获取模块14，用于将各个安全类别标签相对应的分词评估分值与全文评估分值进行线性融合，获得所述文本信息分别属于各个安全类别标签的综合评估分值，确定综合评估分值最大者为所述文本信息的安全类别标签。

一种实施例中，所述分词估计分值计算模块包括：关键词序列子模块，用于将所述文本信息导入序列标注模型中进行基于语义特征的关键词提取，获得表征为语义向量的关键词序列；标签预测子模块，用于所述序列标注模型基于所述语义向量对关键词序列进行标签预测，获得描述各个关键词相对应的安全类别标签的标签序列；评估分值子模块，用于所述序列标注模型根据所述标签序列中属于非安全属性的安全类别标签所对应的关键词计算该文本信息分别属于各安全类别标签的分词评估分值。

一种实施例中，所述全文评估分值获取模块包括：关键词序列子模块，用于将所述文本信息导入文本分类模型中进行基于语义特征提取，获得文本表征的语义向量；全文评分子模块，用于所述文本分类模型以回归分类器对所述语义向量进行分类，获得整个语义向量命中所述各个安全类别标签的概率，作为各个安全类别标签相应的所述全文评估分值。

为解决上述技术问题，本申请实施例还提供一种计算机设备，用于运行根据所述安全类别标签检测方法所实现的计算机程序。具体请参阅图7，图7为本实施例计算机设备基本结构框图。

如图7所示，计算机设备的内部结构示意图。该计算机设备包括通过*** 总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作***、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种安全类别标签检测方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种安全类别标签检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行本发明的安全类别标签检测装置中的各个模块/子模块的具体功能，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。

本实施方式中的存储器存储有安全类别标签检测装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种非易失性存储介质，所述的安全类别标签检测方法被编写成计算机程序，以计算机可读指令的形式存储于该存储介质中，计算机可读指令被一个或多个处理器执行时，意味着该程序在计算机中的运行，由此使得一个或多个处理器执行上述任一实施例的安全类别标签检测方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory， ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM) 等。

综上所述，本申请通过融合两种标签分类模型，从多维度精准地检测文本信息的安全类别,构造出一种文本违规内容检测技术，该技术通过结合序列标注模型及文本分类模型，从词组的维度及全文的维度分别预测进行发布的文本信息进行安全类别标签的分值，并通过将两类分值进行线性融合的方式，确定文本线性的安全类别标签。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种安全类别标签检测方法，其特征在于，包括如下步骤：

获取待检测安全类别标签的文本信息；

2.根据权利要求1所述的方法，其特征在于，

获取待检测安全类别标签的文本信息的步骤，包括：响应文本信息提交事件，提取其中的文本信息，该文本信息包含待发布广告的内容文本、待发布公告的内容文本或待发表文章的内容文本；

3.根据权利要求1所述的方法，其特征在于，调用序列标注模型为所述文本信息标注文本信息中的关键词及关键词所属的安全类别标签，根据各安全类别标签所标注的关键词计算该文本信息分别属于各安全类别标签的分词评估分值，包括如下具体步骤：

4.根据权利要求3所述的方法，其特征在于，根据所述标签序列中属于非安全属性的安全类别标签所对应的关键词计算该文本信息分别属于各安全类别标签的分词评估分值的步骤中，每个安全类别标签相对应的分词评估分值的计算步骤如下：

确定所述文本信息的总字数；

5.根据权利要求1所述的方法，其特征在于，调用文本分类模型为所述文本信息进行分类评估，获得该文本信息分别命中所述各个安全类别标签的全文评估分值，包括如下具体步骤：

6.根据权利要求1所述的方法，其特征在于，将各个安全类别标签相对应的分词评估分值与全文评估分值进行线性融合的步骤中，所述分词评估分值与全文评估分值分别携带各自的权重，两个权重以同一预设的超参数体现彼此的相关性，以实现彼此的线性加权，以获得所述文本信息分别属于各个安全类别标签的综合评估分值。

7.根据权利要求1至6中任意一项所述的方法，其特征在于，所述序列标注模型与所述文本分类模型基于同一文本预训练模型构造其语义特征提取器,用于实现所述基于语义特征的提取。

8.一种安全类别标签检测装置，其特征在于，其包括：

9.一种电子设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任一项所述的方法的步骤。

10.一种非易失性存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。