CN113449109A - 安全类别标签检测方法、装置、计算机设备及存储介质 - Google Patents

安全类别标签检测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113449109A
CN113449109A CN202110762951.2A CN202110762951A CN113449109A CN 113449109 A CN113449109 A CN 113449109A CN 202110762951 A CN202110762951 A CN 202110762951A CN 113449109 A CN113449109 A CN 113449109A
Authority
CN
China
Prior art keywords
text information
text
security
label
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110762951.2A
Other languages
English (en)
Inventor
吴智东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN202110762951.2A priority Critical patent/CN113449109A/zh
Publication of CN113449109A publication Critical patent/CN113449109A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种安全类别标签检测方法、装置、计算机设备及存储介质,包括:获取待检测安全类别标签的文本信息;调用序列标注模型为文本信息标注文本信息中的关键词及关键词所属的安全类别标签,根据各安全类别标签所标注的关键词计算该文本信息分别属于各安全类别标签的分词评估分值;调用文本分类模型为文本信息进行分类评估,获得该文本信息分别命中所述各个安全类别标签的全文评估分值;将各个安全类别标签相对应的两种分值进行线性融合,获得文本信息分别属于各个安全类别标签的综合评估分值,确定综合评估分值最大者为文本信息的安全类别标签。本申请通过融合两种标签分类模型,从词组及全文的维度精准地检测文本信息的安全类别。

Description

安全类别标签检测方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及信息安全领域,尤其是一种安全类别标签检测方法、装 置、计算机设备及存储介质。
背景技术
在现有的技术中,较多是使用违规关键词,对信息内容进行匹配,当匹配 内容中存在的关键词,结合白名单进行判断内容是否违规;也有部分技术,计 算了信息文本与数据库中黑名单内容的文本相似性,当相似度高于阈值时,则 判断内容违规。
通过关键词匹配的方法,忽略了文本之间的语义信息,召回出来的数据大 多数是与违规类别不相关的噪声数据。而通过相似度的方法,则非常依赖于收 集的样本库,当信息文本出现了数据库中不存在的样本,那么该方法很大可能 会出现漏召回的情况。因此,如何提高推送的信息文本的违规检测的质量,成 为需要本领域技术人员解决的技术问题。
发明内容
本申请的目的在于克服现有技术的至少部分不足而提供一种安全类别标签 检测方法、装置、计算机设备及存储介质。
为实现本申请的目的,采用如下技术方案:
适应本申请的目的之一而提出的一种安全类别标签检测方法,包括如下步 骤:
获取待检测安全类别标签的文本信息;
调用序列标注模型为所述文本信息标注文本信息中的关键词及关键词所属 的安全类别标签,根据各安全类别标签所标注的关键词计算该文本信息分别属 于各安全类别标签的分词评估分值,所述序列标注模型被预先训练至收敛状态;
调用文本分类模型为所述文本信息进行分类评估,获得该文本信息分别命 中所述各个安全类别标签的全文评估分值,所述文本分类模型被预先训练至收 敛状态;
将各个安全类别标签相对应的分词评估分值与全文评估分值进行线性融 合,获得所述文本信息分别属于各个安全类别标签的综合评估分值,确定综合 评估分值最大者为所述文本信息的安全类别标签。
进一步的实施例中,获取待检测安全类别标签的文本信息的步骤,包括: 响应文本信息提交事件,提取其中的文本信息,该文本信息包含待发布广告的 内容文本、待发布公告的内容文本或待发表文章的内容文本;
而在确定综合评估分值最大者为所述文本信息的安全类别标签之后,包括 如下步骤:判断所述安全类别标签的安全属性,当其为非安全属性时,禁止发 布该文本信息;当其为安全属性时,允许发布该文本信息。
进一步的实施例中,调用序列标注模型为所述文本信息标注文本信息中的 关键词及关键词所属的安全类别标签,根据各安全类别标签所标注的关键词计 算该文本信息分别属于各安全类别标签的分词评估分值,包括如下具体步骤:
将所述文本信息导入序列标注模型中进行基于语义特征的关键词提取,获 得表征为语义向量的关键词序列;
所述序列标注模型基于所述语义向量对关键词序列进行标签预测,获得描 述各个关键词相对应的安全类别标签的标签序列;
所述序列标注模型根据所述标签序列中属于非安全属性的安全类别标签所 对应的关键词计算该文本信息分别属于各安全类别标签的分词评估分值。
进一步的实施例中,根据所述标签序列中属于非安全属性的安全类别标签 所对应的关键词计算该文本信息分别属于各安全类别标签的分词评估分值的步 骤中,每个安全类别标签相对应的分词评估分值的计算步骤如下:
确定该安全类别标签所标注的所有关键词各自的字数之和值;
确定所述文本信息的总字数;
以所述和值与所述总字数的比值作为该安全类别标签相对应的分词评估分 值。
进一步的实施例中,调用文本分类模型为所述文本信息进行分类评估,获 得该文本信息分别命中所述各个安全类别标签的全文评估分值,包括如下具体 步骤:
将所述文本信息导入文本分类模型中进行基于语义特征提取,获得文本表 征的语义向量;
所述文本分类模型以回归分类器对所述语义向量进行分类,获得整个语义 向量命中所述各个安全类别标签的概率,作为各个安全类别标签相应的所述全 文评估分值。
进一步的实施例中,将各个安全类别标签相对应的分词评估分值与全文评 估分值进行线性融合的步骤中,所述分词评估分值与全文评估分值分别携带各 自的权重,两个权重以同一预设的超参数体现彼此的相关性,以实现彼此的线 性加权,以获得所述文本信息分别属于各个安全类别标签的综合评估分值。
较佳的实施例中,所述序列标注模型与所述文本分类模型基于同一文本预 训练模型构造其语义特征提取器,用于实现所述基于语义特征的提取。
适应本申请的目的而提出的一种安全类别标签检测装置,其包括:
文本信息获取模块,用于获取待检测安全类别标签的文本信息;
分词估计分值计算模块,用于调用序列标注模型为所述文本信息标注文本 信息中的关键词及关键词所属的安全类别标签,根据各安全类别标签所标注的 关键词计算该文本信息分别属于各安全类别标签的分词评估分值,所述序列标 注模型被预先训练至收敛状态;
全文评估分值获取模块,用于调用文本分类模型为所述文本信息进行分类 评估,获得该文本信息分别命中所述各个安全类别标签的全文评估分值,所述 文本分类模型被预先训练至收敛状态;
综合评估值获取模块,用于将各个安全类别标签相对应的分词评估分值与 全文评估分值进行线性融合,获得所述文本信息分别属于各个安全类别标签的 综合评估分值,确定综合评估分值最大者为所述文本信息的安全类别标签。
进一步的实施例中,所述分词估计分值计算模块包括:
关键词序列子模块,用于将所述文本信息导入序列标注模型中进行基于语 义特征的关键词提取,获得表征为语义向量的关键词序列;
标签预测子模块,用于所述序列标注模型基于所述语义向量对关键词序列 进行标签预测,获得描述各个关键词相对应的安全类别标签的标签序列;
评估分值子模块,用于所述序列标注模型根据所述标签序列中属于非安全 属性的安全类别标签所对应的关键词计算该文本信息分别属于各安全类别标签 的分词评估分值。
进一步的实施例中,所述全文评估分值获取模块包括:
关键词序列子模块,用于将所述文本信息导入文本分类模型中进行基于语 义特征提取,获得文本表征的语义向量;
全文评分子模块,用于所述文本分类模型以回归分类器对所述语义向量进 行分类,获得整个语义向量命中所述各个安全类别标签的概率,作为各个安全 类别标签相应的所述全文评估分值。
为解决上述技术问题本发明实施例还提供一种计算机设备,包括存储器和 处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处 理器执行时,使得所述处理器执行上述所述安全类别标签检测方法的步骤。
为解决上述技术问题本发明实施例还提供一种存储有计算机可读指令的存 储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处 理器执行上述所述安全类别标签检测方法的步骤。
本发明实施例的有益效果是:
本申请提出了一种基于标签序列的文本违规内容检测技术,该技术通过结 合序列标注模型及文本分类模型,从词组的维度及全文的维度分别预测待发布 的文本信息属于安全类别标签的分值,最后将两类分值进行线性融合,确定文 本信息所属的安全类别标签。
首先,本申请采用基于序列标注的构造所述序列标注模型及文本分类模型, 计算文本信息命中各安全类别标签的分值,相比传统的关键词匹配方法,只能 从词库中抽取相应的关键词进行匹配以判断文本信息中是否存在违规词,基于 序列标注及分值对文本信息进行违规词检测,能够增强违规词抽取模型的泛化 能力,能够对一些不在训练集词库中的未登录词进行抽取,增强了违规词识别 能力,有效地防止因文本信息中包含的违规词为库中所不存在的关键词而无法 将文本信息确定为违规的文本信息的情况出现。
其次,本申请通过将序列标注模型及文本分类模型进行融合,以构造从多 个维度检测文本信息违规类别的算法构架,对文本信息进行分析,相比单一的 检测方法,往往会侧重于关注某一维度的信息,无法准确地确定出文本信息的 安全类别,通过融合多种检测分类方法,能够在提高模型对各种文本信息的关 注点覆盖能力的同时,也提升了整体方案的检测违规词的准确性。
另外,本申请使用基于神经网络的多分类模型来对文本信息所属的安全类 进行分类的方法,融合了神经网络技术,能自动化地检测出文本信息是否存在 违规词,以及文本信息的违规类别检测。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将 变得明显和容易理解,其中:
图1为实施本申请的技术方案相关的一种典型的网络部署架构示意图;
图2为本申请的安全类别标签检测方法的典型实施例的流程示意图;
图3为图2中步骤S12的具体步骤所形成的流程示意图;
图4为图3中步骤S123的具体步骤所形成的流程示意图;
图5为图2中步骤S13的具体步骤所形成的流程示意图;
图6为本申请的安全类别标签检测装置的典型实施例的原理框图;
图7为本申请一个实施例的计算机设备的基本结构框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自 始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元 件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能 解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、 “一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申 请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元 件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操 作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接” 到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。 此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使 用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部 组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包 括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理 解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理 解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特 定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终 端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收 器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进 行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个 人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或 没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信***),其可以组合语音、数据处理、传真和/或数据通信能 力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、 寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位***)接收器;常规膝上型和/或掌上型计算机或 其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他 设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可 运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为 在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这 里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终 端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动 互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机 顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬 件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括 运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的 必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外 存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此 完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用 于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服 务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通 过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域 技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方 式。
请参阅图1,本申请相关技术方案实施时所需的硬件基础可按图中所示的架 构进行部署。本申请所称服务器80部署在云端,作为一个业务服务器,其可以 负责进一步连接起相关数据服务器以及其他提供相关支持的服务器等,以此构 成逻辑上相关联的服务机群,来为相关的终端设备例如图中所示的智能手机81 和个人计算机82或者第三方服务器(未图示)提供服务。所述的智能手机和个 人计算机均可通过公知的网络接入方式接入互联网,与云端的服务器80建立数 据通信链路,以便运行所述服务器所提供的服务相关的终端应用程序。
对于服务器而言,所述的应用程序通常会被构建为服务进程,开放相应的 程序接口,供各种终端设备上运行的应用程序进行远程调用,本申请中适于运 行于服务器的相关技术方案,便可以此种方式实现于服务器中。
所述的应用程序,是指运行于服务器或终端设备上的应用程序,这一应用 程序采用编程的方式实现了本申请的相关技术方案,其程序代码可被以计算机 可执行指令的形式保存于计算机能识别的非易失性存储介质中,并被中央处理 器调入内存中运行,通过该应用程序在计算机的运行而构造出本申请的相关装 置。
对于服务器而言,所述的应用程序通常会被构建为服务进程,开放相应的 程序接口,供各种终端设备上运行的应用程序进行远程调用,本申请中适于运 行于服务器的相关技术方案,便可以此种方式实现于服务器中。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念 而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都 是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一 发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是 为了方便而适当变换的概念,应被等同理解。
请参阅图2,本申请的一种安全类别标签检测方法,在其典型实施例中,其 包括如下步骤:
步骤S11,获取待检测安全类别标签的文本信息:
服务器获取待检测安全类别标签的所述文本信息,该文本信息一般用于商 业推广或文章发表等发布至互联网中进行传播的文本内容,为了防止不安全或 违规的文本内容在互联网中进行传播,服务器将获取所述文本信息,检测该文 本信息所属的安全类别标签,判断该文本信息是否可发布至互联网中,当该文 本信息所属的安全类别标签的属性为安全属性时,允许分布该文本信息,当属 性为非安全属性时,禁止分布该文本信息。
该文本信息一般由与服务器数据通信链路的互联网平台所提交,当该平台 自身或平台用户发布广告、公告及文章等文本内容的文本信息时,服务器将响 应文本信息提交事件,获取该些文本信息,以检测该些文本信息所属的安全类 别标签,判断该些文本信息是否可进行发布。
所述的安全类别标签是指用于表征所述文本信息是否进行发布的标签,该 安全类别标签的类型分为:安全属性类型及非安全属性类型,其中非安全属性 类型具有可分为:赌博、涉政、仿造、侵权或恐暴等违反网络安全或扰乱市场 秩序的类型,所述安全属性可分为:服饰、小说、诗歌、运动或电子产品等商 品类型或文学类型的类型;该些安全类别标签被序列标注模型及文本分类模型 用于计算所述文本信息的分词评估分值及全文评估分值。
步骤S12,调用序列标注模型为所述文本信息标注文本信息中的关键词及关 键词所属的安全类别标签,根据各安全类别标签所标注的关键词计算该文本信 息分别属于各安全类别标签的分词评估分值,所述序列标注模型被预先训练至 收敛状态:
服务器调用已预先训练至收敛状态所述序列标注模型,标注所述文本信息 的关键词序列中所包含的各关键词所属的安全类别标签,并根据该些安全类别 标签所标注的关键词,计算该文本信息分别属于该些安全类别标签的分词评估 分值。
所述的序列标注模型根据已预先配置的关键词标签库训练至收敛状态,所 述关键词标签库中存储着多个文本信息及各自相对应的所述安全类别标签,通 过爬虫***或人工收集等数据捕捉方式所获取该些文本信息,并对该些文本信 息使用分词器,获取各文本信息所包含的分词,以对该些分词配置对应的所述 安全类别标签,并将完成安全类别标签配置的文本信息构造为所述关键词标签 库;所述安全类别标签根据平台所制定的规则所构建,其类型分为安全属性及 非安全属性两大类,各类型中包含着相对应的小类,例如,所述非安全属性类 型具有可分为:赌博、涉政、仿造、侵权或恐暴等违反网络安全或扰乱市场秩 序的类型,所述安全属性可分为:服饰、小说、诗歌、运动或电子产品等商品 类型或文学类型的类型。
具体的,所述关键词标签库中存储的文本信息及安全类别标签的存储架构 如下所示:
D1:{(Xi,Yi)|i∈1,...,n}
其中i表示数据集的第i条数据记录,Xi表示第i个文本信息,即一个文 本句子或段落,由li个字符组成,表示为
Figure BDA0003149654220000091
Yi表示第i 个文本信息中,每个词对应的所示安全类别标签,由li个标安全类别标签组成, 表示为
Figure BDA0003149654220000092
所述序列标注模型结合已训练至收敛状态的Bert模型、条件随机场(CRF) 及维特比算法(Viterbi)所构造以进行训练,所述Bert模型基于语义特征对 所述文本信息进行关键词提取,已将该文本信息转换为表征语义向量的关键词 序列,所述条件随机场(CRF)及维特比算法(Viterbi)将计算出所述关键词 序列命中各所述安全类别标签所组成的路径中概率最大的路径。本领域技术人 员可根据实际业务场景,在实现所述序列标注模型的功能的情况下,可使用其 他神经网络模型模型及算法构造所述序列标注模型进行训练,恕不赘述。
关于所述序列标注模型的训练实施方式,一般通过将所述关键词标签库中 的所有安全类别标签作为随机变量导入至所述条件随机场模型(CRF),将该关 键词标签库中存储的各文本信息导入至所述序列标注模型中,所述序列标注模 型使用基于文本预训练模型Bert构造的语义特征提取器,以基于语义特征对所 述文本信息进行关键词提取,获取该文本信息相对应的表征为语义向量的关键 词序列,并根据所述条件随机场模型(CRF)及维特比路径算法,计算该关键词 序列与所述条件随机场模型中各所述安全类别标签所组成的路径的概率,并将 该些概率中概率最大的路径中各安全类别标签确定为该文本信息的对应的安全 类别标签,之后查询所述关键词标签库中该文本信息预先配置的安全类别标签 是否为被存在至概率最大的路径中所包含的安全标签,若否,则修改所述条件 随机场模型中各安全类别标签所对应的概率,以此类推,直至计算出各所述文 本信息概率最大的路径中包含的安全类别标签大部分为其在所述违规词标签中 预先配置的安全类别标签,则表征所述序列标注模型为训练至收敛状态。
具体的,所述序列标注模型的训练过程如下:
使用基于文本预训练模型Bert构造的语义特征提取器,作为文本信息的语 义特征提取器,将文本信息转换为表征成语义向量的所述关键词序列。
Vbert=Bert(Xi).
完成所述关键词序列的转换后,使用条件随机场模型,在Bert的输出层 Vbert上添加一个解码层,即CRF层。经过viterbi算法解码后得到的所述关键 词序列的所预测命中的各安全类别标签。
Pseq=CRF(Vbert).
使用极小化负对数似然函数的思想,构造损失函数:
Lossseq=-log(Pseq).
遍历所述关键词标签库,使用AdamW算法对模型参数进行优化更新。迭代 上述过程,直至所述序列标注模型训练至收敛状态。
服务器获取所述文本信息后,将该文本信息导入至所述序列标注模型中, 所述序列标注模型将使用基于文本预训练模型Bert构造的语义特征提取器,以 基于语义特征对该文本信息进行关键词提取,以构造表征为语义向量的关键词 序列,并基于该关键词序列的语义向量对该关键词向量进行标签预测,获取描 述各关键词相对应的所述安全类别标签的标签序列,以根据该些安全类别标签 中所有非安全属性的安全类别标签所对应的关键词,计算所述文本信息分别属 于该些安全类别表的所述分词评估分值。
例如,将所述文本信息Xs,输入到所示序列标注模型Mseq,模型对输入进 行解码,将获得:
Ys=(ys1,ys2,...,ysn)=Mseq(Xs)
其中ysn表示输入文本Xs中第n个字对应的预测标签。
请参考图3,关于所述序列标注模型计算所述文本信息的各所述分词评估分 值的实施方式,其具体实施步骤如下:
步骤S121,将所述文本信息导入序列标注模型中进行基于语义特征的关键 词提取,获得表征为语义向量的关键词序列:
服务器将所述文本信息导入至所述序列标注模型中,以便该序列标注模型 对该文本信息进行基于语义特征的关键词提取,获取表征为所述语义向量的所 述关键词序列。
所述序列标注模型将调用分词器,对所述文本信息进行分词处理,获取该 文本信息包含的字符,并为该些字符转化为所述关键词序列。
关于分词器的选择,当所述文本信息为中文文本时,选择面向于中文领域 的LTP分词器、THULAC分词器、jieba分词器或KCWS分词器对所述文本信息进 行分词,以初步获得所述文本信息中包含的所有字符,若所述文本信息为英文 文本时,则可通过去除空格及非英文的特殊字符以获取其所包含的关键词组, 或选择相应的面向英文领域的分词器,例如,spacy的large model作为分词器。 本领域技术人员可根据实际业务场景选择现有的分词器进行分词,恕不赘述。
所述关键词序列由所述序列标注模型根据所述文本信息所包含的字符进行 基于语义特征的关键词提取,所述序列标注模型使用语义特征提取器,该语义 特征提取器一般是指文本预训练模型Bert,先将所述文本信息转为对于该文本 信息包含的各字符的字向量,再将该些字向量转换为表征文本信息的全局语义 信息的文本向量,最后向该文本向量的不同位置的字符附加一个不同的向量以 转换为位置向量,以表征该文本信息中不同字符所携带的语义信息之间的差异, 通过对该文本信息进行有序的向量转换,以构造表征所述文本信息的语义向量 的所述关键词序列。
步骤S122,所述序列标注模型基于所述语义向量对关键词序列进行标签预 测,获得描述各个关键词相对应的安全类别标签的标签序列:
所述序列标注模型完成所述关键词序列的构造后,将基于该关键词序列的 语义向量对该关键词序列进行标签预测,获取描述各关键词相对应的安全类型 标签的标签序列。
具体的,所述序列标注模型将所述关键词序列输入至所述条件随机场模型 (CRF)中进行所述标签预测,该条件随机场模型(CRF)根据该关键词序列的 语义向量,为其标注相应的所述安全类别标签,当所述关键词序列为[仿,造,爱, 迪,达,盛,夏,上,新,空,气,鞋,垫,自,如,迈,步,体,验]时,所述条件随机场模型(CRF) 获取的该些关键词相对应的所述安全类别标签的标签序列:
['B-fake','I-fake','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O']。
所述安全类别标签通常用BIO标注,B表示词的开始,I表示词的延续,O 表示非实体词。
步骤S123,所述序列标注模型根据所述标签序列中属于非安全属性的安全 类别标签所对应的关键词计算该文本信息分别属于各安全类别标签的分词评估 分值:
所述序列标注模型根据从所述标签序列中抽取属于非安全属性的所述安全 类别标签所对于的关键词,计算所述文本信息分别属于各安全类别标签的所述 分词评估分值。
例如,当当所述关键词序列为[仿,造,爱,迪,达,盛,夏,上,新,空,气,鞋,垫,自,如, 迈,步,体,验]时,其所述所述安全类别标签的标签序列为:
['B-fake','I-fake','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O']
那么“仿造”这个词就被抽取出来,其相对应所述安全类别标签为“fake” 的关键词ω,该安全类别标签为非安全属性。
具体的,所述序列标注模型计算所述文本信息分别属于各安全类别标签的 所述分词评估分值的表达式如下:
Figure BDA0003149654220000122
Figure BDA0003149654220000121
其中
Figure BDA0003149654220000123
表示文本信息Xs在安全类别标签为ci的分词评估分值,
Figure BDA0003149654220000124
表示文本信息Xs包含的字的个数,
Figure BDA0003149654220000131
表示模型抽取的关键词ω中属于安全类 别标签ci的第j个词,l表示该关键词ω的字的个数,h表示模型抽取的关键词中 属于非安全属性的所述安全类别标签ci的关键词词总数。
请参考图4,关于所述序列标注模型计算所述文本信息的某一安全类别标签 的分词评估分值的实施方式,其具体实施步骤如下:
步骤S1231,确定该安全类别标签所标注的所有关键词各自的字数之和值:
所述序列标注模型确定所述关键词序列中属于某一非安全属性的安全类别 标签相对应一个或多个关键词各自的字数,并将该些字数进行求和计算,以求 出该些关键词的字数的和值。
步骤S1232,确定所述文本信息的总字数:
所述序列标注模型确定所述关键词序列所属的文本信息的总字数。
步骤S1233,以所述和值与所述总字数的比值作为该安全类别标签相对应的 分词评估分值:
所属序列标注模型将所述关键词的字数的和值除以所述文本信息的总字 数,将该除法运输所求得的比值作为该文本信息的所述安全类别标签的分词评 估分值。
步骤S13,调用文本分类模型为所述文本信息进行分类评估,获得该文本信 息分别命中所述各个安全类别标签的全文评估分值,所述文本分类模型被预先 训练至收敛状态:
服务器调用已预先训练至收敛状态的所述文本分类模型,对所述文本信息 的所述关键词序列进行所述分类评估,获取该关键词序列命中各所述各个安全 类别标签的所述全文评估分值。
所述的文本分类模型根据已预先配置的文本标签库训练至收敛状态,所述 文本标签库中存储着多个文本信息及各自相对应的所述安全类别标签,通过爬 虫***或人工收集等数据捕捉方式所获取该些文本信息,根据该些文本信息的 语义为其配置相应的所述安全类别标签进行标注。
具体的,所述文本标签库中的文本信息及安全类别标签的存储架构如下所 示:
D2:{(Xi,Ci)|i∈1,...,n}.
其中i表示所述文本标签库的第i条文本信息。Xi表示第i个文本信息, Ci表示第i个文本信息所属安全类别标签,Ci∈(1,2,...,k),其中k表示文本 信息所对应的安全类别标签的数量。
具体的,关于所述文本分类模型的训练过程如下:
训练所述文本分类模型。此模型用于对文本信息进行安全类别标签的分类。 同样使用基于文本预训练模型Bert构造的语义特征提取器,将所述文本标签库 中的文本信息转换为表征全文语义的语义向量。
Vbert=Bert(Xi)
完成所述关键词序列的转换后,使用基于softmax函数构造的回归分类器, 对所述语义向量进行安全类别标签的预测
Pcls=Softmax(Vbert)
计算预测的安全类别标签和所述文本标签库中该文本信息标注的安全类别 标签之间的交叉熵,并以此作为损失函数
Losscls=CrossEntropy(Pcls)
遍历所述文本标签库,使用AdamW算法对模型参数进行优化更新。迭代上 述过程,直至所述文本分类模型训练至收敛状态。
一种实施例中,所述序列标注模型与所述文本分类模型所使用的所述语义 特征提取器为同一文本预训练模型构造的语义特征提取器,以实现各模型中关 于文本信息的语义向量的构造,以简化各模型的网络,所述语义特征提取器可 基于Bert模型进行构造,或基于GPT或ERNIE等文本预训练模型进行构造,本 领域技术人员可根据实际业务选择相应的模型构造所述语义特征提取器,恕不 赘述。
服务器将所述文本信息导入至已训练至收敛状态的所述文本分类模型中, 该文本分类模型将使用基于文本预训练模型Bert构造的语义特征提取器,以基 于语义特征对该文本信息的全文语义进行语义特征提取,以构造该文本信息相 对应的语义向量,并调用所述回归分类器Softmax,对所述关键词序列进行所述 安全类别标签的分类,获取该关键词序列命中各所述安全类别标签的概率,作 为该文本信息命中各所述安全类别标签的所述全文评估分值。
请参考图5,关于所述文本分类模型预测所述文本信息命中各所述安全类别 标签的全文评估分值的实施方式,其具体实施步骤如下:
步骤S131,将所述文本信息导入文本分类模型中进行基于语义特征提取, 获得文本表征的语义向量:
服务器将所述文本信息导入至所述文本分类模型中,以便该文本分类模型 对该文本信息进行基于语义特征提取,获取该文本信息的全文语义所表征的所 述语义向量。
需要注意的是,相比所述序列标注模型的关键词提取,所述文本分类模型 是从根据所述文本信息的全文语义进行语义特征提取,构造该文本信息的全文 语义所表的所述语义向量。
步骤S132,所述文本分类模型以回归分类器对所述语义向量进行分类,获 得整个语义向量命中所述各个安全类别标签的概率,作为各个安全类别标签相 应的所述全文评估分值:
所述文本分类模型获取所述文本信息相对应的所述语义向量后,将调用所 述回归分类器对该语义向量进行分类,获取基于整个所述的语义向量表征的全 文语义所命中各所述安全类别标签的概率,作为该文本信息的各所述安全类别 标签相对应的所述全文评估分值。
所述回归分类器一般是基于归一化指数函数(Softmax activation function)所构造,以预测所述所述语义向量与不同所述安全类别标签的预测结果概率, 该些预测结果概率的总和为1,所述文本分类模型将该些预测结果概率确定为所 文本信息命中各所述安全类别标签的所述全文评估分值。
具体的,所述文本分类模型计算所述文本信息分别属于各安全类别标签的 所述全文评估分值的表达式如下:
将所述文本信息Xs,输入到所述文本分类模型Mcls,该模型对输入进行安 全类别标签的预测。
Figure BDA0003149654220000151
其中ck表示第k个安全类别标签。
可以理解,所述序列标注模型是从文本信息所包含关键词的维度,对文本 信息进行所述安全类别标签的预测,根据文本信息包含的各关键词,使用条件 随机场(CRF)及维特比路径算法,计算出该文本信息的命中各所述安全类别标 签的所述分词评估分值,而所述文本分类模型是从文本信息的全文语义的维度, 对文本信息进行所述安全类别标签的预测,根据该文本信息的全文语义表征的 语义向量,使用归一化指数函数(Softmaxactivation function),计算出该文本 信息命中各所述所述安全类别标签的所述全文评估分值。
步骤S14,将各个安全类别标签相对应的分词评估分值与全文评估分值进行 线性融合,获得所述文本信息分别属于各个安全类别标签的综合评估分值,确 定综合评估分值最大者为所述文本信息的安全类别标签:
服务器获取所述所述文本信息的所述分词评估分值及全文评估分值后,将 该些分词评估分值及全文评估分值进行所述线性融合,获取所述文本信息分别 属于各个所属安全类别标签的所述综合评估分值,将该些综合评估分值最大者 确定为所述文本信息的安全类别标签。
可以理解,服务器为所述文本信息所计算的所述分词评估分值与全文评估 分值的数量是相同的,所述序列标注模型及文本分类模型从不同维度(词维度 及全文维度)分别预测所述文本信息命中所有所述安全类别标签中各安全类别 标签的概率,因此,服务器可根据该些分词评估分值及全文评估分值所对应的 安全类别标签,调用超参数,将该文本信息的同一安全类别标签的分词评估分 值及全文评估值进行线性相加,获取该安全类别标签的综合评估分值,以此类 推,直至计算出该文本信息分别属于各个所属安全类别标签的所述综合评估, 完成所述线性融合的计算。
所述超参数为预先设置的参数,该超参数一般是根据所述序列标注模型及 文本分类模型的输出或输入数据估计或数据学习得到,或根据网格搜索和交叉 验证得到,本领域技术人员可根据实际业务场景设置所述超参数,以使所述文 本信息的综合评估分值可准确确定该文本信息的安全类别标签,恕不赘述。
具体的,服务器通过引入超参数α,按照元素操作,将各安全类别标签一 一对应的全文评估值(Scorecls)及分词评估分值(Scoreseq)进行线性相加, 得到各安全类别标签相应的所述综合评估分值,将该些综合评估分值中分值最 大的综合评估分值相对应安全类别标签确定为所述文本信息的安全类别标签, 具体的表达式如下:
S=αScorecls+(1-α)Scoreseq
Figure BDA0003149654220000171
c=argmax(S)
所述分词评估分值与全文评估分值分别携带各自的权重,两个权重以同一预 设的超参数,具体如上述的表达式所示,所示全文评估值(Scorecls)的权重 为α,所述分词评估分值(Scoreseq)的权重为(1-α),该些权重可体现所 述分词评估分值与全文评估分值彼此的相关性,以实现彼此的线性加权,以获 得所述文本信息分别属于各个安全类别标签的综合评估分值。
服务器确定综合评估分值最大者为所述文本信息的安全类别标签后,将判 断该安全类别标签的安全属性,若其为非安全属性,将禁止发布该文本信息至 相应的平台中进行输出展示,若其为安全属性时,允许发布该文本信息至相应 的平台中进行输出展示。
进一步,可以通过将上述各实施例所揭示的方法中的各个步骤进行功能化, 构造出本申请的一种安全类别标签检测装置,按照这一思路,请参阅图6,安全 类别标签检测方法的一个典型实施例中,该装置包括:文本信息获取模块11、 分词估计分值计算模块12、全文评估分值获取模块13及综合评估值获取模块 14,其中,文本信息获取模块11,用于获取待检测安全类别标签的文本信息; 分词估计分值计算模块12,用于调用序列标注模型为所述文本信息标注文本信 息中的关键词及关键词所属的安全类别标签,根据各安全类别标签所标注的关 键词计算该文本信息分别属于各安全类别标签的分词评估分值,所述序列标注 模型被预先训练至收敛状态;全文评估分值获取模块13,用于调用文本分类模 型为所述文本信息进行分类评估,获得该文本信息分别命中所述各个安全类别 标签的全文评估分值,所述文本分类模型被预先训练至收敛状态;综合评估值 获取模块14,用于将各个安全类别标签相对应的分词评估分值与全文评估分值 进行线性融合,获得所述文本信息分别属于各个安全类别标签的综合评估分值, 确定综合评估分值最大者为所述文本信息的安全类别标签。
一种实施例中,所述分词估计分值计算模块包括:关键词序列子模块,用 于将所述文本信息导入序列标注模型中进行基于语义特征的关键词提取,获得 表征为语义向量的关键词序列;标签预测子模块,用于所述序列标注模型基于 所述语义向量对关键词序列进行标签预测,获得描述各个关键词相对应的安全 类别标签的标签序列;评估分值子模块,用于所述序列标注模型根据所述标签 序列中属于非安全属性的安全类别标签所对应的关键词计算该文本信息分别属 于各安全类别标签的分词评估分值。
一种实施例中,所述全文评估分值获取模块包括:关键词序列子模块,用 于将所述文本信息导入文本分类模型中进行基于语义特征提取,获得文本表征 的语义向量;全文评分子模块,用于所述文本分类模型以回归分类器对所述语 义向量进行分类,获得整个语义向量命中所述各个安全类别标签的概率,作为 各个安全类别标签相应的所述全文评估分值。
为解决上述技术问题,本申请实施例还提供一种计算机设备,用于运行根 据所述安全类别标签检测方法所实现的计算机程序。具体请参阅图7,图7为本 实施例计算机设备基本结构框图。
如图7所示,计算机设备的内部结构示意图。该计算机设备包括通过*** 总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机 设备的非易失性存储介质存储有操作***、数据库和计算机可读指令,数据库 中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器 实现一种安全类别标签检测方法。该计算机设备的处理器用于提供计算和控制 能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机 可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种安全类 别标签检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框 图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机 设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不 同的部件布置。
本实施方式中处理器用于执行本发明的安全类别标签检测装置中的各个模 块/子模块的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。 网络接口用于向用户终端或服务器之间的数据传输。
本实施方式中的存储器存储有安全类别标签检测装置中执行所有模块/子模 块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有 子模块的功能。
本申请还提供一种非易失性存储介质,所述的安全类别标签检测方法被编 写成计算机程序,以计算机可读指令的形式存储于该存储介质中,计算机可读 指令被一个或多个处理器执行时,意味着该程序在计算机中的运行,由此使得 一个或多个处理器执行上述任一实施例的安全类别标签检测方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计 算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流 程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM) 等。
综上所述,本申请通过融合两种标签分类模型,从多维度精准地检测文本 信息的安全类别,构造出一种文本违规内容检测技术,该技术通过结合序列标注 模型及文本分类模型,从词组的维度及全文的维度分别预测进行发布的文本信 息进行安全类别标签的分值,并通过将两类分值进行线性融合的方式,确定文 本线性的安全类别标签。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示, 但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的 说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而 且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这 些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执 行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子 步骤或者阶段的至少一部分轮流或者交替地执行。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、 流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有 本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可 以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与 本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、 更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通 技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰, 这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种安全类别标签检测方法,其特征在于,包括如下步骤:
获取待检测安全类别标签的文本信息;
调用序列标注模型为所述文本信息标注文本信息中的关键词及关键词所属的安全类别标签,根据各安全类别标签所标注的关键词计算该文本信息分别属于各安全类别标签的分词评估分值,所述序列标注模型被预先训练至收敛状态;
调用文本分类模型为所述文本信息进行分类评估,获得该文本信息分别命中所述各个安全类别标签的全文评估分值,所述文本分类模型被预先训练至收敛状态;
将各个安全类别标签相对应的分词评估分值与全文评估分值进行线性融合,获得所述文本信息分别属于各个安全类别标签的综合评估分值,确定综合评估分值最大者为所述文本信息的安全类别标签。
2.根据权利要求1所述的方法,其特征在于,
获取待检测安全类别标签的文本信息的步骤,包括:响应文本信息提交事件,提取其中的文本信息,该文本信息包含待发布广告的内容文本、待发布公告的内容文本或待发表文章的内容文本;
而在确定综合评估分值最大者为所述文本信息的安全类别标签之后,包括如下步骤:判断所述安全类别标签的安全属性,当其为非安全属性时,禁止发布该文本信息;当其为安全属性时,允许发布该文本信息。
3.根据权利要求1所述的方法,其特征在于,调用序列标注模型为所述文本信息标注文本信息中的关键词及关键词所属的安全类别标签,根据各安全类别标签所标注的关键词计算该文本信息分别属于各安全类别标签的分词评估分值,包括如下具体步骤:
将所述文本信息导入序列标注模型中进行基于语义特征的关键词提取,获得表征为语义向量的关键词序列;
所述序列标注模型基于所述语义向量对关键词序列进行标签预测,获得描述各个关键词相对应的安全类别标签的标签序列;
所述序列标注模型根据所述标签序列中属于非安全属性的安全类别标签所对应的关键词计算该文本信息分别属于各安全类别标签的分词评估分值。
4.根据权利要求3所述的方法,其特征在于,根据所述标签序列中属于非安全属性的安全类别标签所对应的关键词计算该文本信息分别属于各安全类别标签的分词评估分值的步骤中,每个安全类别标签相对应的分词评估分值的计算步骤如下:
确定该安全类别标签所标注的所有关键词各自的字数之和值;
确定所述文本信息的总字数;
以所述和值与所述总字数的比值作为该安全类别标签相对应的分词评估分值。
5.根据权利要求1所述的方法,其特征在于,调用文本分类模型为所述文本信息进行分类评估,获得该文本信息分别命中所述各个安全类别标签的全文评估分值,包括如下具体步骤:
将所述文本信息导入文本分类模型中进行基于语义特征提取,获得文本表征的语义向量;
所述文本分类模型以回归分类器对所述语义向量进行分类,获得整个语义向量命中所述各个安全类别标签的概率,作为各个安全类别标签相应的所述全文评估分值。
6.根据权利要求1所述的方法,其特征在于,将各个安全类别标签相对应的分词评估分值与全文评估分值进行线性融合的步骤中,所述分词评估分值与全文评估分值分别携带各自的权重,两个权重以同一预设的超参数体现彼此的相关性,以实现彼此的线性加权,以获得所述文本信息分别属于各个安全类别标签的综合评估分值。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述序列标注模型与所述文本分类模型基于同一文本预训练模型构造其语义特征提取器,用于实现所述基于语义特征的提取。
8.一种安全类别标签检测装置,其特征在于,其包括:
文本信息获取模块,用于获取待检测安全类别标签的文本信息;
分词估计分值计算模块,用于调用序列标注模型为所述文本信息标注文本信息中的关键词及关键词所属的安全类别标签,根据各安全类别标签所标注的关键词计算该文本信息分别属于各安全类别标签的分词评估分值,所述序列标注模型被预先训练至收敛状态;
全文评估分值获取模块,用于调用文本分类模型为所述文本信息进行分类评估,获得该文本信息分别命中所述各个安全类别标签的全文评估分值,所述文本分类模型被预先训练至收敛状态;
综合评估值获取模块,用于将各个安全类别标签相对应的分词评估分值与全文评估分值进行线性融合,获得所述文本信息分别属于各个安全类别标签的综合评估分值,确定综合评估分值最大者为所述文本信息的安全类别标签。
9.一种电子设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任一项所述的方法的步骤。
10.一种非易失性存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
CN202110762951.2A 2021-07-06 2021-07-06 安全类别标签检测方法、装置、计算机设备及存储介质 Pending CN113449109A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110762951.2A CN113449109A (zh) 2021-07-06 2021-07-06 安全类别标签检测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110762951.2A CN113449109A (zh) 2021-07-06 2021-07-06 安全类别标签检测方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113449109A true CN113449109A (zh) 2021-09-28

Family

ID=77815194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110762951.2A Pending CN113449109A (zh) 2021-07-06 2021-07-06 安全类别标签检测方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113449109A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114756692A (zh) * 2022-04-25 2022-07-15 平安普惠企业管理有限公司 基于多轮对话的标签有效性管理方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083262A1 (en) * 2007-09-21 2009-03-26 Kevin Chen-Chuan Chang System for entity search and a method for entity scoring in a linked document database
CN108090099A (zh) * 2016-11-22 2018-05-29 科大讯飞股份有限公司 一种文本处理方法及装置
CN109739989A (zh) * 2018-12-29 2019-05-10 北京奇安信科技有限公司 文本分类方法和计算机设备
CN110162620A (zh) * 2019-01-10 2019-08-23 腾讯科技(深圳)有限公司 黑产广告的检测方法、装置、服务器及存储介质
CN110532451A (zh) * 2019-06-26 2019-12-03 平安科技(深圳)有限公司 针对政策文本的检索方法和装置、存储介质、电子装置
CN111198948A (zh) * 2020-01-08 2020-05-26 深圳前海微众银行股份有限公司 文本分类校正方法、装置、设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083262A1 (en) * 2007-09-21 2009-03-26 Kevin Chen-Chuan Chang System for entity search and a method for entity scoring in a linked document database
CN108090099A (zh) * 2016-11-22 2018-05-29 科大讯飞股份有限公司 一种文本处理方法及装置
CN109739989A (zh) * 2018-12-29 2019-05-10 北京奇安信科技有限公司 文本分类方法和计算机设备
CN110162620A (zh) * 2019-01-10 2019-08-23 腾讯科技(深圳)有限公司 黑产广告的检测方法、装置、服务器及存储介质
CN110532451A (zh) * 2019-06-26 2019-12-03 平安科技(深圳)有限公司 针对政策文本的检索方法和装置、存储介质、电子装置
CN111198948A (zh) * 2020-01-08 2020-05-26 深圳前海微众银行股份有限公司 文本分类校正方法、装置、设备及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114756692A (zh) * 2022-04-25 2022-07-15 平安普惠企业管理有限公司 基于多轮对话的标签有效性管理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN109145219B (zh) 基于互联网文本挖掘的兴趣点有效性判断方法和装置
WO2020232861A1 (zh) 命名实体识别方法、电子装置及存储介质
WO2018040944A1 (zh) 恶意地址/恶意订单的识别***、方法及装置
CN114638646A (zh) 广告投放推荐方法及其装置、设备、介质、产品
CN114065750A (zh) 商品信息匹配、发布方法及其装置、设备、介质、产品
CN113468414A (zh) 商品搜索方法、装置、计算机设备及存储介质
Yu et al. Multi-level Deep Learning based e-Commerce Product Categorization.
CN114186013A (zh) 实体识别模型热更新方法及其装置、设备、介质、产品
CN116521906B (zh) 元描述生成方法及其装置、设备、介质
CN114818674A (zh) 商品标题关键词提取方法及其装置、设备、介质、产品
CN114707517B (zh) 一种基于开源数据事件抽取的目标跟踪方法
CN114663155A (zh) 广告投放选品方法及其装置、设备、介质、产品
CN116796027A (zh) 商品图片标签生成方法及其装置、设备、介质、产品
CN115587591A (zh) 一种基于mrc的事件抽取方法
CN114626926A (zh) 商品搜索类目识别方法及其装置、设备、介质、产品
CN113449109A (zh) 安全类别标签检测方法、装置、计算机设备及存储介质
CN114266252A (zh) 命名实体识别方法、装置、设备及存储介质
CN115858790A (zh) 商品分类方法与训练方法、装置、设备、介质、产品
CN115907928A (zh) 商品推荐方法及其装置、设备、介质
CN116029793A (zh) 商品推荐方法及其装置、设备、介质
CN113806536B (zh) 文本分类方法及其装置、设备、介质、产品
CN116089644A (zh) 一种融合多模态特征的事件检测方法
CN115293818A (zh) 广告投放选品方法及其装置、设备、介质
CN115563280A (zh) 商品标签标注方法及其装置、设备、介质
CN114219571A (zh) 电商独立站点匹配方法及其装置、设备、介质、产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination