CN113963357B

CN113963357B - 基于知识图谱的敏感文本检测方法及***

Info

Publication number: CN113963357B
Application number: CN202111535596.1A
Authority: CN
Inventors: 张静磊; 叶蔚; 张世琨; 谢睿; 温国昌
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-11
Anticipated expiration: 2041-12-16
Also published as: CN113963357A

Abstract

本发明公开了一种基于知识图谱的敏感文本检测方法及***，其中方法包括：爬取网络中现有知识，对所述现有知识进行预处理，得到知识图谱网络；获取网络中的敏感文本，对所述敏感文本进行预处理，得到训练语料；根据所述训练语料和所述知识图谱网络得到文本检测模型的编码信息，将所述编码信息转化为向量表示，得到最终的所述文本检测模型；对待测试文本进行预处理，根据所述文本检测模型得到检测结果。本发明通过知识图谱引入外部知识，建立文本检测模型，并通过多视图推理网络对外部知识进行进一步融合，使得外部知识能够得到充分利用。

Description

基于知识图谱的敏感文本检测方法及***

技术领域

本发明涉及敏感文本检测领域，尤其涉及一种基于知识图谱的敏感文本检测方法及***。

背景技术

随着互联网的发展，网上的信息爆发式的增长，然而不健康、不合法的信息也随之越来越多，因此对这些信息的合理筛选尤为重要，NLP技术在人类日常语言处理中诸如文本分类、语种翻译、词性标注以及命名实体识别等领域中扮演着越来越重要的角色，并取得了令人瞩目的成绩，NLP领域的敏感文本分析在互联网领域发挥着越来越大的作用，然而针对这种技术的缺点，利用拼音替换、顺序扰乱、指代替换等方法，使得敏感文本检测愈发困难，利用知识图谱，可以合理解决这个问题。

发明内容

本发明提出一种基于知识图谱的敏感文本检测方法及***，通过知识图谱引入外部知识，为模型的检测提供必要的依据，并通过多视图推理网络对外部知识进行进一步融合，使得外部知识能够得到充分利用。

为实现上述目的，本发明提供一种基于知识图谱的敏感文本检测方法，包括：

爬取网络中现有知识，对所述现有知识进行预处理，得到知识图谱网络；

获取网络中的敏感文本，对所述敏感文本进行预处理，得到训练语料；

根据所述训练语料和所述知识图谱网络得到文本检测模型的编码信息，将所述编码信息转化为向量表示，得到最终的所述文本检测模型；

对待测试文本进行预处理，根据所述文本检测模型得到检测结果。

根据本发明的一个方面，所述得到知识图谱网络方法为：

通过网络爬虫技术获取开源社区和信息公开网站中的所述现有知识，汇总得到数据集，通过实体识别和关系抽取技术处理所述数据集，得到所述数据集的结构化数据并组成所述知识图谱网络。

根据本发明的一个方面，所述得到训练语料方法为：

通过所述网络爬虫技术获取所述开源社区和所述信息公开网站中的所述敏感文本，删除所述敏感文本中的停用词和特殊符号并切分所述敏感文本的长度，得到所述训练语料。

根据本发明的一个方面，所述训练语料包括实体和与所述实体对应的实例，对所述实例的前后位置处***自定义标识，不同的所述实体对应不同的所述自定义标识，相同的所述实体的不同所述实例对应相同的所述自定义标识，对所述实体设置锚点，通过语言模型编码得到所述训练语料的位置信息。

根据本发明的一个方面，根据所述知识图谱网络提取每个所述实体的相关概念和与所述相关概念对应的置信度，如果所述实体的所述相关概念小于10个，则设置空余部分所述置信度为0。

根据本发明的一个方面，预处理所述实体和所述相关概念，通过爬取***文本补充所述实体和所述相关概念，如果所述知识图谱网络没有所述实体，则使用维基信息代替所述实体，所述维基信息通过所述语言模型和最大池化进行编码。

根据本发明的一个方面，根据所述置信度通过softmax操作，得到所述相关概念的权重值，根据所述权重值和所述向量表示得到向量集合，根据所述向量集合得到所述实体的向量表示，使所述训练语料与所述知识图谱网络实现数据信息交互。

为实现上述目的，本发明提供一种基于知识图谱的敏感文本检测***，包括：

知识图谱网络建立模块：爬取网络中现有知识，对所述现有知识进行预处理，得到知识图谱网络；

训练语料构建模块：获取网络中的敏感文本，对所述敏感文本进行预处理，得到训练语料；

文本检测模型构建模块：根据所述训练语料和所述知识图谱网络得到文本检测模型的编码信息，将所述编码信息转化为向量表示，得到最终的所述文本检测模型；

预测结果模块：对待测试文本进行预处理，根据所述文本检测模型得到检测结果。

为实现上述目的，本发明提供一种电子设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现上述针对一种基于知识图谱的敏感文本检测方法。

为实现上述目的，本发明提供一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述针对一种基于知识图谱的敏感文本检测方法。

基于此，本发明的有益效果在于：

（1）通过知识图谱网络对敏感文本进行检测，避免了拼音替换、顺序扰乱、指代替换等传统技术的缺点；

（2）将训练语料、知识图谱网络转化为向量表示，增强了二者之间的交互性，增加了文本检测模型的准确性。

附图说明

图1示意性表示根据本发明的一种基于知识图谱的敏感文本检测方法的流程图；

图2示意性表示根据本发明的敏感文本三层推理机制的示意图；

图3示意性表示根据本发明的敏感文本检测模型的架构图；

图4示意性表示根据本发明的一种基于知识图谱的敏感文本检测***的流程图。

具体实施方式

现在将参照示例性实施例来论述本发明的内容，应当理解，论述的实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本发明的内容，而不是暗示对本发明的范围的任何限制。

如本文中所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”，术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。

图1示意性表示根据本发明的一种基于知识图谱的敏感文本检测方法的流程图，如图1所示，根据本发明的一种基于知识图谱的敏感文本检测方法，包括以下步骤：

101：爬取网络中现有知识，对现有知识进行预处理，得到知识图谱网络；

102：获取网络中的敏感文本，对敏感文本进行预处理，得到训练语料；

103：根据训练语料和知识图谱网络得到文本检测模型的编码信息，将编码信息转化为向量表示，得到最终的文本检测模型；

104：对待测试文本进行预处理，根据文本检测模型得到检测结果。

根据本发明的一个实施方式，得到知识图谱网络方法为：

通过网络爬虫技术获取开源社区和信息公开网站中的现有知识，汇总得到数据集，通过实体识别和关系抽取技术处理数据集，得到数据集的结构化数据并组成知识图谱网络。

根据本发明的一个实施方式，得到训练语料方法为：

图2示意性表示根据本发明的敏感文本三层推理机制的示意图，根据图2所示，通过网络爬虫技术获取开源社区和信息公开网站中的敏感文本，删除敏感文本中的停用词和特殊符号并切分敏感文本的长度，得到训练语料。

根据本发明的一个实施方式，图3示意性表示根据本发明的敏感文本检测模型的架构图，根据图3所示，训练语料包括实体和与实体对应的实例，对实例的前后位置处***自定义标识，不同的实体对应不同的自定义标识，相同的实体的不同实例对应相同的自定义标识，对实体设置锚点，通过语言模型编码得到训练语料的位置信息。

根据本发明的一个实施方式，根据知识图谱网络提取每个实体的相关概念和与相关概念对应的置信度，如果实体的相关概念小于10个，则设置空余部分置信度为0。

根据本发明的一个实施方式，预处理实体和相关概念，通过爬取***文本补充实体和相关概念，如果知识图谱网络没有实体，则使用维基信息代替实体，维基信息通过语言模型和最大池化进行编码。

根据本发明的一个实施方式，根据置信度通过softmax操作，得到相关概念的权重值，根据权重值和向量表示得到向量集合，根据向量集合得到实体的向量表示，使训练语料与知识图谱网络实现数据信息交互。

根据本发明的一个实施例, 为了检验本发明的效果，我们搜集了15万条敏感文本，并将95%的项目作为训练集，5%的项目作为测试集，训练集按照本发明的方案进行实施，训练完成后，在测试集上进行评测，为了更好的验证生成摘要的效果，我们选取精确率、召回率和F1值作为评价指标，精确率：精确率=（分类为敏感文本的文本量/文本总量）x100%，召回率：召回率=（分类为敏感文本的文本量/文本中的敏感文本的文本总量）x100%，F1值：为了能够评价不同算法的优劣，在精确率和召回率的基础上提出了F1值的概念，来对精确率和召回率进行整体评价：F1值=正确率*召回率* 2/(正确率+召回率)，选取了现有模型CNN、GRU、LSTM以及BERT作为基准模型，模型CNN的精确率为70.1%，召回率为61.2%，F1值为65.3%；模型GRU的精确率为69.7%，召回率为59.5%，F1值为64.2%；模型CNN的精确率为66.5%，召回率为71.8%，F1值为68.9%；模型CNN的精确率为70.1%，召回率为74.5%，F1值为72.0%；本发明的文本检测模型的精确率为84.7%，召回率为86.9%，F1值为85.7%，从数据可以看出本发明提供的文本检测模型可以更好的识别敏感文本。

不仅如此，为实现上述发明目的，本发明还提供一种基于知识图谱的敏感文本检测***，图4示意性表示根据本发明的一种基于知识图谱的敏感文本检测***的流程图，如图4所示，根据本发明的一种基于知识图谱的敏感文本检测***，包括：

知识图谱网络建立模块：爬取网络中现有知识，对现有知识进行预处理，得到知识图谱网络；

训练语料构建模块：训练语料构建模块：获取网络中的敏感文本，对敏感文本进行预处理，得到训练语料；

文本检测模型构建模块：根据训练语料和知识图谱网络得到文本检测模型的编码信息，将编码信息转化为向量表示，得到最终的文本检测模型；

预测结果模块：对待测试文本进行预处理，根据文本检测模型得到检测结果。

根据本发明的一个实施方式，得到知识图谱网络方法为：

根据本发明的一个实施方式，得到训练语料方法为：

为实现上述发明目的，本发明还提供一种电子设备，该电子设备包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，计算机程序被处理器执行时实现上述一种基于知识图谱的敏感文本检测方法。

为实现上述发明目的，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述一种基于知识图谱的敏感文本检测方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。

另外，在本发明实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例节能信号发送/接收的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

应理解，本发明的发明内容及实施例中各步骤的序号的大小并不绝对意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

Claims

1.基于知识图谱的敏感文本检测方法，其特征在于，包括：

所述训练语料包括实体和与所述实体对应的实例，对所述实例的前后位置处***自定义标识，不同的所述实体对应不同的所述自定义标识，相同的所述实体的不同所述实例对应相同的所述自定义标识，对所述实体设置锚点，通过语言模型编码得到所述训练语料的位置信息；

根据所述知识图谱网络提取每个所述实体的相关概念和与所述相关概念对应的置信度，如果所述实体的所述相关概念小于10个，则设置空余部分所述置信度为0；

根据所述置信度通过softmax操作，得到所述相关概念的权重值，根据所述权重值和所述向量表示得到向量集合，根据所述向量集合得到所述实体的向量表示，使所述训练语料与所述知识图谱网络实现数据信息交互；

2.根据权利要求1所述的基于知识图谱的敏感文本检测方法，其特征在于，所述得到知识图谱网络方法为：

3.根据权利要求2所述的基于知识图谱的敏感文本检测方法，其特征在于，所述得到训练语料方法为：

4.根据权利要求3所述的基于知识图谱的敏感文本检测方法，其特征在于，预处理所述实体和所述相关概念，通过爬取***文本补充所述实体和所述相关概念，如果所述知识图谱网络没有所述实体，则使用维基信息代替所述实体，所述维基信息通过所述语言模型和最大池化进行编码。

5.基于知识图谱的敏感文本检测***，其特征在于，包括：

训练语料构建模块：获取网络中的敏感文本，对所述敏感文本进行预处理，得到训练语料，所述训练语料包括实体和与所述实体对应的实例，对所述实例的前后位置处***自定义标识，不同的所述实体对应不同的所述自定义标识，相同的所述实体的不同所述实例对应相同的所述自定义标识，对所述实体设置锚点，通过语言模型编码得到所述训练语料的位置信息，根据所述知识图谱网络提取每个所述实体的相关概念和与所述相关概念对应的置信度，如果所述实体的所述相关概念小于10个，则设置空余部分所述置信度为0；

文本检测模型构建模块：根据所述训练语料和所述知识图谱网络得到文本检测模型的编码信息，将所述编码信息转化为向量表示，得到最终的所述文本检测模型，根据所述置信度通过softmax操作，得到所述相关概念的权重值，根据所述权重值和所述向量表示得到向量集合，根据所述向量集合得到所述实体的向量表示，使所述训练语料与所述知识图谱网络实现数据信息交互；

6.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的基于知识图谱的敏感文本检测方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的基于知识图谱的敏感文本检测方法。