CN113963357B - 基于知识图谱的敏感文本检测方法及*** - Google Patents
基于知识图谱的敏感文本检测方法及*** Download PDFInfo
- Publication number
- CN113963357B CN113963357B CN202111535596.1A CN202111535596A CN113963357B CN 113963357 B CN113963357 B CN 113963357B CN 202111535596 A CN202111535596 A CN 202111535596A CN 113963357 B CN113963357 B CN 113963357B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- text
- sensitive
- network
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识图谱的敏感文本检测方法及***,其中方法包括:爬取网络中现有知识,对所述现有知识进行预处理,得到知识图谱网络;获取网络中的敏感文本,对所述敏感文本进行预处理,得到训练语料;根据所述训练语料和所述知识图谱网络得到文本检测模型的编码信息,将所述编码信息转化为向量表示,得到最终的所述文本检测模型;对待测试文本进行预处理,根据所述文本检测模型得到检测结果。本发明通过知识图谱引入外部知识,建立文本检测模型,并通过多视图推理网络对外部知识进行进一步融合,使得外部知识能够得到充分利用。
Description
技术领域
本发明涉及敏感文本检测领域,尤其涉及一种基于知识图谱的敏感文本检测方法及***。
背景技术
随着互联网的发展,网上的信息爆发式的增长,然而不健康、不合法的信息也随之越来越多,因此对这些信息的合理筛选尤为重要,NLP技术在人类日常语言处理中诸如文本分类、语种翻译、词性标注以及命名实体识别等领域中扮演着越来越重要的角色,并取得了令人瞩目的成绩,NLP领域的敏感文本分析在互联网领域发挥着越来越大的作用,然而针对这种技术的缺点,利用拼音替换、顺序扰乱、指代替换等方法,使得敏感文本检测愈发困难,利用知识图谱,可以合理解决这个问题。
发明内容
本发明提出一种基于知识图谱的敏感文本检测方法及***,通过知识图谱引入外部知识,为模型的检测提供必要的依据,并通过多视图推理网络对外部知识进行进一步融合,使得外部知识能够得到充分利用。
为实现上述目的,本发明提供一种基于知识图谱的敏感文本检测方法,包括:
爬取网络中现有知识,对所述现有知识进行预处理,得到知识图谱网络;
获取网络中的敏感文本,对所述敏感文本进行预处理,得到训练语料;
根据所述训练语料和所述知识图谱网络得到文本检测模型的编码信息,将所述编码信息转化为向量表示,得到最终的所述文本检测模型;
对待测试文本进行预处理,根据所述文本检测模型得到检测结果。
根据本发明的一个方面,所述得到知识图谱网络方法为:
通过网络爬虫技术获取开源社区和信息公开网站中的所述现有知识,汇总得到数据集,通过实体识别和关系抽取技术处理所述数据集,得到所述数据集的结构化数据并组成所述知识图谱网络。
根据本发明的一个方面,所述得到训练语料方法为:
通过所述网络爬虫技术获取所述开源社区和所述信息公开网站中的所述敏感文本,删除所述敏感文本中的停用词和特殊符号并切分所述敏感文本的长度,得到所述训练语料。
根据本发明的一个方面,所述训练语料包括实体和与所述实体对应的实例,对所述实例的前后位置处***自定义标识,不同的所述实体对应不同的所述自定义标识,相同的所述实体的不同所述实例对应相同的所述自定义标识,对所述实体设置锚点,通过语言模型编码得到所述训练语料的位置信息。
根据本发明的一个方面,根据所述知识图谱网络提取每个所述实体的相关概念和与所述相关概念对应的置信度,如果所述实体的所述相关概念小于10个,则设置空余部分所述置信度为0。
根据本发明的一个方面,预处理所述实体和所述相关概念,通过爬取***文本补充所述实体和所述相关概念,如果所述知识图谱网络没有所述实体,则使用维基信息代替所述实体,所述维基信息通过所述语言模型和最大池化进行编码。
根据本发明的一个方面,根据所述置信度通过softmax操作,得到所述相关概念的权重值,根据所述权重值和所述向量表示得到向量集合,根据所述向量集合得到所述实体的向量表示,使所述训练语料与所述知识图谱网络实现数据信息交互。
为实现上述目的,本发明提供一种基于知识图谱的敏感文本检测***,包括:
知识图谱网络建立模块:爬取网络中现有知识,对所述现有知识进行预处理,得到知识图谱网络;
训练语料构建模块:获取网络中的敏感文本,对所述敏感文本进行预处理,得到训练语料;
文本检测模型构建模块:根据所述训练语料和所述知识图谱网络得到文本检测模型的编码信息,将所述编码信息转化为向量表示,得到最终的所述文本检测模型;
预测结果模块:对待测试文本进行预处理,根据所述文本检测模型得到检测结果。
为实现上述目的,本发明提供一种电子设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现上述针对一种基于知识图谱的敏感文本检测方法。
为实现上述目的,本发明提供一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述针对一种基于知识图谱的敏感文本检测方法。
基于此,本发明的有益效果在于:
(1)通过知识图谱网络对敏感文本进行检测,避免了拼音替换、顺序扰乱、指代替换等传统技术的缺点;
(2)将训练语料、知识图谱网络转化为向量表示,增强了二者之间的交互性,增加了文本检测模型的准确性。
附图说明
图1示意性表示根据本发明的一种基于知识图谱的敏感文本检测方法的流程图;
图2示意性表示根据本发明的敏感文本三层推理机制的示意图;
图3示意性表示根据本发明的敏感文本检测模型的架构图;
图4示意性表示根据本发明的一种基于知识图谱的敏感文本检测***的流程图。
具体实施方式
现在将参照示例性实施例来论述本发明的内容,应当理解,论述的实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本发明的内容,而不是暗示对本发明的范围的任何限制。
如本文中所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”,术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。
图1示意性表示根据本发明的一种基于知识图谱的敏感文本检测方法的流程图,如图1所示,根据本发明的一种基于知识图谱的敏感文本检测方法,包括以下步骤:
101:爬取网络中现有知识,对现有知识进行预处理,得到知识图谱网络;
102:获取网络中的敏感文本,对敏感文本进行预处理,得到训练语料;
103:根据训练语料和知识图谱网络得到文本检测模型的编码信息,将编码信息转化为向量表示,得到最终的文本检测模型;
104:对待测试文本进行预处理,根据文本检测模型得到检测结果。
根据本发明的一个实施方式,得到知识图谱网络方法为:
通过网络爬虫技术获取开源社区和信息公开网站中的现有知识,汇总得到数据集,通过实体识别和关系抽取技术处理数据集,得到数据集的结构化数据并组成知识图谱网络。
根据本发明的一个实施方式,得到训练语料方法为:
图2示意性表示根据本发明的敏感文本三层推理机制的示意图,根据图2所示,通过网络爬虫技术获取开源社区和信息公开网站中的敏感文本,删除敏感文本中的停用词和特殊符号并切分敏感文本的长度,得到训练语料。
根据本发明的一个实施方式,图3示意性表示根据本发明的敏感文本检测模型的架构图,根据图3所示,训练语料包括实体和与实体对应的实例,对实例的前后位置处***自定义标识,不同的实体对应不同的自定义标识,相同的实体的不同实例对应相同的自定义标识,对实体设置锚点,通过语言模型编码得到训练语料的位置信息。
根据本发明的一个实施方式,根据知识图谱网络提取每个实体的相关概念和与相关概念对应的置信度,如果实体的相关概念小于10个,则设置空余部分置信度为0。
根据本发明的一个实施方式,预处理实体和相关概念,通过爬取***文本补充实体和相关概念,如果知识图谱网络没有实体,则使用维基信息代替实体,维基信息通过语言模型和最大池化进行编码。
根据本发明的一个实施方式,根据置信度通过softmax操作,得到相关概念的权重值,根据权重值和向量表示得到向量集合,根据向量集合得到实体的向量表示,使训练语料与知识图谱网络实现数据信息交互。
根据本发明的一个实施例, 为了检验本发明的效果,我们搜集了15万条敏感文本,并将95%的项目作为训练集,5%的项目作为测试集,训练集按照本发明的方案进行实施,训练完成后,在测试集上进行评测,为了更好的验证生成摘要的效果,我们选取精确率、召回率和F1值作为评价指标,精确率:精确率=(分类为敏感文本的文本量/文本总量)x100%,召回率:召回率=(分类为敏感文本的文本量/文本中的敏感文本的文本总量)x100%,F1值:为了能够评价不同算法的优劣,在精确率和召回率的基础上提出了F1值的概念,来对精确率和召回率进行整体评价:F1值=正确率*召回率* 2/(正确率+召回率),选取了现有模型CNN、GRU、LSTM以及BERT作为基准模型,模型CNN的精确率为70.1%,召回率为61.2%,F1值为65.3%;模型GRU的精确率为69.7%,召回率为59.5%,F1值为64.2%;模型CNN的精确率为66.5%,召回率为71.8%,F1值为68.9%;模型CNN的精确率为70.1%,召回率为74.5%,F1值为72.0%;本发明的文本检测模型的精确率为84.7%,召回率为86.9%,F1值为85.7%,从数据可以看出本发明提供的文本检测模型可以更好的识别敏感文本。
不仅如此,为实现上述发明目的,本发明还提供一种基于知识图谱的敏感文本检测***,图4示意性表示根据本发明的一种基于知识图谱的敏感文本检测***的流程图,如图4所示,根据本发明的一种基于知识图谱的敏感文本检测***,包括:
知识图谱网络建立模块:爬取网络中现有知识,对现有知识进行预处理,得到知识图谱网络;
训练语料构建模块:训练语料构建模块:获取网络中的敏感文本,对敏感文本进行预处理,得到训练语料;
文本检测模型构建模块:根据训练语料和知识图谱网络得到文本检测模型的编码信息,将编码信息转化为向量表示,得到最终的文本检测模型;
预测结果模块:对待测试文本进行预处理,根据文本检测模型得到检测结果。
根据本发明的一个实施方式,得到知识图谱网络方法为:
通过网络爬虫技术获取开源社区和信息公开网站中的现有知识,汇总得到数据集,通过实体识别和关系抽取技术处理数据集,得到数据集的结构化数据并组成知识图谱网络。
根据本发明的一个实施方式,得到训练语料方法为:
图2示意性表示根据本发明的敏感文本三层推理机制的示意图,根据图2所示,通过网络爬虫技术获取开源社区和信息公开网站中的敏感文本,删除敏感文本中的停用词和特殊符号并切分敏感文本的长度,得到训练语料。
根据本发明的一个实施方式,图3示意性表示根据本发明的敏感文本检测模型的架构图,根据图3所示,训练语料包括实体和与实体对应的实例,对实例的前后位置处***自定义标识,不同的实体对应不同的自定义标识,相同的实体的不同实例对应相同的自定义标识,对实体设置锚点,通过语言模型编码得到训练语料的位置信息。
根据本发明的一个实施方式,根据知识图谱网络提取每个实体的相关概念和与相关概念对应的置信度,如果实体的相关概念小于10个,则设置空余部分置信度为0。
根据本发明的一个实施方式,预处理实体和相关概念,通过爬取***文本补充实体和相关概念,如果知识图谱网络没有实体,则使用维基信息代替实体,维基信息通过语言模型和最大池化进行编码。
根据本发明的一个实施方式,根据置信度通过softmax操作,得到相关概念的权重值,根据权重值和向量表示得到向量集合,根据向量集合得到实体的向量表示,使训练语料与知识图谱网络实现数据信息交互。
根据本发明的一个实施例, 为了检验本发明的效果,我们搜集了15万条敏感文本,并将95%的项目作为训练集,5%的项目作为测试集,训练集按照本发明的方案进行实施,训练完成后,在测试集上进行评测,为了更好的验证生成摘要的效果,我们选取精确率、召回率和F1值作为评价指标,精确率:精确率=(分类为敏感文本的文本量/文本总量)x100%,召回率:召回率=(分类为敏感文本的文本量/文本中的敏感文本的文本总量)x100%,F1值:为了能够评价不同算法的优劣,在精确率和召回率的基础上提出了F1值的概念,来对精确率和召回率进行整体评价:F1值=正确率*召回率* 2/(正确率+召回率),选取了现有模型CNN、GRU、LSTM以及BERT作为基准模型,模型CNN的精确率为70.1%,召回率为61.2%,F1值为65.3%;模型GRU的精确率为69.7%,召回率为59.5%,F1值为64.2%;模型CNN的精确率为66.5%,召回率为71.8%,F1值为68.9%;模型CNN的精确率为70.1%,召回率为74.5%,F1值为72.0%;本发明的文本检测模型的精确率为84.7%,召回率为86.9%,F1值为85.7%,从数据可以看出本发明提供的文本检测模型可以更好的识别敏感文本。
为实现上述发明目的,本发明还提供一种电子设备,该电子设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,计算机程序被处理器执行时实现上述一种基于知识图谱的敏感文本检测方法。
为实现上述发明目的,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述一种基于知识图谱的敏感文本检测方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。
另外,在本发明实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例节能信号发送/接收的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
应理解,本发明的发明内容及实施例中各步骤的序号的大小并不绝对意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
Claims (7)
1.基于知识图谱的敏感文本检测方法,其特征在于,包括:
爬取网络中现有知识,对所述现有知识进行预处理,得到知识图谱网络;
获取网络中的敏感文本,对所述敏感文本进行预处理,得到训练语料;
根据所述训练语料和所述知识图谱网络得到文本检测模型的编码信息,将所述编码信息转化为向量表示,得到最终的所述文本检测模型;
所述训练语料包括实体和与所述实体对应的实例,对所述实例的前后位置处***自定义标识,不同的所述实体对应不同的所述自定义标识,相同的所述实体的不同所述实例对应相同的所述自定义标识,对所述实体设置锚点,通过语言模型编码得到所述训练语料的位置信息;
根据所述知识图谱网络提取每个所述实体的相关概念和与所述相关概念对应的置信度,如果所述实体的所述相关概念小于10个,则设置空余部分所述置信度为0;
根据所述置信度通过softmax操作,得到所述相关概念的权重值,根据所述权重值和所述向量表示得到向量集合,根据所述向量集合得到所述实体的向量表示,使所述训练语料与所述知识图谱网络实现数据信息交互;
对待测试文本进行预处理,根据所述文本检测模型得到检测结果。
2.根据权利要求1所述的基于知识图谱的敏感文本检测方法,其特征在于,所述得到知识图谱网络方法为:
通过网络爬虫技术获取开源社区和信息公开网站中的所述现有知识,汇总得到数据集,通过实体识别和关系抽取技术处理所述数据集,得到所述数据集的结构化数据并组成所述知识图谱网络。
3.根据权利要求2所述的基于知识图谱的敏感文本检测方法,其特征在于,所述得到训练语料方法为:
通过所述网络爬虫技术获取所述开源社区和所述信息公开网站中的所述敏感文本,删除所述敏感文本中的停用词和特殊符号并切分所述敏感文本的长度,得到所述训练语料。
4.根据权利要求3所述的基于知识图谱的敏感文本检测方法,其特征在于,预处理所述实体和所述相关概念,通过爬取***文本补充所述实体和所述相关概念,如果所述知识图谱网络没有所述实体,则使用维基信息代替所述实体,所述维基信息通过所述语言模型和最大池化进行编码。
5.基于知识图谱的敏感文本检测***,其特征在于,包括:
知识图谱网络建立模块:爬取网络中现有知识,对所述现有知识进行预处理,得到知识图谱网络;
训练语料构建模块:获取网络中的敏感文本,对所述敏感文本进行预处理,得到训练语料,所述训练语料包括实体和与所述实体对应的实例,对所述实例的前后位置处***自定义标识,不同的所述实体对应不同的所述自定义标识,相同的所述实体的不同所述实例对应相同的所述自定义标识,对所述实体设置锚点,通过语言模型编码得到所述训练语料的位置信息,根据所述知识图谱网络提取每个所述实体的相关概念和与所述相关概念对应的置信度,如果所述实体的所述相关概念小于10个,则设置空余部分所述置信度为0;
文本检测模型构建模块:根据所述训练语料和所述知识图谱网络得到文本检测模型的编码信息,将所述编码信息转化为向量表示,得到最终的所述文本检测模型,根据所述置信度通过softmax操作,得到所述相关概念的权重值,根据所述权重值和所述向量表示得到向量集合,根据所述向量集合得到所述实体的向量表示,使所述训练语料与所述知识图谱网络实现数据信息交互;
预测结果模块:对待测试文本进行预处理,根据所述文本检测模型得到检测结果。
6.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的基于知识图谱的敏感文本检测方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的基于知识图谱的敏感文本检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111535596.1A CN113963357B (zh) | 2021-12-16 | 2021-12-16 | 基于知识图谱的敏感文本检测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111535596.1A CN113963357B (zh) | 2021-12-16 | 2021-12-16 | 基于知识图谱的敏感文本检测方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113963357A CN113963357A (zh) | 2022-01-21 |
CN113963357B true CN113963357B (zh) | 2022-03-11 |
Family
ID=79473244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111535596.1A Active CN113963357B (zh) | 2021-12-16 | 2021-12-16 | 基于知识图谱的敏感文本检测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113963357B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和*** |
CN110516073A (zh) * | 2019-08-30 | 2019-11-29 | 北京百度网讯科技有限公司 | 一种文本分类方法、装置、设备和介质 |
CN111061843A (zh) * | 2019-12-26 | 2020-04-24 | 武汉大学 | 一种知识图谱引导的假新闻检测方法 |
CN111428054A (zh) * | 2020-04-14 | 2020-07-17 | 中国电子科技网络信息安全有限公司 | 一种网络空间安全领域知识图谱的构建与存储方法 |
CN112131401A (zh) * | 2020-09-14 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 一种概念知识图谱构建方法和装置 |
CN112163099A (zh) * | 2020-09-24 | 2021-01-01 | 平安直通咨询有限公司上海分公司 | 基于知识图谱的文本识别方法、装置、存储介质和服务器 |
CN112417314A (zh) * | 2020-11-26 | 2021-02-26 | 清华大学 | 一种社交网络***意念检测方法及*** |
CN112417456A (zh) * | 2020-11-16 | 2021-02-26 | 中国电子科技集团公司第三十研究所 | 一种基于大数据的结构化敏感数据还原检测的方法 |
CN112507039A (zh) * | 2020-12-15 | 2021-03-16 | 苏州元启创人工智能科技有限公司 | 基于外部知识嵌入的文本理解方法 |
CN113254649A (zh) * | 2021-06-22 | 2021-08-13 | 中国平安人寿保险股份有限公司 | 敏感内容识别模型的训练方法、文本识别方法及相关装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11823798B2 (en) * | 2016-09-28 | 2023-11-21 | Merative Us L.P. | Container-based knowledge graphs for determining entity relations in non-narrative text |
US11809986B2 (en) * | 2020-05-15 | 2023-11-07 | International Business Machines Corporation | Computing graph similarity via graph matching |
-
2021
- 2021-12-16 CN CN202111535596.1A patent/CN113963357B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和*** |
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN110516073A (zh) * | 2019-08-30 | 2019-11-29 | 北京百度网讯科技有限公司 | 一种文本分类方法、装置、设备和介质 |
CN111061843A (zh) * | 2019-12-26 | 2020-04-24 | 武汉大学 | 一种知识图谱引导的假新闻检测方法 |
CN111428054A (zh) * | 2020-04-14 | 2020-07-17 | 中国电子科技网络信息安全有限公司 | 一种网络空间安全领域知识图谱的构建与存储方法 |
CN112131401A (zh) * | 2020-09-14 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 一种概念知识图谱构建方法和装置 |
CN112163099A (zh) * | 2020-09-24 | 2021-01-01 | 平安直通咨询有限公司上海分公司 | 基于知识图谱的文本识别方法、装置、存储介质和服务器 |
CN112417456A (zh) * | 2020-11-16 | 2021-02-26 | 中国电子科技集团公司第三十研究所 | 一种基于大数据的结构化敏感数据还原检测的方法 |
CN112417314A (zh) * | 2020-11-26 | 2021-02-26 | 清华大学 | 一种社交网络***意念检测方法及*** |
CN112507039A (zh) * | 2020-12-15 | 2021-03-16 | 苏州元启创人工智能科技有限公司 | 基于外部知识嵌入的文本理解方法 |
CN113254649A (zh) * | 2021-06-22 | 2021-08-13 | 中国平安人寿保险股份有限公司 | 敏感内容识别模型的训练方法、文本识别方法及相关装置 |
Non-Patent Citations (2)
Title |
---|
Exploiting code knowledge graph for bug localization via bi-direction attention;Jinglei zhang et al;《proceedings of the 28th international conference on program comprehension》;20200912;第219-229页 * |
基于知识图谱和图像描述的虚假新闻检测研究;陈开阳等;《江西师范大学学报》;20210725;第45卷(第04期);第398-402页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113963357A (zh) | 2022-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107798136B (zh) | 基于深度学习的实体关系抽取方法、装置及服务器 | |
CN112541476B (zh) | 一种基于语义特征提取的恶意网页识别方法 | |
CN112948575B (zh) | 文本数据处理方法、装置和计算机可读存储介质 | |
CN107943514A (zh) | 一种软件文档中核心代码元素的挖掘方法及*** | |
CN110851176A (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN114330966A (zh) | 一种风险预测方法、装置、设备以及可读存储介质 | |
CN116956929B (zh) | 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置 | |
CN105609116A (zh) | 一种语音情感维度区域的自动识别方法 | |
CN111639185B (zh) | 关系信息抽取方法、装置、电子设备和可读存储介质 | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
CN112308148A (zh) | 缺陷类别识别、孪生神经网络训练方法、装置及存储介质 | |
CN106815209B (zh) | 一种维吾尔文农业技术术语识别方法 | |
CN113886524A (zh) | 一种基于短文本的网络安全威胁事件抽取方法 | |
CN111898528B (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN113963357B (zh) | 基于知识图谱的敏感文本检测方法及*** | |
CN116758558A (zh) | 基于跨模态生成对抗网络的图文情感分类方法及*** | |
CN116579348A (zh) | 基于不确定语义融合的虚假新闻检测方法及*** | |
CN116881408A (zh) | 基于ocr和nlp的视觉问答防诈骗方法及*** | |
CN116383517A (zh) | 动态传播特征增强的多模态谣言检测方法及*** | |
CN113836297A (zh) | 文本情感分析模型的训练方法及装置 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
CN113988059A (zh) | 一种会话数据类型识别方法、***、设备及存储介质 | |
CN115587358A (zh) | 一种二进制代码相似性检测方法、装置及存储介质 | |
CN111860662B (zh) | 一种相似性检测模型的训练方法及装置、应用方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |