CN116069948B - 内容风控知识库构建方法、装置、设备及存储介质 - Google Patents

内容风控知识库构建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116069948B
CN116069948B CN202310094574.9A CN202310094574A CN116069948B CN 116069948 B CN116069948 B CN 116069948B CN 202310094574 A CN202310094574 A CN 202310094574A CN 116069948 B CN116069948 B CN 116069948B
Authority
CN
China
Prior art keywords
entity
wind control
content
ontology
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310094574.9A
Other languages
English (en)
Other versions
CN116069948A (zh
Inventor
张凤珍
靳国庆
李罗政
张冬明
张勇东
辛瑞佳
曲畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
People's Network Information Technology Co ltd
Konami Sports Club Co Ltd
Original Assignee
People's Network Information Technology Co ltd
People Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by People's Network Information Technology Co ltd, People Co Ltd filed Critical People's Network Information Technology Co ltd
Priority to CN202310094574.9A priority Critical patent/CN116069948B/zh
Publication of CN116069948A publication Critical patent/CN116069948A/zh
Application granted granted Critical
Publication of CN116069948B publication Critical patent/CN116069948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种内容风控知识库构建方法、装置、设备及存储介质。其中,所述方法包括:根据预设语料数据对内容风控领域本体进行建模;其中,所述建模包括本体概念建模和本体关系建模;根据所述建模后的本体概念和本体关系进行内容风控知识抽取;其中,所述内容风控知识抽取包括实体关系抽取和实体抽取;根据抽取的实体关系和实体构建内容风控知识库。本方案通过本体设计形成内容风控知识,构建面向内容风控的领域知识库,为基于知识图谱的内容风控技术服务提供知识支持,并为计算机进行语言理解和知识推理提供可靠的内容风控知识库,提高智能审核的准确性和可靠性。

Description

内容风控知识库构建方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,具体涉及一种内容风控知识库构建方法、装置、设备及存储介质。
背景技术
面对互联网内容数据量的增长和内容安全的监管要求,以技术为主要工具的内容风控***服务持续扩大。然而,传统的内容风控知识库多为文献库,不能提供结构化、体系化的风控知识,难以满足内容风控领域的应用需求。随着人工智能和知识图谱技术的快速进步,具备知识推理和知识更新能力的内容风控知识库需求日益迫切,具有十分重要的应用空间。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的内容风控知识库构建方法、装置、设备及存储介质。
根据本申请的一个方面,提供了一种内容风控知识库构建方法,包括:
根据预设语料数据对内容风控领域本体进行建模;其中,所述建模包括本体概念建模和本体关系建模;
根据所述建模后的本体概念和本体关系进行内容风控知识抽取;其中,所述内容风控知识抽取包括实体关系抽取和实体抽取;
根据抽取的实体关系和实体构建内容风控知识库。
根据本申请的另一个方面,提供了一种内容风控知识库构建装置,包括:
建模模块,用于根据预设语料数据对内容风控领域本体进行建模;其中,所述建模包括本体概念建模和本体关系建模;
知识抽取模块,用于根据所述建模后的本体概念和本体关系进行内容风控知识抽取;其中,所述内容风控知识抽取包括实体关系抽取和实体抽取;
知识库构建模块,用于根据抽取的实体关系和实体构建内容风控知识库。
根据本申请的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行本申请所述的内容风控知识库构建方法对应的操作。
根据本申请的另一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行本申请所述的内容风控知识库构建方法对应的操作。
根据本申请公开的内容风控知识库构建方法、设备及存储介质,通过根据预设语料数据对内容风控领域本体进行建模;其中,所述建模包括本体概念建模和本体关系建模;根据所述建模后的本体概念和本体关系进行内容风控知识抽取;其中,所述内容风控知识抽取包括实体关系抽取和实体抽取;根据抽取的实体关系和实体构建内容风控知识库。这样通过本体设计形成内容风控知识,构建面向内容风控的领域知识库,为基于知识图谱的内容风控技术服务提供知识支持,并为计算机进行语言理解和知识推理提供可靠的内容风控知识库,提高智能审核的准确性和可靠性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请实施例一提供的一种内容风控知识库构建方法的流程示意图;
图2示出了根据本申请实施例一提供的一种内容风控知识库构建方法中的本体建模示意图;
图3示出了根据本申请实施例一提供的一种内容风控知识库构建方法中的实体关系抽取和实体抽取流程示意图;
图4示出了根据本申请实施例二提供的一种内容风控知识库构建方法中NARRE双塔模型建模过程示意图;
图5示出了根据本申请实施三提供的一种内容风控知识库构建装置的结构示意图;
图6示出了根据本申请实施例五提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
实施例一
图1示出了根据本申请实施例一提供的一种内容风控知识库构建方法的流程示意图。如图1所示,该方法包括:
步骤S11,根据预设语料数据对内容风控领域本体进行建模;其中,建模包括本体概念建模和本体关系建模。
其中,预设语料数据可以提前获取,例如,可以为句子、词语等。具体的,可以以主流媒体官网首页为准,采取以点及面、逐层深入的模式,通过网络链接,深度解析超文本标记语言(Hyper Text Markup Language,HTML)标记语言,对HTML标记内容定时进行获取和解析,得到原始语料数据。原始语料数据获取后会对原始语料数据进行预处理,包括对多来源的原始语料数据去重和去除文本中的标签和特殊字符等。在特征提取过程中,本实施例综合利用词语的主题相关度来计算关键词权重,进而提取文本特征,结合相关的相似度算法得到数据语义相似程度,整合快速聚类算法,得到最终的语义相似度,实现原始语料数据去重,得到预设语料数据。
其中,本体是一种重要的知识库,表示主题领域的词汇的基本术语和关系。内容风控领域本体是包括内容风控术语、术语间的规范关系及说明的体系。本实施例采用多策略融合的方法抽取本体术语,对预设语料数据基于停用词、数词、量词、日期、地点名词拆解、词性分析、分词后词性分析,命名实体识别低频人名、人工筛选关键词等要素设计领域术语过滤算法,对初始术语多轮过滤,以滤除术语中无明显意义、语法结构混乱或者语义接近的词汇,最终获得内容风控领域本体术语。
步骤S12,根据建模后的本体概念和本体关系进行内容风控知识抽取;其中,内容风控知识抽取包括实体关系抽取和实体抽取。
具体的,首先采用分类任务的微调预训练语言模型进行实体关系抽取,然后融合实体关系信息及预训练语言模型进行实体抽取。
步骤S13,根据抽取的实体关系和实体构建内容风控知识库。
具体的,可以采用RDF(Resource Description Framework,资源框架***)存储***,将内容风控知识作为图数据进行存储,使用关系型数据库作为底层存储。
由此可见,本实施例通过根据预设语料数据对内容风控领域本体进行建模;其中,建模包括本体概念建模和本体关系建模;根据建模后的本体概念和本体关系进行内容风控知识抽取;其中,内容风控知识抽取包括实体关系抽取和实体抽取;根据抽取的实体关系和实体构建内容风控知识库。这样通过本体设计形成内容风控知识,构建面向内容风控的知识库,为基于知识图谱的内容风控技术服务提供知识支持,并为计算机进行语言理解和知识推理提供可靠的内容风控知识库,提高智能审核的准确性和可靠性。
在一个可选实施例中,所述本体概念建模,包括:
根据预设语料数据获取内容风控领域本体术语;计算内容风控领域本体术语的词嵌入特征,并对词嵌入特征进行多级聚类;根据内容风控的特点和媒体内容5W要素,将内容风控领域本体概念建模为人物、机构、事件和领域特征词表。
其中,5W要素包括何时(when)、何地(where)、何事(what)、何因(why)、何人(who)。具体的,本实施例可以采用词嵌入特征,通过Directional Skip-Gram(DSG)算法计算每个术语的词嵌入特征,并辅以k-均值算法对术语的词嵌入特征进行多级聚类。如图2所示,结合内容风控的特点和媒体内容5W要素,将内容风控领域本体概念建模为:人物、机构、事件和领域特征词表。
在一个可选实施例中,所述本体关系建模,包括:
当内容风控领域本体术语间的关系为层次关系时,采用专家预设的模板、基于语言规则和聚类方法多策略方式抽取;当内容风控领域本体术语间的关系为非层次关系时,采用自然语言处理技术对语料数据进行分析,识别每个句子中的核心动词,结合上下文寻找与核心动词紧邻的术语,构建两个术语之间的关系。
其中,本体术语间的关系分为层次关系、非层次关系。层次关系的抽取可以采用专家预设的模板、基于语言规则、和聚类方法多策略方式抽取,如人物与机构的关系分为:组建/成立、任职、参观/走访和其他,人物与人物之间的关系为:亲属、同事/上下级等。非层次关系的抽取则采用基于深层的自然语言处理技术,对语料进行句法分析、语义依存分析,识别每个句子中的核心动词,然后结合上下文,寻找与该核心词紧邻的术语,构建两个术语之间的关系。
在一个可选实施例中,所述实体关系抽取,包括:
给定一个句子,将句子送入编码器获得对应的词向量;通过模拟词向量的重要程度及之间的相关性实现实体信息的隐编码,并加入平均池化操作获取句子的实体嵌入特征;将实体嵌入向量与词向量进行拼接,并通过神经网络进行分类从而获取整个句子的实体关系表示。
具体的,句子中的实体关系抽取任务是基于语言模型的隐藏层嵌入,实现句子级别的文本分类。如图3所示,给定一个句子第五届进博会在上海开幕记为Sn,首先将Sn送入RoBERTa编码器获得对应的词向量 n为句子的单词个数,d为向量维度。实体关系依赖实体类别、位置顺序等先验知识,在句子中的体现就是词与词之间的关联程度,因此在隐藏层后面设计了基于注意力机制的实体信息编码层,通过模拟词向量的重要程度、之间的相关性实现实体信息的隐编码,并加入平均池化操作获取整句的实体嵌入特征/>AttNet表示使用自注意机制获取隐藏层向量间的嵌入信息。将生成的实体嵌入向量/>与原始句子嵌入/>进行拼接,并通过神经网络进行分类从而获取整个句子的关系表示/>其中σ是sigmod激活函数,设定阈值ε,当/>时判定该句子包含关系ri即发生于。
在一个可选实施例中,所述实体抽取,包括:
根据实体关系表示获得关系提示信息的连续表示;将连续表示与词向量进行融合,使用条件随机场识别出实体,得到每个词在实体分类阶段的输出。
具体的,如图3所示,将实体关系抽取阶段获取的关系转换为one-hot向量并使用多层感知机对其进行重参数化,从而获得关系提示信息的连续表示Pr。将模型的关系提示信息Pr与词向量/>通过一个Transformer网络模块进行融合,通过将Pr与网络中的K、V向量进行拼接从而改变注意力的计算结果Kp、Vp,训练过程中同步更新提示参数Pr和注意力权重矩阵。继而使用条件随机场识别出实体,得到每个词在实体分类阶段的输出Yn,即为当前输入包含的token是某类实体的概率。
实施例二
如图4所示,为本申请实施例二提供的一种内容风控知识库构建方法,本实施例为一具体实施例,用于对本发明的方案进行详细说明,如图4所示,具体包括如下步骤:
步骤S21,数据获取与处理。
本实施例以主流媒体官网首页为准,采取以点及面、逐层深入的模式,通过网络链接,深度解析HTML标记语言,对HTML标记内容定时进行获取和解析。数据获取后会对原始数据进行的预处理,包括对多来源的数据去重和去除文本中的标签和特殊字符等。在特征提取过程中,本实施例综合利用词语的主题相关度来计算关键词权重,进而提取文本特征,结合相关的相似度算法得到数据语义相似程度,整合快速聚类算法,得到最终的语义相似度,实现数据去重的最终结果,得到最终的语料数据。
步骤S22,内容风控领域本体建模。
本体是一种重要的知识库,表示主题领域的词汇的基本术语和关系。内容风控领域本体是包内容风控术语、术语间的规范关系及说明的体系。内容风控领域本体建模包含以下部分:
本体术语定义,本实施例采用多策略融合的方法抽取本体术语,对语料数据基于停用词、数词、量词、日期、地点名词拆解、词性分析、分词后词性分析,命名实体识别低频人名、人工筛选关键词等要素设计领域术语过滤算法,对初始术语多轮过滤,以滤除术语中无明显意义、语法结构混乱或者语义接近的词汇,最终获得内容风控领域本体术语。
本体概念建模,本实施例采用词嵌入特征,通过Directional Skip-Gram(DSG)算法计算每个术语的词嵌入特征,并辅以k-均值算法对术语的词嵌入特征进行多级聚类。如图2所示,结合内容风控的特点和媒体内容5W要素,将内容风控领域本体概念建模为:人物、机构、事件和领域特征词表。
本体关系建模,本体术语间的关系分为层次关系、非层次关系。层次关系的抽取采用专家预设的模板、基于语言规则、和聚类方法多策略方式抽取,如人物与机构的关系分为:组建/成立、任职、参观/走访和其他,人物与人物之间的关系为:亲属、同事/上下级等。非层次关系的抽取则采用基于深层的自然语言处理技术,对语料进行句法分析、语义依存分析,识别每个句子中的核心动词,然后结合上下文,寻找与该核心词紧邻的术语,构建两个术语之间的关系。
步骤S23,内容风控知识抽取。
本实施例提出一种两阶段实体关系抽取方法,首先采用分类任务的微调预训练语言模型进行实体关系抽取,然后融合实体关系信息及预训练语言模型进行实体抽取。实现步骤如下:
实体关系抽取,句子中的实体关系抽取任务是基于语言模型的隐藏层嵌入,实现句子级别的文本分类。如图3所示,给定一个句子Sn,首先将Sn送入RoBERTa编码器获得对应的词向量n为句子的单词个数,d为向量维度。实体关系依赖实体类别、位置顺序等先验知识,在句子中的体现就是词与词之间的关联程度,因此在隐藏层后面设计了基于注意力机制的实体信息编码层,通过模拟词向量的重要程度、之间的相关性实现实体信息的隐编码,并加入平均池化操作获取整句的实体嵌入特征AttNet表示使用自注意机制获取隐藏层向量间的嵌入信息。将生成的实体嵌入向量/>与原始句子嵌入/>进行拼接,并通过神经网络进行分类从而获取整个句子的关系表示/> 其中σ是sigmod激活函数,设定阈值ε,当/>时判定该句子包含关系ri
实体抽取,将实体关系抽取阶段获取的关系转换为one-hot向量并使用多层感知机对其进行重参数化,从而获得关系提示信息的连续表示Pr。将模型的关系提示信息Pr与词向量/>通过一个Transformer网络模块进行融合,通过将Pr与网络中的K、V向量进行拼接从而改变注意力的计算结果Kp、Vp,训练过程中同步更新提示参数Pr和注意力权重矩阵。继而使用条件随机场识别出实体,得到每个词在实体分类阶段的输出Yn,即为当前输入包含的token是某类实体的概率。
步骤S24,构建内容风控知识库。
本实施例采用RDF存储***,将内容风控知识作为图数据进行存储,使用关系型数据库作为底层存储方案。
本实施例自动进行数据清洗、结构化抽取和知识挖掘,最终构建内容风控知识库,包括底层的内容风控领域术语库,以及术语之间的关系知识,可以为媒体内容风控提供支撑服务。
实施例三
图5示出了根据本申请实施三提供的一种内容风控知识库构建装置的结构示意图。如图5所示,该装置包括:建模模块31、知识抽取模块32和知识库构建模块33;其中,
建模模块31用于根据预设语料数据对内容风控领域本体进行建模;其中,所述建模包括本体概念建模和本体关系建模;
知识抽取模块32用于根据所述建模后的本体概念和本体关系进行内容风控知识抽取;其中,所述内容风控知识抽取包括实体关系抽取和实体抽取;
知识库构建模块33用于根据抽取的实体关系和实体构建内容风控知识库。
进一步的,所述建模模块31具体用于:根据预设语料数据获取内容风控领域本体术语;计算所述内容风控领域本体术语的词嵌入特征,并对所述词嵌入特征进行多级聚类;根据内容风控的特点和媒体内容5W要素,将内容风控领域本体概念建模为人物、机构、事件和领域特征词表。
进一步的,所述建模模块31具体用于:当内容风控领域本体术语间的关系为层次关系时,采用专家预设的模板、基于语言规则和聚类方法多策略方式抽取;当内容风控领域本体术语间的关系为非层次关系时,采用自然语言处理技术对语料数据进行分析,识别每个句子中的核心动词,结合上下文寻找与所述核心动词紧邻的术语,构建两个术语之间的关系。
进一步的,所述知识抽取模块32具体用于:给定一个句子,将所述句子送入编码器获得对应的词向量;通过模拟所述词向量的重要程度及之间的相关性实现实体信息的隐编码,并加入平均池化操作获取句子的实体嵌入特征;将所述实体嵌入向量与所述词向量进行拼接,并通过神经网络进行分类从而获取整个句子的实体关系表示。
进一步的,所述知识抽取模块32具体用于:根据所述实体关系表示获得关系提示信息的连续表示;将所述连续表示与所述词向量进行融合,使用条件随机场识别出实体,得到每个词在实体分类阶段的输出。
进一步的,所述层次关系包括人物与机构的关系、或人物与人物之间的关系;其中,人物与机构的关系为组建/成立、任职、参观/走访,人物与人物之间的关系为亲属、同事/上下级。
进一步的,所述知识库构建模块33具体用于:采用资源框架RDF存储***,将内容风控知识作为图数据进行存储,使用关系型数据库作为底层存储。
本实施例所述的内容风控知识库构建装置用于执行上述实施例一至实施例二所述的内容风控知识库构建方法,其工作原理与技术效果类似,这里不再赘述。
实施例四
本申请实施例四提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的内容风控知识库构建方法。
实施例五
图6示出了根据本申请实施例五提供的一种电子设备的结构示意图。本申请具体实施例并不对电子设备的具体实现做限定。
如图6所示,该电子设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。处理器402,用于执行程序410,具体可以执行上述方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行上述任意方法实施例中的内容风控知识库构建方法。
在此提供的算法或显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本申请实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (8)

1.一种内容风控知识库构建方法,其特征在于,包括:
根据预设语料数据对内容风控领域本体进行建模;其中,所述建模包括本体概念建模和本体关系建模;
根据所述建模后的本体概念和本体关系进行内容风控知识抽取;其中,所述内容风控知识抽取包括实体关系抽取和实体抽取;
根据抽取的实体关系和实体构建内容风控知识库;
其中,所述实体关系抽取,包括:
在隐藏层后面设计基于注意力机制的实体信息编码层,通过模拟词向量的重要程度、之间的相关性实现实体信息的隐编码,并加入平均池化操作获取整句的实体嵌入其中,AttNet表示使用自注意机制获取隐藏层向量间的嵌入信息;其中,给定一个句子记为Sn,首先将Sn送入RoBERTa编码器获得对应的原始句子嵌入/> n为句子的单词个数,d为向量维度;
将生成的实体嵌入与原始句子嵌入/>进行拼接,并通过神经网络进行分类从而获取整个句子的关系表示/>其中σ是sigmod激活函数,设定阈值ε,当/>时判定该句子包含关系ri
其中,所述实体抽取,包括:
将实体关系抽取阶段获取的关系转换为one-hot向量并使用多层感知机对其进行重参数化,获得关系提示信息的连续表示Pr
将Pr通过一个Transformer网络模块进行融合,通过将Pr与网络中的K、V向量进行拼接从而改变注意力的计算结果Kp、Vp,训练过程中同步更新Pr和注意力权重矩阵;
使用条件随机场识别出实体,得到每个词在实体分类阶段的输出Yn,即为当前输入包含的token是某类实体的概率。
2.根据权利要求1所述的方法,其特征在于,所述本体概念建模,包括:
根据预设语料数据获取内容风控领域本体术语;
计算所述内容风控领域本体术语的词嵌入特征,并对所述词嵌入特征进行多级聚类;
根据内容风控的特点和媒体内容5W要素,将内容风控领域本体概念建模为人物、机构、事件和领域特征词表。
3.根据权利要求1所述的方法,其特征在于,所述本体关系建模,包括:
当内容风控领域本体术语间的关系为层次关系时,采用专家预设的模板、基于语言规则和聚类方法多策略方式抽取;
当内容风控领域本体术语间的关系为非层次关系时,采用自然语言处理技术对语料数据进行分析,识别每个句子中的核心动词,结合上下文寻找与所述核心动词紧邻的术语,构建两个术语之间的关系。
4.根据权利要求3所述的方法,其特征在于,所述层次关系包括人物与机构的关系、或人物与人物之间的关系;其中,人物与机构的关系为组建/成立、任职、参观/走访,人物与人物之间的关系为亲属、同事/上下级。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据抽取的实体关系和实体构建内容风控知识库,包括:
采用资源框架RDF存储***,将内容风控知识作为图数据进行存储,使用关系型数据库作为底层存储。
6.一种内容风控知识库构建装置,其特征在于,包括:
建模模块,用于根据预设语料数据对内容风控领域本体进行建模;其中,所述建模包括本体概念建模和本体关系建模;
知识抽取模块,用于根据所述建模后的本体概念和本体关系进行内容风控知识抽取;其中,所述内容风控知识抽取包括实体关系抽取和实体抽取;
知识库构建模块,用于根据抽取的实体关系和实体构建内容风控知识库;
其中,所述知识抽取模块具体用于:在隐藏层后面设计基于注意力机制的实体信息编码层,通过模拟词向量的重要程度、之间的相关性实现实体信息的隐编码,并加入平均池化操作获取整句的实体嵌入 其中,AttNet表示使用自注意机制获取隐藏层向量间的嵌入信息;其中,给定一个句子记为Sn,首先将Sn送入RoBERTa编码器获得对应的原始句子嵌入/>n为句子的单词个数,d为向量维度;将生成的实体嵌入/>与原始句子嵌入/>进行拼接,并通过神经网络进行分类从而获取整个句子的关系表示/> 其中σ是sigmod激活函数,设定阈值ε,当/>时判定该句子包含关系ri;以及,
将实体关系抽取阶段获取的关系转换为one-hot向量并使用多层感知机对其进行重参数化,获得关系提示信息的连续表示Pr
将Pr通过一个Transformer网络模块进行融合,通过将Pr与网络中的K、V向量进行拼接从而改变注意力的计算结果Kp、Vp,训练过程中同步更新Pr和注意力权重矩阵;
使用条件随机场识别出实体,得到每个词在实体分类阶段的输出Yn,即为当前输入包含的token是某类实体的概率。
7.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-5中任一项所述的内容风控知识库构建方法对应的操作。
8.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-5中任一项所述的内容风控知识库构建方法对应的操作。
CN202310094574.9A 2023-01-17 2023-01-17 内容风控知识库构建方法、装置、设备及存储介质 Active CN116069948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310094574.9A CN116069948B (zh) 2023-01-17 2023-01-17 内容风控知识库构建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310094574.9A CN116069948B (zh) 2023-01-17 2023-01-17 内容风控知识库构建方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116069948A CN116069948A (zh) 2023-05-05
CN116069948B true CN116069948B (zh) 2024-01-09

Family

ID=86179869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310094574.9A Active CN116069948B (zh) 2023-01-17 2023-01-17 内容风控知识库构建方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116069948B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968700A (zh) * 2019-11-01 2020-04-07 数地科技(北京)有限公司 一种融合多类事理与实体知识的领域事件图谱构建方法和装置
CN111832307A (zh) * 2020-07-09 2020-10-27 北京工业大学 一种基于知识增强的实体关系抽取方法及***
CN111930856A (zh) * 2020-07-06 2020-11-13 北京邮电大学 领域知识图谱本体和数据的构建方法、装置和***
CN112559766A (zh) * 2020-12-08 2021-03-26 杭州互仲网络科技有限公司 一种法律知识图谱构建***
CN114064918A (zh) * 2021-11-06 2022-02-18 中国电子科技集团公司第五十四研究所 一种多模态事件知识图谱构建方法
CN114661856A (zh) * 2020-12-23 2022-06-24 沈阳新松机器人自动化股份有限公司 一种融合图谱构建方法
CN114780745A (zh) * 2022-04-20 2022-07-22 北京明略昭辉科技有限公司 用于构建知识体系的方法及装置、电子设备、存储介质
CN115292506A (zh) * 2022-06-24 2022-11-04 北京百度网讯科技有限公司 应用于办公领域的知识图谱本体构建方法和装置
CN115309915A (zh) * 2022-09-29 2022-11-08 北京如炬科技有限公司 知识图谱构建方法、装置、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968700A (zh) * 2019-11-01 2020-04-07 数地科技(北京)有限公司 一种融合多类事理与实体知识的领域事件图谱构建方法和装置
CN111930856A (zh) * 2020-07-06 2020-11-13 北京邮电大学 领域知识图谱本体和数据的构建方法、装置和***
CN111832307A (zh) * 2020-07-09 2020-10-27 北京工业大学 一种基于知识增强的实体关系抽取方法及***
CN112559766A (zh) * 2020-12-08 2021-03-26 杭州互仲网络科技有限公司 一种法律知识图谱构建***
CN114661856A (zh) * 2020-12-23 2022-06-24 沈阳新松机器人自动化股份有限公司 一种融合图谱构建方法
CN114064918A (zh) * 2021-11-06 2022-02-18 中国电子科技集团公司第五十四研究所 一种多模态事件知识图谱构建方法
CN114780745A (zh) * 2022-04-20 2022-07-22 北京明略昭辉科技有限公司 用于构建知识体系的方法及装置、电子设备、存储介质
CN115292506A (zh) * 2022-06-24 2022-11-04 北京百度网讯科技有限公司 应用于办公领域的知识图谱本体构建方法和装置
CN115309915A (zh) * 2022-09-29 2022-11-08 北京如炬科技有限公司 知识图谱构建方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN116069948A (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
US9613024B1 (en) System and methods for creating datasets representing words and objects
KR101339103B1 (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
US9965726B1 (en) Adding to a knowledge base using an ontological analysis of unstructured text
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
JP6676110B2 (ja) 発話文生成装置とその方法とプログラム
JP2009521029A (ja) 非構造的データから多言語電子コンテンツを自動的に生成する方法およびシステム
MXPA04010820A (es) Sistema para identificar parafrasis utilizando tecnicas de traduccion de maquina.
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
Kavitha et al. Chatbot for healthcare system using Artificial Intelligence
CN115098706A (zh) 一种网络信息提取方法及装置
Qudar et al. A survey on language models
Palagin et al. Distributional semantic modeling: A revised technique to train term/word vector space models applying the ontology-related approach
Vaissnave et al. Modeling of automated glowworm swarm optimization based deep learning model for legal text summarization
CN112800244A (zh) 一种中医药及民族医药知识图谱的构建方法
Alruily Using text mining to identify crime patterns from arabic crime news report corpus
Rao et al. Enhancing multi-document summarization using concepts
Phan et al. Applying skip-gram word estimation and SVM-based classification for opinion mining Vietnamese food places text reviews
CN115714002B (zh) 抑郁风险检测模型训练方法、抑郁症状预警方法及相关设备
CN116069948B (zh) 内容风控知识库构建方法、装置、设备及存储介质
Lee Natural Language Processing: A Textbook with Python Implementation
Klang et al. Linking, searching, and visualizing entities in wikipedia
Ramasubramanian et al. ES2Vec: Earth science metadata keyword assignment using domain-specific word embeddings
Park et al. Towards ontologies on demand
Varga et al. LELA-A natural language processing system for Romanian tourism
Ledeneva et al. Recent advances in computational linguistics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant