CN113407645B

CN113407645B - 一种基于知识图谱的声像档案智能编研方法

Info

Publication number: CN113407645B
Application number: CN202110533208.XA
Authority: CN
Inventors: 邱杰峰; 李喆; 袁雯; 程莉红; 施千里; 陈莹
Original assignee: CNNC Fujian Nuclear Power Co Ltd
Current assignee: CNNC Fujian Nuclear Power Co Ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2024-06-11
Anticipated expiration: 2041-05-19
Also published as: CN113407645A

Abstract

本发明涉及电子档案库架构技术领域，公开了一种基于知识图谱的声像档案智能编研方法，实现方法包括以下步骤：将声像***档案中的结构化数据抽取为三元组，以构建知识图谱，再接收用户选题信息，接着对对于用户选题信息缺失的实体，使用声像档案智能编研模型自动生成编研目标标签，并存入知识图谱数据库中，再从知识图谱中检索相关声像数据进行编研。本发明根据编研目标自动提取音频和图片中的相关特征，使得声像实体在不同编研目标下有不同嵌入向量表示，然后根据嵌入向量之间的关系自动生成档案中缺失的编研目标标签数据从而完成更加有效地档案编研，从而解决传统声像档案编研方法无法为声像文件自动生成编研目标标签的问题。

Description

一种基于知识图谱的声像档案智能编研方法

技术领域

本发明涉及电子档案库架构技术领域，具体是一种基于知识图谱的声像档案智能编研方法。

背景技术

传统声像档案编研方法由于其存储方式的限制，无法对档案进行更加细粒度的有效利用，在进行档案编研时候，需要人工进行标签的添加来实现相关数据的有效关联，这个过程耗费人力，且标签需要统一的规范和标准。

由于档案上传人员的素质差异，以及工作责任心的问题，往往会造成声像档案文件缺失某些重要标签，从而增加了后期的编研难度，且工作效率低，容易出现错误。

发明内容

本发明的目的在于提供一种基于知识图谱的声像档案智能编研方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于知识图谱的声像档案智能编研方法，实现方法包括以下步骤：

S1、将声像***档案中的结构化数据抽取为三元组以构建知识图谱；

S2、提取声像档案知识图谱中每种关系的邻接矩阵A_r；

S3、为每一种关系建立一个细胞，即一个隐藏层，每个细胞都维护了一个卷积核和一个权重矩阵w；

S4、使用卷积核自动提取不同关系的编研目标的声像实体的关联特征；

S5、根据用户所选择编研目标选择对应的训练集，如在选择人物关系作为编研目标时，训练集则为所有人物关系三元组中的尾实体的标注数据；

S6、根据模型自动生成的标签字段；对档案进行更加有效地编研。

作为本发明再进一步的方案：所述步骤S4中在进行不同关系的编研时，需要自动捕获声像实体中的关联特征，因此对于音频实体和图像实体分别采用对应大小的卷积核提取特征，经过池化和激活层后得到实体的特征向量，然后将该关系下存在所有声像实体的特征表示为特征矩阵H_r。

作为本发明再进一步的方案：所述步骤S2中每种关系的邻接矩阵A_r的邻接矩阵集为再把邻接矩阵集/>作为声像档案智能编研模型的输入，其中n为知识图谱中关系的数量。

作为本发明再进一步的方案：所述步骤S5中训练集在模型训练过程中，每个关系对应的细胞都计算了一个关系状态矩阵R_n，其公式为：

其中R_n表示第n种关系的状态矩阵，B为每个细胞的偏置矩阵，所有***共享权重矩阵W，σ为激活函数，因此每一层根据关系自动提取的声像实体特征都会受到之前关系序列的影响。

作为本发明再进一步的方案：所述步骤S5中训练集的模型训练需要在输出上加上一个softmax层来根据训练的声像实体特征进行多分类，进而得到缺失的标签字段，则输出的结果为：

y_n＝softmax(W^(S)R_n)

其中W^(S)为softmax层的权重。

与现有技术相比，本发明的有益效果：

本发明将传统的结构化声像档案***重新为知识图谱的形式，并且提出了基于知识图谱的声像档案智能编研方法，该方法可以根据编研目标自动提取音频和图片中的相关特征，使得声像实体在不同编研目标下有不同嵌入向量表示，然后根据嵌入向量之间的关系自动生成档案中缺失的编研目标标签数据从而完成更加有效地档案编研，从而解决传统声像档案编研方法无法为声像文件自动生成编研目标标签的问题，且大大提高了工作效率，准确率高。

附图说明

图1为一种基于知识图谱的声像档案智能编研方法的流程示意图。

具体实施方式

请参阅图1，本发明实施例中，一种基于知识图谱的声像档案智能编研方法，实现方法包括以下步骤：

S2、提取声像档案知识图谱中每种关系的邻接矩阵A_r；

优先的，步骤S4中在进行不同关系的编研时，需要自动捕获声像实体中的关联特征，因此对于音频实体和图像实体分别采用对应大小的卷积核提取特征，经过池化和激活层后得到实体的特征向量，然后将该关系下存在所有声像实体的特征表示为特征矩阵H_r。

优先的，步骤S2中每种关系的邻接矩阵A_r的邻接矩阵集为再把邻接矩阵集/>作为声像档案智能编研模型的输入，其中n为知识图谱中关系的数量。

优先的，步骤S5中训练集在模型训练过程中，每个关系对应的细胞都计算了一个关系状态矩阵R_n，其公式为：

优先的，步骤S5中训练集的模型训练需要在输出上加上一个softmax层来根据训练的声像实体特征进行多分类，进而得到缺失的标签字段，则输出的结果为：

y_n＝softmax(W^(S)R_n)

其中W^(S)为softmax层的权重。

以上所述的，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于知识图谱的声像档案智能编研方法，其特征在于，实现方法包括以下步骤：

S2、提取声像档案知识图谱中每种关系的邻接矩阵A_r；

S5、根据用户所选择编研目标选择对应的训练集；所述编研目标为人物关系，所述训练集为所有人物关系三元组中的尾实体的标注数据；

S6、根据模型自动生成的标签字段；对档案进行更加有效地编研；

所述步骤S2中每种关系的邻接矩阵A_r的邻接矩阵集为{A_r ⁽¹⁾，A_r ⁽²⁾...A_r ⁽ⁿ⁾}，再把邻接矩阵集{A_r ⁽¹⁾，A_r ⁽²⁾...A_r ⁽ⁿ⁾}作为声像档案智能编研模型的输入，其中n为知识图谱中关系的数量；

所述步骤S4中在进行不同关系的编研时，需要自动捕获声像实体中的关联特征，因此对于音频实体和图像实体分别采用对应大小的卷积核提取特征，经过池化和激活层后得到实体的特征向量，然后将该关系下存在所有声像实体的特征表示为特征矩阵H_r；

所述步骤S5中训练集在模型训练过程中，每个关系对应的细胞都计算了一个关系状态矩阵R_n，其公式为：

其中R_n表示第n种关系的状态矩阵，B为每个细胞的偏置矩阵，所有***共享权重矩阵W，σ为激活函数，因此每一层根据关系自动提取的声像实体特征都会受到之前关系序列的影响；

所述步骤S5中训练集的模型训练需要在输出上加上一个softmax层来根据训练的声像实体特征进行多分类，进而得到缺失的标签字段，则输出的结果为：

y_n＝softmax(W^(S)R_n)

其中W^(S)为softmax层的权重。