CN113821681A

CN113821681A - 视频标签生成方法、装置及设备

Info

Publication number: CN113821681A
Application number: CN202111091260.0A
Authority: CN
Inventors: 曹军伟; 徐高峰
Original assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Current assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2021-12-21
Anticipated expiration: 2041-09-17
Also published as: CN113821681B

Abstract

一种视频标签生成方法、装置及设备，通过以预设频率从视频中获取图片，并将获取到的每一张图片分别输入预先训练好的安全事件识别模型中，判断各图片是否包含预设安全事件标识信息；对包含预设安全事件标识信息的每张图片分别进行图像识别，得到用于描述图片的结构化文本信息，并将图片及其对应的结构化文本信息关联存储于视图库中；对于视图库的每张图片，通过NLP识别算法，从该图片的结构化文本信息中提取安全事件关键信息，生成该图片的视频标签，安全事件关键信息包括：安全事件发生时间、安全事件发生地点和安全事件内容，无需通过大量的人力去回放大量的监控视频和生成视频标签，从而提高了视频标签的生成效率。

Description

视频标签生成方法、装置及设备

技术领域

本发明涉及安防视频监控技术领域，具体涉及一种视频标签生成方法、装置及设备。

背景技术

随着人工智能的发展，人工智能技术被应用到了安防视频监控的各种业务，例如事后回放、事中实时响应和事前预警等业务。而视频标签作为一种视频索引的方式，即在事后回放时对特定时间的视频内容进行摘要记录方便后续检索调取，其大大提高了对监控视频进行精准访问的效率。

目前，可以通过人工回放监控视频的方式，在事后对特定时间的监控视频进行事件识别后，手动进行视频标签的生成录入。但是，这种方式依赖人力去回放监控视频和生成视频标签，导致视频标签的生成效率较低。

发明内容

本发明实施例提供一种视频标签生成方法、装置及设备，用以提高视频标签的生成效率。

根据第一方面，一种实施例中提供一种视频标签生成方法，所述方法包括：

以预设频率从视频中获取图片，并将获取到的每一张图片分别输入预先训练好的安全事件识别模型中，判断各图片是否包含预设安全事件标识信息，其中，所述安全事件识别模型基于标注了是否包含预设安全事件标识信息的样本图片训练得到；

对包含预设安全事件标识信息的每张图片分别进行图像识别，得到用于描述图片的结构化文本信息，并将图片及其对应的结构化文本信息关联存储于视图库中；

对于所述视图库的每张图片，通过自然语言处理NLP识别算法，从该图片的结构化文本信息中提取安全事件关键信息，生成该图片的视频标签，所述安全事件关键信息包括：安全事件发生时间、安全事件发生地点和安全事件内容。

可选的，所述方法还包括：

获取用户的目标检索文本信息；

分别计算所述目标检索文本信息与所述视图库中各图片的结构化文本信息的第一匹配度；

将所述第一匹配度大于等于第一预设阈值的所述视图库中的图片确定为目标图片；

根据所述目标图片，确定安全事件。

可选的，所述视频标签包括图片在所述视频中的录像时间，所述方法还包括：

若各所述第一匹配度均小于所述第一预设阈值，则分别计算所述目标检索文本信息与所述视图库中各图片的视频标签的第二匹配度；

将所述第二匹配度大于第二预设阈值的视频标签所包括的录像时间确定为目标录像时间；

根据所述目标录像时间，确定需要回放的视频片段；

根据所述需要回放的视频片段，确定安全事件。

可选的，所述获取用户的目标检索文本信息，包括：

获取用户输入的原始检索信息；

通过所述NLP识别算法，从所述原始检索信息中提取检索条件关键信息，生成目标检索文本信息。

可选的，所述方法还包括：

通过预设显示方式，在所述视频上显示生成的所述视频标签。

可选的，所述方法还包括：

对所述视图库中各图片的视频标签进行验证，对存在错误的所述视频标签进行修改，得到修改后的视频标签。

根据第二方面，一种实施例中提供一种视频标签生成装置，所述装置包括：

判断模块，用于以预设频率从视频中获取图片，并将获取到的每一张图片分别输入预先训练好的安全事件识别模型中，判断各图片是否包含预设安全事件标识信息，其中，所述安全事件识别模型基于标注了是否包含预设安全事件标识信息的样本图片训练得到；

获取模块，用于对包含预设安全事件标识信息的每张图片分别进行图像识别，得到用于描述图片的结构化文本信息，并将图片及其对应的结构化文本信息关联存储于视图库中；

生成模块，用于对于所述视图库的每张图片，通过自然语言处理NLP识别算法，从该图片的结构化文本信息中提取安全事件关键信息，生成该图片的视频标签，所述安全事件关键信息包括：安全事件发生时间、安全事件发生地点和安全事件内容。

可选的，所述装置还包括：确定模块，用于获取用户的目标检索文本信息；分别计算所述目标检索文本信息与所述视图库中各图片的结构化文本信息的第一匹配度；将所述第一匹配度大于等于第一预设阈值的所述视图库中的图片确定为目标图片；根据所述目标图片，确定安全事件。

可选的，所述视频标签包括图片在所述视频中的录像时间，所述确定模块，还用于若各所述第一匹配度均小于所述第一预设阈值，则分别计算所述目标检索文本信息与所述视图库中各图片的视频标签的第二匹配度；将所述第二匹配度大于第二预设阈值的视频标签所包括的录像时间确定为目标录像时间；根据所述目标录像时间，确定需要回放的视频片段；根据所述需要回放的视频片段，确定安全事件。

可选的，所述确定模块，具体用于获取用户输入的原始检索信息；通过所述NLP识别算法，从所述原始检索信息中提取检索条件关键信息，生成目标检索文本信息。

可选的，所述装置还包括：显示模块，用于通过预设显示方式，在所述视频上显示生成的所述视频标签。

可选的，所述装置还包括：修正模块，用于对所述视图库中各图片的视频标签进行验证，对存在错误的所述视频标签进行修改，得到修改后的视频标签。

根据第三方面，一种实施例中提供一种电子设备，包括：存储器，用于存储程序；处理器，用于通过执行所述存储器存储的程序以实现上述第一方面中任一项所述的视频标签生成方法。

根据第四方面，一种实施例中提供一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器执行以实现上述第一方面中任一项所述的视频标签生成方法。

本发明实施例提供一种视频标签生成方法、装置及设备，通过以预设频率从视频中获取图片，并将获取到的每一张图片分别输入预先训练好的安全事件识别模型中，判断各图片是否包含预设安全事件标识信息，其中，安全事件识别模型基于标注了是否包含预设安全事件标识信息的样本图片训练得到；对包含预设安全事件标识信息的每张图片分别进行图像识别，得到用于描述图片的结构化文本信息，并将图片及其对应的结构化文本信息关联存储于视图库中；对于视图库的每张图片，通过自然语言处理NLP识别算法，从该图片的结构化文本信息中提取安全事件关键信息，生成该图片的视频标签，安全事件关键信息包括：安全事件发生时间、安全事件发生地点和安全事件内容，无需通过大量的人力去回放大量的监控视频和生成视频标签，节约了生成视频标签的人力投入成本，以及，节约了视频标签的生成时间，从而提高了视频标签的生成效率。

附图说明

图1为本发明实施例提供的一种视频标签生成方法的实施例一的流程示意图；

图2为NLP技术的流程示意图；

图3为本发明实施例提供的一种视频标签生成方法的实施例二的流程示意图；

图4为本发明实施例提供的一种视频标签生成方法的实施例三的流程示意图；

图5为本发明实施例提供的一种视频标签生成方法的实施例四的流程示意图；

图6为本发明实施例提供的一种视频标签生成装置的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

现有技术中，可以通过人工回放监控视频的方式，在事后对特定时间的监控视频进行事件识别后，手动进行视频标签的生成录入。但是，这种方式依赖人力去回放监控视频和生成视频标签，导致视频标签的生成效率较低。为了提高视频标签的生成效率，本发明实施例提供了一种视频标签生成方法、装置及设备，以下分别进行详细说明。

图1为本发明实施例提供的一种视频标签生成方法的实施例一的流程示意图，本发明实施例的执行主体为任意具有处理能力的设备。如图1所示，本实施例提供的视频标签生成方法可以包括：

S101，以预设频率从视频中获取图片。

具体的，可以通过抽帧技术以预设频率从视频中获取图片。例如，可以每隔1分钟截取一张图片，也可以每隔5分钟截取一张图片，具体的截取频率可以根据实际需求进行设定。

S102，将获取到的每一张图片分别输入预先训练好的安全事件识别模型中，判断各图片是否包含预设安全事件标识信息。

若包含，则执行S103；若不包含，则执行S106。

其中，上述安全事件识别模型可以是基于标注了是否包含预设安全事件标识信息的多张样本图片训练得到的。具体的模型训练过程可以参考通用的模型训练方式，在此不做限定。

上述预设安全事件标识信息例如可以包括：司机未系安全带、司机打电话、未贴车辆年检标、行人闯红灯等信息。可选的，该安全事件识别模型可以输出图片是否包含预设安全事件标识信息的结果信息，该安全事件识别模型也可以输出图片对应的安全事件的类别信息，在本发明实施例中不对安全事件识别模型的输出做具体的限定，只要可以确定输入的图片是否包含预设安全事件标识信息即可。

S103，对包含预设安全事件标识信息的每张图片分别进行图像识别，得到用于描述图片的结构化文本信息。

具体实现时，可以通过现有的图像识别算法对每一张包含预设安全事件标识信息的图片进行识别，得到每一张图片的结构化文本信息。例如，安防监控中关注的视频信息主要是：人员、车辆和行为。针对人员，可以对图片所包括人员的面部特征信息、性别、年龄、衣着、运动方向、是否戴帽子、是否戴眼镜、是否背包、是否拎包、是否打伞、是否骑车等信息进行结构化描述，从而得到图片所包括人员的结构化文本信息；针对车辆，可以对图片所包括车辆的车牌号、车型、车牌颜色、车辆品牌、车辆类型、车身颜色、遮阳板、是否系安全带、是否打电话、是否具有车辆年检标、是否存在摆件挂件、司机的人脸等信息进行结构化描述，从而得到图片所包括车辆的结构化文本信息；针对行为，可以对图片所包括的人员行为(越界、徘徊、逗留、聚集等行为)和车辆行为(逗留、压线、闯红灯、礼让行人等行为)进行结构化描述，从而得到图片所包括行为的结构化文本信息。可选的，结构化文本信息还可以包括图片中其他内容的描述信息，例如可以包括图片中是否包含红绿灯，是否包含人行道、是否包含大树等描述信息。

S104，将图片及其对应的结构化文本信息关联存储于视图库中。

将包含预设安全事件标识信息的每张图片及其通过S103得到的每张图片对应的结构化文本信息关联后一同存储于视图库中，便于后续的检索查找。并且，由于视图库所存储的数据量远远小于视频的存储量，因此通过这样的方式可以节省存储空间。

S105，对于视图库的每张图片，通过NLP识别算法，从该图片的结构化文本信息中提取安全事件关键信息，生成该图片的视频标签。

其中，上述安全事件关键信息可以包括：安全事件发生时间、安全事件发生地点和安全事件内容。当得到安全事件发生时间、安全事件发生地点和安全事件内容后，可以生成包括安全事件发生时间、安全事件发生地点和安全事件内容的一句话(视频标签)，从而便于后续的分析。

可选的，可以将包含预设安全事件标识信息的每张图片及其通过S105得到的每张图片对应的视频标签关联存储于视频标签库中，便于后续的检索查找。

S106，丢弃不包含预设安全事件标识信息的图片。

本发明实施例提供的视频标签生成方法，通过以预设频率从视频中获取图片，并将获取到的每一张图片分别输入预先训练好的安全事件识别模型中，判断各图片是否包含预设安全事件标识信息，其中，安全事件识别模型基于标注了是否包含预设安全事件标识信息的样本图片训练得到；对包含预设安全事件标识信息的每张图片分别进行图像识别，得到用于描述图片的结构化文本信息，并将图片及其对应的结构化文本信息关联存储于视图库中；对于视图库的每张图片，通过自然语言处理NLP识别算法，从该图片的结构化文本信息中提取安全事件关键信息，生成该图片的视频标签，安全事件关键信息包括：安全事件发生时间、安全事件发生地点和安全事件内容，无需通过大量的人力去回放大量的监控视频和生成视频标签，节约了生成视频标签的人力投入成本，以及，节约了视频标签的生成时间，从而提高了视频标签的生成效率。

具体的，上述自然语言处理(Natural Language Processing，NLP)技术主要用于研究人与计算机交互的语言问题。图2为NLP技术的流程示意图，如图2所示：

S201，获取语料。

语料是NLP任务研究的内容，通常用一个文本集作为语料库，语料可以通过已有数据、公开数据集、爬虫抓取等方式获取。

S202，数据预处理。

具体实现时，语料预处理可以包括以下步骤：

步骤a：语料清洗：保留有用的数据，并删除噪音数据。常见的清洗方式有：人工去重、对齐、删除、标注等；或者也可以通过预设规则提取内容、通过正则表达式进行匹配、根据词性和命名实体进行提取、编写脚本或者代码批处理等方法。

步骤b：分词：将文本分成词语。比如，可以通过基于字符串匹配的、基于理解的、基于规则的和基于统计的分词方法进行分词。

步骤c：词性标注：给词语标上词类标签。比如名词、动词、形容词等。常用的词性标注方法有基于规则的、基于统计的算法，比如：基于最大熵的词性标注、基于统计最大概率输出词性、基于隐马尔科夫模型(Hidden Markov Model，HMM)的词性标注等。

步骤d：去停用词。即，去掉对文本特征没有任何贡献作用的字词，比如：可以去掉标点符号、语气等。

S203，特征工程。

这一步主要是为了将分词表示成计算机识别的计算类型，一般为向量。常用的表示模型有词袋模型，比如用于信息检索与数据挖掘的常用加权技术(Term Frequency–Inverse Document Frequency，TF-IDF)；表示模型也可以为词向量，比如one-hot(一位有效编码)算法、word2vec(一种用来产生词向量的相关模型)算法等。

S204，特征选择。

特征选择主要是基于S203得到的特征工程而得到的特征，具体的，是为了选择合适的、表达能力强的特征，常见的特征选择方法有：自由度(Degree of Freedom，DF)、互信息(Mutual Information，MI)、信息增益(Information Gain，IG)、加权频率和可能性(Weighted Frequency and Odds，WFO)等。

S205，模型训练。

当选择好特征后，需要进行模型选择。即，选择什么样的模型进行训练，常用的机器学习模型有最邻近分类算法(K-Nearest Neighbor，KNN)、支持向量机(Support VectorMachine，SVM)、Naive Bayes(朴素贝叶斯)、决策树、K-means(K均值聚类算法)等；常用的深度学习模型有循环神经网络(Recurrent Neural Network，RNN)、卷积神经网络(Convolutional Neural Networks，CNN)、长短期记忆网络(Long Short-Term Memory，LSTM)、Seq2Seq(输出的长度不确定时采用的一种模型)、FastText(快速文本分类器)、TextCNN(一种对文本浅层特征的抽取能力很强的模型)等。

在选择好模型之后的模型训练过程中，需要避免过拟合和欠拟合现象的出现。其中，过拟合：模型学习能力太强，以至于把噪声数据的特征也进行了学习，导致模型泛化能力下降，在训练集上表现很好，但是在测试集上表现很差。常见的解决方法有：增大数据的训练量；增加正则化项，如L1正则和L2正则；人工筛选特征和使用特征选择算法；采用Dropout方法(丢弃法)等。欠拟合：模型不能够很好地拟合数据，表现在模型过于简单。常见的解决方法有：添加其他特征项；增加模型复杂度，比如神经网络加更多的层、线性模型通过添加多项式使模型泛化能力更强；减少正则化参数，正则化的目的是用来防止过拟合的，但是现在模型出现了欠拟合，则需要减少正则化参数。同时，对于神经网络，还需要注意梯度消失和梯度***问题。

S206，模型评估。

模型的评价指标主要有：错误率、精准度、准确率、召回率、F1值、接受者操作特性曲线(Receiver Operating Characteristic curve，ROC)、ROC曲线下的面积(Area UnderCurve，AUC)等。

S207，模型上线应用。

模型的投产上线方式主要有两种：一种是线下训练模型，然后将模型进行线上部署提供服务；另一种是在线训练模型，在线训练完成后将模型持久化。

具体实现时，NLP技术的研究方向大致可以分为以下几种：

(1)信息抽取：从给定文本中抽取重要的信息，比如时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等。通俗来说，就是要了解谁在什么时候、什么原因、对谁、做了什么事以及有什么结果。

(2)文本生成：机器像人一样使用自然语言进行表达和写作。依据输入的不同，文本生成技术主要包括数据到文本生成和文本到文本生成。数据到文本生成是指将包含键值对的数据转化为自然语言文本；文本到文本生成是指对输入文本进行转化和处理从而产生新的文本。

(3)问答***：对一个自然语言表达的问题，由问答***给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析，包括实体链接、关系识别，形成逻辑表达式，然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。

(4)对话***：***通过一系列的对话，跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外，为了体现上下文相关，要具备多轮对话能力。

(5)文本挖掘：包括文本聚类、分类、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。

(6)语音识别和生成：语音识别是将输入计算机的语音符号识别转换成书面语表示；语音生成又称文语转换、语音合成，它是指将书面文本自动转换成对应的语音表征。

(7)信息过滤：通过计算机***自动识别和过滤符合特定条件的文档信息。通常指对网络有害信息的自动识别和过滤，主要用于信息安全和防护，网络内容管理等。

(8)舆情分析：收集和处理海量信息，自动化地对网络舆情进行分析，以实现及时应对网络舆情的目的。

(9)信息检索：对大规模的文档进行索引。可简单对文档中的词汇，赋之以不同的权重来建立索引，也可建立更加深层的索引。在查询的时候，对输入的查询表达式比如一个检索词或者一个句子进行分析，然后在索引里面查找匹配的候选文档，再根据一个排序机制把候选文档排序，最后输出排序得分最高的文档。

(10)机器翻译：把输入的源语言文本通过自动翻译获得另外一种语言的文本。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法，再到今天的基于神经网络(编码-解码)的方法，逐渐形成了一套比较严谨的方法体系。

作为一种可以实现的方式，在上述实施例一的基础上，上述视频标签生成方法还可以包括：通过预设显示方式，在视频上显示生成的视频标签。举例说明，可以在视频的某个时刻标识一个红点，触碰红点后显示该时刻对应的视频标签。

作为一种可以实现的方式，在上述实施例一的基础上，上述视频标签生成方法还可以包括：对视图库中各图片的视频标签进行验证，对存在错误的视频标签进行修改，得到修改后的视频标签。

图3为本发明实施例提供的一种视频标签生成方法的实施例二的流程示意图，如图3所示，在上述实施例一的基础上，本实施例提供的视频标签生成方法还可以包括：

S301，获取用户的目标检索文本信息。

具体实现时，可以先获取用户输入的原始检索信息，该原始检索信息可以是用户输入的语音信息也可以是文本信息，当用户输入的是语音信息时，可以通过现有的语音识别算法将音频内容转换成文本内容；然后，通过NLP识别算法，从原始检索信息中提取检索条件关键信息，生成目标检索文本信息。其中，检索条件关键信息可以包括：时间、地点、人物、事件等描述信息。并且，通过NLP识别算法从原始检索信息中提取检索条件关键信息，可以提高检索效率和检索准确率。

S302，分别计算目标检索文本信息与视图库中各图片的结构化文本信息的第一匹配度。

具体实现时，可以通过现有的文本匹配方法对目标检索文本信息与视图库中图片的结构化文本信息进行匹配。

S303，将第一匹配度大于等于第一预设阈值的视图库中的图片确定为目标图片。

当第一匹配度大于等于第一预设阈值时，则认为该第一匹配度对应的视图库中的图片可以大概率地反映用户需要检索的事件内容。

S304，根据目标图片，确定安全事件。

具体实现时，可以通过人为地观察目标图片，从而确定该目标图片对应的安全事件；或者，也可以利用现有的安全事件识别模型，对目标图片进行安全事件识别，得到该目标图片对应的安全事件类型。

本发明实施例提供的视频标签生成方法，通过获取用户的目标检索文本信息；分别计算目标检索文本信息与视图库中各图片的结构化文本信息的第一匹配度；将第一匹配度大于等于第一预设阈值的视图库中的图片确定为目标图片；根据目标图片，确定安全事件，无需用户花费大量的时间回放监控视频，从而实现了用户对于视频的快速检索。

图4为本发明实施例提供的一种视频标签生成方法的实施例三的流程示意图，如图4所示，在上述实施例二的基础上，当视频标签包括图片在视频中的录像时间时，本实施例提供的视频标签生成方法还可以包括：

S401，若各第一匹配度均小于第一预设阈值，则分别计算目标检索文本信息与视图库中各图片的视频标签的第二匹配度。

若各第一匹配度均小于第一预设阈值，则表明视图库中各图片与用户输入的检索条件匹配度较低，此时，可以将目标检索文本信息与视图库中各图片的视频标签进行文本匹配。

S402，将第二匹配度大于第二预设阈值的视频标签所包括的录像时间确定为目标录像时间。

具体的，视频标签包括的图片在视频中的录像时间可以是一种相对时间，比如，该视频的时长为2个小时，视频标签所对应的图片在视频中的录像时间为1小时14分钟。

S403，根据目标录像时间，确定需要回放的视频片段。

当确定目标录像时间后，可以根据预设规则确定需要回放的视频片段。比如，针对时长为2个小时的视频，当确定目标录像时间为1小时14分钟，可以将1小时9分钟至1小时19分钟的视频片段确定为需要回放的视频片段。

S404，根据需要回放的视频片段，确定安全事件。

具体实现时，可以通过人为地查看需要回放的视频片段，从而确定安全事件；或者，也可以利用其他现有的视频识别方法，确定需要回放的视频片段中所包括的安全事件。

本发明实施例提供的视频标签生成方法，通过若各第一匹配度均小于第一预设阈值，则分别计算目标检索文本信息与视图库中各图片的视频标签的第二匹配度；将第二匹配度大于第二预设阈值的视频标签所包括的录像时间确定为目标录像时间；根据目标录像时间，确定需要回放的视频片段；根据需要回放的视频片段，确定安全事件，可以通过更加丰富的监控信息确定安全事件，但无需回放全部视频，从而有利于加快案件的处理速度。

下面以一个具体的实现方式为例对本发明实施例提供的视频标签生成方法进行说明。图5为本发明实施例提供的一种视频标签生成方法的实施例四的流程示意图，如图5所示，首先通过摄像机得到视频，针对该视频，一方面，通过视频巡检，从视频中获取图片，并进行图像解析，得到图片的结构化文本，将图片和对应的结构化文本关联存储于视图库中，通过NLP识别算法提取关键信息，然后将生成的图片的视频标签存储于视频标签库中；另一方面，进行视频存储，并且在后续的视频回放过程中，如果发现视频标签库中的视频标签不够准确和丰富，还可以进行视频标签的修订、补充和完善，使得视频标签更加准确，方便再次使用。而用户进行检索使用时，可以以语音或者文本为输入，利用NLP识别算法进行关键信息抽取后，得到检索条件，然后与视图库中的数据(图片和对应的结构化文本)进行匹配，得到目标图片，若目标图片的信息不够丰富，则可以继续利用NLP识别算法对视频标签库中的视频标签进行检索，得到描述信息最匹配的目标录像时间，然后根据目标录像时间去查看需要回放的视频片段。

图6为本发明实施例提供的一种视频标签生成装置的结构示意图，如图6所示，该视频标签生成装置60可以包括：

判断模块610，用于以预设频率从视频中获取图片，并将获取到的每一张图片分别输入预先训练好的安全事件识别模型中，判断各图片是否包含预设安全事件标识信息，其中，安全事件识别模型基于标注了是否包含预设安全事件标识信息的样本图片训练得到。

获取模块620，用于对包含预设安全事件标识信息的每张图片分别进行图像识别，得到用于描述图片的结构化文本信息，并将图片及其对应的结构化文本信息关联存储于视图库中。

生成模块630，用于对于视图库的每张图片，通过自然语言处理NLP识别算法，从该图片的结构化文本信息中提取安全事件关键信息，生成该图片的视频标签，安全事件关键信息包括：安全事件发生时间、安全事件发生地点和安全事件内容。

本发明实施例提供的视频标签生成装置，通过判断模块，以预设频率从视频中获取图片，并将获取到的每一张图片分别输入预先训练好的安全事件识别模型中，判断各图片是否包含预设安全事件标识信息，其中，安全事件识别模型基于标注了是否包含预设安全事件标识信息的样本图片训练得到；通过获取模块，对包含预设安全事件标识信息的每张图片分别进行图像识别，得到用于描述图片的结构化文本信息，并将图片及其对应的结构化文本信息关联存储于视图库中；通过生成模块，对于视图库的每张图片，通过自然语言处理NLP识别算法，从该图片的结构化文本信息中提取安全事件关键信息，生成该图片的视频标签，安全事件关键信息包括：安全事件发生时间、安全事件发生地点和安全事件内容，无需通过大量的人力去回放大量的监控视频和生成视频标签，节约了生成视频标签的人力投入成本，以及，节约了视频标签的生成时间，从而提高了视频标签的生成效率。

可选的，上述装置还可以包括：确定模块(图中未示出)，可以用于获取用户的目标检索文本信息；分别计算目标检索文本信息与视图库中各图片的结构化文本信息的第一匹配度；将第一匹配度大于等于第一预设阈值的视图库中的图片确定为目标图片；根据目标图片，确定安全事件。

可选的，当视频标签包括图片在视频中的录像时间时，上述确定模块，还可以用于若各第一匹配度均小于第一预设阈值，则分别计算目标检索文本信息与视图库中各图片的视频标签的第二匹配度；将第二匹配度大于第二预设阈值的视频标签所包括的录像时间确定为目标录像时间；根据目标录像时间，确定需要回放的视频片段；根据需要回放的视频片段，确定安全事件。

可选的，上述确定模块，可以具体用于获取用户输入的原始检索信息；通过NLP识别算法，从原始检索信息中提取检索条件关键信息，生成目标检索文本信息。

可选的，上述装置还可以包括：显示模块(图中未示出)，可以用于通过预设显示方式，在视频上显示生成的视频标签。

可选的，上述装置还可以包括：修正模块(图中未示出)，可以用于对视图库中各图片的视频标签进行验证，对存在错误的视频标签进行修改，得到修改后的视频标签。

另外，相应于上述实施例所提供的视频标签生成方法，本发明实施例还提供了一种电子设备，该电子设备可以包括：存储器，用于存储程序；处理器，用于通过执行存储器存储的程序以实现本发明实施例提供的视频标签生成方法的所有步骤。

另外，相应于上述实施例所提供的视频标签生成方法，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时实现本发明实施例的视频标签生成方法的所有步骤。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的***进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种视频标签生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取用户的目标检索文本信息；

根据所述目标图片，确定安全事件。

3.如权利要求2所述的方法，其特征在于，所述视频标签包括图片在所述视频中的录像时间，所述方法还包括：

根据所述目标录像时间，确定需要回放的视频片段；

根据所述需要回放的视频片段，确定安全事件。

4.如权利要求2所述的方法，其特征在于，所述获取用户的目标检索文本信息，包括：

获取用户输入的原始检索信息；

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种视频标签生成装置，其特征在于，所述装置包括：

8.如权利要求7所述的装置，其特征在于，所述装置还包括：确定模块，用于获取用户的目标检索文本信息；分别计算所述目标检索文本信息与所述视图库中各图片的结构化文本信息的第一匹配度；将所述第一匹配度大于等于第一预设阈值的所述视图库中的图片确定为目标图片；根据所述目标图片，确定安全事件。

9.一种电子设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述介质上存储有程序，所述程序能够被处理器执行以实现如权利要求1-6中任一项所述的方法。