CN114510564A - 视频知识图谱生成方法及装置 - Google Patents

视频知识图谱生成方法及装置 Download PDF

Info

Publication number
CN114510564A
CN114510564A CN202011280059.2A CN202011280059A CN114510564A CN 114510564 A CN114510564 A CN 114510564A CN 202011280059 A CN202011280059 A CN 202011280059A CN 114510564 A CN114510564 A CN 114510564A
Authority
CN
China
Prior art keywords
video
knowledge
processed
tag
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011280059.2A
Other languages
English (en)
Inventor
黄颜
胡博雅
时文豪
吴吉文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bilibili Technology Co Ltd
Original Assignee
Shanghai Bilibili Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bilibili Technology Co Ltd filed Critical Shanghai Bilibili Technology Co Ltd
Priority to CN202011280059.2A priority Critical patent/CN114510564A/zh
Publication of CN114510564A publication Critical patent/CN114510564A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供视频知识图谱生成方法及装置,其中,所述视频知识图谱生成方法包括获取待处理视频,并提取所述待处理视频中的音频内容;对所述音频内容进行语音识别,以确定所述音频内容对应的文本;将所述文本输入分类模型,获得所述待处理视频的至少一个第一知识标签;对所述待处理视频进行分析,以确定所述待处理视频的至少一个第二知识标签;基于所述至少一个第一知识标签和所述至少一个第二知识标签生成视频知识图谱。

Description

视频知识图谱生成方法及装置
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种视频知识图谱生成方法。本申请一个或者多个实施例同时涉及一种视频知识图谱生成装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着网络的广泛应用,各领域的网络数据正在处于飞速增长中,如何方便地在海量的网络数据中获取有价值的数据和信息,已成为各领域人员都需要面对的问题,例如在视频领域,如何从海量的视频数据中获取用户需要的视频等。
发明内容
有鉴于此,本申请施例提供了一种视频知识图谱生成方法。本申请一个或者多个实施例同时涉及一种视频知识图谱生成装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中视频检索困难的技术缺陷。
根据本申请实施例的第一方面,提供了一种视频知识图谱生成方法,包括:
获取待处理视频,并提取所述待处理视频中的音频内容;
对所述音频内容进行语音识别,以确定所述音频内容对应的文本;
将所述文本输入分类模型,获得所述待处理视频的至少一个第一知识标签;
对所述待处理视频进行分析,以确定所述待处理视频的至少一个第二知识标签;
基于所述至少一个第一知识标签和所述至少一个第二知识标签生成视频知识图谱。
根据本申请实施例的第二方面,提供了一种视频知识图谱生成装置,包括:
视频获取模块,被配置为获取待处理视频,并提取所述待处理视频中的音频内容;
文本识别模块,被配置为对所述音频内容进行语音识别,以确定所述音频内容对应的文本;
知识标签获得模块,被配置为将所述文本输入分类模型,获得所述待处理视频的至少一个第一知识标签;
知识标签确定模块,被配置为对所述待处理视频进行分析,以确定所述待处理视频的至少一个第二知识标签;
知识图谱生成模块,被配置为基于所述至少一个第一知识标签和所述至少一个第二知识标签生成视频知识图谱。
根据本申请实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该指令被处理器执行时实现所述视频知识图谱生成方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述视频知识图谱生成方法的步骤。
本申请一个实施例实现了视频知识图谱生成方法及装置,其中,所述视频知识图谱生成方法包括获取待处理视频,并提取所述待处理视频中的音频内容;对所述音频内容进行语音识别,以确定所述音频内容对应的文本;将所述文本输入分类模型,获得所述待处理视频的至少一个第一知识标签;对所述待处理视频进行分析,以确定所述待处理视频的至少一个第二知识标签;基于所述至少一个第一知识标签和所述至少一个第二知识标签生成视频知识图谱;具体的,所述视频知识图谱生成方法通过对待处理视频进行语音识别,结合机器学习模型快速准确的确定待处理视频的第一知识标签,并通过对待处理视频的文本内容分析确定待处理视频的第二知识标签,然后基于第一知识标签和第二知识标签生成该待处理视频对应的视频知识图谱,后续在具体使用中,基于该视频知识图谱可以实现对该待处理视频的快速准确的检索。
附图说明
图1是本申请一个实施例提供的一种视频知识图谱生成方法的具体应用场景的示例图;
图2是本申请一个实施例提供的一种视频知识图谱生成的流程图;
图3是本申请一个实施例提供的一种视频知识图谱生成方法的处理过程流程图;
图4是本申请一个实施例提供的一种视频知识图谱生成装置的结构示意图;
图5是本申请一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本申请一个或多个实施例涉及的名词术语进行解释。
语音识别:识别音频中的信息,通常是识别人说的话。
机器学习:机器学习时一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
无监督学习:一种机器学习方法,没有给定事先标记过的训练示例,自动对输入的资料进行分类或分群。
知识图谱:为知识领域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形。
弹幕:弹幕通常指在观看视频时,随视频播放时间轴出现的评论,通常为文字类型或者语音类型。
FFmpeg:是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。
Neo4j:是一个高性能的NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。
在本申请中,提供了一种视频知识图谱生成方法。本申请一个或者多个实施例同时涉及一种视频知识图谱生成装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
本申请实施例提供的所述视频知识图谱生成方法可以应用于任何需要进行视频知识图谱构建的视频领域,例如娱乐类型的视频领域、学习类型的视频领域或者是新闻类型的视频领域等;为了便于理解,本申请实施例以所述视频知识图谱生成方法应用于学习类型的视频领域为例进行详细介绍,但不局限于此。
参见图1,图1示出了本申请一个实施例提供的一种视频知识图谱生成方法的具体应用场景的示例图。
图1的应用场景中包括终端102和服务器104,具体的,用户通过终端102将视频发送给服务器104;服务器104在接收到该视频后,对该视频执行音视频分离,以分别获取该视频的音频与视频帧,然后通过AI(Artificial Intelligence,人工智能)分析以及机器学习,获取该视频的知识标签,并基于该知识标签生成视频知识图谱。
具体的,首先基于机器学习通过有监督训练获得一个分类模型,然后将分离出的该视频的音频进行语音识别,将识别出的文本输入到该分类模型,以获得该视频对应的知识标签a;再将分离出的该视频的视频帧的相关信息,例如该视频的分区、标题、简介等进行AI分析,以获得该视频对应的知识标签b,以及将分离出的该视频的视频帧的用户交互信息,例如弹幕、视频评论等进行AI分析,以获得该视频对应的知识标签c,再对知识标签a,知识标签b以及知识标签c进行加权分析,以确定该视频的类别,最后基于该视频的类别生成视频知识图谱;其中,知识标签a、知识标签b以及知识标签c均包括至少一个知识标签,例如知识标签a为舞蹈、音乐等标签,知识标签b为爵士舞、舞蹈元素等,知识标签c为舞蹈配乐、舞蹈服装等。
参见图2,图2示出了根据本申请一个实施例提供的一种视频知识图谱生成方法的流程图,具体包括以下步骤。
步骤202:获取待处理视频,并提取所述待处理视频中的音频内容。
其中,待处理视频包括但不限于任何领域、任何格式的视频,例如娱乐领域、学习领域或者新闻领域的视频,其视频格式包括但不限于mp4、avi或者mkv等;具体的,待处理视频可以理解为后续待进行知识标签识别的视频。
具体实施时,待处理视频可以为视频上传者上传的视频,即获取待处理视频则可以理解为,获取视频上传者主上传的待处理视频。
具体的,在获取待处理视频后,并对该待处理视频执行音视频分离,以提取该待处理视频中的音频内容,例如提取出该待处理视频中人说的话。
实际使用中,所述视频知识图谱生成方法,可以采用FFmpeg提取该待处理视频中的音频内容,FFmpeg实现了多种流媒体的传输协议,支持多种音视频编码格式的音视频数据的流化、接收和处理等。
步骤204:对所述音频内容进行语音识别,以确定所述音频内容对应的文本。
具体的,在提取出待处理视频中的音频内容后,则都会该音频内容进行语音识别,将该音频内容转换为对应的文本,可以采用现有的任意一种语音转文字工具将该音频内容进行文本转换,本申请对此不做任何限定。
步骤206:将所述文本输入分类模型,获得所述待处理视频的至少一个第一知识标签。
其中,分类模型为预先训练的机器学习模型,该分类模型的输入为文本,输出为该文本对应的知识标签。
具体的,所述将所述文本输入分类模型,获得所述待处理视频的至少一个第一知识标签,包括:
将所述文本输入分类模型,获得所述文本对应的知识标签,并将所述文本对应的知识标签确定为所述待处理视频的至少一个第一知识标签。
其中,第一知识标签可以理解为待处理视频的关键字或者关键词。
具体实施时,在将音频内容识别为对应的文本后,将该文本输入预先训练获得的分类模型中,可以获得该文本对应的一个或多个知识标签,然后将该文本对应的知识标签作为该待处理视频的第一知识标签。
实际应用中,本申请实施例提供的所述视频知识图谱生成方法的目的是为了对知识类视频进行自动分类,其中,知识类视频包括但不限于任何一种学习类型的视频,例如修图工具的学习、食品加工的学习、机械操作的学习等。以待处理视频为修图工具学习的知识类视频为例,从该待处理视频提取出的音频内容中识别的对应的文本,即为该待处理视频的文案内容,此时,将该文案内容输入到预先训练获得的分类模型中,则可以得到该文本内容对应的知识标签,即该文本内容对应的关键词或者关键字,例如“笔刷”、“图层”、“颜色”等关键词。
本申请实施例中,由于通过对视频图片分析成本较高,为了提高待处理视频的第一知识标签的获取成本,则通过对待处理视频进行音频内容提取、语音识别以及机器学习的方式进行第一知识标签的确定,极大的降低了对待处理视频的处理成本,以及提升了对待处理视频的第一知识标签的获取效率。
具体的,为了提高分类模型的知识标签的识别效率以及识别准确性,在将音频内容识别为对应的文本之后,获得待处理视频的第一知识标签之前,会对分类模型进行预先训练获得,其具体实现方式如下所述:
所述分类模型的训练步骤如下:
获取样本文本训练集,其中,所述样本文本训练集中包括样本文本、以及所述样本文本对应的样本知识标签;
基于所述样本文本以及所述样本文本对应的样本知识标签训练获得所述分类模型,其中,所述分类模型输出文本对应的知识标签。
其中,样本文本为获取的现有的任意文本,而样本文本对应的样本知识标签则为每个文本对应的关键字或者关键词,例如样本文本为“此处应该建立图层”,那么该样本文本对应的样本知识标签则为“图层”。
步骤208:对所述待处理视频进行分析,以确定所述待处理视频的至少一个第二知识标签。
具体的,对待处理视频进行分析,则可以理解为对待处理视频中的所有视频帧进行AI分析,以确定该待处理视频的第二知识标签,其中,第二知识标签也可以理解为待处理视频对应的关键字或关键词。
具体的,所述对所述待处理视频进行分析,以确定所述待处理视频的至少一个第二知识标签,包括:
获取所述待处理视频的属性信息,并对所述属性信息进行分析,以确定所述待处理视频的至少一个第三知识标签;
获取所述待处理视频的交互信息,并对所述交互信息进行分析,以确定所述待处理视频的至少一个第四知识标签,
其中,所述第三知识标签和所述第四知识标签构成所述第二知识标签。
具体的,所述属性信息包括所述待处理视频的分区信息、标题信息以及简介信息;所述交互信息包括所述待处理视频的弹幕信息以及视频评论信息。
具体实施时,对待处理视频进行分析,以确定所述待处理视频的至少一个第二知识标签包括至少两种情况,例如一种情况为:获取待处理视频的分区信息、标题信息以及简介信息,对待处理视频的分区信息、标题信息以及简介信息进行人工智能分析,确定出该待处理视频对应的关键字和/或关键词,即第三知识标签;仍以待处理视频为修图工具学习的知识类视频为例,该待处理视频的分区信息则可以为修图学习区,标题信息则可以为PS(即photoshop,一种修图工具)学习,简介信息可以为对PS的文字介绍,通过人工智能对此进行分析之后,该待处理视频对应的关键词(即第三知识标签)可以为“PS”、“作图”。
另一种情况为:获取待处理视频的弹幕信息以及视频评论信息,对待处理视频的弹幕信息以及视频评论信息进行分工智能分析,确定出该待处理视频对应的关键字和/或关键词,即第四知识标签;沿用上例,该待处理视频的弹幕信息可以为“这个照片中的项链很好看”,该待处理视频的视频评论信息可以为“这个图中人的衣服的款式很时尚”,那么通过人工智能对该待处理视频的弹幕信息以及视频评论信息进行分析之后,该待处理视频对应的关键词(即第四知识标签)可以为“项链”、“衣服”、“款式”;那么该待处理视频的第二知识标签则为“PS”、“作图”、“项链”、“衣服”、“款式”。
本申请实施例中,将待处理视频的属性信息以及交互信息通过人工智能分析,以便从另外一种角度确定该待处理视频的知识标签,后续可以利用从语音角度确定的该待处理视频的知识标签以及从待处理视频的属性信息、交互信息角度确定的该待处理视频的知识标签,准确的确定该待处理视频的类别,以保证该待处理视频的类别的准确性。
步骤210:基于所述至少一个第一知识标签和所述至少一个第二知识标签生成视频知识图谱。
具体的,所述基于所述至少一个第一知识标签和所述至少一个第二知识标签生成视频知识图谱,包括:
基于预设权重值为所述至少一个第一知识标签和所述至少一个第二知识标签进行加权,并基于加权结果确定所述待处理视频的类别,且根据所述待处理视频的类别生成视频知识图谱。
其中,预设权重值可以根据实际应用进行设置,本申请实施例对此不做过多要求。
实际应用中,基于预设权重值为每个第一知识标签和每个第二知识标签进行加权,然后确定加权后的每个第一知识标签的权重值和每个第二知识标签的权重值;再根据权重值对所有的第一知识标签和第二知识标签进行排序,将排序靠前预设数量(例如3个、5个等)的第一知识标签和/或第二知识标签作为待处理视频的最终知识标签,最后基于该最终知识标签确定待处理视频的类别。
此外,第二知识标签由第三知识标签和第四知识标签组成,因此基于所述至少一个第一知识标签和所述至少一个第二知识标签生成视频知识图谱,可以理解为基于至少一个第一知识标签、至少一个第三知识标签以及至少一个第四知识标签生成视频知识图谱,而具体根据知识标签生成视频知识图谱的方式可以参见上述实施例,在此不再赘述。
本申请实施例中,第一知识标签、第三知识标签和第四知识标签是通过不同的维度确定的该待处理视频的知识标签,那么在实际应用中,基于多种维度确定的该待处理视频的知识标签可以更加精确的生成视频知识图谱。
具体的,所述基于所述至少一个第一知识标签和所述至少一个第二知识标签生成视频知识图谱,包括:
基于预设权重值为所述第一知识标签、所述第三知识标签以及所述第四知识标签进行加权,并基于加权结果确定所述待处理视频的类别;
在存在预设知识图谱的情况下,将所述待处理视频的类别与所述预设知识图谱中的节点类别进行匹配,基于匹配结果将所述待处理视频与所述预设知识图谱的节点关联,生成第一类型视频知识图谱或第二类型视频知识图谱,
其中,所述匹配结果为所述待处理视频的类别与所述预设知识图谱中的节点类别匹配成功。
实际应用中,视频知识图谱包括至少两种类型,例如该第一类型视频知识图谱可以为树状视频知识图谱,该第二类型视频知识图谱可以为网状视频知识图谱,其中,树状视频知识图谱可以理解为基于预先编辑的树状图生成的视频知识图谱,网状视频知识图谱可以理解为无监督学习下自动分类生成的视频知识图谱。
具体的,以第二知识标签为第三知识标签和第四知识标签为例,第一知识标签、第三知识标签以及第四知识标签的权重值是根据实际应用预先设置的,例如第三知识标签为基于待处理视频的属性信息获取的情况下,由于属性信息包含了待处理视频的分区信息、标题信息以及简介信息,通过对属性信息的分析确定出的待处理视频的第三知识标签的可信程度会更高,则为该第三知识标签设置高于第一知识标签和第四知识标签的权重值,其中,第一知识标签以及第四知识标签的权重值也可以基于上述方式进行预先设置。
在确定了第一知识标签、第三知识标签以及第四知识标签的权重值的情况下,基于该预设权重值为第一知识标签、第三知识标签以及第四知识标签进行加权,基于加权结果确定待处理视频的类别,仍沿用上例,加权后确定的待处理视频的类别包括但不限于“作图类别”、“配饰类别”以及“服饰类别”。
具体的,在确定了待处理视频的类别之后,若存在预设知识图谱,且预设知识图谱为网状知识图谱的情况下,将待处理视频的类别与该网状知识图谱中的节点类别进行匹配,其中,网状知识图谱中的每个节点对应一种类别,在待处理视频的类别与该网状知识图谱中的节点类别匹配成功的情况下,则将待处理视频与该网状知识图谱中的节点进行关联,以生成网状视频知识图谱。
同理,在确定了待处理视频的类别之后,若存在预设知识图谱,且预设知识图谱为树状知识图谱的情况下,将待处理视频的类别与该树状知识图谱中的节点类别进行匹配,其中,树状知识图谱中的每个节点对应一种类别,在待处理视频的类别与该树状知识图谱中的节点类别匹配成功的情况下,则将待处理视频与该树状知识图谱中的节点进行关联,以生成树状视频知识图谱。
实际应用中,待处理视频会存在多个类别,若每个类别均可以与网状知识图谱或树状知识图谱中的节点类别匹配上,则将待处理视频与每个匹配上的网状或树状知识图谱中的节点进行关联。
本申请实施例中,若存在预设知识图谱,则可以直接将待处理视频的类别与预设知识图谱的节点类别进行匹配,基于该待处理视频的类别生成第一类型或第二类型的视频知识图谱,那么后续在对该待处理视频进行查询时,可以基于该第一类型或第二类型的视频知识图谱对该待处理视频进行快速准确的查询,并且还可以为查询用户推荐该待处理视频相同类型的其他视频,提升用户体验。
此外,所述基于加权结果确定所述待处理视频的类别之后,还包括:
在不存在所述预设知识图谱的情况下,基于所述待处理视频的类别,生成所述第二类型视频知识图谱,其中,所述待处理视频的类别为所述第二类型视频知识图谱的节点。
实际应用中,仍以第二类型知识图谱为网状知识图谱的情况下,若不存在预设知识图谱,则可以基于无监督学习将该待处理视频的类别进行自动分类以生成网状视频知识图谱,无需人工进行待处理视频的分类以及视频知识图谱的生成,提升用户体验。此时,该待处理视频的每个类别即为该网状视频知识图谱的节点。
此外,所述待处理视频的类别与所述预设知识图谱中的节点类别进行匹配之后,还包括:
在所述待处理视频的类别与所述预设知识图谱中的节点类别匹配失败的情况下,基于所述待处理视频的类别生成所述预设知识图谱的新节点;
将所述新节点与所述预设知识图谱的节点进行关联,生成第一类型视频知识图谱或第二类型视频知识图谱。
举例说明,若预设知识图谱为网状知识图谱,在待处理视频的类别与网状知识图谱中的节点类别匹配失败,那么则可以基于该待处理视频的类别在网状知识图谱中生成对应的新节点,然后将该新节点与网状知识图谱中的原有的节点进行关联,生成网状视频知识图谱;同理,在预设知识图谱为树状知识图谱的情况下,也可以采用此种方式生成树状视频知识图谱。
本申请实施例中,在待处理视频的类别与预设知识图谱中的节点类别均不匹配的情况下,也可以基于待处理视频的类别生成该预设知识图谱的新节点,以保证待处理视频可以放置在对应的节点,以实现第一类型或第二类型的视频知识图谱的生成,后续该待处理视频的查询用户可以基于该网状视频知识图谱或者树状视频知识图谱实现对该待处理视频的快速查询,极大的提高了查询效率。
本申请另一实施例中,所述生成第一类型视频知识图谱或第二类型视频知识图谱之后,还包括:
当所述第一类型视频知识图谱或所述第二类型视频知识图谱的节点的关联视频大于等于预设数量阈值的情况下,根据视频的播放量、弹幕、评论、用户信息和/或更新时间,对所述第一类型视频知识图谱的节点的关联视频或所述第二类型知识图谱的节点的关联视频进行排序。
其中,预设数量阈值可以根据实际情况进行设置,例如设置为5、10或者20等等。
以生成第一类型视频知识图谱为例进行说明,当生成第一类型视频知识图谱后,还可以统计出该第一类型视频知识图谱中每个节点对应的视频的数量,在某个节点对应的视频数量大于等于预设数量阈值的情况下,则可以根据视频的播放量、弹幕、评论、用户信息和/或更新时间等对该节点中的视频进行排序,后续若将该第一类型视频知识图谱应用于视频推荐中,则可以将排序靠前的视频推荐给用户,以提高用户的关注度以及点击率,其中,视频的弹幕以及评论则可以理解为视频的弹幕数量以及评论数量,用户信息则可以理解为用户等级或者是用户的积分等。
以生成第一类型视频知识图谱为例进行说明,,当生成第二类型视频知识图谱后,还可以统计出该第二类型视频知识图谱中每个节点对应的视频的数量,在某个节点对应的视频数量大于等于预设数量阈值的情况下,则可以根据视频的播放量、弹幕、评论、用户信息和/或更新时间等对该节点中的视频进行排序,后续若将该第二类型视频知识图谱应用于视频推荐中,则可以将排序靠前的视频推荐给用户,以提高用户的关注度以及点击率。
本申请另一实施例中,所述方法,还包括:
接收针对所述待处理视频的查询指令,基于所述查询指令在所述视频知识图谱中查询所述待处理视频。
具体的,在生成视频知识图谱后,接收针对该待处理视频的查询指令后,可以从生成的视频知识图谱中快速且准确的查找到该待处理视频,将该待处理视频发送给待查询的用户,另外一种可实现方式中,在将该待处理视频发送给待查询的用户后,还可以基于该视频知识图谱中每个节点的视频排序情况,将该待处理视频所在节点的排序靠前的同类型的视频推荐给该待查询的用户,以提升用户的查询体验。
本申请实施例提供的所述视频知识图谱生成方法,通过对待处理视频进行语音识别,结合机器学习模型快速准确的确定待处理视频的第一知识标签,并通过对待处理视频的文本内容分析确定待处理视频的第二知识标签,然后基于第一知识标签和第二知识标签生成该待处理视频对应的视频知识图谱,后续在具体使用中,基于该视频知识图谱可以实现对该待处理视频的快速准确的检索。
下述结合附图3,以本申请提供的所述视频知识图谱生成方法在知识类视频的应用为例,对所述视频知识图谱生成方法进行进一步说明。其中,图3示出了本申请一个实施例提供的一种视频知识图谱生成方法的处理过程流程图,具体包括以下步骤。
步骤302:获取视频上传者上传的视频。
步骤304:对该视频执行音视频分离,提取该视频中的音频以及视频帧。
步骤306:基于机器学习的分类模型以及人工智能分析对该视频的音频以及视频帧进行处理,获得该视频的知识标签。
具体的,对该音频进行语音识别,以确定该音频内容对应的文本,且基于机器学习的分类模型获取该文本对应的多个知识标签,同时基于人工智能分析确定该视频的视频帧的多个知识标签,将上述所有知识标签确定为该视频的知识标签。
步骤308:基于该视频的知识标签确定该视频的类别,基于该视频的类别建立视频知识图谱。
具体的,将该视频的所有知识标签进行加权,然后选择权重值高的预设数量的知识标签对应的类别作为该视频的类别。
此时,若审核后台预先建立有树状知识图谱,该树状知识图谱中的节点包括计算机科学节点、人文科学节点、数码节点、烹饪节点以及法律节点等,将该视频的类别与该树状知识图谱中的节点类别进行关联,实现视频知识图谱的建立。
步骤310:将该视频知识图谱存储在图形数据库中。
其中,图形数据库中存储有视频知识图谱,每个视频知识图谱均由节点与节点之间的连接关系构成,即视频与节点类别(也可称为标签)的连接关系,例如视频与计算机科学节点、法律节点的连接关系等。
步骤312:对该视频知识图谱中的每个节点中的视频进行排序,基于排序结果进行视频的个性化推荐。
例如将排序靠前的前2个视频推荐给移动端或者PC端用户。
本申请实施例中,用户可以将一些学习知识类的视频上传到服务器,服务器在接收到用户上传的视频后,基于该视频建立视频知识图谱,实际应用中,可以基于该视频知识图谱结合用户的历史视频观看记录实现同类型视频的个性化推荐或者是视频的快速准确检索,以提升用户体验。
与上述方法实施例相对应,本申请还提供了视频知识图谱生成装置实施例,图4示出了本申请一个实施例提供的一种视频知识图谱生成装置的结构示意图。如图4所示,该装置包括:
视频获取模块402,被配置为获取待处理视频,并提取所述待处理视频中的音频内容;
文本识别模块404,被配置为对所述音频内容进行语音识别,以确定所述音频内容对应的文本;
知识标签获得模块406,被配置为将所述文本输入分类模型,获得所述待处理视频的至少一个第一知识标签;
知识标签确定模块408,被配置为对所述待处理视频进行分析,以确定所述待处理视频的至少一个第二知识标签;
知识图谱生成模块410,被配置为基于所述至少一个第一知识标签和所述至少一个第二知识标签生成视频知识图谱。
可选的,所述知识标签获得模块406,进一步被配置为:
将所述文本输入分类模型,获得所述文本对应的知识标签,并将所述文本对应的知识标签确定为所述待处理视频的至少一个第一知识标签。
可选的,所述知识标签获得模块406,进一步被配置为:
获取样本文本训练集,其中,所述样本文本训练集中包括样本文本、以及所述样本文本对应的样本知识标签;
基于所述样本文本以及所述样本文本对应的样本知识标签训练获得所述分类模型,其中,所述分类模型输出文本对应的知识标签。
可选的,所述知识标签确定模块408,进一步被配置为:
获取所述待处理视频的属性信息,并对所述属性信息进行分析,以确定所述待处理视频的至少一个第三知识标签;
获取所述待处理视频的交互信息,并对所述交互信息进行分析,以确定所述待处理视频的至少一个第四知识标签,
其中,所述第三知识标签和所述第四知识标签构成所述第二知识标签。
可选的,所述知识图谱生成模块410,进一步被配置为:
基于预设权重值为所述至少一个第一知识标签和所述至少一个第二知识标签进行加权,并基于加权结果确定所述待处理视频的类别,且根据所述待处理视频的类别生成视频知识图谱。
可选的,所述知识图谱生成模块410,进一步被配置为:
基于预设权重值为所述第一知识标签、所述第三知识标签以及所述第四知识标签进行加权,并基于加权结果确定所述待处理视频的类别;
在存在预设知识图谱的情况下,将所述待处理视频的类别与所述预设知识图谱中的节点类别进行匹配,基于匹配结果将所述待处理视频与所述预设知识图谱的节点关联,生成第一类型视频知识图谱或第二类型视频知识图谱,
其中,所述匹配结果为所述待处理视频的类别与所述预设知识图谱中的节点类别匹配成功。
可选的,所述装置,还包括:
节点生成模块,被配置为在所述待处理视频的类别与所述预设知识图谱中的节点类别匹配失败的情况下,基于所述待处理视频的类别生成所述预设知识图谱的新节点;
节点关联模块,被配置为将所述新节点与所述预设知识图谱的节点进行关联,生成第一类型视频知识图谱或第二类型视频知识图谱。
可选的,所述装置,还包括:
排序模块,被配置为当所述第一类型视频知识图谱或所述第二类型视频知识图谱的节点的关联视频大于等于预设数量阈值的情况下,根据视频的播放量、弹幕、评论、用户信息和/或更新时间,对所述第一类型视频知识图谱的节点的关联视频或所述第二类型知识图谱的节点的关联视频进行排序。
可选的,所述属性信息包括所述待处理视频的分区信息、标题信息以及简介信息;所述交互信息包括所述待处理视频的弹幕信息以及视频评论信息。
可选的,所述装置,还包括:
视频查询模块,被配置为接收针对所述待处理视频的查询指令,基于所述查询指令在所述视频知识图谱中查询所述待处理视频。
本申请实施例中,所述视频知识图谱生成装置,通过对待处理视频进行语音识别,结合机器学习模型快速准确的确定待处理视频的第一知识标签,并通过对待处理视频的文本内容分析确定待处理视频的第二知识标签,然后基于第一知识标签和第二知识标签生成该待处理视频对应的视频知识图谱,后续在具体使用中,基于该视频知识图谱可以实现对该待处理视频的快速准确的检索。
上述为本实施例的一种视频知识图谱生成装置的示意性方案。需要说明的是,该视频知识图谱生成装置的技术方案与上述的视频知识图谱生成方法的技术方案属于同一构思,视频知识图谱生成装置的技术方案未详细描述的细节内容,均可以参见上述视频知识图谱生成方法的技术方案的描述。
图5示出了根据本申请一个实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。
计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。
其中,处理器520用于执行如下计算机可执行指令,其中,所述处理器执行所述计算机可执行指令时实现所述视频知识图谱生成方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的视频知识图谱生成方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述视频知识图谱生成方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述视频知识图谱生成方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的视频知识图谱生成方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述视频知识图谱生成方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请实施例的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (13)

1.一种视频知识图谱生成方法,其特征在于,包括:
获取待处理视频,并提取所述待处理视频中的音频内容;
对所述音频内容进行语音识别,以确定所述音频内容对应的文本;
将所述文本输入分类模型,获得所述待处理视频的至少一个第一知识标签;
对所述待处理视频进行分析,以确定所述待处理视频的至少一个第二知识标签;
基于所述至少一个第一知识标签和所述至少一个第二知识标签生成视频知识图谱。
2.根据权利要求1所述的视频知识图谱生成方法,其特征在于,所述将所述文本输入分类模型,获得所述待处理视频的至少一个第一知识标签,包括:
将所述文本输入分类模型,获得所述文本对应的知识标签,并将所述文本对应的知识标签确定为所述待处理视频的至少一个第一知识标签。
3.根据权利要求1或2所述的视频知识图谱生成方法,其特征在于,所述分类模型的训练步骤如下:
获取样本文本训练集,其中,所述样本文本训练集中包括样本文本、以及所述样本文本对应的样本知识标签;
基于所述样本文本以及所述样本文本对应的样本知识标签训练获得所述分类模型,其中,所述分类模型输出文本对应的知识标签。
4.根据权利要求1所述的视频知识图谱生成方法,其特征在于,所述对所述待处理视频进行分析,以确定所述待处理视频的至少一个第二知识标签,包括:
获取所述待处理视频的属性信息,并对所述属性信息进行分析,以确定所述待处理视频的至少一个第三知识标签;
获取所述待处理视频的交互信息,并对所述交互信息进行分析,以确定所述待处理视频的至少一个第四知识标签,
其中,所述第三知识标签和所述第四知识标签构成所述第二知识标签。
5.根据权利要求1所述的视频知识图谱生成方法,其特征在于,所述基于所述至少一个第一知识标签和所述至少一个第二知识标签生成视频知识图谱,包括:
基于预设权重值为所述至少一个第一知识标签和所述至少一个第二知识标签进行加权,并基于加权结果确定所述待处理视频的类别,且根据所述待处理视频的类别生成视频知识图谱。
6.根据权利要求4所述的视频知识图谱生成方法,其特征在于,所述基于所述至少一个第一知识标签和所述至少一个第二知识标签生成视频知识图谱,包括:
基于预设权重值为所述第一知识标签、所述第三知识标签以及所述第四知识标签进行加权,并基于加权结果确定所述待处理视频的类别;
在存在预设知识图谱的情况下,将所述待处理视频的类别与所述预设知识图谱中的节点类别进行匹配,基于匹配结果将所述待处理视频与所述预设知识图谱的节点关联,生成第一类型视频知识图谱或第二类型视频知识图谱,
其中,所述匹配结果为所述待处理视频的类别与所述预设知识图谱中的节点类别匹配成功。
7.根据权利要求6所述的视频知识图谱生成方法,其特征在于,所述待处理视频的类别与所述预设知识图谱中的节点类别进行匹配之后,还包括:
在所述待处理视频的类别与所述预设知识图谱中的节点类别匹配失败的情况下,基于所述待处理视频的类别生成所述预设知识图谱的新节点;
将所述新节点与所述预设知识图谱的节点进行关联,生成第一类型视频知识图谱或第二类型视频知识图谱。
8.根据权利要求6所述的视频知识图谱生成方法,其特征在于,所述生成第一类型视频知识图谱或第二类型视频知识图谱之后,还包括:
当所述第一类型视频知识图谱或所述第二类型视频知识图谱的节点的关联视频大于等于预设数量阈值的情况下,根据视频的播放量、弹幕、评论、用户信息和/或更新时间,对所述第一类型视频知识图谱的节点的关联视频或所述第二类型知识图谱的节点的关联视频进行排序。
9.根据权利要求4所述的视频知识图谱生成方法,其特征在于,所述属性信息包括所述待处理视频的分区信息、标题信息以及简介信息;所述交互信息包括所述待处理视频的弹幕信息以及视频评论信息。
10.根据权利要求1、6-9任意一项所述的视频知识图谱生成方法,其特征在于,所述方法,还包括:
接收针对所述待处理视频的查询指令,基于所述查询指令在所述视频知识图谱中查询所述待处理视频。
11.一种视频知识图谱生成装置,其特征在于,包括:
视频获取模块,被配置为获取待处理视频,并提取所述待处理视频中的音频内容;
文本识别模块,被配置为对所述音频内容进行语音识别,以确定所述音频内容对应的文本;
知识标签获得模块,被配置为将所述文本输入分类模型,获得所述待处理视频的至少一个第一知识标签;
知识标签确定模块,被配置为对所述待处理视频进行分析,以确定所述待处理视频的至少一个第二知识标签;
知识图谱生成模块,被配置为基于所述至少一个第一知识标签和所述至少一个第二知识标签生成视频知识图谱。
12.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该指令被处理器执行时实现权利要求1-10任意一项所述视频知识图谱生成方法的步骤。
13.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1-10任意一项所述视频知识图谱生成方法的步骤。
CN202011280059.2A 2020-11-16 2020-11-16 视频知识图谱生成方法及装置 Pending CN114510564A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011280059.2A CN114510564A (zh) 2020-11-16 2020-11-16 视频知识图谱生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011280059.2A CN114510564A (zh) 2020-11-16 2020-11-16 视频知识图谱生成方法及装置

Publications (1)

Publication Number Publication Date
CN114510564A true CN114510564A (zh) 2022-05-17

Family

ID=81546743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011280059.2A Pending CN114510564A (zh) 2020-11-16 2020-11-16 视频知识图谱生成方法及装置

Country Status (1)

Country Link
CN (1) CN114510564A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898271A (zh) * 2022-05-26 2022-08-12 中国平安人寿保险股份有限公司 视频内容监控方法、装置、设备及介质
CN115098726A (zh) * 2022-06-20 2022-09-23 河南省信息中心 一种视频数据处理方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898271A (zh) * 2022-05-26 2022-08-12 中国平安人寿保险股份有限公司 视频内容监控方法、装置、设备及介质
CN115098726A (zh) * 2022-06-20 2022-09-23 河南省信息中心 一种视频数据处理方法及***
CN115098726B (zh) * 2022-06-20 2023-05-02 河南省信息中心 一种视频数据处理方法及***

Similar Documents

Publication Publication Date Title
KR102416558B1 (ko) 영상 데이터 처리 방법, 장치 및 판독 가능 저장 매체
Gabeur et al. Multi-modal transformer for video retrieval
CN112738556B (zh) 视频处理方法及装置
CN113590850A (zh) 多媒体数据的搜索方法、装置、设备及存储介质
CN108197265A (zh) 一种基于短视频搜索完整视频的方法及***
CN110083729B (zh) 一种图像搜索的方法及***
WO2022188644A1 (zh) 词权重的生成方法、装置、设备及介质
CN111506773A (zh) 一种基于无监督深度孪生网络的视频去重方法
CN113434716B (zh) 一种跨模态信息检索方法和装置
CN115114395B (zh) 内容检索及模型训练方法、装置、电子设备和存储介质
CN112584062B (zh) 背景音频构建方法及装置
CN111949806A (zh) 一种基于Resnet-Bert网络模型的跨媒体检索方法
CN114510564A (zh) 视频知识图谱生成方法及装置
CN113254683A (zh) 数据处理方法及装置、标签识别方法及装置
CN113190709A (zh) 一种基于短视频关键帧的背景音乐推荐方法和装置
CN114625918A (zh) 视频推荐方法、装置、设备、存储介质及程序产品
CN113010705B (zh) 标签预测方法、装置、设备及存储介质
Kumar et al. An extensive review on different strategies of multimedia data mining
CN114741556A (zh) 一种基于场景片段和多模态特征增强的短视频分类方法
CN114647719A (zh) 一种基于知识图谱的问答方法及装置
CN114491010A (zh) 信息抽取模型的训练方法及装置
CN113792167B (zh) 一种基于注意力机制和模态依赖的跨媒体交叉检索方法
CN110674265A (zh) 面向非结构化信息的特征判别与信息推荐***
Gayathri et al. An efficient video indexing and retrieval algorithm using ensemble classifier
CN110879843B (zh) 基于机器学习的构建自适应知识图谱技术的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination