CN110750679A - 一种基于关键词的视频搜索方法、***、装置及存储介质 - Google Patents

一种基于关键词的视频搜索方法、***、装置及存储介质 Download PDF

Info

Publication number
CN110750679A
CN110750679A CN201910837873.0A CN201910837873A CN110750679A CN 110750679 A CN110750679 A CN 110750679A CN 201910837873 A CN201910837873 A CN 201910837873A CN 110750679 A CN110750679 A CN 110750679A
Authority
CN
China
Prior art keywords
video
keyword
generate
unit
result list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910837873.0A
Other languages
English (en)
Inventor
陈斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianmai Juyuan (hangzhou) Media Technology Co Ltd
Original Assignee
Tianmai Juyuan (hangzhou) Media Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianmai Juyuan (hangzhou) Media Technology Co Ltd filed Critical Tianmai Juyuan (hangzhou) Media Technology Co Ltd
Priority to CN201910837873.0A priority Critical patent/CN110750679A/zh
Publication of CN110750679A publication Critical patent/CN110750679A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关键词的视频搜索方法、***、装置及存储介质,方法包括:对视频进行文字识别,生成得到第一关键词;对视频进行语音识别,生成得到第二关键词;根据第一关键词和第二关键词,得到各视频对应的关键词集;根据接收到的搜索指令,利用搜索指令中的第三关键词在关键词集中进行搜索,得到检索结果列表。本发明通过识别视频中视频的文字和语音,从而能自动生成用于搜索的关键词集,有效避免了人工生成的片面性,而且通过两种方式的结合能有效提高关键词的全面性,大大提高检索时的准确性,能给用户带来更好的观看体验和搜索效率。本发明可广泛应用于视频技术领域中。

Description

一种基于关键词的视频搜索方法、***、装置及存储介质
技术领域
本发明涉及视频处理技术领域,尤其涉及一种基于关键词的视频搜索方法、***、装置及存储介质。
背景技术
目前,市面上很多的在线视频都可以提供搜索功能,通过为在线视频提供相应的关键词方便搜索。
关键词在生成时,所采用的方法为一般都是由视频服务提供商的工作人员通过人工方式生成的。通过人工生成的视频看点可能无法与海量用户的真实体验相契合,有时可能关键词不够全面,导致用户不能顺利搜索到所需的视频,从而给用户带来不好的观看体验,影响视频的收益。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于关键词的视频搜索方法、***、装置及存储介质。
本发明所采取的技术方案是:
一种基于关键词的视频搜索方法,包括以下步骤:
对视频进行文字识别,生成得到第一关键词;
对视频进行语音识别,生成得到第二关键词;
根据第一关键词和第二关键词,得到各视频对应的关键词集;
根据接收到的搜索指令,利用搜索指令中的第三关键词在关键词集中进行搜索,得到检索结果列表,所述检索结果列表包括搜索得到视频和所述视频对应的关键词集。
作为所述的一种基于关键词的视频搜索方法的进一步改进,还包括以下步骤:
根据检索结果列表,对检索结果列表中的视频与其余视频进行相关度计算,得到检索结果列表中的视频与其余视频之间的相关度;
根据相关度,将相关度最高的n个视频进行排列生成推荐视频列表,其中,n为正整数,n为预设值。
作为所述的一种基于关键词的视频搜索方法的进一步改进,所述的对视频进行文字识别,生成得到第一关键词,这一步骤具体包括:
对视频进行解封装,得到视频码流;
对视频码流进行解码,得到视频帧;
对视频帧进行编码,得到视频截图;
对视频截图中的文字进行识别处理,得到视频文字;
对视频文字进行分词处理,得到第一关键词。
作为所述的一种基于关键词的视频搜索方法的进一步改进,所述的对视频进行语音识别,生成得到第二关键词,这一步骤具体包括:
对视频进行语音提取,得到语音数据;
对语音数据进行识别处理,生成得到第二关键词。
作为所述的一种基于关键词的视频搜索方法的进一步改进,所述的对语音数据进行识别处理,生成得到第二关键词,这一步骤具体包括:
根据语音数据,利用预设的语音识别模型进行匹配识别处理,得到识别结果;
对识别结果进行分词处理,得到第二关键词。
本发明所采用的另一个技术方案是:
一种基于关键词的视频搜索***,包括:
第一识别单元,用于对视频进行文字识别,生成得到第一关键词;
第二识别单元,用于对视频进行语音识别,生成得到第二关键词;
关键词集生成单元,用于根据第一关键词和第二关键词,得到各视频对应的关键词集;
检索单元,用于根据接收到的搜索指令,利用搜索指令中的第三关键词在关键词集中进行搜索,得到检索结果列表,所述检索结果列表包括搜索得到视频和所述视频对应的关键词集。
作为所述的一种基于关键词的视频搜索***的进一步改进,还包括:
相关度计算单元,用于根据检索结果列表,对检索结果列表中的视频与其余视频进行相关度计算,得到检索结果列表中的视频与其余视频之间的相关度;
推荐单元,用于根据相关度,将相关度最高的n个视频进行排列生成推荐视频列表,其中,n为正整数,n为预设值。
作为所述的一种基于关键词的视频搜索***的进一步改进,所述第一识别单元具体包括:
解封装单元,用于对视频进行解封装,得到视频码流;
解码单元,用于对视频码流进行解码,得到视频帧;
编码单元,用于对视频帧进行编码,得到视频截图;
文字识别单元,用于对视频截图中的文字进行识别处理,得到视频文字;
分词单元,用于对视频文字进行分词处理,得到第一关键词。
本发明所采用的再一个技术方案是:
一种基于关键词的视频搜索装置,包括:
存储器,用于存放程序;
处理器,用于执行所述程序,所述程序使得所述处理器执行所述的基于关键词的视频搜索方法。
本发明所采用的再一个技术方案是:
一种计算机可读存储介质,包括计算机程序,当所述计算机程序在计算机上运行时,使得所述的基于关键词的视频搜索方法被执行。
本发明的有益效果是:
本发明一种基于关键词的视频搜索方法、***、装置及存储介质通过识别视频中视频的文字和语音,从而能自动生成用于搜索的关键词集,有效避免了人工生成的片面性,而且通过两种方式的结合能有效提高关键词的全面性,大大提高检索时的准确性,能给用户带来更好的观看体验和搜索效率。
附图说明
图1是本发明一种基于关键词的视频搜索方法的步骤流程图;
图2是本发明一种基于关键词的视频搜索***的模块方框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
参考图1,本实施例提供了一种基于关键词的视频搜索方法,本实施例中设有包括有全部视频的视频池,所述视频可以为MP4格式、AVI格式、rm格式、rmvb格式、mov格式、mtv格式、wmv格式和flv格式等等。具体实施例包括以下步骤:
S1、对视频进行文字识别,生成得到第一关键词;
本实施例中的文字识别方式可以通过ORC程序等方式进行识别。
S2、对视频进行语音识别,生成得到第二关键词;
本实施例中的语音识别可通过预设的语音识别模型进行识别,也可以通过预设的语音模板文件进行匹配处理。
S3、根据第一关键词和第二关键词,得到各视频对应的关键词集;
本实施例中,在得到第一关键词和第二关键词后,还需要对第一关键词和第二关键词进行预处理,其中预处理包括停用词删除和去重处理等等,经过预处理后得到的关键词即可形成得到关键词集。
S4、根据接收到的搜索指令,利用搜索指令中的第三关键词在关键词集中进行搜索,得到检索结果列表,所述检索结果列表包括搜索得到视频和所述视频对应的关键词集。
本实施例中通过识别视频中视频的文字和语音,从而能自动生成用于搜索的关键词集,有效避免了人工生成的片面性,而且通过两种方式的结合能有效提高关键词的全面性,大大提高检索时的准确性,能给用户带来更好的观看体验和搜索效率。
进一步作为优选的实施方式,还包括以下步骤:
S5、根据检索结果列表,对检索结果列表中的视频与其余视频进行相关度计算,得到检索结果列表中的视频与其余视频之间的相关度;
S6、根据相关度,将相关度最高的n个视频进行排列生成推荐视频列表,其中,n为正整数,n为预设值。
本实施例中通过得出的检索结果列表中的视频,计算其与其余视频池中的视频之间的相关度,相关度的计算可以通过计算视频对应数组之间的欧氏距离,也可以通过计算各自对应关键词集中的关键词相同个数,还可以计算各自对应关键词集中的关键词之间的欧氏距离等等。生成后的推荐视频列表会根据相关度从高到低将视频进行排列。
进一步作为优选的实施方式,本实施例中所述的对视频进行文字识别,生成得到第一关键词,这一步骤具体包括:
对视频进行解封装,得到视频码流;
对视频码流进行解码,得到视频帧;
对视频帧进行编码,得到视频截图;
对视频截图中的文字进行识别处理,得到视频文字;
对视频文字进行分词处理,得到第一关键词。
进一步作为优选的实施方式,所述的对视频进行语音识别,生成得到第二关键词,这一步骤具体包括:
对视频进行语音提取,得到语音数据;
对语音数据进行识别处理,生成得到第二关键词。
进一步作为优选的实施方式,所述的对语音数据进行识别处理,生成得到第二关键词,这一步骤具体包括:
根据语音数据,利用预设的语音识别模型进行匹配识别处理,得到识别结果;
对识别结果进行分词处理,得到第二关键词。
参考图2,本实施例提供了一种基于关键词的视频搜索***,包括:
第一识别单元,用于对视频进行文字识别,生成得到第一关键词;
第二识别单元,用于对视频进行语音识别,生成得到第二关键词;
关键词集生成单元,用于根据第一关键词和第二关键词,得到各视频对应的关键词集;
检索单元,用于根据接收到的搜索指令,利用搜索指令中的第三关键词在关键词集中进行搜索,得到检索结果列表,所述检索结果列表包括搜索得到视频和所述视频对应的关键词集。
上述方法实施例中的内容均适用于本***实施例中,本***实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
进一步作为优选的实施方式,还包括:
相关度计算单元,用于根据检索结果列表,对检索结果列表中的视频与其余视频进行相关度计算,得到检索结果列表中的视频与其余视频之间的相关度;
推荐单元,用于根据相关度,将相关度最高的n个视频进行排列生成推荐视频列表,其中,n为正整数,n为预设值。
进一步作为优选的实施方式,所述第一识别单元具体包括:
解封装单元,用于对视频进行解封装,得到视频码流;
解码单元,用于对视频码流进行解码,得到视频帧;
编码单元,用于对视频帧进行编码,得到视频截图;
文字识别单元,用于对视频截图中的文字进行识别处理,得到视频文字;
分词单元,用于对视频文字进行分词处理,得到第一关键词。
本实施例还提供了一种基于关键词的视频搜索装置,包括:
存储器,用于存放程序;
处理器,用于执行所述程序,所述程序使得所述处理器执行所述的基于关键词的视频搜索方法。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
本实施例提供了一种计算机可读存储介质,包括计算机程序,当所述计算机程序在计算机上运行时,使得所述的基于关键词的视频搜索方法被执行。
上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
从上述内容可知,本发明通过识别视频中视频的文字和语音,从而能自动生成用于搜索的关键词集,有效避免了人工生成的片面性,而且通过两种方式的结合能有效提高关键词的全面性,大大提高检索时的准确性,能给用户带来更好的观看体验和搜索效率。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种基于关键词的视频搜索方法,其特征在于,包括以下步骤:
对视频进行文字识别,生成得到第一关键词;
对视频进行语音识别,生成得到第二关键词;
根据第一关键词和第二关键词,得到各视频对应的关键词集;
根据接收到的搜索指令,利用搜索指令中的第三关键词在关键词集中进行搜索,得到检索结果列表,所述检索结果列表包括搜索得到视频和所述视频对应的关键词集。
2.根据权利要求1所述的一种基于关键词的视频搜索方法,其特征在于:还包括以下步骤:
根据检索结果列表,对检索结果列表中的视频与其余视频进行相关度计算,得到检索结果列表中的视频与其余视频之间的相关度;
根据相关度,将相关度最高的n个视频进行排列生成推荐视频列表,其中,n为正整数,n为预设值。
3.根据权利要求1所述的一种基于关键词的视频搜索方法,其特征在于:所述的对视频进行文字识别,生成得到第一关键词,这一步骤具体包括:
对视频进行解封装,得到视频码流;
对视频码流进行解码,得到视频帧;
对视频帧进行编码,得到视频截图;
对视频截图中的文字进行识别处理,得到视频文字;
对视频文字进行分词处理,得到第一关键词。
4.根据权利要求1所述的一种基于关键词的视频搜索方法,其特征在于:所述的对视频进行语音识别,生成得到第二关键词,这一步骤具体包括:
对视频进行语音提取,得到语音数据;
对语音数据进行识别处理,生成得到第二关键词。
5.根据权利要求4所述的一种基于关键词的视频搜索方法,其特征在于:所述的对语音数据进行识别处理,生成得到第二关键词,这一步骤具体包括:
根据语音数据,利用预设的语音识别模型进行匹配识别处理,得到识别结果;
对识别结果进行分词处理,得到第二关键词。
6.一种基于关键词的视频搜索***,其特征在于,包括:
第一识别单元,用于对视频进行文字识别,生成得到第一关键词;
第二识别单元,用于对视频进行语音识别,生成得到第二关键词;
关键词集生成单元,用于根据第一关键词和第二关键词,得到各视频对应的关键词集;
检索单元,用于根据接收到的搜索指令,利用搜索指令中的第三关键词在关键词集中进行搜索,得到检索结果列表,所述检索结果列表包括搜索得到视频和所述视频对应的关键词集。
7.根据权利要求6所述的一种基于关键词的视频搜索***,其特征在于:还包括:
相关度计算单元,用于根据检索结果列表,对检索结果列表中的视频与其余视频进行相关度计算,得到检索结果列表中的视频与其余视频之间的相关度;
推荐单元,用于根据相关度,将相关度最高的n个视频进行排列生成推荐视频列表,其中,n为正整数,n为预设值。
8.根据权利要求6所述的一种基于关键词的视频搜索***,其特征在于:所述第一识别单元具体包括:
解封装单元,用于对视频进行解封装,得到视频码流;
解码单元,用于对视频码流进行解码,得到视频帧;
编码单元,用于对视频帧进行编码,得到视频截图;
文字识别单元,用于对视频截图中的文字进行识别处理,得到视频文字;
分词单元,用于对视频文字进行分词处理,得到第一关键词。
9.一种基于关键词的视频搜索装置,其特征在于,包括:
存储器,用于存放程序;
处理器,用于执行所述程序,所述程序使得所述处理器执行如权利要求1~5任一项所述的基于关键词的视频搜索方法。
10.一种计算机可读存储介质,其特征在于,包括计算机程序,当所述计算机程序在计算机上运行时,使得如权利要求1~5任一项所述的基于关键词的视频搜索方法被执行。
CN201910837873.0A 2019-09-05 2019-09-05 一种基于关键词的视频搜索方法、***、装置及存储介质 Pending CN110750679A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910837873.0A CN110750679A (zh) 2019-09-05 2019-09-05 一种基于关键词的视频搜索方法、***、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910837873.0A CN110750679A (zh) 2019-09-05 2019-09-05 一种基于关键词的视频搜索方法、***、装置及存储介质

Publications (1)

Publication Number Publication Date
CN110750679A true CN110750679A (zh) 2020-02-04

Family

ID=69276063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910837873.0A Pending CN110750679A (zh) 2019-09-05 2019-09-05 一种基于关键词的视频搜索方法、***、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110750679A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405374A (zh) * 2020-04-16 2020-07-10 广东小天才科技有限公司 一种视频进度节点生成方法、装置、设备及存储介质
CN112019871A (zh) * 2020-09-07 2020-12-01 深圳中神电子科技有限公司 一种基于大数据的直播电商内容智能管理平台
CN112818275A (zh) * 2021-04-16 2021-05-18 泰德网聚(北京)科技股份有限公司 一种基于音视频的图文资源管理***
CN113435827A (zh) * 2021-05-31 2021-09-24 广州番禺职业技术学院 一种智慧场域下的课堂知识应用传播***

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405374A (zh) * 2020-04-16 2020-07-10 广东小天才科技有限公司 一种视频进度节点生成方法、装置、设备及存储介质
CN111405374B (zh) * 2020-04-16 2022-07-22 广东小天才科技有限公司 一种视频进度节点生成方法、装置、设备及存储介质
CN112019871A (zh) * 2020-09-07 2020-12-01 深圳中神电子科技有限公司 一种基于大数据的直播电商内容智能管理平台
CN112019871B (zh) * 2020-09-07 2021-05-04 深圳前海无忧信息服务有限公司 一种基于大数据的直播电商内容智能管理平台
CN112818275A (zh) * 2021-04-16 2021-05-18 泰德网聚(北京)科技股份有限公司 一种基于音视频的图文资源管理***
CN112818275B (zh) * 2021-04-16 2021-07-13 泰德网聚(北京)科技股份有限公司 一种基于音视频的图文资源管理***
CN113435827A (zh) * 2021-05-31 2021-09-24 广州番禺职业技术学院 一种智慧场域下的课堂知识应用传播***

Similar Documents

Publication Publication Date Title
CN111143610B (zh) 一种内容推荐方法、装置、电子设备和存储介质
US10824874B2 (en) Method and apparatus for processing video
CN110750679A (zh) 一种基于关键词的视频搜索方法、***、装置及存储介质
CN109819284B (zh) 一种短视频推荐方法、装置、计算机设备及存储介质
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
US8620906B2 (en) Detecting competitive product reviews
CN110740389B (zh) 视频定位方法、装置、计算机可读介质及电子设备
CN111400513B (zh) 数据处理方法、装置、计算机设备和存储介质
US20190188478A1 (en) Method and apparatus for obtaining video public opinions, computer device and storage medium
CN110377750B (zh) 评论生成及评论生成模型训练方法、装置及存储介质
CN111050191B (zh) 一种视频生成方法、装置、计算机设备和存储介质
CN109348262B (zh) 一种主播相似度的计算方法、装置、设备和存储介质
CN115269913A (zh) 一种基于注意力片段提示的视频检索方法
CN111046148A (zh) 智能交互***及智能客服机器人
US20190215579A1 (en) Derivative media content systems and methods
CN105045882A (zh) 一种热词处理方法及装置
CN115098729A (zh) 视频处理方法、样本生成方法、模型训练方法及装置
US10499121B2 (en) Derivative media content systems and methods
CN113869063A (zh) 数据推荐方法、装置、电子设备及存储介质
CN112417875A (zh) 配置信息的更新方法、装置、计算机设备及介质
CN112100491A (zh) 基于用户数据的信息推荐方法、装置、设备及存储介质
CN116028669A (zh) 一种基于短视频的视频搜索方法、装置、***和存储介质
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
CN114724072A (zh) 智能推题方法、装置、设备及存储介质
KR20220079042A (ko) 서비스 제공 프로그램 기록매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200204

WD01 Invention patent application deemed withdrawn after publication