CN113129924A - 一种基于计算机视觉的音视频内容自动标签提取方法 - Google Patents
一种基于计算机视觉的音视频内容自动标签提取方法 Download PDFInfo
- Publication number
- CN113129924A CN113129924A CN202110343367.3A CN202110343367A CN113129924A CN 113129924 A CN113129924 A CN 113129924A CN 202110343367 A CN202110343367 A CN 202110343367A CN 113129924 A CN113129924 A CN 113129924A
- Authority
- CN
- China
- Prior art keywords
- audio
- video
- information
- tags
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 40
- 238000002372 labelling Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 10
- 238000005034 decoration Methods 0.000 claims abstract description 8
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/835—Generation of protective data, e.g. certificates
- H04N21/8352—Generation of protective data, e.g. certificates involving content or source identification data, e.g. Unique Material Identifier [UMID]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于计算机视觉的音视频内容自动标签提取方法,包括以下步骤:S1:音视频播放:对音视频进行播放,设置播放倍数;S2:音频内容存储:对播放内容的音频信息进行识别,识别完成后进行提取,将提取的信息进行存储;S3:视频内容标注:对视频内容信息进行标注;S4:关键提取:对音频信息中的关键内容进行提取,设定标签;S5:标签选择:对设定的标签进行选择,选择一个设定的标签;S6:标签点缀:对设定的标签进行点缀处理,设定好文库,对文库中各个单元信息设置不同点缀。本发明音视频内容自动标签提取准确性较高,提取的结果误差较小,并且观赏性较好,能够对含有不健康内容的视频进行剔除。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于计算机视觉的音视频内容自动标签提取方法。
背景技术
随着互联网和教育云的蓬勃发展,教育教学类资源玲琅满目、参差不齐。对于教师、学生而言,可以通过少量的元数据,如标题等来判断资源是否是自身所需,这种方式较依赖于元数据,标题中的错别字可能都会影响用户的判断;也可能需要完整浏览整个音视频才能确定此资源的内容是否为所需的资源,而完整浏览整个音视频会比较耗时。可见,传统的这种音视频获取方式已经无法满足当前从海量互联网资源中快速获取满足自身要求资源的需求。
目前对音视频内容自动标签提取准确性较差,提取的结果误差较大,并且观赏性较差,不能够对含有不健康内容的视频进行剔除。
发明内容
基于背景技术存在的音视频内容自动标签提取准确性较差,提取的结果误差较大,并且观赏性较差,不能够对含有不健康内容的视频进行剔除的技术问题,本发明提出了一种基于计算机视觉的音视频内容自动标签提取方法。
本发明提出的一种基于计算机视觉的音视频内容自动标签提取方法,包括以下步骤:
S1:音视频播放:对音视频进行播放,设置播放倍数;
S2:音频内容存储:对播放内容的音频信息进行识别,识别完成后进行提取,将提取的信息进行存储;
S3:视频内容标注:对视频内容信息进行标注;
S4:关键提取:对音频信息中的关键内容进行提取,设定标签;
S5:标签选择:对设定的标签进行选择,选择一个设定的标签;
S6:标签点缀:对设定的标签进行点缀处理。
优选地,所述S1中,播放倍数设置为0.25-1。
优选地,所述S2中,提取的次数为2-6次,并删去低于平均值的提取结果。
优选地,所述S3中,提前输入违禁视频信息,将需要提取的视频与违禁视频信息进行对比,实现对视频信息进行标注。
优选地,所述S3中,在标注不合格时需要提交的后台,让后台工作人员进行进一步审核。
优选地,所述S4中,设定标签数量为2-5个。
优选地,所述S5中,人工对设定的标签进行选择。
优选地,所述S6中,设定好文库,对文库中各个单元信息设置不同点缀,设定的标签输入到文库中,标签与文库中的信息进行匹配,根据匹配结果完成点缀。
本发明的有益效果:首先对音视频进行播放,设置播放倍数,然后对音频信息进行识别提取,提取完成后对提取的内容进行存储,能够进行多次提取,提高提取音频准确性,然后对视频内容进行审核标注,确保视频内容满足播放条件,能够对含有不健康内容的视频进行剔除,将存储的内容进行多个关键提取,通过人员进行选择合适的关键标签,最后对选择的关键标签进行点缀,提高观赏性。
本发明音视频内容自动标签提取准确性较高,提取的结果误差较小,并且观赏性较好,能够对含有不健康内容的视频进行剔除。
具体实施方式
下面结合具体实施例对本发明作进一步解说。
实施例一
本实施例中提出了一种基于计算机视觉的音视频内容自动标签提取方法,包括以下步骤:
S1:音视频播放:对音视频进行播放,设置播放倍数;
S2:音频内容存储:对播放内容的音频信息进行识别,识别完成后进行提取,将提取的信息进行存储;
S3:视频内容标注:对视频内容信息进行标注;
S4:关键提取:对音频信息中的关键内容进行提取,设定标签;
S5:标签选择:对设定的标签进行选择,选择一个设定的标签;
S6:标签点缀:对设定的标签进行点缀处理。
本实施例中,S1中,播放倍数设置为0.25,S2中,提取的次数为2次,并删去低于平均值的提取结果,S3中,提前输入违禁视频信息,将需要提取的视频与违禁视频信息进行对比,实现对视频信息进行标注,S3中,在标注不合格时需要提交的后台,让后台工作人员进行进一步审核,S4中,设定标签数量为2个,S5中,人工对设定的标签进行选择,S6中,设定好文库,对文库中各个单元信息设置不同点缀,设定的标签输入到文库中,标签与文库中的信息进行匹配,根据匹配结果完成点缀。
实施例二
本实施例中提出了一种基于计算机视觉的音视频内容自动标签提取方法,包括以下步骤:
S1:音视频播放:对音视频进行播放,设置播放倍数;
S2:音频内容存储:对播放内容的音频信息进行识别,识别完成后进行提取,将提取的信息进行存储;
S3:视频内容标注:对视频内容信息进行标注;
S4:关键提取:对音频信息中的关键内容进行提取,设定标签;
S5:标签选择:对设定的标签进行选择,选择一个设定的标签;
S6:标签点缀:对设定的标签进行点缀处理。
本实施例中,S1中,播放倍数设置为0.5,S2中,提取的次数为3次,并删去低于平均值的提取结果,S3中,提前输入违禁视频信息,将需要提取的视频与违禁视频信息进行对比,实现对视频信息进行标注,S3中,在标注不合格时需要提交的后台,让后台工作人员进行进一步审核,S4中,设定标签数量为3个,S5中,人工对设定的标签进行选择,S6中,设定好文库,对文库中各个单元信息设置不同点缀,设定的标签输入到文库中,标签与文库中的信息进行匹配,根据匹配结果完成点缀。
实施例三
本实施例中提出了一种基于计算机视觉的音视频内容自动标签提取方法,包括以下步骤:
S1:音视频播放:对音视频进行播放,设置播放倍数;
S2:音频内容存储:对播放内容的音频信息进行识别,识别完成后进行提取,将提取的信息进行存储;
S3:视频内容标注:对视频内容信息进行标注;
S4:关键提取:对音频信息中的关键内容进行提取,设定标签;
S5:标签选择:对设定的标签进行选择,选择一个设定的标签;
S6:标签点缀:对设定的标签进行点缀处理。
本实施例中,S1中,播放倍数设置为0.5,S2中,提取的次数为4次,并删去低于平均值的提取结果,S3中,提前输入违禁视频信息,将需要提取的视频与违禁视频信息进行对比,实现对视频信息进行标注,S3中,在标注不合格时需要提交的后台,让后台工作人员进行进一步审核,S4中,设定标签数量为4个,S5中,人工对设定的标签进行选择,S6中,设定好文库,对文库中各个单元信息设置不同点缀,设定的标签输入到文库中,标签与文库中的信息进行匹配,根据匹配结果完成点缀。
实施例四
本实施例中提出了一种基于计算机视觉的音视频内容自动标签提取方法,包括以下步骤:
S1:音视频播放:对音视频进行播放,设置播放倍数;
S2:音频内容存储:对播放内容的音频信息进行识别,识别完成后进行提取,将提取的信息进行存储;
S3:视频内容标注:对视频内容信息进行标注;
S4:关键提取:对音频信息中的关键内容进行提取,设定标签;
S5:标签选择:对设定的标签进行选择,选择一个设定的标签;
S6:标签点缀:对设定的标签进行点缀处理。
本实施例中,S1中,播放倍数设置为0.75,S2中,提取的次数为5次,并删去低于平均值的提取结果,S3中,提前输入违禁视频信息,将需要提取的视频与违禁视频信息进行对比,实现对视频信息进行标注,S3中,在标注不合格时需要提交的后台,让后台工作人员进行进一步审核,S4中,设定标签数量为4个,S5中,人工对设定的标签进行选择,S6中,设定好文库,对文库中各个单元信息设置不同点缀,设定的标签输入到文库中,标签与文库中的信息进行匹配,根据匹配结果完成点缀。
实施例五
本实施例中提出了一种基于计算机视觉的音视频内容自动标签提取方法,包括以下步骤:
S1:音视频播放:对音视频进行播放,设置播放倍数;
S2:音频内容存储:对播放内容的音频信息进行识别,识别完成后进行提取,将提取的信息进行存储;
S3:视频内容标注:对视频内容信息进行标注;
S4:关键提取:对音频信息中的关键内容进行提取,设定标签;
S5:标签选择:对设定的标签进行选择,选择一个设定的标签;
S6:标签点缀:对设定的标签进行点缀处理。
本实施例中,S1中,播放倍数设置为1,S2中,提取的次数为6次,并删去低于平均值的提取结果,S3中,提前输入违禁视频信息,将需要提取的视频与违禁视频信息进行对比,实现对视频信息进行标注,S3中,在标注不合格时需要提交的后台,让后台工作人员进行进一步审核,S4中,设定标签数量为5个,S5中,人工对设定的标签进行选择,S6中,设定好文库,对文库中各个单元信息设置不同点缀,设定的标签输入到文库中,标签与文库中的信息进行匹配,根据匹配结果完成点缀。
对提取标签准确性的研究:
选取五个音视频,然后采用实施例一和实施例五对五个音视频进行标签提取:
结果表明,采用本发明对标签提取的准确性较高,误差较小,并且实施例三为最佳实施例。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种基于计算机视觉的音视频内容自动标签提取方法,其特征在于,包括以下步骤:
S1:音视频播放:对音视频进行播放,设置播放倍数;
S2:音频内容存储:对播放内容的音频信息进行识别,识别完成后进行提取,将提取的信息进行存储;
S3:视频内容标注:对视频内容信息进行标注;
S4:关键提取:对音频信息中的关键内容进行提取,设定标签;
S5:标签选择:对设定的标签进行选择,选择一个设定的标签;
S6:标签点缀:对设定的标签进行点缀处理。
2.根据权利要求1所述的一种基于计算机视觉的音视频内容自动标签提取方法,其特征在于,所述S1中,播放倍数设置为0.25-1。
3.根据权利要求1所述的一种基于计算机视觉的音视频内容自动标签提取方法,其特征在于,所述S2中,提取的次数为2-6次,并删去低于平均值的提取结果。
4.根据权利要求1所述的一种基于计算机视觉的音视频内容自动标签提取方法,其特征在于,所述S3中,提前输入违禁视频信息,将需要提取的视频与违禁视频信息进行对比,实现对视频信息进行标注。
5.根据权利要求1所述的一种基于计算机视觉的音视频内容自动标签提取方法,其特征在于,所述S3中,在标注不合格时需要提交的后台,让后台工作人员进行进一步审核。
6.根据权利要求1所述的一种基于计算机视觉的音视频内容自动标签提取方法,其特征在于,所述S4中,设定标签数量为2-5个。
7.根据权利要求1所述的一种基于计算机视觉的音视频内容自动标签提取方法,其特征在于,所述S5中,人工对设定的标签进行选择。
8.根据权利要求1所述的一种基于计算机视觉的音视频内容自动标签提取方法,其特征在于,所述S6中,设定好文库,对文库中各个单元信息设置不同点缀,设定的标签输入到文库中,标签与文库中的信息进行匹配,根据匹配结果完成点缀。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110343367.3A CN113129924A (zh) | 2021-03-30 | 2021-03-30 | 一种基于计算机视觉的音视频内容自动标签提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110343367.3A CN113129924A (zh) | 2021-03-30 | 2021-03-30 | 一种基于计算机视觉的音视频内容自动标签提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113129924A true CN113129924A (zh) | 2021-07-16 |
Family
ID=76775025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110343367.3A Pending CN113129924A (zh) | 2021-03-30 | 2021-03-30 | 一种基于计算机视觉的音视频内容自动标签提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113129924A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103414948A (zh) * | 2013-08-01 | 2013-11-27 | 王强 | 一种视频的播放方法和装置 |
CN104090955A (zh) * | 2014-07-07 | 2014-10-08 | 科大讯飞股份有限公司 | 一种音视频标签自动标注方法及*** |
CN107529068A (zh) * | 2016-06-21 | 2017-12-29 | 北京新岸线网络技术有限公司 | 视频内容鉴别方法及*** |
CN108447501A (zh) * | 2018-03-27 | 2018-08-24 | 中南大学 | 一种云存储环境下基于音频字的盗版视频检测方法与*** |
CN110149530A (zh) * | 2018-06-15 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 一种视频处理方法和装置 |
WO2020231385A1 (en) * | 2019-05-10 | 2020-11-19 | Hewlett-Packard Development Company L.P. | Tagging audio/visual content with reaction context |
-
2021
- 2021-03-30 CN CN202110343367.3A patent/CN113129924A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103414948A (zh) * | 2013-08-01 | 2013-11-27 | 王强 | 一种视频的播放方法和装置 |
CN104090955A (zh) * | 2014-07-07 | 2014-10-08 | 科大讯飞股份有限公司 | 一种音视频标签自动标注方法及*** |
CN107529068A (zh) * | 2016-06-21 | 2017-12-29 | 北京新岸线网络技术有限公司 | 视频内容鉴别方法及*** |
CN108447501A (zh) * | 2018-03-27 | 2018-08-24 | 中南大学 | 一种云存储环境下基于音频字的盗版视频检测方法与*** |
CN110149530A (zh) * | 2018-06-15 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 一种视频处理方法和装置 |
WO2020231385A1 (en) * | 2019-05-10 | 2020-11-19 | Hewlett-Packard Development Company L.P. | Tagging audio/visual content with reaction context |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021082668A1 (zh) | 一种弹幕编辑方法、智能终端及存储介质 | |
US11270123B2 (en) | System and method for generating localized contextual video annotation | |
CN111683209B (zh) | 混剪视频的生成方法、装置、电子设备及计算机可读存储介质 | |
US10552754B2 (en) | Systems and methods for recognizing ambiguity in metadata | |
CN110719518A (zh) | 多媒体数据处理方法、装置和设备 | |
CN106937172A (zh) | 基于人工智能的视频播放时的互动方法及装置 | |
US20090259955A1 (en) | System and method for providing digital multimedia presentations | |
US20160171003A1 (en) | An apparatus of providing comments and statistical information for each section of video contents and the method thereof | |
CN108307229A (zh) | 一种影音数据的处理方法及设备 | |
CN109408672B (zh) | 一种文章生成方法、装置、服务器及存储介质 | |
CN103052953A (zh) | 信息处理设备、信息处理方法和程序 | |
CN102256030A (zh) | 可匹配背景音乐的相册演示***及其背景音乐匹配方法 | |
CN110505498A (zh) | 视频的处理、播放方法、装置及计算机可读介质 | |
CN109165316A (zh) | 一种视频处理方法、视频索引方法、装置及终端设备 | |
CN109688484A (zh) | 一种教学视频学习方法及*** | |
CN106802913A (zh) | 一种播放内容推荐方法及其装置 | |
CN107180055A (zh) | 业务对象的展示方法及装置 | |
CN105807917A (zh) | 一种辅助用户识字的方法及装置 | |
US11010398B2 (en) | Metadata extraction and management | |
Imran et al. | Multimedia learning objects framework for e-learning | |
CN113129924A (zh) | 一种基于计算机视觉的音视频内容自动标签提取方法 | |
CN103503469B (zh) | 分阶段元素的分类*** | |
US8214854B2 (en) | Method and system for facilitating analysis of audience ratings data for content | |
CN106936830A (zh) | 一种多媒体数据的播放方法和装置 | |
Liu et al. | MND: A New Dataset and Benchmark of Movie Scenes Classified by Their Narrative Function |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100176 3203, 32nd floor, building 2, yard 1, Ronghua South Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing Applicant after: Beijing Zeqiao Medical Technology Co.,Ltd. Address before: 100176 3203, 32nd floor, building 2, yard 1, Ronghua South Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing Applicant before: Beijing Zeqiao Media Technology Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210716 |