CN110418159A - 一种基于声纹识别的跨屏截取电视内容的方法 - Google Patents
一种基于声纹识别的跨屏截取电视内容的方法 Download PDFInfo
- Publication number
- CN110418159A CN110418159A CN201811185574.5A CN201811185574A CN110418159A CN 110418159 A CN110418159 A CN 110418159A CN 201811185574 A CN201811185574 A CN 201811185574A CN 110418159 A CN110418159 A CN 110418159A
- Authority
- CN
- China
- Prior art keywords
- audio
- vocal print
- segment
- content
- duration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000001755 vocal effect Effects 0.000 claims abstract description 53
- 239000000284 extract Substances 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 208000001491 myopia Diseases 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 10
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 230000005611 electricity Effects 0.000 claims description 2
- 238000013139 quantization Methods 0.000 claims description 2
- 238000012706 support-vector machine Methods 0.000 claims description 2
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 5
- 238000006062 fragmentation reaction Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- XXQCMVYBAALAJK-UHFFFAOYSA-N ethyl n-[4-[benzyl(2-phenylethyl)amino]-2-(2-phenylethyl)-1h-imidazo[4,5-c]pyridin-6-yl]carbamate Chemical compound N=1C=2C(N(CCC=3C=CC=CC=3)CC=3C=CC=CC=3)=NC(NC(=O)OCC)=CC=2NC=1CCC1=CC=CC=C1 XXQCMVYBAALAJK-UHFFFAOYSA-N 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
- H04N21/2335—Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/258—Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
- H04N21/25866—Management of end-user data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4398—Processing of audio elementary streams involving reformatting operations of audio signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/4508—Management of client data or end-user data
- H04N21/4532—Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8547—Content authoring involving timestamps for synchronizing content
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Computer Graphics (AREA)
- Computer Security & Cryptography (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提供一种基于声纹识别的跨屏截取电视内容的方法,该方法所述方法包括如下步骤:S1:转码入库步骤;S2:分离音频步骤;S3:提取声纹及建立声纹库步骤;S4:录音片段声纹提取步骤;S5:录音片段声纹匹配步骤;S6:识别结果推送步骤;S7:短视频截取步骤;S8:短视频编辑发布步骤。该方法打破了传输物理网络的局限,业务应用范围无限制,可应用于模拟电视、有线电视、数字电视、IPTV等全部电视传输领域。并且该方法可以提取视频内的声纹,但是不能通过声纹还原成视频,数据传输无泄密风险,安全性高。
Description
技术领域
本发明属于电视内容截取领域,特别涉及一种基于声纹识别的跨屏截取电视内容的方法。
背景技术
随着经济的发展,多媒体机构越来越多,这些机构每天能生成不计其数的电影、电视剧、纪录片、综艺节目等多种长视频节目。由于版权等原因的限制,许多精彩的内容被局部受众在特定渠道才能观看到,例如在电视端某一直播频道首播的热播剧,移动终端用户无法进行下载、观看、转发等,并且用户观看内容的状态为静态单一的;又由于现在长视频资源越来越多,大部分用户没有足够的时间观看长视频,就会通过快进等手段来观看长视频,这样会造成遗漏很多精彩片段的情况。
为了解决上述问题,现有技术主要公开了两种长视频拆条碎片化的方法:第一种为编辑剪切,编辑人员根据自己的喜好和价值取向,选取自己认为优秀的片段,进行二次加工;第二种是比较流行的智能拆条,智能算法平台根据已知推荐经验设计算法,在某些关键帧位置进行拆条,生成短视频。经过以上拆条碎片化的短视频供用户进行观看,但上述公开的拆条碎片方式主要取决于拆条碎片化人员的观点和角度,存在很强的主观性,并且智能拆条存在着非常强的客观性,没有针对用户本身的兴趣和精神诉求作出及时的响应。
发明内容
为了解决现有技术中存在的问题,本发明提供了以下基于声纹识别的跨屏截取电视内容的方法。
本发明提供的第一种基于声纹识别的跨屏截取电视内容的方法包括如下步骤:
S1:转码入库步骤云端服务器监测频道源的直播或点播的音视频流,经转码后入电视媒资库,获得转码入库音视频流;
S2:分离音频步骤分离指定内容ID的转码入库音视频流,获取指定内容ID音频流;
S3:提取声纹及建立声纹库步骤基于声纹命令提取所述指定内容ID音频流的声音指纹,并将每个所述指定内容ID音频流的声音指纹放入声纹库;
S4:录音片段声纹提取步骤移动终端对正在播放的音视频流进行录音获取多段时长录音片段,然后提取该录音片段的声音指纹;
S5:录音片段声纹匹配步骤将多段时长录音片段的声音指纹与所述声纹库中的声音指纹进行匹配;匹配后,获取该正在播放的音视频流的内容ID和时间戳;
S6:识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后,再以时间戳为起点向前截取T时长的直播频道片段或点播节目片段,获得的带有识别结果的直播频道或点播节目片段推送给手机端;
S7:短视频截取步骤手机端获取所述直播频道或点播节目片段的播放窗口和截频拖拽条,用户根据所述播放窗口的内容拖动所述截频拖拽条发出截取命令来截取感兴趣的短视频;
S8:短视频编辑发布步骤为截取的所述短视频编辑标题并添加话题或标签后即可发布及分享。
本发明提供的第二种基于声纹识别的跨屏截取电视内容的方法包括如下步骤:
S1:转码入库步骤监测电视频道的直播或点播的音视频流,经转码后入电视媒资库,获得转码入库音视频流;
S2:分离音频步骤分离指定内容ID的转码入库音视频流,获取指定内容ID音频流;
S3:提取声纹及建立声纹库步骤基于声纹命令和采样时长指令提取所述指定内容ID音频流和时长的声音指纹,并将对每个所述指定内容ID音频流和时长的声音指纹入声纹库,每个采样时长均含有特征参数并按照时间顺序连接;
S4:录音片段声纹提取步骤移动终端对正在播放的音视频流进行录音获取多段时长录音片段,然后提取该录音片段的声音指纹;
S5:录音片段声纹匹配步骤将多段时长录音片段的声音指纹与所述声纹库中的声音指纹进行声纹匹配;匹配后,获取该正在播放的音视频流的内容ID;
S6:识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后,再以采样时长的特征参数匹配直播频道片段或点播节目片段,获得的带有识别结果的短视频推送给手机端;
S7:短视频获取步骤手机端获取所述短视频;
S8:短视频编辑发布步骤为所述短视频编辑标题并添加话题或标签后即可发布及分享。
本发明的有益效果为:本发明提供的方法通过声纹的方式可以快速地在声纹库里识别出电视直播频道或点播节目片段,发送给移动终端后进行截取编辑,该方法打破了传输物理网络的局限,业务应用范围无限制,可应用于模拟电视、有线电视、数字电视、IPTV等全部电视传输领域。视频可以提取声音形成对应唯一性的声纹,但通过声纹无法还原成视频,数据传输无泄密风险,安全性较高。
附图说明
图1为实施例1的基于声纹识别的跨屏截取电视内容的方法的流程图;
图2为实施例5的拖拽条操作界面示意图;
图3为实施例7的基于声纹识别的跨屏截取电视内容的方法的流程图。
具体实施方式
实施例1
本发明实施例1提供一种基于声纹识别的跨屏截取电视内容的方法,结合图1所示,该方法包括如下步骤:
S1:转码入库步骤安装有声纹SDK的云端服务器1监测频道源的卫星直播频道源信号接收采集5(直播)或点播节目上传6(点播)
的音视频流,其中云端服务器1电视媒资服务器2和声纹服务器3,经转存7、经转码(转为网络电视服务器可以识别的可在互联网传输的码流)储存形成电视媒资库4,获得转码入库音视频流;所述频道源包括来自IPTV、数字电视或模拟电视的音视频流,所述音视频流也可经过转码(比如将来自卫星的无线信号转为IPTV信号或数字信号)再进入步骤S1。
S2:分离音频步骤分离指定内容ID的转码入库音视频流,获取指定内容ID音频流;
S3:提取声纹及建立声纹库步骤基于声纹命令提取所述指定内容ID音频流的声音指纹,并将每个所述指定内容ID音频流的声音指纹储存形成声纹库13;所述内容ID包括直播频道ID和点播节目ID。
其中,SDK(Software Development Kit)为软件开发工具包,本发明声音指纹的提取的特征参数包括但不限于MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分以及GFCC中的一种或多种,其中:MFCC为梅尔频率倒谱系数,LPCC为线性预测倒谱系数,△MFCC为MFCC的一阶差分,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数。需要说明的是,采用其他特征参数也在本发明的构思之内。
继续结合图1所示,用户在手机端9进行内容截取需求触发8,进而启动识别10,然后进入S4步骤。
S4:录音片段声纹提取步骤手机端9对正在播放的音视频流自动发起形成录音文件11,获取多段时长录音片段12,分离音频19,再提取该录音片段的声纹,然后发送至声纹服务器3,因而仅需耗费较少的手机流量就可以完成上传;需要说明的是,在不考虑流量的情况下,比如将多时段长录音片段12直接上传给声纹服务器3也在本发明的构思之内。
S5:录音片段声纹匹配步骤将多段时长录音片段的声纹与所述声纹库13中的声纹进行声纹匹配;匹配后,获取该正在播放的音视频流的内容ID和时间戳;
本发明的声纹匹配包括概率统计方法、DTW、VQ、HMM、ANN、SVM、DBN中的一种或多种,其中:DTW为动态时间规整、VQ为矢量量化、HMM为隐马尔可夫模型、ANN为人工神经网络方法、SVM为支持向量机、DBN为动态贝叶斯网络。需要说明的是,采用其他声纹匹配方法也在本发明的构思之内。
S6:识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后,再以时间戳为终止时间向前截取T时长的直播频道片段或点播节目片段,获得的带有识别结果的直播频道或点播节目片段推送给手机端;
S7:短视频截取步骤手机端获取所述直播频道或点播节目片段的播放窗口和截频拖拽条,用户根据所述播放窗口的内容拖动所述截频拖拽条发出截取命令来截取感兴趣的短视频;
S8:短视频编辑发布步骤为截取的所述短视频编辑标题并添加话题或标签后即可发布及分享。
实施例2
实施例2是在实施例1的基础上提供的基于声纹识别的跨屏截取电视内容的方法,所述多段时长录音片段包括m段T时长的录音片段,第m段录音片段大于第m-1段录音片段的时长,Tm>Tm-1。当m=3时,T1为3s、T2为5s、T3为15s。
实施例3
实施例3是在实施例2的基础上提供的基于声纹识别的跨屏截取电视内容的方法,所述匹配为m段录音片段依次匹配。即,依次匹配m1、m2、m3直至匹配成功为止,如果仍为匹配到则需再次获取多段时长录音片段进行匹配。
实施例4
实施例4是在实施例2的基础上提供的基于声纹识别的跨屏截取电视内容的方法,所述匹配为m段录音片段依次累积匹配。首先匹配m1,如果没有匹配就将m1和m2的取样点合并继续匹配,如果还没有匹配,就将m1、m2、m3取样点合并继续匹配,如果仍为匹配到则需再次获取多段时长录音片段进行匹配。由于是累积使用采用点,匹配成功率较高,匹配速度更快。
实施例5
实施例5所述的基于声纹识别的跨屏截取电视节目的方法,所述截频拖拽条显示与所述播放内容的定位时间坐标对应的帧画面,供用户进行选择。如图2所示,截频拖拽条14包括左右拖键15,播放窗口16用于播放直播频道或点播节目片段,定位时间坐标17对应帧画面18,方便用户选择。
实施例6
实施例6是在实施例1的基础上提供的基于声纹识别的跨屏截取电视节目的方法,所述S3步骤中,所述声纹命令包括采样时长命令,所述采样时长命令包括指定转码入库音视频流的时长和采样频率。因而,在云端服务器就可以选择性控制哪些转码入库音视频发送给声纹服务器建立声纹库,以及确定采集声纹特征的采样频率和时长。避免了重复或无效内容进入声纹库,使得声纹识别更加准确。
实施例7
实施例7提供了一种基于声纹识别的跨屏截取电视内容的方法,结合图3所示,所述方法包括如下步骤:
S1:转码入库步骤监测电视频道的直播或点播的音视频流,经转码后入电视媒资库,获得转码入库音视频流;
S2:分离音频步骤分离指定内容ID的转码入库音视频流,获取指定内容ID音频流;
S3:提取声纹及建立声纹库步骤基于声纹命令和采样时长指令提取所述指定内容ID音频流和时长的声音指纹,并将对每个所述指定内容ID音频流和时长的声音指纹入声纹库;
下面示例说明声音指纹建立过程但是采用其他公开方法也在本发明构思之内:提音频的取频谱,将提取的频谱数据进行极大值计算,以极大值对应的坐标为依据将采样时长内,频率和时间进行HASH计算生成25位的特征值,生成一个声音指纹,若干声音指纹即构建成一个声纹库。
S4:录音片段声纹提取步骤移动终端对正在播放的音视频流进行录音获取多段时长录音片段,然后提取该录音片段的声音指纹;
S5:录音片段声纹匹配步骤将多段时长录音片段的声音指纹与所述声纹库中的声纹进行声纹匹配;匹配后,获取该正在播放的音视频流的内容ID;
S6:识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后,再以采样时长的特征参数匹配直播频道片段或点播节目片段,获得的带有识别结果的短视频推送给手机端;
S7:声纹短视频获取步骤手机端获取所述短视频;
S8:声纹短视频编辑发布步骤为所述短视频编辑标题并添加话题或标签后即可发布及分享。
本方法的优势是将截取短视频与声纹提前同步完成,用户无需拖拽即可快速获取短视频进行发布及分享。
本发明不局限于上述最佳实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本申请相同或相近似的技术方案,均落在本发明的保护范围之内。
Claims (10)
1.一种基于声纹识别的跨屏截取电视内容的方法,其特征在于,所述方法包括如下步骤:
S1:转码入库步骤云端服务器监测频道源的直播或点播的音视频流,经转码后存入电视媒资库,获得转码入库音视频流;
S2:分离音频步骤分离指定内容ID的转码入库音视频流,获取指定内容ID音频流;
S3:提取声纹及建立声纹库步骤基于声纹命令提取所述指定内容ID音频流的声音指纹,并将每个所述指定内容ID音频流的声音指纹存储形成声纹库;所述内容ID包括直播频道ID和点播节目ID;
S4:录音片段声纹提取步骤移动终端对正在播放的音视频流进行录音获取多段时长录音片段,然后提取每个录音片段的声音指纹;
S5:录音片段声纹匹配步骤将所述录音片段的声音指纹与所述声纹库中的声音指纹进行匹配;匹配后,获取该正在播放的音视频流的内容ID和时间戳;
S6:识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后,再以时间戳为起点向前截取T时长的直播频道片段或点播节目片段,获得的带有识别结果的直播频道或点播节目片段推送给手机端;
S7:短视频截取步骤手机端获取所述直播频道或点播节目片段的播放窗口和截频拖拽条,用户根据所述播放窗口播放的所述直播频道或点播节目片段拖动所述截频拖拽条发出截取命令来截取感兴趣的短视频;
S8:短视频编辑发布步骤为截取的所述短视频编辑标题并添加话题或标签后即可发布及分享。
2.如权利要求1所述的基于声纹识别的跨屏截取电视内容的方法,其特征在于,所述频道源包括来自IPTV、数字电视或模拟电视的音视频流,所述音视频流经过转码再进入步骤S1。
3.如权利要求3所述的基于声纹识别的跨屏截取电视内容的方法,其特征在于,所述多段时长录音片段包括m段T时长的录音片段,第m段录音片段大于第m-1段录音片段的时长,Tm>Tm-1。
4.如权利要求4所述的基于声纹识别的跨屏截取电视内容的方法,其特征在于,m为3时,T优选为3s、5s和15s。
5.如权利要求5所述的基于声纹识别的跨屏截取电视节目的方法,其特征在于,所述匹配为m段录音片段依次匹配。
6.如权利要求1所述的基于声纹识别的跨屏截取电视节目的方法,其特征在于,所述匹配为m段录音片段依次累积匹配。
7.如权利要求1所述的基于声纹识别的跨屏截取电视节目的方法,其特征在于,所述截频拖拽条显示与所述播放内容的定位时间坐标对应的帧画面,供用户进行选择。
8.如权利要求1所述的基于声纹识别的跨屏截取电视内容的方法,其特征在于:所述声音指纹的提取的特征参数包括MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分以及GFCC中的一种或多种,其中:MFCC为梅尔频率倒谱系数,LPCC为线性预测倒谱系数,△MFCC为MFCC的一阶差分,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数;
所述声纹匹配包括概率统计方法、DTW、VQ、HMM、ANN、SVM、DBN中的一种或多种,其中:DTW为动态时间规整、VQ为矢量量化、HMM为隐马尔可夫模型、ANN为人工神经网络方法、SVM为支持向量机、DBN为动态贝叶斯网络。
9.如权利要求1所述的基于声纹识别的跨屏截取电视内容的方法,其特征在于,所述S3步骤中,所述声纹命令包括采样时长命令,所述采样时长命令包括指定转码入库音视频流的时长和采样频率。
10.一种基于声纹识别的跨屏截取电视内容的方法,其特征在于,所述方法包括如下步骤:
S1:转码入库步骤监测电视频道的直播或点播的音视频流,经转码后入电视媒资库,获得转码入库音视频流;
S2:分离音频步骤分离指定内容ID的转码入库音视频流,获取指定内容ID音频流;
S3:提取声纹及建立声纹库步骤基于声纹命令和采样时长指令提取所述指定内容ID音频流和时长的声音指纹,并将对每个所述指定内容ID音频流和采样时长的声音指纹入声纹库;所述内容ID包括直播频道ID和点播节目ID,每个采样时长均含有特征参数并按照时间顺序连接;
S4:录音片段声纹提取步骤移动终端对正在播放的音视频流进行录音获取多段时长录音片段,然后提取该录音片段的声音指纹;
S5:录音片段声纹匹配步骤将多段时长录音片段的声音指纹与所述声纹库中的声音指纹进行声纹匹配;匹配后,获取该正在播放的音视频流的内容ID;
S6:识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后,再以采样时长的特征参数匹配到该时长对应的直播频道片段或点播节目片段,获得的带有识别结果的直播频道或点播节目片段推送给手机端;
S7:短视频获取步骤手机端获取所述直播频道或点播节目片段;
S8:短视频编辑发布步骤为所述短视频编辑标题并添加话题或标签后即可发布及分享。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811185574.5A CN110418159A (zh) | 2018-10-11 | 2018-10-11 | 一种基于声纹识别的跨屏截取电视内容的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811185574.5A CN110418159A (zh) | 2018-10-11 | 2018-10-11 | 一种基于声纹识别的跨屏截取电视内容的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110418159A true CN110418159A (zh) | 2019-11-05 |
Family
ID=68358068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811185574.5A Pending CN110418159A (zh) | 2018-10-11 | 2018-10-11 | 一种基于声纹识别的跨屏截取电视内容的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110418159A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111182347A (zh) * | 2020-01-07 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 视频片段剪切方法、装置、计算机设备和存储介质 |
CN111402926A (zh) * | 2020-03-19 | 2020-07-10 | 中国电影科学技术研究所 | 影院放映内容的检测方法、装置、设备及智能网络传感器 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110078729A1 (en) * | 2009-09-30 | 2011-03-31 | Lajoie Dan | Systems and methods for identifying audio content using an interactive media guidance application |
US20120008821A1 (en) * | 2010-05-10 | 2012-01-12 | Videosurf, Inc | Video visual and audio query |
CN104125509A (zh) * | 2013-04-28 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 节目识别方法、装置及服务器 |
CN104378683A (zh) * | 2014-05-29 | 2015-02-25 | 腾讯科技(深圳)有限公司 | 基于节目的交互方法和装置 |
CN104796729A (zh) * | 2015-04-09 | 2015-07-22 | 宁波创视信息技术有限公司 | 高清晰实时获取电视播放画面的方法 |
CN104883607A (zh) * | 2015-06-05 | 2015-09-02 | 广东欧珀移动通信有限公司 | 一种视频截图或剪切的方法、装置及移动设备 |
CN104991946A (zh) * | 2015-07-13 | 2015-10-21 | 联想(北京)有限公司 | 一种信息处理方法、服务器和用户设备 |
CN105828099A (zh) * | 2015-11-09 | 2016-08-03 | 深圳市讯联智付网络有限公司 | 通过新媒体技术平实现媒体文件与观众互动的方法及*** |
CN106162357A (zh) * | 2016-05-31 | 2016-11-23 | 腾讯科技(深圳)有限公司 | 获取视频内容的方法及装置 |
US20170024441A1 (en) * | 2015-03-10 | 2017-01-26 | Compact Disc Express, Inc. | Systems and methods for continuously detecting and identifying songs in a continuous audio stream |
CN106802960A (zh) * | 2017-01-19 | 2017-06-06 | 湖南大学 | 一种基于音频指纹的分片音频检索方法 |
CN107484015A (zh) * | 2016-06-08 | 2017-12-15 | 腾讯科技(深圳)有限公司 | 节目处理方法及装置、终端 |
CN107613318A (zh) * | 2016-07-12 | 2018-01-19 | 上海视畅信息科技有限公司 | 一种基于声纹识别的电视广告和频道识别方法 |
-
2018
- 2018-10-11 CN CN201811185574.5A patent/CN110418159A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110078729A1 (en) * | 2009-09-30 | 2011-03-31 | Lajoie Dan | Systems and methods for identifying audio content using an interactive media guidance application |
US20120008821A1 (en) * | 2010-05-10 | 2012-01-12 | Videosurf, Inc | Video visual and audio query |
CN104125509A (zh) * | 2013-04-28 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 节目识别方法、装置及服务器 |
CN104378683A (zh) * | 2014-05-29 | 2015-02-25 | 腾讯科技(深圳)有限公司 | 基于节目的交互方法和装置 |
US20170024441A1 (en) * | 2015-03-10 | 2017-01-26 | Compact Disc Express, Inc. | Systems and methods for continuously detecting and identifying songs in a continuous audio stream |
CN104796729A (zh) * | 2015-04-09 | 2015-07-22 | 宁波创视信息技术有限公司 | 高清晰实时获取电视播放画面的方法 |
CN104883607A (zh) * | 2015-06-05 | 2015-09-02 | 广东欧珀移动通信有限公司 | 一种视频截图或剪切的方法、装置及移动设备 |
CN104991946A (zh) * | 2015-07-13 | 2015-10-21 | 联想(北京)有限公司 | 一种信息处理方法、服务器和用户设备 |
CN105828099A (zh) * | 2015-11-09 | 2016-08-03 | 深圳市讯联智付网络有限公司 | 通过新媒体技术平实现媒体文件与观众互动的方法及*** |
CN106162357A (zh) * | 2016-05-31 | 2016-11-23 | 腾讯科技(深圳)有限公司 | 获取视频内容的方法及装置 |
CN107484015A (zh) * | 2016-06-08 | 2017-12-15 | 腾讯科技(深圳)有限公司 | 节目处理方法及装置、终端 |
CN107613318A (zh) * | 2016-07-12 | 2018-01-19 | 上海视畅信息科技有限公司 | 一种基于声纹识别的电视广告和频道识别方法 |
CN106802960A (zh) * | 2017-01-19 | 2017-06-06 | 湖南大学 | 一种基于音频指纹的分片音频检索方法 |
Non-Patent Citations (2)
Title |
---|
杨盈昀,王彩虹: "《数字电视网络制播技术》", 31 October 2016 * |
申时凯,佘玉梅: "《物联网的技术开发与应用研究》", 31 October 2017 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111182347A (zh) * | 2020-01-07 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 视频片段剪切方法、装置、计算机设备和存储介质 |
CN111402926A (zh) * | 2020-03-19 | 2020-07-10 | 中国电影科学技术研究所 | 影院放映内容的检测方法、装置、设备及智能网络传感器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10034037B2 (en) | Fingerprint-based inter-destination media synchronization | |
KR101945920B1 (ko) | 비디오 방송에 적용되는 인터랙션 방법 및 장치 | |
US20200051582A1 (en) | Generating and/or Displaying Synchronized Captions | |
EP2552109B1 (en) | Content playback at variable speed | |
WO2016054916A1 (zh) | 视频内容的推荐、评价方法及装置 | |
US20150082349A1 (en) | Content Based Video Content Segmentation | |
CN108924576A (zh) | 一种视频标注方法、装置、设备及介质 | |
CN109089154A (zh) | 一种视频提取方法、装置、设备及介质 | |
US11758245B2 (en) | Interactive media events | |
EP2773108B1 (en) | Reception device, reception method, program, and information processing system | |
CN109089128A (zh) | 一种视频处理方法、装置、设备及介质 | |
WO2015196749A1 (zh) | 基于场景识别的信息推荐方法及装置 | |
US20220394328A1 (en) | Consolidated Watch Parties | |
CN110418159A (zh) | 一种基于声纹识别的跨屏截取电视内容的方法 | |
EP3920539A1 (en) | Systems and methods for providing audio-video streams with alternative content | |
KR20150082074A (ko) | 컨텐츠 정보를 제공하는 서비스 서버 및 컨텐츠 정보 제공방법 | |
CN112784070A (zh) | 一种基于大数据的用户画像方法 | |
US20230328320A1 (en) | Methods and systems to provide a playlist for simultaneous presentation of a plurality of media assets | |
EP3140991B1 (en) | Synchronizing broadcast timeline metadata | |
EP2811752B1 (en) | Synchronization between multimedia flows and social network threads | |
WO2023044420A1 (en) | Methods and systems to provide a playlist for simultaneous presentation of a plurality of media assets | |
CN109218772A (zh) | 智能电视信息推送方法及装置 | |
US20220264193A1 (en) | Program production apparatus, program production method, and recording medium | |
US20190129957A1 (en) | System and method for providing additional information based on multimedia content being viewed | |
US20230091730A1 (en) | Methods and systems to provide a playlist for simultaneous presentation of a plurality of media assets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20221018 |
|
AD01 | Patent right deemed abandoned |