CN110418159A - 一种基于声纹识别的跨屏截取电视内容的方法 - Google Patents

一种基于声纹识别的跨屏截取电视内容的方法 Download PDF

Info

Publication number
CN110418159A
CN110418159A CN201811185574.5A CN201811185574A CN110418159A CN 110418159 A CN110418159 A CN 110418159A CN 201811185574 A CN201811185574 A CN 201811185574A CN 110418159 A CN110418159 A CN 110418159A
Authority
CN
China
Prior art keywords
audio
vocal print
segment
content
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811185574.5A
Other languages
English (en)
Inventor
刘晓初
黄克
叶小蕾
张元�
王伟
周为
张战军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Caiyun End Culture Media (beijing) Co Ltd
Original Assignee
Caiyun End Culture Media (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Caiyun End Culture Media (beijing) Co Ltd filed Critical Caiyun End Culture Media (beijing) Co Ltd
Priority to CN201811185574.5A priority Critical patent/CN110418159A/zh
Publication of CN110418159A publication Critical patent/CN110418159A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Graphics (AREA)
  • Computer Security & Cryptography (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供一种基于声纹识别的跨屏截取电视内容的方法,该方法所述方法包括如下步骤:S1:转码入库步骤;S2:分离音频步骤;S3:提取声纹及建立声纹库步骤;S4:录音片段声纹提取步骤;S5:录音片段声纹匹配步骤;S6:识别结果推送步骤;S7:短视频截取步骤;S8:短视频编辑发布步骤。该方法打破了传输物理网络的局限,业务应用范围无限制,可应用于模拟电视、有线电视、数字电视、IPTV等全部电视传输领域。并且该方法可以提取视频内的声纹,但是不能通过声纹还原成视频,数据传输无泄密风险,安全性高。

Description

一种基于声纹识别的跨屏截取电视内容的方法
技术领域
本发明属于电视内容截取领域,特别涉及一种基于声纹识别的跨屏截取电视内容的方法。
背景技术
随着经济的发展,多媒体机构越来越多,这些机构每天能生成不计其数的电影、电视剧、纪录片、综艺节目等多种长视频节目。由于版权等原因的限制,许多精彩的内容被局部受众在特定渠道才能观看到,例如在电视端某一直播频道首播的热播剧,移动终端用户无法进行下载、观看、转发等,并且用户观看内容的状态为静态单一的;又由于现在长视频资源越来越多,大部分用户没有足够的时间观看长视频,就会通过快进等手段来观看长视频,这样会造成遗漏很多精彩片段的情况。
为了解决上述问题,现有技术主要公开了两种长视频拆条碎片化的方法:第一种为编辑剪切,编辑人员根据自己的喜好和价值取向,选取自己认为优秀的片段,进行二次加工;第二种是比较流行的智能拆条,智能算法平台根据已知推荐经验设计算法,在某些关键帧位置进行拆条,生成短视频。经过以上拆条碎片化的短视频供用户进行观看,但上述公开的拆条碎片方式主要取决于拆条碎片化人员的观点和角度,存在很强的主观性,并且智能拆条存在着非常强的客观性,没有针对用户本身的兴趣和精神诉求作出及时的响应。
发明内容
为了解决现有技术中存在的问题,本发明提供了以下基于声纹识别的跨屏截取电视内容的方法。
本发明提供的第一种基于声纹识别的跨屏截取电视内容的方法包括如下步骤:
S1:转码入库步骤云端服务器监测频道源的直播或点播的音视频流,经转码后入电视媒资库,获得转码入库音视频流;
S2:分离音频步骤分离指定内容ID的转码入库音视频流,获取指定内容ID音频流;
S3:提取声纹及建立声纹库步骤基于声纹命令提取所述指定内容ID音频流的声音指纹,并将每个所述指定内容ID音频流的声音指纹放入声纹库;
S4:录音片段声纹提取步骤移动终端对正在播放的音视频流进行录音获取多段时长录音片段,然后提取该录音片段的声音指纹;
S5:录音片段声纹匹配步骤将多段时长录音片段的声音指纹与所述声纹库中的声音指纹进行匹配;匹配后,获取该正在播放的音视频流的内容ID和时间戳;
S6:识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后,再以时间戳为起点向前截取T时长的直播频道片段或点播节目片段,获得的带有识别结果的直播频道或点播节目片段推送给手机端;
S7:短视频截取步骤手机端获取所述直播频道或点播节目片段的播放窗口和截频拖拽条,用户根据所述播放窗口的内容拖动所述截频拖拽条发出截取命令来截取感兴趣的短视频;
S8:短视频编辑发布步骤为截取的所述短视频编辑标题并添加话题或标签后即可发布及分享。
本发明提供的第二种基于声纹识别的跨屏截取电视内容的方法包括如下步骤:
S1:转码入库步骤监测电视频道的直播或点播的音视频流,经转码后入电视媒资库,获得转码入库音视频流;
S2:分离音频步骤分离指定内容ID的转码入库音视频流,获取指定内容ID音频流;
S3:提取声纹及建立声纹库步骤基于声纹命令和采样时长指令提取所述指定内容ID音频流和时长的声音指纹,并将对每个所述指定内容ID音频流和时长的声音指纹入声纹库,每个采样时长均含有特征参数并按照时间顺序连接;
S4:录音片段声纹提取步骤移动终端对正在播放的音视频流进行录音获取多段时长录音片段,然后提取该录音片段的声音指纹;
S5:录音片段声纹匹配步骤将多段时长录音片段的声音指纹与所述声纹库中的声音指纹进行声纹匹配;匹配后,获取该正在播放的音视频流的内容ID;
S6:识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后,再以采样时长的特征参数匹配直播频道片段或点播节目片段,获得的带有识别结果的短视频推送给手机端;
S7:短视频获取步骤手机端获取所述短视频;
S8:短视频编辑发布步骤为所述短视频编辑标题并添加话题或标签后即可发布及分享。
本发明的有益效果为:本发明提供的方法通过声纹的方式可以快速地在声纹库里识别出电视直播频道或点播节目片段,发送给移动终端后进行截取编辑,该方法打破了传输物理网络的局限,业务应用范围无限制,可应用于模拟电视、有线电视、数字电视、IPTV等全部电视传输领域。视频可以提取声音形成对应唯一性的声纹,但通过声纹无法还原成视频,数据传输无泄密风险,安全性较高。
附图说明
图1为实施例1的基于声纹识别的跨屏截取电视内容的方法的流程图;
图2为实施例5的拖拽条操作界面示意图;
图3为实施例7的基于声纹识别的跨屏截取电视内容的方法的流程图。
具体实施方式
实施例1
本发明实施例1提供一种基于声纹识别的跨屏截取电视内容的方法,结合图1所示,该方法包括如下步骤:
S1:转码入库步骤安装有声纹SDK的云端服务器1监测频道源的卫星直播频道源信号接收采集5(直播)或点播节目上传6(点播)
的音视频流,其中云端服务器1电视媒资服务器2和声纹服务器3,经转存7、经转码(转为网络电视服务器可以识别的可在互联网传输的码流)储存形成电视媒资库4,获得转码入库音视频流;所述频道源包括来自IPTV、数字电视或模拟电视的音视频流,所述音视频流也可经过转码(比如将来自卫星的无线信号转为IPTV信号或数字信号)再进入步骤S1。
S2:分离音频步骤分离指定内容ID的转码入库音视频流,获取指定内容ID音频流;
S3:提取声纹及建立声纹库步骤基于声纹命令提取所述指定内容ID音频流的声音指纹,并将每个所述指定内容ID音频流的声音指纹储存形成声纹库13;所述内容ID包括直播频道ID和点播节目ID。
其中,SDK(Software Development Kit)为软件开发工具包,本发明声音指纹的提取的特征参数包括但不限于MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分以及GFCC中的一种或多种,其中:MFCC为梅尔频率倒谱系数,LPCC为线性预测倒谱系数,△MFCC为MFCC的一阶差分,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数。需要说明的是,采用其他特征参数也在本发明的构思之内。
继续结合图1所示,用户在手机端9进行内容截取需求触发8,进而启动识别10,然后进入S4步骤。
S4:录音片段声纹提取步骤手机端9对正在播放的音视频流自动发起形成录音文件11,获取多段时长录音片段12,分离音频19,再提取该录音片段的声纹,然后发送至声纹服务器3,因而仅需耗费较少的手机流量就可以完成上传;需要说明的是,在不考虑流量的情况下,比如将多时段长录音片段12直接上传给声纹服务器3也在本发明的构思之内。
S5:录音片段声纹匹配步骤将多段时长录音片段的声纹与所述声纹库13中的声纹进行声纹匹配;匹配后,获取该正在播放的音视频流的内容ID和时间戳;
本发明的声纹匹配包括概率统计方法、DTW、VQ、HMM、ANN、SVM、DBN中的一种或多种,其中:DTW为动态时间规整、VQ为矢量量化、HMM为隐马尔可夫模型、ANN为人工神经网络方法、SVM为支持向量机、DBN为动态贝叶斯网络。需要说明的是,采用其他声纹匹配方法也在本发明的构思之内。
S6:识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后,再以时间戳为终止时间向前截取T时长的直播频道片段或点播节目片段,获得的带有识别结果的直播频道或点播节目片段推送给手机端;
S7:短视频截取步骤手机端获取所述直播频道或点播节目片段的播放窗口和截频拖拽条,用户根据所述播放窗口的内容拖动所述截频拖拽条发出截取命令来截取感兴趣的短视频;
S8:短视频编辑发布步骤为截取的所述短视频编辑标题并添加话题或标签后即可发布及分享。
实施例2
实施例2是在实施例1的基础上提供的基于声纹识别的跨屏截取电视内容的方法,所述多段时长录音片段包括m段T时长的录音片段,第m段录音片段大于第m-1段录音片段的时长,Tm>Tm-1。当m=3时,T1为3s、T2为5s、T3为15s。
实施例3
实施例3是在实施例2的基础上提供的基于声纹识别的跨屏截取电视内容的方法,所述匹配为m段录音片段依次匹配。即,依次匹配m1、m2、m3直至匹配成功为止,如果仍为匹配到则需再次获取多段时长录音片段进行匹配。
实施例4
实施例4是在实施例2的基础上提供的基于声纹识别的跨屏截取电视内容的方法,所述匹配为m段录音片段依次累积匹配。首先匹配m1,如果没有匹配就将m1和m2的取样点合并继续匹配,如果还没有匹配,就将m1、m2、m3取样点合并继续匹配,如果仍为匹配到则需再次获取多段时长录音片段进行匹配。由于是累积使用采用点,匹配成功率较高,匹配速度更快。
实施例5
实施例5所述的基于声纹识别的跨屏截取电视节目的方法,所述截频拖拽条显示与所述播放内容的定位时间坐标对应的帧画面,供用户进行选择。如图2所示,截频拖拽条14包括左右拖键15,播放窗口16用于播放直播频道或点播节目片段,定位时间坐标17对应帧画面18,方便用户选择。
实施例6
实施例6是在实施例1的基础上提供的基于声纹识别的跨屏截取电视节目的方法,所述S3步骤中,所述声纹命令包括采样时长命令,所述采样时长命令包括指定转码入库音视频流的时长和采样频率。因而,在云端服务器就可以选择性控制哪些转码入库音视频发送给声纹服务器建立声纹库,以及确定采集声纹特征的采样频率和时长。避免了重复或无效内容进入声纹库,使得声纹识别更加准确。
实施例7
实施例7提供了一种基于声纹识别的跨屏截取电视内容的方法,结合图3所示,所述方法包括如下步骤:
S1:转码入库步骤监测电视频道的直播或点播的音视频流,经转码后入电视媒资库,获得转码入库音视频流;
S2:分离音频步骤分离指定内容ID的转码入库音视频流,获取指定内容ID音频流;
S3:提取声纹及建立声纹库步骤基于声纹命令和采样时长指令提取所述指定内容ID音频流和时长的声音指纹,并将对每个所述指定内容ID音频流和时长的声音指纹入声纹库;
下面示例说明声音指纹建立过程但是采用其他公开方法也在本发明构思之内:提音频的取频谱,将提取的频谱数据进行极大值计算,以极大值对应的坐标为依据将采样时长内,频率和时间进行HASH计算生成25位的特征值,生成一个声音指纹,若干声音指纹即构建成一个声纹库。
S4:录音片段声纹提取步骤移动终端对正在播放的音视频流进行录音获取多段时长录音片段,然后提取该录音片段的声音指纹;
S5:录音片段声纹匹配步骤将多段时长录音片段的声音指纹与所述声纹库中的声纹进行声纹匹配;匹配后,获取该正在播放的音视频流的内容ID;
S6:识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后,再以采样时长的特征参数匹配直播频道片段或点播节目片段,获得的带有识别结果的短视频推送给手机端;
S7:声纹短视频获取步骤手机端获取所述短视频;
S8:声纹短视频编辑发布步骤为所述短视频编辑标题并添加话题或标签后即可发布及分享。
本方法的优势是将截取短视频与声纹提前同步完成,用户无需拖拽即可快速获取短视频进行发布及分享。
本发明不局限于上述最佳实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本申请相同或相近似的技术方案,均落在本发明的保护范围之内。

Claims (10)

1.一种基于声纹识别的跨屏截取电视内容的方法,其特征在于,所述方法包括如下步骤:
S1:转码入库步骤云端服务器监测频道源的直播或点播的音视频流,经转码后存入电视媒资库,获得转码入库音视频流;
S2:分离音频步骤分离指定内容ID的转码入库音视频流,获取指定内容ID音频流;
S3:提取声纹及建立声纹库步骤基于声纹命令提取所述指定内容ID音频流的声音指纹,并将每个所述指定内容ID音频流的声音指纹存储形成声纹库;所述内容ID包括直播频道ID和点播节目ID;
S4:录音片段声纹提取步骤移动终端对正在播放的音视频流进行录音获取多段时长录音片段,然后提取每个录音片段的声音指纹;
S5:录音片段声纹匹配步骤将所述录音片段的声音指纹与所述声纹库中的声音指纹进行匹配;匹配后,获取该正在播放的音视频流的内容ID和时间戳;
S6:识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后,再以时间戳为起点向前截取T时长的直播频道片段或点播节目片段,获得的带有识别结果的直播频道或点播节目片段推送给手机端;
S7:短视频截取步骤手机端获取所述直播频道或点播节目片段的播放窗口和截频拖拽条,用户根据所述播放窗口播放的所述直播频道或点播节目片段拖动所述截频拖拽条发出截取命令来截取感兴趣的短视频;
S8:短视频编辑发布步骤为截取的所述短视频编辑标题并添加话题或标签后即可发布及分享。
2.如权利要求1所述的基于声纹识别的跨屏截取电视内容的方法,其特征在于,所述频道源包括来自IPTV、数字电视或模拟电视的音视频流,所述音视频流经过转码再进入步骤S1。
3.如权利要求3所述的基于声纹识别的跨屏截取电视内容的方法,其特征在于,所述多段时长录音片段包括m段T时长的录音片段,第m段录音片段大于第m-1段录音片段的时长,Tm>Tm-1
4.如权利要求4所述的基于声纹识别的跨屏截取电视内容的方法,其特征在于,m为3时,T优选为3s、5s和15s。
5.如权利要求5所述的基于声纹识别的跨屏截取电视节目的方法,其特征在于,所述匹配为m段录音片段依次匹配。
6.如权利要求1所述的基于声纹识别的跨屏截取电视节目的方法,其特征在于,所述匹配为m段录音片段依次累积匹配。
7.如权利要求1所述的基于声纹识别的跨屏截取电视节目的方法,其特征在于,所述截频拖拽条显示与所述播放内容的定位时间坐标对应的帧画面,供用户进行选择。
8.如权利要求1所述的基于声纹识别的跨屏截取电视内容的方法,其特征在于:所述声音指纹的提取的特征参数包括MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分以及GFCC中的一种或多种,其中:MFCC为梅尔频率倒谱系数,LPCC为线性预测倒谱系数,△MFCC为MFCC的一阶差分,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数;
所述声纹匹配包括概率统计方法、DTW、VQ、HMM、ANN、SVM、DBN中的一种或多种,其中:DTW为动态时间规整、VQ为矢量量化、HMM为隐马尔可夫模型、ANN为人工神经网络方法、SVM为支持向量机、DBN为动态贝叶斯网络。
9.如权利要求1所述的基于声纹识别的跨屏截取电视内容的方法,其特征在于,所述S3步骤中,所述声纹命令包括采样时长命令,所述采样时长命令包括指定转码入库音视频流的时长和采样频率。
10.一种基于声纹识别的跨屏截取电视内容的方法,其特征在于,所述方法包括如下步骤:
S1:转码入库步骤监测电视频道的直播或点播的音视频流,经转码后入电视媒资库,获得转码入库音视频流;
S2:分离音频步骤分离指定内容ID的转码入库音视频流,获取指定内容ID音频流;
S3:提取声纹及建立声纹库步骤基于声纹命令和采样时长指令提取所述指定内容ID音频流和时长的声音指纹,并将对每个所述指定内容ID音频流和采样时长的声音指纹入声纹库;所述内容ID包括直播频道ID和点播节目ID,每个采样时长均含有特征参数并按照时间顺序连接;
S4:录音片段声纹提取步骤移动终端对正在播放的音视频流进行录音获取多段时长录音片段,然后提取该录音片段的声音指纹;
S5:录音片段声纹匹配步骤将多段时长录音片段的声音指纹与所述声纹库中的声音指纹进行声纹匹配;匹配后,获取该正在播放的音视频流的内容ID;
S6:识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后,再以采样时长的特征参数匹配到该时长对应的直播频道片段或点播节目片段,获得的带有识别结果的直播频道或点播节目片段推送给手机端;
S7:短视频获取步骤手机端获取所述直播频道或点播节目片段;
S8:短视频编辑发布步骤为所述短视频编辑标题并添加话题或标签后即可发布及分享。
CN201811185574.5A 2018-10-11 2018-10-11 一种基于声纹识别的跨屏截取电视内容的方法 Pending CN110418159A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811185574.5A CN110418159A (zh) 2018-10-11 2018-10-11 一种基于声纹识别的跨屏截取电视内容的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811185574.5A CN110418159A (zh) 2018-10-11 2018-10-11 一种基于声纹识别的跨屏截取电视内容的方法

Publications (1)

Publication Number Publication Date
CN110418159A true CN110418159A (zh) 2019-11-05

Family

ID=68358068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811185574.5A Pending CN110418159A (zh) 2018-10-11 2018-10-11 一种基于声纹识别的跨屏截取电视内容的方法

Country Status (1)

Country Link
CN (1) CN110418159A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111182347A (zh) * 2020-01-07 2020-05-19 腾讯科技(深圳)有限公司 视频片段剪切方法、装置、计算机设备和存储介质
CN111402926A (zh) * 2020-03-19 2020-07-10 中国电影科学技术研究所 影院放映内容的检测方法、装置、设备及智能网络传感器

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078729A1 (en) * 2009-09-30 2011-03-31 Lajoie Dan Systems and methods for identifying audio content using an interactive media guidance application
US20120008821A1 (en) * 2010-05-10 2012-01-12 Videosurf, Inc Video visual and audio query
CN104125509A (zh) * 2013-04-28 2014-10-29 腾讯科技(深圳)有限公司 节目识别方法、装置及服务器
CN104378683A (zh) * 2014-05-29 2015-02-25 腾讯科技(深圳)有限公司 基于节目的交互方法和装置
CN104796729A (zh) * 2015-04-09 2015-07-22 宁波创视信息技术有限公司 高清晰实时获取电视播放画面的方法
CN104883607A (zh) * 2015-06-05 2015-09-02 广东欧珀移动通信有限公司 一种视频截图或剪切的方法、装置及移动设备
CN104991946A (zh) * 2015-07-13 2015-10-21 联想(北京)有限公司 一种信息处理方法、服务器和用户设备
CN105828099A (zh) * 2015-11-09 2016-08-03 深圳市讯联智付网络有限公司 通过新媒体技术平实现媒体文件与观众互动的方法及***
CN106162357A (zh) * 2016-05-31 2016-11-23 腾讯科技(深圳)有限公司 获取视频内容的方法及装置
US20170024441A1 (en) * 2015-03-10 2017-01-26 Compact Disc Express, Inc. Systems and methods for continuously detecting and identifying songs in a continuous audio stream
CN106802960A (zh) * 2017-01-19 2017-06-06 湖南大学 一种基于音频指纹的分片音频检索方法
CN107484015A (zh) * 2016-06-08 2017-12-15 腾讯科技(深圳)有限公司 节目处理方法及装置、终端
CN107613318A (zh) * 2016-07-12 2018-01-19 上海视畅信息科技有限公司 一种基于声纹识别的电视广告和频道识别方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078729A1 (en) * 2009-09-30 2011-03-31 Lajoie Dan Systems and methods for identifying audio content using an interactive media guidance application
US20120008821A1 (en) * 2010-05-10 2012-01-12 Videosurf, Inc Video visual and audio query
CN104125509A (zh) * 2013-04-28 2014-10-29 腾讯科技(深圳)有限公司 节目识别方法、装置及服务器
CN104378683A (zh) * 2014-05-29 2015-02-25 腾讯科技(深圳)有限公司 基于节目的交互方法和装置
US20170024441A1 (en) * 2015-03-10 2017-01-26 Compact Disc Express, Inc. Systems and methods for continuously detecting and identifying songs in a continuous audio stream
CN104796729A (zh) * 2015-04-09 2015-07-22 宁波创视信息技术有限公司 高清晰实时获取电视播放画面的方法
CN104883607A (zh) * 2015-06-05 2015-09-02 广东欧珀移动通信有限公司 一种视频截图或剪切的方法、装置及移动设备
CN104991946A (zh) * 2015-07-13 2015-10-21 联想(北京)有限公司 一种信息处理方法、服务器和用户设备
CN105828099A (zh) * 2015-11-09 2016-08-03 深圳市讯联智付网络有限公司 通过新媒体技术平实现媒体文件与观众互动的方法及***
CN106162357A (zh) * 2016-05-31 2016-11-23 腾讯科技(深圳)有限公司 获取视频内容的方法及装置
CN107484015A (zh) * 2016-06-08 2017-12-15 腾讯科技(深圳)有限公司 节目处理方法及装置、终端
CN107613318A (zh) * 2016-07-12 2018-01-19 上海视畅信息科技有限公司 一种基于声纹识别的电视广告和频道识别方法
CN106802960A (zh) * 2017-01-19 2017-06-06 湖南大学 一种基于音频指纹的分片音频检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨盈昀,王彩虹: "《数字电视网络制播技术》", 31 October 2016 *
申时凯,佘玉梅: "《物联网的技术开发与应用研究》", 31 October 2017 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111182347A (zh) * 2020-01-07 2020-05-19 腾讯科技(深圳)有限公司 视频片段剪切方法、装置、计算机设备和存储介质
CN111402926A (zh) * 2020-03-19 2020-07-10 中国电影科学技术研究所 影院放映内容的检测方法、装置、设备及智能网络传感器

Similar Documents

Publication Publication Date Title
US10034037B2 (en) Fingerprint-based inter-destination media synchronization
KR101945920B1 (ko) 비디오 방송에 적용되는 인터랙션 방법 및 장치
US20200051582A1 (en) Generating and/or Displaying Synchronized Captions
EP2552109B1 (en) Content playback at variable speed
WO2016054916A1 (zh) 视频内容的推荐、评价方法及装置
US20150082349A1 (en) Content Based Video Content Segmentation
CN108924576A (zh) 一种视频标注方法、装置、设备及介质
CN109089154A (zh) 一种视频提取方法、装置、设备及介质
US11758245B2 (en) Interactive media events
EP2773108B1 (en) Reception device, reception method, program, and information processing system
CN109089128A (zh) 一种视频处理方法、装置、设备及介质
WO2015196749A1 (zh) 基于场景识别的信息推荐方法及装置
US20220394328A1 (en) Consolidated Watch Parties
CN110418159A (zh) 一种基于声纹识别的跨屏截取电视内容的方法
EP3920539A1 (en) Systems and methods for providing audio-video streams with alternative content
KR20150082074A (ko) 컨텐츠 정보를 제공하는 서비스 서버 및 컨텐츠 정보 제공방법
CN112784070A (zh) 一种基于大数据的用户画像方法
US20230328320A1 (en) Methods and systems to provide a playlist for simultaneous presentation of a plurality of media assets
EP3140991B1 (en) Synchronizing broadcast timeline metadata
EP2811752B1 (en) Synchronization between multimedia flows and social network threads
WO2023044420A1 (en) Methods and systems to provide a playlist for simultaneous presentation of a plurality of media assets
CN109218772A (zh) 智能电视信息推送方法及装置
US20220264193A1 (en) Program production apparatus, program production method, and recording medium
US20190129957A1 (en) System and method for providing additional information based on multimedia content being viewed
US20230091730A1 (en) Methods and systems to provide a playlist for simultaneous presentation of a plurality of media assets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20221018

AD01 Patent right deemed abandoned