CN110418159A

CN110418159A - 一种基于声纹识别的跨屏截取电视内容的方法

Info

Publication number: CN110418159A
Application number: CN201811185574.5A
Authority: CN
Inventors: 刘晓初; 黄克; 叶小蕾; 张元�; 王伟; 周为; 张战军
Original assignee: Caiyun End Culture Media (beijing) Co Ltd
Current assignee: Caiyun End Culture Media (beijing) Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2019-11-05

Abstract

本发明提供一种基于声纹识别的跨屏截取电视内容的方法，该方法所述方法包括如下步骤：S1：转码入库步骤；S2：分离音频步骤；S3：提取声纹及建立声纹库步骤；S4：录音片段声纹提取步骤；S5：录音片段声纹匹配步骤；S6：识别结果推送步骤；S7：短视频截取步骤；S8：短视频编辑发布步骤。该方法打破了传输物理网络的局限，业务应用范围无限制，可应用于模拟电视、有线电视、数字电视、IPTV等全部电视传输领域。并且该方法可以提取视频内的声纹，但是不能通过声纹还原成视频，数据传输无泄密风险，安全性高。

Description

一种基于声纹识别的跨屏截取电视内容的方法

技术领域

本发明属于电视内容截取领域，特别涉及一种基于声纹识别的跨屏截取电视内容的方法。

背景技术

随着经济的发展，多媒体机构越来越多，这些机构每天能生成不计其数的电影、电视剧、纪录片、综艺节目等多种长视频节目。由于版权等原因的限制，许多精彩的内容被局部受众在特定渠道才能观看到，例如在电视端某一直播频道首播的热播剧，移动终端用户无法进行下载、观看、转发等，并且用户观看内容的状态为静态单一的；又由于现在长视频资源越来越多，大部分用户没有足够的时间观看长视频，就会通过快进等手段来观看长视频，这样会造成遗漏很多精彩片段的情况。

为了解决上述问题，现有技术主要公开了两种长视频拆条碎片化的方法：第一种为编辑剪切，编辑人员根据自己的喜好和价值取向，选取自己认为优秀的片段，进行二次加工；第二种是比较流行的智能拆条，智能算法平台根据已知推荐经验设计算法，在某些关键帧位置进行拆条，生成短视频。经过以上拆条碎片化的短视频供用户进行观看，但上述公开的拆条碎片方式主要取决于拆条碎片化人员的观点和角度，存在很强的主观性，并且智能拆条存在着非常强的客观性，没有针对用户本身的兴趣和精神诉求作出及时的响应。

发明内容

为了解决现有技术中存在的问题，本发明提供了以下基于声纹识别的跨屏截取电视内容的方法。

本发明提供的第一种基于声纹识别的跨屏截取电视内容的方法包括如下步骤：

S1：转码入库步骤云端服务器监测频道源的直播或点播的音视频流，经转码后入电视媒资库，获得转码入库音视频流；

S2：分离音频步骤分离指定内容ID的转码入库音视频流，获取指定内容ID音频流；

S3：提取声纹及建立声纹库步骤基于声纹命令提取所述指定内容ID音频流的声音指纹，并将每个所述指定内容ID音频流的声音指纹放入声纹库；

S4：录音片段声纹提取步骤移动终端对正在播放的音视频流进行录音获取多段时长录音片段，然后提取该录音片段的声音指纹；

S5：录音片段声纹匹配步骤将多段时长录音片段的声音指纹与所述声纹库中的声音指纹进行匹配；匹配后，获取该正在播放的音视频流的内容ID和时间戳；

S6：识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后，再以时间戳为起点向前截取T时长的直播频道片段或点播节目片段，获得的带有识别结果的直播频道或点播节目片段推送给手机端；

S7：短视频截取步骤手机端获取所述直播频道或点播节目片段的播放窗口和截频拖拽条，用户根据所述播放窗口的内容拖动所述截频拖拽条发出截取命令来截取感兴趣的短视频；

S8：短视频编辑发布步骤为截取的所述短视频编辑标题并添加话题或标签后即可发布及分享。

本发明提供的第二种基于声纹识别的跨屏截取电视内容的方法包括如下步骤：

S1：转码入库步骤监测电视频道的直播或点播的音视频流，经转码后入电视媒资库，获得转码入库音视频流；

S3：提取声纹及建立声纹库步骤基于声纹命令和采样时长指令提取所述指定内容ID音频流和时长的声音指纹，并将对每个所述指定内容ID音频流和时长的声音指纹入声纹库，每个采样时长均含有特征参数并按照时间顺序连接；

S5：录音片段声纹匹配步骤将多段时长录音片段的声音指纹与所述声纹库中的声音指纹进行声纹匹配；匹配后，获取该正在播放的音视频流的内容ID；

S6：识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后，再以采样时长的特征参数匹配直播频道片段或点播节目片段，获得的带有识别结果的短视频推送给手机端；

S7：短视频获取步骤手机端获取所述短视频；

S8：短视频编辑发布步骤为所述短视频编辑标题并添加话题或标签后即可发布及分享。

本发明的有益效果为：本发明提供的方法通过声纹的方式可以快速地在声纹库里识别出电视直播频道或点播节目片段，发送给移动终端后进行截取编辑，该方法打破了传输物理网络的局限，业务应用范围无限制，可应用于模拟电视、有线电视、数字电视、IPTV等全部电视传输领域。视频可以提取声音形成对应唯一性的声纹，但通过声纹无法还原成视频，数据传输无泄密风险，安全性较高。

附图说明

图1为实施例1的基于声纹识别的跨屏截取电视内容的方法的流程图；

图2为实施例5的拖拽条操作界面示意图；

图3为实施例7的基于声纹识别的跨屏截取电视内容的方法的流程图。

具体实施方式

实施例1

本发明实施例1提供一种基于声纹识别的跨屏截取电视内容的方法，结合图1所示，该方法包括如下步骤：

S1：转码入库步骤安装有声纹SDK的云端服务器1监测频道源的卫星直播频道源信号接收采集5(直播)或点播节目上传6(点播)

的音视频流，其中云端服务器1电视媒资服务器2和声纹服务器3，经转存7、经转码(转为网络电视服务器可以识别的可在互联网传输的码流)储存形成电视媒资库4，获得转码入库音视频流；所述频道源包括来自IPTV、数字电视或模拟电视的音视频流，所述音视频流也可经过转码(比如将来自卫星的无线信号转为IPTV信号或数字信号)再进入步骤S1。

S3：提取声纹及建立声纹库步骤基于声纹命令提取所述指定内容ID音频流的声音指纹，并将每个所述指定内容ID音频流的声音指纹储存形成声纹库13；所述内容ID包括直播频道ID和点播节目ID。

其中，SDK(Software Development Kit)为软件开发工具包，本发明声音指纹的提取的特征参数包括但不限于MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分以及GFCC中的一种或多种，其中：MFCC为梅尔频率倒谱系数，LPCC为线性预测倒谱系数，△MFCC为MFCC的一阶差分，△LPCC为LPCC的一阶差分，GFCC为Gammatone滤波器倒谱系数。需要说明的是，采用其他特征参数也在本发明的构思之内。

继续结合图1所示，用户在手机端9进行内容截取需求触发8，进而启动识别10，然后进入S4步骤。

S4：录音片段声纹提取步骤手机端9对正在播放的音视频流自动发起形成录音文件11，获取多段时长录音片段12，分离音频19，再提取该录音片段的声纹，然后发送至声纹服务器3，因而仅需耗费较少的手机流量就可以完成上传；需要说明的是，在不考虑流量的情况下，比如将多时段长录音片段12直接上传给声纹服务器3也在本发明的构思之内。

S5：录音片段声纹匹配步骤将多段时长录音片段的声纹与所述声纹库13中的声纹进行声纹匹配；匹配后，获取该正在播放的音视频流的内容ID和时间戳；

本发明的声纹匹配包括概率统计方法、DTW、VQ、HMM、ANN、SVM、DBN中的一种或多种，其中：DTW为动态时间规整、VQ为矢量量化、HMM为隐马尔可夫模型、ANN为人工神经网络方法、SVM为支持向量机、DBN为动态贝叶斯网络。需要说明的是，采用其他声纹匹配方法也在本发明的构思之内。

S6：识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后，再以时间戳为终止时间向前截取T时长的直播频道片段或点播节目片段，获得的带有识别结果的直播频道或点播节目片段推送给手机端；

实施例2

实施例2是在实施例1的基础上提供的基于声纹识别的跨屏截取电视内容的方法，所述多段时长录音片段包括m段T时长的录音片段，第m段录音片段大于第m-1段录音片段的时长，T_m>T_m-1。当m＝3时，T1为3s、T2为5s、T3为15s。

实施例3

实施例3是在实施例2的基础上提供的基于声纹识别的跨屏截取电视内容的方法，所述匹配为m段录音片段依次匹配。即，依次匹配m1、m2、m3直至匹配成功为止，如果仍为匹配到则需再次获取多段时长录音片段进行匹配。

实施例4

实施例4是在实施例2的基础上提供的基于声纹识别的跨屏截取电视内容的方法，所述匹配为m段录音片段依次累积匹配。首先匹配m1，如果没有匹配就将m1和m2的取样点合并继续匹配，如果还没有匹配，就将m1、m2、m3取样点合并继续匹配，如果仍为匹配到则需再次获取多段时长录音片段进行匹配。由于是累积使用采用点，匹配成功率较高，匹配速度更快。

实施例5

实施例5所述的基于声纹识别的跨屏截取电视节目的方法，所述截频拖拽条显示与所述播放内容的定位时间坐标对应的帧画面，供用户进行选择。如图2所示，截频拖拽条14包括左右拖键15，播放窗口16用于播放直播频道或点播节目片段，定位时间坐标17对应帧画面18，方便用户选择。

实施例6

实施例6是在实施例1的基础上提供的基于声纹识别的跨屏截取电视节目的方法，所述S3步骤中，所述声纹命令包括采样时长命令，所述采样时长命令包括指定转码入库音视频流的时长和采样频率。因而，在云端服务器就可以选择性控制哪些转码入库音视频发送给声纹服务器建立声纹库，以及确定采集声纹特征的采样频率和时长。避免了重复或无效内容进入声纹库，使得声纹识别更加准确。

实施例7

实施例7提供了一种基于声纹识别的跨屏截取电视内容的方法，结合图3所示，所述方法包括如下步骤：

S3：提取声纹及建立声纹库步骤基于声纹命令和采样时长指令提取所述指定内容ID音频流和时长的声音指纹，并将对每个所述指定内容ID音频流和时长的声音指纹入声纹库；

下面示例说明声音指纹建立过程但是采用其他公开方法也在本发明构思之内：提音频的取频谱，将提取的频谱数据进行极大值计算，以极大值对应的坐标为依据将采样时长内，频率和时间进行HASH计算生成25位的特征值，生成一个声音指纹，若干声音指纹即构建成一个声纹库。

S5：录音片段声纹匹配步骤将多段时长录音片段的声音指纹与所述声纹库中的声纹进行声纹匹配；匹配后，获取该正在播放的音视频流的内容ID；

S7：声纹短视频获取步骤手机端获取所述短视频；

S8：声纹短视频编辑发布步骤为所述短视频编辑标题并添加话题或标签后即可发布及分享。

本方法的优势是将截取短视频与声纹提前同步完成，用户无需拖拽即可快速获取短视频进行发布及分享。

本发明不局限于上述最佳实施方式，任何人在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是具有与本申请相同或相近似的技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于声纹识别的跨屏截取电视内容的方法，其特征在于，所述方法包括如下步骤：

S1：转码入库步骤云端服务器监测频道源的直播或点播的音视频流，经转码后存入电视媒资库，获得转码入库音视频流；

S3：提取声纹及建立声纹库步骤基于声纹命令提取所述指定内容ID音频流的声音指纹，并将每个所述指定内容ID音频流的声音指纹存储形成声纹库；所述内容ID包括直播频道ID和点播节目ID；

S4：录音片段声纹提取步骤移动终端对正在播放的音视频流进行录音获取多段时长录音片段，然后提取每个录音片段的声音指纹；

S5：录音片段声纹匹配步骤将所述录音片段的声音指纹与所述声纹库中的声音指纹进行匹配；匹配后，获取该正在播放的音视频流的内容ID和时间戳；

S7：短视频截取步骤手机端获取所述直播频道或点播节目片段的播放窗口和截频拖拽条，用户根据所述播放窗口播放的所述直播频道或点播节目片段拖动所述截频拖拽条发出截取命令来截取感兴趣的短视频；

2.如权利要求1所述的基于声纹识别的跨屏截取电视内容的方法，其特征在于，所述频道源包括来自IPTV、数字电视或模拟电视的音视频流，所述音视频流经过转码再进入步骤S1。

3.如权利要求3所述的基于声纹识别的跨屏截取电视内容的方法，其特征在于，所述多段时长录音片段包括m段T时长的录音片段，第m段录音片段大于第m-1段录音片段的时长，T_m>T_m-1。

4.如权利要求4所述的基于声纹识别的跨屏截取电视内容的方法，其特征在于，m为3时，T优选为3s、5s和15s。

5.如权利要求5所述的基于声纹识别的跨屏截取电视节目的方法，其特征在于，所述匹配为m段录音片段依次匹配。

6.如权利要求1所述的基于声纹识别的跨屏截取电视节目的方法，其特征在于，所述匹配为m段录音片段依次累积匹配。

7.如权利要求1所述的基于声纹识别的跨屏截取电视节目的方法，其特征在于，所述截频拖拽条显示与所述播放内容的定位时间坐标对应的帧画面，供用户进行选择。

8.如权利要求1所述的基于声纹识别的跨屏截取电视内容的方法，其特征在于：所述声音指纹的提取的特征参数包括MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分以及GFCC中的一种或多种，其中：MFCC为梅尔频率倒谱系数，LPCC为线性预测倒谱系数，△MFCC为MFCC的一阶差分，△LPCC为LPCC的一阶差分，GFCC为Gammatone滤波器倒谱系数；

所述声纹匹配包括概率统计方法、DTW、VQ、HMM、ANN、SVM、DBN中的一种或多种，其中：DTW为动态时间规整、VQ为矢量量化、HMM为隐马尔可夫模型、ANN为人工神经网络方法、SVM为支持向量机、DBN为动态贝叶斯网络。

9.如权利要求1所述的基于声纹识别的跨屏截取电视内容的方法，其特征在于，所述S3步骤中，所述声纹命令包括采样时长命令，所述采样时长命令包括指定转码入库音视频流的时长和采样频率。

10.一种基于声纹识别的跨屏截取电视内容的方法，其特征在于，所述方法包括如下步骤：

S3：提取声纹及建立声纹库步骤基于声纹命令和采样时长指令提取所述指定内容ID音频流和时长的声音指纹，并将对每个所述指定内容ID音频流和采样时长的声音指纹入声纹库；所述内容ID包括直播频道ID和点播节目ID，每个采样时长均含有特征参数并按照时间顺序连接；

S6：识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后，再以采样时长的特征参数匹配到该时长对应的直播频道片段或点播节目片段，获得的带有识别结果的直播频道或点播节目片段推送给手机端；

S7：短视频获取步骤手机端获取所述直播频道或点播节目片段；