CN116684528A

CN116684528A - 一种视频彩铃不同视角的推荐方法

Info

Publication number: CN116684528A
Application number: CN202310600033.9A
Authority: CN
Inventors: 罗志亮; 张晶晶; 乔治; 李雪欣; 弋翔; 邹西山; 李韩; 罗岚; 温雪阳; 邓宇翔; 陈静娴; 陈星�
Original assignee: China Unicom Online Information Technology Co Ltd; China Unicom WO Music and Culture Co Ltd
Current assignee: China Unicom Online Information Technology Co Ltd; China Unicom WO Music and Culture Co Ltd
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-09-01

Abstract

本发明公开一种视频彩铃不同视角的推荐方法，包含步骤：S1，主叫号码拨打被叫后，呼叫信息触发到核心网；S2，核心网转发呼叫信息到相应彩铃呼叫节点；S3，彩铃呼叫节点查询该呼叫信息应播放视频铃音ID；S4，彩铃呼叫节点转发该呼叫信息及相应铃音ID到BM；S5，BM获取用户属性及历史观看记录，计算主叫视角偏好，对比ID对应各视频视角，计算出向用户放音文件信息；S6，BM向彩铃呼叫借点返回偏好视角放音文件信息；S7，彩铃呼叫节点选择放音文件进行放音；S8，彩铃呼叫节点向核心网返回媒体流，向主叫播放偏好视频；本发明可以根据主叫用户属性及视频观看记录生成欲播放的视频彩铃内容进行智能播放观看视角的推荐。

Description

一种视频彩铃不同视角的推荐方法

技术领域

本发明涉及无线信息通讯技术领域，特别是一种视频彩铃不同视角的推荐方法。

背景技术

依托5G+超高清+MR及云端交互的科技升级，视频彩铃的呈现方式未来不再是单一的视角，而是增加了5G+4K视角、全景视角、竖屏直拍视角等，这给主叫用户在等待被叫用户接听的时间段里带来更多的视觉精彩；利用用户在联通视频彩铃APP的视频观看记录，分析用户对不同类型的视频观看视角偏好，为主叫用户提供更具吸引力的视频彩铃。由于视频彩铃还未上线不同视角观看功能，因此针对该场景的视角推荐方法还没有完整的技术方案。现有的视频镜头分割算法大多采用特征提取网络提取到候选片段中每帧的语义特征，再利用语义特征计算连续帧间的相似度，进而确定镜头边界位置分割。基于视角推荐方法的缺失，以及相似背景中特征表达能力较弱导致镜头分割算法漏检率较高，因此，有待研发一种可以根据用户偏好自动选择播放视角的视频彩铃推荐方法。

发明内容

本发明针对上述问题，提供一种视频彩铃不同视角的推荐方法，包括：

一种视频彩铃不同视角的推荐方法，其特征在于，包含以下步骤：

S1，主叫号码拨打被叫后，呼叫信息触发到核心网；

S2，核心网转发呼叫信息到相应彩铃呼叫节点；

S3，彩铃呼叫节点查询该呼叫信息应播放视频铃音ID；

S4，彩铃呼叫节点转发该呼叫信息及相应铃音ID到BM；

S5，BM获取用户属性及历史观看记录，计算主叫视角偏好，对比ID对应各视频视角，计算出向用户放音文件信息；

S6，BM向彩铃呼叫借点返回偏好视角放音文件信息；

S7，彩铃呼叫节点选择放音文件进行放音；

S8，彩铃呼叫节点向核心网返回媒体流，向主叫播放偏好视频。

作为本发明的进一步说明，所述步骤S5包含以下步骤：

S501、计算待放视频彩铃ID对应的分类、各实体文件的视角；

S502、判断在主叫在联通视频彩铃APP是否存在视频播放记录，若存在则进行步骤S503，否则进入步骤S504；

S503、根据主叫视频播放记录进行用户对于不同分类视频观看的视角偏好计算，计算完成后进入步骤S505。

S504、在主叫不存在视频播放记录情况下，根据主叫属性进行视角偏好计算；

S505、根据步骤S503或步骤S504计算出的主叫对于不同分类视频视角偏好结合步骤S501计算出的待放视频彩铃ID的分类、各视频文件的视角向主叫推荐相应视角的视频彩铃实体放音。

更进一步地，所述步骤S503包含以下步骤：

S5031、获取用户在联通视频彩铃APP观看视频的视频内容、观看时段详情；

S5032、对这些视频内容按照视频分类体系进行分类；

S5033、结合用户对于各类视频观看时段详情生成用户在各类视频下的单一视角用户观看切割视频记录集；

S5034、对用户在各视频分类下单一视角视频观看集中视频进行视角分类，区分远景、近景视角；

S5035、根据用户在各类视频在各切割单一视角视频上的观看行为(观看详情)计算用户视角喜好。

更进一步地，所述步骤S5033中，视频根据预先设定的类别划分好后，采用深度学习方法对各个类别的视频进行分割，将不同视角的视频片段分离开，采用特征提取网络用于镜头边界检测框架。

更进一步地，所述特征提取网络的算法流程包括：输入一段视频，通过预处理得到突变边界候选段和渐变边界候选段，这些段将经过CNN提取到强表达能力的特征，随后这些特征将用于后续的突变边界检测和渐变边界检测。

更进一步地，所述预处理包含提前移除非镜头帧和边界区分；对于一小段连续帧，若段首段尾帧具有极高的相似度，则认为该段中所有帧均为非镜头帧，不再参与后续的镜头检测过程；对于边界区分，通过判断该段首帧和段中帧的相似度，区分突变边界和渐变边界。

更进一步地，所述边界区分的步骤包括：

计算亮度距离；整个视频被分为若干小段，每段长度为N帧，计算每个小段的段首段尾之间的亮度距离D；

计算局部阈值；将10个小段分为1组，每10组分为组成一个单元，然后统计每个单元和组内的特征(D的均值和标准差)计算第n小段的局部阈值T；

候选段筛选；通过比较组内均值和方差判断第n小段是否可能包含镜头边界；如果D>T,则第n段为候选段；如果D<T，且比其他相邻段亮度距离大很多，也考虑为候选段；

突变与渐变镜头区分；计算候选段前半部分的亮度距离D1和后半段的亮度距离D2，若D1/D2>1.5,且D1/D>0.7,则前半段包含突变镜头，反之后半段包含突变镜头，其他情形判定为渐变边界候选段。

更进一步地，所述特征提取网络的网络共50层，ResNet50共经过了4组Block，每组Block分别包含了3，4，6，3个Bottleneck，并且第一个都是输入与输出尺寸不同的Bottleneck。

更进一步地，所述步骤S5034中，对用户观看时长进行归一化处理得到用户各类视角偏好得分。

更进一步地，所述步骤S504中，通过机器学习的方式进行用户视角推荐。本发明的有益效果：

本发明利用用户观看记录和标签属性实现了根据用户偏好自动选择播放视角的功能，填补了视频彩铃未上线不同视角观看功能的缺口，在视频彩铃放音过程中，多视角视频彩铃播放情况下的视角确认及播放方案，在同一场景中对视频镜头进行准确分割，并根据视角类型统计该场景中各视角的出现频次；根据用户观看的长视频历史记录、个性特征计算学习获取用户在不同类型视频情况下的视角偏好并进行推荐；本发明的卷积神经特征提取网络，引入通道注意力和特征融合模块。通道注意力可看作是一个自我注意模块，在几乎不增加计算开销的情况下，加强了通道维度的联系，使网络丢弃不重要的特征，提高计算速度，而特征融合模块将最后三层的特征图进行融合，糅合了低分辨率特征和高分辨率特征的优点，使输出的特征包含更多的语义信息。

附图说明

图1为本发明方法步骤S5的流程图；

图2为本发明方法步骤S503的流程原理图；

图3为本发明方法步骤S5033的算法流程图；

图4为本发明特征提取网络的结构图。

具体实施方式

下面结合附图对本发明实施例详细的说明，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”、“第一”、“第二”等指示的方位或位置或顺序关系为基于附图所示的方位或位置或顺序关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

本发明提供一种视频彩铃不同视角的推荐方法，其特征在于，包含以下步骤：

S1，主叫号码拨打被叫后，呼叫信息触发到核心网；

S2，核心网转发呼叫信息到相应彩铃呼叫节点；

S3，彩铃呼叫节点查询该呼叫信息应播放视频铃音ID；

S4，彩铃呼叫节点转发该呼叫信息及相应铃音ID到BM(被叫BM实时决策软件)；

S6，BM向彩铃呼叫借点返回偏好视角放音文件信息；

S7，彩铃呼叫节点选择放音文件进行放音；

通过本发明的视频彩铃不同视角的推荐方法，可以根据主叫用户属性及视频观看记录生成欲播放的视频彩铃内容进行智能播放观看视角的推荐，可以实现为主叫用户提供更具吸引力的视频彩铃，解决了如何给新用户在各类视频分类上视角偏好画像的问题，解决最终向其推荐视觉彩铃视角的问题。

具体的，参见附图1所示，在上述步骤S5中进行向用户放音文件信息时通过以下分步骤实现：

S501、计算待放视频彩铃ID对应的分类、各实体文件的视角；

S503、根据主叫视频播放记录进行用户对于不同分类视频观看的视角偏好计算，计算完成后进入步骤S505。作为一种可行的实施方式，参见附图2所示，在上述步骤S503中进行用户视角偏好计算时，可以采用以下方法步骤实现：

S5031、获取用户在联通视频彩铃APP观看视频的视频内容、观看时段详情。

S5032、对这些视频内容按照视频分类体系进行分类，例如实施例中的分类包含音乐、篮球、足球、动画、演唱会和党政等。

S5033、结合用户对于各类视频观看时段详情生成用户在各类视频下的单一视角用户观看切割视频记录集；视频根据预先设定的类别(例如音乐、足球等类别)划分好后，采用深度学***滑，渐变边界的帧间相似性高，检测难度大。

本发明采用一种新的特征提取网络用于镜头边界检测框架，其算法流程请参见附图3所示，其原理流程为：输入一段视频，通过预处理得到突变边界候选段和渐变边界候选段，这些段将经过CNN提取到强表达能力的特征，随后这些特征将用于后续的突变边界检测和渐变边界检测。

具体的，对于预处理，由于待处理视频中存在大量的非镜头帧，为了提高镜头检测的速率，本发明在进行视频处理前对待处理的视频进行预处理，提前移除大量的非镜头帧。对于一小段连续帧，若段首段尾帧具有极高的相似度，则认为该段中所有帧均为非镜头帧，不再参与后续的镜头检测过程。而对于边界区分，在本发明具体实施中通过判断该段首帧和段中帧的相似度，实现区分突变边界和渐变边界，其具体步骤如下：

计算亮度距离。整个视频被分为若干小段，每段长度为N帧，计算每个小段的段首段尾之间的亮度距离D。

计算局部阈值。将10个小段分为1组，每10组分为组成一个单元。然后统计每个单元和组内的特征(D的均值和标准差)计算第n小段的局部阈值T。

候选段筛选。通过比较组内均值和方差判断第n小段是否可能包含镜头边界。如果D>T,则第n段为候选段。如果D<T，且比其他相邻段亮度距离大很多，也考虑为候选段。

突变与渐变镜头区分。计算候选段前半部分的亮度距离D1和后半段的亮度距离D2，若D1/D2>1.5,且D1/D>0.7,则前半段包含突变镜头，反之后半段包含突变镜头，其他情形判定为渐变边界候选段。

具体的，对于特征提取，本发明的特征提取网络是以ResNet50为基础，将最后三层特征进行融合，加强特征的语义表达，并嵌入通道注意力，通过建模通道间的关系对通道特征进行矫正，提高神经网络的表征能力，其网络结构如附图4所示。网络共50层，ResNet50共经过了4组Block，每组Block分别包含了3，4，6，3个Bottleneck，并且第一个都是输入与输出尺寸不同的Bottleneck，因为卷积神经网络需要把图像一点点的转换成很小但是很深的特征图，所以它的主要目的是为改变特征向量的维度。.每个Bottleneck中都有三个卷积，分别是11，33，11。网络的输入为(224,224)，经77卷积、33最大池化及两次下采样后输出为原来的四分之一，然后进入第一个Block，在最后一个Bottleneck中加入通道注意力。首先，采用全局池化将特征图大小压缩为11C，接着输入全连接层降维到11C/r，捕捉通道之间的关系，再分别经过ReLu激活层、全连接层与Sigmoid激活层，还原维度，得到的值可以看作对应通道的权重，最后，将特征图乘上相应的权重，无用的特征则会趋于0。后面的Block采取相同的操作，最后一个Bottleneck的输出特征图经上采样后与Block3的输出在channel维度进行concat，然后经过33和11卷积后再次上采样与Block2的输出concat，以此类推，得到大小为2828特征图。最后将得到的特征图经全连接层映射成特征向量，利用后面的检测算法进行检测。

对于上述边缘检测，由于本发明所说的边界可分为突变和渐变两种。对于突变镜头边界检测，给定长度为N的突变边界候选片段{g_i}(i＝0,…，N-1)，λ_i(i＝0,…,N-1)表示每帧对应的深度特征向量，我们采用修正余弦距离ψ(t)衡量帧间相似度：ψ(g_t,g_t+1)＝cos(λ_t,λ_t+1)。D_c＝cos(λ₀,λ_N-1)表示候选段内的平均相似度。

D_c＜0.9 (1)

min(ψ(t))＜kD_c+(1-k) (2)

max(ψ(t))-min(ψ(t))＞T_c (3)

其中t＝0,…,N-2，k为介于0到1之间的参数，T_c为预设的阈值。

对于候选片段，如果条件(1)(2)(3)能依次满足，则第t+1帧为突变边界。如果条件(1)不满足，则丢弃该段，因为段内不可能包含突变边界，条件(2)、(3)是反应突变边界的重要特征，即突变边界和前一帧相似度极低，二段内其他连续帧相似度均很高。若这两个条件不能同时成立，说明过度变化不够明显，该段可能是渐变边界的一部分，需要对该段进行延长(段首段尾各添5帧)，然后对其做渐变边界检测。

考虑到渐变边界基本是边界过渡前后两个镜头内容的叠加，因而过渡边界的前半部分是与过渡之前的镜头内容相似度较高，与过渡之后的镜头内容相似度较低，反之亦然。我们采用绝对距离差：diff(t)＝|ψ(g_a,g_t)-ψ(g_a,g_t)|表征渐变边界内的帧属于过渡前后镜头的可能性。其中代表边界过渡前的最后一帧和过渡后的第一帧。一个理想渐变边界过渡之前的最后一帧和过渡后的第一帧应该属于不同镜头，因而两帧之间的相似度应当很低。

D_g＜0.85 (4)

max(diff(t)-min(diff(t)＞T_p(6)

与突变镜头相似，若渐变边界候选段同时满足(4)(5)(6)三个条件，则被认为是渐变镜头边界。

经过上述预处理、特征提取和边界检测3个步骤可很好地切割视频镜头，相较于现有的视频镜头切割方法，本专利所提出的新方法分割镜头的边界更完整、更干净。

S5034、对用户在各视频分类下单一视角视频观看集中视频进行视角分类，区分远景、近景视角；例如，本发明的统计视角数据如下：

对用户观看时长进行归一化处理：

各类视角偏好得分计算为：

近景偏好得分＝(N2/M2+N4/M4+…)/近景视频观看数

远景偏好得分＝(N1/M1+N3/M3+…)/远景视频观看数

判断用户近景偏好得分/远景评好得分值大小，得分多的即为用户视角偏好。

S504、在主叫不存在视频播放记录情况下，根据主叫属性进行视角偏好计算；在步骤S503中积累了大量用户的视频偏好，即***学习了不同用户对于不同类型视频的视角喜好，可在根据用户属性进行分类，对于无播放记录的用户进行不同视角视频彩铃推荐放音(年龄、性别、爱好、区域、群落等)，通过机器学习的方式进行用户视角推荐。

提取用户画像中的年龄、性别、用户视觉喜好属性，构造标签矩阵，其中性别标签用表1表示，年龄标签用表2表示，用户喜好用表3表示：

表1性别标签

标签值	含义
		1	男
0	女

年龄标签是通过提取用户注册信息中所填写的出生年份字段计算而得，标签体系按年龄段为其打上对应标签。

表2年龄标签

标签值	含义
		1	10≤年龄＜20
2	20≤年龄＜30
		3	30≤年龄＜40
4	40≤年龄＜50
		5	50≤年龄＜60
6	60≤年龄＜70
		7	70≤年龄＜80
8	80≤年龄＜90

用户爱好也可用同样的方法打标签，可将用户的爱好大致分为几类，并为其打上标签。

表3用户爱好标签

标签值	含义
		1	爱好1
2	爱好2
		n	爱好n

其中n根据最后用户的爱好种类所确定。

将上述的3个标签构造一个多维度矩阵-用户-标签矩阵，可简单表示为：

用户	性别	年龄	爱好
				1	0	3	2
2	1	2	4
				3	0	2	4

若此时需要给一个新用户推荐视觉彩铃，可将该新用户的标签值添加到上表，然后计算该行与其他各行的相似度，最后得出一系列的相似度值，将与该新用户最相似的用户喜好视觉推荐给该用户。

相似度计算方法通常采用欧氏距离、曼哈顿距离和余弦相似度等。用户标签之间的相似度计算采用欧式距离计算。

计算公示如下：

其中sim_q表示新用户u与q用户之间的相似度，q＝(1，2，3，…，N)表示用户集群中的用户，计算该新用户与其他用户的标签相似度并将其组成一个一维矩阵，然后按照从小到大对该矩阵进行排序，将相似度最接近且拥有某类视频视角偏好的用户视角偏好的赋值给该用户。

以上仅就本发明较佳的实施例作了说明，但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例，其具体结构允许有变化，总之，凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。

Claims

1.一种视频彩铃不同视角的推荐方法，其特征在于，包含以下步骤：

S1，主叫号码拨打被叫后，呼叫信息触发到核心网；

S2，所述核心网转发呼叫信息到相应彩铃呼叫节点；

S3，所述彩铃呼叫节点查询该呼叫信息应播放视频铃音ID；

S4，所述彩铃呼叫节点转发该呼叫信息及相应铃音ID到BM；

S5，所述BM获取用户属性及历史观看记录，计算主叫视角偏好，对比ID对应各视频视角，计算出向用户放音文件信息；

S6，所述BM向彩铃呼叫借点返回偏好视角放音文件信息；

S7，所述彩铃呼叫节点选择放音文件进行放音；

S8，所述彩铃呼叫节点向核心网返回媒体流，向主叫播放偏好视频。

2.根据权利要求1所述视频彩铃不同视角的推荐方法，其特征在于：所述步骤S5包含以下步骤：

S501、计算待放视频彩铃ID对应的分类、各实体文件的视角；

3.根据权利要求2所述视频彩铃不同视角的推荐方法，其特征在于：所述步骤S503包含以下步骤：

S5032、对这些视频内容按照视频分类体系进行分类；

4.根据权利要求3所述视频彩铃不同视角的推荐方法，其特征在于：所述步骤S5033中，视频根据预先设定的类别划分好后，采用深度学习方法对各个类别的视频进行分割，将不同视角的视频片段分离开，采用特征提取网络用于镜头边界检测框架。

5.根据权利要求4所述视频彩铃不同视角的推荐方法，其特征在于：所述特征提取网络的算法流程包括：输入一段视频，通过预处理得到突变边界候选段和渐变边界候选段，这些段将经过CNN提取到强表达能力的特征，随后这些特征将用于后续的突变边界检测和渐变边界检测。

6.根据权利要求5所述视频彩铃不同视角的推荐方法，其特征在于：所述预处理包含移除非镜头帧和边界区分；对于一小段连续帧，若段首段尾帧具有极高的相似度，则认为该段中所有帧均为非镜头帧，不再参与后续的镜头检测过程；对于边界区分，通过判断该段首帧和段中帧的相似度，区分突变边界和渐变边界。

7.根据权利要求6所述视频彩铃不同视角的推荐方法，其特征在于：所述边界区分的步骤包括：

计算局部阈值；将10个小段分为1组，每10组分为组成一个单元，然后统计每个单元和组内的特征计算第n小段的局部阈值T；

8.根据权利要求4所述视频彩铃不同视角的推荐方法，其特征在于：所述特征提取网络的网络共50层，ResNet50共经过了4组Block，每组Block分别包含了3，4，6，3个Bottleneck，并且第一个都是输入与输出尺寸不同的Bottleneck。

9.根据权利要求3所述视频彩铃不同视角的推荐方法，其特征在于：所述步骤S5034中，对用户观看时长进行归一化处理得到用户各类视角偏好得分。

10.根据权利要求2所述视频彩铃不同视角的推荐方法，其特征在于：所述步骤S504中，通过机器学习的方式进行用户视角推荐。