CN111416995A

CN111416995A - 一种基于场景识别的内容推送方法、***及智能终端

Info

Publication number: CN111416995A
Application number: CN202010217371.0A
Authority: CN
Inventors: 孙思凯
Original assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Current assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2020-07-14

Abstract

本发明公开了一种基于场景识别的内容推送方法、***及智能终端，所述方法包括：将当前播放界面进行截屏和录音操作，生成截图和声纹文件；根据所述截图和所述声纹文件进行场景识别，输出场景识别结果；根据所述场景识别结果对用户各种使用场景及场景的使用时长进行统计，并输出用户使用习惯数据；根据所述用户使用习惯数据，对用户进行针对性的内容推送。本发明通过对当前用户的收看场景进行准确判断，根据识别结果进行用户使用习惯和喜好的统计，根据统计的数据对用户进行针对性的内容推荐，方便用户观看自己喜欢的节目类型。

Description

一种基于场景识别的内容推送方法、***及智能终端

技术领域

本发明涉及智能推送技术领域，尤其涉及一种基于场景识别的内容推送方法、***及智能终端。

背景技术

随着智能电视、智慧手机的迅猛发展，越来越多的人可以体验到移动互联世界的精彩，受众涵盖了社会的各个阶层以及各个年龄段；现在已经从内容缺乏迅速步入到内容大***的时代，包罗万象的资讯让人们眼花缭乱。所以，对于内容推广商来说，提供内容和资源投放的精准度显得尤为重要，对于处在设备终端的用户来说，迅速掌握到自己所需的内容的需求变得越来越迫切。

但是现有技术中当用户需要观看某种视频时，用户需要在主页模块中进行搜索，从搜索结果中找到他喜欢的资源，肯定会花去一部分时间，如果用户下次还需要观看相同的内容，还需要重复上面的繁琐步骤，耽误用户的搜索时间，而且操作不方便。

例如，用户喜欢看NBA直播类节目，需要先到主页模块中搜索“NBA”关键字，并从搜索结果中找到自己喜欢看到的类别，如最新赛事，而不是相关喜欢，这里会花去用户一部分时间；在看完NBA赛事之后，用户想听一段钢琴曲，用户同样需要在主页模块中搜索钢琴曲，从搜索结果中找到他喜欢的抒情类钢琴曲；这里会花去一部分时间；如果用户下次还需要看NBA或者听抒情类的钢琴曲，还需要重复上面的繁琐步骤。

因此，现有技术还有待于改进和发展。

发明内容

本发明的主要目的在于提供一种基于场景识别的内容推送方法、***及智能终端，旨在解决现有技术中用户获取想要的资源操作繁琐的问题。

本发明通过实时的场景识别，对当前用户的收看场景进行准确判断，根据判断的结果，统计用户使用习惯及喜好，将该喜好同步到后台服务器，后台服务器根据该数据进行针对性推送，则用户可以通过主页的推荐位入口，非常便捷的收看或收听到自己喜欢的节目类型。

为实现上述目的，本发明提供一种基于场景识别的内容推送方法，所述基于场景识别的内容推送方法包括如下步骤：

将当前播放界面进行截屏和录音操作，生成截图和声纹文件；

根据所述截图和所述声纹文件进行场景识别，输出场景识别结果；

根据所述场景识别结果对用户各种使用场景及场景的使用时长进行统计，并输出用户使用习惯数据；

根据所述用户使用习惯数据，对用户进行针对性的内容推送。

可选地，所述的基于场景识别的内容推送方法，其中，所述将当前播放界面进行截屏和录音操作，生成截图和声纹文件，具体包括：

当检测到***处于播放的运行状态时，启动截屏和录音操作；

将当前播放界面按照预设频率进行截屏和录音操作，生成所述截图和所述声纹文件。

可选地，所述的基于场景识别的内容推送方法，其中，所述截图按照图片数据流格式保存，所述声纹文件按照音频数据流格式保存。

可选地，所述的基于场景识别的内容推送方法，其中，所述根据所述截图和所述声纹文件进行场景识别，输出场景识别结果，之前还包括：

预先建立一用于根据截图和声纹文件进行场景识别的场景识别模型，所述场景识别模型预先根据多个图片文件和音频文件完成准确性的训练。

可选地，所述的基于场景识别的内容推送方法，其中，所述根据所述截图和所述声纹文件进行场景识别，输出场景识别结果，具体包括：

接收所述截图和所述声纹文件，将所述截图和所述声纹文件输入到所述场景识别模型中；

所述场景识别模型根据所述截图和所述声纹文件，输出所述截图和所述声纹文件对应的场景识别结果。

可选地，所述的基于场景识别的内容推送方法，其中，所述根据所述场景识别结果对用户各种使用场景及场景的使用时长进行统计，并输出用户使用习惯数据，具体包括：

接收所述场景识别结果，将用户各种使用场景及场景的使用时长进行统计；

将使用场景及场景的使用时长进行预设规则的排名，将预设个数的排名结果作为所述用户使用习惯数据进行输出。

可选地，所述的基于场景识别的内容推送方法，其中，所述根据所述用户使用习惯数据，对用户进行针对性的内容推送，具体包括：

接收所述用户使用习惯数据，根据所述用户使用习惯数据分析得出用户喜欢观看的内容，并实时进行更新；

获取用户感兴趣的内容，将用户感兴趣的内容在主页入口进行针对性推送。

此外，为实现上述目的，本发明还提供一种基于场景识别的内容推送***，其中，所述基于场景识别的内容推送***包括：

截屏录音模块，用于将当前播放界面进行截屏和录音操作，生成截图和声纹文件；

模型运行模块，用于调用场景识别模型进行场景识别；

识别结果处理模块，用于根据所述截图和所述声纹文件进行场景识别，输出场景识别结果；

后台消息交互模块，用于根据所述场景识别结果对用户各种使用场景及场景的使用时长进行统计，并输出用户使用习惯数据；

后台服务器，用于根据所述用户使用习惯数据，对用户进行针对性的内容推送。

此外，为实现上述目的，本发明还提供一种智能终端，其中，所述智能终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于场景识别的内容推送程序，所述基于场景识别的内容推送程序被所述处理器执行时实现如上所述的基于场景识别的内容推送方法的步骤。

此外，为实现上述目的，本发明还提供一种存储介质，其中，所述存储介质存储有基于场景识别的内容推送程序，所述基于场景识别的内容推送程序被处理器执行时实现如上所述的基于场景识别的内容推送方法的步骤。

本发明通过将当前播放界面进行截屏和录音操作，生成截图和声纹文件；根据所述截图和所述声纹文件进行场景识别，输出场景识别结果；根据所述场景识别结果对用户各种使用场景及场景的使用时长进行统计，并输出用户使用习惯数据；根据所述用户使用习惯数据，对用户进行针对性的内容推送。本发明通过对当前用户的收看场景进行准确判断，根据识别结果进行用户使用习惯和喜好的统计，根据统计的数据对用户进行针对性的内容推荐，方便用户观看自己喜欢的节目类型。

附图说明

图1是本发明基于场景识别的内容推送方法的较佳实施例的流程图；

图2是本发明基于场景识别的内容推送方法的较佳实施例中步骤S10的流程图；

图3是本发明基于场景识别的内容推送方法的较佳实施例中步骤S20的流程图；

图4是本发明基于场景识别的内容推送方法的较佳实施例中步骤S30的流程图；

图5是本发明基于场景识别的内容推送方法的较佳实施例中步骤S40的流程图；

图6是本发明基于场景识别的内容推送***的较佳实施例功能原理图；

图7为本发明智能终端的较佳实施例的运行环境示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

随着Android操作***的迭代，在Android 8.0发布之后，Android操作提供一套Android NN(安卓神经网络)的接口，使用开发人员可以基于Android NN进行卷积算法的开发，该算法简单的说是提前训练相关的模型，模型的训练原理是采取海量素材提供给模型，素材包括图片类及声纹类等等；模型识别后，进行人工纠偏，通过不断训练提升模型对素材的识别准确率，该识别可以运行在单独的硬件IP单元(如APU或NPU)，不占用主芯片SOC的CPU、GPU资源，达到在不响应电视正常使用的情况下，进行人工智能识别，获取但不局限于用户再哪一钟场景停留多少时间等要素。

本发明较佳实施例所述的基于场景识别的内容推送方法，如图1所示，所述基于场景识别的内容推送方法包括以下步骤：

步骤S10、将当前播放界面进行截屏和录音操作，生成截图和声纹文件。

具体的过程请参阅图2，其为本发明提供的基于场景识别的内容推送方法中步骤S10的流程图。

如图2所示，所述步骤S10包括：

S11、当检测到***处于播放的运行状态时，启动截屏和录音操作；

S12、将当前播放界面按照预设频率进行截屏和录音操作，生成所述截图和所述声纹文件。

具体地，在***(例如智能电视)运行的时候，会控制进行当前界面的截屏和录音操作，分别责生成截图和声纹文件，其中，所述截图按照图片数据流格式保存，所述声纹文件按照音频数据流格式保存。

其中，所述预设频率优先为300ms/次。

例如，用户在第一次收看NBA直播类节目(如通过机顶盒)的时候，会控制以300ms/次的频率进行截屏操作，截屏出来的图片按照图片数据流格式保存；同理的，用户在听取抒情类钢琴曲的时候，会控制以300ms/次进行音频数据的获取，并按照音频数据流格式保存。

步骤S20、根据所述截图和所述声纹文件进行场景识别，输出场景识别结果。

具体过程请参阅图3，其为本发明提供的基于场景识别的内容推送方法中步骤S20的流程图。

如图3所示，所述步骤S20包括：

S21、接收所述截图和所述声纹文件，将所述截图和所述声纹文件输入到所述场景识别模型中；

S22、所述场景识别模型根据所述截图和所述声纹文件，输出所述截图和所述声纹文件对应的场景识别结果。

具体地，在所述步骤S21之前还包括：预先建立一用于根据截图和声纹文件进行场景识别的场景识别模型，所述场景识别模型预先根据多个图片文件和音频文件完成准确性的训练。

所述场景识别模型(tflite)在导入整机***之前经过了大量的训练，例如输入大量的图片或者音频，对应输出相应的场景，从而训练场景识别模型，可以针对图片及声纹信息做出场景的准确判断。

例如，对用户在第一次收看NBA直播类节目时，截屏操作出来的图片输入到所述场景识别模型进行场景识别；用户在听取抒情类钢琴曲时，录音模得到的音频数据输入到所述场景识别模型进行场景识别；在用户收看NBA赛事直播的时候，或者收听抒情类钢琴曲的时候，所述场景识别模型是可以进行判断的，更进一步地，NBA赛事的截屏图片在左上角是有典型的nba logo交表，图片中会有篮球因素；钢琴曲的声纹片段中会有特殊的声纹信息支持场景识别模型进行场景判断。

步骤S30、根据所述场景识别结果对用户各种使用场景及场景的使用时长进行统计，并输出用户使用习惯数据。

具体过程请参阅图4，其为本发明提供的基于场景识别的内容推送方法中步骤S30的流程图。

如图4所示，所述步骤S30包括：

S31、接收所述场景识别结果，将用户各种使用场景及场景的使用时长进行统计；

S32、将使用场景及场景的使用时长进行预设规则的排名，将预设个数的排名结果作为所述用户使用习惯数据进行输出。

具体地，根据软件算法对用户各种使用场景及该场景的使用时长进行统计，对于给出的场景识别结果，如例如NBA赛事直播0.8，新闻直播0.2的占比进一步给出准确结果，这里需要说明的是，所述场景识别模型给出并非一个结果，是一个带权重的综合结果，这也是该场景识别模型存在的基础；进一步的，该所述场景识别模型还会判断是否存在误判，连续3次的结果都是相同的才认为场景真正做了切换，这里有效的防止了抖动识别误判；基于给出的准确结果，将占用户使用时长前三位的场景上报给后台，作为所述用户使用习惯数据进行输出。

步骤S40、根据所述用户使用习惯数据，对用户进行针对性的内容推送。

具体过程请参阅图5，其为本发明提供的基于场景识别的内容推送方法中步骤S40的流程图。

如图5所示，所述步骤S40包括：

S41、接收所述用户使用习惯数据，根据所述用户使用习惯数据分析得出用户喜欢观看的内容，并实时进行更新；

S42、获取用户感兴趣的内容，将用户感兴趣的内容在主页入口进行针对性推送。

具体地，后台根据提供过来的用户使用习惯数据，对该用户进行针对性的内容推送。例如根据该用户的使用习惯和喜好，针对性的进行主页入口的推送，该用户可以很快捷的通过主页的推荐位进行NBA直播赛事的收看及抒情类钢琴曲的收听；用户其他的喜好包括喜好的改变，都可以实时更新到后台。

以智能电视为例，本发明基于目前主流TV SOC中加入的单独卷积运算单元进行智能场景识别，根据识别结果，在TV端进行用户使用习惯的统计，比如用户在体育类场景停留时长，在音乐类场景停留时长。具体地，通过场景识别，可以判断用户在电视机的使用过程中，得知用户在大部分时间内收看的是什么场景，如某一用户喜欢收看体育竞技类节目，更进一步的，可以判断用户收看的是NBA赛事，可以获知用户可能是一个NBA球迷，可以控制主页推荐位模块的入口，精准推送实时的NBA直播入口及NBA的赛事消息，用户可以免去自己搜索的繁复过程，提升用户体验，增加用户使用电视机的粘度。

进一步地，如图6所示，本发明还提供一种基于场景识别的内容推送***，包括：

截屏录音模块，用于将当前播放界面进行截屏和录音操作，生成截图和声纹文件；模型运行模块，用于调用场景识别模型进行场景识别；识别结果处理模块，用于根据所述截图和所述声纹文件进行场景识别，输出场景识别结果；后台消息交互模块，用于根据所述场景识别结果对用户各种使用场景及场景的使用时长进行统计，并输出用户使用习惯数据；后台服务器，用于根据所述用户使用习惯数据，对用户进行针对性的内容推送。

具体地，如图6所示，主控模块是负责控制其他模块工作的主服务模块，在***运行的时候，会控制截屏音模块进行截屏和录音操作，截屏和录音模块负责生成截图或声纹文件，将截图或声纹文件输出给模型运行模块，模型运行模块负责给出识别的倾向结果，识别结果处理模块负责判定准确的识别结果，进一步的，识别结果处理模块把准确的识别结果传递给后台消息交互模块，后台消息交互模块会根据软件算法对用户各种使用场景及该场景的使用时长进行统计，后台消息交互模块会以一定频率(优选为10s)将该数据同步到后台服务器(即后台服务器模块)；后台服务器根据提供过来的用户使用习惯数据，对该用户进行针对性的内容推送。

例如，用户在第一次收看NBA直播类节目(如通过机顶盒)的时候，主控模块会通知截屏录音模块已300ms/次的频率进行截屏操作；截屏出来的图片按照数据流格式提供给模型运行模块；用户在听取抒情类钢琴曲的时候，主控模块会通知截屏录音模块以300ms/次进行音频数据的获取并传递给模型运行模块进行场景识别。

基于以上，在用户收看NBA赛事直播的时候，或者收听抒情类钢琴曲的时候，模型识别模块是可以进行判断的；更进一步地，NBA赛事的截屏图片在左上角是有典型的nbalogo交表，图片中会有篮球因素；钢琴曲的声纹片段中会有特殊的声纹信息支持模型运行模块进行场景判断。其中，模型运行模块中运行的场景识别模型模型(tflite)在导入整机***之前经过了大量的训练，可以针对图片及声纹信息做出场景的准确判断。

结果处理模块根据场景识别模型给出的结果，如NBA赛事直播0.8，新闻直播0.2的占比进一步给出准确结果，这里需要说明的是，场景识别模型给出并非一个结果，是一个带权重的综合结果，这也是场景识别模型存在的基础；进一步地，结果处理模块还会判断是否存在误判，连续3次的结果都是相同的才认为场景真正做了切换，这里有效的防止了抖动识别误判。

基于识别结果处理模块给出的准确结果，后台消息互动模块会将占用户使用时长前三位的场景上报给后台服务器模块；后台服务器模块会根据该用户的使用习惯，针对性的进行主页入口的推送，该用户可以很快捷的通过主页的推荐位进行NBA直播赛事的收看及抒情类钢琴曲的收听；另外，用户其他的喜好包括喜好的改变，都可以实时更新到后台服务器模块，以便及时更新推荐给用户的内容。

进一步地，如图7所示，基于上述基于场景识别的内容推送方法，本发明还相应提供了一种智能终端，所述智能终端包括处理器10、存储器20及显示器30。图7仅示出了智能终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述智能终端的内部存储单元，例如智能终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述智能终端的外部存储设备，例如所述智能终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括所述智能终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能终端的应用软件及各类数据，例如所述安装智能终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有基于场景识别的内容推送程序40，该基于场景识别的内容推送程序40可被处理器10所执行，从而实现本申请中基于场景识别的内容推送方法。

所述处理器10在一些实施例中可以是一中央处理器(CentralProcessing Unit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述基于场景识别的内容推送方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述智能终端的信息以及用于显示可视化的用户界面。所述智能终端的部件10-30通过***总线相互通信。

在一实施例中，当处理器10执行所述存储器20中基于场景识别的内容推送程序40时实现以下步骤：

所述将当前播放界面进行截屏和录音操作，生成截图和声纹文件，具体包括：

当检测到***处于播放的运行状态时，启动截屏和录音操作；

所述截图按照图片数据流格式保存，所述声纹文件按照音频数据流格式保存。

所述根据所述截图和所述声纹文件进行场景识别，输出场景识别结果，之前还包括：

所述根据所述截图和所述声纹文件进行场景识别，输出场景识别结果，具体包括：

所述根据所述场景识别结果对用户各种使用场景及场景的使用时长进行统计，并输出用户使用习惯数据，具体包括：

所述根据所述用户使用习惯数据，对用户进行针对性的内容推送，具体包括：

本发明还提供一种存储介质，其中，所述存储介质存储有基于场景识别的内容推送程序，所述基于场景识别的内容推送程序被处理器执行时实现如上所述的基于场景识别的内容推送方法的步骤。

综上所述，本发明提供一种基于场景识别的内容推送方法、***及智能终端，所述方法包括：将当前播放界面进行截屏和录音操作，生成截图和声纹文件；根据所述截图和所述声纹文件进行场景识别，输出场景识别结果；根据所述场景识别结果对用户各种使用场景及场景的使用时长进行统计，并输出用户使用习惯数据；根据所述用户使用习惯数据，对用户进行针对性的内容推送。本发明通过对当前用户的收看场景进行准确判断，根据识别结果进行用户使用习惯和喜好的统计，根据统计的数据对用户进行针对性的内容推荐，方便用户观看自己喜欢的节目类型。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的程序可存储于一计算机可读取的存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于场景识别的内容推送方法，其特征在于，所述基于场景识别的内容推送方法包括：

2.根据权利要求1所述的基于场景识别的内容推送方法，其特征在于，所述将当前播放界面进行截屏和录音操作，生成截图和声纹文件，具体包括：

当检测到***处于播放的运行状态时，启动截屏和录音操作；

3.根据权利要求2所述的基于场景识别的内容推送方法，其特征在于，所述截图按照图片数据流格式保存，所述声纹文件按照音频数据流格式保存。

4.根据权利要求1或者2所述的基于场景识别的内容推送方法，其特征在于，所述根据所述截图和所述声纹文件进行场景识别，输出场景识别结果，之前还包括：

5.根据权利要求4所述的基于场景识别的内容推送方法，其特征在于，所述根据所述截图和所述声纹文件进行场景识别，输出场景识别结果，具体包括：

6.根据权利要求1或5所述的基于场景识别的内容推送方法，其特征在于，所述根据所述场景识别结果对用户各种使用场景及场景的使用时长进行统计，并输出用户使用习惯数据，具体包括：

7.根据权利要求1所述的基于场景识别的内容推送方法，其特征在于，所述根据所述用户使用习惯数据，对用户进行针对性的内容推送，具体包括：

8.一种基于场景识别的内容推送***，其特征在于，所述基于场景识别的内容推送***包括：

模型运行模块，用于调用场景识别模型进行场景识别；

9.一种智能终端，其特征在于，所述智能终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于场景识别的内容推送程序，所述基于场景识别的内容推送程序被所述处理器执行时实现如权利要求1-7任一项所述的基于场景识别的内容推送方法的步骤。

10.一种存储介质，其特征在于，所述存储介质存储有基于场景识别的内容推送程序，所述基于场景识别的内容推送程序被处理器执行时实现如权利要求1-7任一项所述的基于场景识别的内容推送方法的步骤。