CN108269133A

CN108269133A - 一种结合人体识别和语音识别的智能广告推送方法及终端

Info

Publication number: CN108269133A
Application number: CN201810247896.1A
Authority: CN
Inventors: 李晓明
Original assignee: SHENZHEN UMIDO TECHNOLOGY Co Ltd
Current assignee: SHENZHEN UMIDO TECHNOLOGY Co Ltd
Priority date: 2018-03-23
Filing date: 2018-03-23
Publication date: 2018-07-10

Abstract

本发明公开一种结合人体识别和语音识别的智能广告推送方法及终端，其中，结合人体识别和语音识别的智能广告终端包括：智能广告管理模块、人体识别模块、语音识别模块、数据收发模块、广告显示模块、显示屏、麦克风阵列和高清自动调焦摄像头；人体识别模块与高清自动调焦摄像头连接，语音识别模块与麦克风阵列连接，智能广告管理模块的数据接口分别与人体识别模块和语音识别模块连接，广告显示模块与智能广告管理模块连接，广告显示模块与显示屏连接，智能广告管理模块与数据收发模块连接。本发明技术方案旨在针对广告受众进行实时的用户分析，增加与广告受众互动性，使得广告投放更加精准，提高广告投放后的实际效果。

Description

一种结合人体识别和语音识别的智能广告推送方法及终端

技术领域

本发明涉及广告推送技术领域，特别涉及一种结合人体识别和语音识别的智能广告推送方法及终端。

背景技术

广告机是新一代的智能设备，通过终端软件控制、网络信息传输和多媒体终端显示构成一个完整的广告播控***，并通过图片、文字、视频、小插件(天气、汇率等)等多媒体素材进行广告宣传。广告机最初的构想是将广告变被动为主动，所以广告机的互动性使得它具备很多公共服务功能，并以此来吸引顾客主动浏览广告。

广告机根据功能和场景的不同，可以分为楼宇、电梯、车载、户外、门禁等不同的分类。

目前市场上广告机终端普遍存在如下缺点：1.无法针对受众进行精准投放；广告机无论是通过本地介质，SD卡或TF卡，或者网络推送，都决定了广告内容放入本机后无法更改，播放的时段和内容的先后也无法更改。这也决定了不论观看广告的受众是谁，他们看到的内容都是一样的。而这样的投放方式，往往无法抓住广告受众的痛点，导致他们对广告机逐渐视而不见。2.广告投放方无法判断自己广告投放的实际效果和收益率和上面的情况一样，广告投放方在投放广告后，无法判断该广告投放的精准度，以及后续的效果。3.缺乏有效的互动性，导致无法导入真正高价值的广告由于无法进行广泛的精准投递，以及无法确认广告投递后的实际效果和收益，导致了很多在电脑网络里的高附加值的广告形式，如游戏广告等，在线下的广告机市场占比很低，限制了广告机市场的发展。

因此，针对现有技术的不足有必要提出一种新的技术方案。

发明内容

本发明的主要目的是提出一种结合人体识别和语音识别的智能广告推送方法，旨在针对广告受众进行实时的用户分析，增加与广告受众互动性，使得广告投放更加精准，提高广告投放后的实际效果。

为实现上述目的，本发明提出的一种结合人体识别和语音识别的智能广告推送方法，包括如下步骤：

步骤S1：实时获取广告终端前面的图像信息以及语音信息；

步骤S2：对获取到的图像信息进行分析以得到广告受众相应的人体特征信息，对获取到的语音信息进行分析以得到语言信息；

步骤S3：根据所述人体特征信息及语言信息提取相应的关键字，并将提取的关键字发送至云端，所述云端反馈与该关键字相匹配的广告内容；

步骤S4：根据广告内容的相关性排列各个广告的播放次序；

步骤S5：根据播放次序推送广告，

步骤S6：重复步骤S1～S5。

优选地，步骤S5和步骤S6之间还包括：步骤S51：实时监测广告受众在广告终端的停留时间，并判断停留时间是否大于预设的阀值，若停留时间大于预设的阀值，则将当前播放的广告为有效广告内容，增加并记录该广告的广告转化率；

所述步骤S4：根据广告内容的相关性及各广告的广告转化率重新排列各个广告的播放次序。

优选地，在步骤S1未获取广告终端前面的图像信息以及语音信息时，从本地存储模块获取广告内容，并传输到显示屏进行播放。

优选地，在所述步骤S4中，在确定播放次序过程中，所述广告内容与语音信息的相关性优先于所述广告内容与人体特征信息的相关性。

优选地，步骤S4中

所述广告内容与语音信息、人体特征信息的相关性均优先于广告转化率。

本发明还提出了一种结合人体识别和语音识别的智能广告终端，包括：

高清自动调焦摄像头，用于实时获取所述广告终端前面的图像信息；

麦克风阵列，用于实时获取所述广告终端前面的语音信息；

人体识别模块，用于对获取到的所述图像信息进行分析以得到广告受众相应的人体特征信息；

语音识别模块，用于对获取到的所述语音信息进行分析以得到语言信息；

智能广告管理模块，用于接收并根据所述人体特征信息及语言信息提取相应的关键字，并将所述关键字通过数据收发模块发送至云端，以及从所述云端获取反馈的与所述关键字相匹配的广告内容；并根据内部的智能排序算法和优先级对广告内容进行智能排序；

数据收发模块，用于所述智能广告管理模块与所述云端之间的通讯连接；

显示屏，用于播放所述智能广告管理模块排序好的广告内容；

广告显示模块，用于将所述智能广告管理模块排序好的广告内容输出到显示屏；

其中，所述人体识别模块的数据接口与所述高清自动调焦摄像头连接，所述语音识别模块的数据接口与所述麦克风阵列连接，所述智能广告管理模块的数据接口分别与所述人体识别模块和所述语音识别模块连接，所述广告显示模块的输入端与所述智能广告管理模块的数据输出端连接，所述广告显示模块的输出端与所述显示屏连接，所述智能广告管理模块的通信端接口与所述数据收发模块连接。

优选地，还包括本地存储模块，所述本地存储模块的输出端与所述智能广告管理模块的数据输入端连接。

本发明技术方案通过采用人体识别模块和语音识别模块获取广告受众的语音信息和人体图像信息，通过智能广告管理模块对相关信息进行处理获取对应的关键字，并通过关键字从云端***获取相关广告内容；智能广告管理模块再根据内部的智能排序算法和优先级对广告内容进行智能排序；再通过广告显示模块将排序好的广告内容进行推送播放。因此，本发明技术方案能够使得广告的推送更加精准，与广告受众的互动性更强，广告投放的效果更好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明一实施例的结构框图；

图2为本发明中智能广告管理模块的工作流程示意图；

图3为本发明中广告排序算法流程示意图；

图4为本发明中基于整体模型方法的人体检测的示意图；

图5为本发明中快速的特征选择方法的流程示意图；

图6为本发明中分层级联分类器的原理示意图；

图7为本发明中语音识别***工作流程示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

本发明提出一种结合人体识别和语音识别的智能广告推送方法及终端。

在本发明实施例中，一种结合人体识别和语音识别的智能广告推送方法，包括如下步骤：

步骤S1：实时获取广告终端前面的图像信息以及语音信息；

步骤S3：根据人体特征信息及语言信息提取相应的关键字，并将提取的关键字发送至云端，云端反馈与该关键字相匹配的广告内容；

步骤S4：根据广告内容的相关性排列各个广告的播放次序；

步骤S5：根据播放次序推送广告，

步骤S6：重复步骤S1～S5。

本发明技术方案通过采用人体识别模块和语音识别模块获取广告受众的语音信息和人体图像信息，通过智能广告管理模块对相关信息进行处理获取对应的关键字，并通过关键字从云端***获取相关广告内容；智能广告管理模块再根据内部的智能排序算法和信息相关性的优先级对广告内容进行智能排序；再通过广告显示模块将排序好的广告内容进行推送播放。因此，本发明技术方案能够使得广告的推送更加精准，与广告受众的互动性更强，广告投放的效果更好。

在本发明实施例中，步骤S5和步骤S6之间还包括：步骤S51：实时监测广告受众在广告终端的停留时间，并判断停留时间是否大于预设的阀值，若停留时间大于预设的阀值，则将当前播放的广告为有效广告内容，增加并记录该广告的广告转化率。

步骤S4：根据广告内容的相关性及各广告的广告转化率重新排列各个广告的播放次序。

在本发明实施例中，在步骤S1未获取广告终端前面的图像信息以及语音信息时，从本地存储模块获取广告内容，并传输到显示屏进行播放。

在本发明实施例中，在步骤S4中，在确定播放次序过程中，广告内容与语音信息的相关性优先于广告内容与人体特征信息的相关性。

在本发明实施例中，步骤S4中，广告内容与语音信息、人体特征信息的相关性均优先于广告转化率。

本发明还提出了一种结合人体识别和语音识别的智能广告终端，如图1所示，包括：

高清自动调焦摄像头，用于实时获取广告终端前面的图像信息；

麦克风阵列，用于实时获取广告终端前面的语音信息；

人体识别模块，用于对获取到的图像信息进行分析以得到广告受众相应的人体特征信息；

语音识别模块，用于对获取到的语音信息进行分析以得到语言信息；

智能广告管理模块，用于接收并根据人体特征信息及语言信息提取相应的关键字，并将关键字通过数据收发模块发送至云端，以及从云端获取反馈的与关键字相匹配的广告内容；并根据内部的智能排序算法和优先级对广告内容进行智能排序；

数据收发模块，用于智能广告管理模块与云端之间的通讯连接；

显示屏，用于播放智能广告管理模块排序好的广告内容；

广告显示模块，用于将智能广告管理模块排序好的广告内容输出到显示屏；

其中，人体识别模块的数据接口与高清自动调焦摄像头连接，语音识别模块的数据接口与麦克风阵列连接，智能广告管理模块的数据接口分别与人体识别模块和语音识别模块连接，广告显示模块的输入端与智能广告管理模块的数据输出端连接，广告显示模块的输出端与显示屏连接，智能广告管理模块的通信端接口与数据收发模块连接。

在本发明实施例中，还包括本地存储模块，本地存储模块的输出端与智能广告管理模块的数据输入端连接。

在工作时，高清自动调焦摄像头和麦克风阵列采集到人体图像信息以及语音信息后，将相关信息传送到人体识别模块和语音识别模块；人体识别模块经过对图像的分析，获取人体特征信息，如男女、大概年龄、外衣颜色、提包的颜色等；并将相关信息发送给后端的智能广告管理模块。与此同时，语音识别模块也通过麦克风阵列进行语音采集，根据终端前的广告受众的对话内容，获取出语言信息，并将这些相关信息发送给智能广告管理模块。

智能广告管理模块的工作流程如图2所示，智能广告管理模块收到来自人体识别模块和语音识别模块的相关信息后，根据这些信息将广告受众进行分类，并提取相应的关键字。然后智能广告管理模块根据关键字、内部智能排序算法和优先级别选取出针对当前广告受众的广告内容，进行即时推送和播放。

例如，在人体识别模块识别到路过广告***的广告受众为40岁左右男性，穿正装，智能广告管理模块根据云端的广告内容，动态的选取诸如车、红酒、度假村等广告；如广告受众为60岁以上老年人，则智能广告管理模块统推送保健品、养老服务等有针对性的广告。

而如果语音识别模块内有高针对性的关键字输入的话，如广告受众在讨论某一款车，则广告管理***将有针对性的播放该系列或者竞品车型，或者车辆配件保养服务等高针对性的广告。

同样是来自人体识别模块和语音识别模块的关键字信息，由于语音识别模块传送过来的关键字直接来自广告受众，具有更高的准确性，会作为广告推送类目的更高优先级进行推送。因此语言信息的优先级要高于人体特征信息。

当智能广告管理模块在收到关键字后，会遍历广告内容数据，根据广告内容的相关性、广告转化率两方面动态的排列各个广告内容的播放次序。

当显示屏开始播放根据关键字排序的广告内容后，人体识别模块会继续监控广告受众的状态，如果广告受众在广告终端前停留，则说明广告投放有效，智能广告管理模块实时更新该广告的转化率数据，该广告转化率相应的增加，并录入***。而且广告转化率有优先级，转化率分数高的，在同一关键字优先级的各个广告之间转化率分数高的排在前面；具体广告内容排序算法如图3所示。

其中，人体识别算法模块工作原理：

可靠检测真实场景中的人体对许多实际应用来说非常重要，例如视频监控、汽车驾驶员辅助***、图像检索、高级人机交互等。在智能视频监控中，自动在场景中搜索人体被视为理解人类活动的首要预处理步骤，而在这种环境下的人体检测非常具有挑战性。尽管基于传统的帧差来提取运动信息的方法有助于检测图像序列中的运动人体，如Viola和Jonest提出的集成了人体外貌和运动信息的人体检测方法。

目前图像中的人体检测方法的方法大致分为两类：第一类是基于整体模型的方法，通过提取人体的典型特征(如梯度特征)采用统计学习的方法训练人体检测器，在尺度和位置空间上应用整体模型分类器对图像中所有的检测窗口进行判断，进而检测出图像中的人体。例如Gavrilla等人利用边缘特征，采用Chamfer距离模板匹配的方法，建立了一个基于整体模型的人体检测器。Dalal等人提出梯度方向直方图特征(HOG：Histogram ofOriented Gradient)，结合支持向量机(SVM：support vector machine)构建人体检测器，其中HOG特征是从SIFT特征变过来的。第二类是基于局部模型的方法，首先检测人体的不同部位，再利用各部位之间的几何关系构造最终的检测器。例如Mohent等人将人体分成四个部位：头部、腿部、左臂、右臂，采用Haar-like特征结合支持向量机构造各部位的检测器。Mikolajczyk等人利用方向.位置联合直方图特征建立了一个基于正/反面头部、脸部、上肢和腿部的检测器。

我们采用的是基于整体模型的方法来构造人体检测器，其具体的原理图如图4所示。

特征一般是对需要分类的对象所拥有的信息进行编码所得到的。对人体图像而言，特征比像素更利于对人体模型的表示，而这些知识并不能从图像的原始像素中很直观地得到。使用特征对人体图像进行建模，将有利于建立更有效的判决函数，使得最终的分类结果更好。此外，使用特征表示人体还表现在特征更容易公式化，而公式化的特征计算更加方便快捷，有利于人体检测速度的提高等。所以，在人体检测中，特征的设计始终扮演着重要的角色。到目前为止，很多研究者设计出各种各样的特征来表示人体，并建立了很多的人体检测***。但如何选择好的特征仍然是当前没有很好解决的问题。

Haar-like特征集能够表示人体轮廓的主要信息，如躯干，人体的左右边缘等。然而，这些信息也能从非人体的轮廓上用Haar-like特征集提取出，如杆状物，桶状物等等。所以仅用Haar-like特征集是不能区分人体和前面提到的非人体。而且，Haar-like特征之间没有相关性，用它表示的人体检测器要达到好的检测性能需要大量的样本来训练人体检测器。EOH特征之间具有相关性，能够表示人体所特有的轮廓信息，能够区分人体和前面提到的非人体。然而，EOH的计算量比Haar.1ike大，况且某些Haar-like特征的区分性很好。因此，在我们设计的人体检测器的特征集中同时包含了这两种特征。

对于的给定特征集和训练样本集，所有的机器学习算法都可以进行分类判决函数的学习。我们使用的图像中的人体检测算法就是使用机器学习算法对大量由特征生成的弱分类器进行挑选，并构成分类性能更好的强分类器来进行人体检测。考虑到人体结构的复杂性，由特征决定的单个弱分类器的分类性能不可能取得很好的效果，使用机器学习算法将有利于对弱分类器的性能进行提升。所以我们对当前最流行的机器学习算法：Adaboost算法进行了分析，并对Adaboost算法中训练时间较长的缺点进行改，提出一种快速特征提取的方法，并结合Fisher判决分析方法构造强分类器，进一步提高机器学习算法的性能。

我们提出一种快速的特征选择方法，称为Quick Feature Selection(QFS)，其流程图如图5所示，

在对图像进行人体检测的时候，由于图像中人体的位置和尺寸是未知的，在遍历图像中所有检测子窗口的时候，会发现其实图像中只有几个人体实例，而其他的数量庞大的子窗口都是非人体实例。这种情况下，人体检测实际上是一个稀有的实例检测问题。另外，为了能让训练得到的人体检测器能够实用，一般都要求具有较高的检测率(如95％)，以及极低的虚警率(如10一)。通常单一的分类器是达不到这样的指标。最后由于在人体检测器训练的过程，人体和非人体的类内复杂程度不一样，即人体的训练样本包含各种姿态、各种衣着的人体，而非人体则包含许多类别的物体，如汽车、建筑物、树木等。虽然可以很容易将人体和汽车区分开来，但区分人体和其他物体则显得没有那么容易。

基于上述诸多因素，采用Viola在人脸检测时提出的分层级联结构，可以在保证虚警率的基础上，大大提高检测率。分层级联分类器的形式如图6所示。从图6中可以看出：就整体而言，这样的一个分层结构实际上就是一个退化的决策树，使得大多数非人体都在层数比较靠前的分类其中被排除掉，考虑到进行人体检测的时候，绝大多数待检测图像都是非人体图像。因此，这样的结构可以保证较快的检测速度。

在这样一个分层结构中，每一层的强分类器都是先通过前面的快速特征选择算法挑选出重要的特征构成弱分类器，然后再由fisher判决分析方法训练得到的。最初的几层强分类器相对比较简单，通常第一层分类器仅仅由几个特征构成的弱分类器组成。但是，这些简单的强分类其却有着非常高的检测率：它们可以在检测的早期阶段达到接近100％的检测率和接近50％的虚警率，但是整个分层级联分类器的虚警率要远远低于这个指标。虽然这样的强分类器仍然远远不能满足人体检测的要求，但至少它们可以在检测前期利用其自身简单的结构，快速的筛选掉那些明显不是人体的子窗口，从而大大减少需要后续处理的子窗口数量。

为了检测图像中的人体，首先采用上几节的方法训练人体检测器，由于图像中人体的位置和尺寸是位置的，所以需要对图像进行缩放，并且遍历所有可能的检测窗口。由于本文中采用大小为16x32的样本来训练人体检测器，所以只对待检测的图像按某个尺度5做缩小操作，得到的一系列图像构成一个“图像金字塔”。对其中每层的图像分别进行检钡8，并用矩形窗口将其框出，对于在缩小了的图像中检测出的人体窗口，最终按其缩小的比例放大至原图像中去。

另外，由于选择的特征对像素的平移并不敏感，所以容易在同一个人体实例周围得到多个检测窗口，这影响对图像的最终判决结果。必须要按照某种规则将这些重叠的检测窗口合并成一个最终的结果，以满足实际应用的需要。

其中语音识别模块工作原理：

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术，也就是让机器听懂人类的语音。也就是说，如果电脑配置有“语音辨识”的程序组，那么当你的声音通过一个转换装置输入电脑内部、并以数位方式储存后，语音辨识程序便开始以你输入的声音样本与事先储存好的声音样本进行对比工作。声音对比工作完成之后，电脑就会输入一个它认为最“象”的声音样本序号，就可以知道你刚才念的声音是什么意义，进而执行此命令。说起来简单，但要真正建立辨识率高的语音辨识程序组，却是非常困难而专业的，世界各地的学者们也还在努力研究最好的方式。专家学者们研究出许多破解这个问题的方法，如傅立叶转换、倒频谱参数等，使目前的语音辨识***已达到一个可接受的程度，并且辨识度愈来愈高。

计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别***可大致分为三部分：

(1)语音特征提取：目的是从语音波形中提取随时间变化的语音特征序列。

(2)声学模型与模式匹配(识别算法)：声学模型是识别***的底层模型，并且是语音识别***中最关键的一部分。声学模型通常由获取的语音特征通过训练产生，目的是为每个发音建立发音模板。在识别时将未知的语音特征同声学模型(模式)进行匹配与比较，计算未知语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、***识别率，以及灵活性有较大影响。

(3)语义理解：计算机对识别结果进行语法、语义分析。明白语言的意义以便做出相应的反应。通常是通过语言模型来实现。

语音识别技术经历了语音识别、语音合成以及自然语音合成3个阶段。不同的语音识别***，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别***的实现过程如图7所示。

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。

1)、语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

单词(白)单元广泛应用于中小词汇语音识别***，但不适合大词汇***，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别***来说，以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别***也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

2)、特征参数提取技术

语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢？特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽—可能多的反映语义信息，尽量减少说话人的个人信息(对特定人语音识别来讲，则相反)。从信息论角度讲，这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术，许多成功的应用***都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉***对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别***的性能有一定提高。

3)、模式匹配及模型训练技术

模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。

DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别***，目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的(不可观测的)具有有限状态的Markor链，另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样，语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述，而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数，简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数，简称CHMM)以及半连续隐马尔可夫模型(SCHMM，集DHMM和CHMM特点)。一般来讲，在训练数据足够的，CHMM优于DHMM和SCHMM。

HMM模型的训练和识别都已研究出有效的算法，并不断被完善，以增强HMM模型的鲁棒性。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种结合人体识别和语音识别的智能广告推送方法，其特征在于，包括如下步骤：

步骤S1：实时获取广告终端前面的图像信息以及语音信息；

步骤S4：根据广告内容的相关性排列各个广告的播放次序；

步骤S5：根据播放次序推送广告，

步骤S6：重复步骤S1～S5。

2.如权利要求1所述的智能广告推送方法，其特征在于，

步骤S5和步骤S6之间还包括：步骤S51：实时监测广告受众在广告终端的停留时间，并判断停留时间是否大于预设的阀值，若停留时间大于预设的阀值，则将当前播放的广告为有效广告内容，增加并记录该广告的广告转化率；

3.如权利要求1所述的智能广告推送方法，其特征在于，在步骤S1未获取广告终端前面的图像信息以及语音信息时，从本地存储模块获取广告内容，并传输到显示屏进行播放。

4.如权利要求2所述的智能广告推送方法，其特征在于，在所述步骤S4中，在确定播放次序过程中，所述广告内容与语音信息的相关性优先于所述广告内容与人体特征信息的相关性。

5.如权利要求4所述的智能广告推送方法，其特征在于，步骤S4中所述广告内容与语音信息、人体特征信息的相关性均优先于广告转化率。

6.一种结合人体识别和语音识别的智能广告终端，其特征在于，包括：

麦克风阵列，用于实时获取所述广告终端前面的语音信息；

7.如权利要求6所述的智能广告终端，其特征在于，还包括本地存储模块，所述本地存储模块的输出端与所述智能广告管理模块的数据输入端连接。