CN106156127B

CN106156127B - 选择数据内容向终端推送的方法及装置

Info

Publication number: CN106156127B
Application number: CN201510164053.1A
Authority: CN
Inventors: 姜磊; 李勇; 肖磊; 刘大鹏; 张书彬; 罗川江; 宋亚娟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2015-04-08
Filing date: 2015-04-08
Publication date: 2020-06-16
Anticipated expiration: 2035-04-08
Also published as: US20170329856A1; CN106156127A; US10789311B2; JP6494777B2; WO2016161976A1; JP2018511116A

Abstract

本发明实施例公开了一种选择数据内容向终端推送的方法，其特征在于，包括：获取用户标识，获取所述用户标识对应的在预设的用户属性类型下的特征值；获取数据内容，查找与所述数据内容对应的决策树对象；根据与所述用户标识对应的在预设的用户属性类型下的特征值在所述决策树对象中定位与所述用户标识对应的叶结点；获取定位到的叶结点中存储的点击数和推送数，根据所述点击数和推送数生成选择参考值，根据所述选择参考值选择数据内容推送到与所述用户标识对应的终端。本发明还公开了一种选择数据内容向终端推送的装置。本发明中的决策树对象可在运行过程中实时得到更新，从而使得选择数据内容可参考较新的统计数据，从而提高了推送的准确度。

Description

选择数据内容向终端推送的方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种选择数据内容向终端推送的方法及装置。

背景技术

在传统技术中的互联网广告、新闻咨询、招聘信息发布网站等应用中，服务器通常需要向终端推送数据内容。在传统的在线广告业务中，用户打开网页浏览的时候，服务器会向该用户的终端推送(投放)与该用户对应的在线广告，并统计用户点击该在线广告的点击率(即该广告推送后被点击的次数与推送的次数的比值，又叫Click-Through-Rate，简称CTR)或者购买该在线广告对应的产品或服务的概率等参数。这些参数可以体现服务器选择的广告内容是否引起了终端用户的兴趣，符合用户的需求。服务器在为某个特定用户选择广告内容时，也尽量选择能够使该用户点击该广告或通过该广告的链接进行购买的广告。

为了能够选择更加符合用户的需求的广告推送给该用户，传统技术中，通常根据用户的属性结合相应的匹配模型进行推荐。例如，常用的匹配模型包括：分群热度模型(即根据用户基础属性，例如年龄、性别划分用户人群，统计各个人群Top点击率)、逻辑回归模型(即根据用户属性，广告基性，广告位属性，以及用户、广告位、广告交叉属性建立逻辑回归模型)等。上述匹配模型通常采用机器学习的方法，需要每隔一段时间将前述统计的历史数据作为样本数据输入到相应的模型中，然后通过机器学习调整模型中的各个参数的大小，从而使得模型能够适应较新的用户习惯。模型更新完毕后，服务器在选择数据内容向用户的终端推送时，则可根据已更新的匹配模型选择与用户最匹配的数据内容进行推送。

然而，发明人经研究发现，上述根据匹配模型选择与用户属性匹配的数据内容的方式至少存在以下问题：匹配模型的更新为每隔一段时间根据样本数据离线对匹配模型进行机器学习来更新，因此，服务器在根据匹配模型选择数据内容进行推送时，匹配模型并不是根据最新的统计数据得到的模型参数，使得服务器选择的数据内容与用户的相关度或匹配程度较低，造成了数据内容推送的准确度较低。

发明内容

基于此，为了解决传统技术中选择数据内容进行推送的准确度较低的技术问题，还提供了一种选择数据内容向终端推送的方法。

一种选择数据内容向终端推送的方法，包括：

获取用户标识，获取所述用户标识对应的在预设的用户属性类型下的特征值；

获取数据内容，查找与所述数据内容对应的决策树对象，所述决策树对象的树节点包括分支节点和叶结点，分支节点与用户属性类型一一对应，且分支节点存储有相应的用户属性类型的各个特征区间的特征阈值，所述分支节点的子节点与所述特征阈值一一对应；所述叶结点中存储与所述叶结点对应的特征阈值对应的点击数和推送数；

根据与所述用户标识对应的在预设的用户属性类型下的特征值在所述决策树对象中定位与所述用户标识对应的叶结点，所述特征值与从所述决策树对象的根节点到所述定位到的叶结点的路径上的各个树节点对应的特征阈值匹配；

获取定位到的叶结点中存储的点击数和推送数，根据所述点击数和推送数生成选择参考值，根据所述选择参考值选择数据内容推送到与所述用户标识对应的终端。

此外，为了解决传统技术中选择数据内容进行推送的准确度较低的技术问题，还提供了一种选择数据内容向终端推送的装置。

一种选择数据内容向终端推送的装置，包括：

用户标识获取模块，用于获取用户标识，获取所述用户标识对应的在预设的用户属性类型下的特征值；

决策树获取模块，用于获取数据内容，查找与所述数据内容对应的决策树对象，所述决策树对象的树节点包括分支节点和叶结点，分支节点与用户属性类型一一对应，且分支节点存储有相应的用户属性类型的各个特征区间的特征阈值，所述分支节点的子节点与所述特征阈值一一对应；所述叶结点中存储与所述叶结点对应的特征阈值对应的点击数和推送数；

叶结点定位模块，用于根据与所述用户标识对应的在预设的用户属性类型下的特征值在所述决策树对象中定位与所述用户标识对应的叶结点，所述特征值与从所述决策树对象的根节点到所述定位到的叶结点的路径上的各个树节点对应的特征阈值匹配；

数据内容选择模块，用于获取定位到的叶结点中存储的点击数和推送数，根据所述点击数和推送数生成选择参考值，根据所述选择参考值选择数据内容推送到与所述用户标识对应的终端。

实施本发明实施例，将具有如下有益效果：

采用了上述决策树对象作为匹配模型之后，可通过将用户标识对应的特征值与数据内容各自对应的决策树对象中的分支节点进行匹配来查找到选择参考值较大的数据内容进行推送，且上述决策树对象的逻辑结构使得对决策树对象可利用用户的浏览记录实时进行更新，而不需要定期采样后，再根据采样得到的样本通过机器学习的方式离线对决策树对象进行更新，也就是说，在将用户标识对应的特征值与数据内容各自对应的决策树对象中的分支节点进行匹配时，决策树对象中的统计数据均参考了较新的用户浏览记录，从而使得匹配的结果能够更加符合运行时用户的操作习惯或浏览习惯，从而提高了选择数据内容进行推送的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中一种选择数据内容向终端推送的方法的流程图；

图2为一个实施例中决策树对象中各个树节点之间的逻辑关系图；

图3为一个实施例中决策树对象中各个树节点之间的逻辑关系图；

图4为一个实施例中一种决策树对象中的叶结点进行用户属性类型扩展的过程流程图；

图5为一个实施例中对决策树对象中的叶结点进行用户属性类型扩展的示意图；

图6为一个实施例中一种选择数据内容向终端推送的装置的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决传统技术中，由于匹配模型设计的不合理，无法实时得到更新，从而导致依赖匹配模型选择数据内容进行推送的准确度较低的技术问题，在一个实施例中，特提出了一种选择数据内容向终端推送的方法，该方法的执行可依赖于计算机程序，该计算机程序可以是在线广告投放程序、新闻资讯类应用、邮件广告推广程序、简历推送程序等通过筛选数据内容并将其推送给相应的客户端程序的服务器程序。该计算机程序可运行于冯诺依曼体系的计算机***之上。该计算机***可以是运行上述在线广告投放程序、新闻资讯类应用、邮件广告推广程序、简历推送程序等通过筛选数据内容并将其推送给相应的客户端程序的服务器程序的服务器设备。

在本实施例中，上述服务器设备中预先存储有多项数据内容，例如，在在线广告投放程序中，设置有存储在线广告的广告数据库，每一条在线广告即为一项数据内容，在线广告服务商可通过向广告数据库添加记录来增加广告数据库中存储的在线广告；而在简历投放程序中，设置有存储简历的简历数据库，用户可通过招聘网站创建简历，然后上传到简历数据库中。

而选择数据内容的过程即为在服务器设备中存储数据内容的数据库中查找与某个用户最为匹配，或者称为推送后被某个用户浏览的几率最大的数据内容的过程。在本实施例中，预设有多个用户属性类型，每个属性类型下均设置有相应的特征区间。

例如，在一个服装类广告推送***中，预设的用户属性类型可包括：“性别”、“年龄段”、“品牌”等，而用户属性类型“性别”可包括“男”和“女”的特征区间，用户属性类型“年龄段”可包括“70后”、“80后”、“90后”、“00”后等特征区间，特征区间可通过特征阈值来定义，例如，“男”和“女”的特征区间可使用布尔变量定义，“70后”的特征区间可使用[70，79]的特征阈值来定义。

被推送的终端上的用户帐户的用户属性也具有在上述用户属性类型下的多个特征值，选择数据内容的过程即为遍历数据库中的数据内容，找到每项数据内容对应的分类统计数据，筛选出用户属性的多个特征值对应的统计数据，根据该筛选出的统计数据预估遍历到的数据内容被推送后被浏览的概率，然后选择被浏览概率较大的数据内容进行推送。

具体的，如图1所示，选择数据内容向终端推送的方法包括：

步骤S102：获取用户标识，获取所述用户标识对应的在预设的用户属性类型下的特征值。

用户标识即为用于区分用户的标识信息，可以是用户在服务器程序上注册的用户帐户，也可以是无需注册的用于推广的用户的电子邮件地址、IP地址、手机号等。用户标识对应的用户标识对应的在预设的用户属性类型下的特征值可通过对登录的用户账号的用户资料或用户操作记录中的属性值进行提取得到。

例如，在一个在线简历投送应用的应用场景中，该应用包括应聘者用户和招聘者用户两种类型的用户帐户，应聘者用户可创建简历，创建的简历即为在线简历投送应用的数据库中存储的数据内容，应聘者用户通常为个人。招聘者用户即为在线简历的推送目标，通常为企业或机构。在线简历投送应用的服务器程序可在应聘者用户创建的海量简历中查找与某个企业最为匹配的简历，然后将该简历推送至该招聘者用户对应的终端上(可推送给该终端上的在线简历投送应用的客户端程序，也可以通过电子邮件发送给应聘者用户的邮箱)。该企业的工作人员在注册招聘者用户时，需要根据预设的用户属性类型填写该企业的资料。

例如，预设的用户属性类型可包括公司名称、行业类型、所属地区、企业性质等，若注册时在“公司名称”项中填写了“A”、“行业类型”项中填写了“互联网”、“所属地区”项中填写了“深圳”、“企业性质”项中填写了“国企”，则填写的“A”、“互联网”、“深圳”和“国企”即分别为在用户属性类型公司名称、行业类型、所属地区、企业性质下的特征值。

在一个在线广告推广程序的应用场景中，服务器上的数据库中存储有海量的广告数据(可以是视频广告、图片广告等)，该在线广告推广程序基于网页搜索引擎，用户标识可以是终端的IP地址，与用户标识对应的在预设的用户属性类型下的特征值即可以通过查找与该IP地址对应的搜索记录进行提取。

例如，若预设的用户属性类型包括“兴趣产品类型”、“终端位置”等，则可查找该IP地址对应的搜索记录，若搜索记录中的关键字包括：“奶粉”、“婴儿车”、“尿不湿”等关键字，而用户属性类型“兴趣产品类型”下的特征区间包括“婴幼儿产品”，与该终端IP对应的在用户属性类型“兴趣产品类型”下的特征值即为“婴幼儿产品”；若通过查询终端IP对应的地理位置为“东莞”，而用户属性类型“终端位置”下的特征区间包括“广东省”，则与该终端IP对应的在用户属性类型“终端位置”下的特征值即为“广东省”。

步骤S104：获取数据内容，查找与所述数据内容对应的决策树对象，所述决策树对象的树节点包括分支节点和叶结点，分支节点与用户属性类型一一对应，且分支节点存储有相应的用户属性类型的各个特征区间的特征阈值，所述分支节点的子节点与所述特征阈值一一对应；所述叶结点中存储与所述叶结点对应的特征阈值对应的点击数和推送数。

决策树对象可使用逻辑上符合树结构的数据结构(即常见程序设计语言中定义的Tree类型)进行存储。每项数据内容对应一个决策树对象。例如，在在线广告投送程序中，每创建一条在线广告，则会为该在线广告分配一个在线广告标识Aid，可以在映射表中存储该在线广告标识Aid和该Aid对应的决策树对象，Aid即为映射表的键(key)，决策树对象即为映射表的值(value)。

决策树对象在逻辑上为树形结构，在一个应用场景中，如图2所示，该决策树对象包括三个层级，其中，第一层级的树节点(Node)为分支节点且为决策树对象的根节点，第二层级的树节点中，树节点“男”为分支节点，树节点“女”为叶结点，第三层级的树节点均为叶结点。

在图2中，根节点与用户属性类型“性别”对应，存储有用户属性类型“性别”下的特征区间“男”和特征区间“女”的特征阈值，该阈值可使用布尔变量、数字或字符串定义。

第二层级的树节点均为根节点的子节点，作为根节点的子节点的树节点“男”则与根节点对应的用户属性类型“性别”下的特征区间“男”的特征阈值对应，作为根节点的子节点的树节点“女”则与根节点对应的用户属性类型“性别”下的特征区间“女”的特征阈值对应。

第三层级的树节点均为分支节点“男”的子节点，分支节点“男”与用户属性类型“学历”对应，存储有用户属性类型“学历”下的特征区间“高中及以下”、特征区间“大专”和特征区间“硕士及以上”的特征阈值，该阈值可使用数字或字符串定义。叶结点“高中及以下”即与用户属性类型“学历”下的特征区间“高中及以下”的特征阈值对应；叶结点“大专”即与用户属性类型“学历”下的特征区间“大专”的特征阈值对应，叶结点“硕士及以上”即与用户属性类型“学历”下的特征区间“硕士及以上”的特征阈值对应。

叶结点中存储与该叶结点对应的特征阈值对应的点击数和推送数。例如，如图2所示，对于叶结点“大专”，其中存储有点击数(click)200，推荐数(impression)1000，即表示在决策树对象中与叶结点“大专”在逻辑上对应的点击数为200，推荐数为1000。

步骤S106：根据与所述用户标识对应的在预设的用户属性类型下的特征值在所述决策树对象中定位与所述用户标识对应的叶结点，所述特征值与从所述决策树对象的根节点到所述定位到的叶结点的路径上的各个分支节点对应的特征区间的特征阈值匹配。

根据与用户标识对应的特征值在所述决策树对象中定位的过程即为在决策树的分支节点通过比较特征区间的特征阈值是否与特征值匹配，并进而移动到该分支节点的子节点递归执行上述操作的过程。

步骤S108：获取定位到的叶结点中存储的点击数和推送数，根据所述点击数和推送数生成选择参考值，根据所述选择参考值选择数据内容推送到与所述用户标识对应的终端。

如图2所示，若用户在一个相亲网站上填写注册资料时，在“性别”栏填写的内容为“男”，在“学历”栏填写的内容为“大专”，在“婚姻状况”栏填写的内容为“离异”，在“年龄”栏填写的内容为“32”，则该用户的用户标识在预设的用户属性类型“性别”下的特征值为“男”(在其他实施例中，可不使用字符串“男”表示该特征值，而可使用布尔变量、数字或英文字符等数据类型的特征值指代“男”，以下同)，在用户属性类型“学历”下的特征值为“大专”，在用户属性类型“婚姻状况”下的特征值为“离异”，在用户属性类型“年龄段”下的特征值为“32”。

参考图2所示，在根据与用户标识对应的特征值在所述决策树对象中定位时，由于根节点对应的用户属性类型为“性别”，其中存储的特征区间的特征阈值为用户属性类型“性别”下的特征阈值“男”和特征阈值“女”，因此，用户标识对应的特征值中，特征值“男”可与根节点中存储的特征阈值“男”匹配，从而可获取根节点的子节点，即分支节点“男”进行进一步判断。

而分支节点“男”对应的用户属性类型为“学历”，其中存储的特征区间的特征阈值为用户属性类型“学历”下的特征阈值“高中及以下”、特征阈值“大专”和特征阈值“硕士及以上”。因此，用户标识对应的特征值中，特征值“大专”可与分支节点“男”中存储的特征阈值“大专”匹配，可获取分支节点“男的”子节点，即叶结点“大专”进行进一步判断。

而由于叶结点“大专”为叶结点，因此可获取到叶结点中存储的点击数200和推送数1000，也就是说，在历史统计中，该决策树对象对应的数据内容对于同时满足了性别为“男”且学历为“大专”的用户，一共推送了1000次，但只有200次被点击，从而可得到该数据内容对于同时满足了性别为“男”且学历为“大专”的用户群体的历史点击率统计数据，即可将该历史点击率统计数据作为该数据内容相对于该用户标识的选择参考值。

在本实施例中，可遍历数据库中的数据内容，生成每个数据内容相对于该用户标识的选择参考值，然后查找选择参考值最大的数据内容或大于预设的阈值的数据内容将其推送给该用户标识对应的终端。在其他实施例中，也可将其通过电子邮件、社交网络平台推送给所述用户标识对应的终端。

综上所述，在确定需要被推送的用户标识之后，即可查找与该用户标识对应的选择参考值较大的数据内容进行推送，查找的方式即为将用户标识对应的特征值与数据内容的决策树对象的各个分支节点对应的特征阈值进行匹配，找到匹配到的叶结点中存储的点击数和推送数，从而查找到与该用户标识对应的选择参考值。

而以此方式构建的与数据内容对应的决策树对象也可根据用户操作返回的浏览记录得到实时更新，将用户返回的浏览记录对应的点击数和推荐数添加到决策树对象相应的叶结点中，即完成了对决策树对象的实时更新。

具体的，对决策树对象进行更新的过程可具体为：

接收终端上传的浏览记录，获取所述终端对应的用户标识以及所述浏览记录对应的数据内容；

获取所述数据内容对应的决策树对象，获取所述用户标识对应的在预设的用户属性类型下的特征值，根据获取到的特征值在所述决策树对象中定位所述与用户标识对应的叶结点，根据所述浏览记录增加所述定位到的叶结点中存储的点击数和推送数。

如上例中，上述相亲网站将与该注册信息为“男”、“大专”、“离异”、“32岁”的用户发送了选择参考值最大的数据内容(例如较般配的用户的资料)之后，若该用户点击了该数据内容进行浏览，则返回的浏览记录即为点击数1，推送数为1。

服务器在接收到该浏览记录之后，查找到该浏览记录对应的用户的特征值为“男”、“大专”、“离异”、“32岁”，则按照上述相同的定位方式可定位到该浏览记录对应的数据内容的决策树对象中的叶结点“大专”，然后将叶结点“大专”中存储的点击数增加为201，推送数增加为1001。同样，若该用户未点击该数据内容，则将叶结点“大专”中存储的推送数增加为1001，而点击数不变。

进一步的，还可实时地根据历史统计数据对决策树对象进行扩展，增加决策树对象的树节点，也就是增加决策树对象中的分支节点对应的用户属性类型，后续在选择数据内容进行推送时，可根据更新后的决策树对象进行选择，从而进一步提高推送的数据内容的准确度，使其与用户的操作***或用户属性更加匹配，更容易引起用户的兴趣。

具体的，根据所述浏览记录增加所述定位到的叶结点中存储的点击数和推送数的步骤还包括：

获取所述浏览记录中与所述数据内容对应的点击数和推送数；

获取所述决策树对象中所述根节点到所述定位到的叶结点的路径上的分支节点，获取预设的除所述路径上的分支节点对应的用户属性类型之外的候选用户属性类型，按照各个候选用户属性类型下的各个特征区间归类添加由所述浏览记录获取到的与所述数据内容对应的点击数和推送数。

如图3所示，叶结点“大专”中不仅存储有同时符合性别“男”、学历“大专”的总点击数200，总推荐数1000，还包括分类存储的在用户属性类型“婚姻状况”下的三个预设的特征区间内的点击数，其中，与特征区间“未婚”对应的点击数为120，推送数为400；与特征区间“离异”对应的点击数为20，推送数为400；与特征区间“丧偶”对应的点击数为60(三者之和也可以不等于总点击数200，推送数为200。例如，用户标识在某个用户属性类型下不对应任何一个特征区间)；还包括分类存储的在用户属性类型“年龄段”下的三个预设的特征区间内的点击数，其中，与特征区间“30以下”对应的点击数为130，推送数为500；与特征区间“30-40”对应的点击数为30，推送数为400；与特征区间“40以上”对应的点击数为40，推送数为100。

如上例中，接收到注册信息为“男”、“大专”、“离异”、“32岁”的用户返回的浏览记录之后，则先定位到叶结点“大专”，然后将与“离异”对应的点击数增加成21，“30-40”对应的点击数增加为31，总点击数增加为201，总推送数增加为1001，而其他特征值对应的点击数保持不变。

候选用户属性类型即为决策树对象的分支节点未对应的用户属性类型，如图4所示，决策树对象中由根节点至叶结点“大专”的路径上的分支节点仅与“性别”和“学历”产生了对应关系，但剩余的“婚姻状况”和“年龄段”并没有分支节点与其对应，因此，对于由根节点至叶结点“大专”的路径，“婚姻状况”和“年龄段”即为相应的候选用户属性类型。而对于由根节点至叶结点“女”的路径上的分支节点，仅与“性别”产生了对应关系，因此，对于由根节点至叶结点“女”的路径，“学历”、“婚姻状况”和“年龄段”即为相应的候选用户属性类型。按照上述方式实时地对决策树对象中的叶结点存储的点击数和推送数进行更新后，即可在根据叶结点中存储的各个特征值对应的点击数之间的相关性选择候选用户属性类型扩展决策树对象。

具体的，如图4所示，按照各个候选用户属性类型下的各个特征区间归类添加由所述浏览记录获取到的与所述数据内容对应的点击数和推送数的步骤之后还包括：

步骤S202：根据所述定位到的叶结点中归类存储的与候选用户属性类型下的各个特征区间对应的点击数和推送数生成所述候选用户属性类型对应的信息增益。

在本实施例中，可根据公式：

计算叶结点S下的用户属性类型A的信息增益；其中，F_A为用户属性类型A的特征区间的集合，v为用户属性类型A下各个特征区间的特征阈值，p(v)为用户属性类型A下各个特征区间中的推送数的分布概率；S_v为各个特征区间的特征阈值v各自对应的点击数与推荐数的集合，p₁为与叶结点S对应的点击数与推荐数的比值，p₂为与S_v对应的点击数与推荐数的比值。

例如，参考图4所示，p₁的值即为叶结点“大专”中存储的总点击数200与总推送数1000的比值，因此：

Entropy(S)＝-0.2×log₂0.2-0.8×log₂0.8

而用户属性类型“婚姻状况”下各个特征区间的特征阈值v即遍历到：“未婚”、“离异”和“丧偶”，其中：

v为“未婚”时：

p(v)即为400/1000＝0.4，p₂即为120/400＝0.3；

Entropy(S_v)＝-0.3×log₂0.3-0.7×log₂0.7；

v为“离异”时：

p(v)即为400/1000＝0.4，p₂即为20/400＝0.05；

Entropy(S_v)＝-0.05×log₂0.05-0.95×log₂0.95；

v为“丧偶”时：

p(v)即为200/1000＝0.2，p₂即为60/200＝0.3；

Entropy(S_v)＝-0.3×log₂0.3-0.7×log₂0.7；

从而得到用户属性类型“婚姻状况”的信息增益。

同理，参考图3所示，用户属性类型“年龄段”下各个特征区间的特征阈值v即遍历到：“30以下”、“30-40”和“40以上”，其中：

v为“30以下”时：

p(v)即为500/1000＝0.5，p₂即为130/500＝0.26

Entropy(S_v)＝-0.26×log₂0.26-0.74×log₂0.74；

v为“30-40”时：

p(v)即为400/1000＝0.4，p₂即为30/400＝0.075；

Entropy(S_v)＝-0.075×log₂0.075-0.925×log₂0.925；

v为“40以上”时：

p(v)即为100/1000＝0.1，p₂即为40/100＝0.4；

Entropy(S_v)＝-0.4×log₂0.4-0.6×log₂6；

因此，即可计算出Entropy(S_A)，从而得到用户属性类型“年龄段”的信息增益。

步骤S204：查找信息增益与其他查找到的用户属性类型的信息增益的差值大于或等于信息增益阈值的候选用户属性类型。

步骤S206：在查找到时，则将所述定位到的叶结点设置为分支节点，根据所述查找到的候选用户属性类型下的特征区间的特征阈值生成该分支节点的叶结点。

例如，若G(婚姻状况)-G(年龄段)＝a，若a大于或等于信息增益阈值，则如图5所示，将叶结点“大专”更新为分支节点“大专”，并为分支节点“大专”添加叶结点“未婚”、叶结点“离异”和叶结点“丧偶”，即在分支节点“大专”中存储特征区间“未婚”、“离异”和“丧偶”的特征阈值，而每个叶结点中仍然存储着按照“年龄段”的特征区间存储的点击数。

需要说明的是，候选用户属性类型较多，例如，若某个叶结点下L有A、B、C、D4个候选用户属性，则先计算G(A)、G(B)、G(C)、G(D)，然后找出G较大的两个候选用户属性。例如，若G(A)>G(B)>G(C)>G(D)，则计算G(A)-G(B)，若G(A)-G(B)大于信息增益阈值，则选择候选用户属性类型A与树节点对应。

而若G(A)-G(B)小于信息增益阈值，则可维持决策树对象保持不变，不对决策树对象的叶结点进行***。而对于***后生成的叶结点，如图5所示，其中存储有根据浏览记录重新统计的该叶结点对应的总点击数和总推荐数，以及候选用户属性类型(如图5中的用户属性类型“年龄段”)的各个特征区间对应的点击数和推送数。

对决策树扩展，可进一步提高推送的准确度。而通过上述公式可看出，若某个候选用户属性类型中的特征区间对应的点击数以及推送数分布较均匀，则其信息增益较大，也就是说，对于决策树对象进行扩展时，总是选择特征区间对应的点击数以及推送数分布较均匀的候选用户属性类型，从而使得在根据用户标识对应的特征值进行定位时，进入分支节点下每个叶结点的概率相近。

因此，通过计算候选用户属性类型的信息增益来选择候选用户属性类型，可均衡决策树对象中抵达各个叶结点的概率，从而避免某个叶结点由于匹配条件过于苛刻而仅有极少的概率被用于匹配用户标识的特征值，从而提高存储决策树对象的空间利用率。

而对于新加入的数据内容，可在实时运行过程中为其创建决策树对象，具体的，查找与所述数据内容对应的决策树对象的步骤还包括：若未查找到与所述数据内容对应的决策树对象，则创建与所述数据内容对应的决策树对象，该创建的决策树对象的根节点为叶节点；为数据内容分配默认的选择参考值。

也就是说，新加入的数据内容创建决策树对象之后，可根据后续的终端返回的浏览记录实时地对决策树对象进行扩展。决策树对象初始可仅具有根节点一个单一节点(由于其没有子节点，因此也必然为叶结点)，而随着接收到的浏览记录的增加，可逐步选择候选用户属性类型创建分支节点，从而使得决策树对象得到完善。

而且，采用扩展决策树对象的方案之后，若后续添加了用户属性类型，则可根据对增加的用户属性类型的浏览记录的统计在决策树对象中添加与该用户属性类型对应的分支节点，从而使得决策树对象可以随着用户属性类型的扩展而实时地增加对用户属性类型的参考，从而提高了的可用于进行数据内容推送的***的扩展性。

可选的，根据所述点击数和推送数生成选择参考值的步骤还包括：

获取所述数据内容对应的计价权重系数，将所述点击数和推送数的比值与所述计价权重系数相乘后得到所述数据内容的选择参考值。

例如，在在线广告投送应用中，每类广告点击后的计费数值并不相同，在生成选择参考值时，引入计价权重系数，可使选择参考值不仅参考历史统计的点击率，还可参考广告的点击收益，使得在线广告的收益最大化。

可选的，获取数据内容的步骤还包括：根据所述用户标识对应的在预设的用户属性类型下的特征值通过关键字匹配对数据内容进行预筛选。

在现有的数据内容推送的***中，数据库中存储的数据内容通常数量巨大，因此，可预先根据所述用户标识对应的在预设的用户属性类型下的特征值对数据库中的数据内容进行预筛选，若数据内容中不包含与特征值对应的关键字，则过滤掉。

例如，在一个相亲网站的应用场景中，如果目标推送的用户性别为男，则可预先筛选出女性用户资料，再在女性用户资料中按照上述步骤S104至步骤S108的过程找到选择参考值较大的女性用户资料推送给该男性用户。

对数据内容进行预筛选，可大大减少决策树对象匹配的次数，从而减少了计算量，提高了计算机的执行效率。

在一个实施例中，为解决传统技术中，由于匹配模型设计的不合理，无法实时得到更新，从而导致依赖匹配模型选择数据内容进行推送的准确度较低的技术问题，还提出了一种选择数据内容向终端推送的装置，如图6所示，包括：用户标识获取模块102、决策树获取模块104、叶结点定位模块106以及数据内容选择模块108，其中：

用户标识获取模块102，用于获取用户标识，获取所述用户标识对应的在预设的用户属性类型下的特征值；

决策树获取模块104，用于获取数据内容，查找与所述数据内容对应的决策树对象，所述决策树对象的树节点包括分支节点和叶结点，分支节点与用户属性类型一一对应，且分支节点存储有相应的用户属性类型的各个特征区间的特征阈值，所述分支节点的子节点与所述特征阈值一一对应；所述叶结点中存储与所述叶结点对应的特征阈值对应的点击数和推送数；

叶结点定位模块106，用于根据与所述用户标识对应的在预设的用户属性类型下的特征值在所述决策树对象中定位与所述用户标识对应的叶结点，所述特征值与从所述决策树对象的根节点到所述定位到的叶结点的路径上的各个树节点对应的特征阈值匹配；

数据内容选择模块108，用于获取定位到的叶结点中存储的点击数和推送数，根据所述点击数和推送数生成选择参考值，根据所述选择参考值选择数据内容推送到与所述用户标识对应的终端。

在本实施例中，如图6所示，选择数据内容向终端推送的装置还包括决策树更新模块110，用于接收上传的浏览记录，获取所述浏览记录对应的用户标识以及所述浏览记录对应的数据内容；获取所述数据内容对应的决策树对象，获取所述用户标识对应的在预设的用户属性类型下的特征值，根据获取到的特征值在所述决策树对象中定位所述与用户标识对应的叶结点，根据所述浏览记录增加所述定位到的叶结点中存储的点击数和推送数。

在本实施例中，决策树更新模块110还用于获取所述浏览记录中与所述数据内容对应的点击数和推送数；获取所述决策树对象中所述根节点到所述定位到的叶结点的路径上的分支节点，获取预设的除所述路径上的分支节点对应的用户属性类型之外的候选用户属性类型，按照各个候选用户属性类型下的各个特征区间归类添加由所述浏览记录获取到的与所述数据内容对应的点击数和推送数。

在本实施例中，决策树更新模块110还用于根据所述定位到的叶结点中归类存储的与候选用户属性类型下的各个特征区间对应的点击数和推送数生成所述候选用户属性类型对应的信息增益；查找信息增益与其他查找到的用户属性类型的信息增益的差值大于或等于信息增益阈值的候选用户属性类型；在查找到时，则将所述定位到的叶结点设置为分支节点，根据所述查找到的候选用户属性类型下的特征区间的特征阈值生成该分支节点的叶结点。

在本实施例中，决策树更新模块110还用于根据公式：

在本实施例中，如图6所示，选择数据内容向终端推送的装置还包括决策树创建模块112，用于在未查找与所述数据内容对应的决策树对象时，创建与所述数据内容对应的决策树对象，该创建的决策树对象的根节点为叶节点；

所述决策树获取模块还用于在在未查找与所述数据内容对应的决策树对象时，为所述数据内容分配默认的选择参考值。

在本实施例中，数据内容选择模块108还用于获取所述数据内容对应的计价权重系数，将所述点击数和推送数的比值与所述计价权重系数相乘后得到所述数据内容的选择参考值。

在本实施例中，如图6所示，选择数据内容向终端推送的装置还包括数据内容筛选模块114，还用于根据所述用户标识对应的在预设的用户属性类型下的特征值通过关键字匹配对数据内容进行预筛选。

综上所述，实施本发明实施例，将具有如下有益效果：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种选择数据内容向终端推送的方法，其特征在于，包括：

接收上传的浏览记录，获取所述浏览记录对应的用户标识以及所述浏览记录对应的数据内容；

获取所述浏览记录对应的数据内容对应的决策树对象，获取所述浏览记录对应用户标识在预设的用户属性类型下的特征值，根据获取到的特征值在所述浏览记录对应的数据内容对应的决策树对象中定位与所述浏览记录对应的用户标识对应的叶结点，根据所述浏览记录增加所述定位到的与所述浏览记录对应的用户标识对应的叶结点中存储的点击数和推送数；

获取待推送的用户标识，获取所述待推送的用户标识对应的在预设的用户属性类型下的特征值；

获取数据库中的数据内容，查找与所述数据库中每个数据内容对应的决策树对象，所述决策树对象的树节点包括分支节点和叶结点，分支节点与用户属性类型一一对应，且分支节点存储有相应的用户属性类型的各个特征区间的特征阈值，所述分支节点的子节点与所述特征阈值一一对应；所述叶结点中存储与所述叶结点对应的特征阈值对应的点击数和推送数；

根据与所述待推送的用户标识对应的在预设的用户属性类型下的特征值在所述数据库中每个数据内容对应的决策树对象中定位与所述待推送的用户标识对应的叶结点，所述特征值与从所述决策树对象的根节点到所述定位到的与所述待推送的用户标识对应的叶结点的路径上的各个树节点对应的特征阈值匹配；

获取定位到的与所述待推送的用户标识对应的叶结点中存储的点击数和推送数，根据所述点击数和推送数生成选择参考值，根据所述选择参考值选择数据库中的数据内容推送到与所述待推送的用户标识对应的终端。

2.根据权利要求1所述的选择数据内容向终端推送的方法，其特征在于，所述根据所述浏览记录增加所述定位到的与所述浏览记录对应的用户标识对应的叶结点中存储的点击数和推送数的步骤还包括：

获取所述浏览记录中与所述浏览记录对应的数据内容对应的点击数和推送数；

获取所述决策树对象中所述根节点到所述定位到的与所述浏览记录对应的用户标识对应的叶结点的路径上的分支节点，获取预设的除所述路径上的分支节点对应的用户属性类型之外的候选用户属性类型，按照各个候选用户属性类型下的各个特征区间归类添加由所述浏览记录获取到的与所述浏览记录对应的数据内容对应的点击数和推送数。

3.根据权利要求2所述的选择数据内容向终端推送的方法，其特征在于，所述按照各个候选用户属性类型下的各个特征区间归类添加由所述浏览记录获取到的与所述浏览记录对应的数据内容对应的点击数和推送数的步骤之后还包括：

根据所述定位到的与所述浏览记录对应的用户标识对应的叶结点中归类存储的与候选用户属性类型下的各个特征区间对应的点击数和推送数生成所述候选用户属性类型对应的信息增益；

查找信息增益与其他查找到的用户属性类型的信息增益的差值大于或等于信息增益阈值的候选用户属性类型；

在查找到时，则将所述定位到的与所述浏览记录对应的用户标识对应的叶结点设置为分支节点，根据所述查找到的候选用户属性类型下的特征区间的特征阈值生成该分支节点的叶结点。

4.根据权利要求3所述的选择数据内容向终端推送的方法，其特征在于，所述根据所述定位到的与所述浏览记录对应的用户标识对应的叶结点中归类存储的与候选用户属性类型下的各个特征区间对应的点击数和推送数生成所述候选用户属性类型对应的信息增益的步骤为：

根据公式：

计算所述定位到的与所述浏览记录对应的用户标识对应的叶结点S下的用户属性类型A的信息增益；其中，F_A为用户属性类型A的特征区间的集合，v为用户属性类型A下各个特征区间的特征阈值，p(v)为用户属性类型A下各个特征区间中的推送数的分布概率；S_v为各个特征区间的特征阈值v各自对应的点击数与推荐数的集合，p₁为与叶结点S对应的点击数与推荐数的比值，p₂为与S_v对应的点击数与推荐数的比值。

5.根据权利要求1至4任一项所述的选择数据内容向终端推送的方法，其特征在于，所述查找与所述数据库中每个数据内容对应的决策树对象的步骤还包括：

若未查找到与所述数据库中的数据内容对应的决策树对象，则创建与所述数据库中的数据内容对应的决策树对象，该创建的决策树对象的根节点为叶结点；

为所述数据库中的数据内容分配默认的选择参考值。

6.根据权利要求1至4任一项所述的选择数据内容向终端推送的方法，其特征在于，所述根据所述点击数和推送数生成选择参考值的步骤还包括：

获取所述数据库中的数据内容对应的计价权重系数，将所述点击数和推送数的比值与所述计价权重系数相乘后得到所述数据库中的数据内容的选择参考值。

7.根据权利要求1至4任一项所述的选择数据内容向终端推送的方法，其特征在于，所述获取数据内容的步骤还包括：

根据所述待推送的用户标识对应的在预设的用户属性类型下的特征值通过关键字匹配对数据库中的数据内容进行预筛选。

8.一种选择数据内容向终端推送的装置，其特征在于，包括：

决策树更新模块，用于接收上传的浏览记录，获取所述浏览记录对应的用户标识以及所述浏览记录对应的数据内容；获取所述浏览记录对应的数据内容对应的决策树对象，获取所述浏览记录对应的用户标识在预设的用户属性类型下的特征值，根据获取到的特征值在所述浏览记录对应的数据内容对应的决策树对象中定位与所述浏览记录对应的用户标识对应的叶结点，根据所述浏览记录增加所述定位到的与所述浏览记录对应的用户标识对应的叶结点中存储的点击数和推送数；

用户标识获取模块，用于获取待推送的用户标识，获取所述待推送的用户标识对应的在预设的用户属性类型下的特征值；

决策树获取模块，用于获取数据库中的数据内容，查找与所述数据库中的数据内容对应的决策树对象，所述决策树对象的树节点包括分支节点和叶结点，分支节点与用户属性类型一一对应，且分支节点存储有相应的用户属性类型的各个特征区间的特征阈值，所述分支节点的子节点与所述特征阈值一一对应；所述叶结点中存储与所述叶结点对应的特征阈值对应的点击数和推送数；

叶结点定位模块，用于根据与所述待推送的用户标识对应的在预设的用户属性类型下的特征值在所述数据库中每个数据内容对应的决策树对象中定位与所述待推送的用户标识对应的叶结点，所述特征值与从所述决策树对象的根节点到所述定位到的与所述待推送的用户标识对应的叶结点的路径上的各个树节点对应的特征阈值匹配；

数据内容选择模块，用于获取定位到的与所述待推送的用户标识对应的叶结点中存储的点击数和推送数，根据所述点击数和推送数生成选择参考值，根据所述选择参考值选择数据库中的数据内容推送到与所述待推送的用户标识对应的终端。

9.根据权利要求8所述的选择数据内容向终端推送的装置，其特征在于，所述决策树更新模块还用于获取所述浏览记录中与所述浏览记录对应的数据内容对应的点击数和推送数；获取所述决策树对象中所述根节点到所述定位到的与所述浏览记录对应的用户标识对应的叶结点的路径上的分支节点，获取预设的除所述路径上的分支节点对应的用户属性类型之外的候选用户属性类型，按照各个候选用户属性类型下的各个特征区间归类添加由所述浏览记录获取到的与所述浏览记录对应的数据内容对应的点击数和推送数。

10.根据权利要求9所述的选择数据内容向终端推送的装置，其特征在于，所述决策树更新模块还用于根据所述定位到的与所述浏览记录对应的用户标识对应的叶结点中归类存储的与候选用户属性类型下的各个特征区间对应的点击数和推送数生成所述候选用户属性类型对应的信息增益；查找信息增益与其他查找到的用户属性类型的信息增益的差值大于或等于信息增益阈值的候选用户属性类型；在查找到时，则将所述定位到的与所述浏览记录对应的用户标识对应的叶结点设置为分支节点，根据所述查找到的候选用户属性类型下的特征区间的特征阈值生成该分支节点的叶结点。

11.根据权利要求10所述的选择数据内容向终端推送的装置，其特征在于，所述决策树更新模块还用于根据公式：

12.根据权利要求8至11任一项所述的选择数据内容向终端推送的装置，其特征在于，所述装置还包括决策树创建模块，用于在未查找到与所述数据库中的数据内容对应的决策树对象时，创建与所述数据库中的数据内容对应的决策树对象，该创建的决策树对象的根节点为叶结点；为所述数据库中的数据内容分配默认的选择参考值。

13.根据权利要求8至11任一项所述的选择数据内容向终端推送的装置，其特征在于，所述数据内容选择模块还用于获取所述数据库中的数据内容对应的计价权重系数，将所述点击数和推送数的比值与所述计价权重系数相乘后得到所述数据库中的数据内容的选择参考值。

14.根据权利要求8至11任一项所述的选择数据内容向终端推送的装置，其特征在于，所述装置还包括数据内容筛选模块，还用于根据所述待推送的用户标识对应的在预设的用户属性类型下的特征值通过关键字匹配对数据库中的数据内容进行预筛选。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-7任一项所述的方法。