CN109376315A

CN109376315A - 一种基于机器学习的民航旅客标签分析方法及处理终端

Info

Publication number: CN109376315A
Application number: CN201811117393.9A
Authority: CN
Inventors: 陈明桩; 曾帆; 吴双燕; 高陈程
Original assignee: Hainan Civil Aviation Kaiya Co Ltd
Current assignee: Hainan Civil Aviation Kaiya Co Ltd
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2019-02-22
Anticipated expiration: 2038-09-25
Also published as: CN109376315B

Abstract

本发明涉及一种基于机器学习的民航旅客标签分析方法，包括如下步骤：步骤1：获取原始数据；步骤2：对原始数据进行预处理，从而获得向量化样本特征；步骤3：GRU训练，直至满足训练条件后，停止对GRU进行训练，得到GRU训练后的更新门的权重矩阵W_z和重置门的权重矩阵W_r；步骤4：GRU优化，经过训练后的GRU对用户进行推荐消息，定期检索用户的购票行为数据，获取用户是否曾发生过购票行为；步骤5：标签建立，经过步骤3训练和步骤4优化后，第一GRU、第二GRU和第三GRU分别连接Softmax层，根据Softmax层的计算公式计算后的输出值来判断是否对用户建立“民航旅客”的标签。本发明能够精准识别出用户是否为民航旅客，且计算效率高。

Description

一种基于机器学习的民航旅客标签分析方法及处理终端

技术领域

本发明涉及民航旅客标签处理技术领域，具体是一种基于机器学习的民航旅客标签分析方法及处理终端。

背景技术

随着网络技术，特别是移动互联网的发展，互联网信息呈***式增长，而信息筛选手段、信息处理速度却没能相应匹配，这也造成航空企业无法对民航旅客进行有效识别，不合时宜不合偏好的推送，往往对用户带来骚扰，进而引发用户投诉。因此，如何通过各类互联网访问信息，精准构建民航旅客标签，识别出真正的民航旅客用户一直都是各大航司重点研究方向。现有民航旅客标签构建方式，主要基于人肉标签+浅层学习方法，大范围的人类知识介入以及对数量大、维度高以及稀疏性的互联网数据特征之间的潜在联系没能进一步挖掘，造成标签构建效率低下且准确率无法支持后续的精准营销，导致推送的消息引起用户的反感，进而造成投诉。这就需要有一种能够准确识别出是否为民航旅客的方法。

发明内容

针对现有技术的不足，本发明的目的之一提供一种基于机器学习的民航旅客标签分析方法，其能够解决准确识别出是否为民航旅客的问题；

本发明的目的之二提供一种处理终端，其能够解决准确识别出是否为民航旅客的问题。

实现本发明的目的之一的技术方案为：一种基于机器学习的民航旅客标签分析方法，包括如下步骤：

步骤1：获取原始数据；

步骤2：对原始数据进行预处理，从而获得向量化样本特征，包括同一用户的按天统计的向量化样本特征、按月统计的向量化样本特征和按年统计的向量化样本特征；

步骤3：GRU训练，在对GRU训练前，获得购票行为的历史数据，根据历史数据的购票行为，赋值给步骤2中得到的向量化样本特征中的用户标签数据n_samples，如果历史数据中有购票行为，则n_samples＝1，否则n_samples＝0，将赋值后的向量化样本特征输入至GRU的前向计算公式对GRU进行训练，直至满足训练条件后，停止对GRU进行训练，得到GRU训练后的更新门的权重矩阵W_z和重置门的权重矩阵W_r；

步骤4：GRU优化，经过训练后的GRU对用户进行推荐消息，根据ID-Mapping技术对用户进行跟踪反馈，定期检索用户的购票行为数据，获取用户是否曾发生过购票行为，再根据用户接收推荐消息后的购买行为来调整n_samples的值，得到推荐后的n_samples值：

推荐后

根据推荐后的n_samples的值，重新赋值给向量化样本特征，再次执行步骤3，对GRU进行优化，得到经过优化后的最终GRU；

步骤5：标签建立，将经过步骤3训练和步骤4优化后的最终GRU连接Softmax层，根据Softmax层的计算公式计算后的输出值来判断是否对用户建立“民航旅客”的标签，输出值对应三个结果g(z_i)_天、g(z_i)_月和g(z_i)_年，g(z_i)_天表示对应输入为按天统计的向量化样本特征经过Softmax层的计算公式计算后的输出值，g(z_i)_月表示对应输入为按月统计的向量化样本特征经过Softmax层的计算公式计算后的输出值，g(z_i)_年表示对应输入为按年统计的向量化样本特征经过Softmax层的计算公式计算后的输出值，当计算出的g(z_i)_天、g(z_i)_月和g(z_i)_年有两个或两个以上的最大值出现在第一行，则判断输入数据对应的用户为“民航旅客”，建立“民航旅客”的标签，对应的n_samples＝1，否则建立“非民航旅客”的标签，对应的n_samples＝0。

进一步地，所述预处理包括数据脱敏、去重、缺失值处理、ID-Mapping和统计分析。

进一步地，所述数据脱敏采用k-匿名隐私保护方法，在k-匿名隐私保护方法中，数据表中的属性被分成显示标识符、准标识符、敏感属性和非敏感属性，显示标识符包括名称、电话、ID、地址、MAC地址、IMEI序列号和IDFA，准标识符包括年龄、工作类别、教育情况、婚姻状况、职业、民族、性别和籍贯等信息，敏感信息包括人际关系，非敏感信息包括教育、资本收益、资本损失和每周工作时间；对显示标识符进行删除或者失真处理，对准标识符脱敏处理，对敏感属性保留，而对非敏感数据则直接输出。

进一步地，所述第一GRU的输入的向量化样本特征为按天统计的点击数，第二GRU的输入的向量化样本特征为按月统计的购买数，第三GRU的输入的向量化样本特征为按年统计的购票数。

进一步地，所述训练条件用交叉熵损失函数来约束，交叉熵损失函数的计算式为公式①：

其中，y表示实际标注值，o表示预测输出值，直至L(y,o)<0.005，则停止训练。

进一步地，所述GRU包括结构相同的第一GRU、第二GRU和第三GRU，第一GRU、第二GRU和第三GRU分别连接Softmax层。

进一步地，所述Softmax层的计算式为公式②：

其中，z_i表示Softmax层的第i个输入值，g(z_i)为对应的输出值，k表示Softmax层输出向量的维度。

实现本发明的目的之二的技术方案为：一种处理终端，其包括，

存储器，用于存储程序指令；

处理器，用于运行所述程序指令，以执行如下步骤：

步骤1：获取原始数据；

推荐后

进一步地，所述Softmax层的计算式为公式②：

本发明的有益效果为：本发明能够精准识别出用户是否为“民航旅客”，且计算效率高，利用深度神经网络构建民航旅客标签模型，从深度学习的角度挖掘出更多维度特征之间隐藏的联系，从而提高民航旅客标签预测效果，达到精准推送的目的，并能提高用户对个性化服务的满意度。

附图说明

图1本发明较佳实施例的流程图；

图2为本发明的GRU结构示意图；

图3本发明一种处理终端的结构示意图；

图中，表示矩阵的点乘运算，[.,.]表示做矩阵运算，表示GRU收敛到终止条件时的最终输出。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述：

如图1和图2所示，一种基于机器学习的民航旅客标签分析方法，包括如下步骤：

步骤1：获取原始数据，原始数据主要采集用户互联网行为数据，包括采集各电商网站浏览行为数据、各电商购买行为数据、微博浏览行为数据、旅游社交网站浏览行为数据、视频网站观看行为数据和航空公司购票数据等互联网行为数据；

步骤2：对原始数据进行预处理，预处理包括数据脱敏、去重、缺失值处理、ID-Mapping和统计分析等处理过程，从而获得向量化样本特征，向量化样本特征便于后续数据处理的矩阵运算；

其中，数据脱敏)，数据脱敏使用基于k-匿名隐私保护方法，在k-匿名隐私保护方法中，数据表中的属性被分成显示标识符、准标识符、敏感属性和非敏感属性，显示标识符包括名称、电话、ID、地址、MAC地址、IMEI序列号和IDFA等信息，准标识符包括年龄、工作类别、教育情况、婚姻状况、职业、民族、性别和籍贯等信息，敏感信息包括人际关系，非敏感信息包括教育、资本收益、资本损失和每周工作时间等；本发明对显示标识符进行删除或者失真处理，对准标识符，对敏感属性保留，而对非敏感数据则直接输出，以此实现数据的脱敏，在满足数据可用性的同时实现对隐私保护；

去重)，将每条数据计算哈希(HASH)值，简单判断HASH值是否存在，如果HASA值存在，则表示该数据为重复数据，删除重复数据；

缺失值处理)，由于数据来源于不同网站，其数据来源具有多样性，这导致原始数据中难免会存在缺失值，对于存在超过5个缺失值的数据，进行删除，否则将缺失值统一取值为0进行替代；

ID-Mapping),一个用户会在不同类别的网站进行浏览和购票等行为，导致数据来源具有多样性，不同的数据源属于不同的机构，不同的机构采用不同的身份ID对用户进行标识，需要通过ID-Mapping技术将一个人在不同的网站产生的数据关联起来，即要让数据找到对的人，本实施例中，采用Map-Reduce算法来关联ID信息；

统计分析)，将数据以通过ID-Mapping处理后得到的唯一用户ID为主键，做数据合并处理，对点击相关数据按天进行合并，对购买相关数据按月进行合并，对购票相关数据按年进行合并，分别得到如表1至表3的数据：

	品类1	品类2	品类3	品类4	品类5
						用户1	304	388	23	542	533
用户2	419	0	535	0	243

表1用户在某网站按天统计点击数

	品类1	品类2	品类3	品类4	品类5
						用户1	0	12	43	11	53
用户2	41	55	0	23	24

表2用户在某网站按月统计购买数

	机票
		用户1	2
用户2	1

表3用户在某网站按年统计购票数

向量化)，由于数据来自多个不同网站，需要将不同网站的数据按唯一用户ID进行合并，不同网站的所有品类都放到同一行里，如果用户在这个品类里没有行为数据，那么就填0，也就是向量化处理，从而得到三个分别按天、按月和按年进行统计的高维、稀疏的矩阵,即得到按天统计的行为数据、按月统计的行为数据和按年统计的行为数据，以上三个数据均为向量化样本特征，此三个向量化样本特征将作为本实施例的输入，输入的数据可以用矩阵或向量的形式来表示，输入的数据样式如表4所示：

	…	品类1.1	…	品类1.3	…
						用户1	0...0	38	0...0	54	0...0
用户2	0...0	23	0...0	43	0...0

表4输入数据样式

步骤3：GRU训练，得到GRU训练后的更新门的权重矩阵W_z和重置门的权重矩阵W_r，本实施例，使用三重时序的GRU结构，包括第一GRU、第二GRU和第三GRU，即将按天统计的向量化样本特征输入至第一GRU，按月统计的向量化特征输入至第二GRU，按年统计的向量化特征输入至第三GRU，，由于本实施例中，输入的数据是包括按天、按月和按年进行统计的三个矩阵，因此通过GRU训练，分别得到更新门的权重矩阵：W_z天、W_z月和W_z年，以及重置门的权重矩阵：W_r天、W_r月和W_r年，W_z天表示对应第一GRU的更新门的权重矩阵，W_z月表示对应第二GRU的更新门的权重矩阵，W_z年表示对应第三GRU的更新门的权重矩阵，W_r天表示对应第一GRU的重置门的权重矩阵，W_r月表示对应第二GRU的重置门的权重矩阵，W_r年表示对应第三GRU的重置门的权重矩阵；

GRU的前向计算公式为：

Z_t＝σ(W_Z·[h_t-1,x_t])

r_t＝σ(W_r·[h_t-1,x_t])

其中，表示矩阵的点乘运算，σ表示Sigmoid激活函数，Z_t表示更新门，r_t表示重置门，x_t表示隐藏层的输入，即表示向量化样本特征，h_t表示t时刻的隐藏层的输出，h_t-1表示t-1时刻的隐藏层的输出，W表示收敛到终止条件时所有权重矩阵；

初始化时，W_z、W_r和h₀均设为全0矩阵，x_t包括x_t天、x_t月和x_t年，分别表示按天统计的向量化样本特征、按月统计的向量化样本特征和按年统计的向量化样本特征，具体的数据样式如下：

选取的时间跨度是最近30天点击行为，最近12个月购买行为，最近3年购票行为，即x_t天的time_steps＝30，x_t月的time_steps＝12，x_t年年的time_steps＝3；

在对GRU训练之前，从购票行为的历史数据中对n_samples取值，n_samples表示用户标签数据，本实施例中选取中国民航信息网络股份有限公司(中航信)的购票数据，如果中国民航信息网络股份有限公司提供的购票数据显示某用户有购票，则n_samples＝1，否则，n_samples＝0，该n_samples值也是根据历史数据得出的推荐前的值，即有公式(1)：

推荐前

并且将n_samples的值固定设置在x_t的第一行；将x_t天、x_t月和x_t年三个输入数据分别输入至第一GRU、第二GRU和第三GRU，经过前向公式计算出Z_t、r_t和h_t-1，并以h_t-1作为下次计算的输入，如此循环，直至满足停止训练条件后，停止训练。

所述满足停止训练条件是通过损失函数来确定，具体过程如下：

本实施例中，选用交叉熵损失函数(Cross-Entropy Loss)作为停止训练条件的判断依据，交叉熵损失函数的计算式为公式(2)：

其中，y表示实际标注值，o表示预测输出值，在本实施例中，y取x_t中的n_samples值，即y＝n_samples,取值完后转换成矩阵，比如n_samples＝1，则y＝[1,0,0,...,0]，若，o取h_t值，即o＝h_t，将y和o代入公式(2)进行运算，直至L(y,o)<0.005，则停止训练，停止训练所对应的三组更新门的权重矩阵W_z天、W_z月和W_z年，以及三组重置门的权重矩阵W_r天、W_r月和W_r年，就是GRU训练所需要的学习参数，也即作为本实施例中GRU的更新门的权重矩阵和重置门的权重矩阵。

步骤4：GRU优化，在步骤3中，对n_samples取值，已经根据历史数据对用户是否标签为“民航旅客”，在步骤3中完成权重矩阵的确定后，训练后的GRU会对用户进行推荐消息，需要再次根据用户接收推荐消息后的购买行为来调整n_samples的值，具体如下：

根据ID-Mapping技术对已标签的用户进行跟踪反馈，定期检索中航信的购票行为数据，获取用户是否曾发生过购票行为，若在1个月内发现其有购票行为，则说明标签准确，标记为正样本，否则标记为负样本，也即调整n_samples值，得到推荐后的n_samples值：

推荐后

根据调整后的n_samples的值，重新赋值给向量化样本特征，再次执行步骤3，对GRU进行优化，得到经过优化后的最终GRU，最终的GRU可以自主直接对新用户进行标签分析，自主决定是否对用户建立“民航旅客”的标签；

步骤5：标签建立，经过GRU训练后，得到了最终的GRU，即得到经过训练和优化后的第一GRU、第二GRU和第三GRU，然后，第一GRU、第二GRU和第三GRU分别连接Softmax层，即h_t作为Softmax层的输入，根据Softmax层输出值来判断是否对用户建立“民航旅客”的标签，Softmax层的计算式为公式(3)：

比如，h_t天＝[2 1 3 4]经过公式(3)计算后，得到对应的输出向量y＝[0.09 0.030.24 0.64]；

将h_t天、h_t月和h_t年输入至Softmax层，经过公式(3)进行计算，输出对应的三个结果g(z_i)_天、g(z_i)_月和g(z_i)_年，当计算出的g(z_i)_天、g(z_i)_月和g(z_i)_年有两个或两个以上的最大值出现在第一行，则判断此数据对应的用户为“民航旅客”，建立“民航旅客”的标签，对应的n_samples＝1，否则建立“非民航旅客”的标签，对应的n_samples＝0。

如图3所示，本发明还涉及一种实现以上方法的实体装置的处理终端100，其包括，

存储器101，用于存储程序指令；

处理器102，用于运行所述程序指令，以执行如下步骤：

步骤1：获取原始数据；

推荐后

进一步地，所述Softmax层的计算式为公式②：

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及变形，而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims

1.一种基于机器学习的民航旅客标签分析方法，其特征在于：包括如下步骤：

步骤1：获取原始数据；

2.根据权利要求1所述的基于机器学习的民航旅客标签分析方法，其特征在于：所述预处理包括数据脱敏、去重、缺失值处理、ID-Mapping和统计分析。

3.根据权利要求2所述的基于机器学习的民航旅客标签分析方法，其特征在于：所述数据脱敏采用k-匿名隐私保护方法，在k-匿名隐私保护方法中，数据表中的属性被分成显示标识符、准标识符、敏感属性和非敏感属性，显示标识符包括名称、电话、ID、地址、MAC地址、IMEI序列号和IDFA，准标识符包括年龄、工作类别、教育情况、婚姻状况、职业、民族、性别和籍贯等信息，敏感信息包括人际关系，非敏感信息包括教育、资本收益、资本损失和每周工作时间；对显示标识符进行删除或者失真处理，对准标识符脱敏处理，对敏感属性保留，而对非敏感数据则直接输出。

4.根据权利要求1所述的基于机器学习的民航旅客标签分析方法，其特征在于：所述第一GRU的输入的向量化样本特征为按天统计的点击数，第二GRU的输入的向量化样本特征为按月统计的购买数，第三GRU的输入的向量化样本特征为按年统计的购票数。

5.根据权利要求1所述的基于机器学习的民航旅客标签分析方法，其特征在于：所述训练条件用交叉熵损失函数来约束，交叉熵损失函数的计算式为公式①：

6.根据权利要求1所述的基于机器学习的民航旅客标签分析方法，其特征在于：所述GRU包括结构相同的第一GRU、第二GRU和第三GRU，第一GRU、第二GRU和第三GRU分别连接Softmax层。

7.根据权利要求1所述的基于机器学习的民航旅客标签分析方法，其特征在于：所述Softmax层的计算式为公式②：

8.一种处理终端，其包括，

存储器，用于存储程序指令；

处理器，用于运行所述程序指令，以执行如权利要求1-7任一项所述的基于机器学习的民航旅客标签分析方法的步骤。