CN109376237B

CN109376237B - 客户稳定性的预测方法、装置、计算机设备和存储介质

Info

Publication number: CN109376237B
Application number: CN201811025974.XA
Authority: CN
Inventors: 陈石
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2018-09-04
Filing date: 2018-09-04
Publication date: 2024-05-28
Anticipated expiration: 2038-09-04
Also published as: CN109376237A

Abstract

本申请涉及一种基于人工智能的客户稳定性的预测方法、装置、计算机设备和存储介质。所述方法包括：监测网络平台发布的多个目标信息；获取目标客户对应的客户数据；所述客户数据包括产品标识；基于所述目标信息计算所述产品标识对应的舆情指数；统计目标客户在所述监控周期对目标信息的访问数据；根据所述客户数据确定所述目标客户的情感特征；将所述舆情指数、所述访问数据以及所述情感特征输入预设的信息影响预测模型，输出所述目标客户的稳定性参数。采用本方法能够及时预测客户稳定性并提高预测准确率。

Description

客户稳定性的预测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种客户稳定性的预测方法、装置、计算机设备和存储介质。

背景技术

随着互联网媒体的影响力逐渐变大，通过互联网向用户发布信息的网络平台也越来越多。虽然网络平台发布的信息本身可能不含任何情感词，但访问这类信息却会让人产生某种情感倾向，而有些情感倾向则直接影响企业客户的稳定性。虽然目前大多企业会针对网络平台发布的信息进行回应，例如，发布辟谣信息等，但回应相关的信息时，往往是在信息事件发布并经过舆论发酵之后，此时对应企业来说，已经出现了客户流失等不良现象。可见，现有技术缺乏向企业提供针对客户稳定性的预警方案。

发明内容

基于此，有必要针对上述技术问题，提供一种能够及时预测客户稳定性并提高预测准确率的客户稳定性的预测方法、装置、计算机设备和存储介质。

一种客户稳定性的预测方法，所述方法包括：监测网络平台发布的多个目标信息；获取目标客户对应的客户数据；所述客户数据包括产品标识；基于所述目标信息计算所述产品标识对应的舆情指数；统计目标客户在所述监控周期对目标信息的访问数据；根据所述客户数据确定所述目标客户的情感特征；将所述舆情指数、所述访问数据以及所述情感特征输入预设的信息影响预测模型，输出所述目标客户的稳定性参数。

在其中一个实施例中，所述监测网络平台发布的多个目标信息，包括：监测网络平台发布的原始信息；对所述原始信息进行分词处理，得到每个所述原始信息对应的信息标签；获取多个目标关键词，识别所述信息标签是否包含所述目标关键词；若是，将相应原始信息标记为目标信息。

在其中一个实施例中，所述基于所述目标信息计算所述产品标识对应的舆情指数，包括：对所述目标信息进行拆分，得到多个短文本；在所述短文本中提取产品标识，将所述产品标识与相应短文本关联；利用预设的舆情分析模型计算每个所述短文本对应的情感指数；确定多个所述短文本分别对应的影响力权重；根据相关联的短文本的情感指数和影响力权重，计算相应产品标识对应的舆情指数。

在其中一个实施例中，所述统计目标客户在所述监控周期对目标信息的访问数据，包括：获取目标客户的标识字段，将所述标识字段发送至所述网络平台；接收所述网络平台根据所述标识字段返回的关联访问数据；在所述关联访问数据中提取信息访问字段、信息收藏字段及信息转发字段；基于所述信息访问字段、信息收藏字段及信息转发字段统计所述目标客户在监控周期的信息访问量、信息收藏量及信息转发量。

在其中一个实施例中，所述根据所述客户数据确定所述目标客户的情感特征，包括：获取多个子模型，确定多个所述子模型分别对应的权值因子；根据多个所述子模型及分别对应的权值因子，生成第一模型；获取客户样本数据及相对应的情感标签；将所述客户样本数据输入所述第一模型，得到中间情感分析结果；计算所述中间情感分析结果与所述情感标签的差异，根据所述差异对所述第一模型进行调整，得到第二模型；将所述客户数据输入所述第二模型，输出所述目标客户的情感特征。

在其中一个实施例中，所述信息影响预测模型采用深度神经网络模型训练得到；所述将所述舆情指数、访问数据及情感特征输入预设的信息影响预测模型，输出所述目标客户的稳定性参数，包括：对所述舆情指数、访问数据及情感特征预处理，得到客户特征矩阵；根据所述客户特征矩阵得到输入层节点序列；对所述输入层节点序列进行投影，得到第一隐层对应的隐层节点序列，将所述第一隐层作为当前处理隐层；获取所述当前处理隐层对应各个神经元节点的权重和偏差；根据所述当前处理隐层对应的隐层节点序列以及各个神经元节点的权重和偏差，采用非线性映射得到下一隐层的隐层节点序列；将下一隐层作为当前处理隐层进行迭代，直至输出层；获取所述输出层输出的所述目标客户对应的稳定性参数。

一种客户稳定性的预测装置，所述装置包括：信息分析模块，用于监测网络平台发布的多个目标信息；获取目标客户对应的客户数据；所述客户数据包括产品标识；基于所述目标信息计算所述产品标识对应的舆情指数；客户分析模块，用于统计目标客户在所述监控周期对目标信息的访问数据；根据所述客户数据确定所述目标客户的情感特征；影响预测模块，用于将所述舆情指数、所述访问数据以及所述情感特征输入预设的信息影响预测模型，输出所述目标客户的稳定性参数。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请任意一个实施例中提供的客户稳定性的预测方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的客户稳定性的预测方法的步骤。

上述客户稳定性的预测方法、装置、计算机设备和存储介质，对网络平台发布的多个目标信息实时监测；根据需要分析的目标客户对应的客户数据，可以获取一个或多个产品标识；根据监测到的目标信息，可以计算不同产品标识对应的舆情指数；通过统计目标客户在所述监控周期对目标信息的访问数据，并根据所述客户数据确定所述目标客户的情感特征，可以基于信息影响预测模型得到目标客户的稳定性参数。由于不仅预测目标信息对产品的影响，得到产品标识对应的舆情指数，还采用目标客户对目标信息的了解程度，进一步考虑客户是否易受目标信息影响的情感特征，综合考虑多个因素可以提高信息影响预测准确率；将计算得到的多种因素数据直接输入预置的信息影响预测模型即可得到预测结果，能够及时预测客户稳定性并提高预测准确率。

附图说明

图1为一个实施例中客户稳定性的预测方法的应用场景图；

图2为一个实施例中客户稳定性的预测方法的流程示意图；

图3为一个实施例中计算产品舆情指数步骤的流程示意图；

图4为一个实施例中确定客户情感特征步骤的流程示意图；

图5为一个实施例中客户稳定性的预测装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的客户稳定性的预测方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。对服务器104监测网络平台在监控周期发布的原始信息，从原始信息中筛选与企业业务相关的目标信息。服务器104根据终端102发送的信息影响预测请求或者按照预设时间频率预测目标信息是否会对目标客户的稳定性造成影响。具体的，服务器104获取目标客户对应的客户数据。客户数据包括产品标识。服务器104基于目标信息计算产品标识对应的舆情指数，即预测目标信息对产品标识对应的产品的价格等的影响。服务器104统计目标客户在监控周期对目标信息的访问数据，如对目标信息的浏览、转发或收藏等的行为数据。服务器104根据客户数据确定目标客户的情感特征，即易受外界影响改变决定的程度。服务器104预存储了信息影响预测模型。信息影响预测模型可以是采用深度神经网络模型训练得到的。服务器104将舆情指数、访问数据以及情感特征输入信息影响预测模型，输出目标客户的稳定性参数。上述信息影响预测过程，不仅预测目标信息对产品的影响，得到产品标识对应的舆情指数，还采用目标客户对目标信息的了解程度，进一步考虑客户是否易受目标信息影响的情感特征，综合考虑多个因素可以提高信息影响预测准确率。

在一个实施例中，如图2所示，提供了一种客户稳定性的预测方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，监测网络平台发布的多个目标信息。

网络平台可以是预先指定的多种信息阅读器，如UC浏览器、QQ浏览器、今日头条、天天快报等。网络平台还可以是预先指定的多种社交平台，如微信、微博、QQ、贴吧、论坛或知乎等。目标信息具有对应的影响对象。目标信息会影响人们的情感态度，进而对影响对象造成良性或恶性影响，如客源流失、资源贬值等。影响对象类型可以是通信设备、房产建筑、虚拟资源、其他产品等。其中，虚拟资源可以是产品等。监控周期是指服务器采集目标信息的时间频率，可以根据需求自由设定，如1周等，对此不作限制。服务器从不同网络平台爬取目标信息的时间频率可以不同。

在一个实施例中，监测网络平台发布的多个目标信息，包括：监测网络平台发布的原始信息；对原始信息进行分词处理，得到每个原始信息对应的信息标签；获取多个目标关键词，识别信息标签是否包含目标关键词；若是，将相应原始信息标记为目标信息。

网络平台可能在监控周期不定时发多条原始信息。但并非全部原始信息均会影响客户稳定性，服务器筛选与企业业务相关的原始信息。具体的，服务器对采集到的每条原始信息进行分词、去停用词及命名实体替换等处理，得到多个信息关键词。服务器计算每个信息关键词的TF-IDF值(termfrequency–inverse document frequency，词频-逆向文件频率)。具体的，服务器通过统计每个信息关键词在所有信息关键词中出现的次数，计算相应信息关键词的TF值(term frequency，词频)；通过统计原始信息中信息语句的总数量与包含某个信息关键词的信息语句的数量的比值，计算相应信息关键词的IDF值(inversedocument frequency，逆向文件频率)。服务器根据每个信息关键词的TF值和IDF值计算相应信息关键词的TF-IDF值。TF-IDF值可以反映信息关键词的业务类别区分能力。服务器根据TF-IDF值对信息关键词进行筛选，筛选得到预设数量TF-IDF值高的信息关键词。

服务器利用筛选得到的信息关键词生成原始信息对应的信息标签。服务器预存储了多个与业务相关的目标关键词。服务器将信息标签与目标关键词进行匹配，识别信息标签是否包含目标关键词。若信息标签包含目标关键词，表示原始信息与企业业务相关，服务器将该原始信息标记为目标信息。本实施例对采集到的信息进行筛选，使得服务器可以仅对与企业业务相关的目标信息进行舆情分析，可以减少服务器需要处理的数据量，进而减少服务器资源占用，提高信息影响预测效率。

步骤204，获取目标客户对应的客户数据；客户数据包括产品标识。

目标客户可以是已有客户，也可以是潜在客户。对于潜在客户，服务器可以通过网络爬虫的方式获取对应的客户数据。客户数据包括性别、年龄、职业等固有属性，也包括网页浏览、信息转发、动态发布等动态行为数据，可以是文本、语音、视频或图片等。对于已有客户，服务器可以直接在业务***获取相应的客户数据。已有客户的客户数据包括已购买或准备购买的产品的标识(以下简称“产品标识”)。例如，客户已经购买且当前有效、购买过但已失效以及准备购买的保险产品的产品标识。

步骤206，基于目标信息计算产品标识对应的舆情指数。

服务器对目标信息进行拆分，得到多个短文本。服务器在目标信息中提取能够表征其可能影响的对象(以下称“影响对象”)的关键词，根据提取到的关键词，确定该目标对象对应的影响对象类型。服务器预先存储了多种影响对象类型以及每种影响对象类型对应的舆情因子和舆情分析模型。根据目标信息，服务器获取相应影响对象类型对应的舆情因子，根据舆情因子在多个短文本中分别提取目标关键词，将提取到的目标关键词输入该影响对象类型对应的舆情分析模型，计算得到目标信息对应的情感指数。服务器可以对虚拟资源、通信设备等多种影响对象类型的目标信息进行分析。当影响对象类型为虚拟资源时，服务器还用于根据情感指数测算虚拟资源对应的舆情指数。舆情指数能够表征目标信息对不同产品的价格、受众人群、受欢迎度等的影响程度。

步骤208，统计目标客户在监控周期对目标信息的访问数据。

服务器基于客户标识在网络平台上收集目标客户在监控周期对目标信息的访问数据。访问数据包括对一条或多条目标信息的浏览记录，如浏览时间、是否转发、是否收藏、浏览时长、评论信息等。服务器根据访问数据统计目标客户在监控周期的信息访问量、信息收藏量及信息转发量。

在一个实施例中，统计目标客户在监控周期对目标信息的访问数据，包括：获取目标客户的标识字段，将标识字段发送至网络平台；接收网络平台根据标识字段返回的关联访问数据；在关联访问数据中提取信息访问字段、信息收藏字段及信息转发字段；基于信息访问字段、信息收藏字段及信息转发字段统计目标客户在监控周期的信息访问量、信息收藏量及信息转发量。

目标客户具有对应的标识字段。服务器从目标客户在企业留存的身份信息中提取基础标识字段。标识字段可以是目标客户，以及目标客户的亲属或朋友(以下称“关联对象”)的身份识别字段。身份识别字段包括姓名、身份证号、手机号、邮箱账号、网络账号、常用设备信息等。常用设备信息可以是IMEI(International Mobile Equipment Identity，国际移动设备识别码)、IP地址、设备指纹、操作***版本号、序列号等。

不同互联网服务器上运行了不同网络平台。目标客户在使用各类设备访问机构内外的网络平台时，将在相应互联网服务器中留下访问记录。访问记录可以以日志或文件等的形式存储。服务器根据目标客户的基础标识字段，生成数据提取请求，将数据提取请求发送至互联网服务器。互联网服务器查找包含标识字段的访问记录，将查找到的访问记录返回至服务器。访问记录是指目标客户基于移动终端、汽车、智能机器人、智能穿戴设备等发生的信息访问行为(如浏览行为、评论行为、转发行为、收藏行为等)的行为数据(以下称“关联访问数据”)。服务器在关联访问数据中提取信息访问字段、信息收藏字段及信息转发字段等，对提取到的字段信息进行统计分析，得到目标客户在监控周期对目标信息的信息访问量、信息收藏量及信息转发量等。

步骤210，根据客户数据确定目标客户的情感特征。

服务器利用历史监控周期的客户数据训练得到不同监控周期的分析模型。每个监控周期产生一个分析模型，每个分类模型具有对应的模型标识(可以是日期，如201708等)和权重因子W。服务器基于预设的滑窗函数选取预设数量的分析模型，根据筛选得到的分析模型及对应的权重因子，构建初始的机器学习模型。服务器基于当前监控周期的客户数据对预设的机器学习模型进行训练，得到情感特征模型。服务器在监控周期达到时，将目标客户多个维度的客户数据输入情感特征模型，得到目标客户的情感特征。情感特征可以是用于表征客户易受社会舆论影响而产生情绪波动的程度(即社会舆论对该客户的影响力度)的定量或定性的参数值。例如，可以用-100～100表征客户的情感特征，参数绝对值越大表示社会舆论对客户的影响力度越大，参数值越大表示社会舆论对客户的正面影响力度越大，参数值越小表示社会舆论对客户的负面影响力度越大。

步骤212，将舆情指数、访问数据以及情感特征输入预设的信息影响预测模型，输出目标客户的稳定性参数。

服务器预存储了信息影响预测模型。信息影响预测模型可以是采用深度神经网络模型训练得到的。具体的，信息影响预测模型包括输入层和输出层。输入层和输出层之间还包括和多个隐含层。层与层之间全连接。每层包括多个神经元，同一层的神经元输入参数相同。

在一个实施例中，信息影响预测模型采用深度神经网络模型训练得到；将舆情指数、访问数据及情感特征输入预设的信息影响预测模型，输出目标客户的稳定性参数，包括：对舆情指数、访问数据及情感特征预处理，得到客户特征矩阵；根据客户特征矩阵得到输入层节点序列；对输入层节点序列进行投影，得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层；获取当前处理隐层对应各个神经元节点的权重和偏差；根据当前处理隐层对应的隐层节点序列以及各个神经元节点的权重和偏差，采用非线性映射得到下一隐层的隐层节点序列；将下一隐层作为当前处理隐层进行迭代，直至输出层；获取输出层输出的目标客户对应的稳定性参数。

本实施例中，对网络平台在监控周期发布的多个目标信息实时监测；根据需要分析的目标客户对应的客户数据，可以获取一个或多个产品标识；根据监测到的目标信息，可以计算不同产品标识对应的舆情指数；通过统计目标客户在监控周期对目标信息的访问数据，并根据客户数据确定目标客户的情感特征，可以基于信息影响预测模型得到目标客户的稳定性参数。由于不仅预测目标信息对产品的影响，得到产品标识对应的舆情指数，还采用目标客户对目标信息的了解程度，进一步考虑客户是否易受目标信息影响的情感特征，综合考虑多个因素可以提高信息影响预测准确率；将计算得到的多种因素数据直接输入预置的信息影响预测模型即可得到预测结果，能够及时预测客户稳定性并提高预测准确率。

在一个实施例中，如图3所示，基于目标信息计算产品标识对应的舆情指数，即计算产品舆情指数的步骤，包括：

步骤302，对目标信息进行拆分，得到多个短文本。

步骤304，在短文本中提取产品标识，将产品标识与相应短文本关联。

步骤306，利用预设的舆情分析模型计算每个短文本对应的情感指数。

步骤308，确定多个短文本分别对应的影响力权重。

步骤310，根据相关联的短文本的情感指数和影响力权重，计算相应产品标识对应的舆情指数。

目标信息可以是文本、语音、视频或图片等。若目标信息为语音、视频或图片，则将其先转换为文本。转换后的目标信息为包括多个拆分标识符的长文本。服务器将每个拆分标识符所在位置确定为拆分位置，在长文本的每个拆分位置进行拆分，得到多个短文本。拆分标识符可以语句结束符，如句号、感叹号等。

服务器在每个短文本提取中间关键词。具体的，服务器对短文本进行分词处理，若分词包括停用词或标点符号，对多个分词进行过滤，删除停用词和标点符号，以节省服务器的存储空间。服务器对过滤后的多个分词进行同义词替换及命名实体替换。服务器预先存储了同义词表和命名实体。同义词替换可以对同一个概念的多种表达方式进行统一，使得短文的关键概念更未凸显，降低服务器根据中间关键词进行舆情分析的难度，从而可以提高舆情分析效率和准确率。命名实体的替换可以降低舆情分析的粒度，可以进一步提高舆情分析的效率。根据预先存储的多种影响对象类型分别对应的舆情因子，服务器将替换后的一个或多个分词确定为中间关键词。舆情因子是指该类目标信息中可能影响用户情感态度的因素。

服务器预先存储了舆情分析模型。舆情分析模型可以对机器学习分类模型训练得到的。具体的，服务器基于word2vec模型将多个中间关键词分别转化为对应的词向量，并对每个词向量添加对应的分类标签。词向量及对应的分类标签构成训练集，基于训练集对机器学习分类模型进行训练，得到舆情分析模型。机器学习分类模型可以是GBDT模型或XGBOOST模型等。服务器将提取到的中间关键词输入相应影响对象类型对应的舆情分析模型，计算得到目标信息对应的情感指数。

每个目标信息具有对应的简介信息，如发布时间、发布媒体、发布作者等。服务器基于目标信息的简介信息，计算每个目标信息的影响力权重。例如，影响力权重可以是时间权重、媒体权重与作者权重等的累加和。容易理解，同一目标信息拆分得到的多个短文本对应的影响力权重相同。

服务器计算得到的目标信息的情感指数包括相应多个短文本分别对应的情感指数。服务器通过字典树(trie)算法在短文本中提取产品标识。产品标识可以是产品名称或产品编号等。换言之，服务器在某些短文本中提取到的中间关键词包括产品标识。服务器在不同短文本中可以提取到相同或不同的产品标识。服务器将产品标识与相应短文本进行关联。容易理解，同一产品标识可能与来自多个目标信息的多个短文本关联。服务器根据产品标识对应的短文本的情感指数以及对应影响力权重，计算相应产品对应的标的舆情指数。例如，每个产品标识对应的舆情指数可以是与该产品标识关联的全部短文本的情感指数的加权和，如产品A舆情指数＝短文本11*影响力权重11+短文本12*影响力权重12+...+短文本21*影响力权重21。

本实施例中，结合目标信息的影响力权重计算不同目标信息对不同产品影响，即舆情指数，可以提高舆情分析准确性。

在一个实施例中，如图4所示，根据客户数据确定目标客户的情感特征，即确定客户情感特征的步骤，包括：

步骤402，获取多个子模型，确定多个子模型分别对应的权值因子。

步骤404，根据多个子模型及分别对应的权值因子，生成第一模型。

步骤406，获取客户样本数据及相对应的情感标签。

步骤408，将客户样本数据输入第一模型，得到中间情感分析结果。

步骤410，计算中间情感分析结果与情感标签的差异，根据差异对第一模型进行调整，得到第二模型。

步骤412，将客户数据输入第二模型，输出目标客户的情感特征。

服务器每隔一个监控周期构建相应监控周期的情感特征分析模型。监控周期的时间长度可以根据需求自由设定，如1年。当前监控周期对应的情感特征分析模型可以是利用多个历史监控周期的情感特征分析模型构建而成。为了描述方便，将历史监控周期的情感特征分析模型称作“子模型”。最初的子模型可以是服务器利用大量客户样本数据对初始模型训练得到。

服务器获取多个历史时段的客户样本数据。历史时段与上述历史监控周期相对应。服务器针对每个客户的客户样本数据添加对应的品质标签。为了减少人工标注的繁琐，服务器根据客户样本数据建立客户画像，基于客户画像自动生成相应客户的品质标签。具体的，服务器对客户样本数据进行清洗等处理，得到客户对应的多个属性标签，如用户的年龄、性别、职业、婚姻状况、文化程度、职业、财产保障、健康状况等。服务器将获取的多个属性标签组成为一个文本向量，将组成的文本向量作为该客户的客户画像。客户画像作为实际客户的虚拟代表，其往往是根据产品和市场来构建出来的，反应了真实客户的特征和需求。服务器预存储了多种属性标签组合以及每种组合分别对应的品质标签。服务器基于预存储的属性标签组合与品质标签的对应关系，对客户画像进行转化，得到相应客户标识对应的品质标签。品质标签可以是分值等定量指标，也可以是优、良、差等定性指标。

服务器基于大量客户样本数据及对应的品质标签对初始模型训练，得到相应子模型。初始模型可以是特征分类模型和特征融合模型拟合得到。初始模型包括多个客户指标，每种客户指标具有对应的多种客户属性，如客户指标“性别”对应的客户属性可以是“男”或“女”。服务器计算各个客户指标对应的熵值增益。计算熵值增益的公式可以是：

其中，GA表示计算的客户指标A的熵值增益；M表示客户情感特征指数达到阈值的概率；Ai表示对应客户指标A的客户属性i的数量占客户样本数据中客户属性的总数量的比例，ai表示客户属性i以客户指标A的数量为基数的客户品质情感特征指数达到阈值的概率，n表示对应客户指标A的客户属性的个数。服务器将多个客户指标的熵值增益加权求和得到相应客户指标组合对应的熵值增益。服务器根据各个客户指标组合分别对应的熵值增益和品质标签，通过特征分类算法对第一预设模型进行训练，得到特征分类模型。特征分类算法可以是GBDT(Gradient Boost Decision Tree，梯度提升树算法)与(LogisticRegression，逻辑回归算法)的结合。

服务器基于客户样本数据训练得到特征融合模型。具体的，若客户数据是通网络平台爬取得到的，不同网络平台对同一客户指标的命名方式可能不同，为了减少命名差异对模型训练的影响，服务器对各个客户指标进行同义扩展处理，得到各个客户指标组合分别对应的扩展指标组合。服务器分别获取客户指标中各个分词对应的同义词，将分词与对应的同义词形成扩展词语集合。每个分词都存在对应的扩展词语集合，如客户指标组合A为{a,b,c}，则客户指标组合中的每个客户指标都存在对应的扩展词语集合，如客户指标a对应的扩展词语集合为{a,a1,a2}。服务器按照与客户指标组合中各个客户指标出现的顺序，从各个客户指标对应的扩展词语集合中任意选择一个词语，按顺序形成一个扩展指标集合。当从扩展词语集合中选择不同的词语时，则形成不同的扩展指标集合，不同的扩展指标集合组成扩展指标组合。服务器根据各个扩展指标组合及分别对应的情感分析结果，通过特征融合算法对第二预设模型进行训练，得到特征融合模型。特征融合算法可以是随机森林算法等。

先形成每个客户指标对应的扩展词语集合，再通过扩展词语集合形成各个客户指标组合对应的扩展指标组合，大大提高了客户指标的扩展度，扩展后的各个客户指标表达了与原始的客户指标相同或相近的含义，提高了客户指标的有效覆盖范围，从而在后续输入已训练的特征融合模型后，可提高情感特征分析精准性。

服务器将特征分类模型与特征融合模型拟合，得到相应子模型。在一个具体的实施例中，服务器对逻辑回归模型、GBDT(Gradient Boost Decision Tree，非线性模型)、(Logistic Regression，逻辑回归模型)、随机森林模型进行线性拟合，得到子模型。例如，子模型＝逻辑回归模型*W1+GBDT*W2+LR*W3+随机森林模型*W4。其中，Wi为权重因子。不同类型模型存在ROC(receiver operating characteristic curve，受试者工作特征)差异性，这里把不同类型模型拟合，能够提高客户情感特征分析精准性。

每个子模型具有对应时间标签。时间标签可以是根据子模型的构建时段生成，如2017,20170317等。服务器根据时间衰减函数确定各个子模型的贡献率，即确定多个子模型分别对应的权值因子。其中，Δt为时间标签与当前时间的时间差；T为最佳时间长度。例如，时间标签“2017”年与当前时间“2018”的时间差Δt＝1；T可以是滑窗函数对应的时间跨度，即筛选得到的子模型的数量。容易理解，离当前时段越远的子模型是采用较早历史客户数据训练，用于分析当前时段客户情感特征的参考意义(即贡献率)越小。换言之，时间差越大，对应子模型对品质分析的贡献率越小，从而可以基于时间衰减函数确定多个子模型的权值因子。

服务器基于多个子模型以及分别对应的权值因子进行线性回归运算，得到第一模型。为了提高第一模型的准确性，服务器对第一模型进行训练强化。具体的，服务器获取当前监控周期内多个客户的客户样本数据。客户样本数据具有对应的分类标签。客户样本数据包括客户多个维度的信息，如年龄、职业、家庭成员等。服务器将当前监控周期的客户样本数据输入第一模型，得到中间分类结果。服务器计算中间分类结果与分类标签的差异，根据差异对第一模型进行调整，得到第二模型。

本实施例中，由于利用客户样本数据预先构建情感特征分析模型，基于分析模型只需将客户数据作为入参即可快速得到相应客户的情感特征，也可以综合考虑客户多个维度的信息，从而不仅提高客户情感特征分析效率，也提高了客户情感特征分析准确率。

应该理解的是，虽然图2～图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2～图4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种客户稳定性的预测装置，包括：信息分析模块502、客户分析模块504和影响预测模块506，其中：

信息分析模块502，用于监测网络平台发布的多个目标信息；获取目标客户对应的客户数据；客户数据包括产品标识；基于目标信息计算产品标识对应的舆情指数。

客户分析模块504，用于统计目标客户在监控周期对目标信息的访问数据；根据客户数据确定目标客户的情感特征。

影响预测模块506，用于将舆情指数、访问数据以及情感特征输入预设的信息影响预测模型，输出目标客户的稳定性参数。

在一个实施例中，信息分析模块502还用于监测网络平台发布的原始信息；对原始信息进行分词处理，得到每个原始信息对应的信息标签；获取多个目标关键词，识别信息标签是否包含目标关键词；若是，将相应原始信息标记为目标信息。

在一个实施例中，信息分析模块502还用于对目标信息进行拆分，得到多个短文本；在短文本中提取产品标识，将产品标识与相应短文本关联；利用预设的舆情分析模型计算每个短文本对应的情感指数；确定多个短文本分别对应的影响力权重；根据相关联的短文本的情感指数和影响力权重，计算相应产品标识对应的舆情指数。

在一个实施例中，客户分析模块504还用于获取目标客户的标识字段，将标识字段发送至网络平台；接收网络平台根据标识字段返回的关联访问数据；在关联访问数据中提取信息访问字段、信息收藏字段及信息转发字段；基于信息访问字段、信息收藏字段及信息转发字段统计目标客户在监控周期的信息访问量、信息收藏量及信息转发量。

在一个实施例中，客户分析模块504还用于获取多个子模型，确定多个子模型分别对应的权值因子；根据多个子模型及分别对应的权值因子，生成第一模型；获取客户样本数据及相对应的情感标签；将客户样本数据输入第一模型，得到中间情感分析结果；计算中间情感分析结果与情感标签的差异，根据差异对第一模型进行调整，得到第二模型；将客户数据输入第二模型，输出目标客户的情感特征。

在一个实施例中，信息影响预测模型采用深度神经网络模型训练得到；影响预测模块506还用于对舆情指数、访问数据及情感特征预处理，得到客户特征矩阵；根据客户特征矩阵得到输入层节点序列；对输入层节点序列进行投影，得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层；获取当前处理隐层对应各个神经元节点的权重和偏差；根据当前处理隐层对应的隐层节点序列以及各个神经元节点的权重和偏差，采用非线性映射得到下一隐层的隐层节点序列；将下一隐层作为当前处理隐层进行迭代，直至输出层；获取输出层输出的目标客户对应的稳定性参数。

关于客户稳定性的预测装置的具体限定可以参见上文中对于客户稳定性的预测方法的限定，在此不再赘述。上述客户稳定性的预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储客户数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种客户稳定性的预测方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请任意一个实施例中提供的客户稳定性的预测方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种客户稳定性的预测方法，所述方法包括：

监测网络平台发布的多个目标信息；

获取目标客户对应的客户数据；所述客户数据包括产品标识；

基于所述目标信息计算所述产品标识对应的舆情指数；

统计目标客户在监控周期对目标信息的访问数据；

根据所述客户数据确定所述目标客户的情感特征，其中，所述情感特征用于表征客户易受社会舆论影响而产生情绪波动的程度的定量或定性的参数值；

对所述舆情指数、所述访问数据及所述情感特征预处理，得到客户特征矩阵；

根据所述客户特征矩阵得到输入层节点序列；

对所述输入层节点序列进行投影，得到第一隐层对应的隐层节点序列，将所述第一隐层作为当前处理隐层；

获取所述当前处理隐层对应各个神经元节点的权重和偏差；根据所述当前处理隐层对应的隐层节点序列以及各个神经元节点的权重和偏差，采用非线性映射得到下一隐层的隐层节点序列；

将下一隐层作为当前处理隐层进行迭代，直至输出层；获取所述输出层输出的所述目标客户对应的稳定性参数。

2.根据权利要求1所述的方法，其特征在于，所述监测网络平台发布的多个目标信息，包括：

监测网络平台发布的原始信息；

对所述原始信息进行分词处理，得到每个所述原始信息对应的信息标签；

获取多个目标关键词，识别所述信息标签是否包含所述目标关键词；

若是，将相应原始信息标记为目标信息。

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标信息计算所述产品标识对应的舆情指数，包括：

对所述目标信息进行拆分，得到多个短文本；

在所述短文本中提取产品标识，将所述产品标识与相应短文本关联；

利用预设的舆情分析模型计算每个所述短文本对应的情感指数；

确定多个所述短文本分别对应的影响力权重；

根据相关联的短文本的情感指数和影响力权重，计算相应产品标识对应的舆情指数。

4.根据权利要求1所述的方法，其特征在于，所述统计目标客户在监控周期对目标信息的访问数据，包括：

获取目标客户的标识字段，将所述标识字段发送至所述网络平台；

接收所述网络平台根据所述标识字段返回的关联访问数据；

在所述关联访问数据中提取信息访问字段、信息收藏字段及信息转发字段；

基于所述信息访问字段、信息收藏字段及信息转发字段统计所述目标客户在监控周期的信息访问量、信息收藏量及信息转发量。

5.根据权利要求1所述的方法，其特征在于，所述根据所述客户数据确定所述目标客户的情感特征，包括：

获取多个子模型，确定多个所述子模型分别对应的权值因子；

根据多个所述子模型及分别对应的权值因子，生成第一模型；

获取客户样本数据及相对应的情感标签；

将所述客户样本数据输入所述第一模型，得到中间情感分析结果；

计算所述中间情感分析结果与所述情感标签的差异，根据所述差异对所述第一模型进行调整，得到第二模型；

将所述客户数据输入所述第二模型，输出所述目标客户的情感特征。

6.一种客户稳定性的预测装置，其特征在于，所述装置包括：

信息分析模块，用于监测网络平台发布的多个目标信息；获取目标客户对应的客户数据；所述客户数据包括产品标识；基于所述目标信息计算所述产品标识对应的舆情指数；

客户分析模块，用于统计目标客户在监控周期对目标信息的访问数据；根据所述客户数据确定所述目标客户的情感特征，其中，所述情感特征用于表征客户易受社会舆论影响而产生情绪波动的程度的定量或定性的参数值；

影响预测模块，用于对所述舆情指数、所述访问数据及所述情感特征预处理，得到客户特征矩阵；根据所述客户特征矩阵得到输入层节点序列；对所述输入层节点序列进行投影，得到第一隐层对应的隐层节点序列，将所述第一隐层作为当前处理隐层；获取所述当前处理隐层对应各个神经元节点的权重和偏差；根据所述当前处理隐层对应的隐层节点序列以及各个神经元节点的权重和偏差，采用非线性映射得到下一隐层的隐层节点序列；将下一隐层作为当前处理隐层进行迭代，直至输出层；获取所述输出层输出的所述目标客户对应的稳定性参数。

7.根据权利要求6所述的装置，其特征在于，所述信息分析模块还用于监测网络平台发布的原始信息；对原始信息进行分词处理，得到每个原始信息对应的信息标签；获取多个目标关键词，识别信息标签是否包含目标关键词；若是，将相应原始信息标记为目标信息。

8.根据权利要求6所述的装置，其特征在于，所述信息分析模块还用于：

对所述目标信息进行拆分，得到多个短文本；在所述短文本中提取产品标识，将所述产品标识与相应短文本关联；利用预设的舆情分析模型计算每个所述短文本对应的情感指数；确定多个所述短文本分别对应的影响力权重；根据相关联的短文本的情感指数和影响力权重，计算相应产品标识对应的舆情指数。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。