CN113571198A

CN113571198A - 转化率预测方法、装置、设备及存储介质

Info

Publication number: CN113571198A
Application number: CN202111017260.6A
Authority: CN
Inventors: 黄祥博
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-10-29

Abstract

本发明涉及人工智能领域，公开了一种转化率预测方法、装置、设备及存储介质，该方法包括：获取历史项目挖掘数据集，对历史项目挖掘数据集进行数据预处理和类别划分得到样本数据后，根据数据类别对样本数据进行训练得到数据类别对应的转化率预测模型；获取待预测数据集，并根据数据类别输入对应的转化率预测模型中，得到对应的转化率；计算所有待预测数据的转化率的平均值，并将平均值作为待预测数据集的转化率预测结果；确定所有转化率中的最大转化率，并根据最大转化率对应的待预测数据和转化率预测结果生成预测报告。本方法基于决策树模型训练得到的转化率预测模型进行转化率预测，预测效果精确，综合考虑同一时间不同类型数据对转化率的影响。

Description

转化率预测方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种转化率预测方法、装置、设备及存储介质。

背景技术

针对目前医疗领域的信息化***建设已在全面开展，目前各个实体机构包括政府，医院，药店等相关***的建设进度各不相同。各个***研发的科技公司也在该领域持续竞争，如何更高效发现项目机会以及成功转换项目机会为项目合同成为各科技企业需要解决的问题。

当前对项目的挖掘主要依靠前端销售人员反复多次进行线下来挖掘，特别依赖销售人员的个人经验和软技能，但影响项目挖掘的因素又特别多，在这个过程中将项目机会转换成为项目合同的概率比较低，这就导致企业在项目挖掘上会支付大量成本，导致经营成本的上升。

发明内容

本发明的主要目的在于解决现有的项目挖掘影响因素多，导致项目挖掘中对项目的转化率的预测准确率低的技术问题。

本发明第一方面提供了一种转化率预测方法，包括：获取历史项目挖掘数据集，并对所述历史项目挖掘数据集进行分类处理，得到至少一类所述历史项目挖掘数据集中的历史项目挖掘数据对应的数据类别；对所述历史项目挖掘数据集中的历史项目挖掘数据进行数据预处理，将数据预处理后剩余的所有历史项目挖掘数据作为样本数据集；根据所述数据类别将对所述样本数据集进行类别划分，得到至少一组样本数据组，并将所述样本数据组随机均分为训练数据和测试数据；提取所述训练数据的至少一个数据特征，并对所述数据特征进行编码处理，得到特征向量；根据所述特征向量基于决策树模型结构训练得到模型参数训练结果，并用所述测试数据对所述模型参数训练结果进行测试，得到符合预设测试条件的模型参数测试结果，并将所述模型参数测试结果作为所述数据类别对应的转化率预测模型；获取待预测数据集和所述待预测数据集中的待预测数据对应的数据类别，并根据所述待预测数据对应的数据类别选择对应的转化率预测模型，将所述待预测数据输入对应的所述转化率预测模型中，得到对应的转化率；计算所有待预测数据的转化率的平均值，并将所述平均值作为所述待预测数据集的转化率预测结果；确定所有转化率中的最大转化率，并根据所述最大转化率对应的待预测数据和所述转化率预测结果生成预测报告。

可选的，在本发明第一方面的第一种实现方式中，所述对所述历史项目挖掘数据集中的历史项目挖掘数据进行数据预处理，将数据预处理后剩余的所有历史项目挖掘数据作为样本数据集包括：对所述历史项目挖掘数据进行分词处理，得到预测分词；对所有所述预测分词进行词权重计算，得到所述预测分词对应的第一词权重；根据预设的第二词权重和所述第一词权重，计算所述预测分词的标注分值；将所述标注分值最高的预测分词作为所述历史项目挖掘数据的标注分词；根据所述标注分词和预设的数据清洗规则，将所述历史项目挖掘数据进行数据清洗，将数据信息后剩余的历史项目挖掘数据作为样本数据集。

可选的，在本发明第一方面的第二种实现方式中，所述对所有所述预测分词进行词权重计算，得到所述预测分词对应的第一词权重包括：计算所述预测分词在所述历史项目挖掘数据集中的词频率；获取预设的所述预测分词的逆文档频率指数；将所述词频率乘以所述逆文档频率指数，得到所述预测分词的第一词权重。

可选的，在本发明第一方面的第三种实现方式中，所述提取所述训练数据的至少一个数据特征，并对所述数据特征进行编码处理，得到特征向量包括：获取所述训练数据的中的所有属性信息；抽取所述属性信息中与转化率预测相关的至少一个输入变量和至少一个目标变量；将所述至少一个输入变量和所述至少一个目标变量整理得到数据特征；对所述数据特征进行编码处理，得到特征向量。

可选的，在本发明第一方面的第四种实现方式中，所述根据所述特征向量基于决策树模型结构训练得到模型参数训练结果包括：基于决策树算法对输入的特征向量进行处理，得到所述训练数据的每个特征的第一信息增益比；将最大的第一信息增益比对应的特征作为决策树模型结构中每个节点的决策点；计算所述决策点中每个特征值的第二信息增益比，并将最大的第二增益比对应的特征值作为所述决策点进一步***的***点；基于所述决策点和所述***点对所述训练数据在所述节点进行划分；重复上述步骤，不断分类各个节点，延伸所述决策树模型结构的树层深度直至预设层数，得到模型参数训练结果。

可选的，在本发明第一方面的第五种实现方式中，所述基于决策树算法对输入的特征向量进行处理，得到所述训练数据的每个特征的第一信息增益比包括：根据信息增益算法，计算所述训练数据的整体熵，并计算所述训练数据中各特征的条件熵；根据所述整体熵和各特征的条件熵，计算所述样本数据集中各特征的信号增益值；计算所述样本数据集中各特征的惩罚因子，并将所述惩罚因子乘以对应的信息增益值，得到每个特征的第一信息增益比。

本发明第二方面提供了一种转化率预测装置，包括：获取模块，用于获取历史项目挖掘数据集，并对所述历史项目挖掘数据集进行分类处理，得到至少一类所述历史项目挖掘数据集中的历史项目挖掘数据对应的数据类别；预处理模块，用于对所述历史项目挖掘数据集中的历史项目挖掘数据进行数据预处理，将数据预处理后剩余的所有历史项目挖掘数据作为样本数据集；数据划分模块，用于根据所述数据类别将对所述样本数据集进行类别划分，得到至少一组样本数据组，并将所述样本数据组随机均分为训练数据和测试数据；特征提取模块，用于提取所述训练数据的至少一个数据特征，并对所述数据特征进行编码处理，得到特征向量；训练模块，用于根据所述特征向量基于决策树模型结构训练得到模型参数训练结果，并用所述测试数据对所述模型参数训练结果进行测试，得到符合预设测试条件的模型参数测试结果，并将所述模型参数测试结果作为所述数据类别对应的转化率预测模型；输入模块，用于获取待预测数据集和所述待预测数据集中的待预测数据对应的数据类别，并根据所述待预测数据对应的数据类别选择对应的转化率预测模型，将所述待预测数据输入对应的所述转化率预测模型中，得到对应的转化率；计算模块，用于计算所有待预测数据的转化率的平均值，并将所述平均值作为所述待预测数据集的转化率预测结果；报告生成模块，用于确定所有转化率中的最大转化率，并根据所述最大转化率对应的待预测数据和所述转化率预测结果生成预测报告。

可选的，在本发明第二方面的第一种实现方式中，所述预处理模块具体包括：分词单元，用于对所述历史项目挖掘数据进行分词处理，得到预测分词；权重计算单元，用于对所有所述预测分词进行词权重计算，得到所述预测分词对应的第一词权重；分值计算单元，用于根据预设的第二词权重和所述第一词权重，计算所述预测分词的标注分值；筛选单元，用于将所述标注分值最高的预测分词作为所述历史项目挖掘数据的标注分词；清洗单元，用于根据所述标注分词和预设的数据清洗规则，将所述历史项目挖掘数据进行数据清洗，将数据信息后剩余的历史项目挖掘数据作为样本数据集。

可选的，在本发明第二方面的第二种实现方式中，所述权重计算单元具体用于：计算所述预测分词在所述历史项目挖掘数据集中的词频率；获取预设的所述预测分词的逆文档频率指数；将所述词频率乘以所述逆文档频率指数，得到所述预测分词的第一词权重。

可选的，在本发明第二方面的第三种实现方式中，所述特征提取模块具体用于：获取所述训练数据的中的所有属性信息；抽取所述属性信息中与转化率预测相关的至少一个输入变量和至少一个目标变量；将所述至少一个输入变量和所述至少一个目标变量整理得到数据特征；对所述数据特征进行编码处理，得到特征向量。

可选的，在本发明第二方面的第四种实现方式中，所述训练模块具体用于：基于决策树算法对输入的特征向量进行处理，得到所述训练数据的每个特征的第一信息增益比；将最大的第一信息增益比对应的特征作为决策树模型结构中每个节点的决策点；计算所述决策点中每个特征值的第二信息增益比，并将最大的第二增益比对应的特征值作为所述决策点进一步***的***点；基于所述决策点和所述***点对所述训练数据在所述节点进行划分；重复上述步骤，不断分类各个节点，延伸所述决策树模型结构的树层深度直至预设层数，得到模型参数训练结果。

可选的，在本发明第二方面的第五种实现方式中，所述训练模块具体还用于：根据信息增益算法，计算所述训练数据的整体熵，并计算所述训练数据中各特征的条件熵；根据所述整体熵和各特征的条件熵，计算所述样本数据集中各特征的信号增益值；计算所述样本数据集中各特征的惩罚因子，并将所述惩罚因子乘以对应的信息增益值，得到每个特征的第一信息增益比。

本发明第三方面提供了一种转化率预测设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述转化率预测设备执行上述的转化率预测方法的步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的转化率预测方法的步骤。

本发明的技术方案中，获取历史项目挖掘数据集，对历史项目挖掘数据集进行数据预处理和类别划分得到样本数据后，根据数据类别对样本数据使用基于决策树模型的模型训练方法进行训练得到数据类别对应的转化率预测模型；获取待预测数据集，并根据数据类别输入对应的转化率预测模型中，得到对应的转化率；计算所有待预测数据的转化率的平均值，并将平均值作为待预测数据集的转化率预测结果；确定所有转化率中的最大转化率，并根据最大转化率对应的待预测数据和转化率预测结果生成预测报告。本方法将数据集按照不同的类型划分，并输入对于的模型中，得到对应的转化概率，并取平均值，综合考虑同一时间段不同类型的数据对转化率的影响，同时确定最大的转化率对应的待预测数据，能够让销售人员确定提高转化率的方向。

附图说明

图1为本发明实施例中转化率预测方法的第一个实施例示意图；

图2为本发明实施例中转化率预测方法的第二个实施例示意图；

图3为本发明实施例中转化率预测方法的第三个实施例示意图；

图4为本发明实施例中转化率预测方法的第四个实施例示意图；

图5为本发明实施例中转化率预测装置的一个实施例示意图；

图6为本发明实施例中转化率预测装置的另一个实施例示意图；

图7为本发明实施例中转化率预测设备的一个实施例示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中转化率预测方法的第一个实施例包括：

101、获取历史项目挖掘数据集，并对历史项目挖掘数据集进行分类处理，得到至少一类历史项目挖掘数据集中的历史项目挖掘数据对应的数据类别；

可以理解的是，本发明的执行主体可以为转化率预测装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在本实施例中，通过线上以及线下综合采集所需要进行转化率预测的领域的各项数据，以医疗和医保领域为例，将采集到的数据作为项目挖掘数据，主要分为五类，包括客户拜访反馈，网络采集，政府规划，当地需求情况，当前政策趋势解读，其中客户拜访反馈、政府规划、当地需求情况和当前政策解读主要是通过前端销售人员进行获取梳理，网络采集主要通过爬虫技术，从输入的待获取网址中爬取数据，***在获取到数据后，通过文本分析，获得各自的预算，重要程度，***的服务群体数量，目前的现状，急需要解决的问题等数据作为项目挖掘数据，将这些项目挖掘数据进行存储，并标注上是否成功进行项目合同的转换的标注，即得到历史项目挖掘数据。

102、对历史项目挖掘数据集中的历史项目挖掘数据进行数据预处理，将数据预处理后剩余的所有历史项目挖掘数据作为样本数据集；.

在本实施例中，由于采集的历史项目挖掘数据的数据量大、范围广、种类多，需要进行数据清洗，从本质上讲，机器学习算法就是从大量的数据集中通过计算得到某些经验，进而判定某些数据的正常与否，在实际应用中，通过项目挖掘数据挖掘，能够成功进行项目合同的转换的情况是少数的，多数情况是项目合同的转换失败，存在数据倾斜现象，同时，对于部分保存时间较久的数据，例如十年前的政策规划数据，可能已经不存在参考价值，对于超过预设保存年限的数据，也进行清洗，通过设置规则集过规则引擎的逻辑完成数据筛选清洗。

103、根据数据类别将对样本数据集进行类别划分，得到至少一组样本数据组，并将样本数据组随机均分为训练数据和测试数据；

在实际应用中，决策树模型训练中，一般会有两种模型测试的方法，一种是将训练集中的数据分成两部分，将一部分数据用来做训练生成决策树(即训练集)，一部分数据用来做测试(及测试集)，其中，一般在测试集中选择测试例；另一种方法是采用n一折交叉验证法，将训练集中的数据分为n折，若将数据分为10份，取其中9份用来做训练生成决策树，剩下的一份用来做测试，作为测试例进行测试，直到将10份数据全都作为测试例分别进行测试，才能完成整个测试过程。

104、提取训练数据的至少一个数据特征，并对数据特征进行编码处理，得到特征向量；

在本实施例中，将样本数据分为训练数据和测试数据后，使用训练数据用于训练初始的决策树模型，需要提取训练数据的特征并编码成特征向量，训练数据的属性信息包括输入变量和目标变量，对客户拜访反馈的内容进行特征提取，提取的结果为，当前慢病管理***维护成本高，操作流程繁琐，***不稳定，患者和医院操作不便利，医院改造该***的影响面广，时间长，成功转换成项目，其中成本，影响面、***稳定性、操作便捷度、信息时效等为输入变量，目标变量为能否成功转成项目，为了方便处理数据，可以对数据进行离散编码转换，将文本转成数字格式，例如获取的到的训练数据的特征包括用户数量、***健壮度、信息时效、成本、影响面为特征，将数据进行离散编码处理，例如用户数量持续增长对应2，不确定增长对应1，不确定对应0；***健壮性高对应2，一般对应1，不知道对应0，差对应-1；信息时效性差对应-1，不知道对应0，可以接收对应1；成本高对应2，成本不知道对应0；影响面高对应2；影响面低对应1，其中，表征用户数量的特征向量为(2，1，0，2……)，表征***健壮度的特征向量为(-1，2，1，0)等等。

105、根据特征向量基于决策树模型结构训练得到模型参数训练结果，并用测试数据对模型参数训练结果进行测试，得到符合预设测试条件的模型参数测试结果，并将模型参数测试结果作为数据类别对应的转化率预测模型；

在本实施例中，在实际应用中，构建决策树有多种算法，包括ID3算法和C4.5算法，在本实施例中，使用C4.5算法，通过计算特征的信息增益比的方式选择决策树的决策点。

在本实施例中，在采用训练数据生成决策树预测模型后，再用测试数据对模型进行校核与验证，若模型准确率不高，则可以通过试错法调节相关参数提高模型的预测精度。其中，可以调节的参数包括：分类所需的最小数量的节点数，一个分支所需要的最少样本数，最小的权重系数，最大叶节点数等。参数调整后再次进行模型的校核和验证，最终通过校验和验证的决策树预测模型即为转化率预测模型。

106、获取待预测数据集和待预测数据集中的待预测数据对应的数据类别，并根据待预测数据对应的数据类别选择对应的转化率预测模型，将待预测数据输入对应的转化率预测模型中，得到对应的转化率；

在本实施例中，由于项目挖掘的结果依赖的环境数据，政策变化等的影响比较直接，所以对项目挖掘的预估需要实时根据以上数据变化来预估，当上述数据有变化，并被重新采集后，会重新作为采集数据样本进入到模型中，将获取的待预测数据实时输入转化率预测模型中得到预测结果后，如果得到的预测结果为项目挖掘的转换成功，则可以根据该待预测数据进行项目挖掘的进一步部署，将项目挖掘的转换实现。

107、计算所有待预测数据的转化率的平均值，并将平均值作为待预测数据集的转化率预测结果；

在本实施例中，待预测数据集中包括多种数据类型的待预测数据，如客户拜访反馈，网络采集，政府规划，当地需求情况，当前政策趋势解读等，将同一时间点同一区域的待预测数据采集后作为一个待预测数据集，例如对某市在某一时间段内当地的政策、客户拜访反馈、政府规划等数据。

在本实施例中，将同一待预测数据集的所有转化率取平均值，能够将综合考虑同一时间段不同类型的数据对转化率的影响。

108、确定所有转化率中的最大转化率，并根据最大转化率对应的待预测数据和转化率预测结果生成预测报告。

在本实施例中，待预测数据输入模型后得到的所有转化率中的最大转化率显然是最能够提高转化率预测结果的，转化率预测结果能够让销售人员对当前地区的工作能否进行转化有一个初步的评估，而最大转化率能够让销售人员根据最大转化率对应的待预测数据确定销售策略的方向，例如最大转化率对应的待预测数据的数据类型为政府规划，则销售人员下一步需要重点研读当地的政府规划，对当前的销售策略进行调整，根据所述最大转化率对应的待预测数据和所述转化率预测结果生成预测报告，销售人员通过查看预测报告即可对当前销售工作和未来的销售工作进行研判和预测。

在本实施例中，获取历史项目挖掘数据集，对历史项目挖掘数据集进行数据预处理和类别划分得到样本数据后，根据数据类别对样本数据使用基于决策树模型的模型训练方法进行训练得到数据类别对应的转化率预测模型；获取待预测数据集，并根据数据类别输入对应的转化率预测模型中，得到对应的转化率；计算所有待预测数据的转化率的平均值，并将平均值作为待预测数据集的转化率预测结果；确定所有转化率中的最大转化率，并根据最大转化率对应的待预测数据和转化率预测结果生成预测报告。本方法将数据集按照不同的类型划分，并输入对于的模型中，得到对应的转化概率，并取平均值，综合考虑同一时间段不同类型的数据对转化率的影响，同时确定最大的转化率对应的待预测数据，能够让销售人员确定提高转化率的方向。

请参阅图2，本发明实施例中转化率预测方法的第二个实施例包括：

201、获取历史项目挖掘数据集，并对历史项目挖掘数据集进行分类处理，得到至少一类历史项目挖掘数据集中的历史项目挖掘数据对应的数据类别；

202、对历史项目挖掘数据进行分词处理，得到预测分词；

在本实施例中，主要是通过结巴分词法对所述历史项目挖掘数据的文本进行分词处理，结巴分词法为Python的结巴分词模块，该方法支持精确模式、全模式和搜索引擎模式三种分词模式。本发明采用具有词性标注功能的精确分词模式，在分词后，还可以删除其中预设的停用词，通过分词处理以及词性标注，对其中的形容词、副词、介词和动词进行删除。本发明所述的停用词库可以是根据词性构建，例如数词、量词、代词、副词、介词、连词、助词、拟声词和标点的数据，在前面进行分词的过程中，通过结巴分词法的精确模式，可以对所述口语文本进行词性标注，可直接基于词性标注进行上述词性的清除，同时根据不同需求可以增加停用词库的停用词数量，将分词并删除停用词后剩余的分词作为预测分词。

203、计算预测分词在历史项目挖掘数据集中的词频率；

在本实施例中，通过TF-IDF(term frequency–inverse document frequency，频率与逆文档频率指数)算法计算第一词权重，第二词权重主要是通过人工进行设置，***根据不同的分类，设置不同分类对应分词的选择规则，比如在政策规划大类上，出现“医保***建设”，“医保基金”，“控费”等分词，根据业务场景对分词进行权重打分，该权重在***中通过业务管理员进行配置，通过两个权重计算标注分值，将标注分值最高的分词代表一个标注特征，对历史项目挖掘数据进行标注。

204、获取预设的预测分词的逆文档频率指数；

205、将词频率乘以逆文档频率指数，得到预测分词的第一词权重；

在本实施例中，预处理还包括计算预测分词的词权重，所述词权重算法为TF-IDF(term frequency–inverse document frequency，频率与逆文档频率指数)算法，主要通过两部分组成，分别为TF和IDF，其中，TF指的是某一个给定的词语在该文件中出现的次数，也就是词频这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件，IDF为逆向文件频率，应用到的是TF-IDF(term frequency–inverse documentfrequency，频率与逆文档频率指数)，主要思想是：如果某个词在一篇文档中出现的频率高(即TF高)，并且在语料库中其他文档中很少出现(即IDF高)，则认为这个词具有很好的类别区分能力，主要计算词频和逆文档频率指数的乘积，所述词频的计算公式为：

或者为：

所述逆文档频率指数需要事先构建一个语料库，所述语料库中包括了多条历史项目挖掘数据，逆文档频率指数的计算公式为：

将两者的计算结果相乘，得到的即为预测分词的第一词权重。

206、根据预设的第二词权重和第一词权重，计算预测分词的标注分值；

207、将标注分值最高的预测分词作为历史项目挖掘数据的标注分词；

208、根据标注分词和预设的数据清洗规则，将历史项目挖掘数据进行数据清洗，将数据信息后剩余的历史项目挖掘数据作为样本数据集；

在本实施例中，通过标注分词对项目挖掘数据进行标注后，由于标注分词是历史项目挖掘数据中词权重最大的，能够代表历史项目挖掘数据，故能够通过查询标注分词判断历史项目挖掘数据的内容是否符合要求，并且，对于部分保存时间较久的数据，例如十年前的政策规划数据，可能已经不存在参考价值，对于超过预设保存年限的数据，也进行清洗，通过设置规则集过规则引擎的逻辑完成数据筛选清洗。

209、根据数据类别将对样本数据集进行类别划分，得到至少一组样本数据组，并将样本数据组随机均分为训练数据和测试数据；

210、提取训练数据的至少一个数据特征，并对数据特征进行编码处理，得到特征向量；

211、根据特征向量基于决策树模型结构训练得到模型参数训练结果，并用测试数据对模型参数训练结果进行测试，得到符合预设测试条件的模型参数测试结果，并将模型参数测试结果作为数据类别对应的转化率预测模型；

212、获取待预测数据集和待预测数据集中的待预测数据对应的数据类别，并根据待预测数据对应的数据类别选择对应的转化率预测模型，将待预测数据输入对应的转化率预测模型中，得到对应的转化率；

213、待预测数据的转化率的平均值，并将平均值作为待预测数据集的转化率预测结果；

214、转化率中的最大转化率，并根据最大转化率对应的待预测数据和转化率预测结果生成预测报告。

上一实施例的基础上，详细描述了数据预处理的过程，通过对历史项目挖掘数据进行分词处理，得到预测分词；对所有预测分词进行词权重计算，得到预测分词对应的第一词权重；根据预设的第二词权重和第一词权重，计算预测分词的标注分值；将标注分值最高的预测分词作为历史项目挖掘数据的标注分词；根据标注分词和预设的数据清洗规则，将历史项目挖掘数据进行数据清洗，将数据信息后剩余的历史项目挖掘数据作为样本数据集。本实施例通过分词和计算词权重的方式对项目挖掘数据进行数据预处理，能够提高模型训练的精度和效率。

请参阅图3，本发明实施例中转化率预测方法的第三个实施例包括：

301、获取历史项目挖掘数据集，并对历史项目挖掘数据集进行分类处理，得到至少一类历史项目挖掘数据集中的历史项目挖掘数据对应的数据类别；

302、对历史项目挖掘数据集中的历史项目挖掘数据进行数据预处理，将数据预处理后剩余的所有历史项目挖掘数据作为样本数据集；

303、根据数据类别将对样本数据集进行类别划分，得到至少一组样本数据组，并将样本数据组随机均分为训练数据和测试数据；

304、获取训练数据的中的所有属性信息；

305、抽取属性信息中与转化率预测相关的至少一个输入变量和至少一个目标变量；

306、将至少一个输入变量和至少一个目标变量整理得到数据特征；

307、对数据特征进行编码处理，得到特征向量；

在本实施例中，训练数据的属性信息包括输入变量和目标变量，对客户拜访反馈的内容进行特征提取，提取的结果为，当前慢病管理***维护成本高，操作流程繁琐，***不稳定，患者和医院操作不便利，医院改造该***的影响面广，时间长，成功转换成项目合同，其中成本，影响面、***稳定性、操作便捷度、信息时效等为输入变量，目标变量为能否成功转成项目合同，为了方便处理数据，可以对数据进行离散转换，将文本转成数字格式，例如用户数量、***健壮度、信息时效、成本、影响面为特征，将数据进行离散编码处理，例如用户数量持续增长对应2，不确定增长对应1，不确定对应0；***健壮性高对应2，一般对应1，不知道对应0，差对应-1；信息时效性差对应-1，不知道对应0，可以接收对应1；成本高对应2，成本不知道对应0；影响面高对应2；影响面低对应1；最终处理后的样本，放到一个矩阵中。

308、根据特征向量基于决策树模型结构训练得到模型参数训练结果，并用测试数据对模型参数训练结果进行测试，得到符合预设测试条件的模型参数测试结果，并将模型参数测试结果作为数据类别对应的转化率预测模型；

309、获取待预测数据集和待预测数据集中的待预测数据对应的数据类别，并根据待预测数据对应的数据类别选择对应的转化率预测模型，将待预测数据输入对应的转化率预测模型中，得到对应的转化率；

310、计算所有待预测数据的转化率的平均值，并将平均值作为待预测数据集的转化率预测结果；

311、确定所有转化率中的最大转化率，并根据最大转化率对应的待预测数据和转化率预测结果生成预测报告。

本实施例在前实施例的基础上，详细描述了提取所述训练数据的至少一个数据特征，并对所述数据特征进行编码处理，得到特征向量的过程，通过获取所述训练数据的中的所有属性信息；抽取所述属性信息中与转化率预测相关的至少一个输入变量和至少一个目标变量；将所述至少一个输入变量和所述至少一个目标变量整理得到数据特征；对所述数据特征进行编码处理，得到特征向量。本方法通过抽取所述属性信息中与转化率预测相关的变量，能够提高模型训练的精度和效率。

请参阅图4，本发明实施例中转化率预测方法的第四个实施例包括：

401、获取历史项目挖掘数据集，并对历史项目挖掘数据集进行分类处理，得到至少一类历史项目挖掘数据集中的历史项目挖掘数据对应的数据类别；

402、对历史项目挖掘数据集中的历史项目挖掘数据进行数据预处理，将数据预处理后剩余的所有历史项目挖掘数据作为样本数据集；

403、根据数据类别将对样本数据集进行类别划分，得到至少一组样本数据组，并将样本数据组随机均分为训练数据和测试数据；

404、提取训练数据的至少一个数据特征，并对数据特征进行编码处理，得到特征向量；

405、基于决策树算法对输入的特征向量进行处理，得到训练数据的每个特征的第一信息增益比；

基于决策树算法对输入的特征向量进行处理，得到所述训练数据的每个特征的第一信息增益比包括根据信息增益算法，计算所述训练数据的整体熵，并计算所述训练数据中各特征的条件熵；

在本实施例中，每各特征的信息增益值为每各特征的整体熵与条件整体熵的差值。对于数据集，设S(s₁，s₂，...，s_n)为n个实例的集合，s(A₁，A₂，...，A_Z)为含有Z各特征的实例，Z表示特征的总数，C(c₁，c₂，...，c_m)为m个类标签的集合。其中：以特征A_Z为例，z＝1，2...，Z，样本特征集的整体熵H(C)的计算公式如下：

特征的条件熵H(C|A_Z)的计算公式如下：

其中，a_j是特征A_Z的值，p(a_j)表示类标签c_i的先验概率，p(c_i|a_j)表示a_j固定后类标签c_i的条件概率，k表示特征A_Z中值的个数，m表示类标签的总数，p(c_i)表示类标签ci在数据集中的比例。

根据所述整体熵和各特征的条件熵，计算所述样本数据集中各特征的信号增益值；

在本实施例中，将整体熵减去条件熵，则得到对应特征的信息增益值，计算公式如下：

IG(A_Z)＝H(C)-H(C|A_Z)

其中，IG(A_Z)代表特征A_Z的信息增益值。

计算所述样本数据集中各特征的惩罚因子，并将所述惩罚因子乘以对应的信息增益值，得到每个特征的第一信息增益比。

在实际应用中，构建决策树有多种算法，包括ID3算法和C4.5算法，在本实施例中，使用C4.5算法，C4.5算法与ID3算法的区别在于计算出信息增益值后还需要计算出特征的信息增益比，其中，信息增益比＝惩罚因子*信息增益值，其中，惩罚因子的计算公式为：

406、将最大的第一信息增益比对应的特征作为决策树模型结构中每个节点的决策点；

407、计算决策点中每个特征值的第二信息增益比，并将最大的第二增益比对应的特征值作为决策点进一步***的***点；

408、基于决策点和***点对训练数据在节点进行划分；

409、重复上述步骤，不断分类各个节点，延伸决策树模型结构的树层深度直至预设层数，得到模型参数训练结果；

在实际应用中，构建决策树有多种算法，包括ID3算法和C4.5算法，在本实施例中，使用C4.5算法，通过计算特征的信息增益比的方式选择决策树的决策点，通过不断增大决策树层尝试可以提高预测模型分类的准确率，然而决策树层数尝试增加到一定程度后准确率的提升不再明显，而且，过深的层数也使得模型庞大，模型复杂且易导致模型预测过拟合。因此，需要对决策树进行剪枝，确定决策树预测模型的最佳层数。

410、用测试数据对模型参数训练结果进行测试，得到符合预设测试条件的模型参数测试结果，并将模型参数测试结果作为数据类别对应的转化率预测模型；

411、获取待预测数据集和待预测数据集中的待预测数据对应的数据类别，并根据待预测数据对应的数据类别选择对应的转化率预测模型，将待预测数据输入对应的转化率预测模型中，得到对应的转化率；

412、计算所有待预测数据的转化率的平均值，并将平均值作为待预测数据集的转化率预测结果；

413、确定所有转化率中的最大转化率，并根据最大转化率对应的待预测数据和转化率预测结果生成预测报告。

本实施例在前实施例的基础上，详细描述了模型训练的过程，基于决策树算法对输入的特征向量进行处理，得到所述训练数据的每个特征的第一信息增益比；将最大的第一信息增益比对应的特征作为决策树模型结构中每个节点的决策点；计算所述决策点中每个特征值的第二信息增益比，并将最大的第二增益比对应的特征值作为所述决策点进一步***的***点；基于所述决策点和所述***点对所述训练数据在所述节点进行划分；重复上述步骤，不断分类各个节点，延伸所述决策树模型结构的树层深度直至预设层数，得到模型参数训练结果。本实施例使用决策树模型结构生成模型，能够准确预测转化率。

上面对本发明实施例中转化率预测方法进行了描述，下面对本发明实施例中转化率预测装置进行描述，请参阅图5，本发明实施例中转化率预测装置一个实施例包括：

获取模块501，用于获取历史项目挖掘数据集，并对所述历史项目挖掘数据集进行分类处理，得到至少一类所述历史项目挖掘数据集中的历史项目挖掘数据对应的数据类别；

预处理模块502，用于对所述历史项目挖掘数据集中的历史项目挖掘数据进行数据预处理，将数据预处理后剩余的所有历史项目挖掘数据作为样本数据集；

数据划分模块503，用于根据所述数据类别将对所述样本数据集进行类别划分，得到至少一组样本数据组，并将所述样本数据组随机均分为训练数据和测试数据；

特征提取模块504，用于提取所述训练数据的至少一个数据特征，并对所述数据特征进行编码处理，得到特征向量；

训练模块505，用于根据所述特征向量基于决策树模型结构训练得到模型参数训练结果，并用所述测试数据对所述模型参数训练结果进行测试，得到符合预设测试条件的模型参数测试结果，并将所述模型参数测试结果作为所述数据类别对应的转化率预测模型；

输入模块506，用于获取待预测数据集和所述待预测数据集中的待预测数据对应的数据类别，并根据所述待预测数据对应的数据类别选择对应的转化率预测模型，将所述待预测数据输入对应的所述转化率预测模型中，得到对应的转化率；

计算模块507，用于计算所有待预测数据的转化率的平均值，并将所述平均值作为所述待预测数据集的转化率预测结果；

报告生成模块508，用于确定所有转化率中的最大转化率，并根据所述最大转化率对应的待预测数据和所述转化率预测结果生成预测报告。

本发明实施例中，所述转化率预测装置运行上述转化率预测方法，所述转化率预测装置通过获取历史项目挖掘数据集，对历史项目挖掘数据集进行数据预处理和类别划分得到样本数据后，根据数据类别对样本数据使用基于决策树模型的模型训练方法进行训练得到数据类别对应的转化率预测模型；获取待预测数据集，并根据数据类别输入对应的转化率预测模型中，得到对应的转化率；计算所有待预测数据的转化率的平均值，并将平均值作为待预测数据集的转化率预测结果；确定所有转化率中的最大转化率，并根据最大转化率对应的待预测数据和转化率预测结果生成预测报告。本方法将数据集按照不同的类型划分，并输入对于的模型中，得到对应的转化概率，并取平均值，综合考虑同一时间段不同类型的数据对转化率的影响，同时确定最大的转化率对应的待预测数据，能够让销售人员确定提高转化率的方向。

请参阅图5，本发明实施例中转化率预测装置的第二个实施例包括：

在本实施例中，所述预处理模块502具体包括：分词单元5021，用于对所述历史项目挖掘数据进行分词处理，得到预测分词；权重计算单元5022，用于对所有所述预测分词进行词权重计算，得到所述预测分词对应的第一词权重；分值计算单元5023，用于根据预设的第二词权重和所述第一词权重，计算所述预测分词的标注分值；筛选单元5024，用于将所述标注分值最高的预测分词作为所述历史项目挖掘数据的标注分词；清洗单元5025，用于根据所述标注分词和预设的数据清洗规则，将所述历史项目挖掘数据进行数据清洗，将数据信息后剩余的历史项目挖掘数据作为样本数据集。

在本实施例中，所述权重计算单元5022具体用于：计算所述预测分词在所述历史项目挖掘数据集中的词频率；获取预设的所述预测分词的逆文档频率指数；将所述词频率乘以所述逆文档频率指数，得到所述预测分词的第一词权重。

在本实施例中，所述特征提取模块504具体用于：获取所述训练数据的中的所有属性信息；抽取所述属性信息中与转化率预测相关的至少一个输入变量和至少一个目标变量；将所述至少一个输入变量和所述至少一个目标变量整理得到数据特征；对所述数据特征进行编码处理，得到特征向量。

在本实施例中，所述训练模块505具体用于：基于决策树算法对输入的特征向量进行处理，得到所述训练数据的每个特征的第一信息增益比；将最大的第一信息增益比对应的特征作为决策树模型结构中每个节点的决策点；计算所述决策点中每个特征值的第二信息增益比，并将最大的第二增益比对应的特征值作为所述决策点进一步***的***点；基于所述决策点和所述***点对所述训练数据在所述节点进行划分；重复上述步骤，不断分类各个节点，延伸所述决策树模型结构的树层深度直至预设层数，得到模型参数训练结果。

在本实施例中，所述训练模块具体505还用于：根据信息增益算法，计算所述训练数据的整体熵，并计算所述训练数据中各特征的条件熵；根据所述整体熵和各特征的条件熵，计算所述样本数据集中各特征的信号增益值；计算所述样本数据集中各特征的惩罚因子，并将所述惩罚因子乘以对应的信息增益值，得到每个特征的第一信息增益比。

本实施例在上一实施例的基础上，详细描述了各个模块的具体功能以及部分模块的单元构成，通过新增的模块，将数据集按照不同的类型划分，并输入对于的模型中，得到对应的转化概率，并取平均值，综合考虑同一时间段不同类型的数据对转化率的影响，同时确定最大的转化率对应的待预测数据，能够让销售人员确定提高转化率的方向。

上面图5和图6从模块化功能实体的角度对本发明实施例中的中转化率预测装置进行详细描述，下面从硬件处理的角度对本发明实施例中转化率预测设备进行详细描述。

图7是本发明实施例提供的一种转化率预测设备的结构示意图，该转化率预测设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)710(例如，一个或一个以上处理器)和存储器720，一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对转化率预测设备700中的一系列指令操作。更进一步地，处理器710可以设置为与存储介质730通信，在转化率预测设备700上执行存储介质730中的一系列指令操作，以实现上述转化率预测方法的步骤。

转化率预测设备700还可以包括一个或一个以上电源740，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口760，和/或，一个或一个以上操作***731，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图7示出的转化率预测设备结构并不构成对本申请提供的转化率预测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述转化率预测方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种转化率预测方法，其特征在于，所述转化率预测方法包括：

获取历史项目挖掘数据集，并对所述历史项目挖掘数据集进行分类处理，得到至少一类所述历史项目挖掘数据集中的历史项目挖掘数据对应的数据类别；

对所述历史项目挖掘数据集中的历史项目挖掘数据进行数据预处理，将数据预处理后剩余的所有历史项目挖掘数据作为样本数据集；

根据所述数据类别将对所述样本数据集进行类别划分，得到至少一组样本数据组，并将所述样本数据组随机均分为训练数据和测试数据；

提取所述训练数据的至少一个数据特征，并对所述数据特征进行编码处理，得到特征向量；

根据所述特征向量基于决策树模型结构训练得到模型参数训练结果，并用所述测试数据对所述模型参数训练结果进行测试，得到符合预设测试条件的模型参数测试结果，并将所述模型参数测试结果作为所述数据类别对应的转化率预测模型；

获取待预测数据集和所述待预测数据集中的待预测数据对应的数据类别，并根据所述待预测数据对应的数据类别选择对应的转化率预测模型，将所述待预测数据输入对应的所述转化率预测模型中，得到对应的转化率；

计算所有待预测数据的转化率的平均值，并将所述平均值作为所述待预测数据集的转化率预测结果；

确定所有转化率中的最大转化率，并根据所述最大转化率对应的待预测数据和所述转化率预测结果生成预测报告。

2.根据权利要求1所述的转化率预测方法，其特征在于，所述对所述历史项目挖掘数据集中的历史项目挖掘数据进行数据预处理，将数据预处理后剩余的所有历史项目挖掘数据作为样本数据集包括：

对所述历史项目挖掘数据进行分词处理，得到预测分词；

对所有所述预测分词进行词权重计算，得到所述预测分词对应的第一词权重；

根据预设的第二词权重和所述第一词权重，计算所述预测分词的标注分值；

将所述标注分值最高的预测分词作为所述历史项目挖掘数据的标注分词；

根据所述标注分词和预设的数据清洗规则，将所述历史项目挖掘数据进行数据清洗，将数据信息后剩余的历史项目挖掘数据作为样本数据集。

3.根据权利要求2所述的转化率预测方法，其特征在于，所述对所有所述预测分词进行词权重计算，得到所述预测分词对应的第一词权重包括：

计算所述预测分词在所述历史项目挖掘数据集中的词频率；

获取预设的所述预测分词的逆文档频率指数；

将所述词频率乘以所述逆文档频率指数，得到所述预测分词的第一词权重。

4.根据权利要求1所述的转化率预测方法，其特征在于，所述提取所述训练数据的至少一个数据特征，并对所述数据特征进行编码处理，得到特征向量包括：

获取所述训练数据的中的所有属性信息；

抽取所述属性信息中与转化率预测相关的至少一个输入变量和至少一个目标变量；

将所述至少一个输入变量和所述至少一个目标变量整理得到数据特征；

对所述数据特征进行编码处理，得到特征向量。

5.根据权利要求4所述的转化率预测方法，其特征在于，所述根据所述特征向量基于决策树模型结构训练得到模型参数训练结果包括：

基于决策树算法对输入的特征向量进行处理，得到所述训练数据的每个特征的第一信息增益比；

将最大的第一信息增益比对应的特征作为决策树模型结构中每个节点的决策点；

计算所述决策点中每个特征值的第二信息增益比，并将最大的第二增益比对应的特征值作为所述决策点进一步***的***点；

基于所述决策点和所述***点对所述训练数据在所述节点进行划分；

重复上述步骤，不断分类各个节点，延伸所述决策树模型结构的树层深度直至预设层数，得到模型参数训练结果。

6.根据权利要求5所述的转化率预测方法，其特征在于，所述基于决策树算法对输入的特征向量进行处理，得到所述训练数据的每个特征的第一信息增益比包括：

根据信息增益算法，计算所述训练数据的整体熵，并计算所述训练数据中各特征的条件熵；

7.一种转化率预测装置，其特征在于，所述转化率预测装置包括：

获取模块，用于获取历史项目挖掘数据集，并对所述历史项目挖掘数据集进行分类处理，得到至少一类所述历史项目挖掘数据集中的历史项目挖掘数据对应的数据类别；

预处理模块，用于对所述历史项目挖掘数据集中的历史项目挖掘数据进行数据预处理，将数据预处理后剩余的所有历史项目挖掘数据作为样本数据集；

数据划分模块，用于根据所述数据类别将对所述样本数据集进行类别划分，得到至少一组样本数据组，并将所述样本数据组随机均分为训练数据和测试数据；

特征提取模块，用于提取所述训练数据的至少一个数据特征，并对所述数据特征进行编码处理，得到特征向量；

训练模块，用于根据所述特征向量基于决策树模型结构训练得到模型参数训练结果，并用所述测试数据对所述模型参数训练结果进行测试，得到符合预设测试条件的模型参数测试结果，并将所述模型参数测试结果作为所述数据类别对应的转化率预测模型；

输入模块，用于获取待预测数据集和所述待预测数据集中的待预测数据对应的数据类别，并根据所述待预测数据对应的数据类别选择对应的转化率预测模型，将所述待预测数据输入对应的所述转化率预测模型中，得到对应的转化率；

计算模块，用于计算所有待预测数据的转化率的平均值，并将所述平均值作为所述待预测数据集的转化率预测结果；

报告生成模块，用于确定所有转化率中的最大转化率，并根据所述最大转化率对应的待预测数据和所述转化率预测结果生成预测报告。

8.根据权利要求7所述的转化率预测装置，其特征在于，所述预处理模块具体用于：

对所述历史项目挖掘数据进行分词处理，得到预测分词；

9.一种转化率预测设备，其特征在于，所述转化率预测设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述转化率预测设备执行如权利要求1-6中任一项所述的转化率预测方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的转化率预测方法的步骤。