CN111126614A

CN111126614A - 归因方法、装置及存储介质

Info

Publication number: CN111126614A
Application number: CN201811293288.0A
Authority: CN
Inventors: 王晓元; 叶峻; 沈璠; 周振宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2020-05-08
Anticipated expiration: 2038-11-01
Also published as: CN111126614B

Abstract

本发明提供一种归因方法、装置及存储介质。该方法包括：确定目标渠道的标识；将所述目标渠道的标识输入至机器学习模型，得到所述目标渠道的特征权重，所述特征权重用于表示所述目标渠道的归因结果；其中，所述机器学习模型为根据目标时长范围内未转化路径以及转化路径中的渠道进行训练得到的模型。本发明提高了归因结果的准确性。

Description

归因方法、装置及存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种归因方法、装置及存储介质。

背景技术

在信息投放领域，信息通常可以通过多种渠道进行投放。

现有技术中，通过多种渠道对信息进行投放时，需要确定不同投放渠道的归因结果，即不同投放渠道对于信息的转化的贡献程度。这里，转化例如可以为下载、咨询、购买等。目前，在确定多种渠道中各渠道的归因结果时，只考虑发生了转化的用户浏览路径(即，转化路径)道，而未考虑未发生转化的用户浏览路径(即，未转化路径)。

因此，现有技术中，存在归因结果不准确的问题。

发明内容

本发明实施例提供一种归因方法、装置及存储介质，用以解决现有技术中归因结果不准确的问题。

第一方面，本发明提供一种归因方法，包括：

确定目标渠道的标识；

将所述目标渠道的标识输入至机器学习模型，得到所述目标渠道的特征权重，所述特征权重用于表示所述目标渠道的归因结果；

其中，所述机器学习模型为根据目标时长范围内未转化路径以及转化路径中的渠道进行训练得到的模型。

在一种可能的实现中，所述方法还包括：根据所述目标时长范围内未转化路径中的渠道确定训练集合中的负例，并根据所述目标时长范围内转化路径中的渠道确定训练集合中的正例；

根据所述训练集合对机器学习模型进行训练。

在一种可能的实现中，所述根据所述目标时长范围内未转化路径中的渠道确定训练集合中的负例，包括：

随机抽取所述目标时长范围内未转化路径中特定数量的渠道作为所述训练集合中的负例。

在一种可能的实现中，所述特定数量为预设的数量，或者，所述特定数量根据所述正例中的渠道总数确定。

在一种可能的实现中，所述随机抽取所述目标时长范围内未转化路径中特定数量的渠道作为所述训练集合中的负例，包括：

随机抽取所述目标时长范围内所有未转化路径的最后一个渠道中特定数量的渠道作为所述训练集合的负例。

所述根据所述目标时长范围内转化路径中的渠道确定训练集合中的正例，包括：

将所述目标时长范围内所有转化路径的最后一个渠道均作为所述训练集合的正例。

随机抽取所述目标时长范围内所有未转化路径的全部渠道中特定数量的渠道作为所述训练集合的负例。

所述根据所述目标时长范围内转化路径中的渠道确定所述训练集合中的正例，包括：

将所述目标时长范围内所有转化路径的全部渠道均作为所述训练集合的正例。

在一种可能的实现中，所述方法还包括：

根据特征权重的数值范围与归因结果的数值范围的关系，对所述目标渠道的所述特征权重进行范围转换，得到所述目标渠道的归因结果。

第二方面，本发明提供一种归因装置，包括：

确定模块，用于确定目标渠道的标识；

得到模块，用于将所述确定模块确定的所述目标渠道的标识输入至机器学习模型，得到所述目标渠道的特征权重，所述特征权重用于表示所述目标渠道的归因结果；

在一种可能的实现中，所述装置还包括训练模块，用于：

根据所述目标时长范围内未转化路径中的渠道确定训练集合中的负例，并根据所述目标时长范围内转化路径中的渠道确定训练集合中的正例；

根据所述训练集合对机器学习模型进行训练。

在一种可能的实现中，所述训练模块用于根据所述目标时长范围内未转化路径中的渠道确定训练集合中的负例，具体包括：

在一种可能的实现中，所述训练模块用于随机抽取所述目标时长范围内未转化路径中特定数量的渠道作为所述训练集合中的负例，具体包括：

所述训练模块用于根据所述目标时长范围内转化路径中的渠道确定训练集合中的正例，具体包括：

所述训练模块用于根据所述目标时长范围内转化路径中的渠道确定所述训练集合中的正例，具体包括：

在一种可能的实现中，所述装置还包括：转换模块，用于根据特征权重的数值范围与归因结果的数值范围的关系，对所述目标渠道的所述特征权重进行范围转换，得到所述目标渠道的归因结果。

第三方面，本发明提供一种归因装置，包括：

处理器以及用于存储计算机指令的存储器；所述处理器运行所述计算机指令执行上述第一方面任一项所述的方法。

第四方面，本发明提供一种计算机可读存储介质，当所述存储介质中的指令由归因装置的处理器执行时，使得归因装置能够执行上述第一方面任一项所述的方法。

本发明提供的归因方法、装置及存储介质，通过确定目标渠道的标识，并将目标渠道的标识输入至机器学习模型，得到目标渠道的特征权重，特征权重用于表示目标渠道的归因结果，其中，机器学习模型为根据目标时长范围内未转化路径以及转化路径中的渠道进行训练得到的模型，实现了在确定渠道的归因结果时可以考虑转化路径和未转化路径中的渠道，避免了只考虑转化路径中的该渠道，所确定的归因结果只体现通过该渠道获得信息并发生信息转化的用户的数量，而无法体现通过该渠道获得信息并发生信息转化的用户数占通过该渠道获得信息的用户数的占比，从而导致归因结果不准确的问题，提高了归因结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的归因方法的应用场景示意图；

图2为本发明实施例提供的归因方法实施例一的流程示意图；

图3为本发明实施例提供的归因方法实施例二的流程示意图；

图4为本发明实施例提供的归因方法实施例三的流程示意图；

图5为本发明实施例提供的归因装置的结构示意图；

图6为本发明实施例提供的归因装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的归因方法的应用场景示意图。如图1所示，该应用场景可以包括终端、服务器和归因装置。其中，信息投放方可以通过终端提供的不同渠道对同一推广主题的信息进行投放，这里，渠道具体是指信息的推广渠道，例如微信、微博、邮箱等均可以认为是推广渠道。需要说明的是，不同推广渠道对应同一推广主题的信息可以不同。

用户可以通过多个渠道获取到一个推广主题的信息，例如，用户在一段时间内可以先通过查看渠道1提供的该推广主题的信息获得，然后通过查看渠道2提供的该推广主题的信息获得，之后通过查看渠道3提供的该推广主题的信息获得。此时，渠道1->渠道2->渠道3可以认为是该段时间内的一条用户浏览路径，进一步的，当在渠道3中触发了信息转化时，渠道1->渠道2->渠道3可以认为是该段时间内的转化路径；当在渠道3中未触发信息转化时，渠道1->渠道2->渠道3可以认为是该段时间内的未转化路径。

这里，信息转化是指由信息所触发的能够给信息投放方带来相应价值的转化行为。例如，对于电子商务网站的卖家来说，转化行为可能是指成交；对于致力于推广应用程序的广告主来说，转化行为可能是指下载；而对于某些咨询类公司而言，转化行为则可能是指咨询。

其中，服务器可以收集用户查看不同渠道提供的信息的事件。进一步的，可以基于服务器收集的一段时间内用户查看不同渠道提供的信息的事件，确定该段时间内未转化路径以及转化路径中的渠道。其中，该段时间内未转化路径以及转化路径中的渠道，具体可以为该段时间内一个信息投放方所投放的一个或多个推广主题的信息的未转化路径以及转化路径中的渠道。

其中，归因装置可以基于该段时间内未转化路径以及转化路径中的渠道，训练得到能够用于根据渠道的标识，得到渠道的特征权重的机器学习模型，渠道的特征权重可以表示渠道的归因结果。进一步的，可以由归因装置确定待确定归因结果的渠道(即目标渠道)的标识，并将目标渠道的标识输入至机器学习模型，从而得到目标渠道的特征权重。

需要说明的是，图1中以由归因装置对机器学习模型进行训练为例，也可以不由归因装置对机器学习模型进行训练。

需要说明的是，用户查看不同渠道提供的信息的事件，可以由同一个服务器收集，也可以由不同服务器收集，本发明对此不作限定。

图2为本发明实施例提供的归因方法实施例一的流程示意图。如图2所示，本实施例的方法可以包括：

步骤201，确定目标渠道的标识。

本步骤中，所述目标渠道具体可以是指待确定归因结果的渠道。所述目标渠道的标识例如可以为目标渠道的名称。可选的，可以通过用户输入确定目标渠道的标识，例如，用户可以输入目标渠道的标识，或者用户可以选择目标渠道；或者，可以从其他设备获得目标渠道的标识，例如，接收其他设备发送的目标渠道的标识。

步骤202，将所述目标渠道的标识输入至机器学习模型，得到所述目标渠道的特征权重，所述特征权重用于表示所述目标渠道的归因结果。

本步骤中，所述机器学习模型为根据目标时长范围内未转化路径以及转化路径中的渠道进行训练得到的模型。可选的，目标时长范围具体可以标识最近一段时长范围内，例如最近10天，最近一个月等。由于机器学习模型为根据目标时长范围内未转化路径中的渠道以及转化路径中的渠道进行训练得到的模型，使得模型可以学习到根据渠道的标识，确定渠道的特征权重的能力。可选的，所述机器学习模型具体可以为(Neural Network，NN)神经网络模型，例如卷积神经网络(Convolutional Neural Network，CNN)模型。

这里，由于机器学习模型时根据目标范围内未转化路径中的渠道以及转化路径中的渠道进行训练得到的模型，因此训练好的所述机器学习模型，得到的渠道的特征权重所表示的渠道的归因结果，可以考虑未转化路径中的渠道。

由于信息投放方通常是针对用户通过一个渠道获得该信息投放方投放的信息的行为来付费，因此基于投资回报率的考虑，在确定一个渠道的归因结果时，不仅需要考虑转化路径中的该渠道，而且还需要考虑非转化路径中的该渠道。

如果在确定归因结果时仅考虑转化路径中的该渠道，而没有考虑非转化路径中的该渠道，则只是考虑了信息投放方对于该渠道信息投放的部分投资，该部分投资为转化路径该渠道的投资，而未考虑信息投放方对于该渠道投放的其他部分投资，该其他部分投资为未转化路径该渠道的投资，因此归因结果不准确。可以看出，如果只考虑转化路径中的该渠道，所确定的归因结果只体现通过该渠道获得信息并发生信息转化的用户的数量，而无法体现通过该渠道获得信息并发生信息转化的用户数占通过该渠道获得信息的用户数的占比。例如，假设转化路径中包括渠道1的次数是4，渠道2的次数是5，非转化路径中包括渠道1的次数是2，渠道2的次数也是5，如果只考虑转化路径则渠道2对于信息转化的贡献程度肯定大于渠道1，如果考虑转化路径和非转化路径则渠道2对于信息转化的贡献程度不一定大于渠道1。例如，假设渠道的归因结果越大表示贡献程度越大，且渠道的归因结果等于转换路径中的次数减去0.5倍的非转化路径中的次数，则渠道1的归因结果等于3，渠道2的归因结果等于2.5。

本实施例提供的归因方法，通过确定目标渠道的标识，并将目标渠道的标识输入至机器学习模型，得到目标渠道的特征权重，特征权重用于表示目标渠道的归因结果，其中，机器学习模型为根据目标时长范围内未转化路径以及转化路径中的渠道进行训练得到的模型，实现了在确定渠道的归因结果时可以考虑转化路径和未转化路径中的渠道，避免了只考虑转化路径中的该渠道，所确定的归因结果只体现通过该渠道获得信息并发生信息转化的用户的数量，而无法体现通过该渠道获得信息并发生信息转化的用户数占通过该渠道获得信息的用户数的占比，从而导致归因结果不准确的问题，提高了归因结果的准确性。

图3为本发明实施例提供的归因方法实施例二的流程示意图。本实施例在图2所示实施例的基础上主要描述了对机器学习模型进行训练的一种可选的实现方式。如图3所示，本实施例的方法可以包括：

步骤301，根据所述目标时长范围内未转化路径中的渠道确定训练集合中的负例。

本步骤中，负例也可以称为负样本(negative samples)。可选的，可以将所述目标时长范围内未转化路径中的渠道作为训练集合中的负例。

考虑到可以为信息投资方投放信息带来相应价值的是信息转化，因此为了避免负例过多，导致占比在确定归因结果时的重要性过大，从而导致无法突出信息转化为投资方带来的价值的问题，可以对负例的数量进行限制。因此，可选的，步骤301具体可以包括：随机抽取所述目标时长范围内未转化路径中特定数量的渠道作为所述训练集合中的负例。可选的，所述特定数量为预设的数量；或者，所述特定数量根据所述训练集合中正例中的渠道总数确定，例如可以为该渠道总数的10％。

步骤302，根据所述目标时长范围内转化路径中的渠道确定训练集合中的正例。

本步骤中，负例也可以称为负样本(positive samples)。可选的，可以将所述目标时长范围内转化路径中的渠道作为训练集合中的正例。

考虑到虽然转化路径中的渠道个数可以为多个，而触发信息转化的渠道通常为转换路径中的最后一个渠道。可选的，步骤302具体可以包括：将所述目标时长范围内所有转化路径的最后一个渠道均作为所述训练集合的正例。进一步的，为了确保负例与正例含义的一致性，所述随机抽取所述目标时长范围内未转化路径中特定数量的渠道作为所述训练集合中的负例，包括：随机抽取所述目标时长范围内所有未转化路径的最后一个渠道中特定数量的渠道作为所述训练集合的负例。

考虑到虽然转化路径中的渠道个数可以为多个，而用户第一次获得信息的渠道通常为转换路径中的第一个渠道。可选的，步骤302具体可以包括：将所述目标时长范围内所有转化路径的第一个渠道均作为所述训练集合的正例。进一步的，为了确保负例与正例含义的一致性，所述随机抽取所述目标时长范围内未转化路径中特定数量的渠道作为所述训练集合中的负例，包括：随机抽取所述目标时长范围内所有未转化路径的第一个渠道中特定数量的渠道作为所述训练集合的负例。

考虑到转化路径中的渠道个数可以为多个，用户通过转化路径中的多个渠道不断获得信息，最终触发了信息转化。可选的，步骤302具体可以包括：将所述目标时长范围内所有转化路径的全部渠道均作为所述训练集合的正例。进一步的，为了确保负例与正例含义的一致性，所述随机抽取所述目标时长范围内未转化路径中特定数量的渠道作为所述训练集合中的负例，包括：随机抽取所述目标时长范围内所有未转化路径的全部渠道中特定数量的渠道作为所述训练集合的负例。

可选的，所述目标渠道的特征权重即为所述目标渠道的归因结果。

需要说明的是，步骤302与步骤301之间没有先后顺序的限制。

步骤303，根据所述训练集合对机器学习模型进行训练。

本步骤中，由于正例是根据目标时长范围内转化路径中的渠道确定的，因此根据正例对机器学习模型进行训练后，训练好的机器学习模型可以考虑到通过一个渠道获得信息并发生信息转化的用户的数量对于该渠道的归因结果的正面影响，即通过一个渠道获得信息并发生信息转化的用户的数量越多，该渠道对于信息转化的贡献越大。

由于负例是根据目标时长范围内非转化路径中的渠道确定的，因此根据负例对机器学习模型进行训练后，训练好的机器学习模型可以考虑到一个渠道下通过一个渠道获得信息并发生信息转化的用户数占通过该渠道获得信息的用户数的占比对于该渠道的归因结果的负面影响，即通过一个渠道获得信息并发生信息转化的用户数占通过该渠道获得信息的用户数的占比越大，该渠道对于信息转化的贡献越小。

本实施例提供的归因方法，通过根据目标时长范围内未转化路径中的渠道确定训练集合中的负例，根据目标时长范围内转化路径中的渠道确定训练集合中的正例，并根据训练集合对机器学习模型进行训练，使得基于训练好的机器学习模型所确定的目标渠道的特征权重，可以考虑转化路径和未转化路径中的渠道，避免了只考虑转化路径中的该渠道，所确定的归因结果只体现通过该渠道获得信息并发生信息转化的用户的数量，而无法体现通过该渠道获得信息并发生信息转化的用户数占通过该渠道获得信息的用户数的占比，从而导致归因结果不准确的问题，提高了归因结果的准确性。

图4为本发明实施例提供的归因方法实施例三的流程示意图。本实施例在图2所示实施例的基础上主要描述了根据特征权重得到归因结果的一种可选的实现方式。如图4所示，本实施例的方法可以包括：

步骤401，确定目标渠道的标识。

需要说明的是，步骤401与步骤201类似，在此不再赘述。

步骤402，将所述目标渠道的标识输入至机器学习模型，得到所述目标渠道的特征权重，所述特征权重用于表示所述目标渠道的归因结果。

需要说明的是，步骤402与步骤202类似，在此不再赘述。

步骤403，根据特征权重的数值范围与归因结果的数值范围的关系，对所述目标渠道的所述特征权重进行范围转换，得到所述目标渠道的归因结果。

本步骤中，当目标渠道的特征权重不能直接作为目标渠道的归因结果时，可以对目标渠道的特征权重进行范围转换，得到目标渠道的归因结果。例如，假设特征权重的数值范围为0至1，归因结果的数值范围为0-100，则可以将目标渠道的特征权重乘以100得到的结果，作为目标渠道的归因结果。

本实施例提供的归因方法，通过根据特征权重的数值范围与归因结果的数值范围的关系，对所述目标渠道的所述特征权重进行范围转换，得到所述目标渠道的归因结果，实现了当目标渠道的特征权重不能直接作为目标渠道的归因结果时，根据目标渠道的特征权重确定目标渠道的归因结果。

图5为本发明实施例提供的归因装置的结构示意图，本实施例提供的装置可以应用于上述方法实施例中。如图5所示，本实施例的装置可以包括：确定模块51和得到模块52。其中，

确定模块51，用于确定目标渠道的标识；

得到模块52，用于将确定模块51确定的所述目标渠道的标识输入至机器学习模型，得到所述目标渠道的特征权重，所述特征权重用于表示所述目标渠道的归因结果；

在一种可能的实现中，该装置还包括训练模块53，用于：

根据所述训练集合对机器学习模型进行训练。

在一种可能的实现中，训练模块53用于根据所述目标时长范围内未转化路径中的渠道确定训练集合中的负例，具体包括：

在一种可能的实现中，训练模块53用于随机抽取所述目标时长范围内未转化路径中特定数量的渠道作为所述训练集合中的负例，具体包括：

训练模块53用于根据所述目标时长范围内转化路径中的渠道确定训练集合中的正例，具体包括：

训练模块53用于根据所述目标时长范围内转化路径中的渠道确定所述训练集合中的正例，具体包括：

在一种可能的实现中，该装置还包括：转换模块54，用于根据特征权重的数值范围与归因结果的数值范围的关系，对所述目标渠道的所述特征权重进行范围转换，得到所述目标渠道的归因结果。

本实施例的装置，可以用于执行上述方法所示实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图6为本发明实施例提供的归因装置的结构示意图，如图6所示，该归因装置可以包括：处理器61以及用于存储计算机指令的存储器62。

其中，处理器61运行该计算机指令执行以下方法：

确定目标渠道的标识；

根据所述训练集合对机器学习模型进行训练。

在一种可能的实现中，所述方法还包括：

本发明实施例还提供一种计算机可读存储介质，当该存储介质中的指令由归因装置的处理器执行时，使得归因装置能够执行一种归因方法，该方法包括：

确定目标渠道的标识；

根据所述训练集合对机器学习模型进行训练。

在一种可能的实现中，所述方法还包括：

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种归因方法，其特征在于，包括：

确定目标渠道的标识；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据所述目标时长范围内未转化路径中的渠道确定训练集合中的负例，并根据所述目标时长范围内转化路径中的渠道确定训练集合中的正例；

根据所述训练集合对机器学习模型进行训练。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标时长范围内未转化路径中的渠道确定训练集合中的负例，包括：

4.根据权利要求3所述的方法，其特征在于，所述特定数量为预设的数量，或者，所述特定数量根据所述正例中的渠道总数确定。

5.根据权利要求3或4所述的方法，其特征在于，所述随机抽取所述目标时长范围内未转化路径中特定数量的渠道作为所述训练集合中的负例，包括：

随机抽取所述目标时长范围内所有未转化路径的最后一个渠道中特定数量的渠道作为所述训练集合的负例；

6.根据权利要求3或4所述的方法，其特征在于，所述随机抽取所述目标时长范围内未转化路径中特定数量的渠道作为所述训练集合中的负例，包括：

随机抽取所述目标时长范围内所有未转化路径的全部渠道中特定数量的渠道作为所述训练集合的负例；

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种归因装置，其特征在于，包括：

确定模块，用于确定目标渠道的标识；

9.一种归因装置，其特征在于，包括：

处理器以及用于存储计算机指令的存储器；所述处理器运行所述计算机指令执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由归因装置的处理器执行时，使得归因装置能够执行权利要求1-7任一项所述的方法。