CN111966904B

CN111966904B - 基于多用户画像模型的信息推荐方法和相关装置

Info

Publication number: CN111966904B
Application number: CN202010833693.8A
Authority: CN
Inventors: 梁天恺
Original assignee: Shenzhen Ping An Smart Healthcare Technology Co ltd
Current assignee: Shenzhen Ping An Smart Healthcare Technology Co ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2023-09-05
Anticipated expiration: 2040-08-18
Also published as: CN111966904A

Abstract

本申请涉及大数据技术领域，应用于智慧医疗领域中，尤其涉及一种基于多用户画像模型的信息推荐方法和装置。该方法包括：获取目标用户的用户信息；将用户信息输入多用户画像模型中，以通过多用户画像模型中含有的多个用户类型决策树分别预测目标信息对应的用户类型；根据多个用户类型决策树输出的预测结果，确定目标用户的目标用户类型；确定与目标用户对应的用户类型相匹配的关键信息，以根据关键信息提取目标信息，并向目标用户推荐目标信息。该方法可以在没有新用户的历史信息的情况下，向新用户推荐符合用户关注点的信息，进而提升用户的初次使用体验，增加用户粘性。另外，本申请还涉及区块链技术，多用户画像模型可存储在区块链节点中。

Description

基于多用户画像模型的信息推荐方法和相关装置

技术领域

本申请涉及大数据技术领域，应用于智慧医疗领域中，尤其涉及一种基于多用户画像模型的信息推荐方法、装置、电子设备以及计算机可读存储介质。

背景技术

随着互联网技术和大数据技术的日趋成熟，越来越多的人通过网络了解医学知识。与此相应的，互联网上也涌现出许多医学信息共享平台，这些平台基于用户的兴趣为用户推荐符合用户关注点的信息。

医疗信息平台的用户群体可以大体分为医护人员、患者以及访客三种用户类别。平台需要针对于用户类别向用户推荐其可能感兴趣的医疗信息。目前，医疗信息平台在向用户推荐信息时，首先要收集用户过往的浏览历史、搜索历史和用户自行添加的标签等信息，并且基于这些信息为用户构建用户画像，然后基于用户画像为用户推荐其可能感兴趣的信息。

然而，三种用户类别之间差别较大，所关注的信息也明显不同。医疗信息平台在面对新用户时，由于没有新用户的历史信息，难以针对新用户准确推荐符合用户关注点的信息，进而导致新用户在初次使用医疗信息平台时体验较差，影响用户黏性，并且要求用户自行选择关注内容，操作复杂，影响用户体验。

发明内容

基于上述技术问题，本申请提供一种基于多用户画像模型的信息推荐方法，以在没有新用户的历史使用信息的情况下，向新用户推荐符合用户关注点的信息，提升用户的初次使用体验，增加用户粘性，并且不要求用户自行选择关注内容，简化使用过程，增加使用的便捷性。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供一种基于多用户画像模型的信息推荐方法，该方法包括：

获取目标用户的用户信息；

将用户信息输入多用户画像模型中，以通过多用户画像模型中含有的多个用户类型决策树分别预测目标信息对应的用户类型，其中，多个用户类型决策树是分别利用不同用户属性集合训练得到的；

根据多个用户类型决策树输出的预测结果，确定目标用户的目标用户类型；

确定与目标用户对应的用户类型相匹配的关键信息，以根据关键信息提取目标信息，并向目标用户推荐目标信息。

在本申请的一些实施例中，基于以上技术方案，获取目标用户的用户信息之前，该方法还包括：

获取多组历史用户信息，其中，每组历史用户信息分别对应一个用户类别，每组历史用户信息中含有至少一种用户属性，并且每种用户属性分别对应用户类别；

基于每组历史用户信息中含有的至少一种用户属性，对多组历史用户信息进行聚类分析，得到多组用户属性集合；

将多组用户属性集合分别输入至多个用户类型决策树中，以通过各组用户属性集合中含有的各个用户属性以及各个用户属性对应的用户类别对用户类型决策树进行训练，获得多用户画像模型。

在本申请的一些实施例中，基于以上技术方案，基于每组历史用户信息中含有的至少一种用户属性，对多组历史用户信息进行聚类分析，得到多组用户属性集，包括：

获取每组历史用户信息对应的属性值集合；

根据每组历史用户信息对应的属性值集合中的各个属性值以及第一预设密度阈值，确定各个属性值对应的最近邻域距离，并将最近邻域距离降序排列，以形成距离曲线；

确定距离曲线中的第一个谷值为第一邻域半径，并根据第一邻域半径和第一预设密度阈值对每组历史用户信息对应的属性值集合进行聚类分析，以得到多组用户属性集合。

在本申请的一些实施例中，基于以上技术方案，获取多组历史用户信息之后，该方法还包括：

基于每组历史用户信息所对应的用户类别，确定每组历史用户信息中含有的缺失属性；

根据缺失属性的数据类型，从缺失属性对应的历史用户信息中获取缺失属性的填充数据。

在本申请的一些实施例中，基于以上技术方案，根据缺失属性的数据类型，从缺失属性对应的历史用户信息中获取缺失属性的填充数据，包括：

若缺失属性的数据类型为离散数据，则将缺失属性对应的历史用户信息中出现频率最高的取值作为缺失属性的填充数据；或者

若缺失属性的数据类型为连续数据，则将缺失属性对应的历史用户信息中的数据平均值作为缺失属性的填充数据。

在本申请的一些实施例中，基于以上技术方案，获取多组历史用户信息之后，方法还包括：

从多组历史用户信息中获取目标用户属性的属性值，得到属性值集合，目标用户属性对应的数据类型为连续数据；

根据属性值集合中含有的属性值确定第二邻域半径以及第二预设密度阈值，并所述第二邻域半径以及第二预设密度阈值对属性值集合进行聚类分析，得到噪声值集合；

根据噪声值集合去除多组历史用户信息中含有的噪声属性值。

根据多组历史用户信息中含有的各个用户属性对应属性值范围，确定各个用户属性的参照值；

根据各个用户属性的属性值与各个用户属性的参照值之间的比例，确定各个用户属性对应的标准值；

根据各个用户属性对应的标准值对各个用户属性的属性值进行更新。

根据本申请实施例的一个方面，提供一种基于多用户画像模型的信息推荐装置，该装置包括：

获取模块，用于获取目标用户的用户信息；

预测模块，用于将用户信息输入多用户画像模型中，以通过多用户画像模型中含有的多个用户类型决策树分别预测目标信息对应的用户类型，其中，多个用户类型决策树是分别利用不同用户属性集合训练得到的；

确定模块，用于根据多个用户类型决策树输出的预测结果，确定目标用户的目标用户类型；

推荐模块，用于确定与目标用户对应的用户类型相匹配的关键信息，以根据关键信息提取目标信息，并向目标用户推荐目标信息。

根据本申请实施例的一个方面，提供一种电子设备，包括处理器及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的方法。

根据本申请实施例的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法。

本方案可应用于智慧治疗领域中，从而推动智慧城市的建设。在本方案中，利用多用户画像模型基于用户信息预测用户类型，并基于预测的用户类型向推荐信息。通过上述方式，对于新用户，可以在没有该新用户的历史信息的情况下，向新用户推荐符合用户关注点的信息，进而提升用户的初次使用体验，增加用户粘性，并且不要求用户自行选择关注内容，简化使用过程，增加使用的便捷性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性地示出了本申请技术方案在一个示例性应用场景中的***构架示意图。

图2示意性地示出了本申请实施例中提供的基于多用户画像模型的信息推荐方法的步骤流程图。

图3示意性地示出了本申请实施例中的基于多用户画像模型的信息推荐装置的组成框图。

图4示意性地示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

如图1所示，***架构100可以包括客户端110、网络120和服务端130。客户端110可以包括个人电脑、智能手机、智能机器人、平板电脑等各种终端设备。服务端130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。网络120可以是能够在客户端110和服务端130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路、无线通信链路等等。

根据实现需要，本申请实施例提供的技术方案可以应用于客户端110，也可以应用于服务端130，或者可以由客户端110和服务端130共同实施，本申请对此不做特殊限定。

举例而言，个人电脑、智能手机等各种智能终端设备可以通过无线网络接入到云服务器上的信息推荐服务。服务端130通过网络120从客户端110获取用户信息，随后基于所获得的用户信息对用户的用户类型进行预测，并基于预测的用户类型确定关键字或标签等关键信息，然后根据关键信息进行信息推荐。一次完整的信息推荐的流程例如可以包括：

客户端110接收用户输入的用户信息，向服务端130发送服务请求；

服务端130从服务请求中获取用户信息，并且基于用户信息预测用户的用户类别；

服务端130基于预测的用户类别获取对应的待推荐信息；

客户端110从服务端130接收待推荐信息，并向用户展示待推荐信息。

在以上信息推荐过程中，服务端130提供的信息推荐服务的延迟很小，客户端110基本上可以立即获得返回结果。客户端110的用户可以在短时间内得到推荐的信息，以便快速进行信息浏览，避免用户等待。

下面结合具体实施方式对本申请提供的技术方案做出详细说明。

图2示意性地示出了本申请实施例中提供的基于多用户画像模型的信息推荐方法的步骤流程图。该信息推荐方法的执行主体可以是作为客户端的个人电脑、智能手机等各种终端设备，也可以是作为服务端的物理服务器、云服务器等各种服务器设备。在本实施例中，将以执行主体是作为服务端的服务器进行介绍，该服务器上安装有医疗信息推荐平台，用于为用户推荐医疗信息。如图2所示，基于多用户画像模型的信息推荐方法主要可以包括以下步骤S210～步骤S240：

步骤S210，获取目标用户的用户信息。

在本实施例中，服务器接收客户端或另一个服务器发送的服务请求，并从该服务请求中获取目标用户的用户信息。服务器可以通过无线网络或者有线网络与客户端通信。

目标用户主要分为三种用户类别：医护人员、患者以及访客。不同用户类别可以具有相同的用户属性，也可以具有独特的用户属性。例如，三种用户类别都可以具有单位、职称、年龄、学历、血型、血压以及身高和体重等属性，医护人员可以具有科室以及擅长领域等属性，而患者可以具有病症以及病史等属性。在一个实施例中，用户信息还可以包括用户关注的关键字。

各种用户属性可以被划分为两种类型：连续属性以及离散属性。连续数据指的是在一定区间内可以任意取值、数值是连续不断的、相邻两个数值可作无限分割的属性，例如，身高、体重或者血压等。离散属性指的是数值只能用自然数或整数单位计算的属性，例如单位、职称、年龄以及学历等。在具体的实现中，离散属性可以体现成为用户提供选项，由用户进行选择的属性，而连续属性表现为不提供选项，由用户直接进行输入的属性。

步骤S220，将用户信息输入多用户画像模型中，以通过多用户画像模型中含有的多个用户类型决策树分别预测目标信息对应的用户类型，其中，多个用户类型决策树是分别利用不同用户属性集合训练得到的。

在本实施例中，服务器将所获得的用户信息输入到多用户画像模型中，以通过所述多用户画像模型中含有的多个用户类型决策树分别对所述目标信息对应的用户类型进行预测。

具体地，多用户画像模型是包括多个决策树的随机森林，并且具体地多用户画像模型包括至少两个决策树，其中的每个决策树均是基于多组历史用户信息训练得到的。多用户画像模型可以部署在服务器本地，也可以部署在专用的用户画像服务器上。服务器将用户信息输入到多用户画像模型的用户类型决策树中。每个用户类型决策树将独立地对目标用户的用户类型进行预测，并分别给出目标用户属于每种用户类别的分数。用户类型的分数越大，表示目标用户越可能属于该用户类型。

并且，为进一步保证预设的若干候选信息的私密和安全性，还可以将这些候选信息存储于一区块链的节点中。

步骤S230，根据多个用户类型决策树输出的预测结果，确定目标用户的目标用户类型。

在本实施例中，通过多个用户类型决策树分别预测用户信息所对应的用户类型，可以获得多组预测结果，每组预测结果中包括目标用户属于各个用户类别的分数。服务器综合各个用户类别的分数，将最高分数所对应的用户类型作为目标用户的目标用户类型。

具体地，例如多用户画像模型包括两个用户类型决策树，且两个用户类型决策树对于医护人员、患者以及访客，输出结果分别为{0.8,2,1}以及{0.1,0.9,-0.9}，则综合的结果为医护人员的分数为0.9，患者的分数为2.9，访客的分数为0.1，因此可以确定目标用户的类型为患者。

步骤S240，确定与目标用户对应的用户类型相匹配的关键信息，以根据关键信息提取目标信息，并向目标用户推荐目标信息。

在本实施例中，服务器确定与预测的用户类型相匹配的关键信息，并且根据关键信息提取目标信息，并向目标用户推荐目标信息。关键信息可以是关键字或者标签。用户类型与关键信息的匹配关系可以被预先配置在服务器中，并根据近期的热门信息以及近期用户的历史搜索关键词等信息进行定时更新。匹配关系还可以由服务器根据属于此用户类型的在线用户的关注信息实时确定。例如，若预测目标用户为医护人员，服务器可以查找当前在线的医护人员用户，然后提取在线的医护人员用户最近的搜索历史或浏览历史等，并从中获取文章标签或关键词等内容作为关键信息。

具体地，例如，根据目标用户的用户类型被预测为医护人员，则可以提取医学领域的前沿信息或者医护相关的社会新闻等医护人员可能感兴趣的视频或文章的内容，并推荐给用户。

在一个实施例中，在根据关键信息提取目标信息时，还会考虑目标用户的用户属性。例如，当用户类型为患者时，可以进一步根据患者的病症和病史提取相关的科普信息作为目标信息。

本方案可应用于智慧治疗领域中，从而推动智慧城市的建设。在本方案中，利用多用户画像模型基于用户信息预测用户类型，并基于预测的用户类型向推荐信息。通过上述方式，对于新用户，可以在没有该用户的历史使用信息的情况下，向新用户推荐符合用户关注点的信息，进而提升用户的初次使用体验，增加用户粘性，并且不要求用户自行选择关注内容，简化使用过程，增加使用的便捷性。

在本申请的一些实施例中，在以上实施例的基础上，上述步骤S210之前，本申请的基于多用户画像模型的信息推荐方法还可以包括以下步骤：

步骤S250，获取多组历史用户信息，其中，每组历史用户信息分别对应一个用户类别，每组历史用户信息中含有至少一种用户属性，并且每种用户属性分别对应用户类别。

在本实施例中，服务器获取多组历史用户信息。多组历史用户信息指的是至少两组历史用户信息。历史用户信息是使用医疗信息推荐平台的其他用户的用户信息。多组历史用户信息分别对应的用户类别是已知的，因此，可以认为用户信息中所包含的用户属性也对应于该用户信息的用户类别。例如，用户A为医护人员，其历史用户信息是{用户A：(年龄＝25，性别＝M，擅长领域＝急诊)}，则年龄＝25，性别＝M，擅长领域＝急诊均对应于医护人员。应理解，不同用户可以具有相同的用户属性以及相同的属性值，因此，相同属性可能对应于不同的用户类别。例如，还存在用户B为访客，其历史用户信息是{用户B：(年龄＝25，性别＝F)}，则年龄＝25和性别＝F对应于访客，而这会导致年龄＝25同时对应于医护人员和访客两种用户类别。

步骤S260，基于每组历史用户信息中含有的至少一种用户属性，对多组历史用户信息进行聚类分析，得到多组用户属性集合。

在本实施例中，服务器基于每组历史用户信息中含有的至少一种用户属性，即，基于多组历史用户信息中所包含的各类用户属性，对多组历史用户信息进行聚类分析，得到多组用户属性集合。多组用户属性集合中包括至少一组用户属性集合。

具体地，对于每组历史用户信息中包含的用户属性，提取出多组历史用户信息中所包含的所有该用户属性的属性值，形成属性值集合，并且每个属性值对应于一个用户类别。根据所获得的属性值集合进行聚类分析，可以得到一个或多个用户属性集合。对历史用户信息中包含的所有用户属性进行聚类分析后，即可以得到用于训练的多组用户属性集合。取决于具体实现方式，聚类分析的方式可以采用多种不同的算法，例如K均值聚类算法、均值移动聚类算法、基于密度的带噪声的空间聚类的应用、基于高斯混合模型的期望最大化聚类以及凝聚层次聚类等方式。

步骤S270，将多组用户属性集合分别输入至多个用户类型决策树中，以通过各组用户属性集合中含有的各个用户属性以及各个用户属性对应的用户类别对用户类型决策树进行训练，获得多用户画像模型。

在本实施例中，服务器将聚类分析所获得的多组用户属性集合分别输入到多个用户类型决策树中，通过各组用户属性集合中含有的各个用户属性以及各个用户属性对应的用户类别对用户类型决策树进行训练，获得多用户画像模型。

具体地，用户类型决策树通过不断的进行若条件X成立则进入条件X对应的分支并且继续询问，若条件Y成立则进入条件Y对应的分支并继续询问，直至将新用户分到最佳的类别中为止过程来进行用户类别的预测。多用户画像模型的用户类型决策树可以使用如下方式等式表示：

其中logistic为logistic函数；x为新用户的用户属性；K指的是用户类型决策树的数量，f代表具体某个用户类型决策树；F表示所有用户类型决策树。根据该用户类型决策树的等式(1)，多用户画像模型的目标函数可以确定为：

其中，y_i表示某一历史用户的用户类别；表示模型的预测用户类别，/>表示损失函数，Ω(f_k)表示正则项，该正则项由K棵用户类型决策树的正则化项相加得到。

在本实施例中，采用分步优化目标函数的方法，求取目标函数的最优值。首先优化第一棵树，再优化第二棵树，直至优化完第K棵树。对于每棵决策树，通常使用精确贪心算法来寻找最优的树结构。对上述等式(2)进行泰勒展开等数学推算后，可求得模型的目标函数为：

其中并且/>g_i和h_i表示的是：现有的t-1棵数对第i个训练样本的预测用户类别与第i个训练样本的实际用户类别之间的差距。对该目标函数进行求解，找到最优的树结构，即可以得到多用户画像模型。

在训练过程中，设定用户类型决策树树的最大深度为：其中m为所有用户属性的总数，多用户画像模型中的用户类型决策树树的数量的期望值介乎4-6之间，且每个用户类型决策树树的平均分叉的期望值为3。因此，由树的深度公式可知，本实施例中期待用户填写的信息属性个数不超过用户属性总数的1/3。

在本申请的一些实施例中，在以上实施例的基础上，上述步骤S260中基于每组历史用户信息中含有的至少一种用户属性，对多组历史用户信息进行聚类分析，得到多组用户属性集，包括如下步骤：

步骤S261，获取每组历史用户信息对应的属性值集合；

在本实施例中，服务器获取多组历史用户信息中每组历史用户信息所对应的一个或多个属性值集合，并将相同用户属性的属性值集合合并。

具体地，对于历史用户信息中包含的一种用户属性，提取多组历史用户信息中所包含的所有该用户属性的属性值，然后将这些属性值组成属性值集合，并且属性值集合中的每个属性值对应于一个用户类别,该用户类别是原本包含此属性值的历史用户信息所对应的用户类别。

步骤S262，根据每组历史用户信息对应的属性值集合中的各个属性值以及第一预设密度阈值，确定各个属性值对应的最近邻域距离，并将最近邻域距离降序排列，以形成距离曲线。

在本实施例中，第一预设密度阈值指示的是在进行聚类分析时，属性值集合所需要包含属性值的最小属性值数量。最近邻域距离指的是属性值与其属性值集合中的其他属性值之间的某个距离，其具体取值取决于第一预设密度阈值。第一预设密度阈值通常为根据历史数据和预期的分析精确程度而预先设置的参数。服务器首先根据每组历史用户信息对应的属性值集合中的各个属性值之间的距离以及第一预设密度阈值所指示的数量，确定各个属性值对应的最近邻域距离，并将最近邻域距离降序排列，以形成距离曲线。

具体地，对于属性值集合中的任一属性值，确定其与所有其他属性值之间的欧式距离，然后将所有的距离从小到大排列，得到距离集合。然后根据第一预设密度阈值所指示的数量k，将距离集合中第k个距离确定为最近邻域距离。属性值集合中的所有属性值的最近邻域距离按照降序排列，并绘制成曲线，既可以形成距离曲线。

步骤S263，确定距离曲线中的第一个谷值为第一邻域半径，并根据第一邻域半径和第一预设密度阈值对每组历史用户信息对应的属性值集合进行聚类分析，以得到多组用户属性集合。

服务器基于所获得的距离曲线，可以计算曲线中各个节点的导数，并导数约为0或最小处的节点所对应的距离，确定为第一邻域半径。然后服务器可以根据第一邻域半径和第一预设密度阈值对每组历史用户信息对应的属性值集合进行聚类分析，以得到多组用户属性集合。

具体地，首先从属性值集合中随机抽取一个尚未被遍历的属性值p，然后基于欧氏距离检查属性值p的第一邻域半径E内的邻域，若该邻域中所包含的对象数不小于预设的第一预设密度阈值，建立用户属性集合C，将属性值p的邻域中的所有属性值加入候选集合N。

在得到候选集合N后，对候选集合N中尚未被处理的任一属性值q，检查属性值q的第一邻域半径E内的邻域，若该邻域中至少包含的属性值的数量大于或等于第一预设密度阈值，则将邻域中的这些属性值加入候选集合N；如果属性值q未归入任何一个用户属性集合，则将属性值q加入用户属性集合C；一般而言，第一预设密度阈值≥总用户属性数/8，以防类别之间的差异性不大或者类别区分过于细化，而导致模型的泛化能力差。对于候选集合N中的所有属性值q重复上述操作，直至候选集合N为空。之后，再次从属性值集合中随机抽取一个尚未被遍历的属性值p，并继续上述处理步骤，直至所有的属性值p均被添加到某个用户属性集合中，或者被确认无法被添加到任何用户属性集合中为止。无法被添加到任何用户属性集合中的属性值通常为噪声属性值，且不被用于进行决策树的训练。

对于多组历史用户信息中所包含的所有用户属性进行上述的聚类分析操作，可以将多组历史用户信息按照用户属性重新组织成为多组用户属性集合，并且用户属性集合中包含的各个属性值均对应于某个用户类别。

在本实施例中，通过基于用户属性对多组历史用户信息进行聚类分析，可以按照用户属性的维度重新组织历史用户信息，并且各个用户属性对应于相应用户类别，有利于体现用户属性与用户类别之间的相关关系，提升多用户画像模型训练的效果。

在本申请的一些实施例中，在以上实施例的基础上，上述步骤S250中获取多组历史用户信息之后，方法还包括如下步骤：

步骤S251，基于每组历史用户信息所对应的用户类别，确定每组历史用户信息中含有的缺失属性；

步骤S252，根据缺失属性的数据类型，从缺失属性对应的历史用户信息中获取缺失属性的填充数据。

在本实施例中，对于每组历史用户信息，基于其对应的用户类别，确定该类别的用户所需要进行补充的缺失属性。然后，基于缺失属性的类型，基于其他历史用户信息对该缺失属性进行补充。例如，对于用户类别为患者的一种历史用户信息，可能该用户并未填写血压用户属性，可根据对应于患者的其他历史用户信息中的血压用户属性，对该用户属性进行补充。

取决于缺失属性的属性类型，缺失值补充可以采用不同的方式，例如均值插补、利用同类均值插补、极大似然估计或者多重插补等。此处不做限定。

通过上述方式，对历史用户信息中的缺失属性进行补充，使得用于训练多用户画像模型的训练数据更加完整，避免缺失的用户属性影响对多用户画像模型的训练效果，有利于提升多用户画像模型的预测准确性。

在本申请的一些实施例中，在以上实施例的基础上，上述步骤S252中根据缺失属性的数据类型，从缺失属性对应的历史用户信息中获取缺失属性的填充数据，包括：

步骤S2521,若缺失属性的数据类型为离散数据，则将缺失属性对应的历史用户信息中出现频率最高的取值作为缺失属性的填充数据；或者

步骤S2522,若缺失属性的数据类型为连续数据，则将缺失属性对应的历史用户信息中的数据平均值作为缺失属性的填充数据。

在本实施例中，对于缺失属性，采用均值插补来生成缺失属性的填充数据。具体地，对于离散数据，可以根据统计学中的众数原理，取该用户属性的众数，即出现频率最高的值，作为填充数据。相对应地，对于连续数据，则计算该缺失属性的属性值集合中所有属性值的平均值作为填充数据。

举例来说，对于离散数据，若访客用户的缺失属性为学历，则可以获取其他访客用户的学历信息，将学历中出现频率最高的值作为该访客用户的学历信息。

通过上述方式，采用均值插补的方式对历史用户信息中的缺失属性进行补充，为缺失值补充的方案提供了具体的实施方案，提升了方案的可行性。

在本申请的一些实施例中，在以上实施例的基础上，上述步骤S250.获取多组历史用户信息之后，方法还包括如下步骤：

步骤S253，从多组历史用户信息中获取目标用户属性的属性值，得到属性值集合，目标用户属性对应的数据类型为连续数据；

步骤S254，根据属性值集合中含有的属性值确定第二邻域半径以及第二预设密度阈值，并根据第二邻域半径以及第二预设密度阈值对属性值集合进行聚类分析，得到噪声值集合；

步骤S255，根据噪声值集合去除多组历史用户信息中含有的噪声属性值。

在本实施例中，采用聚类分析方式对历史用户信息进行去噪声处理。噪声属性值指的是，对于数据类型为连续数据的用户属性出现的不合理数据。噪声属性值会对训练结果产生影响，例如，若用户将身高数据填写为400厘米，或者将年龄数据填写为200岁等不合理的数据，直接将此类数据用于训练多用户画像模型可能会导致决策树在进行优化时，选定的树分叉点偏大，使得训练结果的准确性下降。因此，需要去除掉这部分明显不合理的噪声属性值。

去除噪声属性值的方式可以选择通过聚类分析的方式进行。首先，根据去燥的精细程度以及属性值的实际情况，确定第二邻域半径以及第二预设密度阈值，具体的方式可以参照如上文相对于获取多组用户属性所描述的方式。然后根据所确定的第二邻域半径以及第二预设密度阈值，对属性值集合进行聚类分析。聚类分析所得到的所有不能被归类的数据被确定为噪声属性值，即，若某个属性值被确定为在预定邻域半径内的其他属性值的数量未超过第二预设密度阈值，则该属性值被确定为噪声属性值。聚类分析过程所得出的所有的噪声属性值即噪声值集合。通过将噪声值集合中的属性值从多组历史用户信息中对应地去除掉，可以完成去噪声处理。

通过上述方式，可以去除多组历史用户信息中的不合理数据，避免在训练多用户画像模型时由于此类数据造成多用户画像模型的优化不准，提升了用户类型预测的准确性。

在本申请的一些实施例中，在以上实施例的基础上，上述步骤S250中获取多组历史用户信息之后，方法还包括：

步骤S256，根据多组历史用户信息中含有的各个用户属性对应属性值范围，确定各个用户属性的参照值；

步骤S257，根据各个用户属性的属性值与各个用户属性的参照值之间的比例，确定各个用户属性对应的标准值；

步骤S258，根据各个用户属性对应的标准值对各个用户属性的属性值进行更新。

在本实施例中，对属性值进行归一化处理。因为不同用户属性的取值范围的不同，会影响用户属性的合理利用率，例如心率对于患者用户是关键因素，然而一般人心率取值范围是[50,120]，该范围明显低于身高的取值范围，如果直接使用原始数值而不将属性值统一映射到相同的取值范围，则会导致数据大的身高对决策树训练结果的影响更大，进而在形成的多用户画像模型中，身高会占据更大的决定性，导致多用户画像模型参数不合理，预测不准确。归一化是将用户属性的属性值映射到相同的取值范围，该取值范围通常为[0,1]区间。

在归一化的过程中，首先需要根据各个用户属性的属性值范围，确定各个用户属性的参照值。具体地，首先需要确定属性值范围的最大值和最小值。用户属性的参照值是最大值与最小值的差值。然后，根据属性值与最小值的差与参照值的比例，可以确定属性值被归一化后的标准值。根据取值范围与属性值重要性的区别，计算比例时进行响应的加权操作。例如，若某个属性值被认为对于预测用户类型的重要程度较低，则可以对其进行加权以适当的缩小其取值范围或减小其标准值等。归一化处理可以采用如下等式进行计算：

其中x为当前需要处理的属性值，x′为归一化后的标准值，max为当前属性的最大取值，min为当前属性的最小取值，max-min为参考值。

根据所得到的标准值，将多组用户属性集合中的属性值对应地替换掉，就可以得到归一化的结果。

通过上述方式，对多组历史用户信息中的用户进行归一化处理，可以避免由于用户属性取值范围不同而忽略部分取值范围小的数据对预测结果的影响力，进而避免训练出的多用户画像模型不准确，有利于更准确地向用户推荐符合关注点的信息。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本申请的装置实施，可以用于执行本申请上述实施例中的基于多用户画像模型的信息推荐方法。图3示意性地示出了本申请实施例中的基于多用户画像模型的信息推荐装置的组成框图。如图3所示，信息推荐装置300主要可以包括：

获取模块310，用于获取目标用户的用户信息；

预测模块320，用于将用户信息输入多用户画像模型中，以通过多用户画像模型中含有的多个用户类型决策树分别预测目标信息对应的用户类型，其中，多个用户类型决策树是分别利用不同用户属性集合训练得到的；

确定模块330，用于根据多个用户类型决策树输出的预测结果，确定目标用户的目标用户类型；

推荐模块340，用于确定与目标用户对应的用户类型相匹配的关键信息，以根据关键信息提取目标信息，并向目标用户推荐目标信息。

在本申请的一些实施例中，基于以上技术方案，信息推荐装置300还包括：

获取模块310，还用于获取多组历史用户信息，其中，每组历史用户信息分别对应一个用户类别，每组历史用户信息中含有至少一种用户属性，并且每种用户属性分别对应用户类别；

聚类分析模块，用于基于每组历史用户信息中含有的至少一种用户属性，对多组历史用户信息进行聚类分析，得到多组用户属性集合；

训练模块，用于将多组用户属性集合分别输入至多个用户类型决策树中，以通过各组用户属性集合中含有的各个用户属性以及各个用户属性对应的用户类别对用户类型决策树进行训练，获得多用户画像模型。

在本申请的一些实施例中，基于以上技术方案，聚类分析模块350包括：

属性集合获取单元，用于获取每组历史用户信息对应的属性值集合；

距离曲线确定单元，用于根据每组历史用户信息对应的属性值集合中的各个属性值以及第一预设密度阈值，确定各个属性值对应的最近邻域距离，并将最近邻域距离降序排列，以形成距离曲线；

聚类分析单元，确定距离曲线中的第一个谷值为第一邻域半径，并根据第一邻域半径和第一预设密度阈值对每组历史用户信息对应的属性值集合进行聚类分析，以得到多组用户属性集合。

确定模块330，还用于基于每组历史用户信息所对应的用户类别，确定每组历史用户信息中含有的缺失属性；

获取模块310，还用于根据缺失属性的数据类型，从缺失属性对应的历史用户信息中获取缺失属性的填充数据。

在本申请的一些实施例中，基于以上技术方案，获取模块310包括：

离散数据获取单元，用于若缺失属性的数据类型为离散数据，则将缺失属性对应的历史用户信息中出现频率最高的取值作为缺失属性的填充数据；或者

连续数据获取单元，用于若缺失属性的数据类型为连续数据，则将缺失属性对应的历史用户信息中的数据平均值作为缺失属性的填充数据。

获取模块310，还用于从多组历史用户信息中获取目标用户属性的属性值，得到属性值集合，目标用户属性对应的数据类型为连续数据；

噪声聚类分析模块，用于根据属性值集合中含有的属性值确定第二邻域半径以及第二预设密度阈值，并根据第二邻域半径以及第二预设密度阈值对属性值集合进行聚类分析，得到噪声值集合；

去除模块，用于根据噪声值集合去除多组历史用户信息中含有的噪声属性值。

确定模块330，还用于根据多组历史用户信息中含有的各个用户属性对应属性值范围，确定各个用户属性的参照值；

确定模块330，还用于根据各个用户属性的属性值与各个用户属性的参照值之间的比例，确定各个用户属性对应的标准值；

更新模块，用于根据各个用户属性对应的标准值对各个用户属性的属性值进行更新。

需要说明的是，上述实施例所提供的装置与上述实施例所提供的方法属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

图4示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。

需要说明的是，图4示出的电子设备的计算机***400仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，计算机***400包括中央处理单元(Central Processing Unit，CPU)401，其可以根据存储在只读存储器(Read-Only Memory，ROM)402中的程序或者从储存部分408加载到随机访问存储器(Random Access Memory，RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有***操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(Input/Output，I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分407；包括硬盘等的储存部分408；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入储存部分408。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的***中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种基于多用户画像模型的信息推荐方法，其特征在于，包括：

获取多组历史用户信息，其中，每组历史用户信息分别对应一个用户类别，所述每组历史用户信息中含有至少一种用户属性，并且每种用户属性分别对应所述用户类别；

基于所述每组历史用户信息中含有的至少一种用户属性，对所述多组历史用户信息进行聚类分析，得到多组用户属性集合；

将所述多组用户属性集合分别输入至多个用户类型决策树中，以通过各组用户属性集合中含有的各个用户属性以及所述各个用户属性对应的用户类别对所述用户类型决策树进行训练，获得所述多用户画像模型；

获取目标用户的用户信息；

将所述用户信息分别输入多用户画像模型中的各用户类型决策树，用户画像模型根据所述用户信息中的用户属性，获取目标用户属于各个用户类别的分数，其中，所述多个用户类型决策树是分别利用不同用户属性集合训练得到的，所述用户属性集合是根据多组历史用户信息的用户属性中进行聚类并提取得到的；

根据所述各用户类型决策树分别输出的目标用户属于各个用户类别的分数，求取所述目标用户各类别分数的和值，将分数和值最高的目标用户类别确定为所述目标用户的目标用户类型；

确定与所述目标用户对应的用户类型相匹配的关键信息，以根据所述关键信息提取目标信息，并向所述目标用户推荐所述目标信息；

其中，将所述多组用户属性集合分别输入至多个用户类型决策树中，以通过各组用户属性集合中含有的各个用户属性以及所述各个用户属性对应的用户类别对所述用户类型决策树进行训练，获得所述多用户画像模型，包括：

用户类型决策树通过不断的进行若条件X成立则进入条件X对应的分支并且继续询问，若条件Y成立则进入条件Y对应的分支并继续询问，直至将新用户分到最佳的类别中为止，来进行用户类别的预测，多用户画像模型的用户类型决策树使用用户类型决策树的等式来表示，所述用户类型决策树的等式为，其中logistic为logistic函数，x_i为新用户的用户属性，K指的是用户类型决策树的数量，f_k代表具体一用户类型决策树，F表示所有用户类型决策树；

根据所述用户类型决策树的等式，多用户画像模型的目标函数确定为，其中，/>表示一历史用户的用户类别，/>表示模型的预测用户类别，/>表示损失函数，/>表示正则项，该正则项由K棵用户类型决策树的正则化项相加得到；

分步优化目标函数，求取目标函数的最优值，对所述目标函数进行数学推算后，得到所述多用户画像模型的目标函数为，其中/>，/>，对该目标函数进行求解，找到最优的树结构，得到多用户画像模型。

2.根据权利要求1所述的方法，其特征在于，所述基于所述每组历史用户信息中含有的至少一种用户属性，对所述多组历史用户信息进行聚类分析，得到多组用户属性集，包括：

获取每组历史用户信息对应的属性值集合；

根据所述每组历史用户信息对应的属性值集合中的各个属性值以及第一预设密度阈值，确定所述各个属性值对应的最近邻域距离，并将所述最近邻域距离降序排列，以形成距离曲线；

确定所述距离曲线中的第一个谷值为第一邻域半径，并根据所述第一邻域半径和所述第一预设密度阈值对所述每组历史用户信息对应的属性值集合进行聚类分析，以得到多组用户属性集合。

3.根据权利要求1所述的方法，其特征在于，所述获取多组历史用户信息之后，所述方法还包括：

基于每组历史用户信息所对应的用户类别，确定所述每组历史用户信息中含有的缺失属性；

根据所述缺失属性的数据类型，从所述缺失属性对应的历史用户信息中获取所述缺失属性的填充数据。

4.根据权利要求3所述的方法，其特征在于，所述根据所述缺失属性的数据类型，从所述缺失属性对应的历史用户信息中获取所述缺失属性的填充数据，包括：

若所述缺失属性的数据类型为离散数据，则将所述缺失属性对应的历史用户信息中出现频率最高的取值作为所述缺失属性的填充数据；或者

若所述缺失属性的数据类型为连续数据，则将所述缺失属性对应的历史用户信息中的数据平均值作为所述缺失属性的填充数据。

5.根据权利要求1所述的方法，其特征在于，所述获取多组历史用户信息之后，所述方法还包括：

从所述多组历史用户信息中获取目标用户属性的属性值，得到属性值集合，所述目标用户属性对应的数据类型为连续数据；

根据所述属性值集合中含有的属性值确定第二邻域半径以及第二预设密度阈值，并根据所述第二邻域半径以及所述第二预设密度阈值对所述属性值集合进行聚类分析，得到噪声值集合；

根据所述噪声值集合去除所述多组历史用户信息中含有的噪声属性值。

6.根据权利要求1所述的方法，其特征在于，所述获取多组历史用户信息之后，所述方法还包括：

根据所述多组历史用户信息中含有的各个用户属性对应属性值范围，确定所述各个用户属性的参照值；

根据所述各个用户属性的属性值与所述各个用户属性的参照值之间的比例，确定所述各个用户属性对应的标准值；

根据所述各个用户属性对应的标准值对所述各个用户属性的属性值进行更新。

7.一种基于多用户画像模型的信息推荐装置，其特征在于，包括：

历史信息获取模块，用于获取多组历史用户信息，其中，每组历史用户信息分别对应一个用户类别，所述每组历史用户信息中含有至少一种用户属性，并且每种用户属性分别对应所述用户类别；

聚类分析模块，用于基于所述每组历史用户信息中含有的至少一种用户属性，对所述多组历史用户信息进行聚类分析，得到多组用户属性集合；

训练模块，用于将所述多组用户属性集合分别输入至多个用户类型决策树中，以通过各组用户属性集合中含有的各个用户属性以及所述各个用户属性对应的用户类别对所述用户类型决策树进行训练，获得所述多用户画像模型；

获取模块，用于获取目标用户的用户信息；

预测模块，用于将所述用户信息分别输入多用户画像模型中的各用户类型决策树，获取目标用户属于各个用户类别的分数，其中，所述多个用户类型决策树是分别利用不同用户属性集合训练得到的，所述用户属性集合是根据多组历史用户信息的用户属性中进行聚类并提取得到的；

确定模块，用于根据所述各用户类型决策树分别输出的目标用户属于各个用户类别的分数，求取所述目标用户各类别分数的和值，将分数和值最高的目标用户类别确定为所述目标用户的目标用户类型；

推荐模块，用于确定与所述目标用户对应的用户类型相匹配的关键信息，以根据所述关键信息提取目标信息，并向所述目标用户推荐所述目标信息;

其中，所述训练模块用于，

8.一种基于多用户画像模型的信息推荐设备，其特征在于，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-6中任一项所述的方法。