CN111966907A - 用户偏好冷启动方法、装置、介质和电子设备 - Google Patents

用户偏好冷启动方法、装置、介质和电子设备 Download PDF

Info

Publication number
CN111966907A
CN111966907A CN202010848898.3A CN202010848898A CN111966907A CN 111966907 A CN111966907 A CN 111966907A CN 202010848898 A CN202010848898 A CN 202010848898A CN 111966907 A CN111966907 A CN 111966907A
Authority
CN
China
Prior art keywords
user
attribute feature
processed
users
user attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010848898.3A
Other languages
English (en)
Inventor
陈迪
郭凯
李嘉晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seashell Housing Beijing Technology Co Ltd
Original Assignee
Beike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beike Technology Co Ltd filed Critical Beike Technology Co Ltd
Priority to CN202010848898.3A priority Critical patent/CN111966907A/zh
Publication of CN111966907A publication Critical patent/CN111966907A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种用户偏好冷启动方法、装置、介质以及电子设备。其中的方法包括:获取待处理用户的用户属性特征向量以及具有用户偏好标识的多个用户的用户属性特征向量;根据待处理用户的用户属性特征向量分别与多个用户的用户属性特征向量的距离,确定待处理用户的邻域范围;其中,邻域范围内的具有用户偏好标识的各用户的用户属性特征向量分别和待处理用户的用户属性特征向量的距离,与邻域范围外的具有用户偏好标识的各用户的用户属性特征向量分别和待处理用户的用户属性特征向量的距离,之间的关系满足预定条件;根据邻域范围内的具有用户偏好标识的用户的用户偏好,确定待处理用户的用户偏好。本公开提供的技术方案有利于更好的满足用户需求。

Description

用户偏好冷启动方法、装置、介质和电子设备
技术领域
本公开涉及计算机技术,尤其是涉及一种用户偏好冷启动方法、用户偏好冷启动装置、存储介质以及电子设备。
背景技术
由于用户偏好可以刻画出目标用户,并描述出用户诉求,因此,用户偏好可以用于需要为用户提供个性化服务的应用中,以便于促使为用户提供的服务能够更好的满足用户需求。
目前,通常是根据用户的网络访问行为推断用户偏好,且用户的网络访问行为越多,所推断出的用户偏好往往越准确。在用户的网络访问行为较少或者基本没有核心访问行为的情况下,往往无法推断出用户偏好。对于目前无法推断出用户偏好的用户,往往很难为用户提供个性化服务。如何在用户的网络访问行为较少或者基本没有核心访问行为的情况下,仍然能够较为准确的推断出该用户的用户偏好,是一个值得关注的技术问题。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种用户偏好冷启动方法、用户偏好冷启动装置、存储介质以及电子设备。
根据本公开实施例的一方面,提供一种用户偏好冷启动方法,该方法包括:获取待处理用户的用户属性特征向量以及具有用户偏好标识的多个用户的用户属性特征向量;根据所述待处理用户的用户属性特征向量分别与所述多个用户的用户属性特征向量的距离,确定所述待处理用户的邻域范围;其中,所述邻域范围内的具有用户偏好标识的各用户的用户属性特征向量分别和所述待处理用户的用户属性特征向量的距离,与所述邻域范围外的具有用户偏好标识的各用户的用户属性特征向量分别和所述待处理用户的用户属性特征向量的距离,之间的关系满足预定条件;根据所述邻域范围内的具有用户偏好标识的用户的用户偏好,确定所述待处理用户的用户偏好。
在本公开一实施方式中,所述获取待处理用户的用户属性特征向量以及具有用户偏好标识的多个用户的用户属性特征向量,包括:获取从多个数据源分别获得的各用户的部分用户属性信息;根据所述各用户的部分用户属性信息包含的标识,对所述各用户的部分用户属性信息进行合并处理,获得各用户的完整用户属性信息;将所述各用户的完整用户属性信息,映射为各用户的用户属性特征向量。
在本公开又一实施方式中,所述完整用户属性信息至少包括:用户的终端设备的应用安装信息,和/或,用户社会属性信息;所述获取从多个数据源分别获得的各用户的部分用户属性信息,包括:将来自一数据源处的各用户的终端设备的应用安装信息分别作为输入,提供给社会属性预测模型,经由所述社会属性预测模型对输入的各用户的终端设备的应用安装信息分别进行社会属性预测处理,获得各用户的用户社会属性信息。
在本公开再一实施方式中,所述将所述各用户的完整用户属性信息,映射为各用户的用户属性特征向量,包括:将所述各用户的完整用户属性信息,分别转换为基于第一维度的用户属性特征向量;将各用户的基于第一维度的用户属性特征向量分别作为输入,提供给编码模型,经由所述编码模型将所述各用户的基于第一维度的用户属性特征向量分别转换为基于第二维度的用户属性特征向量;其中,所述第一维度高于第二维度。
在本公开再一实施方式中,所述根据所述待处理用户的用户属性特征向量分别与所述多个用户的用户属性特征向量的距离,确定所述待处理用户的邻域范围,包括:根据多个预设邻域范围内的用户的用户属性特征向量分别与待处理用户的用户属性特征向量的距离、以及多个预设邻域范围外的用户的用户属性特征向量分别与待处理用户的用户属性特征向量的距离,之间的关系,将所述多个预设邻域范围中的关系满足预定条件的预设邻域范围作为所述待处理用户的邻域范围。
在本公开再一实施方式中,所述预定条件包括:所有预设邻域范围各自对应的关系中的最小值。
在本公开再一实施方式中,所述根据多个预设邻域范围内的用户的用户属性特征向量分别与待处理用户的用户属性特征向量的距离、以及多个预设邻域范围外的用户的用户属性特征向量分别与待处理用户的用户属性特征向量的距离,之间的关系,将所述多个预设邻域范围中的关系满足预定条件的预设邻域范围作为所述待处理用户的邻域范围,包括:获取所述待处理用户的用户属性特征向量分别与所述多个用户的用户属性特征向量的距离的平方,获得所述多个用户各自对应的数值;根据所述多个用户各自对应的数值,确定多个预设领域范围各自包含的用户;获取各预设邻域范围内的所有用户各自对应的数值的均值,获得每一个预设邻域范围的第一均值;获取各预设邻域范围外的所有用户各自对应的数值的均值,获得每一个预设邻域范围的第二均值;将各预设邻域范围的第一均值和第二均值的差值中的最小差值对应的预设邻域范围,作为所述待处理用户的邻域范围。
在本公开再一实施方式中,所述根据所述邻域范围内的具有用户偏好标识的用户的用户偏好,确定所述待处理用户的用户偏好,包括:根据所述待处理用户的用户属性特征向量与所述邻域范围内的具有用户偏好标识的所有用户的用户属性特征向量的距离,对所述邻域范围内的具有用户偏好标识的所有用户的用户偏好进行加权处理;根据所述加权处理的结果,获得所述待处理用户的用户偏好。
在本公开再一实施方式中,所述用户偏好包括:对标的物的至少一属性的各枚举值的偏好概率值;所述根据所述加权处理的结果,获得所述待处理用户的用户偏好,包括:针对所述标的物的任一属性,对所述加权处理获得的用户偏好中的该属性的各枚举值的加权值进行归一化处理,获得该属性的各枚举值的偏好概率值。
根据本公开实施例的另一个方面,提供一种用户偏好冷启动装置,该装置包括:获取特征向量模块,用于获取待处理用户的用户属性特征向量以及具有用户偏好标识的多个用户的用户属性特征向量;确定邻域范围模块,用于根据所述待处理用户的用户属性特征向量分别与所述多个用户的用户属性特征向量的距离,确定所述待处理用户的邻域范围;其中,所述邻域范围内的具有用户偏好标识的各用户的用户属性特征向量分别和所述待处理用户的用户属性特征向量的距离,与所述邻域范围外的具有用户偏好标识的各用户的用户属性特征向量分别和所述待处理用户的用户属性特征向量的距离,之间的关系满足预定条件;确定用户偏好模块,用于根据所述邻域范围内的具有用户偏好标识的用户的用户偏好,确定所述待处理用户的用户偏好。
在本公开一实施方式中,所述获取特征向量模块,包括:第一子模块,用于获取从多个数据源分别获得的各用户的部分用户属性信息;第二子模块,用于根据所述各用户的部分用户属性信息包含的标识,对所述各用户的部分用户属性信息进行合并处理,获得各用户的完整用户属性信息;第三子模块,用于将所述各用户的完整用户属性信息,映射为各用户的用户属性特征向量。
在本公开又一实施方式中,所述完整用户属性信息至少包括:用户的终端设备的应用安装信息,和/或,用户社会属性信息;所述第一子模块进一步用于:将来自一数据源处的各用户的终端设备的应用安装信息分别作为输入,提供给社会属性预测模型,经由所述社会属性预测模型对输入的各用户的终端设备的应用安装信息分别进行社会属性预测处理,获得各用户的用户社会属性信息。
在本公开再一实施方式中,所述第三子模块进一步用于:将所述各用户的完整用户属性信息,分别转换为基于第一维度的用户属性特征向量;将各用户的基于第一维度的用户属性特征向量分别作为输入,提供给编码模型,经由所述编码模型将所述各用户的基于第一维度的用户属性特征向量分别转换为基于第二维度的用户属性特征向量;其中,所述第一维度高于第二维度。
在本公开再一实施方式中,所述确定邻域范围模块进一步用于:根据多个预设邻域范围内的用户的用户属性特征向量分别与待处理用户的用户属性特征向量的距离、以及多个预设邻域范围外的用户的用户属性特征向量分别与待处理用户的用户属性特征向量的距离,之间的关系,将所述多个预设邻域范围中的关系满足预定条件的预设邻域范围作为所述待处理用户的邻域范围。
在本公开再一实施方式中,所述预定条件包括:所有预设邻域范围各自对应的关系中的最小值。
在本公开再一实施方式中,所述确定邻域范围模块包括:第四子模块,用于获取所述待处理用户的用户属性特征向量分别与所述多个用户的用户属性特征向量的距离的平方,获得所述多个用户各自对应的数值;第五子模块,用于根据所述多个用户各自对应的数值,确定多个预设领域范围各自包含的用户;第六子模块,用于获取各预设邻域范围内的所有用户各自对应的数值的均值,获得每一个预设邻域范围的第一均值;第七子模块,用于获取各预设邻域范围外的所有用户各自对应的数值的均值,获得每一个预设邻域范围的第二均值;第八子模块,用于将各预设邻域范围的第一均值和第二均值的差值中的最小差值对应的预设邻域范围,作为所述待处理用户的邻域范围。
在本公开再一实施方式中,所述确定用户偏好模块,包括:第九子模块,用于根据所述待处理用户的用户属性特征向量与所述邻域范围内的具有用户偏好标识的所有用户的用户属性特征向量的距离,对所述邻域范围内的具有用户偏好标识的所有用户的用户偏好进行加权处理;第十子模块,用于根据所述加权处理的结果,获得所述待处理用户的用户偏好。
在本公开再一实施方式中,所述用户偏好包括:对标的物的至少一属性的各枚举值的偏好概率值;所述第十子模块进一步用于:针对所述标的物的任一属性,对所述加权处理获得的用户偏好中的该属性的各枚举值的加权值进行归一化处理,获得该属性的各枚举值的偏好概率值。
基于本公开上述实施例提供的一种用户偏好冷启动方法和装置,通过针对邻域范围内的具有用户偏好标识的各用户的用户属性特征向量分别和待处理用户的用户属性特征向量的距离、以及邻域范围外的具有用户偏好标识的各用户的用户属性特征向量分别和待处理用户的用户属性特征向量的距离,之间的关系,设置预定条件,有利于为待处理用户确定出较为合适的邻域范围,从而本公开不仅能有利于尽可能的降低由于待处理用户的邻域范围设置的过大,而导致的在确定待处理用户的用户偏好的过程中引入过多噪声的现象,而且有利于尽可能的避免由于待处理用户的邻域范围设置的过小,而导致的用于确定待处理用户的用户偏好的基础数据不够全面的现象;因此,本公开利用邻域范围内的具有用户偏好标识的用户的用户偏好,来确定待处理用户的用户偏好,有利于提高推断出的待处理用户的用户偏好的准确性。由此可知,本公开提供的技术方案有利于更好的满足用户需求,最终有利于提高目标行为(如标的物成交行为或者成功委托行为或者用户留联系方式行为等)的发生概率。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开的用户偏好冷启动方法一个实施例的流程图;
图2为本公开的自编码模型的训练过程一实施例的流程图;
图3为本公开的确定待处理用户的邻域范围一实施例的流程图;
图4为本公开的获得待处理用户的用户偏好的一实施例的流程图;
图5为本公开的用户偏好冷启动装置一个实施例的结构示意图;
图6为本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或者两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开的实施例可以应用于终端设备、计算机***、服务器等电子设备,其可与众多其它通用或者专用计算***环境或配置一起操作。适于与终端设备、计算机***或者服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于:个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***和包括上述任何***的分布式云计算技术环境等等。
终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施。在分布式云计算环境中,任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算***存储介质上。
本公开概述
在实现本公开的过程中,发明人发现,在用户的网络访问行为较少或者基本没有核心访问行为的情况下,由于无法基于用户的网络访问行为推断出用户偏好,因此,通常会采用默认规则为用户提供服务。例如,在信息推送过程中,可以使用兜底策略,确定向用户推送的信息。该信息推送方式很可能会使推送的信息的CTR(Click-Through-Rate,点击通过率)不理想,从而可能会造成信息推送资源的浪费、商机浪费以及标的物的展位浪费等资源浪费现象。如果能够在用户的网络访问行为较少或者基本没有核心访问行为的情况下,较为准确的推断出用户偏好,则有利于减小对用户的个性化服务产生的偏差,从而有利于提高推送的信息的CTR,进而有利于避免上述资源浪费现象。
示例性概述
本公开提供的用户偏好冷启动的技术的应用场景的一个例子如下:
在房产领域,提供一房产网站的一方,可以在每天的固定时间(如凌晨1点等),利用当前时间之前的业务数据,为当前时间之前(如前一天)访问过其提供的房产网站的用户,设置用户偏好。对于首次访问该房产网站的新用户,如果新用户的网络访问行为较多,则可以基于该新用户的网络访问行为推断新用户的用户偏好。如果新用户的网络访问行为较少或者基本没有核心访问行为,则可以利用本公开提供的用户偏好冷启动的技术为每一个这样的新用户分别设置用户偏好。
在房源卡片推送过程中,假设当前存在多个用户分别使用各自的终端设备(如计算机或者智能移动电话等)访问房产网站。提供该房产网站的一方可以先获取多个用户中的每一个用户的用户偏好,并根据多个用户各自的用户偏好,分别确定与每一个用户的用户偏好各自相符的房源卡片,并向每一个用户的终端设备分别推送相应的房源卡片。如果用户对推送的房源卡片感兴趣,则用户会通过点击房源卡片或者点击房源卡片中的链接等方式,查看相应房源的详细信息。
示例性方法
图1为本公开的用户偏好冷启动方法一个实施例的流程图。图1所示的实施例的方法包括步骤:S100、S101以及S102。下面对各步骤分别进行说明。
S100、获取待处理用户的用户属性特征向量以及具有用户偏好标识的多个用户的用户属性特征向量。
本公开中的待处理用户可以是指不具有用户偏好标识的用户。例如,对于房产领域而言,如果一用户在最近一段时间内对一房产网站的网络访问行为较少或者基本不存在核心访问行为,则提供房产网站的一方往往无法根据该用户的网络访问行为,确定出该用户的用户偏好,本公开可以将这样的用户作为待处理用户。
本公开中的核心访问行为可以是指特定的网络访问行为,例如,用户对网站中的标的物的详情页的浏览行为、用户产生商机行为或者用户与会话方对话行为等较为重要的网络访问行为。
本公开中的标的物在不同应用场景可以表现为不同的内容。例如,在房产领域,本公开中的标的物可以为房屋。再例如,在商品零售领域,本公开中的标的物可以为零售商品等。
本公开中的具有用户偏好标识的用户可以是指已经根据用户的网络访问行为,推断出用户偏好的用户。例如,对于房产领域而言,如果一用户在最近一段时间内对一房产网站的网络访问行为(包括核心访问行为)较多,则提供房产网站的一方可以根据该用户的网络访问行为,推断出该用户的用户偏好,本公开可以将这样的用户作为具有用户偏好标识的用户。
本公开中的用户属性特征向量可以是指以特征向量形式表示的用户属性。本公开中的用户属性可以是指用于描述用户自身所具有的特点以及与用户相关的物品所具有的特点等信息。与用户相关的物品如用户的终端设备、用户居住的房屋以及用户出行的交通工具等。例如,用户的终端设备所使用的操作***、用户居住的房屋的面积、出租/自购、以及用户的车辆的品牌等。
本公开可以根据多个数据源各自提供的信息,获取到待处理用户的用户属性特征向量以及具有用户偏好标识的多个用户的用户属性特征向量。
S101、根据待处理用户的用户属性特征向量分别与多个用户的用户属性特征向量的距离,确定待处理用户的邻域范围。
本公开中的待处理用户的邻域范围可以是指,以待处理用户的用户属性特征向量在特征向量空间中的位置为圆心,以一定的距离为半径,所形成的圆。本公开在确定待处理用户的邻域范围时,应使邻域范围内的具有用户偏好标识的各用户的用户属性特征向量分别和待处理用户的用户属性特征向量的距离,与邻域范围外的具有用户偏好标识的各用户的用户属性特征向量分别和待处理用户的用户属性特征向量的距离,之间的关系满足预定条件。也就是说,本公开设置了预定条件,并以该预定条件为原则,以待处理用户的用户属性特征向量分别与多个用户的用户属性特征向量的距离为数据基础,寻找待处理用户的邻域范围。
S102、根据邻域范围内的具有用户偏好标识的用户的用户偏好,确定待处理用户的用户偏好。
本公开可以通过对邻域范围内的具有用户偏好标识的所有/部分用户的用户偏好进行计算,并将计算结果作为待处理用户的用户偏好。本公开也可以将邻域范围内的所有具有用户偏好标识的用户中的其中一个用户的用户偏好,作为待处理用户的用户偏好。
对于一应用领域而言,本公开中的用户偏好可以反映出用户对该应用领域中的标的物(如房屋或者零售商品等)的至少一属性的多个枚举值(如所有枚举值)的喜好程度或者倾向程度等。本公开中的标的物的属性可以是指用于描述标的物自身所具有的特点的信息。例如,对于房产领域而言,本公开中的标的物的属性可以包括:房屋性质、房屋位置、房屋面积、厅室结构、房屋类型以及房屋结构等中的一个或者多个。在一个例子中,其中的房屋性质可以包括:新房以及二手房等枚举值。其中的房屋位置可以包括:二环内、二环至三环之间、三环至四环之间、四环至五环之间、五环到六环之间以及六环之外等枚举值。其中的房屋面积可以包括:40平方米以内、40-60平方米、60-80平方米、80-100平方米、100-140平方米以及140平方米以上等枚举值。其中的厅室结构可以包括:开间、一室一厅、二室一厅、三室一厅、四室一厅以及五室一厅等枚举值。其中的房屋类型可以包括:普通住宅以及别墅等枚举值。其中的房屋结构可以包括:砖混结构以及非砖混结构等枚举值。
在不同应用领域中,本公开中的标的物的属性以及属性的枚举值,通常会随着网站提供的标的物的不同而不同,本公开不限定标的物的属性以及属性的枚举值的具体数量以及具体内容等。
本公开通过针对邻域范围内的具有用户偏好标识的各用户的用户属性特征向量分别和待处理用户的用户属性特征向量的距离、以及邻域范围外的具有用户偏好标识的各用户的用户属性特征向量分别和待处理用户的用户属性特征向量的距离,之间的关系设置预定条件,有利于为待处理用户确定出较为合适的邻域范围,从而本公开不仅能有利于尽可能的降低由于待处理用户的邻域范围设置的过大,而导致的在确定待处理用户的用户偏好的过程中引入过多噪声的现象,而且有利于尽可能的避免由于待处理用户的邻域范围设置的过小,而导致的用于确定待处理用户的用户偏好的基础数据不够全面的现象;因此,本公开利用邻域范围内的具有用户偏好标识的用户的用户偏好,来确定待处理用户的用户偏好,有利于提高推断出的待处理用户的用户偏好的准确性。由此可知,本公开提供的技术方案有利于更好的满足用户需求,最终有利于提高目标行为(如标的物成交行为或者成功委托行为或者用户留联系方式行为等)的发生概率。
在一个可选示例中,本公开可以基于多个数据源分别提供的各用户的部分用户属性信息,获得各用户的用户属性特征向量。也就是说,不同的数据源往往只提供每一个用户的一部分用户属性信息,本公开可以对不同数据源各自提供的各用户的部分用户属性信息进行整合处理,形成各用户的完整的用户属性信息,并基于各用户的完整的用户属性信息获得各用户的用户属性特征向量。
可选的,本公开中的多个数据源通常包括两种类型,一种是内部类型的数据源,一种是外部类型的数据源。内部类型的数据源可以是指由推断用户偏好的网络侧自己生产的数据所形成的数据源。内部类型的数据源也可以称为***内数据源。外部类型的数据源可以是指不是网络侧自己生产的数据所形成的数据源。外部类型的数据源也可以称为***外数据源。外部类型的数据源可以通过购置等方式获得。
可选的,针对任一用户而言,不同数据源各自提供的该用户的部分用户属性信息,可以存在交集,也可以完全不存在交集。不同数据源提供的各用户的部分属性信息通常存储于不同数据库或者表或者文件中。每一个数据源提供的各用户的部分属性信息通常均包含有标识,如用户标识或用户的终端设备的标识等。本公开可以通过对来自不同数据源的各用户的部分用户属性信息中的标识进行关联,从而使来自不同数据源的各用户的部分用户属性信息被整合,进而可以获得各用户的完整用户属性信息。之后,本公开可以对各用户的完整用户属性信息进行映射处理,获得各用户的用户属性特征向量。
由于从一个数据源获得的各用户的用户属性信息通常具有一定的局限性,因此,本公开通过对来自不同数据源的各用户的用户属性信息进行整合处理,可以获得更为全面的用户属性信息,从而有利于使用户的用户属性特征向量能够更全面的描述用户。
在一个可选示例中,本公开中的完整用户属性信息至少包括:用户的终端设备的应用安装信息、以及或用户社会属性信息中的至少一个。其中的用户的终端设备的应用安装信息可以是指用于表示用户的终端设备中具体安装的至少部分应用的信息。例如,假设目前应用市场上有n种APP,则用户的终端设备的应用安装信息可以包括:是否安装有APP1、是否安装有APP2、……、是否安装有APPn-1以及是否安装有APPn等。其中的n可以为千级别或者万级别的数值。由此可知,用户的终端设备的应用安装信息通常为高维稀疏信息。其中的用户社会属性信息可以包括:用户的地理位置(如用户所在城市)、用户年龄、用户性别以及用户从属的职业等人口统计学方面的社会属性信息。
可选的,本公开可以利用各用户的终端设备的应用安装信息,来推断各用户的用户社会属性信息。例如,本公开可以将来自一数据源处的各用户的终端设备的应用安装信息分别作为输入,提供给社会属性预测模型,经由该社会属性预测模型对输入的各用户的终端设备的应用安装信息分别进行社会属性预测处理,从而本公开可以根据社会属性预测模型针对每一个用户的输出,获得各用户的用户社会属性信息。本公开的社会属性预测模型可以为:采用随机森林算法建立的预测模型。
可选的,本公开的完整用户属性信息还可以包括:用户生活状态信息。用户生活状态信息可以是指用于描述用户的生活情况的信息。例如,用户生活状态信息可以包括:用户是否有车、用户是否有房、用户是否参与过国外旅游、用户是否有留学经历、……、用户是否为安卓用户、以及用户是否为IOS用户等。用户生活状态信息通常也为高维稀疏信息。
本公开通过利用用户的终端设备的应用安装信息,来推断用户社会属性信息,并将用户的终端设备的应用安装信息、用户社会属性信息、以及用户生活状态信息作为完整用户属性信息,有利于获得更为全面的用户属性信息,从而有利于使用户的用户属性特征向量能够更全面的描述用户。
在一个可选示例中,本公开中的各用户的完整用户属性信息的维度通常较高,例如,维度可以为几万维等。为了方便后续的处理,本公开可以对完整用户属性信息进行降维处理,从而获得较低维度的用户属性特征向量。具体的,本公开可以先将各用户的完整用户属性信息,分别转换为特征向量的形式,即基于第一维度的用户属性特征向量,然后,再将各用户的基于第一维度的用户属性特征向量分别作为输入,提供给编码模型,经由该编码模型将各用户的基于第一维度的用户属性特征向量分别转换为基于第二维度的用户属性特征向量。其中的第二维度通常远远低于第一维度。例如,第二维度可以为第一维度的十分之一或者更小。
可选的,本公开中的编码模型可以为自编码模型(如AutoEncoder)。该自编码模型通常为一神经网络。该自编码模型可以包括:输入层、至少一隐含层以及输出层。本公开可以根据最后一层隐含层的输出,获得基于第二维度的用户属性特征向量。
可选的,假设自编码模型的输入层提供给隐含层的信息表示为X,且X具体为(x1,x2,....,xn),则最后一层隐含层的输出可以表示为Y,且Y=F(X)+B。该自编码模型的输出层的输出通常在训练过程中被使用,该输出层的输出可以表示为X'=G(Y)+B。另外,X’可以具体为(x1',x2',....,xn')。上述F(*)、G(*)以及B的取值可以在自编码模型的训练过程中确定,成功训练后的自编码模型应使X与X’尽可能的相近。
本公开对自编码模型进行训练的一个过程可以如图2所示。
图2中,S200、将训练集合中的多个用户的基于第一维度的用户属性特征向量,分别提供给自编码模型的输入层。
可选的,本公开可以利用待处理用户以及具有用户偏好标识的所有用户中的一部分用户的基于第一维度的用户属性特征向量,形成训练集合。另外,本公开可以利用待处理用户以及具有用户偏好标识的所有用户中的另一部分用户的基于第一维度的用户属性特征向量,形成测试集合。本公开可以根据预定批处理数量从训练集合中读取出相应数量的用户的基于第一维度的用户属性特征向量。
S201、自编码模型的各隐含层依次对其层的输入进行处理,最后一层隐含层输出的多个用户的基于第二维度的用户属性特征向量,被提供给自编码模型的输出层。
S202、自编码模型的输出层对其层的输入进行还原处理,使提供给输出层的多个用户的基于第二维度的用户属性特征向量分别被还原为基于第一维度的用户属性特征向量。
S203、根据自编码模型的输入层接收到的多个用户的基于第一维度的用户属性特征向量,与自编码模型的输出层输出的相应用户的基于第一维度的用户属性特征向量,形成的损失,调整自编码模型的网络参数。
可选的,本公开可以利用相应的损失函数,对自编码模型输入的多个用户的基于第一维度的用户属性特征向量和自编码模型输出的多个用户的基于第一维度的用户属性特征向量,进行损失计算,并将计算出的损失在自编码模型中进行反向传播,以便于更新自编码模型的权值矩阵等网络参数。在针对该自编码模型的训练达到预定迭代条件时,本次针对该自编码模型的训练过程结束。
可选的,本公开中的预定迭代条件可以包括:自编码模型的输出层针对测试集合中的多个用户的基于第一维度的用户属性特征向量输出的基于第一维度的用户属性特征向量,与测试集合中的相应用户的基于第一维度的用户属性特征向量,形成的损失达到预定要求。在自编码模型针对测试集合中的多个用户的基于第一维度的用户属性特征向量输出的基于第一维度的用户属性特征向量,与测试集合中的相应用户的基于第一维度的用户属性特征向量,所形成的损失,达到预定要求的情况下,本次对该自编码模型成功训练完成。
可选的,本公开中的预定迭代条件还可以包括:对自编码模型进行训练,所使用的训练集合中的用户的基于第一维度的用户属性特征向量的数量已经达到预定数量要求等。在使用的用户的基于第一维度的用户属性特征向量的数量达到预定数量要求,然而,该自编码模型针对测试集合中的测试集合中的多个用户的基于第一维度的用户属性特征向量输出的基于第一维度的用户属性特征向量,与测试集合中的相应用户的基于第一维度的用户属性特征向量,所形成的损失,未达到预定要求的情况下,本次对该自编码模型并未训练成功。成功训练完成的自编码模型可以用于对用户的基于第一维度的用户属性特征向量进行压缩处理。
本公开通过利用自编码模型,可以便捷的获得各用户的基于第二维度的用户属性特征向量。由于自编码模型可以在不需要为训练集合和测试集合中的各用户的基于第一维度的用户属性特征向量,设置标注信息的情况下,完成训练,从而有利于降低自编码模型训练过程的时间成本和人力成本,进而有利于提高本公开的技术方案的可实施性。
在一个可选示例中,本公开可以预先设置多个预设邻域范围(如至少三个预设邻域范围),并从多个预设邻域范围内选取一个预设邻域范围,本公开可以将该选取的预设邻域范围作为待处理用户的邻域范围。具体的,本公开可以根据每一个预设邻域范围内的用户的用户属性特征向量分别与待处理用户的用户属性特征向量的距离、以及每一个预设邻域范围外的用户的用户属性特征向量分别与待处理用户的用户属性特征向量的距离,对所有预设邻域范围进行筛选,并将筛选出的一个预设邻域范围作为待处理用户的邻域范围。
可选的,本公开中的预设邻域范围可以是根据经验值设置,例如,本公开可以利用实际数据进行多次实验,并根据多次实验的结果设置预设邻域范围的数量以及大小。
可选的,针对任一预设邻域范围而言,本公开可以针对该预设邻域范围内的多个用户(如所有用户)的用户属性特征向量分别与待处理用户的用户属性特征向量的距离进行计算处理,获得一数值,并针对预设邻域范围外的多个用户(如所有用户)的用户属性特征向量分别与待处理用户的用户属性特征向量的距离进行计算处理,获得另一数值。本公开可以针对每一个邻域预设邻域范围,均获得两个数值,本公开可以通过对各预设邻域范围的两个数值进行计算比较,并根据计算比较结果,将其中的一个预设邻域范围作为待处理用户的邻域范围。也就是说,本公开中的预定条件是针对各预设邻域范围的两个数值的计算结果进行比较而设置的。例如,预定条件可以为:所有预设邻域范围各自对应的计算结果中的最小值。
经过发明人的实际验证,本公开预先设置多个预设邻域范围,并基于距离计算结果和预定条件,对多个预设邻域范围进行筛选,并将筛选出的预设邻域范围作为待处理用户的邻域范围,与在整个特征向量空间中逐步搜索待处理用户的邻域范围,所产生的结果,应用在后续确定待处理用户的用户偏好过程中,所产生的效果的差异较小,然而,本公开的基于计算结果将其中一个预设邻域范围作为待处理用户的邻域范围的方式,占用的计算资源更少,更为高效,从而有利于提高本公开的技术方案的可实施性。
在一个可选示例中,本公开将多个预设邻域范围中的其中一个预设邻域范围作为待处理用户的邻域范围的一个例子,如图3所示。
图3中,S300、获取待处理用户的用户属性特征向量分别与多个用户的用户属性特征向量的距离的平方,获得多个用户各自对应的数值。
可选的,本公开中的两个用户的用户属性特征向量的距离可以为欧几里得距离。假设待处理用户的用户属性特征向量为m维特征向量,多个用户中的每一个用户的用户属性特征向量也为m维特征向量,则待处理用户的用户属性特征向量与多个用户中的任一用户的用户属性特征向量的距离的平方为:
Di=(x1-y1)2+(x2-y2)2+......+(xm-ym)2 公式(1)
在上述公式(1)中,Di表示多个用户中的第i个用户的用户属性特征向量与待处理用户的用户属性特征向量的距离的平方,即Di表示第i个用户对应的数值;(x1,x2,......,xm)为待处理用户的用户属性特征向量;(y1,y2,......,ym)为第i个用户的用户属性特征向量。
S301、根据多个用户各自对应的数值,确定多个预设领域范围各自包含的用户。
可选的,假设多个预设邻域范围按照从小到大的顺序进行排列,则多个预设邻域范围分别为:r1,r2,......rz,即r1小于r2,……,rz-1小于rz,且z为多个预设邻域范围的数量。在上述假设的情况下,如果多个用户中的第i个用户对应的数值Di位于rj-1和rj之间(即Di大于rj-1,且小于等于rj),则认为第i个用户为预设领域范围rj包含的用户。
在一个例子总,本公开中的预设领域范围的数量为3,r1的取值为0.1,r2的取值为0.5,r3的取值为1。
S302、获取各预设邻域范围内的所有用户各自对应的数值的均值,获得每一个预设邻域范围的第一均值。
可选的,针对任一预设邻域范围而言,本公开可以先计算该预设邻域范围内的所有用户各自对应的数值之和,然后,将该和值与该预设邻域范围内的所有用户的数量的商,作为该预设邻域范围的第一均值。
S303、获取各预设邻域范围外的所有用户各自对应的数值的均值,获得每一个预设邻域范围的第二均值。
可选的,针对任一预设邻域范围而言,本公开可以先计算不属于该预设邻域范围的所有用户各自对应的数值之和,然后,将该和值与不属于该预设邻域范围的所有用户的数量的商,作为该预设邻域范围的第二均值。
S304、将各预设邻域范围的第一均值和第二均值的差值中的最小差值对应的预设邻域范围,作为待处理用户的邻域范围。
可选的,针对任一预设邻域范围而言,本公开可以计算该预设邻域范围的第一均值和第二均值的差值(该差值通常为负值),从而获得每一个预设邻域范围各自对应的差值,通过对所有的差值进行比较,可以获得其中的最小差值,该最小差值对应的预设邻域范围即为待处理用户的邻域范围。如果对每一个预设邻域范围各自对应的差值取绝对值的话,则可以将最大绝对值对应的预设邻域范围作为待处理用户的邻域范围。也就是说,本公开的预定条件可以为差值最小。
本公开通过计算距离的平方,并利用计算的结果来确定第一均值和第二均值,有利于避免由于用户数量较多而使距离计算导致计算量较大的现象;通过比较第一均值和第二均值的差值的大小,有利于使选取出的待处理用户的邻域范围内的用户与邻域范围外的用户在用户属性特征向量上的差异最大,从而不仅有利于尽可能的降低由于待处理用户的邻域范围设置的过大,而导致的在确定待处理用户的用户偏好的过程中引入过多噪声的现象,而且有利于尽可能的避免由于待处理用户的邻域范围设置的过小,而导致的用于确定待处理用户的用户偏好的基础数据不够全面的现象;最终有利于提高推断出的待处理用户的用户偏好的准确性。
在一个可选示例中,本公开可以通过对待处理用户的邻域范围内的所有用户的用户偏好进行加权处理的方式,获得待处理用户的用户偏好。一个具体的例子如图4所示。
图4中,S400、根据待处理用户的用户属性特征向量与邻域范围内的具有用户偏好标识的所有用户的用户属性特征向量的距离(如欧几里得距离),对邻域范围内的具有用户偏好标识的所有用户的用户偏好进行加权处理。
可选的,假设待处理用户的用户属性特征向量为m维特征向量,待处理用户的邻域范围内的每一个用户的用户属性特征向量也为m维特征向量,则待处理用户的用户属性特征向量与其邻域范围中的任一用户的用户属性特征向量的距离可以为:
Figure BDA0002644070850000171
在上述公式(2)中,D'i表示待处理用户的邻域范围内的具有用户偏好标识的所有用户中的第i个用户的用户属性特征向量与待处理用户的用户属性特征向量之间的距离;(x1,x2,......,xm)为待处理用户的用户属性特征向量;(y1,y2,......,ym)为待处理用户的邻域范围内的具有用户偏好的所有用户中的第i个用户的用户属性特征向量。
可选的,假设待处理用户的邻域范围内具有用户偏好标识的所有用户的数量为m1个,即用户1、用户2、……以及用户m1,假设待处理用户为用户A,则本公开可以计算出用户A和用户1之间的距离D'1、用户A和用户2之间的距离D'2、……以及用户A和用户m1之间的距离D'm1。假设标的物的任一属性的枚举值为m2个,则用户在该属性上的用户偏好为m2维。
如果用户1在该属性上的用户偏好为(b11,b12,......,b1m2),用户2在该属性上的用户偏好为(b21,b22,......,b2m2),……,用户m1在该属性上的用户偏好为(bm11,bm12,......,bm1m2),则对用户1在该属性上的用户偏好、用户2在该属性上的用户偏好、……以及用户m1在该属性上的用户偏好进行加权处理,可以采用下述公式(3)实现:
Figure BDA0002644070850000172
在上述公式(3)中,p表示加权处理结果,且p可以认为是待处理用户在该属性上的用户偏好初始值。
S401、根据上述加权处理的结果,获得待处理用户的用户偏好。
可选的,本公开可以根据预设规则,对上述加权处理的结果进行处理,并将处理结果作为待处理用户在标的物的各属性上的用户偏好。例如,上述预设规则可以为:用户在任一属性的所有枚举值上的偏好概率值之和为1,此时,对加权处理的结果所进行的处理可以为归一化处理。即本公开可以对加权处理获得的待处理用户在标的物的各属性上的用户偏好初始值进行归一化处理,从而获得待处理用户在标的物的各属性的各枚举值上的偏好概率值。
可选的,假设标的物的任一属性的枚举值为m2个,则用户在该属性上的用户偏好为m2维。对于本公开的归一化处理可以使用下述公式(4)表示:
Figure BDA0002644070850000181
在上述公式(4)中,p'表示待处理用户在标的物的一属性的各枚举值上的偏好概率值;
Figure BDA0002644070850000182
以及
Figure BDA0002644070850000183
的和为1;
Figure BDA0002644070850000184
Figure BDA0002644070850000185
(b11,b12,......,b1m2)为用户1在该属性上的用户偏好,(b21,b22,......,b2m2)为用户2在该属性上的用户偏好,……,(bm11,bm12,......,bm1m2)为用户m1在该属性上的用户偏好;用户1、用户2、……以及用户m1为待处理用户的邻域范围内的具有用户偏好标识的所有用户。
本公开通过利用邻域范围内的具有用户偏好标识的用户的用户属性特征向量与待处理用户的用户属性特征向量的距离,对邻域范围内的具有用户偏好标识的用户的用户偏好进行加权处理,有利于提高推断出的待处理用户的用户偏好的准确性;由于邻域范围内的具有用户偏好标识的用户的数量通常较少,因此,计算邻域范围内的具有用户偏好标识的所有用户的用户属性特征向量分别与待处理用户的用户属性特征向量的距离,所耗费的计算资源通常较少,且对计算效率的影响较小;通过对加权处理结果进行归一化处理,有利于使待处理用户在标的物的各属性的枚举值上的用户偏好更为合理。
示例性装置
图5为本公开的用户偏好冷启动装置一个实施例的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。
如图5所示,本实施例的装置可以包括:获取特征向量模块500、确定邻域范围模块501、以及确定用户偏好模块502。
获取特征向量模块500用于获取待处理用户的用户属性特征向量以及具有用户偏好标识的多个用户的用户属性特征向量。
可选的,获取特征向量模块500可以包括:第一子模块5001、第二子模块5002以及第三子模块5003。其中的第一子模块5001用于获取从多个数据源分别获得的各用户的部分用户属性信息。在本公开的完整用户属性信息至少包括:用户的终端设备的应用安装信息和/或用户社会属性信息的情况下,第一子模块5001可以将来自一数据源处的各用户的终端设备的应用安装信息分别作为输入提供给社会属性预测模型,经由该社会属性预测模型对输入的各用户的终端设备的应用安装信息分别进行社会属性预测处理,获得各用户的用户社会属性信息。其中的第二子模块5002用于根据各用户的部分用户属性信息包含的标识,对各用户的部分用户属性信息进行合并处理,获得各用户的完整用户属性信息。其中的第三子模块5003用于将各用户的完整用户属性信息,映射为各用户的用户属性特征向量。例如,第三子模块5003可以先将各用户的完整用户属性信息,分别转换为基于第一维度的用户属性特征向量,然后,第三子模块5003将各用户的基于第一维度的用户属性特征向量分别作为输入,提供给编码模型,经由编码模型将各用户的基于第一维度的用户属性特征向量分别转换为基于第二维度的用户属性特征向量。其中的第一维度高于第二维度。例如,第一维度通常远远高于第二维度。
确定邻域范围模块501用于根据待处理用户的用户属性特征向量分别与多个用户的用户属性特征向量的距离,确定待处理用户的邻域范围。其中的邻域范围内的具有用户偏好标识的各用户的用户属性特征向量分别和待处理用户的用户属性特征向量的距离,与邻域范围外的具有用户偏好标识的各用户的用户属性特征向量分别和待处理用户的用户属性特征向量的距离,之间的关系满足预定条件。
可选的,确定邻域范围模块501可以根据多个预设邻域范围内的用户的用户属性特征向量分别与待处理用户的用户属性特征向量的距离、以及多个预设邻域范围外的用户的用户属性特征向量分别与待处理用户的用户属性特征向量的距离,将多个预设邻域范围中的关系满足预定条件的预设邻域范围作为待处理用户的邻域范围。
可选的,确定邻域范围模块501可以包括:第四子模块5011、第五子模块5012、第六子模块5013、第七子模块5014以及第八子模块5015。其中的第四子模块5011用于获取待处理用户的用户属性特征向量分别与多个用户的用户属性特征向量的距离的平方,获得多个用户各自对应的数值。其中的第五子模块5012用于根据多个用户各自对应的数值,确定多个预设领域范围各自包含的用户。其中的第六子模块5013用于获取各预设邻域范围内的所有用户各自对应的数值的均值,获得每一个预设邻域范围的第一均值。其中的第七子模块5014用于获取各预设邻域范围外的所有用户各自对应的数值的均值,获得每一个预设邻域范围的第二均值。其中的第八子模块5015用于将各预设邻域范围的第一均值和第二均值的差值中的最小差值对应的预设邻域范围,作为待处理用户的邻域范围。
确定用户偏好模块502用于根据邻域范围内的具有用户偏好标识的用户的用户偏好,确定待处理用户的用户偏好。
可选的,确定用户偏好模块502可以包括:第九子模块5021以及第十子模块5022。其中的第九子模块5021用于根据待处理用户的用户属性特征向量与邻域范围内的具有用户偏好标识的所有用户的用户属性特征向量的距离,对邻域范围内的具有用户偏好标识的所有用户的用户偏好进行加权处理。其中的第十子模块5022用于根据第九子模块5021获得的加权处理的结果,获得待处理用户的用户偏好。例如,在用户偏好包括:对标的物的至少一属性的各枚举值的偏好概率值的情况下,针对标的物的任一属性,第十子模块5022可以对加权处理获得的用户偏好中的该属性的各枚举值的加权值进行归一化处理,获得该属性的各枚举值的偏好概率值。
上述各模块及其包括的子模块和单元具体执行的操作可以参见上述方法实施例中针对图1-图4的描述,在此不再详细说明。
示例性电子设备
下面参考图6来描述根据本公开实施例的电子设备。图6示出了根据本公开实施例的电子设备的框图。如图6所示,电子设备61包括一个或多个处理器611和存储器612。
处理器611可以是中央处理单元(CPU)或者具有用户偏好冷启动的能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备61中的其他组件以执行期望的功能。
存储器612可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器,例如,可以包括:随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器,例如,可以包括:只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器611可以运行所述程序指令,以实现上文所述的本公开的各个实施例的用户偏好冷启动方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备61还可以包括:输入装置613以及输出装置614等,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。此外,该输入设备613还可以包括例如键盘、鼠标等等。该输出装置614可以向外部输出各种信息。该输出设备614可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图6中仅示出了该电子设备61中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备61还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的用户偏好冷启动方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的用户偏好冷启动方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括:具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备以及***。诸如“包括”、“包含、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述,以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言,是非常显而易见的,并且在此定义的一般原理可以应用于其他方面,而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种用户偏好冷启动方法,包括:
获取待处理用户的用户属性特征向量以及具有用户偏好标识的多个用户的用户属性特征向量;
根据所述待处理用户的用户属性特征向量分别与所述多个用户的用户属性特征向量的距离,确定所述待处理用户的邻域范围;其中,所述邻域范围内的具有用户偏好标识的各用户的用户属性特征向量分别和所述待处理用户的用户属性特征向量的距离,与所述邻域范围外的具有用户偏好标识的各用户的用户属性特征向量分别和所述待处理用户的用户属性特征向量的距离,之间的关系满足预定条件;
根据所述邻域范围内的具有用户偏好标识的用户的用户偏好,确定所述待处理用户的用户偏好。
2.根据权利要求1所述的方法,其中,所述获取待处理用户的用户属性特征向量以及具有用户偏好标识的多个用户的用户属性特征向量,包括:
获取从多个数据源分别获得的各用户的部分用户属性信息;
根据所述各用户的部分用户属性信息包含的标识,对所述各用户的部分用户属性信息进行合并处理,获得各用户的完整用户属性信息;
将所述各用户的完整用户属性信息,映射为各用户的用户属性特征向量。
3.根据权利要求2所述的方法,其中,所述完整用户属性信息至少包括:用户的终端设备的应用安装信息,和/或,用户社会属性信息;
所述获取从多个数据源分别获得的各用户的部分用户属性信息,包括:
将来自一数据源处的各用户的终端设备的应用安装信息分别作为输入,提供给社会属性预测模型,经由所述社会属性预测模型对输入的各用户的终端设备的应用安装信息分别进行社会属性预测处理,获得各用户的用户社会属性信息。
4.根据权利要求2或3所述的方法,其中,所述将所述各用户的完整用户属性信息,映射为各用户的用户属性特征向量,包括:
将所述各用户的完整用户属性信息,分别转换为基于第一维度的用户属性特征向量;
将各用户的基于第一维度的用户属性特征向量分别作为输入,提供给编码模型,经由所述编码模型将所述各用户的基于第一维度的用户属性特征向量分别转换为基于第二维度的用户属性特征向量;
其中,所述第一维度高于第二维度。
5.根据权利要求1至4中任一项所述的方法,其中,所述根据所述待处理用户的用户属性特征向量分别与所述多个用户的用户属性特征向量的距离,确定所述待处理用户的邻域范围,包括:
根据多个预设邻域范围内的用户的用户属性特征向量分别与待处理用户的用户属性特征向量的距离、以及多个预设邻域范围外的用户的用户属性特征向量分别与待处理用户的用户属性特征向量的距离,之间的关系,将所述多个预设邻域范围中的关系满足预定条件的预设邻域范围作为所述待处理用户的邻域范围。
6.根据权利要求5所述的方法,其中,所述预定条件包括:所有预设邻域范围各自对应的关系中的最小值。
7.根据权利要求6所述的方法,其中,所述根据多个预设邻域范围内的用户的用户属性特征向量分别与待处理用户的用户属性特征向量的距离、以及多个预设邻域范围外的用户的用户属性特征向量分别与待处理用户的用户属性特征向量的距离,之间的关系,将所述多个预设邻域范围中的关系满足预定条件的预设邻域范围作为所述待处理用户的邻域范围,包括:
获取所述待处理用户的用户属性特征向量分别与所述多个用户的用户属性特征向量的距离的平方,获得所述多个用户各自对应的数值;
根据所述多个用户各自对应的数值,确定多个预设领域范围各自包含的用户;
获取各预设邻域范围内的所有用户各自对应的数值的均值,获得每一个预设邻域范围的第一均值;
获取各预设邻域范围外的所有用户各自对应的数值的均值,获得每一个预设邻域范围的第二均值;
将各预设邻域范围的第一均值和第二均值的差值中的最小差值对应的预设邻域范围,作为所述待处理用户的邻域范围。
8.一种用户偏好冷启动装置,其中,所述装置包括:
获取特征向量模块,用于获取待处理用户的用户属性特征向量以及具有用户偏好标识的多个用户的用户属性特征向量;
确定邻域范围模块,用于根据所述待处理用户的用户属性特征向量分别与所述多个用户的用户属性特征向量的距离,确定所述待处理用户的邻域范围;其中,所述邻域范围内的具有用户偏好标识的各用户的用户属性特征向量分别和所述待处理用户的用户属性特征向量的距离,与所述邻域范围外的具有用户偏好标识的各用户的用户属性特征向量分别和所述待处理用户的用户属性特征向量的距离,之间的关系满足预定条件;
确定用户偏好模块,用于根据所述邻域范围内的具有用户偏好标识的用户的用户偏好,确定所述待处理用户的用户偏好。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7中任一项所述的方法。
10.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7中任一项所述的方法。
CN202010848898.3A 2020-08-21 2020-08-21 用户偏好冷启动方法、装置、介质和电子设备 Pending CN111966907A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010848898.3A CN111966907A (zh) 2020-08-21 2020-08-21 用户偏好冷启动方法、装置、介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010848898.3A CN111966907A (zh) 2020-08-21 2020-08-21 用户偏好冷启动方法、装置、介质和电子设备

Publications (1)

Publication Number Publication Date
CN111966907A true CN111966907A (zh) 2020-11-20

Family

ID=73391162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010848898.3A Pending CN111966907A (zh) 2020-08-21 2020-08-21 用户偏好冷启动方法、装置、介质和电子设备

Country Status (1)

Country Link
CN (1) CN111966907A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779946A (zh) * 2016-12-16 2017-05-31 Tcl集团股份有限公司 一种电影推荐方法及装置
CN108052534A (zh) * 2017-11-15 2018-05-18 南京邮电大学 一种基于地理特征的房地产推荐方法
CN108665323A (zh) * 2018-05-20 2018-10-16 北京工业大学 一种用于理财产品推荐***的集成方法
US20190243923A1 (en) * 2018-02-08 2019-08-08 Adobe Inc. Online diverse set generation from partial-click feedback

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779946A (zh) * 2016-12-16 2017-05-31 Tcl集团股份有限公司 一种电影推荐方法及装置
CN108052534A (zh) * 2017-11-15 2018-05-18 南京邮电大学 一种基于地理特征的房地产推荐方法
US20190243923A1 (en) * 2018-02-08 2019-08-08 Adobe Inc. Online diverse set generation from partial-click feedback
CN108665323A (zh) * 2018-05-20 2018-10-16 北京工业大学 一种用于理财产品推荐***的集成方法

Similar Documents

Publication Publication Date Title
US9727633B1 (en) Centroid detection for clustering
US8763131B2 (en) Mobile application security score calculation
JP2020177670A (ja) 情報推奨方法、情報推奨装置、機器および媒体
US20190035015A1 (en) Method and apparatus for obtaining a stable credit score
US10937070B2 (en) Collaborative filtering to generate recommendations
CN110148053B (zh) 用户信贷额度评估方法、装置、电子设备和可读介质
CN112256973B (zh) 用户画像修正方法、装置、介质和电子设备
US20140337275A1 (en) Method and system for scaling panels
US20230013086A1 (en) Systems and Methods for Using Machine Learning Models to Automatically Identify and Compensate for Recurring Charges
CN112070545B (zh) 用于优化信息触达的方法、装置、介质和电子设备
US20130179418A1 (en) Search ranking features
CN112348592A (zh) 广告推荐方法、装置、电子设备及介质
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN111210109A (zh) 基于关联用户预测用户风险的方法、装置和电子设备
CN111626898B (zh) 用于实现事件归因的方法、装置、介质和电子设备
CN111460286B (zh) 信息推荐方法、装置、电子设备及介质
CN111523032A (zh) 确定用户偏好的方法、装置、介质和电子设备
CN111753208B (zh) 确定用户可比属性收敛度的方法、装置、介质和电子设备
CN111966907A (zh) 用户偏好冷启动方法、装置、介质和电子设备
JP6660168B2 (ja) 情報提供装置、情報提供方法、及びプログラム
CN112116393B (zh) 用于实现事件用户维护的方法、装置和设备
CN112016791B (zh) 资源分配方法、装置及电子设备
CN113159877B (zh) 数据处理方法、装置、***、计算机可读存储介质
CN114219664A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN113849731A (zh) 基于自然语言处理的信息推送方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210319

Address after: 100085 Floor 101 102-1, No. 35 Building, No. 2 Hospital, Xierqi West Road, Haidian District, Beijing

Applicant after: Seashell Housing (Beijing) Technology Co.,Ltd.

Address before: Unit 05, room 112, 1st floor, office building, Nangang Industrial Zone, economic and Technological Development Zone, Binhai New Area, Tianjin 300457

Applicant before: BEIKE TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20201120

RJ01 Rejection of invention patent application after publication