CN115203573A - 画像标签生成方法、模型训练方法、装置、介质及芯片 - Google Patents

画像标签生成方法、模型训练方法、装置、介质及芯片 Download PDF

Info

Publication number
CN115203573A
CN115203573A CN202210900152.1A CN202210900152A CN115203573A CN 115203573 A CN115203573 A CN 115203573A CN 202210900152 A CN202210900152 A CN 202210900152A CN 115203573 A CN115203573 A CN 115203573A
Authority
CN
China
Prior art keywords
sample
user
target
target user
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210900152.1A
Other languages
English (en)
Inventor
刘贤德
朱佳晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd, Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN202210900152.1A priority Critical patent/CN115203573A/zh
Publication of CN115203573A publication Critical patent/CN115203573A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种画像标签生成方法、模型训练方法、装置、介质及芯片。方法包括:获取目标用户数据,目标用户数据为目标用户使用目标终端中各类应用程序的使用记录;根据目标用户数据,通过预设的用户画像识别模型生成目标用户的目标用户画像标签,目标用户画像标签用于表示目标用户的至少一种属性;其用户画像识别模型为根据预设的训练集对初始模型进行机器学习训练得到。这样,可以根据目标用户使用目标终端中各类应用程序的使用记录进行用户画像标签生成,能够从目标用户的多模态、多元数据中充分挖掘用户的特征信息,从而提升用户画像标签预测的准确性。

Description

画像标签生成方法、模型训练方法、装置、介质及芯片
技术领域
本公开涉及计算机技术领域,尤其涉及一种画像标签生成方法、模型训练方法、装置、介质及芯片。
背景技术
用户画像旨在从用户相关数据中挖掘和抽取用户典型特征进行区分,简单来说,就是用户信息标签化。完备且准确的“标签化”的用户模型作为底层数据基础,将有力揭示用户本质特征,从而极大地促进上层的个性化服务,如精准营销、智能推荐、信息检索等。用户画像的核心工作就是给用户打标签,标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、兴趣等。其中,相关技术中,通常基于用户的单一行为数据生成用户画像的标签,由于数据源单一,难以充分挖掘用户信息,导致用户画像标签预测准确性受到影响。
发明内容
为克服相关技术中存在的问题,本公开提供一种画像标签生成方法、模型训练方法、装置、介质及芯片。
根据本公开实施例的第一方面,提供一种用户画像标签的生成方法,包括:
获取目标用户数据,其中,所述目标用户数据为目标用户使用目标终端中各类应用程序的使用记录;
根据所述目标用户数据,通过预设的用户画像识别模型生成所述目标用户的目标用户画像标签,所述目标用户画像标签用于表示所述目标用户的至少一种属性;
其中,所述用户画像识别模型为根据预设的训练集对初始模型进行机器学习训练得到,所述训练集包括多个训练样本,每个训练样本包括一个用户数据样本和与所述用户数据样本对应的标签样本,所述用户数据样本为样本用户使用样本终端中各类应用程序的使用记录,所述标签样本用于表示所述样本用户的所述至少一种属性。
可选地,所述根据所述目标用户数据,通过预设的用户画像识别模型生成所述目标用户的目标用户画像标签,包括:
对所述目标用户数据进行结构化处理,得到结构化的目标用户数据,其中,所述结构化的目标用户数据包括所述目标用户对所述目标终端的多种使用行为的目标键值对型数据和/或目标数组型数据,所述目标键值对型数据用于表示所述目标用户对所述目标终端的相应使用行为的行为类型,所述目标数组型数据用于表示所述目标用户对所述目标终端的相应使用行为的行为序列;
将所述结构化的目标用户数据输入预设的用户画像识别模型,得到所述目标用户的目标用户画像标签。
可选地,所述结构化的目标用户数据包括所述目标用户对所述目标终端的多种使用行为的目标键值对型数据和目标数组型数据;
所述用户画像识别模型包括:多层感知机网络模块、长短期序列网络模块以及生成模块;
其中,所述多层感知机网络模块,用于根据所述多种使用行为的目标键值对型数据,生成第一特征向量,并根据所述第一特征向量,预测所述目标用户画像标签的第一概率分布;
所述长短期序列网络模块,用于根据所述多种使用行为的目标数组型数据,生成第二特征向量,并根据所述第二特征向量,预测所述目标用户画像标签的至少一个第二概率分布;
所述生成模块,与所述多层感知机网络模块、所述长短期序列网络模块分别连接,用于根据所述第一概率分布和所述至少一个第二概率分布,生成所述目标用户画像标签。
可选地,所述用户画像识别模型还包括全连接模块;
其中,所述全连接模块,与所述多层感知机网络模块、所述长短期序列网络模块以及所述生成模块分别连接,用于根据所述第一特征向量和所述第二特征向量,预测所述目标用户画像标签的第三概率分布;
所述生成模块,用于根据所述第一概率分布、所述至少一个第二概率分布以及所述第三概率分布,生成所述目标用户画像标签。
可选地,所述长短期序列网络模块包括与所述多种使用行为一一对应的多个长短期序列网络单元;
其中,所述长短期序列网络单元,用于根据与该长短期序列网络单元对应的使用行为的目标数组型数据,生成与该长短期序列网络单元对应的使用行为的特征子向量,并根据该特征子向量,预测所述目标用户画像标签的第二概率分布,其中,所述第二特征向量包括每一所述使用行为的特征子向量。
可选地,所述长短期序列网络模块包括拼接单元和长短期序列网络单元;其中,所述拼接单元,用于根据将每一所述使用行为的目标数组型数据进行拼接,得到拼接序列;
所述长短期序列网络单元,与所述拼接单元连接,用于根据所述拼接序列,生成第二特征向量,并根据所述第二特征向量,预测所述目标用户画像标签的第二概率分布。
可选地,所述用户画像识别模型通过以下方式训练得到:
对所述用户数据样本进行结构化处理,得到结构化的用户数据样本,其中,所述结构化的用户数据样本包括所述样本用户对所述样本终端的多种使用行为的样本键值对型数据和样本数组型数据,所述样本键值对型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为类型,所述样本数组型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为序列;
通过将所述多种使用行为的样本键值对型数据作为所述多层感知机网络模块的输入,将所述多种使用行为的样本数组型数据作为所述长短期序列网络模块的输入,将所述多层感知机网络模块根据所述多种使用行为的样本键值对型数据生成的第三特征向量、所述长短期序列网络模块根据所述多种使用行为的样本数组型数据生成的第四特征向量作为所述全连接模块的输入,将所述多层感知机网络模块的输出、所述长短期序列网络模块的输出以及所述全连接模块的输出作为所述生成模块的输入,并将所述标签样本作为所述生成模块的目标输出的方式进行模型训练,以得到所述用户画像识别模型。
根据本公开实施例的第二方面,提供一种用户画像识别模型的训练方法,包括:
获取训练集,其中,所述训练集包括多个训练样本,每个训练样本包括一个用户数据样本和与所述用户数据样本对应的标签样本,所述用户数据样本为样本用户使用样本终端中各类应用程序的使用记录,所述标签样本用于表示所述样本用户的至少一种属性;
根据所述训练集对初始模型进行机器学习训练,得到用户画像识别模型。
可选地,所述初始模型包括多层感知机网络模块、长短期序列网络模块、生成模块以及全连接模块;
所述根据所述训练集对初始模型进行机器学习训练,得到用户画像识别模型,包括:
对所述用户数据样本进行结构化处理,得到结构化的用户数据样本,其中,所述结构化的用户数据样本包括所述样本用户对所述样本终端的多种使用行为的样本键值对型数据和样本数组型数据,所述样本键值对型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为类型,所述样本数组型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为序列;
通过将所述多种使用行为的样本键值对型数据作为所述多层感知机网络模块的输入,将所述多种使用行为的样本数组型数据作为所述长短期序列网络模块的输入,将所述多层感知机网络模块根据所述多种使用行为的样本键值对型数据生成的第三特征向量、所述长短期序列网络模块根据所述多种使用行为的样本数组型数据生成的第四特征向量作为所述全连接模块的输入,将所述多层感知机网络模块的输出、所述长短期序列网络模块的输出以及所述全连接模块的输出作为所述生成模块的输入,并将所述标签样本作为所述生成模块的目标输出的方式进行模型训练,以得到所述用户画像识别模型。
根据本公开实施例的第三方面,提供一种用户画像标签的生成装置,包括:
第一获取模块,被配置获取目标用户数据,其中,所述目标用户数据为目标用户使用目标终端中各类应用程序的使用记录;
生成模块,被配置为根据所述第一获取模块获取到的所述目标用户数据,通过预设的用户画像识别模型生成所述目标用户的目标用户画像标签,所述目标用户画像标签用于表示所述目标用户的至少一种属性;
其中,所述用户画像识别模型为根据预设的训练集对初始模型进行机器学习训练得到,所述训练集包括多个训练样本,每个训练样本包括一个用户数据样本和与所述用户数据样本对应的标签样本,所述用户数据样本为样本用户使用样本终端中各类应用程序的使用记录,所述标签样本用于表示所述样本用户的所述至少一种属性。
根据本公开实施例的第四方面,提供一种用户画像识别模型的训练装置,包括:
第二获取模块,被配置为获取训练集,其中,所述训练集包括多个训练样本,每个训练样本包括一个用户数据样本和与所述用户数据样本对应的标签样本,所述用户数据样本为样本用户使用样本终端中各类应用程序的使用记录,所述标签样本用于表示所述样本用户的至少一种属性;
第一训练模块,被配置为根据所述第二获取模块获取到的所述训练集对初始模型进行机器学习训练,得到用户画像识别模型。
根据本公开实施例的第五方面,提供一种用户画像标签的生成装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
实现本公开第一方面所提供的用户画像标签的生成方法的步骤。
根据本公开实施例的第六方面,提供一种用户画像标签的生成装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
实现本公开第二方面所提供的用户画像识别模型的训练方法的步骤。
根据本公开实施例的第七方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的用户画像标签的生成方法的步骤或者本公开第二方面所提供的用户画像识别模型的训练方法的步骤。
根据本公开实施例的第八方面,提供一种芯片,包括处理器和接口;所述处理器用于读取指令以执行本公开第一方面所提供的用户画像标签的生成方法或者本公开第二方面所提供的用户画像识别模型的训练方法。
本公开的实施例提供的技术方案可以包括以下有益效果:首先,获取目标用户数据,其中,目标用户数据为目标用户使用目标终端中各类应用程序的使用记录;之后,根据目标用户数据,通过预设的用户画像识别模型生成目标用户的目标用户画像标签,目标用户画像标签用于表示目标用户的至少一种属性。其中,用户画像识别模型为根据预设的训练集对初始模型进行机器学习训练得到。这样,可以根据目标用户使用目标终端中各类应用程序的使用记录进行用户画像标签生成,能够从目标用户的多模态、多元数据中充分挖掘用户特征信息,从而提升用户画像标签预测的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种用户画像标签的生成方法的流程图。
图2是根据一示例性实施例示出的一种用户画像识别模型的结构示意图。
图3是根据另一示例性实施例示出的一种用户画像识别模型的结构示意图。
图4是根据一示例性实施例示出的一种用户画像识别模型的训练方法的流程图。
图5是根据一示例性实施例示出的一种用户画像识别模型的训练方法的流程图。
图6是根据一示例性实施例示出的一种用户画像标签的生成装置的框图。
图7是根据一示例性实施例示出的一种用户画像识别模型的训练装置的框图。
图8是根据一示例性实施例示出的一种用于用户画像标签生成的装置的框图。
图9是根据一示例性实施例示出的一种用于用户画像标签生成的装置的框图。
图10是根据一示例性实施例示出的一种用于用户画像识别模型的训练的装置的框图。
图11是根据一示例性实施例示出的一种用于用户画像识别模型的训练的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
需要说明的是,本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
图1是根据一示例性实施例示出的一种用户画像标签的生成方法的流程图,其中,该方法可以应用于终端,也可以应用于服务器,本公开不作具体限定。如图1所示,该用户画像标签的生成方法可以包括以下S101和S102。
在S101中,获取目标用户数据。
在本公开中,在接收到用户画像标签生成指令时,获取目标用户数据,其中,目标用户数据为目标用户使用目标终端中各类应用程序的使用记录。
在S102中,根据目标用户数据,通过预设的用户画像识别模型生成目标用户的目标用户画像标签。
在本公开中,目标用户画像标签用于表示目标用户的至少一种属性,其中,该属性可以例如是可以是性别、年龄、地域等自然属性,也可以是兴趣、爱好等行为属性。示例地,目标用户画像标签用于表征用户的性别、年龄、地域、兴趣、爱好中的任一者。
本公开的实施例提供的技术方案可以包括以下有益效果:首先,获取目标用户数据,其中,目标用户数据为目标用户使用目标终端中各类应用程序的使用记录;之后,根据目标用户数据,通过预设的用户画像识别模型生成目标用户的目标用户画像标签,目标用户画像标签用于表示目标用户的至少一种属性。其中,用户画像识别模型为根据预设的训练集对初始模型进行机器学习训练得到。这样,可以根据目标用户使用目标终端中各类应用程序的使用记录进行用户画像标签生成,能够从目标用户的多模态、多元数据中充分挖掘用户特征信息,从而提升用户画像标签预测的准确性。
下面针对上述S102中的根据目标用户数据,通过预设的用户画像识别模型生成目标用户的目标用户画像标签的具体实施方式进行详细说明,具体来说,可以通过以下步骤(1)和步骤(2)来实现:
(1)对目标用户数据进行结构化处理,得到结构化的目标用户数据。
在本公开中,可以通过大数据技术(例如,通过Spark框架)对目标用户数据进行结构化处理,得到结构化的目标用户数据。
在一种实施方式中,结构化的目标用户数据包括目标用户对目标终端的多种使用行为的目标键值对型数据,其中,目标键值对型数据用于表示目标用户对目标终端的相应使用行为的行为类型,键用于表征用户数据的含义,例如,应用程序A的使用时长等,值用于表征相应键的数值。
示例地,多种使用行为可以包括浏览行为、广告点击行为、购买行为等。其中,浏览行为包括浏览器浏览和搜索行为,广告点击行是指用户点击广告的行为。
在另一种实施方式中,结构化的目标用户数据包括目标用户对目标终端的多种使用行为的目标数组型数据,目标数组型数据用于表示目标用户对目标终端的相应使用行为的行为序列。
针对序列型的目标用户数据,结构化处理操作可以包括向量化处理,示例地,可以采用Word2vec模型对序列型目标用户数据中的每一元素进行向量化处理。
例如,应用程序行为的序列数据为“应用程序A、应用程序B、……、应用程序N”,可以对应用程序A、应用程序B、……、应用程序N分别进行向量化处理,得到目标用户的应用程序行为的目标序列数据“应用程序A的向量表示、应用程序B的向量表示、……、应用程序N的向量表示”。
在又一种实施方式中,结构化的目标用户数据包括目标用户对目标终端的多种使用行为的目标键值对型数据和目标数组型数据,这样,可以基于目标用户的多种不同使用行为的数组型数据和键值对型数据,进行用户画像标签生成,能够从目标用户的多模态、多元数据中充分挖掘用户的统计信息和时序信息,从而提升用户画像标签预测的准确性。
(2)将结构化的目标用户数据输入预设的用户画像识别模型,得到目标用户的目标用户画像标签。
在结构化的目标用户数据包括目标用户对目标终端的多种使用行为的目标键值对型数据和目标数组型数据的情况下,如图2所示,上述用户画像识别模型可以包括:多层感知机网络模块、长短期序列网络模块以及生成模块。
其中,多层感知机网络模块,用于根据多种使用行为的目标键值对型数据,生成第一特征向量,并根据第一特征向量,预测目标用户画像标签的第一概率分布,其中,第一概率分布包括目标用户的上述至少一种属性中每一属性的各属性值对应的概率。
例如,目标用户画像标签用于表示目标用户的性别属性,该性别属性包括“男”和“女”两个属性值,则目标用户画像标签的第一概率分布包括:“男”对应的概率、“女”对应的概率。
又例如,目标用户画像标签用于表示目标用户的性别属性和爱好属性,性别属性包括“男”和“女”两个属性值,爱好属性包括“运动”和“文学”两个属性值,则目标用户画像标签的第一概率分布包括:“男”对应的概率、“女”对应的概率、“运动”对应的概率以及“文学对应的概率”。
长短期序列网络模块,用于根据多种使用行为的目标数组型数据,生成第二特征向量,并根据第二特征向量,预测目标用户画像标签的至少一个第二概率分布。
生成模块,与多层感知机网络模块、长短期序列网络模块分别连接,用于根据第一概率分布和至少一个第二概率分布,生成目标用户画像标签。
具体来说,生成模块可以根据第一概率分布和至少一个第二概率分布,通过多种方式来生成目标用户画像标签,在一种实施方式中,可以通过以下步骤1)~步骤3)来实现:
1)根据第一概率分布,生成目标用户的第一候选用户画像标签。
具体来说,在目标用户画像标签用于表示目标用户的一种属性的情况下,可以将第一概率分布中的最大值对应的属性值确定为目标用户的第一候选用户画像标签。
在目标用户画像标签用于表示目标用户的多种属性的情况下,可以针对该多种属性中的每一属性,将第一目标概率对应的属性值确定为该属性的第一候选用户画像标签,其中,第一目标概率为第一概率分布中、与该属性对应的概率中的最大值;之后,将多种属性中的每一属性的第一候选用户画像标签共同作为目标用户的第一候选用户画像标签。
2)针对至少一个第二概率分布中的每一第二概率分布,根据该第二概率分布,生成目标用户的第二候选用户画像标签。
具体来说,可以针对每一第二概率分布,根据该第二概率分布,可以通过方式来生成目标用户的第二候选用户画像标签:
在目标用户画像标签用于表示目标用户的一种属性的情况下,可以将该第二概率分布中的最大值对应的属性值确定为目标用户的第二候选用户画像标签。
在目标用户画像标签用于表示目标用户的多种属性的情况下,可以针对该多种属性中每一属性,将第二目标概率对应的属性值确定为该属性的第二候选用户画像标签,其中,第二目标概率为该第二概率分布中、与该属性对应的概率中的最大值;之后,将多种属性中每一属性的第二候选用户画像标签共同作为目标用户的第二候选用户画像标签。
3)基于第一候选用户画像标签和每一第二候选用户画像标签,生成目标用户画像标签。
具体来说,在目标用户画像标签用于表示目标用户的一种属性的情况下,可以将第一候选用户画像标签和每一第二候选用户画像标签中出现次数最多者确定为目标用户画像标签。
在目标用户画像标签用于表示目标用户的多种属性的情况下,可以针对每一属性,将该属性的第一候选用户画像标签和该属性的每一第二候选用户画像标签中出现次数最多者确定为该属性对应的目标画像标签;之后,将多种属性中每一属性对应的目标画像标签共同作为目标用户画像标签。
在另一种实施方式中,可以通过以下步骤①和步骤②来实现:
①将第一概率分布、每一第二概率分布相加,得到目标概率分布。
②根据目标概率分布,生成目标用户画像标签。
具体来说,在目标用户画像标签用于表示目标用户的一种属性的情况下,可以将目标概率分布中的最大值对应的属性值确定为目标用户画像标签。
在目标用户画像标签用于表示目标用户的多种属性的情况下,可以针对该多种属性中每一属性,将第三目标概率对应的属性值确定为该属性对应的目标画像标签,其中,第三目标概率为目标概率分布中、与该属性对应的概率中的最大值;之后,将多种属性中每一属性对应的目标画像标签共同作为目标用户画像标签。
如图3所示,上述用户画像识别模型除了包括多层感知机网络模块、长短期序列网络模块以及生成模块外,还可以包括全连接模块。
其中,全连接模块,与多层感知机网络模块、长短期序列网络模块以及生成模块分别连接,用于根据第一特征向量和第二特征向量,预测目标用户画像标签的第三概率分布。
生成模块,用于根据第一概率分布、至少一个第二概率分布以及第三概率分布,生成目标用户画像标签。
具体来说,生成模块可以根据第一概率分布、至少一个第二概率分布以及第三概率分布,通过多种方式来生成目标用户画像标签,在一种实施方式中,可以通过以下步骤[1]~步骤[4]来实现:
[1]根据第一概率分布,生成目标用户的第一候选用户画像标签。
[2]针对至少一个第二概率分布中的每一第二概率分布,根据该第二概率分布,生成目标用户的第二候选用户画像标签。
[3]根据第三概率分布,生成目标用户的第三候选用户画像标签。
在本公开中,可以采用与上述步骤1)中根据第一概率分布,生成目标用户的第一候选用户画像标签类似的方式,根据第三概率分布,生成目标用户的第三候选用户画像标签,这里不再赘述。
[4]基于第一候选用户画像标签、每一第二候选用户画像标签以及第三候选用户画像标签,生成目标用户画像标签。
具体来说,在目标用户画像标签用于表示目标用户的一种属性的情况下,可以将第一候选用户画像标签、每一第二候选用户画像标签、第三候选用户画像标签中出现次数最多者确定为目标用户画像标签。
在目标用户画像标签用于表示目标用户的多种属性的情况下,可以针对每一属性,将该属性的第一候选用户画像标签、该属性的每一第二候选用户画像标签、该属性的第三候选用户画像标签中出现次数最多者确定为该属性对应的目标画像标签;之后,将多种属性中每一属性对应的目标画像标签共同作为目标用户画像标签。
在另一种实施方式中,可以通过以下步骤a和步骤b来实现:
a.将第一概率分布、每一第二概率分布以及第三概率相加,得到目标概率分布。
b.根据目标概率分布,生成目标用户画像标签。
在上述实施方式中,在生成目标用户画像标签时,除了参考多层感知机网络模块输出的第一概率分布和长短期序列网络模块输出的至少一个第二概率分布外,还参考了根据目标键值对型数据和目标数组型数据的融合特征预测得到的第三概率分布,由此,可以进一步提升用户画像标签预测的准确性。
下面针对上述长短期序列网络模块的具体结构进行详细说明。具体来说,多层感知机网络模块可以具有多种不同的结构形式,在一种实施方式中,长短期序列网络模块包括与多种使用行为一一对应的多个长短期序列网络单元。其中,长短期序列网络单元,用于根据与该长短期序列网络单元对应的使用行为的目标数组型数据,生成与该长短期序列网络单元对应的使用行为的特征子向量,并根据该特征子向量,预测目标用户画像标签的第二概率分布,其中,第二特征向量包括上述多种使用行为中每一使用行为的特征子向量。
示例地,上述多种使用行为包括浏览行为、广告点击行为,则长短期序列网络模块包括与浏览行为对应的长短期序列网络单元、与广告点击行为对应的长短期序列网络单元,其中,与浏览行为对应的长短期序列网络单元用于根据浏览行为的目标数组型数据,生成浏览行为的特征子向量,并根据浏览行为的特征子向量,预测目标用户画像标签的第二概率分布;与广告点击行为对应的长短期序列网络单元用于根据广告点击行为的目标数组型数据,生成广告点击行为的特征子向量,并根据广告点击行为的特征子向量,预测目标用户画像标签的第二概率分布。
在另一种实施方式中,长短期序列网络模块包括拼接单元和长短期序列网络单元;其中,拼接单元,用于根据多种使用行为中的每一使用行为的目标数组型数据进行拼接,得到拼接序列;长短期序列网络单元,与拼接单元连接,用于根据拼接序列,生成第二特征向量,并根据第二特征向量,预测目标用户画像标签的第二概率分布。
上述长短期序列网络单元可以为例是长短期记忆网络(LSTM,Long Short-TermMemory)。
另外,在结构化的目标用户数据包括目标用户对目标终端的多种使用行为的目标键值对型数据情况下,上述用户画像识别模型可以包括:多层感知机网络模块和生成模块。
其中,多层感知机网络模块,用于根据多种使用行为的目标键值对型数据,生成第一特征向量,并根据第一特征向量,预测目标用户画像标签的第一概率分布,其中,第一概率分布包括目标用户的上述至少一种属性中每一属性的各属性值对应的概率。
生成模块,与多层感知机网络模块连接,用于根据第一概率分布,生成目标用户画像标签。
具体来说,在目标用户画像标签用于表示目标用户的一种属性的情况下,生成模块可以将第一概率分布中的最大值对应的属性值确定为目标用户画像标签。
在目标用户画像标签用于表示目标用户的多种属性的情况下,可以针对该多种属性中的每一属性,将第一目标概率对应的属性值确定为该属性的第一候选用户画像标签,其中,第一目标概率为第一概率分布中、与该属性对应的概率中的最大值;之后,将多种属性中的每一属性的第一候选用户画像标签共同作为目标用户画像标签。
在结构化的目标用户数据包括目标用户对目标终端的多种使用行为的目标数组型数据的情况下,上述用户画像识别模型可以包括:长短期序列网络模块以及生成模块。
其中,长短期序列网络模块,用于根据多种使用行为的目标数组型数据,生成第二特征向量,并根据第二特征向量,预测目标用户画像标签的至少一个第二概率分布。
生成模块,与长短期序列网络模块分别连接,用于根据至少一个第二概率分布,生成目标用户画像标签。
在一种实施方式中,生成模块可以针对每一第二概率分布,根据该第二概率分布,可以通过方式来生成目标用户的第二候选用户画像标签;之后,可以根据每一第二候选用户画像标签,生成目标用户画像标签。
具体来说,生成模块可以根据每一第二候选用户画像标签,通过以下方式来生成目标用户画像标签:
在目标用户画像标签用于表示目标用户的一种属性的情况下,可以将每一第二候选用户画像标签中出现次数最多者确定为目标用户画像标签。
在目标用户画像标签用于表示目标用户的多种属性的情况下,可以针对每一属性,将该属性的每一第二候选用户画像标签中出现次数最多者确定为该属性对应的目标画像标签;之后,将多种属性中每一属性对应的目标画像标签共同作为目标用户画像标签。
下面针对上述图3中所示的用户画像识别模型的训练方式进行详细说明。具体来说,可以通过图4中所示的S401和S402来训练得到用户画像识别模型:
在S401中,对用户数据样本进行结构化处理,得到结构化的用户数据样本。
在本公开中,结构化的用户数据样本包括样本用户对样本终端的多种使用行为的样本键值对型数据和样本数组型数据,样本键值对型数据用于表示样本用户对样本终端的相应使用行为的行为类型,样本数组型数据用于表示样本用户对样本终端的相应使用行为的行为序列。
在S402中,通过将多种使用行为的样本键值对型数据作为多层感知机网络模块的输入,将多种使用行为的样本数组型数据作为长短期序列网络模块的输入,将多层感知机网络模块根据多种使用行为的样本键值对型数据生成的第三特征向量、长短期序列网络模块根据多种使用行为的样本数组型数据生成的第四特征向量作为全连接模块的输入,将多层感知机网络模块的输出、长短期序列网络模块的输出以及全连接模块的输出作为生成模块的输入,并将标签样本作为生成模块的目标输出的方式进行模型训练,以得到用户画像识别模型。
本公开还提供一种用户画像识别模型的训练方法,如图5所示,该训练方法可以包括以下S501和S502。
在S501中,获取训练集。
其中,训练集包括多个训练样本,每个训练样本包括一个用户数据样本、与用户数据样本对应的标签样本,用户数据样本为样本用户使用样本终端中各类应用程序的使用记录,标签样本用于表示样本用户的至少一种属性。
在S502中,根据训练集对初始模型进行机器学习训练,得到用户画像识别模型。
在该种实施方式中,用户画像识别模型可以根据样本用户使用样本终端中各类应用程序的使用记录进行用户画像标签预测,能够从样本用户的多模态、多元数据中充分挖掘样本用户的特征信息,从而提升用户画像识别模型的预测准确性。
可选地,上述初始模型包括多层感知机网络模块、长短期序列网络模块、生成模块以及全连接模块;
上述S502可以包括以下步骤:
对所述用户数据样本进行结构化处理,得到结构化的用户数据样本,其中,所述结构化的用户数据样本包括所述样本用户对所述样本终端的多种使用行为的样本键值对型数据和样本数组型数据,所述样本键值对型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为类型,所述样本数组型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为序列;
通过将所述多种使用行为的样本键值对型数据作为所述多层感知机网络模块的输入,将所述多种使用行为的样本数组型数据作为所述长短期序列网络模块的输入,将所述多层感知机网络模块根据所述多种使用行为的样本键值对型数据生成的第三特征向量、所述长短期序列网络模块根据所述多种使用行为的样本数组型数据生成的第四特征向量作为所述全连接模块的输入,将所述多层感知机网络模块的输出、所述长短期序列网络模块的输出以及所述全连接模块的输出作为所述生成模块的输入,并将所述标签样本作为所述生成模块的目标输出的方式进行模型训练,以得到所述用户画像识别模型。
图6是根据一示例性实施例示出的一种用户画像标签的生成装置的框图。如图6所示,该装置600包括:
第一获取模块601,被配置获取目标用户数据,其中,所述目标用户数据为目标用户使用目标终端中各类应用程序的使用记录;
生成模块602,被配置为根据所述第一获取模块601获取到的所述目标用户数据,通过预设的用户画像识别模型生成所述目标用户的目标用户画像标签,所述目标用户画像标签用于表示所述目标用户的至少一种属性;
其中,所述用户画像识别模型为根据预设的训练集对初始模型进行机器学习训练得到,所述训练集包括多个训练样本,每个训练样本包括一个用户数据样本和与所述用户数据样本对应的标签样本,所述用户数据样本为样本用户使用样本终端中各类应用程序的使用记录,所述标签样本用于表示所述样本用户的所述至少一种属性。
本公开的实施例提供的技术方案可以包括以下有益效果:首先,获取目标用户数据,其中,目标用户数据为目标用户使用目标终端中各类应用程序的使用记录;之后,根据目标用户数据,通过预设的用户画像识别模型生成目标用户的目标用户画像标签,目标用户画像标签用于表示目标用户的至少一种属性。其中,用户画像识别模型为根据预设的训练集对初始模型进行机器学习训练得到。这样,可以根据目标用户使用目标终端中各类应用程序的使用记录进行用户画像标签生成,能够从目标用户的多模态、多元数据中充分挖掘用户特征信息,从而提升用户画像标签预测的准确性。
可选地,所述生成模块602包括:
第一结构化处理子模块,被配置为对所述目标用户数据进行结构化处理,得到结构化的目标用户数据,其中,所述结构化的目标用户数据包括所述目标用户对所述目标终端的多种使用行为的目标键值对型数据和/或目标数组型数据,所述目标键值对型数据用于表示所述目标用户对所述目标终端的相应使用行为的行为类型,所述目标数组型数据用于表示所述目标用户对所述目标终端的相应使用行为的行为序列;
生成子模块,被配置为将所述结构化的目标用户数据输入预设的用户画像识别模型,得到所述目标用户的目标用户画像标签。
可选地,所述结构化的目标用户数据包括所述目标用户对所述目标终端的多种使用行为的目标键值对型数据和目标数组型数据;
所述用户画像识别模型包括:多层感知机网络模块、长短期序列网络模块以及生成模块;
其中,所述多层感知机网络模块,用于根据所述多种使用行为的目标键值对型数据,生成第一特征向量,并根据所述第一特征向量,预测所述目标用户画像标签的第一概率分布;
所述长短期序列网络模块,用于根据所述多种使用行为的目标数组型数据,生成第二特征向量,并根据所述第二特征向量,预测所述目标用户画像标签的至少一个第二概率分布;
所述生成模块,与所述多层感知机网络模块、所述长短期序列网络模块分别连接,用于根据所述第一概率分布和所述至少一个第二概率分布,生成所述目标用户画像标签。
可选地,所述用户画像识别模型还包括全连接模块;
其中,所述全连接模块,与所述多层感知机网络模块、所述长短期序列网络模块以及所述生成模块分别连接,用于根据所述第一特征向量和所述第二特征向量,预测所述目标用户画像标签的第三概率分布;
所述生成模块602,用于根据所述第一概率分布、所述至少一个第二概率分布以及所述第三概率分布,生成所述目标用户画像标签。
可选地,所述长短期序列网络模块包括与所述多种使用行为一一对应的多个长短期序列网络单元;
其中,所述长短期序列网络单元,用于根据与该长短期序列网络单元对应的使用行为的目标数组型数据,生成与该长短期序列网络单元对应的使用行为的特征子向量,并根据该特征子向量,预测所述目标用户画像标签的第二概率分布,其中,所述第二特征向量包括每一所述使用行为的特征子向量。
可选地,所述长短期序列网络模块包括拼接单元和长短期序列网络单元;
其中,所述拼接单元,用于根据将每一所述使用行为的目标数组型数据进行拼接,得到拼接序列;
所述长短期序列网络单元,与所述拼接单元连接,用于根据所述拼接序列,生成第二特征向量,并根据所述第二特征向量,预测所述目标用户画像标签的第二概率分布。
可选地,所述用户画像识别模型通过模型训练装置训练得到,其中,该模型训练装置可以包括:
结构化处理模块,被配置为对所述用户数据样本进行结构化处理,得到结构化的用户数据样本,其中,所述结构化的用户数据样本包括所述样本用户对所述样本终端的多种使用行为的样本键值对型数据和样本数组型数据,所述样本键值对型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为类型,所述样本数组型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为序列;
第二训练模块,被配置为通过将所述多种使用行为的样本键值对型数据作为所述多层感知机网络模块的输入,将所述多种使用行为的样本数组型数据作为所述长短期序列网络模块的输入,将所述多层感知机网络模块根据所述多种使用行为的样本键值对型数据生成的第三特征向量、所述长短期序列网络模块根据所述多种使用行为的样本数组型数据生成的第四特征向量作为所述全连接模块的输入,将所述多层感知机网络模块的输出、所述长短期序列网络模块的输出以及所述全连接模块的输出作为所述生成模块的输入,并将所述标签样本作为所述生成模块的目标输出的方式进行模型训练,以得到所述用户画像识别模型。
另外,需要说明的是,上述模型训练装置可以集成于上述用户画像标签的生成装置600内,也可以独立于上述用户画像标签的生成装置600,本公开不作具体限定。
图7是根据一示例性实施例示出的一种用户画像识别模型的训练装置的框图。如图7所示,该装置700包括:
第二获取模块701,被配置为获取训练集,其中,所述训练集包括多个训练样本,每个训练样本包括一个用户数据样本和与所述用户数据样本对应的标签样本,所述用户数据样本为样本用户使用样本终端中各类应用程序的使用记录,所述标签样本用于表示所述样本用户的至少一种属性;
第一训练模块702,被配置为根据所述第二获取模块701获取到的所述训练集对初始模型进行机器学习训练,得到用户画像识别模型。
在该种实施方式中,用户画像识别模型可以根据样本用户使用样本终端中各类应用程序的使用记录进行用户画像标签预测,能够从样本用户的多模态、多元数据中充分挖掘样本用户的特征信息,从而提升用户画像识别模型的预测准确性。
可选地,所述初始模型包括多层感知机网络模块、长短期序列网络模块、生成模块以及全连接模块;
所述第一训练模块702包括:
第一结构化处理子模块,被配置为对所述用户数据样本进行结构化处理,得到结构化的用户数据样本,其中,所述结构化的用户数据样本包括所述样本用户对所述样本终端的多种使用行为的样本键值对型数据和样本数组型数据,所述样本键值对型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为类型,所述样本数组型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为序列;
训练子模块,被配置为通过将所述多种使用行为的样本键值对型数据作为所述多层感知机网络模块的输入,将所述多种使用行为的样本数组型数据作为所述长短期序列网络模块的输入,将所述多层感知机网络模块根据所述多种使用行为的样本键值对型数据生成的第三特征向量、所述长短期序列网络模块根据所述多种使用行为的样本数组型数据生成的第四特征向量作为所述全连接模块的输入,将所述多层感知机网络模块的输出、所述长短期序列网络模块的输出以及所述全连接模块的输出作为所述生成模块的输入,并将所述标签样本作为所述生成模块的目标输出的方式进行模型训练,以得到所述用户画像识别模型。
另外,需要说明的是,上述用户画像识别模型的训练装置700可以集成于上述用户画像标签的生成装置600内,也可以独立于上述用户画像标签的生成装置600,本公开不作具体限定。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的用户画像标签的生成方法的步骤或者用户画像识别模型的训练方法的步骤。
图8是根据一示例性实施例示出的一种用于用户画像标签生成的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图8,装置800可以包括以下一个或多个组件:第一处理组件802,第一存储器804,第一电源组件806,多媒体组件808,音频组件810,第一输入/输出接口812,传感器组件814,以及通信组件816。
第一处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。第一处理组件802可以包括一个或多个第一处理器820来执行指令,以完成上述的用户画像标签的生成方法的全部或部分步骤。此外,第一处理组件802可以包括一个或多个模块,便于第一处理组件802和其他组件之间的交互。例如,第一处理组件802可以包括多媒体模块,以方便多媒体组件808和第一处理组件802之间的交互。
第一存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。第一存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
第一电源组件806为装置800的各种组件提供电力。第一电源组件806可以包括电源管理***,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在第一存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
第一输入/输出接口812为第一处理组件802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述用户画像标签的生成方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的第一存储器804,上述指令可由装置800的第一处理器820执行以完成上述用户画像标签的生成方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
上述装置除了可以是独立的电子设备外,也可是独立电子设备的一部分,例如在一种实施例中,该装置可以是集成电路(Integrated Circuit,IC)或芯片,其中该集成电路可以是一个IC,也可以是多个IC的集合;该芯片可以包括但不限于以下种类:GPU(GraphicsProcessing Unit,图形处理器)、CPU(Central Processing Unit,中央处理器)、FPGA(Field Programmable Gate Array,可编程逻辑阵列)、DSP(Digital Signal Processor,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、SOC(System on Chip,SoC,片上***或***级芯片)等。上述的集成电路或芯片中可以用于执行可执行指令(或代码),以实现上述的用户画像标签的生成方法。其中该可执行指令可以存储在该集成电路或芯片中,也可以从其他的装置或设备获取,例如该集成电路或芯片中包括处理器、存储器,以及用于与其他的装置通信的接口。该可执行指令可以存储于该存储器中,当该可执行指令被处理器执行时实现上述的用户画像标签的生成方法;或者,该集成电路或芯片可以通过该接口接收可执行指令并传输给该处理器执行,以实现上述的用户画像标签的生成方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的用户画像标签的生成方法的代码部分。
图9是根据一示例性实施例示出的一种用于用户画像标签生成的装置900的框图。例如,装置900可以被提供为一服务器。参照图9,装置900包括第二处理组件922,其进一步包括一个或多个第二处理器,以及由第二存储器932所代表的存储器资源,用于存储可由第二处理组件922的执行的指令,例如应用程序。第二存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,第二处理组件922被配置为执行指令,以执行上述用户画像标签的生成方法。
装置900还可以包括一个第二电源组件926被配置为执行装置900的电源管理,一个有线或无线网络接口950被配置为将装置900连接到网络,和一个第二输入/输出接口958。装置900可以操作基于存储在第二存储器932的操作***,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
图10是根据一示例性实施例示出的一种用于用户画像识别模型的训练的装置1000的框图。例如,装置1000可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图10,装置1000可以包括以下一个或多个组件:第三处理组件1002,第三存储器1004,第三电源组件1006,多媒体组件1008,音频组件1010,第三输入/输出接口1012,传感器组件1014,以及通信组件1016。
第三处理组件1002通常控制装置1000的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。第三处理组件1002可以包括一个或多个第三处理器1020来执行指令,以完成上述的用户画像识别模型的训练方法的全部或部分步骤。此外,第三处理组件1002可以包括一个或多个模块,便于第三处理组件1002和其他组件之间的交互。例如,第三处理组件1002可以包括多媒体模块,以方便多媒体组件1008和第三处理组件1002之间的交互。
第三存储器1004被配置为存储各种类型的数据以支持在装置1000的操作。这些数据的示例包括用于在装置1000上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。第三存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
第三电源组件1006为装置1000的各种组件提供电力。第三电源组件1006可以包括电源管理***,一个或多个电源,及其他与为装置1000生成、管理和分配电力相关联的组件。
多媒体组件1008包括在所述装置1000和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1008包括一个前置摄像头和/或后置摄像头。当装置1000处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件1010被配置为输出和/或输入音频信号。例如,音频组件1010包括一个麦克风(MIC),当装置1000处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在第三存储器1004或经由通信组件1016发送。在一些实施例中,音频组件1010还包括一个扬声器,用于输出音频信号。
第三输入/输出接口1012为第三处理组件1002和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1014包括一个或多个传感器,用于为装置1000提供各个方面的状态评估。例如,传感器组件1014可以检测到装置1000的打开/关闭状态,组件的相对定位,例如所述组件为装置1000的显示器和小键盘,传感器组件1014还可以检测装置1000或装置1000一个组件的位置改变,用户与装置1000接触的存在或不存在,装置1000方位或加速/减速和装置1000的温度变化。传感器组件1014可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1014还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1016被配置为便于装置1000和其他设备之间有线或无线方式的通信。装置1000可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件1016经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1016还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述用户画像识别模型的训练方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的第三存储器1004,上述指令可由装置1000的第三处理器1020执行以完成上述用户画像识别模型的训练方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
上述装置除了可以是独立的电子设备外,也可是独立电子设备的一部分,例如在一种实施例中,该装置可以是集成电路(Integrated Circuit,IC)或芯片,其中该集成电路可以是一个IC,也可以是多个IC的集合;该芯片可以包括但不限于以下种类:GPU(GraphicsProcessing Unit,图形处理器)、CPU(Central Processing Unit,中央处理器)、FPGA(Field Programmable Gate Array,可编程逻辑阵列)、DSP(Digital Signal Processor,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、SOC(System on Chip,SoC,片上***或***级芯片)等。上述的集成电路或芯片中可以用于执行可执行指令(或代码),以实现上述的用户画像识别模型的训练方法。其中该可执行指令可以存储在该集成电路或芯片中,也可以从其他的装置或设备获取,例如该集成电路或芯片中包括处理器、存储器,以及用于与其他的装置通信的接口。该可执行指令可以存储于该存储器中,当该可执行指令被处理器执行时实现上述的用户画像识别模型的训练方法;或者,该集成电路或芯片可以通过该接口接收可执行指令并传输给该处理器执行,以实现上述的用户画像识别模型的训练方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的用户画像识别模型的训练方法的代码部分。
图11是根据一示例性实施例示出的一种用于用户画像识别模型的训练的装置1100的框图。例如,装置1100可以被提供为一服务器。参照图11,装置1100包括第四处理组件1122,其进一步包括一个或多个第四处理器,以及由第四存储器1132所代表的存储器资源,用于存储可由第四处理组件1122的执行的指令,例如应用程序。第四存储器1132中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,第四处理组件1122被配置为执行指令,以执行上述用户画像识别模型的训练方法。
装置1100还可以包括一个第四电源组件1126被配置为执行装置1100的电源管理,一个有线或无线网络接口1150被配置为将装置1100连接到网络,和一个第四输入/输出接口1158。装置1100可以操作基于存储在第四存储器1132的操作***,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (15)

1.一种用户画像标签的生成方法,其特征在于,包括:
获取目标用户数据,其中,所述目标用户数据为目标用户使用目标终端中各类应用程序的使用记录;
根据所述目标用户数据,通过预设的用户画像识别模型生成所述目标用户的目标用户画像标签,所述目标用户画像标签用于表示所述目标用户的至少一种属性;
其中,所述用户画像识别模型为根据预设的训练集对初始模型进行机器学习训练得到,所述训练集包括多个训练样本,每个训练样本包括一个用户数据样本和与所述用户数据样本对应的标签样本,所述用户数据样本为样本用户使用样本终端中各类应用程序的使用记录,所述标签样本用于表示所述样本用户的所述至少一种属性。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标用户数据,通过预设的用户画像识别模型生成所述目标用户的目标用户画像标签,包括:
对所述目标用户数据进行结构化处理,得到结构化的目标用户数据,其中,所述结构化的目标用户数据包括所述目标用户对所述目标终端的多种使用行为的目标键值对型数据和/或目标数组型数据,所述目标键值对型数据用于表示所述目标用户对所述目标终端的相应使用行为的行为类型,所述目标数组型数据用于表示所述目标用户对所述目标终端的相应使用行为的行为序列;
将所述结构化的目标用户数据输入预设的用户画像识别模型,得到所述目标用户的目标用户画像标签。
3.根据权利要求2所述的方法,其特征在于,所述结构化的目标用户数据包括所述目标用户对所述目标终端的多种使用行为的目标键值对型数据和目标数组型数据;
所述用户画像识别模型包括:多层感知机网络模块、长短期序列网络模块以及生成模块;
其中,所述多层感知机网络模块,用于根据所述多种使用行为的目标键值对型数据,生成第一特征向量,并根据所述第一特征向量,预测所述目标用户画像标签的第一概率分布;
所述长短期序列网络模块,用于根据所述多种使用行为的目标数组型数据,生成第二特征向量,并根据所述第二特征向量,预测所述目标用户画像标签的至少一个第二概率分布;
所述生成模块,与所述多层感知机网络模块、所述长短期序列网络模块分别连接,用于根据所述第一概率分布和所述至少一个第二概率分布,生成所述目标用户画像标签。
4.根据权利要求3所述的方法,其特征在于,所述用户画像识别模型还包括全连接模块;
其中,所述全连接模块,与所述多层感知机网络模块、所述长短期序列网络模块以及所述生成模块分别连接,用于根据所述第一特征向量和所述第二特征向量,预测所述目标用户画像标签的第三概率分布;
所述生成模块,用于根据所述第一概率分布、所述至少一个第二概率分布以及所述第三概率分布,生成所述目标用户画像标签。
5.根据权利要求3或4所述的方法,其特征在于,所述长短期序列网络模块包括与所述多种使用行为一一对应的多个长短期序列网络单元;
其中,所述长短期序列网络单元,用于根据与该长短期序列网络单元对应的使用行为的目标数组型数据,生成与该长短期序列网络单元对应的使用行为的特征子向量,并根据该特征子向量,预测所述目标用户画像标签的第二概率分布,其中,所述第二特征向量包括每一所述使用行为的特征子向量。
6.根据权利要求3或4所述的方法,其特征在于,所述长短期序列网络模块包括拼接单元和长短期序列网络单元;
其中,所述拼接单元,用于根据将每一所述使用行为的目标数组型数据进行拼接,得到拼接序列;
所述长短期序列网络单元,与所述拼接单元连接,用于根据所述拼接序列,生成第二特征向量,并根据所述第二特征向量,预测所述目标用户画像标签的第二概率分布。
7.根据权利要求4所述的方法,其特征在于,所述用户画像识别模型通过以下方式训练得到:
对所述用户数据样本进行结构化处理,得到结构化的用户数据样本,其中,所述结构化的用户数据样本包括所述样本用户对所述样本终端的多种使用行为的样本键值对型数据和样本数组型数据,所述样本键值对型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为类型,所述样本数组型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为序列;
通过将所述多种使用行为的样本键值对型数据作为所述多层感知机网络模块的输入,将所述多种使用行为的样本数组型数据作为所述长短期序列网络模块的输入,将所述多层感知机网络模块根据所述多种使用行为的样本键值对型数据生成的第三特征向量、所述长短期序列网络模块根据所述多种使用行为的样本数组型数据生成的第四特征向量作为所述全连接模块的输入,将所述多层感知机网络模块的输出、所述长短期序列网络模块的输出以及所述全连接模块的输出作为所述生成模块的输入,并将所述标签样本作为所述生成模块的目标输出的方式进行模型训练,以得到所述用户画像识别模型。
8.一种用户画像识别模型的训练方法,其特征在于,包括:
获取训练集,其中,所述训练集包括多个训练样本,每个训练样本包括一个用户数据样本和与所述用户数据样本对应的标签样本,所述用户数据样本为样本用户使用样本终端中各类应用程序的使用记录,所述标签样本用于表示所述样本用户的至少一种属性;
根据所述训练集对初始模型进行机器学习训练,得到用户画像识别模型。
9.根据权利要求8所述的方法,其特征在于,所述初始模型包括多层感知机网络模块、长短期序列网络模块、生成模块以及全连接模块;
所述根据所述训练集对初始模型进行机器学习训练,得到用户画像识别模型,包括:
对所述用户数据样本进行结构化处理,得到结构化的用户数据样本,其中,所述结构化的用户数据样本包括所述样本用户对所述样本终端的多种使用行为的样本键值对型数据和样本数组型数据,所述样本键值对型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为类型,所述样本数组型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为序列;
通过将所述多种使用行为的样本键值对型数据作为所述多层感知机网络模块的输入,将所述多种使用行为的样本数组型数据作为所述长短期序列网络模块的输入,将所述多层感知机网络模块根据所述多种使用行为的样本键值对型数据生成的第三特征向量、所述长短期序列网络模块根据所述多种使用行为的样本数组型数据生成的第四特征向量作为所述全连接模块的输入,将所述多层感知机网络模块的输出、所述长短期序列网络模块的输出以及所述全连接模块的输出作为所述生成模块的输入,并将所述标签样本作为所述生成模块的目标输出的方式进行模型训练,以得到所述用户画像识别模型。
10.一种用户画像标签的生成装置,其特征在于,包括:
第一获取模块,被配置获取目标用户数据,其中,所述目标用户数据为目标用户使用目标终端中各类应用程序的使用记录;
生成模块,被配置为根据所述第一获取模块获取到的所述目标用户数据,通过预设的用户画像识别模型生成所述目标用户的目标用户画像标签,所述目标用户画像标签用于表示所述目标用户的至少一种属性;
其中,所述用户画像识别模型为根据预设的训练集对初始模型进行机器学习训练得到,所述训练集包括多个训练样本,每个训练样本包括一个用户数据样本和与所述用户数据样本对应的标签样本,所述用户数据样本为样本用户使用样本终端中各类应用程序的使用记录,所述标签样本用于表示所述样本用户的所述至少一种属性。
11.一种用户画像识别模型的训练装置,其特征在于,包括:
第二获取模块,被配置为获取训练集,其中,所述训练集包括多个训练样本,每个训练样本包括一个用户数据样本和与所述用户数据样本对应的标签样本,所述用户数据样本为样本用户使用样本终端中各类应用程序的使用记录,所述标签样本用于表示所述样本用户的至少一种属性;
第一训练模块,被配置为根据所述第二获取模块获取到的所述训练集对初始模型进行机器学习训练,得到用户画像识别模型。
12.一种用户画像标签的生成装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
实现权利要求1~7中任一项所述方法的步骤。
13.一种用户画像识别模型的训练装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
实现权利要求8或9所述方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1~9中任一项所述方法的步骤。
15.一种芯片,其特征在于,包括处理器和接口;所述处理器用于读取指令以执行权利要求1~9中任一项所述的方法。
CN202210900152.1A 2022-07-28 2022-07-28 画像标签生成方法、模型训练方法、装置、介质及芯片 Pending CN115203573A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210900152.1A CN115203573A (zh) 2022-07-28 2022-07-28 画像标签生成方法、模型训练方法、装置、介质及芯片

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210900152.1A CN115203573A (zh) 2022-07-28 2022-07-28 画像标签生成方法、模型训练方法、装置、介质及芯片

Publications (1)

Publication Number Publication Date
CN115203573A true CN115203573A (zh) 2022-10-18

Family

ID=83584707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210900152.1A Pending CN115203573A (zh) 2022-07-28 2022-07-28 画像标签生成方法、模型训练方法、装置、介质及芯片

Country Status (1)

Country Link
CN (1) CN115203573A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024114596A1 (zh) * 2022-11-30 2024-06-06 天翼数字生活科技有限公司 用于确定终端画像的方法、***和计算机可读介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024114596A1 (zh) * 2022-11-30 2024-06-06 天翼数字生活科技有限公司 用于确定终端画像的方法、***和计算机可读介质

Similar Documents

Publication Publication Date Title
CN109800325B (zh) 视频推荐方法、装置和计算机可读存储介质
WO2020215962A1 (zh) 视频推荐方法、装置、计算机设备及存储介质
US10783459B2 (en) Method and device for providing ticket information
CN111461304B (zh) 分类神经网络的训练方法、文本分类方法、装置及设备
US11335348B2 (en) Input method, device, apparatus, and storage medium
CN110781323A (zh) 多媒体资源的标签确定方法、装置、电子设备及存储介质
CN107229403B (zh) 一种信息内容选择方法及装置
CN112148980B (zh) 基于用户点击的物品推荐方法、装置、设备和存储介质
CN112000266B (zh) 页面展示方法、装置、电子设备及存储介质
CN115203573A (zh) 画像标签生成方法、模型训练方法、装置、介质及芯片
CN113920293A (zh) 信息识别方法、装置、电子设备及存储介质
CN111241844A (zh) 一种信息推荐方法及装置
CN110738267B (zh) 图像分类方法、装置、电子设备及存储介质
CN112784151B (zh) 一种确定推荐信息的方法及相关装置
CN112149653B (zh) 信息处理方法、装置、电子设备及存储介质
CN111428806B (zh) 图像标签确定方法、装置、电子设备及存储介质
CN113807540A (zh) 一种数据处理方法及装置
CN112036247A (zh) 表情包文字生成方法、装置及存储介质
CN112241486A (zh) 多媒体信息获取方法及装置
CN113190725B (zh) 对象的推荐及模型训练方法和装置、设备、介质和产品
CN111143609B (zh) 兴趣标签的确定方法、装置、电子设备及存储介质
CN114722238B (zh) 视频推荐方法、装置、电子设备、存储介质及程序产品
CN117350824B (zh) 电子元件信息上传及展示方法、装置、介质及设备
CN112380388B (zh) 搜索场景下的视频排序方法、装置、电子设备及存储介质
CN112446720B (zh) 一种广告显示方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination