CN111125530A - 一种基于多类型特征深度学习的信息流推荐方法 - Google Patents

一种基于多类型特征深度学习的信息流推荐方法 Download PDF

Info

Publication number
CN111125530A
CN111125530A CN201911351219.5A CN201911351219A CN111125530A CN 111125530 A CN111125530 A CN 111125530A CN 201911351219 A CN201911351219 A CN 201911351219A CN 111125530 A CN111125530 A CN 111125530A
Authority
CN
China
Prior art keywords
discrete
features
feature
characteristic
continuous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911351219.5A
Other languages
English (en)
Other versions
CN111125530B (zh
Inventor
郑子彬
刘子璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201911351219.5A priority Critical patent/CN111125530B/zh
Publication of CN111125530A publication Critical patent/CN111125530A/zh
Application granted granted Critical
Publication of CN111125530B publication Critical patent/CN111125530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于多类型特征深度学习的信息流推荐方法,包括:采集信息流场景数据并解析获取其中用户特征数据、文本特征数据和用户点击文本数据作为特征样本数据;根据特征样本数据数值的离散性预处理得到相应的离散特征,根据特征样本数据数值的连续性预处理得到相应的连续特征,对离散特征进行特征工程以得到交叉离散特征;将离散特征、连续特征、交叉离散特征输入深度学习模型训练学习,以挖掘用户喜好特征向量,并通对用户喜好特征向量进行非线性激活以获得用户点击文章的预测结果。本发明兼容信息流场景数据中多种类型特征,构建模型学习用户喜好,得到更为准确的用户点击行为的预测。

Description

一种基于多类型特征深度学习的信息流推荐方法
技术领域
本发明涉及大数据处理领域,尤其涉及一种基于多类型特征深度学习的信息流推荐方法。
背景技术
推荐算法是一种通过对特征进行挖掘,构建模型,从而匹配推测出用户可能喜欢东西的方法。推荐算法已经广泛的应用于生活中,例如淘宝购物中的“猜你喜欢”,微信看一看中的“精选”文章。如今新闻资讯数量庞大,绝大多数产品都是使用信息流模式来进行内容的展示,即可以源源不断地刷出新的、实时的内容,包含海量的信息。在这样的模式中,如何根据用户的特征与历史行为,提供更合适的内容,从而增强用户黏性,增加场景的点击率是至关重要的。
推荐引擎出现后在信息流最广泛应用的是基于协同过滤的推荐机制,这种算法基于“物以类聚,人以群分”的思想,即喜欢相同新闻类型的用户更有可能具有相同的兴趣。这种方式共用了他人的经验,可以很好的支持用户发现潜在的兴趣偏好,但是也存在明显的缺点:首先是协同过滤十分依赖历史数据,信息流中新闻时效很短,大量新文章伴随着“冷启动”问题;其次是这种对用户偏好的建模方式很难获取用户的偏好演变,从而导致方法不够灵活。
紧接着出现了很多基于模型的推荐算法,即使用LR、GBDT等机器学习模型对用户的特征以及历史行为进行建模,对用户爱好作预测并进行后续的打分排序。机器学习算法挖掘特征与点击与否之间的关联,从而更加快速准确的预测用户偏好,适用于实时性比较高的信息流业务,但是需要人工干预反复的进行属性的组合和筛选,也就是常说的特征工程(Feature Engineering)。同时考虑到信息流的时效性,***也需要反复更新线上的数学模型,以适应变化。
近年来,深度学习在推荐领域也取得了非常不错的成绩,深度学习通过隐含层挖掘特征组合的高维信息,构建用户偏好。目前绝大多数深度学习都采用one-hot(独热编码)将特征进行转化,one-hot获得稀疏特征输入,在网络中进行特征组合,获得更充分有效的学习,但这样的设计使得许多特征(例如向量特征,连续特征等)无法很好使用在网络中,且仍需要做大量的特征工程。构建一个兼容多类型特征,同时能够避免大量特征工程的深度学习框架,不仅可以让技术人员更加聚焦于特征的挖掘与扩展,同时也能够更充分的构建用户画像,学习到更充分的信息,从而让信息流推荐效果变得更好。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷(不足),提供一种基于多类型特征深度学习的信息流推荐方法。
本发明旨在至少在一定程度上解决上述技术问题。
为了达到上述技术效果,本发明的技术方案如下:
一种基于多类型特征深度学习的信息流推荐方法,包括:
S10采集信息流场景数据并解析获取其中用户特征数据、文本特征数据和用户点击文本数据作为特征样本数据;
S20根据特征样本数据数值的离散性预处理得到相应的离散特征,根据特征样本数据数值的连续性预处理得到相应的连续特征,对离散特征进行特征工程以得到交叉离散特征;
S30将离散特征、连续特征、交叉离散特征输入深度学习模型训练学习,以挖掘用户喜好特征向量,并通对用户喜好特征向量进行非线性激活以获得用户点击文章的预测结果;
S40将用户点击文章的预测结果进行排序,推荐具有最优预测结果的用户点击文章。
优选地,所述深度学习模型包括:
输入层,用于将离散特征、连续特征和交叉离散特征向量化得离散向量、交叉离散向量和连续向量;
嵌入层Embedding,用于对离散向量和交叉离散向量进行高维向量表征得到相应的高维离散向量和高维交叉离散向量;及复制离散向量、交叉离散向量输入因子分解FM模块,复制交叉离散向量和连续向量输入神经网络Deep模块;
因子分解FM模块,用于学习不同的高维离散向量之间的及高维交叉离散向量间的表示用户喜好的FM特征向量;
神经网络Deep模块,用于挖掘高维交叉离散向量与连续向量间的表示用户喜好的Deep特征向量;
拼接层,用于拼接FM特征向量和Deep特征向量得到用户喜好特征,并将其输入全连接输出层;
全连接输出层,用于将所得到的用户喜好特征通过非线性激活得到用户点击文章的概率值。
优选地,所述因子分解FM模块包括:
FM线性模块,用于采用线性回归算法,先假定离散特征与最终预测结果之间是线性相关,定义每个离散特征的权重参数为w1i,每个离散特征对应的特征值为x1i,共有N个离散特征,构建重要度模型以得到每个离散特征对预测结果,其中重要度模型计算公式如下:
Figure BDA0002334706780000031
FM二阶交叉计算模块,用于交叉离散向量进行两两交叉学习,以得到交叉离散特征两两之间的关联特征,定义两个输入的交叉离散向量分别为x2a和x2b,每个两两的交叉离散向量的权重参数w2ab,共有n个交叉离散向量,构建FM二阶学习模型以得到交叉离散特征两两之间的关联特征,FM二阶学习模型的计算公式如下:
Figure BDA0002334706780000032
优选地,所述神经网络Deep模块包括离散特征子层、连续特征子层、交叉离散特征子层和三个全连接层。离散特征子层将所有离散特征进行拼接;连续特征子层将所有连续特征进行拼接;交叉离散特征子层将所有交叉离散特征进行拼接,三个拼接向量再进行拼接,并将其输入第一个全连接层,第一个全连接层输出的向量输入至第二个全连接层,第二个全连接层输出的向量输入至第三个全连接层,每个全连接层均设有数个神经元,三个全连接层分别对其输入进行学习以挖掘用户喜好特征,具体计算公式如下:
Figure BDA0002334706780000041
其中x3i表示每一层的特征输入,w3i是与输入特征一一对应的深度权重参数,
ReLU为激活层:
Figure BDA0002334706780000042
优选地,所述全连接输出层将所得到的用户喜好特征通过非线性激活得到用户点击文章的概率值的计算公式如下:
Figure BDA0002334706780000043
Figure BDA0002334706780000044
其中xc表示所输入的用户喜好特征,wc表示与用户喜好特征一一对应的权重参数。
优选地,所述用户点击文章的概率值设有概率阈值τ,若ofinal≥τ,则预测用户具有点击文章行为;若ofinal<τ,则预则用户不会产生点击文章行为。
优选地,所述用户特征数据至少包括用户年龄、性别、学历;所述文本特征数据至少包括文本特征、文章类别、文章关键词标签,其中用户年龄的数值特征具有连续性,性别的数值特征具有离散性,学历的数值特征具有离散性,文本内容的数值特征具有连续性,文章类别和文章关键词标签的数值特征具有离散性。
优选地,所述S20中预处理的方法至少包括:
文本特征数据转换:计算文本全文的字数,将对文本特征转换为文章字数特征;
补充特征缺失值:若特征样本数据中出现缺失特征,采用0值补充缺失特征;
连续特征离散化:对连续特征进行等频的分桶操作,将连续特征所有的取值按大小关系排成序列,对所有取值的数值大小进行等频分割得到若干连续性的数值范围分桶,将连续特征所有的取值一一对应数值范围分桶,得到离散化的连续特征值;
连续特征归一化:将特征样本数据中数值特征具有连接性的特征样本进行归一化处理,使得所有数据落在[0,1],计算公式如下:
Figure BDA0002334706780000051
其中X'为归一化后的连续特征值,X为归一化前的连续特征值,Xmax为连接特征的最大取值。
优选地,所述对离散特征进行特征工程以得到交叉离散特征的方法包括:
构建交叉离散特征:定义具有特征交叉关系的离散特征有特征值a和b,xa*b表特征值a和b之间的交叉特征,len(A)表示特征值a所属特征的所有取值数量,len(B)表示特征值b所属特征的所有取值数量,构建交叉特征模型得到特征值a和b间的交叉特征值,交叉特征模型的计算公式如下:
Figure BDA0002334706780000052
优选地,所述第一个全连接层至少设有256个神经元,第二个全连接层至少设有64个神经元,第三个全连接层至少设有32个神经元,每个神经元均通过输入的特征信息计算节点值来表征用户喜好的高阶隐含特征。
与现有技术相比,本发明技术方案的有益效果是:本发明引入连接特征、离散特征及交叉离散特征,扩展了深度学习模型学习的特征类型,增强深度学习模型的学习能力。本发明的深度学习模块通过对多种类型的特征分别处理后输入深度学习模块进行学习训练,深度学习模型通过多类型的特征输入,包含离散特征、连续特征和交叉离散特征,对用户和文章特征信息进行学习,从而预测出一个用户在面对一篇文章时,是否会产生点击行为。对整个模型训练收敛后,可以在后续通过对文章信息的预测,将更可能点击的文章在信息流中放在更靠前的位置进行推荐。
附图说明
图1为本发明一实施例的方法流程图。
图2为所述深度学习模型的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
一种基于多类型特征深度学习的信息流推荐方法,包括:
S10采集信息流场景数据并解析获取其中用户特征数据、文本特征数据和用户点击文本数据作为特征样本数据;
S20根据特征样本数据数值的离散性预处理得到相应的离散特征,根据特征样本数据数值的连续性预处理得到相应的连续特征,对离散特征进行特征工程以得到交叉离散特征;
S30将离散特征、连续特征、交叉离散特征输入深度学习模型训练学习,以挖掘用户喜好特征向量,并通对用户喜好特征向量进行非线性激活以获得用户点击文章的预测结果;
S40将用户点击文章的预测结果进行排序,推荐具有最优预测结果的用户点击文章。
在本发明实施例中,本发明引入连接特征、离散特征及交叉离散特征,扩展了深度学习模型学习的特征类型,增强深度学习模型的学习能力。本发明的深度学习模块通过对多种类型的特征分别处理后输入深度学习模块进行学习训练,深度学习模型通过多类型的特征输入,包含离散特征、连续特征和交叉离散特征,对用户和文章特征信息进行学习,从而预测出一个用户在面对一篇文章时,是否会产生点击行为。对整个模型训练收敛后,可以在后续通过对文章信息的预测,将更可能点击的文章在信息流中放在更靠前的位置进行推荐。
优选地,所述深度学习模型包括:
输入层,用于将离散特征、连续特征和交叉离散特征向量化得离散向量、交叉离散向量和连续向量;
嵌入层Embedding,用于对离散向量和交叉离散向量进行高维向量表征得到相应的高维离散向量和高维交叉离散向量;及复制离散向量、交叉离散向量输入因子分解FM模块,复制交叉离散向量和连续向量输入神经网络Deep模块;
因子分解FM模块,用于学习不同的高维离散向量之间的及高维交叉离散向量间的表示用户喜好的FM特征向量;
神经网络Deep模块,用于挖掘高维交叉离散向量与连续向量间的表示用户喜好的Deep特征向量;
拼接层,用于拼接FM特征向量和Deep特征向量得到用户喜好特征,并将其输入全连接输出层;
全连接输出层,用于将所得到的用户喜好特征通过非线性激活得到用户点击文章的概率值。
优选地,所述因子分解FM模块包括:
FM线性模块,用于采用线性回归算法,先假定离散特征与最终预测结果之间是线性相关,定义每个离散特征的权重参数为w1i,每个离散特征对应的特征值为x1i,共有N个离散特征,构建重要度模型以得到每个离散特征对预测结果,其中重要度模型计算公式如下:
Figure BDA0002334706780000081
FM二阶交叉计算模块,用于交叉离散向量进行两两交叉学习,以得到交叉离散特征两两之间的关联特征,定义两个输入的交叉离散向量分别为x2a和x2b,每个两两的交叉离散向量的权重参数w2ab,共有n个交叉离散向量,构建FM二阶学习模型以得到交叉离散特征两两之间的关联特征,FM二阶学习模型的计算公式如下:
Figure BDA0002334706780000082
优选地,所述神经网络Deep模块包括离散特征子层、连续特征子层、交叉离散特征子层和三个全连接层。离散特征子层将所有离散特征进行拼接;连续特征子层将所有连续特征进行拼接;交叉离散特征子层将所有交叉离散特征进行拼接,三个拼接向量再进行拼接,并将其输入第一个全连接层,第一个全连接层输出的向量输入至第二个全连接层,第二个全连接层输出的向量输入至第三个全连接层,每个全连接层均设有数个神经元,三个全连接层分别对其输入进行学习以挖掘用户喜好特征,具体计算公式如下:
Figure BDA0002334706780000091
其中x3i表示每一层的特征输入,w3i是与输入特征一一对应的深度权重参数,
ReLU为激活层:
Figure BDA0002334706780000092
优选地,所述全连接输出层将所得到的用户喜好特征通过非线性激活得到用户点击文章的概率值的计算公式如下:
Figure BDA0002334706780000093
Figure BDA0002334706780000094
其中xc表示所输入的用户喜好特征,wc表示与用户喜好特征一一对应的权重参数。
优选地,所述用户点击文章的概率值设有概率阈值τ,若ofinal≥τ,则预测用户具有点击文章行为;若ofinal<τ,则预则用户不会产生点击文章行为。
优选地,所述用户特征数据至少包括用户年龄、性别、学历;所述文本特征数据至少包括文本特征、文章类别、文章关键词标签,其中用户年龄的数值特征具有连续性,性别的数值特征具有离散性,学历的数值特征具有离散性,文本内容的数值特征具有连续性,文章类别和文章关键词标签的数值特征具有离散性。
优选地,所述S20中预处理的方法至少包括:
文本特征数据转换:计算文本全文的字数,将对文本特征转换为文章字数特征;
补充特征缺失值:若特征样本数据中出现缺失特征,采用0值补充缺失特征;
连续特征离散化:对连续特征进行等频的分桶操作,将连续特征所有的取值按大小关系排成序列,对所有取值的数值大小进行等频分割得到若干连续性的数值范围分桶,将连续特征所有的取值一一对应数值范围分桶,得到离散化的连续特征值;
连续特征归一化:将特征样本数据中数值特征具有连接性的特征样本进行归一化处理,使得所有数据落在[0,1],计算公式如下:
Figure BDA0002334706780000101
其中X'为归一化后的连续特征值,X为归一化前的连续特征值,Xmax为连接特征的最大取值。
优选地,所述对离散特征进行特征工程以得到交叉离散特征的方法包括:
构建交叉离散特征:定义具有特征交叉关系的离散特征有特征值a和b,xa*b表特征值a和b之间的交叉特征,len(A)表示特征值a所属特征的所有取值数量,len(B)表示特征值b所属特征的所有取值数量,构建交叉特征模型得到特征值a和b间的交叉特征值,交叉特征模型的计算公式如下:
Figure BDA0002334706780000102
优选地,所述第一个全连接层至少设有256个神经元,第二个全连接层至少设有64个神经元,第三个全连接层至少设有32个神经元,每个神经元均通过输入的特征信息计算节点值来表征用户喜好的高阶隐含特征。
实操实例:
获取的信息流场景数据包含用户基本信息(用户唯一标识uin,年龄、性别、学历),文章相关信息(文章唯一标识rawkey,文章全文、文章类别-共50类、文章关键词标签-共1000种),用户是否点击文章(0/1),数据集合共有1000万条样本。具体一条样本的格式如表一所示,其中“uin”是一个用户的id信息,“年龄”使用数值1-100之间的数值表示,“性别”使用数值1和2分别表示男性和女性,“学历”使用1-6表示不同的学历(例如数值1表示小学学历),“rawkey”是一篇文章的id信息,“文章全文”是具体的文章文本信息,“文章类别”使用数值1-50来表示分别对应的文章类型(例如数值3表示文章类型为“娱乐”),“文章关键词标签”使用1-1000来表示分别对应的标签信息(例如数值10表示“王者荣耀”),“用户是否点击文章”信息中,0表示未点击,1表示点击。
Figure BDA0002334706780000111
表一
从特征维度考虑,uin与rawkey属于身份标识信息,从特征中剔除,只保留剩下6个特征;从样本维度考虑,不完整的信息对模型的学习能力产生较大干扰,对于特征缺失率高于50%的样本或无标签的样本进行剔除,即在一条样本中,如果标签信息是缺失的,或者特征信息中,有至少三个特征信息是缺失的,那么这条样本将从数据集中删除。
“文章全文”作为文本信息很难进行训练,因此将文本特征进行转换,即数值化。这里的具体处理为:计算文章全文的文本长度,将“文章全文”转换为“文章字数”特征。
经过上述处理后,还是会存在缺失的特征,例如某一条样本中,“性别”特征为空,即没有具体的性别特征数据,不知道是男性还是女性。如果不做处理,后续的模型训练中会出现空值代入公式中,从而报错并终止训练。因此将所有特征中的缺失值进行补充,即采用0值补充。
目前特征信息为[年龄,性别,学历,文章字数,文章类别,文章关键词标签],其中“年龄”和“文章字数”属于连续特征,即特征下不同的数值具有大小关系。而“性别”、“文章字数”、“文章类别、“文章关键词标签”这四个属于离散特征,即特征的取值之间没有大小关系,取值为1和取值为2的两个值只表明了不同的类别。连续特征的取值范围不同,例如年龄一般落在[0,100],而文章字数取值在[0,100000],不同的取值区间对最终的训练影响较大,甚至会导致模型学习无法收敛,因此进行归一化处理,使得所有的数据落在[0,1],计算公式如下,其中x′表示归一化后的特征值,x表示归一化前的特征值,Xmax表示这个特征的最大取值。
Figure BDA0002334706780000112
神经网络主要通过高维度的特征组合来挖掘信息,因此离散特征会更加适合深度学习场景,因此为了更好的挖掘连续特征的信息,对所有的连续特征进行分桶操作。具体的操作方式为:采用等频进行十份切分。举个例子,在“年龄”特征中,取值范围为0-100,因此我们将所有的取值按大小关系排成序列,找到9个分割点,即将数值分为十个区间[[0,10],(10,20],(20,30],(30,40],(40,50],(50,60],(60,70],(70,80],(80,90],(90,100]],对这十个区间分别使用数值1-10来进行标注,因此如果某个样本中的“年龄”值为12,其离散化后落在(10,20]桶中,取值为2。
可以理解地是,20岁的女性会更喜欢化妆品,而6岁的女性可能会更喜欢洋娃娃,这种交叉特征往往产生出更重要的特征信息,因此我们制作交叉特征输入模型。这里使用以下特征来进行交叉:[年龄,性别],[年龄,学历],[性别,学历],[年龄,文章类别],[性别,文章类别],共五个交叉特征。交叉特征的具体构建方式如下公式,其中xa*b表示构建的交叉特征,a表示第一个特征值,b表示第二个特征值,len(A),len(B)分别表示a、b所属特征的所有取值数量。为了更好地理解这个公式,我们以年龄与性别举例:在一条样本中,“年龄(离散化)”特征值为3,而这个特征在所有样本中有十种取值——1到10;“性别”特征值为1,这个特征在所有样本中共有3个取值——0(缺失值填充),1,2。因为10>3,使用取值更多的特征“年龄(离散化)”作为倍数,目的是使得所有交叉的特征不会产生重合的数值化表达。最终计算出的交叉特征值为3*10+1=31。
Figure BDA0002334706780000121
通过上述A-G的操作后,单条样本信息将变成如表二所示,其样本信息是根据在A中举出的原生样本例子转变而来:
Figure BDA0002334706780000122
表二
将离散特征、连续特征、交叉离散特征输入深度学习模型训练学习的实操过程具体如下:
输入层将将离散特征、连续特征和交叉离散特征向量化得离散向量、交叉离散向量和连续向量,输出11维的离散特征,2维的连续特征;
嵌入层Embedding,将输入层的输出的11维的离散特征用更高维的向量来表征,从而包含更多的信息在向量中参与后续的网络学习,对特征值的理解更加充分。这里使用一个8维度的向量来表征特征值,即通过embedding映射后的特征维度将变为11*8。与此同时,考虑到原始离散特征与连续特征依旧包含着最原始真实的信息价值,将其完整拷贝到第二层来,即第二层中包含了原始离散特征、原始连续特征与离散特征的向量化表达。
第三层是因子分解FM模块和神经网络Deep模块的结合层,以同步学习特征间的关系及特征高阶的隐含特征,即从深度和广度两个方面一同学习特征信息,从而在最终预测过程中,充分的学习到每个特征值背的所隐藏的用户喜好特征,得到更为准确的用户点击行为的预测结果。因子分解FM模块采用因子分解机算法,他的特点是考虑了特征之间的相互作用,是一种非线性模型,适合学习不同的特征之间有什么内在联系。神经网络Deep模块综合学习离散特征与连续特征背后的隐特征信息,神经网络的每个神经元都通过输入的特征信息计算节点值来表征高阶隐含信息,从而产生预测结果,在训练收敛后,可以很好的解决预测问题。
因子分解FM模块包括线性FM模块与FM二阶交叉计算模块,线性FM模块采用线性回归算法(LR算法),线性回归进行监督学习。将11维离散特征输入线性FM模块处理,输出维度为1,输出的数据是对离散特征线性学习后的高阶特征表达。FM二阶交叉计算模块是离散特征的交叉信息学习,即对所有的特征进行两两交叉学习,这样可以充分学习到特征之间的关联特征。考虑到对多类型特征的充分学习,且LR部分已经对原始离散特征进行学习,此处将离散向量特征输入到FM二阶交叉计算模块来进行学习训练。此模块输入为11*8维,最终计算的输出结果为当前通过FM二阶计算模块学习得到的高阶特征表达,为8维。
神经网络Deep模块是对输入特征进行高阶的信息学习,为了用合适的神经元数量来包含充分的学习信息,神经网络模块具体包含了三个子层和对应三个全连接层。三层全连接层的神经元数量分别设置为256,64,32),经过三层全连接层对输入的特征进行学习,最终输出高阶的特征表征。在每一个全连接层,都对上一个子层的隐神经元高阶特征进行更高维的学习,最终输出神经网络所充分学习到的特征表征,即三中类型的特征通过神经元所挖掘的高阶信息,最终将学习的高阶表征特征输出,即32维。
拼接层,从线性FM模块得到1维FM特征向量和8维的FM二阶交叉,从神经网络Deep模块得到32维的高阶神经网络Deep特征向量,将这三部分的输出进行拼接操作。
全连接输出层,对上一层拼接的学习信息输入到最后一个全连接层,得到1维的输出,即用户点击文章的概率值。得到预测结果后,设置概率阈值τ,τ优选为0.5,做用户点击行为判断,即当上述模型计算概率值大于等于0.5时,预测结果为1,即会点击;当概率值小于0.5时,预测结果为0,即不会产生点击行为。
深度学习模型通过多类型的特征输入,包含离散特征、连续特征和交叉离散特征,对用户和文章特征信息进行学习,从而预测出一个用户在面对一篇文章时,是否会产生点击行为。对整个模型训练收敛后,可以在后续通过对文章信息的预测,将更可能点击的文章在信息流中放在更靠前的位置进行推荐。
本发明结合因子分解机与多层感知机的Deep进行训练,并对深度学习模型的结构进行改造,相比于传统的DeepFM以及其他深度学习网络模型,区别点有:
引入连续与离散特征的输入方式,扩展了网络可学习的特征类型,增强其学习能力。同步使用FM与深度学习模块对特征进行学习,不仅学习到用户的历史行为,同时利用隐含层学习高维度用户群体的喜好行为,从而在广度与深度同步得到较好的学习。多模块共享embedding模块,对embedding向量的学习起到多方位的影响,使其得到更全面的学习效果,更好的表征特征。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于多类型特征深度学习的信息流推荐方法,其特征在于,包括:
S10采集信息流场景数据并解析获取其中用户特征数据、文本特征数据和用户点击文本数据作为特征样本数据;
S20根据特征样本数据数值的离散性预处理得到相应的离散特征,根据特征样本数据数值的连续性预处理得到相应的连续特征,对离散特征进行特征工程以得到交叉离散特征;
S30将离散特征、连续特征、交叉离散特征输入深度学习模型训练学习,以挖掘用户喜好特征向量,并通对用户喜好特征向量进行非线性激活以获得用户点击文章的预测结果;
S40将用户点击文章的预测结果进行排序,推荐具有最优预测结果的用户点击文章。
2.如权利要求1所述的基于多类型特征深度学习的信息流推荐方法,其特征在于,所述深度学习模型包括:
输入层,用于将离散特征、连续特征和交叉离散特征向量化得离散向量、交叉离散向量和连续向量;
嵌入层Embedding,用于对离散向量和交叉离散向量进行高维向量表征得到相应的高维离散向量和高维交叉离散向量;及复制离散向量、交叉离散向量输入因子分解FM模块,复制交叉离散向量和连续向量输入神经网络Deep模块;
因子分解FM模块,用于学习不同的高维离散向量之间的及高维交叉离散向量间的表示用户喜好的FM特征向量;
神经网络Deep模块,用于挖掘高维交叉离散向量与连续向量间的表示用户喜好的Deep特征向量;
拼接层,用于拼接FM特征向量和Deep特征向量得到用户喜好特征,并将其输入全连接输出层;
全连接输出层,用于将所得到的用户喜好特征通过非线性激活得到用户点击文章的概率值。
3.如权利要求2所述的基于多类型特征深度学习的信息流推荐方法,其特征在于,所述因子分解FM模块包括:
FM线性模块,用于采用线性回归算法,先假定离散特征与最终预测结果之间是线性相关,定义每个离散特征的权重参数为w1i,每个离散特征对应的特征值为x1i,共有N个离散特征,构建重要度模型以得到每个离散特征对预测结果,其中重要度模型计算公式如下:
Figure FDA0002334706770000021
FM二阶交叉计算模块,用于交叉离散向量进行两两交叉学习,以得到交叉离散特征两两之间的关联特征,定义两个输入的交叉离散向量分别为x2a和x2b,每个两两的交叉离散向量的权重参数w2ab,共有n个交叉离散向量,构建FM二阶学习模型以得到交叉离散特征两两之间的关联特征,FM二阶学习模型的计算公式如下:
Figure FDA0002334706770000022
4.如权利要求2所述的基于多类型特征深度学习的信息流推荐方法,其特征在于,所述神经网络Deep模块包括离散特征子层、连续特征子层、交叉离散特征子层和三个全连接层。离散特征子层将所有离散特征进行拼接;连续特征子层将所有连续特征进行拼接;交叉离散特征子层将所有交叉离散特征进行拼接,三个拼接向量再进行拼接,并将其输入第一个全连接层,第一个全连接层输出的向量输入至第二个全连接层,第二个全连接层输出的向量输入至第三个全连接层,每个全连接层均设有数个神经元,三个全连接层分别对其输入进行学习以挖掘用户喜好特征,具体计算公式如下:
Figure FDA0002334706770000023
其中x3i表示每一层的特征输入,w3i是与输入特征一一对应的深度权重参数,
ReLU为激活层:
Figure FDA0002334706770000031
5.如权利要求1所述的基于多类型特征深度学习的信息流推荐方法,其特征在于,所述全连接输出层将所得到的用户喜好特征通过非线性激活得到用户点击文章的概率值的计算公式如下:
Figure FDA0002334706770000032
Figure FDA0002334706770000033
其中xc表示所输入的用户喜好特征,wc表示与用户喜好特征一一对应的权重参数。
6.如权利要求7所述的基于多类型特征深度学习的信息流推荐方法,其特征在于,所述用户点击文章的概率值设有概率阈值τ,若ofinal≥τ,则预测用户具有点击文章行为;若ofinal<τ,则预则用户不会产生点击文章行为。
7.如权利要求1所述的基于多类型特征深度学习的信息流推荐方法,其特征在于,所述用户特征数据至少包括用户年龄、性别、学历;所述文本特征数据至少包括文本特征、文章类别、文章关键词标签,其中用户年龄的数值特征具有连续性,性别的数值特征具有离散性,学历的数值特征具有离散性,文本内容的数值特征具有连续性,文章类别和文章关键词标签的数值特征具有离散性。
8.如权利要求7所述的基于多类型特征深度学习的信息流推荐方法,其特征在于,所述S20中预处理的方法至少包括:
文本特征数据转换:计算文本全文的字数,将对文本特征转换为文章字数特征;
补充特征缺失值:若特征样本数据中出现缺失特征,采用0值补充缺失特征;
连续特征离散化:对连续特征进行等频的分桶操作,将连续特征所有的取值按大小关系排成序列,对所有取值的数值大小进行等频分割得到若干连续性的数值范围分桶,将连续特征所有的取值一一对应数值范围分桶,得到离散化的连续特征值;
连续特征归一化:将特征样本数据中数值特征具有连接性的特征样本进行归一化处理,使得所有数据落在[0,1],计算公式如下:
Figure FDA0002334706770000041
其中X'为归一化后的连续特征值,X为归一化前的连续特征值,Xmax为连接特征的最大取值。
9.如权利要求1所述的基于多类型特征深度学习的信息流推荐方法,其特征在于,所述对离散特征进行特征工程以得到交叉离散特征的方法包括:
构建交叉离散特征:定义具有特征交叉关系的离散特征有特征值a和b,xa*b表特征值a和b之间的交叉特征,len(A)表示特征值a所属特征的所有取值数量,len(B)表示特征值b所属特征的所有取值数量,构建交叉特征模型得到特征值a和b间的交叉特征值,交叉特征模型的计算公式如下:
Figure FDA0002334706770000042
10.如权利要求4所述的基于多类型特征深度学习的信息流推荐方法,其特征在于,所述第一个全连接层至少设有256个神经元,第二个全连接层至少设有64个神经元,第三个全连接层至少设有32个神经元,每个神经元均通过输入的特征信息计算节点值来表征用户喜好的高阶隐含特征。
CN201911351219.5A 2019-12-24 2019-12-24 一种基于多类型特征深度学习的信息流推荐方法 Active CN111125530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911351219.5A CN111125530B (zh) 2019-12-24 2019-12-24 一种基于多类型特征深度学习的信息流推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911351219.5A CN111125530B (zh) 2019-12-24 2019-12-24 一种基于多类型特征深度学习的信息流推荐方法

Publications (2)

Publication Number Publication Date
CN111125530A true CN111125530A (zh) 2020-05-08
CN111125530B CN111125530B (zh) 2023-04-28

Family

ID=70502116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911351219.5A Active CN111125530B (zh) 2019-12-24 2019-12-24 一种基于多类型特征深度学习的信息流推荐方法

Country Status (1)

Country Link
CN (1) CN111125530B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111641608A (zh) * 2020-05-18 2020-09-08 咪咕动漫有限公司 异常用户识别方法、装置、电子设备及存储介质
CN111815425A (zh) * 2020-07-27 2020-10-23 上海观安信息技术股份有限公司 一种基于实体嵌入的用户信用风险等级判定方法及***
CN111898738A (zh) * 2020-07-30 2020-11-06 北京智能工场科技有限公司 一种基于全连接神经网络实现的移动终端用户性别预测方法和***
CN112085565A (zh) * 2020-09-07 2020-12-15 中国平安财产保险股份有限公司 基于深度学习的信息推荐方法、装置、设备及存储介质
CN112149839A (zh) * 2020-10-09 2020-12-29 北京百度网讯科技有限公司 高维特征的表示学习方法、装置、设备以及存储介质
CN112308132A (zh) * 2020-10-29 2021-02-02 中山大学 一种基于因子分解机的鲁棒训练方法及***
CN112804080A (zh) * 2020-12-24 2021-05-14 中国科学院信息工程研究所 一种访问控制初始化智能推荐方法
CN113254501A (zh) * 2021-06-07 2021-08-13 上海二三四五网络科技有限公司 一种通过将连续特征离散化预测程序tad的控制方法及装置
CN113426109A (zh) * 2021-06-24 2021-09-24 杭州悠潭科技有限公司 一种基于因式分解机进行棋牌游戏行为克隆的方法
CN114219516A (zh) * 2021-11-08 2022-03-22 梅瑞生 基于大数据的信息流会话推荐方法及深度学习服务***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609116A (zh) * 2017-09-13 2018-01-19 星环信息科技(上海)有限公司 一种创建跨域迁移深度网络的方法及设备
CN108763493A (zh) * 2018-05-30 2018-11-06 深圳市思迪信息技术股份有限公司 一种基于深度学习的推荐方法
CN108804646A (zh) * 2018-06-06 2018-11-13 重庆邮电大学 一种融合深度学习和因子分解机的兴趣点签到预测方法
CN109960759A (zh) * 2019-03-22 2019-07-02 中山大学 基于深度神经网络的推荐***点击率预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609116A (zh) * 2017-09-13 2018-01-19 星环信息科技(上海)有限公司 一种创建跨域迁移深度网络的方法及设备
CN108763493A (zh) * 2018-05-30 2018-11-06 深圳市思迪信息技术股份有限公司 一种基于深度学习的推荐方法
CN108804646A (zh) * 2018-06-06 2018-11-13 重庆邮电大学 一种融合深度学习和因子分解机的兴趣点签到预测方法
CN109960759A (zh) * 2019-03-22 2019-07-02 中山大学 基于深度神经网络的推荐***点击率预测方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111641608A (zh) * 2020-05-18 2020-09-08 咪咕动漫有限公司 异常用户识别方法、装置、电子设备及存储介质
CN111815425A (zh) * 2020-07-27 2020-10-23 上海观安信息技术股份有限公司 一种基于实体嵌入的用户信用风险等级判定方法及***
CN111898738A (zh) * 2020-07-30 2020-11-06 北京智能工场科技有限公司 一种基于全连接神经网络实现的移动终端用户性别预测方法和***
CN112085565A (zh) * 2020-09-07 2020-12-15 中国平安财产保险股份有限公司 基于深度学习的信息推荐方法、装置、设备及存储介质
CN112149839A (zh) * 2020-10-09 2020-12-29 北京百度网讯科技有限公司 高维特征的表示学习方法、装置、设备以及存储介质
CN112149839B (zh) * 2020-10-09 2024-06-07 北京百度网讯科技有限公司 高维特征的表示学习方法、装置、设备以及存储介质
CN112308132A (zh) * 2020-10-29 2021-02-02 中山大学 一种基于因子分解机的鲁棒训练方法及***
CN112804080A (zh) * 2020-12-24 2021-05-14 中国科学院信息工程研究所 一种访问控制初始化智能推荐方法
CN113254501A (zh) * 2021-06-07 2021-08-13 上海二三四五网络科技有限公司 一种通过将连续特征离散化预测程序tad的控制方法及装置
CN113426109A (zh) * 2021-06-24 2021-09-24 杭州悠潭科技有限公司 一种基于因式分解机进行棋牌游戏行为克隆的方法
CN113426109B (zh) * 2021-06-24 2023-09-26 深圳市优智创芯科技有限公司 一种基于因式分解机进行棋牌游戏行为克隆的方法
CN114219516A (zh) * 2021-11-08 2022-03-22 梅瑞生 基于大数据的信息流会话推荐方法及深度学习服务***

Also Published As

Publication number Publication date
CN111125530B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN111125530B (zh) 一种基于多类型特征深度学习的信息流推荐方法
CN110728541B (zh) 信息流媒体广告创意推荐方法及装置
CN111259133B (zh) 一种融合多信息的个性化推荐方法
CN111222332B (zh) 一种结合注意力网络和用户情感的商品推荐方法
CN113626719A (zh) 信息推荐方法、装置、设备、存储介质及计算机程序产品
CN110134868B (zh) 一种基于用户偏好异构性分析的推荐方法
CN111611488B (zh) 基于人工智能的信息推荐方法、装置、电子设备
CN111784081A (zh) 一种采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法
CN107122455A (zh) 一种基于微博的网络用户增强表示方法
CN111949885B (zh) 一种面向旅游景点的个性化推荐方法
CN110245310B (zh) 一种对象的行为分析方法、装置及存储介质
CN112085525A (zh) 一种基于混合模型的用户网络购买行为预测研究方法
CN111666496A (zh) 一种基于评论文本的组推荐方法
CN113051468A (zh) 一种基于知识图谱和强化学习的电影推荐方法及***
CN114840745A (zh) 一种基于图表征学习和深度语义匹配模型的个性化推荐方法及***
CN115344698A (zh) 标签处理方法、装置、计算机设备、存储介质和程序产品
CN117216281A (zh) 一种基于知识图谱的用户兴趣扩散推荐方法及***
CN112948696B (zh) 具有隐私保护功能的跨域医疗保健设备推荐方法及***
KR102536290B1 (ko) 1차 콘텐츠의 댓글 분석 기반 사용자의 니즈가 반영된 2차 콘텐츠 예측방법
CN112905906A (zh) 一种融合局部协同与特征交叉的推荐方法及***
CN114579869B (zh) 模型训练方法以及相关产品
CN117251586A (zh) 多媒体资源推荐方法、装置及存储介质
CN116630777A (zh) 一种信息瓶颈图压缩的医疗指标缺失数据补全方法
CN116957128A (zh) 业务指标预测方法、装置、设备和存储介质
CN115168634A (zh) 一种基于多层级表征的面料跨模态图文检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant