CN109948040A - 对象信息的存储、推荐方法及***、设备和存储介质 - Google Patents
对象信息的存储、推荐方法及***、设备和存储介质 Download PDFInfo
- Publication number
- CN109948040A CN109948040A CN201711261618.3A CN201711261618A CN109948040A CN 109948040 A CN109948040 A CN 109948040A CN 201711261618 A CN201711261618 A CN 201711261618A CN 109948040 A CN109948040 A CN 109948040A
- Authority
- CN
- China
- Prior art keywords
- object information
- text
- content
- recommended
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种对象信息的存储、推荐方法及***、设备和存储介质。其中,所述存储方法包括以下步骤:S11、获取多个目标对象的目标对象信息中的文本内容,对每则目标对象信息的文本内容进行分词处理,获得特征词;S12、基于TF‑IDF计算目标对象信息中每个特征词的TF‑IDF值,并构成目标对象的特征向量;S13、基于LDA模型和所述特征向量确定每则目标对象信息的主题,并将多则目标对象信息的特征向量按照不同的主题存储于数据库中。本发明基于TF‑IDF以及LDA模型实现了对目标对象信息的精确的主题划分,目标对象信息按照不同的主题存储于数据库中。该目标对象信息的存储方式有利于实现目标对象的准确推荐。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种对象信息的存储、推荐方法及***、设备和存储介质。
背景技术
随着互联网和大数据的发展,从用户阅览网络对象的内容、文本数据中找到有价值的信息的需求越来越大,以此抓住用户的偏好,进行对象推荐,提高对象的点击转化率。
目前,大多数的推荐***是基于内容的推荐,其对产品分析师的依赖比较大,需要产品分析师从用户历史阅读内容数据中提取特征(浏览次数、分享次数和点赞次数等)建立对象特征向量模型,然后基于用户的历史评分向量来学习用户的偏好,生成用户偏好模型,这两个模型具有相同的维度,最后以这两个模型的输出参数计算用户与待推荐对象之间的匹配程度,进行对象推荐。
由于目前的基于内容的对象推荐在建立对象特征向量模型时,需要依赖分析师进行对象特征的提取,致使获得的对象特征比较局限,不能挖掘用户潜在兴趣,且分析师的业务经验不一定可靠,导致推荐的对象并不一定是用户所需的。
另外,目前的对象信息的存储方式通常采用人为划分主题,并将对象信息存储于对应的主题中。由于人为主观的主题划分方式并不能准确识别对象信息的隐主题下的主题词分布,具有局限性,也就不能实现对对象信息的准确的主题划分,不利于实现对象的准确推荐。
发明内容
本发明要解决的技术问题是为了克服现有技术中对象信息的存储方式不能准确识别对象信息的隐主题下的主题词分布,也就不能实现对对象信息的准确的主题划分的缺陷,提供一种对象信息的存储、推荐方法及***、设备和存储介质。
本发明是通过下述技术方案来解决上述技术问题:
一种对象信息的存储方法,所述存储方法包括以下步骤:
S11、获取多个对象的对象信息中的文本内容,对每则对象信息的文本内容进行分词处理,获得特征词;
S12、基于TF-IDF计算对象信息中每个特征词的TF-IDF值,并构成对象的特征向量;
S13、基于LDA模型和所述特征向量确定每则对象信息的主题,并将多则对象信息的特征向量按照不同的主题存储于数据库中。
较佳地,步骤S11中,对每则对象信息的文本内容进行分词处理,获得特征词的步骤具体包括:
设置停用词库、自定义词库和常用词库;
根据分别存储于所述停用词库、所述自定义词库和所述常用词库中的停用词、自定义词和常用词对所述文本内容进行分词;
过滤所述文本内容以去除所述文本内容中的停用词,将文本内容中的自定义词和常用词作为所述特征词。
较佳地,步骤S12具体包括:
计算每个特征词的TF值和IDF值;
根据所述TF值和所述IDF值计算每个特征词的TF-IDF值;
将所述文本内容中的特征词按照TF-IDF值由高至低的顺序排序,构成所述特征向量。
较佳地,所述TF值的计算公式如下:
TF=No/Nv;
其中,No表示目标特征词在文本内容中出现的次数,Nv表示文本内容中所有特征词的个数;
所述IDF值的计算公式如下:
其中,Nm表示所述数据库中对象信息的文本内容的数量,Nmo表示所述数据库中包括目标特征词的文本内容的数量;所述目标特征词为当前选定的计算TF-IDF值的特征词;
所述TF-IDF值的计算公式如下:
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的对象信息的存储方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的对象信息的存储方法的步骤。
本发明还提供一种对象推荐方法,所述对象推荐方法包括以下步骤:
S21、利用如上所述的存储方法将多则对象信息存储于数据库中;
S22、在接收到用户发起的请求时从所述数据库中获取目标对象信息;
S23、计算所述目标对象信息与待推荐对象信息的相似度,推荐相似度大于第一阈值的待推荐对象信息。
所述待推荐对象信息为所述目标对象信息所属主题中除所述目标对象信息之外的对象信息。
较佳地,步骤S23中,计算相似度的公式如下:
其中,cosA表示相似度,b表示所述目标对象信息的特征向量,c表示与所述待推荐对象信息的特征向量。
较佳地,步骤S23中,推荐相似度大于第一阈值的待推荐对象信息的步骤具体包括:
将相似度大于第一阈值的待推荐对象信息按照相似度由高至低的顺序排序后进行推荐。
较佳地,步骤S23中,推荐相似度大于第一阈值的待推荐对象信息的步骤具体包括:
计算相似度大于第一阈值的任意两则待推荐对象信息的相似度的差值;
将差值小于第二阈值的两则对象信息合并为一则对象信息后进行推荐。
较佳地,步骤S21之后还包括:
计算每则对象信息的点击转化率;
向未发起请求的用户推荐点击转化率大于第三阈值的对象信息。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的对象推荐方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的对象推荐方法的步骤。
本发明还提供一种对象信息的存储***,所述存储***包括:
文本处理模块,用于获取多个对象的对象信息中的文本内容,并对每则对象信息的文本内容进行分词处理,获得特征词;
特征向量构建模块,用于基于TF-IDF计算对象信息中每个特征词的TF-IDF值,并构成对象的特征向量;
存储模块,用于基于LDA模型和所述特征向量确定每则对象信息的主题,并将多则对象信息的特征向量按照不同的主题存储于数据库中。
较佳地,所述文本处理模块具体包括:
词库设置单元,用于设置停用词库、自定义词库和常用词库;
分词单元,用于根据分别存储于所述停用词库、所述自定义词库和所述常用词库中的停用词、自定义词和常用词对所述文本内容进行分词;
过滤单元,用于过滤所述文本内容以去除所述文本内容中的停用词;
特征词确定单元,用于将文本内容中的自定义词和常用词作为所述特征词。
较佳地,所述特征向量构建模块包括:
计算单元,用于计算每个特征词的TF值和IDF值,并根据所述TF值和IDF值计算每个特征词的TF-IDF值;
特征向量构建单元,用于将所述文本内容中的特征词按照TF-IDF值由高至低的顺序排序,构成所述特征向量。
较佳地,所述计算单元具体通过如下公式计算TF值:
TF=No/Nv;
其中,No表示目标特征词在文本内容中出现的次数,Nv表示文本内容中所有特征词的个数;
所述计算单元具体通过如下公式计算IDF值:
其中,Nm表示所述数据库中对象信息的文本内容的数量,Nmo表示所述数据库中包括目标特征词的文本内容的数量;所述目标特征词为当前选定的计算TF-IDF值的特征词;
所述计算单元具体通过如下公式计算TF-IDF值:
较佳地,所述对象信息为电子书的文本信息和/或物品的文本介绍信息。
本发明还提供一种对象推荐***,所述对象推荐***包括:对象信息获取模块、计算模块、推荐模块、数据库和如上所述的存储***;
所述存储***将多则对象信息存储于所述数据库中;
所述对象信息获取模块用于在接收到用户发起的请求时从所述数据库中获取目标对象信息;
所述计算模块用于计算所述目标对象信息与待推荐对象信息的相似度;
所述推荐模块用于推荐相似度大于第一阈值的待推荐对象信息;
所述待推荐对象信息为所述目标对象信息所属主题中除所述目标对象信息之外的对象信息。
较佳地,所述计算模块具体通过如下公式计算相似度:
其中,cosA表示相似度,b表示所述目标对象信息的特征向量,c表示所述待推荐对象信息的特征向量。
较佳地,所述推荐模块具体用于将相似度大于第一阈值的待推荐对象信息按照相似度由高至低的顺序排序进行推荐。
较佳地,所述推荐模块具体用于计算相似度大于第一阈值的任意两则待推荐对象信息的相似度的差值,并将差值小于第二阈值的两则对象信息合并为一则对象信息后进行推荐。
较佳地,所述对象推荐***还包括:点击转化率计算模块;
所述点击转化率计算模块用于计算所述数据库中每则对象信息的点击转化率;
所述推荐模块还用于向未发起请求的用户推荐点击转化率大于第三阈值的对象信息。
本发明的积极进步效果在于:本发明基于TF-IDF以及LDA模型实现了对对象信息的精确的主题划分,对象信息按照不同的主题存储于数据库中。该对象信息的存储方式有利于实现对象的准确推荐。
附图说明
图1为本发明实施例1的对象信息的存储方法的流程图。
图2为本发明实施例1的对象信息的存储方法中获取对象信息的特征词的步骤流程图。
图3为本发明实施例1的对象信息的存储方法中构建对象的特征向量的步骤流程图。
图4为本发明实施例2的电子设备的硬件结构示意图。
图5为本发明实施例4的对象推荐方法的流程图。
图6为本发明实施例7的对象信息的存储***的模块示意图。
图7为本发明实施例8的对象推荐***的模块示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,本实施例的对象信息的存储方法包括以下步骤:
步骤101、获取多个对象的对象信息中的文本内容,对每则对象信息的文本内容进行分词处理,获得特征词。
其中,对象可以是电子书、物品和电子文稿(例如网络新闻、网络文章)等。对象信息也即电子书的内容信息,物品的介绍信息,电子文稿的内容信息等。对象信息包括文本内容、图像、表格等。
具体的,如图2所示,步骤101中,对每则对象信息的文本内容进行分词处理,获得特征词的步骤具体包括:
步骤101-1、设置停用词库、自定义词库和常用词库。
步骤101-2、根据分别存储于停用词库、自定义词库和常用词库中的停用词、自定义词和常用词对文本内容进行分词。
其中,停用词例如可以是“啊”、“呢”、“的”等无实际意义的词,标点符号,特殊符号等。用户可根据实际需求定义自定义词,例如可以是“果粒多”、“京东”、“Haier”等。
步骤101-3、过滤文本内容以去除文本内容中的停用词,将文本内容中的自定义词和常用词作为特征词。
本实施例中,对对象信息进行了清洗、去除了停用词,得到的特征词更能反映对象信息的真实含义,且可减小算法的复杂度。
步骤102、基于TF-IDF计算对象信息中每个特征词的TF-IDF值,并构成对象的特征向量。
具体的,如图3所示,步骤102包括:
步骤102-1、计算每个特征词的TF值和IDF值。
本实施例中,TF值的计算公式如下:
TF=No/Nv;
No表示目标特征词在文本内容中出现的次数,Nv表示文本内容中所有特征词的个数;
本实施例中,IDF值的计算公式如下:
其中,Nm表示数据库中对象信息的文本内容的数量,Nmo表示数据库中包括目标特征词的文本内容的数量;目标特征词为当前选定的计算TF-IDF值的特征词。
步骤102-2、根据TF值和IDF值计算每个特征词的TF-IDF值。
本实施例中,TF-IDF值的计算公式如下:
本实施例中,通过计算每个特征词的TF值实现对篇幅较长的文本内容的特征词进行归一化处理。IDF是逆向文件频率,是一个特征词在文本内容中普遍重要性的度量。TF-IDF值表征词频逆文档频率,如果某个词语在一篇文章中出现的频率高,并且在其它文章中出现次数较少,就认为这个词语有很好的类别区分能力,适合分类。计算TF-IDF的目的是为了过滤文章中的常见词语,保留重要的词语。
步骤102-3、将文本内容中的特征词按照TF-IDF值由高至低的顺序排序,构成特征向量。
从而,实现了通过特征向量描述对象信息,向量中每一个维度的大小代表特征词对这篇文章的贡献。不同的文章,因文章长度的不同,其特征向量的维度数值也不同。
步骤103、基于LDA模型和特征向量确定每则对象信息的主题,并将多则对象信息的特征向量按照不同的主题存储于数据库中。
具体的,可利用Hive(数据仓库工具)将多则对象信息的特征向量按照不同的主题存储于数据库中。
本实施例中,LDA隐语义模型可以将多则对象信息的主题以概率的形式给出,即认为每则对象信息是由一组特征词构成的,词与词之间没有先后顺序关系。需要说明的是,一则对象信息可以包含多个主题,对象信息中的每一个特征词都由一个主题生成。
本实施例中,在通过LDA模型得到多则对象信息隐主题下的主题词(特征词)分布时,针对个别主题下主题词分布不鲜明的情况,还做了配置文件,以把属于该主题下的文章重采样预设次数,例如100次,也即针对那些主题词混乱的主题,把该主题下的文章重复采样100次进行第二次LDA主题聚合,实现对LDA模型的优化,从而加强主题分布的可靠性,使得二次LDA主题聚合出来的主题词更加鲜明,使得将对象信息聚类到特定的主题下更加准确,同时给用户做基于主题偏好的个性化推荐奠定了基础。
实施例2
图4为本发明实施例2提供的一种电子设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性电子设备30的框图。图4显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:至少一个处理器31、至少一个存储器32、连接不同***组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1所提供的对象信息的存储方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,电子设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器36通过总线33与电子设备30的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)***、磁带驱动器以及数据备份存储***等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例3
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1所提供的对象信息的存储方法的步骤。
实施例4
如图5所示,本实施例的对象推荐方法包括以下步骤:
步骤201、将多则对象信息存储于数据库中。
具体的,利用实施例1中的存储方法将多则对象信息存储于数据库中。
步骤202、在接收到用户发起的请求时从数据库中获取目标对象信息。
也即,根据用户的请求(搜索、链接触发)将相应的对象信息(也即目标对象信息)展示给用户。
步骤203、计算目标对象信息与待推荐对象信息的相似度,推荐相似度大于第一阈值的待推荐对象信息。
也即将与用户当前查阅的对象信息之间的相似度大于第一阈值的待推荐对象信息推荐给用户。
其中,待推荐对象信息为目标对象信息所属主题中除目标对象信息之外的对象信息。
本实施例中,计算相似度的公式如下:
其中,cosA表示相似度,b表示目标对象信息的特征向量,c表示待推荐对象信息的特征向量。由于单纯比较目标对象信息和待推荐对象信息的各个维度的大小没有意义,但是向量的方向却有很大意义,用余弦定理计算两个特征向量的夹角:当两则对象信息的特征向量的余弦等于1时,这两个向量夹角为0,说明这两则对象信息完全相同;当两个向量正交时,夹角的余弦为0,说明两则对象信息没有相同的多个主题词(特征词),两篇文章相差较大,不适合做推荐。
本实施例中,为了加快计算速度,降低算法的复杂度,还可存储每个特征向量的长度,计算相似度时,直接取用对应特征向量的长度即可。计算余弦公式分子中两个向量的内积时,若两个向量的维数不同,则可将维数小的向量进行补零处理。但事实上在实际计算时,只需要考虑向量中的非零元素即可,计算的复杂度取决于两个向量中非零元素个数的最小值,这样使得计算复杂度进一步降低。
本实施例中,推荐相似度大于第一阈值的待推荐对象信息时,可先将相似度大于第一阈值的对象信息按照相似度由高至低的顺序排序后再进行推荐;也可以先计算相似度大于第一阈值的任意两则待推荐对象信息的相似度的差值,将差值小于第二阈值的两则对象信息合并为一则对象信息后进行推荐,也即将两则较相似的对象信息进行合并;当然,也可对排序后的待推荐对象信息的计算相似度差值,再进行合并。
本实施例中,可识别大规模文本中隐含的主题信息,并且以这些主题作为模型的特征,发现用户的潜在兴趣点,并进行对象信息推荐,实现给用户做基于主题偏好的个性化推荐,大大提高了对象推荐的准确度和点击转化率。
本实施例中,步骤201之后还包括:
计算每则对象信息的点击转化率。
向未发起请求的用户推荐点击转化率大于第三阈值的对象信息。
也即当用户登录新闻网站或电商网站,但未有任何操作时,则将点击转化率大于第三阈值的对象信息推荐给用户,从而较好地解决了冷启动问题。
需要说明的是,本实施例中的第一阈值、第二阈值和第三阈值可根据实际需求自行设置。
实施例5
本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例4所提供的对象推荐方法。
实施例6
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例4所提供的对象推荐方法的步骤。
实施例7
如图6所示,本实施例的对象信息的存储***包括:文本处理模块11、特征向量构建模块12和存储模块13。
文本处理模块11用于获取多个对象的对象信息中的文本内容,并对每则对象信息的文本内容进行分词处理,获得特征词。
其中,对象可以是电子书、物品和电子文稿(例如网络新闻、网络文章)等。对象信息也即电子书的内容信息,物品的介绍信息,电子文稿的内容信息等。
特征向量构建模块12用于基于TF-IDF计算对象信息中每个特征词的TF-IDF值,并构成对象的特征向量。
存储模块13用于基于LDA模型和特征向量确定每则对象信息的主题,并将多则对象信息的特征向量按照不同的主题存储于数据库中。
本实施例中,文本处理模块11具体包括:词库设置单元111、分词单元112、过滤单元113和特征词确定单元114。
词库设置单元111用于设置停用词库、自定义词库和常用词库。
分词单元112用于根据分别存储于停用词库、自定义词库和常用词库中的停用词、自定义词和常用词对文本内容进行分词。
其中,停用词例如可以是“啊”、“呢”、“的”等无实际意义的词,标点符号,特殊符号等。用户可根据实际需求定义自定义词,例如可以是“果粒多”、“京东”、“Haier”等。
过滤单元113用于过滤文本内容以去除文本内容中的停用词。
特征词确定单元114用于将文本内容中的自定义词和常用词作为特征词。
本实施例中,对对象信息进行了清洗、去除了停用词,得到的特征词更能反映对象信息的真实含义,且可减小算法的复杂度。
本实施例中,特征向量构建模块12具体包括:计算单元121和特征向量构建单元122。
计算单元121用于计算每个特征词的TF值和IDF值,并根据TF值和IDF值计算每个特征词的TF-IDF值。
其中,计算单元具体通过如下公式计算TF值:
TF=No/Nv;
其中,No表示目标特征词在文本内容中出现的次数,Nv表示文本内容中所有特征词的个数;
计算单元具体通过如下公式计算IDF值:
其中,Nm表示所述数据库中对象信息的文本内容的数量,Nmo表示所述数据库中包括目标特征词的文本内容的数量;所述目标特征词为当前选定的计算TF-IDF值的特征词;
计算单元具体通过如下公式计算TF-IDF值:
特征向量构建单元122用于将文本内容中的特征词按照TF-IDF值由高至低的顺序排序,构成特征向量。
从而,实现了通过特征向量描述对象信息,向量中每一个维度的大小代表特征词对这篇文章的贡献。不同的文章,因文章长度的不同,其特征向量的维度数值也不同。
本实施例中,在通过LDA模型得到多则对象信息隐主题下的主题词(特征词)分布时,针对个别主题下主题词分布不鲜明的情况,还做了配置文件,以把属于该主题下的文章重采样预设次数,例如100次,也即针对那些主题词混乱的主题,把该主题下的文章重复采样100次进行第二次LDA主题聚合,实现对LDA模型的优化,从而加强主题分布的可靠性,使得二次LDA主题聚合出来的主题词更加鲜明,使得将对象信息聚类到特定的主题下更加准确,同时给用户做基于主题偏好的个性化推荐奠定了基础。
实施例8
如图7所示,本实施例的对象推荐***包括:对象信息获取模块21、计算模块22、推荐模块23、数据库24和存储***;
本实施例中,利用实施例8中的存储***将多则对象信息存储于数据库中。
对象信息获取模块21用于在接收到用户发起的请求时从所述数据库中获取目标对象信息。
也即,根据用户的请求(搜索、链接触发)将相应的对象信息(也即目标对象信息)展示给用户。
计算模块22用于计算目标对象信息与待推荐对象信息的相似度。也即将与用户当前查阅的对象信息之间的相似度大于第一阈值的待推荐对象信息推荐给用户。
其中,待推荐对象信息为目标对象信息所属主题中除目标对象信息之外的对象信息。
具体的,计算模块通过如下公式计算相似度:
其中,cosA表示相似度,b表示目标对象信息的特征向量,c表示待推荐对象信息的特征向量。由于单纯比较目标对象信息和待推荐对象信息的各个维度的大小没有意义,但是向量的方向却有很大意义,用余弦定理计算两个特征向量的夹角:当两则对象信息的特征向量的余弦等于1时,这两个向量夹角为0,说明这两则对象信息完全相同;当两个向量正交时,夹角的余弦为0,说明两则对象信息没有相同的多个主题词(特征词),两篇文章相差较大,不适合做推荐。
本实施例中,为了加快计算速度,降低算法的复杂度,存储***还可存储每个特征向量的长度,计算相似度时,直接取用对应特征向量的长度即可。计算余弦公式分子中两个向量的内积时,若两个向量的维数不同,则可将维数小的向量进行补零处理。但事实上在实际计算时,只需要考虑向量中的非零元素即可,计算的复杂度取决于两个向量中非零元素个数的最小值,这样使得计算复杂度进一步降低。
推荐模块23用于推荐相似度大于第一阈值的待推荐对象信息。
具体的,推荐模块可先将相似度大于第一阈值的对象信息按照相似度由高至低的顺序排序后再进行推荐;也可以先计算相似度大于第一阈值的任意两则待推荐对象信息的相似度的差值,将差值小于第二阈值的两则待推荐对象信息合并为一则对象信息后进行推荐,也即将两则较相似的对象信息进行合并;当然,也可对排序后的待推荐对象信息计算相似度差值,再进行合并。
本实施例中,可识别大规模文本中隐含的主题信息,并且以这些主题作为模型的特征,发现用户的潜在兴趣点,并进行对象信息推荐,实现给用户做基于主题偏好的个性化推荐,大大提高了对象推荐的准确度和点击转化率。
本实施例中,对象推荐***还包括:点击转化率计算模块25。
点击转化率计算模块25用于计算数据库中每则对象信息的点击转化率。
推荐模块23还用于向未发起请求的用户推荐点击转化率大于第三阈值的对象信息。
也即当用户登录电商网站,但未有任何操作时,则将点击转化率大于第三阈值的对象信息推荐给用户,从而较好地解决了冷启动问题。
需要说明的是,本实施例中的第一阈值、第二阈值和第三阈值可根据实际需求自行设置。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (22)
1.一种对象信息的存储方法,其特征在于,所述存储方法包括以下步骤:
S11、获取多个对象的对象信息中的文本内容,对每则对象信息的文本内容进行分词处理,获得特征词;
S12、基于TF-IDF计算对象信息中每个特征词的TF-IDF值,并构成对象的特征向量;
S13、基于LDA模型和所述特征向量确定每则对象信息的主题,并将多则对象信息的特征向量按照不同的主题存储于数据库中。
2.如权利要求1所述的存储方法,其特征在于,步骤S11中,对每则对象信息的文本内容进行分词处理,获得特征词的步骤具体包括:
设置停用词库、自定义词库和常用词库;
根据分别存储于所述停用词库、所述自定义词库和所述常用词库中的停用词、自定义词和常用词对所述文本内容进行分词;
过滤所述文本内容以去除所述文本内容中的停用词,将文本内容中的自定义词和常用词作为所述特征词。
3.如权利要求1所述的存储方法,其特征在于,步骤S12具体包括:
计算每个特征词的TF值和IDF值;
根据所述TF值和所述IDF值计算每个特征词的TF-IDF值;
将所述文本内容中的特征词按照TF-IDF值由高至低的顺序排序,构成所述特征向量。
4.如权利要求3所述的存储方法,其特征在于,所述TF值的计算公式如下:
TF=No/Nv;
其中,No表示目标特征词在文本内容中出现的次数,Nv表示文本内容中所有特征词的个数;
所述IDF值的计算公式如下:
其中,Nm表示所述数据库中对象信息的文本内容的数量,Nmo表示所述数据库中包括目标特征词的文本内容的数量;所述目标特征词为当前选定的计算TF-IDF值的特征词;
所述TF-IDF值的计算公式如下:
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的对象信息的存储方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述的对象信息的存储方法的步骤。
7.一种对象推荐方法,其特征在于,所述对象推荐方法包括以下步骤:
S21、利用权要求1-4中的任意一项所述的存储方法将多则对象信息存储于数据库中;
S22、在接收到用户发起的请求时从所述数据库中获取目标对象信息;
S23、计算所述目标对象信息与待推荐对象信息的相似度,推荐相似度大于第一阈值的待推荐对象信息;
所述待推荐对象信息为所述目标对象信息所属主题中除所述目标对象信息之外的对象信息。
8.如权利要求7所述的对象推荐方法,其特征在于,步骤S23中,计算相似度的公式如下:
其中,cosA表示相似度,b表示所述目标对象信息的特征向量,c表示与所述待推荐对象信息的特征向量。
9.如权利要求7所述的对象推荐方法,其特征在于,步骤S23中,推荐相似度大于第一阈值的待推荐对象信息的步骤具体包括:
将相似度大于第一阈值的待推荐对象信息按照相似度由高至低的顺序排序后进行推荐。
10.如权利要求7所述的对象推荐方法,其特征在于,步骤S23中,推荐相似度大于第一阈值的待推荐对象信息的步骤具体包括:
计算相似度大于第一阈值的任意两则待推荐对象信息的相似度的差值;
将差值小于第二阈值的两则对象信息合并为一则对象信息后进行推荐。
11.如权利要求7所述的对象推荐方法,其特征在于,步骤S21之后还包括:
计算每则对象信息的点击转化率;
向未发起请求的用户推荐点击转化率大于第三阈值的对象信息。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求7至11任一项所述的对象推荐方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求7至11任一项所述的对象推荐方法的步骤。
14.一种对象信息的存储***,其特征在于,所述存储***包括:
文本处理模块,用于获取多个对象的对象信息中的文本内容,并对每则对象信息的文本内容进行分词处理,获得特征词;
特征向量构建模块,用于基于TF-IDF计算对象信息中每个特征词的TF-IDF值,并构成对象的特征向量;
存储模块,用于基于LDA模型和所述特征向量确定每则对象信息的主题,并将多则对象信息的特征向量按照不同的主题存储于数据库中。
15.如权利要求14所述的存储***,其特征在于,所述文本处理模块具体包括:
词库设置单元,用于设置停用词库、自定义词库和常用词库;
分词单元,用于根据分别存储于所述停用词库、所述自定义词库和所述常用词库中的停用词、自定义词和常用词对所述文本内容进行分词;
过滤单元,用于过滤所述文本内容以去除所述文本内容中的停用词;
特征词确定单元,用于将文本内容中的自定义词和常用词作为所述特征词。
16.如权利要求14所述的存储***,其特征在于,所述特征向量构建模块包括:
计算单元,用于计算每个特征词的TF值和IDF值,并根据所述TF值和IDF值计算每个特征词的TF-IDF值;
特征向量构建单元,用于将所述文本内容中的特征词按照TF-IDF值由高至低的顺序排序,构成所述特征向量。
17.如权利要求16所述的存储***,其特征在于,所述计算单元具体通过如下公式计算TF值:
TF=No/Nv;
其中,No表示目标特征词在文本内容中出现的次数,Nv表示文本内容中所有特征词的个数;
所述计算单元具体通过如下公式计算IDF值:
其中,Nm表示所述数据库中对象信息的文本内容的数量,Nmo表示所述数据库中包括目标特征词的文本内容的数量;所述目标特征词为当前选定的计算TF-IDF值的特征词;
所述计算单元具体通过如下公式计算TF-IDF值:
18.一种对象推荐***,其特征在于,所述对象推荐***包括:对象信息获取模块、计算模块、推荐模块、数据库和权利要求14-17中任意一项所述的存储***;
所述存储***将多则对象信息存储于所述数据库中;
所述对象信息获取模块用于在接收到用户发起的请求时从所述数据库中获取目标对象信息;
所述计算模块用于计算所述目标对象信息与待推荐对象信息的相似度;
所述推荐模块用于推荐相似度大于第一阈值的待推荐对象信息;
所述待推荐对象信息为所述目标对象信息所属主题中除所述目标对象信息之外的对象信息。
19.如权利要求18所述的对象推荐***,其特征在于,所述计算模块具体通过如下公式计算相似度:
其中,cosA表示相似度,b表示所述目标对象信息的特征向量,c表示所述待推荐对象信息的特征向量。
20.如权利要求18所述的对象推荐***,其特征在于,所述推荐模块具体用于将相似度大于第一阈值的待推荐对象信息按照相似度由高至低的顺序排序进行推荐。
21.如权利要求18所述的对象推荐***,其特征在于,所述推荐模块具体用于计算相似度大于第一阈值的任意两则待推荐对象信息的相似度的差值,并将差值小于第二阈值的两则对象信息合并为一则对象信息后进行推荐。
22.如权利要求18所述的对象推荐***,其特征在于,所述对象推荐***还包括:点击转化率计算模块;
所述点击转化率计算模块用于计算所述数据库中每则对象信息的点击转化率;
所述推荐模块还用于向未发起请求的用户推荐点击转化率大于第三阈值的对象信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711261618.3A CN109948040A (zh) | 2017-12-04 | 2017-12-04 | 对象信息的存储、推荐方法及***、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711261618.3A CN109948040A (zh) | 2017-12-04 | 2017-12-04 | 对象信息的存储、推荐方法及***、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109948040A true CN109948040A (zh) | 2019-06-28 |
Family
ID=67004113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711261618.3A Pending CN109948040A (zh) | 2017-12-04 | 2017-12-04 | 对象信息的存储、推荐方法及***、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109948040A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580279A (zh) * | 2019-08-19 | 2019-12-17 | 湖南正宇软件技术开发有限公司 | 一种信息归类方法和***、设备及存储介质 |
CN111858915A (zh) * | 2020-08-07 | 2020-10-30 | 成都理工大学 | 基于标签相似度的信息推荐方法及*** |
CN113868522A (zh) * | 2021-09-26 | 2021-12-31 | 北京达佳互联信息技术有限公司 | 对象推荐方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
CN103309869A (zh) * | 2012-03-09 | 2013-09-18 | 阿里巴巴集团控股有限公司 | 数据对象的展示关键词推荐方法及*** |
CN103593430A (zh) * | 2013-11-11 | 2014-02-19 | 胡宝清 | 一种基于移动对象时空信息轨迹分段聚类的方法 |
CN103729360A (zh) * | 2012-10-12 | 2014-04-16 | 腾讯科技(深圳)有限公司 | 一种兴趣标签推荐方法及*** |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN107066555A (zh) * | 2017-03-26 | 2017-08-18 | 天津大学 | 面向专业领域的在线主题检测方法 |
US20170270430A1 (en) * | 2016-03-21 | 2017-09-21 | Ca, Inc. | Document analysis system that uses machine learning to predict subject matter evolution of document content |
-
2017
- 2017-12-04 CN CN201711261618.3A patent/CN109948040A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103309869A (zh) * | 2012-03-09 | 2013-09-18 | 阿里巴巴集团控股有限公司 | 数据对象的展示关键词推荐方法及*** |
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
CN103729360A (zh) * | 2012-10-12 | 2014-04-16 | 腾讯科技(深圳)有限公司 | 一种兴趣标签推荐方法及*** |
CN103593430A (zh) * | 2013-11-11 | 2014-02-19 | 胡宝清 | 一种基于移动对象时空信息轨迹分段聚类的方法 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
US20170270430A1 (en) * | 2016-03-21 | 2017-09-21 | Ca, Inc. | Document analysis system that uses machine learning to predict subject matter evolution of document content |
CN107066555A (zh) * | 2017-03-26 | 2017-08-18 | 天津大学 | 面向专业领域的在线主题检测方法 |
Non-Patent Citations (1)
Title |
---|
许鑫: "《基于文本特征计算的信息分析方法》", 30 November 2015 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580279A (zh) * | 2019-08-19 | 2019-12-17 | 湖南正宇软件技术开发有限公司 | 一种信息归类方法和***、设备及存储介质 |
CN111858915A (zh) * | 2020-08-07 | 2020-10-30 | 成都理工大学 | 基于标签相似度的信息推荐方法及*** |
CN113868522A (zh) * | 2021-09-26 | 2021-12-31 | 北京达佳互联信息技术有限公司 | 对象推荐方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102092691B1 (ko) | 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기 | |
CN107526800B (zh) | 信息推荐的装置、方法及计算机可读存储介质 | |
Zhu et al. | Heterogeneous hypergraph embedding for document recommendation | |
CN107704512B (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及*** | |
US8032469B2 (en) | Recommending similar content identified with a neural network | |
US20170364495A1 (en) | Propagation of changes in master content to variant content | |
CN103136228A (zh) | 一种图片搜索方法以及图片搜索装置 | |
CN108664574A (zh) | 信息的输入方法、终端设备及介质 | |
WO2012162541A1 (en) | Method and apparatus of providing suggested terms | |
AU2013246140B2 (en) | Discovering spam merchants using product feed similarity | |
CN113722438B (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
CN105653701A (zh) | 模型生成方法及装置、词语赋权方法及装置 | |
US20190050399A1 (en) | Distinguish phrases in displayed content | |
CN110363206B (zh) | 数据对象的聚类、数据处理及数据识别方法 | |
CN109948040A (zh) | 对象信息的存储、推荐方法及***、设备和存储介质 | |
CN104899236A (zh) | 一种评论信息显示方法、装置及*** | |
WO2016122575A1 (en) | Product, operating system and topic based recommendations | |
CN106934006B (zh) | 基于多叉树模型的页面推荐方法及装置 | |
CN114116997A (zh) | 知识问答方法、装置、电子设备及存储介质 | |
CN111737607B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN115248890A (zh) | 用户兴趣画像的生成方法、装置、电子设备以及存储介质 | |
CN110262906B (zh) | 接口标签推荐方法、装置、存储介质和电子设备 | |
Albatayneh et al. | A Semantic content-based forum recommender system architecture based on content-based filtering and latent semantic analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190628 |