CN112732995A - 一种畜牧业新闻资讯推荐*** - Google Patents

一种畜牧业新闻资讯推荐*** Download PDF

Info

Publication number
CN112732995A
CN112732995A CN202110022281.0A CN202110022281A CN112732995A CN 112732995 A CN112732995 A CN 112732995A CN 202110022281 A CN202110022281 A CN 202110022281A CN 112732995 A CN112732995 A CN 112732995A
Authority
CN
China
Prior art keywords
news
user
news information
information
recommended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110022281.0A
Other languages
English (en)
Inventor
郭杰
钟淑琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YUNFU INTERNET OF THINGS RESEARCH INSTITUTE
Original Assignee
YUNFU INTERNET OF THINGS RESEARCH INSTITUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by YUNFU INTERNET OF THINGS RESEARCH INSTITUTE filed Critical YUNFU INTERNET OF THINGS RESEARCH INSTITUTE
Priority to CN202110022281.0A priority Critical patent/CN112732995A/zh
Publication of CN112732995A publication Critical patent/CN112732995A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种畜牧业新闻资讯推荐***,包括用户兴趣度建模模块、新闻资讯爬取模块、网页数据预处理模块、新闻资讯推荐模块、新闻资讯展示反馈模块和新闻资讯检索模块。每一个模块均由JAVA语言、PYTHON语言等实现,从而实现快速有效的服务器端计算、建模和挖掘。用户在互联网网页端可以使用本发明***,在使用***的过程中,***自动记录用户的点击、检索等操作,通过特征分析、挖掘和协同性训练学习来确定用户兴趣度模型。本发明能够适应畜牧领域的新闻资讯推荐应用,简化用户操作并及时推荐有价值的畜牧业新闻资讯信息,节约***资源,减少网页加载的时间,提高了用户获取畜牧新闻资讯的效率。

Description

一种畜牧业新闻资讯推荐***
技术领域
本发明涉及计算机互联网数据挖掘的技术领域,尤其是指一种畜牧业新闻资讯推荐***。
背景技术
目前,许多畜牧企业、养殖户以及肉类加工处理企业为了获得畜牧业新闻资讯,往往依赖于搜索引擎,这种方式往往需要用户主动提供检索词,不能由服务端主动推送。随着信息的海量增长,人们希望能够通过自动推荐方式来实现信息获取。目前的常用的新闻推荐***是以向量空间模型构建的基于内容或基于协同过滤的方式来进行推荐,这种方式为了适应所有新闻对象,很难做到有针对性地对用户进行面向行业专业领域的兴趣度建模。同时,为了满足不同类别、行业或主题的新闻推荐,现有***往往不能构建专门的新闻对象特征库,只能依赖于基于词袋模型的内容推荐或基于点击的协同过滤推荐,导致结果相对于特定细主题特别集中,或获得过多无关信息。
面对此类问题,传统的解决方法可以归为两类:一种解决方案是将候选集的细主题新闻资讯按照权重指标进行分配,但这种人工干预方式本身就没有理论依据,容易产生经验依赖,即不同的数据集需要不同的经验设定。另一种解决方案是对待推荐结果进行差异处理,即尽量在候选集中挑选主题不同的新闻资讯,但由于在传统新闻推荐方法中,用户兴趣度的不显著性将导致无关信息过多,虽然推荐列表的多样性得到了增强,但准确度仍然无法保证。
基于以上背景和传统解决方案存在的问题,针对特定行业,如畜牧业,需要提出一种对细分领域有兼容性和区分性的解决方案,并且能适应跨***信息多元兴趣度数据融合,快速、准确、客观地获得细分领域的新闻资讯推荐结果。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种畜牧业新闻资讯推荐***,解决现有新闻推荐***在细分领域上推荐结果准确度不足、模型经验依赖过多以及时效性低的问题,并通过可装配的数据接口模式方便融合到各种新闻资讯平台。
为实现上述目的,本发明所提供的技术方案为:一种畜牧业新闻资讯推荐***,包括:
用户兴趣度建模模块,用于挖掘、构建和存储用户兴趣度模型;
新闻资讯爬取模块,用于增量收集畜牧业新闻资讯;
网页数据预处理模块,用于对畜牧业新闻资讯进行预处理,包含去噪、去重和分类;
新闻资讯推荐模块,用于为给定用户提供新闻推荐列表,并自动收集其点击信息进行自我评估;
新闻资讯展示反馈模块,用于将推荐的畜牧新闻资讯以及需要推动的热点新闻资讯、广告信息展示给用户;
新闻资讯检索模块,用于给用户提供检索接口,让用户能够根据检索词和特征设定,精准找到相关的畜牧业新闻资讯信息。
进一步,所述用户兴趣度建模模块,采用多元数据来源兴趣建模,兴趣建模数据包括用户检索词、用户检索后和被推荐新闻资讯后点击关联,以及浏览的新闻资讯内容;所述用户兴趣度建模模块包括用户检索词收集子模块、用户点击新闻资讯的关联信息子模块、用户阅读新闻资讯的内容建模子模块;
所述用户检索词收集子模块根据用户使用检索***的记录,将其使用的检索词收集起来,并按照向量空间模型进行赋权,时间越久则赋权越低;
所述用户点击新闻资讯的关联信息子模块用于构建用户和新闻资讯之间的关联,包括两类关联:用户经过检索后的点击关联和用户点击推荐新闻资讯的关联;
所述用户阅读新闻资讯的内容建模子模块用于将用户点击浏览的内容进行向量空间建模,形成向量空间模型;此外,该内容建模子模块还将浏览停留时间作为建模元素,根据新闻资讯字数作为归一化因子,停留单位字数越长时间的新闻资讯则对用户兴趣模型权重越大。
进一步,所述新闻资讯爬取模块采用增量爬取方式,每天从配置种子文件中的网页中爬取畜牧业相关新闻资讯,并对爬取后的新闻时间节点做标记,对爬取的新闻进行出版发布时间比对,发现新的发布信息,再爬取入库,对于没有获得发布时间信息的目标站点,使用LSH最小哈希方法比对入库资讯,从而达到入库前去重,第二天则从标记节点进行增量爬取。
进一步,所述网页数据预处理模块对新闻资讯内容进行不仅包括垃圾信息和噪声信息过滤、聚类整理,还包括命名实体抽取、数据清洗,具体操作如下:
对畜牧业新闻资讯进行去重、抽取命名实体、清洗的预处理,并将预处理的信息入库;去重采用最小哈希方法对入库的新闻及其爬取的新闻进行比对,发现有重复新闻资讯,则只记录其来源,做好重复性标记;命名实体的识别采用条件随机场方法,将词表中的按照词表库分类标记为命名实体,将非词表中的新词作为待入库命名实体,作为新命名实体;对数据的清洗包括3个方面:a、缺失值的清洗,对于缺失发布时间的畜牧业新闻资讯,如果入库新闻资讯有重复新闻,则读取重复新闻的发布时间,如果没有则赋值当前***时间;b、逻辑性的清洗,对爬取的新闻资讯截取前段50个字符、中间50个字符以及最后50个字符作为新闻标记值,设定为新闻唯一标记键值,如有重复新闻,则对应增加重复性标记;c、噪声内容清洗,对少于15个字符的新闻,自动判别为噪声,有广告、概览页面标题噪声。
进一步,所述新闻资讯推荐模块具体执行以下操作:
S1、通过命名实体抽取方法,将畜牧业新闻中的关键动物词项抽取出来,并将关键畜牧业公司名称抽取出来,将其作为关键实体;
S2、根据实体特点,将实体对象分为动物实体和公司实体,并根据畜牧业新闻特点进行分类,将其分为养殖、销售、社会、政策、软文广告分类;
S3、根据每个用户阅读具体畜牧业新闻分类的统计数据,将其映射为一个排序得分,该得分位于[0,10]区间的实数,并且以5为均值进行正态分布散列,即均值μ=5,另外设定标准差σ=1,这样,形成一个用户-分类二维矩阵,矩阵中的元素是用户点击阅读某特定分类的,矩阵元素值越高,表示特定用户点击特定分类新闻次数越多;
S4、对最近时间窗口期6个月以内的新闻,使用LDA主题聚类方法,找出主题,并通过移动平均预测其热点值,对于待推荐新闻资讯i,将该新闻资讯i与主题聚类中的各类簇进行质心的欧式距离比较,归类到最近一个主题分类,进而得知该新闻资讯i的热点值h(i);
S5、假设用户u对待推荐新闻资讯i的感兴趣程度用U(u,i)效用度来表示,则:
Figure BDA0002889016330000041
其中,c(i)为待推荐新闻资讯i所在的簇ID号,用于区分不同的簇,j是与i不同的新闻,sim(*,*)函数表示两个向量结构的参数的相似度,这里,sim(i,j)表示i和j的相似度,sim(su,si)表示su和si两个参数之间的相似度;在新闻资讯推荐过程中,由于被推荐的新闻都是新物品,不能在历史关联数据中找到对应新闻资讯,因此用聚类簇来代替单个的新闻对象以构建关联,同理,c(u)表示u用户浏览过的新闻聚类簇号,t表示算法运行时的时间,ti表示待推荐新闻的出版时间即发布时间,δu,c(i)表示用户u对新闻聚类簇c(i)的感兴趣程度,由用户对新闻簇的点击浏览记录所占比例获得,su和si分别表示用户u浏览过的历史畜牧新闻资讯中的命名实体以及待推荐新闻资讯i的命名实体,sim(su,si)表示su和si的命名实体向量相似度;在上式中,剩下的αi、βi、γi以及μi为待估计参数,需要在迭代过程中求解。将这些待估计参数的联合概率密度定义为如下形式:
Figure BDA0002889016330000051
其中,ru,i为用户点击当前的畜牧新闻资讯所在的主题簇的点击排名影射分值,p(ru,i|U(u,i))表示在效用度U(u,i)的条件下给出评分ru,i的概率;当概率值P达到最大时能够确定参数值,为了对所有的u和i都确定参数,能够使用log(P)函数将乘法概率问题转化为加法,并且求其每个参数的偏导数的最小值,即为极值点,然后使用梯度下降法求解其参数值,直到参数收敛为止,各参数求解的过程如下:
Figure BDA0002889016330000052
Figure BDA0002889016330000053
Figure BDA0002889016330000054
Figure BDA0002889016330000055
在上面的参数求解迭代公式中,α'i、β'i、γ'i和μ'i分别表示迭代过程中对应的αi、βi、γi和μi的临时变量,ω1~ω5为用于控制迭代学习速度的参数,当各参数迭代结果与上一次迭代结果的残差小于0.0001时迭代停止,如果迭代次数超过经验阈值10000次仍然没有收敛,则算法尝试使用其他随机初始值,重新进行迭代,直到获得收敛的参数为止;
S6、所有待评估参数确定后,对于每一个待推荐新闻资讯i,通过公式U(u,i)能够求解其兴趣度值;为了防止相近新闻反复推荐,将根据用户已经浏览过的畜牧新闻资讯以及待推荐新闻资讯进行比对,将已经推荐过相似新闻的待推荐新闻,将其降低排名分的方式展示,如果降低超过设定值,则不会被推荐,如下公式:
Figure BDA0002889016330000061
其中,L表示偏好度得分,S表示已经选中的候选集,sim(su,si)表示用户历史点击的新闻资讯和待推荐新闻资讯的向量空间相似度,该相似度由命名实体来确定,Su为用户u历史浏览新闻的向量表示,Si为待推荐新闻i的向量表示;sim(i,j)表示用户点击的历史新闻和待推荐新闻资讯之间的相似度,sim(qu,qi)表示用户在***中使用过的检索词集和待推荐新闻资讯的检索词集,该公式计算结果与sim(su,si)和sim(qu,qi)正相关,与sim(i,j)负相关,即表示在推荐列表中,如果待推荐新闻资讯的向量空间相似度与用户已经点击过的新闻过于相近,则排名将降权,如果待推荐新闻资讯的命名实体与用户已经点击过的新闻高相关性,或和检索词集有高相关性,则将其加权,表示待推荐新闻资讯与用户以往在命名实体方面的兴趣度以及用户精准检索需求具有高吻合度;由于各子项的权重不能对等,因此将各子项分别设定参数为θ1~θ3,分别表示各子项权重,即用来表示各子项所起的作用,并且在训练集中使用梯度下降法将其参数求出,如下公式所示:
Figure BDA0002889016330000071
Figure BDA0002889016330000072
Figure BDA0002889016330000073
这里,θ'1、θ'2、θ'3分别表示θ1~θ3的迭代临时变量。与前面的参数估计类似,但由于排序公式本身是非乘积公式,因此没有使用log函数,直接使用了L公式对各参数的偏导数;a1~a3是学习迭代速率控制参数,当迭代参数结果与上一次迭代的结果小于0.0001时,迭代终止,算法返回θ1~θ3作为模型最终参数,否则当迭代次数多于经验阈值10000次时,算法重新设定初始值,直到获得符合条件的参数为止。
进一步,所述步骤S4包含以下步骤:
S4-1、将新闻按照时间窗口Δt为单位,切分为时间段子数据集,并对子数据集执行聚类,具体过程为:对子数据集执行k-means聚类,并设定初始聚类簇k,最终获得其k个聚类簇心;然后,对k个子簇进行随机抽样m个迭代起始点,从这些起始点开始,对周边点以R为半径进行欧氏距离计算,当计算的距离小于阈值T时,标记其为周边点,并将其纳入到该点的聚类簇中,直到所有点都遍历完;
S4-2、将新闻资讯以时间窗口为基准,对相应的新闻资讯进行时间轴关联,关联方法和步骤S4-1方法相同;然后按照每天的聚类簇数量进行统计,算出每个聚类簇占日畜牧新闻资讯的总数比例,从而形成每天的比例变化曲线,然后在该曲线上应用指数平移方法进行热点预测;当待推荐新闻资讯i进入到***后,首先判断其所属的聚类簇,然后根据热点预测结果返回其热点值h(i)。
进一步,所述新闻资讯展示反馈模块用于畜牧新闻推荐结果的展示,对于展示页面的新闻资讯,若用户浏览了标题但没有点击的,将其作为负反馈特征记录在用户兴趣度模型中,当累计三次浏览标题但没有点击时,将对应新闻资讯从该用户的展示列表中撤除;为了确保推荐兴趣度模型的时效性,即***运行过程中,兴趣度模型的更新能及时反映用户的兴趣需求的变化,所述新闻资讯展示反馈模块将用户的点击行为、检索行为用于推荐算法的输入特征进行了缓存,当缓存库积累到阈值时,启动用户兴趣度模型算法,更新用户兴趣度模型;所述新闻资讯展示反馈模块还根据用户兴趣度推荐用户需要的畜牧产品广告,转变广播式发送广告给用户造成信息干扰的模式,广告推荐方法与畜牧新闻资讯推荐方法一样,广告在后台入库时,由广告管理人员将广告内容和分类的信息输入到***中,根据广告内容和分类信息与用户兴趣模型构建关联。
进一步,所述新闻资讯检索模块提供检索接口页面和检索***,检索***基于Lucene开源项目构建,并包含会员***,用户需要登录才能使用,当用户登录后,所有行为将根据用户ID进行收集、挖掘和建模。
本发明与现有技术相比,具有如下优点与有益效果:
1、通过本发明很好地融合了用户历史点击、浏览以及检索词多维度信息,相对于传统的推荐***的单维度兴趣度建模,本发明***及其核心方法对用户兴趣度挖掘更客观精准。畜牧业新闻资讯推荐方法不仅将用户点击浏览的畜牧新闻资讯作为推荐特征来源,还将检索词作为推荐特征来源,进一步聚焦了用户的兴趣特征。这得益于本发明将信息检索***的查询减速记录融合到推荐***的特征收集中。
2、本发明中的推荐方法融合了热点新闻资讯主题以及关键命名实体信息,同时对推荐结果进行去重处理,将过于相似的新闻资讯降权,但又从关键命名实体相似性上防止了感兴趣的资讯信息被误降权,从而确保了更高的准确度和排序性。畜牧业新闻资讯推荐方法在推荐排序方面对重复或类似的畜牧新闻资讯结果进行了排除,同时基于畜牧业命名实体集约束了兴趣度聚焦,从而确保了推荐准确度的同时也优化了推荐结果的多样性。
3、传统推荐***中的用户兴趣度画像常常会面临更新时新性问题,即用户兴趣度模型很难随着点击、浏览或购买动作得到较快速的更新反馈。本发明的特征反馈设计可以有效地将***中的变化及时反馈到用户兴趣度建模上,从而更新用户兴趣画像,以最新的用户兴趣度模型为基础给出用户较精准的推荐结果。
4、畜牧业新闻资讯推荐方法相对于传统方法过于依赖参数阈值,本发明提出的核心推荐算法将待定的参数以最大化用户兴趣为优化目标,获得可观的模型参数,使之在推荐时更客观精准。
附图说明
图1为畜牧业新闻资讯推荐***各个模块的关系及其层次示意图。
图2为畜牧业新闻资讯推荐***各个模块的调用和运行过程示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1和图2所示,本实施例公开一种畜牧业新闻资讯推荐***,包括以下功能模块:
用户兴趣度建模模块,用于挖掘、构建和存储用户兴趣度模型;
新闻资讯爬取模块,用于增量收集畜牧业新闻资讯;
网页数据预处理模块,用于对畜牧业新闻资讯进行预处理,包含去噪、去重和分类;
新闻资讯推荐模块,用于为给定用户提供新闻推荐列表,并自动收集其点击信息进行自我评估;
新闻资讯展示反馈模块,用于将推荐的畜牧新闻资讯以及需要推动的热点新闻资讯、广告信息展示给用户;
新闻资讯检索模块,用于给用户提供检索接口,让用户能够根据检索词和特征设定,精准找到相关的畜牧业新闻资讯信息。
所述用户兴趣度建模模块与传统的单来源建模不同,其采用多元数据来源兴趣建模,兴趣建模数据包括用户检索词、用户检索后和被推荐新闻资讯后点击关联,以及浏览的新闻资讯内容;所述用户兴趣度建模模块包括用户检索词收集子模块、用户点击新闻资讯的关联信息子模块、用户阅读新闻资讯的内容建模子模块。
所述用户检索词收集子模块主要功能是根据用户使用检索***的记录,将其使用的检索词收集起来,并按照向量空间模型进行赋权,时间越久则赋权越低。
所述用户点击新闻资讯的关联信息子模块主要功能是构建用户和新闻资讯之间的关联,包括两类关联:用户经过检索后的点击关联和用户点击推荐新闻资讯的关联。
所述用户阅读新闻资讯的内容建模子模块主要功能是将用户点击浏览的内容进行向量空间建模,形成向量空间模型;此外,该内容建模子模块还将浏览停留时间作为建模元素,根据新闻资讯字数作为归一化因子,停留单位字数越长时间的新闻资讯则对用户兴趣模型权重越大。
新闻资讯爬取的传统方法常采用先爬取再去重,或通过全文比对去重,这两种方式耗费***资源较多,畜牧业新闻资讯目标网站每天都在更新资讯信息,传统爬虫一般每运行一次,就批量全部爬取,爬取到本地后,再进行去重,这样的方式重复工作量较大,浪费很多计算资源和带宽资源;而本***的新闻资讯爬取模块采用增量爬取方式,每天从配置种子文件中的网页中爬取畜牧业相关新闻资讯,并对爬取后的新闻时间节点做标记,对爬取的新闻进行出版发布时间比对,发现新的发布信息,再爬取入库,对于没有获得发布时间信息的目标站点,使用LSH最小哈希方法比对入库资讯,从而达到入库前去重,第二天则从标记节点进行增量爬取。
传统方法对新闻资讯预处理侧重于垃圾信息的过滤和聚类整理,而本***的网页数据预处理模块对新闻资讯内容进行不仅包括垃圾信息和噪声信息过滤、聚类整理,还包括命名实体抽取、数据清洗,具体操作如下:
对畜牧业新闻资讯进行去重、抽取命名实体、清洗的预处理,并将预处理的信息入库;去重采用最小哈希方法对入库的新闻及其爬取的新闻进行比对,发现有重复新闻资讯,则只记录其来源,做好重复性标记;命名实体的识别采用条件随机场方法,将词表中的按照词表库分类标记为命名实体,将非词表中的新词作为待入库命名实体,作为新命名实体;对数据的清洗包括3个方面:a、缺失值的清洗,对于缺失发布时间的畜牧业新闻资讯,如果入库新闻资讯有重复新闻,则读取重复新闻的发布时间,如果没有则赋值当前***时间;b、逻辑性的清洗,对爬取的新闻资讯截取前段50个字符、中间50个字符以及最后50个字符作为新闻标记值,设定为新闻唯一标记键值,如有重复新闻,则对应增加重复性标记;c、噪声内容清洗,对少于15个字符的新闻,自动判别为噪声,主要有广告、概览页面标题噪声。
所述新闻资讯推荐模块具体执行以下操作:
S1、通过命名实体抽取方法,将畜牧业新闻中的关键动物词项抽取出来,如猪、牛、鸡,并将关键畜牧业公司名称抽取出来,如温氏集团、大用实业及其它畜牧公司,并将其作为关键实体;
S2、根据实体特点,将实体对象分为动物实体和公司实体,并根据畜牧业新闻特点进行分类,将其分为养殖、销售、社会、政策、软文广告分类;
S3、根据每个用户阅读具体畜牧业新闻分类的统计数据,将其映射为一个排序得分,该得分位于[0,10]区间的实数,并且以5为均值进行正态分布散列,即均值μ=5,另外设定标准差σ=1,这样,形成一个用户-分类二维矩阵,矩阵中的元素是用户点击阅读某特定分类的,矩阵元素值越高,表示特定用户点击特定分类新闻次数越多;
S4、对最近时间窗口期6个月以内的新闻,使用LDA主题聚类方法,找出主题,并通过移动平均预测其热点值,对于待推荐新闻资讯i,将该新闻资讯i与主题聚类中的各类簇进行质心的欧式距离比较,归类到最近一个主题分类,进而得知该新闻资讯i的热点值h(i),主要分为以下步骤:
S4-1、将新闻按照时间窗口Δt为单位,切分为时间段子数据集,并对子数据集执行聚类,具体过程为:对子数据集执行k-means聚类,并设定初始聚类簇k,最终获得其k个聚类簇心;然后,对k个子簇进行随机抽样m个迭代起始点,从这些起始点开始,对周边点以R为半径进行欧氏距离计算,当计算的距离小于阈值T时,标记其为周边点,并将其纳入到该点的聚类簇中,直到所有点都遍历完;
S4-2、将新闻资讯以时间窗口为基准,对相应的新闻资讯进行时间轴关联,关联方法和步骤S4-1方法相同;然后按照每天的聚类簇数量进行统计,算出每个聚类簇占日畜牧新闻资讯的总数比例,从而形成每天的比例变化曲线,然后在该曲线上应用指数平移方法进行热点预测;当待推荐新闻资讯i进入到***后,首先判断其所属的聚类簇,然后根据热点预测结果返回其热点值h(i)。
S5、假设用户u对待推荐新闻资讯i的感兴趣程度用U(u,i)效用度来表示,则:
Figure BDA0002889016330000131
其中,c(i)为待推荐新闻资讯i所在的簇ID号,用于区分不同的簇,j是与i不同的新闻,sim(*,*)函数表示两个向量结构的参数的相似度,这里,sim(i,j)表示i和j的相似度,sim(su,si)表示su和si两个参数之间的相似度;在新闻资讯推荐过程中,由于被推荐的新闻都是新物品,不能在历史关联数据中找到对应新闻资讯,因此用聚类簇来代替单个的新闻对象以构建关联,同理,c(u)表示u用户浏览过的新闻聚类簇号,t表示算法运行时的时间,ti表示待推荐新闻的出版时间即发布时间,δu,c(i)表示用户u对新闻聚类簇c(i)的感兴趣程度,由用户对新闻簇的点击浏览记录所占比例获得,su和si分别表示用户u浏览过的历史畜牧新闻资讯中的命名实体以及待推荐新闻资讯i的命名实体,sim(su,si)表示su和si的命名实体向量相似度;在上式中,剩下的αi、βi、γi以及μi为待估计参数,需要在迭代过程中求解。将这些待估计参数的联合概率密度定义为如下形式:
Figure BDA0002889016330000132
其中,ru,i为用户点击当前的畜牧新闻资讯所在的主题簇的点击排名影射分值,p(ru,i|U(u,i))表示在效用度U(u,i)的条件下给出评分ru,i的概率;当概率值P达到最大时可以确定参数值,为了对所有的u和i都确定参数,可以使用log(P)函数将乘法概率问题转化为加法,并且求其每个参数的偏导数的最小值,即为极值点,然后使用梯度下降法求解其参数值,直到参数收敛为止,各参数求解的过程如下:
Figure BDA0002889016330000141
Figure BDA0002889016330000142
Figure BDA0002889016330000145
Figure BDA0002889016330000143
在上面的参数求解迭代公式中,α'i、β'i、γ'i和μ'i分别表示迭代过程中对应的αi、βi、γi和μi的临时变量,ω1~ω5为用于控制迭代学习速度的参数,当各参数迭代结果与上一次迭代结果的残差小于0.0001时迭代停止,如果迭代次数超过经验阈值10000次仍然没有收敛,则算法尝试使用其他随机初始值,重新进行迭代,直到获得收敛的参数为止;
S6、所有待评估参数确定后,对于每一个待推荐新闻资讯i,通过公式U(u,i)可以求解其兴趣度值;为了防止相近新闻反复推荐,将根据用户已经浏览过的畜牧新闻资讯以及待推荐新闻资讯进行比对,将已经推荐过相似新闻的待推荐新闻,将其降低排名分的方式展示,如果降低太多,则不会被推荐,如下公式:
Figure BDA0002889016330000144
其中,L表示偏好度得分,S表示已经选中的候选集,sim(su,si)表示用户历史点击的新闻资讯和待推荐新闻资讯的向量空间相似度,该相似度由命名实体来确定,Su为用户u历史浏览新闻的向量表示,Si为待推荐新闻i的向量表示;sim(i,j)表示用户点击的历史新闻和待推荐新闻资讯之间的相似度,sim(qu,qi)表示用户在***中使用过的检索词集和待推荐新闻资讯的检索词集,该公式计算结果与sim(su,si)和sim(qu,qi)正相关,与sim(i,j)负相关,即表示在推荐列表中,如果待推荐新闻资讯的向量空间相似度与用户已经点击过的新闻过于相近,则排名将降权,如果待推荐新闻资讯的命名实体与用户已经点击过的新闻较多相关性,或和检索词集有较高相关性,则将其加权,表示待推荐新闻资讯与用户以往在命名实体方面的兴趣度以及用户精准检索需求具有较高的吻合度;由于各子项的权重不能对等,因此将各子项分别设定参数为θ1~θ3,分别表示各子项权重,即用来表示各子项所起的作用,并且在训练集中使用梯度下降法将其参数求出,如下公式所示:
Figure BDA0002889016330000151
Figure BDA0002889016330000152
Figure BDA0002889016330000153
这里,θ'1、θ'2、θ'3分别表示θ1~θ3的迭代临时变量;与前面的参数估计类似,但由于排序公式本身是非乘积公式,因此没有使用log函数,直接使用了L公式对各参数的偏导数;a1~a3是学习迭代速率控制参数,当迭代参数结果与上一次迭代的结果小于0.0001时,迭代终止,算法返回θ1~θ3作为模型最终参数,否则当迭代次数多于经验阈值10000次时,算法重新设定初始值,直到获得符合条件的参数为止。
所述新闻资讯展示反馈模块主要功能是畜牧新闻推荐结果的展示,对于展示页面的新闻资讯,若用户浏览了标题但没有点击的,将其作为负反馈特征记录在用户兴趣度模型中,当累计三次浏览标题但没有点击时,将对应新闻资讯从该用户的展示列表中撤除;为了确保推荐兴趣度模型的时效性,即***运行过程中,兴趣度模型的更新能及时反映用户的兴趣需求的变化,所述新闻资讯展示反馈模块将用户的点击行为、检索行为用于推荐算法的输入特征进行了缓存,当缓存库积累到阈值时,启动用户兴趣度模型算法,更新用户兴趣度模型,这相较于传统的定时更新更及时有效;所述新闻资讯展示反馈模块还根据用户兴趣度推荐用户需要的畜牧产品广告,转变广播式发送广告给用户造成信息干扰的模式,广告推荐方法与畜牧新闻资讯推荐方法一样,广告在后台入库时,由广告管理人员将广告内容和分类的信息输入到***中,根据广告内容和分类信息与用户兴趣模型构建关联。
所述新闻资讯检索模块提供了检索接口页面和检索***,检索***基于Lucene开源项目构建,并包含了会员***,用户需要登录才能使用,当用户登录后,所有行为将根据用户ID进行收集、挖掘和建模。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种畜牧业新闻资讯推荐***,其特征在于,包括:
用户兴趣度建模模块,用于挖掘、构建和存储用户兴趣度模型;
新闻资讯爬取模块,用于增量收集畜牧业新闻资讯;
网页数据预处理模块,用于对畜牧业新闻资讯进行预处理,包含去噪、去重和分类;
新闻资讯推荐模块,用于为给定用户提供新闻推荐列表,并自动收集其点击信息进行自我评估;
新闻资讯展示反馈模块,用于将推荐的畜牧新闻资讯以及需要推动的热点新闻资讯、广告信息展示给用户;
新闻资讯检索模块,用于给用户提供检索接口,让用户能够根据检索词和特征设定,精准找到相关的畜牧业新闻资讯信息。
2.根据权利要求1所述的一种畜牧业新闻资讯推荐***,其特征在于:所述用户兴趣度建模模块,采用多元数据来源兴趣建模,兴趣建模数据包括用户检索词、用户检索后和被推荐新闻资讯后点击关联,以及浏览的新闻资讯内容;所述用户兴趣度建模模块包括用户检索词收集子模块、用户点击新闻资讯的关联信息子模块、用户阅读新闻资讯的内容建模子模块;
所述用户检索词收集子模块根据用户使用检索***的记录,将其使用的检索词收集起来,并按照向量空间模型进行赋权,时间越久则赋权越低;
所述用户点击新闻资讯的关联信息子模块用于构建用户和新闻资讯之间的关联,包括两类关联:用户经过检索后的点击关联和用户点击推荐新闻资讯的关联;
所述用户阅读新闻资讯的内容建模子模块用于将用户点击浏览的内容进行向量空间建模,形成向量空间模型;此外,该内容建模子模块还将浏览停留时间作为建模元素,根据新闻资讯字数作为归一化因子,停留单位字数越长时间的新闻资讯则对用户兴趣模型权重越大。
3.根据权利要求1所述的一种畜牧业新闻资讯推荐***,其特征在于:所述新闻资讯爬取模块采用增量爬取方式,每天从配置种子文件中的网页中爬取畜牧业相关新闻资讯,并对爬取后的新闻时间节点做标记,对爬取的新闻进行出版发布时间比对,发现新的发布信息,再爬取入库,对于没有获得发布时间信息的目标站点,使用LSH最小哈希方法比对入库资讯,从而达到入库前去重,第二天则从标记节点进行增量爬取。
4.根据权利要求1所述的一种畜牧业新闻资讯推荐***,其特征在于:所述网页数据预处理模块对新闻资讯内容进行不仅包括垃圾信息和噪声信息过滤、聚类整理,还包括命名实体抽取、数据清洗,具体操作如下:
对畜牧业新闻资讯进行去重、抽取命名实体、清洗的预处理,并将预处理的信息入库;去重采用最小哈希方法对入库的新闻及其爬取的新闻进行比对,发现有重复新闻资讯,则只记录其来源,做好重复性标记;命名实体的识别采用条件随机场方法,将词表中的按照词表库分类标记为命名实体,将非词表中的新词作为待入库命名实体,作为新命名实体;对数据的清洗包括3个方面:a、缺失值的清洗,对于缺失发布时间的畜牧业新闻资讯,如果入库新闻资讯有重复新闻,则读取重复新闻的发布时间,如果没有则赋值当前***时间;b、逻辑性的清洗,对爬取的新闻资讯截取前段50个字符、中间50个字符以及最后50个字符作为新闻标记值,设定为新闻唯一标记键值,如有重复新闻,则对应增加重复性标记;c、噪声内容清洗,对少于15个字符的新闻,自动判别为噪声,有广告、概览页面标题噪声。
5.根据权利要求1所述的一种畜牧业新闻资讯推荐***,其特征在于:所述新闻资讯推荐模块具体执行以下操作:
S1、通过命名实体抽取方法,将畜牧业新闻中的关键动物词项抽取出来,并将关键畜牧业公司名称抽取出来,将其作为关键实体;
S2、根据实体特点,将实体对象分为动物实体和公司实体,并根据畜牧业新闻特点进行分类,将其分为养殖、销售、社会、政策、软文广告分类;
S3、根据每个用户阅读具体畜牧业新闻分类的统计数据,将其映射为一个排序得分,该得分位于[0,10]区间的实数,并且以5为均值进行正态分布散列,即均值μ=5,另外设定标准差σ=1,这样,形成一个用户-分类二维矩阵,矩阵中的元素是用户点击阅读某特定分类的,矩阵元素值越高,表示特定用户点击特定分类新闻次数越多;
S4、对最近时间窗口期6个月以内的新闻,使用LDA主题聚类方法,找出主题,并通过移动平均预测其热点值,对于待推荐新闻资讯i,将该新闻资讯i与主题聚类中的各类簇进行质心的欧式距离比较,归类到最近一个主题分类,进而得知该新闻资讯i的热点值h(i);
S5、假设用户u对待推荐新闻资讯i的感兴趣程度用U(u,i)效用度来表示,则:
Figure FDA0002889016320000031
其中,c(i)为待推荐新闻资讯i所在的簇ID号,用于区分不同的簇,j是与i不同的新闻,sim(*,*)函数表示两个向量结构的参数的相似度,这里,sim(i,j)表示i和j的相似度,sim(su,si)表示su和si两个参数之间的相似度;在新闻资讯推荐过程中,由于被推荐的新闻都是新物品,不能在历史关联数据中找到对应新闻资讯,因此用聚类簇来代替单个的新闻对象以构建关联,同理,c(u)表示u用户浏览过的新闻聚类簇号,t表示算法运行时的时间,ti表示待推荐新闻的出版时间即发布时间,δu,c(i)表示用户u对新闻聚类簇c(i)的感兴趣程度,由用户对新闻簇的点击浏览记录所占比例获得,su和si分别表示用户u浏览过的历史畜牧新闻资讯中的命名实体以及待推荐新闻资讯i的命名实体,sim(su,si)表示su和si的命名实体向量相似度;在上式中,剩下的αi、βi、γi以及μi为待估计参数,需要在迭代过程中求解;将这些待估计参数的联合概率密度定义为如下形式:
Figure FDA0002889016320000041
其中,ru,i为用户点击当前的畜牧新闻资讯所在的主题簇的点击排名影射分值,p(ru,i|U(u,i))表示在效用度U(u,i)的条件下给出评分ru,i的概率;当概率值P达到最大时能够确定参数值,为了对所有的u和i都确定参数,能够使用log(P)函数将乘法概率问题转化为加法,并且求其每个参数的偏导数的最小值,即为极值点,然后使用梯度下降法求解其参数值,直到参数收敛为止,各参数求解的过程如下:
Figure FDA0002889016320000042
Figure FDA0002889016320000043
Figure FDA0002889016320000044
Figure FDA0002889016320000045
在上面的参数求解迭代公式中,α′i、β′i、γ′i和μ′i分别表示迭代过程中对应的αi、βi、γi和μi的临时变量,ω1~ω5为用于控制迭代学习速度的参数,当各参数迭代结果与上一次迭代结果的残差小于0.0001时迭代停止,如果迭代次数超过经验阈值10000次仍然没有收敛,则算法尝试使用其他随机初始值,重新进行迭代,直到获得收敛的参数为止;
S6、所有待评估参数确定后,对于每一个待推荐新闻资讯i,通过公式U(u,i)能够求解其兴趣度值;为了防止相近新闻反复推荐,将根据用户已经浏览过的畜牧新闻资讯以及待推荐新闻资讯进行比对,将已经推荐过相似新闻的待推荐新闻,将其降低排名分的方式展示,如果降低超过设定值,则不会被推荐,如下公式:
Figure FDA0002889016320000051
其中,L表示偏好度得分,S表示已经选中的候选集,sim(su,si)表示用户历史点击的新闻资讯和待推荐新闻资讯的向量空间相似度,该相似度由命名实体来确定,Su为用户u历史浏览新闻的向量表示,Si为待推荐新闻i的向量表示;sim(i,j)表示用户点击的历史新闻和待推荐新闻资讯之间的相似度,sim(qu,qi)表示用户在***中使用过的检索词集和待推荐新闻资讯的检索词集,该公式计算结果与sim(su,si)和sim(qu,qi)正相关,与sim(i,j)负相关,即表示在推荐列表中,如果待推荐新闻资讯的向量空间相似度与用户已经点击过的新闻相近,则排名将降权,如果待推荐新闻资讯的命名实体与用户已经点击过的新闻高相关性,或和检索词集有高相关性,则将其加权,表示待推荐新闻资讯与用户以往在命名实体方面的兴趣度以及用户精准检索需求具有高吻合度;由于各子项的权重不能对等,因此将各子项分别设定参数为θ1~θ3,分别表示各子项权重,即用来表示各子项所起的作用,并且在训练集中使用梯度下降法将其参数求出,如下公式所示:
Figure FDA0002889016320000061
Figure FDA0002889016320000062
Figure FDA0002889016320000063
这里,θ′1、θ′2、θ′3分别表示θ1~θ3的迭代临时变量;与前面的参数估计类似,但由于排序公式本身是非乘积公式,因此没有使用log函数,直接使用了L公式对各参数的偏导数;a1~a3是学习迭代速率控制参数,当迭代参数结果与上一次迭代的结果小于0.0001时,迭代终止,算法返回θ1~θ3作为模型最终参数,否则当迭代次数多于经验阈值10000次时,算法重新设定初始值,直到获得符合条件的参数为止。
6.根据权利要求5所述的一种畜牧业新闻资讯推荐***,其特征在于:所述步骤S4包含以下步骤:
S4-1、将新闻按照时间窗口Δt为单位,切分为时间段子数据集,并对子数据集执行聚类,具体过程为:对子数据集执行k-means聚类,并设定初始聚类簇k,最终获得其k个聚类簇心;然后,对k个子簇进行随机抽样m个迭代起始点,从这些起始点开始,对周边点以R为半径进行欧氏距离计算,当计算的距离小于阈值T时,标记其为周边点,并将其纳入到该点的聚类簇中,直到所有点都遍历完;
S4-2、将新闻资讯以时间窗口为基准,对相应的新闻资讯进行时间轴关联,关联方法和步骤S4-1方法相同;然后按照每天的聚类簇数量进行统计,算出每个聚类簇占日畜牧新闻资讯的总数比例,从而形成每天的比例变化曲线,然后在该曲线上应用指数平移方法进行热点预测;当待推荐新闻资讯i进入到***后,首先判断其所属的聚类簇,然后根据热点预测结果返回其热点值h(i)。
7.根据权利要求1所述的一种畜牧业新闻资讯推荐***,其特征在于:所述新闻资讯展示反馈模块用于畜牧新闻推荐结果的展示,对于展示页面的新闻资讯,若用户浏览了标题但没有点击的,将其作为负反馈特征记录在用户兴趣度模型中,当累计三次浏览标题但没有点击时,将对应新闻资讯从该用户的展示列表中撤除;为了确保推荐兴趣度模型的时效性,即***运行过程中,兴趣度模型的更新能及时反映用户的兴趣需求的变化,所述新闻资讯展示反馈模块将用户的点击行为、检索行为用于推荐算法的输入特征进行了缓存,当缓存库积累到阈值时,启动用户兴趣度模型算法,更新用户兴趣度模型;所述新闻资讯展示反馈模块还根据用户兴趣度推荐用户需要的畜牧产品广告,转变广播式发送广告给用户造成信息干扰的模式,广告推荐方法与畜牧新闻资讯推荐方法一样,广告在后台入库时,由广告管理人员将广告内容和分类的信息输入到***中,根据广告内容和分类信息与用户兴趣模型构建关联。
8.根据权利要求1所述的一种畜牧业新闻资讯推荐***,其特征在于:所述新闻资讯检索模块提供检索接口页面和检索***,检索***基于Lucene开源项目构建,并包含会员***,用户需要登录才能使用,当用户登录后,所有行为将根据用户ID进行收集、挖掘和建模。
CN202110022281.0A 2021-01-08 2021-01-08 一种畜牧业新闻资讯推荐*** Pending CN112732995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110022281.0A CN112732995A (zh) 2021-01-08 2021-01-08 一种畜牧业新闻资讯推荐***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110022281.0A CN112732995A (zh) 2021-01-08 2021-01-08 一种畜牧业新闻资讯推荐***

Publications (1)

Publication Number Publication Date
CN112732995A true CN112732995A (zh) 2021-04-30

Family

ID=75589773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110022281.0A Pending CN112732995A (zh) 2021-01-08 2021-01-08 一种畜牧业新闻资讯推荐***

Country Status (1)

Country Link
CN (1) CN112732995A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343110A (zh) * 2021-06-30 2021-09-03 掌阅科技股份有限公司 基于投放信息实现电子书推荐方法、电子设备及存储介质
CN113468418A (zh) * 2021-06-21 2021-10-01 广州政企互联科技有限公司 一种政策数据智能推荐方法及***
CN117312542A (zh) * 2023-11-29 2023-12-29 泰山学院 基于人工智能的阅读推荐方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102611785A (zh) * 2011-01-20 2012-07-25 北京邮电大学 面向手机的移动用户个性化新闻主动推荐服务***及方法
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
US20150262069A1 (en) * 2014-03-11 2015-09-17 Delvv, Inc. Automatic topic and interest based content recommendation system for mobile devices
US20160103917A1 (en) * 2014-10-10 2016-04-14 Salesforce.Com, Inc. Automatic clustering by topic and prioritizing onlne feed items
CN109492157A (zh) * 2018-10-24 2019-03-19 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102611785A (zh) * 2011-01-20 2012-07-25 北京邮电大学 面向手机的移动用户个性化新闻主动推荐服务***及方法
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
US20150262069A1 (en) * 2014-03-11 2015-09-17 Delvv, Inc. Automatic topic and interest based content recommendation system for mobile devices
US20160103917A1 (en) * 2014-10-10 2016-04-14 Salesforce.Com, Inc. Automatic clustering by topic and prioritizing onlne feed items
CN109492157A (zh) * 2018-10-24 2019-03-19 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐建鹏;徐祥;王晖;伍琼;王杰;: "基于用户行为和新闻时效性的农业信息协同过滤推荐算法", 计算机与现代化, no. 07, 15 July 2020 (2020-07-15), pages 10 - 14 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468418A (zh) * 2021-06-21 2021-10-01 广州政企互联科技有限公司 一种政策数据智能推荐方法及***
CN113343110A (zh) * 2021-06-30 2021-09-03 掌阅科技股份有限公司 基于投放信息实现电子书推荐方法、电子设备及存储介质
CN117312542A (zh) * 2023-11-29 2023-12-29 泰山学院 基于人工智能的阅读推荐方法及***
CN117312542B (zh) * 2023-11-29 2024-02-13 泰山学院 基于人工智能的阅读推荐方法及***

Similar Documents

Publication Publication Date Title
CN103823824B (zh) 一种借助互联网自动构建文本分类语料库的方法及***
US6266668B1 (en) System and method for dynamic data-mining and on-line communication of customized information
US7493319B1 (en) Computer automated discovery of interestingness in faceted search
CN102483745B (zh) 共同选择图像分类
CN111191122A (zh) 一种基于用户画像的学习资源推荐***
CN112307762B (zh) 搜索结果的排序方法及装置、存储介质、电子装置
CN112732995A (zh) 一种畜牧业新闻资讯推荐***
CN111460252B (zh) 一种基于网络舆情分析的自动化搜索引擎方法及***
US20140143250A1 (en) Centralized Tracking of User Interest Information from Distributed Information Sources
CN101404015A (zh) 自动生成词条层次
CN102184262A (zh) 基于web的文本分类挖掘***及方法
WO2020233344A1 (zh) 一种搜索方法、装置及存储介质
CN107506472B (zh) 一种学生浏览网页分类方法
Crescenzi et al. Crowdsourcing for data management
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
Ma et al. A new query recommendation method supporting exploratory search based on search goal shift graphs
CN110795613A (zh) 商品搜索方法、装置、***及电子设备
CN116362811A (zh) 一种基于大数据的广告自动化投放管理***
CN116775972A (zh) 基于信息技术的远端资源整理服务方法和***
CN113434644B (zh) 一种农技知识服务方法及***
CN111753151B (zh) 一种基于互联网用户行为的服务推荐方法
Rajkumar et al. Users’ click and bookmark based personalization using modified agglomerative clustering for web search engine
Joglekar et al. Search engine optimization using unsupervised learning
CN101751409A (zh) 免疫***在搜索引擎中的应用
Tanvir et al. Design and Implementation of Web Crawler utilizing Unstructured data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination