CN108717469B - 一种帖子排序方法、装置、设备及计算机可读存储介质 - Google Patents

一种帖子排序方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN108717469B
CN108717469B CN201810597468.1A CN201810597468A CN108717469B CN 108717469 B CN108717469 B CN 108717469B CN 201810597468 A CN201810597468 A CN 201810597468A CN 108717469 B CN108717469 B CN 108717469B
Authority
CN
China
Prior art keywords
post
sorting
index
ranking
posts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810597468.1A
Other languages
English (en)
Other versions
CN108717469A (zh
Inventor
郝杰
舒凯
吴强
许颖
刘荣
向长风
龙诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing 58 Information Technology Co Ltd
Original Assignee
Beijing 58 Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing 58 Information Technology Co Ltd filed Critical Beijing 58 Information Technology Co Ltd
Priority to CN201810597468.1A priority Critical patent/CN108717469B/zh
Publication of CN108717469A publication Critical patent/CN108717469A/zh
Application granted granted Critical
Publication of CN108717469B publication Critical patent/CN108717469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明介绍了一种帖子排序方法、装置、设备及计算机可读存储介质,该方法包括:获取每个帖子的特征数据,其中,所述特征数据至少包括以下之一:用户在每个帖子的详情页中的详情页行为数据、每个帖子的详情页内容特征数据、每个帖子的发帖人特征数据;根据每个帖子的特征数据,计算每个帖子在各个排序指标下的分数值;根据每个帖子在各个排序指标下的分数值,对所有帖子进行排序。本发明可以消除排序结果中质量较差的帖子,提高用户的体验度。

Description

一种帖子排序方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及互联网技术领域,尤其涉及一种帖子排序方法、装置、设备及计算机可读存储介质。
背景技术
随着互联网技术的不断发展,互联网中的数据信息日益庞大,用户经常需要进行搜索操作以获取想要的信息。在现有技术中,通常采用单一排序指标对搜索结果中的帖子进行排序,例如:按照发布帖子的时间,或者按照帖子的点击率对帖子进行排序。但是,现有技术中的排序方式存在排序指标单一,排序效果较差的问题;而且还存在排序结果中出现质量较差的帖子的现象,从而影响用户体验度。
发明内容
本发明实施例的主要目的在于提出一种帖子排序方法、装置、设备及计算机可读存储介质,可以消除排序结果中质量较差的帖子,提高用户的体验度。
为实现上述目的,本发明实施例提供了一种帖子排序方法,所述方法包括:
获取每个帖子的特征数据,其中,所述特征数据至少包括以下之一:用户在每个帖子的详情页中的详情页行为数据、每个帖子的详情页内容特征数据、每个帖子的发帖人特征数据;
根据每个帖子的特征数据,计算每个帖子在各个排序指标下的分数值;
根据每个帖子在各个排序指标下的分数值,对所有帖子进行排序。
可选的,所述详情页行为数据至少包括以下之一:点击行为数据、浏览时间数据和输入文本数据;
所述详情页内容特征数据至少包括以下之一:帖子标题特征信息、帖子文本特征信息、帖子图片特征信息;
所述发帖人特征数据至少包括以下之一:发帖人认证等级数据、发帖人在线时长数据、发帖人发帖量数据。
可选的,所述根据每个帖子的特征数据,计算每个帖子在各个排序指标下的分数值,包括:
从每个帖子的特征数据中选取出指标训练模型所需要的数据,并利用所述指标训练模型根据选取出的数据训练得到每个帖子在与所述指标训练模型对应的排序指标下的分数值。
可选的,所述根据每个帖子在各个排序指标下的分数值,对所有帖子进行排序,包括:
根据每个帖子在各个排序指标下的分数值,确定出每个帖子在各个排序指标下的最低分数值;
根据确定出的每个帖子的最低分数值,对所有帖子进行排序。
可选的,所述根据每个帖子在各个排序指标下的分数值,对所有帖子进行排序,包括:
根据所有帖子在一个排序指标下的分数值,计算得到在所述一个排序指标下的每个帖子的排名;
根据每个帖子在各个排序指标下的排名,确定出每个帖子在所有排序指标下的最低排名;
根据确定出的每个帖子的最低排名,对所有帖子进行排序。
可选的,在对所有帖子进行排序之后,所述方法还包括:
根据排序结果,按照预设筛选规则筛选出n个帖子,并呈现在列表页中;其中,n为正整数。
可选的,在对所有帖子进行排序之后,所述方法还包括:
根据排序结果,按照预设筛选规则筛选出n个帖子,并计算筛选后的每个帖子的所有排序指标的分数值的总和值;
根据用户在列表页中对筛选后的每个帖子的列表页行为数据,计算筛选后的每个帖子的列表页行为指标的分数值;
根据筛选后的每个帖子的列表页行为指标的分数值与对应的总和值的乘积值,对筛选后的所有帖子进行排序,并将排序结果呈现在列表页中。
此外,为实现上述目的,本发明实施例还提出一种帖子排序装置,所述装置包括:
获取模块,用于获取每个帖子的特征数据,其中,所述特征数据至少包括以下之一:用户在每个帖子的详情页中的详情页行为数据、每个帖子的详情页内容特征数据、每个帖子的发帖人特征数据;
计算模块,用于根据每个帖子的特征数据,计算每个帖子在各个排序指标下的分数值;
排序模块,用于根据每个帖子在各个排序指标下的分数值,对所有帖子进行排序。
此外,为实现上述目的,本发明实施例还提出一种帖子排序设备,所述设备包括:处理器、存储器及通信总线;
所述通信总线用于实现所述处理器和所述存储器之间的连接通信;
所述处理器用于执行所述存储器中存储的帖子排序程序,以实现上述介绍的帖子排序方法的步骤。
此外,为实现上述目的,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质存储有帖子排序程序;
当所述帖子排序程序被至少一个处理器执行时,导致所述至少一个处理器执行上述介绍的帖子排序方法的步骤。
本发明实施例提出的帖子排序方法、装置、设备及计算机可读存储介质,根据帖子内容和发帖人信息生成对应的排序指标,从而丰富传统的用户帖子排序的指标种类,从而改善对帖子的排序效果,使得在排序结果中不存在较差的帖子,提高了用户体验度。
附图说明
图1是本发明第一实施例的帖子排序方法的流程图;
图2是本发明第二实施例的帖子排序方法的流程图;
图3是本发明第三实施例的帖子排序方法的流程图;
图4是本发明第四实施例的帖子排序方法的流程图;
图5是本发明第五实施例的帖子排序方法的流程图;
图6是本发明第六实施例的帖子排序装置的组成结构示意图;
图7是本发明第七实施例的帖子排序设备的组成结构示意图。
具体实施方式
为更进一步阐述本发明实施例为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明实施例进行详细说明如后。
本发明第一实施例,提出了一种帖子排序方法,如图1所示,所述方法具体包括以下步骤:
步骤S101:获取每个帖子的特征数据,其中,所述特征数据至少包括以下之一:用户在每个帖子的详情页中的详情页行为数据、每个帖子的详情页内容特征数据、每个帖子的发帖人特征数据。
在本发明实施例中,帖子为列表页中的一条记录,列表页包含了多个帖子;详情页为在列表页中点击帖子后进入的页面。例如,在搜索网站上进行搜索之后的搜索结果页面即为列表页,在列表页中呈现的每个搜索结果即为帖子,点击帖子后进入的页面即为该帖子的详情页。
具体的,所述详情页行为数据为用户在帖子的详情页页面中的操作行为而产生的数据,所述详情页行为数据至少包括以下之一:点击行为数据、浏览时间数据和输入文本数据;
所述详情页内容特征数据是根据帖子的标题和内容而产生的数据,所述详情页内容特征数据至少包括以下之一:帖子标题特征信息、帖子文本特征信息、帖子图片特征信息;
所述发帖人特征数据是根据发布帖子的用户信息而产生的数据,所述发帖人特征数据至少包括以下之一:发帖人认证等级数据、发帖人在线时长数据、发帖人发帖量数据。
步骤S102:根据每个帖子的特征数据,计算每个帖子在各个排序指标下的分数值。
在本实施例中,根据帖子的详情页行为数据、详情页内容特征数据、发帖人特征数据中的一种或多种类型的数据计算帖子在对应排序指标下的分数值。
步骤S103:根据每个帖子在各个排序指标下的分数值,对所有帖子进行排序。
根据每个帖子在各个排序指标下的分数值,利用现有技术中的综合质量排序算法对所有帖子进行排序。
在本发明实施例中从帖子的内容信息和发帖人信息中挖掘出新的可以用于计算排序指标的特征,从而改善原有排序指标的预测效果;此外,从帖子的内容信息和发帖人信息中挖掘出新的特征也可以直接作为排序指标,用于对帖子进行排序。
本发明第二实施例,提出了一种帖子排序方法,如图2所示,所述方法具体包括以下步骤:
步骤S201:获取每个帖子的特征数据,其中,所述特征数据至少包括以下之一:用户在每个帖子的详情页中的详情页行为数据、每个帖子的详情页内容特征数据、每个帖子的发帖人特征数据。
在本发明实施例中,帖子为列表页中的一条记录,列表页包含了多个帖子;详情页为在列表页中点击帖子后进入的页面。例如,在搜索网站上进行搜索之后的搜索结果页面即为列表页,在列表页中呈现的每个搜索结果即为帖子,点击帖子后进入的页面即为该帖子的详情页。
具体的,所述详情页行为数据为用户在帖子的详情页页面中的操作行为而产生的数据,所述详情页行为数据至少包括以下之一:点击行为数据、浏览时间数据和输入文本数据;
所述详情页内容特征数据是根据帖子的标题和内容而产生的数据,所述详情页内容特征数据至少包括以下之一:帖子标题特征信息、帖子文本特征信息、帖子图片特征信息;
所述发帖人特征数据是根据发布帖子的用户信息而产生的数据,所述发帖人特征数据至少包括以下之一:发帖人认证等级数据、发帖人在线时长数据、发帖人发帖量数据。
步骤S202:根据每个帖子的特征数据,计算每个帖子在各个排序指标下的分数值。
在本实施例中,根据帖子的详情页行为数据、详情页内容特征数据、发帖人特征数据中的一种或多种类型的数据计算帖子在对应排序指标下的分数值。
具体的,步骤S202,包括:
从每个帖子的特征数据中选取出指标训练模型所需要的数据,并利用所述指标训练模型根据选取出的数据训练得到每个帖子在与所述指标训练模型对应的排序指标下的分数值。
在本发明实施例中,为每个排序指标离线训练出对应的指标训练模型;在在线预测期间,根据每个指标训练模型的需求,从每个帖子的详情页行为数据、详情页内容特征数据、发帖人特征数据中选取出指标训练模型所需要的数据,并根据所述指标训练模型训练出帖子在对应排序指标下的分数值。
进一步的,步骤S202还包括:
按照如下公式,将各个排序指标的分数值归一化到一定数值范围内:
Figure BDA0001692166500000071
其中,Score为按照指标训练模型计算出的分数值;
μ为所有帖子在任一排序指标下的平均分数值;
σ为所有帖子在任一排序指标下的标准差;
Figure BDA0001692166500000072
为归一化后的分数值。
步骤S203:根据每个帖子在各个排序指标下的分数值,确定出每个帖子在各个排序指标下的最低分数值。
例如,若一个帖子在各个排序指标下的分数值分别为:0.384、-1.692、0.854、-1.417、-0.640,则该帖子在各个排序指标下的最低分数值为-1.692。
步骤S204:根据确定出的每个帖子的最低分数值,对所有帖子进行排序。
具体的,在步骤S204之后,所述方法还包括:
根据排序结果,按照预设筛选规则筛选出n个帖子,并呈现在列表页中;其中,n为正整数。
进一步的,若在步骤S203中是对所有帖子进行降序排序,则预设筛选规则为筛选出排在前n个的帖子;若在步骤S203中是对所有帖子进行升序排序,则预设筛选规则为筛选出排在后n个的帖子。
与现有技术相比,在本发明实施例中根据从帖子的内容信息和发帖人信息中挖掘出新的数据,计算每个帖子在多个排序指标下的分数值。根据每天帖子在多个排序指标下的最小分数值,对所有帖子进行排序,并将质量较好的帖子呈现在列表页中,从而保证了呈现在列表页中的帖子都是质量较高的帖子,不会存在质量很差的帖子,进而改善了用户的浏览体验。
本发明第三实施例,提出了一种帖子排序方法,如图3所示,所述方法具体包括以下步骤:
步骤S301:获取每个帖子的特征数据,其中,所述特征数据至少包括以下之一:用户在每个帖子的详情页中的详情页行为数据、每个帖子的详情页内容特征数据、每个帖子的发帖人特征数据。
在本发明实施例中,帖子为列表页中的一条记录,列表页包含了多个帖子;详情页为在列表页中点击帖子后进入的页面。例如,在搜索网站上进行搜索之后的搜索结果页面即为列表页,在列表页中呈现的每个搜索结果即为帖子,点击帖子后进入的页面即为该帖子的详情页。
具体的,所述详情页行为数据为用户在帖子的详情页页面中的操作行为而产生的数据,所述详情页行为数据至少包括以下之一:点击行为数据、浏览时间数据和输入文本数据;
所述详情页内容特征数据是根据帖子的标题和内容而产生的数据,所述详情页内容特征数据至少包括以下之一:帖子标题特征信息、帖子文本特征信息、帖子图片特征信息;
所述发帖人特征数据是根据发布帖子的用户信息而产生的数据,所述发帖人特征数据至少包括以下之一:发帖人认证等级数据、发帖人在线时长数据、发帖人发帖量数据。
步骤S302:根据每个帖子的特征数据,计算每个帖子在各个排序指标下的分数值。
在本实施例中,根据帖子的详情页行为数据、详情页内容特征数据、发帖人特征数据中的一种或多种类型的数据计算帖子在对应排序指标下的分数值。
具体的,步骤S302,包括:
从每个帖子的特征数据中选取出指标训练模型所需要的数据,并利用所述指标训练模型根据选取出的数据训练得到每个帖子在与所述指标训练模型对应的排序指标下的分数值。
在本发明实施例中,为每个排序指标离线训练出对应的指标训练模型;在在线预测期间,根据每个指标训练模型的需求,从每个帖子的详情页行为数据、详情页内容特征数据、发帖人特征数据中选取出指标训练模型所需要的数据,并根据所述指标训练模型训练出帖子在对应排序指标下的分数值。
进一步的,步骤S302还包括:
按照如下公式,将各个排序指标的分数值归一化到一定数值范围内:
Figure BDA0001692166500000091
其中,Score为按照指标训练模型计算出的分数值;
μ为所有帖子在任一排序指标下的平均分数值;
σ为所有帖子在任一排序指标下的标准差;
Figure BDA0001692166500000092
为归一化后的分数值。
步骤S303:根据每个帖子在各个排序指标下的分数值,确定出每个帖子在各个排序指标下的最低分数值。
例如,若一个帖子在各个排序指标下的分数值分别为:0.384、-1.692、0.854、-1.417、-0.640,则该帖子在各个排序指标下的最低分数值为-1.692。
步骤S304:根据确定出的每个帖子的最低分数值,对所有帖子进行排序。
步骤S305:根据排序结果,按照预设筛选规则筛选出n个帖子,并计算筛选后的每个帖子的所有排序指标的分数值的总和值。
具体的,若在步骤S304中是对所有帖子进行降序排序,则预设筛选规则为筛选出排在前n个的帖子;若在步骤S304中是对所有帖子进行升序排序,则预设筛选规则为筛选出排在后n个的帖子。
步骤S306:根据用户在列表页中对筛选后的每个帖子的列表页行为数据,计算筛选后的每个帖子的列表页行为指标的分数值。
具体的,所述用户在列表页中对每个帖子的行为数据包括:点击行为数据;
所述列表页行为指标包括:点击率。
步骤S307:根据筛选后的每个帖子的列表页行为指标的分数值与对应的总和值的乘积值,对筛选后的所有帖子进行排序,并将排序结果呈现在列表页中。
在本发明实施例中,对帖子进行两次排序,先根据每个帖子在各个排序指标下的最低分数进行初步排序,从而从众多的帖子中先筛选出质量较好的部分帖子;再将用户在列表页中对每个帖子的行为数据,对帖子进行二次排序,可以提高帖子排序的准确率,并保证排在前面的帖子不会出现质量较差的情况。
本发明第四实施例,提出了一种帖子排序方法,如图4所示,所述方法具体包括以下步骤:
步骤S401:获取每个帖子的特征数据,其中,所述特征数据至少包括以下之一:用户在每个帖子的详情页中的详情页行为数据、每个帖子的详情页内容特征数据、每个帖子的发帖人特征数据。
在本发明实施例中,帖子为列表页中的一条记录,列表页包含了多个帖子;详情页为在列表页中点击帖子后进入的页面。例如,在搜索网站上进行搜索之后的搜索结果页面即为列表页,在列表页中呈现的每个搜索结果即为帖子,点击帖子后进入的页面即为该帖子的详情页。
具体的,所述详情页行为数据为用户在帖子的详情页页面中的操作行为而产生的数据,所述详情页行为数据至少包括以下之一:点击行为数据、浏览时间数据和输入文本数据;
所述详情页内容特征数据是根据帖子的标题和内容而产生的数据,所述详情页内容特征数据至少包括以下之一:帖子标题特征信息、帖子文本特征信息、帖子图片特征信息;
所述发帖人特征数据是根据发布帖子的用户信息而产生的数据,所述发帖人特征数据至少包括以下之一:发帖人认证等级数据、发帖人在线时长数据、发帖人发帖量数据。
步骤S402:根据每个帖子的特征数据,计算每个帖子在各个排序指标下的分数值。
在本实施例中,根据帖子的详情页行为数据、详情页内容特征数据、发帖人特征数据中的一种或多种类型的数据计算帖子在对应排序指标下的分数值。
具体的,步骤S402,包括:
从每个帖子的特征数据中选取出指标训练模型所需要的数据,并利用所述指标训练模型根据选取出的数据训练得到每个帖子在与所述指标训练模型对应的排序指标下的分数值。
在本发明实施例中,为每个排序指标离线训练出对应的指标训练模型;在在线预测期间,根据每个指标训练模型的需求,从每个帖子的详情页行为数据、详情页内容特征数据、发帖人特征数据中选取出指标训练模型所需要的数据,并根据所述指标训练模型训练出帖子在对应排序指标下的分数值。
进一步的,步骤S402还包括:
按照如下公式,将各个排序指标的分数值归一化到一定数值范围内:
Figure BDA0001692166500000111
其中,Score为按照指标训练模型计算出的分数值;
μ为所有帖子在任一排序指标下的平均分数值;
σ为所有帖子在任一排序指标下的标准差;
Figure BDA0001692166500000112
为归一化后的分数值。
步骤S403:根据所有帖子在一个排序指标下的分数值,计算得到在所述一个排序指标下的每个帖子的排名。
在本发明实施例中,按照步骤S403的方式,得到一个帖子在各个排序为指标下的排名。例如,一个帖子在各个排序指标下的排名分别为:58、12、36、41、18。
步骤S404:根据每个帖子在各个排序指标下的排名,确定出每个帖子在所有排序指标下的最低排名。
最低排名即为最落后的排名,但在数值上是最大的排名。例如,若一个帖子在各个排序指标下的排名分别为:58、12、36、41、18,则该帖子的最低排名为58。
步骤S405:根据确定出的每个帖子的最低排名,对所有帖子进行排序。
具体的,在本发明实施例中,是根据每个帖子在各个排序指标下的最低排名对所有帖子进行升序排序的,使得排在前面的帖子不会出现在某个排序指标下的排名极低的情况,从而保证排在前面的帖子的综合质量较高。
具体的,在步骤S405之后,所述方法还包括:
根据排序结果,按照预设筛选规则筛选出n个帖子,并呈现在列表页中;其中,n为正整数。
进一步的,若在步骤S405中是对所有帖子进行升序排序,则预设筛选规则为筛选出排在前n个的帖子;若在步骤S405中是对所有帖子进行降序排序,则预设筛选规则为筛选出排在后n个的帖子。
与现有技术相比,在本发明实施例中根据从帖子的内容信息和发帖人信息中挖掘出新的数据,计算每个帖子在多个排序指标下的分数值。根据所有帖子在单个排序指标下的分数值,对所有帖子进行排序,得到所有帖子在单个排序指标下的排名。再确定出一个帖子在多个排序指标下的最低排名,即最落后的名次,根据所以帖子的最低排名进行升序排序,并将排在前面的帖子呈现在列表页中。从而保证了呈现在列表页中的帖子都是质量较高的帖子,不会存在质量很差的帖子,进而改善了用户的浏览体验。
本发明第五实施例,提出了一种帖子排序方法,如图5所示,所述方法具体包括以下步骤:
步骤S501:获取每个帖子的特征数据,其中,所述特征数据至少包括以下之一:用户在每个帖子的详情页中的详情页行为数据、每个帖子的详情页内容特征数据、每个帖子的发帖人特征数据。
在本发明实施例中,帖子为列表页中的一条记录,列表页包含了多个帖子;详情页为在列表页中点击帖子后进入的页面。例如,在搜索网站上进行搜索之后的搜索结果页面即为列表页,在列表页中呈现的每个搜索结果即为帖子,点击帖子后进入的页面即为该帖子的详情页。
具体的,所述详情页行为数据为用户在帖子的详情页页面中的操作行为而产生的数据,所述详情页行为数据至少包括以下之一:点击行为数据、浏览时间数据和输入文本数据;
所述详情页内容特征数据是根据帖子的标题和内容而产生的数据,所述详情页内容特征数据至少包括以下之一:帖子标题特征信息、帖子文本特征信息、帖子图片特征信息;
所述发帖人特征数据是根据发布帖子的用户信息而产生的数据,所述发帖人特征数据至少包括以下之一:发帖人认证等级数据、发帖人在线时长数据、发帖人发帖量数据。
步骤S502:根据每个帖子的特征数据,计算每个帖子在各个排序指标下的分数值。
在本实施例中,根据帖子的详情页行为数据、详情页内容特征数据、发帖人特征数据中的一种或多种类型的数据计算帖子在对应排序指标下的分数值。
具体的,步骤S502,包括:
从每个帖子的特征数据中选取出指标训练模型所需要的数据,并利用所述指标训练模型根据选取出的数据训练得到每个帖子在与所述指标训练模型对应的排序指标下的分数值。
在本发明实施例中,为每个排序指标离线训练出对应的指标训练模型;在在线预测期间,根据每个指标训练模型的需求,从每个帖子的详情页行为数据、详情页内容特征数据、发帖人特征数据中选取出指标训练模型所需要的数据,并根据所述指标训练模型训练出帖子在对应排序指标下的分数值。
进一步的,步骤S502还包括:
按照如下公式,将各个排序指标的分数值归一化到一定数值范围内:
Figure BDA0001692166500000141
其中,Score为按照指标训练模型计算出的分数值;
μ为所有帖子在任一排序指标下的平均分数值;
σ为所有帖子在任一排序指标下的标准差;
Figure BDA0001692166500000142
为归一化后的分数值。
步骤S503:根据所有帖子在一个排序指标下的分数值,计算得到在所述一个排序指标下的每个帖子的排名。
在本发明实施例中,按照步骤S503的方式,得到一个帖子在各个排序为指标下的排名。例如,一个帖子在各个排序指标下的排名分别为:58、12、36、41、18。
步骤S504:根据每个帖子在各个排序指标下的排名,确定出每个帖子在所有排序指标下的最低排名。
最低排名即为最落后的排名,但在数值上是最大的排名。例如,若一个帖子在各个排序指标下的排名分别为:58、12、36、41、18,则该帖子的最低排名为58。
步骤S505:根据确定出的每个帖子的最低排名,对所有帖子进行排序。
具体的,在本发明实施例中,是根据每个帖子在各个排序指标下的最低排名对所有帖子进行升序排序的,使得排在前面的帖子不会出现在某个排序指标下的排名极低的情况,从而保证排在前面的帖子的综合质量较高。
步骤S506:根据排序结果,按照预设筛选规则筛选出n个帖子,并计算筛选后的每个帖子的所有排序指标的分数值的总和值。
进一步的,若在步骤S505中是对所有帖子进行升序排序,则预设筛选规则为筛选出排在前n个的帖子;若在步骤S505中是对所有帖子进行降序排序,则预设筛选规则为筛选出排在后n个的帖子。
步骤S507:根据用户在列表页中对筛选后的每个帖子的列表页行为数据,计算筛选后的每个帖子的列表页行为指标的分数值。
具体的,所述用户在列表页中对每个帖子的行为数据包括:点击行为数据;
所述列表页行为指标包括:点击率。
步骤S508:根据筛选后的每个帖子的列表页行为指标的分数值与对应的总和值的乘积值,对筛选后的所有帖子进行排序,并将排序结果呈现在列表页中。
优选的,在步骤S508中对筛选后的所有帖子进行降序排序。
在本发明实施例中,对帖子进行两次排序,先根据每个帖子在各个排序指标下的最低排名进行初步排序,从而从众多的帖子中先筛选出质量较好的部分帖子;再根据筛选出的每个帖子的列表页行为指标进行二次排序,从而保证排在前面的帖子不会出现质量较差的情况。
本发明第六实施例,提出了一种帖子排序装置,如图6所示,所述装置具体包括以下组成部分:
获取模块601,用于获取每个帖子的特征数据,其中,所述特征数据至少包括以下之一:用户在每个帖子的详情页中的详情页行为数据、每个帖子的详情页内容特征数据、每个帖子的发帖人特征数据;
计算模块602,用于根据每个帖子的特征数据,计算每个帖子在各个排序指标下的分数值;
排序模块603,用于根据每个帖子在各个排序指标下的分数值,对所有帖子进行排序。
具体的,所述详情页行为数据至少包括以下之一:点击行为数据、浏览时间数据和输入文本数据;
所述详情页内容特征数据至少包括以下之一:帖子标题特征信息、帖子文本特征信息、帖子图片特征信息;
所述发帖人特征数据至少包括以下之一:发帖人认证等级数据、发帖人在线时长数据、发帖人发帖量数据。
进一步的,计算模块602,具体用于:
从每个帖子的特征数据中选取出指标训练模型所需要的数据,并利用所述指标训练模型根据选取出的数据训练得到每个帖子在与所述指标训练模型对应的排序指标下的分数值。
进一步的,排序模块603,具体用于:
根据每个帖子在各个排序指标下的分数值,确定出每个帖子在各个排序指标下的最低分数值;根据确定出的每个帖子的最低分数值,对所有帖子进行排序;或者,
根据所有帖子在一个排序指标下的分数值,计算得到在所述一个排序指标下的每个帖子的排名;根据每个帖子在各个排序指标下的排名,确定出每个帖子在所有排序指标下的最低排名;根据确定出的每个帖子的最低排名,对所有帖子进行排序。
更进一步的,所述装置还包括:
呈现模块,用于根据排序结果,按照预设筛选规则筛选出n个帖子,并呈现在列表页中;其中,n为正整数;或者,
用于根据排序结果,按照预设筛选规则筛选出n个帖子,并计算筛选后的每个帖子的所有排序指标的分数值的总和值;根据用户在列表页中对筛选后的每个帖子的列表页行为数据,计算筛选后的每个帖子的列表页行为指标的分数值;根据筛选后的每个帖子的列表页行为指标的分数值与对应的总和值的乘积值,对筛选后的所有帖子进行排序,并将排序结果呈现在列表页中
本发明第七实施例,提出了一种帖子排序设备,如图7所示,所述设备包括:处理器701、存储器702及通信总线;
所述通信总线用于实现处理器701和存储器702之间的连接通信;
处理器701用于执行存储器702中存储的帖子排序程序,以实现以下步骤:
获取每个帖子的特征数据,其中,所述特征数据至少包括以下之一:用户在每个帖子的详情页中的详情页行为数据、每个帖子的详情页内容特征数据、每个帖子的发帖人特征数据;
根据每个帖子的特征数据,计算每个帖子在各个排序指标下的分数值;
根据每个帖子在各个排序指标下的分数值,对所有帖子进行排序。
本发明第八实施例,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有帖子排序程序;
当所述帖子排序程序被至少一个处理器执行时,导致所述至少一个处理器执行以下步骤操作:
获取每个帖子的特征数据,其中,所述特征数据至少包括以下之一:用户在每个帖子的详情页中的详情页行为数据、每个帖子的详情页内容特征数据、每个帖子的发帖人特征数据;
根据每个帖子的特征数据,计算每个帖子在各个排序指标下的分数值;
根据每个帖子在各个排序指标下的分数值,对所有帖子进行排序。
本发明实施例中介绍的帖子排序方法、装置、设备及计算机可读存储介质,根据帖子内容和发帖人信息生成对应的排序指标,从而丰富传统的用户帖子排序的指标种类,从而改善对帖子的排序效果,使得在排序结果中不存在较差的帖子,提高了用户体验度。
通过具体实施方式的说明,应当可对本发明实施例为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明实施例加以限制。

Claims (9)

1.一种帖子排序方法,其特征在于,所述方法包括:
获取每个帖子的特征数据,其中,所述特征数据至少包括以下之一:用户在每个帖子的详情页中的详情页行为数据、每个帖子的详情页内容特征数据、每个帖子的发帖人特征数据;
根据每个帖子的特征数据,计算每个帖子在各个排序指标下的分数值;
根据每个帖子在各个排序指标下的分数值,对所有帖子进行排序;
所述根据每个帖子在各个排序指标下的分数值,对所有帖子进行排序,包括:
根据每个帖子在各个排序指标下的分数值,确定出每个帖子在各个排序指标下的最低分数值;
根据确定出的每个帖子的最低分数值,对所有帖子进行排序。
2.根据权利要求1所述的帖子排序方法,其特征在于,所述详情页行为数据至少包括以下之一:点击行为数据、浏览时间数据和输入文本数据;
所述详情页内容特征数据至少包括以下之一:帖子标题特征信息、帖子文本特征信息、帖子图片特征信息;
所述发帖人特征数据至少包括以下之一:发帖人认证等级数据、发帖人在线时长数据、发帖人发帖量数据。
3.根据权利要求1所述的帖子排序方法,其特征在于,所述根据每个帖子的特征数据,计算每个帖子在各个排序指标下的分数值,包括:
从每个帖子的特征数据中选取出指标训练模型所需要的数据,并利用所述指标训练模型根据选取出的数据训练得到每个帖子在与所述指标训练模型对应的排序指标下的分数值。
4.根据权利要求1所述的帖子排序方法,其特征在于,所述根据每个帖子在各个排序指标下的分数值,对所有帖子进行排序,包括:
根据所有帖子在一个排序指标下的分数值,计算得到在所述一个排序指标下的每个帖子的排名;
根据每个帖子在各个排序指标下的排名,确定出每个帖子在所有排序指标下的最低排名;
根据确定出的每个帖子的最低排名,对所有帖子进行排序。
5.根据权利要求1~4中任一项所述的帖子排序方法,其特征在于,在对所有帖子进行排序之后,所述方法还包括:
根据排序结果,按照预设筛选规则筛选出n个帖子,并呈现在列表页中;其中,n为正整数。
6.根据权利要求1~4中任一项所述的帖子排序方法,其特征在于,在对所有帖子进行排序之后,所述方法还包括:
根据排序结果,按照预设筛选规则筛选出n个帖子,并计算筛选后的每个帖子的所有排序指标的分数值的总和值;
根据用户在列表页中对筛选后的每个帖子的列表页行为数据,计算筛选后的每个帖子的列表页行为指标的分数值;
根据筛选后的每个帖子的列表页行为指标的分数值与对应的总和值的乘积值,对筛选后的所有帖子进行排序,并将排序结果呈现在列表页中。
7.一种帖子排序装置,其特征在于,所述装置包括:
获取模块,用于获取每个帖子的特征数据,其中,所述特征数据至少包括以下之一:用户在每个帖子的详情页中的详情页行为数据、每个帖子的详情页内容特征数据、每个帖子的发帖人特征数据;
计算模块,用于根据每个帖子的特征数据,计算每个帖子在各个排序指标下的分数值;
排序模块,用于根据每个帖子在各个排序指标下的分数值,对所有帖子进行排序;
所述排序模块具体用于:根据每个帖子在各个排序指标下的分数值,确定出每个帖子在各个排序指标下的最低分数值;
根据确定出的每个帖子的最低分数值,对所有帖子进行排序。
8.一种帖子排序设备,其特征在于,所述设备包括:处理器、存储器及通信总线;
所述通信总线用于实现所述处理器和所述存储器之间的连接通信;
所述处理器用于执行所述存储器中存储的帖子排序程序,以实现权利要求1至6中任一项所述的帖子排序方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有帖子排序程序;
当所述帖子排序程序被至少一个处理器执行时,导致所述至少一个处理器执行权利要求1至6中任一项所述的帖子排序方法的步骤。
CN201810597468.1A 2018-06-11 2018-06-11 一种帖子排序方法、装置、设备及计算机可读存储介质 Active CN108717469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810597468.1A CN108717469B (zh) 2018-06-11 2018-06-11 一种帖子排序方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810597468.1A CN108717469B (zh) 2018-06-11 2018-06-11 一种帖子排序方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108717469A CN108717469A (zh) 2018-10-30
CN108717469B true CN108717469B (zh) 2021-11-23

Family

ID=63911885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810597468.1A Active CN108717469B (zh) 2018-06-11 2018-06-11 一种帖子排序方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108717469B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597941B (zh) * 2018-12-12 2021-04-27 拉扎斯网络科技(上海)有限公司 排序方法及装置、电子设备和存储介质
CN112115334B (zh) * 2020-09-28 2023-07-21 北京百度网讯科技有限公司 网络社区热点内容的判别方法、装置、设备以及存储介质
CN112765346B (zh) * 2020-11-18 2022-10-28 北京五八信息技术有限公司 一种信息处理方法及装置
CN113496005B (zh) * 2021-05-26 2022-04-08 北京房多多信息技术有限公司 一种信息管理方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8751917B2 (en) * 2011-11-30 2014-06-10 Facebook, Inc. Social context for a page containing content from a global community
CN105917364A (zh) * 2013-12-31 2016-08-31 微软技术许可有限责任公司 对问答论坛中讨论话题的排名
CN106886561A (zh) * 2016-12-29 2017-06-23 中国科学院自动化研究所 基于时间关联交互融合的网络社区帖子影响排序方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070160963A1 (en) * 2006-01-10 2007-07-12 International Business Machines Corporation Candidate evaluation tool

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8751917B2 (en) * 2011-11-30 2014-06-10 Facebook, Inc. Social context for a page containing content from a global community
CN105917364A (zh) * 2013-12-31 2016-08-31 微软技术许可有限责任公司 对问答论坛中讨论话题的排名
CN106886561A (zh) * 2016-12-29 2017-06-23 中国科学院自动化研究所 基于时间关联交互融合的网络社区帖子影响排序方法

Also Published As

Publication number Publication date
CN108717469A (zh) 2018-10-30

Similar Documents

Publication Publication Date Title
CN108717469B (zh) 一种帖子排序方法、装置、设备及计算机可读存储介质
CN109145216B (zh) 网络舆情监控方法、装置及存储介质
US8667037B1 (en) Identification and ranking of news stories of interest
CN108460082B (zh) 一种推荐方法及装置,电子设备
CN105930469A (zh) 基于Hadoop的个性化旅游推荐***及方法
US10331685B2 (en) Method and apparatus for sorting related searches
TWI525456B (zh) Choose font, font determination, recommendation, generation method and device
CN111858905B (zh) 模型训练方法、信息识别方法、装置、电子设备及存储介质
US20150254574A1 (en) Related data generating apparatus, related data generating method, and program
US10073891B2 (en) Forensic system, forensic method, and forensic program
CN102957949A (zh) 为用户推荐视频的装置及方法
CN108804676B (zh) 一种帖子排序方法、装置、设备及计算机可读存储介质
CN103106234A (zh) 一种网页内容搜索方法和装置
CN117726311B (zh) 监管对象就业岗位智能匹配方法、装置、设备及存储介质
AU2013201006B2 (en) Information classification program, information classification method, and information processing apparatus
CN112612961B (zh) 信息搜索方法、装置、存储介质及计算机设备
US20140156693A1 (en) Filmstrip-based query suggestions
US20100057724A1 (en) Server device for creating list of general words to be excluded from search result
CN109670183B (zh) 一种文本重要性的计算方法、装置、设备和存储介质
CN112667571A (zh) 一种生物医学文献搜索排序方法及装置
CN105893397A (zh) 一种视频推荐方法及装置
CN102737017A (zh) 一种提取页面主题的方法和装置
CN109376298B (zh) 数据处理方法、装置、终端设备及计算机存储介质
CN108804674B (zh) 一种帖子排序方法、装置、设备及计算机可读存储介质
CN110941709A (zh) 信息筛选方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant