CN104462611B - 信息排序模型的建模方法、排序方法及建模装置、排序装置 - Google Patents
信息排序模型的建模方法、排序方法及建模装置、排序装置 Download PDFInfo
- Publication number
- CN104462611B CN104462611B CN201510004674.3A CN201510004674A CN104462611B CN 104462611 B CN104462611 B CN 104462611B CN 201510004674 A CN201510004674 A CN 201510004674A CN 104462611 B CN104462611 B CN 104462611B
- Authority
- CN
- China
- Prior art keywords
- sample
- described information
- information
- score
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种信息排序模型的建模方法、分类方法及建模装置、排序装置,涉及计算和信息检索技术领域,用以解决现有技术中用户获取分类信息准确率较低,速度较慢,用户体验低的问题。所述建模方法包括:采集信息样本;对所述信息样本进行样本标注,以确定所述信息样本的样本相关度;提取所述信息样本的样本特征,并对提取的所述样本特征进行评分以获取所述信息样本的样本特征分数;利用所述样本相关度和所述样本特征分数进行排序模型训练,以建立所述排序模型。
Description
技术领域
本发明涉及计算和信息检索技术领域,特别是涉及一种信息排序模型的建模方法、排序方法及建模装置、排序装置。
背景技术
分类信息是一个全新的产品形态,对于用户从海量分类信息中找到最合适信息的有效方法是搜索技术,其中搜索排序是直接影响用户体验的核心技术之一。传统的分类信息排序一般仅按照信息的新旧程度进行排序。
这种方法在多家信息网站上得到普遍应用,因为信息存在时效性和可交易性的问题,所以一般认为最新的信息在时效性和可交易性上表现比较好。但是在实际***中,时间最近的信息并不代表这一定就是用户最需要的信息,因为信息包含的维度远不止时间一项。用户同时也会关注这个信息是不是对自己有用,而且也会对信息的虚假程度进行判断,所以按时间排序并不能解决多维度的综合评判的问题。
此外,在多种搜索***中也有使用文本相关性进行排序的。但是在信息中,因为搜索的对象有商品属性,有很多重要信息是文本之外的,例如价格,上传时间等。仅仅通过搜索的文本相关无法获得最合适的信息。针对用户获取信息准确率较低,速度较慢,用户体验低的问题,现有技术尚无有效解决办法。如何在最短的时间内将用户最需要的信息呈现给用户是本领域亟待解决的问题。
发明内容
本发明要解决的技术问题是提供一种信息排序模型的建模方法、信息分类方法及建模装置、排序装置,用以解决现有技术中用户获取信息准确率较低,速度较慢,用户体验低的问题。
一方面,本发明提供一种信息排序模型的建模方法,包括:采集信息样本;对所述信息样本进行样本标注,以确定所述信息样本的样本相关度;提取所述信息样本的样本特征,并对提取的所述样本特征进行评分以获取所述信息样本的样本特征分数;利用所述样本相关度和所述样本特征分数进行排序模型训练,以建立所述排序模型。
可选的,所述采集信息样本具体包括:在根据搜索请求得到的搜索结果列表中,如果存在至少一个搜索结果令用户进行进一步操作,采集整个列表中的所有搜索结果为信息样本。
可选的,所述对所述信息样本进行样本标注,以获取所述信息样本的样本相关度包括:将用户点击或下载的信息样本的样本相关度标注为最高级;根据所述信息样本的时效性、可交易性或真实性、或者根据实际需要,对被标注为最高级的所述样本相关度进行修正以获取所述信息样本的样本相关度。
可选的,所述提取所述信息样本的样本特征,并对提取的所述样本特征进行评分以获取所述信息样本的样本特征分数具体包括:在所述信息样本中提取预设维度上的样本特征;分别统计所述信息样本在所述预设维度上的样本特征的概率分布;根据所述概率分布,得到所述信息样本在所述预设维度上的样本特征分数。
可选的,所述利用所述样本相关度和所述样本特征分数进行排序模型训练包括:利用所述样本相关度对所述样本特征分数进行加权;使用加权后的所述样本特征分数进行排序模型训练。
另一方面,本发明还提供一种信息排序方法,包括:获取信息在预设维度上的特征分数;将所述特征分数输入根据前述的建模方法所建立的信息排序模型,以获取所述信息的排序分数;根据所述排序分数,对所述信息排序。
可选的,所述获取信息在预设维度上的特征分数进一步包括:查询数据库获取所述特征分数,所述特征存储于所述数据库中;和/或实时对所述信息的特征评分,获取所述特征分数。
另一方面,本发明还提供一种信息排序模型的建模装置,包括:采集单元,用于采集信息样本;样本标注单元,用于对所述信息样本进行样本标注,以确定所述信息样本的样本相关度;提取和评分单元,用于提取所述信息样本的样本特征,并对提取的所述样本特征进行评分以获取所述信息样本的样本特征分数;训练单元,用于利用所述样本相关度和所述样本特征分数进行排序模型训练,以建立所述信息排序模型。
可选的,所述采集单元具体用于:在根据搜索请求得到的搜索结果列表中,如果存在至少一个搜索结果令用户进行进一步操作,采集整个列表中的所有搜索结果为信息样本。
可选的,所述样本标注单元具体用于:将用户点击或下载的信息样本的样本相关度标注为最高级;根据所述信息样本的时效性、可交易性或真实性、或者根据实际需要,对被标注为最高级的所述样本相关度进行修正以获取所述信息样本的样本相关度。
可选的,所述提取和评分单元包括:提取模块,用于提取所述信息样本在预设维度上的样本特征;统计模块,用于分别统计所述信息样本在所述预设维度上的样本特征的概率分布;评分模块,用于根据所述概率分布,得到所述信息样本在所述预设维度上的样本特征分数。
可选的,所述训练单元具体用于:利用所述样本相关度对所述样本特征分数进行加权;使用加权后的所述样本特征分数进行排序模型训练。
另一方面,本发明还提供一种信息排序装置,包括:获取单元,用于获取信息在预设维度上的特征分数;根据前述建模装置所建立的信息排序模型,用于接收所述特征分数,并生成所述信息的排序分数;排序单元,用于根据所述排序分数,对所述信息排序。
可选的,所述获取单元进一步包括:查询模块,用于查询数据库获取所述特征,所述特征存储于所述数据库中;和/或评分模块,实时对所述信息的特征评分,获取所述特征分数。
本发明实施例提供的信息排序模型的建模方法、信息排序方法及建模装置、排序装置,通过对大量信息样本的采集和样本标注,确定了每个信息样本的样本相关度,从而使信息样本具有更细致的区分度,再对提取出的各个样本特征进行评分以获得各个样本的样本特征分数,利用样本相关度和样本特征分数共同进行排序模型训练,从而建立排序模型,并利用该排序模型进行信息排序,这样,用户所关心的各个维度(如价格、地区、年龄、行业等)的特征都能够通过样本相关度和样本特征分数得到体现,使得通过该排序模型得到的信息的排序更加贴近用户需求,用户最需要的信息能够被及时准确地呈现给用户,从而大大提升了用户体验。
附图说明
图1是本发明实施例提供的信息排序模型的建模方法的一种流程图;
图2是本发明实施例提供的信息排序方法的一种流程图;
图3是本发明优选实施例中建立信息排序模型并利用该模型进行信息的排序的详细流程图;
图4是本发明实施例提供的信息排序模型的建模装置的一种结构示意图;
图5是本发明实施例提供的信息排序装置的一种结构示意图。
具体实施方式
以下结合附图对本发明进行详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
如图1所示,本发明的实施例提供一种信息排序模型的建模方法,包括:
S11,采集信息样本;
S12,对所述信息样本进行样本标注,以确定所述信息样本的样本相关度;
S13,提取所述信息样本的样本特征,并对提取的所述样本特征进行评分以获取所述信息样本的样本特征分数;
S14,利用所述样本相关度和所述样本特征分数进行排序模型训练,以建立所述排序模型。
本发明实施例提供的信息排序模型的建模方法,通过对大量信息样本的采集和样本标注,确定了每个信息样本的样本相关度,从而使信息样本具有更细致的区分度,再对提取出的各个样本特征进行评分以获得各个样本的样本特征分数,利用样本相关度和样本特征分数共同进行排序模型训练,从而建立排序模型。这样,用户所关心的各个维度(如价格、地区、年龄、行业等)的特征都能够通过样本相关度和样本特征分数得到体现,使得通过该排序模型得到的信息的排序更加贴近用户需求,用户最需要的信息能够被及时准确地呈现给用户,从而大大提升了用户体验。
可选的,在步骤S11中,可以通过分析日志信息来采集信息样本。例如,在本发明的一个实施例中,在搜索请求得到的搜索结果列表中,如果存在至少一个搜索结果令用户进行进一步操作,则采集整个列表中的所有搜索结果为信息样本。这样可以保证所采集的样本中包含了用户所需要的信息项目,保证了样本的覆盖率。在其他示例中,也可以通过样本库获得信息样本。
然而,即便同属于用户所需要的信息,用户的感兴趣程度也可能并不相同,也就是各个信息样本的相关性并不完全相同。为了能有效标识出不同搜索结果的相关性,在步骤S12中,可以根据用户不同的操作行为以及信息样本的其他特性对各个信息样本进行样本标注。具体的标注方法不限,只要能够区分出信息的每条搜索结果是否是用户最需要的有用信息即可。
例如,在本发明的一个实施例中,可以首先将用户点击或下载的信息样本的样本相关度标注为最高级;然后根据所述信息样本的时效性、可交易性及真实性、或者根据实际需要,对被标注为最高级的所述样本相关度进行修正以获取所述信息样本的样本相关度。
也就是说,样本与用户当前搜索信息之间的相关程度可以分为若干个等级,相关程度越大,等级越高,当二者完全相关时,相关度可置为最高级,如1级,当相关程度稍差一些时,相关度等级也随之降低,如可以为2级、3级等。在样本标注时,可以先假设样本相关度为最高级,然后根据所述信息样本的时效性、可交易性及真实性、或者根据实际需要,对被标注为最高级的所述样本相关度进行修正,使其相关度降低到相应的等级。
例如,在本发明的一个实施例中,相关度可分为完美相关、特别相关、相关、一般相关、无关等相关度依次降低的五个等级。举例说明,在一个搜索列表中,如果用户分别点击了A、B、C三条搜索结果,则首先确定A、B、C三者的样本相关度均为完美相关,进一步的,如果A的信息发布时间为2014年10月27日,B的信息发布时间为2014年6月5日,C的信息发布时间为2012年3月16日,那么可以对A、B、C三者的相关性进行相应的修正,A的时效性最好,因此还继续保持A的完美相关(可以对应4分),B的时效性次之,可以将其相关性适当降低,如降为特别相关(对应3分),C的时效性最差,可以继续降低其相关性,如确定C的相关度为一般相关(对应1分)。同理,可交易性和信息真实性等维度也可通过类似的方式对相关度进行调节。
例如,如果用户分别点击了A、B、C三条搜索结果,则首先确定A、B、C三者的样本相关度均为完美相关,进一步的,如果用户最终基于A进行交易,则继续保持A的完美相关(可以对应4分),如果用户没有基于B、C两条搜索结果进行交易,则可以将其相关性适当降低,如降为特别相关(对应3分)。或者,如果确定A、B是真实的,则继续保持A与B的完美相关(可以对应4分),如果确定C不真实,则可以降低其相关性,例如确定C的相关度为无关(对应0分)。
在一示例中,还可根据实际需要对样本相关度进行修正,例如如果用户分别点击了A、B、C三条搜索结果,则首先确定A、B、C三者的样本相关度均为完美相关,进一步的,如果用户在点击A信息后,在预先确定的一段时间(例如3秒钟)内即关闭A信息,则可以将其相关性适当降低,如降为特别相关(对应3分)。如果用户在点击B、C信息后,经过预先确定的一段时间(例如3秒钟)之后方关闭B、C信息,则继续保持A的完美相关(可以对应4分)。最终的样本相关度可以是这些维度中的一个维度调节的或者多个维度共同调节的结果。
具体而言,在步骤S13中,提取所述信息样本的样本特征,并对提取的所述样本特征进行评分以获取所述信息样本的样本特征分数可包括:
在所述信息样本中提取在预设维度上的样本特征;
分别统计所述信息样本在所述预设维度上的样本特征的概率分布;
根据所述概率分布,得到所述信息样本在所述预设维度上的样本特征分数。
可选的,预设维度例如可以包括:时间维度、文本相关维度、热点信息维度等等。
在一示例中,在信息样本中提取价格维度上的样本特征,统计在价格维度上的样本特征的概率分布,例如将所涉及的价格的区间,统计在这区间中信息样本的概率分布,然后对于每一个信息样本,依照其在价格维度上的样本特征在该区间中的概率分布来确定其在此维度的样本特征分数,例如以其概率作为样本特征分数,又或例如以加权后的概率作为样本特征分数。比如,所涉及的价格区间为[1000,2000],经统计,在该区间中信息样本的概率分布为P(1000)=0.05,P(1200)=0.1,P(1300)=0.1,P(1400)=0.15,P(1500)=0.2,P(1600)=0.2,P(1700)=0.1,P(1800)=0.05,P(1900)=0.04,P(2000)=0.01,则对于在价格维度上的样本特征为1800的信息样本,其在该区间的概率分布为0.05,则可根据该概率分布确定其在此维度的样本特征分数,例如其样本特征分数为0.05。在其他示例中,预设维度还可包括:年龄维度、性别维度、地域维度等等,与上述示例同理,在此不再赘述。
可选的,信息样本既可以是对单个用户的历史操作采集样本,从而使样本的特征分数更有针对性,也可以是对大量用户所进行的同类操作采集样本,从而能够使样本的覆盖范围更广。具体而言,在步骤S14中,可以将样本相关度和样本特征分数以各种方式结合在一起后进行排序模型训练。例如,在本发明的一个实施例中,可以利用所述样本相关度对所述样本特征分数进行加权;使用加权后的所述样本特征分数进行排序模型训练。当然也可以采取其他的方式,综合考虑样本相关度和样本特征分数进行模型训练。模型训练结果是一个由很多回归树组成的集合来对每个信息进行打分,对于每一个单独的信息,最后的排序评分由这些回归树的打分全部相加得到。例如,可以基于日志信息获取机器训练所需的数据,然后通过经典的机器学习排序模型lambdamart机器模型训练***进行训练得出相应的排序模型。
得到排序模型后,当用户搜索信息时,即可通过查询数据库获取所述信息的在预设维度上的特征分数,也可以通过实时分析用户的各种操作,提取其中的操作特征,获取特征分数,然后通过将这些特征分数输入该排序模型获得排序分数。
相应的,本发明的实施例还提供一种信息排序的方法,如图2所示,包括:
S21,获取信息在预设维度上的特征分数;
S22,将所述特征分数输入根据前述建模方法所建立的信息排序模型,以获取所述信息的排序分数;
S23,根据所述排序分数,对所述信息排序。
本发明实施例提供的信息的排序方法,能够获取信息的在预设维度上的特征分数,通过将特征分数输入排序模型来获取所述信息的排序分数,并根据所述排序分数对所述信息排序。这样,用户所关心的各个维度(如价格、地区、年龄、行业等)的特征都能够被考虑进来,使信息的排序更加贴近用户需求,用户最需要的信息可以被及时准确地呈现给用户,从而大大提升了用户体验。
可选的,在步骤S21中,可以通过查询数据库获取所述信息的在预设维度上的特征分数,所述特征存储于所述数据库中,也可以通过实时分析用户的操作行为,实时对所述信息的特征评分,获取所述特征分数,本发明的实施例对此不做限定。例如,对于租房这一信息来说,房屋的房型、所在地区等特征是静态的、相对不变的,因此可以将该特征收录在数据库中,通过查询数据库来获取这些维度的特征;但对于租金、发布时间、发布者状态等维度的特征,由于涉及时间和信息质量,往往变动较大,数据库可能来不及更新,因此,这些维度的信息就可以通过实时对所述信息的特征评分来获取。
具体而言,对于线上的信息,对于每一个信息同步输出特征分数。该特征分数可以基于数据挖掘和统计得到的概率分布来计算。计算方式与上文所述的根据概率分布得到信息样本在预设维度上的样本特征分数相类似,在此不再赘述。
在一示例中,在将所述特征分数输入根据前述建模方法所建立的信息排序模型之后,获得信息排序模型输出的排序分数,在输出的排序分数的基础上增加额外的考虑因素或者规则,得到所述信息的排序分数,根据排序分数对信息排序。
在另一示例中,对排序模型中增加额外的考虑因素或者规则,通过修正后的排序模型得到所述信息的排序分数,根据排序分数对信息排序。
下面通过具体实施例说明,如何利用本发明提供的建模方法所建立的模型对信息进行排序。
在本实施例中,用户需要在信息中搜索招聘信息找工作。假设该用户第一次使用该信息服务网站,搜索的关键词为“软件工程师”、“北京”,首次搜索召回138条搜索结果,用户首先浏览点击了其中20条,则将这138条搜索结果都收作样本。在用户点击的20个搜索结果中,要求本科学历以上有19个,要求研究生学历以上的有1个,薪资在3500元/月至5000元/月之间的有3个,在5000元/月至8000元/月之间的有7个,在8000元/月以上的有10个,事业单位有5个,企业单位有15个,工作地点在西二旗附近的有4个,在国贸附近的有10个,在其他区域的有7个。那么,通过分析用户点击的数据,可以初步确定考察信息样本的维度有学历、薪资、单位性质、工作地点等四个维度。对于这四个维度,这138个信息样本都会评出相应的样本特征分数。例如,对于学历这个维度,本科以上占点击结果的95%(19/20),则可以确定本科以上的学历更接近用户想要寻找结果,那么在学历这一维度中,本科以上就获得95分,研究生以上就获得5分,而其他没有被点击的搜索结果都是0分。同样的,在薪资这一维度上,3500元/月至5000元/月获得15分,5000元/月至8000元/月获得35分,8000元/月以上获得50分。分别评出这138个搜索结果在这四个维度上的样本特征分数,最后结合138条搜索结果的时效性、信息发布者的信誉度等,得出每个搜索结果的综合样本特征分数。利用这些样本相关度和样本特征分数进行排序模型训练,从而建立针对该用户的排序模型。那么,当用户点击“下一页”时,第二页中显示的搜索结果的排序会与该用户第一次使用时的首页排序不同。具体的,此时,会把第一页没有显示过的搜索结果,按照上述的四个维度分别打分,然后再把这四个维度的特征分数按照不同的权重进行综合加权打分,将这些打分结果输入排序模型,排序模型即可输出相应的排序分数,第二页的显示结果即可按照排序分数的高低进行排序显示。同样的,在进行第三页的显示时,会综合考虑前两页的搜索情况,对前两页没有显示过的搜索结果进行进一步的排序显示。这样就能够越来越清楚地掌握该用户所关注和需要的信息,将用户最需要的信息在最短的时间内呈献给用户,大大提升了用户体验。
在一实施例中,排序模型的建立和利用该排序模型对信息进行排序的流程可如图3所示。其中,在图3中将提取信息样本的样本特征的过程称为特征工程。根据信息样本的特点,可以将样本特征归为基本特征,(例如时间特征、文本相关性特征等),热点信息特征(用户关注的热点信息)以及信息质量特征(信息的可信度、完整性等)。
需要说明的是,虽然本实施例中,是通过对同一用户的历史操作行为进行分析从而进行排序模型训练,但本发明不限于此。在本发明的其他实施例中,还可以通过大数据、数据挖掘等方式对进行类似搜索的其他大量用户进行分析,并利用搜索结果进行机器学习训练,从而得出相应的排序模型。
相应的,如图4所示,本发明的实施例还提供一种信息排序模型的建模装置,包括:
采集单元30,用于采集信息样本;
样本标注单元32,用于对所述信息样本进行样本标注,以确定所述信息样本的样本相关度;
提取和评分单元34,用于提取所述信息样本的样本特征,并对提取的所述样本特征进行评分以获取所述信息样本的样本特征分数;
训练单元36,用于利用所述样本相关度和所述样本特征分数进行排序模型训练,以建立所述排序模型。
本发明实施例提供的信息排序模型的建模装置,通过采集单元30和样本标注单元32对大量信息样本的采集和样本标注,确定了每个信息样本的样本相关度,从而使信息样本具有更细致的区分度,再通过提取和评分单元34对提取出的各个样本特征进行评分以获得各个样本的样本特征分数,使训练单元36能够利用样本相关度和样本特征分数共同进行排序模型训练,从而建立排序模型。这样,用户所关心的各个维度(如价格、地区、年龄、行业等)的特征都能够通过样本相关度和样本特征分数得到体现,使得通过该排序模型得到的信息的排序更加贴近用户需求,用户最需要的信息能够被及时准确地呈现给用户,从而大大提升了用户体验。
可选的,采集单元30具体用于:在根据搜索请求得到的搜索结果列表中,如果存在至少一个搜索结果令用户进行进一步操作,采集整个列表中的所有搜索结果为信息样本。
可选的,样本标注单元32具体用于:将用户点击或下载的信息样本的样本相关度标注为最高级;根据所述信息样本的时效性、可交易性或真实性、或者根据实际需要,对被标注为最高级的所述样本相关度进行修正以获取所述信息样本的样本相关度。
可选的,提取和评分单元34具体包括:
提取模块,用于提取所述信息样本在预设维度上的样本特征;
统计模块,用于分别统计所述信息样本在预设维度上的样本特征的概率分布;
评分模块,用于根据所述概率分布,得到所述信息样本在所述预设维度上的样本特征分数。
可选的,训练单元36具体可用于:
利用所述样本相关度对所述样本特征分数进行加权;
使用加权后的所述样本特征分数进行排序模型训练。
相应的,如图5所示,本发明的实施例还提供一种信息排序装置,包括:
获取单元40,用于获取信息在预设维度上的特征分数;
根据前述实施例中的任一种建模装置所建立的信息排序模型42,用于接收所述特征分数,并生成所述信息的排序分数;
排序单元44,用于根据所述排序分数,对所述信息排序。
本发明实施例提供的信息排序装置,其获取单元40能够获取信息在预设维度上的特征分数,信息排序模型42接收特征分数后可获取所述信息的排序分数,再由排序单元44根据所述排序分数对所述信息排序。这样,用户所关心的各个维度(如价格、地区、年龄、行业等)的特征都能够被考虑进来,使信息的排序更加贴近用户需求,用户最需要的信息可以被及时准确地呈现给用户,从而大大提升了用户体验。
获取单元40进一步包括:
查询模块,用于查询数据库获取所述特征,所述特征存储于所述数据库中;和/或
评分模块,实时对所述信息的特征评分,获取所述特征分数。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。
Claims (10)
1.一种信息排序模型的建模方法,其特征在于,包括:
在根据搜索请求得到的搜索结果列表中,如果存在至少一个搜索结果令用户进行进一步操作,采集整个列表中的所有搜索结果为信息样本;
对所述信息样本进行样本标注,以确定所述信息样本的样本相关度;
提取所述信息样本的样本特征,并对提取的所述样本特征进行评分以获取所述信息样本的样本特征分数;
利用所述样本相关度对所述样本特征分数进行加权;
使用加权后的所述样本特征分数进行排序模型训练,以建立所述排序模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述信息样本进行样本标注,以获取所述信息样本的样本相关度包括:
将用户点击或下载的信息样本的样本相关度标注为最高级;
根据所述信息样本的时效性、可交易性或真实性、或者根据实际需要,对被标注为最高级的所述样本相关度进行修正以获取所述信息样本的样本相关度。
3.根据权利要求1所述的方法,其特征在于,所述提取所述信息样本的样本特征,并对提取的所述样本特征进行评分以获取所述信息样本的样本特征分数具体包括:
在所述信息样本中提取预设维度上的样本特征;
分别统计所述信息样本在所述预设维度上的样本特征的概率分布;
根据所述概率分布,得到所述信息样本在所述预设维度上的样本特征分数。
4.一种信息排序方法,其特征在于,包括:
获取信息在预设维度上的特征分数;
将所述特征分数输入根据权利要求1所述的建模方法所建立的信息排序模型,以获取所述信息的排序分数;
根据所述排序分数,对所述信息排序。
5.根据权利要求4所述的方法,其特征在于,所述获取信息在预设维度上的特征分数进一步包括:
查询数据库获取所述特征分数,所述特征存储于所述数据库中;和/或
实时对所述信息的特征评分,获取所述特征分数。
6.一种信息排序模型的建模装置,其特征在于,包括:
采集单元,在根据搜索请求得到的搜索结果列表中,如果存在至少一个搜索结果令用户进行进一步操作,采集整个列表中的所有搜索结果为信息样本;
样本标注单元,用于对所述信息样本进行样本标注,以确定所述信息样本的样本相关度;
提取和评分单元,用于提取所述信息样本的样本特征,并对提取的所述样本特征进行评分以获取所述信息样本的样本特征分数;
训练单元,用于利用所述样本相关度对所述样本特征分数进行加权;使用加权后的所述样本特征分数进行排序模型训练,以建立所述信息排序模型。
7.根据权利要求6所述的装置,其特征在于,所述样本标注单元具体用于:
将用户点击或下载的信息样本的样本相关度标注为最高级;
根据所述信息样本的时效性、可交易性或真实性、或者根据实际需要,对被标注为最高级的所述样本相关度进行修正以获取所述信息样本的样本相关度。
8.根据权利要求6所述的装置,其特征在于,所述提取和评分单元包括:
提取模块,用于提取所述信息样本在预设维度上的样本特征;
统计模块,用于分别统计所述信息样本在所述预设维度上的样本特征的概率分布;
评分模块,用于根据所述概率分布,得到所述信息样本在所述预设维度上的样本特征分数。
9.一种信息排序装置,其特征在于,包括:
获取单元,用于获取信息在预设维度上的特征分数;
根据权利要求6所述的建模装置所建立的信息排序模型,用于接收所述特征分数,并生成所述信息的排序分数;
排序单元,用于根据所述排序分数,对所述信息排序。
10.根据权利要求9所述的信息排序装置,其特征在于,所述获取单元进一步包括:
查询模块,用于查询数据库获取所述特征,所述特征存储于所述数据库中;和/或
评分模块,实时对所述信息的特征评分,获取所述特征分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510004674.3A CN104462611B (zh) | 2015-01-05 | 2015-01-05 | 信息排序模型的建模方法、排序方法及建模装置、排序装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510004674.3A CN104462611B (zh) | 2015-01-05 | 2015-01-05 | 信息排序模型的建模方法、排序方法及建模装置、排序装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104462611A CN104462611A (zh) | 2015-03-25 |
CN104462611B true CN104462611B (zh) | 2018-06-08 |
Family
ID=52908646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510004674.3A Active CN104462611B (zh) | 2015-01-05 | 2015-01-05 | 信息排序模型的建模方法、排序方法及建模装置、排序装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462611B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915426B (zh) * | 2015-06-12 | 2019-03-26 | 百度在线网络技术(北京)有限公司 | 信息排序方法、用于生成信息排序模型的方法及装置 |
CN104899310B (zh) * | 2015-06-12 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 信息排序方法、用于生成信息排序模型的方法及装置 |
US10534780B2 (en) | 2015-10-28 | 2020-01-14 | Microsoft Technology Licensing, Llc | Single unified ranker |
CN106779272A (zh) * | 2015-11-24 | 2017-05-31 | 阿里巴巴集团控股有限公司 | 一种风险预测方法和设备 |
CN106980999A (zh) * | 2016-01-19 | 2017-07-25 | 阿里巴巴集团控股有限公司 | 一种用户推荐的方法和设备 |
CN106203454B (zh) * | 2016-07-25 | 2019-05-21 | 重庆中科云从科技有限公司 | 证件版式分析的方法及装置 |
CN107707940A (zh) * | 2017-10-25 | 2018-02-16 | 暴风集团股份有限公司 | 视频排序方法、装置、服务器及*** |
CN108694673A (zh) * | 2018-05-16 | 2018-10-23 | 阿里巴巴集团控股有限公司 | 一种保险业务风险预测的处理方法、装置及处理设备 |
CN112243487A (zh) | 2018-06-14 | 2021-01-19 | 北京嘀嘀无限科技发展有限公司 | 用于按需服务的***和方法 |
CN109255714A (zh) * | 2018-08-27 | 2019-01-22 | 深圳市利讯互联网金融服务有限公司 | 机器学习基金优选***及其优选方法 |
CN109766360A (zh) * | 2019-01-09 | 2019-05-17 | 北京一览群智数据科技有限责任公司 | 一种名单筛查方法及装置 |
CN111563797A (zh) * | 2020-04-29 | 2020-08-21 | 北京字节跳动网络技术有限公司 | 房源信息的处理方法、装置、可读介质及电子设备 |
CN111611486B (zh) * | 2020-05-15 | 2021-03-26 | 北京博海迪信息科技有限公司 | 基于在线教育大数据的深度学习样本标注方法 |
CN112100444B (zh) * | 2020-09-27 | 2022-02-01 | 四川长虹电器股份有限公司 | 一种基于机器学习的搜索结果排序方法及*** |
CN112784600B (zh) * | 2021-01-29 | 2024-01-16 | 北京百度网讯科技有限公司 | 信息排序方法、装置、电子设备和存储介质 |
CN113254513B (zh) * | 2021-07-05 | 2021-09-28 | 北京达佳互联信息技术有限公司 | 排序模型生成方法、排序方法、装置、电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929873A (zh) * | 2011-08-08 | 2013-02-13 | 腾讯科技(深圳)有限公司 | 一种基于情境搜索提取搜索价值词的方法及装置 |
CN103106278A (zh) * | 2013-02-18 | 2013-05-15 | 人民搜索网络股份公司 | 权重值的获取方法及装置 |
CN103593425A (zh) * | 2013-11-08 | 2014-02-19 | 南方电网科学研究院有限责任公司 | 基于偏好的智能检索方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8244721B2 (en) * | 2008-02-13 | 2012-08-14 | Microsoft Corporation | Using related users data to enhance web search |
-
2015
- 2015-01-05 CN CN201510004674.3A patent/CN104462611B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929873A (zh) * | 2011-08-08 | 2013-02-13 | 腾讯科技(深圳)有限公司 | 一种基于情境搜索提取搜索价值词的方法及装置 |
CN103106278A (zh) * | 2013-02-18 | 2013-05-15 | 人民搜索网络股份公司 | 权重值的获取方法及装置 |
CN103593425A (zh) * | 2013-11-08 | 2014-02-19 | 南方电网科学研究院有限责任公司 | 基于偏好的智能检索方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN104462611A (zh) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462611B (zh) | 信息排序模型的建模方法、排序方法及建模装置、排序装置 | |
CN104680453B (zh) | 基于学生属性的课程推荐方法及*** | |
CN111444334B (zh) | 数据处理方法、文本识别方法、装置及计算机设备 | |
CN108960719B (zh) | 选品方法和装置以及计算机可读存储介质 | |
JP7120649B2 (ja) | 情報処理システム、情報処理装置、予測モデル抽出方法および予測モデル抽出プログラム | |
CN106251174A (zh) | 信息推荐方法及装置 | |
US8977613B1 (en) | Generation of recurring searches | |
CN106327227A (zh) | 一种信息推荐***及信息推荐方法 | |
CN106688215A (zh) | 针对内容效能优化的自动点击类型选择 | |
CN103514178A (zh) | 一种基于点击率的搜索排序方法及装置 | |
US20120095802A1 (en) | System and methods for evaluating political, social, and economic risk associated with a geographic region | |
TW201437933A (zh) | 搜尋引擎的結果排序方法及系統 | |
CN102495864A (zh) | 基于评分的协同过滤推荐方法及*** | |
CN108446351B (zh) | Ota平台的基于用户偏好的酒店筛选方法及*** | |
CN110532351A (zh) | 推荐词展示方法、装置、设备及计算机可读存储介质 | |
US20190370716A1 (en) | Intelligent diversification tool | |
CN111105203A (zh) | 简历筛选控制方法、装置、计算机设备及存储介质 | |
CN104239526A (zh) | 一种电子地图的poi标注方法及装置 | |
CN111738856A (zh) | 一种股票舆情投资决策分析方法及装置 | |
CN101770467B (zh) | 经由计算机网络定位关联产品的方法和*** | |
CN109034908A (zh) | 一种结合排序学习的电影排名预测方法 | |
Barge‐Gil et al. | Technological spillovers from multinational firms | |
Oancea et al. | Web scraping techniques for price statistics–the Romanian experience | |
CN105975508A (zh) | 个性化元搜索引擎检索结果合成排序方法 | |
KR100888329B1 (ko) | 룰을 이용한 실시간 자동 정보 추출 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |