CN110110267A - 提取对象特征、搜索对象的方法和装置 - Google Patents

提取对象特征、搜索对象的方法和装置 Download PDF

Info

Publication number
CN110110267A
CN110110267A CN201810073340.5A CN201810073340A CN110110267A CN 110110267 A CN110110267 A CN 110110267A CN 201810073340 A CN201810073340 A CN 201810073340A CN 110110267 A CN110110267 A CN 110110267A
Authority
CN
China
Prior art keywords
value
word
feature
scheduled
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810073340.5A
Other languages
English (en)
Other versions
CN110110267B (zh
Inventor
陈贱辉
邵荣防
郝晖
李萧萧
史亚妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810073340.5A priority Critical patent/CN110110267B/zh
Priority claimed from CN201810073340.5A external-priority patent/CN110110267B/zh
Publication of CN110110267A publication Critical patent/CN110110267A/zh
Application granted granted Critical
Publication of CN110110267B publication Critical patent/CN110110267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提取对象特征、搜索对象的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取预定时间段内对象的特征信息;其中,特征信息至少包括第一特征信息以及第二特征信息;对第一特征信息进行分词处理,根据分词后各个词语的数量以及预定的第一特征词提取规则,确定对象的特征词;根据第二特征信息以及预定的对象值确定规则,确定对象在当前时间的对象值;至少基于特征词以及对象值,生成与对象关联的特征表。该实施方式提供了一种提取对象特征的思路,便于后续依据对象特征进行对象搜索,使得搜索更具有针对性,进而提高对于该对象的搜索效率。

Description

提取对象特征、搜索对象的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种提取对象特征、搜索对象的方法和装置。
背景技术
随着人们生活水平的提高以及移动互联网的发展,人们随时随地都能在购物网站上进行购物,网购已成为当下最为流行的一种购物方式。目前在购物平台中包括各种商品排序的体制,通常通过商品信息的完整度,检索字段文本相似度、商品点击数、搜索量、订单数、好评率、用户行为偏好等因子计算排序权重,所得排序对于商品导流、提高商品销量起到至关重要的作用。
在实现本发明过程中,发明人发现现有技术至少存在如下问题:
(1)现有的排序因子通常基于历史数据产生,但由于新上架的商品没有或缺少这些因子的基础数据,导致排序靠后难以获得流量,从而引发卖家通过刷单等非正常手段提高商品权重,进而对电商平台和社会信用产生不良影响。
(2)现有的排序方法需要一个数据累加的过程,但对于时效性、季节性明显的商品,可能存在即使累加到权重也失去时效性的现象,不利于该商品的销售。
发明内容
有鉴于此,本发明实施例提供一种提取对象特征、搜索对象的方法和装置,至少能够解决现有排序手段不适合新创建的对象以及时效明显的对象的现象。
为实现上述目的,根据本发明实施例的一个方面,提供了一种提取对象特征的方法,其特征在于,包括:获取预定时间段内对象的特征信息;其中,所述特征信息至少包括第一特征信息以及第二特征信息;对所述第一特征信息进行分词处理,根据分词后各个词语的数量以及预定的第一特征词提取规则,确定所述对象的特征词;根据所述第二特征信息以及预定的对象值确定规则,确定所述对象在当前时间的对象值;至少基于所述特征词以及所述对象值,生成与所述对象关联的特征表。
可选的,所述根据分词后各个词语的数量以及预定的第一特征词提取规则,确定所述对象的特征词包括:根据预定的第一衰减公式,确定分词后各个词语的第一衰减值,提取第一衰减值超出预定衰减阈值的词语为所述对象的所述特征词。
可选的,所述第二特征信息至少包括所述对象的创建时间以及历史日志信息;所述根据所述第二特征信息以及预定的对象值确定规则,确定所述对象在当前时间的对象值包括:根据所述对象的创建时间以及预定的第二衰减公式,确定所述对象的热度在当前时间的第二衰减值;根据所述对象的历史日志信息以及预定的反馈值确定方式,确定所述对象在当前时间的反馈值;根据所述第二衰减值以及所述反馈值,确定所述对象在当前时间的所述对象值。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种搜索对象的方法,其特征在于,包括:利用上述任一项所述的提取对象特征的方法,生成与所述对象关联的特征表;以及接收搜索请求,根据预定的第二特征词提取规则,确定所述搜索请求中的第一特征词;当所述第一特征词在所述特征表中时,获取符合所述搜索请求的第一对象;获取每个第一对象的对象值,提取对象值超出预定对象值阈值的第一对象并发送。
可选的,还包括:获取每个第一对象的创建时间,确定创建时间与当前时间之差在预定间距范围内的第一对象优先排列。
可选的,所述第二特征词提取规则至少包括所述第一特征词提取规则以及归一化规则。
为实现上述目的,根据本发明实施例的另一方面,提供了一种提取对象特征的装置,其特征在于,包括:对象获取模块,用于获取预定时间段内对象的特征信息;其中,所述特征信息至少包括第一特征信息以及第二特征信息;特征词提取模块,用于对所述第一特征信息进行分词处理,根据分词后各个词语的数量以及预定的第一特征词提取规则,确定所述对象的特征词;对象值确定模块,用于根据所述第二特征信息以及预定的对象值确定规则,确定所述对象在当前时间的对象值;特征表生成模块,用于至少基于所述特征词以及所述对象值,生成与所述对象关联的特征表。
可选的,所述特征词提取模块,用于:根据预定的第一衰减公式,确定分词后各个词语的第一衰减值,提取第一衰减值超出预定衰减阈值的词语为所述对象的所述特征词。
可选的,所述第二特征信息至少包括所述对象的创建时间以及历史日志信息;所述对象值确定模块,用于:根据所述对象的创建时间以及预定的第二衰减公式,确定所述对象的热度在当前时间的第二衰减值;根据所述对象的历史日志信息以及预定的反馈值确定方式,确定所述对象在当前时间的反馈值;根据所述第二衰减值以及所述反馈值,确定所述对象在当前时间的所述对象值。
为实现上述目的,根据本发明实施例的另一方面,提供了一种搜索对象的装置,其特征在于,包括:利用上述任一项所述的提取对象特征的装置,生成与所述对象关联的特征表;以及请求接收模块,用于接收搜索请求,根据预定的第二特征词提取规则,确定所述搜索请求中的第一特征词;对象搜索模块,用于当所述第一特征词在所述特征表中时,获取符合所述搜索请求的第一对象;对象筛选模块,用于获取每个第一对象的对象值,提取对象值超出预定对象值阈值的第一对象并发送。
可选的,还包括对象排列模块,用于:获取每个第一对象的创建时间,确定创建时间与当前时间之差在预定间距范围内的第一对象优先排列。
可选的,所述第二特征词提取规则至少包括所述第一特征词提取规则以及归一化规则。
为实现上述目的,根据本发明实施例的再一方面,提供了一种提取对象特征、搜索对象的电子设备。
本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的提取对象特征、搜索对象的方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一所述的提取对象特征、搜索对象的方法。
根据本发明所述提供的方案,上述发明中的一个实施例具有如下优点或有益效果:提供了一种针对对象的专项提取特征以及专项搜索的新思路,提高了针对对象的搜索准确性,满足了用户的搜索需求,同时提升了用户体验。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的一种提取对象特征的方法的主要流程示意图;
图2是根据本发明实施例的一种可选的提取对象特征的方法的流程示意图;
图3是根据本发明实施例的另一种可选的提取对象特征的方法的流程示意图;
图4是根据本发明实施例的一种搜索对象的方法的流程示意图;
图5是根据本发明实施例的一种可选的搜索对象的方法的流程示意图;
图6是根据本发明实施例的一种提取对象特征的装置的主要模块示意图;
图7是根据本发明实施例的一种搜索对象的装置的主要模块示意图;
图8是本发明实施例可以应用于其中的示例性***架构图;
图9是适于用来实现本发明实施例的移动设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,本发明实施例适用于线上服务性平台,例如购物、旅游、餐饮、视频导流等。所提供的对象包括但不限于是视频、餐饮、商品等,例如,预定时间段内(例如,30天)首次上架销售(之后简称上架)的新商品(之后简称新品)。对于重复出现的对象,例如重复上架的商品,为降低对线上服务秩序的影响,本发明在此不做考虑。
参见图1,示出的是本发明实施例提供的一种提取对象特征的方法的主要流程图,包括如下步骤:
S101:获取预定时间段内对象的特征信息;其中,特征信息至少包括第一特征信息以及第二特征信息。
S102:对第一特征信息进行分词处理,根据分词后各个词语的数量以及预定的第一特征词提取规则,确定对象的特征词。
S103:根据第二特征信息以及预定的对象值确定规则,确定对象在当前时间的对象值。
S104:至少基于特征词以及对象值,生成与对象关联的特征表。
上述实施方式中,对于步骤S101,每个对象都具有其创建时间,由此可以提取预定时间段内(例如,30日)的对象,例如提取商品库中首次上架且上架时间在一定期限内的商品,以防止上架很久的商品依然在新品筛选结果中出现。
另外,对象的特征信息包括但不限于是创建时间、标识信息、描述信息等。在获取特征信息的同时,需要判断对象是否符合判断需求,即是否为指定要求的对象。以新品为例,判断商品为新品的方式,可以依据商品信息进行判断,该商品信息包括但不限于是商品描述信息、商品ID、商品上架时间。其具体判断可以有如下方式:
(1)根据对象的创建时间戳判断:每个对象均有各自的创建时间戳,例如2018.01.02上架商品A,此后对象无论如何变更(例如,商品先下架后上架),这个时间戳是不变的;
(2)根据对象的标识信息判断:每个对象均有各自的标识信息,该标识信息可以存储于对象信息库中,并不会发生变化。若在对象信息库中查询不到与对象标识信息相匹配的信息时,可确定该对象首次创建,例如,首次上架的新品;对于删除后修改再上传的对象(例如,重复上架的商品),其标识信息不变,可以在对象信息库中查询存在;
(3)根据对象的描述信息判断:线上对象,均有相关的描述信息,该描述信息可以是图片、标题、介绍等,且这些描述信息与该对象组合生成一条数据,存储于对象信息库中。对于和原有对象相同的新创建的对象(例如,重复上架的商品),若其描述信息与对象信息库中的历史描述信息的相似度超出一定相似度阈值,例如,相似度大于90%,可以确认已存在与该对象相似的历史对象,对于该对象不做考虑。
其中,根据对象描述信息的相似度判断,可以有如下方式:
1)文本描述对比:对文本描述信息进行分词,判断词语(分词最小单元)集合之间的重复度,例如分词后“冬款连衣裙”与“连衣裙冬款”就存在高度相似;
2)图像对比:目前通常采用的是首先提取图像指纹再进行比较。例如,将图片归一化到相同大小(例如,1250像素),从特定的像素点上提取像素值,与其他图像相同位置的像素进行像素值对比,统计像素相同的数量,当数量超出预定数量阈值(例如,10个),可以确定这两个对象相似。
对于步骤S102,对于所获取的对象,在确定特征词之前,可以对其第一特征信息进行分词操作,其分词处理可以有如下方式:
(1)选取预定时间段内所创建的对象,确定相应的第一特征信息,例如其描述信息、所属类别等;
(2)依据标题、描述、品类、品牌名、店铺名、类型等检索字段,对于对象的第一特征信息进行分词处理,得到分词后的多个词语;
(3)按照不同检索字段的权重大小,例如标题>描述>类型,对分词后的词语进行排序,生成词集。
以预定时间段为30日为例,对于所确定的对象,以创建时间每天生成一份词集;之后,统计期限内所有对象的词集,将出现多次的词语进行统计以及归一化,以降低后台服务运行压力,最终合并生成一个总词集,较之单个词集提高了统计分布,降低了单个对象的热度比例。
需要说明的是,由于各个对象的创建时间不同且确定对象处于一定的期限内,因此,对于预定时间段的单个词集不会发生变化,但对于总词集,会随着时间的改变随之发生变化。
对于对象的词集,可以提取其中能够体现对象特征的特征词,该提取包括但不限于是如下方式:
(1)确定特征信息中的高频词,即出现次数超出预定次数阈值的词语为特征词,例如,“短靴”;
(2)对于刚创建的对象,其热度(受关注程度)随着上架时间的增长而逐渐较小,当达到预定期限时,可确定其不再是新的对象。因此,可以按照一定的衰减指数计算各个词语的衰减分数,以此累加获取各个词语的总分数,确定总分数超出预定分数阈值的词语为特征词。
对于步骤S103,对于所确定的对象,除提取特征词之外,还可以依据对象的第二特征信息对其进行打分操作,例如,创建时间、历史日志信息等,便于依据得分值对该对象进行排序。具体可以有如下方式:
1)自对象创建之后,用户对其好评率进行打分;
2)根据对象的点击率、购买率进行打分;
3)根据对象的热度(即,受关注程度)进行打分;
4)根据对象所属类别的热度进行打分;
5)根据对象所在平台的下载量、点击率进行打分。
由于对象的热度等会随着其上架时间的增长而逐渐降低,而其点击量、购买率等会随着其上架时间的增长而逐渐提高,因此,对于上述方式,可以结合使用,也可以单独使用,本发明在此不做限制。
另外,对象值作为对象记录的一个字段,会随着对象显示时间的递增而变化,当对象显示达到预定期限时,将其对象值归0,例如新品上架30天后即不再是新品。
对于步骤S104,在确定对象的特征词以及对象值之后,可以生成对象-特征词-对象值的特征表,该表可以随着时间的变化随之更改,因此,对于特征表可以覆盖更新。另外,也可以依据特征词的出现次数、对象值的大小等,按照从大到小的顺序,对于特征表中的对象进行排序。
进一步的,还可以生成对象-特征词-对象值标签,并添加该标签至对象特征中。由于特征词以及对象值随着对象上架时间而变化,因此该标签可以缓存,也可以随时间变化替代更新,本发明在此不做限制。
上述实施例所提供的方法,提供了一种提取对象特征的思路,通过对特征信息进行特征词提取以及对象值确定,生成与对象相关联的特征表,以此保存对象的多维特征,提高对象特征提取的准确度。另外,由于特征词以及对象值会随着时间的递增而逐渐变化,因此,所得特征表能更充分体现对象的特性以及自创建后的受关注度,且更为符合其热度变化规律。
参见图2,示出了根据本发明实施例的一种可选的提取对象特征的方法流程示意图,包括如下步骤,
S201:获取预定时间段内对象的特征信息;其中,特征信息至少包括第一特征信息以及第二特征信息。
S202:对第一特征信息进行分词处理,根据预定的第一衰减公式,确定分词后各个词语的第一衰减值,提取第一衰减值超出预定衰减阈值的词语为对象的所述特征词。
S203:根据第二特征信息以及预定的对象值确定规则,确定对象在当前时间的对象值。
S204:至少基于特征词以及对象值,生成与对象关联的特征表。
上述实施方式中,步骤S201、S203、S204可分别参见图1所示步骤S101、S103、S104的描述,在此不再赘述。
上述实施方式中,对于步骤S202,对象的热度在线上购物平台随上架时间增长的变化情况,通常为前期快速衰减、后期慢速衰减。该情况类似于互联网热点快进快出的衰减趋势,因此可以使用衰期方式对其对象的各个词语进行提取,该衰减方式包括但不限于是线性衰减、半衰期衰减。本发明主要采用半衰期衰减方式;其中,半衰期为特征词分数降低为原来的一半所需的时间,其时间长短可以反映对象的衰减速度。
具体地,第一衰减公式可以是如下公式:
m=M*(1/2)^(t/T)
依据词集中各词语的出现次数,计算各个词语的第一衰减值,例如每天每个词语的第一衰减值m,然后对30天的分数以特征词维度进行累加汇总;其中,M为初始时刻对象特征词的第一基础值,例如100;t为反应时间,对应于对象在预定期限内已上架的时间,例如1~30天;T为半衰期,例如7天。
以下举例进行具体描述:
例如,当天新创建3个对象,获取各自的特征信息,并分别对第一特征信息进行分词操作,得到:
对象1:ABCD
对象2:CDEF
对象3:ADE
统计各个词语所出现的次数,得到:
A:2次;B:1次;C:2次;D:3次;E:2次;F:1次
对上述词语输入半衰期公式进行计算,得到各个词语在当天的分数K1;
假如昨天的统计为:
A:3次;B:2次;C:1次;G:1次;
由于上架时间的增长,需对于昨天的词语输入半衰期公式中进行衰减计算,得到分数K2(K1*衰减数);
依次类比,对于当天计算得到的衰减值会趋向于0,但若该词在每天新创建的对象中再次出现,则该词不再趋向于0,因此将30天的衰减值进行合并,每天的衰减值依据上架时间进行计算。
进一步的,对于线上购物平台,每天所统计到的首次创建的对象可能数以万计,因此所得到的特征词数量较多,为减轻后台服务运行压力,在输入其出现次数至半衰期公式之前,可以首先对其进行归一化处理,例如,压缩次数至1~100之间。
通过上述步骤计算出“词语-衰减值”的对应关系,根据衰减值的大小顺序,剔除衰减值低于预定衰减值阈值的词语,输出特征词;也可以对所得到的特征词,按照衰减值的大小进行排序。
上述实施例所提供的方法,提供了一种具体提取对象特征词的方式,依据半衰期公式,计算各个词语在预定时间段内出现次数的衰减值,上述方式更为符合对象的热度衰减趋势,使得所提取出的特征词更为符合对象的衰减特征。
参见图3,示出了根据本发明实施例的另一种可选的提取对象特征的方法流程示意图,包括如下步骤:
S301:获取预定时间段内对象的特征信息;其中,特征信息至少包括第一特征信息以及第二特征信息,且第二特征信息至少包括对象的创建时间以及历史日志信息。
S302:对第一特征信息进行分词处理,根据分词后各个词语的数量以及预定的第一特征词提取规则,确定对象的特征词。
S303:根据对象的创建时间以及预定的第二衰减公式,确定对象的热度在当前时间的第二衰减值;
S304:根据对象的历史日志信息以及预定的反馈值确定方式,确定对象在当前时间的反馈值;
S305:根据第二衰减值以及反馈值,确定对象在当前时间的对象值。
S306:至少基于特征词以及对象值,生成与对象关联的特征表。
上述实施方式中,步骤S301、S306可分别参见图1所示步骤S101、S104的描述,步骤S302可参见图1所示步骤S102以及图2所示步骤S202的描述,在此不再赘述。
上述实施方式中,对于步骤S303~S305,可以针对对象进行优劣排序,该排序可以依据对象值进行,其中对象值主要包含2部分:
(1)第二衰减值:代表对象热度的衰减,该衰减值由对象已上架的时间距离当前日期之差决定,此时的第二基础值同样可以使用图2所示第一基础值,可以区别于第一基础值,例如,取值50。所采用的第二衰减公式,可以与第一衰减公式相同,具体参见依据图2所示描述,也可以是本领域技术人员所知的其他公式,本发明在此不做限制;
(2)反馈值:对于对象,在其创建第二天就存在相应的历史日志信息,该历史日志信息对应于创建第一天用户对于该对象的浏览点击量。对象出现在设备(例如,手机、电脑)上一次,后台就会上报该对象一次曝光,表示用户看到了该对象;若用户浏览并点击查看了该对象,后台也会上报该对象一次点击;之后依据曝光量以及点击量,计算得到该对象的反馈值,即曝光点击转换率;其中,该曝光点击转换率=总点击数量/总曝光数量。
以下以实施例进行具体说明:
对象创建上架第一天,其总对象值为100分,第二衰减值为50分,初始反馈值为50分。随着对象上架时间的增长,其第二衰减值以及反馈值随之变化,具体为:
第二衰减值:上架第一天50分,第二天45分,第三天41分……第七天25分……第三十天2分;
反馈值:假设上架第一天转换率5%,第二天转换率10%……
进一步的,在确定反馈值之前,还可以对计算得到的反馈值进行归一化操作,即统计各个对象的平均转化率,归一化到预定范围作为反馈值,例如0~50,以降低商家为提高反馈值而作弊的情况。归一化的具体方式包括但不限于是50*log(n),其中n为平均转化率。
上述实施例所提供的方法,提供了一种确定对象值的思路,主要依据对象的创建时间以及曝光率,符合对象的受关注度的变化趋势,同时便于排序对象,提高了对象的管理效率。
参见图4,示出的是本发明实施例提供的一种搜索对象的方法的主要流程图,包括如下步骤:
S401:获取预定时间段内对象的特征信息;其中,特征信息至少包括第一特征信息以及第二特征信息。
S402:对第一特征信息进行分词处理,根据分词后各个词语的数量以及预定的第一特征词提取规则,确定对象的特征词。
S403:根据第二特征信息以及预定的对象值确定规则,确定对象在当前时间的对象值。
S404:至少基于特征词以及对象值,生成与对象关联的特征表。
S405:接收搜索请求,根据预定的第二特征词提取规则,确定搜索请求中的第一特征词。
S406:当第一特征词在特征表中时,获取符合搜索请求的第一对象。
S407:获取每个第一对象的对象值,提取对象值超出预定对象值阈值的第一对象并发送。
上述实施方式中,步骤S401、S404可分别参见图1所示步骤S101、S104的描述,步骤S402可参见图1所示步骤S102以及图2所示步骤S202的描述,步骤S403可参见图1所示步骤S103以及图3所示步骤S303~S305的描述,在此不再赘述。
通过确定对象的特征词,对于搜索前端,可以确定在接收到哪些词语的搜索请求时,出现对象筛选项,例如新品筛选项,而针对哪些词语则不出现。同样,对于对象的对象值,为便于高质对象的销售、点击、浏览,可以仅提取部分对象进行显示。
上述实施方式中,对于步骤S405,当接收到用户在搜索前端输入的搜索请求后,后台会解析该搜索请求,获取并分析其中的搜索信息。当搜索信息中的特征词在所生成的特征表中时,可以输出相应的对象至搜索界面供用户浏览。为提高部分对象的曝光量、浏览量以及销售量,可以仅显示部分排序靠前的对象,或者将新的对象在对象列表中进行优先排列显示。
另外,对于搜索请求中的第一特征词获取方式,可以是图1以及图2所示的特征词提取规则,也可以是原始搜索请求中的搜索查询词(search query)或经过归一化(例如,大写转小写、繁体转简体,过滤多余的空格等)的搜索查询词,其具体实施方式,本发明在此不做限制。
对于步骤S406,当搜索信息中的特征词在特征表中时,可以输出“搜索信息中的特征词+对象”的组合词在搜索界面的搜索选项中,供用户选择,例如下拉选项中的“秋装新品”,若用户选择该选项,后台会将包含该特征词但是不是新品的商品均滤掉,以只显示打标新品的商品。
还可以在搜索界面筛选选项中设置“对象”的选项,例如,□新品选项,其中,□为选择框。当接收到用户勾选新品的请求时,会输出新品至搜索界面;若用户同时输入搜索信息时,会结合该搜索信息,在新品中进行匹配查询,以输出符合搜索请求的新品至搜索界面。
另外,对于搜索请求中的特征词,需要全部可以在特征词表中查询存在,例如“秋装”“连衣裙”,若其中一个词语“秋装”“连裙”在特征词表中查询结果为否时,此时不再针对对象进行输出。
另外,上述实施方式同样适用于特定对象类型下的对象搜索,以引导用户浏览,增加特定对象的浏览量以及销售量,其中,对象类型包括但不限于是电器、衣服、鞋包、配饰。此时的特征表对应于该特定对象类型,使得确定该类型下对象的特征具有针对性,例如,特定商品品类下的新品。
对于步骤S407,为加快用户对于对象的获取效率,提高高质量对象的点击转化率,可以预先设置对象值阈值(例如,0、0.4),仅输出对象值超出该预定对象值阈值的对象;其中,该阈值可以由***自行设定,也可以由用户进行输入设定,例如,在搜索界面的筛选项中添加对象值范围选择选项。
另外,对象值仅作为一个加权项,在输出符合搜索请求的对象列表时可用于对对象的筛选。对于对象的综合排序,还需要考虑有关对象或商家的其他信息,例如,商家信誉度、对象信息的完整度等。
上述实施例所提供的方法,提供了一种搜索并筛选对象的思路,满足用户对于对象的关注需求,利于对象的曝光点击率,同时提高时效对象的排序显示,为对象的浏览销售提供了便利,降低商家通过非正常手段提高对象排名的情况。另外,通过对特定类型下的对象进行专项导流,使得导流具有针对性、体现了特定对象类型的个性化特点。
参见图5,示出了根据本发明实施例的一种可选的搜索对象的方法流程示意图,包括如下步骤:
S501:获取预定时间段内对象的特征信息;其中,特征信息至少包括第一特征信息以及第二特征信息。
S502:对第一特征信息进行分词处理,根据分词后各个词语的数量以及预定的第一特征词提取规则,确定对象的特征词。
S503:根据第二特征信息以及预定的对象值确定规则,确定对象在当前时间的对象值。
S504:至少基于特征词以及对象值,生成与对象关联的特征表。
S505:接收搜索请求,根据预定的第二特征词提取规则,确定搜索请求中的第一特征词。
S506:当第一特征词在特征表中时,获取符合搜索请求的第一对象。
S507:获取每个第一对象的对象值,提取对象值超出预定对象值阈值的第一对象。
S508:获取每个第一对象的创建时间,确定创建时间与当前时间之差在预定间距范围内的第一对象优先排列。
上述实施方式中,步骤S501、S504可分别参见图1所示步骤S101、S104的描述,步骤S502可参见图1所示步骤S102以及图2所示步骤S202的描述,步骤S503可参见图1所示步骤S103以及图3所示步骤S303~S305的描述,步骤S505~S507可参见图4所示步骤S405~S407的描述,在此不再赘述。
上述实施方式中,对于步骤S508,对于对象在搜索界面的排序,包括但不限于是图4所示方式,还可以依据对象的创建时间,按照创建时间与当前时间的距离间隔长短进行排列,例如,当前时间为2018.01.03,商品A首次上架时间为2018.01.02,商品B首次上架的时间为2018.01.01,则在搜索界面,优先排列商品A。
上述实施例所提供的方法,提供了一种针对对象的排序思路,用以提高对象的曝光量、便于对象的点击转化,提高时效对象的高效排序。另外,通过对对象进行打分操作、时间排序判断,提高用户找寻优质对象、新创建对象的效率,进而提高用户使用体验。
参见图6,示出了本发明实施例提供的一种提取对象特征的装置600的主要模块示意图,包括:
对象获取模块601,用于获取预定时间段内对象的特征信息;其中,所述特征信息至少包括第一特征信息以及第二特征信息;
特征词提取模块602,用于对所述第一特征信息进行分词处理,根据分词后各个词语的数量以及预定的第一特征词提取规则,确定所述对象的特征词;
对象值确定模块603,用于根据所述第二特征信息以及预定的对象值确定规则,确定所述对象在当前时间的对象值;
特征表生成模块604,用于至少基于所述特征词以及所述对象值,生成与所述对象关联的特征表。
本发明实施装置中,所述特征词提取模块602,用于:
根据预定的第一衰减公式,确定分词后各个词语的第一衰减值,提取第一衰减值超出预定衰减阈值的词语为所述对象的所述特征词。
本发明实施装置中,所述第二特征信息至少包括所述对象的创建时间以及历史日志信息;
所述对象值确定模块603,用于:
根据所述对象的创建时间以及预定的第二衰减公式,确定所述对象的热度在当前时间的第二衰减值;
根据所述对象的历史日志信息以及预定的反馈值确定方式,确定所述对象在当前时间的反馈值;
根据所述第二衰减值以及所述反馈值,确定所述对象在当前时间的所述对象值。
参见图7,示出了本发明实施例提供的一种搜索对象的装置700的主要模块示意图,包括:
利用上述任一项所述的提取对象特征的装置,生成与所述对象关联的特征表;以及
请求接收模块701,用于接收搜索请求,根据预定的第二特征词提取规则,确定所述搜索请求中的第一特征词;
对象搜索模块702,用于当所述第一特征词在所述特征表中时,获取符合所述搜索请求的第一对象;
对象筛选模块703,用于获取每个第一对象的对象值,提取对象值超出预定对象值阈值的第一对象并发送。
本发明实施装置还包括对象排列模块704,用于:
获取每个第一对象的创建时间,确定创建时间与当前时间之差在预定间距范围内的第一对象优先排列。
本发明实施装置中,所述第二特征词提取规则至少包括所述第一特征词提取规则以及归一化规则。
上述实施例所提供的装置,提供了一种针对对象的排序思路,用以提高对象的曝光量、便于对象的点击转化,提高时效对象的高效排序。另外,通过对对象进行打分操作、时间排序判断,提高用户找寻优质对象、新创建对象的效率,进而提高用户使用体验。
另外,在本发明实施例中所述的提取对象特征、搜索对象的装置的具体实施内容,在上面所述搜索对象的方法中已经详细说明了,故在此重复内容不再说明。
参见图8示出了可以应用本发明实施例的提取对象特征、搜索对象方法或装置的示例性***架构800。
如图8所示,***架构800可以包括终端设备801、802、803,网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备801、802、803通过网络804与服务器805交互,以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交***软件等(仅为示例)。
终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器805可以是提供各种服务的服务器,例如对用户利用终端设备801、802、803所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的在列表中排列对象方法一般由服务器805执行,相应地,在列表中排列对象装置一般设置于服务器805中。
应该理解,图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
参见图9,其示出了适于用来实现本发明实施例的终端设备的计算机***900的结构示意图。图9示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,计算机***900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有***900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。录入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的录入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括对象获取模块、特征词提取模块、对象值确定模块以及特征表生成模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,对象获取模块还可以被描述为“对象的特征信息获取模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
获取预定时间段内对象的特征信息;其中,所述特征信息至少包括第一特征信息以及第二特征信息;
对所述第一特征信息进行分词处理,根据分词后各个词语的数量以及预定的第一特征词提取规则,确定所述对象的特征词;
根据所述第二特征信息以及预定的对象值确定规则,确定所述对象在当前时间的对象值;
至少基于所述特征词以及所述对象值,生成与所述对象关联的特征表。
以及
接收搜索请求,根据预定的第二特征词提取规则,确定所述搜索请求中的第一特征词;
当所述第一特征词在所述特征表中时,获取符合所述搜索请求的第一对象;
获取每个第一对象的对象值,提取对象值超出预定对象值阈值的第一对象并发送。
根据本发明实施例的技术方案,提供了一种针对对象的排序思路,用以提高对象的曝光量、便于对象的点击转化,提高时效对象的高效排序。另外,通过对对象进行打分操作、时间排序判断,提高用户找寻优质对象、新创建对象的效率,进而提高用户使用体验。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (14)

1.一种提取对象特征的方法,其特征在于,包括:
获取预定时间段内对象的特征信息;其中,所述特征信息至少包括第一特征信息以及第二特征信息;
对所述第一特征信息进行分词处理,根据分词后各个词语的数量以及预定的第一特征词提取规则,确定所述对象的特征词;
根据所述第二特征信息以及预定的对象值确定规则,确定所述对象在当前时间的对象值;
至少基于所述特征词以及所述对象值,生成与所述对象关联的特征表。
2.根据权利要求1所述的方法,其特征在于,所述根据分词后各个词语的数量以及预定的第一特征词提取规则,确定所述对象的特征词包括:
根据预定的第一衰减公式,确定分词后各个词语的第一衰减值,提取第一衰减值超出预定衰减阈值的词语为所述对象的所述特征词。
3.根据权利要求1所述的方法,其特征在于,所述第二特征信息至少包括所述对象的创建时间以及历史日志信息;
所述根据所述第二特征信息以及预定的对象值确定规则,确定所述对象在当前时间的对象值包括:
根据所述对象的创建时间以及预定的第二衰减公式,确定所述对象的热度在当前时间的第二衰减值;
根据所述对象的历史日志信息以及预定的反馈值确定方式,确定所述对象在当前时间的反馈值;
根据所述第二衰减值以及所述反馈值,确定所述对象在当前时间的所述对象值。
4.一种搜索对象的方法,其特征在于,包括:
利用权利要求1-3中任一项所述的提取对象特征的方法,生成与所述对象关联的特征表;以及
接收搜索请求,根据预定的第二特征词提取规则,确定所述搜索请求中的第一特征词;
当所述第一特征词在所述特征表中时,获取符合所述搜索请求的第一对象;
获取每个第一对象的对象值,提取对象值超出预定对象值阈值的第一对象并发送。
5.根据权利要求4所述的方法,其特征在于,还包括:
获取每个第一对象的创建时间,确定创建时间与当前时间之差在预定间距范围内的第一对象优先排列。
6.根据权利要求4所述的方法,其特征在于,所述第二特征词提取规则至少包括所述第一特征词提取规则以及归一化规则。
7.一种提取对象特征的装置,其特征在于,包括:
对象获取模块,用于获取预定时间段内对象的特征信息;其中,所述特征信息至少包括第一特征信息以及第二特征信息;
特征词提取模块,用于对所述第一特征信息进行分词处理,根据分词后各个词语的数量以及预定的第一特征词提取规则,确定所述对象的特征词;
对象值确定模块,用于根据所述第二特征信息以及预定的对象值确定规则,确定所述对象在当前时间的对象值;
特征表生成模块,用于至少基于所述特征词以及所述对象值,生成与所述对象关联的特征表。
8.根据权利要求7所述的装置,其特征在于,所述特征词提取模块,用于:
根据预定的第一衰减公式,确定分词后各个词语的第一衰减值,提取第一衰减值超出预定衰减阈值的词语为所述对象的所述特征词。
9.根据权利要求7所述的装置,其特征在于,所述第二特征信息至少包括所述对象的创建时间以及历史日志信息;
所述对象值确定模块,用于:
根据所述对象的创建时间以及预定的第二衰减公式,确定所述对象的热度在当前时间的第二衰减值;
根据所述对象的历史日志信息以及预定的反馈值确定方式,确定所述对象在当前时间的反馈值;
根据所述第二衰减值以及所述反馈值,确定所述对象在当前时间的所述对象值。
10.一种搜索对象的装置,其特征在于,包括:
利用权利要求7-9中任一项所述的提取对象特征的装置,生成与所述对象关联的特征表;以及
请求接收模块,用于接收搜索请求,根据预定的第二特征词提取规则,确定所述搜索请求中的第一特征词;
对象搜索模块,用于当所述第一特征词在所述特征表中时,获取符合所述搜索请求的第一对象;
对象筛选模块,用于获取每个第一对象的对象值,提取对象值超出预定对象值阈值的第一对象并发送。
11.根据权利要求10所述的装置,其特征在于,还包括对象排列模块,用于:
获取每个第一对象的创建时间,确定创建时间与当前时间之差在预定间距范围内的第一对象优先排列。
12.根据权利要求10所述的装置,其特征在于,所述第二特征词提取规则至少包括所述第一特征词提取规则以及归一化规则。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201810073340.5A 2018-01-25 提取对象特征、搜索对象的方法和装置 Active CN110110267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810073340.5A CN110110267B (zh) 2018-01-25 提取对象特征、搜索对象的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810073340.5A CN110110267B (zh) 2018-01-25 提取对象特征、搜索对象的方法和装置

Publications (2)

Publication Number Publication Date
CN110110267A true CN110110267A (zh) 2019-08-09
CN110110267B CN110110267B (zh) 2024-07-16

Family

ID=

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487277A (zh) * 2019-09-11 2021-03-12 拉扎斯网络科技(上海)有限公司 数据分配方法、装置、可读存储介质和电子设备
CN115526173A (zh) * 2022-10-12 2022-12-27 湖北大学 一种基于计算机信息技术的特征词提取方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440242A (zh) * 2013-06-26 2013-12-11 北京亿赞普网络技术有限公司 一种基于用户搜索行为的个性化推荐方法和***
CN104252456A (zh) * 2013-06-25 2014-12-31 阿里巴巴集团控股有限公司 一种权重估计方法、装置及***
US20150161139A1 (en) * 2013-12-10 2015-06-11 Alibaba Group Holding Limited Data search processing
CN106997350A (zh) * 2016-01-22 2017-08-01 阿里巴巴集团控股有限公司 一种数据处理的方法及装置
CN107256244A (zh) * 2017-06-01 2017-10-17 北京京东尚科信息技术有限公司 数据处理方法和***
CN107526800A (zh) * 2017-08-20 2017-12-29 平安科技(深圳)有限公司 信息推荐的装置、方法及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252456A (zh) * 2013-06-25 2014-12-31 阿里巴巴集团控股有限公司 一种权重估计方法、装置及***
CN103440242A (zh) * 2013-06-26 2013-12-11 北京亿赞普网络技术有限公司 一种基于用户搜索行为的个性化推荐方法和***
US20150161139A1 (en) * 2013-12-10 2015-06-11 Alibaba Group Holding Limited Data search processing
CN106997350A (zh) * 2016-01-22 2017-08-01 阿里巴巴集团控股有限公司 一种数据处理的方法及装置
CN107256244A (zh) * 2017-06-01 2017-10-17 北京京东尚科信息技术有限公司 数据处理方法和***
CN107526800A (zh) * 2017-08-20 2017-12-29 平安科技(深圳)有限公司 信息推荐的装置、方法及计算机可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487277A (zh) * 2019-09-11 2021-03-12 拉扎斯网络科技(上海)有限公司 数据分配方法、装置、可读存储介质和电子设备
CN112487277B (zh) * 2019-09-11 2023-04-07 拉扎斯网络科技(上海)有限公司 数据分配方法、装置、可读存储介质和电子设备
CN115526173A (zh) * 2022-10-12 2022-12-27 湖北大学 一种基于计算机信息技术的特征词提取方法及***

Similar Documents

Publication Publication Date Title
CN102567511B (zh) 一种应用自动推荐的方法及装置
CN108228906B (zh) 用于生成信息的方法和装置
CN102360364A (zh) 一种应用自动推荐的方法及装置
CN108256070A (zh) 用于生成信息的方法和装置
CN106415644A (zh) 动态内容项创建
CN108776692A (zh) 用于处理信息的方法和装置
CN110363604A (zh) 页面生成方法和装置
CN109961299A (zh) 数据分析的方法和装置
CN110020143A (zh) 一种落地页生成方法和装置
CN108898496A (zh) 产品推荐方法、装置、介质及电子设备
CN110276065A (zh) 一种处理物品评论的方法和装置
CN110020162A (zh) 用户识别方法和装置
CN108197298A (zh) 一种基于自然语言处理的智能购物交互方法及***
CN112528153A (zh) 内容推荐方法、装置、设备、存储介质以及程序产品
CN110348921A (zh) 门店物品选取的方法和装置
CN109903105A (zh) 一种完善目标商品属性的方法和装置
CN109190027A (zh) 多源推荐方法、终端、服务器、计算机设备、可读介质
CN110473043A (zh) 一种基于用户行为的物品推荐方法和装置
CN111767459A (zh) 物品推荐的方法和装置
JP5256273B2 (ja) 意図抽出装置、方法及びプログラム
CN109754273A (zh) 提升活跃用户数量的方法和装置
CN110020131A (zh) 一种排列商品的方法和装置
CN109840724A (zh) 用于输出信息的方法和装置
CN109426998A (zh) 信息推送方法和装置
CN110110267A (zh) 提取对象特征、搜索对象的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant