CN110879863B - 跨领域搜索方法和跨领域搜索装置 - Google Patents
跨领域搜索方法和跨领域搜索装置 Download PDFInfo
- Publication number
- CN110879863B CN110879863B CN201811014185.6A CN201811014185A CN110879863B CN 110879863 B CN110879863 B CN 110879863B CN 201811014185 A CN201811014185 A CN 201811014185A CN 110879863 B CN110879863 B CN 110879863B
- Authority
- CN
- China
- Prior art keywords
- search
- user
- information
- graph
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 230000006399 behavior Effects 0.000 claims abstract description 285
- 239000013598 vector Substances 0.000 claims abstract description 126
- 238000010586 diagram Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims description 48
- 238000005295 random walk Methods 0.000 claims description 39
- 230000002159 abnormal effect Effects 0.000 claims description 28
- 238000010606 normalization Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 11
- 238000001914 filtration Methods 0.000 description 8
- 230000028838 turning behavior Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 241000526960 Amaranthus acanthochiton Species 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 235000013618 yogurt Nutrition 0.000 description 2
- 241000282376 Panthera tigris Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/12—Hotels or restaurants
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种跨领域搜索方法和跨领域搜索装置。包括:提供向量图,所述向量图包括向量化的用户信息、第一搜索领域和第二搜索领域下的搜索对象和用户行为;获取用户在第一搜索领域搜索产生的第一搜索信息;所述第一搜索信息包括用户信息、用户行为轨迹和搜索词至少其中之一;将所述第一搜索信息向量化,利用所述向量图确定与向量化的第一搜索信息相关的搜索对象,所述搜索对象包括第一搜索领域和/或第二搜索领域下的搜索对象。本发明提出一种跨领域搜索方法和装置,通过建立向量图,可以计算第一搜索领域和第二搜索领域中的各搜索对象之间的关系,从而使得用户利用第一搜索领域的向量化后的搜索信息获得第二搜索领域的搜索对象。
Description
技术领域
本申请涉及信息处理领域,特别是涉及一种跨领域搜索方法和跨领域搜索装置。
背景技术
在现有技术中,用户经常会从第一搜索领域转到第二搜索领域。但是,由于第一搜索领域的搜索对象——例如商品,与第二搜索领域的搜索对象——例如帖子、视频、推荐、旅游产品等内容,与第一搜索领域的搜索对象并不相同,因此用户无法将第一搜索领域的搜索信息携带至第二搜索领域,供第二搜索领域的搜索引擎使用,导致用户在第二搜索领域搜索时,搜索服务器无法准确获取用户潜在希望获取的内容。
发明内容
鉴于上述问题,本发明一实施例提出一种跨领域搜索方法和跨领域搜索装置,以解决现有技术存在的问题。
为了解决上述问题,本申请一实施例公开一种一种跨领域搜索方法,包括:
提供向量图,所述向量图包括向量化的用户信息、第一搜索领域和第二搜索领域下的搜索对象和用户行为;
获取用户在第一搜索领域搜索产生的第一搜索信息;所述第一搜索信息包括用户信息、用户行为轨迹和搜索词至少其中之一;
将所述第一搜索信息向量化,利用所述向量图确定与向量化的第一搜索信息相关的搜索对象,所述搜索对象包括第一搜索领域和/或第二搜索领域下的搜索对象。
为了解决上述问题,本申请一实施例还公开一种跨领域搜索方法,包括:
获取用户在第一搜索领域搜索获得的第一搜索信息;所述第一搜索信息包括用户信息、用户行为轨迹和搜索词至少其中之一;
当用户在第二搜索领域搜索时,根据所述第一搜索信息确定第二搜索领域可用的第二搜索信息;
根据所述第二搜索信息,在第二搜索领域确定搜索结果;
其中,所述第一搜索领域和第二搜索领域具有不同的搜索对象。
为了解决上述问题,本申请一实施例还公开一种搜索对象确定方法,包括:
提供向量图,所述向量图包括向量化的多个搜索对象和多个用户的用户行为;
获取当前用户产生的实时用户行为;
将所述实时用户行为向量化,利用所述向量图中的向量化的用户行为与所述向量化的实时用户行为的匹配关系,从所述多个搜索对象中确定与所述向量化的所述用户行为匹配的搜索对象;
其中,所述实时用户行为包括翻页行为、点击行为、浏览行为、收藏行为、购买行为至少其中之一。
为了解决上述问题,本申请一实施例还公开一种搜索关键词确定方法,包括:
提供向量图,所述向量图包括向量化的多个搜索对象、多个用户的用户行为、以及多个搜索关键词;
获取当前用户产生的实时搜索关键词和实时用户行为;
将所述实时搜索关键词和实时用户行为向量化,利用所述向量图中的向量化的用户行为和搜索关键词与所述向量化的实时用户行为和搜索关键词的匹配关系,确定与所述实时用户行为对应的目标关键词;
所述实时用户行为包括翻页行为、点击行为、浏览行为、收藏行为、购买行为至少其中之一。
为了解决上述问题,本申请一实施例还公开一种跨领域搜索装置,包括:
向量图提供模块,用于提供向量图,所述向量图包括向量化的用户信息、第一搜索领域和第二搜索领域下的搜索对象和用户行为;
第一搜索信息获取模块,用于获取用户在第一搜索领域搜索产生的第一搜索信息;所述第一搜索信息包括用户信息、用户行为轨迹和搜索词至少其中之一;
搜索对象确定模块,用于将所述第一搜索信息向量化,利用所述向量图确定与向量化的第一搜索信息相关的搜索对象,所述搜索对象包括第一搜索领域和/或第二搜索领域下的搜索对象。
为了解决上述问题,本申请一实施例还公开一种跨领域搜索装置,包括:
第一搜索信息获取模块,用于获取用户在第一搜索领域搜索获得的第一搜索信息;所述第一搜索信息包括用户信息、用户行为轨迹和搜索词至少其中之一;
第二搜索信息确定模块,用于当用户在第二搜索领域搜索时,根据所述第一搜索信息确定第二搜索领域可用的第二搜索信息;
搜索结果确定模块,用于根据所述第二搜索信息,在第二搜索领域确定搜索结果;
其中,所述第一搜索领域和第二搜索领域具有不同的搜索对象。
为了解决上述问题,本申请一实施例还公开一种搜索对象确定装置,包括:
向量图提供模块,用于提供向量图,所述向量图包括向量化的多个搜索对象和多个用户的用户行为;
实时用户行为获取模块,用于获取当前用户产生的实时用户行为;
搜索对象确定模块,用于将所述实时用户行为向量化,利用所述向量图中的向量化的用户行为与所述向量化的实时用户行为的匹配关系,从所述多个搜索对象中确定与所述向量化的所述用户行为匹配的搜索对象;
其中,所述实时用户行为包括翻页行为、点击行为、浏览行为、收藏行为、购买行为至少其中之一。
为了解决上述问题,本申请一实施例还公开一种搜索关键词确定装置,包括:
向量图提供模块,用于提供向量图,所述向量图包括向量化的多个搜索对象、多个用户的用户行为、以及多个搜索关键词;
获取模块,用于获取当前用户产生的实时搜索关键词和实时用户行为;
目标关键词确定模块,用于将所述实时搜索关键词和实时用户行为向量化,利用所述向量图中的向量化的用户行为和搜索关键词与所述向量化的实时用户行为和搜索关键词的匹配关系,确定与所述实时用户行为对应的目标关键词;
所述实时用户行为包括翻页行为、点击行为、浏览行为、收藏行为、购买行为至少其中之一。
本申请一实施例还公开一种计算处理设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述计算处理设备执行上述的方法。
本申请一实施例还公开一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得计算处理设备执行上述的方法。
由上述可知,本申请实施例包括以下优点:
本发明第一实施例提出一种跨领域搜索方法,通过建立向量图,可以计算第一搜索领域和第二搜索领域中的各搜索对象之间的关系,从而使得用户利用第一搜索领域的向量化后的搜索信息获得第二搜索领域的搜索对象。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1所示为本发明核心构思示意图。
图2所示为本发明第一实施例的跨领域搜索方法的示意图。
图3所示为本发明第二实施例的跨领域搜索方法的示意图。
图4所示为步骤S200的子步骤的示意图。
图5所示为图3对应的本发明实施例对应的方框图。
图6是本申请第三实施例的跨领域搜索方法的流程图。
图7是本申请第四实施例的跨领域搜索方法的流程图。
图8是图7中步骤S402的子步骤的示意图。
图9是本申请第五实施例的跨领域搜索装置的方框图。
图10是本申请第六实施例的跨领域搜索装置的方框图。
图11是本申请第七实施例的方法的流程图。
图12是本申请第八实施例的方法的流程图。
图13是本申请第九实施例的装置的方框图。
图14是本申请地十实施例的装置的方框图。
图15示意性地示出了用于执行根据本发明的方法的计算处理设备的框图。
图16示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,本申请的核心思想之一在于,提出一种跨领域搜索方法,基于用户在第一和第二搜索领域的用户行为和搜索对象信息生成向量图,通过将用户实时行为向量化,与向量图中的节点做出比对,获取相似的向量集合,从而返回搜索结果。
第一实施例
本发明第一实施例提出一种跨领域搜索方法。图2所示为本发明第一实施例的跨领域搜索方法的步骤流程图。如图2所示,本发明实施例的跨领域搜索方法包括如下步骤:
S101,提供向量图,所述向量图包括向量化的用户信息、第一搜索领域和第二搜索领域下的搜索对象和用户行为;
在这一步骤中,第一和第二搜索领域可以是根据不同类型的搜索对象划分的搜索内容。例如,交易平台可以包括多个板块,例如可以从大类的角度划分为商品板块和内容板块。其中内容板块还可以进一步划分为视频、文字、图片、列表等等。每个板块的内容不同,因此所对应的内容可以能是商品、文本内容、音频视频内容、这些商品的搜索方式各不相同。通常来说,由于商品和内容这两种搜索对象是异构的,搜索商品和内容分别对应不同的搜索页面,和搜索方式。
在一实施例中,第一搜索领域例如为针对商品的搜索。例如交易平台的主搜页面。第二搜索领域例如为针对内容的搜索,例如各种攻略、推荐、视频等。
在一实施例中,由于第一搜索领域的商品搜索方式与第二搜索领域的内容的搜索方式不同,在这一步骤中可以将第一搜索领域中的搜索信息进行转化,使之成为适应于第二搜索领域的搜索模式的搜索信息。例如,可以利用历史数据,建立商品与内容之间的异构图,以在后续计算出商品和内容之间的相关性,从而为了后续在第二领域搜索返回搜索结果提供计算的基础。
在本实施例中,异构图可以是利用不同的搜索领域的对象、主体、行为作为边和节点,将这些信息反映在一张图中,以形成商品和商品、商品和内容、内容和内容之间的关系。异构图可以包括边和节点。节点例如包括多种商品、多个用户和多种内容。具体来说,异构图的节点可以包括各领域用户的行为节点;异构图的边可以包括用户相似关系、用户点击、收藏、购买行为。异构图的主要作用是将节点向量化。
例如,交易平台有100万用户,则可以从中采集多个用户中每一个的上述信息,形成一张庞大的异构图。例如,第一搜索领域的节点包括主搜用户,主搜用户行为所关联到的商品。边的类型包括点击、收藏、购买,以及第一搜索领域用户节点之间的相似关系。每个边的权重不同,比如购买行为的权重要大于点击行为。第二搜索领域的节点假设相较于第一搜索领域更单一一些,只包含帖子节点,用户的行为包括节点的点击,用户与用户的相似关系的边也会建立起来。第三搜索领域的节点包含四种类型,帖子、视频、清单和话题。边的类型为用户与内容节点的点击以及用户之间的相似关系。
在这一步骤中,可以对多种多样的边进行归一化,以使得表达不同类型的边和节点能够归一化,从而将异构图进行同构化。
同构化的做法可以是对该异构图的所有边建模,计算出不同类型边的距离,例如可以采用回归模型,该回归模型设置一组针对边的连接节点类型的权重(是用户购买商品还是用户点击帖子),以及边本身的类型的权重(如购买边权重大于点击边权重),计算出所有实例边的距离,将距离归一化到0和1之间。这样一来,就可以将一个异构图转化成了一个同构图。
在完成了异构图同构化之后,然后再通过现有的随机游走(Random Walk)的方式找出节点向量序列,再进行Node2Vec的工作,实现图形的向量化。因为该异构图本身是有向图,所以随机游走的时候游走的概率中包含了方向的加权。有向不只是原始的行为关联到的节点向量序列,也会将跨领域的节点向量序列关联起来,只要是在一个Session周期(例如30分钟)内就会有有向的关系。得到随机游走的节点向量序列后,接下来可以调用现有的Word2Vec模型,计算出图中节点的向量化表示。Word2Vec是一种将自然语言中的字词转化为计算机可以理解的稠密的向量的模型,其可以优化One-Hot Encoder所带来的高纬度及稀疏的隐患,在此不再赘述。
值得注意的是,在一实施例中,用户行为轨迹可以是用户一个session内的行为,该session例如是单位时间内的用户行为序列。因此,所采集的用户行为可以是有向的,即,可以根据时间序列采集用户的先后行为(例如先点击再收藏、再购买的先后行为),所以该异构图和同构化后的异构图都可以是有向的。
S102,获取用户在第一搜索领域搜索产生的第一搜索信息;所述第一搜索信息包括用户信息、用户行为轨迹和搜索词至少其中之一;
在这一步骤中,当用户在第一搜索领域搜索信息时,服务器可以获取用户在第一搜索领域的第一搜索信息。所获得的第一搜索信息包括用户信息和搜索信息。用户信息可以包括用户的属性信息和历史行为。属性信息例如是用户的个人标签,例如年龄、性别、购买力、偏好等,历史行为例如是用户在过去一段时间(例如30分钟之内)的点击、搜索、查找、收藏之类的信息。这些信息例如是从用户实时的行为轨迹中获得的。
例如,在第一搜索领域,用户搜索的内容包括:关键词、停留时间、翻页时间、点击商品和收藏商品。对于每一个有标签的商品来说,可以根据标签确认这一类商品的信息。例如用户在第一搜索领域的界面搜索的商品的关键词为“蓝色连衣裙”,第一搜索领域的搜索引擎根据该搜索词返回多个商品。用户在浏览商品A-Z的过程中,点击了A、D、F、J,收藏了A和J。其中A、D、F三个商品的标签均为“蓝色”“连衣裙”“格子”。J的标签为“蓝色”“连衣裙”。
在这个过程中,服务器记录的搜索信息包括:
用户信息——用户的年龄、性别、偏好、购买能力等。
用户的搜索词——蓝色连衣裙;
用户浏览的商品——例如用户浏览了前两个页商品信息,A到Z共26个商品。
用户点击的商品及标签——A、D、F、J,及这些商品各自的标签。
用户收藏的商品及标签——A、J,及这两个商品各自的标签。
在这一步骤中,服务器可以将第一搜索领域获得的搜索信息上传到存储数据库,由数据库进行保存。
S103,将所述第一搜索信息向量化,利用所述向量图确定与向量化的第一搜索信息相关的搜索对象,所述搜索对象包括第一搜索领域和/或第二搜索领域下的搜索对象。
由于用户可能会在第一搜索领域搜索了一段时间之后转到第二搜索领域。在这一步骤中,可以利用第一搜索领域形成的第一搜索信息,在第二搜索领域发现匹配的信息。
在这一步骤中,服务器可以获得用户在第一搜索领域的上述第一搜索信息。例如从该上述的存储数据库中获取搜索信息。在获取了上述第一搜索信息之后,可以将该第一搜索信息进行处理,获得可以在第二搜索领域使用的第二搜索信息。
在这一步骤中,可以将第一搜索信息进行向量化,并将之与异构图中的向量序列进行比较,通过计算余弦相似度的方法,计算出向量化后的第一搜索信息与异构图图中节点的相似程度,上述的相似程度可以认为是用户当前的行为序列与该同构化的异构图中节点或区域的相似程度。例如,根据用户在第一搜索领域实时产生的用户行为序列,在同构化异构图中查找与之相似的历史用户行为序列,从而确定与第一搜索信息相关的搜索对象。这一搜索对象可以包括异构图中相似度高的各种搜索对象,例如商品、内容、旅游信息、视频等等。
由上述可知,本发明第一实施例提出的跨领域搜索方法至少具有如下技术效果:
本发明第一实施例提出一种跨领域搜索方法,通过建立向量图,使得不同搜索领域下的搜索对象能够向量化,并且在一张图内描述第一搜索领域和第二搜索领域中的各搜索对象之间的关系,从而使得用户利用第一搜索领域的向量化后的搜索信息,通过与该向量图内的节点序列对比,获得第一搜索领域和/或第二搜索领域的搜索对象,实现了跨领域搜索。
第二实施例
本发明第二实施例提出一种跨领域搜索方法。图6所示为本发明第二实施例的跨领域搜索方法的步骤流程图。如图6所示,本发明实施例的跨领域搜索方法如下步骤:
S201,提供向量图,所述向量图包括向量化的用户信息、第一搜索领域和第二搜索领域下的搜索对象和用户行为;
S202,获取用户在第一搜索领域搜索产生的第一搜索信息;所述第一搜索信息包括用户信息、用户行为轨迹和搜索词至少其中之一;
S203,将所述第一搜索信息向量化,利用所述向量图确定与向量化的第一搜索信息相关的搜索对象,所述搜索对象包括第一搜索领域和/或第二搜索领域下的搜索对象。
上述步骤S201至步骤S203与上一实施例的步骤S101至步骤S103相同或相似,在此不再赘述。本实施例重点说明与上一实施例的不同之处。
在本发明一实施例中,所述方法还包括:
S200利用第一搜索领域和第二搜索领域中的搜索对象和用户行为生成向量图。
在这一步骤中,可以构建向量图。向量图是利用多个用户的历史行为作为历史数据,构建的包含多个搜索领域内的搜索对象、用户行为,用户信息等内容。
向量图可以利用将不同搜索对象组成的异构图进行同构化,再通过随机游走确定出节点的向量序列来实现。
异构图可以是利用不同的搜索领域的对象、主体、行为作为边和节点,将这些信息反映在一张图中,以形成商品和商品、商品和内容、内容和内容之间的关系。异构图可以包括边和节点。节点例如包括多种商品、多个用户和多种内容。具体来说,异构图的节点可以包括各领域用户的行为节点;异构图的边可以包括用户相似关系、用户点击、收藏、购买行为。异构图的主要作用是将节点向量化。
例如可以从交易平台采集多个用户中每一个的上述信息,形成一张庞大的异构图。例如,第一搜索领域的节点包括主搜用户,主搜用户行为所关联到的商品。边的类型包括点击、收藏、购买,以及第一搜索领域用户节点之间的相似关系。每个边的权重不同,比如购买行为的权重要大于点击行为。第二搜索领域的节点假设相较于第一搜索领域更单一一些,只包含帖子节点,用户的行为包括节点的点击,用户与用户的相似关系的边也会建立起来。第三搜索领域的节点包含四种类型,帖子、视频、清单和话题。边的类型为用户与内容节点的点击以及用户之间的相似关系。
在这一步骤中,可以对多种多样的边进行归一化,以使得表达不同类型的边和节点能够归一化,从而将异构图进行同构化。
同构化和随机游走的方式已在前述说明,在此不再赘述。
在本发明一实施例中,如图4所示,所述步骤S200,即利用第一搜索领域和第二搜索领域中的搜索对象和用户行为生成向量图的步骤包括如下子步骤:
S2001,获取图形生成数据,所述图形生成数据包括多个用户的用户信息,以及多个用户在第一搜索领域下和第二搜索领域下的搜索对象和用户行为;
在这一步骤中,图形生成数据即为用于生成同构化异构图的原始数据,这些数据包括用户信息——例如用户ID、根据人口学统计获得的用户的性别、年龄、购买力、偏好等一系列数据;用户的搜索对象——例如yoghurt在第一搜索领域针对某关键词获得的多个搜索对象、用户在第二搜索领域针对某关键词获得的多个搜索对象等;用户行为——包括从多个用户中的每一个获得的行为,例如点击、收藏、购买、在某个页面停留、停留时间、翻页等一系列操作。以上仅是举例说明,并不特别限制。
S2002,利用所述图形生成数据生成异构图,所述异构图中的节点包括用户信息和搜索对象,所述异构图的边包括用户行为;
在这一步骤中,可以分别利用前述的用户信息和各个搜索领域内的搜索对象生成异构图的节点,并利用用户行为生成异构图的边。
S2003,对所述异构图的边进行归一化处理,获得同构化异构图;
在这一步骤中,可以对异构图的边进行归一化处理,同构化的做法可以是对该异构图的所有边建模,计算出不同类型边的距离,例如可以采用回归模型,该回归模型设置一组针对边的连接节点类型的权重(是用户购买商品还是用户点击帖子),以及边本身的类型的权重(如购买边权重大于点击边权重),计算出所有实例边的距离,将距离归一化到0和1之间。这样一来,就可以将一个异构图转化成了一个同构图。
S2004,利用随机游走确定所述同构化异构图的随机游走序列;
在这一步骤中,可以通过现有的随机游走(Random Walk)的方式找出节点向量序列,因为该异构图本身是有向图,所以随机游走的时候游走的概率中包含了方向的加权。有向不只是原始的行为关联到的节点向量序列,也会将跨领域的节点向量序列关联起来,只要是在一个Session周期(例如30分钟)内就会有有向的关系。得到随机游走的节点向量序列。
S2005,将所述随机游走序列向量化。
在这一步骤中,可以进行Node2Vec的工作,实现图形的向量化。,这一步骤可以调用现有的Word2Vec模型,计算出图中节点的向量化表示。
在本发明一实施例中,所述子步骤S2003可以包括如下分步骤:
S2003a,提供回归模型,所述回归模型的参数包括同构化异构图的节点对应的权重,以及边对应的权重;
S2003b,利用所述回归模型计算节点之间的边的距离;
S2003c,将所计算出的边的距离进行归一化。
在本发明一实施例中,如图4所示,所述步骤S203,即将所述第一搜索信息向量化,利用所述向量图确定与向量化的第一搜索信息相关的搜索对象的步骤之后,所述方法还包括如下步骤:
S204,从所确定的搜索对象中获取第一关键词序列;
在这一步骤中,可以从用户在第一搜索领域对应的搜索对象中获得搜索信息,例如用户点击的商品或内容、收藏的商品或内容、购买的商品或内容、用户输入的搜索词等。由于每一个商品或内容都有自己的标签。以上述搜索“蓝色连衣裙”为例,当用户的搜索对象中包含多个“格子”“连衣裙”等内容时,可以认为用户本次搜索对应的关键词序列为“格子”和“连衣裙”。
S205,通过序列到序列模型,根据所述第一关键词序列确定对应的第二关键词序列。
在这一步骤中,可以利用序列到序列模型,确定第一关键词序列对应的第二关键词序列。
此处的“序列”可以为搜索关键词。第一关键词序列可以为从用户在第一搜索领域产生的搜索对象的标签获得的关键词序列,第二关键词序列可以为用户将要在第二搜索领域搜索,所需要的搜索关键词序列。
该序列到序列模型是应用两个循环神经网络模型,完成一个序列到另一个序列的映射。序列到序列模型是一个编码-解码的模型,编码部分将输入的第一关键词序列加密成一个句向量,解码部分是根据业务场景一步步将句向量解析出来的过程。
在一些业务场景中,可以采用两个深度学习模型,输入的是向量化之后的第一搜索对象的序列,输出的是第二搜索对象的序列。这个第二搜索对象的序列可以用于第二搜索领域的搜索排序。进一步地,可以将这个第二搜索对象的序列重新输入另一个序列到序列模型中,输出是每一个第二搜索对象中抽取出来的关键词。这些关键词组织成一个全新的第二搜索词序列。
在上述多个分步骤中,可以利用回归模型实现边的归一化处理,该回归模型设置一组针对边的连接节点类型的权重(是用户购买商品还是用户点击帖子),以及边本身的类型的权重(如购买边权重大于点击边权重),利用这些权重计算出所有实例边的距离,将距离归一化到0和1之间。这样一来,就可以将一个异构图转化成了一个同构图。
在本发明一实施例中,所述第一搜索领域和第二搜索领域的搜索对象包括商品信息和内容信息至少其中之一。所述内容信息包括:音频信息、视频信息、图片信息、文本信息至少其中之一。所述商品信息包括旅游商品信息。如果用户在第一搜索领域一些旅游相关的关键词,本发明实施例的方案可以根据用户的旅游进度进行商品的推荐。比如用户购买了机票,可以推测用户接下来要预订酒店,可以按用户的目的地推荐一些用户偏好的酒店。例如可以按照用户入住历史或者相似用户的历史来推荐。在用户预订好酒店后,可以给用户推荐一些热门景点及相关的攻略。在一实施例中,前述的向量图中已存在针对用户行为轨迹的相似度较高的节点,这些节点可以是机票、酒店、景点门票等节点,利用这一向量图可以精确地匹配出用户的需要。
图5所示为本发明一实施例的示意图。如图5所示,在离线部分,通过序列到序列模型,可以获得与输入的第一关键词序列对应的第二关键词序列。获得的第二关键词序列可以用于产生全新生成的query(关键词序列),也可以用于其他场景的推荐,例如旅游场景的推荐。
在本发明一实施例中,所述步骤S205之后,所述方法还可以包括:
S206,根据历史数据生成第三关键词序列;
S207,根据搜索策略从所述第二关键词序列和第三关键词序列中确定搜索关键词序列;
其中所述第三关键词序列是根据与第一关键词序列相映射的关键词序列以及与第二搜索领域的搜索对象相映射的关键词序列获得的历史相似关键词序列。
结合图5所示,历史搜索推荐会在离线部分会训练好两个模型,分别是搜索对象到关键词的映射(Document2Query)和关键词序列的映射(Query2Query)。需要使用过去N天的数据,搜索对象到关键词的映射表示在过去N天中,每个内容最相关的K个搜索内容。关键词序列到关键词序列的映射是根据协同过滤,通过计算用户的相似度,来统计出第一关键词序列和搜索关键词之间的相似关系——即与第一关键词序列相映射的关键词序列。
当用户有实时的搜索行为后,可以生成一个召回池,这个召回池中包括搜索对象到关键词序列的映射和关键词序列到关键词序列的映射的数据(图5中历史最相近Query),也包括前述全新生成关键词序列(图5中全新生成Query),通过计算召回池中的搜索与原始关键词的相似关系来选取出最相似的历史搜索。这种方式会增加搜索召回池的多样性。
在使用阶段,可以采用上下文多臂***算法(MAB)实时的判断使用哪种搜索推荐的算法——历史搜索还是全新搜索,算法基于用户的实时反馈,统计用户的个性化偏好。例如,为用户推荐的内容中,10次中有8次用户采纳的是利用历史搜索的方式推荐的内容,则认为该用户更愿意历史搜索的方式推荐,因此可以将历史搜索的方式提权,或者将历史搜索方式作为向用户推荐内容的搜索方式。
在本发明一实施例中,所述将所述第一搜索信息向量化,利用所述向量图确定与向量化的第一搜索信息相关的搜索对象的步骤之后,所述方法还包括:
S204,从所确定的搜索对象中获取第一关键词序列;
S208,通过序列到序列模型,根据所述第一关键词序列确定对应的旅游产品信息。
在这一步骤中,如上述,在确定了第一关键词序列之后,可以利用向量图,确定对应的旅游产品信息。例如用户在第一搜索领域搜索“旅游装备”这一关键词序列,服务器可以检测到用户的出游意向,则可推荐用户购买机票,将机票在打折的店推荐给用户。在购买机票之后,可以检测到用户的目的地,则可以推测用户接下来要预订酒店,可以按用户的目的地推荐一些用户偏好的酒店。例如可以按照用户入住历史或者相似用户的历史来推荐。在用户预订好酒店后,可以给用户推荐一些热门景点及相关的攻略。在一实施例中,前述的向量图中已存在针对用户行为轨迹的相似度较高的节点,这些节点可以是机票、酒店、景点门票等节点,利用这一向量图可以精确地匹配出用户的需要。
在本发明一实施例中,所述将所述第一搜索信息向量化,利用所述向量图确定与向量化的第一搜索信息相关的搜索对象的步骤之后,所述方法还包括:
S204,从所确定的搜索对象中获取第一关键词序列;
S209,根据所述第一搜索信息的用户行为轨迹确认所述用户的目标关键词;
S210,根据所述偏好关键词修改所述第一关键词序列。
在步骤S210到S212中,在获得了第一关键词序列之后,可以结合用户的行为轨迹,修改第一关键词序列。例如当用户搜索“蓝色连衣裙”时,点击了相当多的“格子连衣裙”的商品,则可以认为用户真正需要的关键词是“格子连衣裙”;或者,当用户搜索“蓝色连衣裙”,在点击商品时略过了所有的“牛仔连衣裙”,则可以认为用户不需要“牛仔”这一关键词。如图5所示,可以根据用户个性化偏好,进行在线统计,当确定了用户输入的偏好关键词,便可以修改第一关键词序列,以获得更加精准的搜索词。
综上所述,本实施例提出的跨领域搜索方法至少具有如下优点:
本发明第一实施例提出一种跨领域搜索方法,通过建立向量图,使得不同搜索领域下的搜索对象能够向量化,并且在一张图内描述第一搜索领域和第二搜索领域中的各搜索对象之间的关系,从而使得用户利用第一搜索领域的向量化后的搜索信息,通过与该向量图内的节点序列对比,获得第一搜索领域和/或第二搜索领域的搜索对象,实现了跨领域搜索。
除此之外,本实施例提出的跨领域搜索方法至少还包括如下优点:
在本发明可选实施例中,通过设置同构化异构图使得两种不同搜索领域中的搜索对象能够显示在一张图中,通过对该同构化异构图进行向量化,使得第一搜索领域和第二搜索领域中的搜索对象能够被向量化,用于与获取到的向量化的第一搜索信息进行比较,获得第二搜索领域的搜索对象。异构图的规模可以十分庞大,其中包括了多个用户的用户信息、行为轨迹和用户操作以及搜索对象。通过向量化的第一搜索信息,可以在异构图中获得与之匹配的第二搜索领域中的搜索对象。
在本发明可选实施例中,可以利用回归模型对异构图的边长进行归一处理,使得各节点之间的距离得到统一,以在后续随机游走时能够准确地生成随机游走序列并进行向量化。
在可选实施例中,可以利用序列到序列模型,利用获取的第一关键词序列生成第二关键词序列。第二关键词序列可以用于在第二搜索领域中确定搜索对象,而第一关键词序列是从第一搜索领域对应的搜索对象中获得的。因此本发明可以利用第一关键词序列确定第二关键词序列,提高了在第二搜索领域内搜索的准确性和效率,实现了智能搜索。
第三实施例
本发明第三实施例提出一种跨领域搜索方法,包括如下步骤:
S301,获取用户在第一搜索领域搜索获得的第一搜索信息;
在这一步骤中,当用户在第一搜索领域搜索信息时,服务器可以获取用户在第一搜索领域的搜索信息。
第一搜索领域例如为针对商品的搜索。例如交易平台的主搜页面。
第二搜索领域例如为针对内容的搜索,例如各种攻略、推荐、视频等。
搜索领域可以是根据不同类型的搜索对象划分的搜索内容。例如,交易平台可以包括多个板块,例如可以从大类的角度划分为商品板块和内容板块。其中内容板块还可以进一步划分为视频、文字、图片、列表等等。每个板块的内容不同,因此所对应的内容可以能是商品、文本内容、音频视频内容、这些商品的搜索方式各不相同。通常来说,搜索商品和内容分别对应不同的搜索页面,和搜索方式。
在这一步骤中,所获得的搜索信息包括用户信息和搜索信息。用户信息可以包括用户的属性信息和历史行为。属性信息例如是用户的个人标签,例如年龄、性别、购买力、偏好等,历史行为例如是用户在过去30分钟之内的点击、搜索、查找、收藏之类的信息。
例如,主搜页面用户搜索的内容包括:关键词、停留时间、翻页时间、点击商品和收藏商品。对于每一个有标签的商品来说,可以根据标签确认这一类商品的信息。例如如果用户在主搜界面搜索的商品的关键词为“蓝色连衣裙”,主搜的搜索引擎根据该搜索词返回多个商品。用户在浏览商品A-Z的过程中,点击了A、D、F、J,收藏了A和J。其中A、D、F三个商品的标签均为“蓝色”“连衣裙”“格子”。J的标签为“蓝色”“连衣裙”。
在这个过程中,服务器记录的搜索信息包括:
用户信息——用户的年龄、性别、偏好、购买能力等。
用户的关键词——蓝色连衣裙;
用户浏览的商品——例如用户浏览了前两个页商品信息,A到Z共26个商品。
用户点击的商品及标签——A、D、F、J,及这些商品各自的标签。
用户收藏的商品及标签——A、J,及这两个商品各自的标签。
在这一步骤中,服务器可以将第一搜索领域获得的搜索信息上传到存储数据库,由数据库进行保存。
S302,当用户在第二搜索领域搜索时,根据所述第一搜索信息确定第二搜索领域可用的第二搜索信息;
经过统计,有大约80%的用户会在主搜页面对商品搜索了一段时间之后转到内容板块。在这一步骤中,利用主搜页面形成的搜索信息,在内容板块发现匹配的信息。
在这一步骤中,服务器可以获得用户在第一搜索领域的上述搜索信息。例如从该上述的存储数据库中获取搜索信息。
在获取了上述第一搜索信息之后,可以将该第一搜索信息进行处理,获得可以在第二搜索领域使用的第二搜索信息。
在一实施例中,第一搜索信息包含的是用户的搜索词和计算获得的用户对某些内容的偏重。例如,上一个示例中,用户搜索的是“蓝色连衣裙”,但是根据用户点击、收藏的内容,可以判断出用户的偏好其实是“格子连衣裙”。因此在第二搜索领域中,可以根据用户搜索的“蓝色连衣裙”作为搜索词,同时根据用户点击和收藏的商品标签,确定出用户真实感兴趣标签为“格子”和“连衣裙”,在第二搜索领域可以将包含“格子”的内容的标签的权重提高,从而在第二搜索领域中搜索内容时,将搜索对象中包含“格子”的内容靠前返回给用户。
在另一实施例中,由于第一搜索领域的商品搜索方式与第二搜索领域的内容的搜索方式不同,在这一步骤中可以将第一搜索领域中的搜索信息进行转化,使之成为适应于第二搜索领域的搜索模式的搜索信息。例如,可以利用历史数据,建立商品与内容之间的异构图,以在后续计算出商品和内容之间的相关性,从而为了后续在第二领域搜索返回搜索结果提供计算的基础。
在本实施例中,异构图可以是利用不同的搜索领域的对象、主体、行为作为边和节点,将这些信息反映在一张图中,以形成商品和商品、商品和内容、内容和内容之间的关系。异构图可以包括边和节点。节点例如包括多种商品、多个用户和多种内容。具体来说,异构图的节点可以包括各领域用户的行为节点;异构图的边可以包括用户相似关系、用户点击、收藏、购买行为。异构图的主要作用是将节点向量化。
例如,交易平台有100万用户,则可以从中采集多个用户中每一个的上述信息,形成一张庞大的异构图。例如,主搜领域的节点包括主搜用户,主搜用户行为所关联到的商品。边的类型包括点击、收藏、购买,以及主搜用户节点之间的相似关系。每个边的权重不同,比如购买行为的权重要大于点击行为。淘宝头条领域的节点相较于主搜会单一一些,只包含Feed节点(帖子节点),用户的行为包括节点的点击,用户与用户的相似关系的边也会建立起来。淘攻略领域的节点包含四种类型,帖子、视频、清单和话题。边的类型为用户与内容节点的点击以及用户之间的相似关系。
在这一步骤中,需要对多种多样的边进行归一化,以使得表达不同类型的边和节点能够归一化,从而将异构图进行同构化。
同构化的做法是对图的所有边建模,计算出不同类型边的距离,例如可以采用回归模型,考虑边的连接节点类型(是用户购买商品还是用户点击帖子),以及边本身的类型权重(如购买边权重大于点击边权重),计算出所有实例边的距离,距离会归一化到0和1之间。这样一来,就可以将一个异构图转化成了一个同构图。
值得注意的是,在一实施例中,用户行为可以是用户一个session内的行为,该session例如是单位时间内的用户行为序列。因此,所采集的用户行为可以是有向的,即,可以根据时间序列采集用户的先后行为(例如先点击再收藏、再购买的先后行为),所以该异构图和同构化后的异构图都可以是有向的。
在完成了异构图同构化之后,然后再通过随机游走的方式找出Item序列,再进行Node2Vec的工作,实现图形的向量化。
Node2Vec的过程首先是通过随机游走(Random Walk)找出Item序列,因为该异构图本身是有向图,所以随机游走的时候该概率模型会考虑到有向这个加权。有向不只是原始的行为关联到的Item,也会将跨领域的Item关联起来,只要是在一个Session周期(例如30分钟)内就会有有向的关系。得到随机游走的序列后,接下来可以调用Word2Vec模型,计算出图中节点的向量化表示。
S303,根据所述搜索信息,在第二搜索领域返回搜索结果。
在这一步骤中,可以根据前述的搜索词和调整的权重,或者前述的异构图通过计算余弦相似度的方法,计算出相似程度。
上述的相似程度可以认为是用户当前的行为序列与该同构化的异构图中节点或区域的相似程度。例如,根据用户在第一搜索领域实时产生的用户行为序列,在同构化的异构图中查找与之相似的历史用户行为序列,获得用户可能偏好的多个查找结果。
具体来说,图形向量化之后可以用于商品推荐。在获得第一搜索领域的用户信息之后,可以对用户和用户的行为进行编码(embedding),其的方式采用是深度神经网络模型,通过计算用户和用户行为的相似度与向量化的图形中商品或者内容节点的余弦相似度,获取出图形中这个用户最可能感兴趣的商品或者内容。
在获得了用户最可能感兴趣的商品或者内容之后,可以利用序列到序列模型,返回结果。序列到序列模型是一个编码-解码的模型,编码部分将输入序列加密成一个句向量(顺序输入词向量直到收到句子结束符),解码部分是根据业务场景一步步将句向量解析出来的过程。
在具体的业务场景中,可以采用两个长短期记忆网络(LSTM)深度模型,输入的是图形向量化之后的商品向量,输出的是内容序列。这个内容序列可以用于内容板块例如淘攻略、旅游板块的搜索排序。在查询推荐的业务场景中,会将这个内容序列重新输入另一个序列到序列模型中,输出是每一个内容中抽取出来的关键词。这些关键词组织成一个全新的查询。
图形向量化和序列到序列模型的操作用于全新生成查询推荐,以及推荐内容,例如旅游场景中的推荐和商品推荐等。在获得用户最可能感兴趣的商品或者内容之后,可以将其作为第二搜索领域的搜索结果进行返回。
在完成离线训练之后,当接收到用户输入在第一搜索领域的第一搜索信息之后,可以至少执行两种功能,一种例如是历史搜索推荐或者内容到查询推荐,另一种是过滤推荐。
历史搜索推荐会在离线部分会训练好两个模型,分别是内容到搜索和搜索到搜索。需要使用过去N天的数据,内容到搜索表示在过去N天中,每个内容最相关的K个搜索内容。搜索到搜索是根据协同过滤,通过计算用户的相似度,来统计出搜索和搜索之间的相似关系。当用户有实时的搜索行为后,可以生成一个召回池,这个召回池中包括内容到搜索和搜索到搜索的数据,通过计算召回池中的搜索与原始搜索的相似关系(采用线性加权)来选取出最相似的历史搜索。这种方式会增加搜索召回池的多样性。
在使用阶段,可以采用上下文多臂***算法(MAB)实时的判断使用哪种搜索推荐的算法,历史搜索还是全新搜索,算法基于用户的实时反馈,统计用户的个性化偏好。例如,为用户推荐的内容中,10次中有8次用户采纳的是利用历史搜索的方式推荐的内容,则认为该用户更愿意历史搜索的方式推荐,因此可以将历史搜索的方式提权,或者将历史搜索方式作为向用户推荐内容的搜索方式。
在一实施例中,无论是基于历史行为的推荐还是基于商品推荐内容,生成推荐的方式还可以通过循环神经网络模型对行为序列进行编码,通过编码解码直接生成搜索推荐。
在本发明一实施例中,还可以通过上述方式,实现过滤推荐,如下:
执行主体例如服务器,可以实时统计用户搜索点击的偏好,采用逻辑回归线性加权的方式预测用户可能希望过滤的标签,当用户的行为比较稀疏,并且低于某个阈值的时候触发这个条件。例如,用户在搜索到商品A-Z中,返回的商品中有十件条纹连衣裙和十件格子连衣裙。用户对这十件条纹连衣裙都没有点击也没有收藏,停留的时间也短于格子连衣裙,因此可以判断用户对“条纹”是没有兴趣的。因此在下一次向用户推荐产品时,可以通过提示窗口的方式询问用户“你是否不喜欢条纹连衣裙”如果用户确认,则所推荐的商品避免“条纹”这一关键词。
在这一步骤中,针对搜索推荐方法(历史搜索推荐还是基于商品的文本推荐、过滤推荐)等,可以利用个性化助手可以完成与用户交互的多种类型消息的生成,如上述,可以采用上下文多臂***算法(CMAB)对不同的Arm进行选择,每一个Arm对应一个消息类型,比如过滤推荐或历史搜索推荐,或基于商品的文本推荐),Arm的选择算法采用ThomsonSampling,既考虑历史行为作为先验概率,又考虑实时行为反馈作为后验概率上下文使用当前的用户个性化偏好,用以追求一个更加准确的推荐结果。
综上所述,本发明第三实施例提出一种信息搜索方法,通过获取前一场景的搜索信息,传递到后一场景,实现了下一场景下的智能搜索。
在本发明优选实施例中,通过同构化的异构图建立了不同搜索领域的搜索对象的匹配渠道,基于用户在前一场景的搜索,提供后一场景用户感兴趣的内容。在本发明可选实施例中,通过多种搜索策略,例如包含为用户选择基于历史数据推荐还是基于当下内容推荐,或者用户更加倾向于过滤推荐。这些个性化推荐的内容提高了推荐的准确度,帮助用户更好的定位自己的需求。
第四实施例
本发明第四实施例提出一种跨领域搜索方法,包括如下步骤:
S401获取用户在第一搜索领域搜索获得的第一搜索信息,所述第一搜索信息包括用户信息、用户行为轨迹和搜索词至少其中之一;
S402,当用户在第二搜索领域搜索时,根据所述第一搜索信息确定第二搜索领域可用的第二搜索信息;
S403,根据所述第二搜索信息,在第二搜索领域确定搜索结果;
其中,所述第一搜索领域和第二搜索领域具有不同的搜索对象。
上述步骤S401至S403与前一实施例的步骤S301至S303相同或相似,本实施例仅描述二者的不同之处。
在本发明一实施例中,所述步骤S402,即根据第一搜索信息确定第二搜索信息的步骤包括:
S4021,根据所述第一搜索信息的用户信息确定搜索策略;
S4022,根据确定的搜索策略,利用预设的第一搜索信息和第二搜索信息的对应关系,确定第二搜索信息;
其中,所述第二搜索信息包括搜索关键词。
在该实施例中,上述搜索策略可以是利用历史搜索数据和用户行为轨迹其中之一确定在第二搜索领域可用的搜索关键词。
在本发明一实施例中,所述搜索策略包括如下至少其中之一:
根据历史搜索数据确定第二搜索信息的搜索关键词序列;
根据用户行为轨迹确定第二搜索信息的搜索关键词序列。
所述搜索关键词还可以包括过滤关键词。
如图5所示,当接收到用户输入在第一搜索领域的第一搜索信息之后,本发明实施例提出的方案可以至少执行三种功能,一种例如是基于用户的历史最相近的搜索推荐关键词序列(例如图5中历史最相近Query),另一种是基于用户的历史行为轨迹推荐关键词序列(图5中的全新生成Query),再一种是反向推荐(图5中推荐搜索Filter),例如针对某些关键词的屏蔽。
基于用户的历史最相近的搜索推荐关键词序列的方式会在离线部分会训练好两个模型,分别是内容到关键词序列模型(图5所示的Document2Query)和关键词到关键词序列模型(图5所示的Query2Query)。这一方式需要使用过去N天的数据,内容到关键词序列模型表示在过去N天中,每个内容最相关的K个搜索内容。关键词到关键词序列模型是根据协同过滤,通过计算用户的相似度,来统计出关键词到关键词序列模型之间的相似关系。当用户有实时的关键词序列搜索行为后,可以生成一个召回池,这个召回池中包括内容到关键词序列模型和关键词到关键词序列模型的数据,通过计算召回池中的关键词序列与原始关键词序列的相似关系(采用线性加权)来选取出最相似的历史搜索。这种方式会增加搜索召回池的多样性。
在搜索策略的选择中,可以应用上下文多臂***算法(MAB)实时的判断使用哪种搜索策略的算法——即是历史搜索(图5中历史最相近Query)还是全新搜索(图5中全新生成Query),算法基于用户的实时反馈,统计用户的个性化偏好。例如,为用户推荐的内容中,10次中有8次用户采纳的是利用历史最相近关键词序列的方式推荐的内容,则认为该用户更愿意历史最相近关键词序列的方式推荐,因此可以将历史最相近关键词序列的方式提权,或者将历史最相近关键词序列方式作为向用户推荐内容的搜索方式。
在本发明一实施例中,所述步骤S402,即当用户在第二搜索领域搜索时,根据所述第一搜索信息确定第二搜索领域可用的第二搜索信息的步骤可以包括如下子步骤:
S4023,根据所述第一搜索信息的用户行为轨迹确认所述用户的目标关键词;
S4024,根据所述偏好关键词修改所述用户搜索词。
在步骤S4023和S4024中,执行主体例如服务器,可以实时统计用户搜索点击的偏好,采用逻辑回归线性加权的方式预测用户可能希望过滤的标签。在一些实施例中,当用户的行为比较稀疏,并且低于某个阈值的时候触发这个条件。例如,用户在搜索到商品A-Z中,返回的商品中有十件条纹连衣裙和十件格子连衣裙。用户对这十件条纹连衣裙都没有点击也没有收藏,停留的时间也短于格子连衣裙,因此可以判断用户对“条纹”是没有兴趣的。则可以根据用户行为轨迹确认所述用户的目标关键词,并修改用户的搜索词。在下一次向用户推荐产品时,可以通过提示窗口的方式询问用户“你是否不喜欢条纹连衣裙”如果用户确认,则所推荐的商品避免“条纹”这一关键词。
在另一实施例中,执行主体还可以实时统计用户搜索点击的偏好,确定使用者真是的意图。
例如,用户在搜索到商品A-Z中,返回的商品中有十件条纹连衣裙和十件格子连衣裙。用户对这十件条纹连衣裙中的深绿色条纹连衣裙进行了点击,对浅绿色条纹连衣裙进行了收藏,用户的停留的时间也长于格子连衣裙或者其他颜色的条纹连衣裙,因此可以判断用户对“绿色条纹”是有兴趣的。则可以根据用户行为轨迹确认所述用户的目标关键词。例如可以询问用户“你是否在找绿色条纹连衣裙?”或者根据该目标关键词“绿色条纹连衣裙”直接修改用户原先输入的关键词,返回搜索结果。
在本发明一实施例中,所述步骤S402,即当用户在第二搜索领域搜索时,根据所述第一搜索信息确定第二搜索领域可用的第二搜索信息的步骤可以包括如下子步骤:
S4025,根据所述第一搜索信息的用户行为轨迹修改所述用户各搜索词的权重。
在这一步骤中,例如当用户搜索“蓝色高腰连衣裙”时,针对“蓝色连衣裙”相关的产品的点击率远大于“高腰连衣裙”的点击率,则可以认为“蓝色”与“高腰”的权重并不相同,用户更偏重于“蓝色连衣裙”的搜索内容,因此可以将“蓝色”提权,将“高腰”降权。
在本发明一实施例中,所述方法还可以包括如下步骤:
S400,提供向量图,所述向量图包括向量化的用户信息、第一搜索领域和第二搜索领域下的搜索对象和用户行为。
在这一步骤中,第一和第二搜索领域可以是根据不同类型的搜索对象划分的搜索内容。例如,交易平台可以包括多个板块,例如可以从大类的角度划分为商品板块和内容板块。其中内容板块还可以进一步划分为视频、文字、图片、列表等等。每个板块的内容不同,因此所对应的内容可以能是商品、文本内容、音频视频内容、这些商品的搜索方式各不相同。通常来说,由于商品和内容这两种搜索对象是异构的,搜索商品和内容分别对应不同的搜索页面,和搜索方式。
在一实施例中,第一搜索领域例如为针对商品的搜索。例如交易平台的主搜页面。第二搜索领域例如为针对内容的搜索,例如各种攻略、推荐、视频等。
在一实施例中,由于第一搜索领域的商品搜索方式与第二搜索领域的内容的搜索方式不同,在这一步骤中可以将第一搜索领域中的搜索信息进行转化,使之成为适应于第二搜索领域的搜索模式的搜索信息。例如,可以利用历史数据,建立商品与内容之间的异构图,以在后续计算出商品和内容之间的相关性,从而为了后续在第二领域搜索返回搜索结果提供计算的基础。
在本实施例中,异构图可以是利用不同的搜索领域的对象、主体、行为作为边和节点,将这些信息反映在一张图中,以形成商品和商品、商品和内容、内容和内容之间的关系。异构图可以包括边和节点。节点例如包括多种商品、多个用户和多种内容。具体来说,异构图的节点可以包括各领域用户的行为节点;异构图的边可以包括用户相似关系、用户点击、收藏、购买行为。异构图的主要作用是将节点向量化。
例如,交易平台有100万用户,则可以从中采集多个用户中每一个的上述信息,形成一张庞大的异构图。例如,第一搜索领域的节点包括主搜用户,主搜用户行为所关联到的商品。边的类型包括点击、收藏、购买,以及第一搜索领域用户节点之间的相似关系。每个边的权重不同,比如购买行为的权重要大于点击行为。第二搜索领域的节点假设相较于第一搜索领域更单一一些,只包含帖子节点,用户的行为包括节点的点击,用户与用户的相似关系的边也会建立起来。第三搜索领域的节点包含四种类型,帖子、视频、清单和话题。边的类型为用户与内容节点的点击以及用户之间的相似关系。
在这一步骤中,可以对多种多样的边进行归一化,以使得表达不同类型的边和节点能够归一化,从而将异构图进行同构化。
同构化的做法可以是对该异构图的所有边建模,计算出不同类型边的距离,例如可以采用回归模型,该回归模型设置一组针对边的连接节点类型的权重(是用户购买商品还是用户点击帖子),以及边本身的类型的权重(如购买边权重大于点击边权重),计算出所有实例边的距离,将距离归一化到0和1之间。这样一来,就可以将一个异构图转化成了一个同构图。
在完成了异构图同构化之后,然后再通过现有的随机游走(Random Walk)的方式找出节点向量序列,再进行Node2Vec的工作,实现图形的向量化。因为该异构图本身是有向图,所以随机游走的时候游走的概率中包含了方向的加权。有向不只是原始的行为关联到的节点向量序列,也会将跨领域的节点向量序列关联起来,只要是在一个Session周期(例如30分钟)内就会有有向的关系。得到随机游走的节点向量序列后,接下来可以调用现有的Word2Vec模型,计算出图中节点的向量化表示。
值得注意的是,在一实施例中,用户行为轨迹可以是用户一个session内的行为,该session例如是单位时间内的用户行为序列。因此,所采集的用户行为可以是有向的,即,可以根据时间序列采集用户的先后行为(例如先点击再收藏、再购买的先后行为),所以该异构图和同构化后的异构图都可以是有向的。
在本发明一实施例中,所述步骤S400,即提供向量图的步骤可以包括如下子步骤:
S4001,获取图形数据,所述图形数据包括多个用户的用户信息,以及多个用户在第一搜索领域下和第二搜索领域下的搜索对象和用户行为;
在这一步骤中,图形生成数据即为用于生成同构化异构图的原始数据,这些数据包括用户信息——例如用户ID、根据人口学统计获得的用户的性别、年龄、购买力、偏好等一系列数据;用户的搜索对象——例如yoghurt在第一搜索领域针对某关键词获得的多个搜索对象、用户在第二搜索领域针对某关键词获得的多个搜索对象等;用户行为——包括从多个用户中的每一个获得的行为,例如点击、收藏、购买、在某个页面停留、停留时间、翻页等一系列操作。以上仅是举例说明,并不特别限制。
S4002,利用所述图形数据生成异构图,所述异构图中的节点包括用户信息和搜索对象,所述异构图的边包括用户行为;
在这一步骤中,可以分别利用前述的用户信息和各个搜索领域内的搜索对象生成异构图的节点,并利用用户行为生成异构图的边。
S4003,对所述异构图的边进行归一化处理,获得同构化异构图;
在这一步骤中,可以对异构图的边进行归一化处理,同构化的做法可以是对该异构图的所有边建模,计算出不同类型边的距离,例如可以采用回归模型,该回归模型设置一组针对边的连接节点类型的权重(是用户购买商品还是用户点击帖子),以及边本身的类型的权重(如购买边权重大于点击边权重),计算出所有实例边的距离,将距离归一化到0和1之间。这样一来,就可以将一个异构图转化成了一个同构图。
S4004,利用随机游走确定所述同构化异构图的随机游走序列;
在这一步骤中,可以通过现有的随机游走(Random Walk)的方式找出节点向量序列,因为该异构图本身是有向图,所以随机游走的时候游走的概率中包含了方向的加权。有向不只是原始的行为关联到的节点向量序列,也会将跨领域的节点向量序列关联起来,只要是在一个Session周期(例如30分钟)内就会有有向的关系。得到随机游走的节点向量序列。
S4005,将所述随机游走序列向量化。
在这一步骤中,可以进行Node2Vec的工作,实现图形的向量化。,这一步骤可以调用现有的Word2Vec模型,计算出图中节点的向量化表示。
在本发明优选实施例中,通过同构化的异构图建立了不同搜索领域的搜索对象的匹配渠道,基于用户在前一场景的搜索,提供后一场景用户感兴趣的内容。在本发明可选实施例中,通过多种搜索策略,例如包含为用户选择基于历史数据推荐还是基于当下内容推荐,或者用户更加倾向于过滤推荐。这些个性化推荐的内容提高了推荐的准确度,帮助用户更好的定位自己的需求。
第五实施例
本发明第五实施例提出一种跨领域搜索装置,如图9所示,该装置包括:
向量图提供模块501,用于提供向量图,所述向量图包括向量化的用户信息、第一搜索领域和第二搜索领域下的搜索对象和用户行为;
第一搜索信息获取模块502,用于获取用户在第一搜索领域搜索产生的第一搜索信息;所述第一搜索信息包括用户信息、用户行为轨迹和搜索词至少其中之一;
搜索对象确定模块503,用于将所述第一搜索信息向量化,利用所述向量图确定与向量化的第一搜索信息相关的搜索对象,所述搜索对象包括第一搜索领域和/或第二搜索领域下的搜索对象。
综上所述,本实施例提出的跨领域搜索装置至少具有如下优点:
本发明第一实施例提出一种跨领域搜索装置,通过建立向量图,可以计算第一搜索领域和第二搜索领域中的各搜索对象之间的关系,从而使得用户利用第一搜索领域的向量化后的搜索信息获得第二搜索领域的搜索对象。
第六实施例
本发明第六实施例提出一种跨领域搜索装置,包括:
第一搜索信息获取模块601,用于获取用户在第一搜索领域搜索获得的第一搜索信息;所述第一搜索信息包括用户信息、用户行为轨迹和搜索词至少其中之一;
第二搜索信息确定模块602,用于当用户在第二搜索领域搜索时,根据所述第一搜索信息确定第二搜索领域可用的第二搜索信息;
搜索结果确定模块603,用于根据所述第二搜索信息,在第二搜索领域确定搜索结果;
其中,所述第一搜索领域和第二搜索领域具有不同的搜索对象。
本发明第六实施例提出一种信息搜索装置,通过获取前一场景的搜索信息,传递到后一场景,实现了下一场景下的智能搜索。
在本发明优选实施例中,通过同构化的异构图建立了不同搜索领域的搜索对象的匹配渠道,基于用户在前一场景的搜索,提供后一场景用户感兴趣的内容。在本发明可选实施例中,通过多种搜索策略,例如包含为用户选择基于历史数据推荐还是基于当下内容推荐,或者用户更加倾向于过滤推荐。这些个性化推荐的内容提高了推荐的准确度,帮助用户更好的定位自己的需求。
第七实施例
图11是本申请第七实施例的一种搜索对象确定方法的流程图,如图11所示,该方法包括如下步骤:
S701,提供向量图,所述向量图包括向量化的多个搜索对象和多个用户的用户行为;
在一实施例中,搜索领域例如为针对商品的搜索,或者针对内容的搜索,例如各种攻略、推荐、视频等。因此搜索对象可以为商品或者内容,或者二者的综合等。
在一实施例中,由于不同搜索领域的搜索方式不同,可以利用历史数据,建立不同搜索对象之间的同构图或者异构图,以在后续计算出不同搜索对象之间的相关性,从而为了后续根据匹配的用户行为确定搜索对象提供计算的基础。
在本实施例中,如果搜索对象是同一类型,则可以建立同构图。同构图中的节点可以为用户和搜索对象,边可以为用户行为。
如果搜索对象不是同一类型,则可以建立异构图。异构图可以是利用不同的搜索领域的对象、主体、行为作为边和节点,将这些信息反映在一张图中,以形成商品和商品、商品和内容、内容和内容之间的关系。
异构图可以包括边和节点。节点例如包括多种商品、多个用户和多种内容。具体来说,异构图的节点可以包括各领域用户的行为节点;异构图的边可以包括用户相似关系、用户点击、收藏、购买行为。异构图的主要作用是将节点向量化。
例如,交易平台有100万用户,则可以从中采集多个用户中每一个的上述信息,形成一张庞大的异构图。例如,第一搜索领域的节点包括主搜用户,主搜用户行为所关联到的商品。边的类型包括点击、收藏、购买,以及第一搜索领域用户节点之间的相似关系。每个边的权重不同,比如购买行为的权重要大于点击行为。第二搜索领域的节点假设相较于第一搜索领域更单一一些,只包含帖子节点,用户的行为包括节点的点击,用户与用户的相似关系的边也会建立起来。第三搜索领域的节点包含四种类型,帖子、视频、清单和话题。边的类型为用户与内容节点的点击以及用户之间的相似关系。
在这一步骤中,可以对多种多样的边进行归一化,以使得表达不同类型的边和节点能够归一化,从而将异构图进行同构化。
同构化的做法可以是对该异构图的所有边建模,计算出不同类型边的距离,例如可以采用回归模型,该回归模型设置一组针对边的连接节点类型的权重(是用户购买商品还是用户点击帖子),以及边本身的类型的权重(如购买边权重大于点击边权重),计算出所有实例边的距离,将距离归一化到0和1之间。这样一来,就可以将一个异构图转化成了一个同构图。
在完成了异构图同构化之后,然后再通过现有的随机游走(Random Walk)的方式找出节点向量序列,再进行Node2Vec的工作,实现图形的向量化。因为该异构图本身是有向图,所以随机游走的时候游走的概率中包含了方向的加权。有向不只是原始的行为关联到的节点向量序列,也会将跨领域的节点向量序列关联起来,只要是在一个Session周期(例如30分钟)内就会有有向的关系。得到随机游走的节点向量序列后,接下来可以调用现有的Word2Vec模型,计算出图中节点的向量化表示。Word2Vec是一种将自然语言中的字词转化为计算机可以理解的稠密的向量的模型,其可以优化One-Hot Encoder所带来的高纬度及稀疏的隐患,在此不再赘述。
值得注意的是,在一实施例中,用户行为轨迹可以是用户一个session内的行为,该session例如是单位时间内的用户行为序列。因此,所采集的用户行为可以是有向的,即,可以根据时间序列采集用户的先后行为(例如先点击再收藏、再购买的先后行为),所以该异构图和同构化后的异构图都可以是有向的,有向的意义在于,当用户从某一个关键词发起搜索,点击某一个链接,实施了购买行为之后,用户的这些操作在异构图中均是有方向性的,例如从该关键词指向该链接。
S702,获取当前用户产生的实时用户行为;
在这一步骤中,当当前用户在搜索领域搜索信息时,服务器可以获取用户的实时用户行为,该实时用户行为例如是用户本次操作产生的用户行为,一次操作可以认为是在一个session内,例如是用户在此刻开始倒推的到指定的一段时间(例如30分钟之内)的点击、搜索、查找、收藏之类的信息。这些信息例如是从用户实时的行为轨迹中获得的。
例如,例如用户在搜索领域的界面搜索的商品的关键词为“蓝色连衣裙”,搜索领域的搜索引擎根据该搜索词返回多个商品。用户在浏览商品A-Z的过程中,点击了A、D、F、J,收藏了A和J。其中A、D、F三个商品的标签均为“蓝色”“连衣裙”“格子”。J的标签为“蓝色”“连衣裙”。
在这个过程中,服务器记录的当前用户的实时用户行为包括:
用户浏览的商品——例如用户浏览了前两个页商品信息,A到Z共26个商品。
用户点击的商品及标签——A、D、F、J,及这些商品各自的标签。
用户收藏的商品及标签——A、J,及这两个商品各自的标签。
在这一步骤中,服务器可以将该实时用户行为上传到存储数据库,由数据库进行保存。
S703,将所述实时用户行为向量化,利用所述向量图中的向量化的用户行为与所述向量化的实时用户行为的匹配关系,从所述多个搜索对象中确定与所述向量化的所述用户行为匹配的搜索对象;
其中,所述实时用户行为包括翻页行为、点击行为、浏览行为、收藏行为、购买行为至少其中之一。
在这一步骤中,可以利用所述向量图中的向量化的用户行为与所述向量化的实时用户行为的匹配关系,从所述多个搜索对象中确定与所述向量化的所述用户行为匹配的搜索对象
在这一步骤中,可以实时用户行为向量化,并将之与向量图中的向量序列进行比较,通过计算余弦相似度的方法,计算出向量化后的实时用户行为与向量图图中节点的相似程度,上述的相似程度可以认为是用户当前的行为序列与该向量图中节点或区域的相似程度。
例如,根据用户在搜索领域实时产生的用户行为序列,在同构化异构图中查找与之相似的历史用户行为序列,从而确定与实时用户行为相关的搜索对象。这一搜索对象可以包括向量图中相似度高的各种搜索对象,例如商品、内容、旅游信息、视频等等。
在一可选实施例中,所述方法还包括:
S704,将所述匹配的搜索对象发送至客户端。
本发明第七实施例提出的搜索对象确定方法中,利用用户的实时用户行为与所构建的向量图中的向量化后的多个用户的用户行为做比对,确定出匹配的搜索对象,发送至客户端。本发明实施例的技术效果至少在于,根据用户的实时用户行为判断用户的意图,与向量图中历史用户的历史用户行为进行比对,从而判断出用户需要的搜索对象,并返回展示给用户。本发明根据用户行为轨迹挖掘用户的潜在需求,实现了个性化的搜索,提高了搜索的准确性。
第八实施例
图12是本申请第八实施例的一种搜索关键词确定方法的流程图,如图12所示,该方法包括如下步骤:
S801,提供向量图,所述向量图包括向量化的多个搜索对象、多个用户的用户行为、以及多个搜索关键词;
在一实施例中,搜索领域例如为针对商品的搜索,或者针对内容的搜索,例如各种攻略、推荐、视频等。因此搜索对象可以为商品或者内容,或者二者的综合等。
在一实施例中,由于不同搜索领域的搜索方式不同,可以利用历史数据,建立不同搜索对象之间的同构图或者异构图,以在后续计算出不同搜索对象之间的相关性,从而为了后续根据匹配的用户行为和关键词确定搜索对象提供计算的基础。
在本实施例中,如果搜索对象是同一类型,则可以建立同构图。同构图中的节点可以为用户和搜索对象,边可以为用户行为。
如果搜索对象不是同一类型,则可以建立异构图。异构图可以是利用不同的搜索领域的对象、主体、行为作为边和节点,将这些信息反映在一张图中,以形成商品和商品、商品和内容、内容和内容之间的关系。
异构图可以包括边和节点。节点例如包括多种商品、多个用户和多种内容。具体来说,异构图的节点可以包括各领域用户的行为节点;异构图的边可以包括用户相似关系、用户点击、收藏、购买行为。异构图的主要作用是将节点向量化。
例如,交易平台有100万用户,则可以从中采集多个用户中每一个的上述信息,形成一张庞大的异构图。例如,第一搜索领域的节点包括主搜用户,主搜用户行为所关联到的商品。边的类型包括点击、收藏、购买,以及第一搜索领域用户节点之间的相似关系。每个边的权重不同,比如购买行为的权重要大于点击行为。第二搜索领域的节点假设相较于第一搜索领域更单一一些,只包含帖子节点,用户的行为包括节点的点击,用户与用户的相似关系的边也会建立起来。第三搜索领域的节点包含四种类型,帖子、视频、清单和话题。边的类型为用户与内容节点的点击以及用户之间的相似关系。
在这一步骤中,可以对多种多样的边进行归一化,以使得表达不同类型的边和节点能够归一化,从而将异构图进行同构化。
同构化的做法可以是对该异构图的所有边建模,计算出不同类型边的距离,例如可以采用回归模型,该回归模型设置一组针对边的连接节点类型的权重(是用户购买商品还是用户点击帖子),以及边本身的类型的权重(如购买边权重大于点击边权重),计算出所有实例边的距离,将距离归一化到0和1之间。这样一来,就可以将一个异构图转化成了一个同构图。
在完成了异构图同构化之后,然后再通过现有的随机游走(Random Walk)的方式找出节点向量序列,再进行Node2Vec的工作,实现图形的向量化。
值得注意的是,在一实施例中,用户行为轨迹可以是用户一个session内的行为,该session例如是单位时间内的用户行为序列。因此,所采集的用户行为可以是有向的,即,可以根据时间序列采集用户的先后行为(例如先点击再收藏、再购买的先后行为),所以该异构图和同构化后的异构图都可以是有向的,有向的意义在于,当用户从某一个关键词发起搜索,点击某一个链接,实施了购买行为之后,用户的这些操作在异构图中均是有方向性的,例如从该关键词指向该链接。
S802,获取当前用户产生的实时搜索关键词和实时用户行为;
在这一步骤中,当当前用户在搜索领域搜索信息时,服务器可以获取用户的实时用户行为和当前搜索的关键词,该实时用户行为例如是用户本次操作产生的用户行为,一次操作可以认为是在一个session内,例如是用户在此刻开始倒推的到指定的一段时间(例如30分钟之内)的点击、搜索、查找、收藏之类的信息。这些信息例如是从用户实时的行为轨迹中获得的。
例如,例如用户在搜索领域的界面搜索的商品的关键词为“蓝色连衣裙”,搜索领域的搜索引擎根据该搜索词返回多个商品。用户在浏览商品A-Z的过程中,点击了A、D、F、J,收藏了A和J。其中A、D、F三个商品的标签均为“蓝色”“连衣裙”“格子”。J的标签为“蓝色”“连衣裙”。
在这个过程中,服务器记录的当前用户的实时用户行为包括:
用户关键词——蓝色连衣裙。
用户浏览的商品——例如用户浏览了前两个页商品信息,A到Z共26个商品。
用户点击的商品及标签——A、D、F、J,及这些商品各自的标签。
用户收藏的商品及标签——A、J,及这两个商品各自的标签。
在这一步骤中,服务器可以将该实时用户行为和关键词上传到存储数据库,由数据库进行保存。
S803,将所述实时搜索关键词和实时用户行为向量化,利用所述向量图中的向量化的用户行为和搜索关键词与所述向量化的实时用户行为和搜索关键词的匹配关系,确定与所述实时用户行为对应的目标关键词;
所述实时用户行为包括翻页行为、点击行为、浏览行为、收藏行为、购买行为至少其中之一。
在这一步骤中,可以利用所述向量图中的向量化的用户行为和关键词与所述向量化的实时用户行为和关键词的匹配关系,从所述多个搜索对象中确定与所述向量化的所述用户行为和关键词匹配的目标关键词。
在这一步骤中,可以通过计算余弦相似度的方法,计算出向量化后的实时用户行为和关键词与向量图图中节点的相似程度,上述的相似程度可以认为是用户当前的行为序列与该向量图中节点或区域的相似程度。
例如,根据用户在搜索领域实时产生的用户行为序列,在同构化异构图中查找与之相似的历史用户行为序列和关键词,从而确定与实时用户行为相关的目标关键词。这一目标关键词可以为使用者真实想搜索的关键词,是使用者的潜在需求。
在一可选实施例中,所述方法还可以包括:
利用所述向量图和所述目标关键词确定对应的搜索对象;
将所述目标关键词发送至客户端;或者
利用所述目标关键词修正所述实时搜索关键词。
在可选实施例中,根据目标关键词和向量图的匹配关系,可以确定目标关键词对应的搜索对象。或者,可以将目标关键词发送至客户端,询问用户是否需要想搜索的是该目标关键词。或者,可以直接利用目标关键词修正实时搜索的关键词,返回搜索结果。
本发明实施例提出的方法中,可以挖掘用户潜在希望搜索的目标关键词,提高了搜索的准确率。
第九实施例
本发明第九实施例提出一种搜索对象确定装置,如图13所示,该装置可以包括:
向量图提供模块901,用于提供向量图,所述向量图包括向量化的多个搜索对象和多个用户的用户行为;
实时用户行为获取模块902,用于获取当前用户产生的实时用户行为;
搜索对象确定模块903,用于将所述实时用户行为向量化,利用所述向量图中的向量化的用户行为与所述向量化的实时用户行为的匹配关系,从所述多个搜索对象中确定与所述向量化的所述用户行为匹配的搜索对象;
其中,所述实时用户行为包括翻页行为、点击行为、浏览行为、收藏行为、购买行为至少其中之一。
本发明第七实施例提出的搜索对象确定方法中,利用用户的实时用户行为与所构建的向量图中的向量化后的多个用户的用户行为做比对,确定出匹配的搜索对象,发送至客户端。本发明实施例的技术效果至少在于,根据用户的实时用户行为判断用户的意图,与向量图中历史用户的历史用户行为进行比对,从而判断出用户需要的搜索对象,并返回展示给用户。本发明根据用户行为轨迹挖掘用户的潜在需求,实现了个性化的搜索,提高了搜索的准确性。
第十实施例
本发明第十实施例提出一种搜索关键词确定装置,如图13所示,该装置可以包括:包括:
向量图提供模块1001,用于提供向量图,所述向量图包括向量化的多个搜索对象、多个用户的用户行为、以及多个搜索关键词;
获取模块1002,用于获取当前用户产生的实时搜索关键词和实时用户行为;
目标关键词确定模块1003,用于将所述实时搜索关键词和实时用户行为向量化,利用所述向量图中的向量化的用户行为和搜索关键词与所述向量化的实时用户行为和搜索关键词的匹配关系,确定与所述实时用户行为对应的目标关键词;
所述实时用户行为包括翻页行为、点击行为、浏览行为、收藏行为、购买行为至少其中之一。
本发明实施例提出的方法中,可以挖掘用户潜在希望搜索的目标关键词,提高了搜索的准确率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
图15为本申请一实施例提供的计算处理设备的硬件结构示意图。如图15所示,该计算处理设备可以包括输入设备90、处理器91、输出设备92、存储器93和至少一个通信总线94。通信总线94用于实现元件之间的通信连接。存储器93可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,存储器93中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述处理器91例如可以为中央处理器(Central Processing Unit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该处理器91通过有线或无线连接耦合到上述输入设备90和输出设备92。
可选的,上述输入设备90可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件***接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;可选的,上述收发信机可以是具有通信功能的射频收发芯片、基带处理芯片以及收发天线等。麦克风等音频输入设备可以接收语音数据。输出设备92可以包括显示器、音响等输出设备。
在本实施例中,该计算处理设备的处理器包括用于执行各设备中数据处理装置各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图16为本申请另一实施例提供的计算处理设备的硬件结构示意图。图16是对图15在实现过程中的一个具体的实施例。如图16所示,本实施例的计算处理设备包括处理器101以及存储器102。
处理器101执行存储器102所存放的计算机程序代码,实现上述实施例中图1至图8的跨领域搜索方法。
存储器102被配置为存储各种类型的数据以支持在计算处理设备的操作。这些数据的示例包括用于在计算处理设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。存储器102可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,处理器101设置在处理组件100中。该计算处理设备还可以包括:通信组件103,电源组件104,多媒体组件105,音频组件106,输入/输出接口107和/或传感器组件108。计算处理设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件100通常控制计算处理设备的整体操作。处理组件100可以包括一个或多个处理器101来执行指令,以完成上述图1至图8方法的全部或部分步骤。此外,处理组件100可以包括一个或多个模块,便于处理组件100和其他组件之间的交互。例如,处理组件100可以包括多媒体模块,以方便多媒体组件105和处理组件100之间的交互。
电源组件104为计算处理设备的各种组件提供电力。电源组件104可以包括电源管理***,一个或多个电源,及其他与为计算处理设备生成、管理和分配电力相关联的组件。
多媒体组件105包括在计算处理设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
音频组件106被配置为输出和/或输入音频信号。例如,音频组件106包括一个麦克风(MIC),当计算处理设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组件103发送。在一些实施例中,音频组件106还包括一个扬声器,用于输出音频信号。
输入/输出接口107为处理组件100和***接口模块之间提供接口,上述***接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件108包括一个或多个传感器,用于为计算处理设备提供各个方面的状态评估。例如,传感器组件108可以检测到计算处理设备的打开/关闭状态,组件的相对定位,用户与计算处理设备接触的存在或不存在。传感器组件108可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与计算处理设备间的距离。在一些实施例中,该传感器组件108还可以包括摄像头等。
通信组件103被配置为便于计算处理设备和其他设备之间有线或无线方式的通信。计算处理设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该计算处理设备中可以包括SIM卡插槽,该SIM卡插槽用于***SIM卡,使得计算处理设备可以登录GPRS网络,通过互联网与服务端建立通信。
由上可知,在图16实施例中所涉及的通信组件103、音频组件106以及输入/输出接口107、传感器组件108均可以作为图15实施例中的输入设备的实现方式。
本申请实施例提供了一种计算处理设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述计算处理设备执行如本申请实施例中一个或多个所述的方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者计算处理设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者计算处理设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者计算处理设备中还存在另外的相同要素。
以上对本申请所提供的一种跨领域搜索方法和跨领域搜索装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (11)
1.一种跨领域搜索方法,包括:
提供向量图,所述向量图包括经过向量化的多个用户信息、第一搜索领域和第二搜索领域下的多个搜索对象和多个用户的用户行为;
获取当前用户在第一搜索领域搜索产生的第一搜索信息;所述第一搜索信息包括当前用户的用户信息、用户行为轨迹和搜索词至少其中之一;
将所述第一搜索信息向量化,利用所述向量图确定与向量化的第一搜索信息相关的搜索对象,所述搜索对象包括第一搜索领域和第二搜索领域下的搜索对象;
所述方法还包括:
利用第一搜索领域和第二搜索领域中的搜索对象和用户行为生成向量图;
其中,所述利用第一搜索领域和第二搜索领域中的搜索对象和用户行为生成向量图的步骤包括:
获取图形生成数据,所述图形生成数据包括多个用户的用户信息,以及多个用户在第一搜索领域下和第二搜索领域下的搜索对象和用户行为;
利用所述图形生成数据生成异构图,所述异构图中的节点包括用户信息和搜索对象,所述异构图的边包括用户行为;
对所述异构图的边进行归一化处理,获得同构化异构图;
利用随机游走确定所述同构化异构图的随机游走序列;
将所述随机游走序列向量化;
所述对所述异构图的边进行归一化处理,获得同构化异构图的步骤包括:
提供回归模型,所述回归模型的参数包括同构化异构图的节点对应的权重,以及边对应的权重;
利用所述回归模型计算节点之间的边的距离;
将所计算出的边的距离进行归一化。
2.根据权利要求1所述的方法,其中,所述将所述第一搜索信息向量化,利用所述向量图确定与向量化的第一搜索信息相关的搜索对象的步骤之后,所述方法还包括:
从所确定的搜索对象中获取第一关键词序列;
通过序列到序列模型,根据所述第一关键词序列确定对应的第二关键词序列。
3.根据权利要求2所述的方法,其中,所述方法还包括:
根据历史数据生成第三关键词序列;
根据搜索策略从所述第二关键词序列和第三关键词序列中确定搜索关键词序列;
其中所述第三关键词序列是根据与第一关键词序列相映射的关键词序列以及与第二搜索领域的搜索对象相映射的关键词序列获得的历史相似关键词序列。
4.根据权利要求1所述的方法,其中,所述将所述第一搜索信息向量化,利用所述向量图确定与向量化的第一搜索信息相关的搜索对象的步骤之后,所述方法还包括:
从所确定的搜索对象中获取第一关键词序列;
通过序列到序列模型,根据所述第一关键词序列确定对应的旅游产品信息。
5.根据权利要求1所述的方法,其中,所述将所述第一搜索信息向量化,利用所述向量图确定与向量化的第一搜索信息相关的搜索对象的步骤之后,所述方法还包括:
从所确定的搜索对象中获取第一关键词序列;
根据所述第一搜索信息的用户行为轨迹确认所述用户的目标关键词;
根据偏好关键词修改所述第一关键词序列。
6.根据权利要求1所述的方法,其中,所述第一搜索领域和第二搜索领域的搜索对象包括商品信息和内容信息至少其中之一。
7.根据权利要求6所述的方法,其特征在于,所述内容信息包括:音频信息、视频信息、图片信息、文本信息至少其中之一。
8.根据权利要求6所述的方法,其特征在于,所述商品信息包括旅游商品信息。
9.一种跨领域搜索装置,包括:
向量图提供模块,用于提供向量图,所述向量图包括向量化的用户信息、第一搜索领域和第二搜索领域下的搜索对象和用户行为;
第一搜索信息获取模块,用于获取用户在第一搜索领域搜索产生的第一搜索信息;所述第一搜索信息包括用户信息、用户行为轨迹和搜索词至少其中之一;
搜索对象确定模块,用于将所述第一搜索信息向量化,利用所述向量图确定与向量化的第一搜索信息相关的搜索对象,所述搜索对象包括第一搜索领域和第二搜索领域下的搜索对象;
所述装置还用于:
获取图形生成数据,所述图形生成数据包括多个用户的用户信息,以及多个用户在第一搜索领域下和第二搜索领域下的搜索对象和用户行为;
利用所述图形生成数据生成异构图,所述异构图中的节点包括用户信息和搜索对象,所述异构图的边包括用户行为;
提供回归模型,所述回归模型的参数包括同构化异构图的节点对应的权重,以及边对应的权重;
利用所述回归模型计算节点之间的边的距离;
将所计算出的边的距离进行归一化,获得同构化异构图;
利用随机游走确定所述同构化异构图的随机游走序列;
将所述随机游走序列向量化。
10.一种计算处理设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述计算处理设备执行如权利要求1-9中一个或多个所述的方法。
11.一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得计算处理设备执行如权利要求1-9中一个或多个所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811014185.6A CN110879863B (zh) | 2018-08-31 | 2018-08-31 | 跨领域搜索方法和跨领域搜索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811014185.6A CN110879863B (zh) | 2018-08-31 | 2018-08-31 | 跨领域搜索方法和跨领域搜索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110879863A CN110879863A (zh) | 2020-03-13 |
CN110879863B true CN110879863B (zh) | 2023-04-18 |
Family
ID=69726981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811014185.6A Active CN110879863B (zh) | 2018-08-31 | 2018-08-31 | 跨领域搜索方法和跨领域搜索装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110879863B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836085A (zh) * | 2021-02-08 | 2021-05-25 | 深圳市欢太科技有限公司 | 一种权重调整方法及装置、存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021849A (zh) * | 2006-09-14 | 2007-08-22 | 浙江大学 | 基于内容相关性的跨媒体检索方法 |
CN101894170A (zh) * | 2010-08-13 | 2010-11-24 | 武汉大学 | 基于语义关联网络的跨模信息检索方法 |
CN102693316A (zh) * | 2012-05-29 | 2012-09-26 | 中国科学院自动化研究所 | 基于线性泛化回归模型的跨媒体检索方法 |
CN104199826A (zh) * | 2014-07-24 | 2014-12-10 | 北京大学 | 一种基于关联分析的异构媒体相似性计算方法和检索方法 |
CN105930382A (zh) * | 2016-04-14 | 2016-09-07 | 严进龙 | 一种用2d图片搜索3d模型的方法 |
CN106095829A (zh) * | 2016-06-01 | 2016-11-09 | 华侨大学 | 基于深度学习与一致性表达空间学习的跨媒体检索方法 |
CN107562761A (zh) * | 2016-06-30 | 2018-01-09 | 阿里巴巴集团控股有限公司 | 一种信息推送方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7849104B2 (en) * | 2007-03-01 | 2010-12-07 | Microsoft Corporation | Searching heterogeneous interrelated entities |
-
2018
- 2018-08-31 CN CN201811014185.6A patent/CN110879863B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021849A (zh) * | 2006-09-14 | 2007-08-22 | 浙江大学 | 基于内容相关性的跨媒体检索方法 |
CN101894170A (zh) * | 2010-08-13 | 2010-11-24 | 武汉大学 | 基于语义关联网络的跨模信息检索方法 |
CN102693316A (zh) * | 2012-05-29 | 2012-09-26 | 中国科学院自动化研究所 | 基于线性泛化回归模型的跨媒体检索方法 |
CN104199826A (zh) * | 2014-07-24 | 2014-12-10 | 北京大学 | 一种基于关联分析的异构媒体相似性计算方法和检索方法 |
CN105930382A (zh) * | 2016-04-14 | 2016-09-07 | 严进龙 | 一种用2d图片搜索3d模型的方法 |
CN106095829A (zh) * | 2016-06-01 | 2016-11-09 | 华侨大学 | 基于深度学习与一致性表达空间学习的跨媒体检索方法 |
CN107562761A (zh) * | 2016-06-30 | 2018-01-09 | 阿里巴巴集团控股有限公司 | 一种信息推送方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110879863A (zh) | 2020-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111061946B (zh) | 场景化内容推荐方法、装置、电子设备及存储介质 | |
US10783361B2 (en) | Predictive analysis of target behaviors utilizing RNN-based user embeddings | |
Dao et al. | A novel recommendation model of location-based advertising: Context-Aware Collaborative Filtering using GA approach | |
CN104199896B (zh) | 基于特征分类的视频相似度确定及视频推荐方法 | |
CN112000819B (zh) | 多媒体资源推荐方法、装置、电子设备及存储介质 | |
CN104239408B (zh) | 基于由移动设备记录的图像的内容的数据访问 | |
KR102472572B1 (ko) | 사용자 의도 프로파일링 방법 및 이를 위한 장치 | |
US10198635B2 (en) | Systems and methods for associating an image with a business venue by using visually-relevant and business-aware semantics | |
Xu et al. | Integrated collaborative filtering recommendation in social cyber-physical systems | |
CN108446964B (zh) | 一种基于移动流量dpi数据的用户推荐方法 | |
CN110348930A (zh) | 业务对象数据处理方法、业务对象信息的推荐方法和装置 | |
Gao et al. | Mining human mobility in location-based social networks | |
CN112907334B (zh) | 一种对象推荐方法及装置 | |
US11250039B1 (en) | Extreme multi-label classification | |
CN112241489A (zh) | 信息推送方法、装置、可读存储介质和计算机设备 | |
CN110457339A (zh) | 数据搜索方法及装置、电子设备、存储介质 | |
CN116894711A (zh) | 商品推荐理由生成方法及其装置、电子设备 | |
CN110096609A (zh) | 房源搜索方法、装置、设备及计算机可读存储介质 | |
CN110879863B (zh) | 跨领域搜索方法和跨领域搜索装置 | |
CN115358807A (zh) | 物品的推荐方法和装置、存储介质及电子设备 | |
CN116956183A (zh) | 多媒体资源推荐方法、模型训练方法、装置及存储介质 | |
CN111787042A (zh) | 用于推送信息的方法和装置 | |
CN112035740B (zh) | 项目使用时长预测方法、装置、设备及存储介质 | |
CN115618126A (zh) | 搜索处理方法、***、计算机可读存储介质及计算机设备 | |
CN111460300B (zh) | 网络内容推送方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |