CN114969486B - 语料推荐方法、装置、设备及存储介质 - Google Patents

语料推荐方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114969486B
CN114969486B CN202210919856.3A CN202210919856A CN114969486B CN 114969486 B CN114969486 B CN 114969486B CN 202210919856 A CN202210919856 A CN 202210919856A CN 114969486 B CN114969486 B CN 114969486B
Authority
CN
China
Prior art keywords
corpus
candidate
personalized
search
sorted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210919856.3A
Other languages
English (en)
Other versions
CN114969486A (zh
Inventor
朱运
冯伟超
乔建秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210919856.3A priority Critical patent/CN114969486B/zh
Publication of CN114969486A publication Critical patent/CN114969486A/zh
Application granted granted Critical
Publication of CN114969486B publication Critical patent/CN114969486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Accounting & Taxation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Finance (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言领域,揭露一种语料推荐方法,包括:根据用户的行为数据将搜索语料集、热门语料集及个性化语料集分别进行召回,得到候选搜索语料集、候选热门语料集及候选个性化语料集;将候选搜索语料集、候选热门语料集及候选个性化语料集分别进行排序,并将排序后的排序搜索语料集、排序热门语料集及排序个性化语料集分别进行重排,得到重排待推荐语料集,从行为数据中识别用户的点击事件,并根据点击事件将重排待推荐语料推送至用户。本发明还涉及一种区块链技术,重排待推荐语料集可存储在区块链节点中。本发明还提出一种语料推荐装置、设备以及介质。本发明可以提高语料推荐的效率及准确率。

Description

语料推荐方法、装置、设备及存储介质
技术领域
本发明涉及自然语言领域,尤其涉及一种语料推荐方法、装置、设备及存储介质。
背景技术
当前,随着大数据平台的不断发展,客户可以选择的消费平台也越来越多,一些电商平台及保险平台为了进行客户流量维护,通过为用户推荐平台的相关语料增加用户与平台的互动,且传统的语料推荐方法通常根据用户需求针对平台的不同推荐位置分别进行开发。
但是,这种方法在为用户推荐语料时,由于每个推荐位置的开发过程不一样,需要针对不同推荐位置进行开发及维护,耗费大量时间,使得语料推荐的效率比较低;进一步地,由于用户群体的多样化,每类用户对信息的需求是不同的,这种方法没有根据用户的需求区别对待,存在大量无关的语料推荐,不仅对用户造成骚扰,还导致语料推荐的准确率较低。
发明内容
本发明提供一种语料推荐方法、装置、设备及存储介质,其主要目的是提高语料推荐的效率及准确率。
为实现上述目的,本发明提供了一种语料推荐方法,包括:
获取待推荐语料集,其中,所述待推荐语料集包括搜索语料集、热门语料集及个性化语料集;
获取用户的行为数据,根据所述行为数据将所述搜索语料集、所述热门语料集及所述个性化语料集分别进行召回,得到候选搜索语料集、候选热门语料集及候选个性化语料集;
将所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集分别进行排序,得到排序搜索语料集、排序热门语料集及排序个性化语料集;
基于所述行为数据将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集分别进行重排,得到重排待推荐语料集,并从所述行为数据中识别用户的点击事件,并根据所述点击事件将所述重排待推荐语料推送至所述用户。
可选地,所述根据所述行为数据将所述搜索语料集、所述热门语料集及所述个性化语料集分别进行召回,得到候选搜索语料集、候选热门语料集及候选个性化语料集,包括:
根据所述行为数据获取用户输入的查询词,从所述搜索语料集选取与所述查询词联系紧密的语料作为候选搜索语料集;
从所述热门语料集选取历史热门语料集,根据预设的时间衰减系数将所述历史热门语料集进行加权计算,得到所述候选热门语料集;
利用预设的双塔语料模型将所述行为数据及所述个性化语料集进行向量召回,得到所述候选个性化语料集。
可选地,所述从所述搜索语料集选取与所述查询词相关联的语料作为候选搜索语料集,包括:
构建所述搜索语料集与所述查询词的查询链接图;
根据所述查询链接图从所述搜索语料集选取与所述查询词相关联的语料作为候选搜索语料集。
可选地,所述利用预设的双塔语料模型将所述行为数据及所述个性化语料集进行向量召回,得到所述候选个性化语料集,包括:
利用所述双塔语料模型中的用户网络层提取所述行为数据的行为特征,并将所述行为特征进行编码,得到用户特征向量;
利用所述双塔语料模型中的语料网络层提取所述个性化语料集的个性化语料特征,并将所述个性化语料特征进行编码,得到个性化语料特征向量;
计算所述用户特征向量及所述个性化语料特征向量的相似度,根据所述相似度从所述个性化语料集中选取与所述行为特征相关的语料作为所述候选个性化语料集。
可选地,所述将所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集分别进行排序,得到排序搜索语料集、排序热门语料集及排序个性化语料集,包括:
利用预设的语料排序模型分别提取行为数据及所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集的特征,得到行为特征、候选搜索语料特征、候选热门语料特征及候选个性化语料特征;
利用所述语料排序模型中的线性网络层将所述行为特征、所述候选搜索语料特征、所述候选热门语料特征及所述候选个性化语料特征进行第一预测排序,得到第一预测排序语料集;
利用所述语料排序模型中的深度神经网络层将所述行为特征、所述候选搜索语料特征、所述候选热门语料特征及所述候选个性化语料特征进行第二预测排序,得到第二预测排序语料集;
利用所述语料排序模型中的激活函数将所述第一预测排序语料集与所述第二预测排序语料集进行最终排序,得到所述排序搜索语料集、所述排序热门语料集及所述排序个性化语料集。
可选地,所述基于所述行为数据将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集分别进行重排,得到重排待推荐语料集,包括:
分别计算所述行为数据与所述排序搜索语料集、排序热门语料集及所述排序个性化语料集中每个语料的分数;
根据所述分数将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集进行全局重排,得到所述重排待推荐语料集。
可选地,所述获取待推荐语料集之后,所述方法还包括:
删除所述待推荐语料集中的异常数据,得到初始待推荐语料集;
删除所述初始待推荐语料集中的重复数据,得到清洗后的待推荐语料集。
为了解决上述问题,本发明还提供一种语料推荐装置,所述装置包括:
语料获取模块,用于获取待推荐语料集,其中,所述待推荐语料集包括搜索语料集、热门语料集及个性化语料集;
语料召回模块,用于获取用户的行为数据,根据所述行为数据将所述搜索语料集、所述热门语料集及所述个性化语料集分别进行召回,得到候选搜索语料集、候选热门语料集及候选个性化语料集;
语料排序模块,用于将所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集分别进行排序,得到排序搜索语料集、排序热门语料集及排序个性化语料集;
语料推荐模块,用于基于所述行为数据将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集分别进行重排,得到重排待推荐语料集,并从所述行为数据中识别用户的点击事件,并根据所述点击事件将所述重排待推荐语料推送至所述用户。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个计算机程序;及
处理器,执行所述存储器中存储的计算机程序以实现上述所述的语料推荐方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的语料推荐方法。
本发明实施例中,首先通过根据行为数据将搜索语料集、热门语料集及个性化语料集分别进行召回,得到候选搜索语料集、候选热门语料集及候选个性化语料集,可以针对不同的语料推荐类型选择合适召回操作,无需针对不同推荐位置进行开发及维护,提高语料推荐的效率;其次,通过将候选搜索语料集、候选热门语料集及候选个性化语料集分别进行排序,可以基于用户兴趣获取与用户关联更加密切的语料,避免无关语料的推荐,提高语料推荐的准确率;最后通过基于所述行为数据将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集分别进行重排,并识别用户的点击事件,根据所述点击事件将所述重排待推荐语料集推送至所述用户,可以将用户点击过的语料优先推送至用户,进一步提高语料推荐的效率及准确率。因此本发明实施例提出的语料推荐方法、装置、设备及存储介质可以提高语料推荐的效率及准确率。
附图说明
图1为本发明一实施例提供的语料推荐方法的流程示意图;
图2为图1的语料推荐方法中一个步骤的详细流程示意图;
图3为图1的语料推荐方法中另一个步骤的详细流程示意图;
图4为本发明一实施例提供的语料推荐装置的模块示意图;
图5为本发明一实施例提供的实现语料推荐方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供一种语料推荐方法。所述语料推荐方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述语料推荐方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示的本发明一实施例提供的语料推荐方法的流程示意图,在本发明实施例中,所述语料推荐方法包括以下步骤S1-S4:
S1、获取待推荐语料集,其中,所述待推荐语料集包括搜索语料集、热门语料集及个性化语料集。
本发明实施例中,所述待推荐语料集是指推荐给用户的与客户端平台相关的文本信息,比如,产品上线信息、热门搜索词条信息及产品售后客服联系信息等。
本发明实施例中,所述待推荐语料集包括搜索语料集、热门语料集及个性化语料集,其中,所述搜索语料集是指基于用户搜索的关键词待推荐给用户的语料集;所述热门语料集是指用户在客户端平台上搜索最多的热门推荐语料集,比如热门产品排行榜;所述个性化语料集是指基于用户需求推荐的语料集,比如科研工作者需要搜索的专业术语。
本发明一实施例中,所述获取待推荐语料集之后,所述方法还包括:删除所述待推荐语料集中的异常数据,得到初始待推荐语料集;删除所述初始待推荐语料集中的重复数据,得到清洗后的待推荐语料集。
其中,通过删除待推荐语料集中的异常数据及重复数据,可以提高待推荐语料集的数据质量。
S2、获取用户的行为数据,根据所述行为数据将所述搜索语料集、所述热门语料集及所述个性化语料集分别进行召回,得到候选搜索语料集、候选热门语料集及候选个性化语料集。
本发明实施例中,所述行为数据是指是指用户在客户端平台上产生的查询、浏览、点击、搜索及购买产品等数据,所述行为数据可以从客户端平台数据库中获取。
本发明实施例中,通过将所述搜索语料集、所述热门语料集及所述个性化语料集分别进行召回,可以从海量语料库中筛选出与用户行为相关联的候选语料,降低后续的语料计算量,也可以针对不同的语料推荐类型选择合适召回操作,无需针对不同推荐位置进行开发及维护,提高语料推荐效率。
作为本发明的一个实施例,参考图2所示,上述步骤S2中,根据所述行为数据将所述搜索语料集、所述热门语料集及所述个性化语料集分别进行召回,得到候选搜索语料集、候选热门语料集及候选个性化语料集,包括以下步骤S21-S23:
S21、根据所述行为数据获取用户输入的查询词,从所述搜索语料集选取与所述查询词联系紧密的语料作为候选搜索语料集;
S22、从所述热门语料集选取历史热门语料集,根据预设的时间衰减系数将所述历史热门语料集进行加权计算,得到所述候选热门语料集;
S23、利用预设的双塔语料模型将所述行为数据及所述个性化语料集进行向量召回,得到所述候选个性化语料集。
其中,所述查询词是指用户在客户端平台上输入的query;所述历史热门语料集可以为一个月内在客户端平台上显示的热门排行榜。所述双塔语料模型包括用户网络层及语料网络层,该网络层都可以为DNN(Deep Neural Networks,深度神经网络),通过该双塔模型可以根据用户行为数据为用户筛选出所需的语料,可以提高后续语料推荐的效率及准确率。
进一步地,所述从所述搜索语料集选取与所述查询词相关联的语料作为候选搜索语料集,包括:构建所述搜索语料集与所述查询词的查询链接图;根据所述查询链接图从所述搜索语料集选取与所述查询词相关联的语料作为候选搜索语料集。
其中,所述查询链接图是指基于随机树描述查询词与对应的查询链接词的关联关系图,所述查询链接图可以表示为G<V,E>,V=V1*V2,V1表示所有用户的查询词树节点,V2表示树节点对应链接的URL节点,E表示树节点与URL之间的关联关系,通过该查询链接图可以便于后续查找查询词与对应语料的关联关系;较佳的,可以利用ANN(Almost-Nearest-Neighbou,近似最近邻搜索)构建所述查询链接图。
本发明一实施例中,所述根据预设的时间衰减系数将所述历史热门语料集进行加权计算,得到所述候选热门语料集,通过下述公式实现:
Figure 549989DEST_PATH_IMAGE001
其中,所述p(u,i)表示用户u感兴趣的热门语料i组成的候选热门语料集;所述N(u)表示用户u曾经产生过行为的历史热门语料集合;所述i表示用户u感兴趣的热门语料;所述j表示从所述历史热门语料集合中选择的其中一个历史热门语料;所述sim(i,j)表示热门语料i与历史热门语料j的相似程度;所述tuj表示用户u对语料j产生行为的时间;所述t0表示当前时间,当tuj越靠近t0,表示与j相似的热门语料会在用户u的推荐列表中获得越高的排名;所述β表示时间衰减参数。
本发明一实施例中,所述利用预设的双塔语料模型将所述行为数据及所述个性化语料集进行向量召回,得到所述候选个性化语料集,包括:
利用所述双塔语料模型中的用户网络层提取所述行为数据的行为特征,并将所述行为特征进行编码,得到用户特征向量;利用所述双塔语料模型中的语料网络层提取所述个性化语料集的个性化语料特征,并将所述个性化语料特征进行编码,得到个性化语料特征向量;计算所述用户特征向量及所述个性化语料特征向量的相似度,根据所述相似度从所述个性化语料集中选取与所述行为特征相关的语料作为所述候选个性化语料集。
其中,所述将所述个性化语料特征进行编码是指将行为特征及个性化语料特征进行Embedding,从而使所有特征进行拼接,得到对应的特征向量。
本发明一实施例中,所述计算所述用户特征向量及所述个性化语料特征向量的相似度,可以通过下述公式实现:
Figure 416314DEST_PATH_IMAGE002
其中,所述Similarity、cos(θ)表示相似度;所述A表示用户特征向量;所述B表示个性化语料特征向量;所述Ai表示第i个用户特征向量;所述Bi表示第i个个性化语料特征向量。
S3、将所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集分别进行排序,得到排序搜索语料集、排序热门语料集及排序个性化语料集。
本发明实施例中,可以通过预设的语料排序模型将所有语料集进行排序,其中,所述预设的语料排序模型可以为wide(如线性网络)-deep(如深度神经网络)进行融合形成的排序模型。
本发明实施例通过将所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集分别进行排序,得到排序搜索语料集、排序热门语料集及排序个性化语料集,可以基于用户兴趣获取与用户关联更加密切的语料,避免无关语料的推荐,提高语料推荐的准确率。
作为本发明的一个实施例,参考图3所示,上述步骤S3,将所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集分别进行排序,得到排序搜索语料集、排序热门语料集及排序个性化语料集,包括以下步骤S31-S34:
S31、利用预设的语料排序模型分别提取行为数据及所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集的特征,得到行为特征、候选搜索语料特征、候选热门语料特征及候选个性化语料特征;
S32、利用所述语料排序模型中的线性网络层将所述行为特征、所述候选搜索语料特征、所述候选热门语料特征及所述候选个性化语料特征进行第一预测排序,得到第一预测排序语料集;
S33、利用所述语料排序模型中的深度神经网络层将所述行为特征、所述候选搜索语料特征、所述候选热门语料特征及所述候选个性化语料特征进行第二预测排序,得到第二预测排序语料集;
S34、利用所述语料排序模型中的激活函数将所述第一预测排序语料集与所述第二预测排序语料集进行最终排序,得到所述排序搜索语料集、所述排序热门语料集及所述排序个性化语料集。
本发明一实施例中,所述利用所述语料排序模型中的线性网络层将所述行为特征、所述候选搜索语料特征、所述候选热门语料特征及所述候选个性化语料特征进行第一预测排序,可以通过下述公式实现:
Figure 410815DEST_PATH_IMAGE003
其中,所述
Figure 771520DEST_PATH_IMAGE004
表示第一预测排序语料集;所述
Figure 535077DEST_PATH_IMAGE005
表示第i个所述行为特征、所述候选搜索语料特征、所述候选热门语料特征及所述候选个性化语料特征以及行为特征分别与候选搜索语料特征、候选热门语料特征或候选个性化语料特征构成的组合交叉特征;所述d表示特征数量;所述cki表示布尔变量。
本发明一实施例中,布尔变量cki还可用于表示组合交叉特征的重要程度,若第i个特征为第k个特征变换的一部分,则cki为1,说明该组合交叉特征中的语料特征与用户关联较大;若第i个特征不为第k个特征变换的一部分,则cki为0,说明该组合交叉特征中的语料特征与用户关联较小。
进一步地,所述利用所述语料排序模型中的深度神经网络层将所述行为特征、所述候选搜索语料特征、所述候选热门语料特征及所述候选个性化语料特征进行第二预测排序,可以通过下述公式实现:
Figure 837882DEST_PATH_IMAGE006
其中,所述Y表示所述第二预测排序语料集;所述w(l)表示所述行为特征、所述候选搜索语料特征、所述候选热门语料特征及所述候选个性化语料特征中每个特征对应的权重;所述a(l)表示每个特征对应的激活权重;所述b(l)表示每个特获对应的偏置权重;所述l表示层数。
本发明实施例中,所述激活函数可以为回归激活函数,如下述公式:
Figure 54100DEST_PATH_IMAGE007
其中,所述P(X)表示所述排序搜索语料集、排序热门语料集及排序个性化语料集;所述
Figure 467763DEST_PATH_IMAGE008
表示第一预测排序语料集;所述Y表示第二预测排序语料集;所述b表示偏置项。
S4、基于所述行为数据将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集分别进行重排,得到重排待推荐语料集,并从所述行为数据中识别用户的点击事件,并根据所述点击事件将所述重排待推荐语料推送至所述用户。
本发明实施例中,所述点击事件是指用户每一次在客户端平台上对页面推荐位置的点击都看作一个事件,比如,当用户点击了搜索推荐位置,则把相应的搜索语料推荐至用户;当用户点击了热门推荐位置,则把当前热门语料推荐至用户。
本发明实施例中,通过基于所述行为数据将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集分别进行重排,得到重排待推荐语料集,并识别用户的点击事件,以将所述重排待推荐语料推送至所述用户,可以将用户点击过的语料优先推送至用户,进一步提高语料推荐的效率及准确率。
作为本发明的一个实施例,所述基于所述行为数据将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集分别进行重排,得到重排待推荐语料集,包括:
分别计算所述行为数据与所述排序搜索语料集、排序热门语料集及所述排序个性化语料集中每个语料的分数;根据所述分数将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集进行全局重排,得到所述重排待推荐语料集。
其中,所述排序搜索语料集、排序热门语料集及所述排序个性化语料集中每个语料的分数可以通过预设的权重系数及各个语料分别与行为数据中用户是否对该语料产生点击行为相关联,若用户对该语料产生过点击行为,且对其中一个语料的点击次数越多,则对应的权重系数α越大,分数越高;反之,若用户对该语料未产生过点击行为,则对应的权重系数α越小,分数越低。
本发明一实施例中,通过计算每个语料的分数,可以从语料集中将与用户点击过的内容相似的语料提前,实现基于用户需求推荐相关语料,提高语料推荐的准确率。
本发明实施例中,首先通过根据行为数据将搜索语料集、热门语料集及个性化语料集分别进行召回,得到候选搜索语料集、候选热门语料集及候选个性化语料集,可以针对不同的语料推荐类型选择合适召回操作,无需针对不同推荐位置进行开发及维护,提高语料推荐的效率;其次,通过将候选搜索语料集、候选热门语料集及候选个性化语料集分别进行排序,可以基于用户兴趣获取与用户关联更加密切的语料,避免无关语料的推荐,提高语料推荐的准确率;最后通过基于所述行为数据将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集分别进行重排,并识别用户的点击事件,根据所述点击事件将所述重排待推荐语料集推送至所述用户,可以将用户点击过的语料优先推送至用户,进一步提高语料推荐的效率及准确率。因此本发明实施例提出的语料推荐方法可以提高语料推荐的效率及准确率。
本发明所述语料推荐装置100可以安装于电子设备中。根据实现的功能,所述语料推荐装置可以包括语料获取模块101、语料召回模块102、语料排序模块103、语料推荐模块104,本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述语料获取模块101,用于获取待推荐语料集,其中,所述待推荐语料集包括搜索语料集、热门语料集及个性化语料集。
本发明实施例中,所述待推荐语料集是指推荐给用户的与客户端平台相关的文本信息,比如,产品上线信息、热门搜索词条信息及产品售后客服联系信息等。
本发明实施例中,所述待推荐语料集包括搜索语料集、热门语料集及个性化语料集,其中,所述搜索语料集是指基于用户搜索的关键词待推荐给用户的语料集;所述热门语料集是指用户在客户端平台上搜索最多的热门推荐语料集,比如热门产品排行榜;所述个性化语料集是指基于用户需求推荐的语料集,比如科研工作者需要搜索的专业术语。
所述语料获取模块101还可用于:
所述获取待推荐语料集之后,删除所述待推荐语料集中的异常数据,得到初始待推荐语料集;删除所述初始待推荐语料集中的重复数据,得到清洗后的待推荐语料集。
其中,通过删除待推荐语料集中的异常数据及重复数据,可以提高待推荐语料集的数据质量。
所述语料召回模块102,用于获取用户的行为数据,根据所述行为数据将所述搜索语料集、所述热门语料集及所述个性化语料集分别进行召回,得到候选搜索语料集、候选热门语料集及候选个性化语料集。
本发明实施例中,所述行为数据是指是指用户在客户端平台上产生的查询、浏览、点击、搜索及购买产品等数据,所述行为数据可以从客户端平台数据库中获取。
本发明实施例中,通过将所述搜索语料集、所述热门语料集及所述个性化语料集分别进行召回,可以从海量语料库中筛选出与用户行为相关联的候选语料,降低后续的语料计算量,也可以针对不同的语料推荐类型选择合适召回操作,无需针对不同推荐位置进行开发及维护,提高语料推荐效率。
作为本发明的一个实施例,所述语料召回模块102通过执行下述操作根据所述行为数据将所述搜索语料集、所述热门语料集及所述个性化语料集分别进行召回,得到候选搜索语料集、候选热门语料集及候选个性化语料集,包括:
根据所述行为数据获取用户输入的查询词,从所述搜索语料集选取与所述查询词联系紧密的语料作为候选搜索语料集;
从所述热门语料集选取历史热门语料集,根据预设的时间衰减系数将所述历史热门语料集进行加权计算,得到所述候选热门语料集;
利用预设的双塔语料模型将所述行为数据及所述个性化语料集进行向量召回,得到所述候选个性化语料集。
其中,所述查询词是指用户在客户端平台上输入的query;所述历史热门语料集可以为一个月内在客户端平台上显示的热门排行榜。所述双塔语料模型包括用户网络层及语料网络层,该网络层都可以为DNN(Deep Neural Networks,深度神经网络),通过该双塔模型可以根据用户行为数据为用户筛选出所需的语料,可以提高后续语料推荐的效率及准确率。
进一步地,所述从所述搜索语料集选取与所述查询词相关联的语料作为候选搜索语料集,包括:
构建所述搜索语料集与所述查询词的查询链接图;根据所述查询链接图从所述搜索语料集选取与所述查询词相关联的语料作为候选搜索语料集。
其中,所述查询链接图是指基于随机树描述查询词与对应的查询链接词的关联关系图,所述查询链接图可以表示为G<V,E>,V=V1*V2,V1表示所有用户的查询词树节点,V2表示树节点对应链接的URL节点,E表示树节点与URL之间的关联关系,通过该查询链接图可以便于后续查找查询词与对应语料的关联关系;较佳的,可以利用ANN(Almost-Nearest-Neighbou,近似最近邻搜索)构建所述查询链接图。
本发明一实施例中,所述根据预设的时间衰减系数将所述历史热门语料集进行加权计算,得到所述候选热门语料集,通过下述公式实现:
Figure 600673DEST_PATH_IMAGE001
其中,所述p(u,i)表示用户u感兴趣的热门语料i组成的候选热门语料集;所述N(u)表示用户u曾经产生过行为的历史热门语料集合;所述i表示用户u感兴趣的热门语料;所述j表示从所述历史热门语料集合中选择的其中一个历史热门语料;所述sim(i,j)表示热门语料i与历史热门语料j的相似程度;所述tuj表示用户u对语料j产生行为的时间;所述t0表示当前时间,当tuj越靠近t0,表示与j相似的热门语料会在用户u的推荐列表中获得越高的排名;所述β表示时间衰减参数。
本发明一实施例中,所述利用预设的双塔语料模型将所述行为数据及所述个性化语料集进行向量召回,得到所述候选个性化语料集,包括:
利用所述双塔语料模型中的用户网络层提取所述行为数据的行为特征,并将所述行为特征进行编码,得到用户特征向量;利用所述双塔语料模型中的语料网络层提取所述个性化语料集的个性化语料特征,并将所述个性化语料特征进行编码,得到个性化语料特征向量;计算所述用户特征向量及所述个性化语料特征向量的相似度,根据所述相似度从所述个性化语料集中选取与所述行为特征相关的语料作为所述候选个性化语料集。
其中,所述将所述个性化语料特征进行编码是指将行为特征及个性化语料特征进行Embedding,从而使所有特征进行拼接,得到对应的特征向量。
本发明一实施例中,所述计算所述用户特征向量及所述个性化语料特征向量的相似度,可以通过下述公式实现:
Figure 74380DEST_PATH_IMAGE002
其中,所述Similarity、cos(θ)表示相似度;所述A表示用户特征向量;所述B表示个性化语料特征向量;所述Ai表示第i个用户特征向量;所述Bi表示第i个个性化语料特征向量。
所述语料排序模块103,用于将所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集分别进行排序,得到排序搜索语料集、排序热门语料集及排序个性化语料集。
本发明实施例中,可以通过预设的语料排序模型将所有语料集进行排序,其中,所述预设的语料排序模型可以为wide(如线性网络)-deep(如深度神经网络)进行融合形成的排序模型。
本发明实施例通过将所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集分别进行排序,得到排序搜索语料集、排序热门语料集及排序个性化语料集,可以基于用户兴趣获取与用户关联更加密切的语料,避免无关语料的推荐,提高语料推荐的准确率。
作为本发明的一个实施例,所述语料排序模块103通过执行下述操作将所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集分别进行排序,得到排序搜索语料集、排序热门语料集及排序个性化语料集,包括:
利用预设的语料排序模型分别提取行为数据及所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集的特征,得到行为特征、候选搜索语料特征、候选热门语料特征及候选个性化语料特征;
利用所述语料排序模型中的线性网络层将所述行为特征、所述候选搜索语料特征、所述候选热门语料特征及所述候选个性化语料特征进行第一预测排序,得到第一预测排序语料集;
利用所述语料排序模型中的深度神经网络层将所述行为特征、所述候选搜索语料特征、所述候选热门语料特征及所述候选个性化语料特征进行第二预测排序,得到第二预测排序语料集;
利用所述语料排序模型中的激活函数将所述第一预测排序语料集与所述第二预测排序语料集进行最终排序,得到所述排序搜索语料集、所述排序热门语料集及所述排序个性化语料集。
本发明一实施例中,所述利用所述语料排序模型中的线性网络层将所述行为特征、所述候选搜索语料特征、所述候选热门语料特征及所述候选个性化语料特征进行第一预测排序,可以通过下述公式实现:
Figure 43473DEST_PATH_IMAGE003
其中,所述
Figure 995249DEST_PATH_IMAGE004
表示第一预测排序语料集;所述
Figure 733397DEST_PATH_IMAGE005
表示第i个所述行为特征、所述候选搜索语料特征、所述候选热门语料特征及所述候选个性化语料特征以及行为特征分别与候选搜索语料特征、候选热门语料特征或候选个性化语料特征构成的组合交叉特征;所述d表示特征数量;所述cki表示布尔变量。
本发明一实施例中,布尔变量cki还可用于表示组合交叉特征的重要程度,若第i个特征为第k个特征变换的一部分,则cki为1,说明该组合交叉特征中的语料特征与用户关联较大;若第i个特征不为第k个特征变换的一部分,则cki为0,说明该组合交叉特征中的语料特征与用户关联较小。
进一步地,所述利用所述语料排序模型中的深度神经网络层将所述行为特征、所述候选搜索语料特征、所述候选热门语料特征及所述候选个性化语料特征进行第二预测排序,可以通过下述公式实现:
Figure 863159DEST_PATH_IMAGE006
其中,所述Y表示所述第二预测排序语料集;所述w(l)表示所述行为特征、所述候选搜索语料特征、所述候选热门语料特征及所述候选个性化语料特征中每个特征对应的权重;所述a(l)表示每个特征对应的激活权重;所述b(l)表示每个特获对应的偏置权重;所述l表示层数。
本发明实施例中,所述激活函数可以为回归激活函数,如下述公式:
Figure 319548DEST_PATH_IMAGE007
其中,所述P(X)表示所述排序搜索语料集、排序热门语料集及排序个性化语料集;所述
Figure 75014DEST_PATH_IMAGE008
表示第一预测排序语料集;所述Y表示第二预测排序语料集;所述b表示偏置项。
所述语料推荐模块104,用于基于所述行为数据将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集分别进行重排,得到重排待推荐语料集,并从所述行为数据中识别用户的点击事件,并根据所述点击事件将所述重排待推荐语料推送至所述用户。
本发明实施例中,所述点击事件是指用户每一次在客户端平台上对页面推荐位置的点击都看作一个事件,比如,当用户点击了搜索推荐位置,则把相应的搜索语料推荐至用户;当用户点击了热门推荐位置,则把当前热门语料推荐至用户。
本发明实施例中,通过基于所述行为数据将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集分别进行重排,得到重排待推荐语料集,并识别用户的点击事件,以将所述重排待推荐语料推送至所述用户,可以将用户点击过的语料优先推送至用户,进一步提高语料推荐的效率及准确率。
作为本发明的一个实施例,所述语料推荐模块104通过执行下述操作基于所述行为数据将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集分别进行重排,得到重排待推荐语料集,包括:
分别计算所述行为数据与所述排序搜索语料集、排序热门语料集及所述排序个性化语料集中每个语料的分数;
根据所述分数将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集进行全局重排,得到所述重排待推荐语料集。
其中,所述排序搜索语料集、排序热门语料集及所述排序个性化语料集中每个语料的分数可以通过预设的权重系数及各个语料分别与行为数据中用户是否对该语料产生点击行为相关联,若用户对该语料产生过点击行为,且对其中一个语料的点击次数越多,则对应的权重系数α越大,分数越高;反之,若用户对该语料未产生过点击行为,则对应的权重系数α越小,分数越低。
本发明一实施例中,通过计算每个语料的分数,可以从语料集中将与用户点击过的内容相似的语料提前,实现基于用户需求推荐相关语料,提高语料推荐的准确率。
本发明实施例中,首先通过根据行为数据将搜索语料集、热门语料集及个性化语料集分别进行召回,得到候选搜索语料集、候选热门语料集及候选个性化语料集,可以针对不同的语料推荐类型选择合适召回操作,无需针对不同推荐位置进行开发及维护,提高语料推荐的效率;其次,通过将候选搜索语料集、候选热门语料集及候选个性化语料集分别进行排序,可以基于用户兴趣获取与用户关联更加密切的语料,避免无关语料的推荐,提高语料推荐的准确率;最后通过基于所述行为数据将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集分别进行重排,并识别用户的点击事件,根据所述点击事件将所述重排待推荐语料集推送至所述用户,可以将用户点击过的语料优先推送至用户,进一步提高语料推荐的效率及准确率。因此本发明实施例提出的语料推荐装置可以提高语料推荐的效率及准确率。
如图5所示,是本发明实现语料推荐方法的电子设备的结构示意图。
所述电子设备可以包括处理器10、存储器11、通信总线12和通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如语料推荐程序。
其中,所述存储器11至少包括一种类型的介质,所述介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、本地磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如语料推荐程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing Unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如语料推荐程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述通信总线12可以是外设部件互连标准(PerIPheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述通信总线12总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
可选地,所述通信接口13可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
可选地,所述通信接口13还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备中的所述存储器11存储的语料推荐程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
获取待推荐语料集,其中,所述待推荐语料集包括搜索语料集、热门语料集及个性化语料集;
获取用户的行为数据,根据所述行为数据将所述搜索语料集、所述热门语料集及所述个性化语料集分别进行召回,得到候选搜索语料集、候选热门语料集及候选个性化语料集;
将所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集分别进行排序,得到排序搜索语料集、排序热门语料集及排序个性化语料集;
基于所述行为数据将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集分别进行重排,得到重排待推荐语料集,并从所述行为数据中识别用户的点击事件,并根据所述点击事件将所述重排待推荐语料推送至所述用户。
具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取介质中。所述计算机可读介质可以是非易失性的,也可以是易失性的。所述计算机可读介质可以包括:能够携待所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明实施例还可以提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取待推荐语料集,其中,所述待推荐语料集包括搜索语料集、热门语料集及个性化语料集;
获取用户的行为数据,根据所述行为数据将所述搜索语料集、所述热门语料集及所述个性化语料集分别进行召回,得到候选搜索语料集、候选热门语料集及候选个性化语料集;
将所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集分别进行排序,得到排序搜索语料集、排序热门语料集及排序个性化语料集;
基于所述行为数据将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集分别进行重排,得到重排待推荐语料集,并从所述行为数据中识别用户的点击事件,并根据所述点击事件将所述重排待推荐语料推送至所述用户。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
在本发明所提供的几个实施例中,应该理解到,所揭露的介质、设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种语料推荐方法,其特征在于,所述方法包括:
获取待推荐语料集,其中,所述待推荐语料集包括搜索语料集、热门语料集及个性化语料集;
获取用户的行为数据,根据所述行为数据将所述搜索语料集、所述热门语料集及所述个性化语料集分别进行召回,得到与所述用户行为相关联的候选搜索语料集、候选热门语料集及候选个性化语料集;
将所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集分别进行排序,得到排序搜索语料集、排序热门语料集及排序个性化语料集;
基于所述行为数据将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集分别进行重排,得到重排待推荐语料集,并从所述行为数据中识别用户的点击事件,并根据所述点击事件将所述重排待推荐语料中与所述点击事件相对应的语料集推送至所述用户,所述点击事件为所述用户对客户端的页面推荐位置的点击。
2.如权利要求1所述的语料推荐方法,其特征在于,所述根据所述行为数据将所述搜索语料集、所述热门语料集及所述个性化语料集分别进行召回,得到候选搜索语料集、候选热门语料集及候选个性化语料集,包括:
根据所述行为数据获取用户输入的查询词,从所述搜索语料集选取与所述查询词联系紧密的语料作为候选搜索语料集;
从所述热门语料集选取历史热门语料集,根据预设的时间衰减系数将所述历史热门语料集进行加权计算,得到所述候选热门语料集;
利用预设的双塔语料模型将所述行为数据及所述个性化语料集进行向量召回,得到所述候选个性化语料集。
3.如权利要求2所述的语料推荐方法,其特征在于,所述从所述搜索语料集选取与所述查询词相关联的语料作为候选搜索语料集,包括:
构建所述搜索语料集与所述查询词的查询链接图;
根据所述查询链接图从所述搜索语料集选取与所述查询词相关联的语料作为候选搜索语料集。
4.如权利要求2所述的语料推荐方法,其特征在于,所述利用预设的双塔语料模型将所述行为数据及所述个性化语料集进行向量召回,得到所述候选个性化语料集,包括:
利用所述双塔语料模型中的用户网络层提取所述行为数据的行为特征,并将所述行为特征进行编码,得到用户特征向量;
利用所述双塔语料模型中的语料网络层提取所述个性化语料集的个性化语料特征,并将所述个性化语料特征进行编码,得到个性化语料特征向量;
计算所述用户特征向量及所述个性化语料特征向量的相似度,根据所述相似度从所述个性化语料集中选取与所述行为特征相关的语料作为所述候选个性化语料集。
5.如权利要求1所述的语料推荐方法,其特征在于,所述将所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集分别进行排序,得到排序搜索语料集、排序热门语料集及排序个性化语料集,包括:
利用预设的语料排序模型分别提取行为数据及所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集的特征,得到行为特征、候选搜索语料特征、候选热门语料特征及候选个性化语料特征;
利用所述语料排序模型中的线性网络层将所述行为特征、所述候选搜索语料特征、所述候选热门语料特征及所述候选个性化语料特征进行第一预测排序,得到第一预测排序语料集;
利用所述语料排序模型中的深度神经网络层将所述行为特征、所述候选搜索语料特征、所述候选热门语料特征及所述候选个性化语料特征进行第二预测排序,得到第二预测排序语料集;
利用所述语料排序模型中的激活函数将所述第一预测排序语料集与所述第二预测排序语料集进行最终排序,得到所述排序搜索语料集、所述排序热门语料集及所述排序个性化语料集。
6.如权利要求1所述的语料推荐方法,其特征在于,所述基于所述行为数据将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集分别进行重排,得到重排待推荐语料集,包括:
分别计算所述行为数据与所述排序搜索语料集、排序热门语料集及所述排序个性化语料集中每个语料的分数;
根据所述分数将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集进行全局重排,得到所述重排待推荐语料集。
7.如权利要求1所述的语料推荐方法,其特征在于,所述获取待推荐语料集之后,所述方法还包括:
删除所述待推荐语料集中的异常数据,得到初始待推荐语料集;
删除所述初始待推荐语料集中的重复数据,得到清洗后的待推荐语料集。
8.一种语料推荐装置,其特征在于,所述装置包括:
语料获取模块,用于获取待推荐语料集,其中,所述待推荐语料集包括搜索语料集、热门语料集及个性化语料集;
语料召回模块,用于获取用户的行为数据,根据所述行为数据将所述搜索语料集、所述热门语料集及所述个性化语料集分别进行召回,得到与所述用户行为相关联的候选搜索语料集、候选热门语料集及候选个性化语料集;
语料排序模块,用于将所述候选搜索语料集、所述候选热门语料集及所述候选个性化语料集分别进行排序,得到排序搜索语料集、排序热门语料集及排序个性化语料集;
语料推荐模块,用于基于所述行为数据将所述排序搜索语料集、排序热门语料集及所述排序个性化语料集分别进行重排,得到重排待推荐语料集,并从所述行为数据中识别用户的点击事件,并根据所述点击事件将所述重排待推荐语料中与所述点击事件相对应的语料集推送至所述用户,所述点击事件为所述用户对客户端的页面推荐位置的点击。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的语料推荐方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语料推荐方法。
CN202210919856.3A 2022-08-02 2022-08-02 语料推荐方法、装置、设备及存储介质 Active CN114969486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210919856.3A CN114969486B (zh) 2022-08-02 2022-08-02 语料推荐方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210919856.3A CN114969486B (zh) 2022-08-02 2022-08-02 语料推荐方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114969486A CN114969486A (zh) 2022-08-30
CN114969486B true CN114969486B (zh) 2022-11-04

Family

ID=82969207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210919856.3A Active CN114969486B (zh) 2022-08-02 2022-08-02 语料推荐方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114969486B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063433A (zh) * 2009-11-16 2011-05-18 华为技术有限公司 相关项推荐方法和装置
CN104484339A (zh) * 2014-11-21 2015-04-01 百度在线网络技术(北京)有限公司 一种相关实体推荐方法和***
CN106599577A (zh) * 2016-12-13 2017-04-26 重庆邮电大学 一种结合rbm和特征选择的列表级排序学习方法
CN109242592A (zh) * 2018-07-19 2019-01-18 广州优视网络科技有限公司 一种应用的推荐方法和装置
WO2019106132A1 (en) * 2017-11-30 2019-06-06 Deepmind Technologies Limited Gated linear networks
CN111563198A (zh) * 2020-04-16 2020-08-21 百度在线网络技术(北京)有限公司 一种物料召回方法、装置、设备及存储介质
CN111914175A (zh) * 2020-08-07 2020-11-10 平安科技(深圳)有限公司 一种推荐流程优化方法、装置、设备及介质
CN111949890A (zh) * 2020-09-27 2020-11-17 平安科技(深圳)有限公司 基于医学领域的数据推荐方法、设备、服务器及存储介质
CN112488781A (zh) * 2020-11-10 2021-03-12 北京三快在线科技有限公司 搜索推荐方法、装置、电子设备及可读存储介质
CN112765480A (zh) * 2021-04-12 2021-05-07 腾讯科技(深圳)有限公司 一种信息推送方法、装置及计算机可读存储介质
CN112860848A (zh) * 2021-01-20 2021-05-28 平安科技(深圳)有限公司 信息检索方法、装置、设备及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079022B (zh) * 2019-12-20 2023-10-03 深圳前海微众银行股份有限公司 基于联邦学习的个性化推荐方法、装置、设备及介质
CN111767375A (zh) * 2020-05-13 2020-10-13 平安科技(深圳)有限公司 语义召回方法、装置、计算机设备及存储介质
CN113641636A (zh) * 2021-08-09 2021-11-12 长沙丰灼通讯科技有限公司 一种智能拉手广告***图片挑选排序的方法
CN113961823B (zh) * 2021-12-17 2022-03-25 江西中业智能科技有限公司 新闻推荐方法、***、存储介质及设备
CN114265926A (zh) * 2021-12-21 2022-04-01 深圳供电局有限公司 一种基于自然语言的素材推荐方法、***、设备及介质
CN114265981A (zh) * 2021-12-22 2022-04-01 北京字节跳动网络技术有限公司 推荐词确定方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063433A (zh) * 2009-11-16 2011-05-18 华为技术有限公司 相关项推荐方法和装置
CN104484339A (zh) * 2014-11-21 2015-04-01 百度在线网络技术(北京)有限公司 一种相关实体推荐方法和***
CN106599577A (zh) * 2016-12-13 2017-04-26 重庆邮电大学 一种结合rbm和特征选择的列表级排序学习方法
WO2019106132A1 (en) * 2017-11-30 2019-06-06 Deepmind Technologies Limited Gated linear networks
CN109242592A (zh) * 2018-07-19 2019-01-18 广州优视网络科技有限公司 一种应用的推荐方法和装置
CN111563198A (zh) * 2020-04-16 2020-08-21 百度在线网络技术(北京)有限公司 一种物料召回方法、装置、设备及存储介质
CN111914175A (zh) * 2020-08-07 2020-11-10 平安科技(深圳)有限公司 一种推荐流程优化方法、装置、设备及介质
CN111949890A (zh) * 2020-09-27 2020-11-17 平安科技(深圳)有限公司 基于医学领域的数据推荐方法、设备、服务器及存储介质
CN112488781A (zh) * 2020-11-10 2021-03-12 北京三快在线科技有限公司 搜索推荐方法、装置、电子设备及可读存储介质
CN112860848A (zh) * 2021-01-20 2021-05-28 平安科技(深圳)有限公司 信息检索方法、装置、设备及介质
CN112765480A (zh) * 2021-04-12 2021-05-07 腾讯科技(深圳)有限公司 一种信息推送方法、装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KNN-GWD推荐模型及其应用;季德强 等;《应用科学学报》;20220131;第40卷(第01期);145-154 *

Also Published As

Publication number Publication date
CN114969486A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
US11200505B2 (en) System and method for calculating search term probability
US10936608B2 (en) System and method for using past or external information for future search results
CN112785397A (zh) 一种产品推荐方法、装置及存储介质
CN113449187B (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN111723292B (zh) 基于图神经网络的推荐方法、***、电子设备及存储介质
US11710167B2 (en) System and method for prioritized product index searching
CN112508609B (zh) 人群扩量的预测方法、装置、设备及存储介质
US11694253B2 (en) System and method for capturing seasonality and newness in database searches
CN115002200B (zh) 基于用户画像的消息推送方法、装置、设备及存储介质
US10628446B2 (en) System and method for integrating business logic into a hot/cold prediction
Nadungodage et al. GPU accelerated item-based collaborative filtering for big-data applications
CN113836131A (zh) 一种大数据清洗方法、装置、计算机设备及存储介质
CN112818218A (zh) 信息推荐方法、装置、终端设备及计算机可读存储介质
CN112507230A (zh) 基于浏览器的网页推荐方法、装置、电子设备及存储介质
CN115018588A (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN113706253A (zh) 实时产品推荐方法、装置、电子设备及可读存储介质
CN110851708B (zh) 负样本的抽取方法、装置、计算机设备和存储介质
CN114969486B (zh) 语料推荐方法、装置、设备及存储介质
CN115186188A (zh) 基于行为分析的产品推荐方法、装置、设备及存储介质
CN113706252A (zh) 产品推荐方法、装置、电子设备及存储介质
TWM573493U (zh) 藉由訪客瀏覽路徑預測轉換機率之系統
CN117891811B (zh) 一种客户数据采集分析方法、装置及云服务器
CN114331491A (zh) 生成推荐信息的方法和装置
CN113515703A (zh) 信息推荐方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant