CN113569135B - 基于用户画像的推荐方法、装置、计算机设备及存储介质 - Google Patents

基于用户画像的推荐方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113569135B
CN113569135B CN202110741723.7A CN202110741723A CN113569135B CN 113569135 B CN113569135 B CN 113569135B CN 202110741723 A CN202110741723 A CN 202110741723A CN 113569135 B CN113569135 B CN 113569135B
Authority
CN
China
Prior art keywords
label
intention
preset
industry
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110741723.7A
Other languages
English (en)
Other versions
CN113569135A (zh
Inventor
熊焕卫
刘杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donson Times Information Technology Co ltd
Original Assignee
Donson Times Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donson Times Information Technology Co ltd filed Critical Donson Times Information Technology Co ltd
Priority to CN202110741723.7A priority Critical patent/CN113569135B/zh
Publication of CN113569135A publication Critical patent/CN113569135A/zh
Application granted granted Critical
Publication of CN113569135B publication Critical patent/CN113569135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的基于用户画像的推荐方法、装置、计算机设备及存储介质,应用于人工智能技术领域。通过获取客户端的信息查询请求,从信息查询请求中获取关键词,并为关键词生成对应的意图标签,以在预设的行业标签候选集中,基于意图标签选取出基础行业标签;在多个预设的平台中查找与基础行业标签对应的兴趣人群,并计算得到兴趣评分;对兴趣评分进行排序,按照从大到小的顺序选择出目标推荐平台,用以在目标推荐平台进行信息推荐,根据客户端的意图标签,为客户端匹配目标推荐平台,使得客户端的使用者可定向进行信息推荐,实现信息推荐的精确度。

Description

基于用户画像的推荐方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种基于用户画像的推荐方法、装置、计算机设备及存储介质。
背景技术
随着互联网技术的飞速发展,互联网能够给用户提供丰富的信息资源。通过获取用户的兴趣标签,根据兴趣标签进行信息推荐、广告投放、人群定向等。
常见的用户兴趣确定方式中,根据用户的历史数据为用户打上兴趣标签,并计算每个兴趣标签的分数,将排名靠前的一个或者多个兴趣标签作为用户的兴趣标签。
根据上述方法确定的兴趣标签标签比较单一,无法满足众多精细化需求无法实现用户需要针对平台进行定向的信息推荐的需求,不能实现信息推荐的效益最大化。
发明内容
本发明提供一种基于用户画像的推荐方法、装置、计算机设备及存储介质,以提高定向推荐的精确度。
一种基于用户画像的推荐方法,包括:
接收客户端的信息查询请求,从信息查询请求中获取关键词,并基于意图识别模型对关键词进行意图识别,得到用户的意图标签;
将意图标签与预设的行业标签候选集进行匹配,得到匹配结果,其中,预设的行业标签候选集包括至少两个基础行业标签;
根据匹配结果,从行业标签候选集中选取与意图标签对应的基础行业标签,作为目标行业标签;
基于目标行业标签,调用接口从至少两个预设平台中,获取与目标行业标签对应的兴趣人群,并计算每个预设平台中兴趣人群的兴趣评分;
对每个兴趣人群的兴趣评分按照由大到小的顺序进行排序,得到排序结果,并按照先后顺序,从排序结果中选取预设个数的预设平台,作为目标推荐平台,并采用目标推荐平台进行信息推荐。
一种基于用户画像的推荐装置,包括:
意图标签生成模块,用于接收客户端的信息查询请求,从信息查询请求中获取关键词,并基于意图识别模型对关键词进行意图识别,得到用户的意图标签;
标签匹配模块,用于将意图标签与预设的行业标签候选集进行匹配,得到匹配结果,其中,预设的行业标签候选集包括至少两个基础行业标签;
目标行业标签生成模块,用于根据匹配结果,从行业标签候选集中选取与意图标签对应的基础行业标签,作为目标行业标签;
兴趣评分计算模块,用于基于目标行业标签,调用接口从至少两个预设平台中,获取与目标行业标签对应的兴趣人群,并计算每个预设平台中兴趣人群的兴趣评分;
信息推荐模块,用于对每个兴趣人群的兴趣评分按照由大到小的顺序进行排序,得到排序结果,并按照先后顺序,从排序结果中选取预设个数的预设平台,作为目标推荐平台,并采用目标推荐平台进行信息推荐。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于用户画像的推荐方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于用户画像的推荐方法的步骤。
本发明提供的基于用户画像的推荐方法、装置、计算机设备及存储介质,通过获取客户端的信息搜索请求,从信息搜索请求中获取关键词,并为关键词生成对应的意图标签,以在预设的行业标签候选集中,基于意图标签选取出基础行业标签;在多个预设的平台中查找与基础行业标签对应的兴趣人群,并计算得到兴趣评分;对兴趣评分进行排序,按照从大到小的顺序选择出目标推荐平台,用以在目标推荐平台进行信息推荐,根据客户端的意图标签,为客户端匹配目标推荐平台,使得客户端的使用者可定向进行信息推荐,实现信息推荐的精确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于用户画像的推荐方法的一应用环境示意图;
图2是本发明一实施例中基于用户画像的推荐方法的一流程图;
图3是本发明一实施例中基于用户画像的推荐装置的结构示意图;
图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的基于用户画像的推荐方法,可应用在如图1的应用环境中,其中,终端设备通过网络与服务器进行通信。其中,终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
***框架100可以包括终端设备、网络和服务器。网络用以在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备通过网络与服务器交互,以接收或者发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture EpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureEperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本发明实施例所提供的基于用户画像的推荐方法由服务器执行,相应地,基于用户画像的推荐装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,根据实现需要,可以具有任意数目的终端设备、网络和服务器,本发明实施例中的终端设备具体可以对应的是实际生产中的应用***。
在一实施例中,如图2所示,提供一种基于用户画像的推荐方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤S101至S105:
S101,接收客户端的信息查询请求,从信息查询请求中获取关键词,并基于意图识别模型对关键词进行意图识别,得到用户的意图标签。
在本实施例中,客户端是指与服务端相对应,安装在终端设备上为用户提供服务的程序。客户端相应的指有信息推荐需求的实体,该实体可以是人或者某一机构等。
该实体使用客户端进行信息搜索时,从信息查询请求中获取信息查询文本,将信息查询文本进行分词,并确定信息查询文本中的关键词。
并将关键词输入到意图识别模型中进行意图识别,得到客户端用户的意图标签。
示例性地,若信息搜索文本为“两居室xx”,其中,“xx”为某一房地产公司,经“两居室”和“xx”作为关键词输入到意图识别模型,生成“买房”的意图标签。
S102,将意图标签与预设的行业标签候选集进行匹配,得到匹配结果,其中,预设的行业标签候选集包括至少两个基础行业标签。
其中,预设的行业标签候选集具体可以是保存了多个基础行业标签的数据库等。计算意图标签和每个基础行业标签的特征向量,根据意图标签的特征向量与基础行业标签的特征向量的相似度,得到与意图标签最接近的基础行业标签。
作为一种可选方式,在行业标签候选集中设置两级纵向分类,一级行业标签中包括多个二级基础行业标签。先计算得到一级行业标签的特征向量并与意图标签的特征向量进行比较筛选,再在二级的基础行业标签中进行匹配,以匹配到更精确的基础行业标签。
基础行业标签具体可以是包含某一行业的特征关键词,即基础行业标签表示了某一行业中出现频次较高的关键词,或者是在某一行业中具有普遍含义的关键词。
S103,根据匹配结果,从行业标签候选集中选取与意图标签对应的基础行业标签,作为目标行业标签。
其中,将与意图标签最接近的基础行业标签作为目标行业标签,其中,目标行业标签与意图标签的词义表征最接近即表征用户的意图行为最为准确。其次,目标行业标签作为行业内通用的表现形式,针对该目标行业标签划分出的兴趣人群的效果更好。
S104,基于目标行业标签,调用接口从至少两个预设平台中,获取与目标行业标签对应的兴趣人群,并计算每个预设平台中兴趣人群的兴趣评分。
其中,从预先设置的接口中访问预设平台的数据,获取平台中具有目标行业标签的使用人群,作为兴趣人群,并根据兴趣人群的操作指数,计算得到兴趣人群的兴趣评分。
目标行业标签用以表征在某一行业中,对某类资讯表现出兴趣的行为。若目标行业标签为“化妆品”,带有“化妆品”标签的使用人群则划分为兴趣人群。
兴趣评分可以反映出兴趣人群对某一特定资讯的兴趣程度,即该兴趣人群对某一特定资讯的反应程度,其中,反应程度可以表现为对某一资讯的点击行为、浏览行为以及回头行为等。
S105,对每个兴趣人群的兴趣评分按照由大到小的顺序进行排序,得到排序结果,并按照先后顺序,从排序结果中选取预设个数的预设平台,作为目标推荐平台,并采用目标推荐平台进行信息推荐。
其中,将每个预设平台的兴趣评分进行排序,得到基于兴趣评分的排序结果,选择出一定个数的预设平台,作为目标推荐平台。客户端的使用者将需要进行推荐的产品、内容作为信息发布到目标推荐平台上进行推荐。
示例性地,根据兴趣评分的先后顺序得到的排序结果是:平台A、平台B、平台C、平台D。选择出前两个平台即平台A和平台B作为目标推荐平台。
需要说明的是,以上预设平台的个数以及目标推荐平台的个数仅作为示例性说明,不应作为本发明实施例中实施例的限制。
在本实施例中,通过获取客户端的信息搜索请求,从信息搜索请求中获取关键词,并为关键词生成对应的意图标签,以在预设的行业标签候选集中,基于意图标签选取出基础行业标签;在多个预设的平台中查找与基础行业标签对应的兴趣人群,并计算得到兴趣评分;对兴趣评分进行排序,按照从大到小的顺序选择出目标推荐平台,用以在目标推荐平台进行信息推荐,根据客户端的意图标签,为客户端匹配目标推荐平台,使得客户端的使用者可定向进行信息推荐,实现信息推荐的精确度。
在本实施例的一些可选的实现方式中,步骤S101中,接收客户端的信息查询请求,从信息查询请求中获取关键词,并基于意图识别模型对关键词进行意图识别,得到用户的意图标签包括:
S1011,从信息查询请求中获取搜索文本,采用预设的分词算法对搜索文本进行分词,得到分词结果,并将分词结果作为关键词。
其中,对获取的搜索文本以字符为单位进行切分处理,对切分得到的字符按照预设的字符特征进行特征标注,得到特征字符串;采用预设的分词算法或者预先训练的分词模型对特征字符串进行分词处理,得到分词结果,其中分词结果包括每个字符的顺序信息。
其中,分词模型的训练方法包括如下步骤:
采集训练语料,将训练语料以字符为单位进行切分,按照预先设置的字符特征进行特征标注,得到特征字符串;通过CRF算法,对特征字符串采用分类标签方式进行训练,得到分词模型。
示例性地,训练语料为“搜索文本”,字符特征包括:汉字(HAN)、英文字符(ALPHA)、数字(NUM)、时间(TIME)、符号(SIG)以及其他(OTHER)。特征字符串为:搜HAN;索HAN;文HAN;本HAN;。
分类标签可以根据每个字符的顺序得到,例如,B表示词的开头,即词首;E表示词的最后一个字,即词尾;M表示词中间最靠近词尾E的字,M1、M2分别表示词中间的第一及第二个字。
分类标签根据成词规律进行标注,以字符为单位,对文本中的实体词和非实体词进行字符特征标注。“搜”作为词首,“索”作为词尾;“文”作为词首,“本”作为词尾,形成“搜索”和“文本”。
作为一种可选方式,根据词性标注算法或者训练好的词性标注对分词结果进行词性标注,将词性为名词的特征词作为关键词。
S1012,将关键词输入到预先训练的意图识别模型中进行训练,得到与关键词对应的意图标签。
其中,意图识别模型是指针对文本等输入内容,确定该输入内容所希望达到的目的。对于意图识别,在对话***以及问答***中有着广泛的应用。
在本实施例中,通过意图识别模型对客户端的信息搜索内容进行识别,以得到对应的意图标签。
在本实施例中,通过对客户端的信息搜索文本进行意图识别,以得到客户端希望达到的内容,作为意图标签,以提高对搜索信息的匹配精确度。
在本实施例的一些可选的实现方式中,步骤S1012中,意图识别模型的训练方法包括如下步骤a至d:
a,获取训练语料,训练语料标注有初始意图标签。
其中,初始意图标签可以人工标注在训练语料中。
b,调用神经网络模型对训练语料进行特征学习,得到语料表征向量。
其中,神经网络模型宝库文本标注层、词嵌入层和双向编码器标识(BidirectionalEncoderRepresentationfromTransformers,BERT)模型,BERT模型是用于学习训练样本的语义表征,即用于学习训练样本的意图。作为一种可选方式,还可以采用长短期记忆网络(LongshortTermMemory,LSTM)模型或者卷积神经网络(ConvolutionalNeuralNetwork,CNN)模型来学习训练样本的语义表征。
c,计算语料表征向量与初始意图标签的损失,生成意图标签损失。
其中,生成初始意图标签的表征向量,并根据相似度预测函数计算预料表征向量与初始意图标签的表征向量之间的相似度,并基于相似度确定意图标签损失。
d,通过意图标签损失对神经网络模型进行反向传播训练,得到训练完成的意图识别模型。
基于意图标签损失对神经网络模型进行反向传播训练,调整神经网络模型中的模型参数,经过多个训练语料的依次训练,最终得到完成的意图识别模型。
在本实施例中,使用神经网络模型进行训练,得到意图识别模型,将信息搜索内容中的关键词输入到意图识别模型中生成意图标签,以提高识别客户端的输入内容的意图的准确性,在此基础上提高进行信息推荐的效果。
在本实施例的一些可选的实现方式中,步骤S102,意图标签与预设的行业标签候选集进行匹配,得到匹配结果的步骤包括:
S1021,将意图标签输入到预设的文本编码器中进行编码,得到意图标签向量。
其中,将意图标签对应的文本映射为字符序列,并将字符序列映射为实数域上的向量,生成意图标签向量。
S1022,计算得到基础行业标签的基础行业标签向量,并比较意图标签向量与基础行业标签向量的相似度,得到比较结果。
其中,生成基础行业标签向量,并根据相似度预测算法计算基础行业标签和意图标签向量之间的相似度。
示例性地,相似度预测算法包括加性角度间隔损失(AdditiveAngularMarginLoss)函数等。
S1023,根据比较结果,得到与意图标签最接近的基础行业标签,作为匹配结果。
计算得到意图标签向量和每个基础行业标签向量的相似度,将相似度最小的基础行业标签作为匹配结果。
在本实施例中,通过相似度预测算法,计算得到意图标签和基础行业标签的相似度,并将相似度最小的基础行业标签,作为目标行业标签。目标行业标签与意图标签最接近,根据目标行业标签获取对应的兴趣人群,该兴趣人群与原始的意图标签对应的兴趣人群重叠度更高,在此基础上,得到的兴趣人群的结果更准确。
在本实施例的一些可选的实现方式中,步骤S104中,基于目标行业标签,调用接口从至少两个预设平台中,获取与目标行业标签对应的兴趣人群,并计算每个预设平台中兴趣人群的兴趣评分的步骤包括:
S1041,获取预设平台的历史访问数据,根据历史访问数据的类别进行分类,生成分类标签。
S1042,基于分类算法,获取与目标行业标签对应的分类标签,并将符合目标行业标签的历史访问数据的用户群体作为兴趣人群。
其中,分类算法的目的是获取历史数据的分类,以得到每条历史数据对应的兴趣人群。其中,常用的分类算法有KNN(K-nearestneighborsalgorithm)。
根据基础行业标签为历史访问数据打上对应的基础行业标签,根据分类算法将基础行业标签相似的历史访问数据归为一类。并将与目标行业标签对应的历史访问数据归为兴趣人群。
S1043,根据兴趣人群的历史访问数据对分类标签的访问频次,计算得到兴趣人群的兴趣评分。
其中,根据某一预设平台的所有分区的历史访问数据,根据分区对历史访问数据进行分类,得到分类标签;查找与目标行业标签的对应的分类标签,并将具有该分类标签的历史访问数据划分为兴趣人群。并根据历史访问数据的访问频次,计算得到兴趣人群的兴趣评分。
在本实施例中,通过计算出兴趣评分,根据兴趣评分判断预设平台对目标行业标签的兴趣程度,可以作为推荐指标选择对应的平台进行信息推荐,可以提高进行信息推荐的定向程度,提高信息推荐的效益。
在本实施例的一些可选的实现方式中,步骤S105,对每个兴趣人群的兴趣评分按照由大到小的顺序进行排序,得到排序结果,并按照先后顺序,从排序结果中选取预设个数的预设平台,作为目标推荐平台,并采用目标推荐平台进行信息推荐的步骤包括:
S1051,基于排序算法,对每个预设平台的兴趣评分按照从大到小的顺序进行排序,得到排序结果。
其中,排序算法根据特定算法将一组或多组数据按照既定模式重新排序,经过排序算法处理后的数据便于筛选和计算,提高了计算效率。
其中,排序算法可以采用快速排序(Quicksort)算法,快速排序算法是对冒泡排序的一种改进算法。
在本实施例中,在多个兴趣评分中,选择一个兴趣评分作为基准数,将小于该基准数的兴趣评分移到基准数的左边,大于基准数的兴趣评分移到基准数的右边,将基准数左边的兴趣评分作为一个子集,基准数右边的兴趣评分作为一个子集;分别对上述两个子集重复上述操作,直到所有兴趣评分有序。
采用排序算法对多个兴趣评分进行排序,经过排序处理的兴趣评分便于筛选,提高了计算效率。
S1052,按照先后顺序对排序结果进行筛选,得到预设个数的预设平台,作为目标推荐平台。
在本实施例中,根据客户端需求,设定选择的预设平台的数量作为预设个数。示例性地,客户端需要选择出两个目标推荐平台,则将排序结果中前两个预设平台作为目标推荐平台。
S1053,基于客户端的信息推荐请求,在目标推荐平台为客户端进行信息推荐。
在本实施例中,通过排序,根据兴趣评分对预设平台进行排序,得到排序结果,按照预计个数将兴趣评分最高的几个预设平台选择出来,作为目标推荐平台,客户端则以目标推荐平台为载体,实施信息推荐。将兴趣评分为结果导向,为客户端选取最能实现信息推荐的经济效益的目标推荐平台进行推荐,实现精准化推荐,提高信息推荐的效益。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于用户画像的推荐装置,该基于用户画像的推荐装置与上述实施例中基于用户画像的推荐方法一一对应。如图3所示,该基于用户画像的推荐装置包括如下模块:
意图标签生成模块31,用于接收客户端的信息查询请求,从信息查询请求中获取关键词,并基于意图识别模型对关键词进行意图识别,得到用户的意图标签;
标签匹配模块32,用于将意图标签与预设的行业标签候选集进行匹配,得到匹配结果,其中,预设的行业标签候选集包括至少两个基础行业标签;
目标行业标签生成模块33,用于根据匹配结果,从行业标签候选集中选取与意图标签对应的基础行业标签,作为目标行业标签;
兴趣评分计算模块34,用于基于目标行业标签,调用接口从至少两个预设平台中,获取与目标行业标签对应的兴趣人群,并计算每个预设平台中兴趣人群的兴趣评分;
信息推荐模块35,用于对每个兴趣人群的兴趣评分按照由大到小的顺序进行排序,得到排序结果,并按照先后顺序,从排序结果中选取预设个数的预设平台,作为目标推荐平台,并采用目标推荐平台进行信息推荐。
在本实施例的一些可选的实现方式中,意图标签生成模块31包括如下单元:
关键词生成单元,用于从所述信息查询请求中获取搜索文本,采用预设的分词算法对所述搜索文本进行分词,得到分词结果,并将所述分词结果作为关键词;
意图标签生成单元,用于将所述关键词输入到预先训练的所述意图识别模型中进行训练,得到与所述关键词对应的意图标签。
在本实施例的一些可选方式中,基于用户画像的推荐装置还包括如下模块:
训练语料获取模块,用于获取训练语料,训练语料标注有初始意图标签。
语料表征向量生成模块,用于调用神经网络模型对训练语料进行特征学习,得到语料表征向量。
意图标签损失生成模块,用于计算语料表征向量与初始意图标签的损失,生成意图标签损失。
模型训练模块,用于通过所属意图标签损失对神经网络模型进行反向传播训练,得到训练完成的意图识别模型。
在本实施例的一些可选的实现方式中,标签匹配模块32包括如下单元:
意图标签向量生成单元,用于将意图标签输入到预设的文本编码器中进行编码,得到意图标签向量。
比较结果计算单元,用于计算得到基础行业标签的基础行业标签向量,并比较意图标签向量与基础行业标签向量的相似度,得到比较结果。
匹配结果生成单元,用于根据比较结果,得到与意图标签最接近的基础行业标签,作为匹配结果。
在本实施例的一些可选的实现方式中,兴趣评分计算模块34包括如下单元:
分类标签生成单元,用于获取预设平台的历史访问数据,根据历史访问数据的类别进行分类,生成分类标签。
兴趣人群划分单元,用于基于分类算法,获取与目标行业标签对应的分类标签,并将符合目标行业标签的历史访问数据的用户群体作为兴趣人群。
兴趣评分计算单元,用于根据兴趣人群的历史访问数据对分类标签的访问频次,计算得到兴趣人群的兴趣评分。
在本实施例的一些可选的实现方式中,信息推荐模块35包括如下单元:
排序结果生成单元,用于基于排序算法,对每个预设平台的兴趣评分按照从大到小的顺序进行排序,得到排序结果。
目标推荐平台选取单元,用于按照先后顺序对排序结果进行筛选,得到预设个数的预设平台,作为目标推荐平台。
信息推荐单元,用于基于客户端的信息推荐请求,在目标推荐平台为客户端进行信息推荐。
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于基于用户画像的推荐装置的具体限定可以参见上文中对于基于用户画像的推荐方法的限定,在此不再赘述。上述基于用户画像的推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于用户画像的推荐方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于用户画像的推荐方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中基于用户画像的推荐方法的步骤,例如图2所示的步骤S101至步骤S105及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机程序时实现上述实施例中基于用户画像的推荐装置的各模块/单元的功能,例如图3所示模块31至模块35的功能。为避免重复,这里不再赘述。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中基于用户画像的推荐方法的步骤,例如图2所示的步骤S101至步骤S105及该方法的其它扩展和相关步骤的延伸。或者,计算机程序被处理器执行时实现上述实施例中基于用户画像的推荐装置的各模块/单元的功能,例如图3所示模块31至模块35的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于用户画像的推荐方法,其特征在于,所述方法包括:
接收客户端的信息查询请求,从所述信息查询请求中获取关键词,并基于意图识别模型对所述关键词进行意图识别,得到所述用户的意图标签;
将所述意图标签与预设的行业标签候选集进行匹配,得到匹配结果,其中,所述预设的行业标签候选集包括至少两个基础行业标签;
根据所述匹配结果,从所述行业标签候选集中选取与所述意图标签对应的基础行业标签,作为目标行业标签;其中,在行业标签候选集中设置两级纵向分类,一级行业标签中包括多个二级基础行业标签,计算得到一级行业标签的特征向量并与意图标签的特征向量进行比较筛选之后,在二级基础行业标签中进行匹配,以匹配到目标行业标签;所述基础行业标签为某一行业中出现频次较高的关键词;
基于所述目标行业标签,调用接口从至少两个预设平台中,获取与所述目标行业标签对应的兴趣人群,并计算每个所述预设平台中所述兴趣人群的兴趣评分;
对每个所述兴趣人群的所述兴趣评分按照由大到小的顺序进行排序,得到排序结果,并按照先后顺序,从所述排序结果中选取预设个数的所述预设平台,作为目标推荐平台,并采用所述目标推荐平台进行信息推荐;
所述基于所述目标行业标签,调用接口从至少两个预设平台中,获取与所述目标行业标签对应的兴趣人群,并计算每个所述预设平台中所述兴趣人群的兴趣评分的步骤包括:
获取所述预设平台的历史访问数据,根据历史访问数据的类别进行分类,生成分类标签;
基于分类算法,获取与所述目标行业标签对应的所述分类标签,并将符合所述目标行业标签的历史访问数据的用户群体作为兴趣人群;
根据所述兴趣人群的历史访问数据对所述分类标签的访问频次,计算得到所述兴趣人群的兴趣评分。
2.根据权利要求1所述的基于用户画像的推荐方法,其特征在于,所述接收客户端的信息查询请求,从所述信息查询请求中获取关键词,并基于意图识别模型对所述关键词进行意图识别,得到所述用户的意图标签的步骤包括:
从所述信息查询请求中获取搜索文本,采用预设的分词算法对所述搜索文本进行分词,得到分词结果,并将所述分词结果作为关键词;
将所述关键词输入到预先训练的所述意图识别模型中进行训练,得到与所述关键词对应的意图标签。
3.根据权利要求1所述的基于用户画像的推荐方法,其特征在于,所述意图识别模型的训练方法包括:
获取训练语料,所述训练语料标注有初始意图标签;
调用神经网络模型对所述训练语料进行特征学习,得到语料表征向量;
计算所述语料表征向量与所述初始意图标签的损失,生成意图标签损失;
通过所述意图标签损失对所述神经网络模型进行反向传播训练,得到训练完成的意图识别模型。
4.根据权利要求1所述的基于用户画像的推荐方法,其特征在于,所述将所述意图标签与预设的行业标签候选集进行匹配,得到匹配结果的步骤包括:
将所述意图标签输入到预设的文本编码器中进行编码,得到意图标签向量;
计算得到所述基础行业标签的基础行业标签向量,并比较所述意图标签向量与所述基础行业标签向量的相似度,得到比较结果;
根据比较结果,得到与所述意图标签最接近的基础行业标签,作为匹配结果。
5.根据权利要求1所述的基于用户画像的推荐方法,其特征在于,所述对每个所述兴趣人群的所述兴趣评分按照由大到小的顺序进行排序,得到排序结果,并按照先后顺序,从所述排序结果中选取预设个数的所述预设平台,作为目标推荐平台,并采用所述目标推荐平台进行信息推荐的步骤包括:
基于排序算法,对每个所述预设平台的兴趣评分按照从大到小的顺序进行排序,得到排序结果;
按照先后顺序对所述排序结果进行筛选,得到预设个数的所述预设平台,作为目标推荐平台;
基于所述客户端的信息推荐请求,在所述目标推荐平台为所述客户端进行信息推荐。
6.一种基于用户画像的推荐装置,其特征在于,包括:
意图标签生成模块,用于接收客户端的信息查询请求,从所述信息查询请求中获取关键词,并基于意图识别模型对所述关键词进行意图识别,得到所述用户的意图标签;
标签匹配模块,用于将所述意图标签与预设的行业标签候选集进行匹配,得到匹配结果,其中,所述预设的行业标签候选集包括至少两个基础行业标签;
目标行业标签生成模块,用于根据所述匹配结果,从所述行业标签候选集中选取与所述意图标签对应的基础行业标签,作为目标行业标签;其中,在行业标签候选集中设置两级纵向分类,一级行业标签中包括多个二级基础行业标签,计算得到一级行业标签的特征向量并与意图标签的特征向量进行比较筛选之后,在二级基础行业标签中进行匹配,以匹配到目标行业标签;所述基础行业标签为某一行业中出现频次较高的关键词;
兴趣评分计算模块,用于基于所述目标行业标签,调用接口从至少两个预设平台中,获取与所述目标行业标签对应的兴趣人群,并计算每个所述预设平台中所述兴趣人群的兴趣评分;
信息推荐模块,用于对每个所述兴趣人群的所述兴趣评分按照由大到小的顺序进行排序,得到排序结果,并按照先后顺序,从所述排序结果中选取预设个数的所述预设平台,作为目标推荐平台,并采用所述目标推荐平台进行信息推荐;
所述兴趣评分计算模块包括:
分类标签生成单元,用于获取预设平台的历史访问数据,根据历史访问数据的类别进行分类,生成分类标签。
兴趣人群划分单元,用于基于分类算法,获取与目标行业标签对应的分类标签,并将符合目标行业标签的历史访问数据的用户群体作为兴趣人群。
兴趣评分计算单元,用于根据兴趣人群的历史访问数据对分类标签的访问频次,计算得到兴趣人群的兴趣评分。
7.根据权利要求6所述的基于用户画像的推荐装置,其特征在于,所述意图标签生成模块包括:
关键词生成单元,用于从所述信息查询请求中获取搜索文本,采用预设的分词算法对所述搜索文本进行分词,得到分词结果,并将所述分词结果作为关键词;
意图标签生成单元,用于将所述关键词输入到预先训练的所述意图识别模型中进行训练,得到与所述关键词对应的意图标签。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述基于用户画像的推荐方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述基于用户画像的推荐方法的步骤。
CN202110741723.7A 2021-06-30 2021-06-30 基于用户画像的推荐方法、装置、计算机设备及存储介质 Active CN113569135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110741723.7A CN113569135B (zh) 2021-06-30 2021-06-30 基于用户画像的推荐方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110741723.7A CN113569135B (zh) 2021-06-30 2021-06-30 基于用户画像的推荐方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113569135A CN113569135A (zh) 2021-10-29
CN113569135B true CN113569135B (zh) 2024-03-29

Family

ID=78163294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110741723.7A Active CN113569135B (zh) 2021-06-30 2021-06-30 基于用户画像的推荐方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113569135B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598471A (zh) * 2020-12-25 2021-04-02 北京知因智慧科技有限公司 一种产品的推荐方法、推荐装置及电子设备
CN114117240B (zh) * 2021-12-09 2022-07-08 北京国信达数据技术有限公司 基于大数据需求分析的互联网内容推送方法及ai***
CN114338586B (zh) * 2021-12-21 2024-05-28 中国农业银行股份有限公司 一种消息推送方法、装置、电子设备及存储介质
CN114741606A (zh) * 2022-04-27 2022-07-12 盐城金堤科技有限公司 企业推荐方法、装置、计算机可读介质及电子设备
CN117668349A (zh) * 2022-08-30 2024-03-08 华为技术有限公司 信息推荐方法、电子设备及服务器
CN116205679B (zh) * 2023-02-27 2023-10-31 深圳市秦丝科技有限公司 实体店铺营销推荐方法、装置、电子设备及存储介质
CN116821475B (zh) * 2023-05-19 2024-02-02 广州蜜糖网络科技有限公司 基于客户数据的视频推荐方法、装置及计算机设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832414A (zh) * 2017-11-07 2018-03-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN109829020A (zh) * 2018-12-20 2019-05-31 平安科技(深圳)有限公司 地点资源数据推送方法、装置、计算机设备和存储介质
CN111259281A (zh) * 2020-01-20 2020-06-09 腾讯科技(深圳)有限公司 商户标签的确定方法、装置及存储介质
CN111368210A (zh) * 2020-05-27 2020-07-03 腾讯科技(深圳)有限公司 基于人工智能的信息推荐方法、装置以及电子设备
CN111382252A (zh) * 2020-02-25 2020-07-07 支付宝(杭州)信息技术有限公司 基于用户请求的问题类别确定方法、装置、设备及介质
CN111753199A (zh) * 2020-06-22 2020-10-09 北京百度网讯科技有限公司 用户画像构建方法及设备、电子设备和介质
CN111949869A (zh) * 2020-08-11 2020-11-17 杭州鑫通信息技术有限公司 一种基于人工智能的内容信息推荐方法及***
CN111966948A (zh) * 2020-09-25 2020-11-20 北京百度网讯科技有限公司 信息投放方法、装置、设备及存储介质
CN112148959A (zh) * 2019-06-27 2020-12-29 百度在线网络技术(北京)有限公司 信息推荐方法和装置
CN112380331A (zh) * 2020-11-16 2021-02-19 北京京东尚科信息技术有限公司 信息推送的方法和装置
CN112667894A (zh) * 2020-12-25 2021-04-16 特赞(上海)信息科技有限公司 内容推荐方法、装置、设备和存储介质
CN112818224A (zh) * 2021-01-26 2021-05-18 北京百度网讯科技有限公司 信息推荐方法、装置、电子设备及可读存储介质
CN112818218A (zh) * 2021-01-21 2021-05-18 中国平安人寿保险股份有限公司 信息推荐方法、装置、终端设备及计算机可读存储介质
CN112905942A (zh) * 2021-03-08 2021-06-04 平安四众(北京)互联网平台有限公司 一种基于或囊括互联网与人智能交互体验平台

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832414A (zh) * 2017-11-07 2018-03-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN109829020A (zh) * 2018-12-20 2019-05-31 平安科技(深圳)有限公司 地点资源数据推送方法、装置、计算机设备和存储介质
CN112148959A (zh) * 2019-06-27 2020-12-29 百度在线网络技术(北京)有限公司 信息推荐方法和装置
CN111259281A (zh) * 2020-01-20 2020-06-09 腾讯科技(深圳)有限公司 商户标签的确定方法、装置及存储介质
CN111382252A (zh) * 2020-02-25 2020-07-07 支付宝(杭州)信息技术有限公司 基于用户请求的问题类别确定方法、装置、设备及介质
CN111368210A (zh) * 2020-05-27 2020-07-03 腾讯科技(深圳)有限公司 基于人工智能的信息推荐方法、装置以及电子设备
CN111753199A (zh) * 2020-06-22 2020-10-09 北京百度网讯科技有限公司 用户画像构建方法及设备、电子设备和介质
CN111949869A (zh) * 2020-08-11 2020-11-17 杭州鑫通信息技术有限公司 一种基于人工智能的内容信息推荐方法及***
CN111966948A (zh) * 2020-09-25 2020-11-20 北京百度网讯科技有限公司 信息投放方法、装置、设备及存储介质
CN112380331A (zh) * 2020-11-16 2021-02-19 北京京东尚科信息技术有限公司 信息推送的方法和装置
CN112667894A (zh) * 2020-12-25 2021-04-16 特赞(上海)信息科技有限公司 内容推荐方法、装置、设备和存储介质
CN112818218A (zh) * 2021-01-21 2021-05-18 中国平安人寿保险股份有限公司 信息推荐方法、装置、终端设备及计算机可读存储介质
CN112818224A (zh) * 2021-01-26 2021-05-18 北京百度网讯科技有限公司 信息推荐方法、装置、电子设备及可读存储介质
CN112905942A (zh) * 2021-03-08 2021-06-04 平安四众(北京)互联网平台有限公司 一种基于或囊括互联网与人智能交互体验平台

Also Published As

Publication number Publication date
CN113569135A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN113569135B (zh) 基于用户画像的推荐方法、装置、计算机设备及存储介质
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN108491433B (zh) 聊天应答方法、电子装置及存储介质
US9449271B2 (en) Classifying resources using a deep network
CN110659366A (zh) 语义解析方法、装置、电子设备以及存储介质
US20160034512A1 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
CN110321537B (zh) 一种文案生成方法和装置
CN114528844A (zh) 意图识别方法、装置、计算机设备及存储介质
US11947920B2 (en) Man-machine dialogue method and system, computer device and medium
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN110929524A (zh) 数据筛选方法、装置、设备及计算机可读存储介质
CN113961666B (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN114443850B (zh) 基于语义相似模型的标签生成方法、***、装置和介质
CN112380421A (zh) 简历的搜索方法、装置、电子设备及计算机存储介质
CN114399396A (zh) 保险产品推荐方法、装置、计算机设备及存储介质
CN114492669B (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN111506596A (zh) 信息检索方法、装置、计算机设备和存储介质
CN113111198B (zh) 基于协同过滤算法的演示文稿推荐方法及相关设备
CN108536791B (zh) 基于神经网络的搜索方法、设备及存储介质
CN109726386B (zh) 一种词向量模型生成方法、装置和计算机可读存储介质
US10896183B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable recording medium
CN111191011B (zh) 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN110262906B (zh) 接口标签推荐方法、装置、存储介质和电子设备
CN112527985A (zh) 未知问题处理方法、装置、设备及介质
CN111753199B (zh) 用户画像构建方法及设备、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant