CN112989824A - 信息推送方法及装置、电子设备及存储介质 - Google Patents
信息推送方法及装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112989824A CN112989824A CN202110515156.3A CN202110515156A CN112989824A CN 112989824 A CN112989824 A CN 112989824A CN 202110515156 A CN202110515156 A CN 202110515156A CN 112989824 A CN112989824 A CN 112989824A
- Authority
- CN
- China
- Prior art keywords
- information
- content
- user
- keyword
- pushed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种信息推送方法,包括:获取与当前应用关联的用户生成内容的元数据,并在所述元数据中提取第一关键词;根据所述第一关键词以及所述第一关键词的权重,生成所述目标用户的用户兴趣画像,其中,所述用户兴趣画像包括:表征所述目标用户感兴趣内容的至少一个用户标签;根据待推送信息的第二关键词以及所述第二关键词的权重,生成所述待推送信息的信息内容画像,其中,所述信息内容画像,包括指示所述待推送信息的信息内容的至少一个内容标签;根据所述用户兴趣画像和所述信息内容画像,从所述待推送信息中选择至少一个信息推送给所述目标用户。如此,根据用户兴趣画像选取待推送信息,实现推送信息贴合用户感兴趣内容。
Description
技术领域
本发明涉及信息处理领域,尤其涉及一种信息推送方法及装置、电子设备及存储介质。
背景技术
现有技术中对于用户兴趣画像的构建,通常是将用户浏览的网页文本映射到表征相应兴趣点的本体概念词上,以确定用户感兴趣的本体概念词。但是由于网页文本中蕴含大量的干扰信息,例如广告、导航栏以及用户误操作等,使得构造的用户兴趣画像中的兴趣点标签存在较多的干扰信息,导致用户兴趣画像不准确,从而对于待推送给用户的广告、文本等信息,无法有效与用户感兴趣的内容匹配。
发明内容
有鉴于此,本发明实施例提供一种信息推送方法及装置、电子设备及存储介质。
本发明的技术方案是这样实现的:
第一方面,本发明实施例提供一种信息推送方法,包括:
获取与当前应用关联的用户生成内容的元数据,并在元数据中提取第一关键词;
根据第一关键词以及第一关键词的权重,生成目标用户的用户兴趣画像,其中,用户兴趣画像包括:表征目标用户感兴趣内容的至少一个用户标签;
根据待推送信息的第二关键词以及第二关键词的权重,生成待推送信息的信息内容画像,其中,信息内容画像,包括指示待推送信息的信息内容的至少一个内容标签;
根据用户兴趣画像和信息内容画像,从待推送信息中选择至少一个信息推送给目标用户。
进一步地,在元数据中提取第一关键词,包括:
对元数据进行分词处理,得到词序列;其中,词序列包括多个词;
去除词序列中的停用词;
从去除停用词的词序列中,提取出信息熵和/或出现频次满足预设条件的第一关键词。
进一步地,提取出信息熵和/或出现频次满足预设条件的第一关键词,包括:
针对多个预设类别,分别提取出每个预设类别中信息熵和/或出现频次满足预设条件的第一关键词。
进一步地,所述方法还包括:
根据待推送信息中与每个词语搭配出现的其他词语的数量,确定每个词语的信息熵;
根据信息熵的大小,从待推送信息包含的全部词语中选择第二关键词。
进一步地,用户兴趣画像包括:多个用户标签,多个用户标签依次排序形成第一向量;
信息内容画像包括:多个内容标签,多个内容标签依次排序形成第二向量;
根据用户兴趣画像和信息内容画像,从待推送信息中选择至少一个信息推送给目标用户,包括:
根据第一向量和第二向量之间的向量距离,确定用户兴趣画像与信息内容画像的相似度;
从待推送信息中选择相似度最高的至少一个信息内容画像对应的信息推送给目标用户。
进一步地,从待推送信息中选择相似度最高的至少一个信息内容画像对应的信息推送给目标用户,包括:
从待推送信息中选择相似度最高的预设数量个信息内容画像对应的信息;
根据内容标签对预设数量的信息进行分类;
根据用户标签,在对应的内容标签的分类中,选择相似度最高的至少一个信息内容画像对应的信息推送给目标用户。
进一步地,用户标签包括:一个第一关键词以及第一关键词的权重;其中,不同第一关键词的权重不同。
第二方面,本发明实施例提供一种信息推送装置,包括:
获取单元,用于获取与当前应用关联的用户生成内容的元数据,并在元数据中提取第一关键词;
生成单元,用于根据第一关键词以及第一关键词的权重,生成目标用户的用户兴趣画像,其中,用户兴趣画像包括:表征目标用户感兴趣内容的至少一个用户标签;根据待推送信息的第二关键词以及第二关键词的权重,生成待推送信息的信息内容画像,其中,信息内容画像,包括指示待推送信息的信息内容的至少一个内容标签;
推送单元,用于根据用户兴趣画像和信息内容画像,从待推送信息中选择至少一个信息推送给目标用户。
第三方面,本发明实施例提供一种电子设备,所述电子设备包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;
处理器运行所述计算机程序时,执行前述一个或多个技术方案所述方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令;计算机可执行指令被处理器执行后,能够实现前述一个或多个技术方案所述方法。
本发明提供的信息推送方法,包括:获取与当前应用关联的用户生成内容的元数据,并在所述元数据中提取第一关键词;根据第一关键词以及第一关键词的权重,生成目标用户的用户兴趣画像,其中,用户兴趣画像包括:表征目标用户感兴趣内容的至少一个用户标签;根据待推送信息的第二关键词以及第二关键词的权重,生成待推送信息的信息内容画像,其中,信息内容画像,包括指示待推送信息的信息内容的至少一个内容标签;根据用户兴趣画像和信息内容画像,从待推送信息中选择至少一个信息推送给目标用户。如此,通过用户自身在应用中生成的内容提取关键词,降低其他操作对判断用户兴趣内容的干扰,提取到的关键词更加符合用户的感兴趣内容。基于此,分别对用户兴趣及待推送信息内容进行画像,更加易于根据画像的特点选取贴近用户感兴趣内容的信息。
附图说明
图1 为本发明实施例提供的一种信息推送方法的流程示意图;
图2 为本发明实施例提供的一种信息推送方法的流程示意图;
图3 为本发明实施例提供的一种信息推送方法的流程示意图;
图4 为本发明实施例提供的一种信息推送方法的流程示意图;
图5 为本发明实施例提供的一种信息推送方法的流程示意图;
图6 为本发明实施例提供的一种信息推送方法的流程示意图;
图7 为本发明实施例提供的一种信息推送装置的结构示意图;
图8 为本发明实施例提供的一种信息推送方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
如图1所示,本发明实施例提供一种信息推送方法,包括:
S110:获取与当前应用关联的用户生成内容的元数据,并在所述元数据中提取第一关键词;
S120:根据所述第一关键词以及所述第一关键词的权重,生成所述目标用户的用户兴趣画像,其中,所述用户兴趣画像包括:表征所述目标用户感兴趣内容的至少一个用户标签;
S130:根据待推送信息的第二关键词以及所述第二关键词的权重,生成所述待推送信息的信息内容画像,其中,所述信息内容画像,包括指示所述待推送信息的信息内容的至少一个内容标签;
S140:根据所述用户兴趣画像和所述信息内容画像,从所述待推送信息中选择至少一个信息推送给所述目标用户。
这里,应用可以为各种社交类应用、阅读类应用、媒体类应用等,例如,可以为微博、知乎等。待推送信息可以为应用中需要向目标用户进行推荐投放的内容,例如,可以为广告文本信息、可能感兴趣的其他用户信息、音视频、文章、图片或者可能感兴趣的其他文本信息等,其中,广告文本信息可以包括:商业广告、慈善广告等各种类型的广告文本信息。以应用为微博为例,则待推送信息可以为广告微博、可能感兴趣的博主信息或者微博正文等内容。
在本发明实施例中,用户生成内容,也称UGC(User-generated content,UGC),通常指用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户。这里,用户生成内容可以包括基于用户原创所生成的各种文本内容,例如,以应用为微博为例,用户生成内容可以包括用户发布的原创微博内容、发布的评论内容、以及在搜索栏输入并进行搜索浏览的文字内容等。与当前应用关联的用户生成内容的元数据,可以为当前应用中记录用户各种原创文本内容的日志数据。
在一个实施例中,获取与当前应用关联的用户生成内容的元数据,可以通过网络爬虫对当前应用的网页信息以及用户生成内容的元数据进行爬取。例如,可以基于Scrapy框架爬取应用的日志数据。
在一个实施例中,以应用为微博为例,基于Scrapy框架爬取日志数据,包括:确定目标用户的人物节点,例如在记录的多个用户的微博日志数据中,根据目标用户的身份标识信息定位与该身份标识信息对应的日志数据;爬取目标用户日志数据中的用户生成内容,例如,爬取目标用户发布过的原创微博内容、发布过的评论内容以及搜索过的文本内容等。
在另一个实施例中,获取到与当前应用关联的用户生成内容的元数据之后,对元数据的内容进行预处理,包括:提取文本内容,可以为基于预设的标签对元数据进行提炼,得到每个预设标签对应的文本内容,例如,可以基于所需提取的文本内容在日志数据中的固定格式,通过正则匹配对元数据进行提取,得到目标用户发布的每条微博的正文内容、所发表过的评论内容等文本内容。如此,基于正则表达式匹配文本内容,可以有效滤除日志数据中存在的噪音数据,例如微博内容中表示提醒其他用户的“@XXX”内容、表征链接到网站入口的统一资源***(Uniform Resource Locator,URL)的“URL”内容以及表征微博文本内容中表情符的“[XX]”内容等。通过正则匹配提取文本内容,获取最具有利用价值的文本内容。
在一个实施例中,在爬取日志数据并进行文本内容的提取后,提取文本内容中的第一关键词,例如,可以通过卡方检验CHI按照多个类别对文本内容中的关键词进行提取,也可以基于中科院计算技术研究所汉语词法分析***(Institute of ComputingTechnology Chinese Lexical Analysis System,ICTCLAS)进行关键词提取。提取到至少一个第一关键词后,可以根据第一关键词出现的频次、与文本内容的相关度或者信息熵等确定每个第一关键词的权重,例如,权重与第一关键词在文本内容内出现的频次成正比;也可以通过词频-逆文本频率指数(Term Frequency-Inverse DocumentFrequency,TFIDF)确定每个第一关键词的权重。权重越高,表明对应的第一关键词与文本内容关联性越强,越能代表用户的兴趣。
在另一个实施例中,针对目标用户U生成用户兴趣画像,用于表征目标用户的兴趣偏好,包括至少一个用户标签,每个用户标签可以包括一组第一关键词与第一关键词权重。针对第i条待推送信息生成信息内容画像,用于表征该待推送信息的内容,包括至少一个内容标签,每个内容标签可以包括一个第二关键词。
基于此,针对用户和待推送信息生成具体的用户兴趣画像与信息内容画像,进而可以确定二者的吻合度或者相似度等,用于更准确地在多个待推送信息中选择最符合目标用户兴趣的信息进行推送。如此,基于用户生成内容提取关键词,由于用户生成内容具备高度的原创性,可以更加准确地体现用户主观兴趣偏好,并有效抑制用户其他无关操作或者误操作影响用户兴趣画像的生成。通过提取文本内容,大大降低干扰数据的影响,提高用户兴趣画像与用户实际感兴趣内容的吻合度。在此基础上,可以实现推送信息最大程度贴近用户感兴趣的内容,提高用户的使用体验。
在一些实施例中,如图2所示,所述S110,包括:
S111:获取与当前应用关联的用户生成内容的元数据,并对所述元数据进行分词处理,得到词序列;其中,所述词序列包括多个词;
S112:去除所述词序列中的停用词;
S113:从去除停用词的所述词序列中,提取出信息熵和/或出现频次满足预设条件的所述第一关键词。
在本发明实施例中,对元数据进行分词处理,可以为通过ICTCLAS对元数据进行分词处理,也可以通过Stanford分词开源工具等其它工具、算法等进行分词处理。
在一个实施例中,以当前应用为微博为例,获取目标用户生成内容的微博日志数据后,对日志数据进行文本内容的提取,进而对提取到的文本内容进行分词处理,使文本内容具有具体的词语划分,形成由多个词语组成的词序列。
在一个实施例中,进行分词处理后,对词序列进行停用词去除。停用词为处理文本数据时文本中存在的不具有具体含义的词语,例如,“的”、“在”、“a”、“the”等功能词。对停用词进行去除,可以通过预设的停用词表,基于词语匹配的方式对词序列中存在的停用词进行检索和过滤。
在另一个实施例中,对于经过分词和停用词去除后的词序列,可以基于每个词语在文本中出现的频次和/或信息熵来判断第一关键词,其中,信息熵表征每个词语的左右可搭配词语的数量,信息熵越大,表明可以与该词语搭配出现的词语越丰富,则该词语可能为关键词。
相应地,对第一关键词的权重,亦可根据第一关键词出现的频次和/或信息熵等来确定,例如,第一关键词在文本内容中出现的频次越高,对应的权重越高。此外,也可以通过TFIDF确定每个第一关键词的权重。
在另一个实施例中,对于经过分词和停用词去除后的词序列,也可以通过卡方检验CHI按照多个类别对文本内容中的第一关键词进行提取,也可以基于ICTCLAS等其他方式进行第一关键词的提取。
如此,对元数据进行分词和停用词过滤,可以实现元数据文本内容的优化,使文本内容的词语划分清晰准确,抑制前后词语之间的混淆导致关键词提取不准确,以及降低无意义的功能词对关键词提取的干扰,从而更加便于在元数据中提取第一关键词。
在一些实施例中,如图3所示,所述S113,包括:
S1131:从去除停用词的所述词序列中,针对多个预设类别,分别提取出每个所述预设类别中信息熵和/或出现频次满足预设条件的所述第一关键词。
在本发明实施例中,针对经过分词处理和停用词过滤的词序列,可以采用卡方检验CHI进行关键词提取,对多个预设类别在词序列中分别提取可以表征每个类别的第一关键词。例如,对于类别“体育”,基于CHI确定词序列中与该类别相关度最高的,或者信息熵最大的或者出现频次满足预设条件的词语为“篮球”,则“体育”类别在本词序列中的第一关键词为“篮球”。
如此,基于预设类别的分类,可以更加细致精确地分别确定不同类别对应的第一关键词,抑制仅对整个词序列进行笼统的关键词提取导致关键词提取不充分,使根据第一关键词生成的用户生成画像更加全面。
在一些实施例中,如图4所示,所述方法还包括:
S101:根据所述待推送信息中与每个词语搭配出现的其他词语的数量,确定每个所述词语的信息熵;
S102:根据所述信息熵的大小,从所述待推送信息包含的全部词语中选择第二关键词。
在本发明实施例中,根据待推送信息中每个词语的信息熵大小,选择待推送信息的第二关键词,例如,可以通过ICTCLAS基于信息熵对待推送信息进行第二关键词的提取。基于此,信息内容画像中,从到可以为待推送信息中信息熵从大到小的顺序依次排列的n个第二关键词。
在一个实施例中,确定每个词语的信息熵可以包括分别确定每个词语的左信息熵和右信息熵,其中左信息熵与右信息熵之和为信息熵。左信息熵可根据待推送信息中与词语搭配出现且位于所述词语左侧的其他词语数量来确定,右信息熵可根据待推送信息中与词语搭配出现且位于所述词语右侧的其他词语数量来确定。结合左信息熵和右信息熵,可以基于预设策略选择第二关键词,例如,可以根据词语的词性以及左信息熵或右信息熵共同达到一定条件,确定该词语为第二关键词。
如此,根据词语的搭配丰富度确定信息熵,进而基于信息熵的大小在待推送信息中选取第二关键词,可以使第二关键词更好地体现待推送信息的内容,抑制仅根据出现频次选取第二关键词导致可能出现第二关键词无法准确表征信息内容的情况。
在一些实施例中,所述用户兴趣画像包括:多个用户标签,多个所述用户标签依次排序形成第一向量;
所述信息内容画像包括:多个内容标签,多个所述内容标签依次排序形成第二向量;
所述S140,如图5所示,包括:
S141:根据所述第一向量和第二向量之间的向量距离,确定所述用户兴趣画像与所述信息内容画像的相似度;
S142:从所述待推送信息中选择相似度最高的至少一个信息内容画像对应的信息推送给所述目标用户。
在本发明实施例中,用户兴趣画像以多个用户标签形成第一向量的形式生成,每个用户标签可以包括一个第一关键词以及该第一关键词的权重,例如,对于用户兴趣画像,每个用户标签包括一个第一关键词以及其权重,因此第一向量可以表示为。
信息内容画像以多个内容标签形成第二向量的形式生成,每个内容标签可以包括一个第二关键词,或者包括一个第二关键词以及该第二关键词的权重。例如,对于信息内容画像,每个内容标签可以包括一个第二关键词,因此第二向量可以表示为。
在一个实施例中,第一向量中的多个用户标签,可以根据第一关键词的权重进行排序,例如,从到,为第一关键词的权重从高到低依次排列,即第一向量中越靠前的用户标签越能代表用户的兴趣。同理,第二向量中的多个内容标签,也可以按对应的第二关键词的权重或信息熵排序。
在另一个实施例中,基于第一向量与第二向量计算用户兴趣画像与信息内容画像之间的相似度,进而根据相似度的大小,选取一定数量的与用户兴趣画像相似度最高的信息内容画像对应的信息,作为推送给目标用户的信息。
计算用户兴趣画像与信息内容画像的相似度,可以通过计算第一向量和第二向量之间的向量距离,例如,根据确定用户兴趣画像与信息内容画像的余弦相似度。此处,为第i个目标用户对应的第一向量,为第i条待推送信息对应的第二向量。余弦相似度值越高,表明该条信息的信息内容画像与用户兴趣画像越接近,目标用户对该信息感兴趣的可能性越高。根据需要推送的信息数量,例如需要向目标用户推送3条信息,则从所有的待推送信息中,选择与用户兴趣画像的余弦相似度最高的3个信息内容画像对应的信息,推送给目标用户。
在一些实施例中,如图6所示,所述S142,包括:
S1421:从所述待推送信息中选择相似度最高的预设数量个所述信息内容画像对应的信息;
S1422:根据所述内容标签对所述预设数量的信息进行分类;
S1423:根据所述用户标签,在对应的所述内容标签的分类中,选择相似度最高的至少一个信息内容画像对应的信息推送给所述目标用户。
在本发明实施例中,对与用户兴趣画像相似度较高的部分信息筛选出来并按每条信息的信息内容画像中的内容标签对这部分信息进行分类,例如,可以根据每条信息内容画像中权重最高的内容标签进行分类,或者根据每条信息内容画像中信息熵最大的第二关键词对应的内容标签进行分类。然后根据用户兴趣画像中的内容标签选择对应的分类下相似度最高的信息进行推送,例如,可以根据用户兴趣画像中权重最高的第一关键词选择对应的分类下相似度最高的信息。
示例性地,在所有待推送信息中,预设数量可以为100条,则将相似度最大的前100条信息选出,并按内容标签对应的第二关键词的信息熵,根据每条信息中信息熵最大的第二关键词对这100条信息进行分类,例如,信息熵最大的第二关键词均为“篮球”的20条信息分为同一类,均为“足球”的20条信息分为另一类,以此类推。若用户兴趣画像中权重最高的第一关键词为“篮球”,则在对应的“篮球”分类内的20条信息中,选择相似度最高的一条或多条信息进行推送。
在一个实施例中,从所有待推送信息中选取相似度最高的前100条信息,可以保存至待推荐数据库中并进行分类。若有向目标用户推送信息的需求,则根据权重最高的第一关键词在待推荐数据库中对应的分类进行是信息的选取。
在另一个实施例中,每隔一定时间对用户兴趣画像进行更新,例如,可以为每隔12小时重新生成一次用户兴趣画像,以实现对用户当前感兴趣内容的及时更新。相应地,对待推荐数据库中的信息也可以每隔12小时进行一次更新,或者间隔其他时长进行更新亦可,以保持待推荐数据库中信息与用户当前感兴趣内容的吻合。
如此,通过内容标签对预设数量的待推送信息进行分类,使得用户兴趣画像与信息内容画像可以基于更加细致划分的关键词进行匹配,从而大大提高对用户感兴趣的第一关键词的匹配,进而提高推送的信息与用户感兴趣内容的吻合程度。
在一些实施例中,所述用户标签,包括:一个所述第一关键词以及所述第一关键词的权重;其中,不同所述第一关键词的权重不同。
在本发明实施例中,当每个用户标签由一个关键词及其权重组成时,更利于对用户标签进行排序,如此,可以得到更加清晰表征用户感兴趣内容的第一向量,从而在基于相似度选取待推送信息时更加准确。
如图7所示,本发明实施例提供一种信息推送装置,包括:
获取单元110,用于获取与当前应用关联的用户生成内容的元数据,并在所述元数据中提取第一关键词;
生成单元120,用于根据所述第一关键词以及所述第一关键词的权重,生成所述目标用户的用户兴趣画像,其中,所述用户兴趣画像包括:表征所述目标用户感兴趣内容的至少一个用户标签;根据待推送信息的第二关键词以及所述第二关键词的权重,生成所述待推送信息的信息内容画像,其中,所述信息内容画像,包括指示所述待推送信息的信息内容的至少一个内容标签;
推送单元130,用于根据所述用户兴趣画像和所述信息内容画像,从所述待推送信息中选择至少一个信息推送给所述目标用户。
以下结合上述任一实施例提供一个具体示例:
本实施例提供一种基于微博用户兴趣画像的广告推荐方法,如图8所示,包括:
S1 使用基于Scrapy框架的爬虫获取分析微博用户兴趣画像所需的数据。Scrapy框架是一个为爬取网站数据、提取结构性数据而编写的应用框架。通过使用编程语言Python开发网页解析代码,结合项目管道将数据存储到基于分布式文件存储的开源数据库***MongoDB中。在爬取过程中,使用多线程方式创建多个爬虫线程并发爬取,调度器从优先队列取出URL分配给不同的线程抓取。网络爬虫主要选取微博用户作为特定初始对象进行爬取。首先定位需要爬取的人物节点,然后获取该人物节点相关的背景信息、社交信息和微博信息。其中背景信息包括人物身份标识信息(Identity Document,ID)、昵称和标签等,社交信息则是人物与其他用户之间的交互关系,而微博信息则包括用户发表的微博内容、发布的评论内容以及微博点名信息等。
S2 对爬取的数据进行数据预处理:因为网页内容主要由超文本标记语言(HyperText Markup Language,HTML)编写而成,所以对于网页信息的处理工作主要是对HTML语言的解析。由于HTML语言由标签组成,通过重点对不同标签以及标签内容的提取,即可提取相关文本内容。对于微博文本而言,需要从抓取的元数据中提炼出相关的信息,如用户ID、微博内容等信息。而提炼的过程则使用正则匹配的方式来对网页信息进行提取。正则表达式主要用于文本进行搜索和编辑,通过使用模式匹配从字符串中提取子字符串。通过正则表达式去除:1、@XXX类型(转发微博、提醒其他用户也会出现,属于噪音数据);2、URL类型(URL不会包含任何有用的信息,只是链接到其他网站的一个入口,属于噪音数据);3、表情符(新浪微博中的表情符通常是“[XX]”类型,属于噪音数据)等类型的数据。
S3 使用ICTCLAS开源工具进行分词处理:(ICTCLAS是一款处理中文文本的程序包,它可以完成文本分词、计算关键词、发现新词等文本处理任务)
停用词过滤:在微博分词过程中需要同时对微博文本中的停用词进行过滤。通过构建停用词表,将分词后得到的文本中的词与停用词表进行比对,若某个词存在于停用词表,则将该词从文本中剔除;相反,若某词没有匹配停用词表中的任意一个词,则该词保留,使用词语匹配的方式过滤微博文本中的停用词。
S4 (对用户兴趣画像)微博文本表示:
在对该文本文档进行中文分词处理后,对每个类别均采用CHI进行特征提取,选择能够代表该类别的特征词。在特征选择之后,采用TFIDF计算特征词的权重。使用向量空间模型(Vector Space Model,VSM),将用户U表示为: ,其中表示特征词,表示该特征词的权重。
S5 (对广告微博)微博的关键词抽取及向量空间表示:采用ICTCLAS进行微博关键词的抽取。ICTCLAS基于信息熵原理来提取文本中的关键词。利用信息熵抽取关键词主要是考虑该词的左右信息熵的值。一个词之所以能称为关键词,原因就在于这个词左右能搭配的词很丰富,即如果该词的左右信息熵都很大,那么这个词很有可能就是关键词。
S6 用户兴趣画像与广告微博相似度计算:
广告微博也进行微博文本表示,因此,用户画像中的兴趣画像及广告微博均为文本数据。根据先验知识,广告微博和用户兴趣画像越相似,表明用户对该广告微博越感兴趣。
用户兴趣画像已经表示为向量空间模型的形式,即将用户兴趣画像表示关键词加权重的向量形式,设为。对于广告微博文本采用向量空间模型得到广告微博文本向量,设为,则余弦相似度计算公式为:,表示用户兴趣画像和广告微博之间的相似度,其值越高,表明广告微博与用户兴趣画像越相似,用户对广告微博越感兴趣。根据广告微博与用户兴趣画像之间的相似度的值,得到待推荐的广告微博列表,选择待推荐的广告微博列表中相似度最大的前100条,作为最终的微博推荐结果,并保存在微博广告待推荐数据库中,将待推荐的广告微博列表进行归纳统计分析,进行分类,并标记关键词标识,并在每个分类中进行相似度从高到低的排序。
S7 推荐模块:在有推荐请求时,根据用户兴趣画像关键词标识在微博广告待推荐数据库中查找对应的关键词标识,并根据需要推荐的广告微博条数依次从高到低选取微博,再进行广告投放推荐。
S8 信息更新模块:根据用户兴趣画像的数据实时进行更新,并相应更新微博广告待推荐数据库,从而实现一种基于微博用户兴趣画像的广告推荐方法。
本发明实施例还提供一种电子设备,所述电子设备包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,处理器运行所述计算机程序时,执行前述一个或多个技术方案所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,计算机可执行指令被处理器执行后,能够实现前述一个或多个技术方案所述方法。
本实施例提供的计算机存储介质可为非瞬间存储介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它行驶的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的行驶实现,也可以采用硬件加软件功能单元的行驶实现。
在一些情况下,上述任一两个技术特征不冲突的情况下,可以组合成新的方法技术方案。
在一些情况下,上述任一两个技术特征不冲突的情况下,可以组合成新的设备技术方案。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种信息推送方法,其特征在于,所述方法包括:
获取与当前应用关联的用户生成内容的元数据,并在所述元数据中提取第一关键词;
根据所述第一关键词以及所述第一关键词的权重,生成目标用户的用户兴趣画像,其中,所述用户兴趣画像包括:表征所述目标用户感兴趣内容的至少一个用户标签;
根据待推送信息的第二关键词以及所述第二关键词的权重,生成所述待推送信息的信息内容画像,其中,所述信息内容画像,包括指示所述待推送信息的信息内容的至少一个内容标签;
根据所述用户兴趣画像和所述信息内容画像,从所述待推送信息中选择至少一个信息推送给所述目标用户。
2.根据权利要求1所述的方法,其特征在于,所述在所述元数据中提取第一关键词,包括:
对所述元数据进行分词处理,得到词序列;其中,所述词序列包括多个词;
去除所述词序列中的停用词;
从去除停用词的所述词序列中,提取出信息熵和/或出现频次满足预设条件的所述第一关键词。
3.根据权利要求2所述的方法,其特征在于,所述提取出信息熵和/或出现频次满足预设条件的所述第一关键词,包括:
针对多个预设类别,分别提取出每个所述预设类别中信息熵和/或出现频次满足预设条件的所述第一关键词。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述待推送信息中与每个词语搭配出现的其他词语的数量,确定每个所述词语的信息熵;
根据所述信息熵的大小,从所述待推送信息包含的全部词语中选择第二关键词。
5.根据权利要求1所述的方法,其特征在于,所述用户兴趣画像包括:多个用户标签,多个所述用户标签依次排序形成第一向量;
所述信息内容画像包括:多个内容标签,多个所述内容标签依次排序形成第二向量;
所述根据所述用户兴趣画像和所述信息内容画像,从所述待推送信息中选择至少一个信息推送给所述目标用户,包括:
根据所述第一向量和第二向量之间的向量距离,确定所述用户兴趣画像与所述信息内容画像的相似度;
从所述待推送信息中选择相似度最高的至少一个信息内容画像对应的信息推送给所述目标用户。
6.根据权利要求5所述的方法,其特征在于,所述从所述待推送信息中选择相似度最高的至少一个信息内容画像对应的信息推送给所述目标用户,包括:
从所述待推送信息中选择相似度最高的预设数量个所述信息内容画像对应的信息;
根据所述内容标签对所述预设数量的信息进行分类;
根据所述用户标签,在对应的所述内容标签的分类中,选择相似度最高的至少一个信息内容画像对应的信息推送给所述目标用户。
7.根据权利要求1所述的方法,其特征在于,所述用户标签,包括:一个所述第一关键词以及所述第一关键词的权重;其中,不同所述第一关键词的权重不同。
8.一种信息推送装置,其特征在于,所述装置包括:
获取单元,用于获取与当前应用关联的用户生成内容的元数据,并在所述元数据中提取第一关键词;
生成单元,用于根据所述第一关键词以及所述第一关键词的权重,生成目标用户的用户兴趣画像,其中,所述用户兴趣画像包括:表征所述目标用户感兴趣内容的至少一个用户标签;根据待推送信息的第二关键词以及所述第二关键词的权重,生成所述待推送信息的信息内容画像,其中,所述信息内容画像,包括指示所述待推送信息的信息内容的至少一个内容标签;
推送单元,用于根据所述用户兴趣画像和所述信息内容画像,从所述待推送信息中选择至少一个信息推送给所述目标用户。
9.一种电子设备,其特征在于,所述电子设备包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器运行所述计算机程序时,执行权利要求1至7任一项所述信息推送方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令;所述计算机可执行指令被处理器执行后,能够实现如权利要求1至7任一项所述信息推送方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110515156.3A CN112989824A (zh) | 2021-05-12 | 2021-05-12 | 信息推送方法及装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110515156.3A CN112989824A (zh) | 2021-05-12 | 2021-05-12 | 信息推送方法及装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112989824A true CN112989824A (zh) | 2021-06-18 |
Family
ID=76337615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110515156.3A Pending CN112989824A (zh) | 2021-05-12 | 2021-05-12 | 信息推送方法及装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989824A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114173200A (zh) * | 2021-12-06 | 2022-03-11 | 南京辰和软件有限公司 | 基于广电专网的视频管理推送方法及装置 |
CN115689616A (zh) * | 2022-12-20 | 2023-02-03 | 陕西长锦网络科技有限公司 | 基于大数据特征分析的云端内容推送方法及*** |
CN116760882A (zh) * | 2023-08-18 | 2023-09-15 | 广州朗歌信息技术有限公司 | 一种基于物联网的多媒体信息分发监管***及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605808A (zh) * | 2013-12-10 | 2014-02-26 | 合一网络技术(北京)有限公司 | 基于搜索的ugc推荐的方法及*** |
CN106126582A (zh) * | 2016-06-20 | 2016-11-16 | 乐视控股(北京)有限公司 | 推荐方法及装置 |
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN109190024A (zh) * | 2018-08-20 | 2019-01-11 | 平安科技(深圳)有限公司 | 信息推荐方法、装置、计算机设备及存储介质 |
CN111882370A (zh) * | 2020-09-27 | 2020-11-03 | 武汉卓尔数字传媒科技有限公司 | 一种广告推荐方法、装置和电子设备 |
-
2021
- 2021-05-12 CN CN202110515156.3A patent/CN112989824A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605808A (zh) * | 2013-12-10 | 2014-02-26 | 合一网络技术(北京)有限公司 | 基于搜索的ugc推荐的方法及*** |
CN106126582A (zh) * | 2016-06-20 | 2016-11-16 | 乐视控股(北京)有限公司 | 推荐方法及装置 |
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN109190024A (zh) * | 2018-08-20 | 2019-01-11 | 平安科技(深圳)有限公司 | 信息推荐方法、装置、计算机设备及存储介质 |
CN111882370A (zh) * | 2020-09-27 | 2020-11-03 | 武汉卓尔数字传媒科技有限公司 | 一种广告推荐方法、装置和电子设备 |
Non-Patent Citations (2)
Title |
---|
周朝阳等主编: "《大学生服务外包大赛案例解析》", 31 January 2019 * |
陶乾等著: "《群体智能与大数据分析技术》", 30 April 2018 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114173200A (zh) * | 2021-12-06 | 2022-03-11 | 南京辰和软件有限公司 | 基于广电专网的视频管理推送方法及装置 |
CN114173200B (zh) * | 2021-12-06 | 2022-08-26 | 江苏省广电有线信息网络股份有限公司镇江分公司 | 基于广电专网的视频管理推送方法及装置 |
CN115689616A (zh) * | 2022-12-20 | 2023-02-03 | 陕西长锦网络科技有限公司 | 基于大数据特征分析的云端内容推送方法及*** |
CN115689616B (zh) * | 2022-12-20 | 2023-11-17 | 北京国联视讯信息技术股份有限公司 | 基于大数据特征分析的云端内容推送方法及*** |
CN116760882A (zh) * | 2023-08-18 | 2023-09-15 | 广州朗歌信息技术有限公司 | 一种基于物联网的多媒体信息分发监管***及方法 |
CN116760882B (zh) * | 2023-08-18 | 2023-10-31 | 广州朗歌信息技术有限公司 | 一种基于物联网的多媒体信息分发监管***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325165B (zh) | 网络舆情分析方法、装置及存储介质 | |
CN109145216B (zh) | 网络舆情监控方法、装置及存储介质 | |
CN109145215B (zh) | 网络舆情分析方法、装置及存储介质 | |
CN107291780B (zh) | 一种用户评论信息展示方法和装置 | |
US10032081B2 (en) | Content-based video representation | |
US9201880B2 (en) | Processing a content item with regard to an event and a location | |
CN111898031B (zh) | 一种获得用户画像的方法及装置 | |
CN104199833B (zh) | 一种网络搜索词的聚类方法和聚类装置 | |
JP4637969B1 (ja) | ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法 | |
CN110019943B (zh) | 视频推荐方法、装置、电子设备和存储介质 | |
CN112989824A (zh) | 信息推送方法及装置、电子设备及存储介质 | |
EP3189449A2 (en) | Sentiment rating system and method | |
CN112434151A (zh) | 一种专利推荐方法、装置、计算机设备及存储介质 | |
CN106970991B (zh) | 相似应用的识别方法、装置和应用搜索推荐方法、服务器 | |
CN110309251B (zh) | 文本数据的处理方法、装置和计算机可读存储介质 | |
CN106383887A (zh) | 一种环保新闻数据采集和推荐展示的方法及*** | |
WO2013059290A1 (en) | Sentiment and influence analysis of twitter tweets | |
JP6097126B2 (ja) | レコメンド情報生成装置及びレコメンド情報生成方法 | |
JP2011108053A (ja) | ニュース記事評価システム | |
CN106537387B (zh) | 检索/存储与事件相关联的图像 | |
CN112328857B (zh) | 一种产品知识聚合方法、装置、计算机设备及存储介质 | |
US20140214548A1 (en) | User Profiling Using Submitted Review Content | |
KR102185733B1 (ko) | 프로필 자동생성서버 및 방법 | |
Ashraf et al. | Personalized news recommendation based on multi-agent framework using social media preferences | |
CN113127736A (zh) | 一种基于搜索历史记录的分类推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210618 |