CN112131472A - 信息推荐方法、装置、电子设备和存储介质 - Google Patents
信息推荐方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112131472A CN112131472A CN202011016645.6A CN202011016645A CN112131472A CN 112131472 A CN112131472 A CN 112131472A CN 202011016645 A CN202011016645 A CN 202011016645A CN 112131472 A CN112131472 A CN 112131472A
- Authority
- CN
- China
- Prior art keywords
- content
- user
- image
- target
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000003860 storage Methods 0.000 title claims abstract description 25
- 238000013145 classification model Methods 0.000 claims description 59
- 238000000605 extraction Methods 0.000 claims description 53
- 238000012549 training Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 5
- 210000003128 head Anatomy 0.000 description 63
- 238000005065 mining Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 14
- 239000000523 sample Substances 0.000 description 14
- 230000006399 behavior Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000009826 distribution Methods 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 8
- 230000009193 crawling Effects 0.000 description 8
- 238000001914 filtration Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000034303 cell budding Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 239000004575 stone Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 244000085625 Equisetum Species 0.000 description 1
- 206010015946 Eye irritation Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000282376 Panthera tigris Species 0.000 description 1
- 244000018633 Prunus armeniaca Species 0.000 description 1
- 235000009827 Prunus armeniaca Nutrition 0.000 description 1
- 241000270708 Testudinidae Species 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000002574 poison Substances 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种信息推荐方法、装置、电子设备和存储介质;本申请实施例可以获取目标用户在社交网络中的身份标识图像,当所述身份标识图像的图像内容属于目标内容类型时,确定所述图像内容中目标对象的对象信息,然后,利用知识图谱对所述目标对象的对象信息进行关联扩展,得到所述目标对象关联的用户画像,所述知识图谱包括所述目标内容类型中各对象关联的用户画像,接着,基于所述目标对象关联的用户画像确定所述目标用户的用户画像,再根据所述目标用户的用户画像获取待推荐信息,将所述待推荐信息推荐给所述目标用户。该方案可以有效地提高信息推荐的效率。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种信息推荐方法、装置、电子设 备和存储介质。
背景技术
随着互联网的快速发展,在移动端应用越来越普及的时代就诞生了移动社 交的新媒体时代,基于推荐算法的信息流内容分发成为移动终端内容消费的主 要形式。信息流分发的内容主要包括图文和视频,需要通过自然语言处理 (Natural LanguageProcessing,NLP)和视频多模态技术进行分类和标签信息 抽取,为用户画像的沉淀提供载体。
一直以来,用户画像主要通过大数据锁定目标用户,通过用户行为日志来 挖掘文字化的标签和关键词。但是,文字的多语义和行为信息的缺失使得了这 类用户挖掘体系的错误率高,用户冷启动信息不全,而且对于很多是图像或者 视频的内容,文字信息缺失,且信息的抽取和标记依赖人工的审核,效率较低。
发明内容
本申请实施例提供一种信息推荐方法、装置、电子设备和存储介质,可以 有效地提高信息推荐的效率。
本申请实施例提供一种信息推荐方法,包括:
获取目标用户在社交网络中的身份标识图像;
当所述身份标识图像的图像内容属于目标内容类型时,确定所述图像内容 中目标对象的对象信息;
利用知识图谱对所述目标对象的对象信息进行关联扩展,得到所述目标对 象关联的用户画像,所述知识图谱包括所述目标内容类型中各对象关联的用户 画像;
基于所述目标对象关联的用户画像确定所述目标用户的用户画像;
根据所述目标用户的用户画像获取待推荐信息,将所述待推荐信息推荐给 所述目标用户。
相应的,本申请实施例还提供一种信息推荐装置,包括:
获取单元,用于获取目标用户在社交网络中的身份标识图像;
对象信息确定单元,用于当所述身份标识图像的图像内容属于目标内容类 型时,确定所述图像内容中目标对象的对象信息;
扩展单元,用于利用知识图谱对所述目标对象的对象信息进行关联扩展, 得到所述目标对象关联的用户画像,所述知识图谱包括所述目标内容类型中各 对象关联的用户画像;
用户画像确定单元,用于基于所述目标对象关联的用户画像确定所述目标 用户的用户画像;
推荐单元,用于根据所述目标用户的用户画像获取待推荐信息,将所述待 推荐信息推荐给所述目标用户。
可选的,在一些实施例中,所述对象信息确定单元可以包括第一确定子单 元和第二确定子单元,如下:
所述第一确定子单元,用于当所述身份标识图像的图像内容属于目标内容 类型时,确定所述图像内容所属的来源内容;
所述第二确定子单元,用于基于所述图像内容所属的来源内容确定所述图 像内容中目标对象的对象信息。
可选的,在一些实施例中,所述身份标识图像为用户头像,所述目标内容 类型为二次元内容类型,所述对象信息确定单元,具体可以用于当所述用户头 像的图像内容属于二次元内容类型时,确定所述图像内容所属的来源内容;基 于所述图像内容所属的来源内容确定所述图像内容中目标对象的对象信息。
可选的,在一些实施例中,所述第一确定子单元可以包括提取模块和识别 模块,如下:
所述提取模块,用于当所述身份标识图像的图像内容属于目标内容类型时, 利用内容多分类模型对所述身份标识图像的图像内容进行特征提取,得到图像 内容特征;
所述识别模块,用于基于所述图像内容特征对所述图像内容进行识别,根 据识别结果确定所述图像内容所属的来源内容。
可选的,在一些实施例中,所述内容多分类模型为二次元多分类模型,所 述第一确定子单元,具体可以用于当所述用户头像的图像内容属于二次元内容 类型时,利用二次元多分类模型对所述身份标识图像的图像内容进行特征提取, 得到图像内容特征;基于所述图像内容特征对所述图像内容进行识别,根据识 别结果确定所述图像内容所属的来源内容。
可选的,在一些实施例中,所述内容多分类模型包括特征抽取网络,所述 提取模块,具体可以用于利用特征抽取网络对所述身份标识图像的图像内容进 行浅层特征提取,得到所述身份标识图像的浅层特征;利用特征抽取网络对所 述身份标识图像的图像内容进行深层特征提取,得到所述身份标识图像的深层 特征;将所述身份标识图像的基础特征和抽象特征进行融合,得到图像内容特 征。
可选的,在一些实施例中,所述内容多分类模型包括多分类网络,所述识 别模块,具体可以用于采用内容多分类模型中的多分类网络对所述图像内容特 征进行类别计算,得到所述图像内容属于目标内容类型下每个子内容类型的类 别分数;将所述类别分数进行归一化,得到所述图像内容属于每个子内容类型 的概率;基于所述图像内容属于每个子内容类型的概率确定所述图像内容所属 的来源内容。
可选的,在一些实施例中,所述信息推荐装置还可以包括训练单元,如下:
所述训练单元,具体可以用于获取多张目标内容类型的图像样本;利用所 述图像样本对预设内容多分类模型进行训练,得到内容多分类模型。
可选的,在一些实施例中,所述扩展单元可以包括检索子单元和扩展子单 元,如下:
所述检索子单元,用于基于所述目标对象的对象信息在知识图谱中进行检 索,根据检索结果获取所述目标对象的关联信息;
所述扩展子单元,用于基于所述目标对象的关联信息确定所述目标对象关 联的用户画像。
可选的,在一些实施例中,所述知识图谱为二次元图谱,所述扩展单元, 具体可以用于基于所述目标对象的对象信息在二次元图谱中进行检索,根据检 索结果获取所述目标对象的关联信息;基于所述目标对象的关联信息确定所述 目标对象关联的用户画像。
可选的,在一些实施例中,所述扩展子单元,具体可以用于对所述目标对 象的关联信息进行属性分类,得到所述关联信息的属性特征;基于所述关联信 息的属性特征确定所述目标对象关联的用户画像。
可选的,在一些实施例中,所述信息推荐装置还可以包括构建单元,如下:
所述构建单元,具体可以用于采集目标内容类型的关联数据,所述关联数 据包括多个目标对象;对所述关联数据进行知识抽取,得到目标对象之间的关 联关系;基于所述关联关系构建目标内容类型的知识图谱。
此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存 储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例 提供的任一种信息推荐方法中的步骤。
此外,本申请实施例还提供一种电子设备,包括存储器,处理器及存储在 存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现 如本申请实施例提供的任一种信息推荐方法中的步骤。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计 算机产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储 介质中,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理 器执行该计算机指令,使得该计算机设备执行上述信息推荐方面的各种可选实 现方式中提供的方法。
本实施例可以获取目标用户在社交网络中的身份标识图像,当所述身份标 识图像的图像内容属于目标内容类型时,确定所述图像内容中目标对象的对象 信息,然后,利用知识图谱对所述目标对象的对象信息进行关联扩展,得到所 述目标对象关联的用户画像,所述知识图谱包括所述目标内容类型中各对象关 联的用户画像,接着,基于所述目标对象关联的用户画像确定所述目标用户的 用户画像,再根据所述目标用户的用户画像获取待推荐信息,将所述待推荐信 息推荐给所述目标用户。该方案可以有效地提高信息推荐的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请 的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还 可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的信息推荐方法的场景示意图;
图1b是本申请实施例提供的信息推荐方法的第一流程图;
图2a是本申请实施例提供的二次元多分类模型的结构示意图;
图2b是本申请实施例提供的信息推荐方法的第二流程图;
图2c是本申请实施例提供的信息推荐方法的结构示意图;
图2d是本申请实施例提供的用户设置的头像示意图;
图2e是本申请实施例提供的部分动漫名称示意图;
图2f是本申请实施例提供的搜索结果第一示意图;
图2g是本申请实施例提供的搜索结果第二示意图;
图3是本申请实施例提供的信息推荐装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是 全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳 动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的原理是以实施在一适当的运算环境中来举例说明。在以下的说明 中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说 明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文 所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计 算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存***中 的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算 机的运作。该数据所维持的数据结构为该内存的实***置,其具有由该数据格 式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一 种限制,本领域测试人员将可了解到以下该的多种步骤及操作亦可实施在硬件 当中。
本文所使用的术语“单元”可看做为在该运算***上执行的软件对象。本 文该的不同组件、单元、引擎及服务可看做为在该运算***上的实施对象。而 本文该的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施, 均在本申请保护范围之内。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象, 而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形, 意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系 统、产品或设备没有限定于已列出的步骤或单元,而是某些实施例还包括没有 列出的步骤或单元,或某些实施例还包括对于这些过程、方法、产品或设备固 有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特 性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语 并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实 施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与 其它实施例相结合。
本申请实施例提供一种信息推荐方法、装置、电子设备和存储介质。其中, 该信息推荐装置可以集成在电子设备中,该电子设备可以是服务器,也可以是 终端等设备。
本申请实施例提供的信息推荐方法涉及人工智能领域中的计算机视觉方 向和自然语言处理方向,可以通过人工智能的计算机视觉技术实现对图像内容 的识别,通过自然语言处理中的知识图谱实现对象信息的关联扩展,进而得到 目标对象的用户画像,从而实现信息推荐。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识 获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机 科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智 能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计 原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门 综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中, 人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。
其中,计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看” 的科学,更进一步的说,就是指通过计算机代替人眼对目标进行识别、测量等 的机器视觉,并进一步进行图像处理,使图像经过计算机处理成为更适合人眼 观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理 论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计 算机视觉技术通常包括图像处理、图像识别等技术,还包括常见的人脸识别、 人体姿态识别等生物特征识别技术。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域 与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言 进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、 数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用 的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括 文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
例如,如图1a所示,首先,该集成了信息推荐装置的电子设备可以获取目 标用户在社交网络中的身份标识图像,当所述身份标识图像的图像内容属于目 标内容类型时,确定所述图像内容中目标对象的对象信息,然后,利用知识图 谱对所述目标对象的对象信息进行关联扩展,得到所述目标对象关联的用户画 像,所述知识图谱包括所述目标内容类型中各对象关联的用户画像,接着,基 于所述目标对象关联的用户画像确定所述目标用户的用户画像,再根据所述目 标用户的用户画像获取待推荐信息,将所述待推荐信息推荐给所述目标用户。 由于该方案通过获取用户设置的身份标识图像,识别出身份标识图像的图像内 容中具体对象信息,然后目标内容类型的知识图谱进行关联扩展,对对象信息 背后的画像信息和兴趣信息做深度挖掘和标记,挖掘的结果作为用户的画像兴 趣点沉淀在用户画像上,丰富用户的画像信息,以对用户进行准确地推荐,在 用户冷启动信息不全时,可以有效地提高了信息推荐的效率。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实 施例优选顺序的限定。
本实施例将从信息推荐装置的角度进行描述,该信息推荐装置具体可以集 成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该 终端可以包括手机、平板电脑、笔记本电脑、以及个人计算机(Personal Computer,PC)等设备。
一种信息推荐方法,包括:获取目标用户在社交网络中的身份标识图像, 当所述身份标识图像的图像内容属于目标内容类型时,确定所述图像内容中目 标对象的对象信息,然后,利用知识图谱对所述目标对象的对象信息进行关联 扩展,得到所述目标对象关联的用户画像,所述知识图谱包括所述目标内容类 型中各对象关联的用户画像,接着,基于所述目标对象关联的用户画像确定所 述目标用户的用户画像,再根据所述目标用户的用户画像获取待推荐信息,将 所述待推荐信息推荐给所述目标用户。
如图1b所示,该信息推荐方法的具体流程可以如下:
101、获取目标用户在社交网络中的身份标识图像。
其中,身份标识图像指的是用户在社交网络(比如,用于通讯交流的应用 程序)中设置的具有区别用户身份或者展示用户个性等标识图像,比如,XX 手机软件(Application,App)中的头像。
例如,当需要向用户推荐信息时,可以获取目标用户在社交网络中的账号 信息,基于所述账号信息获取所述目标用户的身份标识图像。比如,具体可以 获取目标用户在社交网络中的用户头像。
102、当所述身份标识图像的图像内容属于目标内容类型时,确定所述图 像内容中目标对象的对象信息。
例如,可以当所述身份标识图像的图像内容属于目标内容类型时,确定所 述图像内容所属的来源内容;基于所述图像内容所属的来源内容确定所述图像 内容中目标对象的对象信息。
其中,目标内容类型可以指的是能够提取用户画像的内容类型,比如二次 元内容类型。其中,用户画像也叫用户标签,是基于用户行为分析获得的对用 户的一种认知表达,也是后续数据分析加工的起点。用户画像(User Profile), 作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准、快 速地分析用户行为习惯、消费习惯等重要信息,提供了足够的数据基础,奠定 了大数据时代的基石。用户画像,即用户信息标签化,就是通过收集与分析消 费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一 个用户的全貌作是应用大数据技术的基本方式。用户画像提供了足够的信息基 础,能够帮助快速找到精准用户群体以及用户需求等更为广泛的反馈信息。用 户画像包括基本的静态信息(性别,年龄,常驻地、籍贯,身高,职业等人口 属性信息和社会属性,这些可以注册时提供,后续修正)和动态信息(短期兴 趣和长期兴趣包括兴趣偏好:这个是通过用户和内容的行为日志来挖掘的)。
例如,所述身份标识图像可以为用户头像,所述目标内容类型可以为二次 元内容类型,可以当所述用户头像的图像内容属于二次元内容类型时,确定所 述图像内容中目标对象的对象信息。例如,具体可以当所述用户头像的图像内 容属于二次元内容类型时,确定所述图像内容所属的来源内容;基于所述图像 内容所属的来源内容确定所述图像内容中目标对象的对象信息。
比如,可以当所述身份标识图像的图像内容属于二次元内容类型时,确定 所述图像内容所属的动漫来源,比如,该身份标识图像的图像内容属于哪一部 动漫,接着,基于所述图像内容所属的来源内容确定所述图像内容中目标对象 的对象信息,比如,所述图像内容中目标对象在所述动漫来源中的角色信息等 等。
其中,“二次元”源自日本“Nijigen”,是指二维、平面之意,特指漫画、 二维动画、电子游戏等媒体形式展示的“虚拟化”的人物和世界,与之区别的 三次元则指代现实世界。二次元可以归结为代指ACG(即Animation动画、Comic 漫画、Game游戏)等相关内容,随后逐渐延伸至动漫周边、漫展、音乐、外 设、COSPLAY、主题餐厅等产业。动漫产业作为二次元产业代表,得益于互 联网的快速普及,动漫用户群体由线下向线上转移,动漫传播成本快速下降, 以及新生一代(90后、00后为主要群体)对二次元文化的接纳,动漫产业发展 进入了快车道,相关内容消费群体也非常巨大。在本实施例中,二次元内容类 型具体可以指动漫类型。
可选的,在本实施例中,步骤“当所述身份标识图像的图像内容属于目标 内容类型时,确定所述图像内容所属的来源内容”可以包括:
当所述身份标识图像的图像内容属于目标内容类型时,利用内容多分类模 型对所述身份标识图像的图像内容进行特征提取,得到图像内容特征;基于所 述图像内容特征对所述图像内容进行识别,根据识别结果确定所述图像内容所 属的来源内容。
比如,所述身份标识图像为用户头像,所述目标内容类型为二次元内容类 型时,所述内容多分类模型可以为二次元多分类模型,具体可以当所述用户头 像的图像内容属于二次元内容类型时,利用二次元多分类模型对所述身份标识 图像的图像内容进行特征提取,得到图像内容特征,基于所述图像内容特征对 所述图像内容进行识别,根据识别结果确定所述图像内容所属的来源内容。
可选的,所述内容多分类模型可以包括特征抽取网络,例如,步骤“利用 内容多分类模型对所述身份标识图像的图像内容进行特征提取,得到图像内容 特征”,具体可以利用特征抽取网络对所述身份标识图像的图像内容进行浅层 特征提取,得到所述身份标识图像的浅层特征;利用特征抽取网络对所述身份 标识图像的图像内容进行深层特征提取,得到所述身份标识图像的深层特征; 将所述身份标识图像的基础特征和抽象特征进行融合,得到图像内容特征。
其中,所述浅层特征指的是前级的卷积层得到的特征图,为图像中的低层 特征,感受野更加关注的是图像细节纹理等特征,比如,图像内容中的轮廓、 边缘等等。深层特征指的是后级的卷积层得到的特征图,为图像中的高层特征, 感受野更加关注的是图像语义等特征,比如图像内容中的整体脸型信息等等。
可选的,所述内容多分类模型可以包括多分类网络,例如,步骤“基于所 述图像内容特征对所述图像内容进行识别,根据识别结果确定所述图像内容所 属的来源内容”,具体可以采用内容多分类模型中的多分类网络对所述图像内 容特征进行类别计算,得到所述图像内容属于目标内容类型下每个子内容类型 的类别分数;将所述类别分数进行归一化,得到所述图像内容属于每个子内容 类型的概率;基于所述图像内容属于每个子内容类型的概率确定所述图像内容 所属的来源内容。相应的,内容多分类模型为二次元模型时,所述二次元模型 也可以包括特征抽取网络和多分类网络,在此不再赘述。
可选的,该内容多分类模型可以由多张目标内容类型的图像样本训练而成。 具体可以由其他设备进行训练后,提供给该信息推荐装置,或者,也可以由该 信息推荐装置自行进行训练;即在步骤“利用内容多分类模型对所述身份标识 图像的图像内容进行特征提取”之前,该信息推荐方法还可以包括:
获取多张目标内容类型的图像样本;
利用所述图像样本对预设内容多分类模型进行训练,得到内容多分类模型。
比如,图像样本数据可以通过XX百科爬取得到常用目标内容类型网际互 连协议(Internet Protocol,IP)的名称,然后通过搜索引擎查询获取目标内容 类型的图像样本,如20万张数据(过滤掉社交网络默认的身份标识图像),接 着,人工抽检复核这些数据所属来源内容以及对象信息是否正确,做一个多分 类结果的标记。
(1)卷积神经网络微调(Fine-tune Convolutional Neural Networks, Fine-tune CNN):训练图像来自图像样本,构建训练多尺度级联网络,例如, 可以采用ImageNet网络作为基础特征抽取模型,通过变换(滤镜、旋转、拉升、 裁剪等样本增强技术对样本做变换)将多尺度信息的图像浅层及深层信息融合, 例如,学习网络可以采用InceptionV4(基于ImageNet数据的预训练模型)。
(2)内容多分类模型:模型训练+inceptionV4深度卷积网络模型,比如 网络结构可以包括输入层(输入身份标识图像)、卷积层、采样层、卷积层, 采用的是层的多级级联方式,最后是一个全连接层输出。
(3)模型输出结果:在全连接层之后,可以采用SoftMax(逻辑回归)作 为激活函数,SoftMax函数的作用就是将每个类别所对应的输出分量归一化, 使各个分量的和为1。也就是,将任意是输入值转化为概率。SoftMax主要用于 多分类任务的激活函数,一般用在神经网络的输出端。SoftMax的计算步骤可 以如下:
首先,算出求出e关于输入向量的每个元素的幂,然后,将所有的幂相加, 得到分母,每一个幂作为相应位置输出结果的分子,输出的概率=分子/分母, 比如,计算公式可以为:
其中,S(Xi)对应第i个分类的概率值,一共是n个分类。
103、利用知识图谱对所述目标对象的对象信息进行关联扩展,得到所述 目标对象关联的用户画像。
其中,所述知识图谱可以包括所述目标内容类型中各对象关联的用户画像。 例如,可以基于所述目标对象的对象信息在知识图谱中进行检索;根据检索结 果获取所述目标对象的关联信息;基于所述目标对象的关联信息确定所述目标 对象关联的用户画像。
其中,关联信息指的是和目标对象的对象信息相关联的信息,比如,可以 包含目标对象的作者、作品人物、作品音乐、属性等等。
可选的,步骤“基于所述目标对象的关联信息确定所述目标对象关联的用 户画像”可以包括:
对所述目标对象的关联信息进行属性分类,得到所述关联信息的属性特征; 基于所述关联信息的属性特征确定所述目标对象关联的用户画像。
可选的,该知识图谱可以通过采集目标内容类型的相关数据构建而成。具 体可以由其他设备进行构建后,提供给该信息推荐装置,或者,也可以由该信 息推荐装置自行进行构建。即在步骤“利用知识图谱对所述目标对象的对象信 息进行关联扩展”之前,该信息推荐方法还可以包括:
采集目标内容类型的关联数据,所述关联数据包括多个目标对象;对所述 关联数据进行知识抽取,得到目标对象之间的关联关系;基于所述关联关系构 建目标内容类型的知识图谱。
比如,构建知识图谱的具体过程可以如下:
(1)数据采集和预处理
通过爬虫来采集构建实体关系知识图谱和关系抽取数据集的数据,数据可 以来自各个网站,比如,XX搜索引擎等等。爬取时数据可能会出现清理不干 净的情况,比如某个实体名称的前面或者后面有空格、换行符等奇怪字符,会 对后续建立关系的表产生影响,可以先对数据进行清理干净。
(2)图谱存储
使用三元组存储在原生图数据库,比如Neo4j(图形数据库),并可以使用 属性图查询语言Cypher(一种数据库用语,不用编写复杂的查询代码即可实现 对图数据库的操作),在知识图谱上进行查询和操作。
(3)图谱计算
图计算:在Neo4j上对实体关系知识图谱进行了图挖掘,包括最短路径查 询、权威结点发现、社区发现等。
(4)图谱应用
将构建好的知识图谱应用于对目标对象的对象信息进行关联扩展。
比如,所述身份标识图像为用户头像,所述目标内容类型为二次元内容类 型,所述知识图谱可以为二次元图谱,具体可以基于所述目标对象的对象信息 在二次元图谱中进行检索,根据检索结果获取所述目标对象的关联信息,基于 所述目标对象的关联信息确定所述目标对象关联的用户画像。
104、基于所述目标对象关联的用户画像确定所述目标用户的用户画像。
例如,可以根据目标对象的关联信息得到目标对象关联的用户画像,将这 些关联的用户画像作为所述目标用户的用户画像。
105、根据所述目标用户的用户画像获取待推荐信息,将所述待推荐信息 推荐给所述目标用户。
例如,可以根据所述目标用户的用户画像获取目标用户感兴趣的待推荐信 息,可以先将获取到的待推送信息存储到存储***中,等待目标用户进行刷新 时,将所述待推送信息推送给目标用户。
由上可知,本实施例可以获取目标用户在社交网络中的身份标识图像,当 所述身份标识图像的图像内容属于目标内容类型时,确定所述图像内容中目标 对象的对象信息,然后,利用知识图谱对所述目标对象的对象信息进行关联扩 展,得到所述目标对象关联的用户画像,所述知识图谱包括所述目标内容类型 中各对象关联的用户画像,接着,基于所述目标对象关联的用户画像确定所述 目标用户的用户画像,再根据所述目标用户的用户画像获取待推荐信息,将所 述待推荐信息推荐给所述目标用户。由于该方案通过获取用户设置的身份标识 图像,识别出身份标识图像的图像内容中具体对象信息,然后目标内容类型的 知识图谱进行关联扩展,对对象信息背后的画像信息和兴趣信息做深度挖掘和 标记,挖掘的结果作为用户的画像兴趣点沉淀在用户画像上,进而丰富目标用 户的画像信息和这些信息背后的深层用户需求和兴趣,以对用户进行准确地推 荐,在用户冷启动信息不全时,可以有效地提高了信息推荐的效率。在目标内 容进行定向推送时,能够更好地做好用户人群的定向,增加对目标用户的粘性; 在信息推荐时能够增加身份标识图像召回内容的量和维度;同时能够缩小对目 标用户兴趣探索的范围和加速用户画像收拢的时间,对平台吸引特定目标用户 很有帮助。
根据上一个实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该信息推荐装置具体集成在电子设备,目标内容类型 具体为二次元内容类型,身份标识图像具体为用户头像,内容多分类模型具体 为二次元多分类模型,知识图谱具体为二次元图谱为例进行说明。
一直以来,用户画像主要通过大数据锁定目标用户通过用户行为日志挖掘, 文字化的标签和关键词,但事实上文字的多义和行为信息的缺失导致了这种用 户挖掘体系错误率很高,用户冷启动信息不全,而且对于动漫很多是图片或者 视频,文字信息确实,信息的抽取和标记依赖人工的审核,效率也不够。对于 二次元内容用户,内容消费规模庞大,粘性很强,很多用户为了彰显自己对二 次元内容的喜爱,会采用二次元内容形象作为自己的头像,随着兴趣变化也会 经常更换头像。通常用户画像获取,需要进行大量的兴趣探索和信息挖掘,尤 其对于新用户冷启动过程,画像信息很多是空白,相关的画像信息很少,探索收拢时间很长,使得新用户的留存率普遍都不高;但是另外一方面,能够代表 用户个性设置的用户头像信息,比如,XX即时通讯软件的头像(有很多是二 次元的头像)又是很容易收集或者用户登录授权提供,头像背后所代表的信息 没有被重复利用,头像的使用与更换,彰显了每一个人的性格特质和人设,但 是这些二次元头像及头像背后的潜在信息又没有得到充分的挖掘和应用。比如 XX信息推荐软件有近亿的用户量和百万量级的二次元文章,如何将相关文章 精准的推送出去,需要知道更多的相关用户;同时,为了进一步优化二次元用 户冷启动问题,识别用户头像的类别,如头像的品系(日漫,国漫)和动漫作 品(火影X者,初音X来),将头像所属动漫作品作为用户兴趣点,扩充画像, 是本实施例需要解决的问题。具体实现过程在以下将进行详细描述。
(一)首先,可以对预设二次元多分类模型进行训练,如图2a所示,具体 可以如下:
例如,可以获取多张二次元内容类型的图像样本;利用所述图像样本对预 设二次元多分类模型进行训练,得到二次元多分类模型。
比如,图像样本数据可以通过XX百科爬取得到常用二次元内容类型IP的 名称,然后通过搜索引擎查询获取目标内容类型的图像样本,如20万张动漫头 像数据(过滤掉社交网络默认的动漫头像),接着,人工抽检复核这些数据所 属来源内容以及所属人物信息是否正确,做一个多分类人物结果的标记。
对于动漫头像,可以通过互联网上收集典型的二次元任务头像来进行标记, 标记出任务的具体名称所属的类别,这是一个二次元多分类模型,典型的动漫 人物是万级别,这个通常样本数据可以通过搜索引擎来进行动漫头像搜索获取, 中间辅助以人工清洗,确保头像标记的质量。识别的时候不在结果之类的,标 记为其他。
比如,可以在预设二次元多分类模型中输入图像,经过卷积+激活得到初 级特征,再经过池化层进行二次采样,得到特征图,接着,再经过卷积+激活, 使用多级级联方式,最后经过一个全连接层进行内积,输出图像的类别。
具体训练过程可以如下:
(1)卷积神经网络微调(Fine-tune Convolutional Neural Networks, Fine-tune CNN):训练图像来自图像样本,构建训练多尺度级联网络,例如, 可以采用ImageNet网络作为基础特征抽取模型,通过变换(滤镜、旋转、拉升、 裁剪等样本增强技术对样本做变换)将多尺度信息的图像浅层及深层信息融合, 例如,学习网络可以采用InceptionV4(基于ImageNet数据的预训练模型)。
(2)二次元多分类模型:模型训练+inceptionV4深度卷积网络模型,比 如网络结构可以包括输入层(输入动漫头像)、卷积层、采样层、卷积层,采 用的是层的多级级联方式,最后是一个全连接层输出。
(3)模型输出结果:在全连接层之后,可以采用SoftMax作为激活函数, SoftMax函数的作用就是将每个类别所对应的输出分量归一化,使各个分量的 和为1。也就是,将任意是输入值转化为概率。SoftMax主要用于多分类任务的 激活函数,一般用在神经网络的输出端。SoftMax的计算步骤可以如下:
首先,算出求出e关于输入向量的每个元素的幂,然后,将所有的幂相加, 得到分母,每一个幂作为相应位置输出结果的分子,输出的概率=分子/分母, 比如,计算公式可以为:
其中,S(Xi)对应第i个分类的概率值,一共是n个分类。
(二)其次,可以先构建二次元图谱,具体可以如下:
(1)数据采集和预处理
通过爬虫来采集构建实体关系知识图谱和关系抽取数据集的数据,数据可 以来自各个网站,比如,XX搜索引擎等等。爬取时数据可能会出现清理不干 净的情况,比如某个实体名称的前面或者后面有空格、换行符等奇怪字符,会 对后续建立关系的表产生影响,可以先对数据进行清理干净。
·二次元人物知识图谱:主要包含各个二次元人物的信息,中文及外文名 称,所属作品,作者,音乐,风格,萌属性等等
·关系抽取数据集:标注出自然语言中存在的实体以及他们之间的关系, 比如出演作品,出演声优,所配角色,IP风格(日漫,国漫)等等
·实体关系知识图谱:构建二次元中各个实体之间关系的二次元图谱
(2)图谱存储
使用三元组存储在原生图数据库,比如Neo4j,并可以使用属性图查询语 言Cypher,在二次元图谱上进行查询和操作。
(3)图谱计算
图计算:在Neo4j上对实体关系知识图谱进行了图挖掘,包括最短路径查 询、权威结点发现、社区发现等。
(4)图谱应用
将构建好的二次元图谱应用于对目标对象的对象信息进行关联扩展。
(三)利用训练好的二次元内容分类模型和构建好的二次元知识图谱,便 可以获取目标用户感兴趣的待推荐信息,进而推荐给目标用户,具体可以参见 图2b。
如图2b所示,一种信息推荐方法,具体流程可以如下:
201、电子设备获取目标用户在社交网络中的用户头像。
为了便于后续内容的描述,在此对本实施例涉及的部分名词进行解释说明。
内容发布平台:可以理解为可发布内容的任意形式的平台,包括网页形式 的平台,客户端形式的平台,或者集成在客户端中的平台。例如各种新闻类客 户端,网页形式的搜索引擎等等,可以推荐多篇文章和视频内容供用户阅读, 类似XX头条软件等。
内容:内容发布平台推荐给用户阅读的文章和视频,可能会包含视频或图 片等等,文章可以是自媒体开一个公众号后主动编辑发布的,视频是PGC或者 UGC用户主动发布的。
UGC(User Generated Content)指用户原创内容。
PUGC(Professional User Generated Content,“专业用户生产内容”或“专 家生产内容”):是以UGC形式,产出的相对接近PGC的专业图文和视频内容。
Feeds(web feed、news feed、syndicated feed):消息来源,是一种资料格 式,网站透过它将最新资讯传播给用户,通常以Timeline时间轴方式排列,时 间轴是Feeds最原始最直接也最基本的展示形式。用户能够订阅网站的先决条 件是,网站提供了消息来源。将feed汇流于一处称为聚合(aggregation),而用 于聚合的软体称为聚合器(aggregator)。对最终用户而言,聚合器是专门用来 订阅网站的软件,一般亦称为RSS阅读器、feed阅读器、新闻阅读器等。
二次元:是一个ACGN亚文化圈专门用语,来自于日语的“二次元(にじ げん)”,意思是“二维”。日本早期的动画、漫画、游戏等作品都是以二维图 像构成,其画面是一个平面,所以通过这些载体创造的虚拟世界被动漫爱好者 称为“二次元世界”,简称“二次元”,同时,“二次元”具有“架空”、“假想”、 “幻想”、“虚构”之意。是英文Animation(动画)、Comic(漫画)、Game(游 戏)、Novel(网络小说)的合并缩写。
知识图谱(Knowledge Graph):是结构化的语义知识库,用于迅速描述物 理世界中的概念及其相互关系。知识图谱通过对错综复杂的文档的数据进行有 效的加工、处理、整合,转化为简单、清晰的“实体,关系,实体”的三元组, 最后聚合大量知识,从而实现知识的快速响应和推理。
ImageNet:是一个用于视觉对象识别软件研究的大型可视化数据库。超过 1400万的图像URL被ImageNet手动注释,以指示图片中的对象;在至少一百万 个图像中,还提供了边界框。
本实施例中,信息推荐方法对应的装置可以设置于信息推荐***中,参考 图2c,图2c示出了将本实施例的信息推荐方法应用于信息推荐***,对内容进 行推荐的原理架构图。
以下基于图2c,对本实施例的信息推荐***中的模块进行说明。
一.内容生产端和内容消费端及爬取用户头像数据
(1)内容生产端:PGC或者UGC,MCN或者PUGC的内容生产者使用的 终端,内容生产者通过移动端或者后端接口API***,提供本地编辑的或者web 发布***提供的图文内容或者视频内容,包括短视频、小视频、图集等等,这 些都是推荐分发内容的主要内容来源;
(2)内容生产端可以通过与上下行内容接口服务器的通讯,触发A1上传 发布内容的步骤,可以先获取上传服务的得接口地址,然后再发布内容,可选 的发布内容包括但不限于图文内容和视频内容;
(3)内容消费端作为消费者,和上下行内容接口服务器通讯,内容发布 平台可通过上下行内容接口服务器向内容消费端推送推荐内容,内容消费端可 以执行图2b的步骤B1获取访问内容的索引信息,然后和上下行内容接口服务 器和内容分发出口服务通讯直接消费内容(可参考步骤A12),消费的前提通 过Feeds推荐分发获得内容的索引;
(4)Feeds及用户点击行为和环境上报模块,收集用户当前网络环境及用 户对Feeds中间信息的点击操作行为和Feeds内容的曝光数据,上报给统计上报 接口服务器(可参考步骤B2);
(5)头像数据库:用户使用产品登录过程当中,如果使用通讯软件等统 一账号登录,将授权的账号ID和头像存储在头像数据库;
(6)爬取用户头像数据:主动爬取用户设置的头像信息作为标记的样本, 离线获取的二次元头像样本素材是后续挖掘头像信息的输入和数据来源,同时 定期获取头像和上次获取图像样本做一个比较,从而确定用户修改头像的频率, 作为后续判断的参考;
二.上下行内容接口服务器和内容分发出口服务
(1)上下行内容接口服务器和内容生产端直接通讯,从内容生产端提交 的内容,包括内容的元信息和源文件,比如,可以是内容的标题、发布者、摘 要、封面图、发布时间等等,将内容存储在内容数据库(可参考步骤A2);
(2)内容分发出口服务和推荐分发***通讯,获取推荐分发的结果,下 发到内容消费端展示在用户的Feeds列表当中;
(3)内容分发出口服务通常是一组地域上就近部署在用户附近的接入服 务;
(4)上下行内容接口服务器同时给统计接口服务器上报每个账号的发文 流水信息,包括发文时间、内容类型,同时也把用户提供内容标记信息比如分 类、标签、选择的封面图、标题等作为扩展信息保存在内容数据库当中;
三.内容数据库
(1)内容的核心数据库,所有生产者发布内容的元信息都保存在这个业 务数据库当中,重点是内容本身的元信息,比如大小、封面图链接、标题、发 布时间、账号作者、来源渠道、入库时间,还包括人工审核过程中对内容的分 类(包括一、二、三级别分类和标签信息,比如一篇讲解XX品牌手机的文章, 一级分科是科技,二级分类是智能手机,三级分类是国内手机,标签信息是XX品牌XX型号);
(2)本实施例的人工审核过程当中会会读取内容数据库当中的信息,同 时人工审核的结果和状态也会回传进入内容数据库中保存,人工审核结果也是 后续衡量算法过滤模型效率的一个重要依据;
(3)整个业务流程当中内容处理主要包括机器处理和人工审核处理,依 据不同的内容标记内容库分为不同的内容池,推荐分发服务器和排重服务器, 内容特征建模服务都需要从内容数据库当中获取内容。比如图文排重服务器会 依据业务需求加载过去一段时间(如一周)已经入库启用的内容,对于重复重 新入库的内容将加上过滤标记不再提供给内容推荐服务输出到用户;
四.调度中心
(1)负责内容流转的整个调度过程,通过上下行内容接口服务器接收入 库的内容(可参考步骤A3),然后从内容数据库中获取内容的元信息(可参考 步骤A7);
(2)调用排重服务器,对重复入库的内容进行标记和过滤,同时把去重 流水信息同步给搬运特征挖掘模型模块作为输入(可参考步骤A4);
(3)对于机器无法处理的内容,比如政治敏感、安全问题等需要人工审 核的,可以调用人工审核***进行人工审核的处理(可参考步骤A5);
五.人工审核***
(1)需要读取内容数据库中视频内容本身的原始内容(可参考步骤A6), 通常是一个业务复杂的基于web数据库开发的***,主要是确保推送的内容符 合当地法律和政策允许的访问,比如是否涉及敏感词A、敏感词B、敏感词C 等特性进行初步过滤;
(2)审核的内容可以来自自媒体主动发布和网络爬虫从公共网络上获取 的;
(3)审核的结果最后可以通过调度中心,写入内容数据库中;
六.排重服务
(1)和内容调度服务器通讯主要包括标题去重、封面图的图片去重、内 容正文去重、视频指纹去重以及音频指纹去重等等,通常是将图文内容标题和 正文向量化,可以采用simhash及BERT正文向量,图片向量去重,对于视频内 容抽取视频指纹和音频指纹构建向量,然后计算向量之间的距离比如欧式距离 来确定是否重复,本实施例中主要利用排重服务的判断结果;
七.统计上报接口服务器
(1)接收内容消费端用户当前网络环境及用户对Feeds中间信息的点击操 作行为和Feeds文章的曝光数据的上报;
(2)将上报的统计数据结果写入统计数据库;
(3)接受内容生产入口上报的账号发文原始流水;
八.二次元头像分类和挖掘模型
(1)读取头像数据当中的用户设置的头像数据(可参考步骤C3);
(2)根据二次元头像数据挖掘多分类模型的方式,构建和训练二次元头 像多分类机器学习模型;
九.二次元头像服务及兴趣扩展
(1)工程化实现头像挖掘模型及服务,然后对用户修改和上传的头像进 行挖掘与预测所属的分类,获取最终预测的结果,再利用这个结果通过二次元 图谱进行兴趣画像属性的扩展;
(2)与用户画像服务通讯,保存识别和扩展的结果;
十.构建二次元图谱数据库
(1)通过爬取垂直二次元网站,并结合人工标注清洗方法构建和保存图 谱数据库;
(2)本实施例中采用Neo4j作为图谱数据库的实例,然后使用Cypher语言 来进行具体的图谱扩展操作。
十一.头像数据库
(1)与二次元头像分类和挖掘模型及头像挖掘模型及服务通讯,提供头 像的样本数据和新增的数据;
(2)保存从互联网上爬取的头像数据结果;
十二推荐召回***
(1)实现推荐***当中的多种内容召回算法,比如协同召回、分类、主 题召回、用户历史行为、用户的长短期兴趣点召回等各种不同的召回算法;
(2)本实施例中主要与用户画像服务通讯,使用二次元用户头像挖掘画 像召回作为单独召回,实现新用户的冷启动,主要是针对二次元年轻用户;
十三推荐排序服务
(1)主要包括粗排和精排,将推荐召回***的结果作为依据推荐的核心 目标,比如点击率和用户时长多目标作为优化目标,来结合用户上下文信息, 通过点击率预估对召回的内容进行打分;
(2)依据打分计算的结果排序,同时结合一定业务的规则策略,最后输 出内容推荐分发的结果;
十四用户画像服务
(1)保存二次元头像挖掘模型及服务挖掘的二次元头像画像结果,以及 通过二次元图谱扩展的信息;
(2)为推荐召回***提供服务,作为识人部分的重要基础;
(3)在push推送的时候,提供人群定向的挖掘。
例如,电子设备具体可以获取目标用户在社交网络中的账号信息,基于所 述账号信息获取所述目标用户的用户头像。
其中,头像的使用与更换,彰显了每一个人的性格特质和人设。对用户画 像分析,以及用户的内心诉求可以帮助在工作中更好的定位产品需求,同时也 可以更好的社交。以使用度最高的即时通讯工具为例,有各种各样的类别的不 同的头像,涉及到的领域和种类也非常丰富。比如二次元头像,风景画像,自 拍大头照,自拍全身照,家人合影,情侣合照,小孩子头像,宠物头像,明星 照片,行业相关头像(入金融/运动类),以及头像行为(即头像更换的频率), ***默认头像等。
比如,目标用户的用户头像为二次元头像。二次元头像是大数据判定用户 个性的最精准模块之一,它是感知单一用户审美体系、价值认同的最好方式, 尤其是用户自己上传的头像。比如,如果使用最新漫画中的人物作为头像的, 则代表其喜爱该动漫以及其中的人物。通过对头像的分析,人工标记头像所代 表的类别。如图2d所示,这是用户设置的典型头像。二次元头像主要以动画、 漫画、游戏等复以人造或大幅人为加工的非写实画面构成的作品为头像。用卡 通头像的人,几乎都是御宅族。这类人只喜欢沉浸在自己的世界里,思维的方 式比较接近二次元。他们凭喜好结交朋友,在熟人面前放肆至极,但在陌生人 面前却安静得像只乌龟,很容易胆怯、紧张或害羞。他们希望能找到集体归属 感,更渴望找到同类,尽管这些归属感和同类大多来自网络。
202、当所述用户头像的图像内容属于二次元内容时,电子设备利用二次 元多分类模型对所述用户头像的图像内容进行特征提取,得到图像内容特征。
其中,二次元多分类模型可以包括特征抽取网络,例如,电子设备具体可 以利用特征抽取网络对所述用户头像的图像内容进行浅层特征提取,得到所述 用户头像的浅层特征;利用特征抽取网络对所述用户头像的图像内容进行深层 特征提取,得到所述用户头像的深层特征;将所述用户头像的基础特征和抽象 特征进行融合,得到图像内容特征。
其中,所述浅层特征指的是前级的卷积层得到的特征图,为图像中的低层 特征,感受野更加关注的是图像细节纹理等特征,比如,用户头像的人物中轮 廓、边缘等等。深层特征指的是后级的卷积层得到的特征图,为图像中的高层 特征,感受野更加关注的是图像语义等特征,比如,用户头像的人物中整体脸 型信息等等。
其中,二次元头像的设置和修改头像行为背后用户的画像和情绪状态如下: 这里的二次元与***默认头像不同,通常***默认头像都是动漫头像。这样的 头像背后没有二次元文化,这里的设置是动漫类型人物,有故事情节或有动漫 元素的。大部分用户头像都是在动漫或游戏中的具体人物,每个任务IP背后包 含如上所说的萌属性都是非常有用的信息。设置二次元头像的用户:无论用户 选择的角色如何,这类用户有着强大的想象力或娱乐能力,并且喜欢相关动漫 产品阅读或消费趋好。由此再细分,根据动漫人物的不同,可以大概分析用户 的性别、年龄、职业,从而得出更具体的人物画像。动漫头像对年轻用户来说 是一个非常好的切入点,将头像所属动漫作品作为用户兴趣点,扩充画像。
203、电子设备基于所述图像内容特征对所述图像内容进行识别,根据识 别结果确定所述图像内容所属的来源内容。
其中,所述内容多分类模型可以包括多分类网络,例如,电子设备具体可 以采用二次元多分类模型中的多分类网络对所述图像内容特征进行类别计算, 得到所述图像内容属于二次元内容下每个子内容类型的类别分数;将所述类别 分数进行归一化,得到所述图像内容属于每个子内容类型的概率;基于所述图 像内容属于每个子内容类型的概率确定所述图像内容所属的来源内容。
对于二次元头像,会涉及到很多二次元游戏、动漫人物的画像,比如,如 图2e所示,它们来自的动漫IP可以包括火影X者、漫X、海贼X、龙X、柯X、 奥X曼、初音X来等等。
204、电子设备基于所述图像内容所属的来源内容确定所述图像内容中目 标对象的对象信息。
例如,电子设备可以当所述身份标识图像的图像内容属于二次元内容类型 时,确定所述图像内容所属的动漫来源,比如,该身份标识图像的图像内容属 于哪一部动漫,接着,基于所述图像内容所属的来源内容确定所述图像内容中 目标对象的对象信息,比如,所述图像内容中目标对象在所述动漫来源中的角 色信息等等。
205、电子设备利用二次元图谱对所述目标对象的对象信息进行关联扩展, 得到所述目标对象关联的用户画像。
其中,二次元图谱包括所述二次元内容中各对象关联的用户画像。例如, 电子设备可以基于所述目标对象的对象信息在二次元图谱中进行检索,根据检 索结果获取所述目标对象的关联信息,基于所述目标对象的关联信息确定所述 目标对象关联的用户画像。
其中,关联信息指的是和目标对象的对象信息相关联的信息,比如,可以 包含目标对象的作者、作品人物、作品音乐、属性等等。
比如,可以通过属性图查询语言Cypher来扩展头像IP或者作品背后的信息。Cypher通过模式匹配图数据库中的节点和关系,来提取信息或者修改数据。 Cypher语句中允许使用变量,用来表示命名、绑定元素和参数。Cypher语句可 以对节点、关系、标签和属性进行创建、更新和删除操作。Cypher语句可以管 理索引和约束。本实施例中,使用到的是一种开源的知识图谱数据库作为存储 和扩展二次元头像背后包含潜在画像的方法,其核心在于获取和构建这个图谱, 依据这个图谱得到的结果存储在用户的画像服务当中。
比如,作品刀剑X域第二季出演的所有声优,搜索结果如图2f所示:
Cypher语句:MATCH p=(a:Anime)-[r:`出演声优`]->()where a.name=~"刀剑X域.+"return p
比如,花泽X菜出演的所有动漫角色,搜索结果如图2g所示:
Cypher语句:match(p:voice_actor{name:'花泽X菜'})--(b:character)returnp,b
例如,具体可以对所述目标对象的关联信息进行属性分类,得到所述关联 信息的属性特征;基于所述关联信息的属性特征确定所述目标对象关联的用户 画像。
比如,这些IP信息背后包含的内容的作者,作品人物,作品音乐,任务萌 属性(ACGN用语,指一个角色所具有的带有萌点的属性,而依据萌点所概括 出的特殊属性,其意义不同于传统意义的“可爱”,是一种只要拥有公认的特 殊萌点即可的特殊属性需求。比如外貌特征-萝莉,御姐,粉毛,黑长直,双 马尾,螺旋卷,姬发式,灼眼,双色瞳,眼镜娘,虎牙,兽耳,贫乳,仆娘; 性格特征-傲娇,天然呆,三无,女王,天然黑,软妹,荡漾,元气,无铁炮,冒失女,电波女,病娇,黑化,腹黑,毒舌,食草,傲沉,别扭,中二病,痴 女,圣母,***,吃货,无存,弱气,阴气,丧女,大和抚子,食肉,伪娘; 属性分类:种族,年龄,兴趣,口语,头部,身躯,下着,腿部,饰物,人际 关系,职业,社会地位,身世,恋爱关系),这种属性和选择这种头像的用户 性格和爱好上是直接相关的。
206、电子设备基于所述目标对象关联的用户画像确定所述目标用户的用 户画像。
例如,电子设备可以根据目标对象的关联信息得到目标对象关联的用户画 像,将这些关联的用户画像作为所述目标用户的用户画像。比如,花泽X菜的 关联信息为所配角色包括天野X子、千石X子、园X杏里等等,确定这些所配 角色对应的用户画像,将这些用户画像作为目标用户(即选择花泽X菜的二次 元头像的用户)的用户画像,进而丰富目标用户的画像信息和这些信息背后的 深层用户需求和兴趣。
207、电子设备根据所述目标用户的用户画像获取待推荐信息,将所述待 推荐信息推荐给所述目标用户。
例如,电子设备具体可以根据所述目标用户的用户画像获取目标用户感兴 趣的待推荐信息,可以先将获取到的待推送信息存储到存储***中,等待目标 用户进行刷新时,将所述待推送信息推送给目标用户。
由上可知,本实施例可以获取目标用户在社交网络中的身份标识图像,当 所述身份标识图像的图像内容属于目标内容类型时,确定所述图像内容中目标 对象的对象信息,然后,利用知识图谱对所述目标对象的对象信息进行关联扩 展,得到所述目标对象关联的用户画像,所述知识图谱包括所述目标内容类型 中各对象关联的用户画像,接着,基于所述目标对象关联的用户画像确定所述 目标用户的用户画像,再根据所述目标用户的用户画像获取待推荐信息,将所 述待推荐信息推荐给所述目标用户。由于该方案通过获取用户设置的二次元头 像,识别出二次元头像的图像内容中具体人物信息,然后二次元领域的垂直知 识图谱进行实体关联扩展,对二次元头像背后的画像信息和兴趣信息做深度挖 掘和标记,挖掘的结果作为用户的画像兴趣点沉淀在用户画像上,进而丰富目 标用户的画像信息和这些信息背后的深层用户需求和兴趣,以对用户进行准确 地推荐,在用户冷启动信息不全时,可以有效地提高了信息推荐的效率。通过 增加一个新的维度来丰富二次元用户的画像信息和这些信息背后的深层用户 需求和兴趣,在二次元内容定向推送内容的时候,能够做更好的用户人群定向, 增加对二次元用户的粘性。并且,在二次元及周边内容推荐的时候能够增加头 像召回内容的量和维度,同时能够缩小对二次元用户兴趣探索的范围和加速用 户画像收拢的时间,对平台吸引年轻二次元用户很有帮助。
为了更好地实施以上方法,相应的,本申请实施例还提供一种信息推荐装 置,该信息推荐装置具体可以集成在电子设备中,该电子设备可以是服务器, 也可以是终端等设备。
例如,如图3所示,该信息推荐装置可以包括获取单元301、对象信息确定 单元302、扩展单元303、用户画像确定单元304和推荐单元305,如下:
获取单元301,用于获取目标用户在社交网络中的身份标识图像;
对象信息确定单元302,用于当所述身份标识图像的图像内容属于目标内 容类型时,确定所述图像内容中目标对象的对象信息;
扩展单元303,用于利用知识图谱对所述目标对象的对象信息进行关联扩 展,得到所述目标对象关联的用户画像,所述知识图谱包括所述目标内容类型 中各对象关联的用户画像;
用户画像确定单元304,用于基于所述目标对象关联的用户画像确定所述 目标用户的用户画像;
推荐单元305,用于根据所述目标用户的用户画像获取待推荐信息,将所 述待推荐信息推荐给所述目标用户。
可选的,在一些实施例中,所述对象信息确定单元302可以包括第一确定 子单元和第二确定子单元,如下:
所述第一确定子单元,用于当所述身份标识图像的图像内容属于目标内容 类型时,确定所述图像内容所属的来源内容;
所述第二确定子单元,用于基于所述图像内容所属的来源内容确定所述图 像内容中目标对象的对象信息。
可选的,在一些实施例中,所述身份标识图像可以为用户头像,所述目标 内容类型可以为二次元内容类型,所述对象信息确定单元302,具体可以用于 当所述用户头像的图像内容属于二次元内容类型时,确定所述图像内容所属的 来源内容;基于所述图像内容所属的来源内容确定所述图像内容中目标对象的 对象信息。
可选的,在一些实施例中,所述第一确定子单元可以包括提取模块和识别 模块,如下:
所述提取模块,用于当所述身份标识图像的图像内容属于目标内容类型时, 利用内容多分类模型对所述身份标识图像的图像内容进行特征提取,得到图像 内容特征;
所述识别模块,用于基于所述图像内容特征对所述图像内容进行识别,根 据识别结果确定所述图像内容所属的来源内容。
可选的,在一些实施例中,所述内容多分类模型可以为二次元多分类模型, 所述第一确定子单元,具体可以用于当所述用户头像的图像内容属于二次元内 容类型时,利用二次元多分类模型对所述身份标识图像的图像内容进行特征提 取,得到图像内容特征;基于所述图像内容特征对所述图像内容进行识别,根 据识别结果确定所述图像内容所属的来源内容。
可选的,在一些实施例中,所述内容多分类模型包括特征抽取网络,所述 提取模块,具体可以用于利用特征抽取网络对所述身份标识图像的图像内容进 行浅层特征提取,得到所述身份标识图像的浅层特征;利用特征抽取网络对所 述身份标识图像的图像内容进行深层特征提取,得到所述身份标识图像的深层 特征;将所述身份标识图像的基础特征和抽象特征进行融合,得到图像内容特 征。
可选的,在一些实施例中,所述内容多分类模型包括多分类网络,所述识 别模块,具体可以用于采用内容多分类模型中的多分类网络对所述图像内容特 征进行类别计算,得到所述图像内容属于目标内容类型下每个子内容类型的类 别分数;将所述类别分数进行归一化,得到所述图像内容属于每个子内容类型 的概率;基于所述图像内容属于每个子内容类型的概率确定所述图像内容所属 的来源内容。
可选的,在一些实施例中,所述信息推荐装置还可以包括训练单元306, 如下:
所述训练单元306,具体可以用于获取多张目标内容类型的图像样本;利 用所述图像样本对预设内容多分类模型进行训练,得到内容多分类模型。
可选的,在一些实施例中,所述扩展单元303可以包括检索子单元和扩展 子单元,如下:
所述检索子单元,用于基于所述目标对象的对象信息在知识图谱中进行检 索,根据检索结果获取所述目标对象的关联信息;
所述扩展子单元,用于基于所述目标对象的关联信息确定所述目标对象关 联的用户画像。
可选的,在一些实施例中,所述知识图谱可以为二次元图谱,所述扩展单 元303,具体可以用于基于所述目标对象的对象信息在二次元图谱中进行检索, 根据检索结果获取所述目标对象的关联信息;基于所述目标对象的关联信息确 定所述目标对象关联的用户画像。
可选的,在一些实施例中,所述扩展子单元,具体可以用于对所述目标对 象的关联信息进行属性分类,得到所述关联信息的属性特征;基于所述关联信 息的属性特征确定所述目标对象关联的用户画像。
可选的,在一些实施例中,所述信息推荐装置还可以包括构建单元307, 如下:
所述构建单元307,具体可以用于采集目标内容类型的关联数据,所述关 联数据包括多个目标对象;对所述关联数据进行知识抽取,得到目标对象之间 的关联关系;基于所述关联关系构建目标内容类型的知识图谱。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意 组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的 方法实施例,在此不再赘述。
由上可知,本实施例可以由获取单元301获取目标用户在社交网络中的身 份标识图像,当所述身份标识图像的图像内容属于目标内容类型时,由对象信 息确定单元302确定所述图像内容中目标对象的对象信息,然后,由扩展单元 303利用知识图谱对所述目标对象的对象信息进行关联扩展,得到所述目标对 象关联的用户画像,所述知识图谱包括所述目标内容类型中各对象关联的用户 画像,接着,由用户画像确定单元304基于所述目标对象关联的用户画像确定 所述目标用户的用户画像,再由推荐单元305根据所述目标用户的用户画像获 取待推荐信息,将所述待推荐信息推荐给所述目标用户。由于该方案通过获取 用户设置的身份标识图像,识别出身份标识图像的图像内容中具体对象信息, 然后目标内容类型的知识图谱进行关联扩展,对对象信息背后的画像信息和兴 趣信息做深度挖掘和标记,挖掘的结果作为用户的画像兴趣点沉淀在用户画像 上,进而丰富目标用户的画像信息和这些信息背后的深层用户需求和兴趣,以 对用户进行准确地推荐,在用户冷启动信息不全时,可以有效地提高了信息推 荐的效率。在目标内容进行定向推送时,能够更好地做好用户人群的定向,增 加对目标用户的粘性;在信息推荐时能够增加身份标识图像召回内容的量和维 度;同时能够缩小对目标用户兴趣探索的范围和加速用户画像收拢的时间,对 平台吸引特定目标用户很有帮助。
此外,本申请实施例还提供一种电子设备,如图4所示,其示出了本申请 实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一 个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。 本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的 限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部 件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子 设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块, 以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据, 从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核 心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处 理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无 线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存 储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器 402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、 至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存 储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以 包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存 储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以 包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过 电源管理***与处理器401逻辑相连,从而通过电源管理***实现管理充电、 放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交 流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态 指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数 字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、 光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本 实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的 应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行 存储在存储器402中的应用程序,从而实现各种功能,如下:
获取目标用户在社交网络中的身份标识图像,当所述身份标识图像的图像 内容属于目标内容类型时,确定所述图像内容中目标对象的对象信息,然后, 利用知识图谱对所述目标对象的对象信息进行关联扩展,得到所述目标对象关 联的用户画像,所述知识图谱包括所述目标内容类型中各对象关联的用户画像, 接着,基于所述目标对象关联的用户画像确定所述目标用户的用户画像,再根 据所述目标用户的用户画像获取待推荐信息,将所述待推荐信息推荐给所述目 标用户。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例可以获取目标用户在社交网络中的身份标识图像,当 所述身份标识图像的图像内容属于目标内容类型时,确定所述图像内容中目标 对象的对象信息,然后,利用知识图谱对所述目标对象的对象信息进行关联扩 展,得到所述目标对象关联的用户画像,所述知识图谱包括所述目标内容类型 中各对象关联的用户画像,接着,基于所述目标对象关联的用户画像确定所述 目标用户的用户画像,再根据所述目标用户的用户画像获取待推荐信息,将所 述待推荐信息推荐给所述目标用户。由于该方案通过获取用户设置的身份标识 图像,识别出身份标识图像的图像内容中具体对象信息,然后目标内容类型的 知识图谱进行关联扩展,对对象信息背后的画像信息和兴趣信息做深度挖掘和 标记,挖掘的结果作为用户的画像兴趣点沉淀在用户画像上,进而丰富目标用 户的画像信息和这些信息背后的深层用户需求和兴趣,以对用户进行准确地推 荐,在用户冷启动信息不全时,可以有效地提高了信息推荐的效率。在目标内 容进行定向推送时,能够更好地做好用户人群的定向,增加对目标用户的粘性; 在信息推荐时能够增加身份标识图像召回内容的量和维度;同时能够缩小对目 标用户兴趣探索的范围和加速用户画像收拢的时间,对平台吸引特定目标用户 很有帮助。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步 骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储 于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例还提供一种存储介质,其中存储有多条指令,该指令 能够被处理器进行加载,以执行本申请实施例所提供的任一种信息推荐方法中 的步骤。例如,该指令可以执行如下步骤:
获取目标用户在社交网络中的身份标识图像,当所述身份标识图像的图像 内容属于目标内容类型时,确定所述图像内容中目标对象的对象信息,然后, 利用知识图谱对所述目标对象的对象信息进行关联扩展,得到所述目标对象关 联的用户画像,所述知识图谱包括所述目标内容类型中各对象关联的用户画像, 接着,基于所述目标对象关联的用户画像确定所述目标用户的用户画像,再根 据所述目标用户的用户画像获取待推荐信息,将所述待推荐信息推荐给所述目 标用户。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、 随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种 信息推荐方法中的步骤,因此,可以实现本申请实施例所提供的任一种信息推 荐方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种信息推荐方法、装置、电子设备和存储 介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行 了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同 时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围 上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (15)
1.一种信息推荐方法,其特征在于,包括:
获取目标用户在社交网络中的身份标识图像;
当所述身份标识图像的图像内容属于目标内容类型时,确定所述图像内容中目标对象的对象信息;
利用知识图谱对所述目标对象的对象信息进行关联扩展,得到所述目标对象关联的用户画像,所述知识图谱包括所述目标内容类型中各对象关联的用户画像;
基于所述目标对象关联的用户画像确定所述目标用户的用户画像;
根据所述目标用户的用户画像获取待推荐信息,将所述待推荐信息推荐给所述目标用户。
2.根据权利要求1所述的方法,其特征在于,所述当所述身份标识图像的图像内容属于目标内容类型时,确定所述图像内容中目标对象的对象信息,包括:
当所述身份标识图像的图像内容属于目标内容类型时,确定所述图像内容所属的来源内容;
基于所述图像内容所属的来源内容确定所述图像内容中目标对象的对象信息。
3.根据权利要求2所述的方法,其特征在于,所述当所述身份标识图像的图像内容属于目标内容类型时,确定所述图像内容所属的来源内容,包括:
当所述身份标识图像的图像内容属于目标内容类型时,利用内容多分类模型对所述身份标识图像的图像内容进行特征提取,得到图像内容特征;
基于所述图像内容特征对所述图像内容进行识别,根据识别结果确定所述图像内容所属的来源内容。
4.根据权利要求3所述的方法,其特征在于,所述内容多分类模型包括特征抽取网络,所述利用内容多分类模型对所述身份标识图像的图像内容进行特征提取,得到图像内容特征,包括:
利用特征抽取网络对所述身份标识图像的图像内容进行浅层特征提取,得到所述身份标识图像的浅层特征;
利用特征抽取网络对所述身份标识图像的图像内容进行深层特征提取,得到所述身份标识图像的深层特征;
将所述身份标识图像的基础特征和抽象特征进行融合,得到图像内容特征。
5.根据权利要求3所述的方法,其特征在于,所述内容多分类模型包括多分类网络,所述基于所述图像内容特征对所述图像内容进行识别,根据识别结果确定所述图像内容所属的来源内容,包括:
采用内容多分类模型中的多分类网络对所述图像内容特征进行类别计算,得到所述图像内容属于目标内容类型下每个子内容类型的类别分数;
将所述类别分数进行归一化,得到所述图像内容属于每个子内容类型的概率;
基于所述图像内容属于每个子内容类型的概率确定所述图像内容所属的来源内容。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述利用内容多分类模型对所述身份标识图像的图像内容进行特征提取之前,还包括:
获取多张目标内容类型的图像样本;
利用所述图像样本对预设内容多分类模型进行训练,得到内容多分类模型。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述利用知识图谱对所述目标对象的对象信息进行关联扩展,得到所述目标对象关联的用户画像,包括:
基于所述目标对象的对象信息在知识图谱中进行检索;
根据检索结果获取所述目标对象的关联信息;
基于所述目标对象的关联信息确定所述目标对象关联的用户画像。
8.根据权利要求7所述的方法,其特征在于,所述基于所述目标对象的关联信息确定所述目标对象关联的用户画像,包括:
对所述目标对象的关联信息进行属性分类,得到所述关联信息的属性特征;
基于所述关联信息的属性特征确定所述目标对象关联的用户画像。
9.根据权利要求1至5任一项所述的方法,其特征在于,所述利用知识图谱对所述目标对象的对象信息进行关联扩展,得到所述目标对象关联的用户画像之前,还包括:
采集目标内容类型的关联数据,所述关联数据包括多个目标对象;
对所述关联数据进行知识抽取,得到目标对象之间的关联关系;
基于所述关联关系构建目标内容类型的知识图谱。
10.根据权利要求1所述的方法,其特征在于,所述身份标识图像为用户头像,所述目标内容类型为二次元内容类型,所述当所述身份标识图像的图像内容属于目标内容类型时,确定所述图像内容中目标对象的对象信息,包括:
当所述用户头像的图像内容属于二次元内容类型时,确定所述图像内容所属的来源内容;
基于所述图像内容所属的来源内容确定所述图像内容中目标对象的对象信息。
11.根据权利要求10所述的方法,其特征在于,所述内容多分类模型为二次元多分类模型,所述当所述用户头像的图像内容属于二次元内容类型时,确定所述图像内容所属的来源内容,包括:
当所述用户头像的图像内容属于二次元内容类型时,利用二次元多分类模型对所述身份标识图像的图像内容进行特征提取,得到图像内容特征;
基于所述图像内容特征对所述图像内容进行识别,根据识别结果确定所述图像内容所属的来源内容。
12.根据权利要求1所述的方法,其特征在于,所述知识图谱为二次元图谱,所述利用知识图谱对所述目标对象的对象信息进行关联扩展,得到所述目标对象关联的用户画像,包括:
基于所述目标对象的对象信息在二次元图谱中进行检索;
根据检索结果获取所述目标对象的关联信息;
基于所述目标对象的关联信息确定所述目标对象关联的用户画像。
13.一种信息推荐装置,其特征在于,包括:
获取单元,用于获取目标用户在社交网络中的身份标识图像;
对象信息确定单元,用于当所述身份标识图像的图像内容属于目标内容类型时,确定所述图像内容中目标对象的对象信息;
扩展单元,用于利用知识图谱对所述目标对象的对象信息进行关联扩展,得到所述目标对象关联的用户画像,所述知识图谱包括所述目标内容类型中各对象关联的用户画像;
用户画像确定单元,用于基于所述目标对象关联的用户画像确定所述目标用户的用户画像;
推荐单元,用于根据所述目标用户的用户画像获取待推荐信息,将所述待推荐信息推荐给所述目标用户。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至12中任一项所述的信息推荐方法中的步骤。
15.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至12任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011016645.6A CN112131472B (zh) | 2020-09-24 | 2020-09-24 | 信息推荐方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011016645.6A CN112131472B (zh) | 2020-09-24 | 2020-09-24 | 信息推荐方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112131472A true CN112131472A (zh) | 2020-12-25 |
CN112131472B CN112131472B (zh) | 2024-05-24 |
Family
ID=73839758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011016645.6A Active CN112131472B (zh) | 2020-09-24 | 2020-09-24 | 信息推荐方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112131472B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076476A (zh) * | 2021-04-01 | 2021-07-06 | 重庆邮电大学 | 一种微博异构信息的用户画像构建方法 |
CN113343108A (zh) * | 2021-06-30 | 2021-09-03 | 中国平安人寿保险股份有限公司 | 推荐信息处理方法、装置、设备及存储介质 |
CN113468402A (zh) * | 2021-05-25 | 2021-10-01 | 北京达佳互联信息技术有限公司 | 目标对象确定方法、装置及存储介质 |
CN113722615A (zh) * | 2021-08-19 | 2021-11-30 | 北京智慧星光信息技术有限公司 | 互联网数据精准推送方法、***、电子设备及存储介质 |
CN113779387A (zh) * | 2021-08-25 | 2021-12-10 | 上海大智慧信息科技有限公司 | 基于知识图谱的行业推荐方法及*** |
CN114610905A (zh) * | 2022-03-23 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及相关装置 |
WO2022143482A1 (zh) * | 2020-12-31 | 2022-07-07 | 华为技术有限公司 | 一种推荐方法、推荐网络及相关设备 |
CN115510330A (zh) * | 2022-11-01 | 2022-12-23 | 潍坊医学院附属医院 | 基于数据挖掘的信息智能处理方法及*** |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563500A (zh) * | 2017-09-14 | 2018-01-09 | 北京奇艺世纪科技有限公司 | 一种基于用户头像的视频推荐方法及*** |
CN108694223A (zh) * | 2018-03-26 | 2018-10-23 | 北京奇艺世纪科技有限公司 | 一种用户画像库的构建方法及装置 |
US20200034656A1 (en) * | 2017-09-08 | 2020-01-30 | Tencent Technology (Shenzhen) Company Limited | Information recommendation method, computer device, and storage medium |
CN110851622A (zh) * | 2019-11-12 | 2020-02-28 | 北京搜狐互联网信息服务有限公司 | 文本生成方法和装置 |
CN111191054A (zh) * | 2019-12-18 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 媒体数据的推荐方法、装置 |
CN111522994A (zh) * | 2020-04-15 | 2020-08-11 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN111522889A (zh) * | 2020-04-24 | 2020-08-11 | 腾讯科技(深圳)有限公司 | 用户兴趣标签扩展方法、装置、电子设备及存储介质 |
-
2020
- 2020-09-24 CN CN202011016645.6A patent/CN112131472B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200034656A1 (en) * | 2017-09-08 | 2020-01-30 | Tencent Technology (Shenzhen) Company Limited | Information recommendation method, computer device, and storage medium |
CN107563500A (zh) * | 2017-09-14 | 2018-01-09 | 北京奇艺世纪科技有限公司 | 一种基于用户头像的视频推荐方法及*** |
CN108694223A (zh) * | 2018-03-26 | 2018-10-23 | 北京奇艺世纪科技有限公司 | 一种用户画像库的构建方法及装置 |
CN110851622A (zh) * | 2019-11-12 | 2020-02-28 | 北京搜狐互联网信息服务有限公司 | 文本生成方法和装置 |
CN111191054A (zh) * | 2019-12-18 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 媒体数据的推荐方法、装置 |
CN111522994A (zh) * | 2020-04-15 | 2020-08-11 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN111522889A (zh) * | 2020-04-24 | 2020-08-11 | 腾讯科技(深圳)有限公司 | 用户兴趣标签扩展方法、装置、电子设备及存储介质 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022143482A1 (zh) * | 2020-12-31 | 2022-07-07 | 华为技术有限公司 | 一种推荐方法、推荐网络及相关设备 |
CN113076476B (zh) * | 2021-04-01 | 2021-11-30 | 重庆邮电大学 | 一种微博异构信息的用户画像构建方法 |
CN113076476A (zh) * | 2021-04-01 | 2021-07-06 | 重庆邮电大学 | 一种微博异构信息的用户画像构建方法 |
CN113468402A (zh) * | 2021-05-25 | 2021-10-01 | 北京达佳互联信息技术有限公司 | 目标对象确定方法、装置及存储介质 |
CN113468402B (zh) * | 2021-05-25 | 2024-05-17 | 北京达佳互联信息技术有限公司 | 目标对象确定方法、装置及存储介质 |
CN113343108A (zh) * | 2021-06-30 | 2021-09-03 | 中国平安人寿保险股份有限公司 | 推荐信息处理方法、装置、设备及存储介质 |
CN113722615B (zh) * | 2021-08-19 | 2023-11-21 | 北京智慧星光信息技术有限公司 | 互联网数据精准推送方法、***、电子设备及存储介质 |
CN113722615A (zh) * | 2021-08-19 | 2021-11-30 | 北京智慧星光信息技术有限公司 | 互联网数据精准推送方法、***、电子设备及存储介质 |
CN113779387A (zh) * | 2021-08-25 | 2021-12-10 | 上海大智慧信息科技有限公司 | 基于知识图谱的行业推荐方法及*** |
CN114610905A (zh) * | 2022-03-23 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及相关装置 |
CN114610905B (zh) * | 2022-03-23 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及相关装置 |
CN115510330B (zh) * | 2022-11-01 | 2023-02-10 | 潍坊医学院附属医院 | 基于数据挖掘的信息智能处理方法及*** |
CN115510330A (zh) * | 2022-11-01 | 2022-12-23 | 潍坊医学院附属医院 | 基于数据挖掘的信息智能处理方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN112131472B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131472B (zh) | 信息推荐方法、装置、电子设备和存储介质 | |
CN111444428B (zh) | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 | |
US11893514B2 (en) | Contextual-based method and system for identifying and revealing selected objects from video | |
US20230009814A1 (en) | Method for training information recommendation model and related apparatus | |
CN109447140B (zh) | 一种基于神经网络深度学习的图像识别并推荐认知的方法 | |
Zhao et al. | Predicting personalized image emotion perceptions in social networks | |
CN113569088B (zh) | 一种音乐推荐方法、装置以及可读存储介质 | |
CN109983455A (zh) | 在在线社交网络上多样化媒体搜索结果 | |
CN111859160B (zh) | 一种基于图神经网络会话序列推荐方法及*** | |
CN107800801A (zh) | 一种基于用户学习偏好的学习资源推送方法及*** | |
CN101346718A (zh) | 用于向用户提供选定内容项的方法 | |
CN106104512A (zh) | 用于主动获取社交数据的***和方法 | |
CN108280155A (zh) | 基于短视频的问题检索反馈方法、装置及其设备 | |
CN108959323B (zh) | 视频分类方法和装置 | |
CN111885399A (zh) | 内容分发方法、装置、电子设备以及存储介质 | |
US9639633B2 (en) | Providing information services related to multimodal inputs | |
CN115878841B (zh) | 一种基于改进秃鹰搜索算法的短视频推荐方法及*** | |
CN113392331A (zh) | 文本处理方法及设备 | |
CN111506794A (zh) | 一种基于机器学习的谣言管理方法和装置 | |
CN110852047A (zh) | 一种文本配乐方法、装置、以及计算机存储介质 | |
Pearson | Personalisation the artificial intelligence way | |
Venkatesh et al. | Smart learning using personalised recommendations in web-based learning systems using artificial bee colony algorithm to improve learning performance | |
CN113557521A (zh) | 使用机器学习从动画媒体内容项目提取时间信息的***和方法 | |
Yashima et al. | Learning to describe e-commerce images from noisy online data | |
CN111223014B (zh) | 一种从大量细分教学内容在线生成细分场景教学课程的方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40036242 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |