CN111046275A - 基于人工智能的用户标签确定方法及装置、存储介质 - Google Patents

基于人工智能的用户标签确定方法及装置、存储介质 Download PDF

Info

Publication number
CN111046275A
CN111046275A CN201911135598.4A CN201911135598A CN111046275A CN 111046275 A CN111046275 A CN 111046275A CN 201911135598 A CN201911135598 A CN 201911135598A CN 111046275 A CN111046275 A CN 111046275A
Authority
CN
China
Prior art keywords
domain
user
feature
features
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911135598.4A
Other languages
English (en)
Other versions
CN111046275B (zh
Inventor
陈鑫
闫肃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911135598.4A priority Critical patent/CN111046275B/zh
Publication of CN111046275A publication Critical patent/CN111046275A/zh
Application granted granted Critical
Publication of CN111046275B publication Critical patent/CN111046275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例提供了一种基于人工智能的用户标签确定方法及装置、存储介质,涉及人工智能技术领域,并涉及深度学习技术,该方法包括:获取至少一个特征域中与目标用户对应的用户数据;根据各所述特征域包含的所述用户数据以及用于表示属性方向的多个属性向量,确定各所述特征域对应的域内特征;将所述域内特征进行融合得到所述目标用户对应的域间特征,并根据所述域间特征确定目标特征;对所述目标特征进行识别处理,生成所述目标用户的用户标签。本公开实施例中通过属性向量,避免了特征提取过程中的信息损失,提高了标签确定的准确性。

Description

基于人工智能的用户标签确定方法及装置、存储介质
技术领域
本公开涉及人工智能技术领域,具体而言,涉及一种基于人工智能的用户标签确定方法、基于人工智能的用户标签确定装置以及计算机可读存储介质。
背景技术
随着人工智能技术的发展,准确地向用户推荐其感兴趣的信息是信息推荐的关键所在。
相关技术中,一般通过用户行为确定用户画像进而确定其感兴趣的信息的标签。但是相关技术中确定用户标签时一般是在模型上层进行融合,具有一定的局限性,且可能造成信息损失,使得确定的标签准确性较差。
鉴于此,本领域亟需开发一种新的基于人工智能的用户标签确定方法。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开实施例提供了一种基于人工智能的用户标签确定方法、基于人工智能的用户标签确定装置以及计算机可读存储介质,进而至少在一定程度上能够避免造成的信息损失,根据全面的用户数据得到准确的用户标签,提高标签确定的准确性。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的一个方面,提供了一种基于人工智能的用户标签确定方法,包括:获取至少一个特征域中与目标用户对应的用户数据;根据各所述特征域包含的所述用户数据以及用于表示属性方向的多个属性向量,确定各所述特征域对应的域内特征;将所述域内特征进行融合得到所述目标用户对应的域间特征,并根据所述域间特征确定目标特征;对所述目标特征进行识别处理,生成所述目标用户的用户标签。
根据本公开的一个方面,提供一种基于人工智能的用户标签确定装置,包括:数据获取模块,用于获取至少一个特征域中与目标用户对应的用户数据;域内特征确定模块,用于根据各所述特征域包含的所述用户数据以及用于表示属性方向的多个属性向量,确定各所述特征域对应的域内特征;目标特征确定模块,用于将所述域内特征进行融合得到所述目标用户对应的域间特征,并根据所述域间特征确定目标特征;标签生成模块,用于对所述目标特征进行识别处理,生成所述目标用户的用户标签。
在本公开的一些实施例中,域内特征确定模块包括:向量化模块,用于对各所述特征域包含的所述用户数据进行向量化处理,以得到各所述特征域的所述用户数据对应的离散向量;域内融合模块,用于将所述离散向量与所述多个属性向量进行融合,获取所述特征域对应的域内特征。
在本公开的一些实施例中,目标特征确定模块包括:域间融合模块,用于对多个特征域的所述域内特征与所述多个属性向量进行融合,得到所述目标用户对应的所述域间特征。
在本公开的一些实施例中,所述域间特征包括多个子特征,且各所述子特征被映射为一个隐层向量;目标特征确定模块包括:交叉处理模块,用于根据所述域间特征中的两个子特征以及所述两个子特征所映射的隐层向量,将所述域间特征进行融合得到交叉特征;融合处理模块,用于通过全连接对所述交叉特征进行特征处理,得到用于表征所述目标用户的所述用户数据的目标特征。
在本公开的一些实施例中,标签生成模块包括:标签确定模块,用于通过用于识别用户数据所属的类别的训练好的深度学习模型,对所述目标特征进行识别处理,生成所述用户数据的所述用户标签。
在本公开的一些实施例中,标签确定模块被配置为:根据所述目标特征确定所述用户数据属于每个候选标签的概率,并根据所述概率确定所述用户标签。
在本公开的一些实施例中,所述装置还包括:信息推荐模块,用于根据所述用户标签对多个待选信息进行筛选获取符合所述用户标签的目标信息,并将所述目标信息推送至所述目标用户的终端设备,以进行展示。
在本公开的一些实施例中,所述装置还包括:模型训练模块,用于根据所述至少一个特征域的参考用户的历史数据的特征向量以及所述历史数据的标签,对一深度学习模型进行训练,获取所述训练好的深度学习模型;其中,所述特征向量根据所述历史数据的离散向量以及用于表示历史数据的属性方向的多个属性向量而确定。
在本公开的一些实施例中,模型训练模块被配置为:将各所述特征域的历史数据进行向量化处理,得到各所述特征域的所述历史数据对应的离散向量;根据历史数据对应的离散向量以及所述历史数据的多个参考属性向量,获取所述历史数据的域内特征;将所述历史数据的域内特征与所述多个参考属性向量分别进行结合,得到所述多个参考属性向量对应的域间特征;将所述域间特征进行组合,得到所述历史数据的预设特征;基于所述预设特征对所述深度学习模型进行训练,以得到所述训练好的深度学习模型。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储由计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的基于人工智能的用户标签确定方法。
在本公开的一些实施例所提供的技术方案中,首先从至少一个特征域中获取与目标用户对应的用户数据;进而根据各特征域包含的用户数据以及用于表示属性方向的属性向量,确定各特征域对应的域内特征以及域间特征,以得到目标特征;进一步地,对目标特征进行识别处理,生成目标用户的用户标签。本公开的技术方案,一方面,通过至少一个特征域的用户数据以及用于表示属性方向的属性向量得到每个特征域的域内特征,进而对域内特征以及属性向量进行融合得到域间特征,由于提取每一个特征域的域内特征时对属性向量以及用户数据进行了特征融合,进一步在根据域内特征确定域间特征的同时也结合用于表示属性方向的属性向量再次进行了特征融合,在进行特征提取的同时对特征进行融合,避免了相关技术中在所有特征提取完成之后在模型上层对所有特征进行融合的问题,能够在特征提取的过程中从模型处理的最底层融合属性向量中指定的属性方向,按照属性方向全面地且具有针对性地提取用户数据中的特征,并且可以按照多个属性向量得到多个方向的特征,避免了在模型上层进行融合时造成的信息损失,也避免了某一个方向的数据较少的问题以及无法确定方向而导致的误操作等问题,能够提高数据的充分性和全面性,使得提取到的特征更全面且更准确,实现无损确定特征的过程。另一方面,由于能够根据属性向量以及用户数据获取各个特征域的域内特征、域间特征,进而得到全面且无损失的目标特征,因此能够通过对目标特征进行识别,生成符合目标用户的用户标签,避免了由于信息损失而导致的标签不准确的问题,提高了用户标签的全面性以及针对性,能够通过准确的用户标签精准地描述目标用户的兴趣信息,实现无损地生成用于表达目标用户的兴趣信息的标签。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本公开实施例的技术方案的示例性***架构的示意图;
图2示意性示出了本公开实施例中的一种基于人工智能的用户标签确定方法的流程示意图;
图3示意性示出了根据本公开的一个实施例的模型的结构示意图;
图4示意性示出了根据本公开的一个实施例的模型训练的流程示意图;
图5示意性示出了根据本公开的一个实施例的特征融合的示意图;
图6示意性示出了根据本公开的一个实施例的测试结果的示意图;
图7示意性示出了本公开实施例中的一种基于人工智能的用户标签确定装置的框图;
图8示出了适于用来实现本公开实施例的电子设备的计算机***的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示出了可以应用本公开实施例的技术方案的示例性***架构的示意图。
如图1所示,***架构100可以包括第一端101、网络102、第二端103。其中,第一端101可以为客户端,客户端具体可以是便携式计算机、台式计算机、智能手机、智能电视等具有显示屏幕的终端设备,用于通过安装应用程序或者是登录网址以显示可供用户查看的文字或者是视频等信息。客户端的数量可以为一个或者是多个,且多个客户端可以执行同样的功能。网络102用以在第一端101和第二端103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线通信链路、无线通信链路等等,在本公开实施例中,第一端101和第二端103之间的网络102可以是有线通信链路,例如可以通过串口连接线提供通信链路,也可以是无线通信链路,通过无线网络提供通信链路。第二端103可以是客户端,也可以是服务器,只要其上部署有处理器且能够执行处理操作即可。其中,当第二端为客户端时,第二端可以与第一端的客户端相同,也可以不同。当第二端为服务器时,服务器可以为本地服务器或远程服务器,也可以是其他能够提供存储功能或者处理功能的产品例如云服务器,还可以是多个服务器组成的服务器集群等,本公开实施例在此不做特殊限定。
应该理解,图1中的第一端、网络和第二端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的第一端、网络和第二端。
在本公开的一个实施例中,第一端101根据用户行为获取用户数据后,可以通过网络102向第二端103发送该用户数据,当第二端103获取用户数据后,可以对用户数据进行特征提取以获取离散向量;接着根据离散向量和属性向量得到每个特征域的域内特征以及域间特征;然后通过域间特征得到最终用于识别的目标特征;最后目标特征输入至模型中去确定该目标特征所属的用户标签。进一步地,在本公开的实施例中,还可以在获取用户标签后,对目标用户进行信息推荐。本公开实施例的技术方案能够在模型底层结合属性向量进行特征提取,进而能够提高准确率,进一步提升了用户体验。
需要说明的是,本公开实施例所提供的基于人工智能的用户标签确定方法可以完全由第二端103(服务器)执行,也可以完全由第一端101(客户端)执行,也可以部分由第一端执行,部分由第二端执行,此处对基于人工智能的用户标签确定方法的执行主体不做特殊限定。相应地,基于人工智能的用户标签确定装置可设置于第二端103中或设置于第一端101中。
相关技术中,处理用户多兴趣时,往往会独立学习各个特征域,而在上层直接连接各个特征域的信息,做进一步用户兴趣的挖掘。特征域内兴趣提取:可能变成使用上下文作为用户目标的注意力提取域内兴趣。但是有些特征域行为并不充分,这个会导致对应的上下文向量可能会学偏;而且不同特征域的方向可能是完全不一致的,这也会导致融合时的信息损失。特征域间融合可以使用上下文向量选取有价值的域特征。且单兴趣方向往往单一,会有损的确定用户的兴趣方向。
鉴于相关技术中存在的问题,本公开实施例提供了一种基于人工智能的用户标签确定方法,该基于人工智能的用户标签确定方法是基于机器学习实现的,机器学习属于人工智能的一种,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本公开实施例提供的方案涉及用户标签确定技术,具体通过如下实施例进行说明。
图2示意性示出了根据本公开的一个实施例的基于人工智能的用户标签确定方法的流程图,本公开实施例中的基于人工智能的用户标签确定方法可以由服务器来执行,该服务器可以是图1中所示的服务器103。参照图2所示,该基于人工智能的用户标签确定方法至少包括步骤S210至步骤S240,详细介绍如下:
在步骤S210中,获取至少一个特征域中与目标用户对应的用户数据。
在本公开的一个实施例中,特征域是指不同属性的用户数据所属的领域。比如年龄领域、性别领域、视频领域或者图文领域等。本申请实施例中,在一个特征域下,与目标用户对应的用户数据的数量可以是一个也可以是多个。比如,在性别领域下,与目标用户标识对应的离散用户数据的数量为一个,即要么为男、要么为女。而在视频领域下,与目标用户对应的用户数据的数量则可以多于一个,例如,用户A观看了电视剧1和用户A观看了电影2等。
目标用户指的是通过终端设备查看信息而产生浏览行为的用户,具体可以通过目标用户标识来唯一表示。目标用户标识可以为目标用户用于登录某个网站或者是应用程序的账号等等。
用户数据是指用户的浏览行为等用户行为下所产生的离散的数据。由于每个用户一般只会对自己感兴趣的内容产生行为。那么,基于这些感兴趣的内容产生的行为即为各用户的用户数据。
在本公开的一个实施例中,特征域的划分可根据实际需要自定义划分。在一种特征域划分方式下划分得到的多于一个的特征域,可以是另一种特征域划分方式下划分得到的一个特征域。比如,在A方式下划分得到年龄领域、性别领域和地域领域,在B方式下划分得到基础信息领域。那么,可以认为年龄领域、性别领域和地域领域可以是基础信息领域的子领域。在一种特征域划分方式下划分得到的一个特征域,也可以是另一种特征域划分方式下划分得到的多于一个的特征域。比如,在A方式下划分得到视频领域,在B方式下划分得到视频标签领域和视频类目领域。那么,可以认为视频标签领域和视频类目领域可以是视频领域的子领域。举例说明,视频类目领域中的视频类目可以划分出体育、美食、娱乐和汽车等。也可以对视频类目进行细分得到视频标签,如体育可以细分为球类比赛、田径比赛、赛车比赛和游泳比赛,而球类比赛又可以进一步分为篮球比赛、足球比赛和乒乓球比赛等。在本公开的一个实施例中,至少一个特征域可以是年龄领域、性别领域、地域领域、图文标签领域、视频标签邻域等等。
在步骤S220中,根据各所述特征域包含的所述用户数据以及用于表示属性方向的属性向量,确定各所述特征域对应的域内特征。
在本公开的一个实施例中,属性向量指的是特定场景下需要获取的目标对应的向量,特定场景例如可以为搜索场景,目标可以为搜索目标或者是查询目标等等,且不同搜索场景中的搜索任务的目标可能不同。属性向量可以表示为query向量或者是共享上下文,用于表征某个特定场景下的搜索目标所对应的属性方向,此处的属性方向可以理解为兴趣方向,且本公开实施例中的属性向量可以包括多个。一个属性向量代表一个兴趣方向,对于多个特征域而言,如果多个特征域之间共享一个属性向量,则表示这些特征域的兴趣方向是一致的。如果多个特征域之间存在共享的多个属性向量,则可以认为存在多个不同的兴趣方向。举例而言,若存在表示体育的属性向量1,以及表示文学的属性向量2,则可以认为存在多个兴趣方向,且多个兴趣方向包括体育和文学。需要说明的是,属性向量是在模型训练的过程中自动生成的,而不需要人为设定。通过属性向量,对于差距很大的多个特征域的用户数据而言,可以清楚地通过多个维度或者是多个兴趣方向来提取特征,避免了只通过一个整体的方向来提取特征时造成的信息损失,保证了数据和提取特征的完整性和全面性,进而准确地确定用户标签。
在获取到用户数据时,为了提高处理效率,可以通过一个训练好的深度学习模型来对多个特征域的用户数据进行处理。基于此,为了提高准确率,首先可以对深度学习模型进行训练以得到训练好的深度学习模型。具体地,可以根据至少一个特征域的参考用户的历史数据的特征向量以及历史数据的标签,对一深度学习模型进行训练,获取训练好的深度学习模型;其中,特征向量根据历史数据的离散向量以及用于表示属性方向的属性向量而确定。参考用户可以包括通过终端设备查看信息而产生浏览行为的除目标用户以外的其他用户,且参考用户的标签能够根据深度学习模型以及人工确定出来。历史数据可以为参考用户的浏览行为产生的数据,历史数据也可以包括多个域的数据,且历史数据的特征域以及具体数值可以与目标数据对应的特征域或具体数据相同或不同。此处的历史数据的标签指的是人工标注的标签,即实际标签。特征向量指的是根据历史数据提取的能够直接用于确定历史数据的预测标签,且表征历史数据的特征的向量。历史数据的离散向量指的是直接将历史数据进行向量化处理,但是并未进行其他处理的向量。表示历史数据的属性方向的属性向量指的是用于表示从历史数据中确定搜索目标的兴趣方向的向量,此处用于表示历史数据的属性方向的属性向量可以根据实际场景而实时确定,属性方向可以为多个,且历史数据的属性方向可以与目标用户的用户数据的兴趣方向相同或不同,此处不作限定。
深度学习模型可以为任意合适的能够用于分类的模型,例如卷积神经网络模型等等。本公开实施例中,以深度学习模型为注意力机制为例进行说明。注意力机制可以让一个神经网络能够只关注其输入的一部分信息,它能够选择特定的输入。注意力机制可以被应用到任意类型的输入,不管其形状如何,对于矩阵形式的输入,例如图像或者是向量等等。
图3中示意性示出了深度学习模型的网络架构图,参考图3中所示,该模型自下向上依次包括:特征输入层、注意力融合层、特征交叉层、全连接层、打分层。其中,特征输入层用于将数据处理为向量;注意力融合层包括域内融合层和域间融合层,用于实现域内融合和域间融合;特征交叉层用于对特征再次进行融合;全连接层用于将特征融合为高阶特征;打分层用于得到预测标签的概率以训练模型。输入端为参考用户的历史数据,输出端为预测的用户标签属于哪一种候选标签的概率。
基于图3中所示的深度学习模型的网络结构图,图4中示意性示出了本公开实施例中的模型训练方法的流程图,参考图4中所示,主要包括以下步骤S410至S450,其中:
在步骤S410中,将各所述特征域的历史数据进行向量化处理,得到各所述特征域的所述历史数据对应的离散向量;
在步骤S420中,根据所述历史数据对应的离散向量以及所述多个参考属性向量,获取所述历史数据的域内特征;
在步骤S430中,将所述历史数据的域内特征与所述多个参考属性向量分别进行结合,得到所述多个参考属性向量对应的域间特征;
在步骤S440中,将所述历史数据的域间特征进行组合,得到所述历史数据的预设特征;
在步骤S450中,基于所述预设特征对所述深度学习模型进行训练,以得到所述训练好的深度学习模型。
在本公开的一个实施例中,首先,将各特征域的历史数据输入深度学习模型;通过深度学习模型的输入层以向量化各历史数据,得到各历史数据各自相应的离散向量。具体地,在获取到至少一个特征域下分别与目标用户标识对应的历史数据后,可将文本形式的这些历史数据直接输入深度学习模型。深度学习模型的输入层则将每个历史数据分别映射为相应的离散向量。比如,深度学习模型的输入层将历史数据“北京市朝阳区”映射为“[1 02 0 3 0 0 4 0...]”等。需要说明的是,输入层将历史数据映射为离散向量,每个特征域的每个特征都被映射到一个长度E的向量。因为有些特征域包含的特征有百万级别,有些只有几十个,所以取E尽可能大,例如128或者是256,为了保存足够多的特征信息。
其次,通过深度学习模型注意力融合层融合各特征域下的离散向量,得到各特征域相应的、且与目标用户标识对应的域内特征。域内特征具体可以通过域内特征向量来表示。具体步骤包括:在深度学习模型的域内融合层中,分别获取各特征域下的各离散向量各自对应的注意力分配权重;通过域内融合层,将各特征域下的各离散向量按照各自对应的注意力分配权重进行线性融合,得到各特征域各自相应的、且与目标用户标识对应的域内特征向量。其中,域内融合层是本申请实施例的深度学习模型中,按特征域对历史数据相应的离散向量在域内进行融合的网络层。通过域内融合层,可将输入其的、且属于相同特征域的离散向量融合为一个域内特征,从而得到至少一个的域内特征。域内特征的数量与特征域的数量相同,也就是每个特征域对应一个域内特征。举例而言,一个特征域内的历史数据对用户特性体现的重要程度各不相同。某用户在某个领域中有上万条体育视频的浏览记录,但仅有几条娱乐视频的浏览记录。则在对一个特征域内的各历史数据相应的离散向量进行融合时,则通过注意力机制对不同的离散向量分配不同的注意力分配权重,通过注意力分配权重来体现离散向量的重要程度。注意力机制分配权重可以由公式(1)得到:
Figure BDA0002279513210000121
其中,αi为注意力分配权重,
Figure BDA0002279513210000122
是属性向量,也可以称为域内注意力向量或域间注意力向量;
Figure BDA0002279513210000123
是输入的离散向量,Wt是空间变换矩阵,
Figure BDA0002279513210000124
是偏置向量,H为特征域内离散向量的数量。基于上述公式(1),每个离散向量会通过空间变化矩阵Wt及偏置向量
Figure BDA0002279513210000125
及非线性函数relu变换到注意力空间,与属性向量
Figure BDA0002279513210000126
相乘,然后经过softmax层进行权重计算,最后加权平均,输出各个特征域的域融合结果,即域内特征,具体可以如公式(2)所示:
Figure BDA0002279513210000127
具体参考图3所示,深度学***均,得到该特征域相应的域内特征。
再次,在上述公式(1)中,若将离散向量替换为域内向量,则可以通过同样的方法对多个特征域对应的域内特征按照不同的属性向量分别进行融合,得到不同属性向量对应的域间特征。具体地,在深度学习模型的域间融合层中,分别结合多个属性向量获取各域内特征对应的注意力分配权重;通过域间融合层,将各域内特征按照注意力分配权重进行线性融合,得到与目标用户标识对应的域间特征。其中,域间融合层是本公开实施例的深度学习模型中,对各特征域的域内特征在域间进行融合的网络层。通过域内融合层,可将输入其的、各特征域的域内特征融合为一个域间特征。例如,某用户在图文领域中有上万条浏览记录,但在视频领域仅有几条浏览记录。那么,该用户在图文领域的兴趣明显高于视频领域的兴趣。在本实施例中,则通过注意力机制对不同的域内特征分配不同的注意力分配权重,通过注意力分配权重来体现特征域的重要程度,从而凸显出对用户特性体现重要的特征域。
本公开实施例中,在对特征域内的离散向量进行融合时,采用注意力机制融合的方式,结合确定的多个属性向量,为不同的离散向量分配不同的融合权重,这样可以从大量的离散向量中有选择地选取更重要的信息作为辅助,更充分更全面地对用户特性进行表示,大大提高了得到的域内特征的准确性和有效性。类似地,在对各特征域相应的域内特征进行融合时,采用注意力机制融合的方式,结合确定的多个参考属性向量,为不同的域内特征分配不同的融合权重,可以从大量的域内特征中有选择地选取更重要的信息作为辅助,避免了信息损失的问题,更充分地对用户特性进行表示,提高了得到的域间特征的准确性和有效性。
进一步地,通过深度学习模型的特征交叉层,对域间特征进行去稀疏处理得到稠密化的域间特征;对稠密化的域间特征中的子特征进行二阶交叉处理,获得交叉特征;并且基于交叉特征得到用于直接确定标签的预设特征。
在本公开的一个实施例中,通过深度学习模型的特征交叉层,对历史数据的域间特征进行去稀疏处理得到稠密化的域间特征,包括:通过深度学习模型的特征交叉层,将域间特征中的子特征分别映射为预设维度的隐层向量,以从线性角度来表示多个向量。对稠密化的域间特征中的子特征进行二阶交叉处理,获得交叉特征,包括:对于域间特征中任意的两个子特征,将两个子特征以及两个子特征所映射得到的隐层向量的乘积,作为两个子特征的二阶交叉特征;组合各二阶交叉特征向量,得到交叉特征。
举例而言,深度学习模型的特征交叉层可以将子特征xi映射为隐层向量vi作为表达,将子特征xj映射为隐层向量vj作为表达,再通过计算(vi·vj)*xi*xj,学习到子特征xi和vj之间的二阶交叉特征,具体可以表示为公式(3)所示:
Figure BDA0002279513210000141
深度学习模型的特征交叉层可通过自身的模型参数,为将域间特征中的子特征各自映射为一个隐层向量,那么,对于域间特征中的每一个子特征,都可以得到其本身与其映射得到的隐层向量的乘积,深度学习模型的特征交叉层则对任意两个乘积进行点乘运算,得到多个交叉子特征,如此一来,深度学习模型的特***叉层即可拼接这些交叉子特征得到交叉特征。本公开实施例中,深度学习模型的域内融合层和域间融合层进行的是一阶的融合操作,深度学习模型的特征交叉层则进行的是二阶的融合操作。通过对域间特征中的子特征进行交叉处理,可以避免因人工难以手动设计交叉特征的问题,从而即便是在特征分布复杂的场景下,也可以很容易地对特征进行拟合,得到高阶的交叉特征,以便通过二阶以及更高阶的交叉特征来实现不同特征域间用户特性相关性的表达,提高最终表征用户特性的特征向量的准确性。
进一步地,对于交叉后的高阶用户特征,会进行两层全连接进行特征融合,于最后一层生成最终的用户高阶特征,即预设特征。具体地,通过深度学习模型的第一全连接层,将交叉特征的维度调整至与域间特征的维度一致后,与域间特征拼接得到中间特征。由于域间特征反映了用户在域内和域间的特征,交叉特征则反映了用户域间特征各子特征之间的相关性,都是前序层提取到的能够体现用户特性的特征,那么第一全连接层则可将这些特征综合起来协同表征用户特性。接着通过深度学习模型的第二全连接层,将中间特征映射为预设特征;根据预设特征确定历史数据所属的标签。
最后,深度学习模型的打分层根据用户的最终高阶特征(预设特征)训练多标签分类器。每个用户会对应K个训练样本。然后使用sigmoid交叉熵定义损失函数,然后使用adam进行优化。损失函数如公式(4)所示:
Figure BDA0002279513210000151
其中yk是模型对第k个样本的预估值(0~1),
Figure BDA0002279513210000152
是标签的真实值(0或1)。
通过图4中的步骤,可以基于历史数据以及历史数据的实际标签,根据深度学习模型度对历史数据的预测标签的比较结果,调整深度学习中的权重参数,直至损失函数接近0或者是深度模型收敛为止,以完成深度学习模型的训练过程,得到训练好的深度学习模型。
本公开的一个实施例中,由于在提取参考用户的历史数据的特征的过程中,融合了表示目标任务的多个兴趣方向的多个参考属性向量来提取每个特征域的域内向量,进而在对每个域内向量进行处理时依旧融合了多个参考属性向量来获取域间特征,能够从多个兴趣方向的角度来分别提取符合每个兴趣方向的域内特征和域间特征,避免了某一个特征域的数据不足而导致的过拟合或者是损失特征的问题,通过共享特征域的上下文向量和特征域间融合向量,不仅可以在兴趣融合这一步骤无损表征用户兴趣,同时可以兼容某些特征域信息不充分的情况,更好的挖掘用户各个特征域的信息,提高了全面性和准确性,同时也基于参考属性向量提高了模型训练的准确性,得到更准确地训练好的深度学习模型。
在步骤S220中,基于训练好的深度学习模型,可以通过训练好的深度学习模型中的域内融合层来确定每个特征域的用户数据的域内特征。具体地,将目标用户的各特征域的用户数据输入深度学习模型的输入层,对用户数据进行向量化,得到各用户数据相应的离散向量。然后将离散向量输入至深度学习模型的域内融合层中,分别获取各特征域中的各离散向量对应的注意力分配权重;通过域内融合层,将各特征域下的各离散向量按照各自对应的注意力分配权重进行线性融合,得到各特征域各自相应的、且与目标用户标识对应的域内特征。在确定注意力分配权重时,可以结合用于表示搜索目标的兴趣方向的属性向量分配权重,从而使得一个特征域内的用户数据分别归至不同兴趣方向,由于不只是根据一个整体的方向来提取特征,避免了只根据一个方向提取特征时造成的数据的损失,保证了数据的完整性和全面性。此处的属性向量可以与参考属性向量相同或不同,但是均用于标识搜索目标的兴趣方向所在,且属性向量是动态更新的。由于可能存在特征域学习不充分的情况,可以共享各个特征域内的属性向量,不仅可以解决某些特征域行为不充分,且可以让各个域都面临更鲁棒的训练数据,学习更充分。还可以统一不同特征域的方向,帮助融合过程无损表达用户兴趣。
继续参考图2中所示,在步骤S230中,将所述域内特征进行融合得到所述目标用户对应的域间特征,并根据所述域间特征确定目标特征。
本公开的一个实施例中,域间特征指的是将不同的特征域的域内特征进行结合而得到的特征。具体地,可以将多个特征域的域内特征分别输入训练好的深度学习模型的域间融合层中,结合对用户数据进行搜索目标的多个属性向量获取各域内特征对应的注意力分配权重;通过域间融合层,将各域内特征按照注意力分配权重进行线性融合,得到与目标用户标识对应的域间特征。在对各特征域相应的域内特征进行融合时,采用注意力机制融合的方式,结合确定的多个属性向量,为不同的域内特征分配不同的融合权重,可以从大量的域内特征中有选择地选取更重要的信息作为辅助,避免了信息损失的问题,更充分地对用户特性进行表示,提高了得到的域间特征的准确性和有效性。本公开实施例中,通过在底层提取以及融合时结合属性向量,因此能够避免信息损失,实现无损确定特征的过程。
在得到域间特征之后,还可以将域间特征输入训练好的深度学习模型的特征交叉层。由于每一个域间特征的子特征均可以被映射至一个隐含向量,以从线性的角度来表示大量数据。因此,根据所述域间特征确定目标特征包括:根据域间特征中的两个子特征以及两个子特征所映射的隐层向量,将域间特征进行融合得到交叉特征;通过全连接对交叉特征进行特征处理,得到用于表征目标用户的用户数据的目标特征。即,对于域间特征中任意的两个子特征,将两个子特征以及两个子特征所映射得到的隐层向量的乘积,作为两个子特征的二阶交叉特征;组合各二阶交叉特征向量,得到交叉特征。在得到交叉特征之后,还可以将交叉特征输入至第一全连接层,将交叉特征的维度调整至与域间特征的维度一致后,与域间特征拼接得到中间特征。进一步地,可以将中间特征输入至第二全连接层,将中间特征映射为用户数据对应的目标特征,即于最后一层生成最终的用户高阶特征。通过结合属性向量的方式,可以完整的提取到用户数据对应的特征。
图5中示意性示出了提取域内特征和域间特征的示意图。参考图5中的图5A所示,对于标签特征域而言,存在多个用户数据,将这些用户数据的离散向量与共享上下文向量(属性向量)相结合,能够基于准确地兴趣方向,从而将tag标签特征域的用户数据按照与属性向量相同的兴趣方向来提取特征,以确定标签特征域的域内特征。类似地,对于cate类别特征域而言,存在多个用户数据,将这些用户数据的离散向量与共享上下文向量(属性向量)相结合,能够将标签特征域的用户数据按照与属性向量相同的兴趣方向来提取特征,以确定类别特征域的域内特征。每个特征域针对每一个兴趣方向,均可生成一个域内特征。不同的特征域所对应的多个属性向量可以是相同的,从而使多个特征域存在相同的兴趣方向,便于特征提取。
参考图5中的图5B所示的域间特征提取所示,标签特征域存在融合特征1以及融合特征2,类别特征域也存在融合特征1以及融合特征2,融合特征即域内特征。对于标签融合特征1和类别融合特征1而言,可以结合属性向量1,来得到二者之间的域间特征;对于标签融合特征2和类别融合特征2而言,可以结合属性向量2,来得到二者之间的域间特征。属性向量1和属性向量2表示不同的兴趣方向。如此一来,可以基于多个不同的兴趣方向,得到多个域间特征。通过图3和图5中所示的技术方案,域内与域间共享同一属性向量,不同的属性向量代表不同的兴趣方向,图中代表双头兴趣方向,无损提取用户兴趣信息。尤其是对于存在冲突的兴趣方向而言,能够更准确更全面完整地提取每个兴趣方向所对应的特征,实现了特征的无损提取。
图6中示意性示出了提取结果的示意图,参考图6中所示,可以确定不同的兴趣方向代表不一样的兴趣重点,特征域内挖掘兴趣时能够得到不一样头挖掘不一样的信息,如将两个头信息混合在一起就会是两个兴趣方向的整合会损失一部分的信息量。
继续参考图2中所示,在步骤S240中,对所述目标特征进行识别处理,生成所述目标用户的用户标签。
本公开的一个实施例中,可以将目标特征输入至训练好的深度学习模型的评分层,以得到目标特征属于每一个候选标签的概率。训练好的深度学习模型用于识别用户数据所属的类别。用户标签可以用于刻画用户画像。用户标签用于表示用户所感兴趣的内容的类别,用户标签具体可以为每种类型的兴趣方向所对应的标识,用户标签可以用文字标识或者是其他类型的标识来表示,且不同类别的兴趣方向对应的用户标签不同。例如标签A对应类别1,标签B对应类别2等等。
通过提取的目标特征,可以得到目标用户对应的用户标签,且一个目标用户的用户标签可以包括多个,此处不作限定。具体而言,根据目标特征确定用户数据属于每个候选标签的概率,并根据概率确定用户标签。具体可以事先设置一个概率阈值;在概率大于或者等于该概率阈值时,可确定用户数据属于该类别。进一步地,可以按照每个概率从大到小的排列顺序,从符合概率阈值的多个候选标签中确定一个或多个作为目标用户的用户标签。例如,目标用户1对候选标签的概率满足概率阈值,且按照从大到小的顺序排列的候选标签依次为电影、球赛、新闻以及生活,如果用户标签的数量为一个,则可以将电影作为其用户标签;如果用户标签的数量为三个,则可以将电影、球赛、新闻作为目标用户1的用户标签。本公开实施例中,避免了相关问题中无法确定哪些特征域的属性方向是一个方向的问题,能够通过属性向量清楚地表示每个特征域所属的方向,从而根据训练好的深度学习模型无损地确定目标用户的用户标签,提高准确性。
在得到目标用户的用户标签之后,即使目标用户并未产生行为数据,也可以向该目标用户推荐信息。具体地,根据用户标签对多个待选信息进行筛选,获取符合用户标签的目标信息,并将目标信息推送至目标用户的终端设备,以进行展示。待选信息可以为某一个应用程序的所有类型信息。也就是说,可以根据目标用户的用户标签,准确地从待选信息中选择符合目标用户的用户标签的目标信息,以进行展示,提高用户体验感。
在本公开实施例中,通过训练好的深度学习模型来提取用户数据的特征,进而根据其确定目标用户的用户标签,能够将这些特征综合起来得到能够充分反映用户特性的目标特征,再依据该目标特征能够更准确地筛选目标用户的用户标签,提高标签确定的准确率和效率。
为了确定模型的性能,对训练好的深度学习模型进行了离线实验,分别针对业界大数据及公开数据集进行测试,以证明优化的鲁棒性,实验结果显示训练好的深度学习模型相对基础模型有效果提升。
参考表1中所示的模型性能的对比结果,使用YOUTUBE的DNN模型作为对比实验,正例采用点击日志,反例使用随机反例。UTPM作为训练好的深度学习模型的名称,其中AF-1head代表单头(一个兴趣方向)的模型版本;AF-2head代表双头(两个兴趣方向)的模型版本。使用Prec@K进行统一衡量,Prec@K表示模型预估的得分最高的K个标签有多少比例是正样本。
表1
Figure BDA0002279513210000191
在表1中,在工业数据集中拥有百万级别的画像候选,故Prec@50仍具有可比性,而公开数据集movielens-20M候选较少,留给可供选择的画像候选并不多,且特征域仅有2个域,不过两个兴趣方向的模型仍然存在优势,因此证明结合属性向量训练好的兴趣挖掘方式有鲁棒性,提高了模型的准确性,并且能够得到更准确的用户标签。
本公开实施例中的技术方案,通过共享各个特征域内的属性向量,不仅可以解决某些特征域行为不充分,且可以让各个域都面临更鲁棒的训练数据,学习更充分。还可以统一不同特征域的兴趣方向,帮助融合过程无损表达用户兴趣。域间特征融合时的属性向量通过复用域内特征学习的属性向量,即域内融合和域间融合的多个属性向量均相同,可以提高准确率。通过多个属性向量,可以明确地得知哪个特征域的兴趣方向,可以在模型表达过程中尽可能无损表达用户兴趣,提高了准确性。
以下介绍本公开的装置实施例,可以用于执行本公开上述实施例中的基于人工智能的用户标签确定方法。对于本公开装置实施例中未披露的细节,请参照本公开上述的基于人工智能的用户标签确定方法的实施例。
图7示意性示出了根据本公开的一个实施例的基于人工智能的用户标签确定装置的框图。
参照图7所示,根据本公开的一个实施例的基于人工智能的用户标签确定装置700,包括:数据获取模块701,用于获取至少一个特征域中与目标用户对应的用户数据;域内特征确定模块702,用于根据各所述特征域包含的所述用户数据以及用于表示属性方向的多个属性向量,确定各所述特征域对应的域内特征;目标特征确定模块703,用于将所述域内特征进行融合得到所述目标用户对应的域间特征,并根据所述域间特征确定目标特征;标签生成模块704,用于对所述目标特征进行识别处理,生成所述目标用户的用户标签。
在本公开的一些实施例中,基于前述方案,域内特征确定模块包括:向量化模块,用于对各所述特征域包含的所述用户数据进行向量化处理,以得到各所述特征域的所述用户数据对应的离散向量;域内融合模块,用于将所述离散向量与所述多个属性向量进行融合,获取所述特征域对应的域内特征。
在本公开的一些实施例中,基于前述方案,目标特征确定模块包括:域间融合模块,用于对多个特征域的所述域内特征与所述多个属性向量进行融合,得到所述目标用户对应的所述域间特征。
在本公开的一些实施例中,基于前述方案,所述域间特征包括多个子特征,且各所述子特征被映射为一个隐层向量;目标特征确定模块包括:交叉处理模块,用于根据所述域间特征中的两个子特征以及所述两个子特征所映射的隐层向量,将所述域间特征进行融合得到交叉特征;融合处理模块,用于通过全连接对所述交叉特征进行特征处理,得到用于表征所述目标用户的所述用户数据的目标特征。
在本公开的一些实施例中,基于前述方案,标签生成模块包括:标签确定模块,用于通过用于识别用户数据所属的类别的训练好的深度学习模型,对所述目标特征进行识别处理,生成所述用户数据的所述用户标签。
在本公开的一些实施例中,基于前述方案,标签确定模块被配置为:根据所述目标特征确定所述用户数据属于每个候选标签的概率,并根据所述概率确定所述用户标签。
在本公开的一些实施例中,基于前述方案,所述装置还包括:信息推荐模块,用于根据所述用户标签对多个待选信息进行筛选获取符合所述用户标签的目标信息,并将所述目标信息推送至所述目标用户的终端设备,以进行展示。
在本公开的一些实施例中,基于前述方案,所述装置还包括:模型训练模块,用于根据所述至少一个特征域的参考用户的历史数据的特征向量以及所述历史数据的标签,对一深度学习模型进行训练,获取所述训练好的深度学习模型;其中,所述特征向量根据所述历史数据的离散向量以及用于表示历史数据的属性方向的多个属性向量而确定。
在本公开的一些实施例中,基于前述方案,模型训练模块被配置为:将各所述特征域的历史数据进行向量化处理,得到各所述特征域的所述历史数据对应的离散向量;根据历史数据对应的离散向量以及所述历史数据的多个参考属性向量,获取所述历史数据的域内特征;将所述历史数据的域内特征与所述多个参考属性向量分别进行结合,得到所述多个参考属性向量对应的域间特征;将所述域间特征进行组合,得到所述历史数据的预设特征;基于所述预设特征对所述深度学习模型进行训练,以得到所述训练好的深度学习模型。
图8示出了适于用来实现本公开实施例的电子设备的计算机***的结构示意图。
需要说明的是,图8示出的电子设备的计算机***800仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,计算机***800包括中央处理单元(Central Processing Unit,CPU)801,其可以根据存储在只读存储器(Read-Only Memory,ROM)802中的程序或者从储存部分808加载到随机访问存储器(Random Access Memory,RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有***操作所需的各种程序和数据。CPU 801、ROM802以及RAM 803通过总线804彼此相连。输入/输出(Input/Output,I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分807;包括硬盘等的储存部分808;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的***中限定的各种功能。在一些实施例中,计算机***800还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关深度学习的计算操作。
需要说明的是,本公开实施例所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (11)

1.一种基于人工智能的用户标签确定方法,其特征在于,包括:
获取至少一个特征域中与目标用户对应的用户数据;
根据各所述特征域包含的所述用户数据以及用于表示属性方向的多个属性向量,确定各所述特征域对应的域内特征;
将所述域内特征进行融合得到所述目标用户对应的域间特征,并根据所述域间特征确定目标特征;
对所述目标特征进行识别处理,生成所述目标用户的用户标签。
2.根据权利要求1所述的基于人工智能的用户标签确定方法,其特征在于,根据各所述特征域包含的所述用户数据以及用于表示属性方向的多个属性向量,确定各所述特征域对应的域内特征,包括:
对各所述特征域包含的所述用户数据进行向量化处理,以得到各所述特征域的所述用户数据对应的离散向量;
将所述离散向量与所述多个属性向量进行融合,获取所述特征域对应的域内特征。
3.根据权利要求1所述的基于人工智能的用户标签确定方法,其特征在于,将所述域内特征进行融合得到所述目标用户对应的域间特征,包括:
对多个特征域的所述域内特征与所述多个属性向量进行融合,得到所述目标用户对应的所述域间特征。
4.根据权利要求1所述的基于人工智能的用户标签确定方法,其特征在于,所述域间特征包括多个子特征,且各所述子特征被映射为一个隐层向量;
根据所述域间特征确定目标特征包括:
根据所述域间特征中的两个子特征以及所述两个子特征所映射的隐层向量,将所述域间特征进行融合得到交叉特征;
通过全连接对所述交叉特征进行特征处理,得到用于表征所述目标用户的所述用户数据的目标特征。
5.根据权利要求1所述的基于人工智能的用户标签确定方法,其特征在于,对所述目标特征进行识别处理,生成所述目标用户的用户标签,包括:
通过用于识别用户数据所属的类别的训练好的深度学习模型,对所述目标特征进行识别处理,生成所述用户数据的所述用户标签。
6.根据权利要求5所述的基于人工智能的用户标签确定方法,其特征在于,生成所述用户数据的所述用户标签,包括:
根据所述目标特征确定所述用户数据属于每个候选标签的概率,并根据所述概率确定所述用户标签。
7.根据权利要求1所述的基于人工智能的用户标签确定方法,其特征在于,所述方法还包括:
根据所述用户标签对多个待选信息进行筛选获取符合所述用户标签的目标信息,并将所述目标信息推送至所述目标用户的终端设备,以进行展示。
8.根据权利要求5所述的基于人工智能的用户标签确定方法,其特征在于,所述方法还包括:
根据所述至少一个特征域的参考用户的历史数据的特征向量以及所述历史数据的标签,对一深度学习模型进行训练,获取所述训练好的深度学习模型;
其中,所述特征向量根据所述历史数据的离散向量以及用于表示历史数据的属性方向的多个参考属性向量而确定。
9.根据权利要求8所述的基于人工智能的用户标签确定方法,其特征在于,根据所述至少一个特征域的参考用户的历史数据的特征向量以及所述历史数据的标签,对一深度学习模型进行训练,获取所述训练好的深度学习模型包括:
将各所述特征域的历史数据进行向量化处理,得到各所述特征域的所述历史数据对应的离散向量;
根据所述历史数据对应的离散向量以及所述多个参考属性向量,获取所述历史数据的域内特征;
将所述历史数据的域内特征与所述多个参考属性向量分别进行结合,得到所述多个参考属性向量对应的域间特征;
将所述历史数据的域间特征进行组合,得到所述历史数据的预设特征;
基于所述预设特征对所述深度学习模型进行训练,以得到所述训练好的深度学习模型。
10.一种基于人工智能的用户标签确定装置,其特征在于,包括:
数据获取模块,用于获取至少一个特征域中与目标用户对应的用户数据;
域内特征确定模块,用于根据各所述特征域包含的所述用户数据以及用于表示属性方向的多个属性向量,确定各所述特征域对应的域内特征;
目标特征确定模块,用于将所述域内特征进行融合得到所述目标用户对应的域间特征,并根据所述域间特征确定目标特征;
标签生成模块,用于对所述目标特征进行识别处理,生成所述目标用户的用户标签。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-9任意一项所述的基于人工智能的用户标签确定方法。
CN201911135598.4A 2019-11-19 2019-11-19 基于人工智能的用户标签确定方法及装置、存储介质 Active CN111046275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911135598.4A CN111046275B (zh) 2019-11-19 2019-11-19 基于人工智能的用户标签确定方法及装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911135598.4A CN111046275B (zh) 2019-11-19 2019-11-19 基于人工智能的用户标签确定方法及装置、存储介质

Publications (2)

Publication Number Publication Date
CN111046275A true CN111046275A (zh) 2020-04-21
CN111046275B CN111046275B (zh) 2023-03-28

Family

ID=70231873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911135598.4A Active CN111046275B (zh) 2019-11-19 2019-11-19 基于人工智能的用户标签确定方法及装置、存储介质

Country Status (1)

Country Link
CN (1) CN111046275B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382846A (zh) * 2020-05-28 2020-07-07 支付宝(杭州)信息技术有限公司 基于迁移学习的训练神经网络模型的方法和装置
CN111666919A (zh) * 2020-06-24 2020-09-15 腾讯科技(深圳)有限公司 一种对象识别方法、装置、计算机设备和存储介质
CN112163164A (zh) * 2020-10-16 2021-01-01 腾讯科技(深圳)有限公司 一种用户标签确定方法和相关装置
CN112308166A (zh) * 2020-11-09 2021-02-02 建信金融科技有限责任公司 一种处理标签数据的方法和装置
CN112328899A (zh) * 2020-11-27 2021-02-05 京东数字科技控股股份有限公司 信息处理方法、信息处理装置、存储介质与电子设备
CN113111625A (zh) * 2021-04-30 2021-07-13 善诊(上海)信息技术有限公司 一种医学文本标签生成***、方法及计算机可读存储介质
CN113392294A (zh) * 2020-10-15 2021-09-14 腾讯科技(深圳)有限公司 样本标注方法及装置
CN113449926A (zh) * 2021-07-12 2021-09-28 中车青岛四方机车车辆股份有限公司 轨道交通车辆数据安全管理方法、***、存储介质及设备
CN114298118A (zh) * 2020-09-28 2022-04-08 腾讯科技(深圳)有限公司 一种基于深度学习的数据处理方法、相关设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729937A (zh) * 2017-10-12 2018-02-23 北京京东尚科信息技术有限公司 用于确定用户兴趣标签的方法及装置
CN108256907A (zh) * 2018-01-09 2018-07-06 北京腾云天下科技有限公司 一种客户分群模型的构建方法和计算设备
WO2019137104A1 (zh) * 2018-01-10 2019-07-18 北京市商汤科技开发有限公司 基于深度学习的推荐方法和装置、电子设备、介质、程序
CN110096526A (zh) * 2019-04-30 2019-08-06 秒针信息技术有限公司 一种用户属性标签的预测方法及预测装置
CN110245719A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种面向实体和用户画像的特征融合方法
CN110263265A (zh) * 2019-04-10 2019-09-20 腾讯科技(深圳)有限公司 用户标签生成方法、装置、存储介质和计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729937A (zh) * 2017-10-12 2018-02-23 北京京东尚科信息技术有限公司 用于确定用户兴趣标签的方法及装置
WO2019072091A1 (zh) * 2017-10-12 2019-04-18 北京京东尚科信息技术有限公司 用于确定用户兴趣标签的方法及装置
CN108256907A (zh) * 2018-01-09 2018-07-06 北京腾云天下科技有限公司 一种客户分群模型的构建方法和计算设备
WO2019137104A1 (zh) * 2018-01-10 2019-07-18 北京市商汤科技开发有限公司 基于深度学习的推荐方法和装置、电子设备、介质、程序
CN110245719A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种面向实体和用户画像的特征融合方法
CN110263265A (zh) * 2019-04-10 2019-09-20 腾讯科技(深圳)有限公司 用户标签生成方法、装置、存储介质和计算机设备
CN110096526A (zh) * 2019-04-30 2019-08-06 秒针信息技术有限公司 一种用户属性标签的预测方法及预测装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIANG WANG 等: "《An Automatic Tag Recommendation Algorithm for Micro-blogging Users》", 《IEEE》 *
张壮等: "基于多模态融合技术的用户画像方法", 《CNKI》 *
李恒超等: "一种用于构建用户画像的二级融合算法框架", 《计算机科学》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382846B (zh) * 2020-05-28 2020-09-01 支付宝(杭州)信息技术有限公司 基于迁移学习的训练神经网络模型的方法和装置
CN111382846A (zh) * 2020-05-28 2020-07-07 支付宝(杭州)信息技术有限公司 基于迁移学习的训练神经网络模型的方法和装置
CN111666919A (zh) * 2020-06-24 2020-09-15 腾讯科技(深圳)有限公司 一种对象识别方法、装置、计算机设备和存储介质
CN111666919B (zh) * 2020-06-24 2023-04-07 腾讯科技(深圳)有限公司 一种对象识别方法、装置、计算机设备和存储介质
CN114298118A (zh) * 2020-09-28 2022-04-08 腾讯科技(深圳)有限公司 一种基于深度学习的数据处理方法、相关设备及存储介质
CN114298118B (zh) * 2020-09-28 2024-02-09 腾讯科技(深圳)有限公司 一种基于深度学习的数据处理方法、相关设备及存储介质
CN113392294B (zh) * 2020-10-15 2023-11-10 腾讯科技(深圳)有限公司 样本标注方法及装置
CN113392294A (zh) * 2020-10-15 2021-09-14 腾讯科技(深圳)有限公司 样本标注方法及装置
CN112163164A (zh) * 2020-10-16 2021-01-01 腾讯科技(深圳)有限公司 一种用户标签确定方法和相关装置
CN112163164B (zh) * 2020-10-16 2024-03-15 腾讯科技(深圳)有限公司 一种用户标签确定方法和相关装置
CN112308166A (zh) * 2020-11-09 2021-02-02 建信金融科技有限责任公司 一种处理标签数据的方法和装置
CN112328899A (zh) * 2020-11-27 2021-02-05 京东数字科技控股股份有限公司 信息处理方法、信息处理装置、存储介质与电子设备
CN112328899B (zh) * 2020-11-27 2024-04-16 京东科技控股股份有限公司 信息处理方法、信息处理装置、存储介质与电子设备
CN113111625A (zh) * 2021-04-30 2021-07-13 善诊(上海)信息技术有限公司 一种医学文本标签生成***、方法及计算机可读存储介质
CN113449926A (zh) * 2021-07-12 2021-09-28 中车青岛四方机车车辆股份有限公司 轨道交通车辆数据安全管理方法、***、存储介质及设备

Also Published As

Publication number Publication date
CN111046275B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN111046275B (zh) 基于人工智能的用户标签确定方法及装置、存储介质
CN111291266A (zh) 基于人工智能的推荐方法、装置、电子设备及存储介质
CN111898696A (zh) 伪标签及标签预测模型的生成方法、装置、介质及设备
CN112836120A (zh) 一种基于多模态知识图谱的电影推荐方法、***及终端
CN111708950A (zh) 内容推荐方法、装置及电子设备
CN112395487B (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN113254785B (zh) 推荐模型训练方法、推荐方法和相关设备
CN110362663B (zh) 自适应多感知相似度检测和解析
CN111259647A (zh) 基于人工智能的问答文本匹配方法、装置、介质及电子设备
CN112989212B (zh) 媒体内容推荐方法、装置和设备及计算机存储介质
CN114298122B (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN113761153A (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN111831924A (zh) 内容推荐方法、装置、设备及可读存储介质
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
CN113011172A (zh) 文本处理方法、装置、计算机设备和存储介质
CN117494051A (zh) 一种分类处理的方法、模型训练的方法以及相关装置
CN114239730A (zh) 一种基于近邻排序关系的跨模态检索方法
CN113407778A (zh) 标签识别方法及装置
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN116955599A (zh) 一种类目确定的方法、相关装置、设备以及存储介质
CN115129849A (zh) 题目表示的获取方法、设备以及计算机可读存储介质
CN113762324A (zh) 虚拟对象检测方法、装置、设备及计算机可读存储介质
CN113569018A (zh) 问答对挖掘方法及装置
CN116150428B (zh) 视频标签获取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40022326

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant