CN115248890B - 用户兴趣画像的生成方法、装置、电子设备以及存储介质 - Google Patents

用户兴趣画像的生成方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN115248890B
CN115248890B CN202110460557.3A CN202110460557A CN115248890B CN 115248890 B CN115248890 B CN 115248890B CN 202110460557 A CN202110460557 A CN 202110460557A CN 115248890 B CN115248890 B CN 115248890B
Authority
CN
China
Prior art keywords
interest
keyword
node
user
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110460557.3A
Other languages
English (en)
Other versions
CN115248890A (zh
Inventor
黄超
王广军
曹国林
林小龙
乔刚
詹振鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu International Technology Shenzhen Co ltd
Original Assignee
Baidu International Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu International Technology Shenzhen Co ltd filed Critical Baidu International Technology Shenzhen Co ltd
Priority to CN202110460557.3A priority Critical patent/CN115248890B/zh
Priority to US17/694,422 priority patent/US20220198358A1/en
Priority to EP22162384.6A priority patent/EP3992814A3/en
Priority to JP2022054740A priority patent/JP7369228B2/ja
Publication of CN115248890A publication Critical patent/CN115248890A/zh
Application granted granted Critical
Publication of CN115248890B publication Critical patent/CN115248890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Human Resources & Organizations (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)

Abstract

本公开提供了用户兴趣画像的生成方法、装置、电子设备以及存储介质,涉及计算机技术领域,尤其涉及自然语言处理、知识图谱等人工智能技术领域。具体实现方案为:对用户的输入信息进行信息提取,以生成至少一个关键词;将所述至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,以生成所述至少一个关键词对应的兴趣标签;对所述至少一个关键词对应的兴趣标签进行排序,并根据排序后的所述至少一个关键词对应的兴趣标签,生成所述用户的兴趣画像。由此,减少了生成用户的兴趣画像时所需的人工成本。

Description

用户兴趣画像的生成方法、装置、电子设备以及存储介质
技术领域
本公开涉及计算机技术领域,特别涉及自然语言处理、知识图谱等人工智能技术领域,尤其涉及用户兴趣画像的生成方法、装置、电子设备以及存储介质。
背景技术
用户兴趣画像实质上是用户兴趣标签的集合,其能够反映用户感兴趣的内容。在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,用户画像作为企业应用大数据的根基,是互联网领域的页面呈现、数据引流、广告展示、内容推荐等的前置条件,精准的确定用户兴趣画像已成为很多企业关注的重点。
相关技术中,通常基于用户行为数据采用人工制定的规则产生用户兴趣标签,或者通过机器学习挖掘产生用户兴趣标签。然而,采用人工制定的规则产生用户兴趣标签,需要投入大量的人力资源对用户行为数据进行分析并制定从用户行为到兴趣标签的规则,通过机器学习挖掘产生用户兴趣标签,也需要投入大量的人力资源进行数据标注,从而得到大量的标注数据来训练相关机器学习模型,因此,相关技术中的用户兴趣画像生成方法的人工成本过高。
发明内容
本公开提供了一种用户兴趣画像的生成方法、装置、电子设备、存储介质以及计算机程序产品。
根据本公开的一方面,提供了一种用户兴趣画像的生成方法,包括:对用户的输入信息进行信息提取,以生成至少一个关键词;将所述至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,以生成所述至少一个关键词对应的兴趣标签;对所述至少一个关键词对应的兴趣标签进行排序,并根据排序后的所述至少一个关键词对应的兴趣标签,生成所述用户的兴趣画像。
根据本公开的另一方面,提供了一种用户兴趣画像的生成装置,包括:提取模块,用于对用户的输入信息进行信息提取,以生成至少一个关键词;匹配模块,用于将所述至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,以生成所述至少一个关键词对应的兴趣标签;生成模块,用于对所述至少一个关键词对应的兴趣标签进行排序,并根据排序后的所述至少一个关键词对应的兴趣标签,生成所述用户的兴趣画像。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的用户兴趣画像的生成方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的用户兴趣画像的生成方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据如上所述的用户兴趣画像的生成方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的用户兴趣画像的生成方法的流程示意图;
图2是根据本公开第二实施例的用户兴趣画像的生成方法的流程示意图;
图3是根据本公开第三实施例的用户兴趣画像的生成方法的流程示意图;
图4是根据本公开第三实施例的用户兴趣画像的生成方法的另一流程示意图;
图5是根据本公开第四实施例的用户兴趣画像的生成装置的结构示意图;
图6是根据本公开第五实施例的用户兴趣画像的生成装置的结构示意图;
图7是用来实现本公开实施例的用户兴趣画像的生成方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
可以理解的是,相关技术中,通常基于用户行为数据采用人工制定的规则产生用户兴趣标签,或者通过机器学习挖掘产生用户兴趣标签,然而,采用人工制定的规则产生用户兴趣标签,需要投入大量的人力资源对用户行为数据进行分析并制定从用户行为到兴趣标签的规则,通过机器学习挖掘产生用户兴趣标签,也需要投入大量的人力资源进行数据标注,从而得到大量的标注数据来训练相关机器学习模型,因此,相关技术中的用户兴趣画像生成方法的人工成本过高。
本公开为了以最低的人工成本生成用户的兴趣画像,提出一种用户兴趣画像的生成方法,该用户兴趣画像的生成方法,首先对用户的输入信息进行信息提取,以生成至少一个关键词,再将至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,以生成至少一个关键词对应的兴趣标签,再对至少一个关键词对应的兴趣标签进行排序,并根据排序后的至少一个关键词对应的兴趣标签,生成用户的兴趣画像。由于兴趣标签来源于知识图谱的各节点分别对应的标签,无需通过人工标注数据或者人工制定规则获取,整个用户画像构造过程无需人工介入,从而减少了生成用户兴趣画像时所需的人工成本。
下面参考附图描述本公开实施例的用户兴趣画像的生成方法、装置、电子设备、非瞬时计算机可读存储介质以及计算机程序产品。
首先结合图1,对本公开提供的用户兴趣画像的生成方法进行详细描述。
图1是根据本公开第一实施例的用户兴趣画像的生成方法的流程示意图。其中,需要说明的是,本实施例提供的用户兴趣画像的生成方法,执行主体为用户兴趣画像的生成装置,以下简称生成装置,该生成装置可以为电子设备,也可以被配置在电子设备中,以减少生成用户兴趣画像时所需的人工成本。本公开实施例以生成装置被配置在电子设备中为例进行说明。
其中,电子设备,可以是任意能够进行数据处理的静止或者移动计算设备,例如笔记本电脑、智能手机、可穿戴设备等移动计算设备,或者台式计算机等静止的计算设备,或者服务器,或者其它类型的计算设备等,本公开对此不作限制。
如图1所示,用户兴趣画像的生成方法,可以包括以下步骤:
步骤101,对用户的输入信息进行信息提取,以生成至少一个关键词。
其中,用户的输入信息,可以为用户通过生成装置所在的电子设备的人机交互界面输入的任意信息,也可以为用户在其它电子设备的人机交互界面输入的任意信息,即用户的输入信息,可以为生成装置从其所在的电子设备获取的任意信息,也可以为生成装置从其它电子设备获取的任意信息,或者,也可以是生成装置通过其它方式获取的任意信息,本公开对此不作限制。
另外,用户的输入信息,可以为中文的输入信息,也可以为日语或者其它语言类型的输入信息,本公开对输入信息的语言类型不作限制。
在示例性实施例中,生成装置可以通过以下方式对用户的输入信息进行信息提取,以生成至少一个关键词。
首先,生成装置可以先对用户的输入信息进行分词处理,得到至少一个词语单元,其中,在分词处理后得到的词语单元为一个时,可以将得到的一个词语单元作为信息提取后生成的一个关键词。
在分词处理后得到的词语单元为多个时,可以为每个词语单元设置权重,并根据多个词语单元中每个词语单元的词性,对各词语单元进行提权或降权处理,得到处理后的各词语单元。具体的,可以对多个词语单元中每个词语单元分别进行词性标注,比如,可以标注各个词语单元为一般名词、专有名词、助词还是动词等,进而根据各个词语单元的词性,基于先验知识,对各词语单元进行提权或者降权处理,比如对专有名词进行提权,对语气词进行降权等,从而得到处理后的各词语单元。
在基于词性对各词语单元进行提权或降权处理后,可以对各词语单元进行命名实体识别,并根据识别结果对各词语单元进行进一步提权或降权处理,比如,在某词语单元为人名、地名、组织机构名、药物或者时间等实体词时,可以对该词语单元进行提权处理,对其它词语单元进行降权处理,得到进一步提权或降权处理后的各词语单元。
进一步的,可以根据人工制定的规则,确定各词语单元的重要性,从而根据各词语单元的重要性,对各词语单元进行进一步提权或者降权处理,得到处理后的各词语单元。其中,人工制定的规则,为依据统计分析和先验经验确定的计算词语单元重要性的规则方法。
进一步的,可以结合知识图谱中的属性抽取和关系抽取,增加各词语单元抽取的属性特征的准确性,从而根据各词语单元的属性特征的准确性,进一步对各词语单元进行提权或降权处理,进而可以将权重超过预设权重阈值的词语单元,作为信息提取后生成的关键词。
需要说明的是,上述对用户的输入信息进行信息提取的方式,仅是举例说明,在实际应用中,本领域技术人员可以根据需要采用自然语言处理技术中的任意信息提取方法对用户的输入信息进行信息提取,以生成至少一个关键词,本公开对此不作限制。
步骤102,将至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,以生成至少一个关键词对应的兴趣标签。
其中,知识图谱,可以是基于百科知识库,采用信息抽取技术和知识融合技术构造的。其中,至少一个关键词对应的兴趣标签,为所有关键词对应的所有兴趣标签。
可以理解的是,知识图谱的各个节点中每个节点分别对应了一个标签,本申请实施例中,可以将至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,以生成至少一个关键词对应的兴趣标签。
需要说明的是,将一个关键词与知识图谱的各节点分别对应的标签进行匹配,可能得到该关键词对应的一个兴趣标签或者多个兴趣标签,也可能没有得到该关键词对应的兴趣标签,并且,不同关键词对应的兴趣标签也可能是相同的,那么,本公开实施例中,至少一个关键词对应的兴趣标签,可能为一个,也可能为多个,本公开对此不作限制。
举例来说,假设对用户的输入信息进行提取,生成了两个关键词“AA”和“BB”,其中“AA”为某个演员的名字,“BB”为某个漫画的名字,并且,将“AA”与知识图谱的各节点分别对应的标签进行匹配,得到了与“AA”对应的两个兴趣标签“AA”和“演员”,将“BB”与知识图谱的各节点分别对应的标签进行匹配,得到了与“BB”对应的三个兴趣标签“BB”、“热血动漫”和“动漫”,则可以生成“AA”和“BB”对应的共五个兴趣标签“AA”、“演员”、“BB”、“热血动漫”和“动漫”。
步骤103,对至少一个关键词对应的兴趣标签进行排序,并根据排序后的至少一个关键词对应的兴趣标签,生成用户的兴趣画像。
本公开实施例中,生成至少一个关键词对应的兴趣标签后,即可对这些兴趣标签进行排序,进而根据排序后的兴趣标签,生成用户的兴趣画像。
其中,对至少一个关键词对应的兴趣标签进行排序的方法,可以根据需要设置。比如,可以根据每个兴趣标签的页面访问量的多少,对至少一个关键词对应的兴趣标签进行排序;或者,也可以预先训练得到排序模型,再利用排序模型对每个兴趣标签进行打分,进而根据每个兴趣标签对应的分数高低,对至少一个关键词对应的兴趣标签进行排序;或者,也可以通过其它方式对至少一个关键词对应的兴趣标签进行排序,本公开对此不作限制。
举例来说,继续上述示例,假设对用户的输入信息进行提取,生成了两个关键词“AA”和“BB”,“AA”和“BB”对应的兴趣标签为“AA”、“演员”、“BB”、“热血动漫”和“动漫”,假设XX百科中“AA”对应的页面访问量为10000,“BB”对应的页面访问量为20000,“演员”对应的页面访问量为500,“热血动漫”对应的页面访问量为600,“动漫”对应页面访问量为400,则可以得到排序后的兴趣标签为“BB”、“AA”、“热血动漫”、“演员”“动漫”,从而根据排序后的这五个兴趣标签,可以生成用户的兴趣画像。
需要说明的是,至少一个关键词对应的兴趣标签的数量为一个时,直接根据这一个兴趣标签生成用户的兴趣画像即可。
本公开实施例提供的用户兴趣画像的生成方法,在对用户的输入信息进行信息提取得到至少一个关键词后,通过将至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,即可生成兴趣标签,进而可以基于排序后的兴趣标签生成用户的兴趣画像,由于兴趣标签来源于知识图谱的各节点分别对应的标签,无需通过人工标注大量数据来训练机器学习挖掘模型来产生兴趣标签,或者投入大量的人力资源对用户行为数据进行分析并制定从用户行为到兴趣标签的规则来获取兴趣标签,整个用户画像的构造过程无需人工介入,从而减少了生成用户兴趣画像时所需的人工成本。另外,由于知识图谱是基于百科知识库构造的,知识图谱中的各节点对应的标签可以随百科知识库的更新而更新,从而能够得到高置信度的兴趣标签来生成用户的兴趣画像,以提高用户的兴趣画像的准确性,且本公开实施例中无论对于哪种语言类型的用户输入信息,均可以快速生成用户的兴趣画像,通用泛化性好。
本公开实施例提供的用户兴趣画像的生成方法,首先对用户的输入信息进行信息提取,以生成至少一个关键词,再将至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,以生成至少一个关键词对应的兴趣标签,再对至少一个关键词对应的兴趣标签进行排序,并根据排序后的至少一个关键词对应的兴趣标签,生成用户的兴趣画像。由此,减少了生成用户兴趣画像时所需的人工成本。
通过上述分析可知,本公开实施例中,可以将至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,以生成至少一个关键词对应的兴趣标签,下面结合图2,对本公开提供的用户兴趣画像的生成方法中,将至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,生成至少一个关键词对应的兴趣标签的过程进一步说明。
图2是根据本公开第二实施例的用户兴趣画像的生成方法的流程示意图。如图2所示,用户兴趣画像的生成方法,可以包括以下步骤:
步骤201,对用户的输入信息进行信息提取,以生成至少一个关键词。
其中,上述步骤201的具体实现过程及原理,可以参考上述实施例的描述,此处不再赘述。
步骤202,针对所述关键词,将所述关键词与知识图谱的各节点分别对应的标签进行匹配,以确定知识图谱中与所述关键词匹配的第一节点。
在示例性实施例中,对用户的输入信息进行信息提取,生成的关键词为一个时,可以将生成的一个关键词与知识图谱的各节点分别对应的标签进行匹配,以确定知识图谱中与该关键词对应的兴趣标签;对用户的输入信息进行信息提取,生成的关键词为多个时,针对每个关键词,可以将关键词与知识图谱的各节点分别对应的标签进行匹配,以确定知识图谱中与每个关键词对应的兴趣标签,进而生成各关键词对应的所有兴趣标签。本公开实施例以对用户的输入信息进行信息提取,生成的关键词为多个为例,对生成各关键词对应的所有兴趣标签的过程进行说明。
在示例性实施例中,在对用户的输入信息进行信息提取,生成多个关键词时,针对每个关键词,可以通过正则匹配规则,将关键词与知识图谱的各节点分别对应的标签进行匹配,以确定知识图谱中与关键词匹配的第一节点。
其中,知识图谱中与关键词匹配的第一节点,可以是对应的标签与关键词完全匹配的一个节点,也可以是对应的标签与关键词的匹配度大于预设匹配度阈值的一个节点,本公开对此不作限制。其中,预设匹配度阈值,可以根据需要任意设置,比如设置为90%、80%等,本公开对此不作限制。
举例来说,假设关键词为“热血漫画”,知识图谱的各节点分别对应的标签中包括“漫画”、“热血漫画”、“卡通画”等,其中,标签“漫画”对应的节点为节点C,标签“热血漫画”对应的节点为节点B,标签“卡通画”对应的节点为节点D,则可以将知识图谱中与关键词“热血漫画”完全匹配的标签所在的节点B,确定为知识图谱中与关键词“热血漫画”匹配的第一节点。
步骤203,获取知识图谱中第一节点对应的根节点。
可以理解的是,本公开实施例中,将知识图谱中每个节点的最终父节点,称为该节点对应的根节点。
举例来说,假设知识图谱中节点A对应的标签为“BB”,节点A的父节点为节点B,节点B对应的标签为“热血动漫”,节点B的父节点为节点C,节点C对应的标签为“动漫”,节点C不存在父节点,即节点C为节点A的最终父节点,则称节点C为节点A对应的根节点。
在示例性实施例中,确定知识图谱中与关键词匹配的第一节点后,即可获取知识图谱中第一节点对应的根节点。比如,确定知识图谱中与关键词“BB”匹配的第一节点为节点A后,即可将节点C确定为节点A对应的根节点。
步骤204,将第一节点对应的标签、根节点对应的标签,以及第一节点与根节点之间的路径中各个节点分别对应的标签,确定为所述关键词对应的兴趣标签。
举例来说,继续上述示例,确定与关键词匹配的第一节点为节点A,第一节点对应的根节点为节点C后,即可将节点A对应的标签“BB”、节点C对应的标签“漫画”,以及节点A与节点C之间的路径中节点B对应的标签“热血漫画”,确定为关键词“BB”对应的兴趣标签。
通过上述过程可知,本公开实施例中,对于每个关键词,可以将知识图谱中与该关键词匹配的第一节点至第一节点的根节点的路径中,各个节点分别对应的标签(包含第一节点对应的标签以及第一节点对应的根节点对应的标签),确定为该关键词对应的兴趣标签,从而可以确定从用户的输入信息提取到的多个关键词对应的所有兴趣便签。通过这种方式获取每个关键词对应的兴趣标签,可以使最终获取的每个关键词对应的兴趣标签不仅是与该关键词完全匹配或者匹配度超过预设匹配度阈值的标签,还包括与该关键词匹配的兴趣标签的父类标签,从而使生成的各关键词对应的兴趣标签更丰富,进而使依据各关键词对应的兴趣标签生成的用户的兴趣画像更准确。
步骤205,对至少一个关键词对应的兴趣标签进行排序,并根据排序后的至少一个关键词对应的兴趣标签,生成用户的兴趣画像。
其中,上述步骤205的具体实现过程及原理,可以参考上述实施例的描述,此处不再赘述。
本公开实施例的用户兴趣画像的生成方法,对用户的输入信息进行信息提取,以生成至少一个关键词后,针对所述关键词,可以将所述关键词与知识图谱的各节点分别对应的标签进行匹配,以确定知识图谱中与所述关键词匹配的第一节点,并获取知识图谱中第一节点对应的根节点,再将第一节点对应的标签、根节点对应的标签,以及第一节点与根节点之间的路径中各个节点分别对应的标签,确定为所述关键词对应的兴趣标签,进而对至少一个关键词对应的兴趣标签进行排序,并根据排序后的至少一个关键词对应的兴趣标签,生成用户的兴趣画像,由此,减少了生成用户的兴趣画像时所需的人工成本。
通过上述分析可知,本公开实施例中,生成至少一个关键词对应的兴趣标签后,可以对至少一个关键词对应的兴趣标签进行排序,并根据排序后的至少一个关键词对应的兴趣标签,生成用户的兴趣画像。下面结合图3,对本公开提供的用户兴趣画像的生成方法中,对至少一个关键词对应的兴趣标签进行排序的过程进行进一步说明。
图3是根据本公开第三实施例的用户兴趣画像的生成方法的流程示意图。如图3所示,用户兴趣画像的生成方法,可以包括以下步骤:
步骤301,对用户的输入信息进行信息提取,以生成至少一个关键词。
步骤302,将至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,以生成至少一个关键词对应的兴趣标签。
其中,至少一个关键词对应的兴趣标签的数量为多个。
步骤303,针对每个兴趣标签,利用排序模型,获取兴趣标签对应的分数。
步骤304,根据至少一个关键词对应的兴趣标签对应的分数,对至少一个关键词对应的兴趣标签进行排序。
在示例性实施例中,可以利用排序模型对每个兴趣标签进行打分,获取每个兴趣标签的分数,其中,每个兴趣标签的分数,表征该兴趣标签为步骤301中所述用户对应的兴趣标签的概率,进而根据各关键词对应的所有兴趣标签分别对应的分数,按照分数从高到低的顺序,对各关键词对应的所有兴趣标签进行排序。
其中,排序模型,可以为LR(Logistic Regression,逻辑回归)模型,也可以为其它二分类模型,本公开实施例对此不作限制。
通过利用排序模型获取每个兴趣标签进行打分,进而根据各关键词对应的所有兴趣标签分别对应的分数对各关键词对应的所有兴趣标签进行排序,可以获取各关键词对应的所有兴趣标签的更准确的排序结果。
在示例性实施例中,针对每个兴趣标签,利用排序模型获取兴趣标签的分数的过程可以为:
获取兴趣标签的权重以及兴趣标签对应的关键词的权重;
获取知识图谱中与兴趣标签对应的关键词匹配的第二节点以及兴趣标签所在的第三节点;
确定知识图谱中第二节点到第三节点的拓扑长度;将兴趣标签的权重、兴趣标签对应的关键词的权重,以及第二节点到第三节点的拓扑长度,输入排序模型,以获取兴趣标签对应的分数。
可以理解的是,本公开实施例中,兴趣标签是通过将至少一个关键词与知识图谱中各节点分别对应的标签进行匹配得到的,而对于每个兴趣标签,其可能对应一个关键词,也可能对应多个关键词。
举例来说,假设对用户的输入信息进行信息提取,生成的关键词为“BB”“热血漫画”,其中,“BB”为某个漫画的名字,将关键词“BB”与知识图谱中各节点分别对应的标签进行匹配,得到了关键词“BB”对应的兴趣标签“BB”、“热血漫画”和“漫画”,将关键词“热血漫画”与知识图谱中各节点分别对应的标签进行匹配,得到了关键词“热血漫画”对应的兴趣标签“热血漫画”和“漫画”,即最终生成了关键词“BB”和“热血漫画”对应的三个兴趣标签“BB”、“热血漫画”和“漫画”。则本公开实施例中,对于兴趣标签“BB”,关键词“BB”为兴趣标签“BB”对应的关键词;对于兴趣标签“热血漫画”,关键词“BB”和关键词“热血漫画”为兴趣标签“热血漫画”对应的关键词;对于兴趣标签“漫画”,关键词“BB”和关键词“热血漫画”为兴趣标签“漫画”对应的关键词。
在示例性实施例中,针对每个兴趣标签,可以根据兴趣标签对应的页面访问量,获取兴趣标签的权重。比如,可以预先设置页面访问量与权重之间的对应关系,从而针对每个兴趣标签,在通过查询例如百科知识库等知识库中兴趣标签对应的页面访问量后,可以根据页面访问量、页面访问量与权重之间的对应关系,获取兴趣标签的权重。
在示例性实施例中,针对每个兴趣标签,可以采用TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)算法,获取兴趣标签对应的关键词的权重。比如,可以预先获取多个用户的输入信息,并对多个用户的输入信息进行信息提取,以生成多个关键词,并确定每个关键词在所有用户的输入信息中出现的频率,并获取每个用户的输入信息中每个关键词在该用户的历史输入信息中出现的次数,进而针对步骤301中从用户的输入信息中提取出的每个关键词,可以根据该用户的输入信息中该关键词在该用户的历史输入信息中出现的次数,以及该关键词在所有用户的输入信息中出现的频率,确定该关键词的权重,从而确定用户的输入信息中提取出的各关键词的权重。进而针对每个兴趣标签,在确定该兴趣标签对应的关键词后,可以根据已确定的各关键词分别对应的权重,确定该兴趣标签对应的关键词的权重。
通过上述实施例可知,针对每个兴趣标签,兴趣标签对应的关键词可能为一个,也可能为多个。针对每个兴趣标签,在兴趣标签对应的关键词为一个时,可以将知识图谱中与该关键词匹配的节点确定为第二节点,并确定该兴趣标签所在的节点为第三节点,进而可以确定知识图谱中第二节点到第三节点的拓扑长度。针对每个兴趣标签,在兴趣标签对应的关键词为多个时,针对每个兴趣标签对应的每个关键词,可以将知识图谱中与该关键词匹配的节点确定为第二节点,并确定该兴趣标签所在的节点为第三节点,进而可以确定知识图谱中第二节点到第三节点的拓扑长度,从而确定多个拓扑长度。
在示例性实施例中,可以预先训练排序模型,排序模型的输入为兴趣标签的权重、该兴趣标签对应的关键词的权重、知识图谱中与该兴趣标签对应的关键词匹配的节点至该兴趣标签所在的节点的拓扑长度,输出为该兴趣标签对应的分数,进而针对每个兴趣标签,确定了该兴趣标签的权重、该兴趣标签对应的关键词的权重,以及知识图谱中与该兴趣标签对应的关键词匹配的第二节点到该兴趣标签所在的第三节点的拓扑长度后,即可将该兴趣标签的权重、该兴趣标签对应的关键词的权重,以及知识图谱中与该兴趣标签对应的关键词匹配的第二节点到该兴趣标签所在的第三节点的拓扑长度输入排序模型,以获取兴趣标签对应的分数。
需要说明的是,针对每个兴趣标签,该兴趣标签对应的关键词个数为多个时,输入排序模型的该兴趣标签对应的关键词的权重,为各关键词分别对应的权重之和,知识图谱中与该兴趣标签对应的关键词匹配的第二节点到该兴趣标签所在的第三节点的拓扑长度,为知识图谱中与该兴趣标签对应的各个关键词匹配的第二节点到该兴趣标签所在的第三节点的拓扑长度之和。
举例来说,假设知识图谱中标签“BB”所对应的节点为节点A,标签“热血漫画”所对应的节点为节点B,标签“漫画”所对应的节点为节点C,其中,节点A的父节点为节点B,节点B的父节点为节点C,节点C不存在父节点。
对用户的输入信息进行信息提取,生成的关键词为“BB”“热血漫画”,其中,“BB”为某个漫画的名字,将关键词“BB”与知识图谱中各节点分别对应的标签进行匹配,得到了关键词“BB”对应的兴趣标签“BB”、“热血漫画”和“漫画”,将关键词“热血漫画”与知识图谱中各节点分别对应的标签进行匹配,得到了关键词“热血漫画”对应的兴趣标签“热血漫画”和“漫画”,即最终生成了关键词“BB”和“热血漫画”对应的三个兴趣标签“BB”、“热血漫画”和“漫画”。兴趣标签“BB”对应的关键词为关键词“BB”,兴趣标签“热血漫画”对应的关键词为关键词“BB”和关键词“热血漫画”,兴趣标签“漫画”对应的关键词为关键词“BB”和关键词“热血漫画”。
则针对兴趣标签“BB”,可以获取兴趣标签“BB”的权重,兴趣标签“BB”对应的关键词“BB”的权重,以及知识图谱中与关键词“BB”匹配的节点A至兴趣标签“BB”所在的节点A的拓扑长度0,进而将这三个参数输入排序模型,以获取兴趣标签“BB”的分数。
针对兴趣标签“热血漫画”,可以获取兴趣标签“热血漫画”的权重、兴趣标签“热血漫画”对应的关键词“BB”的权重、兴趣标签“热血漫画”对应的关键词“热血漫画”的权重、知识图谱中与关键词“BB”匹配的节点A至兴趣标签“热血漫画”所在的节点B的拓扑长度1,知识图谱中与关键词“热血漫画”匹配的节点B至兴趣标签“热血漫画”所在的节点B的拓扑长度0,进而将兴趣标签“热血漫画”的权重、关键词“BB”和关键词“热血漫画”的权重之和、拓扑长度1和拓扑长度0之和,这三个参数输入排序模型,以获取兴趣标签“热血漫画”的分数。
针对兴趣标签“漫画”,可以获取兴趣标签“漫画”的权重、兴趣标签“漫画”对应的关键词“BB”的权重、兴趣标签“漫画”对应的关键词“热血漫画”的权重、知识图谱中与关键词“BB”匹配的节点A至兴趣标签“漫画”所在的节点C的拓扑长度2,知识图谱中与关键词“热血漫画”匹配的节点B至兴趣标签“漫画”所在的节点C的拓扑长度1,进而将兴趣标签“漫画”的权重、关键词“BB”和关键词“热血漫画”的权重之和、拓扑长度2和拓扑长度1之和,这三个参数输入排序模型,以获取兴趣标签“漫画”的分数。
通过针对每个兴趣标签,根据兴趣标签对应的页面访问量,获取兴趣标签的权重,采用TF-IDF算法,获取兴趣标签对应的关键词的权重,获取知识图谱中与兴趣标签对应的关键词匹配的第二节点到兴趣标签所在的第三节点的拓扑长度,进而将兴趣标签的权重、兴趣标签对应的关键词的权重,以及第二节点到第三节点的拓扑长度,输入排序模型,以获取兴趣标签对应的分数,可以准确确定每个兴趣标签的分数,进而提高生成的用户兴趣画像的准确性。
在示例性实施例中,在步骤303之前,还可以训练得到排序模型,即步骤303之前,还可以包括以下步骤:
获取训练数据;
获取初始的排序模型;
采用训练数据,对初始的排序模型进行训练,以得到训练后的排序模型。
在示例性实施例中,可以获取多个用户的样本输入信息,并且人工标注属于每个用户的正样本兴趣标签,同时,可以为每个用户设置一些不属于该用户的标签作为负样本兴趣标签,并将多个用户的样本输入信息、多个用户中每个用户的正样本兴趣标签以及负样本兴趣标签,作为训练数据,进而采用训练数据对初始的排序模型进行训练,以得到训练后的排序模型。
初始的排序模型,可以为LR模型,也可以为其它二分类模型,本公开实施例对此不作限制。
在示例性实施例中,采用训练数据,对初始的排序模型进行训练时,例如可以通过深度学习的方式进行训练,相比于其它机器学习方法,深度学习在大数据集上的表现更好。
在示例性实施例中,针对每个用户的样本输入信息,可以按照前述实施例所述的方法,对用户的样本输入信息进行信息提取,以生成至少一个样本关键词,并将至少一个样本关键词与知识图谱的各节点分别对应的标签进行匹配,以生成至少一个样本关键词对应的样本兴趣标签,再针对每个样本兴趣标签,获取样本兴趣标签的权重、样本兴趣标签对应的样本关键词的权重以及知识图谱中与样本兴趣标签对应的样本关键词匹配的第二节点到样本兴趣标签所在的第三节点的拓扑长度。
通过深度学习的方式训练初始的排序模型时,可以先将基于用户a的样本输入信息得到的一个样本兴趣标签a1的权重、该样本兴趣标签a1对应的样本关键词a1’的权重、知识图谱中与该样本关键词a1’匹配的第二节点到该样本兴趣标签a1所在的第三节点的拓扑长度作为输入,输入初始的排序模型,获取该样本兴趣标签a1的分数,其中,样本兴趣标签a1的分数,表征样本兴趣标签a1为用户a对应的兴趣标签的概率,并结合样本兴趣标签a1的分数,以及训练数据中a1为用户a的正样本兴趣标签还是负样本兴趣标签,对初始的排序模型的模型参数进行调整,得到调整后的排序模型。再将基于用户a的样本输入信息得到的另一个样本兴趣标签a2的权重、该样本兴趣标签a2对应的样本关键词a2’的权重、知识图谱中与该样本关键词a2’匹配的第二节点到该样本兴趣标签a2所在的第三节点的拓扑长度作为输入,输入调整后的排序模型,获取该样本兴趣标签a2的分数,其中,样本兴趣标签a2的分数,表征样本兴趣标签a2为用户a对应的兴趣标签的概率,并结合样本兴趣标签a2的分数,以及训练数据中a2为用户a的正样本兴趣标签还是负样本兴趣标签,对调整后的排序模型的模型参数进行调整,得到进一步调整后的排序模型。由此,通过基于各个用户的样本输入信息得到的样本兴趣标签的权重、样本兴趣标签对应的样本关键词的权重、知识图谱中与样本兴趣标签对应的样本关键词匹配的第二节点到样本兴趣标签所在的第三节点的拓扑长度、样本兴趣标签为对应用户的正样本兴趣标签还是负样本兴趣标签,不断地调整初始的排序模型的模型参数对初始的排序模型进行迭代训练,直至排序模型输出的样本兴趣标签的分数的准确率满足预先设定的阈值,训练结束,得到训练好的排序模型。
步骤305,根据排序后的至少一个关键词对应的兴趣标签,生成用户的兴趣画像。
需要说明的是,在获取排序后的至少一个关键词对应的兴趣标签后,还可以根据需要对至少一个关键词对应的兴趣标签进行后处理,例如过滤掉黑名单中的词,在兴趣标签为热词时对该兴趣标签的排序提前等。
下面结合图4,对本公开实施例提供的用户兴趣画像的生成方法进行进一步说明。
如图4所示,可以先获取用户的输入信息(步骤401),再对用户的输入信息进行信息提取(步骤402),进而生成至少一个关键词(步骤403)。进一步的,可以将至少一个关键词与知识图谱的各节点分别对应的标签进行匹配(步骤404),进而生成至少一个关键词对应的兴趣标签(步骤405)。针对每个兴趣标签,可以获取该兴趣标签的权重(图4中未示出)、该兴趣标签对应的关键词的权重(图4中未示出)、知识图谱中与该兴趣标签对应的关键词匹配的节点至该兴趣标签所在的节点的拓扑长度(步骤406),进而针对每个兴趣标签,将该兴趣标签的权重、该兴趣标签对应的关键词的权重,以及知识图谱中与该兴趣标签对应的关键词匹配的第二节点到该兴趣标签所在的第三节点的拓扑长度输入排序模型,以获取兴趣标签对应的分数,从而可以根据至少一个关键词对应的兴趣标签对应的分数,对至少一个关键词对应的兴趣标签进行排序(步骤407)以生成用户的兴趣画像(步骤408)。
通过上述过程,即可在对用户的输入信息进行信息提取,生成至少一个关键词,并生成至少一个关键词对应的兴趣标签后,基于知识图谱中与兴趣标签对应的关键词匹配的节点至兴趣标签所在的节点的拓扑长度,利用排序模型,对至少一个关键词对应的兴趣标签进行排序,进而根据排序后的至少一个关键词对应的兴趣标签,生成用户的兴趣画像。
下面结合图5,对本公开提供的用户兴趣画像的生成装置进行说明。
图5是根据本公开第四实施例的用户兴趣画像的生成装置的结构示意图。
如图5所示,本公开提供的用户兴趣画像的生成装置500,包括:提取模块501、匹配模块502以及生成模块503。
其中,提取模块501,用于对用户的输入信息进行信息提取,以生成至少一个关键词;
匹配模块502,用于将至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,以生成至少一个关键词对应的兴趣标签;
生成模块503,用于对至少一个关键词对应的兴趣标签进行排序,并根据排序后的至少一个关键词对应的兴趣标签,生成用户的兴趣画像。
需要说明的是,本实施例提供的用户兴趣画像的生成装置,可以执行前述实施例的用户兴趣画像的生成方法。其中,用户兴趣画像的生成装置可以为电子设备,也可以被配置在电子设备中,以减少生成用户兴趣画像时所需的人工成本。
其中,电子设备,可以是任意能够进行数据处理的静止或者移动计算设备,例如笔记本电脑、智能手机、可穿戴设备等移动计算设备,或者台式计算机等静止的计算设备,或者服务器,或者其它类型的计算设备等,本公开对此不作限制。
需要说明的是,前述对于用户兴趣画像的生成方法的实施例的说明,也适用于本公开提供的用户兴趣画像的生成装置,此处不再赘述。
本公开实施例提供的用户兴趣画像的生成装置,首先对用户的输入信息进行信息提取,以生成至少一个关键词,再将至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,以生成至少一个关键词对应的兴趣标签,再对至少一个关键词对应的兴趣标签进行排序,并根据排序后的至少一个关键词对应的兴趣标签,生成用户的兴趣画像。由此,减少了生成用户兴趣画像时所需的人工成本。
下面结合图6,对本公开提供的用户兴趣画像的生成装置进行说明。
图6是根据本公开第五实施例的用户兴趣画像的生成装置的结构示意图。
如图6所示,用户兴趣画像的生成装置600,具体可以包括:提取模块601、匹配模块602以及生成模块603。其中,图6中提取模块601、匹配模块602以及生成模块603与图5中提取模块501、匹配模块502以及生成模块503具有相同功能和结构。
在示例性实施例中,匹配模块602,包括:
匹配子模块6021,用于针对关键词,将关键词与知识图谱的各节点分别对应的标签进行匹配,以确定知识图谱中与关键词匹配的第一节点;
第一获取子模块6022,用于获取知识图谱中第一节点对应的根节点;
确定子模块6023,用于将第一节点对应的标签、根节点对应的标签,以及第一节点与根节点之间的路径中各个节点分别对应的标签,确定为关键词对应的兴趣标签。
在示例性实施例中,兴趣标签为多个,生成模块603,包括:
第二获取子模块6031,用于针对每个兴趣标签,利用排序模型,获取兴趣标签对应的分数;
排序子模块6032,用于根据至少一个关键词对应的兴趣标签对应的分数,对至少一个关键词对应的兴趣标签进行排序。
在示例性实施例中,第二获取子模块6031,包括:
第一获取单元,用于获取兴趣标签的权重以及兴趣标签对应的关键词的权重;
第二获取单元,用于获取知识图谱中与兴趣标签对应的关键词匹配的第二节点以及兴趣标签所在的第三节点;
确定单元,用于确定知识图谱中第二节点到第三节点的拓扑长度;
第三获取单元,用于将兴趣标签的权重、兴趣标签对应的关键词的权重,以及第二节点到第三节点的拓扑长度,输入排序模型,以获取兴趣标签对应的分数。
在示例性实施例中,第一获取单元,包括:
第一获取子单元,用于根据兴趣标签对应的页面访问量,获取兴趣标签的权重;
第二获取子单元,用于采用词频-逆文档频率TF-IDF算法,获取兴趣标签对应的关键词的权重。
在示例性实施例中,用户兴趣画像的生成装置600,还可以包括:
第一获取模块604,用于获取训练数据;
第二获取模块605,用于获取初始的排序模型;
训练模块606,用于采用训练数据,对初始的排序模型进行训练,以得到训练后的排序模型。
需要说明的是,前述对于用户兴趣画像的生成方法的实施例的说明,也适用于本公开提供的用户兴趣画像的生成装置,此处不再赘述。
本公开实施例提供的用户兴趣画像的生成装置,首先对用户的输入信息进行信息提取,以生成至少一个关键词,再将至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,以生成至少一个关键词对应的兴趣标签,再对至少一个关键词对应的兴趣标签进行排序,并根据排序后的至少一个关键词对应的兴趣标签,生成用户的兴趣画像。由此,减少了生成用户兴趣画像时所需的人工成本。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如用户兴趣画像的生成方法。例如,在一些实施例中,用户兴趣画像的生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的用户兴趣画像的生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行用户兴趣画像的生成方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式***的服务器,或者是结合了区块链的服务器。
本公开涉及计算机技术领域,特别涉及自然语言处理、知识图谱等人工智能技术领域。
需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
根据本公开实施例的技术方案,首先对用户的输入信息进行信息提取,以生成至少一个关键词,再将所述至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,以生成所述至少一个关键词对应的兴趣标签,再对所述至少一个关键词对应的兴趣标签进行排序,并根据排序后的所述至少一个关键词对应的兴趣标签,生成所述用户的兴趣画像。由此,减少了生成用户兴趣画像时所需的人工成本。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (10)

1.一种用户兴趣画像的生成方法,包括:
对用户的输入信息进行信息提取,以生成至少一个关键词;
将所述至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,以生成所述至少一个关键词对应的兴趣标签;
对所述至少一个关键词对应的兴趣标签进行排序,并根据排序后的所述至少一个关键词对应的兴趣标签,生成所述用户的兴趣画像;
其中,所述兴趣标签为多个,所述对所述至少一个关键词对应的兴趣标签进行排序,包括:
针对每个所述兴趣标签,利用排序模型,获取所述兴趣标签对应的分数;
根据所述至少一个关键词对应的兴趣标签对应的分数,对所述至少一个关键词对应的兴趣标签进行排序;
其中,所述针对每个所述兴趣标签,利用排序模型,获取所述兴趣标签对应的分数,包括:
获取所述兴趣标签的权重以及所述兴趣标签对应的关键词的权重;
获取所述知识图谱中与所述兴趣标签对应的关键词匹配的第二节点以及所述兴趣标签所在的第三节点;
确定所述知识图谱中所述第二节点到所述第三节点的拓扑长度;
将所述兴趣标签的权重、所述兴趣标签对应的关键词的权重,以及所述第二节点到所述第三节点的拓扑长度,输入所述排序模型,以获取所述兴趣标签对应的分数。
2.根据权利要求1所述的方法,其中,所述将所述至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,以生成所述至少一个关键词对应的兴趣标签,包括:
针对所述关键词,将所述关键词与所述知识图谱的各节点分别对应的标签进行匹配,以确定所述知识图谱中与所述关键词匹配的第一节点;
获取所述知识图谱中所述第一节点对应的根节点;
将所述第一节点对应的标签、所述根节点对应的标签,以及所述第一节点与所述根节点之间的路径中各个节点分别对应的标签,确定为所述关键词对应的兴趣标签。
3.根据权利要求1所述的方法,其中,所述获取所述兴趣标签的权重以及所述兴趣标签对应的关键词的权重,包括:
根据所述兴趣标签对应的页面访问量,获取所述兴趣标签的权重;
采用词频-逆文档频率TF-IDF算法,获取所述兴趣标签对应的关键词的权重。
4.根据权利要求1所述的方法,其中,所述针对每个所述兴趣标签,利用排序模型,获取所述兴趣标签对应的分数之前,还包括:
获取训练数据;
获取初始的排序模型;
采用训练数据,对初始的排序模型进行训练,以得到训练后的排序模型。
5.一种用户兴趣画像的生成装置,包括:
提取模块,用于对用户的输入信息进行信息提取,以生成至少一个关键词;
匹配模块,用于将所述至少一个关键词与知识图谱的各节点分别对应的标签进行匹配,以生成所述至少一个关键词对应的兴趣标签;
生成模块,用于对所述至少一个关键词对应的兴趣标签进行排序,并根据排序后的所述至少一个关键词对应的兴趣标签,生成所述用户的兴趣画像;
所述兴趣标签为多个,所述生成模块,包括:
第二获取子模块,用于针对每个所述兴趣标签,利用排序模型,获取所述兴趣标签对应的分数;
排序子模块,用于根据所述至少一个关键词对应的兴趣标签对应的分数,对所述至少一个关键词对应的兴趣标签进行排序;
其中,所述第二获取子模块,包括:
第一获取单元,用于获取所述兴趣标签的权重以及所述兴趣标签对应的关键词的权重;
第二获取单元,用于获取所述知识图谱中与所述兴趣标签对应的关键词匹配的第二节点以及所述兴趣标签所在的第三节点;
确定单元,用于确定所述知识图谱中所述第二节点到所述第三节点的拓扑长度;
第三获取单元,用于将所述兴趣标签的权重、所述兴趣标签对应的关键词的权重,以及所述第二节点到所述第三节点的拓扑长度,输入所述排序模型,以获取所述兴趣标签对应的分数。
6.根据权利要求5所述的装置,其中,所述匹配模块,包括:
匹配子模块,用于针对所述关键词,将所述关键词与所述知识图谱的各节点分别对应的标签进行匹配,以确定所述知识图谱中与所述关键词匹配的第一节点;
第一获取子模块,用于获取所述知识图谱中所述第一节点对应的根节点;
确定子模块,用于将所述第一节点对应的标签、所述根节点对应的标签,以及所述第一节点与所述根节点之间的路径中各个节点分别对应的标签,确定为所述关键词对应的兴趣标签。
7.根据权利要求5所述的装置,其中,所述第一获取单元,包括:
第一获取子单元,用于根据所述兴趣标签对应的页面访问量,获取所述兴趣标签的权重;
第二获取子单元,用于采用词频-逆文档频率TF-IDF算法,获取所述兴趣标签对应的关键词的权重。
8.根据权利要求5所述的装置,其中,还包括:
第一获取模块,用于获取训练数据;
第二获取模块,用于获取初始的排序模型;
训练模块,用于采用训练数据,对初始的排序模型进行训练,以得到训练后的排序模型。
9.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-4中任一项所述的方法。
CN202110460557.3A 2021-04-27 2021-04-27 用户兴趣画像的生成方法、装置、电子设备以及存储介质 Active CN115248890B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202110460557.3A CN115248890B (zh) 2021-04-27 2021-04-27 用户兴趣画像的生成方法、装置、电子设备以及存储介质
US17/694,422 US20220198358A1 (en) 2021-04-27 2022-03-14 Method for generating user interest profile, electronic device and storage medium
EP22162384.6A EP3992814A3 (en) 2021-04-27 2022-03-16 Method and apparatus for generating user interest profile, electronic device and storage medium
JP2022054740A JP7369228B2 (ja) 2021-04-27 2022-03-30 ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110460557.3A CN115248890B (zh) 2021-04-27 2021-04-27 用户兴趣画像的生成方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN115248890A CN115248890A (zh) 2022-10-28
CN115248890B true CN115248890B (zh) 2024-04-05

Family

ID=80785037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110460557.3A Active CN115248890B (zh) 2021-04-27 2021-04-27 用户兴趣画像的生成方法、装置、电子设备以及存储介质

Country Status (4)

Country Link
US (1) US20220198358A1 (zh)
EP (1) EP3992814A3 (zh)
JP (1) JP7369228B2 (zh)
CN (1) CN115248890B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028654B (zh) * 2023-03-30 2023-06-13 中电科大数据研究院有限公司 知识节点的多模态融合更新方法
CN117875413B (zh) * 2024-03-13 2024-05-24 之江实验室 一种知识图谱本体中概念构建方法、装置、介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018103622A1 (zh) * 2016-12-08 2018-06-14 腾讯科技(深圳)有限公司 信息投放控制方法、装置及存储介质
CN108694223A (zh) * 2018-03-26 2018-10-23 北京奇艺世纪科技有限公司 一种用户画像库的构建方法及装置
CN110019837A (zh) * 2017-12-22 2019-07-16 百度在线网络技术(北京)有限公司 用户画像的生成方法及装置、计算机设备及可读介质
CN112232889A (zh) * 2020-11-06 2021-01-15 腾讯科技(深圳)有限公司 一种用户兴趣画像扩展方法、装置、设备及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008077512A (ja) 2006-09-22 2008-04-03 Fuji Xerox Co Ltd 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
US7734641B2 (en) * 2007-05-25 2010-06-08 Peerset, Inc. Recommendation systems and methods using interest correlation
US20140040297A1 (en) * 2012-07-31 2014-02-06 Mehmet Kivanc Ozonat Keyword extraction
US20150310073A1 (en) * 2014-04-29 2015-10-29 Microsoft Corporation Finding patterns in a knowledge base to compose table answers
JP2016045552A (ja) 2014-08-20 2016-04-04 富士通株式会社 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置
US9626654B2 (en) 2015-06-30 2017-04-18 Linkedin Corporation Learning a ranking model using interactions of a user with a jobs list
US10664757B2 (en) * 2015-09-16 2020-05-26 International Business Machines Corporation Cognitive operations based on empirically constructed knowledge graphs
US10169470B2 (en) * 2016-04-11 2019-01-01 Rovi Guides, Inc. Systems and methods for identifying a meaning of an ambiguous term in a natural language query
US10503791B2 (en) * 2017-09-04 2019-12-10 Borislav Agapiev System for creating a reasoning graph and for ranking of its nodes
CN108268619B (zh) * 2018-01-08 2020-06-30 阿里巴巴集团控股有限公司 内容推荐方法及装置
US10990602B2 (en) * 2018-06-18 2021-04-27 Wipro Limited Method and system for generating optimized response to user input
US10943072B1 (en) * 2019-11-27 2021-03-09 ConverSight.ai, Inc. Contextual and intent based natural language processing system and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018103622A1 (zh) * 2016-12-08 2018-06-14 腾讯科技(深圳)有限公司 信息投放控制方法、装置及存储介质
CN110019837A (zh) * 2017-12-22 2019-07-16 百度在线网络技术(北京)有限公司 用户画像的生成方法及装置、计算机设备及可读介质
CN108694223A (zh) * 2018-03-26 2018-10-23 北京奇艺世纪科技有限公司 一种用户画像库的构建方法及装置
CN112232889A (zh) * 2020-11-06 2021-01-15 腾讯科技(深圳)有限公司 一种用户兴趣画像扩展方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
大数据情境下高校图书馆科研用户画像构建策略研究;吴智勤;李萍;;江苏理工学院学报(第06期);122-126 *
用户画像构建技术研究;巨星海;周刚;王婧;张凤娟;;信息工程大学学报(第02期);118-126 *

Also Published As

Publication number Publication date
EP3992814A2 (en) 2022-05-04
EP3992814A3 (en) 2022-08-24
CN115248890A (zh) 2022-10-28
JP7369228B2 (ja) 2023-10-25
JP2022088540A (ja) 2022-06-14
US20220198358A1 (en) 2022-06-23

Similar Documents

Publication Publication Date Title
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
WO2019041521A1 (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN111967262A (zh) 实体标签的确定方法和装置
CN115248890B (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN112989235B (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN114595686A (zh) 知识抽取方法、知识抽取模型的训练方法及装置
CN113191145B (zh) 关键词的处理方法、装置、电子设备和介质
CN113033194B (zh) 语义表示图模型的训练方法、装置、设备和存储介质
CN113590774B (zh) 事件查询方法、装置以及存储介质
CN116662633A (zh) 搜索方法、模型训练方法、装置、电子设备及存储介质
CN112860626B (zh) 一种文档排序方法、装置及电子设备
CN113553415B (zh) 问答匹配的方法、装置及电子设备
CN112905743B (zh) 文本对象检测的方法、装置、电子设备和存储介质
CN114281990A (zh) 文档分类方法及装置、电子设备和介质
CN112784600A (zh) 信息排序方法、装置、电子设备和存储介质
CN113377921B (zh) 用于匹配信息的方法、装置、电子设备以及介质
CN113377922B (zh) 用于匹配信息的方法、装置、电子设备以及介质
CN113190698B (zh) 配对图片集的生成方法、装置、电子设备和存储介质
CN116069914B (zh) 训练数据的生成方法、模型训练方法以及装置
CN117033801B (zh) 一种业务推荐方法、装置、设备和存储介质
CN114201607B (zh) 一种信息处理的方法和装置
CN116089459B (zh) 数据检索方法、装置、电子设备及存储介质
CN116127948B (zh) 待标注文本数据的推荐方法、装置及电子设备
CN112926319B (zh) 一种领域词汇的确定方法、装置、设备以及存储介质
CN116166783A (zh) 生成相似问题的方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant