CN113641897A - 基于会话文本的推荐方法和装置、电子设备和存储介质 - Google Patents

基于会话文本的推荐方法和装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113641897A
CN113641897A CN202110859016.8A CN202110859016A CN113641897A CN 113641897 A CN113641897 A CN 113641897A CN 202110859016 A CN202110859016 A CN 202110859016A CN 113641897 A CN113641897 A CN 113641897A
Authority
CN
China
Prior art keywords
target
session
candidate
sequence
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110859016.8A
Other languages
English (en)
Other versions
CN113641897B (zh
Inventor
朱志强
徐凯波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202110859016.8A priority Critical patent/CN113641897B/zh
Publication of CN113641897A publication Critical patent/CN113641897A/zh
Application granted granted Critical
Publication of CN113641897B publication Critical patent/CN113641897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于会话文本的推荐方法和装置、电子设备和存储介质,其中,方法包括:获取目标对象的目标会话文本;在目标会话文本中确定出各个目标标签的第一时序关系;按照各个标标签的第一时序关系,得到所目标会话文本对应的目标会话序列;将目标向量输入预先训练得到的目标模型中,得到目标对象的目标推荐结果。本申请实施例提供的该方法,可以在未能获取目标对象的历史行为表现或者对项目的点击记录等数据的情况下,基于目标对象的会话文本确定出给目标对象的目标推荐结果,因而,本申请提供了一种新的个性化推荐的方法,解决了冷启动的情况下,无法对目标对象记性推荐的问题。

Description

基于会话文本的推荐方法和装置、电子设备和存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于会话文本的推荐方法和装置、电子设备和存储介质。
背景技术
在推荐场景中,通常可以分为基于用户信息和item(历史点击的项目)的推荐策略,但是以上两种策略一定程度上依赖于用户的历史行为表现或者对项目的点击记录等数据,推荐算法才可以发挥出较好的推荐***,推荐出和用户、标签相关性较高的内容。但是在冷启动的情况下,因为不存在用户对应的历史行为表现或对项目的点击记录等数据的情况,导致推荐***无法对用户进行项目推荐。
针对相关技术中存在的在用户冷启动的情况下,无法对用户进行项目推荐的技术问题,目前尚未提供有效的解决方案。
发明内容
为了解决上述在用户冷启动的情况下,无法对用户进行项目推荐的技术问题,本申请提供了一种基于会话文本的推荐方法和装置、电子设备和存储介质。
第一方面,本申请实施例提供了一种基于会话文本的推荐方法,包括:
获取目标对象的目标会话文本;
在所述目标会话文本中确定出各个目标标签的第一时序关系,其中,所述目标标签为所述目标会话文本中与目标信息类型对应的信息,所述第一时序关系用于指示各个所述目标标签在所述目标会话文本中出现的前后次序;
按照各个所述目标标签的第一时序关系,得到所述目标会话文本对应的目标会话序列,其中,所述目标会话序列用于指示各个所述目标标签之间的相关性;
生成所述目标会话序列对应的目标向量;
将所述目标向量输入预先训练得到的目标模型中,得到所述目标对象的目标推荐结果。
可选地,如前述的方法,在所述将所述目标向量输入预先训练得到的目标模型中,得到所述目标对象的目标推荐结果之前,所述方法还包括:
获取候选对象集群中的至少两个候选对象的候选会话文本,其中,所述候选对象与所述候选会话文本一一对应;
根据所述候选会话文本生成用于训练的训练用会话序列以及测试用会话序列;
生成所述训练用会话序列对应的训练用向量,生成所述测试用会话序列对应的测试用向量;
通过所述训练用向量对待训练模型进行训练后得到训练后模型;
在通过所述测试用向量对所述训练后模型进行测试得到的测试精度达到预设要求的情况下,将所述训练后模型作为所述目标模型。
可选地,如前述的方法,所述根据所述候选会话文本生成用于训练的训练用会话序列以及测试用会话序列,包括:
对于每个所述候选会话文本,在所述候选会话文本中确定出各个候选标签的第二时序关系,按照各个所述候选标签的第二时序关系,得到所述候选会话文本对应的候选会话序列,其中,所述候选标签为所述候选会话文本中与所述目标信息类型对应的信息,所述候选会话序列用于指示各个所述候选标签之间的相关性;
根据每个所述候选会话文本对应的第二时序关系,确定所有所述候选会话文本中各个所述候选标签之间的关联关系;
根据所述关联关系确定出至少一个潜在会话序列,其中,所述潜在会话序列中的各个所述候选标签之间的所述第二时序关系异于任一个所述候选会话序列的所述第二时序关系;
在所有所述候选会话序列以及所有所述潜在会话序列中确定出所述训练用会话序列以及测试用会话序列。
可选地,如前述的方法,所述将所述目标向量输入预先训练得到的目标模型中,得到所述目标对象的目标推荐结果,包括:
通过将所述目标向量输入所述目标模型中,得到所述目标向量对应的目标高层语义信息;
根据所述目标高层语义信息在所有候选会话序列中匹配到预设数量的候选推荐会话序列,其中,所述候选推荐会话序列的高层语义信息与所述目标高层语义信息的相似度满足预设相似度要求;
在所有所述候选推荐会话序列的候选推荐标签中筛选得到目标数量的目标推荐标签,其中,所述候选推荐标签为位于对应的所述候选推荐会话序列中,与所述目标信息类型对应的信息;
在目标数据库中查询得到与所述目标推荐标签对应的所述目标推荐结果。
可选地,如前述的方法,所述在所有所述候选推荐会话序列的候选推荐标签中筛选得到目标数量的目标推荐标签包括:
按照各个所述候选推荐会话序列对应的匹配度以及每个所述候选推荐会话序列中各个所述候选推荐标签第三时序关系,在所有所述候选推荐标签中选择得到所述目标推荐标签,其中,所述目标推荐标签所在的所述候选推荐会话序列对应的匹配度高于或等于其他所述候选推荐标签所在的所述候选推荐会话序列对应的匹配度,且所述目标推荐标签的时序先于同一个所述候选推荐会话序列中其他所述候选推荐标签的时序。
可选地,如前述的方法,所述根据所述关联关系确定出至少一个潜在会话序列包括:
根据各个所述候选标签之间的所述关联关系,得到用于指示所述候选标签之间所述关联关系的标签关联结构信息;
通过广度优先搜索或者深度优先搜索在所述标签关联结构信息中进行会话序列查询,得到所述潜在会话序列。
可选地,如前述的方法,所述生成所述目标会话序列对应的目标向量包括:
将每个所述目标标签映射至目标空间,得到目标子向量;
根据所述会话序列中每个所述目标标签的目标字向量,得到所述目标向量。
第二方面,本申请实施例提供了一种基于会话文本的推荐装置,包括:
获取模块,用于获取目标对象的目标会话文本;
确定模块,用于在所述目标会话文本中确定出各个目标标签的第一时序关系,其中,所述目标标签为所述目标会话文本中与目标信息类型对应的信息,所述第一时序关系用于指示各个所述目标标签在所述目标会话文本中出现的前后次序;
序列模块,用于按照各个所述目标标签的第一时序关系,得到所述目标会话文本对应的目标会话序列,其中,所述目标会话序列用于指示各个所述目标标签之间的相关性;
生成模块,用于生成所述目标会话序列对应的目标向量;
结果模块,用于将所述目标向量输入预先训练得到的目标模型中,得到所述目标对象的目标推荐结果。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现如前述任一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行如前任一项所述的方法。
本方案可以应用于在营销智能技术领域进行预测和优化,本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,可以在未能获取目标对象的历史行为表现或者对项目的点击记录等数据的情况下,基于目标对象的会话文本确定出给目标对象的目标推荐结果,因而,本申请提供了一种新的个性化推荐的方法,解决了冷启动的情况下,无法对目标对象记性推荐的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于会话文本的推荐方法的流程示意图;
图2为本申请另一实施例提供的一种基于会话文本的推荐方法的流程示意图;
图3为本申请另一实施例提供的一种基于会话文本的推荐方法的流程示意图;
图4为本申请一种实施例中第二时序关系的示意图;
图5为本申请另一种实施例中第二时序关系的示意图;
图6为本申请另一种实施例中第二时序关系的示意图;
图7为本申请一种实施例中候选标签之间的关联关系的示意图;
图8为本申请实施例提供的一种基于会话文本的推荐装置的框图;
图9为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
根据本申请实施例的一个方面,提供了一种基于会话文本的推荐方法。可选地,在本实施例中,上述基于会话文本的推荐方法可以应用于由终端和服务器所构成的硬件环境中。服务器通过网络与终端进行连接,可用于为终端或终端上安装的客户端提供服务(如广告推送服务、应用服务、内容推送服务等),可在服务器上或独立于服务器设置数据库,用于为服务器提供数据存储服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端可以并不限定于为PC、手机、平板电脑等。
本申请实施例的基于会话文本的推荐方法可以由服务器来执行,也可以由终端来执行,还可以是由服务器和终端共同执行。其中,终端执行本申请实施例的基于会话文本的推荐方法也可以是由安装在其上的客户端来执行。
以由服务器来执行本实施例中的基于会话文本的推荐方法为例,图1为本申请实施例提供的一种基于会话文本的推荐方法,包括如下所述步骤:
步骤S101,获取目标对象的目标会话文本。
本实施例中的基于会话文本的推荐方法可以应用于需要给用户(即,对象)推荐内容的场景,例如:给用户推荐话题的场景、给用户推荐视频的场景等,也可以是用于推荐其他内容的场景。本申请实施例中以视频为例说明上述的基于会话文本的推荐方法,对于其他类型内容的推荐,在不矛盾的情况下,上述的基于会话文本的推荐方法同样适用。
以进行话题推荐识别场景为例,通过对目标对象的目标会话文本进行异常识别,以确定向目标对象推送的目标话题。
在目标对象通过预设聊天软件或组件与其他对象进行聊天之后,可以获取对应的聊天窗口中的聊天记录,进而可以根据聊天记录确定出该目标对象的目标会话文本。
目标会话文本可以直接基于用户的聊天记录,也可以是对聊天记录进行处理后得到的会话摘要,例如,只保留或提取得到所需的信息类型的文本内容。
例如,基于企业聊天***的内部员工之间的会话数据,确定每个员工对应的会话文本,并且在确定需要进行分析的目标员工(即,目标对象)之后,即可获取目标员工对应的目标会话文本,以便与后期针对目标会话文本推荐相关的内容给该目标员工。
步骤S102,在目标会话文本中确定出各个目标标签的第一时序关系,其中,目标标签为目标会话文本中与目标信息类型对应的信息,第一时序关系用于指示各个目标标签在目标会话文本中出现的前后次序。
在确定目标会话文本之后,即可确定出各个目标标签的第一时序关系。
目标标签可以是目标会话文本中与目标信息类型对应的信息;例如,在目标会话文本中包括“今天天气很好,适合出去郊游”时,目标信息类型为话题类型时,则确定出目标标签包括“天气”和“郊游”。在确定出目标标签之后,即可确定出各个目标标签的第一时序关系。
第一时序关系可以是用于指示各个目标标签在目标会话文本中出现的前后次序的信息;例如,由于目标标签“天气”出现在目标标签“郊游”之前,因此,第一时序关系中指示目标标签“天气”在目标标签“郊游”之前。
步骤S103,按照各个目标标签的第一时序关系,得到目标会话文本对应的目标会话序列,其中,目标会话序列用于指示各个目标标签之间的相关性。
在得到目标标签的第一时序关系之后,即可按照第一时序关系,将各个目标标签相互关联,进而可以得到由用于指示各个目标标签之间的相关性的目标会话序列。
例如,当目标会话文本I中包括目标标签B和目标标签E的会话先发生,然后间隔一段时间发生目标标签D,目标标签E以及目标标签F的会话,因此,目标会话文本I对应的目标会话序列可以如图4所示。
步骤S104,生成目标会话序列对应的目标向量。
在得到目标会话序列之后,即可生成目标会话序列对应的目标向量,进而达到将目标会话序列编码为目标模型匹配的表示形式,以便于后期目标模型能够根据目标向量进行预测。例如,可以通过Word Embedding方法对目标会话序列进行处理,得到该目标会话序列的Embedding向量表示。
步骤S105,将目标向量输入预先训练得到的目标模型中,得到目标对象的目标推荐结果。
在得到目标向量之后,即已将目标会话序列编码为预先训练得到的目标模型匹配的表示形式,进而可以将目标向量输入该目标模型中,以得到目标对象的目标推荐结果。
目标模型可以是预先训练得到的深度神经网络模型,并基于目标模型输出的结果可以得到目标推荐结果。
目标推荐结果可以是与目标标签对应的内容,也可以包括与目标标签相关的其他标签的内容;即,当目标信息类型为“话题”时,则目标推荐结果为与话题相关的内容。例如,当目标标签包括“天气”和“郊游”时,可以根据“天气”和“郊游”得到目标推荐结果,如:近几天的天气情况,以及郊游的景点,还可以得到“天气”和“郊游”相关的其他标签例如“衣着”,进而得到“天气”、“郊游”和“衣着”相关的目标推荐结果。
通过本实施例中的方法,可以在未能获取目标对象的历史行为表现或者对项目的点击记录等数据的情况下,基于目标对象的会话文本确定出给目标对象的目标推荐结果,因而,本申请提供了一种新的个性化推荐的方法,解决了冷启动的情况下,无法对目标对象记性推荐的问题。
如图2所示,作为一种可选的实施方式,如前述的方法,在所述步骤S105将目标向量输入预先训练得到的目标模型中,得到目标对象的目标推荐结果之前,方法还包括如下所述步骤:
步骤S201,获取候选对象集群中的至少两个候选对象的候选会话文本,其中,候选对象与候选会话文本一一对应。
候选对象集群可以是包括多个候选对象的集群,对于每个候选对象,都存在对应的候选会话文本,因此,可以得到候选对象集群中的至少两个候选会话文本。
例如,候选对象集群可以是某一群组聊天中的所有群成员。因此,候选对象则为各个群成员,候选会话文本可以是与每个群成员对应的会话文本。
步骤S202,根据候选会话文本生成用于训练的训练用会话序列以及测试用会话序列。
在得到候选会话文本之后,即可按照前述实施例中的方法得到与每个候选会话文本对应的会话序列,并从所有会话序列中确定出用于训练的训练用会话序列以及测试用会话序列。
步骤S203,生成训练用会话序列对应的训练用向量,生成测试用会话序列对应的测试用向量。
在得到训练用会话序列以及测试用会话序列之后,可以按照前述实施例中的方法,生成训练用会话序列对应的训练用向量,生成测试用会话序列对应的测试用向量;以将训练用会话序列以及测试用会话序列编码为待训练模型对应的表示形式。
步骤S204,通过训练用向量对待训练模型进行训练后得到训练后模型。
步骤S205,在通过测试用向量对训练后模型进行测试得到的测试精度达到预设要求的情况下,将训练后模型作为目标模型。
在得到训练用向量之后,即可将训练用向量输入待训练模型进行训练,以得到训练后模型。在得到训练后模型之后,可以通过测试用向量对训练后模型进行测试。
当通过测试用向量对训练后模型进行测试得到的测试精度达到预设要求的情况下,即可根据该训练后模型得到用于进行预测的目标模型。
预设要求可以是预先设定的用于指示测试精度达到预设要求时,可以将训练后模型作为目标模型的精度值。
例如,获取将测试用向量输入训练后模型得到的预测结果,然后判断该预测结果对应的项目与测试用向量对应的用户的实际进行点击的项目之间的匹配值,当匹配值达到预设要求时,则判定测试精度达到预设要求,并将训练后模型作为目标模型。
通过本实施例中的方法,可以训练得到用于进行文本预测的目标模型,以便于后期可以根据目标向量预测得到对应的目标推荐结果。
如图3所示,作为一种可选的实施方式,如前述的方法,所述步骤S202根据候选会话文本生成用于训练的训练用会话序列以及测试用会话序列,包括如下所述步骤:
步骤S301,对于每个候选会话文本,在候选会话文本中确定出各个候选标签的第二时序关系,按照各个候选标签的第二时序关系,得到候选会话文本对应的候选会话序列,其中,候选标签为候选会话文本中与目标信息类型对应的信息,候选会话序列用于指示各个候选标签之间的相关性。
在确定各个目标会话文本之后,对于每个候选会话文本,即可按照如下所述方法确定出候选会话文本中各个候选标签的第二时序关系以及候选会话序列。
候选标签可以是候选会话文本中与候选信息类型对应的信息;例如,在候选会话文本中包括“今天天气很好,适合出去郊游”时,候选信息类型为话题类型时,则确定出候选标签包括“天气”和“郊游”。在确定出候选标签之后,即可确定出各个候选标签的第二时序关系。
第二时序关系可以是用于指示各个候选标签在候选会话文本中出现的前后次序的信息;例如,由于候选标签“天气”出现在候选标签“郊游”之前,因此,第二时序关系中指示候选标签“天气”在候选标签“郊游”之前。
在得到候选标签的第二时序关系之后,即可按照第二时序关系,将各个候选标签相互关联,进而可以得到由用于指示各个候选标签之间的相关性的候选会话序列。
例如,当目标会话文本II中包括目标标签B和目标标签E的会话先发生,然后间隔一段时间发生目标标签D,目标标签E以及目标标签A的会话。
步骤S302,根据每个候选会话文本对应的第二时序关系,确定所有候选会话文本中各个候选标签之间的关联关系。
由于每一个第二时序关系中指示了对应的候选会话文本中各个候选标签之间的相关性,在得到每个候选会话文本对应的第二时序关系之后,可以确定出所有候选会话文本中各个候选标签之间的关联关系。
例如,在得到三个用户(候选对象)的第二时序关系(如下表所示):
用户 第二时序关系
user1 B、E/D、E、F
user2 D、A、B
user3 E、C、B/B、A
即,对于user1,在其对应的候选会话文本中,先发生B、E,然后间隔一段时间D、E、F发生,则对应的第二时序关系如图4所示;对于user2,在其对应的候选会话文本中,依次发生D、A、B,则对应的第二时序关系如图5所示;对于user3,在其对应的候选会话文本中,先发生E、C、B,然后间隔一段时间B、A发生,则对应的第二时序关系如图6所示。因此,通过上述三个第二时序关系综合可得,各个候选标签之间的关联关系如图7所示。
步骤S303,根据关联关系确定出至少一个潜在会话序列,其中,潜在会话序列中的各个候选标签之间的第二时序关系异于任一个候选会话序列的第二时序关系。
在得到关联关系之后,虽然每两个候选标签之间的相关性已存在于其中一个候选会话序列中,但是,在候选标签大于或等于三个的情况下,即会得到异于任一个候选会话序列的潜在会话序列。
潜在会话序列可以是并未真实发生,并且依据候选会话序列推测得到的会话序列,例如,如图7所示,可以至少得到如下所示的三组潜在会话序列A、B、E、F;B、E、C、B、A;D、A、B、E、F。
步骤S304,在所有候选会话序列以及所有潜在会话序列中确定出训练用会话序列以及测试用会话序列。
在得到候选会话序列以及潜在会话序列之后,即可通过随机选择的方式,在所有候选会话序列以及所有潜在会话序列中确定出训练用会话序列以及测试用会话序列;进一步的,每个候选会话序列只能被用于训练用会话序列或测试用会话序列中的一种,且每个潜在会话序列也只能被用于训练用会话序列或测试用会话序列中的一种。
基于此,可以发掘出不同的候选标签之间的潜在关系,进而可以丰富用户的行为数据,进而达到提升对用户进行推荐时的推荐结果的准确性的目的。
作为一种可选的实施方式,如前述的方法,所述步骤S105将目标向量输入预先训练得到的目标模型中,得到目标对象的目标推荐结果,包括如下所述步骤:
步骤S401,通过将目标向量输入目标模型中,得到目标向量对应的目标高层语义信息。
步骤S402,根据目标高层语义信息在所有候选会话序列中匹配到候选推荐会话序列,其中,候选推荐会话序列的高层语义信息与目标高层语义信息的相似度满足预设相似度要求;
步骤S403,在所有候选推荐会话序列的候选推荐标签中筛选得到目标数量的目标推荐标签,其中,候选推荐标签为位于对应的候选推荐会话序列中,与目标信息类型对应的信息;
步骤S404,在目标数据库中查询得到与目标推荐标签对应的目标推荐结果。
在得到目标向量之后,即可将目标向量输入目标模型中,在目标模型对目标向量进行若干次卷积(即,特征提取)后得到目标向量对应的目标高层语义信息(即,特征信息)。
在得到目标高层语义信息之后,为了能够基于该目标高层语义信息匹配得到对应的候选推荐会话序列,因此,可以预先确定出各个候选会话序列的高层语义信息;然后运用协同过滤对目标高层语义信息与各个候选会话序列的高层语义信息之间进行性相似度计算。
在得到目标高层语义信息与每个候选会话序列的高层语义信息之间相似度之后,即可选择出相似度满足预设相似度要求的候选会话序列作为候选推荐会话序列。
预设相似度要求可以是预先设置的相似度最低值,当候选会话序列对应的相似度高于或等于该预设相似度要求的情况下,该候选会话序列即作为候选推荐会话序列。
在得到候选推荐会话序列之后,即可在候选推荐会话序列中选择得到目标推荐标签。由于每个候选推荐会话序列中可能包括多个标签,且同一个候选推荐会话序列中或不同的候选推荐会话序列中可能会存在相同的标签,且,标签的数量可能会超过目标数量。因此,可以通过对各个标签进行去重后,选择得到目标数量的目标推荐标签,并且目标推荐标签可以包括目标会话系列中的目标标签。
在得到目标推荐标签之后,即可在目标数据库中确定出目标推荐标签对应的目标推荐结果。例如,可以预先对目标数据库中的内容打上对应的标签,然后通过目标推荐标签逐个在目标数据库中通过标签匹配的方式匹配到与每个目标推荐标签对应的目标内容,进而可以根据所有目标推荐标签对应的目标内容得到目标推荐结果。
通过本实施例中的方法,由于候选推荐会话序列为异于目标对象的其他候选对象对应的会话序列,因此通过匹配候选推荐会话序列,可以达到根据不同对象之间的会话的潜在相关性,并且,基于候选推荐会话序列,可以确定出与目标会话序列中的目标标签在时序上可能存在相关性的其他标签,进而可以达到丰富目标对象的行为数据的目的,提高目标推荐结果的覆盖面。
作为一种可选的实施方式,如前述的方法,所述步骤S403在所有候选推荐会话序列的候选推荐标签中筛选得到目标数量的目标推荐标签包括:
按照各个候选推荐会话序列对应的匹配度以及每个候选推荐会话序列中各个候选推荐标签的第三时序关系,在所有候选推荐标签中选择得到目标推荐标签,其中,目标推荐标签所在的候选推荐会话序列对应的匹配度高于或等于其他候选推荐标签所在的候选推荐会话序列对应的匹配度,且目标推荐标签的时序先于同一个候选推荐会话序列中其他候选推荐标签的时序。
在确定出候选推荐标签之后,同时可以得到各个候选推荐会话序列对应的匹配度,以及确定出每个候选推荐会话序列中各个候选推荐标签的第三时序关系。
当目标数量大于各个候选推荐会话序列中的候选推荐标签的总数量的情况下,即需要从所有候选推荐标签中选择出目标推荐标签。并且,选择得到的目标推荐标签需要满足:目标推荐标签所在的候选推荐会话序列对应的匹配度高于或等于其他候选推荐标签所在的候选推荐会话序列对应的匹配度,且目标推荐标签的时序先于同一个候选推荐会话序列中其他候选推荐标签的时序。
例如,存在候选推荐会话序列a(对应的匹配度为N1,第三时序关系为A、B、E、F)、候选推荐会话序列b(对应的匹配度为N2,第三时序关系为B、E、C、B、A)、候选推荐会话序列c(对应的匹配度为N3,第三时序关系为D、G、H、E、F),且,N1>N2>N3,目标数量为6时;在候选推荐会话序列a中选择得到目标推荐标签A、B、E、F,由于不足6个则继续在候选推荐会话序列b中进行选择,由于候选推荐会话序列b中的候选推荐标签中只存在C异于A、B、E、F,因此,将C作为目标推荐标签,因此得到共5个目标推荐标签,仍然不足6个,则继续在候选推荐会话序列c中进行选择,由于候选推荐会话序列c中的候选推荐标签中存在D、G和H异于A、B、C、E、F,因此只能选择一个作为目标推荐标签,因此需要确定D、G和H的时序,在确定出D的时序先于G和H的时序的情况下,将D作为目标推荐标签,进而得到目标推荐标签包括A、B、C、D、E、F。
通过本实施例中的方法,可以选择得到匹配度更高的目标推荐标签,进而可以达到更好的推荐效果。
作为一种可选的实施方式,如前述的方法,所述步骤S303根据关联关系确定出至少一个潜在会话序列包括如下所述步骤:
步骤S601,根据各个候选标签之间的关联关系,得到用于指示候选标签之间关联关系的标签关联结构信息。
步骤S602,通过广度优先搜索或者深度优先搜索在标签关联结构信息中进行会话序列查询,得到潜在会话序列。
在得到各个候选标签之间的关联关系之后,可以根据各个关联关系得到标签关联结构信息。
标签关联结构信息可以是用于指示所有候选标签之间关联关系的信息,例如:对于user1,在其对应的候选会话文本中,先发生B、E,然后间隔一段时间D、E、F发生,则对应的第二时序关系如图4所示;对于user2,在其对应的候选会话文本中,依次发生D、A、B,则对应的第二时序关系如图5所示;对于user3,在其对应的候选会话文本中,先发生E、C、B,然后间隔一段时间B、A发生,则对应的第二时序关系如图6所示。因此,通过上述三个第二时序关系综合可得,各个候选标签之间的关联关系如图7所示,则标签关联结构信息为指示图7所示关联关系的信息。
在得到标签关联结构信息之后,可以采用随机游走的方法进行潜在会话序列的构造,在实际中,可以采用广度优先搜索或者深度优先搜索方法中的一种方式进行构造。
在本实施例中,通过采用广度优先搜索或者深度优先搜索方法,可以避免无穷大会话序列的出现,进而可以降低后期获取目标预测结果时的计算量,提高计算效率。
作为一种可选的实施方式,如前述的方法,所述步骤S104生成目标会话序列对应的目标向量包括如下所述步骤:
步骤S701,将每个目标标签映射至目标空间,得到目标子向量;
步骤S702,根据会话序列中每个目标标签的目标字向量,得到目标向量。
在得到目标会话序列之后,可以确定目标会话序列中每个目标标签。可以通过利用Word Embedding方法得到每个目标标签的Embedding表示的方式,得到每个目标标签的目标子向量。
在得到每个目标字向量之后,可以通过对各个目标字向量进行相加等方式,得到目标向量。
如图8所示,根据本申请另一方面的一个实施例,还提供了一种基于会话文本的推荐装置,包括:
获取模块1,用于获取目标对象的目标会话文本;
确定模块2,用于在目标会话文本中确定出各个目标标签的第一时序关系,其中,目标标签为目标会话文本中与目标信息类型对应的信息,第一时序关系用于指示各个目标标签在目标会话文本中出现的前后次序;
序列模块3,用于按照各个目标标签的第一时序关系,得到目标会话文本对应的目标会话序列,其中,目标会话序列用于指示各个目标标签之间的相关性;
生成模块4,用于生成目标会话序列对应的目标向量;
结果模块5,用于将目标向量输入预先训练得到的目标模型中,得到目标对象的目标推荐结果。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
根据本申请的另一个实施例,还提供一种电子设备,包括:如图9所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的程序时,实现上述方法实施例的步骤。
上述电子设备提到的总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供一种计算机可读存储介质,存储介质包括存储的程序,其中,程序运行时执行上述方法实施例的方法步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于会话文本的推荐方法,其特征在于,包括:
获取目标对象的目标会话文本;
在所述目标会话文本中确定出各个目标标签的第一时序关系,其中,所述目标标签为所述目标会话文本中与目标信息类型对应的信息,所述第一时序关系用于指示各个所述目标标签在所述目标会话文本中出现的前后次序;
按照各个所述目标标签的第一时序关系,得到所述目标会话文本对应的目标会话序列,其中,所述目标会话序列用于指示各个所述目标标签之间的相关性;
生成所述目标会话序列对应的目标向量;
将所述目标向量输入预先训练得到的目标模型中,得到所述目标对象的目标推荐结果。
2.根据权利要求1所述的方法,其特征在于,在所述将所述目标向量输入预先训练得到的目标模型中,得到所述目标对象的目标推荐结果之前,所述方法还包括:
获取候选对象集群中的至少两个候选对象的候选会话文本,其中,所述候选对象与所述候选会话文本一一对应;
根据所述候选会话文本生成用于训练的训练用会话序列以及测试用会话序列;
生成所述训练用会话序列对应的训练用向量,生成所述测试用会话序列对应的测试用向量;
通过所述训练用向量对待训练模型进行训练后得到训练后模型;
在通过所述测试用向量对所述训练后模型进行测试得到的测试精度达到预设要求的情况下,将所述训练后模型作为所述目标模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述候选会话文本生成用于训练的训练用会话序列以及测试用会话序列,包括:
对于每个所述候选会话文本,在所述候选会话文本中确定出各个候选标签的第二时序关系,按照各个所述候选标签的第二时序关系,得到所述候选会话文本对应的候选会话序列,其中,所述候选标签为所述候选会话文本中与所述目标信息类型对应的信息,所述候选会话序列用于指示各个所述候选标签之间的相关性;
根据每个所述候选会话文本对应的第二时序关系,确定所有所述候选会话文本中各个所述候选标签之间的关联关系;
根据所述关联关系确定出至少一个潜在会话序列,其中,所述潜在会话序列中的各个所述候选标签之间的所述第二时序关系异于任一个所述候选会话序列的所述第二时序关系;
在所有所述候选会话序列以及所有所述潜在会话序列中确定出所述训练用会话序列以及测试用会话序列。
4.根据权利要求1所述的方法,其特征在于,所述将所述目标向量输入预先训练得到的目标模型中,得到所述目标对象的目标推荐结果,包括:
通过将所述目标向量输入所述目标模型中,得到所述目标向量对应的目标高层语义信息;
根据所述目标高层语义信息在所有候选会话序列中匹配到候选推荐会话序列,其中,所述候选推荐会话序列的高层语义信息与所述目标高层语义信息的相似度满足预设相似度要求;
在所有所述候选推荐会话序列的候选推荐标签中筛选得到目标数量的目标推荐标签,其中,所述候选推荐标签为位于对应的所述候选推荐会话序列中,与所述目标信息类型对应的信息;
在目标数据库中查询得到与所述目标推荐标签对应的所述目标推荐结果。
5.根据权利要求4所述的方法,其特征在于,所述在所有所述候选推荐会话序列的候选推荐标签中筛选得到目标数量的目标推荐标签包括:
按照各个所述候选推荐会话序列对应的匹配度以及每个所述候选推荐会话序列中各个所述候选推荐标签第三时序关系,在所有所述候选推荐标签中选择得到所述目标推荐标签,其中,所述目标推荐标签所在的所述候选推荐会话序列对应的匹配度高于或等于其他所述候选推荐标签所在的所述候选推荐会话序列对应的匹配度,且所述目标推荐标签的时序先于同一个所述候选推荐会话序列中其他所述候选推荐标签的时序。
6.根据权利要求3所述的方法,其特征在于,所述根据所述关联关系确定出至少一个潜在会话序列包括:
根据各个所述候选标签之间的所述关联关系,得到用于指示所述候选标签之间所述关联关系的标签关联结构信息;
通过广度优先搜索或者深度优先搜索在所述标签关联结构信息中进行会话序列查询,得到所述潜在会话序列。
7.根据权利要求1所述的方法,其特征在于,所述生成所述目标会话序列对应的目标向量包括:
将每个所述目标标签映射至目标空间,得到目标子向量;
根据所述会话序列中每个所述目标标签的目标字向量,得到所述目标向量。
8.一种基于会话文本的推荐装置,其特征在于,包括:
获取模块,用于获取目标对象的目标会话文本;
确定模块,用于在所述目标会话文本中确定出各个目标标签的第一时序关系,其中,所述目标标签为所述目标会话文本中与目标信息类型对应的信息,所述第一时序关系用于指示各个所述目标标签在所述目标会话文本中出现的前后次序;
序列模块,用于按照各个所述目标标签的第一时序关系,得到所述目标会话文本对应的目标会话序列,其中,所述目标会话序列用于指示各个所述目标标签之间的相关性;
生成模块,用于生成所述目标会话序列对应的目标向量;
结果模块,用于将所述目标向量输入预先训练得到的目标模型中,得到所述目标对象的目标推荐结果。
9.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7中任一项所述的方法。
CN202110859016.8A 2021-07-28 2021-07-28 基于会话文本的推荐方法和装置、电子设备和存储介质 Active CN113641897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110859016.8A CN113641897B (zh) 2021-07-28 2021-07-28 基于会话文本的推荐方法和装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110859016.8A CN113641897B (zh) 2021-07-28 2021-07-28 基于会话文本的推荐方法和装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113641897A true CN113641897A (zh) 2021-11-12
CN113641897B CN113641897B (zh) 2024-04-19

Family

ID=78418654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110859016.8A Active CN113641897B (zh) 2021-07-28 2021-07-28 基于会话文本的推荐方法和装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113641897B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116775815A (zh) * 2022-03-07 2023-09-19 腾讯科技(深圳)有限公司 对话数据的处理方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045907A (zh) * 2015-08-10 2015-11-11 北京工业大学 一种用于个性化社会图像推荐的视觉注意-标签-用户兴趣树的构建方法
CN109299321A (zh) * 2018-08-31 2019-02-01 出门问问信息科技有限公司 一种曲目推荐方法及装置
CN109977215A (zh) * 2019-03-29 2019-07-05 百度在线网络技术(北京)有限公司 基于关联兴趣点的语句推荐方法和装置
CN110188272A (zh) * 2019-05-27 2019-08-30 南京大学 一种基于用户背景的社区问答网站标签推荐方法
CN111667067A (zh) * 2020-05-28 2020-09-15 平安医疗健康管理股份有限公司 基于图神经网络的推荐方法、装置和计算机设备
CN112115249A (zh) * 2020-09-27 2020-12-22 支付宝(杭州)信息技术有限公司 用户意图的统计分析及结果展示方法和装置
CN112580368A (zh) * 2020-12-25 2021-03-30 网易(杭州)网络有限公司 会话文本的意图序列识别方法、装置、设备及存储介质
CN112733018A (zh) * 2020-12-31 2021-04-30 哈尔滨工程大学 一种基于图神经网络gnn和多任务学习的会话推荐方法
CN112989209A (zh) * 2021-05-10 2021-06-18 腾讯科技(深圳)有限公司 内容推荐方法、装置和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045907A (zh) * 2015-08-10 2015-11-11 北京工业大学 一种用于个性化社会图像推荐的视觉注意-标签-用户兴趣树的构建方法
CN109299321A (zh) * 2018-08-31 2019-02-01 出门问问信息科技有限公司 一种曲目推荐方法及装置
CN109977215A (zh) * 2019-03-29 2019-07-05 百度在线网络技术(北京)有限公司 基于关联兴趣点的语句推荐方法和装置
CN110188272A (zh) * 2019-05-27 2019-08-30 南京大学 一种基于用户背景的社区问答网站标签推荐方法
CN111667067A (zh) * 2020-05-28 2020-09-15 平安医疗健康管理股份有限公司 基于图神经网络的推荐方法、装置和计算机设备
CN112115249A (zh) * 2020-09-27 2020-12-22 支付宝(杭州)信息技术有限公司 用户意图的统计分析及结果展示方法和装置
CN112580368A (zh) * 2020-12-25 2021-03-30 网易(杭州)网络有限公司 会话文本的意图序列识别方法、装置、设备及存储介质
CN112733018A (zh) * 2020-12-31 2021-04-30 哈尔滨工程大学 一种基于图神经网络gnn和多任务学习的会话推荐方法
CN112989209A (zh) * 2021-05-10 2021-06-18 腾讯科技(深圳)有限公司 内容推荐方法、装置和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
崔超然;马军;: "一种结合相关性和多样性的图像标签推荐方法", 计算机学报, no. 03, 15 March 2013 (2013-03-15) *
彭杰;石永革;高胜保;: "基于对话内容的交互型文本会话主题挖掘", 电信科学, no. 09, 20 September 2016 (2016-09-20) *
窦羚源;王新华;: "一种基于时间和标签上下文的协同过滤推荐算法", 太原理工大学学报, no. 06, 15 November 2015 (2015-11-15) *
郭亮: "面向Twitter的个性化信息推荐技术研究", 面向TWITTER的中国优秀硕士学位论文全文数据库 (信息科技辑), 15 April 2018 (2018-04-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116775815A (zh) * 2022-03-07 2023-09-19 腾讯科技(深圳)有限公司 对话数据的处理方法、装置、电子设备及存储介质
CN116775815B (zh) * 2022-03-07 2024-04-26 腾讯科技(深圳)有限公司 对话数据的处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113641897B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN110309427B (zh) 一种对象推荐方法、装置及存储介质
CN109033229B (zh) 问答处理方法和装置
CN107797984B (zh) 智能交互方法、设备及存储介质
CN110704626B (zh) 一种用于短文本的分类方法及装置
CN108810642B (zh) 一种弹幕显示方法、装置及电子设备
CN110717099B (zh) 一种推荐影片的方法及终端
CN110321291A (zh) 测试案例智能提取***及方法
US20150379087A1 (en) Apparatus and method for replying to query
CN109597874B (zh) 信息推荐方法、装置及服务器
Li et al. Universal sequential outlier hypothesis testing
CN110597965B (zh) 文章的情感极性分析方法、装置、电子设备及存储介质
CN112417207A (zh) 一种视频推荐方法、装置、设备及存储介质
CN108319628B (zh) 一种用户兴趣确定方法及装置
CN110532469B (zh) 一种信息推荐方法、装置、设备及存储介质
CN111125521A (zh) 一种信息推荐方法、装置、设备及存储介质
CN110598109A (zh) 一种信息推荐方法、装置、设备及存储介质
CN110377733A (zh) 一种基于文本的情绪识别方法、终端设备及介质
CN107291774B (zh) 错误样本识别方法和装置
CN113869931A (zh) 广告投放策略确定方法、装置、计算机设备和存储介质
CN109558531A (zh) 新闻信息推送方法、装置以及计算机设备
CN113220974B (zh) 点击率预测模型训练、搜索召回方法、装置、设备及介质
CN113641897B (zh) 基于会话文本的推荐方法和装置、电子设备和存储介质
CN108710682B (zh) 对象推荐方法、装置及设备
CN116756576B (zh) 数据处理方法、模型训练方法、电子设备及存储介质
CN115730217A (zh) 模型的训练方法、物料的召回方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant