CN112508654A - 产品信息推荐方法、装置、计算机设备及存储介质 - Google Patents

产品信息推荐方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112508654A
CN112508654A CN202011486536.0A CN202011486536A CN112508654A CN 112508654 A CN112508654 A CN 112508654A CN 202011486536 A CN202011486536 A CN 202011486536A CN 112508654 A CN112508654 A CN 112508654A
Authority
CN
China
Prior art keywords
user data
data
user
sample data
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011486536.0A
Other languages
English (en)
Inventor
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Pension Insurance Corp
Original Assignee
Ping An Pension Insurance Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Pension Insurance Corp filed Critical Ping An Pension Insurance Corp
Priority to CN202011486536.0A priority Critical patent/CN112508654A/zh
Publication of CN112508654A publication Critical patent/CN112508654A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种产品信息推荐方法、装置、计算机设备及存储介质,涉及人工智能领域。该方法包括:对历史用户信息集进行数据清洗处理得到样本数据集;通过双向RNN网络对样本数据集的样本数据进行编码;将样本数据集的样本数据的编码向量输入到聚类模型中聚类得到多个类;对初始用户数据进行数据清洗处理以得到待测用户数据;通过双向RNN网络对待测用户数据进行编码;根据待测用户数据的编码向量确定待测用户数据所属的类,根据待测用户数据所属的类为用户终端推荐产品信息,从而能够实现根据待测用户数据来对用户进行分类,相比于人工方式,其效率更高,准确性更高。同时,根据待测用户数据所属的类为用户终端推荐产品信息,提高了推荐的准确性。

Description

产品信息推荐方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种产品信息推荐方法、装置、计算机设备及存储介质。
背景技术
用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。通过表单、用户企业信息及互动行为收集,建立多维度的客户画像,自动化标签分组实现用户分群,为精细化运营提供数据基础。
然而,现有技术中,依赖于技术人员分析挖掘用户的信息,来为用户打标签,同时根据标签来为用户推荐产品。以上人为操作方式,效率低下,且主观性强,准确性差。
发明内容
本发明实施例提供了一种产品信息推荐方法、装置、计算机设备及存储介质,旨在解决产品信息推荐方法效率低下、主观性强以及准确性差的问题。
第一方面,本发明实施例提供了一种产品信息推荐方法,其包括:
获取历史用户信息集,所述历史用户信息集包括多个用户信息;
对所述历史用户信息集进行数据清洗处理以得到样本数据集,所述样本数据集包括多个样本数据,所述样本数据由用户信息经过数据清洗处理后得到;
通过预设的双向RNN网络对所述样本数据集的样本数据进行编码以得到所述样本数据集的样本数据的编码向量;
将所述样本数据集的样本数据的编码向量输入到预设的聚类模型中以聚类得到多个类;
若接收到用户终端发送的初始用户数据,对所述初始用户数据进行数据清洗处理以得到待测用户数据;
通过预设的双向RNN网络对所述待测用户数据进行编码以得到所述待测用户数据的编码向量;
根据所述待测用户数据的编码向量确定所述待测用户数据所属的类;
根据所述待测用户数据所属的类为所述用户终端推荐产品信息。
第二方面,本发明实施例还提供了一种产品信息推荐装置,其包括:
获取单元,用于获取历史用户信息集,所述历史用户信息集包括多个用户信息;
第一清洗单元,用于对所述历史用户信息集进行数据清洗处理以得到样本数据集,所述样本数据集包括多个样本数据,所述样本数据由用户信息经过数据清洗处理后得到;
第一编码单元,用于通过预设的双向RNN网络对所述样本数据集的样本数据进行编码以得到所述样本数据集的样本数据的编码向量;
聚类单元,用于将所述样本数据集的样本数据的编码向量输入到预设的聚类模型中以聚类得到多个类;
第二清洗单元,用于若接收到用户终端发送的初始用户数据,对所述初始用户数据进行数据清洗处理以得到待测用户数据;
第二编码单元,用于通过预设的双向RNN网络对所述待测用户数据进行编码以得到所述待测用户数据的编码向量;
确定单元,用于根据所述待测用户数据的编码向量确定所述待测用户数据所属的类;
推荐单元,用于根据所述待测用户数据所属的类为所述用户终端推荐产品信息。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种产品信息推荐方法、装置、计算机设备及存储介质。其中,所述方法包括:获取历史用户信息集,所述历史用户信息集包括多个用户信息;对所述历史用户信息集进行数据清洗处理以得到样本数据集,所述样本数据集包括多个样本数据,所述样本数据由用户信息经过数据清洗处理后得到;通过预设的双向RNN网络对所述样本数据集的样本数据进行编码以得到所述样本数据集的样本数据的编码向量;将所述样本数据集的样本数据的编码向量输入到预设的聚类模型中以聚类得到多个类;若接收到用户终端发送的初始用户数据,对所述初始用户数据进行数据清洗处理以得到待测用户数据;通过预设的双向RNN网络对所述待测用户数据进行编码以得到所述待测用户数据的编码向量;根据所述待测用户数据的编码向量确定所述待测用户数据所属的类,根据所述待测用户数据所属的类为所述用户终端推荐产品信息,从而能够实现自动根据待测用户数据来对用户进行分类,相比于人工方式,其效率更高,准确性更高。同时,根据所述待测用户数据所属的类为所述用户终端推荐产品信息,提高了推荐的准确性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种产品信息推荐方法的应用场景示意图;
图2为本发明实施例提供的一种产品信息推荐方法的流程示意图;
图3为本发明实施例提供的一种产品信息推荐方法的子流程示意图;
图4为本发明实施例提供的一种产品信息推荐方法的子流程示意图;
图5为本发明实施例提供的一种产品信息推荐方法的子流程示意图;
图6为本发明实施例提供的一种产品信息推荐方法的子流程示意图;
图7为本发明实施例提供的一种产品信息推荐方法的子流程示意图;
图8为本发明实施例提供的一种产品信息推荐装置的示意性框图;
图9为本发明实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
请参阅图1和图2,图1为本发明实施例提供的产品信息推荐方法的应用场景示意图。图2为本发明实施例提供的产品信息推荐方法的示意性流程图。该产品信息推荐方法应用于服务器20中。服务器20获取历史用户信息集,所述历史用户信息集包括多个用户信息;服务器20对所述历史用户信息集进行数据清洗处理以得到样本数据集,所述样本数据集包括多个样本数据,所述样本数据由用户信息经过数据清洗处理后得到;服务器20通过预设的双向RNN网络对所述样本数据集的样本数据进行编码以得到所述样本数据集的样本数据的编码向量;服务器20将所述样本数据集的样本数据的编码向量输入到预设的聚类模型中以聚类得到多个类;若接收到用户终端10发送的初始用户数据,服务器20对所述初始用户数据进行数据清洗处理以得到待测用户数据;服务器20通过预设的双向RNN网络对所述待测用户数据进行编码以得到所述待测用户数据的编码向量;服务器20根据所述待测用户数据的编码向量确定所述待测用户数据所属的类;服务器20根据所述待测用户数据所属的类为所述用户终端10推荐产品信息。
图2是本发明实施例提供的产品信息推荐方法的流程示意图。本发明可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通场景中,从而推动智慧城市的建设。如图所示,该方法包括以下步骤S1-S8。
S1,获取历史用户信息集,所述历史用户信息集包括多个用户信息。
具体实施中,历史用户信息集是企业历年获取到的用户信息组成的集合。例如,历史用户信息集可具体为企业近两年的用户信息组成的集合。
用户信息包括个人用户信息以及企业用户信息。个人用户信息包括性别,年龄层次,消费水平,职业等信息。企业用户信息包括年收入,盈利,亏损,企业关联信息等信息。
S2,对所述历史用户信息集进行数据清洗处理以得到样本数据集,所述样本数据集包括多个样本数据,所述样本数据由用户信息经过数据清洗处理后得到。
具体实施中,数据清洗处理(Data cleaning)是指对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。通过数据清洗能够提高后续聚类模型计算的准确性。
具体地,逐一对历史用户信息集包括的用户信息进行数据清洗处理。每个用户信息进行数据清洗后得到样本数据。样本数据组成了样本数据集。
S3,通过预设的双向RNN网络对所述样本数据集的样本数据进行编码以得到所述样本数据集的样本数据的编码向量。
具体实施中,通过预设的双向RNN网络对所述样本数据集的样本数据进行编码以得到所述样本数据集的样本数据的编码向量。
双向RNN网络(Bidirectional RecurrentNeuralNetworks,双向循环神经网络)是由两个RNN上下叠加在一起组成的,其输出由这两个RNN的状态共同决定。相比于RNN网络,双向RNN网络能够更加准确的提取特征。
参见图3,在一实施例中,以上步骤S3具体包括S31-S33。
S31,对所述样本数据进行分词处理以得到所述样本数据的分词集合。
具体实施中,分词处理指的是将一个汉字序列切分成一个一个单独的词语。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
参见图4,在一实施例中,以上步骤S31具体包括如下步骤S311-S312。
S311,通过预设分词工具将所述样本数据划分为多个词语以得到所述样本数据的初始分词集合。
具体实施中,常用的分词工具为结巴分词工具。通过结巴分词工具将所述样本数据划分为多个词语,这些词语组成了所述样本数据的初始分词集合。
S312,将所述样本数据的初始分词集合中的停止词删除以得到所述样本数据的分词集合。
具体实施中,停止词(stop word),常为介词、副词或连词等。例如,"在"、"里面"、"也"、"的"、"它"、"为"等都为停止词。停止词没有实际含义,且会产生干扰,因此,在实际应用时,需要将停止词删除。
若初始分词集合包含停止词,则将其包含的停止词删除以得到分词集合。
S32,对所述样本数据的分词集合的词语进行词向量训练以得到所述样本数据的分词集合的词语的词向量。
具体实施中,采用word2vec来对对所述分词集合的词语进行词向量。word2vec是一种自然语言处理工具,其作用就是将自然语言中的字词转为计算机可以理解的词向量。
传统的词向量容易受维数灾难的困扰,且任意两个词之间都是孤立的,不能体现词和词之间的关系,因此本实施例采用word2vec来得到词向量,其可通过计算向量之间的距离来体现词与词之间的相似性。
或者,在其他实施例中,可采用其他词向量工具进行词向量训练,本发明对此不作具体限定。
S33,将所述样本数据的分词集合的词语的词向量输入到双向RNN网络中并输出所述样本数据的编码向量。
具体实施中,双向RNN网络对所述样本数据的分词集合中的词语的词向量进行编码,双向RNN网络的输出即为所述样本数据的编码向量。
可以理解地,对每一个样本数据均执行上述步骤S31-S33,以得到每一个样本数据的编码向量。
S4,将所述样本数据集的样本数据的编码向量输入到预设的聚类模型中以聚类得到多个类。
具体实施中,将所述样本数据集的样本数据的编码向量输入到预设的聚类模型中以聚类得到多个类。聚类结果包括类的数量,各类的类心,以及各类包含的训练样本的数量等信息。
预设的聚类模型可以为K-Means聚类模型。K-Means聚类模型采用k均值聚类算法(为K-Means clustering algorithm)。k均值聚类算法是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。
S5,若接收到用户终端发送的初始用户数据,对所述初始用户数据进行数据清洗处理以得到待测用户数据。
具体实施中,数据清洗处理(Data cleaning)是指对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。通过数据清洗能够提高后续聚类模型计算的准确性。
初始用户数据是指新采集到的用户数据,用户终端将初始用户数据发送给服务器,以由服务器对所述初始用户数据进行数据清洗处理以得到待测用户数据。
S6,通过预设的双向RNN网络对所述待测用户数据进行编码以得到所述待测用户数据的编码向量。
具体实施中,通过预设的双向RNN网络对所述待测用户数据进行编码以得到所述待测用户数据的编码向量。双向RNN网络(Bidirectional RecurrentNeural Networks,双向循环神经网络)是由两个RNN上下叠加在一起组成的,其输出由这两个RNN的状态共同决定。相比于RNN网络,双向RNN网络能够更加准确的提取特征。
参见图5,在一实施例中,以上步骤S6包括S61-S63。
S61,对所述待测用户数据进行分词处理以得到所述待测用户数据的分词集合。
具体实施中,分词处理指的是将一个汉字序列切分成一个一个单独的词语。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
参见图6,在一实施例中,以上步骤S61具体包括如下步骤S611-S612。
S611,通过预设分词工具将所述待测用户数据划分为多个词语以得到所述待测用户数据的初始分词集合。
具体实施中,常用的分词工具为结巴分词工具。通过结巴分词工具将所述待测用户数据划分为多个词语,这些词语组成了所述待测用户数据的初始分词集合。
S612,将所述待测用户数据的初始分词集合中的停止词删除以得到所述待测用户数据的分词集合。
具体实施中,停止词(stop word),常为介词、副词或连词等。例如,"在"、"里面"、"也"、"的"、"它"、"为"等都为停止词。停止词没有实际含义,且会产生干扰,因此,在实际应用时,需要将停止词删除。
若初始分词集合包含停止词,则将其包含的停止词删除以得到分词集合。
S62,对所述待测用户数据的分词集合的词语进行词向量训练以得到所述待测用户数据的分词集合的词语的词向量。
具体实施中,采用word2vec来对对所述分词集合的词语进行词向量。word2vec是一种自然语言处理工具,其作用就是将自然语言中的字词转为计算机可以理解的词向量。
传统的词向量容易受维数灾难的困扰,且任意两个词之间都是孤立的,不能体现词和词之间的关系,因此本实施例采用word2vec来得到词向量,其可通过计算向量之间的距离来体现词与词之间的相似性。
或者,在其他实施例中,可采用其他词向量工具进行词向量训练,本发明对此不作具体限定。
S63,将所述待测用户数据的分词集合的词语的词向量输入到双向RNN网络中并输出所述待测用户数据的编码向量。
具体实施中,双向RNN网络对所述待测用户数据的分词集合中的词语的词向量进行编码,双向RNN网络的输出即为所述待测用户数据的编码向量。
S7,根据所述待测用户数据的编码向量确定所述待测用户数据所属的类。
具体实施中,每一类均包括类心,根据所述待测用户数据的编码向量与各类类心的距离可以确定所述待测用户数据所属的类。
参见图7,在一实施例中,以上步骤S7具体包括如下步骤S712-S72。
S71,分别计算所述待测用户数据的编码向量与各所述类的类心的距离。
具体实施中,分别计算所述待测用户数据的编码向量与各所述类的类心的距离。
在一实施例中,通过以下公式
Figure BDA0002839429840000091
计算所述待测用户数据的编码向量与各所述类的类心的距离;其中,xi为类心的分量,yi为编码向量的分量,n为编码向量以及类心的维度。
S72,按照距离由小到大的顺序对各所述类进行排序,并将排在第一位的类作为所述待测用户数据所属的类。
具体实施中,按照距离由小到大的顺序对各所述类进行排序,并将排在第一位的类作为所述待测用户数据所属的类。
例如,在一实施例中,总共包含三个类,分别为B1、B2以及B3。排序的序列为B2、B1以及B3。则B2为所述待测用户数据所属的类。
S8,根据所述待测用户数据所属的类为所述用户终端推荐产品信息。
具体地,统计所述待测用户数据所属的类对应的用户所购买的产品,并按照产品的购买数量由高到低的顺序筛选出预设数量(例如,预设数量为5)的产品作为推荐产品,并将获取的推荐产品的产品信息推荐给用户终端。
通过应用本发明的技术方案,获取历史用户信息集,所述历史用户信息集包括多个用户信息;对所述历史用户信息集进行数据清洗处理以得到样本数据集,所述样本数据集包括多个样本数据,所述样本数据由用户信息经过数据清洗处理后得到;通过预设的双向RNN网络对所述样本数据集的样本数据进行编码以得到所述样本数据集的样本数据的编码向量;将所述样本数据集的样本数据的编码向量输入到预设的聚类模型中以聚类得到多个类;若接收到用户终端发送的初始用户数据,对所述初始用户数据进行数据清洗处理以得到待测用户数据;通过预设的双向RNN网络对所述待测用户数据进行编码以得到所述待测用户数据的编码向量;根据所述待测用户数据的编码向量确定所述待测用户数据所属的类,根据所述待测用户数据所属的类为所述用户终端推荐产品信息,从而能够实现自动根据待测用户数据来对用户进行分类,相比于人工方式,其效率更高,准确性更高。同时,根据所述待测用户数据所属的类为所述用户终端推荐产品信息,提高了推荐的准确性。
参见图8,图8是本发明实施例提供的一种产品信息推荐装置70的示意性框图。对应于以上产品信息推荐方法,本发明还提供一种产品信息推荐装置70。该产品信息推荐装置70包括用于执行上述产品信息推荐方法的单元,该产品信息推荐装置70可以被配置于服务器中。具体地,该产品信息推荐装置70包括获取单元71、第一清洗单元72、第一编码单元73、聚类单元74、第二清洗单元75、第二编码单元76、确定单元77以及推荐单元78。
获取单元71,用于获取历史用户信息集,所述历史用户信息集包括多个用户信息;
第一清洗单元72,用于对所述历史用户信息集进行数据清洗处理以得到样本数据集,所述样本数据集包括多个样本数据,所述样本数据由用户信息经过数据清洗处理后得到;
第一编码单元73,用于通过预设的双向RNN网络对所述样本数据集的样本数据进行编码以得到所述样本数据集的样本数据的编码向量;
聚类单元74,用于将所述样本数据集的样本数据的编码向量输入到预设的聚类模型中以聚类得到多个类;
第二清洗单元75,用于若接收到用户终端发送的初始用户数据,对所述初始用户数据进行数据清洗处理以得到待测用户数据;
第二编码单元76,用于通过预设的双向RNN网络对所述待测用户数据进行编码以得到所述待测用户数据的编码向量;
确定单元77,用于根据所述待测用户数据的编码向量确定所述待测用户数据所属的类;
推荐单元78,用于根据所述待测用户数据所属的类为所述用户终端推荐产品信息。
在一实施例中,所述通过预设的双向RNN网络对所述样本数据集的样本数据进行编码以得到所述样本数据集的样本数据的编码向量,包括:
对所述样本数据进行分词处理以得到所述样本数据的分词集合;
对所述样本数据的分词集合的词语进行词向量训练以得到所述样本数据的分词集合的词语的词向量;
将所述样本数据的分词集合的词语的词向量输入到双向RNN网络中并输出所述样本数据的编码向量。
在一实施例中,所述对所述样本数据进行分词处理以得到所述样本数据的分词集合,包括:
通过预设分词工具将所述样本数据划分为多个词语以得到所述样本数据的初始分词集合;
将所述样本数据的初始分词集合中的停止词删除以得到所述样本数据的分词集合。
在一实施例中,所述根据所述待测用户数据的编码向量确定所述待测用户数据所属的类,包括:
分别计算所述待测用户数据的编码向量与各所述类的类心的距离;
按照距离由小到大的顺序对各所述类进行排序,并将排在第一位的类作为所述待测用户数据所属的类。
在一实施例中,所述根据所述待测用户数据的编码向量确定所述待测用户数据所属的类,包括:
通过以下公式
Figure BDA0002839429840000111
计算所述待测用户数据的编码向量与各所述类的类心的距离;其中,xi为类心的分量,yi为编码向量的分量,n为编码向量以及类心的维度。
在一实施例中,所述通过预设的双向RNN网络对所述待测用户数据进行编码以得到所述待测用户数据的编码向量,包括:
对所述待测用户数据进行分词处理以得到所述待测用户数据的分词集合;
对所述待测用户数据的分词集合的词语进行词向量训练以得到所述待测用户数据的分词集合的词语的词向量;
将所述待测用户数据的分词集合的词语的词向量输入到双向RNN网络中并输出所述待测用户数据的编码向量。
在一实施例中,所述对所述待测用户数据进行分词处理以得到所述待测用户数据的分词集合,包括:
通过预设分词工具将所述待测用户数据划分为多个词语以得到所述待测用户数据的初始分词集合;
将所述待测用户数据的初始分词集合中的停止词删除以得到所述待测用户数据的分词集合。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述产品信息推荐装置70和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述产品信息推荐装置70可以实现为一种计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,图9是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500是服务器,其中服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种产品信息推荐方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种产品信息推荐方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,上述结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取历史用户信息集,所述历史用户信息集包括多个用户信息;
对所述历史用户信息集进行数据清洗处理以得到样本数据集,所述样本数据集包括多个样本数据,所述样本数据由用户信息经过数据清洗处理后得到;
通过预设的双向RNN网络对所述样本数据集的样本数据进行编码以得到所述样本数据集的样本数据的编码向量;
将所述样本数据集的样本数据的编码向量输入到预设的聚类模型中以聚类得到多个类;
若接收到用户终端发送的初始用户数据,对所述初始用户数据进行数据清洗处理以得到待测用户数据;
通过预设的双向RNN网络对所述待测用户数据进行编码以得到所述待测用户数据的编码向量;
根据所述待测用户数据的编码向量确定所述待测用户数据所属的类;
根据所述待测用户数据所属的类为所述用户终端推荐产品信息。
在一实施例中,所述通过预设的双向RNN网络对所述样本数据集的样本数据进行编码以得到所述样本数据集的样本数据的编码向量,包括:
对所述样本数据进行分词处理以得到所述样本数据的分词集合;
对所述样本数据的分词集合的词语进行词向量训练以得到所述样本数据的分词集合的词语的词向量;
将所述样本数据的分词集合的词语的词向量输入到双向RNN网络中并输出所述样本数据的编码向量。
在一实施例中,所述对所述样本数据进行分词处理以得到所述样本数据的分词集合,包括:
通过预设分词工具将所述样本数据划分为多个词语以得到所述样本数据的初始分词集合;
将所述样本数据的初始分词集合中的停止词删除以得到所述样本数据的分词集合。
在一实施例中,所述根据所述待测用户数据的编码向量确定所述待测用户数据所属的类,包括:
分别计算所述待测用户数据的编码向量与各所述类的类心的距离;
按照距离由小到大的顺序对各所述类进行排序,并将排在第一位的类作为所述待测用户数据所属的类。
在一实施例中,所述根据所述待测用户数据的编码向量确定所述待测用户数据所属的类,包括:
通过以下公式
Figure BDA0002839429840000131
计算所述待测用户数据的编码向量与各所述类的类心的距离;其中,xi为类心的分量,yi为编码向量的分量,n为编码向量以及类心的维度。
在一实施例中,所述通过预设的双向RNN网络对所述待测用户数据进行编码以得到所述待测用户数据的编码向量,包括:
对所述待测用户数据进行分词处理以得到所述待测用户数据的分词集合;
对所述待测用户数据的分词集合的词语进行词向量训练以得到所述待测用户数据的分词集合的词语的词向量;
将所述待测用户数据的分词集合的词语的词向量输入到双向RNN网络中并输出所述待测用户数据的编码向量。
在一实施例中,所述对所述待测用户数据进行分词处理以得到所述待测用户数据的分词集合,包括:
通过预设分词工具将所述待测用户数据划分为多个词语以得到所述待测用户数据的初始分词集合;
将所述待测用户数据的初始分词集合中的停止词删除以得到所述待测用户数据的分词集合。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机***中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行如下步骤:
获取历史用户信息集,所述历史用户信息集包括多个用户信息;
对所述历史用户信息集进行数据清洗处理以得到样本数据集,所述样本数据集包括多个样本数据,所述样本数据由用户信息经过数据清洗处理后得到;
通过预设的双向RNN网络对所述样本数据集的样本数据进行编码以得到所述样本数据集的样本数据的编码向量;
将所述样本数据集的样本数据的编码向量输入到预设的聚类模型中以聚类得到多个类;
若接收到用户终端发送的初始用户数据,对所述初始用户数据进行数据清洗处理以得到待测用户数据;
通过预设的双向RNN网络对所述待测用户数据进行编码以得到所述待测用户数据的编码向量;
根据所述待测用户数据的编码向量确定所述待测用户数据所属的类;
根据所述待测用户数据所属的类为所述用户终端推荐产品信息。
在一实施例中,所述通过预设的双向RNN网络对所述样本数据集的样本数据进行编码以得到所述样本数据集的样本数据的编码向量,包括:
对所述样本数据进行分词处理以得到所述样本数据的分词集合;
对所述样本数据的分词集合的词语进行词向量训练以得到所述样本数据的分词集合的词语的词向量;
将所述样本数据的分词集合的词语的词向量输入到双向RNN网络中并输出所述样本数据的编码向量。
在一实施例中,所述对所述样本数据进行分词处理以得到所述样本数据的分词集合,包括:
通过预设分词工具将所述样本数据划分为多个词语以得到所述样本数据的初始分词集合;
将所述样本数据的初始分词集合中的停止词删除以得到所述样本数据的分词集合。
在一实施例中,所述根据所述待测用户数据的编码向量确定所述待测用户数据所属的类,包括:
分别计算所述待测用户数据的编码向量与各所述类的类心的距离;
按照距离由小到大的顺序对各所述类进行排序,并将排在第一位的类作为所述待测用户数据所属的类。
在一实施例中,所述根据所述待测用户数据的编码向量确定所述待测用户数据所属的类,包括:
通过以下公式
Figure BDA0002839429840000151
计算所述待测用户数据的编码向量与各所述类的类心的距离;其中,xi为类心的分量,yi为编码向量的分量,n为编码向量以及类心的维度。
在一实施例中,所述通过预设的双向RNN网络对所述待测用户数据进行编码以得到所述待测用户数据的编码向量,包括:
对所述待测用户数据进行分词处理以得到所述待测用户数据的分词集合;
对所述待测用户数据的分词集合的词语进行词向量训练以得到所述待测用户数据的分词集合的词语的词向量;
将所述待测用户数据的分词集合的词语的词向量输入到双向RNN网络中并输出所述待测用户数据的编码向量。
在一实施例中,所述对所述待测用户数据进行分词处理以得到所述待测用户数据的分词集合,包括:
通过预设分词工具将所述待测用户数据划分为多个词语以得到所述待测用户数据的初始分词集合;
将所述待测用户数据的初始分词集合中的停止词删除以得到所述待测用户数据的分词集合。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。所述计算机可读存储介质可以是非易失性,也可以是易失性。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种产品信息推荐方法,其特征在于,包括:
获取历史用户信息集,所述历史用户信息集包括多个用户信息;
对所述历史用户信息集进行数据清洗处理以得到样本数据集,所述样本数据集包括多个样本数据,所述样本数据由用户信息经过数据清洗处理后得到;
通过预设的双向RNN网络对所述样本数据集的样本数据进行编码以得到所述样本数据集的样本数据的编码向量;
将所述样本数据集的样本数据的编码向量输入到预设的聚类模型中以聚类得到多个类;
若接收到用户终端发送的初始用户数据,对所述初始用户数据进行数据清洗处理以得到待测用户数据;
通过预设的双向RNN网络对所述待测用户数据进行编码以得到所述待测用户数据的编码向量;
根据所述待测用户数据的编码向量确定所述待测用户数据所属的类;
根据所述待测用户数据所属的类为所述用户终端推荐产品信息。
2.根据权利要求1所述的产品信息推荐方法,其特征在于,所述通过预设的双向RNN网络对所述样本数据集的样本数据进行编码以得到所述样本数据集的样本数据的编码向量,包括:
对所述样本数据进行分词处理以得到所述样本数据的分词集合;
对所述样本数据的分词集合的词语进行词向量训练以得到所述样本数据的分词集合的词语的词向量;
将所述样本数据的分词集合的词语的词向量输入到双向RNN网络中并输出所述样本数据的编码向量。
3.根据权利要求2所述的产品信息推荐方法,其特征在于,所述对所述样本数据进行分词处理以得到所述样本数据的分词集合,包括:
通过预设分词工具将所述样本数据划分为多个词语以得到所述样本数据的初始分词集合;
将所述样本数据的初始分词集合中的停止词删除以得到所述样本数据的分词集合。
4.根据权利要求1所述的产品信息推荐方法,其特征在于,所述根据所述待测用户数据的编码向量确定所述待测用户数据所属的类,包括:
分别计算所述待测用户数据的编码向量与各所述类的类心的距离;
按照距离由小到大的顺序对各所述类进行排序,并将排在第一位的类作为所述待测用户数据所属的类。
5.根据权利要求4所述的产品信息推荐方法,其特征在于,所述根据所述待测用户数据的编码向量确定所述待测用户数据所属的类,包括:
通过以下公式
Figure FDA0002839429830000021
计算所述待测用户数据的编码向量与各所述类的类心的距离;其中,xi为类心的分量,yi为编码向量的分量,n为编码向量以及类心的维度。
6.根据权利要求1所述的产品信息推荐方法,其特征在于,所述通过预设的双向RNN网络对所述待测用户数据进行编码以得到所述待测用户数据的编码向量,包括:
对所述待测用户数据进行分词处理以得到所述待测用户数据的分词集合;
对所述待测用户数据的分词集合的词语进行词向量训练以得到所述待测用户数据的分词集合的词语的词向量;
将所述待测用户数据的分词集合的词语的词向量输入到双向RNN网络中并输出所述待测用户数据的编码向量。
7.根据权利要求6所述的产品信息推荐方法,其特征在于,所述对所述待测用户数据进行分词处理以得到所述待测用户数据的分词集合,包括:
通过预设分词工具将所述待测用户数据划分为多个词语以得到所述待测用户数据的初始分词集合;
将所述待测用户数据的初始分词集合中的停止词删除以得到所述待测用户数据的分词集合。
8.一种产品信息推荐装置,其特征在于,包括:
获取单元,用于获取历史用户信息集,所述历史用户信息集包括多个用户信息;
第一清洗单元,用于对所述历史用户信息集进行数据清洗处理以得到样本数据集,所述样本数据集包括多个样本数据,所述样本数据由用户信息经过数据清洗处理后得到;
第一编码单元,用于通过预设的双向RNN网络对所述样本数据集的样本数据进行编码以得到所述样本数据集的样本数据的编码向量;
聚类单元,用于将所述样本数据集的样本数据的编码向量输入到预设的聚类模型中以聚类得到多个类;
第二清洗单元,用于若接收到用户终端发送的初始用户数据,对所述初始用户数据进行数据清洗处理以得到待测用户数据;
第二编码单元,用于通过预设的双向RNN网络对所述待测用户数据进行编码以得到所述待测用户数据的编码向量;
确定单元,用于根据所述待测用户数据的编码向量确定所述待测用户数据所属的类;
推荐单元,用于根据所述待测用户数据所属的类为所述用户终端推荐产品信息。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-7中任一项所述的方法。
CN202011486536.0A 2020-12-16 2020-12-16 产品信息推荐方法、装置、计算机设备及存储介质 Pending CN112508654A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011486536.0A CN112508654A (zh) 2020-12-16 2020-12-16 产品信息推荐方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011486536.0A CN112508654A (zh) 2020-12-16 2020-12-16 产品信息推荐方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN112508654A true CN112508654A (zh) 2021-03-16

Family

ID=74972677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011486536.0A Pending CN112508654A (zh) 2020-12-16 2020-12-16 产品信息推荐方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112508654A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674063A (zh) * 2021-08-27 2021-11-19 卓尔智联(武汉)研究院有限公司 购物推荐方法、购物推荐装置、及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080243637A1 (en) * 2007-03-30 2008-10-02 Chan James D Recommendation system with cluster-based filtering of recommendations
CN108320176A (zh) * 2017-12-26 2018-07-24 爱品克科技(武汉)股份有限公司 一种基于社会化关系用户分类及推荐方法
CN110968775A (zh) * 2018-09-30 2020-04-07 北京京东尚科信息技术有限公司 商品属性生成模型的训练方法及生成、搜索方法和***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080243637A1 (en) * 2007-03-30 2008-10-02 Chan James D Recommendation system with cluster-based filtering of recommendations
CN108320176A (zh) * 2017-12-26 2018-07-24 爱品克科技(武汉)股份有限公司 一种基于社会化关系用户分类及推荐方法
CN110968775A (zh) * 2018-09-30 2020-04-07 北京京东尚科信息技术有限公司 商品属性生成模型的训练方法及生成、搜索方法和***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674063A (zh) * 2021-08-27 2021-11-19 卓尔智联(武汉)研究院有限公司 购物推荐方法、购物推荐装置、及电子设备
CN113674063B (zh) * 2021-08-27 2024-01-12 卓尔智联(武汉)研究院有限公司 购物推荐方法、购物推荐装置、及电子设备

Similar Documents

Publication Publication Date Title
CN107066616B (zh) 用于账号处理的方法、装置及电子设备
CN109492180A (zh) 资源推荐方法、装置、计算机设备及计算机可读存储介质
CN107291672A (zh) 数据表的处理方法和装置
CN109933656A (zh) 舆情极性预测方法、装置、计算机设备及存储介质
CN108512883B (zh) 一种信息推送方法、装置及可读介质
CN109284369B (zh) 证券新闻资讯重要性的判定方法、***、装置及介质
CN113138982B (zh) 一种大数据清洗方法
CN110737805B (zh) 图模型数据的处理方法、装置和终端设备
CN113554175B (zh) 一种知识图谱构建方法、装置、可读存储介质及终端设备
CN112199602A (zh) 岗位推荐方法、推荐平台及服务器
CN114780606B (zh) 一种大数据挖掘方法及***
CN114037545A (zh) 客户推荐方法、装置、设备及存储介质
CN112800226A (zh) 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备
CN115222443A (zh) 客户群体划分方法、装置、设备及存储介质
CN108984777B (zh) 客户服务方法、装置和计算机可读存储介质
CN110909040A (zh) 一种业务投放辅助方法、装置及电子设备
CN112508654A (zh) 产品信息推荐方法、装置、计算机设备及存储介质
CN111222993A (zh) 基金推荐方法及装置
CN107943982B (zh) 内置约束规则的k-means文本聚类方法及装置
CN116089616A (zh) 主题文本获取方法、装置、设备及存储介质
CN115080864A (zh) 基于人工智能的产品推荐方法、装置、计算机设备及介质
CN114817741A (zh) 一种理财产品精准推荐方法及装置
CN114581177A (zh) 产品推荐方法、装置、设备及存储介质
CN114282976A (zh) 供应商推荐方法、装置、电子设备及介质
CN114266914A (zh) 一种异常行为检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination