CN110766460A

CN110766460A - 一种用户画像的方法、装置、存储介质及计算机设备

Info

Publication number: CN110766460A
Application number: CN201911002040.9A
Authority: CN
Inventors: 张民遐; 谷鹏; 刘城城
Original assignee: Hainan High Light Technology Co Ltd
Current assignee: Hainan High Light Technology Co Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-02-07

Abstract

本发明揭示了一种用户画像的方法、装置、存储介质及计算机设备，其中，用户画像的方法，所述方法具有对应的用户画像***，用户画像***具有对应的服务器，包括：获取第一用户开具的***信息，并上传至服务器，其中，第一用户包含于所有使用用户画像***进行画像的用户；从服务器下载第一***信息，解析第一***信息，生成第一***信息对应的结构化数据，其中，第一***信息为第一用户的***信息；根据预设的标签体系，对解析后的第一***信息进行打标，生成多个标签；根据多个标签，输出第一用户对应的用户画像。与现有技术相比，本发明基于电子***，对用户进行标签化，提升服务用户的能力，做到对用户服务的个性化，做到用户的精准分类。

Description

一种用户画像的方法、装置、存储介质及计算机设备

技术领域

本发明涉及到人工智能领域，特别是涉及到一种用户画像的方法、装置、存储介质及计算机设备。

背景技术

随着电子信息行业的发展，***电子化的必要性越来越高，对***的信息提取和处理也越来越重要。以往的电子***仅用于解决***业务的问题，未能将***信息最大化利用。为了后续给用户提供更好的服务，就需要精准的将用户进行分类。因此，如何最大化利用***信息，建立用户画像，从而实现对用户的精准分类，显得十分必要。

发明内容

本发明的主要目的为提供一种用户画像的方法，旨在解决最大化利用***信息，建立用户画像，从而实现对用户的精准分类的技术问题。

本发明提供一种用户画像的方法，所述方法具有对应的用户画像***，用户画像***具有对应的服务器，包括：

获取第一用户开具的***信息，并上传至服务器，其中，第一用户包含于所有使用用户画像***进行画像的用户；

从服务器下载第一***信息，解析第一***信息，生成第一***信息对应的结构化数据，其中，第一***信息为第一用户的***信息；

根据预设的标签体系，对解析后的第一***信息进行打标，生成多个标签；

根据多个标签，输出第一用户对应的用户画像。

优选的，用户画像***具有对应的神经网络，根据预设的标签体系，对解析后的第一***信息进行打标，生成多个标签的步骤，包括：

根据预设的标签体系，通过神经网络对解析后的第一***信息进行打标，生成多个标签。

优选的，从服务器下载第一***信息，解析第一***信息，生成第一***信息对应的结构化数据的步骤，包括：

获取第一***信息并将第一***信息转为预设数据格式；

从预设数据格式的第一***信息中筛选和清洗第一***信息，得到第一***信息中的有效信息，其中，有效信息为用于建立用户画像的数据信息。

优选的，各标签具有对应的维度，根据多个标签，输出第一用户对应的用户画像的步骤，包括：

将各标签与第一用户各维度的信息一一关联；

通过第一用户各维度对应的标签，生成并输出第一用户对应的用户画像。

本发明还提供一种用户画像的装置，包括：

获取模块，用于获取第一用户开具的***信息，并上传至服务器，其中，第一用户包含于所有使用用户画像***进行画像的用户；

执行模块，用于从服务器下载第一***信息，解析第一***信息，生成第一***信息对应的结构化数据，其中，第一***信息为第一用户的***信息；

打标模块，用于根据预设的标签体系，对解析后的第一***信息进行打标，生成多个标签；

画像模块，用于根据多个标签，输出第一用户对应的用户画像。

优选的，打标模块包括：

打标子模块，用于根据预设的标签体系，通过神经网络对解析后的第一***信息进行打标，生成多个标签。

优选的，执行模块包括：

获取子模块，用于获取第一***信息并将第一***信息转为预设数据格式；

解析子模块，用于从预设数据格式的第一***信息中筛选和清洗第一***信息，得到第一***信息中的有效信息，其中，有效信息为用于建立用户画像的数据信息。

优选的，画像模块包括：

联系子模块，用于将各标签与第一用户各维度的信息一一关联；

输出子模块，用于通过第一用户各维度对应的标签，生成并输出第一用户对应的用户画像。

本发明还提供一种存储介质，其为计算机可读的存储介质，其上存储有计算机程序，计算机程序被执行时实现上述的用户画像的方法。

本发明还提供一种计算机设备，其包括处理器、存储器及存储于存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述的用户画像的方法。

本发明的有益效果在于：通过使用服务器，存储大量的历史***数据，再通过对大量的历史***数据的解析，获取到有效的信息，建立和用户的链接关系，对用户进行标签化，提升服务用户的能力，做到对用户服务的个性化，做到用户的精准分类。

附图说明

图1为本发明一种用户画像的方法的第一实施例的流程示意图；

图2为图1中用户画像***与服务器配合工作的示意图；

图3为本发明一种用户画像的方法的第二实施例的流程示意图；

图4为图2中用户画像***的深度卷积神经网络的结构示意图；

图5为本发明一种用户画像的方法的第三实施例的流程示意图；

图6为本发明一种用户画像的方法的第四实施例的流程示意图；

图7为本发明一种用户画像的方法的四实施例的标签体系示意图；

图8为本发明一种用户画像的装置的第一实施例的结构示意图；

图9为本申请提供的存储介质一实施例的结构框图；

图10为本申请提供的计算机设备一实施例的结构框图。

标号说明：

1、获取模块；2、执行模块；3、打标模块；4、画像模块；5、用户画像***；6、服务器；7、深度卷积神经网络；8、输入层；9、卷积层；10、采样层；11、全连接层；12、softmax输出层；

100、存储介质；200、计算机程序；300、计算机设备；400、处理器。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1至图2，本发明提供一种用户画像的方法，所述方法具有对应的用户画像***5，用户画像***5具有对应的服务器6，包括：

S1：获取第一用户开具的***信息，并上传至服务器6，其中，第一用户包含于所有使用所述用户画像***进行画像的用户；

S2：从服务器6下载第一***信息，解析第一***信息，生成第一***信息对应的结构化数据，其中，第一***信息为第一用户的***信息；

S3：根据预设的标签体系，对解析后的第一***信息进行打标，生成多个标签；

S4：根据多个标签，输出第一用户对应的用户画像。

在本发明实施例中，用户画像***5为软件***，服务器6为分布式云存储服务器。用户画像***5经用户授权后，通过应用程序从用户的邮箱或者通过商家的***数据库中下载有关用户的电子***数据，并将下载的电子***数据上传至分布式云服务器中。具体的，在数据采集上使用了提高效率的多进程爬虫和zookeeper队列，在用户授权后，能够在快速采集电子***数据，获取的大量历史数据，能够更好的提高用户画像的准确度；使用分布式云存储服务器，支持海量数据的操作，通过分布式存储的方式，上传获取的历史开票数据，其中，存储技术是基于hadoop(hadoop，海杜普)大数据集群的存储技术，使用了大数据中的应用技术，数据存储在HDFS(Hadoop Distributed File System，分布式文件***)中，映射到hive表，能够保障数据的安全性，提升了生成用户画像的效率，也增强了***的稳定性和可靠性，能够支持超大文件、具备高容错能力、高数据访问能力。用户画像***5从分布式云服务器中下载电子***数据，然后解析电子***数据，生成电子***数据对应的结构化数据。用户画像***5根据预设的标签体系，对解析后的电子***数据进行打标，生成多个标签，其中，所述标签体系为三级标签体系，包括一级标签，二级标签，三级标签，一级标签对用户进行初步分类，二级标签为一级标签的进一步细化标签，三级标签为二级标签的进一步细化标签，各级标签均包含静态标签和动态标签，静态标签如人口属性、(地域、性别等)商业属性(消费能力等)，动态标签如消费时间、消费频率等。用户画像***5根据多个标签，输出第一用户对应的用户画像，从而通过用户开具的电子***信息实现对用户的精准分类。

参照图3和图4，用户画像***5具有对应的神经网络，根据预设的标签体系，对解析后的第一***信息进行打标，生成多个标签的步骤S3，包括：

S31：根据预设的标签体系，通过神经网络对解析后的第一***信息进行打标，生成多个标签。

在本发明实施例中，用户画像***5根据预设的标签体系，通过神经网络对解析后的电子***数据进行标签化，从而生成多个标签。具体的，用户画像***5具有对应的神经网络。神经网络需经过大量训练才能根据电子***数据生成准确的标签。神经网络训练过程需提供大量训练数据，包括但不限于***代码、***号码、商品金额、税额、商品明细、销方信息、购方信息等。在本发明实施例中，神经网络为深度卷积神经网络7。用户画像***5会对训练数据进行预处理，包括除去数据中非文本部分，对训练数据进行人工预打标签，***数据的分词，***数据的embedded处理等。此外，用户画像***5还包括对模型的选择，模型超参的调节，模型参数的最终确定等功能。在本发明实施例中，用户画像***5选择深度卷积神经网络7，作为最终的训练模型。深度卷积神经网络7一般采用卷积层9与采样层10交替设置，即一层卷积层9接一层采样层10，采样层10后接一层卷积...这样卷积层9提取出特征，再进行组合形成更抽象的特征，最后形成对图片对象的描述特征。深度卷积神经网络7的最大特点就是稀疏连接(局部感受)和权值共享。稀疏连接和权值共享可以减少所要训练的参数，减少计算复杂度。深度卷积神经网络7是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。深度卷积神经网络7在本质上是一种输入到输出的映射，它能够学习大量的输入与输出之间的映射关系，而不需要任何输入和输出之间的精确的数学表达式，只要用已知的模式对卷积网络加以训练，深度卷积神经网络7就具有输入输出对之间的映射能力。深度卷积神经网络7是一种多层的监督学习神经网络，隐含层的卷积层9和采样层10是实现卷积神经网络特征提取功能的核心模块。该网络模型通过采用梯度下降法最小化损失函数对网络中的权重参数逐层反向调节，通过频繁的迭代训练提高网络的精度。深度卷积神经网络7的低隐层是由卷积层9和最大采样层10交替组成，高层是全连接层11对应传统多层感知器的隐含层和逻辑回归分类器。第一个全连接层11的输入是由卷积层9和子采样层10进行特征提取得到的特征数据。最后一层输出层是一个分类器，可以采用逻辑回归，softmax回归甚至是支持向量机对输入***数据进行分类。深度卷积神经网络7的结构包括：输入层8、卷积层9，采样层10，全连接层11和softmax输出层12。每一层有多个特征输入，每个特征输入通过一种卷积滤波器提取输入的一种特征，每个特征输入有多个神经元。卷积层9：使用卷积层9的原因是卷积运算的一个重要特点是，通过卷积运算，可以使原信号特征增强，并且降低噪音。采样层10：使用降采样的原因是，根据数据局部相关性的原理，对数据进行子采样可以减少计算量，同时保持数据旋转不变性。全连接层11：采用softmax全连接，得到的激活值即卷积神经网络提取到的***数据的分类。通过上述设置可知，用户画像***5通过训练后的神经网络，根据解析后的电子***数据，生成多个准确的标签，能大大提高用户画像***5的打标效率，从而提升用户画像***5的对用户进行分类的效率。

参照图5，从服务器6下载第一***信息，解析第一***信息，生成第一***信息对应的结构化数据的步骤S2，包括：

S21：获取第一***信息；

S22：筛选和清洗第一***信息，得到第一***信息中的有效信息，其中，有效信息为用于建立用户画像的数据信息。

在本发明实施例中，用户画像***5将第一***信息转为PDF格式。用户画像***5通过多进程和查找数据索引的方法，保障解析的准确率，获得电子***的有效信息，其中，有效信息包括不限于：机器编号、***代码、***号码、开票日期、校验码、购方名称、纳税人识别号、购方地址电话、开户行账号及名称、项目名称、金额、税率、税额、销方各类信息；并对获取的上述数据进行清洗和筛选，获取有效信息。对电子***的PDF文件解析上，根据索引提取数据，提取数据的准确性达到100％，保障了用户画像的准确性。在本发明其他实施例中，用户画像***5将有效信息保存至所述的***数据采集存储模块中的分布式云存储服务器单元的hbase，具有高并发读写操作的支持，能够做到自动故障转移，保障了数据解析实时更新的可靠性。

参照图6和图7，各标签具有对应的维度，根据多个标签，输出第一用户对应的用户画像的步骤S4，包括：

S41：将各标签与第一用户各维度的信息一一关联；

S42：通过第一用户各所述维度对应的标签，生成并输出第一用户对应的用户画像。

在本发明实施例中，用户画像***5将各标签与第一用户各维度的信息一一关联，其中，维度包括但不限于人口属性、商业属性、动态标签。通过人口属性、商业属性、动态标签等各维度的标签逐一建立和用户之间的联系，输出用户画像。具体的，在本发明实施例中，如图7所示。一级标签包括基本属性和兴趣爱好；二级标签包括性别、职业、体育、教育和爱好；三级标签包括男、程序员、篮球、英语学习和海淘，其中，性别为静态标签，职业、体育、教育和爱好均为动态标签。在本发明实施例中，根据一级标签、二级标签和三级标签三个维度建立和用户之间的联系，输出用户画像，用户画像为一个热爱篮球、海淘以及正在学习英语的男性程序员。使得商家能根据用户画像，对用户提供更具有针对性的服务。通过上述设置，通过多维度的标签，使得用户画像更精准。

参照图8，本发明提供一种用户画像的装置，包括：

获取模块1，用于获取第一用户开具的***信息，并上传至服务器6，其中，第一用户包含于所有使用用户画像***5进行画像的用户；

执行模块2，用于从服务器6下载第一***信息，解析第一***信息，生成第一***信息对应的结构化数据，其中，第一***信息为第一用户的***信息；

打标模块3，用于根据预设的标签体系，对解析后的第一***信息进行打标，生成多个标签；

画像模块4，用于根据多个标签，输出第一用户对应的用户画像。

进一步地，打标模块3包括：

进一步地，执行模块2包括：

获取子模块，用于获取第一***信息；

解析子模块，用于筛选和清洗第一***信息，得到第一***信息中的有效信息，其中，有效信息为用于建立用户画像的数据信息。

进一步地，画像模块4包括：

输出子模块，用于通过第一用户各所述维度对应的标签，生成并输出第一用户对应的用户画像。

在本发明实施例中，用户画像***5将各标签与第一用户各维度的信息一一关联，其中，维度包括但不限于人口属性、商业属性、动态标签。通过人口属性、商业属性、动态标签等各维度的标签逐一建立和用户之间的联系，输出用户画像。具体的，在本发明实施例中，如图7所示。一级标签包括基本属性和兴趣爱好；二级标签包括性别、职业、体育、教育和爱好；三级标签包括男、程序员、篮球、英语学习和海淘，其中，性别为静态标签，职业、体育、教育和爱好均为动态标签。在本发明实施例中，根据一级标签、二级标签和三级标签三个维度建立和用户之间的联系，输出用户画像，用户画像为一个热爱篮球、海淘以及正在学习英语的男性程序员。使得商家能根据用户画像，对用户提供更具有针对性的服务。通过上述设置，通过多维度的标签，使得用户画像更精准

参考图9，本申请还提供了一种存储介质100，存储介质100中存储有计算机程序200，当其在计算机上运行时，使得计算机执行以上实施例所描述的用户画像的方法。

参考图10，本申请还提供了一种包含指令的计算机设备300，当其在计算机设备300上运行时，使得计算机设备300通过其内部设置的处理器400执行以上实施例所描述的用户画像的方法。

本领域技术人员可以理解，本发明所述的用户画像的方法和上述所涉及用于执行本申请中所述方法中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序或应用程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存储器)、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种用户画像的方法，其特征在于，所述方法具有对应的用户画像***，所述用户画像***具有对应的服务器，包括：

获取第一用户开具的***信息，并上传至所述服务器，其中，所述第一用户包含于所有使用所述用户画像***进行画像的用户；

从所述服务器下载所述第一***信息，解析所述第一***信息，生成所述第一***信息对应的结构化数据，其中，所述第一***信息为所述第一用户的***信息；

根据预设的标签体系，对解析后的所述第一***信息进行打标，生成多个标签；

根据多个所述标签，输出所述第一用户对应的用户画像。

2.根据权利要求1所述的用户画像的方法，其特征在于，所述用户画像***具有对应的神经网络，所述根据预设的标签体系，对解析后的所述第一***信息进行打标，生成多个标签的步骤，包括：

根据预设的标签体系，通过所述神经网络对解析后的所述第一***信息进行打标，生成多个标签。

3.根据权利要求1所述的用户画像的方法，其特征在于，所述从所述服务器下载所述第一***信息，解析所述第一***信息，生成所述第一***信息对应的结构化数据的步骤，包括：

获取所述第一***信息并将所述第一***信息转为预设数据格式；

从所述预设数据格式的所述第一***信息中筛选和清洗所述第一***信息，得到所述第一***信息中的有效信息，其中，所述有效信息为用于建立用户画像的数据信息。

4.根据权利要求1所述的用户画像的方法，其特征在于，各所述标签具有对应的维度，所述根据多个所述标签，输出所述第一用户对应的用户画像的步骤，包括：

将各所述标签与所述第一用户各维度的信息一一关联；

通过所述第一用户各所述维度对应的所述标签，生成并输出所述第一用户对应的用户画像。

5.一种用户画像的装置，其特征在于，包括：

获取模块，用于获取第一用户开具的***信息，并上传至所述服务器，其中，所述第一用户包含于所有使用所述用户画像***进行画像的用户；

执行模块，用于从所述服务器下载所述第一***信息，解析所述第一***信息，生成所述第一***信息对应的结构化数据，其中，所述第一***信息为所述第一用户的***信息；

打标模块，用于根据预设的标签体系，对解析后的所述第一***信息进行打标，生成多个标签；

画像模块，用于根据多个所述标签，输出所述第一用户对应的用户画像。

6.根据权利要求5所述的用户画像的装置，其特征在于，所述打标模块包括：

打标子模块，用于根据预设的标签体系，通过所述神经网络对解析后的所述第一***信息进行打标，生成多个标签。

7.根据权利要求5所述的用户画像的装置，其特征在于，所述执行模块包括：

获取子模块，用于获取所述第一***信息并将所述第一***信息转为预设数据格式；

解析子模块，用于从所述预设数据格式的所述第一***信息中筛选和清洗所述第一***信息，得到所述第一***信息中的有效信息，其中，所述有效信息为用于建立用户画像的数据信息。

8.根据权利要求5所述的用户画像的装置，其特征在于，所述画像模块包括：

联系子模块，用于将各所述标签与所述第一用户各维度的信息一一关联；

输出子模块，用于通过所述第一用户各所述维度对应的所述标签，生成并输出所述第一用户对应的用户画像。

9.一种存储介质，其特征在于，其为计算机可读的存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如权利要求1～4任一项所述的用户画像的方法。

10.一种计算机设备，其特征在于，其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～4任一项所述的用户画像的方法。