CN112632994B

CN112632994B - 基于文本信息确定基本属性特征的方法、装置及设备

Info

Publication number: CN112632994B
Application number: CN202011394269.4A
Authority: CN
Inventors: 刘泽城
Original assignee: Dazhu Hangzhou Technology Co ltd
Current assignee: Dazhu Hangzhou Technology Co ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2023-09-01
Anticipated expiration: 2040-12-03
Also published as: CN112632994A

Abstract

本申请属于数据处理领域，公开了一种基于文本信息确定基本属性特征的方法、装置及设备，能够从网络中获取的关于用户的相关文本信息，利用语言识别模型进行语言识别得到用户文本特征向量，再对用户文本特征向量利用序列标注模型进行处理得到实体特征数据，以及对用户文本特征向量利用分类模型进行分类处理得到类别特征数据，将实体特征数据与类别特征数据进行整合后即可得到对应的用户的基本属性特征。这样的处理分析过程，能够简化基本属性特征获取的步骤，提高时间利用率。

Description

基于文本信息确定基本属性特征的方法、装置及设备

技术领域

本申请涉及数据处理领域，特别是涉及一种基于文本信息确定基本属性特征的方法、装置及设备。

背景技术

用户的基本属性，例如姓名、性别、地址、年龄等，是用来分析用户特点的最基本的数据，一般对用户进行特征分析时，都需要使用这些基本属性数据。

但是，目前对于用户的基本属性的获取都是通过用户直接输入进行获取的，这样需要占用用户的时间，并且有的用户不愿意输入这些信息，就无法获得。

因此，如何根据网络上关于用户的相关文本信息得到用户的基本属性特征，成为目前亟待解决的技术问题。

发明内容

有鉴于此，本申请提供了一种基于文本信息确定基本属性特征的方法、装置及设备。主要目的在于解决目前如何根据网络上关于用户的相关文本信息得到用户的基本属性特征的技术问题。

依据本申请的第一方面，提出了一种基于文本信息确定基本属性特征的方法，步骤包括：

通过网络获取用户的相关文本信息；

将所述用户的相关文本信息输入语言识别模型中进行处理，得到用户文本特征向量，其中，预先利用多个样本文本信息对GPT2模型进行训练得到能够识别文本信息中的文本特征向量的所述语言识别模型；

将所述用户文本特征向量输入序列标注模型中进行处理，得到实体特征数据，其中，预先构建能够识别文本特征向量中的实体特征的所述序列标注模型；

将所述用户文本特征向量输入分类模型中进行处理，得到类别特征数据，其中，预先构建能够识别文本特征向量中的类别特征的所述分类模型；

将所述实体特征数据与所述类别特征数据进行结合，得到用户的基本属性特征。

进一步地，在所述将所述用户的相关文本信息输入语言识别模型中进行处理，得到用户文本特征向量之前，所述方法还包括：

预先创建具有多个输入路径的GPT2模型；

为每个输入路径创建查询向量、键向量和值向量；

获取多个样本文本信息，为每个样本文本信息预先标记文本特征向量；

将所述样本文本信息通过输入路径进行输入，根据查询向量、键向量和值向量，为所述样本文本信息中的样本词语确定对应的样本查询向量、样本键向量和样本值向量；

将任一样本词语的样本查询向量与其他样本词语的键向量相乘，得到样本词语对应的注意力分值；

将所述样本词语对应的注意力分值与样本词语对应的样本值向量进行相乘后再进行求和处理，得到样本文本特征向量；

将所述样本文本特征向量与预先标记的文本特征向量进行比对，若比对不一致，则对创建的查询向量、键向量和值向量进行调整使得所述样本文本特征向量与预先标记的文本特征向量一致，否则将下一个样本文本信息进行输入处理；

当所有样本文本信息全部处理完成之后得到的GPT2模型作为语言识别模型。

进一步地，所述将所述用户的相关文本信息输入语言识别模型中进行处理，得到用户文本特征向量，具体包括：

将所述用户的相关文本信息通过输入路径进行输入，根据查询向量、键向量和值向量，为所述用户的相关文本信息中的用户词语确定对应的用户查询向量、用户键向量和用户值向量；

将任一用户词语的用户查询向量与其他用户词语的键向量相乘，得到用户词语对应的注意力分值；

将所述用户词语对应的注意力分值与用户词语对应的用户值向量进行相乘后再进行求和处理，得到用户文本特征向量。

进一步地，所述将所述用户文本特征向量输入序列标注模型中进行处理，得到实体特征数据，具体包括：

将所述用户文本特征向量从所述序列标注模型的输入口进行输入；

所述序列标注模型的处理层接收输入口传来的所述用户文本特征向量，对所述用户文本特征向量中每个字向量进行标签标注，得到对应的标签集；

根据所述标签集提取属于姓名标签和/或地址标签对应的字向量，并整理成对应的姓名特征和地址特征进行输出。

进一步地，所述分类模型为DPCNN模型时，所述将所述用户文本特征向量输入分类模型中进行处理，得到类别特征数据，具体包括：

将所述用户文本特征向量输入DPCNN第一层进行卷积处理，得到对应的特征图，将所述特征图作为所述用户文本特征向量的文本嵌入；

DPCNN第二层接收所述DPCNN第一层发来的文本嵌入，并对所述文本嵌入进行堆叠处理；

DPCNN第三层接收堆叠后的文本数据进行集中整合成一个整合向量，并对整合向量进行特征提取，提取性别特征和/或年龄特征进行输出。

进一步地，所述分类模型为Transformer模型时，所述将所述用户文本特征向量输入分类模型中进行处理，得到类别特征数据，具体包括：

对所述用户文本特征向量进行词嵌入，将词嵌入后的用户文本特征向量输入编码器和解码器中；

所述编码器对所述词嵌入后的用户文本特征向量进行编码处理，并对编码处理后的数据进行残差连接和归一化处理得到编码文本数据；

所述解码器对所述词嵌入后的用户文本特征向量进行解码处理，并对解码处理后的数据进行残差连接和归一化处理得到解码文本数据；

将所述编码文本数据和所述解码文本数据利用多头注意力机制进行处理，并对多头注意力机制处理后的数据进行残差连接和归一化处理得到输出数据；

将所述输出数据输入全连接层进行处理得到属于相应类别特征的概率；

将属于相应类别特征的概率输入逻辑回归层进行处理，将处理后属于性别特征和/或年龄特征进行输出。

进一步地，在所述将所述实体特征数据与所述类别特征数据进行结合，得到用户的基本属性特征之前，所述方法还包括：

纠正所述实体特征数据和/或所述类别特征数据中的错别字，以及清除所述实体特征数据和/或所述类别特征数据中的标点符号。

依据本申请的第二方面，提出了一种基于文本信息确定基本属性特征的装置，包括：

获取模块，用于通过网络获取用户的相关文本信息；

特征向量处理模块，用于将所述用户的相关文本信息输入语言识别模型中进行处理，得到用户文本特征向量，其中，预先利用多个样本文本信息对GPT2模型进行训练得到能够识别文本信息中的文本特征向量的所述语言识别模型；

实体特征处理模块，用于将所述用户文本特征向量输入序列标注模型中进行处理，得到实体特征数据，其中，预先构建能够识别文本特征向量中的实体特征的所述序列标注模型；

类别特征处理模块，用于将所述用户文本特征向量输入分类模型中进行处理，得到类别特征数据，其中，预先构建能够识别文本特征向量中的类别特征的所述分类模型；

结合模块，用于将所述实体特征数据与所述类别特征数据进行结合，得到用户的基本属性特征。

依据本申请的第三方面，提出了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法。

依据本申请的第四方面，提出了一种前端服务器设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

借由上述技术方案，本申请提供的一种基于文本信息确定基本属性特征的方法、装置及设备，能够从网络中获取的关于用户的相关文本信息，利用语言识别模型进行语言识别得到用户文本特征向量，再对用户文本特征向量利用序列标注模型进行处理得到实体特征数据，以及对用户文本特征向量利用分类模型进行分类处理得到类别特征数据，将实体特征数据与类别特征数据进行整合后即可得到对应的用户的基本属性特征。这样的处理分析过程，能够简化基本属性特征获取的步骤，提高时间利用率。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请的一个实施例的基于文本信息确定基本属性特征的方法的流程图；

图2为本申请的另一个实施例的基于文本信息确定基本属性特征的装置的结构框图；

图3为本申请的一个实施例的终端设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，本申请实施例提供了一种基于文本信息确定基本属性特征的方法，步骤包括：

步骤101，通过网络获取用户的相关文本信息。

其中，获取的用户的相关文本信息包括：wiki(维基)数据集、网络开源数据集等。

步骤102，将用户的相关文本信息输入语言识别模型中进行处理，得到用户文本特征向量，其中，预先利用多个样本文本信息对GPT2模型进行训练得到能够识别文本信息中的文本特征向量的语言识别模型。

其中，GPT2(Generative Pre-Training 2，生成性预训练-2)模型是用来对文本内容进行特征处理，转换成文本特征向量的模型。

步骤103，将用户文本特征向量输入序列标注模型中进行处理，得到实体特征数据，其中，预先构建能够识别文本特征向量中的实体特征的序列标注模型。

其中，序列标注模型包括下列至少之一：NER(命名实体识别)模型、LSTM(LongShort-TermMemory，长短期记忆)模型、CRF(conditional random field algorithm，条件随机场算法)模型、HMM(隐马尔可夫)模型、CNN(卷积神经网络)模型、BILSTM(Bi-directional Long Short-Term Memory，双向长短期记忆)模型。

经过序列标注模型处理后，能够得到对应的实体特征数据，包括姓名特征和地址特征。

步骤104，将用户文本特征向量输入分类模型中进行处理，得到类别特征数据，其中，预先构建能够识别文本特征向量中的类别特征的分类模型。

其中，分类模型可以神经网络模型，利用大量的文本样本数据对神经网络进行分类训练，每训练一个文本样本数据，对应输出各个词语的分类特征结果，并根据其实际分类结果对神经网络进行不断的纠正处理，使得神经网络的分类精度更高，分类结果更加准确。

经过分类模型的分类处理后，得到的类别特征数据包括：性别特征和年龄特征。

步骤105，将实体特征数据与类别特征数据进行结合，得到用户的基本属性特征。

其中，将步骤103得到的姓名特征和年龄特征，以及步骤104得到的性别特征和年龄特征，结合在一起，形成用户的基本属性特征，即，用户的姓名、地址、性别和年龄。

并将用户的这些特征进行输出展示，这样就可以根据用户的基本属性特征进行进一步地分析处理，例如，分析用户的购买规则、性格特点等。

通过上述方案，能够从网络中获取的关于用户的相关文本信息，利用语言识别模型进行语言识别得到用户文本特征向量，再对用户文本特征向量利用序列标注模型进行处理得到实体特征数据，以及对用户文本特征向量利用分类模型进行分类处理得到类别特征数据，将实体特征数据与类别特征数据进行整合后即可得到对应的用户的基本属性特征。这样的处理分析过程，能够简化基本属性特征获取的步骤，提高时间利用率。

在具体实施例中，在步骤102之前，方法还包括：

步骤A1，预先创建具有多个输入路径的GPT2模型。

其中，预先构建预定层数的GPT2模型，具体层数可根据实际需要进行选择，例如小号GPT2模型选用12层，中号GPT2模型选用24层，大号GPT2模型选用36层，特大号GPT2模型选用48层。

步骤A2，为每个输入路径创建查询向量、键向量和值向量。

其中，查询向量为展示了当前的单词，该单词会使用键给其他单词评分。键向量就像段中所有单词的标签，是搜索相关词汇时的匹配项。值向量是实际单词的体现，给每个单词的相关度评过分后，加起来的值就会用来表示当前的单词。

步骤A3，获取多个样本文本信息，为每个样本文本信息预先标记文本特征向量。

其中，样本文本信息可以通过网络获取，或者在文章中截取的一些描述个人信息的文本内容。预先按照正确的文本特征向量对每个样本文本信息进行标记，以供后续根据这些标记确定处理结果的正确性。

步骤A4，将样本文本信息通过输入路径进行输入，根据查询向量、键向量和值向量，为样本文本信息中的样本词语确定对应的样本查询向量、样本键向量和样本值向量。

其中，样本文本信息中的各个词语通过输入路径进行出入后，就会将查询向量、键向量和值向量为样本文本信息中的每个样本词语进行赋值。

步骤A5，将任一样本词语的样本查询向量与其他样本词语的键向量相乘，得到样本词语对应的注意力分值。

其中，对应的样本词语为多个。

步骤A6，将样本词语对应的注意力分值与样本词语对应的样本值向量进行相乘后再进行求和处理，得到样本文本特征向量。

步骤A7，将样本文本特征向量与预先标记的文本特征向量进行比对，若比对不一致，则对创建的查询向量、键向量和值向量进行调整使得样本文本特征向量与预先标记的文本特征向量一致，否则将下一个样本文本信息进行输入处理。

步骤A8，当所有样本文本信息全部处理完成之后得到的GPT2模型作为语言识别模型。

上述方案中，利用GPT2模型进行学习训练之后能够得到的语言识别模型。还可以利用多个带有向量标记的测试文本对语言识别模型进行测试，判断测试输出结果与对应的向量标记相符合的准确率，若该准确率小于预定概率阈值(例如98％)证明得到的语言识别模型的精度还不符合要求，则利用测试文本对该语言识别模型进行再次训练。并不断重复这个过程，直至得到的语言识别模型对应的测试准确率大于等于预定概率阈值。这样能够进一步地提高语言识别模型识别的准确性。

在具体实施例中，步骤102具体包括：

步骤1021，将用户的相关文本信息通过输入路径进行输入，根据查询向量、键向量和值向量，为用户的相关文本信息中的用户词语确定对应的用户查询向量、用户键向量和用户值向量。

步骤1022，将任一用户词语的用户查询向量与其他用户词语的键向量相乘，得到用户词语对应的注意力分值。

步骤1023，将用户词语对应的注意力分值与用户词语对应的用户值向量进行相乘后再进行求和处理，得到用户文本特征向量。

通过上述方案，利用GPT2模型经过训练后得到的语言识别模型对用户的相关文本信息进行处理，能够使得到的用户文本特征向量更加准确，这样在利用用户文本特征向量进行进一步处理时，能够得到更加精确的处理结果。

在具体实施例中，步骤103具体包括：

步骤1031，将用户文本特征向量从序列标注模型的输入口进行输入。

步骤1032，序列标注模型的处理层接收输入口传来的用户文本特征向量，对用户文本特征向量中每个字向量进行标签标注，得到对应的标签集。

步骤1033，根据标签集提取属于姓名标签和/或地址标签对应的字向量，并整理成对应的姓名特征和地址特征进行输出。

其中，对应的标签包括：BA代表这个汉字是地址首字，MA代表这个汉字是地址中间字，EA代表这个汉字是地址的尾字；BO代表这个汉字是机构名的首字，MO代表这个汉字是机构名称的中间字，EO代表这个汉字是机构名的尾字；BP代表这个汉字是人名首字，MP代表这个汉字是人名中间字，EP代表这个汉字是人名尾字，而O代表这个汉字不属于命名实体。用户文本特征向量为X＝{x1，x2，x3…xi…xn}，进行标签标注后得到的标签集为Y＝{y1，y2，y3…yi…yn}。

例如，针对一句文本信息“黑佛头村的王某某”，对应处理后得到的标签集为“黑/BA佛/MA头/MA村/EA的/O王/BP某/MO某/MO”。则对应得到的姓名特征为“王某某”地址特征为“黑佛头村”。进而将这两个特征输出。

通过上述方案，能够通过进行标签标注，能够将属于姓名标签或地址标签的实体特征内容提取出来，进而提高了实体特征的识别速率。

在具体实施例中，分类模型为DPCNN(Deep Pyramid Convolutional NeuralNetworks，堆叠卷积神经网络)模型时，步骤104具体包括：

步骤1041，将用户文本特征向量输入DPCNN第一层进行卷积处理，得到对应的特征图，将特征图作为用户文本特征向量的文本嵌入。

步骤1042，DPCNN第二层接收DPCNN第一层发来的文本嵌入，并对文本嵌入进行堆叠处理。

步骤1043，DPCNN第三层接收堆叠后的文本数据进行集中整合成一个整合向量，并对整合向量进行特征提取，提取性别特征和/或年龄特征进行输出。

其中，DPCNN模型具有金字塔的结构，使模型能够发现文本中的长程依赖关系，利用DPCNN模型对用户的文本特征向量按照上述步骤进行处理，这样能够保证提取的性别特征和年龄特征的准确性。

另外，对应的性别特征赋予两个取值分别为男和女，对应的年龄特征赋予2-90共89个取值。

在具体实施例中，分类模型为Transformer模型时，步骤104具体包括：

步骤1044，对用户文本特征向量进行词嵌入，将词嵌入后的用户文本特征向量输入编码器和解码器中。

步骤1045，编码器对词嵌入后的用户文本特征向量进行编码处理，并对编码处理后的数据进行残差连接和归一化处理得到编码文本数据。

步骤1046，解码器对词嵌入后的用户文本特征向量进行解码处理，并对解码处理后的数据进行残差连接和归一化处理得到解码文本数据。

步骤1047，将编码文本数据和解码文本数据利用多头注意力机制进行处理，并对多头注意力机制处理后的数据进行残差连接和归一化处理得到输出数据。

步骤1048，将输出数据输入全连接层进行处理得到属于相应类别特征的概率。

步骤1049，将属于相应类别特征的概率输入逻辑回归层进行处理，将处理后属于性别特征和/或年龄特征进行输出。

通过上述方案，利用Transformer模型对用户文本特征向量进行分类处理，使得分类处理速度更快，分类结果更加准确，使得得到的性别特征和/或年龄特征与实际情况更加贴合。

在具体实施例中，在将实体特征数据与类别特征数据进行结合，得到用户的基本属性特征之前，方法还包括：

纠正实体特征数据和/或类别特征数据中的错别字，以及清除实体特征数据和/或类别特征数据中的标点符号。

在上述方案中，为了保证输出结果的准确性，对具有明显的错误进行纠正，例如将性别“又”修正为“女”将输出的结果中的标点符号去除等。避免由于输出结果不准确造成后续用户分析结果出现错误。

针对得到的用户基本特征与其他的用户特征进行结合来对用户的喜好、社交等进行分析，进而为用户制定相应的精准营销策略。

具体为：

S1，为获取的至少一个用户的特征文本添加对应的标签值，其中，每个用户对应至少一个特征文本。

其中，用户的特征文本的类别包括：姓名、喜欢的颜色、职业、学历、学校、年龄、住址、兴趣爱好、性别、身高、体重等个人信息。每个类别的不同特征对应不同的标签值。各个不同特征对应的标签值的获取规则预先存储在标签值存储库中，直接调取对应类别的标签值添加规则为对应的特征文本添加合适的标签值。

例如，年龄类，对应的标签值添加规则为：0-10岁对应的标签值为1，11-18岁对应的标签值为2，19-45岁对应的标签值为3，46-65岁对应的标签值为4，65岁以上对应的标签值为5。

S2，为每个标签值匹配对应的标签权重。

S3，以用户作为行，标签权重作为列，构建标签矩阵集。

S4，根据标签矩阵集计算各个用户之间的相关系数，并根据相关系数确定用户之间的相关值，根据相关值构建相关网络矩阵。

S5，获取至少一个社交网络矩阵，将相关网络矩阵与至少一个社交网络矩阵进行结合构建多重相似性网络矩阵。

S6，接收活跃用户的信息，根据活跃用户的信息在多重相似性网络矩阵中进行标记，将活跃用户作为种子用户，并计算多重相似性网络矩阵中其他用户距离种子用户的路径距离。

S7，将路径距离小于等于设定阈值的其他用户作为目标用户，并获取目标用户的个人文本信息进行展示。

通过上述方案，能够为用户的各项特征添加对应的标签值，并匹配对应的标签权重，并根据用户之间的相关性构建相关网络矩阵，将相关网络矩阵与其他的社团网络矩阵进行结合组成多种相似性网络矩阵，这样就可以根据多重相似性网络矩阵，查找对应活跃用户作为种子用户的相关用户，证明向这些用户进行产品推销成功率相对较高，另外还可以根据构建的多重相似性网络矩阵中呈现的各个用户之间的相关性，挖掘个体用户的隐藏特性、个体用户之间的相似性和社交属性，能方便的输出人群聚类或基于种子用户扩展进行精准营销。

在具体实施例中，S1具体包括：

S11，利用标签预测模型或标签添加规则向特征文本中添加相应的标签。

在该步骤中，标签添加规则包括：基于关键词偏好，通过关键词匹配提取标签。标签添加规则还包括：基于结构化，对高频模板进行信息抽取。标签预测模型包括：使用分类、回归模型进行预测。标签预测模型或标签添加规则，两者缺一不可。在实际的应用中，标签预测模型难以解决的问题，利用简单的标签添加规则也可以达到很好的效果。

S12，从多个维度为特征文本的标签确定对应的标签值，其中多个维度包括：频次维度、利用tf-idf算法对标签进行统计计算后得到的标签重要性维度、数据不同粒度或特定行为维度。

在上述方案中，tf-idf算法为term frequency–inverse document frequency，是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

其中，频次维度，即为标签出现的次数、频率；标签重要性维度，即为将用户个人特征文本所有的标签值看做文档，特定标签看做词汇，计算tf-idf，可描绘该标签的重要性；数据不同粒度或特定行为维度：以零售为例，购买、收藏、关注等属于特定行为，不同时间窗口即为数据不同粒度。

通过上述方案，能够结合不同层次的信息，尽可能保证用户的特征文本的标签值确定的准确率和覆盖率。

在具体实施例中，S2具体包括：

S21，为每个标签值设置对应的基础权重值。

其中，可以根据特征文本的不同来源的准确性或重要性设置对应的基础权重值a。

S22，为每个标签值设定相应的时间衰减系数b。

S23，将基础权重值与时间衰减系数相乘a*b后，再进行归一化处理得到对应的标签权重。

通过上述方案，能够使得得到的标签权重更加符合用户的特征文本的特点，进而保证直接根据标签权重得到的标签矩阵集进行的运算能够更加准确。

在具体实施例中，在S3之后，具体包括：

S31，接收带有用户标记的特征反馈文本，根据用户标记查找特征反馈文本对应的用户的特征文本。

S32，比对特征反馈文本与特征文本是否相同，若不同，则根据特征反馈文本对应的标签值匹配对应的反馈标签权重，并利用反馈标签权重替代标签矩阵集中特征文本对应的标签权重，形成新的标签矩阵集，若相同，则不进行处理。

例如，用户A的标签tag1,tag2,tag3…的取值为1,2,3…；B的标签取值为2,3,4…标签矩阵集(也可称作用户画像)是以用户作为行，tag的取值作为列的矩阵。

在上述方案中，营销员在进行营销过程中，会对反馈相应用户的统计结果，根据反馈的结果按照上述步骤进行数据回流，对标签权重进行迭代拟合，从而调整对应的标签矩阵集，进而实现对标签矩阵集的监控和检测。

例如，反馈的是性别等数据，直接根据反馈的性别确定对应的标签值，进而确定相应的标签权重作为反馈标签权重，对标签矩阵集中对应的标签权重利用反馈标签权重进行替换。

又如，对于游戏付费人群一部分人的营销效果较好，一部分人的效果较差。可以看作分类任务，判断不同特征对于分类的重要性(如计算gini指数等)，根据重要性改变对应的基础权重值，从而调整对应的标签权重。

通过上述方案，能够根据后期营销的反馈结果，对标签矩阵集进行及时调整，保证标签矩阵集的准确性。

在具体实施例中，S4具体包括：

S41，利用皮尔森算法根据标签矩阵集计算各个用户之间的相关系数。

其中，皮尔森算法，即Pearson correlation coefficient，皮尔森相关系数，计算两个变量X，Y的相关系数的公式为：

其中，N为变量取值的个数。

皮尔森相关系数是用来衡量两个数据集合是否在一条线上面，它用来衡量定距变量间的线性关系，相关系数的绝对值越大，相关性越强：相关系数越接近于1或-1，相关度越强，相关系数越接近于0，相关度越弱。

S42，当相关系数大于等于设定相关阈值时，确定相关系数对应的两个用户之间具有连边，相关系数对应的两个用户之间的相关值为1，当相关系数小于设定相关阈值时，相关系数对应的两个用户之间的相关值为0。

S43，以各个用户作为相关网络矩阵的行和列，相关值作为相关网络矩阵的取值，构建相关网络矩阵。

例如用户1、2有连边，则网络矩阵M[1,2]＝1M[2,1]＝1(对称矩阵)

通过上述方案，能够直接根据相关网络矩阵获知各个用户之间的关联关系，方便根据其指定精准营销策略。

在具体实施例中，在S5之后，方法还包括：

S51，利用Louvain算法从多重相似性网络矩阵的各个网络矩阵中检测得到目标网络矩阵。

其中，Louvain算法为社区发现算法，一种基于模块度的图算法模型，该算法速度快，而针对点多边少的多重相似性网络矩阵，进行聚类效果相对明显。

利用Louvain算法对多重相似性网络矩阵进行社团检测，检测出来的目标网络矩阵作为新的节点进行处理。

S52，以目标网络矩阵作为网络节点，确定各个目标网络矩阵之间的网络相关系数，当网络相关系数大于等于设定网络相关阈值时，确定网络相关系数对应的两个目标网络矩阵之间具有连边，网络相关系数对应的两个目标网络矩阵之间的网络相关值为1，当网络相关系数小于设定相关阈值时，网络相关系数对应的两个目标网络矩阵之间的网络相关值为0。

S53，以各个目标网络矩阵作为新构网络矩阵的行和列，网络相关值作为新构网络矩阵的取值，构建新构网络矩阵。

S54，当对应得到多个新构网络矩阵时，再利用Louvain算法对多个新构网络矩阵进行检测，并利用检测出的目标新构网络矩阵重新构建上一层社团网络，以此迭代处理得到多层次的社团网络。

通过上述方案，能够得到多层次的社团网络，更加方便根据社团网络确定各个用户之间的关系以及喜好，进而更好的指定精准营销策略，方便使用。

在具体实施例中，在S54之后，方法还包括：

S55，计算多层次的社团网络中的待定社团网络的各类标签权重的数值平均值P1与多层次的社团网络中其他社团网络的各类标签权重的数值平均值P2。

S56，若其中一类标签权重或多类标签权重的P1大于P2，则利用其中一类标签权重或多类标签权重对应的标签类别对待定社团网络进行标记。

例如，待定社团网络A在金融类的标签权重的平均值较所有人的在金融类的标签权重的平均值明显高，可认为待定社团网络A是投资一族。可以对待定社团网络A进行投资方向的营销推广。

通过上述方案，能够根据标签权重的计算确定各个社团网络的人群聚类的特点，进而根据该特点对社团网络进行标记，这样便于对该社团网络中的用户进行有针对性的营销推广。

另外一个社团网络可以对应有多个标记，标记包括：热爱运动标记、喜欢投资标记、喜欢购物标记、喜欢宠物标记等。

基于图1所示实施例，提出了一种基于文本信息确定基本属性特征的装置，如图2所示，包括：

获取模块21，用于通过网络获取用户的相关文本信息。

特征向量处理模块22，用于将用户的相关文本信息输入语言识别模型中进行处理，得到用户文本特征向量，其中，预先利用多个样本文本信息对GPT2模型进行训练得到能够识别文本信息中的文本特征向量的语言识别模型。

实体特征处理模块23，用于将用户文本特征向量输入序列标注模型中进行处理，得到实体特征数据，其中，预先构建能够识别文本特征向量中的实体特征的序列标注模型。

类别特征处理模块24，用于将用户文本特征向量输入分类模型中进行处理，得到类别特征数据，其中，预先构建能够识别文本特征向量中的类别特征的分类模型。

结合模块25，用于将实体特征数据与类别特征数据进行结合，得到用户的基本属性特征。

在具体实施例中，装置还包括：模块构建模块，

模块构建模块具体包括：

创建单元，用于预先创建具有多个输入路径的GPT2模型；为每个输入路径创建查询向量、键向量和值向量。

获取单元，用于获取多个样本文本信息，为每个样本文本信息预先标记文本特征向量。

输入单元，用于将样本文本信息通过输入路径进行输入，根据查询向量、键向量和值向量，为样本文本信息中的样本词语确定对应的样本查询向量、样本键向量和样本值向量。

计算单元，用于将任一样本词语的样本查询向量与其他样本词语的键向量相乘，得到样本词语对应的注意力分值；将样本词语对应的注意力分值与样本词语对应的样本值向量进行相乘后再进行求和处理，得到样本文本特征向量。

比对单元，用于将样本文本特征向量与预先标记的文本特征向量进行比对，若比对不一致，则对创建的查询向量、键向量和值向量进行调整使得样本文本特征向量与预先标记的文本特征向量一致，否则将下一个样本文本信息进行输入处理。

模型确定单元，用于当所有样本文本信息全部处理完成之后得到的GPT2模型作为语言识别模型。

在具体实施例中，特征向量处理模块22具体包括：

向量确定单元，用于将用户的相关文本信息通过输入路径进行输入，根据查询向量、键向量和值向量，为用户的相关文本信息中的用户词语确定对应的用户查询向量、用户键向量和用户值向量。

注意力分值计算单元，用于将任一用户词语的用户查询向量与其他用户词语的键向量相乘，得到用户词语对应的注意力分值。

求和计算单元，用于将用户词语对应的注意力分值与用户词语对应的用户值向量进行相乘后再进行求和处理，得到用户文本特征向量。

在具体实施例中，实体特征处理模块23具体用于：将用户文本特征向量从序列标注模型的输入口进行输入；序列标注模型的处理层接收输入口传来的用户文本特征向量，对用户文本特征向量中每个字向量进行标签标注，得到对应的标签集；根据标签集提取属于姓名标签和/或地址标签对应的字向量，并整理成对应的姓名特征和地址特征进行输出。

在具体实施例中，分类模型为DPCNN模型时，类别特征处理模块24具体用于：

将用户文本特征向量输入DPCNN第一层进行卷积处理，得到对应的特征图，将特征图作为用户文本特征向量的文本嵌入；DPCNN第二层接收DPCNN第一层发来的文本嵌入，并对文本嵌入进行堆叠处理；DPCNN第三层接收堆叠后的文本数据进行集中整合成一个整合向量，并对整合向量进行特征提取，提取性别特征和/或年龄特征进行输出。

在具体实施例中，分类模型为Transformer模型时，类别特征处理模块24具体用于：

对用户文本特征向量进行词嵌入，将词嵌入后的用户文本特征向量输入编码器和解码器中；编码器对词嵌入后的用户文本特征向量进行编码处理，并对编码处理后的数据进行残差连接和归一化处理得到编码文本数据；解码器对词嵌入后的用户文本特征向量进行解码处理，并对解码处理后的数据进行残差连接和归一化处理得到解码文本数据；将编码文本数据和解码文本数据利用多头注意力机制进行处理，并对多头注意力机制处理后的数据进行残差连接和归一化处理得到输出数据；将输出数据输入全连接层进行处理得到属于相应类别特征的概率；将属于相应类别特征的概率输入逻辑回归层进行处理，将处理后属于性别特征和/或年龄特征进行输出。

在具体实施例中，装置还包括：

纠错模块，用于纠正实体特征数据和/或类别特征数据中的错别字，以及清除实体特征数据和/或类别特征数据中的标点符号。

基于上述图1所示***和图2所示方法的实施例，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图2所示的基于文本信息确定基本属性特征的方法。

基于上述图1所示***和图2所示方法的实施例，为了实现上述目的，本申请实施例还提供了一种终端设备，如图3所示，包括存储器32和处理器31，其中存储器32和处理器31均设置在总线33上存储器32存储有计算机程序，处理器31执行计算机程序时实现图2所示的基于文本信息确定基本属性特征的方法。

其中，存储介质中还可以包括操作***、网络通信模块。操作***是管理计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与计算机设备中其它硬件和软件之间通信。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储器(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

可选地，该设备还可以连接用户接口、网络接口、摄像头、射频(Radio Frequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。

通过应用本申请的技术方案，能够从网络中获取的关于用户的相关文本信息，利用语言识别模型进行语言识别得到用户文本特征向量，再对用户文本特征向量利用序列标注模型进行处理得到实体特征数据，以及对用户文本特征向量利用分类模型进行分类处理得到类别特征数据，将实体特征数据与类别特征数据进行整合后即可得到对应的用户的基本属性特征。这样的处理分析过程，能够简化基本属性特征获取的步骤，提高时间利用率。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种基于文本信息确定基本属性特征的方法，其特征在于，步骤包括：

通过网络获取用户的相关文本信息；

将所述实体特征数据与所述类别特征数据进行结合，得到用户的基本属性特征；

在所述将所述用户的相关文本信息输入语言识别模型中进行处理，得到用户文本特征向量之前，所述方法还包括：

预先创建具有多个输入路径的GPT2模型；

为每个输入路径创建查询向量、键向量和值向量；

2.根据权利要求1所述的方法，其特征在于，所述将所述用户的相关文本信息输入语言识别模型中进行处理，得到用户文本特征向量，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述用户文本特征向量输入序列标注模型中进行处理，得到实体特征数据，具体包括：

4.根据权利要求1所述的方法，其特征在于，所述分类模型为DPCNN模型时，所述将所述用户文本特征向量输入分类模型中进行处理，得到类别特征数据，具体包括：

5.根据权利要求1所述的方法，其特征在于，所述分类模型为Transformer模型时，所述将所述用户文本特征向量输入分类模型中进行处理，得到类别特征数据，具体包括：

6.根据权利要求1所述的方法，其特征在于，在所述将所述实体特征数据与所述类别特征数据进行结合，得到用户的基本属性特征之前，所述方法还包括：

7.一种基于文本信息确定基本属性特征的装置，其特征在于，包括：

获取模块，用于通过网络获取用户的相关文本信息；

结合模块，用于将所述实体特征数据与所述类别特征数据进行结合，得到用户的基本属性特征；

所述装置还包括模块构建模块，模块构建模块具体包括：

创建单元，用于预先创建具有多个输入路径的GPT2模型；为每个输入路径创建查询向量、键向量和值向量；

获取单元，用于获取多个样本文本信息，为每个样本文本信息预先标记文本特征向量；

输入单元，用于将样本文本信息通过输入路径进行输入，根据查询向量、键向量和值向量，为样本文本信息中的样本词语确定对应的样本查询向量、样本键向量和样本值向量；

计算单元，用于将任一样本词语的样本查询向量与其他样本词语的键向量相乘，得到样本词语对应的注意力分值；将样本词语对应的注意力分值与样本词语对应的样本值向量进行相乘后再进行求和处理，得到样本文本特征向量；

比对单元，用于将样本文本特征向量与预先标记的文本特征向量进行比对，若比对不一致，则对创建的查询向量、键向量和值向量进行调整使得样本文本特征向量与预先标记的文本特征向量一致，否则将下一个样本文本信息进行输入处理；

8.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-6所述的方法。

9.一种终端设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-6所述的方法。