CN114722810A

CN114722810A - 一种基于信息抽取和多属性决策的房地产客户画像方法和***

Info

Publication number: CN114722810A
Application number: CN202210276309.8A
Authority: CN
Inventors: 朱李楠; 徐翼飞; 许敏皓; 朱柘潮; 孔祥杰
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-07-08

Abstract

一种基于信息抽取的多属性决策的房地产客户画像方法，包括：1)数据收集：综合考量多种数据来源，经过筛选提取后，得到实验所需的客户人群的基本信息和印象文本数据；2)信息提取：应用关键短语提取模型，以客户的印象文本的词嵌入矩阵及文本对应的POS语义标记嵌入矩阵为输入提取关键信息并整合到客户基本信息中；3)属性权重分配：根据房地产行业对各客户人群的特征描述，针对各人群为各属性权重分配对应的权重；4)客户画像标识：从教育重视、扎根意愿、投资倾向等6个方面对客户进行描绘，并挑选其中分值较高的方面作为客户的标签。本发明还包括基于信息抽取和多属性决策的房地产客户画像***。

Description

一种基于信息抽取和多属性决策的房地产客户画像方法和 ***

技术领域

本发明涉及房地产客户画像方法和***。

背景技术

随着城镇化的不断发展与深入，大量涌入的人口极大提升了城市中各行各业的生产效率，其中的经济效应和虹吸效应也为房地产行业带来了更多的从业者和潜在客户。房地产行业是一个急需客户画像的领域。过去，房地产企业通常通过大面积广告、问卷调查和电话采访等方式进行促销。但这些方法都存在投入大、效果不明显等缺点。

近几年，随着信息技术革命的不断深入，信息化与数字化的浪潮席卷了各行各业。大数据技术和自然语言处理技术的日益成熟，数据驱动的客户画像为解决这一系列问题带来了可能。针对上述问题，客户画像通过收集海量用户信息来描述用户的整体行为特征，可以帮助企业定位目标客户群，对有需求的客户进行个性化精准营销。这样，企业和客户双方才能实现双赢。

客户画像基于用户在现实生活中的行为特征，从多个维度(如基本信息、特征偏好、社交属性)抽象出标签，旨在尽可能全面地描述用户的整体行为特征。简而言之，客户画像可以探索隐式异构关系并帮助提供可应用于许多领域的优质服务。

发明内容

本发明要克服现有技术的上述缺点，提供一种基于信息抽取和多属性决策的房地产客户画像方法和***。

本发明运用了信息抽取中的关键短语抽取方法以及多属性决策分析等方法对房地产行业客户进行画像。对客户人群的画像，可以让我们了解各人群的需求与偏好，把握房地产营销中的问题与应对策略，进而为房地产行业的客户发展、销售策略、精准营销等运营规划提供宝贵的参考，对精简行业运营环节、节省成本具有重要的实际意义。

本发明是通过以下技术方案达到上述目的：一种基于信息抽取和多属性决策的房地产客户画像方法，其特征在于包括如下步骤：

(1)从房地产领域各楼盘的客户数据中筛选包含客户基本信息的数据和对客户本人进行描述的数据；

(2)以客户描述文本为输入，应用关键短语抽取模型提取文本语句中的关键短语；

(3)联合步骤(2)中提取的短语，应用正则匹配模板匹配关键短语，进而提取关键信息作为基本信息的填补及扩充；

(4)以行业内的专家知识为指导，以重教、扎根、聚巢等多个指标作为衡量客户的标签，并为这些指标分别分配对应的各客户属性的正负相关系数；

(5)使用优化的熵值法，为客户的各属性计算权重；

(6)使用步骤(4)和(5)运算得到的多个客户分析指标，确定客户的购买意愿。

其中，所述步骤(2)具体包括如下步骤：

21).将文本数据中的句子进行分词、命名实体识别以及语义标注，得到一个形为d*s的单词矩阵M_w和一个d*s的语义标注矩阵M_p，其中d是文本总数目， s表示句子的最大长度。

22).将词矩阵M_w以及语义矩阵M_p分别通过GloVe模型向量化后逐位拼接，得到一个d*s*e的向量化的文本表示矩阵X，其中e表示向量的维度，后续实验中该值设置为124。

23).将关键短语提取任务看作序列标记任务，并使用“BIESOU”标记文本序列，其中B、I、E分别表示关键短语的开头、主体、结尾词，S表示构成关键短语的单个词，U表示处于关键短语内部的无用词，O表示其他词。

24).使用深度学习的方法，训练一个双向长短期记忆网络(Bi-LSTM)+条件随机场(CRF)结构的神经网络作为关键短语提取的模型。

25).将文本表示矩阵X输入神经网络模型中，模型输出得到d*s的序列标记矩阵L，最后通过解码算法提取出句子的若干关键短语。

其中，所述步骤(3)具体包括如下步骤：

31).对每个需要填补的字段，构建一个v*p的正则匹配得分矩阵Q，其中v 表示该字段的合法值的数目(包括空值)，p表示为该字段设置的正则表达式的数目。

32).对需要填补的字段，将p个正则表达式与步骤(2)中提取的关键短语匹配，得到一个p维的由0和1构成的匹配向量V_pt。

33).由正则匹配得分矩阵Q和匹配向量V_pt得到该字段的最终的匹配值Value，随后将Value作为填补的候选值。具体计算公式如下：

Value＝Values[Argmax(V_pt×Q)] (1)

其中，Values表示字段的合法值的列表,T表示矩阵转置操作。

其中，所述步骤(5)具体包括如下步骤：

51).将客户信息分为基本信息、家庭信息、资产情况和购买动机四类。

52).以步骤51)中的分类依据作为共现矩阵的窗口边界，应用GloVe嵌入模型将客户信息向量化，得到m*g＝k维的客户信息向量，其中m表示总字段数，g 表示单个向量的维度。

53).使用K平均聚类算法对客户信息向量进行聚类，随后利用熵值法计算各个簇中的客户属性的权重，具体内容包括以下步骤：

531.计算整体客户信息的各个字段X的信息熵：

E(X)＝-∑_x∈Xp(x)logp(x) (2)

其中，X表示字段，x表示字段的合法值，p(x)表示值x在字段X中出现的频度。

532.对于每一个簇c中的成员i，计算其对应客户信息中的字段j的权重：

其中，X_,j表示整体数据的字段j，X_c,j表示聚类簇c中数据的字段j。

533.为防止属性权重在某些维度上过大从而影响结果，我们将得到的单个客户的属性权重矩阵W_i作归一化处理：

W_i＝Normalize(W_i) (4)

其中，所述步骤(6)具体包括如下步骤：

61).使用步骤(4)中得到的正负相关矩阵M_att，和步骤(5)中得到的客户属性矩阵W_i计算得到客户在多个指标上的分布情况

其中T表示转置。

62).选取得分超过阈值k的指标作为该客户的标签。

63).对客户标签的得分组成进行分析，设标签j在M_att中对应为

则客户i的标签j的得分组成C_i,j可由以下公式得到：

其中，C_i,j中的较高值往往预示对应属性可能是客户比较显著的特征。

本发明还包括一种基于信息抽取和多属性决策的房地产客户画像***，其特征在于：包括以此连接的楼盘客户数据筛选模块、关键短语抽取模块、关键信息抽取模块、客户指标模块、客户属性权重计算模块、客户购买意愿确定模块，其中：

楼盘客户数据筛选模块，从房地产领域各楼盘的客户数据中筛选包含客户基本信息的数据和对客户本人进行描述的数据；

关键短语抽取模块，以客户描述文本为输入，应用关键短语抽取模型提取文本语句中的关键短语；

关键信息抽取模块，联合关键短语抽取模块提取的短语，应用正则匹配模板匹配关键短语，进而提取关键信息作为基本信息的填补及扩充；

客户指标模块，以行业内的专家知识为指导，以重教、扎根、聚巢等多个指标作为衡量客户的标签，并为这些指标分别分配对应的各客户属性的正负相关系数；

客户属性权重计算模块，使用优化的熵值法，为客户的各属性计算权重；

客户购买意愿确定模块，使用客户指标模块和客户属性权重计算模块运算得到的多个客户分析指标，确定客户的购买意愿。

本发明从教育重视、扎根意愿、投资倾向等6个方面对客户进行描绘，并挑选其中分值较高的方面作为客户的标签。以国内某房地产公司客户为例进行的客户画像实验表明，本发明对于处理类似问题具有出色表现。

本发明的创新之处在于：

(1)首次将数据驱动的客户画像应用到房地产领域中，并结合房地产领域的专家知识，将客户的标签按照不同人群的特点分为了6类。

(2)提出了新的关键短语抽取模型，结合语义标注和向量化技术，使模型在较少数据量的情况下能取得较好的关键短语抽取效果。

本发明的优点是：

(1)使用信息抽取技术自动提取房地产领域客户的关键信息，并将汇总、处理后的信息以客户画像的形式呈现在***中，可以有效提升该领域从业人员的信息处理效率。

(2)对房地产领域中的来访客户进行画像，可以使从业人员能更直观地了解客户的需求、痛点等，进而可以更加精准投放广告或者电话回访。

附图说明

图1是本发明的整体流程图

图2是本发明所使用的数据处理流程图

图3是本发明中文本信息抽取部分的流通图

图4是本发明中客户属性的划分情况

图5是本发明中文本信息抽取部分的填充情况

图6是本发明中一个客户画像结果的实例

图7(a)～图7(j)是本发明进行画像后各标签人群的属性分布情况示意图，其中图7(a)是各标签人群的年龄分布情况，图7(b)是各标签人群的户籍分布情况，图7(c)是各标签人群的职业分布情况，图7(d)是各标签人群的家庭人口分布情况，图7(e)是各标签人群的同居情况的分布，图7(f)是各标签人群的项目关注的分布情况，图7(g)是各标签人群的置业目的分布情况，图7 (h)是各标签人群的置业原因的分布情况，图7(i)是各标签人群的现居住情况的分布，图7(j)是各标签人群的预算分布情况。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将对本发明的具体实施方式作进一步的详细描述。

本发明提供了一种基于信息抽取和多属性决策的房地产客户画像方法，方法主要任务如图1所示，数据处理流程如图2所示，该方法包括：

(a)从浙江某市房地产公司的客户基本信息数据集中筛选基本信息；再从客户描述文本中提取关键短语信息。

(b)使用语义标注和向量化技术将客户描述文本向量化后，经由基于Bi- LSTM+CRF的关键短语抽取模型抽取客户描述文本中的关键短语，具体包括如下步骤：

b1).描述文本向量化：

将中文文本进行分词、语义标注后得到一组组词语和对应的一组组语义标注，整体的词语和语义标注集合分别用T和E表示。设T词汇数为n，则对T 计算n*n的词汇共现矩阵M_t，其中

表示词汇i与j同时出现在同一个共现窗口内的次数(i＝1,2,3,…,n,j＝1,2,3,…,n)，共现窗口的大小一般设置为2或3。同理，我们也对E计算m*m的语义标注共现矩阵M_e，其中m为语义标注中可能出现的标记的种类。最后，分别对词汇共现矩阵M_t和语义标注共现矩阵M_e应用GloVe词嵌入模型对词汇和语义标注进行向量化。

b2).关键短语提取：

首先利用“BIESOU”标签标记描述文本，其中“B”、“I”、“E”分别标记关键短语的开头词、主体词和结尾词，“S”标记构成关键短语的单个词，“U” 标记处于关键短语中间的无关词，“O”标记其他词，构建一个大小为d的训练集。随后，将训练集中的文本以及语义标签通过步骤b1)向量化后输入由Bi- LSTM+CRF构成的关键短语抽取模型中训练，模型的网络结构如图3中所示，其主要过程可表示为：

X＝[T:E] (7)

H＝BiLSTM(X) (8)

H′＝CRF(H) (9)

Y＝σ(W_kH′+b_k) (10)

其中，[:]表示拼接操作，T和E分别表示词向量和语义向量。σ是一个激活函数，W_k和b_k为可训练的参数。Y表示模型输出的句子标记序列的概率分布。

最终，运用解码算法对Y进行解码得到句子的若干关键短语。

(c)将步骤(b)中得到的关键短语应用基于正则表达式集合的模板匹配算法，提取客户的关键信息用作数据填充或扩展。具体包括如下步骤：

c1).为字段构建正则表达式集合：

首先确定字段中的包括空值在内的所有合法值。随后，基于这些合法值在步骤(b)中关键短语中出现的情况，为它们构建若干对应的正则表达式，例如在“孩子学业”字段，我们为合法值“上学”构建若干个对应的正则表达式。如此，我们在某一字段为n个合法值构建了p个正则表达式。

c2).构建匹配得分矩阵：

根据步骤c1)中的n个合法值和p个正则表达式，我们构建一个n*p的关系矩阵Q，其中Q_i,j表示对于合法值i，在正则式j与关键短语匹配成功时的得分情况，对于合法值i与正则式j，当它们相对应时Q_i,j较大，反之当它们相矛盾时Q_i,j较小。

c3).匹配得到字段值

使用步骤c1)中的p个正则表达式匹配步骤(b)中得到的关键短语，得到维度为p的0/1匹配向量V_pt，其中0表示匹配失败，1表示匹配成功。将V_pt与步骤c1)中的关系矩阵Q作运算得到字段各合法值的匹配得分，我们取得分最高的合法值作为该关键短语的最终匹配值Value：

Value＝Values[Argmax(V_pt×Q^T)] (1)

(d)使用K均值聚类算法获得客户信息的聚类簇，并运用该结果进行属性权重计算，具体过程如下：

d1).将属性分为四大类：基本信息、家庭情况、购买意愿、财务状况，如图 x所示。家庭情况旨在了解客户的家庭及其潜在需求；购买意向是指客户对房子的偏好；财务状况旨在了解客户的购买能力。

d2).以步骤d1)中四类属性的边界为共现窗口，计算客户属性的共现矩阵，并通过GloVe模型获得客户属性的特征表示B。具体来说，对于客户的每个属性字段，根据其所在的属性类别，我们构建其特定的特征表示，然后将它们连接起来作为客户整体属性的表示B。

d3).以步骤d2)中得到的客户属性表示B为向量，使用K均值聚类算法获得客户信息的聚类簇。

d4).对于一个聚类簇c，计算该簇中成员对应的客户信息的各属性的权重。具体来说，若客户i∈c则对于i有：W_i＝W_c，其中W_i表示i的各属性权重，W_c可由以下公式得到：

W_c＝Normalize(W_c) (13)

其中，p_glb(x)表示x在整体数据集上的频度，p_c(x)表示x在聚类簇c中的频度，j表示数据字段。

(e)运算得到的客户分析指标，确定客户的购买意愿

e1).将步骤(d)中得到的客户i的属性向量W_i与基于房地产领域专家经验构建的n*m关系矩阵M_att一同计算得到客户各项指标的分布：

其中，n表示客户指标的数目，m表示客户属性的维度。

e2).选取得分超过阈值k的若干指标作为该客户的标签。对客户标签的得分组成进行分析，设标签j在关系矩阵M_att中对应为

则客户i的标签j的得分组成C_i,j可由以下公式得到：

其中，C_i,j∈R^m，且C_i,j中的较高值表示对应属性可作为客户比较显著的特征。

本发明还包括一种基于信息抽取和多属性决策的房地产客户画像***，包括以此连接的楼盘客户数据筛选模块、关键短语抽取模块、关键信息抽取模块、客户指标模块、客户属性权重计算模块、客户购买意愿确定模块，其中：

Claims

1.一种基于信息抽取和多属性决策的房地产客户画像方法，其特征在于：包括如下步骤：

(5)使用优化的熵值法，为客户的各属性计算权重；

2.根据权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法，其特征在于：所述步骤(2)具体包括如下步骤：

21).将文本数据中的句子进行分词、命名实体识别以及语义标注，得到一个形为d*s的单词矩阵M_w和一个d*s的语义标注矩阵M_p，其中d是文本总数目，s表示句子的最大长度。

3.根据权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法，其特征在于：所述步骤(3)具体包括如下步骤：

31).对每个需要填补的字段，构建一个v*p的正则匹配得分矩阵Q，其中v表示该字段的合法值的数目(包括空值)，p表示为该字段设置的正则表达式的数目。

Value＝Values[Argmax(V_pt×Q)] (1)

其中，Values表示字段的合法值的列表,T表示矩阵转置操作。

4.根据权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法，其特征在于：所述步骤(5)具体包括如下步骤：

52).以步骤51)中的分类依据作为共现矩阵的窗口边界，应用GloVe嵌入模型将客户信息向量化，得到m*g＝k维的客户信息向量，其中m表示总字段数，g表示单个向量的维度。

531.计算整体客户信息的各个字段X的信息熵：

E(X)＝-∑_x∈Xp(x)logp(x) (2)

W_i＝Normalize(W_i) (4) 。

5.根据权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法，其特征在于：所述步骤(6)具体包括如下步骤：

其中T表示转置。

62).选取得分超过阈值k的指标作为该客户的标签。

63).对客户标签的得分组成进行分析，设标签j在M_att中对应为

则客户i的标签j的得分组成C_i,j可由以下公式得到：

6.实施权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法的***，其特征在于：包括以此连接的楼盘客户数据筛选模块、关键短语抽取模块、关键信息抽取模块、客户指标模块、客户属性权重计算模块、客户购买意愿确定模块，其中：