CN114722810A - 一种基于信息抽取和多属性决策的房地产客户画像方法和*** - Google Patents

一种基于信息抽取和多属性决策的房地产客户画像方法和*** Download PDF

Info

Publication number
CN114722810A
CN114722810A CN202210276309.8A CN202210276309A CN114722810A CN 114722810 A CN114722810 A CN 114722810A CN 202210276309 A CN202210276309 A CN 202210276309A CN 114722810 A CN114722810 A CN 114722810A
Authority
CN
China
Prior art keywords
customer
client
information
attribute
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210276309.8A
Other languages
English (en)
Inventor
朱李楠
徐翼飞
许敏皓
朱柘潮
孔祥杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210276309.8A priority Critical patent/CN114722810A/zh
Publication of CN114722810A publication Critical patent/CN114722810A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于信息抽取的多属性决策的房地产客户画像方法,包括:1)数据收集:综合考量多种数据来源,经过筛选提取后,得到实验所需的客户人群的基本信息和印象文本数据;2)信息提取:应用关键短语提取模型,以客户的印象文本的词嵌入矩阵及文本对应的POS语义标记嵌入矩阵为输入提取关键信息并整合到客户基本信息中;3)属性权重分配:根据房地产行业对各客户人群的特征描述,针对各人群为各属性权重分配对应的权重;4)客户画像标识:从教育重视、扎根意愿、投资倾向等6个方面对客户进行描绘,并挑选其中分值较高的方面作为客户的标签。本发明还包括基于信息抽取和多属性决策的房地产客户画像***。

Description

一种基于信息抽取和多属性决策的房地产客户画像方法和 ***
技术领域
本发明涉及房地产客户画像方法和***。
背景技术
随着城镇化的不断发展与深入,大量涌入的人口极大提升了城市中各行各业 的生产效率,其中的经济效应和虹吸效应也为房地产行业带来了更多的从业者和 潜在客户。房地产行业是一个急需客户画像的领域。过去,房地产企业通常通过 大面积广告、问卷调查和电话采访等方式进行促销。但这些方法都存在投入大、 效果不明显等缺点。
近几年,随着信息技术革命的不断深入,信息化与数字化的浪潮席卷了各行 各业。大数据技术和自然语言处理技术的日益成熟,数据驱动的客户画像为解决 这一系列问题带来了可能。针对上述问题,客户画像通过收集海量用户信息来描 述用户的整体行为特征,可以帮助企业定位目标客户群,对有需求的客户进行个 性化精准营销。这样,企业和客户双方才能实现双赢。
客户画像基于用户在现实生活中的行为特征,从多个维度(如基本信息、特 征偏好、社交属性)抽象出标签,旨在尽可能全面地描述用户的整体行为特征。 简而言之,客户画像可以探索隐式异构关系并帮助提供可应用于许多领域的优质 服务。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于信息抽取和多属性决策的 房地产客户画像方法和***。
本发明运用了信息抽取中的关键短语抽取方法以及多属性决策分析等方法 对房地产行业客户进行画像。对客户人群的画像,可以让我们了解各人群的需求 与偏好,把握房地产营销中的问题与应对策略,进而为房地产行业的客户发展、 销售策略、精准营销等运营规划提供宝贵的参考,对精简行业运营环节、节省成 本具有重要的实际意义。
本发明是通过以下技术方案达到上述目的:一种基于信息抽取和多属性决 策的房地产客户画像方法,其特征在于包括如下步骤:
(1)从房地产领域各楼盘的客户数据中筛选包含客户基本信息的数据和对 客户本人进行描述的数据;
(2)以客户描述文本为输入,应用关键短语抽取模型提取文本语句中的关 键短语;
(3)联合步骤(2)中提取的短语,应用正则匹配模板匹配关键短语,进而 提取关键信息作为基本信息的填补及扩充;
(4)以行业内的专家知识为指导,以重教、扎根、聚巢等多个指标作为衡 量客户的标签,并为这些指标分别分配对应的各客户属性的正负相关系数;
(5)使用优化的熵值法,为客户的各属性计算权重;
(6)使用步骤(4)和(5)运算得到的多个客户分析指标,确定客户的购 买意愿。
其中,所述步骤(2)具体包括如下步骤:
21).将文本数据中的句子进行分词、命名实体识别以及语义标注,得到一个 形为d*s的单词矩阵Mw和一个d*s的语义标注矩阵Mp,其中d是文本总数目, s表示句子的最大长度。
22).将词矩阵Mw以及语义矩阵Mp分别通过GloVe模型向量化后逐位拼接, 得到一个d*s*e的向量化的文本表示矩阵X,其中e表示向量的维度,后续实验 中该值设置为124。
23).将关键短语提取任务看作序列标记任务,并使用“BIESOU”标记文本序 列,其中B、I、E分别表示关键短语的开头、主体、结尾词,S表示构成关键短 语的单个词,U表示处于关键短语内部的无用词,O表示其他词。
24).使用深度学习的方法,训练一个双向长短期记忆网络(Bi-LSTM)+条件 随机场(CRF)结构的神经网络作为关键短语提取的模型。
25).将文本表示矩阵X输入神经网络模型中,模型输出得到d*s的序列标记 矩阵L,最后通过解码算法提取出句子的若干关键短语。
其中,所述步骤(3)具体包括如下步骤:
31).对每个需要填补的字段,构建一个v*p的正则匹配得分矩阵Q,其中v 表示该字段的合法值的数目(包括空值),p表示为该字段设置的正则表达式的 数目。
32).对需要填补的字段,将p个正则表达式与步骤(2)中提取的关键短语 匹配,得到一个p维的由0和1构成的匹配向量Vpt
33).由正则匹配得分矩阵Q和匹配向量Vpt得到该字段的最终的匹配值Value, 随后将Value作为填补的候选值。具体计算公式如下:
Value=Values[Argmax(Vpt×Q)] (1)
其中,Values表示字段的合法值的列表,T表示矩阵转置操作。
其中,所述步骤(5)具体包括如下步骤:
51).将客户信息分为基本信息、家庭信息、资产情况和购买动机四类。
52).以步骤51)中的分类依据作为共现矩阵的窗口边界,应用GloVe嵌入模 型将客户信息向量化,得到m*g=k维的客户信息向量,其中m表示总字段数,g 表示单个向量的维度。
53).使用K平均聚类算法对客户信息向量进行聚类,随后利用熵值法计算各 个簇中的客户属性的权重,具体内容包括以下步骤:
531.计算整体客户信息的各个字段X的信息熵:
E(X)=-∑x∈Xp(x)logp(x) (2)
其中,X表示字段,x表示字段的合法值,p(x)表示值x在字段X中出现的频 度。
532.对于每一个簇c中的成员i,计算其对应客户信息中的字段j的权重:
Figure BDA0003555868400000031
其中,X,j表示整体数据的字段j,Xc,j表示聚类簇c中数据的字段j。
533.为防止属性权重在某些维度上过大从而影响结果,我们将得到的单个客 户的属性权重矩阵Wi作归一化处理:
Wi=Normalize(Wi) (4)
其中,所述步骤(6)具体包括如下步骤:
61).使用步骤(4)中得到的正负相关矩阵Matt,和步骤(5)中得到的客户属 性矩阵Wi计算得到客户在多个指标上的分布情况
Figure BDA0003555868400000032
其中T表示转置。
62).选取得分超过阈值k的指标作为该客户的标签。
63).对客户标签的得分组成进行分析,设标签j在Matt中对应为
Figure BDA0003555868400000033
则客 户i的标签j的得分组成Ci,j可由以下公式得到:
Figure BDA0003555868400000034
其中,Ci,j中的较高值往往预示对应属性可能是客户比较显著的特征。
本发明还包括一种基于信息抽取和多属性决策的房地产客户画像***,其特 征在于:包括以此连接的楼盘客户数据筛选模块、关键短语抽取模块、关键信息 抽取模块、客户指标模块、客户属性权重计算模块、客户购买意愿确定模块,其 中:
楼盘客户数据筛选模块,从房地产领域各楼盘的客户数据中筛选包含客户基 本信息的数据和对客户本人进行描述的数据;
关键短语抽取模块,以客户描述文本为输入,应用关键短语抽取模型提取文 本语句中的关键短语;
关键信息抽取模块,联合关键短语抽取模块提取的短语,应用正则匹配模板 匹配关键短语,进而提取关键信息作为基本信息的填补及扩充;
客户指标模块,以行业内的专家知识为指导,以重教、扎根、聚巢等多个指 标作为衡量客户的标签,并为这些指标分别分配对应的各客户属性的正负相关系 数;
客户属性权重计算模块,使用优化的熵值法,为客户的各属性计算权重;
客户购买意愿确定模块,使用客户指标模块和客户属性权重计算模块运算得 到的多个客户分析指标,确定客户的购买意愿。
本发明从教育重视、扎根意愿、投资倾向等6个方面对客户进行描绘,并挑 选其中分值较高的方面作为客户的标签。以国内某房地产公司客户为例进行的客 户画像实验表明,本发明对于处理类似问题具有出色表现。
本发明的创新之处在于:
(1)首次将数据驱动的客户画像应用到房地产领域中,并结合房地产领域 的专家知识,将客户的标签按照不同人群的特点分为了6类。
(2)提出了新的关键短语抽取模型,结合语义标注和向量化技术,使模型 在较少数据量的情况下能取得较好的关键短语抽取效果。
本发明的优点是:
(1)使用信息抽取技术自动提取房地产领域客户的关键信息,并将汇总、 处理后的信息以客户画像的形式呈现在***中,可以有效提升该领域从业人员的 信息处理效率。
(2)对房地产领域中的来访客户进行画像,可以使从业人员能更直观地了 解客户的需求、痛点等,进而可以更加精准投放广告或者电话回访。
附图说明
图1是本发明的整体流程图
图2是本发明所使用的数据处理流程图
图3是本发明中文本信息抽取部分的流通图
图4是本发明中客户属性的划分情况
图5是本发明中文本信息抽取部分的填充情况
图6是本发明中一个客户画像结果的实例
图7(a)~图7(j)是本发明进行画像后各标签人群的属性分布情况示意图, 其中图7(a)是各标签人群的年龄分布情况,图7(b)是各标签人群的户籍分 布情况,图7(c)是各标签人群的职业分布情况,图7(d)是各标签人群的家 庭人口分布情况,图7(e)是各标签人群的同居情况的分布,图7(f)是各标签 人群的项目关注的分布情况,图7(g)是各标签人群的置业目的分布情况,图7 (h)是各标签人群的置业原因的分布情况,图7(i)是各标签人群的现居住情 况的分布,图7(j)是各标签人群的预算分布情况。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将对本发明的具体 实施方式作进一步的详细描述。
本发明提供了一种基于信息抽取和多属性决策的房地产客户画像方法,方 法主要任务如图1所示,数据处理流程如图2所示,该方法包括:
(a)从浙江某市房地产公司的客户基本信息数据集中筛选基本信息;再从 客户描述文本中提取关键短语信息。
(b)使用语义标注和向量化技术将客户描述文本向量化后,经由基于Bi- LSTM+CRF的关键短语抽取模型抽取客户描述文本中的关键短语,具体包括如 下步骤:
b1).描述文本向量化:
将中文文本进行分词、语义标注后得到一组组词语和对应的一组组语义标 注,整体的词语和语义标注集合分别用T和E表示。设T词汇数为n,则对T 计算n*n的词汇共现矩阵Mt,其中
Figure BDA0003555868400000051
表示词汇i与j同时出现在同一个共现 窗口内的次数(i=1,2,3,…,n,j=1,2,3,…,n),共现窗口的大小一般设置为2或3。 同理,我们也对E计算m*m的语义标注共现矩阵Me,其中m为语义标注中可 能出现的标记的种类。最后,分别对词汇共现矩阵Mt和语义标注共现矩阵Me应 用GloVe词嵌入模型对词汇和语义标注进行向量化。
b2).关键短语提取:
首先利用“BIESOU”标签标记描述文本,其中“B”、“I”、“E”分别标记 关键短语的开头词、主体词和结尾词,“S”标记构成关键短语的单个词,“U” 标记处于关键短语中间的无关词,“O”标记其他词,构建一个大小为d的训练 集。随后,将训练集中的文本以及语义标签通过步骤b1)向量化后输入由Bi- LSTM+CRF构成的关键短语抽取模型中训练,模型的网络结构如图3中所示, 其主要过程可表示为:
X=[T:E] (7)
H=BiLSTM(X) (8)
H′=CRF(H) (9)
Y=σ(WkH′+bk) (10)
其中,[:]表示拼接操作,T和E分别表示词向量和语义向量。σ是一个激活 函数,Wk和bk为可训练的参数。Y表示模型输出的句子标记序列的概率分布。
最终,运用解码算法对Y进行解码得到句子的若干关键短语。
(c)将步骤(b)中得到的关键短语应用基于正则表达式集合的模板匹配 算法,提取客户的关键信息用作数据填充或扩展。具体包括如下步骤:
c1).为字段构建正则表达式集合:
首先确定字段中的包括空值在内的所有合法值。随后,基于这些合法值在 步骤(b)中关键短语中出现的情况,为它们构建若干对应的正则表达式,例如 在“孩子学业”字段,我们为合法值“上学”构建若干个对应的正则表达式。 如此,我们在某一字段为n个合法值构建了p个正则表达式。
c2).构建匹配得分矩阵:
根据步骤c1)中的n个合法值和p个正则表达式,我们构建一个n*p的关系 矩阵Q,其中Qi,j表示对于合法值i,在正则式j与关键短语匹配成功时的得分 情况,对于合法值i与正则式j,当它们相对应时Qi,j较大,反之当它们相矛盾 时Qi,j较小。
c3).匹配得到字段值
使用步骤c1)中的p个正则表达式匹配步骤(b)中得到的关键短语,得到 维度为p的0/1匹配向量Vpt,其中0表示匹配失败,1表示匹配成功。将Vpt与 步骤c1)中的关系矩阵Q作运算得到字段各合法值的匹配得分,我们取得分最 高的合法值作为该关键短语的最终匹配值Value:
Value=Values[Argmax(Vpt×QT)] (1)
(d)使用K均值聚类算法获得客户信息的聚类簇,并运用该结果进行属 性权重计算,具体过程如下:
d1).将属性分为四大类:基本信息、家庭情况、购买意愿、财务状况,如图 x所示。家庭情况旨在了解客户的家庭及其潜在需求;购买意向是指客户对 房子的偏好;财务状况旨在了解客户的购买能力。
d2).以步骤d1)中四类属性的边界为共现窗口,计算客户属性的共现矩阵, 并通过GloVe模型获得客户属性的特征表示B。具体来说,对于客户的每个属 性字段,根据其所在的属性类别,我们构建其特定的特征表示,然后将它们连 接起来作为客户整体属性的表示B。
d3).以步骤d2)中得到的客户属性表示B为向量,使用K均值聚类算法获得 客户信息的聚类簇。
d4).对于一个聚类簇c,计算该簇中成员对应的客户信息的各属性的权重。 具体来说,若客户i∈c则对于i有:Wi=Wc,其中Wi表示i的各属性权重,Wc可 由以下公式得到:
Figure BDA0003555868400000071
Wc=Normalize(Wc) (13)
其中,pglb(x)表示x在整体数据集上的频度,pc(x)表示x在聚类簇c中的频 度,j表示数据字段。
(e)运算得到的客户分析指标,确定客户的购买意愿
e1).将步骤(d)中得到的客户i的属性向量Wi与基于房地产领域专家经验构 建的n*m关系矩阵Matt一同计算得到客户各项指标的分布:
Figure BDA0003555868400000072
其中,n表示客户指标的数目,m表示客户属性的维度。
e2).选取得分超过阈值k的若干指标作为该客户的标签。对客户标签的得分 组成进行分析,设标签j在关系矩阵Matt中对应为
Figure BDA0003555868400000073
则客户i的标签j的得分组 成Ci,j可由以下公式得到:
Figure BDA0003555868400000074
其中,Ci,j∈Rm,且Ci,j中的较高值表示对应属性可作为客户比较显著的特征。
本发明还包括一种基于信息抽取和多属性决策的房地产客户画像***,包括 以此连接的楼盘客户数据筛选模块、关键短语抽取模块、关键信息抽取模块、客 户指标模块、客户属性权重计算模块、客户购买意愿确定模块,其中:
楼盘客户数据筛选模块,从房地产领域各楼盘的客户数据中筛选包含客户基 本信息的数据和对客户本人进行描述的数据;
关键短语抽取模块,以客户描述文本为输入,应用关键短语抽取模型提取文 本语句中的关键短语;
关键信息抽取模块,联合关键短语抽取模块提取的短语,应用正则匹配模板 匹配关键短语,进而提取关键信息作为基本信息的填补及扩充;
客户指标模块,以行业内的专家知识为指导,以重教、扎根、聚巢等多个指 标作为衡量客户的标签,并为这些指标分别分配对应的各客户属性的正负相关系 数;
客户属性权重计算模块,使用优化的熵值法,为客户的各属性计算权重;
客户购买意愿确定模块,使用客户指标模块和客户属性权重计算模块运算得 到的多个客户分析指标,确定客户的购买意愿。

Claims (6)

1.一种基于信息抽取和多属性决策的房地产客户画像方法,其特征在于:包括如下步骤:
(1)从房地产领域各楼盘的客户数据中筛选包含客户基本信息的数据和对客户本人进行描述的数据;
(2)以客户描述文本为输入,应用关键短语抽取模型提取文本语句中的关键短语;
(3)联合步骤(2)中提取的短语,应用正则匹配模板匹配关键短语,进而提取关键信息作为基本信息的填补及扩充;
(4)以行业内的专家知识为指导,以重教、扎根、聚巢等多个指标作为衡量客户的标签,并为这些指标分别分配对应的各客户属性的正负相关系数;
(5)使用优化的熵值法,为客户的各属性计算权重;
(6)使用步骤(4)和(5)运算得到的多个客户分析指标,确定客户的购买意愿。
2.根据权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法,其特征在于:所述步骤(2)具体包括如下步骤:
21).将文本数据中的句子进行分词、命名实体识别以及语义标注,得到一个形为d*s的单词矩阵Mw和一个d*s的语义标注矩阵Mp,其中d是文本总数目,s表示句子的最大长度。
22).将词矩阵Mw以及语义矩阵Mp分别通过GloVe模型向量化后逐位拼接,得到一个d*s*e的向量化的文本表示矩阵X,其中e表示向量的维度,后续实验中该值设置为124。
23).将关键短语提取任务看作序列标记任务,并使用“BIESOU”标记文本序列,其中B、I、E分别表示关键短语的开头、主体、结尾词,S表示构成关键短语的单个词,U表示处于关键短语内部的无用词,O表示其他词。
24).使用深度学习的方法,训练一个双向长短期记忆网络(Bi-LSTM)+条件随机场(CRF)结构的神经网络作为关键短语提取的模型。
25).将文本表示矩阵X输入神经网络模型中,模型输出得到d*s的序列标记矩阵L,最后通过解码算法提取出句子的若干关键短语。
3.根据权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法,其特征在于:所述步骤(3)具体包括如下步骤:
31).对每个需要填补的字段,构建一个v*p的正则匹配得分矩阵Q,其中v表示该字段的合法值的数目(包括空值),p表示为该字段设置的正则表达式的数目。
32).对需要填补的字段,将p个正则表达式与步骤(2)中提取的关键短语匹配,得到一个p维的由0和1构成的匹配向量Vpt
33).由正则匹配得分矩阵Q和匹配向量Vpt得到该字段的最终的匹配值Value,随后将Value作为填补的候选值。具体计算公式如下:
Value=Values[Argmax(Vpt×Q)] (1)
其中,Values表示字段的合法值的列表,T表示矩阵转置操作。
4.根据权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法,其特征在于:所述步骤(5)具体包括如下步骤:
51).将客户信息分为基本信息、家庭信息、资产情况和购买动机四类。
52).以步骤51)中的分类依据作为共现矩阵的窗口边界,应用GloVe嵌入模型将客户信息向量化,得到m*g=k维的客户信息向量,其中m表示总字段数,g表示单个向量的维度。
53).使用K平均聚类算法对客户信息向量进行聚类,随后利用熵值法计算各个簇中的客户属性的权重,具体内容包括以下步骤:
531.计算整体客户信息的各个字段X的信息熵:
E(X)=-∑x∈Xp(x)logp(x) (2)
其中,X表示字段,x表示字段的合法值,p(x)表示值x在字段X中出现的频度。
532.对于每一个簇c中的成员i,计算其对应客户信息中的字段j的权重:
Figure FDA0003555868390000021
其中,X,j表示整体数据的字段j,Xc,j表示聚类簇c中数据的字段j。
533.为防止属性权重在某些维度上过大从而影响结果,我们将得到的单个客户的属性权重矩阵Wi作归一化处理:
Wi=Normalize(Wi) (4) 。
5.根据权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法,其特征在于:所述步骤(6)具体包括如下步骤:
61).使用步骤(4)中得到的正负相关矩阵Matt,和步骤(5)中得到的客户属性矩阵Wi计算得到客户在多个指标上的分布情况
Figure FDA0003555868390000031
其中T表示转置。
62).选取得分超过阈值k的指标作为该客户的标签。
63).对客户标签的得分组成进行分析,设标签j在Matt中对应为
Figure FDA0003555868390000032
则客户i的标签j的得分组成Ci,j可由以下公式得到:
Figure FDA0003555868390000033
其中,Ci,j中的较高值往往预示对应属性可能是客户比较显著的特征。
6.实施权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法的***,其特征在于:包括以此连接的楼盘客户数据筛选模块、关键短语抽取模块、关键信息抽取模块、客户指标模块、客户属性权重计算模块、客户购买意愿确定模块,其中:
楼盘客户数据筛选模块,从房地产领域各楼盘的客户数据中筛选包含客户基本信息的数据和对客户本人进行描述的数据;
关键短语抽取模块,以客户描述文本为输入,应用关键短语抽取模型提取文本语句中的关键短语;
关键信息抽取模块,联合关键短语抽取模块提取的短语,应用正则匹配模板匹配关键短语,进而提取关键信息作为基本信息的填补及扩充;
客户指标模块,以行业内的专家知识为指导,以重教、扎根、聚巢等多个指标作为衡量客户的标签,并为这些指标分别分配对应的各客户属性的正负相关系数;
客户属性权重计算模块,使用优化的熵值法,为客户的各属性计算权重;
客户购买意愿确定模块,使用客户指标模块和客户属性权重计算模块运算得到的多个客户分析指标,确定客户的购买意愿。
CN202210276309.8A 2022-03-21 2022-03-21 一种基于信息抽取和多属性决策的房地产客户画像方法和*** Pending CN114722810A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210276309.8A CN114722810A (zh) 2022-03-21 2022-03-21 一种基于信息抽取和多属性决策的房地产客户画像方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210276309.8A CN114722810A (zh) 2022-03-21 2022-03-21 一种基于信息抽取和多属性决策的房地产客户画像方法和***

Publications (1)

Publication Number Publication Date
CN114722810A true CN114722810A (zh) 2022-07-08

Family

ID=82237223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210276309.8A Pending CN114722810A (zh) 2022-03-21 2022-03-21 一种基于信息抽取和多属性决策的房地产客户画像方法和***

Country Status (1)

Country Link
CN (1) CN114722810A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116934468A (zh) * 2023-09-15 2023-10-24 成都运荔枝科技有限公司 一种基于语义识别的授信客户分级方法
CN117035837A (zh) * 2023-10-09 2023-11-10 广东电力交易中心有限责任公司 一种电力用户购电需求预测及零售合同定制方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116934468A (zh) * 2023-09-15 2023-10-24 成都运荔枝科技有限公司 一种基于语义识别的授信客户分级方法
CN116934468B (zh) * 2023-09-15 2023-12-22 成都运荔枝科技有限公司 一种基于语义识别的授信客户分级方法
CN117035837A (zh) * 2023-10-09 2023-11-10 广东电力交易中心有限责任公司 一种电力用户购电需求预测及零售合同定制方法
CN117035837B (zh) * 2023-10-09 2024-01-19 广东电力交易中心有限责任公司 一种电力用户购电需求预测及零售合同定制方法

Similar Documents

Publication Publication Date Title
CN109493166B (zh) 一种针对电子商务导购场景任务型对话***的构建方法
CN111428053B (zh) 一种面向税务领域知识图谱的构建方法
US20230195773A1 (en) Text classification method, apparatus and computer-readable storage medium
CN110096575B (zh) 面向微博用户的心理画像方法
CN102314417A (zh) 基于统计模型的Web命名实体识别方法
CN107315738A (zh) 一种文本信息的创新度评估方法
CN114722810A (zh) 一种基于信息抽取和多属性决策的房地产客户画像方法和***
CN112070543B (zh) 一种电商网站中评论质量的检测方法
Huang et al. Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow
CN110175857B (zh) 优选业务确定方法及装置
CN115470871B (zh) 基于命名实体识别与关系抽取模型的政策匹配方法及***
CN115564393A (zh) 一种基于招聘需求相似度的职位推荐方法
CN116562265B (zh) 一种信息智能解析方法、***及存储介质
CN114266443A (zh) 数据评估方法和装置、电子设备、存储介质
CN116821372A (zh) 基于知识图谱的数据处理方法、装置、电子设备及介质
Li et al. Mining online reviews for ranking products: A novel method based on multiple classifiers and interval-valued intuitionistic fuzzy TOPSIS
CN112215629B (zh) 基于构造对抗样本的多目标广告生成***及其方法
CN111651606A (zh) 一种文本处理方法、装置及电子设备
CN117314593B (zh) 一种基于用户行为分析的保险项目推送方法及***
CN107609921A (zh) 一种数据处理方法及服务器
CN117391765A (zh) 一种药店会员群体画像构建方法
CN113821571A (zh) 基于bert和改进pcnn的食品安全关系抽取方法
CN112818215A (zh) 产品数据的处理方法、装置、设备及存储介质
Bochkaryov et al. Application of the ensemble clustering algorithm in solving the problem of segmentation of users taking into account their loyalty
Chen et al. Towards accurate search for e-commerce in steel industry: a knowledge-graph-based approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination