CN113901318A - 一种用户画像构建*** - Google Patents

一种用户画像构建*** Download PDF

Info

Publication number
CN113901318A
CN113901318A CN202111191345.6A CN202111191345A CN113901318A CN 113901318 A CN113901318 A CN 113901318A CN 202111191345 A CN202111191345 A CN 202111191345A CN 113901318 A CN113901318 A CN 113901318A
Authority
CN
China
Prior art keywords
data
user
word
database
construction system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111191345.6A
Other languages
English (en)
Inventor
王宏艳
张超英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202111191345.6A priority Critical patent/CN113901318A/zh
Publication of CN113901318A publication Critical patent/CN113901318A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用户画像构建***,包括:数据采集单元,从不同数据源当中采集数据,根据用户的ID建立用户集;数据处理单元,对数据集当中的用户数据进行处理,经过处理过后的数据保存至分词数据库当中;特征抽取单元,对分布存储在数据库当中的数据提取特征,并存储至特征数据库当中;语义转换单元,将特征数据库当中的语言词汇转换为计算机语言;用户画像生成,进行标签定义和模型特征构建,通过数据的关联和规则的定义构建整体的画像模型。本发明通过对用户集的可视化特征集,方便后续在制作不同维度的用户画像可获得更加精准的数据,同时通过隐藏特征集,进一步了解用户的隐藏需求,方便调整销售策略,实现了风险控制的精确化和科学化。

Description

一种用户画像构建***
技术领域
本发明涉及数据处理领域,特别涉及一种用户画像构建***。
背景技术
用户画像是用来勾画用户的背景、特征、性格、行为场景等内容,旨在从海量用户行为数据中“炼银挖金”,通过数据分析后获取的用户基本属性、购买能力、行为特征、社交网络、心理特征和兴趣爱好等方面的标签模型,贴近地抽象出一个或一类用户的信息全貌,从而帮助互联网企业解决将数据转化为商业价值的问题。
新零售是随着移动互联网的发展而产生的一种超越电子商务、移动商务、地产零售的全新业态,是以消费者体验为中心、数据驱动的泛零售形态,包含新零售、新电商、本地o20、泛娱乐、新媒体、新金融、新物流、新制造等范畴.。新零售最大的特点是线上线下融合、多场景多维度、技术和数据赋能、线上和线下相互导流和彼此叠加,带来全新的场景模式。当前应用于消费领域的用户画像***仍存在定位不准的情况,面对新零售用户数量的激增和信息的巨量增长,如何更好地在新零售时代为用户提供个性化的服务,使用户获得最佳用户体验,是一个急需解决的问题。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种用户画像构建***。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种用户画像构建***,包括:
数据采集单元,通过Thrift从不同数据源当中采集数据,根据用户的ID建立用户集;
数据处理单元,对数据集当中的用户数据进行处理,经过处理过后的数据保存至分词数据库当中;
特征抽取单元,对分布存储在数据库当中的数据提取特征,并存储至特征数据库当中,
语义转换单元,将特征数据库当中的语言词汇转换为计算机语言;
用户画像生成,进行标签定义和模型特征构建,通过数据的关联和规则的定义构建整体的画像模型。
作为本发明的一种优选技术方案,所述数据采集单元的数据源包括行业数据、用户总体数据、总体浏览数据、总体内容数据、用户属性数据、用户行为数据、用户成长数据、访问深度、问卷调研、用户访谈、用户参与度数据和用户点击数据,所述访问深度、问卷调研、用户访谈做为内部数据进行加密存储。
作为本发明的一种优选技术方案,所述用户集的数据分为可视化特征集和隐藏特征集,所述可视化特征集包括基础特征、网络特征和使用特征,所述隐藏特征集包括目的、偏好、需求、频次、场景、历史搜索词列表。
作为本发明的一种优选技术方案,所述数据处理单元包括:
数据清洗模块,对用户集当中的空词进行删除处理,同时检测分词数据库中的错误和不一致,排除和改正错误数据;
分词处理模块,对描述的文档进行划分;
自定义词模块,根据分类要求自行划分词类,同时采用XML的数据交换框架实现数据交换。
作为本发明的一种优选技术方案,所述分词处理模块中首先采用结巴分词,之后采用正则表达式和去停用词进行精准分词,所述自定义词当中模糊音词、近义词和联想词均概括为同一类。
作为本发明的一种优选技术方案,所述特征抽取单元采用TF-IDF算法从分词库当中选取出出现频率最高的词汇,
Figure BDA0003301227620000031
其中,TF(c,y):词c在分词库y当中的频率;
W:分词库当中的词类总数;
DF(c):包含词c的分词数。
作为本发明的一种优选技术方案,所述画像模型包括基本属性的画像、基于消费行为的画像、基于时间空间的画像、基于使用动机的画像、基于使用行为的画像。
与现有技术相比,本发明的有益效果如下:
本发明通过对用户集的可视化特征集,方便后续在制作不同维度的用户画像可获得更加精准的数据,同时通过隐藏特征集,进一步了解用户的隐藏需求,方便调整销售策略,实现了风险控制的精确化和科学化;同时特征数据可根据需求自行调整,提升了用户画像构建的准确性和效率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的***框架图;
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
如图1所示,本发明提供一种用户画像构建***,包括:
数据采集单元,通过Thrift从不同数据源当中采集数据,根据用户的ID建立用户集;
数据处理单元,对数据集当中的用户数据进行处理,经过处理过后的数据保存至分词数据库当中;
特征抽取单元,对分布存储在数据库当中的数据提取特征,并存储至特征数据库当中,
语义转换单元,将特征数据库当中的语言词汇转换为计算机语言;
用户画像生成,进行标签定义和模型特征构建,通过数据的关联和规则的定义构建整体的画像模型。
进一步的,数据采集单元的数据源包括行业数据、用户总体数据、总体浏览数据、总体内容数据、用户属性数据、用户行为数据、用户成长数据、访问深度、问卷调研、用户访谈、用户参与度数据和用户点击数据,访问深度、问卷调研、用户访谈做为内部数据进行加密存储。
用户集的数据分为可视化特征集和隐藏特征集,可视化特征集包括基础特征、网络特征和使用特征,隐藏特征集包括目的、偏好、需求、频次、场景、历史搜索词列表。
数据处理单元包括:
数据清洗模块,对用户集当中的空词进行删除处理,同时检测分词数据库中的错误和不一致,排除和改正错误数据;
分词处理模块,对描述的文档进行划分;
自定义词模块,根据分类要求自行划分词类,同时采用XML的数据交换框架实现数据交换。
分词处理模块中首先采用结巴分词,之后采用正则表达式和去停用词进行精准分词,自定义词当中模糊音词、近义词和联想词均概括为同一类。
特征抽取单元采用TF-IDF算法从分词库当中选取出出现频率最高的词汇,
Figure BDA0003301227620000041
其中,TF(c,y):词c在分词库y当中的频率;
W:分词库当中的词类总数;
DF(c):包含词c的分词数。
画像模型包括基本属性的画像、基于消费行为的画像、基于时间空间的画像、基于使用动机的画像、基于使用行为的画像。
具体的,第一步,由数据采集单元从行业数据、用户总体数据、总体浏览数据、总体内容数据、用户属性数据、用户行为数据、用户成长数据、访问深度、问卷调研、用户访谈、用户参与度数据和用户点击数据,访问深度、问卷调研、用户访谈做为内部数据进行加密存储采集相关数据,用户集当中每个用户对应不同ID,可视化特征集中基础特征包括年龄、性别、职业、地域;,网络特征包括上网时长、时间、影响因素,使用特征包括使用频次、时间、时长;隐藏特征集包括目的、偏好、需求、频次、场景、历史搜索词列表;第二步,通过数据处理单元对数据进行处理,数据进行清洗、分词、自定义词处理,例如:分词处理前:国际黄金走势,分词处理后:黄金,将分类的特征词存储至分词数据库当中;第三步,对各类分词数据库中词类进行特征提取,经过TF-IDF算法从中选取关键词作为特征;第四步,经过语义转换单元将特征文本转换为计算机语言;第五步,对每一个标签,在特征数据库中选择与该标签相关的用户特征,生成不同类型用户画像。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种用户画像构建***,其特征在于,包括:
数据采集单元,通过Thrift从不同数据源当中采集数据,根据用户的ID建立用户集;
数据处理单元,对数据集当中的用户数据进行处理,经过处理过后的数据保存至分词数据库当中;
特征抽取单元,对分布存储在数据库当中的数据提取特征,并存储至特征数据库当中;
语义转换单元,将特征数据库当中的语言词汇转换为计算机语言;
用户画像生成,进行标签定义和模型特征构建,通过数据的关联和规则的定义构建整体的画像模型。
2.根据权利要求1所述的一种用户画像构建***,其特征在于,所述数据采集单元的数据源包括行业数据、用户总体数据、总体浏览数据、总体内容数据、用户属性数据、用户行为数据、用户成长数据、访问深度、问卷调研、用户访谈、用户参与度数据和用户点击数据,所述访问深度、问卷调研、用户访谈做为内部数据进行加密存储。
3.根据权利要求2所述的一种用户画像构建***,其特征在于,所述用户集的数据分为可视化特征集和隐藏特征集,所述可视化特征集包括基础特征、网络特征和使用特征,所述隐藏特征集包括目的、偏好、需求、频次、场景、历史搜索词列表。
4.根据权利要求1所述的一种用户画像构建***,其特征在于,所述数据处理单元包括:
数据清洗模块,对用户集当中的空词进行删除处理,同时检测分词数据库中的错误和不一致,排除和改正错误数据;
分词处理模块,对描述的文档进行划分;
自定义词模块,根据分类要求自行划分词类,同时采用XML的数据交换框架实现数据交换。
5.根据权利要求4所述的一种用户画像构建***,其特征在于,所述分词处理模块中首先采用结巴分词,之后采用正则表达式和去停用词进行精准分词,所述自定义词当中模糊音词、近义词和联想词均概括为同一类。
6.根据权利要求1所述的一种用户画像构建***,其特征在于,所述特征抽取单元采用TF-IDF算法从分词库当中选取出出现频率最高的词汇,
Figure FDA0003301227610000021
其中,TF(c,y):词c在分词库y当中的频率;
W:分词库当中的词类总数;
DF(c):包含词c的分词数。
7.根据权利要求1所述的一种用户画像构建***,其特征在于,所述画像模型包括基本属性的画像、基于消费行为的画像、基于时间空间的画像、基于使用动机的画像、基于使用行为的画像。
CN202111191345.6A 2021-10-13 2021-10-13 一种用户画像构建*** Pending CN113901318A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111191345.6A CN113901318A (zh) 2021-10-13 2021-10-13 一种用户画像构建***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111191345.6A CN113901318A (zh) 2021-10-13 2021-10-13 一种用户画像构建***

Publications (1)

Publication Number Publication Date
CN113901318A true CN113901318A (zh) 2022-01-07

Family

ID=79191772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111191345.6A Pending CN113901318A (zh) 2021-10-13 2021-10-13 一种用户画像构建***

Country Status (1)

Country Link
CN (1) CN113901318A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114048283A (zh) * 2022-01-11 2022-02-15 北京仁科互动网络技术有限公司 用户画像生成方法、装置、电子设备及存储介质
CN116821287A (zh) * 2023-08-28 2023-09-29 湖南创星科技股份有限公司 基于知识图谱和大语言模型的用户心理画像***及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578292A (zh) * 2017-09-19 2018-01-12 上海财经大学 一种用户画像构建***
CN111597330A (zh) * 2019-02-21 2020-08-28 中国科学院信息工程研究所 一种基于支持向量机的面向智能专家推荐的用户画像方法
CN112990973A (zh) * 2021-03-22 2021-06-18 山东顺能网络科技有限公司 线上店铺画像构建方法及***
CN113032556A (zh) * 2019-12-25 2021-06-25 厦门铠甲网络股份有限公司 一种基于自然语言处理形成用户画像的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578292A (zh) * 2017-09-19 2018-01-12 上海财经大学 一种用户画像构建***
CN111597330A (zh) * 2019-02-21 2020-08-28 中国科学院信息工程研究所 一种基于支持向量机的面向智能专家推荐的用户画像方法
CN113032556A (zh) * 2019-12-25 2021-06-25 厦门铠甲网络股份有限公司 一种基于自然语言处理形成用户画像的方法
CN112990973A (zh) * 2021-03-22 2021-06-18 山东顺能网络科技有限公司 线上店铺画像构建方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王英: "高校科研用户画像特征分析及案例研究", 《图书馆理论与实践》, no. 4, 31 August 2020 (2020-08-31), pages 2 - 3 *
许鹏程: "数据驱动下数字图书馆用户画像模型构建", 《图书情报工作》, vol. 63, no. 3, 31 March 2019 (2019-03-31), pages 2 - 3 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114048283A (zh) * 2022-01-11 2022-02-15 北京仁科互动网络技术有限公司 用户画像生成方法、装置、电子设备及存储介质
CN116821287A (zh) * 2023-08-28 2023-09-29 湖南创星科技股份有限公司 基于知识图谱和大语言模型的用户心理画像***及方法
CN116821287B (zh) * 2023-08-28 2023-11-17 湖南创星科技股份有限公司 基于知识图谱和大语言模型的用户心理画像***及方法

Similar Documents

Publication Publication Date Title
CN109359244B (zh) 一种个性化信息推荐方法和装置
CN107705066B (zh) 一种商品入库时信息录入方法及电子设备
US8380727B2 (en) Information processing device and method, program, and recording medium
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN110728541A (zh) 信息流媒体广告创意推荐方法及装置
WO2015148422A1 (en) Recommendation system with dual collaborative filter usage matrix
CN107291840B (zh) 一种用户属性预测模型构建方法和装置
CN107357793A (zh) 信息推荐方法和装置
CN113901318A (zh) 一种用户画像构建***
CN112231569A (zh) 新闻推荐方法、装置、计算机设备及存储介质
CN110633398A (zh) 中心词的确认方法、搜索方法、装置和存储介质
US20220414741A1 (en) Systems and methods for managing a personalized online experience
CN111460267B (zh) 对象识别方法、装置和***
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN112990973A (zh) 线上店铺画像构建方法及***
CN105701182A (zh) 信息推送方法和装置
CN115147130A (zh) 问题预测方法、设备、存储介质及程序产品
CN116127013A (zh) 一种个人敏感信息知识图谱查询方法和装置
CN110795613A (zh) 商品搜索方法、装置、***及电子设备
CN108470289B (zh) 基于电商购物平台的虚拟物品发放方法及设备
CN114912011A (zh) 一种基于内容提取与评分预测的视频推荐方法
CN117420998A (zh) 一种客户端ui交互组件生成方法、装置、终端及介质
CN116756281A (zh) 知识问答方法、装置、设备和介质
Al-Saffar et al. Survey on Implicit Feedbacks Extraction based on Yelp Dataset using Collaborative Filtering
CN116484872A (zh) 基于预训练与注意力的多模态方面级情感判断方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination