CN109191158B - 用户画像标签数据的处理方法及处理设备 - Google Patents

用户画像标签数据的处理方法及处理设备 Download PDF

Info

Publication number
CN109191158B
CN109191158B CN201810688559.6A CN201810688559A CN109191158B CN 109191158 B CN109191158 B CN 109191158B CN 201810688559 A CN201810688559 A CN 201810688559A CN 109191158 B CN109191158 B CN 109191158B
Authority
CN
China
Prior art keywords
label
tag
combined
name
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810688559.6A
Other languages
English (en)
Other versions
CN109191158A (zh
Inventor
陈炳贵
邬向春
王国彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tubatu Group Co Ltd
Original Assignee
Tubatu Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tubatu Group Co Ltd filed Critical Tubatu Group Co Ltd
Priority to CN201810688559.6A priority Critical patent/CN109191158B/zh
Publication of CN109191158A publication Critical patent/CN109191158A/zh
Application granted granted Critical
Publication of CN109191158B publication Critical patent/CN109191158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用户画像标签数据的处理方法及处理设备,其中该处理方法包括:根据数据事实层记录的标签数据,在数据集市层生成标签目录表;其中,标签目录表记录有多个原始标签名称,以及每个原始标签名称对应的标签标识、主体属性和各级类目信息;在数据集市层构建标签成员表、标签公共字典表和成员标签关系表;其中,成员标签关系表记录有至少一个成员编号以及每个成员编号对应的标签取值标识;接收标签扩展需求;根据标签扩展需求、标签目录表、标签成员表、标签公共字典表和成员标签关系表,扩展标签目录表、标签公共字典表和成员标签关系表中的标签内容,能根据实际需求对标签数据进行扩展,从而对市场前端产品起到推动作用。

Description

用户画像标签数据的处理方法及处理设备
技术领域
本发明涉及数据处理领域,尤其涉及一种用户画像标签数据的处理方法及处理设备。
背景技术
在互联网逐渐步入大数据时代后,不可避免的为企业及消费者行为带来一系列改变与重塑,其中最大的变化莫过于,通过对消费者的行为进行分析,使消费者在企业面前变成一种可视化的对象。随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据为消费者提供精准营销服务,进而从中深入挖掘潜在的商业价值。以上这些可以通过“用户画像”的方法实现对用户的描述。
用户画像也叫用户信息标签,是企业通过收集与分析消费者的社会属性、生活习惯、消费行为等主要信息后,完美地抽象出一个用户的商业全貌。用户画像能够为企业提供足够的信息基础,以帮助企业快速找到精准用户群体和用户群体的需求。目前的用户画像数据包括年龄、性别和/或学历等基础属性,也包括表示用户的年收入、兴趣特征,如女装和/或服饰等的社会属性或行为属性。随着市场竞争性的增强,这些原始的标签属性难以满足市场需求,企业往往需要具有综合性的标签,例如高装修需求等标签名称,以快速为消费者提供精准营销服务,但目前的用户画像标签数据具有来源不一、信息量大、数据分散等特点,从而导致标签数据的处理速度慢,难以根据实际需求对标签数据进行扩展,无法对市场前端产品起到推动作用。
发明内容
本发明的主要目的在于提供一种用户画像标签数据的处理方法及处理设备,以解决标签数据的处理速度慢,难以根据实际需求对标签数据进行扩展,无法对市场前端产品起到推动作用的问题。
为实现上述目的,本发明提供了一种用户画像标签数据的处理方法,该处理方法包括:
根据数据事实层记录的标签数据,在数据集市层生成标签目录表;其中,标签目录表记录有多个原始标签名称,以及每个原始标签名称对应的标签标识、主体属性和各级类目信息;
在数据集市层构建标签成员表、标签公共字典表和成员标签关系表;其中,标签成员表记录有至少一个主体属性以及每个主体属性对应的成员编号,标签公共字典表记录有至少一个标签标识以及每个标签标识对应的标签取值和标签取值标识,成员标签关系表记录有至少一个成员编号以及每个成员编号对应的标签取值标识;
接收标签扩展需求;
根据标签扩展需求、标签目录表、标签成员表、标签公共字典表和成员标签关系表,扩展标签目录表、标签公共字典表和成员标签关系表中的标签内容。
其中,标签扩展需求包括需扩展的组合标签名称,以及组合标签名称对应的主体属性和标签组合规则,标签组合规则包括多个目标标签名称的组合关系,多个目标标签名称为多个原始标签名称中的至少部分;
根据标签扩展需求、标签目录表、标签成员表、标签公共字典表和成员标签关系表,扩展标签目录表、标签公共字典表和成员标签关系表中的标签内容的步骤,包括:
根据预设的组合标签标识的配置规则,为组合标签名称配置对应的组合标签标识;
根据组合标签名称和组合标签名称对应的主体属性和组合标签标识,扩展标签目录表中的标签内容;
根据多个目标标签名称和组合标签名称对应的组合标签标识,扩展标签公共字典表中的标签内容;
根据扩展后的标签公共字典表中的标签内容,扩展成员标签关系表中的标签内容。
其中,根据组合标签名称和组合标签名称对应的主体属性和组合标签标识,扩展标签目录表中的标签内容的步骤,包括:
在标签目录表中添加组合标签名称,以及组合标签名称对应的组合标签标识和主体属性。
其中,根据多个目标标签名称和组合标签名称对应的组合标签标识,扩展标签公共字典表中的标签内容的步骤,包括:
从标签目录表中获取每个目标标签名称对应的标签标识;
根据每个目标标签名称对应的标签标识,从标签公共字典表中获取每个目标标签名称对应的标签取值;
根据获取到的标签取值,获取组合标签标识对应的组合标签取值;
根据预设的组合标签取值标识的配置规则,为组合标签取值配置对应的组合标签取值标识;
在标签公共字典表中添加组合标签标识,以及组合标签标识对应的组合标签取值和组合标签取值标识。
其中,根据获取到的标签取值,获取组合标签标识对应的组合标签取值的步骤,包括:
根据标签扩展需求和多个目标标签名称,通过Jsoup表达式和正则表达式生成标签规则项;
判断获取到的多个目标标签名称对应的标签取值是否满足标签规则项;
在获取到的多个目标标签名称对应的标签取值满足标签规则项时,将第一预设值作为组合标签标识对应的组合标签取值;其中,第一预设值用于表征满足组合标签名称;
在获取到的多个目标标签名称对应的标签取值不满足标签规则项时,将第二预设值作为组合标签标识对应的组合标签取值;其中,第二预设值用于表征不满足组合标签名称。
其中,根据扩展后的标签公共字典表中的标签内容,扩展成员标签关系表中的标签内容的步骤,包括:
根据组合标签名称对应的主体属性和组合标签标识,从标签成员表中获取组合标签标识对应的成员编号;
根据组合标签标识对应的成员编号和组合标签取值标识,在成员标签关系表中添加组合标签取值标识,以及组合标签取值标识对应的成员编号。
其中,根据数据事实层记录的标签数据,在数据集市层生成标签目录表的步骤,包括:
提取出标签数据中的所有主体属性;
从标签数据中获取每个主体属性对应的原始标签名称;
根据预先存储的原始标签名称与至少一级类目信息的对应关系,分别确定出获取到的每个原始标签名称对应的至少一级类目信息;
根据预先存储的原始标签名称与标签标识的对应关系,分别确定出获取到的每个原始标签名称对应的标签标识;
建立提取到的主体属性、获取到的原始标签名称、获取到的每个原始标签名称对应的至少一级类目信息和标签标识之间的对应关系,获得标签目录表。
其中,在获得标签目录表的步骤之后,处理方法还包括:
分别针对标签目录表中的每个原始标签名称,根据原始标签名称对应的标签标识,在标签目录表中为原始标签名称对应的主体属性配置主体属性标识。
本发明还提供了一种用户画像标签数据的处理设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述的用户画像标签数据的处理方法的步骤。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述的用户画像标签数据的处理方法的步骤。
本发明的上述方案至少包括以下有益效果:
在本发明的实施例中,通过根据数据事实层记录的标签数据,在数据集市层生成标签目录表,并在数据集市层构建标签成员表、标签公共字典表和成员标签关系表,使得在接收到标签扩展需求时,能根据标签扩展需求、标签目录表、标签成员表、标签公共字典表和成员标签关系表,扩展标签目录表、标签公共字典表和成员标签关系表中的标签内容,进而使得标签数据中包括根据实际需求生成的具有综合性的标签,达到根据实际需求对标签数据进行扩展,对市场前端产品起到推动作用的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明第一实施例中用户画像标签数据的处理方法的流程图;
图2为本发明第一实施例中图1中步骤14的具体实现方式的步骤流程图;
图3为本发明第一实施例中图2中步骤23的具体实现方式的步骤流程图;
图4为本发明第一实施例中标签目录表的示意图;
图5为本发明第二实施例中用户画像标签数据的处理设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
第一实施例
如图1所示,本发明的具体实施例提供了一种用户画像标签数据的处理方法,该处理方法包括:
步骤11,根据数据事实层记录的标签数据,在数据集市层生成标签目录表。
其中,标签目录表记录有多个原始标签名称,以及每个原始标签名称对应的标签标识、主体属性和各级类目信息。
具体的,在本发明的具体实施例中,上述数据事实层中的标签数据(即用户画像标签数据)可以来自多个不同的标签数据采集平台,例如音乐播放平台、通信运营商平台等。其中,上述标签数据包括主体属性、基本属性、行为属性、使用习惯等数据内容,例如某个男性用户对应的年收入为XX万,拥有的房产为XX套;上述原始标签名称可以为年收入、房产等;上述标签标识为用于表征对应的原始标签名称的字符串(例如数值);上述主体属性可以为用户、项目、房屋等;上述类目信息为原始标签名称所属的类目,且每个原始标签名称对应至少一级类目信息,例如基础属性、行为属性等。
步骤12,在数据集市层构建标签成员表、标签公共字典表和成员标签关系表。
其中,标签成员表记录有至少一个主体属性以及每个主体属性对应的成员编号,标签公共字典表记录有至少一个标签标识以及每个标签标识对应的标签取值和标签取值标识,成员标签关系表记录有至少一个成员编号以及每个成员编号对应的标签取值标识。
具体的,上述成员编号与主体属性相对应,例如当主体属性为用户时,成员编号为用户身份标识号(ID);当主体属性为项目时,成员编号为项目ID;标签取值用于表征成员对应于标签取值对应的原始标签名称的结果值,例如标签名称为性别,标签取值可以为男或者女;标签取值标识为用于表征对应的标签取值的字符串(例如数值)。
其中,在本发明的具体实施例中,通过在数据集市层构建标签目录表、标签成员表、标签公共字典表和成员标签关系表,能便于后续根据数据集市层的这些数据生成用户画像,或者对标签数据进行扩展,例如增加具有综合性的标签,以满足市场实际需求,对市场前端产品起到推动作用。
步骤13,接收标签扩展需求。
其中,在本发明的具体实施例中,上述标签扩展需求用于指示用户需要的标签的内容(该内容可以为多个原始标签名称的组合),即表明具体需要何种标签,例如高装修需求标签(该标签可为性别、年收入、房产等原始标签名称的组合),从而便于快速向客户推荐精准的装修服务,提升客户体验,增强市场竞争能力。具体的,在本发明的具体实施例中,可通过数据应用层与用户交互,接收标签扩展需求。
步骤14,根据标签扩展需求、标签目录表、标签成员表、标签公共字典表和成员标签关系表,扩展标签目录表、标签公共字典表和成员标签关系表中的标签内容。
值得一提的是,在本发明的具体实施例中,由于用户画像数据库通过数据事实层记录标签数据,通过数据集市层记录标签目录表、标签成员表、标签公共字典表和成员标签关系表,同时通过数据应用层与用户交互,从而使得在接收到标签扩展需求时,能根据实际需求调用数据集市层的数据,快速生成的具有综合性的标签,达到根据实际需求对标签数据进行扩展,对市场前端产品起到推动作用的效果。
其中,在本发明的具体实施例中,上述标签扩展需求包括需扩展的组合标签名称,以及组合标签名称对应的主体属性和标签组合规则,标签组合规则包括多个目标标签名称的组合关系,多个目标标签名称为多个原始标签名称中的至少部分,组合标签名称即为具有综合性的标签名称。
相应的,如图2所示,上述步骤14的具体实现方式包括如下步骤:
步骤21,根据预设的组合标签标识的配置规则,为组合标签名称配置对应的组合标签标识。
其中,在本发明的具体实施例中,上述预设的组合标签标识的配置规则主要用于确保生成的组合标签标识与原始标签名称对应的标签标识存在区别,以区分原始标签名称和组合标签名称。具体的,上述预设的组合标签标识的配置规则可以为:组合标签标识由两部分字符串构成,第一部分用于表征组合标签名称对应的主体属性,第二部分用于表征组合标签名称的流水号。
步骤22,根据组合标签名称和组合标签名称对应的主体属性和组合标签标识,扩展标签目录表中的标签内容。
其中,在本发明的具体实施例中,上述步骤22的具体实现方式为:在标签目录表中添加组合标签名称,以及组合标签名称对应的组合标签标识和主体属性。即,在标签目录表中添加组合标签名称与该组合标签名称对应的组合标签标识和主体属性的对应关系,便于后续根据用户需求快速生成包括组合标签名称的用户画像,以对市场前端产品起到推动作用。
步骤23,根据多个目标标签名称和组合标签名称对应的组合标签标识,扩展标签公共字典表中的标签内容。
其中,在本发明的具体实施例中,标签公共字典表中记录的是标签标识以及每个标签标识对应的标签取值和标签取值标识,因此当标签目录表中添加了组合标签名称与该组合标签名称对应的组合标签标识后,标签公共字典表中需相应的添加组合标签标识、组合标签标识对应的组合标签取值和组合标签取值标识,以确保后续能根据用户需求快速生成包括组合标签名称的用户画像,以对市场前端产品起到推动作用。
步骤24,根据扩展后的标签公共字典表中的标签内容,扩展成员标签关系表中的标签内容。
其中,在本发明的具体实施例中,成员标签关系表中记录的是成员编号以及每个成员编号对应的标签取值标识,因此当标签公共字典表中添加了组合标签标识、组合标签标识对应的组合标签取值和组合标签取值标识之后,成员标签关系表中需添加组合标签取值标识以及组合标签取值标识对应的成员编号。
具体的,在本发明的具体实施例中,上述步骤24的具体实现方式包括如下步骤:首先根据组合标签名称对应的主体属性和组合标签标识,从标签成员表中获取组合标签标识对应的成员编号;然后根据组合标签标识对应的成员编号和组合标签取值标识,在成员标签关系表中添加组合标签取值标识,以及组合标签取值标识对应的成员编号。
其中,通过成员标签关系表中记录的标签内容,能确定哪些成员(例如用户、项目)具有对应的组合标签取值标识。
另外,在本发明的具体实施例中,如图3所示,上述步骤23的具体实现方式包括如下步骤:
步骤31,从标签目录表中获取每个目标标签名称对应的标签标识。
步骤32,根据每个目标标签名称对应的标签标识,从标签公共字典表中获取每个目标标签名称对应的标签取值。
其中,经过上述步骤31与步骤32,能确定每个目标标签名称对应的结果。
步骤33,根据获取到的标签取值,获取组合标签标识对应的组合标签取值。
其中,在获取到的每个目标标签名称对应的结果后,可根据这些结果确定出组合标签标识对应的组合标签取值。且在本发明的具体实施例中,上述步骤33的具体实现方式如下:
第一步,根据标签扩展需求和多个目标标签名称,通过Jsoup表达式和正则表达式生成标签规则项。
其中,Jsoup是一款Java的超文本标记语言(HTML)解析器,可直接解析某个统一资源定位符(URL,Uniform Resoure Locator)地址、HTML文本内容。它提供了一套非常省力的应用程序编程接口(API,Application Programming Interface),可通过文档对象模型(DOM,Document Object Model),层叠样式表(CSS,Cascading Style Sheets)以及类似于jQuery的操作方法来取出和操作数据。这里的Jsoup表达式是指符合该解析器的规则的表达式。正则表达式又称正规表示法、常规表示法。具体为使用单个字符串来描述、匹配一系列符合某个句法规则。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。具体的,在本发明的具体实施例中,根据标签扩展需求和多个目标标签名称,通过Jsoup表达式和正则表达式生成的标签规则项是符合标签扩展需求的,例如标签扩展需求指示需要高装修需求标签,那么生成的标签规则项可以为:性别为男,年收入过百万,房产超过三套。
第二步,判断获取到的多个目标标签名称对应的标签取值是否满足标签规则项,在获取到的多个目标标签名称对应的标签取值满足标签规则项时,将第一预设值作为组合标签标识对应的组合标签取值,在获取到的多个目标标签名称对应的标签取值不满足标签规则项时,将第二预设值作为组合标签标识对应的组合标签取值。其中,第一预设值用于表征满足组合标签名称;第二预设值用于表征不满足组合标签名称。例如当组合标签名为高装修需求时,第一预设值可以为“是”,表示满足高装修需求,第一预设值可以为“否”,表示不满足高装修需求。
步骤34,根据预设的组合标签取值标识的配置规则,为组合标签取值配置对应的组合标签取值标识。
其中,上述组合标签取值标识主要用于表征组合标签取值,以便在生成用户画像时,查找组合标签取值。具体的,上述预设的组合标签取值标识的配置规则可以为:组合标签取值标识由两部分字符串构成,第一部分用于表征组合标签名称对应的主体属性,第二部分用于表征组合标签取值的流水号。
步骤35,在标签公共字典表中添加组合标签标识,以及组合标签标识对应的组合标签取值和组合标签取值标识。
其中,在本发明的具体实施例中,通过在标签目录表、标签公共字典表和成员标签关系表中针对标签扩展需求添加标签内容,能使得后续在查询或生成具有组合标签名称的用户画像时,可快速、精准获得用户画像,以满足市场需求,对市场前端产品起到推动作用。
另外,在本发明的具体实施例中,上述步骤11的具体实现方式包括如下步骤:
步骤一,提取出标签数据中的所有主体属性。
其中,上述标签数据包括成员的基本属性、行为属性、使用习惯等数据内容,例如某个30岁的男性用户最近一次使用手机启动音乐播放器播放音乐的时间为上午10点20。
具体的,在本发明的具体实施例中,可根据预设的主体属性模型(例如用户、项目)提取出标签数据中的所有主体属性。即,通过比对标签数据中是否存在与预设的主体属性模型相匹配的数据内容,若存在,则将与预设的主体属性模型相匹配的数据内容作为一主体属性。且在本发明的具体实施例中,作为一个优选的示例,上述主体属性可包括标签类型名称,例如用户、项目等。
步骤二,从标签数据中获取每个主体属性对应的原始标签名称。
其中,在本发明的具体实施例中,对于某个主体属性,该主体属性可能对应多个原始标签名称。举例说明,假设上述主体属性为用户,对应的原始标签名称可以为最近一次使用设备型号、最近一次使用设备品牌厂商、最近一次使用操作***版本、最近一次使用手机网络运营商、性别、年收入、房产等。
步骤三,根据预先存储的原始标签名称与至少一级类目信息的对应关系,分别确定出获取到的每个原始标签名称对应的至少一级类目信息。
其中,在本发明的具体实施例中,预先存储的原始标签名称与至少一级类目信息的对应关系中,每个原始标签名称对应至少一级类目信息,例如原始标签名称为年收入,对应的类目信息包括:一级类目信息为基础属性,二级类目信息为行为属性;原始标签名称为装修类型,对应的类目信息包括:一级类目信息为消费特征,二级类目信息为装修特征。
步骤四,根据预先存储的原始标签名称与标签标识的对应关系,分别确定出获取到的每个原始标签名称对应的标签标识。
其中,在本发明的具体实施例中,预先存储有原始标签名称与标签标识的对应关系。例如原始标签名称为年收入,对应的标签标识为11301;原始标签名称为装修类型,对应的标签标识为32105。因此针对获取到的每个原始标签名称后,可以根据该对应关系,确定出获取到的原始标签名称对应的标签标识。
且在本发明的具体实施例中,上述原始标签名称对应的类目信息可包括类目名称和类目标识。具体的,可将原始标签名称对应的标签标识的第一位和第二位作为一级类目名称的类目标识(即一级类目标识),以此类推,若原始标签名称对应的类目名称有多级,可将原始标签名称对应的标签标识的第一位、第二位和第三位作为二级类目名称的类目标识(即二级类目标识),例如原始标签名称对应的标签标识为11301,该原始标签名称对应的一级类目名称的类目标识为11,该原始标签名称对应的二级类目名称的类目标识为113。
步骤五,建立提取到的主体属性、获取到的原始标签名称、获取到的每个原始标签名称对应的至少一级类目信息和标签标识之间的对应关系,获得标签目录表。
且在本发明的具体实施例中,在获得标签目录表的步骤之后,上述处理方法还包括如下步骤:分别针对标签目录表中的每个原始标签名称,根据原始标签名称对应的标签标识,在标签目录表中为原始标签名称对应的主体属性配置主体属性标识。
即,针对每个原始标签名称,均需根据该原始标签名称对应的标签标识,在标签目录表中为原始标签名称对应的主体属性配置主体属性标识,以便后续对标签目录表进行管理。具体的,可将原始标签名称对应的标签标识的第一位作为主体属性标识,例如原始标签名称对应的标签标识为11301,可将该原始标签名称对应的主体属性的主体属性标识配置为1。
举例来说,按照本发明的具体实施例提供的处理方法生成的标签目录表可以为如图4所示。从图4可以看出标签目录表清楚的记录了标签标识、主体属性标识、主体属性、各级类目标识、各级类目名称以及原始标签名称之间的对应关系,因此按照本发明的具体实施例提供的处理方法生成的标签目录表便于后续根据实际需求生成或更新用户画像,对市场前端产品起到推动作用。
可见,在本发明的具体实施例中,通过根据数据事实层记录的标签数据,在数据集市层生成标签目录表,并在数据集市层构建标签成员表、标签公共字典表和成员标签关系表,使得在接收到标签扩展需求时,能根据标签扩展需求、标签目录表、标签成员表、标签公共字典表和成员标签关系表,扩展标签目录表、标签公共字典表和成员标签关系表中的标签内容,进而使得标签数据中包括根据实际需求生成的具有综合性的标签,达到根据实际需求对标签数据进行扩展,对市场前端产品起到推动作用的效果。
第二实施例
如图5所示,本发明的具体实施例提供了一种用户画像标签数据的处理设备,包括存储器51、处理器52以及存储在存储器51中并可在处理器52上运行的计算机程序53,该处理器52执行计算机程序53时实现上述的用户画像标签数据的处理方法的步骤。
具体的,处理器52执行计算机程序53时实现如下步骤:根据数据事实层记录的标签数据,在数据集市层生成标签目录表;在数据集市层构建标签成员表、标签公共字典表和成员标签关系表;接收标签扩展需求;根据标签扩展需求、标签目录表、标签成员表、标签公共字典表和成员标签关系表,扩展标签目录表、标签公共字典表和成员标签关系表中的标签内容。其中,标签目录表记录有多个原始标签名称,以及每个原始标签名称对应的标签标识、主体属性和各级类目信息;标签成员表记录有至少一个主体属性以及每个主体属性对应的成员编号,标签公共字典表记录有至少一个标签标识以及每个标签标识对应的标签取值和标签取值标识,成员标签关系表记录有至少一个成员编号以及每个成员编号对应的标签取值标识。
可选的,标签扩展需求包括需扩展的组合标签名称,以及组合标签名称对应的主体属性和标签组合规则,标签组合规则包括多个目标标签名称的组合关系,多个目标标签名称为多个原始标签名称中的至少部分;处理器52执行计算机程序53时还实现如下步骤:根据预设的组合标签标识的配置规则,为组合标签名称配置对应的组合标签标识;根据组合标签名称和组合标签名称对应的主体属性和组合标签标识,扩展标签目录表中的标签内容;根据多个目标标签名称和组合标签名称对应的组合标签标识,扩展标签公共字典表中的标签内容;根据扩展后的标签公共字典表中的标签内容,扩展成员标签关系表中的标签内容。
可选的,处理器52执行计算机程序53时还实现如下步骤:在标签目录表中添加组合标签名称,以及组合标签名称对应的组合标签标识和主体属性。
可选的,处理器52执行计算机程序53时还实现如下步骤:从标签目录表中获取每个目标标签名称对应的标签标识;根据每个目标标签名称对应的标签标识,从标签公共字典表中获取每个目标标签名称对应的标签取值;根据获取到的标签取值,获取组合标签标识对应的组合标签取值;根据预设的组合标签取值标识的配置规则,为组合标签取值配置对应的组合标签取值标识;在标签公共字典表中添加组合标签标识,以及组合标签标识对应的组合标签取值和组合标签取值标识。
可选的,处理器52执行计算机程序53时还实现如下步骤:根据标签扩展需求和多个目标标签名称,通过Jsoup表达式和正则表达式生成标签规则项;判断获取到的多个目标标签名称对应的标签取值是否满足标签规则项;在获取到的多个目标标签名称对应的标签取值满足标签规则项时,将第一预设值作为组合标签标识对应的组合标签取值;其中,第一预设值用于表征满足组合标签名称;在获取到的多个目标标签名称对应的标签取值不满足标签规则项时,将第二预设值作为组合标签标识对应的组合标签取值;其中,第二预设值用于表征不满足组合标签名称。
可选的,处理器52执行计算机程序53时还实现如下步骤:根据组合标签名称对应的主体属性和组合标签标识,从标签成员表中获取组合标签标识对应的成员编号;根据组合标签标识对应的成员编号和组合标签取值标识,在成员标签关系表中添加组合标签取值标识,以及组合标签取值标识对应的成员编号。
可选的,处理器52执行计算机程序53时还实现如下步骤:提取出标签数据中的所有主体属性;从标签数据中获取每个主体属性对应的原始标签名称;根据预先存储的原始标签名称与至少一级类目信息的对应关系,分别确定出获取到的每个原始标签名称对应的至少一级类目信息;根据预先存储的原始标签名称与标签标识的对应关系,分别确定出获取到的每个原始标签名称对应的标签标识;建立提取到的主体属性、获取到的原始标签名称、获取到的每个原始标签名称对应的至少一级类目信息和标签标识之间的对应关系,获得标签目录表。
可选的,处理器52执行计算机程序53时还实现如下步骤:分别针对标签目录表中的每个原始标签名称,根据原始标签名称对应的标签标识,在标签目录表中为原始标签名称对应的主体属性配置主体属性标识。
即,用户画像标签数据的处理设备5的处理器52执行计算机程序53时实现上述的用户画像标签数据的处理方法的步骤,能根据实际需求生成的具有综合性的标签,达到根据实际需求对标签数据进行扩展,对市场前端产品起到推动作用的效果。
示例性的,上述用户画像标签数据的处理设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该用户画像标签数据的处理设备5可包括,但不仅限于处理器52、存储器51。本领域技术人员可以理解,所述示意图仅仅是用户画像标签数据的处理设备5的示例,并不构成对用户画像标签数据的处理设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如用户画像标签数据的处理设备5还可以包括输入输出设备、网络接入设备、总线等。
需要说明的是,由于用户画像标签数据的处理设备5的处理器52执行计算机程序53时实现上述的用户画像标签数据的处理方法的步骤,因此上述处理方法的所有实施例均适用于该用户画像标签数据的处理设备5,且均能达到相同或相似的有益效果。
第三实施例
本发明的具体实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述的用户画像标签数据的处理方法的步骤。
具体的,计算机程序被处理器执行时实现如下步骤:根据数据事实层记录的标签数据,在数据集市层生成标签目录表;在数据集市层构建标签成员表、标签公共字典表和成员标签关系表;接收标签扩展需求;根据标签扩展需求、标签目录表、标签成员表、标签公共字典表和成员标签关系表,扩展标签目录表、标签公共字典表和成员标签关系表中的标签内容。其中,标签目录表记录有多个原始标签名称,以及每个原始标签名称对应的标签标识、主体属性和各级类目信息;标签成员表记录有至少一个主体属性以及每个主体属性对应的成员编号,标签公共字典表记录有至少一个标签标识以及每个标签标识对应的标签取值和标签取值标识,成员标签关系表记录有至少一个成员编号以及每个成员编号对应的标签取值标识。
可选的,标签扩展需求包括需扩展的组合标签名称,以及组合标签名称对应的主体属性和标签组合规则,标签组合规则包括多个目标标签名称的组合关系,多个目标标签名称为多个原始标签名称中的至少部分;计算机程序被处理器执行时还实现如下步骤:根据预设的组合标签标识的配置规则,为组合标签名称配置对应的组合标签标识;根据组合标签名称和组合标签名称对应的主体属性和组合标签标识,扩展标签目录表中的标签内容;根据多个目标标签名称和组合标签名称对应的组合标签标识,扩展标签公共字典表中的标签内容;根据扩展后的标签公共字典表中的标签内容,扩展成员标签关系表中的标签内容。
可选的,计算机程序被处理器执行时还实现如下步骤:在标签目录表中添加组合标签名称,以及组合标签名称对应的组合标签标识和主体属性。
可选的,计算机程序被处理器执行时还实现如下步骤:从标签目录表中获取每个目标标签名称对应的标签标识;根据每个目标标签名称对应的标签标识,从标签公共字典表中获取每个目标标签名称对应的标签取值;根据获取到的标签取值,获取组合标签标识对应的组合标签取值;根据预设的组合标签取值标识的配置规则,为组合标签取值配置对应的组合标签取值标识;在标签公共字典表中添加组合标签标识,以及组合标签标识对应的组合标签取值和组合标签取值标识。
可选的,计算机程序被处理器执行时还实现如下步骤:根据标签扩展需求和多个目标标签名称,通过Jsoup表达式和正则表达式生成标签规则项;判断获取到的多个目标标签名称对应的标签取值是否满足标签规则项;在获取到的多个目标标签名称对应的标签取值满足标签规则项时,将第一预设值作为组合标签标识对应的组合标签取值;其中,第一预设值用于表征满足组合标签名称;在获取到的多个目标标签名称对应的标签取值不满足标签规则项时,将第二预设值作为组合标签标识对应的组合标签取值;其中,第二预设值用于表征不满足组合标签名称。
可选的,计算机程序被处理器执行时还实现如下步骤:根据组合标签名称对应的主体属性和组合标签标识,从标签成员表中获取组合标签标识对应的成员编号;根据组合标签标识对应的成员编号和组合标签取值标识,在成员标签关系表中添加组合标签取值标识,以及组合标签取值标识对应的成员编号。
可选的,计算机程序被处理器执行时还实现如下步骤:提取出标签数据中的所有主体属性;从标签数据中获取每个主体属性对应的原始标签名称;根据预先存储的原始标签名称与至少一级类目信息的对应关系,分别确定出获取到的每个原始标签名称对应的至少一级类目信息;根据预先存储的原始标签名称与标签标识的对应关系,分别确定出获取到的每个原始标签名称对应的标签标识;建立提取到的主体属性、获取到的原始标签名称、获取到的每个原始标签名称对应的至少一级类目信息和标签标识之间的对应关系,获得标签目录表。
可选的,计算机程序被处理器执行时还实现如下步骤:分别针对标签目录表中的每个原始标签名称,根据原始标签名称对应的标签标识,在标签目录表中为原始标签名称对应的主体属性配置主体属性标识。
即,计算机可读存储介质的计算机程序被处理器执行时实现上述的用户画像标签数据的处理方法的步骤,能根据实际需求生成的具有综合性的标签,达到根据实际需求对标签数据进行扩展,对市场前端产品起到推动作用的效果。
示例性的,计算机可读存储介质的计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,由于计算机可读存储介质的计算机程序被处理器执行时实现上述的用户画像标签数据的处理方法的步骤,因此上述处理方法的所有实施例均适用于该计算机可读存储介质,且均能达到相同或相似的有益效果。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种用户画像标签数据的处理方法,其特征在于,所述处理方法包括:
根据数据事实层记录的标签数据,在数据集市层生成标签目录表;其中,所述标签目录表记录有多个原始标签名称,以及每个原始标签名称对应的标签标识、主体属性和各级类目信息;
在所述数据集市层构建标签成员表、标签公共字典表和成员标签关系表;其中,所述标签成员表记录有至少一个主体属性以及每个主体属性对应的成员编号,所述标签公共字典表记录有至少一个标签标识以及每个标签标识对应的标签取值和标签取值标识,所述成员标签关系表记录有至少一个成员编号以及每个成员编号对应的标签取值标识;
接收标签扩展需求;
根据所述标签扩展需求、所述标签目录表、所述标签成员表、所述标签公共字典表和所述成员标签关系表,扩展所述标签目录表、所述标签公共字典表和所述成员标签关系表中的标签内容;
所述标签扩展需求包括需扩展的组合标签名称,以及所述组合标签名称对应的主体属性和标签组合规则,所述标签组合规则包括多个目标标签名称的组合关系,所述多个目标标签名称为所述多个原始标签名称中的至少部分;
所述根据所述标签扩展需求、所述标签目录表、所述标签成员表、所述标签公共字典表和所述成员标签关系表,扩展所述标签目录表、所述标签公共字典表和所述成员标签关系表中的标签内容的步骤,包括:
根据预设的组合标签标识的配置规则,为所述组合标签名称配置对应的组合标签标识;
根据所述组合标签名称和所述组合标签名称对应的主体属性和组合标签标识,扩展所述标签目录表中的标签内容;
根据所述多个目标标签名称和所述组合标签名称对应的组合标签标识,扩展所述标签公共字典表中的标签内容;
根据扩展后的标签公共字典表中的标签内容,扩展所述成员标签关系表中的标签内容。
2.根据权利要求1所述的处理方法,其特征在于,所述根据所述组合标签名称和所述组合标签名称对应的主体属性和组合标签标识,扩展所述标签目录表中的标签内容的步骤,包括:
在所述标签目录表中添加所述组合标签名称,以及所述组合标签名称对应的组合标签标识和主体属性。
3.根据权利要求1所述的处理方法,其特征在于,所述根据所述多个目标标签名称和所述组合标签名称对应的组合标签标识,扩展所述标签公共字典表中的标签内容的步骤,包括:
从所述标签目录表中获取每个目标标签名称对应的标签标识;
根据每个目标标签名称对应的标签标识,从所述标签公共字典表中获取每个目标标签名称对应的标签取值;
根据获取到的标签取值,获取所述组合标签标识对应的组合标签取值;
根据预设的组合标签取值标识的配置规则,为所述组合标签取值配置对应的组合标签取值标识;
在所述标签公共字典表中添加所述组合标签标识,以及所述组合标签标识对应的组合标签取值和组合标签取值标识。
4.根据权利要求3所述的处理方法,其特征在于,所述根据获取到的标签取值,获取所述组合标签标识对应的组合标签取值的步骤,包括:
根据标签扩展需求和所述多个目标标签名称,通过Jsoup表达式和正则表达式生成标签规则项;
判断获取到的多个目标标签名称对应的标签取值是否满足所述标签规则项;
在获取到的多个目标标签名称对应的标签取值满足所述标签规则项时,将第一预设值作为所述组合标签标识对应的组合标签取值;其中,所述第一预设值用于表征满足所述组合标签名称;
在获取到的多个目标标签名称对应的标签取值不满足所述标签规则项时,将第二预设值作为所述组合标签标识对应的组合标签取值;其中,所述第二预设值用于表征不满足所述组合标签名称。
5.根据权利要求3所述的处理方法,其特征在于,所述根据扩展后的标签公共字典表中的标签内容,扩展所述成员标签关系表中的标签内容的步骤,包括:
根据所述组合标签名称对应的主体属性和组合标签标识,从所述标签成员表中获取所述组合标签标识对应的成员编号;
根据所述组合标签标识对应的成员编号和组合标签取值标识,在所述成员标签关系表中添加所述组合标签取值标识,以及所述组合标签取值标识对应的成员编号。
6.根据权利要求1至5任一项所述的处理方法,其特征在于,所述根据数据事实层记录的标签数据,在数据集市层生成标签目录表的步骤,包括:
提取出所述标签数据中的所有主体属性;
从所述标签数据中获取每个所述主体属性对应的原始标签名称;
根据预先存储的原始标签名称与至少一级类目信息的对应关系,分别确定出获取到的每个原始标签名称对应的至少一级类目信息;
根据预先存储的原始标签名称与标签标识的对应关系,分别确定出获取到的每个原始标签名称对应的标签标识;
建立提取到的主体属性、获取到的原始标签名称、获取到的每个原始标签名称对应的至少一级类目信息和标签标识之间的对应关系,获得标签目录表。
7.根据权利要求6所述的处理方法,其特征在于,在所述获得标签目录表的步骤之后,所述处理方法还包括:
分别针对所述标签目录表中的每个原始标签名称,根据原始标签名称对应的标签标识,在所述标签目录表中为原始标签名称对应的主体属性配置主体属性标识。
8.一种用户画像标签数据的处理设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的用户画像标签数据的处理方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的用户画像标签数据的处理方法的步骤。
CN201810688559.6A 2018-06-28 2018-06-28 用户画像标签数据的处理方法及处理设备 Active CN109191158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810688559.6A CN109191158B (zh) 2018-06-28 2018-06-28 用户画像标签数据的处理方法及处理设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810688559.6A CN109191158B (zh) 2018-06-28 2018-06-28 用户画像标签数据的处理方法及处理设备

Publications (2)

Publication Number Publication Date
CN109191158A CN109191158A (zh) 2019-01-11
CN109191158B true CN109191158B (zh) 2022-06-10

Family

ID=64948615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810688559.6A Active CN109191158B (zh) 2018-06-28 2018-06-28 用户画像标签数据的处理方法及处理设备

Country Status (1)

Country Link
CN (1) CN109191158B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109961317A (zh) * 2019-02-20 2019-07-02 江苏瑞祥科技集团有限公司 一种用于客户拓展的一体化营销管理***
CN112084168B (zh) * 2019-06-14 2023-07-18 北京百度网讯科技有限公司 标签保存方法、装置及服务器
CN111090656B (zh) * 2020-03-23 2020-07-17 北京大数元科技发展有限公司 一种动态构建对象画像的方法及***
CN115345335B (zh) * 2022-08-23 2024-03-19 中国民航信息网络股份有限公司 一种民航开放旅客预订***中旅客姓名的处理方法及装置
CN115357767B (zh) * 2022-08-23 2023-12-19 晋商消费金融股份有限公司 一种用户标签画像方法和***
CN115563385B (zh) * 2022-10-12 2023-07-28 中电金信软件有限公司 一种组合标签的生成方法及生成装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018036156A1 (zh) * 2016-08-23 2018-03-01 平安科技(深圳)有限公司 用户信息视图构建方法、***、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778555A (zh) * 2014-01-21 2014-05-07 北京集奥聚合科技有限公司 基于用户标签的用户属性挖掘方法和***
CN104111994B (zh) * 2014-07-04 2017-08-01 北京思特奇信息技术股份有限公司 一种基于混合数据源的标签数据筛选方法及装置
CN106874266A (zh) * 2015-12-10 2017-06-20 中国电信股份有限公司 用户画像方法和用于用户画像的装置
CN106919625B (zh) * 2015-12-28 2021-04-09 ***通信集团公司 一种互联网用户属性识别方法和装置
US10733247B2 (en) * 2016-02-18 2020-08-04 Adobe Inc. Methods and systems for tag expansion by handling website object variations and automatic tag suggestions in dynamic tag management
CN106354519A (zh) * 2016-09-30 2017-01-25 乐视控股(北京)有限公司 一种用户画像的标签生成方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018036156A1 (zh) * 2016-08-23 2018-03-01 平安科技(深圳)有限公司 用户信息视图构建方法、***、设备及存储介质

Also Published As

Publication number Publication date
CN109191158A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN109191158B (zh) 用户画像标签数据的处理方法及处理设备
US11372935B2 (en) Automatically generating a website specific to an industry
CN109947788B (zh) 数据查询方法和装置
WO2019214336A1 (zh) 一种内容推送方法、装置及机器可读存储介质
CN107590174B (zh) 页面访问方法及装置
CN102053983B (zh) 一种垂直搜索的查询方法、***和装置
US7765236B2 (en) Extracting data content items using template matching
US20130066818A1 (en) Automatic Crowd Sourcing for Machine Learning in Information Extraction
JP2013531289A (ja) 検索におけるモデル情報群の使用
US20170109442A1 (en) Customizing a website string content specific to an industry
CN105550206A (zh) 结构化查询语句的版本控制方法及装置
JP2020098596A (ja) ウェブページから情報を抽出する方法、装置及び記憶媒体
CN113065018A (zh) 一种音视频的索引库创建和检索方法、装置及电子设备
CN109062970B (zh) 用户画像的生成方法、生成设备及计算机可读存储介质
CN108470289B (zh) 基于电商购物平台的虚拟物品发放方法及设备
CN113656737A (zh) 网页内容展示方法、装置、电子设备以及存储介质
CN108549722B (zh) 多平台数据发布方法、***及介质
CN107622125B (zh) 一种信息爬取方法和装置、电子设备
US9710538B2 (en) Processing device, processing method, program, and recording medium
US11275729B2 (en) Template search system and template search method
US9530094B2 (en) Jabba-type contextual tagger
CN110019562B (zh) 用户画像标签的配置管理方法及配置管理设备
CN110826313A (zh) 一种信息提取方法、电子设备及计算机可读存储介质
CN110727786A (zh) 自学习的知识库管理方法、装置、终端设备及存储介质
CN108874888A (zh) 一种资料搜寻方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 518000 R & D building 3501, block a, building 7, Vanke Cloud City Phase I, Xingke 1st Street, Xili community, Xili street, Nanshan, Shenzhen, Guangdong

Applicant after: Tubatu Group Co.,Ltd.

Address before: 1001-a, 10th floor, bike technology building, No.9, Keke Road, high tech Zone, Nanshan District, Shenzhen, Guangdong 518000

Applicant before: SHENZHEN BINCENT TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant