CN112446744B - 基于工业产品供需平台构建企业画像的方法、***及介质 - Google Patents
基于工业产品供需平台构建企业画像的方法、***及介质 Download PDFInfo
- Publication number
- CN112446744B CN112446744B CN202011474410.1A CN202011474410A CN112446744B CN 112446744 B CN112446744 B CN 112446744B CN 202011474410 A CN202011474410 A CN 202011474410A CN 112446744 B CN112446744 B CN 112446744B
- Authority
- CN
- China
- Prior art keywords
- data
- enterprise
- attribute
- data set
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Finance (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及企业画像技术领域,公开一种基于工业产品供需平台构建企业画像的方法,包括:获取数据,对获取的数据进行预处理后得到第一数据集并存储在关系型数据库中;调用所述关系型数据库,对数据进行二次处理得到第二数据集,利用专家规则和统计学方法从所述第二数据集中提取核心特征数据,根据所述核心特征数据初步建立第一企业画像标签;利用半监督方法建立标签预测模型,对企业经营状况进行预测获得企业经营状况标签;根据所述第一企业画像标签和企业经营状况标签,生成企业画像。本发明通过数据整合和基于半监督模型对企业数据进行深层次数据挖掘进而建立完善的企业画像,为工业产品供需平台的业务建设提供决策支撑。
Description
技术领域
本发明属于企业画像技术领域,具体涉及一种基于工业产品供需平台构建企业画像的方法、***及介质。
背景技术
近年来,随着工业互联网的发展,用户画像逐渐被应用到工业上来为用户服务。用户画像作为一种快速、精准分析用户行为模式、***台的应用中,需要对企业进行精准画像,才能为用户进行精准化的信息推荐。
现有技术中,工业产品供需平台的应用需要个人用户注册、关联企业的用户模式,企业用户的性质十分复杂;此外,工业供需平台的推荐***效果受限于企业用户的经营状况、企业所在行业的整体市场环境以及企业商品情况等众多因素,数据结构复杂、涉及的内容繁多,现有的企业画像方法形式较为单一,无法进行深层的数据挖掘,进而无法为用户提供有价值的智能信息推荐。
发明内容
本发明的目的在于提供一种基于工业产品供需平台构建企业画像的方法、***及介质,用以解决现有技术中的企业画像方法形式较为单一,无法进行深层的数据挖掘的技术问题。
为了实现上述目的,本发明采用以下的技术方案:
一种基于工业产品供需平台构建企业画像的方法,所述方法包括:
步骤1:从所述工业产品供需平台和第三方平台获取待画像企业的用户属性数据、用户行为数据、商品数据和企业工商数据,对获取的数据进行预处理后得到第一数据集,并将所述第一数据集存储在关系型数据库中;
步骤2:调用所述关系型数据库,对所述第一数据集中的数据进行二次处理得到第二数据集,利用专家规则和统计学方法从所述第二数据集中提取核心特征数据,根据所述核心特征数据初步建立用户属性标签、商品属性标签和用户行为标签;
步骤3:利用半监督方法从所述第二数据集中提取企业经营数据,建立标签预测模型,利用所述标签预测模型对企业经营状况进行预测,以获得企业经营状况标签;
步骤4:根据所述用户属性标签、产品属性标签、用户行为标签和企业经营状况标签,生成企业画像;其中,所述企业画像包括用户属性画像、商品属性画像、企业经营画像以及用户行为画像。
进一步的,所述用户属性数据包括企业信息数据、个人信息数据、企业属性数据和个人属性数据;所述商品数据包括需求数据和产品数据;所述用户行为数据包括企业行为数据和个人行为数据。
进一步的,所述步骤1包括:
步骤1.1:从所述工业产品获取平台和第三方平台获取待画像企业的用户属性数据、用户行为数据、商品数据和企业工商数据;
步骤1.2:将所述用户属性数据、用户行为数据、商品数据和企业工商数据中的半结构化数据根据数据转化规则转化为结构化数据;
步骤1.3:遍历所有结构化数据,对所述结构化数据进行数据清洗以得到第一数据集,并将所述第一数据集以结构化数据形式存储在关系型数据库中。
进一步的,所述步骤1.3包括:
步骤1.31:遍历所有结构化数据,对所述结构化数据的数据状态进行初步评估;
步骤1.32:当评估结果为存在重要信息缺失、错误或重复时,将存在重要信息缺失、错误或重复部分的数据剔除;当评估结果为高质量数据时,将所述高质量数据加入到模糊匹配数据集中;当评估结果为存在次要信息缺失、错误或乱码时,根据所述模糊匹配数据集对所述次要信息缺失、错误或乱码的数据进行修正;
步骤1.33:将所有高质量数据以及经过所述模糊匹配数据集修正后的数据整合并作为第一数据集,然后以结构化形式存储在关系型数据库中。
进一步的,所述步骤2包括:
步骤2.1:调用所述关系型数据库,对所述第一数据集中的关联数据进行合并或转化处理后加入到所述第一数据集中以形成第二数据集;
步骤2.2:利用专家规则和统计学方法,从所述第二数据集中提取核心特征数据,并根据所述核心特征数据初步建立用户属性标签、商品属性标签和用户行为标签。
进一步的,所述步骤3包括:
步骤3.1:按照行业类别从所述第二数据集中分别随机选取一定比例的企业经营数据作为企业样本,并利用行业专家规则确定所述企业样本的数据特征权重和第一经营评分,并建立建立数据特征与评分矩阵,包括:
[Aij,bi](a1,a2,a3,...,aj,bi);其中,Aij表示i企业的第j个特征数据,Bi表示i 企业的专家评分;
步骤3.2:再次按照行业类别从所述第二数据集中的剩余企业中,随机选取一定比例的企业经营数据,并利用该企业经营数据与所述数据特征与评分矩阵,计算该企业经营数据与所述企业样本的海明距离,基于所述海明距离采用最近邻规则方法预测该企业对应的第二经营评分,利用专家规则对所述数据特征权重、第一经营评分以及第二经营评分分别进行调整,并基于调整后的数据特征权重、第一经营评分以及第二经营评分建立标签预测模型;
步骤3.3:利用所述标签预测模型,从所述第二数据集中提取新的企业经营数据,计算所述新的企业经营数据与所述标签预测模型的海明距离,并基于所述海明距离采用最近邻规则方法预测新企业的经营评分;
其中,海明距离的计算方式为:
Dgi=∑wj×(Aij*Agj); (1)
企业预测经营评分的计算方式为:
其中,A′gj(a′1,a′2,a′3,...,a′j)为g企业的j个特征,Dgi为g企业与i企业的海明距离,wj离为专家定义的j权重;bk为基于海明距离的最邻近规则对企业预测的评分集合,M为综合评分值。
进一步的,所述基于海明距离采用最邻近规则预测企业的经营评分包括:
计算剩余新企业数据与所述标签预测模型的海明距离,并获取最小海明距离值;
根据所述最小海明距离值,确定备选的企业训练样本;
当所述备选企业训练样本中存在一家备选企业,将该备选企业的经营评分预测值赋予所述新企业;当所述备选样本中存在多家备选企业,则对多家备选企业的经营评分预测值求均值,并将该均值赋予所述新企业。
进一步的,所述用户属性画像包括企业属性画像和个人属性画像,所述企业属性画像标签包括RFM价值度和企业状态;
所述商品属性画像标签包括需求属性画像标签和产品属性画像标签,所述需求属性标签包括需求达成后对合作方的评价值,所述产品属性画像标签包括基于知识图谱的关联产品标签;
所述企业经营画像标签包括企业类型、企业规模、行业信息、质量认证、平台收入、平台支出、工商注册日期、营业截止日期、经营范围、总资产、净资产收益率、净利润率、资质等级、知识产权、股权冻结、经营异常、行政处罚、严重违法、涉案情况、失信信息;
所述用户行为画像包括企业行为画像和个人行为画像,所述企业行为画像标签包括需求失效、报价失效商品,所述个人行为画像标签包括进货单转换率和收藏转换率。
本发明还提供一种基于工业产品供需平台构建企业画像的***,所述***包括:
数据预处理模块,用于从所述工业产品供需平台和第三方平台获取待画像企业的用户属性数据、用户行为数据、商品数据和企业工商数据,对获取的数据进行预处理后得到第一数据集,并将所述第一数据集存储在关系型数据库中;
第一标签建立模块,用于调用所述关系型数据库,对所述第一数据集中的数据进行二次处理得到第二数据集,利用专家规则和统计学方法从所述第二数据集中提取核心特征数据,根据所述核心特征数据初步建立用户属性标签、商品属性标签和用户行为标签;
第二标签建立模块,用于利用半监督方法从所述第二数据集中提取企业经营数据,建立标签预测模型,利用所述标签预测模型对企业经营状况进行预测,以获得企业经营状况标签;
企业画像生成模块,用于根据所述用户属性标签、产品属性标签、用户行为标签和企业经营状况标签,生成企业画像;其中,所述企业画像包括用户属性画像、商品属性画像、企业经营画像以及用户行为画像。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述的基于工业产品供需平台构建企业画像的方法。
本发明的有益效果为:通过从工业产品供需平台和第三方平台获取待画像企业的用户属性数据、用户行为数据、商品数据和企业工商数据,对数据进处理整合后得到用户属性标签、商品属性标签和用户行为标签;并利用半监督方法建立标签预测模型对企业经营状况进行预测,以获得企业经营状况标签;然后生成完成的企业画像;通过数据整合和基于半监督模型对企业数据进行深层次数据挖掘进而建立完善的企业画像,为工业产品供需平台的业务建设提供决策支撑。
附图说明
图1是本发明实施例中基于工业产品供需平台构建企业画像的方法流程图;
图2是发明实施例中基于半监督模型预测企业经营评分的流程图。
具体实施方式
为使本说明书实施例的目的、技术方案和优点更加清楚,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明保护的范围。
应当理解,尽管本文可能使用术语第一、第二等等来描述各种单元,但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本发明的示例实施例的范围。
应当理解,对于本文中可能出现的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况;对于本文中可能出现的术语“/ 和”,其是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况;另外,对于本文中可能出现的字符“/”,一般表示前后关联对象是一种“或”关系。
应当理解,在本文中若将单元称作与另一个单元“连接”、“相连”或“耦合”时,它可以与另一个单元直相连接或耦合,或中间单元可以存在。相対地,在本文中若将单元称作与另一个单元“直接相连”或“直接耦合”时,表示不存在中间单元。另外,应当以类似方式来解释用于描述单元之间的关系的其他单词(例如,“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。
应当理解,本文使用的术语仅用于描述特定实施例,并不意在限制本发明的示例实施例。若本文所使用的,单数形式“一”、“一个”以及“该”意在包括复数形式,除非上下文明确指示相反意思。还应当理解,若术语“包括”、“包括了”、“包含”和/或“包含了”在本文中被使用时,指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。
应当理解,还应当注意到在一些备选实施例中,所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。
应当理解,在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出***,以避免用不必要的细节来使得示例不清楚。在其他实例中,可以不以不必要的细节来示出众所周知的过程、结构和技术,以避免使得示例实施例不清。
实施例一
具体参见图1和2,示出了本发明实施例中的一种基于工业产品供需平台构建企业画像的方法的流程图和基于半监督模型预测企业经营评分的流程图,包括:
步骤1:从所述工业产品供需平台和第三方平台获取待画像企业的用户属性数据、用户行为数据、商品数据和企业工商数据,对获取的数据进行预处理后得到第一数据集,并将所述第一数据集存储在关系型数据库中;
在本发明实施例中,所述第三方平台主要指外部工商注册平台;所述用户属性数据包括企业信息数据、个人信息数据、其中个人信息数据是与企业直接关联的个人信息,例如企业的员工等;企业属性数据和个人属性数据;所述商品数据包括需求数据和产品数据;所述用户行为数据包括企业行为数据和个人行为数据,包括浏览、需求产品的报价活动、供给产品的交易活动和部分供给服务类商品的咨询活动等。
在本发明实施例中,所述步骤1具体包括:
步骤1.1:从所述工业产品获取平台和第三方平台获取待画像企业的用户属性数据、用户行为数据、商品数据和企业工商数据;
步骤1.2:将所述用户属性数据、用户行为数据、商品数据和企业工商数据中的半结构化数据根据数据转化规则转化为结构化数据;
步骤1.3:遍历所有结构化数据,对所述结构化数据进行数据清洗以得到第一数据集,并将所述第一数据集以结构化数据形式存储在关系型数据库中。
在本发明实施例中,进一步的,所述步骤1.3包括:
步骤1.31:遍历所有结构化数据,对所述结构化数据的数据状态进行初步评估;
步骤1.32:当评估结果为存在重要信息缺失、错误或重复时,将存在重要信息缺失、错误或重复部分的数据剔除;当评估结果为高质量数据时,将所述高质量数据加入到模糊匹配数据集中;当评估结果为存在次要信息缺失、错误或乱码时,根据所述模糊匹配数据集对所述次要信息缺失、错误或乱码的数据进行修正;具体的修正方式为:将所述次要信息缺失、错误或乱码的数据与所述模糊匹配数据集进行匹配,通过对比确定缺失的信息、错误的信息以及乱码的信息,并将不完整的信息补充完整。
步骤1.33:将所有高质量数据以及经过所述模糊匹配数据集修正后的数据整合并作为第一数据集,然后以结构化形式存储在关系型数据库中。
步骤2:调用所述关系型数据库,对所述第一数据集中的数据进行二次处理得到第二数据集,利用专家规则和统计学方法从所述第二数据集中提取核心特征数据,根据所述核心特征数据初步建立用户属性标签、商品属性标签和用户行为标签;
在本发明实施例中,为了实现高效、准确的推荐效果,需要从企业用户注册信息、用户基本属性、用户行为属性、商品信息数据和工商注册信息的清洗数据中提取、整合有效特征信息,具体包括:
步骤2.1:调用所述关系型数据库,对所述第一数据集中的关联数据进行合并或转化处理后加入到所述第一数据集中以形成第二数据集;具体的,由于企业的原始数据多源异构、质量层次不齐,且大量价值信息需要转化处理才可得到,数据转化部分需要实现数据再次清洗和初步转化价值特征信息的功能。例如::通过处理“企业注册时间”字段得到的“企业经营时间”字段,“企业经营时间”能够更为直观体现企业经营时间的长度,更容易与其他企业横向对比,侧面反映企业经营状况,快速过滤不适宜信息,提升推荐匹配效率。
步骤2.2:利用专家规则和统计学方法,从所述第二数据集中提取核心特征数据,并根据所述核心特征数据初步建立用户属性标签、商品属性标签和用户行为标签。
在本发明实施例中,所述专家规则是指企业画像专家基于用户行为提出数据抽取规则,业务领域、业务场景、专家经验等多个因素都会影响专家规则的制定。比如:各类平台对“活跃用户”的定义规则是不一样的,这取决于平台的运营状态、业务特征、用户分布情况。所述统计学方法是企业画像的基础,是最为常见的标签生成方法,通过求和、平均数、四分位数等统计方法计算得到。比如:各类平台基于用户注册数据、用户访问与消费数据,通过统计方法计算得到企业用户注册天数、近7日访问时长、近15日活跃天数、近30日活跃次数等企业用户信息。
在本发明实施例中,基于平台信息与外部工商注册数据通过数据整合的方法已初步建立企业经营画像标签,包括企业规模、盈利、经营活动、信用、知识产权、司法信息等各方面的经营状况指标,但是这些指标直接、单一体现企业经营某部分的经营状况,无法直接、综合体现企业经营状况;因此需要对企业经营数据进行深层次的数据挖掘和评估,包括:
参见图2,为利用半监督方法预测模型预测企业经营状况标签的流程图,步骤3:利用半监督方法从所述第二数据集中提取企业经营数据,建立标签预测模型,利用所述标签预测模型对企业经营状况进行预测,以获得企业经营状况标签;
在本发明实施例中,所述步骤3包括:
步骤3.1:按照行业类别从所述第二数据集中分别随机选取一定比例的企业经营数据作为企业样本,例如从各行业分别选取5%的企业作为企业样本,并利用行业专家规则确定所述企业样本的数据特征权重和第一经营评分,并建立建立数据特征与评分矩阵,包括:
[Aij,bi](a1,a2,a3,...,aj,bi);其中,Aij表示i企业的第j个特征数据,Bi表示i 企业的专家评分;
步骤3.2:再次按照行业类别从所述第二数据集中的剩余企业中,随机选取一定比例的企业经营数据,例如再选取10%的企业数据,并利用该企业经营数据与所述数据特征与评分矩阵,计算该企业经营数据与所述企业样本的海明距离,基于所述海明距离采用最近邻规则方法预测该企业对应的第二经营评分,利用专家规则对所述数据特征权重、第一经营评分以及第二经营评分分别进行调整,并基于调整后的数据特征权重、第一经营评分以及第二经营评分建立标签预测模型;
步骤3.3:利用所述标签预测模型,从所述第二数据集中提取新的企业经营数据,计算所述新的企业经营数据与所述标签预测模型的海明距离,并基于所述海明距离采用最近邻规则方法预测新企业的经营评分;
其中,海明距离的计算方式为:
Dgi=∑wj×(Aij*Asj); (1)
企业预测经营评分的计算方式为:
其中,A′gj(a′1,a′2,a′3,...,a′j)为g企业的j个特征,Dgi为g企业与i企业的海明距离,wj离为专家定义的j权重;bk为基于海明距离的最邻近规则对企业预测的评分集合,M为综合评分值。
具体的,所述基于海明距离采用最邻近规则预测企业的经营评分包括:
计算剩余新企业数据与所述标签预测模型的海明距离,并获取最小海明距离值;
根据所述最小海明距离值,确定备选的企业训练样本;
当所述备选企业训练样本中存在一家备选企业,将该备选企业的经营评分预测值赋予所述新企业;当所述备选样本中存在多家备选企业,则对多家备选企业的经营评分预测值求均值,并将该均值赋予所述新企业。
步骤4:根据所述用户属性标签、产品属性标签、用户行为标签和企业经营状况标签,生成企业画像;其中,所述企业画像包括用户属性画像、商品属性画像、企业经营画像以及用户行为画像。
在本发明实施例中,所述用户属性画像包括企业属性画像和个人属性画像,所述企业属性画像标签包括RFM价值度和企业状态;所述商品属性画像标签包括需求属性画像标签和产品属性画像标签,所述需求属性标签包括需求达成后对合作方的评价值,所述产品属性画像标签包括基于知识图谱的关联产品标签;所述企业经营画像标签包括企业类型、企业规模、行业信息、质量认证、平台收入、平台支出、工商注册日期、营业截止日期、经营范围、总资产、净资产收益率、净利润率、资质等级、知识产权、股权冻结、经营异常、行政处罚、严重违法、涉案情况、失信信息;所述用户行为画像包括企业行为画像和个人行为画像,所述企业行为画像标签包括需求失效、报价失效商品,所述个人行为画像标签包括进货单转换率和收藏转换率。
实施例二
本发明实施例还提供一种基于工业产品供需平台构建企业画像的***,所述***包括:
数据预处理模块,用于从所述工业产品供需平台和第三方平台获取待画像企业的用户属性数据、用户行为数据、商品数据和企业工商数据,对获取的数据进行预处理后得到第一数据集,并将所述第一数据集存储在关系型数据库中;
第一标签建立模块,用于调用所述关系型数据库,对所述第一数据集中的数据进行二次处理得到第二数据集,利用专家规则和统计学方法从所述第二数据集中提取核心特征数据,根据所述核心特征数据初步建立用户属性标签、商品属性标签和用户行为标签;
第二标签建立模块,用于利用半监督方法从所述第二数据集中提取企业经营数据,建立标签预测模型,利用所述标签预测模型对企业经营状况进行预测,以获得企业经营状况标签;
企业画像生成模块,用于根据所述用户属性标签、产品属性标签、用户行为标签和企业经营状况标签,生成企业画像;其中,所述企业画像包括用户属性画像、商品属性画像、企业经营画像以及用户行为画像。
实施例三
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机***中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述的方法。所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型。
Claims (9)
1.一种基于工业产品供需平台构建企业画像的方法,其特征在于,所述方法包括:
步骤1:从所述工业产品供需平台和第三方平台获取待画像企业的用户属性数据、用户行为数据、商品数据和企业工商数据,对获取的数据进行预处理后得到第一数据集,并将所述第一数据集存储在关系型数据库中;
步骤2:调用所述关系型数据库,对所述第一数据集中的数据进行二次处理得到第二数据集,利用专家规则和统计学方法从所述第二数据集中提取核心特征数据,根据所述核心特征数据初步建立用户属性标签、商品属性标签和用户行为标签;
步骤3:利用半监督方法从所述第二数据集中提取企业经营数据,建立标签预测模型,利用所述标签预测模型对企业经营状况进行预测,以获得企业经营状况标签;步骤3具体包括:
步骤3.1:按照行业类别从所述第二数据集中分别随机选取一定比例的企业经营数据作为企业样本,并利用行业专家规则确定所述企业样本的数据特征权重和第一经营评分,并建立建立数据特征与评分矩阵,包括:
[Aij,bi](a1,a2,a3,...,aj,bi);其中,Aij表示i企业的第j个特征数据,Bi表示i企业的专家评分;
步骤3.2:再次按照行业类别从所述第二数据集中的剩余企业中,随机选取一定比例的企业经营数据,并利用该企业经营数据与所述数据特征与评分矩阵,计算该企业经营数据与所述企业样本的海明距离,基于所述海明距离采用最近邻规则方法预测该企业对应的第二经营评分,利用专家规则对所述数据特征权重、第一经营评分以及第二经营评分分别进行调整,并基于调整后的数据特征权重、第一经营评分以及第二经营评分建立标签预测模型;
步骤3.3:利用所述标签预测模型,从所述第二数据集中提取新的企业经营数据,计算所述新的企业经营数据与所述标签预测模型的海明距离,并基于所述海明距离采用最近邻规则方法预测新企业的经营评分;
其中,海明距离的计算方式为:
企业预测经营评分的计算方式为:
其中,A′gj(a′1,a′2,a′3,...,a′j)为g企业的j个特征,Dgi为g企业与i企业的海明距离,wj离为专家定义的j权重;bk为基于海明距离的最邻近规则对企业预测的评分集合,M为综合评分值;
步骤4:根据所述用户属性标签、产品属性标签、用户行为标签和企业经营状况标签,生成企业画像;其中,所述企业画像包括用户属性画像、商品属性画像、企业经营画像以及用户行为画像。
2.根据权利要求1所述的基于工业产品供需平台构建企业画像的方法,其特征在于,所述用户属性数据包括企业信息数据、个人信息数据、企业属性数据和个人属性数据;所述商品数据包括需求数据和产品数据;所述用户行为数据包括企业行为数据和个人行为数据。
3.根据权利要求1所述的基于工业产品供需平台构建企业画像的方法,其特征在于,所述步骤1包括:
步骤1.1:从所述工业产品获取平台和第三方平台获取待画像企业的用户属性数据、用户行为数据、商品数据和企业工商数据;
步骤1.2:将所述用户属性数据、用户行为数据、商品数据和企业工商数据中的半结构化数据根据数据转化规则转化为结构化数据;
步骤1.3:遍历所有结构化数据,对所述结构化数据进行数据清洗以得到第一数据集,并将所述第一数据集以结构化数据形式存储在关系型数据库中。
4.根据权利要求3所述的基于工业产品供需平台构建企业画像的方法,其特征在于,所述步骤1.3包括:
步骤1.31:遍历所有结构化数据,对所述结构化数据的数据状态进行初步评估;
步骤1.32:当评估结果为存在重要信息缺失、错误或重复时,将存在重要信息缺失、错误或重复部分的数据剔除;当评估结果为高质量数据时,将所述高质量数据加入到模糊匹配数据集中;当评估结果为存在次要信息缺失、错误或乱码时,根据所述模糊匹配数据集对所述次要信息缺失、错误或乱码的数据进行修正;
步骤1.33:将所有高质量数据以及经过所述模糊匹配数据集修正后的数据整合并作为第一数据集,然后以结构化形式存储在关系型数据库中。
5.根据权利要求1所述的基于工业产品供需平台构建企业画像的方法,其特征在于,所述步骤2包括:
步骤2.1:调用所述关系型数据库,对所述第一数据集中的关联数据进行合并或转化处理后加入到所述第一数据集中以形成第二数据集;
步骤2.2:利用专家规则和统计学方法,从所述第二数据集中提取核心特征数据,并根据所述核心特征数据初步建立用户属性标签、商品属性标签和用户行为标签。
6.根据权利要求1所述的基于工业产品供需平台构建企业画像的方法,其特征在于,所述基于海明距离采用最邻近规则预测企业的经营评分包括:
计算剩余新企业数据与所述标签预测模型的海明距离,并获取最小海明距离值;
根据所述最小海明距离值,确定备选的企业训练样本;
当所述备选企业训练样本中存在一家备选企业,将该备选企业的经营评分预测值赋予所述新企业;当所述备选样本中存在多家备选企业,则对多家备选企业的经营评分预测值求均值,并将该均值赋予所述新企业。
7.根据权利要求1所述的基于工业产品供需平台构建企业画像的方法,其特征在于,所述用户属性画像包括企业属性画像和个人属性画像,所述企业属性画像标签包括RFM价值度和企业状态;
所述商品属性画像标签包括需求属性画像标签和产品属性画像标签,所述需求属性标签包括需求达成后对合作方的评价值,所述产品属性画像标签包括基于知识图谱的关联产品标签;
所述企业经营画像标签包括企业类型、企业规模、行业信息、质量认证、平台收入、平台支出、工商注册日期、营业截止日期、经营范围、总资产、净资产收益率、净利润率、资质等级、知识产权、股权冻结、经营异常、行政处罚、严重违法、涉案情况、失信信息;
所述用户行为画像包括企业行为画像和个人行为画像,所述企业行为画像标签包括需求失效、报价失效商品,所述个人行为画像标签包括进货单转换率和收藏转换率。
8.一种基于工业产品供需平台构建企业画像的***,其特征在于,所述***包括:
数据预处理模块,用于从所述工业产品供需平台和第三方平台获取待画像企业的用户属性数据、用户行为数据、商品数据和企业工商数据,对获取的数据进行预处理后得到第一数据集,并将所述第一数据集存储在关系型数据库中;
第一标签建立模块,用于调用所述关系型数据库,对所述第一数据集中的数据进行二次处理得到第二数据集,利用专家规则和统计学方法从所述第二数据集中提取核心特征数据,根据所述核心特征数据初步建立用户属性标签、商品属性标签和用户行为标签;
第二标签建立模块,用于利用半监督方法从所述第二数据集中提取企业经营数据,建立标签预测模型,利用所述标签预测模型对企业经营状况进行预测,以获得企业经营状况标签;具体用于按照行业类别从所述第二数据集中分别随机选取一定比例的企业经营数据作为企业样本,并利用行业专家规则确定所述企业样本的数据特征权重和第一经营评分,并建立建立数据特征与评分矩阵,包括:[Aij,bi](a1,a2,a3,...,aj,bi);其中,Aij表示i企业的第j个特征数据,Bi表示i企业的专家评分;再次按照行业类别从所述第二数据集中的剩余企业中,随机选取一定比例的企业经营数据,并利用该企业经营数据与所述数据特征与评分矩阵,计算该企业经营数据与所述企业样本的海明距离,基于所述海明距离采用最近邻规则方法预测该企业对应的第二经营评分,利用专家规则对所述数据特征权重、第一经营评分以及第二经营评分分别进行调整,并基于调整后的数据特征权重、第一经营评分以及第二经营评分建立标签预测模型;利用所述标签预测模型,从所述第二数据集中提取新的企业经营数据,计算所述新的企业经营数据与所述标签预测模型的海明距离,并基于所述海明距离采用最近邻规则方法预测新企业的经营评分;
其中,海明距离的计算方式为:
企业预测经营评分的计算方式为:
其中,A′gj(a′1,a′2,a′3,...,a′j)为g企业的j个特征,Dgi为g企业与i企业的海明距离,wj离为专家定义的j权重;bk为基于海明距离的最邻近规则对企业预测的评分集合,M为综合评分值;
企业画像生成模块,用于根据所述用户属性标签、产品属性标签、用户行为标签和企业经营状况标签,生成企业画像;其中,所述企业画像包括用户属性画像、商品属性画像、企业经营画像以及用户行为画像。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1~7任意一项所述的基于工业产品供需平台构建企业画像的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011474410.1A CN112446744B (zh) | 2020-12-14 | 2020-12-14 | 基于工业产品供需平台构建企业画像的方法、***及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011474410.1A CN112446744B (zh) | 2020-12-14 | 2020-12-14 | 基于工业产品供需平台构建企业画像的方法、***及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112446744A CN112446744A (zh) | 2021-03-05 |
CN112446744B true CN112446744B (zh) | 2023-08-08 |
Family
ID=74739980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011474410.1A Active CN112446744B (zh) | 2020-12-14 | 2020-12-14 | 基于工业产品供需平台构建企业画像的方法、***及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112446744B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327048A (zh) * | 2021-06-16 | 2021-08-31 | 力合科创集团有限公司 | 基于大数据及多维特征的企业画像计算方法、介质及程序 |
CN113657848B (zh) * | 2021-07-19 | 2023-08-18 | 武汉理工大学 | 一种工业三废处理任务分流方法、***、装置及介质 |
CN113849732A (zh) * | 2021-09-23 | 2021-12-28 | 北京思博知网科技有限公司 | 一种企业画像建立方法及*** |
CN114298427B (zh) * | 2021-12-30 | 2024-04-19 | 北京金堤科技有限公司 | 企业属性数据预测方法、装置、电子设备及存储介质 |
CN115952259B (zh) * | 2023-03-14 | 2023-05-12 | 深圳市迪博企业风险管理技术有限公司 | 一种企业画像标签智能生成方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5926388A (en) * | 1994-12-09 | 1999-07-20 | Kimbrough; Thomas C. | System and method for producing a three dimensional relief |
CN108509569A (zh) * | 2018-03-26 | 2018-09-07 | 河北省科学院应用数学研究所 | 企业画像的生成方法、装置、电子设备以及存储介质 |
CN108596679A (zh) * | 2018-04-27 | 2018-09-28 | 中国联合网络通信集团有限公司 | 用户画像的构建方法、装置、终端及计算机可读存储介质 |
CN108875014A (zh) * | 2018-06-20 | 2018-11-23 | 大国创新智能科技(东莞)有限公司 | 基于大数据与人工智能的精准项目推荐方法和机器人*** |
CN110135901A (zh) * | 2019-05-10 | 2019-08-16 | 重庆天蓬网络有限公司 | 一种企业用户画像构建方法、***、介质和电子设备 |
CN111460250A (zh) * | 2020-03-02 | 2020-07-28 | 平安科技(深圳)有限公司 | 用于画像的数据的清洗方法、装置、介质及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9607025B2 (en) * | 2012-09-24 | 2017-03-28 | Andrew L. DiRienzo | Multi-component profiling systems and methods |
JP2019533204A (ja) * | 2016-08-26 | 2019-11-14 | チェン、レイモンド シュー クウォクCHENG,Raymond shu kwok | 同一又は異なるソーシャルネットワークに登録した近接モバイルユーザの同一又は異なるosのモバイルデバイスを運用して互いに識別すると共にビジネス情報を交換する技術 |
-
2020
- 2020-12-14 CN CN202011474410.1A patent/CN112446744B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5926388A (en) * | 1994-12-09 | 1999-07-20 | Kimbrough; Thomas C. | System and method for producing a three dimensional relief |
CN108509569A (zh) * | 2018-03-26 | 2018-09-07 | 河北省科学院应用数学研究所 | 企业画像的生成方法、装置、电子设备以及存储介质 |
CN108596679A (zh) * | 2018-04-27 | 2018-09-28 | 中国联合网络通信集团有限公司 | 用户画像的构建方法、装置、终端及计算机可读存储介质 |
CN108875014A (zh) * | 2018-06-20 | 2018-11-23 | 大国创新智能科技(东莞)有限公司 | 基于大数据与人工智能的精准项目推荐方法和机器人*** |
CN110135901A (zh) * | 2019-05-10 | 2019-08-16 | 重庆天蓬网络有限公司 | 一种企业用户画像构建方法、***、介质和电子设备 |
CN111460250A (zh) * | 2020-03-02 | 2020-07-28 | 平安科技(深圳)有限公司 | 用于画像的数据的清洗方法、装置、介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
"基于企业画像的公示数据查询***设计与实现";王雪;《中国优秀硕士学位论文全文数据库信息科技》;第I138-59页。 * |
Also Published As
Publication number | Publication date |
---|---|
CN112446744A (zh) | 2021-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112446744B (zh) | 基于工业产品供需平台构建企业画像的方法、***及介质 | |
Wu et al. | [Retracted] An Empirical Study on Customer Segmentation by Purchase Behaviors Using a RFM Model and K‐Means Algorithm | |
Zhan et al. | An analytic infrastructure for harvesting big data to enhance supply chain performance | |
Chuang | Application of hybrid case-based reasoning for enhanced performance in bankruptcy prediction | |
Tsui et al. | Knowledge-based extraction of intellectual capital-related information from unstructured data | |
Huang et al. | Winner determination for risk aversion buyers in multi-attribute reverse auction | |
Raut et al. | Evaluation of supplier selection criteria by combination of AHP and fuzzy DEMATEL method | |
Khaled et al. | Selection of suppliers through different multi-criteria decision making techniques | |
Oliveira et al. | Evaluating vehicle painting plans in an automobile assembly plant using an integrated AHP‐PROMETHEE approach | |
Chen et al. | Supply chain finance platform evaluation based on acceptability analysis | |
Ocampo | Decision modeling for manufacturing sustainability with fuzzy analytic hierarchy process | |
Andaregie et al. | Determinants of technology adoption by micro and small enterprises (MSEs) in Awi zone, Northwest Ethiopia | |
Wang et al. | To make good decision: A group DSS for multiple criteria alternative rank and selection | |
Yeoh et al. | Benefits and barriers to corporate performance management systems | |
Keramati et al. | Managing risk in information technology outsourcing: an approach for analysing and prioritising using fuzzy analytical network process | |
Awoin et al. | Predicting the performance of rural banks in Ghana using machine learning approach | |
Aghdaie | Data mining group decision-making with FAHP: An application in supplier evaluation and segmentation | |
Hu et al. | Investor preference analysis: An online optimization approach with missing information | |
Štreimikienė et al. | Benefit of the doubt model for financial risk analysis of Lithuanian family farms | |
Min et al. | Motivators and Inhibitors for Business Analytics Adoption from the Cross-Cultural Perspectives: A Data Mining Approach | |
Shyng et al. | Compactness rate as a rule selection index based on Rough Set Theory to improve data analysis for personal investment portfolios | |
CN113989050A (zh) | 一种基于topsis综合分析的钢贸企业供应链金融风险评估方法 | |
Bahreini et al. | Designing a Causal Model of Buyers' Orientation in the Decision-Making Process According to Ethical Factors | |
Mukhlis et al. | Enterprise risk management to minimizing financial distress condition using analytical Hierarchy process method in PT. XYZ | |
Chen et al. | Strategic Decision-making Processes of NPD by Hybrid Classification Model Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |