CN114511250A - 一种基于机器学习的企业外迁风险预警方法及*** - Google Patents
一种基于机器学习的企业外迁风险预警方法及*** Download PDFInfo
- Publication number
- CN114511250A CN114511250A CN202210258025.6A CN202210258025A CN114511250A CN 114511250 A CN114511250 A CN 114511250A CN 202210258025 A CN202210258025 A CN 202210258025A CN 114511250 A CN114511250 A CN 114511250A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- migration
- model
- data
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013508 migration Methods 0.000 title claims abstract description 96
- 230000005012 migration Effects 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000010801 machine learning Methods 0.000 title claims abstract description 25
- 230000001617 migratory effect Effects 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000007635 classification algorithm Methods 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 238000011066 ex-situ storage Methods 0.000 abstract description 4
- 238000011161 development Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 241000283899 Gazella Species 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
- G06Q10/06375—Prediction of business process outcome or impact based on a proposed change
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P80/00—Climate change mitigation technologies for sector-wide applications
- Y02P80/10—Efficient use of energy, e.g. using compressed air or pressurized fluid as energy carrier
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Educational Administration (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Mathematical Optimization (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Mathematical Analysis (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Algebra (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于机器学***衡数据集的状态下,构建特征选择模型并建立模型数据库;根据所述模型数据库中的数据,建立并验证企业外迁预测模型;对构建完成的所述企业外迁预测模型输入新样本,得所述新样本对应的企业外迁概率。还公开了实施上述方法的基于机器学习的企业外迁风险预警***。该风险预警方法保证数据获取的可行性和便利性,适用性强、通用性强,能够直接得到企业外迁概率,准确性高。
Description
技术领域
本发明属于经济态势预测预警领域,尤其涉及一种基于机器学习的企业外迁风险预警方法及***。
背景技术
企业作为市场经济主体,其发展受到要素成本上升、企业产能调整、市场需求变化、外部政策转向等因素影响,容易通过对外投资进行企业部分迁移,甚至变更企业登记主管机关,完全将自身迁出原先所在登记地。企业外迁的实质是企业区位再选择的过程,规模以上工业企业、独角兽企业、瞪羚企业、专精特新中小企业等重要企业的外迁将会直接减少企业所在地经济税源,显著影响入库税收,不利于当地社会经济的稳定发展。为此,有必要通过技术手段预测出具有外迁倾向的企业,并对可能发生的外迁现象进行及时预警。
中国发明专利CN109377058A公开了一种基于逻辑回归模型的企业外迁风险评估方法。该方法收集了企业外迁实例信息以及运营商提供的脱敏电信数据;通过数据分箱和皮尔逊相关系数,剔除了低预测能力指标和高相关性指标;在此基础上,采用逻辑回归构建了企业外迁预测模型,最后输出了企业的外迁概率。该发明填补了定量预测企业外迁行为建模方法的空白,可以输出企业外迁概率。但是,该方法数据来源少,采用的电信数据无法代表所有企业。皮尔逊相关作为线性分析方法,无法有效筛选出非线性影响变量。基于回归算法的预测操作繁琐,准确率低(68%)。总体来看,该方法的场景适用性、模型通用性、应用准确性均存在不足。
发明内容
为了克服现有技术中的缺陷,本发明实施例提供了一种基于机器学习的企业外迁风险预警方法及***,该风险预警方法保证数据获取的可行性和便利性,适用性强、通用性强,能够直接得到企业外迁概率,准确性高。
为达到上述目的,本发明采用的技术方案是:一种基于机器学习的企业外迁风险预警方法,所述方法的步骤包括:
构造特征变量,形成企业外迁预测特征数据库;
在所述企业外迁预测特征数据库中的数据呈平衡数据集的状态下,构建特征选择模型并建立模型数据库;
根据所述模型数据库中的数据,建立并验证企业外迁预测模型;
对构建完成的所述企业外迁预测模型输入新样本,得所述新样本对应的企业外迁概率。
上述技术方案中,所述方法的步骤还包括:
基于获得的所述企业外迁概率,结合预设评估项,采用情景综合分析法对企业分类,进行分级预警。
上述技术方案中,“构造特征变量,形成企业外迁预测特征数据库”包括:
整理外迁企业和非外迁企业的名单,获取名单中企业多个维度的数据样本;
根据所述数据样本构造特征变量;
按预设时间段,计算名单中所有企业不同特征变量的数值,形成企业外迁预测特征数据库。
进一步的,“计算名单中所有企业不同特征变量的数值,形成企业外迁预测特征数据库”包括:
计算名单中所有企业的用电量环比变化值、用水量环比变化值、专利数量环比变化值、已享受的本地政策数量、所属产业在注册地的企业数量、异地投资频率、异地投资金额、异地招聘人员数量、异地投资接洽报道数量、接待异地官员到访报道数量;
将特征变量中关于企业是否外迁、企业是否异地置地、企业是否享受所在地政策、企业是否存在裁员报道的结果由字符型转换为数字型,其中,结果为“是”的转换为“1”,结果为“否”的转换为“0”。
上述技术方案中,“在所述企业外迁预测特征数据库中的样本集呈平衡数据集的状态”包括:
判断所述企业外迁预测特征数据库中外迁企业与非外迁企业是否平衡;
在外迁企业与非外迁企业不平衡状态时,对所述企业外迁预测特征数据库中的数据进行欠采样,使所述外迁企业与所述非外迁企业的比例为1:1,形成所述平衡数据集。
上述技术方案中,“构建特征选择模型并建立模型数据库”包括:
根据所述平衡数据集,利用随机森林算法,建立特征选择模型;
通过所述特征选择模型计算每一所述特征变量的相对重要性值;
在所述相对重要性值小于预设重要性值时,剔除该特征变量对应的数据,形成所述模型数据库。
上述技术方案中,“根据所述模型数据库中的数据,建立并验证企业外迁预测模型”包括:
按照预设比例将所述模型数据库中的数据划分为训练集和测试集;
建立基于机器学习分类算法的所述企业外迁预测模型,并设置模型参数;
以所述训练集作为所述企业外迁预测模型的训练数据,优化所述模型参数;
利用所述测试集验证训练好的所述企业外迁预测模型的模型精度,直至达到预设精度。
进一步的,按照7:3比例将所述模型数据库中的数据划分为训练集和测试集。
进一步的,“利用所述测试集验证训练好的所述企业外迁预测模型的模型精度”包括利用模型准确率、模型查全率验证模型精度。
一种基于机器学习的企业外迁风险预警***,所述***包括至少一个数据处理器和存储器,所述存储器中存储有指令,当通过至少一个所述处理器来执行该指令时,实施按照上述基于机器学习的企业外迁风险预警方法。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
1.本发明中企业外迁预测特征数据库以用能数据和互联网大数据作为数据源,通过获取多个维度的数据样本构造特征变量,扩展了数据来源,不依赖于某一特定领域的数据,保证数据获取的可行性和便利性,可适用于各类工商企业,场景适用性强。
2.本发明全程依靠统计方法进行数据分析,通过构建基于随机森林的特征选择模型,实现对特征变量重要性的度量,能够有效筛选出非线性影响因子,克服了传统方法只能进行线性关系度量的缺点,相比传统方法应用限制性更小,通用性强。
3.通过模型数据库中的数据,采用机器学习技术,构建了基于分类算法的企业外迁预测模型,该模型构建步骤简单,能够直接输出企业外迁概率,且准确性高。
4.基于获得的所述企业外迁概率,结合预设评估项,采用情景综合分析法评估企业外迁对当地经济发展影响的严重性,方法简便,数据直观,实现企业外迁的自动分级预警,便于监控。
为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中基于机器学习的企业外迁风险预警方法流程图;
图2是本发明实施例中构造特征选择模型流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:参见图1~2所示,一种基于机器学习的企业外迁风险预警方法,所述方法的步骤包括:
步骤S01:构造特征变量,形成企业外迁预测特征数据库;
具体的,该步骤包括:
S11:整理外迁企业和非外迁企业的名单;可通过收集市场监督管理局发布的外迁企业清单、当地企业名录得到外迁企业和非外迁企业的名单;
S12:获取名单中企业多个维度的数据样本;所述数据样本至少包括用能类、用工类、用地类、对外投资类、政策类、知识产权类、产业链类,数据维度广,数据来源不依赖于某一特定领域,保证数据获取的可行性和便利性;
S13:根据所述数据样本构造特征变量;
S14:按预设时间段,计算名单中所有企业的用电量环比变化值、用水量环比变化值、专利数量环比变化值、已享受的本地政策数量、所属产业在注册地的企业数量、异地投资频率、异地投资金额、异地招聘人员数量、异地投资接洽报道数量、接待异地官员到访报道数量;
S15:将特征变量中关于企业是否外迁、企业是否异地置地、企业是否享受所在地政策、企业是否存在裁员报道的结果由字符型转换为数字型,其中,结果为“是”的转换为“1”,结果为“否”的转换为“0”。
由上述数据形成企业外迁预测特征数据库,用于特征选择模型的计算。
步骤S02:在所述企业外迁预测特征数据库中的样本集呈平衡数据集的状态下,构建特征选择模型并建立模型数据库;
具体的,该步骤包括:
S21:判断所述企业外迁预测特征数据库中外迁企业与非外迁企业是否平衡;
S22:在外迁企业与非外迁企业不平衡状态时,对所述企业外迁预测特征数据库中的数据进行欠采样,使所述外迁企业与所述非外迁企业的比例为 1:1,形成所述平衡数据集;所述欠采样是指去除部分非外迁企业,使外迁企业和非外迁企业样本数量接近;
S23:以平衡数据集中企业是否外迁的数据作为因变量,其余数据作为自变量,利用随机森林算法,建立特征选择模型;
S24:通过所述特征选择模型计算每一所述特征变量的相对重要性值;
需要利用如下计算公式:
公式(1)用于输出每一自变量的重要性度量参数。公式(1)中,VI为特征变量A的最小方差;D1和D2分别为特征变量A在任意数据划分点s两边划分成的数据集;c1和c2分别为数据集D1和D2的样本均值。
公式(2)用于将特征变量的最小方差换算为相对重要性值。公式(2) 中,VIMi和VIi分别为指标i的相对重要性值和最小方差,c为特征数量。
S25:在所述相对重要性值小于预设重要性值时,剔除该特征变量对应的数据,形成所述模型数据库。
步骤S03:根据所述模型数据库中的数据,建立并验证企业外迁预测模型;
具体的,该步骤包括:
S31:按照预设比例将所述模型数据库中的数据划分为训练集和测试集;所述预设比例可设置为7:3;
S32:以所述训练集作为所述企业外迁预测模型的训练数据,将其中的企业是否外迁的数据作为因变量,所述训练集中的其余数据作为自变量,择优选取机器学习分类算法,建立企业外迁预测模型,并设置模型参数;
S33:以所述测试集作为所述企业外迁预测模型的输入数据,利用训练好的所述企业外迁预测模型,输出预测结果;
S34:比较所述测试集中各种机器学习分类算法建立的模型的预测结果和实际迁出企业的差异,计算各模型的模型准确率和模型查全率;
公式(3)用于计算模型准确率,即预测正确的样本数量占样本总量的百分比。公式(3)中,Accuracy为模型准确率;n为企业数量;TP为预测正确的外迁企业数量,TN为预测正确的非外迁企业数量。
公式(4)用于计算模型查全率,即预测正确的外迁样本数量占实际外迁样本总量的百分比。公式(4)中,Recall为模型查全率;TP为预测正确的外迁企业数量,FN为预测错误的外迁企业数量。
S35:判断所述模型准确率、所述模型查全率是否均达到预设精度,所述预设精度可设置为75%;如果两者均达到所述预设精度,则得到构建完成的企业外迁预测模型;否则返回步骤S32优化模型参数。
步骤S04:对构建完成的所述企业外迁预测模型输入新样本,得所述新样本对应的企业外迁概率。
在一个优选的实施方式中,还包括:
步骤S05:基于所述企业外迁概率,结合预设评估项,采用情景综合分析法对企业进行分级预警。
所述情景综合分析法是指通过明确外迁预警的评估项,以企业外迁概率为权重,通过加权累加的方法对企业未来外迁的影响进行评估。
公式(5)Total score=p×∑iscore
公式(5)用于计算企业外迁的评估总分。公式(5)中,Total score 为企业评估总分,p为企业外迁概率,score为企业在第i个评估项上的分值。
所述预设评估项包括企业类型、企业纳税规模等。通过企业外迁概率与预设评估项的加权计算,得到企业外迁的评估总分,再根据评估总分将企业分类,可将企业分为重大关注企业、重点关注企业和一般关注企业,进行分级预警。企业的外迁将会直接减少企业所在地经济税源,显著影响入库税收,不利于当地社会经济的稳定发展。因此,将企业外迁概率,结合评估项,计算评估总分,利用评估总分可直接判断企业外迁对当地经济发展造成影响的严重性,简便、直观,有利于企业进行分级预警,重点关注。
以下以某一地区一月至八月的数据为例,对该批数据中的企业进行外迁预测。包括以下步骤:
步骤S01:构造特征变量,形成企业外迁预测特征数据库。
收集市场监督管理局发布的外迁企业清单,整合当地企业名录。获取相应企业的用电和用水数据,抓取企业对外投资、网络异地招聘、所在地政策、土地“招拍挂”、知识产权、企业所属产业类型数据,爬取企业异地投资接洽、企业接待异地到访官员相关新闻报道,共计数据量12万条。
利用上述数据构造特征变量,所述特征变量即用于描述总体样本特征而构造的各种指标。所述特征变量包括企业的用电量环比变化、用水量环比变化、专利数量环比变化、已享受的本地政策数量、所属产业在注册地的企业数量、异地投资频率(含企业、企业法人)、异地投资金额(含企业、企业法人)、异地招聘人员数量(职能部门)、异地投资接洽报道数量、接待异地官员到访报道数量。将特征变量中关于企业是否外迁、企业是否异地置地、企业是否享受所在地政策、企业是否存在裁员报道的结果由字符型转换为数字型,其中,结果为“是”的转换为“1”,结果为“否”的转换为“0”。
具体特征变量如表1所示:
表1特征变量指标体系
步骤S02:在所述企业外迁预测特征数据库中的样本集呈平衡数据集的状态下,构建特征选择模型并建立模型数据库。
判断所述企业外迁预测特征数据库中外迁企业与非外迁企业是否平衡。在外迁企业与非外迁企业不平衡状态时,对所述企业外迁预测特征数据库中的数据进行欠采样,使所述外迁企业与所述非外迁企业的比例为1:1,形成所述平衡数据集;以平衡数据集中企业是否外迁的数据作为因变量,其余数据作为自变量,利用随机森林算法,建立特征选择模型;利用特征选择模型对平衡数据集中的特征变量进行选择。即从平衡数据集已有的N个特征变量中选择其中的M个特征变量,且M个特征变量能够代表样本的总体特征。具体的,在本实施例中共涉及外迁企业2151家,其远小于非外迁企业数量。对企业外迁预测特征数据库中的非外迁企业进行随机欠采样,得到非外迁企业 2151家,形成平衡数据集。
利用公式(1)输出每一自变量的重要性度量参数。
利用公式(2)将特征变量的最小方差换算为相对重要性值。
经计算后剔除其中相对重要性值小于0.05的特征变量。其中,保留下来的特征变量包括:用电量环比变化、异地招聘人员数量(职能部门)、是否异地购置用地、企业法人异地投资频率、异地投资接洽报道数量,由上述特征变量组成的数据形成模型数据库。
步骤S03:根据所述模型数据库中的数据,建立并验证企业外迁预测模型。
按照7:3的比例将模型数据库中的数据划分为训练集和测试集,得到训练样本3011个,测试样本1281个。以3011个训练样本作为模型训练数据,将其中的企业是否外迁数据作为因变量,其余训练集中的数据作为自变量,建立基于机器学习分类算法的企业外迁预测模型,设置模型参数。以1281个测试样本作为输入数据,利用训练好的模型,输出预测结果。比较测试集中模型预测结果和实际迁出企业的差异,输出模型准确率Accuracy、模型查全率 Recall。公式(3)公式(4)经检验,随机森林预测模型模型准确率82.1%、模型查全率78.2%,满足精度要求,输出企业外迁预测模型。
步骤S04:对构建完成的所述企业外迁预测模型输入新样本,得所述新样本对应的企业外迁概率。
利用上述构建完成的企业外迁预测模型,输入剩余11万条样本数据,输出企业外迁概率。
步骤S05:分析2151家外迁企业案例特征,基于获得的所述企业外迁概率,结合预设评估项,采用情景综合分析法对企业进行分级预警。
具体的,统计2151家外迁企业案例发现,其中41家外迁企业税收在1000 万元以上,占全体外迁企业总税收的比重为69.87%,企业纳税规模可作为重要预警指标。此外,重点企业的外迁将会直接减少企业所在地经济税源,显著影响入库税收,不利于当地社会经济的稳定发展。因此,基于企业外迁概率,结合纳税规模、企业类型,利用公式(5)Totalscore=p×∑iscore评估企业外迁后果严重性。企业评估项具体分值如表2所示:
表2企业评估项分值
序号 | 指标 | 分值 |
1 | 四上企业<sup>*</sup> | 35 |
2 | 企业上一年度纳税超1000万 | 25 |
3 | 企业从事产业属于区域重点发展产业 | 15 |
4 | 上市企业 | 5 |
5 | 总部企业 | 5 |
6 | 瞪羚企业 | 5 |
7 | 独角兽企业 | 5 |
8 | 专精特新“小巨人”企业 | 5 |
注:*指规模以上工业企业、资质等级建筑业企业、限额以上批零住餐企业、国家重点服务业企业等四类规模以上企业的统称
基于企业评估总分,将具有外迁倾向的企业分为重大关注(≥40分)、重点关注(≥20分)和一般关注(≥5分)三类,进行分级预警。本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于机器学习的企业外迁风险预警方法,其特征在于,所述方法的步骤包括:
构造特征变量,形成企业外迁预测特征数据库;
在所述企业外迁预测特征数据库中的样本集呈平衡数据集的状态下,构建特征选择模型并建立模型数据库;
根据所述模型数据库中的数据,建立并验证企业外迁预测模型;
对构建完成的所述企业外迁预测模型输入新样本,得所述新样本对应的企业外迁概率。
2.根据权利要求1所述的基于机器学习的企业外迁风险预警方法,其特征在于,所述方法的步骤还包括:
基于获得的所述企业外迁概率,结合预设评估项,采用情景综合分析法对企业进行分级预警。
3.根据权利要求1所述的基于机器学习的企业外迁风险预警方法,其特征在于,“构造特征变量,形成企业外迁预测特征数据库”包括:
整理外迁企业和非外迁企业的名单,获取名单中企业多个维度的数据样本;
根据所述数据样本构造特征变量;
按预设时间段,计算名单中所有企业不同特征变量的数值,形成企业外迁预测特征数据库。
4.根据权利要求3所述的基于机器学习的企业外迁风险预警方法,其特征在于,“计算名单中所有企业不同特征变量的数值,形成企业外迁预测特征数据库”包括:
计算名单中所有企业的用电量环比变化值、用水量环比变化值、专利数量环比变化值、已享受的本地政策数量、所属产业在注册地的企业数量、异地投资频率、异地投资金额、异地招聘人员数量、异地投资接洽报道数量、接待异地官员到访报道数量;
将特征变量中关于企业是否外迁、企业是否异地置地、企业是否享受所在地政策、企业是否存在裁员报道的结果由字符型转换为数字型,其中,结果为“是”的转换为“1”,结果为“否”的转换为“0”。
5.根据权利要求1所述的基于机器学***衡数据集的状态”包括:
判断所述企业外迁预测特征数据库中外迁企业与非外迁企业是否平衡;
在外迁企业与非外迁企业不平衡状态时,对所述企业外迁预测特征数据库中的数据进行欠采样,使所述外迁企业与所述非外迁企业的比例为1:1,形成所述平衡数据集。
6.根据权利要求1所述的基于机器学习的企业外迁风险预警方法,其特征在于,“构建特征选择模型并建立模型数据库”包括:
根据所述平衡数据集,利用随机森林算法,建立特征选择模型;
通过所述特征选择模型计算每一所述特征变量的相对重要性值;
在所述相对重要性值小于预设重要性值时,剔除该特征变量对应的数据,形成所述模型数据库。
7.根据权利要求1所述的基于机器学习的企业外迁风险预警方法,其特征在于,“根据所述模型数据库中的数据,建立并验证企业外迁预测模型”包括:
按照预设比例将所述模型数据库中的数据划分为训练集和测试集;
建立基于机器学习分类算法的所述企业外迁预测模型,并设置模型参数;
以所述训练集作为所述企业外迁预测模型的训练数据,优化所述模型参数;
利用所述测试集验证训练好的所述企业外迁预测模型的模型精度,直至达到预设精度。
8.根据权利要求7所述的基于机器学习的企业外迁风险预警方法,其特征在于:按照7:3比例将所述模型数据库中的数据划分为训练集和测试集。
9.根据权利要求7所述的基于机器学习的企业外迁风险预警方法,其特征在于,“利用所述测试集验证训练好的所述企业外迁预测模型的模型精度”包括利用模型准确率、模型查全率验证模型精度。
10.一种基于机器学习的企业外迁风险预警***,其特征在于,所述***包括至少一个数据处理器和存储器,所述存储器中存储有指令,当通过至少一个所述处理器来执行该指令时,实施按照权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210258025.6A CN114511250A (zh) | 2022-03-16 | 2022-03-16 | 一种基于机器学习的企业外迁风险预警方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210258025.6A CN114511250A (zh) | 2022-03-16 | 2022-03-16 | 一种基于机器学习的企业外迁风险预警方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114511250A true CN114511250A (zh) | 2022-05-17 |
Family
ID=81552968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210258025.6A Pending CN114511250A (zh) | 2022-03-16 | 2022-03-16 | 一种基于机器学习的企业外迁风险预警方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114511250A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115660796A (zh) * | 2022-12-09 | 2023-01-31 | 北京中科闻歌科技股份有限公司 | 迁出风险企业的税源管理方法、装置、设备及存储介质 |
-
2022
- 2022-03-16 CN CN202210258025.6A patent/CN114511250A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115660796A (zh) * | 2022-12-09 | 2023-01-31 | 北京中科闻歌科技股份有限公司 | 迁出风险企业的税源管理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104981A (zh) | 一种基于机器学习的水文预报精度评价方法及*** | |
CN111178611B (zh) | 一种日电量预测的方法 | |
Moghaddam et al. | An appropriate multiple criteria decision making method for solving electricity planning problems, addressing sustainability issue | |
CN111080356A (zh) | 一种利用机器学习回归模型计算住宅价格影响因素的方法 | |
CN113537807B (zh) | 一种企业智慧风控方法及设备 | |
CN110930250A (zh) | 企业信用风险的预测方法及***、存储介质及电子设备 | |
CN114429245A (zh) | 一种工程造价数据的分析展示方法 | |
CN107256461B (zh) | 一种充电设施建设地址评价方法及*** | |
CN113642922A (zh) | 一种中小微企业信用评估方法及装置 | |
CN108805471A (zh) | 基于复合***作用关系分析的水资源承载能力评价方法 | |
CN115393148A (zh) | 自然资源用数据监测***、监测方法、设备、介质及终端 | |
CN114511250A (zh) | 一种基于机器学习的企业外迁风险预警方法及*** | |
CN116739742A (zh) | 信贷风控模型的监控方法、装置、设备及存储介质 | |
CN114118793A (zh) | 一种地方交易所风险预警方法、装置及设备 | |
CN117495094A (zh) | 一种产业链安全风险综合评估预警方法与*** | |
CN113450004A (zh) | 电力信用报告生成方法、装置、电子设备及可读存储介质 | |
CN117746546A (zh) | 基于叫号器的服务业务办理方法及*** | |
CN116911994A (zh) | 对外贸易风险预警*** | |
CN114510405B (zh) | 指标数据评估方法、装置、设备、存储介质及程序产品 | |
CN110866696A (zh) | 商铺掉铺风险评估模型训练方法及装置 | |
CN113688506B (zh) | 基于微站等多维数据的潜在大气污染源识别方法 | |
CN113222255B (zh) | 一种合同履约表现量化及短期违约预测的方法及装置 | |
CN115204501A (zh) | 企业评估方法、装置、计算机设备和存储介质 | |
CN114418450A (zh) | 一种数据处理方法及装置 | |
CN114092216A (zh) | 企业信贷评级方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 215000 No. 101, Suhong Middle Road, Suzhou Industrial Park, Jiangsu Province Applicant after: Yuance Information Technology Co.,Ltd. Address before: 215000 No. 101, Suhong Middle Road, Suzhou Industrial Park, Jiangsu Province Applicant before: SUZHOU INDUSTRIAL PARK SURVEYING MAPPING AND GEOINFORMATION Co.,Ltd. |
|
CB02 | Change of applicant information |