CN113869639B - 长江流域企业筛选方法、装置、电子设备及存储介质 - Google Patents

长江流域企业筛选方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113869639B
CN113869639B CN202110989218.4A CN202110989218A CN113869639B CN 113869639 B CN113869639 B CN 113869639B CN 202110989218 A CN202110989218 A CN 202110989218A CN 113869639 B CN113869639 B CN 113869639B
Authority
CN
China
Prior art keywords
enterprise
target
target field
data
liveness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110989218.4A
Other languages
English (en)
Other versions
CN113869639A (zh
Inventor
李海生
姜华
崔江龙
张列宇
鲍奕君
李国文
刘操
王文思
李晓光
黎佳茜
赵琛
李曹乐
李伟
侯霄霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Research Academy of Environmental Sciences
Original Assignee
Chinese Research Academy of Environmental Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Research Academy of Environmental Sciences filed Critical Chinese Research Academy of Environmental Sciences
Priority to CN202110989218.4A priority Critical patent/CN113869639B/zh
Publication of CN113869639A publication Critical patent/CN113869639A/zh
Priority to PCT/CN2022/127385 priority patent/WO2023025332A1/zh
Application granted granted Critical
Publication of CN113869639B publication Critical patent/CN113869639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种长江流域企业筛选方法、装置、电子设备及存储介质,应用于环保技术领域,所述方法包括:获取属于预设行业类别的原始企业数据,将原始企业数据与经过筛选的本地企业数据进行对比,得到原始企业数据和本地企业数据的共有企业数据;从共有企业数据的经营范围中提取出第一文本特征,从原始企业数据中各个企业的经营范围中提取出第二文本特征;将每个企业对应的第二文本特征分别和第一文本特征进行特征匹配,如果匹配结果满足预设条件,确定该企业为第一目标企业。本申请可以提高企业筛选的准确性。

Description

长江流域企业筛选方法、装置、电子设备及存储介质
技术领域
本申请涉及环保技术领域,尤其涉及一种长江流域企业筛选方法、装置、电子设备及存储介质。
背景技术
在长江流域,总磷污染已经超过COD(化学需氧量)和氨氮,成为全流域的首要污染物。总磷超标以后,首先会导致水体富营养化,污秽发臭甚至出现赤潮;其次,磷对人体皮肤也能直接造成危害,引发各种皮肤炎症,以及呕吐、腹泻、头疼甚至中毒等情况。可见,长江保护修复刻不容缓。“三磷”(即磷矿、磷化工厂和磷石膏库)整治是长江保护修复攻坚战的重要内容之一。
长江流域横跨中国东部、中部和西部三大经济区,长江经济带集中了我国大部分磷化工产能,全面摸清“三磷”企业的数量,是决胜长江修复攻坚战的基础。目前,环保监管人员所获取的“三磷”企业的准确性较低。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种长江流域企业筛选方法、装置、电子设备及存储介质。
根据本申请的第一方面,提供了一种长江流域企业筛选方法,包括:
获取属于预设行业类别的原始企业数据,将所述原始企业数据与经过筛选的本地企业数据进行对比,得到所述原始企业数据和所述本地企业数据的共有企业数据;
从所述共有企业数据的经营范围中提取出第一文本特征,从所述原始企业数据中各个企业的经营范围中提取出第二文本特征;
将每个所述企业对应的第二文本特征分别和所述第一文本特征进行特征匹配,如果匹配结果满足预设条件,确定该企业为第一目标企业。
在一种可选的实施方式中,在确定该企业为第一目标企业之后,所述方法还包括:
确定所述第一目标企业的活跃度,并基于所述活跃度,从所述第一目标企业中筛选出第二目标企业。
在一种可选的实施方式中,所述从所述共有企业数据的经营范围中提取出第一文本特征,包括:
从所述共有企业数据的经营范围中提取出至少一个第一目标字段,并统计所述至少一个第一目标字段的词频数;
将所述第一目标字段与所述词频数的映射关系作为第一文本特征;
所述从所述原始企业数据中各个企业的经营范围中提取出第二文本特征,包括:
针对所述原始企业数据中的每个企业,从该企业的经营范围中提取出至少一个第二目标字段;
将所述第二目标字段作为该企业对应的第二文本特征。
在一种可选的实施方式中,所述第一目标字段和所述第二目标字段包括:经营方式字段和经营内容字段。
在一种可选的实施方式中,所述将每个所述企业对应的第二文本特征分别和所述第一文本特征进行特征匹配,如果匹配结果满足预设条件,确定该企业为第一目标企业,包括:
计算所述各个企业对应的第二文本特征中的第二目标字段与所述第一文本特征中每个第一目标字段之间的相似度;
针对每个第二目标字段,将与该第二目标字段之间的相似度大于预设相似度阈值的第一目标字段,确定为该第二目标字段对应的第一目标字段;
将该第二目标字段对应的所有第一目标字段的词频数之和作为该第二目标字段的词频数;
如果该第二目标字段的词频数大于预设词频数,则将该第二目标字段对应的企业作为第一目标企业。
在一种可选的实施方式中,所述确定所述第一目标企业的活跃度,包括:
获取所述第一目标企业在至少一个维度的活跃度指标数据;
针对每个维度的活跃度指标数据,确定该维度的活跃度指标数据的活跃度;
将所述至少一个维度的活跃度指标数据的活跃度进行加权平均,确定所述第一目标企业的活跃度。
在一种可选的实施方式中,所述针对每个维度的活跃度指标数据,确定该维度的活跃度指标数据的活跃度,包括:
针对每个维度的活跃度指标数据,如果该维度的活跃度指标数据属于数值类型,根据该维度的活跃度指标数据的大小,确定该维度的活跃度指标数据的活跃度;
如果该维度的活跃度指标数据属于非数值类型,根据该维度的活跃度指标数据的存在情况,确定该维度的活跃度指标数据的活跃度。
根据本申请的第二方面,提供了一种长江流域企业筛选装置,包括:
共有企业数据确定模块,用于获取属于预设行业类别的原始企业数据,将所述原始企业数据与经过筛选的本地企业数据进行对比,得到所述原始企业数据和所述本地企业数据的共有企业数据;
文本特征提取模块,用于从所述共有企业数据的经营范围中提取出第一文本特征,从所述原始企业数据中各个企业的经营范围中提取出第二文本特征;
第一目标企业确定模块,用于将每个所述企业对应的第二文本特征分别和所述第一文本特征进行特征匹配,如果匹配结果满足预设条件,确定该企业为第一目标企业。
在一种可选的实施方式中,所述装置还包括:
活跃度确定模块,用于确定所述第一目标企业的活跃度;
第二目标企业确定模块,用于基于所述活跃度,从所述第一目标企业中筛选出第二目标企业。
在一种可选的实施方式中,文本特征提取模块,具体用于从所述共有企业数据的经营范围中提取出至少一个第一目标字段,并统计所述至少一个第一目标字段的词频数;将所述第一目标字段与所述词频数的映射关系作为第一文本特征;以及
针对所述原始企业数据中的每个企业,从该企业的经营范围中提取出至少一个第二目标字段,将所述第二目标字段作为该企业对应的第二文本特征。
在一种可选的实施方式中,所述第一目标字段和所述第二目标字段包括:经营方式字段和经营内容字段。
在一种可选的实施方式中,所述第一目标企业确定模块,具体用于计算所述各个企业对应的第二文本特征中的第二目标字段与所述第一文本特征中每个第一目标字段之间的相似度;针对每个第二目标字段,将与该第二目标字段之间的相似度大于预设相似度阈值的第一目标字段,确定为该第二目标字段对应的第一目标字段;将该第二目标字段对应的所有第一目标字段的词频数之和作为该第二目标字段的词频数;如果该第二目标字段的词频数大于预设词频数,则将该第二目标字段对应的企业作为第一目标企业。
在一种可选的实施方式中,所述活跃度确定模块,具体用于获取所述第一目标企业在至少一个维度的活跃度指标数据;针对每个维度的活跃度指标数据,确定该维度的活跃度指标数据的活跃度;将所述至少一个维度的活跃度指标数据的活跃度进行加权平均,确定所述第一目标企业的活跃度。
在一种可选的实施方式中,所述活跃度确定模块通过下述步骤实现针对每个维度的活跃度指标数据,确定该维度的活跃度指标数据的活跃度:
针对每个维度的活跃度指标数据,如果该维度的活跃度指标数据属于数值类型,根据该维度的活跃度指标数据的大小,确定该维度的活跃度指标数据的活跃度;
如果该维度的活跃度指标数据属于非数值类型,根据该维度的活跃度指标数据的存在情况,确定该维度的活跃度指标数据的活跃度。
根据本申请的第三方面,提供了一种电子设备,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
根据本申请的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
根据本申请的第五方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面所述的方法。
本申请实施例提供的技术方案与现有技术相比具有如下优点:
根据预设行业类别获取原始企业数据,将原始企业数据与经过筛选的本地企业数据进行对比,得到共有企业数据。共有企业数据可以认为是本地企业数据中经过确认的、并且留存至今的企业。进一步地,对共有企业数据的经营范围进行文本分析,提取出第一文本特征作为参考特征,将各个企业对应的第二文本特征与该第一文本特征进行匹配,筛选出第一目标企业,从而可以提高第一目标企业筛选的准确性。进而,可以提高环保监管人员的督查效率,节省人力成本。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中长江流域企业筛选方法的一种流程图;
图2为本申请实施例中长江流域企业筛选方法的一种示意图;
图3为本申请实施例中长江流域企业筛选方法的又一种流程图;
图4为本申请实施例中长江流域企业筛选装置的一种结构示意图;
图5为本申请实施例中电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面将对本申请的方案进行进一步描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但本申请还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本申请的一部分实施例,而不是全部的实施例。
长江经济带存在数量众多的“三磷”企业,由于环保监管人员获得的企业名单具有滞后性,用于督察监管的企业名单存在着既不全又不准的问题,这无疑给长江流域的“三磷”企业的督察工作带来巨大的压力。
为了解决上述问题,本申请提供了一种长江流域企业筛选方法、装置、电子设备及存储介质,以提高企业筛选的准确性,提升督察效率及目标靶向,并节省人力成本,对实现长江流域“三磷”企业的精准识别具有重要意义。
参见图1,图1为本申请实施例中长江流域企业筛选方法的一种流程图,可以包括以下步骤:
步骤S110,获取属于预设行业类别的原始企业数据,将原始企业数据与经过筛选的本地企业数据进行对比,得到原始企业数据和本地企业数据的共有企业数据。
本申请实施例中,为了提高督察企业名单的时效性,可以从互联网上获取最新的原始企业数据。预设行业类别即为待监管的行业类别,可以是经过专家认定的行业类别,可以根据实际需求进行设置,例如,可以是涉“磷”企业的国民经济行业类别等。原始企业数据包括多个企业的企业信息,每个企业信息可以包括:公司名称、统一社会信用代码、登记注册号码、主体名称、主体类型、主体状态、成立日期、注册资本币种、注册资本、行业门类、行业类型、所在地区、经营范围、经营地址、人员数量等。
原始企业数据也可能存在着谬误,可选的,可以对数据质量进行审核。即,可以对原始企业数据进行清洗。其中,信息谬误主要存在于公司名称中,在公司名称字段中存在着括号、数字、英文、符号等无效文本,可以通过文本处理技术对该公司名称字段中的文本进行规整,删除括号、数字、英文和符号等无效文本。可以理解的是,如果其他字段中也存在无效文本,也可以按照同样的方式删除无效文本。
本地企业数据可以是通过环保监管人员经专家认定的数据,将原始企业数据与本地企业数据进行对比,即可得到两者的共有数据,即共有企业数据。由于原始企业数据和本地企业数据均是企业维度的数据,在进行比较时,可以直接比较公司名称字段即可。例如,原始企业数据中包括企业B、C、D、F的企业信息,本地企业数据中包括企业A、B、C的企业信息。那么,共有企业数据即为企业B、C的企业数据。其中,企业A是之前存在的企业,现在已注销,企业D、F为新注册的企业。可见,共有企业数据可以认为是本地企业数据中经过确认的、并且留存至今的企业。由于共有企业数据中可能存在公司名称不同,但是实际是一家企业的情况,因此,可以其进行去重处理,以降低数据处理量。
步骤S120,从共有企业数据的经营范围中提取出第一文本特征,从原始企业数据中各个企业的经营范围中提取出第二文本特征。
需要说明的是,仅通过预设行业类别不能满足精准筛选企业的需求,而根据企业的经营范围可以准确确定该企业是否为要筛选的企业,因此,可以对企业的经营范围进行文本分析,以进一步筛选出更准确的企业。具体的,可以对共有企业数据的经营范围进行文本分析,通过分词、词性判断等技术,提取出第一文本特征。类似地,针对原始企业数据,可以获取其中每个企业的企业数据,对每个企业的企业数据的经营范围分别提取第二文本特征。可以看出,该第一文本特征是基于所有共有企业数据提取的特征,第二文本特征是每个企业对应的文本特征。这样,可以将该第一文本特征作为基准,通过对比第一文本特征和第二本文特征,从原始企业数据中筛选出目标企业。
步骤S130,将每个企业对应的第二文本特征分别和第一文本特征进行特征匹配,如果匹配结果满足预设条件,确定该企业为第一目标企业。
针对每个企业对应的第二文本特征,可以将该第二文本特征与第一文本特征进行特征匹配,如果匹配结果满足匹配条件,可以认为该企业是要筛选的企业,将该企业作为第一目标企业;如果匹配结果不满足匹配条件,可以认为该企业不是要筛选的企业,过滤掉该企业即可。
其中,第二文本特征与第一文本特征中均可以包含经营内容,可以将两者的经营内容进行匹配,如果存在相同的经营内容,可以认为满足匹配条件,如果不存在相同的经营内容,可以认为不满足匹配条件。当然,第二文本特征与第一文本特征的匹配方式不限于此。
本申请实施例的长江流域企业筛选方法,可以根据预设行业类别获取原始企业数据,将原始企业数据与经过筛选的本地企业数据进行对比,得到共有企业数据。共有企业数据可以认为是本地企业数据中经过确认的、并且留存至今的企业。进一步地,对共有企业数据的经营范围进行文本分析,提取出第一文本特征作为参考特征,将各个企业对应的第二文本特征与该第一文本特征进行匹配,筛选出第一目标企业,从而可以提高第一目标企业筛选的准确性。例如,在筛选涉“磷”企业的情况下,从互联网中获取涉“磷”的原始企业数据,将原始企业数据与经过专家确认的、涉“磷”的本地企业数据进行对比,得到共有企业数据。从共有企业数据的经营范围中提取涉“磷”的第一文本特征。将原始企业数据中每个企业的经营范围中提取第二文本特征,将第二文本特征与第一文本特征进行匹配,可以匹配出涉“磷”企业,可以提高企业筛选的准确性,即提高督察对象的靶向性,节省人力成本。
参见图2,图2为图1实施例对应的长江流域企业筛选方法的一种示意图。首先可以根据要筛选的企业的行业类别,从互联网获取原始企业数据,将原始企业数据与本地企业数据进行对比,得到共有企业数据。其中,本地企业数据可以是经过专家确认的企业,也就是符合要筛选的企业的行业类型。共有企业数据即为本地企业数据中经过确认的、并且留存至今的企业。
通过对共有企业数据进行文本分析,提取出经营范围的第一文本特征,第一文本特征是代表共有企业数据的特征。同样地,可以将原企业数据以企业为维度,对每个企业的经营范围提取第二文本特征。将每个企业对应的第二文本特征和第一文本特征进行特征匹配,以确认该企业是否为第一目标企业。
参见图3,图3为本申请实施例中长江流域企业筛选方法的又一种流程图,可以包括以下步骤:
步骤S310,获取属于预设行业类别的原始企业数据,将原始企业数据与经过筛选的本地企业数据进行对比,得到原始企业数据和本地企业数据的共有企业数据。
本步骤与图1实施例步骤S110相同,具体参见图1实施例中的描述即可,在此不再赘述。
步骤S320,从共有企业数据的经营范围中提取出第一文本特征,从原始企业数据中各个企业的经营范围中提取出第二文本特征。
由于经营范围通常由简短的词语组成,因此,本申请实施例中提取的第一文本特征可以是经营范围中的字段,该字段是与预设行业类别相关的字段。可选的,可以从共有企业数据的经营范围中提取出至少一个第一目标字段。例如,对于涉“磷”的企业,经营范围中通常可以包括:有机肥、复合肥等经营内容字段。第一目标字段可以是经营内容字段,例如可以包括“有机肥”、“复合肥”等。
企业的经营范围通常属于“动作+对象”的模式,例如,经营范围为生产有机肥,那么生产属于经营方式字段,有机肥属于经营内容字段。因此,第一目标字段可以包括:经营方式字段和经营内容字段。从上述经营范围中提取到的第一目标字段即为“生产有机肥”。
之后,统计至少一个第一目标字段的词频数,将第一目标字段与词频数的映射关系作为第一文本特征。参见表1,表1为第一目标字段与词频数的映射关系。
表1
第一目标字段 词频数
生产+有机肥|磷化工产品 n1
研发+复合肥 n2
生产+水溶肥 n3
…… ……
针对原始企业数据中的每个企业,从该企业的经营范围中提取出至少一个第二目标字段,将第二目标字段作为该企业对应的第二文本特征。同样地,第二目标字段可以是经营内容字段,或者,也可以包括:经营方式字段和经营内容字段。
步骤S330,将每个企业对应的第二文本特征分别和第一文本特征进行特征匹配,如果匹配结果满足预设条件,确定该企业为第一目标企业。
本申请实施例中,可以计算各个企业对应的第二文本特征中的第二目标字段与第一文本特征中每个第一目标字段之间的相似度。针对每个第二目标字段,将与该第二目标字段之间的相似度大于预设相似度阈值的第一目标字段,确定为该第二目标字段对应的第一目标字段。也就是,从第一目标字段中筛选与第二目标字段相似度较高的第一目标字段,将该第二目标字段对应的所有第一目标字段的词频数之和作为该第二目标字段的词频数。
表2
如表2所示,对于企业A,如果经营范围包括两个第二目标字段:生产+有机肥|磷化工产品和研发+复合肥,针对每个第二目标字段,可以从第一目标字段中筛选出匹配的第一目标字段,即生产+有机肥|磷化工产品和研发+复合肥,生产+有机肥|磷化工产品对应的词频数为n1,研发+复合肥对应的词频数为n2,因此,企业A对应的第二目标字段的词频数为n1+n2。同理,企业B对应的第二目标字段的词频数为n3。
可以理解的是,企业对应的第二目标字段的词频数越高,该企业越有可能为要筛选的企业。如果该第二目标字段的词频数大于预设词频数,该则将该第二目标字段对应的企业作为第一目标企业。预设词频数可以为30、40等,本申请不做限定。
步骤S340,确定第一目标企业的活跃度,并基于活跃度,从第一目标企业中筛选出第二目标企业。
对于企业的经济活动水平的了解,基本上都是通过企业年报的方式获得。年报方式不能够满足环保督察的时效性需求,大量的僵尸企业和空壳企业会造成大量的人力资源浪费。为了进一步提高所筛选的企业的准确性,可以分析第一目标企业的活跃度,基于活跃度确定该企业是否属于僵尸企业或空壳企业,从第一目标企业中删除僵尸企业和空壳企业,从而筛选出更准确的第二目标企业。
具体的,可以获取第一目标企业在至少一个维度的活跃度指标数据。例如,可以从互联网中获取以下维度的活跃度指标数据:工商、市场监管部门基本数据、其他行政部门数据(包括纳税数据)、招聘信息、媒体信息、媒体宣传、网站信息、采购交易、资本运作等。
针对每个维度的活跃度指标数据,可以确定该维度的活跃度指标数据的活跃度。活跃度指标数据通常包含两个类型:数值类型和非数值类型,数值类型即表示该活跃度指标数据的大小,分数值类型也可以认为是有无类型,即该活跃度指标数据是否存在。针对每个维度的活跃度指标数据,如果该维度的活跃度指标数据属于数值类型,根据该维度的活跃度指标数据的大小,确定该维度的活跃度指标数据的活跃度。
例如,如果活跃度指标数据的大小为0,可以将0作为活跃度指标数据的活跃度;如果活跃度指标数据的大小大于0且小于预设上限值,可以将活跃度指标数据的大小与预设上限值的比值,与第一预设标准数值(例如可以是100等)的乘积,作为活跃度指标数据的活跃度;如果活跃度指标数据的大小大于或等于预设上限值,可以将第一预设标准数值作为活跃度指标数据的活跃度。
如果该维度的活跃度指标数据属于非数值类型,根据该维度的活跃度指标数据的存在情况,确定该维度的活跃度指标数据的活跃度。例如,如果该维度的活跃度指标数据存在,可以将第二预设标准数值作为活跃度指标数据的活跃度,如果该维度的活跃度指标数据不存在,可以将0作为活跃度指标数据的活跃度。
之后,将至少一个维度的活跃度指标数据的活跃度进行加权平均,即可确定第一目标企业的活跃度。其中,各个维度的活跃度指标数据的权重可以通过专家打分的方式获得,当然,在活跃度评价过程中,也可以根据实际情况对上述权重进行调整。另外,每个维度的活跃度指标数据也可以进一步细分为多个维度,并为每个维度设置对应的权重,以提高活跃度确定的准确性。
可以理解的是,如果最终计算得到的第一目标企业的活跃度为0,表示该第一企业已经注销。如果第一目标企业的活跃度不为0,表示该第一企业还未注销。本申请实施例中,还可以根据各个第一目标企业的活跃度,设定多个活跃度等级(例如,高活跃度、中活跃度和低活跃度),将各个第一目标企业划分至不同的等级,以便后续对不同活跃度等级的企业进行分析。其中,不同活跃度等级对应的活跃度范围不同。
第一目标企业的活跃度越低,表示第一目标企业越有可能是僵尸企业或空壳企业,因此可以将活跃度大于预设活跃度的第一目标企业作为第二目标企业,或者,对第一目标企业对应活跃度由大到小进行排序,将前N个活跃度对应的第一目标企业作为第二目标企业,其中,N为小于第一目标企业总数的正整数。
本申请实施例的长江流域企业筛选方法,可以按照经营方式字段加经营内容字段的方式,从共有企业数据的经营范围中提取出第一文本特征,以及同原始企业数据各个企业的经营范围中提取出第二文本特征,通过该文本分析方式,可以更准确地筛选出第一目标企业。之后,通过进一步分析第一目标企业的活跃度,从全方位对企业状况进行把握,从第一目标企业中剔除僵尸企业和空壳企业,提高最终筛选的第二目标企业的准确性,进而提高环保监管人员督查的靶向性,节省人力成本。
相应于上述方法实施例,本申请实施例还提供了一种长江流域企业筛选装置,参见图4,该长江流域企业筛选装置400包括:
共有企业数据确定模块410,用于获取属于预设行业类别的原始企业数据,将原始企业数据与经过筛选的本地企业数据进行对比,得到原始企业数据和本地企业数据的共有企业数据;
文本特征提取模块420,用于从共有企业数据的经营范围中提取出第一文本特征,从原始企业数据中各个企业的经营范围中提取出第二文本特征;
第一目标企业确定模块430,用于将每个企业对应的第二文本特征分别和第一文本特征进行特征匹配,如果匹配结果满足预设条件,确定该企业为第一目标企业。
在一种可选的实施方式中,上述长江流域企业筛选装置还包括:
活跃度确定模块,用于确定第一目标企业的活跃度;
第二目标企业确定模块,用于基于活跃度,从第一目标企业中筛选出第二目标企业。
在一种可选的实施方式中,文本特征提取模块,具体用于从共有企业数据的经营范围中提取出至少一个第一目标字段,并统计至少一个第一目标字段的词频数;将第一目标字段与词频数的映射关系作为第一文本特征;以及
针对原始企业数据中的每个企业,从该企业的经营范围中提取出至少一个第二目标字段,将第二目标字段作为该企业对应的第二文本特征。
在一种可选的实施方式中,第一目标字段和第二目标字段包括:经营方式字段和经营内容字段。
在一种可选的实施方式中,第一目标企业确定模块,具体用于计算各个企业对应的第二文本特征中的第二目标字段与第一文本特征中每个第一目标字段之间的相似度;针对每个第二目标字段,将与该第二目标字段之间的相似度大于预设相似度阈值的第一目标字段,确定为该第二目标字段对应的第一目标字段;将该第二目标字段对应的所有第一目标字段的词频数之和作为该第二目标字段的词频数;如果该第二目标字段的词频数大于预设词频数,则将该第二目标字段对应的企业作为第一目标企业。
在一种可选的实施方式中,活跃度确定模块,具体用于获取第一目标企业在至少一个维度的活跃度指标数据;针对每个维度的活跃度指标数据,确定该维度的活跃度指标数据的活跃度;将至少一个维度的活跃度指标数据的活跃度进行加权平均,确定第一目标企业的活跃度。
在一种可选的实施方式中,活跃度确定模块通过下述步骤实现针对每个维度的活跃度指标数据,确定该维度的活跃度指标数据的活跃度:
针对每个维度的活跃度指标数据,如果该维度的活跃度指标数据属于数值类型,根据该维度的活跃度指标数据的大小,确定该维度的活跃度指标数据的活跃度;
如果该维度的活跃度指标数据属于非数值类型,根据该维度的活跃度指标数据的存在情况,确定该维度的活跃度指标数据的活跃度。
上述装置中各模块或单元的具体细节已经在对应的方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本申请的示例性实施例中,还提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行本示例实施方式中上述长江流域企业筛选方法。
图5为本申请实施例中电子设备的一种结构示意图。需要说明的是,图5示出的电子设备500仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有***操作所需的各种程序和数据。中央处理单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如局域网(LAN)卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元501执行时,执行本申请的装置中限定的各种功能。
本申请实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述长江流域企业筛选方法。
需要说明的是,本申请所示的计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器、只读存储器、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频等等,或者上述的任意合适的组合。
本申请实施例中,还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述长江流域企业筛选方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种长江流域企业筛选方法,其特征在于,所述方法包括:
获取属于预设行业类别的原始企业数据,将所述原始企业数据与经过筛选的本地企业数据进行对比,得到所述原始企业数据和所述本地企业数据的共有企业数据;
从所述共有企业数据的经营范围中提取出至少一个第一目标字段,并统计所述至少一个第一目标字段的词频数;
将所述第一目标字段与所述词频数的映射关系作为第一文本特征;
针对所述原始企业数据中的每个企业,从该企业的经营范围中提取出至少一个第二目标字段;
将所述第二目标字段作为该企业对应的第二文本特征;
计算所述各个企业对应的第二文本特征中的第二目标字段与所述第一文本特征中每个第一目标字段之间的相似度;
针对每个第二目标字段,将与该第二目标字段之间的相似度大于预设相似度阈值的第一目标字段,确定为该第二目标字段对应的第一目标字段;
将该第二目标字段对应的所有第一目标字段的词频数之和作为该第二目标字段的词频数;
如果该第二目标字段的词频数大于预设词频数,则将该第二目标字段对应的企业作为第一目标企业。
2.根据权利要求1所述的方法,其特征在于,在确定该企业为第一目标企业之后,所述方法还包括:
确定所述第一目标企业的活跃度,并基于所述活跃度,从所述第一目标企业中筛选出第二目标企业。
3.根据权利要求1所述的方法,其特征在于,所述第一目标字段和所述第二目标字段包括:经营方式字段和经营内容字段。
4.根据权利要求1所述的方法,其特征在于,所述确定所述第一目标企业的活跃度,包括:
获取所述第一目标企业在至少一个维度的活跃度指标数据;
针对每个维度的活跃度指标数据,确定该维度的活跃度指标数据的活跃度;
将所述至少一个维度的活跃度指标数据的活跃度进行加权平均,确定所述第一目标企业的活跃度。
5.根据权利要求4所述的方法,其特征在于,所述针对每个维度的活跃度指标数据,确定该维度的活跃度指标数据的活跃度,包括:
针对每个维度的活跃度指标数据,如果该维度的活跃度指标数据属于数值类型,根据该维度的活跃度指标数据的大小,确定该维度的活跃度指标数据的活跃度;
如果该维度的活跃度指标数据属于非数值类型,根据该维度的活跃度指标数据的存在情况,确定该维度的活跃度指标数据的活跃度。
6.一种长江流域企业筛选装置,其特征在于,所述装置包括:
共有企业数据确定模块,用于获取属于预设行业类别的原始企业数据,将所述原始企业数据与经过筛选的本地企业数据进行对比,得到所述原始企业数据和所述本地企业数据的共有企业数据;
文本特征提取模块,具体用于从所述共有企业数据的经营范围中提取出至少一个第一目标字段,并统计所述至少一个第一目标字段的词频数;
将所述第一目标字段与所述词频数的映射关系作为第一文本特征;
针对所述原始企业数据中的每个企业,从该企业的经营范围中提取出至少一个第二目标字段;
将所述第二目标字段作为该企业对应的第二文本特征;
第一目标企业确定模块,具体用于计算所述各个企业对应的第二文本特征中的第二目标字段与所述第一文本特征中每个第一目标字段之间的相似度;
针对每个第二目标字段,将与该第二目标字段之间的相似度大于预设相似度阈值的第一目标字段,确定为该第二目标字段对应的第一目标字段;
将该第二目标字段对应的所有第一目标字段的词频数之和作为该第二目标字段的词频数;
如果该第二目标字段的词频数大于预设词频数,则将该第二目标字段对应的企业作为第一目标企业。
7.一种电子设备,其特征在于,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法的步骤。
CN202110989218.4A 2021-08-26 2021-08-26 长江流域企业筛选方法、装置、电子设备及存储介质 Active CN113869639B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110989218.4A CN113869639B (zh) 2021-08-26 2021-08-26 长江流域企业筛选方法、装置、电子设备及存储介质
PCT/CN2022/127385 WO2023025332A1 (zh) 2021-08-26 2022-10-25 长江流域企业筛选方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110989218.4A CN113869639B (zh) 2021-08-26 2021-08-26 长江流域企业筛选方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113869639A CN113869639A (zh) 2021-12-31
CN113869639B true CN113869639B (zh) 2023-11-07

Family

ID=78988480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110989218.4A Active CN113869639B (zh) 2021-08-26 2021-08-26 长江流域企业筛选方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN113869639B (zh)
WO (1) WO2023025332A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113869639B (zh) * 2021-08-26 2023-11-07 中国环境科学研究院 长江流域企业筛选方法、装置、电子设备及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198111A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 特徴語抽出装置及びプログラム
CN106779467A (zh) * 2016-12-31 2017-05-31 成都数联铭品科技有限公司 基于自动信息筛选的企业行业分类***
CN107248023A (zh) * 2017-05-16 2017-10-13 中国民生银行股份有限公司 一种对标企业名单的筛选方法和装置
CN107330592A (zh) * 2017-06-20 2017-11-07 北京因果树网络科技有限公司 一种标的企业对象的筛选方法、装置及计算设备
CN107357851A (zh) * 2017-06-28 2017-11-17 国信优易数据有限公司 一种信息处理方法和***
CN108171276A (zh) * 2018-01-17 2018-06-15 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109101477A (zh) * 2018-06-04 2018-12-28 东南大学 一种企业领域分类及企业关键词筛选方法
CN110134759A (zh) * 2019-05-13 2019-08-16 极智(上海)企业管理咨询有限公司 一种获取企业的行业信息的方法
CN111538837A (zh) * 2020-04-27 2020-08-14 北京同邦卓益科技有限公司 用于分析企业经营范围信息的方法和装置
CN111597309A (zh) * 2020-05-25 2020-08-28 深圳市小满科技有限公司 相似企业推荐方法、装置、电子设备及介质
CN111767716A (zh) * 2020-06-24 2020-10-13 中国平安财产保险股份有限公司 企业多级行业信息的确定方法、装置及计算机设备
CN112163153A (zh) * 2020-09-30 2021-01-01 深圳前海微众银行股份有限公司 行业标签的确定方法、装置、设备及存储介质
CN112199588A (zh) * 2020-09-30 2021-01-08 深圳壹账通智能科技有限公司 舆情文本筛选方法及装置
CN112734156A (zh) * 2020-09-29 2021-04-30 红盾大数据(北京)有限公司 企业活跃度的评估方法、装置、设备以及存储介质
CN112862264A (zh) * 2021-01-18 2021-05-28 深圳微众信用科技股份有限公司 企业经营状况分析方法、计算机设备及计算机存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101814005B1 (ko) * 2017-08-21 2018-01-02 인천대학교 산학협력단 인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법
CN113869639B (zh) * 2021-08-26 2023-11-07 中国环境科学研究院 长江流域企业筛选方法、装置、电子设备及存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198111A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 特徴語抽出装置及びプログラム
CN106779467A (zh) * 2016-12-31 2017-05-31 成都数联铭品科技有限公司 基于自动信息筛选的企业行业分类***
CN107248023A (zh) * 2017-05-16 2017-10-13 中国民生银行股份有限公司 一种对标企业名单的筛选方法和装置
CN107330592A (zh) * 2017-06-20 2017-11-07 北京因果树网络科技有限公司 一种标的企业对象的筛选方法、装置及计算设备
CN107357851A (zh) * 2017-06-28 2017-11-17 国信优易数据有限公司 一种信息处理方法和***
CN108171276A (zh) * 2018-01-17 2018-06-15 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109101477A (zh) * 2018-06-04 2018-12-28 东南大学 一种企业领域分类及企业关键词筛选方法
CN110134759A (zh) * 2019-05-13 2019-08-16 极智(上海)企业管理咨询有限公司 一种获取企业的行业信息的方法
CN111538837A (zh) * 2020-04-27 2020-08-14 北京同邦卓益科技有限公司 用于分析企业经营范围信息的方法和装置
CN111597309A (zh) * 2020-05-25 2020-08-28 深圳市小满科技有限公司 相似企业推荐方法、装置、电子设备及介质
CN111767716A (zh) * 2020-06-24 2020-10-13 中国平安财产保险股份有限公司 企业多级行业信息的确定方法、装置及计算机设备
CN112734156A (zh) * 2020-09-29 2021-04-30 红盾大数据(北京)有限公司 企业活跃度的评估方法、装置、设备以及存储介质
CN112163153A (zh) * 2020-09-30 2021-01-01 深圳前海微众银行股份有限公司 行业标签的确定方法、装置、设备及存储介质
CN112199588A (zh) * 2020-09-30 2021-01-08 深圳壹账通智能科技有限公司 舆情文本筛选方法及装置
CN112862264A (zh) * 2021-01-18 2021-05-28 深圳微众信用科技股份有限公司 企业经营状况分析方法、计算机设备及计算机存储介质

Also Published As

Publication number Publication date
CN113869639A (zh) 2021-12-31
WO2023025332A1 (zh) 2023-03-02

Similar Documents

Publication Publication Date Title
CN110532357B (zh) Esg评分体系的生成方法、装置、设备及可读存储介质
CN104424613A (zh) 一种增值税***的监控方法及其***
CN108846592A (zh) 一种基于大数据的企业评价报告生成方法及装置
CN106131158A (zh) 一种云数据中心环境下基于云租户信用度的资源调度装置
CN113869640A (zh) 企业筛选方法、装置、电子设备及存储介质
CN114139490B (zh) 一种自动数据预处理的方法、装置以及设备
CN111274301B (zh) 一种基于数据资产智能治理方法及***
CN113869639B (zh) 长江流域企业筛选方法、装置、电子设备及存储介质
CN110782349A (zh) 一种模型训练方法和***
CN112835910B (zh) 一种企业信息与政策信息的处理方法和装置
CN112783948A (zh) 区域经济运行数据分析方法、设备及存储介质
CN116561345A (zh) 一种基于多模态数据公司情报知识图谱构建方法
CN112419124A (zh) 一种低效工业用地的快速识别方法、装置及其存储介质
CN111931021A (zh) 一种基于数据挖掘的工程国家标准数据库自适应构建方法
CN116166999A (zh) 异常交易数据识别方法、装置、计算机设备及存储介质
James Effect of environmental performance disclosure on the profitability of the oil and gas industry in Nigeria
CN111461524A (zh) 司法辅助机构信誉评价方法、***、设备及存储介质
CN116738343B (zh) 建筑行业物料数据识别方法、装置及电子设备
CN111652501B (zh) 金融产品评估装置及方法、电子设备、存储介质
CN113129133B (zh) 一种融资平台企业性质分类方法和***
CN117252715B (zh) 基于规则引擎的保险核保检查方法、***
CN114048330B (zh) 风险传导概率知识图谱生成方法、装置、设备及存储介质
CN118051612A (zh) 行业分类***及方法
CN117632436A (zh) 一种针对铁路信息***的应用程序迁移评估方法及装置
CN112330169A (zh) 一种基于政务大数据的信用评价方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant