CN114519048A

CN114519048A - 数据识别方法、装置、设备及可读存储介质

Info

Publication number: CN114519048A
Application number: CN202210148686.3A
Authority: CN
Inventors: 程艾
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2022-02-17
Filing date: 2022-02-17
Publication date: 2022-05-20

Abstract

本申请实施例公开了一种数据识别方法、装置、设备及可读存储介质，涉及人工智能领域，其中，方法包括：获取企业在预设时间段内的初始污染排放数据，初始污染排放数据包括企业的初始废水排放数据和初始废气排放数据；基于数据清洗规则对初始污染排放数据进行数据清洗，得到第一废水排放数据和第一废气排放数据；基于第一废水排放数据和第一废气排放数据构建目标识别模型；获取目标时刻的第二污染排放数据；基于目标识别模型对第二污染排放数据进行识别，确定数据识别结果，数据识别结果包括企业存在违规排放的概率；基于数据识别结果确定针对企业的处理策略。采用本申请实施例，可以提高数据识别的效率。

Description

数据识别方法、装置、设备及可读存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种数据识别方法、装置、设备及可读存储介质。

背景技术

环境污染已经成为人们关注的重点问题，有效监测已经成为政府部门的重点任务，为了避免河流出现重污染，进行河流污染溯源，这也强制依赖了企业的监测排放。

控制企业污染排放主要依靠各级政府部门的环保部门的现场执法、监督来实现。尽管现已加密布设了监测点，但是当前我国环境执法人员不足，无法实行专人监察企业行为的地步，造成了企业为避免污染排放超标突发加大污染排放量，以此来稀释企业污染排放，减少企业污染排放超标的情况，并且，人工识别稀释企业污染排放的效率较低。对此，如何快速识别企业的稀释排放行为，提高监管力度是亟待解决的问题。

发明内容

本申请实施例提供一种数据识别方法、装置、设备及可读存储介质，可以提高数据识别的效率。

第一方面，本申请提供一种数据识别方法，包括：

获取企业在预设时间段内的初始污染排放数据，该初始污染排放数据包括该企业的初始废水排放数据和初始废气排放数据；

基于数据清洗规则对该初始污染排放数据进行数据清洗，得到第一废水排放数据和第一废气排放数据；

基于该第一废水排放数据和该第一废气排放数据构建目标识别模型；

获取目标时刻的第二污染排放数据，该第二污染排放数据包括第二废水排放数据和第二废气排放数据；基于该目标识别模型对该第二污染排放数据进行识别，确定数据识别结果，该数据识别结果包括该企业存在违规排放的概率；

基于该数据识别结果确定针对该企业的处理策略。

第二方面，本申请提供一种数据识别装置，包括：

第一获取模块，用于获取企业在预设时间段内的初始污染排放数据，该初始污染排放数据包括该企业的初始废水排放数据和初始废气排放数据；

数据清洗模块，用于基于数据清洗规则对该初始污染排放数据进行数据清洗，得到第一废水排放数据和第一废气排放数据；

模型构建模块，用于基于该第一废水排放数据和该第一废气排放数据构建目标识别模型；

第二获取模块，用于获取目标时刻的第二污染排放数据，该第二污染排放数据包括第二废水排放数据和第二废气排放数据；

模型识别模块，用于基于该目标识别模型对该第二污染排放数据进行识别，确定数据识别结果，该数据识别结果包括该企业存在违规排放的概率；

结果确定模块，用于基于该数据识别结果确定针对该企业的处理策略。

第三方面，本申请提供了一种计算机设备，包括：处理器、存储器、网络接口；

上述处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以使包含该处理器的计算机设备执行上述数据识别方法。

第四方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行上述数据识别方法。

第五方面，本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请第一方面中的各种可选方式中提供的数据识别方法。

本申请实施例中，通过获取企业在预设时间段内的初始污染排放数据，初始污染排放数据包括企业的初始废水排放数据和初始废气排放数据；基于数据清洗规则对初始污染排放数据进行数据清洗，得到第一废水排放数据和第一废气排放数据；基于第一废水排放数据和第一废气排放数据构建目标识别模型；获取目标时刻的第二污染排放数据；基于目标识别模型对第二污染排放数据进行识别，确定数据识别结果；基于数据识别结果确定针对企业的处理策略。通过获取初始污染排放数据进行数据清洗，使得清洗后的数据符合构建目标识别模型的条件，进而使用清洗后的污染排放数据构建目标识别模型时，可以提高目标识别模型构建的准确性和效率。进一步地，由于使用目标识别模型对污染排放数据进行识别，无需人工进行识别，可以提高数据识别效率。此外，由于针对数据识别结果确定针对企业的处理策略，不同的企业的处理策略不同，可以实现针对性处理，提高企业监管力度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据识别方法的流程示意图；

图2是本申请实施例提供的另一种数据识别方法的流程示意图；

图3是本申请实施例提供的一种数据识别装置的组成结构示意图；

图4是本申请实施例提供的一种计算机设备的组成结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请涉及人工智能中的机器学习技术，可以利用机器学习技术构建目标识别模型；还可以基于目标识别模型对污染排放数据进行识别，确定企业存在违规排放的概率，等等。本申请技术方案适用于对污染排放数据进行检测，确定企业是否存在违规排放的场景中，违规排放例如可以包括稀释排放。通过获取企业在预设时间段内的初始污染排放数据，初始污染排放数据包括企业的初始废水排放数据和初始废气排放数据；基于数据清洗规则对初始污染排放数据进行数据清洗，得到第一废水排放数据和第一废气排放数据；基于第一废水排放数据和第一废气排放数据构建目标识别模型；获取目标时刻的第二污染排放数据；基于目标识别模型对第二污染排放数据进行识别，确定数据识别结果；基于数据识别结果确定针对企业的处理策略。

通过获取初始污染排放数据进行数据清洗，使得清洗后的数据符合构建目标识别模型的条件，进而使用清洗后的污染排放数据构建目标识别模型时，可以提高目标识别模型构建的准确性和效率。进一步地，由于使用目标识别模型对污染排放数据进行识别，无需人工进行识别，可以提高数据识别效率。此外，由于针对数据识别结果确定针对企业的处理策略，不同的企业的处理策略不同，可以实现针对性处理，提高企业监管力度。

请参见图1，图1是本申请实施例提供的一种数据识别方法的流程示意图；如图1所示，该数据识别方法可以应用于计算机设备。其中，计算机设备可以是独立的服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。该计算机设备还可以是一种电子设备，包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(Augmented Reality/VirtualReality，AR/VR)设备、头盔显示器、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device，MID)等等。如图1所示，该数据识别方法包括但不限于以下步骤：

S101，获取企业在预设时间段内的初始污染排放数据。

本申请技术方案中，计算机设备可以获取多个企业的初始污染排放数据，基于初始污染排放数据构建目标识别模型，从而在获取到某一时刻企业的污染排放数据时，可以基于目标识别模型对该时刻下企业的污染排放数据进行识别，确定该企业存在违规排放的概率，例如该企业存在稀释排放的概率，便于确定针对该企业的处理策略。其中，稀释排放是指将需要排放的污染物(例如废水、废气等)稀释后排放，可以实现低浓度达标排放，但是其污染物实际的排放量没有减少，而且还耗费大量的能源、资源。可以理解的是，在本申请的具体实施方式中，涉及到企业信息如企业的污染排放数据等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得企业许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本申请实施例中，计算机设备可以从多个企业对应的终端获取初始污染排放数据，也可以从管理机构的终端中获取各个企业在预设时间段内的初始污染排放数据。其中，初始污染排放数据包括企业的初始废水排放数据和初始废气排放数据。废水是指工业生产过程中排出的废水和废液，其中含有随水流失的工业生产用料、中间产物、副产品以及生产过程中产生的污染物，是造成环境污染，特别是水污染的重要原因。废气可以是指企业厂区内燃料燃烧和生产工艺过程中产生的各种排入空气的含有污染物气体的总称，废气排入大气中，会污染空气。

其中，初始废水排放数据可以包括初始废水排放流量数据和初始废水监测因子数据；初始废气排放数据可以包括初始废气排放流量数据和初始废气监测因子数据。污染排放数据中废水监测因子的数量可以为N个，废气监测因子的数量可以为M个，N和M均为正整数。预设时间段可以是指历史时间段，例如前3年、前2年、前1年，等等。废水排放数据可以包括企业每次废水排放后发送至管理机构的废水排放流量，例如每个月废水排放流量或者每小时废水排放流量，等等。废气排放数据可以包括企业每次废气排放后发送至管理机构的废气排放流量，例如每个月废气排放流量或者每小时废气排放流量，等等。废水监测因子可以包括但不限于化学需氧量(COD)、氨氮(NH3-N)、总有机碳(TOC)、PH值，等等。废气监测因子可以包括但不限于粉尘(烟尘)、二氧化硫(SO2)、氮氧化物(NOX)、VOCs，等等。废水监测因子数据可以是指该企业排放的废水中包含的废水监测因子的排放浓度。例如废气监测因子为二氧化硫，则废水监测因子数据可以是指该企业排放的废水中包含的二氧化硫的排放浓度。废气监测因子数据可以是指该企业排放的废气中包含的废气监测因子的排放浓度。

可选地，由于废气监测因子包括一个或者多个，本申请实施例中是针对N个废水监测因子中的每个废水监测因子进行处理，确定企业是否存在违规操作的情况，即可以针对企业的任意一种废气监测因子的排放数据确定企业存在违规排放的概率。若污染排放数据中存在多个废气监测因子，针对每个废气监测因子均可以参考该种处理方式，从而得到由每种废气监测因子导致的企业违规排放的概率，再根据企业存在的每种废气监测因子的概率确定企业存在违规排放的概率。对应的，由于废水监测因子也包括一个或者多个，计算机设备也通过对企业的污染排放数据中的每个废水监测因子进行识别，确定由每种废水监测因子导致的企业违规排放的概率，再根据企业存在的每种废水监测因子的概率确定企业存在违规排放的概率。进一步地，计算机设备还可以结合企业的废水监测因子和废气监测因子，确定企业由于每个废水监测因子和每个废气监测因子导致的企业存在违规排放的概率。也就是说，若企业的污染排放数据中存在任意一个废水监测因子对应的排放数据异常，或者任意一个废气监测因子对应的排放数据异常，或者废气监测因子对应的排放数据和废水监测因子对应的排放数据均异常，均可以确定企业存在违规排放的概率。

可选地，本申请实施例中计算机设备可以获取多个企业中每个企业的历史违规排放信息，基于每个企业的历史违规排放信息确定企业的违规排放等级；获取违规排放等级大于违规等级阈值的至少一个高频违规企业，获取至少一个高频违规企业在预设时间段内的初始污染排放数据；基于数据清洗规则对每个高频违规企业的初始污染排放数据进行数据清洗；基于数据清洗后的污染排放数据构建目标识别模型；获取目标时刻每个高频违规企业的污染排放数据；基于目标识别模型对每个高频违规企业的污染排放数据进行识别，确定每个高频违规企业的数据识别结果，从而确定针对每个高频违规企业的处理策略。其中，历史违规排放信息可以包括但不限于企业存在历史违规排放的概率、历史违规排放次数、违规排放的行政处罚等级，以及违规排放的行政处罚次数中的至少一种。该种方式只需要针对高频违规企业的污染排放数据进行识别，无需针对每个企业的污染排放数据构建模型以及基于模型进行识别，可以提高模型识别效率，进而提高数据识别效率。

可选地，计算机设备还可以获取投诉数据，投诉数据中可以包括但不限于污染排放区域以及污染排放区域关联的企业的标识，基于污染排放区域和污染排放区域关联的企业的标识确定需要目标企业，基于目标企业的污染排放数据构建目标识别模型。具体地，若计算机设备获取到任意终端发送的投诉数据，该投诉数据可以是用户终端发送的，通过对投诉数据中的污染排放区域和与污染排放区域关联的企业的标识，可以确定该污染排放区域内可能存在违规排放的企业，进而对可能存在违规排放的企业对应的污染排放数据进行分析，可以提高数据识别效率。

S102，基于数据清洗规则对初始污染排放数据进行数据清洗，得到废水排放数据和第一废气排放数据。

本申请实施例中，由于计算机设备可以从不同的终端中获取到大量初始污染排放数据，初始污染排放数据比较杂乱，因此计算机设备可以对初始污染排放数据进行数据清洗，使得清洗后的污染排放数据的数据格式统一，便于后续构建目标识别模型，进而提高数据识别的准确性。计算机设备可以基于数据清洗规则对初始污染排放数据进行数据清洗，得到废水排放数据和第一废气排放数据。其中，数据清洗规则包括但不限于格式转换规则、数据去重规则、数据筛选规则以及数据转换规则。其中，格式转换规则用于对数据的格式进行转换，格式转换规则包括但不限于周期转换规则和单位转换规则。周期转换是指将初始污染排放数据转换为与预设数据格式具有相同周期的数据；单位转换是指将初始污染排放数据转换为与预设数据格式中的单位相同的数据。数据去重规则用于对相同数据进行删除。数据筛选规则用于对无法确定或者不完整的数据进行筛选。数据转换规则用于对数据进行转换，数据转换规则包括但不限于均值转换规则、求和转换规则、方差转换规则以及标准差转换规则等。

可选地，计算机设备可以基于格式转换规则对初始污染数据进行数据清洗。具体地，计算机设备可以获取预设数据格式和初始废水排放数据的数据格式，确定初始废水排放数据的数据格式是否符合预设数据格式；若初始废水排放数据的数据格式符合预设数据格式，则将初始废水排放数据确定为第一废水排放数据。若初始废水排放数据的数据格式不符合该预设数据格式，则基于初始废水排放数据的数据格式和预设数据格式之间的关联关系确定第一数据格式转换规则，基于第一数据格式转换规则将初始废水排放数据的数据格式转换为预设数据格式，并将转换后的废水排放数据确定为第一废水排放数据。进一步地，计算机设备还可以获取初始废气排放数据的数据格式，确定初始废气排放数据的数据格式是否符合预设数据格式；若初始废气排放数据的数据格式符合预设数据格式，则将初始废气排放数据确定为第一废气排放数据；若初始废气排放数据的数据格式不符合预设数据格式，则基于初始废气排放数据的数据格式和预设数据格式之间的关联关系确定第二数据格式转换规则，基于第二数据格式转换规则将初始废气排放数据的数据格式转换为预设数据格式，并将转换后的废气排放数据确定为第一废气排放数据。

其中，初始废水排放数据的数据格式和预设数据格式之间的关联关系用于指示初始废水排放数据的数据格式和预设数据格式之间的转换关系。例如第一数据格式转换规则为单位转换规则，则初始废水排放数据的数据格式和预设数据格式之间的关联关系为单位换算关系。例如数据格式为周期转换规则，则初始废水排放数据的数据格式和预设数据格式之间的关联关系为周期换算关系。第一数据格式转换规则和第二数据格式转换规则可以相同，也可以不相同，具体可以根据初始废气排放数据的数据格式和初始废水排放数据的数据格式以及预设数据格式确定。

举例来说，若预设数据格式为该企业一个月内的废气排放数据，而初始污染排放数据为该企业在一个月内每天的废气排放数据，则计算机设备可以对一个月内每天的废气排放数据进行周期转换，将一个月内每天的废气排放数值进行相加得到该企业在该一个月的废气排放数据。或者，若预设数据格式为mg/m3(即毫克每立方米)，而初始污染排放数据为该企业在一个月内每天的废气排放数据为g/m3(即克每立方米)，则可以将g/m3转换为mg/m3，从而使得初始污染排放数据的数据格式与预设数据格式相同。

S103，基于第一废水排放数据和第一废气排放数据构建目标识别模型。

本申请实施例中，第一废水排放数据和第一废气排放数据为数据清洗后的初始污染排放数据，计算机设备可以基于第一废水排放数据和第一废气排放数据构建目标识别模型。其中，第一废水排放数据包括第一废水排放流量数据和第一废水监测因子数据；第一废气排放数据包括第一废气排放流量数据和第一废气监测因子数据。

可选地，计算机设备可以通过以下三种方式构建目标识别模型：

第一种方式，计算机设备可以基于第一废水排放数据构建目标识别模型。具体地，计算机设备可以基于第一废水监测因子数据计算企业在每个周期内的第一废水监测因子的第一排放平均值；基于第一废水排放流量数据确定企业在每个周期内的第一废水排放平均值；基于第一排放平均值和第一废水排放平均值，构建目标识别模型。

第二种方式，计算机设备可以基于第一废气排放数据构建目标识别模型。具体地，计算机设备可以基于第一废气监测因子数据计算企业在每个周期内的第一废气监测因子的第二排放平均值；基于第一废气排放流量数据确定企业在每个周期内的第一废气排放平均值；基于第二排放平均值和第一废气排放平均值，构建目标识别模型。

第三种方式，计算机设备可以基于第一废水排放数据和第一废气排放数据构建目标识别模型。具体地，计算机设备可以基于第一废水监测因子数据计算企业在每个周期内的第一废水监测因子的第一排放平均值；基于第一废气监测因子数据计算企业在每个周期内的第一废气监测因子的第二排放平均值；基于第一废水排放流量数据确定企业在每个周期内的第一废水排放平均值；基于第一废气排放流量数据确定企业在每个周期内的第一废气排放平均值；基于第一排放平均值、第二排放平均值、第一废水排放平均值以及第一废气排放平均值，构建目标识别模型。

可选地，计算机设备可以基于以下方式构建目标识别模型：获取样本时刻的样本污染排放数据，样本污染排放数据包括废水排放数据和样本废气排放数据，样本废水排放数据包括样本废水排放流量数据和样本废水监测因子数据，样本废气排放数据包括样本废气排放流量数据和样本废气监测因子数据；若样本时刻的样本废水监测因子数据满足第一条件，则获取在预设时间段内样本废水监测因子数据满足第一条件的第一样本次数，以及第一条件对应的第一样本时间段；第一条件包括样本时刻的样本废水监测因子数据小于第一排放平均值，且样本废水排放流量数据大于第一废水排放平均值的预设倍数；若样本时刻的样本废气监测因子数据满足第二条件，则获取在预设时间段内样本废气监测因子数据满足第二条件的第二样本次数，以及第二条件对应的第二样本时间段；第二条件包括样本时刻的样本废气监测因子数据小于第二排放平均值，且样本废气排放流量数据大于第一废气排放平均值的预设倍数；基于第一样本次数、第一样本时间段、第二样本次数和第二样本时间段确定样本标签，基于样本标签构建目标识别模型。

具体实现中，计算机设备可以将样本时刻的样本污染排放数据输入目标识别模型，通过目标识别模型对样本污染排放数据进行处理，确定样本标签，从而基于样本标签构建目标识别模型。其中，目标识别模型对样本污染排放数据进行处理包括确定样本时刻的样本废水监测因子数据是否满足第一条件，以及在满足第一条件时获取在预设时间段内样本废水监测因子数据满足第一条件的第一样本次数，以及第一条件对应的第一样本时间段；还包括确定样本时刻的样本废气监测因子数据是否满足第二条件，以及在满足第二条件时获取在预设时间段内所述样本废气监测因子数据满足第二条件的第二样本次数，以及第二条件对应的第二样本时间段。进一步地，目标识别模型还可以基于第一样本次数、第一样本时间段、第二样本次数和第二样本时间段确定样本标签，基于样本标签构建目标识别模型。其中，预设倍数例如可以包括3倍、4倍或者其他倍数。

可选地，在计算机设备基于第一废水排放数据构建目标识别模型的情况下，计算机基于第一废水排放数据构建目标识别模型的方法可以包括：获取样本时刻的样本污染排放数据，样本污染排放数据包括样本废水排放流量数据和样本废水监测因子数据；若样本时刻的样本废水监测因子数据满足第一条件，则获取在预设时间段内样本废水监测因子数据满足第一条件的第一样本次数，以及第一条件对应的第一样本时间段；第一条件包括样本时刻的样本废水监测因子数据小于第一排放平均值，且样本废水排放流量数据大于第一废水排放平均值的预设倍数；基于第一样本次数和第一样本时间段确定样本标签，基于样本标签构建目标识别模型。可选地，若第一样本次数大于预设废水排放次数，则样本标签可以为企业存在违规排放的概率大于废水异常阈值。若第一样本次数小于或等于预设废水排放次数，则样本标签可以为企业存在违规排放的概率小于或等于废水异常阈值。

可选地，在第三种方式中，计算机设备基于第一废水排放数据和第一废气排放数据构建目标识别模型时，可以基于废水排放数据和废气排放数据分别对应的权重构建目标识别模型。具体地，计算机设备可以获取目标场景下第一废水排放数据的第一权重、和第一废气排放数据的第二权重；基于第一废水排放数据、第一权重、第一废气排放数据和第二权重，构建目标识别模型。其中，计算机设备可以基于企业所属的地域内的环境天气数据确定第一权重和第二权重。环境天气数据可以包括但不限于酸雨酸碱度数据、水资源污染数据，等等。若企业所属的地域内的环境天气数据指示该地域存在酸雨，则表示该地域内存在废气排放的概率大于废气排放阈值，则第一废气排放数据的第二权重可以大于第一废水排放数据的第一权重。若企业所属的地域内的环境天气数据指示该地域存在水资源污染，则表示该地域内存在废水排放的概率大于废水排放阈值，则第一废水排放数据的第一权重可以大于第一废气排放数据的第二权重。后续在使用目标识别模型进行识别时，可以基于第一权重对基于废水排放数据确定的企业存在稀释排放的概率进行调整，基于第二权重对基于废气排放数据确定的企业存在稀释排放的概率进行调整，从而实现对企业存在违规排放的概率进行调整。例如，假设基于废水排放数据确定的企业存在稀释排放的概率为第一概率Q1，基于废气排放数据确定的企业存在稀释排放的概率为第二概率Q2，第一权重为a，第二权重为b，可以基于第一权重对第一概率进行调整，基于第二权重对第二概率进行调整，从而实现对企业存在污染排放的最终概率进行调整，即企业存在污染排放概率等于Q1*a+Q2*b。通过对企业所属的地域内的环境天气数据进行检测，可以提高确定企业存在违规排放的概率的准确性。

其中，第一废水排放流量数据可以是指企业在每个周期内的小时废水排放流量。第一废水排放平均值可以是指企业在每个周期内的小时废水排放流量的平均值。第一废水监测因子数据可以是指企业在每个周期内的小时废水监测因子的排放浓度。第一排放平均值可以是指企业在每个周期内的第一废水监测因子的排放浓度的平均值。第一废气排放流量数据可以是指企业在每个周期内的小时废气排放流量。第一废气排放平均值可以是指企业在每个周期内的小时废气排放流量的平均值。第一废气监测因子可以是指企业在每个周期内的小时废气监测因子的排放浓度。第二排放平均值可以是指企业在每个周期内的废气监测因子的排放浓度的平均值。其中，周期可以通过对预设时间段进行划分得到，例如将预设时间段划分为以年为一个周期、以月为一个周期、以天为一个周期或者以小时为一个周期。例如周期为一个月，则第一废水排放流量数据可以是指企业在一个月内的小时废水排放流量。

可选地，本申请实施例中可以基于企业在每个周期内的小时废水排放流量确定企业在每个周期内的小时废水排放流量的平均值；基于企业在每个周期内的小时废水监测因子的排放浓度确定企业在每个周期内的第一废水监测因子的排放浓度的平均值；基于企业在每个周期内的小时废气排放流量确定企业在每个周期内的小时废气排放流量的平均值；基于企业在每个周期内的小时废气监测因子的排放浓度确定企业在每个周期内的第一废气监测因子的排放浓度的平均值。

举例来说，若计算机设备获取到企业在每个周期内的多个小时废水监测因子的排放浓度，例如一个周期包括x个小时，x为正整数，则计算机设备可以基于企业在每个周期内的多个小时废水监测因子的排放浓度和周期包含的小时数量之间的比值，确定企业在每个周期内的第一废水监测因子的排放浓度平均值，即第一排放平均值。若计算机设备获取到企业在每个周期内的小时废水排放流量，则计算机设备基于企业在每个周期内的小时废水排放流量和周期包含的小时数量之间的比值，确定企业在每个周期内的小时废水排放流量平均值。可选地，计算机设备还可以根据企业在每个周期内的实际污染排放时间确定企业在每个周期内的小时废水排放流量平均值。例如周期为一天，一天内该企业只有3个小时排放了废水，则该周期内企业的废水排放平均值为该3个小时的废水排放数据的平均值。

S104，获取目标时刻的第二污染排放数据。

本申请实施例中，由于预先构建目标识别模型，则计算机设备获取到目标时刻的第二污染排放数据时，可以基于目标识别模型对第二污染排放数据进行识别。其中，第二污染排放数据包括第二废水排放数据和第二废气排放数据。第二废水排放数据包括第二废水排放流量数据和第二废水监测因子数据，第二废气排放数据包括第二废气排放流量数据和第二废气监测因子数据。目标时刻可以是指任意一个时刻，例如可以为当前时刻，或者也可以为历史时间段内的任意时刻。

可选地，计算机设备在获取到第二污染排放数据时，可以基于数据清洗规则对第二污染排放数据进行数据清洗，基于目标识别模型对数据清洗后的第二污染排放数据进行识别，得到数据识别结果。具体基于数据清洗规则对第二污染排放数据进行数据清洗的方式可以参考步骤S102中基于数据清洗规则对初始污染排放数据进行数据清洗的方式，此处不再赘述。

S105，基于目标识别模型对第二污染排放数据进行识别，确定数据识别结果。

本申请实施例中，计算机设备可以基于目标识别模型对第二污染排放数据进行识别，确定数据识别结果，数据识别结果包括企业存在违规排放的概率。

本申请实施例中，对应于步骤S103中构建目标识别模型的三种方式，计算机设备可以通过以下三种方式基于目标识别模型对第二污染排放数据进行识别，确定数据识别结果：

第一种方式，若计算机设备基于第一废水排放数据构建目标识别模型，则计算机设备可以基于目标识别模型对第一废水排放数据进行识别，确定数据识别结果。

具体地若目标时刻的第二废水监测因子数据满足第一条件，则获取在预设时间段内第二废水监测因子数据满足第一条件的第一次数，以及第一条件对应的第一时间段；基于第一次数、第一时间段确定数据识别结果。其中第一条件包括目标时刻的第二废水监测因子数据小于第一排放平均值且第二废水排放流量数据大于第一废水排放平均值的预设倍数。预设倍数例如可以包括3倍或者其他倍数。

第二种方式，若计算机设备基于第一废水排放数据和第一废气排放数据构建目标识别模型。则计算机设备可以基于目标识别模型对第二废水排放数据和第二废气排放数据进行识别，确定数据识别结果。

具体地，若目标时刻的第二废水监测因子数据满足第一条件，则获取在预设时间段内第二废水监测因子数据满足第一条件的第一次数，以及第一条件对应的第一时间段；若目标时刻的第二废气监测因子数据满足第二条件，则获取在预设时间段内第二废气监测因子数据满足第二条件的第二次数，以及第二条件对应的第二时间段；基于第一次数、第一时间段、第二次数以及第二时间段，确定数据识别结果。

其中第一条件包括目标时刻的第二废水监测因子数据小于第一排放平均值且第二废水排放流量数据大于第一废水排放平均值的预设倍数；第二条件包括目标时刻的第二废气监测因子数据小于第二排放平均值，且第二废气排放数据大于第一废气排放平均值的预设倍数。

第三种方式，若计算机设备基于第一废气排放数据构建目标识别模型，则计算机设备可以基于目标识别模型对第二废气排放数据进行识别，确定数据识别结果。

具体地，若目标时刻的第二废气监测因子数据满足第二条件，则获取在预设时间段内第二废气监测因子数据满足第二条件的第二次数，以及第二条件对应的第二时间段；基于第二次数、第二时间段确定数据识别结果。其中，第二条件包括目标时刻的第二废气监测因子数据小于第二排放平均值，且第二废气排放流量数据大于第一废气排放平均值的预设倍数。

通过上述方式，计算机设备可以基于目标识别模型确定企业异常排放的次数(即满足第一条件的第一次数和/或第二条件的第二次数)以及每次异常排放的时间段，计算机设备可以基于企业存在异常排放的次数确定企业存在违规排放的概率，企业存在异常排放的次数越多，则企业存在违规排放的概率越大；企业存在异常排放的次数越少，则企业存在违规排放的概率越小。

可选地，计算机设备可以基于指标排放数据与第二污染排放数据的超标倍数，确定企业存在违规排放的概率；指标排放数据包括废水指标排放数据和废气指标排放数据，第二污染排放数据的超标倍数可以根据第二污染数据中废水排放数据与废水指标排放数据之间的比值得到，或者第二污染排放数据的超标倍数可以根据第二污染数据中废气排放数据与废气指标排放数据之间的比值得到。可选地，计算机设备可以将指标排放数据与第二污染排放数据的超标倍数之和确定为企业存在违规排放的概率。

S106，基于数据识别结果确定针对企业的处理策略。

本申请实施例中，数据识别结果可以包括企业存在违规排放的概率，若企业存在违规排放的概率大于违规排放阈值，则可以确定针对该企业的处理策略为将数据识别结果发送至管理机构对应的管理终端，以使管理终端对该企业进行管理。若企业存在违规排放的概率小于或等于违规排放阈值，则可以确定针对该企业的处理策略为发送提示信息至该企业对应的终端，以使该企业内部进行调整。通过对多个企业中的每个企业执行本申请实施例中的处理方式，可以确定每个企业存在违规排放的概率，进而确定针对每个企业的处理策略，实现对企业进行针对性管理。

可以理解的是，管理机构可以是指对违规排放进行管理的执法机构，若企业存在违规排放的概率大于违规排放阈值，表示该企业存在严重的违规排放行为，例如存在稀释排放行为，则管理机构对企业进行管理的方式可以包括但不限于行政处罚。若企业存在违规排放的概率小于或等于违规排放阈值，表示该企业不存在违规排放的行为，或者企业的污染排放行为轻微稀释排放行为，因此可以发送提示信息至企业对应的终端，以提示该企业进行内部调整，提示信息用于提示该企业的污染排放数据即将超标。

可选的，请参见图2，图2是本申请实施例提供的另一种数据识别方法的流程示意图。该数据识别方法可以应用于计算机设备；如图2所示，该数据识别方法包括但不限于以下步骤：

S201，获取企业在预设时间段内的初始污染排放数据。

S202，基于数据清洗规则对初始污染排放数据进行数据清洗，得到第一废水排放数据和第一废气排放数据。

S203，基于第一废水排放数据和第一废气排放数据构建目标识别模型。

S204，获取目标时刻的第二污染排放数据。

S205，基于目标识别模型对第二污染排放数据进行识别，确定数据识别结果。

本申请实施例中，步骤S201～步骤S205的具体实现方式可以参考图1中步骤S101～步骤S105的具体实现方式，此处不再赘述。

本申请实施例中，数据识别结果包括企业存在违规排放的概率，数据识别结果还可以包括企业的违规排放分析表，则计算机设备基于第一次数、第一时间段、第二次数以及第二时间段，确定数据识别结果的方法可以包括：计算机设备基于第一次数和第二次数确定企业存在违规排放的概率。进一步地，计算机设备对第一时间段中相匹配的时间段进行合并，统计合并后的第一时间段的第一总次数，以及对第二时间段中相匹配的时间段进行合并，统计合并后的第二时间段的第二总次数；基于第一总次数和合并后的第一时间段，以及第二总次数和合并后的第二时间段，创建企业的违规排放分析表。

其中，计算机设备可以基于第一次数和第二次数确定企业存在违规排放的概率。例如，第一次数与第二次数之和越大，企业存在违规排放的概率越大；第一次数与第二次数之和越小，企业存在违规排放的概率越小。相匹配的时间段可以是指时间间隔小于间隔阈值的时间段，例如计算机设备可以将每天划分为24个小时，将属于每个小时的时间段进行合并。企业的违规排放分析表中可以包括企业存在违规排放的概率，以及企业存在违规排放的时间段和每个时间段对应的稀释排放总次数。

本申请实施例中，由于第一次数是指在预设时间段内废水监测因子的第二排放数据满足第一条件的次数，即企业可能存在废水稀释排放的次数。第二次数是指在预设时间段内废气监测因子的第二排放数据满足第二条件的次数，即企业可能存在废气稀释排放的次数。由于每次企业进行污染稀释排放的时间可能存在差异，污染稀释排放包括废水稀释排放和废气稀释排放，通过对企业每次污染稀释排放的时间段进行合并，可以实现对每个时间段企业的污染稀释排放次数进行聚类，从而得到每个时间段对应的企业污染稀释排放次数，便于进行查看以及分析，例如确定企业在一年中的哪几个月污染稀释排放的次数较多，或者在一天中的哪些时间段污染稀释排放的次数较多。

可以理解的是，若计算机设备基于废水排放数据和废水监测因子的排放数据构建目标识别模型，则计算机设备可以基于第一次数确定企业存在违规排放的概率；对第一时间段中相匹配的时间段进行合并，统计合并后的第一时间段的第一总次数；基于第一总次数和合并后的第一时间段，创建企业的违规排放分析表。若计算机设备基于废气排放数据和废气监测因子的排放数据构建目标识别模型，则计算机设备可以基于第二次数确定企业存在违规排放的概率；对第二时间段中相匹配的时间段进行合并，统计合并后的第二时间段的第二总次数；基于第二总次数和合并后的第二时间段，创建企业的违规排放分析表。

S206，若企业存在违规排放的概率大于违规阈值，则确定企业的最大排放概率对应的目标时间段。

本申请实施例中，若企业存在违规排放的概率大于违规阈值，则确定企业存在严重的违规排放行为，则计算机设备可以基于违规排放分析表确定企业的最大排放概率对应的目标时间段。目标时间段可以包括但不限于该企业存在违规排放的多个时间段中违规排放次数大于次数阈值的时间段，或者目标时间段也可以是指该企业存在违规排放的多个时间段中违规排放次数最多的时间段，等等。

S207，将目标时间段和企业的企业信息发送至管理终端进行管理。

本申请实施例中，企业信息可以包括企业的标识、企业存在违规排放的概率以及企业的污染排放数据中的至少一种，计算机设备通过将企业的最大排放概率对应的目标时间段和企业的企业信息发送至管理终端，管理终端可以在目标时间段内对企业进行监测，实现快速对企业进行管理。例如，管理机构可以安排执法人员在目标时间段内对企业的污染排放地点进行巡视，以获取企业稀释排放的证据，便于对企业进行相应处罚，提高企业监管力度。

本申请实施例中，通过获取初始污染排放数据进行数据清洗，使得清洗后的数据符合构建目标识别模型的条件，进而使用清洗后的污染排放数据构建目标识别模型时，可以提高目标识别模型构建的准确性和效率。进一步地，由于使用目标识别模型对污染排放数据进行识别，无需人工进行识别，可以提高数据识别效率。此外，由于针对数据识别结果确定针对企业的处理策略，不同的企业的处理策略不同，可以实现针对性处理，提高企业监管力度。

上面介绍了本申请实施例的方法，下面介绍本申请实施例的装置。

参见图3，图3是本申请实施例提供的一种数据识别装置的组成结构示意图，上述数据识别装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该数据识别装置为一个应用软件；该数据识别装置可以用于执行本申请实施例提供的数据识别方法中的相应步骤。该数据识别装置30包括：

第一获取模块301，用于获取企业在预设时间段内的初始污染排放数据，该初始污染排放数据包括该企业的初始废水排放数据和初始废气排放数据；

数据清洗模块302，用于基于数据清洗规则对该初始污染排放数据进行数据清洗，得到第一废水排放数据和第一废气排放数据；

模型构建模块303，用于基于该第一废水排放数据和该第一废气排放数据构建目标识别模型；

第二获取模块304，用于获取目标时刻的第二污染排放数据，该第二污染排放数据包括第二废水排放数据和第二废气排放数据；

模型识别模块305，用于基于该目标识别模型对该第二污染排放数据进行识别，确定数据识别结果，该数据识别结果包括该企业存在违规排放的概率；

结果确定模块306，用于基于该数据识别结果确定针对该企业的处理策略。

可选地，该数据清洗模块302，具体用于：

获取预设数据格式和该初始废水排放数据的数据格式，确定该初始废水排放数据的数据格式是否符合该预设数据格式；

若该初始废水排放数据的数据格式符合该预设数据格式，则将该初始废水排放数据确定为该第一废水排放数据；

若该初始废水排放数据的数据格式不符合该预设数据格式，则基于该初始废水排放数据的数据格式和该预设数据格式之间的关联关系确定第一数据格式转换规则，基于该第一数据格式转换规则将该初始废水排放数据的数据格式转换为该预设数据格式，并将转换后的废水排放数据确定为该第一废水排放数据；

获取该初始废气排放数据的数据格式，确定该初始废气排放数据的数据格式是否符合该预设数据格式；

若该初始废气排放数据的数据格式符合该预设数据格式，则将该初始废气排放数据确定为该第一废气排放数据；

若该初始废气排放数据的数据格式不符合该预设数据格式，则基于该初始废气排放数据的数据格式和该预设数据格式之间的关联关系确定第二数据格式转换规则，基于该第二数据格式转换规则将该初始废气排放数据的数据格式转换为该预设数据格式，并将转换后的废气排放数据确定为该第一废气排放数据。

可选地，第一废水排放数据包括第一废水排放流量数据和第一废水监测因子数据；第一废气排放数据包括第一废气排放流量数据和第一废气监测因子数据，该模型构建模块303，具体用于：

基于该第一废水监测因子数据计算该企业在每个周期内的第一废水监测因子的第一排放平均值；

基于该第一废气监测因子数据计算该企业在每个周期内的第一废气监测因子的第二排放平均值；

基于该第一废水排放流量数据确定该企业在每个周期内的第一废水排放平均值；

基于该第一废气排放流量数据确定该企业在每个周期内的第一废气排放平均值；

基于该第一排放平均值、该第二排放平均值、该第一废水排放平均值以及该第一废气排放平均值，构建该目标识别模型。

可选地，该模型构建模块303，具体用于：

获取样本时刻的样本污染排放数据，样本污染排放数据包括废水排放数据和样本废气排放数据，样本废水排放数据包括样本废水排放流量数据和样本废水监测因子数据，样本废气排放数据包括样本废气排放流量数据和样本废气监测因子数据；

若样本时刻的样本废水监测因子数据满足第一条件，则获取在预设时间段内样本废水监测因子数据满足第一条件的第一样本次数，以及第一条件对应的第一样本时间段；第一条件包括样本时刻的样本废水监测因子数据小于第一排放平均值，且样本废水排放流量数据大于第一废水排放平均值的预设倍数；

若样本时刻的样本废气监测因子数据满足第二条件，则获取在预设时间段内样本废气监测因子数据满足第二条件的第二样本次数，以及第二条件对应的第二样本时间段；第二条件包括样本时刻的样本废气监测因子数据小于第二排放平均值，且样本废气排放流量数据大于第一废气排放平均值的预设倍数；

基于第一样本次数、第一样本时间段、第二样本次数和第二样本时间段确定样本标签，基于样本标签构建目标识别模型。

可选地，该模型识别模块305，具体用于：

若目标时刻的第二废水监测因子数据满足第一条件，则获取在该预设时间段内第二废水监测因子数据满足该第一条件的第一次数，以及该第一条件对应的第一时间段；该第一条件包括该目标时刻的第一废水监测因子数据小于该第一排放平均值，且该第二废水排放流量数据大于第一废水排放平均值的预设倍数；

基于该第一次数、该第一时间段确定该数据识别结果。

可选地，该模型识别模块305，具体用于：

若该目标时刻的第二废气监测因子数据满足第二条件，则获取在该预设时间段内第二废气监测因子数据满足该第二条件的第二次数，以及该第二条件对应的第二时间段；该第二条件包括该目标时刻的第二废气监测因子数据小于该第二排放平均值，且该第二废气排放流量数据大于第一废气排放平均值的预设倍数；

基于该第一次数、该第一时间段、该第二次数以及该第二时间段，确定该数据识别结果。

可选地，数据识别结果还包括该企业的违规排放分析表；该模型识别模块305，具体用于：

基于该第一次数和该第二次数确定该企业存在违规排放的概率；

对该第一时间段中相匹配的时间段进行合并，统计合并后的第一时间段的第一总次数，以及对该第二时间段中相匹配的时间段进行合并，统计合并后的第二时间段的第二总次数；

基于该第一总次数和合并后的第一时间段，以及该第二总次数和合并后的第二时间段，创建该企业的违规排放分析表。

可选地，该结果确定模块306，具体用于：

若该企业存在违规排放的概率大于违规阈值，则确定该企业的最大排放概率对应的目标时间段；

将该目标时间段和该企业的企业信息发送至管理终端进行管理，该企业信息包括该企业的标识、该企业存在违规排放的概率以及该企业的污染排放数据中的至少一种。

需要说明的是，图3对应的实施例中未提及的内容可参见方法实施例的描述，这里不再赘述。

本申请实施例中，获取企业在预设时间段内的初始污染排放数据，初始污染排放数据包括企业的初始废水排放数据和初始废气排放数据；基于数据清洗规则对初始污染排放数据进行数据清洗，得到第一废水排放数据和第一废气排放数据；基于第一废水排放数据和第一废气排放数据构建目标识别模型；获取目标时刻的第二污染排放数据；基于目标识别模型对第二污染排放数据进行识别，确定数据识别结果；基于数据识别结果确定针对企业的处理策略。通过获取初始污染排放数据进行数据清洗，使得清洗后的数据符合构建目标识别模型的条件，进而使用清洗后的污染排放数据构建目标识别模型时，可以提高目标识别模型构建的准确性和效率。进一步地，由于使用目标识别模型对污染排放数据进行识别，无需人工进行识别，可以提高数据识别效率。此外，由于针对数据识别结果确定针对企业的处理策略，不同的企业的处理策略不同，可以实现针对性处理，提高企业监管力度。

参见图4，图4是本申请实施例提供的一种计算机设备的组成结构示意图。如图4所示，上述计算机设备40可以包括：处理器401，网络接口404和存储器405，此外，上述计算机设备40还可以包括：用户接口403，和至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，用户接口403可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口403还可以包括标准的有线接口、无线接口。网络接口404可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器405可以是高速RAM存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。如图4所示，作为一种计算机可读存储介质的存储器405中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。

在图4所示的计算机设备40中，网络接口404可提供网络通讯功能；而用户接口403主要用于为用户提供输入的接口；而处理器401可以用于调用存储器405中存储的设备控制应用程序，以实现：

获取目标时刻的第二污染排放数据，该第二污染排放数据包括第二废水排放数据和第二废气排放数据；

基于该目标识别模型对该第二污染排放数据进行识别，确定数据识别结果，该数据识别结果包括该企业存在违规排放的概率；

基于该数据识别结果确定针对该企业的处理策略。

应当理解，本申请实施例中所描述的计算机设备40可执行前文图1和图2所对应实施例中对上述数据识别方法的描述，也可执行前文图3所对应实施例中对上述数据识别装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被计算机执行时使该计算机执行如前述实施例的方法，该计算机可以为上述提到的计算机设备的一部分。例如为上述的处理器401。作为示例，程序指令可被部署在一个计算机设备上执行，或者被部署位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，该的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据识别方法，其特征在于，包括：

获取企业在预设时间段内的初始污染排放数据，所述初始污染排放数据包括所述企业的初始废水排放数据和初始废气排放数据；

基于数据清洗规则对所述初始污染排放数据进行数据清洗，得到第一废水排放数据和第一废气排放数据；

基于所述第一废水排放数据和所述第一废气排放数据构建目标识别模型；

获取目标时刻的第二污染排放数据，所述第二污染排放数据包括第二废水排放数据和第二废气排放数据；

基于所述目标识别模型对所述第二污染排放数据进行识别，确定数据识别结果，所述数据识别结果包括所述企业存在违规排放的概率；

基于所述数据识别结果确定针对所述企业的处理策略。

2.根据权利要求1所述的方法，其特征在于，所述基于数据清洗规则对所述初始污染排放数据进行数据清洗，得到第一废水排放数据和第一废气排放数据，包括：

获取预设数据格式和所述初始废水排放数据的数据格式，确定所述初始废水排放数据的数据格式是否符合所述预设数据格式；

若所述初始废水排放数据的数据格式符合所述预设数据格式，则将所述初始废水排放数据确定为所述第一废水排放数据；

若所述初始废水排放数据的数据格式不符合所述预设数据格式，则基于所述初始废水排放数据的数据格式和所述预设数据格式之间的关联关系确定第一数据格式转换规则，基于所述第一数据格式转换规则将所述初始废水排放数据的数据格式转换为所述预设数据格式，并将转换后的废水排放数据确定为所述第一废水排放数据；

获取所述初始废气排放数据的数据格式，确定所述初始废气排放数据的数据格式是否符合所述预设数据格式；

若所述初始废气排放数据的数据格式符合所述预设数据格式，则将所述初始废气排放数据确定为所述第一废气排放数据；

若所述初始废气排放数据的数据格式不符合所述预设数据格式，则基于所述初始废气排放数据的数据格式和所述预设数据格式之间的关联关系确定第二数据格式转换规则，基于所述第二数据格式转换规则将所述初始废气排放数据的数据格式转换为所述预设数据格式，并将转换后的废气排放数据确定为所述第一废气排放数据。

3.根据权利要求1所述的方法，其特征在于，所述第一废水排放数据包括第一废水排放流量数据和第一废水监测因子数据；所述第一废气排放数据包括第一废气排放流量数据和第一废气监测因子数据，所述基于所述第一废水排放数据和所述第一废气排放数据构建目标识别模型，包括：

基于所述第一废水监测因子数据计算所述企业在每个周期内的第一废水监测因子的第一排放平均值；

基于所述第一废气监测因子数据计算所述企业在每个周期内的第一废气监测因子的第二排放平均值；

基于所述第一废水排放流量数据确定所述企业在每个周期内的第一废水排放平均值；

基于所述第一废气排放流量数据确定所述企业在每个周期内的第一废气排放平均值；

基于所述第一排放平均值、所述第二排放平均值、所述第一废水排放平均值以及所述第一废气排放平均值，构建所述目标识别模型。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一排放平均值、所述第二排放平均值、所述第一废水排放平均值以及所述第一废气排放平均值，构建所述目标识别模型，包括：

获取样本时刻的样本污染排放数据，所述样本污染排放数据包括废水排放数据和样本废气排放数据，所述样本废水排放数据包括样本废水排放流量数据和样本废水监测因子数据，所述样本废气排放数据包括样本废气排放流量数据和样本废气监测因子数据；

若所述样本时刻的样本废水监测因子数据满足第一条件，则获取在所述预设时间段内所述样本废水监测因子数据满足所述第一条件的第一样本次数，以及所述第一条件对应的第一样本时间段；所述第一条件包括所述样本时刻的样本废水监测因子数据小于所述第一排放平均值，且所述样本废水排放流量数据大于所述第一废水排放平均值的预设倍数；

若所述样本时刻的样本废气监测因子数据满足第二条件，则获取在所述预设时间段内所述样本废气监测因子数据满足所述第二条件的第二样本次数，以及所述第二条件对应的第二样本时间段；所述第二条件包括所述样本时刻的样本废气监测因子数据小于所述第二排放平均值，且所述样本废气排放流量数据大于所述第一废气排放平均值的预设倍数；

基于所述第一样本次数、所述第一样本时间段、所述第二样本次数和所述第二样本时间段确定样本标签，基于所述样本标签构建所述目标识别模型。

5.根据权利要求4所述的方法，其特征在于，所述基于所述目标识别模型对所述第二污染排放数据进行识别，确定数据识别结果，包括：

若目标时刻的第二废水监测因子数据满足第一条件，则获取在所述预设时间段内第二废水监测因子数据满足所述第一条件的第一次数，以及所述第一条件对应的第一时间段；所述第一条件包括所述目标时刻的第二废水监测因子数据小于所述第一排放平均值，且所述第二废水排放流量数据大于所述第一废水排放平均值的预设倍数；

基于所述第一次数、所述第一时间段确定所述数据识别结果。

6.根据权利要求4所述的方法，其特征在于，所述基于所述目标识别模型对所述第二污染排放数据进行识别，确定数据识别结果，包括：

若所述目标时刻的第二废气监测因子数据满足第二条件，则获取在所述预设时间段内第二废气监测因子数据满足所述第二条件的第二次数，以及所述第二条件对应的第二时间段；所述第二条件包括所述目标时刻的第二废气监测因子数据小于所述第二排放平均值，且所述第二废气排放流量数据大于所述第一废气排放平均值的预设倍数；

基于所述第一次数、所述第一时间段、所述第二次数以及所述第二时间段，确定所述数据识别结果。

7.根据权利要求1所述的方法，其特征在于，所述基于所述数据识别结果确定针对所述企业的处理策略，包括：

若所述企业存在违规排放的概率大于违规阈值，则确定所述企业的最大排放概率对应的目标时间段；

将所述目标时间段和所述企业的企业信息发送至管理终端进行管理，所述企业信息包括所述企业的标识、所述企业存在违规排放的概率以及所述企业的污染排放数据中的至少一种。

8.一种数据识别装置，其特征在于，包括：

第一获取模块，用于获取企业在预设时间段内的初始污染排放数据，所述初始污染排放数据包括所述企业的初始废水排放数据和初始废气排放数据；

数据清洗模块，用于基于数据清洗规则对所述初始污染排放数据进行数据清洗，得到第一废水排放数据和第一废气排放数据；

模型构建模块，用于基于所述第一废水排放数据和所述第一废气排放数据构建目标识别模型；

第二获取模块，用于获取目标时刻的第二污染排放数据，所述第二污染排放数据包括第二废水排放数据和第二废气排放数据；

模型识别模块，用于基于所述目标识别模型对所述第二污染排放数据进行识别，确定数据识别结果，所述数据识别结果包括所述企业存在违规排放的概率；

结果确定模块，用于基于所述数据识别结果确定针对所述企业的处理策略。

9.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供数据通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以使得所述计算机设备执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-7任一项所述的方法。