CN111209392B

CN111209392B - 污染企业的挖掘方法、装置及设备

Info

Publication number: CN111209392B
Application number: CN201811386695.6A
Authority: CN
Inventors: 周厚谦; 钟辉强; 刘亮; 尹存祥; 方军; 骆金昌
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2023-06-20
Anticipated expiration: 2038-11-20
Also published as: CN111209392A

Abstract

本发明实施例提供一种污染企业的挖掘方法、装置及设备，根据待识别的舆情数据，获取至少一个候选句子，各所述候选句子为包含污染信息的句子，对各所述候选句子进行分词处理，得到各所述候选句子对应的词序列，将各所述词序列输入至企业识别模型中，获取各所述词序列对应的标签序列，根据各所述词序列对应的标签序列，确定污染企业的名称；通过利用企业识别模型对待识别的舆情数据进行识别，提高了污染企业的挖掘准确率；另外，还解决了现有技术中制定的规则模板扩展性弱的问题，并且规避了制定规则模板所需要耗费的人力和时间成本，提高了污染企业挖掘的效率。

Description

污染企业的挖掘方法、装置及设备

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种污染企业的挖掘方法、装置及设备。

背景技术

在环境保护方面，全方位动态发现潜在污染源，特别是及时发现污染企业，是环境保护和环境治理的核心。在大数据的背景下，如何从海量数据中挖掘到污染相关的信息，并从污染相关信息中定位到污染相关的企业，是污染检测和污染治理的重要一环。

现有的污染企业的挖掘方法，大多采用规则模板方法。具体的，对获取的舆情数据采用预设的正则表达式等规则模板进行匹配，从而获取到污染企业的名称。

然而，上述现有技术中，构造合适的规则模板需要耗费大量的人力，并且，规则模板的扩展性较弱，需要具有环境监测等特定领域的专业知识，使得污染企业的挖掘效率低，且准确率低。

发明内容

本发明实施例提供一种污染企业的挖掘方法、装置及设备，以提高污染企业挖掘的效率和准确率。

第一方面，本发明实施例提供一种污染企业的挖掘方法，包括：

根据待识别的舆情数据，获取至少一个候选句子，各所述候选句子为包含污染信息的句子；

对各所述候选句子进行分词处理，得到各所述候选句子对应的词序列；

将各所述词序列输入至企业识别模型中，获取各所述词序列对应的标签序列，所述企业识别模型用于预测所述词序列中的每个词对应的标签，所述标签为下述中的任一：企业名称开头词、企业名称中间词、企业名称结尾词、企业名称无关词；

根据各所述词序列对应的标签序列，确定污染企业的名称。

可选的，所述根据待识别的舆情数据，获取至少一个候选句子，包括：

对所述待识别的舆情数据进行分句处理，得到至少一个待识别的句子；

将各所述待识别的句子输入至污染预测模型，其中，所述污染预测模型用于预测各所述待识别的句子中是否包含污染信息；

根据所述污染预测模型的输出结果，从各所述待识别的句子中确定至少一个候选句子。

可选的，所述确定污染企业的名称之后，还包括：

根据所述污染企业的名称，获取所述污染企业对应的企业画像数据；

根据所述污染企业对应的企业画像数据，获取所述污染企业的地址信息；

根据所述污染企业的地址信息，获取所述污染企业对应的经纬度。

可选的，所述确定污染企业的名称之后，还包括：

根据所述污染企业对应的企业画像数据，获取所述污染企业对应的排污类型。

可选的，所述根据所述污染企业对应的企业画像数据，获取所述污染企业对应的排污类型，包括：

判断所述污染企业对应的企业画像数据中是否包括排污类型信息；

若是，则从所述企业画像数据中，获取所述污染企业对应的排污类型；

若否，则将所述企业画像数据输入至排污类型预测模型中，根据所述污染类型预测模型的输出结果获取所述污染企业对应的排污类型。

可选的，所述将各所述词序列输入至企业识别模型中之前，还包括：

获取待训练的样本集，所述待训练的样本集中包括正样本和负样本，所述正样本为包含企业名称的句子，所述负样本为不包含企业名称的句子；

对所述待训练样本集中的样本进行分词处理，得到各样本对应的词序列，并根据所述预设的企业名称，对所述词序列中的每个词进行标签标注，所述标签用于指示下述中的任一：企业名称开头词、企业名称中间词、企业名称结尾词、企业名称无关词；

采用标注后的各样本对待训练的企业识别模型进行训练，得到训练后的企业识别模型。

可选的，所述将各所述待识别的句子输入至污染预测模型之前，还包括：

获取待训练的样本集，所述待训练的样本集中的各样本为句子；

对所述待训练的样本集中的各样本进行标签标注，所述标签用于指示所述样本中是否包含污染信息；

采用标注后的各样本对待训练的污染预测模型进行训练，得到训练后的污染预测模型。

可选的，所述将所述企业画像数据输入至排污类型预测模型中之前，还包括：

获取待训练的样本集，所述待训练的样本集中的各样本为不同企业对应的企业画像数据；

对所述待训练的样本集中的各样本进行标签标注，所述标签用于指示所述样本对应的排污类型；

采用标注后的各样本对待训练的排污类型预测模型进行训练，得到训练后的排污类型预测模型。

第二方面，本发明实施例提供一种污染企业的挖掘装置，包括：

提取模块，用于根据待识别的舆情数据，获取至少一个候选句子，各所述候选句子为包含污染信息的句子；

识别模块，用于对各所述候选句子进行分词处理，得到各所述候选句子对应的词序列；

所述识别模块，还用于将各所述词序列输入至企业识别模型中，获取各所述词序列对应的标签序列，所述企业识别模型用于预测所述词序列中的每个词对应的标签，所述标签为下述中的任一：企业名称开头词、企业名称中间词、企业名称结尾词、企业名称无关词；

所述识别模块，还用于根据各所述词序列对应的标签序列，确定污染企业的名称。

可选的，所述提取模块具体用于：

可选的，所述装置还包括：定位模块，用于：

可选的，所述装置还包括：确定模块，用于：

可选的，所述确定模块具体用于：

可选的，所述装置还包括：训练模块，用于：

可选的，所述训练模块，还用于：

第三方面，本发明实施例提供一种污染企业的挖掘设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的方法。

本发明实施例提供的污染企业的挖掘方法、装置及设备，根据待识别的舆情数据，获取至少一个候选句子，各所述候选句子为包含污染信息的句子，对各所述候选句子进行分词处理，得到各所述候选句子对应的词序列，将各所述词序列输入至企业识别模型中，获取各所述词序列对应的标签序列，根据各所述词序列对应的标签序列，确定污染企业的名称；通过利用企业识别模型对待识别的舆情数据进行识别，提高了污染企业的挖掘准确率；另外，还解决了现有技术中制定的规则模板扩展性弱的问题，并且规避了制定规则模板所需要耗费的人力和时间成本，提高了污染企业挖掘的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的污染企业挖掘过程的示意图；

图2为本发明实施例提供的污染企业的挖掘方法的流程示意图一；

图3为本发明实施例提供的从舆情数据中提取包含污染信息的句子的流程示意图；

图4为本发明实施例提供的LSTM-CRF模型的结构示意图；

图5为本发明实施例提供的企业识别模型的训练方法的流程示意图；

图6为本发明实施例提供的污染预测模型的训练方法的流程示意图；

图7为本发明实施例提供的污染企业的挖掘方法的流程示意图二；

图8为图7所示实施例对应的污染企业的挖掘过程示意图；

图9为本发明实施例提供的排污类型预测模型的训练方法的流程示意图；

图10为本发明实施例提供的污染企业的挖掘装置的结构示意图一；

图11为本发明实施例提供的污染企业的挖掘装置的结构示意图二；

图12为本发明实施例提供的污染企业的挖掘设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如前所述，现有的污染企业的挖掘方法，大多采用规则模板方法，具体的，对获取的舆情数据采用预设的正则表达式等规则模板进行匹配，从而获取到污染企业的名称。然而，上述方法中，构造合适的规则模板需要耗费大量的人力，并且，规则模板的扩展性较弱，需要具有环境监测等特定领域的专业知识，使得污染企业的挖掘效率低，且准确率低。

为了解决上述问题，本发明实施例提供一种污染企业的挖掘方法，利用训练好的企业识别模型，对待识别的舆情数据进行污染企业的挖掘，能够在海量的舆情数据中提取出污染企业的名称，提高污染企业的挖掘效率和准确率。

图1为本发明实施例提供的污染企业挖掘过程的示意图，如图1所示，将待识别的舆情数据输入至污染企业挖掘设备中，由污染企业挖掘设备对待识别的舆情数据进行识别，并输出舆情数据中包含的污染企业的名称。

进一步的，图1中的污染企业挖掘设备除了输出污染企业的名称之外，还可以输出污染企业对应的其他信息，例如：排污类型、地理位置等信息。

其中，本发明实施例中向污染企业挖掘设备输入的待识别的舆情数据可以是从网络中获取的任意类型的数据，例如：新闻数据、贴吧数据、论坛数据、微博数据等。另外，舆情数据的格式可以是文本形式或者语音形式。

另外，图1中的污染企业挖掘设备可以是任意的电子设备，例如可以为终端设备，还可以为服务器设备，本发明实施例对此不作具体限定。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明实施例提供的污染企业的挖掘方法的流程示意图一，本发明实施例的方法可以由污染企业的挖掘装置执行，具体的，该挖掘装置可以为软件和/或硬件形式，该挖掘装置还可以设置到图1中的污染企业的挖掘设备中。

如图2所示，本实施例的方法，包括：

S201：根据待识别的舆情数据，获取至少一个候选句子，各所述候选句子为包含污染信息的句子。

其中，待识别的舆情数据为能够从网络中获取的任意类型的数据，例如：新闻数据、贴吧数据、论坛数据、微博数据等。具体的，可以使用定向抓取工具，从新闻、贴吧、微博、论坛等数据源抓取海量的舆情数据。

本实施例中的舆情数据可以是句子、短语、段落等，本发明实施例对此不作具体限定。另外，待识别的舆情数据可以是文本形式或者语音形式，若是语音形式的舆情数据，可以先通过语音识别模型转换为本文形式，然后执行本实施后续的识别步骤。

具体的，获取到待识别的舆情数据后，通过对舆情数据进行识别，获取到舆情数据中包含污染信息的句子作为候选句子。可以理解的，包含污染信息的句子指的是包含污染信息相关词语的句子。其中，污染信息相关词语包括但不限于：污染、异味、雾霾、垃圾、恶臭、噪声、臭水等等。例如：“空气中有异味”、“最近空气污染严重”、“某某道路布满了垃圾”等均为包含了污染信息的句子。

一种可选的实施方式中，可以首先对待识别的舆情数据进行分句，得到各个句子，然后采用文本匹配技术，从各个句子中确定至少一个候选句子。例如：采用关键词、正则表达式等模板匹配方式对各个句子进行筛选，得到包含污染信息的候选句子。

另一种可选的实施方式中，可以利用已训练好的污染预测模型来从舆情数据中提取包含污染信息的候选句子。图3为本发明实施例提供的从舆情数据中提取包含污染信息的句子的流程示意图，如图3所示，包括：

S2011：对所述待识别的舆情数据进行分句处理，得到至少一个待识别的句子。

S2012：将各所述待识别的句子输入至污染预测模型，其中，所述污染预测模型用于预测各所述待识别的句子中是否包含污染信息。

S2013：根据所述污染预测模型的输出结果，从各所述待识别的句子中确定至少一个候选句子。

该实施方式中，污染预测模型为已训练好的分类模型，可以预测输入该模型的句子中是否包含污染信息。可选的，所述污染预测模型为fasttext(快速的文本分类器)分类模型。将各句子对应的词向量输入至污染预测模型，污染预测模型会输出该句子中包含污染信息的概率。可选的，fasttext分类模型中词向量的维度采用128维。

本实施例中，使用fasttext分类模型，能够利用嵌入层训练得到词向量，结合词向量表征文本，而不需要人工参与文本特征的提取，同时fasttext分类模型在文本训练方面效率高，分类效果较好，使得从舆情数据中提取的包含污染信息的候选句子更加准确。

S202：对各所述候选句子进行分词处理，得到各所述候选句子对应的词序列。

具体的，可以采用分词处理技术，对各候选句子进行分词，得到各候选句子对应的词序列。例如：候选句子为“最近空气污染严重”对应的词序列为“最近、空气、污染、严重”；候选句子“第一科技公司违反了环境保护法”对应的词序列为“第一、科技、公司、违反、了、环境保护法”。

可选的，本实施例中可以采用Jieba工具对各候选句子进行分词。

S203：将各所述词序列输入至企业识别模型中，获取各所述词序列对应的标签序列，所述企业识别模型用于预测所述词序列中的每个词对应的标签，所述标签为下述中的任一：企业名称开头词、企业名称中间词、企业名称结尾词、企业名称无关词。

具体的，本实施例中的企业识别模型用于对词序列中的每个词进行预测，得到每个词对应的标签。其中，某个词对应的标签指示的是该词在企业名称中的位置。

为了描述方便，本发明实施例对各标签简写如下：企业名称开头词标注为S，企业名称中间词标注为I，企业名称结尾词标注为E，企业名称无关词标注为O。例如：将词序列“第一、科技、公司、违反、了、环境保护法”输入至企业识别模型中，企业识别模型输出的标签序列为“S、I、E、O、O、O”。也就是说，“第一”对应的标签为S，“科技”对应的标签为I，“公司”对应的标签为E，“违反”对应的标签为O，“了”对应的标签为O，“环境保护法”对应的标签为O。

需要说明的是，本发明实施例中的企业识别模型为通过机器学习算法对海量已标注的句子进行学习、训练后得到的。其中，本发明实施例对于企业识别模型的结构以及训练过程不作具体限定，可以采用现有技术实现。

一种可选的实施方式中，企业识别模型为LSTM-CRF(LSTM：Long Short-TermMemory，长短期记忆网络；CRF：Conditional Random Field，条件随机场)模型。图4为本发明实施例提供的LSTM-CRF模型的结构示意图，如图4所示，LSTM-CRF模型包括嵌入层、LSTM层、CRF层。在LSTM-CRF模型下，输出的将不再是相互独立的标签，而是最优的标签序列。

由于LSTM-CRF模型融合了LSTM和CRF的特性，在污染企业名称识别上，既保留了LSTM能够捕捉长远上下文信息特征的优点，又能保留CRF能够捕捉序列前后强依赖关系的优点，从而提高污染企业挖掘的准确率。

本实施例中，由于企业识别模型已经对对海量句子进行学习，使得企业识别模型对词序列的标注结果更加准确，因此，本实施例中采用企业识别模型对舆情数据进行识别得到污染企业的名称，能够提高污染企业挖掘的准确率。

另外，本实施例中利用企业识别模型对舆情数据进行识别，解决了现有技术中制定的规则模板扩展性弱的问题，并且规避了制定规则模板所需要耗费的人力和时间成本，提高了污染企业挖掘的效率。

S204：根据各所述词序列对应的标签序列，确定污染企业的名称。

具体的，获取到词序列对应的标签序列后，根据标签序列中的“S”、“I”、“E”的位置，可以确定出污染企业的名称。

下面举例说明，假设词序列“第一、科技、公司、违反、了、环境保护法”对应的标签序列为“S、I、E、O、O、O”，则可以确定出污染企业的名称为“第一科技公司”；假设词序列“向、某道路、排放、污水、的、是、第二、化工、研究所”对应的标签序列为“O、O、O、O、O、O、S、I、E”，则可以确定出污染企业的名称为“第二化工研究所”。

本发明实施例提供的污染企业的挖掘方法，根据待识别的舆情数据，获取至少一个候选句子，各所述候选句子为包含污染信息的句子，对各所述候选句子进行分词处理，得到各所述候选句子对应的词序列，将各所述词序列输入至企业识别模型中，获取各所述词序列对应的标签序列，根据各所述词序列对应的标签序列，确定污染企业的名称；通过利用企业识别模型对待识别的舆情数据进行识别，提高了污染企业的挖掘准确率；另外，还解决了现有技术中制定的规则模板扩展性弱的问题，并且规避了制定规则模板所需要耗费的人力和时间成本，提高了污染企业挖掘的效率。

在上述实施例的基础上，下面采用两个具体的实施例详细描述企业识别模型和污染预测模型的训练过程。

图5为本发明实施例提供的企业识别模型的训练方法的流程示意图，如图5所示，该方法包括：

S501：获取待训练的样本集，所述待训练的样本集中包括正样本和负样本，所述正样本为包含企业名称的句子，所述负样本为不包含企业名称的句子。

具体的，可以通过网络抓取工具获取海量的舆情数据，对舆情数据进行分句处理后，将分句处理得到的句子作为待训练的样本集中的样本。其中，为了提高训练效果，待训练的样本集中应当包括正样本和负样本。其中，所述正样本为包含企业名称的句子，所述负样本为不包含企业名称的句子。

一种可选的实施方式中，首先获取预设数量的企业对应的企业画像数据，从所述企业画像数据中获取不同企业对应的企业名称，得到预设的企业名称的名单。然后采用名单中的企业名称对分句得到的句子进行匹配，将存在企业名称的样本作为正样本，将不存在企业名称的样本作为负样本。其中，匹配的过程可以采用字典树进行匹配。

该方式中，利用企业画像数据得到企业名称的名单，根据名单中的企业名称对样本进行匹配，从而无需通过人工来标注正样本和负样本，节省了大量的人力。

S502：对所述待训练样本集中的样本进行分词处理，得到各样本对应的词序列，并根据所述预设的企业名称，对所述词序列中的每个词进行标签标注，所述标签用于指示下述中的任一：企业名称开头词、企业名称中间词、企业名称结尾词、企业名称无关词。

具体的，获取到各样本后，可以采用分词工具对各样本进行分词处理，得到各样本对应的词序列。一种可选的实施方式中，采用jieba工具进行分词处理。

然后，针对每个样本对应的词序列，对词序列中的每个词进行标签标注，具体的，根据每个词在企业名称中的位置进行标签标注。为了描述方便，本发明实施例对各标签简写如下：企业名称开头词标注为S，企业名称中间词标注为I，企业名称结尾词标注为E，企业名称无关词标注为O。

例如：对词序列“第一、科技、公司、违反、了、环境保护法”进行标注，得到的标注结果为：“第一”对应的标签为S，“科技”对应的标签为I，“公司”对应的标签为E，“违反”对应的标签为O，“了”对应的标签为O，“环境保护法”对应的标签为O。

S503：采用标注后的各样本对待训练的企业识别模型进行训练，得到训练后的企业识别模型。

本实施例中，采用机器学习算法对标注好的各样本进行训练，得到训练后的企业识别模型。

一种可选的实施方式中，企业识别模型的结构采用多层LSTM-CRF模型，如图4所示，LSTM-CRF模型包括嵌入层、LSTM层、CRF层。

由于LSTM-CRF模型融合了LSTM和CRF的特性，在污染企业名称识别上，既保留了LSTM能够捕捉长远上下文信息特征的优点，又能保留CRF能够捕捉序列前后强依赖关系的优点，从而提高污染企业挖掘的准确率。采用本实施例训练好的企业识别模型，能够对待识别的舆情数据进行挖掘，得到污染企业的名称。

图6为本发明实施例提供的污染预测模型的训练方法的流程示意图，如图6所示，该方法包括：

S601：获取待训练的样本集，所述待训练的样本集中的各样本为句子。

具体的，可以对获取的海量舆情数据进行分句处理，得到一系列的句子，将得到的句子作为待训练的样本集中的样本。为了提高训练效果，还可以根据预设的准则，去除过长或者过短的句子，将满足预设长度的句子作为待训练样本集中的样本。

S602：对所述待训练的样本集中的各样本进行标签标注，所述标签用于指示所述样本中是否包含污染信息。

具体的，根据样本中是否包含污染信息，对各样本进行标签标识。例如：若样本中包含污染信息，则将该样本的标签置为1，若样本中未包含污染信息，则将该样本的标签置为0。

可选的，对各样本进行标签标识，可以采用人工标注的方法，还可以利用预设的关键词或者正则表达式进行自动匹配标注，本发明实施例对此不作具体限定。

S603：采用标注后的各样本对待训练的污染预测模型进行训练，得到训练后的污染预测模型。

本实施例中，采用机器学习算法对标注好的各样本进行训练，得到训练后的污染预测模型。

一种可选的实施方式中，污染预测模型采用fasttext分类模型。fasttext分类模型的输入为句子对应的词序列，输出的是这个词序列属于不同类别的概率。其中，序列中的词组成词向量，词向量通过线性变换映射到中间层，中间层再映射到标签。fasttext分类模型在预测标签时使用了非线性激活函数，但在中间层不使用非线性激活函数。

具体实施时，可以采用jieba工具对各样本进行切词，根据停用词表去除停用词，构造出fasttext模型的训练格式的输入数据，根据各样本对应的标签对fasttext模型进行训练。可选的，本实施例中fasttext模型的词向量的维度采用128维。

本实施例中，污染预测模型使用fasttext分类模型，能够利用嵌入层训练得到词向量，结合词向量表征文本，而不需要人工参与文本特征的提取；同时，fasttext分类模型在文本训练方面效率高，分类效果较好；进而，使用训练好的污染预测模型从舆情数据中提取的候选句子更加准确。

图7为本发明实施例提供的污染企业的挖掘方法的流程示意图二，图8为图7所示实施例对应的污染企业的挖掘过程示意图。在图2所示实施例的基础上，如图7和图8所示，本实施例的方法，包括：

S701：根据待识别的舆情数据，获取至少一个候选句子，各所述候选句子为包含污染信息的句子。

S702：对各所述候选句子进行分词处理，得到各所述候选句子对应的词序列。

S703：将各所述词序列输入至企业识别模型中，获取各所述词序列对应的标签序列，所述企业识别模型用于预测所述词序列中的每个词对应的标签，所述标签为下述中的任一：企业名称开头词、企业名称中间词、企业名称结尾词、企业名称无关词。

S704：根据各所述词序列对应的标签序列，确定污染企业的名称。

本实施例中，S701至S704的实施方式与图2所示实施例类似，此处不作特别赘述。本实施例中，在确定污染企业的名称之后，还可以进一步根据污染企业的名称获取污染企业的位置以及污染类型，参见S705至S707。

S705：根据所述污染企业的名称，获取所述污染企业对应的企业画像数据。

其中，企业画像数据是指用于描述企业相关信息的总称，企业画像数据包括但不限于：企业类型、行业类型、经营范围、经营许可证、产品许可证、排污许可证、工商信息、商标专利信息等。

可选的，在根据舆情数据获取到污染企业的名称之后，可以对污染企业的名称进行排序去重，得到不重复的污染企业的名称，然后再获取这些污染企业对应的企业画像数据。

S706：根据所述污染企业对应的企业画像数据，获取所述污染企业的地址信息；根据所述污染企业的地址信息，获取所述污染企业对应的经纬度。

具体的，根据污染企业的画像数据，例如：从经营许可证信息中，可以得到了污染企业所在的地址信息。然后再根据地址信息在电子地图中进行经纬度坐标拾取，得到企业所在的经纬度。

S707：根据所述污染企业对应的企业画像数据，获取所述污染企业对应的排污类型。

可以理解的，企业的排污许可证中通常包括排污类型信息，但是，有些企业具有排序许可证，有些企业不具有排序许可证。一种可选的实施方式中，首先判断所述污染企业对应的企业画像数据中是否包括排污类型信息，例如：判断所述污染企业是否具有排污许可证，若是，则从排污许可证信息中获取所述污染企业对应的排污类型。若否，则将所述企业画像数据输入至排污类型预测模型中，根据所述污染类型预测模型的输出结果获取所述污染企业对应的排污类型。

其中，排污类型预测模型是根据机器学习算法已训练好的模型，用于根据待识别企业对应的企业画像数据预测待识别企业对应的排污类型。可选的，所述排污类型预测模型为fasttext分类模型。

结合图7和图8所示，本实施例提供的是一个污染企业挖掘的完整流程，包括了舆情数据获取、污染信息提取、污染企业识别、污染企业位置定位、污染企业排污类型预测等多个方面的内容；由于在每个方面中结合机器学习方法，提高了污染企业挖掘的准确率和效率。

下面结合一个具体的实施例详细描述排污类型预测模型的训练过程。

图9为本发明实施例提供的排污类型预测模型的训练方法的流程示意图，如图9所示，该方法包括：

S901：获取待训练的样本集，所述待训练的样本集中的各样本为不同企业对应的企业画像数据。

具体的，可以从网络获取，或者从第三方机构获取不同企业对应的企业画像数据，作为待训练样本集中的样本。可选的，本实施例中的企业画像数据可以包括：经营范围、公司类型、行业类型，将上述企业画像数据的文本信息作为待训练样本集中的样本。

S902：对所述待训练的样本集中的各样本进行标签标注，所述标签用于指示所述样本对应的排污类型。

为了提高训练模型的准确率，本实施例获取的各样本均是具有排污许可证的企业对应的企业画像数据。具体的，根据各企业的排污许可证中的排污类型，对各企业对应的企业画像数据进行标签标注。例如：若某企业的排污许可证中的排污类型为二氧化硫，则该企业对应的企业画像数据的标签标注为二氧化硫；若某企业的排污许可证中的排污类型为氮氧化物，则该企业对应的企业画像数据的标签标注为氮氧化物。

S903：采用标注后的各样本对待训练的排污类型预测模型进行训练，得到训练后的排污类型预测模型。

本实施例中，采用机器学习算法对标注好的各样本进行训练，得到训练后的排污类型预测模型。具体训练过程中，对各企业画像数据的文本信息采用分词工具进行分词，得到各样本的词向量，将词向量输入至排污类型预测模型，根据各样本的排污类型标签，对排污类型预测模型进行训练，得到训练后的排污类型预测模型。

上述实施例中训练得到的排污类型预测模型为多分类器。另一种可选的实施方式中，还可以针对某一个排污类型，训练一个二分类器。具体的，针对第一排污类型，获取正样本和负样本，其中，正样本的标签为第一排污类型，负样本的标签为非第一排污类型，经过各样本的训练，得到第一排污类型对应的二分类器。这样，每一种排污类型均对应有一个二分类器，将训练得到的所有二分类器进行组合，得到排污类型预测模型。可选的，每一个二类器为fasttext分类器，其对应的词向量维度为128维。

本实施例中，通过对已知排污类型的企业画像数据进行学习，得到排污类型预测模型，用于对挖掘出的污染企业的排污类型进行预测，能够降低污染企业挖掘的成本，提高污染企业挖掘的效率。

图10为本发明实施例提供的污染企业的挖掘装置的结构示意图一，如图10所示，本实施例提供的污染企业的挖掘装置1000，包括：提取模块1001和识别模块1002。

其中，提取模块1001，用于根据待识别的舆情数据，获取至少一个候选句子，各所述候选句子为包含污染信息的句子；

识别模块1002，用于对各所述候选句子进行分词处理，得到各所述候选句子对应的词序列；

所述识别模块1002，还用于将各所述词序列输入至企业识别模型中，获取各所述词序列对应的标签序列，所述企业识别模型用于预测所述词序列中的每个词对应的标签，所述标签为下述中的任一：企业名称开头词、企业名称中间词、企业名称结尾词、企业名称无关词；

所述识别模块1002，还用于根据各所述词序列对应的标签序列，确定污染企业的名称。

本实施例的污染企业的挖掘装置，可用于执行如图2所示的方法实施例的技术方案，其实现原理和技术效果类似，此处不作赘述。

图11为本发明实施例提供的污染企业的挖掘装置的结构示意图二，在图10所示实施例的基础上，本实施例提供污染企业的挖掘装置，还包括：定位模块1003、确定模块1004和训练模块1005。

可选的，所述提取模块1001具体用于：

可选的，所述定位模块1003，用于：

可选的，所述确定模块1004，用于：

可选的，所述确定模块1004具体用于：

可选的，所述训练模块1005，用于：

可选的，所述训练模块1005，还用于：

本实施例提供的污染企业的挖掘装置，可用于执行上述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图12为本发明实施例提供的污染企业的挖掘设备的硬件结构示意图，如图12所示，本实施例提供的污染企业的挖掘设备1200，包括：至少一个处理器1201和存储器1202。其中，处理器1201、存储器1202通过总线1203连接。

在具体实现过程中，至少一个处理器1201执行所述存储器1202存储的计算机执行指令，使得至少一个处理器1201执行上述任一方法实施例的技术方案。

处理器1201的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图12所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述任一方法实施例的技术方案。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种污染企业的挖掘方法，其特征在于，包括：

将各所述词序列输入至企业识别模型中，获取各所述词序列对应的标签序列，所述企业识别模型用于预测所述词序列中的每个词对应的标签，所述标签为下述中的任一：企业名称开头词、企业名称中间词、企业名称结尾词、企业名称无关词，所述企业识别模型是通过对待训练样本集中的样本进行分词处理，得到各样本对应的词序列，并根据预设的企业名称，对所述词序列中的每个词进行标签标注，采用标注后的各样本对待训练的企业识别模型进行训练得到的，所述待训练的样本集中包括正样本和负样本，所述正样本为包含企业名称的句子，所述负样本为不包含企业名称的句子，所述标签用于指示下述中的任一：企业名称开头词、企业名称中间词、企业名称结尾词、企业名称无关词；

根据各所述词序列对应的标签序列，确定污染企业的名称。

2.根据权利要求1所述的方法，其特征在于，所述根据待识别的舆情数据，获取至少一个候选句子，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定污染企业的名称之后，还包括：

4.根据权利要求1所述的方法，其特征在于，所述确定污染企业的名称之后，还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述污染企业对应的企业画像数据，获取所述污染企业对应的排污类型，包括：

6.根据权利要求1所述的方法，其特征在于，所述将各所述词序列输入至企业识别模型中之前，还包括：

对所述待训练样本集中的样本进行分词处理，得到各样本对应的词序列，并根据预设的企业名称，对所述词序列中的每个词进行标签标注，所述标签用于指示下述中的任一：企业名称开头词、企业名称中间词、企业名称结尾词、企业名称无关词；

7.根据权利要求2所述的方法，其特征在于，所述将各所述待识别的句子输入至污染预测模型之前，还包括：

8.根据权利要求5所述的方法，其特征在于，所述将所述企业画像数据输入至排污类型预测模型中之前，还包括：

9.一种污染企业的挖掘装置，其特征在于，包括：

所述识别模块，还用于将各所述词序列输入至企业识别模型中，获取各所述词序列对应的标签序列，所述企业识别模型用于预测所述词序列中的每个词对应的标签，所述标签为下述中的任一：企业名称开头词、企业名称中间词、企业名称结尾词、企业名称无关词，所述企业识别模型是通过对待训练样本集中的样本进行分词处理，得到各样本对应的词序列，并根据预设的企业名称，对所述词序列中的每个词进行标签标注，采用标注后的各样本对待训练的企业识别模型进行训练得到的，所述待训练的样本集中包括正样本和负样本，所述正样本为包含企业名称的句子，所述负样本为不包含企业名称的句子，所述标签用于指示下述中的任一：企业名称开头词、企业名称中间词、企业名称结尾词、企业名称无关词；

10.一种污染企业的挖掘设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至8任一项所述的方法。