CN111274399A

CN111274399A - 一种基于自然语言预处理的公共数据分级方法

Info

Publication number: CN111274399A
Application number: CN202010066138.7A
Authority: CN
Inventors: 陈磊; 刘迎风; 储昭武; 管红; 潘佳; 唐若培; 徐洁
Original assignee: Shanghai Big Data Center
Current assignee: Shanghai Big Data Center
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-12

Abstract

本发明涉及自然语言处理技术领域，具体涉及一种基于自然语言预处理的公共数据分级方法，包括：步骤S1，对公共数据进行自然语言处理方法的分析,得到关于所述公共数据的词集合和语义标注结果；步骤S2，对于所述词集合和所述语义标注结果按照多种规则组合,得到所述公共数据所包含的语义信息的向量化表征形式；步骤S3，利用分类***对得到的所述公共数据所包含的语义信息的向量化表征形式分类计算概率估计值；步骤S4，根据所述概率估计值将所述概率估计值中最大项对应的数据敏感程度作为所述公共数据的分级标签。本发明可以大大提高公共数据分级效率、速度和准确率。

Description

一种基于自然语言预处理的公共数据分级方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于自然语言预处理的公共数据分级方法。

背景技术

随着城市数字化转型的推进以及公共数据的集中统一管理，公共数据的分级分类问题急需破题，尤其是对公共数据目录的安全分级，明确哪些数据可以无条件共享开放，哪些数据根据个人隐私、核心商业机密或相关法律法规规定适用有条件共享开放或者不开放不共享，从而结合不同的应用场景开展数据授权及共享开放，实现数据赋能城市管理、形成数据运营生态。在公共数据的分级过程中，目前主要凭借专业人员的知识背景及查阅相关规定进行人工分级，这种人工分级方式依赖于工作人员的能力，且工作量巨大、效率较低。

因此，提出一种基于人工智能中自然语言处理领域的文本分类技术，能够大大提高公共数据分级的效率和速度，同时提高分类的准确率。

现阶段有关文本分类技术的实现方法，主要分为统计学习方法和深度学习方法。前者主要以特征选择方法为主,通过诸如TF-IDF(term frequency-inverse documentfrequency，信息检索数据挖掘的常用加权技术)、PMI(Project Management Institute，采购经理指数)、卡方值等指标对文本的词、句级别特征进行选择,得到代表文本的特征向量,并用机器学习的方法得出该特征向量之于各标签的概率,作为最终的分类标准；后者则以模型构建为主,将文本的离散信息作为输入,通过多层神经网络的串、并联结构,辅以反向传播算法更新网络权重,直接得到该文本之于各标签的概率。

但是，公共数据分级中，不仅需要在分级好的数据描述中提取特征词，还需要在相关法律条文中提取特征词，并且适当增加这些特征词的权重。因此，这里提出一种专门用以对公共数据分级的文本分类方法。

发明内容

为了解决以上技术问题，本发明提供了一种基于自然语言预处理的公共数据分级方法。

本发明所解决的技术问题可以采用以下技术方案来实现：

一种基于自然语言预处理的公共数据分级方法，包括：

步骤S1，对公共数据进行自然语言处理方法的分析，得到关于所述公共数据的词集合和语义标注结果；

步骤S2，对于所述词集合和所述语义标注结果按照多种规则组合,得到所述公共数据所包含的语义信息的向量化表征形式；

步骤S3，利用分类***对得到的所述公共数据所包含的语义信息的向量化表征形式分类计算概率估计值；

步骤S4，根据所述概率估计值将所述概率估计值中最大项对应的数据敏感程度作为所述公共数据的分级标签。

优选的，所述步骤S1中的所述词集合为将所述公共数据以词为单位进行分词和词性标注并得到所述词集合，并根据一停用词词表，去除所述词集合中的停用词。

优选的，所述停用词词表是根据所述词集合和所述语义标注结果中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。

优选的，所述步骤2中通过抽取n元语法离散特征、抽取依存三元组特征、抽取词向量分布式特征中的至少一种向量化方式对所述公共数据的所述词集合和所述语义标注结果进行向量化。

优选的，所述抽取n元语法离散特征为从所述词集合中抽取一个单词连续出现的集合、两个单词连续出现的集合以及三个单词连续出现的集合，形成一n元语法索引表，并根据所述n元语法索引表将所述词集合出现高的语法添加到所述n元语法索引表中作为所述n元语法离散特征。

优选的，所述抽取依存三元组特征为将去除了所述停用词的所述词集合以句为单位进行依存句法分析,并根据依存关系将所述词集合的依存关系集合作为依存三元组特征。

优选的，所述抽取词向量分布式特征为将去除了所述停用词的所述词集合进行词向量检索匹配,并将所述词向量的每一维度进行最大值、最小值、平均值计算，生成三个新的特征向量作为所述词向量分布式特征。

优选的，所述步骤S3包括：

步骤S30，将向量化的所述词集合的结果进行拼接；

步骤S31，将所述拼接后的向量化的所述词集合作为规定所述分类***的输入；

步骤S32，所述分类***根据所述分类***的输入计算得到所述概率估计值并输出。

优选的，所述分类***为神经网络、支持向量机、逻辑回归分类***中的一种。

其有益效果在于：

本发明提供的一种基于自然语言预处理的公共数据分级方法，可以大大提高公共数据分级的效率、速度和准确率。

附图说明

图1为本发明提供的一种基于自然语言预处理的公共数据分级方法步骤流程图；

图2为图1中步骤S3一种具体实施例的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

参照图1为本发明提供的一种基于自然语言预处理的公共数据分级方法步骤图，包括：

进一步的，步骤S1中的词集合为将公共数据以词为单位进行分词和词性标注并得到词集合，并根据一停用词词表，去除所述词集合中的停用词。

其中，所自然语言处理方法使用LTP工具包实现；停用词词表是根据词集合和语义标注结果中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。

进一步地，步骤2中通过抽取n元语法离散特征、抽取依存三元组特征、抽取词向量分布式特征中的至少一种向量化方式对公共数据的词集合和语义标注结果进行向量化。

进一步地，抽取n元语法离散特征为从词集合中抽取一个单词连续出现的集合、两个单词连续出现的集合以及三个单词连续出现的集合，形成一n元语法索引表，并根据n元语法索引表将词集合出现高的语法添加到n元语法索引表中作为n元语法离散特征。

具体的，从自然语言预处理步骤得到的法律法规文本和公共数据描述文本集合中抽取一个单词连续出现的集合、两个单词连续出现的集合以及三个单词连续出现的集合；根据n元语法索引表，将n元语法离散特征向量中的对应分词之间的数据归一，其中，根据训练语料中的n元语法统计结果，将出现次数高的单词添加到单词索引表中。

进一步地，抽取依存三元组特征为将去除了停用词的词集合以句为单位进行依存句法分析,并根据依存关系将词集合的依存关系集合作为依存三元组特征。

具体的，依存句法分析使用LTP工具包实现；根据是否包含涉及数据敏感性的关键词，由词集合和语义标注结果中的依存关系三元组生成对应的索引表。

进一步地，抽取词向量分布式特征为将去除了停用词的词集合进行词向量检索匹配,并将词向量的每一维度进行最大值、最小值、平均值计算,生成三个新的特征向量作为词向量分布式特征。

参照图2为图1中步骤S3一种具体实施例的流程图，包括：

步骤S30,将向量化的所述词集合的结果进行拼接；

步骤S31,将所述拼接后的向量化的所述词集合作为规定分类***的输入；

步骤S32，所述分类***根据所述分类***的输入计算得到概率估计值并输出。

具体的，根据分类***的输出概率，将输出概率中最大项对应的数据敏感程度作为公共数据的分类标签,得到公共数据分级概率，可以大大提高公共数据分级的效率、速度和准确率。

进一步地，分类***为神经网络、支持向量机、逻辑回归分类***等中的一种。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种基于自然语言预处理的公共数据分级方法，其特征在于，包括：

2.根据权利要求1所述的一种基于自然语言预处理的公共数据分级方法，其特征在于，所述步骤S1中的所述词集合为将所述公共数据以词为单位进行分词和词性标注并得到所述词集合，并根据一停用词词表，去除所述词集合中的停用词。

3.根据权利要求2所述的一种基于自然语言预处理的公共数据分级方法，其特征在于，所述停用词词表是根据所述词集合和所述语义标注结果中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。

4.根据权利要求1所述的一种基于自然语言预处理的公共数据分级方法，其特征在于，所述步骤2中通过抽取n元语法离散特征、抽取依存三元组特征、抽取词向量分布式特征中的至少一种向量化方式对所述公共数据的所述词集合和所述语义标注结果进行向量化。

5.根据权利要求4所述的一种基于自然语言预处理的公共数据分级方法，其特征在于，所述抽取n元语法离散特征为从所述词集合中抽取一个单词连续出现的集合、两个单词连续出现的集合以及三个单词连续出现的集合，形成一n元语法索引表，并根据所述n元语法索引表将所述词集合出现高的语法添加到所述n元语法索引表中作为所述n元语法离散特征。

6.根据权利要求4所述的一种基于自然语言预处理的公共数据分级方法，其特征在于，所述抽取依存三元组特征为将去除了所述停用词的所述词集合以句为单位进行依存句法分析,并根据依存关系将所述词集合的依存关系集合作为依存三元组特征。

7.根据权利要求4所述的一种基于自然语言预处理的公共数据分级方法，其特征在于，所述抽取词向量分布式特征为将去除了所述停用词的所述词集合进行词向量检索匹配,并将所述词向量的每一维度进行最大值、最小值、平均值计算，生成三个新的特征向量作为所述词向量分布式特征。

8.根据权利要求1所述的一种基于自然语言预处理的公共数据分级方法，其特征在于，所述步骤S3包括：

步骤S30，将向量化的所述词集合的结果进行拼接；

9.根据权利要求1所述的一种基于自然语言预处理的公共数据分级方法，其特征在于，所述分类***为神经网络、支持向量机、逻辑回归分类***中的一种。