CN111274399A - 一种基于自然语言预处理的公共数据分级方法 - Google Patents

一种基于自然语言预处理的公共数据分级方法 Download PDF

Info

Publication number
CN111274399A
CN111274399A CN202010066138.7A CN202010066138A CN111274399A CN 111274399 A CN111274399 A CN 111274399A CN 202010066138 A CN202010066138 A CN 202010066138A CN 111274399 A CN111274399 A CN 111274399A
Authority
CN
China
Prior art keywords
word
word set
public data
natural language
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010066138.7A
Other languages
English (en)
Inventor
陈磊
刘迎风
储昭武
管红
潘佳
唐若培
徐洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Big Data Center
Original Assignee
Shanghai Big Data Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Big Data Center filed Critical Shanghai Big Data Center
Priority to CN202010066138.7A priority Critical patent/CN111274399A/zh
Publication of CN111274399A publication Critical patent/CN111274399A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理技术领域,具体涉及一种基于自然语言预处理的公共数据分级方法,包括:步骤S1,对公共数据进行自然语言处理方法的分析,得到关于所述公共数据的词集合和语义标注结果;步骤S2,对于所述词集合和所述语义标注结果按照多种规则组合,得到所述公共数据所包含的语义信息的向量化表征形式;步骤S3,利用分类***对得到的所述公共数据所包含的语义信息的向量化表征形式分类计算概率估计值;步骤S4,根据所述概率估计值将所述概率估计值中最大项对应的数据敏感程度作为所述公共数据的分级标签。本发明可以大大提高公共数据分级效率、速度和准确率。

Description

一种基于自然语言预处理的公共数据分级方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于自然语言预处理的公共数据分级方法。
背景技术
随着城市数字化转型的推进以及公共数据的集中统一管理,公共数据的分级分类问题急需破题,尤其是对公共数据目录的安全分级,明确哪些数据可以无条件共享开放,哪些数据根据个人隐私、核心商业机密或相关法律法规规定适用有条件共享开放或者不开放不共享,从而结合不同的应用场景开展数据授权及共享开放,实现数据赋能城市管理、形成数据运营生态。在公共数据的分级过程中,目前主要凭借专业人员的知识背景及查阅相关规定进行人工分级,这种人工分级方式依赖于工作人员的能力,且工作量巨大、效率较低。
因此,提出一种基于人工智能中自然语言处理领域的文本分类技术,能够大大提高公共数据分级的效率和速度,同时提高分类的准确率。
现阶段有关文本分类技术的实现方法,主要分为统计学习方法和深度学习方法。前者主要以特征选择方法为主,通过诸如TF-IDF(term frequency-inverse documentfrequency,信息检索数据挖掘的常用加权技术)、PMI(Project Management Institute,采购经理指数)、卡方值等指标对文本的词、句级别特征进行选择,得到代表文本的特征向量,并用机器学习的方法得出该特征向量之于各标签的概率,作为最终的分类标准;后者则以模型构建为主,将文本的离散信息作为输入,通过多层神经网络的串、并联结构,辅以反向传播算法更新网络权重,直接得到该文本之于各标签的概率。
但是,公共数据分级中,不仅需要在分级好的数据描述中提取特征词,还需要在相关法律条文中提取特征词,并且适当增加这些特征词的权重。因此,这里提出一种专门用以对公共数据分级的文本分类方法。
发明内容
为了解决以上技术问题,本发明提供了一种基于自然语言预处理的公共数据分级方法。
本发明所解决的技术问题可以采用以下技术方案来实现:
一种基于自然语言预处理的公共数据分级方法,包括:
步骤S1,对公共数据进行自然语言处理方法的分析,得到关于所述公共数据的词集合和语义标注结果;
步骤S2,对于所述词集合和所述语义标注结果按照多种规则组合,得到所述公共数据所包含的语义信息的向量化表征形式;
步骤S3,利用分类***对得到的所述公共数据所包含的语义信息的向量化表征形式分类计算概率估计值;
步骤S4,根据所述概率估计值将所述概率估计值中最大项对应的数据敏感程度作为所述公共数据的分级标签。
优选的,所述步骤S1中的所述词集合为将所述公共数据以词为单位进行分词和词性标注并得到所述词集合,并根据一停用词词表,去除所述词集合中的停用词。
优选的,所述停用词词表是根据所述词集合和所述语义标注结果中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。
优选的,所述步骤2中通过抽取n元语法离散特征、抽取依存三元组特征、抽取词向量分布式特征中的至少一种向量化方式对所述公共数据的所述词集合和所述语义标注结果进行向量化。
优选的,所述抽取n元语法离散特征为从所述词集合中抽取一个单词连续出现的集合、两个单词连续出现的集合以及三个单词连续出现的集合,形成一n元语法索引表,并根据所述n元语法索引表将所述词集合出现高的语法添加到所述n元语法索引表中作为所述n元语法离散特征。
优选的,所述抽取依存三元组特征为将去除了所述停用词的所述词集合以句为单位进行依存句法分析,并根据依存关系将所述词集合的依存关系集合作为依存三元组特征。
优选的,所述抽取词向量分布式特征为将去除了所述停用词的所述词集合进行词向量检索匹配,并将所述词向量的每一维度进行最大值、最小值、平均值计算,生成三个新的特征向量作为所述词向量分布式特征。
优选的,所述步骤S3包括:
步骤S30,将向量化的所述词集合的结果进行拼接;
步骤S31,将所述拼接后的向量化的所述词集合作为规定所述分类***的输入;
步骤S32,所述分类***根据所述分类***的输入计算得到所述概率估计值并输出。
优选的,所述分类***为神经网络、支持向量机、逻辑回归分类***中的一种。
其有益效果在于:
本发明提供的一种基于自然语言预处理的公共数据分级方法,可以大大提高公共数据分级的效率、速度和准确率。
附图说明
图1为本发明提供的一种基于自然语言预处理的公共数据分级方法步骤流程图;
图2为图1中步骤S3一种具体实施例的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
参照图1为本发明提供的一种基于自然语言预处理的公共数据分级方法步骤图,包括:
步骤S1,对公共数据进行自然语言处理方法的分析,得到关于所述公共数据的词集合和语义标注结果;
步骤S2,对于所述词集合和所述语义标注结果按照多种规则组合,得到所述公共数据所包含的语义信息的向量化表征形式;
步骤S3,利用分类***对得到的所述公共数据所包含的语义信息的向量化表征形式分类计算概率估计值;
步骤S4,根据所述概率估计值将所述概率估计值中最大项对应的数据敏感程度作为所述公共数据的分级标签。
进一步的,步骤S1中的词集合为将公共数据以词为单位进行分词和词性标注并得到词集合,并根据一停用词词表,去除所述词集合中的停用词。
其中,所自然语言处理方法使用LTP工具包实现;停用词词表是根据词集合和语义标注结果中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。
进一步地,步骤2中通过抽取n元语法离散特征、抽取依存三元组特征、抽取词向量分布式特征中的至少一种向量化方式对公共数据的词集合和语义标注结果进行向量化。
进一步地,抽取n元语法离散特征为从词集合中抽取一个单词连续出现的集合、两个单词连续出现的集合以及三个单词连续出现的集合,形成一n元语法索引表,并根据n元语法索引表将词集合出现高的语法添加到n元语法索引表中作为n元语法离散特征。
具体的,从自然语言预处理步骤得到的法律法规文本和公共数据描述文本集合中抽取一个单词连续出现的集合、两个单词连续出现的集合以及三个单词连续出现的集合;根据n元语法索引表,将n元语法离散特征向量中的对应分词之间的数据归一,其中,根据训练语料中的n元语法统计结果,将出现次数高的单词添加到单词索引表中。
进一步地,抽取依存三元组特征为将去除了停用词的词集合以句为单位进行依存句法分析,并根据依存关系将词集合的依存关系集合作为依存三元组特征。
具体的,依存句法分析使用LTP工具包实现;根据是否包含涉及数据敏感性的关键词,由词集合和语义标注结果中的依存关系三元组生成对应的索引表。
进一步地,抽取词向量分布式特征为将去除了停用词的词集合进行词向量检索匹配,并将词向量的每一维度进行最大值、最小值、平均值计算,生成三个新的特征向量作为词向量分布式特征。
参照图2为图1中步骤S3一种具体实施例的流程图,包括:
步骤S30,将向量化的所述词集合的结果进行拼接;
步骤S31,将所述拼接后的向量化的所述词集合作为规定分类***的输入;
步骤S32,所述分类***根据所述分类***的输入计算得到概率估计值并输出。
具体的,根据分类***的输出概率,将输出概率中最大项对应的数据敏感程度作为公共数据的分类标签,得到公共数据分级概率,可以大大提高公共数据分级的效率、速度和准确率。
进一步地,分类***为神经网络、支持向量机、逻辑回归分类***等中的一种。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (9)

1.一种基于自然语言预处理的公共数据分级方法,其特征在于,包括:
步骤S1,对公共数据进行自然语言处理方法的分析,得到关于所述公共数据的词集合和语义标注结果;
步骤S2,对于所述词集合和所述语义标注结果按照多种规则组合,得到所述公共数据所包含的语义信息的向量化表征形式;
步骤S3,利用分类***对得到的所述公共数据所包含的语义信息的向量化表征形式分类计算概率估计值;
步骤S4,根据所述概率估计值将所述概率估计值中最大项对应的数据敏感程度作为所述公共数据的分级标签。
2.根据权利要求1所述的一种基于自然语言预处理的公共数据分级方法,其特征在于,所述步骤S1中的所述词集合为将所述公共数据以词为单位进行分词和词性标注并得到所述词集合,并根据一停用词词表,去除所述词集合中的停用词。
3.根据权利要求2所述的一种基于自然语言预处理的公共数据分级方法,其特征在于,所述停用词词表是根据所述词集合和所述语义标注结果中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。
4.根据权利要求1所述的一种基于自然语言预处理的公共数据分级方法,其特征在于,所述步骤2中通过抽取n元语法离散特征、抽取依存三元组特征、抽取词向量分布式特征中的至少一种向量化方式对所述公共数据的所述词集合和所述语义标注结果进行向量化。
5.根据权利要求4所述的一种基于自然语言预处理的公共数据分级方法,其特征在于,所述抽取n元语法离散特征为从所述词集合中抽取一个单词连续出现的集合、两个单词连续出现的集合以及三个单词连续出现的集合,形成一n元语法索引表,并根据所述n元语法索引表将所述词集合出现高的语法添加到所述n元语法索引表中作为所述n元语法离散特征。
6.根据权利要求4所述的一种基于自然语言预处理的公共数据分级方法,其特征在于,所述抽取依存三元组特征为将去除了所述停用词的所述词集合以句为单位进行依存句法分析,并根据依存关系将所述词集合的依存关系集合作为依存三元组特征。
7.根据权利要求4所述的一种基于自然语言预处理的公共数据分级方法,其特征在于,所述抽取词向量分布式特征为将去除了所述停用词的所述词集合进行词向量检索匹配,并将所述词向量的每一维度进行最大值、最小值、平均值计算,生成三个新的特征向量作为所述词向量分布式特征。
8.根据权利要求1所述的一种基于自然语言预处理的公共数据分级方法,其特征在于,所述步骤S3包括:
步骤S30,将向量化的所述词集合的结果进行拼接;
步骤S31,将所述拼接后的向量化的所述词集合作为规定所述分类***的输入;
步骤S32,所述分类***根据所述分类***的输入计算得到所述概率估计值并输出。
9.根据权利要求1所述的一种基于自然语言预处理的公共数据分级方法,其特征在于,所述分类***为神经网络、支持向量机、逻辑回归分类***中的一种。
CN202010066138.7A 2020-01-20 2020-01-20 一种基于自然语言预处理的公共数据分级方法 Pending CN111274399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010066138.7A CN111274399A (zh) 2020-01-20 2020-01-20 一种基于自然语言预处理的公共数据分级方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010066138.7A CN111274399A (zh) 2020-01-20 2020-01-20 一种基于自然语言预处理的公共数据分级方法

Publications (1)

Publication Number Publication Date
CN111274399A true CN111274399A (zh) 2020-06-12

Family

ID=70996860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010066138.7A Pending CN111274399A (zh) 2020-01-20 2020-01-20 一种基于自然语言预处理的公共数据分级方法

Country Status (1)

Country Link
CN (1) CN111274399A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523302A (zh) * 2020-07-06 2020-08-11 成都晓多科技有限公司 一种句法分析方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304468A (zh) * 2017-12-27 2018-07-20 ***股份有限公司 一种文本分类方法以及文本分类装置
CN109918506A (zh) * 2019-03-07 2019-06-21 安徽省泰岳祥升软件有限公司 一种文本分类方法及装置
CN109977416A (zh) * 2019-04-03 2019-07-05 中山大学 一种多层次自然语言反垃圾文本方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304468A (zh) * 2017-12-27 2018-07-20 ***股份有限公司 一种文本分类方法以及文本分类装置
CN109918506A (zh) * 2019-03-07 2019-06-21 安徽省泰岳祥升软件有限公司 一种文本分类方法及装置
CN109977416A (zh) * 2019-04-03 2019-07-05 中山大学 一种多层次自然语言反垃圾文本方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523302A (zh) * 2020-07-06 2020-08-11 成都晓多科技有限公司 一种句法分析方法、装置、存储介质及电子设备
CN111523302B (zh) * 2020-07-06 2020-10-02 成都晓多科技有限公司 一种句法分析方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN109241538B (zh) 基于关键词和动词依存的中文实体关系抽取方法
CN108255805B (zh) 舆情分析方法及装置、存储介质、电子设备
CN108304468B (zh) 一种文本分类方法以及文本分类装置
Devika et al. Sentiment analysis: a comparative study on different approaches
CN106997341B (zh) 一种创新方案匹配方法、装置、服务器及***
CN109299228B (zh) 计算机执行的文本风险预测方法及装置
CN113326374B (zh) 基于特征增强的短文本情感分类方法及***
KR20210062934A (ko) 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법
Fujihira et al. Multilingual sentiment analysis for web text based on word to word translation
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN116091045B (zh) 一种基于知识图谱的通信网络运维方法和运维装置
CN111274399A (zh) 一种基于自然语言预处理的公共数据分级方法
CN113011156A (zh) 审核文本的质检方法、装置、介质以及电子设备
Ahmad et al. Aspect Based Sentiment Analysis and Opinion Mining on Twitter Data Set Using Linguistic Rules
Dubey et al. Sentiment analysis of keenly intellective smart phone product review utilizing SVM classification technique
Rahul et al. Social media sentiment analysis for Malayalam
Gapanyuk et al. Architecture and Implementation of an Intelligent News Analysis System.
CN113590768B (zh) 一种文本关联度模型的训练方法及装置、问答方法及装置
CN113849639A (zh) 一种城市级数据仓库主题模型类别的构建方法及***
CN114328820A (zh) 信息搜索方法以及相关设备
Dudarin et al. A Technique to Pre-trained Neural Network Language Model Customization to Software Development Domain
Boddupalli et al. Sentiment Analysis of Telugu data and comparing advanced ensemble techniques using different text processing methods
CN110472140B (zh) 对象词推荐方法、装置及电子设备
CN113569578A (zh) 一种用户意图识别方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200612