CN112182249A - 针对航空安全报告的自动分类方法和装置 - Google Patents
针对航空安全报告的自动分类方法和装置 Download PDFInfo
- Publication number
- CN112182249A CN112182249A CN202011149925.4A CN202011149925A CN112182249A CN 112182249 A CN112182249 A CN 112182249A CN 202011149925 A CN202011149925 A CN 202011149925A CN 112182249 A CN112182249 A CN 112182249A
- Authority
- CN
- China
- Prior art keywords
- aviation safety
- classification
- knowledge
- text
- aviation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了针对航空安全报告的自动分类方法和装置,提出了一种kg2vec+CNN的航空安全报告自动分类方案,利用kg2vec模型训练航空安全报告的词向量作为航空安全报告文本数据的特征矩阵,输入卷积神经网络中,经过卷积核池化后得到新的文本特征向量,此时的特征向量不仅包含了丰富的语义特征还包含了语法特征,最后输入softmax分类器进行分类,得到分类结果,以此实现针对航空安全报告的自动分类,在真实的航空安全报告数据集上进行了详实的实验,实验结果表明,kg2vec词向量能够有效提高航空安全报告的分类准确率;在所有对照实验中,本申请kg2vec+CNN自动分类方案的F1‑score值最高并且具有高达91.4%的分类准确性。
Description
技术领域
本申请涉及航空安全技术领域,特别是涉及针对航空安全报告的自动分类方法和装置。
背景技术
近年来,随着经济的快速发展和生活水平的提高,越来越多的人喜欢速度快,旅行方便的飞机。结果,全球民航客运量逐年增加,这给航空安全带来了巨大的挑战。航空安全报告***(ASRS)收集了大量民航一线员工在日常工作中发现的不安全事件和安全隐患报告。这些报告是有关航空安全的第一手宝贵信息,为消除潜在的安全隐患,制定有效的纠正措施和宏观政策提供了重要依据。
传统的航空安全报告分类方法是由航空领域专家通过逐份阅读航空安全报告的非结构化文本内容,然后凭借自身知识和经验,按照一定的分类体系对航空安全报告进行归类。这种传统的分类方式不仅成本高,而且效率低,还存在同一个人在不同的时间段对同一份报告进行分类,得出的分类结果往往前后不一致的问题。此外,面对日益增加的航空安全报告,仅仅依靠人工对航空安全报告进行分类和管理已经远远不能满足当前航空安全报告的管理需要。
发明内容
本申请提供了针对航空安全报告的自动分类方法和装置,以解决上述技术问题。
为了解决上述问题,本申请公开了针对航空安全报告的自动分类方法,所述方法包括:
步骤S1:对航空安全报告的结构化字段进行知识图谱的构建,得到航空安全知识三元组;
步骤S2:对航空安全报告进行初步预处理,得到简化后的航空安全报告数据;
步骤S3:对所述简化后的航空安全报告数据以8:2为训练测试比例进行不同类别的划分,得到航空安全报告训练数据集和测试数据集;
步骤S4:对所述航空安全报告数据集进行预处理,得到经过预处理后的航空安全报告数据集;
步骤S5:利用融合文本和知识图谱的kg2vec词向量模型对所述航空安全知识三元组和所述预处理后的航空安全报告数据集进行特征表示,得到一个n*k的词向量矩阵;
步骤S6:利用所述词向量矩阵作为分类模型卷积神经网络(CNN)的输入矩阵进行训练,得到分类结果和分类模型;
步骤S7:利用分类评价指标对所述分类模型进行评估,输出所有不同类别的准确率,以及所有不同类别的F1-score的平均值。
可选的,所述步骤S1包括:
所述航空安全知识图谱的构建过程:
(1)根据航空安全报告结构化数据梳理出十种基本类别和若干类别属性,得到SPO三元组知识表示;
(2)根据SPO三元组知识表示,采用脚本语言python编写代码抽取对应的知识实例;
(3)把提取到的知识实例组合成“实体-关系-实体”以及“实体”-“属性”-“属性值”的三元组形式;
(4)并对这些知识三元组实例进行除燥、连接和消歧等处理,得到所述的航空安全知识三元组。
可选的,所述步骤S2包括:
所述航空安全报告简化过程:
(1)以“ACN”结构化字段作为不同报告的唯一标识,把“Narrative”非结构化字段作为分类处理的主要文本内容,把“Supplementary:Primary Problem”结构化字段作为分类标签,筛选出标签分别为“Human Factors”、“Aircraft”、“Procedure”、“Ambiguous”、“Company Policy”、“Weather”、“Environment”、“ATC Equipment”的八类航空安全报告作为实验数据集;
(2)保存筛选出报告的“ACN”、“Narrative”、和“Supplementary:PrimaryProblem”三个字段的数据,得到简化后的航空安全报告数据。
可选的,所述步骤S4包括:
利用文本预处理规则对航空安全数据集进行预处理,得到预处理后的航空安全报告数据集;
其中,所述文本预处理规则包括:
(1)构建领域词典,结合ASRS航空安全报告***官网提供的缩略词对照表,整理构建领域词典,用于文本分词和还原缩写词;
(2)文本清洗,去掉特殊的符号和多余的空格,以及把英文字母统一小写化;
(3)文本分词,使用nltk工具对文本进行分词,把(1)构建的航空领域词典加入nltk的自定义词典中,使分词过程中能够保留重要领域词短语;
(4)去停用词,去除在英文文本中存在的高频且无实际意义的词汇;
(5)还原领域缩略词,对照缩略词表把做了特殊标记的航空领域缩略词还原。
可选的,所述步骤S5中,所述融合文本和知识图谱的kg2vec词向量模型包括:
kg2vec词向量模型的目标函数为:
在公式1中,所述L为kg2vec词向量模型的目标函数,左半部分是基于CBOW的word2vec模型的目标函数,右半部分是知识图谱的知识向量表示模型的目标函数,其中,wi是词语;表示包含词语wi的关系集合;h是三元组(h,r,wi)中与词语wi具有关系r的词语;γ是调权参数,用来平衡两个模型的贡献率;C是训练的语料库;|C|是语料库的大小;
其中,所述知识图谱的知识向量表示模型训练目标函数的公式包括:
其中公式2中的参数θu、eh、er根据公式3-5梯度更新。
可选的,所述步骤S5包括:
所述融合文本和知识图谱的kg2vec词向量模型将每个词转化为相同形状的1*k维向量,其中k=100,然后经过拼接的方式将特征词的向量整合成一个n*k的向量,其中n表示文本特征词的个数。
可选的,所述步骤S6包括:
所述分类模型卷积神经网络(CNN)的处理过程:
(1)将所述n*k词向量矩阵输入到CNN的卷积层,经过卷积核运算得到特征面集合C;
(2)通过CNN的池化层对特征面集合C进行压缩和降采样处理,得到M个文本数据新特征向量;
(3)通过CNN的分类层将M个文本数据新特征向量与对应的类别进行组合,转化为形如{(xm,ym)}的形式作为softmax分类器的输入特征。得到最终的分类结果和分类模型;
其中,卷积核大小设置为3x100,4x100,5x100;池化方法选择Max-pooling;随机梯度下降的批尺寸batch设置为64;学习率设置为1e-3;训练次数为10;模型训练优化器选择AdamOptimizer;丢弃率Droupout rate设置为0.3。
可选的,所述步骤S7中,所述分类评价指标的公式包括:
其中,公式6-8分别为准确率、F1-score和召回率的计算公式:A表示分类器正确判断的正样本数目;B表示分类器错误的把负样本的判断为正样本的数目;C表示分类器错误的把正样本数据判断为负样本的数目;
准确率、F1-score的分值越高,所述分类模型越好。
基于同一发明构思,本申请还提出了针对航空安全报告的自动分类装置,所述装置包括:
知识图谱构建模块,用于对航空安全报告的结构化字段进行知识图谱的构建,得到航空安全知识三元组;
初步预处理模块,用于对航空安全报告进行初步预处理,得到简化后的航空安全报告数据;
数据集划分模块,用于对所述简化后的航空安全报告数据以8:2为训练测试比例进行不同类别的划分,得到航空安全报告训练数据集和测试数据集;
报告预处理模块,用于对所述航空安全报告数据集进行预处理,得到经过预处理后的航空安全报告数据集;
词向量模型训练模块,用于利用融合文本和知识图谱的kg2vec词向量模型对所述航空安全知识三元组和所述预处理后的航空安全报告数据集进行特征表示,得到一个n*k的词向量矩阵;
分类模型训练模块,用于利用所述词向量矩阵作为分类模型卷积神经网络(CNN)的输入矩阵进行训练,得到分类结果和分类模型;
分类评估模块,用于利用分类评价指标对所述分类模型进行评估,输出所有不同类别的准确率,以及所有不同类别的F1-score的平均值。
本申请实施例还提供了一种装置,包括:
一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行本申请实施例所述的一个或多个的方法。
与现有技术相比,本申请包括以下优点:
本申请首先利用航空安全报告的结构化字段构建知识图谱,得到航空安全知识三元组;通过对航空安全报告进行初步预处理,得到简化后的航空安全报告数据;进一步对简化后的航空安全报告数据以8:2为训练测试比例进行不同类别的划分,得到航空安全报告训练数据集和测试数据集;采用文本预处理规则对所述航空安全报告数据集进行预处理,得到经过预处理后的航空安全报告数据集;然后采用融合文本和知识图谱的kg2vec词向量模型对所述航空安全知识三元组和所述预处理后的航空安全报告数据集进行特征表示,得到一个n*k的词向量矩阵;再然后利用所述词向量矩阵作为分类模型卷积神经网络(CNN)的输入矩阵进行训练,得到分类结果和分类模型;最终利用分类评价指标对所述分类模型进行评估,输出所有不同类别的准确率,以及所有不同类别的F1-score的平均值,以此实现对航空安全报告的自动分类,本申请充分利用航空安全报告的数据特点,采用知识图谱技术组织和管理航空安全报告中的结构化数据,然后把知识图谱作为航空安全领域的背景知识引入word2vec词向量训练过程中提升文本特征提取质量,增强文本特征的语义表达能力;在分类器的选择上采用卷积神经网络模型减少对人工特征选择的依赖,以提高分类方法的可移植性以及分类准确率。
附图说明
图1是本申请针对航空安全报告的自动分类方法的步骤流程图;
图2是本申请词向量维度择优的曲线图;
图3是本申请分类F1-score比较的曲线图;
图4是本申请针对航空安全报告的自动分类装置的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
随着文本自动分类技术的发展以及基于机器学习的文本分类方法的出现,国内外其他学者及业内专家开始有条件、有机会研究文本自动分类技术在航空安全报告分类中的应用。其研究主要聚焦在分类模型和特征提取两方面:在分类模型选择上,主要采用基于机器学习的文本分类以及聚类方法对航空安全报告进行训练,生成对应的分类模型和聚类模型,然后利用这些模型对航空安全报告进行分类;改进文本特征提取方法,通过引入领域词典、考虑词语顺序等语义语法信息来提高分类效果。但是由于航空安全报告自身具有结构复杂、领域性强、数据量庞大等特点,增加了对其进行自动分类的难度,因此,目前还存在下列不足。
基于传统机器学习的航空安全报告自动分类的方法,一方面需要专家制定特征提取和选择的规则;另一方面不能处理词语间复杂的依赖关系。在采用传统机器学习的文本分类方法对航空安全报告进行分类的时候,有效的文本特征表示对分类结果至关重要,这就要求拥有丰富相关业务知识的领域专家花费大量的时间设计特征提取和选择的规则。另外,在提取部分文本特征的时候,通常需要借助One-hot、TF-IDF等文本表示方式,这使得文本特征的质量还受不同文本表示方式的影响。同时,设计的文本特征表示通常无法表达n元语法、领域词等特征,导致算法不能处理更为复杂的依赖关系。近年来也有学者选择word2vec等工具自动提取文本特征,选择深度学习模型作为分类器,虽然在一定程度上提高了分类效果,但其不足之处也很明显,在特征选择过程中完全自动无监督的提取,缺乏对领域信息的考虑,尤其是在航空安全报告这样领域性很强的数据集上,分类效果必然受限。
本文的知识图谱是以结构化的方式表现客观世界中的实体(概念、人、事务)及其关系的知识库,其本质是一种语义网络。它是一个由节点和边组成的图,其中每一个节点代表一个实体,边代表链接节点对应实体之间的关系,以图的形式映射了人类对世界的认知方式。目前,知识图谱已经成为语义搜索、智能问答、决策支持等智能服务的基础技术之一,被广泛应用于智慧城市、智慧司法、智能制造、智慧医疗等场景。
针对上述现有技术问题和知识图谱的特性,本申请建立了一种融合文本和知识图谱的航空安全报告自动分类算法和模型,充分利用航空安全报告的数据特点,采用知识图谱技术组织和管理航空安全报告中的结构化数据,然后把知识图谱作为航空安全领域的背景知识引入word2vec词向量训练过程中提升文本特征提取质量,增强文本特征的语义表达能力;在分类器的选择上采用卷积神经网络模型减少对人工特征选择的依赖,以提高分类方法的可移植性以及分类准确率。
接下来,在实施例1中对本申请的实现方式进行详细阐述。
实施例1:
如图1所示,示出了本申请针对航空安全报告的自动分类方法的步骤流程图,所述方法具体可以包括以下步骤:
ASRS报告主要由两个部分组成,分别是大量的结构化字段和非结构化文本描述部分。其中结构化字段包含由报告人填写的航空安全事件(航空安全事故征候)发生的时间、地点、机型、飞行阶段、天气、飞行高度等大量基本信息以及航空安全报告提交后由专家审核、分析后追加的事件原因、事件类别等重要信息;而非结构化文本描述部分是报告人对整个航空安全事件(航空安全事故征候)缘由经过的详细描述。
接下来,在步骤S1中,对航空安全报告的结构化字段进行知识图谱的构建,得到航空安全知识三元组;
航空安全知识图谱的构建过程包括:
(1)根据航空安全报告结构化数据梳理出十种基本类别和若干类别属性,得到SPO三元组知识表示;
(2)根据SPO三元组知识表示,采用脚本语言python编写代码抽取对应的知识实例;
(3)把提取到的知识实例组合成“实体-关系-实体”以及“实体”-“属性”-“属性值”的三元组形式;
(4)并对这些知识三元组实例进行除燥、连接和消歧等处理,得到所述的航空安全知识三元组。
步骤S2:对航空安全报告进行初步预处理,得到简化后的航空安全报告数据;
所述航空安全报告简化过程包括:
(1)以“ACN”结构化字段作为不同报告的唯一标识,把“Narrative”非结构化字段作为分类处理的主要文本内容,把“Supplementary:Primary Problem”结构化字段作为分类标签,筛选出标签分别为“Human Factors”、“Aircraft”、“Procedure”、“Ambiguous”、“Company Policy”、“Weather”、“Environment”、“ATC Equipment”的八类航空安全报告作为实验数据集;
(2)保存筛选出报告的“ACN”、“Narrative”、和“Supplementary:PrimaryProblem”三个字段的数据,得到简化后的航空安全报告数据。
步骤S3:对所述简化后的航空安全报告数据以8:2为训练测试比例进行不同类别的划分,得到航空安全报告训练数据集和测试数据集。
步骤S4:对所述航空安全报告数据集进行预处理,得到经过预处理后的航空安全报告数据集;
利用文本预处理规则对航空安全数据集进行预处理,得到预处理后的航空安全报告数据集;
其中,所述文本预处理规则包括:
(1)构建领域词典,结合ASRS航空安全报告***官网提供的缩略词对照表,整理构建领域词典,用于文本分词和还原缩写词;
(2)文本清洗,去掉特殊的符号和多余的空格,以及把英文字母统一小写化;
(3)文本分词,使用nltk工具对文本进行分词,把(1)构建的航空领域词典加入nltk的自定义词典中,使分词过程中能够保留重要领域词短语;
(4)去停用词,去除在英文文本中存在的高频且无实际意义的词汇;
(5)还原领域缩略词,对照缩略词表把做了特殊标记的航空领域缩略词还原。
步骤S5:利用融合文本和知识图谱的kg2vec词向量模型对所述航空安全知识三元组和所述预处理后的航空安全报告数据集进行特征表示,得到一个n*k的词向量矩阵;
所述融合文本和知识图谱的kg2vec词向量模型包括:
kg2vec词向量模型的目标函数为:
在公式1中,所述L为kg2vec词向量模型的目标函数,左半部分是基于CBOW的word2vec模型的目标函数,右半部分是知识图谱的知识向量表示模型的目标函数,其中,wi是词语;表示包含词语wi的关系集合;h是三元组(h,r,wi)中与词语wi具有关系r的词语;γ是调权参数,用来平衡两个模型的贡献率;C是训练的语料库;|C|是语料库的大小;
其中,所述知识图谱的知识向量表示模型训练目标函数的公式包括:
其中公式2中的参数θu、eh、er根据公式3~公式5梯度更新;
所述融合文本和知识图谱的kg2vec词向量模型将每个词转化为相同形状的1*k维向量,其中k=100,然后经过拼接的方式将特征词的向量整合成一个n*k的向量,其中n表示文本特征词的个数。
步骤S6:利用所述词向量矩阵作为分类模型卷积神经网络(CNN)的输入矩阵进行训练,得到分类结果和分类模型;
所述分类模型卷积神经网络(CNN)的处理过程包括:
(1)将所述n*k词向量矩阵输入到CNN的卷积层,经过卷积核运算得到特征面集合C;
(2)通过CNN的池化层对特征面集合C进行压缩和降采样处理,得到M个文本数据新特征向量;
(3)通过CNN的分类层将M个文本数据新特征向量与对应的类别进行组合,转化为形如{(xm,ym)}的形式作为softmax分类器的输入特征。得到最终的分类结果和分类模型;
其中,卷积核大小设置为3x100,4x100,5x100;池化方法选择Max-pooling;随机梯度下降的批尺寸batch设置为64;学习率设置为1e-3;训练次数为10;模型训练优化器选择AdamOptimizer;丢弃率Droupout rate设置为0.3。
步骤S7:利用分类评价指标对所述分类模型进行评估,输出所有不同类别的准确率,以及所有不同类别的F1-score的平均值;
对文本分类效果进行评价是文本分类过程的重要组成部分,一般从算法运行性能和分类结果准确率两方面来评价文本分类模型的效果。对算法运行性能的评价主要是比较算法运行空间和时间复杂度,运行空间和时间复杂度越小算法运行性能越好;对于分类结果准确率是把分类模型的分类结果与人工分类结果进行对比,其差异越小分类结果准确率越高,本文只强调分类效果,对运算性能没有要求,常用的评价指标有准确率和F1值;
所述分类评价指标的公式包括:
其中,公式6~公式8分别为准确率、F1-score和召回率的计算公式:A表示分类器正确判断的正样本数目;B表示分类器错误的把负样本的判断为正样本的数目;C表示分类器错误的把正样本数据判断为负样本的数目;
准确率、F1-score的分值越高,所述分类模型越好。
基于步骤S1~步骤S7,为了验证本发明的可行性,接下来采用实例1详细阐述。
数据获取:美国联邦航空管理局FAA的航空安全报告***ASRS公布的从从2010年1月份至2018年12月份的51394份航空安全报告数据。
经过步骤1的处理方法,得到96019条航空安全知识三元组。
经过步骤2的处理方法,得到40958份航空安全报告作为实验数据集。
经过步骤3的处理方法,得到了不同类别的数据集,参见表1。表中Label表示航空安全的类别标签,Data set size表示对应类别的航空安全报告数据集大小,Train表示训练航空安全报告的数据集大小,Test表示测试航空安全报告的数据集大小。
表1实验数据分布情况
经过步骤4的处理方法,得到训练集包含51584个至少出现过一次的词项,过滤掉词频小于5的词项后,还剩余36127个。
利用步骤5中的kg2vec词向量模型对所述航空安全知识三元组和所述预处理后的航空安全报告数据集进行特征表示,得到一个n*k的词向量矩阵。词向量的维度k体现的是文本语义特征,其取值一般在[100,200]区间,不同的取值对文本分类准确率的影响有所不同。本文在[100,200]区间内,以10为跨度值进行实验,实验结果如图2所示,由图可知词向量维度取值100时,分类准确率最高。因此,本文的词向量维度最终取值为100。
根据上述实验,设k=100,卷积神经网络模型的训练参数为:卷积核大小设置为3x100,4x100,5x100;池化方法选择Max-pooling;随机梯度下降的批尺寸batch设置为64;学***均值(如图3所示)。
为了验证本文提出的融合文本和知识图谱的kg2vec词向量模型有助于提高航空安全报告分类的准确性以及本文设计的基于卷积神经网络的航空安全报告分类的有效性,设计了两组对比实验。
第一组对比实验是验证kg2vec词向量对提高航空安全报告分类准确率的有效性。分别以one-hot独热编码、word2vec词向量以及本申请提出的kg2vec词向量作为航空安全报告的文本特征表示,输入同一个卷积神经网络模型进行分类,最后通过比较分类结果准确性来判断kg2vec词向量对提高航空安全报告分类准确率的有效性。
第二组对比实验是验证本文设计的基于卷积神经网络的航空安全报告分类的有效性。使用本文设计的kg2vec+CNN方法与经典的基于机器学习的分类方法支持向量机(SVM)和朴素贝叶斯(NB)算法进行比较。
表2五种分类方法的分类准确率比较
由上表可见:
(1)对于准确率评价指标,本文的方法kg2vec+CNN的分类准确率最高可达91.4%,而且kg2vec+CNN方法在平均分类准确率上比word2vec+CNN方法高3.6%,比One-hot+CNN方法高11.7%。由此说明本文提出改进的kg2vec词向量特征表示方法确实丰富了文本特征表示,有助于提高航空安全报告文本分类的准确率。
(2)方法One-hot+CNN、word2vec+CNN和kg2vec+CNN均采用卷积神经网络作为分类器,属于深度学***均分类准确率最低;而SVM方法的平均准确率以及F1-score值仅次于kg2vec+CNN方法,但对于小数据集的分类效果总体表现最好;而kg2vec+CNN方法对于大数据的分类效果表现更好而且平均分类准确率和F1-score值都最高。
(3)由图3可知,对于F1-score评价指标来说,本文的方法kg2vec+CNN的值最高,为0.837;其次是SVM方法;最低的是One-hot+CNN方法,为0.596。这表明在设计的五种分类方法中,本文的方法(kg2vec+CNN)的模型总体质量最高。
综上所述,本文提出的kg2vec词向量相对于One-hot独热编码和word2vec词向量分别作为卷积神经网络的输入文本特征矩阵而言,能够有效提高航空安全报告分类的准确率,由此证明kg2vec模型的可行性和有效性;就传统主流的机器学习分类算法SVM和NB而言,本文所设计的kg2vec+CNN分类方案的F1-score值最高且对大数据集具有较高的分类准确性,最高达91.4%。由此表明本申请的kg2vec+CNN分类方案总体质量更好而且对大规模的航空安全报告分类适用性更好。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
实施例2:
如图4所示,基于同一发明构思,示出了本申请针对航空安全报告的自动分类装置的结构框图,所述装置具体可以包括以下模块:
知识图谱构建模块401,用于对航空安全报告的结构化字段进行知识图谱的构建,得到航空安全知识三元组;
初步预处理模块402,用于对航空安全报告进行初步预处理,得到简化后的航空安全报告数据;
数据集划分模块403,用于对所述简化后的航空安全报告数据以8:2为训练测试比例进行不同类别的划分,得到航空安全报告训练数据集和测试数据集;
报告预处理模块404,用于对所述航空安全报告数据集进行预处理,得到经过预处理后的航空安全报告数据集;
词向量模型训练模块405,用于利用融合文本和知识图谱的kg2vec词向量模型对所述航空安全知识三元组和所述预处理后的航空安全报告数据集进行特征表示,得到一个n*k的词向量矩阵;
分类模型训练模块406,用于利用所述词向量矩阵作为分类模型卷积神经网络(CNN)的输入矩阵进行训练,得到分类结果和分类模型;
分类评估模块407,用于利用分类评价指标对所述分类模型进行评估,输出所有不同类别的准确率,以及所有不同类别的F1-score的平均值。
本申请实施例还提供了一种装置,包括:
一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行本申请实施例所述的一个或多个的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请所提供的的涉及针对航空安全报告的自动分类方法和针对航空安全报告的自动分类装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.针对航空安全报告的自动分类方法,其特征在于,所述方法包括:
步骤S1:对航空安全报告的结构化字段进行知识图谱的构建,得到航空安全知识三元组;
步骤S2:对航空安全报告进行初步预处理,得到简化后的航空安全报告数据;
步骤S3:对所述简化后的航空安全报告数据以8:2为训练测试比例进行不同类别的划分,得到航空安全报告训练数据集和测试数据集;
步骤S4:对所述航空安全报告数据集进行预处理,得到经过预处理后的航空安全报告数据集;
步骤S5:利用融合文本和知识图谱的kg2vec词向量模型对所述航空安全知识三元组和所述预处理后的航空安全报告数据集进行特征表示,得到一个n*k的词向量矩阵;
步骤S6:利用所述词向量矩阵作为分类模型卷积神经网络(CNN)的输入矩阵进行训练,得到分类结果和分类模型;
步骤S7:利用分类评价指标对所述分类模型进行评估,输出所有不同类别的准确率,以及所有不同类别的F1-score的平均值。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括:
所述航空安全知识图谱的构建过程:
(1)根据航空安全报告结构化数据梳理出十种基本类别和若干类别属性,得到SPO三元组知识表示;
(2)根据SPO三元组知识表示,采用脚本语言python编写代码抽取对应的知识实例;
(3)把提取到的知识实例组合成“实体-关系-实体”以及“实体”-“属性”-“属性值”的三元组形式;
(4)并对这些知识三元组实例进行除燥、连接和消歧等处理,得到所述的航空安全知识三元组。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2包括:
所述航空安全报告简化过程:
(1)以“ACN”结构化字段作为不同报告的唯一标识,把“Narrative”非结构化字段作为分类处理的主要文本内容,把“Supplementary:Primary Problem”结构化字段作为分类标签,筛选出标签分别为“Human Factors”、“Aircraft”、“Procedure”、“Ambiguous”、“Company Policy”、“Weather”、“Environment”、“ATC Equipment”的八类航空安全报告作为实验数据集;
(2)保存筛选出报告的“ACN”、“Narrative”、和“Supplementary:Primary Problem”三个字段的数据,得到简化后的航空安全报告数据。
4.根据权利要求1所述的方法,其特征在于,所述步骤S4包括:
利用文本预处理规则对航空安全数据集进行预处理,得到预处理后的航空安全报告数据集;
其中,所述文本预处理规则包括:
(1)构建领域词典,结合ASRS航空安全报告***官网提供的缩略词对照表,整理构建领域词典,用于文本分词和还原缩写词;
(2)文本清洗,去掉特殊的符号和多余的空格,以及把英文字母统一小写化;
(3)文本分词,使用nltk工具对文本进行分词,把(1)构建的航空领域词典加入nltk的自定义词典中,使分词过程中能够保留重要领域词短语;
(4)去停用词,去除在英文文本中存在的高频且无实际意义的词汇;
(5)还原领域缩略词,对照缩略词表把做了特殊标记的航空领域缩略词还原。
5.根据权利要求1所述的方法,其特征在于,所述步骤S5中,所述融合文本和知识图谱的kg2vec词向量模型包括:
kg2vec词向量模型的目标函数为:
在公式1中,所述L为kg2vec词向量模型的目标函数,左半部分是基于CBOW的word2vec模型的目标函数,右半部分是知识图谱的知识向量表示模型的目标函数,其中,wi是词语;表示包含词语wi的关系集合;h是三元组(h,r,wi)中与词语wi具有关系r的词语;γ是调权参数,用来平衡两个模型的贡献率;C是训练的语料库;|C|是语料库的大小;
其中,所述知识图谱的知识向量表示模型训练目标函数的公式包括:
其中公式2中的参数θu、eh、er根据公式3~公式5梯度更新。
6.根据权利要求1或5所述的方法,其特征在于,所述步骤S5包括:
所述融合文本和知识图谱的kg2vec词向量模型将每个词转化为相同形状的1*k维向量,其中k=100,然后经过拼接的方式将特征词的向量整合成一个n*k的向量,其中n表示文本特征词的个数。
7.根据权利要求1所述的方法,其特征在于,所述步骤S6包括:
所述分类模型卷积神经网络(CNN)的处理过程:
(1)将所述n*k词向量矩阵输入到CNN的卷积层,经过卷积核运算得到特征面集合C;
(2)通过CNN的池化层对特征面集合C进行压缩和降采样处理,得到M个文本数据新特征向量;
(3)通过CNN的分类层将M个文本数据新特征向量与对应的类别进行组合,转化为形如{(xm,ym)}的形式作为softmax分类器的输入特征,得到最终的分类结果和分类模型;
其中,卷积核大小设置为3x100,4x100,5x100;池化方法选择Max-pooling;随机梯度下降的批尺寸batch设置为64;学习率设置为1e-3;训练次数为10;模型训练优化器选择AdamOptimizer;丢弃率Droupout rate设置为0.3。
9.针对航空安全报告的自动分类装置,其特征在于,所述装置包括:
知识图谱构建模块,用于对航空安全报告的结构化字段进行知识图谱的构建,得到航空安全知识三元组;
初步预处理模块,用于对航空安全报告进行初步预处理,得到简化后的航空安全报告数据;
数据集划分模块,用于对所述简化后的航空安全报告数据以8:2为训练测试比例进行不同类别的划分,得到航空安全报告训练数据集和测试数据集;
报告预处理模块,用于对所述航空安全报告数据集进行预处理,得到经过预处理后的航空安全报告数据集;
词向量模型训练模块,用于利用融合文本和知识图谱的kg2vec词向量模型对所述航空安全知识三元组和所述预处理后的航空安全报告数据集进行特征表示,得到一个n*k的词向量矩阵;
分类模型训练模块,用于利用所述词向量矩阵作为分类模型卷积神经网络(CNN)的输入矩阵进行训练,得到分类结果和分类模型;
分类评估模块,用于利用分类评价指标对所述分类模型进行评估,输出所有不同类别的准确率,以及所有不同类别的F1-score的平均值。
10.一种装置,其特征在于,包括:
一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行权利要求1~10所述的一个或多个的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011149925.4A CN112182249B (zh) | 2020-10-23 | 2020-10-23 | 针对航空安全报告的自动分类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011149925.4A CN112182249B (zh) | 2020-10-23 | 2020-10-23 | 针对航空安全报告的自动分类方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112182249A true CN112182249A (zh) | 2021-01-05 |
CN112182249B CN112182249B (zh) | 2022-12-13 |
Family
ID=73923731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011149925.4A Active CN112182249B (zh) | 2020-10-23 | 2020-10-23 | 针对航空安全报告的自动分类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182249B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819003A (zh) * | 2021-04-19 | 2021-05-18 | 北京妙医佳健康科技集团有限公司 | 一种提升体检报告ocr识别准确率的方法及装置 |
CN114722823A (zh) * | 2022-03-24 | 2022-07-08 | 华中科技大学 | 构建航空知识图谱的方法及装置、计算机可读介质 |
CN114779821A (zh) * | 2022-05-25 | 2022-07-22 | 四川大学 | 基于深度学习的无人机自适应斥力系数路径规划方法 |
CN115345229A (zh) * | 2022-08-08 | 2022-11-15 | 航天神舟智慧***技术有限公司 | 一种消防风险维度确定方法 |
CN116341537A (zh) * | 2023-05-23 | 2023-06-27 | 中债金科信息技术有限公司 | 多粒度词向量的评估方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563653A (zh) * | 2017-12-21 | 2018-09-21 | 清华大学 | 一种用于知识图谱中知识获取模型的构建方法及*** |
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
US20190108273A1 (en) * | 2017-10-10 | 2019-04-11 | Alibaba Group Holding Limited | Data Processing Method, Apparatus and Electronic Device |
CN109960802A (zh) * | 2019-03-19 | 2019-07-02 | 四川大学 | 针对航空安全报告叙述性文本的信息处理方法和装置 |
CN110516073A (zh) * | 2019-08-30 | 2019-11-29 | 北京百度网讯科技有限公司 | 一种文本分类方法、装置、设备和介质 |
CN110633373A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种基于知识图谱和深度学习的汽车舆情分析方法 |
CN110675660A (zh) * | 2018-07-03 | 2020-01-10 | 霍尼韦尔国际公司 | 飞机危险信息*** |
CN110704636A (zh) * | 2019-09-27 | 2020-01-17 | 吉林大学 | 一种改进的基于Node2vec的知识图谱向量表示方法 |
CN111177394A (zh) * | 2020-01-03 | 2020-05-19 | 浙江大学 | 基于句法注意力神经网络的知识图谱关系数据分类方法 |
CN111767398A (zh) * | 2020-06-30 | 2020-10-13 | 国网新疆电力有限公司电力科学研究院 | 基于卷积神经网络的二次设备故障短文本数据分类方法 |
-
2020
- 2020-10-23 CN CN202011149925.4A patent/CN112182249B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190108273A1 (en) * | 2017-10-10 | 2019-04-11 | Alibaba Group Holding Limited | Data Processing Method, Apparatus and Electronic Device |
CN108563653A (zh) * | 2017-12-21 | 2018-09-21 | 清华大学 | 一种用于知识图谱中知识获取模型的构建方法及*** |
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN110633373A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种基于知识图谱和深度学习的汽车舆情分析方法 |
CN110675660A (zh) * | 2018-07-03 | 2020-01-10 | 霍尼韦尔国际公司 | 飞机危险信息*** |
CN109960802A (zh) * | 2019-03-19 | 2019-07-02 | 四川大学 | 针对航空安全报告叙述性文本的信息处理方法和装置 |
CN110516073A (zh) * | 2019-08-30 | 2019-11-29 | 北京百度网讯科技有限公司 | 一种文本分类方法、装置、设备和介质 |
CN110704636A (zh) * | 2019-09-27 | 2020-01-17 | 吉林大学 | 一种改进的基于Node2vec的知识图谱向量表示方法 |
CN111177394A (zh) * | 2020-01-03 | 2020-05-19 | 浙江大学 | 基于句法注意力神经网络的知识图谱关系数据分类方法 |
CN111767398A (zh) * | 2020-06-30 | 2020-10-13 | 国网新疆电力有限公司电力科学研究院 | 基于卷积神经网络的二次设备故障短文本数据分类方法 |
Non-Patent Citations (4)
Title |
---|
TOMMASO SORU 等: "Expeditious Generation of Knowledge Graph Embeddings", 《HTTPS://ARXIV.ORG/ABS/1803.07828V2》 * |
万磊 等: "基于 CNN的多标签文本分类与研究", 《现代计算机》 * |
刘梦娜: "基于文本挖掘的航空安全事故报告致因因素分析和风险预测", 《中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑》 * |
姜晓全: "基于随机游走的知识表示学习", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819003A (zh) * | 2021-04-19 | 2021-05-18 | 北京妙医佳健康科技集团有限公司 | 一种提升体检报告ocr识别准确率的方法及装置 |
CN114722823A (zh) * | 2022-03-24 | 2022-07-08 | 华中科技大学 | 构建航空知识图谱的方法及装置、计算机可读介质 |
CN114722823B (zh) * | 2022-03-24 | 2023-04-14 | 华中科技大学 | 构建航空知识图谱的方法及装置、计算机可读介质 |
CN114779821A (zh) * | 2022-05-25 | 2022-07-22 | 四川大学 | 基于深度学习的无人机自适应斥力系数路径规划方法 |
CN115345229A (zh) * | 2022-08-08 | 2022-11-15 | 航天神舟智慧***技术有限公司 | 一种消防风险维度确定方法 |
CN116341537A (zh) * | 2023-05-23 | 2023-06-27 | 中债金科信息技术有限公司 | 多粒度词向量的评估方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112182249B (zh) | 2022-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112182249B (zh) | 针对航空安全报告的自动分类方法和装置 | |
CN105868184B (zh) | 一种基于循环神经网络的中文人名识别方法 | |
CN107239446B (zh) | 一种基于神经网络与注意力机制的情报关系提取方法 | |
WO2022088444A1 (zh) | 一种面向多任务语言模型的元-知识微调方法及平台 | |
CN107025284A (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN108804595B (zh) | 一种基于word2vec的短文本表示方法 | |
CN108537257B (zh) | 基于判别性字典矩阵对的零样本图像分类方法 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、***及装置 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN106227836B (zh) | 基于图像与文字的无监督联合视觉概念学习***及方法 | |
CN108763211A (zh) | 融合蕴含知识的自动文摘方法及*** | |
CN112988970A (zh) | 一种服务于智能问答***的文本匹配算法 | |
CN115496072A (zh) | 一种基于对比学习的关系抽取方法 | |
CN115017879A (zh) | 文本对比方法、计算机设备及计算机存储介质 | |
CN117332788B (zh) | 一种基于英语口语文本的语义分析方法 | |
CN117390198A (zh) | 构建电力领域科技知识图谱的方法、装置、设备及介质 | |
CN112084312B (zh) | 一种基于知识图构建的智能客服*** | |
CN111191029B (zh) | 基于监督学习和文本分类的ac构建方法 | |
CN115630357B (zh) | 一种应用程序越界收集个人信息行为的判定方法 | |
Wan et al. | Recognition of printed mathematical formula symbols based on convolutional neural network | |
CN115758244A (zh) | 一种基于sbert的中文专利ipc分类方法 | |
CN113095087B (zh) | 一种基于图卷积神经网络的中文词义消歧方法 | |
CN115761235A (zh) | 基于知识蒸馏的零样本语义分割方法、***、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhang Wenfang Inventor after: Shi Hongwei Inventor after: Cao Xinwen Inventor before: Zhang Wenfang Inventor before: Shi Hongwei |
|
GR01 | Patent grant | ||
GR01 | Patent grant |