CN110110969A - 一种空间环境预报产品基本质量自动检验评估方法及*** - Google Patents
一种空间环境预报产品基本质量自动检验评估方法及*** Download PDFInfo
- Publication number
- CN110110969A CN110110969A CN201910284784.8A CN201910284784A CN110110969A CN 110110969 A CN110110969 A CN 110110969A CN 201910284784 A CN201910284784 A CN 201910284784A CN 110110969 A CN110110969 A CN 110110969A
- Authority
- CN
- China
- Prior art keywords
- space environment
- forecast
- content
- product
- environment forecast
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000007613 environmental effect Effects 0.000 claims abstract description 27
- 238000011156 evaluation Methods 0.000 claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims description 35
- 230000000694 effects Effects 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 23
- 238000012800 visualization Methods 0.000 claims description 23
- 238000007689 inspection Methods 0.000 claims description 22
- 230000002452 interceptive effect Effects 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000009472 formulation Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 206010028916 Neologism Diseases 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 241000502522 Luscinia megarhynchos Species 0.000 claims 2
- 239000004744 fabric Substances 0.000 claims 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 6
- 230000005389 magnetism Effects 0.000 description 6
- 241000220317 Rosa Species 0.000 description 4
- 230000004907 flux Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 238000011897 real-time detection Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 206010054949 Metaplasia Diseases 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000005923 long-lasting effect Effects 0.000 description 1
- 230000015689 metaplastic ossification Effects 0.000 description 1
- SBNFWQZLDJGRLK-UHFFFAOYSA-N phenothrin Chemical compound CC1(C)C(C=C(C)C)C1C(=O)OCC1=CC=CC(OC=2C=CC=CC=2)=C1 SBNFWQZLDJGRLK-UHFFFAOYSA-N 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种空间环境预报产品基本质量自动检验评估方法及***,所述方法包括:获取待检测的空间环境预报产品,所述空间环境预报产品包括空间环境预报文本内容、空间环境预报数值型内容和空间环境事件预报内容;利用基于规则邻域搜索的预报内容信息自动抽取方法,从空间环境预报文本内容中抽取对应的空间环境预报主要要素信息;根据空间环境基本质量检验评估指标对空间环境预报主要要素信息、空间环境预报数值型内容和空间环境事件预报内容进行基本质量检验评估,并将检验评估结果存储到数据库中。本发明的方法能够实现间环境预报产品基本质量自动检验评估,为空间环境业务预报质量控制提供技术支持。
Description
技术领域
本发明涉及空间环境业务预报产品质量控制领域,具体涉及一种空间环境预报产品基本质量自动检验评估方法及***。
背景技术
空间环境预报产品是空间环境保障的重要组成部分,预报产品包括面向公众的日报、周报、月报和通报,面向专业用户定制的预报产品。从内容上通常包括空间环境综述和未来一段时间的空间环境预报。目前,空间环境预报产品依靠预报员根据自身经验半自动化生成。在空间环境预报产品的制作过程中,由于预报员知识背景差异等原因导致文本内容出现偏差和错误,主要包括预报产品发布的准时性、文字拼写准确性、物理量单位准确性、数据数值准确性、预报内容前后一致性等基本质量问题,必须通过基本质量检验和评估,才能及时发现预报产品中存在的质量问题。
预报检验评估研究始于气象预报领域,也主要在该领域得到了发展。空间环境预报检验评估***性的研究处于刚刚起步阶段。美国空间环境预报中心(SWPC)对空间环境预报业务已经进行了尝试性的评估工作,SWPC针对Ap、Kp等地磁活动指数、太阳活动指数预报,以及地磁暴、太阳耀斑、质子事件等空间环境事件的概率预报等预报产品定期进行评估(每年评估一次),并发布在其官方网站上。但是,目前查到的资料显示SWPC还未形成一套实时的自动化的检验评估***,也没有对其发布的人工预报产品实行基本质量的检验。
我国的空间环境业务预报服务已开展二十余年时间,随着对空间环境预报的更多关注,对预报评估工作也开始得到重视,然而***性的预报评估方法还没有建立完善,面临着诸多问题需要解决。中国专利:专利号:ZL 2013 1 0303921.0一种自动化空间环境模式评估***及方法,针对不同的预报产品的特点,设计了连续值评估方法和事件二分类评估方法。
目前国内外对空间预报产品的评估只是针对数值型预报结果的评估,并没有涉及对空间环境预报产品基本质量的检验和评估。
发明内容
本发明的目的在于填补当前空间环境预报产品质量检验工具的空白,通过分析空间环境预报产品中潜在的预报产品发布的准时性、文字拼写准确性、物理量单位准确性、数据数值准确性、预报内容前后一致性等基本质量问题,提出了一种空间环境预报产品基本质量检验的评估方法;并设计交互式可视化***,对空间环境预报产品中存在的问题进行可视化分析。
为了实现上述目的,本发明提供一种空间环境预报产品基本质量自动检验评估方法,所述方法包括:
获取待检测的空间环境预报产品,所述空间环境预报产品包括空间环境预报文本内容、空间环境预报数值型内容和空间环境事件预报内容;
利用基于规则邻域搜索的预报内容信息自动抽取方法,从空间环境预报文本内容中抽取对应的空间环境预报主要要素信息;
根据空间环境基本质量检验评估指标对空间环境预报主要要素信息、空间环境预报数值型内容和空间环境事件预报内容进行基本质量检验评估,并将检验评估结果存储到数据库中。
作为上述方法的一种改进,从数据库中提取检验评估结果,利用交互式可视化界面实现空间环境预报产品的可视化质量分析和检验评估结果的可视化;所述交互式可视化界面包括南丁格尔玫瑰图显示整体预报中存在的各种问题占比、平行坐标显示各个预报员在预报中存在的各种问题。
作为上述方法的一种改进,所述利用基于规则邻域搜索的预报内容信息自动抽取方法,从空间环境预报文本内容中抽取对应的空间环境预报主要要素信息;具体包括:
根据文本标点对空间环境预报文本内容进行语句分割,每一句包含独立的空间环境预报主要要素;所述空间环境预报主要要素包括:太阳活动水平、地磁活动水平、太阳质子事件和高能电子暴事件;
利用开源中文分词工具包IKAnalyzer2012,基于空间环境预报领域词典,对语句内容进行分词,分词后转换成<词索引、词>键值对的形式;
基于<词索引、词>键值对,针对不同的空间环境预报主要要素,制定相应的信息抽取规则,从空间环境预报文本内容中抽取对应的空间环境预报主要要素信息。
作为上述方法的一种改进,所述空间环境预报领域词典的构建步骤包含:
步骤S1)根据空间环境学科特点和预报经验,制定空间环境预报领域词典;
步骤S2)利用开源中文分词工具包IKAnalyzer2012,基于空间环境预报领域词典,对空间环境预报历史产品进行文本分割,得到空间环境预报词序列;
步骤S3)分析空间环境预报词序列,判断是否存在空间环境预报领域术语分割错误,将分割错误的术语添加到空间环境预报领域词典中;
步骤S4)重复步骤S2)-步骤S3),直至所有的空间环境领域术语被正确拆分,则空间环境预报领域词典构建完成。
作为上述方法的一种改进,所述空间环境基本质量检验评估指标包括:预报产品发布的准时性、文字拼写准确性、物理量单位准确性、数据数值准确性和预报内容前后一致性;
所述预报产品发布的准时性,是指在规定的时间节点是否完成空间环境预报产品的发布;
所述文字拼写准确性,是指生成的空间环境预报产品中的文字拼写是否正确;
所述物理量单位准确性,是指根据制定的空间环境预报物理量单位词典,判断空间环境预报产品中物理量的单位是否正确;
所述数据数值准确性,是指根据制定的空间环境预报数值型物理量数值范围词典,判断空间环境预报产品中物理量数据的数值是否超过其合理范围;
所述预报内容前后一致性,是指空间环境预报文本内容和空间环境事件预报内容之间是否一致。
作为上述方法的一种改进,所述根据空间环境基本质量检验评估指标对空间环境预报主要要素信息、空间环境预报数值型内容和空间环境事件预报内容进行基本质量检验评估,具体包括:
获取待检测空间环境预报产品的发布时间,并与规定的最晚发布时间对比,如果发布时间早于规定时间,检验通过,否则检验不通过;并对待检测空间环境预报产品的发布准时性打分;
将待检测空间环境预报产品文本内容分词,然后检查分出的词是否出现在空间环境领域词典中,如果没有出现,则认为预报产品文字拼写可能存在问题;记录待检测空间环境预报产品中可能存在问题的新词,对待检测空间环境预报产品的文字拼写准确性打分;
确定需要检验的物理量,从空间环境物理量单位词典中确定物理量单位;然后在待检测空间环境预报产品中识别待检测物理量并提取物理量单位,最后和词典中对应的准确的物理量单位比对,如果物理量单位比对成功,检验通过,否则检验不通过;记录检验中出现错误的物理量及错误次数,根据错误次数对物理量单位准确性打分;
确定需要检验的指数类产品,从空间环境预报数值型物理量数值范围词典中确定该产品的合理范围;然后提取对应的指数类预报产品,检验是否超出了合理的数据数值范围;如果数值在合理范围内,检验通过,否则,检验不通过;记录检验中超出合理范围的物理量及错误问题,根据问题次数对数据数值准确性打分;
判断空间环境预报主要要素信息与空间环境事件预报内容的一致性,包括:空间环境预报事件概率一致性和空间环境预报主要要素等级一致性;空间环境预报事件概率一致性表现在当空间环境预报主要要素等级达到一定级别时,事件发生概率应高于一定阈值;空间环境预报主要要素等级一致性表现在空间环境环境预报主要要素等级应和空间环境事件预报内容中的空间环境预报主要要素等级对应;记录检验中前后不一致的空间环境预报主要要素,根据问题次数对预报内容前后一致性打分。
本发明还提供了一种空间环境预报产品基本质量自动检验评估***,所述***包含:
空间环境预报产品数据库,用于存储空间环境预报产品;所述空间环境预报产品包括空间环境预报文本内容、空间环境预报数值型内容和空间环境事件预报内容;
空间环境预报领域词典,用于记录空间环境预报文本中的专有名词和术语;
分句/分词模块,用于根据文本标点对空间环境预报文本内容进行语句分割,每一句包含独立的空间环境预报主要要素;利用开源中文分词工具包IKAnalyzer2012,基于空间环境预报领域词典,对语句内容进行分词,分词后转换成<词索引、词>键值对的形式;
空间环境预报要素信息抽取模块,用于实现命名实体识别,还用于基于<词索引、词>键值对,针对不同的空间环境预报主要要素,制定相应的信息抽取规则,实现空间环境预报主要要素信息抽取;
基本质量检验评估模块,用于根据空间环境基本质量检验评估指标对空间环境预报主要要素信息、空间环境预报数值型内容和空间环境事件预报内容进行基本质量检验评估,并将检验评估结果存储到数据库中。
作为上述***的一种改进,所述***还包含:可视化模块,用于从数据库中提取检验评估结果,通过交互式可视化界面实现空间环境预报质量的可视化分析和检验评估结果的可视化;所述交互式可视化界面通过南丁格尔玫瑰图显示整体预报中存在的各种问题占比,通过平行坐标显示各个预报员在预报中存在的各种问题。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述的方法。
与现有技术相比,本发明的优点在于:
1、本发明率先设计实现了空间环境预报产品基本质量检验评估方法和***,填补了现有空间环境预报产品基本质量检验工具的空白,实现实时质量检验评估,为空间环境业务预报质量控制提供***支持;
2、本发明的方法以历史空间环境预报产品为样本,结合空间环境科学领域特点,设计实现了空间环境领域词典、空间环境预报物理量标准单位词典、空间环境数值型物理量数值范围词典;设计了基于词典的空间环境基本质量检验方法,提高了程序扩展性;在空间环境预报语料数量较少的情况下,提出了基于规则邻域搜索的预报内容信息自动抽取方法,相比于传统基于规则的信息抽取方法,减少了规则的束缚,提高信息抽取准确率;
3、本发明基于自主提炼的空间环境领域词典、空间环境预报物理量标准单位词典、空间环境数值型物理量数值范围词典,提出了基于规则邻域搜索的预报内容信息自动抽取方法,设计实现了空间环境预报产品基本质量检验评估方法及***,实现空间环境预报产品基本质量实时自动评估。
附图说明
图1为本发明的空间环境预报领域词典;
图2为本发明空间环境预报物理量单位词典;
图3为本发明空间环境预报数值型物理量数值范围词典;
图4为本发明的空间环境预报产品质量检验评估***框图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细描述。
实施例1:
本发明的实施例1提出了一种空间环境预报产品基本质量自动检验评估方法,所述方法包含如下步骤:
步骤1)获取待检测的空间环境预报产品,该产品包括空间环境预报文本内容、空间环境预报数值型内容和空间环境事件预报内容;
步骤2)利用基于规则邻域搜索的预报内容信息自动抽取方法从空间环境预报文本内容抽取空间环境预报主要要素信息;
具体包括:
步骤2-1)根据文本标点,对空间环境预报文本内容进行语句分割,每一句包含独立的空间环境事件;
其中空间环境预报主要要素包括:太阳活动水平、地磁活动水平、太阳质子事件和高能电子暴事件;
空间环境预报中需要对太阳活动水平、地磁活动水平、太阳质子事件和高能电子暴事件四类空间环境预报主要要素进行等级描述,为了能够正确识别和评估空间环境预报产品的基本质量,将四类空间环境预报主要要素等级映射为数值型等级描述,空间环境预报主要要素等级及映射关系具体内容如下所示。
表1空间环境预报主要要素等级及映射关系
步骤2-2)利用开源中文分词工具包IKAnalyzer2012,基于空间环境预报领域词典,对语句内容进行分词,分词后转换成<词索引、词>键值对的形式;
空间环境预报中会使用空间环境学科中特定的专有名词和术语,为了能够正确识别和拆分空间环境预报文本中的专有名词和术语,结合空间环境预报历史产品,归纳总结使用于空间环境预报基本质量检验的空间环境领域词典,如图1所示。空间环境预报领域术语具体内容如下所示:
表2空间环境领域术语库
空间环境预报领域术语和空间环境领域词典包括但不限于表2和图1。
所述空间环境预报领域词典的构建方法包含:
步骤S1)根据空间环境学科特点和预报经验,制定初始空间环境预报领域词典;
步骤S2)利用开源中文分词工具包IKAnalyzer2012,基于制定的空间环境预报领域词典,对空间环境预报历史产品进行文本分割;
步骤S3)分析分割之后空间环境预报词序列,判断是否有空间环境预报领域术语分割错误,将分割错误的术语添加到空间环境预报领域词典中;
步骤S4)重复步骤S2)-步骤S3),直至所有的空间环境领域术语被正确的拆分,至此完备的空间环境预报领域词典建立完成。
步骤2-3)基于<词索引、词>键值对的形式,针对不同的空间环境预报主要要素,制定相应的信息抽取规则,实现空间环境预报主要要素的信息抽取。
其中,太阳活动情况的描述比较简单,以太阳活动为事件抽取根节点,在根节点周围按照词间距离由近到远的顺序,搜索太阳活动水平描述术语。太阳活动事件信息抽取规则定义为:(<Level>)?<太阳活动><Level>;
地磁活动情况描述比较复杂,需要正确匹配未来三天每天的地磁活动情况。以地磁活动级别为事件抽取根节点,在根节点之前按照时间命名实体的查找规则,并以词间距离由近到远的顺序,查找事件预报发生日期;在根节点之后和下一个时间命名实体之前,查找地磁活动情况的详细描述术语。地磁活动情况信息抽取规则定义为:<Date><地磁><Level>{[<Date><地磁><Level>][<Date><地磁><Level>]}。其中,时间命名实体的查找规则包括:((\\d+)月)?((\\d+)(日)?([-|~|和|至|到|、|,]))?((\\d+)月)?((\\d+)日)、其余时间;
太阳质子事件预报分为三种类型:事件开始型、事件持续型、事件结束型。首先根据事件描述关键词划分到三种类型中的一种,事件开始型关键词包括:发生、产生、达到,事件持续型关键词包括:持续、维持,事件结束型关键词包括:结束。对于事件开始型信息抽取规则定义为:<Date><Level><质子事件>,其中时间命名实体查找规则定义为:((\\d+)月)?((\\d+)-)?((\\d+)月)?((\\d+)日);对于事件持续型信息抽取规则定义为:<DateDuration><Level><质子事件>,其中时间命名实体查找规则定义为:((\\d+)-)?(\\d+)天,然后根据当前日期,推理出未来三天对应的质子事件情况;对于事件结束型信息抽取规则定义为:<Level><质子事件><Date><结束>,其中时间命名实体查找规则定义为:((\\d+)月)?((\\d+)日),和事件持续型类似,根据当前日期,推理出未来三天对应的质子事件情况;
高能电子暴事件信息的抽取与地磁活动信息的抽取规则类似。首先基于空间环境领域词典,识别高能电子暴事件命名实体,然后按照时间命名实体的查找规则,并以词间距离由近到远的顺序,查找事件预报发生日期。高能电子暴事件信息的抽取规则定义为:<Date><Level><高能电子暴>,其中时间命名实体查找规则定义为:((\\d+)月)?((\\d+)(日)?([-|和|至|、|,]))?((\\d+)月)?((\\d+)日);
根据本发明提出的基于规则邻域搜索的预报内容信息自动抽取方法,对四类空间环境预报主要要素详细信息进行抽取。下面以2017年9月9日中科院国家空间科学中心发布的空间环境预报为例进行说明,预报原文为:“预计未来三天,太阳活动水平中等到高,爆发M级及以上级别耀斑的可能性较大。受CME的持续影响,9日地磁仍可能达到小磁暴水平,10-11日地磁平静到微扰。地球同步轨道大于10MeV的高能质子通量仍在缓慢下降,预计质子事件9日结束。地球同步轨道大于2MeV高能电子通量在9-11日可能达到高能电子暴水平。”
1、太阳活动事件信息抽取
首先识别太阳活动描述语句,并通过分句/分词模块进行单词分词。分词结果为:“{0=预计,2=未来,4=三天,7=太阳活动,11=水平,13=中等,15=到,16=高,18=爆发,20=m级,23=以上,25=级别,27=耀斑,30=可能性,33=较大}”,分词后转换成<词索引、词>键值对的形式存储分词结果。然后定位太阳活动事件描述关键词“太阳活动”,最后根据邻域搜索策略可以快速提取出未来三天太阳活动情况最高级别为“3”。
2、地磁活动信息抽取
首先识别地磁活动的描述语句,并通过分句/分词模块进行单词分词。分词结果为:“{0=受,1=cme,5=持续,7=影响,10=9日,12=地磁,15=可能,17=达到,19=小磁暴,22=水平,25=10-11,30=日,31=地磁,33=平静,35=到,36=微扰}”,地磁活动起因的描述较简单,并且对未来三天每天的地磁活动情况都明确给出了预报结果,未来三天地磁活动情况提取结果为“[4,1,1]”。
3、太阳质子事件信息抽取
首先识别太阳质子事件的描述语句,并通过分句/分词模块进行单词分词。分词结果为:“{0=地球同步轨道,6=大于,8=10mev,14=高能,16=质子,18=通量,20=仍在,22=缓慢,24=下降,27=预计,29=质子事件,33=9日,35=结束}”,分析本案例属于事件结束预报,然后提取事件预报的结束日期,最后根据当前日期和结束日期推算出未来三天质子事件信息。本案例提取结果为“[1,0,0]”
4、高能电子暴事件信息抽取
首先识别高能电子暴事件的描述语句,并通过分句/分词模块进行单词分词。分词结果为:“{0=地球同步轨道,6=大于,8=2mev,12=高能电子通量,19=9-11,23=日,24=可能,26=达到,28=高能电子暴,33=水平}”,识别高能电子暴事件命名实体,然后按照时间命名实体的查找规则,并以词间距离由近到远的顺序,查找事件预报发生日期,高能电子暴事件信息提取结果为“[1,1,1]”。
步骤3)根据空间环境基本质量检验评估指标对空间环境预报产品进行基本质量检验评估,并将检验评估结果存储到数据库中;
空间环境基本质量检验评估指标包括:预报产品发布的准时性、文字拼写准确性、物理量单位准确性、数据数值准确性和预报内容前后一致性。
所述预报产品发布的准时性,是指在规定的时间节点是否完成预报产品的发布。通过比较规定的时间节点和预报产品的发布时间,确定预报产品发布是否存在准时性问题。
所述文字拼写准确性,是指生成的空间环境预报产品中的文字拼写是否正确。本发明在空间环境领域词典中查找预报产品文本分割出的单词,如果在词典中查找不到对应的单词,那么说明该词可能拼写错误。
所述物理量单位准确性,是指生成的空间环境预报产品中物理量的单位是否正确。本发明首先制定空间环境预报物理量单位词典,然后在空间环境预报文本中识别词典中定义的物理量,如果识别成功,那么采用词典中定义的物理量信息抽取规则抽取物理量单位信息,确定预报产品中物理量单位是否准确。
空间环境预报中需要描述特定物理量,但是由于笔误等各种原因,会造成描述物理量的单位错误,为了能够实时检测出预报产品中存在的物理量单位错误,制定了空间环境预报物理量单位词典,如图2所示,词典通过键值对的形式存储,保存空间环境预报中使用的物理量和对应的物理量单位。空间环境预报物理量单位词典包括但不限于图2。
所述数据数值准确性,是指生成的空间环境预报产品中物理量数据的数值是否超过其合理范围。本发明首先制定空间环境预报数值型物理量数值范围词典,通过判断预报产品中物理量的数值是否在合理范围内,确定预报产品是否存在数据数值准确性问题。
空间环境预报数值型内容基本质量检验是指数值范围的合理性进行检查,为了能够实时检测出预报产品中存在的明显数值范围错误,制定了空间环境预报数值型物理量数值范围词典,如图3所示,词典通过键值对的形式存储,保存空间环境预报中使用的数值型物理量和对应的数值合理范围。空间环境预报数值型物理量数值范围词典包括但不限于图3。
所述预报内容前后一致性,是指空间环境预报文本内容和空间环境事件预报内容之间的一致性问题。本发明首先利用基于规则邻域搜索的预报内容信息自动抽取方法抽取空间环境预报文本内容中描述的空间环境预报主要要素信息,然后和空间环境事件预报内容中的空间环境主要要素等级信息、空间环境主要要素概率信息进行对比,确定空间环境预报产品是否存在一致性问题。
1、预报产品发布的准时性
从空间环境预报产品库中获取预报产品的发布时间,并与规定的最晚发布时间对比,如果发布时间早于规定时间,检验通过,否则检验不通过。并对预报产品发布准时性打分。检验通过得100分,检验不通过得0分。
2、文字拼写准确性
文字拼写准确性检验首先将待检测的空间环境预报文本分词,然后检查分出的词是否出现在空间环境领域词典中,如果分出的词没有出现在领域词典中,那么认为预报产品文字拼写可能存在问题。记录待检测产品中可能存在问题的新词,对文字拼写准确性打分。出现1处问题,得50分;大于等于2处问题,得0分;没有问题,得满分100分。
3、物理量单位准确性
物理量单位准确性检验是对预报产品中出现的物理量单位进行准确性检验。首先确定需要检验的物理量,从空间环境物理量单位词典中确定物理量单位。然后在待检测预报产品中识别待检测物理量并提取物理量单位,组后和词典中对应的准确的物理量单位比对,如果物理量单位比对成功,检验通过,否则检验不通过。记录检验中出现错误的物理量,及错误次数,根据错误次数对物理量单位准确性打分。出现1处错误,得50分;大于等于2处错误,得0分;没有错误,得满分100分。
4、数据数值准确性
数据数值的检验是对空间环境指数类预报产品的检验。首先确定需要检验的指数类产品,从空间环境预报数值型物理量数值范围词典中确定该产品的合理范围。然后提取对应的指数类预报产品,检验是否超出了合理的数据数值范围。数值在合理范围内,检验通过,否则,检验不通过。记录检验中超出合理范围的物理量,及错误问题,根据问题次数对数据数值准确性打分。出现1处问题,得50分;大于等于2处问题,得0分;没有问题,得满分100分。
5、预报内容前后一致性
提取出空间环境预报主要要素信息之后,对空间环境预报产品做一致性检验,主要包括空间环境预报事件概率一致性和空间环境预报主要要素等级一致性。空间环境预报事件概率一致性表现在当空间环境预报主要要素等级达到一定级别时,事件发生概率应高于一定阈值。如高能电子暴事件等级为橙色,那么高能电子暴事件发生概率预报应高于50%。空间环境预报主要要素等级一致性表现在空间环境预报文本内容中描述的空间环境环境预报主要要素等级应和空间环境事件预报内容中的空间环境预报主要要素等级对应。记录检验中前后不一致的事件描述,根据问题次数对预报内容前后一致性打分。出现1处问题,得50分;大于等于2处问题,得0分;没有问题,得满分100分。
步骤4)利用交互式可视化界面实现空间环境预报基本质量的可视化分析和检验评估结果的可视化;
交互式可视化界面包括南丁格尔玫瑰图显示整体预报中存在的各种问题占比、平行坐标显示各个预报员在预报中存在的各种问题等统计图表。
实施例2
如图2所示,本发明的实施例2提出了一种空间环境预报产品质量自动检验评估***,所述***包含:
空间环境预报产品数据库,用于获取空间环境预报产品;
空间环境预报领域词典,鉴于评估对象空间环境预报语料数量较少,且语料格式较为统一,其中使用的名词术语较为固定,本发明提出了基于历史空间环境预报语料库的空间环境预报领域词典构建方法;
分句/分词模块,该模块利用开源中文分词工具包IKAnalyzer2012,基于空间环境预报领域词典实现空间环境预报产品的分词,分词后转换成<词索引、词>键值对的形式存储;
空间环境预报主要要素信息抽取模块,该模块在分句/分词的基础上,实现命名实体识别,抽取空间环境预报文本内容中描述的空间环境预报主要要素详细信息,本发明针对不同的空间环境预报主要要素描述特点,提出了基于规则邻域搜索的预报内容信息自动抽取方法;所述命名实时识别包括空间环境预报领域术语、日期、天数、空间环境预报主要要素级别等的识别。
质量检验评估模块,该模块通过对预报产品发布的准时性、文字拼写准确性、物理量单位准确性、数据数值准确性、预报内容前后一致性的全面分析,对空间环境预报产品基本质量进行检验和评估;
可视化模块,该模块通过设计交互式可视化界面,实现空间环境预报基本质量的可视化分析和检验评估结果的可视化。所述交互式可视化界面通过南丁格尔玫瑰图显示整体预报中存在的各种问题占比,通过平行坐标显示各个预报员在预报中存在的各种问题。并配以详细信息列表和交互式实测数据图表,实现空间环境预报基本质量的可视化分析和检验评估结果的可视化。
实施例3
本发明的实施例3提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的空间环境预报产品质量自动检验评估方法。
实施例4
本发明的实施例4提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行所述计算机程序时实现上述的空间环境预报产品质量自动检验评估方法。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种空间环境预报产品基本质量自动检验评估方法,所述方法包括:
获取待检测的空间环境预报产品,所述空间环境预报产品包括空间环境预报文本内容、空间环境预报数值型内容和空间环境事件预报内容;
利用基于规则邻域搜索的预报内容信息自动抽取方法,从空间环境预报文本内容中抽取对应的空间环境预报主要要素信息;
根据空间环境基本质量检验评估指标对空间环境预报主要要素信息、空间环境预报数值型内容和空间环境事件预报内容进行基本质量检验评估,并将检验评估结果存储到数据库中。
2.根据权利要求1所述的空间环境预报产品基本质量自动检验评估方法,其特征在于,所述方法还包括:从数据库中提取检验评估结果,利用交互式可视化界面实现空间环境预报产品的可视化质量分析和检验评估结果的可视化;所述交互式可视化界面包括南丁格尔玫瑰图显示整体预报中存在的各种问题占比、平行坐标显示各个预报员在预报中存在的各种问题。
3.根据权利要求1或2所述的空间环境预报产品基本质量自动检验评估方法,其特征在于,所述利用基于规则邻域搜索的预报内容信息自动抽取方法,从空间环境预报文本内容中抽取对应的空间环境预报主要要素信息;具体包括:
根据文本标点对空间环境预报文本内容进行语句分割,每一句包含独立的空间环境预报主要要素;所述空间环境预报主要要素包括:太阳活动水平、地磁活动水平、太阳质子事件和高能电子暴事件;
利用开源中文分词工具包IKAnalyzer2012,基于空间环境预报领域词典,对语句内容进行分词,分词后转换成<词索引、词>键值对的形式;
基于<词索引、词>键值对,针对不同的空间环境预报主要要素,制定相应的信息抽取规则,从空间环境预报文本内容中抽取对应的空间环境预报主要要素信息。
4.根据权利要求3所述的空间环境预报产品基本质量自动检验评估方法,其特征在于,所述空间环境预报领域词典的构建步骤包含:
步骤S1)根据空间环境学科特点和预报经验,制定空间环境预报领域词典;
步骤S2)利用开源中文分词工具包IKAnalyzer2012,基于空间环境预报领域词典,对空间环境预报历史产品进行文本分割,得到空间环境预报词序列;
步骤S3)分析空间环境预报词序列,判断是否存在空间环境预报领域术语分割错误,将分割错误的术语添加到空间环境预报领域词典中;
步骤S4)重复步骤S2)-步骤S3),直至所有的空间环境领域术语被正确拆分,则空间环境预报领域词典构建完成。
5.根据权利要求4所述的空间环境预报产品基本质量自动检验评估方法,其特征在于,所述空间环境基本质量检验评估指标包括:预报产品发布的准时性、文字拼写准确性、物理量单位准确性、数据数值准确性和预报内容前后一致性;
所述预报产品发布的准时性,是指在规定的时间节点是否完成空间环境预报产品的发布;
所述文字拼写准确性,是指生成的空间环境预报产品中的文字拼写是否正确;
所述物理量单位准确性,是指根据制定的空间环境预报物理量单位词典,判断空间环境预报产品中物理量的单位是否正确;
所述数据数值准确性,是指根据制定的空间环境预报数值型物理量数值范围词典,判断空间环境预报产品中物理量数据的数值是否超过其合理范围;
所述预报内容前后一致性,是指空间环境预报文本内容和空间环境事件预报内容之间是否一致。
6.根据权利要求5所述的空间环境预报产品基本质量自动检验评估方法,其特征在于,所述根据空间环境基本质量检验评估指标对空间环境预报主要要素信息、空间环境预报数值型内容和空间环境事件预报内容进行基本质量检验评估,具体包括:
获取待检测空间环境预报产品的发布时间,并与规定的最晚发布时间对比,如果发布时间早于规定时间,检验通过,否则检验不通过;并对待检测空间环境预报产品的发布准时性打分;
将待检测空间环境预报产品文本内容分词,然后检查分出的词是否出现在空间环境领域词典中,如果没有出现,则认为预报产品文字拼写可能存在问题;记录待检测空间环境预报产品中可能存在问题的新词,对待检测空间环境预报产品的文字拼写准确性打分;
确定需要检验的物理量,从空间环境物理量单位词典中确定物理量单位;然后在待检测空间环境预报产品中识别待检测物理量并提取物理量单位,最后和词典中对应的准确的物理量单位比对,如果物理量单位比对成功,检验通过,否则检验不通过;记录检验中出现错误的物理量及错误次数,根据错误次数对物理量单位准确性打分;
确定需要检验的指数类产品,从空间环境预报数值型物理量数值范围词典中确定该产品的合理范围;然后提取对应的指数类预报产品,检验是否超出了合理的数据数值范围;如果数值在合理范围内,检验通过,否则,检验不通过;记录检验中超出合理范围的物理量及错误问题,根据问题次数对数据数值准确性打分;
判断空间环境预报主要要素信息与空间环境事件预报内容的一致性,包括:空间环境预报事件概率一致性和空间环境预报主要要素等级一致性;空间环境预报事件概率一致性表现在当空间环境预报主要要素等级达到一定级别时,事件发生概率应高于一定阈值;空间环境预报主要要素等级一致性表现在空间环境环境预报主要要素等级应和空间环境事件预报内容中的空间环境预报主要要素等级对应;记录检验中前后不一致的空间环境预报主要要素,根据问题次数对预报内容前后一致性打分。
7.一种空间环境预报产品基本质量自动检验评估***,所述***包含:
空间环境预报产品数据库,用于存储空间环境预报产品;所述空间环境预报产品包括空间环境预报文本内容、空间环境预报数值型内容和空间环境事件预报内容;
空间环境预报领域词典,用于记录空间环境预报文本中的专有名词和术语;
分句/分词模块,用于根据文本标点对空间环境预报文本内容进行语句分割,每一句包含独立的空间环境预报主要要素;利用开源中文分词工具包IKAnalyzer2012,基于空间环境预报领域词典,对语句内容进行分词,分词后转换成<词索引、词>键值对的形式;
空间环境预报要素信息抽取模块,用于实现命名实体识别,还用于基于<词索引、词>键值对,针对不同的空间环境预报主要要素,制定相应的信息抽取规则,实现空间环境预报主要要素信息抽取;
基本质量检验评估模块,用于根据空间环境基本质量检验评估指标对空间环境预报主要要素信息、空间环境预报数值型内容和空间环境事件预报内容进行基本质量检验评估,并将检验评估结果存储到数据库中。
8.根据权利要求7所述的空间环境预报产品基本质量自动检验评估***,所述***还包含:可视化模块,用于从数据库中提取检验评估结果,通过交互式可视化界面实现空间环境预报质量的可视化分析和检验评估结果的可视化;所述交互式可视化界面通过南丁格尔玫瑰图显示整体预报中存在的各种问题占比,通过平行坐标显示各个预报员在预报中存在的各种问题。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910284784.8A CN110110969A (zh) | 2019-04-10 | 2019-04-10 | 一种空间环境预报产品基本质量自动检验评估方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910284784.8A CN110110969A (zh) | 2019-04-10 | 2019-04-10 | 一种空间环境预报产品基本质量自动检验评估方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110110969A true CN110110969A (zh) | 2019-08-09 |
Family
ID=67484068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910284784.8A Pending CN110110969A (zh) | 2019-04-10 | 2019-04-10 | 一种空间环境预报产品基本质量自动检验评估方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110969A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639301A (zh) * | 2020-05-26 | 2020-09-08 | 国家卫星气象中心(国家空间天气监测预警中心) | 一种地磁Ap指数中期预报方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104166682A (zh) * | 2014-07-21 | 2014-11-26 | 安徽华贞信息科技有限公司 | 一种基于组合理论的类自然语言的语义信息抽取方法及*** |
CN105279149A (zh) * | 2015-10-21 | 2016-01-27 | 上海应用技术学院 | 一种中文文本自动校正方法 |
CN108073571A (zh) * | 2018-01-12 | 2018-05-25 | 中译语通科技股份有限公司 | 一种多语言文本质量评估方法及***、智能文本处理*** |
WO2018220688A1 (ja) * | 2017-05-29 | 2018-12-06 | 株式会社Pfu | 辞書生成装置、辞書生成方法、及びプログラム |
CN109101483A (zh) * | 2018-07-04 | 2018-12-28 | 浙江大学 | 一种针对电力巡检文本的错误识别方法 |
-
2019
- 2019-04-10 CN CN201910284784.8A patent/CN110110969A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104166682A (zh) * | 2014-07-21 | 2014-11-26 | 安徽华贞信息科技有限公司 | 一种基于组合理论的类自然语言的语义信息抽取方法及*** |
CN105279149A (zh) * | 2015-10-21 | 2016-01-27 | 上海应用技术学院 | 一种中文文本自动校正方法 |
WO2018220688A1 (ja) * | 2017-05-29 | 2018-12-06 | 株式会社Pfu | 辞書生成装置、辞書生成方法、及びプログラム |
CN108073571A (zh) * | 2018-01-12 | 2018-05-25 | 中译语通科技股份有限公司 | 一种多语言文本质量评估方法及***、智能文本处理*** |
CN109101483A (zh) * | 2018-07-04 | 2018-12-28 | 浙江大学 | 一种针对电力巡检文本的错误识别方法 |
Non-Patent Citations (1)
Title |
---|
周学广: "《信息内容安全》", 30 November 2012, 武汉:武汉大学出版社 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639301A (zh) * | 2020-05-26 | 2020-09-08 | 国家卫星气象中心(国家空间天气监测预警中心) | 一种地磁Ap指数中期预报方法 |
CN111639301B (zh) * | 2020-05-26 | 2023-05-23 | 国家卫星气象中心(国家空间天气监测预警中心) | 一种地磁Ap指数中期预报方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Caro et al. | intsvy: An R package for analyzing international large-scale assessment data | |
Hershberger et al. | Modeling intraindividual variability with repeated measures data: Methods and applications | |
Vassend et al. | The NEO personality inventory revised (NEO-PI-R): Exploring the measurement structure and variants of the five-factor model | |
Matci et al. | Address standardization using the natural language process for improving geocoding results | |
CN108733793B (zh) | 一种面向关系数据库的本体模型构造方法及*** | |
Byrne et al. | Factorial structure of the family values scale from a multilevel-multicultural perspective | |
CN102662930A (zh) | 一种语料标注方法及装置 | |
CN102119385A (zh) | 用于在内容检索服务***内检索媒体内容的方法和子*** | |
CN102930048B (zh) | 使用参考和视觉数据的语义自动发现的数据丰富 | |
CN109739997A (zh) | 地址对比方法、装置及*** | |
CN112925901B (zh) | 一种辅助在线问卷评估的评估资源推荐方法及其应用 | |
Smith et al. | The impact of using incorrect weights with the multiple membership random effects model | |
CN110298597A (zh) | 一种测评方法、装置及存储介质 | |
Ureña-Cámara et al. | A method for checking the quality of geographic metadata based on ISO 19157 | |
CN110888989A (zh) | 一种智能学习平台及其构建方法 | |
CN110110969A (zh) | 一种空间环境预报产品基本质量自动检验评估方法及*** | |
Malik et al. | Student query trend assessment with semantical annotation and artificial intelligent multi-agents | |
US11500885B2 (en) | Generation of insights based on automated document analysis | |
Handayani et al. | Designing Popular Classes on Viewboard Public Assessment of Lectures Based on YII Framework | |
Liu et al. | Construction of intelligent query system for metro electromechanical equipment faults based on the knowledge graph | |
AbuJarour et al. | Automatic sampling of web services | |
KR100700376B1 (ko) | 실시간 서지데이터베이스 평가 방법 | |
CN117236648B (zh) | 人才招聘与匹配的智能化*** | |
CN112015780B (zh) | 基于深度学习的命题智能分析处理方法和*** | |
Hirsh | Learning vocabulary |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190809 |