CN109471888A - 一种快速过滤xml文件中无效信息的方法 - Google Patents
一种快速过滤xml文件中无效信息的方法 Download PDFInfo
- Publication number
- CN109471888A CN109471888A CN201811363049.8A CN201811363049A CN109471888A CN 109471888 A CN109471888 A CN 109471888A CN 201811363049 A CN201811363049 A CN 201811363049A CN 109471888 A CN109471888 A CN 109471888A
- Authority
- CN
- China
- Prior art keywords
- xml document
- index
- pretreatment process
- knowledge base
- xml
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种快速过滤xml文件中无效信息的方法,包括步骤:1)针对待处理xml文件建立索引;2)查询知识库中与该索引相似度最高的案例;3)知识库中与索引相似度最高的案例与该索引进行匹配;4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;5)xml文件按照选取的预处理流程进行初步处理;6)将初步处理后的结果传递给接收端进行进一步处理。本发明可以有效降低需要处理的xml文件长度,实现在终端上快速处理的有益效果,大大的提高了效率。
Description
技术领域
本发明属于中文分词方法技术领域,特别是涉及一种快速过滤xml文件中无效信息的方法。
背景技术
xml语言是具有结构性的标记语言,可以灵活的存储一对多的数据关系,具有自描述性、可扩展性、灵活性以及平台中立等优点,在软件***中广泛用于数据存储和交换。xml具有统一的标准语法,任何***和产品所支持的xml文档,都具有统一的格式和语法。这样就使得xml具有了跨平台跨***的特性。
电力行业相关软件应用中,数据交换时xml是首选,其原因是xml使用元素和属性来描述数据。在数据传送过程中,xml始终保留了诸如父/子关系这样的数据结构。几个应用程序可以共享和解析同一个xml文件,不必使用传统的字符串解析或拆解过程。相反,普通文件不对每个数据段做描述(除了在头文件中),也不保留数据关系结构。使用xml做数据交换可以使应用程序更具有弹性,因为可以用位置(与普通文件一样)或用元素名(从数据库)来存取xml数据。
在实际应用场景中,xml文件被依照嵌套的元素标签、元素属性、元素内容等,结构化地进行分析和理解。然后按照分析所得的内容进行查询匹配,实现数据交换,然而,用户对于基于xml发布的内容事先并不清楚,很难快速、完整获取所需要的内容。尤其是对于规模较大的xml文件,其分析时间与迭代时间更长,并且因为分析错误损失的时间也更长。
因此,如何解决上述问题成为本领域人员研究的重点。
发明内容
本发明的目的就是提供一种快速过滤xml文件中无效信息的方法,能有效解决上述对大规模的xml文件分析时间长的不足之处。
本发明的目的通过下述技术方案来实现:
一种快速过滤xml文件中无效信息的方法,包括步骤:1)针对待处理xml文件建立索引;
2)查询知识库中与该索引相似度最高的案例;
3)知识库中与索引相似度最高的案例与该索引进行匹配;
4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;
5)xml文件按照选取的预处理流程进行初步处理;
6)将初步处理后的结果传递给接收端进行进一步处理。
作为优选,若无法在知识库中匹配到高相似度的流程,则按照未知结构xml文件结构进行处理,整理相应的索引以及处理方法导入预处理流程库。
作为优选,xml文件建立索引的方法是:1)对整个xml文件中的标签进行计数和归一化;
2)标签序列以及相应的归一化频次作为该类xml文件的索引信息并存入预处理流程库;
3)预处理流程库同时也存有该类xml文件的预处理方法。
作为优选,待处理的xml文件与知识库中案例匹配的标准为:相同关键字出现次数的总和大于知识库中其它任意案例。
作为优选,整个数据传送过程中所有数据都是经过压缩后再进行传送。
与现有技术相比,本发明的有益效果在于:
本发明提出一种适合电力行业软件的多轮交互语义分析方法,将传统xml文件处理模式由发送端到接收端改为发送端到预处理再到接收端,可以有效降低需要处理的xml文件长度,实现在终端上快速处理的有益效果;并且因为传送过程中的文件数据被压缩,可有效降低对吞吐量和带宽的要求。
附图说明
图1是本发明的流程框图;
图2是本发明的网络结构图;
图3是本发明的数据交换的场景示意图。
具体实施方式
下面结合具体实施例和附图对本发明作进一步的说明。
实施例一
如图1至图3所示,一种快速过滤xml文件中无效信息的方法,包括步骤:1)针对待处理xml文件建立索引;
2)查询知识库中与该索引相似度最高的案例;
3)知识库中与索引相似度最高的案例与该索引进行匹配;
4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;
5)xml文件按照选取的预处理流程进行初步处理;
6)将初步处理后的结果传递给接收端进行进一步处理。
整个方法中设计的网络结构为终端-服务器-中央服务器,终端是指终端用户,通常包括PC机;服务器指的是与中央服务器产生数据交换的其他服务器。终端之间、服务器之间、终端和中央服务器之间、服务器与中央服务器之间发生数据交换的场景为发送端到预处理再到接收端,通过预处理环节可以预先判断出待处理的xml文件的大致结构,便可以参考知识库(过去的经验,以及历史积累的模式)进行处理。
本实施例中,可以有效降低需要处理的xml文件长度,实现在终端上快速处理的有益效果,大大的提高了效率。
实施例二
如图1至图3所示,一种快速过滤xml文件中无效信息的方法,包括步骤:1)针对待处理xml文件建立索引;
2)查询知识库中与该索引相似度最高的案例;
3)知识库中与索引相似度最高的案例与该索引进行匹配;
4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;
5)xml文件按照选取的预处理流程进行初步处理;
6)将初步处理后的结果传递给接收端进行进一步处理。
整个方法中设计的网络结构为终端-服务器-中央服务器,终端是指终端用户,通常包括PC机;服务器指的是与中央服务器产生数据交换的其他服务器。终端之间、服务器之间、终端和中央服务器之间、服务器与中央服务器之间发生数据交换的场景为发送端到预处理再到接收端,通过预处理环节可以预先判断出待处理的xml文件的大致结构,便可以参考知识库(过去的经验,以及历史积累的模式)进行处理。
待处理的xml文件部分如下:
针对待处理xml文件建立索引(文件指纹)
统计符合“<……>”关键字数(省略号指代的内容):240;
统计PURCHASE_ITEM_ID、PURCHASEDATE、UNIQUE_PROJECT_CODE、PROJECT_NAME、TAXRATE、TAX、UNIT_PRICE_TAX的出现次数,例如分别为:228、229、206、255、200、342、341;
将上述数列针对关键字数归一化形成指纹A:0.95、0.954166667、0.858333333、1.0625、0.833333333、1.425、1.420833333
查询知识库中与该索引相似度最高的案例;
寻找到相似度最高的案例B;
指纹匹配的标准是:A和B各个数值偏差总和比知识库中的其它案例都小;
根据匹配结果,选定文件初步处理模式;
将初步处理传递给接收端进行进一步处理。
实施例三
如图1至图3所示,一种快速过滤xml文件中无效信息的方法,包括步骤:1)针对待处理xml文件建立索引;
2)查询知识库中与该索引相似度最高的案例;
3)知识库中与索引相似度最高的案例与该索引进行匹配;
4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;
5)xml文件按照选取的预处理流程进行初步处理;
6)将初步处理后的结果传递给接收端进行进一步处理。
整个方法中设计的网络结构为终端-服务器-中央服务器,终端是指终端用户,通常包括PC机;服务器指的是与中央服务器产生数据交换的其他服务器。终端之间、服务器之间、终端和中央服务器之间、服务器与中央服务器之间发生数据交换的场景为发送端到预处理再到接收端,通过预处理环节可以预先判断出待处理的xml文件的大致结构,便可以参考知识库(过去的经验,以及历史积累的模式)进行处理。
若无法在知识库中匹配到高相似度的流程,则按照未知结构xml文件结构进行处理,整理相应的索引以及处理方法导入预处理流程库。
xml文件建立索引的方法是:
1)对整个xml文件中的标签进行计数和归一化;
2)标签序列以及相应的归一化频次作为该类xml文件的索引信息并存入预处理流程库;
3)预处理流程库同时也存有该类xml文件的预处理方法;待处理的xml文件与知识库中案例匹配的标准为:相同关键字出现次数的总和大于知识库中其它任意案例。整个数据传送过程中所有数据都是经过压缩后再进行传送。
本实施例中,可以有效降低需要处理的xml文件长度,实现在终端上快速处理的有益效果;并且因为传送过程中的文件数据被压缩,可有效降低对吞吐量和带宽的要求。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种快速过滤xml文件中无效信息的方法,其特征在于:包括步骤:
1)针对待处理xml文件建立索引;
2)查询知识库中与该索引相似度最高的案例;
3)知识库中与索引相似度最高的案例与该索引进行匹配;
4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;
5)xml文件按照选取的预处理流程进行初步处理;
6)将初步处理后的结果传递给接收端进行进一步处理。
2.根据权利要求1所述的一种快速过滤xml文件中无效信息的方法,其特征在于:若无法在知识库中匹配到高相似度的流程,则按照未知结构xml文件结构进行处理,整理相应的索引以及处理方法导入预处理流程库。
3.根据权利要求1所述的一种快速过滤xml文件中无效信息的方法,其特征在于:xml文件建立索引的方法是:1)对整个xml文件中的标签进行计数和归一化;
2)标签序列以及相应的归一化频次作为该类xml文件的索引信息并存入预处理流程库;
3)预处理流程库同时也存有该类xml文件的预处理方法。
4.根据权利要求1所述的一种快速过滤xml文件中无效信息的方法,其特征在于:待处理的xml文件与知识库中案例匹配的标准为:相同关键字出现次数的总和大于知识库中其它任意案例。
5.根据权利要求1所述的一种快速过滤xml文件中无效信息的方法,其特征在于:整个数据传送过程中所有数据都是经过压缩后再进行传送。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811363049.8A CN109471888B (zh) | 2018-11-15 | 2018-11-15 | 一种快速过滤xml文件中无效信息的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811363049.8A CN109471888B (zh) | 2018-11-15 | 2018-11-15 | 一种快速过滤xml文件中无效信息的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109471888A true CN109471888A (zh) | 2019-03-15 |
CN109471888B CN109471888B (zh) | 2021-11-09 |
Family
ID=65673482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811363049.8A Active CN109471888B (zh) | 2018-11-15 | 2018-11-15 | 一种快速过滤xml文件中无效信息的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109471888B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002269157A (ja) * | 2001-03-14 | 2002-09-20 | Mitsubishi Heavy Ind Ltd | 最適化処理システム |
CN101136038A (zh) * | 2007-10-18 | 2008-03-05 | 中国兵器工业第五九研究所 | 一种塑性成形数值模拟方法 |
CN102289445A (zh) * | 2011-06-01 | 2011-12-21 | 宇龙计算机通信科技(深圳)有限公司 | Xml文件解析方法、xml文件解析装置和终端 |
CN102289569A (zh) * | 2011-07-21 | 2011-12-21 | 中国电力科学研究院 | 一种电力***突发事件应急处理方法 |
CN102314639A (zh) * | 2011-07-05 | 2012-01-11 | 万达信息股份有限公司 | 一种可视化的动态智能应急处置方案生成方法 |
CN102395754A (zh) * | 2009-03-16 | 2012-03-28 | 沃丹德科技股份公司 | 一种用于监控钻井操作的方法和*** |
CN103699489A (zh) * | 2014-01-03 | 2014-04-02 | 中国人民解放军装甲兵工程学院 | 一种基于知识库的软件远程故障诊断与修复方法 |
CN104424334A (zh) * | 2013-09-11 | 2015-03-18 | 方正信息产业控股有限公司 | Xml文档节点的构建方法和装置 |
CN104715342A (zh) * | 2015-03-31 | 2015-06-17 | 国网四川省电力公司电力科学研究院 | 基于案例推理法的电力设备故障处理辅助决策方法 |
CN104915420A (zh) * | 2015-06-10 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 知识库数据处理方法及*** |
CN105144200A (zh) * | 2013-04-27 | 2015-12-09 | 数据飞讯公司 | 用于处理非结构化数字的基于内容的检索引擎 |
CN105956126A (zh) * | 2016-05-06 | 2016-09-21 | 南京国电南自电网自动化有限公司 | 基于关键字主次分类的xml查询方法 |
CN106294733A (zh) * | 2016-08-10 | 2017-01-04 | 成都轻车快马网络科技有限公司 | 基于文本分析的网页检测方法 |
US20170103013A1 (en) * | 2015-10-09 | 2017-04-13 | The Board Of Trustees Of The University Of Illinois | System and methods for automatically localizing faults |
CN106682190A (zh) * | 2016-12-29 | 2017-05-17 | 北京奇虎科技有限公司 | 标签知识库的构建方法、装置、应用搜索方法和服务器 |
CN108804592A (zh) * | 2018-05-28 | 2018-11-13 | 山东浪潮商用***有限公司 | 知识库检索实现方法 |
-
2018
- 2018-11-15 CN CN201811363049.8A patent/CN109471888B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002269157A (ja) * | 2001-03-14 | 2002-09-20 | Mitsubishi Heavy Ind Ltd | 最適化処理システム |
CN101136038A (zh) * | 2007-10-18 | 2008-03-05 | 中国兵器工业第五九研究所 | 一种塑性成形数值模拟方法 |
CN102395754A (zh) * | 2009-03-16 | 2012-03-28 | 沃丹德科技股份公司 | 一种用于监控钻井操作的方法和*** |
CN102289445A (zh) * | 2011-06-01 | 2011-12-21 | 宇龙计算机通信科技(深圳)有限公司 | Xml文件解析方法、xml文件解析装置和终端 |
CN102314639A (zh) * | 2011-07-05 | 2012-01-11 | 万达信息股份有限公司 | 一种可视化的动态智能应急处置方案生成方法 |
CN102289569A (zh) * | 2011-07-21 | 2011-12-21 | 中国电力科学研究院 | 一种电力***突发事件应急处理方法 |
CN105144200A (zh) * | 2013-04-27 | 2015-12-09 | 数据飞讯公司 | 用于处理非结构化数字的基于内容的检索引擎 |
CN104424334A (zh) * | 2013-09-11 | 2015-03-18 | 方正信息产业控股有限公司 | Xml文档节点的构建方法和装置 |
CN103699489A (zh) * | 2014-01-03 | 2014-04-02 | 中国人民解放军装甲兵工程学院 | 一种基于知识库的软件远程故障诊断与修复方法 |
CN104715342A (zh) * | 2015-03-31 | 2015-06-17 | 国网四川省电力公司电力科学研究院 | 基于案例推理法的电力设备故障处理辅助决策方法 |
CN104915420A (zh) * | 2015-06-10 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 知识库数据处理方法及*** |
US20170103013A1 (en) * | 2015-10-09 | 2017-04-13 | The Board Of Trustees Of The University Of Illinois | System and methods for automatically localizing faults |
CN105956126A (zh) * | 2016-05-06 | 2016-09-21 | 南京国电南自电网自动化有限公司 | 基于关键字主次分类的xml查询方法 |
CN106294733A (zh) * | 2016-08-10 | 2017-01-04 | 成都轻车快马网络科技有限公司 | 基于文本分析的网页检测方法 |
CN106682190A (zh) * | 2016-12-29 | 2017-05-17 | 北京奇虎科技有限公司 | 标签知识库的构建方法、装置、应用搜索方法和服务器 |
CN108804592A (zh) * | 2018-05-28 | 2018-11-13 | 山东浪潮商用***有限公司 | 知识库检索实现方法 |
Non-Patent Citations (1)
Title |
---|
庄严: ""知识库实体对齐技术综述"", 《计算机研究与发展》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109471888B (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7668802B2 (en) | Method and appliance for XML policy matching | |
US11775767B1 (en) | Systems and methods for automated iterative population of responses using artificial intelligence | |
US20130013291A1 (en) | Systems and methods for sentence comparison and sentence-based search | |
US9959326B2 (en) | Annotating schema elements based on associating data instances with knowledge base entities | |
CN102123172B (zh) | 一种基于神经网络聚类优化的Web服务发现的实现方法 | |
WO2000039711A1 (en) | System and method for aggregating distributed data | |
CN107515878A (zh) | 一种数据索引的管理方法及装置 | |
US20170177604A1 (en) | Encoded data object notation persistence format | |
US20170060977A1 (en) | Data preparation for data mining | |
CN109542930A (zh) | 一种基于ElasticSearch的数据高效检索方法 | |
CN110019714A (zh) | 基于历史结果的多意图查询方法、装置、设备及存储介质 | |
CN107729428A (zh) | 一种基于Presto和Elasticsearch的SQL查询方法 | |
US11675793B2 (en) | System for managing, analyzing, navigating or searching of data information across one or more sources within a computer or a computer network, without copying, moving or manipulating the source or the data information stored in the source | |
CN109471888A (zh) | 一种快速过滤xml文件中无效信息的方法 | |
CN115936880A (zh) | 一种股票信息实时交易数据处理*** | |
JPH07182368A (ja) | データ加工システム | |
CN113934430A (zh) | 数据检索分析方法、装置、电子设备及存储介质 | |
CN115470861A (zh) | 数据处理方法、装置和电子设备 | |
CN101089841A (zh) | 基于知识编码的精确搜索方法和*** | |
Garg et al. | Study on JSON, its Uses and Applications in Engineering Organizations | |
Hummel et al. | Multiple keyword-based queries over XML streams | |
CN111428471A (zh) | 基于人工智能的意图识别方法、装置、设备及存储介质 | |
Lin et al. | A Fast Filtering Method of Invalid Information in XML File | |
Shang et al. | A Fast Filtering Method of Invalid Information in XML File | |
CN105580011B (zh) | 用于消息匹配的***、方法和有形计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |