CN101751382B

CN101751382B - 一种基于标签的数据采集方法与***

Info

Publication number: CN101751382B
Application number: CN2008102275605A
Authority: CN
Inventors: 郭丽新; 龚健
Original assignee: Founder International Beijing Co Ltd
Current assignee: Founder International Beijing Co Ltd
Priority date: 2008-11-28
Filing date: 2008-11-28
Publication date: 2011-10-05
Anticipated expiration: 2028-11-28
Also published as: CN101751382A

Abstract

本发明涉及一种基于标签的数据采集方法与***，属于信息处理领域。本发明首先定义数据模板，定义数据存储格式及数据处理规则，通过预处理装置，按照模板定义的规则进行预处理，并根据应用添加必要的标签，生成标记数据；然后数据采集装置利用皮肤文件和标记数据合成生成用户交互界面文件，生成用户交互界面；数据采集装置将用户交互界面提交的用户数据，按照标签回写到标记数据中；数据采集后，通过数据还原装置进行数据还原。本发明通过标签实现了多种数据格式的统一处理，实现了***运行时的业务变更，并减少了因数据调整带来的差异性编程。

Description

一种基于标签的数据采集方法与***

技术领域

本发明属于信息处理领域，具体涉及一种基于标签的数据采集方法与***。

背景技术

数据采集是信息***中的一个首要环节，用户需要采集的数据千差万别，数据的表现形式及应用逻辑也各不相同，最重要的是不同应用程序的用户交互界面，对界面数据采集的方法有所不同，典型如浏览器的网页，是通过id以及名称来提交用户填写数据的，而一般窗口程序则通过id来收集数据，这些用户交互界面对用户提交数据采集方式的差异性，使得开发工作变得复杂并且工作量增大，更重要的后期程序升级必须修改程序本身，特别是针对有不间断持续运行要求的***无法实现升级处理。

现有的技术方案的通用做法是：通过定制与用户交互界面采集的数据格式相关的不同处理规则，实现将数据回写到源数据中，这种处理方式在目前移动终端、WEB应用、桌面处理等一体化的综合应用***中，必然会产生大量的工作量，***升级也不是很灵活。

国内专利01116912.5提到“一种实现多业务数据交换的方法及其装置”，其通过服务器端将从各终端设备的输入页面中采集到业务交易数据和隐含数据转换生成动态的可扩展标记语言字符串，并根据这一隐含数据，读取对应的可扩展的样式语言文件，并将其转换成可扩展样式语言字符串；最后，在一处理器中，生成最终用于数据交换的并针对不同业务数据格式的可扩展标记语言。该发明通过隐藏的字符串实现了XML数据格式与业务无关，从而节省一定的程序开发量。

该专利的局限性在于，只涉及到依据业务规则使数据支持不同的业务，而对收集到的数据没有做任何处理，未提出从数据本身出发进行识别、验证等处理。

发明内容

针对现有技术中存在的问题，本发明的目的是提供一种基于标签的数据采集方法与***，该方法与***能够在保持原有数据不变的前提下，通过模板、标签等方式实现数据的动态转换，而模板和标签又能够针对不同应用进行动态配置，从而增加了数据的可操作性和逻辑性，实现了多种数据格式的统一处理，实现了***运行时的业务变更，并减少了因数据调整带来的差异性编程。

应用进行动态配置，从而增加了数据的可操作性和逻辑性，实现了多种数据格式的统一处理，实现了***运行时的业务变更，并减少了因数据调整带来的差异性编程。

本发明的目的是这样实现的：

一种基于标签的数据采集方法，包括如下步骤：

1)规则预处理和标签预处理：预处理装置获取源数据，根据模板中定义的数据处理规则对源数据进行模板匹配，预处理装置对源数据附加标签生成标记数据，并将标记数据提交给数据采集装置；

2)数据采集装置通过将皮肤文件和标记数据合成生成用户交互界面文件，生成显示用户交互界面，用户填写后提交；

3)数据采集装置将用户交互界面提交的用户数据，按照标签回写到标记数据中；

4)数据还原装置依据步骤(1)中的模板和数据处理规则将标记数据中修改部分回写到源数据中，完成数据采集过程；

进一步，步骤1)中，所述规则预处理包含以下步骤：

a.预处理装置接受源数据，开始数据预处理流程；

b.根据配置信息，预处理装置读取源数据使用的模板库中的模板文件，根据模板文件中的配置进行处理；

c.预处理装置循环处理数据结点；

d.预处理装置读取并解析模板中的数据处理规则；

e.根据解析后的数据结点规则类型，调用相对应的模板文件中的数据处理规则；

f.按照模板文件中的规则，对源数据进行相应的预处理操作；

g.判断是否处理完所有数据，如果是，则退出循环处理流程，否则执行步骤c；

h.预处理装置得到规则预处理后的数据。

所述标签预处理包含以下步骤：

A.分析应用规则，不同的应用规则应该添加不同的标签以方便识别；

B.根据应用规则调用预处理装置中相对应的标签处理装置；

C.循环处理数据结点；

D.标签处理装置为数据结点添加标签，所述标签是以属性形式的名称-字符串对添加在数据结点中；

E.判断是否处理完所有数据结点，若处理完，则退出循环处理流程；否则执行步骤C；

F.预处理装置得到预处理后的标记数据。

进一步，步骤1)中，所述的数据处理规则是指实现两个数据结点相互转化的处理程序可识别的表达式，所述的模板是指与源数据数据结构相同的定义业务处理的结构化数据，预处理装置依据模板数据结点上定义的处理规则将标签附加到源数据的数据结构相同的数据结点上生成标记数据，所述标签是指包含名称值的结构化数据。

更进一步，步骤1)中，所述的对源数据附加标签生成标记数据是指在源数据的数据结构相同的数据结点上添加标签属性。

进一步，步骤2)中，所述的标记数据在步骤1)中附加的标签，满足用户交互界面对用户提交数据的标识要求，步骤3)中，回写过程按照提交的用户数据中的标识与标记数据的标签进行匹配。

更进一步，步骤3)中，所述的用户提交数据中的标识与标记数据的标签进行匹配是指依据现有的用户交互界面的不同而不同的，若用户交互界面通过id标识数据的唯一性，则标记数据中一定存在可通过皮肤文件转换为id标识的标签，该标签与id标识一一对应。

进一步，步骤4)中，所述的将标记数据中修改部分回写到源数据中，是通过标记数据与源数据的数据结构相似性进行匹配的。

更进一步，所述的标记数据与源数据的数据结构相似性是指源数据与标记数据都是结构化的数据，两种数据格式的数据结点之间的层次关系、包含关系完全一致，并且标记数据的数据结点属性指针对源数据的数据结点属性新增加的标签属性。

进一步，步骤4)中，所述的标记数据中修改部分回写到源数据的方法是：将源数据中存在的，符合数据处理规则反向处理要求的，对应的标记数据中修改的数据结点或者其数据，从标记数据回写到源数据中，所述符合数据处理规则反向处理要求是指该数据的数据结点数量与结点数据类型与数据处理规则中反向处理定义的参数变量数量和数据类型完全一致。

一种基于标签的数据采集***，该***包含预处理装置、数据采集装置、数据还原装置、规则处理装置和模板库，其中：

1)预处理装置，用于对输入接口接收的源数据进行预处理，通过调用模板库和规则处理装置，按照模板中定义的数据处理规则对源数据进行模板匹配，对源数据附加标签生成标记数据，并将标记数据提交给数据采集装置；

2)数据采集装置，用于将皮肤文件和标记数据合成生成界面文件，显示生成的用户交互界面用于采集用户数据，而后将用户交互界面提交的用户数据，按照标签回写到标记数据中。

3)数据还原装置，用于将标记数据中修改部分回写到源数据中，通过调用模板库和规则处理装置将采集到的数据还原成源数据结构，并由输出接口输出该数据。

4)规则处理装置，用于按照模板文件定义的数据处理规则对源数据进行预处理。

5)模板库，用于存储模板文件，模板文件是指与源数据数据结构相同的业务处理定义的结构化数据。

进一步，所述预处理装置包含标签处理装置，用于按照应用对源数据添加标签并处理标签。

本发明的效果在于：本发明所述的方法与***可以在保持原有数据不变的前提下，通过模板、标签等方式实现数据的动态转换，而模板和标签又可以针对不同应用进行动态配置，从而增加了数据的可操作性和逻辑性，实现了多种数据格式的统一处理，实现了***运行时的业务变更，并减少了因数据调整带来的差异性编程。

本发明之所以具有上述效果，原因在于：本发明通过在源数据的基础上添加数据处理规则及标签的方式，由标记数据的形式，实现了用户交互界面的用户提交数据与源数据的转换过渡，因而能够灵活实现流式数据与结构化数据之间的数据同步更新，通过模板配置，能够实现移动终端、WEB应用、桌面处理等一体化的综合应用***不间断持续运行时的***升级，该方法显然在通用性更强，灵活性更大。

附图说明

图1是本发明实施例所述的基于标签的数据采集***示意图；

图2是本发明实施例所述的基于标签的数据采集方法示意图；

图3是本发明实施例所述的规则预处理流程示意图；

图4是本发明实施例所述的标签预处理流程示意图；

图5是本发明实施例所述的数据还原流程示意图。

具体实施方式

下面结合说明书附图和具体实施方式对本发明作进一步的描述。

如图1所示，一种基于标签的数据采集***，主要包含预处理装置、数据采集装置、数据还原装置、规则处理装置和模板库，其中：

1)预处理装置11，用于对输入接口接收的源数据进行预处理，通过调用模板库16和规则处理装置15，按照模板中定义的数据处理规则对源数据进行模板匹配，对源数据附加标签生成标记数据，并将标记数据提交给数据采集装置13；

所述的模板是指与源数据数据结构相同的定义业务处理的结构化数据，所述的数据处理规则是指实现两个数据结点相互转化的处理程序可识别的表达式，所述标签是指包含名称值的结构化数据；

2)数据采集装置13，用于将皮肤文件和标记数据合成生成用户交互界面文件，显示生成的用户交互界面用于采集用户数据，而后将用户交互界面提交的用户数据，按照标签回写到标记数据中；

3)数据还原装置14，用于将标记数据中修改部分回写到源数据中，通过调用模板库16和规则处理装置15将采集到的数据还原成源数据结构，并由输出接口输出该数据。

4)规则处理装置15，用于按照模板文件定义的数据处理规则对源数据进行预处理。

5)模板库16，用于存储模板文件，模板文件是指与源数据数据结构相同的定义业务处理的结构化数据。

所述预处理装置11包含标签处理装置12，标签处理装置12用于按照应用对源数据添加标签并处理标签。

本实施例中，模板文件以结构化xml文件为例，模板定义了数据之间的层次结构、数据属性及属性值的范围，上述信息构成了数据的基本格式。

本实施例中，模板文件不仅定义了数据的基本格式，而且还定义了数据处理规则，该数据处理规则可以是模板预定义的，也可以是用户自定义的。该数据处理规则定义为属性形式的名称-字符串对，其中字符串具体为一种正则表达式或者是自定义参数的函数表达式。所述的数据处理规则用于指导处理程序如何处理数据。数据处理规则可以是对数据进行增加、删除或修改的操作，也可是对数据进行格式转换，或者对数据进行过滤，不同类型的属性值对应不同的规则处理装置。用户可编辑模板文件，使其符合应用规则。

一种基于标签的数据采集方法，如图2所示，其方法的包含以下步骤：

1)规则预处理和标签预处理：预处理装置11获取源数据，调用规则处理装置15和模板库16，根据模板中定义的数据处理规则对源数据进行模板匹配，预处理装置11对源数据附加标签生成标记数据，并将标记数据提交给数据采集装置，S21；

其中，数据处理规则是指实现两个数据结点相互转化的处理程序可识别的表达式，其控制数据处理的方式，提高数据的灵活性。标签依据预处理、采集和还原的需求以属性的形式添加到源数据中。标签根据应用将数据进行差异化识别，通过标签实现了相同数据不同应用的动态灵活转换，增加了数据的可识别性。

本实施例中，模板是指与源数据数据结构相同的定义业务处理的结构化数据，预处理装置依据模板数据结点上定义的处理规则将标签附加到源数据的数据结构相同的数据结点上生成标记数据，所述标签是指包含名称值的结构化数据。

本实施例中，模板定义如下：

<root>

<info>

</info>

</infoset>

<data>

<items>

<！[CDATA[]]>

</item>

<！[CDATA[您对本部门有什么样的意见或建议]]>

</item>

</items>

</data>

</root>

本模板中在info结点中定义了数据显示时需要的皮肤文件Display.xsl，在item结点中定义了数据处理规则，即：若存在此结点则删除该结点。

本实施例中，如图3所示，规则预处理过程包含以下主要步骤：

步骤31、预处理装置11接受源数据，开始数据预处理流程；

本实施例中，源数据定义如下：

<root>

<data>

<items>

<！[CDATA[您对本公司的管理制度是否满意]]>

</item>

<！[CDATA[您对本部门有什么样的意见或建议]]>

</item>

<！[CDATA[您认为本公司需要改善一下那些方面]]>

</item>

</items>

</data>

</root>

步骤32、根据配置信息，预处理装置11读取源数据使用的模板库16中的模板文件，根据模板文件中的配置进行处理；

步骤33、预处理装置11循环处理每一个数据结点；

本实施例中，循环处理每个item结点。

步骤34、预处理装置11读取并解析模板中的数据处理规则；

本实施例中，读取item结点operator属性值，该属性值定义了结点的数据处理规则。

步骤35、根据解析后的结点规则类型，调用相对应的规则处理装置15；

本实施例中，预处理程序在配置文件中添加注册信息，预处理装置通过注册信息寻找预处理程序。

</appSettings>

本实施例中，key属性值定义了处理程序的名称，value属性值定义了处理程序类。

步骤36、规则处理装置按照模板文件中的规则，对源数据进行相应的预处理操作；

本实施例中，将第二个item结点从源数据中删除。

步骤37、判断是否处理完所有数据结点。如果是，则退出循环处理流程，否则处理下一个数据结点；

步骤38、预处理装置11得到规则预处理后的数据。

本实施例中，源数据经过规则处理装置处理后形成的数据文件如下：

<root>

<data>

<items>

<！[CDATA[您对本公司的管理制度是否满意]]>

</item>

<！[CDATA[您认为本公司需要改善一下那些方面]]>

</item>

</items>

</data>

</root>

源数据经过规则预处理后，根据应用规则添加标签。添加标签的目的是使数据具有应用背景，有利于应用中更好的识别和利用数据。

本实施例中，如图4所示，标签预处理过程包含以下主要步骤：

步骤41、分析应用规则，不同的应用规则应该添加不同的标签以方便识别；

步骤42、根据应用规则调用相对应的标签处理装置12；

步骤43、循环处理每一个数据结点；

步骤44、标签处理装置12为数据结点添加标签，所述标签是以属性形式的名称-字符串对添加在数据结点中；

步骤45、判断是否处理完所有数据结点。若处理完，则退出循环处理流程；否则处理下一个数据结点；

步骤46、预处理装置11得到预处理后的标记数据。

本实施例中，经过标签处理装置12进行标签预处理后的数据文件如下所示：

<root>

<data>

<items>

<！[CDATA[您对本公司的管理制度是否满意]]>

</item>

<！[CDATA[您认为本公司需要改善一下那些方面]]>

<answer id＝＂2_1＂name＝＂2＂checked＝＂false＂value＝＂0＂title＝＂扩大运营

规模＂/>

<answer id＝＂2_2＂name＝＂2＂checked＝＂false＂value＝＂1＂title＝＂进行企业

股份制改造＂/>

<answer id＝＂2_3＂name＝＂2＂checked＝＂false＂value＝＂2＂title＝＂提高企业

管理的规范化程度＂/>

</item>

</items>

</data>

</root>

所述的对源数据附加标签生成标记数据是指在源数据的数据结构相同的数据结点上添加标签属性。本实施例中，添加了标签id、name、checked、value用于在数据显示及收集时识别用户数据。

本实施例中，步骤(1)预处理后得到的标记数据和源数据的结构化数据结点关系一致。

2)数据采集装置13通过将皮肤文件和标记数据合成生成用户交互界面文件，生成显示用户交互界面，用户填写后提交，S22；

3)数据采集装置13将用户交互界面提交的用户数据，按照标签回写到标记数据中，S23；

数据采集装置13从模板库中提取皮肤文件display.xsl，将皮肤文件和预处理后的标记数据合成为用户交互界面，并负责将采集到的数据添加到预处理后的文件中。

本实施例中，定义皮肤文件display.xsl如下：

<xsl:template match＝＂/＂>

<xsl:apply-templates select＝＂root/data＂/>

</xsl:template>

<xsl:template match＝＂data＂>

<xsl:apply-templates select＝＂items＂/>

</xsl:template>

<xsl:template match＝＂items＂>

<table>

<xsl:apply-templates select＝＂item＂/>

</table>

</xsl:template>

<xsl:template match＝＂item＂>

<tr>

<label>

<xsl:value-of select＝＂＠text＂/>

<xsl:value-of select＝＂＇:＂＇/>

</label>

</td>

<label>

<xsl:value-of select＝＂＠value＂/>

</label>

</td>

</tr>

</xsl:template>

本实施例中，数据采集装置收集到的数据文件如下所示：

<root>

<data>

<items>

<！[CDATA[您对本公司的管理制度是否满意]]>

</item>

<！[CDATA[您认为本公司需要改善一下那些方面]]>

<answer id＝＂2_1＂name＝＂2＂checked＝＂true＂value＝＂0＂title＝＂扩大运营

规模＂/>

<answer id＝＂2_2＂name＝＂2＂checked＝＂true＂value＝＂1＂title＝＂进行企业

股份制改造＂/>

管理的规范化程度＂/>

</item>

</items>

</data>

</root>

本实施例中，步骤2)中，所述的标记数据在步骤1)中附加的标签，满足用户交互界面对用户提交数据的标识要求，步骤3)中，回写过程按照提交的用户数据中的标识与标记数据的标签进行匹配。所述的用户提交数据中的标识与标记数据的标签进行匹配是指依据现有的用户交互界面的不同而不同的，若用户交互界面通过id标识数据的唯一性，则标记数据的标签一定存在可通过皮肤文件转换为id标识的标签，该标签与id标识一一对应，上述这种转换对应关系，是由模板设计人员依据用户交互界面的特性设计在模板中的。

4)数据还原装置14依据步骤(1)中的模板和数据处理规则将标记数据中修改部分回写到源数据中，完成数据采集过程，S24。

数据采集完成后，数据还原装置14根据应用对采集到的数据还原。数据还原功能可以在采集数据的同时保持源数据文件不变。如图5所示，数据还原包含以下主要步骤：

步骤51、循环处理每一个数据结点；

步骤52、根据采集数据的特征，在源数据中找到数据的位置；

步骤53、在源数据中添加采集到的数据；

步骤54、判断是否处理完所有数据结点；若处理完，则退出循环处理流程；否则处理下一个数据结点；

步骤55、数据还原装置14输出处理后的数据。

本实施例中，经过数据还原装置14还原后的数据文件如下：

<root>

<data>

<items>

<！[CDATA[您对本公司的管理制度是否满意]]>

</item>

<！[CDATA[您对本部门有什么样的意见或建议]]>

</item>

<item id＝”3”type＝＂check＂value＝”扩大运营规模，进行企业股份制改

造”>

<！[CDATA[您认为本公司需要改善一下那些方面]]>

</item>

</items>

</data>

</root>

本实施例中所述的将标记数据中修改部分回写到源数据中，是通过标记数据与源数据的数据结构相似性进行匹配的，标记数据与源数据的数据结构相似性是指源数据与标记数据都是结构化的数据，两种数据格式的数据结点之间的层次关系、包含关系完全一致，并且标记数据的数据结点属性是针对源数据的数据结点属性新增加的标签属性。

本实施例中步骤4)中，所述的标记数据中修改部分回写到源数据的方法是：将源数据中存在的，对应的标记数据中修改的数据结点或者其数据，符合数据处理规则反向处理要求的数据，从标记数据回写到源数据中。其中，符合数据处理规则反向处理要求的数据是指该数据的数据结点数量与结点数据类型与数据处理规则中反向处理定义的参数变量数量和数据类型完全一致。

本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员根据本发明的技术方案得出其他的实施方式，同样属于本发明的技术创新范围。

Claims

1.一种基于标签的数据采集方法，包括如下步骤：

所述的数据处理规则是指实现两个数据结点相互转化的处理程序可识别的表达式，所述的模板是指与源数据数据结构相同的定义业务处理的结构化数据，所述标签是指包含名称值的结构化数据；

4)数据还原装置依据步骤(1)中的模板和数据处理规则将标记数据中修改部分回写到源数据中，完成数据采集过程。

2.如权利要求1所述的一种基于标签的数据采集方法，其特征在于，步骤1)中，所述规则预处理的方法包含以下步骤：

a.预处理装置接受源数据，开始数据预处理流程；

c.预处理装置循环处理数据结点；

d.预处理装置读取并解析模板中的数据处理规则；

h.预处理装置得到规则预处理后的数据。

3.如权利要求2所述的一种基于标签的数据采集方法，其特征在于，步骤1)中，所述标签预处理的方法包含以下步骤：

B.根据应用规则调用预处理装置中相对应的标签处理装置；

C.循环处理数据结点；

F.预处理装置得到预处理后的标记数据。

4.如权利要求3所述的一种基于标签的数据采集方法，其特征在于：步骤1)中，预处理装置依据模板数据结点上定义的处理规则将标签附加到源数据的数据结构相同的数据结点上生成标记数据。

5.如权利要求4所述的一种基于标签的数据采集方法，其特征在于，步骤1)中，所述的对源数据附加标签生成标记数据的方法是：在源数据的数据结构相同的数据结点上添加标签属性。

6.如权利要求1至5之一所述的一种基于标签的数据采集方法，其特征在于：步骤2)中，所述的标记数据在步骤1)中附加的标签，满足用户交互界面对用户提交数据的标识要求，步骤3)中，回写过程按照提交的用户数据中的标识与标记数据的标签进行匹配。

7.如权利要求6所述的一种基于标签的数据采集方法，其特征在于：步骤3)中，所述的用户提交数据中的标识与标记数据的标签进行匹配是指依据现有的用户交互界面的不同而不同的，若用户交互界面通过id标识数据的唯一性，则标记数据中一定存在可通过皮肤文件转换为id标识的标签，该标签与id标识一一对应。

8.如权利要求1至5之一所述的一种基于标签的数据采集方法，其特征在于：步骤4)中，所述的将标记数据中修改部分回写到源数据中，是通过标记数据与源数据的数据结构相似性进行匹配的。

9.如权利要求8所述的一种基于标签的数据采集方法，其特征在于：所述的标记数据与源数据的数据结构相似性是指源数据与标记数据都是结构化的数据，两种数据格式的数据结点之间的层次关系、包含关系完全一致，并且标记数据的数据结点属性是针对源数据的数据结点属性新增加的标签属性。

10.如权利要求1至5之一所述的一种基于标签的数据采集方法，其特征在于，步骤4)中，所述的标记数据中修改部分回写到源数据的方法是：将源数据中存在的，符合数据处理规则反向处理要求的，对应的标记数据中修改的数据结点或者其数据，从标记数据回写到源数据中，所述符合数据处理规则反向处理要求的是指该数据的数据结点数量与结点数据类型与数据处理规则中反向处理定义的参数变量数量和数据类型完全一致。

11.一种基于标签的数据采集***，该***包含预处理装置、数据采集装置、数据还原装置、规则处理装置和模板库，其中：

2)数据采集装置，用于将皮肤文件和标记数据合成生成界面文件，显示生成的用户交互界面用于采集用户数据，而后将用户交互界面提交的用户数据，按照标签回写到标记数据中；

3)数据还原装置，用于将标记数据中修改部分回写到源数据中，通过调用模板库和规则处理装置将采集到的数据还原成源数据结构，并由输出接口输出该数据；

4)规则处理装置，用于按照模板文件定义的数据处理规则对源数据进行预处理；

5)模板库，用于存储模板文件，模板文件是指与源数据数据结构相同的定义业务处理的结构化数据。

12.如权利要求11所述一种基于标签的数据采集***，其特征在于：所述预处理装置包含标签处理装置，该标签处理装置用于按照应用对源数据添加标签并处理标签。