CN101488123B - 文本解析***及方法 - Google Patents

文本解析***及方法 Download PDF

Info

Publication number
CN101488123B
CN101488123B CN2008103001250A CN200810300125A CN101488123B CN 101488123 B CN101488123 B CN 101488123B CN 2008103001250 A CN2008103001250 A CN 2008103001250A CN 200810300125 A CN200810300125 A CN 200810300125A CN 101488123 B CN101488123 B CN 101488123B
Authority
CN
China
Prior art keywords
block
text
data
matched rule
textual description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008103001250A
Other languages
English (en)
Other versions
CN101488123A (zh
Inventor
李忠一
叶建发
卢秋桦
樊晓迪
***
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN2008103001250A priority Critical patent/CN101488123B/zh
Priority to US12/351,857 priority patent/US8112447B2/en
Publication of CN101488123A publication Critical patent/CN101488123A/zh
Application granted granted Critical
Publication of CN101488123B publication Critical patent/CN101488123B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种文本解析方法,该方法包括步骤:建立文本描述定义文件;载入文本描述定义文件及文本;根据文本描述定义文件分解文本,从文本中提取数据;及输出所提取的数据。本发明还提供一种文本解析***。本发明能够根据文本描述定义文件从文本中提取数据,从而实现对各种类型文本的解析。

Description

文本解析***及方法
技术领域
本发明涉及一种文本处理***及方法,特别是关于一种文本解析***及方法。
背景技术
信息***经常通过文本传递信息,通过文本传递信息具有平台无关、移植性好、兼容性强的特点,并且可读性也一般符合人的视觉理解方式。文本解析的目的是对文本进行分解,提取出其中的数据,以便于进行二次加工,或者进行诸如检索、文本挖掘等深层次的加工和服务。如图1所示的电子报表,该电子报表包含多个表单(图1中只列出表单1与表单2),每个表单是一个独立部分,由标题、出处、制表日期、厂商编号、厂商名称及数据表构成,数据表包含多条记录,每条记录包括收货单号、收货日期、料号、采购单号、收货量、收货单价,对诸如此类的电子报表进行分析统计,必须把报表中的数据(如图1中的标题、出处、制表日期、厂商编号、厂商名称以及每条记录的收货单号、收货日期、料号、采购单号、收货量、收货单价)提取出来并按其意义重新组织成信息***所能识别的数据结构。现有的文本分解过程难以规范化,必须由程序员定制化实现,容易出现错误,尤其当文本格式复杂、数据量大的时候难以对文本进行解析。
发明内容
鉴于以上内容,有必要提出一种通用的文本解析***及方法。
一种文本解析***,该***包括:载入模块,用于载入文本描述定义文件及所需解析的文本,所述的文本描述定义文件定义文本的各个区块及各个数据的匹配规则,各个区块形成多层的树状结构,顶层是根区块,底层是最小单位区块;解析模块,用于从根区块开始,根据各个区块的匹配规则匹配文本的各个区块,若匹配出的区块包含子区块,则根据子区块的匹配规则在所述匹配出的区块中匹配所述子区块,直到匹配出所有区块,并且根据相应的数据的匹配规则从各个最小单位区块中提取出各个数据;及输出模块,用于将所提取的数据以用户所需的文件格式输出。
一种文本解析方法,该方法包括步骤:建立文本描述定义文件,所述的文本描述定义文件定义各个区块及各个数据的匹配规则,各个区块形成多层的树状结构,顶层是根区块,底层是最小单位区块;载入文本描述定义文件及所需解析的文本;从根区块开始,根据各个区块的匹配规则匹配文本的各个区块,若匹配出的区块包含子区块,则根据子区块的匹配规则在所述匹配出的区块中匹配所述子区块,直到匹配出所有区块,并且根据相应的数据的匹配规则从各个最小单位区块中提取出各个数据;及将所提取的数据以用户所需的文件格式输出。
相较于现有技术,本发明结合可扩展标记语言与正则表达式对文本的结构及匹配规则进行描述,根据所描述的文本结构及匹配规则分解文本,从文本中提取数据,从而实现对各种类型文本的解析。
附图说明
图1为电子报表的示意图。
图2为本发明文本解析***较佳实施例的功能模块图。
图3为本发明文本解析方法较佳实施例的流程图。
具体实施方式
参阅图2所示,是本发明文本解析***较佳实施例的功能模块图。该***包括载入模块11、解析模块12及输出模块13。所述文本解析***运行在计算机上,该***根据文本描述定义文件对文本进行分解,从文本中提取出数据,并输出所提取的数据。所述数据是需要从文本中提取出来的具体信息,以图1中的电子报表为例,需要把每个表单的标题(如***有限公司进货单)、出处(如H5S00001)、制表日期(如20070601 17:32:03)、厂商编号(如9876543210)、厂商名称(如***电子公司)以及每条记录的收货单号(如HaA-012345)、收货日期(如20070512)、料号(如987654J00-001-BB)、采购单号(如Ord-111111)、收货量(如2,400.00)、收货单价(如12.45000)等数据提取出来。
文本描述定义文件描述文本的结构及匹配规则。在本实施例中,所述文本描述定义文件是一种可扩展标记语言(Extensible Markup Language,XML)文件,即*.xml。所述文本描述定义文件定义多层的树状结构的区块来描述文本的结构。顶层的区块是根区块,根区块包含若干区块,每一区块又包含若干区块,从而最终形成一种多层的树状结构。对于任一非根区块,只有一个区块直接包含该非根区块(称为子区块)。若一个区块包含多个同样结构的子区块,定义该子区块是列表类型。底层的区块不包含子区块,底层的区块称为最小单位区块,最小单位区块仅包含数据。例如,对于图1中电子报表,用root表示根区块,对应于整个电子报表,用table表示根区块的子区块,table定义为列表类型,对应于电子报表中的各个表单,table包括子区块title、from、date、supplierId、supplierName、form,分别表示每个表单的标题、出处、制表日期、厂商编号、厂商名称、数据表;form包括item子区块,item定义为列表类型,对应于数据表中的各条记录;item包括子区块consignId、consignDate、productId、PoId、inAmount、price,分别表示每条记录的收货单号、收货日期、料号、采购单号、收货量、收货单价。其中title、from、date、supplierId、supplierName、consignId、consignDate、productId、PoId、inAmount、price是最小单位区块,该等区块包含数据。例如图1中的表单1,title为“***有限公司进货单”、from为“H5S00001”、date为“20070601 17:32:03”、supplierId为“9876543210”、supplierName为“***电子公司”,表单1中的第一条记录的consignId为“HaA-012345”、consignDate为“20070512”、productId为“987654J00-001-BB”、PoId为“Ord-111111”、inAmount为“2,400.00”、price为“12.45000”。对文本(如图1所示电子报表)进行解析的目的就是将文本中的数据提取出来。
文本描述定义文件采用正则表达式(regular expression,regexes)来描述各个区块及各个数据的匹配规则,根据该匹配规则能够从文本,例如图1所示的电子报表中将各个区块分解出来,并且能够从最小单位区块中将数据提取出来。
载入模块11用于载入文本描述定义文件及所需解析的文本。在本实施例中按行将文本载入到数组中,数组的一个元素对应文本的一行。假设图1中的电子报表共50行,将该电子报表载入到数组string,该数组的元素是string[0]、string[1]、string[2]、……、string[48]、string[49],分别对应电子报表的第1行、第2行、第3行、……、第49行、第50行。
解析模块12用于根据文本描述定义文件中各个区块的匹配规则匹配文本的各个区块,并从最小单位区块中提取数据。在匹配文本的各个区块时,若区块是列表类型,匹配出区块列表,否则匹配出第一个符合匹配规则的区块。解析模块12匹配文本各个区块的具体实现方法如下:从根区块开始匹配,若匹配出的区块包含子区块,则根据文本描述定义文件在该区块中匹配其各个子区块,直到匹配出所有区块,并且从最小单位区块中提取数据。文本描述定义文件定义了各个区块的匹配规则,根据一个区块的匹配规则在文本中查找符合该个匹配规则的子文本(即文本中的一部分),即得到文本的该个区块。例如根据根区块的匹配规则在文本中查找符合根区块匹配规则的子文本,即得到文本的根区块。需要说明的是,在本实施例中按行将文本载入到数组中,因而是在数组中进行匹配,匹配出的区块以数组元素为单位,例如匹配出根区块是string[1]~string[49],即文本的第2行至第50行。以图1中的电子报表为例,对该电子报表进行匹配,首先得到根区块root为string[]~string[49];在string[1]~string[49]中匹配根区块的子区块,得到子区块列表table[0](表示表单1)table[1](表示表单2),table[0]、table[1]分别是string[1]~string[24]、string[26]~string[49];继续匹配table[0]、table[1]的子区块,例如从string[1]~string[24]中得到table[0]的子区块title、from、date、supplierId、supplierName、form分别是string[1]、string[2]、string[3]、string[5]、string[5]、string[9]~string[24],并且得到title为“***有限公司进货单”、from为“H5S00001”、date为“20070601 17:32:03”、supplierId为“9876543210”、supplierName为“***电子公司”;form区块包含item子区块,item是列表类型,则继续在区块form(例如string[9]~string[24])中匹配item子区块列表item[0]、item[1]、item[2]、item[3]、item[4]、item[5],例如分别得到string[10]、string[12]、string[14]、string[16]、string[18]、string[20],继续匹配item的子区块,如在string[10]中匹配item[0]的子区块,得到consignId为“HaA-012345”、consignDate为“20070512”、productId为“987654J00-001-BB”、PoId为“Ord-111111”、inAmount为“2,400.00”、price为“12.45000”。
输出模块13用于将所提取的数据根据文本描述定义文件以用户所需的文件格式输出。在本实施例中用XML文件输出所提取的数据,例如对图1中的电子报表进行解析,提取的数据包括每个表单的title、from、date、supplierId、supplierName以及表数据中每条记录的consignId、consignDate、productId、PoId、inAmount、price,将提取的数据按照文本的结构以output.xml文件输出。在除本实施例以外的实施例中,输出模块13还可以将提取的数据按字段存储到数据库中,例如存储到Excel表中。
参阅图3所示,是本发明文本解析方法较佳实施例的流程图。
步骤S301,建立文本描述定义文件,该文本描述定义文件描述文本的结构及匹配规则。在本实施例中,所述文本描述定义文件是XML文件,即*.xml。
所述文本描述定义文件定义多层的树状结构的区块来描述文本的结构。顶层的区块是根区块,根区块包含若干区块,每一区块又包含若干区块,从而最终形成一种多层的树状结构。对于任一非根区块,只有一个区块直接包含该非根区块(称为子区块)。若一个区块包含多个同样结构的子区块,定义该子区块是列表类型。底层的区块不包含子区块,底层的区块称为最小单位区块,最小单位区块仅包含数据。例如,对于图1中电子报表,用root表示根区块,对应于整个电子报表,用table表示根区块的子区块,table定义为列表类型,对应于电子报表中的各个表单,table包括子区块title、from、date、supplierId、supplierName、form,分别表示每个表单的标题、出处、制表日期、厂商编号、厂商名称、数据表;form包括item子区块,item定义为列表类型,对应于数据表中的各条记录;item包括子区块consignId、consignDate、productId、PoId、inAmount、price,分别表示每条记录的收货单号、收货日期、料号、采购单号、收货量、收货单价。其中title、from、date、supplierId、supplierName、consignId、consignDate、productId、PoId、inAmount、price是最小单位区块,该等区块包含数据。例如图1中的表单1,title为“***有限公司进货单”、from为“H5S00001”、date为“20070601 17:32:03”、supplierId为“9876543210”、supplierName为“***电子公司”,表单1中的第一条记录的consignId为“HaA-012345”、consignDate为“20070512”、productId为“987654J00-001-BB”、PoId为“Ord-111111”、inAmount为“2,400.00”、price为“12.45000”。对文本(如图1所示电子报表)进行解析的目的就是将文本中的数据提取出来。
文本描述定义文件采用正则表达式来描述各个区块及各个数据的匹配规则,根据该匹配规则能够从文本,例如图1所示的电子报表中将各个区块分解出来,并且能够从最小单位区块中将数据提取出来。
步骤S302,载入模块11载入文本描述定义文件,如本实施例中载入*.xml文件。
步骤S303,载入模块11载入文本。在本实施例中按行将文本载入到数组中,数组的一个元素对应文本的一行。假设图1中的电子报表共50行,将该电子报表载入到数组string,该数组的元素是string[0]、string[1]、string[2]、……、string[48]、string[49],分别对应电子报表的第1行、第2行、第3行、……、第49行、第50行。
步骤S304,解析模块12根据文本描述定义文件中各个区块的匹配规则匹配文本的各个区块,并从最小单位区块中提取数据。在匹配文本的各个区块时,若区块是列表类型,匹配出区块列表,否则匹配出第一个符合匹配规则的区块。该步骤具体实现方法如下:从根区块开始匹配,若匹配出的区块包含子区块,则根据文本描述定义文件在该区块中匹配其各个子区块,直到匹配出所有区块,并且从最小单位区块中提取数据。文本描述定义文件定义了各个区块的匹配规则,根据一个区块的匹配规则在文本中查找符合该个匹配规则的子文本(即文本中的一部分),即得到文本的该个区块。例如根据根区块的匹配规则在文本中查找符合根区块匹配规则的子文本,即得到文本的根区块。需要说明的是,在本实施例中按行将文本载入到数组中,因而是在数组中进行匹配,匹配出的区块以数组元素为单位,例如匹配出根区块是string[1]~string[49],即文本的第2行至第50行。以图1中的电子报表为例,对该电子报表进行匹配,首先得到根区块root为string[1]~string[49];在string[1]~string[49]中匹配根区块的子区块,得到子区块列表table[0](表示表单1)table[1](表示表单2),table[0]、table[1]分别是string[1]~string[24]、string[26]~string[49];继续匹配table[0]、table[1]的子区块,例如从string[1]~string[24]中得到table[0]的子区块title、from、date、supplierId、supplierName、form分别是string[1]、string[2]、string[3]、string[5]、string[5]、string[9]~string[24],并且得到title为“***有限公司进货单”、from为“H5S00001”、date为“20070601 17:32:03”、supplierId为“9876543210”、supplierName为“***电子公司”;form区块包含item子区块,item是列表类型,则继续在区块form(例如string[9]~string[24])中匹配item子区块列表item[0]、item[1]、item[2]、item[3]、item[4]、item[5],例如分别得到string[10]、string[12]、string[14]、string[16]、string[18]、string[20],继续匹配item的子区块,如在string[10]中匹配item[0]的子区块,得到consignId为“HaA-012345”、consignDate为“20070512”、productId为“987654J00-001-BB”、PoId为“Ord-111111”、inAmount为“2,400.00”、price为“12.45000”。
步骤S305,输出模块13将所提取的数据根据文本描述定义文件以一定格式输出。在本实施例中用XML文件输出所提取的数据,例如对图1中的电子报表进行解析,提取的数据包括每个表单的title、from、date、supplierId、supplierName以及表数据中每条记录的consignId、consignDate、productId、PoId、inAmount、price,将提取的数据按照文本的结构以output.xml文件输出。在除本实施例以外的实施例中,输出模块13还可以将提取的数据按字段存储到数据库中,例如存储到Excel表中。
依照上述方法,对于各种类型的文本,即使是格式复杂、数据量大的文本,能够用文本描述定义文件描述其结构,并且能够根据文本描述定义文件将文本中的数据提取出来。

Claims (6)

1.一种文本解析***,其特征在于,该***包括:
载入模块,用于载入文本描述定义文件,及将所需解析的文本载入到数组中,数组的一个元素对应所需解析的文本的一行,所述的文本描述定义文件定义文本的各个区块及各个数据的匹配规则,各个区块形成多层的树状结构,顶层是根区块,底层是最小单位区块,该文本描述定义文件采用正则表达式描述各个区块及各个数据的匹配规则;
解析模块,用于从根区块开始,在所述数组中根据各个区块的匹配规则匹配文本的各个区块,若匹配出的区块包含子区块,则根据子区块的匹配规则在所述匹配出的区块中匹配所述子区块,直到匹配出所有区块,并且根据相应的数据的匹配规则从各个最小单位区块中提取出各个数据;及
输出模块,用于将所提取的数据以用户所需的文件格式输出。
2.如权利要求1所述的文本解析***,其特征在于,所述的文本描述定义文件是一种可扩展标记语言文件。
3.如权利要求1所述的文本解析***,其特征在于,所述的输出模块将所提取的数据以用户所需的文件格式输出是将所提取的数据根据文本描述定义文件组织为可扩展标记语言文件输出。
4.一种文本解析方法,其特征在于,该方法包括步骤:
建立文本描述定义文件,所述的文本描述定义文件定义各个区块及各个数据的匹配规则,各个区块形成多层的树状结构,顶层是根区块,底层是最小单位区块,该文本描述定义文件采用正则表达式描述各个区块及各个数据的匹配规则;
载入文本描述定义文件,及将所需解析的文本载入到数组中,数组的一个元素对应所需解析的文本的一行;
从根区块开始,在所述数组中根据各个区块的匹配规则匹配文本的各个区块,若匹配出的区块包含子区块,则根据子区块的匹配规则在所述匹配出的区块中匹配所述子区块,直到匹配出所有区块,并且根据相应的数据的匹配规则从各个最小单位区块中提取出各个数据;及
将所提取的数据以用户所需的文件格式输出。
5.如权利要求4所述的文本解析方法,其特征在于,所述的文本描述定义文件是一种可扩展标记语言文件。
6.如权利要求4所述的文本解析方法,其特征在于,所述将所提取的数据以用户所需的文件格式输出是将所提取的数据根据文本描述定义文件组织为可扩展标记语言文件输出。
CN2008103001250A 2008-01-16 2008-01-16 文本解析***及方法 Expired - Fee Related CN101488123B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2008103001250A CN101488123B (zh) 2008-01-16 2008-01-16 文本解析***及方法
US12/351,857 US8112447B2 (en) 2008-01-16 2009-01-12 System and method for parsing a text file

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008103001250A CN101488123B (zh) 2008-01-16 2008-01-16 文本解析***及方法

Publications (2)

Publication Number Publication Date
CN101488123A CN101488123A (zh) 2009-07-22
CN101488123B true CN101488123B (zh) 2013-02-13

Family

ID=40851564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008103001250A Expired - Fee Related CN101488123B (zh) 2008-01-16 2008-01-16 文本解析***及方法

Country Status (2)

Country Link
US (1) US8112447B2 (zh)
CN (1) CN101488123B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8533214B2 (en) * 2010-06-15 2013-09-10 Verizon Patent And Licensing Inc. System and method for assessing quality of address information for physical locations
CN102982028A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 用于提取文档结构的方法和装置
CN102982010B (zh) * 2011-09-02 2016-06-22 北大方正集团有限公司 提取文档结构的方法和装置
CN103399773A (zh) * 2013-08-15 2013-11-20 北京金山顶尖科技股份有限公司 测井数据文件的加载方法
CN103632236A (zh) * 2013-12-05 2014-03-12 用友软件股份有限公司 一种语音阅读报表的装置
CN107608981B (zh) * 2016-07-11 2021-11-12 深圳市丰驰顺行信息技术有限公司 基于正则表达式的字符匹配方法及***
CN108255802B (zh) * 2016-12-29 2021-08-24 北京国双科技有限公司 通用文本解析架构及基于所述架构解析文本的方法和装置
CN107545934B (zh) * 2017-05-11 2021-04-27 新华三大数据技术有限公司 数值型指标的提取方法和装置
CN108197086B (zh) * 2017-12-29 2022-02-01 国信优易数据股份有限公司 一种被动元件参数解析的方法及装置
CN109271479A (zh) * 2018-09-29 2019-01-25 广东润弘科技有限公司 一种简历结构化处理方法
CN110704573B (zh) * 2019-09-04 2023-12-22 平安科技(深圳)有限公司 目录存储方法、装置、计算机设备及存储介质
CN113807076B (zh) * 2021-09-22 2024-06-04 上海大学 一种航海矢量文件的解析、生成方法及***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094194A (zh) * 2006-06-19 2007-12-26 腾讯科技(深圳)有限公司 一种提取Web页面中用户所需Web信息的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5890175A (en) * 1996-09-25 1999-03-30 Wong; Garland Dynamic generation and display of catalogs
US7152058B2 (en) * 2000-07-13 2006-12-19 Biap Systems, Inc. Apparatus for and method of selectively retrieving information and enabling its subsequent display

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094194A (zh) * 2006-06-19 2007-12-26 腾讯科技(深圳)有限公司 一种提取Web页面中用户所需Web信息的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
安自强等.基于DOM的XML解析与应用.《承德石油高等专科学校学报》.2006,第8卷(第4期),第27-31页. *
曲朝阳等.基于XML的电厂监督报表处理***的实现.《电力***自动化》.2004,第28卷(第24期),第88-90页. *

Also Published As

Publication number Publication date
US20090182754A1 (en) 2009-07-16
US8112447B2 (en) 2012-02-07
CN101488123A (zh) 2009-07-22

Similar Documents

Publication Publication Date Title
CN101488123B (zh) 文本解析***及方法
US20040167909A1 (en) Methods and products for integrating mixed format data
US7080067B2 (en) Apparatus, method, and program for retrieving structured documents
US9690770B2 (en) Analysis of documents using rules
US7272595B2 (en) Information search support system, application server, information search method, and program product
US6889223B2 (en) Apparatus, method, and program for retrieving structured documents
EP1225516A1 (en) Storing data of an XML-document in a relational database
CN102819547B (zh) 配置字段属性的方法和装置
US8654125B2 (en) System and method of chart data layout
CN101013436A (zh) 将不同格式的文本数据转换为统一格式的方法及其***
NZ531175A (en) Method for adding metadata to data
US20050273573A1 (en) System and method for GUI supported specifications for automating form field extraction with database mapping
CN101290624A (zh) 一种新闻网页元数据自动抽取方法
TW200636511A (en) Crosslink data structure, crosslink database, and system and method of organizing and retrieving information
CN101751400A (zh) 技术数据分析的***与方法以及专利分析的***
US20180060539A1 (en) System and method of standard-compliant electronic case report form design and clinical data set generation
CN111401014A (zh) 一种基于报表的多指标多维度分析方法、***及构建方法
Stausberg et al. Foundations of a metadata repository for databases of registers and trials
CN101782924A (zh) 信息处理方法、信息处理设备和程序
KR20110020115A (ko) 청구항 시각화 장치 및 방법
TWI414950B (zh) 文本解析系統及方法
Hong et al. Extracting web query interfaces based on form structures and semantic similarity
CN109597970A (zh) 获取pdf注释信息的方法及装置
CN117610532A (zh) 一种报告生成方法和***、电子设备及存储介质
Jacob Managing large sound databases using Mpeg7

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130213

Termination date: 20150116

EXPY Termination of patent right or utility model