CN101673256A - 一种基于文字流的文章元数据信息自动抽取方法及*** - Google Patents

一种基于文字流的文章元数据信息自动抽取方法及*** Download PDF

Info

Publication number
CN101673256A
CN101673256A CN200810119832A CN200810119832A CN101673256A CN 101673256 A CN101673256 A CN 101673256A CN 200810119832 A CN200810119832 A CN 200810119832A CN 200810119832 A CN200810119832 A CN 200810119832A CN 101673256 A CN101673256 A CN 101673256A
Authority
CN
China
Prior art keywords
word flow
script
file
metadata information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810119832A
Other languages
English (en)
Other versions
CN101673256B (zh
Inventor
董宁
任大勇
朱兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Founder Apabi Technology Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN 200810119832 priority Critical patent/CN101673256B/zh
Publication of CN101673256A publication Critical patent/CN101673256A/zh
Application granted granted Critical
Publication of CN101673256B publication Critical patent/CN101673256B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于文字流的文章元数据信息自动抽取方法及***,属于信息识别与提取的技术领域。现有技术中,一般是重新录入这些元数据信息,或从版面文件中手工复制粘贴已经存在的文字信息,处理效率低,且容易出错。本发明所述的方法及***根据元数据在文字流中的特征信息,采用正则表达式模板匹配的方式抽取文章元数据。采用本发明所述的方法及***,针对刊物的排版规律进行元数据信息的匹配和自动提取,只需简单的人工验证准确性,加快了信息提取速度。

Description

一种基于文字流的文章元数据信息自动抽取方法及***
技术领域
本发明属于信息识别与提取的技术领域,具体涉及一种基于文字流的文章元数据信息自动抽取方法及***。
背景技术
报刊的文章加工成数据库形式时,需要一些基本的元数据信息,以便进行检索和进行信息复用。
报刊排版完成后最终的定稿版面文件中,文章的元数据(作者、来源、体裁等信息)已经丢失,或只是以文字的形式存在,不能识别是哪种类型的元数据。当对版面文件进行标引和再加工时,需要重新获取这些信息。
这些元数据信息,往往在文章正文中存在,放置在整篇文章的特定位置,或通过特殊标记标出。目前,不同报社或是不同版面的文章,排版格式多样化。文章的作者、标题等元数据信息在文章本身中的位置及前后标志,与排版员的操作习惯及版面样式有很大的关联性。但是,对于同一报社的同一排版员所排的文章来说,这些信息是有一定的规律的。
现有技术中,标引员在标引文章时,需要对文章的内容进行阅读分析,根据内容及语义等信息,从中提取自己所需的标引项元数据,一般是重新录入这些元数据信息,或从版面文件中手工复制粘贴已经存在的文字信息。由于理解及体力等原因的限制,势必会出现正确性及速度上的降低,因此处理效率低,且容易出错。在对大量历史报刊数据进行加工时,需要的加工成本会更加高。
发明内容
针对现有技术中所存在的缺陷,本发明的目的在于提供一种高效的、低成本的基于文字流的文章元数据信息自动抽取方法及***。
为了实现上述发明目的,本发明采用的技术方案是:一种基于文字流的文章元数据信息自动抽取方法,包括以下步骤:
(1)编写配置文件及脚本文件,将不同刊物的配置文件及脚本文件放入该刊物的配置目录下;
(2)加载配置文件,***读取每个刊物的配置文件,根据配置文件中记录的信息,获得脚本文件的路径及相关脚本函数信息;
(3)加载脚本内容到引擎:***将脚本文件中的脚本函数内容读取到脚本引擎中并加以解析;
(4)通过界面进行提取操作:通过界面操作,将待抽取的文章内容以文字流的形式传给脚本文件中的正则表达式模板,进行信息提取;
(5)正则表达式匹配:***调用相关脚本函数,接收传入的文字流,根据事先设置的抽取级别或阈值,调用不同的正则表达式模板对文字流进行筛选与匹配,获取结果以文字流形式进行保存;
(6)返回匹配结果并给与提示:脚本文件将匹配的结果元数据以文字流形式返回***,***通过在界面上设置特殊标志,给与用户提示,方便用户进行人工验证。
进一步,所述的配置文件是Xml格式的,所述的脚本文件是JavaScript脚本文件。
进一步,步骤(1)中,每个刊物拥有一个Xml配置文件,该文件中的配置列表的每个配置项包含所用JS脚本文件的路径,JS脚本函数的名称,在***中的操作描述信息。
对于不同的刊物配置不同的Js脚本文件,对于公用的功能,提取为通用的JS脚本文件。
根据元数据信息的特征规律,编写匹配严格程度不同的正则表达式:
1)对于特征标记明显,位置固定的元数据信息,编写匹配严格程度高的正则表达式;
2)对于特征信息一般,但是出现频率较高的元数据信息,编写匹配严格程度中等的正则表达式;
3)对于特征信息不明显或是杂乱的元数据信息,编写匹配严格程度低的正则表达式。
进一步,步骤(1)中,根据匹配严格程度的不同,将正则表达式进行分组,匹配时会自动根据输入的阈值按相应的匹配严格程度进行筛选。
步骤(1)中,对于格式特征相对固定的元数据,编写算法相对固定的模板,如果想扩大元数据提取的范围,则对模板进行简单的关键词扩充。
步骤(1)中,根据刊物排版的规律自行地对匹配模板添加相应的关键字,或是设置相应的提取等级。
进一步,步骤(4)中,***根据刊物配置初始化提取界面菜单,用户通过界面进行单独提取或是批量提取。
步骤(4)中,***根据刊物的配置信息设置不同的提取级别界面。
进一步,步骤(5)中,利用VC通过脚本接口调用JavaScript正则表达式模板对文字流进行筛选和匹配,返回匹配结果并给与用户提示,提取后的结果在界面上会以特殊颜色进行标记,以方便用户进行人工验证。
一种基于文字流的文章元数据信息自动抽取***,包括以下装置:
(1)配置文件及脚本文件编写装置:用于编写配置文件及脚本文件并将不同刊物的配置文件及脚本文件放入该刊物的配置目录下;
(2)配置文件加载装置:用于加载配置文件,***读取每个刊物的配置文件,根据配置文件中记录的信息,获得脚本文件的路径及相关脚本函数信息;
(3)加载脚本内容到引擎的装置:用于将脚本文件中的脚本函数内容读取到脚本引擎中并加以解析;
(4)提取装置:用于通过界面操作,将待抽取的文章内容以文字流的形式传给脚本文件中的正则表达式模板,进行信息提取;
(5)正则表达式匹配装置:用于调用相关脚本函数,接收传入的文字流,根据事先设置的抽取级别或阈值,调用不同的正则表达式模板对文字流进行筛选与匹配,获取结果以文字流形式进行保存;
(6)匹配结果返回装置:用于将脚本文件匹配的结果元数据以文字流形式返回***,***通过在界面上设置特殊标志,给与用户提示,方便用户进行人工验证。
本发明的效果在于,采用本发明所述的方法及***,具有以下一些优势:
1.脚本对正则表达式支持良好,且便于修改,可以被灵活调用和修改。
2.根据信息规律进行提取,减少人工操作量,加快标引速度。
3.可以设置提取等级,匹配模板根据阈值进行信息筛选过滤。
4.不同刊物可以根据其自身的排版规律进行单独的提取设置。匹配模板修改简单,只需根据报社自身的规律加入相应的关键词即可。
5.多种刊物可以共享通用的提取设置,最大程度上实现算法的公用。
6.可以全文匹配或是文章首尾匹配。
本发明之所以具有上述显著效果,原因在于:本发明根据所提取文章中某些信息出现的特征规律,编写一定的匹配模板,利用程序的方式对文章的文字流进行元数据信息的筛选与过滤,可以得到与人工方式操作基本一致的结果。而且匹配模板还可以自定义关键字,这样提取出的结果也会避免因标引人员理解不同而造成的结果上的差异。本发明也正是利用正则表达式技术,针对刊物的排版规律进行元数据信息的匹配和自动提取,只需简单的人工验证准确性,加快了信息提取速度。
附图说明
图1是本发明所述方法的流程图。
具体实施方式
下面结合说明书附图和具体实施方式对本发明作进一步的描述。
一种基于文字流的文章元数据信息自动抽取***,包括以下装置:
(1)配置文件及脚本文件编写装置:用于编写配置文件及脚本文件并将不同刊物的配置文件及脚本文件放入该刊物的配置目录下;
(2)配置文件加载装置:用于加载配置文件,***读取每个刊物的配置文件,根据配置文件中记录的信息,获得脚本文件的路径及相关脚本函数信息;
(3)加载脚本内容到引擎的装置:用于将脚本文件中的脚本函数内容读取到脚本引擎中并加以解析;
(4)提取装置:用于通过界面操作,将待抽取的文章内容以文字流的形式传给脚本文件中的正则表达式模板,进行信息提取;
(5)正则表达式匹配装置:用于调用相关脚本函数,接收传入的文字流,根据事先设置的抽取级别或阈值,调用不同的正则表达式模板对文字流进行筛选与匹配,获取结果以文字流形式进行保存;
(6)匹配结果返回装置:用于将脚本文件匹配的结果元数据以文字流形式返回***,***通过在界面上设置特殊标志,给与用户提示,方便用户进行人工验证。
如图1所示,一种基于文字流的文章元数据信息自动抽取方法,包括以下步骤:
1.编写Xml配置文件及Js(JavaScript)脚本文件,将不同刊物的Xml配置文件及Js脚本文件放入该刊物的配置目录下,S11。
配置文件可以由多种编程语言来编写,本实施列中,采用Xml语言编写配置文件,每个刊物拥有一个Xml配置文件,该文件中的配置列表的每个配置项包含所用JS脚本文件的路径,JS脚本函数的名称,在***中的操作描述等信息。对于不同层次的信息(刊物信息,刊期信息,版面信息,稿件信息),可以分别配置相应的配置项。
对于不同的刊物,我们配置不同的Js脚本文件,对于公用的一些功能,可以提取为通用的JS脚本文件。
本实施例中,根据文章元数据在文字流中的特征信息,采用JavaScript语言编写JS脚本文件中的JS脚本函数(也可以采用其他的语言来编写),脚本函数中包含不同格式的正则表达式模板,每个正则表达式模板由一系列相关正则表达式组合而成,JavaScript语言编写简单,对正则表达式支持良好,可以方便的与VC进行调用。
具体来说,本实施例根据元数据信息的特征规律,编写了以下匹配严格程度不同的正则表达式:
1)对于特征标记明显,位置固定的元数据信息,可以编写较为严格的匹配,比如以“记者,通讯员,摄影”等词语为起始或结束标志的,后续或前缀的词语有很大可能性是元数据“记者”。
2)对于特征信息一般,但是出现频率较高的元数据信息,可以适当的降低匹配严格程度。比如以简称“/文,/摄”等词语为结束标志的,后续词语一般为所需元数据,虽然特征不如第一类明显,但是报社排版时出现的频率比较高,可以适当降低匹配的严格程度。
3)对于特征信息不太明显或是比较杂乱的元数据信息,可以根据具体情况设置较低的匹配的严格程度。比如以特殊字符“●,■”为标志,特征不足以判断后续词语是否为所需元数据,但是有一定的可能性,这类信息可以根据报社排版的具体情况适当安排严格程度。
另外,本实施例中,根据匹配严格程度的不同,将正则表达式进行分组,匹配时会自动根据输入的阈值按相应的匹配严格程度进行筛选。严格程度高,则提取结果准确,但是会导致部分信息完全被过滤,从而提取结果为空。如果降低严格程度,则因过滤而损失的信息会减少,但是结果正确性也会相应的降低。
对于格式特征相对固定的元数据,可以编写算法相对固定的模板,只需对模板进行简单的关键词扩充,即可扩大元数据提取的范围。
2.加载Xml配置文件,***读取每个刊物的Xml配置文件,根据Xml配置文件中记录的信息,获得Js脚本文件的路径及相关Js脚本函数信息,S12。
3.加载脚本内容到引擎:***将Js脚本文件中的脚本函数内容读取到脚本引擎中并加以解析,S13。
4.通过界面进行提取操作:***根据刊物的配置信息设置不同的提取级别界面,通过界面操作,将待抽取的文章内容以文字流的形式传给脚本文件中的正则表达式模板,进行信息提取,S14。
***根据刊物配置初始化提取界面菜单,用户可以通过界面进行单独提取或是批量提取。
使用时可以根据刊物排版的规律自行的对匹配模板添加相应的关键字,或是设置相应的提取等级,即可实现元数据的自动抽取。
5.正则表达式匹配:***调用相关脚本函数,接收传入的文字流,根据事先设置的抽取级别或阈值,调用不同的正则表达式模板对文字流进行筛选与匹配,获取结果以文字流形式进行保存,S15。
本实施例中,利用VC通过脚本接口调用JavaScript正则表达式模板对文字流进行筛选和匹配,返回匹配结果并给与用户提示。
6.返回匹配结果并给与提示:脚本文件将匹配的结果元数据以文字流形式返回***,***通过在界面上设置特殊标志,给与用户提示,方便用户进行人工验证,S16。
由于算法存在一定的误判性,对于抽取的结果,我们通过特殊标记展现给用户,用户可以方便的进行人工校验。
本发明所述的方法及***并不限于具体实施方式中所述的实施例,本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。

Claims (13)

1.一种基于文字流的文章元数据信息自动抽取方法,包括以下步骤:
(1)编写配置文件及脚本文件,将不同刊物的配置文件及脚本文件放入该刊物的配置目录下;
(2)加载配置文件,***读取每个刊物的配置文件,根据配置文件中记录的信息,获得脚本文件的路径及相关脚本函数信息;
(3)加载脚本内容到引擎:***将脚本文件中的脚本函数内容读取到脚本引擎中并加以解析;
(4)通过界面进行提取操作:通过界面操作,将待抽取的文章内容以文字流的形式传给脚本文件中的正则表达式模板,进行信息提取;
(5)正则表达式匹配:***调用相关脚本函数,接收传入的文字流,根据事先设置的抽取级别或阈值,调用不同的正则表达式模板对文字流进行筛选与匹配,获取结果以文字流形式进行保存;
(6)返回匹配结果并给与提示:脚本文件将匹配的结果元数据以文字流形式返回***,***通过在界面上设置特殊标志,给与用户提示,方便用户进行人工验证。
2.如权利要求1所述的一种基于文字流的文章元数据信息自动抽取方法,其特征是:所述的配置文件是Xml格式的,所述的脚本文件是JavaScript脚本文件。
3.如权利要求2所述的一种基于文字流的文章元数据信息自动抽取方法,其特征是:步骤(1)中,每个刊物拥有一个Xml配置文件,该文件中的配置列表的每个配置项包含所用JS脚本文件的路径,JS脚本函数的名称,在***中的操作描述信息。
4.如权利要求3所述的一种基于文字流的文章元数据信息自动抽取方法,其特征是:步骤(1)中,对于不同的刊物配置不同的Js脚本文件,对于公用的功能,提取为通用的JS脚本文件。
5.如权利要求4所述的一种基于文字流的文章元数据信息自动抽取方法,其特征是:步骤(1)中,根据元数据信息的特征规律,编写匹配严格程度不同的正则表达式:
1)对于特征标记明显,位置固定的元数据信息,编写匹配严格程度高的正则表达式;
2)对于特征信息一般,但是出现频率较高的元数据信息,编写匹配严格程度中等的正则表达式;
3)对于特征信息不明显或是杂乱的元数据信息,编写匹配严格程度低的正则表达式。
6.如权利要求5所述的一种基于文字流的文章元数据信息自动抽取方法,其特征是:步骤(1)中,根据匹配严格程度的不同,将正则表达式进行分组,匹配时会自动根据输入的阈值按相应的匹配严格程度进行筛选。
7.如权利要求6所述的一种基于文字流的文章元数据信息自动抽取方法,其特征是:步骤(1)中,对于格式特征相对固定的元数据,编写算法相对固定的模板,如果想扩大元数据提取的范围,则对模板进行简单的关键词扩充。
8.如权利要求6所述的一种基于文字流的文章元数据信息自动抽取方法,其特征是:步骤(1)中,根据刊物排版的规律自行地对匹配模板添加相应的关键字,或是设置相应的提取等级。
9.如权利要求1至8之一所述的一种基于文字流的文章元数据信息自动抽取方法,其特征是:步骤(4)中,***根据刊物配置初始化提取界面菜单,用户通过界面进行单独提取或是批量提取。
10.如权利要求9所述的一种基于文字流的文章元数据信息自动抽取方法,其特征是:步骤(4)中,***根据刊物的配置信息设置不同的提取级别界面。
11.如权利要求1至8之一所述的一种基于文字流的文章元数据信息自动抽取方法,其特征是:步骤(5)中,利用VC通过脚本接口调用JavaScript正则表达式模板对文字流进行筛选和匹配,返回匹配结果并给与用户提示,提取后的结果在界面上会以特殊颜色进行标记,以方便用户进行人工验证。
12.一种基于文字流的文章元数据信息自动抽取***,包括以下装置:
(1)配置文件及脚本文件编写装置:用于编写配置文件及脚本文件并将不同刊物的配置文件及脚本文件放入该刊物的配置目录下;
(2)配置文件加载装置:用于加载配置文件,***读取每个刊物的配置文件,根据配置文件中记录的信息,获得脚本文件的路径及相关脚本函数信息;
(3)加载脚本内容到引擎的装置:用于将脚本文件中的脚本函数内容读取到脚本引擎中并加以解析;
(4)提取装置:用于通过界面操作,将待抽取的文章内容以文字流的形式传给脚本文件中的正则表达式模板,进行信息提取;
(5)正则表达式匹配装置:用于调用相关脚本函数,接收传入的文字流,根据事先设置的抽取级别或阈值,调用不同的正则表达式模板对文字流进行筛选与匹配,获取结果以文字流形式进行保存;
(6)匹配结果返回装置:用于将脚本文件匹配的结果元数据以文字流形式返回***,***通过在界面上设置特殊标志,给与用户提示,方便用户进行人工验证。
13.如权利要求12所述的一种基于文字流的文章元数据信息自动抽取***,其特征在于:所述的配置文件是Xml格式的,所述的脚本文件是JavaScript脚本文件。
CN 200810119832 2008-09-11 2008-09-11 一种基于文字流的文章元数据信息自动抽取方法及*** Expired - Fee Related CN101673256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200810119832 CN101673256B (zh) 2008-09-11 2008-09-11 一种基于文字流的文章元数据信息自动抽取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200810119832 CN101673256B (zh) 2008-09-11 2008-09-11 一种基于文字流的文章元数据信息自动抽取方法及***

Publications (2)

Publication Number Publication Date
CN101673256A true CN101673256A (zh) 2010-03-17
CN101673256B CN101673256B (zh) 2012-10-31

Family

ID=42020486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200810119832 Expired - Fee Related CN101673256B (zh) 2008-09-11 2008-09-11 一种基于文字流的文章元数据信息自动抽取方法及***

Country Status (1)

Country Link
CN (1) CN101673256B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760159A (zh) * 2012-06-06 2012-10-31 广州坚和网络科技有限公司 一种用于移动终端屏幕的杂志式文章全文混排方法
CN102982027A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 提取文档中内容的方法和装置
CN103092817A (zh) * 2013-01-18 2013-05-08 五八同城信息技术有限公司 一种基于脚本引擎的数据采集方法和装置
CN103136258A (zh) * 2011-11-30 2013-06-05 北大方正集团有限公司 知识条目的提取方法和装置
CN103605761A (zh) * 2013-11-25 2014-02-26 方正国际软件有限公司 基于模板的数据录入装置和基于模板的数据录入方法
CN104462158A (zh) * 2013-09-25 2015-03-25 北大方正集团有限公司 数据抓取方法和数据抓取***
CN105354177A (zh) * 2015-09-28 2016-02-24 四川长虹电器股份有限公司 一种数据处理***和一种数据处理方法
CN106649312A (zh) * 2015-10-29 2017-05-10 北京北方微电子基地设备工艺研究中心有限责任公司 日志文件的分析方法和***
CN108009137A (zh) * 2017-12-22 2018-05-08 中科鼎富(北京)科技发展有限公司 一种基于配置文件的规范文书处理方法、装置及***
CN109542555A (zh) * 2018-10-26 2019-03-29 深圳点猫科技有限公司 一种实现教育应用国际化的编程实现方法及装置
CN109542895A (zh) * 2018-10-25 2019-03-29 北京开普云信息科技有限公司 一种基于元数据自定义扩展的资源管理方法及***
CN110399529A (zh) * 2019-07-23 2019-11-01 福建奇点时空数字科技有限公司 一种基于深度学习技术的数据实体抽取方法
CN111131000A (zh) * 2019-12-24 2020-05-08 北京达佳互联信息技术有限公司 一种信息传输方法、装置、服务器、终端
CN113591147A (zh) * 2021-07-30 2021-11-02 平安普惠企业管理有限公司 一种数据抽取的方法、装置、计算机设备及存储介质
CN113779065A (zh) * 2021-08-23 2021-12-10 深圳价值在线信息科技股份有限公司 数据比对的验证方法、装置、终端设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1088011A (zh) * 1993-12-13 1994-06-15 张节容 多文种电子文稿的模板校对方法和装置
CN100489854C (zh) * 2006-08-01 2009-05-20 华为技术有限公司 一种自然语言的搜索方法及***

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982027A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 提取文档中内容的方法和装置
CN103136258A (zh) * 2011-11-30 2013-06-05 北大方正集团有限公司 知识条目的提取方法和装置
CN103136258B (zh) * 2011-11-30 2016-08-17 北大方正集团有限公司 知识条目的提取方法和装置
CN102760159B (zh) * 2012-06-06 2015-04-15 广州坚和网络科技有限公司 一种用于移动终端屏幕的杂志式文章全文混排方法
CN102760159A (zh) * 2012-06-06 2012-10-31 广州坚和网络科技有限公司 一种用于移动终端屏幕的杂志式文章全文混排方法
CN103092817A (zh) * 2013-01-18 2013-05-08 五八同城信息技术有限公司 一种基于脚本引擎的数据采集方法和装置
CN104462158A (zh) * 2013-09-25 2015-03-25 北大方正集团有限公司 数据抓取方法和数据抓取***
CN103605761A (zh) * 2013-11-25 2014-02-26 方正国际软件有限公司 基于模板的数据录入装置和基于模板的数据录入方法
CN105354177A (zh) * 2015-09-28 2016-02-24 四川长虹电器股份有限公司 一种数据处理***和一种数据处理方法
CN106649312B (zh) * 2015-10-29 2019-10-29 北京北方华创微电子装备有限公司 日志文件的分析方法和***
CN106649312A (zh) * 2015-10-29 2017-05-10 北京北方微电子基地设备工艺研究中心有限责任公司 日志文件的分析方法和***
CN108009137A (zh) * 2017-12-22 2018-05-08 中科鼎富(北京)科技发展有限公司 一种基于配置文件的规范文书处理方法、装置及***
CN108009137B (zh) * 2017-12-22 2021-01-29 鼎富智能科技有限公司 一种基于配置文件的规范文书处理方法、装置及***
CN109542895A (zh) * 2018-10-25 2019-03-29 北京开普云信息科技有限公司 一种基于元数据自定义扩展的资源管理方法及***
CN109542895B (zh) * 2018-10-25 2019-12-06 北京开普云信息科技有限公司 一种基于元数据自定义扩展的资源管理方法及***
CN109542555A (zh) * 2018-10-26 2019-03-29 深圳点猫科技有限公司 一种实现教育应用国际化的编程实现方法及装置
CN110399529A (zh) * 2019-07-23 2019-11-01 福建奇点时空数字科技有限公司 一种基于深度学习技术的数据实体抽取方法
CN111131000A (zh) * 2019-12-24 2020-05-08 北京达佳互联信息技术有限公司 一种信息传输方法、装置、服务器、终端
CN111131000B (zh) * 2019-12-24 2022-01-25 北京达佳互联信息技术有限公司 一种信息传输方法、装置、服务器、终端
CN113591147A (zh) * 2021-07-30 2021-11-02 平安普惠企业管理有限公司 一种数据抽取的方法、装置、计算机设备及存储介质
CN113779065A (zh) * 2021-08-23 2021-12-10 深圳价值在线信息科技股份有限公司 数据比对的验证方法、装置、终端设备及介质

Also Published As

Publication number Publication date
CN101673256B (zh) 2012-10-31

Similar Documents

Publication Publication Date Title
CN101673256B (zh) 一种基于文字流的文章元数据信息自动抽取方法及***
AU2017320475B2 (en) Automated document filing and processing methods and systems
US20160055376A1 (en) Method and system for identification and extraction of data from structured documents
CN107229750B (zh) 表格数据处理方法、装置、存储介质和处理器
CN111352898A (zh) 一种药品申报文档的智能归档方法和***
US20180131834A1 (en) Image filing method
CN104346415A (zh) 图像文档命名的方法
CN102576362B (zh) 设置元数据的方法、设置元数据的***以及程序
CN104424271A (zh) 出版物数字资源的自动采集方法及***
CN111353280A (zh) 一种对pdf药品文档进行超链接编辑的方法和***
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
Böschen Software review: The JATSdecoder package—extract metadata, abstract and sectioned text from NISO-JATS coded XML documents; Insights to PubMed central’s open access database
US11010978B2 (en) Method and system for generating augmented reality interactive content
Hebert et al. PIVAJ: displaying and augmenting digitized newspapers on the web experimental feedback from the" Journal de Rouen" collection
Grønvik et al. What should the electronic dictionary do for you–and how?
CN111144069B (zh) 一种基于表格的目录排版方法、装置及存储介质
CN101231574A (zh) 编辑和打印***、编辑***和方法
US8392829B2 (en) Modular documentation using a playlist model
Sojka Digitization Workflow in the Czech Digital Mathematics Library
CN113326685B (zh) 一种由数据库驱动的排版方法和装置
US20230342385A1 (en) Method for analyzing document for desired content and exracting same, electronic device employing method, and non-transitory storage medium
Lyding et al. The OPATCH corpus platform–facing heterogeneous groups of texts and users
Papadoperakis The automation project at Library B of Thrace University
Ahas et al. The Indian National Bibliography: Today and tomorrow
CN110457659B (zh) 条款文档生成方法及终端设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220620

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, fangzheng building, 298 Fu Cheng Road, Beijing, Haidian District

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121031