CN115392240B - 基于文本结构的数据自动提取处理方法、装置及*** - Google Patents

基于文本结构的数据自动提取处理方法、装置及*** Download PDF

Info

Publication number
CN115392240B
CN115392240B CN202210864414.3A CN202210864414A CN115392240B CN 115392240 B CN115392240 B CN 115392240B CN 202210864414 A CN202210864414 A CN 202210864414A CN 115392240 B CN115392240 B CN 115392240B
Authority
CN
China
Prior art keywords
author
text
data
content
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210864414.3A
Other languages
English (en)
Other versions
CN115392240A (zh
Inventor
徐昆
籍文雪
高忠军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Chengdian Jinpan Health Data Technology Co ltd
Shenzhen Hospital of Southern Medical University
Original Assignee
Chengdu Chengdian Jinpan Health Data Technology Co ltd
Shenzhen Hospital of Southern Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Chengdian Jinpan Health Data Technology Co ltd, Shenzhen Hospital of Southern Medical University filed Critical Chengdu Chengdian Jinpan Health Data Technology Co ltd
Priority to CN202210864414.3A priority Critical patent/CN115392240B/zh
Publication of CN115392240A publication Critical patent/CN115392240A/zh
Application granted granted Critical
Publication of CN115392240B publication Critical patent/CN115392240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于文本结构的数据自动提取处理方法、装置及***,属于电数字数据处理技术领域,首先按行处理模式读取数据,在定义文本内容识别字符集、文本内容类别识别字符集及目标识别字符集基础上自动提取数据字段值,加入了特定结构化识别字符识别多行作者地址用以确定第一作者的所有地址,对自动提取的数据字段值重新组合以形成结构化的数据集合并统一存储展示。本发明突破了Web of Science平台无法筛选所属机构第一作者或通讯作者的限制,通过开发一种数据自动提取和处理方法,有效解决了人工处理费时费力且不准确的问题,同时构建了精准的论文数据库以便后续分析与管理。

Description

基于文本结构的数据自动提取处理方法、装置及***
技术领域
本发明属于电数字数据处理技术领域,具体涉及一种基于文本结构的数据自动提取处理方法、装置及***。
背景技术
Web of Science是独立于出版商的全球著名引文数据库,索引和存档记录可以追溯至1900年,收录了21100多种经过同行评审的高质量期刊,内容涵盖250多个自然科学、技术、社会科学、生物医学、化学、人文艺术等领域。其SCI-E数据库被国内很多学校、医院等单位作为个人或机构科研评价的重要参考数据来源,通过SCI-E数据库统计并分析论文发表情况是图情人员或科研管理工作者的重要工作内容。单位人才聘用、科研考核及奖励,同时精准定位重点学科/优势学科,发展潜力学科,挖掘高影响力、高潜力研究人员等,均需要以第一作者或通讯作者为论文为分析基础,但是Web of Science数据库检索后无法直接进行筛选,需要人工对检索结果进行筛选后统计,费时费力且不准确。
因此,现阶段需设计一种基于文本结构的数据自动提取处理方法、装置及***,来解决以上问题。
发明内容
本发明目的在于提供一种基于文本结构的数据自动提取处理方法、装置及***,用于解决上述现有技术中存在的技术问题,Web of Science数据库检索后无法直接进行筛选,需要人工对检索结果进行筛选后统计,费时费力且不准确。本发明在Web of Science检索得到的文本数据基础上实现文本数据读取、自动提取、统一存储与展示,精准呈现发表的论文情况,形成结构化数据库。
为实现上述目的,本发明的技术方案是:
基于文本结构的数据自动提取处理方法,包括以下步骤:
S1、文本数据读取:
根据检索目的设定检索策略后对数据库进行检索,将检索到的文献信息导出,形成纯文本文件,并以行方式读取数据,将行原文存储至临时空间;
S2、文本数据自动提取:
使用关键字识别对存储至临时空间的文本内容进行处理;根据数据结构的定义自动提取数据字段值,将自动提取的数据字段值加入预设结构的识别字符后重新组合,形成带有结构化标识的数据集合;
S3、统一存储与展示:
最后将自动提取的关键数据、数据集合集中存储,形成SCI论文结构化数据库,实现对第一作者或通讯作者为论文精准统计及分析管理。
进一步的,步骤S1中文献信息导出项包括但不限于:作者、标题、来源出版物、地址、文献类型、所属机构、WoS类别。
进一步的,步骤S1中具体如下:
按照检索目的生成纯文本文件,纯文本文件内容包括“标题、作者、来源出版物、地址、通讯作者地址、文献类型、入藏号、WoS类别”,确定一篇完整文章的最后一行为“WoS类别”;定义自动提取的结果数据结构,论文数据集合为:、论文作者集合为:、作者地址集合为:、上述三者关系为:;并按文本文件的行方式读取数据,将行原文存储至临时空间等待数据分析处理。
进一步的,步骤S2中的使用关键字识别对存储至临时空间的文本内容进行处理包括但不限于:定义关键字符、分析内容数据、识别文本数据特征、分类处理文本数据。
进一步的,步骤S2中带有结构化标识的数据集合包括但不限于:文章作者集、作者地址集、通讯作者集合、通讯作者地址。
进一步的,步骤S2具体如下:
根据自动提取数据结构的值定义文本处理识别字符集为,定义文本内容识别字符集为
定义文本内容类别识别字符集为分别用来识别多行作者地址与多行通讯作者地址;
读取的文本行按定义的文本内容类别为以下四种方式识别处理,并统一至数据集合按时间存储;
(1)文本行中包含标题、来源出版物、文献类型、入藏号、WoS类别的内容,使用识别后,存储至对应的字段;
(2)文本行中包含“作者”的内容,使用识别处理后的内容再使用识别得到带用的临时作者集合,集合中第一个为第一作者,存储至对应的第一作者字段,然后遍历临时作者集合过程中使用识别符格式化作者名称,将作者结果集合存储至作者集合中;
(3)文本行中首个包含“地址”的内容,使用识别处理后增加识别字符用于对“地址”内容后的多行含有作者地址内容识别处理,再使用识别得到作者地址,存储至对应的第一作者地址字段中,同时存储至作者地址集合中,并使用集合值与作者地址内容比较,若包含则将对应的字段值置为true,否则为false;若文本行中不包含集合中的值则使用集合的值来识别,包含集合值则说明该行是作者地址内容,并按前面的步骤处理;从中获取第一作者,再使用集合识别判断是否为第一作者地址并处理;
(4)文本行中包含“通讯作者地址”的内容,使用识别处理后的内容存储至对应的字段的值,再使用集合值与作者地址内容比较若包含则将对应的字段值置为true,否则为false;并存储至对应的字段中。
进一步的,步骤S3具体如下:
完成文本文件的读取与处理后将存储在三个结构化存储集合中的数据统一存储至数据库中,并将数据集中每个字段的含义结构化输出,展示自动提取与统计后的结果内容。
基于文本结构的数据自动提取处理装置,用于采用如上述的基于文本结构的数据自动提取处理方法进行数据自动提取处理。
基于图像识别的食品包装实时检测***,包括如上述的基于文本结构的数据自动提取处理装置,还包括云计算服务器,所述数据自动提取处理装置与所述云计算服务器之间进行数据交互。
与现有技术相比,本发明所具有的有益效果为:
本方案其中一个有益效果在于,本发明开发了一种基于Web of Science文献信息文本结构的数据自动提取和处理方法,首先按行处理模式读取数据,在定义文本内容识别字符集、文本内容类别识别字符集及识别字符集基础上自动提取数据字段值,加入了预设结构的识别字符识别多行作者地址用以确定第一作者的所有地址,对自动提取的数据字段值重新组合以形成结构化的数据集合并统一存储展示。本发明突破了Web of Science平台无法筛选所属机构第一作者或通讯作者的限制,通过开发一种数据自动提取和处理方法,有效解决了人工处理费时费力且不准确的问题,同时构建了所属单位精准的论文数据库以便后续分析与管理。
附图说明
图1为本申请实施例的步骤流程示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
而且,术语“包括”,“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程,方法,物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程,方法,物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程,方法,物品或者设备中还存在另外的相同要素。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
Web of Science数据库检索后无法直接进行筛选,需要人工对检索结果进行筛选后统计,费时费力且不准确。本发明在Web of Science检索得到的文本数据基础上实现文本数据读取、自动提取、统一存储与展示,精准呈现发表的论文情况,形成结构化数据库。
如图1所示,提出一种基于Web of Science文本结构的数据自动提取处理方法,包括文本数据读取、文本数据处理自动提取关键数据、统一存储与展示。
文本数据读取是根据检索目的设定检索策略后对数据库进行检索,将检索到的文献信息导出,文献信息导出项主要包括“作者、标题、来源出版物、地址、文献类型、所属机构、WoS类别”等,形成纯文本文件,并以行方式读取数据,将行原文存储至临时空间。
文本数据处理是使用关键字识别对存储至临时空间的文本内容进行处理,主要包括定义关键字符、分析内容数据、识别文本数据特征、分类处理文本数据。
根据数据结构的定义自动提取数据字段值,将自动提取的数据字段值加入预设结构的识别字符后重新组合,形成文章作者集、作者地址集、通讯作者集合、通讯作者地址等带有结构化标识的数据集合。最后将自动提取的关键数据、数据集合集中存储,形成SCI论文结构化数据库,实现对第一作者或通讯作者为论文精准统计及分析管理。
第一步:文本数据读取
按照检索目的生成纯文本文件,纯文本文件内容包括“标题、作者、来源出版物、地址、通讯作者地址、文献类型、入藏号、WoS类别”,确定一篇完整文章的最后一行为“WoS类别”;定义自动提取的结果数据结构,论文数据集合为:、论文作者集合为:、作者地址集合为:、上述三者关系为:;并按文本文件的行方式读取数据,将行原文存储至临时空间等待数据分析处理。
第二步:文本数据自动提取
根据自动提取数据结构的值定义文本处理识别字符集为,定义文本内容识别字符集为
定义文本内容类别识别字符集为分别用来识别多行作者地址与多行通讯作者地址;
读取的文本行按定义的文本内容类别为以下四种方式识别处理,并统一至数据集合按时间存储;
(1)文本行中包含标题、来源出版物、文献类型、入藏号、WoS类别的内容,使用识别后,存储至对应的字段;
(2)文本行中包含“作者”的内容,使用识别处理后的内容再使用识别得到带用的临时作者集合,集合中第一个为第一作者,存储至对应的第一作者字段,然后遍历临时作者集合过程中使用识别符格式化作者名称,将作者结果集合存储至作者集合中;
(3)文本行中首个包含“地址”的内容,使用识别处理后增加识别字符用于对“地址”内容后的多行含有作者地址内容识别处理,再使用识别得到作者地址,存储至对应的第一作者地址字段中,同时存储至作者地址集合中,并使用集合值与作者地址内容比较,若包含则将对应的字段值置为true,否则为false;若文本行中不包含集合中的值则使用集合的值来识别,包含集合值则说明该行是作者地址内容,并按前面的步骤处理;从中获取第一作者,再使用集合识别判断是否为第一作者地址并处理;
(4)文本行中包含“通讯作者地址”的内容,使用识别处理后的内容存储至对应的字段的值,再使用集合值与作者地址内容比较若包含则将对应的字段值置为true,否则为false;并存储至对应的字段中。
第三步:统一存储与展示
完成文本文件的读取与处理后将存储在三个结构化存储集合中的数据统一存储至数据库中,并将数据集中每个字段的含义结构化输出,展示自动提取与统计后的结果内容。
综上所述,本发明开发了一种基于Web of Science文献信息文本结构的数据自动提取和处理方法,首先按行处理模式读取数据,在定义文本内容识别字符集、文本内容类别识别字符集及识别字符集基础上自动提取数据字段值,加入了预设结构的识别字符识别多行作者地址用以确定第一作者的所有地址,对自动提取的数据字段值重新组合以形成结构化的数据集合并统一存储展示。本发明突破了Web of Science平台无法筛选所属机构第一作者或通讯作者的限制,通过开发一种数据自动提取和处理方法,有效解决了人工处理费时费力且不准确的问题,同时构建了精准的论文数据库以便后续分析与管理。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (2)

1.基于文本结构的数据自动提取处理方法,其特征在于,包括以下步骤:
S1、文本数据读取:
根据检索目的设定检索策略后对数据库进行检索,将检索到的文献信息导出,形成纯文本文件,并以行方式读取数据,将行原文存储至临时空间;
S2、文本数据自动提取:
使用关键字识别对存储至临时空间的文本内容进行处理;根据数据结构的定义自动提取数据字段值,将自动提取的数据字段值加入预设结构的识别字符后重新组合,形成带有结构化标识的数据集合;
S3、统一存储与展示:
最后将自动提取的关键数据、数据集合集中存储,形成SCI论文结构化数据库,实现对第一作者或通讯作者为论文精准统计及分析管理;
步骤S1中文献信息导出项包括但不限于:作者、标题、来源出版物、地址、文献类型、所属机构、WoS类别;
步骤S1中具体如下:
按照检索目的生成纯文本文件,纯文本文件内容包括“标题、作者、来源出版物、地址、通讯作者地址、文献类型、入藏号、WoS类别”,确定一篇完整文章的最后一行为“WoS类别”;定义自动提取的结果数据结构,论文数据集合为:、论文作者集合为:、作者地址集合为:、上述三者关系为:;并按文本文件的行方式读取数据,将行原文存储至临时空间等待数据分析处理;
步骤S2中的使用关键字识别对存储至临时空间的文本内容进行处理包括但不限于:定义关键字符、分析内容数据、识别文本数据特征、分类处理文本数据;
步骤S2中带有结构化标识的数据集合包括但不限于:文章作者集、作者地址集、通讯作者集合、通讯作者地址;
步骤S2具体如下:
根据自动提取数据结构的值定义文本处理识别字符集为,定义文本内容识别字符集为
定义文本内容类别识别字符集为分别用来识别多行作者地址与多行通讯作者地址;
读取的文本行按定义的文本内容类别为以下四种方式识别处理,并统一至数据集合按时间存储;
(1)文本行中包含标题、来源出版物、文献类型、入藏号、WoS类别的内容,使用识别后,存储至对应的字段;
(2)文本行中包含“作者”的内容,使用识别处理后的内容再使用识别得到带用的临时作者集合,集合中第一个为第一作者,存储至对应的第一作者字段,然后遍历临时作者集合过程中使用识别符格式化作者名称,将作者结果集合存储至作者集合中;
(3)文本行中首个包含“地址”的内容,使用识别处理后增加识别字符用于对“地址”内容后的多行含有作者地址内容识别处理,再使用识别得到作者地址,存储至对应的第一作者地址字段中,同时存储至作者地址集合中,并使用集合值与作者地址内容比较,若包含则将对应的字段值置为true,否则为false;若文本行中不包含集合中的值则使用集合的值来识别,包含集合值则说明该行是作者地址内容,并按前面的步骤处理;从中获取第一作者,再使用集合识别判断是否为第一作者地址并处理;
(4)文本行中包含“通讯作者地址”的内容,使用识别处理后的内容存储至对应的字段的值,再使用集合值与作者地址内容比较若包含则将对应的字段值置为true,否则为false;并存储至对应的字段中;
步骤S3具体如下:
完成文本文件的读取与处理后将存储在三个结构化存储集合中的数据统一存储至数据库中,并将数据集中每个字段的含义结构化输出,展示自动提取与统计后的结果内容。
2.基于文本结构的数据自动提取处理装置,其特征在于,用于采用如权利要求1所述的基于文本结构的数据自动提取处理方法进行数据自动提取处理。
CN202210864414.3A 2022-07-21 2022-07-21 基于文本结构的数据自动提取处理方法、装置及*** Active CN115392240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210864414.3A CN115392240B (zh) 2022-07-21 2022-07-21 基于文本结构的数据自动提取处理方法、装置及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210864414.3A CN115392240B (zh) 2022-07-21 2022-07-21 基于文本结构的数据自动提取处理方法、装置及***

Publications (2)

Publication Number Publication Date
CN115392240A CN115392240A (zh) 2022-11-25
CN115392240B true CN115392240B (zh) 2023-04-18

Family

ID=84116295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210864414.3A Active CN115392240B (zh) 2022-07-21 2022-07-21 基于文本结构的数据自动提取处理方法、装置及***

Country Status (1)

Country Link
CN (1) CN115392240B (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412852B (zh) * 2013-08-21 2017-12-15 广东电子工业研究院有限公司 一种自动提取英文文献关键信息的方法
CN112732946B (zh) * 2019-10-12 2023-04-18 四川医枢科技有限责任公司 一种医学文献的模块化数据分析和数据库建立方法

Also Published As

Publication number Publication date
CN115392240A (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
Haustein et al. Tweets vs. Mendeley readers: How do these two social media metrics differ?
Goëau et al. A new fine‐grained method for automated visual analysis of herbarium specimens: A case study for phenological data extraction
CN111652524A (zh) 一种政策智能匹配与引导改善路径的方法与装置
CN112256762B (zh) 基于产业地图的企业画像方法、***、设备及介质
CN112700271A (zh) 一种基于标签模型的大数据画像方法及***
KR20150059208A (ko) 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법
CN114077705A (zh) 一种对社交平台上的媒体账号进行画像的方法和***
CN115312183A (zh) 医学检验报告智能解读方法及***
CN112418695A (zh) 面向烟草领域科研人员的多维度画像构建方法及推荐方法
de Lutio et al. The herbarium 2021 half–earth challenge dataset and machine learning competition
CN115392240B (zh) 基于文本结构的数据自动提取处理方法、装置及***
KR20190023503A (ko) 이미지 기반 특허 검색 장치
Panagopoulos et al. Scientometrics for success and influence in the microsoft academic graph
JP2017182391A (ja) 産学連携に利用可能な研究情報を収集して提示する研究情報提示装置、研究情報提示システム、及び、研究情報提示方法
CN112506930B (zh) 一种基于机器学习技术的数据洞察***
Dahl et al. Applications of machine learning in tabular document digitisation
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质
CN113590684A (zh) 一种非税收缴大数据分析***
Barret et al. Predicting the Environment of a Neighborhood: A Use Case for France.
CN111681776A (zh) 基于医药大数据的医药对象关系分析的方法及***
CN117251532B (zh) 一种基于动态多级匹配的大规模文献机构消歧方法
CN114331789B (zh) 一种廉洁知识智能推荐方法、装置、设备及存储介质
CN117909491B (zh) 一种基于贝叶斯网络的文献元数据解析方法及***
KR102506976B1 (ko) 논문검색 사용자 인터페이스의 표시 방법
Hadi et al. Inferring topics within social networking big data, towards an alternative for socio-political measurement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant