CN113761044A - 一种将文本标注成表格的标注***方法 - Google Patents

一种将文本标注成表格的标注***方法 Download PDF

Info

Publication number
CN113761044A
CN113761044A CN202111001283.8A CN202111001283A CN113761044A CN 113761044 A CN113761044 A CN 113761044A CN 202111001283 A CN202111001283 A CN 202111001283A CN 113761044 A CN113761044 A CN 113761044A
Authority
CN
China
Prior art keywords
data
labeling
text
label
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111001283.8A
Other languages
English (en)
Other versions
CN113761044B (zh
Inventor
杨育纯
周靖宇
钟淑仪
陈巧玲
符威
邹鸿岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Kuaique Information Technology Co ltd
Original Assignee
Shanghai Kuaique Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Kuaique Information Technology Co ltd filed Critical Shanghai Kuaique Information Technology Co ltd
Priority to CN202111001283.8A priority Critical patent/CN113761044B/zh
Priority claimed from CN202111001283.8A external-priority patent/CN113761044B/zh
Publication of CN113761044A publication Critical patent/CN113761044A/zh
Application granted granted Critical
Publication of CN113761044B publication Critical patent/CN113761044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种将文本标注成表格的标注***方法,它涉及一种标注方法。它通过导入数据模块,通过前端交互界面,将需要标注的文本数据、标签导入到后台数据库,采用两步标注方法,第一步采用传统的系列标注方法,对文本中的核心要素进行标注,确定要素的起始位置、要素内容以及要素的标签信息,并将结果传入到后台数据库,同时将要素的内容和索引ID以及标签返回到前端交互界面,第二步是结构化标注,基于回传的要素内容和标签,通过勾选加确定的交互方式,生成表格列表,再次通过索引ID进行各行数据的关联,展示成表格形态,确定表格数据无误则导入到数据库,完成一条文本的标注任务。本发明通过与Excel相比,极大提升了标注效率以及减少了错误的情况。

Description

一种将文本标注成表格的标注***方法
技术领域
本发明涉及文本标准技术领域,具体涉及一种将文本标注成表格的标注***方法。
背景技术
人工智能技术已广泛应用在科技类的各行各业。在AI领域,算法往往需要大量的标注数据,供算法模型进行学习。针对文本处理(NLP)方向,标注的主要任务有文本分类、信息抽取等将非结构或无标签的数据标注成结构化数据或打上标签。随着算法的深入发展,有越来越多细化的研究课题和方向;也有越来越多类型的标注需求。在金融领域,有一类细化的文本标注需求,即将文本标注成结构化表格的标注需求,如资金交易文本【隔夜来2e,+12bp,7D的2.5kw,给20个点,分别押352378.IB 4e 50%折扣;5000万50%的折扣,谢谢~】这是两个资金交易订单要素,需要标注成如下结构化形式。如何准确有效标注这些数据,对下游业务逻辑来说是至关重要的。
当前现有的信息抽取是自然语言处理领域中相对较为成熟的任务,也有比较成熟的序列标注方案;但是要将文本直接标注成结构化的表格形式,目前没有成熟的方案。主要用到的方法是通过文本序列标注,然后通过复制粘贴的方法,将标注要素复制到表格或者Excel等软件中,再进行整理。然而前现有的信息抽取技术存在着如下缺点,首先是标注效率低下,标注人员先要进行系列标注,将文本中的标注要素信息标注出来,再进行复制粘贴工作。这两个步骤有重复性的工作,增加了标注量,降低了标注效率。其次容易出错,由于是两个子任务融合的标注,但是重复要素的提取,在大的标注需求下,容易造成同一要素边界不统一的问题,降低了标注的数据质量。
发明内容
本发明的目的在于针对现有技术的缺陷和不足,提供将文本标注成表格的标注***方法,它通过两步走的标注方式,实现了将文本直接将数据标注成表格的任务,并基于此***,和通过与Excel相比,极大提升了标注效率以及减少了错误的情况。
为实现上述目的,本发明采用以下技术方案是:一种将文本标注成表格的标注***方法,它包括以下步骤:
步骤S1,数据导入,构建前端、后端和数据库的交互模块;
步骤S2,文本系列标注,对文本中的核心要素进行标注;
步骤S3,结构化标注,基于回传的要素内容和标签,通过勾选加确定的交互方式,生成表格列表;
步骤S,表格展示,通过步骤S1建立的数据信息进行各行数据的关联,展示成表格形态;
步骤S5,数据保存,构建保存按钮,点击将标注的结构化数据写入后台数据库,完成一条文本的全流程标注任务。
进一步的,所述的步骤S1中的前端包括文本文件导入和标签导入模块,后端用于获取文本和标签数据,对逐条数据建立唯一数据识ID,作为数据索引ID,并且与标签数据进行关联。
进一步的,所述的步骤2中的文本系列标注,包含以下步骤:
步骤一,确定要素的起始位置、要素内容以及要素的标签信息;
步骤二,将步骤一中的标签信息传入到后台数据库,同时将要素的内容和索引ID以及标签返回到前端交互界面。
进一步的,所述的步骤3中的结构化标注,包含以下步骤:
步骤一,构建实体内容展示模块;
步骤二,构建表格行生成模块,并构建生成按钮;
步骤三,构建缓冲模块,将每个实体的完整信息,按表格结构进行存储。
本发明的工作原理:
本发明构建了一套将文本直接标注成表格的标注***方法,它首先是导入数据模块,通过前端交互界面,将需要标注的文本数据、标签导入到后台数据库,其次在标注时,采用两步标注方法,第一步采用传统的系列标注方法,对文本中的核心要素进行标注,确定要素的起始位置、要素内容以及要素的标签信息,并将结果传入到后台数据库,同时将要素的内容和索引ID以及标签返回到前端交互界面。第二步是结构化标注,基于回传的要素内容和标签,通过勾选加确定的交互方式,生成表格列表。每次选中的要素定义为同一的表格数据;重复多次,生成多行表格信息。再次通过索引ID进行各行数据的关联,展示成表格形态,确定表格数据无误则导入到数据库,完成一条文本的标注任务。
采用上述技术方案后,本发明有益效果为:
1、本发明采用的标注方法采用传统的系列标注方法和结构化标注方法相结合的方式,其通过两步走的标注方式,实现了将文本直接将数据标注成表格的任务,并基于此***,和通过与Excel相比,极大提升了标注效率以及减少了错误的情况;
2、本发明不限于对金融数据的标注,可拓展到任意需要将文本标注表格的任务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的***装置架构图。
具体实施方式
参看图1所示,本具体实施方式采用的技术方案是:它包括以下步骤:
步骤S1,数据导入,构建前端、后端和数据库的交互模块;
步骤S2,文本系列标注,对文本中的核心要素进行标注;
步骤S3,结构化标注,基于回传的要素内容和标签,通过勾选加确定的交互方式,生成表格列表;
步骤S,表格展示,通过步骤S1建立的数据信息进行各行数据的关联,展示成表格形态,具体从缓存中拉取数据,进行表格展示,新增一列操作按钮,对每行信息进行删除操作。点击删除按钮,后台从缓存库中删除该行所有数据,更新前端展示。;
步骤S5,数据保存,构建保存按钮,点击将标注的结构化数据写入后台数据库,完成一条文本的全流程标注任务。
进一步的,所述的步骤S1中的前端包括文本文件导入和标签导入模块,后端用于获取文本和标签数据,对逐条数据建立唯一数据识ID,作为数据索引ID,并且与标签数据进行关联。
进一步的,所述的步骤2中的文本系列标注,包含以下步骤:
步骤一,确定要素的起始位置、要素内容以及要素的标签信息,具体实现方式为在前端构建文本展示模块,且可对文本进行选择编辑,从后端逐条拉取文本,以及对应的标签列表,展示拉取的文本,通过监听鼠标点击信号,获取用户点击光标的位置,并计算光标所在的文本位置作为起始值S1,接着获取拉动鼠标后释放点击的信号,获取光标位置并计算光标所在的文本位置,作为结束值S2,且基于S1和S2值进行计算,提取这个区间内的文本,作为标注的实体(entity)信息,同时监听用户输入的键盘字符,基于字符信息,匹配获取到相应的标签(label);
步骤二,将步骤一中的标签信息传入到后台数据库,同时将要素的内容和索引ID以及标签返回到前端交互界面,构建缓冲模块,存储文本的序列标注信息。存储内容为“开始位置S1,结束位置S2,实体内容,实体标签”。
进一步的,所述的步骤3中的结构化标注,包含以下步骤:
步骤一,构建实体内容展示模块,从缓存库中拉取标注的“实体内容”,进行可选择展示;展示状态包括“选中/未选”两种状态。;
步骤二,构建表格行生成模块,并构建生成按钮,点击后执行数据生成。生成逻辑为,基于选择模块选择的实体内容,以及缓存中实体的标签属性,以标签为列,所有选择实体内容为行,构建出新的一行结构数据;
步骤三,构建缓冲模块,将每个实体的完整信息(包括起始位置S1、S2,实体内容,实体标签)作为一个单元,按表格结构进行存储。
本实施例构建了一套将文本直接标注成表格的标注***方法,它首先是导入数据模块,通过前端交互界面,将需要标注的文本数据、标签导入到后台数据库,其次在标注时,采用两步标注方法,第一步采用传统的系列标注方法,对文本中的核心要素进行标注,确定要素的起始位置、要素内容以及要素的标签信息,并将结果传入到后台数据库,同时将要素的内容和索引ID以及标签返回到前端交互界面。第二步是结构化标注,基于回传的要素内容和标签,通过勾选加确定的交互方式,生成表格列表。每次选中的要素定义为同一的表格数据;重复多次,生成多行表格信息。再次通过索引ID进行各行数据的关联,展示成表格形态,确定表格数据无误则导入到数据库,完成一条文本的标注任务。
采用上述技术方案后,本实施例有益效果为:
1、本发明采用的标注方法采用传统的系列标注方法和结构化标注方法相结合的方式,其通过两步走的标注方式,实现了将文本直接将数据标注成表格的任务,并基于此***,和通过与Excel相比,极大提升了标注效率以及减少了错误的情况;
2、本实施例不限于对金融数据的标注,可拓展到任意需要将文本标注表格的任务。
以上所述,仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种将文本标注成表格的标注***方法,它包含烟杆和烟弹,其特征在于:它包括以下步骤:
步骤S1,数据导入,构建前端、后端和数据库的交互模块;
步骤S2,文本系列标注,对文本中的核心要素进行标注;
步骤S3,结构化标注,基于回传的要素内容和标签,通过勾选加确定的交互方式,生成表格列表;
步骤S4,表格展示,通过步骤S1建立的数据信息进行各行数据的关联,展示成表格形态;
步骤S5,数据保存,构建保存按钮,点击将标注的结构化数据写入后台数据库,完成一条文本的全流程标注任务。
2.根据权利要求1所述的一种将文本标注成表格的标注***方法,其特征在于:所述的前端包括文本文件导入和标签导入模块,后端用于获取文本和标签数据,对逐条数据建立唯一数据识ID,作为数据索引ID,并且与标签数据进行关联。
3.根据权利要求1所述的一种将文本标注成表格的标注***方法,其特征在于:所述的步骤2中的文本系列标注,包含以下步骤:
步骤一,确定要素的起始位置、要素内容以及要素的标签信息;
步骤二,将步骤一中的标签信息传入到后台数据库,同时将要素的内容和索引ID以及标签返回到前端交互界面。
4.根据权利要求1所述的一种将文本标注成表格的标注***方法,其特征在于:所述的步骤3中的结构化标注,包含以下步骤:
步骤一,构建实体内容展示模块;
步骤二,构建表格行生成模块,并构建生成按钮。
步骤三,构建缓冲模块,将每个实体的完整信息,按表格结构进行存储。
CN202111001283.8A 2021-08-30 一种将文本标注成表格的标注***方法 Active CN113761044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111001283.8A CN113761044B (zh) 2021-08-30 一种将文本标注成表格的标注***方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111001283.8A CN113761044B (zh) 2021-08-30 一种将文本标注成表格的标注***方法

Publications (2)

Publication Number Publication Date
CN113761044A true CN113761044A (zh) 2021-12-07
CN113761044B CN113761044B (zh) 2024-08-02

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543153A (zh) * 2018-11-13 2019-03-29 成都数联铭品科技有限公司 一种序列标注***及方法
WO2019237540A1 (zh) * 2018-06-12 2019-12-19 平安科技(深圳)有限公司 财政数据的获取方法、装置、终端设备及介质
WO2020108257A1 (zh) * 2018-11-28 2020-06-04 腾讯科技(深圳)有限公司 表格内容的自动分列方法、装置、计算机设备及存储介质
CN112883687A (zh) * 2021-02-05 2021-06-01 北京科技大学 一种基于合同文本标记语言的法律合同交互式标注方法
CN113177124A (zh) * 2021-05-11 2021-07-27 北京邮电大学 一种垂直领域知识图谱构建方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019237540A1 (zh) * 2018-06-12 2019-12-19 平安科技(深圳)有限公司 财政数据的获取方法、装置、终端设备及介质
CN109543153A (zh) * 2018-11-13 2019-03-29 成都数联铭品科技有限公司 一种序列标注***及方法
WO2020108257A1 (zh) * 2018-11-28 2020-06-04 腾讯科技(深圳)有限公司 表格内容的自动分列方法、装置、计算机设备及存储介质
CN112883687A (zh) * 2021-02-05 2021-06-01 北京科技大学 一种基于合同文本标记语言的法律合同交互式标注方法
CN113177124A (zh) * 2021-05-11 2021-07-27 北京邮电大学 一种垂直领域知识图谱构建方法及***

Similar Documents

Publication Publication Date Title
US8959122B2 (en) Data processing device
CN110825882A (zh) 一种基于知识图谱的信息***管理方法
CN109165384A (zh) 一种命名实体识别方法及装置
US20210357469A1 (en) Method for evaluating knowledge content, electronic device and storage medium
CA3179300C (en) Domain-specific language interpreter and interactive visual interface for rapid screening
CN100444591C (zh) 获取网页关键字的方法及其应用***
US8095575B1 (en) Word processor data organization
CN114691831B (zh) 一种基于知识图谱的任务型汽车故障智能问答***
CN109710250A (zh) 一种用于构建用户界面的可视化引擎***及方法
CN116468010A (zh) 报表生成方法、装置、终端及存储介质
CN111191429A (zh) 数据表格自动填充的***和方法
CN114579104A (zh) 数据分析场景的生成方法、装置、设备及存储介质
CN109445794A (zh) 一种页面构造方法及装置
Streit et al. A spreadsheet approach to facilitate visualization of uncertainty in information
CN115309885A (zh) 一种用于科技服务的知识图谱构建、检索和可视化方法及***
CN108766513B (zh) 一种智慧健康医疗数据结构化处理***
CN113761044B (zh) 一种将文本标注成表格的标注***方法
CN116304236A (zh) 一种用户画像生成方法、装置、电子设备和存储介质
CN117009443A (zh) 一种隐性工作流构建方法、装置、电子设备及存储介质
CN113761044A (zh) 一种将文本标注成表格的标注***方法
CN111949915A (zh) 一种遥感产品生产流程的可视化定制方法及***
WO2021240370A1 (en) Domain-specific language interpreter and interactive visual interface for rapid screening
Zhu-Tian et al. CrossData: Leveraging Text-Data Connections for Authoring Data Documents
CN102393868B (zh) 一种实现解决具有复杂计算关系的指标计算模型的方法
She et al. An automatic page code generation method based on excel template and poi technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: 411D, 4th Floor, No. 31 Fuchengmenwai Street, Xicheng District, Beijing, 100032

Applicant after: Beijing Kuaique Information Technology Co.,Ltd.

Address before: 201700 2nd floor, building 1, 485 pucang Road, Qingpu District, Shanghai

Applicant before: Shanghai Kuaique Information Technology Co.,Ltd.

Country or region before: China

GR01 Patent grant