CN109408688A - 一种非结构化数据标注管理方法及*** - Google Patents

一种非结构化数据标注管理方法及*** Download PDF

Info

Publication number
CN109408688A
CN109408688A CN201811208798.3A CN201811208798A CN109408688A CN 109408688 A CN109408688 A CN 109408688A CN 201811208798 A CN201811208798 A CN 201811208798A CN 109408688 A CN109408688 A CN 109408688A
Authority
CN
China
Prior art keywords
module
data
label
unstructured data
unstructured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811208798.3A
Other languages
English (en)
Inventor
邓炽成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Zhitu Digital Research Information Technology Co Ltd
Original Assignee
Zhuhai Zhitu Digital Research Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Zhitu Digital Research Information Technology Co Ltd filed Critical Zhuhai Zhitu Digital Research Information Technology Co Ltd
Priority to CN201811208798.3A priority Critical patent/CN109408688A/zh
Publication of CN109408688A publication Critical patent/CN109408688A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种非结构化数据标注管理方法及***,包括标签管理平台,所述标签管理平台包括特征抽取模块、存储管理模块、转换加载模块、数据标签模块、访问接口模块和查询处理模块,所述标签管理平台连接端设有业务抽象模块和人工处理模块;所述数据标签模块包括标签创建模块、标签标记模块和标签存储模块;所述特征抽取模块包括文本抽取模块、图像抽取模块、音频抽取模块和视频抽取模块;所述文本抽取模块用于从文本中抽取停用词、TF‑IDF特征和关键词。本发明通过建设标签管理平台,利用数据标签模块实现描述业务属性的数据标签创建、转换、存储的“一站式”管理,提高大数据利用价值,提高垂直业务数据智能分析水平。

Description

一种非结构化数据标注管理方法及***
技术领域
本发明涉及数据管理领域,特别涉及一种非结构化数据标注管理方法及***。
背景技术
大量爬虫爬取的信息主要是各种非格式化的数据,缺乏格式化、标准化的要求,这些数据对垂直业务的分析存在多方面不完整的缺陷,会直接影响到垂直业务的分析结果。
因此,发明一种非结构化数据标注管理方法及***来解决上述问题很有必要。
发明内容
本发明的目的在于提供一种非结构化数据标注管理方法及***,通过建设标签管理平台,利用数据标签模块实现描述业务属性的数据标签创建、转换、存储的“一站式”管理,提高大数据利用价值,提高垂直业务数据智能分析水平,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种非结构化数据标注管理方法及***,包括标签管理平台,所述标签管理平台包括特征抽取模块、存储管理模块、转换加载模块、数据标签模块、访问接口模块和查询处理模块,所述标签管理平台连接端设有业务抽象模块和人工处理模块;
所述数据标签模块包括标签创建模块、标签标记模块和标签存储模块;
所述特征抽取模块包括文本抽取模块;
所述文本抽取模块用于从文本中抽取停用词、TF-IDF特征和关键词;
所述存储管理模块提供存储建模功能,可***、修改和删除非结构化数据;
所述转换加载模块用于根据提取的特征对常用格式的文本、图像、音频和视频数据进行自动化处理;
所述访问接口模块用于应对查询语言、应用程序和Web服务访问的接口要求;
所述查询处理模块用于提供查询结果排序和批量返回功能,并进行范围查询、全文查询、样例查询、和语义查询,利用多种查询方式对管理***中的非结构化数据进行查询;
所述业务抽象模块将业务非结构化数据抽象,制定符合业务要求的数据标准;
所述人工处理模块具体为用户终端,利用人工,根据非结构化数据处理的要求对数据进行人工处理,调整数据,使其符合业务要求的数据标准;
所述标签创建模块、标签转换模块和标签存储模块用于实现描述业务属性的数据标签创建、转换、存储的“一站式”管理。
优选的,所述存储管理模块支持整形、浮点型、布尔型、字符串、日期等基本数据类型。
优选的,所述转换加载模块对非结构化数据提供初步的自动结构化处理。
优选的,所述查询处理模块支持查询非结构化数据。
本发明还公开了一种非结构化数据标注管理方法,具体包括以下步骤:
步骤一,运作标签管理平台,当非结构化数据信息传输至标签管理平台时,存储管理模块根据非结构化数据的原始数据、基本属性、底层特征和语义特征进行存储建模,使得非结构化数据在标签管理平台内进行转化存储,可适用于标签管理平台内部的功能模块进行运算处理;
步骤二,进入标签管理平台内的非结构化处理还受业务抽象模块进行处理,将业务非结构化数据抽象,制定符合业务要求的数据标准;
步骤三,特征抽取模块对非结构化数据中的文本、图像、音频和视频数据的各类具体信息和特征进行抽取,并利用转换加载模块对文本数据提取的特征进行初步的自动化处理;
步骤四,工作人员通过用户终端,利用人工,根据非结构化数据处理的要求对数据进行人工处理,调整数据,使其符合业务要求的数据标准,通过人工的手段,将下载的非结构化数据转化为能描述业务属性的标准数据,最终实现标准化数据的输出。
步骤五,根据转换加载的非结构化数据中的文本、图像、音频和视频数据信息进行分类,并利用数据标签模块对分类后的数据进行处理,对其中描述业务属性的进行数据标签创建、转换和存储的管理,并将管理后的数据传输至用户终端内。
本发明的技术效果和优点:
1、通过建设标签管理平台,利用数据标签模块实现描述业务属性的数据标签创建、转换、存储的“一站式”管理,提高大数据利用价值,提高垂直业务数据智能分析水平;
2、通过将业务抽象,制定符合业务要求的数据标准,通过自动化和人工的手段,将下载的非结构化数据转化为能描述业务属性的标准数据,使得非结构化数据管理***运行的效率得到了大大的提升。
附图说明
图1为本发明整体结构示意图。
图2为本发明特征抽取模块结构示意图。
图3为本发明数据标签模块结构示意图。
图中:1标签管理平台、2特征抽取模块、3存储管理模块、4转换加载模块、5数据标签模块、6访问接口模块、7查询处理模块、8业务抽象模块、9人工处理模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-3所示的一种非结构化数据标注管理***,包括标签管理平台1,所述标签管理平台1包括特征抽取模块2、存储管理模块3、转换加载模块4、数据标签模块5、访问接口模块6和查询处理模块7,所述标签管理平台1连接端设有业务抽象模块8和人工处理模块9;
所述数据标签模块5包括标签创建模块、标签标记模块和标签存储模块;
所述特征抽取模块2包括文本抽取模块;
所述文本抽取模块用于从文本中抽取停用词、TF-IDF特征和关键词;
所述存储管理模块3提供涵盖原始数据、基本属性、底层特征和语义特征的概念层存储建模功能,提供逻辑层的存储建模功能,可根据建立的存储实例上***、修改和删除非结构化数据;
所述转换加载模块4用于根据提取的特征对常用格式的文本、图像、音频和视频数据进行自动化处理;
所述访问接口模块6用于应对查询语言、应用程序和Web服务访问的接口要求;
所述查询处理模块7用于提供查询结果排序和批量返回功能,并进行范围查询、全文查询、样例查询、和语义查询,利用多种查询方式对管理***中的非结构化数据进行查询;
所述业务抽象模块8将业务非结构化数据抽象,制定符合业务要求的数据标准;
所述人工处理模块9具体为用户终端,利用人工,根据非结构化数据处理的要求对数据进行人工处理,调整数据,使其符合业务要求的数据标准;
所述标签创建模块、标签标记模块和标签存储模块用于实现描述业务属性的数据标签创建、转换、存储的“一站式”管理。
所述存储管理模块3支持整形、浮点型、布尔型、字符串、日期等基本数据类型,所述转换加载模块4根据提取的特征对常用格式的文本数据进行自动化处理;所述查询处理模块7支持查询非结构化数据。
实施例2
如图1-3所示的一种非结构化数据标注管理方法,具体包括以下步骤:
步骤一,运作标签管理平台1,当非结构化数据信息传输至标签管理平台1时,存储管理模块3根据非结构化数据的原始数据、基本属性、底层特征和语义特征进行存储建模,使得非结构化数据在标签管理平台1内进行转化存储,可适用于标签管理平台1内部的功能模块进行运算处理;
步骤二,进入标签管理平台1内的非结构化处理还受业务抽象模块8进行处理,将业务非结构化数据抽象,制定符合业务要求的数据标准;
步骤三,特征抽取模块2对非结构化数据中的文本、图像、音频和视频数据的各类具体信息和特征进行抽取,并利用转换加载模块4对文本数据提取的特征进行初步的自动化处理;
步骤四,根据未能自动化处理的非结构化数据中的文本、图像、音频和视频信息进行分类,并利用数据标签模块5对分类后的数据进行处理,对其中描述业务属性的进行数据标签创建、转换和存储的管理,并将管理后的数据传输至用户终端内;
步骤五,工作人员通过用户终端,利用人工,根据非结构化数据处理的要求对数据进行人工处理,调整数据,使其符合业务要求的数据标准,通过自动化和人工的手段,将下载的非结构化数据转化为能描述业务属性的标准数据,最终实现标准化数据的输出。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种非结构化数据标注管理***,包括标签管理平台(1),其特征在于:所述标签管理平台(1)包括特征抽取模块(2)、存储管理模块(3)、转换加载模块(4)、数据标签模块(5)、访问接口模块(6)和查询处理模块(7),所述标签管理平台(1)连接端设有业务抽象模块(8)和人工处理模块(9);
所述数据标签模块(5)包括标签创建模块、标签标记模块和标签存储模块;
所述特征抽取模块(2)包括文本抽取模块;
所述文本抽取模块用于从文本中抽取停用词、TF-IDF特征和关键词;
所述存储管理模块(3)提供存储建模功能,可***、修改和删除非结构化数据;
所述转换加载模块(4)用于根据提取的特征对常用格式的文本、图像、音频和视频数据进行自动化处理;
所述访问接口模块(6)用于应对查询语言、应用程序和Web服务访问的接口要求;
所述查询处理模块(7)用于提供查询结果排序和批量返回功能,并进行范围查询、全文查询、样例查询、和语义查询,利用多种查询方式对管理***中的非结构化数据进行查询;
所述业务抽象模块(8)将业务非结构化数据抽象,制定符合业务要求的数据标准;
所述人工处理模块(9)具体为用户终端,利用人工,根据非结构化数据处理的要求对数据进行人工处理,调整数据,使其符合业务要求的数据标准;
所述标签创建模块、标签转换模块和标签存储模块用于实现描述业务属性的数据标签创建、转换、存储的“一站式”管理。
2.根据权利要求1所述的一种非结构化数据标注管理***,其特征在于:所述存储管理模块(3)支持整形、浮点型、布尔型、字符串、日期等基本数据类型。
3.根据权利要求1所述的一种非结构化数据标注管理***,其特征在于:所述转换加载模块(4)对非结构化数据提供初步的自动结构化处理。
4.根据权利要求1所述的一种非结构化数据标注管理***,其特征在于:所述查询处理模块(7)支持查询非结构化数据。
5.根据权利要求1-4任意一项所述的一种非结构化数据标注管理方法,其特征在于,具体包括以下步骤:
步骤一,运作标签管理平台(1),当非结构化数据信息传输至标签管理平台(1)时,存储管理模块(3)根据非结构化数据的原始数据、基本属性、底层特征和语义特征进行存储建模,使得非结构化数据在标签管理平台(1)内进行转化存储,可适用于标签管理平台(1)内部的功能模块进行运算处理;
步骤二,进入标签管理平台(1)内的非结构化处理还受业务抽象模块(8)进行处理,将业务非结构化数据抽象,制定符合业务要求的数据标准;
步骤三,特征抽取模块(2)对非结构化数据中的文本、图像、音频和视频数据的各类具体信息和特征进行抽取,并利用转换加载模块(4)对文本数据提取的特征进行初步的自动化处理;
步骤四,工作人员通过用户终端,利用人工,根据非结构化数据处理的要求对数据进行人工处理,调整数据,使其符合业务要求的数据标准,通过人工的手段,将下载的非结构化数据转化为能描述业务属性的标准数据,最终实现标准化数据的输出。
步骤五,根据转换加载的非结构化数据中的文本、图像、音频和视频数据信息进行分类,并利用数据标签模块(5)对分类后的数据进行处理,对其中描述业务属性的进行数据标签创建、转换和存储的管理,并将管理后的数据传输至用户终端内。
CN201811208798.3A 2018-10-17 2018-10-17 一种非结构化数据标注管理方法及*** Pending CN109408688A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811208798.3A CN109408688A (zh) 2018-10-17 2018-10-17 一种非结构化数据标注管理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811208798.3A CN109408688A (zh) 2018-10-17 2018-10-17 一种非结构化数据标注管理方法及***

Publications (1)

Publication Number Publication Date
CN109408688A true CN109408688A (zh) 2019-03-01

Family

ID=65468294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811208798.3A Pending CN109408688A (zh) 2018-10-17 2018-10-17 一种非结构化数据标注管理方法及***

Country Status (1)

Country Link
CN (1) CN109408688A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399988A (zh) * 2019-07-31 2019-11-01 中国工商银行股份有限公司 设备画像生成方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060248129A1 (en) * 2005-04-29 2006-11-02 Wonderworks Llc Method and device for managing unstructured data
US20080235289A1 (en) * 2005-04-29 2008-09-25 Wonderworks Llc Method and device for managing unstructured data
CN102591896A (zh) * 2011-01-05 2012-07-18 北京大用科技有限责任公司 非结构化数据四面体数据模型的***、实现、应用和查询语言
CN104217003A (zh) * 2014-09-15 2014-12-17 国家电网公司 一种数据建模***
CN106202292A (zh) * 2016-06-30 2016-12-07 中国电力科学研究院 一种基于结构化数据模型的标准信息分析方法
CN108021632A (zh) * 2017-11-23 2018-05-11 ***通信集团河南有限公司 非结构化数据与结构化数据相互转换处理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060248129A1 (en) * 2005-04-29 2006-11-02 Wonderworks Llc Method and device for managing unstructured data
US20080235289A1 (en) * 2005-04-29 2008-09-25 Wonderworks Llc Method and device for managing unstructured data
CN102591896A (zh) * 2011-01-05 2012-07-18 北京大用科技有限责任公司 非结构化数据四面体数据模型的***、实现、应用和查询语言
CN104217003A (zh) * 2014-09-15 2014-12-17 国家电网公司 一种数据建模***
CN106202292A (zh) * 2016-06-30 2016-12-07 中国电力科学研究院 一种基于结构化数据模型的标准信息分析方法
CN108021632A (zh) * 2017-11-23 2018-05-11 ***通信集团河南有限公司 非结构化数据与结构化数据相互转换处理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399988A (zh) * 2019-07-31 2019-11-01 中国工商银行股份有限公司 设备画像生成方法及***

Similar Documents

Publication Publication Date Title
CN109726293A (zh) 一种因果事件图谱构建方法、***、装置及存储介质
CN103631882B (zh) 基于图挖掘技术的语义化业务生成***和方法
CN101937430B (zh) 一种汉语句子中事件句式的抽取方法
CN104361018B (zh) 电子档案信息整编方法及装置
CN104679867B (zh) 基于图的地址知识处理方法及装置
CN106202292B (zh) 一种基于结构化数据模型的标准信息分析方法
CN102184217A (zh) 应急预案生成***和方法
CN113298435A (zh) 建筑业施工方案智能编制方法及其***
CN110334214A (zh) 一种自动识别案件中虚假诉讼的方法
CN109033523A (zh) 一种基于三维cad模型的装配工艺规程生成***与方法
CN112905685A (zh) 一种面向信息化建设的架构管控***及设备
CN109408688A (zh) 一种非结构化数据标注管理方法及***
CN112084248A (zh) 基于图数据库的智能数据检索查阅与模型获取方法
CN113569543B (zh) 一种核电工程自动报告生成技术的实现方法
CN102722368A (zh) 一种基于文档树和消息泵的插件式软件设计方法
CN110210025A (zh) 一种基于文本提取的转换方法
CN105468792B (zh) 一种基于大数据的模糊查询方法及***
CN101866370B (zh) 路基工程横断面设计的模板处理方法
CN109271479A (zh) 一种简历结构化处理方法
CN115374765B (zh) 一种基于自然语言处理的算力网络5g数据解析***及方法
CN116861337A (zh) 一种基于融合lstm的电力工程标签提取与识别平台
CN114997154A (zh) 一种对话机器人语料自动构造方法及***
CN113610194A (zh) 一种数字档案自动分类方法
CN109447267B (zh) 融合数据元标准的叙词本体构建方法
CN113688254A (zh) 一种航空动态信息结构化数据模型的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190301