CN109492100B - 一种非结构信息处理与资源管理*** - Google Patents

一种非结构信息处理与资源管理*** Download PDF

Info

Publication number
CN109492100B
CN109492100B CN201811290541.7A CN201811290541A CN109492100B CN 109492100 B CN109492100 B CN 109492100B CN 201811290541 A CN201811290541 A CN 201811290541A CN 109492100 B CN109492100 B CN 109492100B
Authority
CN
China
Prior art keywords
data
information
control
processing
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811290541.7A
Other languages
English (en)
Other versions
CN109492100A (zh
Inventor
李刚
石淮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Yudear Technology Co ltd
Original Assignee
Wuhan Yudear Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Yudear Technology Co ltd filed Critical Wuhan Yudear Technology Co ltd
Priority to CN201811290541.7A priority Critical patent/CN109492100B/zh
Publication of CN109492100A publication Critical patent/CN109492100A/zh
Application granted granted Critical
Publication of CN109492100B publication Critical patent/CN109492100B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明属于非结构信息与资源处理技术领域,尤其涉及一种非结构信息处理与资源管理***。本发明利用自定义的处理策略以及规则处理方案,形成了灵活快捷的数据采集和处理方案,同时能够对非结构性信息数据进行有效分析处理;能够有效降低用户学习使用的成本,提高非结构性信息数据处理效率。

Description

一种非结构信息处理与资源管理***
技术领域
本发明属于非结构信息与资源处理技术领域,尤其涉及一种非结构信息处理与资源管理***。
背景技术
随着社会经济的发展,人们需要面对越来越庞大的数据处理需求,而信息技术以及自动化控制技术的应用,大大提高实际工作生活中规划和管理的效率,相对而言,传统的生产加工活动主要涉及的是常规数据、表格等结构性数据,由于这些数据具有规范性的书写方式以及特定的数据存储点,能够方便的应用自动分析技术抽取和分类这些结构性信息数据,对结构性信息数据的处理以及研究也是数据处理中的主要部分。
但另一方面,随着人们经济生活的提高,社会对精神生活以及文化生活的重视程度也越来越高,大到整个城市间的文化生活的规划,小到街道区域的小型文化活动,其数量以及体量也不断增大,这一方面得益于文化艺术的发展繁荣,也少不了相应的规划分析工作,与传统生活工作不同,文化类等特殊类活动除了少部分涉及具体的时间数量之外,还包含有大量的非结构性信息数据,特别是在用于效果的规划预期,质量的评估分析等内容时,由于个体的片面性,需要从大批量的人群中收集相应的数据信息进行综合评价,而这些评价分析数据基本都是体量以及数量不等的非结构性数据信息,这些非结构性信息数据由于受到个体语言特点以及自身理解的差异,难以有效的进行统一和处理,这为上述工作生活内容的有效执行带来了困难。
发明内容
本发明创造的目的在于,提供一种能够更方便的处理非结构性信息数据,以提高非结构性信息数据的处理效率,降低工作难度的非结构信息处理与资源管理***。
为实现上述目的,本发明创造采用如下技术方案。
一种非结构信息处理与资源管理***,由信息管理模块、信息处理模块以及数据采集模块构成;
信息管理模块,包括用于实现词库管理操作以实现词库的快速更新,包括修改、增删、检索词语的词库控件;用于实现数据源的增删查找的数据源控件;用于设置不同分类规则以对信息进行分类,包括增删、修改和查找规则的规则控件;用于配置文本分析功能,根据分词或者其他策略的组合形成或者修改信息处理的策略模式的策略控件;用于根据数据源以及策略配置,建立新的任务,并调用相应的数据源以及策略模型,对数据源进行相应的策略处理,并输出相应的数据结果的任务控件;
信息处理模块,包括用于对信息进行自动分词,并完成关键信息提取的提取控件;用于完成文本转换、聚类以及对比的处理控件;提取控件采用规则匹配以及模型匹配对文本信息进行自动分词处理,并对词语进行词性标注,同时提取文本的关键字词和关键句作为摘要以便于快速阅览;
处理控件还用于根据用户输入的路径录入信息文件,并根据操作历史形成日志文件;日志文件用于支持文件的持续更新读取等;
在具体实施过程中,各处理控件表现为可编辑的下拉窗口或者链接至相应数据库的超文本编辑栏;
分词处理还包括将信息数据中的文本进行分割处理,以将其划分为一个或者多个具有完整语义的字词单元,同时根据自定义或者用户输入或者调取频率进行优先级提取,以便于优先获取高频的关键词,快速形成关键词摘要;以及,基于规则处理以及统计方法相结合,从非结构信息中获取特定的地名、人名、号码等实体数据;
数据采集模块,包括用于从数据源中采集数据,调用文本分析服务器相应的服务对数据进行自动处理,并将数据处理结果进行存储的数据采集控件;以及,用于利用规范性数据文件对数据信息进行修正和补充,或者进行定义数据的录入和修正;以实现对已采集数据进行定义的数据定义控件。
对上述方案的进一步优化还包括,任务包括对同一个数据源进行多个策略处理的组合,通常包含有多个批量或者连续性的文件操作内容,即一般情况下某一项或者多项任务会与该任务相应的数据源进行绑定,对数据源进行单一或者多路策略处理;在任务管理过程中,任务控制器控制液面与业务的交互内容,执行策略处理的具体内容并返回结果。
对上述方案的进一步优化还包括,词库控件还用于根据用户的需求和设置添加新的空白词库,并对词库内字词进行编辑;还用于根据用户指定目录利用规范文件录入或生成已有词库数据;还用于对已生成的词库进行打包编辑以导出生成规范的词库文件;还用于控制词库数据的启用和停用,以控制词库的可用状态;在具体实施过程中,信息模块中各控件表现为可编辑的框体或者按钮;具体而言,词库控件根据用户需求进行分压查询以及查询结果的显示,之后通过用户的输入调用文本控制器分别生成新的词库和录入;在生成过程中调用函数查询词库存在状态,当词库存在时,采用默认循环追加后缀或者主动命名的方式生成新词库的名称,再对词库进行操作之前也会对相应的词库进行检索以确认状态。
对上述方案的进一步优化还包括,所述规范性数据文件是指含有基础数据信息以及词性、词频等信息;用于后序对非结构性数据进行分析处理的补充数据。
对上述方案的进一步优化还包括,词库控件表现为可编辑的表格或者窗口,表格栏或者窗口区中可直接调用文本编辑器。
其有益效果在于:
本发明利用自定义的处理策略以及规则处理方案,形成了灵活快捷的数据采集和处理方案,同时能够对非结构性信息数据进行有效分析处理;能够有效降低用户学习使用的成本,提高非结构性信息数据处理效率。
附图说明
图1是本发明的一种非结构信息处理与资源管理***的框架图;
图2是实施例中处理控件的流程示意图。
具体实施方式
以下结合具体实施例对本发明创造作详细说明。
本发明的一种非结构信息处理与资源管理***;由信息管理模块、信息处理模块以及数据采集模块构成。
信息管理模块,包括用于实现词库管理操作以实现词库的快速更新,包括修改、增删、检索词语的词库控件;用于实现数据源的增删查找的数据源控件;用于设置不同分类规则以对信息进行分类,包括增删、修改和查找规则的规则控件;用于配置文本分析功能,根据分词或者其他策略的组合形成或者修改信息处理的策略模式的策略控件;用于根据数据源以及策略配置,建立新的任务,并调用相应的数据源以及策略模型,对数据源进行相应的策略处理,并输出相应的数据结果的任务控件。
其中,任务是指对同一个数据源进行多个策略处理的组合,通常包含有多个批量或者连续性的文件操作内容,即一般情况下某一项或者多项任务会与该任务相应的数据源进行绑定,对数据源进行单一或者多路策略处理;在任务管理过程中,任务控制器控制液面与业务的交互内容,执行策略处理的具体内容并返回结果。
其中,词库控件还用于根据用户的需求和设置添加新的空白词库,并对词库内字词进行编辑;还用于根据用户指定目录利用规范文件录入或生成已有词库数据;还用于对已生成的词库进行打包编辑以导出生成规范的词库文件;还用于控制词库数据的启用和停用,以控制词库的可用状态;在具体实施过程中,信息模块中各控件表现为可编辑的框体或者按钮;具体而言,词库控件根据用户需求进行分压查询以及查询结果的显示,之后通过用户的输入调用文本控制器分别生成新的词库和录入;在生成过程中调用函数查询词库存在状态,当词库存在时,采用默认循环追加后缀或者主动命名的方式生成新词库的名称,再对词库进行操作之前也会对相应的词库进行检索以确认状态;具体实施过程中,词库控件表现为可编辑的表格或者窗口,表格栏或者窗口区中可直接调用文本编辑器。
信息处理模块,包括用于对信息进行自动分词,并完成关键信息提取的提取控件;用于完成文本转换、聚类以及对比的处理控件;提取控件采用规则匹配以及模型匹配对文本信息进行自动分词处理,并对词语进行词性标注,同时提取文本的关键字词和关键句作为摘要以便于快速阅览。
处理控件还用于根据用户输入的路径录入信息文件,并根据操作历史形成日志文件;日志文件用于支持文件的持续更新读取等;上述模块的基本工作流程如图2所示。
在具体实施过程中,各处理控件表现为可编辑的下拉窗口或者链接至相应数据库的超文本编辑栏。
分词处理还包括将信息数据中的文本进行分割处理,以将其划分为一个或者多个具有完整语义的字词单元,同时根据自定义或者用户输入或者调取频率进行优先级提取,以便于优先获取高频的关键词,快速形成关键词摘要;以及,基于规则处理以及统计方法相结合,从非结构信息中获取特定的地名、人名、号码等实体数据。
数据采集模块,包括用于从数据源中采集数据,调用文本分析服务器相应的服务对数据进行自动处理,并将数据处理结果进行存储的数据采集控件;以及,用于利用规范性数据文件对数据信息进行修正和补充,或者进行定义数据的录入和修正;以实现对已采集数据进行定义的数据定义控件。
其中规范性数据文件是指含有基础数据信息以及词性、词频等信息;用于后序对非结构性数据进行分析处理的补充数据。
最后应当说明的是,以上实施例仅用以说明本发明创造的技术方案,而非对本发明创造保护范围的限制,尽管参照较佳实施例对本发明创造作了详细地说明,本领域的普通技术人源应当理解,可以对本发明创造的技术方案进行修改或者等同替换,而不脱离本发明创造技术方案的实质和范围。

Claims (5)

1.一种非结构信息处理与资源管理***,其特征在于,由信息管理模块、信息处理模块以及数据采集模块构成;
信息管理模块,包括用于实现词库管理操作以实现词库的快速更新,包括修改、增删、检索词语的词库控件;用于实现数据源的增删查找的数据源控件;用于设置不同分类规则以对信息进行分类,包括增删、修改和查找规则的规则控件;用于配置文本分析功能,根据分词策略形成或者修改信息处理的策略模式的策略控件;用于根据数据源以及策略配置,建立新的任务,并调用相应的数据源以及策略模型,对数据源进行相应的策略处理,并输出相应的数据结果的任务控件;
信息处理模块,包括用于对信息进行自动分词,并完成关键信息提取的提取控件;用于完成文本转换、聚类以及对比的处理控件;提取控件采用规则匹配以及模型匹配对文本信息进行自动分词处理,并对词语进行词性标注,同时提取文本的关键字词和关键句作为摘要以便于快速阅览;
处理控件还用于根据用户输入的路径录入信息文件,并根据操作历史形成日志文件;日志文件用于支持文件的持续更新读取;
在具体实施过程中,处理控件表现为可编辑的下拉窗口或者链接至相应数据库的超文本编辑栏;
分词处理还包括将信息数据中的文本进行分割处理,以将其划分为一个或者多个具有完整语义的字词单元,同时根据自定义或者用户输入或者调取频率进行优先级提取,以便于优先获取高频的关键词,快速形成关键词摘要;以及,基于规则处理以及统计方法相结合,从非结构信息中获取特定的地名、人名、号码实体数据;
数据采集模块,包括用于从数据源中采集数据,调用文本分析服务器相应的服务对数据进行自动处理,并将数据处理结果进行存储的数据采集控件;以及,用于利用规范性数据文件对数据信息进行修正和补充,或者进行定义数据的录入和修正;以实现对已采集数据进行定义的数据定义控件。
2.根据权利要求1所述一种非结构信息处理与资源管理***,其特征在于,任务包括对同一个数据源进行多个策略处理的组合,包含有多个批量或者连续性的文件操作内容,即某一项或者多项任务会与该任务相应的数据源进行绑定,对数据源进行单一或者多路策略处理;在任务管理过程中,任务控制器控制页面与业务的交互内容,执行策略处理的具体内容并返回结果。
3.根据权利要求1所述一种非结构信息处理与资源管理***,其特征在于,词库控件还用于根据用户的需求和设置添加新的空白词库,并对词库内字词进行编辑;还用于根据用户指定目录利用规范文件录入或生成已有词库数据;还用于对已生成的词库进行打包编辑以导出生成规范的词库文件;还用于控制词库数据的启用和停用,以控制词库的可用状态;在具体实施过程中,信息模块中各控件表现为可编辑的框体或者按钮;具体而言,词库控件根据用户需求进行分压查询以及查询结果的显示,之后通过用户的输入调用文本控制器分别生成新的词库和录入;在生成过程中调用函数查询词库存在状态,当词库存在时,采用默认循环追加后缀或者主动命名的方式生成新词库的名称,再对词库进行操作之前也会对相应的词库进行检索以确认状态。
4.根据权利要求1所述一种非结构信息处理与资源管理***,其特征在于,所述规范性数据文件是指含有基础数据信息以及词性、词频信息;用于后序对非结构性数据进行分析处理的补充数据。
5.根据权利要求1所述一种非结构信息处理与资源管理***,其特征在于,词库控件表现为可编辑的表格或者窗口,表格栏或者窗口区中可直接调用文本编辑器。
CN201811290541.7A 2018-10-31 2018-10-31 一种非结构信息处理与资源管理*** Active CN109492100B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811290541.7A CN109492100B (zh) 2018-10-31 2018-10-31 一种非结构信息处理与资源管理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811290541.7A CN109492100B (zh) 2018-10-31 2018-10-31 一种非结构信息处理与资源管理***

Publications (2)

Publication Number Publication Date
CN109492100A CN109492100A (zh) 2019-03-19
CN109492100B true CN109492100B (zh) 2021-07-30

Family

ID=65691856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811290541.7A Active CN109492100B (zh) 2018-10-31 2018-10-31 一种非结构信息处理与资源管理***

Country Status (1)

Country Link
CN (1) CN109492100B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070114B (zh) * 2019-04-03 2020-11-10 奇安信科技集团股份有限公司 多规范融合的处理方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202561A (zh) * 2016-07-29 2016-12-07 北京联创众升科技有限公司 基于文本大数据的数字化应急管理案例库构建方法及装置
CN106599041A (zh) * 2016-11-07 2017-04-26 中国电子科技集团公司第三十二研究所 基于大数据平台的文本处理及检索***
CN107633084A (zh) * 2017-09-28 2018-01-26 武汉虹旭信息技术有限责任公司 基于自媒体的舆情管控***及其方法
CN107632974A (zh) * 2017-08-08 2018-01-26 夏振宇 适用于多领域的中文分析平台

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146361B2 (en) * 2003-05-30 2006-12-05 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND)

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202561A (zh) * 2016-07-29 2016-12-07 北京联创众升科技有限公司 基于文本大数据的数字化应急管理案例库构建方法及装置
CN106599041A (zh) * 2016-11-07 2017-04-26 中国电子科技集团公司第三十二研究所 基于大数据平台的文本处理及检索***
CN107632974A (zh) * 2017-08-08 2018-01-26 夏振宇 适用于多领域的中文分析平台
CN107633084A (zh) * 2017-09-28 2018-01-26 武汉虹旭信息技术有限责任公司 基于自媒体的舆情管控***及其方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Structured and Interoperable Logging for the Cloud Computing Era: The Pitfalls and Benefits;Daniel Tovarnák;《 IEEE/ACM 6th International Conference on Utility and Cloud Computing》;20140505;91-98 *
基于句法语义特征的中文实体关系抽取;甘丽新;《计算机研究与发展》;20160229(第2期);284-302 *

Also Published As

Publication number Publication date
CN109492100A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
US10635392B2 (en) Method and system for providing interface controls based on voice commands
CN102207948B (zh) 一种事件陈述句素材库的生成方法
CN107864301A (zh) 客户标签管理方法、***、计算机设备及存储介质
CN112000773B (zh) 基于搜索引擎技术的数据关联关系挖掘方法及应用
CN104021198A (zh) 基于本体语义索引的关系数据库信息检索方法及装置
CN102043793A (zh) 一种面向知识服务的推荐方法
CN113918533B (zh) 一种基于大数据方向的rcs统一消息云服务***的使用方法
CN110929007A (zh) 一种电力营销知识体系平台及应用方法
CN102880683A (zh) 一种可行性研究报告的自动网络生成***及其生成方法
CN116361487A (zh) 一种多源异构政策知识图谱构建和存储方法及***
CN112445894A (zh) 基于人工智能的商务智能***及其分析方法
CN114579104A (zh) 数据分析场景的生成方法、装置、设备及存储介质
JPH11161670A (ja) 情報フィルタリング方法、装置及びシステム
CN109492100B (zh) 一种非结构信息处理与资源管理***
CN115438995B (zh) 一种基于知识图谱的服装定制企业的业务处理方法及设备
CN114722159B (zh) 针对数控机床制造资源的多源异构数据处理方法及***
CN116467291A (zh) 一种知识图谱存储与搜索方法及***
CN110413795A (zh) 一种数据驱动的专业知识图谱构建方法
CN112445867A (zh) 一种数据关系智能分析方法和***
CN112507213B (zh) 一种基于行为大数据分析的推荐优化的***方案的方法
CN115017271A (zh) 用于智能生成rpa流程组件块的方法及***
CN114547477A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN114612071A (zh) 一种基于知识图谱的数据管理方法
CN112559753A (zh) 一种基于业务过程管理技术的自然语言文本处理与分析任务的管理框架
CN113342844A (zh) 工业智能搜索***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant