CN109492100B

CN109492100B - 一种非结构信息处理与资源管理***

Info

Publication number: CN109492100B
Application number: CN201811290541.7A
Authority: CN
Inventors: 李刚; 石淮
Original assignee: Wuhan Yudear Technology Co ltd
Current assignee: Wuhan Yudear Technology Co ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2021-07-30
Anticipated expiration: 2038-10-31
Also published as: CN109492100A

Abstract

本发明属于非结构信息与资源处理技术领域，尤其涉及一种非结构信息处理与资源管理***。本发明利用自定义的处理策略以及规则处理方案，形成了灵活快捷的数据采集和处理方案，同时能够对非结构性信息数据进行有效分析处理；能够有效降低用户学习使用的成本，提高非结构性信息数据处理效率。

Description

一种非结构信息处理与资源管理***

技术领域

本发明属于非结构信息与资源处理技术领域，尤其涉及一种非结构信息处理与资源管理***。

背景技术

随着社会经济的发展，人们需要面对越来越庞大的数据处理需求，而信息技术以及自动化控制技术的应用，大大提高实际工作生活中规划和管理的效率，相对而言，传统的生产加工活动主要涉及的是常规数据、表格等结构性数据，由于这些数据具有规范性的书写方式以及特定的数据存储点，能够方便的应用自动分析技术抽取和分类这些结构性信息数据，对结构性信息数据的处理以及研究也是数据处理中的主要部分。

但另一方面，随着人们经济生活的提高，社会对精神生活以及文化生活的重视程度也越来越高，大到整个城市间的文化生活的规划，小到街道区域的小型文化活动，其数量以及体量也不断增大，这一方面得益于文化艺术的发展繁荣，也少不了相应的规划分析工作，与传统生活工作不同，文化类等特殊类活动除了少部分涉及具体的时间数量之外，还包含有大量的非结构性信息数据，特别是在用于效果的规划预期，质量的评估分析等内容时，由于个体的片面性，需要从大批量的人群中收集相应的数据信息进行综合评价，而这些评价分析数据基本都是体量以及数量不等的非结构性数据信息，这些非结构性信息数据由于受到个体语言特点以及自身理解的差异，难以有效的进行统一和处理，这为上述工作生活内容的有效执行带来了困难。

发明内容

本发明创造的目的在于，提供一种能够更方便的处理非结构性信息数据，以提高非结构性信息数据的处理效率，降低工作难度的非结构信息处理与资源管理***。

为实现上述目的，本发明创造采用如下技术方案。

一种非结构信息处理与资源管理***，由信息管理模块、信息处理模块以及数据采集模块构成；

信息管理模块，包括用于实现词库管理操作以实现词库的快速更新，包括修改、增删、检索词语的词库控件；用于实现数据源的增删查找的数据源控件；用于设置不同分类规则以对信息进行分类，包括增删、修改和查找规则的规则控件；用于配置文本分析功能，根据分词或者其他策略的组合形成或者修改信息处理的策略模式的策略控件；用于根据数据源以及策略配置，建立新的任务，并调用相应的数据源以及策略模型，对数据源进行相应的策略处理，并输出相应的数据结果的任务控件；

信息处理模块，包括用于对信息进行自动分词，并完成关键信息提取的提取控件；用于完成文本转换、聚类以及对比的处理控件；提取控件采用规则匹配以及模型匹配对文本信息进行自动分词处理，并对词语进行词性标注，同时提取文本的关键字词和关键句作为摘要以便于快速阅览；

处理控件还用于根据用户输入的路径录入信息文件，并根据操作历史形成日志文件；日志文件用于支持文件的持续更新读取等；

在具体实施过程中，各处理控件表现为可编辑的下拉窗口或者链接至相应数据库的超文本编辑栏；

分词处理还包括将信息数据中的文本进行分割处理，以将其划分为一个或者多个具有完整语义的字词单元，同时根据自定义或者用户输入或者调取频率进行优先级提取，以便于优先获取高频的关键词，快速形成关键词摘要；以及，基于规则处理以及统计方法相结合，从非结构信息中获取特定的地名、人名、号码等实体数据；

数据采集模块，包括用于从数据源中采集数据，调用文本分析服务器相应的服务对数据进行自动处理，并将数据处理结果进行存储的数据采集控件；以及，用于利用规范性数据文件对数据信息进行修正和补充，或者进行定义数据的录入和修正；以实现对已采集数据进行定义的数据定义控件。

对上述方案的进一步优化还包括，任务包括对同一个数据源进行多个策略处理的组合，通常包含有多个批量或者连续性的文件操作内容，即一般情况下某一项或者多项任务会与该任务相应的数据源进行绑定，对数据源进行单一或者多路策略处理；在任务管理过程中，任务控制器控制液面与业务的交互内容，执行策略处理的具体内容并返回结果。

对上述方案的进一步优化还包括，词库控件还用于根据用户的需求和设置添加新的空白词库，并对词库内字词进行编辑；还用于根据用户指定目录利用规范文件录入或生成已有词库数据；还用于对已生成的词库进行打包编辑以导出生成规范的词库文件；还用于控制词库数据的启用和停用，以控制词库的可用状态；在具体实施过程中，信息模块中各控件表现为可编辑的框体或者按钮；具体而言，词库控件根据用户需求进行分压查询以及查询结果的显示，之后通过用户的输入调用文本控制器分别生成新的词库和录入；在生成过程中调用函数查询词库存在状态，当词库存在时，采用默认循环追加后缀或者主动命名的方式生成新词库的名称，再对词库进行操作之前也会对相应的词库进行检索以确认状态。

对上述方案的进一步优化还包括，所述规范性数据文件是指含有基础数据信息以及词性、词频等信息；用于后序对非结构性数据进行分析处理的补充数据。

对上述方案的进一步优化还包括，词库控件表现为可编辑的表格或者窗口，表格栏或者窗口区中可直接调用文本编辑器。

其有益效果在于：

本发明利用自定义的处理策略以及规则处理方案，形成了灵活快捷的数据采集和处理方案，同时能够对非结构性信息数据进行有效分析处理；能够有效降低用户学习使用的成本，提高非结构性信息数据处理效率。

附图说明

图1是本发明的一种非结构信息处理与资源管理***的框架图；

图2是实施例中处理控件的流程示意图。

具体实施方式

以下结合具体实施例对本发明创造作详细说明。

本发明的一种非结构信息处理与资源管理***；由信息管理模块、信息处理模块以及数据采集模块构成。

信息管理模块，包括用于实现词库管理操作以实现词库的快速更新，包括修改、增删、检索词语的词库控件；用于实现数据源的增删查找的数据源控件；用于设置不同分类规则以对信息进行分类，包括增删、修改和查找规则的规则控件；用于配置文本分析功能，根据分词或者其他策略的组合形成或者修改信息处理的策略模式的策略控件；用于根据数据源以及策略配置，建立新的任务，并调用相应的数据源以及策略模型，对数据源进行相应的策略处理，并输出相应的数据结果的任务控件。

其中，任务是指对同一个数据源进行多个策略处理的组合，通常包含有多个批量或者连续性的文件操作内容，即一般情况下某一项或者多项任务会与该任务相应的数据源进行绑定，对数据源进行单一或者多路策略处理；在任务管理过程中，任务控制器控制液面与业务的交互内容，执行策略处理的具体内容并返回结果。

其中，词库控件还用于根据用户的需求和设置添加新的空白词库，并对词库内字词进行编辑；还用于根据用户指定目录利用规范文件录入或生成已有词库数据；还用于对已生成的词库进行打包编辑以导出生成规范的词库文件；还用于控制词库数据的启用和停用，以控制词库的可用状态；在具体实施过程中，信息模块中各控件表现为可编辑的框体或者按钮；具体而言，词库控件根据用户需求进行分压查询以及查询结果的显示，之后通过用户的输入调用文本控制器分别生成新的词库和录入；在生成过程中调用函数查询词库存在状态，当词库存在时，采用默认循环追加后缀或者主动命名的方式生成新词库的名称，再对词库进行操作之前也会对相应的词库进行检索以确认状态；具体实施过程中，词库控件表现为可编辑的表格或者窗口，表格栏或者窗口区中可直接调用文本编辑器。

信息处理模块，包括用于对信息进行自动分词，并完成关键信息提取的提取控件；用于完成文本转换、聚类以及对比的处理控件；提取控件采用规则匹配以及模型匹配对文本信息进行自动分词处理，并对词语进行词性标注，同时提取文本的关键字词和关键句作为摘要以便于快速阅览。

处理控件还用于根据用户输入的路径录入信息文件，并根据操作历史形成日志文件；日志文件用于支持文件的持续更新读取等；上述模块的基本工作流程如图2所示。

在具体实施过程中，各处理控件表现为可编辑的下拉窗口或者链接至相应数据库的超文本编辑栏。

分词处理还包括将信息数据中的文本进行分割处理，以将其划分为一个或者多个具有完整语义的字词单元，同时根据自定义或者用户输入或者调取频率进行优先级提取，以便于优先获取高频的关键词，快速形成关键词摘要；以及，基于规则处理以及统计方法相结合，从非结构信息中获取特定的地名、人名、号码等实体数据。

其中规范性数据文件是指含有基础数据信息以及词性、词频等信息；用于后序对非结构性数据进行分析处理的补充数据。

最后应当说明的是，以上实施例仅用以说明本发明创造的技术方案，而非对本发明创造保护范围的限制，尽管参照较佳实施例对本发明创造作了详细地说明，本领域的普通技术人源应当理解，可以对本发明创造的技术方案进行修改或者等同替换，而不脱离本发明创造技术方案的实质和范围。

Claims

1.一种非结构信息处理与资源管理***，其特征在于，由信息管理模块、信息处理模块以及数据采集模块构成；

信息管理模块，包括用于实现词库管理操作以实现词库的快速更新，包括修改、增删、检索词语的词库控件；用于实现数据源的增删查找的数据源控件；用于设置不同分类规则以对信息进行分类，包括增删、修改和查找规则的规则控件；用于配置文本分析功能，根据分词策略形成或者修改信息处理的策略模式的策略控件；用于根据数据源以及策略配置，建立新的任务，并调用相应的数据源以及策略模型，对数据源进行相应的策略处理，并输出相应的数据结果的任务控件；

处理控件还用于根据用户输入的路径录入信息文件，并根据操作历史形成日志文件；日志文件用于支持文件的持续更新读取；

在具体实施过程中，处理控件表现为可编辑的下拉窗口或者链接至相应数据库的超文本编辑栏；

分词处理还包括将信息数据中的文本进行分割处理，以将其划分为一个或者多个具有完整语义的字词单元，同时根据自定义或者用户输入或者调取频率进行优先级提取，以便于优先获取高频的关键词，快速形成关键词摘要；以及，基于规则处理以及统计方法相结合，从非结构信息中获取特定的地名、人名、号码实体数据；

2.根据权利要求1所述一种非结构信息处理与资源管理***，其特征在于，任务包括对同一个数据源进行多个策略处理的组合，包含有多个批量或者连续性的文件操作内容，即某一项或者多项任务会与该任务相应的数据源进行绑定，对数据源进行单一或者多路策略处理；在任务管理过程中，任务控制器控制页面与业务的交互内容，执行策略处理的具体内容并返回结果。

3.根据权利要求1所述一种非结构信息处理与资源管理***，其特征在于，词库控件还用于根据用户的需求和设置添加新的空白词库，并对词库内字词进行编辑；还用于根据用户指定目录利用规范文件录入或生成已有词库数据；还用于对已生成的词库进行打包编辑以导出生成规范的词库文件；还用于控制词库数据的启用和停用，以控制词库的可用状态；在具体实施过程中，信息模块中各控件表现为可编辑的框体或者按钮；具体而言，词库控件根据用户需求进行分压查询以及查询结果的显示，之后通过用户的输入调用文本控制器分别生成新的词库和录入；在生成过程中调用函数查询词库存在状态，当词库存在时，采用默认循环追加后缀或者主动命名的方式生成新词库的名称，再对词库进行操作之前也会对相应的词库进行检索以确认状态。

4.根据权利要求1所述一种非结构信息处理与资源管理***，其特征在于，所述规范性数据文件是指含有基础数据信息以及词性、词频信息；用于后序对非结构性数据进行分析处理的补充数据。

5.根据权利要求1所述一种非结构信息处理与资源管理***，其特征在于，词库控件表现为可编辑的表格或者窗口，表格栏或者窗口区中可直接调用文本编辑器。