CN112381143A

CN112381143A - 基于机器学习的变量自动分类方法及***

Info

Publication number: CN112381143A
Application number: CN202011272803.4A
Authority: CN
Inventors: 魏强; 孙向学; 张上亚; 王臣亮; 张学敬; 翟迪; 马静静; 郁峰
Original assignee: Great Wall Computer Software & Systems Inc
Current assignee: Great Wall Computer Software & Systems Inc
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-02-19
Anticipated expiration: 2040-11-13
Also published as: CN112381143B

Abstract

本发明公开了一种基于机器学习的变量自动分类方法及***，涉及信息处理技术领域。该方法包括：获取待处理的报表，提取报表的文本信息；从本文对象中提取文本信息，利用预设的分词算法将文本信息拆分成词语，从词语中提取变量特征词；从词性识别对象中提取变量特征词，将提取的变量特征词与变量词库中的变量进行比较，形成用于抽取特征词的分类规则；根据分类规则将变量特征词抽取到对应的变量块中。本发明提供的变量自动分类方法基于机器学习实现，适用于统计类报表的变量自动分类，实现了利用机器学习创建变量自动分类的方法，可以解决在数据统计过程中繁琐复杂的变量识别工作。

Description

基于机器学习的变量自动分类方法及***

技术领域

本发明涉及信息处理技术领域，尤其涉及一种基于机器学习的变量自动分类方法及***。

背景技术

目前，对统计类报表的数据理整时，多采用人功能实识别主宾栏内文本文字，区分主宾栏内变量是指标或分组项的方法。而用程序识别变量错误率较高，需要人工校验，并且对人员业务水平要求较高，也经常出现人工识别错误等问题。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种基于机器学习的变量自动分类方法及***。

本发明解决上述技术问题的技术方案如下：

一种基于机器学习的变量自动分类方法，包括：

获取待处理的报表，提取所述报表的文本信息，将识别出的文本信息存储在文本对象中；

从所述本文对象中提取所述文本信息，利用预设的分词算法将所述文本信息拆分成词语，从所述词语中提取变量特征词，将提取出的变量特征词存储在词性识别对象中；

从所述词性识别对象中提取所述变量特征词，将提取的所述变量特征词与变量词库中的变量进行比较，形成用于抽取特征词的分类规则；

根据所述分类规则将所述变量特征词抽取到对应的变量块中。

本发明提供的变量自动分类方法基于机器学习实现，适用于统计类报表的变量自动分类，通过对报表的文本信息进行提取，然后分别依次进行词性识别和特征抽取，然后与变量词库中的变量进行比较，构建分类规则，再根据分类规则进行自动分类，实现了利用机器学习创建变量自动分类的方法，可以解决在数据统计过程中繁琐复杂的变量识别工作。

进一步地，本发明还可以进行如下改进：

获取待处理的报表，提取所述报表的文本信息，将识别出的文本信息存储在文本对象中，具体包括：

获取待处理的报表，识别所述报表中全部的填报内容区域，识别每个单元格内的数据并判断每个单元格内数据的数据类型，将识别出的数据和数据类型存储在文本对象中。

采用上述进一步方案的有益效果是：通过对填报内容区域进行识别处理，能够便于开展后续对于数据的词性识别和特征提取等步骤，从而提高分类的精度。

进一步地，本发明还可以进行如下改进：

从所述本文对象中提取所述文本信息，利用预设的分词算法将所述文本信息拆分成词语，从所述词语中提取变量特征词，将提取出的变量特征词存储在词性识别对象中，具体包括：

从所述本文对象中提取所述文本信息，利用预设的分词算法将所述文本信息拆分成词语，确定每个词语是名词、动词、形容词或虚词，如果是虚词，则剔除对应的词语，将剩余的词语作为变量特征词，将提取出的变量特征词存储在词性识别对象中。

采用上述进一步方案的有益效果是：如果将虚词作为特征词，将会带来很大噪音，从而直接降低后续变量分类的效率和准确率。因此，在提取变量特征时，剔除这些对分类用处较小的虚词，使用实词等对于变量分类的表现力较强的词，能够进一步提高后续变量分类的效率和准确率。

进一步地，本发明还可以进行如下改进：

根据所述分类规则将所述变量特征词抽取到对应的变量块中，具体包括：

当所述变量特征词为地区或编码时，添加到代码块中；

当所述变量特征词为分组时，添加到分组块中；

当所述变量特征词为计量单位时，添加到计量单位块中；

当所述变量特征词为指标时，添加到计量指标块中。

采用上述进一步方案的有益效果是：通过根据变量特征词的类型将其添加到不同的变量块中，能够实现精确的变量分类。

进一步地，本发明还可以进行如下改进：

基于机器学习的变量自动分类方法还包括：

所述变量词库根据预设清洗规则清洗每个所述变量块中的重复记录，构建标准的变量词库。

采用上述进一步方案的有益效果是：通过清洗掉词库块中重复记录项，并构建词库存变量的版本，能够便于后续自动识别方法使用。

本发明解决上述技术问题的另一种技术方案如下：

一种基于机器学习的变量自动分类***，包括：

获取单元，用于获取待处理的报表，提取所述报表的文本信息，将识别出的文本信息存储在文本对象中；

识别单元，用于从所述本文对象中提取所述文本信息，利用预设的分词算法将所述文本信息拆分成词语，从所述词语中提取变量特征词，将提取出的变量特征词存储在词性识别对象中；

匹配单元，用于从所述词性识别对象中提取所述变量特征词，将提取的所述变量特征词与变量词库中的变量进行比较，形成用于抽取特征词的分类规则；

分类单元，用于根据所述分类规则将所述变量特征词抽取到对应的变量块中。

本发明提供的变量自动分类***基于机器学习实现，适用于统计类报表的变量自动分类，通过对报表的文本信息进行提取，然后分别依次进行词性识别和特征抽取，然后与变量词库中的变量进行比较，构建分类规则，再根据分类规则进行自动分类，实现了利用机器学习创建变量自动分类的方法，可以解决在数据统计过程中繁琐复杂的变量识别工作。

进一步地，本发明还可以进行如下改进：

所述获取单元具体用于获取待处理的报表，识别所述报表中全部的填报内容区域，识别每个单元格内的数据并判断每个单元格内数据的数据类型，将识别出的数据和数据类型存储在文本对象中。

进一步地，本发明还可以进行如下改进：

所述识别单元具体用于从所述本文对象中提取所述文本信息，利用预设的分词算法将所述文本信息拆分成词语，确定每个词语是名词、动词、形容词或虚词，如果是虚词，则剔除对应的词语，将剩余的词语作为变量特征词，将提取出的变量特征词存储在词性识别对象中。

进一步地，本发明还可以进行如下改进：

所述分类单元具体用于：

当所述变量特征词为地区或编码时，添加到代码块中；

当所述变量特征词为分组时，添加到分组块中；

当所述变量特征词为计量单位时，添加到计量单位块中；

当所述变量特征词为指标时，添加到计量指标块中。

进一步地，本发明还可以进行如下改进：

基于机器学习的变量自动分类***还包括：

清洗单元，用于使所述变量词库根据预设清洗规则清洗每个所述变量块中的重复记录，构建标准的变量词库。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明变量自动分类方法的实施例提供的流程示意图；

图2为本发明实施例中的数据示意图；

图3为本发明实施例中的另一个数据示意图；

图4为本发明变量自动分类***的实施例提供的结构框架图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实施例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明变量自动分类方法的实施例提供的流程示意图，该变量自动分类方法基于机器学习实现，适用于统计类报表的变量自动分类，该变量自动分类方法包括：

S1，获取待处理的报表，提取报表的文本信息，将识别出的文本信息存储在文本对象中；

需要说明的是，报表的文本信息可以为主宾栏内的文本文字，例如，如图2所示，给出了一种示例性的报表示意图，报表的左半部分为主栏，记载有报表的数据信息，报表的顶部为宾栏，记载有报表对应数据信息的统计方式，即在一张报表里，主栏和宾栏交叉区域为填报区，通常是填报的数据，这部分数据对应哪些指标，是由主宾栏及表头的内容决定的。

S2，从本文对象中提取文本信息，利用预设的分词算法将文本信息拆分成词语，从词语中提取变量特征词，将提取出的变量特征词存储在词性识别对象中；

需要说明的是，分词算法用于将文本拆分成词语，区分出名词、动词、形容词和虚词等，其中，虚词可以包括感叹词、介词、连词等，这可以通过现有的程序实现，在此不再赘述。

由于将虚词作为特征词将会带来很大噪音，从而直接降低后边变量分类的效率和准确率，因此，在提取变量特征时，应首先考虑剔除这些对分类没有用处的虚词，而在实词中，又以名词和动词对于变量分类的表现力最强，所以优选可以只提取名词和动词作为变量的特征词。

S3，从词性识别对象中提取变量特征词，将提取的变量特征词与变量词库中的变量进行比较，形成用于抽取特征词的分类规则；

应理解，如果变量词库中不存在对应的变量特征词，则将该特征词放入待处理对象中。

需要说明的是，对于单特征词与变量词库的变量比较，可以判断该特征词与变量词库中的元素是否完全匹配。

对于无法识别单特征词与变量词库中元素匹配的，可以进行多个特征词组合与变量词库比较，将多特征词进行多次组合并与变量词库中的元素进行匹配。

例如，假设识别出的特征词有两个，分别是″计划″和″总投资″，假设对于″计划″这个特征词未从变量词库中匹配到，那么可以将″计划″和″总投资″进行组合，得到″计划总投资″，使用该词再次进行匹配。

然后通过智能识别将匹配的特征词与未匹配的特征词利用NLP(自然语言处理)进行，例如，可以分为{编码、分组、地区、计量单位、指标}等变量块，并将识别出来的特征词提取出来。从而根据这些变量块进行分类。

S4，根据分类规则将变量特征词抽取到对应的变量块中。

例如，提取特征词后，将特征词与变量词库中分类规则进行比对，形成如下规则：

特征词为地区或编码时：将文本信息添加到代码块中。

特征词为分组时：将特征词添加到分组块中。

特征词为计量单位时：将特征词添加到其计量单位块中。

特征词为指标时：将特征词添加到其计量指标块中。

本实施例提供的变量自动分类方法基于机器学习实现，适用于统计类报表的变量自动分类，通过对报表的文本信息进行提取，然后分别依次进行词性识别和特征抽取，然后与变量词库中的变量进行比较，构建分类规则，再根据分类规则进行自动分类，实现了利用机器学习创建变量自动分类的方法，可以解决在数据统计过程中繁琐复杂的变量识别工作。

可选地，在一些可能的实施方式中，获取待处理的报表，提取报表的文本信息，将识别出的文本信息存储在文本对象中，具体包括：

获取待处理的报表，识别报表中全部的填报内容区域，识别每个单元格内的数据并判断每个单元格内数据的数据类型，将识别出的数据和数据类型存储在文本对象中。

具体地，可以识别出报表中全部的填报内容区域，并对内容区域进行逐个单元格填报数据的类型判断。

具体可以按照如下规则判断：

例如，可以删除冒号以前的内容：如″其中：″、″在合计中：″等；

例如，可以识别文本括号中的计量单位：如：″万元、亿元、吨″等；

例如，可以识别文本括号中的报告期：通过正则匹配识别；

例如，可以将已知的无用备注信息删除：如：{一、二、三、四、五、续一、续二、续三}；

例如，可以识别其他信息：如″(以上年同期为100％)、(以上年同期为100)的单元格，添加计量单位″％″等。

通过对填报内容区域进行识别处理，能够便于开展后续对于数据的词性识别和特征提取等步骤，从而提高分类的精度。

可选地，在一些可能的实施方式中，从本文对象中提取文本信息，利用预设的分词算法将文本信息拆分成词语，从词语中提取变量特征词，将提取出的变量特征词存储在词性识别对象中，具体包括：

从本文对象中提取文本信息，利用预设的分词算法将文本信息拆分成词语，确定每个词语是名词、动词、形容词或虚词，如果是虚词，则剔除对应的词语，将剩余的词语作为变量特征词，将提取出的变量特征词存储在词性识别对象中。

如果将虚词作为特征词，将会带来很大噪音，从而直接降低后续变量分类的效率和准确率。因此，在提取变量特征时，剔除这些对分类用处较小的虚词，使用实词等对于变量分类的表现力较强的词，能够进一步提高后续变量分类的效率和准确率。

优选地，可以只提取名词和动词作为变量的特征词。

可选地，在一些可能的实施方式中，根据分类规则将变量特征词抽取到对应的变量块中，具体包括：

当变量特征词为地区或编码时，添加到代码块中；

当变量特征词为分组时，添加到分组块中；

当变量特征词为计量单位时，添加到计量单位块中；

当变量特征词为指标时，添加到计量指标块中。

通过根据变量特征词的类型将其添加到不同的变量块中，能够实现精确的变量分类。

可选地，在一些可能的实施方式中，基于机器学习的变量自动分类方法还包括：

变量词库根据预设清洗规则清洗每个变量块中的重复记录，构建标准的变量词库。

通过清洗掉词库块中重复记录项，并构建词库存变量的版本，能够便于后续自动识别方法使用。

下面结合图2和图3，给出具体示例说明。

首先，在报表导入后，先识别出报表的全部文字和报表的可填报区域，确定主栏和宾栏，能过识别词性，将主宾栏上的文字提取出来，与业务词库比对，确定该文字是否为变量，也就是：指标、分组、单位等。

其次，有些变量是规则的，通过找变量的特征，例如：

元识别为：【计量单位】货币

燃气识别为：【能源变量】资源......

电力识别人：【能源变量】基础设施、民生......

然后通过运算规则找到相应变量在哪个范围。

再次，通过报表主宾栏目中信息比如″电力、燃气及水供应业″中有多少变量特征词，通过特征词的组合与变量库中的指标确定该组合可能的变量(例如，指标、分组......等)与哪个大概率匹配。

最后，再根据当前报表其他内容，确定主宾栏交叉单元格，也就是数据填报区内会标记哪些指标，如图3所示，自动把相应的变量组件以打标记的方式打到，数据填报的单位格中。

当用户在填报数据时，填写的数字就有了，变量的属性，如指标、分组、单位......等。

应理解，在一些可能的实施方式中，在能够实现的前提下，一些其他的实施例可以包含上述任意实施方式的全部或部分。

如图4所示，为本发明变量自动分类***的实施例提供的结构框架图，该变量自动分类***基于机器学习实现，适用于统计类报表的变量自动分类，该变量自动分类***包括：

获取单元1，用于获取待处理的报表，提取报表的文本信息，将识别出的文本信息存储在文本对象中；

识别单元2，用于从本文对象中提取文本信息，利用预设的分词算法将文本信息拆分成词语，从词语中提取变量特征词，将提取出的变量特征词存储在词性识别对象中；

匹配单元3，用于从词性识别对象中提取变量特征词，将提取的变量特征词与变量词库中的变量进行比较，形成用于抽取特征词的分类规则；分类单元4，用于根据分类规则将变量特征词抽取到对应的变量块中。

本实施例提供的变量自动分类***基于机器学习实现，适用于统计类报表的变量自动分类，通过对报表的文本信息进行提取，然后分别依次进行词性识别和特征抽取，然后与变量词库中的变量进行比较，构建分类规则，再根据分类规则进行自动分类，实现了利用机器学习创建变量自动分类的方法，可以解决在数据统计过程中繁琐复杂的变量识别工作。

可选地，在一些可能的实施方式中，获取单元1具体用于获取待处理的报表，识别报表中全部的填报内容区域，识别每个单元格内的数据并判断每个单元格内数据的数据类型，将识别出的数据和数据类型存储在文本对象中。

可选地，在一些可能的实施方式中，识别单元2具体用于从本文对象中提取文本信息，利用预设的分词算法将文本信息拆分成词语，确定每个词语是名词、动词、形容词或虚词，如果是虚词，则剔除对应的词语，将剩余的词语作为变量特征词，将提取出的变量特征词存储在词性识别对象中。

可选地，在一些可能的实施方式中，分类单元3具体用于：

当变量特征词为地区或编码时，添加到代码块中；

当变量特征词为分组时，添加到分组块中；

当变量特征词为计量单位时，添加到计量单位块中；

当变量特征词为指标时，添加到计量指标块中。

可选地，在一些可能的实施方式中，基于机器学习的变量自动分类***还包括：

清洗单元，用于使变量词库根据预设清洗规则清洗每个变量块中的重复记录，构建标准的变量词库。

应理解，以上实施例为与本发明方法实施例对应的产品实施例，二者技术方案对应，因此，上述产品实施例的具体说明可以参照上述各方法实施方式，在此不再赘述。

可以理解，本发明还可以提供一种存储介质，该存储介质中存储有指令，当计算机读取指令时，使计算机执行如上述任意实施方式的基于机器学习的变量自动分类方法。

可以理解，本发明还可以提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序，实现如上述任意实施方式的基于机器学习的变量自动分类方法。

读者应理解，在本说明书的描述中，参考术语″一个实施例″、″一些实施例″、″示例″、″具体示例″、或″一些示例″等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例仅仅是示意性的，例如，步骤的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个步骤可以结合或者可以集成到另一个步骤，或一些特征可以忽略，或不执行。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于机器学习的变量自动分类方法，其特征在于，包括：

2.根据权利要求1所述的基于机器学习的变量自动分类方法，其特征在于，获取待处理的报表，提取所述报表的文本信息，将识别出的文本信息存储在文本对象中，具体包括：

3.根据权利要求1所述的基于机器学习的变量自动分类方法，其特征在于，从所述本文对象中提取所述文本信息，利用预设的分词算法将所述文本信息拆分成词语，从所述词语中提取变量特征词，将提取出的变量特征词存储在词性识别对象中，具体包括：

4.根据权利要求1所述的基于机器学习的变量自动分类方法，其特征在于，根据所述分类规则将所述变量特征词抽取到对应的变量块中，具体包括：

当所述变量特征词为地区或编码时，添加到代码块中；

当所述变量特征词为分组时，添加到分组块中；

当所述变量特征词为计量单位时，添加到计量单位块中；

当所述变量特征词为指标时，添加到计量指标块中。

5.根据权利要求1至4中任一项所述的基于机器学习的变量自动分类方法，其特征在于，还包括：

6.一种基于机器学习的变量自动分类***，其特征在于，包括：

7.根据权利要求6所述的基于机器学习的变量自动分类***，其特征在于，所述获取单元具体用于获取待处理的报表，识别所述报表中全部的填报内容区域，识别每个单元格内的数据并判断每个单元格内数据的数据类型，将识别出的数据和数据类型存储在文本对象中。

8.根据权利要求6所述的基于机器学习的变量自动分类***，其特征在于，所述识别单元具体用于从所述本文对象中提取所述文本信息，利用预设的分词算法将所述文本信息拆分成词语，确定每个词语是名词、动词、形容词或虚词，如果是虚词，则剔除对应的词语，将剩余的词语作为变量特征词，将提取出的变量特征词存储在词性识别对象中。

9.根据权利要求6所述的基于机器学习的变量自动分类***，其特征在于，所述分类单元具体用于：

当所述变量特征词为地区或编码时，添加到代码块中；

当所述变量特征词为分组时，添加到分组块中；

当所述变量特征词为计量单位时，添加到计量单位块中；

当所述变量特征词为指标时，添加到计量指标块中。

10.根据权利要求6至9中任一项所述的基于机器学习的变量自动分类***，其特征在于，还包括：