CN112381143A - 基于机器学习的变量自动分类方法及*** - Google Patents
基于机器学习的变量自动分类方法及*** Download PDFInfo
- Publication number
- CN112381143A CN112381143A CN202011272803.4A CN202011272803A CN112381143A CN 112381143 A CN112381143 A CN 112381143A CN 202011272803 A CN202011272803 A CN 202011272803A CN 112381143 A CN112381143 A CN 112381143A
- Authority
- CN
- China
- Prior art keywords
- variable
- words
- extracting
- characteristic words
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000010801 machine learning Methods 0.000 title claims abstract description 35
- 230000011218 segmentation Effects 0.000 claims abstract description 17
- 238000004140 cleaning Methods 0.000 claims description 13
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 239000002245 particle Substances 0.000 description 4
- 238000005259 measurement Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于机器学习的变量自动分类方法及***,涉及信息处理技术领域。该方法包括:获取待处理的报表,提取报表的文本信息;从本文对象中提取文本信息,利用预设的分词算法将文本信息拆分成词语,从词语中提取变量特征词;从词性识别对象中提取变量特征词,将提取的变量特征词与变量词库中的变量进行比较,形成用于抽取特征词的分类规则;根据分类规则将变量特征词抽取到对应的变量块中。本发明提供的变量自动分类方法基于机器学习实现,适用于统计类报表的变量自动分类,实现了利用机器学习创建变量自动分类的方法,可以解决在数据统计过程中繁琐复杂的变量识别工作。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于机器学习的变量自动分类方法及***。
背景技术
目前,对统计类报表的数据理整时,多采用人功能实识别主宾栏内文本文字,区分主宾栏内变量是指标或分组项的方法。而用程序识别变量错误率较高,需要人工校验,并且对人员业务水平要求较高,也经常出现人工识别错误等问题。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种基于机器学习的变量自动分类方法及***。
本发明解决上述技术问题的技术方案如下:
一种基于机器学习的变量自动分类方法,包括:
获取待处理的报表,提取所述报表的文本信息,将识别出的文本信息存储在文本对象中;
从所述本文对象中提取所述文本信息,利用预设的分词算法将所述文本信息拆分成词语,从所述词语中提取变量特征词,将提取出的变量特征词存储在词性识别对象中;
从所述词性识别对象中提取所述变量特征词,将提取的所述变量特征词与变量词库中的变量进行比较,形成用于抽取特征词的分类规则;
根据所述分类规则将所述变量特征词抽取到对应的变量块中。
本发明提供的变量自动分类方法基于机器学习实现,适用于统计类报表的变量自动分类,通过对报表的文本信息进行提取,然后分别依次进行词性识别和特征抽取,然后与变量词库中的变量进行比较,构建分类规则,再根据分类规则进行自动分类,实现了利用机器学习创建变量自动分类的方法,可以解决在数据统计过程中繁琐复杂的变量识别工作。
进一步地,本发明还可以进行如下改进:
获取待处理的报表,提取所述报表的文本信息,将识别出的文本信息存储在文本对象中,具体包括:
获取待处理的报表,识别所述报表中全部的填报内容区域,识别每个单元格内的数据并判断每个单元格内数据的数据类型,将识别出的数据和数据类型存储在文本对象中。
采用上述进一步方案的有益效果是:通过对填报内容区域进行识别处理,能够便于开展后续对于数据的词性识别和特征提取等步骤,从而提高分类的精度。
进一步地,本发明还可以进行如下改进:
从所述本文对象中提取所述文本信息,利用预设的分词算法将所述文本信息拆分成词语,从所述词语中提取变量特征词,将提取出的变量特征词存储在词性识别对象中,具体包括:
从所述本文对象中提取所述文本信息,利用预设的分词算法将所述文本信息拆分成词语,确定每个词语是名词、动词、形容词或虚词,如果是虚词,则剔除对应的词语,将剩余的词语作为变量特征词,将提取出的变量特征词存储在词性识别对象中。
采用上述进一步方案的有益效果是:如果将虚词作为特征词,将会带来很大噪音,从而直接降低后续变量分类的效率和准确率。因此,在提取变量特征时,剔除这些对分类用处较小的虚词,使用实词等对于变量分类的表现力较强的词,能够进一步提高后续变量分类的效率和准确率。
进一步地,本发明还可以进行如下改进:
根据所述分类规则将所述变量特征词抽取到对应的变量块中,具体包括:
当所述变量特征词为地区或编码时,添加到代码块中;
当所述变量特征词为分组时,添加到分组块中;
当所述变量特征词为计量单位时,添加到计量单位块中;
当所述变量特征词为指标时,添加到计量指标块中。
采用上述进一步方案的有益效果是:通过根据变量特征词的类型将其添加到不同的变量块中,能够实现精确的变量分类。
进一步地,本发明还可以进行如下改进:
基于机器学习的变量自动分类方法还包括:
所述变量词库根据预设清洗规则清洗每个所述变量块中的重复记录,构建标准的变量词库。
采用上述进一步方案的有益效果是:通过清洗掉词库块中重复记录项,并构建词库存变量的版本,能够便于后续自动识别方法使用。
本发明解决上述技术问题的另一种技术方案如下:
一种基于机器学习的变量自动分类***,包括:
获取单元,用于获取待处理的报表,提取所述报表的文本信息,将识别出的文本信息存储在文本对象中;
识别单元,用于从所述本文对象中提取所述文本信息,利用预设的分词算法将所述文本信息拆分成词语,从所述词语中提取变量特征词,将提取出的变量特征词存储在词性识别对象中;
匹配单元,用于从所述词性识别对象中提取所述变量特征词,将提取的所述变量特征词与变量词库中的变量进行比较,形成用于抽取特征词的分类规则;
分类单元,用于根据所述分类规则将所述变量特征词抽取到对应的变量块中。
本发明提供的变量自动分类***基于机器学习实现,适用于统计类报表的变量自动分类,通过对报表的文本信息进行提取,然后分别依次进行词性识别和特征抽取,然后与变量词库中的变量进行比较,构建分类规则,再根据分类规则进行自动分类,实现了利用机器学习创建变量自动分类的方法,可以解决在数据统计过程中繁琐复杂的变量识别工作。
进一步地,本发明还可以进行如下改进:
所述获取单元具体用于获取待处理的报表,识别所述报表中全部的填报内容区域,识别每个单元格内的数据并判断每个单元格内数据的数据类型,将识别出的数据和数据类型存储在文本对象中。
采用上述进一步方案的有益效果是:通过对填报内容区域进行识别处理,能够便于开展后续对于数据的词性识别和特征提取等步骤,从而提高分类的精度。
进一步地,本发明还可以进行如下改进:
所述识别单元具体用于从所述本文对象中提取所述文本信息,利用预设的分词算法将所述文本信息拆分成词语,确定每个词语是名词、动词、形容词或虚词,如果是虚词,则剔除对应的词语,将剩余的词语作为变量特征词,将提取出的变量特征词存储在词性识别对象中。
采用上述进一步方案的有益效果是:如果将虚词作为特征词,将会带来很大噪音,从而直接降低后续变量分类的效率和准确率。因此,在提取变量特征时,剔除这些对分类用处较小的虚词,使用实词等对于变量分类的表现力较强的词,能够进一步提高后续变量分类的效率和准确率。
进一步地,本发明还可以进行如下改进:
所述分类单元具体用于:
当所述变量特征词为地区或编码时,添加到代码块中;
当所述变量特征词为分组时,添加到分组块中;
当所述变量特征词为计量单位时,添加到计量单位块中;
当所述变量特征词为指标时,添加到计量指标块中。
采用上述进一步方案的有益效果是:通过根据变量特征词的类型将其添加到不同的变量块中,能够实现精确的变量分类。
进一步地,本发明还可以进行如下改进:
基于机器学习的变量自动分类***还包括:
清洗单元,用于使所述变量词库根据预设清洗规则清洗每个所述变量块中的重复记录,构建标准的变量词库。
采用上述进一步方案的有益效果是:通过清洗掉词库块中重复记录项,并构建词库存变量的版本,能够便于后续自动识别方法使用。
本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。
附图说明
图1为本发明变量自动分类方法的实施例提供的流程示意图;
图2为本发明实施例中的数据示意图;
图3为本发明实施例中的另一个数据示意图;
图4为本发明变量自动分类***的实施例提供的结构框架图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实施例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明变量自动分类方法的实施例提供的流程示意图,该变量自动分类方法基于机器学习实现,适用于统计类报表的变量自动分类,该变量自动分类方法包括:
S1,获取待处理的报表,提取报表的文本信息,将识别出的文本信息存储在文本对象中;
需要说明的是,报表的文本信息可以为主宾栏内的文本文字,例如,如图2所示,给出了一种示例性的报表示意图,报表的左半部分为主栏,记载有报表的数据信息,报表的顶部为宾栏,记载有报表对应数据信息的统计方式,即在一张报表里,主栏和宾栏交叉区域为填报区,通常是填报的数据,这部分数据对应哪些指标,是由主宾栏及表头的内容决定的。
S2,从本文对象中提取文本信息,利用预设的分词算法将文本信息拆分成词语,从词语中提取变量特征词,将提取出的变量特征词存储在词性识别对象中;
需要说明的是,分词算法用于将文本拆分成词语,区分出名词、动词、形容词和虚词等,其中,虚词可以包括感叹词、介词、连词等,这可以通过现有的程序实现,在此不再赘述。
由于将虚词作为特征词将会带来很大噪音,从而直接降低后边变量分类的效率和准确率,因此,在提取变量特征时,应首先考虑剔除这些对分类没有用处的虚词,而在实词中,又以名词和动词对于变量分类的表现力最强,所以优选可以只提取名词和动词作为变量的特征词。
S3,从词性识别对象中提取变量特征词,将提取的变量特征词与变量词库中的变量进行比较,形成用于抽取特征词的分类规则;
应理解,如果变量词库中不存在对应的变量特征词,则将该特征词放入待处理对象中。
需要说明的是,对于单特征词与变量词库的变量比较,可以判断该特征词与变量词库中的元素是否完全匹配。
对于无法识别单特征词与变量词库中元素匹配的,可以进行多个特征词组合与变量词库比较,将多特征词进行多次组合并与变量词库中的元素进行匹配。
例如,假设识别出的特征词有两个,分别是″计划″和″总投资″,假设对于″计划″这个特征词未从变量词库中匹配到,那么可以将″计划″和″总投资″进行组合,得到″计划总投资″,使用该词再次进行匹配。
然后通过智能识别将匹配的特征词与未匹配的特征词利用NLP(自然语言处理)进行,例如,可以分为{编码、分组、地区、计量单位、指标}等变量块,并将识别出来的特征词提取出来。从而根据这些变量块进行分类。
S4,根据分类规则将变量特征词抽取到对应的变量块中。
例如,提取特征词后,将特征词与变量词库中分类规则进行比对,形成如下规则:
特征词为地区或编码时:将文本信息添加到代码块中。
特征词为分组时:将特征词添加到分组块中。
特征词为计量单位时:将特征词添加到其计量单位块中。
特征词为指标时:将特征词添加到其计量指标块中。
本实施例提供的变量自动分类方法基于机器学习实现,适用于统计类报表的变量自动分类,通过对报表的文本信息进行提取,然后分别依次进行词性识别和特征抽取,然后与变量词库中的变量进行比较,构建分类规则,再根据分类规则进行自动分类,实现了利用机器学习创建变量自动分类的方法,可以解决在数据统计过程中繁琐复杂的变量识别工作。
可选地,在一些可能的实施方式中,获取待处理的报表,提取报表的文本信息,将识别出的文本信息存储在文本对象中,具体包括:
获取待处理的报表,识别报表中全部的填报内容区域,识别每个单元格内的数据并判断每个单元格内数据的数据类型,将识别出的数据和数据类型存储在文本对象中。
具体地,可以识别出报表中全部的填报内容区域,并对内容区域进行逐个单元格填报数据的类型判断。
具体可以按照如下规则判断:
例如,可以删除冒号以前的内容:如″其中:″、″在合计中:″等;
例如,可以识别文本括号中的计量单位:如:″万元、亿元、吨″等;
例如,可以识别文本括号中的报告期:通过正则匹配识别;
例如,可以将已知的无用备注信息删除:如:{一、二、三、四、五、续一、续二、续三};
例如,可以识别其他信息:如″(以上年同期为100%)、(以上年同期为100)的单元格,添加计量单位″%″等。
通过对填报内容区域进行识别处理,能够便于开展后续对于数据的词性识别和特征提取等步骤,从而提高分类的精度。
可选地,在一些可能的实施方式中,从本文对象中提取文本信息,利用预设的分词算法将文本信息拆分成词语,从词语中提取变量特征词,将提取出的变量特征词存储在词性识别对象中,具体包括:
从本文对象中提取文本信息,利用预设的分词算法将文本信息拆分成词语,确定每个词语是名词、动词、形容词或虚词,如果是虚词,则剔除对应的词语,将剩余的词语作为变量特征词,将提取出的变量特征词存储在词性识别对象中。
如果将虚词作为特征词,将会带来很大噪音,从而直接降低后续变量分类的效率和准确率。因此,在提取变量特征时,剔除这些对分类用处较小的虚词,使用实词等对于变量分类的表现力较强的词,能够进一步提高后续变量分类的效率和准确率。
优选地,可以只提取名词和动词作为变量的特征词。
可选地,在一些可能的实施方式中,根据分类规则将变量特征词抽取到对应的变量块中,具体包括:
当变量特征词为地区或编码时,添加到代码块中;
当变量特征词为分组时,添加到分组块中;
当变量特征词为计量单位时,添加到计量单位块中;
当变量特征词为指标时,添加到计量指标块中。
通过根据变量特征词的类型将其添加到不同的变量块中,能够实现精确的变量分类。
可选地,在一些可能的实施方式中,基于机器学习的变量自动分类方法还包括:
变量词库根据预设清洗规则清洗每个变量块中的重复记录,构建标准的变量词库。
通过清洗掉词库块中重复记录项,并构建词库存变量的版本,能够便于后续自动识别方法使用。
下面结合图2和图3,给出具体示例说明。
首先,在报表导入后,先识别出报表的全部文字和报表的可填报区域,确定主栏和宾栏,能过识别词性,将主宾栏上的文字提取出来,与业务词库比对,确定该文字是否为变量,也就是:指标、分组、单位等。
其次,有些变量是规则的,通过找变量的特征,例如:
元识别为:【计量单位】货币
燃气识别为:【能源变量】资源......
电力识别人:【能源变量】基础设施、民生......
然后通过运算规则找到相应变量在哪个范围。
再次,通过报表主宾栏目中信息比如″电力、燃气及水供应业″中有多少变量特征词,通过特征词的组合与变量库中的指标确定该组合可能的变量(例如,指标、分组......等)与哪个大概率匹配。
最后,再根据当前报表其他内容,确定主宾栏交叉单元格,也就是数据填报区内会标记哪些指标,如图3所示,自动把相应的变量组件以打标记的方式打到,数据填报的单位格中。
当用户在填报数据时,填写的数字就有了,变量的属性,如指标、分组、单位......等。
应理解,在一些可能的实施方式中,在能够实现的前提下,一些其他的实施例可以包含上述任意实施方式的全部或部分。
如图4所示,为本发明变量自动分类***的实施例提供的结构框架图,该变量自动分类***基于机器学习实现,适用于统计类报表的变量自动分类,该变量自动分类***包括:
获取单元1,用于获取待处理的报表,提取报表的文本信息,将识别出的文本信息存储在文本对象中;
识别单元2,用于从本文对象中提取文本信息,利用预设的分词算法将文本信息拆分成词语,从词语中提取变量特征词,将提取出的变量特征词存储在词性识别对象中;
匹配单元3,用于从词性识别对象中提取变量特征词,将提取的变量特征词与变量词库中的变量进行比较,形成用于抽取特征词的分类规则;分类单元4,用于根据分类规则将变量特征词抽取到对应的变量块中。
本实施例提供的变量自动分类***基于机器学习实现,适用于统计类报表的变量自动分类,通过对报表的文本信息进行提取,然后分别依次进行词性识别和特征抽取,然后与变量词库中的变量进行比较,构建分类规则,再根据分类规则进行自动分类,实现了利用机器学习创建变量自动分类的方法,可以解决在数据统计过程中繁琐复杂的变量识别工作。
可选地,在一些可能的实施方式中,获取单元1具体用于获取待处理的报表,识别报表中全部的填报内容区域,识别每个单元格内的数据并判断每个单元格内数据的数据类型,将识别出的数据和数据类型存储在文本对象中。
通过对填报内容区域进行识别处理,能够便于开展后续对于数据的词性识别和特征提取等步骤,从而提高分类的精度。
可选地,在一些可能的实施方式中,识别单元2具体用于从本文对象中提取文本信息,利用预设的分词算法将文本信息拆分成词语,确定每个词语是名词、动词、形容词或虚词,如果是虚词,则剔除对应的词语,将剩余的词语作为变量特征词,将提取出的变量特征词存储在词性识别对象中。
如果将虚词作为特征词,将会带来很大噪音,从而直接降低后续变量分类的效率和准确率。因此,在提取变量特征时,剔除这些对分类用处较小的虚词,使用实词等对于变量分类的表现力较强的词,能够进一步提高后续变量分类的效率和准确率。
可选地,在一些可能的实施方式中,分类单元3具体用于:
当变量特征词为地区或编码时,添加到代码块中;
当变量特征词为分组时,添加到分组块中;
当变量特征词为计量单位时,添加到计量单位块中;
当变量特征词为指标时,添加到计量指标块中。
通过根据变量特征词的类型将其添加到不同的变量块中,能够实现精确的变量分类。
可选地,在一些可能的实施方式中,基于机器学习的变量自动分类***还包括:
清洗单元,用于使变量词库根据预设清洗规则清洗每个变量块中的重复记录,构建标准的变量词库。
通过清洗掉词库块中重复记录项,并构建词库存变量的版本,能够便于后续自动识别方法使用。
应理解,在一些可能的实施方式中,在能够实现的前提下,一些其他的实施例可以包含上述任意实施方式的全部或部分。
应理解,以上实施例为与本发明方法实施例对应的产品实施例,二者技术方案对应,因此,上述产品实施例的具体说明可以参照上述各方法实施方式,在此不再赘述。
可以理解,本发明还可以提供一种存储介质,该存储介质中存储有指令,当计算机读取指令时,使计算机执行如上述任意实施方式的基于机器学习的变量自动分类方法。
可以理解,本发明还可以提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序,实现如上述任意实施方式的基于机器学习的变量自动分类方法。
读者应理解,在本说明书的描述中,参考术语″一个实施例″、″一些实施例″、″示例″、″具体示例″、或″一些示例″等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的方法实施例仅仅是示意性的,例如,步骤的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个步骤可以结合或者可以集成到另一个步骤,或一些特征可以忽略,或不执行。
上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于机器学习的变量自动分类方法,其特征在于,包括:
获取待处理的报表,提取所述报表的文本信息,将识别出的文本信息存储在文本对象中;
从所述本文对象中提取所述文本信息,利用预设的分词算法将所述文本信息拆分成词语,从所述词语中提取变量特征词,将提取出的变量特征词存储在词性识别对象中;
从所述词性识别对象中提取所述变量特征词,将提取的所述变量特征词与变量词库中的变量进行比较,形成用于抽取特征词的分类规则;
根据所述分类规则将所述变量特征词抽取到对应的变量块中。
2.根据权利要求1所述的基于机器学习的变量自动分类方法,其特征在于,获取待处理的报表,提取所述报表的文本信息,将识别出的文本信息存储在文本对象中,具体包括:
获取待处理的报表,识别所述报表中全部的填报内容区域,识别每个单元格内的数据并判断每个单元格内数据的数据类型,将识别出的数据和数据类型存储在文本对象中。
3.根据权利要求1所述的基于机器学习的变量自动分类方法,其特征在于,从所述本文对象中提取所述文本信息,利用预设的分词算法将所述文本信息拆分成词语,从所述词语中提取变量特征词,将提取出的变量特征词存储在词性识别对象中,具体包括:
从所述本文对象中提取所述文本信息,利用预设的分词算法将所述文本信息拆分成词语,确定每个词语是名词、动词、形容词或虚词,如果是虚词,则剔除对应的词语,将剩余的词语作为变量特征词,将提取出的变量特征词存储在词性识别对象中。
4.根据权利要求1所述的基于机器学习的变量自动分类方法,其特征在于,根据所述分类规则将所述变量特征词抽取到对应的变量块中,具体包括:
当所述变量特征词为地区或编码时,添加到代码块中;
当所述变量特征词为分组时,添加到分组块中;
当所述变量特征词为计量单位时,添加到计量单位块中;
当所述变量特征词为指标时,添加到计量指标块中。
5.根据权利要求1至4中任一项所述的基于机器学习的变量自动分类方法,其特征在于,还包括:
所述变量词库根据预设清洗规则清洗每个所述变量块中的重复记录,构建标准的变量词库。
6.一种基于机器学习的变量自动分类***,其特征在于,包括:
获取单元,用于获取待处理的报表,提取所述报表的文本信息,将识别出的文本信息存储在文本对象中;
识别单元,用于从所述本文对象中提取所述文本信息,利用预设的分词算法将所述文本信息拆分成词语,从所述词语中提取变量特征词,将提取出的变量特征词存储在词性识别对象中;
匹配单元,用于从所述词性识别对象中提取所述变量特征词,将提取的所述变量特征词与变量词库中的变量进行比较,形成用于抽取特征词的分类规则;
分类单元,用于根据所述分类规则将所述变量特征词抽取到对应的变量块中。
7.根据权利要求6所述的基于机器学习的变量自动分类***,其特征在于,所述获取单元具体用于获取待处理的报表,识别所述报表中全部的填报内容区域,识别每个单元格内的数据并判断每个单元格内数据的数据类型,将识别出的数据和数据类型存储在文本对象中。
8.根据权利要求6所述的基于机器学习的变量自动分类***,其特征在于,所述识别单元具体用于从所述本文对象中提取所述文本信息,利用预设的分词算法将所述文本信息拆分成词语,确定每个词语是名词、动词、形容词或虚词,如果是虚词,则剔除对应的词语,将剩余的词语作为变量特征词,将提取出的变量特征词存储在词性识别对象中。
9.根据权利要求6所述的基于机器学习的变量自动分类***,其特征在于,所述分类单元具体用于:
当所述变量特征词为地区或编码时,添加到代码块中;
当所述变量特征词为分组时,添加到分组块中;
当所述变量特征词为计量单位时,添加到计量单位块中;
当所述变量特征词为指标时,添加到计量指标块中。
10.根据权利要求6至9中任一项所述的基于机器学习的变量自动分类***,其特征在于,还包括:
清洗单元,用于使所述变量词库根据预设清洗规则清洗每个所述变量块中的重复记录,构建标准的变量词库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011272803.4A CN112381143B (zh) | 2020-11-13 | 2020-11-13 | 基于机器学习的变量自动分类方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011272803.4A CN112381143B (zh) | 2020-11-13 | 2020-11-13 | 基于机器学习的变量自动分类方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112381143A true CN112381143A (zh) | 2021-02-19 |
CN112381143B CN112381143B (zh) | 2023-12-05 |
Family
ID=74583933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011272803.4A Active CN112381143B (zh) | 2020-11-13 | 2020-11-13 | 基于机器学习的变量自动分类方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112381143B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031143A (ja) * | 2004-07-13 | 2006-02-02 | Fuji Xerox Co Ltd | 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム |
US20160103823A1 (en) * | 2014-10-10 | 2016-04-14 | The Trustees Of Columbia University In The City Of New York | Machine Learning Extraction of Free-Form Textual Rules and Provisions From Legal Documents |
CN106709032A (zh) * | 2016-12-29 | 2017-05-24 | 深圳市华傲数据技术有限公司 | 抽取电子表格文档中结构化信息的方法及装置 |
CN109710725A (zh) * | 2018-12-13 | 2019-05-03 | 中国科学院信息工程研究所 | 一种基于文本分类的中文表格列标签恢复方法和*** |
CN110728240A (zh) * | 2019-10-14 | 2020-01-24 | 北京华宇信息技术有限公司 | 一种对电子卷宗的标题自动识别的方法及装置 |
CN110866217A (zh) * | 2019-10-24 | 2020-03-06 | 长城计算机软件与***有限公司 | 一种交叉报表的识别方法、装置、存储介质及电子设备 |
CN110929520A (zh) * | 2019-11-25 | 2020-03-27 | 北京明略软件***有限公司 | 非命名实体对象抽取方法、装置、电子设备及存储介质 |
CN111291562A (zh) * | 2020-01-17 | 2020-06-16 | 中国石油集团安全环保技术研究院有限公司 | 基于hse的智能语义识别方法 |
KR102128852B1 (ko) * | 2020-03-30 | 2020-07-01 | (주)위세아이텍 | 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법 |
US20200302166A1 (en) * | 2019-03-19 | 2020-09-24 | Hyland Software, Inc. | Computing system for extraction of textual elements from a document |
-
2020
- 2020-11-13 CN CN202011272803.4A patent/CN112381143B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031143A (ja) * | 2004-07-13 | 2006-02-02 | Fuji Xerox Co Ltd | 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム |
US20160103823A1 (en) * | 2014-10-10 | 2016-04-14 | The Trustees Of Columbia University In The City Of New York | Machine Learning Extraction of Free-Form Textual Rules and Provisions From Legal Documents |
CN106709032A (zh) * | 2016-12-29 | 2017-05-24 | 深圳市华傲数据技术有限公司 | 抽取电子表格文档中结构化信息的方法及装置 |
CN109710725A (zh) * | 2018-12-13 | 2019-05-03 | 中国科学院信息工程研究所 | 一种基于文本分类的中文表格列标签恢复方法和*** |
US20200302166A1 (en) * | 2019-03-19 | 2020-09-24 | Hyland Software, Inc. | Computing system for extraction of textual elements from a document |
CN110728240A (zh) * | 2019-10-14 | 2020-01-24 | 北京华宇信息技术有限公司 | 一种对电子卷宗的标题自动识别的方法及装置 |
CN110866217A (zh) * | 2019-10-24 | 2020-03-06 | 长城计算机软件与***有限公司 | 一种交叉报表的识别方法、装置、存储介质及电子设备 |
CN110929520A (zh) * | 2019-11-25 | 2020-03-27 | 北京明略软件***有限公司 | 非命名实体对象抽取方法、装置、电子设备及存储介质 |
CN111291562A (zh) * | 2020-01-17 | 2020-06-16 | 中国石油集团安全环保技术研究院有限公司 | 基于hse的智能语义识别方法 |
KR102128852B1 (ko) * | 2020-03-30 | 2020-07-01 | (주)위세아이텍 | 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN112381143B (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107844559A (zh) | 一种文件分类方法、装置及电子设备 | |
Vivaldi et al. | Improving term extraction by system combination using boosting | |
CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN110555206A (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN112883734B (zh) | 区块链安全事件舆情监测方法及*** | |
KR20150037924A (ko) | 제품 인식에 근거한 정보 분류 기법 | |
CN111563384A (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN110321466A (zh) | 一种基于语义分析的证券资讯查重方法及*** | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及*** | |
CN106126719A (zh) | 信息处理方法及装置 | |
CN114880635A (zh) | 集成提升树构建的模型的用户安全等级识别方法、***、电子设备及介质 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和*** | |
CN111274390A (zh) | 一种基于对话数据的情感原因确定方法及装置 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及*** | |
CN113761137A (zh) | 一种提取地址信息的方法及装置 | |
CN112183093A (zh) | 一种企业舆情分析方法、装置、设备及可读存储介质 | |
Prieto et al. | Text content based layout analysis | |
CN112381143B (zh) | 基于机器学习的变量自动分类方法及*** | |
JPH06282587A (ja) | 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置 | |
CN114049215A (zh) | 异常交易识别方法、装置及应用 | |
CN114943285A (zh) | 互联网新闻内容数据智能审核*** | |
CN114610882A (zh) | 一种基于电力短文本分类的异常设备编码检测方法和*** | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及*** | |
CN110909533B (zh) | 资源主题判定方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100190 17-19 / F, building a 1, 66 Zhongguancun East Road, Haidian District, Beijing Applicant after: New Great Wall Technology Co.,Ltd. Address before: 100190 17-19 / F, building a 1, 66 Zhongguancun East Road, Haidian District, Beijing Applicant before: GREAT WALL COMPUTER SOFTWARE & SYSTEMS Inc. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |