WO2019237540A1

WO2019237540A1 - 财政数据的获取方法、装置、终端设备及介质

Info

Publication number: WO2019237540A1
Application number: PCT/CN2018/105532
Authority: WO
Inventors: 苏晓明; 汪伟; 王晓伟; 徐冰; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-06-12
Filing date: 2018-09-13
Publication date: 2019-12-19
Also published as: CN109062874A; CN109062874B

Abstract

一种财政数据的获取方法、装置、终端设备及介质，适用于数据处理技术领域，降低了企业财政数据的获取难度，达到了财政数据的多维度获取效果。该方法包括：获取预先发布的待分析文本，所述待分析文本的初始格式为可移植文档pdf格式（S101）；通过预设的文本转换工具，将所述待分析文本的文本格式由pdf格式转换为文档doc格式（S102）；基于doc格式的待分析文本，获取待分析文本对应的文本编码；其中，所述文本编码包含多种类型的页面标签（S103）；查找页面标签中的表格标签，并根据表格标签所属的文本位置，定位待分析文本中的表格（S104）；提取与表格关联的各个字段值以及表格描述信息（S105）；将表格描述信息以及每一字段值输出至预先创建的文本文档，以使业务***对文本文档进行识别处理后，获取待分析文本所关联的财政数据（S106）。

Description

财政数据的获取方法、装置、终端设备及介质

本申请要求于2018年06月12日提交中国专利局、申请号为201810600697.4 、发明名称为“财政数据的获取方法、终端设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于数据处理技术领域，尤其涉及一种财政数据的获取方法、装置、终端设备及计算机可读存储介质。

背景技术

季报、年报以及招股书等文件均为企业的公开文件。公开文件中包含了很多有价值的财政数据。例如，企业应收账款、应付账款、收支状况、损益金额以及整体债务状况等。这些财政数据经过再次加工以及分析处理后，可体现出极大的参考价值。例如，在各种应用场合中，这些财政数据可用于独立分析企业的经营状况、确定企业所关联的行业产业链状况等。

然而，由于季报、年报以及招股书等公开文件的样式均较为复杂，故业界也暂时未公开要对这些公开文件进行财政数据的自动提取及分析处理，因此，无法实现财政数据的多维度获取。

技术问题

有鉴于此，本申请实施例提供了一种财政数据的获取方法、装置、终端设备及介质，以解决现有技术中无法实现财政数据的多维度获取的问题。

技术解决方案

本申请实施例的第一方面提供了一种财政数据的获取方法，包括：

获取预先发布的待分析文本，所述待分析文本的初始格式为可移植文档pdf格式；

通过预设的文本转换工具，将所述待分析文本的文本格式由所述pdf格式转换为文档doc格式；

基于所述doc格式的所述待分析文本，获取所述待分析文本所对应的文本编码；其中，所述文本编码包含多种类型的页面标签；

查找所述页面标签中的表格标签，并根据所述表格标签所属的文本位置，定位所述待分析文本中所存在的表格；

提取与所述表格关联的各个字段值以及表格描述信息；

将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档，以使业务***对所述文本文档进行识别处理后，获取所述待分析文本所关联的财政数据。

本申请实施例的第二方面提供了一种财政数据的获取装置，所述监控装置包括用于执行上述第一方面所述的财政数据的获取方法的单元。

本申请实施例的第三方面提供了一种终端设备，包括存储器以及处理器，所述存储器中存储有可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如第一方面所述的财政数据的获取方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如第一方面所述的财政数据的获取方法的步骤。

有益效果

本申请实施例中，由于原始加载得到的招股书、年报以及季报等公开文件都是以pdf格式存在的，故通过将这些公开文件的文本格式转换为doc格式，能够读取出待分析文本所对应的文本编码，从而根据文本编码中的表格标签来确定出表格所属的位置区域，实现了对表格的自动化定位；上述公开文件中，表格所包含的数据信息通常都是具有较高挖掘价值的财政数据，因此，在定位得到各表格位置后，通过提取出与表格关联的字段值以及表格描述信息，将其输出至预先创建的文本文档，保证了其他业务***都能够对兼容性较强的文本文档进行读取以及进行分析处理，从而实现了对企业财政数据的快速分析，避免了需要基于复杂样式的公开文件来读取企业财政数据，故降低了企业财政数据的获取难度；由于业务***可以通过上述文本文档来自动识别各类公开文件所包含的财政数据，故相对于现有技术来说，还达到了财政数据的多维度获取效果。

附图说明

图1是本申请实施例提供的财政数据的获取方法的实现流程图；

图2是本申请实施例提供的财政数据的获取方法S104的具体实现流程图；

图3是本申请实施例提供的财政数据的获取方法S105的具体实现流程图；

图4是本申请实施例提供的财政数据的获取方法S105的另一具体实现流程图；

图5是本申请另一实施例提供的财政数据的获取方法的实现流程图；

图6是本申请实施例提供的财政数据的获取装置的结构框图；

图7是本申请实施例提供的终端设备的示意图。

本发明的实施方式

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

图1示出了本申请实施例提供的财政数据的获取方法的实现流程，该方法流程包括步骤S101至S106。各步骤的具体实现原理如下：

S101：获取预先发布的待分析文本，所述待分析文本的初始格式为可移植文档pdf格式。

本申请实施例中，待分析文本为企业所发布的公开文件，包括季报、年报以及招股书等。根据预设的网站信息，定期从对应的公开网站中下载上述待分析文本。其中，由于企业在创建上述公开文件时，均以可移植文档（Portable Document Format，PDF）的格式进行输出，故从上述公开网站中所下载得到的待分析文本的格式均为PDF格式。

S102：通过预设的文本转换工具，将所述待分析文本的文本格式由所述pdf格式转换为文档doc格式。

对于每一个pdf格式的待分析文本，将其导入预设的文本转换工具，并在检测到用户发出的格式转换指令后，输出基于文档（document，doc）格式的待分析文件。上述文本转换工具例如可以是福昕转换器、PDF转换器以及迅捷转换器等。

S103：基于所述doc格式的所述待分析文本，获取所述待分析文本所对应的文本编码；其中，所述文本编码包含多种类型的页面标签。

对于doc格式的待分析文本，读取该待分析文本的文本编码。文本编码中包含有多种类型的页面标签，例如table表格标签以及paragraph段落标签等。

S104：查找所述页面标签中的表格标签，并根据所述表格标签所属的文本位置，定位所述待分析文本中所存在的表格。

本申请实施例中，遍历待分析文本所对应的文本编码，以通过预设的正则表达式，依次检测出出现于文本编码中的各类页面标签。并且，在检测得到的页面标签中，基于与表格标签对应的标签字符元素，定位各个表格标签。

若定位得到待分析文本中的任一表格标签，则确定后邻于该表格标签的文本编码为与待分析文本中的一个表格相匹配的文本编码，因此，根据该表格标签所属的文本位置，可确定待分析文本中表格所对应的定位。

作为本申请的一个实施例，图2示出了本申请实施例提供的财政数据的获取方法S104的具体实现流程，详述如下：

S1041：依次遍历所述文本编码中的各个编码块。

S1042：对每一所述编码块，判断该编码块所对应的页面标签类型是否为表格类型。

S1043：若该编码块所对应的页面标签类型为表格类型，则将内置标志位的属性值置为逻辑真值，以将该编码块所对应的文本位置标记为表格的起始位置。

S1044：返回执行所述依次遍历所述文本编码中的各个编码块的操作，直至取出的编码块所对应的页面标签类型为非表格类型且为非空值时，将该编码块所对应的文本位置标记为所述表格的结束位置。

本申请实施例中，文本编码中包含有多个编码块（block），每一block具有其对应的页面标签。通过预设的Document python插件，依次对文本编码中的每一个block进行读取。根据页面标签的不同，确定出每一block的页面标签类型。若block所对应的页面标签为表格标签，则确定该block的页面标签类型为表格类型；若block所对应的页面标签为段落标签，则确定该block的页面标签类型为段落类型。

本申请实施例中，若检测到任一block的页面标签类型为表格类型，则对于该block所属的文本位置，将该文本位置的start_table这一标志位的属性值置为逻辑真值true，以将该文本位置标记为当前所检测得到的一个表格的起始位置。此后，返回执行步骤S1041，以从当前的文本位置起，查找存在于文本编码中的下一block，并执行后续的步骤S1042至S1044。

在将上述文本位置的start_table标志位的属性值置为逻辑真值后，若检测到后续任一block存在对应的页面标签，且其页面标签类型为非表格类型（例如可能是段落类型），则将该block所属文本位置的end_table这一标志位的值置为逻辑真值true，以将该文本位置标记为当前所检测得到的一个表格的结束位置。

根据待分析文本中各个文本位置所对应的标志位信息，将start_table标志位为true的第一文本位置以及在第一文本置为之后首次出现的end_table标志位为true的第二文本位置确定为与一表格对应的文本区域。

本申请实施例适用于待分析文本中存在有分页显示的表格的场景之下。例如，在pdf格式的待分析文本中，若某一表格的高度较大，则该表格将会跨页显示，即，将该表格分割成至少两个子表格后，使得每一子表格分别显示于待分析文本的一个页面中。因此，在将待分析文本的文本格式转换为doc格式后，为了能够基于文本编码中的不同block来还原同一张表格，在连续监测到两个block的页面标签类型均为表格类型时，可确定两个block所属的文本位置均为表格所存在的位置区域。若检测到下一block的页面标签类型为段落类型，则表示上述表格已终止，因此，基于该block所属的文本位置以及前面各个block所属的文本位置，可定位并提取出待分析文本中所存在的一个完整表格。

本申请实施例中，通过对待分析文本中各个编码块的表格类型进行检测，可确定出各个文本位置所对应的内置标志位的属性值，从而基于各个属性值来准确识别出待分析文本中所存在的表格的起止位置，由此实现了对分页显示的表格的自动识别，使得各项财政数据被提取后能够被归类至同一表格之下，故提高了表格数据提取的准确性。

S105：提取与所述表格关联的各个字段值以及表格描述信息。

在定位出待分析文本所包含的每一表格后，通过Document python插件，读取该表格所对应的每个block的cell内容，并将其cell内容存储至预设的table_data数组，则该table_data数组所包含的数据为与该表格关联的各个字段值。

本申请实施例中，表格描述信息用于描述表格数据的主要内容，包括但不限于表格的标题、名字或者描述性信息。例如，若表格数据为A企业3月份的财政支出数据，则其表格描述信息可以为“3月份财政支出数据”。

示例性地，根据每一表格所属的位置区域，可将该位置区域之前或将该位置区域之后的多个字符值进行提取，以将其确定为该表格的表格描述信息。

作为本申请的一个实施例，图3示出了本申请实施例提供的财政数据的获取方法S105的具体实现流程，详述如下：

S10501：创建先进先出FIFO队列。

S10502：依次遍历所述文本编码中的各个编码块，并获取当前所遍历的所述编码块所对应的页面标签类型。

S10503：若所述编码块所对应的页面标签类型为段落类型，则将所述编码块所包含的各个字符依序存入所述FIFO队列，并读取所述FIFO队列的实时队列长度。

S10504：若所述FIFO队列的实时队列长度大于预设阈值，则移除存在于FIFO队列底部的多个所述字符，并返回执行所述依次遍历所述文本编码中的各个编码块，并获取当前所遍历的所述编码块所对应的页面标签类型的操作。

S10505：若所述编码块所对应的页面标签类型为表格类型，则将所述FIFO队列中的各个字符进行拼接，并将拼接结果输出为与所述表格关联的表格描述信息。

对定位出的每一表格，为了提取该表格的表格描述信息，先创建一个长度为预设值的先进先出队列（First Input First Output，FIFO）。根据该表格所属的文本位置，确定出该文本位置之前的各个block，并依次读取上述各个block的页面标签类型。若存在任一block的页面标签为非空值，且其页面标签类型为段落类型，则将该block的cell内容压入FIFO队列中。

本申请实施例中，在将block的cell内容压入FIFO队列之前，根据FIFO队列所包含的字符数，获取FIFO队列的实时队列长度。若实时队列长度大于预设的队列长度值，则表示FIFO队列已满，因此，将先进入FIFO队列的数据进行淘汰处理，以将当前所读取得到的block的cell内容压入处理后的FIFO队列中。此后，返回执行上述S1052，直至读取得到的block的页面标签类型为表格类型时，停止将任一block的cell内容压入FIFO队列。

本申请实施例中，在停止将block的cell内容压入FIFO队列后，提取FIFO队列中所包含的各个字符，并将各个字符所拼接得到的字符串输出为与表格关联的表格描述信息。

本申请实施例中，在检测到页面标签类型为表格类型的block时，通过停止将该block的cell内容压入FIFO队列，保证了FIFO队列所存储的各个字符为最接近表格位置区域的文本信息。通常来说，由于最接近表格位置区域的文本信息最能够体现表格数据的主要内容（例如，表格顶部的标题信息），因此，通过将FIFO队列中的各个字符进行拼接，并将该拼接结果输出为与表格关联的表格描述信息，实现表格描述信息的自动定位，提高了表格描述信息的提取准确率。

作为本申请的一个实施例，图4示出了本申请实施例提供的财政数据的获取方法S105的另一具体实现流程，详述如下：

S10506：若所述编码块所对应的页面标签类型为表格类型，则获取与预设关键词相关联的正则表达式。

S10507：基于所述正则表达式，对所述FIFO队列中的各个字符串进行检测处理。

S10508：若所述FIFO队列中存在与所述正则表达式匹配的所述字符串，则将该字符串输出为与所述表格关联的表格描述信息。

S10509：若所述FIFO队列中不存在与所述正则表达式匹配的所述字符串，则分别计算所述FIFO队列中每一所述字符串与其所属编码块中所述表格标签的标签距离值。

S10510：将所述标签距离值最小的一个所述字符串输出为与所述表格关联的表格描述信息。

本申请实施例中，基于该表格之前的文本信息来提取与该表格关联的表格描述信息，具体包括：在将页面标签类型为表格类型的block的cell内容压入FIFO队列后，获取与预设关联词关联的正则表达式。其中，预设关联词为与表格标题等表格描述性信息具有较大关联度的字符。例如，常见的表格标题通常都是以“XXX表”的格式存在，故对应该类表格标题的正则表达式可以是“[\s\S]*\表$”。在页面标签类型为表格类型的block中，基于获取得到的正则表达式，对FIFO队列中所存储的各个字符串进行检测处理。

若在FIFO队列中检测到满足上述正则表达式的字符串，则将该字符串进行提取，并将其输出为与表格关联的表格描述信息。

若在FIFO队列中未检测到满足上述正则表达式的字符串，则表示表格所属的文本位置之前，并未存在与表格标题相似的描述性信息，此时，以FIFO队列中相邻的N个（N为预设值，且N为大于1的整数）字符为一个字符串，根据其中最后一个字符所属block的样式标签，读取该block的标签距离值。标签距离值表示字符所属文本位置与当前页面底部的距离值。基于该方式，分别获取FIFO队列中各个字符串的标签距离值后，选取其中标签距离值最小的一个字符串。将上述标签距离值最小的一个字符串输出为与表格关联的表格描述信息。

本申请实施例中，由于标签距离值最小的字符串与页面底部的距离较近，且该字符串所属的block位于表格之前，由此可确定出该字符串所属的文本位置也与表格的起始位置最为接近。通常来说，最接近表格起始位置的文本信息能够较为清楚地描述表格数据的主题内容，因此，通过将该字符串作为输出为与表格关联的表格描述信息，在一定程度上也提高了表格描述信息的准确性。

S106：将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档，以使业务***对所述文本文档进行识别处理后，获取所述待分析文本所关联的财政数据。

本申请实施例中，在获取表格中的各个字段值以及获取与表格关联的表格描述信息后，根据各个字符的先后获取次序，依序将表格描述信息以及各个字段值输出至预先创建的文本文档。其中，文本文档的文本格式为txt格式。

优选地，上述文本文档中，在相邻的任意两个字段值之间，***一预设的分隔符。

优选地，将表格描述信息输出值上述文本文档的顶部位置，并在表格描述信息以及字段值之间，***一换行符。

本申请实施例中，将上述文本文档发送至预先连接的各个业务***。由于各版本类型的业务***对txt格式的文本文档均有着较好的兼容性，因而使得业务***能够对该文本文档进行识别处理，以提取待分析文本所关联的财政数据。

本申请实施例实现了对企业财政数据的快速分析，避免了需要基于复杂样式的公开文件来读取企业财政数据，故降低了企业财政数据的获取难度；由于业务***可以通过上述文本文档来自动识别各类公开文件所包含的财政数据，故相对于现有技术来说，还达到了财政数据的多维度获取效果。

作为本申请的另一个实施例，如图5所示，在上述S106之后，还包括：

S107：加载报告模板，并根据所述报告模板中预先设置好的表头，将各项所述财政数据分别导入至对应的表体中。

S108：根据导入结果，生成并展示财政数据分析报表。

本申请实施例中，加载预先生成的报告模板，所述报告模板包含各项表头，每一表头与一表体对应，且每一表头用于描述表格中一字段值的字段属性，每一表体用于记录一字段值。对于报告模板中预先设置好的每一表头，根据该表头所描述的字段属性，在S106所生成的文本文档的各项数据中，筛选出该字段属性所对应的字段值，并将该字段值导入报告模板该表头所对应的表体中。根据报告模板所导入的每一字段属性的字段值，通过预设的计算公式，分别计算各项统计信息值，以将得到的统计结果导入至报告模板的表尾后，输出并展示该财政数据分析报表。

本申请实施例中，通过将文本文档中的各项字段值导入预先生成的报告模板，使得最终展示的财政数据分析报表能够详细列举数据分析过程中的各个字段值，便于用户检查财政数据的分析过程是否有误，因而也进一步提高了财政数据分析报表的可靠性以及准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的财政数据的获取方法，图6示出了本申请实施例提供的财政数据的获取装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图6，该装置包括：

第一获取单元61，用于获取预先发布的待分析文本，所述待分析文本的初始格式为可移植文档pdf格式。

转换单元62，用于通过预设的文本转换工具，将所述待分析文本的文本格式由所述pdf格式转换为文档doc格式。

第二获取单元63，用于基于所述doc格式的所述待分析文本，获取所述待分析文本所对应的文本编码；其中，所述文本编码包含多种类型的页面标签。

查找单元64，用于查找所述页面标签中的表格标签，并根据所述表格标签所属的文本位置，定位所述待分析文本中所存在的表格。

提取单元65，用于提取与所述表格关联的各个字段值以及表格描述信息。

输出单元66，用于将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档，以使业务***对所述文本文档进行识别处理后，获取所述待分析文本所关联的财政数据。

可选地，所述查找单元64包括：

遍历子单元，用于依次遍历所述文本编码中的各个编码块。

判断子单元，用于对每一所述编码块，判断该编码块所对应的页面标签类型是否为表格类型。

标记子单元，用于若该编码块所对应的页面标签类型为表格类型，则将内置标志位的属性值置为逻辑真值，以将该编码块所对应的文本位置标记为表格的起始位置。

返回子单元，用于返回执行所述依次遍历所述文本编码中的各个编码块的操作，直至取出的编码块所对应的页面标签类型为非表格类型且为非空值时，将该编码块所对应的文本位置标记为所述表格的结束位置。

可选地，所述提取单元65包括：

创建子单元，用于创建先进先出FIFO队列。

获取子单元，用于依次遍历所述文本编码中的各个编码块，并获取当前所遍历的所述编码块所对应的页面标签类型。

存储子单元，用于若所述编码块所对应的页面标签类型为段落类型，则将所述编码块所包含的各个字符依序存入所述FIFO队列，并读取所述FIFO队列的实时队列长度。

移除子单元，用于若所述FIFO队列的实时队列长度大于预设阈值，则移除存在于FIFO队列底部的多个所述字符，并返回执行所述依次遍历所述文本编码中的各个编码块，并获取当前所遍历的所述编码块所对应的页面标签类型的操作。

拼接子单元，用于若所述编码块所对应的页面标签类型为表格类型，则将所述FIFO队列中的各个字符进行拼接，并将拼接结果输出为与所述表格关联的表格描述信息。

可选地，所述拼接子单元具体用于：若所述编码块所对应的页面标签类型为表格类型，则获取与预设关键词相关联的正则表达式；

基于所述正则表达式，对所述FIFO队列中的各个字符串进行检测处理；

若所述FIFO队列中存在与所述正则表达式匹配的所述字符串，则将该字符串输出为与所述表格关联的表格描述信息；

若所述FIFO队列中不存在与所述正则表达式匹配的所述字符串，则分别计算所述FIFO队列中每一所述字符串与其所属编码块中所述表格标签的标签距离值；

将所述标签距离值最小的一个所述字符串输出为与所述表格关联的表格描述信息。

可选地，所述财政数据的获取装置还包括：加载单元，用于加载报告模板，并根据所述报告模板中预先设置好的表头，将各项所述财政数据分别导入至对应的表体中。

生成单元，用于根据导入结果，生成并展示财政数据分析报表。

图7是本申请一实施例提供的终端设备的示意图。如图7所示，该实施例的终端设备7包括处理器70以及存储器71，所述存储器71中存储有可在所述处理器70上运行的计算机可读指令72，例如财政数据的获取程序。所述处理器70执行所述计算机可读指令72时实现上述各个财政数据的获取方法实施例中的步骤，例如图1所示的步骤101至106。或者，所述处理器70执行所述计算机可读指令72时实现上述各装置实施例中各模块/单元的功能，例如图6所示单元61至66的功能。

示例性的，所述计算机可读指令72可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器71中，并由所述处理器70执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令72在所述终端设备7中的执行过程。

所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图7仅仅是终端设备7的示例，并不构成对终端设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述终端设备7的内部存储单元，例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备，例如所述终端设备7上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种财政数据的获取方法，其特征在于，包括：

获取预先发布的待分析文本，所述待分析文本的初始格式为可移植文档pdf格式；

通过预设的文本转换工具，将所述待分析文本的文本格式由所述pdf格式转换为文档doc格式；

基于所述doc格式的所述待分析文本，获取所述待分析文本所对应的文本编码；其中，所述文本编码包含多种类型的页面标签；

查找所述页面标签中的表格标签，并根据所述表格标签所属的文本位置，定位所述待分析文本中所存在的表格；

提取与所述表格关联的各个字段值以及表格描述信息；

将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档，以使业务***对所述文本文档进行识别处理后，获取所述待分析文本所关联的财政数据。
如权利要求1所述的财政数据的获取方法，其特征在于，所述查找所述页面标签中的表格标签，并根据所述表格标签所属的文本位置，定位所述待分析文本中所存在的表格，包括：

依次遍历所述文本编码中的各个编码块；

对每一所述编码块，判断该编码块所对应的页面标签类型是否为表格类型；

若该编码块所对应的页面标签类型为表格类型，则将内置标志位的属性值置为逻辑真值，以将该编码块所对应的文本位置标记为表格的起始位置；

返回执行所述依次遍历所述文本编码中的各个编码块的操作，直至取出的编码块所对应的页面标签类型为非表格类型且为非空值时，将该编码块所对应的文本位置标记为所述表格的结束位置。
如权利要求1所述的财政数据的获取方法，其特征在于，所述提取与所述表格关联的各个字段值以及表格描述信息，包括：

创建先进先出FIFO队列；

依次遍历所述文本编码中的各个编码块，并获取当前所遍历的所述编码块所对应的页面标签类型；

若所述编码块所对应的页面标签类型为段落类型，则将所述编码块所包含的各个字符依序存入所述FIFO队列，并读取所述FIFO队列的实时队列长度；

若所述FIFO队列的实时队列长度大于预设阈值，则移除存在于FIFO队列底部的多个所述字符，并返回执行所述依次遍历所述文本编码中的各个编码块，并获取当前所遍历的所述编码块所对应的页面标签类型的操作；

若所述编码块所对应的页面标签类型为表格类型，则将所述FIFO队列中的各个字符进行拼接，并将拼接结果输出为与所述表格关联的表格描述信息。
如权利要求3所述的财政数据的获取方法，其特征在于，所述若所述编码块所对应的页面标签类型为表格类型，则将所述FIFO队列中的各个字符进行拼接，并将拼接结果输出为与所述表格关联的表格描述信息，包括：

若所述编码块所对应的页面标签类型为表格类型，则获取与预设关键词相关联的正则表达式；

基于所述正则表达式，对所述FIFO队列中的各个字符串进行检测处理；

若所述FIFO队列中存在与所述正则表达式匹配的所述字符串，则将该字符串输出为与所述表格关联的表格描述信息；

若所述FIFO队列中不存在与所述正则表达式匹配的所述字符串，则分别计算所述FIFO队列中每一所述字符串与其所属编码块中所述表格标签的标签距离值；

将所述标签距离值最小的一个所述字符串输出为与所述表格关联的表格描述信息。
如权利要求1所述的财政数据的获取方法，其特征在于，在所述将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档，以使业务***对所述文本文档进行识别处理后，获取所述待分析文本所关联的财政数据之后，还包括：

加载报告模板，并根据所述报告模板中预先设置好的表头，将各项所述财政数据分别导入至对应的表体中；

根据导入结果，生成并展示财政数据分析报表。
一种财政数据的获取装置，其特征在于，包括：

第一获取单元，用于获取预先发布的待分析文本，所述待分析文本的初始格式为可移植文档pdf格式。

转换单元，用于通过预设的文本转换工具，将所述待分析文本的文本格式由所述pdf格式转换为文档doc格式；

第二获取单元，用于基于所述doc格式的所述待分析文本，获取所述待分析文本所对应的文本编码；其中，所述文本编码包含多种类型的页面标签；

查找单元，用于查找所述页面标签中的表格标签，并根据所述表格标签所属的文本位置，定位所述待分析文本中所存在的表格；

提取单元，用于提取与所述表格关联的各个字段值以及表格描述信息；

输出单元，用于将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档，以使业务***对所述文本文档进行识别处理后，获取所述待分析文本所关联的财政数据。
根据权利要求6所述的财政数据的获取装置，其特征在于，所述查找单元包括：

遍历子单元，用于依次遍历所述文本编码中的各个编码块；

判断子单元，用于对每一所述编码块，判断该编码块所对应的页面标签类型是否为表格类型；

标记子单元，用于若该编码块所对应的页面标签类型为表格类型，则将内置标志位的属性值置为逻辑真值，以将该编码块所对应的文本位置标记为表格的起始位置；

返回子单元，用于返回执行所述依次遍历所述文本编码中的各个编码块的操作，直至取出的编码块所对应的页面标签类型为非表格类型且为非空值时，将该编码块所对应的文本位置标记为所述表格的结束位置。
根据权利要求6所述的财政数据的获取装置，其特征在于，所述提取单元包括：

创建子单元，用于创建先进先出FIFO队列；

获取子单元，用于依次遍历所述文本编码中的各个编码块，并获取当前所遍历的所述编码块所对应的页面标签类型；

存储子单元，用于若所述编码块所对应的页面标签类型为段落类型，则将所述编码块所包含的各个字符依序存入所述FIFO队列，并读取所述FIFO队列的实时队列长度；

移除子单元，用于若所述FIFO队列的实时队列长度大于预设阈值，则移除存在于FIFO队列底部的多个所述字符，并返回执行所述依次遍历所述文本编码中的各个编码块，并获取当前所遍历的所述编码块所对应的页面标签类型的操作；

拼接子单元，用于若所述编码块所对应的页面标签类型为表格类型，则将所述FIFO队列中的各个字符进行拼接，并将拼接结果输出为与所述表格关联的表格描述信息。
根据权利要求8所述的财政数据的获取装置，其特征在于，所述拼接子单元具体用于：

若所述编码块所对应的页面标签类型为表格类型，则获取与预设关键词相关联的正则表达式；

基于所述正则表达式，对所述FIFO队列中的各个字符串进行检测处理；

若所述FIFO队列中存在与所述正则表达式匹配的所述字符串，则将该字符串输出为与所述表格关联的表格描述信息；

若所述FIFO队列中不存在与所述正则表达式匹配的所述字符串，则分别计算所述FIFO队列中每一所述字符串与其所属编码块中所述表格标签的标签距离值；

将所述标签距离值最小的一个所述字符串输出为与所述表格关联的表格描述信息。
根据权利要求6所述的财政数据的获取装置，其特征在于，还包括：

加载单元，用于加载报告模板，并根据所述报告模板中预先设置好的表头，将各项所述财政数据分别导入至对应的表体中；

生成单元，用于根据导入结果，生成并展示财政数据分析报表。
一种终端设备，其特征在于，包括存储器以及处理器，所述存储器中存储有可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

获取预先发布的待分析文本，所述待分析文本的初始格式为可移植文档pdf格式；

通过预设的文本转换工具，将所述待分析文本的文本格式由所述pdf格式转换为文档doc格式；

基于所述doc格式的所述待分析文本，获取所述待分析文本所对应的文本编码；其中，所述文本编码包含多种类型的页面标签；

查找所述页面标签中的表格标签，并根据所述表格标签所属的文本位置，定位所述待分析文本中所存在的表格；

提取与所述表格关联的各个字段值以及表格描述信息；

将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档，以使业务***对所述文本文档进行识别处理后，获取所述待分析文本所关联的财政数据。
根据权利要求11所述的终端设备，其特征在于，所述查找所述页面标签中的表格标签，并根据所述表格标签所属的文本位置，定位所述待分析文本中所存在的表格，包括：

依次遍历所述文本编码中的各个编码块；

对每一所述编码块，判断该编码块所对应的页面标签类型是否为表格类型；

若该编码块所对应的页面标签类型为表格类型，则将内置标志位的属性值置为逻辑真值，以将该编码块所对应的文本位置标记为表格的起始位置；

返回执行所述依次遍历所述文本编码中的各个编码块的操作，直至取出的编码块所对应的页面标签类型为非表格类型且为非空值时，将该编码块所对应的文本位置标记为所述表格的结束位置。
根据权利要求11所述的终端设备，其特征在于，所述提取与所述表格关联的各个字段值以及表格描述信息，包括：

创建先进先出FIFO队列；

依次遍历所述文本编码中的各个编码块，并获取当前所遍历的所述编码块所对应的页面标签类型；

若所述编码块所对应的页面标签类型为段落类型，则将所述编码块所包含的各个字符依序存入所述FIFO队列，并读取所述FIFO队列的实时队列长度；

若所述FIFO队列的实时队列长度大于预设阈值，则移除存在于FIFO队列底部的多个所述字符，并返回执行所述依次遍历所述文本编码中的各个编码块，并获取当前所遍历的所述编码块所对应的页面标签类型的操作；

若所述编码块所对应的页面标签类型为表格类型，则将所述FIFO队列中的各个字符进行拼接，并将拼接结果输出为与所述表格关联的表格描述信息。
根据权利要求13所述的终端设备，其特征在于，所述若所述编码块所对应的页面标签类型为表格类型，则将所述FIFO队列中的各个字符进行拼接，并将拼接结果输出为与所述表格关联的表格描述信息，包括：

若所述编码块所对应的页面标签类型为表格类型，则获取与预设关键词相关联的正则表达式；

基于所述正则表达式，对所述FIFO队列中的各个字符串进行检测处理；

若所述FIFO队列中存在与所述正则表达式匹配的所述字符串，则将该字符串输出为与所述表格关联的表格描述信息；

若所述FIFO队列中不存在与所述正则表达式匹配的所述字符串，则分别计算所述FIFO队列中每一所述字符串与其所属编码块中所述表格标签的标签距离值；

将所述标签距离值最小的一个所述字符串输出为与所述表格关联的表格描述信息。
根据权利要求11所述的终端设备，其特征在于，所述处理器执行所述计算机可读指令时还实现如下步骤：

加载报告模板，并根据所述报告模板中预先设置好的表头，将各项所述财政数据分别导入至对应的表体中；

根据导入结果，生成并展示财政数据分析报表。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被至少一个处理器执行时实现如下步骤：

获取预先发布的待分析文本，所述待分析文本的初始格式为可移植文档pdf格式；

通过预设的文本转换工具，将所述待分析文本的文本格式由所述pdf格式转换为文档doc格式；

基于所述doc格式的所述待分析文本，获取所述待分析文本所对应的文本编码；其中，所述文本编码包含多种类型的页面标签；

查找所述页面标签中的表格标签，并根据所述表格标签所属的文本位置，定位所述待分析文本中所存在的表格；

提取与所述表格关联的各个字段值以及表格描述信息；

将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档，以使业务***对所述文本文档进行识别处理后，获取所述待分析文本所关联的财政数据。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述查找所述页面标签中的表格标签，并根据所述表格标签所属的文本位置，定位所述待分析文本中所存在的表格，包括：

依次遍历所述文本编码中的各个编码块；

对每一所述编码块，判断该编码块所对应的页面标签类型是否为表格类型；

若该编码块所对应的页面标签类型为表格类型，则将内置标志位的属性值置为逻辑真值，以将该编码块所对应的文本位置标记为表格的起始位置；

返回执行所述依次遍历所述文本编码中的各个编码块的操作，直至取出的编码块所对应的页面标签类型为非表格类型且为非空值时，将该编码块所对应的文本位置标记为所述表格的结束位置。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述提取与所述表格关联的各个字段值以及表格描述信息，包括：

创建先进先出FIFO队列；

依次遍历所述文本编码中的各个编码块，并获取当前所遍历的所述编码块所对应的页面标签类型；

若所述编码块所对应的页面标签类型为段落类型，则将所述编码块所包含的各个字符依序存入所述FIFO队列，并读取所述FIFO队列的实时队列长度；

若所述FIFO队列的实时队列长度大于预设阈值，则移除存在于FIFO队列底部的多个所述字符，并返回执行所述依次遍历所述文本编码中的各个编码块，并获取当前所遍历的所述编码块所对应的页面标签类型的操作；

若所述编码块所对应的页面标签类型为表格类型，则将所述FIFO队列中的各个字符进行拼接，并将拼接结果输出为与所述表格关联的表格描述信息。
根据权利要求18所述的计算机可读存储介质，其特征在于，所述若所述编码块所对应的页面标签类型为表格类型，则将所述FIFO队列中的各个字符进行拼接，并将拼接结果输出为与所述表格关联的表格描述信息，包括：

若所述编码块所对应的页面标签类型为表格类型，则获取与预设关键词相关联的正则表达式；

基于所述正则表达式，对所述FIFO队列中的各个字符串进行检测处理；

若所述FIFO队列中存在与所述正则表达式匹配的所述字符串，则将该字符串输出为与所述表格关联的表格描述信息；

若所述FIFO队列中不存在与所述正则表达式匹配的所述字符串，则分别计算所述FIFO队列中每一所述字符串与其所属编码块中所述表格标签的标签距离值；

将所述标签距离值最小的一个所述字符串输出为与所述表格关联的表格描述信息。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述计算机可读指令被至少一个处理器执行时还实现如下步骤：

加载报告模板，并根据所述报告模板中预先设置好的表头，将各项所述财政数据分别导入至对应的表体中；

根据导入结果，生成并展示财政数据分析报表。