WO2019237540A1 - 财政数据的获取方法、装置、终端设备及介质 - Google Patents

财政数据的获取方法、装置、终端设备及介质 Download PDF

Info

Publication number
WO2019237540A1
WO2019237540A1 PCT/CN2018/105532 CN2018105532W WO2019237540A1 WO 2019237540 A1 WO2019237540 A1 WO 2019237540A1 CN 2018105532 W CN2018105532 W CN 2018105532W WO 2019237540 A1 WO2019237540 A1 WO 2019237540A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
coding block
analyzed
fifo queue
encoding
Prior art date
Application number
PCT/CN2018/105532
Other languages
English (en)
French (fr)
Inventor
苏晓明
汪伟
王晓伟
徐冰
肖京
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2019237540A1 publication Critical patent/WO2019237540A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F5/00Methods or arrangements for data conversion without changing the order or content of the data handled
    • G06F5/06Methods or arrangements for data conversion without changing the order or content of the data handled for changing the speed of data flow, i.e. speed regularising or timing, e.g. delay lines, FIFO buffers; over- or underrun control therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Definitions

  • the present application belongs to the technical field of data processing, and particularly relates to a method, an apparatus, a terminal device, and a computer-readable storage medium for acquiring financial data.
  • Documents such as quarterly reports, annual reports and prospectuses are public documents of the enterprise.
  • Public documents contain a lot of valuable financial data. For example, corporate accounts receivable, accounts payable, income and expenditure status, profit and loss amounts, and overall debt status. After reprocessing and analysis of these financial data, they can show great reference value. For example, in various applications, these financial data can be used to independently analyze the operating status of an enterprise and determine the status of the industrial chain of the industry to which the enterprise is associated.
  • embodiments of the present application provide a method, an apparatus, a terminal device, and a medium for acquiring financial data, so as to solve the problem that multiple-dimensional acquisition of financial data cannot be achieved in the prior art.
  • a first aspect of the embodiments of the present application provides a method for acquiring financial data, including:
  • an initial format of the text to be analyzed is a portable document pdf format
  • a second aspect of the embodiments of the present application provides an apparatus for acquiring financial data
  • the monitoring apparatus includes a unit for executing the method for acquiring financial data described in the first aspect.
  • a third aspect of the embodiments of the present application provides a terminal device including a memory and a processor.
  • the memory stores computer-readable instructions executable on the processor, and the processor executes the computer-readable instructions.
  • the steps of the method for obtaining financial data as described in the first aspect are implemented when the instruction is read.
  • a fourth aspect of the embodiments of the present application provides a computer-readable storage medium, where the computer-readable storage medium stores computer-readable instructions, and the computer-readable instructions are implemented as described in the first aspect when executed by a processor. Steps in the method of obtaining financial data.
  • the public documents such as the prospectus, annual report and quarterly report obtained in the original loading exist in the pdf format
  • the text to be analyzed can be read.
  • Corresponding text encoding so as to determine the location area to which the form belongs according to the form label in the text encoding, to realize the automatic positioning of the form; in the above public documents, the data information contained in the form is usually of high mining value Financial data.
  • FIG. 1 is an implementation flowchart of a method for acquiring financial data provided by an embodiment of the present application
  • FIG. 2 is a detailed implementation flowchart of a method S104 for obtaining financial data according to an embodiment of the present application
  • FIG. 3 is a detailed implementation flowchart of a method S105 for obtaining financial data provided by an embodiment of the present application
  • FIG. 4 is another specific implementation flowchart of a method S105 for obtaining financial data according to an embodiment of the present application.
  • FIG. 5 is an implementation flowchart of a method for acquiring financial data provided by another embodiment of the present application.
  • FIG. 6 is a structural block diagram of an apparatus for acquiring financial data provided by an embodiment of the present application.
  • FIG. 7 is a schematic diagram of a terminal device according to an embodiment of the present application.
  • FIG. 1 illustrates an implementation flow of a method for acquiring financial data provided by an embodiment of the present application.
  • the method flow includes steps S101 to S106.
  • the specific implementation principle of each step is as follows:
  • S101 Obtain a pre-published text to be analyzed, and an initial format of the text to be analyzed is a portable document pdf format.
  • the texts to be analyzed are public documents issued by the enterprise, including quarterly reports, annual reports, and prospectuses. Download the text to be analyzed from the corresponding public website regularly according to preset website information.
  • PDF Portable Document Format
  • S102 Convert a text format of the text to be analyzed from the pdf format to a document doc format by using a preset text conversion tool.
  • the text conversion tool may be, for example, a Foxit converter, a PDF converter, and a quick converter.
  • S103 Obtain a text encoding corresponding to the text to be analyzed based on the text to be analyzed in the doc format; wherein the text encoding includes multiple types of page tags.
  • Text encoding contains many types of page tags, such as table tags and paragraph paragraph tags.
  • S104 Find a form label in the page label, and locate a form existing in the text to be analyzed according to a text position to which the form label belongs.
  • the text encoding corresponding to the text to be analyzed is traversed to sequentially detect various types of page tags appearing in the text encoding through a preset regular expression. And, among the detected page tags, each form tag is located based on a tag character element corresponding to the form tag.
  • any table label in the text to be analyzed is located, it is determined that the text code adjacent to the table label is a text code that matches a table in the text to be analyzed. Therefore, according to the text position to which the table label belongs, The position of the table in the text to be analyzed can be determined.
  • FIG. 2 shows a specific implementation process of the method S104 for obtaining financial data provided by an embodiment of the present application, which is detailed as follows:
  • S1042 For each of the coding blocks, determine whether a page tag type corresponding to the coding block is a table type.
  • S1044 Return and execute the operation of successively traversing each encoding block in the text encoding until the page tag type corresponding to the extracted encoding block is a non-table type and a non-null value, and the text corresponding to the encoding block is The position is marked as the end position of the table.
  • the text encoding includes a plurality of encoding blocks, and each block has a corresponding page label.
  • each block in the text encoding is read in turn.
  • the page tag type of each block is determined. If the page tag corresponding to the block is a table tag, it is determined that the page tag type of the block is a table type; if the page tag corresponding to the block is a paragraph tag, the page tag type of the block is determined to be a paragraph type.
  • the attribute value of the start_table flag bit of the text position is set to a logical true value of true to Mark the text position as the starting position of a table currently detected. After that, return to step S1041 to find the next block existing in the text encoding from the current text position, and execute the subsequent steps S1042 to S1044.
  • the page tag type is non-table type (for example, it may be a paragraph type)
  • the value of the flag bit end_table of the text position to which the block belongs is set to a logical true value to mark the text position as the end position of a table currently detected.
  • the first text position where the start_table flag is true and the second text position where the end_table flag which appears for the first time after the first text is set to true are determined as and The text area corresponding to a table.
  • the embodiment of the present application is applicable to a scenario in which a page display table exists in the text to be analyzed.
  • a page display table exists in the text to be analyzed.
  • the table will be displayed across pages, that is, the table is divided into at least two sub-tables, so that each sub-table is displayed separately On a page of text to analyze. Therefore, after converting the text format of the text to be analyzed to doc format, in order to be able to restore the same table based on different blocks in the text encoding, it can be determined when the page tag types of both blocks are continuously monitored as table types.
  • the text positions to which the two blocks belong are the position areas where the table exists.
  • the attribute value of the built-in flag bit corresponding to each text position can be determined, so as to accurately identify the content in the text to be analyzed based on each attribute value.
  • the starting and ending positions of the existing forms thereby realizing automatic identification of the forms displayed on the page, so that various financial data can be classified under the same form after being extracted, thereby improving the accuracy of the form data extraction.
  • the form description information is used to describe the main content of the form data, including but not limited to the title, name, or descriptive information of the form.
  • the table data is the financial expenditure data of Enterprise A in March
  • the table description information may be "March fiscal expenditure data".
  • multiple character values before the location area or after the location area may be extracted to determine it as the table description information of the table.
  • FIG. 3 shows a specific implementation process of the method S105 for obtaining financial data provided in the embodiment of the present application, which is detailed as follows:
  • S10501 Create a FIFO queue.
  • S10502 traverse each coding block in the text encoding in sequence, and obtain the page tag type corresponding to the currently traversed coding block.
  • S10503 If the type of the page tag corresponding to the encoding block is a paragraph type, sequentially store each character contained in the encoding block into the FIFO queue, and read the real-time queue length of the FIFO queue.
  • S10504 if the real-time queue length of the FIFO queue is greater than a preset threshold, remove a plurality of the characters existing at the bottom of the FIFO queue, and return to execute the sequential traversal of each encoding block in the text encoding and obtain The operation of the page label type corresponding to the currently traversed coding block.
  • FIFO First Input First Output
  • the real-time queue length of the FIFO queue is obtained according to the number of characters contained in the FIFO queue. If the real-time queue length is greater than the preset queue length value, it indicates that the FIFO queue is full. Therefore, the data that enters the FIFO queue first is eliminated, so as to push the currently read block cell content into the processed FIFO. In the queue. Thereafter, return to and execute the above S1052, and when the page label type of the read block is a table type, stop pushing the cell content of any block into the FIFO queue.
  • each character contained in the FIFO queue is extracted, and a character string obtained by splicing each character is output as table description information associated with a table.
  • each character stored in the FIFO queue is the text information closest to the table location area.
  • the text information closest to the location area of the table can best reflect the main content of the table data (for example, the header information at the top of the table)
  • stitching the characters in the FIFO queue and outputting the result of the splicing For the table description information associated with the table, automatic positioning of the table description information is achieved, and the accuracy of extracting the table description information is improved.
  • FIG. 4 shows another specific implementation process of the method S105 for obtaining financial data provided in the embodiment of the present application, which is detailed as follows:
  • S10507 Perform detection processing on each character string in the FIFO queue based on the regular expression.
  • S10510 Output one of the character strings with the smallest tag distance value as table description information associated with the table.
  • extracting the table description information associated with the table based on the text information before the table specifically includes: after the cell content of the block whose page label type is the table type is pushed into the FIFO queue, obtaining and presetting A regular expression associated with the associated word.
  • the preset related words are characters having a high degree of relevance to the descriptive information of the table such as the table title.
  • common table titles usually exist in the format of "XXX table”, so the regular expression corresponding to the class table title can be "[ ⁇ s ⁇ S] * ⁇ ⁇ $".
  • each string stored in the FIFO queue is detected and processed.
  • the character string is extracted and output as the table description information associated with the table.
  • N is a preset value, and N is an integer greater than 1.
  • the character is a character string.
  • the style tag of the block to which the last character belongs read the tag distance value of the block.
  • the label distance value indicates the distance between the text position of the character and the bottom of the current page. Based on this method, after obtaining the tag distance value of each character string in the FIFO queue, a character string with the smallest tag distance value is selected. A string with the smallest tag distance value is output as table description information associated with the table.
  • the text position to which the string belongs also corresponds to the start of the table.
  • the starting position is the closest.
  • the text information closest to the starting position of the table can more clearly describe the subject content of the table data. Therefore, by outputting this string as the table description information associated with the table, the table is also improved to a certain extent Describe the accuracy of the information.
  • S106 Output the form description information and each of the field values to a pre-created text document, so that the business system obtains the financial data associated with the text to be analyzed after the text document is identified.
  • the form description information and each field value are sequentially output to a pre-created text document .
  • the text format of the text document is txt format.
  • a preset separator is inserted between any two adjacent field values.
  • the form description information is output at the top position of the above text document, and a line break is inserted between the form description information and the field value.
  • the text document is sent to each service system connected in advance. Because the business systems of each version type have better compatibility with text files in txt format, the business system can identify and process the text files to extract the financial data associated with the text to be analyzed.
  • the embodiment of the present application realizes the rapid analysis of corporate financial data, avoids the need to read corporate financial data based on public files of complex styles, thereby reducing the difficulty of obtaining corporate financial data; because the business system can automatically use the above text files to automatically Identifying the financial data contained in various types of public documents, compared to the prior art, multi-dimensional acquisition of financial data has also been achieved.
  • the method further includes:
  • S107 Load a report template, and import each of the financial data into a corresponding table body according to a preset header in the report template.
  • a pre-generated report template is loaded, the report template includes various headers, each header corresponds to a body, and each header is used to describe a field attribute of a field value in the form, Each table body is used to record a field value.
  • the field value corresponding to the field attribute is filtered, and the The field values are imported into the table body corresponding to the header of the report template.
  • each statistical information value is calculated through a preset calculation formula to import the obtained statistical results to the footer of the report template, and then output and display the financial data Analyze the report.
  • the field values in the text document are imported into a pre-generated report template, so that the final financial data analysis report can list the field values in the data analysis process in detail, which is convenient for users to check the analysis of financial data Whether the process is wrong, thereby further improving the reliability and accuracy of financial data analysis reports.
  • FIG. 6 shows a structural block diagram of a device for acquiring financial data provided by an embodiment of the present application. For convenience of explanation, only the relevant data of the embodiment of the present application are shown. section.
  • the device includes:
  • the first obtaining unit 61 is configured to obtain a pre-published text to be analyzed, and an initial format of the text to be analyzed is a portable document pdf format.
  • the conversion unit 62 is configured to convert a text format of the text to be analyzed from the pdf format to a document doc format by using a preset text conversion tool.
  • the second obtaining unit 63 is configured to obtain a text encoding corresponding to the text to be analyzed based on the text to be analyzed in the doc format, where the text encoding includes multiple types of page tags.
  • the searching unit 64 is configured to search for a form tag in the page tag, and locate a form existing in the text to be analyzed according to a text position to which the form tag belongs.
  • the extraction unit 65 is configured to extract various field values and table description information associated with the table.
  • An output unit 66 is configured to output the form description information and each of the field values to a pre-created text document, so that the business system obtains the text document to be analyzed after the text document is identified. Financial data.
  • the search unit 64 includes:
  • the traversing subunit is used to sequentially traverse each coding block in the text coding.
  • the judging subunit is configured to judge, for each of the coding blocks, whether a page tag type corresponding to the coding block is a table type.
  • a marking subunit configured to set the attribute value of the built-in flag bit to a logical truth value if the page tag type corresponding to the coding block is a table type, so as to mark the text position corresponding to the coding block as the start of the table position.
  • a return subunit for returning to perform the operation of successively traversing each encoding block in the text encoding until the page tag type corresponding to the extracted encoding block is a non-table type and a non-null value, the encoding block The corresponding text position is marked as the end position of the table.
  • the extraction unit 65 includes:
  • An acquisition subunit is configured to sequentially traverse each coding block in the text encoding, and obtain a page tag type corresponding to the currently traversed coding block.
  • a storage subunit configured to sequentially store each character contained in the encoding block into the FIFO queue if the page tag type corresponding to the encoding block is a paragraph type, and read the real-time of the FIFO queue The queue length.
  • a removing subunit configured to remove a plurality of the characters existing at the bottom of the FIFO queue if the real-time queue length of the FIFO queue is greater than a preset threshold, and return to execute each of the text encoding in turn An operation of encoding a block and obtaining a page tag type corresponding to the currently traversed encoding block.
  • the splicing subunit is configured to splice each character in the FIFO queue if the page tag type corresponding to the coding block is a table type, and output the splicing result as table description information associated with the table.
  • the splicing subunit is specifically configured to: if the page tag type corresponding to the coding block is a table type, obtain a regular expression associated with a preset keyword;
  • the apparatus for acquiring financial data further includes: a loading unit for loading a report template, and importing each of the financial data into a corresponding table according to a pre-set header in the report template. Body.
  • a generating unit is used to generate and display financial data analysis reports based on the import results.
  • FIG. 7 is a schematic diagram of a terminal device according to an embodiment of the present application.
  • the terminal device 7 of this embodiment includes a processor 70 and a memory 71.
  • the memory 71 stores computer-readable instructions 72 that can be run on the processor 70, such as a program for acquiring financial data.
  • the processor 70 executes the computer-readable instructions 72
  • the steps in the embodiment of the method for acquiring financial data are implemented, for example, steps 101 to 106 shown in FIG.
  • the processor 70 executes the computer-readable instructions 72
  • the functions of the modules / units in the foregoing device embodiments are implemented, for example, the functions of the units 61 to 66 shown in FIG. 6.
  • the computer-readable instructions 72 may be divided into one or more modules / units, the one or more modules / units are stored in the memory 71 and executed by the processor 70, To complete this application.
  • the one or more modules / units may be a series of computer-readable instruction segments capable of performing specific functions, and the instruction segments are used to describe the execution process of the computer-readable instructions 72 in the terminal device 7.
  • the terminal device 7 may be a computing device such as a desktop computer, a notebook, a palmtop computer, and a cloud server.
  • the terminal device may include, but is not limited to, a processor 70 and a memory 71.
  • FIG. 7 is only an example of the terminal device 7 and does not constitute a limitation on the terminal device 7. It may include more or fewer components than shown in the figure, or combine some components or different components.
  • the terminal device may further include an input / output device, a network access device, a bus, and the like.
  • the processor 70 may be a central processing unit (Central Processing Unit (CPU), or other general-purpose processors, Digital Signal Processors (DSPs), Application Specific Integrated Circuits (Application Specific Integrated Circuits) Specific Integrated Circuit (ASIC), off-the-shelf Programmable Gate Array (FPGA), or other programmable logic devices, discrete gate or transistor logic devices, discrete hardware components, etc.
  • CPU Central Processing Unit
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuits
  • FPGA off-the-shelf Programmable Gate Array
  • a general-purpose processor may be a microprocessor or the processor may be any conventional processor or the like.
  • the memory 71 may be an internal storage unit of the terminal device 7, such as a hard disk or a memory of the terminal device 7.
  • the memory 71 may also be an external storage device of the terminal device 7, such as a plug-in hard disk, a smart memory card (SMC), and a secure digital (SD) provided on the terminal device 7. Card, flash card, etc. Further, the memory 71 may further include both an internal storage unit of the terminal device 7 and an external storage device.
  • the memory 71 is configured to store the computer-readable instructions and other programs and data required by the terminal device.
  • the memory 71 may also be used to temporarily store data that has been output or is to be output.
  • each functional unit in each embodiment of the present application may be integrated into one processing unit, or each of the units may exist separately physically, or two or more units may be integrated into one unit.
  • the above integrated unit may be implemented in the form of hardware or in the form of software functional unit.
  • the integrated unit is implemented in the form of a software functional unit and sold or used as an independent product, it may be stored in a computer-readable storage medium.
  • the technical solution of the present application is essentially a part that contributes to the existing technology or all or part of the technical solution can be embodied in the form of a software product, which is stored in a storage medium , Including a number of instructions to enable a computer device (which may be a personal computer, a server, or a network device, etc.) to perform all or part of the steps of the method described in the embodiments of the present application.
  • the foregoing storage media include: U disks, mobile hard disks, read-only memory (ROM), random access memory (RAM), magnetic disks, or compact discs, and other media that can store program codes .

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

一种财政数据的获取方法、装置、终端设备及介质,适用于数据处理技术领域,降低了企业财政数据的获取难度,达到了财政数据的多维度获取效果。该方法包括:获取预先发布的待分析文本,所述待分析文本的初始格式为可移植文档pdf格式(S101);通过预设的文本转换工具,将所述待分析文本的文本格式由pdf格式转换为文档doc格式(S102);基于doc格式的待分析文本,获取待分析文本对应的文本编码;其中,所述文本编码包含多种类型的页面标签(S103);查找页面标签中的表格标签,并根据表格标签所属的文本位置,定位待分析文本中的表格(S104);提取与表格关联的各个字段值以及表格描述信息(S105);将表格描述信息以及每一字段值输出至预先创建的文本文档,以使业务***对文本文档进行识别处理后,获取待分析文本所关联的财政数据(S106)。

Description

财政数据的获取方法、装置、终端设备及介质
本申请要求于2018年06月12日提交中国专利局、申请号为201810600697.4 、发明名称为“财政数据的获取方法、终端设备及介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请属于数据处理技术领域,尤其涉及一种财政数据的获取方法、装置、终端设备及计算机可读存储介质。
背景技术
季报、年报以及招股书等文件均为企业的公开文件。公开文件中包含了很多有价值的财政数据。例如,企业应收账款、应付账款、收支状况、损益金额以及整体债务状况等。这些财政数据经过再次加工以及分析处理后,可体现出极大的参考价值。例如,在各种应用场合中,这些财政数据可用于独立分析企业的经营状况、确定企业所关联的行业产业链状况等。
然而,由于季报、年报以及招股书等公开文件的样式均较为复杂,故业界也暂时未公开要对这些公开文件进行财政数据的自动提取及分析处理,因此,无法实现财政数据的多维度获取。
技术问题
有鉴于此,本申请实施例提供了一种财政数据的获取方法、装置、终端设备及介质,以解决现有技术中无法实现财政数据的多维度获取的问题。
技术解决方案
本申请实施例的第一方面提供了一种财政数据的获取方法,包括:
获取预先发布的待分析文本,所述待分析文本的初始格式为可移植文档pdf格式;
通过预设的文本转换工具,将所述待分析文本的文本格式由所述pdf格式转换为文档doc格式;
基于所述doc格式的所述待分析文本,获取所述待分析文本所对应的文本编码;其中,所述文本编码包含多种类型的页面标签;
查找所述页面标签中的表格标签,并根据所述表格标签所属的文本位置,定位所述待分析文本中所存在的表格;
提取与所述表格关联的各个字段值以及表格描述信息;
将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档,以使业务***对所述文本文档进行识别处理后,获取所述待分析文本所关联的财政数据。
本申请实施例的第二方面提供了一种财政数据的获取装置,所述监控装置包括用于执行上述第一方面所述的财政数据的获取方法的单元。
本申请实施例的第三方面提供了一种终端设备,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如第一方面所述的财政数据的获取方法的步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如第一方面所述的财政数据的获取方法的步骤。
有益效果
本申请实施例中,由于原始加载得到的招股书、年报以及季报等公开文件都是以pdf格式存在的,故通过将这些公开文件的文本格式转换为doc格式,能够读取出待分析文本所对应的文本编码,从而根据文本编码中的表格标签来确定出表格所属的位置区域,实现了对表格的自动化定位;上述公开文件中,表格所包含的数据信息通常都是具有较高挖掘价值的财政数据,因此,在定位得到各表格位置后,通过提取出与表格关联的字段值以及表格描述信息,将其输出至预先创建的文本文档,保证了其他业务***都能够对兼容性较强的文本文档进行读取以及进行分析处理,从而实现了对企业财政数据的快速分析,避免了需要基于复杂样式的公开文件来读取企业财政数据,故降低了企业财政数据的获取难度;由于业务***可以通过上述文本文档来自动识别各类公开文件所包含的财政数据,故相对于现有技术来说,还达到了财政数据的多维度获取效果。
附图说明
图1是本申请实施例提供的财政数据的获取方法的实现流程图;
图2是本申请实施例提供的财政数据的获取方法S104的具体实现流程图;
图3是本申请实施例提供的财政数据的获取方法S105的具体实现流程图;
图4是本申请实施例提供的财政数据的获取方法S105的另一具体实现流程图;
图5是本申请另一实施例提供的财政数据的获取方法的实现流程图;
图6是本申请实施例提供的财政数据的获取装置的结构框图;
图7是本申请实施例提供的终端设备的示意图。
本发明的实施方式
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本申请实施例提供的财政数据的获取方法的实现流程,该方法流程包括步骤S101至S106。各步骤的具体实现原理如下:
S101:获取预先发布的待分析文本,所述待分析文本的初始格式为可移植文档pdf格式。
本申请实施例中,待分析文本为企业所发布的公开文件,包括季报、年报以及招股书等。根据预设的网站信息,定期从对应的公开网站中下载上述待分析文本。其中,由于企业在创建上述公开文件时,均以可移植文档(Portable Document Format,PDF)的格式进行输出,故从上述公开网站中所下载得到的待分析文本的格式均为PDF格式。
S102:通过预设的文本转换工具,将所述待分析文本的文本格式由所述pdf格式转换为文档doc格式。
对于每一个pdf格式的待分析文本,将其导入预设的文本转换工具,并在检测到用户发出的格式转换指令后,输出基于文档(document,doc)格式的待分析文件。上述文本转换工具例如可以是福昕转换器、PDF转换器以及迅捷转换器等。
S103:基于所述doc格式的所述待分析文本,获取所述待分析文本所对应的文本编码;其中,所述文本编码包含多种类型的页面标签。
对于doc格式的待分析文本,读取该待分析文本的文本编码。文本编码中包含有多种类型的页面标签,例如table表格标签以及paragraph段落标签等。
S104:查找所述页面标签中的表格标签,并根据所述表格标签所属的文本位置,定位所述待分析文本中所存在的表格。
本申请实施例中,遍历待分析文本所对应的文本编码,以通过预设的正则表达式,依次检测出出现于文本编码中的各类页面标签。并且,在检测得到的页面标签中,基于与表格标签对应的标签字符元素,定位各个表格标签。
若定位得到待分析文本中的任一表格标签,则确定后邻于该表格标签的文本编码为与待分析文本中的一个表格相匹配的文本编码,因此,根据该表格标签所属的文本位置,可确定待分析文本中表格所对应的定位。
作为本申请的一个实施例,图2示出了本申请实施例提供的财政数据的获取方法S104的具体实现流程,详述如下:
S1041:依次遍历所述文本编码中的各个编码块。
S1042:对每一所述编码块,判断该编码块所对应的页面标签类型是否为表格类型。
S1043:若该编码块所对应的页面标签类型为表格类型,则将内置标志位的属性值置为逻辑真值,以将该编码块所对应的文本位置标记为表格的起始位置。
S1044:返回执行所述依次遍历所述文本编码中的各个编码块的操作,直至取出的编码块所对应的页面标签类型为非表格类型且为非空值时,将该编码块所对应的文本位置标记为所述表格的结束位置。
本申请实施例中,文本编码中包含有多个编码块(block),每一block具有其对应的页面标签。通过预设的Document python插件,依次对文本编码中的每一个block进行读取。根据页面标签的不同,确定出每一block的页面标签类型。若block所对应的页面标签为表格标签,则确定该block的页面标签类型为表格类型;若block所对应的页面标签为段落标签,则确定该block的页面标签类型为段落类型。
本申请实施例中,若检测到任一block的页面标签类型为表格类型,则对于该block所属的文本位置,将该文本位置的start_table这一标志位的属性值置为逻辑真值true,以将该文本位置标记为当前所检测得到的一个表格的起始位置。此后,返回执行步骤S1041,以从当前的文本位置起,查找存在于文本编码中的下一block,并执行后续的步骤S1042至S1044。
在将上述文本位置的start_table标志位的属性值置为逻辑真值后,若检测到后续任一block存在对应的页面标签,且其页面标签类型为非表格类型(例如可能是段落类型),则将该block所属文本位置的end_table这一标志位的值置为逻辑真值true,以将该文本位置标记为当前所检测得到的一个表格的结束位置。
根据待分析文本中各个文本位置所对应的标志位信息,将start_table标志位为true的第一文本位置以及在第一文本置为之后首次出现的end_table标志位为true的第二文本位置确定为与一表格对应的文本区域。
本申请实施例适用于待分析文本中存在有分页显示的表格的场景之下。例如,在pdf格式的待分析文本中,若某一表格的高度较大,则该表格将会跨页显示,即,将该表格分割成至少两个子表格后,使得每一子表格分别显示于待分析文本的一个页面中。因此,在将待分析文本的文本格式转换为doc格式后,为了能够基于文本编码中的不同block来还原同一张表格,在连续监测到两个block的页面标签类型均为表格类型时,可确定两个block所属的文本位置均为表格所存在的位置区域。若检测到下一block的页面标签类型为段落类型,则表示上述表格已终止,因此,基于该block所属的文本位置以及前面各个block所属的文本位置,可定位并提取出待分析文本中所存在的一个完整表格。
本申请实施例中,通过对待分析文本中各个编码块的表格类型进行检测,可确定出各个文本位置所对应的内置标志位的属性值,从而基于各个属性值来准确识别出待分析文本中所存在的表格的起止位置,由此实现了对分页显示的表格的自动识别,使得各项财政数据被提取后能够被归类至同一表格之下,故提高了表格数据提取的准确性。
S105:提取与所述表格关联的各个字段值以及表格描述信息。
在定位出待分析文本所包含的每一表格后,通过Document python插件,读取该表格所对应的每个block的cell内容,并将其cell内容存储至预设的table_data数组,则该table_data数组所包含的数据为与该表格关联的各个字段值。
本申请实施例中,表格描述信息用于描述表格数据的主要内容,包括但不限于表格的标题、名字或者描述性信息。例如,若表格数据为A企业3月份的财政支出数据,则其表格描述信息可以为“3月份财政支出数据”。
示例性地,根据每一表格所属的位置区域,可将该位置区域之前或将该位置区域之后的多个字符值进行提取,以将其确定为该表格的表格描述信息。
作为本申请的一个实施例,图3示出了本申请实施例提供的财政数据的获取方法S105的具体实现流程,详述如下:
S10501:创建先进先出FIFO队列。
S10502:依次遍历所述文本编码中的各个编码块,并获取当前所遍历的所述编码块所对应的页面标签类型。
S10503:若所述编码块所对应的页面标签类型为段落类型,则将所述编码块所包含的各个字符依序存入所述FIFO队列,并读取所述FIFO队列的实时队列长度。
S10504:若所述FIFO队列的实时队列长度大于预设阈值,则移除存在于FIFO队列底部的多个所述字符,并返回执行所述依次遍历所述文本编码中的各个编码块,并获取当前所遍历的所述编码块所对应的页面标签类型的操作。
S10505:若所述编码块所对应的页面标签类型为表格类型,则将所述FIFO队列中的各个字符进行拼接,并将拼接结果输出为与所述表格关联的表格描述信息。
对定位出的每一表格,为了提取该表格的表格描述信息,先创建一个长度为预设值的先进先出队列(First Input First Output,FIFO)。根据该表格所属的文本位置,确定出该文本位置之前的各个block,并依次读取上述各个block的页面标签类型。若存在任一block的页面标签为非空值,且其页面标签类型为段落类型,则将该block的cell内容压入FIFO队列中。
本申请实施例中,在将block的cell内容压入FIFO队列之前,根据FIFO队列所包含的字符数,获取FIFO队列的实时队列长度。若实时队列长度大于预设的队列长度值,则表示FIFO队列已满,因此,将先进入FIFO队列的数据进行淘汰处理,以将当前所读取得到的block的cell内容压入处理后的FIFO队列中。此后,返回执行上述S1052,直至读取得到的block的页面标签类型为表格类型时,停止将任一block的cell内容压入FIFO队列。
本申请实施例中,在停止将block的cell内容压入FIFO队列后,提取FIFO队列中所包含的各个字符,并将各个字符所拼接得到的字符串输出为与表格关联的表格描述信息。
本申请实施例中,在检测到页面标签类型为表格类型的block时,通过停止将该block的cell内容压入FIFO队列,保证了FIFO队列所存储的各个字符为最接近表格位置区域的文本信息。通常来说,由于最接近表格位置区域的文本信息最能够体现表格数据的主要内容(例如,表格顶部的标题信息),因此,通过将FIFO队列中的各个字符进行拼接,并将该拼接结果输出为与表格关联的表格描述信息,实现表格描述信息的自动定位,提高了表格描述信息的提取准确率。
作为本申请的一个实施例,图4示出了本申请实施例提供的财政数据的获取方法S105的另一具体实现流程,详述如下:
S10506:若所述编码块所对应的页面标签类型为表格类型,则获取与预设关键词相关联的正则表达式。
S10507:基于所述正则表达式,对所述FIFO队列中的各个字符串进行检测处理。
S10508:若所述FIFO队列中存在与所述正则表达式匹配的所述字符串,则将该字符串输出为与所述表格关联的表格描述信息。
S10509:若所述FIFO队列中不存在与所述正则表达式匹配的所述字符串,则分别计算所述FIFO队列中每一所述字符串与其所属编码块中所述表格标签的标签距离值。
S10510:将所述标签距离值最小的一个所述字符串输出为与所述表格关联的表格描述信息。
本申请实施例中,基于该表格之前的文本信息来提取与该表格关联的表格描述信息,具体包括:在将页面标签类型为表格类型的block的cell内容压入FIFO队列后,获取与预设关联词关联的正则表达式。其中,预设关联词为与表格标题等表格描述性信息具有较大关联度的字符。例如,常见的表格标题通常都是以“XXX表”的格式存在,故对应该类表格标题的正则表达式可以是“[\s\S]*\表$”。在页面标签类型为表格类型的block中,基于获取得到的正则表达式,对FIFO队列中所存储的各个字符串进行检测处理。
若在FIFO队列中检测到满足上述正则表达式的字符串,则将该字符串进行提取,并将其输出为与表格关联的表格描述信息。
若在FIFO队列中未检测到满足上述正则表达式的字符串,则表示表格所属的文本位置之前,并未存在与表格标题相似的描述性信息,此时,以FIFO队列中相邻的N个(N为预设值,且N为大于1的整数)字符为一个字符串,根据其中最后一个字符所属block的样式标签,读取该block的标签距离值。标签距离值表示字符所属文本位置与当前页面底部的距离值。基于该方式,分别获取FIFO队列中各个字符串的标签距离值后,选取其中标签距离值最小的一个字符串。将上述标签距离值最小的一个字符串输出为与表格关联的表格描述信息。
本申请实施例中,由于标签距离值最小的字符串与页面底部的距离较近,且该字符串所属的block位于表格之前,由此可确定出该字符串所属的文本位置也与表格的起始位置最为接近。通常来说,最接近表格起始位置的文本信息能够较为清楚地描述表格数据的主题内容,因此,通过将该字符串作为输出为与表格关联的表格描述信息,在一定程度上也提高了表格描述信息的准确性。
S106:将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档,以使业务***对所述文本文档进行识别处理后,获取所述待分析文本所关联的财政数据。
本申请实施例中,在获取表格中的各个字段值以及获取与表格关联的表格描述信息后,根据各个字符的先后获取次序,依序将表格描述信息以及各个字段值输出至预先创建的文本文档。其中,文本文档的文本格式为txt格式。
优选地,上述文本文档中,在相邻的任意两个字段值之间,***一预设的分隔符。
优选地,将表格描述信息输出值上述文本文档的顶部位置,并在表格描述信息以及字段值之间,***一换行符。
本申请实施例中,将上述文本文档发送至预先连接的各个业务***。由于各版本类型的业务***对txt格式的文本文档均有着较好的兼容性,因而使得业务***能够对该文本文档进行识别处理,以提取待分析文本所关联的财政数据。
本申请实施例实现了对企业财政数据的快速分析,避免了需要基于复杂样式的公开文件来读取企业财政数据,故降低了企业财政数据的获取难度;由于业务***可以通过上述文本文档来自动识别各类公开文件所包含的财政数据,故相对于现有技术来说,还达到了财政数据的多维度获取效果。
作为本申请的另一个实施例,如图5所示,在上述S106之后,还包括:
S107:加载报告模板,并根据所述报告模板中预先设置好的表头,将各项所述财政数据分别导入至对应的表体中。
S108:根据导入结果,生成并展示财政数据分析报表。
本申请实施例中,加载预先生成的报告模板,所述报告模板包含各项表头,每一表头与一表体对应,且每一表头用于描述表格中一字段值的字段属性,每一表体用于记录一字段值。对于报告模板中预先设置好的每一表头,根据该表头所描述的字段属性,在S106所生成的文本文档的各项数据中,筛选出该字段属性所对应的字段值,并将该字段值导入报告模板该表头所对应的表体中。根据报告模板所导入的每一字段属性的字段值,通过预设的计算公式,分别计算各项统计信息值,以将得到的统计结果导入至报告模板的表尾后,输出并展示该财政数据分析报表。
本申请实施例中,通过将文本文档中的各项字段值导入预先生成的报告模板,使得最终展示的财政数据分析报表能够详细列举数据分析过程中的各个字段值,便于用户检查财政数据的分析过程是否有误,因而也进一步提高了财政数据分析报表的可靠性以及准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的财政数据的获取方法,图6示出了本申请实施例提供的财政数据的获取装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图6,该装置包括:
第一获取单元61,用于获取预先发布的待分析文本,所述待分析文本的初始格式为可移植文档pdf格式。
转换单元62,用于通过预设的文本转换工具,将所述待分析文本的文本格式由所述pdf格式转换为文档doc格式。
第二获取单元63,用于基于所述doc格式的所述待分析文本,获取所述待分析文本所对应的文本编码;其中,所述文本编码包含多种类型的页面标签。
查找单元64,用于查找所述页面标签中的表格标签,并根据所述表格标签所属的文本位置,定位所述待分析文本中所存在的表格。
提取单元65,用于提取与所述表格关联的各个字段值以及表格描述信息。
输出单元66,用于将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档,以使业务***对所述文本文档进行识别处理后,获取所述待分析文本所关联的财政数据。
可选地,所述查找单元64包括:
遍历子单元,用于依次遍历所述文本编码中的各个编码块。
判断子单元,用于对每一所述编码块,判断该编码块所对应的页面标签类型是否为表格类型。
标记子单元,用于若该编码块所对应的页面标签类型为表格类型,则将内置标志位的属性值置为逻辑真值,以将该编码块所对应的文本位置标记为表格的起始位置。
返回子单元,用于返回执行所述依次遍历所述文本编码中的各个编码块的操作,直至取出的编码块所对应的页面标签类型为非表格类型且为非空值时,将该编码块所对应的文本位置标记为所述表格的结束位置。
可选地,所述提取单元65包括:
创建子单元,用于创建先进先出FIFO队列。
获取子单元,用于依次遍历所述文本编码中的各个编码块,并获取当前所遍历的所述编码块所对应的页面标签类型。
存储子单元,用于若所述编码块所对应的页面标签类型为段落类型,则将所述编码块所包含的各个字符依序存入所述FIFO队列,并读取所述FIFO队列的实时队列长度。
移除子单元,用于若所述FIFO队列的实时队列长度大于预设阈值,则移除存在于FIFO队列底部的多个所述字符,并返回执行所述依次遍历所述文本编码中的各个编码块,并获取当前所遍历的所述编码块所对应的页面标签类型的操作。
拼接子单元,用于若所述编码块所对应的页面标签类型为表格类型,则将所述FIFO队列中的各个字符进行拼接,并将拼接结果输出为与所述表格关联的表格描述信息。
可选地,所述拼接子单元具体用于:若所述编码块所对应的页面标签类型为表格类型,则获取与预设关键词相关联的正则表达式;
基于所述正则表达式,对所述FIFO队列中的各个字符串进行检测处理;
若所述FIFO队列中存在与所述正则表达式匹配的所述字符串,则将该字符串输出为与所述表格关联的表格描述信息;
若所述FIFO队列中不存在与所述正则表达式匹配的所述字符串,则分别计算所述FIFO队列中每一所述字符串与其所属编码块中所述表格标签的标签距离值;
将所述标签距离值最小的一个所述字符串输出为与所述表格关联的表格描述信息。
可选地,所述财政数据的获取装置还包括:加载单元,用于加载报告模板,并根据所述报告模板中预先设置好的表头,将各项所述财政数据分别导入至对应的表体中。
生成单元,用于根据导入结果,生成并展示财政数据分析报表。
图7是本申请一实施例提供的终端设备的示意图。如图7所示,该实施例的终端设备7包括处理器70以及存储器71,所述存储器71中存储有可在所述处理器70上运行的计算机可读指令72,例如财政数据的获取程序。所述处理器70执行所述计算机可读指令72时实现上述各个财政数据的获取方法实施例中的步骤,例如图1所示的步骤101至106。或者,所述处理器70执行所述计算机可读指令72时实现上述各装置实施例中各模块/单元的功能,例如图6所示单元61至66的功能。
示例性的,所述计算机可读指令72可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器71中,并由所述处理器70执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令72在所述终端设备7中的执行过程。
所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是终端设备7的示例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (20)

  1. 一种财政数据的获取方法,其特征在于,包括:
    获取预先发布的待分析文本,所述待分析文本的初始格式为可移植文档pdf格式;
    通过预设的文本转换工具,将所述待分析文本的文本格式由所述pdf格式转换为文档doc格式;
    基于所述doc格式的所述待分析文本,获取所述待分析文本所对应的文本编码;其中,所述文本编码包含多种类型的页面标签;
    查找所述页面标签中的表格标签,并根据所述表格标签所属的文本位置,定位所述待分析文本中所存在的表格;
    提取与所述表格关联的各个字段值以及表格描述信息;
    将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档,以使业务***对所述文本文档进行识别处理后,获取所述待分析文本所关联的财政数据。
  2. 如权利要求1所述的财政数据的获取方法,其特征在于,所述查找所述页面标签中的表格标签,并根据所述表格标签所属的文本位置,定位所述待分析文本中所存在的表格,包括:
    依次遍历所述文本编码中的各个编码块;
    对每一所述编码块,判断该编码块所对应的页面标签类型是否为表格类型;
    若该编码块所对应的页面标签类型为表格类型,则将内置标志位的属性值置为逻辑真值,以将该编码块所对应的文本位置标记为表格的起始位置;
    返回执行所述依次遍历所述文本编码中的各个编码块的操作,直至取出的编码块所对应的页面标签类型为非表格类型且为非空值时,将该编码块所对应的文本位置标记为所述表格的结束位置。
  3. 如权利要求1所述的财政数据的获取方法,其特征在于,所述提取与所述表格关联的各个字段值以及表格描述信息,包括:
    创建先进先出FIFO队列;
    依次遍历所述文本编码中的各个编码块,并获取当前所遍历的所述编码块所对应的页面标签类型;
    若所述编码块所对应的页面标签类型为段落类型,则将所述编码块所包含的各个字符依序存入所述FIFO队列,并读取所述FIFO队列的实时队列长度;
    若所述FIFO队列的实时队列长度大于预设阈值,则移除存在于FIFO队列底部的多个所述字符,并返回执行所述依次遍历所述文本编码中的各个编码块,并获取当前所遍历的所述编码块所对应的页面标签类型的操作;
    若所述编码块所对应的页面标签类型为表格类型,则将所述FIFO队列中的各个字符进行拼接,并将拼接结果输出为与所述表格关联的表格描述信息。
  4. 如权利要求3所述的财政数据的获取方法,其特征在于,所述若所述编码块所对应的页面标签类型为表格类型,则将所述FIFO队列中的各个字符进行拼接,并将拼接结果输出为与所述表格关联的表格描述信息,包括:
    若所述编码块所对应的页面标签类型为表格类型,则获取与预设关键词相关联的正则表达式;
    基于所述正则表达式,对所述FIFO队列中的各个字符串进行检测处理;
    若所述FIFO队列中存在与所述正则表达式匹配的所述字符串,则将该字符串输出为与所述表格关联的表格描述信息;
    若所述FIFO队列中不存在与所述正则表达式匹配的所述字符串,则分别计算所述FIFO队列中每一所述字符串与其所属编码块中所述表格标签的标签距离值;
    将所述标签距离值最小的一个所述字符串输出为与所述表格关联的表格描述信息。
  5. 如权利要求1所述的财政数据的获取方法,其特征在于,在所述将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档,以使业务***对所述文本文档进行识别处理后,获取所述待分析文本所关联的财政数据之后,还包括:
    加载报告模板,并根据所述报告模板中预先设置好的表头,将各项所述财政数据分别导入至对应的表体中;
    根据导入结果,生成并展示财政数据分析报表。
  6. 一种财政数据的获取装置,其特征在于,包括:
    第一获取单元,用于获取预先发布的待分析文本,所述待分析文本的初始格式为可移植文档pdf格式。
    转换单元,用于通过预设的文本转换工具,将所述待分析文本的文本格式由所述pdf格式转换为文档doc格式;
    第二获取单元,用于基于所述doc格式的所述待分析文本,获取所述待分析文本所对应的文本编码;其中,所述文本编码包含多种类型的页面标签;
    查找单元,用于查找所述页面标签中的表格标签,并根据所述表格标签所属的文本位置,定位所述待分析文本中所存在的表格;
    提取单元,用于提取与所述表格关联的各个字段值以及表格描述信息;
    输出单元,用于将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档,以使业务***对所述文本文档进行识别处理后,获取所述待分析文本所关联的财政数据。
  7. 根据权利要求6所述的财政数据的获取装置,其特征在于,所述查找单元包括:
    遍历子单元,用于依次遍历所述文本编码中的各个编码块;
    判断子单元,用于对每一所述编码块,判断该编码块所对应的页面标签类型是否为表格类型;
    标记子单元,用于若该编码块所对应的页面标签类型为表格类型,则将内置标志位的属性值置为逻辑真值,以将该编码块所对应的文本位置标记为表格的起始位置;
    返回子单元,用于返回执行所述依次遍历所述文本编码中的各个编码块的操作,直至取出的编码块所对应的页面标签类型为非表格类型且为非空值时,将该编码块所对应的文本位置标记为所述表格的结束位置。
  8. 根据权利要求6所述的财政数据的获取装置,其特征在于,所述提取单元包括:
    创建子单元,用于创建先进先出FIFO队列;
    获取子单元,用于依次遍历所述文本编码中的各个编码块,并获取当前所遍历的所述编码块所对应的页面标签类型;
    存储子单元,用于若所述编码块所对应的页面标签类型为段落类型,则将所述编码块所包含的各个字符依序存入所述FIFO队列,并读取所述FIFO队列的实时队列长度;
    移除子单元,用于若所述FIFO队列的实时队列长度大于预设阈值,则移除存在于FIFO队列底部的多个所述字符,并返回执行所述依次遍历所述文本编码中的各个编码块,并获取当前所遍历的所述编码块所对应的页面标签类型的操作;
    拼接子单元,用于若所述编码块所对应的页面标签类型为表格类型,则将所述FIFO队列中的各个字符进行拼接,并将拼接结果输出为与所述表格关联的表格描述信息。
  9. 根据权利要求8所述的财政数据的获取装置,其特征在于,所述拼接子单元具体用于:
    若所述编码块所对应的页面标签类型为表格类型,则获取与预设关键词相关联的正则表达式;
    基于所述正则表达式,对所述FIFO队列中的各个字符串进行检测处理;
    若所述FIFO队列中存在与所述正则表达式匹配的所述字符串,则将该字符串输出为与所述表格关联的表格描述信息;
    若所述FIFO队列中不存在与所述正则表达式匹配的所述字符串,则分别计算所述FIFO队列中每一所述字符串与其所属编码块中所述表格标签的标签距离值;
    将所述标签距离值最小的一个所述字符串输出为与所述表格关联的表格描述信息。
  10. 根据权利要求6所述的财政数据的获取装置,其特征在于,还包括:
    加载单元,用于加载报告模板,并根据所述报告模板中预先设置好的表头,将各项所述财政数据分别导入至对应的表体中;
    生成单元,用于根据导入结果,生成并展示财政数据分析报表。
  11. 一种终端设备,其特征在于,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
    获取预先发布的待分析文本,所述待分析文本的初始格式为可移植文档pdf格式;
    通过预设的文本转换工具,将所述待分析文本的文本格式由所述pdf格式转换为文档doc格式;
    基于所述doc格式的所述待分析文本,获取所述待分析文本所对应的文本编码;其中,所述文本编码包含多种类型的页面标签;
    查找所述页面标签中的表格标签,并根据所述表格标签所属的文本位置,定位所述待分析文本中所存在的表格;
    提取与所述表格关联的各个字段值以及表格描述信息;
    将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档,以使业务***对所述文本文档进行识别处理后,获取所述待分析文本所关联的财政数据。
  12. 根据权利要求11所述的终端设备,其特征在于,所述查找所述页面标签中的表格标签,并根据所述表格标签所属的文本位置,定位所述待分析文本中所存在的表格,包括:
    依次遍历所述文本编码中的各个编码块;
    对每一所述编码块,判断该编码块所对应的页面标签类型是否为表格类型;
    若该编码块所对应的页面标签类型为表格类型,则将内置标志位的属性值置为逻辑真值,以将该编码块所对应的文本位置标记为表格的起始位置;
    返回执行所述依次遍历所述文本编码中的各个编码块的操作,直至取出的编码块所对应的页面标签类型为非表格类型且为非空值时,将该编码块所对应的文本位置标记为所述表格的结束位置。
  13. 根据权利要求11所述的终端设备,其特征在于,所述提取与所述表格关联的各个字段值以及表格描述信息,包括:
    创建先进先出FIFO队列;
    依次遍历所述文本编码中的各个编码块,并获取当前所遍历的所述编码块所对应的页面标签类型;
    若所述编码块所对应的页面标签类型为段落类型,则将所述编码块所包含的各个字符依序存入所述FIFO队列,并读取所述FIFO队列的实时队列长度;
    若所述FIFO队列的实时队列长度大于预设阈值,则移除存在于FIFO队列底部的多个所述字符,并返回执行所述依次遍历所述文本编码中的各个编码块,并获取当前所遍历的所述编码块所对应的页面标签类型的操作;
    若所述编码块所对应的页面标签类型为表格类型,则将所述FIFO队列中的各个字符进行拼接,并将拼接结果输出为与所述表格关联的表格描述信息。
  14. 根据权利要求13所述的终端设备,其特征在于,所述若所述编码块所对应的页面标签类型为表格类型,则将所述FIFO队列中的各个字符进行拼接,并将拼接结果输出为与所述表格关联的表格描述信息,包括:
    若所述编码块所对应的页面标签类型为表格类型,则获取与预设关键词相关联的正则表达式;
    基于所述正则表达式,对所述FIFO队列中的各个字符串进行检测处理;
    若所述FIFO队列中存在与所述正则表达式匹配的所述字符串,则将该字符串输出为与所述表格关联的表格描述信息;
    若所述FIFO队列中不存在与所述正则表达式匹配的所述字符串,则分别计算所述FIFO队列中每一所述字符串与其所属编码块中所述表格标签的标签距离值;
    将所述标签距离值最小的一个所述字符串输出为与所述表格关联的表格描述信息。
  15. 根据权利要求11所述的终端设备,其特征在于,所述处理器执行所述计算机可读指令时还实现如下步骤:
    加载报告模板,并根据所述报告模板中预先设置好的表头,将各项所述财政数据分别导入至对应的表体中;
    根据导入结果,生成并展示财政数据分析报表。
  16. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被至少一个处理器执行时实现如下步骤:
    获取预先发布的待分析文本,所述待分析文本的初始格式为可移植文档pdf格式;
    通过预设的文本转换工具,将所述待分析文本的文本格式由所述pdf格式转换为文档doc格式;
    基于所述doc格式的所述待分析文本,获取所述待分析文本所对应的文本编码;其中,所述文本编码包含多种类型的页面标签;
    查找所述页面标签中的表格标签,并根据所述表格标签所属的文本位置,定位所述待分析文本中所存在的表格;
    提取与所述表格关联的各个字段值以及表格描述信息;
    将所述表格描述信息以及每一所述字段值输出至预先创建的文本文档,以使业务***对所述文本文档进行识别处理后,获取所述待分析文本所关联的财政数据。
  17. 根据权利要求16所述的计算机可读存储介质,其特征在于,所述查找所述页面标签中的表格标签,并根据所述表格标签所属的文本位置,定位所述待分析文本中所存在的表格,包括:
    依次遍历所述文本编码中的各个编码块;
    对每一所述编码块,判断该编码块所对应的页面标签类型是否为表格类型;
    若该编码块所对应的页面标签类型为表格类型,则将内置标志位的属性值置为逻辑真值,以将该编码块所对应的文本位置标记为表格的起始位置;
    返回执行所述依次遍历所述文本编码中的各个编码块的操作,直至取出的编码块所对应的页面标签类型为非表格类型且为非空值时,将该编码块所对应的文本位置标记为所述表格的结束位置。
  18. 根据权利要求16所述的计算机可读存储介质,其特征在于,所述提取与所述表格关联的各个字段值以及表格描述信息,包括:
    创建先进先出FIFO队列;
    依次遍历所述文本编码中的各个编码块,并获取当前所遍历的所述编码块所对应的页面标签类型;
    若所述编码块所对应的页面标签类型为段落类型,则将所述编码块所包含的各个字符依序存入所述FIFO队列,并读取所述FIFO队列的实时队列长度;
    若所述FIFO队列的实时队列长度大于预设阈值,则移除存在于FIFO队列底部的多个所述字符,并返回执行所述依次遍历所述文本编码中的各个编码块,并获取当前所遍历的所述编码块所对应的页面标签类型的操作;
    若所述编码块所对应的页面标签类型为表格类型,则将所述FIFO队列中的各个字符进行拼接,并将拼接结果输出为与所述表格关联的表格描述信息。
  19. 根据权利要求18所述的计算机可读存储介质,其特征在于,所述若所述编码块所对应的页面标签类型为表格类型,则将所述FIFO队列中的各个字符进行拼接,并将拼接结果输出为与所述表格关联的表格描述信息,包括:
    若所述编码块所对应的页面标签类型为表格类型,则获取与预设关键词相关联的正则表达式;
    基于所述正则表达式,对所述FIFO队列中的各个字符串进行检测处理;
    若所述FIFO队列中存在与所述正则表达式匹配的所述字符串,则将该字符串输出为与所述表格关联的表格描述信息;
    若所述FIFO队列中不存在与所述正则表达式匹配的所述字符串,则分别计算所述FIFO队列中每一所述字符串与其所属编码块中所述表格标签的标签距离值;
    将所述标签距离值最小的一个所述字符串输出为与所述表格关联的表格描述信息。
  20. 根据权利要求16所述的计算机可读存储介质,其特征在于,所述计算机可读指令被至少一个处理器执行时还实现如下步骤:
    加载报告模板,并根据所述报告模板中预先设置好的表头,将各项所述财政数据分别导入至对应的表体中;
    根据导入结果,生成并展示财政数据分析报表。
PCT/CN2018/105532 2018-06-12 2018-09-13 财政数据的获取方法、装置、终端设备及介质 WO2019237540A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810600697.4 2018-06-12
CN201810600697.4A CN109062874B (zh) 2018-06-12 2018-06-12 财政数据的获取方法、终端设备及介质

Publications (1)

Publication Number Publication Date
WO2019237540A1 true WO2019237540A1 (zh) 2019-12-19

Family

ID=64820303

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/105532 WO2019237540A1 (zh) 2018-06-12 2018-09-13 财政数据的获取方法、装置、终端设备及介质

Country Status (2)

Country Link
CN (1) CN109062874B (zh)
WO (1) WO2019237540A1 (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401058A (zh) * 2020-03-12 2020-07-10 广州大学 一种基于命名实体识别工具的属性值抽取方法及装置
CN111476015A (zh) * 2020-04-10 2020-07-31 北京字节跳动网络技术有限公司 一种文档处理方法、装置、电子设备及存储介质
CN111538750A (zh) * 2020-06-24 2020-08-14 深圳壹账通智能科技有限公司 一种信息还原方法、装置、计算机***及可读存储介质
CN111562965A (zh) * 2020-04-27 2020-08-21 深圳木成林科技有限公司 基于决策树的页面数据校验方法和装置
CN112100366A (zh) * 2020-09-17 2020-12-18 广联达科技股份有限公司 路面结构层的展示方法、装置、计算机设备及存储介质
CN112214987A (zh) * 2020-09-08 2021-01-12 深圳价值在线信息科技股份有限公司 一种信息提取方法、提取装置、终端设备及可读存储介质
CN112434096A (zh) * 2020-11-30 2021-03-02 上海天旦网络科技发展有限公司 基于智能标签的业务分析***及方法
CN112597353A (zh) * 2020-12-18 2021-04-02 武汉大学 一种文本信息自动提取方法
CN113312053A (zh) * 2020-02-27 2021-08-27 北京沃东天骏信息技术有限公司 一种数据处理的方法和装置
CN113342811A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 HBase表格数据处理方法及装置
CN113761044A (zh) * 2021-08-30 2021-12-07 上海快确信息科技有限公司 一种将文本标注成表格的标注***方法
CN113872963A (zh) * 2021-09-26 2021-12-31 中水北方勘测设计研究有限责任公司 基于自由标签拼接技术的报文协议快速解析方法及***
CN113962328A (zh) * 2021-11-12 2022-01-21 上海冰鉴信息科技有限公司 数据对比分析方法、装置及设备
CN114692792A (zh) * 2022-03-22 2022-07-01 深圳市利和兴股份有限公司 一种拼版射频识别检测平台
CN115545008A (zh) * 2022-11-29 2022-12-30 明度智云(浙江)科技有限公司 一种谱图文件解析方法、装置、设备及存储介质
CN117010349A (zh) * 2023-09-28 2023-11-07 杭州今元标矩科技有限公司 基于神经网络模型的表单填充方法、***及存储介质

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871524B (zh) * 2019-02-21 2023-06-09 腾讯科技(深圳)有限公司 一种图表生成方法及装置
CN110263311B (zh) * 2019-05-22 2024-07-05 中国平安财产保险股份有限公司 一种网络页面的生成方法及设备
CN110334331A (zh) * 2019-05-30 2019-10-15 重庆金融资产交易所有限责任公司 基于排序模型筛选表格的方法、装置和计算机设备
CN110188107B (zh) * 2019-06-05 2020-05-01 中科鼎富(北京)科技发展有限公司 一种从表格中抽取信息的方法及装置
CN110297905A (zh) * 2019-06-27 2019-10-01 郑州铁路职业技术学院 一种用于经济管理分析数据的计算机***
CN110909112B (zh) * 2019-10-18 2022-08-26 深圳价值在线信息科技股份有限公司 数据提取方法、装置、终端设备及介质
CN110909123B (zh) * 2019-10-23 2023-08-25 深圳价值在线信息科技股份有限公司 一种数据提取方法、装置、终端设备及存储介质
CN112287660B (zh) * 2019-12-04 2024-05-31 上海柯林布瑞信息技术有限公司 Pdf文件中的表格解析方法及装置、计算设备、存储介质
CN111027285B (zh) * 2019-12-17 2023-06-16 南京上游软件有限公司 一种从pdf格式订单中自动提取订单信息的方法及***
CN111367988A (zh) * 2020-03-31 2020-07-03 中国建设银行股份有限公司 数据导入方法及装置
CN112035412A (zh) * 2020-08-31 2020-12-04 北京奇虎鸿腾科技有限公司 数据文件导入方法、设备、存储介质及装置
CN112699637B (zh) * 2021-01-08 2024-04-12 中南大学 段落类型识别方法及***和文档结构识别方法及***
CN112949476B (zh) * 2021-03-01 2023-09-29 苏州美能华智能科技有限公司 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN113988011A (zh) * 2021-08-19 2022-01-28 中核核电运行管理有限公司 文档内容识别方法及装置
CN113963367B (zh) * 2021-10-22 2024-05-28 深圳前海环融联易信息科技服务有限公司 一种基于模型的金融交易文件及金额的提取方法
CN114428839A (zh) * 2022-01-27 2022-05-03 北京百度网讯科技有限公司 数据处理方法、段落文本确定方法、装置及电子设备
CN117350264B (zh) * 2023-12-04 2024-02-23 税友软件集团股份有限公司 一种ppt文件生成方法、装置、设备及存储介质
CN117593752B (zh) * 2024-01-18 2024-04-09 星云海数字科技股份有限公司 一种pdf文档录入方法、***、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976232A (zh) * 2010-09-19 2011-02-16 深圳市万兴软件有限公司 一种识别文档中数据表格的方法及装置
CN102855243A (zh) * 2011-06-28 2013-01-02 北大方正集团有限公司 用于提取文档结构的方法和装置
CN106484663A (zh) * 2016-10-12 2017-03-08 天闻数媒科技(湖南)有限公司 一种文档内容的提取方法和装置
CN106897690A (zh) * 2017-02-22 2017-06-27 南京述酷信息技术有限公司 Pdf表格提取方法
CN107818075A (zh) * 2017-10-16 2018-03-20 平安科技(深圳)有限公司 表格信息结构化提取方法、电子设备及计算机可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1289994C (zh) * 2003-11-04 2006-12-13 北京华安天诚科技有限公司 空中交通管制飞行数据手写显示输入设备及其实现方法
CN101360100B (zh) * 2008-09-16 2011-08-17 浙江汇信科技有限公司 一种pdf文档的数字签名、签章及认证方法
CN103198069A (zh) * 2012-01-06 2013-07-10 株式会社理光 抽取关系型表格的方法和装置
US9536141B2 (en) * 2012-06-29 2017-01-03 Palo Alto Research Center Incorporated System and method for forms recognition by synthesizing corrected localization of data fields
CN103605349B (zh) * 2013-11-26 2017-11-14 厦门雅迅网络股份有限公司 一种基于CAN‑bus的远程数据实时采集及分析统计***及方法
CN104199975A (zh) * 2014-09-23 2014-12-10 中国南方电网有限责任公司 一种基于可配置的word文档结构化提取方法
CN105589841B (zh) * 2016-01-15 2018-03-30 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN107689070B (zh) * 2017-08-31 2021-06-04 平安科技(深圳)有限公司 图表数据结构化提取方法、电子设备及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976232A (zh) * 2010-09-19 2011-02-16 深圳市万兴软件有限公司 一种识别文档中数据表格的方法及装置
CN102855243A (zh) * 2011-06-28 2013-01-02 北大方正集团有限公司 用于提取文档结构的方法和装置
CN106484663A (zh) * 2016-10-12 2017-03-08 天闻数媒科技(湖南)有限公司 一种文档内容的提取方法和装置
CN106897690A (zh) * 2017-02-22 2017-06-27 南京述酷信息技术有限公司 Pdf表格提取方法
CN107818075A (zh) * 2017-10-16 2018-03-20 平安科技(深圳)有限公司 表格信息结构化提取方法、电子设备及计算机可读存储介质

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312053A (zh) * 2020-02-27 2021-08-27 北京沃东天骏信息技术有限公司 一种数据处理的方法和装置
CN111401058A (zh) * 2020-03-12 2020-07-10 广州大学 一种基于命名实体识别工具的属性值抽取方法及装置
CN111401058B (zh) * 2020-03-12 2023-05-02 广州大学 一种基于命名实体识别工具的属性值抽取方法及装置
CN111476015A (zh) * 2020-04-10 2020-07-31 北京字节跳动网络技术有限公司 一种文档处理方法、装置、电子设备及存储介质
CN111476015B (zh) * 2020-04-10 2024-01-05 北京字节跳动网络技术有限公司 一种文档处理方法、装置、电子设备及存储介质
CN111562965A (zh) * 2020-04-27 2020-08-21 深圳木成林科技有限公司 基于决策树的页面数据校验方法和装置
CN111562965B (zh) * 2020-04-27 2024-01-05 深圳手回科技集团有限公司 基于决策树的页面数据校验方法和装置
CN111538750A (zh) * 2020-06-24 2020-08-14 深圳壹账通智能科技有限公司 一种信息还原方法、装置、计算机***及可读存储介质
CN112214987B (zh) * 2020-09-08 2023-02-03 深圳价值在线信息科技股份有限公司 一种信息提取方法、提取装置、终端设备及可读存储介质
CN112214987A (zh) * 2020-09-08 2021-01-12 深圳价值在线信息科技股份有限公司 一种信息提取方法、提取装置、终端设备及可读存储介质
CN112100366A (zh) * 2020-09-17 2020-12-18 广联达科技股份有限公司 路面结构层的展示方法、装置、计算机设备及存储介质
CN112100366B (zh) * 2020-09-17 2023-10-27 广联达科技股份有限公司 路面结构层的展示方法、装置、计算机设备及存储介质
CN112434096A (zh) * 2020-11-30 2021-03-02 上海天旦网络科技发展有限公司 基于智能标签的业务分析***及方法
CN112434096B (zh) * 2020-11-30 2023-05-23 上海天旦网络科技发展有限公司 基于智能标签的业务分析***及方法
CN112597353B (zh) * 2020-12-18 2024-03-08 武汉大学 一种文本信息自动提取方法
CN112597353A (zh) * 2020-12-18 2021-04-02 武汉大学 一种文本信息自动提取方法
CN113342811A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 HBase表格数据处理方法及装置
CN113761044A (zh) * 2021-08-30 2021-12-07 上海快确信息科技有限公司 一种将文本标注成表格的标注***方法
CN113872963B (zh) * 2021-09-26 2023-09-29 中水北方勘测设计研究有限责任公司 基于自由标签拼接技术的报文协议快速解析方法及***
CN113872963A (zh) * 2021-09-26 2021-12-31 中水北方勘测设计研究有限责任公司 基于自由标签拼接技术的报文协议快速解析方法及***
CN113962328A (zh) * 2021-11-12 2022-01-21 上海冰鉴信息科技有限公司 数据对比分析方法、装置及设备
CN114692792A (zh) * 2022-03-22 2022-07-01 深圳市利和兴股份有限公司 一种拼版射频识别检测平台
CN114692792B (zh) * 2022-03-22 2022-11-04 深圳市利和兴股份有限公司 一种拼版射频识别检测平台
CN115545008B (zh) * 2022-11-29 2023-04-07 明度智云(浙江)科技有限公司 一种谱图文件解析方法、装置、设备及存储介质
CN115545008A (zh) * 2022-11-29 2022-12-30 明度智云(浙江)科技有限公司 一种谱图文件解析方法、装置、设备及存储介质
CN117010349A (zh) * 2023-09-28 2023-11-07 杭州今元标矩科技有限公司 基于神经网络模型的表单填充方法、***及存储介质
CN117010349B (zh) * 2023-09-28 2023-12-19 杭州今元标矩科技有限公司 基于神经网络模型的表单填充方法、***及存储介质

Also Published As

Publication number Publication date
CN109062874A (zh) 2018-12-21
CN109062874B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
WO2019237540A1 (zh) 财政数据的获取方法、装置、终端设备及介质
CN108874928B (zh) 简历数据信息解析处理方法、装置、设备及存储介质
US11036808B2 (en) System and method for indexing electronic discovery data
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
US20190236102A1 (en) System and method for differential document analysis and storage
US20190243848A1 (en) Generating a structured document guiding view
WO2019080402A1 (zh) 结构化文本的文本信息提取方法、存储介质和服务器
US9817875B2 (en) Methods and systems for automated data characterization and extraction
WO2019028990A1 (zh) 代码元素的命名方法、装置、电子设备及介质
CN110909123B (zh) 一种数据提取方法、装置、终端设备及存储介质
US20090148048A1 (en) Information classification device, information classification method, and information classification program
CN110851598A (zh) 文本分类方法、装置、终端设备及存储介质
WO2019242125A1 (zh) 企业上下游关系的获取方法、装置、终端设备及介质
CN115687655A (zh) 一种基于pdf文档的知识图谱构建方法、***、设备及存储介质
CN115098440A (zh) 电子档案查询方法、装置、存储介质和设备
US20210390488A1 (en) Citation and policy based document classification
CN113033177B (zh) 一种电子病历数据的解析方法及装置
US8977635B2 (en) Device, method of processing data, and computer-readable recording medium
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
CN109740130B (zh) 用于生成文件的方法和装置
CN114743012A (zh) 一种文本识别方法及装置
CN114115831A (zh) 数据处理方法、装置、设备和存储介质
CN110909112B (zh) 数据提取方法、装置、终端设备及介质
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN110909538B (zh) 问答内容的识别方法、装置、终端设备及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18922559

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18922559

Country of ref document: EP

Kind code of ref document: A1