CN112183036B - 一种格式文档生成方法、装置、设备及存储介质 - Google Patents

一种格式文档生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112183036B
CN112183036B CN201910527126.7A CN201910527126A CN112183036B CN 112183036 B CN112183036 B CN 112183036B CN 201910527126 A CN201910527126 A CN 201910527126A CN 112183036 B CN112183036 B CN 112183036B
Authority
CN
China
Prior art keywords
filled
information
document
field
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910527126.7A
Other languages
English (en)
Other versions
CN112183036A (zh
Inventor
张祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910527126.7A priority Critical patent/CN112183036B/zh
Publication of CN112183036A publication Critical patent/CN112183036A/zh
Application granted granted Critical
Publication of CN112183036B publication Critical patent/CN112183036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种格式文档生成方法、装置、设备及存储介质,所述方法包括:获取原始文档,对所述原始文档进行识别,确定所述原始文档中待填写字段区域;确定所述待填写信息区域在所述待填写字段区域中的关联信息;根据所述待填写字段生成待填写表单;获取与所述待填写表单相对应的已填写表单,提取所述已填写表单中的已填写信息;关联所述原始文档、所述关联信息以及所述已填写信息,生成新文档。本发明能够智能提取文档中需要填写的内容字段,生成对应的表单,可实现数据的自动汇总、统计,同时还能够根据填写好的表单生成完整的格式文档。

Description

一种格式文档生成方法、装置、设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种格式文档生成方法、装置、设备及存储介质。
背景技术
格式文档是指:格式相对固定,不同场景/具体事务使用时部分内容需要修改的文档。在日常生活和工作中,有大量的格式文档需要填写,如公司HR给新入职的同事填写劳动合同,房屋中介需要与房客、房东填写租房、购房合同,银行提供给贷款人员填写贷款合同,其格式固定,但是其中个人或者单位信息、合同中约定的数据各不相同。在填写这类文档时,一般做法是打印空白合同,然后给不同角色去填写,然而填写过程往往容易出错,并且事后在工作人员统计相关填写信息时,需要再根据合同内容将填写信息重新录入,从而导致信息统计的准确性和效率低下。
发明内容
本发明实施例所要解决的技术问题在于,提供一种格式文档生成方法、装置、设备及存储介质,能够智能提取文档中需要填写的内容字段,生成对应的表单,通过收集填写好的表单,可实现数据的自动汇总、统计,同时还能够根据填写好的表单生成完整的格式文档。
为了解决上述技术问题,本发明实施例提供了一种格式文档生成方法,所述方法包括:
获取原始文档,对所述原始文档进行识别,确定所述原始文档中待填写字段区域,所述待填写字段区域包括待填写字段以及与所述待填写字段对应的待填写信息区域;
确定所述待填写信息区域在所述待填写字段区域中的关联信息;
根据所述待填写字段生成待填写表单;
获取与所述待填写表单相对应的已填写表单,提取所述已填写表单中的已填写信息;
关联所述原始文档、所述关联信息以及所述已填写信息,生成新文档。
本发明实施例还提供了一种格式文档生成装置,所述装置包括:
待填写区域确定模块,用于获取原始文档,对所述原始文档进行识别,确定所述原始文档中待填写字段区域,所述待填写字段区域包括待填写字段以及与所述待填写字段对应的待填写信息区域;
关联信息确定模块,用于确定所述待填写信息区域在所述待填写字段区域中的关联信息;
表单生成模块,用于根据所述待填写字段生成待填写表单;
信息提取模块,用于获取与所述待填写表单相对应的已填写表单,提取所述已填写表单中的已填写信息;
新文档生成模块,用于关联所述原始文档、所述关联信息以及所述已填写信息,生成新文档。
本发明实施例提供一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的格式文档生成方法。
本发明实施例还提供一种计算机存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行上述的格式文档生成方法。
本发明实施例通过对原始文档进行识别,确定原始文档中待填写字段区域;根据待填写字段生成该原始文档对应的待填写表单,以使得用户根据待填写表单进行相关信息的填写;获取已填写好的表单,提取表单中的填写信息,对提取的填写信息进行汇总分析,以及根据关联信息和已填写信息对文档进行填充,生成完整的格式文档。本发明根据原始文档生成待填写表单,能够使得填写者将注意力集中在关键位置,从而使得格式文档填写更加准确;能够通过提取已填写表单中的填写信息,可实现填写信息的自动汇总、分析;能够将填写信息填充到文档中,自动生成完整的格式文档。
附图说明
图1是本发明实施例提供的应用场景示意图;
图2是本发明实施例提供的一种格式文档生成方法示意图;
图3是本发明实施例提供的一种文档识别方法示意图;
图4是本发明实施例提供的一种关联信息确定方法示意图;
图5是本发明实施例提供的一种待填写表单生成方法示意图;
图6是本发明实施例提供的一种表单命名方法示意图;
图7是本发明实施例提供的一种新文档的生成方法示意图;
图8是本发明实施例提供的第一示例图;
图9是本发明实施例提供的第二示例图;
图10是本发明实施例提供的第三示例图;
图11是本发明实施例提供的第四示例图;
图12是本发明实施例提供的第五示例图;
图13是本发明实施例提供的第六示例图;
图14是本发明实施例提供的一种格式文档生成装置示意图;
图15是本发明实施例提供的关联信息确定模块示意图;
图16是本发明实施例提供的表单生成模块示意图;
图17是本发明实施例提供的新文档生成模块示意图;
图18是本发明实施例提供的待填写区域确定模块示意图;
图19是本发明实施例提供的表单生成模块示意图;
图20是本发明实施例提供的一种设备结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本申请说明书中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参见图1,其示出了本发明实施例提供的应用环境示意图,可以包括至少一个第一终端110、至少一个第二终端120以及服务器130,第一终端110、第二终端120能够分别与所述服务器130进行通信。
其中,第一终端110发出信息填写邀请,并通过服务器130将该邀请发送给第二终端120的用户进行信息填写;第二终端120的用户填写完信息之后,将填写的信息上传至服务器130,服务器130可根据收集的填写信息进行信息的汇总与分析,以及新文档的创建。
其中,第一终端110和第二终端120可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如即时通信软件、浏览器或可以浏览及编辑电子文档的应用程序等。本发明实施例中第一终端110和第二终端120上运行的操作***可以包括但不限于安卓***、IOS***、linux、windows等。
服务器130与第一终端110、第二终端120可以通过有线或者无线建立通信连接,该服务器130可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群,其中服务器可以是云端服务器。
在需要进行数据收集以及根据数据信息生成文档的应用场景下,现有技术中一般会采用通过额外生成模板的形式,读取生成文档所需要的数据,生成新的文档,这种方法需要额外生成、编辑模板,每当格式文档变化时,需要新生成一整套模板信息,编辑模板的过程耗时耗力;另外,在进行数据信息采集时,将文档信息按标识符提取出来,由此可见,该方法需要预设相应的标识符才可进行信息提取,为了简单高效地进行数据的采集分析,以及生成新文档,本发明实施例提供了一种格式文档生成方法。
请参见图2,其示出了一种格式文档生成方法示意图,所述方法包括:
S210.获取原始文档,对所述原始文档进行识别,确定所述原始文档中待填写字段区域,所述待填写字段区域包括待填写字段以及与所述待填写字段对应的待填写信息区域。
这里获取的原始文档,可以是导入的已有文档,也可以是当前编辑创建的文档。本实施例中可以采用基于AI(Artificial Intelligence,人工智能)智能分析的方法,对原始文档进行识别。
本发明实施例提供了一种文档识别方法,请参见图3,所述方法包括:
S310.以行或者段落为单位,扫描所述原始文档。
对于一篇文档,其可能是由若干行或者若干段构成,所以在获取到该文档之后,首先对该文档进行分行或者分段,以行或段为单位进行扫描处理。这里的分行或者分段的规则可基于常规文档中的文字规则,例如,对于分行可直接根据文档的行进行确定,对于分段可识别出某个段落的首行是否存在文字缩进的情况,假设存在的话,则判断以该行开始为一个单独的段落;为识别出的行或者段落依次标上相应的行号或者段落号。当然,对于上述的分行或者分段的结果,可能存在不准确的情况,此时可以通过相关方法进行结果校正,以获得更为准确的分行或者分段结果。现有技术中任何能够进行分行或者分段结果校正的方法均可应用于本实施例中,在此不再赘述。
S320.当扫描到所述原始文档中存在预设格式的信息时,确定所述预设格式的信息所在的行或者段落为所述待填写字段区域。
在对文档进行扫描过程中,当存在空格、下划线、勾选框等预设格式的信息时,初步判定上述预设格式的信息所在的行或者段落为所述待填写字段区域。
其中,对于空格的判断,可以通过比较相邻字符之间的间隔,当相邻字符之间的间隔大于按照原始文档设置的常规字符间隔时,可认为该相邻字符之间存在空格。另外对于原始文档中冒号,逗号等符号之后没有内容信息的情况,可认为该符号之后存在空格。
对于下划线的判断,可直接根据文档中是否存在下划线来进行判断,另外,可能存在这样一种情况,在原始文档中确实存在下划线,但是下划线上已填写有相关信息,此时可能是通过下划线来对原始文档中的相关内容进行着重强调,并不能直接将其判定为本实施例中所述的待填写的下划线,只有存在下划线且下划线上为空白或者下滑线上预留有空白区域的下划线,才可以判定为本实施例中的待填写下划线。
对于勾选框的判断,这里的勾选框可以包括多选或者单选的勾选框,具体可以为方形或者圆形等勾选框,在扫描到勾选框信息时,判断其中是否有填写信息,若没有,则判定其符合本实施例中的预设格式信息。
S330.记录所述待填写字段区域在所述原始文档中的行号或者段落号。
在确定了原始文档中存在上述的一种或者多种预设格式的信息时,分别确定每种预设格式信息所在的行号或者段落号,并进行记录。以段落为单位进行举例:假设在原始文档的第98段存在需要填写的下划线,在第100段存在需要填写的勾选框信息,此时可以记录98段→下划线,100段→勾选框,分别确定第98段和第100段为待填写字段区域。
S220.确定所述待填写信息区域在所述待填写字段区域中的关联信息。
为了便于后续生成新文档时,将相关信息准确地填写到相应的区域,这里首先需要对待填写字段区域的关联信息进行记录。请参见图4,其示出了一种关联信息确定方法,本实施例中的关联信息至少可以包括偏移位置信息和上下文信息,具体地,所述方法包括:
S410.对于每个待填写字段,确定与所述待填写字段对应的待填写信息区域相对于所述待填写字段的偏移位置。
偏移位置具体可以为待填写信息区域与待填写字段之间的字符间隔信息或者与待填写字段之间的上、下、左、右位置信息等。
S420.确定所述待填写信息区域的上下文信息。
这里的上下文信息可以是指待填写区域前的内容信息,以及待填写区域后的内容信息。
本实施例中,除了上述的位置偏移信息和上下文信息之外,关联信息还可以包括在文档中***的锚点之类的标记等。这样精确地确定好待填写区域的关联信息之后,在后续向文档中填充已填写信息时,根据关联信息,可将信息准确填充到相应的位置,避免出现填充不当或者填充不协调的情况。
S230.根据所述待填写字段生成待填写表单。
对于待填写的用户来说,其需要填写的内容可以某一具体形式集中起来,从而可以进行信息的集中、高效地填写,避免到整篇文档中去找寻需要填写的区域,避免遗漏。为此,本发明实施例提供了一种待填写表单生成方法,请参见图5,所述方法包括:
S510.生成空白表单。
在根据每篇文档生成表单时,首先生成空白表单,然后将识别得到的具体信息添加到空白表单中。
S520.遍历所述待填写字段,将所述待填写字段依次填充到所述空白表单中,并为每个待填写字段生成相应的填写区域及相应的格式校验属性,生成所述待填写表单。
将上述识别得到的待填写字段填充到空白表单中,并在表单中为每个待填写字段生成相应的填写区域,例如与姓名、手机号等字段相应的填写区域可设置为单行文本,并且可以预设一些格式校验属性,对于手机号可进行正则校验;针对文档中的选择框,可根据字段语义生成相应的单选框或者复选框。
S530.获取所述原始文档的文档标识,将所述待填写表单与所述文档标识进行关联,建立所述待填写表单与所述文档标识的对应关系。
对于每篇文档,均会有与其对应的文档标识,当根据文档生成待填写表单之后,将该表单与该文档的文档标识对应起来,以使得根据该表单即可以查找到对应的原始文档。对于生成的待填写表单与文档标识的对应关系需要进行存储,便于查找。
另外,对于生成的待填写表单,可根据待填写字段进行命名,具体可参见图6,其示出了一种表单命名方法,所述方法包括:
S610.对所述待填写字段进行分词。
例如对于待填写字段“甲方姓名”,可按词性对该字段进行分词,得到“甲方”和“姓名”。
S620.当分词后的待填写字段中包括主语类词语,以及与所述主语类词语对应的定语时,根据所述定语为所述待填写表单命名。
提取主语类指向性的词的定语,即这里的“甲方”,则“甲方”可以用于表单的名字,最终生成如:×××购房合同甲方填写表单。类似于这样的主语类指向词还有:联系人、员工等,可提取该类词的定语,用于生成表单名字。
S240.获取与所述待填写表单相对应的已填写表单,提取所述已填写表单中的已填写信息。
在生成待填写表单之后,会发送给填写者进行填写,并收集填写者根据待填写表单上传的已填写表单。提取已填写表单中的已填写信息,对于提取的已填写信息进行收集汇总,从而可以便捷地进行数据分析而不需要额外进行数据信息的录入;另外提取的已填写信息还可以用于生成新文档。
对于上述生成的待填写表单,可供用户确定以及进行二次修改,并且二次修改的相关数据也可以作为机器学习的标记数据,用模型的训练和优化。
S250.关联所述原始文档、所述关联信息以及所述已填写信息,生成新文档。
具体地,请参见图7,其示出了一种新文档的生成方法,所述方法包括:
S710.根据所述待填写表单与所述文档标识的对应关系,以及所述待填写表单与所述已填写表单的对应关系,关联出与所述已填写表单相对应的目标文档标识。
根据上述的表单与原始文档的文档标识的对应关系,找到与当前表单对应的原始文档。
S720.复制所述目标文档标识对应的原始文档,得到复制文档。
S730.根据所述待填写信息区域相对于所述待填写字段的偏移位置,以及所述待填写信息区域的上下文信息,将所述已填写信息填充到所述复制文档的待填写信息区域中,生成所述新文档。
对于每一个已填写表单,将从中提取的填写信息根据偏移位置和上下文信息填充到复制文档中,形成的完整的新文档。另外,对于生成的新文档的命名,也可通过提取的表单中的相关信息进行确定,例如,对待填写字姓名,提取其对应的填写信息,也即填写者填写的姓名信息,将该姓名信息用于命名根据该表单生成的新文档。
表单关联原始文档ID,表单域关联文档中空白区域偏移位置和前后文字;信息收集者邀请填写者填写,填写者完成表单提交之后,根据表单关联的文档ID,对文档进行复制,根据表单域中的关联信息,对新文档空白区域进行填充,完成新文档的创建,并且将新文档保存于信息收集者的列表中,填写者可以在提交时选择生成一份完整文档保存。表单填写后,将所有填写者填好的信息进行汇总,生成一份在线表格。
根据偏移位置和上下文信息进行信息填充,能过准确的将信息填写到相应的位置,避免了信息填充错误、或者填充不符合格式要求等情况。
需要说明的,与一个原始文档对应的待填写表单可以分发给多个用户进行填写,互不干涉,有更好的私密性;通过在线文档的方式,可实现实时协同编辑;并且在原始文档的基础上可以根据不同的填写信息分别生成不同的新文档。
本实施例中的格式文档生成方法还可以包括:
识别出所述待填写字段区域中的至少一个待填写字段。
具体地,可通过对每个所述待填写字段区域中的内容信息进行语义识别,得到一个或者多个待填写字段。通过机器学习以及一定量的数据标记,可以确定对应的待填写字段。
待填写字段区域可以为一行或者一个段落,所述待填写字段区域包括待填写字段以及与所述待填写字段对应的待填写信息区域,待填写字段是指对待填写信息的指引说明,例如:姓名、手机号、身份证、联系人等这类的词语;待填写信息区域是用于填写与待填写字段相应的填写信息的。一般情况下是,一个待填写字段对应一个待填写区域,但也可能存在一个待填写字段对应多个待填写区域的。
本实施例提供的方法可应用于在线文档,实时/协同编辑的场景中,其中,在线文档是指一种存储于云服务器,通过浏览器或特定客户端,可以直接浏览、编辑的文档及组织形式;实时/协同编辑是指一人或多人,打开在线文档后,可以直接,同时编辑,并自动保存及同步其它协作者的编辑后的内容。下面以一具体例子进行说明。
填写邀请者首先导入或者新创建一份格式文档W,格式文档W中存在如图8所示的内容信息,对文档进行语义识别等AI判断,生成对应的待填写表单,如图9所示,案例中XX购房合同,有甲乙双方,需要填写的应该有甲方姓名,身份证,两行为单行文本,支付方式为单选下拉选框,而签名不需要填写。在生成表单过程中还可以手动修改相应的字段和数据校验方式。
表单设置好之后,可以邀请他人进行填写,此时填写邀请者可以将生成的如图9所示的表单发送给甲方用户,具体可以通过发送链接、二维码等方式发送给甲方,这里的甲方用户可以有多个,即填写邀请者可以同时将该表单发给不同的用户,甲方用户根据接收到的表单进行填写,填写好的表单如图10所示。待甲方提交填写好的表单之后,后台会生成完整的文档,完整文档的具体内容如图11所示。
多人填写之后,对于收集者,列表中会记录多份文档,每个文档都会以相应的填写者的姓名进行命名以示区分。另外,多人填写的数据可形成汇总表,如图12所示,其示出了表单填写信息的收集结果。
上述的具体实施流程可参见图13,收集者导入或创建格式文档,以使得后台生成相应的表单,收集者对生成的表单进行查看,确定是否需要进行二次修改,并最终将确定的表单分别发送给不同的用户进行填写;用户填写之后提交填写好的表单,后台根据提交的信息生成相应的完整格式文档,以及进行数据统计。
本申请通过对原始格式文档进行AI智能分析,识别出一般需要填写、修改的内容点,形成相应的填写表单;根据不同用户填写的内容及原始格式文档生成完整的格式文档;多人填写之后,抽取出填写内容生成统计表格,帮助管理者进行分析、归档。
本实施例提供的方法能够智能分析文档内容,自动生成信息收集的表单,并且表单内容是动态的,不局限于特定模板文档和特定类型的文档,适用于各行各业大部分场景;规范文档(合同)填写,对于文档的填写更准确,更能够把注意力精中在关键位置,能够很好的提升效率,生成完整文档后可以进行预览、回顾,确保信息数据透明,文档自动进行归档保存;对于多人填写的情况,可以对数据进行自动汇总,不再需要额外录入,大大提升生产效率。
相比于现有技术,本实施例提供的方法不依赖于事先生成的模板,并且提供新的收集数据的能力,不限于现有数据的提取和挖掘;表单对于填写者,会更清晰和规范,并且可以多人同时填写,互不干涉有更好的私密性;通过智能分析信息收集点,提供信息收集能力,并且直接汇总收集到的信息,对信息处理更简单、高效和准确。
另外,对于本实施例提供的方法,可以结合权限管理、电子签名以及第三方公证机关、平台,可以将一般合同签署实行在线化处理,将生成的文档及时间戳信息进行第三方托管,形成法律效应,更完善整个工作流程。
对于本实施例提供的方法可以进行拆分,对用户现有纸质文档进行扫描或者将存量电子文档进行抽取,进行数据统计和分析。
对于生成表单部分,不限于单人填写的表单,同样可以生成一个电子表格,由个人或者多人填写,再生成相应的完整文档。或者将现有表格与文档中的区域进行关联,直接利用表格中的数据生成新的文档,而不需要额外生成、编辑模板。
相应地,请参见图14,本实施例还提供了一种格式文档生成装置,所述装置包括:
待填写区域确定模块1410,用于获取原始文档,对所述原始文档进行识别,确定所述原始文档中待填写字段区域,所述待填写字段区域包括待填写字段以及与所述待填写字段对应的待填写信息区域。
关联信息确定模块1430,用于确定所述待填写信息区域在所述待填写字段区域中的关联信息。
表单生成模块1440,用于根据所述待填写字段生成待填写表单。
信息提取模块1450,用于获取与所述待填写表单相对应的已填写表单,提取所述已填写表单中的已填写信息。
新文档生成模块1460,用于关联所述原始文档、所述关联信息以及所述已填写信息,生成新文档。
进一步地,所述装置还可以包括:
字段识别模块,用于识别出所述待填写字段区域中的至少一个待填写字段;具体可用于对于每个所述待填写字段区域中的内容信息进行语义识别,得到一个或者多个待填写字段。
请参见图15,所述关联信息确定模块1430包括:
第一确定模块1510,用于对于每个待填写字段,确定与所述待填写字段对应的待填写信息区域相对于所述待填写字段的偏移位置。
第二确定模块1520,用于确定所述待填写信息区域的上下文信息。
请参见图16,所述表单生成模块1440包括:
空白表单生成模块1610,用于生成空白表单。
字段填充模块1620,用于遍历所述待填写字段,将所述待填写字段依次填充到所述空白表单中,并为每个待填写字段生成相应的填写区域及相应的格式校验属性,生成所述待填写表单。
对应关系建立模块1630,用于获取所述原始文档的文档标识,将所述待填写表单与所述文档标识进行关联,建立所述待填写表单与所述文档标识的对应关系。
请参见图17,所述新文档生成模块1460包括:
文档标识关联模块1710,用于根据所述待填写表单与所述文档标识的对应关系,以及所述待填写表单与所述已填写表单的对应关系,关联出与所述已填写表单相对应的目标文档标识。
复制模块1720,用于复制所述目标文档标识对应的原始文档,得到复制文档。
信息填充模块1730,用于根据所述待填写信息区域相对于所述待填写字段的偏移位置,以及所述待填写信息区域的上下文信息,将所述已填写信息填充到所述复制文档的待填写信息区域中,生成所述新文档。
请参见图18,所述待填写区域确定模块1410包括:
扫描模块1810,用于以行或者段落为单位,扫描所述原始文档。
第三确定模块1820,用于当扫描到所述原始文档中存在预设格式的信息时,确定所述预设格式的信息所在的行或者段落为所述待填写字段区域。
记录模块1830,用于记录所述待填写字段区域在所述原始文档中的行号或者段落号。
请参见图19,所述表单生成模块1440还包括:
分词模块1910,用于对所述待填写字段进行分词。
命名模块1920,用于当分词后的待填写字段中包括主语类词语,以及与所述主语类词语对应的定语时,根据所述定语为所述待填写表单命名。
上述实施例中提供的装置可执行本发明任意实施例所提供方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的方法。
本实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如本实施例上述的任一方法。
本实施例还提供了一种设备,其结构图请参见图20,该设备2000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processingunits,CPU)2022(例如,一个或一个以上处理器)和存储器2032,一个或一个以上存储应用程序2042或数据2044的存储介质2030(例如一个或一个以上海量存储设备)。其中,存储器2032和存储介质2030可以是短暂存储或持久存储。存储在存储介质2030的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对设备中的一系列指令操作。更进一步地,中央处理器2022可以设置为与存储介质2030通信,在设备2000上执行存储介质2030中的一系列指令操作。设备2000还可以包括一个或一个以上电源2026,一个或一个以上有线或无线网络接口2050,一个或一个以上输入输出接口2058,和/或,一个或一个以上操作***2041,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。本实施例上述的任一方法均可基于图20所示的设备进行实施。
本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的***或中断产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本实施例中所示出的结构,仅仅是与本申请方案相关的部分结构,并不构成对本申请方案所应用于其上的设备的限定,具体的设备可以包括比示出的更多或更少的部件,或者组合某些部件,或者具有不同的部件的布置。应当理解到,本实施例中所揭露的方法、装置等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元模块的间接耦合或通信连接。
基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员还可以进一步意识到,结合本说明书所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但这种实现不应认为超出本发明的范围。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种格式文档生成方法,其特征在于,包括:
获取原始文档,对所述原始文档进行识别,基于预设格式的信息确定所述原始文档中待填写字段区域,所述待填写字段区域包括待填写字段以及与所述待填写字段对应的待填写信息区域;所述预设格式的信息指示具有填写引导意图的通用文档字符;
确定所述待填写信息区域在所述待填写字段区域中的关联信息;
根据所述待填写字段携带的填写对象信息生成对应的待填写表单;
获取与所述待填写表单相对应的已填写表单,提取所述已填写表单中的已填写信息;
关联所述原始文档、所述关联信息以及所述已填写信息,生成新文档;
其中,所述根据所述待填写字段携带的填写对象信息生成对应的待填写表单还包括:
对所述待填写字段进行分词;
当分词后的待填写字段中包括主语类词语,以及与所述主语类词语对应的定语时,根据所述定语为所述待填写表单命名,所述定语指示所述填写对象信息。
2.根据权利要求1所述的一种格式文档生成方法,其特征在于,所述确定所述待填写信息区域在所述待填写字段区域中的关联信息包括:
对于每个待填写字段,确定与所述待填写字段对应的待填写信息区域相对于所述待填写字段的偏移位置;
确定所述待填写信息区域的上下文信息。
3.根据权利要求2所述的一种格式文档生成方法,其特征在于,所述根据所述待填写字段携带的填写对象信息生成对应的待填写表单包括:
生成空白表单;
遍历所述待填写字段,将所述待填写字段依次填充到所述空白表单中,并为每个待填写字段生成相应的填写区域及相应的格式校验属性,生成所述待填写表单;
获取所述原始文档的文档标识,将所述待填写表单与所述文档标识进行关联,建立所述待填写表单与所述文档标识的对应关系。
4.根据权利要求3所述的一种格式文档生成方法,其特征在于,所述关联所述原始文档、所述关联信息以及所述已填写信息,生成新文档包括:
根据所述待填写表单与所述文档标识的对应关系,以及所述待填写表单与所述已填写表单的对应关系,确定与所述已填写表单相对应的目标文档标识;
复制所述目标文档标识对应的原始文档,得到复制文档;
根据所述待填写信息区域相对于所述待填写字段的偏移位置,以及所述待填写信息区域的上下文信息,将所述已填写信息填充到所述复制文档的待填写信息区域中,生成所述新文档。
5.根据权利要求1所述的一种格式文档生成方法,其特征在于,所述获取原始文档,对所述原始文档进行识别,基于预设格式的信息确定所述原始文档中待填写字段区域包括:
以行或者段落为单位,扫描所述原始文档;
当扫描到所述原始文档中存在所述预设格式的信息时,确定所述预设格式的信息所在的行或者段落为所述待填写字段区域;
记录所述待填写字段区域在所述原始文档中的行号或者段落号。
6.根据权利要求1所述的一种格式文档生成方法,其特征在于,所述方法还包括:
对于每个所述待填写字段区域中的内容信息进行语义识别,得到一个或者多个待填写字段。
7.一种格式文档生成装置,其特征在于,包括:
待填写区域确定模块,用于获取原始文档,对所述原始文档进行识别,基于预设格式的信息确定所述原始文档中待填写字段区域,所述待填写字段区域包括待填写字段以及与所述待填写字段对应的待填写信息区域;所述预设格式的信息指示具有填写引导意图的通用文档字符;
关联信息确定模块,用于确定所述待填写信息区域在所述待填写字段区域中的关联信息;
表单生成模块,用于根据所述待填写字段携带的填写对象信息生成对应的待填写表单;
信息提取模块,用于获取与所述待填写表单相对应的已填写表单,提取所述已填写表单中的已填写信息;
新文档生成模块,用于关联所述原始文档、所述关联信息以及所述已填写信息,生成新文档;
其中,所述表单生成模块还用于对所述待填写字段进行分词;当分词后的待填写字段中包括主语类词语,以及与所述主语类词语对应的定语时,根据所述定语为所述待填写表单命名,所述定语指示所述填写对象信息。
8.一种用于格式文档生成的设备,其特征在于,所述用于格式文档生成的设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一项所述的格式文档生成方法。
9.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如权利要求1至6任一项所述的格式文档生成方法。
CN201910527126.7A 2019-06-18 2019-06-18 一种格式文档生成方法、装置、设备及存储介质 Active CN112183036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910527126.7A CN112183036B (zh) 2019-06-18 2019-06-18 一种格式文档生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910527126.7A CN112183036B (zh) 2019-06-18 2019-06-18 一种格式文档生成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112183036A CN112183036A (zh) 2021-01-05
CN112183036B true CN112183036B (zh) 2022-04-19

Family

ID=73914420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910527126.7A Active CN112183036B (zh) 2019-06-18 2019-06-18 一种格式文档生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112183036B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883012B (zh) * 2021-02-08 2022-10-28 建信金融科技有限责任公司 一种Domino数据表格组件的实现方法和装置
CN112800763B (zh) * 2021-04-14 2021-08-06 北京金山云网络技术有限公司 数据处理方法、医学文本数据处理方法、装置及电子设备
CN113283224A (zh) * 2021-06-09 2021-08-20 京东方科技集团股份有限公司 表单生成方法、装置、电子设备及存储介质
CN113434504B (zh) * 2021-06-28 2023-10-24 青岛海尔科技有限公司 死亡医学证明表的存储方法和装置、存储介质及电子装置
CN113486637A (zh) * 2021-07-07 2021-10-08 上海中通吉网络技术有限公司 智能化动态自定义合同生成方法和装置
CN115169302B (zh) * 2022-09-08 2022-12-09 天津联想协同科技有限公司 一种基于在线表格文档的数据收集方法、装置及存储介质
CN116681042B (zh) * 2023-08-01 2023-10-10 成都信通信息技术有限公司 基于关键字提取的内容概要生成方法、***及介质
CN116663509B (zh) * 2023-08-02 2023-09-29 四川享宇科技有限公司 一种银行业复杂***的信息自动获取填入机器人

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461507A (zh) * 2014-11-10 2015-03-25 吴涛军 信息片段的组织、呈现、用户响应以及多信息片段协同
CN105095168A (zh) * 2015-07-17 2015-11-25 北京奇虎科技有限公司 一种合同文档的自动生成方法和装置
CN108287927A (zh) * 2018-03-05 2018-07-17 北京百度网讯科技有限公司 用于获取信息的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207936B (zh) * 2010-03-30 2013-10-23 国际商业机器公司 用于提示电子文档内容变更的方法和***
US9813670B2 (en) * 2014-08-20 2017-11-07 Liveoak Technologies, Inc. Online conference system with real-time document transaction platform

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461507A (zh) * 2014-11-10 2015-03-25 吴涛军 信息片段的组织、呈现、用户响应以及多信息片段协同
CN105095168A (zh) * 2015-07-17 2015-11-25 北京奇虎科技有限公司 一种合同文档的自动生成方法和装置
CN108287927A (zh) * 2018-03-05 2018-07-17 北京百度网讯科技有限公司 用于获取信息的方法及装置

Also Published As

Publication number Publication date
CN112183036A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112183036B (zh) 一种格式文档生成方法、装置、设备及存储介质
CN107766371B (zh) 一种文本信息分类方法及其装置
US20210366055A1 (en) Systems and methods for generating accurate transaction data and manipulation
CN102779140A (zh) 一种关键词获取方法及装置
CN112651218A (zh) 一种标书自动生成方法、管理方法、介质以及计算机
CN112417274A (zh) 一种消息推送方法、装置、电子设备及存储介质
CN113723270A (zh) 基于rpa及ai的文件处理方法及装置
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN110990651B (zh) 地址数据处理方法、装置、电子设备及计算机可读介质
CN110765276A (zh) 知识图谱中的实体对齐方法及装置
WO2022247231A1 (zh) 简历筛选方法、简历筛选装置、终端设备及存储介质
CN111581937A (zh) 文档生成方法、装置、计算机可读介质及电子设备
CN111159411A (zh) 一种融合知识图谱的文本立场分析方法、***及存储介质
CN110688842A (zh) 一种文档标题层级的分析方法、装置及服务器
CN115935231A (zh) 一种数据分类方法、装置、设备及存储介质
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN115374198A (zh) 城市全域数据的处理方法及装置
CN115690819A (zh) 一种基于大数据的识别方法及其***
CN113988020A (zh) 工程技术标标书编制方法、装置、设备及存储介质
CN112991131A (zh) 一种适用于电子政务平台的政务数据处理方法
CN112348022A (zh) 一种基于深度学习的自由格式文档识别方法
CN110955754A (zh) 一种用于重复来电分析识别的模型构建方法
CN112612778B (zh) 一种企业数据架构方法
CN113113018B (zh) 一种基于大数据的企业智慧管理***及方法
CN110727897B (zh) 支持多终端操作的地质调查信息服务快速发布方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40037757

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant