CN110837727A - 一种文档模板生成方法、装置、终端设备及介质 - Google Patents
一种文档模板生成方法、装置、终端设备及介质 Download PDFInfo
- Publication number
- CN110837727A CN110837727A CN201911012417.9A CN201911012417A CN110837727A CN 110837727 A CN110837727 A CN 110837727A CN 201911012417 A CN201911012417 A CN 201911012417A CN 110837727 A CN110837727 A CN 110837727A
- Authority
- CN
- China
- Prior art keywords
- document
- identification data
- text content
- information
- attribute information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012937 correction Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 20
- 230000014509 gene expression Effects 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 210000001072 colon Anatomy 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本申请适用于计算机技术领域,提供了一种文档模板生成方法、装置、终端设备及介质,所述方法包括:获取已生成的文档识别数据;接收待生成模板的文档,根据所述文档识别数据识别所述文档中各个文本内容对应的属性信息;采用所述属性信息的名称对所述文档中已识别的各个文本内容进行替换;将替换后的文档保存为文档模板。通过上述方法能够降低文档模板制作的难度。
Description
技术领域
本申请属于计算机技术领域,尤其涉及一种文档模板生成方法、装置、终端设备及介质。
背景技术
目前各种办公场景中经常需要使用各种文档来记录信息或发送通知,例如会议通知,会议记录等,这类文档通常具有固定的格式。这些固定格式的文档,若能根据文档模板进行编写,会节省很多时间。对于这种情况,可以采用模板制作语言制作模板,但是使用模板制作语言存在制作难度高,编程思维要求高等问题,非技术人员很难实现。
发明内容
本申请实施例提供了一种文档模板生成方法、装置、终端设备及介质,可以利用已有的文档生成与该文档匹配的文档模板。
第一方面,本申请实施例提供了一种文档模板生成方法,包括:
获取已生成的文档识别数据;
接收待生成模板的文档,根据所述文档识别数据识别所述文档中各个文本内容对应的属性信息;
采用所述属性信息的名称对所述文档中已识别的各个文本内容进行替换;
将替换后的文档保存为文档模板。
第二方面,本申请实施例提供了一种文档模板生成装置,包括:
获取模块,用于获取已生成的文档识别数据;
识别模块,用于接收待生成模板的文档,根据所述文档识别数据识别所述文档中各个文本内容对应的属性信息;
替换模块,用于采用所述属性信息的名称对所述文档中已识别的各个文本内容进行替换;
存储模块,用于将替换后的文档保存为文档模板。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的文档模板生成方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述第一方面所述的文档模板生成方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的文档模板方法。
本申请实施例与现有技术相比存在的有益效果是:通过已生成的文档识别数据对待生成模板的文档进行识别,识别出文档中各个文本内容对应的属性信息,然后采用所述属性信息的名称对所述文档中已识别的各个文本内容进行替换,并将替换后的文档保存为文档模板。通过文档生成文档模板,能够降低文档模板制作的难度,使得非技术人员也能快速生成模板文件
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的一种文档模板生成方法的流程示意图;
图2是本申请实施例二提供的一种文档模板生成方法的流程示意图;
图3是本申请实施例三提供的一种文档模板生成方法的流程示意图;
图4是本申请实施例四提供的一种文档模板生成装置的结构示意图;
图5是本申请实施例五提供的一种终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
图1是本申请实施例一提供的一种文档模板生成方法的流程示意图,如图1所示,所述方法包括以下步骤:
S101,获取已生成的文档识别数据;
在本实施例中,文档模板生成方法的执行主体为具有文档编辑识别功能的终端设备,可以是计算机、手机、平板电脑,也可以是服务器,本实施例中对设备的具体类型不做限制。
上述文档识别数据可以看作是后续识别文档内容时的一种规范或规则,可以通过机器学习得到。在进行文档模板生成之前,可以通过机器学习得到文档识别数据。
S102,接收待生成模板的文档,根据所述文档识别数据识别所述文档中各个文本内容对应的属性信息;
上述待生成模板的文档,一般具有固定的格式,例如公司会议通知文件、会议记录文件等,在企业中也比较常用。
具体地,接收一个待生成模板的文档,机器根据文档识别数据,对该文档内容进行识别,识别出文档中的各个文本内容对应的属性信息。
示例性地,选择一个会议通知文件作为待生成模板的文档,若所述文档中包括“主持人:董事长张三先生”,在生成模板时,机器可以识别出“董事长”为主持人职位,“张三”为主持人姓名,“先生”为主持人性别。
S103,采用所述属性信息的名称对所述文档中已识别的各个文本内容进行替换;
具体地,当识别出文档中各个文本内容对应的属性信息后,可以将原文档中识别出的各个文本内容采用其对应的属性信息的名称进行替换。示例性地,当识别出文本内容中“董事长”对应的属性信息为“主持人职位”,则将文档中的董事长替换为“主持人职位”。
进一步地,可以采用属性信息对应的Jinja(一种基于Python的模板制作语言)模板语言对各个文本内容进行替换,便于在后续模板使用过程中利用计算机技术对其进行编辑。示例性的,对于文档中的“董事长”,采用“{{主持人职位}}”去替换。
S104,将替换后的文档保存为文档模板。
具体地,对文档中的各个文本内容进行识别并替换后,得到的文档为文档模板,可以将其存储在预设位置。
本实施例中,通过对原文档进行文本识别和替换,生成文档模板,降低了编辑文档模板需要的技术门槛,简化了文档模板的生成过程。
图2是本申请实施例二提供的一种文档模板生成方法的流程示意图,如图2所示,所述方法包括以下步骤:
S201,获取第一预设数量的第一文档,所述第一文档包括多个标注信息,任一标注信息与所述第一文档中的一个文本内容对应,所述标注信息用于标识对应的文本内容的属性信息;
在本实施例中,文档模板生成方法的执行主体为具有文档编辑识别功能的终端设备,可以是计算机、手机、平板电脑,也可以是服务器,本实施例不对设备的具体类型做限定。
具体地,可以通过企业的董秘办或是其他相关机构获取一定数量的相关文件。例如,若需要根据会议相关文档生成会议文档模板,可以从董秘办获取一定数量的会议通知、会议记录、会议签到表等会议相关文件。从这些文档中选取一定数量的文档作为第一文档,对这些第一文档进行标注,将文档中文本内容对应的属性信息标注出来。
S202,根据所述第一文档,生成初始文档识别数据;
S202具体可以包括以下子步骤:
S2021,识别所述第一文档中被标注的各个文本内容的关联信息,所述关联信息包括所述各个文本内容的位置信息、前置位内容信息、后置位内容信息以及语法信息;
具体地,上述关联信息可以包括被标注的各个文本内容本身内容、语法信息、在文档中的位置信息,前置位内容信息、后置位内容信息等。示例性的,若第一文档是一个会议通知文件,在该文件中有“记录人:董事长秘书李四”,其中“董事长秘书”被标注为“主持人职务”;在机器识别过程中,可以识别“董事长秘书”的关联信息,包括其本身包括“秘书”这样具有职务特征的词语,前置位有“记录人:”这样可以带有标识信息的语句,后面有“李四”这样的人名。
S2022,根据所述被标注的各个文本内容的关联信息及其对应的标注,建立所述关联信息与所述属性信息之间的对应关系,生成初始文档识别数据。
具体地,机器识别出文档中被标注内容的关联信息后,可以通过被标注内容的关联信息和对应的标注,进行机器学习,可以建立关联信息与属性信息之间的对应关系。示例性地,当关联信息内容包括“秘书”这样具有职务特征的词语,前置位有“记录人:”这样可以带有标识信息的语句,后面有“李四”这样的人名时,对应属性信息为记录人职务。则在形成的文档识别数据中,可以包括当某一文本内容包括带有职务的词语,前置位有带有冒号的信息,后置位为姓名,则可以识别该文本内容为前置位冒号前的信息加上职务。
需要说明的是,机器学习过程有多种算法和实现方式,本实施例中对此不做限制。
S203,获取第二预设数量的第二文档,采用所述初始文档识别数据依次对各个第二文档进行识别,标注出所述第二文档中各个文本内容所对应的属性信息;
通过对第一预设数量的带有标注的第一文档进行机器学习,可以得到初始文档识别数据,但是初始识别数据对文档内容的识别率可能不高,因此需要对初始文档识别数据进行更新。
可以选择第二预设数量的第二文档对初始文档识别数据进行更新,这些第二文档可以是从董秘办或者其他公司部门获取的文档,也可以是人工制作的一些文档,例如将第一文档进行不同的组合,或者,增加一些其他的表述形式。
具体地,利用初始文档识别数据对第二文档进行机器识别,通过机器识别出第二文档中文本内容对应的属性信息,并将属性信息作为标注写在文档中。
S204,获取针对所述第二文档的标注修正信息,根据所述第二文档中各个文本内容所对应的属性信息和所述标注修正信息,更新所述初始文档识别数据;
具体地,机器对第二文档的标注,不一定是正确的,所以需要对标注进行修正,获取对第二文档的标注修正信息,然后可以根据标注修正信息、第二文档、机器对第二文档的标注,对初始文档识别数据进行更新。
S204具体可以包括以下子步骤:
S2041,采用所述初始文档识别数据对任一第二文档的各个文本内容进行标注;
具体地,从获取的第二预设数量的第二文档中,随机选取一个第二文档,采用初始文档识别数据对该第二文档进行识别,识别出各个文本内容对应的属性信息,并将其标注在文档中。
S2042,依据所述标注修正信息和所述第二文档中的标注信息,更新所述初始文档识别数据,获得中间文档识别数据;
具体地,因为机器对于该第二文档的标注不一定是正确的,故需要获取标注修正信息,该标注修正信息是指,对第二文档的标注进行修订后的信息,例如将机器未识别的文本内容进行标注,将机器标注错误的内容进行纠正。可以根据标注修正信息和机器对第二文档的标注,通过机器学习,对初始文档识别数据进行更新得到中间文档识别数据。
S2043,采用所述中间文档识别数据逐个对剩余的所述第二文档的各个文本内容进行标注,依据所述标注修正信息和各个第二文档中的标注信息,更新所述中间文档识别数据。
具体地,选择剩余的第二文档,采用中间文档识别数据对第二文档进行是被和标注,获取标注修正信息,根据标注修正信息和对第二文档的标注信息,更新中间文档识别规范。机器逐个地对剩余的第二文档进行标注,然后通过机器学习更新中间文档识别数据,需要说明的是,每一次对新的第二文档的识别和标注,在进行识别和标注时,采用的是根据上一个第二文档更新的中间文档识别规范;每识别和标注一个第二文档,就要获取一次标注修正信息,更新一次中间文档识别数据。
进一步地,可以根据预设数量的第二文档更新一次中间文档识别数据。例如,预设数量为5,则可以在识别和标注5个第二文档后,获取这5个第二文档的标注修正信息,然后根据这5个第二文档的标注修正信息和标注信息,更新一次中间文档识别数据,再用更新得到的中间文档识别数据,识别和标注5个第二文档,这样循环往复,每5个第二文档更新一次中间文档识别数据。
S205,当采用全部所述第二文档对所述初始文档识别数据进行更新后,输出文档识别数据;
具体地,当识别到最后一个第二文档,采用当前的中间文档识别规范或初始文档识别规范标注该第二文档,然后获取标注修正信息,根据标注修正信息和标注信息对当前的初始文档识别数据或中间文档识别数据进行更新,得到文档识别数据。
进一步地,可以在每次获取标注修正信息后,还可以根据标注修正信息、和机器对第二文档的标注计算出标注准确率。若该标注准确率超过预设值,则在本次更新中间文档识别数据或者初始文档识别数据后,不再继续标注剩余的第二文档。示例性的,标注准确率预设值可以表示一个使用标准,例如98%。
S206,获取已生成的文档识别数据;
S207,接收待生成模板的文档,根据所述文档识别数据识别所述文档中各个文本内容对应的属性信息;
S208,采用所述属性信息的名称对所述文档中已识别的各个文本内容进行替换;
S209,将替换后的文档保存为文档模板。
上述S206-209与前述S101-104类似,可以相互参考,在本实施例中不再赘述。
本实施例中,通过采用大量文件及文件的组合,进行机器学习,实现对文档的准确识别,将识别的文本内容对应替换,可以简单地利用文档生成对应的文档模板,简化文档模板编辑过程,降低文档模板编辑的技术门槛。
图3是本申请实施例三提供的一种文档模板生成方法的流程示意图,如图3所示,所述方法包括以下步骤:
S301,获取已生成的文档识别数据;
在本实施例中,文档模板生成方法的执行主体为具有文档编辑识别功能的终端设备,可以是计算机、手机、平板电脑,也可以是服务器,本实施例不对设备的具体类型做限定。
具体地,可以通过机器学习的方式对大量文档进行文本识别学习,得到文档识别数据。需要说明的是,机器学习的方式和算法实现由很多种,可以通过任意机器学习方式和算法对文本识别进行学习,本实施例对机器学习的方式不做限定。
S302,接收待生成模板的文档,根据所述文档识别数据识别所述文档中各个文本内容对应的属性信息;
具体地,接收一个待生成模板的文档,根据文档识别数据识别出文档中各个文本内容对应的属性信息。例如,文档中有“召开方式:通讯”,识别出“通讯”对应的属性信息为“召开方式”。
文本识别数据基于大量的文件生成的,在对文本的识别过程中,还可以识别出属性信息对应的属性值得各种情况。例如,可以识别出属性信息“召开方式”对应有两个属性值“视频会议”和“现场会议”。
S303,采用所述属性信息的名称对所述文档中已识别的各个文本内容进行替换;
具体地,当识别出文档中各个文本内容对应的属性信息后,可以将原文档中识别出的各个文本内容采用其对应的属性信息的名称替换。在替换过程中,可以采用特定格式的数据进行替换,例如可以采用Jinja模板语言,在进行替换时,在属性信息的前后加上双花括号({{}})去替换掉文本内容。
S304,识别所述文档中的目标文本内容,所述目标文本内容与至少一个其他文本内容相关联,所述目标文本内容的属性信息的目标名称包括多个,任一目标名称与至少一个其他文本内容的属性信息的名称关联;
具体地,在替换时,存在一些目标文本内容的值可以确定一个或多个文本内容的值。示例性地,可以识别到,若召开时间为“周一”,则召开方式为“现场会议”;若召开时间为“周日”,则召开方式为“视频会议”。
S305,采用所述多个目标名称,以及关联的所述其他文本内容的属性信息的名称,对所述目标文本内容进行替换;
具体地,则在替换时可以将其作为替换信息写进文档模板中。示例性的,识别到,若召开时间为“周一”,则召开方式为“现场会议”;若召开时间为“周日”,则召开方式为“视频会议”,在进行替换时,可以将其用选择语句写入文档模板中,在利用生成的文档模板编辑文档时,若选定召开时间,则召开方式会相应地确定。
进一步地,文档中的文本内容可能存在多种表达形式,识别文档中的该目标文本内容。可以确定多种表达形式中的一种表达形式作为目标表达形式,按照目标表达形式对目标文本内容的属性信息对应的名称进行处理,采用处理后的名称对目标文本内容进行替换。示例性的,时间有多种表达形式,例如“2018年1月1日”、“2018-1-1”和“2018.1.1”都表达相同的意思。在进行识别时,若识别到时间时,均采用“Y年M月D日”的形式和属性信息去替换。例如将“2018年1月1日”、“2018-1-1”和“2018.1.1”均替换为{{'Y年M月d日'|日期格式转换(召开日期)}}。
S306,将替换后的文档保存为文档模板。
具体地,替换后的文档为最终需要的文档模板,将其保存在预设位置。
本实施例中,通过文本识别并替换文档内容,生成文档模板,简化了文档模板生成过程;在文档模板生成过程中,将文本内容关联关系以及选项写入文档模板中,方便了文档模板的使用。
图4是本申请实施例四提供的一种文档模板生成装置的结构示意图;
获取模块41,用于获取已生成的文档识别数据;
识别模块42,用于接收待生成模板的文档,根据所述文档识别数据识别所述文档中各个文本内容对应的属性信息;
替换模块43,用于采用所述属性信息的名称对所述文档中已识别的各个文本内容进行替换;
存储模块44,用于将替换后的文档保存为文档模板。
本实施例中,所述文档模板生成装置还包括以下模块:
第一文档获取模块,用于获取第一预设数量的第一文档,所述第一文档包括多个标注信息,任一标注信息与所述第一文档中的一个文本内容对应,所述标注信息用于标识对应的文本内容的属性信息;
初始文档识别数据生成模块,用于根据所述第一文档,生成初始文档识别数据;
第二文档获取模块,用于获取第二预设数量的第二文档,采用所述初始文档识别数据依次对各个第二文档进行识别,标注出所述第二文档中各个文本内容所对应的属性信息;
初始文档识别数据更新模块,用于获取针对所述第二文档的标注修正信息,根据所述第二文档中各个文本内容所对应的属性信息和所述标注修正信息,更新所述初始文档识别数据;
文档识别数据输出模块,用于当采用全部所述第二文档对所述初始文档识别数据进行更新后,输出文档识别数据。
本实施例中,上述初始文档识别数据生成模块具体可以包括如下子模块:
第一文档识别子模块,用于识别所述第一文档中被标注的各个文本内容的关联信息,所述关联信息包括所述各个文本内容的位置信息、前置位内容信息、后置位内容信息以及语法信息;
初始文档识别数据生成子模块,用于根据所述被标注的各个文本内容的关联信息及其对应的标注,建立所述关联信息与所述属性信息之间的对应关系,生成初始文档识别数据。
本实施例中,上述初始文档识别数据更新模块具体可以包括如下子模块:
标注子模块,用于采用所述初始文档识别数据对任一第二文档的各个文本内容进行标注;
中间文档识别数据生成子模块,用于依据所述标注修正信息和所述第二文档中的标注信息,更新所述初始文档识别数据,获得中间文档识别数据;
中间文档识别数据更新子模块,用于采用所述中间文档识别数据逐个对剩余的所述第二文档的各个文本内容进行标注,依据所述标注修正信息和各个第二文档中的标注信息,更新所述中间文档识别数据。
本实施例中,文档模板生成装置还可以包括如下模块:
标注准确率计算模块,用于计算已标注的所述第二文档的各个文本内容的标注准确率;
标注终止模块,用于若所述标注准确率超过预设值,将依据当前的第二文档更新得到的初始文档识别数据或中间文档识别数据作为文档识别数据,并终止对剩余的所述第二文档的标注。
本实施例中,文档生成装置还可以包括如下模块:
目标文本内容识别模块,用于识别所述文档中的目标文本内容,所述目标文本内容与至少一个其他文本内容相关联,所述目标文本内容的属性信息的目标名称包括多个,任一目标名称与至少一个其他文本内容的属性信息的名称关联;
目标文本内容替换模块,用于采用所述多个目标名称,以及关联的所述其他文本内容的属性信息的名称,对所述目标文本内容进行替换。
本实施例中,上述目标文本内容识别模块,还用于识别所述文档中的目标文本内容,所述目标文本内容包括多种表达形式;
上述目标文本内容替换模块,还用于确定所述多种表达形式中的目标表达形式,按照所述目标表达形式对所述目标文本内容的属性信息对应的名称进行处理,采用处理后的名称对所述文本内容进行替换。
图5为本申请实施例五提供的一种终端设备的结构示意图。如图5所示,该实施例的终端设备5包括:至少一个处理器50(图5中仅示出一个)处理器、存储器51以及存储在所述存储器51中并可在所述至少一个处理器50上运行的计算机程序52,所述处理器50执行所述计算机程序52时实现上述任意各个文档模板生成方法实施例中的步骤。
所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算终端设备。该终端设备可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的举例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出终端设备、网络接入终端设备等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),该处理器50还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51在一些实施例中可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51在另一些实施例中也可以是所述终端终端设备5的外部存储终端设备,例如所述终端终端设备5上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。进一步地,所述存储器51还可以既包括所述终端终端设备5的内部存储单元也包括外部存储终端设备。所述存储器51用于存储操作***、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种文档模板生成方法,其特征在于,包括:
获取已生成的文档识别数据;
接收待生成模板的文档,根据所述文档识别数据识别所述文档中各个文本内容对应的属性信息;
采用所述属性信息的名称对所述文档中已识别的各个文本内容进行替换;
将替换后的文档保存为文档模板。
2.如权利要求1所述的方法,其特征在于,在所述获取已生成的文档识别数据之前,还包括:
获取第一预设数量的第一文档,所述第一文档包括多个标注信息,任一标注信息与所述第一文档中的一个文本内容对应,所述标注信息用于标识对应的文本内容的属性信息;
根据所述第一文档,生成初始文档识别数据;
获取第二预设数量的第二文档,采用所述初始文档识别数据依次对各个第二文档进行识别,标注出所述第二文档中各个文本内容所对应的属性信息;
获取针对所述第二文档的标注修正信息,根据所述第二文档中各个文本内容所对应的属性信息和所述标注修正信息,更新所述初始文档识别数据;
当采用全部所述第二文档对所述初始文档识别数据进行更新后,输出文档识别数据。
3.如权利要求2所述的方法,其特征在于,所述根据所述第一文档,生成初始文档识别数据,包括:
识别所述第一文档中被标注的各个文本内容的关联信息,所述关联信息包括所述各个文本内容的位置信息、前置位内容信息、后置位内容信息以及语法信息;
根据所述被标注的各个文本内容的关联信息及其对应的标注,建立所述关联信息与所述属性信息之间的对应关系,生成初始文档识别数据。
4.如权利要求2所述的方法,其特征在于,所述根据所述第二文档中各个文本内容所对应的属性信息和所述标注修正信息,更新所述初始文档数据,包括:
采用所述初始文档识别数据对任一第二文档的各个文本内容进行标注;
依据所述标注修正信息和所述第二文档中的标注信息,更新所述初始文档识别数据,获得中间文档识别数据;
采用所述中间文档识别数据逐个对剩余的所述第二文档的各个文本内容进行标注,依据所述标注修正信息和各个第二文档中的标注信息,更新所述中间文档识别数据。
5.如权利要求4所述的方法,其特征在于,还包括:
计算已标注的所述第二文档的各个文本内容的标注准确率;
若所述标注准确率超过预设值,将依据当前的第二文档更新得到的初始文档识别数据或中间文档识别数据作为文档识别数据,并终止对剩余的所述第二文档的标注。
6.如权利要求1所述的方法,其特征在于,还包括;
识别所述文档中的目标文本内容,所述目标文本内容与至少一个其他文本内容相关联,所述目标文本内容的属性信息的目标名称包括多个,任一目标名称与至少一个其他文本内容的属性信息的名称关联;
采用所述多个目标名称,以及关联的所述其他文本内容的属性信息的名称,对所述目标文本内容进行替换。
7.如权利要求1所述的方法,其特征在于,还包括:
识别所述文档中的目标文本内容,所述目标文本内容包括多种表达形式;
确定所述多种表达形式中的目标表达形式,按照所述目标表达形式对所述目标文本内容的属性信息对应的名称进行处理,采用处理后的名称对所述文本内容进行替换。
8.一种文档模板生成装置,其特征在于,包括:
获取模块,用于获取已生成的文档识别数据;
识别模块,用于接收待生成模板的文档,根据所述文档识别数据识别所述文档中各个文本内容对应的属性信息;
替换模块,用于采用所述属性信息的名称对所述文档中已识别的各个文本内容进行替换;
存储模块,用于将替换后的文档保存为文档模板。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911012417.9A CN110837727B (zh) | 2019-10-23 | 2019-10-23 | 一种文档模板生成方法、装置、终端设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911012417.9A CN110837727B (zh) | 2019-10-23 | 2019-10-23 | 一种文档模板生成方法、装置、终端设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110837727A true CN110837727A (zh) | 2020-02-25 |
CN110837727B CN110837727B (zh) | 2023-12-01 |
Family
ID=69575771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911012417.9A Active CN110837727B (zh) | 2019-10-23 | 2019-10-23 | 一种文档模板生成方法、装置、终端设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110837727B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581937A (zh) * | 2020-05-15 | 2020-08-25 | 航天科工智慧产业发展有限公司 | 文档生成方法、装置、计算机可读介质及电子设备 |
CN113011151A (zh) * | 2021-04-20 | 2021-06-22 | 平安科技(深圳)有限公司 | 需求文档模板的生成方法、装置、设备及存储介质 |
WO2023160578A1 (zh) * | 2022-02-22 | 2023-08-31 | 北京字跳网络技术有限公司 | 信息处理方法、装置、终端和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107783949A (zh) * | 2016-08-24 | 2018-03-09 | 北京神州泰岳软件股份有限公司 | 一种ppt文档的处理方法和装置 |
CN109657209A (zh) * | 2018-10-16 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 文本内容的替换方法、装置、设备及计算机存储介质 |
CN110134959A (zh) * | 2019-05-15 | 2019-08-16 | 第四范式(北京)技术有限公司 | 命名实体识别模型训练方法及设备、信息抽取方法及设备 |
CN110263338A (zh) * | 2019-06-18 | 2019-09-20 | 北京明略软件***有限公司 | 替换实体名称方法、装置、存储介质及电子装置 |
-
2019
- 2019-10-23 CN CN201911012417.9A patent/CN110837727B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107783949A (zh) * | 2016-08-24 | 2018-03-09 | 北京神州泰岳软件股份有限公司 | 一种ppt文档的处理方法和装置 |
CN109657209A (zh) * | 2018-10-16 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 文本内容的替换方法、装置、设备及计算机存储介质 |
CN110134959A (zh) * | 2019-05-15 | 2019-08-16 | 第四范式(北京)技术有限公司 | 命名实体识别模型训练方法及设备、信息抽取方法及设备 |
CN110263338A (zh) * | 2019-06-18 | 2019-09-20 | 北京明略软件***有限公司 | 替换实体名称方法、装置、存储介质及电子装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581937A (zh) * | 2020-05-15 | 2020-08-25 | 航天科工智慧产业发展有限公司 | 文档生成方法、装置、计算机可读介质及电子设备 |
CN113011151A (zh) * | 2021-04-20 | 2021-06-22 | 平安科技(深圳)有限公司 | 需求文档模板的生成方法、装置、设备及存储介质 |
CN113011151B (zh) * | 2021-04-20 | 2022-03-18 | 平安科技(深圳)有限公司 | 需求文档模板的生成方法、装置、设备及存储介质 |
WO2023160578A1 (zh) * | 2022-02-22 | 2023-08-31 | 北京字跳网络技术有限公司 | 信息处理方法、装置、终端和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110837727B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347953B (zh) | 页面生成方法、装置、计算机设备及存储介质 | |
CN110837727B (zh) | 一种文档模板生成方法、装置、终端设备及介质 | |
CN107657051B (zh) | 一种图片标签的生成方法、终端设备及存储介质 | |
US20210365421A1 (en) | Data analysis method, computer device and storage medium | |
CN110472109B (zh) | 动态化数据质量分析方法及平台*** | |
CN111159329A (zh) | 敏感词检测方法、装置、终端设备和计算机可读存储介质 | |
CN111126010B (zh) | Freemaker模板文件修复方法、装置、计算机设备及存储介质 | |
CN110688844A (zh) | 一种文本标注方法及装置 | |
CN110866382A (zh) | 一种文档生成方法、装置、终端设备及介质 | |
CN113158988B (zh) | 财务报表处理方法、装置以及计算机可读存储介质 | |
CN107885781B (zh) | 一种版本管理方法及*** | |
CN110377891B (zh) | 事件分析文章的生成方法、装置、设备及计算机可读存储介质 | |
CN115544214B (zh) | 一种事件处理方法、设备及计算机可读存储介质 | |
CN115904482B (zh) | 接口文档生成方法、装置、设备及存储介质 | |
CN111581937A (zh) | 文档生成方法、装置、计算机可读介质及电子设备 | |
CN108196921B (zh) | 单据开发方法、装置、计算机设备和存储介质 | |
CN117033309A (zh) | 一种数据转换方法、装置、电子设备及可读存储介质 | |
CN115982272A (zh) | 一种城市大数据管理的数据标注方法、装置及计算机存储介质 | |
CN115618838A (zh) | 报告生成方法及设备 | |
US11741055B2 (en) | Managing file revisions from multiple reviewers | |
CN110909112B (zh) | 数据提取方法、装置、终端设备及介质 | |
CN114170451A (zh) | 一种文本识别方法和装置 | |
CN110457659B (zh) | 条款文档生成方法及终端设备 | |
CN114282510B (zh) | 文档生成方法、装置、存储介质及电子设备 | |
CN114138972B (zh) | 文本类别的识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |