CN116402022A - 文档生成方法、装置、电子设备及存储介质 - Google Patents

文档生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116402022A
CN116402022A CN202310194605.8A CN202310194605A CN116402022A CN 116402022 A CN116402022 A CN 116402022A CN 202310194605 A CN202310194605 A CN 202310194605A CN 116402022 A CN116402022 A CN 116402022A
Authority
CN
China
Prior art keywords
document
target
keyword
word
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310194605.8A
Other languages
English (en)
Inventor
张文俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boc Financial Technology Co ltd
Original Assignee
Boc Financial Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Boc Financial Technology Co ltd filed Critical Boc Financial Technology Co ltd
Priority to CN202310194605.8A priority Critical patent/CN116402022A/zh
Publication of CN116402022A publication Critical patent/CN116402022A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文档生成方法、装置、电子设备及存储介质,涉及数据处理技术领域,该方法包括:接收文档生成请求;在目标文档生成请求中,获取目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语;第二目标关键词语为第一目标关键词语的扩展词语;将目标场景信息、第一目标关键词语和第二目标关键词语,输入至文档生成模型中,生成目标场景信息对应的初始文档;根据初始文档生成目标文档;其中,文档生成模型是基于样本文档对应的样本场景信息、第一样本关键词语和第二样本关键词语,以及样本文档进行训练得到的。本发明实现自动生成目标场景下的目标文档,避免人工编写文档,有效提高文档生成效率。

Description

文档生成方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文档生成方法、装置、电子设备及存储介质。
背景技术
在日常工作中,通常涉及到各种文档的编写,而文档编写的效率直接影响工作效率;因此,如何高效地生成文档是目前业界亟待解决的重要课题。
现有技术中,需要用户根据业务需求以及人工经验进行文档编写,而日常工作中所涉及的文档类型多样化,如年终总结、调查报告、事项请示、工作通知等类型的文档;若通过用户对各种场景下的文档进行一一编写,则会导致编写效率低下。
发明内容
本发明提供一种文档生成方法、装置、电子设备及存储介质,用以解决现有技术中通过人工经验进行文档编写,导致编写效率低下的缺陷,实现自动精准地进行文档生成。
本发明提供一种文档生成方法,包括:
接收目标文档生成请求;
基于所述目标文档生成请求,获取目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语;所述第二目标关键词语为所述第一目标关键词语的扩展词语;
将所述目标场景信息、所述第一目标关键词语和所述第二目标关键词语,输入至文档生成模型中,生成所述目标场景信息对应的初始文档;
根据所述初始文档生成所述目标文档;其中,所述文档生成模型是基于样本文档对应的样本场景信息、第一样本关键词语和第二样本关键词语,以及所述样本文档进行训练得到的;所述第二样本关键词语为所述第一样本关键词语的扩展词语。
根据本发明提供的一种文档生成方法,所述根据所述初始文档生成所述目标文档,包括:
接收所述目标文档对应的文档配置请求,并根据所述文档配置请求,获取文档配置指令;
根据所述文档配置指令,对所述初始文档进行配置,得到所述目标文档。
根据本发明提供的一种文档生成方法,所述文档生成模型包括词语扩展层和文档生成层;
所述将所述目标场景信息、所述第一目标关键词语和所述第二目标关键词语,输入至文档生成模型中,生成所述目标场景信息对应的初始文档,包括:
将所述目标场景信息和所述第一目标关键词语输入至所述文档生成模型的词语扩展层中,得到第三目标关键词语;所述第三目标关键词语为所述第一目标关键词语的扩展词语;
将所述目标场景信息、所述第二目标关键词语和所述第三目标关键词语输入至所述文档生成模型的文档生成层中,生成所述初始文档。
根据本发明提供的一种文档生成方法,所述根据所述文档配置请求,获取文档配置指令,包括:
获取目标角色信息;所述目标角色信息包括发送所述文档配置请求的目标对象的角色信息;
根据所述目标角色信息,确定所述目标对象的配置权限;
在根据所述配置权限,确定所述目标对象具备文档配置权限的情况下,根据所述文档配置请求,获取所述文档配置指令。
根据本发明提供的一种文档生成方法,所述基于所述目标文档生成请求,获取目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语,包括:
对所述目标文档生成请求进行解析,得到所述目标场景信息以及所述目标文档对应的请求文本;
对所述请求文本进行拆分,得到第一词语集合和第二词语集合;所述第二词语集合中包含所述第一词语集合中各词语的扩展词语;
对所述第一词语集合进行主成分分析,并根据主成分分析结果,获取所述第一目标关键词语;
对所述第二词语集合进行主成分分析,并根据主成分分析结果,获取所述第二目标关键词语。
根据本发明提供的一种文档生成方法,在所述根据所述初始文档生成所述目标文档之后,所述方法还包括:
接收所述目标文档的校验信息;
根据所述校验信息对所述目标文档进行更新;
根据更新后的目标文档、所述第一目标关键词语和所述第二目标关键词语,对所述文档生成模型进行优化。
本发明还提供一种文档生成装置,包括:
接收单元,用于接收目标文档生成请求;
获取单元,用于基于所述目标文档生成请求,获取目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语;所述第二目标关键词语为所述第一目标关键词语的扩展词语;
第一生成单元,用于将所述目标场景信息、所述第一目标关键词语和所述第二目标关键词语,输入至文档生成模型中,生成所述目标场景信息对应的初始文档;
第二生成单元,用于根据所述初始文档生成所述目标文档;
其中,所述文档生成模型是基于样本文档对应的样本场景信息、第一样本关键词语和第二样本关键词语,以及所述样本文档进行训练得到的;所述第二样本关键词语为所述第一样本关键词语的扩展词语。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文档生成方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文档生成方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文档生成方法。
本发明提供的文档生成方法、装置、电子设备及存储介质,通过基于文档生成模型,对文档生成请求中目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语进行多层特征提取,进而自动生成目标场景下的目标文档,避免人工编写文档,有效提高文档生成效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文档生成方法的流程示意图;
图2是本发明提供的文档生成装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在当前工作和学习中,用户不可避免地面临着针对总结、报告等各类文档的编写工作,但是大多数人都没有进行过针对各类文档编写的***学习。因此,在各种场景下,快速完成一篇合格的特定公文对于用户来说也是一种挑战,不仅需要浏览海量的文档做参考,还需要进行手动编写,导致文档编写效率低下,严重影响工作效率。
针对上述问题,本实施例提供一种文档生成方法,通过结合目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语,自动生成目标文档,减少人工参与,有效提高文档生成效率。
下面结合图1描述本发明的文档生成方法。该方法可适用于各种场景下的文档生成,包括但不限于年终总结、调查报告、事项请示、工作通知,本实施例对此不作具体地限定。
需要说明的是,该方法的执行主体可以是文档生成器,该文档生成器可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personalcomputer,PC)、电视机(television,TV)、柜员机或者自助机等,本实施例不作具体限定。
如图1所示,为本实施例提供的文档生成方法的流程示意图,该方法包括如下步骤:
步骤101,接收目标文档生成请求;
其中,目标文档生成请求为用于请求生成目标文档的请求,其在需要进行文档生成时发出。
目标文档生成请求可以是用户在文档生成器的客户端界面输入的用户输入,也可以是经由其它硬件设备产生或者软件传输的。所称的用户输入,例如可以是通过触摸输入、下拉选择输入、语音输入、手势输入、视觉输入、脑机输入等。所称的硬件设备产生,可以是终端被设置为在某种条件下产生的信息;所称的软件传输的,可以是由文档生成器本地的第三方软件或云端应用向文档生成器的信息类应用上传输。
示例性地,客户端界面预先展示有场景选择按钮、关键词定位按钮,用户可通过对场景选择按钮以及关键词定位按钮进行触摸输入,即生成相应的目标文档生成请求。
步骤102,基于所述目标文档生成请求,获取目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语;所述第二目标关键词语为所述第一目标关键词语的扩展词语;
其中,目标文档生成请求中至少携带有待生成文档(也即目标文档)对应的目标场景信息、第一目标关键词语和第二目标关键词语。
目标场景信息中包含目标文档所使用的场景,如年终总结、调查报告、事项请示、工作通知等场景;目标场景信息中包括场景类型、场景详情、场景标识等,本实施例对此不作具体地限定。
第一目标关键词和第二目标关键是用于生成目标文档的关键词语,可以是与目标场景信息关联的词语。第二目标关键词语是第一目标关键词语的扩展词语,也即第一目标关键词语为基础关键词语,第二目标关键词语为在第一目标关键词语的基础上扩展的衍生词语。示例性地,第一目标关键词语为“经济”,第二目标关键词语为“金融经济”。
第一目标关键词语和第二目标关键词语可以是直接封装在目标文档生成请求,也可以是以文档或句子的形式封装在目标文档生成请求中,本实施例对此不作具体地限定。
可选地,在获取到目标文档生成请求之后,可以对目标文档生成请求进行解析,以根据解析结果获取目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语。
此处解析方式包括:直接解析获取目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语;或者,先解析出目标场景信息,以及请求文档或请求句子,以从请求文档或请求句子中获取第一目标关键词语和第二目标关键词语。
步骤103,将所述目标场景信息、所述第一目标关键词语和所述第二目标关键词语,输入至文档生成模型中,生成所述目标场景信息对应的初始文档;其中,所述文档生成模型是基于样本文档对应的样本场景信息、第一样本关键词语和第二样本关键词语,以及所述样本文档进行训练得到的;所述第二样本关键词语为所述第一样本关键词语的扩展词语。
其中,文档生成模型用于执行文档生成任务,用于生成与目标场景信息相适配的目标文档。
文档生成模型可以是基于一种或多种机器学习模型构建生成的,如卷积神经网络、循环网络等,本实施例对此不做具体地限定。
可选地,在执行步骤103之前,需要利用样本数据集预先得到可准确快速生成出各中场景下的目标文档的文档生成模型,具体训练步骤包括:
首先,创建样本数据集,也即用于神经网络模型训练和测试的数据集合;具体获取多种不同场景下的样本文档、场景信息以及源文档(也即包括第一样本关键词语和第二样本关键词语的文档),并对进行解析、拆分以及预处理,如对关键词语进行过滤处理或词向量转换等预处理,以得到第一样本关键词语和第二样本关键词语;然后,基于不同场景下的样本文档,以及对应的样本场景信息、第一样本关键词语和第二样本关键词语构建用于模型训练和测试的数据集合,也即样本数据集,以使得训练得到的文档生成模型可适用于各种场景下的文档生成,覆盖面广,功能全面。
其中,样本文档可以包括各种场景下的日常办公类文档,如每周周报文档、工作报告文档和总结报告文档、各部门交流文档,如邀请函等,以及针对行政部门的请示文档、报告文档、通知文档等。
样本文档可以是通过网络加载获取的,如爬虫获取,也可以是用户上传的文档,本实施例对此不做具体地限定。
第一样本关键词语和第二样本关键词语可以是从样本文档中抽取的关键词语、也可以根据样本文档的内容或场景信息,重新配置的关键词语。
然后,对样本数据集随机划分为训练集和测试集,以对初始生成模型中各层的模型参数进行迭代训练,以得到初始生成模型的模型参数的最优解,进而构建形成文档生成模型。
需要说明的是,文档生成器中预先开发有前后端分离技术,包括HTML、VUE和SPRINGBOOT等开发工具,用于实现数据库的后端开发,以及数据的前端显示。数据库的类型可以是mysql、oracle或redis。在模型训练过程中,也可以将每次训练得到的模型参数存储在数据库中,并可通过java语言实时调用模型参数并在前端页面显示,以便管理人员可以实时查看模型的训练进度,以及便于管理人员对模型训练策略进行实时调整,如调整最大迭代次数或样本数据内容,如第一样本关键词和第二样本关键词的增加、删除或修改等,进而更加快速准确地获取初始生成模型的最优解,进而得到模型性能较优的文档生成模型。
可选地,在获取到文档生成模型之后,可以先对第一目标关键词语和第二目标关键词语进行词向量转换,并将转换后的第一目标关键词语和第二目标关键词语,以及目标场景信息,输入至文档生成模型中,由文档生成模型对目标场景信息、转换后的第一目标关键词语和第二目标关键词语进行文档生成,以得到目标场景文档。
此处,文档生成模型生成文档的方式,可以是先对目标场景信息、转换后的第一目标关键词语和第二目标关键词语将词向量进行拼接后进行特征提取,以根据特征提取结果生成文档;也可是先分别对目标场景信息、转换后的第一目标关键词语和第二目标关键词语进行特征提取后进行特征融合,以根据特征融合结果生成文档;也可以是先根据目标场景信息和转换后的第一目标关键词语生成第一目标关键词语的扩展词语,再对扩展词语、目标场景信息以及转换后的第二目标关键词语先进行拼接后再进行特征提取,或者先进行特征提取后再融合,并根据特征提取结果或特征融合结果生成文档,本实施例对此不做具体地限定。
另外,文档生成模型生成文档的方式,可以是文档生成模型根据目标场景信息、第一目标关键词语和第二目标关键词语,确定与目标场景信息关联程度最大的预设文档,进而获取初始文档;预设文档可以为针对各种场景预先设定的文档内容或文档模板;也可以是文档生成模型根据目标场景信息、第一目标关键词语和第二目标关键词语,预测输出相应的文档句子,进而获取初始文档。
步骤104,根据所述初始文档生成所述目标文档。
可选地,可以直接将文档生成模型输出的初始文档作为最终的目标文档;也可以是根据文档配置指令对文档生成模型输出的初始文档进行配置更新后形成最终的目标文档,本实施例对此不做具体地限定。
本实施例提供的文档生成方法,通过基于文档生成模型,对文档生成请求中目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语进行多层特征提取,进而自动生成目标场景下的目标文档,避免人工编写文档,有效提高文档生成效率。
在一些实施例中,步骤104中所述根据所述初始文档生成所述目标文档的步骤,进一步包括:
接收所述目标文档对应的文档配置请求,并根据所述文档配置请求,获取文档配置指令;
根据所述文档配置指令,对所述初始文档进行配置,得到所述目标文档。
其中,文档配置请求也可以是用户在文档生成器的客户端界面输入的用户输入,也可以是经由其它硬件设备产生或者软件传输的。
可选地,为了提高文档生成的灵活性和适用性,步骤104中生成目标文档的步骤还可进一步包括如下步骤:
首先,在获取到目标场景信息、第一目标关键词语和第二目标关键词语之后,可以先由文档生成模型,根据目标场景信息、第一目标关键词语和第二目标关键词语,生成目标场景信息对应的初始文档;
然后,将初始文档显示在客户端界面,以便用户更直观的看到所生成的文档内容,并确定是否需要对初始文档进行定制化配置更新。
示例性地,客户端界面还配置有编辑框,用于显示文档内容,并提供编辑功能,也即用户可以在编辑框内,针对初始文档按照用户风格进行定制化配置,以实现对初始文档的修改与润色。
同时,实时监听是否有目标文档对应的文档配置请求输入,在监听到文档配置请求输入时,可以直接启动文档配置任务,也可以是对文档配置请求进行处理,以在满足文档配置条件的情况下,才启动文档配置任务。
在文档配置任务启动时,即可从文档配置请求中获取文档配置指令,如在文档配置请求中解析出其封装的目标文档背景配置指令、目标术语配置指令;
或者根据预先配置的映射关系以及文档配置请求,获取相应地文档配置指令。示例性地,由于不同用户对文档的话术要求以及文档背景要求,因此,可以预先建立用户信息与配置指令之间的映射关系;进而在获取到文档配置请求的情况下,可以根据文档配置请求,获取用户信息,根据用户信息与配置指令之间的映射关系,获取文档配置指令。
然后,执行文档配置指令,以对初始文档进行配置,进而得到目标文档。在接收到文档导出请求时,可以获取文档导出请求中包含的文档导出格式以及导出地址,如WORD格式、PDF格式等,将目标文档按照文档导出格式以及导出地址导出。
另外,还可对用户使用的生成文档记录进行存储,以便用户下次直接根据文档记录加载相应的文档;需要说明的是在对文档记录进行存储时,为了保护用户隐私,仅存储文档结构和使用场景,不对用户详细信息及隐私信息做记录。
结合生活场景发现,无论是在学习中还是工作中均逃不开文档编写,如学生需要面临课堂总结、实习报告等文档的编写,工作者需要面临年终总结、项目总结等文档的编写。虽然网络中有海量文档可供参考,但是要完成一篇高质量文档还是消耗一定的人力和时间,导致文档编写效率低下。
虽然,目标神经网络已广泛应用于文本处理领域,如将卷积网络应用于文本分类,利用超图注意力网络实现生物医学文本分类,仅改进果蝇优化算法应用于投诉举报文本分类,更有将BERT(Bidirectional Encoder Representation from Transformers,预训练的语言表征模型)和特征投影网络应用于新闻主题文本分类,但并未涉及到文本生成领域。而本实施例可利用神经网络模型,针对不同的场景生成对应的文档,同时还能根据对象的配置需求进行定制文档的生成,以使得配置生成的目标文档更加适配用户需求,有效提高用户体验以及工作效率,具备广阔的应用前景以及较高的使用价值。
在一些实施例中,所述文档生成模型包括词语扩展层和文档生成层;
步骤103中所述将所述目标场景信息、所述第一目标关键词语和所述第二目标关键词语,输入至文档生成模型中,生成所述目标场景信息对应的初始文档的步骤,还进一步包括:
将所述目标场景信息和所述第一目标关键词语输入至所述文档生成模型的词语扩展层中,得到第三目标关键词语;所述第三目标关键词语为所述第一目标关键词语的扩展词语;
将所述目标场景信息、所述第二目标关键词语和所述第三目标关键词语输入至所述文档生成模型的文档生成层中,生成所述初始文档。
其中,文档生成模型可以包括词语扩展层和文档生成层;
可选地,获取初始文档的步骤还进一步包括:
基于文档生成模型的词语扩展层,对目标场景信息和第一目标关键词语进行特征提取,进而根据特征提取结果,生成第三目标关键词语;基于文档生成模型的文档生成层,对目标场景信息、第二目标关键词语以及第三目标关键词语进行特征提取,进而根据特征提取结果,生成初始文档。
本实施例通过先基于词语扩展层,按照目标场景信息,对第一目标关键词语进行扩展得到第三目标关键词语,然后基于文档生成层,基于目标场景信息、第二目标关键词语和第三目标关键词语,预测生成初始文档,通过多层次的特征提取,以自动生成与目标场景信息更加适配的初始文档,实现提高文档生成效率的同时,提供文档可用性。
在一些实施例中,步骤104中所述根据所述文档配置请求,获取文档配置指令的步骤,还进一步包括:
获取目标角色信息;所述目标角色信息包括发送所述文档配置请求的目标对象的角色信息;
根据所述目标角色信息,确定所述目标对象的配置权限;
在根据所述配置权限,确定所述目标对象具备文档配置权限的情况下,根据所述文档配置请求,获取所述文档配置指令。
可选地,由于不同角色信息的对象所享受的文档生成功能不同。如普通用户角色可以进行单个文档生成及下载,下载按照次数收费,无文档配置权限,而不同等级会员用户角色对应的允许配置次数以及允许导出次数不同。
因此,在获取文档配置请求之后,先获取发送该文档配置请求的目标对象的角色信息,以根据角色信息,确定目标对象的配置权限;
然后,获取配置权限对应的允许配置次数,将目标对象的已配置次数,与配置权限对应的允许配置次数进行比较,在确定目标对象的已配置次数小于允许配置次数的情况下,确定目标对象具备文档配置权限,在目标对象具备文档配置权限的情况下,才根据文档配置请求,获取文档配置指令,进而提高用户体验度。
同理,在接收到文档导出指令的情况下,也可以确定目标对象的导出权限,进而判断目标对象的已导出文档数量是否超出导出权限对应的允许导出次数,进而确定是否为目标对象提供文件导出服务。
在一些实施例中,步骤102中所述基于所述目标文档生成请求,获取目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语的步骤,进一步包括:
对所述目标文档生成请求进行解析,得到所述目标场景信息以及所述目标文档对应的请求文本;
对所述请求文本进行拆分,得到第一词语集合和第二词语集合;所述第二词语集合中包含所述第一词语集合中各词语的扩展词语;
对所述第一词语集合进行主成分分析,并根据主成分分析结果,获取所述第一目标关键词语;
对所述第二词语集合进行主成分分析,并根据主成分分析结果,获取所述第二目标关键词语。
可选地,在获取到目标文档生成请求的情况下,对目标文档生成请求进行解析,以从中获取目标场景信息以及请求文本;并对请求文本进行拆分,以将请求文本中的词语,拆分形成第一词语集合和第二词语集合。
由于第一词语集合和第二词语集合中除了关键词之外,还包括一些非关键词,如修饰词语、用于过渡用的介词等,而这些词语对模型训练的贡献度较小,且会影响模型训练的效率以及准确性。为了降低计算成本以及提高文档生成准确性,可采用主成分分析法对第一词语集合和第二词语集合进行分析,以从中过滤掉对模型训练贡献度较小的非关键词,进而在主成分分析后的第一词语集合中,获取第一目标关键词语,和在主成分分析后的第二词语集合中,获取第二目标关键词语。
本实施例中,通过对目标请求文本中拆分得到第一词语集合和第二词语集合进行主成分分析,可以有效滤除对模型训练贡献度较小的非关键词,提高模型训练的效率以及准确性,进而降低计算成本以及提高文档生成准确性。
在一些实施例中,在执行步骤104之后,所述方法还包括:
接收所述目标文档的校验信息;
根据所述校验信息对所述目标文档进行更新;
根据更新后的目标文档、所述第一目标关键词语和所述第二目标关键词语,对所述文档生成模型进行优化。
其中,目标文档的校验信息可以是用户对目标文档进行校验生成的信息,也可以是文档生成器自动对目标文档进行校验生成的信息;
可选地,对于每次生成的目标文档都需要将其存储在数据库中,以便后续对文档生成模型进行进一步地优化,进而提高模型性能。
在利用新生成的目标文档对文档生成模型进行优化的过程中,可实时获取目标文档的校验信息,以便根据校验信息对目标文档进行更新,并利用更新后的目标文档,以及第一目标关键词语和第二目标关键词语构建训练样本,实现对文档生成模型的进一步优化。
下面对本发明提供的文档生成装置进行描述,下文描述的文档生成装置与上文描述的文档生成方法可相互对应参照。
如图2所示,本实施例提供一种文档生成装置,该装置包括:
接收单元201用于接收目标文档生成请求;
获取单元202用于基于所述目标文档生成请求,获取目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语;所述第二目标关键词语为所述第一目标关键词语的扩展词语;
第一生成单元203用于将所述目标场景信息、所述第一目标关键词语和所述第二目标关键词语,输入至文档生成模型中,生成所述目标场景信息对应的初始文档;
第二生成单元204用于根据所述初始文档生成所述目标文档;
其中,所述文档生成模型是基于样本文档对应的样本场景信息、第一样本关键词语和第二样本关键词语,以及所述样本文档进行训练得到的;所述第二样本关键词语为所述第一样本关键词语的扩展词语。
本实施例提供的文档生成装置,通过基于文档生成模型,对文档生成请求中目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语进行多层特征提取,进而自动生成目标场景下的目标文档,避免人工编写文档,有效提高文档生成效率。
在一些实施例中,第二生成单元204具体用于:
接收所述目标文档对应的文档配置请求,并根据所述文档配置请求,获取文档配置指令;
根据所述文档配置指令,对所述初始文档进行配置,得到所述目标文档。
在一些实施例中,所述文档生成模型包括词语扩展层和文档生成层;
第一生成单元203具体于:
将所述目标场景信息和所述第一目标关键词语输入至所述文档生成模型的词语扩展层中,得到第三目标关键词语;所述第三目标关键词语为所述第一目标关键词语的扩展词语;
将所述目标场景信息、所述第二目标关键词语和所述第三目标关键词语输入至所述文档生成模型的文档生成层中,生成所述初始文档。
在一些实施例中,第二生成单元204还用于:获取目标角色信息;所述目标角色信息包括发送所述文档配置请求的目标对象的角色信息;
根据所述目标角色信息,确定所述目标对象的配置权限;
在根据所述配置权限,确定所述目标对象具备文档配置权限的情况下,根据所述文档配置请求,获取所述文档配置指令。
在一些实施例中,获取单元202具体用于:
对所述目标文档生成请求进行解析,得到所述目标场景信息以及所述目标文档对应的请求文本;
对所述请求文本进行拆分,得到第一词语集合和第二词语集合;所述第二词语集合中包含所述第一词语集合中各词语的扩展词语;
对所述第一词语集合进行主成分分析,并根据主成分分析结果,获取所述第一目标关键词语;
对所述第二词语集合进行主成分分析,并根据主成分分析结果,获取所述第二目标关键词语。
在一些实施例中,该装置还包括优化单元,具体用于:
接收所述目标文档的校验信息;
根据所述校验信息对所述目标文档进行更新;
根据更新后的目标文档、所述第一目标关键词语和所述第二目标关键词语,对所述文档生成模型进行优化。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令,以执行文档生成方法,该方法包括:接收目标文档生成请求;基于所述目标文档生成请求,获取目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语;所述第二目标关键词语为所述第一目标关键词语的扩展词语;将所述目标场景信息、所述第一目标关键词语和所述第二目标关键词语,输入至文档生成模型中,生成所述目标场景信息对应的初始文档;根据所述初始文档生成所述目标文档;其中,所述文档生成模型是基于样本文档对应的样本场景信息、第一样本关键词语和第二样本关键词语,以及所述样本文档进行训练得到的;所述第二样本关键词语为所述第一样本关键词语的扩展词语。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的文档生成方法,该方法包括:接收目标文档生成请求;基于所述目标文档生成请求,获取目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语;所述第二目标关键词语为所述第一目标关键词语的扩展词语;将所述目标场景信息、所述第一目标关键词语和所述第二目标关键词语,输入至文档生成模型中,生成所述目标场景信息对应的初始文档;根据所述初始文档生成所述目标文档;其中,所述文档生成模型是基于样本文档对应的样本场景信息、第一样本关键词语和第二样本关键词语,以及所述样本文档进行训练得到的;所述第二样本关键词语为所述第一样本关键词语的扩展词语。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的文档生成方法,该方法包括:接收目标文档生成请求;基于所述目标文档生成请求,获取目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语;所述第二目标关键词语为所述第一目标关键词语的扩展词语;将所述目标场景信息、所述第一目标关键词语和所述第二目标关键词语,输入至文档生成模型中,生成所述目标场景信息对应的初始文档;根据所述初始文档生成所述目标文档;其中,所述文档生成模型是基于样本文档对应的样本场景信息、第一样本关键词语和第二样本关键词语,以及所述样本文档进行训练得到的;所述第二样本关键词语为所述第一样本关键词语的扩展词语。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文档生成方法,其特征在于,包括:
接收目标文档生成请求;
基于所述目标文档生成请求,获取目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语;所述第二目标关键词语为所述第一目标关键词语的扩展词语;
将所述目标场景信息、所述第一目标关键词语和所述第二目标关键词语,输入至文档生成模型中,生成所述目标场景信息对应的初始文档;
根据所述初始文档生成所述目标文档;
其中,所述文档生成模型是基于样本文档对应的样本场景信息、第一样本关键词语和第二样本关键词语,以及所述样本文档进行训练得到的;所述第二样本关键词语为所述第一样本关键词语的扩展词语。
2.根据权利要求1所述的文档生成方法,其特征在于,所述根据所述初始文档生成所述目标文档,包括:
接收所述目标文档对应的文档配置请求,并根据所述文档配置请求,获取文档配置指令;
根据所述文档配置指令,对所述初始文档进行配置,得到所述目标文档。
3.根据权利要求1所述的文档生成方法,其特征在于,所述文档生成模型包括词语扩展层和文档生成层;
所述将所述目标场景信息、所述第一目标关键词语和所述第二目标关键词语,输入至文档生成模型中,生成所述目标场景信息对应的初始文档,包括:
将所述目标场景信息和所述第一目标关键词语输入至所述文档生成模型的词语扩展层中,得到第三目标关键词语;所述第三目标关键词语为所述第一目标关键词语的扩展词语;
将所述目标场景信息、所述第二目标关键词语和所述第三目标关键词语输入至所述文档生成模型的文档生成层中,生成所述初始文档。
4.根据权利要求2所述的文档生成方法,其特征在于,所述根据所述文档配置请求,获取文档配置指令,包括:
获取目标角色信息;所述目标角色信息包括发送所述文档配置请求的目标对象的角色信息;
根据所述目标角色信息,确定所述目标对象的配置权限;
在根据所述配置权限,确定所述目标对象具备文档配置权限的情况下,根据所述文档配置请求,获取所述文档配置指令。
5.根据权利要求1-4任一所述的文档生成方法,其特征在于,所述基于所述目标文档生成请求,获取目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语,包括:
对所述目标文档生成请求进行解析,得到所述目标场景信息以及所述目标文档对应的请求文本;
对所述请求文本进行拆分,得到第一词语集合和第二词语集合;所述第二词语集合中包含所述第一词语集合中各词语的扩展词语;
对所述第一词语集合进行主成分分析,并根据主成分分析结果,获取所述第一目标关键词语;
对所述第二词语集合进行主成分分析,并根据主成分分析结果,获取所述第二目标关键词语。
6.根据权利要求1-4任一所述的文档生成方法,其特征在于,在所述根据所述初始文档生成所述目标文档之后,所述方法还包括:
接收所述目标文档的校验信息;
根据所述校验信息对所述目标文档进行更新;
根据更新后的目标文档、所述第一目标关键词语和所述第二目标关键词语,对所述文档生成模型进行优化。
7.一种文档生成装置,其特征在于,包括:
接收单元,用于接收目标文档生成请求;
获取单元,用于基于所述目标文档生成请求,获取目标文档对应的目标场景信息、第一目标关键词语和第二目标关键词语;所述第二目标关键词语为所述第一目标关键词语的扩展词语;
第一生成单元,用于将所述目标场景信息、所述第一目标关键词语和所述第二目标关键词语,输入至文档生成模型中,生成所述目标场景信息对应的初始文档;
第二生成单元,用于根据所述初始文档生成所述目标文档;
其中,所述文档生成模型是基于样本文档对应的样本场景信息、第一样本关键词语和第二样本关键词语,以及所述样本文档进行训练得到的;所述第二样本关键词语为所述第一样本关键词语的扩展词语。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述文档生成方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文档生成方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文档生成方法。
CN202310194605.8A 2023-03-02 2023-03-02 文档生成方法、装置、电子设备及存储介质 Pending CN116402022A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310194605.8A CN116402022A (zh) 2023-03-02 2023-03-02 文档生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310194605.8A CN116402022A (zh) 2023-03-02 2023-03-02 文档生成方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116402022A true CN116402022A (zh) 2023-07-07

Family

ID=87008204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310194605.8A Pending CN116402022A (zh) 2023-03-02 2023-03-02 文档生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116402022A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034031A (zh) * 2023-08-08 2023-11-10 武汉交通职业学院 基于沟通场景的语句生成方法及装置
CN117494672A (zh) * 2023-11-13 2024-02-02 北京大学长沙计算与数字经济研究院 行业文档的生成方法、装置及计算机可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034031A (zh) * 2023-08-08 2023-11-10 武汉交通职业学院 基于沟通场景的语句生成方法及装置
CN117494672A (zh) * 2023-11-13 2024-02-02 北京大学长沙计算与数字经济研究院 行业文档的生成方法、装置及计算机可读存储介质
CN117494672B (zh) * 2023-11-13 2024-07-23 北京大学长沙计算与数字经济研究院 行业文档的生成方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN116402022A (zh) 文档生成方法、装置、电子设备及存储介质
CN116663525B (zh) 一种文档审核方法、装置、设备及存储介质
CN112434501B (zh) 工单智能生成的方法、装置、电子设备及介质
US20200257679A1 (en) Natural language to structured query generation via paraphrasing
CN107634947A (zh) 限制恶意登录或注册的方法和装置
CN114840869A (zh) 基于敏感度识别模型的数据敏感度识别方法及装置
CN110807044A (zh) 一种基于人工智能技术的模型维度管理方法
US20220172712A1 (en) Machine learning to propose actions in response to natural language questions
CN114282498B (zh) 一种应用于电力交易的数据知识处理***
CN110852057A (zh) 一种计算文本相似度的方法和装置
CN115470341B (zh) 网络目标条款筛选方法、装置、电子设备及存储介质
CN115964384A (zh) 一种数据查询方法、装置、电子设备及计算机可读介质
KR20200103133A (ko) 하둡 기반의 빅데이터 시스템에서 etl 절차를 수행하는 방법 및 장치
CN111507758B (zh) 一种基于语义分析的调研方法、装置、***及服务器
CN110471961A (zh) 一种产品需求获取方法、装置、设备和存储介质
CN110879868A (zh) 顾问方案生成方法、装置、***、电子设备及介质
CN112966031A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
KR102574784B1 (ko) Esg 문서를 자동 완성하는데 적합한 텍스트를 추천하는 방법 및 이를 수행하는 esg 서비스 제공 시스템
CN117494693B (zh) 一种测评文档生成方法、装置及设备
CN117891531B (zh) 用于saas软件的***参数配置方法、***、介质及电子设备
US20220383422A1 (en) Systems and Methods for Computerized Loss Scenario Modeling and Data Analytics
US11636391B2 (en) Automatic combinatoric feature generation for enhanced machine learning
CN117670471A (zh) 一种标题生成模型的训练方法及装置
CN116820483A (zh) 代码生成模型的生成方法、代码生成方法及装置
CN118331888A (zh) 接口测试方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination