CN112580309B - 文档数据处理方法、装置、计算机设备及存储介质 - Google Patents
文档数据处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112580309B CN112580309B CN202011534340.4A CN202011534340A CN112580309B CN 112580309 B CN112580309 B CN 112580309B CN 202011534340 A CN202011534340 A CN 202011534340A CN 112580309 B CN112580309 B CN 112580309B
- Authority
- CN
- China
- Prior art keywords
- data
- preset
- text
- generating
- generate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能领域中的自然语言处理领域,公开了一种文档数据处理方法、装置、计算机设备及存储介质,其方法包括:获取符合预设要求的文本数据;通过预设BERT网络模型处理文本数据,生成表征向量;将表征向量输入预设循环对抗网络,生成目标文档的目标提纲图像,目标提纲图像包括若干个可填充区域;对文本数据进行结构化处理,生成结构化数据;通过预设指针生成网络模型处理结构化数据,生成填充数据,并将填充数据填入对应的可填充区域;待可填充区域填充完毕后,生成目标文档。本发明可以自动生成目标文档,生成的目标文档可以还原文本数据的信息表达,满足用户的使用需求。本发明还可应用于智慧医疗的建设。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种文档数据处理方法、装置、计算机设备及存储介质。
背景技术
在工作生活中,人们需要将一些素材制作成特定格式的文档,以便于使用该文档进行信息交流。这样的文档可以是ppt(PowerPoint,一种常见的演示文档)、pdf(PortableDocument Format,一种可携带文档格式文档)等。此外,特定格式的文档也可以指智慧医疗领域中的医疗病历、医疗档案、药品文档、病情报告等。对于大部分人而言,制作特定格式的文档是一件费时费力的事情。如何快速制作这些特定格式的文档,成为一件亟需解决的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种文档数据处理方法、装置、计算机设备及存储介质,以实现自动生成特定格式的文档,大大节省了制作文档的时间。
一种文档数据处理方法,包括:
获取符合预设要求的文本数据;
通过预设BERT网络模型处理所述文本数据,生成表征向量;
将所述表征向量输入预设循环对抗网络,生成目标文档的目标提纲图像,所述目标提纲图像包括若干个可填充区域;
对所述文本数据进行结构化处理,生成结构化数据;
通过预设指针生成网络模型处理所述结构化数据,生成填充数据,并将所述填充数据填入对应的所述可填充区域;
待所述可填充区域填充完毕后,生成所述目标文档。
一种文档数据处理装置,包括:
获取模块,用于获取符合预设要求的文本数据;
生成向量模块,用于通过预设BERT网络模型处理所述文本数据,生成表征向量;
生成提纲模块,用于将所述表征向量输入预设循环对抗网络,生成目标文档的目标提纲图像,所述目标提纲图像包括若干个可填充区域;
结构化模块,用于对所述文本数据进行结构化处理,生成结构化数据;
填充模块,用于通过预设指针生成网络模型处理所述结构化数据,生成填充数据,并将所述填充数据填入对应的所述可填充区域;
生成文档模块,用于待所述可填充区域填充完毕后,生成所述目标文档。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述文档数据处理方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述文档数据处理方法。
上述文档数据处理方法、装置、计算机设备及存储介质,获取符合预设要求的文本数据,在此处,选取预设要求的文本数据,可以提高素材的质量,提高目标文档的生成质量。通过预设BERT网络模型处理所述文本数据,生成表征向量,以通过表征向量提取文本数据的特征。将所述表征向量输入预设循环对抗网络,生成目标文档的目标提纲图像,所述目标提纲图像包括若干个可填充区域,在此处,目标提纲图像可以反映文本数据的整体逻辑结构,便于信息沟通。对所述文本数据进行结构化处理,生成结构化数据,在此处,通过结构化处理,可以精确地从文本数据中提取数据,保证填充数据与目标提纲图像的匹配度。通过预设指针生成网络模型处理所述结构化数据,生成填充数据,并将所述填充数据填入对应的所述可填充区域,在此处,通过填充的方式为目标提纲图像加入文字内容,可以逐步完善目标文档的各个页面。待所述可填充区域填充完毕后,生成所述目标文档,由此,实现了目标文档的自动生成,可以大大节省用户制作目标文档的时间。本发明通过设置三个神经网络模型(预设BERT网络模型、预设循环对抗网络、预设指针生成网络模型)对文本数据进行深入理解和提炼,解析文本数据的句法结构,从文本数据中提取出关键信息和易于展示的信息,自动生成目标文档,生成的目标文档可以还原文本数据的信息表达,满足用户的使用需求。本发明可应用于智慧城市的智能医疗领域中,实现不同形式的医疗数据进行相互转化,从而推动智慧城市的建设。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中文档数据处理方法的一应用环境示意图;
图2是本发明一实施例中文档数据处理方法的一流程示意图;
图3是本发明一实施例中文档数据处理方法的一流程示意图;
图4是本发明一实施例中文档数据处理方法的一流程示意图;
图5是本发明一实施例中文档数据处理方法的一流程示意图;
图6是本发明一实施例中文档数据处理方法的一流程示意图;
图7是本发明一实施例中文档数据处理装置的一结构示意图;
图8是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供的文档数据处理方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种文档数据处理方法,以该方法应用在图1中的服务端为例进行说明,包括步骤S10-S60。
S10、获取符合预设要求的文本数据。
本实施例中,预设要求可以根据实际需要进行设置。示意性的,预设要求可以指文本数据字数的限制,如不多于1000字。在一些情况下,预设要求也可以是检查文本数据的类型与预设BERT网络模型可处理的类型是否相关。若类型不相关,预设BERT网络模型的预测误差很大,生成的目标文档出错率高,缺乏应用价值。在一示例中,符合预设要求的文本数据可以是进行远程医疗所产生的日志文件。
可选的,如图3所示,步骤S10之前,还包括:
S11、获取待处理的素材数据;
S12、若所述素材数据包括非文本类型数据和文本类型数据,则将所述非文本类型数据转化为第一文本数据;
S13、对所述第一文本数据以及所述素材数据中属于文本类型数据的第二文本数据进行合并处理,生成待处理文本;
S14、根据所述预设要求处理所述待处理文本,生成符合预设要求的所述文本数据。
本实施例中,素材数据可以包括不同类型的数据,如图片、音频、文本等。可以将素材数据中的非文本类型数据转化为文本,即第一文本数据。如,可以使用语言转文字程序,将音频转化为文本;可以通过光学字符识别程序识别图片中的文字,通过图像识别程序识别图片中对象(可以是人、物品等)。
经转化后得到的第一文本数据和素材数据中的第二文本数据合并,可以得到待处理文本。待处理文本再按照预设要求处理,可以得到符合预设要求的文本数据。在此处,预设要求可以是字数要求,如少于1000字。若待处理文本本身已满足预设要求,则不需要对待处理进行进一步处理。也就是说,待处理文本即为符合预设要求的文本数据。若待处理文本本身不满足预设要求,可以使用预设的删减工具,减少待处理文本中的字数。在此处,删减工具可以基于实际需要进行设置。如,自动检测待处理文本中是否包含示例数据,可以通过关键词“例如”、“如”等确定示例数据的位置,若示例数据的数量较多,可以根据需要删减部分示例数据。具体的,若包含三个示例,则可以删除其中的一个或两个,直至满足预设要求。或者,在某一示例数据中,仅保留主谓宾以及重要度较高的修饰词,其他多余词汇删除,这样可以大大减少文字长度。
步骤S11-S14中,获取待处理的素材数据,在此处,素材数据即为生成目标文档的基础素材。若所述素材数据包括非文本类型数据和文本类型数据,则将所述非文本类型数据转化为第一文本数据,以从非文本类型数据提取数据。对所述第一文本数据以及所述素材数据中属于文本类型数据的第二文本数据进行合并处理,生成待处理文本,以整合所有数据。根据所述预设要求处理所述待处理文本,生成符合预设要求的所述文本数据,以完成素材数据的规范化处理,提升目标文档的质量。
S20、通过预设BERT网络模型处理所述文本数据,生成表征向量。
本实施例中,预设BERT网络模型是基于预训练任务训练获得的。预设BERT网络模型在处理文本数据的过程中,可以自动对文本数据中的语句进行保留、缩减或删除,然后生成表征向量。表征向量可以指基于整个文本数据生成的向量。
可选的,如图4所示,步骤S20之前,即所述通过预设BERT网络模型处理所述文本数据,生成表征向量之前,还包括:
S21、获取带有标签的训练语料数据,所述标签为保留、缩减和删除中的任意一种;
S22、将所述训练语料数据输入初始BERT网络模型中进行训练,并计算所述初始BERT网络模型的损失值;
S23、当所述损失值小于预设阈值时,将训练后的所述初始BERT网络模型确定为所述预设BERT网络模型。
本实施例涉及的步骤主要是上述预训练任务的执行步骤。首先,获取带有标签的训练语料数据。训练语料数据与步骤S10中的符合预设要求的文本数据具有相关性。例如,符合预设要求的文本数据为金融财经类数据,训练语料数据同为金融财经类数据。训练语料数据中包含若干语句,每个语句带有对应一个标签,标签为保留、缩减和删除中的任意一种。这样,训练后的初始BERT网络模型,即预设BERT网络模型,具有判断语句重要性的能力。其中,标签为保留,则对应的语句重要性高;标签为缩减,则对应的语句重要性一般;标签为删除,则对应的语句重要性低。
初始BERT网络模型的损失值即为初始BERT网络模型的损失函数的值。在此处,初始BERT网络模型的损失函数可以结合现有的BERT网络模型进行设置,在此不再赘述。
同样的,预设阈值可以根据实际需要设置,只要初始BERT网络模型可以收敛即可。由此,经预设BERT网络模型处理后生成的表征向量,可以更适应目标文档的生成,可以提升目标文档的准确性。
步骤S21-S24中,获取带有标签的训练语料数据,所述标签为保留、缩减和删除中的任意一种,以通过训练语料数据提高初始BERT网络模型的预测能力。将所述训练语料数据输入初始BERT网络模型中进行训练,并计算所述初始BERT网络模型的损失值,以执行初始BERT网络模型的训练步骤。当所述损失值小于预设阈值时,将训练后的所述初始BERT网络模型确定为所述预设BERT网络模型,以获得适于生成目标文档的预设BERT网络模型。
S30、将所述表征向量输入预设循环对抗网络,生成目标提纲图像,所述目标提纲图像包括若干个可填充区域。
在此处,预设循环对抗网络可以基于开源数据训练获得。预设循环对抗网络可以自动解析表征向量中的句法结构,并生成目标文档的目标提纲图像。在此处,目标提纲图像可以包括若干个页面,每个页面可以设置有一个或多个可填充区域。其中的一个页面为主页面,主页面相当于目标文档的目录页。其他页面为子页面,相当于目标文档的内容页。
可选的,如图5所示,步骤S30之前,即所述将所述表征向量输入预设循环对抗网络,生成目标提纲图像,所述目标提纲图像包括若干个可填充区域之前,还包括:
S31、在循环对抗网络中,将训练表征向量输入第一生成器,生成第一提纲图像;将标注提纲图像输入第二生成器,生成第一训练向量;
S32、通过第一鉴别器鉴别所述第一提纲图像,获得第一鉴别结果;通过第二鉴别器鉴别所述第一训练向量,获得第二鉴别结果;
S33、将所述第一提纲图像输入所述第二生成器,生成第二训练向量;将所述第一训练向量输入所述第一生成器,生成第二提纲图像;
S34、通过第二鉴别器鉴别所述第二训练向量,获得第三鉴别结果;通过所述第一鉴别器鉴别所述第二提纲图像,获得第四鉴别结果;
S35、根据所述第一鉴别结果、所述第二鉴别结果、所述第三鉴别结果、所述第四鉴别结果计算所述循环对抗网络的损失值;
S36、当所述损失值未满足终止条件时,根据所述损失值调整所述第一生成器、所述第二生成器、所述第一鉴别器、所述第二鉴别器的模型参数,并重复生成和鉴别的步骤;
S37、当所述损失值满足终止条件时,将满足终止条件时的所述循环对抗网络确定为所述预设循环对抗网络。
本实施例中,可通过对循环对抗网络进行训练,以获得可以生成目标提纲图像的预设循环对抗网络。训练循环对抗网络的目的在于建立表征向量与目标提纲图像之间的关联关系。
循环对抗网络包括第一生成器、第二生成器、第一鉴别器、第二鉴别器。在训练时,通过训练样本对循环对抗网络进行训练。对应的,循环对抗网络的输入数据为训练表征向量(经训练样本转换获得)和标注提纲图像(可由人工标注生成)。
第一生成器将训练表征向量转换成第一提纲图像,第一鉴别器鉴别第一提纲图像的真假,并生成第一鉴别结果。再由第二生成器将第一提纲图像转换为第二训练向量,第二鉴别器鉴别第二训练向量的真假,并生成第三鉴别结果。由此,训练表征向量经历了一次循环生成和鉴别的过程。
第二生成器将标注提纲图像转换成第一训练向量,第二鉴别器鉴别第一训练向量的真假,并生成第二鉴别结果。再由第一生成器将第一训练向量转换为第二提纲图像,第一鉴别器鉴别第二提纲图像的真假,并生成第四鉴别结果。由此,标注提纲图像经历了一次循环生成和鉴别的过程。
记第一生成器的损失函数的损失值为L1,第二生成器的损失函数的损失值为L2,第一鉴别器的损失函数的损失值为L3,第二鉴别器的损失函数的损失值为L4,则循环对抗网络的损失函数可以表示为:
L=α·L1+β·L2+γ·L3+δ·L3。
其中,L为循环对抗网络的损失值,α、β、γ、δ为模型参数,可人为设定。
在获得损失值之后,可以判断损失值是否满足终止条件。在此处,终止条件指的是循环对抗网络发生收敛,损失值趋近某一定值,因而损失值的变化率较小,低于某一阈值。当损失值未满足终止条件时,需要重新调整各个生成器和鉴别器的模型参数,并继续进行训练。当损失值满足终止条件时,可以停止训练,训练后的循环对抗网络即为用于将表征向量转化为目标提纲图像的预设循环对抗网络。
步骤S31-S37中,在循环对抗网络中,将训练表征向量输入第一生成器,生成第一提纲图像;将标注提纲图像输入第二生成器,生成第一训练向量,以通过第一生成器和第二生成器实现表征向量与提纲图像的相互转换。通过第一鉴别器鉴别所述第一提纲图像,获得第一鉴别结果;通过第二鉴别器鉴别所述第一训练向量,获得第二鉴别结果,以通过第一鉴别器和第二鉴别器对转换结果进行鉴别,生成第一次鉴别结果。将所述第一提纲图像输入所述第二生成器,生成第二训练向量;将所述第一训练向量输入所述第一生成器,生成第二提纲图像,以对第一次转换生成的第一提纲图像和第一训练向量进行再次转换,获得相应的第二次转换的结果(即第二提纲图像和第二训练向量)。通过第二鉴别器鉴别所述第二训练向量,获得第三鉴别结果;通过所述第一鉴别器鉴别所述第二提纲图像,获得第四鉴别结果,以对第二次转换的结果进行鉴别,生成第二次鉴别结果(即第三鉴别结果和第四鉴别结果)。根据所述第一鉴别结果、所述第二鉴别结果、所述第三鉴别结果、所述第四鉴别结果计算所述循环对抗网络的损失值,以计算每次循环的模型损失值。当所述损失值未满足终止条件时,根据所述损失值调整所述第一生成器、所述第二生成器、所述第一鉴别器、所述第二鉴别器的模型参数,并重复生成和鉴别的步骤,以持续对循环对抗网络进行迭代更新。当所述损失值满足终止条件时,将满足终止条件时的所述循环对抗网络确定为所述预设循环对抗网络,以获得训练好的预设循环对抗网络。
S40、对所述文本数据进行结构化处理,生成结构化数据。
在此处,对文本数据进行结构化处理,指的是在每个句子的开头和结尾的表征上,使用一个分类器,用于选择一个html符号。生成的结构化数据具有层次结构,便于确定句子彼此之间的逻辑结构。示意性的,逻辑结构可以指总分结构、并列结构等。在结构化的过程中,可以基于目标提纲图像中可填充区域的数量对结构化数据进行划分,以使在下一步骤的处理中,不会出现多余的可填充区域或填充数据。
在一示例中,一文本数据为:解决xxx的方法可以有:1.加入新的技术;2,改变机制。其生成的结构化数据可以是:
<p>解决xxx的方法可以有:</p>
<d>1,加入新的技术;</d>
<d>2,改变机制。</d>
在前端显示时,结构化数据显示为:
解决xxx的方法可以有:
1,加入新的技术;
2,改变机制。
S50、通过预设指针生成网络模型处理所述结构化数据,生成填充数据,并将所述填充数据填入对应的所述可填充区域。
本实施例中,预设指针生成网络模型可以是自定义的生成网络模型。在预设指针生成网络模型中,结构化数据中每个句子可能存在四种预测结果,第一种是生成一个词语概括一个句子,第二种是除去这个句子,第三种是将这个句子原文放入目标文档,第四种则是通过复制+生成的方式造出新的句子。生成的填充数据包括了第一种、第三种和第四种预测结果。
在生成填充数据之后,可以将填充数据填入目标提纲图像中对应的可填充区域。
可选的,如图6所示,步骤S50,即所述通过预设指针生成网络模型处理所述结构化数据,生成填充数据,并将所述填充数据填入对应的所述可填充区域,包括:
S51、判断所述结构化数据中指定语段的处理类型;
S52、若所述处理类型为复制生成时,以不除重的方式处理所述指定语段,生成原文词汇和派生词汇;
S53、计算所述原文词汇和所述派生词汇的词汇概率;
S54、根据所述词汇概率生成所述指定语段对应的填充数据。
本实施例中,可以根据需要设置指定语段的划分规则。示意性的,划分规则可以是按段落划分,也可以按照句子划分。指定语段的处理类型包括四种,分别为:1、生成概括词;2、除去;3、复制生成、4、保留。其中,处理类型1、2、4的处理方式较为简单,在此不再赘述。处理类型为复制生成时,需要通过预设指针生成网络模型生成新的词汇,即派生词汇,然后结合原有的原文词汇,分别统计原文词汇和派生词汇的词汇概率,根据词汇概率生成填充数据。在此处,原文词汇指的是从指定语段中截取拆分的词汇,如“加入新的技术”可以拆分为“加”、“入”、“新”、“的”、“技”、“术”。而派生词汇指的是通过预设指针生成网络模型生成的词汇。不除重的方式指的是,原文词汇和派生词汇各自计算词汇概率,相同词汇不进行除重处理。在一示例中,原文词汇包括技(1),派生词汇包括技(2),技(1)和技(2)的词汇频率独立计算,不进行除重。通过不除重方式,可以降低预设指针生成网络模型的训练难度,减少网络参数的处理量。词汇概率用于表示词汇的重要性,概率越高,表示该词汇的重要性越大,出现在填充数据中的几率越高。
步骤S51-S54中,判断所述结构化数据中指定语段的处理类型,以确定指定语段的处理类型。若所述处理类型为复制生成时,以不除重的方式处理所述指定语段,生成原文词汇和派生词汇,在此处,通过不除重的方式降低了预设指针生成网络模型的训练难度。计算所述原文词汇和所述派生词汇的词汇概率,以通过词汇概率对词汇进行筛选。根据所述词汇概率生成所述指定语段对应的填充数据,以选取概率高的词汇生成填充数据。
S60、待所述可填充区域填充完毕后,生成目标文档。
本实施例中,当可填充区域填充完毕,目标文档的主体内容已经基本完整。此时,可以根据实际需要自动添加封面页和封底页,并生成最终的目标文档。至此,完成目标文档的生成流程。
可以根据实际用户需求设置目标文档的格式,如,格式可以是ppt、pps、pptx、ppsx、pptm、pdf、pot、mp4等。在一示例中,可以通过本实施例提供的方法将远程医疗的日志文件生成病情分析报告或就诊病历数据。
步骤S10-S60中,获取符合预设要求的文本数据,在此处,选取预设要求的文本数据,可以提高素材的质量,提高目标文档的生成质量。通过预设BERT网络模型处理所述文本数据,生成表征向量,以通过表征向量提取文本数据的特征。将所述表征向量输入预设循环对抗网络,生成目标文档的目标提纲图像,所述目标提纲图像包括若干个可填充区域,在此处,目标提纲图像可以反映文本数据的整体逻辑结构,便于信息沟通。对所述文本数据进行结构化处理,生成结构化数据,在此处,通过结构化处理,可以精确地从文本数据中提取数据,保证填充数据与目标提纲图像的匹配度。通过预设指针生成网络模型处理所述结构化数据,生成填充数据,并将所述填充数据填入对应的所述可填充区域,在此处,通过填充的方式为目标提纲图像加入文字内容,可以逐步完善目标文档的各个页面。待所述可填充区域填充完毕后,生成所述目标文档,由此,实现了目标文档的自动生成,可以大大节省用户制作目标文档的时间。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种文档数据处理装置,该文档数据处理装置与上述实施例中文档数据处理方法一一对应。如图7所示,该文档数据处理装置包括获取模块10、生成向量模块20、生成提纲模块30、结构化模块40、填充模块50和生成文档模块60。各功能模块详细说明如下:
获取模块10,用于获取符合预设要求的文本数据;
生成向量模块20,用于通过预设BERT网络模型处理所述文本数据,生成表征向量;
生成提纲模块30,用于将所述表征向量输入预设循环对抗网络,生成目标文档的目标提纲图像,所述目标提纲图像包括若干个可填充区域;
结构化模块40,用于对所述文本数据进行结构化处理,生成结构化数据;
填充模块50,用于通过预设指针生成网络模型处理所述结构化数据,生成填充数据,并将所述填充数据填入对应的所述可填充区域;
生成文档模块60,用于待所述可填充区域填充完毕后,生成所述目标文档。
可选的,获取模块10包括:
获取素材单元,用于获取待处理的素材数据;
数据转化单元,用于若所述素材数据包括非文本类型数据和文本类型数据,则将所述非文本类型数据转化为第一文本数据;
合并数据单元,用于对所述第一文本数据以及所述素材数据中属于文本类型数据的第二文本数据进行合并处理,生成待处理文本;
生成文本数据单元,用于根据所述预设要求处理所述待处理文本,生成符合预设要求的所述文本数据。
可选的,生成向量模块20包括:
获取训练数据单元,用于获取带有标签的训练语料数据,所述标签为保留、缩减和删除中的任意一种;
训练单元,用于将所述训练语料数据输入初始BERT网络模型中进行训练,并计算所述初始BERT网络模型的损失值;
确定BERT网络模型单元,用于当所述损失值小于预设阈值时,将训练后的所述初始BERT网络模型确定为所述预设BERT网络模型。
可选的,生成提纲模块30包括:
第一生成单元,用于在循环对抗网络中,将训练表征向量输入第一生成器,生成第一提纲图像;将标注提纲图像输入第二生成器,生成第一训练向量;
第一鉴别单元,用于通过第一鉴别器鉴别所述第一提纲图像,获得第一鉴别结果;通过第二鉴别器鉴别所述第一训练向量,获得第二鉴别结果;
第二生成单元,用于将所述第一提纲图像输入所述第二生成器,生成第二训练向量;将所述第一训练向量输入所述第一生成器,生成第二提纲图像;
第二鉴别单元,用于通过第二鉴别器鉴别所述第二训练向量,获得第三鉴别结果;通过所述第一鉴别器鉴别所述第二提纲图像,获得第四鉴别结果;
损失计算单元,用于根据所述第一鉴别结果、所述第二鉴别结果、所述第三鉴别结果、所述第四鉴别结果计算所述循环对抗网络的损失值;
迭代单元,用于当所述损失值未满足终止条件时,根据所述损失值调整所述第一生成器、所述第二生成器、所述第一鉴别器、所述第二鉴别器的模型参数,并重复生成和鉴别的步骤;
确定循环对抗网路单元,用于当所述损失值满足终止条件时,将满足终止条件时的所述循环对抗网络确定为所述预设循环对抗网络。
可选的,填充模块50包括:
判断处理类型单元,用于判断所述结构化数据中指定语段的处理类型;
生成词汇单元,用于若所述处理类型为复制生成时,以不除重的方式处理所述指定语段,生成原文词汇和派生词汇;
概率计算单元,用于计算所述原文词汇和所述派生词汇的词汇概率;
填充单元,用于根据所述词汇概率生成所述指定语段对应的填充数据。
关于文档数据处理装置的具体限定可以参见上文中对于文档数据处理方法的限定,在此不再赘述。上述文档数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作***和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储文档数据处理方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种文档数据处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:
获取符合预设要求的文本数据;
通过预设BERT网络模型处理所述文本数据,生成表征向量;
将所述表征向量输入预设循环对抗网络,生成目标文档的目标提纲图像,所述目标提纲图像包括若干个可填充区域;
对所述文本数据进行结构化处理,生成结构化数据;
通过预设指针生成网络模型处理所述结构化数据,生成填充数据,并将所述填充数据填入对应的所述可填充区域;
待所述可填充区域填充完毕后,生成所述目标文档。
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:
获取符合预设要求的文本数据;
通过预设BERT网络模型处理所述文本数据,生成表征向量;
将所述表征向量输入预设循环对抗网络,生成目标文档的目标提纲图像,所述目标提纲图像包括若干个可填充区域;
对所述文本数据进行结构化处理,生成结构化数据;
通过预设指针生成网络模型处理所述结构化数据,生成填充数据,并将所述填充数据填入对应的所述可填充区域;
待所述可填充区域填充完毕后,生成所述目标文档。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (9)
1.一种文档数据处理方法,其特征在于,包括:
获取符合预设要求的文本数据;
通过预设BERT网络模型处理所述文本数据,生成表征向量;
将所述表征向量输入预设循环对抗网络,生成目标文档的目标提纲图像,所述目标提纲图像包括若干个可填充区域;
对所述文本数据进行结构化处理,生成结构化数据;
通过预设指针生成网络模型处理所述结构化数据,生成填充数据,并将所述填充数据填入对应的所述可填充区域;
待所述可填充区域填充完毕后,生成所述目标文档;
所述将所述表征向量输入预设循环对抗网络,生成目标文档的目标提纲图像,所述目标提纲图像包括若干个可填充区域之前,还包括:
在循环对抗网络中,将训练表征向量输入第一生成器,生成第一提纲图像;将标注提纲图像输入第二生成器,生成第一训练向量;
通过第一鉴别器鉴别所述第一提纲图像,获得第一鉴别结果;通过第二鉴别器鉴别所述第一训练向量,获得第二鉴别结果;
将所述第一提纲图像输入所述第二生成器,生成第二训练向量;将所述第一训练向量输入所述第一生成器,生成第二提纲图像;
通过第二鉴别器鉴别所述第二训练向量,获得第三鉴别结果;通过所述第一鉴别器鉴别所述第二提纲图像,获得第四鉴别结果;
根据所述第一鉴别结果、所述第二鉴别结果、所述第三鉴别结果、所述第四鉴别结果计算所述循环对抗网络的损失值;
当所述损失值未满足终止条件时,根据所述损失值调整所述第一生成器、所述第二生成器、所述第一鉴别器、所述第二鉴别器的模型参数,并重复生成和鉴别的步骤;
当所述损失值满足终止条件时,将满足终止条件时的所述循环对抗网络确定为所述预设循环对抗网络。
2.如权利要求1所述的文档数据处理方法,其特征在于,所述获取符合预设要求的文本数据,包括:
获取待处理的素材数据;
若所述素材数据包括非文本类型数据和文本类型数据,则将所述非文本类型数据转化为第一文本数据;
对所述第一文本数据以及所述素材数据中属于文本类型数据的第二文本数据进行合并处理,生成待处理文本;
根据所述预设要求处理所述待处理文本,生成符合预设要求的所述文本数据。
3.如权利要求1所述的文档数据处理方法,其特征在于,所述通过预设BERT网络模型处理所述文本数据,生成表征向量之前,还包括:
获取带有标签的训练语料数据,所述标签为保留、缩减和删除中的任意一种;
将所述训练语料数据输入初始BERT网络模型中进行训练,并计算所述初始BERT网络模型的损失值;
当所述损失值小于预设阈值时,将训练后的所述初始BERT网络模型确定为所述预设BERT网络模型。
4.如权利要求1所述的文档数据处理方法,其特征在于,所述通过预设指针生成网络模型处理所述结构化数据,生成填充数据,并将所述填充数据填入对应的所述可填充区域,包括:
判断所述结构化数据中指定语段的处理类型;
若所述处理类型为复制生成时,以不除重的方式处理所述指定语段,生成原文词汇和派生词汇;
计算所述原文词汇和所述派生词汇的词汇概率;
根据所述词汇概率生成所述指定语段对应的填充数据。
5.一种文档数据处理装置,其特征在于,包括:
获取模块,用于获取符合预设要求的文本数据;
生成向量模块,用于通过预设BERT网络模型处理所述文本数据,生成表征向量;
生成提纲模块,用于将所述表征向量输入预设循环对抗网络,生成目标文档的目标提纲图像,所述目标提纲图像包括若干个可填充区域;
结构化模块,用于对所述文本数据进行结构化处理,生成结构化数据;
填充模块,用于通过预设指针生成网络模型处理所述结构化数据,生成填充数据,并将所述填充数据填入对应的所述可填充区域;
生成文档模块,用于待所述可填充区域填充完毕后,生成所述目标文档;
所述生成提纲模块包括:
第一生成单元,用于在循环对抗网络中,将训练表征向量输入第一生成器,生成第一提纲图像;将标注提纲图像输入第二生成器,生成第一训练向量;
第一鉴别单元,用于通过第一鉴别器鉴别所述第一提纲图像,获得第一鉴别结果;通过第二鉴别器鉴别所述第一训练向量,获得第二鉴别结果;
第二生成单元,用于将所述第一提纲图像输入所述第二生成器,生成第二训练向量;将所述第一训练向量输入所述第一生成器,生成第二提纲图像;
第二鉴别单元,用于通过第二鉴别器鉴别所述第二训练向量,获得第三鉴别结果;通过所述第一鉴别器鉴别所述第二提纲图像,获得第四鉴别结果;
损失计算单元,用于根据所述第一鉴别结果、所述第二鉴别结果、所述第三鉴别结果、所述第四鉴别结果计算所述循环对抗网络的损失值;
迭代单元,用于当所述损失值未满足终止条件时,根据所述损失值调整所述第一生成器、所述第二生成器、所述第一鉴别器、所述第二鉴别器的模型参数,并重复生成和鉴别的步骤;
确定循环对抗网路单元,用于当所述损失值满足终止条件时,将满足终止条件时的所述循环对抗网络确定为所述预设循环对抗网络。
6.如权利要求5所述的文档数据处理装置,其特征在于,所述获取模块包括:
获取素材单元,用于获取待处理的素材数据;
数据转化单元,用于若所述素材数据包括非文本类型数据和文本类型数据,则将所述非文本类型数据转化为第一文本数据;
合并数据单元,用于对所述第一文本数据以及所述素材数据中属于文本类型数据的第二文本数据进行合并处理,生成待处理文本;
生成文本数据单元,用于根据所述预设要求处理所述待处理文本,生成符合预设要求的所述文本数据。
7.如权利要求5所述的文档数据处理装置,其特征在于,所述生成向量模块包括:
获取训练数据单元,用于获取带有标签的训练语料数据,所述标签为保留、缩减和删除中的任意一种;
训练单元,用于将所述训练语料数据输入初始BERT网络模型中进行训练,并计算所述初始BERT网络模型的损失值;
确定BERT网络模型单元,用于当所述损失值小于预设阈值时,将训练后的所述初始BERT网络模型确定为所述预设BERT网络模型。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至4中任一项所述文档数据处理方法。
9.一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至4中任一项所述文档数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011534340.4A CN112580309B (zh) | 2020-12-22 | 2020-12-22 | 文档数据处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011534340.4A CN112580309B (zh) | 2020-12-22 | 2020-12-22 | 文档数据处理方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580309A CN112580309A (zh) | 2021-03-30 |
CN112580309B true CN112580309B (zh) | 2023-08-04 |
Family
ID=75138934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011534340.4A Active CN112580309B (zh) | 2020-12-22 | 2020-12-22 | 文档数据处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580309B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1904896A (zh) * | 2005-07-28 | 2007-01-31 | 株式会社东芝 | 结构化文档处理装置、搜索装置及结构化文档***和方法 |
CN109492075A (zh) * | 2018-09-10 | 2019-03-19 | 中山大学 | 一种基于循环生成对抗网络的迁移学习排序方法 |
CN109978792A (zh) * | 2019-03-28 | 2019-07-05 | 厦门美图之家科技有限公司 | 一种生成图像增强模型的方法 |
CN110705237A (zh) * | 2019-09-18 | 2020-01-17 | 深圳证券交易所 | 文档的自动生成方法、数据处理设备及存储介质 |
CN111814542A (zh) * | 2020-05-29 | 2020-10-23 | 汉海信息技术(上海)有限公司 | 地理对象的提取方法、装置及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017212459A1 (en) * | 2016-06-09 | 2017-12-14 | Sentient Technologies (Barbados) Limited | Content embedding using deep metric learning algorithms |
US11106182B2 (en) * | 2018-03-16 | 2021-08-31 | Salesforce.Com, Inc. | Systems and methods for learning for domain adaptation |
-
2020
- 2020-12-22 CN CN202011534340.4A patent/CN112580309B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1904896A (zh) * | 2005-07-28 | 2007-01-31 | 株式会社东芝 | 结构化文档处理装置、搜索装置及结构化文档***和方法 |
CN109492075A (zh) * | 2018-09-10 | 2019-03-19 | 中山大学 | 一种基于循环生成对抗网络的迁移学习排序方法 |
CN109978792A (zh) * | 2019-03-28 | 2019-07-05 | 厦门美图之家科技有限公司 | 一种生成图像增强模型的方法 |
CN110705237A (zh) * | 2019-09-18 | 2020-01-17 | 深圳证券交易所 | 文档的自动生成方法、数据处理设备及存储介质 |
CN111814542A (zh) * | 2020-05-29 | 2020-10-23 | 汉海信息技术(上海)有限公司 | 地理对象的提取方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112580309A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220308942A1 (en) | Systems and methods for censoring text inline | |
CN112328762B (zh) | 基于文本生成模型的问答语料生成方法和装置 | |
CN111666401B (zh) | 基于图结构的公文推荐方法、装置、计算机设备及介质 | |
CN111444723B (zh) | 信息抽取方法、计算机设备和存储介质 | |
WO2022142613A1 (zh) | 训练语料扩充方法及装置、意图识别模型训练方法及装置 | |
CN111680634B (zh) | 公文文件处理方法、装置、计算机设备及存储介质 | |
US11238312B2 (en) | Automatically generating labeled synthetic documents | |
CN111859986B (zh) | 基于多任务孪生网络的语义匹配方法、装置、设备和介质 | |
CN112766319B (zh) | 对话意图识别模型训练方法、装置、计算机设备及介质 | |
CN112380837B (zh) | 基于翻译模型的相似句子匹配方法、装置、设备及介质 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
CN111859916B (zh) | 古诗关键词提取、诗句生成方法、装置、设备及介质 | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN111666775A (zh) | 文本处理方法、装置、设备及存储介质 | |
CN112652386A (zh) | 分诊数据处理方法、装置、计算机设备及存储介质 | |
CN112580363A (zh) | 需求文档处理方法、装置、计算机设备及存储介质 | |
CN107766498B (zh) | 用于生成信息的方法和装置 | |
CN117235546B (zh) | 多版本文件比对方法、装置、***及存储介质 | |
JP6095487B2 (ja) | 質問応答装置、及び質問応答方法 | |
CN116861898A (zh) | 样本数据处理方法、装置、设备及介质 | |
CN112580309B (zh) | 文档数据处理方法、装置、计算机设备及存储介质 | |
KR102516560B1 (ko) | 수기로 작성된 문서의 관리 시스템 | |
CN116681088A (zh) | 一种基于大模型的翻译***、方法及储存介质 | |
US11640233B2 (en) | Foreign language machine translation of documents in a variety of formats | |
CN114969544A (zh) | 基于热点数据的推荐内容生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220920 Address after: Room 2601 (Unit 07), Qianhai Free Trade Building, No. 3048, Xinghai Avenue, Nanshan Street, Qianhai Shenzhen-Hong Kong Cooperation Zone, Shenzhen, Guangdong 518000 Applicant after: Shenzhen Ping An Smart Healthcare Technology Co.,Ltd. Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000 Applicant before: Ping An International Smart City Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |