CN117033996A - 文档处理方法、装置及计算机设备、存储介质、程序产品 - Google Patents
文档处理方法、装置及计算机设备、存储介质、程序产品 Download PDFInfo
- Publication number
- CN117033996A CN117033996A CN202211078845.3A CN202211078845A CN117033996A CN 117033996 A CN117033996 A CN 117033996A CN 202211078845 A CN202211078845 A CN 202211078845A CN 117033996 A CN117033996 A CN 117033996A
- Authority
- CN
- China
- Prior art keywords
- emotion
- document
- sentence
- cause
- reason
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 230000008451 emotion Effects 0.000 claims abstract description 1219
- 238000012545 processing Methods 0.000 claims abstract description 478
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000000605 extraction Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims description 141
- 230000008569 process Effects 0.000 claims description 101
- 238000012360 testing method Methods 0.000 claims description 79
- 238000004088 simulation Methods 0.000 claims description 59
- 238000002372 labelling Methods 0.000 claims description 57
- 238000004590 computer program Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 17
- 238000005516 engineering process Methods 0.000 abstract description 19
- 230000000694 effects Effects 0.000 abstract description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 238000003058 natural language processing Methods 0.000 abstract description 8
- 230000002776 aggregation Effects 0.000 description 14
- 238000004220 aggregation Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000000295 complement effect Effects 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 230000009977 dual effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 230000001364 causal effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 208000013875 Heart injury Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种文档处理方法、装置及计算机设备、存储介质、程序产品,可以应用于人工智能技术领域的自然语言处理技术分支中。该文档处理方法包括:调用文档处理模型按照第一方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第一方向上的处理损失;调用文档处理模型按照第二方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第二方向上的处理损失;基于第一方向上的处理损失和第二方向上的处理损失,对文档处理模型进行训练。采用本申请实施例,可以提升文档处理模型的训练效果,提升文档处理模型提取情感原因对的准确率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能技术领域,具体涉及一种文档处理方法、一种文档处理装置、一种计算机设备、一种计算机可读存储介质以及一种计算机程序产品。
背景技术
随着计算机技术的快速发展,越来越多的网络参与者会在网络平台(例如,社交平台、网络购物平台、以及对话***等等)上发表情感化的文档内容,分析隐藏在情感背后的原因有利于理解网络参与者产生情感的原因,可以促进网络平台进行改进,使得网络平台能够更好地服务于网络参与者;基于此,从文档中提取情感原因对成为自然语言处理技术中的一项重要任务。
目前,端到端的方法是情感原因对提取任务的主流方法,所谓端到端的方法是指:训练一个文档处理模型,将文档作为文档处理模型的输入,文档处理模型执行情感原因对提取任务,并输出从文档中提取的情感原因对;在采用端到端的方法提取情感原因对时,提取的情感原因对的准确率取决于文档处理模型的训练效果,训练效果差的文档处理模型进行情感原因对提取的准确率不高。因此,如何提升用于提取情感原因对的文档处理模型的训练效果,成为当前的研究热点。
发明内容
本申请实施例提供了一种文档处理方法、装置及计算机设备、存储介质、程序产品,可以提升文档处理模型的训练效果,从而可以提升文档处理模型提取情感原因对的准确率。
一方面,本申请实施例提供了一种文档处理方法,该文档处理方法包括:
获取用于对文档处理模型进行训练的样本文档;
调用文档处理模型按照第一方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第一方向上的处理损失;情感原因对是指由一个情感句和一个原因句组成的语句对;第一方向是指以情感句为依据提取情感原因对的方向;
调用文档处理模型按照第二方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第二方向上的处理损失;第二方向是指以原因句为依据提取情感原因对的方向;
基于第一方向上的处理损失和第二方向上的处理损失,对文档处理模型进行训练;训练好的文档处理模型用于分别按照第一方向和第二方向进行情感原因对的提取。
相应地,本申请实施例提供了一种文档处理装置,该文档处理装置包括:
获取单元,用于获取用于对文档处理模型进行训练的样本文档;
处理单元,用于调用文档处理模型按照第一方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第一方向上的处理损失;情感原因对是指由一个情感句和一个原因句组成的语句对;第一方向是指以情感句为依据提取情感原因对的方向;
处理单元,还用于调用文档处理模型按照第二方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第二方向上的处理损失;第二方向是指以原因句为依据提取情感原因对的方向;
处理单元,还用于基于第一方向上的处理损失和第二方向上的处理损失,对文档处理模型进行训练;训练好的文档处理模型用于分别按照第一方向和第二方向进行情感原因对的提取。
在一种实现方式中,处理单元,用于调用文档处理模型按照第一方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第一方向上的处理损失时,具体用于执行如下步骤:
调用文档处理模型,对样本文档进行情感句预测,并获取情感句预测所产生情感句预测损失;
调用文档处理模型,基于标注情感句对样本文档进行原因句预测,并获取原因句预测所产生原因句预测损失;
对情感句预测损失和原因句预测损失进行求和处理,得到文档处理模型在第一方向上的处理损失。
在一种实现方式中,样本文档包括多个文档语句;处理单元,用于调用文档处理模型,对样本文档进行情感句预测,并获取情感句预测所产生情感句预测损失时,具体用于执行如下步骤:
获取情感查询语句;
调用文档处理模型,基于情感查询语句对样本文档中的每个文档语句进行情感句预测,得到样本文档中的各个文档语句的情感预测概率;
根据各个文档语句的情感分类类型和情感预测概率,计算情感句预测损失。
在一种实现方式中,处理单元,用于调用文档处理模型,基于情感查询语句对样本文档中的每个文档语句进行情感句预测,得到样本文档中的各个文档语句的情感预测概率时,具体用于执行如下步骤:
对情感查询语句进行向量编码,得到情感查询语句的向量表示;以及,分别对样本文档中的各个文档语句进行向量编码,得到各个文档语句的向量表示;
对情感查询语句的向量表示进行上下文特征提取,得到情感查询语句的上下文特征;以及,分别对各个文档语句的向量表示进行上下文特征提取,得到各个文档语句的上下文特征;
将情感查询语句的上下文特征,分别与各个文档语句的上下文特征进行拼接处理,得到各个文档语句的拼接上下文特征;
基于每个文档语句的拼接上下文特征,对相应文档语句进行情感句预测,得到样本文档中的各个文档语句的情感预测概率。
在一种实现方式中,获取单元,还用于获取样本文档中的非情感句和非原因句;非情感句用于模拟文档处理模型在测试过程中提取了错误情感句的情况,非原因句用于模拟文档处理模型在测试过程中提取了错误原因句的情况;
处理单元,还用于调用文档处理模型从样本文档中提取非情感句对应的情感原因对,并在情感原因对的提取过程中,获取文档处理模型针对非情感句的测试模拟损失;
处理单元,还用于调用文档处理模型从样本文档中提取非原因句对应的情感原因对,并在情感原因对的提取过程中,获取文档处理模型针对非原因句的测试模拟损失;
处理单元,用于基于第一方向上的处理损失和第二方向上的处理损失,对文档处理模型进行训练时,具体用于执行如下步骤:基于第一方向上的处理损失、第二方向上的处理损失、非情感句的测试模拟损失以及非原因句的测试模拟损失,对文档处理模型进行训练。
在一种实现方式中,样本文档包括多个文档语句;处理单元,用于调用文档处理模型从样本文档中提取非情感句对应的情感原因对,并在情感原因对的提取过程中,获取文档处理模型针对非情感句的测试模拟损失时,具体用于执行如下步骤:
生成非情感句对应的原因查询语句;
调用文档处理模型,基于非情感句对应的原因查询语句,对样本文档中的各个文档语句进行原因句预测,得到样本文档中的各个文档语句在非情感句下的原因预测概率;
根据各个文档语句在非情感句下的原因分类类型和原因预测概率,计算文档处理模型针对非情感句的测试模拟损失。
在一种实现方式中,获取单元,还用于获取待处理的目标文档;
处理单元,还用于调用训练好的文档处理模型,按照第一方向从目标文档中提取情感原因对,得到第一情感原因对集合;
处理单元,还用于调用训练好的文档处理模型,按照第二方向从目标文档中提取情感原因对,得到第二情感原因对集合;
处理单元,还用于在第一情感原因对集合和第二情感原因对集合中,确定目标文档对应的情感原因对。
在一种实现方式中,目标文档包括多个文档语句;处理单元,用于调用训练好的文档处理模型,按照第一方向从目标文档中提取情感原因对,得到第一情感原因对集合时,具体用于执行如下步骤:
调用训练好的文档处理模型对目标文档中的每个文档语句进行情感句预测,得到目标文档中的预测情感句;
调用训练好的文档处理模型,基于预测情感句对目标文档中的各个文档语句进行原因句预测,得到预测情感句对应的预测原因句;
将预测情感句与预测情感句对应的预测原因句进行组合,得到第一情感原因对集合。
在一种实现方式中,第一情感原因对集合和第二情感原因对集合中的每个情感原因对分别对应各自的置信度;目标情感原因对是第一情感原因对集合和第二情感原因对集合中的任一个情感原因对;
处理单元,用于在第一情感原因对集合和第二情感原因对集合中,确定目标文档对应的情感原因对时,具体用于执行如下步骤:
若第一情感原因对集合和第二情感原因对集合中均包含目标情感原因对,则将目标情感原因对确定为目标文档对应的情感原因对;
若第一情感原因对集合或第二情感原因对集合中包含目标情感原因对,则将目标情感原因对的置信度与置信度阈值进行比较;
若目标情感原因对的置信度大于置信度阈值,则将目标情感原因对确定为目标文档对应的情感原因对。
在一种实现方式中,第一情感原因对集合和第二情感原因对集合中的每个情感原因对分别对应各自的置信度;处理单元,用于在第一情感原因对集合和第二情感原因对集合中,确定目标文档对应的情感原因对时,具体用于执行如下步骤:
在第一情感原因对集合和第二情感原因对集合中,确定可信情感原因对集合和不可信情感原因对集合;
将可信情感原因对集合中的所有情感原因对,确定为目标文档对应的情感原因对;
将不可信情感原因对集合中,置信度大于置信度阈值的情感原因对,确定为目标文档对应的情感原因对。
在一种实现方式中,处理单元,用于在第一情感原因对集合和第二情感原因对集合中,确定目标文档对应的情感原因对时,具体用于执行如下步骤:
将第一情感原因对集合和第二情感原因对集合中共同存在的公共情感原因对,确定为目标文档对应的情感原因对;或者,
将第一情感原因对集合和第二情感原因对集合中的情感原因对,均确定为目标文档对应的情感原因对。
相应地,本申请实施例提供一种计算机设备,该计算机设备包括:
处理器,适于实现计算机程序;
计算机可读存储介质,存储有计算机程序,计算机程序适于由处理器加载并执行上述的文档处理方法。
相应地,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述的文档处理方法。
相应地,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的文档处理方法。
本申请实施例中,提出提取情感原因对的两个方向,两个方向包括第一方向和第二方向,两个方向中的第一方向是指以情感句为依据提取情感原因对的方向,即从情感句到原因句的方向,两个方向中的第二方向是指以原因句为依据提取情感原因对的方向,即从原因句到情感句的方向;通过调用文档处理模型按照两个方向,从样本文档中提取情感原因对所产生的处理损失,对文档处理模型进行训练,可以提升文档处理模型的训练效果,从而可以提升文档处理模型提取情感原因对的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种情感原因对的提取任务的示意图;
图2a是本申请实施例提供的一种模型训练的流程示意图;
图2b是本申请实施例提供的一种模型应用的流程示意图;
图3是本申请实施例提供的一种文档处理***的架构示意图;
图4是本申请实施例提供的一种文档处理方法的流程示意图;
图5是本申请实施例提供的一种文档处理模型的结构示意图;
图6是本申请实施例提供的另一种文档处理方法的流程示意图;
图7a是本申请实施例提供的一种交集策略下的情感原因对确定过程示意图;
图7b是本申请实施例提供的一种并集策略下的情感原因对确定过程示意图;
图7c是本申请实施例提供的一种互补策略下的情感原因对确定过程示意图;
图7d是本申请实施例提供的一种调和策略下的情感原因对确定过程示意图;
图8是本申请实施例提供的一种文档处理模型在模型应用过程的示例性示意图;
图9是本申请实施例提供的一种文档处理装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了更清楚地理解本申请实施例所提供的技术方案,在此先对本申请实施例涉及的一些关键术语进行介绍:
(1)人工智能技术。人工智能(Artificial Intelligence,AI)技术是指利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
(2)自然语言处理技术。自然语言处理(Nature Language processing,NLP)技术是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
(3)情感原因对。情感原因对(Emotion-Cause Pair)是指由一个情感句和一个原因句组成的语句对,在情感原因对中,情感句的内容表达了某种情感(例如,开心、伤心、愤怒等等),原因句的内容表达了产生这种情绪的原因;情感原因对的提取任务一般是要求从文档中提取情感原因对,例如,从文档中提取文档中存在的全部情感原因对。图1示出了一种情感对提取任务的示意图,文档中包括5个文档语句(c1,c2,c3,c4和c5),从该文档中提取出了2个情感原因对,第一个情感原因对(c2,c2)中的情感句和原因句均为文档语句c2,文档语句c2的内容既表达了厌倦的情绪,又表达了产生厌倦情绪的原因“总是去同一家餐馆”,第二个情感原因对(c5,c4)中的情感句c5的内容表达了反感的情绪,原因句c4的内容表达了产生反感情绪的原因“但我朋友说这家餐馆很实惠”。
(4)阅读理解框架。阅读理解框架也可以称为QA(question-answer,问题回答)阅读理解框架,具体可以是指:给定问题(或者可以称为查询(query)),通过对文档内容进行理解,在文档中寻找给定问题的答案(answer)的一种文档处理方式。举例来说,需要从文档中提取情感句时,可以给定情感查询语句“找到情感句子”,并基于该情感查询语句对文档中的所有文档语句进行二分类,分类结果中标签为情感标签(例如可以是“1”)的文档语句为情感句,即分类结果中标签为情感标签的文档语句是情感查询语句的答案,分类结果中标签为非情感标签(例如可以是“0”)的文档语句为非情感句,即分类结果中标签为非情感标签的文档语句不是情感查询语句的答案。
基于上述关键术语的相关介绍,本申请实施例提出一种基于双向阅读理解框架的模型训练过程和模型应用过程(也可以称为模型测试过程),双向即两个方向,包括第一方向(情感→原因方向(Emotion→Cause Direction))和第二方向(原因→情感方向(Cause→Emotion Direction))。具体来说:
如图2a所示,在模型训练过程:模型训练过程的主要任务是对文档处理模型进行训练,文档处理模型是用于从文档中提取情感原因对的模型。用于对文档处理模型进行训练的损失主要由以下三部分构成:①调用文档处理模型按照第一方向,从文档中提取情感原因对所产生的损失;②调用文档处理模型按照第二方向,从文档中提取情感原因对所产生的损失;③模拟模型测试过程中提取了错误的情感句和原因句的情况,调用文档处理模型分别从文档中提取错误的情感句和错误的原因句对应的情感原因对所产生的损失。
在模型训练结果中调用文档处理模型按照第一方向,从文档中提取情感原因对主要可以包括两个阶段:第一阶段,基于QA阅读理解框架从文档中提取情感句,第二阶段,基于QA阅读理解框架从文档中提取标注情感句(ground-truth情感句)对应的原因句;类似地,在模型训练结果中调用文档处理模型按照第二方向,从文档中提取情感原因对主要可以包括两个阶段:第一阶段,基于QA阅读理解框架从文档中提取原因句,第二阶段,基于QA阅读理解框架从文档中提取标注原因句(ground-truth原因句)对应的情感句。基于双向阅读理解框架的模型训练过程,一方面考虑了提取情感原因对的两个方向,另一方面考虑了模型在测试情况下的错误情况,这样大大提升了文档处理模型的训练效果。
如图2b所示,在模型应用过程:模型应用过程的主要任务是采用训练好的文档处理模型提取文档中的情感原因对。具体来说,可以调用训练好的文档处理模型按照第一方向从文档中提取情感原因对,调用训练好的文档处理模型按照第一方向从文档中提取情感原因对,然后,可以在第一方向提取的情感原因对和第二方向提取的情感原因对中,确定最终的情感原因对。
与模型训练过程不同,在模型应用过程按照第一方向,从文档中提取情感原因对的第二阶段中,是基于QA阅读理解框架从文档中提取第一阶段提取的情感句对应的原因句,而不是提取标注情感句对应的原因句;在模型应用过程按照第二方向,从文档中提取情感原因对的第二阶段中,是基于QA阅读理解框架从文档中提取第一阶段提取的原因句对应的情感句,而不是提取标注原因句对应的情感句。基于双向阅读理解框架的模型应用过程,考虑了提取情感原因对的两个方向,最后从两个方向的提取结果中确定最终的情感原因对,这样大大提升了文档处理模型提取情感原因对的准确率。
下面结合对本申请实施例提供的文档处理***,以及本申请实施例适用的应用场景进行介绍。
图3所示的文档处理***可以包括服务器301和终端设备302,本申请实施例不对终端设备302的数量进行限定,终端设备302的数量可以为一个或多个;服务器301可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,本申请实施例对此不进行限定;终端设备302可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能手表、车载终端、智能家电、飞行器等,但并不局限于此;服务器301和终端设备302之间可以通过有线通信的方式建立直接地通信连接,或者可以通过无线通信的方式建立间接地通信连接,本申请实施例对此不进行限定。
在图3所示的文档处理***中,对于模型训练过程:
模型训练过程可以由服务器301或终端设备302执行,服务器301或终端设备302可以获取多个样本文档,基于多个样本文档对文档处理模型进行训练,以得到训练好的文档处理模型。针对任一个样本文档,可以在从样本文档中提取情感原因对的过程中获取以上提及的三部分损失(即第一方向提取情感原因对所产生的损失、第二方向提取情感原因对所产生的损失、以及模拟模型测试场景提取情感原因对所产生的损失),共同构成用于对文档处理模型进行训练的损失,从而基于该损失对文档处理模型进行训练。
在图3所示的文档处理***中,对于模型应用过程:
模型应用过程可以由终端设备302执行,即训练好的文档处理模型可以部署于终端设备302中,当终端设备302中存在待处理的目标文档时,终端设备302可以调用训练好的文档处理模型分别按照两个方向从目标文档中提取情感原因对,并从两个方向提取的情感原因对中确定最终的情感原因对。
或者,模型应用过程可以由服务器301和终端设备302交互执行,训练好的文档处理模型可以部署于服务器301中,当终端设备302中存在待处理的目标文档时,终端设备302可以将目标文档发送至服务器301;服务器301可以调用训练好的文档处理模型分别按照两个方向从目标文档中提取情感原因对,并从两个方向提取的情感原因对中确定最终的情感原因对,然后,服务器301可以将最终的情感原因对发送至终端设备302。
可以理解的是,本申请实施例描述的文档处理***是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着***架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请实施例提供的文档处理方案可以应用于社交、网络购物、对话***等需要进行情感原因分析的场景中。例如,在社交场景中,社交平台可以从社交对象发布的热点评论文档中提取情感原因对,从而,可以基于情感原因对分析社交对象对热点话题的情感和产生这种情感的原因,进一步地,可以向社交对象推荐更多社交对象表达喜欢情感的热点话题。又如,在网络购物场景中,网络购物平台可以从商品购买对象的商品评论文档中提取情感原因对,从而,可以基于情感原因对分析商品购买对象喜欢该商品的原因,或者不喜欢该商品的原因,这样有利于商品销售对象对商品进行改进,可以更好地满足商品购买对象的需求。还如,在对话***场景中,对话***可以对从会话对象的会话文档中提取情感原因对,从而,可以基于情感原因对分析会话对象参与会话的情感以及产生这种情感的原因,以便于生成符合该情感原因的对话反馈给会话对象。
需要特别说明的是,在本申请的各个实施例中,涉及到获取对象的文档等相关的数据,当本申请的各个实施例运用到具体产品或技术中时,需要获得对象的许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面结合附图对本申请实施例提供的文档处理方法进行更为详细地介绍。
本申请实施例提供一种文档处理方法,该文档处理方法主要介绍文档处理模型的训练过程。该文档处理方法可以由计算机设备执行,计算机设备可以是上述文档处理***中服务器301或终端设备302。如图4所示,该文档处理方法可以包括但不限于以下步骤S401-步骤S404:
S401,获取用于对文档处理模型进行训练的样本文档。
样本文档用于对文档处理模型进行训练,样本文档中可以包括多个文档语句(clause),样本文档中的各个文档语句可以是通过标点符号隔开的;例如,样本文档为“一开始觉得这家餐馆很不错,但是我厌倦了总是去同一家餐馆。我想换一家餐馆,但我朋友说这家餐馆很实惠,这让我很反感”,这个样本文档中可以包括5个文档语句,分别是文档语句1(clause1)“一开始觉得这家餐馆很不错”,文档语句2(clause2)“但是我厌倦了总是去同一家餐馆”,文档语句3(clause3)“我想换一家餐馆”,文档语句4(clause4)“但我朋友说这家餐馆很实惠”,以及文档语句5(clause5)“这让我很反感”。
S402,调用文档处理模型按照第一方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第一方向上的处理损失。
在获取到用于对文档处理模型进行训练的样本文档后,可以调用文档处理模型按照第一方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第一方向上的处理损失。情感原因对可以是指由一个情感句和一个原因句组成的语句对,情感句的内容表达了某种情感(例如,开心、伤心、愤怒等等),原因句的内容表达了产生这种情绪的原因;第一方向可以是指以情感句为依据提取情感原因对的方向,即从情感句到原因句的方向。
其中,调用文档处理模型按照第一方向从样本文档中提取情感原因对可以包括两个阶段:第一阶段为从样本文档中提取情感句的阶段,即调用文档处理模型,对样本文档进行情感句预测的阶段;第二阶段为给定标注情感句,从样本文档中提取标注情感句对应的原因句的阶段,即调用文档处理模型,基于标注情感句对样本文档进行原因句预测的阶段,标注情感句是指样本文档中的正确情感句。并且,每个阶段分别对应各自的损失,第一阶段对应的损失为情感句预测损失,即调用文档处理模型,对样本文档进行情感句预测所产生的损失为情感句预测损失,第二阶段对应的损失为原因句预测损失,即调用文档处理模型,基于标注情感句对样本文档进行原因句预测所产生的损失为原因句预测损失;第一阶段的情感句预测损失和第二阶段的原因句预测损失,共同构成了文档处理模型在第一方向上的处理损失,文档处理模型在第一方向上的处理损失,可以是对第一阶段的情感句预测损失和第二阶段的原因句预测损失进行求和处理得到的。下面分别对第一方向的两个阶段进行介绍:
(1)第一方向的第一阶段:
第一阶段为情感句提取阶段。在第一阶段中,可以获取情感查询语句(Em otionExtraction Query),调用文档处理模型,基于情感查询语句对样本文档中的每个文档语句进行情感句预测,得到样本文档中的各个文档语句的情感预测概率,然后,可以根据各个文档语句的情感分类类型和情感预测概率,计算情感句预测损失。其中,文档语句的情感预测概率可以包括:文档语句被预测为情感句的概率,以及文档语句被预测为非情感句的概率;在计算情感句预测损失时,若文档语句的情感分类类型为情感句,即若文档语句的情感标签为情感句标签(例如可以是“1”),则可以采用文档语句被预测为情感句的概率计算情感句预测损失;若文档语句的情感分类类型为非情感句,即若文档语句的情感标签为非情感句标签(例如可以是“0”),则可以采用文档语句被预测为非情感句的概率计算情感句预测损失。第一阶段的情感句预测损失的计算过程可以参见如下公式1:
在上述公式1中:LEC1表示第一阶段的情感句预测损失;N表示样本文档中包含的文档语句的数量,N为大于1的整数;表示样本文档中的第i个文档语句的情感标签,即第i个文档语句的情感分类类型,i为小于或等于N的正整数;/>表示样本文档中的第i个文档语句的情感预测概率。
(2)第一方向的第二阶段:
第二阶段为给定情感句的原因句提取阶段。在第二阶段中,给定了标注情感句,可以生成标注情感句对应的原因查询语句(Emotion-Specific Cause Extraction Query),与第一方向的第一阶段类似,可以调用文档处理模型,基于标注情感句对应的原因查询语句,对样本文档中的每个文档语句进行原因句预测,得到样本文档中的各个文档语句的原因预测概率,然后,可以根据各个文档语句在标注情感句下的原因分类类型和原因预测概率,计算原因句预测损失。其中,文档语句在标注情感句下的原因预测概率可以包括:文档语句被预测为标注情感句对应的原因句的概率,以及文档语句被预测为标注情感句对应的非原因句的概率;在计算原因句预测损失时,若文档语句在标注情感句下的原因分类类型为原因句,即若文档语句在标注情感句下的原因标签为原因句标签(例如可以是“1”),则可以采用文档语句被预测为标注情感句对应的原因句的概率计算原因句预测损失;若文档语句在标注情感句下的原因分类类型为非原因句,即若文档语句在标注情感句下的原因标签为非原因句标签(例如可以是“0”),则可以采用文档语句被预测为标注情感句对应的非原因句的概率计算原因句预测损失。
需要说明的是,第二阶段给定的标注情感句的数量可以为一个或多个,当标注情感句的数量为多个时,需要针对每个标注情感句均进行一次原因句提取,产生每个标注情感句对应的原因句预测损失,第二阶段的原因句预测损失可以是第二阶段给定的各个标注情感句对应的原因句预测损失之和。第二阶段的原因句预测损失的计算过程可以参见下述公式2:
在上述公式2中:LEC2表示第二阶段的原因句预测损失;N表示样本文档中包含的文档语句的数量,N为大于1的整数;Le表示给定的标注情感句集合,给定的标注情感句集合中可以包括一个或多个标注情感句;cj表示给定的标注情感句集合中的第j个标注情感句;表示样本文档中的第i个文档语句在第j个标注情感句下的原因标签,即第i个文档语句在第j个标注情感句下的原因分类类型,i为小于或等于N的正整数;/>表示第i个文档语句在第j个标注情感句下的原因预测概率。
基于上述第一方向的两个阶段,文档处理模型在第一方向上的处理损失,可以是对第一方向的第一阶段的情感句预测损失,和第一方向的第二阶段的原因句预测损失进行求和处理得到的。具体可参见如下公式3:
在上述公式3中:LEC表示文档处理模型在第一方向上的处理损失;LEC1表示第一方向中的第一阶段的情感句预测损失;LEC2表示第一方向中的第二阶段的原因句预测损失。
上述第一阶段涉及调用文档处理模型进行情感句预测的过程,第二阶段涉及调用文档处理模型基于给定的标注情感句进行原因句预测的过程,这两个过程的执行过程是类似的,本申请实施例中重点介绍调用文档处理模型进行情感句预测的过程,调用文档处理模型基于给定标注情感句进行原因句预测的过程,可参见调用文档处理模型进行情感句预测的过程,本申请实施例便不再赘述。
在对文档处理模型的情感句预测过程进行介绍之前,在此先结合图5对文档处理模型的结构进行介绍:文档处理模型可以包括语言编码模块、向量聚合模块、上下文特征提取模块以及二分类模块;其中,语言编码模块可以用于对语句中的每个单词(token)进行向量编码,得到语句中的各个单词的向量表示,语言编码模块可以是采用BERT模型(一种预训练语言模型)实现单词的向量编码的;向量聚合模块可以用于对语句中的各个单词的向量表示进行向量聚合处理,得到语句的向量表示,向量聚合模块可以是采用Attention机制(注意力机制)实现向量聚合处理的;上下文特征提取模块可以用于提取语句的上下文特征,上下文特征提取模块可以是通过多个LSTM(Long Short-Term Memory,长短期记忆网络)子模块交互实现的;二分类模块可以用于将查询语句的上下文特征分别与样本文档中的各个文档语句的上下文特征进行拼接,然后,可以用于基于样本文档中的各个文档语句的拼接上下文特征对各个文档语句进行情感句预测,得到各个文档语句的情感预测概率。
在对文档处理模型的结构进行介绍后,下面结合图5对调用文档处理模型,基于情感查询语句对样本文档中的每个文档语句进行情感句预测的过程进行介绍,具体可参见如下内容:
①语言编码模块:
可以调用文档处理模型的语言编码模块对情感查询语句中的每个单词进行向量编码,得到情感查询语句中的各个单词的向量表示;如图5中的qm表示情感查询语句中的第m个单词。样本文档中的各个文档语句与情感查询语句的处理方式类似,针对样本文档中的各个文档语句,可以调用文档处理模型的语言编码模块对文档语句中的每个单词进行向量编码,得到文档语句中的各个单词的向量表示;如图5中的表示样本文档中的第i个文档语句中的第j个单词。
需要补充说明的是,如图5所示,还可以在语句的首位和/或末位添加特殊符号参与向量编码,例如,添加在语句首位的特殊符号为[CLS],添加在语句末位的特殊符号为[SEP];添加特殊符号后,需要对情感查询语句中的每个单词以及情感查询语句的特殊符号进行向量编码,需要对文档语句中的每个单词以及文档语句的特殊符号进行向量编码。
②向量聚合模块:
可以调用文档处理模型的向量聚合模块对情感查询语句中的各个单词的向量表示进行向量聚合处理,得到情感查询语句的向量表示;样本文档中的各个文档语句与情感查询语句的处理方式类似,针对样本文档中的各个文档语句,可以调用文档处理模型的向量聚合模块对文档语句的各个单词的向量表示进行向量聚合处理,得到文档语句的向量表示。以文档语句为例,文档语句的向量集合处理方式可参见如下公式4和公式5:
在上述公式4中:hi表示样本文档中的第i个文档语句的向量表示;表示第i个文档语句中的第j个单词的向量表示;/>表示第i个文档语句中的第j个单词的聚合权重;上述公式4表明,第i个文档语句的向量表示,是采用第i个文档语句中的各个单词的聚合权重,对第i个文档语句中的各个单词的向量表示进行加权求和的结果。在上述公式5中:wt表示任意的初始权重;上述公式5是第i个文档语句中的第j个单词的聚合权重的计算过程,第i个文档语句中的第j个单词的聚合权重可以等于,第i个文档语句中的第j个单词的向量表示,在第i个文档语句的各个单词的向量表示和中的占比。
需要补充说明的是,对于在语句的首位和/或末位添加特殊符号的情况,情感查询语句的向量表示可以是对情感查询语句中的各个单词的向量表示,以及添加的特殊符号的向量表示进行向量聚合处理的结果;文档语句的向量表示可以是对文档语句中的各个单词的向量表示,以及添加的特殊符号的向量表示进行向量聚合处理的结果。
③上下文特征提取模块:
可以调用文档处理模型的上下文特征提取模块对情感查询语句的向量表示进行上下文特征提取,得到情感查询语句的上下文特征。样本文档中的各个文档语句与情感查询语句的处理方式类似,针对样本文档中的各个文档语句,可以调用文档处理模型的上下文特征提取模块,分别对样本文档中的各个文档语句的向量表示进行上下文特征提取,得到各个文档语句的上下文特征。
④二分类模块:
可以调用文档处理模型的二分类模块,将情感查询语句的上下文特征,分别与各个文档语句的上下文特征进行拼接处理,得到各个文档语句的拼接上下文特征,然后可以基于每个文档语句的拼接上下文特征,对相应文档语句进行情感句预测,得到样本文档中的各个文档语句的情感预测概率。
S403,调用文档处理模型按照第二方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第二方向上的处理损失。
步骤S403中,可以调用文档处理模型按照第二方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第二方向上的处理损失,第二方向可以是指以原因句为依据提取情感原因对的方向,即从原因句到情感句的方向。
按照第一方向提取情感原因对的过程,与按照第二方向提取情感原因对的过程是类似的,调用文档处理模型按照第二方向从样本文档中提取情感原因对可以包括两个阶段:第一阶段为从样本文档中提取原因句的阶段,即调用文档处理模型,对样本文档进行原因句预测的阶段;第二阶段为给定标注原因句,从样本文档中提取标注原因句对应的情感句的阶段,即调用文档处理模型,基于标注原因句对样本文档进行情感句预测的阶段,标注原因句是指样本文档中的正确原因句。并且,每个阶段分别对应各自的损失,第一阶段对应的损失为原因句预测损失,即调用文档处理模型,对样本文档进行原因句预测所产生的损失为原因句预测损失,第二阶段对应的损失为情感句预测损失,即调用文档处理模型,基于标注原因句对样本文档进行情感句预测所产生的损失为情感句预测损失;第一阶段的原因句预测损失和第二阶段的情感句预测损失,共同构成了文档处理模型在第二方向上的处理损失,文档处理模型在第二方向上的处理损失,可以是对第一阶段的原因句预测损失和第二阶段的情感句预测损失进行求和处理得到的。
第二方向的两个阶段与第一方向的两个阶段类似,下面分别对第二方向的两个阶段进行简要介绍:
(1)第二方向的第一阶段:
第一阶段为原因句提取阶段。在第一阶段中,可以获取原因查询语句(CauseExtraction Query),调用文档处理模型,基于原因查询语句对样本文档中的每个文档语句进行原因句预测,得到样本文档中的各个文档语句的原因预测概率,然后,可以根据各个文档语句的原因分类类型和原因预测概率,计算原因句预测损失。其中,文档语句的原因预测概率可以包括:文档语句被预测为原因句的概率,以及文档语句被预测为非原因句的概率;在计算原因句预测损失时,若文档语句的原因分类类型为原因句,即若文档语句的原因标签为原因句标签(例如可以是“1”),则可以采用文档语句被预测为原因句的概率计算原因句预测损失;若文档语句的原因分类类型为非原因句,即若文档语句的原因标签为非原因句标签(例如可以是“0”),则可以采用文档语句被预测为非原因句的概率计算原因句预测损失。
(2)第二方向的第二阶段:
第二阶段为给定原因句的情感句提取阶段。在第二阶段中,给定了标注原因句,可以生成标注原因句对应的情感查询语句(Cause-Specific Emotion Extr action Query),与第一阶段类似,可以调用文档处理模型,基于标注原因句对应的情感查询语句,对样本文档中的每个文档语句进行情感句预测,得到样本文档中的各个文档语句的情感预测概率,然后,可以根据各个文档语句在标注原因句下的情感分类类型和情感预测概率,计算情感句预测损失。其中,文档语句在标注原因句下的情感预测概率可以包括:文档语句被预测为标注原因句对应的情感句的概率,以及文档语句被预测为标注原因句对应的非情感句的概率;在计算情感句预测损失时,若文档语句在标注原因句下的情感分类类型为情感句,即若文档语句在标注原因句下的情感标签为情感句标签(例如可以是“1”),则可以采用文档语句被预测为标注原因句对应的情感句的概率,计算情感句预测损失;若文档语句在标注原因句下的情感分类类型为非情感句,即若文档语句在标注原因句下的情感标签为非情感句标签(例如可以是“0”),则可以采用文档语句被预测为标注原因句对应的非情感句的概率,计算情感句预测损失。
需要说明的是,第二阶段给定的标注原因句的数量可以为一个或多个,当标注原因句的数量为多个时,需要针对每个标注原因句均进行一次情感句提取,产生每个标注原因句对应的情感句预测损失,第二阶段的情感句预测损失可以是第二阶段给定的各个标注原因句对应的情感句预测损失之和。
基于上述第二方向的两个阶段,文档处理模型在第二方向上的处理损失,可以是对第二方向的第一阶段的原因句预测损失,和第二方向的第二阶段的情感句预测损失进行求和处理得到的。需要说明的是,步骤S403中调用文档处理模型进行情感句预测以及原因句预测的过程,与上述步骤S402中调用文档处理模型进行情感句预测以及原因句预测的过程类似,具体可参见上述步骤S402中的描述,本申请实施例对此不再赘述。
S404,基于第一方向上的处理损失和第二方向上的处理损失,对文档处理模型进行训练。
由上述步骤S402和步骤S403中的内容可知,在模型训练过程中,可以基于给定的标注情感句提取对应的原因句,基于给定的标注原因句提取对应的情感句;但是,在模型测试过程中,不存在给定的标注情感句和给定的标注原因句,而是基于第一阶段提取到的情感句查询对应的原因句,或是基于第一阶段提取到的原因句,查询对应的情感句,这就导致模型训练过程与模型测试过程是不一致的。为了保证模型训练过程与模型预测过程的一致性,本申请实施例从样本文档中按照一定的概率随机采样非情感句和非原因句,非情感句可以用于模拟文档处理模型在测试过程中提取了错误情感句的情况,非原因句可以用于模拟文档处理模型在测试过程中提取了错误原因句的情况,从而,可以通过提取非情感句对应的情感原因对所产生的损失,以及通过提取非原因句对应的情感原因对所产生的损失,结合第一方向上的处理损失和第二方向上的处理损失,对文档处理模型进行训练。具体来说:
(1)对于非情感句,可以调用文档处理模型从样本文档中提取非情感句对应的情感原因对,并在情感原因对的提取过程中,获取文档处理模型针对非情感句的测试模拟损失。具体来说,可以生成非情感句对应的原因查询语句,然后,可以调用文档处理模型,基于非情感句对应的原因查询语句,对样本文档中的各个文档语句进行原因句预测,得到样本文档中的各个文档语句在非情感句下的原因预测概率,然后,可以根据各个文档语句在非情感句下的原因分类类型和原因预测概率,计算文档处理模型针对非情感句的测试模拟损失。
其中,文档语句在非情感句下的原因预测概率可以包括:文档语句被预测为非情感句对应的原因句的概率,以及文档语句被预测为非情感句对应的非原因句的概率;在计算非情感句的测试模拟损失时,若文档语句在非情感句下的原因分类类型为原因句,即若文档语句在非情感句下的原因标签为原因句标签(例如可以是“1”),则可以采用文档语句被预测为非情感句对应的原因句的概率,计算非情感句的测试模拟损失;若文档语句在非情感句下的原因分类类型为非原因句,即若文档语句在非情感句下的原因标签为非原因句标签(例如可以是“0”),则可以采用文档语句被预测为非情感句对应的非原因句的概率,计算非情感句的测试模拟损失。理论上讲,非情感句是不存在原因句的,因此,样本文档中的各个文档语句在非情感句下的原因分类类型应该均为非原因句,即样本文档中的各个文档语句在非情感句下的原因标签应该均为非原因句标签(例如可以是“0”),从而,可以采用样本文档中的各个文档语句被预测为非情感句对应的非原因句的概率,计算非情感句的测试模拟损失。
需要说明的是,从样本文档中随机采样的非情感句的数量可以为一个或多个,当非情感句的数量为多个时,需要针对每个非情感句均进行一次原因句提取,产生每个非情感句对应的测试模拟损失,并计算各个非情感句对应的模拟测试损失之和。非情感句的测试模拟损失的计算过程可参见下述公式6:
在上述公式6中:LCON1表示非情感句的测试模拟损失;N表示样本文档中包含的文档语句的数量,N为大于1的整数;L′e表示从样本文档中采样的非情感句集合,非情感句集合中可以包括一个或多个非情感句;cj表示非情感句集合中的第j个非情感句;表示样本文档中的第i个文档语句在第j个非情感句下的原因标签,即第i个文档语句在第j个非情感句下的原因分类类型,i为小于或等于N的正整数;/>表示第i个文档语句在第j个非情感句下的原因预测概率。
(2)对于非原因句:与非情感句的情况类似,可以调用文档处理模型从样本文档中提取非原因句对应的情感原因对,并在情感原因对的提取过程中,获取文档处理模型针对非原因句的测试模拟损失,具体来说,可以生成非原因句对应的情感查询语句,然后,可以调用文档处理模型,基于非原因句对应的情感查询语句,对样本文档中的各个文档语句进行情感句预测,得到样本文档中的各个文档语句在非原因句下的情感预测概率,然后,可以根据各个文档语句在非原因句下的情感分类类型和情感预测概率,计算文档处理模型针对非原因句的测试模拟损失。
其中,文档语句在非原因句下的情感预测概率可以包括:文档语句被预测为非原因句对应的情感句的概率,以及文档语句被预测为非原因句对应的非情感句的概率;在计算非原因句的测试模拟损失时,若文档语句在非原因句下的情感分类类型为情感句,即若文档语句在非原因句下的情感标签为情感句标签(例如可以是“1”),则可以采用文档语句被预测为非原因句对应的情感句的概率,计算非原因句的测试模拟损失;若文档语句在非原因句下的情感分类类型为非情感句,即若文档语句在非原因句下的情感标签为非情感句标签(例如可以是“0”),则可以采用文档语句被预测为非原因句对应的非情感句的概率,计算非原因句的测试模拟损失。理论上讲,非原因句是不存在情感句的,因此,样本文档中的各个文档语句在非原因句下的情感分类类型应该均为非情感句,即样本文档中的各个文档语句在非原因句下的情感标签应该均为非情感句标签(例如可以是“0”),从而,可以采用样本文档中的各个文档语句被预测为非原因句对应的非情感句的概率,计算非原因句的测试模拟损失。
需要说明的是,从样本文档中随机采样的非原因句的数量可以为一个或多个,当非原因句的数量为多个时,需要针对每个非原因句均进行一次情感句提取,产生每个非原因句对应的测试模拟损失,并计算各个非原因句对应的模拟测试损失之和。非原因句的测试模拟损失的计算过程可参见下述公式7:
在上述公式7中:LCON2表示非原因句的测试模拟损失;N表示样本文档中包含的文档语句的数量,N为大于1的整数;L′c表示从样本文档中采样的非原因句集合,非原因句集合中可以包括一个或多个非原因句;cj表示非原因句集合中的第j个非原因句;表示样本文档中的第i个文档语句在第j个非原因句下的情感标签,即第i个文档语句在第j个非原因句下的情感分类类型,i为小于或等于N的正整数;/>表示第i个文档语句在第j个非原因句下的情感预测概率。
基于上述非情感句的测试模拟损失和非原因句的测试模拟损失,模拟测试场景的处理损失(也可以称为一致性损失)可以是根据非情感句的测试模拟损失,以及非原因句的测试模拟损失共同确定的,模拟测试场景的处理损失可以等于,非情感句的测试模拟损失与非原因句的测试模拟损失之和,具体可参见下述公式8:
在上述公式8中:LCON表示模拟测试场景的处理损失;LCON1表示非情感句的测试模拟损失;LCON2表示非原因句的测试模拟损失。
基于上述关于模拟测试场景的处理损失的内容,在步骤S404中,可以根据第一方向上的处理损失,第二方向上的处理损失,以及模拟测试场景的处理损失(包括非情感句的测试模拟损失和非情感句的测试模拟损失),对文档处理模型进行训练。具体来说,可以根据第一方向上的处理损失,第二方向上的处理损失,确定双向损失,双向损失可以等于,第一方向上的处理损失与第二方向上的处理损失之和;然后,可以根据双向损失和模拟测试场景的处理损失,确定文档处理模型的损失信息。具体可参见下述公式9和公式10:
LDUAL=LEC+LCE 公式9
L=LDUAL+LCON 公式10
上述公式9为双向损失的计算过程,LDUAL表示双向损失,LEC表示第一方向上的处理损失,LVE表示第二方向上的处理损失。上述公式10为文档处理模型的损失信息的计算过程,L表示文档处理模型的损失信息,LDUAL表示双向损失,LCON表示模拟测试场景的处理损失。
在确定文档处理模型的损失信息之后,可以按照减小损失信息的方向,优化文档处理模型的模型参数,以训练文档处理模型。需要说明的是,“按照减小损失信息的方向”是指:以最小化损失信息为目标的模型优化方向;通过此方向进行模型优化,使得文档处理模型在优化后所产生的损失信息,需小于文档处理在优化前所产生的损失信息。例如,本次计算得到的文档处理模型的损失信息为0.85,那么通过按照减小损失信息的方向优化文档处理模型后,通过优化后的文档处理模型所产生的损失信息应小于0.85。
需要说明的是,步骤S404中调用文档处理模型进行情感句预测以及原因句预测的过程,与上述步骤S402中调用文档处理模型进行情感句预测以及原因句预测的过程类似,具体可参见上述步骤S402中的描述,本申请实施例对此不再赘述。
以上步骤S401-步骤S404以一个样本文档为例介绍了文档处理模型的一次训练过程,在文档处理模型的实际训练过程中,需要不断地从获取样本文档对文档处理模型进行训练,每训练一次,对文档处理模型的模型参数优化一次,若经多次优化后文档处理模型所产生的损失信息小于损失阈值,则可以确定文档处理模型的训练过程结束,可以将最后一次优化得到的文档处理模型确定为训练好的文档处理模型,训练好的文档处理模型用于分别按照第一方向和第二方向进行情感原因对的提取。
本申请实施例中,提出提取情感原因对的两个方向,两个方向包括第一方向和第二方向,通过调用文档处理模型按照两个方向,从样本文档中提取情感原因对所产生的处理损失,对文档处理模型进行训练,可以提升文档处理模型的训练效果,从而可以提升文档处理模型提取情感原因对的准确率。并且,本申请实施例在进行模型训练时考虑了模型训练与模型测试存在不一致的环节,并基于此环节设计了一致性损失对文档处理模型进行训练,这样可以使得文档处理模型能够更好地为模型应用过程服务,进一步提升文档处理模型的训练效果,以及文档处理模型提取情感原因对的准确率。
本申请实施例提供一种文档处理方法,该文档处理方法主要介绍文档处理模型的测试(应用)过程。该文档处理方法可以由计算机设备执行,计算机设备可以是上述文档处理***中服务器301或终端设备302。如图6所示,该文档处理方法可以包括但不限于以下步骤S601-步骤S608:
S601,获取用于对文档处理模型进行训练的样本文档。
S602,调用文档处理模型按照第一方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第一方向上的处理损失。
S603,调用文档处理模型按照第二方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第二方向上的处理损失。
S604,基于第一方向上的处理损失和第二方向上的处理损失,对文档处理模型进行训练。
本申请实施例中步骤S601-步骤S604涉及模型训练过程的相关内容,模型训练过程的相关内容具体可以参见上述图4所示实施例的描述,本申请实施例不再赘述。
S605,获取待处理的目标文档。
目标文档是待提取情感原因对的文档,目标文档中可以包括多个文档语句。与模型训练过程类似,在模型应用过程中,当需要从目标文档中提取情感原因对时,可以先分别按照两个方向(即第一方向和第二方向)从目标文档中提取情感原因对,然后再按照推断策略,从第一方向的情感原因对和第二方向的情感原因对中确定出最终的目标文档的情感原因对。下面结合步骤S606描述按照第一方向从目标文档中提取情感原因对的过程,结合步骤S607描述按照第二方向从目标文档中提取情感原因对的过程,以及结合步骤S608描述从两个方向的情感原因对中确定出最终的目标文档的情感原因对的过程。
S606,调用训练好的文档处理模型,按照所第一方向从目标文档中提取情感原因对,得到第一情感原因对集合。
调用训练好的文档处理模型,按照第一方向从目标文档中提取情感原因对,具体可以包括两个阶段:
第一方向的第一阶段为从目标文档中提取情感句的阶段。具体来说,可以调用训练好的文档处理模型对目标文档中的每个文档语句进行情感句预测,得到目标文档中的预测情感句;调用训练好的文档处理模型对目标文档中的每个文档语句进行情感句预测的过程,与模型训练过程中,调用文档处理模型对样本文档中的每个文档语句进行情感句预测的过程类似,都需要获取情感查询语句,对情感查询语句和样本文档中的各个文档语句进行向量表示、进行上下文特征提取、以及将情感查询语句的上下文特征分别与样本文档中的各个文档语句进行拼接处理,具体可以参见上述图4所示实施例的相关描述。
在此重点介绍模型应用过程与模型训练过程的区别:基于每个文档语句的拼接上下文特征,对相应文档语句进行情感句预测,可以得到目标文档中的各个文档语句的情感预测概率,文档语句的情感预测概率可以包括:文档语句被预测为情感句的概率和文档语句被预测为非情感句的概率;若文档语句被预测为情感句的概率大于文档语句被预测为非情感句的概率,则可以认定文档语句为预测情感句,在此情况下,文档语句被预测为情感句的概率,可以称为预测情感句的情感预测概率;若文档语句被预测为情感句的概率小于或等于文档语句被预测为非情感句的概率,则可以认定文档语句为预测非情感句。
第一方向的第二阶段为从目标文档中提取预测情感句对应的预测原因句的阶段。具体来说,可以调用训练好的文档处理模型,基于预测情感句对目标文档中的各个文档语句进行原因句预测,得到预测情感句对应的预测原因句;调用训练好的文档处理模型,基于预测情感句对目标文档中的各个文档语句进行原因句预测的过程,与模型训练过程中,调用文档处理模型,基于给定的标注情感句对样本文档中的各个文档语句进行原因句预测的过程类似,都需要生成相应的查询语句(模型应用阶段中生成预测情感句对应的原因查询语句),对原因查询语句和样本文档中的各个文档语句进行向量表示、进行上下文特征提取、以及将原因查询语句的上下文特征分别与样本文档中的各个文档语句进行拼接处理,具体可以参见上述图4所示实施例的相关描述。
在此重点介绍模型训练过程与模型应用过程中的区别:基于每个文档语句的拼接上下文特征,对相应文档语句进行原因句预测,可以得到目标文档中的各个文档语句在预测情感句下的原因预测概率,文档语句在预测情感句下的原因预测概率可以包括:文档语句被预测为预测情感句对应的原因句的概率和文档语句被预测为预测情感句对应的非原因句的概率;若文档语句被预测为预测情感句对应的原因句的概率大于文档语句被预测为预测情感句对应的非原因句的概率,则可以认定文档语句为预测情感句对应的预测原因句,在此情况下,文档语句被预测为预测情感句对应的原因句的概率,可以称为预测原因句的原因预测概率;若文档语句被预测为预测情感句对应的原因句的概率小于或等于文档语句被预测为预测情感句对应的非原因句的概率,则可以认定文档语句为预测情感句对应的预测非原因句。
需要说明的是,第一方向的第一阶段预测得到的预测情感句的数量可以为一个或多个,当个预测情感句的数量为多个时,需要对每个预测情感句均进行原因句预测,得到每个预测情感句各自对应的预测原因句。从而,可以将预测情感句与预测情感句对应的预测原因句进行组合,得到第一情感原因对集合,第一情感原因对集合中可以包括一个或多个情感原因对。
S607,调用所训练好的文档处理模型,按照第二方向从目标文档中提取情感原因对,得到第二情感原因对集合;
与第一方向类似,调用训练好的文档处理模型,按照第二方向从目标文档中提取情感原因对,具体可以包括两个阶段:
第二方向的第一阶段为从目标文档中提取原因句的阶段。具体来说,可以调用训练好的文档处理模型对目标文档中的每个文档语句进行原因句预测,得到目标文档中的预测原因句;调用训练好的文档处理模型对目标文档中的每个文档语句进行原因句预测的过程,与模型训练过程中,调用文档处理模型对样本文档中的每个文档语句进行原因句预测的过程类似,都需要获取原因查询语句,对原因查询语句和样本文档中的各个文档语句进行向量表示、进行上下文特征提取、以及将原因查询语句的上下文特征分别与样本文档中的各个文档语句进行拼接处理,具体可以参见上述图4所示实施例的相关描述。
在此重点介绍模型应用过程与模型训练过程的区别:基于每个文档语句的拼接上下文特征,对相应文档语句进行原因句预测,可以得到目标文档中的各个文档语句的原因预测概率,文档语句的原因预测概率可以包括:文档语句被预测为原因句的概率和文档语句被预测为非原因句的概率;若文档语句被预测为原因句的概率大于文档语句被预测为非原因句的概率,则可以认定文档语句为预测原因句,在此情况下,文档语句被预测为原因句的概率,可以称为预测原因句的原因预测概率;若文档语句被预测为原因句的概率小于或等于文档语句被预测为非原因句的概率,则可以认定文档语句为预测非原因句。
第二方向的第二阶段为从目标文档中提取预测原因句对应的预测情感句的阶段。具体来说,可以调用训练好的文档处理模型,基于预测原因句对目标文档中的各个文档语句进行情感句预测,得到预测原因句对应的预测情感句;调用训练好的文档处理模型,基于预测原因句对目标文档中的各个文档语句进行情感句预测的过程,与模型训练过程中,调用文档处理模型,基于给定的标注原因句对样本文档中的各个文档语句进行情感句预测的过程类似,都需要生成相应的查询语句(模型应用阶段中生成预测原因句对应的情感查询语句),对情感查询语句和样本文档中的各个文档语句进行向量表示、进行上下文特征提取、以及将情感查询语句的上下文特征分别与样本文档中的各个文档语句进行拼接处理,具体可以参见上述图4所示实施例的相关描述。
在此重点介绍模型训练过程与模型应用过程中的区别:基于每个文档语句的拼接上下文特征,对相应文档语句进行情感句预测,可以得到目标文档中的各个文档语句在预测原因句下的情感预测概率,文档语句在预测原因句下的情感预测概率可以包括:文档语句被预测为预测原因句对应的情感句的概率和文档语句被预测为预测原因句对应的非情感句的概率;若文档语句被预测为预测原因句对应的情感句的概率大于文档语句被预测为预测原因句对应的非情感句的概率,则可以认定文档语句为预测原因句对应的预测情感句,在此情况下,文档语句被预测为预测原因句对应的情感句的概率,可以称为预测情感句的情感预测概率;若文档语句被预测为预测原因句对应的情感句的概率小于或等于文档语句被预测为预测原因句对应的非情感句的概率,则可以认定文档语句为预测原因句对应的预测非情感句。
需要说明的是,第二方向的第一阶段预测得到的预测原因句的数量可以为一个或多个,当个预测原因句的数量为多个时,需要对每个预测情感原因句均进行情感句预测,得到每个预测原因句各自对应的预测情感句。从而,可以将预测原因句与预测原因句对应的预测情感句进行组合,得到第二情感原因对集合,第二情感原因对集合中可以包括一个或多个情感原因对。
S608,在第一情感原因对集合和第二情感原因对集合中,确定目标文档对应的情感原因对。
在第一情感原因对集合和第二情感原因对集合中,确定目标文档对应的情感原因对,可以是按照推断策略进行的,推断策略可以包括以下任一种:交集策略、并集策略、互补策略、以及调和策略。下面分别对以上推断四种策略进行介绍:
(1)交集策略:
交集策略具体可以是指:将第一情感原因对集合与第二情感原因对集合的交集,作为目标文档对应的情感原因对,即可以将第一情感原因对集合和第二情感原因对集合中共同存在的公共情感原因对,确定为目标文档对应的情感原因对。如图7a所示,第一情感原因对集合中包括情感原因对A,情感原因对B和情感原因对E,第二情感原因对集合中包括情感原因对B,情感原因对C和情感原因对D,第一情感原因对集合与第二情感原因对集合的交集为情感原因对B,则可以将情感原因对B确定为目标文档对应的情感原因对。
(2)并集策略:
并集策略具体可以是指:将第一情感原因对集合与第二情感原因对集合的并集,作为目标文档对应的情感原因对,即可以将第一情感原因对集合和第二情感原因对集合中的情感原因对,均确定为目标文档对应的情感原因对。如图7b所示,第一情感原因对集合中包括情感原因对A,情感原因对B和情感原因对E,第二情感原因对集合中包括情感原因对B,情感原因对C和情感原因对D,可以将情感原因对A-情感原因对E共5个情感原因对,均确定为目标文档对应的情感原因对。
在介绍互补策略和调和策略之前,在此先介绍置信度的概念,本申请实施例涉及的置信度可以包括:情感原因对集合的置信度和情感原因对的置信度。
其中:
情感原因对的置信度是指预测的情感原因对为正确的情感原因对的可信程度,情感原因对的置信度越高,可以表明预测的情感原因对为正确的情感原因对的可信程度越高;情感原因对的置信度可以是根据组成情感原因对的预测情感句的情感预测概率,和/或预测原因句的原因预测概率确定的,例如,可以将预测情感句的情感预测概率作为情感原因对的置信度,或者,可以将预测原因句的原因预测概率作为情感原因对的置信度,或者,可以将预测情感句的情感预测概率与预测原因句的原因预测概率之和,作为情感原因对的置信度,或者,可以将预测情感句的情感预测概率与预测原因句的原因预测概率之间的乘积,作为情感原因对的置信度,等等。
情感预测对集合的置信度是指:情感原因对集合的可信程度,情感原因对集合的置信度越高,可以表明情感原因对集合的可信程度越高。情感原因对集合的置信度,可以是根据情感原因对集合中的所有情感原因对的置信度确定的,例如,可以将第一情感原因对集合中的的所有情感原因对的置信度之和,确定为第一情感原因对集合中的置信度。
基于上述置信度的概念,下面对互补策略和调和策略进行介绍:
(3)互补策略:
互补策略是指:将可信方向对应的情感原因对集合(即可信情感原因对集合)中的全部情感原因对,确定为目标文档对应的情感原因对,将不可信方向对应的情感原因对集合(即不可信情感原因对集合)中置信度高的情感原因对,确定为目标文档对应的情感原因对。具体来说,可以在第一情感原因对集合和第二情感原因对集合中,确定可信情感原因对集合和不可信情感原因对集合;可信情感原因对集合和不可信情感原因对集合可以是随机确定的,或者可以是指定的,例如,指定第一方向上的第一情感原因对集合为可信情感原因对集合,指定第二方向上的第二情感原因对集合为不可信情感原因对集合,或者,可以根据情感原因对集合对应的置信度确定的,例如,可以将置信度高的情感原因对集合确定为可信情感原因对集合。然后,可以将可信情感原因对集合中的所有情感原因对,确定为目标文档对应的情感原因对,将不可信情感原因对集合中,置信度大于置信度阈值的情感原因对,确定为目标文档对应的情感原因对。
如图7c所示,第一情感原因对集合中包括情感原因对A(置信度0.9),情感原因对B(置信度0.8)和情感原因对E(置信度0.7),第二情感原因对集合中包括情感原因对B(置信度0.8),情感原因对C(置信度0.7)和情感原因对D(0.6);第一情感原因对集合的置信度高于第二情感原因对集合的置信度,可以将第一情感原因对集合作为可信情感原因对集合,第二情感原因对集合作为不可信情感原因对集合;从而,可以将可信情感原因对集合中全部情感原因对(即情感原因对A,情感原因对B和情感原因对E)均确定为目标文档对应的情感原因对,可以将不可信情感原因对集合中置信度大于置信度阈值(0.6)的情感原因对B和情感原因对C,确定为目标文档对应的情感原因对。
(4)调和策略:
调和策略是指:将第一情感原因对集合和第二情感原因对集合中共同存在的公共情感原因对,确定为目标文档对应的情感原因对,而对于第一情感原因对集合和第二情感原因对集合中的非公共情感原因对(例如只存在于第一情感原因对集合的情感原因对,或只存在于第二情感原因对集合的情感原因对),将置信度高于置信度阈值的非公共情感原因对,确定为目标文档对应的情感原因对。具体来说,目标情感原因可以对是第一情感原因对集合和第二情感原因对集合中的任一个情感原因对;若第一情感原因对集合和第二情感原因对集合中均包含目标情感原因对,即目标情感原因对是公共情感原因对,则可以将目标情感原因对确定为目标文档对应的情感原因对;若第一情感原因对集合或第二情感原因对集合中包含目标情感原因对,即目标情感原因对不是公共情感原因对,则可以将目标情感原因对的置信度与置信度阈值进行比较,若目标情感原因对的置信度大于置信度阈值,则可以将目标情感原因对确定为目标文档对应的情感原因对。
举例来说,如图7d所示,第一情感原因对集合中包括情感原因对A(置信度0.9),情感原因对B(置信度0.8)和情感原因对E(置信度0.7),第二情感原因对集合中包括情感原因对B(置信度0.8),情感原因对C(置信度0.7)和情感原因对D(0.6);情感原因对B为第一情感原因对集合和第二情感原因对集合中的公共情感原因对,可以将情感原因对B确定为目标文档对应的情感原因对;而对于非公共情感原因对(包括情感原因对A,情感原因对E、情感原因对C和情感原因对D),可以将置信度大于置信度阈值(0.6)的情感原因对A、情感原因对E和情感原因对C,确定为目标文档对应的情感原因对。
以上交集策略将两个方向预测的公共情感原因对确定为目标文档的情感原因对;并集策略将两个方向预测的公共情感原因对均确定为目标文档的情感原因对;互补策略在考虑一个方向可信的情况下,将可信方向预测的全部情感原因对确定为目标文档最终的情感原因对,以及将不可信方向预测的置信度大于置信度阈值的情感原因对确定为目标文档的情感原因对;调和策略将两个方向预测的公共情感原因对确定为目标文档的情感原因对,以及将非公共情感原因对中置信度大于置信度阈值的情感原因对确定为目标文档的情感原因对;通过推断策略,对两个方向预测的情感原因对进行进一步地选择,有利于提升文档处理模型提取情感原因对的准确率。
图8示出了模型应用过程的一个具体示例:目标文档中包括5个文档语句。在第一方向的第一阶段中,基于情感查询语句“找到情感句”提取的预测情感句为文档语句c2和文档语句c5;在第一方向的第二阶段,基于文档语句c2对应的原因查询语句“找到情感句c2对应的原因句”提取的预测原因句为文档语句c2,基于文档语句c5对应的原因查询语句“找到情感句c5对应的原因句”提取的预测原因句为文档语句c4;从而,在第一方向上提取到的第一情感原因对集合包括:情感原因对(c2,c2)和情感原因对(c5,c4)。在第二方向的第一阶段中,基于原因查询语句“找到原因句”提取的预测原因句为文档语句c2和文档语句c4;在第二方向的第二阶段,基于文档语句c2对应的情感查询语句“找到原因句c2对应的情感句”提取的预测情感句为文档语句c2,基于文档语句c4对应的情感查询语句“找到原因句c4对应的情感句”提取的预测情感句为文档语句c5;从而,在第一方向上提取到的第二情感原因对集合包括:情感原因对(c2,c2)和情感原因对(c5,c4)。第一情感原因对集合和第二情感原因对集合中包含的情感原因对相同,因此,采用交集策略或并集策略确定出的目标文档对应的情感原因对均为情感原因对(c2,c2)和情感原因对(c5,c4)。
本申请实施例中,模型应用过程考虑了提取情感原因对的两个方向,最后从两个方向的提取结果中按照推断策略确定最终的情感原因对,推断策略考虑了两个方向中的公共情感原因对,情感原因对的置信度、或两个方向的置信度等因素,这样可以使得确定的目标文档的情感原因对的可信度更高,大大提升了文档处理模型提取情感原因对的准确率。
上述详细阐述了本申请实施例的方法,为了便于更好地实施本申请实施例的上述方案,相应地,下面提供了本申请实施例的装置。
请参见图9,图9是本申请实施例提供的一种文档处理装置的结构示意图,该文档处理装置可以设置于本申请实施例提供的计算机设备中,计算机设备可以是上述方法实施例中提及的服务器301或终端设备302。图9所示的文档处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),该文档处理装置可以用于执行图4或图6所示的方法实施例中的部分或全部步骤。请参见图9,该文档处理装置可以包括如下单元:
获取单元901,用于获取用于对文档处理模型进行训练的样本文档;
处理单元902,用于调用文档处理模型按照第一方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第一方向上的处理损失;情感原因对是指由一个情感句和一个原因句组成的语句对;第一方向是指以情感句为依据提取情感原因对的方向;
处理单元902,还用于调用文档处理模型按照第二方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第二方向上的处理损失;第二方向是指以原因句为依据提取情感原因对的方向;
处理单元902,还用于基于第一方向上的处理损失和第二方向上的处理损失,对文档处理模型进行训练;训练好的文档处理模型用于分别按照第一方向和第二方向进行情感原因对的提取。
在一种实现方式中,处理单元902,用于调用文档处理模型按照第一方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第一方向上的处理损失时,具体用于执行如下步骤:
调用文档处理模型,对样本文档进行情感句预测,并获取情感句预测所产生情感句预测损失;
调用文档处理模型,基于标注情感句对样本文档进行原因句预测,并获取原因句预测所产生原因句预测损失;
对情感句预测损失和原因句预测损失进行求和处理,得到文档处理模型在第一方向上的处理损失。
在一种实现方式中,样本文档包括多个文档语句;处理单元902,用于调用文档处理模型,对样本文档进行情感句预测,并获取情感句预测所产生情感句预测损失时,具体用于执行如下步骤:
获取情感查询语句;
调用文档处理模型,基于情感查询语句对样本文档中的每个文档语句进行情感句预测,得到样本文档中的各个文档语句的情感预测概率;
根据各个文档语句的情感分类类型和情感预测概率,计算情感句预测损失。
在一种实现方式中,处理单元902,用于调用文档处理模型,基于情感查询语句对样本文档中的每个文档语句进行情感句预测,得到样本文档中的各个文档语句的情感预测概率时,具体用于执行如下步骤:
对情感查询语句进行向量编码,得到情感查询语句的向量表示;以及,分别对样本文档中的各个文档语句进行向量编码,得到各个文档语句的向量表示;
对情感查询语句的向量表示进行上下文特征提取,得到情感查询语句的上下文特征;以及,分别对各个文档语句的向量表示进行上下文特征提取,得到各个文档语句的上下文特征;
将情感查询语句的上下文特征,分别与各个文档语句的上下文特征进行拼接处理,得到各个文档语句的拼接上下文特征;
基于每个文档语句的拼接上下文特征,对相应文档语句进行情感句预测,得到样本文档中的各个文档语句的情感预测概率。
在一种实现方式中,获取单元901,还用于获取样本文档中的非情感句和非原因句;非情感句用于模拟文档处理模型在测试过程中提取了错误情感句的情况,非原因句用于模拟文档处理模型在测试过程中提取了错误原因句的情况;
处理单元902,还用于调用文档处理模型从样本文档中提取非情感句对应的情感原因对,并在情感原因对的提取过程中,获取文档处理模型针对非情感句的测试模拟损失;
处理单元902,还用于调用文档处理模型从样本文档中提取非原因句对应的情感原因对,并在情感原因对的提取过程中,获取文档处理模型针对非原因句的测试模拟损失;
处理单元902,用于基于第一方向上的处理损失和第二方向上的处理损失,对文档处理模型进行训练时,具体用于执行如下步骤:基于第一方向上的处理损失、第二方向上的处理损失、非情感句的测试模拟损失以及非原因句的测试模拟损失,对文档处理模型进行训练。
在一种实现方式中,样本文档包括多个文档语句;处理单元902,用于调用文档处理模型从样本文档中提取非情感句对应的情感原因对,并在情感原因对的提取过程中,获取文档处理模型针对非情感句的测试模拟损失时,具体用于执行如下步骤:
生成非情感句对应的原因查询语句;
调用文档处理模型,基于非情感句对应的原因查询语句,对样本文档中的各个文档语句进行原因句预测,得到样本文档中的各个文档语句在非情感句下的原因预测概率;
根据各个文档语句在非情感句下的原因分类类型和原因预测概率,计算文档处理模型针对非情感句的测试模拟损失。
在一种实现方式中,获取单元901,还用于获取待处理的目标文档;
处理单元902,还用于调用训练好的文档处理模型,按照第一方向从目标文档中提取情感原因对,得到第一情感原因对集合;
处理单元902,还用于调用训练好的文档处理模型,按照第二方向从目标文档中提取情感原因对,得到第二情感原因对集合;
处理单元902,还用于在第一情感原因对集合和第二情感原因对集合中,确定目标文档对应的情感原因对。
在一种实现方式中,目标文档包括多个文档语句;处理单元902,用于调用训练好的文档处理模型,按照第一方向从目标文档中提取情感原因对,得到第一情感原因对集合时,具体用于执行如下步骤:
调用训练好的文档处理模型对目标文档中的每个文档语句进行情感句预测,得到目标文档中的预测情感句;
调用训练好的文档处理模型,基于预测情感句对目标文档中的各个文档语句进行原因句预测,得到预测情感句对应的预测原因句;
将预测情感句与预测情感句对应的预测原因句进行组合,得到第一情感原因对集合。
在一种实现方式中,第一情感原因对集合和第二情感原因对集合中的每个情感原因对分别对应各自的置信度;目标情感原因对是第一情感原因对集合和第二情感原因对集合中的任一个情感原因对;
处理单元902,用于在第一情感原因对集合和第二情感原因对集合中,确定目标文档对应的情感原因对时,具体用于执行如下步骤:
若第一情感原因对集合和第二情感原因对集合中均包含目标情感原因对,则将目标情感原因对确定为目标文档对应的情感原因对;
若第一情感原因对集合或第二情感原因对集合中包含目标情感原因对,则将目标情感原因对的置信度与置信度阈值进行比较;
若目标情感原因对的置信度大于置信度阈值,则将目标情感原因对确定为目标文档对应的情感原因对。
在一种实现方式中,第一情感原因对集合和第二情感原因对集合中的每个情感原因对分别对应各自的置信度;处理单元902,用于在第一情感原因对集合和第二情感原因对集合中,确定目标文档对应的情感原因对时,具体用于执行如下步骤:
在第一情感原因对集合和第二情感原因对集合中,确定可信情感原因对集合和不可信情感原因对集合;
将可信情感原因对集合中的所有情感原因对,确定为目标文档对应的情感原因对;
将不可信情感原因对集合中,置信度大于置信度阈值的情感原因对,确定为目标文档对应的情感原因对。
在一种实现方式中,处理单元902,用于在第一情感原因对集合和第二情感原因对集合中,确定目标文档对应的情感原因对时,具体用于执行如下步骤:
将第一情感原因对集合和第二情感原因对集合中共同存在的公共情感原因对,确定为目标文档对应的情感原因对;或者,
将第一情感原因对集合和第二情感原因对集合中的情感原因对,均确定为目标文档对应的情感原因对。
根据本申请的另一个实施例,图9所示的文档处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,文档处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图4或图6所示的部分或全部方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图9中所示的文档处理装置,以及来实现本申请实施例的文档处理方法。计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
本申请实施例中,提出提取情感原因对的两个方向,两个方向包括第一方向和第二方向,两个方向中的第一方向是指以情感句为依据提取情感原因对的方向,即从情感句到原因句的方向,两个方向中的第二方向是指以原因句为依据提取情感原因对的方向,即从原因句到情感句的方向;通过调用文档处理模型按照两个方向,从样本文档中提取情感原因对所产生的处理损失,对文档处理模型进行训练,可以提升文档处理模型的训练效果,从而可以提升文档处理模型提取情感原因对的准确率。
基于上述方法以及装置实施例,本申请实施例提供了一种计算机设备,该计算机设备可以是前述所提及的服务器301或终端设备302。请参见图10,图10是本申请实施例提供的一种计算机设备的结构示意图。图10所示的计算机设备至少包括处理器1001、输入接口1002、输出接口1003以及计算机可读存储介质1004。其中,处理器1001、输入接口1002、输出接口1003以及计算机可读存储介质1004可通过总线或其他方式连接。
计算机可读存储介质1004可以存储在计算机设备的存储器中,计算机可读存储介质1004用于存储计算机程序,计算机程序包括计算机指令,处理器1001用于执行计算机可读存储介质1004存储的程序指令。处理器1001(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条计算机指令,具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机可读存储介质(Memory),计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了计算机设备的操作***。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或多条的计算机指令,这些计算机指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(Non-VolatileMemory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机可读存储介质。
在一些实施例中,可由处理器1001加载并执行计算机可读存储介质1004中存放的一条或多条计算机指令,以实现上述有关图4或图6所示的文档处理方法的相应步骤。具体实现中,计算机可读存储介质1004中的计算机指令由处理器1001加载并执行如下步骤:
获取用于对文档处理模型进行训练的样本文档;
调用文档处理模型按照第一方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第一方向上的处理损失;情感原因对是指由一个情感句和一个原因句组成的语句对;第一方向是指以情感句为依据提取情感原因对的方向;
调用文档处理模型按照第二方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第二方向上的处理损失;第二方向是指以原因句为依据提取情感原因对的方向;
基于第一方向上的处理损失和第二方向上的处理损失,对文档处理模型进行训练;训练好的文档处理模型用于分别按照第一方向和第二方向进行情感原因对的提取。
在一种实现方式中,计算机可读存储介质1004中的计算机指令由处理器1001加载并执行调用文档处理模型按照第一方向从样本文档中提取情感原因对,并在情感原因对的提取过程中,获取文档处理模型在第一方向上的处理损失时,具体用于执行如下步骤:
调用文档处理模型,对样本文档进行情感句预测,并获取情感句预测所产生情感句预测损失;
调用文档处理模型,基于标注情感句对样本文档进行原因句预测,并获取原因句预测所产生原因句预测损失;
对情感句预测损失和原因句预测损失进行求和处理,得到文档处理模型在第一方向上的处理损失。
在一种实现方式中,样本文档包括多个文档语句;计算机可读存储介质1004中的计算机指令由处理器1001加载并执行调用文档处理模型,对样本文档进行情感句预测,并获取情感句预测所产生情感句预测损失时,具体用于执行如下步骤:
获取情感查询语句;
调用文档处理模型,基于情感查询语句对样本文档中的每个文档语句进行情感句预测,得到样本文档中的各个文档语句的情感预测概率;
根据各个文档语句的情感分类类型和情感预测概率,计算情感句预测损失。
在一种实现方式中,计算机可读存储介质1004中的计算机指令由处理器1001加载并执行调用文档处理模型,基于情感查询语句对样本文档中的每个文档语句进行情感句预测,得到样本文档中的各个文档语句的情感预测概率时,具体用于执行如下步骤:
对情感查询语句进行向量编码,得到情感查询语句的向量表示;以及,分别对样本文档中的各个文档语句进行向量编码,得到各个文档语句的向量表示;
对情感查询语句的向量表示进行上下文特征提取,得到情感查询语句的上下文特征;以及,分别对各个文档语句的向量表示进行上下文特征提取,得到各个文档语句的上下文特征;
将情感查询语句的上下文特征,分别与各个文档语句的上下文特征进行拼接处理,得到各个文档语句的拼接上下文特征;
基于每个文档语句的拼接上下文特征,对相应文档语句进行情感句预测,得到样本文档中的各个文档语句的情感预测概率。
在一种实现方式中,计算机可读存储介质1004中的计算机指令由处理器1001加载并还用于执行如下步骤:
获取样本文档中的非情感句和非原因句;非情感句用于模拟文档处理模型在测试过程中提取了错误情感句的情况,非原因句用于模拟文档处理模型在测试过程中提取了错误原因句的情况;
调用文档处理模型从样本文档中提取非情感句对应的情感原因对,并在情感原因对的提取过程中,获取文档处理模型针对非情感句的测试模拟损失;
调用文档处理模型从样本文档中提取非原因句对应的情感原因对,并在情感原因对的提取过程中,获取文档处理模型针对非原因句的测试模拟损失;
计算机可读存储介质1004中的计算机指令由处理器1001加载并执行基于第一方向上的处理损失和第二方向上的处理损失,对文档处理模型进行训练时,具体用于执行如下步骤:基于第一方向上的处理损失、第二方向上的处理损失、非情感句的测试模拟损失以及非原因句的测试模拟损失,对文档处理模型进行训练。
在一种实现方式中,样本文档包括多个文档语句;计算机可读存储介质1004中的计算机指令由处理器1001加载并执行调用文档处理模型从样本文档中提取非情感句对应的情感原因对,并在情感原因对的提取过程中,获取文档处理模型针对非情感句的测试模拟损失时,具体用于执行如下步骤:
生成非情感句对应的原因查询语句;
调用文档处理模型,基于非情感句对应的原因查询语句,对样本文档中的各个文档语句进行原因句预测,得到样本文档中的各个文档语句在非情感句下的原因预测概率;
根据各个文档语句在非情感句下的原因分类类型和原因预测概率,计算文档处理模型针对非情感句的测试模拟损失。
在一种实现方式中,计算机可读存储介质1004中的计算机指令由处理器1001加载并还用于执行如下步骤:
获取待处理的目标文档;
调用训练好的文档处理模型,按照第一方向从目标文档中提取情感原因对,得到第一情感原因对集合;
调用训练好的文档处理模型,按照第二方向从目标文档中提取情感原因对,得到第二情感原因对集合;
在第一情感原因对集合和第二情感原因对集合中,确定目标文档对应的情感原因对。
在一种实现方式中,目标文档包括多个文档语句;计算机可读存储介质1004中的计算机指令由处理器1001加载并执行调用训练好的文档处理模型,按照第一方向从目标文档中提取情感原因对,得到第一情感原因对集合时,具体用于执行如下步骤:
调用训练好的文档处理模型对目标文档中的每个文档语句进行情感句预测,得到目标文档中的预测情感句;
调用训练好的文档处理模型,基于预测情感句对目标文档中的各个文档语句进行原因句预测,得到预测情感句对应的预测原因句;
将预测情感句与预测情感句对应的预测原因句进行组合,得到第一情感原因对集合。
在一种实现方式中,第一情感原因对集合和第二情感原因对集合中的每个情感原因对分别对应各自的置信度;目标情感原因对是第一情感原因对集合和第二情感原因对集合中的任一个情感原因对;
计算机可读存储介质1004中的计算机指令由处理器1001加载并执行在第一情感原因对集合和第二情感原因对集合中,确定目标文档对应的情感原因对时,具体用于执行如下步骤:
若第一情感原因对集合和第二情感原因对集合中均包含目标情感原因对,则将目标情感原因对确定为目标文档对应的情感原因对;
若第一情感原因对集合或第二情感原因对集合中包含目标情感原因对,则将目标情感原因对的置信度与置信度阈值进行比较;
若目标情感原因对的置信度大于置信度阈值,则将目标情感原因对确定为目标文档对应的情感原因对。
在一种实现方式中,第一情感原因对集合和第二情感原因对集合中的每个情感原因对分别对应各自的置信度;计算机可读存储介质1004中的计算机指令由处理器1001加载并执行在第一情感原因对集合和第二情感原因对集合中,确定目标文档对应的情感原因对时,具体用于执行如下步骤:
在第一情感原因对集合和第二情感原因对集合中,确定可信情感原因对集合和不可信情感原因对集合;
将可信情感原因对集合中的所有情感原因对,确定为目标文档对应的情感原因对;
将不可信情感原因对集合中,置信度大于置信度阈值的情感原因对,确定为目标文档对应的情感原因对。
在一种实现方式中,计算机可读存储介质1004中的计算机指令由处理器1001加载并执行在第一情感原因对集合和第二情感原因对集合中,确定目标文档对应的情感原因对时,具体用于执行如下步骤:
将第一情感原因对集合和第二情感原因对集合中共同存在的公共情感原因对,确定为目标文档对应的情感原因对;或者,
将第一情感原因对集合和第二情感原因对集合中的情感原因对,均确定为目标文档对应的情感原因对。
本申请实施例中,提出提取情感原因对的两个方向,两个方向包括第一方向和第二方向,两个方向中的第一方向是指以情感句为依据提取情感原因对的方向,即从情感句到原因句的方向,两个方向中的第二方向是指以原因句为依据提取情感原因对的方向,即从原因句到情感句的方向;通过调用文档处理模型按照两个方向,从样本文档中提取情感原因对所产生的处理损失,对文档处理模型进行训练,可以提升文档处理模型的训练效果,从而可以提升文档处理模型提取情感原因对的准确率。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选方式中提供的文档处理方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (15)
1.一种文档处理方法,其特征在于,所述方法包括:
获取用于对文档处理模型进行训练的样本文档;
调用所述文档处理模型按照第一方向从所述样本文档中提取情感原因对,并在情感原因对的提取过程中,获取所述文档处理模型在所述第一方向上的处理损失;所述情感原因对是指由一个情感句和一个原因句组成的语句对;所述第一方向是指以情感句为依据提取情感原因对的方向;
调用所述文档处理模型按照第二方向从所述样本文档中提取情感原因对,并在情感原因对的提取过程中,获取所述文档处理模型在所述第二方向上的处理损失;所述第二方向是指以原因句为依据提取情感原因对的方向;
基于所述第一方向上的处理损失和所述第二方向上的处理损失,对所述文档处理模型进行训练;训练好的文档处理模型用于分别按照所述第一方向和所述第二方向进行情感原因对的提取。
2.如权利要求1所述的方法,其特征在于,所述调用所述文档处理模型按照第一方向从所述样本文档中提取情感原因对,并在情感原因对的提取过程中,获取所述文档处理模型在所述第一方向上的处理损失,包括:
调用所述文档处理模型,对所述样本文档进行情感句预测,并获取所述情感句预测所产生情感句预测损失;
调用所述文档处理模型,基于标注情感句对所述样本文档进行原因句预测,并获取所述原因句预测所产生原因句预测损失;
对所述情感句预测损失和所述原因句预测损失进行求和处理,得到所述文档处理模型在所述第一方向上的处理损失。
3.如权利要求2所述的方法,其特征在于,所述样本文档包括多个文档语句;所述调用所述文档处理模型,对所述样本文档进行情感句预测,并获取所述情感句预测所产生情感句预测损失,包括:
获取情感查询语句;
调用所述文档处理模型,基于所述情感查询语句对所述样本文档中的每个文档语句进行情感句预测,得到所述样本文档中的各个文档语句的情感预测概率;
根据所述各个文档语句的情感分类类型和情感预测概率,计算情感句预测损失。
4.如权利要求3所述的方法,其特征在于,所述调用所述文档处理模型,基于所述情感查询语句对所述样本文档中的每个文档语句进行情感句预测,得到所述样本文档中的各个文档语句的情感预测概率,包括:
对所述情感查询语句进行向量编码,得到所述情感查询语句的向量表示;以及,分别对所述样本文档中的各个文档语句进行向量编码,得到所述各个文档语句的向量表示;
对所述情感查询语句的向量表示进行上下文特征提取,得到所述情感查询语句的上下文特征;以及,分别对所述各个文档语句的向量表示进行上下文特征提取,得到所述各个文档语句的上下文特征;
将所述情感查询语句的上下文特征,分别与所述各个文档语句的上下文特征进行拼接处理,得到所述各个文档语句的拼接上下文特征;
基于每个文档语句的拼接上下文特征,对相应文档语句进行情感句预测,得到所述样本文档中的各个文档语句的情感预测概率。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述样本文档中的非情感句和非原因句;所述非情感句用于模拟所述文档处理模型在测试过程中提取了错误情感句的情况,所述非原因句用于模拟所述文档处理模型在测试过程中提取了错误原因句的情况;
调用所述文档处理模型从所述样本文档中提取所述非情感句对应的情感原因对,并在情感原因对的提取过程中,获取所述文档处理模型针对所述非情感句的测试模拟损失;
调用所述文档处理模型从所述样本文档中提取所述非原因句对应的情感原因对,并在情感原因对的提取过程中,获取所述文档处理模型针对所述非原因句的测试模拟损失;
所述基于所述第一方向上的处理损失和所述第二方向上的处理损失,对所述文档处理模型进行训练,包括:基于所述第一方向上的处理损失、所述第二方向上的处理损失、所述非情感句的测试模拟损失以及所述非原因句的测试模拟损失,对所述文档处理模型进行训练。
6.如权利要求5所述的方法,其特征在于,所述样本文档包括多个文档语句;所述调用所述文档处理模型从所述样本文档中提取所述非情感句对应的情感原因对,并在情感原因对的提取过程中,获取所述文档处理模型针对所述非情感句的测试模拟损失,包括:
生成所述非情感句对应的原因查询语句;
调用所述文档处理模型,基于所述非情感句对应的原因查询语句,对所述样本文档中的各个文档语句进行原因句预测,得到所述样本文档中的各个文档语句在所述非情感句下的原因预测概率;
根据所述各个文档语句在所述非情感句下的原因分类类型和原因预测概率,计算所述文档处理模型针对所述非情感句的测试模拟损失。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取待处理的目标文档;
调用训练好的文档处理模型,按照所述第一方向从所述目标文档中提取情感原因对,得到第一情感原因对集合;
调用所述训练好的文档处理模型,按照所述第二方向从所述目标文档中提取情感原因对,得到第二情感原因对集合;
在所述第一情感原因对集合和所述第二情感原因对集合中,确定所述目标文档对应的情感原因对。
8.如权利要求7所述的方法,其特征在于,所述目标文档包括多个文档语句;所述调用训练好的文档处理模型,按照所述第一方向从所述目标文档中提取情感原因对,得到第一情感原因对集合,包括:
调用所述训练好的文档处理模型对所述目标文档中的每个文档语句进行情感句预测,得到所述目标文档中的预测情感句;
调用所述训练好的文档处理模型,基于所述预测情感句对所述目标文档中的各个文档语句进行原因句预测,得到所述预测情感句对应的预测原因句;
将所述预测情感句与所述预测情感句对应的预测原因句进行组合,得到第一情感原因对集合。
9.如权利要求7所述的方法,其特征在于,所述第一情感原因对集合和所述第二情感原因对集合中的每个情感原因对分别对应各自的置信度;目标情感原因对是所述第一情感原因对集合和所述第二情感原因对集合中的任一个情感原因对;
所述在所述第一情感原因对集合和所述第二情感原因对集合中,确定所述目标文档对应的情感原因对,包括:
若所述第一情感原因对集合和所述第二情感原因对集合中均包含所述目标情感原因对,则将所述目标情感原因对确定为所述目标文档对应的情感原因对;
若所述第一情感原因对集合或所述第二情感原因对集合中包含所述目标情感原因对,则将所述目标情感原因对的置信度与置信度阈值进行比较;
若所述目标情感原因对的置信度大于所述置信度阈值,则将所述目标情感原因对确定为所述目标文档对应的情感原因对。
10.如权利要求7所述的方法,其特征在于,所述第一情感原因对集合和所述第二情感原因对集合中的每个情感原因对分别对应各自的置信度;所述在所述第一情感原因对集合和所述第二情感原因对集合中,确定所述目标文档对应的情感原因对,包括:
在所述第一情感原因对集合和所述第二情感原因对集合中,确定可信情感原因对集合和不可信情感原因对集合;
将所述可信情感原因对集合中的所有情感原因对,确定为所述目标文档对应的情感原因对;
将所述不可信情感原因对集合中,置信度大于置信度阈值的情感原因对,确定为所述目标文档对应的情感原因对。
11.如权利要求7所述的方法,其特征在于,所述在所述第一情感原因对集合和所述第二情感原因对集合中,确定所述目标文档对应的情感原因对,包括:
将所述第一情感原因对集合和所述第二情感原因对集合中共同存在的公共情感原因对,确定为所述目标文档对应的情感原因对;或者,
将所述第一情感原因对集合和所述第二情感原因对集合中的情感原因对,均确定为所述目标文档对应的情感原因对。
12.一种文档处理装置,其特征在于,所述装置包括:
获取单元,用于获取用于对文档处理模型进行训练的样本文档;
处理单元,用于调用所述文档处理模型按照第一方向从所述样本文档中提取情感原因对,并在情感原因对的提取过程中,获取所述文档处理模型在所述第一方向上的处理损失;所述情感原因对是指由一个情感句和一个原因句组成的语句对;所述第一方向是指以情感句为依据提取情感原因对的方向;
所述处理单元,还用于调用所述文档处理模型按照第二方向从所述样本文档中提取情感原因对,并在情感原因对的提取过程中,获取所述文档处理模型在所述第二方向上的处理损失;所述第二方向是指以原因句为依据提取情感原因对的方向;
所述处理单元,还用于基于所述第一方向上的处理损失和所述第二方向上的处理损失,对所述文档处理模型进行训练;训练好的文档处理模型用于分别按照所述第一方向和所述第二方向进行情感原因对的提取。
13.一种计算机设备,其特征在于,所述计算机设备包括:
处理器,适于实现计算机程序;
计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1至11任一项所述的文档处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由处理器加载并执行如权利要求1至11任一项所述文档处理方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现如权利要求1至11任一项所述文档处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211078845.3A CN117033996A (zh) | 2022-09-05 | 2022-09-05 | 文档处理方法、装置及计算机设备、存储介质、程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211078845.3A CN117033996A (zh) | 2022-09-05 | 2022-09-05 | 文档处理方法、装置及计算机设备、存储介质、程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117033996A true CN117033996A (zh) | 2023-11-10 |
Family
ID=88624993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211078845.3A Pending CN117033996A (zh) | 2022-09-05 | 2022-09-05 | 文档处理方法、装置及计算机设备、存储介质、程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117033996A (zh) |
-
2022
- 2022-09-05 CN CN202211078845.3A patent/CN117033996A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897941B (zh) | 对话生成方法、网络训练方法、装置、存储介质及设备 | |
CN112131366B (zh) | 训练文本分类模型及文本分类的方法、装置及存储介质 | |
CN111581966B (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN117521675A (zh) | 基于大语言模型的信息处理方法、装置、设备及存储介质 | |
CN110377733A (zh) | 一种基于文本的情绪识别方法、终端设备及介质 | |
CN111915086A (zh) | 异常用户预测方法和设备 | |
CN116680386A (zh) | 基于多轮对话的答案预测方法和装置、设备、存储介质 | |
CN115374771A (zh) | 文本标签确定方法及装置 | |
CN115114937A (zh) | 文本获取方法、装置、计算机设备及存储介质 | |
CN110852066A (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及*** | |
CN117271745A (zh) | 一种信息处理方法、装置及计算设备、存储介质 | |
CN109002498B (zh) | 人机对话方法、装置、设备及存储介质 | |
CN116644180A (zh) | 文本匹配模型的训练方法、训练***和文本标签确定方法 | |
CN113741759B (zh) | 评论信息的展示方法、装置、计算机设备和存储介质 | |
CN115129849A (zh) | 题目表示的获取方法、设备以及计算机可读存储介质 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN114925681A (zh) | 知识图谱问答问句实体链接方法、装置、设备及介质 | |
CN111581335B (zh) | 一种文本表示方法及装置 | |
CN117033996A (zh) | 文档处理方法、装置及计算机设备、存储介质、程序产品 | |
CN113901789A (zh) | 基于门控空洞卷积和图卷积的方面级情感分析方法及*** | |
CN114330701A (zh) | 模型训练方法、装置、计算机设备、存储介质及程序产品 | |
CN114328797B (zh) | 内容搜索方法、装置、电子设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |