CN117195913A - 文本处理方法、装置、电子设备、存储介质及程序产品 - Google Patents

文本处理方法、装置、电子设备、存储介质及程序产品 Download PDF

Info

Publication number
CN117195913A
CN117195913A CN202311476368.0A CN202311476368A CN117195913A CN 117195913 A CN117195913 A CN 117195913A CN 202311476368 A CN202311476368 A CN 202311476368A CN 117195913 A CN117195913 A CN 117195913A
Authority
CN
China
Prior art keywords
text
target
feature
graph
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311476368.0A
Other languages
English (en)
Other versions
CN117195913B (zh
Inventor
程思源
刘庆斌
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311476368.0A priority Critical patent/CN117195913B/zh
Publication of CN117195913A publication Critical patent/CN117195913A/zh
Application granted granted Critical
Publication of CN117195913B publication Critical patent/CN117195913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供了一种文本处理方法、装置、电子设备、存储介质及程序产品;方法包括:对具有语义的目标语句文本进行关键词提取,得到至少一个关键词;获取用于指示多个候选词之间的关联关系的知识图谱,并从知识图谱中,分别提取各关键词对应的子知识图谱;对各子知识图谱进行图特征提取,得到各子知识图谱的图特征,并将各图特征进行特征拼接,得到目标语句文本的拼接图特征;基于拼接图特征,对目标语句文本进行文本预测,得到目标语句文本对应的预测文本,预测文本的语义与目标语句文本的语义相同或相关联。通过本申请,能够有效提高文本处理的准确率。

Description

文本处理方法、装置、电子设备、存储介质及程序产品
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本处理方法、装置、电子设备、存储介质及程序产品。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互***、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
相关技术中,对于文本处理,通常是直接对待处理文本进行特征提取,得到待处理文本的文本特征,基于文本特征对待处理文本进行文本预测,得到预测文本,由于待处理文本中缺失相关的知识对文本预测进行引导,导致预测所得到的预测文本的准确率较低。
发明内容
本申请实施例提供一种文本处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够有效提高文本处理的准确率。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种文本处理方方法,包括:
对具有语义的目标语句文本进行关键词提取,得到至少一个关键词;
获取用于指示多个候选词之间的关联关系的知识图谱,并从所述知识图谱中,分别提取各所述关键词对应的子知识图谱;
其中,所述知识图谱中的节点与所述候选词一一对应,所述子知识图谱中包括目标节点,所述目标节点对应的所述候选词,与相应的所述关键词之间的相似度大于相似度阈值;
对各所述子知识图谱进行图特征提取,得到各所述子知识图谱的图特征,并将各所述图特征进行特征拼接,得到所述目标语句文本的拼接图特征;
基于所述拼接图特征,对所述目标语句文本进行文本预测,得到所述目标语句文本对应的预测文本,所述预测文本的语义与所述目标语句文本的语义相同或相关联。
本申请实施例提供一种文本处理方装置,包括:
提取模块,用于对具有语义的目标语句文本进行关键词提取,得到至少一个关键词;
获取模块,用于获取用于指示多个候选词之间的关联关系的知识图谱,并从所述知识图谱中,分别提取各所述关键词对应的子知识图谱;其中,所述知识图谱中的节点与所述候选词一一对应,所述子知识图谱中包括目标节点,所述目标节点对应的所述候选词,与相应的所述关键词之间的相似度大于相似度阈值;
特征模块,用于对各所述子知识图谱进行图特征提取,得到各所述子知识图谱的图特征,并将各所述图特征进行特征拼接,得到所述目标语句文本的拼接图特征;
预测模块,用于基于所述拼接图特征,对所述目标语句文本进行文本预测,得到所述目标语句文本对应的预测文本,所述预测文本的语义与所述目标语句文本的语义相同或相关联。
上述方案中,上述提取模块,还用于获取待处理文本,并对所述待处理文本进行语义识别,得到所述待处理文本的语义信息;当所述语义信息指示所述待处理文本具有所述语义时,将所述待处理文本确定为所述目标语句文本;对所述目标语句文本进行分词处理,得到所述目标语句文本中的多个组成词;针对各所述组成词,当所述组成词具有所述语义时,将所述组成词确定为所述关键词。
上述方案中,上述提取模块,还用于当所述语义信息指示所述待处理文本不具有所述语义时,针对所述待处理文本中的各组成词分别执行以下处理:从所述知识图谱中,分别提取各所述组成词对应的参考知识图谱,对各所述参考知识图谱进行图特征提取,得到各所述参考知识图谱的参考图特征,并将各所述参考图特征进行特征拼接,得到所述待处理文本的参考拼接图特征;基于所述参考拼接图特征,对所述待处理文本进行文本预测,得到所述待处理文本对应的目标预测文本;其中,所述目标预测文本具有所述语义,且所述目标预测文本中包括所述待处理文本。
上述方案中,上述获取模块,还用于针对各所述关键词分别执行以下处理:将所述关键词分别与所述知识图谱中的各所述候选词进行比较,得到比较结果,所述比较结果,用于指示所述知识图谱中是否存在所述关键词相同的候选词;基于所述比较结果,从所述知识图谱的各所述候选词中,选取所述关键词对应的目标候选词;将所述知识图谱中所述目标候选词对应的节点,确定为所述关键词对应的目标节点,并将所述知识图谱中,与所述目标节点存在连接边的节点,确定为所述关键词对应的参考节点;将所述知识图谱中由所述目标节点、所述参考节点所构成的子图结构,确定为所述关键词对应的子知识图谱。
上述方案中,上述获取模块,还用于当所述比较结果指示所述知识图谱中存在与所述关键词相同的候选词时,将与所述关键词相同的所述候选词,确定为所述关键词对应的目标候选词;当所述比较结果指示所述知识图谱中不存在与所述关键词相同的候选词时,获取所述关键词分别与各所述候选词之间的相似度;将所述相似度大于所述相似度阈值的至少一个候选词,确定为所述关键词对应的目标候选词。
上述方案中,上述文本预测通过特征降噪网络和文本预测网络实现,上述预测模块,还用于调用所述特征降噪网络,对所述拼接图特征进行特征降噪,得到所述目标语句文本的目标特征;调用所述文本预测网络,基于所述目标特征,对所述目标语句文本进行文本预测,得到所述目标语句文本对应的预测文本。
上述方案中,上述特征降噪网络包括多个特征降噪层,上述预测模块,还用于调用第1特征降噪层,对所述拼接图特征进行第1次特征降噪,得到第1目标特征;遍历i执行以下处理:调用第i特征降噪层,基于第i-1目标特征,对所述拼接图特征进行第i次特征降噪,得到第i目标特征;其中,,/>用于指示所述特征降噪网络中所述特征降噪层的数量;将第N目标特征,确定为所述目标语句文本的目标特征。
上述方案中,上述文本处理方装置,还包括:训练模块,用于获取包括多个初始特征降噪层的初始特征降噪网络、目标语句文本样本,以及标签文本的标签文本特征;对所述目标语句样本进行关键词提取,得到至少一个样本关键词,并从所述知识图谱中,分别提取各所述样本关键词对应的样本知识图谱;对各所述样本知识图谱进行图特征提取,得到各所述样本知识图谱的样本图特征,并将各所述样本图特征进行特征拼接,得到所述目标语句样本的拼接样本特征;依次调用所述初始特征降噪网络的各所述初始特征降噪层,分别对所述拼接样本特征进行特征降噪,得到各所述初始特征降噪层分别对应的目标样本特征;结合各所述目标样本特征和所述标签文本特征,确定所述初始特征降噪网络的损失值,并基于所述损失值,对所述初始特征降噪网络进行训练,得到所述特征降噪网络。
上述方案中,所述初始特征降噪网络包括N个初始特征降噪层,N为大于或等于2的正整数,所述标签文本特征和各所述目标样本特征的特征维度相同,上述训练模块,还用于基于各所述目标样本特征,确定所述初始特征降噪网络的第一损失值;将第N初始特征降噪层对应的目标样本特征和所述标签文本特征进行特征相减,得到参考特征,并将所述参考特征的范数,确定为所述初始特征降噪网络的第二损失值;将所述第一损失值和所述第二损失值进行相加,得到所述损失值。
上述方案中,上述训练模块,还用于遍历j执行以下处理:将第j+1初始特征降噪层对应的目标样本特征和第j初始特征降噪层对应的目标样本特征进行相减,得到所述第j初始特征降噪层对应的差值特征,将所述差值特征的范数,确定为所述第j初始特征降噪层对应的参考损失值,其中,;将各所述参考损失值进行求和,得到所述第一损失值。
上述方案中,上述预测模块,还用于当所述目标语句文本的任务类型为用于回答所述目标语句文本的答案预测任务时,基于所述拼接图特征,对所述目标语句文本进行答案预测,得到所述目标语句文本对应的答案文本,所述答案文本的语义与所述目标语句文本的语义相关联;当所述目标语句文本的任务类型为用于翻译所述目标语句文本的翻译任务时,基于所述拼接图特征,对所述目标语句文本进行翻译,得到所述目标语句文本对应的翻译文本,所述翻译文本的语义与所述目标语句文本的语义相同。
本申请实施例提供一种电子设备,包括:
存储器,用于存储计算机可执行指令或者计算机程序;
处理器,用于执行所述存储器中存储的计算机可执行指令或者计算机程序时,实现本申请实施例提供的文本处理方方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于引起处理器执行时,实现本申请实施例提供的文本处理方方法。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的文本处理方方法。
本申请实施例具有以下有益效果:
通过对具有语义的目标语句文本进行关键词提取,得到至少一个关键词,从知识图谱中,分别提取各关键词对应的子知识图谱,对各所述子知识图谱进行图特征提取,得到各所述子知识图谱的图特征,并将各图特征进行特征拼接,得到目标语句文本的拼接图特征,基于拼接图特征,对目标语句文本进行文本预测,得到目标语句文本对应的预测文本。如此,通过确定目标语句文本中各关键词对应的子知识图谱,从而实现了对目标语句文本的相关知识的有效补充,通过对子知识图谱进行图特征提取,得到各子知识图谱的图特征,并将各图特征进行特征拼接,得到拼接图特征,使得拼接图特征中富含目标语句文本的相关知识,通过基于拼接图特征,对目标语句文本进行文本预测,得到目标语句文本对应的预测文本,使得文本预测过程中能够充分考虑目标语句文本的相关知识,从而能够有效提高文本处理的准确率。
附图说明
图1是本申请实施例提供的文本处理***的架构示意图;
图2是本申请实施例提供的用于文本处理的电子设备的结构示意图;
图3是本申请实施例提供的文本处理方法的流程示意图一;
图4是本申请实施例提供的文本处理方法的流程示意图二;
图5是本申请实施例提供的文本处理方法的流程示意图三;
图6是本申请实施例提供的文本处理方法的流程示意图四;
图7是本申请实施例提供的文本处理方法的流程示意图五;
图8是本申请实施例提供的文本处理方法的原理示意图一;
图9是本申请实施例提供的文本处理方法的原理示意图二;
图10是本申请实施例提供的子知识图谱的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。
2)卷积神经网络(CNN,Convolutional Neural Networks):是一类包含卷积计算且具有深度结构的前馈神经网络(FNN,Feed forward Neural Networks),是深度学***移不变分类(Shift-InvariantClassification)。
3)机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
4)响应于:用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
5)大语言模型(Large Language Model,LLM):大语言模型是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。大语言模型旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等,大语言模型的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种自然语言处理任务上取得令人印象深刻的表现。人工智能领域模型训练的重要技术,预训练模型,即是从NLP领域的大语言模型发展而来。经过微调,大语言模型可以广泛应用于下游任务。
6)自然语言处理(Natural Language Processing,NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机***,特别是其中的软件***。因而它是计算机科学的一部分,自然语言处理主要应用于机器翻译、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别等方面。
7)语义(Semantic):语言所蕴含的意义就是语义,简单的说,符号是语言的载体。符号本身没有任何意义,只有被赋予含义的符号才能够被使用,这时候语言就转化为了信息,而语言的含义就是语义。语义可以简单地看作是数据所对应的现实世界中的事物所代表的概念的含义,以及这些含义之间的关系,是数据在某个领域上的解释和逻辑表示。
8)知识图谱(Knowledge Graph):在图书界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。知识图谱,它能为学科研究提供切实的、有价值的参考。
9)扩散语言模型(Diffusion Language Model,Diffusion-LM):扩散模型也是生成模型,扩散模型背后的直觉来源于物理学。在物理学中气体分子从高浓度区域扩散到低浓度区域,这与由于噪声的干扰而导致的信息丢失是相似的。所以通过引入噪声,然后尝试通过去噪来生成图像。在一段时间内通过多次迭代,模型每次在给定一些噪声输入的情况下学习生成新图像。扩散模型的工作原理是学习由于噪声引起的信息衰减,然后使用学习到的模式来生成图像。 该概念也适用于潜在变量,因为它试图学习噪声分布而不是数据分布。 噪声分布使用马尔可夫链的概念建模。这使它成为一个概率模型。
在本申请实施例的实施过程中,申请人发现相关技术存在以下问题:
相关技术中,对于文本处理,通常是直接对待处理文本进行特征提取,得到待处理文本的文本特征,基于文本特征对待处理文本进行文本预测,得到预测文本,由于待处理文本中缺失相关的知识对文本预测进行引导,导致预测所得到的预测文本的准确率较低。
本申请实施例提供一种文本处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够有效提高文本处理的准确率,下面说明本申请实施例提供的文本处理***的示例性应用。
参见图1,图1是本申请实施例提供的文本处理***100的架构示意图,终端(示例性示出了终端400)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
终端400用于供用户使用客户端410,在图形界面410-1(示例性示出了图形界面410-1)显示预测文本。终端400和服务器200通过有线或者无线网络相互连接。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表、车载终端等,但并不局限于此。本申请实施例提供的电子设备可以实施为终端,也可以实施为服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
在一些实施例中,服务器200对具有语义的目标语句文本进行关键词提取,得到至少一个关键词,并获取用于指示多个候选词之间的关联关系的知识图谱,并从知识图谱中,分别提取各关键词对应的子知识图谱,对子知识图谱进行图特征提取,得到子知识图谱的图特征,并将图特征发送至终端400,终端400将图特征进行特征拼接,得到目标语句文本的拼接图特征,并基于拼接图特征,对目标语句文本进行文本预测,得到目标语句文本对应的预测文本。
在另一些实施例中,服务器200对具有语义的目标语句文本进行关键词提取,得到至少一个关键词,并获取用于指示多个候选词之间的关联关系的知识图谱,并从知识图谱中,分别提取各关键词对应的子知识图谱,对子知识图谱进行图特征提取,得到子知识图谱的图特征,将图特征进行特征拼接,得到目标语句文本的拼接图特征,并基于拼接图特征,对目标语句文本进行文本预测,得到目标语句文本对应的预测文本,并将预测文本发送至终端400。
在另一些实施例中,本申请实施例可以借助于云技术(Cloud Technology)实现,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源。
参见图2,图2是本申请实施例提供的用于文本处理的电子设备500的结构示意图,其中,图2所示出的电子设备500可以是图1中的服务器200或者终端400,图2所示的电子设备500包括:至少一个处理器430、存储器450、至少一个网络接口420。电子设备500中的各个组件通过总线***440耦合在一起。可理解,总线***440用于实现这些组件之间的连接通信。总线***440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线***440。
处理器430可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器430的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***451,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他电子设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi,Wireless Fidelity)、和通用串行总线(USB,Universal Serial Bus)等。
在一些实施例中,本申请实施例提供的文本处理装置可以采用软件方式实现,图2示出了存储在存储器450中的文本处理装置455,其可以是程序和插件等形式的软件,包括以下软件模块:提取模块4551、获取模块4552、特征模块4553、预测模块4554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的文本处理装置可以采用硬件方式实现,作为示例,本申请实施例提供的文本处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的文本处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
在一些实施例中,终端或服务器可以通过运行计算机程序或计算机可执行指令来实现本申请实施例提供的文本处理方法。举例来说,计算机程序可以是操作***中的原生程序(例如,专用的文本处理程序)或软件模块,例如,可以嵌入到任意程序(如即时通信客户端、相册程序、电子地图客户端、导航客户端)中的文本处理模块;例如可以是本地(Native)应用程序(APP,Application),即需要在操作***中安装才能运行的程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
将结合本申请实施例提供的服务器或终端的示例性应用和实施,说明本申请实施例提供的文本处理方法。
参见图3,图3是本申请实施例提供的文本处理方法的流程示意图一,将结合图3示出的步骤101至步骤105进行说明,本申请实施例提供的文本处理方法可以由服务器或终端单独实施,或者由服务器及终端协同实施,下面将以服务器单独实施为例进行说明。
在步骤101中,对具有语义的目标语句文本进行关键词提取,得到至少一个关键词。
在一些实施例中,语言所蕴含的意义就是语义,简单的说,符号是语言的载体。符号本身没有任何意义,只有被赋予含义的符号才能够被使用,这时候语言就转化为了信息,而语言的含义就是语义。语义可以简单地看作是数据所对应的现实世界中的事物所代表的概念的含义,以及这些含义之间的关系,是数据在某个领域上的解释和逻辑表示。
在一些实施例中,上述关键词是指具有语义的文本词汇,上述关键词可以为名词、动词等实词,实词是指语句文本中含有实际意义的词,实词能单独充当句子成分,即有词汇意义和语法意义的词。一般包括:名词、动词、形容词、数词、量词、代词、状态词、区别词。把语法功能作为主要依据,认为能够单独充当句法成分,有词汇意义和语法意义的是实词;不能充当句法成分,没有词汇意义只有语法意义的就是虚词。
作为示例,具有语义的目标语句文本为“今天中午团队聚餐,去吃了海鲜大餐”,目标语句文本中的关键词可以为“今天、中午、团队、聚餐、去、吃、海鲜、大餐”。
在一些实施例中,参见图4,图4是本申请实施例提供的文本处理方法的流程示意图二,图3所示出的步骤101可以通过图4所示出的步骤1011至步骤1014实现。
在步骤1011中,获取待处理文本,并对待处理文本进行语义识别,得到待处理文本的语义信息。
在一些实施例中,上述语义信息用于指示待处理文本是否具有语义,当待处理文本具有语义时,将待处理文本确定为具有语义的目标语句文本。
作为示例,当待处理文本为“今天中午团队聚餐,去吃了海鲜大餐”时,待处理文本为具有语义的目标语句文本,当待处理文本为“团队、海鲜”时,待处理文本为不具有语义的目标语句文本。
在一些实施例中,在执行上述步骤1011之后,还可以执行以下处理:当语义信息指示待处理文本不具有语义时,针对待处理文本中的各组成词分别执行以下处理:从知识图谱中,分别提取各组成词对应的参考知识图谱,对各参考知识图谱进行图特征提取,得到各参考知识图谱的参考图特征,并将各参考图特征进行特征拼接,得到待处理文本的参考拼接图特征;基于参考拼接图特征,对待处理文本进行文本预测,得到待处理文本对应的目标预测文本。
在一些实施例中,当语义信息指示待处理文本不具有语义时,则无需对待处理文本进行关键词提取,直接对待处理文本进行分词处理,得到待处理文本的各组成词,并基于各组成词,对待处理文本进行文本预测,得到待处理文本对应的目标预测文本。
在一些实施例中,目标预测文本具有语义,且目标预测文本中包括待处理文本。
在一些实施例中,上述从知识图谱中,分别提取各组成词对应的参考知识图谱,可以通过如下方式实现:针对各组成词分别执行以下处理:将组成词分别与知识图谱中的各候选词进行比较,得到组成比较结果,组成比较结果,用于指示知识图谱中是否存在关键词相同的候选词;基于组成比较结果,从知识图谱的各候选词中,选取关键词对应的目标候选词;将知识图谱中目标候选词对应的节点,确定为组成词对应的目标节点,并将知识图谱中,与目标节点存在连接边的节点,确定为组成词对应的参考节点,将知识图谱中由目标节点、参考节点所构成的子图结构,确定为组成词对应的参考知识图谱。
在一些实施例中,上述基于组成比较结果,从知识图谱的各候选词中,选取组成词对应的目标候选词,可以通过如下方式实现:当组成比较结果指示知识图谱中存在与组成词相同的候选词时,将与组成词相同的候选词,确定为组成词对应的目标候选词;当组成比较结果指示知识图谱中不存在与组成词相同的候选词时,获取组成词分别与各候选词之间的相似度,将相似度大于相似度阈值的至少一个候选词,确定为组成词对应的目标候选词。
在步骤1012中,当语义信息指示待处理文本具有语义时,将待处理文本确定为目标语句文本。
作为示例,当待处理文本为“今天中午团队聚餐,去吃了海鲜大餐”时,将待处理文本确定为具有语义的目标语句文本。
在步骤1013中,对目标语句文本进行分词处理,得到目标语句文本中的多个组成词。
在一些实施例中,分词处理是指将连续的字序列按照一定的规范重新组合成词序列的处理过程。
承接上例,当目标语句文本为“今天中午团队聚餐,去吃了海鲜大餐”时,对目标语句文本进行分词处理,得到目标语句文本中的组成词可以为“今天、中午、团队、聚餐、去、吃、了、海鲜、大餐”。
在步骤1014中,针对各组成词,当组成词具有语义时,将组成词确定为关键词。
在一些实施例中,上述步骤1014可以通过如下方式实现:针对各组成词分别执行以下处理:获取组成词的语义信息,语义信息用于指示组成词是否具有语义,当组成词具有语义时,将组成词确定为关键词。
在一些实施例中,当组成词不具有语义时,不将组成词确定为关键词。
承接上例,当目标语句文本为“今天中午团队聚餐,去吃了海鲜大餐”时,对目标语句文本进行分词处理,得到目标语句文本中的组成词可以为“今天、中午、团队、聚餐、去、吃、了、海鲜、大餐”,目标语句文本中的关键词可以为“今天、中午、团队、聚餐、去、吃、海鲜、大餐”。
如此,通过在语义信息指示待处理文本具有语义时,将待处理文本确定为目标语句文本,并针对各组成词,当组成词具有语义时,将组成词确定为关键词,从而有效减少了后续子知识图谱的提取成本,也即无需针对不具有语义的组成词进行提取,从而有效提高了后续子知识图谱的提取效率。
在步骤102中,获取用于指示多个候选词之间的关联关系的知识图谱。
在一些实施例中,知识图谱,在图书界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。知识图谱,它能为学科研究提供切实的、有价值的参考。
在一些实施例中,上述知识图谱中的多个候选词的数量,与知识图谱所涵盖知识的全面性正相关,也即知识图谱中的候选词的数量越大,知识图谱所涵盖知识的全面性越大,知识图谱中的候选词的数量越小,知识图谱所涵盖知识的全面性越小。
在一些实施例中,上述知识图谱中的候选词可以从权威的语言字典中进行选取,从而使得知识图谱中的候选词能够涵盖权威的语言字典中全量的词语,从而使得知识图谱所涵盖知识的全面性达到极致。
在步骤103中,从知识图谱中,分别提取各关键词对应的子知识图谱。
在一些实施例中,知识图谱中的节点与候选词一一对应,子知识图谱中包括目标节点,目标节点对应的候选词,与相应的关键词之间的相似度大于相似度阈值。
在一些实施例中,上述相似度阈值,可以根据实际情况而选取,相似度阈值的具体数值不构成对本申请实施例的限定。
在一些实施例中,参见图5,图5是本申请实施例提供的文本处理方法的流程示意图,图3所示出的步骤103可以针对各关键词分别执行图5所示出的步骤1031至步骤1034实现。
在步骤1031中,将关键词分别与知识图谱中的各候选词进行比较,得到比较结果。
在一些实施例中,比较结果,用于指示知识图谱中是否存在关键词相同的候选词。
在一些实施例中,上述步骤1031可以通过如下方式实现:针对知识图谱中的各候选词,将候选词与关键词进行比较,得到候选词对应的候选比较结果,候选比较结果用于指示候选词与关键词是否相同;当各候选词对应的候选比较结果均指示候选词与关键词不同时,将比较结果确定为第一比较结果,第一比较结果,用于指示知识图谱中不存在关键词相同的候选词;当存在候选词对应的候选比较结果指示候选词与关键词相同时,将比较结果确定为第二比较结果,第二比较结果,用于指示知识图谱中存在关键词相同的候选词。
作为示例,当关键词为“聚餐”,知识图谱中的候选词为:“团建、信息、科学、人工智能、物理、浓度”时,针对知识图谱中的各候选词(团建、信息、科学、人工智能、物理、浓度),将候选词与关键词进行比较,得到候选词对应的候选比较结果,例如,候选词“团建”对应的候选比较结果指示候选词(团建)与关键词(聚餐)不同,候选词“人工智能”对应的候选比较结果指示候选词(人工智能)与关键词(聚餐)不同;也即,各候选词对应的候选比较结果均指示候选词与关键词不同,将比较结果确定为第一比较结果,第一比较结果,用于指示知识图谱中不存在关键词(聚餐)相同的候选词。
作为示例,当关键词为“物理”,知识图谱中的候选词为:“团建、信息、科学、人工智能、物理、浓度”时,针对知识图谱中的各候选词(团建、信息、科学、人工智能、物理、浓度),将候选词与关键词进行比较,得到候选词对应的候选比较结果,例如,候选词“团建”对应的候选比较结果指示候选词(团建)与关键词(物理)不同,候选词“物理”对应的候选比较结果指示候选词(物理)与关键词(物理)相同;也即,存在候选词(物理)对应的候选比较结果指示候选词(物理)与关键词(物理)相同时,将比较结果确定为第二比较结果,第二比较结果,用于指示知识图谱中存在关键词相同的候选词。
在步骤1032中,基于比较结果,从知识图谱的各候选词中,选取关键词对应的目标候选词。
在一些实施例中,关键词对应至少一个目标候选词,关键词与目标候选词的对应关系为一个关键词对应至少一个目标候选词。
在一些实施例中,上述步骤1032可以通过如下方式实现:当比较结果指示知识图谱中存在与关键词相同的候选词时,将与关键词相同的候选词,确定为关键词对应的目标候选词;当比较结果指示知识图谱中不存在与关键词相同的候选词时,获取关键词分别与各候选词之间的相似度;将相似度大于相似度阈值的至少一个候选词,确定为关键词对应的目标候选词。
在一些实施例中,上述相似度可以是指关键词的关键词特征和候选词的候选词特征之间的特征距离。
在另一些实施例中,上述相似度也可以是指关键词的语义的语言含义特征和候选词的语义的语言含义特征之间的特征距离,也即关键词分别与各候选词之间的相似度,可以是指关键词分别与各候选词之间的语言含义的相似度。
在一些实施例中,上述将相似度大于相似度阈值的至少一个候选词,确定为关键词对应的目标候选词可以通过如下方式确定:针对各候选词对应的相似度,将相似度与相似度阈值进行比较,当相似度大于相似度阈值时,将候选词确定为目标候选词。
作为示例,当关键词为“聚餐”,知识图谱中的候选词为:“团建、信息、科学、人工智能、物理、浓度”时,候选词“团建”与关键词“聚餐”之间的相似度大于相似度阈值,那么可以将候选词“团建”确定为目标候选词。
在步骤1033中,将知识图谱中目标候选词对应的节点,确定为关键词对应的目标节点,并将知识图谱中,与目标节点存在连接边的节点,确定为关键词对应的参考节点。
作为示例,参见图8,知识图谱中的目标候选词为“比赛”和“跑步”,将知识图谱中目标候选词“比赛”和“跑步”分别对应的节点,确定为关键词对应的目标节点,将知识图谱中,与目标节点存在连接边的节点,确定为关键词对应的参考节点,例如,如图8所示出的“运动员A”、“运动员B”、“运动的”、“跑步”、“安静的”分别所对应的节点,均为关键词对应的参考节点。
在步骤1034中,将知识图谱中由目标节点、参考节点所构成的子图结构,确定为关键词对应的子知识图谱。
在一些实施例中,不同的关键词对应不同的子知识图谱,关键词与子知识图谱一一对应,子知识图谱中知识图谱的子图结构。
如此,通过从知识图谱中,分别提取各关键词对应的子知识图谱,从而实现了对各关键词进行知识扩容,通过使得通过各关键词对应的子知识图谱参与后续预测过程,从而有效提高了文本预测的准确率。
在步骤104中,对各子知识图谱进行图特征提取,得到各子知识图谱的图特征,并将各图特征进行特征拼接,得到目标语句文本的拼接图特征。
在一些实施例中,上述对各子知识图谱进行图特征提取,得到各子知识图谱的图特征,可以通过如下方式实现:针对各子知识图谱分别执行以下处理:获取子知识图谱的邻接矩阵,将子知识图谱的邻接矩阵,确定为子知识图谱的图特征。
作为示例,参见图10,图10是本申请实施例提供的子知识图谱的结构示意图,图10所示出的子知识图谱对应的邻接矩阵可以表示为:
(1)
其中,A表征子知识图谱对应的邻接矩阵,表征子知识图谱中的节点1和节点1之间通过边进行连接,/>表征子知识图谱中的节点1和节点2之间没有通过边进行连接,/>表征子知识图谱中的节点1和节点3之间通过边进行连接,/>表征子知识图谱中的节点1和节点4之间没有通过边进行连接,/>表征子知识图谱中的节点1和节点5之间没有通过边进行连接,/>表征子知识图谱中的节点2和节点1之间没有通过边进行连接,/>表征子知识图谱中的节点2和节点2之间通过边进行连接,/>表征子知识图谱中的节点3和节点3之间通过边进行连接,以此类推,直至穷尽子知识图谱中所有节点之间的连接关系,以确定子知识图谱对应的完整的邻接矩阵。
在一些实施例中,上述将各图特征进行特征拼接,得到目标语句文本的拼接图特征,可以通过如下方式实现:获取各图特征的图特征维度,以及标准特征维度,针对各图特征,当图特征的图特征维度与标准特征维度不同时,对图特征进行特征维度调整,得到图特征对应的目标图特征;当图特征的图特征维度与标准特征维度相同时,将图特征确定为图特征对应的目标图特征;将各目标图特征进行拼接,得到目标语句文本的拼接图特征。
作为示例,目标语句文本的拼接图特征的表达式可以为:
(2)
其中,用于指示目标语句文本的拼接图特征,/>用于指示目标图特征。
如此,通过对各子知识图谱进行图特征提取,得到各子知识图谱的图特征,并将各图特征进行特征拼接,得到目标语句文本的拼接图特征,从而使得拼接图特征融合了目标语句文本的关键词以及各关键词的相关知识,通过拼接图特征有效提高了目标语句文本的知识全面性,使得后续基于拼接图特征所预测得到的预测文本更加准确。
在步骤105中,基于拼接图特征,对目标语句文本进行文本预测,得到目标语句文本对应的预测文本。
在一些实施例中,预测文本的语义与目标语句文本的语义相同或相关联。
在一些实施例中,当所述目标语句文本的任务类型为用于回答所述目标语句文本的答案预测任务时,预测文本的语义与目标语句文本的语义相关联,也即预测文本的语义满足目标语句文本的语义所期望的预测期望,也即预测文本能够准确回答目标语句文本所表达的问题。
在一些实施例中,当所述目标语句文本的任务类型为用于翻译所述目标语句文本的翻译任务时,目标语句文本的语义与预测文本的语义相同,也即目标语句文本和预测文本是不同的语言体系下针对相同语义的不同表达方式。
在一些实施例中,文本预测通过特征降噪网络和文本预测网络实现,参见图6,图6是本申请实施例提供的文本处理方法的流程示意图四,图3所示出的步骤105可以通过图6所示出的步骤1051A至步骤1052A实现。
在步骤1051A中,调用特征降噪网络,对拼接图特征进行特征降噪,得到目标语句文本的目标特征。
在一些实施例中,特征降噪网络包括多个特征降噪层,特征降噪层用于对拼接图特征进行特征降噪,特征降噪网络所输出的输出特征的噪声量小于特征降噪网络的输出特征的噪声量,上述噪声用于指示特征中的无用信息。
作为示例,参见图9,图9是本申请实施例提供的文本处理方法的原理示意图二,图9所示出的特征降噪网络,特征降噪网络包括特征降噪层、特征降噪层/>、特征降噪层/>和特征降噪层/>
在一些实施例中,上述步骤1051A可以通过如下方式实现:调用第1特征降噪层,对拼接图特征进行第1次特征降噪,得到第1目标特征;遍历i执行以下处理:调用第i特征降噪层,基于第i-1目标特征,对拼接图特征进行第i次特征降噪,得到第i目标特征;将第N目标特征,确定为目标语句文本的目标特征。
在一些实施例中,,/>用于指示特征降噪网络中特征降噪层的数量。
作为示例,当时,也即特征降噪网络中特征降噪层的数量为3,调用第1特征降噪层,对拼接图特征进行第1次特征降噪,得到第1目标特征;调用第2特征降噪层,基于第1目标特征,对拼接图特征进行第2次特征降噪,得到第2目标特征;调用第3特征降噪层,基于第2目标特征,对拼接图特征进行第3次特征降噪,得到第3目标特征;将第3目标特征,确定为目标语句文本的目标特征。
如此,通过多层特征降噪层对拼接图特征进行特征降噪,从而有效减少了拼接图特征中的噪声,使得所得到的目标特征中噪声含量相对较少,使得后续通过目标特征进行预测,所得到的预测文本更加准确。
在一些实施例中,在执行上述步骤1052A之前,还可以通过如下方式训练得到特征降噪网络:获取包括多个初始特征降噪层的初始特征降噪网络、目标语句文本样本,以及标签文本的标签文本特征;对目标语句样本进行关键词提取,得到至少一个样本关键词,并从知识图谱中,分别提取各样本关键词对应的样本知识图谱;对各样本知识图谱进行图特征提取,得到各样本知识图谱的样本图特征,并将各样本图特征进行特征拼接,得到目标语句样本的拼接样本特征;依次调用初始特征降噪网络的各初始特征降噪层,分别对拼接样本特征进行特征降噪,得到各初始特征降噪层分别对应的目标样本特征;结合各目标样本特征和标签文本特征,确定初始特征降噪网络的损失值,并基于损失值,对初始特征降噪网络进行训练,得到特征降噪网络。
在一些实施例中,初始特征降噪网络包括N个初始特征降噪层,N为大于或等于2的正整数,标签文本特征和各目标样本特征的特征维度相同。
在一些实施例中,上述对目标语句样本进行关键词提取,得到至少一个样本关键词,可以通过如下方式实现:对目标语句样本进行分词处理,得到目标语句样本中的多个组成词;针对各组成词,当组成词具有语义时,将组成词确定为样本关键词。
在一些实施例中,从知识图谱中,分别提取各样本关键词对应的样本知识图谱,可以通过如下方式实现:针对各样本关键词分别执行以下处理:将样本关键词分别与知识图谱中的各候选词进行比较,得到比较结果,比较结果,用于指示知识图谱中是否存在样本关键词相同的候选词;基于比较结果,从知识图谱的各候选词中,选取样本关键词对应的目标候选词;将知识图谱中目标候选词对应的节点,确定为样本关键词对应的目标节点,并将知识图谱中,与目标节点存在连接边的节点,确定为样本关键词对应的参考节点;将知识图谱中由目标节点、参考节点所构成的子图结构,确定为样本关键词对应的样本知识图谱。
在一些实施例中,上述对各样本知识图谱进行图特征提取,得到各样本知识图谱的样本图特征,可以通过如下方式实现:针对各样本知识图谱分别执行以下处理:获取样本知识图谱的邻接矩阵,将样本知识图谱的邻接矩阵,确定为样本知识图谱的样本图特征。
作为示例,目标语句样本的拼接样本特征的表达式可以为:
(3)
其中,用于指示目标语句文本的拼接图特征,/>用于指示目标图特征。
在一些实施例中,上述结合各目标样本特征和标签文本特征,确定初始特征降噪网络的损失值,可以通过如下方式实现:基于各目标样本特征,确定初始特征降噪网络的第一损失值;将第N初始特征降噪层对应的目标样本特征和标签文本特征进行特征相减,得到参考特征,并将参考特征的范数,确定为初始特征降噪网络的第二损失值;将第一损失值和第二损失值进行相加,得到损失值。
作为示例,上述损失值的表达式可以为:
(4)
其中,用于指示损失值,/>用于指示第一损失值,/>用于指示第二损失值,用于指示标签文本特征,/>用于指示第N初始特征降噪层对应的目标样本特征。
在一些实施例中,上述基于各目标样本特征,确定初始特征降噪网络的第一损失值,可以通过如下方式实现:遍历j执行以下处理:将第j+1初始特征降噪层对应的目标样本特征和第j初始特征降噪层对应的目标样本特征进行相减,得到第j初始特征降噪层对应的差值特征,将差值特征的范数,确定为第j初始特征降噪层对应的参考损失值;将各参考损失值进行求和,得到第一损失值。
在一些实施例中,
作为示例,上述第一损失值的表达式可以为:
(5)
其中,用于指示第一损失值,/>用于指示第j+1初始特征降噪层对应的目标样本特征,/>用于指示第j初始特征降噪层对应的目标样本特征,/>用于指示正则化项。
在步骤1052A中,调用文本预测网络,基于目标特征,对目标语句文本进行文本预测,得到目标语句文本对应的预测文本。
如此,通过结合各目标样本特征和标签文本特征,确定初始特征降噪网络的损失值,并基于损失值,对初始特征降噪网络进行训练,得到特征降噪网络,使得训练所得到的特征降噪网络的降噪性能更好,有效提高了所确定的目标特征的准确性。
在一些实施例中,参见图7,图7是本申请实施例提供的文本处理方法的流程示意图五,图3所示出的步骤105可以通过图7所示出的步骤1051B至步骤1052B实现。
在步骤1051B中,当目标语句文本的任务类型为用于回答目标语句文本的答案预测任务时,基于拼接图特征,对目标语句文本进行答案预测,得到目标语句文本对应的答案文本。
在一些实施例中,上述答案文本的语义与目标语句文本的语义相关联,也即预测文本的语义满足目标语句文本的语义所期望的预测期望,也即预测文本能够准确回答目标语句文本所表达的问题。
作为示例,待处理文本为“你今天多大年纪了”,待处理文本对应的答案文本可以为“我今年26岁了”。
在步骤1052B中,当目标语句文本的任务类型为用于翻译目标语句文本的翻译任务时,基于拼接图特征,对目标语句文本进行翻译,得到目标语句文本对应的翻译文本。
在一些实施例中,翻译文本的语义与目标语句文本的语义相同,也即目标语句文本和预测文本是不同的语言体系下针对相同语义的不同表达方式。
作为示例,待处理文本为“How old are you this year”,待处理文本对应的翻译文本可以为“你今年多大年纪了/>”。
如此,通过对具有语义的目标语句文本进行关键词提取,得到至少一个关键词,从知识图谱中,分别提取各关键词对应的子知识图谱,对各所述子知识图谱进行图特征提取,得到各所述子知识图谱的图特征,并将各图特征进行特征拼接,得到目标语句文本的拼接图特征,基于拼接图特征,对目标语句文本进行文本预测,得到目标语句文本对应的预测文本。如此,通过确定目标语句文本中各关键词对应的子知识图谱,从而实现了对目标语句文本的相关知识的有效补充,通过对子知识图谱进行图特征提取,得到各子知识图谱的图特征,并将各图特征进行特征拼接,得到拼接图特征,使得拼接图特征中富含目标语句文本的相关知识,通过基于拼接图特征,对目标语句文本进行文本预测,得到目标语句文本对应的预测文本,使得文本预测过程中能够充分考虑目标语句文本的相关知识,从而能够有效提高文本处理的准确率。
下面,将说明本申请实施例在一个实际的文本生成的应用场景中的示例性应用。
在对话的应用场景中,通过本申请实施例提供的文本处理方法,在引入额外的知识后,可以使得所生成的答案文本能够更加精准,有利于提高文本生成的质量,知识可以作为提示,让生成的文本更加丰富或贴近真实世界输出。
在多样性文本生成的应用场景中,通过本申请实施例提供的文本处理方法,在引入额外的知识后,有利于提高文本生成的质量,知识可以作为提示,让生成的文本更加丰富或贴近真实世界输出。并且可以提供一些原本语句中没有出现的内容,可以通过检索周围的知识实体,让文本的生成更加丰富,也更加多样。
在一些实施例中,参见图8,图8是本申请实施例提供的文本处理方法的原理示意图一,首先本申请实施例在控制文本生成的条件加入了常识知识图谱,所聚焦的任务是Table2Text的生成任务,本申请实施例可以采用的验证数据集是CommonGen数据集,CommonGen是一项受限文本生成任务,与基准数据集相关联,用于显式测试机器的生成常识推理能力,通过给定一组共同概念,使用这些概念生成一个连贯的句子来描述日常场景。
作为示例,比如输入概念{apple,bag,put},预测输出希望是“A girl puts anapple in her bag”。这个任务的难点有以下几点:首先概念之间是大量的常识知识,并且它们是潜在有组合关系的,模型需要知道一系列事实,并找到它们的最佳组合来编写句子。其次数据集需要组合泛化能力,以便可以用于看不见的概念组合。比如训练集中只有关于苹果的相关概念,如何处理训练中未见过的梨这个概念,就需要泛化能力。本申请实施例提供的文本生成方法可以通过图9所示出的处理过程实现,图9是本申请实施例提供的文本生成方法的原理示意图,对于概念集合(race,run,athlete),本申请实施例在常识知识图谱(ConceptNet)采样这些概念相关联的三元组知识,为了不让输入过多,本申请实施例采样了单跳距离的三元组。
在一些实施例中,参见图9,本申请实施例的输入不再是句子对之间的关系,本申请实施例将控制条件从句子对换为知识三元组和生成语句之间的关系。利用额外的附加知识作为增强,使扩散语言模型的输出更加丰富且贴近真实世界的输出。
对于离散的文本,本申请实施例需要一个函数来将其映射到连续的向量空间,其中/>表示如下:
(6)
预测过程,利用transformer作为每个时间步预测的模型,由于/>是由控制条件和生成的向量拼接而成的,所以在transformer模型中自然将其进行了交互,融入了/>的语义信息到/>的生成过程中。
其中,模型的目标函数如下所示:
(7)
其中,是每一个时间步(/>>2)预测与/>(target)的损失函数;/>是初始化的/>和逆扩散过程的损失函数;/>是正则化项。
为了让(连续空间的变量)能够映射到词向量空间(文本空间)上去,本申请实施例采用了Diffusion-LM中的Rounding函数功能,这是一种非自回归的一种解码方式,可以理解为每个token位置上取最优的/>,每列对应一个token,具体的度量方式就是KNNRounding,计算每个/>和每个词的Embedding距离。公式如下:
(8)
其中,为softmax分布。
在输入侧,本申请实施例可以拿到相关的基础的实体概念,为了使模型能够生成更加丰富的文本以及更好的泛化性,本申请实施例通过单跳采样邻居三元组得到更多的相关概念实体,让模型输出的文本更加丰富多样。
本申请实施例提出的文本生成方法,相对于传统的基于自回归的文本生成模型,本申请实施例在功能上就天然预备以下优势:本申请实施例的生成过程是可控的,本申请实施例能够通过修改控制条件以及设置时间步来达到控制文本生成的目的;本申请实施例首次在扩散语言模型上引入知识图谱,利用知识来控制文本生成,有利于生成更加多样,更符合真实世界的文本输出。
本申请实施例在CommonGen数据集上进行了测试,部分结果如表1所示:
表1 本申请实施例提供的文本生成方法的测试效果示意表
表1中展示了部份生成的效果图,从这些结果中可以看出:本申请实施例在文本生成任务上可以生成较为连续的语句,并且在概念覆盖度上表现出色。生成的文本能够覆盖大部份包含的概念实体,并且之间的关系也更加明确,符合常识知识。生成的文本也更加丰富,他可以包含原本知识中包含不到但是又重要的概念知识,老师相关的概念知识学生也被生成出来加入到文本中,这得益于周围知识的加入。与传统的自回归模型相比较,本申请实施例最大的优点是是可以控制生成的过程,本申请实施例可以通过调整步数得到中间的一些生成结果,可以按照一些特定的需求来改变控制的条件以及生成的步数。如果在训练和测试增加步骤可以做到更高的质量。虽然现在是大语言模型的时代,但是在一些需要特定控制条件的业务下,如果需要控制文本来做生成任务,可以考虑采用本申请实施例提供的文本处理方法。比如本申请实施例想要模型按照本申请实施例给定的一些知识来生成文本,比如医疗、生物等相关领域,本申请实施例不想让模型输出一些无关的东西,本申请实施例就可以借助扩散模型,把领域相关的一些知识加入到控制条件中,然后让其生成对应的语句。这样可以提高模型生成的效率,不再需要重复按照规则训练大模型,节约开发成本。
如此,通过对具有语义的目标语句文本进行关键词提取,得到至少一个关键词,从知识图谱中,分别提取各关键词对应的子知识图谱,对各所述子知识图谱进行图特征提取,得到各所述子知识图谱的图特征,并将各图特征进行特征拼接,得到目标语句文本的拼接图特征,基于拼接图特征,对目标语句文本进行文本预测,得到目标语句文本对应的预测文本。如此,通过确定目标语句文本中各关键词对应的子知识图谱,从而实现了对目标语句文本的相关知识的有效补充,通过对子知识图谱进行图特征提取,得到各子知识图谱的图特征,并将各图特征进行特征拼接,得到拼接图特征,使得拼接图特征中富含目标语句文本的相关知识,通过基于拼接图特征,对目标语句文本进行文本预测,得到目标语句文本对应的预测文本,使得文本预测过程中能够充分考虑目标语句文本的相关知识,从而能够有效提高文本处理的准确率。
可以理解的是,在本申请实施例中,涉及到目标语句文本等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面继续说明本申请实施例提供的文本处理装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的文本处理装置455中的软件模块可以包括:提取模块4551,用于对具有语义的目标语句文本进行关键词提取,得到至少一个关键词;获取模块4552,用于获取用于指示多个候选词之间的关联关系的知识图谱,并从所述知识图谱中,分别提取各所述关键词对应的子知识图谱;其中,所述知识图谱中的节点与所述候选词一一对应,所述子知识图谱中包括目标节点,所述目标节点对应的所述候选词,与相应的所述关键词之间的相似度大于相似度阈值;特征模块4553,用于对各所述子知识图谱进行图特征提取,得到各所述子知识图谱的图特征,并将各所述图特征进行特征拼接,得到所述目标语句文本的拼接图特征;预测模块4554,用于基于所述拼接图特征,对所述目标语句文本进行文本预测,得到所述目标语句文本对应的预测文本,所述预测文本的语义与所述目标语句文本的语义相同或相关联。
在一些实施例中,上述提取模块,还用于获取待处理文本,并对所述待处理文本进行语义识别,得到所述待处理文本的语义信息;当所述语义信息指示所述待处理文本具有所述语义时,将所述待处理文本确定为所述目标语句文本;对所述目标语句文本进行分词处理,得到所述目标语句文本中的多个组成词;针对各所述组成词,当所述组成词具有所述语义时,将所述组成词确定为所述关键词。
在一些实施例中,上述提取模块,还用于当所述语义信息指示所述待处理文本不具有所述语义时,针对所述待处理文本中的各组成词分别执行以下处理:从所述知识图谱中,分别提取各所述组成词对应的参考知识图谱,对各所述参考知识图谱进行图特征提取,得到各所述参考知识图谱的参考图特征,并将各所述参考图特征进行特征拼接,得到所述待处理文本的参考拼接图特征;基于所述参考拼接图特征,对所述待处理文本进行文本预测,得到所述待处理文本对应的目标预测文本;其中,所述目标预测文本具有所述语义,且所述目标预测文本中包括所述待处理文本。
在一些实施例中,上述获取模块,还用于针对各所述关键词分别执行以下处理:将所述关键词分别与所述知识图谱中的各所述候选词进行比较,得到比较结果,所述比较结果,用于指示所述知识图谱中是否存在所述关键词相同的候选词;基于所述比较结果,从所述知识图谱的各所述候选词中,选取所述关键词对应的目标候选词;将所述知识图谱中所述目标候选词对应的节点,确定为所述关键词对应的目标节点,并将所述知识图谱中,与所述目标节点存在连接边的节点,确定为所述关键词对应的参考节点;将所述知识图谱中由所述目标节点、所述参考节点所构成的子图结构,确定为所述关键词对应的子知识图谱。
在一些实施例中,上述获取模块,还用于当所述比较结果指示所述知识图谱中存在与所述关键词相同的候选词时,将与所述关键词相同的所述候选词,确定为所述关键词对应的目标候选词;当所述比较结果指示所述知识图谱中不存在与所述关键词相同的候选词时,获取所述关键词分别与各所述候选词之间的相似度;将所述相似度大于所述相似度阈值的至少一个候选词,确定为所述关键词对应的目标候选词。
在一些实施例中,上述文本预测通过特征降噪网络和文本预测网络实现,上述预测模块,还用于调用所述特征降噪网络,对所述拼接图特征进行特征降噪,得到所述目标语句文本的目标特征;调用所述文本预测网络,基于所述目标特征,对所述目标语句文本进行文本预测,得到所述目标语句文本对应的预测文本。
在一些实施例中,上述特征降噪网络包括多个特征降噪层,上述预测模块,还用于调用第1特征降噪层,对所述拼接图特征进行第1次特征降噪,得到第1目标特征;遍历i执行以下处理:调用第i特征降噪层,基于第i-1目标特征,对所述拼接图特征进行第i次特征降噪,得到第i目标特征;其中,,/>用于指示所述特征降噪网络中所述特征降噪层的数量;将第N目标特征,确定为所述目标语句文本的目标特征。
在一些实施例中,上述文本处理方装置,还包括:训练模块,用于获取包括多个初始特征降噪层的初始特征降噪网络、目标语句文本样本,以及标签文本的标签文本特征;对所述目标语句样本进行关键词提取,得到至少一个样本关键词,并从所述知识图谱中,分别提取各所述样本关键词对应的样本知识图谱;对各所述样本知识图谱进行图特征提取,得到各所述样本知识图谱的样本图特征,并将各所述样本图特征进行特征拼接,得到所述目标语句样本的拼接样本特征;依次调用所述初始特征降噪网络的各所述初始特征降噪层,分别对所述拼接样本特征进行特征降噪,得到各所述初始特征降噪层分别对应的目标样本特征;结合各所述目标样本特征和所述标签文本特征,确定所述初始特征降噪网络的损失值,并基于所述损失值,对所述初始特征降噪网络进行训练,得到所述特征降噪网络。
在一些实施例中,所述初始特征降噪网络包括N个初始特征降噪层,N为大于或等于2的正整数,所述标签文本特征和各所述目标样本特征的特征维度相同,上述训练模块,还用于基于各所述目标样本特征,确定所述初始特征降噪网络的第一损失值;将第N初始特征降噪层对应的目标样本特征和所述标签文本特征进行特征相减,得到参考特征,并将所述参考特征的范数,确定为所述初始特征降噪网络的第二损失值;将所述第一损失值和所述第二损失值进行相加,得到所述损失值。
在一些实施例中,上述训练模块,还用于遍历j执行以下处理:将第j+1初始特征降噪层对应的目标样本特征和第j初始特征降噪层对应的目标样本特征进行相减,得到所述第j初始特征降噪层对应的差值特征,将所述差值特征的范数,确定为所述第j初始特征降噪层对应的参考损失值,其中,;将各所述参考损失值进行求和,得到所述第一损失值。
在一些实施例中,上述预测模块,还用于当所述目标语句文本的任务类型为用于回答所述目标语句文本的答案预测任务时,基于所述拼接图特征,对所述目标语句文本进行答案预测,得到所述目标语句文本对应的答案文本,所述答案文本的语义与所述目标语句文本的语义相关联;当所述目标语句文本的任务类型为用于翻译所述目标语句文本的翻译任务时,基于所述拼接图特征,对所述目标语句文本进行翻译,得到所述目标语句文本对应的翻译文本,所述翻译文本的语义与所述目标语句文本的语义相同。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的文本处理方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的文本处理方法,例如,如图3示出的文本处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种电子设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperText Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,计算机可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上,本申请实施例具有如下有益效果:
(1)通过对具有语义的目标语句文本进行关键词提取,得到至少一个关键词,从知识图谱中,分别提取各关键词对应的子知识图谱,对各所述子知识图谱进行图特征提取,得到各所述子知识图谱的图特征,并将各图特征进行特征拼接,得到目标语句文本的拼接图特征,基于拼接图特征,对目标语句文本进行文本预测,得到目标语句文本对应的预测文本。如此,通过确定目标语句文本中各关键词对应的子知识图谱,从而实现了对目标语句文本的相关知识的有效补充,通过对子知识图谱进行图特征提取,得到各子知识图谱的图特征,并将各图特征进行特征拼接,得到拼接图特征,使得拼接图特征中富含目标语句文本的相关知识,通过基于拼接图特征,对目标语句文本进行文本预测,得到目标语句文本对应的预测文本,使得文本预测过程中能够充分考虑目标语句文本的相关知识,从而能够有效提高文本处理的准确率。
(2)通过在语义信息指示待处理文本具有语义时,将待处理文本确定为目标语句文本,并针对各组成词,当组成词具有语义时,将组成词确定为关键词,从而有效减少了后续子知识图谱的提取成本,也即无需针对不具有语义的组成词进行提取,从而有效提高了后续子知识图谱的提取效率。
(3)如此,通过从知识图谱中,分别提取各关键词对应的子知识图谱,从而实现了对各关键词进行知识扩容,通过使得通过各关键词对应的子知识图谱参与后续预测过程,从而有效提高了文本预测的准确率。
(4)通过对各子知识图谱进行图特征提取,得到各子知识图谱的图特征,并将各图特征进行特征拼接,得到目标语句文本的拼接图特征,从而使得拼接图特征融合了目标语句文本的关键词以及各关键词的相关知识,通过拼接图特征有效提高了目标语句文本的知识全面性,使得后续基于拼接图特征所预测得到的预测文本更加准确。
(5)通过多层特征降噪层对拼接图特征进行特征降噪,从而有效减少了拼接图特征中的噪声,使得所得到的目标特征中噪声含量相对较少,使得后续通过目标特征进行预测,所得到的预测文本更加准确。
(6)通过结合各目标样本特征和标签文本特征,确定初始特征降噪网络的损失值,并基于损失值,对初始特征降噪网络进行训练,得到特征降噪网络,使得训练所得到的特征降噪网络的降噪性能更好,有效提高了所确定的目标特征的准确性。
(7)本申请实施例在文本生成任务上可以生成较为连续的语句,并且在概念覆盖度上表现出色。生成的文本能够覆盖大部份包含的概念实体,并且之间的关系也更加明确,符合常识知识。生成的文本也更加丰富,可以包含原本知识中包含不到但是又重要的概念知识,比如,老师相关的概念知识学生也被生成出来加入到文本中,这得益于周围知识的加入。与传统的自回归模型相比较,本申请实施例最大的优点是是可以控制生成的过程,本申请实施例可以通过调整步数得到中间的一些生成结果,可以按照一些特定的需求来改变控制的条件以及生成的步数。如果在训练和测试增加步骤可以做到更高的质量。虽然现在是大语言模型的时代,但是在一些需要特定控制条件的业务下,如果需要控制文本来做生成任务,可以考虑采用本申请实施例提供的文本处理方法。比如本申请实施例想要模型按照本申请实施例给定的一些知识来生成文本,比如医疗、生物等相关领域,本申请实施例不想让模型输出一些无关的东西,本申请实施例就可以借助扩散模型,把领域相关的一些知识加入到控制条件中,然后让其生成对应的语句。这样可以提高模型生成的效率,不再需要重复按照规则训练大模型,节约开发成本。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种文本处理方法,其特征在于,所述方法包括:
对具有语义的目标语句文本进行关键词提取,得到至少一个关键词;
获取用于指示多个候选词之间的关联关系的知识图谱,并从所述知识图谱中,分别提取各所述关键词对应的子知识图谱;
其中,所述知识图谱中的节点与所述候选词一一对应,所述子知识图谱中包括目标节点,所述目标节点对应的所述候选词,与相应的所述关键词之间的相似度大于相似度阈值;
对各所述子知识图谱进行图特征提取,得到各所述子知识图谱的图特征,并将各所述图特征进行特征拼接,得到所述目标语句文本的拼接图特征;
基于所述拼接图特征,对所述目标语句文本进行文本预测,得到所述目标语句文本对应的预测文本,所述预测文本的语义与所述目标语句文本的语义相同或相关联。
2.根据权利要求1所述的方法,其特征在于,所述对具有语义的目标语句文本进行关键词提取,得到至少一个关键词,包括:
获取待处理文本,并对所述待处理文本进行语义识别,得到所述待处理文本的语义信息;
当所述语义信息指示所述待处理文本具有所述语义时,将所述待处理文本确定为所述目标语句文本;
对所述目标语句文本进行分词处理,得到所述目标语句文本中的多个组成词;
针对各所述组成词,当所述组成词具有所述语义时,将所述组成词确定为所述关键词。
3.根据权利要求2所述的方法,其特征在于,所述对所述待处理文本进行语义识别,得到所述待处理文本的语义信息之后,所述方法还包括:
当所述语义信息指示所述待处理文本不具有所述语义时,针对所述待处理文本中的各组成词分别执行以下处理:
从所述知识图谱中,分别提取各所述组成词对应的参考知识图谱,对各所述参考知识图谱进行图特征提取,得到各所述参考知识图谱的参考图特征,并将各所述参考图特征进行特征拼接,得到所述待处理文本的参考拼接图特征;
基于所述参考拼接图特征,对所述待处理文本进行文本预测,得到所述待处理文本对应的目标预测文本;
其中,所述目标预测文本具有所述语义,且所述目标预测文本中包括所述待处理文本。
4.根据权利要求1所述的方法,其特征在于,所述从所述知识图谱中,分别提取各所述关键词对应的子知识图谱,包括:
针对各所述关键词分别执行以下处理:
将所述关键词分别与所述知识图谱中的各所述候选词进行比较,得到比较结果,所述比较结果,用于指示所述知识图谱中是否存在所述关键词相同的候选词;
基于所述比较结果,从所述知识图谱的各所述候选词中,选取所述关键词对应的目标候选词;
将所述知识图谱中所述目标候选词对应的节点,确定为所述关键词对应的目标节点,并将所述知识图谱中,与所述目标节点存在连接边的节点,确定为所述关键词对应的参考节点;
将所述知识图谱中由所述目标节点、所述参考节点所构成的子图结构,确定为所述关键词对应的子知识图谱。
5.根据权利要求4所述的方法,其特征在于,所述基于所述比较结果,从所述知识图谱的各所述候选词中,选取所述关键词对应的目标候选词,包括:
当所述比较结果指示所述知识图谱中存在与所述关键词相同的候选词时,将与所述关键词相同的所述候选词,确定为所述关键词对应的目标候选词;
当所述比较结果指示所述知识图谱中不存在与所述关键词相同的候选词时,获取所述关键词分别与各所述候选词之间的相似度;
将所述相似度大于所述相似度阈值的至少一个候选词,确定为所述关键词对应的目标候选词。
6.根据权利要求1所述的方法,其特征在于,所述文本预测通过特征降噪网络和文本预测网络实现,所述基于所述拼接图特征,对所述目标语句文本进行文本预测,得到所述目标语句文本对应的预测文本,包括:
调用所述特征降噪网络,对所述拼接图特征进行特征降噪,得到所述目标语句文本的目标特征;
调用所述文本预测网络,基于所述目标特征,对所述目标语句文本进行文本预测,得到所述目标语句文本对应的预测文本。
7.根据权利要求6所述的方法,其特征在于,所述特征降噪网络包括多个特征降噪层,所述调用所述特征降噪网络,对所述拼接图特征进行特征降噪,得到所述目标语句文本的目标特征,包括:
调用第1特征降噪层,对所述拼接图特征进行第1次特征降噪,得到第1目标特征;
遍历i执行以下处理:调用第i特征降噪层,基于第i-1目标特征,对所述拼接图特征进行第i次特征降噪,得到第i目标特征;
其中,,/>用于指示所述特征降噪网络中所述特征降噪层的数量;
将第N目标特征,确定为所述目标语句文本的目标特征。
8.根据权利要求6所述的方法,其特征在于,所述调用所述特征降噪网络,对所述拼接图特征进行特征降噪,得到所述目标语句文本的目标特征之前,所述方法还包括:
获取包括多个初始特征降噪层的初始特征降噪网络、目标语句文本样本,以及标签文本的标签文本特征;
对所述目标语句样本进行关键词提取,得到至少一个样本关键词,并从所述知识图谱中,分别提取各所述样本关键词对应的样本知识图谱;
对各所述样本知识图谱进行图特征提取,得到各所述样本知识图谱的样本图特征,并将各所述样本图特征进行特征拼接,得到所述目标语句样本的拼接样本特征;
依次调用所述初始特征降噪网络的各所述初始特征降噪层,分别对所述拼接样本特征进行特征降噪,得到各所述初始特征降噪层分别对应的目标样本特征;
结合各所述目标样本特征和所述标签文本特征,确定所述初始特征降噪网络的损失值,并基于所述损失值,对所述初始特征降噪网络进行训练,得到所述特征降噪网络。
9.根据权利要求8所述的方法,其特征在于,所述初始特征降噪网络包括N个初始特征降噪层,N为大于或等于2的正整数,所述标签文本特征和各所述目标样本特征的特征维度相同,所述结合各所述目标样本特征和所述标签文本特征,确定所述初始特征降噪网络的损失值,包括:
基于各所述目标样本特征,确定所述初始特征降噪网络的第一损失值;
将第N初始特征降噪层对应的目标样本特征和所述标签文本特征进行特征相减,得到参考特征,并将所述参考特征的范数,确定为所述初始特征降噪网络的第二损失值;
将所述第一损失值和所述第二损失值进行相加,得到所述损失值。
10.根据权利要求9所述的方法,其特征在于,所述基于各所述目标样本特征,确定所述初始特征降噪网络的第一损失值,包括:
遍历j执行以下处理:将第j+1初始特征降噪层对应的目标样本特征和第j初始特征降噪层对应的目标样本特征进行相减,得到所述第j初始特征降噪层对应的差值特征,将所述差值特征的范数,确定为所述第j初始特征降噪层对应的参考损失值,其中,
将各所述参考损失值进行求和,得到所述第一损失值。
11.根据权利要求1所述的方法,其特征在于,所述基于所述拼接图特征,对所述目标语句文本进行文本预测,得到所述目标语句文本对应的预测文本,包括:
当所述目标语句文本的任务类型为用于回答所述目标语句文本的答案预测任务时,基于所述拼接图特征,对所述目标语句文本进行答案预测,得到所述目标语句文本对应的答案文本,所述答案文本的语义与所述目标语句文本的语义相关联;
当所述目标语句文本的任务类型为用于翻译所述目标语句文本的翻译任务时,基于所述拼接图特征,对所述目标语句文本进行翻译,得到所述目标语句文本对应的翻译文本,所述翻译文本的语义与所述目标语句文本的语义相同。
12.一种文本处理装置,其特征在于,所述装置包括:
提取模块,用于对具有语义的目标语句文本进行关键词提取,得到至少一个关键词;
获取模块,用于获取用于指示多个候选词之间的关联关系的知识图谱,并从所述知识图谱中,分别提取各所述关键词对应的子知识图谱;其中,所述知识图谱中的节点与所述候选词一一对应,所述子知识图谱中包括目标节点,所述目标节点对应的所述候选词,与相应的所述关键词之间的相似度大于相似度阈值;
特征模块,用于对各所述子知识图谱进行图特征提取,得到各所述子知识图谱的图特征,并将各所述图特征进行特征拼接,得到所述目标语句文本的拼接图特征;
预测模块,用于基于所述拼接图特征,对所述目标语句文本进行文本预测,得到所述目标语句文本对应的预测文本,所述预测文本的语义与所述目标语句文本的语义相同或相关联。
13.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令或者计算机程序;
处理器,用于执行所述存储器中存储的计算机可执行指令或者计算机程序时,实现权利要求1至11任一项所述的文本处理方法。
14.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的文本处理方法。
15.一种计算机程序产品,包括计算机程序或计算机可执行指令,其特征在于,所述计算机程序或计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的文本处理方法。
CN202311476368.0A 2023-11-08 2023-11-08 文本处理方法、装置、电子设备、存储介质及程序产品 Active CN117195913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311476368.0A CN117195913B (zh) 2023-11-08 2023-11-08 文本处理方法、装置、电子设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311476368.0A CN117195913B (zh) 2023-11-08 2023-11-08 文本处理方法、装置、电子设备、存储介质及程序产品

Publications (2)

Publication Number Publication Date
CN117195913A true CN117195913A (zh) 2023-12-08
CN117195913B CN117195913B (zh) 2024-02-27

Family

ID=88998320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311476368.0A Active CN117195913B (zh) 2023-11-08 2023-11-08 文本处理方法、装置、电子设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN117195913B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914568A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 文本修辞句的生成方法、装置、设备及可读存储介质
CN113282729A (zh) * 2021-06-07 2021-08-20 北京金山数字娱乐科技有限公司 基于知识图谱的问答方法及装置
CN113536742A (zh) * 2020-04-20 2021-10-22 阿里巴巴集团控股有限公司 基于知识图谱的描述文本生成方法、装置及电子设备
WO2022022045A1 (zh) * 2020-07-27 2022-02-03 平安科技(深圳)有限公司 基于知识图谱的文本比对方法、装置、设备及存储介质
CN114281956A (zh) * 2021-09-30 2022-04-05 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及存储介质
CN114491077A (zh) * 2022-02-15 2022-05-13 平安科技(深圳)有限公司 文本生成方法、装置、设备及介质
CN114528588A (zh) * 2022-01-25 2022-05-24 鹏城实验室 跨模态隐私语义表征方法、装置、设备及存储介质
CN114996458A (zh) * 2022-06-28 2022-09-02 中国平安人寿保险股份有限公司 文本处理方法和装置、设备、介质
CN115204156A (zh) * 2022-07-14 2022-10-18 北京金山数字娱乐科技有限公司 关键词提取方法及装置
WO2023159767A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 目标词语的检测方法、装置、电子设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536742A (zh) * 2020-04-20 2021-10-22 阿里巴巴集团控股有限公司 基于知识图谱的描述文本生成方法、装置及电子设备
WO2022022045A1 (zh) * 2020-07-27 2022-02-03 平安科技(深圳)有限公司 基于知识图谱的文本比对方法、装置、设备及存储介质
CN111914568A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 文本修辞句的生成方法、装置、设备及可读存储介质
WO2021139229A1 (zh) * 2020-07-31 2021-07-15 平安科技(深圳)有限公司 文本修辞句的生成方法、装置、设备及可读存储介质
CN113282729A (zh) * 2021-06-07 2021-08-20 北京金山数字娱乐科技有限公司 基于知识图谱的问答方法及装置
CN114281956A (zh) * 2021-09-30 2022-04-05 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及存储介质
CN114528588A (zh) * 2022-01-25 2022-05-24 鹏城实验室 跨模态隐私语义表征方法、装置、设备及存储介质
CN114491077A (zh) * 2022-02-15 2022-05-13 平安科技(深圳)有限公司 文本生成方法、装置、设备及介质
WO2023159767A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 目标词语的检测方法、装置、电子设备及存储介质
CN114996458A (zh) * 2022-06-28 2022-09-02 中国平安人寿保险股份有限公司 文本处理方法和装置、设备、介质
CN115204156A (zh) * 2022-07-14 2022-10-18 北京金山数字娱乐科技有限公司 关键词提取方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RUI CHENG ET.AL: "Adaptive feature denoising based deep convolutional network for single image super-resolution", 《COMPUTER VISION AND IMAGE UNDERSTANDING 223 (2022) 103518》, pages 1 - 11 *
XIANG LISA LI ET.AL: "Diffusion-LM Improves Controllable Text Generation", 《ARXIV:2205.14217V1》, pages 1 - 25 *
乔振浩 等: "基于问题生成的知识图谱问答方法", 智能计算机与应用, vol. 10, no. 05, pages 1 - 5 *

Also Published As

Publication number Publication date
CN117195913B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
Stevens et al. Deep learning with PyTorch
CN112131366A (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN111339255A (zh) 目标情感分析的方法、模型训练方法、介质和设备
CN114970721A (zh) 多语言多模态预训练模型的训练方法、装置及电子设备
CN112015896B (zh) 基于人工智能的情感分类方法、以及装置
Boussakssou et al. Chatbot in Arabic language using seq to seq model
Linegar et al. Large language models and political science
Aksonov et al. Question-Answering Systems Development Based on Big Data Analysis
Hamza et al. Arabic duplicate questions detection based on contextual representation, class label matching, and structured self attention
Nelimarkka Computational thinking and social science: Combining programming, methodologies and fundamental concepts
CN115114937A (zh) 文本获取方法、装置、计算机设备及存储介质
Antiga et al. Deep learning with PyTorch
CN114757210A (zh) 翻译模型的训练方法、语句翻译方法、装置、设备、程序
CN112132281B (zh) 一种基于人工智能的模型训练方法、装置、服务器及介质
Moharil et al. Tabasco: A transformer based contextualization toolkit
CN117195913B (zh) 文本处理方法、装置、电子设备、存储介质及程序产品
CN117033649A (zh) 文本处理模型的训练方法、装置、电子设备及存储介质
CN111625623B (zh) 文本主题提取方法、装置、计算机设备、介质和程序产品
Ha et al. Supervised attention for answer selection in community question answering
CN112818212B (zh) 语料数据采集方法、装置、计算机设备和存储介质
CN111914201B (zh) 网络页面的处理方法及装置
Strømsvåg Exploring the why in ai: Investigating how visual question answering models can be interpreted by post-hoc linguistic and visual explanations
Kentour et al. An investigation into the deep learning approach in sentimental analysis using graph-based theories
CN113705251A (zh) 机器翻译模型的训练方法、语言翻译方法及设备
Artemova Deep learning for the Russian language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant