CN117592564A - 问答交互方法、装置、设备及介质 - Google Patents

问答交互方法、装置、设备及介质 Download PDF

Info

Publication number
CN117592564A
CN117592564A CN202311516077.XA CN202311516077A CN117592564A CN 117592564 A CN117592564 A CN 117592564A CN 202311516077 A CN202311516077 A CN 202311516077A CN 117592564 A CN117592564 A CN 117592564A
Authority
CN
China
Prior art keywords
question
information
text
questioning
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311516077.XA
Other languages
English (en)
Inventor
孙景洲
谭韬
李娜
吴文哲
陈又新
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Chuangke Technology Beijing Co ltd
Original Assignee
Ping An Chuangke Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Chuangke Technology Beijing Co ltd filed Critical Ping An Chuangke Technology Beijing Co ltd
Priority to CN202311516077.XA priority Critical patent/CN117592564A/zh
Publication of CN117592564A publication Critical patent/CN117592564A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及人工智能及智慧医疗技术领域,公开了一种问答交互方法、装置、设备及介质,包括:接收待处理的提问信息;根据所述提问信息对应的信息类型,确定所述提问信息对应的信息处理模式;基于所述信息处理模式以及预设的信息处理架构,将所述提问信息转换为预设格式的提问文本;通过预设的问答交互模型对所述提问文本进行处理,得到所述提问文本对应的回答文本。本方案可以提高问答交互模型的泛化能力,进而可以提高问答交互的准确性。

Description

问答交互方法、装置、设备及介质
技术领域
本发明涉及智能视觉及语义识别技术领域,尤其涉及一种问答交互方法、装置、设备及介质。
背景技术
智能客服目前应用于各行各业,它可以帮助企业实现在线服务的智能化人机协作***,提高坐席服务的效率、降低人力开销及新人业务知识学习成本。随着大模型深入到各个垂直领域中,用户的问题会越来越专业化所需要的知识也会越来越具体。
目前的智能问答***主要是通过问答交互模型与用户进行交互,该问答交互模型主要的数据源为文本数据,这样虽然使模型拥有了较强的语言理解和生成能力,但是对于语音和图片等复杂的提问信息并没有较好的泛化能力,导致最终的问答交互的准确性较差。
发明内容
本发明提供一种人工智能的问答交互方法、装置、计算机设备及介质,可以提高问答交互模型的泛化能力,进而可以提高问答交互的准确性。
第一方面,提供了一种问答交互方法,包括:
接收待处理的提问信息;
根据所述提问信息对应的信息类型,确定所述提问信息对应的信息处理模式;
基于所述信息处理模式以及预设的信息处理架构,将所述提问信息转换为预设格式的提问文本;
通过预设的问答交互模型对所述提问文本进行处理,得到所述提问文本对应的回答文本。
第二方面,提供了一种问答交互装置,包括:
接收模块,用于接收待处理的提问信息;
确定模块,用于根据所述提问信息对应的信息类型,确定所述提问信息对应的信息处理模式;
转换模块,用于基于所述信息处理模式以及预设的信息处理架构,将所述提问信息转换为预设格式的提问文本;
处理模块,用于通过预设的问答交互模型对所述提问文本进行处理,得到所述提问文本对应的回答文本。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述问答交互方法的步骤。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述问答交互方法的步骤。
上述问答交互方法、装置、计算机设备及存储介质所实现的方案中,可以获取接收待处理的提问信息,根据所述提问信息对应的信息类型,确定所述提问信息对应的信息处理模式,基于所述信息处理模式以及预设的信息处理架构,将所述提问信息转换为预设格式的提问文本,通过预设的问答交互模型对所述提问文本进行处理,得到所述提问文本对应的回答文本,在本发明中,基于预设的信息处理架构以及提问信息对应的信息处理模式,将提问信息转换为预设格式的提问文本,再通过预设的问答交互模型对提问文本进行处理,从而得到相应的回答文本,可以避免在问答语料不足的情况下,问答交互模型无法正确地生成提问信息对应的回答文本,由此,可以提高问答交互模型的泛化能力,进而提高了问答交互的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中问答交互方法的一应用环境示意图;
图2是本发明一实施例中问答交互方法的一流程示意图;
图3是本发明一实施例中问答交互***的示意图;
图4是本发明一实施例中问答交互***中全解码器的示意图;
图5是本发明一实施例中问答交互***中图文学习的示意图
图6是本发明一实施例中问答交互装置的一结构示意图;
图7是本发明一实施例中问答交互装置的另一结构示意图;
图8是本发明一实施例中计算机设备的一结构示意图;
图9是本发明一实施例中计算机设备的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的问答交互方法可应用于智能诊疗、远程会诊、智能视觉以及语义识别等场景,其应用环境如图1所示,其中,客户端通过网络与服务端进行通信。客户端可以接收待处理的提问信息,然后,客户端根据提问信息对应的信息类型,确定提问信息对应的信息处理模式,接着,基于信息处理模式以及预设的信息处理架构,将提问信息转换为预设格式的提问文本,最后,客户端可以通过预设的问答交互模型对提问文本进行处理,得到提问文本对应的回答文本。
在本发明中,基于预设的信息处理架构以及提问信息对应的信息处理模式,将提问信息转换为预设格式的提问文本,再通过预设的问答交互模型对提问文本进行处理,从而得到相应的回答文本,可以避免在问答语料不足的情况下,问答交互模型无法正确地生成提问信息对应的回答文本,由此,可以提高问答交互模型的泛化能力,进而提高了问答交互的准确性。
本发明的问答交互方法可以应用于信息查询的场景,比如,在医疗领域中,可以从海量的电子病历中查询用户所需的病历信息,有助于为用户提供病历参考。又比如,在互联网领域,可以从海量的互联网数据中输出用户所查询的回答信息。
本发明实施例提供的问答交互方法涉及人工智能领域中的自然语言处理方向。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术
以下进行详细说明。
请参阅图2所示,图2为本发明实施例提供的问答交互方法的一个流程示意图,包括如下步骤:
101、接收待处理的提问信息。
本发明实施例可以应用于智能客服***,该智能客服***为在大规模知识处理基础上发展起来的一项面向行业应用的***,其适用大规模知识处理、自然语言理解、知识管理、自动问答***等技术行业,可以为用户和工作人员之间的沟通而建立一种基于自然语言的快捷有效的技术手段。可以理解的是,本发明实施例的提问信息可以通过问答设备进行采集,该问答设备可以是智能手机、个人电脑或服务器。具体可以通过麦克风获取语音提问信息,也可以通过摄像头获取图像提问信息,还可以通过获取用户输入的文本或图像,从而获取到文本提问信息或图像提问信息。具体可以根据实际情况进行设置,在此不再赘述。
102、根据提问信息对应的信息类型,确定提问信息对应的信息处理模式。
从前述可知,本发明的提问信息可以包括不同类型的提问信息,如语音类型的提问信息、图像类型的提问信息以及文本类型的提问信息,因此,为了便于后续进行问答交互,在发明中,需要确定提问信息对应的信息类型,从而确定提问信息对应的信息处理模式。
103、基于信息处理模式以及预设的信息处理架构,将提问信息转换为预设格式的提问文本。
本发明提供一种信息处理架构,其中,该信息处理架构包括三个子网络,每个子网络对应一种信息处理模式。比如,图像处理模式对应第一子网络,文本处理模式对应第二子网络,语音处理模式对应第三子网络。可以理解的是,在预设的信息处理架构中,可以确定信息处理模式对应的目标信息处理网络,然后,通过该目标信息处理网络,将提问信息转换为预设格式的提问文本,以便后续进行问答交互,即,可选地,在一些实施例中,步骤“基于信息处理模式以及预设的信息处理架构,将提问信息转换为预设格式的提问文本”,具体可以包括:
(11)在预设的信息处理架构中,确定信息处理模式对应的目标信息处理网络;
(12)根据目标信息处理网络,将提问信息转换为预设格式的提问文本。
以图像处理模式对应第一子网络,文本处理模式对应第二子网络,语音处理模式对应第三子网络为例进行说明。可以理解的是,本发明提供的信息处理架构可以包括三个不同的子网络,因此,对于不同信息类型的提问信息,采用不同的子网络将其转换为预设格式的提问文本,以便后续通过问答交互模型,生成相应的回答文本。
针对于不同类型的提问信息的处理,包括如下三种情况;
情况一:
针对于图像类型的提问信息,可以对该提问信息进行分块并编码,以获得一系列的嵌入特征,然后,通过目标信息网络对该嵌入特征进行处理(如解码),预估该提问信息对应的提问文本,即,可选地,在一些实施例中,步骤“根据目标信息处理网络,将提问信息转换为预设格式的提问文本”,具体可以包括:
(21)对提问信息进行分块,并对分块后的提问信息进行编码;
(22)基于目标信息处理网络对编码后信息进行处理,得到提问信息对应的提问文本。
情况二:
针对于文本类型的提问信息,首先,可以将该提问信息进行编码,然后,利用于目标信息处理网络对编码后信息进行处理,解码得到该提问信息对应的词向量序列,即,可选地,在一些实施例中,步骤“根据目标信息处理网络,将提问信息转换为预设格式的提问文本”,具体可以包括:
(31)对目标信息进行编码,得到目标信息在预设长度的语义表示;
(32)利用目标信息处理网络对语义表示进行解码,得到目标信息对应的词向量序列。
例如,具体的,可以通过编码器对目标信息进行编码,即,可以将目标信息转换到向量生成预测的语义关系,然后,通过目标信息处理网络对语义表示进行解码,输出预测概率最高的词序列向量,即,该词序列向量包含多个词向量,且每个词向量之间具备顺序关系。可以理解的是,将目标信息(即文本)编码为包含语义关系的向量X=(x1,x2,x3),然后,通过目标信息处理网络对向量X=(x1,x2,x3)进行解码,预估目标信息第一位的词向量为x1’,然后,预估x1’的下一个词向量为x2’的概率为30%,预估x1’的下一个词向量为x3’的概率为70%,则该词序列向量为(x1’,x3’,x2’)。
情况三:
针对于语音类型的提问信息,直接将该提问信息转换成语音文本的话,可能会出现转换过程中语音的情感、语速以及韵律信息丢失的问题,因此,本发明提供一种思路,利用提示学习器结合接转换的语音文本和语音文本对应的回答文本,从而将提问信息转换为预设格式的提问文本,即,可选地,在一些实施例中,步骤“根据目标信息处理网络,将提问信息转换为预设格式的提问文本”,具体可以包括:
(41)提取提问信息的特征,得到提问信息对应的特征帧序列;
(42)对特征帧序列进行编码,得到提问信息对应的高阶特征;
(43)对高阶特征进行解码,得到提问信息对应的文本序列;
(44)基于预设的音频提示学习器以及文本序列,将提问信息转换为预设格式的提问文本。
需要说明的是,数据少的时候(低资源/小样本)无法使用大量下游任务微调模型参数,产生了提示学习(Prompt Learning,PL),PL是让很多个下游任务迁就模型,将下游任务组装成自然语言形式,完善模型本身。
例如,具体的,首先对目标信息进行快速傅里叶变换处理以及梅尔频率倒谱系数等数字信号处理技术提取特征,将提问信息转换为特征帧序列,然后,对该特征帧序列进行编码,得到提问信息对应的高阶特征,然后,对该高阶特征进行解码,从而得到提问信息对应的文本序列。此外,需要说明的是,在本发明中,利用音频提示学习器将文本序列编码为语音模态的软提示,并基于该软提示以及文本序列,将提问信息转换为预设格式的提问文本,即,可选地,在一些实施例中,步骤“基于预设的音频提示学习器以及文本序列,将提问信息转换为预设格式的提问文本”,具体可以包括:
(51)基于预设的音频提示学习器将文本序列编码为语音模态的软提示;
(52)对软提示进行解码,得到提问信息对应的提问文本。
104、通过预设的问答交互模型对提问文本进行处理,得到提问文本对应的回答文本。
在得到上述预设格式的提问文本后,通过预设的问答交互模型对提问文本进行处理,从而得到提问文本对应的回答文本。其中,该问答交互模型可以为大语言模型(LargeLanguage Model,LLM),LLM是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。
针对于语音类型的提问信息,在基于预设的音频提示学习器将文本序列编码为语音模态的软提示后,将软提示和文本序列输入至大语言模型,由大语言模型输出该目标信息对应的参考回答文本。然后,将该参考回答文本进行分词,并对分词后文本进行编码,得到分词后文本特征;同时,利用文本序列编码的软提示对该分词后文本特征进行解码,最终得到提问文本对应的回答文本。
针对于文本类型的提问信息,在对提问信息进行编码后,得到目标信息在预设长度的语义表示;然后,利用目标信息处理网络对语义表示进行解码,得到目标信息对应的词向量序列;接着,将该词向量序列输入至大语言模型中,利用大语言模型预估该词向量序列中每个词向量对应的候选回答词,最终到提问文本对应的回答文本。
针对于图像类型的提问信息,基于目标信息处理网络对编码后信息进行处理,得到提问信息对应的提问文本,同样也是将该提问文本输入至大语言模型中,由大语言模型输出该目标信息对应的图文相关文本。
此外,可以理解的是,该问答交互模型可以是预先训练的,具体可以获取语音训练样本、文本训练样本以及图片文本对训练样本,然后,通过语音训练样本训练基础交互模型的第一子网络、通过文本训练样本训练基础交互模型的第二子网络以及通过图片文本对训练样本训练基础交互模型的第三子网络,得到问答交互模型,由此,该问答交互模型在实际使用时,则具备多个模态的问答交互能力。
需要说明的是,图片文本对训练样本的表现形式为图片-图片的描述文本,比如,图片a-一只水上飞行的鸟,图片b-红绿灯等,即,将描述文本与图片进行关联。
为了进一步理解本发明的问答交互方案,以下从问答交互***的角度进行详细说明,请参阅图3,本发明提供一种问答交互模型,如图3所示,包括语音处理模型S1、文本处理模型S2以及图片处理模型S3,具体如下:
语音处理模型S1主要包括自动语音识别(Automatic Speech Recognition,ASR)模块和文本语音合成模块(Text To Speech,TTS),两个模块均为序列到序列(Seq2Seq)编码器解码器架构。其中,自动语音识别模块首先通过预处理、快速傅里叶变换(FFT)、梅尔频率倒谱系数(MFCC)等数字信号处理技术提取特征,将语音信号转化成特征帧序列0={o1,o2,…,oT};将特征帧序列输入到编码器,提取音频的高阶特征H=EncodeT(0);解码器以自回归的形式根据高阶特征和历史输入解码当前文本wn=DecodeT(w1:n-1,H),假设可能的序列为w={w1,w2,…,wN},解码器求解后验概率最大的文本序列
文本语音合成模块通过文本分析模块对文本进行分词并将输入转为音素;声学模型通过音素预测梅尔频谱(Mel-Spectrogram,Mels)等中间表征,声码器将其还原成音频。
两个模块的集成得以处理音频信号与文本的相互转换,为了解决转换过程中语音的情感、语速、韵律信息丢失的问题,利用一个音频提示学习器(Prompt Learner,PL)将自动语音识别模块转化的底层特征帧序列编码成语音模态的软提示(Soft Prompt,SP):
sPi=PL(oi)
对于整个输入,使用平均池化(Mean pooling)来获得全局的底层特征帧表示:
Sp=Mean pooling(Spi)
该表示相比转化后的文本序列,更完整地保留了语音信号的情感、语速、韵律信息,且没有引入高层编码器解码器噪声。将该表示提供给大语言模型和文本语音合成模块,为其注入音频情感信息。
针对文本处理模型S2,为了更好地执行生成任务,采用全解码器(Decoder Only)的模型结构,如图4所示。
给定候选词集合u=(u1,...,un)和历史输入窗口大小k,语言模型位置i的高阶特征hi及候选词概率p(u)计算如下:
hi=Model(hl-1),l∈[1,n]
p(u)=softmax(FC(hi)
训练目标为最大化似然函数:
其中θ为可训练的模型参数。
针对图片处理模型S3,为了增强***的视觉能力,我们使用图片编码器(ImageEncoder)将图片分块并编码,获得一系列嵌入,之后使用一个视觉提示学习器(PromptLearner)学习任务特化的图片表征作为大规模语言模型(Large Language Model,LLM)的视觉软提示,为其注入视觉信息。在训练时,我们使用对齐的图片-文本对联合图片编码器和大规模语言模型进行图文对比学习和图片-文本无监督生成两个任务的训练。前者帮助提示学习器对齐模态,后者使语言模型能够根据其提供的视觉提示生成对应的文本,图文学习的过程如图5所示。其中,对比学习损失采用InfoNCE损失,对于第i个图片-文本对,彼此作为匹配的正样本,训练批次内其他图片-文本对作为负样本,图-文损失文-图损失损失/>如下:
最终损失为
本发明提供的***使用语音识别和文本语音生成支持语音输入和语音对话,音频提示学习器能够利用底层特征,获得语音信号的情感表示,丰富音频模态表征。将文本模态作为桥梁,结合大规模语言模型的语义理解和生成能力,支持用户的语音对话需求,可作为框架集成不同的语言模型和图片编码器,也可以结合领域数据训练垂直领域对话模型;根据场景需要,模态间的对齐和结合可以对语言模型和图片编码器进行微调,也可以仅训练提示学习器,这样既不会在模态间互相引入噪声,又减小了训练所需参数和资源,大大扩展了应用场景和价值。
可见,本发明提供一种问答交互方法,在接收待处理的提问信息后,根据提问信息对应的信息类型,确定提问信息对应的信息处理模式,接着,基于信息处理模式以及预设的信息处理架构,将提问信息转换为预设格式的提问文本,最后,通过预设的问答交互模型对所述提问文本进行处理,得到所述提问文本对应的回答文本,在本发明提供的问答交互方案中,基于预设的信息处理架构以及提问信息对应的信息处理模式,将提问信息转换为预设格式的提问文本,再通过预设的问答交互模型对提问文本进行处理,从而得到相应的回答文本,可以避免在问答语料不足的情况下,问答交互模型无法正确地生成提问信息对应的回答文本,由此,可以提高问答交互模型的泛化能力,进而提高了问答交互的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种问答交互装置,该问答交互装置与上述实施例中问答交互方法一一对应。如图6所示,该问答交互装置包括接收模块201、确定模块202、转换模块203和处理模块204。各功能模块详细说明如下:
接收模块201,用于接收待处理的提问信息。
确定模块202,用于根据提问信息对应的信息类型,确定提问信息对应的信息处理模式。
发明的提问信息可以包括不同类型的提问信息,如语音类型的提问信息、图像类型的提问信息以及文本类型的提问信息,因此,为了便于后续进行问答交互,在发明中,需要确定提问信息对应的信息类型,从而确定提问信息对应的信息处理模式。
转换模块203,用于基于信息处理模式以及预设的信息处理架构,将所述提问信息转换为预设格式的提问文本。
其中,该信息处理架构包括三个子网络,每个子网络对应一种信息处理模式。比如,图像处理模式对应第一子网络,文本处理模式对应第二子网络,语音处理模式对应第三子网络。可以理解的是,在预设的信息处理架构中,可以确定信息处理模式对应的目标信息处理网络,然后,通过该目标信息处理网络,将提问信息转换为预设格式的提问文本,以便后续进行问答交互。
处理模块204,用于通过预设的问答交互模型对提问文本进行处理,得到提问文本对应的回答文本。
在得到上述预设格式的提问文本后,通过预设的问答交互模型对提问文本进行处理,从而得到提问文本对应的回答文本。其中,该问答交互模型可以为大语言模型(LargeLanguage Model,LLM),LLM是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。
针对于语音类型的提问信息,在基于预设的音频提示学习器将文本序列编码为语音模态的软提示后,将软提示和文本序列输入至大语言模型,由大语言模型输出该目标信息对应的参考回答文本。然后,将该参考回答文本进行分词,并对分词后文本进行编码,得到分词后文本特征;同时,利用文本序列编码的软提示对该分词后文本特征进行解码,最终得到提问文本对应的回答文本。
针对于文本类型的提问信息,在对提问信息进行编码后,得到目标信息在预设长度的语义表示;然后,利用目标信息处理网络对语义表示进行解码,得到目标信息对应的词向量序列;接着,将该词向量序列输入至大语言模型中,利用大语言模型预估该词向量序列中每个词向量对应的候选回答词,最终到提问文本对应的回答文本。
针对于图像类型的提问信息,基于目标信息处理网络对编码后信息进行处理,得到提问信息对应的提问文本,同样也是将该提问文本输入至大语言模型中,由大语言模型输出该目标信息对应的图文相关文本。
可选地,在一些实施例中,转换模块203具体可以包括:
确定单元,用于在预设的信息处理架构中,确定信息处理模式对应的目标信息处理网络;
转换单元,用于根据目标信息处理网络,将提问信息转换为预设格式的提问文本。
针对于图像类型的提问信息,可以对该提问信息进行分块并编码,以获得一系列的嵌入特征,然后,通过目标信息网络对该嵌入特征进行处理,预估该提问信息对应的提问文本,即,可选地,在一些实施例中,转换单元具体可以用于:
对提问信息进行分块,并对分块后的提问信息进行编码;
基于目标信息处理网络对编码后信息进行处理,得到提问信息对应的提问文本。
针对于文本类型的提问信息,首先,可以将该提问信息进行编码,然后,利用于目标信息处理网络对编码后信息进行处理,解码得到该提问信息对应的词向量序列,即,可选地,在一些实施例中,转换单元具体可以用于:
对目标信息进行编码,得到目标信息在预设长度的语义表示;
利用目标信息处理网络对语义表示进行解码,得到目标信息对应的词向量序列。
针对于语音类型的提问信息,直接将该提问信息转换成语音文本的话,可能会出现转换过程中语音的情感、语速以及韵律信息丢失的问题,因此,本发明提供一种思路,利用提示学习器结合接转换的语音文本和语音文本对应的回答文本,从而将提问信息转换为预设格式的提问文本,即,可选地,在一些实施例中,转换单元具体可以用于:
提取提问信息的特征,得到提问信息对应的特征帧序列;
对特征帧序列进行编码,得到提问信息对应的高阶特征;
对高阶特征进行解码,得到提问信息对应的文本序列;
基于预设的音频提示学习器以及文本序列,将提问信息转换为预设格式的提问文本。
可选地,在一些实施例中,转换单元具体可以用于:
基于预设的音频提示学习器将文本序列编码为语音模态的软提示;
对软提示进行解码,得到提问信息对应的提问文本。
此外,可以理解的是,该问答交互模型可以是预先训练的,具体可以获取语音训练样本、文本训练样本以及图片文本对训练样本,然后,通过语音训练样本训练基础交互模型的第一子网络、通过文本训练样本训练基础交互模型的第二子网络以及通过图片文本对训练样本训练基础交互模型的第三子网络,得到问答交互模型,由此,该问答交互模型在实际使用时,则具备多个模态的问答交互能力。可选地,请参阅图7,本发明的问答交互装置具体还可以包括训练模块205,该训练模块205具体可以用于:获取语音训练样本、文本训练样本以及图片文本对训练样本;通过语音训练样本训练基础交互模型的第一子网络、通过文本训练样本训练基础交互模型的第二子网络以及通过图片文本对训练样本训练基础交互模型的第三子网络,得到问答交互模型。
本发明提供了一种问答交互装置,接收模块201在接收待处理的提问信息后,确定模块202根据提问信息对应的信息类型,确定提问信息对应的信息处理模式,接着,转换模块203基于信息处理模式以及预设的信息处理架构,将提问信息转换为预设格式的提问文本,最后,处理模块204通过预设的问答交互模型对所述提问文本进行处理,得到所述提问文本对应的回答文本,在本发明提供的问答交互方案中,基于预设的信息处理架构以及提问信息对应的信息处理模式,将提问信息转换为预设格式的提问文本,再通过预设的问答交互模型对提问文本进行处理,从而得到相应的回答文本,可以避免在问答语料不足的情况下,问答交互模型无法正确地生成提问信息对应的回答文本,由此,可以提高问答交互模型的泛化能力,进而提高了问答交互的准确性。
关于问答交互装置的具体限定可以参见上文中对于智能问答处方法的限定,在此不再赘述。上述问答交互装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
可选地,在一些实施例中,提供了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种问答交互方法服务端侧的功能或步骤。
可选地,在一些实施例中,提供了一种计算机设备,该计算机设备可以是客户端,其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种问答交互方法客户端侧的功能或步骤。
可选地,在一些实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取预设的问答语料集;
确定每个提问语料与回答语料之间的对应关系,并基于对应关系分别对多个提问语料和多个回答语料进行标注,得到标注后语料集;
基于预设的语言生成模型对所述标注后语料集进行语料扩充,得到扩充后语料集;
根据扩充后语料集对初始问答模型进行训练,得到目标问答模型,以通过目标问答模型进行问答交互。
本发明在获取预设的问答语料集后,确定每个提问语料与回答语料之间的对应关系,并基于对应关系分别对多个提问语料和多个回答语料进行标注,得到标注后语料集,接着,基于预设的语言生成模型对标注后语料集进行语料扩充,得到扩充后语料集,最后,根据扩充后语料集对初始问答模型进行训练,得到目标问答模型,以通过目标问答模型进行问答交互,在本发明提供的问答交互方案中,通过预设的语言生成模型,对已标注的问答语料集进行语料扩充,并利用扩充后语料集对初始问答模型进行训练,提高了目标问答模型的泛化能力,进而提高了问答交互的准确性。
可选地,在一些实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取预设的问答语料集;
确定每个提问语料与回答语料之间的对应关系,并基于对应关系分别对多个提问语料和多个回答语料进行标注,得到标注后语料集;
基于预设的语言生成模型对所述标注后语料集进行语料扩充,得到扩充后语料集;
根据扩充后语料集对初始问答模型进行训练,得到目标问答模型,以通过目标问答模型进行问答交互。
获取预设的问答语料集后,确定每个提问语料与回答语料之间的对应关系,并基于对应关系分别对多个提问语料和多个回答语料进行标注,得到标注后语料集,接着,基于预设的语言生成模型对标注后语料集进行语料扩充,得到扩充后语料集,最后,根据扩充后语料集对初始问答模型进行训练,得到目标问答模型,以通过目标问答模型进行问答交互,在本发明提供的问答交互方案中,通过预设的语言生成模型,对已标注的问答语料集进行语料扩充,并利用扩充后语料集对初始问答模型进行训练,提高了目标问答模型的泛化能力,进而提高了问答交互的准确性。
需要说明的是,上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中,服务端侧以及客户端侧的相关描述,为避免重复,这里不再一一描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种问答交互方法,其特征在于,包括:
接收待处理的提问信息;
根据所述提问信息对应的信息类型,确定所述提问信息对应的信息处理模式;
基于所述信息处理模式以及预设的信息处理架构,将所述提问信息转换为预设格式的提问文本;
通过预设的问答交互模型对所述提问文本进行处理,得到所述提问文本对应的回答文本。
2.根据权利要求1所述的方法,其特征在于,所述基于所述信息处理模式以及预设的信息处理架构,将所述提问信息转换为预设格式的提问文本,包括:
在预设的信息处理架构中,确定所述信息处理模式对应的目标信息处理网络;
根据所述目标信息处理网络,将所述提问信息转换为预设格式的提问文本。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标信息处理网络,将所述提问信息转换为预设格式的提问文本,包括:
对所述提问信息进行分块,并对分块后的提问信息进行编码;
基于所述目标信息处理网络对编码后信息进行处理,得到所述提问信息对应的提问文本。
4.根据权利要求2所述的方法,其特征在于,所述根据所述目标信息处理网络,将所述提问信息转换为预设格式的提问文本,包括:
对所述目标信息进行编码,得到所述目标信息在预设长度的语义表示;
利用所述目标信息处理网络对所述语义表示进行解码,得到所述目标信息对应的词向量序列。
5.根据权利要求2所述的方法,其特征在于,所述根据所述目标信息处理网络,将所述提问信息转换为预设格式的提问文本,包括:
提取所述提问信息的特征,得到所述提问信息对应的特征帧序列;
对所述特征帧序列进行编码,得到所述提问信息对应的高阶特征;
对所述高阶特征进行解码,得到所述提问信息对应的文本序列;
基于预设的音频提示学习器以及所述文本序列,将所述提问信息转换为预设格式的提问文本。
6.根据权利要求5所述的方法,其特征在于,所述基于预设的音频提示学习器以及所述文本序列,将所述提问信息转换为预设格式的提问文本,包括:
基于预设的音频提示学习器将所述文本序列编码为语音模态的软提示;
对所述软提示进行解码,得到所述提问信息对应的提问文本。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述接收待处理的提问信息之前,还包括:
获取语音训练样本、文本训练样本以及图片文本对训练样本;
通过所述语音训练样本训练基础交互模型的第一子网络、通过所述文本训练样本训练基础交互模型的第二子网络以及通过所述图片文本对训练样本训练基础交互模型的第三子网络,得到问答交互模型。
8.一种问答交互装置,其特征在于,包括:
接收模块,用于接收待处理的提问信息;
确定模块,用于根据所述提问信息对应的信息类型,确定所述提问信息对应的信息处理模式;
转换模块,用于基于所述信息处理模式以及预设的信息处理架构,将所述提问信息转换为预设格式的提问文本;
处理模块,用于通过预设的问答交互模型对所述提问文本进行处理,得到所述提问文本对应的回答文本。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述问答交互方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述问答交互方法的步骤。
CN202311516077.XA 2023-11-14 2023-11-14 问答交互方法、装置、设备及介质 Pending CN117592564A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311516077.XA CN117592564A (zh) 2023-11-14 2023-11-14 问答交互方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311516077.XA CN117592564A (zh) 2023-11-14 2023-11-14 问答交互方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN117592564A true CN117592564A (zh) 2024-02-23

Family

ID=89919286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311516077.XA Pending CN117592564A (zh) 2023-11-14 2023-11-14 问答交互方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117592564A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118135592A (zh) * 2024-05-09 2024-06-04 支付宝(杭州)信息技术有限公司 一种基于医疗llm模型的用户服务方法、装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118135592A (zh) * 2024-05-09 2024-06-04 支付宝(杭州)信息技术有限公司 一种基于医疗llm模型的用户服务方法、装置

Similar Documents

Publication Publication Date Title
CN109785824B (zh) 一种语音翻译模型的训练方法及装置
WO2021072875A1 (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN111930914B (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
US11961515B2 (en) Contrastive Siamese network for semi-supervised speech recognition
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
WO2023226239A1 (zh) 对象情绪的分析方法、装置和电子设备
CN117592564A (zh) 问答交互方法、装置、设备及介质
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
CN112837669A (zh) 语音合成方法、装置及服务器
CN113761841A (zh) 将文本数据转换为声学特征的方法
CN116912642A (zh) 基于双模多粒度交互的多模态情感分析方法、设备及介质
CN115269836A (zh) 意图识别方法及装置
CN113782042A (zh) 语音合成方法、声码器的训练方法、装置、设备及介质
CN117150338A (zh) 任务处理、自动问答以及多媒体数据识别模型训练方法
CN116580691A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
CN114360491B (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN114743539A (zh) 语音合成方法、装置、设备及存储介质
CN111310847B (zh) 训练要素分类模型的方法和装置
CN114724568A (zh) 基于神经网络的语音转换方法、***、设备及存储介质
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
CN113761943A (zh) 司法对话的生成方法和模型训练方法、装置以及存储介质
CN110110048B (zh) 问询指引方法及装置
CN115081459B (zh) 口语文本生成方法、装置、设备及存储介质
CN117150320B (zh) 对话数字人情感风格相似度评价方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination