CN117828064B - 一种问答***及问答***的构建方法 - Google Patents

一种问答***及问答***的构建方法 Download PDF

Info

Publication number
CN117828064B
CN117828064B CN202410250376.1A CN202410250376A CN117828064B CN 117828064 B CN117828064 B CN 117828064B CN 202410250376 A CN202410250376 A CN 202410250376A CN 117828064 B CN117828064 B CN 117828064B
Authority
CN
China
Prior art keywords
text
question
database
label
reply data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410250376.1A
Other languages
English (en)
Other versions
CN117828064A (zh
Inventor
沈盼
邱鹏
陈晓耀
聂旗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202410250376.1A priority Critical patent/CN117828064B/zh
Publication of CN117828064A publication Critical patent/CN117828064A/zh
Application granted granted Critical
Publication of CN117828064B publication Critical patent/CN117828064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书公开了一种问答***及问答***的构建方法。所述问答***包括:交互模块、服务模块、第一数据库、第二数据库、指定大模型,其中,服务模块用于接收问题文本,并将问题文本发送到第一数据库,并接收第一数据库针对问题文本进行检索得到的与问题文本相匹配的问题标签,判断问题标签是否为空,若是,则将问题文本发送给指定大模型,接收指定大模型根据问题文本生成的回复数据,并将指定大模型生成的回复数据返回给交互模块,若否,则将问题标签发送给第二数据库,接收第二数据库针对问题标签进行检索后返回的与问题标签相匹配的回复数据,将第二数据库检索得到的回复数据返回给交互模块。

Description

一种问答***及问答***的构建方法
技术领域
本说明书涉及自然语言处理技术领域,尤其涉及一种问答***及问答***的构建方法。
背景技术
问答助手是一种基于人工智能技术的智能机器人,它可以通过自然语言处理技术,理解和回答用户的问题,这种问答助手的优点在于它的高效性和鲜明的领域特性。问答助手可以迅速处理大量的数据,寻找用户需要的信息,而不是让用户自己在这些信息中寻找,从而可以提升用户获取所需的信息的效率。
通常情况下,问答助手是通过大模型来根据用户输入的问题,为用户生成相应的答案,但是对于一些垂直专业领域(如:医疗服务、人工智能等)而言,问答助手针对这些领域进行服务时,往往会存在知识深度、知识准确度和时效性不足的问题。
因此,如何能够提升问答助手的回复性能,则是一个亟待解决的问题。
发明内容
本说明书提供一种问答***及问答***的构建方法,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种问答***,所述问答***用于答复指定领域的问题,所述问答***包括:交互模块、服务模块、第一数据库、第二数据库、指定大模型;
所述交互模块,用于接收用户发送的问题文本,并将所述问题文本发送给所述服务模块,并接收所述服务模块返回的回复数据展示给所述用户;
所述服务模块用于接收所述问题文本,并对所述问题文本进行编码,得到所述问题文本对应的问题文本向量,将所述问题文本向量发送到所述第一数据库,并接收所述第一数据库针对所述问题文本向量进行检索得到的与所述问题文本向量相匹配的问题标签,判断所述问题标签是否为空,若是,则将所述问题文本发送给所述指定大模型,接收所述指定大模型根据所述问题文本生成的回复数据,并将所述指定大模型生成的回复数据返回给所述交互模块,所述问题标签为预先根据所述指定领域中的历史问题提取出的;
若否,则将所述问题标签发送给所述第二数据库,接收所述第二数据库针对所述问题标签进行检索后返回的与所述问题标签相匹配的回复数据,将所述第二数据库检索得到的回复数据返回给所述交互模块。
可选地,所述第一数据库为向量数据库;
所述第一数据库用于针对预设的每个问题标签,判断该问题标签对应的标签向量与所述问题文本向量之间的相似度是否超过预设的相似度阈值;
若是,则确定该问题标签为与所述问题文本相匹配的问题标签。
可选地,所述第二数据库为键值数据库,其中,针对预设的每个问题标签,由该问题标签作为键、该问题标签对应的回复数据作为值,以组成所述第二数据库中的一个键值对保存在所述第二数据库中;
所述第二数据库用于接收所述服务模块发送的所述问题标签,并从预先保存各键值对中确定出包含的键与所述问题标签相匹配的键值对,作为目标键值对;
根据所述目标键值对,确定与所述问题标签相匹配的回复数据并返回给所述服务模块。
可选地,所述服务模块用于对接收到的所述第二数据库返回的所述问题标签相匹配的回复数据或所述指定大模型生成的回复数据进行反序列化处理,以将所述第二数据库返回的所述问题标签相匹配的回复数据或所述指定大模型生成的回复数据转换为指定格式后返回给所述交互模块。
可选地,所述交互模块用于确定所述回复数据的数据类型,作为目标数据类型;
从预设的各展示组件中选择与所述目标数据类型相匹配的展示组件,作为目标展示组件,并通过所述目标展示组件将所述回复数据展示给所述用户。
可选地,若所述交互模块接收到的所述回复数据为所述指定大模型生成的回复数据,则所述交互模块用于生成针对指定大模型生成的回复数据的标识信息,并将所述标识信息与所述回复数据展示给所述用户。
本说明书提供了一种问答***构建方法,所述方法用于构建问答***,所述方法包括:
获取指定领域中的历史问题文本以及所述历史问题文本对应的回复数据;
对所述历史问题文本进行解析,以将所述历史问题文本拆解为主体和关键词,得到问题标签,并对所述问题标签进行编码得到所述历史问题文本对应的标签向量,将所述问题标签和所述标签向量保存到第一数据库中;
将所述历史问题文本的所述问题标签作为键,以及,将所述历史问题文本对应的答复文本作为值,构建所述历史问题文本对应的键值对,并将所述历史问题文本对应的键值对保存到第二数据库中;
根据所述第一数据库、所述第二数据库和预设的交互模块、服务模块、指定大模型,构建问答***。
可选地,将所述历史问题文本的所述问题标签作为键,以及,将所述历史问题文本对应的答复文本作为值,构建所述历史问题文本对应的键值对,并将所述历史问题文本对应的键值对保存到第二数据库中,具体包括:
将所述历史问题文本的所述问题标签作为键,以及,将所述历史问题文本对应的答复文本转换为指定类型的字符串作为值,构建所述历史问题文本对应的键值对,并将所述历史问题文本对应的键值对保存到第二数据库中。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述问答***构建方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述问答***构建方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的问答***中,问答***用于答复指定领域的问题,包括:交互模块、服务模块、第一数据库、第二数据库、指定大模型,其中,交互模块用于接收用户发送的问题文本,并将问题文本发送给服务模块,并接收服务模块返回的回复数据展示给用户,服务模块用于接收问题文本,并对问题文本进行编码,得到问题文本对应的问题文本向量,将问题文本向量发送到第一数据库,并接收第一数据库针对问题文本向量进行检索得到的与问题文本向量相匹配的问题标签,判断问题标签是否为空,若是,则将问题文本发送给指定大模型,接收指定大模型根据问题文本生成的回复数据,并将指定大模型生成的回复数据返回给交互模块,问题标签为预先根据指定领域中的历史问题提取出的,若否,则将问题标签发送给第二数据库,接收第二数据库针对问题标签进行检索后返回的与问题标签相匹配的回复数据,将第二数据库检索得到的回复数据返回给交互模块。
从上述方法可以看出,可以通过将第一数据库、第二数据库与指定大模型结合的方式,将指定领域中的部分已知的问题,记录在第二数据库中,通过预置答案的形式来回答用户针对该指定领域中的问题,而针对用户提出的该指定领域中未预置问答的问题,则可以通过指定大模型来回答,提升了针对指定领域的问答助手的回答性能。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中提供的一种问答***的示意图;
图2为本说明书中提供的通过问答***进行问题回复的流程示意图;
图3为本说明书中提供的一种问答***构建的流程示意图;
图4为本说明书提供的一种模型训练装置的示意图;
图5为本说明书提供的一种对应于图1的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中提供的一种问答***的示意图。
结合图1可以看出,本说明书中提供的问答***可以包括:交互模块、服务模块、第一数据库、第二数据库、指定大模型。
其中,上述的交互模块可以用于接收用户通过用户所使用的客户端发送的问题文本,并将接收到的问题文本发送给服务模块,并接收服务模块返回的回复数据展示给用户,这里的用户所使用的客户端可以为自然语言问答助手,这里的问题文本可以为用户使用自然语言编写的指定领域下的问题对应的文本。
需要说明的是,上述的指定领域可以为具有较深的知识深度的垂直专业领域,例如:软件开发领域、云计算领域、医药研发领域、个人资产管理领域、农业种植领域等。
上述的服务模块用于接收问题文本,并对问题文本进行编码,得到问题文本对应的问题文本向量,将问题文本向量发送到第一数据库,并接收第一数据库针对问题文本向量进行检索得到的与问题文本向量相匹配的问题标签,判断问题标签是否为空,若是,则将问题文本发送给指定大模型,接收指定大模型根据问题文本生成的回复数据,并将指定大模型生成的回复数据返回给交互模块,具体如图2所示。
图2为本说明书中提供的通过问答***进行问题回复的流程示意图。
结合图2可以看出,第一数据库可以为预设的向量数据库,可以针对第一数据库中预先存储的每个问题标签,判断该问题标签对应的标签向量与问题文本向量之间的相似度是否超过预设的相似度阈值,若是,则确定该问题标签为与接收到的问题文本相匹配的问题标签。
上述内容中,对问题文本进行编码的方法可以为,将问题文本输入到预设的文本特征提取模型中,以通过文本特征提取模型提取出问题文本对应的问题文本向量。
上述内容中,第一数据库中预先存储的问题标签可以是预先根据指定领域中的历史问题提取出的。具体地,可以预先采集上述的指定领域中的各历史问题,并针对采集到的指定领域中的每个历史问题,提取出该历史问题中包含的意图信息和领域关键词,作为该历史问题对应的描述信息,进而可以将该历史问题的描述信息,作为该历史问题对应的问题标签。
例如:针对历史问题“怎么上传镜像?”,则可以提取出意图信息为:寻求方法,领域关键词为:上传镜像,进而可以得到“怎么上传镜像?”这个历史问题对应的描述信息,即{意图信息:寻求方法,领域关键词:上传镜像},进而可以将确定出的描述信息,作为这个历史问题对应的问题标签。
进一步地,服务器可以将该历史问题对应的描述信息输入到预设的文本特征提取模型中,以通过文本特征提取模型提取出该历史问题对应的特征向量,作为该历史问题对应的标签向量,并将该历史问题对应的标签向量和该历史问题对应的问题标签保存到第一数据库中。
需要说明的是,上述的指定大模型可以根据实际需求设置,例如:上述的指定大模型可以为人工智能生成内容模型(Artificial Intelligence Generated Content,AIGC)。
值得说明的是,当第一数据库针对问题文本进行检索得到的与问题文本相匹配的问题标签的数量超过预设数量阈值时,第一数据库可以根据每个问题标签对应的标签向量与问题文本向量之间的相似度,对各问题标签进行排序,进而可以从排序后各问题标签中选取出指定数量的各问题标签返回给服务模块。
进一步地,若服务模块接收到的第一数据库针对问题文本进行检索得到的与问题文本相匹配的问题标签不为空时,则可以将接收到的问题标签发送给第二数据库,接收第二数据库针对问题标签进行检索后返回的与问题标签相匹配的回复数据,将第二数据库检索得到的回复数据返回给交互模块。
具体地,第二数据库用于接收服务模块发送的问题标签,并预先保存各键值对中确定出包含的键与问题标签相匹配的键值对,作为目标键值对,根据目标键值对,确定与问题标签相匹配的回复数据并返回给服务模块。
其中,第二数据库可以为键值对(Key-Value,KV)数据库,在第二数据库中,针对预设的每个问题标签,由该问题标签作为键、该问题标签对应的回复数据作为值,以组成第二数据库中的一个键值对保存在第二数据库中,这里的预设的各问题标签可以为第一数据库中包含的指定领域下的各历史问题对应的各问题标签,这里的回复数据可以为预先获取的第一数据库中包含的各问题标签对应的指定领域下的各历史问题的回复数据。
在实际应用场景中,上述的回复数据可能为不同的展示类型,例如:文本、图片、音频、链接等,因此,在第二数据库中,上述的回复数据可以以Json字符串的形式存储,当服务模块接收到第二数据库返回的问题标签相匹配的回复数据或指定大模型生成的回复数据时,可以针对接收到的回复数据进行反序列化处理,以将第二数据库返回的问题标签相匹配的回复数据或指定大模型生成的回复数据转换为指定格式后返回给交互模块。
上述的指定格式可以为:type:返回答案的展示类型 text | image | video |link ,message:返回答案的文字内容, url:image | video | link 类型对应的链接。
从上述内容中可以看出,服务模块可以将接收到的Json格式的回复数据转换为由三个字段组成的结构体返回给交互模块,其中,当回复数据为文本类型时,上述的url字段可以为空。
除此之外,若第二数据库未确定出目标键值对,则服务模块可以将问题文本发送给指定大模型,接收指定大模型根据问题文本生成的回复数据,并将指定大模型生成的回复数据返回给交互模块。
进一步地,上述的交互模块在接收到服务模块返回的回复数据时,可以确定回复数据的数据类型,作为目标数据类型,并从预设的各展示组件中选择与目标数据类型相匹配的展示组件,作为目标展示组件,并通过目标展示组件将回复数据展示给用户。这里的展示组件可以为HTML组件,例如:当需要展示的回复数据为文本类型时,可以通过<span>标签组件,作为用于展示回复数据的组件。再例如,当需要展示的回复数据为图片类型时,可以通过<image>标签组件,作为用于展示回复数据的组件。再例如,当需要展示的回复数据为链接类型时,可以通过<url>标签组件,作为用于展示回复数据的组件。
除此之外,由于通过指定大模型生成的回复数据的准确性相比于从第二数据库中获取的回复数据的准确性低,因此,若交互模块接收到的回复数据为指定大模型生成的回复数据,则可以生成针对指定大模型生成的回复数据的标识信息,并将标识信息与回复数据展示给用户,其中,上述的标识信息用于标识该回复信息为通过指定大模型获取的回复数据。
值得说明的是,当交互模块向服务模块发送问题文本,以及,服务模块将问题文本发送给第一数据库或指定大模型时,可以将问题文本组装为Websocket信息进行传输,同样地,当交互模块和服务模块接收回复数据时,也可以接收由组装后的Websocket信息。
上述的Websocket信息可以包含:data:Json字符串 (KV数据库中的value)、dataSource:数据来源 DB | AI、 timestemp:时间戳、 id:信息的唯一id等字段。
从上述内容中可以看出,可以通过将KV数据库与指定大模型结合的方式,将指定领域中的部分已知的问题,记录在KV数据库中,通过预置答案的形式来回答用户针对该指定领域中的问题,而针对用户提出的该指定领域中未预置问答的问题,则可以通过指定大模型来回答,优化了垂直领域的问答助手的回答性能。
图3为本说明书中提供的一种问答***构建的流程示意图,包括以下步骤:
S301:获取指定领域中的历史问题文本以及所述历史问题文本对应的回复数据。
S302:对所述历史问题文本进行解析,以将所述历史问题文本拆解为主体和关键词,得到问题标签,并对所述问题标签进行编码得到所述历史问题文本对应的标签向量,将所述问题标签和所述标签向量保存到第一数据库中。
S303:将所述历史问题文本的所述问题标签作为键,以及,将所述历史问题文本对应的答复文本作为值,构建所述历史问题文本对应的键值对,并将所述历史问题文本对应的键值对保存到第二数据库中。
S304:根据所述第一数据库、所述第二数据库和预设的交互模块、服务模块、指定大模型,构建问答***。
将历史问题文本的问题标签作为键,以及,将历史问题文本对应的答复文本转换为指定类型的字符串作为值,构建历史问题文本对应的键值对,并将历史问题文本对应的键值对保存到第二数据库中。
从上述内容中可以看出,可以预先构建第一数据库以及第二数据库,从而可以通过第一数据库和第二数据库针对用户提出的指定领域中的至少部分问题进行回复,从而可以提升返回给用户的回复数据的准确性。
以上为本说明书的一个或多个实施问答***构建方法,基于同样的思路,本说明书还提供了相应的问答***构建装置,如图4所示。
图4为本说明书提供的一种模型训练装置的示意图,包括:
获取模块401,用于获取指定领域中的历史问题文本以及所述历史问题文本对应的回复数据;
解析模块402,用于对所述历史问题文本进行解析,以将所述历史问题文本拆解为主体和关键词,得到问题标签,并对所述问题标签进行编码得到所述历史问题文本对应的标签向量,将所述问题标签和所述标签向量保存到第一数据库中;
第一构建模块403,用于将所述历史问题文本的所述问题标签作为键,以及,将所述历史问题文本对应的答复文本作为值,构建所述历史问题文本对应的键值对,并将所述历史问题文本对应的键值对保存到第二数据库中;
第二构建模块404,用于根据所述第一数据库、所述第二数据库和预设的交互模块、服务模块、指定大模型,构建问答***。
可选地,所述第一构建模块403具体用于,将所述历史问题文本的所述问题标签作为键,以及,将所述历史问题文本对应的答复文本转换为指定类型的字符串作为值,构建所述历史问题文本对应的键值对,并将所述历史问题文本对应的键值对保存到第二数据库中。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的一种问答***构建方法。
本说明书还提供了图5所示的一种对应于图1的电子设备的示意结构图。如图5所述,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的问答***构建方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(ProgrammableLogic Device, PLD)(例如现场可编程门阵列(Field Programmable Gate Array,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(HardwareDescription Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(AdvancedBoolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(JavaHardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby HardwareDescription Language)等,目前最普遍使用的是VHDL(Very-High-Speed IntegratedCircuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、***、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、***或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (9)

1.一种问答***,其特征在于,所述问答***用于答复指定领域的问题,所述问答***包括:交互模块、服务模块、第一数据库、第二数据库、指定大模型;
所述交互模块,用于接收用户发送的问题文本,并将所述问题文本发送给所述服务模块,并接收所述服务模块返回的回复数据展示给所述用户;
所述服务模块用于接收所述问题文本,并对所述问题文本进行编码,得到所述问题文本对应的问题文本向量,将所述问题文本向量发送到所述第一数据库,并接收所述第一数据库根据所述问题文本向量和预设的每个问题标签对应的标签向量之间的相似度确定出的与所述问题文本向量相匹配的问题标签,判断所述问题标签是否为空,若是,则将所述问题文本发送给所述指定大模型,接收所述指定大模型根据所述问题文本生成的回复数据,并将所述指定大模型生成的回复数据返回给所述交互模块,所述问题标签为预先根据所述指定领域的历史问题中包含的意图信息和领域关键词确定的;
若否,则将所述问题标签发送给所述第二数据库,接收所述第二数据库针对所述问题标签进行检索后返回的与所述问题标签相匹配的回复数据,将所述第二数据库检索得到的回复数据返回给所述交互模块。
2.如权利要求1所述的问答***,其特征在于,所述第二数据库为键值数据库,其中,针对预设的每个问题标签,由该问题标签作为键、该问题标签对应的回复数据作为值,以组成所述第二数据库中的一个键值对保存在所述第二数据库中;
所述第二数据库用于接收所述服务模块发送的所述问题标签,并从预先保存各键值对中确定出包含的键与所述问题标签相匹配的键值对,作为目标键值对;
根据所述目标键值对,确定与所述问题标签相匹配的回复数据并返回给所述服务模块。
3.如权利要求1所述的问答***,其特征在于,所述服务模块用于对接收到的所述第二数据库返回的所述问题标签相匹配的回复数据或所述指定大模型生成的回复数据进行反序列化处理,以将所述第二数据库返回的所述问题标签相匹配的回复数据或所述指定大模型生成的回复数据转换为指定格式后返回给所述交互模块。
4.如权利要求1所述的问答***,其特征在于,所述交互模块用于确定所述回复数据的数据类型,作为目标数据类型;
从预设的各展示组件中选择与所述目标数据类型相匹配的展示组件,作为目标展示组件,并通过所述目标展示组件将所述回复数据展示给所述用户。
5.如权利要求1所述的问答***,其特征在于,若所述交互模块接收到的所述回复数据为所述指定大模型生成的回复数据,则所述交互模块用于生成针对指定大模型生成的回复数据的标识信息,并将所述标识信息与所述回复数据展示给所述用户。
6.一种问答***构建方法,其特征在于,所述方法用于构建如权利要求1~5任一项所述的问答***,所述方法包括:
获取指定领域中的历史问题文本以及所述历史问题文本对应的回复数据;
对所述历史问题文本进行解析,以将所述历史问题文本拆解为主体和关键词,得到问题标签,并对所述问题标签进行编码得到所述历史问题文本对应的标签向量,将所述问题标签和所述标签向量保存到第一数据库中;
将所述历史问题文本的所述问题标签作为键,以及,将所述历史问题文本对应的答复文本作为值,构建所述历史问题文本对应的键值对,并将所述历史问题文本对应的键值对保存到第二数据库中;
根据所述第一数据库、所述第二数据库和预设的交互模块、服务模块、指定大模型,构建问答***。
7.如权利要求6所述的方法,其特征在于,将所述历史问题文本的所述问题标签作为键,以及,将所述历史问题文本对应的答复文本作为值,构建所述历史问题文本对应的键值对,并将所述历史问题文本对应的键值对保存到第二数据库中,具体包括:
将所述历史问题文本的所述问题标签作为键,以及,将所述历史问题文本对应的答复文本转换为指定类型的字符串作为值,构建所述历史问题文本对应的键值对,并将所述历史问题文本对应的键值对保存到第二数据库中。
8.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求6~7任一项所述的方法。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求6~7任一项所述的方法。
CN202410250376.1A 2024-03-05 2024-03-05 一种问答***及问答***的构建方法 Active CN117828064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410250376.1A CN117828064B (zh) 2024-03-05 2024-03-05 一种问答***及问答***的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410250376.1A CN117828064B (zh) 2024-03-05 2024-03-05 一种问答***及问答***的构建方法

Publications (2)

Publication Number Publication Date
CN117828064A CN117828064A (zh) 2024-04-05
CN117828064B true CN117828064B (zh) 2024-05-28

Family

ID=90509971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410250376.1A Active CN117828064B (zh) 2024-03-05 2024-03-05 一种问答***及问答***的构建方法

Country Status (1)

Country Link
CN (1) CN117828064B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538803A (zh) * 2020-04-20 2020-08-14 京东方科技集团股份有限公司 待匹配的候选提问文本获取方法及装置、设备及介质
CN111914073A (zh) * 2020-07-15 2020-11-10 中国联合网络通信集团有限公司 客服应答方法、装置、设备及存储介质
WO2022105115A1 (zh) * 2020-11-17 2022-05-27 平安科技(深圳)有限公司 问答对匹配方法、装置、电子设备及存储介质
CN114625858A (zh) * 2022-03-25 2022-06-14 中国电子产业工程有限公司 一种基于神经网络的政务问答智能回复方法及装置
CN116108150A (zh) * 2022-12-19 2023-05-12 达闼科技(北京)有限公司 一种智能问答方法、装置、***及电子设备
WO2023124215A1 (zh) * 2021-12-31 2023-07-06 马上消费金融股份有限公司 用户问题的标注方法及装置
CN117235226A (zh) * 2023-09-21 2023-12-15 支付宝(杭州)信息技术有限公司 一种基于大语言模型的问题应答方法及装置
CN117370536A (zh) * 2023-12-07 2024-01-09 之江实验室 一种任务执行方法、装置、存储介质及电子设备
CN117520491A (zh) * 2023-10-27 2024-02-06 山东浪潮科学研究院有限公司 一种基于大语言模型的智能问答方法与装置
CN117520514A (zh) * 2023-11-23 2024-02-06 亚信科技(中国)有限公司 一种问答任务处理方法、装置、设备及可读存储介质
CN117609475A (zh) * 2024-01-10 2024-02-27 四川云知声智能科技有限公司 基于大模型的问答回复方法、***、终端及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538803A (zh) * 2020-04-20 2020-08-14 京东方科技集团股份有限公司 待匹配的候选提问文本获取方法及装置、设备及介质
CN111914073A (zh) * 2020-07-15 2020-11-10 中国联合网络通信集团有限公司 客服应答方法、装置、设备及存储介质
WO2022105115A1 (zh) * 2020-11-17 2022-05-27 平安科技(深圳)有限公司 问答对匹配方法、装置、电子设备及存储介质
WO2023124215A1 (zh) * 2021-12-31 2023-07-06 马上消费金融股份有限公司 用户问题的标注方法及装置
CN114625858A (zh) * 2022-03-25 2022-06-14 中国电子产业工程有限公司 一种基于神经网络的政务问答智能回复方法及装置
CN116108150A (zh) * 2022-12-19 2023-05-12 达闼科技(北京)有限公司 一种智能问答方法、装置、***及电子设备
CN117235226A (zh) * 2023-09-21 2023-12-15 支付宝(杭州)信息技术有限公司 一种基于大语言模型的问题应答方法及装置
CN117520491A (zh) * 2023-10-27 2024-02-06 山东浪潮科学研究院有限公司 一种基于大语言模型的智能问答方法与装置
CN117520514A (zh) * 2023-11-23 2024-02-06 亚信科技(中国)有限公司 一种问答任务处理方法、装置、设备及可读存储介质
CN117370536A (zh) * 2023-12-07 2024-01-09 之江实验室 一种任务执行方法、装置、存储介质及电子设备
CN117609475A (zh) * 2024-01-10 2024-02-27 四川云知声智能科技有限公司 基于大模型的问答回复方法、***、终端及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于词项聚类的文本语义标签抽取研究;李雄;丁治明;苏醒;郭黎敏;;计算机科学;20181115(S2);全文 *

Also Published As

Publication number Publication date
CN117828064A (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
US20200301954A1 (en) Reply information obtaining method and apparatus
US20190103111A1 (en) Natural Language Processing Systems and Methods
US20180349355A1 (en) Artificial Intelligence Based Method and Apparatus for Constructing Comment Graph
CN111695345B (zh) 文本中实体识别方法、以及装置
CN113221555B (zh) 一种基于多任务模型的关键词识别方法、装置及设备
CN111258995A (zh) 数据处理方法、装置、存储介质及设备
KR101133515B1 (ko) 개인의 일상생활 관리장치 및 관리방법
CN115952272A (zh) 一种生成对话信息的方法、装置、设备及可读存储介质
CN117076650B (zh) 一种基于大语言模型的智能对话方法、装置、介质及设备
CN116720008B (zh) 一种机器阅读方法、装置、存储介质及电子设备
US20230367972A1 (en) Method and apparatus for processing model data, electronic device, and computer readable medium
CN111046304B (zh) 数据搜索方法及装置
CN112182255A (zh) 用于存储媒体文件和用于检索媒体文件的方法和装置
CN117371532A (zh) 一种知识库管理方法、***、设备及介质
CN117290481A (zh) 基于深度学习的问答方法、装置、存储介质及电子设备
CN116974676A (zh) 一种页面内容发送方法、装置和设备
CN117828064B (zh) 一种问答***及问答***的构建方法
CN117332852A (zh) 基于知识图谱的大模型训练部署方法及***
CN107977395A (zh) 一种帮助用户阅读并理解电子文章的方法及智能语音助手
CN116069915A (zh) 政务服务处理方法及装置
CN113641817B (zh) 一种基于主题和时间线摘要的报告生成方法及设备
CN112328751A (zh) 用于处理文本的方法和装置
CN117573849B (zh) 一种知识图谱多跳问答方法、装置、设备及存储介质
CN111104591B (zh) 一种推荐信息生成方法及装置
US11170044B2 (en) Personalized video and memories creation based on enriched images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant