CN117473034A - 交互文本处理方法、装置、电子设备及存储介质 - Google Patents

交互文本处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117473034A
CN117473034A CN202311163655.6A CN202311163655A CN117473034A CN 117473034 A CN117473034 A CN 117473034A CN 202311163655 A CN202311163655 A CN 202311163655A CN 117473034 A CN117473034 A CN 117473034A
Authority
CN
China
Prior art keywords
vector
text
segment
fragment
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311163655.6A
Other languages
English (en)
Inventor
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311163655.6A priority Critical patent/CN117473034A/zh
Publication of CN117473034A publication Critical patent/CN117473034A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种交互文本处理方法、装置、电子设备及存储介质,应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景,方法包括:获取交互文本;解析交互文本得到篇章片段、段落片段、句子片段中的至少一种;建立篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种;从索引信息中获取与交互文本对应的查询文本的相似度满足预设条件的目标索引信息;从文本片段中获取对应的目标文本片段;根据目标文本片段生成上下文信息;输入上下文信息和查询文本至大型语言模型,得到查询文本的查询结果。本申请的方案能够对交互文本的深度理解和解析、配合大型语言模型一起完成交互文件的深度理解,从而性回答用户对交互文本的提问。

Description

交互文本处理方法、装置、电子设备及存储介质
技术领域
本申请属于计算机技术领域,具体涉及一种交互文本处理方法、装置、电子设备及存储介质。
背景技术
社交网络是指以一定社会关系或共同兴趣为纽带、以各种形式为在线聚合的用户提供沟通、交互服务的互联网应用。随着互联网的快速发展,社交网络涌入了海量的用户,随着加入社交网络的用户的增多,社交网络中由用户上传的文件内容也随之增多。此外,基于网络的在线存储服务(例如,网盘等)中同样保存用户上传的大量文件内容。
相关技术中通常基于文件内容的名称、用户在上传文件内容时对文件内容进行分类的分类结果、或用户在上传文件内容时对文件内容进行描述得到的描述信息等,实现对社交网络或在线存储服务中的文本内容的检索和处理,然而相关技术无法对社交网络或在线存储服务中的文件内容进行深度的理解和处理,例如无法基于文件内容来回答各种问题,降低了社交网络或在线存储服务中的文本内容的处理效率,从而降低了用户与社交网络或在线存储服务中的文本内容的交互响应效率以及交互响应精度。
发明内容
为了解决上述技术问题,本申请提供一种交互文本处理方法、装置、电子设备及存储介质。
一方面,本申请提出了一种交互文本处理方法,所述方法包括:
获取交互文本;
对所述交互文本进行结构化解析处理得到文本片段;所述文本片段包括篇章片段、段落片段、句子片段中的至少一种;
建立所述文本片段对应的索引信息;所述索引信息用于表征所述文本片段在所述交互文本中的位置信息,所述索引信息包括所述篇章片段对应的篇章片段索引信息、所述段落片段对应的段落片段索引信息、所述句子片段对应的句子片段索引信息中的至少一种;
从所述篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,获取与所述交互文本对应的查询文本的相似度满足预设条件的目标索引信息;
从所述文本片段中获取与所述目标索引信息对应的目标文本片段;
根据所述目标文本片段生成所述查询文本的上下文信息;
输入所述上下文信息和所述查询文本至大型语言模型进行查询结果预测处理,得到所述查询文本的查询结果;其中,所述大型语言模型为基于预设领域的预设上下文信息、针对所述预设上下文信息的预设查询文本和所述预设查询文本对应的预设查询结果对初始大型语言模型进行指令微调得到。
另一方面,本申请提出了一种交互文本处理装置,所述装置包括:
文本获取模块,用于获取交互文本;
解析模块,用于对所述交互文本进行结构化解析处理得到文本片段;所述文本片段包括篇章片段、段落片段、句子片段中的至少一种;
索引建立模块,用于建立所述文本片段对应的索引信息;所述索引信息用于表征所述文本片段在所述交互文本中的位置信息,所述索引信息包括所述篇章片段对应的篇章片段索引信息、所述段落片段对应的段落片段索引信息、所述句子片段对应的句子片段索引信息中的至少一种;
索引获取模块,用于从所述篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,获取与所述交互文本对应的查询文本的相似度满足预设条件的目标索引信息;
目标文本片段获取模块,用于从所述文本片段中获取与所述目标索引信息对应的目标文本片段;
上下文生成模块,用于根据所述目标文本片段生成所述查询文本的上下文信息;
查询结果生成模块,用于输入所述上下文信息和所述查询文本至大型语言模型进行查询结果预测处理,得到所述查询文本的查询结果;其中,所述大型语言模型为基于预设领域的预设上下文信息、针对所述预设上下文信息的预设查询文本和所述预设查询文本对应的预设查询结果对初始大型语言模型进行指令微调得到。
另一方面,本申请提出了一种交互文本处理的电子设备,所述电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述所述的交互文本处理方法。
另一方面,本申请提出了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述所述的交互文本处理方法。
另一方面,本申请提出了一种计算机程序产品,包括计算机程序,所述计算机程序所述计算机程被处理器执行时实现如上述所述的交互文本处理方法。
本申请实施例提出的交互文本处理方法、装置、电子设备及存储介质,该方法包括:获取交互文本以及针对交互文本的查询文本;对交互文本进行结构化解析处理得到文本片段;文本片段包括篇章片段、段落片段、句子片段中的至少一种;建立文本片段对应的索引信息;索引信息包括篇章片段对应的篇章片段索引信息、段落片段对应的段落片段索引信息、句子片段对应的句子片段索引信息中的至少一种;从篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,获取与交互文本对应的查询文本的相似度满足预设条件的目标索引信息;从文本片段中获取与目标索引信息对应的目标文本片段;根据目标文本片段生成查询文本的上下文信息;输入上下文信息和查询文本至大型语言模型进行查询结果预测处理,得到查询文本的查询结果。由此可以通过篇章片段、段落片段、句子片段中的至少一种维度对交互文本的深度理解和解析、配合大型语言模型一起完成交互文件的深度理解,实现了基于用户问答,生成更准确、更全面、更可读的交互文件主题总结和信息提炼,并且针对性回答用户对文件的提问,提升了交互文本处理的效率、用户与交互文本之间的交互响应效率以及交互响应精度,降低交互文本的处理成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是根据一示例性实施例示出的一种交互文本处理方法的实施环境示意图。
图2是根据一示例性实施例示出的一种交互文本处理方法的流程示意图一。
图3是根据一示例性实施例示出的一种交互文本处理方法的流程示意图二。
图4是根据一示例性实施例示出的一种篇章语义相似度模型的训练方法的流程示意图。
图5是根据一示例性实施例示出的一种句子语义相似度模型的训练方法的流程示意图一。
图6是根据一示例性实施例示出的一种句子语义相似度模型的训练方法的流程示意图二。
图7是根据一示例性实施例示出的一种交互文本处理方法的流程示意图三。
图8是根据一示例性实施例示出的一种交互文本处理的***示意图。
图9是根据一示例性实施例示出的一种交互文本处理装置的框图。
图10是根据一示例性实施例提供的一种服务器的硬件结构框图。
图11是根据一示例性实施例提供的一种服务器的硬件结构框图。
具体实施方式
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
具体地,本申请中的获取查询文本,得到查询文本的过程涉及NLP中的机器人问答。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
具体地,本申请实施例中的篇章语义相似度模型、段落语义相似度模型和句子语义相似度模型的训练过程涉及机器学习中的深度学习技术。
首先,对本申请实施例所涉及的技术术语进行说明:
Faiss:是开源的针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库。
Elasticsearch:是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性,能使数据在生产环境变得更有价值。
大型语言模型(Large Language Model,LLM)是指能够处理和生成自然语言的计算机模型;它代表着人工智能领域的重大进步,并有望通过习得的知识改变该领域。LLM可以通过学习语言数据的统计规律和语义信息来预测下一个单词或句子,随着输入数据集与参数空间的不断扩大,LLM的能力也会相应提高。LLM用于多种应用领域,如机器人学、机器学习、机器翻译、语音识别、图像处理等,所以被称为多模态大型语言模型(MLLM)。
Instruction Tuning:指令微调,是指针对每个任务,单独生成指令(instruction),通过在若干个full-shot任务上进行微调,然后在具体的任务上进行评估泛化能力(zero shot)。full-shot指的是预训练模型中的所有参数都进行微调。
Prompt tuning:提示学习,机器学习当中的一类学习方法:在不显著改变预训练语言模型结构和参数的情况下,通过向输入增加“提示信息”,作为一种信息增强来大幅改善模型的效果,它可以是一种对任务的指令,同时也是一种对预训练目标的复用,其本质是参数有效性训练的增强,通过单独生成提示模版(prompt模板),然后在每个任务上进行full-shot微调与评估。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1是根据一示例性实施例示出的一种交互文本处理方法的实施环境示意图。如图1所示,该实施环境至少可以包括终端01和服务器02,该终端01和服务器02之间可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制。
具体地,该服务器02可以用于获取交互文本和查询文本,从交互文本中获取与该查询文本对应的查询结果。可选地,该服务器02可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
具体地,该终端01可以用于展示查询结果。该终端01可以包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等,但并不局限于此。
本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
需要说明的是,图1仅仅是一种示例。在其他场景中,还可以包括其他实施环境。
需要说明的是,在本申请的具体实施方式中,涉及到用户信息,例如,交互文本、查询文本等相关数据,当本申请实施例运用到具体产品或技术中时,需要获取用户许可或同意,且相关数据的收集、使用和处理需要遵守相关法律法规和标准。
图2是根据一示例性实施例示出的一种交互文本处理方法的流程示意图一。该方法可以用于图1中的实施环境中。本说明书提供了如实施例或流程图上述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的***或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,该方法可以包括:
S101.获取交互文本。
可选地,该交互文本可以是各种领域、各种类型的交互文本,对此不做具体限定。
作为一种示例,该交互文本可以是社交网络中的用户上传的文本文件。社交网络中包含有各种各样的即时通信群组,为了便于用户方便便捷的沟通,很多用户都加入了即时通信群组,即时通信群组的类型和讨论的内容也非常广泛,随着加入即时通信群组的类型的变多以及即时通信群组中参与沟通交流的用户的变多,即时通信群组中累积的由用户上传的文件内容也会增多,使得即时通信群组中保留了大量的数字资源,例如PDF,Word,txt,Web等文件,也包含了非常丰富的资料,比如各种电子书等等。除了即时通信群组中累积的文本文件外,该交互文件还可以是点对点聊天过程当中传输的文本文件或者文件网页的链接。
作为另一种示例,该交互文本还可以是在线存储服务(例如,网盘等)中保存的文本文件。例如,PDF,word,Web,txt等格式的文件,或者各种电子书等等。
S103.对交互文本进行结构化解析处理得到文本片段;文本片段包括篇章片段、段落片段、句子片段中的至少一种。
该实施例中,该交互文本本质上可以是一个树结构,由于某些交互文本的文本篇章可能较长,无法直接输入模型。基于此,服务器可以对该交互文本进行结构化解析,以将交互文本切分为小的文本片段,得到篇章片段、段落片段、句子片段中的至少一种,即得到该交互文本中哪些是篇章、哪些是段落,哪些是句子。该篇章片段、段落片段、句子片段中的至少一种可以构成一个层次化的树结构。
需要说明的是,文本片段包括哪些粒度的片段是根据交互文本的类型确定的,如果该交互文本为电子书,其通常有篇章,则对其进行解析可以得到篇章片段、段落片段和句子片段。如果该交互文本是一篇文章,其通常不包括篇章,则可以对其进行解析得到段落片段和句子片段。如果该交互文本是一个段落,则可以对其进行解析得到句子片段。
可见,本申请实施例可以对交互文本进行最多三种粒度的解析,该三种粒度为句子级别粒度、段落级别粒度、篇章级别粒度,以便后续能够根据这三种级别粒度召回不同粒度的文本片段,从而实现对交互文本的深度理解与处理。
S105.建立文本片段对应的索引信息;索引信息用于表征文本片段在交互文本中的位置信息,索引信息包括篇章片段对应的篇章片段索引信息、段落片段对应的段落片段索引信息、句子片段对应的句子片段索引信息中的至少一种。
本申请实施例中,服务器可以给各个文本片段建立其对应的索引信息,该索引信息表征文本片段在交互文本中的位置信息,即该索引信息是文本片段在交互文本中的位置指引,通过该索引信息能够快速定位和访问对应的文本片段,以便能够根据用户输入的查询文本召回相关的文本片段。
由于该索引信息包括篇章片段对应的篇章片段索引信息、段落片段对应的段落片段索引信息、句子片段对应的句子片段索引信息中的至少一种,因此可以实现句子级别粒度、片段级别粒度、篇章级别粒度中的至少一种的召回,实现对交互文本的深度理解与处理,从而提高查询文本对应的查询结果的定位精度。
S107.从篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,获取与交互文本对应的查询文本的相似度满足预设条件的目标索引信息。
可选地,该查询文本为针对该交互文本的文本内容所提出的问题。
本申请实施例中,可以通过向量语义相似性搜索,比如Faiss或者Elasticsearch,从述篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,查找到与查询文本的相似度满足预设条件的目标索引信息。
示例性地,该相似度满足预设条件可以指的是相似度大于预设相似度阈值的条件。更进一步地,该相似度满足预设条件可以通过距离体现,即将与该查询文本之间的距离小于预设距离阈值的索引信息为目标索引信息。
S109.从文本片段中获取与目标索引信息对应的目标文本片段。
本申请实施例中,通过向量语义相似性搜索,比如Faiss或者Elasticsearch返回的是目标索引信息以及与查询文本的相似度,更进一步地,返回的是目标索引信息以及与查询文本之间的距离,服务器可以通过该目标索引信息从该已经划分得到的文本片段中,获取与该目标索引信息对应的原始数据,得到目标文本片段。
S1011.根据目标文本片段生成查询文本的上下文信息。
S1013.输入上下文信息和查询文本至大型语言模型进行查询结果预测处理,得到查询文本的查询结果;其中,大型语言模型为基于预设领域的预设上下文信息、针对预设上下文信息的预设查询文本和预设查询文本对应的预设查询结果对初始大型语言模型进行指令微调得到。
本申请实施例中,服务器可以对检索到的目标文本片段按需求进行处理,作为该查询文本的上下文信息。示例性地,该对检索到的目标文本片段按需求进行处理可以包括但不限于:拷贝,编辑,总结,排序,筛选,翻译,压缩、过滤、重新编码中的至少一种。服务器将该上下文信息和查询文本作为大型语言模型的输入,最终实现部分大型语言模型及极少部分参数的微调,实现大模型能力的有效复用,最后通过大型语言模型生成查询结果。
由此,能够通过篇章、段落、句子这个三个粒度对交互文本进行深度理解、解析和召回,并配合大型语言模型一起完成交互文件的深度理解,实现了基于用户问答,生成更准确、更全面、更可读的交互文件主题总结和信息提炼,并且针对性回答用户对文件的提问,提升了交互文本处理的效率、用户与交互文本之间的交互响应效率以及交互响应精度,降低交互文本的处理成本。
需要说明的是,上述步骤S103中可以通过多种方式实现,对此不做具体限定。在一种实施方式中,服务器可以通过第三方公开的插件能力,例如Docparsing模块依据交互文本的格式,对交互文本进行数据解析,以识别文本文档中的篇章、段落、句子等等。其中,Docparsing指的是一种端到端的文档结构分析方案,其可以对文档(扫描版、图片版等)进行结构提取,包括实体识别(实体指所有需要检测的元素,包括文本、行、列、单元格等)和关系分类。在另一种实施方式中,在没有第三方插件的情况下,服务器可以采用光学字符识别(Optical Character Recognition,OCR)技术对文档进行识别,识别内容的章节,段落及句子等等。具体可以利用篇章、段落、句子的组织分段信息,比如,段落标题字号、空白和句子结尾标记样本,训练一个OCR模型,让OCR模型明确每个区域通常的结果,从而通过训练好的OCR模型对交互文本进行识别,识别内容的篇章,段落、句子中的至少一种。
在一个可选的实施例中,在上述步骤S103之后,上述方法还可以包括:
对文本片段进行向量化,得到文本片段对应的文本片段向量;文本片段向量包括篇章片段对应的篇章片段向量、段落片段对应的段落片段向量、句子片段对应的句子片段向量中的至少一种。
该实施例中,服务器在将交互文本划分为篇章片段、段落片段、句子片段中的至少一种之后,可以对篇章片段、段落片段、句子片段中的至少一种进行向量化,得到篇章片段对应的篇章片段向量、段落片段对应的段落片段向量、句子片段对应的句子片段向量中的至少一种。
相应地,在上述步骤S105中,上述建立文本片段对应的索引信息,包括:建立篇章片段向量、段落片段向量、句子片段向量中的至少一种对应的索引信息,得到文本片段对应的索引信息。
该实施例中,在文本片段对应的文本片段向量包括篇章片段向量、段落片段向量和句子片段向量的情况下,可以建立篇章片段向量、段落片段向量和句子片段向量各自对应的索引信息,得到篇章片段对应的篇章片段索引信息、段落片段对应的段落片段索引信息和句子片段对应的句子片段索引信息。在文本片段对应的文本片段向量包括段落片段向量和句子片段向量的情况下,可以建立段落片段向量和句子片段向量各自对应的索引信息,得到段落片段对应的段落片段索引信息和句子片段对应的句子片段索引信息。在文本片段对应的文本片段向量包括句子片段向量的情况下,可以建立句子片段向量对应的索引信息,得到句子片段对应的句子片段索引信息。
需要说明的是,建立向量的索引信息的方式可以有多种,在此不做具体限定。在一些实施方式中,上述向量可以为嵌入向量(embedding向量),服务器可以将该embedding向量存储于Faiss分布式的索引库当中,得到对应的索引信息。此外,解析交互文本和对应的各种索引信息可以存在于对象存储中(Cloud Object Storage,COS),COS具有存储无格式限制、无存储容量上线、稳定性高等优点,将解析交互文本和对应的各种索引信息存储于COS中能够提高交互文本的处理效率。在其他实施方式中,还可以将文本片段向量存储于一个节点对象中,这些节点对象将与其他节点一起形成一个图(索引)。图索引可以是一个简单的列表结构、树结构或关键字表。此外,还可以从不同的索引中组合一个索引。
需要说明的是,还可以建立文本文件的显示索引和结构索引,显示索引可以理解为是对一个复杂书本或者书本合集的不同层级的索引。结构索引是针对一部书的结构化,例如一本书有哪些篇章,哪个篇章具体在哪一页,以此类推,层层细化。显示索引和结构索引均可以用于定位查询结果所在的位置。
图3是根据一示例性实施例示出的一种交互文本处理方法的流程示意图二,如图3所示,在上述步骤S107中,上述从篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,获取与交互文本对应的查询文本的相似度满足预设条件的目标索引信息,可以包括:
S1071.从篇章片段向量、段落片段向量、句子片段向量中的至少一种中,检索与查询文本的语义向量的相似度满足预设条件的目标向量。
S1073.从篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,确定与目标向量对应的目标索引信息。
该实施例中,服务器可以从篇章片段向量、段落片段向量、句子片段向量中的至少一种中,查找与查询文本的语义向量之间的距离最近的topk个向量,得到目标向量。例如,在Faiss的分布式向量检索中,可以利用Faiss框架实现分布式的高维近邻检索平台,采用大规模向量检索的K临近算法(比如,HNSW算法)可以在千万级向量中,以几十毫秒的效率高效召回与语义向量(会同时考虑截断阈值与相似得分)之间的距离小于预设距离阈值的topk个向量,即与语义向量相似的topk个向量,从而实现查询文本的精准定位和检索。
由于预先为每个向量建立了索引,在得到目标向量之后,服务器可以从篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,查找与目标向量对应的文本片段的索引信息,得到目标索引信息。由于目标索引信息为从篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中获取得到,可以实现不同粒度的召回,提高了对交互文件进行理解的理解深度,从而提高了查询结果的生成精度,进而提高了用户与交互文本之间的交互响应精度;此外,通过将文本片段向量化、建立向量索引、向量语义相似度搜索,能够在千万级向量中以几十毫秒的效率高效召回与语义向量之间的距离小于预设距离阈值的topk个向量,从而实现查询结果的精准快速定位和检索。
在一个可选的实施例中,继续如图3所示,在文本片段包括篇章片段、段落片段和句子片段,且文本片段向量包括篇章片段向量、段落片段向量和句子片段向量中的情况下,在上述步骤S1071中,上述从篇章片段向量、段落片段向量、句子片段向量中的至少一种中,检索与查询文本的语义向量的相似度满足预设条件的目标向量,可以包括:
S10711.从篇章片段向量中获取与语义向量之间的相似度满足第一预设条件的目标篇章片段向量。
S10713.从目标篇章片段向量对应的段落片段向量中,获取与语义向量之间的相似度满足第二预设条件的目标段落片段向量。
S10715.从目标段落片段向量对应的句子片段向量中,获取与语义向量之间的相似度满足第三预设条件的目标句子片段向量。确定目标句子片段向量为目标向量。
该实施例中,在文本片段包括篇章片段、段落片段和句子片段,且文本片段向量包括篇章片段向量、段落片段向量和句子片段向量中的情况下,服务器可以先从篇章片段向量中获取与语义向量之间的相似度满足第一预设条件的目标篇章片段向量。例如,可以利用Faiss框架或者Elasticsearch从篇章片段向量中获取与语义向量之间的相似度满足第一预设条件的topk个目标篇章片段向量。
在确定得到目标篇章片段向量之后,服务器可以从该目标篇章片段向量对应的段落片段向量中,获取与该语义向量之间的相似度满足第二预设条件的目标段落片段向量。其中,该交互文本对应的段落片段可以有多个,其可以来源于不同的篇章,该目标篇章片段向量对应的段落片段向量可以指的是:该目标篇章片段向量对应的篇章片段中所包括的段落片段的段落片段向量。例如,可以利用Faiss框架或者Elasticsearch从目标篇章片段向量对应的段落片段向量中,获取与语义向量之间的相似度满足第二预设条件的topk个目标段落片段向量。
在确定得到目标段落片段向量之后,服务器可以从目标段落片段向量对应的句子片段向量中,获取与语义向量之间的相似度满足第三预设条件的目标句子片段向量。服务器将该目标句子片段向量作为满足预设条件的目标向量。其中,该交互文本对应的句子片段有多个,其可以来源于不同的段落和篇章,该目标段落片段向量对应的句子片段向量可以指的是:该目标段落片段向量对应的段落片段中所包括的句子片段的句子片段向量。例如,可以利用Faiss框架或者Elasticsearch从目标段落片段向量对应的句子片段向量中,获取与语义向量之间的相似度满足第三预设条件的topk个目标句子片段向量。
需要说明的是,该第一预设条件、第二预设条件、第三预设条件可以相互相同,也可以相互不同。例如,该相似度满足第一预设条件、第二预设条件、第三预设条件可以为相似度小于某个相似度阈值的条件。更进一步地,该第三预设条件可以为与语义向量之间的距离小于某个距离阈值的条件。
本申请实施例通过篇章、段落、句子三个粒度中的至少一种召回与查询文本的语义向量的相似度满足预设条件的目标向量,即能够通过篇章、段落、句子三个粒度中的至少一种召回最优的句子,实现了对交互文本的深度理解和解析,从而实现了对查询结果的精准匹配定位。
在其他实施方式中,还可以将相似度满足第一预设条件的目标篇章片段向量、相似度满足第二预设条件的目标段落片段向量和相似度满足第三预设条件的目标句子片段向量作为相似度满足预设条件的目标向量。
在其他实施例中,还可以通过篇章、段落、句子三个粒度并行召回各自对应的向量,具体地,在上述步骤S1071中,上述从篇章片段向量、段落片段向量、句子片段向量中的至少一种中检索与查询文本的语义向量的相似度满足预设条件的目标向量,可以包括:
从篇章片段向量中获取与语义向量之间的相似度满足第一预设条件的目标篇章片段向量,从段落片段向量获取与语义向量之间的相似度满足第二预设条件的目标篇章片段向量,从句子片段向量中获取与语义向量之间的相似度满足第三预设条件的目标篇章片段向量。确定目标篇章片段向量、目标篇章片段向量和目标篇章片段向量为满足预设条件的目标向量。
该实施例中,可以通过篇章粒度从篇章片段向量中获取与语义向量之间的相似度满足第一预设条件的topk个目标篇章片段向量,同时通过段落粒度从段落片段向量获取与语义向量之间的相似度满足第二预设条件的topk个目标篇章片段向量,同时通过句子粒度,从句子片段向量中获取与语义向量之间的相似度满足第三预设条件的topk个目标篇章片段向量。将三个粒度召回的topk个目标篇章片段向量、topk个目标篇章片段向量、topk个目标篇章片段向量融合得到相似度满足预设条件的目标向量。
在一个可选的实施例中,在上述步骤S10711中,上述从篇章片段向量中获取与语义向量之间的相似度满足第一预设条件的目标篇章片段向量,可以包括:
输入篇章片段向量和语义向量至篇章语义相似度模型进行相似度匹配处理,以从篇章片段向量中获取与语义向量的相似度满足第一预设条件的目标篇章片段向量;
其中,篇章语义相似度模型为基于第一样本查询文本对应的锚定样本篇章数据、样本篇章片段集中的正样本篇章片段和负样本篇章片段对第一预训练模型进行训练得到,正样本篇章片段的标题内容与锚定样本篇章数据的内容相匹配,负样本篇章片段的标题内容与锚定样本篇章数据的内容不匹配。
该实施例中,可以通过第一样本查询文本对应的锚定样本篇章数据、内容与锚定样本篇章数据匹配的正样本篇章片段和内容与锚定样本篇章数据不匹配的负样本篇章片段对第一预训练模型进行训练,得到篇章语义相似度模型,将该篇章片段向量和语义向量输入至篇章语义相似度模型进行相似度匹配处理,得到topk目标篇章片段向量。由于篇章语义相似度模型为基于锚定样本篇章数据、样本篇章片段集中的正样本篇章片段和负样本篇章片段对第一预训练模型进行训练得到,该训练得到的篇章语义相似度模型具备拉进同一类别数据之间的距离,拉远不同类别数据之间的距离的功能,从而能够通过预先训练好的模型以篇章粒度为基础召回更准确、更全面、更可读的文件篇章主题总结和篇章信息提炼,实现对交互文本的篇章的深度理解,提高了查询结果所位于的篇章的定位和匹配精度。
图4是根据一示例性实施例示出的一种篇章语义相似度模型的训练方法的流程示意图,如图4所示,在一个示例性的实施方式中,该篇章语义相似度模型的训练方法包括:
S201.获取样本篇章片段集和第一样本查询文本。
S203.根据第一样本查询文本生成锚定样本篇章数据。
S205.从样本篇章片段集中确定出正样本篇章片段和负样本篇章片段。
S207.输入锚定样本篇章数据、正样本篇章片段和负样本篇章片段至第一预训练模型进行特征提取,得到锚定样本篇章数据对应的锚定样本篇章数据向量、正样本篇章片段对应的正样本篇章数据向量和负样本篇章片段对应的负样本篇章数据向量。
S209.计算锚定样本篇章数据向量与负样本篇章数据向量之间的第一差异,以及锚定样本篇章数据向量与正样本篇章数据向量之间的第二差异。
S2011.根据第一差异和第二差异,计算第一损失数据。
S2013.根据第一损失数据调整第一预训练模型的网络参数,直至满足预设训练结束条件,得到篇章语义相似度模型。
该实施例中,针对篇章级别的篇章语义相似度模型,该第一预训练模型可以采用共享参数的预训练语言模型PTM,例如采用预训练的文本模型,更具体地可以使用LICHEES对文本进行建模。其中,LICHEES是基于信息流大规模文本语料的预料训练Bert模型,其能够更好对信息流文本语料提取语义特征。篇章级别的篇章语义相似度模型的数据,以篇章的标题和多级标题内容为主,模型的损失函数可以采用三元组损失(Triplet loss),三元组损失是深度学习的一种损失函数,主要是用于训练差异性小的样本。
具体地,服务器可以获取样本篇章片段集和针对样本篇章片段集的第一样本查询文本。服务器将第一样本查询文本作为锚定样本篇章数据(Anchor),或者对第一样本查询文本进行预处理得到锚定样本篇章数据。服务器根据样本篇章片段集中的样本篇章片段的篇章的标题和多级标题内容,确定出标题内容与锚定样本篇章数据的内容相匹配的正样本篇章片段(Positive),以及确定出标题内容与锚定样本篇章数据的内容不匹配的负样本篇章片段(Negative)。在其他实施方式中,为了拉远Anchor和Negative的距离,提高篇章语义相似度模型的训练精度以及训练得到的篇章语义相似度模型对交互文本的篇章的理解深度,还可以通过以下方式确定负样本篇章片段:该负样本篇章片段可以为困难负样本篇章片段或随机负样本篇章片段,例如,可以采用开放领域问题回答(OpenQA)数据中,与第一样本查询文本不相关的篇章作为负样本篇章片段。
服务器输入三元组(Anchor、Positive和Negative)至第一预训练模型进行特征提取,得到锚定样本篇章数据对应的锚定样本篇章数据向量、正样本篇章片段对应的正样本篇章数据向量和负样本篇章片段对应的负样本篇章数据向量。计算锚定样本篇章数据向量与负样本篇章数据向量之间距离得到第一差异,以及锚定样本篇章数据向量与正样本篇章数据向量之间距离得到第二差异;根据第一差异和第二差异,计算第一损失数据。该第一损失数据计算的核心思想是通过使Anchor与Positive的距离小于Anchor与Negative的距离,实现样本之间的相似性计算。优化目标是拉近Anchor和Positive的距离,拉远Anchor和Negative的距离。第一损失数据的计算公式可以如下:
L=max(d(a,p)-d(a,n)+margin,0):
其中,a指的是Anchor,p指的是Positive,n指的是Negative,距离L可以表征第一损失数据,d(a,p)指的是锚定样本篇章数据向量和正样本篇章数据向量之间的差异、d(a,n)指的是锚定样本篇章数据和负样本篇章数据向量之间的差异,margin指的是边缘参数,即代表锚定样本篇章数据向量与正样本篇章数据向量的第一距离、以及锚定样本篇章数据向量与负样本篇章数据向量的第二距离之间满足预设条件,例如,该预设条件可以为第一距离和第二距离之间的最小间隔。由上述公可以看出,第一损失数据可以为(d(a,p)-d(a,n)+margin)以及0之间的最大值。
服务器得到损失数据之后,判断该损失数据是否满足预设训练结束条件,或者模型训练的次数是否满足预设训练结束条件,若上述任一判断为是,则结束模型训练,并将训练得到的模型作为篇章语义相似度模型。若上述判断均为否,则重复上述模型训练过程,直至损失数据满足预设训练结束条件,或者模型训练的次数满足预设训练结束条件。
本申请实施例的篇章语义相似度模型训练过程的输入是锚定样本篇章数据、正样本篇章片段和负样本篇章片段这一三元组,并使用Triplet loss计算损失数据,Tripletloss能够通过使Anchor与Positive的距离小于Anchor与Negative的距离,实现样本之间的相似性计算。因此使用Triplet loss计算损失数据,能够提升损失数据的确定精度,进而提升篇章语义相似度模型的训练精度,使得训练得到的篇章语义相似度模型具备以篇章粒度为基础召回目标篇章片段向量,实现对交互文本的篇章的深度理解的功能。
在一个可选的实施例中,在上述步骤S10713中,上述从篇章片段向量中获取与语义向量之间的相似度满足第一预设条件的目标篇章片段向量,可以包括:
输入目标篇章片段向量和语义向量至段落语义相似度模型进行相似度匹配处理,以从目标篇章片段向量对应的段落片段向量中,获取与语义向量的相似度满足第二预设条件的目标段落片段向量;
其中,段落语义相似度模型为基于第二样本查询文本对应的锚定样本段落数据、样本段落片段集中的正样本段落片段和负样本段落片段对第二预训练模型进行训练得到,正样本段落片段的内容与锚定样本段落数据的内容相匹配,负样本段落片段的内容与锚定样本段落数据的内容不匹配。
该实施例中,可以通过第二样本查询文本对应的锚定样本段落数据、内容与锚定样本段落数据匹配的正样本段落片段和内容与锚定样本段落数据不匹配的负样本段落片段对第二预训练模型进行训练,得到段落语义相似度模型,将该目标篇章片段向量和语义向量至篇章语义相似度模型进行相似度匹配处理,得到topk目标段落片段向量。由于段落语义相似度模型为基于锚定样本段落数据、正样本段落片段和内容与负样本段落片段对第二预训练模型进行训练得到,该训练得到的段落语义相似度模型具备拉进同一类别数据之间的距离,拉远不同类别数据之间的距离的功能,从而能够通过预先训练好的模型以段落粒度为基础召回更准确、更全面、更可读的文件段落总结和段落信息提炼,实现对交互文本的段落的深度理解,提高了查询结果所位于的段落的定位和匹配精度。
在一个示例性的实施方式中,该段落语义相似度模型的训练方法包括:
获取第二样本查询文本和样本篇章片段对应的样本段落片段集。
根据样第二样本查询文本生成锚定样本段落数据。
从样本段落片段集中确定出正样本段落片段和负样本段落片段。
输入锚定样本段落数据、正样本段落片段和负样本段落片段至第二预训练模型进行特征提取,得到锚定样本段落数据对应的锚定样本段落数据向量、正样本段落片段对应的正样本段落数据向量和负样本段落片段对应的负样本段落数据向量。
计算锚定样本段落数据向量与负样本段落数据向量之间的第三差异,以及锚定样本段落数据向量与正样本段落数据向量之间的第四差异。
根据第三差异和第四差异,计算第二损失数据。
根据第二损失数据调整第二预训练模型的网络参数,直至满足预设训练结束条件,得到段落语义相似度模型。
需要说明的是,篇章语义相似度模型和段落语义相似度模型的模型结构类似,只是数据样本不一样,段落语义相似度模型的训练样本为样本篇章片段对应的样本段落片段集,即以段落为主。该第二预训练模型也可以采用共享参数的预训练语言模型PTM,例如采用预训练的文本模型,更具体地可以使用LICH EES对文本进行建模。
具体地,服务器可以获取样本篇章片段对应的样本段落片段集和针对样本段落片段集的第二样本查询文本。服务器将第二样本查询文本作为锚定样本篇章数据(Anchor),或者对第二样本查询文本进行预处理得到锚定样本段落数据。服务器根据样本段落片段集中的样本段落片段的段落内容,确定出段落内容与锚定样本篇章数据的内容相匹配的正样本段落片段(Positive),以及确定出段落内容与锚定样本段落数据的内容不匹配的负样本段落片段(Negative)。
服务器输入三元组(Anchor、Positive和Negative)至第二预训练模型进行特征提取,得到锚定样本段落数据对应的锚定样本段落数据向量、正样本段落片段对应的正样本段落数据向量和负样本段落片段对应的负样本段落数据向量。计算锚定样本段落数据向量与负样本段落数据向量之间距离得到第三差异,以及锚定样本段落数据向量与正样本段落数据向量之间距离得到第四差异;根据第三差异和第四差异,计算第二损失数据。该第二损失数据的计算公式与第一损失数据的计算公式相同,在此不再赘述。
服务器得到第二损失数据之后,判断该二损失数据是否满足预设训练结束条件,或者模型训练的次数是否满足预设训练结束条件,若上述任一判断为是,则结束模型训练,并将训练得到的模型作为段落语义相似度模型。若上述判断均为否,则重复上述模型训练过程,直至损失数据满足预设训练结束条件,或者模型训练的次数满足预设训练结束条件。
本申请实施例的段落语义相似度模型训练过程的输入是锚定样本段落数据、正样本段落片段和负样本段落片段这一三元组,并使用Triplet loss计算损失数据,Tripletloss能够通过使Anchor与Positive的距离小于Anchor与Negative的距离,实现样本之间的相似性计算。因此使用Triplet loss计算损失数据,能够提升损失数据的确定精度,进而提升段落语义相似度模型的训练精度,使得训练得到的段落语义相似度模型具备以段落粒度为基础召回目标段落片段向量,实现对交互文本的段落的深度理解的功能。
在一个可选的实施例中,在上述步骤S10715中,目标段落片段向量对应的句子片段向量为至少两个,上述从目标段落片段向量对应的句子片段向量中,获取与语义向量之间的相似度满足第三预设条件的目标句子片段向量,可以包括:
组合目标段落片段向量对应的每个句子片段向量和语义向量,得到目标段落片段向量对应的每个句子片段向量的句子组合结果。
输入每个句子组合结果至句子语义相似度模型进行相似度匹配处理,以从目标段落片段向量对应的至少两个句子片段向量中,获取与语义向量的相似度满足第三预设条件的目标句子片段向量;其中,句子语义相似度模型为基于样本段落片段、标注有样本查询结果标签的样本查询文本对第三预训练模型进行训练得到。
该实施例中,服务器可以预先通过样本段落片段、标注有样本查询结果标签的第三样本查询文本对第三预训练模型进行训练得到语义相似度模型,以使得训练得到的语义相似度模型具备从已有的句子片段向量中查找与某个查询样本的语义向量之间的相似度满足预设条件的句子片段向量。需要说明的是,该第三预训练模型可以是各种类型的预训练语言模型。
在得到目标段落片段向量之后,服务器即可获取该目标段落片段向量对应的目标段落片段所包括的句子片段的句子片段向量,该句子片段向量可以为至少两个,服务器可以组合目标段落片段向量对应的每个句子片段向量和语义向量,得到目标段落片段向量对应的每个句子片段向量的句子组合结果。示例性地,组合可以指的是:将句子片段向量拼接在语义向量的前面或后面,以得到每个句子片段向量的句子组合结果。
服务器可以输入每个句子组合结果至句子语义相似度模型进行相似度匹配处理,以从目标段落片段向量对应的至少两个句子片段向量中,获取与语义向量的相似度满足第三预设条件的目标句子片段向量。示例性地,第三预设条件可以为相似度小于某个相似度阈值的条件,更进一步地,该相似度满足第三预设条件可以为与语义向量之间的距离小于某个距离阈值的条件。
由于是从已经召回的目标段落片段向量对应的句子片段向量查找与语义向量的相似度满足第三预设条件的句子片段向量,能够提高句子片段向量的召回精度;此外,由于是通过句子语义相似度模型召回目标句子片段向量,句子语义相似度模型为基于样本段落片段、标注有样本查询结果标签的样本查询文本对第三预训练模型进行训练得到,使得训练得到的句子语义相似度模型具备从输入的句子向量中查找与查询文本的语义向量相似的目标片段句子向量,不仅能够提高句子片段向量的召回精度,还能够提高句子片段向量的召回效率。
图5是根据一示例性实施例示出的一种句子语义相似度模型的训练方法的流程示意图一,如图5所示,在一个可选的实施例中,上述句子语义相似度模型的训练方法包括:
S301.获取样本段落片段和第三样本查询文本。
S303.对样本段落片段进行分割,得到至少两个样本句子片段。
S305.组合每个样本句子片段的样本句子片段向量和样本查询文本的样本语义向量,得到每个样本句子片段向量对应的样本句子组合结果。
S307.输入每个样本句子组合结果至第三预训练模型进行查询预测处理,得到每个样本句子组合结果与样本查询结果标签相匹配的预测匹配结果。
S309.根据预测匹配结果和实际匹配结果之间的差异调整第三预训练模型的网络参数,直至预测匹配结果与实际匹配结果之间的差异满足第四预设条件,得到句子语义相似度模型;实际匹配结果为每个样本句子组合结果与样本查询结果标签之间的实际相似度匹配结果。
可选地,在上述步骤S301中,服务器可以获取样本段落片段以及针对该样本段落片段的第三样本查询文本,该第三样本查询文本中携带有样本查询结果标签。该样本段落片段可以为各种领域的段落片段,对此不作具体限定。
在上述步骤S303中,服务器可以按照预设方式对样本段落片段进行分割,得到至少两个样本句子片段。该预设方式可以为标点符号、句子中所包括的字数、句子中所包括的行数等。在该预设方式为标点符号的情况下,该标点符号可以为句号。
在上述步骤S305中,服务器可以组合每个样本句子片段的样本句子片段向量和样本查询文本的样本语义向量,得到每个样本句子片段向量对应的样本句子组合结果。示例性地,组合可以指的是:将样本句子片段向量拼接在样本语义向量的前面或后面,以得到每个样本句子片段向量对应的样本句子组合结果。
在上述步骤S307中,服务器可以输入每个样本句子组合结果至第三预训练模型进行查询预测处理,得到每个样本句子组合结果与样本查询结果标签相匹配的预测匹配结果。示例性地,该预测匹配结果可以为“是”或者“否”的匹配结果,还可以为预测匹配概率。
在上述步骤S309中,由于样本查询结果标签是已知的,根据该已知的样本查询结果标签,可以预先确定每个样本句子组合结果与样本查询结果标签之间相匹配的实际匹配结果。该实际匹配结果可以为“是”或者“否”的匹配结果,也可以为预测匹配概率。服务器根据预测匹配结果实际匹配结果之间的差异调整第三预训练模型的网络参数,直至预测匹配结果与实际匹配结果之间的差异满足第四预设条件,得到句子语义相似度模型。示例性地,第四预设条件可以指的是预测匹配结果与实际匹配结果之间的差异小于预设差异阈值的条件。
图6是根据一示例性实施例示出的一种句子语义相似度模型的训练方法的流程示意图二,如图6所示,可以对样本段落片段进行分割,得到三个样本句子片段(样本句子片段1、样本句子片段2和样本句子片段3),组合样本句子片段1的样本句子片段向量和样本查询文本的样本语义向量,得到样本句子片段1对应的样本句子组合结果1;组合样本句子片段2的样本句子片段向量和样本查询文本的样本语义向量,得到样本句子片段2对应的样本句子组合结果2;组合样本句子片段3的样本句子片段向量和样本查询文本的样本语义向量,得到样本句子片段3对应的样本句子组合结果3。输入样本句子组合结果1、样本句子组合结果2和样本句子组合结果3至第三预训练模型进行查询预测处理,得到样本句子组合结果1、样本句子组合结果2和样本句子组合结果3分别与样本查询结果标签相匹配的预测匹配概率1、预测匹配概率2和预测匹配概率3。
由于样本查询结果标签是已知的,根据该已知的样本查询结果标签,可以预先确定样本句子组合结果1、样本句子组合结果2和样本句子组合结果3分别与样本查询结果标签相匹配的实际匹配概率1、实际匹配概率2和实际匹配概率3。
服务器根据预测匹配概率1与实际匹配概率1之间的差异、预测匹配概率2与实际匹配概率2之间的差异、预测匹配概率3与实际匹配概率3之间的差异调整第三预训练模型的网络参数,直至预测匹配概率1与实际匹配概率1相匹配、预测匹配概率2与实际匹配概率2相匹配、预测匹配概率3与实际匹配概率3相匹配,得到句子语义相似度模型。
由此能够对段落进行句子分割得到句子片段,以该句子片段为粒度训练句子语义相似度模型,提高了语义相似度模型的训练效率和精度,使得训练得到的语义相似度模型能够具备从已经召回的目标段落片段向量对应的句子片段向量中,查找与语义向量的相似度满足预设条件的句子片段向量的能力,从而提高句子片段向量的召回精度和召回效率。
在其他实施方式中,句子语义相似度模型的训练方法还可以包括:
获取RACE,QAngaroo,OpenQA等阅读理解样本数据集。其中,RACE是一个来源于中学考试题目的大规模阅读理解数据集。QAngaroo是通过多个推理步骤收集多条信息的阅读理解数据集。
根据阅读理解数据集构造句子相关性样本数据集。
根据针对阅读理解数据的查询文本和答案标签,反向查询查询文本所在的句子位置,训练数据集的样式为<question,sentence>。根据查询结果和答案标签之间的差异调整模型参数,直至满足预设训练结束条件,得到句子语义相似度模型。
在其他实施方式中,上述从目标段落片段向量对应的句子片段向量中,获取与语义向量之间的相似度满足第三预设条件的目标句子片段向量,可以包括:输入目标段落片段向量对应的句子片段向量至语言编码器(Encoder)进行相似度匹配,得到目标句子片段向量。
在一个可选的实施例中,在文本片段包括段落片段和句子片段,且文本片段向量包括段落片段向量和句子片段向量中的情况下,在上述步骤S1071中,上述从篇章片段向量、段落片段向量、句子片段向量中的至少一种中,检索与查询文本的语义向量的相似度满足预设条件的目标向量,包括:
从段落片段向量中获取与语义向量之间的相似度满足第五预设条件的目标段落片段向量。
从满足第五预设条件的目标段落片段向量对应的句子片段向量中,获取与语义向量之间的相似度满足第六预设条件的目标句子片段向量。
确定满足第六预设条件的目标句子片段向量为目标向量。
该实施例中,如果交互文本不包括篇章,则结构化解析得到的文本片段中仅包段落片段和句子片段,相应的文本片段向量仅包括段落片段向量和句子片段向量,则服务器可以从段落片段向量中获取与语义向量之间的相似度满足第五预设条件的目标段落片段向量,并从满足第五预设条件的目标段落片段向量对应的句子片段向量中,获取与语义向量之间的相似度满足第六预设条件的目标句子片段向量,最后确定满足第五预设条件的目标段落片段向量、满足第六预设条件的目标句子片段向量中的至少一种为目标向量。
需要说明的是,上述“从段落片段向量中获取与语义向量之间的相似度满足第五预设条件的目标段落片段向量”可以包括:输入段落片段向量和语义向量至段落语义相似度模型进行相似度匹配处理,以从段落片段向量中获取相似度满足第五预设条件的目标段落片段向量。其中,段落语义相似度模型请参见上述训练过程,在此不在赘述。
需要说明的是,上述“从满足第五预设条件的目标段落片段向量对应的句子片段向量中,获取与语义向量之间的相似度满足第六预设条件的目标句子片段向量”可以包括:组合满足第五预设条件的目标段落片段向量对应的句子片段向量和语义向量,得到满足第五预设条件的目标段落片段向量对应的每个句子片段向量的句子组合结果;输入每个句子组合结果至句子语义相似度模型进行相似度匹配处理,以从目标段落片段向量对应的至少两个句子片段向量中,获取与语义向量之间的相似度满足第六预设条件的目标句子片段向量。其中,句子语义相似度模型请参见上述训练过程,在此不在赘述。
在得到满足第五预设条件的目标段落片段向量和满足第六预设条件的目标句子片段向量之后,可以将目标段落片段向量、目标句子片段向量中的至少一种作为目标向量。需要说明的是,第五预设条件和第六预设条件可以为相似度小于某个相似度阈值的条件,更进一步地,可以为与语义向量之间的距离小于某个距离阈值的条件,第五预设条件和第六预设条件可以相同,也可以不同。由此,能够在交互文本不包括篇章的情况下,通过段落、句子两个维度召回与查询文本的语义向量的相似度满足预设条件的目标向量,即能够通过段落、句子两个维度召回最优的句子,实现了对交互文本的段落和句子的深度理解、解析,从而实现了对查询结果的精准匹配定位。
在一个可选的实施例中,文本片段包括句子片段,且文本片段向量包括句子片段向量中的情况下,在上述步骤S1071中,上述从篇章片段向量、段落片段向量、句子片段向量中的至少一种中,检索与查询文本的语义向量的相似度满足预设条件的目标向量,包括:
从句子片段向量中获取与语义向量之间的相似度满足第七预设条件的目标段落句子向量。确定相似度满足第七预设条件的目标段落句子向量为目标向量。
该实施例中,如果交互文本不包括篇章和段落,则结构化解析得到的文本片段中包括句子片段,相应的文本片段向量仅包括句子片段向量,则服务器可以从句子片段向量中获取与语义向量之间的相似度满足第七预设条件的目标段落句子向量,确定相似度满足第七预设条件的目标段落句子向量为目标向量。
需要说明的是,上述“从句子片段向量中获取与语义向量之间的相似度满足第七预设条件的目标段落句子向量”可以包括:组合句子片段向量和语义向量,得到句子片段向量的句子组合结果;输入句子组合结果至句子语义相似度模型进行相似度匹配处理,得到相似度满足第七预设条件的目标段落句子向量。其中,句子语义相似度模型请参见上述训练过程,在此不在赘述。由此,能够在交互文本不包括篇章和段落的情况下,通过句子这一个维度召回与查询文本的语义向量的相似度满足预设条件的目标向量,即能够通过句子这一个维度召回最优的句子,实现了对交互文本的句子内容的深度理解和解析,从而实现了对查询结果的精准匹配定位。
需要说明的是,上述步骤S107可以通过多种方式实现,对此不要具体限定,在一个可选的实施例中,该索引信息包括篇章片段索引信息、段落片段索引信息和句子片段索引信息,则在上述步骤S107中,上述从篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,获取与交互文本对应的查询文本的相似度满足预设条件的目标索引信息,可以包括:
从篇章片段索引信息、段落片段索引信息和句子片段索引信息中,确定与目标向量对应的目标索引信息。
该实施例中,在交互文本包括篇章的情况下,对交互文本进行结构化解析处理得到文本片段包括篇章片段、段落片段和句子片段,相应的索引信息包括篇章片段索引信息、段落片段索引信息和句子片段索引信息,则在得到目标向量之后,可以从该篇章片段索引信息、段落片段索引信息和句子片段索引信息中,确定与目标向量对应的目标索引信息。
在另一个可选的实施例中,索引信息包括段落片段索引信息和句子片段索引信息,从篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,确定与目标向量对应的目标索引信息,包括:
从段落片段索引信息和句子片段索引信息中,确定与目标向量对应的目标索引信息。
该实施例中,在交互文本包括段落的情况下,对交互文本进行结构化解析处理得到文本片段包括段落片段和句子片段,相应的索引信息包括段落片段索引信息和句子片段索引信息,则在得到目标向量之后,可以从该段落片段索引信息和句子片段索引信息中,确定与目标向量对应的目标索引信息。
在另一个可选的实施例中,索引信息包括句子片段索引信息,上述从篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,确定与目标向量对应的目标索引信息,包括:
从句子片段索引信息中确定与目标向量对应的目标索引信息。
在一些实施例中,继续如图3所示,在上述步骤S1013中,上述输入上下文信息和查询文本至大型语言模型进行查询结果预测处理,得到查询文本的查询结果,可以包括:
S10131.根据上下文信息和查询文本生成提示信息。
S10133.输入提示信息至大型语言模型进行查询结果预测处理,得到查询文本的查询结果。
可选地,在上述步骤S10131中,服务器可以根据上下文信息和查询文本生成提示信息(prompt)。在一种实施方式中,服务器获取预先配置的提示模版,该提示模版中包括信息槽,服务器将该上下文信息和查询文本填充至该提示槽中得到提示信息。在另一种实施方式中,服务器可以直接将上下文信息和查询文本进行拼接得到提示信息,或进行拼接后加密得到提示信息。
可选地,在上述步骤S10131中,服务器可以将提示信息输入至大型语言模型进行查询结果预测处理的提示学习,得到查询文本的查询结果。由此可以通过对交互文本的深度理解和解析、配合大型语言模型一起完成交互文件的深度理解,实现了基于用户问答,生成更准确、更全面、更可读的交互文件主题总结和信息提炼,并且针对性回答用户对文件的提问,大大提高交互文件处理的效率以及用户与交互文本之间的交互响应效率,降低交互文件的处理成本;此外,Prompt本质上是对下游任务的指令,可以作为一种信息增强,告诉模型需要做什么任务,输出什么内容。即提示学习本质上可以复用预训练语言模型在预训练阶段所使用的目标和参数,对于基础大模型冻结部分参数和层,由于没有很多硬件计算资源和存储,所以在已经训练好的模型的基础上,冻结部分模型的参数,可以在实际的业务场景落地使用,同时能够降低建模的成本和提升建模的效率。
以下,对大语言模型进行介绍:
大语言模型用Transform结构,Transform结构使用注意力(Attention)机制进行序列建模,并且在机器翻译任务上取得了最好的结果,打破了编码-解码(encoder-decoder)模型必须结合循环神经网络(Recurrent Neural Network,RNN)的传统模式,在不损失效果甚至提升效果的前提下,大大提高了模型并行度。其中,Transform结构的结构网络关键部分包括:
多头自注意力(Multi-HeadSelf-Attention):对序列应用自注意力机制(Se lf-Attention),可以同时挖掘序列中每一个项目(item)与其他所有item间的相互关系。使用多头注意力可以从不同的向量子空间进行信息挖掘。
位置前馈网络(Position-wise Feed-Forward Network):在注意力(Attention)之后加入一层前馈网络,赋予模型非线性表达能力,并且可以挖掘不同维度间的交互关系。
变化层(Transformer Layer):一个Transformer layer由一个多头自注意力层和一个位置前馈网络组成,其中,Attention Layer和FFN在输出部分都使用了残差网络,并进行了层标准化(Layer Normalization)。
对叠层(Stacking Transformer Layers):将多个Transformer layer叠加在一起,可以学习更复杂更高阶的交互信息。
以下,对上述交互文本处理方法进行整体说明:
本申请实施例的应用场景可以为:针对社交网络中的即时通信群组中用户上传的文本文件、点对点聊天过程当中传输的文本文件或者文件网页的链接,或者在线存储服务(例如,网盘等)中保存的文本文件,可以对该文本文件进行有效的理解和处理,根据用户提出的针对性问题给出答案回复,也可以给出答案在文本文件中的具***置,如果文本文件中有相关的答案则返回答案,否则就提示用户文文件中不涉及与问题相关的内容。
图7是根据一示例性实施例示出的一种交互文本处理方法的流程示意图三,如图7所示,该交互文本处理方法可以包括:
1)获取交互文本和针对交互文本提出的查询文本;该交互文本的类型可以为PDF,word,Web,txt等格式的文件,或者各种电子书等等。
2)对交互文本进行结构化解析处理得到文本片段;文本片段包括篇章片段、段落片段、句子片段中的至少一个。对文本片段进行向量化,得到篇章片段向量、段落片段对应的段落片段向量、句子片段对应的句子片段向量中的至少一种。
在一种实施方式中,在预设服务为社交网络中的即时通信服务,服务器获取交互文本、查询文本以及对文本进行解析的过程可以包括:
图8是根据一示例性实施例示出的一种交互文本处理方法的流程示意图四,如图8所示,终端对象打开即时通信服务,进入即时通信群组或者进入与其他对象进行点对点聊天的页面,终端对象在即时通信群组的群应用中,或者在点对点聊天的页面中查找文件控件,并点击该文件控件,从而在文本展示页面中展示当前时间之前终端对象与其他对象上传的所有文本。
当终端对象想要对某些文件进行解析时,可以对某些文件进行操作(包括但不限于:点击、长按、拖拽等)以触发针对该某些文件的选取操作,服务器响应于该选取操作,将终端对象选取的某些文件确定为最终需要解析的交互文本。需要说明的是,该“某些文件”可以是一个文件,也可以会一批文件,对此不做具体限定。
在终端对象对某些文件进行操作的时候,客户端还可以展示该交互文本,并在即时通信服务中弹出文件助手工具,终端对象操作(例如,点击)该文件助手工具以展示文件助手工具对应的功能页面,该功能页面中展示有对文件进行操作的各种功能,例如,文件解析功能、文件编译功能等。终端对象点击该文件解析功能以触发文本解析操作,服务器响应于该文本解析操作,将交互文本传入该文件助手工具进行结构化解析处理得到文本片段。服务器发送该文本片段至终端,终端在即时通信服务中的目标页面中展示该文本片段。
终端在目标页面中还可以展示查询文本编辑区域,该查询文本编辑区域可以展示在目标页面的任意位置,例如,位于文本片段的下方、上方等区域,对此不做具体限定。终端对象对该查询文本编辑区域进行编辑以触发编辑操作,服务器响应于该编辑操作,将该编辑操作对应的文本作查询文本。
在另一种实施方式中,在预设服务为在线存储服务,服务器获取交互文本、查询文本以及对文本进行解析的过程可以包括:
终端对象打开在线存储服务,在线存储服务中的文本展示页面中展示有当前时间之前终端对象上传的所有文本。当终端对象想要对某些文件进行解析时,可以对某些文件进行操作(包括但不限于:点击、长按、拖拽等)以触发针对该某些文件的选取操作,服务器响应于该选取操作,将终端对象选取的某些文件确定为最终需要解析的交互文本。
在终端对象对某些文件进行操作的时候,客户端还可以弹出文件助手工具,终端对象点击该文件助手工具以展示文件助手工具对应的功能页面,该功能页面中展示有对文件进行操作的各种功能,例如,文件解析功能、文件编译功能等。终端对象点击该文件解析功能以触发文本解析操作,服务器响应于该文本解析操作,将交互文本传入该文件助手工具进行结构化解析处理得到文本片段。服务器发送该文本片段至终端,终端在在线存储服务中的目标页面中展示该文本片段。
终端在目标页面中还可以展示查询文本编辑区域,该查询文本编辑区域可以展示在目标页面的任意位置,例如,位于文本片段的下方、上方等区域,对此不做具体限定。终端对象对该查询文本编辑区域进行编辑以触发编辑操作,服务器响应于该编辑操作,将该编辑操作对应的文本作查询文本。
3)建立文本片段对应的索引信息。该索引信息包括篇章片段向量对应的篇章片段索引信息、段落片段向量对应的段落片段索引信息、句子片段向量对应的句子片段索引信息、显示索引信息、结构索引信息中的至少一种。
4)对查询文本进行编码,得到查询文本的语义向量。
5)输入篇章片段向量和语义向量至篇章语义相似度模型进行相似度匹配处理,以从篇章片段向量中获取与语义向量的相似度满足第一预设条件的目标篇章片段向量。
6)输入目标篇章片段向量和语义向量至段落语义相似度模型进行相似度匹配处理,以从目标篇章片段向量对应的段落片段向量中,获取与语义向量的相似度满足第二预设条件的目标段落片段向量。
7)组合目标段落片段向量对应的每个句子片段向量和语义向量,得到目标段落片段向量对应的每个句子片段向量的句子组合结果;输入每个句子组合结果至句子语义相似度模型进行相似度匹配处理,以从目标段落片段向量对应的至少两个句子片段向量中,获取与语义向量的相似度满足第三预设条件的目标句子片段向量。确定目标句子片段向量为目标向量。
8)从篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,确定与目标向量对应的目标索引信息。从文本片段中获取与目标索引信息对应的目标文本片段。
9)根据目标文本片段生成查询文本的上下文信息。
10)根据上下文信息和查询文本生成提示信息。
11)输入提示信息至大型语言模型进行查询结果预测处理,得到查询文本的查询结果。
需要说明的是,上述“建立文本片段对应的索引信息”至“得到查询文本的查询结果”的过程均可以通过文件助手工具实现。
12)发送查询结果至终端,以使终端在即时通信服务或者在线存储服务中的目标页面中展示文本片段、查询文本和查询结果。
图9是根据一示例性实施例示出的一种交互文本处理的***示意图,如图9所示,该交互文本处理的***可以包括:
一.端
(1)通过和消息接口服务通讯,完成消息功能上下行;
(2)实现文件理解在产品端的各种功能和消息处理,调用群文件理解与问答服务功能,完成群文件理解的能力实现及和用户的交互;
(3)实现群组聊天在端的各种功能和消息交互,群组管理等等,群文件的上传及下载等等;
(4)将用户对文件理解的各种反馈信息通过上报分析与接口服务上报,供后续模型微调和对齐人类期望;
二.接入服务器
(1)和端同步,完成消息的上下行通讯及同步;
(2)将消息内容通过消息队列***与消息数据库存储及索引***对接,完成消息处理的核心业务逻辑;
(3)和群组业务服务器通讯,完整群组的各种功能,包括添加删除群,群文件的上传下载的中间桥梁;
三.消息内容数据库
(1)临时保存用户对话的消息,实现消息的漫游和多端消息的同步;
(2)作为消息***的核心模块,对消息的存储和索引处理高效率优化;
(3)消息多端同步的信息来源;
四.消息***
(1)负责消息同步和通讯的整个流转调动分发;
(2)负责和消息内容数据库通讯,完成消息的分发和处理,包括各种群组消息内容;
五.上报与分析接口服务
(1)和消息端通讯,接收上报上来消息消费和分发过程当中的各种反馈,本业务中包括对文件深度理解问答生成结果的用户反馈;
六.文件数据库及索引信息
(1)和接入服务期通讯,包括文档的显示索引,文档的结构索引,篇章索引,段落索引和句子级别粒度的索引,索引信息主要用于快速定位到实际的文本内容,同时保存文件解析以后得各种粒度的内容块实体文本信息;
(2)同时保存各种阅读理解及问答相关的公开及人工标注的数据集合;
(3)给大语言模型进行微调和构建多个粒度的文本相似度模型比如篇章,段落和句子级别的语义相似度基础模型提供原始监督样本数据服务
七.群文件理解与问答模型
(1)按照上面描述的基于大型语言模型prompt构造的方法和上下文定位方法完成理解与问答模型的构造,在此模型基础上进行服务化得到文件理解与问答生成的最终服务;
(2)和端通讯,完成用户指定筛选的文本文件进行理解与问答的处理并且返回结果供消息端进行展示;
八.群文件理解与问答服务
(1)将上述构建的群文件理解与问答服务及一系列依赖的基础,比如篇章,段落和句子粒度的基础模型服务好,完成用户问题对应答案的定位;
(2)在定位的基础上,构造Prompt基于大型语言模型完成最后问答结果的生成;
(3)和端通讯,完成用户指定筛选的文件进行理解与问答的处理并且返回结果供端进行展示;
九.大型语言模型
该实施例并不限于一个固定大型语言模型,只要是使用生成的Transform架构的模型都可以归为大型语言模型。
十.群组业务***
(1)完成群组的各种消息同步及处理;
(2)同时完成群成员上传和发布的各种群文件的索引保存和共享,同时和文件数据库及索引***通讯,提供需要进行文件深度理解和问答处理的原始文件数据源。
图10是根据一示例性实施例示出的一种交互文本处理装置的框图,如图10所示,该交互文本处理装置包括:
文本获取模块401,用于获取交互文本以及针对所述交互文本的查询文本。
解析模块403,用于对所述交互文本进行结构化解析处理得到文本片段;所述文本片段包括篇章片段、段落片段、句子片段中的至少一种。
索引建立模块405,用于建立所述文本片段对应的索引信息;所述索引信息用于表征所述文本片段在所述交互文本中的位置信息,所述索引信息包括所述篇章片段对应的篇章片段索引信息、所述段落片段对应的段落片段索引信息、所述句子片段对应的句子片段索引信息中的至少一种。
索引获取模块407,用于从所述篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,获取与所述交互文本对应的查询文本的相似度满足预设条件的目标索引信息。
目标文本片段获取模块409,用于从所述文本片段中获取与所述目标索引信息对应的目标文本片段。
上下文生成模块4011,用于根据所述目标文本片段生成所述查询文本的上下文信息。
查询结果生成模块4013,用于输入所述上下文信息和所述查询文本至大型语言模型进行查询结果预测处理,得到所述查询文本的查询结果;其中,所述大型语言模型为基于预设领域的预设上下文信息、针对所述预设上下文信息的预设查询文本和所述预设查询文本对应的预设查询结果对初始大型语言模型进行指令微调得到。
在一个可选的实施例中,所述装置还包括:
向量化模块,用于对所述文本片段进行向量化,得到所述文本片段对应的文本片段向量;所述文本片段向量包括所述篇章片段对应的篇章片段向量、所述段落片段对应的段落片段向量、所述句子片段对应的句子片段向量中的至少一种。
相应地,上述索引建立模块,用于建立所述篇章片段向量、段落片段向量、句子片段向量中的至少一种对应的索引信息,得到所述文本片段对应的索引信息。
相应地,所述索引获取模块,包括:
向量检索单元,用于从所述篇章片段向量、所述段落片段向量、所述句子片段向量中的至少一种中,检索与所述查询文本的语义向量的相似度满足所述预设条件的目标向量。
目标索引信息确定单元,用于从所述篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,确定与所述目标向量对应的所述目标索引信息。
在一个可选的实施例中,在所述文本片段包括篇章片段、段落片段和句子片段,且所述文本片段向量包括所述篇章片段向量、所述段落片段向量和所述句子片段向量的情况下,上述向量检索单元,包括:
第一向量获取子单元,用于从所述篇章片段向量中获取与所述语义向量之间的相似度满足第一预设条件的目标篇章片段向量。
第二向量获取子单元,用于从所述目标篇章片段向量对应的段落片段向量中,获取与所述语义向量之间的相似度满足第二预设条件的目标段落片段向量。
第三向量获取子单元,用于从所述目标段落片段向量对应的句子片段向量中,获取与所述语义向量之间的相似度满足第三预设条件的目标句子片段向量;确定所述目标句子片段向量为所述目标向量。
在一个可选的实施例中,所述第一向量获取子单元,用于:
输入所述篇章片段向量和所述语义向量至篇章语义相似度模型进行相似度匹配处理,以从所述篇章片段向量中获取与所述语义向量的相似度满足所述第一预设条件的目标篇章片段向量;
其中,所述篇章语义相似度模型为基于第一样本查询文本对应的锚定样本篇章数据、样本篇章片段集中的正样本篇章片段和负样本篇章片段对第一预训练模型进行训练得到,所述正样本篇章片段的标题内容与所述锚定样本篇章数据的内容相匹配,所述负样本篇章片段的标题内容与所述锚定样本篇章数据的内容不匹配。
在一个可选的实施例中,所述装置还包括:
第一样本文本获取模块,用于获取所述样本篇章片段集和所述第一样本查询文本。
锚定样本篇章数据生成模块,用于根据所述第一样本查询文本生成所述锚定样本篇章数据。
正负样本篇章片段确定单元,用于从所述样本篇章片段集中确定出所述正样本篇章片段和所述负样本篇章片段。
第一特征提取单元,用于输入所述锚定样本篇章数据、所述正样本篇章片段和所述负样本篇章片段至所述第一预训练模型进行特征提取,得到所述锚定样本篇章数据对应的锚定样本篇章数据向量、所述正样本篇章片段对应的正样本篇章数据向量和所述负样本篇章片段对应的负样本篇章数据向量。
第一第二差异计算单元,用于计算所述锚定样本篇章数据向量与所述负样本篇章数据向量之间的第一差异,以及所述锚定样本篇章数据向量与所述正样本篇章数据向量之间的第二差异。
第一损失数据计算单元,用于根据所述第一差异和所述第二差异,计算第一损失数据。
第一调整单元,用于根据所述第一损失数据调整所述第一预训练模型的网络参数,直至满足预设训练结束条件得到所述篇章语义相似度模型。
在一个可选的实施例中,所述第二向量获取子单元,用于:
输入所述目标篇章片段向量和所述语义向量至段落语义相似度模型进行相似度匹配处理,以从所述目标篇章片段向量对应的段落片段向量中,获取与所述语义向量的相似度满足第二预设条件的目标段落片段向量;
其中,所述段落语义相似度模型为基于第二样本查询文本对应的锚定样本段落数据、样本段落片段集中的正样本段落片段和负样本段落片段对第二预训练模型进行训练得到,所述正样本段落片段的内容与所述锚定样本段落数据的内容相匹配,所述负样本段落片段的内容与所述锚定样本段落数据的内容不匹配。
在一个可选的实施例中,所述转置还包括:
第二样本文本获取单元,用于获取所述第二样本查询文本和样本篇章片段对应的样本段落片段集。
锚定样本段落数据生成单元,用于根据所述样第二样本查询文本生成所述锚定样本段落数据。
正负样本段落片段确定单元,用于从所述样本段落片段集中确定出所述正样本段落片段和所述负样本段落片段。
第二特征提取单元,用于输入所述锚定样本段落数据、所述正样本段落片段和所述负样本段落片段至所述第二预训练模型进行特征提取,得到所述锚定样本段落数据对应的锚定样本段落数据向量、所述正样本段落片段对应的正样本段落数据向量和所述负样本段落片段对应的负样本段落数据向量。
第三第四差异计算单元,用于计算所述锚定样本段落数据向量与所述负样本段落数据向量之间的第三差异,以及所述锚定样本段落数据向量与所述正样本段落数据向量之间的第四差异。
第二损失数据计算单元,用于根据所述第三差异和所述第四差异,计算第二损失数据。
第二调整单元,用于根据所述第二损失数据调整所述第二预训练模型的网络参数,直至满足预设训练结束条件得到所述段落语义相似度模型。
在一个可选的实施例中,所述目标段落片段向量对应的句子片段向量为至少两个,所述第三向量获取子单元,用于:
组合所述目标段落片段向量对应的每个句子片段向量和所述语义向量,得到所述目标段落片段向量对应的每个句子片段向量的句子组合结果;
输入每个所述句子组合结果至句子语义相似度模型进行相似度匹配处理,以从所述目标段落片段向量对应的至少两个句子片段向量中,获取与所述语义向量的相似度满足所述第三预设条件的目标句子片段向量;
其中,所述句子语义相似度模型为基于样本段落片段、标注有样本查询结果标签的第三样本查询文本对第三预训练模型进行训练得到。
在一个可选的实施例中,所述装置还包括:
第三样本文本获取单元,用于获取所述样本段落片段和所述第三样本查询文本。
分割单元,用于对所述样本段落片段进行分割,得到至少两个样本句子片段。
组合单元,用于组合每个所述样本句子片段的样本句子片段向量和所述样本查询文本的样本语义向量,得到每个所述样本句子片段向量对应的样本句子组合结果。
预测处理单元,用于输入每个所述样本句子组合结果至所述第三预训练模型进行查询预测处理,得到每个所述样本句子组合结果与所述样本查询结果标签相匹配的预测匹配结果。
第三调整单元,用于根据所述预测匹配结果和实际匹配结果之间的差异调整所述第三预训练模型的网络参数,直至所述预测匹配结果与所述实际匹配结果之间的差异满足第四预设条件,得到所述句子语义相似度模型;所述实际匹配结果为每个所述样本句子组合结果与所述样本查询结果标签之间的实际相似度匹配结果。
在一个可选的实施例中,在所述文本片段包括段落片段和句子片段,且所述文本片段向量包括所述段落片段向量和所述句子片段向量中的情况下,所述向量检索单元,包括:
第四向量获取子单元,用于从所述段落片段向量中获取与所述语义向量之间的相似度满足第五预设条件的目标段落片段向量。
第五向量获取子单元,用于从所述满足第五预设条件的目标段落片段向量对应的句子片段向量中,获取与所述语义向量之间的相似度满足第六预设条件的目标句子片段向量。
向量确定单元,用于确定所述满足第六预设条件的目标句子片段向量为所述目标向量。
在一个可选的实施例中,在所述文本片段包括句子片段,且所述文本片段向量包括所述句子片段向量中的情况下,所述向量检索单元,包括:
第六向量获取子单元,用于从所述句子片段向量中获取与所述语义向量之间的相似度满足第七预设条件的目标段落句子向量。
第七向量获取子单元,用于确定所述相似度满足第七预设条件的目标段落句子向量为所述目标向量。
在一个可选的实施例中,所述查询结果生成模块,包括:
提示信息生成单元,用于根据所述上下文信息和所述查询文本生成提示信息。
查询结果预测单元,用于输入所述提示信息至所述大型语言模型进行查询结果预测处理,得到所述查询文本的查询结果。
在一个可选的实施例中,所述文本获取模块,用于响应于终端对象在预设服务中的文本展示页面触发的文本选取操作,将所述文本选取操作对应的文本确定为所述交互文本;所述预设服务为在线存储服务或社交网络中的即时通信服务。
相应地,解析模块,还用于响应于所述终端对象基于文件助手工具触发的文本解析操作,将所述交互文本传入所述文件助手工具进行结构化解析处理得到所述文本片段;发送所述文本片段至终端,以使所述终端在所述预设服务中的目标页面展示所述文本片段;其中,所述文本文件助手工具为在所述终端对象触发所述文本选取操作时在所述终端显示。
在一个可选的实施例中,所述目标页面中展示有查询文本输入区域,所述装置还包括:编辑模块,用于响应于所述终端对象基于所述查询文本输入区域触发的编辑操作,将所述编辑操作对应的文本确定为所述查询文本。
相应地,所述装置还包括:
发送模块,用于发送所述查询结果至所述终端,以使所述终端在所述目标页面展示所述文本片段、所述查询文本和所述查询结果。
需要说明的是,本申请实施例提供的装置实施例与上述方法实施例基于相同的发明构思。
本申请实施例还提供了一种交互文本处理的电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述任一实施例提供的交互文本处理方法。
本申请实施例还提供了一种交互文本处理的电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述任一实施例提供的交互文本处理方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可设置于终端之中以保存用于实现方法实施例中一种交互文本处理方法的至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的交互文本处理方法。
可选地,在本说明书实施例中,存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书实施例存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用程序以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、功能所需的应用程序等;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例提供的交互文本处理方法。
本申请实施例所提供的交互文本处理方法的实施例可以在终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图11是根据一示例性实施例提供的一种服务器的硬件结构框图。如图11所示,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(Central Processing Units,CPU)510(中央处理器510可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器530,一个或一个以上存储应用程序523或数据522的存储介质520(例如一个或一个以上海量存储设备)。其中,存储器530和存储介质520可以是短暂存储或持久存储。存储在存储介质520的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器410可以设置为与存储介质520通信,在服务器500上执行存储介质520中的一系列指令操作。服务器500还可以包括一个或一个以上电源560,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口540,和/或,一个或一个以上操作***521,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口540可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器500的通信供应商提供的无线网络。在一个实例中,输入输出接口540包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口540可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图11所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器500还可包括比图11中所示更多或者更少的组件,或者具有与图11所示不同的配置。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种交互文本处理方法,其特征在于,所述方法包括:
获取交互文本;
对所述交互文本进行结构化解析处理得到文本片段;所述文本片段包括篇章片段、段落片段、句子片段中的至少一种;
建立所述文本片段对应的索引信息;所述索引信息用于表征所述文本片段在所述交互文本中的位置信息,所述索引信息包括所述篇章片段对应的篇章片段索引信息、所述段落片段对应的段落片段索引信息、所述句子片段对应的句子片段索引信息中的至少一种;
从所述篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,获取与所述交互文本对应的查询文本的相似度满足预设条件的目标索引信息;
从所述文本片段中获取与所述目标索引信息对应的目标文本片段;
根据所述目标文本片段生成所述查询文本的上下文信息;
输入所述上下文信息和所述查询文本至大型语言模型进行查询结果预测处理,得到所述查询文本的查询结果;其中,所述大型语言模型为基于预设领域的预设上下文信息、针对所述预设上下文信息的预设查询文本和所述预设查询文本对应的预设查询结果对初始大型语言模型进行指令微调得到。
2.根据权利要求1所述的交互文本处理方法,其特征在于,在所述对所述交互文本进行结构化解析处理得到文本片段之后,所述方法还包括:
对所述文本片段进行向量化,得到所述文本片段对应的文本片段向量;所述文本片段向量包括所述篇章片段对应的篇章片段向量、所述段落片段对应的段落片段向量、所述句子片段对应的句子片段向量中的至少一种;
相应地,所述建立所述文本片段对应的索引信息,包括:
建立所述篇章片段向量、段落片段向量、句子片段向量中的至少一种对应的索引信息,得到所述文本片段对应的索引信息;
相应地,所述从所述篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,获取与所述交互文本对应的查询文本的相似度满足预设条件的目标索引信息,包括:
从所述篇章片段向量、所述段落片段向量、所述句子片段向量中的至少一种中,检索与所述查询文本的语义向量的相似度满足所述预设条件的目标向量;
从所述篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,确定与所述目标向量对应的所述目标索引信息。
3.根据权利要求2所述的交互文本处理方法,其特征在于,在所述文本片段包括篇章片段、段落片段和句子片段,且所述文本片段向量包括所述篇章片段向量、所述段落片段向量和所述句子片段向量的情况下,所述从所述篇章片段向量、所述段落片段向量、所述句子片段向量中的至少一种中,检索与所述查询文本的语义向量的相似度满足预设条件的目标向量,包括:
从所述篇章片段向量中获取与所述语义向量之间的相似度满足第一预设条件的目标篇章片段向量;
从所述目标篇章片段向量对应的段落片段向量中,获取与所述语义向量之间的相似度满足第二预设条件的目标段落片段向量;
从所述目标段落片段向量对应的句子片段向量中,获取与所述语义向量之间的相似度满足第三预设条件的目标句子片段向量;确定所述目标句子片段向量为所述目标向量。
4.根据权利要求3所述的交互文本处理方法,其特征在于,所述从所述篇章片段向量中获取与所述语义向量之间的相似度满足第一预设条件的目标篇章片段向量,包括:
输入所述篇章片段向量和所述语义向量至篇章语义相似度模型进行相似度匹配处理,以从所述篇章片段向量中获取与所述语义向量的相似度满足所述第一预设条件的目标篇章片段向量;
其中,所述篇章语义相似度模型为基于第一样本查询文本对应的锚定样本篇章数据、样本篇章片段集中的正样本篇章片段和负样本篇章片段对第一预训练模型进行训练得到,所述正样本篇章片段的标题内容与所述锚定样本篇章数据的内容相匹配,所述负样本篇章片段的标题内容与所述锚定样本篇章数据的内容不匹配。
5.根据权利要求4所述的交互文本处理方法,其特征在于,所述篇章语义相似度模型的训练方法包括:
获取所述样本篇章片段集和所述第一样本查询文本;
根据所述第一样本查询文本生成所述锚定样本篇章数据;
从所述样本篇章片段集中确定出所述正样本篇章片段和所述负样本篇章片段;
输入所述锚定样本篇章数据、所述正样本篇章片段和所述负样本篇章片段至所述第一预训练模型进行特征提取,得到所述锚定样本篇章数据对应的锚定样本篇章数据向量、所述正样本篇章片段对应的正样本篇章数据向量和所述负样本篇章片段对应的负样本篇章数据向量;
计算所述锚定样本篇章数据向量与所述负样本篇章数据向量之间的第一差异,以及所述锚定样本篇章数据向量与所述正样本篇章数据向量之间的第二差异;
根据所述第一差异和所述第二差异,计算第一损失数据;
根据所述第一损失数据调整所述第一预训练模型的网络参数,直至满足预设训练结束条件得到所述篇章语义相似度模型。
6.根据权利要求3所述的交互文本处理方法,其特征在于,所述从所述目标篇章片段向量对应的段落片段向量中,获取与所述语义向量之间的相似度满足第二预设条件的目标段落片段向量,包括:
输入所述目标篇章片段向量和所述语义向量至段落语义相似度模型进行相似度匹配处理,以从所述目标篇章片段向量对应的段落片段向量中,获取与所述语义向量的相似度满足第二预设条件的目标段落片段向量;
其中,所述段落语义相似度模型为基于第二样本查询文本对应的锚定样本段落数据、样本段落片段集中的正样本段落片段和负样本段落片段对第二预训练模型进行训练得到,所述正样本段落片段的内容与所述锚定样本段落数据的内容相匹配,所述负样本段落片段的内容与所述锚定样本段落数据的内容不匹配。
7.根据权利要求6所述的交互文本处理方法,其特征在于,所述段落语义相似度模型的训练方法包括:
获取所述第二样本查询文本和样本篇章片段对应的样本段落片段集;
根据所述样第二样本查询文本生成所述锚定样本段落数据;
从所述样本段落片段集中确定出所述正样本段落片段和所述负样本段落片段;
输入所述锚定样本段落数据、所述正样本段落片段和所述负样本段落片段至所述第二预训练模型进行特征提取,得到所述锚定样本段落数据对应的锚定样本段落数据向量、所述正样本段落片段对应的正样本段落数据向量和所述负样本段落片段对应的负样本段落数据向量;
计算所述锚定样本段落数据向量与所述负样本段落数据向量之间的第三差异,以及所述锚定样本段落数据向量与所述正样本段落数据向量之间的第四差异;
根据所述第三差异和所述第四差异,计算第二损失数据;
根据所述第二损失数据调整所述第二预训练模型的网络参数,直至满足预设训练结束条件得到所述段落语义相似度模型。
8.根据权利要求3所述的交互文本处理方法,其特征在于,所述目标段落片段向量对应的句子片段向量为至少两个,所述从所述目标段落片段向量对应的句子片段向量中,获取与所述语义向量之间的相似度满足第三预设条件的目标句子片段向量,包括:
组合所述目标段落片段向量对应的每个句子片段向量和所述语义向量,得到所述目标段落片段向量对应的每个句子片段向量的句子组合结果;
输入每个所述句子组合结果至句子语义相似度模型进行相似度匹配处理,以从所述目标段落片段向量对应的至少两个句子片段向量中,获取与所述语义向量的相似度满足所述第三预设条件的目标句子片段向量;
其中,所述句子语义相似度模型为基于样本段落片段、标注有样本查询结果标签的第三样本查询文本对第三预训练模型进行训练得到。
9.根据权利要求8所述的交互文本处理方法,其特征在于,所述句子语义相似度模型的训练方法包括:
获取所述样本段落片段和所述第三样本查询文本;
对所述样本段落片段进行分割,得到至少两个样本句子片段;
组合每个所述样本句子片段的样本句子片段向量和所述样本查询文本的样本语义向量,得到每个所述样本句子片段向量对应的样本句子组合结果;
输入每个所述样本句子组合结果至所述第三预训练模型进行查询预测处理,得到每个所述样本句子组合结果与所述样本查询结果标签相匹配的预测匹配结果;
根据所述预测匹配结果和实际匹配结果之间的差异调整所述第三预训练模型的网络参数,直至所述预测匹配结果与所述实际匹配结果之间的差异满足第四预设条件,得到所述句子语义相似度模型;所述实际匹配结果为每个所述样本句子组合结果与所述样本查询结果标签之间的实际相似度匹配结果。
10.根据权利要求2所述的交互文本处理方法,其特征在于,在所述文本片段包括段落片段和句子片段,且所述文本片段向量包括所述段落片段向量和所述句子片段向量中的情况下,所述从所述篇章片段向量、所述段落片段向量、所述句子片段向量中的至少一种中,检索与所述查询文本的语义向量的相似度满足预设条件的目标向量,包括:
从所述段落片段向量中获取与所述语义向量之间的相似度满足第五预设条件的目标段落片段向量;
从所述满足第五预设条件的目标段落片段向量对应的句子片段向量中,获取与所述语义向量之间的相似度满足第六预设条件的目标句子片段向量;
确定所述满足第六预设条件的目标句子片段向量为所述目标向量。
11.根据权利要求2所述的交互文本处理方法,其特征在于,在所述文本片段包括句子片段,且所述文本片段向量包括所述句子片段向量中的情况下,所述从所述篇章片段向量、所述段落片段向量、所述句子片段向量中的至少一种中,检索与所述查询文本的语义向量的相似度满足预设条件的目标向量,包括:
从所述句子片段向量中获取与所述语义向量之间的相似度满足第七预设条件的目标段落句子向量;
确定所述相似度满足第七预设条件的目标段落句子向量为所述目标向量。
12.根据权利要求1至3中任一项所述的交互文本处理方法,其特征在于,所述输入所述上下文信息和所述查询文本至大型语言模型进行查询结果预测处理,得到所述查询文本的查询结果,包括:
根据所述上下文信息和所述查询文本生成提示信息;
输入所述提示信息至所述大型语言模型进行查询结果预测处理,得到所述查询文本的查询结果。
13.根据权利要求1至3中任一项所述的交互文本处理方法,其特征在于,所述获取交互文本,包括:
响应于终端对象在预设服务中的文本展示页面触发的文本选取操作,将所述文本选取操作对应的文本确定为所述交互文本;所述预设服务为在线存储服务或社交网络中的即时通信服务;
相应地,所述对所述交互文本进行结构化解析处理得到文本片段,包括:
响应于所述终端对象基于文件助手工具触发的文本解析操作,将所述交互文本传入所述文件助手工具进行结构化解析处理得到所述文本片段;
发送所述文本片段至终端,以使所述终端在所述预设服务中的目标页面展示所述文本片段;其中,所述文本文件助手工具为在所述终端对象触发所述文本选取操作时在所述终端显示。
14.根据权利要求13所述的交互文本处理方法,其特征在于,所述目标页面中展示有查询文本编辑区域,在所述发送所述文本片段至终端,以使所述终端在所述预设服务中的目标页面展示所述文本片段之后,所述方法还包括:响应于所述终端对象基于所述查询文本编辑区域触发的编辑操作,将所述编辑操作对应的文本确定为所述查询文本;
相应地,在所述得到所述查询文本的查询结果之后,所述方法还包括:
发送所述查询结果至所述终端,以使所述终端在所述目标页面展示所述文本片段、所述查询文本和所述查询结果。
15.一种交互文本处理装置,其特征在于,所述装置包括:
文本获取模块,用于获取交互文本;
解析模块,用于对所述交互文本进行结构化解析处理得到文本片段;所述文本片段包括篇章片段、段落片段、句子片段中的至少一种;
索引建立模块,用于建立所述文本片段对应的索引信息;所述索引信息用于表征所述文本片段在所述交互文本中的位置信息,所述索引信息包括所述篇章片段对应的篇章片段索引信息、所述段落片段对应的段落片段索引信息、所述句子片段对应的句子片段索引信息中的至少一种;
索引获取模块,用于从所述篇章片段索引信息、段落片段索引信息、句子片段索引信息中的至少一种中,获取与所述交互文本对应的查询文本的相似度满足预设条件的目标索引信息;
目标文本片段获取模块,用于从所述文本片段中获取与所述目标索引信息对应的目标文本片段;
上下文生成模块,用于根据所述目标文本片段生成所述查询文本的上下文信息;
查询结果生成模块,用于输入所述上下文信息和所述查询文本至大型语言模型进行查询结果预测处理,得到所述查询文本的查询结果;其中,所述大型语言模型为基于预设领域的预设上下文信息、针对所述预设上下文信息的预设查询文本和所述预设查询文本对应的预设查询结果对初始大型语言模型进行指令微调得到。
CN202311163655.6A 2023-09-11 2023-09-11 交互文本处理方法、装置、电子设备及存储介质 Pending CN117473034A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311163655.6A CN117473034A (zh) 2023-09-11 2023-09-11 交互文本处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311163655.6A CN117473034A (zh) 2023-09-11 2023-09-11 交互文本处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117473034A true CN117473034A (zh) 2024-01-30

Family

ID=89622828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311163655.6A Pending CN117473034A (zh) 2023-09-11 2023-09-11 交互文本处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117473034A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117909993A (zh) * 2024-03-01 2024-04-19 典基网络科技(上海)有限公司 一种物联网设备漏洞检测方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117909993A (zh) * 2024-03-01 2024-04-19 典基网络科技(上海)有限公司 一种物联网设备漏洞检测方法及装置
CN117909993B (zh) * 2024-03-01 2024-06-21 典基网络科技(上海)有限公司 一种物联网设备漏洞检测方法及装置

Similar Documents

Publication Publication Date Title
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答***
WO2021159632A1 (zh) 智能问答方法、装置、计算机设备及计算机存储介质
CN109325040B (zh) 一种faq问答库泛化方法、装置及设备
CN104076944A (zh) 一种聊天表情输入的方法和装置
CN110866093A (zh) 机器问答方法及装置
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN111931061B (zh) 标签映射方法、装置、计算机设备及存储介质
CN110457585B (zh) 负面文本的推送方法、装置、***及计算机设备
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN116796045B (zh) 一种多维度图书分级方法、***及可读介质
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN117473034A (zh) 交互文本处理方法、装置、电子设备及存储介质
CN117668181A (zh) 信息处理方法、装置、终端设备以及存储介质
CN113723853A (zh) 岗位胜任力需求数据处理方法及装置
CN113011126A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN114840685A (zh) 一种应急预案知识图谱构建方法
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及***
CN112989024B (zh) 文本内容的关系提取方法、装置、设备及存储介质
CN113342944B (zh) 一种语料泛化方法、装置、设备及存储介质
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN116049376B (zh) 一种信创知识检索回复的方法、装置和***
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN106407271B (zh) 一种智能客服***及其智能客服知识库的更新方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication