CN116383366B

CN116383366B - 一种应答信息确定方法、电子设备及存储介质

Info

Publication number: CN116383366B
Application number: CN202310659045.9A
Authority: CN
Inventors: 唐红武; 籍焱; 王殿胜; 张丽颖; 贾泓昊; 尚亚南
Original assignee: China Travelsky Mobile Technology Co Ltd
Current assignee: China Travelsky Mobile Technology Co Ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-08-04
Anticipated expiration: 2043-06-06
Also published as: CN116383366A

Abstract

本发明提供了一种应答信息确定方法、电子设备及存储介质，所述方法包括以下步骤：获取目标用户输入的目标问题文本句A；将A输入至预设的目标文本段确定模型W₁，得到与A对应的目标答案信息A₁；将A₁输入至预设的目标文本句确定模型W₂，得到第一答案文本句B₁；获取预设时间窗口t内用户输入的历史问题文本句集Q；根据Q，获取第二答案文本句集A’；根据Q，获取第三答案文本句集B；根据A’和B，获取W₂生成文本句的正确率η，η=k’/k，k’为B中b_j与A’中a’_j相匹配的个数；若η≥η’，将B₁作为A的应答信息；该方法解决了根据用户输入的查询信息获取答***率较低的问题，且能够保证应答信息不被遗漏。

Description

一种应答信息确定方法、电子设备及存储介质

技术领域

本发明涉及数据处理领域，特别是涉及一种应答信息确定方法、电子设备及存储介质。

背景技术

随着网络技术的快速发展，用户对目标信息获取的要求越来越高，在追求获取实效的同时，还要求目标数据获取的准确性。通常情况下，用户获取目标信息的方式为：在终端设备上相关的应用程序搜索框内直接输入问题，应用程序则直接返回对应于用户输入问题的答案；而目前根据用户输入的查询信息获取答***率较低。

发明内容

针对上述技术问题，本发明采用的技术方案为：

根据本申请的第一方面，提供了一种应答信息确定方法，包括以下步骤：

S100，获取目标用户输入的目标问题文本句A；

S200，将A输入至预设的目标文本段确定模型W₁，得到与A对应的目标答案信息A₁；其中，A₁包含A及与A匹配的答案文本段；与A匹配的答案文本段为W₁根据A从数据库中确定出的文本段；

S300，将A₁输入至预设的目标文本句确定模型W₂，得到第一答案文本句B₁；其中，B₁为W₂根据与A匹配的答案文本段的一部分得到的；

S400，获取预设时间窗口t内用户输入的历史问题文本句集Q=(Q₁,Q₂,…,Q_j,…,Q_k)，j=1,2,…,k；其中，Q_j为用户输入的第j个历史问题文本句，k为历史问题文本句的数量，t的结束时间为当前时间，Q_k=A；

S500，根据Q，获取第二答案文本句集A’=(a’₁,a’₂,…,a’_j,…,a’_k)；其中，A’根据历史目标文本段集A¹=(a¹ ₁,a¹ ₂,…,a¹ _j,…,a¹ _k)得到，a’_j为通过人工的方式对a¹ _j中与Q_j匹配的历史答案文本段进行处理后得到的第二答案文本句；a¹ _j为在t内W₂根据Q_j输出的历史答案信息；

S600，根据Q，获取第三答案文本句集B=(b₁,b₂,…,b_j,…,b_k)；其中，b_j为当前的W₂根据a¹ _j生成的第三答案文本句；

S700，根据A’和B，获取W₂生成文本句的正确率η，η=k’/k，k’为B中b_j与A’中a’_j相匹配的个数；

S800，若η≥η’，将B₁作为A的应答信息；其中，η’为预设的正确率阈值。

根据本申请的另一方面，还提供了一种非瞬时性计算机可读存储介质，存储介质中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现上述应答信息确定方法。

根据本申请的另一方面，还提供了一种电子设备，包括处理器和上述非瞬时性计算机可读存储介质。

本发明至少具有以下有益效果：

本发明的应答信息确定方法，在用户输入问题时，W₁首先根据用户输入的文本句，推荐出与用户输入的文本句匹配度最高的段落文本，由于该阶段所推荐的为整个段落文本，用户输入的文本句对应的文本段包含用户需要的应答信息；因此，能够保证与用户输入的文本句精准匹配的应答信息不被遗漏。

进一步的，根据用户输入的问题以及W₁确定的段落文本，通过人工的方式能提取到与用户输入的文本句精准匹配的应答信息；同时，将W₁确定的文本段输入至文本句确定模型W₂，W₂也会输出应答信息，将最近一段时间W₂输出的应答信息与人工提取的应答信息作比对，如果该准确率符合要求，那么，将W₂输出的应答信息作为用户输入的文本句的应答信息，从而实现模型自动且准确的生成应答信息。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的应答信息确定方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其他方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其他结构及/或功能性实施此设备及/或实践此方法。

下面将参照图1所述的应答信息确定方法的流程图，对一种应答信息确定方法进行介绍。

该应答信息确定方法包括以下步骤：

S100，获取目标用户输入的目标问题文本句A。

本实施例中，可以理解的是，A即为目标用户当前输入的问题文本句；例如，“某航班的货物运输条件？”。

S200，将A输入至预设的目标文本段确定模型W₁，得到与A对应的目标答案信息A₁；其中，A₁包含A及与A匹配的答案文本段；与A匹配的答案文本段为W₁根据A从数据库中确定出的文本段。

W₁为经过训练的初始文本推荐模型，具有一定的从数据库中确定文本段的能力；W₁能够根据用户输入的问题文本句的特征以及数据库中的答案文本段中的关键字特征，来计算问题文本句与数据库中的匹配到的答案文本段的匹配度，将匹配度较高的答案文本段作为结果输出；可以理解的是，W₁所输出的结果是文本段落，而非具体答案文本句，其中包含有用户输入的问题文本句以及与其匹配的答案文本段。

对于匹配度的计算，可以通过以下方法进行：

计算问题文本句中各关键字特征与数据库中各答案文本段的关键字特征相同的数量，将其数量之和最大的答案文本段作为结果进行输出。

正常情况下，答案文本段会包含较多数量的对应的问题文本句的关键字特征，对问题文本句以及答案文本段做关键字特征匹配，能够使得问题文本句中的关键字在确定的答案文本段中所包含的最多，从而提高确定的答案文本段对问题文本句对应的目标答案信息的覆盖。

S300，将A₁输入至预设的目标文本句确定模型W₂，得到第一答案文本句B₁；其中，B₁为W₂根据与A匹配的答案文本段的一部分得到的。

本实施例中，W₁输出的结果为答案文本段，是与问题文本句匹配的段落文本，并不是用户想要的具体答案文本句；因此，需要将A₁输入至W₂；W₂则能够根据A₁中包含的问题文本句以及与之匹配的答案文本段，抽取出精细的答案文本句，B₁为A₁中的所截取的一部分文本段；W₂在使用之前也需要经过训练，当训练后的W₂的输出答***度满足预设条件时，视为初始训练完成。

S400，获取预设时间窗口t内用户输入的历史问题文本句集Q=(Q₁,Q₂,…,Q_j,…,Q_k)，j=1,2,…,k；其中，Q_j为用户输入的第j个历史问题文本句，k为历史问题文本句的数量，t的结束时间为当前时间，Q_k=A。

对于用户输入的历史问题文本，在数据库中存在记录，因此，可以获取到当前时间之前的一段时间内的用户输入的历史问题文本句；例如，当前时间之前的100个小时内的用户输入的所有问题文本句；当然，也可以按照用户输入的问题文本句的顺序，获取最近的预设数量的问题文本句；例如，最近200个问题文本句。

本实施例中，之所以选择当前时间为结束时间，是为了保证所获取的历史问题文本句为最接近当前时间的历史问题文本句，因为模型在使用过程中，其输出结果的准确度在不断变化，由此能够保证所计算的结果较为符合当前模型的性能。

S500，根据Q，获取第二答案文本句集A’=(a’₁,a’₂,…,a’_j,…,a’_k)；其中，A’根据历史目标答案文本段集A¹=(a¹ ₁,a¹ ₂,…,a¹ _j,…,a¹ _k)得到，a’_j为通过人工的方式对a¹ _j中与Q_j匹配的历史答案文本段进行处理后得到的第二答案文本句；a¹ _j为在t内W₂根据Q_j输出的历史答案信息。

对于Q，数据库中存在W₁输出的与Q对应的历史目标答案文本段集A¹，在数据库中能够将A¹获取；其中，a¹ _j为历史答案文本段，包含有历史问题文本句和历史答案文本段；a’_j可以理解为标准答案；可以理解的是，a’_j是通过人工的方式，根据a¹ _j中问题文本句的语义，从a¹ _j中的答案文本段中截取出的一部分或者全部的文本；由于此步骤是人工参与，可以最大程度的保证所截取的答案文本句的准确性。

S600，根据Q，获取第三答案文本句集B=(b₁,b₂,…,b_j,…,b_k)；其中，b_j为当前的W₂根据a¹ _j生成的第三答案文本句。

当前情况下，W₂根据A¹中的各历史答案文本段提取出第三答案文本句，形成第三答案文本句集B；可以理解的是，第三答案文本句为W₂自动生成，其不一定是标准答案。

S700，根据A’和B，获取W₂生成文本句的正确率η，η=k’/k，k’为B中b_j与A’中a’_j相匹配的个数。

对于第三答案文本句与第二答案文本句的匹配度的计算，可以通过以下方法进行：

针对某一第二答案文本句和与其对应的第三答案文本句，首先，统计第二文本句的字符数，若第二文本句的字符数大于预设字符数阈值，则遍历第三答案文本句和第二答案文本句中的字符，找出二者中字符相同的数量，然后求取字符相同的数量在第二答案文本句总字符数中所占的比例，如果该比例大于预设的比例阈值，可判定为该第三答案文本句与第二答案文本句相匹配。

若第二文本句的字符数小于等于预设字符数阈值，遍历第三答案文本句和第二答案文本句中的字符，若二者的字符完全相同，则判定为该第三答案文本句与第二答案文本句相匹配。

对于字符数相对较多的第二答案文本句，即标准答案文本句，如果字符较多，由于模型会有一定的误差，因此，模型输出的第三答案文本句的字符不一定完全与第二答案文本句中的字符相同，但是，二者相同的字符数达到预设值时，应当判定为正确答案；因此，该方法能够在一定程度上避免漏掉模型输出的正确答案。

而对于字符数较少的第二答案文本句，例如，三个字符以内的答案文本句。那么，第三答案文本句的字符数应当与第二答案文本句的字符完全相同，因为，较少字符的答案文本句，一个字符的不同，会导致二者语义完全不同。因此，该方法还能够避免将错误的答案文本句判定为正确的答案文本句。

在模型后续的答案文本句生成过程中，还在继续对模型进行训练，其答案文本句生成的正确率会越来越高，那么，当检测到η≥η’时，可认为W₁和W₂输出结果的正确率已经满足要求，此时，可将W₂生成的答案文本句作为正确答案给用户展示，由此实现应答信息的自动生成；η’可以设置为不小于95%，或者其他合理的数值范围。

在本申请的一种示例性实施例中，W₁通过以下方法得到：

S910，获取目标网页的原始数据表；所述原始数据表包括目标网页的路径信息align、目标网页标题title、网页文本content以及结构化文本信息label_content；其中，align包括目标网页的所有上级网页的网页标题，且若干所述网页标题按对应的上级网页的层级顺序排列；content为对目标网页上的所有文本内容进行拼接后得到的，label_content为对目标网页上的所有文本内容进行结构化处理后得到的。

本实施例中，所针对的是特定类型的网页，其网页结构较为规范；例如，各个航司官网的各个网页。获取目标网页的原始数据可以通过预设的数据获取程序获取；例如，爬虫软件等；对于获取到的网页的原始数据，数据获取程序可以将原始数据汇总成表格，该表格包含有网页的结构信息；例如，某航司官网上的align为首页>旅行信息>特殊关怀>携带小动物出行旅客>小动物进客舱；同时，还包含目标网页标题title；content可由数据获取程序根据从目标网页上获取到的文本内容按照各文本在目标网页中的顺序拼接得到；label_content则通过数据获取软件从目标网页的结构化数据获取，label_content中包括了若干依次排序的字段，每个字段对应有字段名；例如，“text”：“1.吸氧旅客指需要在航班飞行途中使用自带呼吸辅助设备的旅客。”

S920，根据content，构造第一目标文本对集T¹=(T¹ ₁,T¹ ₂,…,T¹ _m,…,T¹ _n)，m=1,2,…,n；其中，T¹ _m为第m个第一目标文本对，n为第一目标文本对的个数；T¹ _m=(T¹¹ _m,T¹² _m)，其中，T¹¹ _m为第m个第一目标问题文本句，T¹² _m为第m个第一目标答案文本段。

本实施例中，根据content构造第一目标文本对集T¹，包括以下步骤：

S921，遍历content中的文本，得到第一初始问题文本句集C¹=(C¹ ₁,C¹ ₂,…,C¹ _m,…,C¹ _n)和第一初始答案文本段集C²=(C² ₁,C² ₂,…,C² _m,…,C² _n)；其中，C¹ _m为第m个第一初始问题文本句，C² _m为第m个第一初始答案文本段；C¹ _m为content中第m个以第一类预设字符开头，以第二类预设字符结尾的文本句；C² _r为C¹ _r和C¹ _r+1之间的文本段，r=1,2,…,n-1；C² _n为content中C¹ _n后的文本段。

本实施例中，content包含目标网页中所有文本，且各文本按照在网页中的次序依次排列。例如，文本1和文本2在网页中是紧邻的分布位置，那么，在组合成content的时候，文本1的结尾和文本2的起始紧邻排序；第一类预设字符可以为数字，第二类预设字符可以为问号或冒号。

S922，通过初始问题文本句修正方法，对C¹ _m进行修正，得到T¹¹ _m。

在对第一初始问题文本句修正之前，对于从网页上提取到的第一初始问题文本句，需要将第二类预设字符删除，例如，“1.申请旅客：”，需要将冒号删除；将第二类预设字符删除，能够减小第一初始问题文本句修正时的计算量，同时也能够避免第二类预设字符对问题文本句语义准确度的影响。

S923，将C² _m作为T¹² _m。

S930，根据label_content，构造第二目标文本对集T²=(T² ₁,T² ₂,…,T² _p,…,T² _q)，p=1,2,…,q；其中，T² _p为第p个第二目标文本对，q为第二目标文本对的数量；T² _p=(T²¹ _p,T²² _p)，其中，T²¹ _p为第p个第二目标问题文本句，T²² _p为第p个第二目标答案文本段。

本实施例中，label_content包含有content中所有的字段，且每个字段对应有字段名；根据label_content，构造第二目标文本对集T²包括以下步骤：

S931，依次遍历label_content中的每一个字段，得到第二初始问题文本句集C³=(C³ ₁,C³ ₂,…,C³ _p,…,C³ _q)和第二初始答案文本段集C⁴=(C⁴ ₁,C⁴ ₂,…,C⁴ _p,…,C⁴ _q)；其中，C³ _p为第p个第二初始问题文本句，C⁴ _p为第p个第二初始答案文本段；C³ _p为以第二类预设字符结尾的文本句；C⁴ _d为C³ _d和C³ _d+1之间的文本段，d=1,2,…,q-1；C⁴ _q为C³ _p后的文本段。

本实施例中，label_content中包括了若干依次排序的字段，将以第二类预设字符结尾的字段找出，作为第二初始问题文本句；第二类预设字符为冒号或问号；可以理解的是，该步骤所获取到的问题文本句的数量不小于步骤S920中获取到的问题文本句的数量，因为，获取的条件是以冒号为问号结尾的字段；该方法能够进一步的找出更多数量的初始问题文本句，从而增加训练集中训练样本的数量。

S932，通过初始问题文本句修正方法，对C³ _p进行修正，得到T²¹ _p。

该步骤与步骤S922中的方法相同，在此不再赘述。

S933，将C⁴ _p作为T²² _q。

S940，若q＞n，获取T²中T¹的相对补集作为第三目标文本对集T=(T² ₁,T² ₂,…,T² _x,…,T² _y)，x=1,2,…,y；T² _x为第x个第二目标文本对；T² _x∈T²，T² _x∉T¹，y为第二目标文本对的数量。

对于T¹和T²，如果q＞n，表示T²中包含T¹中所有的元素，同时，还包含T¹中不包含的元素，需要将T²中与T¹中相同的元素去除，剩余的元素作为第三目标文本对；所述元素为集合内的目标文本对。

可以理解的是，q也可能与n相等，则表示T¹和T²中的元素完全相同，此时，T为空集。而如果q＜n，此时可判断为步骤S920和/或步骤S930执行错误，应当停止当前处理。

S950，若T¹和T²均为空集，根据align和title构造第三目标文本对集T³=(T³ ₁,T³ ₂,…,T³ _u,…,T³ _v)，u=1,2,…,v；其中，T³ _u为第u个第三目标文本对，v为第三目标文本对的数量；T³ _u=(T³¹ _u,T³² _u)，其中，T³¹ _u为第u个第三目标问题文本句，T³² _u为第u个第三目标答案文本段。

该情况表示通过上述两种方法在content和label_content中均未获取到初始问题文本句，通过该方法能够生成第三目标文本对集T³，具体包括以下步骤：

S951，获取align最后一级的网页标题作为文本句T_end和目标网页标题集T’=(T’₁,T’₂,…,T’_u,…,T’_v)；其中，T’_u为第u个title。

本实施例中，在目标网页中，会存在至少一个title，使用T’_u作为伪问题文本句进行目标文本对的生成。

S952，将T_end和T’_u按照第三预设模板组合生成T³¹ _u。

利用T_end信息进行扩展，第三预设模板为：“关于T_end，title的相关规定是？”；由于目标网页中必然存在title，因此，该能够保证目标网页中至少有一个目标文本对的生成。

S953，将T’_u和T’_u+1之间的文本段作为T³² _u。

可以理解的是，通过该方式生成的第三目标文本对集T也是作为模型训练的样本。

对于通过前两种方法无法获得目标文本对的目标网页，该目标网页中依然存在大量的目标文本对；该种目标文本对的生成方式能够提取出网页中的目标文本对，从而扩充训练样本数量，使得模型训练的效果更好。

S960，使用训练集对初始目标文本段确定模型进行训练，得到W₁；其中，所述训练集根据T¹、T和/或T³得到。

本实施例中，W₁为双塔模型，W₂为MRC模型，步骤S960包括以下步骤：

S961，将训练集内的训练样本按照问题文本句类型分为若干批次。

S962，将当前批次的训练样本分别分配至不同的GPU。

对W₁训练时，使用多GPU并行训练，使得每个GPU上的候选段落个数线性增加，由此提高模型的训练效果。

S963，针对其中一个GPU，将其他GPU输出的结果作为该GPU的负样本，输入至该GPU对初始目标文本段确定模型进行训练。

将其他GPU输出的结果作为当前GPU训练的负样本。这样可以直接复用各个GPU上已经计算好的结果作为该GPU的负样本，由此可以减少W₁训练的计算量。

本实施例中，W₂为现有的MRC模型，MRC模型在使用之前通过训练样本对其进行训练，训练之后的MRC模型具备从段落文本中抽取答案的能力，具体为：MRC对W₁输出的段落的问题文本句以及答案文本段的特征进行标记向量，然后根据问题文本句的标记向量，使用BERTserini阅读器对答案文本段的标记向量的各个位置进行答案开始位置打分和答案结束位置打分，将分数最高的答案开始与分数最高的答案结束位置之间的文本组合在一起，形成答案文本句进行输出。

本实施例中，所述初始问题文本句修正方法包括以下步骤：

S1001，若C¹ _m或C³ _p不为预设的文本句类型，则获取align最后一级的网页标题作为文本句T_end；否则，执行步骤S1003。

以C¹ _m为例，C¹ _m=“1.申请旅客：”，不是“温馨提示”或“定义”类型的问题文本句；align=首页>旅行信息>特殊关怀>携带小动物出行旅客>小动物进客舱，T_end=小动物进客舱。

S1002，将T_end、title、和C¹ _m按照第一预设模板组合生成T¹¹ _m，或将T_end、title、和C³ _p按照第一预设模板组合生成T²¹ _p。

本实施例中，第一预设模板为：“关于T_end，title，C¹ _m的相关规定是？”，即：将T_end、title和C¹ _m对应的文本填入相应的位置，得到修正后的问题文本句；即步骤S1001中修正后的问题文本句为“关于小动物进客舱运输条件1.申请旅客的相关规定？”。

S1003，将T¹¹ _m-1和C¹ _m按照第二预设模板组合生成T¹¹ _m，或将T²¹ _p-1和C³ _p按照第二预设模板组合生成T²¹ _p。

若C¹ _m为“温馨提示”或“定义”类型的问题文本句，对于该类型的问题文本句，与上一个紧邻的修正后的问题文本句相关联，因此，第二预设模板为：“上一修正后的问题文本句的温馨提示/定义”，例如，C¹ _m=温馨提示；上一修正后的问题文本句=关于航班不正常服务，3、经济补偿的相关规定；那么，修正后的问题文本句为：“关于航班不正常服务，3、经济补偿的相关规定的温馨提示”。

本实施例中，将网页中的问题文本句区分为两种不同类型的问题文本，针对不同类型的问题文本选择相对应的模板进行问题文本句填充及修正，具有以下有益效果：

第一方面，能够生成完整的问题文本句，使得修正后的问题文本句与对应的答案文本段的匹配度更高；如果不进行扩充和修正，通过网页原始数据获取的问题文本句并不能体现出具体的问题，问题文本句与答案文本段的匹配性较差。

第二方面，分类型扩充和修正问题文本句，使得问题文本句扩充和修正后语义更加准确；如果不分类型处理，那么，对于不符合预设模板规则的问题文本句，修正后的问题文本句也将是错误的。

本实施例中，数据获取程序具有从网页原始数据中获取问题文本句以及对应的答案文本段的能力，对于这些问题文本句，也可以通过初始问题文本句修正方法将该部分的问题文本句进行修正，与其对应的答案文本段组合成目标文本对。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种应答信息确定方法，其特征在于，所述方法包括以下步骤：

S100，获取目标用户输入的目标问题文本句A；

S500，根据Q，获取第二答案文本句集A’=(a’₁,a’₂,…,a’_j,…,a’_k)；其中，A’根据历史目标答案文本段集A¹=(a¹ ₁,a¹ ₂,…,a¹ _j,…,a¹ _k)得到，a’_j为通过人工的方式对a¹ _j中与Q_j匹配的历史答案文本段进行处理后得到的第二答案文本句；a¹ _j为在t内W₂根据Q_j输出的历史答案信息；

2.根据权利要求1所述的应答信息确定方法，其特征在于，W₁通过以下方法得到：

S910，获取目标网页的原始数据表；所述原始数据表包括目标网页的路径信息align、目标网页标题title、网页文本content以及结构化文本信息label_content；其中，align包括目标网页的所有上级网页的网页标题，且若干所述网页标题按对应的上级网页的层级顺序排列；content为对目标网页上的所有文本内容进行拼接后得到的，label_content为对目标网页上的所有文本内容进行结构化处理后得到的；

S920，根据content，构造第一目标文本对集T¹=(T¹ ₁,T¹ ₂,…,T¹ _m,…,T¹ _n)，m=1,2,…,n；其中，T¹ _m为第m个第一目标文本对，n为第一目标文本对的个数；T¹ _m=(T¹¹ _m,T¹² _m)，其中，T¹¹ _m为第m个第一目标问题文本句，T¹² _m为第m个第一目标答案文本段；

S930，根据label_content，构造第二目标文本对集T²=(T² ₁,T² ₂,…,T² _p,…,T² _q)，p=1,2,…,q；其中，T² _p为第p个第二目标文本对，q为第二目标文本对的数量；T² _p=(T²¹ _p,T²² _p)，其中，T²¹ _p为第p个第二目标问题文本句，T²² _p为第p个第二目标答案文本段；

S940，若q＞n，获取T²中T¹的相对补集作为第三目标文本对集T= (T² ₁,T² ₂,…,T² _x,…,T² _y)，x=1,2,…,y；T² _x为第x个第三目标文本对；T² _x∈T²，T² _x∉T¹，y为第三目标文本对的数量；

S950，若T¹和T²均为空集，根据align和title构造第四目标文本对集T³=(T³ ₁,T³ ₂,…,T³ _u,…,T³ _v)，u=1,2,…,v；其中，T³ _u为第u个第四目标文本对，v为第四目标文本对的数量；T³ _u=(T³¹ _u,T³² _u)，其中，T³¹ _u为第u个第四目标问题文本句，T³² _u为第u个第四目标答案文本段；

3.根据权利要求2所述的应答信息确定方法，其特征在于，所述步骤S920包括以下步骤：

S921，遍历content中的文本，得到第一初始问题文本句集C¹=(C¹ ₁,C¹ ₂,…,C¹ _m,…,C¹ _n)和第一初始答案文本段集C²=(C² ₁,C² ₂,…,C² _m,…,C² _n)；其中，C¹ _m为第m个第一初始问题文本句，C² _m为第m个第一初始答案文本段；C¹ _m为content中第m个以第一类预设字符开头，以第二类预设字符结尾的文本句；C² _r为C¹ _r和C¹ _r+1之间的文本段，r=1,2,…,n-1；C² _n为content中C¹ _n后的文本段；

S922，通过初始问题文本句修正方法，对C¹ _m进行修正，得到T¹¹ _m；

S923，将C² _m作为T¹² _m。

4.根据权利要求2所述的应答信息确定方法，其特征在于，label_content中包括了若干依次排序的字段，所述步骤S930包括以下步骤：

S931，依次遍历label_content中的每一个字段，得到第二初始问题文本句集C³=(C³ ₁,C³ ₂,…,C³ _p,…,C³ _q)和第二初始答案文本段集C⁴=(C⁴ ₁,C⁴ ₂,…,C⁴ _p,…,C⁴ _q)；其中，C³ _p为第p个第二初始问题文本句，C⁴ _p为第p个第二初始答案文本段；C³ _p为以第二类预设字符结尾的文本句；C⁴ _d为C³ _d和C³ _d+1之间的文本段，d=1,2,…,q-1；C⁴ _q为C³ _p后的文本段；

S932，通过初始问题文本句修正方法，对C³ _p进行修正，得到T²¹ _p；

S933，将C⁴ _p作为T²² _q。

5.根据权利要求3或4所述的应答信息确定方法，其特征在于，所述初始问题文本句修正方法包括以下步骤：

S1001，若C¹ _m或C³ _p不为预设的文本句类型，则获取align最后一级的网页标题作为文本句T_end；否则，执行步骤S1003；

S1002，将T_end、title、和C¹ _m按照第一预设模板组合生成T¹¹ _m，或将T_end、title、和C³ _p按照第一预设模板组合生成T²¹ _p；

6.根据权利要求2所述的应答信息确定方法，其特征在于，所述步骤S950包括以下步骤：

S951，获取align最后一级的网页标题作为文本句T_end和目标网页标题集T’=(T’₁,T’₂,…,T’_u,…,T’_v)；其中，T’_u为第u个title；

S952，将T_end和T’_u按照第三预设模板组合生成T³¹ _u；

S953，将T’_u和T’_u+1之间的文本段作为T³² _u。

7.根据权利要求1所述的应答信息确定方法，其特征在于，所述方法还包括以下步骤：

S810，若η＜η’，将a’_k作为A的应答信息；η’为预设的正确率阈值；

S820，将B中b_j与A’中a’_j匹配的b_j及对应文本段标记为正样本集；将B中b_j与A’中a’_j不匹配的b_j及对应文本段作为负样本集；

S830，当正样本集和负样本集中的样本数量达到预设数量时，使用正样本集和负样本集对W₁和W₂进行训练。

8.根据权利要求2所述的应答信息确定方法，其特征在于，步骤S960包括以下步骤：

S961，将训练集内的训练样本按照问题文本句类型分为若干批次；

S962，将当前批次的训练样本分别分配至不同的GPU；

9.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项的所述应答信息确定方法。

10.一种电子设备，其特征在于，包括处理器和权利要求9中所述的非瞬时性计算机可读存储介质。