CN116383366B - 一种应答信息确定方法、电子设备及存储介质 - Google Patents
一种应答信息确定方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116383366B CN116383366B CN202310659045.9A CN202310659045A CN116383366B CN 116383366 B CN116383366 B CN 116383366B CN 202310659045 A CN202310659045 A CN 202310659045A CN 116383366 B CN116383366 B CN 116383366B
- Authority
- CN
- China
- Prior art keywords
- text
- target
- answer
- text sentence
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000012549 training Methods 0.000 claims description 28
- 238000012937 correction Methods 0.000 claims description 8
- 230000000295 complement effect Effects 0.000 claims description 2
- 241001465754 Metazoa Species 0.000 description 6
- 210000001072 colon Anatomy 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 239000000956 alloy Substances 0.000 description 1
- 229910045601 alloy Inorganic materials 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供了一种应答信息确定方法、电子设备及存储介质,所述方法包括以下步骤:获取目标用户输入的目标问题文本句A;将A输入至预设的目标文本段确定模型W1,得到与A对应的目标答案信息A1;将A1输入至预设的目标文本句确定模型W2,得到第一答案文本句B1;获取预设时间窗口t内用户输入的历史问题文本句集Q;根据Q,获取第二答案文本句集A’;根据Q,获取第三答案文本句集B;根据A’和B,获取W2生成文本句的正确率η,η=k’/k,k’为B中bj与A’中a’j相匹配的个数;若η≥η’,将B1作为A的应答信息;该方法解决了根据用户输入的查询信息获取答***率较低的问题,且能够保证应答信息不被遗漏。
Description
技术领域
本发明涉及数据处理领域,特别是涉及一种应答信息确定方法、电子设备及存储介质。
背景技术
随着网络技术的快速发展,用户对目标信息获取的要求越来越高,在追求获取实效的同时,还要求目标数据获取的准确性。通常情况下,用户获取目标信息的方式为:在终端设备上相关的应用程序搜索框内直接输入问题,应用程序则直接返回对应于用户输入问题的答案;而目前根据用户输入的查询信息获取答***率较低。
发明内容
针对上述技术问题,本发明采用的技术方案为:
根据本申请的第一方面,提供了一种应答信息确定方法,包括以下步骤:
S100,获取目标用户输入的目标问题文本句A;
S200,将A输入至预设的目标文本段确定模型W1,得到与A对应的目标答案信息A1;其中,A1包含A及与A匹配的答案文本段;与A匹配的答案文本段为W1根据A从数据库中确定出的文本段;
S300,将A1输入至预设的目标文本句确定模型W2,得到第一答案文本句B1;其中,B1为W2根据与A匹配的答案文本段的一部分得到的;
S400,获取预设时间窗口t内用户输入的历史问题文本句集Q=(Q1,Q2,…,Qj,…,Qk),j=1,2,…,k;其中,Qj为用户输入的第j个历史问题文本句,k为历史问题文本句的数量,t的结束时间为当前时间,Qk=A;
S500,根据Q,获取第二答案文本句集A’=(a’1,a’2,…,a’j,…,a’k);其中,A’根据历史目标文本段集A1=(a1 1,a1 2,…,a1 j,…,a1 k)得到,a’j为通过人工的方式对a1 j中与Qj匹配的历史答案文本段进行处理后得到的第二答案文本句;a1 j为在t内W2根据Qj输出的历史答案信息;
S600,根据Q,获取第三答案文本句集B=(b1,b2,…,bj,…,bk);其中,bj为当前的W2根据a1 j生成的第三答案文本句;
S700,根据A’和B,获取W2生成文本句的正确率η,η=k’/k,k’为B中bj与A’中a’j相匹配的个数;
S800,若η≥η’,将B1作为A的应答信息;其中,η’为预设的正确率阈值。
根据本申请的另一方面,还提供了一种非瞬时性计算机可读存储介质,存储介质中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现上述应答信息确定方法。
根据本申请的另一方面,还提供了一种电子设备,包括处理器和上述非瞬时性计算机可读存储介质。
本发明至少具有以下有益效果:
本发明的应答信息确定方法,在用户输入问题时,W1首先根据用户输入的文本句,推荐出与用户输入的文本句匹配度最高的段落文本,由于该阶段所推荐的为整个段落文本,用户输入的文本句对应的文本段包含用户需要的应答信息;因此,能够保证与用户输入的文本句精准匹配的应答信息不被遗漏。
进一步的,根据用户输入的问题以及W1确定的段落文本,通过人工的方式能提取到与用户输入的文本句精准匹配的应答信息;同时,将W1确定的文本段输入至文本句确定模型W2,W2也会输出应答信息,将最近一段时间W2输出的应答信息与人工提取的应答信息作比对,如果该准确率符合要求,那么,将W2输出的应答信息作为用户输入的文本句的应答信息,从而实现模型自动且准确的生成应答信息。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的应答信息确定方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其他方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其他结构及/或功能性实施此设备及/或实践此方法。
下面将参照图1所述的应答信息确定方法的流程图,对一种应答信息确定方法进行介绍。
该应答信息确定方法包括以下步骤:
S100,获取目标用户输入的目标问题文本句A。
本实施例中,可以理解的是,A即为目标用户当前输入的问题文本句;例如,“某航班的货物运输条件?”。
S200,将A输入至预设的目标文本段确定模型W1,得到与A对应的目标答案信息A1;其中,A1包含A及与A匹配的答案文本段;与A匹配的答案文本段为W1根据A从数据库中确定出的文本段。
W1为经过训练的初始文本推荐模型,具有一定的从数据库中确定文本段的能力;W1能够根据用户输入的问题文本句的特征以及数据库中的答案文本段中的关键字特征,来计算问题文本句与数据库中的匹配到的答案文本段的匹配度,将匹配度较高的答案文本段作为结果输出;可以理解的是,W1所输出的结果是文本段落,而非具体答案文本句,其中包含有用户输入的问题文本句以及与其匹配的答案文本段。
对于匹配度的计算,可以通过以下方法进行:
计算问题文本句中各关键字特征与数据库中各答案文本段的关键字特征相同的数量,将其数量之和最大的答案文本段作为结果进行输出。
正常情况下,答案文本段会包含较多数量的对应的问题文本句的关键字特征,对问题文本句以及答案文本段做关键字特征匹配,能够使得问题文本句中的关键字在确定的答案文本段中所包含的最多,从而提高确定的答案文本段对问题文本句对应的目标答案信息的覆盖。
S300,将A1输入至预设的目标文本句确定模型W2,得到第一答案文本句B1;其中,B1为W2根据与A匹配的答案文本段的一部分得到的。
本实施例中,W1输出的结果为答案文本段,是与问题文本句匹配的段落文本,并不是用户想要的具体答案文本句;因此,需要将A1输入至W2;W2则能够根据A1中包含的问题文本句以及与之匹配的答案文本段,抽取出精细的答案文本句,B1为A1中的所截取的一部分文本段;W2在使用之前也需要经过训练,当训练后的W2的输出答***度满足预设条件时,视为初始训练完成。
S400,获取预设时间窗口t内用户输入的历史问题文本句集Q=(Q1,Q2,…,Qj,…,Qk),j=1,2,…,k;其中,Qj为用户输入的第j个历史问题文本句,k为历史问题文本句的数量,t的结束时间为当前时间,Qk=A。
对于用户输入的历史问题文本,在数据库中存在记录,因此,可以获取到当前时间之前的一段时间内的用户输入的历史问题文本句;例如,当前时间之前的100个小时内的用户输入的所有问题文本句;当然,也可以按照用户输入的问题文本句的顺序,获取最近的预设数量的问题文本句;例如,最近200个问题文本句。
本实施例中,之所以选择当前时间为结束时间,是为了保证所获取的历史问题文本句为最接近当前时间的历史问题文本句,因为模型在使用过程中,其输出结果的准确度在不断变化,由此能够保证所计算的结果较为符合当前模型的性能。
S500,根据Q,获取第二答案文本句集A’=(a’1,a’2,…,a’j,…,a’k);其中,A’根据历史目标答案文本段集A1=(a1 1,a1 2,…,a1 j,…,a1 k)得到,a’j为通过人工的方式对a1 j中与Qj匹配的历史答案文本段进行处理后得到的第二答案文本句;a1 j为在t内W2根据Qj输出的历史答案信息。
对于Q,数据库中存在W1输出的与Q对应的历史目标答案文本段集A1,在数据库中能够将A1获取;其中,a1 j为历史答案文本段,包含有历史问题文本句和历史答案文本段;a’j可以理解为标准答案;可以理解的是,a’j是通过人工的方式,根据a1 j中问题文本句的语义,从a1 j中的答案文本段中截取出的一部分或者全部的文本;由于此步骤是人工参与,可以最大程度的保证所截取的答案文本句的准确性。
S600,根据Q,获取第三答案文本句集B=(b1,b2,…,bj,…,bk);其中,bj为当前的W2根据a1 j生成的第三答案文本句。
当前情况下,W2根据A1中的各历史答案文本段提取出第三答案文本句,形成第三答案文本句集B;可以理解的是,第三答案文本句为W2自动生成,其不一定是标准答案。
S700,根据A’和B,获取W2生成文本句的正确率η,η=k’/k,k’为B中bj与A’中a’j相匹配的个数。
对于第三答案文本句与第二答案文本句的匹配度的计算,可以通过以下方法进行:
针对某一第二答案文本句和与其对应的第三答案文本句,首先,统计第二文本句的字符数,若第二文本句的字符数大于预设字符数阈值,则遍历第三答案文本句和第二答案文本句中的字符,找出二者中字符相同的数量,然后求取字符相同的数量在第二答案文本句总字符数中所占的比例,如果该比例大于预设的比例阈值,可判定为该第三答案文本句与第二答案文本句相匹配。
若第二文本句的字符数小于等于预设字符数阈值,遍历第三答案文本句和第二答案文本句中的字符,若二者的字符完全相同,则判定为该第三答案文本句与第二答案文本句相匹配。
对于字符数相对较多的第二答案文本句,即标准答案文本句,如果字符较多,由于模型会有一定的误差,因此,模型输出的第三答案文本句的字符不一定完全与第二答案文本句中的字符相同,但是,二者相同的字符数达到预设值时,应当判定为正确答案;因此,该方法能够在一定程度上避免漏掉模型输出的正确答案。
而对于字符数较少的第二答案文本句,例如,三个字符以内的答案文本句。那么,第三答案文本句的字符数应当与第二答案文本句的字符完全相同,因为,较少字符的答案文本句,一个字符的不同,会导致二者语义完全不同。因此,该方法还能够避免将错误的答案文本句判定为正确的答案文本句。
S800,若η≥η’,将B1作为A的应答信息;其中,η’为预设的正确率阈值。
在模型后续的答案文本句生成过程中,还在继续对模型进行训练,其答案文本句生成的正确率会越来越高,那么,当检测到η≥η’时,可认为W1和W2输出结果的正确率已经满足要求,此时,可将W2生成的答案文本句作为正确答案给用户展示,由此实现应答信息的自动生成;η’可以设置为不小于95%,或者其他合理的数值范围。
本发明的应答信息确定方法,在用户输入问题时,W1首先根据用户输入的文本句,推荐出与用户输入的文本句匹配度最高的段落文本,由于该阶段所推荐的为整个段落文本,用户输入的文本句对应的文本段包含用户需要的应答信息;因此,能够保证与用户输入的文本句精准匹配的应答信息不被遗漏。
进一步的,根据用户输入的问题以及W1确定的段落文本,通过人工的方式能提取到与用户输入的文本句精准匹配的应答信息;同时,将W1确定的文本段输入至文本句确定模型W2,W2也会输出应答信息,将最近一段时间W2输出的应答信息与人工提取的应答信息作比对,如果该准确率符合要求,那么,将W2输出的应答信息作为用户输入的文本句的应答信息,从而实现模型自动且准确的生成应答信息。
在本申请的一种示例性实施例中,W1通过以下方法得到:
S910,获取目标网页的原始数据表;所述原始数据表包括目标网页的路径信息align、目标网页标题title、网页文本content以及结构化文本信息label_content;其中,align包括目标网页的所有上级网页的网页标题,且若干所述网页标题按对应的上级网页的层级顺序排列;content为对目标网页上的所有文本内容进行拼接后得到的,label_content为对目标网页上的所有文本内容进行结构化处理后得到的。
本实施例中,所针对的是特定类型的网页,其网页结构较为规范;例如,各个航司官网的各个网页。获取目标网页的原始数据可以通过预设的数据获取程序获取;例如,爬虫软件等;对于获取到的网页的原始数据,数据获取程序可以将原始数据汇总成表格,该表格包含有网页的结构信息;例如,某航司官网上的align为首页>旅行信息>特殊关怀>携带小动物出行旅客>小动物进客舱;同时,还包含目标网页标题title;content可由数据获取程序根据从目标网页上获取到的文本内容按照各文本在目标网页中的顺序拼接得到;label_content则通过数据获取软件从目标网页的结构化数据获取,label_content中包括了若干依次排序的字段,每个字段对应有字段名;例如,“text”:“1.吸氧旅客指需要在航班飞行途中使用自带呼吸辅助设备的旅客。”
S920,根据content,构造第一目标文本对集T1=(T1 1,T1 2,…,T1 m,…,T1 n),m=1,2,…,n;其中,T1 m为第m个第一目标文本对,n为第一目标文本对的个数;T1 m=(T11 m,T12 m),其中,T11 m为第m个第一目标问题文本句,T12 m为第m个第一目标答案文本段。
本实施例中,根据content构造第一目标文本对集T1,包括以下步骤:
S921,遍历content中的文本,得到第一初始问题文本句集C1=(C1 1,C1 2,…,C1 m,…,C1 n)和第一初始答案文本段集C2=(C2 1,C2 2,…,C2 m,…,C2 n);其中,C1 m为第m个第一初始问题文本句,C2 m为第m个第一初始答案文本段;C1 m为content中第m个以第一类预设字符开头,以第二类预设字符结尾的文本句;C2 r为C1 r和C1 r+1之间的文本段,r=1,2,…,n-1;C2 n为content中C1 n后的文本段。
本实施例中,content包含目标网页中所有文本,且各文本按照在网页中的次序依次排列。例如,文本1和文本2在网页中是紧邻的分布位置,那么,在组合成content的时候,文本1的结尾和文本2的起始紧邻排序;第一类预设字符可以为数字,第二类预设字符可以为问号或冒号。
S922,通过初始问题文本句修正方法,对C1 m进行修正,得到T11 m。
在对第一初始问题文本句修正之前,对于从网页上提取到的第一初始问题文本句,需要将第二类预设字符删除,例如,“1.申请旅客:”,需要将冒号删除;将第二类预设字符删除,能够减小第一初始问题文本句修正时的计算量,同时也能够避免第二类预设字符对问题文本句语义准确度的影响。
S923,将C2 m作为T12 m。
S930,根据label_content,构造第二目标文本对集T2=(T2 1,T2 2,…,T2 p,…,T2 q),p=1,2,…,q;其中,T2 p为第p个第二目标文本对,q为第二目标文本对的数量;T2 p=(T21 p,T22 p),其中,T21 p为第p个第二目标问题文本句,T22 p为第p个第二目标答案文本段。
本实施例中,label_content包含有content中所有的字段,且每个字段对应有字段名;根据label_content,构造第二目标文本对集T2包括以下步骤:
S931,依次遍历label_content中的每一个字段,得到第二初始问题文本句集C3=(C3 1,C3 2,…,C3 p,…,C3 q)和第二初始答案文本段集C4=(C4 1,C4 2,…,C4 p,…,C4 q);其中,C3 p为第p个第二初始问题文本句,C4 p为第p个第二初始答案文本段;C3 p为以第二类预设字符结尾的文本句;C4 d为C3 d和C3 d+1之间的文本段,d=1,2,…,q-1;C4 q为C3 p后的文本段。
本实施例中,label_content中包括了若干依次排序的字段,将以第二类预设字符结尾的字段找出,作为第二初始问题文本句;第二类预设字符为冒号或问号;可以理解的是,该步骤所获取到的问题文本句的数量不小于步骤S920中获取到的问题文本句的数量,因为,获取的条件是以冒号为问号结尾的字段;该方法能够进一步的找出更多数量的初始问题文本句,从而增加训练集中训练样本的数量。
S932,通过初始问题文本句修正方法,对C3 p进行修正,得到T21 p。
该步骤与步骤S922中的方法相同,在此不再赘述。
S933,将C4 p作为T22 q。
S940,若q>n,获取T2中T1的相对补集作为第三目标文本对集T=(T2 1,T2 2,…,T2 x,…,T2 y),x=1,2,…,y;T2 x为第x个第二目标文本对;T2 x∈T2,T2 x∉T1,y为第二目标文本对的数量。
对于T1和T2,如果q>n,表示T2中包含T1中所有的元素,同时,还包含T1中不包含的元素,需要将T2中与T1中相同的元素去除,剩余的元素作为第三目标文本对;所述元素为集合内的目标文本对。
可以理解的是,q也可能与n相等,则表示T1和T2中的元素完全相同,此时,T为空集。而如果q<n,此时可判断为步骤S920和/或步骤S930执行错误,应当停止当前处理。
S950,若T1和T2均为空集,根据align和title构造第三目标文本对集T3=(T3 1,T3 2,…,T3 u,…,T3 v),u=1,2,…,v;其中,T3 u为第u个第三目标文本对,v为第三目标文本对的数量;T3 u=(T31 u,T32 u),其中,T31 u为第u个第三目标问题文本句,T32 u为第u个第三目标答案文本段。
该情况表示通过上述两种方法在content和label_content中均未获取到初始问题文本句,通过该方法能够生成第三目标文本对集T3,具体包括以下步骤:
S951,获取align最后一级的网页标题作为文本句Tend和目标网页标题集T’=(T’1,T’2,…,T’u,…,T’v);其中,T’u为第u个title。
本实施例中,在目标网页中,会存在至少一个title,使用T’u作为伪问题文本句进行目标文本对的生成。
S952,将Tend和T’u按照第三预设模板组合生成T31 u。
利用Tend信息进行扩展,第三预设模板为:“关于Tend,title的相关规定是?”;由于目标网页中必然存在title,因此,该能够保证目标网页中至少有一个目标文本对的生成。
S953,将T’u和T’u+1之间的文本段作为T32 u。
可以理解的是,通过该方式生成的第三目标文本对集T也是作为模型训练的样本。
对于通过前两种方法无法获得目标文本对的目标网页,该目标网页中依然存在大量的目标文本对;该种目标文本对的生成方式能够提取出网页中的目标文本对,从而扩充训练样本数量,使得模型训练的效果更好。
S960,使用训练集对初始目标文本段确定模型进行训练,得到W1;其中,所述训练集根据T1、T和/或T3得到。
本实施例中,W1为双塔模型,W2为MRC模型,步骤S960包括以下步骤:
S961,将训练集内的训练样本按照问题文本句类型分为若干批次。
S962,将当前批次的训练样本分别分配至不同的GPU。
对W1训练时,使用多GPU并行训练,使得每个GPU上的候选段落个数线性增加,由此提高模型的训练效果。
S963,针对其中一个GPU,将其他GPU输出的结果作为该GPU的负样本,输入至该GPU对初始目标文本段确定模型进行训练。
将其他GPU输出的结果作为当前GPU训练的负样本。这样可以直接复用各个GPU上已经计算好的结果作为该GPU的负样本,由此可以减少W1训练的计算量。
本实施例中,W2为现有的MRC模型,MRC模型在使用之前通过训练样本对其进行训练,训练之后的MRC模型具备从段落文本中抽取答案的能力,具体为:MRC对W1输出的段落的问题文本句以及答案文本段的特征进行标记向量,然后根据问题文本句的标记向量,使用BERTserini阅读器对答案文本段的标记向量的各个位置进行答案开始位置打分和答案结束位置打分,将分数最高的答案开始与分数最高的答案结束位置之间的文本组合在一起,形成答案文本句进行输出。
本实施例中,所述初始问题文本句修正方法包括以下步骤:
S1001,若C1 m或C3 p不为预设的文本句类型,则获取align最后一级的网页标题作为文本句Tend;否则,执行步骤S1003。
以C1 m为例,C1 m=“1.申请旅客:”,不是“温馨提示”或“定义”类型的问题文本句;align=首页>旅行信息>特殊关怀>携带小动物出行旅客>小动物进客舱,Tend=小动物进客舱。
S1002,将Tend、title、和C1 m按照第一预设模板组合生成T11 m,或将Tend、title、和C3 p按照第一预设模板组合生成T21 p。
本实施例中,第一预设模板为:“关于Tend,title,C1 m的相关规定是?”,即:将Tend、title和C1 m对应的文本填入相应的位置,得到修正后的问题文本句;即步骤S1001中修正后的问题文本句为“关于小动物进客舱运输条件1.申请旅客的相关规定?”。
S1003,将T11 m-1和C1 m按照第二预设模板组合生成T11 m,或将T21 p-1和C3 p按照第二预设模板组合生成T21 p。
若C1 m为“温馨提示”或“定义”类型的问题文本句,对于该类型的问题文本句,与上一个紧邻的修正后的问题文本句相关联,因此,第二预设模板为:“上一修正后的问题文本句的温馨提示/定义”,例如,C1 m=温馨提示;上一修正后的问题文本句=关于航班不正常服务,3、经济补偿的相关规定;那么,修正后的问题文本句为:“关于航班不正常服务,3、经济补偿的相关规定的温馨提示”。
本实施例中,将网页中的问题文本句区分为两种不同类型的问题文本,针对不同类型的问题文本选择相对应的模板进行问题文本句填充及修正,具有以下有益效果:
第一方面,能够生成完整的问题文本句,使得修正后的问题文本句与对应的答案文本段的匹配度更高;如果不进行扩充和修正,通过网页原始数据获取的问题文本句并不能体现出具体的问题,问题文本句与答案文本段的匹配性较差。
第二方面,分类型扩充和修正问题文本句,使得问题文本句扩充和修正后语义更加准确;如果不分类型处理,那么,对于不符合预设模板规则的问题文本句,修正后的问题文本句也将是错误的。
本实施例中,数据获取程序具有从网页原始数据中获取问题文本句以及对应的答案文本段的能力,对于这些问题文本句,也可以通过初始问题文本句修正方法将该部分的问题文本句进行修正,与其对应的答案文本段组合成目标文本对。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (10)
1.一种应答信息确定方法,其特征在于,所述方法包括以下步骤:
S100,获取目标用户输入的目标问题文本句A;
S200,将A输入至预设的目标文本段确定模型W1,得到与A对应的目标答案信息A1;其中,A1包含A及与A匹配的答案文本段;与A匹配的答案文本段为W1根据A从数据库中确定出的文本段;
S300,将A1输入至预设的目标文本句确定模型W2,得到第一答案文本句B1;其中,B1为W2根据与A匹配的答案文本段的一部分得到的;
S400,获取预设时间窗口t内用户输入的历史问题文本句集Q=(Q1,Q2,…,Qj,…,Qk),j=1,2,…,k;其中,Qj为用户输入的第j个历史问题文本句,k为历史问题文本句的数量,t的结束时间为当前时间,Qk=A;
S500,根据Q,获取第二答案文本句集A’=(a’1,a’2,…,a’j,…,a’k);其中,A’根据历史目标答案文本段集A1=(a1 1,a1 2,…,a1 j,…,a1 k)得到,a’j为通过人工的方式对a1 j中与Qj匹配的历史答案文本段进行处理后得到的第二答案文本句;a1 j为在t内W2根据Qj输出的历史答案信息;
S600,根据Q,获取第三答案文本句集B=(b1,b2,…,bj,…,bk);其中,bj为当前的W2根据a1 j生成的第三答案文本句;
S700,根据A’和B,获取W2生成文本句的正确率η,η=k’/k,k’为B中bj与A’中a’j相匹配的个数;
S800,若η≥η’,将B1作为A的应答信息;其中,η’为预设的正确率阈值。
2.根据权利要求1所述的应答信息确定方法,其特征在于,W1通过以下方法得到:
S910,获取目标网页的原始数据表;所述原始数据表包括目标网页的路径信息align、目标网页标题title、网页文本content以及结构化文本信息label_content;其中,align包括目标网页的所有上级网页的网页标题,且若干所述网页标题按对应的上级网页的层级顺序排列;content为对目标网页上的所有文本内容进行拼接后得到的,label_content为对目标网页上的所有文本内容进行结构化处理后得到的;
S920,根据content,构造第一目标文本对集T1=(T1 1,T1 2,…,T1 m,…,T1 n),m=1,2,…,n;其中,T1 m为第m个第一目标文本对,n为第一目标文本对的个数;T1 m=(T11 m,T12 m),其中,T11 m为第m个第一目标问题文本句,T12 m为第m个第一目标答案文本段;
S930,根据label_content,构造第二目标文本对集T2=(T2 1,T2 2,…,T2 p,…,T2 q),p=1,2,…,q;其中,T2 p为第p个第二目标文本对,q为第二目标文本对的数量;T2 p=(T21 p,T22 p),其中,T21 p为第p个第二目标问题文本句,T22 p为第p个第二目标答案文本段;
S940,若q>n,获取T2中T1的相对补集作为第三目标文本对集T= (T2 1,T2 2,…,T2 x,…,T2 y),x=1,2,…,y;T2 x为第x个第三目标文本对;T2 x∈T2,T2 x∉T1,y为第三目标文本对的数量;
S950,若T1和T2均为空集,根据align和title构造第四目标文本对集T3=(T3 1,T3 2,…,T3 u,…,T3 v),u=1,2,…,v;其中,T3 u为第u个第四目标文本对,v为第四目标文本对的数量;T3 u=(T31 u,T32 u),其中,T31 u为第u个第四目标问题文本句,T32 u为第u个第四目标答案文本段;
S960,使用训练集对初始目标文本段确定模型进行训练,得到W1;其中,所述训练集根据T1、T和/或T3得到。
3.根据权利要求2所述的应答信息确定方法,其特征在于,所述步骤S920包括以下步骤:
S921,遍历content中的文本,得到第一初始问题文本句集C1=(C1 1,C1 2,…,C1 m,…,C1 n)和第一初始答案文本段集C2=(C2 1,C2 2,…,C2 m,…,C2 n);其中,C1 m为第m个第一初始问题文本句,C2 m为第m个第一初始答案文本段;C1 m为content中第m个以第一类预设字符开头,以第二类预设字符结尾的文本句;C2 r为C1 r和C1 r+1之间的文本段,r=1,2,…,n-1;C2 n为content中C1 n后的文本段;
S922,通过初始问题文本句修正方法,对C1 m进行修正,得到T11 m;
S923,将C2 m作为T12 m。
4.根据权利要求2所述的应答信息确定方法,其特征在于,label_content中包括了若干依次排序的字段,所述步骤S930包括以下步骤:
S931,依次遍历label_content中的每一个字段,得到第二初始问题文本句集C3=(C3 1,C3 2,…,C3 p,…,C3 q)和第二初始答案文本段集C4=(C4 1,C4 2,…,C4 p,…,C4 q);其中,C3 p为第p个第二初始问题文本句,C4 p为第p个第二初始答案文本段;C3 p为以第二类预设字符结尾的文本句;C4 d为C3 d和C3 d+1之间的文本段,d=1,2,…,q-1;C4 q为C3 p后的文本段;
S932,通过初始问题文本句修正方法,对C3 p进行修正,得到T21 p;
S933,将C4 p作为T22 q。
5.根据权利要求3或4所述的应答信息确定方法,其特征在于,所述初始问题文本句修正方法包括以下步骤:
S1001,若C1 m或C3 p不为预设的文本句类型,则获取align最后一级的网页标题作为文本句Tend;否则,执行步骤S1003;
S1002,将Tend、title、和C1 m按照第一预设模板组合生成T11 m,或将Tend、title、和C3 p按照第一预设模板组合生成T21 p;
S1003,将T11 m-1和C1 m按照第二预设模板组合生成T11 m,或将T21 p-1和C3 p按照第二预设模板组合生成T21 p。
6.根据权利要求2所述的应答信息确定方法,其特征在于,所述步骤S950包括以下步骤:
S951,获取align最后一级的网页标题作为文本句Tend和目标网页标题集T’=(T’1,T’2,…,T’u,…,T’v);其中,T’u为第u个title;
S952,将Tend和T’u按照第三预设模板组合生成T31 u;
S953,将T’u和T’u+1之间的文本段作为T32 u。
7.根据权利要求1所述的应答信息确定方法,其特征在于,所述方法还包括以下步骤:
S810,若η<η’,将a’k作为A的应答信息;η’为预设的正确率阈值;
S820,将B中bj与A’中a’j匹配的bj及对应文本段标记为正样本集;将B中bj与A’中a’j不匹配的bj及对应文本段作为负样本集;
S830,当正样本集和负样本集中的样本数量达到预设数量时,使用正样本集和负样本集对W1和W2进行训练。
8.根据权利要求2所述的应答信息确定方法,其特征在于,步骤S960包括以下步骤:
S961,将训练集内的训练样本按照问题文本句类型分为若干批次;
S962,将当前批次的训练样本分别分配至不同的GPU;
S963,针对其中一个GPU,将其他GPU输出的结果作为该GPU的负样本,输入至该GPU对初始目标文本段确定模型进行训练。
9.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项的所述应答信息确定方法。
10.一种电子设备,其特征在于,包括处理器和权利要求9中所述的非瞬时性计算机可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310659045.9A CN116383366B (zh) | 2023-06-06 | 2023-06-06 | 一种应答信息确定方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310659045.9A CN116383366B (zh) | 2023-06-06 | 2023-06-06 | 一种应答信息确定方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116383366A CN116383366A (zh) | 2023-07-04 |
CN116383366B true CN116383366B (zh) | 2023-08-04 |
Family
ID=86977298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310659045.9A Active CN116383366B (zh) | 2023-06-06 | 2023-06-06 | 一种应答信息确定方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116383366B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117033613B (zh) * | 2023-08-18 | 2024-05-14 | 中航信移动科技有限公司 | 一种应答文本的生成方法、电子设备及存储介质 |
CN117033612B (zh) * | 2023-08-18 | 2024-06-04 | 中航信移动科技有限公司 | 一种文本匹配方法、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543631A (zh) * | 2019-08-23 | 2019-12-06 | 上海深芯智能科技有限公司 | 机器阅读理解的实现方法、装置、存储介质及电子设备 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、***、设备及介质 |
CN111078892A (zh) * | 2019-11-25 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 对抗样本生成方法、装置、电子设备及存储介质 |
CN111814466A (zh) * | 2020-06-24 | 2020-10-23 | 平安科技(深圳)有限公司 | 基于机器阅读理解的信息抽取方法、及其相关设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425640A (zh) * | 2012-05-14 | 2013-12-04 | 华为技术有限公司 | 一种多媒体问答***及方法 |
-
2023
- 2023-06-06 CN CN202310659045.9A patent/CN116383366B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543631A (zh) * | 2019-08-23 | 2019-12-06 | 上海深芯智能科技有限公司 | 机器阅读理解的实现方法、装置、存储介质及电子设备 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、***、设备及介质 |
CN111078892A (zh) * | 2019-11-25 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 对抗样本生成方法、装置、电子设备及存储介质 |
CN111814466A (zh) * | 2020-06-24 | 2020-10-23 | 平安科技(深圳)有限公司 | 基于机器阅读理解的信息抽取方法、及其相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116383366A (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116383366B (zh) | 一种应答信息确定方法、电子设备及存储介质 | |
CN111222305B (zh) | 一种信息结构化方法和装置 | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
US20190303428A1 (en) | Methods for generating natural language processing systems | |
US20180307667A1 (en) | Travel guide generating method and system | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN111324713B (zh) | 对话自动回复方法、装置、存储介质和计算机设备 | |
US20090182554A1 (en) | Text analysis method | |
CN110909145B (zh) | 针对多任务模型的训练方法及装置 | |
CN104376010B (zh) | 用户推荐方法和装置 | |
KR102100951B1 (ko) | 기계 독해를 위한 질의응답 데이터 생성 시스템 | |
CN109522397B (zh) | 信息处理方法及装置 | |
CN110992988B (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
CN117668181A (zh) | 信息处理方法、装置、终端设备以及存储介质 | |
JP6757840B2 (ja) | 文抽出システム、文抽出方法、及びプログラム | |
CN114912425A (zh) | 演示文稿生成方法及装置 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN113934834A (zh) | 一种问句匹配的方法、装置、设备和存储介质 | |
CN110389999A (zh) | 一种信息抽取的方法、装置、存储介质及电子设备 | |
CN117057430B (zh) | 基于规则累积的模型推理方法、装置及电子设备 | |
CN113886684A (zh) | 网络招聘智能推荐方法、***及计算机可读存储介质 | |
CN113850383A (zh) | 文本匹配模型训练方法、装置、电子设备及存储介质 | |
CN116362331A (zh) | 一种基于人机协同构建知识图谱的知识点填充方法 | |
CN113742498B (zh) | 一种知识图谱的构建更新方法 | |
CN113704623A (zh) | 一种数据推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |