CN111444326B - 一种文本数据处理方法、装置、设备以及存储介质 - Google Patents

一种文本数据处理方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN111444326B
CN111444326B CN202010239303.4A CN202010239303A CN111444326B CN 111444326 B CN111444326 B CN 111444326B CN 202010239303 A CN202010239303 A CN 202010239303A CN 111444326 B CN111444326 B CN 111444326B
Authority
CN
China
Prior art keywords
keyword
text
domain
sample data
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010239303.4A
Other languages
English (en)
Other versions
CN111444326A (zh
Inventor
缪畅宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010239303.4A priority Critical patent/CN111444326B/zh
Publication of CN111444326A publication Critical patent/CN111444326A/zh
Application granted granted Critical
Publication of CN111444326B publication Critical patent/CN111444326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开一种文本数据处理方法、装置、设备以及存储介质,其中,方法包括:确定初始样本数据中的第一关键词,从关键词数据库中获取与第一关键词具有关联关系的第二关键词对应的候选文本数据;确定初始样本数据与候选文本数据之间的关联度,在候选文本数据中筛选关联度满足样本筛选条件的候选文本数据,将筛选出的候选文本数据作为增强文本数据;根据增强文本数据和所述初始样本数据,确定训练样本对;基于训练样本对训练用于捕获关键词标识的初始文本匹配模型,将训练后的初始文本匹配模型确定用于对预测样本对的匹配度进行预测的目标文本匹配模型。采用本申请,可以提高对关键词的识别能力,进而提升文本匹配的准确度。

Description

一种文本数据处理方法、装置、设备以及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种文本数据处理方法、装置、设备以及存储介质。
背景技术
随着人工智能(Artificial Intelligence,AI)的发展,自然语言处理技术(Natural Language Processing,NLP)被广泛应用在搜索、推荐、对话等领域。通常一对文本中的文本A指用户问题,文本B指待匹配的内容源,如问答库里的问题、网页的内容、产品的文本描述等等。
为便于理解,以现有的搜索领域中的文本处理***为例,当在文本处理***中对某个文本对中的两个文本数据进行文本匹配时,由于这两个文本数据具有较高的句式上的相似性,以至于该文本处理***中的文本匹配模型在进行文本匹配时,会存在误认为这两个文本数据属于相似文本数据的现象,从而导致文本处理***最终输出与用户所录入的文本A并不匹配的文本数据。由此可见,采用现有技术在进行文本匹配的过程中,势必会存在难以区分某些具有迷惑性(例如,语义上比较接近或者句式上比较接近)的文本数据的现象,进而会降低文本匹配的准确度。
发明内容
本申请实施例提供一种文本数据处理方法、装置及存储介质,可以提高对关键词的识别能力,进而可以提升文本匹配的准确度。
本申请实施例一方面提供了一种文本数据处理方法,方法包括:
获取初始样本数据,通过关键词数据库中的领域关键词确定初始样本数据中的第一关键词,获取与第一关键词具有关联关系的第二关键词对应的候选文本数据;
确定初始样本数据与候选文本数据之间的关联度,在候选文本数据中筛选关联度满足样本筛选条件的候选文本数据,将筛选出的候选文本数据作为初始样本数据对应的增强文本数据;
根据增强文本数据和初始样本数据,确定与关键词数据库中具有关联关系的训练样本对;训练样本对中的每个样本数据均携带关键词数据库中的领域关键词对应的关键词标识;
基于训练样本对训练用于捕获关键词标识的初始文本匹配模型,将训练后的初始文本匹配模型确定为目标文本匹配模型;目标文本匹配模型后续用于对获取到的预测样本对的匹配度进行预测。
本申请实施例一方面提供了一种文本数据处理装置,装置包括:
关键词识别模块,用于获取初始样本数据,通过关键词数据库中的领域关键词确定初始样本数据中的第一关键词,获取与第一关键词具有关联关系的第二关键词对应的候选文本数据;
关联度确定模块,用于确定初始样本数据与候选文本数据之间的关联度,在候选文本数据中筛选关联度满足样本筛选条件的候选文本数据,将筛选出的候选文本数据作为初始样本数据对应的增强文本数据;
训练对确定模块,用于根据增强文本数据和初始样本数据,确定与关键词数据库中具有关联关系的训练样本对;训练样本对中的每个样本数据均携带关键词数据库中的领域关键词对应的关键词标识;
目标模型确定模块,用于基于训练样本对训练用于捕获关键词标识的初始文本匹配模型,将训练后的初始文本匹配模型确定为目标文本匹配模型;目标文本匹配模型后续用于对获取到的预测样本对的匹配度进行预测。
其中,初始样本数据为样本标注区域中的文本数据,样本标注区域为与初始样本数据具有关联关系的文本数据库中的区域;
装置还包括:
关联文本获取模块,用于在样本标注区域中将初始样本数据所属的领域确定为第一领域,从文本数据库中获取与第一领域的领域标签相匹配的关联文本;文本数据库中包含除第一领域之外的第二领域;
领域词典构建模块,用于基于与文本数据库相关联的关键词筛选条件,在由关联文本的分词所构成的候选词中,筛选并确定与第一领域相匹配的领域关键词,基于与第一领域相匹配的领域关键词构建第一领域对应的第一领域词典;
关键词库确定模块,用于获取第二领域对应的第二领域词典,基于第一领域词典和第二领域词典,确定与样本标注区域相关联的关键词数据库。
其中,领域词典构建模块包括:
分词处理单元,用于对关联文本进行分词处理,得到与关联文本的分词相关联的分词集合,将分词集合中的每个分词进行组合,得到与关联文本相关联的候选词,确定候选词中的每个分词之间的互相关度;
候选词筛选单元,用于获取与文本数据库相关联的关键词筛选条件中的互相关阈值,从候选词中筛选互相关度大于互相关阈值的候选词,将筛选出的候选词作为待处理字符串;
影响度确定单元,用于确定待处理字符串在第一领域中的影响度,从待处理字符串中筛选影响度达到关键词筛选条件的待处理字符串,将筛选出的待处理字符串作为与第一领域相匹配的领域关键词;影响度是由待处理字符串出现在第一领域的频次和待处理字符串出现在第二领域的频次所共同确定的;
领域词典构建单元,用于基于与第一领域相匹配的领域关键词构建第一领域对应的第一领域词典。
其中,关键词识别模块包括:
关键词识别单元,用于从样本标注区域中获取初始样本数据,从关键词数据库中获取第一领域词典,基于第一领域词典对初始样本数据中的领域关键词进行识别;
关键词标识单元,用于将在初始样本数据中所识别到的领域关键词作为第一关键词;
目标文本获取单元,用于从关键词数据库所包含的关联文本中获取包含第一关键词的目标关联文本,将目标关联文本中的领域关键词作为第二关键词;
候选文本确定单元,用于将包含第二关键词的目标关联文本作为与第一关键词具有关联关系的第二关键词对应的候选文本数据。
其中,关联度确定模块包括:
关联度确定单元,用于根据初始样本数据中的第一关键词与候选文本数据中的第二关键词之间的覆盖比率,确定初始样本数据与候选文本数据之间的关联度;
关联度排序单元,用于在候选文本数据中对关联度进行排序,得到候选文本数据对应的待处理文本数据;
待处理文本筛选单元,用于从排序后的待处理文本数据中筛选关联度大于第一关联阈值且小于第二关联阈值的待处理文本数据;
增强文本确定单元,用于将筛选出的待处理文本数据作为初始样本数据对应的增强文本数据;第一关联阈值小于第二关联阈值,且第一关联阈值与第二关键阈值均为样本筛选条件中的阈值。
其中,训练样本对包含第一样本数据和第二样本数据;第一样本数据中包含携带关键词标识的初始样本数据;第二样本数据中包含携带关键词标识的增强文本数据;第一样本数据中包含携带关键词标识的初始样本数据;第二样本数据中包含携带关键词标识的增强文本数据;
目标模型确定模块包括:
领域词识别单元,用于利用初始文本匹配模型将第一样本数据中的关键词标识对应的领域关键词作为第一领域关键词、将第二样本数据中的关键词标识对应的领域关键词作为第二领域关键词;
分词特征提取单元,用于获取第一样本数据中的第一分词的第一分词特征信息,以及第二样本数据中的第二分词的第二分词特征信息;
模型训练单元,用于基于第一分词特征信息、第二分词特征信息、第一领域关键词、第二领域关键词以及初始文本匹配模型,对训练样本对进行训练,得到训练分类结果;
目标模型确定单元,用于在检测到训练分类结果满足分类收敛条件时,将训练后的初始文本匹配模型确定为目标文本匹配模型。
其中,初始文本匹配模型包含第一业务场景下的文本匹配模型;第一业务场景下的文本匹配模型包含关键词注意力层、融合层以及分类层;
模型训练单元包括:
第一注意力输出子单元,用于将第一分词的第一分词特征信息和第二领域关键词的第二分词特征信息输入关键词注意力层,输出关键词注意力层对应的第一注意力特征信息;第一注意力特征信息用于表征第二领域关键词与第一分词之间的相关性;
第二注意力输出子单元,用于将第二分词的第二分词特征信息和第一领域关键词的第一分词特征信息输入关键词注意力层,输出关键词注意力层对应的第二注意力特征信息;第二注意力特征信息用于表征第一领域关键词与第二分词的相关性;
语义特征融合子单元,用于获取第一样本数据的第一语义特征信息以及第二样本数据的第二语义特征信息,将第一语义特征信息和第二语义特征信息进行语义融合,得到融合语义特征信息;
融合向量输出子单元,用于将第一注意力特征信息、第二注意力特征信息、融合特征信息输入融合层,输出训练样本对对应的融合特征向量,通过分类层输出训练样本对的训练分类结果。
其中,初始文本匹配模型包含第二业务场景下的文本匹配模型;第二业务场景下的文本匹配模型包含特征组合层、平均池化层、全连接层以及分类层;第一分词中包含除第一领域关键词之外的M个第一子分词;第二分词中包含除第二领域关键词之外的N个第二子分词;M和N均为正整数;
模型训练单元包括:
第一特征获取子单元,用于基于第一分词特征信息在第一样本数据中,确定M个第一子分词的第一子位置信息和第一领域关键词的第二子位置信息,根据M个第一子位置信息和第二子位置信息,获取第一样本数据中的M个第一子分词和第一领域关键词所构成的第一自相关词的第一自相关特征信息;
第二特征获取子单元,用于基于第二分词特征信息在第二样本数据中,确定N个第二子分词的第三子位置信息和第二领域关键词的第四子位置信息,根据N个第三子位置信息和第四子位置信息,在第二样本数据中获取N个第二子分词和第二领域关键词所构成的第二自相关词的第二自相关特征信息;
交互特征获取子单元,用于获取第一样本数据与第二样本数据之间的互相关词对应的交互特征信息;
池化向量输出子单元,用于将第一自相关特征信息、第二自相关特征信息、交互特征信息作为平均池化层的输入特征,输出平均池化层对应的池化向量,根据池化向量、全连接层以及分类层,对训练样本对进行训练,得到训练分类结果。
其中,模型训练单元还包括:
第一相关词确定子单元,用于根据M个第一子位置信息和第二子位置信息,在第一样本数据中将M个第一子分词和第一领域关键词进行分词组合,将分词组合后所得到的组合词作为第一样本数据的第一自相关词;
第二相关词确定子单元,用于根据N个第三子位置信息和第四子位置信息,在第二样本数据中将N个第二子分词和第二领域关键词进行分词组合,将分词组合后所得到的组合词作为第一样本数据的第二自相关词;
互相关词确定子单元,用于将M个第一子分词、第一领域关键词、N个第二子分词、第二领域关键词进行分词组合,将分词组合后所得到的组合词作为第一样本数据与第二样本数据之间的互相关词。
其中,模型训练单元还包括:
第一特征标识子单元,用于若第二业务场景下的文本匹配模型识别到在互相关词中存在与第一自相关词具有相同内容的互相关词,则在互相关词中对识别到的与第一自相关词相同的互相关词进行特征标识,得到第一标识分词;第一标识分词对应的交互特征信息不同于第一标识分词对应的第一自相关词的第一自相关特征信息;
第二特征标识子单元,用于若第二业务场景下的文本匹配模型识别到在互相关词中存在与第二自相关词具有相同内容的互相关词,则在互相关词中对识别到的与第二自相关词相同的互相关词进行特征标识,得到第二标识分词;第二标识分词对应的交互特征信息不同于第二标识分词对应的第二自相关词的第二自相关特征信息。
其中,池化向量输出子单元包括:
第一组合词筛选子单元,用于从第一自相关特征信息对应的第一自相关词、第二自相关特征信息对应的第二自相关词和交互特征信息对应的互相关词中筛选包含第一领域关键词和第二领域关键词的组合词,将筛选出的组合词作为第一分类组合词,获取第一分类组合词对应的第一组合特征信息;
第二组合词确定单元,用于将第一自相关词、第二自相关词和互相关词中除第一领域关键词和第二领域关键词之外的组合词作为第二分类组合词,获取第二分类组合词对应的第二组合特征信息;
特征向量获取子单元,用于获取第一组合特征信息对应的第一特征向量以及第二组合特征信息对应的第二特征向量;
第一调整训练单元,用于调整第二特征向量中的向量值,将第一特征向量的向量值和调整后的第二特征向量的向量值作为第二业务场景下的文本匹配模型的第一模型参数,将第一特征向量和调整后的第二特征向量输入第一模型参数对应的平均池化池,输出平均池化层对应的第一池化向量,根据第一池化向量、全连接层以及分类层,对训练样本对进行训练,得到第一模型参数对应的训练分类结果;
第二调整训练单元,用于若第一模型参数对应的训练分类结果指示第一模型参数不满足收敛条件,则调整第一特征向量中的向量值,将调整后的第一特征向量的向量值和调整后的第二特征向量的向量值作为第二业务场景下的文本匹配模型的第二模型参数,将调整后的第一特征向量和调整后的第二特征向量输入第二模型参数对应的平均池化池,输出平均池化层对应的第二池化向量,根据第二池化向量、全连接层以及分类层,对训练样本对进行训练,得到第二模型参数对应的训练分类结果。
其中,装置还包括:
文本录入模块,用于获取目标用户通过第二业务场景对应的目标应用所录入的第三样本数据;
文本筛选模块,用于从目标应用对应的文本库中筛选与第三样本数据具有相同领域标签的第四样本数据,将第三样本数据和第四样本数据作为预测样本对;第四样本数据为关键词数据库对应的文本数据库中的文本数据;
匹配度预测模块,用于将预测样本对输入目标文本匹配模型,预测得到预测样本对中的第三样本数据与第四样本数据的匹配度;
匹配文本返回模块,用于基于匹配度将第四样本数据对应的匹配文本返回给目标用户对应的用户终端。
本申请实施例一方面提供了一种计算机设备,计算机设备包括:处理器、存储器以及网络接口;
处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,存储器用于存储程序代码,处理器用于调用程序代码,以执行如本申请实施例一方面中的方法。
本申请实施例一方面提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,当处理器执行程序指令时执行如本申请实施例一方面中的方法。
本申请实施例在获取到初始样本数据时,可以通过关键词数据库中的领域关键词识别初始样本数据中的第一关键词,并可以从关键词数据库中获取与第一关键词具有关联关系的第二关键词对应的候选文本数据;进一步的,本申请实施例可以确定初始样本数据与候选文本数据之间的关联度,在候选文本数据中筛选关联度满足样本筛选条件的候选文本数据,将筛选出的候选文本数据作为初始样本数据对应的增强文本数据;进一步的,根据增强文本数据和初始样本数据,确定与关键词数据库中具有关联关系的训练样本对;其中,训练样本对中的每个样本数据均携带关键词数据库中的领域关键词对应的关键词标识;进一步的,基于训练样本对训练用于捕获关键词标识的初始文本匹配模型,将训练后的初始文本匹配模型确定为目标文本匹配模型;其中,目标文本匹配模型后续用于对获取到的预测样本对的匹配度进行预测。由此可见,本申请实施例在获取到初始样本数据时,可以通过关键词数据库中的领域关键词对初始样本数据中的关键词进行识别,进而可以基于识别到的关键词自动筛选与获取与第一关键词具有关联关系的第二关键词对应的候选文本数据,为提高初始文本匹配模型对预测文本对的分类能力,本申请实施例可以基于初始样本数据与候选文本数据之间的关联度,从候选文本数据库中筛选能够对初始样本数据造成强干扰性的候选文本数据,以将筛选出的后续文本数据作为初始样本数据对应的增强文本数据,从而可以在模型训练的过程中,增强初始文本匹配模型对文本对的辨识能力。此外,本申请通过引入具有关键词标识捕捉能力的初始匹配模型,可以有效地获取训练文本对中的带有关键词标识的领域关键词,进而可以提升文本匹配的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种文本处理***的***示意图;
图3是本申请实施例提供的一种文本数据处理方法的流程示意图;
图4是本申请实施例提供的一种确定候选文本数据的场景示意图;
图5是本申请实施例提供的一种构建领域词典的场景示意图;
图6是本申请实施例提供的一种第一文本匹配模型的场景示意图;
图7是本申请实施例提供的一种第二文本匹配模型的场景示意图;
图8是本申请实施例提供的一种文本数据处理方法的流程示意图;
图9是本申请实施例提供的一种通过目标文本匹配模型预测匹配度的场景示意图;
图10是本申请实施例提供的一种文本数据处理装置的结构示意图;
图11是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图1,是本申请实施例提供的一种网络架构的结构示意图。如图1所示,网络架构可以应用于搜索、推荐、对话等业务场景下的文本处理***,该文本处理***可以包括业务服务器2000和用户终端集群,用户终端集群可以包括多个用户终端,如图1所示,具体可以包括用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n;如图1所示,用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n可以分别与业务服务器2000进行网络连接,以便于每个用户终端可以通过该网络连接与业务服务器2000之间进行数据交互。
如图1所示,该用户终端集群中的每个用户终端均可以集成安装有目标应用,当该目标应用运行于各用户终端中时,可以分别与上述图1所示的业务服务器2000之间进行数据交互。其中,该目标应用可以理解为一种在上述业务场景下能够加载并显示电子文本数据的应用,例如,这里的目标应用具体可以包含:车载应用、智能家居应用(例如,智能音响)、文本理解应用、娱乐应用、多媒体应用、阅读应用、和运行在浏览器中的搜索应用、推荐应用等。其中,本申请实施例中的电子文本数据可以包含相应业务应用对应的互联网数据信息。
其中,本申请实施例中的文本处理***可以用于对文本对中的两个文本数据进行文本分类。这里的文本分类主要是指计算机设备可以通过相应的文本处理方法对目标用户所输入的文本数据(例如,文本数据A)按照一定的类目体系进行自动化归类的过程。可选的,当这里的文本分类属于一种二分类问题时,可以将其理解为对文本对中的两个文本数据进行文本匹配。这里的文本匹配可以理解为计算机设备通过相应的文本处理方法对一对文本<A、B>进行自动化匹配的过程。例如,可以通过文本数据A和文本数据B之间的匹配度,判断<A、B>是否相似,或者<A、B>是否构成<问题、答案>等。比如,在上述问答***中,文本数据A可以为某个用户通过触控等方式所录入的问题文本,文本数据B可以为答案数据库里的答案文本。又比如,在搜索***中,文本数据A可以为用户所录入的搜索文本,文本数据B可以为待与该搜索文本匹配的内容文本,例如,网页内容文本、视频描述文本、图片描述文本等。又比如,在对话***中,文本数据A可以为用户通过语音等方式所录入的某个产品(例如,儿童陪伴机器人等)的描述文本数据,文本数据B可以为待与该文本数据A匹配的内容文本(例如,链接文本)等。
可理解的是,这里的文本处理方法涉及人工智能领域中的自然语言处理方向。本申请实施例可以通过关键词数据库中的关键词词典,快速识别出给定的样本数据(也可以称之为初始样本数据)中的第一关键词,并可以从该文本词关键库中获取与第一关键词具有关联关系的第二关键词对应的候选文本数据。可以理解的是,这里的第一关键词可以为初始样本数据所属领域中的领域关键词,这里的第二关键词可以为同一领域中与第一关键词具有关联关系的领域关键词。应当理解,这里的候选文本数据后续可以用于构造高质量的负样本,以训练相应业务场景下的文本处理***中的文本匹配模型,以使训练后的文本匹配模型可以更好地区分一些具有一定迷惑性的负样本,进而可以保障该文本处理***进行文本匹配的准确度。
应当理解,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。
自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
其中,可以理解的是,本申请实施例在计算得到该初始样本数据与这些候选文本数据之间的关联度时,可以从候选文本数据中筛选出能够对初始样本数据造成较强干扰的、高质量的候选文本数据,从而可以将筛选出的候选文本数据统称为初始样本数据对应的增强文本数据。应当理解,从候选文本数据中所筛选出的具有较强干扰性的增强文本数据的数量可以包含一个或者多个,这里将不对其进行限制。鉴于此,本申请实施例可以将这个给定的初始样本数据与筛选出的这些增强文本数据,作为用于训练文本匹配模型的训练样本对,以使训练后的文本匹配模型能够提升文本分类时的能力。为便于理解,本申请实施例可以将文本训练之前的文本匹配模型统称为初始文本匹配模型,并可以将文本训练之后的文本匹配模型统称为目标文本匹配模型。
应当理解,本申请实施例在采用上述文本处理***中的目标文本匹配模型对文本对中的两个文本数据进行文本分类的过程中,不仅需要考虑单个文本数据的特征信息,还需要考虑了两个文本数据之间的交互特征信息。另外,通过将关键词数据库中的领域关键词融入到初始文本匹配模型中,可以在模型训练阶段,提升该初始文本匹配模型对携带关键词标识的训练样本对中的领域关键词的捕获能力,进而可以快速、有效地得到用于预测样本对的匹配度的目标文本匹配模型,且可以有效地提高训练后的初始文本匹配模型对文本对儿(简称文本对)进行文本分类的准确度。
为便于理解,进一步的,请参见图2,是本申请实施例提供的一种文本处理***的***示意图。如图2所示的文本处理***100a属于一种全新的文本匹配框架,通过该文本处理***100a可以有效地提升对文本对进行文本匹配时的准确度。其中,可以理解是,该文本处理***100a可以应用于上述目标应用对应的多个业务场景中的任意一个业务场景,为便于理解,本申请实施例以目标应用(例如,阅读应用)对应的业务场景为搜索场景为例,以阐述针对该搜索场景训练图2所示的文本匹配模型60a的具体过程。如图2所示的文本处理***100a至少可以包含以下几个核心模块:文本数据存储模块、关键词提取模块、数据增强模块和模型改进模块。
其中,文本数据存储模块可以用于存储上述多个业务场景对应的文本数据,以得到图2所示的文本数据库10a,位于该文本数据库10a中的文本数据可以包含前述搜索场景对应的搜索文本数据,这里的搜索文本数据可以包含目标用户通过上述目标用户终端(例如,用户终端3000a)在上述目标应用的应用显示界面所录入的文本数据。其中,本申请实施例可以将该文本数据库10a统称为用于存储海量文本数据的开放域,该开放域中的文本数据可以包含但不限于一些难以严谨地分析句子成分的搜索文本,比如,针对某一类搜索文本数据可以通过多种搜索提问的方式进行表达;可选的,开放域中的文本数据还可以包含一些无法给出精准答案的匹配文本,比如,针对某一个搜索文本数据可以查找出多个具有较高匹配度的文本数据。如图2所示,在该文本数据库10a中还可以包含图2所示的样本标注区域20a,且该样本标识区域中可以包含用于训练文本匹配模型60a的多个样本数据。比如,多个样本数据具体可以包含图2所示的样本数据30a、...、样本数据30n。为便于理解,本申请实施例以在样本标注区域20a中选取的一个样本数据(例如,样本数据30n)作为给定的样本数据(即初始样本数据)为例,以阐述在该文本处理***100a中获取能够对初始样本数据造成较强干扰性的增强文本数据的过程。
其中,关键词提取模块可以用于构建图2所示的关键词***40a,该关键词***40a中的关键词数据库具体可以包含由多个业务领域(简称领域)的领域词典进行合并后所得到的关键词词典。
其中,数据增强模块可以用于为给定样本数据(即上述样本数据30n)配置优质的负样本数据,本申请实施例可以将为该初始样本数据所配置的具有较强干扰性的负样本数据统称为增强文本数据。这里的增强文本数据的数量可以为一个或者多个,这里将不对其进行限制。可以理解的是,本申请实施例还可以将增强文本数据和初始样本数据统所构成的训练文本对称为图2所示的训练样本50a。换言之,本申请实施例中的训练样本50a具体可以用于构建多个训练样本对。比如,一个训练样本对可以是由一个初始样本数据与一个增强文本数据所构成的。
如图2所示,本申请实施例还可以进一步将图2所示的关键词***40a作用于图2所示的训练样本50a,以便于能够在训练样本50a中为每个样本数据中的领域关键词设置关键词标识,以得到图2所示的携带关键词标识的训练样本50b。其中,可以理解的是,图2所示的携带关键词标识的训练样本50b中的每个样本数据均携带关键词标识。为便于理解,本申请实施例可以将携带有关键词标识的初始样本数据统称为第一样本数据,将携带有关键词标识的增强文本数据统称为第二样本数据。
换言之,本申请实施例可以通过图2的关键词***40a识别出参与训练的每个样本数据中的领域关键词,进而可以为识别出的这些领域关键词设置关键词标识,以得到图2的携带关键词的训练样本50b。这样,在将这些携带关键词标识的样本数据给到图2的文本匹配模型60a进行模型训练时,可以通过该文本匹配模型60a中的模型改进模块,智能选取与上述搜索场景相匹配的文本匹配模型(例如,文本匹配模型1)。可以理解的是,该文本匹配模型1中所具备的关键信息模块,可以用于快速捕获到上述第一样本数据和第二样本数据中的领域关键词。比如,本申请实施例可以将在第一样本数据中所捕获到的关键词标识对应的领域关键词作为第一领域关键词、并可以将在第二样本数据中所捕获到的关键词标识对应的领域关键词作为第二领域关键词,进而可以通过第一领域关键词、第二领域关键词、第一样本数据和第二样本数据对图2所示的文本匹配模型60a进行训练,这样,在获取到图2所示的携带关键词标识的预测样本70b(即预测样本对)时,可以提升训练后的文本匹配模型对预测样本对进行文本匹配的准确度。
由此可见,本申请实施例通过在文本匹配模型1中增加关键信息模块,可以快速区别并得到这些样本数据中的带有关键词标识的领域关键词,进而可以在训练文本匹配模型60a的过程中,能够针对性地确保文本匹配模型60a可以学习到同一个文本对中的这些领域关键词的特征信息,进而可以提高文本分类的准确度。另外,本申请实施例也可以将上述关键词***40a作用于图2所示的预测样本70a,以给参与预测的样本对增加关键词标识。应当理解,本申请实施例通过为预测样本增加关键词标识,可以得到携带关键词标识的第三文本数据和携带关键词标识的第四文本数据,这样,当第三文本数据和第四文本数据作为预测样本对(例如,预测样本对A)时,相当于给上述训练后的文本匹配模型增加了额外的先验信息,这样,即使上述训练后的文本匹配模型从未学习过该预测样本对A中的领域关键词,也可以继续通过设置的关键词标识快速识别出第三文本数据和第四文本数据中的领域关键词,进而可以重点学习这些领域关键词所表征的特征信息,从而可以有效地避免误分类的现象。
其中,文本处理***获取增强文本数据以及训练初始文本匹配模型的具体实现方式可以参见下述图3-图9所对应的实施例。
为便于理解,进一步的,请参见图3,是本申请实施例提供的一种文本数据处理方法的流程示意图。如图3所示的文本数据处理方法可以应用于上述文本处理***,比如,上述图2所示的文本处理***100a。该文本处理***中可以包含运行有文本数据处理装置的计算机设备,这里的计算机设备可以用于执行该文本数据处理方法。其中,这里的计算机设备可以是业务服务器,也可以是其他终端等设备,这里将不对其进行限定。其中,终端具体可以包括手机、平板电脑、笔记本电脑、以及个人计算(Personal Computer,PC)等设备。如图3所示,该文本数据处理方法至少可以包含以下步骤S101-步骤S104。
步骤S101,获取初始样本数据,通过关键词数据库中的领域关键词确定初始样本数据中的第一关键词,获取与第一关键词具有关联关系的第二关键词对应的候选文本数据;
具体的,运行有文本数据处理装置的计算机设备可以从样本标注区域(也可以称之为标注区间)中获取初始样本数据,比如,可以从样本标注区域中选取一个样本数据作为初始样本数据。进一步的,该计算机设备可以从关键词数据库中获取第一领域词典,并基于第一领域词典对初始样本数据中的领域关键词进行识别;进一步的,该计算机设备可以将在初始样本数据中所识别到的领域关键词作为第一关键词;进一步的,计算机设备可以从关键词数据库所包含的关联文本中获取包含第一关键词的目标关联文本,将目标关联文本中的领域关键词作为第二关键词;进一步的,计算机设备可以将包含第二关键词的目标关联文本作为与第一关键词具有关联关系的第二关键词对应的候选文本数据。
其中,可以理解的是,上述运行有文本数据处理装置的计算机设备在从样本标注区域(也可以称之为标注区间)中获取到初始样本数据时,还可以识别该初始样本数据所属的领域,并可以将识别到的该初始样本数据所属的领域确定为第一领域,进而可以从文本数据库(即上述开放域)中获取与第一领域的领域标签相匹配的关联文本,进而可以从获取到的大量的关联文本中提取并收集与该第一领域相匹配的领域关键词,并可以基于这些领域关键词构建第一领域对应的第一领域词典。应当理解,本申请实施例在构建好第一领域(即当前领域)对应的第一领域词典之后,还可以获取同一业务场景下的其他领域(即第二领域)对应的第二领域词典,进而可以基于这些领域的领域词典,最终确定与样本标注区域相关联的关键词数据库。
为便于理解,进一步的,请参见图4,是本申请实施例提供的一种确定候选文本数据的场景示意图。如图4所示的文本数据库可以用于存储从网络数据库中所获取到的需要进行文本匹配的文本数据,例如,需要进行文本匹配的文章或者资讯等。可选的,图4所示的文本数据库还可以用于接收并存储用户所上传的文本数据,比如,可以接收用户所上传的电子读物,例如,电子书籍、电子小说等电子文本数据。
应当理解,如图4所示的标注区域101a中可以包含图4所示的样本数据201a,还可以包含其他样本数据(未在图4示出)。可以理解的是,位于该标注区域101a中的每个样本数据均携带真实的分类标签信息,这里的分类标签信息是指每个样本数据所属领域的领域标签,例如,体育新闻标签、财经新闻标签、....、娱乐新闻标签。其中,为便于理解,本申请实施例以图4所示的标注区间101a为上述图2所对应实施例中的样本标注区域20a为例,该标注区间101a中的样本数据201a所属的领域可以为新闻领域,本申请实施例可以将图4所示的样本数据201a统称为上述初始样本数据,即初始样本数据可以为从样本标注区域(例如,样本标准区域20a)中所选取的携带相应领域标签的文本数据。
可以理解的是,当计算机设备从图4所示的标注区间101a中选取样本数据201a作为即初始样本数据时,可以识别出样本数据201a所属的领域为新闻领域,且可以识别出该样本数据201a所属的领域的领域标签,例如,体育新闻标签。此时,计算机设备可以将其识别到的新闻领域作为第一领域,进而可以从图4所示的文本数据库中选取与该第一领域的领域标签(例如,体育新闻标签)相匹配的关联文本,具体的,请参见图4所示的多个关联文本,多个关联文本具体可以包含关联文本201b、关联文本201c、...、关联文本201d。
其中,可以理解的是,图4所示的文本数据库中还可以包含除新闻领域(即第一领域)之外的其他领域,即本申请实施例可以将该文本数据库中的其他领域(例如,对话领域、服务领域等)统称为第二领域。这样,计算机设备在通过图4所示的多个关联文本筛选出图4所示的候选文本数据的具体过程可以描述为:计算机设备可以通过构建好的关键词数据库中的领域关键词,确定初始样本数据中的第一关键词,获取与第一关键词具有关联关系的第二关键词对应的候选文本数据,这里的候选文本数据可以为从图4所示的多个关联文本中所筛选出的与第一关键词具有关联关系的第二关键词对应的候选文本数据。
其中,可以理解的是,计算机设备在获取候选文本数据之前,可以预先构建上述第一领域对应的第一领域词典。比如,计算机设备可以从存储有海量文本数据的文本数据库中筛查出上述图4所示的多个关联文本,进而可以对从文本数据库所获取到的关联文本中的候选词进行挖掘,以找出在该第一领域中具有较高影响度的领域关键词。可以理解的是,本申请实施例在初步挖掘出一些互相关度较高的候选词时,可以进一步将挖掘出的候选词(即筛选出的互相关度大于互相关阈值的候选词)作为待处理字符串,进而可以通过分析这些待处理字符串出现在第一领域(即自己领域)的文档频次(例如,频次1)与这些待处理字符串出现在第二领域的文档频次(例如,频次2),得到每个待处理字符串的影响度。这样可以在计算出每个待处理字符串的影响度的时候,可以权衡这些待处理字符串在自己领域中的所起到的作用,进而可以构建得到第一领域对应的第一领域词典。其中,可以理解的是,本申请实施例对待处理字符串的影响度进行计算的过程中,需要考虑与第一领域相关的多个文本数据,还需要一并考虑与第一领域无关的其他领域的文本数据,以确保可以筛选出的高质量的领域关键词。
为便于理解,进一步的,请参见图5,是本申请实施例提供的一种构建领域词典的场景示意图。其中,如图5所示的关联文本201b、关联文本201c、...、关联文本201d可以为上述图4所对应实施例中的多个关联文本。可以理解的是,每个关联文本均可以包含多个字符,本申请实施例可以将关联文本中的每个字符统称为关联文本的分词。可以理解的是,为了能够从海量的关联文本中充分挖掘出高质量的领域关键词(即关键词信息),本申请实施例可以对图5所示的每个关联文本进行分词处理,以得到与这些关联文本的分词相关联的分词集合。
如图5所示,集成有文本数据处理装置的计算机设备可以进一步对关联文本中的多个连续的分词进行组合,以得到图6所示的多个候选词,这里的一个候选词即为一个组合词,这些候选词(即组合词)具体可以包含图5所示的候选词X1、候选词X2、候选词X3、候选词X4、候选词X5、候选词X6、候选词X7、...、候选词X8。应当理解,计算机设备在组合得到这些候选词时,可以确定候选词中的每个分词之间的互相关度,这里的互相关度可以用于描述上述关联文本中的每个分词进行组合搭配时的搭配强度。进一步的,计算机设备可以从基于候选词的互相关度,从图5所示的候选词中筛选互相关度大于互相关阈值的候选词。如图5所示,本申请实施例可以将从候选词中所筛选出的互相关度大于互相关阈值的候选词统称为待处理字符串,以得到图5所示的待处理字符串X1、待处理字符串X2、待处理字符串X3、待处理字符串X4、待处理字符串X5、待处理字符串X6、待处理字符串X7、待处理字符串X8。
其中,为便于理解,本申请实施例以关联文本为图5所示的关联文本201b为例,可以对该关联文本201b中的每个字符进行拆分,并可以将拆分得到的每个字符统称为关联文本201b的分词。可以理解的是,关联文本201b的分词所构成的分词集合可以为子分词集合1。以此类推,计算机设备也可以对图5所示的其他关联文本(即关联文本201c、...、关联文本201d)中的每个分词进行拆分、以得到其他关联文本的分词所构成的子分词集合2。应当理解,本申请实施例可以将图5所示的关联文本201c对应的子分词集合1和其他关联文本对应的子分词集合2统称为与关联文本的分词相关联的分词集合。其中,计算机设备对其他关联文本的分词进行拆分的具体方式可以参见对上述关联文本201b的描述,这里将不再继续进行赘述。
进一步的,为了充分挖掘出每个分词集合中的这些分词之间的搭配强度,本申请实施例可以在将分词集合中的每个分词进行分词组合。比如,在上述分词集合中,可以将图5所示的每个关联文本中的多个连续分词进行组合,以得到图5所示的候选词。换言之,本申请实施例可以将分词集合中的每个分词进行组合(比如,可以在一个关联文本中将多个连续位置上的分词进行组合),以得到与关联文本相关联的候选词。
进一步的,计算机设备可以计算分词集合1中的这些候选词中的每个分词之间的互相关度。可以理解的是,这里的互相关度可以用于表征候选词中的分词与分词之间的搭配强度。若计算出的互相关度值越大,则可以间接反映参与构建候选词的几个连续的分词之间进行搭配的强度越大,以至于后续能够成为该第一领域(即当前领域)中的领域关键词的可能性就越大。比如,若在上述多个候选词对应的互相关度中,存在候选词的互相关度大于关键词筛选条件中的互相关阈值,则可以将该互相关度大于关键词筛选条件中的互相关阈值的候选词,作为从分词集合1的候选词中所筛选出的待处理字符串。以此类推,本申请实施例也可以从其他关联文本对应的候选词中筛选出待处理字符串,这里将不对从上述分词集合2的候选词中筛选出待处理字符串的具体过程进行赘述。
可以理解的是,本申请实施例在得到这些待处理字符串之后,可以将其添加至图5所示的词典U1中,进而可以在引入与第一领域无关的文本数据(例如,存在于上述图4所示的文本数据库中的与第二领域相关的文本数据)的情况下,统计每个待处理字符串出现在第一领域的频次(即上述文档频次)和相应待处理字符串出现在第二领域的频次(即文档频次),进而可以得到这些待处理字符串在第一领域中的影响度。如图5所示,待处理字符串X1的影响度为y1、待处理字符串X2的影响度为y2、待处理字符串X3的影响度为y3、...、待处理字符串X8的影响度为y8
如图5所示,本申请实施例可以进一步判断这些待处理字符串的影响度是否达到关键词筛选条件中的影响度阈值(例如,0.85),若这些待处理字符串的影响度中存在影响度大于影响度阈值的待处理字符串,则可以将影响度大于影响度阈值的待处理字符串,作为与第一领域(例如,上述新闻领域)相匹配的领域关键词(例如,可以得到图5所示的领域关键词X5和领域关键词X8)。
进一步的,当计算机设备从大量的候选词中挖掘出具有较高影响度的领域关键词之后,可以用这些具有较高影响度的领域关键词更新初始领域词典(即可以更新图5所示的词典U1),进而可以得到图5所示的词典U2,该词典U2可以为本申请实施例所构建得到的第一领域对应的第一领域词典。
可选的,本申请实施例在得到上述具有较高影响度的领域关键词之后,还可以根据这些领域关键词在第一领域中的影响度,对这些领域关键词进行排序,进而可以将排序处理后的这些领域关键词进行组装,以构建得到上述第一领域词典。
进一步的,可以理解的是,计算机设备在得到第一领域的领域词典之后,还可以获取与第一领域无关的其他领域的领域词典,并可以将其他领域(例如,上述第二领域)的领域词典统称为第二领域词典,进而可以基于这些领域的领域词典(即第一领域词典和第二领域词典),重新构建能够自动标识样本数据中的领域关键词的关键词数据库。其中,第二领域词典的具体构建方式可以参见上述对构建第一领域词典的描述,这里将不再继续进行赘述。
鉴于此,计算机设备在构建好关键词数据库之后,可以进一步通过构建好的关键词数据库快速识别上述图4所示的样本数据201a(即初始样本数据)中的领域关键词,并可以将识别出的领域关键词作为初始样本数据的第一关键词,进而可以从上述图4所示的多个关联文本中获取包含第一关键词的目标关联文本,以将获取到的目标关联文本中的领域关键词统称为第二关键词。可以理解的是,在本申请实施例中,第二关键词的数量可以大于或者等于第一关键词的数量。
例如,在上述车载应用对应的问答场景下,上述初始样本数据可以为用户通过语音方式所录入的问题文本A(例如,从科兴科学园到宝安体育馆的行车路线),则从上述多个关联文本中所找到的与初始样本数据具有关联关系的候选文本数据:可以包含与初始样本数据相同的问题文本A1,还可以包含与初始样本数据相似的其他问题样本(例如,问题样本A2、...、问题样本A3)。其中,可以理解的是,问题文本A1、问题样本A2、...、以及问题样本A3中的领域关键词中均可以包含上述第一关键词(例如,科兴科学园、宝安体育馆),本申请实施例可以将包含第一关键词的关联样本统称为从上述多个关联文本中所确定出的目标关联文本,并可以将目标关联文本(即问题文本A1、问题样本A2、...、问题样本A3)中的领域关键词作为上述第二关键词,进而可以将包含第二关键词的目标关联文本作为与第一关键词具有关联关系的第二关键词对应的候选文本数据。如上述图4所示,与第一关键词具有关联关系的第二关键词对应的候选文本数据具体可以包含上述图4所示的关联文本201c、...、201d。
步骤S102,确定初始样本数据与候选文本数据之间的关联度,在候选文本数据中筛选关联度满足样本筛选条件的候选文本数据,将筛选出的候选文本数据作为初始样本数据对应的增强文本数据;
具体的,运行有文本数据处理装置的计算机设备可以根据初始样本数据中的第一关键词与候选文本数据中的第二关键词之间的覆盖比率,确定初始样本数据与候选文本数据之间的关联度;进一步的,计算机设备可以在候选文本数据中对关联度进行排序,以得到候选文本数据对应的待处理文本数据;进一步的,计算机设备可以从排序后的待处理文本数据中筛选关联度大于第一关联阈值且小于第二关联阈值的待处理文本数据;进一步的,计算机设备可以将筛选出的待处理文本数据作为初始样本数据对应的增强文本数据;可以理解的是,本申请实施例中的第一关联阈值可以小于第二关联阈值,且第一关联阈值与第二关键阈值均为样本筛选条件中的阈值。换言之,本申请实施例为了能够提高文本匹配模型的分辨能力,需要从候选文本数据中筛选出能够对初始样本数据造成较强干扰性的负样本数据,以便于后续可以执行下述步骤S103。
应当理解,本申请实施例为例能够提高文本匹配模型的分辨能力,提出可以对给定的训练样本数据(即上述初始样本数据)进行数据增强处理,以生成更多的训练样本数据。比如,通过上述图2所对应实施例中的数据增强模块对训练样本数据进行数据增强处理,可以减少人工挑选负样本的人工交互时长,进而可以快速得到一些“好”的或者“高质量”的负样本数据。从文本匹配的角度而言,本申请实施例可以将这些得到的“高质量”的负样本数据统称为增强文本数据,即增强文本数据可以是指一些与初始样本数据“相似”,但存在部分领域关键词不同的文本数据。
通过比较可以发现,初始样本数据与增强文本数据之间存在一些共同点,即文本对中的两个文本数据的句式相似,且具备相同的领域关键词,比如,唱歌。其中,本申请实施例可以将这两个文本数据中所具备的相同的领域关键词统称为公共关键词。
换言之,计算机设备在通过多个领域的领域词典所构成关键词数据库中,可以快速标注出初始样本数据中的第一关键词,还可以标注出候选文本数据中的第二关键词。可以理解的是,本申请实施例可以将初始样本数据中的所有领域关键词统称为第一关键词,例如,第一关键词的数量可以为4个,并可以将候选文本数据中的领域关键词统称为第二关键词,例如,第二关键词的数量可以为6个。应当理解,计算机设备在计算初始样本数据与每个候选文本数据的关联度时,可以统计两个文本数据之间的公共关键词的数量,例如,公共关键词的数量为3个,此时,计算机设备所计算得到的第一关键词与候选文本数据中的第二关键词之间的覆盖比率可以为30%。可以理解的是,本申请实施例可以将计算得到的覆盖比率统称为初始样本数据与候选文本数据之间的关联度。比如,通过计算得到上述样本数据201a的第一关键词与上述候选文本数据201c的第二关键词之间的覆盖比率,可以确定样本数据201a与候选文本数据201c之间的关联度为关联度1。依次类推,通过计算得到上述样本数据201a的第一关键词与其他候选文本数据(例如,候选文本数据201e,未在上述图4中示出)的第二关键词之间的覆盖比率,可以确定样本数据201a与候选文本数据201e之间的关联度为关联度2。又比如,通过计算得到上述样本数据201a的第一关键词与上述候选文本数据201d的第二关键词之间的覆盖比率,可以确定样本数据201a与候选文本数据201d之间的关联度为关联度3。
进一步的,计算机设备可以对这些候选文本数据的关联度进行排序,进而可以将进行关联度排序后的候选文本数据统称为待处理文本数据,比如,若上述关联度2大于关联度1,且关联度2小于关联度3,即关联度3>关联度2>关联度1,则排序后的待处理文本数据的队列顺序可以为:候选文本数据201d、候选文本数据201e、候选文本数据201c。此时,计算机设备从这些待处理文本数据中筛选关联度大于第一关联阈值且小于第二关联阈值的待处理文本数据,作为增强文本数据,以进一步执行下述步骤S103。
其中,可以理解的是,在确定增强文本数据的过程中,可以预先设置一个上限阈值和一个下限阈值,这里的上限阈值可以为上述第二关联阈值,下线阈值可以为上述第一关联阈值,这里的第一关联阈值和第二关联阈值可以用于反映两个样本数据中的公共关联阈值在总关联阈值的所占比例的需求。如果两个样本数据的覆盖比率(例如,覆盖比率Q1)大于或者等于第二关联阈值,则可以说明覆盖比率Q1对应的候选文本数据(例如,上述候选文本数据201d)与上述初始样本数据一致,因此可以将上述候选文本数据201d作为模型训练阶段的正样本,从而需要丢弃该候选文本数据201d。反之,如果两个样本数据的覆盖比率(例如,覆盖比率Q2)小于或者等于第二关联阈值,则可以说明覆盖比率Q2对应的候选文本数据(例如,上述候选文本数据201c)与上述初始样本数据完全不一致,因此可以将上述候选文本数据201d作为为一个很容易分辨的负样本,也需要丢弃该候选文本数据201c。
鉴于此,可以理解的是,本申请实施例可以根据关键词策略设置上述第一关联阈值和上述第二关联阈值,以从上述多个候选文本数据中筛选出具有较高混淆度的增强文本数据,即本申请实施例可以根据关键词策略筛选出一些关键词很相似,但关键词的实质内容并不相同的候选文本数据,来扩充训练样本,以实现对作为训练样本的初始样本数据的数据增强。这样,当在模型训练阶段使用这些增强文本数据作为高质量的负样本数据时,可以极大地提升文本匹配模型对具有较强迷惑性的文本对的分辨能力。
步骤S103,根据增强文本数据和初始样本数据,确定与关键词数据库中具有关联关系的训练样本对;
其中,训练样本对中的每个样本数据均携带关键词数据库中的领域关键词对应的关键词标识。可以理解的是,本申请实施例在得到上述增强文本数据之后,可以将每个增强文本数据与初始样本数据统称为上述训练样本(也可以将其统称为样本数据)。由于本申请实施例在构建得到上述关键词数据库之后,可以将其作用于训练样本,还可以将关键词数据库中的领域关键词融入到待训练的文本匹配模型(即上述初始文本匹配模型)中,以确保该初始文本匹配模型能够在模型训练阶段快速地捕获到参与训练的训练样本对中的每个样本数据中的领域关键词,进而可以在相应的样本数据中对捕捉到的领域关键词进行关键词标识,比如,可以亮高显示每个样本数据中的领域关键词。另外,可以理解的是,本申请实施例通过将领域关键词融入初始文本匹配模型中,可以在模型训练阶段增强模型对样本数据中的领域关键词的学习能力,进而可以在完成模型训练之后,有效地提升训练后的文本匹配模型对文本对的分类能力。
其中,应当理解,这里的训练样本对可以包含第一样本数据和第二样本数据;其中,第一样本数据中可以包含携带关键词标识的初始样本数据;第二样本数据中可以包含携带关键词标识的增强文本数据。可以理解的是,本申请实施例通过为训练样本对中的每个样本数据设置关键词标识,可以有效地提升初始文本匹配模型对携带关键词标识的领域关键词的捕获能力,进而可以减少模型对人工标注数据的依赖,还可以提高模型对领域关键词的识别能力。
步骤S104,基于训练样本对训练用于捕获关键词标识的初始文本匹配模型,将训练后的初始文本匹配模型确定为目标文本匹配模型;
具体的,计算机设备可以利用初始文本匹配模型,对训练样本对中的第一样本数据和第二样本数据的领域关键词进行识别,进而可以在识别到第一样本数据中存在领域关键词时,为其设置关键词标识,以将第一样本数据中的关键词标识对应的领域关键词作为第一领域关键词。同理,计算机设备还可以在识别到第二样本数据中存在领域关键词时,为其设置关键词标签,以将第二样本数据中的关键词标识对应的领域关键词作为第二领域关键词;进一步的,计算机设备可以获取第一样本数据中的第一分词的第一分词特征信息,以及第二样本数据中的第二分词的第二分词特征信息;这里的第一分词和第二分词可以为上述具有较高互相关度的待处理字符串(即组合词),这里将不对其进行限定。第一分词中可以包含第一领域关键词,第二分词中可以包含第二领域关键词。
进一步的,计算机设备可以基于第一分词特征信息、第二分词特征信息、第一领域关键词、第二领域关键词以及初始文本匹配模型,对训练样本对进行训练,得到训练分类结果;进一步的,计算机设备可以在检测到训练分类结果满足分类收敛条件时,将训练后的初始文本匹配模型确定为目标文本匹配模型。
其中,目标文本匹配模型后续可以用于对获取到的预测样本对的匹配度进行预测。可以理解的是,在本申请实施例中所使用的初始文本匹配模型可以根据业务场景的不同,智能地选取相应业务场景下的文本匹配模型。
比如,本申请实施例可以将线上大规模数据(一般十万以上)、高运行速度(延迟1ms以内)的场景统称为第一业务场景,并可以将该第一业务场景下的文本匹配模型统称为第一文本匹配模型,这里的第一文本匹配模型可以为融入了领域关键词的模型,例如,基于变压器的双向编码器表征(Bidirectional Encoder Representations fromTransformers,BERT)模型。其中,该第一文本匹配模型可以包含关键词注意力层、融合层以及分类层。则计算机设备对该第一文本匹配模型进行训练的具体过程可以描述为:计算机设备可以将第一分词的第一分词特征信息和第二领域关键词的第二分词特征信息输入关键词注意力层,输出关键词注意力层对应的第一注意力特征信息;其中,第一注意力特征信息可以用于表征第二领域关键词与第一分词之间的相关性;进一步的,计算机设备可以将第二分词的第二分词特征信息和第一领域关键词的第一分词特征信息输入关键词注意力层,以输出关键词注意力层对应的第二注意力特征信息;其中,第二注意力特征信息可以用于表征第一领域关键词与第二分词的相关性;进一步的,计算机设备可以获取第一样本数据的第一语义特征信息以及第二样本数据的第二语义特征信息,以将第一语义特征信息和第二语义特征信息进行语义融合,得到融合语义特征信息;进一步的,计算机设备可以将第一注意力特征信息、第二注意力特征信息、融合特征信息输入融合层,输出训练样本对对应的融合特征向量,通过分类层输出训练样本对的训练分类结果。
为便于理解,进一步的,请参见图6,是本申请实施例提供的一种第一文本匹配模型的场景示意图。如图6所示的携带关键词标识(即关键词标识1)的样本数据A可以为训练样本对中的第一样本数据,同理,如图6所示的携带关键词标识(即关键词标识2)的样本数据B可以为训练样本对中的第二样本数据。如图6所示,样本数据A中的第一分词可以包含图6所示的Token A1、Token A2、Token A3、Token A4、...、Token Ai,即样本数据A中可以包含i个第一分词,i的取值可以为正整数。同理,如图6所示,样本数据B中的第二分词可以包含图6所示的Token B1、Token B2、Token B3、...、Token Bj,即样本数据B中可以包含j个第二分词,j的取值可以为正整数。
如图6所示,计算机设备可以将第一样本数据和第二样本数据作为一个训练样本对,输入至图6所示的第一文本匹配模型,以对该第一文本匹配模型进行训练。其中,如图6所示的第一文本匹配模型可以包含特征提取层(未在图6示出)、关键词注意力层、融合层和分类层。可以理解的是,由于该第一文本匹配模型(即上述第一业务场景下的文本匹配模型)中融入有上述领域关键词,所以,当计算机设备将携带关键词标识1的样本数据A和携带关键词标识2的样本数据B给到图6所示的第一文本匹配模型时,该第一文本匹配模型可以将样本数据A中的关键词标识1对应的领域关键词(即图6所示的A1)统称为第一领域关键词,并将样本数据B中的关键词标识2对应的领域关键词(即图6所示的A2)统称为第二领域关键词。可以理解的是,这里的第一领域关键词可以包含但不限于样本数据A中的A1,同理,第二领域关键词可以包含但不限于样本数据B中的B1,这里将不对两个样本数据中的领域关键词进行一一列举。
其中,第一文本匹配模型中的特征提取层可以用于对图6所示的样本数据A中的第一分词的第一分词特征信息进行提取,还可以用于对图6所示的样本数据B中的第二分词的第二分词特征信息进行提取。比如,Token A1的第一分词特征信息可以表示为h(A1)、...、Token Ai的第一分词特征信息可以表示为h(Ai)。又比如,Token B1的第二分词特征信息可以表示为h(B1)、...、Token Bj的第二分词特征信息可以表示为h(Bj)。应当理解,本申请实施例可以将提取到的第一分词特征信息和第二分词特征信息统称为分词特征信息,这里的分词特征信息具体可以包含每个分词在相应样本数据中的词特征、位置特征和标记特征。此外,可以理解的是,该第一文本匹配模型中的特征提取层还用于提取样本数据A的标签CLS对应的第一语义特征信息,和样本数据B的标签CLS对应的第二语义特征信息。进一步的,如图6所示,计算机设备可以将这里的第一语义特征信息和第二语义特征信息进行语义融合,以得到融合语义特征信息,这里的融合语义特征信息可以表示为图6所示的h(CLS)。
其中,第一文本匹配模型中的关键词注意力层可以用于增强两个样本数据之间的互相关信息。比如,计算机设备可以将上述第一分词的第一分词特征信息(即h(A1)、...、h(Ai))和第二领域关键词(即图6所示的Token B1)的第二分词特征信息(即h(B1))输入图6所示的关键词注意力层,以得到用于表征第二领域关键词与第一样本数据中的每个第一分词之间的相关性的第一注意力特征信息,该第一注意力特征信息可以为图6所示的h(A)。同理,计算机设备还可以将上述第二分词的第二分词特征信息(即h(B1)、...、h(Bj))和第一领域关键词(即图6所示的Token A1)的第一分词特征信息(即h(A1))输入图6所示的关键词注意力层,以得到用于表征第一领域关键词与第二样本数据中的每个第二分词之间的相关性的第二注意力特征信息,该第二注意力特征信息可以为图6所示的h(B)。
可以理解的是,h(A)的向量维度与h(Ai)的向量维度一致,可以用于表征第二样本数据中的第二领域关键词与第一样本数据这个句子进行融合之后的句向量。h(B)的向量维度与h(Bj)的向量维度一致,可以用于表征第一样本数据中的第一领域关键词与第二样本数据这个句子进行融合之后的句向量。
如图6所示,计算机设备将第一注意力特征信息(即图6所示的h(Ai))、第二注意力特征信息(即图6所示的h(Bj))、融合特征信息(即图6所示的h(CLS))输入该第一文本匹配模型中的融合层,以输出训练样本对(即图6所示的样本数据A和样本数据B)对应的融合特征向量,进而可以通过该第一文本匹配模型中的分类层输出样本数据A与样本数据B之间的匹配度,以得到训练样本对的训练分类结果。
可选的,本申请实施例还可以将线上小规模数据(一般十万以下)、中等运行速度(延迟1ms~10ms)的场景统称为第二业务场景,并可以将该第二业务场景下的文本匹配模型统称为第二文本匹配模型,这里的第二文本匹配模型可以为融入了领域关键词的模型。例如,一种能够用于对文本对进行文本匹配的Fastpair模型。其中,该第二文本匹配模型包含特征组合层、平均池化层、全连接层以及分类层。其中,第一分词中包含除第一领域关键词之外的M个第一子分词;第二分词中可以包含除第二领域关键词之外的N个第二子分词;其中,M和N均可以为正整数;此时,计算机设备对该第二文本匹配模型进行训练的具体过程可以描述为:计算机设备可以基于第一分词特征信息在第一样本数据中,确定M个第一子分词的第一子位置信息和第一领域关键词的第二子位置信息,并可以根据M个第一子位置信息和第二子位置信息,获取第一样本数据中的M个第一子分词和第一领域关键词所构成的第一自相关词的第一自相关特征信息;进一步的,计算机设备可以基于第二分词特征信息在第二样本数据中,确定N个第二子分词的第三子位置信息和第二领域关键词的第四子位置信息,根据N个第三子位置信息和第四子位置信息,在第二样本数据中获取N个第二子分词和第二领域关键词所构成的第二自相关词的第二自相关特征信息;进一步的,计算机设备可以获取第一样本数据与第二样本数据之间的互相关词对应的交互特征信息;进一步的,计算机设备可以将第一自相关特征信息、第二自相关特征信息、交互特征信息作为平均池化层的输入特征,输出平均池化层对应的池化向量,根据池化向量、全连接层以及分类层,对训练样本对进行训练,得到训练分类结果。
为便于理解,进一步的,请参见图7,是本申请实施例提供的一种第二文本匹配模型的场景示意图。如图7所示的样本数据A可以为上述第一样本数据,样本数据B可以为上述第二样本数据。其中,第一样本数据中的第一领域关键词可以包含图7所示的Token A1,本申请实施例可以在第一样本数据中将除第一领域关键词之外的第一分词统称为第一子分词,该第一自分词的数量可以为M个,M为正整数,比如,如图7所示,可以将Token A2~TokenAi这M个第一分词统称为第一子分词。同理,第二样本数据中的第二领域关键词可以包含图7所示的Token B1,本申请实施例可以在第二样本数据中将除第二领域关键词之外的第二分词统称为第二子分词,该第二自分词的数量可以为N个,N为正整数,比如,如图7所示,可以将Token B2~Token Bj这N个第二分词统称为第二子分词。
如上述图6所示,计算机设备在提取到第一样本数据中的第一分词的第一分词特征信息之后,可以获取这些第一分词在第一样本数据的位置特征、标记特征和词特征。所以,在本申请实施例中的计算机设备可以基于该第一分词特征信息,确定上述M个第一子分词的第一子位置信息(例如,Token Ai的第一子位置信息可以为图7所示的样本数据A的第i个位置)和第一领域关键词的第二子位置信息(例如,Token A1的第二子位置信息可以为图7所示的样本数据A的第一个位置)。同理,计算机设备在提取到第二样本数据中的第二分词的第二分词特征信息之后,可以获取这些第二分词在第二样本数据的位置特征、标记特征和词特征。所以,计算机设备可以基于该第二分词特征信息确定上述N个第二子分词的第三子位置信息(例如,Token Bj的第三子位置信息可以为图7所示的样本数据B的第j个位置)和第二领域关键词的第四子位置信息(例如,Token B1的第四子位置信息可以为图7所示的样本数据B的第一个位置)。可以理解的是,本申请实施例通过确定各个分词在相应样本数据中的位置信息,可以在进行分词组合时,能够对具有相同文本内容,且具有不同来源的分词进行区别,以确保模型训练阶段中的特征信息的多样化。
其中,可以理解的是,在该第二业务场景下,计算机设备可以根据M个第一子位置信息和第二子位置信息,在第一样本数据中将M个第一子分词和第一领域关键词进行分词组合,并可以将分词组合后所得到的组合词作为第一样本数据的第一自相关词。比如,若第一样本数据为“我爱吃苹果”,第一样本数据对应的第一分词可以为Token A1(我)、TokenA2(爱)、Token A3(吃)以及Token A4(苹果)。其中,“苹果”可以为该第一样本数据中的第一领域关键词,“我”、“爱”“吃”则可以为该第一样本数据中的3(即M=3)个第一子分词。此时,计算机设备可以基于这些第一分词在第一样本数据中的位置信息,对这3个第一子分词和第一领域关键词进行分词组合,进而可以得到以下第一自相关词:A1=“我”、A1A2=“我,爱”、A2A3=“爱,吃”、A3A4=“吃,苹果”。
同理,计算机设备可以根据N个第三子位置信息和第四子位置信息,在第二样本数据中将N个第二子分词和第二领域关键词进行分词组合,将分词组合后所得到的组合词作为第一样本数据的第二自相关词。比如,第二样本数据可以为“我喜欢吃梨”,则该第二样本数据对应的第二分词可以为TokenB1(我)、TokenB2(喜欢)、TokenB3(吃)以及TokenB4(梨)。其中,“梨”可以为该第二样本数据中的第二领域关键词,“我”、“喜欢”“吃”则可以为该第二样本数据中的3(即N=3)个第二子分词。此时,计算机设备可以基于这些第二分词在第一样本数据中的位置信息,对3个第二子分词和第二领域关键词进行分词组合,进而可以得到以下第二自相关词:B1=“我”、B1B2=“我,喜欢”、B2B3=“喜欢,吃”、B3B4=“吃,梨”。
为了了解第一样本数据与第二样本数据之间的互相关性,本申请实施例还可以将第一分词(即M个第一子分词和第一领域关键词)和第二分词(即、N个第二子分词、第二领域关键词)进行分词组合,并可以将分词组合后所得到的组合词作为第一样本数据与第二样本数据之间的互相关词。比如,以上述第一样本数据为“我爱吃苹果”、第二样本数据“我喜欢吃梨”为例,则进行交互组合后所得到的互相关词可以包含:A1B1=“我,我”、A1B2=“我,喜欢”、A1B3=“我,吃”、A1B4=“我,梨”、A2B1=“爱,我”、A2B2=“爱,喜欢”、A2B3=“爱,吃”、A2B4=“爱,梨”,A3B1=“吃,我”、A3B2=“吃,喜欢”、A3B3=“吃,吃”、A3B4=“吃,梨”、A4B1=“苹果,我”、A4B2=“苹果,喜欢”,A4B3=“苹果,吃”、A4B4=“苹果,梨”。
其中,可以理解的是,计算机设备在得到互相关词时,可以进一步通过该第二文本匹配模型识别互相关词中是否存在与第一自相关词具有相同内容,且具有不同来源的互相关词,若存在,则可以在互相关词中对于第一子喜丧歌词具有相同内容的互相关词进行特征标识,以得到第一分词标识,比如,上述互相关词中的A2B3=“爱,吃”与第一自相关词中的A2A3=“爱,吃”具有相同内容。此时,计算机设备可以为A2B3=“爱,吃”设置特征标识(例如,#),以得到第一标识分词(例如,#A2B3)。该第一标识分词对应的交互特征信息可以统称为图7所示的特征信息80c。可以理解的是,后续计算机设备在对组合特征信息进行向量编码时,由于设置“#”标识,即使A2B3与A2A3各自对应的内容相同,但是由于A2B3对应的交互特征信息不同于A2A3对应的第一子相关特征信息,则这两个分词分别对应的特征向量将不相同。例如,A2B3的特征向量可以为词向量a,A2A3的特征向量可以为词向量b。同理,若图7所示的第二文本匹配模型识别到在互相关词中存在与第二自相关词(例如,B1B2=“我,喜欢”)具有相同内容的互相关词(例如,A1B2=“我,喜欢”),则可以在互相关词中对识别到的与第二自相关词相同的互相关词进行特征标识,得到第二标识分词(例如,#A1B2);其中,可以理解的是,该第二标识分词对应的交互特征信息不同于第二标识分词对应的第二自相关词的第二自相关特征信息。
应当理解,本申请实施例可以将分词组合后所得到的上述第一自相关词、第二自相关词和互相关词统称为组合词。在这些组合词中,第一自相关词对应的第一自相关特征信息可以为图7所示的特征信息80a、第二自相关词对应的第二自相关特征信息可以为图7所示的特征信息80b、互相关词对应的交互关特征信息可以为图7所示的特征信息80c。如图7所示,本申请实施例可以将图7所示的特征信息80a、特征信息80b、特征信息80c的其中,为便于理解,本申请实施例以初始文本匹配模型为图7所示的特征信息。由于该第二文本匹配模型中融入了上述领域关键词,为了使该第二文本匹配模型能够充分地学习到领域关键词在相应样本数据中的区别,本申请实施例可以根据领域关键词对图7所示的特征信息进行划分,进而可以得到图7所示的第一组合特征信息和第二组合特征信息。
其中,第一组合特征信息可以为计算机设备从第一自相关特征信息(即特征信息80a)对应的第一自相关词、第二自相关特征信息(即特征信息80b)对应的第二自相关词和交互特征信息(即特征信息80c)对应的互相关词中,所筛选出的包含第一领域关键词和第二领域关键词的组合词对应的特征信息。其中可以理解的是,本申请实施例还可以将图7所示的特征信息将除第一组合特征信息之外的特征信息,确定为第二组合特征信息。即本申请实施例可以将第一自相关词、第二自相关词和互相关词中除第一领域关键词和第二领域关键词之外的组合词作为第二分类组合词,以便于可以将第二分类组合词对应的特征信息统称为图7所示的第二组合特征信息。
如图7所示,计算机设备可以通过向量编码的方式进一步获取第一组合特征信息对应的第一特征向量以及第二组合特征信息对应的第二特征向量。如图7所示,第一特征向量中可以包含与领域关键词相关的多个组合词的词向量,第二特征向量中可以包含与领域关键词无关的多个组合词的词向量。可以理解的是,本申请实施例可以在模型训练阶段,调整第二特征向量中的向量值,并可以将调整后的第二特征向量的向量值作为第一固定值,进而可以将第一特征向量的向量值和第一固定值一并作为第二业务场景下的文本匹配模型的第一模型参数。然后,计算机设备可以将第一特征向量和调整后的第二特征向量输入图7所示的第一模型参数对应的平均池化池,以输出平均池化层对应的第一池化向量,进而可以根据第一池化向量、全连接层以及分类层,对训练样本对进行训练,得到第一模型参数对应的训练分类结果。
如图7所示,计算机设备可以在第一模型参数对应的训练分类结果指示第一模型参数不满足收敛条件时,进一步通知图7所示的第二文本匹配模型调整模型参数,比如,可以进一步调整第一特征向量中的向量值,并可以将调整后的第一特征向量的向量值作为第二固定值,进而可以将该第二固定值和前述第一固定值一并作为第二文本匹配模型的第二模型参数。然后,计算机设备可以将调整后的第一特征向量和调整后的第二特征向量输入第二模型参数对应的平均池化池,以输出平均池化层对应的第二池化向量,进一步的,计算机设备可以根据第二池化向量、全连接层以及分类层,对训练样本对进行训练,得到第二模型参数对应的训练分类结果。
同理,若第二模型参数对应的训练分类结果指示不满足收敛条件时,则可以继续通知图7所示的第二文本匹配模型调整模型参数,即可以继续对调整后的第一特征向量中的向量值进行调整,以得到新的第二固定值,如此反复直到计算机设备统计到对第一特征向量的向量值进行调整的次数达到调整阈值时,可以交替通知该第二文本匹配模型继续对图7所示的调整后的第二特征向量的向量值进行调整,以得到新的第一固定值。
其中,可以理解的是,本申请实施例通过对第二文本匹配模型的模型参数进行调整,可以使该第二文本匹配模型学习到这些特征向量中的向量值,进而可以在该第二文本匹配模型的训练分类结果满足上述分类收敛条件时,将训练后的第二文本匹配模型(即上述初始文本匹配模型)确定为目标文本匹配模型,以便于后续在模型预测阶段,可以通过该目标文本匹配模型快速且准确地对获取到的文本对的匹配进行预测。
本申请实施例在获取到初始样本数据时,可以通过关键词数据库中的领域关键词对初始样本数据中的关键词进行识别,进而可以基于识别到的关键词自动筛选与获取与第一关键词具有关联关系的第二关键词对应的候选文本数据,为提高初始文本匹配模型对预测文本对的分类能力,本申请实施例可以基于初始样本数据与候选文本数据之间的关联度,从候选文本数据库中筛选能够对初始样本数据造成强干扰性的候选文本数据,以将筛选出的后续文本数据作为初始样本数据对应的增强文本数据,从而可以在模型训练的过程中,增强初始文本匹配模型对文本对的辨识能力。此外,本申请通过引入具有关键词标识捕捉能力的初始匹配模型,可以有效地获取训练文本对中的带有关键词标识的领域关键词,进而可以提升文本匹配的准确度。
进一步的,请参见图8,是本申请实施例提供的一种文本数据处理方法的流程示意图。其中,该文本数据处理方法可以应用于上述图1所对应实施例中的文本处理***,该文本处理***中的计算机设备可以用于执行该文本数据处理方法,这里的计算机设备可以为上述图1所对应实施例中的业务服务器2000,该文本数据处理方法可以包含下述步骤S201-步骤S215。
步骤S201,获取初始样本数据;
其中,初始样本数据为样本标注区域中的文本数据,样本标注区域为与初始样本数据具有关联关系的文本数据库中的一个区域。
步骤S202,在样本标注区域中将初始样本数据所属的领域确定为第一领域,从文本数据库中获取与第一领域的领域标签相匹配的关联文本;
其中,文本数据库中包含除第一领域之外的第二领域。其中,文本数据库(即上述开放域)中的关联文本具体可以包括:从网络数据库中所获取到的需要分类的文章或者资讯,还可以包含与该计算机设备具有网络连接关系的用户终端所上传的文本数据,比如电子书籍、视频文件描述、音频文件描述等。
步骤S203,基于与文本数据库相关联的关键词筛选条件,在由关联文本的分词所构成的候选词中,筛选并确定与第一领域相匹配的领域关键词,基于与第一领域相匹配的领域关键词构建第一领域对应的第一领域词典;
步骤S204,获取第二领域对应的第二领域词典,基于第一领域词典和第二领域词典,确定与样本标注区域相关联的关键词数据库。
步骤S205,通过关键词数据库中的领域关键词确定初始样本数据中的第一关键词,获取与第一关键词具有关联关系的第二关键词对应的候选文本数据。
步骤S206,确定初始样本数据与候选文本数据之间的关联度,在候选文本数据中筛选关联度满足样本筛选条件的候选文本数据,将筛选出的候选文本数据作为初始样本数据对应的增强文本数据;
步骤S207,根据增强文本数据和初始样本数据,确定与关键词数据库中具有关联关系的训练样本对;
其中,训练样本对中的每个样本数据均携带关键词数据库中的领域关键词对应的关键词标识;此时,本申请实施例中的训练样本对可以包含第一样本数据和第二样本数据;第一样本数据中包含携带关键词标识的初始样本数据;第二样本数据中包含携带关键词标识的增强文本数据;
步骤S208,利用初始文本匹配模型将第一样本数据中的关键词标识对应的领域关键词作为第一领域关键词、将第二样本数据中的关键词标识对应的领域关键词作为第二领域关键词。
步骤S209,获取第一样本数据中的第一分词的第一分词特征信息,以及第二样本数据中的第二分词的第二分词特征信息;
步骤S210,基于第一分词特征信息、第二分词特征信息、第一领域关键词、第二领域关键词以及初始文本匹配模型,对训练样本对进行训练,得到训练分类结果;
应当理解,本申请实施例中的初始文本匹配模型可以包含多个业务场景下的文本匹配模型。比如,本申请实施例可以将线上大规模数据(一般十万以上)高运行速度(延迟1ms以内)的场景称之为第一业务场景,并可以将该第一业务场景下的文本匹配模型统称为第一文本匹配模型,例如,该第一文本匹配模型可以为上述具有关键词标识捕获能力的bert模型。计算机设备对该第一文本匹配模型进行训练的具体过程,可以参见上述图6所对应实施例中对第一文本匹配模型描述,这里将不再继续进行赘述。
又比如,本申请实施例可以将线上小规模数据(一般十万以下)中等运行速度(延迟1ms~10ms)的场景称之为第二业务场景,并可以将该第二业务场景下的文本匹配模型统称为第二匹配模型,例如,该第二匹配模型可以为上述具有关键词标识捕获能力的fast-pair模型。同理,计算机设备对该第二文本匹配模型进行训练的具体过程,可以参见上述图7所对应实施例中对第一文本匹配模型描述,这里将不再继续进行赘述。
由此可见,本申请实施例可以基于业务场景的不同,智能地选取相应的文本匹配模型进行模型训练,进而可以在不同业务场景下,通过训练后的文本匹配模型提升文本匹配的准确度。
步骤S211,在检测到训练分类结果满足分类收敛条件时,将训练后的初始文本匹配模型确定为目标文本匹配模型。
步骤S212,获取目标用户通过第二业务场景对应的目标应用所录入的第三样本数据;
步骤S213,从目标应用对应的文本库中筛选与第三样本数据具有相同领域标签的第四样本数据,将第三样本数据和第四样本数据作为预测样本对;
其中,第四样本数据为关键词数据库对应的文本数据库中的文本数据;
步骤S214,将预测样本对输入目标文本匹配模型,预测得到预测样本对中的第三样本数据与第四样本数据的匹配度;
步骤S215,基于匹配度将第四样本数据对应的答案文本返回给目标用户对应的用户终端。
为便于理解,进一步的,请参见图9,是本申请实施例提供的一种通过目标文本匹配模型预测匹配度的场景示意图。为便于理解,本申请实施例以上述业务场景为搜索业务为例,如图9所示的用户终端可以为上述图1所对应实施例中的用户终端3000a,该用户终端中可以运行上述目标应用,这里的目标应用可以为用于进行文本搜索的搜索引擎(例如,QQ浏览器)。如图8所示,目标用户可以在该运行有目标应用的用户终端中录入图9所示的第三样本数据,该第三样本数据可以为问题文本,例如“新手如何参加王者荣耀的段位排位赛”。如图8所示,当目标应用运行在该用户终端时,可以与图8所示的业务服务器(该业务服务器可以为上述计算机设备)之间存在数据交互关系。此时,该业务服务器可以在接收到用户终端发送的第三文本信息时,进一步从该搜索引擎对应文本数据库(例如,问题数据库)中筛选与第三样本数据具有相同领域标签(例如,游戏标签)的第四样本数据。可以理解的是,筛选出的第四样本数据的数量可以为一个或者多个,这里将不对其进行限定。如图9所示,该业务服务器可以将第三样本数据和第四样本数据一并作为预测样本对,输入至图9所示的目标文本匹配模型,以输出第三样本数据与每个第四样本数据之间的匹配度。
进一步的,如图9所示,业务服务器(即计算机设备)可以从目标文本匹配模型输出的匹配度中获取具有最大值的匹配度,进而可以从图9所示的答案数据库中获取具有最高匹配度的第四样本数据对应的答案文本。可以理解的是,在上述开放域中,一个问题文本可以有多个答案文本,所以,如图9所示,业务服务器可以向用户终端返回多个答案文本。多个答案文本具体可以为图9所示的答案文本90a、答案文本90b、答案文本90c。如图9所示,用户终端在获取到这些答案文本时,可以将其按照点击率的大小依次显示在图9所示的文本显示界面。其中,可以理解的是,本申请实施例可以将上述问题数据库和答案数据库统称为上述文本数据库。比如,答案文本90a的点击率可以为9.0、答案文本90b的点击率可以为8.9、答案文本90a的点击率可以为8.8。
以此类推,本申请实施例中的目标文本匹配模型还可以应用于其他业务场景(例如,问答场景)下的相应产品,比如,可以应用在车载语音***、智能音箱、智能客服、儿童陪伴机器人、智能问答软件等产品中。应当理解,本申请在通过融入了领域关键词的目标文本匹配模型进行问题答复时,可以准确捕获参与预测的预测样本(即上述第三样本数据和第四样本数据)中的领域关键词,进而可以重点学习这些携带领域关键词的特征信息,以找到与第三样本数据具有最高匹配度的第四样本数据,从而可以得到具有较高准确性的答案文本。
本申请实施例在获取到初始样本数据时,可以通过关键词数据库中的领域关键词对初始样本数据中的关键词进行识别,进而可以基于识别到的关键词自动筛选与获取与第一关键词具有关联关系的第二关键词对应的候选文本数据,为提高初始文本匹配模型对预测文本对的分类能力,本申请实施例可以基于初始样本数据与候选文本数据之间的关联度,从候选文本数据库中筛选能够对初始样本数据造成强干扰性的候选文本数据,以将筛选出的后续文本数据作为初始样本数据对应的增强文本数据,从而可以在模型训练的过程中,增强初始文本匹配模型对文本对的辨识能力。此外,本申请通过引入具有关键词标识捕捉能力的初始匹配模型,可以有效地获取训练文本对中的带有关键词标识的领域关键词,进而可以提升文本匹配的准确度。
进一步地,请参见图10,是本申请实施例提供的一种文本数据处理装置的结构示意图。文本数据处理装置1可以应用于上述文本处理***中的计算机设备,这里的计算机设备可以为上述用户终端,也可以为上述服务终端。其中,该文本数据处理装置1可以包括:关键词识别模块10,关联度确定模块20,训练对确定模块30和目标模型确定模块40,可选的,该文本数据处理装置1还可以包含关联文本获取模块50,领域词典构建模块60,关键词库确定模块70,文本录入模块80,文本筛选模块90,匹配度预测模块100,匹配文本返回模块110;
关键词识别模块10,用于获取初始样本数据,通过关键词数据库中的领域关键词确定初始样本数据中的第一关键词,获取与第一关键词具有关联关系的第二关键词对应的候选文本数据;
其中,关键词识别模块10包括:关键词识别单元101,关键词标识单元102,目标文本获取单元103和候选文本确定单元104;
关键词识别单元101,用于从样本标注区域中获取初始样本数据,从关键词数据库中获取第一领域词典,基于第一领域词典对初始样本数据中的领域关键词进行识别;
关键词标识单元102,用于将在初始样本数据中所识别到的领域关键词作为第一关键词;
目标文本获取单元103,用于从关键词数据库所包含的关联文本中获取包含第一关键词的目标关联文本,将目标关联文本中的领域关键词作为第二关键词;
候选文本确定单元104,用于将包含第二关键词的目标关联文本作为与第一关键词具有关联关系的第二关键词对应的候选文本数据。
其中,关键词识别单元101,关键词标识单元102,目标文本获取单元103和候选文本确定单元104的具体实现方式可以参见上述图3所对应实施例中对步骤S101的描述,这里将不再继续进行赘述。
关联度确定模块20,用于确定初始样本数据与候选文本数据之间的关联度,在候选文本数据中筛选关联度满足样本筛选条件的候选文本数据,将筛选出的候选文本数据作为初始样本数据对应的增强文本数据;
其中,关联度确定模块20包括:关联度确定单元201,关联度排序单元202,待处理文本筛选单元203和增强文本确定单元204;
关联度确定单元201,用于根据初始样本数据中的第一关键词与候选文本数据中的第二关键词之间的覆盖比率,确定初始样本数据与候选文本数据之间的关联度;
关联度排序单元202,用于在候选文本数据中对关联度进行排序,得到候选文本数据对应的待处理文本数据;
待处理文本筛选单元203,用于从排序后的待处理文本数据中筛选关联度大于第一关联阈值且小于第二关联阈值的待处理文本数据;
增强文本确定单元204,用于将筛选出的待处理文本数据作为初始样本数据对应的增强文本数据;第一关联阈值小于第二关联阈值,且第一关联阈值与第二关键阈值均为样本筛选条件中的阈值。
其中,关联度确定单元201,关联度排序单元202,待处理文本筛选单元203和增强文本确定单元204的具体实现方式可以参见上述图3所对应实施例中对增强文本数据的描述,这里将不再继续进行赘述。
训练对确定模块30,用于根据增强文本数据和初始样本数据,确定与关键词数据库中具有关联关系的训练样本对;训练样本对中的每个样本数据均携带关键词数据库中的领域关键词对应的关键词标识;
目标模型确定模块40,用于基于训练样本对训练用于捕获关键词标识的初始文本匹配模型,将训练后的初始文本匹配模型确定为目标文本匹配模型;目标文本匹配模型后续用于对获取到的预测样本对的匹配度进行预测。
其中,训练样本对包含第一样本数据和第二样本数据;第一样本数据中包含携带关键词标识的初始样本数据;第二样本数据中包含携带关键词标识的增强文本数据;第一样本数据中包含携带关键词标识的初始样本数据;第二样本数据中包含携带关键词标识的增强文本数据;
目标模型确定模块40包括:领域词识别单元401,分词特征提取单元402,模型训练单元403和目标模型确定单元404;
领域词识别单元401,用于利用初始文本匹配模型将第一样本数据中的关键词标识对应的领域关键词作为第一领域关键词、将第二样本数据中的关键词标识对应的领域关键词作为第二领域关键词;
分词特征提取单元402,用于获取第一样本数据中的第一分词的第一分词特征信息,以及第二样本数据中的第二分词的第二分词特征信息;
模型训练单元403,用于基于第一分词特征信息、第二分词特征信息、第一领域关键词、第二领域关键词以及初始文本匹配模型,对训练样本对进行训练,得到训练分类结果;
其中,初始文本匹配模型包含第一业务场景下的文本匹配模型;第一业务场景下的文本匹配模型包含关键词注意力层、融合层以及分类层;
模型训练单元403包括:第一注意力输出子单元4031,第二注意力输出子单元4032,语义特征融合子单元4033,融合向量输出子单元4034;可选的,模型训练单元403还可以包括:第一特征获取子单元4035,第二特征获取子单元4036,交互特征获取子单元4037,池化向量输出子单元4038,第一相关词确定子单元4039,第二相关词确定子单元4040,互相关词确定子单元4041,第一特征标识子单元4042,第二特征标识子单元4043;
第一注意力输出子单元4031,用于将第一分词的第一分词特征信息和第二领域关键词的第二分词特征信息输入关键词注意力层,输出关键词注意力层对应的第一注意力特征信息;第一注意力特征信息用于表征第二领域关键词与第一分词之间的相关性;
第二注意力输出子单元4032,用于将第二分词的第二分词特征信息和第一领域关键词的第一分词特征信息输入关键词注意力层,输出关键词注意力层对应的第二注意力特征信息;第二注意力特征信息用于表征第一领域关键词与第二分词的相关性;
语义特征融合子单元4033,用于获取第一样本数据的第一语义特征信息以及第二样本数据的第二语义特征信息,将第一语义特征信息和第二语义特征信息进行语义融合,得到融合语义特征信息;
融合向量输出子单元4034,用于将第一注意力特征信息、第二注意力特征信息、融合特征信息输入融合层,输出训练样本对对应的融合特征向量,通过分类层输出训练样本对的训练分类结果。
可选的,第一特征获取子单元4035,用于基于第一分词特征信息在第一样本数据中,确定M个第一子分词的第一子位置信息和第一领域关键词的第二子位置信息,根据M个第一子位置信息和第二子位置信息,获取第一样本数据中的M个第一子分词和第一领域关键词所构成的第一自相关词的第一自相关特征信息;
第二特征获取子单元4036,用于基于第二分词特征信息在第二样本数据中,确定N个第二子分词的第三子位置信息和第二领域关键词的第四子位置信息,根据N个第三子位置信息和第四子位置信息,在第二样本数据中获取N个第二子分词和第二领域关键词所构成的第二自相关词的第二自相关特征信息;
交互特征获取子单元4037,用于获取第一样本数据与第二样本数据之间的互相关词对应的交互特征信息;
池化向量输出子单元4038,用于将第一自相关特征信息、第二自相关特征信息、交互特征信息作为平均池化层的输入特征,输出平均池化层对应的池化向量,根据池化向量、全连接层以及分类层,对训练样本对进行训练,得到训练分类结果。
其中,池化向量输出子单元4038包括:第一组合词筛选子单元40381,第二组合词确定单元40382,特征向量获取子单元40383,第一调整训练单元40384,第二调整训练单元40385;
第一组合词筛选子单元40381,用于从第一自相关特征信息对应的第一自相关词、第二自相关特征信息对应的第二自相关词和交互特征信息对应的互相关词中筛选包含第一领域关键词和第二领域关键词的组合词,将筛选出的组合词作为第一分类组合词,获取第一分类组合词对应的第一组合特征信息;
第二组合词确定单元40382,用于将第一自相关词、第二自相关词和互相关词中除第一领域关键词和第二领域关键词之外的组合词作为第二分类组合词,获取第二分类组合词对应的第二组合特征信息;
特征向量获取子单元40383,用于获取第一组合特征信息对应的第一特征向量以及第二组合特征信息对应的第二特征向量;
第一调整训练单元40384,用于调整第二特征向量中的向量值,将第一特征向量的向量值和调整后的第二特征向量的向量值作为第二业务场景下的文本匹配模型的第一模型参数,将第一特征向量和调整后的第二特征向量输入第一模型参数对应的平均池化池,输出平均池化层对应的第一池化向量,根据第一池化向量、全连接层以及分类层,对训练样本对进行训练,得到第一模型参数对应的训练分类结果;
第二调整训练单元40385,用于若第一模型参数对应的训练分类结果指示第一模型参数不满足收敛条件,则调整第一特征向量中的向量值,将调整后的第一特征向量的向量值和调整后的第二特征向量的向量值作为第二业务场景下的文本匹配模型的第二模型参数,将调整后的第一特征向量和调整后的第二特征向量输入第二模型参数对应的平均池化池,输出平均池化层对应的第二池化向量,根据第二池化向量、全连接层以及分类层,对训练样本对进行训练,得到第二模型参数对应的训练分类结果。
其中,第一组合词筛选子单元40381,第二组合词确定单元40382,特征向量获取子单元40383,第一调整训练单元40384,第二调整训练单元40385的具体实现方式可以参见上述图3所对应实施例中对模型进行交替训练的具体过程的描述,这里将不再继续进行赘述。
可选的,第一相关词确定子单元4039,用于根据M个第一子位置信息和第二子位置信息,在第一样本数据中将M个第一子分词和第一领域关键词进行分词组合,将分词组合后所得到的组合词作为第一样本数据的第一自相关词;
第二相关词确定子单元4040,用于根据N个第三子位置信息和第四子位置信息,在第二样本数据中将N个第二子分词和第二领域关键词进行分词组合,将分词组合后所得到的组合词作为第一样本数据的第二自相关词;
互相关词确定子单元4041,用于将M个第一子分词、第一领域关键词、N个第二子分词、第二领域关键词进行分词组合,将分词组合后所得到的组合词作为第一样本数据与第二样本数据之间的互相关词。
可选的,第一特征标识子单元4042,用于若第二业务场景下的文本匹配模型识别到在互相关词中存在与第一自相关词具有相同内容的互相关词,则在互相关词中对识别到的与第一自相关词相同的互相关词进行特征标识,得到第一标识分词;第一标识分词对应的交互特征信息不同于第一标识分词对应的第一自相关词的第一自相关特征信息;
第二特征标识子单元4043,用于若第二业务场景下的文本匹配模型识别到在互相关词中存在与第二自相关词具有相同内容的互相关词,则在互相关词中对识别到的与第二自相关词相同的互相关词进行特征标识,得到第二标识分词;第二标识分词对应的交互特征信息不同于第二标识分词对应的第二自相关词的第二自相关特征信息。
其中,第一注意力输出子单元4031,第二注意力输出子单元4032,语义特征融合子单元4033,融合向量输出子单元4034的具体实现方式可以参见上述图3所对应实施例中对第一匹配模型的描述,这里将不再继续进行赘述。可选的,第一特征获取子单元4035,第二特征获取子单元4036,交互特征获取子单元4037和池化向量输出子单元4038的具体实现方式可以参见上述图3所对应实施例中对第二匹配模型的描述,这里将不再继续进行赘述。可选的,第一相关词确定子单元4039,第二相关词确定子单元4040,互相关词确定子单元4041,第一特征标识子单元4042,第二特征标识子单元4043的具体实现方式可以参见上述图3所对应实施例中对设置特征标识的描述,这里将不再继续进行赘述。
目标模型确定单元404,用于在检测到训练分类结果满足分类收敛条件时,将训练后的初始文本匹配模型确定为目标文本匹配模型。
其中,领域词识别单元401,分词特征提取单元402,模型训练单元403和目标模型确定单元404的具体实现方式可以参见上述图3所对应实施例中对目标文本匹配模型的描述,这里将不再继续进行赘述。
可选的,其中,初始样本数据为样本标注区域中的文本数据,样本标注区域为与初始样本数据具有关联关系的文本数据库中的区域;
关联文本获取模块50,用于在样本标注区域中将初始样本数据所属的领域确定为第一领域,从文本数据库中获取与第一领域的领域标签相匹配的关联文本;文本数据库中包含除第一领域之外的第二领域;
领域词典构建模块60,用于基于与文本数据库相关联的关键词筛选条件,在由关联文本的分词所构成的候选词中,筛选并确定与第一领域相匹配的领域关键词,基于与第一领域相匹配的领域关键词构建第一领域对应的第一领域词典;
其中,领域词典构建模块60包括:分词处理单元601,候选词筛选单元602,影响度确定单元603和领域词典构建单元604;
分词处理单元601,用于对关联文本进行分词处理,得到与关联文本的分词相关联的分词集合,将分词集合中的每个分词进行组合,得到与关联文本相关联的候选词,确定候选词中的每个分词之间的互相关度;
候选词筛选单元602,用于获取与文本数据库相关联的关键词筛选条件中的互相关阈值,从候选词中筛选互相关度大于互相关阈值的候选词,将筛选出的候选词作为待处理字符串;
影响度确定单元603,用于确定待处理字符串在第一领域中的影响度,从待处理字符串中筛选影响度达到关键词筛选条件的待处理字符串,将筛选出的待处理字符串作为与第一领域相匹配的领域关键词;影响度是由待处理字符串出现在第一领域的频次和待处理字符串出现在第二领域的频次所共同确定的;
领域词典构建单元604,用于基于与第一领域相匹配的领域关键词构建第一领域对应的第一领域词典。
其中,分词处理单元601,候选词筛选单元602,影响度确定单元603和领域词典构建单元604的具体实现方式可以参见上述图3所对应实施例中对构建第一领域词典的描述,这里将不再继续进行赘述。
关键词库确定模块70,用于获取第二领域对应的第二领域词典,基于第一领域词典和第二领域词典,确定与样本标注区域相关联的关键词数据库。
可选的,文本录入模块80,用于获取目标用户通过第二业务场景对应的目标应用所录入的第三样本数据;
文本筛选模块90,用于从目标应用对应的文本库中筛选与第三样本数据具有相同领域标签的第四样本数据,将第三样本数据和第四样本数据作为预测样本对;第四样本数据为关键词数据库对应的文本数据库中的文本数据;
匹配度预测模块100,用于将预测样本对输入目标文本匹配模型,预测得到预测样本对中的第三样本数据与第四样本数据的匹配度;
匹配文本返回模块110,用于基于匹配度将第四样本数据对应的匹配文本返回给目标用户对应的用户终端。
其中,关键词识别模块10,关联度确定模块20,训练对确定模块30和目标模型确定模块40的具体实现方式可以参见上述图3所对应实施例中对步骤S101-步骤S104的描述,这里将不再继续进行赘述。此外,关联文本获取模块50,领域词典构建模块60,关键词库确定模块70的具体实现方式可以参见上述图3所对应实施例中对构建关键词数据库的具体过程的描述,这里将不再进行赘述。其中,文本录入模块80,文本筛选模块90,匹配度预测模块100,匹配文本返回模块110的具体实现方式可以参见上述图9所对应实施例中对目标文本匹配模型的描述,这里将不再继续进行赘述。
进一步地,请参见图11,是本申请实施例提供的一种计算机设备的结构示意图。如图11所示,该计算机设备1000可以应用于上述文本处理***中的计算机设备。该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。
其中,计算机设备1000中的网络接口1004实现网络通讯功能,且可选用户接口1003还可以包括显示屏(Display)、键盘(Keyboard)。在图11所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取初始样本数据,通过关键词数据库中的领域关键词确定初始样本数据中的第一关键词,获取与第一关键词具有关联关系的第二关键词对应的候选文本数据;
确定初始样本数据与候选文本数据之间的关联度,在候选文本数据中筛选关联度满足样本筛选条件的候选文本数据,将筛选出的候选文本数据作为初始样本数据对应的增强文本数据;
根据增强文本数据和初始样本数据,确定与关键词数据库中具有关联关系的训练样本对;训练样本对中的每个样本数据均携带关键词数据库中的领域关键词对应的关键词标识;
基于训练样本对训练用于捕获关键词标识的初始文本匹配模型,将训练后的初始文本匹配模型确定为目标文本匹配模型;目标文本匹配模型后续用于对获取到的预测样本对的匹配度进行预测。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3或者图8所对应实施例中对计算机设备的描述,也可执行前文图10所对应实施例中对文本数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机存储介质,且计算机存储介质中存储有前文提及的文本数据处理装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3或者图8所对应实施例中对文本数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (14)

1.一种文本数据处理方法,其特征在于,包括:
获取初始样本数据,通过关键词数据库中的领域关键词确定所述初始样本数据中的第一关键词,获取与所述第一关键词具有关联关系的第二关键词对应的候选文本数据;
确定所述初始样本数据与所述候选文本数据之间的关联度,在所述候选文本数据中筛选关联度满足样本筛选条件的候选文本数据,将筛选出的候选文本数据作为所述初始样本数据对应的增强文本数据;
根据所述增强文本数据和所述初始样本数据,确定与所述关键词数据库中具有关联关系的训练样本对;所述训练样本对中的每个样本数据均携带所述关键词数据库中的领域关键词对应的关键词标识;所述训练样本对包含第一样本数据和第二样本数据;所述第一样本数据中包含携带关键词标识的初始样本数据;所述第二样本数据中包含携带关键词标识的增强文本数据;
利用初始文本匹配模型将所述第一样本数据中的关键词标识对应的领域关键词作为第一领域关键词、将所述第二样本数据中的关键词标识对应的领域关键词作为第二领域关键词;
获取所述第一样本数据中的第一分词的第一分词特征信息,以及所述第二样本数据中的第二分词的第二分词特征信息;
基于所述第一分词特征信息、所述第二分词特征信息、第一领域关键词、第二领域关键词以及所述初始文本匹配模型,对所述训练样本对进行训练,得到训练分类结果;
在检测到所述训练分类结果满足分类收敛条件时,将训练后的初始文本匹配模型确定为目标文本匹配模型;所述目标文本匹配模型后续用于对获取到的预测样本对的匹配度进行预测。
2.根据权利要求1所述的方法,其特征在于,所述初始样本数据为样本标注区域中的文本数据,所述样本标注区域为与所述初始样本数据具有关联关系的文本数据库中的区域;
所述方法还包括:
在所述样本标注区域中将所述初始样本数据所属的领域确定为第一领域,从所述文本数据库中获取与所述第一领域的领域标签相匹配的关联文本;所述文本数据库中包含除所述第一领域之外的第二领域;
基于与所述文本数据库相关联的关键词筛选条件,在由所述关联文本的分词所构成的候选词中,筛选并确定与所述第一领域相匹配的领域关键词,基于与所述第一领域相匹配的领域关键词构建所述第一领域对应的第一领域词典;
获取所述第二领域对应的第二领域词典,基于所述第一领域词典和所述第二领域词典,确定与所述样本标注区域相关联的关键词数据库。
3.基于权利要求2所述的方法,其特征在于,所述基于与所述文本数据库相关联的关键词筛选条件,在由所述关联文本的分词所构成的候选词中,筛选并确定与所述第一领域相匹配的领域关键词,基于与所述第一领域相匹配的领域关键词构建所述第一领域对应的第一领域词典,包括:
对所述关联文本进行分词处理,得到与所述关联文本的分词相关联的分词集合,将所述分词集合中的每个分词进行组合,得到与所述关联文本相关联的候选词,确定所述候选词中的每个分词之间的互相关度;
获取与所述文本数据库相关联的关键词筛选条件中的互相关阈值,从所述候选词中筛选互相关度大于所述互相关阈值的候选词,将筛选出的候选词作为待处理字符串;
确定所述待处理字符串在所述第一领域中的影响度,从所述待处理字符串中筛选影响度达到所述关键词筛选条件的待处理字符串,将筛选出的待处理字符串作为与所述第一领域相匹配的领域关键词;所述影响度是由所述待处理字符串出现在所述第一领域的频次和所述待处理字符串出现在所述第二领域的频次所共同确定的;
基于与所述第一领域相匹配的领域关键词构建所述第一领域对应的第一领域词典。
4.根据权利要求2所述的方法,其特征在于,所述获取初始样本数据,通过关键词数据库中的领域关键词确定所述初始样本数据中的第一关键词,获取与所述第一关键词具有关联关系的第二关键词对应的候选文本数据,包括:
从所述样本标注区域中获取初始样本数据,从关键词数据库中获取所述第一领域词典,基于所述第一领域词典对所述初始样本数据中的领域关键词进行识别;
将在所述初始样本数据中所识别到的领域关键词作为第一关键词;
从所述关键词数据库所包含的关联文本中获取包含所述第一关键词的目标关联文本,将所述目标关联文本中的领域关键词作为第二关键词;
将包含所述第二关键词的目标关联文本作为与所述第一关键词具有关联关系的第二关键词对应的候选文本数据。
5.根据权利要求4所述的方法,其特征在于,所述确定所述初始样本数据与所述候选文本数据之间的关联度,在所述候选文本数据中筛选关联度满足样本筛选条件的候选文本数据,将筛选出的候选文本数据作为所述初始样本数据对应的增强文本数据,包括:
根据所述初始样本数据中的所述第一关键词与所述候选文本数据中的第二关键词之间的覆盖比率,确定所述初始样本数据与所述候选文本数据之间的关联度;
在所述候选文本数据中对所述关联度进行排序,得到所述候选文本数据对应的待处理文本数据;
从排序后的待处理文本数据中筛选关联度大于第一关联阈值且小于第二关联阈值的待处理文本数据;
将筛选出的待处理文本数据作为所述初始样本数据对应的增强文本数据;所述第一关联阈值小于所述第二关联阈值,且所述第一关联阈值与所述第二关联阈值均为样本筛选条件中的阈值。
6.根据权利要求1所述的方法,其特征在于,所述初始文本匹配模型包含第一业务场景下的文本匹配模型;所述第一业务场景下的文本匹配模型包含关键词注意力层、融合层以及分类层;
所述基于所述第一分词特征信息、所述第二分词特征信息、第一领域关键词、第二领域关键词以及所述初始文本匹配模型,对所述训练样本对进行训练,得到训练分类结果,包括:
将所述第一分词的第一分词特征信息和所述第二领域关键词的第二分词特征信息输入所述关键词注意力层,输出所述关键词注意力层对应的第一注意力特征信息;所述第一注意力特征信息用于表征所述第二领域关键词与所述第一分词之间的相关性;
将所述第二分词的第二分词特征信息和所述第一领域关键词的第一分词特征信息输入所述关键词注意力层,输出所述关键词注意力层对应的第二注意力特征信息;所述第二注意力特征信息用于表征所述第一领域关键词与所述第二分词的相关性;
获取所述第一样本数据的第一语义特征信息以及所述第二样本数据的第二语义特征信息,将所述第一语义特征信息和所述第二语义特征信息进行语义融合,得到融合语义特征信息;
将所述第一注意力特征信息、所述第二注意力特征信息、所述融合语义特征信息输入所述融合层,输出所述训练样本对对应的融合特征向量,通过所述分类层输出所述训练样本对的训练分类结果。
7.根据权利要求1所述的方法,其特征在于,所述初始文本匹配模型包含第二业务场景下的文本匹配模型;所述第二业务场景下的文本匹配模型包含特征组合层、平均池化层、全连接层以及分类层;所述第一分词中包含除所述第一领域关键词之外的M个第一子分词;所述第二分词中包含除所述第二领域关键词之外的N个第二子分词;M和N均为正整数;
所述基于所述第一分词特征信息、所述第二分词特征信息、第一领域关键词、第二领域关键词以及所述初始文本匹配模型,对所述训练样本对进行训练,得到训练分类结果,包括:
基于所述第一分词特征信息在所述第一样本数据中,确定所述M个第一子分词的第一子位置信息和所述第一领域关键词的第二子位置信息,根据M个第一子位置信息和所述第二子位置信息,获取所述第一样本数据中的所述M个第一子分词和第一领域关键词所构成的第一自相关词的第一自相关特征信息;
基于所述第二分词特征信息在所述第二样本数据中,确定所述N个第二子分词的第三子位置信息和所述第二领域关键词的第四子位置信息,根据N个第三子位置信息和所述第四子位置信息,在所述第二样本数据中获取所述N个第二子分词和所述第二领域关键词所构成的第二自相关词的第二自相关特征信息;
获取所述第一样本数据与第二样本数据之间的互相关词对应的交互特征信息;
将所述第一自相关特征信息、所述第二自相关特征信息、所述交互特征信息作为所述平均池化层的输入特征,输出所述平均池化层对应的池化向量,根据所述池化向量、所述全连接层以及分类层,对所述训练样本对进行训练,得到训练分类结果。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
根据M个第一子位置信息和所述第二子位置信息,在所述第一样本数据中将所述M个第一子分词和所述第一领域关键词进行分词组合,将分词组合后所得到的组合词作为所述第一样本数据的第一自相关词;
根据N个第三子位置信息和所述第四子位置信息,在所述第二样本数据中将所述N个第二子分词和所述第二领域关键词进行分词组合,将分词组合后所得到的组合词作为所述第一样本数据的第二自相关词;
将所述M个第一子分词、第一领域关键词、所述N个第二子分词、第二领域关键词进行分词组合,将分词组合后所得到的组合词作为所述第一样本数据与所述第二样本数据之间的互相关词。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
若所述第二业务场景下的文本匹配模型识别到在所述互相关词中存在与所述第一自相关词具有相同内容的互相关词,则在所述互相关词中对识别到的与所述第一自相关词相同的互相关词进行特征标识,得到第一标识分词;所述第一标识分词对应的交互特征信息不同于所述第一标识分词对应的第一自相关词的第一自相关特征信息;
若所述第二业务场景下的文本匹配模型识别到在所述互相关词中存在与所述第二自相关词具有相同内容的互相关词,则在所述互相关词中对识别到的与所述第二自相关词相同的互相关词进行特征标识,得到第二标识分词;所述第二标识分词对应的交互特征信息不同于所述第二标识分词对应的第二自相关词的第二自相关特征信息。
10.根据权利要求8所述的方法,其特征在于,所述将所述第一自相关特征信息、所述第二自相关特征信息、所述交互特征信息作为所述平均池化层的输入特征,输出所述平均池化层对应的池化向量,根据所述池化向量、所述全连接层以及分类层,对所述训练样本对进行训练,得到训练分类结果,包括:
从所述第一自相关特征信息对应的第一自相关词、所述第二自相关特征信息对应的第二自相关词和所述交互特征信息对应的互相关词中筛选包含所述第一领域关键词和所述第二领域关键词的组合词,将筛选出的组合词作为第一分类组合词,获取所述第一分类组合词对应的第一组合特征信息;
将所述第一自相关词、所述第二自相关词和所述互相关词中除所述第一领域关键词和所述第二领域关键词之外的组合词作为第二分类组合词,获取所述第二分类组合词对应的第二组合特征信息;
获取所述第一组合特征信息对应的第一特征向量以及所述第二组合特征信息对应的第二特征向量;
调整所述第二特征向量中的向量值,将所述第一特征向量的向量值和调整后的第二特征向量的向量值作为所述第二业务场景下的文本匹配模型的第一模型参数,将所述第一特征向量和调整后的第二特征向量输入所述第一模型参数对应的平均池化池,输出所述平均池化层对应的第一池化向量,根据所述第一池化向量、所述全连接层以及分类层,对所述训练样本对进行训练,得到第一模型参数对应的训练分类结果;
若所述第一模型参数对应的训练分类结果指示所述第一模型参数不满足收敛条件,则调整所述第一特征向量中的向量值,将调整后的第一特征向量的向量值和所述调整后的第二特征向量的向量值作为所述第二业务场景下的文本匹配模型的第二模型参数,将所述调整后的第一特征向量和所述调整后的第二特征向量输入所述第二模型参数对应的平均池化池,输出所述平均池化层对应的第二池化向量,根据所述第二池化向量、所述全连接层以及分类层,对所述训练样本对进行训练,得到所述第二模型参数对应的训练分类结果。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
获取目标用户通过所述第二业务场景对应的目标应用所录入的第三样本数据;
从所述目标应用对应的文本库中筛选与第三样本数据具有相同领域标签的第四样本数据,将所述第三样本数据和所述第四样本数据作为所述预测样本对;所述第四样本数据为所述关键词数据库对应的文本数据库中的文本数据;
将所述预测样本对输入所述目标文本匹配模型,预测得到所述预测样本对中的所述第三样本数据与所述第四样本数据的匹配度;
基于所述匹配度将所述第四样本数据对应的答案文本返回给所述目标用户对应的用户终端。
12.一种文本数据处理装置,其特征在于,所述装置应用于文本处理***,包括:
关键词识别模块,用于获取初始样本数据,通过关键词数据库中的领域关键词确定所述初始样本数据中的第一关键词,获取与所述第一关键词具有关联关系的第二关键词对应的候选文本数据;
关联度确定模块,用于确定所述初始样本数据与所述候选文本数据之间的关联度,在所述候选文本数据中筛选关联度满足样本筛选条件的候选文本数据,将筛选出的候选文本数据作为所述初始样本数据对应的增强文本数据;
训练对确定模块,用于根据所述增强文本数据和所述初始样本数据,确定与所述关键词数据库中具有关联关系的训练样本对;所述训练样本对中的每个样本数据均携带所述关键词数据库中的领域关键词对应的关键词标识;所述训练样本对包含第一样本数据和第二样本数据;所述第一样本数据中包含携带关键词标识的初始样本数据;所述第二样本数据中包含携带关键词标识的增强文本数据;
目标模型确定模块,用于利用初始文本匹配模型将所述第一样本数据中的关键词标识对应的领域关键词作为第一领域关键词、将所述第二样本数据中的关键词标识对应的领域关键词作为第二领域关键词;
所述目标模型确定模块,还用于获取所述第一样本数据中的第一分词的第一分词特征信息,以及所述第二样本数据中的第二分词的第二分词特征信息;
所述目标模型确定模块,还用于基于所述第一分词特征信息、所述第二分词特征信息、第一领域关键词、第二领域关键词以及所述初始文本匹配模型,对所述训练样本对进行训练,得到训练分类结果;
所述目标模型确定模块,还用于在检测到所述训练分类结果满足分类收敛条件时,将训练后的初始文本匹配模型确定为目标文本匹配模型;所述目标文本匹配模型后续用于对获取到的预测样本对的匹配度进行预测。
13.一种计算机设备,其特征在于,包括:处理器、存储器、网络接口;
所述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如权利要求1-11任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-11任一项所述的方法。
CN202010239303.4A 2020-03-30 2020-03-30 一种文本数据处理方法、装置、设备以及存储介质 Active CN111444326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010239303.4A CN111444326B (zh) 2020-03-30 2020-03-30 一种文本数据处理方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010239303.4A CN111444326B (zh) 2020-03-30 2020-03-30 一种文本数据处理方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111444326A CN111444326A (zh) 2020-07-24
CN111444326B true CN111444326B (zh) 2023-10-20

Family

ID=71649232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010239303.4A Active CN111444326B (zh) 2020-03-30 2020-03-30 一种文本数据处理方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111444326B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149400B (zh) * 2020-09-23 2021-07-27 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质
CN112115267B (zh) * 2020-09-28 2023-07-07 平安科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质
CN112347231A (zh) * 2020-11-17 2021-02-09 广联达科技股份有限公司 建筑清单匹配模型的构建方法、匹配方法及装置
CN112784911B (zh) * 2021-01-29 2024-01-19 北京百度网讯科技有限公司 训练样本的生成方法、装置、电子设备和存储介质
WO2022165634A1 (en) * 2021-02-02 2022-08-11 Huawei Technologies Co., Ltd. Apparatus and method for type matching of a text sample
CN113011126B (zh) * 2021-03-11 2023-06-30 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质
CN113111966B (zh) * 2021-04-29 2022-04-26 北京九章云极科技有限公司 一种图像处理方法和图像处理***
CN113553431B (zh) * 2021-07-27 2024-05-10 深圳平安综合金融服务有限公司 用户标签提取方法、装置、设备及介质
CN113536788B (zh) * 2021-07-28 2023-12-05 平安科技(上海)有限公司 信息处理方法、装置、存储介质及设备
CN113610503B (zh) * 2021-08-11 2024-06-21 中国平安人寿保险股份有限公司 简历信息处理方法、装置、设备及介质
CN114580398A (zh) * 2022-03-15 2022-06-03 中国工商银行股份有限公司 文本信息提取模型生成方法、文本信息提取方法和装置
CN115859975B (zh) * 2023-02-07 2023-05-09 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备
CN117235237B (zh) * 2023-11-10 2024-03-12 腾讯科技(深圳)有限公司 一种文本生成方法及相关装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建***
CN108536708A (zh) * 2017-03-03 2018-09-14 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答***
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN109614478A (zh) * 2018-12-18 2019-04-12 北京中科闻歌科技股份有限公司 词向量模型的构建方法、关键词匹配方法及装置
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及***
CN110222707A (zh) * 2019-04-28 2019-09-10 平安科技(深圳)有限公司 一种文本数据增强方法及装置、电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建***
CN108536708A (zh) * 2017-03-03 2018-09-14 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答***
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN109614478A (zh) * 2018-12-18 2019-04-12 北京中科闻歌科技股份有限公司 词向量模型的构建方法、关键词匹配方法及装置
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及***
CN110222707A (zh) * 2019-04-28 2019-09-10 平安科技(深圳)有限公司 一种文本数据增强方法及装置、电子设备

Also Published As

Publication number Publication date
CN111444326A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN111444326B (zh) 一种文本数据处理方法、装置、设备以及存储介质
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN113569088B (zh) 一种音乐推荐方法、装置以及可读存储介质
CN113590850A (zh) 多媒体数据的搜索方法、装置、设备及存储介质
Probierz et al. Rapid detection of fake news based on machine learning methods
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN112015928B (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
KR20200087977A (ko) 멀티모달 문서 요약 시스템 및 방법
CN113688951B (zh) 视频数据处理方法以及装置
CN114339450B (zh) 视频评论生成方法、***、设备及存储介质
CN112905739A (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN110717038A (zh) 对象分类方法及装置
CN111460783A (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
Moon et al. Natural language processing based advanced method of unnecessary video detection
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN117011745A (zh) 一种数据处理方法、装置、计算机设备以及可读存储介质
CN113704507A (zh) 数据处理方法、计算机设备以及可读存储介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
Vayadande et al. Mood detection and emoji classification using tokenization and convolutional neural network
CN114595370A (zh) 模型训练、排序方法、装置、电子设备及存储介质
Xu et al. Estimating similarity of rich internet pages using visual information
CN113763934A (zh) 音频识别模型的训练方法、装置和存储介质及电子设备
KR20220105792A (ko) 동적 텍스트 소스를 활용한 ai 기반 의사결정지원 시스템
CN116150428B (zh) 视频标签获取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025832

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant