文本意图识别方法、装置、计算机设备和存储介质
技术领域
本申请涉及文本处理技术领域,特别是涉及一种文本意图识别方法、装置、计算机设备和存储介质。
背景技术
一般而言,根据文本内容可以确定文本内容对应的意图。对于文本内容的意图识别,一般使用分类的方法将句子分为相应的意图种类。NLU(Natural LanguageProcessing,自然语音理解)主要负责提取文本内容中需要理解的内容。在NLU领域,传统的方式为采用一种算法提取文本内容的意图。具体地,采用统一格式的标注语料输入到一种算法中,通过比较算法输出的置信度或分类结果的方式确定文本内容的意图。然而,在具体的开发过程中往往存在标注数据不足的问题。也即是,标注语料不足时,使用标注语料对用于确定文本内容意图的算法进行训练,最终根据训练后的算法确定文本内容意图时,由于标注语料不足将导致最终识别到的文本内容意图准确性较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高文本内容意图识别的准确度的文本意图识别方法、装置、计算机设备和存储介质。
一种文本意图识别方法,该方法包括:获取待处理文本;将待处理文本输入文本分类模型,得到文本分类模型输出的待处理文本的相似语料以及相似语料与待处理文本之间的第一相似度,文本分类模型根据已标注意图的语料进行训练;根据相似语料确定待处理文本的第一候选意图;提取待处理文本的实体信息,根据实体信息获取待处理文本的第二候选意图;获取实体信息与待处理文本的第二相似度;根据第一相似度和第二相似度在第一候选意图和第二候选意图中筛选待处理文本的最终意图。
在其中一个实施例中,在第一相似度大于第一预设值且小于第二预设值时,进入提取待处理文本的实体信息,根据实体信息获取待处理文本的第二候选意图的步骤,第一预设值小于第二预设值;文本意图识别方法还包括:在第一相似度大于或等于第二预设值时,将第一候选意图作为最终意图;和/或,在第一相似度小于或等于第一预设值时,生成提示信息。
在其中一个实施例中,提取待处理文本的实体信息,包括:获取多个预设词语类型,各预设词语类型关联有第一预设意图;获取各预设词语类型对应的单词查找算法,单词查找算法用于查找各预设词语类型对应的词语;根据各预设词语类型对应的单词查找算法从待处理文本中提取各预设词语类型对应的词语,得到待处理文本的多个第一目标词语;根据多个第一目标词语生成实体信息。
在其中一个实施例中,根据实体信息获取待处理文本的第二候选意图,包括:获取预设意图集,预设意图集包括多个第二预设意图,各第二预设意图关联多个预设词语;获取实体信息中的多个第一目标词语;根据多个第一目标词语以及预设意图集中各第二预设意图关联的预设词语从预设意图集中筛选出目标意图,根据目标意图确定第二候选意图。
在其中一个实施例中,根据多个第一目标词语以及预设意图集中各第二预设意图关联的预设词语从预设意图集中筛选出目标意图,包括:获取预设关键词;当多个第一目标词语中包含预设关键词时,将预设关键词与各第二预设意图关联的预设词语进行词语匹配,根据词语匹配的结果从预设意图集的多个第二预设意图中筛选出第一目标子候选意图,第一目标子候选意图作为目标意图;当多个第一目标词语中未包含预设关键词时,将所多个第一目标词语分别与各第二预设意图关联的预设词语进行词语匹配,根据词语匹配的结果从预设意图集的多个第二预设意图中筛选出第二目标子候选意图,第二目标子候选意图作为目标意图。
在其中一个实施例中,获取实体信息与待处理文本的第二相似度,包括:获取目标意图对应的第一目标词语与待处理文本的第一子相似度;当目标意图为多个时,第一子相似度为多个,将多个第一子相似度中相似度最高的第一子相似度作为第二相似度;当目标意图为一个时,将第一子相似度作为第二相似度;根据第一相似度和第二相似度在第一候选意图和第二候选意图中筛选待处理文本的最终意图,包括:当第一相似度大于或等于第二相似度时,将第一候选意图作为待处理文本的最终意图;当第一相似度小于第二相似度且第二候选意图中包含多个目标意图时,将第二相似度对应的目标意图作为待处理文本的最终意图;当第一相似度小于第二相似度且第二候选意图中包含一个目标意图时,将第二候选意图中的目标意图作为待处理文本的最终意图。
在其中一个实施例中,获取实体信息与待处理文本的第二相似度,包括:对待处理文本进行切词,得到待处理文本的多个第二目标词语;获取第一目标词语的第一数量以及第二目标词语的第二数量;获取第一数量与第二数量的比值,根据比值确定第二相似度。
一种文本意图识别装置,该装置包括:第一获取模块,用于获取待处理文本;第二获取模块,用于将待处理文本输入文本分类模型,得到文本分类模型输出的待处理文本的相似语料以及相似语料与待处理文本之间的第一相似度,文本分类模型根据已标注意图的语料进行训练;第一确定模块,用于根据相似语料确定待处理文本的第一候选意图;第三获取模块,用于提取待处理文本的实体信息,根据实体信息获取待处理文本的第二候选意图;第四获取模块,用于获取实体信息与待处理文本的第二相似度;第二确定模块,用于根据第一相似度和第二相似度在第一候选意图和第二候选意图中筛选待处理文本的最终意图。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一实施例方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例方法的步骤。
上述文本意图识别方法、装置、计算机设备和存储介质,首先将待处理文本输入文本分类模型,得到相似语料和相似语料与待处理文本之间的第一相似度。同时,根据相似语料确定待处理文本的第一意图。再者,提取待处理文本的实体信息,根据实体信息获取待处理文本的第二意图。同时,获取实体信息与待处理文本的第二相似度。最终,根据第一相似度和第二相似度确定待处理文本的意图,待处理文本的意图为第一意图或第二意图。因此,通过文本分类模型以及待处理文本的实体信息分别确定待处理文本的第一意图和第二意图,并根据文本分类模型以及待处理文本两者的相似度确定待处理文本的最终意图为第一意图或第二意图,从而能够采取多种方式识别待处理文本的意图,避免了采取单一文本分类模型确定待处理文本的意图时由于标注语料不足导致待处理文本的意图识别的准确度较低,提高了文本内容意图识别的准确度。
附图说明
图1为一个实施例中一种文本意图识别方法的应用环境图;
图2为一个实施例中一种文本意图识别方法的流程示意图;
图3为另一个实施例中一种文本意图识别方法的流程示意图;
图4为一个实施例中S108的流程示意图;
图5为另一个实施例中S108的流程示意图;
图6为一个实施例中S1085的流程示意图;
图7为一个实施例中S110的流程示意图;
图8为一个实施例中一种文本意图识别装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的一种文本意图识别方法,应用于如图1所示的应用环境中。用户可以通过终端上的各种应用与对应服务平台进行数据交互。尤其是用户可以通过终端上的应用向对应的服务平台发送问答类型的文本,以接收服务平台下发的回复信息。其中,客户服务器为支持服务平台的服务器。服务平台通过客户服务器接收用户发送的问答类型的文本,即接收到待处理文本。进一步地,将待处理文本输入文本分类模型,得到文本分类模型输出的待处理文本的相似语料以及相似语料与待处理文本之间的第一相似度。同时,根据相似语料确定待处理文本的第一候选意图。此外,服务平台提取待处理文本的实体信息,根据实体信息获取待处理文本的第二候选意图,获取实体信息与待处理文本的第二相似度。最终,根据第一相似度和第二相似度,在第一候选意图和第二候选意图中筛选待处理文本的最终意图。最终意图即为用户发送的问答类型的文本对应的意图。进而,服务平台根据得到的意图读取对应的回复答案,将回复答案下发给用户的终端。其中,这里的终端可以是诸如计算机、平板电脑、智能手机之类的硬件设备。客户服务器可以是由单个服务器或者多个服务器构成的服务器集群实现。
在一个实施例中,如图2所示,提供了一种文本意图识别方法,以该方法应用于图1中的服务平台(具体为支持服务平台的客户服务器)为例进行说明,包括以下步骤:
S102,获取待处理文本。
在本实施例中,用户通过终端向服务平台发送问答类型的文本信息。服务平台接收到用户发送的问答类型的文本信息,将该文本信息作为待处理文本。其中,待处理文本用于表征用户意图,可通过对待处理文本进行意图识别以获得用户意图。例如,待处理文本可以是“已经提交退货申请了”、“我买的手机坏了”、“我的货物到哪了”等表示用户咨询的意图的文本。
S104,将待处理文本输入文本分类模型,得到文本分类模型输出的待处理文本的相似语料以及相似语料与待处理文本之间的第一相似度,文本分类模型根据已标注意图的语料进行训练。
在本实施例中,服务平台得到待处理文本之后,将待处理文本输入文本分类模型。文本分类模型已采用已标注意图的语料进行训练。文本分类模型用于根据已标注意图的语料对待处理文本进行识别,输出与待处理文本相似的候选相似语料以及候选相似语料与待处理文本之间的相似度。候选相似语料可以是一个或多个。对应地,候选相似语料与待处理文本之间的相似度也可以是一个或多个。当候选相似语料为多个时,选取最高相似度的候选相似语料为待处理文本的相似语料,最高相似度即为相似语料与待处理文本之间的第一相似度。其中,文本分类模型可以是Text-CNN模型(文本卷积模型)。在对文本分类模型进行训练时,可以将句维度标注的问答语料(已标注意图的语料)进行去停用词等操作后进行模型训练。例如,去掉吗、啦、呢等语气助词之类的无用词。同时,在将待处理文本输入到已训练的文本分类模型之前,将待处理文本进行去停用词操作,进而再将去停用词后的待处理文本输入已训练的文本分类模型,以得到待处理文本的相似语料以及相似语料与待处理文本之间的第一相似度。因此,可以提高服务平台的处理效率。
S106,根据相似语料确定待处理文本的第一候选意图。
在本实施例中,当服务平台根据文本分类模型确定待处理文本的相似语料时,获取相似语料对应的用户意图,将该用户意图作为待处理文本的第一候选意图。具体地,服务平台中存储有多条已标注意图的语料,利用已标注意图的语料对文本分类模型进行训练后,将待处理文本输入文本分类模型时输出的相似语料已标注意图,根据已标注意图可以确定待处理文本的第一候选意图。还可以是,服务平台获取到相似语料后,根据相似语料获取对应的标准语料,进而根据标准语料确定待处理文本的第一候选意图。其中,标准语料已标注意图。根据标准问可以确定待处理文本的第一候选意图。
举例说明:服务平台中存储已有句维度标注(已标注意图)的问答语料,例如售后类型语料。对于售后类型语料,其标准问(句维度标注的问答语料)和相似问如下所示:
{
"intent":"咨询退换时间(催退货)",
"text":"已经提交退货申请了"
},
{
"intent":"咨询退换时间(催退货)",
"text":"我提交了退货申请"
},
{
"intent":"申请退货",
"text":"退货吧"
};
其中,intent字段对应标准问,text字段对应相似问。标准问与相似问之间是一对多的对应关系。用户在获取到相似度最高的相似问后,通过查找对应的标准问的答案的方式来获取最终结果。
S108,提取待处理文本的实体信息,根据实体信息获取待处理文本的第二候选意图。
在本实施例中,服务平台提取待处理文本的实体信息。实体信息可以是待处理文本中的分词构成的信息。例如,实体信息中包括品类词、品牌词、热词以及关键词等。实体信息还可以是根据待处理文本的文本内容确定出的实体信息。例如,根据待处理文本的文本内容确定出待处理文本的语义,将待处理文本的语义作为实体信息。
进一步地,服务平台根据实体信息获取待处理文本的第二候选意图。具体地,服务平台中包含有多种预设意图,各预设意图对应有关联信息。根据实体信息与各预设意图的关联信息的匹配关系可以确定出处理文本的第二候选意图。
S110,获取实体信息与待处理文本的第二相似度。
在本实施例中,第二相似度可以是实体信息与待处理文本的语义的相似度。当实体信息由待处理文本中提取的一个或多个分词构成时,第二相似度还可以根据一个或多个分词与待处理文本之间的比例确定。第二相似度表征了实体信息与待处理文本之间的相似程度。
S112,根据第一相似度和第二相似度在第一候选意图和第二候选意图中筛选待处理文本的最终意图。
在本实施例中,服务平台根据文本分类模型确定出待处理文本的第一相似度以及第一候选意图,以及根据待处理文本的实体信息确定待处理文本的第二相似度以及第二候选意图,进而根据第一相似度和第二相似度在第一候选意图和第二候选意图中筛选待处理文本的最终意图。当第一相似度大于或等于第二相似度时,最终意图为第一候选意图。当第一相似度小于第二相似度时,最终意图为第二候选意图。因此,通过对两种方式得到的相似度进行比较,将最大相似度对应的候选意图作为待处理文本的最终意图,使得最终确定的待处理文本的意图更加准确,避免了通过单一方式确定待处理文本的意图导致的意图识别的准确性低。
上述文本意图识别方法,首先将待处理文本输入文本分类模型,得到相似语料和相似语料与待处理文本之间的第一相似度。同时,根据相似语料确定待处理文本的第一意图。再者,提取待处理文本的实体信息,根据实体信息获取待处理文本的第二意图。同时,获取实体信息与待处理文本的第二相似度。最终,根据第一相似度和第二相似度确定待处理文本的意图,待处理文本的意图为第一意图或第二意图。因此,通过文本分类模型以及待处理文本的实体信息分别确定待处理文本的第一意图和第二意图,并根据文本分类模型以及待处理文本两者的相似度确定待处理文本的最终意图为第一意图或第二意图,从而能够采取多种方式识别待处理文本的意图,避免了采取单一文本分类模型确定待处理文本的意图时由于标注语料不足导致待处理文本的意图识别的准确度较低,提高了文本内容意图识别的准确度。
在一个实施例中,如图3所示,在进入步骤S108之前,服务平台设置了前置条件。前置条件为第一相似度大于第一预设值且小于第二预设值。其中,第一预设值小于第二预设值。在第一相似度大于第一预设值且小于第二预设值时,进入步骤S108。当不满足前置条件时,分两种情况。情况一,参见步骤S1074:在第一相似度大于或等于第二预设值时,将第一候选意图作为最终意图。情况二,参见步骤S1072:在第一相似度小于或等于第一预设值时,生成提示信息。
具体地,将去停用词后的待处理文本,使用已训练的文本分类模型进行分类识别后,获得模型输出的候选相似语料及候选相似语料与待处理文本之间的相似度。其中,候选相似语料为多条,候选相似语料与待处理文本之间的相似度也为多个,并根据相似度的大小对候选相似语料进行排序。进一步地,服务平台获取相似度最高的候选相似语料,若该相似度最高的候选相似语料对应相似度大于或等于第二预设值(如95%)时,直接根据该候选相似语料对应的意图作为第一候选意图,此时程序终止,无需再执行步骤S108。若该相似度最高的候选相似语料对应相似度大于第一预设值(如60%)且小于第二预设值时,执行步骤S108。若该相似度最高的候选相似语料对应相似度小于或等于第一预设值时,生成提示信息,此时也无需再执行步骤S108。因此,可以提高服务平台对待处理文本的意图识别能力。
在一个实施例中,如图4所示,步骤S108包括:
S1082,获取多个预设词语类型,各预设词语类型关联有第一预设意图。
S1084,获取各预设词语类型对应的单词查找算法,单词查找算法用于查找各预设词语类型对应的词语。
S1086,根据各预设词语类型对应的单词查找算法从待处理文本中提取各预设词语类型对应的词语,得到待处理文本的多个第一目标词语。
S1088,根据多个第一目标词语生成实体信息。
在该实施例中,服务平台中预先设置多个预设词语类型,每个预设词语类型关联有对应的第一预设意图。例如,多个预设词语类型包括品类词、热词、品牌词和关键词。品类词对应有一个或多个第一预设意图,热词对应有一个或多个第一预设意图,品牌词对应有一个或多个第一预设意图,关键词对应有一个或多个第一预设意图。此外,各预设词语类型对应的单词查找算法,用于查找各预设词语类型对应的词语。服务平台根据各预设词语类型对应的单词查找算法从待处理文本中提取各预设词语类型对应的词语,得到待处理文本的多个第一目标词语。其中,各预设词语类型对应的单词查找算法可以为同一单词查找算法。单词查找算法可以是字典树查找算法。最终,根据多个第一目标词语生成实体信息。实体信息可以包括多个第一目标词语,也可以是根据多个第一目标词语生成的不包括第一目标词语的其他信息。因此,可以提高服务平台提取待处理文本的实体信息能力。例如,在具体生成实体信息过程中,对待处理文本进行分词并对分词后的结果使用词维度语料进行NER(命名对象实体)拾取,获取待处理文本中的实体信息。实体信息可以包括品类、品牌、热词、关键词等。
在一个实施例中,如图5所示,步骤S108还包括:
S1081,获取预设意图集,预设意图集包括多个第二预设意图,各第二预设意图关联多个预设词语。
S1083,获取实体信息中的多个第一目标词语。
S1085,根据多个第一目标词语以及预设意图集中各第二预设意图关联的预设词语从预设意图集中筛选出目标意图,根据目标意图确定第二候选意图。
在该实施例中,服务平台预先设置有预设意图集。预设意图集中包括多个第二预设意图,各第二预设意图关联多个预设词语。例如,第二预设意图为购买意图时,其关联的预设词语可以包括“买”、“购”和“售”等。第二预设意图为售后意图时,其关联的预设词语可以包括“卖”和“坏了”等。通过预设词语与第二预设意图的关联关系,可以根据多个第一目标词语以及各第二预设意图关联的预设词语从预设意图集中筛选出目标意图。目标意图可以为一个或多个。根据目标意图,服务平台能够确定第二候选意图。因此,通过实体信息中的多个第一目标词语从预设意图集中筛选出目标意图,进而根据目标意图确定第二候选意图,使得服务平台能够快速获取到第二候选意图。
在一个实施例中,如图6所示,步骤S1085包括:
S10852,获取预设关键词。
S10854,当多个第一目标词语中包含预设关键词时,将预设关键词与各第二预设意图关联的预设词语进行词语匹配,根据词语匹配的结果从预设意图集的多个第二预设意图中筛选出第一目标子候选意图,第一目标子候选意图作为目标意图。
S10856,当多个第一目标词语中未包含预设关键词时,将多个第一目标词语分别与各第二预设意图关联的预设词语进行词语匹配,根据词语匹配的结果从预设意图集的多个第二预设意图中筛选出第二目标子候选意图,第二目标子候选意图作为目标意图。
在该实施例中,服务平台设置有预设关键词。预设关键词可以是根据当前活动意图设置,或者根据***能够识别的用户意图设置。根据预设关键词可以直接识别出用户意图。进一步地,从待处理文本中提取多个第一目标词语,将预设关键词与多个第一目标词语进行匹配识别,判断多个第一目标词语中是否包含有预设关键词。若有,则将预设关键词与各第二预设意图关联的预设词语进行词语匹配,根据词语匹配的结果从预设意图集的多个第二预设意图中筛选出第一目标子候选意图,第一目标子候选意图作为目标意图。因此,无需将所有的第一目标词语与各第二预设意图关联的预设词语进行词语匹配,进而省去服务平台的一些计算工作,提高服务平台对待处理文本的意图识别的效率。若无,将多个第一目标词语分别与各第二预设意图关联的预设词语进行词语匹配,根据词语匹配的结果从预设意图集的多个第二预设意图中筛选出第二目标子候选意图,第二目标子候选意图作为目标意图。其中,在第一目标词语与第二预设意图关联的预设词语进行词语匹配以筛选出第二目标子候选意图时,第一目标词语可以对应一个或多个第二目标子候选意图。
针对根据预设关键词获取目标意图,以下给出一个具体实施场景:
采用过滤关键词的方法,对待处理文本的意图进行初筛。具体地,获取客服***支持的意图列表的子集,假设当前***支持:售后、导购、活动查询、优惠券查询四个意图。通过过滤待处理文本“我买的手机坏了”以得到关键词类型NER(命名对象实体)的方式,分别获取到“买”和“坏了”两个关键词,进而分别得到对应导购和售后两个意图,这样在后续的余弦相似度计算中就可以只比较导购和售后两个意图的相似度即可,省去一些额外的计算工作。
在一个实施例中,还可以是,当多个第一目标词语中包含预设剔除词时,从多个第一目标词语中剔除预设剔除词,得到多个对象词语。将对象词语与各第二预设意图关联的预设词语进行词语匹配,根据词语匹配的结果从预设意图集的多个第二预设意图中筛选出第一目标子候选意图,第一目标子候选意图作为目标意图。
在该实施例中,服务平台可以预先设置多个预设剔除词,用于对多个第一目标词语进行词语筛选。当多个第一目标词语中包含预设剔除词时,将多个第一目标词语中的预设剔除词剔除,剩下的第一目标词语用于与各第二预设意图关联的预设词语进行词语匹配,最终根据词语匹配的结果从预设意图集的多个第二预设意图中筛选出第一目标子候选意图。
在一个实施例中,如图7所示,步骤S110包括:
S1102,获取目标意图对应的第一目标词语与待处理文本的第一子相似度。
S1104,当目标意图为多个时,第一子相似度为多个,将多个第一子相似度中相似度最高的第一子相似度作为第二相似度。
S1106,当目标意图为一个时,将第一子相似度作为第二相似度。
此时,步骤S112包括:
S1122,当第一相似度大于或等于第二相似度时,将第一候选意图作为待处理文本的最终意图。
S1124,当第一相似度小于第二相似度且第二候选意图中包含多个目标意图时,将第二相似度对应的目标意图作为待处理文本的最终意图。
S1126,当第一相似度小于第二相似度且第二候选意图中包含一个目标意图时,将第二候选意图中的目标意图作为待处理文本的最终意图。
在该实施例中,当根据多个第一目标词语确定出的目标意图为多个时,多个目标意图对应的第一子相似度也为多个。此时,将多个第一子相似度中相似度最高的第一子相似度作为第二相似度。此时第二相似度对应的目标意图作为第二候选意图。当根据多个第一目标词语确定出的目标意图为1个时,此时无需再做筛选,直接将该目标意图对应的第一子相似度作为第二相似度,该目标意图也即为第二候选意图。因此,在步骤S112中筛选待处理文本的最终意图时,若第一相似度大于或等于第二相似度,此时直接将第一候选意图作为待处理文本的最终意图。若第一相似度小于第二相似度且第二候选意图中包含多个目标意图时,将第二相似度对应的目标意图作为待处理文本的最终意图。当第一相似度小于第二相似度且第二候选意图中包含一个目标意图时,将第二候选意图中的目标意图作为待处理文本的最终意图。因此,服务平台可以提供多种情况下的待处理文本的意图识别的途径,提高待处理文本的意图识别能力。
在一个实施例中,步骤S110包括:对待处理文本进行切词,得到待处理文本的多个第二目标词语;获取第一目标词语的第一数量以及第二目标词语的第二数量;获取第一数量与第二数量的比值,根据比值确定第二相似度。
在该实施例中,获取实体信息与待处理文本之间的第二相似度时,将待处理文本进行切词处理,得到多个第二分词。进一步地,获取待处理文本的第二分词的第二数量,以及获取实体信息中第一分词的第一数量,获取第一数量与第二数量的比值。将该比值作为第二相似度。例如,待处理文本为“我买的手机坏了”,实体信息为“买”和“坏了”,那两者的相似度为(2/5)*100%=40%。
针对上述各实施例所述的文本意图识别方法,以下提供一个具体实施例,以“我买的手机坏了”这条待处理文本为例。
首先,对句维度标注的售后类型语料做Text-CNN模型深度训练,并存储对应的数据模型,其中售后类型语料中包括“我刚买的空调坏了”这条语料。
其次,根据***中词维度标注结果,将不同类型的词使用TriTree(字典树)算法进行训练,分别保存对应的模型。其中包括如买、坏了、活动等意图倾向特别明显的关键词,以及手机、电话、冰箱、空调等对应的品类词,以用于对待处理文本的NER拾取。
再者,设计对应的意图的相似度算法。例如购买意图的相似度算法,可以通过计算词向量余弦相似度的方式,将“我买的手机坏了”转换为词向量的格式:“买(关键词)”“手机(品类词)”与去停用词后的待处理文本的词向量“我”“刚买”“手机”“坏了”做比较,可以得到该待处理文本在购买意图下的相似度为53%。
最后,将待处理文本使用句维度标注语料得到的Text-CNN模型进行预测,得到售后意图的相似度为80%,因此可得到该待处理文本的意图为售后意图,相似问为:我刚买的空调坏了,该相似问对应的知识点为:售后维保。
通过两者的相似度比较,得到待处理文本的意图为售后维保。
因此,本申请解决了在句维度标注语料不足的情况下,将词维度标注语料与句维度标注语料同时发挥作用下获取用户最终意图的难题,从而避免了句维度标注语料不足时导致用户意图识别的准确性低的问题。
应该理解的是,虽然流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,附图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本申请还提供一种文本意图识别装置,如图8所示,该装置包括第一获取模块10、第二获取模块20、第一确定模块30、第三获取模块40、第四获取模块50以及第二确定模块60。
第一获取模块10,用于获取待处理文本;第二获取模块20,用于将待处理文本输入文本分类模型,得到文本分类模型输出的待处理文本的相似语料以及相似语料与待处理文本之间的第一相似度,文本分类模型根据已标注意图的语料进行训练;第一确定模块30,用于根据相似语料确定待处理文本的第一候选意图;第三获取模块40,用于提取待处理文本的实体信息,根据实体信息获取待处理文本的第二候选意图;第四获取模块50,用于获取实体信息与待处理文本的第二相似度;第二确定模块60,用于根据第一相似度和第二相似度在第一候选意图和第二候选意图中筛选待处理文本的最终意图。
在其中一个实施例中,在第一相似度大于第一预设值且小于第二预设值时,实现第三获取模块40的提取操作,其中第一预设值小于第二预设值;文本意图识别装置还包括(图8未示出):第三确定模块,用于在第一相似度大于或等于第二预设值时,将第一候选意图作为最终意图;和/或,提示模块,用于在第一相似度小于或等于第一预设值时,生成提示信息。
在其中一个实施例中,第三获取模块40包括(图8未示出):第一获取单元,用于获取多个预设词语类型,各预设词语类型关联有第一预设意图;第二获取单元,用于获取各预设词语类型对应的单词查找算法,单词查找算法用于查找各预设词语类型对应的词语;提取单元,用于根据各预设词语类型对应的单词查找算法从待处理文本中提取各预设词语类型对应的词语,得到待处理文本的多个第一目标词语;生成单元,用于根据多个第一目标词语生成实体信息。
在其中一个实施例中,第三获取模块40包括(图8未示出):第三获取单元,用于获取预设意图集,预设意图集包括多个第二预设意图,各第二预设意图关联多个预设词语;第四获取单元,用于获取实体信息中的多个第一目标词语;筛选单元,用于根据多个第一目标词语以及预设意图集中各第二预设意图关联的预设词语从预设意图集中筛选出目标意图,根据目标意图确定第二候选意图。
在其中一个实施例中,筛选单元包括:第一获取子单元,用于获取预设关键词;第一筛选子单元,用于当多个第一目标词语中包含预设关键词时,将预设关键词与各第二预设意图关联的预设词语进行词语匹配,根据词语匹配的结果从预设意图集的多个第二预设意图中筛选出第一目标子候选意图,第一目标子候选意图作为目标意图;第二筛选子单元,用于当多个第一目标词语中未包含预设关键词时,将多个第一目标词语分别与各第二预设意图关联的预设词语进行词语匹配,根据词语匹配的结果从预设意图集的多个第二预设意图中筛选出第二目标子候选意图,第二目标子候选意图作为目标意图。
在其中一个实施例中,第四获取模块50包括(图8未示出):第五获取单元,用于获取目标意图对应的第一目标词语与待处理文本的第一子相似度;第一确定单元,用于当目标意图为多个时,第一子相似度为多个,将多个第一子相似度中相似度最高的第一子相似度作为第二相似度;第二确定单元,用于当目标意图为一个时,将第一子相似度作为第二相似度;第二确定模块60包括:第三确定单元,用于当第一相似度大于或等于第二相似度时,将第一候选意图作为待处理文本的最终意图;第四确定单元,用于当第一相似度小于第二相似度且第二候选意图中包含多个目标意图时,将第二相似度对应的目标意图作为待处理文本的最终意图;第五确定单元,用于当第一相似度小于第二相似度且第二候选意图中包含一个目标意图时,将第二候选意图中的目标意图作为待处理文本的最终意图。
在其中一个实施例中,第四获取模块50包括(图8未示出):切词单元,用于对待处理文本进行切词,得到待处理文本的多个第二目标词语;第六获取单元,用于获取第一目标词语的第一数量以及第二目标词语的第二数量;第六确定单元,用于获取第一数量与第二数量的比值,根据比值确定第二相似度。
关于文本意图识别装置的具体限定可以参见上文中对于文本意图识别方法的限定,在此不再赘述。上述文本意图识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是支持服务平台运行的客户服务器,其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端连接,以读取终端上的待处理文本。该计算机程序被处理器执行时以实现一种界面元素定位方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取待处理文本;将待处理文本输入文本分类模型,得到文本分类模型输出的待处理文本的相似语料以及相似语料与待处理文本之间的第一相似度,文本分类模型根据已标注意图的语料进行训练;根据相似语料确定待处理文本的第一候选意图;提取待处理文本的实体信息,根据实体信息获取待处理文本的第二候选意图;获取实体信息与待处理文本的第二相似度;根据第一相似度和第二相似度在第一候选意图和第二候选意图中筛选待处理文本的最终意图。
在其中一个实施例中,在第一相似度大于第一预设值且小于第二预设值时,处理器执行计算机程序实现提取待处理文本的实体信息,根据实体信息获取待处理文本的第二候选意图的步骤,第一预设值小于第二预设值;此时,处理器执行计算机程序时还实现以下步骤:在第一相似度大于或等于第二预设值时,将第一候选意图作为最终意图;和/或,在第一相似度小于或等于第一预设值时,生成提示信息。
在其中一个实施例中,处理器执行计算机程序执行实现上述的提取待处理文本的实体信息的步骤时,具体实现以下步骤:获取多个预设词语类型,各预设词语类型关联有第一预设意图;获取各预设词语类型对应的单词查找算法,单词查找算法用于查找各预设词语类型对应的词语;根据各预设词语类型对应的单词查找算法从待处理文本中提取各预设词语类型对应的词语,得到待处理文本的多个第一目标词语;根据多个第一目标词语生成实体信息。
在其中一个实施例中,处理器执行计算机程序执行实现上述的根据实体信息获取待处理文本的第二候选意图的步骤时,具体实现以下步骤:获取预设意图集,预设意图集包括多个第二预设意图,各第二预设意图关联多个预设词语;获取实体信息中的多个第一目标词语;根据多个第一目标词语以及预设意图集中各第二预设意图关联的预设词语从预设意图集中筛选出目标意图,根据目标意图确定第二候选意图。
在其中一个实施例中,处理器执行计算机程序执行实现上述的根据多个第一目标词语以及预设意图集中各第二预设意图关联的预设词语从预设意图集中筛选出目标意图的步骤时,具体实现以下步骤:获取预设关键词;当多个第一目标词语中包含预设关键词时,将预设关键词与各第二预设意图关联的预设词语进行词语匹配,根据词语匹配的结果从预设意图集的多个第二预设意图中筛选出第一目标子候选意图,第一目标子候选意图作为目标意图;当多个第一目标词语中未包含预设关键词时,将所多个第一目标词语分别与各第二预设意图关联的预设词语进行词语匹配,根据词语匹配的结果从预设意图集的多个第二预设意图中筛选出第二目标子候选意图,第二目标子候选意图作为目标意图。
在其中一个实施例中,处理器执行计算机程序执行实现上述的获取实体信息与待处理文本的第二相似度的步骤时,具体实现以下步骤:获取目标意图对应的第一目标词语与待处理文本的第一子相似度;当目标意图为多个时,第一子相似度为多个,将多个第一子相似度中相似度最高的第一子相似度作为第二相似度;当目标意图为一个时,将第一子相似度作为第二相似度;处理器执行计算机程序实现上述的根据第一相似度和第二相似度在第一候选意图和第二候选意图中筛选待处理文本的最终意图的步骤时,具体实现以下步骤:当第一相似度大于或等于第二相似度时,将第一候选意图作为待处理文本的最终意图;当第一相似度小于第二相似度且第二候选意图中包含多个目标意图时,将第二相似度对应的目标意图作为待处理文本的最终意图;当第一相似度小于第二相似度且第二候选意图中包含一个目标意图时,将第二候选意图中的目标意图作为待处理文本的最终意图。
在其中一个实施例中,处理器执行计算机程序实现上述的获取实体信息与待处理文本的第二相似度的步骤时,具体实现以下步骤:对待处理文本进行切词,得到待处理文本的多个第二目标词语;获取第一目标词语的第一数量以及第二目标词语的第二数量;获取第一数量与第二数量的比值,根据比值确定第二相似度。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待处理文本;将待处理文本输入文本分类模型,得到文本分类模型输出的待处理文本的相似语料以及相似语料与待处理文本之间的第一相似度,文本分类模型根据已标注意图的语料进行训练;根据相似语料确定待处理文本的第一候选意图;提取待处理文本的实体信息,根据实体信息获取待处理文本的第二候选意图;获取实体信息与待处理文本的第二相似度;根据第一相似度和第二相似度在第一候选意图和第二候选意图中筛选待处理文本的最终意图。
在其中一个实施例中,在第一相似度大于第一预设值且小于第二预设值时,计算机程序被处理器执行实现提取待处理文本的实体信息,根据实体信息获取待处理文本的第二候选意图的步骤,第一预设值小于第二预设值;此时,计算机程序被处理器执行时还实现以下步骤:在第一相似度大于或等于第二预设值时,将第一候选意图作为最终意图;和/或,在第一相似度小于或等于第一预设值时,生成提示信息。
在其中一个实施例中,计算机程序被处理器执行实现上述的提取待处理文本的实体信息的步骤时,具体实现以下步骤:获取多个预设词语类型,各预设词语类型关联有第一预设意图;获取各预设词语类型对应的单词查找算法,单词查找算法用于查找各预设词语类型对应的词语;根据各预设词语类型对应的单词查找算法从待处理文本中提取各预设词语类型对应的词语,得到待处理文本的多个第一目标词语;根据多个第一目标词语生成实体信息。
在其中一个实施例中,计算机程序被处理器执行实现上述的根据实体信息获取待处理文本的第二候选意图的步骤时,具体实现以下步骤:获取预设意图集,预设意图集包括多个第二预设意图,各第二预设意图关联多个预设词语;获取实体信息中的多个第一目标词语;根据多个第一目标词语以及预设意图集中各第二预设意图关联的预设词语从预设意图集中筛选出目标意图,根据目标意图确定第二候选意图。
在其中一个实施例中,计算机程序被处理器执行实现上述的根据多个第一目标词语以及预设意图集中各第二预设意图关联的预设词语从预设意图集中筛选出目标意图的步骤时,具体实现以下步骤:获取预设关键词;当多个第一目标词语中包含预设关键词时,将预设关键词与各第二预设意图关联的预设词语进行词语匹配,根据词语匹配的结果从预设意图集的多个第二预设意图中筛选出第一目标子候选意图,第一目标子候选意图作为目标意图;当多个第一目标词语中未包含预设关键词时,将所多个第一目标词语分别与各第二预设意图关联的预设词语进行词语匹配,根据词语匹配的结果从预设意图集的多个第二预设意图中筛选出第二目标子候选意图,第二目标子候选意图作为目标意图。
在其中一个实施例中,计算机程序被处理器执行实现上述的获取实体信息与待处理文本的第二相似度的步骤时,具体实现以下步骤:获取目标意图对应的第一目标词语与待处理文本的第一子相似度;当目标意图为多个时,第一子相似度为多个,将多个第一子相似度中相似度最高的第一子相似度作为第二相似度;当目标意图为一个时,将第一子相似度作为第二相似度;计算机程序被处理器执行实现上述的根据第一相似度和第二相似度在第一候选意图和第二候选意图中筛选待处理文本的最终意图的步骤时,具体实现以下步骤:当第一相似度大于或等于第二相似度时,将第一候选意图作为待处理文本的最终意图;当第一相似度小于第二相似度且第二候选意图中包含多个目标意图时,将第二相似度对应的目标意图作为待处理文本的最终意图;当第一相似度小于第二相似度且第二候选意图中包含一个目标意图时,将第二候选意图中的目标意图作为待处理文本的最终意图。
在其中一个实施例中,计算机程序被处理器执行实现上述的获取实体信息与待处理文本的第二相似度的步骤时,具体实现以下步骤:对待处理文本进行切词,得到待处理文本的多个第二目标词语;获取第一目标词语的第一数量以及第二目标词语的第二数量;获取第一数量与第二数量的比值,根据比值确定第二相似度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。