CN110825840A - 词库扩充方法、装置、设备及存储介质 - Google Patents

词库扩充方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110825840A
CN110825840A CN201911086956.7A CN201911086956A CN110825840A CN 110825840 A CN110825840 A CN 110825840A CN 201911086956 A CN201911086956 A CN 201911086956A CN 110825840 A CN110825840 A CN 110825840A
Authority
CN
China
Prior art keywords
word
target
intention
category
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911086956.7A
Other languages
English (en)
Other versions
CN110825840B (zh
Inventor
高志伟
陈孝良
苏少炜
常乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sound Intelligence Technology Co Ltd
Original Assignee
Beijing Sound Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sound Intelligence Technology Co Ltd filed Critical Beijing Sound Intelligence Technology Co Ltd
Priority to CN201911086956.7A priority Critical patent/CN110825840B/zh
Publication of CN110825840A publication Critical patent/CN110825840A/zh
Application granted granted Critical
Publication of CN110825840B publication Critical patent/CN110825840B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种词库扩充方法、装置、设备及存储介质,属于智能语音技术领域。所述方法包括:获取待添加的至少一个词语和所述至少一个词语的词语类别;将所述至少一个词语与意图词库进行比对,确定所述至少一个词语中未包含在所述意图词库中的目标词语,所述意图词库用于根据词语类别存储用于表达意图的词语;将所述目标词语添加到所述意图词库中,与所述目标词语的词语类别对应存储。本申请通过在获取到待添加的词语和词语类别后,根据词语类别,将未包含在意图词库中的目标词语添加到意图词库中。上述技术方案提供了添加词语到意图词库的功能,使得用户可以根据自己的需求,自动添加词语到意图词库,实现对意图词库的扩充。

Description

词库扩充方法、装置、设备及存储介质
技术领域
本申请涉及智能语音技术领域,尤其涉及一种词库扩充方法、装置、设备及存储介质。
背景技术
随着智能语音技术的发展,智能语音交互逐渐成为人机交互的热门方法,智能语音识别***通过自动语音识别过程识别用户输入的语音,再通过自然语言处理过程解析用户的意图,但是由于中文语句的复杂性,智能语音识别***的厂商一般会建立专门的意图词库进行意图解析。
目前,用户在使用智能语音识别***时,输入语音后,智能语音识别***先对用户的语音进行语音识别,再根据语音识别到的词语在意图词库中查询对应的意图词语,根据查询到的意图词语确定用户的意图。然而中文拥有大量的词语,随着时代的发展逐渐会出现一些新的词语,厂商在建立意图词库时,不能做到将所有词语都覆盖到意图词库中,导致如果用户说出意图词库中没有的词语时,智能语音识别***无法根据用户的语音,确定用户的意图,因此,亟需一种词库扩充方法,对意图词库进行扩充。
发明内容
本申请实施例提供了一种词库扩充方法、装置、设备及存储介质,可以对意图词库进行扩充。所述技术方案如下:
第一方面,提供一种词库扩充方法,包括:
获取待添加的至少一个词语和所述至少一个词语的词语类别;
将所述至少一个词语与意图词库进行比对,确定所述至少一个词语中未包含在所述意图词库中的目标词语,所述意图词库用于根据词语类别存储用于表达意图的词语;
将所述目标词语添加到所述意图词库中,与所述目标词语的词语类别对应存储。
在一种可能实现方式中,所述获取待添加的至少一个词语和所述至少一个词语的词语类别,包括:
接收第一用户对第一接口的访问指令,获取所述意图词库中的词语类别;
显示所述意图词库中的词语类别;
获取所述至少一个词语以及从所述意图词库中的词语类别中选取的所述至少一个词语的词语类别。
在一种可能实现方式中,所述获取所述至少一个词语以及从所述意图词库中的词语类别中选取的所述至少一个词语的词语类别,包括:
通过第二接口获取至少一个目标文件,所述至少一个目标文件根据所述至少一个词语以及所述至少一个词语的词语类别生成,同一目标文件中包括同一词语类别的词语。
在一种可能实现方式中,所述将所述至少一个词语与所述意图词库进行比对,确定所述至少一个词语中未包含在所述意图词库中的目标词语,包括:
对于所述至少一个词语中每个词语类别的词语,将所述词语类别的词语与所述意图词库中同一词语类别的词语进行比对,从所述词语类别的词语中,去除所述意图词库中已有的词语,将剩余的词语确定为所述目标词语。
在一种可能实现方式中,所述将所述词语类别的词语与所述意图词库中同一词语类别的词语进行比对,包括:
在所述词语类别的词语中进行去重处理;
将去重处理后的词语与所述意图词库中同一词语类别的词语进行比对。
在一种可能实现方式中,所述获取待添加的至少一个词语和所述至少一个词语的词语类别之前,所述方法还包括:
当获取到第二用户的第一语音时,对所述第一语音进行语音识别,得到所述第一语音的第一文本信息;
对所述第一文本信息进行分词处理,得到多个词语;
当所述多个词语中的第一词语未包含在所述意图词库中时,输出用户提示信息,所述用户提示信息用于提示所述第一词语未包含在所述意图词库中;
接收所述第二用户的确认添加指令,所述确认添加指令用于指示确认进行词语添加。
在一种可能实现方式中,所述接收所述第二用户的确认添加指令之前,所述方法还包括:
接收所述第二用户的词语添加指令,所述词语添加指令用于指示进行词语添加;
输出确认提示信息,所述确认提示信息用于提示是否确认进行词语添加。
在一种可能实现方式中,所述获取待添加的至少一个词语和所述至少一个词语的词语类别,包括:
将所述第一词语获取为所述待添加的至少一个词语,将所述第一词语的词语类别获取为所述至少一个词语的词语类别。
在一种可能实现方式中,所述获取待添加的至少一个词语和所述至少一个词语的词语类别,包括:
获取所述第二用户输入的第二词语和所述第二词语的词语类别,所述第二词语与所述第一词语相同或不同;
将所述第二词语获取为所述待添加的至少一个词语,将所述第二词语的词语类别获取为所述至少一个词语的词语类别。
在一种可能实现方式中,所述将所述至少一个词语与所述意图词库进行比对之后,所述方法还包括:
当确定所述至少一个词语中不存在所述目标词语时,输出第一提示信息,所述第一提示信息用于指示所述意图词库已存在所述至少一个词语。
在一种可能实现方式中,所述目标词语的数量为一个或多个,
所述将所述目标词语添加到所述意图词库中,与所述目标词语的词语类别对应存储,包括:
对于每个所述目标词语,将所述目标词语与敏感词库进行比对;
当所述目标词语未包含在所述敏感词库中时,将所述目标词语添加到所述意图词库中,与所述目标词语的词语类别对应存储。
在一种可能实现方式中,所述方法还包括:
当每个所述目标词语均包含在所述敏感词库中时,输出第二提示信息,所述第二提示信息用于提示敏感词语不允许添加。
在一种可能实现方式中,所述方法还包括:
当所述目标词语未包含在所述敏感词库中,且所述目标词语与所述敏感词库中任一词语的语义相似度大于相似度阈值时,将所述目标词语添加到所述敏感词库中。
在一种可能实现方式中,所述方法还包括:
获取网络新词;
将所述网络新词发送给人工审核***;
接收所述人工审核***返回的审核结果,所述审核结果用于指示所述网络新词是否为敏感词语;
当所述审核结果指示所述网络新词为敏感词语时,将所述网络新词添加到所述敏感词库中。
在一种可能实现方式中,所述将所述目标词语添加到所述意图词库中之后,所述方法还包括:
输出第三提示信息,所述第三提示信息用于提示所述至少一个词语已成功添加到所述意图词库。
第二方面,提供一种词库扩充装置,包括:
获取模块,用于获取待添加的至少一个词语和所述至少一个词语的词语类别;
确定模块,用于将所述至少一个词语与意图词库进行比对,确定所述至少一个词语中未包含在所述意图词库中的目标词语,所述意图词库用于根据词语类别存储用于表达意图的词语;
添加模块,用于将所述目标词语添加到所述意图词库中,与所述目标词语的词语类别对应存储。
在一种可能实现方式中,所述获取模块用于:
接收第一用户对第一接口的访问指令,获取所述意图词库中的词语类别;
显示所述意图词库中的词语类别;
获取所述至少一个词语以及从所述意图词库中的词语类别中选取的所述至少一个词语的词语类别。
在一种可能实现方式中,所述获取模块用于通过第二接口获取至少一个目标文件,所述至少一个目标文件根据所述至少一个词语以及所述至少一个词语的词语类别生成,同一目标文件中包括同一词语类别的词语。
在一种可能实现方式中,所述确定模块用于对于所述至少一个词语中每个词语类别的词语,将所述词语类别的词语与所述意图词库中同一词语类别的词语进行比对,从所述词语类别的词语中,去除所述意图词库中已有的词语,将剩余的词语确定为所述目标词语。
在一种可能实现方式中,所述确定模块用于:
在所述词语类别的词语中进行去重处理;
将去重处理后的词语与所述意图词库中同一词语类别的词语进行比对。
在一种可能实现方式中,所述装置还包括:
识别模块,用于当获取到第二用户的第一语音时,对所述第一语音进行语音识别,得到所述第一语音的第一文本信息;
分词模块,用于对所述第一文本信息进行分词处理,得到多个词语;
输出模块,用于当所述多个词语中的第一词语未包含在所述意图词库中时,输出用户提示信息,所述用户提示信息用于提示所述第一词语未包含在所述意图词库中;
接收模块,用于接收所述第二用户的确认添加指令,所述确认添加指令用于指示确认进行词语添加。
在一种可能实现方式中,所述接收模块还用于接收所述第二用户的词语添加指令,所述词语添加指令用于指示进行词语添加;
所述输出模块还用于输出确认提示信息,所述确认提示信息用于提示是否确认进行词语添加。
在一种可能实现方式中,所述获取模块用于将所述第一词语获取为所述待添加的至少一个词语,将所述第一词语的词语类别获取为所述至少一个词语的词语类别。
在一种可能实现方式中,所述获取模块用于:
获取所述第二用户输入的第二词语和所述第二词语的词语类别,所述第二词语与所述第一词语相同或不同;
将所述第二词语获取为所述待添加的至少一个词语,将所述第二词语的词语类别获取为所述至少一个词语的词语类别。
在一种可能实现方式中,所述装置还包括:
输出模块,用于当确定所述至少一个词语中不存在所述目标词语时,输出第一提示信息,所述第一提示信息用于指示所述意图词库已存在所述至少一个词语。
在一种可能实现方式中,所述目标词语的数量为一个或多个,
所述添加模块用于:
对于每个所述目标词语,将所述目标词语与敏感词库进行比对;
当所述目标词语未包含在所述敏感词库中时,将所述目标词语添加到所述意图词库中,与所述目标词语的词语类别对应存储。
在一种可能实现方式中,所述装置还包括:
输出模块,用于当每个所述目标词语均包含在所述敏感词库中时,输出第二提示信息,所述第二提示信息用于提示敏感词语不允许添加。
在一种可能实现方式中,所述装置还包括:
所述添加模块还用于当所述目标词语未包含在所述敏感词库中,且所述目标词语与所述敏感词库中任一词语的语义相似度大于相似度阈值时,将所述目标词语添加到所述敏感词库中。
在一种可能实现方式中,所述装置还包括:
所述获取模块还用于获取网络新词;
发送模块,用于将所述网络新词发送给人工审核***;
接收模块,用于接收所述人工审核***返回的审核结果,所述审核结果用于指示所述网络新词是否为敏感词语;
所述添加模块还用于当所述审核结果指示所述网络新词为敏感词语时,将所述网络新词添加到所述敏感词库中。
在一种可能实现方式中,所述装置还包括:
输出模块,用于输出第三提示信息,所述第三提示信息用于提示所述至少一个词语已成功添加到所述意图词库。
第三方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现第一方面或第一方面的任一种实现方式所述的词库扩充方法。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现第一方面或第一方面的任一种实现方式所述的词库扩充方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过在获取到待添加的词语和词语类别后,根据词语类别,将未包含在意图词库中的目标词语添加到意图词库中。上述技术方案提供了添加词语到意图词库的功能,使得用户可以根据自己的需求,自动添加词语到意图词库,实现对意图词库的扩充。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种词库扩充方法的实施环境示意图;
图2是本申请实施例提供的一种词库扩充方法的流程图;
图3是本申请实施例提供的一种词库扩充方法的流程图;
图4是本申请实施例提供的一种词库扩充装置的结构示意图;
图5是本申请实施例提供的一种电子设备500的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请实施例提供的一种词库扩充方法的实施环境示意图,参见图1,该实施环境可以包括两种,第一种实施环境可以包括电子设备101,如图1中的(a)所示,第二种实施环境可以包括电子设备102和服务器103,如图1中的(b)所示。
在第一种实施环境下,电子设备101为可以与用户进行语音交互的任一智能设备,能够实现智能语音识别功能,包括自动语音识别和自然语言处理。例如,用户在电子设备101上输入语音,电子设备101确定该语音对应的操作指令后,执行该操作指令。
在第二种实施环境下,电子设备101可以通过与服务器102之间的交互,实现智能语音识别功能,例如,用户在电子设备101上输入语音,电子设备101向服务器102发送用户的语音,服务器102在接收到用户的语音后,确定该语音对应的操作指令,将操作指令返回给电子设备101,电子设备101接收到操作指令后,执行该操作指令。当然,电子设备102也可以对用户的语音进行处理后,再发送给服务器102。
图2是本申请实施例提供的一种词库扩充方法的流程图。参见图2,该方法包括:
201、获取待添加的至少一个词语和该至少一个词语的词语类别。
202、将该至少一个词语与意图词库进行比对,确定该至少一个词语中未包含在该意图词库中的目标词语,该意图词库用于根据词语类别存储用于表达意图的词语。
203、将该目标词语添加到该意图词库中,与该目标词语的词语类别对应存储。
本申请实施例提供的方法,通过在获取到待添加的词语和词语类别后,根据词语类别,将未包含在意图词库中的目标词语添加到意图词库中。上述技术方案提供了添加词语到意图词库的功能,使得用户可以根据自己的需求,自动添加词语到意图词库,实现对意图词库的扩充。
在一种可能实现方式中,该获取待添加的至少一个词语和该至少一个词语的词语类别,包括:
接收第一用户对第一接口的访问指令,获取该意图词库中的词语类别;
显示该意图词库中的词语类别;
获取该至少一个词语以及从该意图词库中的词语类别中选取的该至少一个词语的词语类别。
在一种可能实现方式中,该获取该至少一个词语以及从该意图词库中的词语类别中选取的该至少一个词语的词语类别,包括:
通过第二接口获取至少一个目标文件,该至少一个目标文件根据该至少一个词语以及该至少一个词语的词语类别生成,同一目标文件中包括同一词语类别的词语。
在一种可能实现方式中,该将该至少一个词语与该意图词库进行比对,确定该至少一个词语中未包含在该意图词库中的目标词语,包括:
对于该至少一个词语中每个词语类别的词语,将该词语类别的词语与该意图词库中同一词语类别的词语进行比对,从该词语类别的词语中,去除该意图词库中已有的词语,将剩余的词语确定为该目标词语。
在一种可能实现方式中,该将该词语类别的词语与该意图词库中同一词语类别的词语进行比对,包括:
在该词语类别的词语中进行去重处理;
将去重处理后的词语与该意图词库中同一词语类别的词语进行比对。
在一种可能实现方式中,该获取待添加的至少一个词语和该至少一个词语的词语类别之前,该方法还包括:
当获取到第二用户的第一语音时,对该第一语音进行语音识别,得到该第一语音的第一文本信息;
对该第一文本信息进行分词处理,得到多个词语;
当该多个词语中的第一词语未包含在该意图词库中时,输出用户提示信息,该用户提示信息用于提示该第一词语未包含在该意图词库中;
接收该第二用户的确认添加指令,该确认添加指令用于指示确认进行词语添加。
在一种可能实现方式中,该接收该第二用户的确认添加指令之前,该方法还包括:
接收该第二用户的词语添加指令,该词语添加指令用于指示进行词语添加;
输出确认提示信息,该确认提示信息用于提示是否确认进行词语添加。
在一种可能实现方式中,该获取待添加的至少一个词语和该至少一个词语的词语类别,包括:
将该第一词语获取为该待添加的至少一个词语,将该第一词语的词语类别获取为该至少一个词语的词语类别。
在一种可能实现方式中,该获取待添加的至少一个词语和该至少一个词语的词语类别,包括:
获取该第二用户输入的第二词语和该第二词语的词语类别,该第二词语与该第一词语相同或不同;
将该第二词语获取为该待添加的至少一个词语,将该第二词语的词语类别获取为该至少一个词语的词语类别。
在一种可能实现方式中,该将该至少一个词语与该意图词库进行比对之后,该方法还包括:
当确定该至少一个词语中不存在该目标词语时,输出第一提示信息,该第一提示信息用于指示该意图词库已存在该至少一个词语。
在一种可能实现方式中,该目标词语的数量为一个或多个,
该将该目标词语添加到该意图词库中,与该目标词语的词语类别对应存储,包括:
对于每个该目标词语,将该目标词语与敏感词库进行比对;
当该目标词语未包含在该敏感词库中时,将该目标词语添加到该意图词库中,与该目标词语的词语类别对应存储。
在一种可能实现方式中,该方法还包括:
当每个该目标词语均包含在该敏感词库中时,输出第二提示信息,该第二提示信息用于提示敏感词语不允许添加。
在一种可能实现方式中,该方法还包括:
当该目标词语未包含在该敏感词库中,且该目标词语与该敏感词库中任一词语的语义相似度大于相似度阈值时,将该目标词语添加到该敏感词库中。
在一种可能实现方式中,该方法还包括:
获取网络新词;
将该网络新词发送给人工审核***;
接收该人工审核***返回的审核结果,该审核结果用于指示该网络新词是否为敏感词语;
当该审核结果指示该网络新词为敏感词语时,将该网络新词添加到该敏感词库中。
在一种可能实现方式中,该将该目标词语添加到该意图词库中之后,该方法还包括:
输出第三提示信息,该第三提示信息用于提示该至少一个词语已成功添加到该意图词库。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图3是本申请实施例提供的一种词库扩充方法的流程图。以该方法由电子设备执行为例,参见图3,该方法包括:
301、获取待添加的至少一个词语和该至少一个词语的词语类别。
其中,待添加的至少一个词语是指用户想要添加到意图词库中的词语。该用户可以是第一用户,也可以是第二用户,第一用户是接入***的开发者用户,如企业用户、团体用户等,第二用户是普通用户,如个人用户。词语类别也可以称为domain分类。
对于第一用户,在一种可能实现方式中,该获取待添加的至少一个词语和该至少一个词语的词语类别,包括:接收第一用户对第一接口的访问指令,获取该意图词库中的词语类别;显示该意图词库中的词语类别;获取该至少一个词语以及从该意图词库中的词语类别中选取的该至少一个词语的词语类别。
第一用户可以先访问***的第一接口,即API(Application ProgrammingInterface,应用程序接口),该第一接口可以是一个用于查询数据的接口,***可以返回意图词库中的所有词语类别,电子设备可以显示这些词语类别。第一用户可以在电子设备上输入待添加的至少一个词语,并从电子设备显示的词语类别中选取至少一个词语的词语类别,使得电子设备可以获取到该至少一个词语和该至少一个词语的词语类别。其中,用户选取的词语类别可以为一个,如该至少一个词语为同一词语类别的情况,用户选取的词语类别也可以为多个,如该至少一个词语为不同词语类别的情况。通过显示意图词库的所有分类,使得用户可以从中选取待添加词语的词语类别。
在一种可能实现方式中,该获取该至少一个词语以及从该意图词库中的词语类别中选取的该至少一个词语的词语类别,包括:通过第二接口获取至少一个目标文件,该至少一个目标文件根据该至少一个词语以及该至少一个词语的词语类别生成,同一目标文件中包括同一词语类别的词语。
第一用户可以将自己希望添加的至少一个词语按照不同的词语类别写成目标文件,然后通过post请求发送给***的第二接口,该第二接口可以是一个用于导入数据的接口,电子设备可以通过第二接口获取到该至少一个目标文件,该目标文件可以为JSON(JavaScript Object Notation,对象简谱)格式的文件。通过按照不同的词语类别,将待添加的词语写成目标文件,可以实现词语的批量导入。
对于第二用户,在一种可能实现方式中,该获取待添加的至少一个词语和该至少一个词语的词语类别之前,该方法还包括:当获取到第二用户的第一语音时,对该第一语音进行语音识别,得到该第一语音的第一文本信息;对该第一文本信息进行分词处理,得到多个词语;当该多个词语中的第一词语未包含在该意图词库中时,输出用户提示信息,该用户提示信息用于提示该第一词语未包含在该意图词库中;接收该第二用户的确认添加指令,该确认添加指令用于指示确认进行词语添加。
第二用户可以在电子设备上输入第一语音,电子设备可以先采用语音识别技术,对第一语音进行语音识别,得到第一文本信息后,再采用分词算法,对第一文本信息进行分词,得到多个词语,然后电子设备可以将该多个词语与意图词库进行对比,当确认该多个词语中的第一词语未包含在该意图词库中时,通过输出提示信息的方式,提示第二用户该第一词语未包含在该意图词库中。电子设备输入提示信息的方式包括但不限于语音输出、文字显示等。第二用户在得到该提示信息后,可以通过在电子设备上进行确认,如通过语音方式确认,触发确认添加指令,该确认添加指令可以是一个确认语句。电子设备在接收到确认添加指令后,可以得知第二用户确认进行词语添加,此时,电子设备可以开启词语添加场景,进行后续的词语添加流程。通过在意图词库中不包含用户说的词语时,对用户进行提示,使得用户可以及时进行词语添加。
在一种可能实现方式中,该接收第二用户的确认添加指令之前,该方法还包括:接收该第二用户的词语添加指令,该词语添加指令用于指示进行词语添加;输出确认提示信息,该确认提示信息用于提示是否确认进行词语添加。
第二用户在发现自己说的词语未包含在意图词库中,也即无法匹配时,可以发起词语添加指令,电子设备在接收到词语添加指令后,可以得知用户想要进行词语添加,此时可以再输出一个确认提示信息,让用户确认是否进行词语添加。
其中,该词语添加指令可以是一个特定的命令语句,该确认提示信息可以是一个confirm(确认)语句。通过与用户的交互来确认进行词语添加,可以保证准确性。
对于第二用户,在一种可能实现方式中,该获取待添加的至少一个词语和该至少一个词语的词语类别,包括:将该第一词语获取为该待添加的至少一个词语,将该第一词语的词语类别获取为该至少一个词语的词语类别。
由于第二用户是在第一语音中的第一词语未包含在意图词库中的情况下,触发的词语添加流程,该第一词语很有可能为该第二用户需要添加的词语,因而电子设备可以直接将该第一词语作为待添加词语,并将第一词语的词语类别作为待添加词语的词语类别,使得电子设备可以根据该词语类别,将待添加词语添加到意图词库中。
在一种可能实现方式中,该获取待添加的至少一个词语和该至少一个词语的词语类别,包括:获取该第二用户输入的第二词语和该第二词语的词语类别,该第二词语与该第一词语相同或不同;将该第二词语获取为该待添加的至少一个词语,将该第二词语的词语类别获取为该至少一个词语的词语类别。
第二用户也可以在电子设备上输入需要添加的第二词语,输入方式可以是语音输入,也可以是文字输入,电子设备可以将第二用户当前输入的第二词语作为待添加词语,并获取第二词语的词语类别。通过第二用户输入要添加的词语,可以保证***添加的词语是第二用户真实想要添加的,从而提高词语添加的准确性。
302、将该至少一个词语与意图词库进行比对,确定该至少一个词语中未包含在该意图词库中的目标词语,该意图词库用于根据词语类别存储用于表达意图的词语。
电子设备在获取到用户要添加的至少一个词语后,可以将该至少一个词语与意图词库中已有的词语进行比对,如果该至少一个词语中有一个或多个词语未包含在该意图词库中,则可以将该一个或多个词语作为目标词语,也即是,目标词语的数量为一个或多个。
在一种可能实现方式中,该将该至少一个词语与该意图词库进行比对,确定该至少一个词语中未包含在该意图词库中的目标词语,包括:对于该至少一个词语中每个词语类别的词语,将该词语类别的词语与该意图词库中同一词语类别的词语进行比对,从该词语类别的词语中,去除该意图词库中已有的词语,将剩余的词语确定为该目标词语。
对于待添加的至少一个词语,电子设备可以按照词语类别,与意图词库中已有的词语进行比对,对意图词库中已有的词语在该至少一个词语中去除。对于第一用户,第一用户待添加的至少一个词语以至少一个目标文件的形式存在,对于该至少一个目标文件,电子设备可以从该至少一个目标文件中提取出该至少一个词语,由于不同目标文件对应不同的词语类别,因而电子设备可以从同一个目标文件中提取出同一词语类别的词语,然后将该同一类别的词语与意图词库中已有的词语进行比对。
以用户待添加的至少一个词语包括A类别的两个词语(词语1、词语2)和B类别的三个词语(词语3、词语4和词语5)为例,电子设备可以将A类别的2个词语与意图词库中A类别的词语进行比对,如果意图词库中A类别的词语包括词语1,则将该词语1从该两个词语中去除,将剩余的词语2作为目标词语。同理,电子设备可以将B类别的3个词语与意图词库中B类别的词语进行比对,如果意图词库中B类别的词语包括词语4,则将该词语4从该三个词语中去除,将剩余的词语3和词语5作为目标词语。这样,电子设备确定的目标词语为词语2、词语3和词语5。通过按照词语类别与意图词库中已有的词语进行比对,可以提高比对效率。
在一种可能实现方式中,该将该词语类别的词语与该意图词库中同一词语类别的词语进行比对,包括:在该词语类别的词语中进行去重处理;将去重处理后的词语与该意图词库中同一词语类别的词语进行比对。
对于待添加的至少一个词语中同一词语类别的词语,其中可能存在相同的词语,电子设备在将同一词语类别的词语与意图词库进行比对之前,可以先在该词语类别的词语中进行去重,再将去重后剩余的词语与意图词库进行比对,可以进一步提高比对的效率。对应上述举例,在A类别中,词语1和词语2可能相同,因此,将A类别的词语1和词语2与意图词库进行比对之前,可以在A类别的词语1和词语2中进行去重,去重后剩余词语1或词语2,将词语1或词语2与意图词库中A类别的词语进行比对。
本步骤是以至少一个词语中存在目标词语为例进行说明,在一个可能实施例中,该至少一个词语中可能并不存在目标词语,此情况下,电子设备将该至少一个词语与该意图词库进行比对之后,该方法还包括:当确定该至少一个词语中不存在该目标词语时,输出第一提示信息,该第一提示信息用于指示该意图词库已存在该至少一个词语。
电子设备将至少一个词语与该意图词库进行比对之后,如果发现该至少一个词语均包含在意图词库中,则可以确定该至少一个词语中不存在目标词语,因而可以通过输出第一提示信息的方式对用户进行提示,电子设备输出第一提示信息方式包括但不限于语音输出、文字显示方式等,也即是,该第一提示信息可以是语音提示信息,也可以是文字提示信息。通过输出第一提示信息,使得用户能够得知意图词库中已存在自己想要添加的词语。
需要说明的是,本步骤302中确定的目标词语的数量为一个或多个。
303、对于每个该目标词语,将该目标词语与敏感词库进行比对。
其中,该敏感词库用于存储敏感词语,如涉及暴力、色情、政治等的词语。该敏感词库可以建立有一个动态更新机制,定期对该敏感词库进行更新操作,该更新操作包括添加操作或删除操作。考虑到随着网络的发展,网络上会逐渐出现一些网络新词,也称为“网络新造词”或“网络用语”,即多在网络上流行的非正式语言,如“火星文”。这些网络新词可能是敏感词语,可以用来扩充敏感词库。在一种可能实现方式中,针对网络新词的敏感词库的扩充方法可以包括:获取网络新词;将该网络新词发送给人工审核***;接收该人工审核***返回的审核结果,该审核结果用于指示该网络新词是否为敏感词语;当该审核结果指示该网络新词为敏感词语时,将该网络新词添加到该敏感词库中。通过将网络新词发送给人工审核***进行人工审核,根据人工审核结果确定是否将该网络新词添加到敏感词库中,可以保证准确性。
对于每个目标词语,电子设备可以对该目标词语进行敏感词检测,具体地,电子设备可以采用将目标词语与存储有敏感词语的敏感词库进行比对的方式,来确定该目标词语是否为敏感词语。
针对电子设备按照词语类别进行比对为例,对于每个词语类别,电子设备在确定一个词语类别中的目标词语后,可以先将该词语类别中的目标词语与敏感词库进行比对,再确定下一个词语类别中的目标词语,将该下一个词语类别中的目标词语与敏感词库进行比对。当然,电子设备也可以在确定出各个词语类别中的目标词语后,统一将所有的目标词语与敏感词语进行比对,本申请实施例对此不做限定。
304、当该目标词语未包含在该敏感词库中时,将该目标词语添加到该意图词库,与该目标词语的词语类别对应存储。
对于每个目标词语,如果该目标词语未包含在敏感词库中,也即是,目标词语与敏感词库中的敏感词语不同时,表明目标词语非敏感词语,此情况下电子设备可以将该目标词语添加到意图词库中,与该目标词语的词语类别对应存储,这样意图词库中该词语类别的词语中就包含了该目标词语。如果该目标词语包含在敏感词库中,则可以去除该目标词语,将剩下的目标词语添加到意图词库。
在一种可能实现方式中,该方法还包括:当该目标词语未包含在该敏感词库中,且该目标词语与该敏感词库中任一词语的语义相似度大于相似度阈值时,将该目标词语添加到该敏感词库中。
电子设备可以对目标词语与敏感词库中的词语进行词义分析,如果目标词语与该敏感词库中的敏感词语不同且与敏感词语的语义接近时,可以将该目标词语添加到敏感词库中。通过将与敏感词语的语义接近的词语添加到敏感词库中,可以达到对敏感词库进行扩充的效果,提高利用敏感词库进行敏感词检测的准确性。
本步骤是以存在未包含在敏感词库中的目标词语为例进行说明,在一个可能实施例中,目标词语也可能均包含在敏感词库中,相应地,在一种可能实现方式中,将每个目标词语与敏感词库进行比对之后,该方法还包括:当每个目标词语均包含在该敏感词库中时,输出第二提示信息,该第二提示信息用于提示敏感词语不允许添加。
当每个目标词语均包含在敏感词库中时,表明每个目标词语均为敏感词语,此情况下,电子设备可以通过输出第二提示信息的方式对用户进行提示,该第二提示信息可以是语音提示信息,也可以是文字提示信息。通过输出第二提示信息,使得用户能够得知自己想要添加的词语为敏感词语而不允许添加到意图词库。
需要说明的是,步骤303和步骤304是将该目标词语添加到该意图词库,与该目标词语的词语类别对应存储的一种可能实现方式。在一个可能实施例中,电子设备也可以直接将步骤302中确定的目标词语添加到该意图词库。
305、输出第三提示信息,该第三提示信息用于提示该至少一个词语已成功添加到该意图词库。
电子设备将目标词语成功添加到意图词库后,可以通过输出第三提示信息的方式对用户进行提示,该第三提示信息可以是语音提示信息,也可以是文字提示信息。通过输出第三提示信息,使得用户能够得知想要添加的词语已成功添加到意图词库,此时用户就可以通过新增的词语来实现语音意图模式匹配了。
需要说明的是,步骤305为可选步骤。在一个可能实施例中,电子设备将目标词语添加到意图词库后,也可以不输出添加成功信息。
相关技术中如果当前意图词库中没有某些词语,则用户在说出该词语时,没法与该意图词库中的词语匹配,因而无法实现意图解析,而本申请实施例提供的技术方案,对于智能语音识别***来说,其可以提供自动添加词语到意图词库的功能,当用户发现***无法理解自己的话术内容时,如果是因为匹配不到用户说的词语,即意图词库中未包含用户说的词语,可以将没法实现匹配的词语自动加入到意图词库,来实现对用户意图识别的功能的完善。这样,用户再说这个词语的时候就能实现这个词语的识别和用户意图的匹配了。
需要说明的是,本申请实施例是以上述各个步骤由电子设备执行为例进行说明,可以理解的是,上述各个步骤也可以由电子设备和服务器之间的交互来实现,例如,步骤301可以由电子设备执行,步骤302至步骤304可以由服务器执行(如电子设备执行步骤301后,可以将待添加的至少一个词语和词语类别发送给服务器),步骤305可以由电子设备执行(如服务器在执行步骤304后,可以生成第三提示信息,将第三提示信息发送给电子设备执行),本申请实施例对此不做限定。
本申请实施例提供的方法,通过在获取到待添加的词语和词语类别后,根据词语类别,将未包含在意图词库中的目标词语添加到意图词库中。上述技术方案提供了添加词语到意图词库的功能,使得用户可以根据自己的需求,自动添加词语到意图词库,实现对意图词库的扩充。
图4是本申请实施例提供的一种词库扩充装置的结构示意图。参照图4,该装置包括:
获取模块401,用于获取待添加的至少一个词语和该至少一个词语的词语类别;
确定模块402,用于将该至少一个词语与意图词库进行比对,确定该至少一个词语中未包含在该意图词库中的目标词语,该意图词库用于根据词语类别存储用于表达意图的词语;
添加模块403,用于将该目标词语添加到该意图词库中,与该目标词语的词语类别对应存储。
在一种可能实现方式中,该获取模块用于:
接收第一用户对第一接口的访问指令,获取该意图词库中的词语类别;
显示该意图词库中的词语类别;
获取该至少一个词语以及从该意图词库中的词语类别中选取的该至少一个词语的词语类别。
在一种可能实现方式中,该获取模块用于通过第二接口获取至少一个目标文件,该至少一个目标文件根据该至少一个词语以及该至少一个词语的词语类别生成,同一目标文件中包括同一词语类别的词语。
在一种可能实现方式中,该确定模块用于对于该至少一个词语中每个词语类别的词语,将该词语类别的词语与该意图词库中同一词语类别的词语进行比对,从该词语类别的词语中,去除该意图词库中已有的词语,将剩余的词语确定为该目标词语。
在一种可能实现方式中,该确定模块用于:
在该词语类别的词语中进行去重处理;
将去重处理后的词语与该意图词库中同一词语类别的词语进行比对。
在一种可能实现方式中,该装置还包括:
识别模块,用于当获取到第二用户的第一语音时,对该第一语音进行语音识别,得到该第一语音的第一文本信息;
分词模块,用于对该第一文本信息进行分词处理,得到多个词语;
输出模块,用于当该多个词语中的第一词语未包含在该意图词库中时,输出用户提示信息,该用户提示信息用于提示该第一词语未包含在该意图词库中;
接收模块,用于接收该第二用户的确认添加指令,该确认添加指令用于指示确认进行词语添加。
在一种可能实现方式中,该接收模块还用于接收该第二用户的词语添加指令,该词语添加指令用于指示进行词语添加;
该输出模块还用于输出确认提示信息,该确认提示信息用于提示是否确认进行词语添加。
在一种可能实现方式中,该获取模块用于将该第一词语获取为该待添加的至少一个词语,将该第一词语的词语类别获取为该至少一个词语的词语类别。
在一种可能实现方式中,该获取模块用于:
获取该第二用户输入的第二词语和该第二词语的词语类别,该第二词语与该第一词语相同或不同;
将该第二词语获取为该待添加的至少一个词语,将该第二词语的词语类别获取为该至少一个词语的词语类别。
在一种可能实现方式中,该装置还包括:
输出模块,用于当确定该至少一个词语中不存在该目标词语时,输出第一提示信息,该第一提示信息用于指示该意图词库已存在该至少一个词语。
在一种可能实现方式中,该目标词语的数量为一个或多个,
该添加模块用于:
对于每个该目标词语,将该目标词语与敏感词库进行比对;
当该目标词语未包含在该敏感词库中时,将该目标词语添加到该意图词库中,与该目标词语的词语类别对应存储。
在一种可能实现方式中,该装置还包括:
输出模块,用于当每个该目标词语均包含在该敏感词库中时,输出第二提示信息,该第二提示信息用于提示敏感词语不允许添加。
在一种可能实现方式中,该装置还包括:
该添加模块403还用于当该目标词语未包含在该敏感词库中,且该目标词语与该敏感词库中任一词语的语义相似度大于相似度阈值时,将该目标词语添加到该敏感词库中。
在一种可能实现方式中,该装置还包括:
该获取模块401还用于获取网络新词;
发送模块,用于将该网络新词发送给人工审核***;
接收模块,用于接收该人工审核***返回的审核结果,该审核结果用于指示该网络新词是否为敏感词语;
该添加模块403还用于当该审核结果指示该网络新词为敏感词语时,将该网络新词添加到该敏感词库中。
在一种可能实现方式中,该装置还包括:
输出模块,用于输出第三提示信息,该第三提示信息用于提示该至少一个词语已成功添加到该意图词库。
需要说明的是:上述实施例提供的词库扩充装置在词库扩充时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的词库扩充装置与词库扩充方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图5是本申请实施例提供的一种电子设备500的结构示意图,该电子设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)501和一个或一个以上的存储器502,其中,该存储器502中存储有至少一条指令,该至少一条指令由该处理器501加载并执行以实现上述各个方法实施例提供的方法。当然,该电子设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该电子设备还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种存储有计算机程序的计算机可读存储介质,例如存储有计算机程序的存储器,上述计算机程序被处理器执行时实现上述实施例中的词库扩充方法。例如,该计算机可读存储介质可以是只读内存(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上该仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种词库扩充方法,其特征在于,所述方法包括:
获取待添加的至少一个词语和所述至少一个词语的词语类别;
将所述至少一个词语与意图词库进行比对,确定所述至少一个词语中未包含在所述意图词库中的目标词语,所述意图词库用于根据词语类别存储用于表达意图的词语;
将所述目标词语添加到所述意图词库中,与所述目标词语的词语类别对应存储。
2.根据权利要求1所述的方法,其特征在于,所述获取待添加的至少一个词语和所述至少一个词语的词语类别,包括:
接收第一用户对第一接口的访问指令,获取所述意图词库中的词语类别;
显示所述意图词库中的词语类别;
获取所述至少一个词语以及从所述意图词库中的词语类别中选取的所述至少一个词语的词语类别。
3.根据权利要求2所述的方法,其特征在于,所述获取所述至少一个词语以及从所述意图词库中的词语类别中选取的所述至少一个词语的词语类别,包括:
通过第二接口获取至少一个目标文件,所述至少一个目标文件根据所述至少一个词语以及所述至少一个词语的词语类别生成,同一目标文件中包括同一词语类别的词语。
4.根据权利要求1所述的方法,其特征在于,所述获取待添加的至少一个词语和所述至少一个词语的词语类别之前,所述方法还包括:
当获取到第二用户的第一语音时,对所述第一语音进行语音识别,得到所述第一语音的第一文本信息;
对所述第一文本信息进行分词处理,得到多个词语;
当所述多个词语中的第一词语未包含在所述意图词库中时,输出用户提示信息,所述用户提示信息用于提示所述第一词语未包含在所述意图词库中;
接收所述第二用户的确认添加指令,所述确认添加指令用于指示确认进行词语添加。
5.根据权利要求4所述的方法,其特征在于,所述获取待添加的至少一个词语和所述至少一个词语的词语类别,包括:
将所述第一词语获取为所述待添加的至少一个词语,将所述第一词语的词语类别获取为所述至少一个词语的词语类别。
6.根据权利要求1所述的方法,其特征在于,所述将所述至少一个词语与所述意图词库进行比对之后,所述方法还包括:
当确定所述至少一个词语中不存在所述目标词语时,输出第一提示信息,所述第一提示信息用于指示所述意图词库已存在所述至少一个词语。
7.根据权利要求1所述的方法,其特征在于,所述目标词语的数量为一个或多个,
所述将所述目标词语添加到所述意图词库中,与所述目标词语的词语类别对应存储,包括:
对于每个所述目标词语,将所述目标词语与敏感词库进行比对;
当所述目标词语未包含在所述敏感词库中时,将所述目标词语添加到所述意图词库中,与所述目标词语的词语类别对应存储。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
当每个所述目标词语均包含在所述敏感词库中时,输出第二提示信息,所述第二提示信息用于提示敏感词语不允许添加。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
当所述目标词语未包含在所述敏感词库中,且所述目标词语与所述敏感词库中任一词语的语义相似度大于相似度阈值时,将所述目标词语添加到所述敏感词库中。
10.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取网络新词;
将所述网络新词发送给人工审核***;
接收所述人工审核***返回的审核结果,所述审核结果用于指示所述网络新词是否为敏感词语;
当所述审核结果指示所述网络新词为敏感词语时,将所述网络新词添加到所述敏感词库中。
11.一种词库扩充装置,其特征在于,所述装置包括多个功能模块,所述多个功能模块用于执行权利要求1至权利要求10任一项所述的词库扩充方法。
12.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1至权利要求10任一项所述的词库扩充方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至10任一项所述的词库扩充方法。
CN201911086956.7A 2019-11-08 2019-11-08 词库扩充方法、装置、设备及存储介质 Active CN110825840B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911086956.7A CN110825840B (zh) 2019-11-08 2019-11-08 词库扩充方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911086956.7A CN110825840B (zh) 2019-11-08 2019-11-08 词库扩充方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110825840A true CN110825840A (zh) 2020-02-21
CN110825840B CN110825840B (zh) 2023-02-17

Family

ID=69553534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911086956.7A Active CN110825840B (zh) 2019-11-08 2019-11-08 词库扩充方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110825840B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400439A (zh) * 2020-02-26 2020-07-10 平安科技(深圳)有限公司 网络不良数据监控方法、装置及存储介质
CN111581971A (zh) * 2020-06-04 2020-08-25 腾讯科技(深圳)有限公司 词库的更新方法、装置、终端及存储介质
CN115456589A (zh) * 2022-09-19 2022-12-09 国网河南省电力公司信息通信公司 一种基于深度学习的合同审核方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986310A (zh) * 2010-11-16 2011-03-16 无敌科技(西安)有限公司 一种更新网络用语词典的方法及装置
CN105138663A (zh) * 2015-09-01 2015-12-09 百度在线网络技术(北京)有限公司 词库查询方法及装置
CN105389349A (zh) * 2015-10-27 2016-03-09 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN105426357A (zh) * 2015-11-06 2016-03-23 武汉卡比特信息有限公司 语音快速选择方法
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN108536821A (zh) * 2018-04-09 2018-09-14 北京信息科技大学 一种赛事新闻领域词库的构建方法
CN109408818A (zh) * 2018-10-12 2019-03-01 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及存储介质
CN109933774A (zh) * 2017-12-15 2019-06-25 腾讯科技(深圳)有限公司 语义识别方法、装置存储介质和电子装置
US20190205326A1 (en) * 2018-01-04 2019-07-04 Fujitsu Limited Search result output method, search result output method, and non-transitory computer-readable storage medium for storing program

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986310A (zh) * 2010-11-16 2011-03-16 无敌科技(西安)有限公司 一种更新网络用语词典的方法及装置
CN105138663A (zh) * 2015-09-01 2015-12-09 百度在线网络技术(北京)有限公司 词库查询方法及装置
CN105389349A (zh) * 2015-10-27 2016-03-09 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN105426357A (zh) * 2015-11-06 2016-03-23 武汉卡比特信息有限公司 语音快速选择方法
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN109933774A (zh) * 2017-12-15 2019-06-25 腾讯科技(深圳)有限公司 语义识别方法、装置存储介质和电子装置
US20190205326A1 (en) * 2018-01-04 2019-07-04 Fujitsu Limited Search result output method, search result output method, and non-transitory computer-readable storage medium for storing program
CN108536821A (zh) * 2018-04-09 2018-09-14 北京信息科技大学 一种赛事新闻领域词库的构建方法
CN109408818A (zh) * 2018-10-12 2019-03-01 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHENXI CUI: "Recognize user intents in online interactions from massive social media data", 《2017 IEEE 2ND INTERNATIONAL CONFERENCE ON BIG DATA ANALYSIS》 *
刘哲: "情感词库构建与网络新词发现算法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
齐富民 等: "SVM词库智能更新技术在搜索分类中的应用", 《计算机工程与设计》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400439A (zh) * 2020-02-26 2020-07-10 平安科技(深圳)有限公司 网络不良数据监控方法、装置及存储介质
CN111581971A (zh) * 2020-06-04 2020-08-25 腾讯科技(深圳)有限公司 词库的更新方法、装置、终端及存储介质
CN111581971B (zh) * 2020-06-04 2024-01-23 腾讯科技(深圳)有限公司 词库的更新方法、装置、终端及存储介质
CN115456589A (zh) * 2022-09-19 2022-12-09 国网河南省电力公司信息通信公司 一种基于深度学习的合同审核方法和装置

Also Published As

Publication number Publication date
CN110825840B (zh) 2023-02-17

Similar Documents

Publication Publication Date Title
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
CN110825840B (zh) 词库扩充方法、装置、设备及存储介质
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
CN111339751A (zh) 一种文本关键词处理方法、装置及设备
JP7289330B2 (ja) 新規カテゴリタグの発掘方法及び装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
CN104573099A (zh) 题目的搜索方法及装置
WO2023024975A1 (zh) 文本处理方法、装置和电子设备
CN111488468A (zh) 地理信息知识点抽取方法、装置、存储介质及计算机设备
CN113961768B (zh) 敏感词检测方法、装置、计算机设备和存储介质
CN111859013A (zh) 数据处理方法、装置、终端和存储介质
US11822589B2 (en) Method and system for performing summarization of text
CN113128205B (zh) 一种剧本信息处理方法、装置、电子设备及存储介质
CN115858776B (zh) 一种变体文本分类识别方法、***、存储介质和电子设备
CN112287077A (zh) 用于文档的结合rpa和ai的语句提取方法、装置、存储介质及电子设备
CN116226681B (zh) 一种文本相似性判定方法、装置、计算机设备和存储介质
US11221856B2 (en) Joint bootstrapping machine for text analysis
WO2019148797A1 (zh) 自然语言处理方法、装置、计算机设备和存储介质
CN116186219A (zh) 一种人机对话交互方法方法、***及存储介质
CN114676155A (zh) 代码提示信息的确定方法、数据集的确定方法及电子设备
CN114003685A (zh) 分词位置索引构建方法及其装置、文档检索方法及其装置
CN113946668A (zh) 基于边缘节点的语义处理方法、***、装置及存储介质
CN112905752A (zh) 一种智能交互方法、装置、设备以及存储介质
CN112183114A (zh) 模型训练、语义完整性识别方法和装置
CN117591624B (zh) 一种基于语义索引关系的测试用例推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant