CN110209804B - 目标语料的确定方法和装置、存储介质及电子装置 - Google Patents

目标语料的确定方法和装置、存储介质及电子装置 Download PDF

Info

Publication number
CN110209804B
CN110209804B CN201810361798.0A CN201810361798A CN110209804B CN 110209804 B CN110209804 B CN 110209804B CN 201810361798 A CN201810361798 A CN 201810361798A CN 110209804 B CN110209804 B CN 110209804B
Authority
CN
China
Prior art keywords
target
corpus
query
keyword
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810361798.0A
Other languages
English (en)
Other versions
CN110209804A (zh
Inventor
周辉阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810361798.0A priority Critical patent/CN110209804B/zh
Publication of CN110209804A publication Critical patent/CN110209804A/zh
Application granted granted Critical
Publication of CN110209804B publication Critical patent/CN110209804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种目标语料的确定方法和装置、存储介质及电子装置。其中,该方法包括:获取在时间周期内接收到的查询语料,其中,查询语料包括查询信息和响应于查询信息而被访问的访问资源定位符URL;在查询语料中获取第一查询语料,其中,第一查询语料包含目标领域对应的目标关键词、且第一查询语料中包括的访问URL包含目标URL中的至少一个,目标URL为目标领域对应的URL;在第一查询语料中确定出目标语料,其中,所述目标语料为无法被所述目标领域中已有模板读取的语料。本发明解决了相关技术所确定出的已有模板无法读取的语料的准确性较低的技术问题。

Description

目标语料的确定方法和装置、存储介质及电子装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种目标语料的确定方法和装置、存储介质及电子装置。
背景技术
在确定语料的过程中,通常是根据关键词确定特定领域中已有的用于读取语料含义的模板所不支持的语料。具体来说,会先使用人为所规定的属于特定领域的关键词,粗略召回所有属于该特定领域的语料,进而再从粗略召回的语料中筛选出真正属于该特定领域的语料,以便确定该特定领域内已有模板无法读取的语料。
相关技术中确定真正特定领域的语料时,仅根据关键词粗略召回的预料进行确定,也就是说,确定过程所考虑的因素较为单一,导致所确定出的已有模板无法读取的语料的准确性较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供一种目标语料的确定方法和装置、存储介质及电子装置,以至少解决相关技术所确定出的已有模板无法读取的语料的准确性较低的技术问题。
根据本发明实施例的一个方面,提供了一种目标语料的确定方法,包括:获取在时间周期内接收到的查询语料,其中,查询语料包括查询信息和响应于查询信息而被访问的访问资源定位符URL;在查询语料中获取第一查询语料,其中,第一查询语料包含目标领域对应的目标关键词、且第一查询语料中包括的访问URL包含目标URL中的至少一个,目标URL为目标领域对应的URL;在第一查询语料中确定出目标语料,其中,目标语料为无法被目标领域中已有模板读取的语料。
根据本发明实施例的另一方面,还提供了一种目标语料的确定装置,包括:第一获取单元,用于获取在时间周期内接收到的查询语料,其中,查询语料包括查询信息和响应于查询信息而被访问的访问资源定位符URL;第二获取单元,用于在查询语料中获取第一查询语料,其中,第一查询语料包含目标领域对应的目标关键词、且第一查询语料中包括的访问URL包含目标URL中的至少一个,目标URL为目标领域对应的URL;确定单元,用于在第一查询语料中确定出目标语料,其中,所述目标语料为无法被所述目标领域中已有模板读取的语料。
根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的方法。
在本发明实施例中,根据目标URL和目标关键词在查询语料中获取第一查询语料,其中,第一查询语料包含目标领域对应的目标关键词、且第一查询语料中包括的访问URL包含目标URL中的至少一个,所述目标URL为所述目标领域对应的URL,然后,在该第一查询语料中确定出无法被目标领域中已有模板读取的目标语料,使得用于确定目标领域中已有模板读取的目标语料的第一查询语料(即,真正属于该领域的语料),可以根据目标URL结合目标关键词来确定,而不再仅根据关键词进行人工确定,从而提高了在第一查询语料中所确定的已有模板无法读取的目标语料的准确性,进而解决了相关技术所确定出的已有模板无法读取的语料的准确性较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种目标语料的确定方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的目标语料的确定方法的流程示意图;
图3是根据本发明实施例的一种可选的语音音响识别语音过程的应用环境的示意图;
图4是根据本发明实施例的另一种可选的目标语料的确定方法的应用环境的示意图;
图5是根据本发明实施例的一种可选的获取领域URL的示意图;
图6是根据本发明实施例的另一种可选的目标语料的确定方法的示意图;
图7是根据本发明实施例的一种可选的目标关键词的获取的示意图;
图8是根据本发明实施例的一种可选的目标语料的确定装置的结构示意图;
图9是根据本发明实施例的一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了方便理解下述实施例,下面先给出几个属于的含义。
实体:指表示一个概念的基本单位。
模板:就是具有扩展样例的一种通用句式。
模型:语义分类器,用深度学习来确定出来预测语料属于某个领域、意图的分类器。
Trie树:又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。
Aho-Corasick自动机:AC自动机其实就是在Trie树上实现Knuth–Morris–Prattalgorithm,简称为KMP算法,可以完成多模式串的匹配。
根据本发明实施例的一个方面,提供了一种目标语料的确定方法。可选地,上述目标语料的确定方法可以但不限于应用于如图1所示的应用环境中。如图1所示,用户A、B均想通过终端102上的语音助手获取昨天的天气,用户A语音输入“过去一天的天气查询”,用户B语音输入“昨天的天气”,而语音助手经过语音识别为文本后,仅匹配到用户B的文本对应的模板,语音助手根据模板读懂了了用户B的问题,并给出答案。而用户A的文件,语音助手无法匹配到对应的模板,无法知晓用户A的意思,所以无法给出对应的答案。在语音助手匹配到对应的模板后,将对应的文本发送给服务器106,同时,将用户B的文本一并发送到服务器106。然后,服务器106获取预定时间内查询语料,该查询语料包括查询信息(如,“昨天的天气”,“过去一天的天气查询”)以及响应于该查询信息而被访问的统一资源定位符(UniformResource locator,简称为URL),需要说明的是,上述查询信息包括但并不限于上述示例,如,还可以包括图1未示出的:“过去一天的天气”,“昨天一天的天气”等等。服务器106可以根据天气领域的目标关键词(如,天气)以及目标URL(如,XX气象局网站)在上述查询语料中获取第一查询语料。进而服务器106在上述第一查询语料中确定出无法被天气领域中已有模板读取的目标语料,并通过Aho-Corasick自动机生成目标语料对应的模板,以便在用户下次输入对应的语音时,语音音响可以识别并给出答案
在本发明实施例中,根据目标URL和目标关键词在查询语料中获取第一查询语料,其中,第一查询语料包含天气领域对应的目标关键词、且第一查询语料中包括的访问URL包含目标URL中的至少一个,所述目标URL为所述天气领域对应的URL,然后,在该第一查询语料中确定出无法被天气领域中已有模板读取的目标语料,使得用于确定天气领域中已有模板读取的目标语料的第一查询语料(即,真正属于天气领域的语料),可以根据目标URL结合目标关键词来确定,而不再仅根据关键词进行人工确定,从而提高了在第一查询语料中确定天气领域中已有模板读取的目标语料的准确性,进而解决了相关技术所提供的确定领域内已有模板无法读取的语料的准确性较低的技术问题。
可选地,在本实施例中,上述终端可以包括但不限于以下至少之一:手机、平板电脑等。上述网络可以包括但不限于无线网络,其中,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以包括但不限于以下至少之一:PC机及其他用于计算服务的设备。上述只是一种示例,本实施例对此不做任何限定。
可选地,在本实施例中,作为一种可选的实施方式,如图2所示,上述目标语料的确定方法可以包括:
S202,获取在时间周期内接收到的查询语料,其中,查询语料包括查询信息和响应于查询信息而被访问的访问资源定位符URL;
S204,在查询语料中获取第一查询语料,其中,第一查询语料包含目标领域对应的目标关键词、且第一查询语料中包括的访问URL包含目标URL中的至少一个,目标URL为目标领域对应的URL;
S206,在第一查询语料中确定出目标语料,其中,所述目标语料为无法被所述目标领域中已有模板读取的语料。
需要说明的是,上述实施例可以应用于语音助手,也可以应用于语音音响。当应用于语音音响时,语音音响接收用户的语音输入(如,播放下一首歌曲),通过语音识别技术识别出对应的文本,根据该文本匹配对应的模板,如匹配成功,语音音响则搜索本地存储的答案,并播放下一首歌曲给用户(如图3所示);如匹配不成功,语音音响则发送该文本到服务器。服务器获取预定时间内查询语料,该查询语料包括查询信息(如,“播放下一首歌曲”)以及响应于该查询信息而被访问的URL,需要说明的是,上述查询信息包括但并不限于上述示例,如,还可以包括:“播放上一首歌曲”,“暂停播放”等等。然后,在第一查询语料中确定出无法被该领域中已有模板读取的目标语料,并通过Aho-Corasick自动机生成目标语料对应的模板,以便在用户下次输入该语音时,语音音响可以识别并播放下一首歌曲(如图4所示)。
在本发明实施例中,根据目标URL和目标关键词在查询语料中获取第一查询语料,其中,第一查询语料包含目标领域对应的目标关键词、且第一查询语料中包括的访问URL包含目标URL中的至少一个,所述目标URL为所述目标领域对应的URL,然后,在该第一查询语料中确定出无法被目标领域中已有模板读取的目标语料,使得用于确定目标领域中已有模板读取的目标语料的第一查询语料(即,真正属于该领域的语料),可以根据目标URL结合目标关键词来确定,而不再仅根据关键词进行人工确定,从而提高了在第一查询语料中确定目标领域中已有模板读取的目标语料的准确性,进而解决了相关技术所确定出的已有模板无法读取的语料的准确性较低的技术问题。
需要说明的是,上述第一查询语料可以通过但不限于如下方式获取:在查询语料中查询包含目标URL中的服务器名称或网络之间互连的协议IP地址的访问URL,然后,根据查询到的访问URL以及目标关键词,获取第一查询语料。
需要说明的是,上述目标URL可以通过但不限于如下方式获取:确定被读取的次数大于第一预定阈值但仍无法被已有模板读取的预定语料,然后,获取预定语料所在的领域对应的目标URL。
需要说明的是,上述目标关键词可以通过但不限于如下方式获取:在查询语料中查询包括目标URL中的服务器名称或IP地址的访问URL,获取该访问URL对应的第二查询语料,对第二查询语料中包括的查询信息进行分词,对分词结果进行统计,获取出现次数大于第二预定阈值的词语,将上述词语作为目标关键词。
可选地,上述确定的目标关键词可以进一步进行校验,精确目标关键词与目标领域的匹配度,检验方式可以采用但不限于如下方式:获取搜索引擎中输入目标关键词后显示的包括目标关键词的词组,然后,删除该词组中的目标关键词,确定剩余的词语是否仍然属于目标领域,如果结果为属于目标领域,则确定目标关键词与目标领域的匹配度较好。
需要说明的是,上述无法被目标领域中已有模板读取的目标语料可以通过但不限于如下方式获取:获取目标领域的属性,如机票领域,属性可以包括登机口,登机时间等,确定上述第一查询语料中的当前语料是否包括上述属性,如果不包括上述属性,则确定当前语料为无法被已有模板读取的目标语料。
需要说明的是,在确定出无法被目标领域中已有模板读取的目标语料之后,还可以Aho-Corasick自动机生成用于读取目标语料的目标模板,以便可以使用该目标模板对后续接收到查询语料进行读取,如对上述无法被目标领域中已有模板读取的目标语料进行读取。
作为一种可选的实施方案,在查询语料中获取第一查询语料包括:
S1,在查询语料中查询第一访问URL,其中,第一访问URL包含目标URL中的服务器名称或IP地址;
S2,在查询语料中获取第二查询语料,其中,响应于第二查询语料中的查询信息而被访问的访问URL包括第一访问URL;
S3,在第二查询语料中获取第一查询语料,其中,第一查询语料包含目标领域对应的目标关键词。
例如,目标URL可以是目标领域中常见的网址。假设目标领域是财经的汇率领域,则目标URL可以包括但不限于如下网址:“www.forex.hexun.com....”,“www.boc.cn/sourcedb...”。再然后,可以去掉找到的网址前面的“www”和后面的无用的后缀,然后将留下的部分作为查询访问URL的基准。比如,汇率领域的查询访问URL的基准可以选择但不限于如下:“forex.hexun.com”,“boc.cn/sourcedb”,“usd-cny.com”,“zhijinwang.com/huilv”,“cngold.org/fx/huansuan”,只要包括上述内容的访问URL均可以作为上述第一访问URL。进而根据第一访问URL可以在查询语料中粗略的召回属于汇率领域的第二查询语料。
通过本发明实施例,根据目标URL中的服务器名称或IP地址,获取包括该服务器名称或IP地址的访问URL,进而在查询语料中获取访问URL对应的语料,使得可以获取到目标URL对应的领域中更全面的语料。
作为一种可选的实施方案,在查询语料中查询第一访问URL之前,还包括:
S1,确定接收到的预定语料所属的目标领域,其中,预定语料被请求读取的次数大于第一预定阈值、且无法被已有模板读取;
S2,获取目标领域对应的目标URL。
例如,第一预定阈值可以设置为2,用户A、B、C均向语音助手输入了“汇率转换”,但是,语音助手接收到三次“汇率转换”后,均未读取成功,则在接收到该词组后可以拆分该词组,根据该词组的“汇率”确定“汇率转换”属于汇率领域(即上述目标领域),然后,如图5所示,可以在搜索引擎中输入“汇率”,然后根据搜索结果找到常见的查看汇率的网址(即上述目标URL),如果可能,则尽量齐全一些,例如,“www.forex.hexun.com....”,“www.boc.cn/sourcedb...”等等。
通过本发明实施例,采用被请求读取的次数大于第一预定阈值、且无法被已有模板读取的语料确定目标领域,而不是在接收一次即确定目标领域,可以更准确的确定读取失败的原因是由于无法被已有模板,而不是由于其他原因。
作为一种可选的实施方案,在查询语料中获取第一查询语料之前,方法还包括:
S1,在查询语料中获取第二查询语料,其中,响应于第二查询语料中的查询信息而被访问的访问URL包括目标URL中的服务器名称或IP地址;
S2,对第二查询语料中包括的查询信息进行分词,得到目标词语;
S3,在目标词语中获取目标关键词,其中,目标关键词在第二查询语料中的出现次数大于第二预定阈值。
例如,如图5所示,还是以汇率领域为例进行说明。在粗略召回第二查询语料后,对该第二查询语料中的查询信息进行切词分词,然后对所有的分词结果进行词频统计,即统计分词结果在第二查询语料中出现的次数,可以选出现次数最高的100个词语作为关键词,例如,“汇率”出现次数高于100次,则“汇率”可以作为目标关键词。需要说明的是,切词工具可以使用预先开发的c++切词工具,该工具中有其他语言的调用接口(比如python,java),切词分词很准确,还有相关的词性标注;也可以使用通用的结巴分词(jieba)工具。
相关技术中,关键词均是人工选择的,因为受限于人工的知识和能力,人是不可能全面的掌握这个领域的关键词的,因此,人工选择的关键词并不全面,导致会遗漏掉很多有用的语料,并且,该过程需要人工参与,导致需要花费大量的人力和时间。通过本发明实施例,先使用URL粗略第二查询语料,然后再在该第二查询语料中统计出现次数大于第二预定阈值的词语,将该词语作为目标关键词,使得目标关键词是使用领域专有URL结合词频统计的方式获取的,从而确定的目标关键词更全面,并且该过程不再需要人工参与,节省了大量的人力和时间。
作为一种可选的实施方案,在目标词语中获取目标关键词包括:
S1,在目标词语中获取第一关键词,其中,第一关键词在第二查询语料中的出现次数大于第二预定阈值;
S2,获取第一关键词对应的热门词组,其中,热门词组包括在搜索引擎中输入第一关键词后显示的包括所述关键词的词组;
S3,在第一关键词中获取目标关键词,其中,在目标关键词对应的热门词组中删除目标关键词之后得到的词语属于目标领域,目标领域为预定语料所属的目标领域,预定语料被请求读取的次数大于第一预定阈值、且无法被已有模板读取。
例如,为了确定的关键字是否确实属于目标领域,可以对确定的关键字进行校验,以出现次数最高的关键词“汇率”为例对校验过程进行说明。需要说明的是,在本实施例中采用了某搜素引擎suggestion的接口来判断该关键词的领域,不属于目标领域的关参数将被过滤。上述接口是一个网址:http://m.***.com/su?from=8625&ie=utf-8&;action=opensearch&wd=查询词),当在该接口输入一个查询词后,可以返回与该查询词相关的热门词组,比如,输入:汇率,可以从该接口返回:"汇率换算","汇率美元","美元汇率","汇率查询","港币汇率","欧元汇率","日元汇率","英镑汇率","美金汇率","泰铢汇率"等等。获取上述词组后,把输入的“汇率”去掉,还剩下"换算","美元","美元","查询","港币","欧元","日元","英镑","美金","泰铢",此时,发现剩余的词语包括美元,欧元,日元等货币字眼,说明汇率这个词确实是财经中的汇率领域的目标关键词。同理,对所有100个关键词均进行规则校验,留下符合规则的领域关键词作为目标关键词。
通过本发明实施例,在确定关键词对应的热门词组中删除关键词之后得到的词语属于目标领域的情况下,则将该关键词可以作为目标关键词,使得确定的目标关键词更精确的属于目标领域。
作为一种可选的实施方案,在第一查询语料中确定出目标语料包括:
S1,确定第一查询语料中的当前语料是否包括属于目标属性的信息,其中,目标领域中配置有目标属性,目标领域为预定语料所属的目标领域,预定语料被请求读取的次数大于第一预定阈值、且无法被已有模板读取;
S2,在确定出当前语料不包括属于目标属性的信息的情况下,确定当前语料为无法被已有模板读取的目标语料。
例如,汇率领域可以包括但不限于如下目标属性:美元汇率,欧元汇率,日元汇率,英镑汇率,泰铢汇率。如果语料中包括以上目标属性的信息,则确定该语料可以被已有模板读取,如,“2018年的美元汇率是多少”可以认为包括上述目标属性的信息,即已有模板可以读取上述语料,客户端可以知晓上述语料的含义;如果语料不包括上述目标属性的信息,则确定该语料不可以被已用模板读取,如,“2018年的汇率转换是多少”可以认为不包括上述目标属性的信息,即已有模板无法读取上述语料,客户端可无法知晓上述语料的含义。
通过本发明实施例,由于真实语料(及第一查询语料)可能过多,通过确定当前语料是否包括属于目标属性的信息方式,来确定当前语料是否为无法被已有模板读取的目标语料,使得可以基于现有模型可以方便、快速的确定真实语料是否属于目标领域下的属性。
作为一种可选的实施方案,在第一查询语料中确定出无法被目标领域中已有模板读取的目标语料之后,还包括:生成用于读取目标语料的目标模板,其中,目标模板用于在目标时间点之后对接收到查询语料进行读取,目标时间点晚于时间周期,接收到的查询语料包括目标语料。
例如,在确定了上述“汇率转换”为目标语料后,生成对应的模板,使得在后续读取“汇率转换”时,可以正确的读出该词组对应的语料的意义,并给出答案,如给出各个国家之间汇率转换值。
通过本发明实施例,在无法被目标领域中已有模板读取的目标语料之后,生成用于读取目标语料的目标模板,使得可以在后续读取该目标语料时可以成功读取,避免无法被已有模板读取的情况。
作为一种可选的实施方案,生成用于读取目标语料的目标模板包括:将目标语料输入Aho-Corasick自动机,生成用于读取目标语料的目标模板。
相关技术中,挑选出现在模型还不能支持的语料后,由产品和技术负责人对这些语进行归纳总结,进而得出一些通用的模板,可见,相关技术中,模板生成不智能,如果不支持的语料较多的话,人工是很难处理这么多语料的模板生成问题的,也会漏掉很多有用的模板。而本发明实施例通过将目标语料输入Aho-Corasick自动机,生成用于读取目标语料的目标模板,可以避免人工参与,使得模板的生成更智能,并且节省了大量的人力和物力。
本发明实施例利用领域专属URl结合词频统计的方式选出领域的关键词,之后在进行关键词的校验以确定属于某个领域的关键词。利用关键词再反结合领域专属URL能精准的找出属于某个领域的query(第一查询语料),而这些query可以用于后期的模板挖掘等深度工作。最终可以挖掘出某个领域未支持的语料和相关模板。
为了方便理解上述实施例,在本实施例中***的介绍了一种基于关键词挖掘的领域未支持模板挖掘方法,其流程图如6所示,整个流程中包括如下部分:领域URL(即目标URL)的选择,领域关键词(即目标关键词)的挖掘,选择领域真实语料,模板挖掘和人工校验。
步骤S601,获取海量query(相当于上述查询语料);
步骤S602,领域URL的获取;
这一步是整个流程的起点,对整个流程至关重要。比如对于财经的汇率领域来说,首先要找到常见的查看汇率的官网,如图5所示,可以在搜索引擎中输入“汇率”,然后根据搜索结果找到常见的查看汇率的网址(即上述目标URL),如果可能,则尽量齐全一些。如目标URL可以包括但不限于如下网址:“www.forex.hexun.com....”,“www.boc.cn/sourcedb...”。然后,可以去掉找到的网址前面的“www”和后面的无用的后缀,然后将留下的部分作为查询访问URL的基准。比如,汇率领域的查询访问URL的基准可以选择但不限于如下:“forex.hexun.com”,“boc.cn/sourcedb”,“usd-cny.com”,“zhijinwang.com/huilv”,“cngold.org/fx/huansuan”。
步骤S603,领域关键词(即目标关键词)的挖掘;
步骤S604,领域query的获取,也可以称为领域真实语料选择(即上述第一查询语料);
在这一步中,我们结合领域URL和领域关键词两个限制条件来筛选语料,同时满足这两个条件的才认为是属于该领域的真实语料。即,真实语料需要既含有上述目标关键词,且访问URL也需要包含目标URL的内容,比如:http://zhijinwang.com/huilv/?from=USD&to=CNY&num=100包含了“zhijinwang.com/huilv”)。
步骤605,领域不支持语料;
上一步中选择出了领域的真实语料,这一步中需要对真实语料进行过线上的真实模型,例如,可以基于模型进行测试,看看线上服务现在能支持那些语料,不能支持那些语料,把不能支持的语料(无法被已有模板读取的语料)单独输出。需要说明的是,上述模型可以是语义分类器,该语义分类器用深度学习来确定出来预测语料属于某个领域、意图的分类器。
步骤606,模板挖掘;
将上述不支持的语料输入Aho-Corasick自动机,生成用于读取该语料的模板。需要说明的是,AC自动机其实就是在Trie树上实现Knuth–Morris–Pratt algorithm,简称为KMP算法,可以完成多模式串的匹配;Trie树又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。
步骤607,人工校验check模板,加入相关领域;
对于新生成的领域未支持的模板,需要进行人工校验,人工校验之后再将新的未支持语料以及模板加入到领域之中。
步骤608,训练新模型;
根据加入的未支持语料以及模板,进行新深度学习模型的训练,提升整个领域的语义识别能力。
需要说明的是,上述目标关键词可以采用如图7所示的方式获取,在本发明实施例中,目标关键词的获取可以包括如下几个方面:
步骤S701,获取海量query(相当于上述查询语料),可以采用步骤S601获取的海量query,也可以重新获取海量query;
步骤S702,领域URL的选择;
领域URL可以采用步骤602步中确定的URL,如上所述,也可以重新获取领域URL。
步骤S703,根据领域URL确定领域query(相当于上述第一查询预料);
步骤S704,切词分词、词频统计;
根据上述URL在海量query(即上述时间周期内的接收的查询语料)中粗略目标领域的语料,对粗略语料(即上述第二查询语料)进行切词工具进行切词分词,然后对所有的分词结果进行词频统计,选择出出现次数最高的100个词语。(此处的切词工具可以使用c++切词工具,有其他语言的调用接口(比如python,java),切词分词很准确,还有相关的词性标注)
步骤S705,规则校验;
此处采用某搜索引擎suggestion的接口来判断上述出现次数最高的词语的是否属于目标领域,不属于目标领域的词语将被过滤。,需要说明的是,上述接口是一个网址:
http://m.***.com/su?from=8625&ie=utf-8&;action=opensearch&wd=查询词
当在上述接口输入一个查询词后,返回与该查询词相关的热门词组,比如,输入:汇率,可以从该接口返回如下热门词语:["汇率换算","汇率美元","美元汇率","汇率查询","港币汇率","欧元汇率","日元汇率","英镑汇率","美金汇率","泰铢汇率"],然后,把输入“汇率”去掉之后,还剩下["换算","美元","美元","查询","港币","欧元","日元","英镑","美金","泰铢"],如果发现确实有美元,欧元,日元等货币字眼,说明汇率这个词确实是财经汇率领域的关键词),同理,对所有的100个关键词进行规则校验,留下符合规则的领域关键词作为目标关键词。
步骤S706,确定领域关键词(即目标关键词);
需要说明的是,本发明实施例采用了基于关键词以及领域URL来挖掘领域未支持语料对应的模板方法。首先,本发明实施例的关键词不用人工制定,用算法(目标URL结合词频统计)来实现关键词的挖掘;其次,用了URl过滤结合关键词过滤的算法来挑选属于本领域的语料,能准确找到属于该领域的语料问法,在经过模型挑选过滤之后,通过AC自动机自动生成模板。只在最后一步需要人工,就是人工在生成的模板中挑选好的模板加入到领域中,然后供训练新的深度学习模型。整个流程全自动化完成,最后一步需要人工校验check以保证线上的模型效果,以便提高效率。
需要说明的是,本发明应用于语音智能助手的各个领域的未支持模板挖掘。当新建某个领域的时候,可以会搜集到该领域的大量语料,但是由于用户的问法***,有限的句子不可能囊括所有的问法。因此,模板对于一个领域的作用显得十分重要,好的模板能囊括该领域***的问法,但是有限的模板也不可能囊括用户***的问法,还是有很多属于该领域但是模板以及模型都无法识别的问法,这些对于模型和模板能力的提升非常重要,因此,对于属于该领域但是未能成功识别的语料要重视和收集,用于后台训练相关的模板和模型。
通过本发明上述实施例,还可以取得如下有益效果:1.挖掘新建领域的不支持模板,对新领域的建设非常重要;2.提升了对老的领域的未覆盖的语义的支持和模板挖掘;3.未支持语料和模板的挖掘对于整个线上模型分类的效果提升非常显著;4.领域关键词的挖掘对于其他领域的关键词挖掘也非常重要。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述目标语料的确定方法的目标语料的确定装置,如图8所示,该装置包括:
(1)第一获取单元802,用于获取在时间周期内接收到的查询语料,其中,查询语料包括查询信息和响应于查询信息而被访问的访问资源定位符URL;
(2)第二获取单元804,用于在查询语料中获取第一查询语料,其中,第一查询语料包含目标领域对应的目标关键词、且第一查询语料中包括的访问URL包含目标URL中的至少一个,目标URL为目标领域对应的URL;
(3)确定单元806,用于在第一查询语料中确定出目标语料,其中,所述目标语料为无法被所述目标领域中已有模板读取的语料。
需要说明的是,上述实施例可以应用于语音助手,也可以应用于语音音响。当应用于语音音响时,语音音响接收用户的语音输入(如,播放下一首歌曲),通过语音识别技术识别出对应的文本,根据该文本匹配对应的模板,如匹配成功,语音音响则搜索本地存储的答案,并播放下一首歌曲给用户;如匹配不成功,语音音响则发送该文本到服务器。服务器获取预定时间内查询语料,该查询语料包括查询信息(如,“播放下一首歌曲”)以及响应于该查询信息而被访问的URL,需要说明的是,上述查询信息包括但并不限于上述示例,如,还可以包括:“播放上一首歌曲”,“暂停播放”等等。然后,在第一查询语料中确定出无法被该领域中已有模板读取的目标语料,并通过Aho-Corasick自动机生成目标语料对应的模板,以便在用户下次输入该语音时,语音音响可以识别并播放下一首歌曲。
在本发明实施例中,根据目标URL和目标关键词在查询语料中获取第一查询语料,其中,第一查询语料包含目标领域对应的目标关键词、且第一查询语料中包括的访问URL包含目标URL中的至少一个,所述目标URL为所述目标领域对应的URL,然后,在该第一查询语料中确定出无法被目标领域中已有模板读取的目标语料,使得用于确定目标领域中已有模板读取的目标语料的第一查询语料(即,真正属于该领域的语料),可以根据目标URL结合目标关键词来确定,而不再仅根据关键词进行人工确定,从而提高了在第一查询语料中确定目标领域中已有模板读取的目标语料的准确性,进而解决了相关技术所确定出的已有模板无法读取的语料的准确性较低的技术问题。
作为一种可选的实施方案,上述第二获取单元804包括:
(1)查询模块,用于在查询语料中查询第一访问URL,其中,第一访问URL包含目标URL中的服务器名称或IP地址;
(2)第一获取模块,用于在查询语料中获取第二查询语料,其中,响应于第二查询语料中的查询信息而被访问的访问URL包括第一访问URL;
(3)第二获取模块,用于在第二查询语料中获取第一查询语料,其中,第一查询语料包含目标领域对应的目标关键词。
例如,目标URL可以是目标领域中常见的网址。假设目标领域是财经的汇率领域,则目标URL可以包括但不限于如下网址:“www.forex.hexun.com....”,“www.boc.cn/sourcedb...”。再然后,可以去掉找到的网址前面的“www”和后面的无用的后缀,然后将留下的部分作为查询访问URL的基准。比如,汇率领域的查询访问URL的基准可以选择但不限于如下:“forex.hexun.com”,“boc.cn/sourcedb”,“usd-cny.com”,“zhijinwang.com/huilv”,“cngold.org/fx/huansuan”,只要包括上述内容的访问URL均可以作为上述第一访问URL。进而根据第一访问URL可以在查询语料中粗略的召回属于汇率领域的第二查询语料。
通过本发明实施例,根据目标URL中的服务器名称或IP地址,获取包括该服务器名称或IP地址的访问URL,进而在查询语料中获取访问URL对应的语料,使得可以获取到目标URL对应的领域中更全面的语料。
作为一种可选的实施方案,上述第二获取单元804包括:
(1)第一确定模块,用于确定接收到的预定语料所属的目标领域,其中,预定语料被请求读取的次数大于第一预定阈值、且无法被已有模板读取;
(2)第三获取模块,用于获取目标领域对应的目标URL。
例如,第一预定阈值可以设置为2,用户A、B、C均向语音助手输入了“汇率转换”,但是,语音助手接收到三次“汇率转换”后,均未读取成功,则在接收到该词组后可以拆分该词组,根据该词组的“汇率”确定“汇率转换”属于汇率领域(即上述目标领域),然后,如图5所示,可以在搜索引擎中输入“汇率”,然后根据搜索结果找到常见的查看汇率的网址(即上述目标URL),如果可能,则尽量齐全一些,例如,“www.forex.hexun.com....”,“www.boc.cn/sourcedb...”等等。
通过本发明实施例,采用被请求读取的次数大于第一预定阈值、且无法被已有模板读取的语料确定目标领域,而不是在接收一次即确定目标领域,可以更准确的确定读取失败的原因是由于无法被已有模板,而不是由于其他原因。
作为一种可选的实施方案,上述装置还包括:
(1)第三获取单元,用于在查询语料中获取第二查询语料,其中,响应于第二查询语料中的查询信息而被访问的访问URL包括目标URL中的服务器名称或IP地址;
(2)分词单元,用于对第二查询语料中包括的查询信息进行分词,得到目标词语;
(3)第四获取单元,用于在目标词语中获取目标关键词,其中,目标关键词在第二查询语料中的出现次数大于第二预定阈值。
例如,如图4所示,还是以汇率领域为例进行说明。在粗略召回第二查询语料后,对该第二查询语料中的查询信息进行切词分词,然后对所有的分词结果进行词频统计,即统计分词结果在第二查询语料中出现的次数,可以选出现次数最高的100个词语作为关键词,例如,“汇率”出现次数高于100次,则“汇率”可以作为目标关键词。需要说明的是,切词工具可以使用预先开发的c++切词工具,该工具中有其他语言的调用接口(比如python,java),切词分词很准确,还有相关的词性标注;也可以使用通用的结巴分词(jieba)工具。
相关技术中,关键词均是人工选择的,因为受限于人工的知识和能力,人是不可能全面的掌握这个领域的关键词的,因此,人工选择的关键词并不全面,导致会遗漏掉很多有用的语料,并且,该过程需要人工参与,导致需要花费大量的人力和时间。通过本发明实施例,先使用URL粗略第二查询语料,然后再在该第二查询语料中统计出现次数大于第二预定阈值的词语,将该词语作为目标关键词,使得目标关键词是使用领域专有URL结合词频统计的方式获取的,从而确定的目标关键词更全面,并且该过程不再需要人工参与,节省了大量的人力和时间。
作为一种可选的实施方案,上述第四获取单元包括:
(1)第四获取模块,用于在目标词语中获取第一关键词,其中,第一关键词在第二查询语料中的出现次数大于第二预定阈值;
(2)第五获取模块,用于获取第一关键词对应的热门词组,其中,热门词组包括在搜索引擎中输入第一关键词后显示的关键词的词组;
(3)第六获取模块,用于在第一关键词中获取目标关键词,其中,在目标关键词对应的热门词组中删除目标关键词之后得到的词语属于目标领域,目标领域为预定语料所属的目标领域,预定语料被请求读取的次数大于第一预定阈值、且无法被已有模板读取。
例如,为了确定的关键字是否确实属于目标领域,可以对确定的关键字进行校验,以出现次数最高的关键词“汇率”为例对校验过程进行说明。需要说明的是,在本实施例中采用了某搜素引擎suggestion的接口来判断该关键词的领域,不属于目标领域的关参数将被过滤。上述接口是一个网址:http://m.***.com/su?from=8625&ie=utf-8&;action=opensearch&wd=查询词),当在该接口输入一个查询词后,可以返回与该查询词相关的热门词组,比如,输入:汇率,可以从该接口返回:"汇率换算","汇率美元","美元汇率","汇率查询","港币汇率","欧元汇率","日元汇率","英镑汇率","美金汇率","泰铢汇率"等等。获取上述词组后,把输入的“汇率”去掉,还剩下"换算","美元","美元","查询","港币","欧元","日元","英镑","美金","泰铢",此时,发现剩余的词语包括美元,欧元,日元等货币字眼,说明汇率这个词确实是财经中的汇率领域的目标关键词。同理,对所有100个关键词均进行规则校验,留下符合规则的领域关键词作为目标关键词。
通过本发明实施例,在确定关键词对应的热门词组中删除关键词之后得到的词语属于目标领域的情况下,则将该关键词可以作为目标关键词,使得确定的目标关键词更精确的属于目标领域。
作为一种可选的实施方案,上述确定单元606包括:
(1)第二确定模块,用于确定第一查询语料中的当前语料是否包括属于目标属性的信息,其中,目标领域中配置有目标属性,目标领域为预定语料所属的目标领域,预定语料被请求读取的次数大于第一预定阈值、且无法被已有模板读取;
(2)第三确定模块,用于在确定出当前语料不包括属于目标属性的信息的情况下,确定当前语料为无法被已有模板读取的目标语料。
例如,汇率领域可以包括但不限于如下目标属性:美元汇率,欧元汇率,日元汇率,英镑汇率,泰铢汇率。如果语料中包括以上目标属性的信息,则确定该语料可以被已有模板读取,如,“2018年的美元汇率是多少”可以认为包括上述目标属性的信息,即已有模板可以读取上述语料,客户端可以知晓上述语料的含义;如果语料不包括上述目标属性的信息,则确定该语料不可以被已用模板读取,如,“2018年的汇率转换是多少”可以认为不包括上述目标属性的信息,即已有模板无法读取上述语料,客户端可无法知晓上述语料的含义。
通过本发明实施例,由于真实语料(及第一查询语料)可能过多,通过确定当前语料是否包括属于目标属性的信息方式,来确定当前语料是否为无法被已有模板读取的目标语料,使得可以基于现有模型可以方便、快速的确定真实语料是否属于目标领域下的属性。
作为一种可选的实施方案,上述装置还包括:
生成单元,用于生成用于读取目标语料的目标模板,其中,目标模板用于在目标时间点之后对接收到查询语料进行读取,目标时间点晚于时间周期,接收到的查询语料包括目标语料。
例如,在确定了上述“汇率转换”为目标语料后,生成对应的模板,使得在后续读取“汇率转换”时,可以正确的读出该词组对应的语料的意义,并给出答案,如给出各个国家之间汇率转换值。
作为一种可选的实施方案,上述生成单元包括:
生成模块,用于将目标语料输入Aho-Corasick自动机,生成用于读取目标语料的目标模板。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取在时间周期内接收到的查询语料,其中,查询语料包括查询信息和响应于查询信息而被访问的访问资源定位符URL;
S2,在查询语料中获取第一查询语料,其中,第一查询语料包含目标领域对应的目标关键词、且第一查询语料中包括的访问URL包含目标URL中的至少一个,目标URL为目标领域对应的URL;
S3,在第一查询语料中确定出目标语料,其中,所述目标语料为无法被所述目标领域中已有模板读取的语料。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:在查询语料中获取第一查询语料包括:
S1,在查询语料中查询第一访问URL,其中,第一访问URL包含目标URL中的服务器名称或IP地址;
S2,在查询语料中获取第二查询语料,其中,响应于第二查询语料中的查询信息而被访问的访问URL包括第一访问URL;
S3,在第二查询语料中获取第一查询语料,其中,第一查询语料包含目标领域对应的目标关键词。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:在查询语料中查询第一访问URL之前,还包括:
S1,确定接收到的预定语料所属的目标领域,其中,预定语料被请求读取的次数大于第一预定阈值、且无法被已有模板读取;
S2,获取目标领域对应的目标URL。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:在查询语料中获取第一查询语料之前,方法还包括:
S1,在查询语料中获取第二查询语料,其中,响应于第二查询语料中的查询信息而被访问的访问URL包括目标URL中的服务器名称或IP地址;
S2,对第二查询语料中包括的查询信息进行分词,得到目标词语;
S3,在目标词语中获取目标关键词,其中,目标关键词在第二查询语料中的出现次数大于第二预定阈值。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:在目标词语中获取目标关键词包括:
S1,在目标词语中获取第一关键词,其中,第一关键词在第二查询语料中的出现次数大于第二预定阈值;
S2,获取第一关键词对应的热门词组,其中,热门词组包括在搜索引擎中输入第一关键词后显示的包括关键词的词组;
S3,在第一关键词中获取目标关键词,其中,在目标关键词对应的热门词组中删除目标关键词之后得到的词语属于目标领域,目标领域为预定语料所属的目标领域,预定语料被请求读取的次数大于第一预定阈值、且无法被已有模板读取。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:在第一查询语料中确定出目标语料包括:
S1,确定第一查询语料中的当前语料是否包括属于目标属性的信息,其中,目标领域中配置有目标属性,目标领域为预定语料所属的目标领域,预定语料被请求读取的次数大于第一预定阈值、且无法被已有模板读取;
S2,在确定出当前语料不包括属于目标属性的信息的情况下,确定当前语料为无法被已有模板读取的目标语料。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:在第一查询语料中确定出无法被目标领域中已有模板读取的目标语料之后,还包括:
S2,生成用于读取目标语料的目标模板,其中,目标模板用于在目标时间点之后对接收到查询语料进行读取,目标时间点晚于时间周期,接收到的查询语料包括目标语料。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:生成用于读取目标语料的目标模板包括:
S1,将目标语料输入Aho-Corasick自动机,生成用于读取目标语料的目标模板。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
根据本发明实施例的又一个方面,还提供了一种用于实施上述目标语料的确定方法的电子装置,如图9所示,该电子装置包括:处理器902、存储器904,可选地,上述装置还包括:显示器906、用户接口908、传输装置910、传感器912等。该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取在时间周期内接收到的查询语料,其中,查询语料包括查询信息和响应于查询信息而被访问的访问资源定位符URL;
S2,在查询语料中获取第一查询语料,其中,第一查询语料包含目标领域对应的目标关键词、且第一查询语料中包括的访问URL包含目标URL中的至少一个,目标URL为目标领域对应的URL;
S3,在第一查询语料中确定出目标语料,其中,所述目标语料为无法被所述目标领域中已有模板读取的语料。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:在查询语料中获取第一查询语料包括:
S1,在查询语料中查询第一访问URL,其中,第一访问URL包含目标URL中的服务器名称或IP地址;
S2,在查询语料中获取第二查询语料,其中,响应于第二查询语料中的查询信息而被访问的访问URL包括第一访问URL;
S3,在第二查询语料中获取第一查询语料,其中,第一查询语料包含目标领域对应的目标关键词。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:在查询语料中查询第一访问URL之前,还包括:
S1,确定接收到的预定语料所属的目标领域,其中,预定语料被请求读取的次数大于第一预定阈值、且无法被已有模板读取;
S2,获取目标领域对应的目标URL。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:在查询语料中获取第一查询语料之前,方法还包括:
S1,在查询语料中获取第二查询语料,其中,响应于第二查询语料中的查询信息而被访问的访问URL包括目标URL中的服务器名称或IP地址;
S2,对第二查询语料中包括的查询信息进行分词,得到目标词语;
S3,在目标词语中获取目标关键词,其中,目标关键词在第二查询语料中的出现次数大于第二预定阈值。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:在目标词语中获取目标关键词包括:
S1,在目标词语中获取第一关键词,其中,第一关键词在第二查询语料中的出现次数大于第二预定阈值;
S2,获取第一关键词对应的热门词组,其中,热门词组包括在搜索引擎中输入第一关键词后显示的包括关键词的词组;
S3,在第一关键词中获取目标关键词,其中,在目标关键词对应的热门词组中删除目标关键词之后得到的词语属于目标领域,目标领域为预定语料所属的目标领域,预定语料被请求读取的次数大于第一预定阈值、且无法被已有模板读取。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:在第一查询语料中确定出目标语料包括:
S1,确定第一查询语料中的当前语料是否包括属于目标属性的信息,其中,目标领域中配置有目标属性,目标领域为预定语料所属的目标领域,预定语料被请求读取的次数大于第一预定阈值、且无法被已有模板读取;
S2,在确定出当前语料不包括属于目标属性的信息的情况下,确定当前语料为无法被已有模板读取的目标语料。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:在第一查询语料中确定出无法被目标领域中已有模板读取的目标语料之后,还包括:
S2,生成用于读取目标语料的目标模板,其中,目标模板用于在目标时间点之后对接收到查询语料进行读取,目标时间点晚于时间周期,接收到的查询语料包括目标语料。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:生成用于读取目标语料的目标模板包括:
S1,将目标语料输入Aho-Corasick自动机,生成用于读取目标语料的目标模板。
可选地,本领域普通技术人员可以理解,图9所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图9中所示更多或者更少的组件(如网络接口等),或者具有与图9所示不同的配置。
其中,存储器904可用于存储软件程序以及模块,如本发明实施例中的目标语料的确定方法和装置对应的程序指令/模块,处理器902通过运行存储在存储器904内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述目标语料的确定方法方法。存储器904可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器904可进一步包括相对于处理器902远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置910用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置910包括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置910为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1.一种目标语料的确定方法,其特征在于,包括:
获取在时间周期内接收到的查询信息和响应于所述查询信息而被访问的访问资源定位符URL;
基于所述查询信息和响应于所述查询信息而被访问的访问资源定位符URL生成查询语料;
在所述查询语料中查询第一访问URL,其中,所述第一访问URL包含目标URL中的服务器名称或网络之间互连的协议IP地址,所述目标URL为目标领域的URL,所述目标领域为预定语料所属的目标领域,所述预定语料被请求读取的次数大于第一预定阈值、且无法被所述目标领域中已有模板读取;
在所述查询语料中获取第二查询语料,其中,响应于所述第二查询语料中的查询信息而被访问的访问URL包括所述第一访问URL;
对所述第二查询语料中包括的查询信息进行分词,得到目标词语;
在所述目标词语中获取第一关键词,其中,所述第一关键词在所述第二查询语料中的出现次数大于第二预定阈值;
获取所述第一关键词对应的热门词组,其中,所述热门词组包括在搜索引擎中输入所述第一关键词后显示的关键词的词组;
在所述第一关键词中获取目标关键词,其中,在所述目标关键词对应的热门词组中删除所述目标关键词之后得到的词语属于所述目标领域;
确定所述第二查询语料中包括所述目标关键词的语料为第一查询语料,所述第一查询语料中包括的访问URL包含所述目标URL中的至少一个;
在所述第一查询语料中确定出无法被所述目标领域中已有模板读取的目标语料;
生成用于读取所述目标语料的目标模板。
2.根据权利要求1所述的方法,其特征在于,所述在所述查询语料中查询第一访问URL之前,还包括:
确定接收到的所述预定语料所属的目标领域;
获取所述目标领域对应的所述目标URL。
3.根据权利要求1所述的方法,其特征在于,所述在所述第一查询语料中确定出无法被所述目标领域中已有模板读取的目标语料包括:
确定所述第一查询语料中的当前语料是否包括属于目标属性的信息,其中,所述目标领域中配置有所述目标属性;
在确定出所述当前语料不包括所述属于目标属性的信息的情况下,确定所述当前语料为无法被所述已有模板读取的目标语料。
4.根据权利要求1所述的方法,其特征在于,所述目标模板用于在目标时间点之后对接收到的查询语料进行读取,所述目标时间点晚于所述时间周期,所述接收到的查询语料包括所述目标语料。
5.根据权利要求1所述的方法,其特征在于,所述生成用于读取所述目标语料的目标模板包括:
将所述目标语料输入Aho-Corasick自动机,生成用于读取所述目标语料的目标模板。
6.一种目标语料的确定装置,其特征在于,包括:
第一获取单元,用于获取在时间周期内接收到的查询信息和响应于所述查询信息而被访问的访问资源定位符URL;基于所述查询信息和响应于所述查询信息而被访问的访问资源定位符URL生成查询语料;
第二获取单元,用于在所述查询语料中查询第一访问URL,其中,所述第一访问URL包含目标URL中的服务器名称或网络之间互连的协议IP地址,所述目标URL为目标领域的URL,所述目标领域为预定语料所属的目标领域,所述预定语料被请求读取的次数大于第一预定阈值、且无法被所述目标领域中已有模板读取;在所述查询语料中获取第二查询语料,其中,响应于所述第二查询语料中的查询信息而被访问的访问URL包括所述第一访问URL;
分词单元,用于对所述第二查询语料中包括的查询信息进行分词,得到目标词语;
第四获取单元,用于在所述目标词语中获取第一关键词,其中,所述第一关键词在所述第二查询语料中的出现次数大于第二预定阈值;获取所述第一关键词对应的热门词组,其中,所述热门词组包括在搜索引擎中输入所述第一关键词后显示的关键词的词组;在所述第一关键词中获取目标关键词,其中,在所述目标关键词对应的热门词组中删除所述目标关键词之后得到的词语属于所述目标领域;
所述第二获取单元,还用于确定所述第二查询语料中包括所述目标关键词的语料为第一查询语料,所述第一查询语料中包括的访问URL包含所述目标URL中的至少一个;
确定单元,用于在所述第一查询语料中确定出无法被所述目标领域中已有模板读取的目标语料;
生成单元,用于生成用于读取所述目标语料的目标模板。
7.根据权利要求6所述的装置,其特征在于,所述第二获取单元包括:
第一确定模块,用于确定接收到的所述预定语料所属的目标领域;
第三获取模块,用于获取所述目标领域对应的所述目标URL。
8.根据权利要求6所述的装置,其特征在于,所述目标模板用于在目标时间点之后对接收到的查询语料进行读取,所述目标时间点晚于所述时间周期,所述接收到的查询语料包括所述目标语料。
9.根据权利要求6所述的装置,其特征在于,所述生成单元,包括:
生成模块,用于将所述目标语料输入Aho-Corasick自动机,生成用于读取所述目标语料的目标模板。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。
11.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至5任一项中所述的方法。
CN201810361798.0A 2018-04-20 2018-04-20 目标语料的确定方法和装置、存储介质及电子装置 Active CN110209804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810361798.0A CN110209804B (zh) 2018-04-20 2018-04-20 目标语料的确定方法和装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810361798.0A CN110209804B (zh) 2018-04-20 2018-04-20 目标语料的确定方法和装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN110209804A CN110209804A (zh) 2019-09-06
CN110209804B true CN110209804B (zh) 2023-11-21

Family

ID=67778755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810361798.0A Active CN110209804B (zh) 2018-04-20 2018-04-20 目标语料的确定方法和装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN110209804B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111155B (zh) * 2020-01-10 2024-04-19 阿里巴巴集团控股有限公司 信息展示方法、装置、设备及存储介质
CN113297348B (zh) * 2021-04-15 2022-08-23 国网江苏省电力有限公司南京供电分公司 语音识别中文文本的校正方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886034B (zh) * 2014-03-05 2019-03-19 北京百度网讯科技有限公司 一种建立索引及匹配用户的查询输入信息的方法和设备
CN105045862A (zh) * 2015-07-13 2015-11-11 广西达译商务服务有限责任公司 汉外双语平行语料自动采集的***及实现方法
CN106328147B (zh) * 2016-08-31 2022-02-01 中国科学技术大学 语音识别方法和装置
CN107193973B (zh) * 2017-05-25 2021-07-20 百度在线网络技术(北京)有限公司 语义解析信息的领域识别方法及装置、设备及可读介质

Also Published As

Publication number Publication date
CN110209804A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN107797984B (zh) 智能交互方法、设备及存储介质
CN102163198B (zh) 提供新词或热词的方法及***
CN100545847C (zh) 一种对博客文章进行排序的方法及***
CN107220386A (zh) 信息推送方法和装置
CN107729336A (zh) 数据处理方法、设备及***
CN111182162B (zh) 基于人工智能的电话质检方法、装置、设备和存储介质
WO2008022581A1 (fr) Procédé et dispositif d'obtention de mots nouveaux et système et procédé de saisie
JP2009532797A (ja) ユーザ別適応推薦語を提供するシステム、方法およびこの方法を実行するためのプログラムが記録されたコンピュータで読み取り可能な記録媒体
CN1936893A (zh) 基于互联网信息的输入法词频库的生成方法和***
CN103593412B (zh) 一种基于树形结构问题的应答方法及***
KR20150096295A (ko) 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
CN102737022B (zh) 获取和搜索相关知识信息的方法及装置
CN104715063B (zh) 搜索排序方法和装置
CN103116635A (zh) 面向领域的暗网资源采集方法和***
CN110275949A (zh) 用于贷款应用的自动应答方法及***
CN110209804B (zh) 目标语料的确定方法和装置、存储介质及电子装置
CN103425767B (zh) 一种提示数据的确定方法和***
JP2013168177A (ja) 情報提供プログラム、情報提供装置および検索サービスの提供方法
CN103226601A (zh) 一种图片搜索的方法和装置
CN116226494B (zh) 一种用于信息搜索的爬虫***及方法
CN111882224A (zh) 对消费场景进行分类的方法和装置
JP5315726B2 (ja) 情報提供方法、情報提供装置、および情報提供プログラム
CN108810640B (zh) 一种电视节目的推荐方法
CN108733848B (zh) 一种搜索知识的方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant