CN106970993B - 挖掘模型更新方法和装置 - Google Patents

挖掘模型更新方法和装置 Download PDF

Info

Publication number
CN106970993B
CN106970993B CN201710210161.7A CN201710210161A CN106970993B CN 106970993 B CN106970993 B CN 106970993B CN 201710210161 A CN201710210161 A CN 201710210161A CN 106970993 B CN106970993 B CN 106970993B
Authority
CN
China
Prior art keywords
semantic
mining model
corpus
format corpus
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710210161.7A
Other languages
English (en)
Other versions
CN106970993A (zh
Inventor
胡泽进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710210161.7A priority Critical patent/CN106970993B/zh
Publication of CN106970993A publication Critical patent/CN106970993A/zh
Priority to US15/914,098 priority patent/US10586080B2/en
Application granted granted Critical
Publication of CN106970993B publication Critical patent/CN106970993B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种挖掘模型更新方法和装置,应用于语义解析***中的挖掘模型,该挖掘模型更新方法包括获取语义解析***对用户输入的查询语句进行解析得到的语义解析结果;根据语义解析结果生成对应的训练格式语料,其中,训练格式语料包括:第一格式语料和第二格式语料;基于第一格式语料和第二格式语料对挖掘模型进行迭代更新;其中,第一格式语料用于标记查询语句中的语义特征,第二格式语料用于标记查询语句中的模板特征。通过本发明能够有效提升语义解析***的语义解析效果。

Description

挖掘模型更新方法和装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种挖掘模型更新方法和装置。
背景技术
随着自然语言处理技术的发展,相关技术中,在建立语义解析***中的挖掘模型时,是由人工对线上数据进行分析,对相关的语义资源进行统计。
这种方式下,语义解析***的语义解析效果不佳。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种挖掘模型更新方法,能够有效提升语义解析***的语义解析效果。
本发明的另一个目的在于提出一种挖掘模型更新装置。
本发明的又一个目的在于提出一种挖掘模型更新装置。
本发明的另一个目的在于提出一种非临时性计算机可读存储介质。
本发明的另一个目的在于提出一种计算机程序产品。
为达到上述目的,本发明第一方面实施例提出的挖掘模型更新方法,应用于语义解析***中的挖掘模型,包括:获取所述语义解析***对用户输入的查询语句进行解析得到的语义解析结果;根据所述语义解析结果生成对应的训练格式语料,其中,所述训练格式语料包括:第一格式语料和第二格式语料;基于所述第一格式语料和第二格式语料对所述挖掘模型进行迭代更新;其中,所述第一格式语料用于标记所述查询语句中的语义特征,所述第二格式语料用于标记所述查询语句中的模板特征。
本发明第一方面实施例提出的挖掘模型更新方法,通过获取语义解析***对用户输入的查询语句进行解析得到的语义解析结果,并根据语义解析结果生成对应的训练格式语料,其中,训练格式语料包括:用于标记查询语句中的语义特征的第一格式语料和用于标记查询语句中的模板特征第二格式语料,以及基于第一格式语料和第二格式语料对挖掘模型进行迭代更新,由于是根据对用户实际输入的查询语句进行解析得到的语义解析结果对挖掘模型进行迭代更新,后续基于更新后的挖掘模型所获取的语义资源丰富语义解析***中,因而,能够有效提升语义解析***的语义解析效果。
为达到上述目的,本发明第二方面实施例提出的挖掘模型更新装置,应用于语义解析***中的挖掘模型,包括:获取模块,用于获取所述语义解析***对用户输入的查询语句进行解析得到的语义解析结果;生成模块,用于根据所述语义解析结果生成对应的训练格式语料,其中,所述训练格式语料包括:第一格式语料和第二格式语料;更新模块,用于基于所述第一格式语料和第二格式语料对所述挖掘模型进行迭代更新;其中,所述第一格式语料用于标记所述查询语句中的语义特征,所述第二格式语料用于标记所述查询语句中的模板特征。
本发明第二方面实施例提出的挖掘模型更新装置,通过获取语义解析***对用户输入的查询语句进行解析得到的语义解析结果,并根据语义解析结果生成对应的训练格式语料,其中,训练格式语料包括:用于标记查询语句中的语义特征的第一格式语料和用于标记查询语句中的模板特征第二格式语料,以及基于第一格式语料和第二格式语料对挖掘模型进行迭代更新,由于是根据对用户实际输入的查询语句进行解析得到的语义解析结果对挖掘模型进行迭代更新,后续基于更新后的挖掘模型所获取的语义资源丰富语义解析***中,因而,能够有效提升语义解析***的语义解析效果。
为达到上述目的,本发明第三方面实施例提出的挖掘模型更新装置,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:获取所述语义解析***对用户输入的查询语句进行解析得到的语义解析结果;根据所述语义解析结果生成对应的训练格式语料,其中,所述训练格式语料包括:第一格式语料和第二格式语料;基于所述第一格式语料和第二格式语料对所述挖掘模型进行迭代更新;其中,所述第一格式语料用于标记所述查询语句中的语义特征,所述第二格式语料用于标记所述查询语句中的模板特征。
本发明第三方面实施例提出的挖掘模型更新装置,通过获取语义解析***对用户输入的查询语句进行解析得到的语义解析结果,并根据语义解析结果生成对应的训练格式语料,其中,训练格式语料包括:用于标记查询语句中的语义特征的第一格式语料和用于标记查询语句中的模板特征第二格式语料,以及基于第一格式语料和第二格式语料对挖掘模型进行迭代更新,由于是根据对用户实际输入的查询语句进行解析得到的语义解析结果对挖掘模型进行迭代更新,后续基于更新后的挖掘模型所获取的语义资源丰富语义解析***中,因而,能够有效提升语义解析***的语义解析效果。
为达到上述目的,本发明第四方面实施例提出的非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器被执行时,使得移动终端能够执行一种挖掘模型更新方法,所述方法包括:获取所述语义解析***对用户输入的查询语句进行解析得到的语义解析结果;根据所述语义解析结果生成对应的训练格式语料,其中,所述训练格式语料包括:第一格式语料和第二格式语料;基于所述第一格式语料和第二格式语料对所述挖掘模型进行迭代更新;其中,所述第一格式语料用于标记所述查询语句中的语义特征,所述第二格式语料用于标记所述查询语句中的模板特征。
本发明第四方面实施例提出的非临时性计算机可读存储介质,通过获取语义解析***对用户输入的查询语句进行解析得到的语义解析结果,并根据语义解析结果生成对应的训练格式语料,其中,训练格式语料包括:用于标记查询语句中的语义特征的第一格式语料和用于标记查询语句中的模板特征第二格式语料,以及基于第一格式语料和第二格式语料对挖掘模型进行迭代更新,由于是根据对用户实际输入的查询语句进行解析得到的语义解析结果对挖掘模型进行迭代更新,后续基于更新后的挖掘模型所获取的语义资源丰富语义解析***中,因而,能够有效提升语义解析***的语义解析效果。
为达到上述目的,本发明第五方面实施例提出的计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种挖掘模型更新方法,所述方法包括:获取所述语义解析***对用户输入的查询语句进行解析得到的语义解析结果;根据所述语义解析结果生成对应的训练格式语料,其中,所述训练格式语料包括:第一格式语料和第二格式语料;基于所述第一格式语料和第二格式语料对所述挖掘模型进行迭代更新;其中,所述第一格式语料用于标记所述查询语句中的语义特征,所述第二格式语料用于标记所述查询语句中的模板特征。
本发明第五方面实施例提出的计算机程序产品,通过获取语义解析***对用户输入的查询语句进行解析得到的语义解析结果,并根据语义解析结果生成对应的训练格式语料,其中,训练格式语料包括:用于标记查询语句中的语义特征的第一格式语料和用于标记查询语句中的模板特征第二格式语料,以及基于第一格式语料和第二格式语料对挖掘模型进行迭代更新,由于是根据对用户实际输入的查询语句进行解析得到的语义解析结果对挖掘模型进行迭代更新,后续基于更新后的挖掘模型所获取的语义资源丰富语义解析***中,因而,能够有效提升语义解析***的语义解析效果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的挖掘模型更新方法的流程示意图;
图2是本发明另一实施例提出的挖掘模型更新方法的流程示意图;
图3是本发明另一实施例提出的挖掘模型更新方法的流程示意图;
图4是本发明另一实施例提出的挖掘模型更新方法的流程示意图;
图5是本发明一实施例提出的挖掘模型更新装置的结构示意图;
图6是本发明另一实施例提出的挖掘模型更新装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的挖掘模型更新方法的流程示意图。
本实施例中挖掘模型更新方法可以被配置在挖掘模型更新装置中。该挖掘模型更新装置可以设置在服务器中,或者也可以设置在电子设备中,本发明实施例对此不作限制。
其中,电子设备例如为个人电脑(Personal Computer,PC),云端设备或者移动设备,移动设备例如智能手机,或者平板电脑等。
需要说明的是,本发明实施例的执行主体,在硬件上可以例如为服务器/电子设备中的中央处理器(Central Processing Unit,CPU),在软件上可以例如为服务器/电子设备中的应用程序,对此不作限制。
该挖掘模型更新方法可以应用于对语义解析***中的挖掘模型进行自动更新的过程中。
参见图1,该挖掘模型更新方法包括:
S11:获取语义解析***对用户输入的查询语句进行解析得到的语义解析结果。
其中,用户可以在搜索引擎的搜索框中输入查询语句,在用户输入查询语句后,该查询语句可以由搜索引擎传输给后台***,后台***具体可以是指搜索引擎的服务器。搜索引擎的服务器接收到查询语句后,可以基于在云服务端的语义解析***对该查询语句进行语义解析,具体地,由该语义解析***从其中的挖掘模型挖掘语义资源,实现对查询语句进行解析,在对查询语句进行解析,识别出语义解析结果之后,可以触发查询相关的操作。
其中,语义解析***中的挖掘模型是预先建立的,具体可以采用统计的方式建立挖掘模型,例如,由后台人员对用户的查询行为进行统计,将对查询次数较多的查询语句的语义解析结果保存在挖掘模型中。
例如,用户输入的查询语句为“帮我查一下今天北京天气怎么样好不好”。
其中,采用语义解析***对该查询语句进行语义解析得到的语义解析结果为:{领域:weather;意图:search;槽位:{time:今天;location:北京}}。
相关技术中,在建立挖掘模型时,是由人工对线上数据进行分析,对相关的语义资源进行统计。
而本发明的实施例中,通过在对用户输入的查询语句进行解析得到语义解析结果的同时,可以自动化地提取该语义解析结果中的语义资源,在为用户提供查询服务的同时,对挖掘模型进行迭代更新,能够实现自动化地优化语义解析***中的挖掘模型,有效提升语义解析***的语义解析效果。
S12:根据语义解析结果生成对应的训练格式语料,其中,训练格式语料包括:第一格式语料和第二格式语料。
其中,第一格式语料用于标记查询语句中的语义特征,第二格式语料用于标记查询语句中的模板特征。
可选地,第一格式语料中包括:查询语句中分别与领域标签和意图标签对应的第一语义内容、多个槽位模板,以及与每个槽位模板对应的第二语义内容。
可选地,第二格式语料中包括:多种槽位模板组合,及在每种槽位模板组合下对应的第二语义内容。
例如,对应于用户输入的查询语句“帮我查一下今天北京天气怎么样好不好”,其语义解析结果为:{领域:weather;意图:search;槽位:{time:今天;location:北京}},其对应的训练格式语料为:帮我查一下【今天/time】【北京/location】【天气】【怎么样】好不好;【time】【location】【weather_slot_0】【weather_slot_1】。
第一格式语料可以为上述示例中:帮我查一下【今天/time】【北京/location】【天气】【怎么样】好不好。
其中,第一语义内容可以例如为:帮我查一下、好不好。
多个槽位模板,以及与每个槽位模板对应的第二语义内容可以例如为:【今天/time】【北京/location】【天气】【怎么样】,其中,第二语义内容为:与槽位模板【time】对应的语义内容“今天”,与槽位模板【location】对应的语义内容“北京”,与槽位模板【weather_slot_0】对应的语义内容“天气”,与槽位模板【weather_slot_1】对应的语义内容“怎么样”。
第二格式语料可以为上述示例中:【time】、【location】、【weather_slot_0】、【weather_slot_1】四个槽位模板的各种排列组合。
进一步地,可选地,参见图2,图2是本发明另一实施例提出的挖掘模型更新方法的流程示意图,S12可以包括:
S21:根据语义解析结果对查询语句进行分词,得到多个分词。
S22:将多个分词作为训练格式语料中的第一格式语料。
例如,参见上述实施例,可以采用相关技术中的分词方法基于语义解析结果:{领域:weather;意图:search;槽位:{time:今天;location:北京}},对查询语句“帮我查一下今天北京天气怎么样好不好”进行分词,该分词过程基于查询语句的语序,得到多个分词为:帮我查一下【今天/time】【北京/location】【天气】【怎么样】好不好。
因而,在本发明实施例中,可以将多个分词:帮我查一下【今天/time】【北京/location】【天气】【怎么样】好不好,作为训练格式语料中的第一格式语料。
在本发明的实施例中,通过根据语义解析结果对查询语句进行分词,得到多个分词,将多个分词作为训练格式语料中的第一格式语料,以基于第一格式语料对挖掘模型进行迭代更新,由于是根据对用户实际输入的查询语句进行分词得到的多个分词对挖掘模型进行迭代更新,实现用于迭代更新的语义资源的多元化,丰富了挖掘模型的语义内容,因而,有效提升语义解析***的语义解析效果。
进一步地,可选地,参见图3,图3是本发明另一实施例提出的挖掘模型更新方法的流程示意图,S12还可以包括:
S31:从第一格式语料中抽取多个槽位模板,以及与每个槽位模板对应的第二语义内容。
S32:生成多个槽位模板的各种排列组合,得到多种槽位模板组合。
S33:将多种槽位模板组合,及在每种槽位模板组合下对应的第二语义内容作为第二格式语料。
例如,参见上述实施例,第一格式语料为:帮我查一下【今天/time】【北京/location】【天气】【怎么样】好不好,则从第一格式语料中抽取多个槽位模板,以及与每个槽位模板对应的第二语义内容得到:【今天/time】【北京/location】【天气】【怎么样】,对应的四个槽位模板为:【time】、【location】、【weather_slot_0】、【weather_slot_1】,而后,可以生成多个槽位模板的各种排列组合,得到多种槽位模板组合。
在本发明的实施例中,可以依据不同的槽位模板的排列顺序,生成不同的槽位模板组合,即,第一种槽位模板组合:【time】、【location】;第二种槽位模板组合:【location】、【time】;第三种槽位模板组合:【time】、【location】、【weather_slot_0】;第四种槽位模板组合:【location】、【time】、【weather_slot_0】等等,以此类推。
进一步地,在本发明的实施例中,在生成多种槽位模板组合之后,可以相对应地,将多种槽位模板组合,及在每种槽位模板组合下对应的第二语义内容作为第二格式语料。即,将第一种槽位模板组合:【time】、【location】,及在第一种槽位模板组合下对应的第二语义内容:今天、北京,作为第二格式语料;将第二种槽位模板组合:【location】、【time】,及在第二种槽位模板组合下对应的第二语义内容:北京、今天,作为第二格式语料;将第三种槽位模板组合:【time】、【location】、【weather_slot_0】,及在第三种槽位模板组合下对应的第二语义内容:今天、北京、天气,作为第二格式语料;将第四种槽位模板组合:【location】、【time】、【weather_slot_0】,及在第四种槽位模板组合下对应的第二语义内容:北京、今天、天气,作为第二格式语料等等,以此类推。
在本发明的实施例中,通过生成多个槽位模板的各种排列组合,得到多种槽位模板组合,并将多种槽位模板组合,及在每种槽位模板组合下对应的第二语义内容作为第二格式语料,由于根据对用户实际输入的查询语句对应的多个槽位模板的各种排列组合,及在每种槽位模板组合下对应的语义内容对挖掘模型进行迭代更新,实现用于迭代更新的语义资源的多元化,通过生成多种槽位模板组合,进一步丰富了挖掘模型的语义内容,因而,有效提升语义解析***的语义解析效果。
S13:基于第一格式语料和第二格式语料对挖掘模型进行迭代更新。
在本发明的实施例中,在获取到用户输入的查询语句对应的第一格式语料和第二格式语料之后,可以将第一格式语料和第二格式语料添加至挖掘模型,以对挖掘模型进行迭代更新。
进一步地,在本发明的实施例中,也可以对第一格式语料和第二格式语料进行筛选,根据筛选出的语料对挖掘模型进行迭代更新。
例如,假设用户输入的查询语句为:我想看今天的天气好不好,确定出与查询语句对应的第二格式语料为:【看】【time】,且,通过语义解析***解析出的与查询语句对应的语义解析结果为:{领域:movie;意图:watch;槽位:{time:今天}},该第二格式语料为:【看】【time】相对于语义解析结果为:{领域:movie;意图:watch;槽位:{time:今天}}不符合查询语句的真实语义,因此,可以将该第二格式语料为:【看】【time】进行筛除处理。
在本发明的实施例中,通过对第一格式语料和第二格式语料进行筛选,根据筛选出的语料对挖掘模型进行迭代更新,而后,可以基于更新后的挖掘模型挖掘与用户输入的查询语句对应的语义资源,并将该语义资源添加至语义解析***中,从而有效提升语义解析***的语义解析效果。
可以进一步保障语义解析***的语义解析效果,且提升方法处理效率。
本实施例中,通过获取语义解析***对用户输入的查询语句进行解析得到的语义解析结果,并根据语义解析结果生成对应的训练格式语料,其中,训练格式语料包括:用于标记查询语句中的语义特征的第一格式语料和用于标记查询语句中的模板特征第二格式语料,以及基于第一格式语料和第二格式语料对挖掘模型进行迭代更新,由于是根据对用户实际输入的查询语句进行解析得到的语义解析结果对挖掘模型进行迭代更新,后续基于更新后的挖掘模型所获取的语义资源丰富语义解析***中,因而,能够有效提升语义解析***的语义解析效果。
图4是本发明另一实施例提出的挖掘模型更新方法的流程示意图。
参见图4,在S13之后,该挖掘模型更新方法还可以包括:
S41:基于更新之前的挖掘模型对多个测试语句进行解析,得到第一解析结果。
S42:基于更新后的挖掘模型对多个测试语句进行解析,得到第二解析结果。
S43:根据预设模型评分规则对第一解析结果进行评分,得到第一分数,以及对第二解析结果进行评分,得到第二分数。
S44:在第二分数大于第一分数时,将更新后的挖掘模型作为语义解析***的挖掘模型。
在本发明的实施例中,通过基于预设模型评分规则对更新前后挖掘模型的解析结果进行评分,在第二分数大于第一分数,即,更新后的挖掘模型的解析结果优于更新前的挖掘模型的解析结果时,将更新后的挖掘模型作为语义解析***的挖掘模型,而在更新后的挖掘模型的解析结果劣于更新前的挖掘模型的解析结果时,不做任何处理,能够保障在对挖掘模型的每一次迭代更新之后,后续基于更新后的挖掘模型所获取的语义资源丰富语义解析***中,均能提升语义解析***的语义解析效果,进一步保障了方法的执行效率,且提升用户使用体验度。
图5是本发明一实施例提出的挖掘模型更新装置的结构示意图。
参见图5,该挖掘模型更新装置500包括:获取模块501、生成模块502、更新模块503,其中,
获取模块501,用于获取语义解析***对用户输入的查询语句进行解析得到的语义解析结果。
生成模块502,用于根据语义解析结果生成对应的训练格式语料,其中,训练格式语料包括:第一格式语料和第二格式语料。
可选地,第一格式语料中包括:查询语句中分别与领域标签和意图标签对应的第一语义内容、多个槽位模板,以及与每个槽位模板对应的第二语义内容。
可选地,第二格式语料中包括:多种槽位模板组合,及在每种槽位模板组合下对应的第二语义内容。
可选地,一些实施例中,参见图6,生成模块502,包括:
分词子模块5021,用于根据语义解析结果对查询语句进行分词,得到多个分词。
第一格式语料确定子模块5022,用于将多个分词作为训练格式语料中的第一格式语料。
抽取子模块5023,用于从第一格式语料中抽取多个槽位模板,以及与每个槽位模板对应的第二语义内容。
生成子模块5024,用于生成多个槽位模板的各种排列组合,得到多种槽位模板组合。
第二格式语料确定子模块5025,用于将多种槽位模板组合,及在每种槽位模板组合下对应的第二语义内容作为第二格式语料。
更新模块503,用于基于第一格式语料和第二格式语料对挖掘模型进行迭代更新。
其中,第一格式语料用于标记查询语句中的语义特征,第二格式语料用于标记查询语句中的模板特征。
可选地,一些实施例中,参见图6,该挖掘模型更新装置500包括:
第一解析模块504,用于基于更新之前的挖掘模型对多个测试语句进行解析,得到第一解析结果。
第二解析模块505,用于基于更新后的挖掘模型对多个测试语句进行解析,得到第二解析结果。
评分模块506,用于根据预设模型评分规则对第一解析结果进行评分,得到第一分数,以及对第二解析结果进行评分,得到第二分数。
更新模块503还用于,在第二分数大于第一分数时,将更新后的挖掘模型作为语义解析***的挖掘模型。
需要说明的是,前述图1-图4实施例中对挖掘模型更新方法实施例的解释说明也适用于该实施例的挖掘模型更新装置500,其实现原理类似,此处不再赘述。
本实施例中,通过获取语义解析***对用户输入的查询语句进行解析得到的语义解析结果,并根据语义解析结果生成对应的训练格式语料,其中,训练格式语料包括:用于标记查询语句中的语义特征的第一格式语料和用于标记查询语句中的模板特征第二格式语料,以及基于第一格式语料和第二格式语料对挖掘模型进行迭代更新,由于是根据对用户实际输入的查询语句进行解析得到的语义解析结果对挖掘模型进行迭代更新,后续基于更新后的挖掘模型所获取的语义资源丰富语义解析***中,因而,能够有效提升语义解析***的语义解析效果。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种挖掘模型更新方法,其特征在于,应用于语义解析***中的挖掘模型,包括:
获取所述语义解析***对用户输入的查询语句进行解析得到的语义解析结果;
根据所述语义解析结果生成对应的训练格式语料,其中,所述训练格式语料包括:第一格式语料和第二格式语料;
基于所述第一格式语料和第二格式语料对所述挖掘模型进行迭代更新;
其中,所述第一格式语料用于标记所述查询语句中的语义特征,所述第二格式语料用于标记所述查询语句中的模板特征。
2.如权利要求1所述的挖掘模型更新方法,其特征在于,所述第一格式语料中包括:所述查询语句中分别与领域标签和意图标签对应的第一语义内容、多个槽位模板,以及与每个槽位模板对应的第二语义内容。
3.如权利要求2所述的挖掘模型更新方法,其特征在于,所述根据所述语义解析结果生成对应的训练格式语料,包括:
根据所述语义解析结果对所述查询语句进行分词,得到多个分词;
将所述多个分词作为所述训练格式语料中的第一格式语料。
4.如权利要求3所述的挖掘模型更新方法,其特征在于,所述第二格式语料中包括:多种槽位模板组合,及在每种槽位模板组合下对应的第二语义内容。
5.如权利要求4所述的挖掘模型更新方法,其特征在于,所述根据所述语义解析结果生成对应的训练格式语料,包括:
从所述第一格式语料中抽取所述多个槽位模板,以及与每个槽位模板对应的第二语义内容;
生成所述多个槽位模板的各种排列组合,得到多种槽位模板组合;
将所述多种槽位模板组合,及在每种槽位模板组合下对应的第二语义内容作为所述第二格式语料。
6.如权利要求1所述的挖掘模型更新方法,其特征在于,在所述基于所述第一格式语料和第二格式语料对所述挖掘模型进行迭代更新之后,还包括:
基于更新之前的挖掘模型对多个测试语句进行解析,得到第一解析结果;
基于更新后的挖掘模型对所述多个测试语句进行解析,得到第二解析结果;
根据预设模型评分规则对所述第一解析结果进行评分,得到第一分数,以及对所述第二解析结果进行评分,得到第二分数;
在所述第二分数大于所述第一分数时,将所述更新后的挖掘模型作为所述语义解析***的挖掘模型。
7.一种挖掘模型更新装置,其特征在于,应用于语义解析***中的挖掘模型,包括:
获取模块,用于获取所述语义解析***对用户输入的查询语句进行解析得到的语义解析结果;
生成模块,用于根据所述语义解析结果生成对应的训练格式语料,其中,所述训练格式语料包括:第一格式语料和第二格式语料;
更新模块,用于基于所述第一格式语料和第二格式语料对所述挖掘模型进行迭代更新;
其中,所述第一格式语料用于标记所述查询语句中的语义特征,所述第二格式语料用于标记所述查询语句中的模板特征。
8.如权利要求7所述的挖掘模型更新装置,其特征在于,所述第一格式语料中包括:所述查询语句中分别与领域标签和意图标签对应的第一语义内容、多个槽位模板,以及与每个槽位模板对应的第二语义内容。
9.如权利要求8所述的挖掘模型更新装置,其特征在于,所述生成模块,包括:
分词子模块,用于根据所述语义解析结果对所述查询语句进行分词,得到多个分词;
第一格式语料确定子模块,用于将所述多个分词作为所述训练格式语料中的第一格式语料。
10.如权利要求9所述的挖掘模型更新装置,其特征在于,所述第二格式语料中包括:多种槽位模板组合,及在每种槽位模板组合下对应的第二语义内容。
11.如权利要求10所述的挖掘模型更新装置,其特征在于,所述生成模块,包括:
抽取子模块,用于从所述第一格式语料中抽取所述多个槽位模板,以及与每个槽位模板对应的第二语义内容;
生成子模块,用于生成所述多个槽位模板的各种排列组合,得到多种槽位模板组合;
第二格式语料确定子模块,用于将所述多种槽位模板组合,及在每种槽位模板组合下对应的第二语义内容作为所述第二格式语料。
12.如权利要求7所述的挖掘模型更新装置,其特征在于,还包括:
第一解析模块,用于基于更新之前的挖掘模型对多个测试语句进行解析,得到第一解析结果;
第二解析模块,用于基于更新后的挖掘模型对所述多个测试语句进行解析,得到第二解析结果;
评分模块,用于根据预设模型评分规则对所述第一解析结果进行评分,得到第一分数,以及对所述第二解析结果进行评分,得到第二分数;
所述更新模块还用于,在所述第二分数大于所述第一分数时,将所述更新后的挖掘模型作为所述语义解析***的挖掘模型。
CN201710210161.7A 2017-03-31 2017-03-31 挖掘模型更新方法和装置 Active CN106970993B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710210161.7A CN106970993B (zh) 2017-03-31 2017-03-31 挖掘模型更新方法和装置
US15/914,098 US10586080B2 (en) 2017-03-31 2018-03-07 Method and apparatus for updating mining model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710210161.7A CN106970993B (zh) 2017-03-31 2017-03-31 挖掘模型更新方法和装置

Publications (2)

Publication Number Publication Date
CN106970993A CN106970993A (zh) 2017-07-21
CN106970993B true CN106970993B (zh) 2020-09-18

Family

ID=59335517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710210161.7A Active CN106970993B (zh) 2017-03-31 2017-03-31 挖掘模型更新方法和装置

Country Status (2)

Country Link
US (1) US10586080B2 (zh)
CN (1) CN106970993B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171064B (zh) * 2018-01-29 2021-03-19 中国人民解放军战略支援部队信息工程大学 一种用于灰盒模糊测试的样本格式保护方法及装置
CN108871370A (zh) * 2018-07-03 2018-11-23 北京百度网讯科技有限公司 导航方法、装置、设备和介质
CN109284363B (zh) * 2018-12-03 2023-03-14 北京羽扇智信息科技有限公司 一种问答方法、装置、电子设备及存储介质
CN110990451B (zh) * 2019-11-15 2023-05-12 浙江大华技术股份有限公司 基于句子嵌入的数据挖掘方法、装置、设备及存储装置
CN111753022A (zh) * 2020-06-17 2020-10-09 第四范式(北京)技术有限公司 构建知识图谱的方法、装置、设备和可读存储介质
CN111753021A (zh) * 2020-06-17 2020-10-09 第四范式(北京)技术有限公司 构建知识图谱的方法、装置、设备和可读存储介质
CN112256576B (zh) * 2020-10-22 2023-09-29 中国平安人寿保险股份有限公司 人机对话语料测试方法、装置、设备及存储介质
CN112632279B (zh) * 2020-12-21 2024-06-07 北京搜狗科技发展有限公司 一种确定用户标签的方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
CN105529030A (zh) * 2015-12-29 2016-04-27 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8805110B2 (en) * 2008-08-19 2014-08-12 Digimarc Corporation Methods and systems for content processing
US10235358B2 (en) * 2013-02-21 2019-03-19 Microsoft Technology Licensing, Llc Exploiting structured content for unsupervised natural language semantic parsing
US9886950B2 (en) * 2013-09-08 2018-02-06 Intel Corporation Automatic generation of domain models for virtual personal assistants
US9818405B2 (en) * 2016-03-15 2017-11-14 SAESTEK Ses ve Iletisim Bilgisayar Tekn. San. Ve Tic. A.S. Dialog management system
US9990176B1 (en) * 2016-06-28 2018-06-05 Amazon Technologies, Inc. Latency reduction for content playback
US10462545B2 (en) * 2016-07-27 2019-10-29 Amazon Technologies, Inc. Voice activated electronic device
US10229680B1 (en) * 2016-12-29 2019-03-12 Amazon Technologies, Inc. Contextual entity resolution
US10102855B1 (en) * 2017-03-30 2018-10-16 Amazon Technologies, Inc. Embedded instructions for voice user interface
US10089983B1 (en) * 2017-06-08 2018-10-02 Amazon Technologies, Inc. Third party account linking for voice user interface

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN105529030A (zh) * 2015-12-29 2016-04-27 百度在线网络技术(北京)有限公司 语音识别处理方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
旅游自动应答语义模型分析与实践;王彦 等;《计算机应用***》;20170321;全文 *

Also Published As

Publication number Publication date
CN106970993A (zh) 2017-07-21
US10586080B2 (en) 2020-03-10
US20180285346A1 (en) 2018-10-04

Similar Documents

Publication Publication Date Title
CN106970993B (zh) 挖掘模型更新方法和装置
CN111221983B (zh) 时序知识图谱生成方法、装置、设备和介质
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
US11544459B2 (en) Method and apparatus for determining feature words and server
US11645517B2 (en) Information processing method and terminal, and computer storage medium
CN108090043B (zh) 基于人工智能的纠错举报处理方法、装置及可读介质
JP7242719B2 (ja) Spoの抽出方法、装置、電子機器及び記憶媒体
CN111079408B (zh) 一种语种识别方法、装置、设备及存储介质
CN111160003B (zh) 一种断句方法及装置
CN109558600B (zh) 翻译处理方法及装置
CN110738055A (zh) 文本的实体识别方法、设备及存储介质
CN115827895A (zh) 一种漏洞知识图谱处理方法、装置、设备及介质
CN109300550B (zh) 医学数据关系挖掘方法及装置
CN114842982B (zh) 一种面向医疗信息***的知识表达方法、装置及***
US10229105B1 (en) Mobile log data parsing
CN113076932B (zh) 训练音频语种识别模型的方法、视频检测方法及其装置
CN115292506A (zh) 应用于办公领域的知识图谱本体构建方法和装置
CN114971833A (zh) 一种税收信息处理方法及相关设备
CN114860872A (zh) 数据处理方法、装置、设备以及存储介质
CN114625922A (zh) 一种构建词库的方法、装置、电子设备及存储介质
CN107038183B (zh) 网页标注方法及装置
CN112148751A (zh) 用于查询数据的方法和装置
CN113326691B (zh) 数据处理方法和装置、电子设备、计算机可读介质
CN108932326B (zh) 一种实例扩展方法、装置、设备和介质
CN111126087B (zh) 领域翻译处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant