CN111079445A - 基于语义模型的训练方法、装置以及电子设备 - Google Patents

基于语义模型的训练方法、装置以及电子设备 Download PDF

Info

Publication number
CN111079445A
CN111079445A CN201911385958.6A CN201911385958A CN111079445A CN 111079445 A CN111079445 A CN 111079445A CN 201911385958 A CN201911385958 A CN 201911385958A CN 111079445 A CN111079445 A CN 111079445A
Authority
CN
China
Prior art keywords
model
text
training
recognition
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911385958.6A
Other languages
English (en)
Inventor
陈喜旺
黄柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Sanbaiyun Information Technology Co Ltd
Original Assignee
Nanjing Sanbaiyun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Sanbaiyun Information Technology Co Ltd filed Critical Nanjing Sanbaiyun Information Technology Co Ltd
Priority to CN201911385958.6A priority Critical patent/CN111079445A/zh
Publication of CN111079445A publication Critical patent/CN111079445A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种基于语义模型的训练方法、装置以及电子设备,涉及模型训练技术领域,解决目前语义识别模型的识别结果准确率较低的技术问题。方法包括:基于标注的训练样本集对语义标注模型进行训练,得到训练后的语义标注模型;基于语义标注模型重复执行下述步骤,直至识别模型的识别结果满足预设条件,输出训练后的识别模型:基于语义标注模型对未标注文本集中的每个文本进行识别,得到每个文本的初步标签;基于关键词集合以及判定逻辑,对每个文本的初步标签进行判断得到每个文本的最终标签;基于每个文本的最终标签对训练后的语义标注模型进行训练,以及对中间判定逻辑和中间关键词集合进行优化;确定识别模型的识别结果是否满足预设条件。

Description

基于语义模型的训练方法、装置以及电子设备
技术领域
本申请涉及模型训练技术领域,尤其是涉及一种基于语义模型的训练方法、装置以及电子设备。
背景技术
目前,语义识别模型的种类有很多种,例如,自然语言处理(Natural LanguageProcessing,NLP)模型、双向编码器(Bidirectional Encoder Representations fromTransformers,BERT)等。
但是,无论基于何种模型进行语义识别,都很容易造成各种歧义,出现错误识别的现象。例如,“张哥”、“王姐”等识别成亲戚哥哥、姐姐,父亲与某人的父亲之间的歧义,等等,导致最终识别结果存在大量的误判,使目前语义识别模型的识别结果准确率较低。
发明内容
本发明的目的在于提供一种基于语义模型的训练方法、装置以及电子设备,以解决目前语义识别模型的识别结果准确率较低的技术问题。
第一方面,本申请实施例提供了一种基于语义模型的训练方法,预先确定标注的训练样本集、未标注文本集以及识别模型,所述识别模型包括语义标注模型、判定逻辑以及关键词集合,所述关键词集合中的关键词为基于所述标注的训练样本集确定的具有歧义的词;所述方法包括:
基于所述标注的训练样本集对所述语义标注模型进行训练,得到训练后的语义标注模型;基于所述语义标注模型重复执行下述步骤,直至所述识别模型的识别结果满足预设条件,输出为训练后的识别模型:
基于所述语义标注模型对所述未标注文本集中的每个文本进行识别,得到每个所述文本的初步标签;
基于所述关键词集合以及所述判定逻辑,对每个所述文本的初步标签进行判断,得到每个所述文本的最终标签;
基于每个所述文本的最终标签对所述训练后的语义标注模型进行训练,以及对中间判定逻辑和中间关键词集合进行优化;
确定所述识别模型的识别结果是否满足预设条件。
在一个可能的实现中,所述关键词集合的存储方式为分布式存储的方式;和/或,所述标注的训练样本集和所述未标注文本集的存储方式为分布式存储的方式。
在一个可能的实现中,所述关键词集合中的关键词对应有标签;多个所述标签被分至多个不同标签种类的组内,每个所述组内的标签具有与对应组之间的索引。
在一个可能的实现中,所述关键词集合中的关键词为目标对象的身份关键词;
所述标注的训练样本集和所述未标注文本集中的样本均为所述目标对象的社交数据样本。
在一个可能的实现中,所述目标对象的社交数据样本的标注内容包括下述任意一项或多项:
时间、地点以及所述目标对象的标识、工作行业领域、社交关系和亲属关系。
在一个可能的实现中,所述标注的训练样本集包括:训练样本和测试样本;
确定所述识别模型的识别结果是否满足预设条件的步骤,包括:
基于所述测试样本通过所述识别模型,得到测试结果;
根据所述测试结果确定所述识别模型的识别结果是否满足预设条件。
在一个可能的实现中,所述方法还包括:
将所述关键词集合、所述判定逻辑以及所述识别模型进行封装,得到封装结果;
所述封装结果的形式为Python模块或API接口。
第二方面,提供了一种基于语义模型的训练装置,预先确定标注的训练样本集、未标注文本集以及识别模型,所述识别模型包括语义标注模型、判定逻辑以及关键词集合,所述关键词集合中的关键词为基于所述标注的训练样本集确定的具有歧义的词;所述装置包括:
第一训练模块,用于基于所述标注的训练样本集对所述语义标注模型进行训练,得到训练后的语义标注模型;
识别模块,用于基于所述语义标注模型对所述未标注文本集中的每个文本进行识别,得到每个所述文本的初步标签;
判断模块,用于基于所述关键词集合以及所述判定逻辑,对每个所述文本的初步标签进行判断,得到每个所述文本的最终标签;
第二训练模块,用于基于每个所述文本的最终标签对所述训练后的语义标注模型进行训练,以及对中间判定逻辑和中间关键词集合进行优化;
确定模块,用于确定所述识别模型的识别结果是否满足预设条件。
所述识别模块、所述判断模块、所述第二训练模块以及所述确定模块重复运行,直至所述识别模型的识别结果满足预设条件,输出为训练后的识别模型。
第三方面,本申请实施例又提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的第一方面所述方法。
第四方面,本申请实施例又提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述的第一方面所述方法。
本申请实施例带来了以下有益效果:
本申请实施例提供的一种基于语义模型的训练方法、装置以及电子设备,能够基于标注的训练样本集对语义标注模型进行训练从而得到训练后的语义标注模型,接下来基于语义标注模型重复执行下述的循环迭代步骤,直至识别模型的识别结果满足预设条件,输出最后的训练后的识别模型:先基于语义标注模型对未标注文本集中的每个文本进行识别从而得到每个文本的初步标签,再基于关键词集合以及判定逻辑对每个文本的初步标签进行判断从而得到每个文本的最终标签,之后基于每个文本的最终标签对训练后的语义标注模型进行训练,以及对中间判定逻辑和中间关键词集合进行优化,最后,确定识别模型的识别结果是否满足预设条件,通过基于识别模型和包含了歧义词的关键词集合进行判别,利用关键词集合中具有歧义的词执行歧义判定逻辑,能够提高识别模型的识别结果的准确率,以解决目前语义识别模型的识别结果准确率较低的技术问题。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于语义模型的训练方法的流程图示意图;
图2为本申请实施例提供的基于语义模型的训练方法的另一流程图示意图;
图3为本申请实施例提供的一种基于语义模型的训练装置的结构示意图;
图4为示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
目前,能够从报章等非结构化文本中抽取关于公司活动等相关活动的结构化信息,而抽取人名、地名、组织机构名、时间和数字表达式结构化信息的关键内容,需要从文本中去识别这些实体指称及其类别,即命名实体识别和分类。
基于大规模语料库的统计方法成为自然语言处理的主流,以下是基于统计模型的命名实体识别方法归纳:监督的学习方法,马尔科夫模型,最大熵模型,条件随机场等;半监督的学习方法,利用标注的小数据及自举学习;无监督学习:利用词汇资源;上下文聚类,混合方法:几种模型结合。但是,对于亿级数据,无论是存储还是读取处理,在线下都是非常消耗内存与低效的。
而且,无论基于何种模型的方法,很容易造成各种歧义,错误识别的现象出现。现有自然语言处理(Natural Language Processing,NLP)模型实体标注存在很多歧义问题很难解决。例如,“张哥”、“王姐”等识别成亲戚哥哥、姐姐,父亲与某某人的父亲的歧义,某些汽车品牌被识别成姓名,导致最终标注结果存储大量的误判,因此,目前语义识别模型的识别结果准确率较低。
基于此,本申请实施例提供了一种基于语义模型的训练方法、装置以及电子设备,通过该方法可以解决目前语义识别模型的识别结果准确率较低的技术问题。
下面结合附图对本发明实施例进行进一步地介绍。
图1为本申请实施例提供的一种基于语义模型的训练方法的流程示意图。预先确定标注的训练样本集、未标注文本集以及识别模型,识别模型包括语义标注模型、判定逻辑以及关键词集合,关键词集合中的关键词为基于标注的训练样本集确定的具有歧义的词。如图1所示,该方法包括:
步骤S110,基于标注的训练样本集对语义标注模型进行训练,得到训练后的语义标注模型。
其中,识别模型可以基于自然语言处理(Natural Language Processing,NLP)模型实现,也可以基于卷积神经网络(Convolutional Neural Network,CNN)模型、Transformer或者双向编码器(Bidirectional Encoder Representations fromTransformers,BERT)实现。
需要说明的是,关键词是基于标注的训练样本集确定的具有歧义的词,关键词集合可以直接以***文件的形式存储以及读取。
示例性的,如图2所示,对于亿级社交数据(如图2中的110)中标注的数据,可以通过人工的方式结合大量社交数据进行归纳总结,得出导致歧义的判定与一些直接判定身份的关键词集。然后,可以将亿级社交数据(如图2中的110)中已标注数据训练语义标注模型。
接下来,基于语义标注模型重复执行下述步骤S120至步骤S150,直至识别模型的识别结果满足预设条件,输出为训练后的识别模型:
步骤S120,基于语义标注模型对未标注文本集中的每个文本进行识别,得到每个文本的初步标签。
例如,如图2所示,可以对于亿级社交数据中剩余无标签数据进行初步实体标注识别,从而可以得到每段文本模型识别结果即该用户数据的初步标签。
步骤S130,基于关键词集合以及判定逻辑,对每个文本的初步标签进行判断,得到每个文本的最终标签。
示例性的,如图2所示,对于社交身份初步标签(如图2中的160)的结果结合身份关键词(如图2中的130)进行逻辑判定,去除其中错误的结果,得到整合得到迭代步数为一步的最终标签结果,即通过整合逻辑解决歧义标注(如图2中的170)得到最终标签。
步骤S140,基于每个文本的最终标签对训练后的语义标注模型进行训练,以及对中间判定逻辑和中间关键词集合进行优化。
本步骤中,基于每个文本的最终标签对训练后的语义标注模型进行训练,以及基于每个文本的最终标签对中间判定逻辑和中间关键词集合进行优化。
步骤S150,确定识别模型的识别结果是否满足预设条件。若是,则执行步骤S160。若否,则重新执行步骤S120。
在实际应用中,如图2所示,每段文本会有一个新的标签,这些新的有标签数据在反馈机制修复词集(如图2中的190)时反馈至身份关键词修复,逻辑判定修复,另一方面在反馈机制修复模型(如图2中的200)部分反馈至识别模型实体标注模型形成模型迭代训练机制,则整体进入下一次迭代过程。
步骤S160,输出训练后的识别模型。
示例性的,可以取一定量的人工标注的高质量数据为测试集,测试结果满足要求迭代终止。由迭代终止得到的最终结果为该用户最终社交身份标签,并将该标签与用户索引关联、存储以及查询。
通过基于识别模型和包含了歧义词的关键词集合进行判别,利用关键词集合中具有歧义的词执行歧义判定逻辑,能够提高识别模型的识别结果的准确率,可以解决目前语义识别模型的识别结果准确率较低的技术问题。
本申请实施例中,可以基于识别模型和关键词集合判别结合的社交身份发现,通过大量社交数据,人工采集整合关键词集合与歧义逻辑解决方法,专门解决NLP实体标注技术在社交身份识别领域的错误结果。再者,整体识别模型的自我反馈机制能够提高识别模型额实体标注模型效果与关键词集的修复。对于后端线下对于亿级社交数据能够进行方便,快速,正确的身份标定。
下面对上述步骤进行详细介绍。
在一些实施例中,关键词集合的存储方式为分布式存储的方式;和/或,标注的训练样本集和未标注文本集的存储方式为分布式存储的方式。
通过分布式的数据存储结构能够解决后端文本处理时由于数量级太大造成的效率慢的情况。具体的,由于社交数据是亿级之多的文本数据,后端线下快速读取处理是个大难点,本申请实施例采用分布式数据存储方案,可以方便快速的热更新标签结果与实时存储。
在一些实施例中,关键词集合中的关键词对应有标签;多个标签被分至多个不同标签种类的组内,每个组内的标签具有与对应组之间的索引。
如图2所示,对于身份关键词(如图2中的130)中得到的关键词集通过标签的种类对标签进行分组,各自小组内给予每一标签唯一索引,从而能够方便添加与查找。
当然,也可以对用户进行分组。例如,如图2所示,对于亿级社交数据(如图2中的110)中剩余无标注数据统计用户文本数据总量,按照一定数量进行分组,设定一定维度的数字序列给予每位用户所在的分组,然后再以每个分组的长度,从而给予每位用户所在分组的索引号。
在一些实施例中,关键词集合中的关键词为目标对象的身份关键词;标注的训练样本集和未标注文本集中的样本均为目标对象的社交数据样本。
如图2所示,关键词集合中的关键词为目标对象的身份关键词(如图2中的130),则样本便为该目标对象的社交数据样本,以将目标对象的身份信息与目标对象的社交数据结合起来,提高数据的准确性。
在一些实施例中,目标对象的社交数据样本的标注内容包括下述任意一项或多项:
时间、地点以及目标对象的标识、工作行业领域、社交关系和亲属关系。
如图2所示,部分获取大量的社交数据文本,主要形式为每位用户对应一段描述备注的文本内容,取出部分进行标注,标注内容可以包括:时间、地点、人名(目标对象的标识),工作行业领域,社交关系,亲属关系等。因此,使标注的内容更加丰富全面。
在一些实施例中,标注的训练样本集包括:训练样本和测试样本;上述步骤S150可以包括如下步骤:
基于测试样本通过识别模型,得到测试结果;
根据测试结果确定识别模型的识别结果是否满足预设条件。
在实际应用中,可以将标注的训练样本划分为训练集和测试集,其中的测试集可以用于确定识别模型的识别结果是否满足预设条件。
例如,可以取一定量的人工标注的高质量数据为测试集,当测试结果满足要求迭代终止。由迭代终止得到的最终结果为该用户最终社交身份标签。
用过标注的训练样本中划分出的测试集,可以更加有效的测试出识别模型的识别结果是否满足预设条件。
在一些实施例中,将关键词集合、判定逻辑以及识别模型进行封装,得到封装结果;封装结果的形式为Python模块或API接口。
在实际应用中,可以将关键词集,判定逻辑和识别模型统一封装(如图2中的220)成Python模块,从而能够方便复用、加载以及实时更新。通过将整体过程封装成Python模块或者API接口,以方便数据调用。
本申请实施例中,能够在后端线下对于亿级社交数据进行方便,快速,正确地身份标定并统一封装,方便调用、复用、加载以及实时更新。
图3提供了一种基于语义模型的训练装置的结构示意图。预先确定标注的训练样本集、未标注文本集以及识别模型,识别模型包括语义标注模型、判定逻辑以及关键词集合,关键词集合中的关键词为基于标注的训练样本集确定的具有歧义的词。如图3所示,基于语义模型的训练装置300包括:
第一训练模块301,用于基于标注的训练样本集对语义标注模型进行训练,得到训练后的语义标注模型;
识别模块302,用于基于语义标注模型对未标注文本集中的每个文本进行识别,得到每个文本的初步标签;
判断模块303,用于基于关键词集合以及判定逻辑,对每个文本的初步标签进行判断,得到每个文本的最终标签;
第二训练模块304,用于基于每个文本的最终标签对训练后的语义标注模型进行训练,以及对中间判定逻辑和中间关键词集合进行优化;
确定模块305,用于确定识别模型的识别结果是否满足预设条件。
识别模块302、判断模块303、第二训练模块304以及确定模块305重复运行,直至识别模型的识别结果满足预设条件,输出为训练后的识别模型。
在一些实施例中,关键词集合的存储方式为分布式存储的方式;
和/或,标注的训练样本集和未标注文本集的存储方式为分布式存储的方式。
在一些实施例中,关键词集合中的关键词对应有标签;
多个标签被分至多个不同标签种类的组内,每个组内的标签具有与对应组之间的索引。
在一些实施例中,关键词集合中的关键词为目标对象的身份关键词;
标注的训练样本集和未标注文本集中的样本均为目标对象的社交数据样本。
在一些实施例中,目标对象的社交数据样本的标注内容包括下述任意一项或多项:
时间、地点以及目标对象的标识、工作行业领域、社交关系和亲属关系。
在一些实施例中,标注的训练样本集包括:训练样本和测试样本;
确定模块305具体用于:
基于测试样本通过识别模型,得到测试结果;
根据测试结果确定识别模型的识别结果是否满足预设条件。
在一些实施例中,该装置还包括:
封装模块,用于将关键词集合、判定逻辑以及识别模型进行封装,得到封装结果;
封装结果的形式为Python模块或API接口。
本申请实施例提供的基于语义模型的训练装置,与上述实施例提供的基于语义模型的训练方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本申请实施例提供的一种电子设备,如图4所示,电子设备4包括存储器401、处理器402,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例提供的方法的步骤。
参见图4,电子设备还包括:总线403和通信接口404,处理器402、通信接口404和存储器401通过总线403连接;处理器402用于执行存储器401中存储的可执行模块,例如计算机程序。
其中,存储器401可能包含高速随机存取存储器(Random AccessMemory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口404(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线403可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器401用于存储程序,所述处理器402在接收到执行指令后,执行所述程序,前述本申请任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器402中,或者由处理器402实现。
处理器402可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器402中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器402可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器401,处理器402读取存储器401中的信息,结合其硬件完成上述方法的步骤。
对应于上述基于语义模型的训练方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述基于语义模型的训练方法的步骤。
本申请实施例所提供的基于语义模型的训练装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的***、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述基于语义模型的训练方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于语义模型的训练方法,其特征在于,预先确定标注的训练样本集、未标注文本集以及识别模型,所述识别模型包括语义标注模型、判定逻辑以及关键词集合,所述关键词集合中的关键词为基于所述标注的训练样本集确定的具有歧义的词;所述方法包括:
基于所述标注的训练样本集对所述语义标注模型进行训练,得到训练后的语义标注模型;基于所述语义标注模型重复执行下述步骤,直至所述识别模型的识别结果满足预设条件,输出为训练后的识别模型:
基于所述语义标注模型对所述未标注文本集中的每个文本进行识别,得到每个所述文本的初步标签;
基于所述关键词集合以及所述判定逻辑,对每个所述文本的初步标签进行判断,得到每个所述文本的最终标签;
基于每个所述文本的最终标签对所述训练后的语义标注模型进行训练,以及对中间判定逻辑和中间关键词集合进行优化;
确定所述识别模型的识别结果是否满足预设条件。
2.根据权利要求1所述的方法,其特征在于,所述关键词集合的存储方式为分布式存储的方式;和/或,所述标注的训练样本集和所述未标注文本集的存储方式为分布式存储的方式。
3.根据权利要求1所述的方法,其特征在于,所述关键词集合中的关键词对应有标签;多个所述标签被分至多个不同标签种类的组内,每个所述组内的标签具有与对应组之间的索引。
4.根据权利要求1所述的方法,其特征在于,所述关键词集合中的关键词为目标对象的身份关键词;
所述标注的训练样本集和所述未标注文本集中的样本均为所述目标对象的社交数据样本。
5.根据权利要求4所述的方法,其特征在于,所述目标对象的社交数据样本的标注内容包括下述任意一项或多项:
时间、地点以及所述目标对象的标识、工作行业领域、社交关系和亲属关系。
6.根据权利要求1所述的方法,其特征在于,所述标注的训练样本集包括:训练样本和测试样本;
确定所述识别模型的识别结果是否满足预设条件的步骤,包括:
基于所述测试样本通过所述识别模型,得到测试结果;
根据所述测试结果确定所述识别模型的识别结果是否满足预设条件。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述关键词集合、所述判定逻辑以及所述识别模型进行封装,得到封装结果;
所述封装结果的形式为Python模块或API接口。
8.一种基于语义模型的训练装置,其特征在于,预先确定标注的训练样本集、未标注文本集以及识别模型,所述识别模型包括语义标注模型、判定逻辑以及关键词集合,所述关键词集合中的关键词为基于所述标注的训练样本集确定的具有歧义的词;所述装置包括:
第一训练模块,用于基于所述标注的训练样本集对所述语义标注模型进行训练,得到训练后的语义标注模型;
识别模块,用于基于所述语义标注模型对所述未标注文本集中的每个文本进行识别,得到每个所述文本的初步标签;
判断模块,用于基于所述关键词集合以及所述判定逻辑,对每个所述文本的初步标签进行判断,得到每个所述文本的最终标签;
第二训练模块,用于基于每个所述文本的最终标签对所述训练后的语义标注模型进行训练,以及对中间判定逻辑和中间关键词集合进行优化;
确定模块,用于确定所述识别模型的识别结果是否满足预设条件;
所述识别模块、所述判断模块、所述第二训练模块以及所述确定模块重复运行,直至所述识别模型的识别结果满足预设条件,输出为训练后的识别模型。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述权利要求1至7任一项所述的方法。
CN201911385958.6A 2019-12-27 2019-12-27 基于语义模型的训练方法、装置以及电子设备 Pending CN111079445A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911385958.6A CN111079445A (zh) 2019-12-27 2019-12-27 基于语义模型的训练方法、装置以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911385958.6A CN111079445A (zh) 2019-12-27 2019-12-27 基于语义模型的训练方法、装置以及电子设备

Publications (1)

Publication Number Publication Date
CN111079445A true CN111079445A (zh) 2020-04-28

Family

ID=70319172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911385958.6A Pending CN111079445A (zh) 2019-12-27 2019-12-27 基于语义模型的训练方法、装置以及电子设备

Country Status (1)

Country Link
CN (1) CN111079445A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069293A (zh) * 2020-09-14 2020-12-11 上海明略人工智能(集团)有限公司 一种数据标注方法、装置、电子设备和计算机可读介质
CN112149179A (zh) * 2020-09-18 2020-12-29 支付宝(杭州)信息技术有限公司 基于隐私保护的风险识别方法及装置
CN112307337A (zh) * 2020-10-30 2021-02-02 中国平安人寿保险股份有限公司 基于标签知识图谱的关联推荐方法、装置及计算机设备
CN112487814A (zh) * 2020-11-27 2021-03-12 北京百度网讯科技有限公司 实体分类模型训练方法、实体分类方法、装置及电子设备
CN113220836A (zh) * 2021-05-08 2021-08-06 北京百度网讯科技有限公司 序列标注模型的训练方法、装置、电子设备和存储介质
CN113327591A (zh) * 2021-06-16 2021-08-31 北京有竹居网络技术有限公司 一种语音处理方法及装置
CN114372446A (zh) * 2021-12-13 2022-04-19 北京五八信息技术有限公司 一种车属性标注方法、设备及存储介质
CN114492419A (zh) * 2022-04-01 2022-05-13 杭州费尔斯通科技有限公司 基于标注中新增关键词语的文本标注方法、***及装置
CN114637848A (zh) * 2022-03-15 2022-06-17 美的集团(上海)有限公司 语义分类方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469188A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种实体消歧方法及装置
CN108009589A (zh) * 2017-12-12 2018-05-08 腾讯科技(深圳)有限公司 样本数据处理方法、装置和计算机可读存储介质
CN108875059A (zh) * 2018-06-29 2018-11-23 北京百度网讯科技有限公司 用于生成文档标签的方法、装置、电子设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469188A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种实体消歧方法及装置
CN108009589A (zh) * 2017-12-12 2018-05-08 腾讯科技(深圳)有限公司 样本数据处理方法、装置和计算机可读存储介质
CN108875059A (zh) * 2018-06-29 2018-11-23 北京百度网讯科技有限公司 用于生成文档标签的方法、装置、电子设备和存储介质

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069293A (zh) * 2020-09-14 2020-12-11 上海明略人工智能(集团)有限公司 一种数据标注方法、装置、电子设备和计算机可读介质
CN112069293B (zh) * 2020-09-14 2024-04-19 上海明略人工智能(集团)有限公司 一种数据标注方法、装置、电子设备和计算机可读介质
CN112149179A (zh) * 2020-09-18 2020-12-29 支付宝(杭州)信息技术有限公司 基于隐私保护的风险识别方法及装置
CN112149179B (zh) * 2020-09-18 2022-09-02 支付宝(杭州)信息技术有限公司 基于隐私保护的风险识别方法及装置
CN112307337A (zh) * 2020-10-30 2021-02-02 中国平安人寿保险股份有限公司 基于标签知识图谱的关联推荐方法、装置及计算机设备
CN112307337B (zh) * 2020-10-30 2024-04-12 中国平安人寿保险股份有限公司 基于标签知识图谱的关联推荐方法、装置及计算机设备
CN112487814A (zh) * 2020-11-27 2021-03-12 北京百度网讯科技有限公司 实体分类模型训练方法、实体分类方法、装置及电子设备
CN112487814B (zh) * 2020-11-27 2024-04-02 北京百度网讯科技有限公司 实体分类模型训练方法、实体分类方法、装置及电子设备
CN113220836A (zh) * 2021-05-08 2021-08-06 北京百度网讯科技有限公司 序列标注模型的训练方法、装置、电子设备和存储介质
CN113220836B (zh) * 2021-05-08 2024-04-09 北京百度网讯科技有限公司 序列标注模型的训练方法、装置、电子设备和存储介质
CN113327591A (zh) * 2021-06-16 2021-08-31 北京有竹居网络技术有限公司 一种语音处理方法及装置
CN113327591B (zh) * 2021-06-16 2023-01-17 北京有竹居网络技术有限公司 一种语音处理方法及装置
CN114372446B (zh) * 2021-12-13 2023-02-17 北京爱上车科技有限公司 一种车属性标注方法、设备及存储介质
CN114372446A (zh) * 2021-12-13 2022-04-19 北京五八信息技术有限公司 一种车属性标注方法、设备及存储介质
CN114637848A (zh) * 2022-03-15 2022-06-17 美的集团(上海)有限公司 语义分类方法及装置
CN114492419B (zh) * 2022-04-01 2022-08-23 杭州费尔斯通科技有限公司 基于标注中新增关键词语的文本标注方法、***及装置
CN114492419A (zh) * 2022-04-01 2022-05-13 杭州费尔斯通科技有限公司 基于标注中新增关键词语的文本标注方法、***及装置

Similar Documents

Publication Publication Date Title
CN111079445A (zh) 基于语义模型的训练方法、装置以及电子设备
CN109902307B (zh) 命名实体识别方法、命名实体识别模型的训练方法及装置
CN106815192B (zh) 模型训练方法及装置和语句情感识别方法及装置
US20200073882A1 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
CN109582833B (zh) 异常文本检测方法及装置
CN107423278B (zh) 评价要素的识别方法、装置及***
US20160239500A1 (en) System and methods for extracting facts from unstructured text
CN110427487B (zh) 一种数据标注方法、装置及存储介质
CN110580308B (zh) 信息审核方法及装置、电子设备、存储介质
CN110163376B (zh) 样本检测方法、媒体对象的识别方法、装置、终端及介质
CN113312899B (zh) 文本分类方法、装置和电子设备
CN111338692B (zh) 基于漏洞代码的漏洞分类方法、装置及电子设备
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN113221555A (zh) 一种基于多任务模型的关键词识别方法、装置及设备
CN116244410B (zh) 一种基于知识图谱和自然语言的指标数据分析方法及***
CN116842951A (zh) 命名实体识别方法、装置、电子设备及存储介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN114722204A (zh) 多标签文本分类方法及装置
CN114218381B (zh) 立场识别方法、装置、设备及介质
CN111222051A (zh) 一种趋势预测模型的训练方法及装置
CN113688243B (zh) 语句中实体的标注方法、装置、设备以及存储介质
CN112632232B (zh) 一种文本匹配方法、装置、设备及介质
CN111339760A (zh) 词法分析模型的训练方法、装置、电子设备、存储介质
CN115587163A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN114911936A (zh) 一种模型训练、评论识别方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200428