CN107291775B - 错误样本的修复语料生成方法和装置 - Google Patents

错误样本的修复语料生成方法和装置 Download PDF

Info

Publication number
CN107291775B
CN107291775B CN201610222052.2A CN201610222052A CN107291775B CN 107291775 B CN107291775 B CN 107291775B CN 201610222052 A CN201610222052 A CN 201610222052A CN 107291775 B CN107291775 B CN 107291775B
Authority
CN
China
Prior art keywords
word
logistic regression
regression model
error sample
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610222052.2A
Other languages
English (en)
Other versions
CN107291775A (zh
Inventor
陶玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201610222052.2A priority Critical patent/CN107291775B/zh
Publication of CN107291775A publication Critical patent/CN107291775A/zh
Application granted granted Critical
Publication of CN107291775B publication Critical patent/CN107291775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了错误样本的修复语料生成方法、逻辑回归模型的修复方法和装置。错误样本的修复语料生成方法的一具体实施方式包括:对错误样本的输入文本进行分词,得到词语集合;基于词语集合以及预先训练的错误样本所属的逻辑回归模型,通过逻辑回归算法,获得词语集合中的每一个词语对应的第一分类和概率值,以及所述词语集合中的词语对应的平均概率值,逻辑回归模型为产生所述错误样本的逻辑回归模型;在词语集合中按照对应的概率值与所述平均概率值的差距由小到大的顺序选取预定数量个词语作为第一词语;将所述输入文本与各个第一词语进行拼接,生成所述错误样本的修复语料。该实施方式降低了人力成本,并使得修复出的逻辑回归模型更准确。

Description

错误样本的修复语料生成方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及机器学习技术领域,尤其涉及错误样本的修复语料生成方法、逻辑回归模型的修复方法和装置。
背景技术
机器学习是利用一些方法来使机器实现人的学习行为,以便获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身的性能。通过机器学习的方法训练出来的逻辑回归模型在使用过程中,往往会产生一些不符合用户心理预期的错误样本(badcase)。为了修复错误样本,现有技术通常是通过人工根据错误样本输入修复语料并对修复语料进行标注,然后将修复语料加入逻辑回归模型对应的训练语料集合中,并基于加入修复语料的训练语料集合,训练出修复的逻辑回归模型,来修复错误样本。
然而,现有技术通过人工来生成修复语料,在存在大量错误样本的情况下人力成本较高,并且修复出的逻辑回归模型也不够准确。
发明内容
本申请的目的在于提出一种错误样本的修复语料生成方法、逻辑回归模型的修复方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种错误样本的修复语料生成方法,所述方法包括:对错误样本的输入文本进行分词,得到词语集合,其中,所述错误样本包括:输入文本信息;基于所述词语集合以及预先训练的所述错误样本所属的逻辑回归模型,通过逻辑回归算法,获得所述词语集合中的每一个词语对应的第一分类和概率值,以及所述词语集合中的词语对应的平均概率值,其中,所述逻辑回归模型为产生所述错误样本的逻辑回归模型;在所述词语集合中按照对应的概率值与所述平均概率值的差距由小到大的顺序选取预定数量个词语作为第一词语;将所述输入文本与各个第一词语进行拼接,生成所述错误样本的修复语料。
第二方面,本申请提供了一种逻辑回归模型的修复方法,所述方法包括:接收错误样本,其中,所述错误样本包括:输入文本信息;通过第一方面所述的方法,生成所述错误样本的修复语料;基于所述错误样本所属的逻辑回归模型中的各个第一分类对应的预存的关键词集合,提取所述输入文本信息中的关键词,并根据所述输入文本信息中的关键词对应的第一分类对所述修复语料的第一分类进行标注;将带有标注的所述修复语料加入所述逻辑回归模型对应的带有第一分类标注的训练语料集合中,并根据所述训练语料集合中的训练语料的第一分类标注,对所述训练语料集合中的训练语料进行训练,生成新的逻辑回归模型。
第三方面,本申请提供了一种错误样本的修复语料生成装置,所述装置包括:第一分词单元,用于对错误样本的输入文本进行分词,得到词语集合,其中,所述错误样本包括:输入文本信息;概率值获取单元,用于基于所述词语集合以及预先训练的所述错误样本所属的逻辑回归模型,通过逻辑回归算法,获得所述词语集合中的每一个词语对应的第一分类和概率值,以及所述词语集合中的词语对应的平均概率值,其中,所述逻辑回归模型为产生所述错误样本的逻辑回归模型;第一词语选取单元,用于在所述词语集合中按照对应的概率值与所述平均概率值的差距由小到大的顺序选取预定数量个词语作为第一词语;第一修复语料拼接单元,用于将所述输入文本与各个第一词语进行拼接,生成所述错误样本的修复语料。
第四方面,本申请提供了一种逻辑回归模型的修复装置,所述装置包括:错误样本接收单元,用于接收错误样本,其中,所述错误样本包括:输入文本信息、第二分类信息;修复语料生成单元,用于通过第三方面所述的装置生成所述错误样本的修复语料;修复语料标注单元,用于基于所述错误样本所属的逻辑回归模型中的各个第一分类对应的预存的关键词集合,提取所述输入文本信息中的关键词,并根据所述输入文本信息中的关键词对应的第一分类对所述修复语料的第一分类进行标注;模型训练单元,用于将带有标注的所述修复语料加入所述逻辑回归模型对应的带有第一分类标注的训练语料集合中,并根据所述训练语料集合中的训练语料的第一分类标注,对所述训练语料集合中的训练语料进行训练,生成新的逻辑回归模型。
本申请提供的错误样本的修复语料生成方法、逻辑回归模型的修复方法和装置,通过逻辑回归算法获得所述词语集合中的每一个词语对应的第一分类和概率值,以及所述词语集合中的词语对应的平均概率值,然后在错误样本的输入文本中包含的词语中按照对应的概率值与所述平均概率值的差距由小到大的顺序选取预定数量个词语作为第一词语,并将所述输入文本与各个第一词语进行拼接,生成所述错误样本的修复语料,无需由人工输入修复语料,降低了人力成本,并使得修复出的逻辑回归模型更准确。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性***架构图;
图2是根据本申请的错误样本的修复语料生成方法的一个实施例的流程图;
图3是根据本申请的逻辑回归模型的修复方法的一个实施例的流程图;
图4是根据本申请的错误样本的修复语料生成装置的一个实施例的结构示意图;
图5是根据本申请的逻辑回归模型的修复装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的服务器的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的错误样本的修复语料生成方法或装置、逻辑回归模型的修复方法或装置的实施例的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用软件,例如输入法应用、聊天工具应用、购物类应用、浏览器应用、社交平台软件等。
终端设备101、102、103可以是支持收发消息的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上的聊天工具应用、购物类应用等提供支持的数据库服务器或云服务器。服务器可以对接收到的数据进行存储、分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本申请实施例所提供的错误样本的修复语料生成方法和逻辑回归模型的修复方法通常由服务器105执行。相应地,错误样本的修复语料生成装置和逻辑回归模型的修复装置通常设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,图2示出了根据本申请的错误样本的修复语料生成方法的一个实施例的流程200。
如图2所示,本实施例的错误样本的修复语料生成方法包括以下步骤:
步骤201,对错误样本的输入文本进行分词,得到词语集合。
其中,上述错误样本包括:输入文本信息。
在本实施例中,修复语料生成方法运行于其上的电子设备(例如图1所示的服务器)可以通过各种分词算法(例如正向/逆向最大匹配算法)或分词工具(例如Java中文分词工具Ansj)对错误样本的输入文本进行分词。其中,错误样本是指不符合用户心理预期的产品输出结果。以智能问答为例,假设用户发送的问题是关于4G网络的,而服务器将“4G”分类(预测)为内存大小,则产生了一个错误样本,该错误样本的输入文本即为用户的问题。
步骤202,基于上述词语集合以及预先训练的上述错误样本所属的逻辑回归模型,通过逻辑回归算法,获得上述词语集合中的每一个词语对应的第一分类和概率值,以及上述词语集合中的词语对应的平均概率值。
其中,上述逻辑回归模型为产生上述错误样本的逻辑回归模型。
在本实施例中,服务器可以通过上述错误样本所属的逻辑回归模型得到上述词语集合中每一个词语对应的向量空间的位置和权重,然后根据获得的每一个词语对应的空间向量的位置和权重,通过逻辑回归算法,获得上述词语集合中的每一个词语对应的第一分类和概率值,以及上述词语集合中的词语对应的平均概率值。其中,上述逻辑回归模型包括以下信息:特征词、特征词对应的第一分类、特征词在向量空间中的位置以及特征词对应的权重。逻辑回归模型可以根据输入的文本输出输入的文本对应的第一分类以及概率值。
步骤203,在上述词语集合中按照对应的概率值与上述平均概率值的差距由小到大的顺序选取预定数量个词语作为第一词语。
在本实施例中,服务器可以首先计算上述词语集合中的各个词语对应的概率值与上述平均概率值的差距,然后按照差距由小到大的顺序选取预定数量个词语作为第一词语。从而选取出词语集合中概率波动相对较小的第一词语。
步骤204,将上述输入文本与各个第一词语进行拼接,生成上述错误样本的修复语料。
在本实施例中,服务器可以通过将上述各个第一词语拼接在输入文本之后来生成上述错误样本的修复语料。由于生成的修复语料包括上述概率波动相对较小的第一词语,在后续将修复语料加入上述逻辑回归模型对应的训练语料集合并进行训练时,可以使修复语料中的词语的权重更高。
在本实施例的一些可选的实现方式中,步骤202可以包括:从上述逻辑回归模型中获取上述词语集合中各个词语对应的空间向量的位置和权重值;根据上述各个词语对应的空间向量的位置和权重值生成各个词语对应的特征向量;基于上述特征向量和上述逻辑回归模型,通过逻辑回归算法,获得上述至少一个词语中的每一个词语对应的第一分类和概率值。例如,词语集合中某个词的在上述逻辑回归模型中的空间向量的位置是5、权重值为w,则该词对应的特征向量可以是[0,0,0,0,w,0,......],将该特征向量输入上述逻辑回归模型,通过预定的逻辑回归算法,即可得出该词对应的第一分类和概率值。其中,逻辑回归算法可以参考下式:
Figure BDA0000962332270000061
上式中,θ为上述特征向量;x(i)为表示词语的顺序的向量,例如,上述输入文本的第2个词对应的x(2)为[0,1,0,0,0,.....,0];k为正整数,等于第一分类的个数;y(i)为分类的结果;p为计算出的对应分类的概率值;hθ(x(i))即为第i个词的各个第一分类对应的概率值。
其中,上述词语对应的第一分类为词语的各个第一分类对应的概率值中概率最大的第一分类,上述词语对应的概率值即为每个第一分类对应的概率值中的最大概率值。
在本实施例的一些可选的实现方式中,本实施例的错误样本的修复语料生成方法还可以包括以下步骤:针对每一个第一词语,通过预先训练的N元语言模型(N-Gram模型),获取上述第一词语对应的第二词语,其中,上述第二词语为上述逻辑回归模型和上述第一词语对应的第一分类对应的训练语料集合中作为上述第一词语的前一个词语的概率最大的词语;将上述输入文本与各个第一词语对应的第二词语进行拼接,作为上述错误样本的修复语料。其中,上述N元语言模型是基于上述逻辑回归模型和第一词语对应的第一分类对应的训练语料集合训练出的。第一词语对应的第一分类对应的训练语料集合为上述逻辑回归模型对应的训练语料中第一分类的标注为第一词语对应的第一分类的训练语料。与通过将上述输入文本与各个第一词语进行拼接生成的修复语料相比,通过将上述输入文本与各个第二词语进行拼接生成的修复语料可以在后续将修复语料加入上述逻辑回归模型对应的训练语料集合并进行训练时,进一步提高修复语料中的词语的权重。
在本实施例的一些可选的实现方式中,上述错误样本还可以包括:第二分类信息。可选地,第二分类信息可以根据切换到用户输入问题的页面之前的页面来获得。例如,用户在某个产品的页面点击与客服交流的操作入口并进入客服页面输入问题,服务器可以通过该产品的页面来得到第二分类信息(产品分类)。
以及,在步骤202之前,本实施例的错误样本的修复语料生成方法还可以包括以下步骤:
根据上述错误样本的第二分类信息,从预先训练的至少一个逻辑回归模型中获取与上述错误样本的第二分类信息对应的逻辑回归模型作为候选逻辑回归模型,其中,上述至少一个逻辑回归模型中的各个逻辑回归模型分别对应一个第二分类;通过上述候选逻辑回归模型对上述错误样本的输入文本进行分词,得到至少一个词语,其中,服务器可以将候选逻辑回归模型中的特征词加入分词词库,然后通过正向最大匹配算法(或者其它分词算法)对上述错误样本的输入文本进行分词;从上述候选逻辑回归模型中获取上述至少一个词语中各个词语对应的空间向量的位置和权重值;基于各个词语对应的空间向量的位置和权重值,和上述候选逻辑回归模型,通过逻辑回归算法,获得上述输入文本对应的第一分类和概率值;如果上述概率值大于预定的概率阈值,则将上述候选逻辑回归模型作为上述错误样本所属的逻辑回归模型。
通过该实现方式,使得服务器可以在存在多个逻辑回归模型的情况下,较准确地找到与错误样本所属的逻辑回归模型。
基于上一实现方式,在本实施例的一些可选的实现方式中,上述如果上述概率值大于预定的概率阈值,则将上述候选逻辑回归模型作为上述错误样本所属的逻辑回归模型的步骤可以包括:如果上述概率值大于预定的概率阈值,则基于预存的各个第二分类对应的关键词集合,提取上述至少一个词语中的关键词;如果上述至少一个词语中的关键词对应的第二分类与上述候选逻辑回归模型对应的第二分类相同,则将上述候选逻辑回归模型作为上述错误样本所属的逻辑回归模型。通过该实现方式,进一步提高了获得的错误样本所属的逻辑回归模型的准确性。
本申请提供的错误样本的修复语料生成方法,通过逻辑回归算法获得上述词语集合中的每一个词语对应的第二第一分类和概率值,以及上述词语集合中的词语对应的平均概率值,然后在错误样本的输入文本中包含的词语中按照对应的概率值与上述平均概率值的差距由小到大的顺序选取预定数量个词语作为第一词语,并将上述输入文本与各个第一词语进行拼接,生成上述错误样本的修复语料,无需由人工输入修复语料,降低了人力成本,并使得修复出的逻辑回归模型更准确。
进一步参考图3,图3示出了根据本申请的逻辑回归模型的修复方法的一个实施例的流程300。
如图3所示,本实施例的逻辑回归模型的修复方法包括以下步骤:
步骤301,接收错误样本。
其中,上述错误样本包括:输入文本信息。在本实施例中,服务器可以在产生错误样本时,接收错误样本。其中,错误样本可以由人工发现来产生,也可以通过服务器对用户输入的文本中的关键字以及逻辑回归模型的输出结果的分析来判断是否产生错误样本。
步骤302,通过图2对应实施例提供的方法,生成上述错误样本的修复语料。
在本实施例中,步骤302的具体处理可参考图2对应实施例的相关说明,在此不再赘述。
步骤303,基于上述错误样本所属的逻辑回归模型中的各个第一分类对应的预存的关键词集合,提取上述输入文本信息中的关键词,并根据上述输入文本信息中的关键词对应的第一分类对上述修复语料的第一分类进行标注。
在本实施例中,逻辑回归模型中的各个第一分类都有各自对应的关键词集合,这些关键词集合是预先收集并存储的。服务器可以通过对上述输入文本信息中的词语与上述错误样本所属的逻辑回归模型中的各个第一分类对应的预存的关键词集合中的关键词进行匹配,并获取匹配到的关键词对应的第一分类,然后将上述修复语料的第一分类标注为该关键词对应的第一分类。
步骤304,将带有标注的上述修复语料加入上述逻辑回归模型对应的带有第一分类标注的训练语料集合中,并根据上述训练语料集合中的训练语料的第一分类标注,对上述训练语料集合中的训练语料进行训练,生成新的逻辑回归模型。
在本实施例中,服务器可以根据上述训练语料集合中的训练语料的第一分类标注,,通过逻辑回归训练模型方法来对上述训练语料集合中的训练语料进行训练,生成新的逻辑回归模型。
在本实施例的一些可选的实现方式中,本实施例的逻辑回归模型的修复方法还可以包括:通过上述新的逻辑回归模型对已产生的错误样本进行分类,得到错误样本对应的第一分类;基于对分类正确个数的统计,确定上述新的逻辑回归模型是否修复成功。通过该实现方式,实现了对逻辑回归模型的修复效果的验证。
本申请提供的逻辑回归模型的修复方法,通过图2对应实施例提供的方法生成上述错误样本的修复语料,并根据上述输入文本信息中的关键词对应的第一分类对上述修复语料的第一分类进行标注,然后将带有标注的上述修复语料加入上述逻辑回归模型对应的带有第一分类标注的训练语料集合中,对上述训练语料集合中的训练语料进行训练,生成新的逻辑回归模型,无需由人工生成修复语料,且无需人工对修复语料进行标注,从而降低了人力成本,并使得修复出的逻辑回归模型更准确。
下面参考图4,作为对上述图2所示方法的实现,本申请提供了一种错误样本的修复语料生成装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于服务器中。
如图4所示,本实施例提供的错误样本的修复语料生成装置400包括:第一分词单元401、概率值获取单元402、第一词语选取单元403以及第一修复语料拼接单元404。其中,第一分词单元401用于对错误样本的输入文本进行分词,得到词语集合,其中,上述错误样本包括:输入文本信息;概率值获取单元402用于基于上述词语集合以及预先训练的上述错误样本所属的逻辑回归模型,通过逻辑回归算法,获得上述词语集合中的每一个词语对应的第一分类和概率值,以及上述词语集合中的词语对应的平均概率值,其中,上述逻辑回归模型为产生上述错误样本的逻辑回归模型;第一词语选取单元403用于在上述词语集合中按照对应的概率值与上述平均概率值的差距由小到大的顺序选取预定数量个词语作为第一词语;第一修复语料拼接单元404用于将上述输入文本与各个第一词语进行拼接,生成上述错误样本的修复语料。
在本实施例中,第一分词单元401、概率值获取单元402、第一词语选取单元403以及第一修复语料拼接单元404的具体处理可分别参考图2对应实施例中步骤201、步骤202、步骤203以及步骤204的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,概率值获取单元402可以包括:词语权重获取子单元(图中未示出),用于从上述逻辑回归模型中获取上述词语集合中各个词语对应的空间向量的位置和权重值;特征向量生成子单元(图中未示出),用于根据上述各个词语对应的空间向量的位置和权重值生成各个词语对应的特征向量;概率值获取子单元(图中未示出),用于基于上述特征向量和上述逻辑回归模型,通过逻辑回归算法,获得上述至少一个词语中的每一个词语对应的第一分类和概率值。词语权重获取子单元、特征向量生成子单元以及概率值获取子单元的具体处理可参考图2对应实施例中相应实现方式的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,本实施例的错误样本的修复语料生成装置还可以包括:第二词语获取单元405,用于针对每一个第一词语,通过预先训练的N元语言模型,获取上述第一词语对应的第二词语,其中,上述第二词语为上述逻辑回归模型和上述第一词语对应的第一分类对应的训练语料集合中作为上述第一词语的前一个词语的概率最大的词语;第二修复语料拼接单元406,用于将上述输入文本与各个第一词语对应的第二词语进行拼接,作为上述错误样本的修复语料。第二词语获取单元405和第二修复语料拼接单元406的具体处理及其所带来的技术效果可参考图2对应实施例中相应实现方式的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述错误样本还可以包括:第二分类信息。以及,本实施例的错误样本的修复语料生成装置还可以包括:模型获取单元407,用于在基于上述词语集合以及预先训练的上述错误样本所属的逻辑回归模型,通过逻辑回归算法,获得上述词语集合中的每一个词语对应的第一分类和概率值之前,根据上述错误样本的第二分类信息,从预先训练的至少一个逻辑回归模型中获取与上述错误样本的第二分类信息对应的逻辑回归模型作为候选逻辑回归模型,其中,上述至少一个逻辑回归模型中的各个逻辑回归模型分别对应一个第二分类;第二分词单元408,用于通过上述候选逻辑回归模型对上述错误样本的输入文本进行分词,得到至少一个词语;词语权重获取单元409,用于从上述候选逻辑回归模型中获取上述至少一个词语中各个词语对应的空间向量的位置和权重值;文本概率获取单元410,用于基于各个词语对应的空间向量的位置和权重值,和上述候选逻辑回归模型,通过逻辑回归算法,获得上述输入文本对应的分类和概率值;模型确定单元411,用于在上述概率值大于预定的概率阈值时,将上述候选逻辑回归模型作为上述错误样本所属的逻辑回归模型。该实现方式的具体处理及其所带来的技术效果可参考图2对应实施例中相应实现方式的相关说明,在此不再赘述。
基于上一实现方式,在本实施例的一些可选的实现方式中,模型确定单元411可以包括:关键词提取子单元(图中未示出),用于在上述概率值大于预定的概率阈值时,基于预存的各个第二分类对应的关键词集合,提取上述至少一个词语中的关键词;模型确定子单元(图中未示出),用于在上述至少一个词语中的关键词对应的第二分类与上述候选逻辑回归模型对应的第二分类相同时,将上述候选逻辑回归模型作为上述错误样本所属的逻辑回归模型。
本申请提供的错误样本的修复语料生成装置,通过概率值获取单元402用逻辑回归算法获得上述词语集合中的每一个词语对应的第二第一分类和概率值,以及上述词语集合中的词语对应的平均概率值,然后通过第一词语选取单元403在错误样本的输入文本中包含的词语中按照对应的概率值与上述平均概率值的差距由小到大的顺序选取预定数量个词语作为第一词语,然后通过第一修复语料拼接单元404将上述输入文本与各个第一词语进行拼接,生成上述错误样本的修复语料,无需由人工输入修复语料,降低了人力成本,并使得修复出的逻辑回归模型更准确。
下面参考图5,作为对上述图3所示方法的实现,本申请提供了一种逻辑回归模型的修复装置的一个实施例,该装置实施例与图3所示的方法实施例相对应,该装置具体可以应用于服务器中。
如图5所示,本实施例提供的逻辑回归模型的修复装置500包括:错误样本接收单元501、修复语料生成单元502、修复语料标注单元503以及模型训练单元504。其中,错误样本接收单元501用于接收错误样本,其中,上述错误样本包括:输入文本信息、第二分类信息;修复语料生成单元502用于通过图4对应实施例提供的装置生成上述错误样本的修复语料;修复语料标注单元503用于基于上述错误样本所属的逻辑回归模型中的各个第一分类对应的预存的关键词集合,提取上述输入文本信息中的关键词,并根据上述输入文本信息中的关键词对应的第一分类对上述修复语料的第一分类进行标注;模型训练单元504用于将带有标注的上述修复语料加入上述逻辑回归模型对应的带有第一分类标注的训练语料集合中,并根据上述训练语料集合中的训练语料的第一分类标注,对上述训练语料集合中的训练语料进行训练,生成新的逻辑回归模型。
在本实施例中,错误样本接收单元501、修复语料生成单元502、修复语料标注单元503以及模型训练单元504的具体处理可分别参考图3对应实施例中步骤301、步骤302、步骤303以及步骤304的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,本实施例提供的逻辑回归模型的修复装置还可以包括:模型分类单元505,用于通过上述新的逻辑回归模型对已产生的错误样本进行分类,得到错误样本对应的第一分类;修复效果确定单元506,用于基于对分类正确个数的统计,确定上述新的逻辑回归模型是否修复成功。通过该实现方式,实现了对逻辑回归模型的修复效果的验证。
本申请提供的逻辑回归模型的修复装置,通过修复语料生成单元502生成上述错误样本的修复语料,并通过修复语料标注单元503根据上述输入文本信息中的关键词对应的第一分类对上述修复语料的第一分类进行标注,然后通过模型训练单元504将带有标注的上述修复语料加入上述逻辑回归模型对应的带有第一分类标注的训练语料集合中,对上述训练语料集合中的训练语料进行训练,生成新的逻辑回归模型,无需由人工生成修复语料,且无需人工对修复语料进行标注,从而降低了人力成本,并使得修复出的逻辑回归模型更准确。
下面参考图6,其示出了适于用来实现本申请实施例的服务器的计算机***600的结构示意图。
如图6所示,计算机***600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分606加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有***600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件可以连接至I/O接口605:包括硬盘等的存储部分606;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分607。通信部分607经由诸如因特网的网络执行通信处理。驱动器608也根据需要连接至I/O接口605。可拆卸介质609,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器608上,以便于从其上读出的计算机程序根据需要被安装入存储部分606。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分607从网络上被下载和安装,和/或从可拆卸介质609被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一分词单元、概率值获取单元、第一词语选取单元以及第一修复语料拼接单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一分词单元还可以被描述为“对错误样本的输入文本进行分词的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:对错误样本的输入文本进行分词,得到词语集合,其中,所述错误样本包括:输入文本信息;基于所述词语集合以及预先训练的所述错误样本所属的逻辑回归模型,通过逻辑回归算法,获得所述词语集合中的每一个词语对应的第一分类和概率值,以及所述词语集合中的词语对应的平均概率值,其中,所述逻辑回归模型为产生所述错误样本的逻辑回归模型;在所述词语集合中按照对应的概率值与所述平均概率值的差距由小到大的顺序选取预定数量个词语作为第一词语;将所述输入文本与各个第一词语进行拼接,生成所述错误样本的修复语料。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (16)

1.一种错误样本的修复语料生成方法,其特征在于,所述方法包括:
对错误样本的输入文本进行分词,得到词语集合,其中,所述错误样本包括:输入文本信息,所述错误样本是指不符合用户心理预期的产品输出结果;
基于所述词语集合以及预先训练的所述错误样本所属的逻辑回归模型,通过逻辑回归算法,获得所述词语集合中的每一个词语对应的第一分类和概率值,以及所述词语集合中的词语对应的平均概率值,其中,所述逻辑回归模型为对所述错误样本进行分类的逻辑回归模型;
在所述词语集合中按照对应的概率值与所述平均概率值的差距由小到大的顺序选取预定数量个词语作为第一词语;
将所述输入文本与各个第一词语进行拼接,生成所述错误样本的修复语料。
2.根据权利要求1所述的方法,其特征在于,所述基于所述词语集合以及预先训练的所述错误样本所属的逻辑回归模型,通过逻辑回归算法,获得所述词语集合中的每一个词语对应的第一分类和概率值,以及所述词语集合中的词语对应的平均概率值,包括:
从所述逻辑回归模型中获取所述词语集合中各个词语对应的空间向量的位置和权重值;
根据所述各个词语对应的空间向量的位置和权重值生成各个词语对应的特征向量;
基于所述特征向量和所述逻辑回归模型,通过逻辑回归算法,获得所述词语集合中的每一个词语对应的第一分类和概率值。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对每一个第一词语,通过预先训练的N元语言模型,获取所述第一词语对应的第二词语,其中,所述第二词语为所述逻辑回归模型和所述第一词语对应的第一分类对应的训练语料集合中作为所述第一词语的前一个词语的概率最大的词语;
将所述输入文本与各个第一词语对应的第二词语进行拼接,作为所述错误样本的修复语料。
4.根据权利要求1-3任一所述的方法,其特征在于,所述错误样本还包括第二分类信息;以及
在基于所述词语集合以及预先训练的所述错误样本所属的逻辑回归模型,通过逻辑回归算法,获得所述词语集合中的每一个词语对应的第一分类和概率值之前,所述方法还包括:
根据所述错误样本的第二分类信息,从预先训练的至少一个逻辑回归模型中获取与所述错误样本的第二分类信息对应的逻辑回归模型作为候选逻辑回归模型,其中,所述至少一个逻辑回归模型中的各个逻辑回归模型分别对应一个第二分类;
通过所述候选逻辑回归模型对所述错误样本的输入文本进行分词,得到至少一个词语;
从所述候选逻辑回归模型中获取所述至少一个词语中各个词语对应的空间向量的位置和权重值;
基于各个词语对应的空间向量的位置和权重值,和所述候选逻辑回归模型,通过逻辑回归算法,获得所述输入文本对应的第一分类和概率值;
如果所述概率值大于预定的概率阈值,则将所述候选逻辑回归模型作为所述错误样本所属的逻辑回归模型。
5.根据权利要求4所述的方法,其特征在于,所述如果所述概率值大于预定的概率阈值,则将所述候选逻辑回归模型作为所述错误样本所属的逻辑回归模型,包括:
如果所述概率值大于预定的概率阈值,则基于预存的各个第二分类对应的关键词集合,提取所述至少一个词语中的关键词;
如果所述至少一个词语中的关键词对应的第二分类与所述候选逻辑回归模型对应的第二分类相同,则将所述候选逻辑回归模型作为所述错误样本所属的逻辑回归模型。
6.一种逻辑回归模型的修复方法,其特征在于,所述方法包括:
接收错误样本,其中,所述错误样本包括:输入文本信息,所述错误样本是指不符合用户心理预期的产品输出结果;
通过权利要求1-5任一所述的方法,生成所述错误样本的修复语料;
基于所述错误样本所属的逻辑回归模型中的各个第一分类对应的预存的关键词集合,提取所述输入文本信息中的关键词,并根据所述输入文本信息中的关键词对应的第一分类对所述修复语料的第一分类进行标注;
将带有标注的所述修复语料加入所述逻辑回归模型对应的带有第一分类标注的训练语料集合中,并根据所述训练语料集合中的训练语料的第一分类标注,对所述训练语料集合中的训练语料进行训练,生成新的逻辑回归模型。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
通过所述新的逻辑回归模型对已产生的错误样本进行分类,得到错误样本对应的第一分类;
基于对分类正确个数的统计,确定所述新的逻辑回归模型是否修复成功。
8.一种错误样本的修复语料生成装置,其特征在于,所述装置包括:
第一分词单元,用于对错误样本的输入文本进行分词,得到词语集合,其中,所述错误样本包括:输入文本信息,所述错误样本是指不符合用户心理预期的产品输出结果;
概率值获取单元,用于基于所述词语集合以及预先训练的所述错误样本所属的逻辑回归模型,通过逻辑回归算法,获得所述词语集合中的每一个词语对应的第一分类和概率值,以及所述词语集合中的词语对应的平均概率值,其中,所述逻辑回归模型为对所述错误样本进行分类的逻辑回归模型;
第一词语选取单元,用于在所述词语集合中按照对应的概率值与所述平均概率值的差距由小到大的顺序选取预定数量个词语作为第一词语;
第一修复语料拼接单元,用于将所述输入文本与各个第一词语进行拼接,生成所述错误样本的修复语料。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二词语获取单元,用于针对每一个第一词语,通过预先训练的N元语言模型,获取所述第一词语对应的第二词语,其中,所述第二词语为所述逻辑回归模型和所述第一词语对应的第一分类对应的训练语料集合中作为所述第一词语的前一个词语的概率最大的词语;
第二修复语料拼接单元,用于将所述输入文本与各个第一词语对应的第二词语进行拼接,作为所述错误样本的修复语料。
10.根据权利要求8-9任一所述的装置,其特征在于,所述错误样本还包括:第二分类信息;以及
所述装置还包括:
模型获取单元,用于在基于所述词语集合以及预先训练的所述错误样本所属的逻辑回归模型,通过逻辑回归算法,获得所述词语集合中的每一个词语对应的第一分类和概率值之前,根据所述错误样本的第二分类信息,从预先训练的至少一个逻辑回归模型中获取与所述错误样本的第二分类信息对应的逻辑回归模型作为候选逻辑回归模型,其中,所述至少一个逻辑回归模型中的各个逻辑回归模型分别对应一个第二分类;
第二分词单元,用于通过所述候选逻辑回归模型对所述错误样本的输入文本进行分词,得到至少一个词语;
词语权重获取单元,用于从所述候选逻辑回归模型中获取所述至少一个词语中各个词语对应的空间向量的位置和权重值;
文本概率获取单元,用于基于各个词语对应的空间向量的位置和权重值,和所述候选逻辑回归模型,通过逻辑回归算法,获得所述输入文本对应的分类和概率值;
模型确定单元,用于在所述概率值大于预定的概率阈值时,将所述候选逻辑回归模型作为所述错误样本所属的逻辑回归模型。
11.根据权利要求10所述的装置,其特征在于,所述模型确定单元包括:
关键词提取子单元,用于在所述概率值大于预定的概率阈值时,基于预存的各个第二分类对应的关键词集合,提取所述至少一个词语中的关键词;
模型确定子单元,用于在所述至少一个词语中的关键词对应的第二分类与所述候选逻辑回归模型对应的第二分类相同时,将所述候选逻辑回归模型作为所述错误样本所属的逻辑回归模型。
12.一种逻辑回归模型的修复装置,其特征在于,所述装置包括:
错误样本接收单元,用于接收错误样本,其中,所述错误样本包括:输入文本信息、第二分类信息,所述错误样本是指不符合用户心理预期的产品输出结果;
修复语料生成单元,用于通过权利要求8-11任一所述的装置生成所述错误样本的修复语料;
修复语料标注单元,用于基于所述错误样本所属的逻辑回归模型中的各个第一分类对应的预存的关键词集合,提取所述输入文本信息中的关键词,并根据所述输入文本信息中的关键词对应的第一分类对所述修复语料的第一分类进行标注;
模型训练单元,用于将带有标注的所述修复语料加入所述逻辑回归模型对应的带有第一分类标注的训练语料集合中,并根据所述训练语料集合中的训练语料的第一分类标注,对所述训练语料集合中的训练语料进行训练,生成新的逻辑回归模型。
13.一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
14.一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求6或7所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求6或7所述的方法。
CN201610222052.2A 2016-04-11 2016-04-11 错误样本的修复语料生成方法和装置 Active CN107291775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610222052.2A CN107291775B (zh) 2016-04-11 2016-04-11 错误样本的修复语料生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610222052.2A CN107291775B (zh) 2016-04-11 2016-04-11 错误样本的修复语料生成方法和装置

Publications (2)

Publication Number Publication Date
CN107291775A CN107291775A (zh) 2017-10-24
CN107291775B true CN107291775B (zh) 2020-07-31

Family

ID=60095719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610222052.2A Active CN107291775B (zh) 2016-04-11 2016-04-11 错误样本的修复语料生成方法和装置

Country Status (1)

Country Link
CN (1) CN107291775B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753976B (zh) * 2017-11-01 2021-03-19 中国电信股份有限公司 语料标注装置和方法
CN107832298A (zh) * 2017-11-16 2018-03-23 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN108021705B (zh) * 2017-12-27 2020-10-23 鼎富智能科技有限公司 一种答案生成方法及装置
CN110413769A (zh) * 2018-04-25 2019-11-05 北京京东尚科信息技术有限公司 场景分类方法、装置、存储介质及其电子设备
CN110717010B (zh) * 2018-06-27 2023-01-13 北京嘀嘀无限科技发展有限公司 一种文本处理方法及***
CN109189932B (zh) * 2018-09-06 2021-02-26 北京京东尚科信息技术有限公司 文本分类方法和装置、计算机可读存储介质
CN111694962A (zh) * 2019-03-15 2020-09-22 阿里巴巴集团控股有限公司 数据处理方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103885938A (zh) * 2014-04-14 2014-06-25 东南大学 基于用户反馈的行业拼写错误检查方法
CN104050240A (zh) * 2014-05-26 2014-09-17 北京奇虎科技有限公司 一种确定搜索查询词类别属性的方法和装置
CN104951433A (zh) * 2015-06-24 2015-09-30 北京京东尚科信息技术有限公司 基于上下文进行意图识别的方法和***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103885938A (zh) * 2014-04-14 2014-06-25 东南大学 基于用户反馈的行业拼写错误检查方法
CN104050240A (zh) * 2014-05-26 2014-09-17 北京奇虎科技有限公司 一种确定搜索查询词类别属性的方法和装置
CN104951433A (zh) * 2015-06-24 2015-09-30 北京京东尚科信息技术有限公司 基于上下文进行意图识别的方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于GBDT的社区文体标签推荐技术研究;孙万龙;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215(第2期);第I138-2100页 *

Also Published As

Publication number Publication date
CN107291775A (zh) 2017-10-24

Similar Documents

Publication Publication Date Title
CN107291775B (zh) 错误样本的修复语料生成方法和装置
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及***
CN111259215A (zh) 基于多模态的主题分类方法、装置、设备、以及存储介质
CN111222305A (zh) 一种信息结构化方法和装置
CN108304468A (zh) 一种文本分类方法以及文本分类装置
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN112988963B (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN108038208B (zh) 上下文信息识别模型的训练方法、装置和存储介质
CN109948160B (zh) 短文本分类方法及装置
CN111274372A (zh) 用于人机交互的方法、电子设备和计算机可读存储介质
CN107291774B (zh) 错误样本识别方法和装置
CN112036168B (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN109992781B (zh) 文本特征的处理方法、装置和存储介质
CN107862058B (zh) 用于生成信息的方法和装置
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN112052331A (zh) 一种处理文本信息的方法及终端
CN111930792A (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN111522916A (zh) 一种语音服务质量检测方法、模型训练方法及装置
CN109190123B (zh) 用于输出信息的方法和装置
CN107766498B (zh) 用于生成信息的方法和装置
CN111368066A (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN116127060A (zh) 一种基于提示词的文本分类方法及***
CN110738056A (zh) 用于生成信息的方法和装置
CN112579781B (zh) 文本归类方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant