CN108509406A - 一种语料抽取方法、装置和电子设备 - Google Patents

一种语料抽取方法、装置和电子设备 Download PDF

Info

Publication number
CN108509406A
CN108509406A CN201710104640.0A CN201710104640A CN108509406A CN 108509406 A CN108509406 A CN 108509406A CN 201710104640 A CN201710104640 A CN 201710104640A CN 108509406 A CN108509406 A CN 108509406A
Authority
CN
China
Prior art keywords
language material
filtered
language
iteration
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710104640.0A
Other languages
English (en)
Other versions
CN108509406B (zh
Inventor
徐礼逵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201710104640.0A priority Critical patent/CN108509406B/zh
Publication of CN108509406A publication Critical patent/CN108509406A/zh
Application granted granted Critical
Publication of CN108509406B publication Critical patent/CN108509406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02WCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
    • Y02W30/00Technologies for solid waste management
    • Y02W30/50Reuse, recycling or recovery technologies
    • Y02W30/82Recycling of waste of electrical or electronic equipment [WEEE]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种语料抽取方法、装置及电子设备,该方法包括:依据预先训练的目标种子语言模型对各待过滤语料进行迭代过滤处理,确定对应的语料迭代结果,其中,所述语料迭代结果包含过滤后的语料;当所述语料迭代结果符合预设的迭代任务条件时,将所述语料迭代结果中过滤后的语料作为抽取的目标语料。本申请实施例通过对待过滤语料进行迭代过滤处理,实现了自动筛选出所需抽取的目标语料,从而解决了基于人工总结规则确定出的人工设定的清洗策略难以清洗所有垃圾语料的问题。

Description

一种语料抽取方法、装置和电子设备
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种语料抽取方法、一种语料抽取装置,以及一种电子设备。
背景技术
语言模型是根据语言客观事实而进行的语言抽象数学建模。语言客观事实经过语言模型的描述,比较适合于电子计算机进行自动处理,因而语言模型对于自然语言的信息处理具有重大的意义。
语言模型的质量很大程度上取决于训练语料的质量。现存的训练语料的清洗工作基本是基于人为总结的规则,即需要人工总结规则,麻烦费时。此外,语料来源比较复杂,人工设定的清洗策略难以清洗所有垃圾语料,即总有一些垃圾语料进入语音模型的训练语料,影响语料抽取质量。
发明内容
本申请实施例提供一种语料抽取方法,以解决现有语料抽取方案中需要人工总结规则而导致语料抽取效率低和语料抽取质量差的问题。
相应的,本申请实施例还提供了一种语料抽取装置和一种电子设备,用以保证上述方法的实现及应用。
为了解决上述问题,本申请实施例公开了一种语料抽取方法,包括:依据预先训练的目标种子语言模型对各待过滤语料进行迭代过滤处理,确定对应的语料迭代结果,其中,所述语料迭代结果包含过滤后的语料;当所述语料迭代结果符合预设的迭代任务条件时,将所述语料迭代结果中过滤后的语料作为抽取的目标语料。
本申请实施还公开了一种语料抽取装置,包括:迭代处理模块,用于依据预先训练的目标种子语言模型对各待过滤语料进行迭代过滤处理,确定对应的语料迭代结果,其中,所述语料迭代结果包含过滤后的语料;语料抽取模块,用于当所述语料迭代结果符合预设的迭代任务条件时,将所述语料迭代结果中过滤后的语料作为抽取的目标语料。
本申请实施例还公开了一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:依据预先训练的目标种子语言模型对各待过滤语料进行迭代过滤处理,确定对应的语料迭代结果,其中,所述语料迭代结果包含过滤后的语料;当所述语料迭代结果符合预设的迭代任务条件时,将所述语料迭代结果中过滤后的语料作为抽取的目标语料。
本申请实施例包括以下优点:
本申请实施例可以通过预先训练的目标种子语言模型,对待过滤语料进行迭代过滤处理,以自动筛选出所需抽取的目标语料,避免了现有技术中需要人工总结规则的麻烦,即节省语料抽取时间,从而提高语料抽取效率;以及,解决了基于人工总结规则确定出的人工设定的清洗策略难以清洗所有垃圾语料的问题,即能够快速准确地筛选出所需抽取的语料。
附图说明
图1是本申请的一种语料抽取方法实施例的步骤流程图;
图2A是本申请的一种语料抽取方法可选实施例的步骤流程图;
图2B是本申请一个可选实施例中的依据困惑度对各待过滤语料进行过滤的子步骤流程图。
图3是本申请的一种语料抽取装置实施例的结构框图;
图4是根据一示例性实施例示出的一种用于语料抽取的电子设备的结构框图;
图5是本申请根据另一示例性实施例示出的一种用于语料抽取的电子设备的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例的核心构思之一在于,通过预先训练的目标种子语言模型对待过滤语料进行迭代过滤处理,从而能够快速准确地筛选出所需抽取的目标语料,即能够自动筛选出所需的语料,解决了现有技术中需要人工总结规则而导致语料抽取效率低和语料抽取质量差的问题。
参照图1,示出了本申请的一种语料抽取方法实施例的步骤流程图,具体可以包括如下步骤:
步骤102,依据预先训练的目标种子语言模型对各待过滤语料进行迭代过滤处理,确定对应的语料迭代结果,其中,所述语料迭代结果包含过滤后的语料。
在实质处理中,可以预先利用一些优质语料,如新闻类语料、购物类语料或标注类语料等,训练出一个种子语言模型,进而可以在后续语料抽取中,采用该种子语言模型自动筛选所需的语料。在一可选实施方式中,可以预先利用属于同一语料类别的优质语料,训练出该语料类别对应的种子语言模型,亦即,训练出的种子语言模型可以用于聚集某一类的语料。
本申请实施例在需要抽取语料时,可以将需要过滤的语料称为待过滤语料,并可通过预先训练的目标种子模型对待过滤语料进行迭代过滤处理,得到过滤后的语料;以及可以在每一次过滤处理后,基于过滤后的语料确定每一次过滤处理后对应的迭代处理结果。
在确定语料迭代结果后,可以判断该语料迭代结果是否符合预设的迭代任务条件,以确定是否需要继续对该语料迭代结果中过滤后的语料进行下一次的过滤处理。若该语料迭代结果不符合预设的迭代任务条件,则可以确定需要继续对该语料迭代结果中过滤后的语料进行过滤处理,如可以将该语料迭代结果中过滤后的语料作为下一次过滤处理中的待过滤语料,直到过滤后的迭代处理结果符合预设的迭代任务条件。若过滤后的迭代处理结果符合预设的迭代任务条件,则可以确定无需对该料迭代结果中过滤后的语料进行进下一次的过滤处理,进而可以执行步骤104。其中,迭代任务条件可以依据语料模型的训练任务进行设置,如可以设置每一次抽取语料的语料规模大小、或者迭代次数等,本申请实施例对此不作具体限制。语料规模大小可以用于表征每一次需要抽取的语料数量。
步骤104,当所述语料迭代结果符合预设的迭代任务条件时,将所述语料迭代结果中过滤后的语料作为抽取的目标语料。
当语料迭代结果符合预设的迭代任务条件,可以确定该语料迭代结果中过滤后的语料已满足预设的语料抽取要求,即完成了语料抽取任务,进而可以将该语料迭代结果中过滤后的语料确定为抽取的目标语料,达到自动抽取所需的语料的目的。其中,目标语料可以用于表征所需抽取的语料。
综上,本申请实施例可以通过预先训练的目标种子语言模型对待过滤语料进行迭代过滤处理,以自动筛选出所需抽取的目标语料,避免了现有技术中需要人工总结规则的麻烦,即节省语料抽取时间,从而提高语料抽取效率;以及,解决了基于人工总结规则确定出的人工设定的清洗策略难以清洗所有垃圾语料的问题,即能够快速准确地筛选出所需抽取的语料。
参照图2A,示出了本申请的一种语料抽取方法可选实施例的步骤流程图,具体可以包括如下步骤:
步骤202,预先为各语料类别训练对应的种子语言模型。
本申请实施例可以通过预先筛选属于同一语料类别的语料,以采用筛选出的语料训练该语料类别对应的一个种子语言模型。具体的,在需要训练某一语料类别对应的种子语言模型时,可以采用预先为该语料类别定义的一些语料,训练该类别对应的种子语言模型。例如,本申请实施例可以采用预先定义的新闻类语料训练一个新闻类对应的种子语言模型,以在后续抽取语料中采用新闻类对应的种子语言模型自动抽取新闻;可以预先定义的购物类语料训练一个购物类对应的种子语言模型,以在后续抽取语料中采用购物类对应的种子语言模型自动抽取购物类语料;可以预先定义的标注类语料训练一个标注类对应的种子语言模型,以在后续抽取语料中采用标注类对应的种子语言模型自动抽取标注类语料等等。当然,本申请实施例还可以为其他语料类别训练对应的种子语言模型,如可以为即时通信类语料训练对应的种子语言模型,本申请实施例对语料类别不作具体限制。
可选地,为各语料类别训练对应的种子语言模型,具体可以包括:对预设的语料进行分类处理,确定属于各语料类别的语料;针对每一语料类别,采用属于所述语料类别的语料进行训练,生成所述语料类别对应的种子语言模型。具体而言,本申请实施例可以按照语料获取的方式或者语料对应的业务类型对需要抽取的语料进行分类,以确定所需要抽取语料对应的语料类别;进而可以采用每一个语料类别的语料,训练每一个语料类别对应的种子语言模型。作为本申请的一个示例,可以按照获取语料的应用程序进行分类,如通过购物平台中的应用程序获取到的语料(如商品购买信息、商品交易信息等),可以确定为购物类的语料,以采用确定的语料训练购物类对应的一个种子语言模型;通过即时通讯平台中的即时通讯应用程序获取的语料(如通过即时通讯应用程序传输的聊天记录信息),可以确定为即时通讯类语料,以采用确定的语料训练通讯类对应的一个种子语言模型;通过输入法应用程序获取到的语料(如用户通过输入法应用程序输入的信息),可以确定为输入类语料,以采用确定的语料训练输入类对应的一个种子语言模型,进而可以采用各语料类别对应的各种子语言模型构成一个比较大的语言模型。该语言模型可以用于在训练语料时,根据待抽取语料所属的语料类别,调用对应的种子语言模型,以通过调用的种子语言模型自动抽取该语料类别对应的目标语料。
步骤204,在迭代过滤处理之前,依据待过滤语料所属的语料类别,确定对应预先训练的目标种子语言模型。
本申请实施例可以依据待抽取语料的语料类别,确定出所需要采用的预先训练的目标种子语言模型,进而可以通过目标种子语言模型聚集属于待抽取语料的语料类别的语料,即执行步骤206。
步骤206,通过目标种子语言模型对各待过滤语料进行过滤处理,确定对应的语料迭代结果,其中,语料迭代结果还可以包括迭代处理信息。
在本申请实施例中,可选的,对各待过滤语料进行过滤处理,确定对应的语料迭代结果,可以包括:通过目标种子语言模型确定各待过滤语料的困惑度;依据所述困惑度对各待过滤语料进行过滤,得到过滤后的语料,并记录对应的迭代处理信息;以及,基于过滤后的语料和所述迭代处理信息,确定所述语料迭代结果。
本申请实施例可以通过目标种子语言模型,计算待过滤语料的困惑度(perplexity,ppl),并且可以依据待过滤语料的困惑度进行过滤,以自动筛选出所需的待抽取语料,即得到过滤后的语料。具体的,在抽取语料的过程中,可以计算所有待过滤语料在目标种子语言模型中的困惑度,即对待过滤语料计算ppl值。其中,ppl可以用于评估一个句子是否合理,如在特定的模型下,ppl越小,句子越合理。例如,待过滤语料“垃圾污染环境损害健康”在确定的种子语言模型中的ppl值为554.167;待过滤语料“垃圾污染环境损害建康”在确定的种子语言模型中的ppl值为4364.39;待过滤语料“美联储***本伯克南昨天告诉媒体七千亿美元的救助资金将借给上百家银行保险公司和汽车公司”在确定的种子语言模型中的ppl值为1007.37;待过滤语料“本伯克南美联储***昨天七千亿美元的救助资金告诉媒体将借给银行保险公司和汽车公司上百家”在确定的种子语言模型中的ppl值为1985.72;待过滤语料“联主美储席本伯诉体南将借天的救克告媒助资金七千元亿美元给上百家银行汽车保险公司公司和”在确定的种子语言模型中的ppl值为9676.6。
本申请实施例可以基于每一次过滤处理后,记录对应的迭代处理信息,进而可以采用过滤后的语料和迭代处理信息生成所述语料迭代结果,该语料迭代结果具体可以包括此次过滤后的语料和记录的迭代处理信息。具体的,在每一次对待过滤语料进行过滤处理时,可以记录相应的迭代处理信息;并且可以将记录的迭代处理信息添加到当前过滤对应的语料迭代处理结果中,以通过该迭代处理信息验证该语料迭代处理结果是否符合预设的迭代任务条件。迭代处理信息可以包括但不仅限于以下至少一种:待抽取语料对应的语料数量、语料迭代次数。其中,语料数量可以用于表征过滤后的语料对应的数量。因此,可以在语料过滤后对当前的待抽取语料进行统计,确定此次过滤后待抽取语料对应的语料数量。语料迭代次数可以用于表征语料抽取过程中语料过滤的次数,如在第一次过滤处理时,记录的语料迭代次数为1次;在第二次过滤处理时,记录的语料迭代次数为2次;在第三次过滤处理时,记录的语料迭代次数为3次;如此类推,在第N次过滤处理时,记录的语料迭代次数为N次,N为整数。
在本申请的一个可选实施例中,如图2B所示,所述依据所述困惑度对各待过滤语料进行过滤,得到过滤后的语料,具体可以包括如下子步骤:
子步骤2060,对各待过滤语料的困惑度进行规整化处理,确定各待过滤语料对应的留下概率;
具体而言,本申请实施例可以通过预设的抽取公式对待过滤语料的困惑度进行规整化处理,以将待过滤语料的困惑度值域规整到指定数据区间之内,如将困惑度值域从(0,+∞)规整到[0,100]之间,从而可以方便后续对待过滤语料的困惑度进行概率化处理,以确定待过滤语料对应的留下概率。
在一个可选实施方式中,所述对各待过滤语料的困惑度进行规整化处理,确定各待过滤语料对应的留下概率,具体可以包括:对各待过滤语料的困惑度进行统计,确定对应的困惑度平均值;分别采用每一个待过滤语料的困惑度和所述困惑度平均值进行规整化计算,确定每一待过滤语料对应的第一概率;依据所述第一概率确定所述留下概率。
作为本申请的一个具体示例,本申请实施例可以利用抽取公式确定待过滤语料对应的留下概率,如可利用抽取公式P=max(norm(ppl),0)确定待过滤语句是己是否留下的概率。其中,抽取公式中的norm可以用于代表规整化操作,将ppl值域从(0,+∞)规整到[0,100]之间,以方便后面概率化操作;max可以用于代表取最大值,以防止概率是一个小于0的数字。例如,结合上述的具体示例,可以利用上述抽取公式,分别对上述具体示例中的各待过滤语料的困惑度进行规整化计算,得到各待过滤语料对应的第一概率,并且可以依据将得到的各待过滤语料对应的第一概率,确定各待过滤语料对应的留下概率,如可以将待过滤语料对应的第一概率作为各待过滤语料对应的留下概率。具体的,待过滤语料“垃圾污染环境损害健康”对应的第一概率为72.3%;待过滤语料“垃圾污染环境损害建康”对应的第一概率为0;待过滤语料“美联储***本伯克南昨天告诉媒体七千亿美元的救助资金将借给上百家银行保险公司和汽车公司”对应的第一概率为49.65%;待过滤语料“本伯克南美联储***昨天七千亿美元的救助资金告诉媒体将借给银行保险公司和汽车公司上百家”对应的第一概率为0.75%;待过滤语料“联主美储席本伯诉体南将借天的救克告媒助资金七千元亿美元给上百家银行汽车保险公司公司和”对应的第一概率为0。
在本申请的一个可选实施例中,在确定各待过滤语料对应的留下概率之后,该方法还可以包括:分别检测各待过滤语料对应的留下概率是否达到预设的概率阈值;当待过滤语料对应的留下概率未达到所述概率阈值,确定为丢弃语料,以及丢弃所述丢弃语料。当待过滤语料对应的留下概率达到概率阈值时,即执行步骤2062。例如,当所有待过滤语料对应的平均ppl为1000,可以根据公式norm(ppl)=50+(ppl平均值-ppl)/20,确定norm(ppl)=50+(1000-ppl)/20,如在待过滤语料的ppl为100时,通过抽取公式可以确定该待过滤语料对应的留下概率为95%,即该待过滤语料具有95%的机会留下;当待过滤语料的ppl大于2000时,可以确定该待过滤语料对应的留下概率为0,即可以直接丢弃该待过滤语料。
例如,在检测到待过滤语料“垃圾污染环境损害建康”对应的留下概率为0时,可以直接丢弃将该待过滤语料,即过滤掉具有错别字的句子;在检测到待过滤语料“联主美储席本伯诉体南将借天的救克告媒助资金七千元亿美元给上百家银行汽车保险公司公司和”对应的留下概率为0时,可以直接丢弃将该待过滤语料,即过滤掉语句不通的句子。可见,本申请实施例可以通过种子语言模型自动抽取所需的语料,并且能够在很大程度上过滤掉具有错别字以及语句不通的句子。
子步骤2062,当待过滤语料对应的留下概率达到预设的概率阈值,确定为过滤后的语料。
需要说明的是,本申请示例除了ppl外,还可以采用其他指标来对待过滤语料进行过滤处理,如可以同时采用句子概率和ppl对待过滤语料进行过滤,本申请申请实施例对此不作具体限制。
在短句子中,如聊天类语料中,除了ppl,句子概率也是衡量语料合理与否的一个重要指标,因此本申请实施例可以同时利用这两个指标对句子进行过滤处理,以获得更好的技术效果。由此,在本申请的一个可选实施例中,该方法还可包括:确定每一个待过滤语料的句子概率,依据所述句子概率确定第二概率。以及,所述依据所述第一概率确定所述留下概率,具体可以包括:依据所述第一概率和第二概率,确定所述留下概率。其中,句子概率可以通过语言模型(如N-Gram语言模型)确定。
具体的,本申请实施例可以分别确定每一个待过滤语料中的词数量和句子概率;并可针对每一个待过滤语料,采用所述词数量与所述句子概率进行规整化计算,确定每一个待过滤语料的第二概率,进而可以采用第二概率确定留下概率,如可以将第二概率作为留下概率;或者,可以依据第一概率和第二概率确定留下概率。例如,可以将第二概率与第一概率进行比较,来确定留下概率,如当所述第一概率超过所述第二概率,可将所述第一概率作为所述留下概率;当所述第二概率超过所述第一概率,可将所述第二概率作为所述留下概率。其中,词数量可以用于表示语料中词的个数。
作为一具体示例,可以采用另一种抽取公式P=max(norm(ppl),norm(logPs),0)来确定待过滤语句是己是否留下的概率。其中,该抽取公式中的logPs可以用于表示句子概率的对数。例如,可以根据另一公式norm(logPs)=(100+N*logPs)来确定待过滤语料(即待过滤句子)的第二概率,其中,N为待过滤句子中词个数(即词数量),logPs为句子概率取对数后的结果。例如,上述例子中的待过滤语料“垃圾污染环境损害健康”的ppl为554.167,logPs为-13.718,通过抽取公式P=max(norm(ppl),norm(logPs),0),可以确定其对应的句子留下概率P为max(72.3,45.1,0),即该待过滤语料“垃圾污染环境损害健康”对应的留下概率为72.3;待过滤语料“垃圾污染环境损害建康”的ppl为4364.39,logPs为-18.199,通过抽取公式P=max(norm(ppl),norm(logPs),0),可以确定其对应的句子留下概率P为max(-118.2,27.2,0),即该待过滤语料“垃圾污染环境损害健康”对应的留下概率为27.2。可见,采用第二种抽取公式P=max(norm(ppl),norm(logPs),0)获得的留下概率,比采用第一种抽取抽取公式P=max(norm(ppl),0)获得的留下概率更加平滑。
在一个可选实施方式中,可以针对过滤后的语料,记录对应的迭代处理信息。具体而言,可以对过滤后语料进行统计,确定对应的语料数量,并且可以将该语料数量作为所述迭代处理信息。需要说明的是,本申请实施例还可以记录其他过滤处理信息,作为本次语料过滤对应的迭代处理信息,如可以记录语料过滤的次数作为迭代处理信息,也可以记录丢弃垃圾语料的数量作为迭代处理信息,本申请实施例对此不作具体限制。
步骤208,检测所述语料迭代结果中的迭代处理信息是否符合所述迭代任务条件。
若所述迭代处理信息不符合所述迭代任务条件,则执行步骤210;若迭代处理信息符合所述迭代任务条件,则执行步骤212。
步骤210,当迭代处理信息不符合所述迭代任务条件,将所述语料迭代结果中过滤后的语料作为下一次过滤处理中的待过滤语料。
具体的,当所述迭代处理信息不符合所述迭代任务条件,可以采用过滤后的语料更新目标种子模型,以采用更新后的目标种子模型执行下一次过滤处理,即返回执行步骤206;或者,可以不对目标种子模型进行更新,直接返回执行步骤206。
一个可选实施方式中,目标种子语料模型可以是利用前面N-1个词来预测第N个词的语言模型,如Ngram语言模型。在实际处理中,过滤后的语料通常与过滤前的待过滤语料不相同,即在迭代过滤处理中,每一次过滤处理中的待过滤语料与下一次过滤处理中的待过滤语料不相同。因此,每一次过滤处理中全部待过滤语料的困惑度平均值与上一次过滤处理中全部待过滤语料的困惑度平均值不相同,如在采用同一目标种子模型进行迭代过滤处理时,可通过将每一个待过滤语料的困惑度与困惑度平均值进行比较,来实现每一次过滤处理。
另一个可选实施方式中,在迭代过滤处理过程中,若迭代处理结果代中的迭代处理信息不符合所述迭代任务条件,可以在执行下一次过滤处理之前,采用过滤后的语料更新所述目标种子模型,以采用更新后的目标种子模型执行下一次过滤处理。具体的,可以采用本次过滤处理后得到的全部或部分过滤后的语料训练一个,并采用该新的目标种子模型替换掉本次过滤处理中所采用的目标种子模型,以通过新的种子语言模型对下一次过滤处理中的待过滤语料进行过滤,从而提高下一次过滤后的语料的精确度,进而可以加快语料抽取的速度。
在本申请的一个可选实施中,所述迭代处理信息包括:语料迭代次数,所述检测所述语料迭代结果中的迭代处理信息是否符合所述迭代任务条件,具体可以包括:判断所述语料迭代次数是否达到预设的迭代次数阈值;若达到,则确定所述迭代处理信息符合所述迭代任务条件;否则,确定所述迭代处理信息不符合所述迭代任务条件。例如,当预设的迭代次数阈值为3次,本申请实施例在第一次对待过滤语料进行过滤处理时,记录对应的语料迭代次数为1次,即可确定语料迭代次数未达到迭代次数阈值,进而返回执行步骤210;直到完成三次过滤处理后,可以确定第三次处理过滤对应的语料迭代次数达到迭代次数阈值,进而执行步骤212。
在本申请的另一个可选实施中,所述迭代处理信息包括:过滤后的语料对应的语料数量,所述检测所述语料迭代结果中的迭代处理信息是否符合所述迭代任务条件,具体可以包括:判断所述语料数量是否超过预设的语料数量阈值;若所述语料数量超过所述语料数量阈值,则确定所述语料迭代结果不符合所述迭代任务条件;否则,确定所述语料迭代结果符合所述迭代任务条件。
具体的,本申请实施例在对待过滤语料进行过滤处理后,可以通过统计确定出当前的迭代处理结果中的取语料对应的语料数量,以采用该语料数量判断是否需要进行下一次的过滤处理,以减少待抽取语料的数量,从而提高语料抽取的质量。例如,当预设的语料数量阈值为100次,本申请实施例在统计到迭代处理结果中待抽取语料对应的语料数量为1000时,可以执行步骤210,直到迭代处理结果中待抽取语料对应的语料数量等于或小于100,即迭代处理结果中的语料数量不超过100时执行步骤212。
需要说明的是,本申请实施例也可以采用两种或两种以上的迭代处理信息判断迭代处理结果是否符合预设的迭代任务条件,以确定是否需要继续对语料进行迭代过滤处理,如可以同时采用待抽取语料对应的语料数量和语料迭代次数来确定是否需要继续对语料进行迭代过滤处理;还可以通过检测语料规模变化来确定迭代处理结果是否符合预设的迭代任务条件,本申请实施例对此不作具体限制。
例如,当采用待抽取语料对应的语料数量和语料迭代次数来确定是否需要继续对语料进行迭代过滤处理,可以在语料数量不超过语料数量阈值时或者在语料迭代次数达到迭代次数阈值时,执行步骤212;或者,可以在语料数量不超过语料数量阈值,且语料迭代次数达到迭代次数阈值时,执行步骤212,本申请实施例对此不作具体限制。
可选的,检测所述语料迭代结果中的迭代处理信息是否符合所述迭代任务条件,具体可以包括:计算本次过滤后的语料数量与上一次过滤后的语料数量之间的差值;若所述差值超过预设的减少数量阈值,则确定所述语料迭代结果不符合所述迭代任务条件;否则,确定所述语料迭代结果符合所述迭代任务条件。
作为本申请的另一个具体示例,本申请实施例可以将每一次语料过滤后的语料迭代处理结果中待抽取语料的数量与上一次语料过滤后的语料迭代处理结果中待抽取语料的数量相比,确定每一次过滤后的语料规模变化,从而可以在语料规模变化不大时执行步骤212。具体的,当在语料过滤后的语料规模变化比较大时,如可以将过滤后的语料数量与上一次过滤后的语料数量相比,若减少的语料数量超过预设的减少数量阈值,则执行步骤210;若减少的语料数量不超过预设的减少数量阈值,则可以确定语料规模变化不大,执行步骤212。
步骤212,当所述语料迭代结果符合预设的迭代任务条件时,将所述语料迭代结果中过滤后的语料作为抽取的目标语料。
综上,本申请实施例可以通过控制种子语言模型能够很大程度上聚集某一类的语料。例如,在有一堆待过滤语料时,若需要从中抽取出和购物相关的语料,则本申请实施例可以预先筛选出一批购物类语料,以采用筛选出的购物类语料,训练出购物类对应的种子语言模型,然后可以通过该种子语言模型对待过滤语料进行迭代过滤处理,从而能够快速准确地筛选出所需的语料。与现有技术通过定义一些关键词来抽取语料的方案相比,本申请实施例实施例避免了人为设置关键词的麻烦,并且能够避免人为设置关键词导致语料抽取方案局限于抽取关键词所对应的语料的情形,提高了语料抽取方案的扩展性。
在本申请实施例中,可选地,所述目标语料可以用于训练语言模型。语言模型可以用于各种应用程序中,具体可以用于语音识别、自动分词、机器翻译等。所述语言模型可以包括但不仅限于以下至少一种:翻译语言模型、识别语言模型、分词语言模型。其中,所述识别语言模型可以用于对输入语言进行纠错处理,和/或,可以用于进行语音识别。分词语言模型可以用于对文本信息进行自动分词。翻译语言模型可以用于对输入语言进行翻译。
在本申请的一个可选实施例中,该方法还包括:在输入过程中,采用所述目标语料中的字词与输入信息进行匹配,以及将匹配到的目标语料作为输入候选项,其中,所述输入候选项用于推荐给用户。具体而言,在用户采用输入法应用程序进行输入时,输入法应用程序可以将用户输入的输入信息,如输入的文本信息或语音信息,与通过种子语言模型抽取到的目标语料中的字词进行匹配,以将匹配到的目标语料作为输入信息对应的输入候选项推荐给用户,进而可以提高用户输入效率。
可选的,该方法还可以包括:在搜索过程中,采用所述目标语料中的字词与搜索信息进行匹配,以采用匹配到的目标语料进行搜索。例如,当用户需要进行搜索时,可以在搜索输入框输入搜索信息,使得搜索引擎可以依据该搜索信息进行搜索。搜索引擎在搜索过程中,可以采用目标语料中的字词与搜索信息进行匹配,以基于匹配到目标语料进行搜索,从而可以提高搜索结果的准确率和提高搜索效率,以满足用户搜索需求,提高用户体验。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图3,示出了本申请的一种语料抽取装置实施例的结构框图,具体可以包括如下模块:
迭代处理模块302,用于预先训练的依据目标种子语言模型对各待过滤语料进行迭代过滤处理,确定对应的语料迭代结果,其中,所述语料迭代结果包含过滤后的语料;
语料抽取模块304,用于当所述语料迭代结果符合预设的迭代任务条件时,将所述语料迭代结果中过滤后的语料作为抽取的目标语料。
在本申请的一个可选实施例中,所述迭代处理模块302,具体可以包括如下子模块:
语料过滤子模块,用于通过目标种子语言模型对各待过滤语料进行过滤处理,确定对应的语料迭代结果,其中,所述语料迭代结果还包括迭代处理信息;
迭代结果检测子模块,用于检测所述语料迭代结果中的迭代处理信息是否符合所述迭代任务条件;
迭代执行子模块,用于若所述迭代处理信息不符合所述迭代任务条件,则将所述语料迭代结果中过滤后的语料作为下一次过滤处理中的待过滤语料,以及触发所述语料过滤子模块继续执行下一次过滤处理。
本申请实施例中,可选地,所述语料过滤子模块,具体可以包括如下单元:
困惑度确定单元,用于通过目标种子语言模型确定各待过滤语料的困惑度;
语料过滤单元,用于依据所述困惑度对各待过滤语料进行过滤,得到过滤后的语料,并记录对应的迭代处理信息;
迭代结果确定单元,用于基于过滤后的语料和所述迭代处理信息,确定所述语料迭代结果。
在本申请的一个可选实施例中,语料过滤单元,具体可以包括如下子单元:
规整化子单元,用于对各待过滤语料的困惑度进行规整化处理,确定各待过滤语料对应的留下概率;
第一确定子单元,用于当待过滤语料对应的留下概率达到预设的概率阈值,确定为过滤后的语料。
可选地,语料过滤单元还可以包括记录子单元。该记录子单元,用于针对过滤后的语料,记录对应的迭代处理信息。
迭代结果确定单元,具体可以用于基于过滤后的语料以及所述迭代处理信息,确定所述语料迭代结果。
在本申请的一个可选实施例中,所述规整化子单元,具体可以用于对各待过滤语料的困惑度进行统计,确定对应的困惑度平均值;并分别采用每一个待过滤语料的困惑度和所述困惑度平均值进行规整化计算,确定每一待过滤语料对应的留下概率;以及,依据所述第一概率确定所述留下概率。
在本申请的一个可选实施例中,所述规整化子单元还用于确定每一个待过滤语料的句子概率,依据所述句子概率确定第二概率;依据所述第一概率和第二概率,确定所述留下概率。
在本申请的一个可选实施例中,所述迭代处理信息包括:语料迭代次数,所述迭代结果检测子模块,具体可以包括:迭代次数判断单元。
其中,迭代次数判断单元,用于判断所述语料迭代次数是否达到预设的迭代次数阈值;若达到,则确定所述迭代处理信息符合所述迭代任务条件;否则,确定所述迭代处理信息不符合所述迭代任务条件。
在本申请的一个可选实施例中,所述迭代处理信息还包括:过滤后的语料对应的语料数量,所述迭代结果检测子模块,具体可以包括:语料数量判断单元或语料数据计算单元。
其中,语料数量判断单元,用于判断所述语料数量是否超过预设的语料数量阈值;若所述语料数量超过所述语料数量阈值,则确定所述语料迭代结果不符合所述迭代任务条件;否则,确定所述语料迭代结果符合所述迭代任务条件。
语料数据计算单元,用于计算本次过滤后的语料数量与上一次过滤后的语料数量之间的差值;若所述差值超过预设的减少数量阈值,则确定所述语料迭代结果不符合所述迭代任务条件;否则,确定所述语料迭代结果符合所述迭代任务条件。
在本申请的一个可选实施例中,该语料抽取装置还可以包括如下模块:语言模型训练模型,用于预先为各语料类别训练对应的种子语言模型;
语言模型确定模块,用于在迭代过滤处理之前,依据待过滤语料所属的语料类别,确定对应的目标种子语言模型;语言模型更新模块,用于当所述迭代处理信息不符合所述迭代任务条件,在下一次过滤处理之前,采用过滤后的语料更新所述目标种子模型,以及,可以触发语料过滤子模块采用更新后的目标种子模型执行下一次过滤处理。
在本申请的一个可选实施例中,语言模型训练模型,可以包括如下子模型:分类处理子模块,用于对预设的语料进行分类处理,确定属于各语料类别的语料;模型生成子模块,用于针对每一语料类别,采用属于所述语料类别的语料进行训练,生成所述语料类别对应的种子语言模型。
在本申请的一个可选实施例中,所述语料过滤单元,具体可以用于对过滤后的语料进行统计,确定对应的语料数量;以及,将所述语料数量作为所述迭代处理信息。
在本申请的一个可选实施例中,所述语料过滤单元,还可以用于在确定各待过滤语料对应的留下概率之后,分别检测各待过滤语料对应的留下概率是否达到预设的概率阈值;当待过滤语料对应的留下概率未达到所述概率阈值时,将该待过滤语料确定为垃圾语料,以及丢弃所述垃圾语料。
在本申请实施例中,可选地,所述目标语料可以用于训练语言模型;所述语言模型可以包括但不仅限于以下至少一种:翻译语言模型、识别语言模型、分词语言模型,其中,所述识别语言模型用于对输入语言进行纠错处理。
在本申请的一个可选实施例中,该语料抽取装置还可以包括:语料匹配模块。该语料匹配模型,可以用于在输入过程中,采用所述目标语料中的字词与输入信息进行匹配,以及将匹配到的目标语料作为输入候选项,其中,所述输入候选项用于推荐给用户;或者,用于在搜索过程中,采用所述目标语料中的字词与搜索信息进行匹配,以采用匹配到的目标语料进行搜索。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图4是根据一示例性实施例示出的一种用于语料抽取的电子设备400的结构框图。例如,电子设备400可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等;也可以是服务端设备,如服务器。
参照图4,电子设备400可以包括以下一个或多个组件:处理组件402,存储器404,电源组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。
处理组件402通常控制电子设备400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件402可以包括一个或多个处理器420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理部件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持在设备400的操作。这些数据的示例包括用于在电子设备400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件404为电子设备400的各种组件提供电力。电力组件404可以包括电源管理***,一个或多个电源,及其他与为电子设备400生成、管理和分配电力相关联的组件。
多媒体组件408包括在所述电子设备400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当电子设备400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当电子设备400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件414包括一个或多个传感器,用于为电子设备400提供各个方面的状态评估。例如,传感器组件414可以检测到设备400的打开/关闭状态,组件的相对定位,例如所述组件为电子设备400的显示器和小键盘,传感器组件414还可以检测电子设备400或电子设备400一个组件的位置改变,用户与电子设备400接触的存在或不存在,电子设备400方位或加速/减速和电子设备400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件416被配置为便于电子设备400和其他设备之间有线或无线方式的通信。电子设备400可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件414经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件414还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由电子设备400的处理器420执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种语料抽取方法,所述方法包括:依据预先训练的目标种子语言模型对各待过滤语料进行迭代过滤处理,确定对应的语料迭代结果,其中,所述语料迭代结果包含过滤后的语料;当所述语料迭代结果符合预设的迭代任务条件时,将所述语料迭代结果中过滤后的语料作为抽取的目标语料。
可选地,所述依据预先训练的目标种子语言模型对各待过滤语料进行迭代过滤处理,确定对应的语料迭代结果,包括:通过目标种子语言模型对各待过滤语料进行过滤处理,确定对应的语料迭代结果,其中,所述语料迭代结果还包括迭代处理信息;检测所述语料迭代结果中的迭代处理信息是否符合所述迭代任务条件;若所述迭代处理信息不符合所述迭代任务条件,则将所述语料迭代结果中过滤后的语料作为下一次过滤处理中的待过滤语料。
可选地,所述通过目标种子语言模型对各待过滤语料进行过滤处理,确定对应的语料迭代结果,包括:通过目标种子语言模型确定各待过滤语料的困惑度;依据所述困惑度对各待过滤语料进行过滤,得到过滤后的语料,并记录对应的迭代处理信息;基于过滤后的语料和所述迭代处理信息,确定所述语料迭代结果。
可选地,所述依据所述困惑度对各待过滤语料进行过滤,得到过滤后的语料,包括:对各待过滤语料的困惑度进行规整化处理,确定各待过滤语料对应的留下概率;当待过滤语料对应的留下概率达到预设的概率阈值,确定为过滤后的语料。
可选地,所述对各待过滤语料的困惑度进行规整化处理,确定各待过滤语料对应的留下概率,包括:对各待过滤语料的困惑度进行统计,确定对应的困惑度平均值;分别采用每一个待过滤语料的困惑度和所述困惑度平均值进行规整化计算,确定每一待过滤语料对应的第一概率;依据所述第一概率确定所述留下概率。
可选地,所述方法还包括:确定每一个待过滤语料的句子概率;依据所述句子概率确定第二概率。其中,依据所述第一概率确定所述留下概率,包括:依据所述第一概率和第二概率,确定所述留下概率。
可选地,所述迭代处理信息包括:语料迭代次数,所述检测所述语料迭代结果中的迭代处理信息是否符合所述迭代任务条件,包括:判断所述语料迭代次数是否达到预设的迭代次数阈值;若达到,则确定所述迭代处理信息符合所述迭代任务条件;否则,确定所述迭代处理信息不符合所述迭代任务条件。
可选地,所述迭代处理信息包括:过滤后的语料对应的语料数量,所述检测所述语料迭代结果中的迭代处理信息是否符合所述迭代任务条件,包括:判断所述语料数量是否超过预设的语料数量阈值;若所述语料数量超过所述语料数量阈值,则确定所述语料迭代结果不符合所述迭代任务条件;否则,确定所述语料迭代结果符合所述迭代任务条件;或者,
计算本次过滤后的语料数量与上一次过滤后的语料数量之间的差值;若所述差值超过预设的减少数量阈值,则确定所述语料迭代结果不符合所述迭代任务条件;否则,确定所述语料迭代结果符合所述迭代任务条件。
可选地,该语料抽取方法还包括:预先为各语料类别训练对应的种子语言模型;在迭代过滤处理之前,依据待过滤语料所属的语料类别,确定对应预先训练的目标种子语言模型。
可选地,所述为各语料类别训练对应的种子语言模型,包括:对预设的语料进行分类处理,确定属于各语料类别的语料;针对每一语料类别,采用属于所述语料类别的语料进行训练,生成所述语料类别对应的种子语言模型。
可选地,语料抽取方法还包括:在输入过程中,采用所述目标语料中的字词与输入信息进行匹配,以及将匹配到的目标语料作为输入候选项,其中,所述输入候选项用于推荐给用户;或者,在搜索过程中,采用所述目标语料中的字词与搜索信息进行匹配,以采用匹配到的目标语料进行搜索。
可选地,当所述迭代处理信息不符合所述迭代任务条件,还包括:在下一次过滤处理之前,采用过滤后的语料更新所述目标种子模型,以采用更新后的目标种子模型执行下一次过滤处理。
图5是本申请根据另一示例性实施例示出的一种用于语料抽取的电子设备500的结构示意图。该电子设备500可以是服务器,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器上执行存储介质530中的一系列指令操作。
服务器还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,一个或一个以上键盘556,和/或,一个或一个以上操作***541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在示例性实施例中,服务器经配置以由一个或者一个以***处理器522执行一个或者一个以上程序包含用于进行以下操作的指令:依据预先训练的目标种子语言模型对各待过滤语料进行迭代过滤处理,确定对应的语料迭代结果,其中,所述语料迭代结果包含过滤后的语料;当所述语料迭代结果符合预设的迭代任务条件时,将所述语料迭代结果中过滤后的语料作为抽取的目标语料。
可选地,所述依据预先训练的目标种子语言模型对各待过滤语料进行迭代过滤处理,确定对应的语料迭代结果,包括:通过目标种子语言模型对各待过滤语料进行过滤处理,确定对应的语料迭代结果,其中,所述语料迭代结果还包括迭代处理信息;检测所述语料迭代结果中的迭代处理信息是否符合所述迭代任务条件;若所述迭代处理信息不符合所述迭代任务条件,则将所述语料迭代结果中过滤后的语料作为下一次过滤处理中的待过滤语料。
可选地,对各待过滤语料进行过滤处理,确定对应的语料迭代结果,包括:通过目标种子语言模型确定各待过滤语料的困惑度;依据所述困惑度对各待过滤语料进行过滤,得到过滤后的语料,并记录对应的迭代处理信息;基于过滤后的语料和所述迭代处理信息,确定所述语料迭代结果。
可选地,所述依据所述困惑度对各待过滤语料进行过滤,得到过滤后的语料,包括:对各待过滤语料的困惑度进行规整化处理,确定各待过滤语料对应的留下概率;当待过滤语料对应的留下概率达到预设的概率阈值,确定为过滤后的语料。
可选地,所述对各待过滤语料的困惑度进行规整化处理,确定各待过滤语料对应的留下概率,包括:对各待过滤语料的困惑度进行统计,确定对应的困惑度平均值;分别采用每一个待过滤语料的困惑度和所述困惑度平均值进行规整化计算,确定每一待过滤语料对应的第一概率;依据所述第一概率确定所述留下概率。
可选地,服务器由一个或者一个以上处理器522执行所述一个或者一个以上程序包含还用于进行以下操作的指令:确定每一个待过滤语料的句子概率,依据所述句子概率确定第二概率。其中,所述依据所述第一概率确定所述留下概率,包括:依据所述第一概率和第二概率,确定所述留下概率。
可选地,所述迭代处理信息包括:语料迭代次数。所述检测所述语料迭代结果中的迭代处理信息是否符合所述迭代任务条件,包括:判断所述语料迭代次数是否达到预设的迭代次数阈值;若达到,则确定所述迭代处理信息符合所述迭代任务条件;否则,确定所述迭代处理信息不符合所述迭代任务条件。
可选地,所述迭代处理信息包括:过滤后的语料对应的语料数量。所述检测所述语料迭代结果中的迭代处理信息是否符合所述迭代任务条件,包括:
判断所述语料数量是否超过预设的语料数量阈值;若所述语料数量超过所述语料数量阈值,则确定所述语料迭代结果不符合所述迭代任务条件;否则,确定所述语料迭代结果符合所述迭代任务条件;或者,
计算本次过滤后的语料数量与上一次过滤后的语料数量之间的差值;若所述差值超过预设的减少数量阈值,则确定所述语料迭代结果不符合所述迭代任务条件;否则,确定所述语料迭代结果符合所述迭代任务条件。
可选地,服务器由一个或者一个以上处理器522执行所述一个或者一个以上程序包含还用于进行以下操作的指令:预先为各语料类别训练对应的种子语言模型;在迭代过滤处理之前,依据待过滤语料所属的语料类别,确定对应的目标种子语言模型。
可选地,当所述迭代处理信息不符合所述迭代任务条件,服务器由一个或者一个以上处理器522执行所述一个或者一个以上程序包含还用于进行以下操作的指令:在下一次过滤处理之前,采用过滤后的语料更新所述目标种子模型,以采用更新后的目标种子模型执行下一次过滤处理。
可选地,所述为各语料类别训练对应的种子语言模型,包括:对预设的语料进行分类处理,确定属于各语料类别的语料;针对每一语料类别,采用属于所述语料类别的语料进行训练,生成所述语料类别对应的种子语言模型。
可选地,所述记录对应的迭代处理信息,包括:对过滤后的语料进行统计,确定对应的语料数量;将所述语料数量作为所述迭代处理信息。
可选地,服务器由一个或者一个以上处理器522执行所述一个或者一个以上程序包含还用于进行以下操作的指令:在输入过程中,采用所述目标语料中的字词与输入信息进行匹配,以及将匹配到的目标语料作为输入候选项,其中,所述输入候选项用于推荐给用户;或者,在搜索过程中,采用所述目标语料中的字词与搜索信息进行匹配,以采用匹配到的目标语料进行搜索。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种语料抽取方法、一种语料抽取装置和一种电子设备,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (14)

1.一种语料抽取方法,其特征在于,包括:
依据预先训练的目标种子语言模型对各待过滤语料进行迭代过滤处理,确定对应的语料迭代结果,其中,所述语料迭代结果包含过滤后的语料;
当所述语料迭代结果符合预设的迭代任务条件时,将所述语料迭代结果中过滤后的语料作为抽取的目标语料。
2.根据权利要求1所述的方法,其特征在于,所述依据预先训练的目标种子语言模型对各待过滤语料进行迭代过滤处理,确定对应的语料迭代结果,包括:
通过目标种子语言模型对各待过滤语料进行过滤处理,确定对应的语料迭代结果,其中,所述语料迭代结果还包括迭代处理信息;
检测所述语料迭代结果中的迭代处理信息是否符合所述迭代任务条件;
若所述迭代处理信息不符合所述迭代任务条件,则将所述语料迭代结果中过滤后的语料作为下一次过滤处理中的待过滤语料。
3.根据权利要求2所述的方法,其特征在于,所述通过目标种子语言模型对各待过滤语料进行过滤处理,确定对应的语料迭代结果,包括:
通过目标种子语言模型确定各待过滤语料的困惑度;
依据所述困惑度对各待过滤语料进行过滤,得到过滤后的语料,并记录对应的迭代处理信息;
基于过滤后的语料和所述迭代处理信息,确定所述语料迭代结果。
4.根据权利要求3所述的方法,其特征在于,所述依据所述困惑度对各待过滤语料进行过滤,得到过滤后的语料,包括:
对各待过滤语料的困惑度进行规整化处理,确定各待过滤语料对应的留下概率;
当待过滤语料对应的留下概率达到预设的概率阈值,确定为过滤后的语料。
5.根据权利要求4所述的方法,其特征在于,所述对各待过滤语料的困惑度进行规整化处理,确定各待过滤语料对应的留下概率,包括:
对各待过滤语料的困惑度进行统计,确定对应的困惑度平均值;
分别采用每一个待过滤语料的困惑度和所述困惑度平均值进行规整化计算,确定每一待过滤语料对应的第一概率;
依据所述第一概率确定所述留下概率。
6.根据权利要求5所述的方法,其特征在于,还包括:
确定每一个待过滤语料的句子概率,依据所述句子概率确定第二概率;
所述依据所述第一概率确定所述留下概率,包括:依据所述第一概率和第二概率,确定所述留下概率。
7.根据权利要求2至6任一所述的方法,其特征在于,所述迭代处理信息包括:语料迭代次数,所述检测所述语料迭代结果中的迭代处理信息是否符合所述迭代任务条件,包括:
判断所述语料迭代次数是否达到预设的迭代次数阈值;
若达到,则确定所述迭代处理信息符合所述迭代任务条件;否则,确定所述迭代处理信息不符合所述迭代任务条件。
8.根据权利要求2至6任一所述的方法,其特征在于,所述迭代处理信息包括:过滤后的语料对应的语料数量,所述检测所述语料迭代结果中的迭代处理信息是否符合所述迭代任务条件,包括:
判断所述语料数量是否超过预设的语料数量阈值;若所述语料数量超过所述语料数量阈值,则确定所述语料迭代结果不符合所述迭代任务条件;否则,确定所述语料迭代结果符合所述迭代任务条件;或者,
计算本次过滤后的语料数量与上一次过滤后的语料数量之间的差值;若所述差值超过预设的减少数量阈值,则确定所述语料迭代结果不符合所述迭代任务条件;否则,确定所述语料迭代结果符合所述迭代任务条件。
9.根据权利要求1至6任一所述的方法,其特征在于,还包括:
预先为各语料类别训练对应的种子语言模型;
在迭代过滤处理之前,依据待过滤语料所属的语料类别,确定对应预先训练的目标种子语言模型。
10.根据权利要求9所述的方法,其特征在于,所述为各语料类别训练对应的种子语言模型,包括:
对预设的语料进行分类处理,确定属于各语料类别的语料;
针对每一语料类别,采用属于所述语料类别的语料进行训练,生成所述语料类别对应的种子语言模型。
11.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
在输入过程中,采用所述目标语料中的字词与输入信息进行匹配,以及将匹配到的目标语料作为输入候选项,其中,所述输入候选项用于推荐给用户;或者,
在搜索过程中,采用所述目标语料中的字词与搜索信息进行匹配,以采用匹配到的目标语料进行搜索。
12.根据权利要求2所述的方法,其特征在于,当所述迭代处理信息不符合所述迭代任务条件,还包括:
在下一次过滤处理之前,采用过滤后的语料更新所述目标种子模型,以采用更新后的目标种子模型执行下一次过滤处理。
13.一种语料抽取装置,其特征在于,包括:
迭代处理模块,用于依据预先训练的目标种子语言模型对各待过滤语料进行迭代过滤处理,确定对应的语料迭代结果,其中,所述语料迭代结果包含过滤后的语料;
语料抽取模块,用于当所述语料迭代结果符合预设的迭代任务条件时,将所述语料迭代结果中过滤后的语料作为抽取的目标语料。
14.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
依据预先训练的目标种子语言模型对各待过滤语料进行迭代过滤处理,确定对应的语料迭代结果,其中,所述语料迭代结果包含过滤后的语料;
当所述语料迭代结果符合预设的迭代任务条件时,将所述语料迭代结果中过滤后的语料作为抽取的目标语料。
CN201710104640.0A 2017-02-24 2017-02-24 一种语料抽取方法、装置和电子设备 Active CN108509406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710104640.0A CN108509406B (zh) 2017-02-24 2017-02-24 一种语料抽取方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710104640.0A CN108509406B (zh) 2017-02-24 2017-02-24 一种语料抽取方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN108509406A true CN108509406A (zh) 2018-09-07
CN108509406B CN108509406B (zh) 2023-04-18

Family

ID=63373600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710104640.0A Active CN108509406B (zh) 2017-02-24 2017-02-24 一种语料抽取方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN108509406B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858023A (zh) * 2019-01-04 2019-06-07 北京车慧科技有限公司 一种语句纠错装置
CN110362659A (zh) * 2019-07-16 2019-10-22 北京洛必德科技有限公司 机器人开放语料库的异常语句过滤方法和***
CN111369033A (zh) * 2020-01-02 2020-07-03 东软集团股份有限公司 运维指标的取值分布的预测方法和装置
CN112185351A (zh) * 2019-07-05 2021-01-05 北京猎户星空科技有限公司 语音信号处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514230A (zh) * 2012-06-29 2014-01-15 北京百度网讯科技有限公司 一种用于根据语料序列训练语言模型的方法与设备
CN104572614A (zh) * 2014-12-03 2015-04-29 北京捷通华声语音技术有限公司 一种语言模型的训练方法及***
CN104951469A (zh) * 2014-03-28 2015-09-30 株式会社东芝 优化语料库的方法和装置
US20160026634A1 (en) * 2014-07-28 2016-01-28 International Business Machines Corporation Corpus Quality Analysis
CN105608130A (zh) * 2015-12-16 2016-05-25 小米科技有限责任公司 获得情感词知识库的方法、装置及终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514230A (zh) * 2012-06-29 2014-01-15 北京百度网讯科技有限公司 一种用于根据语料序列训练语言模型的方法与设备
CN104951469A (zh) * 2014-03-28 2015-09-30 株式会社东芝 优化语料库的方法和装置
US20160026634A1 (en) * 2014-07-28 2016-01-28 International Business Machines Corporation Corpus Quality Analysis
CN104572614A (zh) * 2014-12-03 2015-04-29 北京捷通华声语音技术有限公司 一种语言模型的训练方法及***
CN105608130A (zh) * 2015-12-16 2016-05-25 小米科技有限责任公司 获得情感词知识库的方法、装置及终端

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858023A (zh) * 2019-01-04 2019-06-07 北京车慧科技有限公司 一种语句纠错装置
CN112185351A (zh) * 2019-07-05 2021-01-05 北京猎户星空科技有限公司 语音信号处理方法、装置、电子设备及存储介质
CN112185351B (zh) * 2019-07-05 2024-05-24 北京猎户星空科技有限公司 语音信号处理方法、装置、电子设备及存储介质
CN110362659A (zh) * 2019-07-16 2019-10-22 北京洛必德科技有限公司 机器人开放语料库的异常语句过滤方法和***
CN111369033A (zh) * 2020-01-02 2020-07-03 东软集团股份有限公司 运维指标的取值分布的预测方法和装置
CN111369033B (zh) * 2020-01-02 2024-03-26 东软集团股份有限公司 运维指标的取值分布的预测方法和装置

Also Published As

Publication number Publication date
CN108509406B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN108256555B (zh) 图像内容识别方法、装置及终端
CN104378441B (zh) 日程创建方法和装置
CN109522419B (zh) 会话信息补全方法及装置
CN109446961B (zh) 姿势检测方法、装置、设备及存储介质
CN106774970A (zh) 对输入法的候选项进行排序的方法和装置
CN104636453B (zh) 非法用户资料识别方法及装置
CN110147467A (zh) 一种文本描述的生成方法、装置、移动终端及存储介质
CN108509406A (zh) 一种语料抽取方法、装置和电子设备
CN107944447A (zh) 图像分类方法及装置
CN109002184A (zh) 一种输入法候选词的联想方法和装置
CN108121736A (zh) 一种主题词确定模型的建立方法、装置及电子设备
CN111210844B (zh) 语音情感识别模型的确定方法、装置、设备及存储介质
WO2020257988A1 (zh) 刷量用户识别方法及相关产品
CN108345581A (zh) 一种信息识别方法、装置和终端设备
CN107230137A (zh) 商品信息获取方法及装置
CN107305438A (zh) 候选项的排序方法和装置、用于候选项排序的装置
CN105975540A (zh) 信息显示方法及装置
CN110931028B (zh) 一种语音处理方法、装置和电子设备
CN107274903A (zh) 文本处理方法和装置、用于文本处理的装置
CN112508612A (zh) 训练广告创意生成模型、生成广告创意的方法及相关装置
CN110069624A (zh) 文本处理方法及装置
CN109388699A (zh) 输入方法、装置、设备及存储介质
CN110110204A (zh) 一种信息推荐方法、装置和用于信息推荐的装置
CN104850592B (zh) 生成模型文件的方法和装置
CN110019885A (zh) 一种表情数据推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant