CN111353025B - 平行语料处理方法、装置、存储介质及计算机设备 - Google Patents

平行语料处理方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN111353025B
CN111353025B CN201811481225.8A CN201811481225A CN111353025B CN 111353025 B CN111353025 B CN 111353025B CN 201811481225 A CN201811481225 A CN 201811481225A CN 111353025 B CN111353025 B CN 111353025B
Authority
CN
China
Prior art keywords
word
correct
error correction
parallel corpus
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811481225.8A
Other languages
English (en)
Other versions
CN111353025A (zh
Inventor
刘恒友
李辰
包祖贻
徐光伟
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811481225.8A priority Critical patent/CN111353025B/zh
Publication of CN111353025A publication Critical patent/CN111353025A/zh
Application granted granted Critical
Publication of CN111353025B publication Critical patent/CN111353025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种平行语料处理方法、装置、存储介质及计算机设备。其中,该方法包括:获取搜索数据集,对搜索数据词进行分词,并统计得到的各个分词的词频;根据统计的词频,确定平行语料中正确词的候选集合;确定正确词的候选集合中每个正确词的错误词候选集;根据每个正确词,以及每个正确词的错误词候选集生成平行语料。本发明解决了平行语料数据稀缺的技术问题。

Description

平行语料处理方法、装置、存储介质及计算机设备
技术领域
本发明涉及数据处理领域,具体而言,涉及一种平行语料处理方法、装置、存储介质及计算机设备。
背景技术
在搜索场景中,对用户输入的搜索词(query)进行纠错,使用纠错模型纠错后的query发起搜索,可以提高搜索对象的曝光率。
然而,纠错模型的训练及优化需要大量平行语料,但纠错平行语料往往很少甚至没有,且人工标注平行语料成本较高。
在相关技术中,使用通用搜索领域中的搜索会话(Session)数据来挖掘纠错平行语料。其原理是用户在query输入错误时,若搜索结果不符合预期,用户会对query进行纠正,提取出更正前后的query作为纠错平行语料。需要说明的是,上述方案并非在所有场景均能达到较好的效果,例如,对于电商搜索场景,采用上述方法并不能准确地抽取出纠错平行语料。例如,在电商搜索中用户输入的query大多数是商品名,而大多数的输入错误是由于用户不知道准确完整的商品名造成的,在这种情况下即便搜索结果不符合预期,用户也是无法对输入query进行更正,因此从电商搜索Session数据中是无法挖掘出准确的纠错平行语料的。在上述描述中是以纠错平行语料为例进行说明的,而在相关技术中其它类型的平行语料也存在上述类似问题。
因此,在相关技术中,仍然存在平行语料数据稀缺的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种平行语料处理方法、装置、存储介质及计算机设备,以至少解决平行语料数据稀缺的技术问题。
根据本发明实施例的一个方面,提供了一种平行语料处理方法,包括:获取搜索数据集,对所述搜索数据词进行分词,并统计得到的各个分词的词频;根据统计的词频,确定平行语料中正确词的候选集合;确定所述正确词的候选集合中每个正确词的错误词候选集;根据所述每个正确词,以及所述每个正确词的错误词候选集生成所述平行语料。
根据本发明实施例的另一方面,还提供了一种平行语料处理方法,包括:接收用户输入的搜索词;在所述搜索词为纠错平行语料中的错误词的情况下,获取与所述错误词对应的正确词,其中,所述纠错平行语料通过以下方式生成:对搜索数据集进行分词,从得到的分词中确定正确词,以及该正确词的错误词候选集,并依据所述正确词和所述错误词候选集生成所述纠错平行语料;依据所述正确词进行搜索,并向所述用户反馈搜索结果。
根据本发明实施例的另一方面,还提供了一种平行语料处理装置,包括:获取模块,用于获取搜索数据集,对所述搜索数据词进行分词,并统计得到的各个分词的词频;第一确定模块,用于根据统计的词频,确定平行语料中正确词的候选集合;第二确定模块,用于确定所述正确词的候选集合中每个正确词的错误词候选集;生成模块,用于根据所述每个正确词,以及所述每个正确词的错误词候选集生成所述平行语料。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的平行语料处理方法。
根据本发明实施例的另一方面,还提供了一种计算机设备,包括:存储器和处理器,所述存储器存储有计算机程序;所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时执行上述中任意一项所述的平行语料处理方法。
在本发明实施例中,采用获取搜索数据集,对搜索数据词进行分词,并统计得到的各个分词的词频;根据统计的词频,确定平行语料中正确词的候选集合;确定正确词的候选集合中每个正确词的错误词候选集;根据每个正确词,以及每个正确词的错误词候选集生成平行语料的方式,通过搜索数据集挖掘纠错平行语料,达到了增加纠错平行语料的目的,从而实现了提高搜索纠错准确率的技术效果,进而解决了平行语料数据稀缺的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种用于实现平行语料处理方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本发明实施例1的平行语料处理方法的流程图;
图3是根据本发明实施例1的另一种平行语料处理方法的流程图;
图4是根据本发明优选实施方式的平行语料处理方法的流程图;
图5是根据本发明实施例2的一种平行语料处理方法的流程图;
图6是根据本发明实施例3的一种平行语料处理装置的示意图;
图7是根据本发明实施例的一种计算机终端的结构框图;
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
纠错平行语料:纠错训练数据集,格式为<正确词,错误词>,如<齐菜,荠菜>。
搜索Session数据:用户为找到想要的搜索答案,有时会多次改变自己的搜索query,这些表达同一需求的不同query组成一组搜索Session数据。
Damerau-Levenshtein Distance:用来测量两个字符序列之间编辑距离的度量标准。是从一个词转换为另一个词的最少操作数,操作包括单个字符的***、删除、变更和两个相邻字符的转换。
对称删除拼写纠错算法:一种可以快速的从大量候选词中查找与当前要纠错词编辑距离相近的纠错结果候选词的纠错算法。
实施例1
根据本发明实施例,还提供了一种平行语料处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现平行语料处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。除此以外,还可以包括:传输模块、显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的平行语料处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的平行语料处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述传输模块用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输模块包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
针对相关技术中所存在的上述问题,在本实施例中,提供了一种平行语料处理方法。图2是根据本发明实施例1的平行语料处理方法的流程图。如图2所示,该方法包括以下步骤:
步骤S202,获取搜索数据集,对搜索数据词进行分词,并统计得到的各个分词的词频。
作为一种可选的实施例,上述获取搜索数据集的来源可以是客户端,例如,移动终端、PC终端等,也可以是服务器端,例如,搜索引擎服务器、备份服务器等。其中,客户端提供的搜索输入窗口,可以直接从该窗口直接获取。而服务器端,可以存储有相应的搜索数据集,也可以是搜索数据集的重要来源。此外,除上述搜索数据集来源外,还可以通过人工采集、软件等多种方式获取搜索数据集。
作为一种可选的实施例,上述分词可以是将连续的字序列按照一定的规则进行切分与重组,其中,可以采用以下之一的方法进行分词处理,包括:基于字符串匹配的分词,基于理解的分词,以及基于统计的分词。其中,基于字符串匹配的分词可以包括:正向匹配、逆向匹配等;基于理解的分词包括:利用计算机模拟人词语的理解,在分词的同时进行句法和语法的分析,消除分词歧义;基于统计的分词包括:最大概率分词、最大熵分词等。
作为一种可选的实施例,在对搜索数据词进行分词之前,可以对搜索词进行预处理,将影响分词的不利因素提前过滤掉,上述预处理包括去除标点符号和数字,还可以包括去停用词,其中,去停用词可以直接使用预先统计与总结得到的停用词表。
作为一种可选的实施例,上述词频可以是根据分词结果统计得到的,具体地,可以根据词语在某一段时间内出现的次数进行统计,再根据不同的实际需求进行词性的划分,分为相应的等级,例如,可以将词频>=100次/天定义为高频词等。
作为一种可选的实施例,上述分词过程可以采用一种或者多种分词方法结合的形式,保证分词的效率和消除歧义,例如,统计词频的分词一般采用分词字典进行字符串匹配,这样将词频的统计与字符串匹配结合起来,不仅可以提高分词的速度与效率,还可以利用无词典分词结合上下文识别生词,消除歧义的优点。
步骤S204,根据统计的词频,确定平行语料中正确词的候选集合。
作为一种可选的实施例,词频为词出现的频率,在本实施例中,词频是在对搜索数据集进行分词处理后,某一分词(或者词语)出现的次数。
作为一种可选的实施例,上述纠错平行语料可以用于构成纠错训练数据集,包括正确词和错误词,其中,纠错训练数据集的格式可以为<正确词,错误词>,例如,<齐菜,荠菜>。
作为一种可选的实施例,根据上述分词后统计的词频,将相应的高频词组成正确词的候选集合。
步骤S206,确定正确词的候选集合中每个正确词的错误词候选集。
作为一种可选的实施例,正确词存在与其对应的错误词候选集,即每个正确词存在与其对应的是错误词候选集,其中,该错误词候选集可能包括多个错误词,需要说明的是,在错误词候选集中的词语与其对应的正确词的候选集合中的正确词存在一定的相似度,但两者的差异也是明显的,即从词义来讲,错误词并不能真正反映真实的信息。
作为一种可选的实施例,确定正确词的候选集合中每个正确词的错误词候选集时,可以采用以下方式来实现,例如,对于正确词的候选集合中的每个正确词,选取与正确词相似的低频词形成该正确词的错误词候选集。
作为一种可选的实施例,在生成正确词的候选集合后,从搜索数据集进行分词后的词语中,选择与该正确词相似度较大的一个或者多个词语作为该正确词的错误词候选集。
步骤S208,根据每个正确词,以及每个正确词的错误词候选集生成平行语料。
作为一种可选的实施例,上述所指的平行语料可以是与满足多种要求对应的多种类型的平行语料。例如,可以是要求两者表述意思相似度最大的相似平行语料,用于确定相似词,也可以是用于对错误词进行纠正的纠错平行语料,当然还可以是其它要求或者含义的平行语料。需要说明的是,在本申请中主要以纠错平行语料进行举例说明。
作为一种可选的实施例,由于每个纠错平行语料的格式采用<正确词,错误词>,在纠错平行语料中,每个正确词可能存在对应的一个或者多个错误词。
作为一种可选的实施例,上述生成纠错平行语料中,每个正确词对应的多个错误词,其中,多个错误词构成错误词候选集,进一步从错误词候选集中选取最接近正确词的词,将每个正确词及其对应的错误词生成纠错平行语料。
作为一种可选的实施例,根据每个正确词,以及每个正确词的错误词候选集生成平行语料可以采用以下方式实现:为使得生成的纠错平行语料较为准确,除了直接依据每个正确词,以及每个正确词的错误词候选集来生成纠错平行语料,还可以将每个正确词,以及每个正确词的错误词候选集结合其它信息来生成纠错平行语料,例如,对于每个正确词及对应错误词候选集,根据词频、上下文信息、相似度等生成纠错平行语料。
在本发明实施例中,采用获取搜索数据集,对搜索数据词进行分词,并统计得到的各个分词的词频;根据统计的词频,确定平行语料中正确词的候选集合;确定正确词的候选集合中每个正确词的错误词候选集;根据每个正确词,以及每个正确词的错误词候选集生成平行语料的方式,通过搜索数据集挖掘纠错平行语料,达到了增加纠错平行语料的目的,从而实现了提高搜索纠错准确率的技术效果,进而解决了平行语料数据稀缺的技术问题。
作为一种可选的实施例,根据统计的词频,确定词频超过预定词频阈值的高频词;根据高频词生成平行语料中正确词的候选集合。
需要说明的是,在获取到统计的词频后,需要将上述词频与预定词频阈值进行比较,其中,预定词频阈值可以根据实际情况设定,例如,将词频不小于100的定义为高频词,如果对于纠错平行语料中正确词的候选集合要求较高,可以将预定词频阈值设置高一些,这样可以使得纠错平行语料中正确词的候选集合的范围缩小,一定程度上提高了纠错平行语料的精度。但是,也需要将预定词频阈值设置在合理的范围内,预定词频阈值过高或者过低对纠错平行语料的应用产生极大的影响。
作为一种可选的实施例,针对正确词的候选集合中每个正确词,选取与该正确词相似度最大的预定数量的错误词;根据错误词生成该正确词的错误词候选集。
上述正确词的候选集合包括一个或者多个正确词,其中,上述一个或者多个正确词可以均是在搜索数据集中出现频率最高的。在实际生活中,每个人的认知存在一定的差异,例如,对于同一词语可能存在多个偏差的认识,即相对于正确词来讲,会出现一个或者多个与其相似的错误词。其中,上述相似可以是包括拼音、五笔编码或者常见的形近字等。上述相似度最直观的反映可以是使用频率,如一个错误词使用的频率越接近正确词使用的频率,则表明该错误词与正确词相似度越高。一般情况下,相对于正确词而言,错误词的数量比较多,可以选择与正确词相似度最大的预定数量的错误词,生成该正确词的错误词候选集。
作为一种可选的实施例,根据以下方式至少之一,确定该正确词与其它词之间的相似度:根据该正确词与其它词之间的拼音的编辑距离确定相似度;根据该正确词与其它词之间的五笔编码的编辑距离确定相似度;根据预定形近字对照表确定该正确词与其它词之间的相似度。
上述相似度是正确词与其它词之间的相关性,即相关性越大,相似度越高;相关性越小,相似度越低。而正确词与其它词的相似度包括以下情形之一:拼音,五笔编码以及形近字。例如,正确词与其它词是同音不同字,或者可能拼音字母存在差异但容易混淆,在进行拼音编辑时存在相似度。在进行五笔编码时,正确词与其它词之间在笔画上混淆,也会存在相似度。此外,正确词与其它词之间在视觉上差异较小,属于形近字,也存在相似度。
作为一种可选的实施例,采用对称删除拼写纠错算法确定该正确词与其它词之间的相似度。
上述对称删除拼写纠错算法能够加速选取编辑距离相近的纠错结果候选词。例如,对称删除拼写纠错算法是为了加速计算正确词与其他词之间的相似度,使时间复杂度由O(n2)降到常数级别。
作为一种可选的实施例,在平行语料包括纠错平行语料的情况下,根据每个正确词,以及每个正确词的错误词候选集生成平行语料可以包括:针对每个正确词,根据该正确词,以及该正确词的错误词候选集中的多个错误词生成多个候选纠错平行语料;从多个候选纠错平行语料中筛选出纠错平行语料。
上述每个正确词对应多个错误词,根据该对应关系生成多个候选纠错平行语料,根据不同的筛选条件,从多个候选纠错平行语料中筛选出纠错平行语料,该方法可以得到最佳的纠错平行语料,能够提高后续搜索纠错的准确率。
图3是根据本发明实施例1的另一种平行语料处理方法的流程图,如图3所示,作为一种可选的实施例,通过以下方式至少之一,从多个候选纠错平行语料中筛选出纠错平行语料:
步骤S302,依据该正确词的词频,以及与该正确词构成候选纠错平行语料的错误词的词频确定预定筛选条件;根据预定筛选条件从多个候选纠错平行语料中筛选出纠错平行语料;
作为一种可选的实施例,上述预定筛选条件可以是由具体筛选规则决定的,例如,筛选规则可以为:正确词频率>=10*错误候选词频率。可以制定相应的筛选规则,进一步从多个候选纠错平行语料中筛选出纠错平行语料。
步骤S304,针对每个候选纠错平行语料,分别获取该候选纠错平行语料中的正确词和错误词的上下文环境;根据上下文环境判定该候选纠错平行语料是否为噪声语料;通过从多个候选纠错平行语料中删除噪声语料的方式,获取纠错平行语料;
作为一种可选的实施例,上述上下文环境是由正确词或者错误词的前后各一词组成的,通过上下文环境,可以判定该候选纠错平行语料中正确词或者错误词是否为噪声语料,若存在噪声语料,则将该噪声语料删除,得到最终的纠错平行语料。具体地,统计正确词及对应错误候选词在每个上下文环境下的词频信息,若Freq(正确词)<k*Freq(错误词的候选)则认为是噪声,应该从平行语料中去除,其中k是整数,如k=10。
步骤S306,针对每个候选纠错平行语料,采用D-L编辑算法确定该候选纠错平行语料中的正确词转换为错误词的最少操作数,根据最少操作数判定该候选纠错平行语料是否为噪声语料;通过从多个候选纠错平行语料中删除噪声语料的方式,获取纠错平行语料。
作为一种可选的实施例,上述D-L编辑算法,也即Damerau-Levenshtein Distance编辑算法,用来测量两个字符序列之间编辑距离的度量标准。该算法是从一个词转换为另一个词的最少操作数,操作包括单个字符的***、删除、变更和两个相邻字符的转换。
作为一种可选的实施例,通过上述D-L编辑算法可以将候选纠错平行语料中的正确词转换为错误词的最少操作数,进一步依据最少操作数确定候选纠错平行语料是否为噪声语料,并将该噪声语料删除,得到纠错平行语料。
作为一种可选的实施例,分别统计该候选纠错平行语料中的正确词在上下文环境中的词频,以及错误词在上下文环境中的词频;在正确词在上下文环境中的词频小于错误词在上下文环境中的词频的预定倍数的情况下,确定该候选纠错平行语料为噪声语料。
需要说明的是,在获取正确词和错误词在上下文环境中的词频后,通过判断正确词在上下文环境中的词频是否小于错误词在上下文环境中的词频的预定倍数,若正确词的词频<k倍错误词的词频,其中,k为整数,则认为是噪声候选纠错平行语料为噪声语料。反之,则该噪声候选纠错平行语料不是噪声语料。
作为一种可选的实施例,确定用于判定候选纠错平行语料为噪声语料的操作数阈值;在最少操作数大于操作数阈值的情况下,确定该候选纠错平行语料为噪声语料。
上述最少操作数是由D-L编辑算法得到,而该算法执行得到最少操作数的过程如下,例如,将kitten转化为sitting,第一步:kitten变换成sitten(s替代k),第二步:变换成sittin(i替代e),第三步:变换成sitting(结尾***g),此次转换最少操作数为3次。将最少操作数与操作数阈值进行比较,进一步确定该候选纠错平行语料是否为噪声语料。若最少操作数大于操作数阈值,则候选纠错平行语料是噪声语料;若最少操作数小于操作数阈值,则候选纠错平行语料不是噪声语料。
结合上述实施例及优选实施例,以下提供一个完整的优选实施方式,图4是根据本发明优选实施方式的平行语料处理方法的流程图,如图4所示,该优选实施方式包括如下:
(1)拉取电商搜索query数据集,对query数据集进行分词、统计词频Freq(词)。
(2)生成正确词候选集:选取高频词(如:词频>=100次/天)组成正确词候选集合。
(3)为每个正确词生成错误词候选集。针对(2)中生成的每个正确词,从(1)中分词得到的词集合中,选取与该正确词相似度最大的n个(如n=10)组成该正确词的错误词候选集。
相似度计算可以采用下面一种或多种方法的组合:a.根据两个词之间拼音的编辑距离计算相似度。b.根据两个词之间五笔编码的编辑距离计算相似度。c.根据互联网上下载的常见形近字对照表来生成错误词候选集合。
由于每个正确词都要与1)中分词得到的所有词进行相似度计算,时间复杂度会比较大,在本优选实施方式中使用对称删除拼写纠错算法来加速相似度计算。
(4)平行语料粗筛。筛选(3)得到的纠错平行语料<正确词,错误候选词>,筛选规则:Freq(正确词)>=10*Freq(错误候选词)。
(5)根据上下文信息过滤噪声。具体方法可以是:a.上下文信息挖掘。对于每个平行语料<正确词,错误候选词>,分别挖掘两个词所在的上下文环境,如:使用前后各一个词组成当前词的上下文环境。b.过滤噪声。统计正确词及对应错误候选词在每个上下文环境下的词频信息,若Freq(正确词)<k*Freq(错误词的候选)则认为是噪声,应该从平行语料中去除。其中k是整数,如k=10。
(6)平行语料后处理:对于(5)步骤中生成的平行语料,使用汉字级别的Damerau-Levenshtein Distance过滤距离远的语料;最后过滤掉平行语料中<正确字,错误候选字>的数据。
通过上述优选实施方式,相对于在相关技术中通过Session搜索数据来挖掘纠错平行语料而言,该优选实施方式不仅适应了新场景(例如,新零售电商搜索场景),而且依据新的方式进行平行语料的挖掘,不仅能够提高纠错的准确度,而且能够实现纠错平行语料数据的自动挖掘,扩展纠错训练数据,提高纠错效果。
例如,新零售电商搜索场景不同于通用搜索场景,用户输入的query多数是很短的商品名称,大多数的错误输入是因为用户不知道准确完整的商品名称,故用户很难去更正自己的输入,所以Session搜索数据中很少出现<正确query,错误候选query>的平行语料,故从Session日志中挖掘平行语料的方法,无法在电商搜索新场景挖掘出平行语料。在本优选实施方式中,不从搜索Session中去挖掘,而是根据词之间的语音、字型相似度生成<正确query,错误候选query>的平行语料候选,然后根据搜索频次、上下文信息、query长度、正确query与错误query的Damerau-LevenshteinDistance等方法过滤平行语料噪声数据,最终获取了高质量的纠错平行语料。
本实施方式所采用的依据搜索数据挖掘纠错平行语料,可以应用在电商搜索纠错这一新场景中。在该优选实施方式中,通过采用以下处理:根据正确词搜索次数远大于错误词搜索次数这一特征来提取纠错平行语料;通过“对称删除拼写纠错算法”加速选取编辑距离相近的纠错结果候选词;根据上下文信息对平行语料进行噪声过滤;根据Damerau-Levenshtein Distance对平行语料进行噪声过滤;根据字型相似度、拼音相似度等生成错误候选,有效地提高了挖掘出的纠错平行语料的质量。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例2
根据本发明实施例的另一方面,还提供了一种平行语料处理方法,图5是根据本发明实施例2的一种平行语料处理方法的流程图,如图5所示,该方法包括:
步骤S502,接收用户输入的搜索词;
步骤S504,在搜索词为纠错平行语料中的错误词的情况下,获取与错误词对应的正确词,其中,纠错平行语料通过以下方式生成:对搜索数据集进行分词,从得到的分词中确定正确词,以及该正确词的错误词候选集,并依据正确词和错误词候选集生成纠错平行语料;
步骤S506,依据正确词进行搜索,并向用户反馈搜索结果。
在本发明实施例中,采用通过搜索数据集生成的纠错平行语料来进行搜索词纠错的方式,在用户输入纠错平行语料中的错误词的情况下,依据该错误词的正确词进行相关搜索后,并将正确搜索结果反馈给用户,通过搜索数据集挖掘纠错平行语料,达到了增加纠错平行语料的目的,从而实现了提高搜索纠错准确率的技术效果,进而解决了平行语料数据稀缺的技术问题。
作为一种可选的实施例,在接收用户输入的搜索词之前,还包括:获取预定时间段内多个用户输入的搜索词,生成搜索词日志;根据搜索词日志生成搜索数据集。
需要说明的是,此处的搜索数据集,可以是根据对预定时间内的多个用户输入的搜索词进行记录,依据生成的搜索日志来获得的。另外,此处所指的预定时间可以依据具体搜索对象而灵活确定,例如,当搜索对象的命名较为唯一时,该预定时间段可以选择得短一些,因为即使在较长的时间段内,搜索词的变化也不会大;而当搜索对象的命名较为广泛时,该预定时间段可以选择得长一些,因此,如果时间越长,可能统计到准确的概率会越大。再者,对于上述多个用户,可以选择是某一个地理范围内的用户,因为不同地理范围内的用户可能对搜索对象的命名或者说法是不同的;又或者可以是某一种职业的用户,因为对于某一搜索对象而言,可能应用的范围涉及某一职业范围,而且针对某一种职业的用户可以在一定程度上体现对搜索对象命名的规范。
实施例3
根据本发明实施例,还提供了一种纠错平行语料处理装置,图6是根据本发明实施例3的一种纠错平行语料处理装置的示意图,如图6所示,该装置包括:获取模块602,第一确定模块604,第二确定模块606和生成模块608,下面对该装置进行详细说明。
获取模块602,用于获取搜索数据集,对搜索数据词进行分词,并统计得到的各个分词的词频;第一确定模块604,与上述获取模块602相连接,用于根据统计的词频,确定平行语料中正确词的候选集合;第二确定模块606,与上述第一确定模块604相连接,用于确定正确词的候选集合中每个正确词的错误词候选集;生成模块608,与上述第二确定模块606相连接,用于根据每个正确词,以及每个正确词的错误词候选集生成平行语料。
在本发明实施例中,采用上述纠错平行语料处理装置,通过搜索数据集挖掘纠错平行语料,达到了增加纠错平行语料的目的,从而实现了提高搜索纠错准确率的技术效果,进而解决了平行语料数据稀缺的技术问题。
此处需要说明的是,上述获取模块602,第一确定模块604,第二确定模块606和生成模块608对应于实施例1中的步骤S202至步骤S208,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
实施例4
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的平行语料处理方法中以下步骤的程序代码:获取搜索数据集,对搜索数据词进行分词,并统计得到的各个分词的词频;根据统计的词频,确定平行语料中正确词的候选集合;确定正确词的候选集合中每个正确词的错误词候选集;根据每个正确词,以及每个正确词的错误词候选集生成平行语料。
可选地,图7是根据本发明实施例的一种计算机终端的结构框图。如图7所示,该计算机终端10可以包括:一个或多个(图中仅示出一个)处理器702、存储器704以及外设接口。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的平行语料处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的平行语料处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取搜索数据集,对搜索数据词进行分词,并统计得到的各个分词的词频;根据统计的词频,确定平行语料中正确词的候选集合;确定正确词的候选集合中每个正确词的错误词候选集;根据每个正确词,以及每个正确词的错误词候选集生成平行语料。
可选的,上述处理器还可以执行如下步骤的程序代码:根据统计的词频,确定词频超过预定词频阈值的高频词;根据高频词生成平行语料中正确词的候选集合。
可选的,上述处理器还可以执行如下步骤的程序代码:针对正确词的候选集合中每个正确词,选取与该正确词相似度最大的预定数量的错误词;根据错误词生成该正确词的错误词候选集。
可选的,上述处理器还可以执行如下步骤的程序代码:根据以下方式至少之一,确定该正确词与其它词之间的相似度:根据该正确词与其它词之间的拼音的编辑距离确定相似度;根据该正确词与其它词之间的五笔编码的编辑距离确定相似度;根据预定形近字对照表确定该正确词与其它词之间的相似度。
可选的,上述处理器还可以执行如下步骤的程序代码:采用对称删除拼写纠错算法确定该正确词与其它词之间的相似度。
可选的,上述处理器还可以执行如下步骤的程序代码:在平行语料包括纠错平行语料的情况下,根据每个正确词,以及每个正确词的错误词候选集生成平行语料包括:针对每个正确词,根据该正确词,以及该正确词的错误词候选集中的多个错误词生成多个候选纠错平行语料;从多个候选纠错平行语料中筛选出纠错平行语料。
可选的,上述处理器还可以执行如下步骤的程序代码:依据该正确词的词频,以及与该正确词构成候选纠错平行语料的错误词的词频确定预定筛选条件;根据预定筛选条件从多个候选纠错平行语料中筛选出纠错平行语料;针对每个候选纠错平行语料,分别获取该候选纠错平行语料中的正确词和错误词的上下文环境;根据上下文环境判定该候选纠错平行语料是否为噪声语料;通过从多个候选纠错平行语料中删除噪声语料的方式,获取纠错平行语料;针对每个候选纠错平行语料,采用D-L编辑算法确定该候选纠错平行语料中的正确词转换为错误词的最少操作数,根据最少操作数判定该候选纠错平行语料是否为噪声语料;通过从多个候选纠错平行语料中删除噪声语料的方式,获取纠错平行语料。
可选的,上述处理器还可以执行如下步骤的程序代码:分别统计该候选纠错平行语料中的正确词在上下文环境中的词频,以及错误词在上下文环境中的词频;在正确词在上下文环境中的词频小于错误词在上下文环境中的词频的预定倍数的情况下,确定该候选纠错平行语料为噪声语料。
可选的,上述处理器还可以执行如下步骤的程序代码:确定用于判定候选纠错平行语料为噪声语料的操作数阈值;在最少操作数大于操作数阈值的情况下,确定该候选纠错平行语料为噪声语料。
上述处理器还可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤的程序代码:接收用户输入的搜索词;在搜索词为纠错平行语料中的错误词的情况下,获取与错误词对应的正确词,其中,纠错平行语料通过以下方式生成:对搜索数据集进行分词,从得到的分词中确定正确词,以及该正确词的错误词候选集,并依据正确词和错误词候选集生成纠错平行语料;依据正确词进行搜索,并向用户反馈搜索结果。
可选的,上述处理器还可以执行如下步骤的程序代码:获取预定时间段内多个用户输入的搜索词,生成搜索词日志;根据搜索词日志生成搜索数据集。
在本发明实施例中,采用获取搜索数据集,对搜索数据词进行分词,并统计得到的各个分词的词频;根据统计的词频,确定平行语料中正确词的候选集合;确定正确词的候选集合中每个正确词的错误词候选集;根据每个正确词,以及每个正确词的错误词候选集生成平行语料的方式,通过搜索数据集挖掘纠错平行语料,达到了增加纠错平行语料的目的,从而实现了提高搜索纠错准确率的技术效果,进而解决了平行语料数据稀缺的技术问题。
本领域普通技术人员可以理解,图7所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图7所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例5
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的平行语料处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取搜索数据集,对搜索数据词进行分词,并统计得到的各个分词的词频;根据统计的词频,确定平行语料中正确词的候选集合;确定正确词的候选集合中每个正确词的错误词候选集;根据每个正确词,以及每个正确词的错误词候选集生成平行语料。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:根据统计的词频,确定词频超过预定词频阈值的高频词;根据高频词生成平行语料中正确词的候选集合。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:针对正确词的候选集合中每个正确词,选取与该正确词相似度最大的预定数量的错误词;根据错误词生成该正确词的错误词候选集。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:根据以下方式至少之一,确定该正确词与其它词之间的相似度:根据该正确词与其它词之间的拼音的编辑距离确定相似度;根据该正确词与其它词之间的五笔编码的编辑距离确定相似度;根据预定形近字对照表确定该正确词与其它词之间的相似度。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:采用对称删除拼写纠错算法确定该正确词与其它词之间的相似度。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在平行语料包括纠错平行语料的情况下,根据每个正确词,以及每个正确词的错误词候选集生成平行语料包括:针对每个正确词,根据该正确词,以及该正确词的错误词候选集中的多个错误词生成多个候选纠错平行语料;从多个候选纠错平行语料中筛选出纠错平行语料。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:依据该正确词的词频,以及与该正确词构成候选纠错平行语料的错误词的词频确定预定筛选条件;根据预定筛选条件从多个候选纠错平行语料中筛选出纠错平行语料;针对每个候选纠错平行语料,分别获取该候选纠错平行语料中的正确词和错误词的上下文环境;根据上下文环境判定该候选纠错平行语料是否为噪声语料;通过从多个候选纠错平行语料中删除噪声语料的方式,获取纠错平行语料;针对每个候选纠错平行语料,采用D-L编辑算法确定该候选纠错平行语料中的正确词转换为错误词的最少操作数,根据最少操作数判定该候选纠错平行语料是否为噪声语料;通过从多个候选纠错平行语料中删除噪声语料的方式,获取纠错平行语料。。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:分别统计该候选纠错平行语料中的正确词在上下文环境中的词频,以及错误词在上下文环境中的词频;在正确词在上下文环境中的词频小于错误词在上下文环境中的词频的预定倍数的情况下,确定该候选纠错平行语料为噪声语料。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:确定用于判定候选纠错平行语料为噪声语料的操作数阈值;在最少操作数大于操作数阈值的情况下,确定该候选纠错平行语料为噪声语料。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:接收用户输入的搜索词;在搜索词为纠错平行语料中的错误词的情况下,获取与错误词对应的正确词,其中,纠错平行语料通过以下方式生成:对搜索数据集进行分词,从得到的分词中确定正确词,以及该正确词的错误词候选集,并依据正确词和错误词候选集生成纠错平行语料;依据正确词进行搜索,并向用户反馈搜索结果。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取预定时间段内多个用户输入的搜索词,生成搜索词日志;根据搜索词日志生成搜索数据集。
实施例6
根据本发明实施例的另一方面,还提供了一种计算机设备,包括:存储器和处理器,存储器存储有计算机程序;处理器,用于执行存储器中存储的计算机程序,计算机程序运行时执行以下步骤:获取搜索数据集,对搜索数据词进行分词,并统计得到的各个分词的词频;根据统计的词频,确定平行语料中正确词的候选集合;确定正确词的候选集合中每个正确词的错误词候选集;根据每个正确词,以及每个正确词的错误词候选集生成平行语料。
可选的,在本实施例中,上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤:根据统计的词频,确定词频超过预定词频阈值的高频词;根据高频词生成平行语料中正确词的候选集合。
可选的,在本实施例中,上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤:针对正确词的候选集合中每个正确词,选取与该正确词相似度最大的预定数量的错误词;根据错误词生成该正确词的错误词候选集。
可选的,在本实施例中,上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤:根据以下方式至少之一,确定该正确词与其它词之间的相似度:根据该正确词与其它词之间的拼音的编辑距离确定相似度;根据该正确词与其它词之间的五笔编码的编辑距离确定相似度;根据预定形近字对照表确定该正确词与其它词之间的相似度。
可选的,在本实施例中,上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤:采用对称删除拼写纠错算法确定该正确词与其它词之间的相似度。
可选的,在本实施例中,上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤:在平行语料包括纠错平行语料的情况下,根据每个正确词,以及每个正确词的错误词候选集生成平行语料包括:针对每个正确词,根据该正确词,以及该正确词的错误词候选集中的多个错误词生成多个候选纠错平行语料;从多个候选纠错平行语料中筛选出纠错平行语料。
可选的,在本实施例中,上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤:依据该正确词的词频,以及与该正确词构成候选纠错平行语料的错误词的词频确定预定筛选条件;根据预定筛选条件从多个候选纠错平行语料中筛选出纠错平行语料;针对每个候选纠错平行语料,分别获取该候选纠错平行语料中的正确词和错误词的上下文环境;根据上下文环境判定该候选纠错平行语料是否为噪声语料;通过从多个候选纠错平行语料中删除噪声语料的方式,获取纠错平行语料;针对每个候选纠错平行语料,采用D-L编辑算法确定该候选纠错平行语料中的正确词转换为错误词的最少操作数,根据最少操作数判定该候选纠错平行语料是否为噪声语料;通过从多个候选纠错平行语料中删除噪声语料的方式,获取纠错平行语料。。
可选的,在本实施例中,上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤:分别统计该候选纠错平行语料中的正确词在上下文环境中的词频,以及错误词在上下文环境中的词频;在正确词在上下文环境中的词频小于错误词在上下文环境中的词频的预定倍数的情况下,确定该候选纠错平行语料为噪声语料。
可选的,在本实施例中,上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤:确定用于判定候选纠错平行语料为噪声语料的操作数阈值;在最少操作数大于操作数阈值的情况下,确定该候选纠错平行语料为噪声语料。
可选的,在本实施例中,上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤:接收用户输入的搜索词;在搜索词为纠错平行语料中的错误词的情况下,获取与错误词对应的正确词,其中,纠错平行语料通过以下方式生成:对搜索数据集进行分词,从得到的分词中确定正确词,以及该正确词的错误词候选集,并依据正确词和错误词候选集生成纠错平行语料;依据正确词进行搜索,并向用户反馈搜索结果。
可选的,在本实施例中,上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤:获取预定时间段内多个用户输入的搜索词,生成搜索词日志;根据搜索词日志生成搜索数据集。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种平行语料处理方法,其特征在于,包括:
获取搜索数据集,对搜索数据词进行分词,并统计得到的各个分词的词频;
根据统计的词频,确定平行语料中正确词的候选集合;
确定所述正确词的候选集合中每个正确词的错误词候选集;
根据所述每个正确词,以及所述每个正确词的错误词候选集生成所述平行语料;通过以下方式,从多个候选纠错平行语料中筛选出纠错平行语料:
针对每个候选纠错平行语料,分别获取该候选纠错平行语料中的正确词和错误词的上下文环境;根据所述上下文环境判定该候选纠错平行语料是否为噪声语料;通过从所述多个候选纠错平行语料中删除所述噪声语料的方式,获取所述纠错平行语料,其中,所述根据所述上下文环境判定该候选纠错平行语料是否为噪声语料包括:分别统计该候选纠错平行语料中的正确词在所述上下文环境中的词频,以及错误词在所述上下文环境中的词频;在所述正确词在所述上下文环境中的词频小于所述错误词在所述上下文环境中的词频的预定倍数的情况下,确定该候选纠错平行语料为噪声语料。
2.根据权利要求1所述的方法,其特征在于,根据统计的词频,确定平行语料中正确词的候选集合包括:
根据统计的词频,确定词频超过预定词频阈值的高频词;
根据所述高频词生成所述平行语料中正确词的候选集合。
3.根据权利要求1所述的方法,其特征在于,确定所述正确词的候选集合中每个正确词的错误词候选集包括:
针对所述正确词的候选集合中每个正确词,选取与该正确词相似度最大的预定数量的错误词;
根据所述错误词生成该正确词的错误词候选集。
4.根据权利要求3所述的方法,其特征在于,在选取与该正确词相似度最大的预定数量的错误词之前,还包括:
根据以下方式至少之一,确定该正确词与其它词之间的相似度:根据该正确词与其它词之间的拼音的编辑距离确定相似度;根据该正确词与其它词之间的五笔编码的编辑距离确定相似度;根据预定形近字对照表确定该正确词与其它词之间的相似度。
5.根据权利要求4所述的方法,其特征在于,采用对称删除拼写纠错算法确定该正确词与其它词之间的相似度。
6.一种平行语料处理方法,其特征在于,包括:
接收用户输入的搜索词;
在所述搜索词为纠错平行语料中的错误词的情况下,获取与所述错误词对应的正确词,其中,所述纠错平行语料通过以下方式生成:对搜索数据集进行分词,从得到的分词中确定正确词,以及该正确词的错误词候选集,并依据所述正确词和所述错误词候选集生成所述纠错平行语料;其中,依据所述正确词和所述错误词候选集生成所述纠错平行语料,包括:针对每个正确词,根据该正确词,以及该正确词的错误词候选集中的多个错误词生成多个候选纠错平行语料;从所述多个候选纠错平行语料中筛选出纠错平行语料;通过以下方式,从所述多个候选纠错平行语料中筛选出纠错平行语料:针对每个候选纠错平行语料,分别获取该候选纠错平行语料中的正确词和错误词的上下文环境;根据所述上下文环境判定该候选纠错平行语料是否为噪声语料,其中,所述根据所述上下文环境判定该候选纠错平行语料是否为噪声语料包括:分别统计该候选纠错平行语料中的正确词在所述上下文环境中的词频,以及错误词在所述上下文环境中的词频;在所述正确词在所述上下文环境中的词频小于所述错误词在所述上下文环境中的词频的预定倍数的情况下,确定该候选纠错平行语料为噪声语料;通过从所述多个候选纠错平行语料中删除所述噪声语料的方式,获取所述纠错平行语料;
依据所述正确词进行搜索,并向所述用户反馈搜索结果。
7.根据权利要求6所述的方法,其特征在于,在接收所述用户输入的搜索词之前,还包括:
获取预定时间段内多个用户输入的搜索词,生成搜索词日志;
根据所述搜索词日志生成所述搜索数据集。
8.一种平行语料处理装置,其特征在于,包括:
获取模块,用于获取搜索数据集,对搜索数据词进行分词,并统计得到的各个分词的词频;
第一确定模块,用于根据统计的词频,确定平行语料中正确词的候选集合;
第二确定模块,用于确定所述正确词的候选集合中每个正确词的错误词候选集;
生成模块,用于根据所述每个正确词,以及所述每个正确词的错误词候选集生成所述平行语料;
所述生成模块,还用于在所述平行语料包括纠错平行语料的情况下,根据所述每个正确词,以及所述每个正确词的错误词候选集生成所述平行语料包括:针对每个正确词,根据该正确词,以及该正确词的错误词候选集中的多个错误词生成多个候选纠错平行语料;从所述多个候选纠错平行语料中筛选出纠错平行语料;通过以下方式,从所述多个候选纠错平行语料中筛选出纠错平行语料:针对每个候选纠错平行语料,分别获取该候选纠错平行语料中的正确词和错误词的上下文环境;根据所述上下文环境判定该候选纠错平行语料是否为噪声语料,其中,所述根据所述上下文环境判定该候选纠错平行语料是否为噪声语料包括:分别统计该候选纠错平行语料中的正确词在所述上下文环境中的词频,以及错误词在所述上下文环境中的词频;在所述正确词在所述上下文环境中的词频小于所述错误词在所述上下文环境中的词频的预定倍数的情况下,确定该候选纠错平行语料为噪声语料;通过从所述多个候选纠错平行语料中删除所述噪声语料的方式,获取所述纠错平行语料。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的平行语料处理方法。
10.一种计算机设备,其特征在于,包括:存储器和处理器,
所述存储器存储有计算机程序;
所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时执行权利要求1至7中任意一项所述的平行语料处理方法。
CN201811481225.8A 2018-12-05 2018-12-05 平行语料处理方法、装置、存储介质及计算机设备 Active CN111353025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811481225.8A CN111353025B (zh) 2018-12-05 2018-12-05 平行语料处理方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811481225.8A CN111353025B (zh) 2018-12-05 2018-12-05 平行语料处理方法、装置、存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN111353025A CN111353025A (zh) 2020-06-30
CN111353025B true CN111353025B (zh) 2024-02-27

Family

ID=71195270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811481225.8A Active CN111353025B (zh) 2018-12-05 2018-12-05 平行语料处理方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN111353025B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560452B (zh) * 2021-02-25 2021-05-18 智者四海(北京)技术有限公司 一种自动生成纠错语料的方法和***
CN113204966B (zh) * 2021-06-08 2023-03-28 重庆度小满优扬科技有限公司 语料增广方法、装置、设备及存储介质
CN113822044B (zh) * 2021-09-29 2023-03-21 深圳市木愚科技有限公司 语法纠错数据生成方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11328317A (ja) * 1998-05-11 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
CN102915314A (zh) * 2011-08-05 2013-02-06 腾讯科技(深圳)有限公司 一种纠错对自动生成方法及***
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和***
CN106919681A (zh) * 2017-02-28 2017-07-04 东软集团股份有限公司 错别字的纠错方法和装置
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
CN107977357A (zh) * 2017-11-22 2018-05-01 北京百度网讯科技有限公司 基于用户反馈的纠错方法、装置及其设备
CN108717412A (zh) * 2018-06-12 2018-10-30 北京览群智数据科技有限责任公司 基于中文分词的中文校对纠错方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11328317A (ja) * 1998-05-11 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
CN102915314A (zh) * 2011-08-05 2013-02-06 腾讯科技(深圳)有限公司 一种纠错对自动生成方法及***
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和***
CN106919681A (zh) * 2017-02-28 2017-07-04 东软集团股份有限公司 错别字的纠错方法和装置
CN107977357A (zh) * 2017-11-22 2018-05-01 北京百度网讯科技有限公司 基于用户反馈的纠错方法、装置及其设备
CN108717412A (zh) * 2018-06-12 2018-10-30 北京览群智数据科技有限责任公司 基于中文分词的中文校对纠错方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沈健.基于统计模型的搜索引擎查询纠错***.《中国优秀硕士学问论文全文数据库》.2018,(第undefined期),全文. *

Also Published As

Publication number Publication date
CN111353025A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN106874441B (zh) 智能问答方法和装置
CN106534548B (zh) 语音纠错方法和装置
WO2019084867A1 (zh) 自动回答方法、装置、存储介质及电子设备
CN111353025B (zh) 平行语料处理方法、装置、存储介质及计算机设备
EP3896986A1 (en) Method and device for segmenting video
CN113590645B (zh) 搜索方法、装置、电子设备及存储介质
CN111310440B (zh) 文本的纠错方法、装置和***
CN107193974B (zh) 基于人工智能的地域性信息确定方法和装置
CN111428474A (zh) 基于语言模型的纠错方法、装置、设备及存储介质
CN104156454A (zh) 搜索词的纠错方法和装置
US20180217674A1 (en) Stroke input method, device and system
CN112580324A (zh) 文本纠错方法、装置、电子设备以及存储介质
CN110069769A (zh) 应用标签生成方法、装置及存储设备
CN108595412B (zh) 纠错处理方法及装置、计算机设备及可读介质
CN113139096B (zh) 一种视频数据集标注方法及装置
CN111222328A (zh) 标签提取方法、装置和电子设备
CN111324705A (zh) 自适应性调整关连搜索词的***及其方法
CN111598550A (zh) 邮件签名信息提取方法、装置、电子设备及介质
CN109829043A (zh) 词性确认方法、装置、电子设备及存储介质
CN115859932A (zh) 一种日志模板提取方法、装置、电子设备及存储介质
CN112800752B (zh) 纠错方法、装置、设备以及存储介质
CN114550157A (zh) 弹幕聚集识别方法以及装置
CN111898387B (zh) 翻译方法及装置、存储介质、计算机设备
CN113139039A (zh) 对话数据处理方法、装置、设备以及存储介质
CN112395863A (zh) 文本的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant