CN110738042B - 纠错词典创建方法、装置、终端及计算机存储介质 - Google Patents
纠错词典创建方法、装置、终端及计算机存储介质 Download PDFInfo
- Publication number
- CN110738042B CN110738042B CN201910861642.3A CN201910861642A CN110738042B CN 110738042 B CN110738042 B CN 110738042B CN 201910861642 A CN201910861642 A CN 201910861642A CN 110738042 B CN110738042 B CN 110738042B
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- search
- corpus
- data
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013507 mapping Methods 0.000 claims abstract description 71
- 238000010276 construction Methods 0.000 claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims description 69
- 238000013519 translation Methods 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 20
- 238000012986 modification Methods 0.000 claims description 19
- 230000004048 modification Effects 0.000 claims description 19
- 239000000463 material Substances 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000001537 neural effect Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 241000282836 Camelus dromedarius Species 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000282832 Camelidae Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 229910052573 porcelain Inorganic materials 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种纠错词典构建方法、装置、终端及计算机存储介质,其中,所述方法包括:获取检索数据及所述检索数据对应的平行语料;对所述检索数据以及所述平行语料进行扩展,得到检索词汇集合和语料词汇集合;从所述检索词汇集合和所述语料词汇集合中查询具备映射关系的词汇对;根据所述词汇对构建所述检索数据对应的纠错词典。采用本发明实施例,能够解决现有技术中存在的纠错词典中词汇对较少、构建效率较低等问题。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种纠错词典创建方法、装置、设备及计算机存储介质。
背景技术
语料库在语言学研究领域中有广泛的应用,是语言学研究的基础资源,也是现代机器语音翻译、语义理解等研究的基础。特别的,平行语料库是语料库的一种典型应用,主要是由原文文本及其平行对应的译语文本构成的语料库。目前,通常采用神经机器翻译模型(大多是基于编码器-解码器模型)将用户输入的源语句编译为固定长度的目标语句,从而构建获得平行语料库(也可称为纠错词典)。该纠错词典中包含具备映射关系的语句对(也可为词汇对),这里即源语句与目标语句。
然而在实践中发现,采用神经机器翻译模型构建的纠错词典中包含的词汇对比较,且纠错词典的准确性依赖于神经机器翻译模型。若神经机器翻译模型的精确度不高,同步会影响纠错词典中词汇对的准确度。
发明内容
本发明实施例所要解决的技术问题在于,提供一种纠错词典构建方法,能够解决现有技术中存在的纠错词典中词汇对较少、准确度不高等问题。
一方面,本发明实施例公开提供了一种纠错词典构建方法,所述方法包括:
获取检索数据及所述检索数据对应的平行语料;
对所述检索数据以及所述平行语料进行扩展,得到检索词汇集合和语料词汇集合,所述检索词汇集合包括至少一个检索词汇,所述语料词汇集合包括至少一个语料词汇;
从所述检索词汇集合和所述语料词汇集合中查询具备映射关系的词汇对,所述词汇对包括目标检索词汇及目标语料词汇,所述目标检索词汇来自所述检索词汇集合,所述目标语料词汇来自所述语料词汇集合;
根据所述词汇对构建所述检索数据对应的纠错词典。
另一方面,本发明实施例还公开提供了一种纠错词典构建装置,所述装置包括:
获取单元,用于获取检索数据及所述检索数据对应的平行语料;
扩展单元,用于对所述检索数据以及所述平行语料进行扩展,得到检索词汇集合和语料词汇集合,所述检索词汇集合包括至少一个检索词汇,所述语料词汇集合包括至少一个语料词汇;
查询单元,用于从所述检索词汇集合和所述语料词汇集合中查询具备映射关系的词汇对,所述词汇对包括目标检索词汇及目标语料词汇,所述目标检索词汇来自所述检索词汇集合,所述目标语料词汇来自所述语料词汇集合;
构建单元,用于根据所述词汇对构建所述检索数据对应的纠错词典。
再一方面,本发明实施例还公开提供了一种终端,所述终端包括输入设备和输出设备,所述终端还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如下步骤:
获取检索数据及所述检索数据对应的平行语料;
对所述检索数据以及所述平行语料进行扩展,得到检索词汇集合和语料词汇集合,所述检索词汇集合包括至少一个检索词汇,所述语料词汇集合包括至少一个语料词汇;
从所述检索词汇集合和所述语料词汇集合中查询具备映射关系的词汇对,所述词汇对包括目标检索词汇及目标语料词汇,所述目标检索词汇来自所述检索词汇集合,所述目标语料词汇来自所述语料词汇集合;
根据所述词汇对构建所述检索数据对应的纠错词典。
再一方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如下步骤:
获取检索数据及所述检索数据对应的平行语料;
对所述检索数据以及所述平行语料进行扩展,得到检索词汇集合和语料词汇集合,所述检索词汇集合包括至少一个检索词汇,所述语料词汇集合包括至少一个语料词汇;
从所述检索词汇集合和所述语料词汇集合中查询具备映射关系的词汇对,所述词汇对包括目标检索词汇及目标语料词汇,所述目标检索词汇来自所述检索词汇集合,所述目标语料词汇来自所述语料词汇集合;
根据所述词汇对构建所述检索数据对应的纠错词典。
本发明实施例可获取检索数据及检索数据对应的平行语料,对检索数据及平行语料进行扩展得到检索词汇集合和语料词汇集合,从检索词汇集合和语料词汇集合中查询具备映射关系的词汇对,根据词汇对构建检索数据对应的纠错词典。这样能够解决传统方案中纠错词典包含的词汇对较少、构建效率受限等问题,有利于提升纠错词典的构建效率,增加词汇对数量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种纠错词典构建方法的流程示意图。
图2是本发明实施例提供的另一种纠错词典构建方法的流程示意图。
图3是本发明实施例提供的一种纠错词典构建装置的结构示意图。
图4是本发明实施例提供的一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”(如果存在)等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
为解决基于神经机器翻译模型构建纠错词典方案中存在的问题:纠错词典中包含的词汇对较少、构建效率受限。且为保证纠错词典构建的准确性,神经机器翻译模型需要大量的训练样本,无疑将增加模型训练的成本。本申请特提出一种纠错词典构建方法及所述方法适用的相关设备。
请参见图1,是本发明实施例提供的一种纠错词典创建方法的流程示意图。如图1所示的方法包括如下实施步骤:
S101、获取检索数据及检索数据对应的平行语料。
本发明实施例终端获取检索数据及检索数据对应的平行语料。检索数据可指用户输入的所需检索的数据,例如检索词(query)、检索短语及词汇等等;也可指接收来自其他设备的检索数据,例如接收其他终端发送的所需检索的数据等。平行语料是指原文文本平行对应的文本,例如译语文本或内容相近的文本等。本发明实施例检索数据对应的平行语料可通过如下四种方式获得:
在一种实施方式,终端响应于用户针对检索数据的修改指令,将该修改指令所指示的变换数据确定为检索数据对应的平行语料。该修改指令用于指示将检索数据修改为对应的变换数据,以基于该变换数据进行数据检索。具体地例如,在数据检索时,用户在一段时长内输入检索数据“周姐伦”,用户发现搜索结果不符合需求、且无点击确认,则用户可主动修改检索数据为变换数据“周杰伦”。相应地,终端将响应用户上述修改操作(也可为该操作对应生成的修改指令),此时终端检索到用户想要搜索的数据并展示。进而用户点击确认并搜索“周杰伦”。终端将记录上述用户针对检索数据的修改,从而可获得或挖掘到检索数据对应的平行语料:“周姐伦”->“周杰伦”。
再一种实施方式,终端响应于用户针对推荐数据的操作指令,进而将该推荐数据确定为检索数据对应的平行语料。该推荐数据为终端在未检索到检索数据后,依据该检索数据而产生推荐的数据。该操作指令具体可指用户针对推荐数据进行相应操作而产生的指令,该操作包括但不限于点击操作、滑动操作、按压操作、拖动操作或其他自定义操作等。例如在音乐检索库中进行数据检索时,用户先输入“周董”,终端的搜索引擎依据“周董”搜索到检索结果“周杰伦”。由于用户知悉“周董”是“周杰伦”的别名或别称,用户可主动点击并检索“周杰伦”。相应地,终端响应上述点击操作产生的点击指令,从而可挖掘获得检索数据对应的平行语料:“周董”->“周杰伦”。
又如在音乐检索领域中,用户输入检索数据的同时,终端会不断推荐用户想要检索的结果。因此在用户未输入完整的检索数据时,可查看到自己所需检索的推荐数据,则可直接检索。例如,用户原本想要输入检索数据“周杰伦”,在输入“周杰”时已查看到“周杰伦”的推荐数据,此时用户可停止输入,直接开始检索。具体地,终端的搜索引擎根据周和杰字,查找获得“周杰伦”的推荐数据,用户点击包含“周杰伦”的推荐数据。这样可挖掘获得检索数据对应的平行语料:“周杰”->“周杰伦”。
再一种实施方式,为提升平行语料获取的精确度,终端响应于用户针对推荐数据的操作指令后,可进一步验证推荐数据和检索数据之间的相关度,若该相关度大于或等于预设相关阈值,则终端可将该推荐数据确定为检索数据对应的平行语料。关于相似度计算的实施方式具体下文详述。例如在音乐检索领域中,用户输入检索数据“周董”,音乐检索库中记录有歌手周杰伦、“周杰伦”的别名:周董、jay和杰伦等。相应地终端的搜索引擎依据“周董”检索到推荐数据“周杰伦”,用户主动点击“周杰伦”。进一步地,终端还可计算“周董”和“周杰伦”之间的相关度(也可为相似度),由于音乐检索库中周杰伦的别名有周董,因此它们之间的相关度较高,例如大于或等于预设相关阈值。这样终端可挖掘到检索数据对应的平行语料:“周董”->“周杰伦”。
再一种实施方式,终端基于筛选机制得到检索数据对应的平行语料。具体地,终端获取检索数据对应的至少一个初始语料,对该至少一个初始语料进行筛选,得到检索数据对应的平行语料,该平行语料为至少一个初始语料中的语料。其中,筛选的具体实施规则并不做限定,例如基于相似度筛选、基于语料分类筛选、基于纯数字筛选等。
以分类筛选为例,终端将检索数据和本地数据库中预存的语料数据进行相似度计算(也称为相关度/性计算),得到检索数据与语料数据之间的相似度。若相似度超过预设阈值,则将该语料数据作为检索数据对应的初始语料。其中,语料数据的数量不做限定,其可为一个或多个。终端采用上述方法可获得检索数据对应的多个初始语料。
为节省终端资源,终端可对一个或多个初始语料进行分类筛选,保留每个分类的一个语料作为检索数据对应的平行语料。具体地,终端首先可对多个初始语料进行分类,得到一个或多个分类集合,每个分类集合中包含有一个或多个初始语料。进一步终端可对每个分类集合中包含的一个或多个初始语料进行筛选,保留每个分类集合的一个初始语料作为检索数据对应的平行语料。便于后续基于该平行语料实现纠错词典的构建,同类平行语料数量的减少,有利于节省终端资源。
其中,分类的具体实施方式并不做限定,例如基于文本编辑距离的分类。具体地,终端采用预先配置的距离算法,计算任意两个初始语料之间的文本距离,若文本距离越小,表明这两个初始语料越相近/似,可分为同一分类集合。反之,若文本距离越大,表明这两个初始语料差异越大,可分到不同的分类集合中。
举例来说,在音乐检索库中进行音乐检索时,终端将用户输入的检索数据“周杰伦”与音乐检索库中包含的语料数据进行相似度计算,得到检索数据与语料数据之间的相似度。其中,音乐检索库中包含的语料数据可包括但不限于:歌手、歌曲及音乐短片(musicvideo,MV)等数据。终端可将相似度满足预设条件的语料数据,确定为检索数据对应的初始语料。
该预设条件为***自定义设置的,用于筛选初始语料。例如,该预设条件可为相似度超过预设阈值;或者,基于相似度计算的a个维度参数中至少存在b个维度参数的分数对应超过预设分数,b为不超过a的整数,a和b均为正整数。具体地,在不考虑语料精确度的情况下,终端可直接将相似度超过预设阈值的语料数据,确定为检索数据对应的平行语料。反之,在考虑语料精确度的情况下,终端获得相似度后,可基于该相似度计算获得a个维度参数的分数。该维度参数为***自定义设置的,其可包括但不限于文本相关度、紧邻程度及BM25参数等。例如终端可采用BM25算法对相似度进行计算,得到BM25参数的分数等。进一步终端在获得a个维度参数的分数后,若其包含b个维度参数的分数对应超过预设分数,则终端可将该语料数据确定为检索数据对应的初始语料。该预设分数为***自定义设置的,例如根据用户经验或实际需求自定义设置;或者,依据一系列统计数据计算的等。
在不考虑终端资源的情况下,终端可将初始语料直接作为检索数据对应的平行语料,以用于后续构建纠错词典。反之,在考虑终端资源的情况下,终端可对初始语料进行筛选得到检索数据对应的平行语料。在实际应用中,由于音乐检索库中同一数据存在多种表达,如同一歌手存在很多别名,例如歌手“周杰伦”存在别名“周董”、“jay”及“杰伦”等。为节省终端资源,终端可对初始语料进行分类筛选,以删除同一分类中多余的初始语料,这样在构建纠错词典时有利于节省终端资源,提升构建效率。本例中,假设终端以检索数据“周杰伦”为例,获得对应的初始语料中包括:周杰伦、周董、杰伦、jay及zhoujielun。相应地,终端可对初始语料进行分类筛选,此例中由于上述初始语料均为同一歌手的不同表达,可分为一个分类集合。进而将该分类集合中包含的初始语料进行筛除,保留该分类集合中任一初始语料作为检索数据对应的平行语料,例如这里平行语料可为“周杰伦”。
在实际应用中,终端还可对初始语料中包含的数字进行筛选。例如在影视领域中数字的敏感程度较低,则终端可删除初始语料中包含的数字,得到检索数据对应的平行语料。例如若初始语料为“复仇者联盟1”,则筛选后对应的平行语料可为“复仇者联盟”。可选地,本发明涉及的检索数据也可指不包含数字的数据,这里不再做赘述。
S102、对检索数据及平行语料进行扩展,得到检索词汇集合和语料词汇集合。
本发明实施例终端可对检索数据进行扩展,得到包含至少一个检索词汇在内的检索词汇集合。终端可对平行语料进行扩展,得到包含至少一个语料词汇在内的语料词汇集合。其中,本发明涉及的词汇又称语汇,是语言中所有词语和固定短语的总和,可选地词汇也可指短语或语句。
本发明实施例扩展涉及的具体实施方式(也可简称为扩展方式)并不做限定,其可包括但不限于以下中的至少一种:文本分词、分词组合及译语转换,具体在下文进行详述。
在一种实施方式中,终端采用文本分词对检索数据及平行语料进行扩展。具体地,终端可对检索数据进行文本分词,得到多个检索分词。进一步可将获得的多个检索分词及该检索数据添加到检索词汇集合中。其中,多个检索分词及检索数据可视为检索词汇集合中的检索词汇。本发明所述检索词汇集合中包括至少一个检索词汇,具体可指由原本的检索数据及其对应拓展的检索分词组成,例如检索数据分词后的检索分词等等。例如,检索数据为“如果你也喜欢”,则终端进行文本分词后可获得4个检索分词,分别为:“如果”、“你”、“也”和“喜欢”。
相应地,终端可对平行语料进行文本分词,得到多个语料分词。终端可将获得的多个语料分词及该平行语料添加到语料词汇集合中。该多个语料分词及平行语料可视为语料词汇集合中的语料词汇。本发明所述语料词汇集合中包括至少一个语料词汇,具体可指由原本的平行语料及其对应扩展的语料分词组成,例如平行语料分词后的语料分词、及下文译语翻译后的词汇等等。
再一种实施方式中,终端采用分词组合对检索数据及平行语料进行扩展。具体地,在文本分词后终端可对多个检索分词进行M元分词组合(M-gram),得到一个或多个第一词汇。进一步将该一个或多个第一词汇及检索数据添加到检索词汇集合。其中,该第一词汇及检索数据均可视为检索词汇集合中的检索词汇。M为自定义设置的正整数。
相应地终端可对多个语料分词进行N元分词组合,得到至少一个第二词汇。进一步终端将该至少一个第二词汇及平行语料添加到语料词汇集合。其中,第二词汇及平行语料可视为语料词汇集合中的语料词汇。
举例来说,以上文检索数据“如果你也喜欢”为例,文本分词后终端若对多个检索分词进行1元分词组合(unigram)可得到4个第一词汇,分别为:“如果”、“你”、“也”和“喜欢”。
终端若对多个检索分词进行2元分词组合(bigram)可得到3个第一词汇,分别为“如果你”、“你也”和“也喜欢”。
终端若对多个检索词汇进行3元分词组合(trigram)可得到2个第一词汇,分别为“如果你也”和“你也喜欢”。
终端若对多个检索词汇进行4元分词组合(fourgram)得到1个第一词汇,分别为“如果你也喜欢”。
再一种实施方式中,终端采用译语转换对检索数据及平行语料进行扩展。具体地,终端可对检索数据进行译语转换,得到对应的转换词汇。进一步将该转换词汇及检索数据添加到检索词汇集合中。该转换词汇及检索数据可视为检索词汇集合中的检索词汇。可选地,为扩展检索词汇集合中包含检索词汇的数量,终端还可对文本分词后获得的检索分词进行译语转换,以获得对应的转换词汇,添加到检索词汇集合。
相应地,终端可对平行语料进行译语转换,得到对应的转换语料。进一步将该转换语料及平行语料添加到语料词汇集合中。该转换语料及平行语料可视为语料词汇集合中的语料词汇。可选地,为扩展语料词汇集合中包含语料词汇的数量,终端还可对文本分词后获得的语料分词进行译语转换,得到对应的转换语料,添加到语料词汇集合中。
本发明实施例译语转换是指将原文文本转换为相应地译语文本,该译语文本的表达语言与原文文本的表达语言不相同。例如检索数据为中文,则译语转换后的转换词汇可为中文对应的拼音,也可为英文、日语、韩语或其他与中文表述不同的语言。
需要说明的是,本发明实施例上述提及的几种实施方式可以单独实施,也可组合实施;当其进行组合实施时,各实施方式的组合顺序并不做限定。例如,终端可先对检索数据及平行语料进行文本分词,得到多个检索分词及多个语料分词。进一步可对多个检索分词及多个语料分词进行分词组合,再进行译语转换,得到相应地转换词汇及转换语料。终端将转换词汇添加到检索词汇集合,将转换语料添加到语料词汇集合。可选地,在文本分词后终端也可先对检索分词及语料分词进行译语转换,再进行分词组合,具体实施顺序不做限定。
S103、从检索词汇集合和语料词汇集合中查询具备映射关系的词汇对。
终端基于相似度从检索词汇集合和语料词汇集合中查询具备映射关系的词汇对。该词汇对中包括目标检索词汇及目标语料词汇,该目标检索词汇与目标语料词汇之间建立有映射关系(也可称对齐关系)。
在一种实施方式中,终端可从检索词汇集合中选取任一个第一检索词汇,从语料词汇集合中选取任一个第一语料词汇,计算该第一检索词汇与第一语料词汇之间的相似度。其中,相似度计算的实施方式并不做限定,例如基于欧式距离、余弦距离计算相似度等。若相似度超过(大于或等于)第一阈值,则在第一检索词汇及第一语料词汇之间建立映射关系,使得第一检索词汇及第一语料词汇称为具备映射关系的词汇对。反之,若相似度小于第一阈值,则表明第一检索词汇与第一语料词汇的差异较大,无法建立它们之间的映射关系。同理,终端采用上述词汇对确定原理,从检索词汇集合和语料词汇集合中确定出所有具备映射关系的词汇对。
其中,第一阈值为***自定义设置的,例如用户设置的经验值等。具备映射关系的词汇对实质是指相似度较大的词汇对,例如上文所述的第一检索词汇与第一语料词汇。该词汇对可以指完全相同的词汇对,也可是指发音相同的词汇对,还可指译语转换的词汇对,例如拼音对中文、中文对拼音等。
举例来说,终端扩展后的检索词汇集合和语料词汇集合中包含M元分词组合形成的各自词汇。终端可将两个集合中相同的词汇进行对齐,使得它们称为具备映射关系的词汇对。例如,检索词汇集合中第一检索词汇gram A为“盗将行”,语料词汇集合中第一语料词汇gram B为“盗将行”,则终端可将gram A“盗将行”和gram B“盗将行”确定为具备映射关系的词汇对。此外,终端还可将发音相似的词汇对及译语转换的词汇对确定为具备映射关系的词汇对。例如,第一检索词汇gram A为“周杰伦”,第一语料词汇gram B为“zhoujielun”,则终端可将gram A“周杰伦”和gram B“zhoujielun”确定为具备映射关系的词汇对。又如,第一检索词汇gram A为“太多访视反反复复”,第一语料词汇gram B为“太多方式反反复复”,则终端可将ram A“太多访视反反复复”和gram B“太多方式反反复复”确定为具备映射关系的词汇对。
再一种实施方式中,针对检索词汇集合和语料词汇集合中相似度小于第一阈值的词汇(即差异较大的词汇),为提升词汇的利用率及召回率,终端还可对这些词汇进行乱序组合,重新构建具备映射关系的词汇对。具体地:
终端从检索词汇集合和语料词汇集合中除去所有具备映射关系的词汇对,具体可从检索词汇集合中除去所有词汇对中包含的目标检索词汇,从语料词汇集合中除去所有词汇对中包含的目标语料词汇,对应得到多个剩余检索词汇及多个剩余语料词汇。进一步终端可对多个剩余检索词汇中的至少两个词汇进行乱序组合,得到至少一个新增检索词汇。对多个剩余语料词汇中的至少两个词汇进行乱序组合,得到至少一个新增语料词汇。
接着终端从该至少一个新增检索词汇中获取任一第二检索词汇,从该至少一个新增语料词汇中获取任一第二语料词汇,进而计算该第二检索词汇与第二语料词汇之间的相似度。若相似度超过第二阈值,则在第二检索词汇与第二语料词汇之间建立映射关系,使第二检索词汇与第二语料词汇成为具备映射关系的词汇对。若相似度不超过第二阈值,则表明第二检索词汇与第二语料词汇之间的差异较大。
本发明实施例乱序组合是指终端打乱词汇的排列顺序,组合获得新的词汇。举例来说,终端确定具备映射关系的词汇对后,假设检索词汇集合中的剩余检索词汇有:“将”和“盗行”。语料词汇聚合中的剩余语料词汇有“盗将”和“行”。则终端可对至少两个剩余检索词汇进行乱序组合得到新增检索词汇,假设为“将盗行”。终端对至少两个剩余语料词汇进行乱序组合得到新增语料词汇,假设此例为“盗将行”。由于“将盗行”与“盗将行”仅仅属于词汇顺序不同,但它们的相似度仍较高,则终端可将“将盗行”与“盗将行”确定为具备映射关系的词汇对。这样可解决用户乱序输入导致无法匹配相应检索结果的问题,即解决词级别换序(词乱序)引起无法匹配检索结果的问题。
又如,以检索词汇集合中的剩余检索词汇包含:“不仅仅”、“喜”和“欢”,语料词汇集合中的剩余语料词汇包含:“不仅”、“仅是”和“喜欢”为例。终端可对剩余检索词汇进行乱序组合得到新增检索词汇,假设为“不仅仅喜欢”。终端对剩余语料词汇进行乱序组合得到新增语料词汇,假设为“不仅仅是喜欢”。同样地,由于“不仅仅喜欢”与“不仅仅是喜欢”的相似度较高,则终端可将“不仅仅喜欢”与“不仅仅是喜欢”确定为具备映射关系的词汇对。这样可解决用户输入检索数据不完全(词缺失)导致无法匹配相应检索结果等问题。
再一种实施方式中,针对检索词汇集合和语料词汇集合中相似度小于第一阈值的词汇(即差异较大的词汇),为提升词汇的利用率及召回率,终端还可将满足映射条件的词汇对选出,使它们成为具有映射关系的词汇对。该映射条件可为***自定义设置的,例如词乱序或词缺失等。具体地:
终端从检索词汇集合中包含的多个剩余检索词汇及语料词汇集合中包含的多个剩余语料词汇中,选取出满足词乱序或词缺失映射条件的第三检索词汇及第三语料词汇。该第三检索词汇为多个剩余检索词汇中的任一词汇,第三语料词汇为多个剩余语料词汇中的任一词汇。进一步终端在第三检索词汇和第三语料词汇之间建立映射关系,使第三检索词汇和第三语料词汇成为具备映射关系的词汇对。
举例来说,以映射条件为词乱序为例,假设检索词汇集合中剩余检索词汇有“骆驼沙漠”,语料词汇集合中剩余语料词汇有“沙漠骆驼”。由于这两个词汇仅为词输入乱序,则终端可将“骆驼沙漠”和“沙漠骆驼”确定为具备映射关系的词汇对,用于后续构建纠错词典。
又如以映射条件为词缺失为例,假设检索词汇集合中剩余检索词汇为“周杰”,语料词汇集合中剩余语料词汇为“周杰伦”。由于“周杰”属于“周杰伦”中的元素,属于词缺失,则终端可将“周杰”和“周杰伦”确定为具备映射关系的词汇对,用于后续构建纠错词典。
S104、根据词汇对构建检索数据对应的纠错词典。
终端获得具备映射关系的词汇对后,可将该词汇对添加到纠错词典中,用于用户数据检索。
在一种实施方式中,为提升纠错词典中词汇对纠错的正确率或准确率,终端在获得具备映射关系的词汇对后还可对该词汇进一步验证,在验证成功后方可将该词汇对添加到纠错词典中。具体地,终端可对词汇对中包含的目标检索词汇及目标语料词汇进行文本向量化,得到对应的检索词向量和语料词向量。计算检索词向量和语料词向量之间的相似度,若该相似度超过第三阈值,则表示验证成功,词汇对中包含的目标检索词汇和目标语料词汇相似度较高。终端可将词汇对添加到检索数据对应的纠错词典中。反之,若相似度不超过第三阈值,则表明验证失败,词汇对中包含的目标检索词汇和目标语料词汇存在一定差异,无法将词汇对添加到纠错词典中。
其中,文本向量化的实施方式并不做限定,例如采用one-hot编码向量化、采用哈希向量化、采用词频-逆文本频率指数向量化、或其他用于文本向量化的算法,不做限定。第三阈值可为***自定义设置的,例如根据一系列实验数据计算获得的;或者用户设置的经验值等。
本发明实施例终端可以包括智能手机(如Android手机、IOS手机等)、个人电脑、平板电脑、掌上电脑、移动互联网设备(mobile internet devices,MID)或穿戴式智能设备等互联网设备,本发明实施例不作限定。
通过实施本发明实施例,能解决传统技术中存在纠错词典的词汇对较少、构建效率受模型限制等问题。此外,还能解决由于检索数据的输入乱序、发音相似以及输入不完整等因素导致无法检索相应结果的问题。从而提升了纠错词典构建的完备性及效率。
请参见图2,是本发明实施例提供的另一种纠错词典构建方法的流程示意图。如图2所示的方法包括如下实施步骤:
S201、获取待检索数据。
本发明实施例待检索数据可指用户输入的待检索的数据,也可指来自其他设备的待检索的数据。该数据可包括但不限于、词汇、短语及语句等
S202、根据纠错词典对待检索数据进行纠错,得到待检索数据对应的纠错检索数据。该纠错词典为图1所述方法实施例构建获得的纠错词典。
S203、采用纠错检索数据进行数据检索,得到待检索数据对应的检索结果。
终端利用图1构建的纠错词典,对待检索数据进行纠错,得到该待检索数据对应的纠错检索数据。进一步终端利用纠错检索数据代替待检索数据进行相应数据检索,得到对应的检索结果。
例如以待检索数据为“周姐伦”为例,纠错词典中包含词汇对:周姐伦->周杰伦。终端获取用户输入的待检索数据“周姐伦”后,可利用纠错词典对待检索数据进行纠错,得到相应地纠错检索数据“周杰伦”。相应地终端将利用“周杰伦”在音乐检索库中检索相应地检索结果,本例即检索该歌手演唱的所有歌曲,例如稻香、青花瓷等,推荐给用户播放。
通过实施本发明实施例,能基于图1构建的纠错词典进行数据检索,有利于提升数据检索的准确率及效率。
基于上述纠错词典构建方法实施例的描述,本发明实施例还公开了一种纠错词典构建装置,该装置可以是运行在终端中的一个计算机程序(包括程序代码)。该装置可以执行图1或图2所示的方法。请参见图3,所述纠错词典构建装置可以运行如下单元:
获取单元101,用于获取检索数据及所述检索数据对应的平行语料;
扩展单元102,用于对所述检索数据以及所述平行语料进行扩展,得到检索词汇集合和语料词汇集合,所述检索词汇集合包括至少一个检索词汇,所述语料词汇集合包括至少一个语料词汇;
查询单元103,用于从所述检索词汇集合和所述语料词汇集合中查询具备映射关系的词汇对,所述词汇对包括目标检索词汇及目标语料词汇,所述目标检索词汇来自所述检索词汇集合,所述目标语料词汇来自所述语料词汇集合;
构建单元104,用于根据所述词汇对构建所述检索数据对应的纠错词典。
在一种实施方式中,扩展单元102用于采用扩展方式对所述检索数据以及所述平行语料进行扩展,得到检索词汇集合和语料词汇集合;所述扩展方式包括以下中的至少一种:文本分词、分词组合及译语转换。
再一种实施方式中,所述扩展方式为文本分词。扩展单元102具体用于对所述检索数据进行文本分词,得到多个检索分词,并将所述多个检索分词及所述检索数据作为检索词汇添加到所述检索词汇集合;对所述平行语料进行文本分词,得到多个语料分词,并将所述多个语料分词及所述平行语料作为语料词汇添加到所述语料词汇集合。
再一种实施方式中,所述扩展方式为分词组合。扩展单元102具体用于对所述检索数据进行文本分词,得到多个检索分词,并对所述多个检索分词进行M元分词组合,得到至少一个第一词汇,将所述至少一个第一词汇及所述检索数据作为检索词汇添加到所述检索词汇集合,M为正整数;对所述平行语料进行文本分词,得到多个语料分词,并对所述多个语料分词进行N元分词组合,得到至少一个第二词汇,将所述至少一个第二词汇及所述平行语料作为语料词汇添加到所述语料词汇集合,N为正整数。
再一种实施方式中,扩展方式为译语转换。扩展单元102具体用于对所述检索数据进行译语转换,得到对应的转换词汇,将所述转换词汇和所述检索数据作为检索词汇添加到所述检索词汇集合;对所述平行语料进行译语转换,得到对应的转换语料,将所述转换语料和所述平行语料作为语料词汇添加到所述语料词汇集合。
再一种实施方式中,查询单元103具体用于获取所述检索词汇集合中的第一检索词汇及所述语料词汇集合中的第一语料词汇;若所述第一检索词汇与所述第一语料词汇的相似度超过第一阈值,则在所述第一检索词汇与所述第一语料词汇之间建立映射关系,使所述第一检索词汇与所述第一语料词汇成为具备映射关系的词汇对;从所述检索词汇集合和所述语料词汇集合中查询具备映射关系的词汇对。
再一种实施方式中,查询单元103还用于从所述检索词汇集合和所述语料词汇集合中除去所述具备映射关系的词汇对,得到多个剩余检索词汇及多个剩余语料词汇;将所述多个剩余检索词汇进行乱序组合,得到至少一个新增检索词汇;将所述多个剩余语料词汇进行乱序组合,得到至少一个新增语料词汇;若第二检索词汇与第二语料词汇的相似度超过第二阈值,则在所述第二检索词汇与所述第二语料词汇之间建立映射关系,使所述第二检索词汇与所述第二语料词汇成为具备映射关系的词汇对;其中,所述第二检索词汇为所述至少一个新增检索词汇中的任一词汇,所述第二语料词汇为所述至少一个新增语料词汇中的任一词汇。
再一种实施方式中,获取单元101具体用于响应于针对检索数据的修改指令,将所述修改指令所指示修改的变换数据确定为所述检索数据对应的平行语料,所述修改指令用于指示将所述检索数据修改为所述变换数据,以进行检索。
再一种实施方式中,获取单元101具体用于响应于针对推荐数据的操作指令,将所述推荐数据确定为所述检索数据对应的平行语料,所述推荐数据为在未检索到所述检索数据后,基于所述检索数据而推荐的数据。
再一种实施方式中,获取单元101具体用于计算所述推荐数据和所述检索数据之间的相关度;若所述相关度大于或等于第三阈值,则将所述推荐数据确定为所述检索数据对应的平行语料。
再一种实施方式中,获取单元101具体用于获取检索数据对应的至少一个初始语料;对所述至少一个初始语料进行筛选,得到所述检索数据对应的平行语料。
再一种实施方式中,获取单元101具体用于对所述至少一个初始语料进行分类,得到至少一个分类集合,每个所述分类集合中包括至少一个初始语料;对每个所述分类集合中的至少一个初始语料进行筛选,保留所述每个分类集合中的一个初始语料,作为所述检索数据对应的平行语料。
再一种实施方式中,构建单元104具体用于将所述词汇对中的目标检索词汇及目标语料词汇进行文本向量化,对应得到检索词向量及语料词向量;若所述检索词向量与所述语料词向量的相似度超过第三阈值,则将所述词汇对添加到所述检索数据对应的纠错词典。
再一种实施方式中,装置还包括纠错单元105和检索单元106。其中,获取单元101还用于获取待检索数据;纠错单元105用于根据所述纠错词典对所述待检索数据进行纠错,得到所述待检索数据对应的纠错检索数据;检索单元106用于采用所述纠错检索数据进行数据检索,得到所述待检索数据对应的检索结果。
根据本发明的一个实施例,图1或图2所示的方法所涉及的各个步骤均可以是由图3所示的纠错词典构建装置中的各个单元来执行的。例如,图1中所示的步骤S101可以由图3中所示的获取单元101来执行,步骤S102可以由图3中所示的扩展单元102来执行,步骤S103可以由图3中的查询单元103来执行,步骤S104可以由图3中的构建单元104来执行。图2中所示的步骤S201可以由图3中的获取单元101来执行,步骤S202可以由图3中所示的纠错单元105来执行,步骤S203可以由图3中的检索单元106来执行。
根据本发明的另一个实施例,图3所示的纠错词典构建装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,纠错词典构建装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本发明的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图1或图2中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图3中所示的纠错词典构建装置设备,以及来实现本发明实施例的场景切换方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
通过实施本发明实施例,能解决传统技术中存在纠错词典的词汇对较少、构建效率受模型限制等问题。此外,还能解决由于检索数据的输入乱序、发音相似以及输入不完整等因素导致无法检索相应结果的问题。从而提升了纠错词典构建的完备性及效率。
基于上述方法实施例以及装置实施例的描述,本发明实施例还提供一种终端。请参见图4,该终端至少包括处理器201、输入设备202、输出设备203以及计算机存储介质204。其中,终端内的处理器201、输入设备202、输出设备203以及计算机存储介质204可通过总线或其他方式连接。
计算机存储介质204可以存储在终端的存储器中,所述计算机存储介质204用于存储计算机程序,所述计算机程序包括程序指令,所述处理器201用于执行所述计算机存储介质204存储的程序指令。处理器201(或称CPU(Central Processing Unit,中央处理器))是终端的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能;在一个实施例中,本发明实施例所述的处理器201可以用于进行一系列的纠错词典构建处理,包括:获取检索数据及所述检索数据对应的平行语料;对所述检索数据以及所述平行语料进行扩展,得到检索词汇集合和语料词汇集合;从所述检索词汇集合和所述语料词汇集合中查询具备映射关系的词汇对;根据所述词汇对构建所述检索数据对应的纠错词典,等等。
本发明实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是终端中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作***。并且,在该存储空间中还存放了适于被处理器201加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器201加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关纠错词典构建实施例中的方法的相应步骤;具体实现中,计算机存储介质中的一条或多条指令由处理器201加载并执行如下步骤:
获取检索数据及所述检索数据对应的平行语料;
对所述检索数据以及所述平行语料进行扩展,得到检索词汇集合和语料词汇集合,所述检索词汇集合包括至少一个检索词汇,所述语料词汇集合包括至少一个语料词汇;
从所述检索词汇集合和所述语料词汇集合中查询具备映射关系的词汇对,所述词汇对包括目标检索词汇及目标语料词汇,所述目标检索词汇来自所述检索词汇集合,所述目标语料词汇来自所述语料词汇集合;
根据所述词汇对构建所述检索数据对应的纠错词典。
在一种实施方式中,所述一条或多条指令还可由处理器201加载并具体执行:采用扩展方式对所述检索数据以及所述平行语料进行扩展,得到检索词汇集合和语料词汇集合;所述扩展方式包括以下中的至少一种:文本分词、分词组合及译语转换。
再一种实施方式中,所述扩展方式为文本分词,所述一条或多条指令还可由处理器201加载并具体执行:对所述检索数据进行文本分词,得到多个检索分词,并将所述多个检索分词及所述检索数据作为检索词汇添加到所述检索词汇集合;对所述平行语料进行文本分词,得到多个语料分词,并将所述多个语料分词及所述平行语料作为语料词汇添加到所述语料词汇集合。
再一种实施方式中,所述扩展方式为分词组合,所述一条或多条指令还可由处理器201加载并具体执行:对所述检索数据进行文本分词,得到多个检索分词,并对所述多个检索分词进行M元分词组合,得到至少一个第一词汇,将所述至少一个第一词汇及所述检索数据作为检索词汇添加到所述检索词汇集合,M为正整数;对所述平行语料进行文本分词,得到多个语料分词,并对所述多个语料分词进行N元分词组合,得到至少一个第二词汇,将所述至少一个第二词汇及所述平行语料作为语料词汇添加到所述语料词汇集合,N为正整数。
再一种实施方式中,所述扩展方式为译语转换,所述一条或多条指令还可由处理器201加载并具体执行:对所述检索数据进行译语转换,得到对应的转换词汇,将所述转换词汇和所述检索数据作为检索词汇添加到所述检索词汇集合;对所述平行语料进行译语转换,得到对应的转换语料,将所述转换语料和所述平行语料作为语料词汇添加到所述语料词汇集合。
再一种实施方式中,所述一条或多条指令还可由处理器201加载并具体执行:获取所述检索词汇集合中的第一检索词汇及所述语料词汇集合中的第一语料词汇;若所述第一检索词汇与所述第一语料词汇的相似度超过第一阈值,则在所述第一检索词汇与所述第一语料词汇之间建立映射关系,使所述第一检索词汇与所述第一语料词汇成为具备映射关系的词汇对;从所述检索词汇集合和所述语料词汇集合中查询具备映射关系的词汇对。
再一种实施方式中,所述一条或多条指令还可由处理器201加载并具体执行:从所述检索词汇集合和所述语料词汇集合中除去所述具备映射关系的词汇对,得到多个剩余检索词汇及多个剩余语料词汇;将所述多个剩余检索词汇进行乱序组合,得到至少一个新增检索词汇;将所述多个剩余语料词汇进行乱序组合,得到至少一个新增语料词汇;若第二检索词汇与第二语料词汇的相似度超过第二阈值,则在所述第二检索词汇与所述第二语料词汇之间建立映射关系,使所述第二检索词汇与所述第二语料词汇成为具备映射关系的词汇对;其中,所述第二检索词汇为所述至少一个新增检索词汇中的任一词汇,所述第二语料词汇为所述至少一个新增语料词汇中的任一词汇。
再一种实施方式中,所述一条或多条指令还可由处理器201加载并具体执行:响应于针对检索数据的修改指令,将所述修改指令所指示修改的变换数据确定为所述检索数据对应的平行语料,所述修改指令用于指示将所述检索数据修改为所述变换数据,以进行检索。
再一种实施方式中,所述一条或多条指令还可由处理器201加载并具体执行:响应于针对推荐数据的操作指令,将所述推荐数据确定为所述检索数据对应的平行语料,所述推荐数据为在未检索到所述检索数据后,基于所述检索数据而推荐的数据。
再一种实施方式中,所述一条或多条指令还可由处理器201加载并具体执行:计算所述推荐数据和所述检索数据之间的相关度;若所述相关度大于或等于第三阈值,则将所述推荐数据确定为所述检索数据对应的平行语料。
再一种实施方式中,所述一条或多条指令还可由处理器201加载并具体执行:获取检索数据对应的至少一个初始语料;对所述至少一个初始语料进行筛选,得到所述检索数据对应的平行语料。
再一种实施方式中,所述一条或多条指令还可由处理器201加载并具体执行:对所述至少一个初始语料进行分类,得到至少一个分类集合,每个所述分类集合中包括至少一个初始语料;对每个所述分类集合中的至少一个初始语料进行筛选,保留所述每个分类集合中的一个初始语料,作为所述检索数据对应的平行语料。
再一种实施方式中,所述一条或多条指令还可由处理器201加载并具体执行:将所述词汇对中的目标检索词汇及目标语料词汇进行文本向量化,对应得到检索词向量及语料词向量;若所述检索词向量与所述语料词向量的相似度超过第三阈值,则将所述词汇对添加到所述检索数据对应的纠错词典。
再一种实施方式中,所述一条或多条指令还可由处理器201加载并具体执行:获取待检索数据;根据所述纠错词典对所述待检索数据进行纠错,得到所述待检索数据对应的纠错检索数据;采用所述纠错检索数据进行数据检索,得到所述待检索数据对应的检索结果。
通过实施本发明实施例,能解决传统技术中存在纠错词典的词汇对较少、构建效率受模型限制等问题。此外,还能解决由于检索数据的输入乱序、发音相似以及输入不完整等因素导致无法检索相应结果的问题。从而提升了纠错词典构建的完备性及效率。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (16)
1.一种纠错词典构建方法,其特征在于,包括:
获取检索数据及所述检索数据对应的平行语料;
对所述检索数据以及所述平行语料进行扩展,得到检索词汇集合和语料词汇集合,所述检索词汇集合包括至少一个检索词汇,所述语料词汇集合包括至少一个语料词汇;
针对所述检索词汇集合和所述语料词汇集合中相似度小于第一阈值的词汇,获取满足映射条件的词汇对,将所述检索词汇集合和所述语料词汇集合中相似度大于或等于所述第一阈值的词汇对及所述满足映射条件的词汇对,确定为具备映射关系的词汇对,所述词汇对包括目标检索词汇及目标语料词汇,所述目标检索词汇来自所述检索词汇集合,所述目标语料词汇来自所述语料词汇集合;所述映射条件包括词乱序或词缺失映射条件;
将所述词汇对中的目标检索词汇及目标语料词汇进行文本向量化,对应得到检索词向量及语料词向量;
若所述检索词向量与所述语料词向量的相似度超过第三阈值,则将所述词汇对添加到所述检索数据对应的纠错词典。
2.根据权利要求1所述的方法,其特征在于,所述对所述检索数据以及所述平行语料进行扩展,得到检索词汇集合和语料词汇集合包括:
采用扩展方式对所述检索数据以及所述平行语料进行扩展,得到检索词汇集合和语料词汇集合;所述扩展方式包括以下中的至少一种:文本分词、分词组合及译语转换。
3.根据权利要求2所述的方法,其特征在于,所述扩展方式为文本分词,所述采用扩展方式对所述检索数据以及所述平行语料进行扩展,得到检索词汇集合和语料词汇集合包括:
对所述检索数据进行文本分词,得到多个检索分词,并将所述多个检索分词及所述检索数据作为检索词汇添加到所述检索词汇集合;
对所述平行语料进行文本分词,得到多个语料分词,并将所述多个语料分词及所述平行语料作为语料词汇添加到所述语料词汇集合。
4.根据权利要求2所述的方法,其特征在于,所述扩展方式为分词组合,所述采用扩展方式对所述检索数据以及所述平行语料进行扩展,得到检索词汇集合和语料词汇集合包括:
对所述检索数据进行文本分词,得到多个检索分词,并对所述多个检索分词进行M元分词组合,得到至少一个第一词汇,将所述至少一个第一词汇及所述检索数据作为检索词汇添加到所述检索词汇集合,M为正整数;
对所述平行语料进行文本分词,得到多个语料分词,并对所述多个语料分词进行N元分词组合,得到至少一个第二词汇,将所述至少一个第二词汇及所述平行语料作为语料词汇添加到所述语料词汇集合,N为正整数。
5.根据权利要求2所述的方法,其特征在于,所述扩展方式为译语转换,所述采用扩展方式对所述检索数据以及所述平行语料进行扩展,得到检索词汇集合和语料词汇集合包括:
对所述检索数据进行译语转换,得到对应的转换词汇,将所述转换词汇和所述检索数据作为检索词汇添加到所述检索词汇集合;
对所述平行语料进行译语转换,得到对应的转换语料,将所述转换语料和所述平行语料作为语料词汇添加到所述语料词汇集合。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述检索词汇集合中的第一检索词汇及所述语料词汇集合中的第一语料词汇;
若所述第一检索词汇与所述第一语料词汇的相似度大于或等于第一阈值,则在所述第一检索词汇与所述第一语料词汇之间建立映射关系,使所述第一检索词汇与所述第一语料词汇成为具备映射关系的词汇对。
7.根据权利要求6所述的方法,其特征在于,所述针对所述检索词汇集合和所述语料词汇集合中相似度小于第一阈值的词汇,获取满足映射条件的词汇对,包括:
获取所述检索词汇集合中的多个剩余检索词汇及所述语料词汇集合中的多个剩余语料词汇,其中,所述多个剩余检索词汇中的任一剩余检索词汇与所述多个剩余语料词汇中的任一剩余语料词汇之间的相似度小于所述第一阈值;
将所述多个剩余检索词汇进行乱序组合,得到至少一个新增检索词汇;
将所述多个剩余语料词汇进行乱序组合,得到至少一个新增语料词汇;
若第二检索词汇与第二语料词汇的相似度小于第二阈值,则在所述第二检索词汇与所述第二语料词汇满足映射条件时,在所述第二检索词汇与所述第二语料词汇之间建立映射关系;
若所述第二检索词汇与所述第二语料词汇的相似度超过第二阈值,则在所述第二检索词汇与所述第二语料词汇之间建立映射关系,使所述第二检索词汇与所述第二语料词汇成为具备映射关系的词汇对;
其中,所述第二检索词汇为所述至少一个新增检索词汇中的任一词汇,所述第二语料词汇为所述至少一个新增语料词汇中的任一词汇。
8.如权利要求1所述的方法,其特征在于,所述获取所述检索数据对应的平行语料包括:
响应于针对检索数据的修改指令,将所述修改指令所指示修改的变换数据确定为所述检索数据对应的平行语料,所述修改指令用于指示将所述检索数据修改为所述变换数据,以进行检索。
9.如权利要求1所述的方法,其特征在于,所述获取所述检索数据对应的平行语料包括:
响应于针对推荐数据的操作指令,将所述推荐数据确定为所述检索数据对应的平行语料,所述推荐数据为在未检索到所述检索数据后,基于所述检索数据而推荐的数据。
10.如权利要求9所述的方法,其特征在于,所述将所述推荐数据确定为所述检索数据对应的平行语料包括:
计算所述推荐数据和所述检索数据之间的相关度;
若所述相关度大于或等于第三阈值,则将所述推荐数据确定为所述检索数据对应的平行语料。
11.根据权利要求1所述的方法,其特征在于,所述获取所述检索数据对应的平行语料包括:
获取检索数据对应的至少一个初始语料;
对所述至少一个初始语料进行筛选,得到所述检索数据对应的平行语料。
12.根据权利要求11所述的方法,其特征在于,所述对所述至少一个初始语料进行筛选,得到所述检索数据对应的平行语料包括:
对所述至少一个初始语料进行分类,得到至少一个分类集合,每个所述分类集合中包括至少一个初始语料;
对每个所述分类集合中的至少一个初始语料进行筛选,保留所述每个分类集合中的一个初始语料,作为所述检索数据对应的平行语料。
13.根据权利要求1-12中任一项所述的方法,其特征在于,所述方法包括:
获取待检索数据;
根据所述纠错词典对所述待检索数据进行纠错,得到所述待检索数据对应的纠错检索数据;
采用所述纠错检索数据进行数据检索,得到所述待检索数据对应的检索结果。
14.一种纠错词典构建装置,其特征在于,包括:
获取单元,用于获取检索数据及所述检索数据对应的平行语料;
扩展单元,用于对所述检索数据以及所述平行语料进行扩展,得到检索词汇集合和语料词汇集合,所述检索词汇集合包括至少一个检索词汇,所述语料词汇集合包括至少一个语料词汇;
查询单元,用于针对所述检索词汇集合和所述语料词汇集合中相似度小于第一阈值的词汇,获取满足映射条件的词汇对,将所述检索词汇集合和所述语料词汇集合中相似度大于或等于所述第一阈值的词汇对及所述满足映射条件的词汇对,确定为具备映射关系的词汇对,所述词汇对包括目标检索词汇及目标语料词汇,所述目标检索词汇来自所述检索词汇集合,所述目标语料词汇来自所述语料词汇集合;所述映射条件包括词乱序或词缺失映射条件;
构建单元,用于将所述词汇对中的目标检索词汇及目标语料词汇进行文本向量化,对应得到检索词向量及语料词向量;
所述构建单元,还用于若所述检索词向量与所述语料词向量的相似度超过第三阈值,则将所述词汇对添加到所述检索数据对应的纠错词典。
15.一种终端,包括输入设备和输出设备,其特征在于,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如上权利要求1-13任一项所述的纠错词典构建方法。
16.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如上权利要求1-13任一项所述的纠错词典构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910861642.3A CN110738042B (zh) | 2019-09-12 | 2019-09-12 | 纠错词典创建方法、装置、终端及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910861642.3A CN110738042B (zh) | 2019-09-12 | 2019-09-12 | 纠错词典创建方法、装置、终端及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110738042A CN110738042A (zh) | 2020-01-31 |
CN110738042B true CN110738042B (zh) | 2024-01-05 |
Family
ID=69267491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910861642.3A Active CN110738042B (zh) | 2019-09-12 | 2019-09-12 | 纠错词典创建方法、装置、终端及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110738042B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560846B (zh) * | 2020-12-23 | 2022-03-15 | 北京百度网讯科技有限公司 | 纠错语料的生成方法、装置及电子设备 |
CN116050391B (zh) * | 2022-11-17 | 2024-05-14 | 西安电子科技大学广州研究院 | 基于细分行业纠错词表的语音识别纠错方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102110174A (zh) * | 2011-04-11 | 2011-06-29 | 重庆大学 | 一种基于关键词的web服务器扩展检索方法 |
CN103425687A (zh) * | 2012-05-21 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 一种基于关键词的检索方法和*** |
CN105468719A (zh) * | 2015-11-20 | 2016-04-06 | 北京齐尔布莱特科技有限公司 | 一种查询纠错方法、装置和计算设备 |
CN105843801A (zh) * | 2016-03-25 | 2016-08-10 | 北京语言大学 | 多译本平行语料库的构建*** |
CN108009276A (zh) * | 2017-12-19 | 2018-05-08 | 北京云知声信息技术有限公司 | 字典搜索方法、***及比较装置 |
CN108509474A (zh) * | 2017-09-15 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 搜索信息的同义词扩展方法及装置 |
CN108920473A (zh) * | 2018-07-04 | 2018-11-30 | 中译语通科技股份有限公司 | 一种基于同类词与同义词替换的数据增强机器翻译方法 |
CN109284397A (zh) * | 2018-09-27 | 2019-01-29 | 深圳大学 | 一种领域词典的构建方法、装置、设备及存储介质 |
CN109783690A (zh) * | 2019-02-18 | 2019-05-21 | 北京奇艺世纪科技有限公司 | 一种视频查询方法及装置 |
-
2019
- 2019-09-12 CN CN201910861642.3A patent/CN110738042B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102110174A (zh) * | 2011-04-11 | 2011-06-29 | 重庆大学 | 一种基于关键词的web服务器扩展检索方法 |
CN103425687A (zh) * | 2012-05-21 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 一种基于关键词的检索方法和*** |
CN105468719A (zh) * | 2015-11-20 | 2016-04-06 | 北京齐尔布莱特科技有限公司 | 一种查询纠错方法、装置和计算设备 |
CN105843801A (zh) * | 2016-03-25 | 2016-08-10 | 北京语言大学 | 多译本平行语料库的构建*** |
CN108509474A (zh) * | 2017-09-15 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 搜索信息的同义词扩展方法及装置 |
CN108009276A (zh) * | 2017-12-19 | 2018-05-08 | 北京云知声信息技术有限公司 | 字典搜索方法、***及比较装置 |
CN108920473A (zh) * | 2018-07-04 | 2018-11-30 | 中译语通科技股份有限公司 | 一种基于同类词与同义词替换的数据增强机器翻译方法 |
CN109284397A (zh) * | 2018-09-27 | 2019-01-29 | 深圳大学 | 一种领域词典的构建方法、装置、设备及存储介质 |
CN109783690A (zh) * | 2019-02-18 | 2019-05-21 | 北京奇艺世纪科技有限公司 | 一种视频查询方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110738042A (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bennani-Smires et al. | Simple unsupervised keyphrase extraction using sentence embeddings | |
US11222167B2 (en) | Generating structured text summaries of digital documents using interactive collaboration | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN109635273B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
JP6544756B2 (ja) | 画像の高次元特徴の類似性を比較するための方法及びデバイス | |
US8055498B2 (en) | Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary | |
CN104462085B (zh) | 检索关键词纠错方法及装置 | |
US20170337260A1 (en) | Method and device for storing data | |
Yan et al. | Named entity recognition by using XLNet-BiLSTM-CRF | |
US20180173694A1 (en) | Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion | |
CN107885852B (zh) | 一种基于app使用记录的app推荐方法及*** | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
CN111459977B (zh) | 自然语言查询的转换 | |
CN112434167B (zh) | 一种信息识别方法及装置 | |
CN117235226A (zh) | 一种基于大语言模型的问题应答方法及装置 | |
CN108875743B (zh) | 一种文本识别方法及装置 | |
JP6722615B2 (ja) | クエリクラスタリング装置、方法、及びプログラム | |
CN110738042B (zh) | 纠错词典创建方法、装置、终端及计算机存储介质 | |
Wang et al. | Spanproto: A two-stage span-based prototypical network for few-shot named entity recognition | |
CN107145509B (zh) | 一种信息搜索方法及其设备 | |
Yao et al. | Mobile phone name extraction from internet forums: a semi-supervised approach | |
JP2016134037A (ja) | 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法 | |
CN107329964B (zh) | 一种文本处理方法及装置 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN105373236B (zh) | 一种学词方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |