CN106202153B - 一种es搜索引擎的拼写纠错方法及*** - Google Patents

一种es搜索引擎的拼写纠错方法及*** Download PDF

Info

Publication number
CN106202153B
CN106202153B CN201610464337.7A CN201610464337A CN106202153B CN 106202153 B CN106202153 B CN 106202153B CN 201610464337 A CN201610464337 A CN 201610464337A CN 106202153 B CN106202153 B CN 106202153B
Authority
CN
China
Prior art keywords
model
error
candidate word
correcting
spelling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610464337.7A
Other languages
English (en)
Other versions
CN106202153A (zh
Inventor
刘桂良
赖旦冉
杨国辉
宣明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Chile Mdt Infotech Ltd
Original Assignee
Guangzhou Chile Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Chile Mdt Infotech Ltd filed Critical Guangzhou Chile Mdt Infotech Ltd
Priority to CN201610464337.7A priority Critical patent/CN106202153B/zh
Publication of CN106202153A publication Critical patent/CN106202153A/zh
Application granted granted Critical
Publication of CN106202153B publication Critical patent/CN106202153B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种ES搜索引擎的拼写纠错方法及***,涉及信息技术领域,所述方法包括采用ansj分词器将用户输入的拼写内容分为若干个词条;对每一个词条依次进行错误检测,若存在错误词条,则在错误模型库中查找与错误词条匹配的错误模型,并在匹配的错误模型中获取与错误词条对应的纠正候选词;根据匹配的错误模型计算每个纠正候选词在每种匹配的错误模型下的得分,并根据每种匹配的错误模型下的得分构成得分向量;采用L2R模型对得分向量进行处理,生成错误模型的评分,并根据错误模型的评分和语言模型确定出每个纠正候选词的总分;确定总分中得分最高的纠正候选词作为正确的候选词进行显示。本发明提高了拼写纠错的准确度。

Description

一种ES搜索引擎的拼写纠错方法及***
技术领域
本发明涉及信息技术领域,尤其涉及一种ES搜索引擎的拼写纠错方法及***。
背景技术
Elastic Search(简称ES)是一个基于Lucene的搜索服务器,其提供了一个分布式多用户能力的全文搜索引擎,是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。目前,搜索引擎中的拼写纠错,也称拼写检查,是一种被各类搜索引擎广泛应用的功能,能够根据用户输入的错误的查询内容返回正确的查询请求。
现有技术中的拼写纠错方法通常为:依据用户的搜索日志统计提供纠错词后用户点击输入查询词的搜索结果的次数、用户点击纠错词的次数以及点击纠错词的搜索结果的次数;利用统计的用户点击输入查询词的搜索结果的次数、用户点击纠错词的次数以及点击纠错词的搜索结果的次数计算纠错词的纠错优劣值,并依据纠错优劣值生成纠错词的检测结果。但上述现有技术中,只是根据用户的搜索日志进行统计的,若用户的搜索日志不全面,或用户的搜索日志内也存在错误词,则会导致检测结果不准确,即拼写纠错的准确度低。
发明内容
有鉴于此,本发明提供一种ES搜索引擎的拼写纠错方法及***,其在扩展纠错种类的同时,提高了拼写纠错的准确度。
本发明通过以下技术手段解决上述问题:
本发明的一种ES搜索引擎的拼写纠错方法,包括:采用ansj分词器将用户输入的拼写内容分为若干个词条,其中,所述拼写内容包括拼音、汉字或英文;对每一个词条依次进行错误检测,若存在错误词条,则在错误模型库中查找与所述错误词条匹配的错误模型,并在匹配的错误模型中获取与所述错误词条对应的纠正候选词;根据匹配的错误模型计算每个纠正候选词在每种匹配的错误模型下的得分,并根据每种匹配的错误模型下的得分构成得分向量;采用L2R模型对每个纠正候选词的得分向量进行处理,生成错误模型的评分,并根据所述错误模型的得分和语言模型确定出每个纠正候选词的总分;确定每个纠正候选词的总分中得分最高的纠正候选词,并将得分最高的纠正候选词作为正确的候选词进行显示。
进一步,所述语言模型为纠正候选词在文档中的出现次数与文档中所有字数的比值。
进一步,所述错误模型库包括拼音索引模型;所述拼音索引模型IndexInput_PY=<PingYin,word1,word2......wordn>;其中,IndexInput_PY为拼音索引模型,PingYin是纠正候选词的拼音,word为拼音对应的汉字,n为大于等于1的整数。
进一步,所述错误模型库还包括编辑距离模型;所述编辑距离模型其中,P1(w|c)为编辑距离模型,w为错误词条,c为正确的纠正候选词,Distedit(w,c)为错误词条到正确的纠正候选词之间的编辑距离,length(w)为错误词条的长度,length(c)为正确的纠正候选词的长度,MAX为取最大值。
进一步,所述错误模型库还包括英文语音纠错模型,所述英文语音纠错模型是根据英文发音分别计算纠错候选词为英文的英语读音编码和错误词条为英文的英语读音编码,当c与w的英语读音编码相同时,则P2(w|c)=1;当c与w的英语读音编码不相同时,则P2(w|c)=0;其中,P2(w|c)为英文语音纠错模型,所述英语读音编码为Double MetaphoneCode。
进一步,所述错误模型库还包括汉语的拼音纠错模型;采用开源项目pinyin4j将纠正候选词为汉字的转化为汉语拼音,将错误词条为汉字的转化为汉语拼音,并根据所述编辑距离模型计算错误词条到正确的纠正候选词的汉语拼音之间的编辑距离,得到汉语的拼音纠错模型P3(w|c)。
进一步,所述错误模型库还包括受控词汇纠错模型;将正确的纠正候选词与对应的受控词一一对应存储在受控词汇列表中,并记录P(s|c)=1,其中,P(s|c)为受控词汇纠错模型。
进一步,所述错误模型库还包括用户日志纠错;根据预设时间间隔确定出用户日志的查询时间段,并通过所述编辑距离模型查找每个查询时间段内用户日志中的相似词,并根据预先存储的词频信息确定正确的候选纠错词与错误词条对,得到用户日志纠错模型其中,P3(w|c)为用户日志纠错模型,P(w,c)为用户日志中正确的候选纠错词与错误词条同时出现的概率,P(c)为用户日志中正确的候选纠错词出现的概率。
本发明的一种ES搜索引擎的拼写纠错方法具有以下有益效果:
本发明提供了一种ES搜索引擎的拼写纠错方法,若确定有错误词条,则在错误模型库中查找与错误词条匹配的错误模型,并在匹配的错误模型中获取与错误词条对应的纠正候选词,计算每个纠正候选词在每种匹配的错误模型下的得分,得到得分向量,最后采用L2R模型对得分向量进行处理,生成错误模型的评分,并根据错误模型的得分和语言模型确定出每个纠正候选词的总分,并将总分中得分最高的纠正候选词作为正确的候选词进行显示,从而实现了拼写纠错过程,上述拼写纠错过程中,结合了错误模型库中的多种错误模型,使得纠正错误的种类更加全面,同时采用L2R模型得出得分向量的评分,再根据得分向量的评分和语言模型最终确定出的每个纠正候选词的总分,且最终将得分最高的纠正候选词作为正确的候选词进行显示,提高了拼写纠错的准确度。综上所述,本发明在扩展纠错种类的同时,提高了拼写纠错的准确度。
本发明的一种ES搜索引擎的拼写纠错***,包括:处理单元,用于采用ansj分词器将用户输入的拼写内容分为若干个词条,其中,所述拼写内容包括拼音、汉字或英文;检测单元,用于对每一个词条依次进行错误检测,若存在错误词条,则在错误模型库中查找与所述错误词条匹配的错误模型,并在匹配的错误模型中获取与所述错误词条对应的纠正候选词;计算单元,用于根据匹配的错误模型计算每个纠正候选词在每种匹配的错误模型下的得分,并根据每种匹配的错误模型下的得分构成得分向量;确定单元,采用L2R模型对每个纠正候选词的得分向量进行处理,生成错误模型的评分,并根据所述错误模型的得分和语言模型确定出每个纠正候选词的总分;所述确定单元,还用于确定每个纠正候选词的总分中得分最高的纠正候选词,并将得分最高的纠正候选词作为正确的候选词进行显示。
进一步,所述错误模型库包括拼音索引模型、编辑距离模型、英文语音纠错模型、汉语的拼音纠错模型、受控词汇纠错模型和用户日志纠错模型中的至少一种。
本发明的一种ES搜索引擎的拼写纠错***具有以下有益效果:
本发明提供了一种ES搜索引擎的拼写纠错***,若确定有错误词条,则在错误模型库中查找与错误词条匹配的错误模型,并在匹配的错误模型中获取与错误词条对应的纠正候选词,计算每个纠正候选词在每种匹配的错误模型下的得分,得到得分向量,最后采用L2R模型对得分向量进行处理,生成错误模型的评分,并根据错误模型的得分和语言模型确定出每个纠正候选词的总分,并将总分中得分最高的纠正候选词作为正确的候选词进行显示,从而实现了拼写纠错过程,上述拼写纠错过程中,结合了错误模型库中的多种错误模型,使得纠正错误的种类更加全面,同时采用L2R模型得出得分向量的评分,再根据得分向量的评分和语言模型最终确定出的每个纠正候选词的总分,且最终将得分最高的纠正候选词作为正确的候选词进行显示,提高了拼写纠错的准确度。综上所述,本发明在扩展纠错种类的同时,提高了拼写纠错的准确度。
附图说明
图1是本发明提供的一种ES搜索引擎的拼写纠错方法的流程示意图;
图2是本发明提供的一种ES搜索引擎的拼写纠错***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的一种ES搜索引擎的拼写纠错方法的流程示意图,包括如下步骤:
101、采用ansj分词器将用户输入的拼写内容分为若干个词条。
其中,所述拼写内容包括拼音、汉字或英文。
具体的,首先获取用户输入的拼写内容,然后调用分词器将用户输入的拼写内容分为若干个词条。
需要说明的是,若用户输入的拼写内容为单个拼音、单个汉字或单个英文时,则词条的个数为1;若用户输入的拼写内容为多个拼音、多个汉字或多个英文组成的句子时,则词条的个数至少为2。
102、对每一个词条依次进行错误检测,若存在错误词条,则在错误模型库中查找与所述错误词条匹配的错误模型,并在匹配的错误模型中获取与所述错误词条对应的纠正候选词。
本实施例中,所述错误模型库包括拼音索引模型;
所述拼音索引模型IndexInput_PY=<PingYin,word1,word2......wordn>;
其中,IndexInput_PY为拼音索引模型,PingYin是纠正候选词的拼音,word为拼音对应的汉字,n为大于等于1的整数。
进一步的,所述错误模型库还包括编辑距离模型;
所述编辑距离模型
其中,P1(w|c)为编辑距离模型,w为错误词条,c为正确的纠正候选词,Distedit(w,c)为错误词条到正确的纠正候选词之间的编辑距离,length(w)为错误词条的长度,length(c)为正确的纠正候选词的长度,MAX为取最大值。
进一步的,所述错误模型库还包括英文语音纠错模型,所述英文语音纠错模型是根据英文发音分别计算纠错候选词为英文的英语读音编码和错误词条为英文的英语读音编码,当c与w的英语读音编码相同时,则P2(w|c)=1;当c与w的英语读音编码不相同时,则P2(w|c)=0;
其中,P2(w|c)为英文语音纠错模型,所述英语读音编码为Double MetaphoneCode。
进一步的,所述错误模型库还包括汉语的拼音纠错模型;
采用开源项目pinyin4j将纠正候选词为汉字的转化为汉语拼音,将错误词条为汉字的转化为汉语拼音,并根据所述编辑距离模型计算错误词条到正确的纠正候选词的汉语拼音之间的编辑距离,得到汉语的拼音纠错模型P3(w|c)。
进一步的,所述错误模型库还包括受控词汇纠错模型;
将正确的纠正候选词与对应的受控词一一对应存储在受控词汇列表中,并记录P(s|c)=1,其中,P(s|c)为受控词汇纠错模型。
进一步的,所述错误模型库还包括用户日志纠错;
根据预设时间间隔确定出用户日志的查询时间段,并通过所述编辑距离模型查找每个查询时间段内用户日志中的相似词,并根据预先存储的词频信息确定正确的候选纠错词与错误词条对,得到用户日志纠错模型
其中,P3(w|c)为用户日志纠错模型,P(w,c)为用户日志中正确的候选纠错词与错误词条同时出现的概率,P(c)为用户日志中正确的候选纠错词出现的概率。
103、根据匹配的错误模型计算每个纠正候选词在每种匹配的错误模型下的得分,并根据每种匹配的错误模型下的得分构成得分向量。
104、采用L2R模型对每个纠正候选词的得分向量进行处理,生成错误模型的评分,并根据所述错误模型的得分和语言模型确定出每个纠正候选词的总分。
其中,所述语言模型为纠正候选词在文档中的出现次数与文档中所有字数的比值。
具体的,L2R模型是一种监督学习的机器学习排序算法,通过对标注过的训练数据进行学习,将多种排序模型融合起来并产生最优的排序,从而产生对应的纠错词汇。目前L2R模型的训练方法主要有三种,分别是单文档方法,文档对方法以及文档列表方法,其中单文档方法的处理对象是单一词汇,它通过将词汇转化为特征向量后,使用机器学习中常规的分类方法或回归方法来解决排序问题;文档对方法主要是将排序问题归结为二元分类问题,学习目标也转化成了两个词汇的优先顺序问题,这样就可以引入一些经典的二分类方法,例如,通过支持向量机SVM和神经网络等来学习;文档列表方法是将词汇排序的结果列表作为训练数据,通过找到最优的评分函数来解决排序问题。在本发明中采用的是单文档方法,其在保证训练效果的同时,降低训练集的构造难度,虽然算法的复杂度比较高,但是相较于其他两种方法,单文档方法更能专注于自己学习的目标,从而能够获得好的效果。
105、确定每个纠正候选词的总分中得分最高的纠正候选词,并将得分最高的纠正候选词作为正确的候选词进行显示。
具体的,将每个纠正候选词的总分按照从大到小进行排序,最终从排序中获取得分最高的纠正候选词,并将得分最高的候选词确定为正确的候选词显示在输入栏。
需要说明的是,为了保证快速的查询响应,本发明将错误模型库和语言模型均存储在redis等高速缓存中。
本发明提供了一种ES搜索引擎的拼写纠错方法,若确定有错误词条,则在错误模型库中查找与错误词条匹配的错误模型,并在匹配的错误模型中获取与错误词条对应的纠正候选词,计算每个纠正候选词在每种匹配的错误模型下的得分,得到得分向量,最后采用L2R模型对得分向量进行处理,生成错误模型的评分,并根据错误模型的得分和语言模型确定出每个纠正候选词的总分,并将总分中得分最高的纠正候选词作为正确的候选词进行显示,从而实现了拼写纠错过程,上述拼写纠错过程中,结合了错误模型库中的多种错误模型,使得纠正错误的种类更加全面,同时采用L2R模型得出得分向量的评分,再根据得分向量的评分和语言模型最终确定出的每个纠正候选词的总分,且最终将得分最高的纠正候选词作为正确的候选词进行显示,提高了拼写纠错的准确度。综上所述,本发明在扩展纠错种类的同时,提高了拼写纠错的准确度。
如图2所示,其为本发明提供的一种ES搜索引擎的拼写纠错***的功能示意图,包括:处理单元201、检测单元202、计算单元203和确定单元204。
所述处理单元201,用于采用ansj分词器将用户输入的拼写内容分为若干个词条。
其中,所述拼写内容包括拼音、汉字或英文。
所述检测单元202,用于对每一个词条依次进行错误检测,若存在错误词条,则在错误模型库中查找与所述错误词条匹配的错误模型,并在匹配的错误模型中获取与所述错误词条对应的纠正候选词。
其中,所述错误模型库包括拼音索引模型、编辑距离模型、英文语音纠错模型、汉语的拼音纠错模型、受控词汇纠错模型和用户日志纠错模型中的至少一种。
所述计算单元203,用于根据匹配的错误模型计算每个纠正候选词在每种匹配的错误模型下的得分,并根据每种匹配的错误模型下的得分构成得分向量。
所述确定单元204,采用L2R模型对每个纠正候选词的得分向量进行处理,生成错误模型的评分,并根据所述错误模型的得分和语言模型确定出每个纠正候选词的总分。
所述确定单元204,还用于确定每个纠正候选词的总分中得分最高的纠正候选词,并将得分最高的纠正候选词作为正确的候选词进行显示。
本发明提供了一种ES搜索引擎的拼写纠错***,若确定有错误词条,则在错误模型库中查找与错误词条匹配的错误模型,并在匹配的错误模型中获取与错误词条对应的纠正候选词,计算每个纠正候选词在每种匹配的错误模型下的得分,得到得分向量,最后采用L2R模型对得分向量进行处理,生成错误模型的评分,并根据错误模型的得分和语言模型确定出每个纠正候选词的总分,并将总分中得分最高的纠正候选词作为正确的候选词进行显示,从而实现了拼写纠错过程,上述拼写纠错过程中,结合了错误模型库中的多种错误模型,使得纠正错误的种类更加全面,同时采用L2R模型得出得分向量的评分,再根据得分向量的评分和语言模型最终确定出的每个纠正候选词的总分,且最终将得分最高的纠正候选词作为正确的候选词进行显示,提高了拼写纠错的准确度。综上所述,本发明在扩展纠错种类的同时,提高了拼写纠错的准确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.一种ES搜索引擎的拼写纠错方法,其特征在于,包括:
采用ansj分词器将用户输入的拼写内容分为若干个词条,其中,所述拼写内容包括拼音、汉字或英文;
对每一个词条依次进行错误检测,若存在错误词条,则在错误模型库中查找与所述错误词条匹配的错误模型,并在匹配的错误模型中获取与所述错误词条对应的纠正候选词;
根据匹配的错误模型计算每个纠正候选词在每种匹配的错误模型下的得分,并根据每种匹配的错误模型下的得分构成得分向量;
采用L2R模型对每个纠正候选词的得分向量进行处理,生成错误模型的评分,并根据所述错误模型的得分和语言模型确定出每个纠正候选词的总分;
确定每个纠正候选词的总分中得分最高的纠正候选词,并将得分最高的纠正候选词作为正确的候选词进行显示;所述语言模型为纠正候选词在文档中的出现次数与文档中所有字数的比值。
2.如权利要求1所述的一种ES搜索引擎的拼写纠错方法,其特征在于,所述错误模型库包括拼音索引模型;
所述拼音索引模型IndexInput_PY=<PingYin,word1,word2......wordn>;
其中,IndexInput_PY为拼音索引模型,PingYin是纠正候选词的拼音,word为拼音对应的汉字,n为大于等于1的整数。
3.如权利要求2所述的一种ES搜索引擎的拼写纠错方法,其特征在于,所述错误模型库还包括编辑距离模型;
所述编辑距离模型
其中,P1(w|c)为编辑距离模型,w为错误词条,c为正确的纠正候选词,Distedit(w,c)为错误词条到正确的纠正候选词之间的编辑距离,length(w)为错误词条的长度,length(c)为正确的纠正候选词的长度,MAX为取最大值。
4.如权利要求3所述的一种ES搜索引擎的拼写纠错方法,其特征在于,所述错误模型库还包括英文语音纠错模型,所述英文语音纠错模型是根据英文发音分别计算纠错候选词为英文的英语读音编码和错误词条为英文的英语读音编码,当c与w的英语读音编码相同时,则P2(w|c)=1;当c与w的英语读音编码不相同时,则P2(w|c)=0;
其中,P2(w|c)为英文语音纠错模型,所述英语读音编码为Double Metaphone Code。
5.如权利要求4所述的一种ES搜索引擎的拼写纠错方法,其特征在于,所述错误模型库还包括汉语的拼音纠错模型;
采用开源项目pinyin4j将纠正候选词为汉字的转化为汉语拼音,将错误词条为汉字的转化为汉语拼音,并根据所述编辑距离模型计算错误词条到正确的纠正候选词的汉语拼音之间的编辑距离,得到汉语的拼音纠错模型P3(wc)。
6.如权利要求5所述的一种ES搜索引擎的拼写纠错方法,其特征在于,所述错误模型库还包括受控词汇纠错模型;
将正确的纠正候选词与对应的受控词一一对应存储在受控词汇列表中,并记录P(s|c)=1,其中,P(s|c)为受控词汇纠错模型。
7.如权利要求6所述的一种ES搜索引擎的拼写纠错方法,其特征在于,所述错误模型库还包括用户日志纠错;
根据预设时间间隔确定出用户日志的查询时间段,并通过所述编辑距离模型查找每个查询时间段内用户日志中的相似词,并根据预先存储的词频信息确定正确的候选纠错词与错误词条对,得到用户日志纠错模型
其中,P3(w|c)为用户日志纠错模型,P(w,c)为用户日志中正确的候选纠错词与错误词条同时出现的概率,P(c)为用户日志中正确的候选纠错词出现的概率。
8.一种ES搜索引擎的拼写纠错***,其特征在于,包括:
处理单元,用于采用ansj分词器将用户输入的拼写内容分为若干个词条,其中,所述拼写内容包括拼音、汉字或英文;
检测单元,用于对每一个词条依次进行错误检测,若存在错误词条,则在错误模型库中查找与所述错误词条匹配的错误模型,并在匹配的错误模型中获取与所述错误词条对应的纠正候选词;
计算单元,用于根据匹配的错误模型计算每个纠正候选词在每种匹配的错误模型下的得分,并根据每种匹配的错误模型下的得分构成得分向量;
确定单元,采用L2R模型对每个纠正候选词的得分向量进行处理,生成错误模型的评分,并根据所述错误模型的得分和语言模型确定出每个纠正候选词的总分,所述语言模型为纠正候选词在文档中的出现次数与文档中所有字数的比值;
所述确定单元,还用于确定每个纠正候选词的总分中得分最高的纠正候选词,并将得分最高的纠正候选词作为正确的候选词进行显示。
9.如权利要求8所述的一种ES搜索引擎的拼写纠错***,其特征在于,所述错误模型库包括拼音索引模型、编辑距离模型、英文语音纠错模型、汉语的拼音纠错模型、受控词汇纠错模型和用户日志纠错模型中的至少一种。
CN201610464337.7A 2016-06-21 2016-06-21 一种es搜索引擎的拼写纠错方法及*** Expired - Fee Related CN106202153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610464337.7A CN106202153B (zh) 2016-06-21 2016-06-21 一种es搜索引擎的拼写纠错方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610464337.7A CN106202153B (zh) 2016-06-21 2016-06-21 一种es搜索引擎的拼写纠错方法及***

Publications (2)

Publication Number Publication Date
CN106202153A CN106202153A (zh) 2016-12-07
CN106202153B true CN106202153B (zh) 2019-09-17

Family

ID=57460968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610464337.7A Expired - Fee Related CN106202153B (zh) 2016-06-21 2016-06-21 一种es搜索引擎的拼写纠错方法及***

Country Status (1)

Country Link
CN (1) CN106202153B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107045496B (zh) * 2017-04-19 2021-01-05 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN107330057B (zh) * 2017-06-29 2020-08-07 哈尔滨工程大学科技园发展有限公司 一种ElasticSearch搜索相关度算法优化方法及***
CN109597983B (zh) * 2017-09-30 2022-11-04 北京国双科技有限公司 一种拼写纠错方法及装置
CN108491392A (zh) * 2018-03-29 2018-09-04 广州视源电子科技股份有限公司 文字拼写错误的修正方法、***、计算机设备及存储介质
CN108519973A (zh) * 2018-03-29 2018-09-11 广州视源电子科技股份有限公司 文字拼写的检测方法、***、计算机设备及存储介质
CN108563632A (zh) * 2018-03-29 2018-09-21 广州视源电子科技股份有限公司 文字拼写错误的修正方法、***、计算机设备及存储介质
CN108595419B (zh) * 2018-04-11 2022-05-03 广州视源电子科技股份有限公司 候选词评估方法、候选词排序方法及装置
CN108733646B (zh) * 2018-04-11 2022-09-06 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN108694167B (zh) * 2018-04-11 2022-09-06 广州视源电子科技股份有限公司 候选词评估方法、候选词排序方法及装置
CN108681533B (zh) * 2018-04-11 2022-04-19 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN108628826B (zh) * 2018-04-11 2022-09-06 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN108647202B (zh) * 2018-04-11 2022-09-06 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN108664467B (zh) * 2018-04-11 2022-09-06 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN108829674A (zh) * 2018-06-08 2018-11-16 Oppo(重庆)智能科技有限公司 内容纠错方法及相关装置
CN109085932B (zh) * 2018-08-17 2023-07-25 科大讯飞股份有限公司 一种候选词条调整方法、装置、设备及可读存储介质
CN111310440B (zh) * 2018-11-27 2023-05-30 阿里巴巴集团控股有限公司 文本的纠错方法、装置和***
CN109614621B (zh) * 2018-12-11 2023-09-19 ***通信集团江苏有限公司 一种校正文本的方法、装置及设备
CN111462748B (zh) * 2019-01-22 2023-09-26 北京猎户星空科技有限公司 语音识别处理方法、装置、电子设备及存储介质
CN111797614B (zh) * 2019-04-03 2024-05-28 阿里巴巴集团控股有限公司 文本处理方法及装置
CN110188274B (zh) * 2019-05-30 2021-06-08 口口相传(北京)网络技术有限公司 搜索纠错方法及装置
US11328712B2 (en) * 2019-08-02 2022-05-10 International Business Machines Corporation Domain specific correction of output from automatic speech recognition
CN110489723A (zh) * 2019-08-19 2019-11-22 绍兴数纺科技有限公司 一种印染行业信息***的数据查错与纠错***
CN113095072A (zh) * 2019-12-23 2021-07-09 华为技术有限公司 文本处理方法及装置
CN111783433A (zh) * 2019-12-26 2020-10-16 北京沃东天骏信息技术有限公司 一种文本检索纠错方法和装置
CN113553398B (zh) * 2021-07-15 2024-01-26 杭州网易云音乐科技有限公司 搜索词纠正方法、装置、电子设备及计算机存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838739B (zh) * 2012-11-21 2019-05-28 百度在线网络技术(北京)有限公司 一种搜索引擎中纠错词的检测方法及***
KR101483433B1 (ko) * 2013-03-28 2015-01-16 (주)이스트소프트 오타 교정 시스템 및 오타 교정 방법
CN104298672B (zh) * 2013-07-16 2018-09-11 北京搜狗科技发展有限公司 一种输入的纠错方法和装置
CN105550171B (zh) * 2015-12-31 2018-10-16 北京奇艺世纪科技有限公司 一种垂直搜索引擎的查询信息纠错方法和***

Also Published As

Publication number Publication date
CN106202153A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN106202153B (zh) 一种es搜索引擎的拼写纠错方法及***
Duan et al. Online spelling correction for query completion
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和***
Xue et al. Normalizing microtext
US7818332B2 (en) Query speller
CN103885938B (zh) 基于用户反馈的行业拼写错误检查方法
Nuhn et al. Beam search for solving substitution ciphers
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
Li et al. Improving text normalization using character-blocks based models and system combination
US20090006075A1 (en) Phonetic search using normalized string
Noaman et al. Automatic Arabic spelling errors detection and correction based on confusion matrix-noisy channel hybrid system
Xiong et al. HANSpeller: a unified framework for Chinese spelling correction
Li et al. Dimsim: An accurate chinese phonetic similarity algorithm based on learned high dimensional encoding
CN112447172B (zh) 一种语音识别文本的质量提升方法和装置
CN101369285B (zh) 一种中文搜索引擎中查询词的拼写校正方法
Doval et al. On the performance of phonetic algorithms in microtext normalization
Wang et al. Improving handwritten Chinese text recognition by unsupervised language model adaptation
Yang et al. Spell Checking for Chinese.
Li et al. Cloudspeller: Spelling correction for search queries by using a unified hidden markov model with web-scale resources
UzZaman et al. A comprehensive bangla spelling checker
Torunoglu-Selamet et al. Exploring spelling correction approaches for turkish
Li Query spelling correction
CN109727591B (zh) 一种语音搜索的方法及装置
Hasan et al. SweetCoat-2D: Two-Dimensional Bangla Spelling Correction and Suggestion Using Levenshtein Edit Distance and String Matching Algorithm
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190917

Termination date: 20200621

CF01 Termination of patent right due to non-payment of annual fee