CN111382260A - 一种检索文本纠错方法、装置和存储介质 - Google Patents
一种检索文本纠错方法、装置和存储介质 Download PDFInfo
- Publication number
- CN111382260A CN111382260A CN202010182740.7A CN202010182740A CN111382260A CN 111382260 A CN111382260 A CN 111382260A CN 202010182740 A CN202010182740 A CN 202010182740A CN 111382260 A CN111382260 A CN 111382260A
- Authority
- CN
- China
- Prior art keywords
- text
- retrieval
- error correction
- retrieved
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种检索文本纠错方法、装置和存储介质,其中,通过接收输入的待检索文本,并对待检索文本进行局部替换或全部替换,得到纠错文本;然后将纠错文本以及待检索文本设为候选检索文本,得到多个候选检索文本;再调用预先训练的评分函数对候选检索文本进行评分,得到候选检索文本的评分;最后根据各候选检索文本的评分,从多个所述候选检索文本中选取出用于检索的目标检索文本。其中,从多个候选检索文本中筛选出的目标检索文本最可能为用户实际期望的检索文本,将该目标检索文本提供给检索服务器进行检索,能够提高获得期望检索结果的概率。
Description
技术领域
本发明涉及检索技术领域,具体涉及一种检索文本纠错方法、装置和存储介质。
背景技术
目前,当需要检索信息时,用户可以访问检索服务器提供的检索界面,并在该检索界面输入需要检索的检索文本,之后,检索服务器即根据输入的检索文本进行检索,并在检索界面展示检索到的结果,呈现给用户。比如,用户可以访问音乐检索服务器提供的检索界面,进行音乐文件的检索。
在对现有技术的研究和实践过程中,本发明的发明人发现,当用户无意的错误输入时,使得检索服务器面对的将是无意义的检索文本,无法返回用户期望的检索结果。
发明内容
本发明实施例提供一种检索文本纠错方法、装置和存储介质,能够提高获得期望检索结果的概率。
本发明实施例提供一种检索文本纠错方法,包括:
接收输入的待检索文本,并对所述待检索文本进行局部或全部替换,得到纠错文本;
将所述纠错文本以及所述待检索文本设为候选检索文本,得到多个候选检索文本;
调用预先训练的评分函数对所述候选检索文本进行评分,得到所述候选检索文本的评分;
根据所述候选检索文本的评分,从多个所述候选检索文本中选取出用于检索的目标检索文本。
相应的,本发明实施例还提供一种检索文本纠错装置,包括:
文本纠错模块,用于接收输入的待检索文本,并对所述待检索文本进行局部或全部替换,得到纠错文本;
文本设置模块,用于将所述纠错文本以及所述待检索文本设为候选检索文本,得到多个候选检索文本;
文本评分模块,用于调用预先训练的评分函数对所述候选检索文本进行评分,得到所述候选检索文本的评分;
目标筛选模块,用于根据所述候选检索文本的评分,从多个所述候选检索文本中选取出用于检索的目标检索文本。
此外,本发明实施例还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行本发明实施例所提供的任一种检索文本纠错方法。
本发明实施例中,通过接收输入的待检索文本,并对待检索文本进行局部或全部替换,得到纠错文本;然后将纠错文本以及待检索文本设为候选检索文本,得到多个候选检索文本;再调用预先训练的评分函数对候选检索文本进行评分,得到候选检索文本的评分;最后根据各候选检索文本的评分,从多个所述候选检索文本中选取出用于检索的目标检索文本。其中,从多个候选检索文本中筛选出的目标检索文本最可能为用户实际期望的检索文本,将该目标检索文本提供给检索服务器进行检索,能够提高获得期望检索结果的概率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中进行检索文本纠错的场景示意图;
图2是本发明实施例提供的检索文本纠错方法的一流程示意图;
图3是本发明实施例提供的检索文本纠错方法的一流程示意图;
图4是本发明实施例中对待检索文本“假乙饼丁”的替换路径示意图;
图5是本发明实施例提供的检索文本纠错方法的另一流程示意图;
图6是本发明实施例提供的检索文本纠错装置的结构示意图;
图7是本发明实施例提供的终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种检索文本纠错方法、装置和存储介质,其中,请参照图1,该检索文本纠错装置可以集成在手机、平板电脑等终端中,使得终端可以接收输入的待检索文本,并对待检索文本进行局部替换或全部替换,得到纠错文本;然后将纠错文本以及待检索文本设为候选检索文本,得到多个候选检索文本;再调用预先训练的评分函数对候选检索文本进行评分,得到候选检索文本的评分;最后根据各候选检索文本的评分,从多个所述候选检索文本中选取出用于检索的目标检索文本;之后,终端可以将选取出的目标检索文本发送至检索服务器进行检索,并从检索服务器获取对应的检索结果,以及将获取到检索结果进行展示。
本发明实施例提供一种检索文本纠错方法,在本发明实施例中,将从终端的角度进行描述,如图2所示,该检索文本纠错方法的流程可以如下:
在201中,接收输入的待检索文本,并对待检索文本进行局部替换或全部替换,得到纠错文本。
在信息化社会中,检索作为获取信息的主要方式之一,自其问世以来便受到用户的青睐。目前,通常由检索服务器为用户提供检索服务,比如谷歌、必应、百度等,这些检索服务器以互联网中的各种信息资源为对象,以信息检索的方式提供用户所需的信息,其通过特定的计算机应用程序周期的在互联网上搜集信息,并对搜集到的信息进行提取、整合以及建立索引后,为用户提供检索服务。相应的,为了能够使得检索服务器检索到用户期望的信息,也就需要用户准确的输入期望检索的待检索文本,该待检索文本包括但不限于关键词、关键字等。然而,当用户无意的错误输入时,使得检索服务器面对的将是无意义的检索文本,无法返回用户期望的检索结果。比如,用户希望检索的是“张三”,但是用户在输入时错误的输入成了“张山”,对于这种错误输入,检索服务器可能无法检索到“张三”相关的结果。
为此,本发明实施例所提供的检索文本纠错方法旨在对输入的待检索文本中可能存在的错误进行纠错,最终得到用户实际期望检索的目标检索文本。
其中,终端首先对输入的待检索文本进行接收,比如,终端可以通过展示的检索控件来接收输入的待检索文本,应当说明的是,检索控件可以是终端运行的本地应用所提供,也可以是终端访问检索服务器时,由检索服务器在线提供。例如,请参照图3,终端当前运行音乐类应用“QQ音乐”,QQ音乐提供有输入框形式的检索控件,用于接收用户输入音乐信息类的待检索文本,比如歌曲名、音乐人名等。
此外,还需要说明的是,本发明实施例中还预先设置有用于对待检索文本进行纠错的纠错策略。相应的,终端在接收到输入的待检索文本之后,即可根据预设的纠错策略对输入的待检索文本进行局部或全部替换,通俗的说,终端利用该纠错策略,从待检索文本中查找出可能错误的部分,并将该可能错误的部分替换为用户需要的正确部分,实现对待检索文本的纠错,得到纠错文本。
在一实施例中,“接收输入的待检索文本”之前,还包括:
(1)获取历史检索文本,以及获取历史检索文本对应的原始输入文本;
(2)比较历史检索文本以及原始输入文本,确定出原始输入文本中的被替换文本片段以及历史检索文本中对应的替换后文本片段;
(3)将被替换文本片段与替换后文本片段之间的对应关系,记录在纠错词典中。
本发明实施例中,在接收输入的待检索文本之前,预先生成纠错词典,该该纠错词典记录了用于对待检索文本进行局部或全部替换的纠错策略。
容易理解的是,在实际检索时,由于输入法、误操作等原因,经常会出现检索文本输入错误的情况,这就使得用户需要检索文本进行一次或多次纠错,才会最终得到期望的检索文本。相应的,本发明实施例中,终端对用户的检索过程信息进行记录,其中,检索过程信息包括但不限于历史检索文本(即终端历史上接收到的并执行完成检索操作的检索文本)以及历史检索文本所对应的原始输入文本。
其中,对于任一原始输入文本,其可能被纠错,也可能未被纠错,相应的,历史检索文本可能为对应的原始输入文本本身,也可能为原始输入文本纠错后得到的文本。这样,终端在记录时,可以数据对<原始输入文本,历史检索文本>的形式记录历史检索文本以及原始输入文本,比如,原始输入文本为“假乙丙丁”,对应的历史检索文本为“甲乙丙丁”,记录形式为<假乙丙丁,甲乙丙丁>。
终端在生成纠错策略时,首先获取到已记录的历史检索文本,以及历史检索文本对应的原始输入文本,然后,终端比较历史检索文本以及原始输入文本,确定出原始输入文本中的被替换文本片段以及历史检索文本中对应的替换后文本片段。比如,获取到的历史检索文本为“甲乙丙丁”,对应的原始输入文本为“假乙丙丁”,比对可知,“假乙丙丁”中的“假乙”即为被替换文本片段,“甲乙丙丁”中的“甲乙”即为替换后文本片段;此外,若抛开对齐语料的特定上下文,“假乙丙丁”中的“假”可以被确定为被替换文本片段,“甲乙丙丁”中的“甲”即对应被确定为替换后文本片段。
可以看出,被替换文本片段和替换后片段的这种对应关系即反映了用户的纠错行为。本发明实施例中,终端在比较历史检索文本及其对应的原始输入文本,并确定出原始输入文本中的被替换文本片段以及历史检索文本中对应的替换后文本片段之后,即可将被替换文本片段与替换后文本片段之间的对应关系设为用于对待检索文本进行纠错的纠错策略,并记录在纠错词典中。
应当说明的是,本发明实施例中对该纠错策略的展现形式不做具体限制,可由本领域普通技术人员根据实际需要进行选取,比如,纠错词典采用纠错对的方式记录,比如纠错对<假,甲>,表示对“假”进行纠错,将其替换为“甲”。
在一实施例中,“接收输入的待检索文本”之前,还包括:
(1)从检索服务器获取云端历史检索文本;
(2)将云端历史检索文本划分为多个历史文本片段,并获取历史文本片段的发音信息;
(3)将历史文本片段及其发音信息之间的对应关系,记录在纠错词典中。
本发明实施例中还提供另外一种生成纠错策略的方式,其中,终端可以从检索服务器获取云端历史检索文本。其中,云端历史检索文本为检索服务器记录的其执行过检索操作的检索文本,包括本发明实施例中提及的终端所发送的检索文本,以及其它终端所发送的检索文本。
终端在从检索服务器获取到云端历史检索文本之后,对于获取到的每一云端历史检索文本,将其划分为多个文本片段,记为历史文本片段。比如,终端可以采用分词算法将云端历史检索文本进行词语的分割,分割出的每一个词即为一个历史文本片段。
对于划分得到的每一历史文本片段,终端进一步获取其发音信息。其中,发音信息包括历史文本片段对应的拼音表示。可以理解的是,同一拼音表示可能对应不同的词,比如“zhibo”可以对应“直播”,也可以对应“智博”等。用户在使用拼音输入法进行待检索文本的输入时,容易错误输入非期望的待检索文本。而针对从检索服务器获取到云端历史检索文本,为不同终端实际检索过的检索文本,因此,可以采用基于发音的替换实现纠错,相应的,终端获取到的历史文本片段及其发音信息之间的对应关系,作为纠错策略记录在纠错词典中。
应当说明的是,本发明实施例中对该纠错策略的展现形式不做具体限制,可由本领域普通技术人员根据实际需要进行选取,比如,纠错词典由多个纠错对构成,比如纠错对<zhibo,直播>,表示对发音信息为“zhibo”的文本片段进行纠错,将其替换为“直播”。
在一实施例中,本发明实施例提供的检索文本纠错方法,还包括:
(1)从检索服务器获取检索热度值高于预设热度值的热搜文本;
(2)将热搜文本划分为多个热搜文本片段,并获取热搜文本片段的发音信息;
(3)将热搜文本片段及其发音信息之间的对应关系,记录在纠错词典中。
对于基于发音替换的纠错策略,即历史文本片段及其发音信息之间的对应关系,为了进一步增加其纠错的召回率,本发明实施例中对其进行更新。
其中,终端可以从检索服务器获取检索热度值高于预设热度值的热搜文本。应当说明的是,检索热度值可以通过检索的频次以及新旧程度进行多维度的衡量,比如,对于检索服务器上的一云端历史检索文本,检索服务器可以根据其检索的频次以及新旧程度对应的预设权重做加权运算,将得到的加权和值作为该云端历史检索文本的检索热度值。
此外,热搜文本代指检索热度值高于预设热度值的云端历史检索文本,其中,预设热度值可由本领域普通技术人员根据实际需要取经验值,本发明实施例对其具体取值不做限制。
本发明实施中,终端在从检索服务器获取检索热度值高于预设热度值的热搜文之后,进一步将获取到的热搜文本划分为多个热搜文本片段,并获取热搜文本片段的发音信息,根据热搜文本片段及其发音信息生成新的纠错对,将该新的纠错对作为纠错策略记录在纠错词典中,实现对纠错策略的更新。
在一实施例中,对待检索文本进行局部或全部替换,得到纠错文本,包括:
(1)获得预先构建的纠错词典,纠错词典记录有:检索文本中被替换文本片段与替换后文本片段的对应关系,和/或,检索文本中的文本片段及其发音信息之间的对应关系;
(2)根据纠错词典,识别并替换待检索文本中需要替换的目标文本片段,得到纠错文本。
本申请实施例中,在对待检索文本进行局部或全部替换时,可以根据预先构建的纠错词典实现。
比如,假设输入的待检索文本为“狂假”,纠错词典中记录的被替换文本片段与替换后文本片段的对应关系中包括纠错对<假,甲>,根据纠错对<假,甲>即可识别出“狂假”中的“假”为需要替换的目标文本片段,并将其替换为“甲”,从而得到对应的纠错文本“狂甲”。
又比如,假设输入的待检索文本为“音乐智博”,纠错词典中记录的历史文本片段及其发音信息之间的对应关系中包括纠错对<zhibo,直播>,根据纠错对<zhibo,直播>即可识别出“音乐智博”中的“智博”为需要替换的目标文本片段,并将其替换为“直播”,从而得到对应的纠错文本“音乐直播”。
在202中,将纠错文本以及待检索文本设为候选检索文本,得到多个候选检索文本。
可以理解的是,对于终端而言,其当前无法得知原始输入的待检索文本即为用户期望的检索文本,还是对待检索文本纠错得到的纠错文本为用户期望的检索文本,此时,终端将原始输入的待检索文本,以及纠错得到纠错文本均设为候选检索文本,由此得到多个候选检索文本。
比如,请参照图4,待检索文本为“假乙饼丁”,从开始到结束共用四条路径,其中“假乙”可以被替换为“甲乙”,“饼丁”可以被替换为“丙丁”,由此可以得到三个纠错文本,分别为“甲乙饼丁”、“甲乙丙丁”以及“假乙丙丁”,从而可以得到包括待检索文本和这三个纠错文本在内的四个候选检索文本。
在203中,调用预先训练的评分函数对候选检索文本进行评分,得到候选检索文本的评分。
其中,评分函数用于将向量映射到数值,以此为约束,可由本领域普通技术人员根据实际需要选取合适的函数作为评分函数,本发明实施例对此不做具体限制。比如,本发明实施例中,采用基于pair-wise方法的评分函数,并对其进行训练。
本发明实施例中,终端在调用预先训练的评分函数对候选检索文本进行评分时,可以获取到候选检索文本的多维特征向量,并将候选检索文本的多维特征向量输入到预先训练的评分函数,由该评分函数将输入的多维特征向量映射为一个数值,该映射得到的数值即为对候选检索文本进行评分所得到的评分。其中,对于每一候选检索文本,终端均利用评分函数对其进行评分。
此外,终端获取的特征向量的维度包括但不限于语言维度、用户行为维度、待检索文本和纠错文本关系维度等。
在一实施例中,“调用预先训练的评分函数对候选检索文本进行评分,得到候选检索文本的评分”,包括:
(1)获得候选检索文本的文本特征,文本特征包括以下几项中的任意一项或多项:语言模型评分、替换为纠错文本的概率、历史操作行为特征、划分的文本片段个数特征、与纠错文本的发音相似度、序列转换过程中的状态特征、词向量特征;
(2)向量化文本特征,得到特征向量;
(3)将特征向量输入至预先训练的评分函数中,得到候选检索文本的评分。
示例性的,终端可以获取候选检索文本的语言模型评分,用于描述候选检索文本在多大程度上符合汉语的语言事实。并对语言模型评分进行向量化表征,得到候选检索文本的第一特征向量,也即是语言维度的特征向量。
此外,终端还获取候选检索文本中纠错文本所对应的替换概率(替换概率用于描述将待检索文本替换为纠错文本的概率),并向量化表征替换概率得到候选检索文本的第二特征向量,也即是待检索文本和纠错文本关系维度的特征向量。
其中,替换概率的计算方法是基于待检索文本和纠错文本在词级别上的对齐来进行的。
假设待检索文本为:a b c d e
一纠错文本为:a b x d e
其中替换片段为:c→x
对齐为:(a,a),(b,b),(c,x),(d,d),(e,e)
替换片段c为n-gram,n表示c的字符数,可以为1、2以及3等。
示例性的,当n取值为1时,替换概率可以表示为:
P(a→a)*P(b→b)*P(c→x)*P(d→d)*P(e→e);
其中,P(a→a)表示a到a的替换次数与a的总替换次数之间的商值,以此类推。
当n取值为2时,替换概率可以表示为:
P(z1→z2)*P(c→x)*P(y1→y2);
其中,z1表示b与c中第一个字符组成的二元模型,z2表示b与c中第一个字符组成的二元模型,y1表示c与d中最后一个字符组成的二元模型,y2表示x与d中最后一个字符组成的二元模型。
此外,终端还获取候选检索文本对应的历史操作行为数据,并向量化表征历史操作行为数据得到候选检索文本的第三特征向量,即用户行为维度的特征向量。
其中,如果检索文本符合用户检索意图,那么相应的用户行为会比较强烈,用户会去点击对应的检索结果、播放或者下载等,相反,若检索文本不符合用户检索意图,那么用户通常不会去点击检索结果或者播放检索结果等。相应的,终端获取的候选检索文本对应的历史操作行为数据包括但不限于对该候选检索文本在历史作为检索文本进行检索时,用户对检索结果的点击率、播放时长以及下载率等。
最后,终端在获取到以上多个维度的特征向量之后,由于这些特征向量并不属于同一特征空间,需要对获取到的第一特征向量、第二特征向量以及第三特征向量进行归一化处理,将第一特征向量、第二特征向量以及第三特征向量归一化到同一特征空间,再将归一化后的第一特征向量、第二特征向量以及第三特征向量拼接为一个特征向量,并将该特征向量输入到调用的评分函数中进行评分,相应得到候选检索文本的评分。
在一实施例中,待检索文本为用于检索音乐文件的文本,语言模型评分的获得方式包括:
获得基于音乐知识库构建的语言模型;
基于语言模型对待检索文本进行评分,得到语言模型评分。
应当说明的是,本发明实施例提供的检索文本纠错方法可以用于音乐领域的检索,以此为前提,本发明实施例中预先基于音乐知识库构建有语言模型,其中,语言模型的建模主要是通过统计音乐知识库中音乐语料的文法分布,获得对应音乐领域内的语言统计模型,用于描述一串文本在多大程度上符合汉语的语言事实。
相应的,终端可以调用预先基于音乐知识库构建的语言模型对候选检索文本进行评分,得到语音模型评分。
在一实施例中,“将特征向量输入至预先训练的评分函数”之前,还包括:
(1)获取候选检索文本能够划分的文本片段的划分个数,并向量化表征划分个数得到候选检索文本的第四特征向量,以及将第四特征向量添加至前述特征向量中;和/或
(2)获取候选检索文本中纠错文本与待检索文本的发音相似度,并向量化表征发音相似度,得到候选检索文本的第五特征向量,以及将第五特征向量添加至前述特征向量中;和/或
(3)调用预先训练的序列到序列模型对候选检索文本进行转换,将候选检索文本在转换过程中的中间状态向量设为候选检索文本的第六特征向量,以及将第六特征向量添加至前述特征向量中;和/或
(4)将候选检索文本划分多个候选文本片段,并调用预设训练的词向量模型获取候选文本片段对应的词向量,将词向量设为候选检索文本的第七特征向量,以及将第七特征向量添加至前述特征向量中。
本发明实施例中,除了基于语言维度、用户行为维度、待检索文本和纠错文本关系维度的特征向量对候选检索文本评分之外,还可以辅助其它维度的特征进行评分。
其中,一般情况下有错误的检索文本,分词后词个数相对较多,因为错误的输入往往不能和前后字构成词,形成“碎片”的概率很高。因此,终端还可以采用分词算法将候选检索我那边划分为多个文本片段(即一个词),以获取到候选检索文本能够划分的文本片段的划分个数,并向量化表征划分个数得到候选检索文本的第四特征向量,即输入误操作维度的特征向量。
此外,由于目前主要的输入法是拼音输入法,由于地域性的差异,不同地方的人发音会有细微差别,例如,对“zhan”和“zhang”容易混淆。因此,终端还可以获取候选检索文本中纠错文本与待检索文本的发音相似度,并向量化表征发音相似度,得到候选检索文本中纠错文本的第五特征向量,即发音维度的特征向量。
此外,终端还可以调用预先训练的序列到序列模型对候选检索文本进行转换,将候选检索文本在转换过程中的中间状态向量设为候选检索文本的第六特征向量。其中,序列到序列模型包括编码器和解码器,以及连接两者的中间状态向量,编码器通过对输入文本进行学习,将编码为一个固定长度的中间状态向量,继而将中间状态向量传递给解码器,由解码器通过对中间状态向量的学习来进行输出。比如一句这样的话“太阳只是停止发光发热两个消失”,理想的编解码输出应该为“太阳只是停止发光发热两个小时”。直观感受来说,汉字在不同的上下文下其语义应该是具有很大差异性的,即中间状态向量应该不是固定的。通过加入候选检索文本的中间状态向量用于评分,能够避免分词算法所带来的干扰。
此外,终端还可以采用分词算法将候选检索文本划分多个候选文本片段,并调用预设训练的词向量模型获取候选文本片段对应的词向量,将词向量设为候选检索文本的第七特征向量。其中,词向量模型采用无监督学习的方式预先训练得到,比如,可以利用连续词袋模型以无监督学习的方式训练得到的词向量模型,用于将一个文本片段(即词)映射到向量空间,得到对应的词向量。
应当说明的是,在本发明实施例中,终端可以从第一特征向量、第二特征向量、第三特征向量、第四特征向量、第五特征向量、第六特征向量以及第七特征向量中选择任意一个或多个来构建用于评分的特征向量。
在204中,根据候选检索文本的评分,从多个候选检索文本中选取出用于检索的目标检索文本。
本发明实施例中,终端可以根据候选检索文本的评分,从多个候选检索文本中选取出用于检索的目标检索文本。其中,目标检索文本可能为原始输入的待检索文本,也可能为对检索文本进行纠错后所得到的纠错文本。比如,终端可以从多个候选检索文本中选取出评分最高的候选检索文本作为用于检索的目标检索文本。
在选取出用于检索的目标检索文本之后,终端即将该目标检索文本发送至检索服务器进行检索,并从检索服务器获取到对应的检索结果,以及展示获取到的检索结果等。
在一实施例中,“根据候选检索文本的评分,从多个候选检索文本中选取出用于检索的目标检索文本”之后,还包括:
对目标检索文本的完整性进行校验;
若目标检索文本不完整,则根据预设的不同检索文本之间的关联关系,获取关联目标检索文本的关联检索文本;
根据关联检索文本补齐目标检索文本。
应当说明的是,在本发明实施例中,预先根据用户对不同检索文本的点击行为的相似性进行动态分析,得到不同检索文本之间的关联关系。其中,可以采用随机漫步平滑来对不同检索文本的点击行为的相似性进行动态分析,以分析得到不同检索文本之间的关联关系。
这样,终端在从多个候选检索文本中选取出用于检索的目标检索文本之后,首先对对目标检索文本的完整性进行校验,若目标检索文本不完整,则根据预设的不同检索文本之间的关联关系,获取到关联目标检索文本的关联检索文本,并根据该关联检索文本对目标检索文本进行补齐。
由上可知,本发明实施例中,通过接收输入的待检索文本,并对待检索文本进行局部替换或全部替换,得到纠错文本;然后将纠错文本以及待检索文本设为候选检索文本,得到多个候选检索文本;再调用预先训练的评分函数对候选检索文本进行评分,得到候选检索文本的评分;最后根据各候选检索文本的评分,从多个所述候选检索文本中选取出用于检索的目标检索文本。其中,从多个候选检索文本中筛选出的目标检索文本最可能为用户实际期望的检索文本,将该目标检索文本提供给检索服务器进行检索,能够提高获得期望检索结果的概率。
根据前面实施例所描述的方法,以下将举例作进一步详细说明。
在本发明实施例中,请参照图5,本发明提供的检索文本纠错方法的执行流程可以如下:
在501中,终端获取本地历史检索文本,以及获取本地历史检索文本对应的原始输入文本,将本地历史检索文本与原始输入文本之间的对应关系作为第一纠错策略记录在纠错词典中。
在实际检索时,由于输入法、误操作等原因,经常会出现检索文本输入错误的情况,这就使得用户需要检索文本进行一次或多次纠错,才会最终得到期望的检索文本。相应的,本发明实施例中,终端对本地的检索过程信息进行记录,其中,检索过程信息包括但不限于本地历史检索文本(即终端本地历史上接收到的并执行完成检索操作的检索文本)以及本地历史检索文本所对应的原始输入文本。
其中,对于任一原始输入文本,其可能被纠错,也可能未被纠错,相应的,本地历史检索文本可能为对应的原始输入文本本身,也可能为原始输入文本纠错后得到的文本。这样,终端在记录时,可以数据对<原始输入文本,本地历史检索文本>的形式记录本地历史检索文本以及原始输入文本,比如,原始输入文本为“假乙丙丁”,对应的本地历史检索文本为“甲乙丙丁”,记录形式为<假乙丙丁,甲乙丙丁>。
本发明实施例中,终端首先生成用于对待检索文本进行纠错的纠错策略,包括基于文本替换的第一纠错策略,以及基于发音替换的第二纠错策略。
其中,终端在生成第一纠错策略时,首先获取到已记录的本地历史检索文本,以及本地历史检索文本对应的原始输入文本,然后,终端比较本地历史检索文本以及原始输入文本,确定出原始输入文本中的被替换文本片段以及本地历史检索文本中对应的替换后文本片段。比如,获取到的本地历史检索文本为“甲乙丙丁”,对应的原始输入文本为“假乙丙丁”,比对可知,“假乙丙丁”中的“假乙”即为被替换文本片段,“甲乙丙丁”中的“甲乙”即为替换后文本片段;此外,若抛开对齐语料的特定上下文,“假乙丙丁”中的“假”可以被确定为被替换文本片段,“甲乙丙丁”中的“甲”即对应被确定为替换后文本片段。
可以看出,被替换文本片段和替换后片段的这种对应关系即反映了用户的纠错行为。本发明实施例中,终端在比较本地历史检索文本及其对应的原始输入文本,并确定出原始输入文本中的被替换文本片段以及本地历史检索文本中对应的替换后文本片段之后,即可将被替换文本片段与替换后文本片段之间的对应关系设为用于对待检索文本进行纠错的第一纠错策略,记录在纠错词典中。
比如,纠错词典采用纠错对的记录方式记录,比如纠错对<假,甲>,表示对“假”进行纠错,将其替换为“甲”。
在502中,终端从检索服务器获取云端历史检索文本,以及获取云端历史检索文本对应的发音信息,并将云端历史检索文本与其发音信息之间的对应关系作为第二纠错策略,记录在纠错词典中。
其中,云端历史检索文本为检索服务器记录的其执行过检索操作的检索文本,包括本发明实施例中提及的终端所发送的检索文本,以及其它终端所发送的检索文本。
终端在从检索服务器获取到云端历史检索文本之后,对于获取到的每一云端历史检索文本,将其划分为多个文本片段,记为历史文本片段。比如,终端可以采用分词算法将云端历史检索文本进行词语的分割,分割出的每一个词即为一个历史文本片段。
对于划分得到的每一历史文本片段,终端进一步获取其发音信息。其中,发音信息包括历史文本片段对应的拼音表示。可以理解的是,同一拼音表示可能对应不同的词,比如“zhibo”可以对应直播,也可以对应智博等。用户在使用拼音输入法进行待检索文本的输入时,容易错误输入非期望的待检索文本。而针对从检索服务器获取到云端历史检索文本,为不同终端实际检索过的检索文本,因此,可以采用基于发音的替换实现纠错,相应的,终端获取到的历史文本片段及其发音信息之间的对应关系设为第二纠错策略,记录在纠错词典中。
比如,纠错词典采用纠错对的方式记录,比如纠错对<zhibo,直播>,表示对发音信息为“zhibo”的文本片段进行纠错,将其替换为“直播”。
在503中,终端基于运行的音乐类应用接收输入的待检索文本,并分别根据纠错词典中记录的第一纠错策略以及第二纠错策略对待检索文本进行纠错,得到纠错文本。
比如,请参照图3,终端当前运行音乐类应用“QQ音乐”,QQ音乐提供有输入框形式的检索控件,用于接收用户输入音乐信息类的待检索文本,比如歌曲名、音乐人名等。
终端在接收到输入的待检索文本之后,分别根据纠错词典中记录的第一纠错策略和第二纠错策略对待检索文本进行纠错,得到对应的纠错文本。
其中,终端在根据第一纠错策略对待检索文本进行纠错时,具体根据第一纠错策略中的纠错对,从待检索文本中识别出需要替换的文本片段,并对其进行替换,即得到对待检索文本进行纠错的纠错文本。比如,假设输入的待检索文本为“狂假”,第一纠错策略中包括纠错对<假,甲>,根据纠错对<假,甲>即可识别出“狂假”中的“假”为需要替换的文本片段,并将其替换为“甲”,从而得到对应的纠错文本“狂甲”。
终端在根据第二纠错策略对待检索文本进行纠错时,具体根据第二纠错策略中的纠错对,从待检索文本中识别出需要替换的文本片段,并对其进行替换,即得到对待检索文本进行纠错的纠错文本。比如,假设输入的待检索文本为“音乐智博”,第二纠错策略中包括纠错对<zhibo,直播>,根据纠错对<zhibo,直播>即可识别出“音乐智博”中的“智博”为需要替换的文本片段,并将其替换为“直播”,从而得到对应的纠错文本“音乐直播”。
在504中,终端将纠错文本以及待检索文本设为候选检索文本,得到多个候选检索文本。
可以理解的是,对于终端而言,其当前无法得知原始输入的待检索文本即为用户期望的检索文本,还是对待检索文本纠错得到的纠错文本为用户期望的检索文本,此时,终端将原始输入的待检索文本,以及纠错得到纠错文本均设为候选检索文本,由此得到多个候选检索文本。
比如,请参照图4,待检索文本为“假乙饼丁”,从开始到结束共用四条路径,其中“假乙”可以被替换为“甲乙”,“饼丁”可以被替换为“丙丁”,由此可以得到三个纠错文本,分别为“甲乙饼丁”、“甲乙丙丁”以及“假乙丙丁”,从而可以得到包括待检索文本和这三个纠错文本在内的四个候选检索文本。
在505中,终端提取候选检索文本的多维特征向量,将提取的多维特征向量输入到预先训练的评分函数进行评分,得到候选检索文本的评分,其中,多维特征向量包括语言维度的特征向量、用户行为维度的特征向量以及待检索文本和纠错文本关系维度的特征向量。
其中,评分函数用于将向量映射到数值,以此为约束,可由本领域普通技术人员根据实际需要选取合适的函数作为评分函数,本发明实施例对此不做具体限制。比如,本发明实施例中,采用基于pair-wise方法的评分函数,并对其进行训练。
应当说明的是,本发明实施例提供的检索文本纠错方法用于音乐领域的检索,以此为前提,本发明实施例中预先基于音乐知识库构建有语言模型,其中,语言模型的建模主要是通过统计音乐知识库中音乐语料的文法分布,获得对应音乐领域内的语音统计模型,用于描述一串文本在多大程度上符合汉语的语言事实。
其中,终端可以调用预先基于音乐知识库构建的语言模型对候选检索文本进行评分,然后对候选检索文本的评分进行向量化表征,得到候选检索文本的第一特征向量,也即是语言维度的特征向量。
此外,终端还获取候选检索文本中纠错文本所对应的替换概率(替换概率用于描述将待检索文本替换为纠错文本的概率),并向量化表征替换概率得到候选检索文本的第二特征向量,也即是待检索文本和纠错文本关系维度的特征向量。
其中,替换概率的计算方法是基于待检索文本和纠错文本在词级别上的对齐来进行的。
假设待检索文本为:a b c d e
一纠错文本为:a b x d e
其中替换片段为:c→x
对齐为:(a,a),(b,b),(c,x),(d,d),(e,e)
替换片段c为n-gram,n表示c的字符数,可以为1、2以及3等。
示例性的,当n取值为1时,替换概率可以表示为:
P(a→a)*P(b→b)*P(c→x)*P(d→d)*P(e→e);
其中,P(a→a)表示a到a的替换次数与a的总替换次数之间的商值,以此类推。
当n取值为2时,替换概率可以表示为:
P(z1→z2)*P(c→x)*P(y1→y2);
其中,z1表示b与c中第一个字符组成的二元模型,z2表示b与c中第一个字符组成的二元模型,y1表示c与d中最后一个字符组成的二元模型,y2表示x与d中最后一个字符组成的二元模型。
此外,终端还获取候选检索文本对应的历史操作行为数据,并向量化表征历史操作行为数据得到候选检索文本的第三特征向量,即用户行为维度的特征向量。其中,如果检索文本符合用户检索意图,那么相应的用户行为会比较强烈,用户会去点击对应的检索结果、播放或者下载等,相反,若检索文本不符合用户检索意图,那么用户通常不会去点击检索结果或者播放检索结果等。相应的,终端获取的候选检索文本对应的历史操作行为数据包括但不限于对该候选检索文本在历史作为检索文本进行检索时,用户对检索结果的点击率、播放时长以及下载率等。
本发明实施例中,终端在获取到以上多个维度的特征向量之后,由于这些特征向量并不属于同一特征空间,需要对获取到的第一特征向量、第二特征向量以及第三特征向量进行归一化处理,将第一特征向量、第二特征向量以及第三特征向量归一化到同一特征空间,再将归一化后的第一特征向量、第二特征向量以及第三特征向量组合为特征向量序列,并将组合得到的特征向量输入到调用的评分函数中进行评分,相应得到候选检索文本的评分。
在506中,终端从多个候选检索文本中选取出评分最高的候选检索文本作为用于检索的目标音乐信息。
本发明实施例中,终端可以根据候选检索文本的评分,从多个候选检索文本中选取出评分最高的候选检索文本作为用于检索的目标检索文本,该目标检索文本可能为原始输入的待检索文本,也可能为对检索文本进行纠错后所得到的纠错文本。
在选取出用于检索的目标检索文本之后,终端即将该目标检索文本发送至检索服务器进行检索,并从检索服务器获取到对应的检索结果,以及展示获取到的检索结果等。
为了更好地实施以上检索文本纠错方法,本发明实施例还提供一种检索文本纠错装置。请参照图6,该检索文本纠错装置包括文本纠错模块601、文本设置模块602、文本评分模块603以及目标筛选模块604,如下:
文本纠错模块601,用于接收输入的待检索文本,并对待检索文本进行局部替换或全部替换,得到纠错文本。
其中,文本纠错模块601首先对输入的待检索文本进行接收,比如,文本纠错模块601可以通过展示的检索控件来接收输入的待检索文本,应当说明的是,检索控件可以是文本纠错模块601运行的本地应用所提供,也可以是文本纠错模块601访问检索服务器时,由检索服务器在线提供。例如,请参照图3,文本纠错模块601当前运行音乐类应用“QQ音乐”,QQ音乐提供有输入框形式的检索控件,用于接收用户输入音乐信息类的待检索文本,比如歌曲名、音乐人名等。
此外,还需要说明的是,本发明实施例中还预先设置有用于对待检索文本进行纠错的纠错策略。相应的,文本纠错模块601在接收到输入的待检索文本之后,即可根据预设的纠错策略对输入的待检索文本进行局部或全部替换,通俗的说,文本纠错模块601利用该纠错策略,从待检索文本中查找出可能错误的部分,并将该可能错误的部分替换为用户需要的正确部分,实现对待检索文本的纠错,得到纠错文本。
文本设置模块602,用于将纠错文本以及待检索文本设为候选检索文本,得到多个候选检索文本。
可以理解的是,由于当前无法得知原始输入的待检索文本即为用户期望的检索文本,还是对待检索文本纠错得到的纠错文本为用户期望的检索文本,此时,文本设置模块602将原始输入的待检索文本,以及纠错得到纠错文本均设为候选检索文本,由此得到多个候选检索文本。
比如,请参照图4,待检索文本为“假乙饼丁”,从开始到结束共用四条路径,其中“假乙”可以被替换为“甲乙”,“饼丁”可以被替换为“丙丁”,由此可以得到三个纠错文本,分别为“甲乙饼丁”、“甲乙丙丁”以及“假乙丙丁”,从而可以得到包括待检索文本和这三个纠错文本在内的四个候选检索文本。
文本评分模块603,用于调用预先训练的评分函数对候选检索文本进行评分,得到候选检索文本的评。
其中,评分函数用于将向量映射到数值,以此为约束,可由本领域普通技术人员根据实际需要选取合适的函数作为评分函数,本发明实施例对此不做具体限制。比如,本发明实施例中,采用基于pair-wise方法的评分函数,并对其进行训练。
本发明实施例中,文本评分模块603在调用预先训练的评分函数对候选检索文本进行评分时,可以获取到候选检索文本的多维特征向量,并将候选检索文本的多维特征向量输入到预先训练的评分函数,由该评分函数将输入的多维特征向量映射为一个数值,该映射得到的数值即为对候选检索文本进行评分所得到的评分。其中,对于每一候选检索文本,文本评分模块603均利用评分函数对其进行评分。
此外,文本评分模块603获取的特征向量的维度包括但不限于语言维度、用户行为维度、待检索文本和纠错文本关系维度等。
目标筛选模块604,用于根据候选检索文本的评分,从多个候选检索文本中选取出用于检索的目标检索文本。
本发明实施例中,目标筛选模块604可以根据候选检索文本的评分,从多个候选检索文本中选取出用于检索的目标检索文本。其中,目标检索文本可能为原始输入的待检索文本,也可能为对检索文本进行纠错后所得到的纠错文本。比如,目标筛选模块604可以从多个候选检索文本中选取出评分最高的候选检索文本作为用于检索的目标检索文本。
在一实施例中,在调用预先训练的评分函数对候选检索文本进行评分,得到候选检索文本的评分时,文本评分模块603用于:
获得候选检索文本的文本特征,文本特征包括以下几项中的任意一项或多项:语言模型评分、替换为纠错文本的概率、历史操作行为特征、划分的文本片段个数特征、与纠错文本的发音相似度、序列转换过程中的状态特征、词向量特征;
向量化文本特征,得到特征向量;
将特征向量输入至预先训练的评分函数中,得到候选检索文本的评分。
示例性的,文本评分模块603可以获取候选检索文本的语言模型评分,用于描述候选检索文本在多大程度上符合汉语的语言事实。并对语言模型评分进行向量化表征,得到候选检索文本的第一特征向量,也即是语言维度的特征向量。
此外,文本评分模块603还获取候选检索文本中纠错文本所对应的替换概率(替换概率用于描述将待检索文本替换为纠错文本的概率),并向量化表征替换概率得到候选检索文本的第二特征向量,也即是待检索文本和纠错文本关系维度的特征向量。
其中,替换概率的计算方法是基于待检索文本和纠错文本在词级别上的对齐来进行的。
假设待检索文本为:a b c d e
一纠错文本为:a b x d e
其中替换片段为:c→x
对齐为:(a,a),(b,b),(c,x),(d,d),(e,e)
替换片段c为n-gram,n表示c的字符数,可以为1、2以及3等。
示例性的,当n取值为1时,替换概率可以表示为:
P(a→a)*P(b→b)*P(c→x)*P(d→d)*P(e→e);
其中,P(a→a)表示a到a的替换次数与a的总替换次数之间的商值,以此类推。
当n取值为2时,替换概率可以表示为:
P(z1→z2)*P(c→x)*P(y1→y2);
其中,z1表示b与c中第一个字符组成的二元模型,z2表示b与c中第一个字符组成的二元模型,y1表示c与d中最后一个字符组成的二元模型,y2表示x与d中最后一个字符组成的二元模型。
此外,文本评分模块603还获取候选检索文本对应的历史操作行为数据,并向量化表征历史操作行为数据得到候选检索文本的第三特征向量,即用户行为维度的特征向量。
其中,如果检索文本符合用户检索意图,那么相应的用户行为会比较强烈,用户会去点击对应的检索结果、播放或者下载等,相反,若检索文本不符合用户检索意图,那么用户通常不会去点击检索结果或者播放检索结果等。相应的,文本评分模块603获取的候选检索文本对应的历史操作行为数据包括但不限于对该候选检索文本在历史作为检索文本进行检索时,用户对检索结果的点击率、播放时长以及下载率等。
最后,文本评分模块603在获取到以上多个维度的特征向量之后,由于这些特征向量并不属于同一特征空间,需要对获取到的第一特征向量、第二特征向量以及第三特征向量进行归一化处理,将第一特征向量、第二特征向量以及第三特征向量归一化到同一特征空间,再将归一化后的第一特征向量、第二特征向量以及第三特征向量拼接为一个特征向量,并将该特征向量输入到调用的评分函数中进行评分,相应得到候选检索文本的评分。
在一实施例中,待检索文本为用于检索音乐文件的文本,语言模型评分的获得方式包括:
获得基于音乐知识库构建的语言模型;
基于语言模型对待检索文本进行评分,得到语言模型评分。
应当说明的是,本发明实施例提供的检索文本纠错方法可以用于音乐领域的检索,以此为前提,本发明实施例中预先基于音乐知识库构建有语言模型,其中,语言模型的建模主要是通过统计音乐知识库中音乐语料的文法分布,获得对应音乐领域内的语言统计模型,用于描述一串文本在多大程度上符合汉语的语言事实。
相应的,文本评分模块603可以调用预先基于音乐知识库构建的语言模型对候选检索文本进行评分,得到语音模型评分。
在一实施例中,在对待检索文本进行局部或全部替换,得到纠错文本时,文本纠错模块601用于:
获得预先构建的纠错词典,纠错词典记录有:检索文本中被替换文本片段与替换后文本片段的对应关系,和/或,检索文本中的文本片段及其发音信息之间的对应关系;
根据纠错词典,识别并替换待检索文本中需要替换的目标文本片段,得到纠错文本。
本申请实施例中,在对待检索文本进行局部或全部替换时,文本纠错模块601可以根据预先构建的纠错词典实现。
比如,假设输入的待检索文本为“狂假”,纠错词典中记录的被替换文本片段与替换后文本片段的对应关系中包括纠错对<假,甲>,文本纠错模块601根据纠错对<假,甲>即可识别出“狂假”中的“假”为需要替换的目标文本片段,并将其替换为“甲”,从而得到对应的纠错文本“狂甲”。
又比如,假设输入的待检索文本为“音乐智博”,纠错词典中记录的历史文本片段及其发音信息之间的对应关系中包括纠错对<zhibo,直播>,文本纠错模块601根据纠错对<zhibo,直播>即可识别出“音乐智博”中的“智博”为需要替换的目标文本片段,并将其替换为“直播”,从而得到对应的纠错文本“音乐直播”。
在一实施例中,本申请实施例提供的文本纠错装置还包括词典构建模块,用于:
获取历史检索文本,以及获取历史检索文本对应的原始输入文本;
比较历史检索文本以及原始输入文本,确定出原始输入文本中的被替换文本片段以及历史检索文本中对应的替换后文本片段;
将被替换文本片段与替换后文本片段之间的对应关系,记录在纠错词典中。
容易理解的是,在实际检索时,由于输入法、误操作等原因,经常会出现检索文本输入错误的情况,这就使得用户需要检索文本进行一次或多次纠错,才会最终得到期望的检索文本。相应的,本发明实施例中,词典构建模块对用户的检索过程信息进行记录,其中,检索过程信息包括但不限于历史检索文本(即词典构建模块历史上接收到的并执行完成检索操作的检索文本)以及历史检索文本所对应的原始输入文本。
其中,对于任一原始输入文本,其可能被纠错,也可能未被纠错,相应的,历史检索文本可能为对应的原始输入文本本身,也可能为原始输入文本纠错后得到的文本。这样,词典构建模块在记录时,可以数据对<原始输入文本,历史检索文本>的形式记录历史检索文本以及原始输入文本,比如,原始输入文本为“假乙丙丁”,对应的历史检索文本为“甲乙丙丁”,记录形式为<假乙丙丁,甲乙丙丁>。
词典构建模块在生成纠错策略时,首先获取到已记录的历史检索文本,以及历史检索文本对应的原始输入文本,然后,词典构建模块比较历史检索文本以及原始输入文本,确定出原始输入文本中的被替换文本片段以及历史检索文本中对应的替换后文本片段。比如,获取到的历史检索文本为“甲乙丙丁”,对应的原始输入文本为“假乙丙丁”,比对可知,“假乙丙丁”中的“假乙”即为被替换文本片段,“甲乙丙丁”中的“甲乙”即为替换后文本片段;此外,若抛开对齐语料的特定上下文,“假乙丙丁”中的“假”可以被确定为被替换文本片段,“甲乙丙丁”中的“甲”即对应被确定为替换后文本片段。
可以看出,被替换文本片段和替换后片段的这种对应关系即反映了用户的纠错行为。本发明实施例中,词典构建模块在比较历史检索文本及其对应的原始输入文本,并确定出原始输入文本中的被替换文本片段以及历史检索文本中对应的替换后文本片段之后,即可将被替换文本片段与替换后文本片段之间的对应关系设为用于对待检索文本进行纠错的纠错策略,并记录在纠错词典中。
应当说明的是,本发明实施例中对该纠错策略的展现形式不做具体限制,可由本领域普通技术人员根据实际需要进行选取,比如,纠错词典采用纠错对的方式记录,比如纠错对<假,甲>,表示对“假”进行纠错,将其替换为“甲”。
在一实施例中,词典构建模块还用于:
从检索服务器获取云端历史检索文本;
将云端历史检索文本划分为多个历史文本片段,并获取历史文本片段的发音信息;
将历史文本片段及其发音信息之间的对应关系,记录在纠错词典中。
本发明实施例中还提供另外一种生成纠错策略的方式,其中,词典构建模块可以从检索服务器获取云端历史检索文本。其中,云端历史检索文本为检索服务器记录的其执行过检索操作的检索文本,包括本发明实施例中提及的词典构建模块所发送的检索文本,以及其它词典构建模块所发送的检索文本。
词典构建模块在从检索服务器获取到云端历史检索文本之后,对于获取到的每一云端历史检索文本,将其划分为多个文本片段,记为历史文本片段。比如,词典构建模块可以采用分词算法将云端历史检索文本进行词语的分割,分割出的每一个词即为一个历史文本片段。
对于划分得到的每一历史文本片段,词典构建模块进一步获取其发音信息。其中,发音信息包括历史文本片段对应的拼音表示。可以理解的是,同一拼音表示可能对应不同的词,比如“zhibo”可以对应“直播”,也可以对应“智博”等。用户在使用拼音输入法进行待检索文本的输入时,容易错误输入非期望的待检索文本。而针对从检索服务器获取到云端历史检索文本,为不同词典构建模块实际检索过的检索文本,因此,可以采用基于发音的替换实现纠错,相应的,词典构建模块获取到的历史文本片段及其发音信息之间的对应关系,作为纠错策略记录在纠错词典中。
应当说明的是,本发明实施例中对该纠错策略的展现形式不做具体限制,可由本领域普通技术人员根据实际需要进行选取,比如,纠错词典由多个纠错对构成,比如纠错对<zhibo,直播>,表示对发音信息为“zhibo”的文本片段进行纠错,将其替换为“直播”。
在一实施例中,词典构建模块还用于:
从检索服务器获取检索热度值高于预设热度值的热搜文本;
将热搜文本划分为多个热搜文本片段,并获取热搜文本片段的发音信息;
将热搜文本片段及其发音信息之间的对应关系,记录在纠错词典中。
对于基于发音替换的纠错策略,即历史文本片段及其发音信息之间的对应关系,为了进一步增加其纠错的召回率,本发明实施例中对其进行更新。
其中,词典构建模块可以从检索服务器获取检索热度值高于预设热度值的热搜文本。应当说明的是,检索热度值可以通过检索的频次以及新旧程度进行多维度的衡量,比如,对于检索服务器上的一云端历史检索文本,检索服务器可以根据其检索的频次以及新旧程度对应的预设权重做加权运算,将得到的加权和值作为该云端历史检索文本的检索热度值。
此外,热搜文本代指检索热度值高于预设热度值的云端历史检索文本,其中,预设热度值可由本领域普通技术人员根据实际需要取经验值,本发明实施例对其具体取值不做限制。
本发明实施中,词典构建模块在从检索服务器获取检索热度值高于预设热度值的热搜文之后,进一步将获取到的热搜文本划分为多个热搜文本片段,并获取热搜文本片段的发音信息,根据热搜文本片段及其发音信息生成新的纠错对,将该新的纠错对作为纠错策略记录在纠错词典中,实现对纠错策略的更新。
在一实施例中,在根据候选检索文本的评分,从多个候选检索文本中选取出用于检索的目标检索文本之后,目标筛选模块604还用于:
对目标检索文本的完整性进行校验;
若目标检索文本不完整,则根据预设的不同检索文本之间的关联关系,获取关联目标检索文本的关联检索文本;
根据关联检索文本补齐目标检索文本。
应当说明的是,在本发明实施例中,预先根据用户对不同检索文本的点击行为的相似性进行动态分析,得到不同检索文本之间的关联关系。其中,可以采用随机漫步平滑来对不同检索文本的点击行为的相似性进行动态分析,以分析得到不同检索文本之间的关联关系。
这样,目标筛选模块604在从多个候选检索文本中选取出用于检索的目标检索文本之后,首先对对目标检索文本的完整性进行校验,若目标检索文本不完整,则根据预设的不同检索文本之间的关联关系,获取到关联目标检索文本的关联检索文本,并根据该关联检索文本对目标检索文本进行补齐。
本发明实施例还提供一种终端,如图7所示,其示出了本发明实施例所涉及的终端的结构示意图,具体来讲:
该终端可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解,图7中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器701是该终端的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器702内的软件程序和/或模块,以及调用存储在存储器702内的数据,执行终端的各种功能和处理数据,从而对终端进行整体监控。可选的,处理器701可包括一个或多个处理核心;优选的,处理器701可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器701中。
存储器702可用于存储软件程序以及模块,处理器701通过运行存储在存储器702的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器702还可以包括存储器控制器,以提供处理器701对存储器702的访问。
终端还包括给各个部件供电的电源703,优选的,电源703可以通过电源管理***与处理器701逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该终端还可包括输入单元704,该输入单元704可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,终端还可以包括显示单元等,在此不再赘述。具体在本实施例中,终端中的处理器701可以运行存储在存储器702中的应用程序,从而执行本发明任一实施例所提供的检索文本纠错方法,比如:
接收输入的待检索文本,并对待检索文本进行局部替换或全部替换,得到纠错文本;
将纠错文本以及待检索文本设为候选检索文本,得到多个候选检索文本;
调用预先训练的评分函数对候选检索文本进行评分,得到候选检索文本的评;
根据候选检索文本的评分,从多个候选检索文本中选取出用于检索的目标检索文本。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有计算机程序,该计算机程序包括的多条指令能够被终端的处理器进行加载,以执行本发明任一实施例所提供的检索文本纠错方法,例如:
接收输入的待检索文本,并对待检索文本进行局部替换或全部替换,得到纠错文本;将纠错文本以及待检索文本设为候选检索文本,得到多个候选检索文本;调用预先训练的评分函数对候选检索文本进行评分,得到候选检索文本的评;根据候选检索文本的评分,从多个候选检索文本中选取出用于检索的目标检索文本。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本发明实施例所提供的任一种检索文本纠错方法中的步骤,因此,可以实现本发明实施例所提供的任一种检索文本纠错方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种检索文本纠错方法、装置和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种检索文本纠错方法,其特征在于,所述检索文本纠错方法包括:
接收输入的待检索文本,并对所述待检索文本进行局部或全部替换,得到纠错文本;
将所述纠错文本以及所述待检索文本设为候选检索文本,得到多个候选检索文本;
调用预先训练的评分函数对所述候选检索文本进行评分,得到所述候选检索文本的评分;
根据所述候选检索文本的评分,从多个所述候选检索文本中选取出用于检索的目标检索文本。
2.根据权利要求1所述的检索文本纠错方法,其特征在于,调用预先训练的评分函数对所述候选检索文本进行评分,得到所述候选检索文本的评分,包括:
获得所述候选检索文本的文本特征,所述文本特征包括以下几项中的任意一项或多项:语言模型评分、替换为纠错文本的概率、历史操作行为特征、划分的文本片段个数特征、与纠错文本的发音相似度、序列转换过程中的状态特征、词向量特征;
向量化所述文本特征,得到特征向量;
将所述特征向量输入至预先训练的评分函数中,得到所述候选检索文本的评分。
3.根据权利要求2所述的检索文本纠错方法,其特征在于,所述待检索文本为用于检索音乐文件的文本,所述语言模型评分的获得方式包括:
获得基于音乐知识库构建的语言模型;
基于所述语言模型对所述待检索文本进行评分,得到语言模型评分。
4.根据权利要求1-3任一项所述的检索文本纠错方法,其特征在于,所述对所述待检索文本进行局部或全部替换,得到纠错文本的步骤包括:
获得预先构建的纠错词典,所述纠错词典记录有:检索文本中被替换文本片段与替换后文本片段的对应关系,和/或,检索文本中的文本片段及其发音信息之间的对应关系;
根据所述纠错词典,识别并替换所述待检索文本中需要替换的目标文本片段,得到所述纠错文本。
5.根据权利要求4所述的检索文本纠错方法,其特征在于,所述纠错词典的构建方式包括:
获取历史检索文本,以及获取所述历史检索文本对应的原始输入文本;
比较所述历史检索文本以及所述原始输入文本,确定出所述原始输入文本中的被替换文本片段以及所述历史检索文本中对应的替换后文本片段;
将所述被替换文本片段与所述替换后文本片段之间的对应关系,记录在纠错词典中。
6.根据权利要求4所述的检索文本纠错方法,其特征在于,所述纠错词典的构建方式包括:
从检索服务器获取云端历史检索文本;
将所述云端历史检索文本划分为多个历史文本片段,并获取所述历史文本片段的发音信息;
将所述历史文本片段及其发音信息之间的对应关系,记录在纠错词典中。
7.根据权利要求4所述的检索文本纠错方法,其特征在于,所述纠错词典的构建方式包括:
从所述检索服务器获取检索热度值高于预设热度值的热搜文本;
将所述热搜文本划分为多个热搜文本片段,并获取所述热搜文本片段的发音信息;
将所述热搜文本片段及其发音信息之间的对应关系,记录在纠错词典中。
8.根据权利要求1-3任一项所述的检索文本纠错方法,其特征在于,所述根据所述候选检索文本的评分,从多个所述候选检索文本中选取出用于检索的目标检索文本的步骤之后,还包括:
对所述目标检索文本的完整性进行校验;
若所述目标检索文本不完整,则根据预设的不同检索文本之间的关联关系,获取关联所述目标检索文本的关联检索文本;
根据所述关联检索文本补齐所述目标检索文本。
9.一种检索文本纠错装置,其特征在于,所述检索文本纠错装置包括:
文本纠错模块,用于接收输入的待检索文本,并对所述待检索文本进行局部或全部替换,得到纠错文本;
文本设置模块,用于将所述纠错文本以及所述待检索文本设为候选检索文本,得到多个候选检索文本;
文本评分模块,用于调用预先训练的评分函数对所述候选检索文本进行评分,得到所述候选检索文本的评分;
目标筛选模块,用于根据所述候选检索文本的评分,从多个所述候选检索文本中选取出用于检索的目标检索文本。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器加载以执行权利要求1至8任一项所述的检索文本纠错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010182740.7A CN111382260A (zh) | 2020-03-16 | 2020-03-16 | 一种检索文本纠错方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010182740.7A CN111382260A (zh) | 2020-03-16 | 2020-03-16 | 一种检索文本纠错方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111382260A true CN111382260A (zh) | 2020-07-07 |
Family
ID=71217256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010182740.7A Pending CN111382260A (zh) | 2020-03-16 | 2020-03-16 | 一种检索文本纠错方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382260A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112149680A (zh) * | 2020-09-28 | 2020-12-29 | 武汉悦学帮网络技术有限公司 | 错字检测识别方法、装置、电子设备及存储介质 |
CN112380840A (zh) * | 2020-11-19 | 2021-02-19 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及介质 |
CN112597753A (zh) * | 2020-12-22 | 2021-04-02 | 北京百度网讯科技有限公司 | 文本纠错处理方法、装置、电子设备和存储介质 |
CN113055018A (zh) * | 2021-03-18 | 2021-06-29 | 深圳前海黑顿科技有限公司 | 一种基于启发式线性变换的语义编码无损压缩***及方法 |
CN114254593A (zh) * | 2020-09-23 | 2022-03-29 | 中移动信息技术有限公司 | 问题语句的处理方法、装置、设备及计算机存储介质 |
CN114328798A (zh) * | 2021-11-09 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 搜索文本的处理方法、装置、设备、存储介质和程序产品 |
CN116226357A (zh) * | 2023-05-09 | 2023-06-06 | 武汉纺织大学 | 一种输入中包含错误信息场景下的文档检索方法 |
CN116932922A (zh) * | 2023-09-19 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 搜索词条处理方法、装置、计算机设备和计算机存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104156454A (zh) * | 2014-08-18 | 2014-11-19 | 腾讯科技(深圳)有限公司 | 搜索词的纠错方法和装置 |
CN110210029A (zh) * | 2019-05-30 | 2019-09-06 | 浙江远传信息技术股份有限公司 | 基于垂直领域的语音文本纠错方法、***、设备及介质 |
-
2020
- 2020-03-16 CN CN202010182740.7A patent/CN111382260A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104156454A (zh) * | 2014-08-18 | 2014-11-19 | 腾讯科技(深圳)有限公司 | 搜索词的纠错方法和装置 |
CN110210029A (zh) * | 2019-05-30 | 2019-09-06 | 浙江远传信息技术股份有限公司 | 基于垂直领域的语音文本纠错方法、***、设备及介质 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114254593A (zh) * | 2020-09-23 | 2022-03-29 | 中移动信息技术有限公司 | 问题语句的处理方法、装置、设备及计算机存储介质 |
CN112149680B (zh) * | 2020-09-28 | 2024-01-16 | 武汉悦学帮网络技术有限公司 | 错字检测识别方法、装置、电子设备及存储介质 |
CN112149680A (zh) * | 2020-09-28 | 2020-12-29 | 武汉悦学帮网络技术有限公司 | 错字检测识别方法、装置、电子设备及存储介质 |
CN112380840A (zh) * | 2020-11-19 | 2021-02-19 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及介质 |
CN112380840B (zh) * | 2020-11-19 | 2024-05-07 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及介质 |
WO2022105083A1 (zh) * | 2020-11-19 | 2022-05-27 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及介质 |
CN112597753A (zh) * | 2020-12-22 | 2021-04-02 | 北京百度网讯科技有限公司 | 文本纠错处理方法、装置、电子设备和存储介质 |
CN113055018A (zh) * | 2021-03-18 | 2021-06-29 | 深圳前海黑顿科技有限公司 | 一种基于启发式线性变换的语义编码无损压缩***及方法 |
CN114328798B (zh) * | 2021-11-09 | 2024-02-23 | 腾讯科技(深圳)有限公司 | 搜索文本的处理方法、装置、设备、存储介质和程序产品 |
CN114328798A (zh) * | 2021-11-09 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 搜索文本的处理方法、装置、设备、存储介质和程序产品 |
CN116226357B (zh) * | 2023-05-09 | 2023-07-14 | 武汉纺织大学 | 一种输入中包含错误信息场景下的文档检索方法 |
CN116226357A (zh) * | 2023-05-09 | 2023-06-06 | 武汉纺织大学 | 一种输入中包含错误信息场景下的文档检索方法 |
CN116932922A (zh) * | 2023-09-19 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 搜索词条处理方法、装置、计算机设备和计算机存储介质 |
CN116932922B (zh) * | 2023-09-19 | 2024-01-26 | 腾讯科技(深圳)有限公司 | 搜索词条处理方法、装置、计算机设备和计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111382260A (zh) | 一种检索文本纠错方法、装置和存储介质 | |
EP3648099B1 (en) | Voice recognition method, device, apparatus, and storage medium | |
TWI677796B (zh) | 自然語言的語義提取方法及裝置和電腦儲存介質 | |
CN108280061B (zh) | 基于歧义实体词的文本处理方法和装置 | |
WO2021093755A1 (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
US20240028837A1 (en) | Device and method for machine reading comprehension question and answer | |
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN106570180B (zh) | 基于人工智能的语音搜索方法及装置 | |
US20160328467A1 (en) | Natural language question answering method and apparatus | |
CN109542247B (zh) | 句式推荐方法及装置、电子设备、存储介质 | |
CN110472043B (zh) | 一种针对评论文本的聚类方法及装置 | |
CN110941694A (zh) | 知识图谱的搜索定位方法、***、电子设备和存储介质 | |
CN109885180B (zh) | 纠错方法和装置、计算机可读介质 | |
CN111090771A (zh) | 歌曲搜索方法、装置及计算机存储介质 | |
CN114154487A (zh) | 文本自动纠错方法、装置、电子设备及存储介质 | |
CN111143556A (zh) | 软件功能点自动计数方法、装置、介质及电子设备 | |
CN112861521A (zh) | 语音识别结果纠错方法、电子设备及存储介质 | |
CN110717021A (zh) | 人工智能面试中获取输入文本和相关装置 | |
CN116662583B (zh) | 一种文本生成方法、地点检索方法及相关装置 | |
CN109472032A (zh) | 一种实体关系图的确定方法、装置、服务器及存储介质 | |
CN117370190A (zh) | 测试用例生成方法、装置、电子设备和存储介质 | |
CN111858860B (zh) | 搜索信息处理方法及***、服务器、计算机可读介质 | |
CN109508390B (zh) | 基于知识图谱的输入预测方法、装置和电子设备 | |
CN115831117A (zh) | 实体识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |