CN108037837A

CN108037837A - 一种搜索词的智能提示方法

Info

Publication number: CN108037837A
Application number: CN201711090058.XA
Authority: CN
Inventors: 武爱斌; 魏小庆
Original assignee: Longkon Wisdom Polytron Technologies Inc
Current assignee: Longkon Wisdom Polytron Technologies Inc
Priority date: 2017-11-07
Filing date: 2017-11-07
Publication date: 2018-05-15

Abstract

本发明公开了一种搜索词的智能提示方法，利用大量文本组合候选短语；对候选短语建立拼音索引后储存在数据库中；实时获取用户输入的文本内容；从数据库中检索用户输入的文本内容，如存在检索内容，将合适的候选短语按词频降序返回前端展示，不存在检索内容，则通过智能纠错后按词频降序返回前端展示。使用本发明的方法，加快了用户获取期望搜索内容的速度，大大提升了用户搜索体验。

Description

一种搜索词的智能提示方法

技术领域

本发明涉及一种搜索词的智能提示方法。涉及到搜索和自然语言处理技术。

背景技术

如今，随着信息技术的发展，更多的人选择通过网络获取文章，论文等信息。人们选择自己通过搜索文章内容、标题等从而获取想看得到的文章信息。这样的搜索成为人们获取信息的一个极其常见的途径。现有的大多数搜索***中，虽然有许多***包含搜索词智能提示的功能，但往往只能在输入搜索词为中文时，才会智能提示，对于拼音、拼音首字母，中文拼音混合，英文等不能做到很到的智能提示效果。这种搜索***就要求用户的输入一定要规范，且此类提示词往往不能准确地表达出用户真正的搜索目标。这大大地降低了用户的搜索体验，增加了搜索时间。

发明内容

为解决现有技术的不足，本发明的目的在于提供一种搜索词的智能提示方法，能输入实现中文、拼音、拼音首字母、中文拼音、英文等结合的智能提示方法。

为了实现上述目标，本发明采用如下的技术方案：一种搜索词的智能提示方法，其特征在于：包括如下步骤：

步骤一：利用大量文本组合候选短语；大量文本包括使用用户输入频率较高的文本、所在行业及领域的专业语料文本。步骤一包括如下步骤：

步骤1a：；从大量文本中不放回选择采样文本；

步骤1b：将采样文本中每条文本进行分词，再使用改进后的N-gram组合形成候选短语。

步骤二：对候选短语建立拼音索引后储存在数据库中；包括如下步骤：

步骤2a：将候选短语的中文转化为全拼；

步骤2b：将候选短语的中文转化为简拼；

步骤2c：对候选短语的每个字符与其全拼简拼建立映射；

步骤2d：将候选短语字符按中文+全拼、中文+简拼、全拼+简拼模式组合成拼音索引；

步骤2e：存储候选短语和拼音索引。

步骤三：实时获取用户输入的文本内容；

步骤四：从数据库中检索用户输入的文本内容，如存在检索内容，将合适的候选短语按词频降序返回前端展示，不存在检索内容，则通过智能纠错后按词频降序返回前端展示。

前述的一种搜索词的智能提示方法，其特征在于：统计候选短语在所在采样文本中出现的次数，将候选短语到数据库中检索，若候选短语己存在，将统计的词频与数据库中词频相加，若不存在，将候选短语、拼音索引及词频进行存储。

前述的一种搜索词的智能提示方法，其特征在于：步骤四中，智能纠错步骤如下步骤：

将输入内容中的中文转化成拼音；

根据拼音查询数据库中的候选短语索引；

存在合适匹配，将合适的候选短语按词频降序返回。

前述的一种搜索词的智能提示方法，其特征在于：步骤四中，从数据库中检索用户输入的文本内容包括将输入内容与候选短语的拼音索引进行前缀匹配。

前述的一种搜索词的智能提示方法，其特征在于：根据拼音查询数据库中的候选短语索引包括将转化的拼音与候选短语的拼音索引进行前缀匹配。

本发明搜索词的智能提示方法，

改进版N-gram候选短语构建过程：

(1)文本准备：利用搜索***所在运用领域里常见、重要的文章作为文本；

(2)候选短语构建：保证中文词语的完整性，先对文本进行中文分词，再使用N-gram思想构建候选短语。

中拼索引构建过程：

(1)汉字到拼音的转换：将候选短语中的中文全部转化成拼音并保留每个汉字的拼音首字母；

(2)中拼索引构建：计算出候选短语的中文拼音组合的所有情况作为该候选短语的中拼索引；例如：“中国”构建的中拼索引为：“zg”、“zhongg”、“zhongguo”、“中g”、“中guo”、“中国”。

用户搜索词处理过程：获取用户的输入内容，可以是中文、拼音等；实时检测用户在搜索框的增删操作；及时更新获取的输入内容。

搜索词查询过程：将获取到的搜索词与数据库中的候选短语和中拼索引进行匹配；将能匹配到的候选短语返回。

智能纠错过程：对于未能在数据库中匹配到合适候选短语的输入内容，执行智能纠错过程；即把输入内容转化成中拼索引，通过中拼索引到数据库中匹配；如果存在合适的候选短语，则将候选短语按词频降序返回前端展示。

本发明的有益之处在于：通过用户输入的过程中，实时地调取相应的搜索结果，并直观地展示在搜索框的下拉框中，用户可以直接通过下拉框选择相应的内容，就可直接获取到文章、论文的具体内容，并且，本发明支持了中拼、拼音、英文的智能提示，大大提高了用户搜索体验，使得用户更快的获取到最准确的内容。

附图说明

图1是本发明一种搜索词的智能提示方法流程图；

图2是本发明一种搜索词的智能提示方法具体流程图；

图3是本发明一种搜索词的智能提示方法实施例使用流程图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

参照图1、图2所示，本发明一种搜索词的智能提示方法，包括如下步骤：

步骤1a：；从大量文本中不放回选择采样文本；

步骤二：对候选短语建立拼音索引后储存在数据库中；步骤二包括如下步骤：

步骤2a：将候选短语的中文转化为全拼；

步骤2b：将候选短语的中文转化为简拼；

步骤2c：对候选短语的每个字符与其全拼简拼建立映射；

步骤2e：存储候选短语和拼音索引。

步骤三：实时获取用户输入的文本内容；

统计候选短语在所在采样文本中出现的次数，将候选短语到数据库中检索，若候选短语己存在，将统计的词频与数据库中词频相加，若不存在，将候选短语、拼音索引及词频进行存储。

智能纠错步骤如下步骤：

(1)将输入内容中的中文转化成拼音；

(2)根据拼音查询数据库中的候选短语索引；

(3)存在合适匹配，将合适的候选短语按词频降序返回。

从数据库中检索用户输入的文本内容包括将输入内容与候选短语的拼音索引进行前缀匹配。

根据拼音查询数据库中的候选短语索引包括将转化的拼音与候选短语的拼音索引进行前缀匹配。

本发明一种搜索词的智能提示方法，

改进版N-gram候选短语构建过程：

中拼索引构建过程：(1)汉字到拼音的转换：将候选短语中的中文全部转化成拼音并保留每个汉字的拼音首字母；

根据图3使用流程图所示：

(1)用户搜索词处理过程：获取用户的输入内容，可以是中文，也可以为拼音、中文拼音混合，拼音首字母、英文等；实时检测用户在搜索框的增删操作；及时更新获取的输入内容。

(2)搜索词查询过程：将获取到的搜索词与数据库中的候选短语和中拼索引进行匹配；将能匹配到的候选短语返回。

(3)如果存在合适的候选短语，则将候选短语按词频降序排序返回前端展示，对于未能在数据库中匹配到合适候选短语的输入内容，执行智能纠错过程，即把输入内容转化成中拼索引，通过中拼索引到数据库中匹配后，将候选短语按词频降序排序返回前端展示。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种搜索词的智能提示方法，其特征在于：包括如下步骤：

步骤一：利用大量文本组合候选短语；

步骤二：对候选短语建立拼音索引后储存在数据库中；

步骤三：实时获取用户输入的文本内容；

2.根据权利要求1所述的一种搜索词的智能提示方法，其特征在于：步骤一中的大量文本包括使用用户输入频率较高的文本、所在行业及领域的专业语料文本。

3.根据权利要求1所述的一种搜索词的智能提示方法，其特征在于：步骤一包括如下步骤：

步骤1a：；从大量文本中不放回选择采样文本；

4.根据权利要求3所述的一种搜索词的智能提示方法，其特征在于：统计候选短语在所在采样文本中出现的次数，将候选短语到数据库中检索，若候选短语已存在，将统计的词频与数据库中词频相加，若不存在，将候选短语、拼音索引及词频进行存储。

5.根据权利要求1所述的一种搜索词的智能提示方法，其特征在于：步骤二包括如下步骤：

步骤2a：将候选短语的中文转化为全拼；

步骤2b：将候选短语的中文转化为简拼；

步骤2c：对候选短语的每个字符与其全拼简拼建立映射；

步骤2e：存储候选短语和拼音索引。

6.根据权利要求1所述的一种搜索词的智能提示方法，其特征在于：步骤四中，智能纠错步骤如下步骤：

将输入内容中的中文转化成拼音；

根据拼音查询数据库中的候选短语索引；

存在合适匹配，将合适的候选短语按词频降序返回。

7.根据权利要求1所述的一种搜索词的智能提示方法，其特征在于：步骤四中，从数据库中检索用户输入的文本内容包括将输入内容与候选短语的拼音索引进行前缀匹配。

8.根据权利要求6所述的一种搜索词的智能提示方法，其特征在于：根据拼音查询数据库中的候选短语索引包括将转化的拼音与候选短语的拼音索引进行前缀匹配。