CN108037837A - 一种搜索词的智能提示方法 - Google Patents
一种搜索词的智能提示方法 Download PDFInfo
- Publication number
- CN108037837A CN108037837A CN201711090058.XA CN201711090058A CN108037837A CN 108037837 A CN108037837 A CN 108037837A CN 201711090058 A CN201711090058 A CN 201711090058A CN 108037837 A CN108037837 A CN 108037837A
- Authority
- CN
- China
- Prior art keywords
- candidate phrase
- text
- search term
- content
- prompt method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种搜索词的智能提示方法,利用大量文本组合候选短语;对候选短语建立拼音索引后储存在数据库中;实时获取用户输入的文本内容;从数据库中检索用户输入的文本内容,如存在检索内容,将合适的候选短语按词频降序返回前端展示,不存在检索内容,则通过智能纠错后按词频降序返回前端展示。使用本发明的方法,加快了用户获取期望搜索内容的速度,大大提升了用户搜索体验。
Description
技术领域
本发明涉及一种搜索词的智能提示方法。涉及到搜索和自然语言处理技术。
背景技术
如今,随着信息技术的发展,更多的人选择通过网络获取文章,论文等信息。人们选择自己通过搜索文章内容、标题等从而获取想看得到的文章信息。这样的搜索成为人们获取信息的一个极其常见的途径。现有的大多数搜索***中,虽然有许多***包含搜索词智能提示的功能,但往往只能在输入搜索词为中文时,才会智能提示,对于拼音、拼音首字母,中文拼音混合,英文等不能做到很到的智能提示效果。这种搜索***就要求用户的输入一定要规范,且此类提示词往往不能准确地表达出用户真正的搜索目标。这大大地降低了用户的搜索体验,增加了搜索时间。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种搜索词的智能提示方法,能输入实现中文、拼音、拼音首字母、中文拼音、英文等结合的智能提示方法。
为了实现上述目标,本发明采用如下的技术方案:一种搜索词的智能提示方法,其特征在于:包括如下步骤:
步骤一:利用大量文本组合候选短语;大量文本包括使用用户输入频率较高的文本、所在行业及领域的专业语料文本。步骤一包括如下步骤:
步骤1a:;从大量文本中不放回选择采样文本;
步骤1b:将采样文本中每条文本进行分词,再使用改进后的N-gram组合形成候选短语。
步骤二:对候选短语建立拼音索引后储存在数据库中;包括如下步骤:
步骤2a:将候选短语的中文转化为全拼;
步骤2b:将候选短语的中文转化为简拼;
步骤2c:对候选短语的每个字符与其全拼简拼建立映射;
步骤2d:将候选短语字符按中文+全拼、中文+简拼、全拼+简拼模式组合成拼音索引;
步骤2e:存储候选短语和拼音索引。
步骤三:实时获取用户输入的文本内容;
步骤四:从数据库中检索用户输入的文本内容,如存在检索内容,将合适的候选短语按词频降序返回前端展示,不存在检索内容,则通过智能纠错后按词频降序返回前端展示。
前述的一种搜索词的智能提示方法,其特征在于:统计候选短语在所在采样文本中出现的次数,将候选短语到数据库中检索,若候选短语己存在,将统计的词频与数据库中词频相加,若不存在,将候选短语、拼音索引及词频进行存储。
前述的一种搜索词的智能提示方法,其特征在于:步骤四中,智能纠错步骤如下步骤:
将输入内容中的中文转化成拼音;
根据拼音查询数据库中的候选短语索引;
存在合适匹配,将合适的候选短语按词频降序返回。
前述的一种搜索词的智能提示方法,其特征在于:步骤四中,从数据库中检索用户输入的文本内容包括将输入内容与候选短语的拼音索引进行前缀匹配。
前述的一种搜索词的智能提示方法,其特征在于:根据拼音查询数据库中的候选短语索引包括将转化的拼音与候选短语的拼音索引进行前缀匹配。
本发明搜索词的智能提示方法,
改进版N-gram候选短语构建过程:
(1)文本准备:利用搜索***所在运用领域里常见、重要的文章作为文本;
(2)候选短语构建:保证中文词语的完整性,先对文本进行中文分词,再使用N-gram思想构建候选短语。
中拼索引构建过程:
(1)汉字到拼音的转换:将候选短语中的中文全部转化成拼音并保留每个汉字的拼音首字母;
(2)中拼索引构建:计算出候选短语的中文拼音组合的所有情况作为该候选短语的中拼索引;例如:“中国”构建的中拼索引为:“zg”、“zhongg”、“zhongguo”、“中g”、“中guo”、“中国”。
用户搜索词处理过程:获取用户的输入内容,可以是中文、拼音等;实时检测用户在搜索框的增删操作;及时更新获取的输入内容。
搜索词查询过程:将获取到的搜索词与数据库中的候选短语和中拼索引进行匹配;将能匹配到的候选短语返回。
智能纠错过程:对于未能在数据库中匹配到合适候选短语的输入内容,执行智能纠错过程;即把输入内容转化成中拼索引,通过中拼索引到数据库中匹配;如果存在合适的候选短语,则将候选短语按词频降序返回前端展示。
本发明的有益之处在于:通过用户输入的过程中,实时地调取相应的搜索结果,并直观地展示在搜索框的下拉框中,用户可以直接通过下拉框选择相应的内容,就可直接获取到文章、论文的具体内容,并且,本发明支持了中拼、拼音、英文的智能提示,大大提高了用户搜索体验,使得用户更快的获取到最准确的内容。
附图说明
图1是本发明一种搜索词的智能提示方法流程图;
图2是本发明一种搜索词的智能提示方法具体流程图;
图3是本发明一种搜索词的智能提示方法实施例使用流程图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
参照图1、图2所示,本发明一种搜索词的智能提示方法,包括如下步骤:
步骤一:利用大量文本组合候选短语;大量文本包括使用用户输入频率较高的文本、所在行业及领域的专业语料文本。步骤一包括如下步骤:
步骤1a:;从大量文本中不放回选择采样文本;
步骤1b:将采样文本中每条文本进行分词,再使用改进后的N-gram组合形成候选短语。
步骤二:对候选短语建立拼音索引后储存在数据库中;步骤二包括如下步骤:
步骤2a:将候选短语的中文转化为全拼;
步骤2b:将候选短语的中文转化为简拼;
步骤2c:对候选短语的每个字符与其全拼简拼建立映射;
步骤2d:将候选短语字符按中文+全拼、中文+简拼、全拼+简拼模式组合成拼音索引;
步骤2e:存储候选短语和拼音索引。
步骤三:实时获取用户输入的文本内容;
步骤四:从数据库中检索用户输入的文本内容,如存在检索内容,将合适的候选短语按词频降序返回前端展示,不存在检索内容,则通过智能纠错后按词频降序返回前端展示。
统计候选短语在所在采样文本中出现的次数,将候选短语到数据库中检索,若候选短语己存在,将统计的词频与数据库中词频相加,若不存在,将候选短语、拼音索引及词频进行存储。
智能纠错步骤如下步骤:
(1)将输入内容中的中文转化成拼音;
(2)根据拼音查询数据库中的候选短语索引;
(3)存在合适匹配,将合适的候选短语按词频降序返回。
从数据库中检索用户输入的文本内容包括将输入内容与候选短语的拼音索引进行前缀匹配。
根据拼音查询数据库中的候选短语索引包括将转化的拼音与候选短语的拼音索引进行前缀匹配。
本发明一种搜索词的智能提示方法,
改进版N-gram候选短语构建过程:
(1)文本准备:利用搜索***所在运用领域里常见、重要的文章作为文本;
(2)候选短语构建:保证中文词语的完整性,先对文本进行中文分词,再使用N-gram思想构建候选短语。
中拼索引构建过程:(1)汉字到拼音的转换:将候选短语中的中文全部转化成拼音并保留每个汉字的拼音首字母;
(2)中拼索引构建:计算出候选短语的中文拼音组合的所有情况作为该候选短语的中拼索引;例如:“中国”构建的中拼索引为:“zg”、“zhongg”、“zhongguo”、“中g”、“中guo”、“中国”。
根据图3使用流程图所示:
(1)用户搜索词处理过程:获取用户的输入内容,可以是中文,也可以为拼音、中文拼音混合,拼音首字母、英文等;实时检测用户在搜索框的增删操作;及时更新获取的输入内容。
(2)搜索词查询过程:将获取到的搜索词与数据库中的候选短语和中拼索引进行匹配;将能匹配到的候选短语返回。
(3)如果存在合适的候选短语,则将候选短语按词频降序排序返回前端展示,对于未能在数据库中匹配到合适候选短语的输入内容,执行智能纠错过程,即把输入内容转化成中拼索引,通过中拼索引到数据库中匹配后,将候选短语按词频降序排序返回前端展示。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (8)
1.一种搜索词的智能提示方法,其特征在于:包括如下步骤:
步骤一:利用大量文本组合候选短语;
步骤二:对候选短语建立拼音索引后储存在数据库中;
步骤三:实时获取用户输入的文本内容;
步骤四:从数据库中检索用户输入的文本内容,如存在检索内容,将合适的候选短语按词频降序返回前端展示,不存在检索内容,则通过智能纠错后按词频降序返回前端展示。
2.根据权利要求1所述的一种搜索词的智能提示方法,其特征在于:步骤一中的大量文本包括使用用户输入频率较高的文本、所在行业及领域的专业语料文本。
3.根据权利要求1所述的一种搜索词的智能提示方法,其特征在于:步骤一包括如下步骤:
步骤1a:;从大量文本中不放回选择采样文本;
步骤1b:将采样文本中每条文本进行分词,再使用改进后的N-gram组合形成候选短语。
4.根据权利要求3所述的一种搜索词的智能提示方法,其特征在于:统计候选短语在所在采样文本中出现的次数,将候选短语到数据库中检索,若候选短语已存在,将统计的词频与数据库中词频相加,若不存在,将候选短语、拼音索引及词频进行存储。
5.根据权利要求1所述的一种搜索词的智能提示方法,其特征在于:步骤二包括如下步骤:
步骤2a:将候选短语的中文转化为全拼;
步骤2b:将候选短语的中文转化为简拼;
步骤2c:对候选短语的每个字符与其全拼简拼建立映射;
步骤2d:将候选短语字符按中文+全拼、中文+简拼、全拼+简拼模式组合成拼音索引;
步骤2e:存储候选短语和拼音索引。
6.根据权利要求1所述的一种搜索词的智能提示方法,其特征在于:步骤四中,智能纠错步骤如下步骤:
将输入内容中的中文转化成拼音;
根据拼音查询数据库中的候选短语索引;
存在合适匹配,将合适的候选短语按词频降序返回。
7.根据权利要求1所述的一种搜索词的智能提示方法,其特征在于:步骤四中,从数据库中检索用户输入的文本内容包括将输入内容与候选短语的拼音索引进行前缀匹配。
8.根据权利要求6所述的一种搜索词的智能提示方法,其特征在于:根据拼音查询数据库中的候选短语索引包括将转化的拼音与候选短语的拼音索引进行前缀匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711090058.XA CN108037837A (zh) | 2017-11-07 | 2017-11-07 | 一种搜索词的智能提示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711090058.XA CN108037837A (zh) | 2017-11-07 | 2017-11-07 | 一种搜索词的智能提示方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108037837A true CN108037837A (zh) | 2018-05-15 |
Family
ID=62093799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711090058.XA Pending CN108037837A (zh) | 2017-11-07 | 2017-11-07 | 一种搜索词的智能提示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108037837A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108803894A (zh) * | 2018-06-08 | 2018-11-13 | 珠海广缘医药有限公司 | 一种基于pinying.js实现商品名的拼音简写自动生成的方法 |
CN109614621A (zh) * | 2018-12-11 | 2019-04-12 | ***通信集团江苏有限公司 | 一种校正文本的方法、装置及设备 |
CN111653328A (zh) * | 2020-06-04 | 2020-09-11 | 医渡云(北京)技术有限公司 | 病历信息推送方法、装置、存储介质及电子设备 |
CN112015856A (zh) * | 2020-08-26 | 2020-12-01 | 海看网络科技(山东)股份有限公司 | 一种IPTV中基于Elasticsearch实现拼音检索方法 |
CN112307073A (zh) * | 2019-08-30 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 一种信息查询方法、装置、设备和存储介质 |
CN113535921A (zh) * | 2021-07-21 | 2021-10-22 | 携程旅游网络技术(上海)有限公司 | 用于客服的话术输出方法、***、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1936896A (zh) * | 2006-09-20 | 2007-03-28 | 网之易信息技术(北京)有限公司 | 一种基于搜索引擎的信息检索方法及检索*** |
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
CN106649276A (zh) * | 2016-12-29 | 2017-05-10 | 北京京东尚科信息技术有限公司 | 标题中核心产品词的识别方法以及装置 |
CN107193921A (zh) * | 2017-05-15 | 2017-09-22 | 中山大学 | 面向搜索引擎的中英混合查询纠错的方法及*** |
-
2017
- 2017-11-07 CN CN201711090058.XA patent/CN108037837A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1936896A (zh) * | 2006-09-20 | 2007-03-28 | 网之易信息技术(北京)有限公司 | 一种基于搜索引擎的信息检索方法及检索*** |
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
CN106649276A (zh) * | 2016-12-29 | 2017-05-10 | 北京京东尚科信息技术有限公司 | 标题中核心产品词的识别方法以及装置 |
CN107193921A (zh) * | 2017-05-15 | 2017-09-22 | 中山大学 | 面向搜索引擎的中英混合查询纠错的方法及*** |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108803894A (zh) * | 2018-06-08 | 2018-11-13 | 珠海广缘医药有限公司 | 一种基于pinying.js实现商品名的拼音简写自动生成的方法 |
CN109614621A (zh) * | 2018-12-11 | 2019-04-12 | ***通信集团江苏有限公司 | 一种校正文本的方法、装置及设备 |
CN109614621B (zh) * | 2018-12-11 | 2023-09-19 | ***通信集团江苏有限公司 | 一种校正文本的方法、装置及设备 |
CN112307073A (zh) * | 2019-08-30 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 一种信息查询方法、装置、设备和存储介质 |
CN111653328A (zh) * | 2020-06-04 | 2020-09-11 | 医渡云(北京)技术有限公司 | 病历信息推送方法、装置、存储介质及电子设备 |
CN111653328B (zh) * | 2020-06-04 | 2023-03-21 | 医渡云(北京)技术有限公司 | 病历信息推送方法、装置、存储介质及电子设备 |
CN112015856A (zh) * | 2020-08-26 | 2020-12-01 | 海看网络科技(山东)股份有限公司 | 一种IPTV中基于Elasticsearch实现拼音检索方法 |
CN113535921A (zh) * | 2021-07-21 | 2021-10-22 | 携程旅游网络技术(上海)有限公司 | 用于客服的话术输出方法、***、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108037837A (zh) | 一种搜索词的智能提示方法 | |
CN103365925B (zh) | 获取多音字拼音、基于拼音检索的方法及其相应装置 | |
US10140333B2 (en) | Trusted query system and method | |
CN106326303B (zh) | 一种口语语义解析***及方法 | |
CN101286161B (zh) | 一种基于概念的智能中文问答*** | |
WO2014209810A2 (en) | Methods and apparatuses for mining synonymous phrases, and for searching related content | |
CN108920447B (zh) | 一种面向特定领域的中文事件抽取方法 | |
WO2012159558A1 (zh) | 基于语意识别的自然语言处理方法、装置和*** | |
CN101359339A (zh) | 一种关键词自动扩展查询方法及其装置 | |
CN102541837A (zh) | 一种校正输入中文拼写的方法 | |
JP2633824B2 (ja) | 仮名漢字変換装置 | |
KR101616031B1 (ko) | 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법 | |
CN107153635A (zh) | 一种自动提取论文引用内容及对应文后参考文献的方法和*** | |
CN102122296B (zh) | 检索结果聚类方法及装置 | |
CN107273360A (zh) | 基于语义理解的中文实词提取算法 | |
Smith et al. | Syntax-based skill extractor for job advertisements | |
CN110705285A (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN103377188A (zh) | 翻译库的构建方法及*** | |
Srinivasagan et al. | An automated system for tamil named entity recognition using hybrid approach | |
TW201214155A (en) | Article based paragraphic online translating system and method thereof | |
CN101436205A (zh) | 通过释义查询单字的方法与装置 | |
CN109727591B (zh) | 一种语音搜索的方法及装置 | |
Sarkar et al. | Bengali noun phrase chunking based on conditional random fields | |
Cui | Converting taxonomic descriptions to new digital formats | |
CN116991969B (zh) | 可配置语法关系的检索方法、***、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180515 |