CN103678684A

CN103678684A - 一种基于导航信息检索的中文分词方法

Info

Publication number: CN103678684A
Application number: CN201310731944.1A
Authority: CN
Inventors: 李潍希; 于航; 解威; 朱小莹
Original assignee: Shenyang Mxnavi Co Ltd
Current assignee: Shenyang Meihang Technology Co.,Ltd.
Priority date: 2013-12-25
Filing date: 2013-12-25
Publication date: 2014-03-26
Anticipated expiration: 2033-12-25
Also published as: CN103678684B

Abstract

一种基于导航信息检索的中文分词方法，其特征在于：分词***的实现步骤：加载词典，文本编码转换；断句处理，把源字符串分隔成多个稍微简单一点的短句；原子分词，是指该短句中不可分割的最小语素单位；逐词遍历匹配法实现成词全匹配；筛选匹配结果生成若干最佳结果；人名、地名和专有名词处理；修正词典，主要通过对未登录词的新词添加和对已有词的属性改善；最终合并各个短句处理的结果，输出。本发明的优点：通过中文分词技术可以把用户输入的内容做成词处理，可以优化速度，并且以词为基础可以进行错别字矫正，可以提供更符合的结果。中文分词技术可以提高信息检索引擎对语义的理解，充分对提供的结果集进行较好的调整。

Description

一种基于导航信息检索的中文分词方法

技术领域

本发明涉及导航领域，特别涉及了一种基于导航信息检索的中文分词方法。

背景技术

目前的导航名称检索所用的字典信息是以单字词作为基础建立，并且字典中只存在单字词相互的一个关联关系，并没有语义解释等信息。根据用户输入的内容切分成单个字顺序进行查找，把结果通过规则排序，最终呈现给用户。这样的检索方式需要相对完整的设施的名称片段，而且无法识别错别字。

发明内容

本发明的目的是为了提高信息检索引擎对语义的理解，充分对提供的结果集进行较好的调整，特提供了一种基于导航信息检索的中文分词方法。

本发明提供了一种基于导航信息检索的中文分词方法，其特征在于：中文分词作为导航检索的基础而设计，中文分词对于搜索引擎来说，最重要的并不是找到所有结果，而是把最符合语义相关的结果优选排在最前面，这也称为相关度排序；中文分词的准确与否，直接影响到对搜索结果的相关度排序；从定性分析来说，搜索引擎的分词算法不同，词库的不同都会影响搜索结果的相关度；

采用统计法和规则理解法，在大量已经分词的文本，利用统计机器学习模型学习词语切分的规律，从而实现对未知文本的切分；将待分析的汉字串与一个机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功，识别出一个词；通过规则对人名、地名和专有名词进行识别处理；

基于地理位置信息特点和以上3个机制的优缺点设计了新型词典的格式，包含了设施分类信息，以及拼音信息等，格式的特点主要是基于4字词为基础的的词典，由于4个字以下成词的比率大约为94.5%，为了简化实现逻辑，基础词典采用4字词典；基于4字词为基础的词典在查找4字以下成词的速度会很快，而且支持双向最大匹配的方法；

分词***的实现步骤：

加载词典，词典包含机器训练所有成词的导航设施信息内容；

文本编码转换，统一为国标码即GBK编码形式表示文本；

断句处理，就是根据分隔符、回车换行符等语句的分隔标志，把源字符串分隔成多个稍微简单一点的短句；

原子分词，所谓原子，是指该短句中不可分割的最小语素单位；一个汉字、短句前后的开始结束标识字段、全角标点符号、连在一起的数字字母单字节字符等；

逐词遍历匹配法实现成词全匹配；此方法是把原子切分的词按由短到长的顺序，逐个搜索匹配整个词典，直到把所有的词都切分出来为止；

筛选匹配结果生成若干最佳结果，通过最短路径方法，评价每条路径，生成若干最佳结果；

前后词匹配，这步功能实现主要是根据前后两个词的一个关联度做整个句子的评价；通过计算一个句子的整体的置信度来评价句子切分的好坏，经过筛选出较优的结果；

词性标注，对于“词性标注”这个应用领域来说即对“确定的切词结果”找到背后的各个词的“词性”；

人名、地名和专有名词处理，通过对标注好的短句进行人名、地名和一些专有名词的处理，由于基于导航的地理位置信息的特点，制作特有的专有名词词典，矫正短句当中语义成分；

未登录词处理，由于字典是有限的，在分词的过程中很容易出现一些未登录词，词表里未出现的词，通过对未登录词进行评价，来判断未登录词是否为一个新词，此过程为未登录词的学习过程：学习过程的任务是要完成对地理信息数据中产生新词的抽取和判定；把识别出来的新词补充到分词词典当中；

修正词典，主要通过对未登录词的新词添加和对已有词的属性改善；

最终合并各个短句处理的结果，输出。

2、按照权利要求1所述的基于导航信息检索的中文分词方法，其特征在于：所述的基于导航信息检索的中文分词方法具体包括：

外部输入：用于接收用户的输入，通常作为直接与用户交互的模块，提供多种的输入方式，符合用户的使用习惯，例如：用户语音输入，用户的手写输入等；

提取特征：把用户输入的文本转换成统一的GBK编码规则；

文本分析：对用户的输入，无论是输入的内容，还是输入的行为细节，包括符号的输入、大小写的输入等，又或者还是对输入的关键字多次的输入，被认定为有用特征后，都作为特征会被记录并提取出来；

分词***处理：对用户的输入语句进行分词和词性标注，可以得到每个词的词性，分类，频率以及拼音属性；对于未登录进行添加以及修正已有词的属性；

语义理解：这个模块会对文本转换的结果，在模式规则库中，进行模式规则的匹配，会生成检索的主要执行步骤；

检索步骤生成：将会执行完整的检索步骤，检索步骤会对语义理解的步骤，进行编译优化处理，会综合考虑性能、内存等要素后，生成一组合理的检索步骤，加上预处理的流程、步骤之间衔接的流程和处理后的流程等，就会最终产生一个检索步骤的清单；与此同时，还会完成初始化环境变量和开辟相关的内存空间，为检索的步骤处理做准备；

检索步骤处理：此过程会根据请求的内容，按照检索的业务逻辑，遍历检索的数据库内容，取得满足查询条件的检索结果；当检索步骤清单定义的步骤数大于零，检索步骤处理就会被调用多次；每一步的结束，都会保存检索的上下文；

检索结果处理：检索结果处理会将检索的结果进行分类、排序、合并等操作，这一步的结果就可以转给外置输出模块，用于向外置设备进行输出；

误差反馈处理：对经过一次检索步骤生成、检索步骤处理后，检索结果不存在，智能检索***会判定对用户输入的理解是存在误差的，需要修改查询条件，误差反馈处理会重新生成检索步骤，进行新的检索，当满足结束的条件后，才会停止检索；

自适应学习：这是一个学习模块，会根据检索的结果和用户的输入，进行自适应的学习，来达到不断适应用户使用习惯的目的；根据用户的多次检索，会不断修正***默认的规则，会影响检索的结果和检索结果的排序等；

外置输出：就是用户接口，提供给用户检索的结果，对用户请求的检索结果，进行应答。

本发明的优点：

本发明所述的基于导航信息检索的中文分词方法，通过中文分词技术可以把用户输入的内容做成词处理，可以优化速度，并且以词为基础可以进行错别字矫正，可以提供更符合的结果。中文分词技术可以提高信息检索引擎对语义的理解，充分对提供的结果集进行较好的调整。

附图说明

下面结合附图及实施方式对本发明作进一步详细的说明：

图1为分词***流程图；

图2为具体实施流程图。

具体实施方式

实施例

本实施例提供了一种基于导航信息检索的中文分词方法，其特征在于：中文分词作为导航检索的基础而设计，中文分词对于搜索引擎来说，最重要的并不是找到所有结果，而是把最符合语义相关的结果优选排在最前面，这也称为相关度排序；中文分词的准确与否，直接影响到对搜索结果的相关度排序；从定性分析来说，搜索引擎的分词算法不同，词库的不同都会影响搜索结果的相关度；

分词***的实现步骤：

文本编码转换，统一为国标码即GBK编码形式表示文本；

最终合并各个短句处理的结果，输出。

提取特征：把用户输入的文本转换成统一的GBK编码规则；

Claims

1.一种基于导航信息检索的中文分词方法，其特征在于：

分词***的实现步骤：

文本编码转换，统一为国标码即GBK编码形式表示文本；

最终合并各个短句处理的结果，输出。

2.按照权利要求1所述的基于导航信息检索的中文分词方法，其特征在于：所述的基于导航信息检索的中文分词方法具体包括：

提取特征：把用户输入的文本转换成统一的GBK编码规则；