CN106021625A

CN106021625A - 基于solr搜索引擎的两种分词器的混合应用方法

Info

Publication number: CN106021625A
Application number: CN201610590042.4A
Authority: CN
Inventors: 孔彪
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2016-07-26
Filing date: 2016-07-26
Publication date: 2016-10-12

Abstract

本发明公开了一种基于SOLR搜索引擎的两种分词器的混合应用方法，该方法是在应用搜索引擎搜索时，利用solr中可以集成多种分词插件的特性，在建立索引时利用IK Analyzer分词的细密粒度分词方式，同时在搜索索引时又利用mmseg4j的分词方式进行搜索。本发明的基于SOLR搜索引擎的两种分词器的混合应用方法和现有技术相比，可以解决solr分词方式对于中文分词的不足，弥补了因分词方式单一，造成的搜索引擎搜索不够精确，涵盖范围不够广的问题；使得搜索引擎的可用性得到了极大的提升。

Description

基于SOLR搜索引擎的两种分词器的混合应用方法

技术领域

本发明涉及搜索引擎技术领域，具体地说是一种基于SOLR搜索引擎的两种分词器的混合应用方法。

背景技术

Apache Solr它是一种开放源码的、基于 Lucene Java 的搜索服务器，易于加入到 Web 应用程序中。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式（包括XML/XSLT 和 JSON 格式）。它易于安装和配置，而且附带了一个基于 HTTP 的管理界面。您可以坚持使用 Solr 的表现优异的基本搜索功能，也可以对它进行扩展从而满足企业的需要。

对于搜索引擎来说，分词技术的重要程度是显而易见的，它关系搜索引擎最重要的部分，搜索精确的问题。Solr自带的分词器不能满足对中文的准确分词，因此需要引入外部中文分词技术。

中文分词到底对搜索引擎有多大影响？对于搜索引擎来说，最重要的并不是找到所有结果，因为在上百亿的网页中找到所有结果没有太多的意义，没有人能看得完，最重要的是把最相关的结果排在最前面，这也称为相关度排序。中文分词的准确与否，常常直接影响到对搜索结果的相关度排序。也就影响到了产品是否能够被用户所认可的关键。

随着互联网的发展，现在正在逐步向人们学习，工作，休闲等各个空间延伸，因此互联网上信息迎来了***式的增长，信息多元化使人们分辨搜索起来困难无比，如何快速的让人们在多种多样的信息中找到自己想要的内容，搜索引擎通过整合大量的网络信息并提供极快的查询速度，其中所用的垂直搜所引擎模式解决了信息量大，查询不准确，深度不够等问题。

发明内容

本发明的技术任务是提供一种基于SOLR搜索引擎的两种分词器的混合应用方法。

本发明的技术任务是按以下方式实现的，该方法是在应用搜索引擎搜索时，利用solr中可以集成多种分词插件的特性，在建立索引时利用IK Analyzer分词的细密粒度分词方式，同时在搜索索引时又利用mmseg4j的分词方式进行搜索。

该方法步骤如下：

步骤1、首先在solr中配置IK Analyzer分词器；

步骤2、其次在solr中配置mmseg4j分词器；

步骤3、最后指定对应的分词方式。

所述的步骤1、首先在solr中配置IK Analyzer分词器；

1）在配置文件schema.xml（位置{SOLR_HOME}/config/下），配置信息如下：

<!—建立索引时调用Ik分词 -->

<!—查询时用mmseg分词器 -->

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"

mode="complex" dicPath="/hadoop/kbscloud/hhh/solr/credit/conf" />

<!—添加停用词 -->

</analyzer>

</fieldType>

2）IKAnalyzer.cfg.xml配置文件

把stopword.dic和IKAnalyzer.cfg.xml复制到class根目录就可以启用停用词功能和扩展自己的词典

<?xmlversion="1.0"encoding="UTF-8"?>

<!DOCTYPEpropertiesSYSTEM"http://java.sun.com/dtd/properties.dtd">

<comment>IK Analyzer 扩展配置</comment>

<entrykey="ext_dict">ext.dic;</entry>

<entrykey="ext_stopwords">stopword.dic;</entry>

</properties>。

所述的步骤2、其次在solr中配置mmseg4j分词器；

在配置文件schema.xml（位置{SOLR_HOME}/config/下），配置信息如下：

</analyzer>

</analyzer>

</fieldType>。

所述的步骤3、最后指定对应的分词方式；

<field name="WdId" type="text_mmseg4j_complex" indexed= "true" stored= "true" />。

本发明的基于SOLR搜索引擎的两种分词器的混合应用方法和现有技术相比，可以解决solr分词方式对于中文分词的不足，弥补了因分词方式单一，造成的搜索引擎搜索不够精确，涵盖范围不够广的问题；使得搜索引擎的可用性得到了极大的提升。

具体实施方式

实施例1：

该基于SOLR搜索引擎的两种分词器的混合应用方法是在应用搜索引擎搜索时，利用solr中可以集成多种分词插件的特性，在建立索引时利用IK Analyzer分词的细密粒度分词方式，同时在搜索索引时又利用mmseg4j的分词方式进行搜索。

该方法步骤如下：

步骤1、首先在solr中配置IK Analyzer分词器；

<!—建立索引时调用Ik分词 -->

<!—查询时用mmseg分词器 -->

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"

mode="complex" dicPath="/hadoop/kbscloud/hhh/solr/credit/conf" />

<!—添加停用词 -->

</analyzer>

</fieldType>

2）IKAnalyzer.cfg.xml配置文件

<?xmlversion="1.0"encoding="UTF-8"?>

<!DOCTYPEpropertiesSYSTEM"http://java.sun.com/dtd/properties.dtd">

<comment>IK Analyzer 扩展配置</comment>

<entrykey="ext_dict">ext.dic;</entry>

<entrykey="ext_stopwords">stopword.dic;</entry>

</properties>。

步骤2、其次在solr中配置mmseg4j分词器；

</analyzer>

</analyzer>

</fieldType>。

步骤3、最后指定对应的分词方式；

这样再搜所字段时，既可以单纯应用mmseg4j分词器，也可以混合使用mmseg4j分词和IK Analyzer分词器。

上述的IK Analyzer分词器采用“正向迭代最细粒度切分算法”，分词工具类IKQueryParser起至关重要的作用，它对搜索关键词采用从最大词到最小词层层迭代检索方式切分，如此细密的分割方式，满足建立索引所需的词库基础，是索引的关键词包含的非常广泛。

上述的MMSeg算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。mmseg4j在 Complex 算法基础上实现了最多分词(max-word)。这样就可以满足尽量准确的查找出所用的词的内容。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

Claims

1.基于SOLR搜索引擎的两种分词器的混合应用方法，其特征在于，该方法是在应用搜索引擎搜索时，利用solr中可以集成多种分词插件的特性，在建立索引时利用IK Analyzer分词的细密粒度分词方式，同时在搜索索引时又利用mmseg4j的分词方式进行搜索。

2.根据权利要求1所述的基于SOLR搜索引擎的两种分词器的混合应用方法，其特征在于，该方法步骤如下：

步骤1、首先在solr中配置IK Analyzer分词器；

步骤2、其次在solr中配置mmseg4j分词器；

步骤3、最后指定对应的分词方式。

3.根据权利要求2所述的基于SOLR搜索引擎的两种分词器的混合应用方法，其特征在于，所述的步骤1、首先在solr中配置IK Analyzer分词器；

<!—建立索引时调用Ik分词 -->

<!—查询时用mmseg分词器 -->

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"

mode="complex" dicPath="/hadoop/kbscloud/hhh/solr/credit/conf" />

<!—添加停用词 -->

</analyzer>

</fieldType>

2）IKAnalyzer.cfg.xml配置文件

<?xmlversion="1.0"encoding="UTF-8"?>

<!DOCTYPEpropertiesSYSTEM"http://java.sun.com/dtd/properties.dtd">

<comment>IK Analyzer 扩展配置</comment>

<entrykey="ext_dict">ext.dic;</entry>

<entrykey="ext_stopwords">stopword.dic;</entry>

</properties>。

4.根据权利要求2所述的基于SOLR搜索引擎的两种分词器的混合应用方法，其特征在于，所述的步骤2、其次在solr中配置mmseg4j分词器；

</analyzer>

</analyzer>

</fieldType>。

5.根据权利要求2所述的基于SOLR搜索引擎的两种分词器的混合应用方法，其特征在于，所述的步骤3、最后指定对应的分词方式；