CN106815195A

CN106815195A - 一种分词方法及装置、检索方法及装置

Info

Publication number: CN106815195A
Application number: CN201510850300.3A
Authority: CN
Inventors: 郑佳栋; 王生; 李欣; 周大良; 王伟
Original assignee: Founder International Co Ltd; Founder International Beijing Co Ltd
Current assignee: Founder International Co Ltd; Founder International Beijing Co Ltd
Priority date: 2015-11-27
Filing date: 2015-11-27
Publication date: 2017-06-09

Abstract

本发明实施例提供了一种分词方法及装置、检索方法及装置，用于提高文本分词的准确性，提高搜索命中概率。其中，所述分词方法包括：将待分词文本进行分词，并和预测词典中的词进行匹配，得到第一次分词结果和未登录字；以所述未登录字为基础，向前或向后截取一段文本作为与所述未登录字对应的未登录词；判断所述未登录词是否已存在于所述第一次分词结果中，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。

Description

一种分词方法及装置、检索方法及装置

技术领域

本发明涉及液晶显示技术领域，尤其涉及一种分词方法及装置、检索方法及装置。

背景技术

随着互联网技术的飞速发展，网络中多媒体资源的数目与日俱增，越来越多的网站开始向互联网用户提供各种多媒体资源。目前，用户使用搜索引擎检索自身需要的多媒体资源时，通常使用索引字段(即检索关键字)来精准地提取出相应的多媒体信息；而现有的搜索引擎在根据索引字段检索多媒体资源时，先使用工具网页对互联网的网页进行抓取，再将网页特征信息(如，网页内容描述信息、网页标题等等)与索引字段进行关键词匹配，接着，将匹配后的各网页进行索引对应并排序，最后，将检索结果呈现给用户。

目前主要的分词方法包括，二分法分词，基于字典的正向最大、逆向最大、最少切分、双向最大等，还包括各种基于自然统计的分词方法，如HMM分词，构词法分词等等。这些分词算法，在字典足够全面、概率字典训练足够成熟的条件下，基于对语句进行正确分词的要求下，其工作的很好。

在地址资源检索中，通过分词***，对地址资源名称和地址进行分词，是必不可少的步骤。但是由于地址资源大多数属于未登录词、基于普通的文章训练的字典概率不符合地址资源特征、地址资源常常有歧义等因素，在作为倒序索引构建时使用的分词算法，这些算法存在切分不能满足检索要求的弊端；且考虑资源大小的限制以及快速响应的要求，不可能无限扩充合成***的通用词典中的词条量。

发明内容

本发明实施例提供了一种分词方法及装置、检索方法及装置，用于提高文本分词的准确性，提高搜索命中概率。

本发明实施例提供了一种分词方法，所述方法包括：

将待分词文本进行分词，并和预测词典中的词进行匹配，得到第一次分词结果和未登录字；

以所述未登录字为基础，向前或向后截取一段文本作为与所述未登录字对应的未登录词；

判断所述未登录词是否已存在于所述第一次分词结果中，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。

本发明实施例提供的分词方法中，首先将待分词文本进行分词，并将得到的分词与预测词典中的词进行匹配，得到第一次分词结果和未登录字；然后以所述未登录字为基础，向前或向后截取一段文本作为与所述未登录字对应的未登录词，并判断所述未登录词是否已存在于所述第一次分词结果中，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到所述第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。该分词方法中对未登录词进行分词并添加到分词列表中，提高了分词的准确性，使得利用该分词列表构建的索引具有全面性、抗未登录词的特征，减少了对预测词典全面性的要求，且能够提高搜索命中概率。

较佳的，在将待分词文本进行分词之前，所述方法还包括：

收集基本单词和常用词，构建文本词典；

对所述文本词典进行算法构建，形成带预测特征的预测词典；其中，所述预测词典中包括词、词前缀以及词|词前缀。

较佳的，所述方法还包括：将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中，并根据所述分词列表中的分词，构建倒序索引。

通过根据所述分词列表中的分词构建倒序索引，可有效的实现对倒序索引进行管理，有利于降低检索过程中所需的缓存，提高***响应。

基于同一发明构思，本发明实施例还提供了一种检索方法，所述检索方法包括：

判断所述未登录词是否已存在于所述第一次分词结果中，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个用于搜索的分词；

将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中，并根据所述分词列表中的分词构建倒序索引；

根据用于检索的关键词查询出与所述关键词对应的倒序索引，并取得对应的检索结果。

所述检索方法中，首先将待分词文本进行分词，得到第一次分词结果和未登录字，然后以所述未登录字为基础，向前或向后截取一段文本作为与所述未登录字对应的未登录词，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到所述第一次分词结果中，从而得到包括未登录词的第二次分词结果；然后将所述第二次分词结果中的分词放入到分词列表中，再根据所述分词列表构建倒序索引，并根据用于检索的关键词查询出与所述关键词对应的倒序索引，并取得对应的检索结果。由于该检索方法中通过对未登录词进行分词并添加到分词列表中，提高了分词的准确性，使得利用该分词列表构建的倒序索引具有全面性、抗未登录词的特征，减少了对预测词典全面性的要求，且能够提高搜索命中概率。

较佳的，所述根据用于检索的关键词查询出与所述关键词对应的倒序索引，并取得对应的检索结果，包括：

根据所述关键词和倒序索引，得到多个与该关键词对应的分词结果匹配的作为检索结果的倒序索引；

对命中所述分词结果的所有倒序索引进行相关度计算，根据计算得到相关度的高低顺序，来选出作为检索结果的倒序索引，并根据所述作为检索结果的倒序索引取得对应的检索结果。

基于同一发明构思，本发明实施例还提供了一种分词装置，所述分词装置包括：

划分单元，用于将待分词文本进行分词，并和预测词典中的词进行匹配，得到第一次分词结果和未登录字；

组词单元，用于以所述未登录字为基础，向前或向后截取一段文本作为与所述未登录字对应的未登录词；

判断单元，判断所述未登录词是否已存在于所述第一次分词结果中，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。

本发明实施例提供的分词装置中，通过划分单元将待分词文本进行分词，并将得到的分词和预测词典中的词进行匹配，得到第一次分词结果和未登录字；然后通过组词单元以所述未登录字为基础，向前或向后截取一段文本作为与所述未登录字对应的未登录词，最后通过判断单元判断所述未登录词是否已存在于所述第一次分词结果中，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到所述第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词，提高了分词的准确性，使得利用所述第二次分词结果构建的索引具有全面性、抗未登录词的特征，减少了对预测词典全面性的要求，且能够提高搜索命中概率。

较佳的，所述分词装置还包括预测词典构建单元，用于收集基本单词和常用词，构建文本词典；并对所述文本词典进行算法构建，形成带预测特征的预测词典；其中，所述预测词典中包括词、词前缀以及词|词前缀。

通过所述预测词典构建单元构建带预测特征的预测词典，以减少在所述预测词典中查询该分词位置信息的工作量，进而提高工作效率。

较佳的，所述分词装置还包括排序单元，用于将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中，并根据所述分词列表中的分词构建倒序索引。

通过所述排序单元将第二次分词结果中的分词放入到分词列表中，并根据所述分词列表中的分词构建倒序索引，可有效的实现对倒序索引进行管理，有利于降低检索过程中所需的缓存，提高***响应。

基于同一发明构思，本发明实施例还提供了一种检索装置，所述检索装置包括：

判断单元，判断所述未登录词是否已存在于所述第一次分词结果中，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词；

排序单元，用于将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中，并根据所述分词列表中的分词，构建倒序索引；

生成单元，根据用于检索的关键词查询出与所述关键词对应的倒序索引，并取得对应的检索结果。

本发明实施例提供的检索装置中，通过划分单元将待分词文本进行分词，并将得到的分词和预测词典中的词进行匹配，得到第一次分词结果和未登录字；然后通过组词单元以所述未登录字为基础，向前或向后截取一段文本作为与所述未登录字对应的未登录词，最后通过判断单元判断所述未登录词是否已存在于所述第一次分词结果中，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到所述第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词，提高了分词的准确性，使得利用所述第二次分词结果中分词构建的索引具有全面性、抗未登录词的特征，减少了对预测词典全面性的要求，因此当利用所述分词形成的倒序索引进行检索时，可提高搜索命中概率和检索效率。

较佳的，所述生成单元具体用于：

根据述关键词和倒序索引，得到多个与该关键词对应的分词结果匹配的作为检索结果的倒序索引；

通过利用命中结果的相关度来生成与所述关键词对应的检索结果，可增大检索的准确性。

附图说明

图1为本发明实施例提供的一种分词方法的流程示意图；

图2为本发明实施例提供的一种分词方法的详细步骤示意图；

图3为本发明实施例提供的一种分词装置的功能结构示意图；

图4为本发明实施例提供的一种检索方法的流程示意图；

图5为本发明实施例提供的一种检索装置的功能结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明实施例一提供了一种分词方法，所述方法包括：

步骤101，将待分词文本进行分词，并和预测词典中的词进行匹配，得到第一次分词结果和未登录字；

步骤102，以所述未登录字为基础，向前或向后截取一段文本作为与所述未登录字对应的未登录词；

步骤103，判断所述未登录词是否已存在于所述第一次分词结果中，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。

本发明实施例提供的方法中，首先将待分词文本进行分词，并间将得到的分词和预测词典中的词进行匹配，得到第一次分词结果和未登录字，然后以所述未登录字为基础，向前或向后截取一段文本作为与所述未登录字对应的未登录词，并判断所述未登录词是否已存在于所述第一次分词结果中，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到所述第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。该分词方法中对未登录词进行分词并添加到分词列表中，提高了分词的准确性，使得利用所述第二次分词结果中的分词构建的索引具有全面性、抗未登录词的特征，减少了对预测词典全面性的要求，且能够提高搜索命中概率。

具体的，步骤102中所述以所述未登录字为基础，向前或向后截取一段文本作为与所述未登录字对应的未登录词，包括：

以所述未登录字为基础，向前取一个或多个字与所述未登录字组成未登录词，和/或

向后取一个或多个字与所述未登录字组成未登录词。

在具体的执行过程中，未登录词截取的长度还应根据实际需要进行设定，例如，可以将包括该未登录字的且总长度小于某一设定值的字符串视为与该未登录字对应的未登录词。通过从文本中划分出与该未登录字连接的字符作为未登录词添加到分词列表中，从而使分词列表更加准确，提高了文本分词的准确性。

进一步的，在将待分词文本进行分词之前，所述方法还包括：

收集基本单词和常用词，构建文本词典；

本发明中通过对所述文本词典进行算法构建，形成带预测特征的预测词典；其中，所述预测词典中包括词、词前缀以及词|词前缀。

进一步的，所述方法还包括：将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中，并根据所述分词列表中的分词构建倒序索引。

为了更加详细具体的体现本发明的构思，参见图2，下面结合具体实施例具体详细的介绍本发明的提供的分词方法：

步骤201，从各地名大辞典、辞海中收集中文基本单词、常用词，构建文本词典。

步骤202，对文本词典进行算法构建，形成带预测特性的预测词典。

该步骤包括：对字典内每个单词，将单词包含的词前缀，从长度为1到长度为单词本身的前缀逐个取出，放入预测字典，具体的：

当前缀为小于单词本身长度时，如果预测字典已经包含此条目，在此条目的特征上，追加“词前缀”标注。

如果预测字典未包含此条目，则追加此条目，追加“词前缀”标注。

当前缀为单词本身长度时，如果预测字典已经包含此条目，在此条目的特征上，追加“词”标注；如果预测字典未包含此条目，则追加此条目，追加“词”标注。

例如：对于北京、北京市、北京市政府3个词，形成的带有预测特性的词典如下：

单词列，词特征列；

北，词前缀；

北京，词；

北京市，词|词前缀；

北京市政，词前缀；

北京市政府，词。

通过构建带有预测特性的词典，以减少在所述预测词典中查询该分词位置信息的工作量，进而提高工作效率；并且所述预测词典中对每一单词的词特征进行了标注，因此可以根据标注出的词特征准确快速的找出相关联的分词，进一步提高了文本分词的效率和准确性。

步骤203，将待分词文本进行分词，并和预测词典中的词进行匹配，得到第一次分词结果和未登录字。

该步骤包括：从待分词的文本信息中，从第一个字符位置开始，截取其后1到文本长度-1的文本，查看预测字典中，是否含有此项纪录：

如果含有此纪录，标注为“词”，则将此文本放入分词列表里。

如果含有此纪录，标注为“词前缀”，继续增加文本长度。

如果含有此纪录，标注为“词|词前缀”，则将此文本放入分词列表里，继续增加文本长度。直到最后倒数第二个字符位置为开始位置时，结束该分词过程。

例如，利用所述规则以及步骤202中形成的词典，对“北京A政府”这一文本进行分词：

首先，以“北”开始，提取到的单词为“北京”、“北京市”；然后，再以“京”开始，没有发现提取词；依次类推，最后以“政”开始，提取到单词“政府”。因此，分词后可到多个分词以及不在任何单词中的字“A”。

步骤204，将步骤203中的不在任何单词中的字“A”作为未登录字，以该字为基础，将包含该未登录字的小于或等于预设长度的字符串视为与该未登录字对应的未登录词；并查看所述未登录词是否已存在于第一次分词结果中。如果所述未登录词已存在与所述第一次分词结果中，则不重复添加；如果所述第一次分词结果中没有所述未登录词，则将该未登录词添加到第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。

步骤205，将所述第二次分词结果放入到分词列表中，利用所述分词列表中的分词构建倒序索引，使得可根据所述倒序索引进行检索。

基于同一发明构思，本发明实施例还提供了一种分词装置，参见图3；从图3中可以看出，所述分词装置包括：

划分单元301，用于将待分词文本进行分词，并和预测词典中的词进行匹配，得到第一次分词结果和未登录字；

组词单元302，用于以所述未登录字为基础，向前或向后截取一段文本作为与所述未登录字对应的未登录词；

判断单元303，判断所述未登录词是否已存在于所述第一次分词结果中，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。

进一步的，所述组词单元302具体用于：

向后取一个或多个字与所述未登录字组成未登录词。

通过所述组词单元从文本中划分出与该未登录字连接的字符作为未登录词添加到分词列表中，从而使分词列表更加准确，提高了文本分词的准确性。

进一步的，所述分词装置还包括预测词典构建单元304，用于收集基本单词和常用词，构建文本词典；并对所述文本词典进行算法构建，形成带预测特征的预测词典；其中，所述预测词典中包括词、词前缀以及词|词前缀。

通过所述预测词典构建单元304构建带预测特征的预测词典，以减少在所述预测词典中查询该分词位置信息的工作量，进而提高工作效率；并且所述预测词典中对每一单词的词特征进行了标注，因此可以根据标注出的词特征准确快速的找出相关联的分词，进一步提高了文本分词的效率和准确性。

进一步的，所述分词装置还包括排序单元305，用于将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中，并根据所述分词列表中的分词构建倒序索引。

通过所述排序单元305对所述分词列表中的分词构建倒序索引，可有效的实现对倒序索引进行管理，有利于降低检索过程中所需的缓存，提高***响应。

基于同一发明构思，本发明实施例还提供了一种检索方法，参见图4；从图4中可以看出，所述检索方法包括：

步骤401，将待分词文本进行分词，并和预测词典中的词进行匹配，得到分词结果和未登录字；

步骤402，以所述未登录字为基础，向前或向后截取一段文本作为与所述未登录字对应的未登录词；

步骤403，判断所述未登录词是否已存在于所述第一次分词结果中，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个用于搜索的分词；

步骤404，将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中，并根据所述分词列表中的分词构建倒序索引；

步骤405，根据用于检索的关键词查询出与所述关键词对应的倒序索引，并取得对应的检索结果。

进一步的，所述根据用于检索的关键词查询出与所述关键词对应的倒序索引，并取得对应的检索结果，包括：

需特别指出的是，该检索方法中有关分词的步骤以在上文中进行了详细的论述，因此在此部分不再赘述。

基于同一发明构思，本发明实施例还提供了一种检索装置，参见图5；从图5中可以看出，所述检索装置包括：

判断单元303，用于判断所述未登录词是否已存在于所述第一次分词结果中，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个用于搜索的分词；

排序单元305，用于将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中，并根据所述分词列表中的分词构建倒序索引；

生成单元306，根据用于检索的关键词查询出与所述关键词对应的倒序索引，并取得对应的检索结果。

进一步的，所述生成单元306具体用于：

根据述关键词和倒序索引，得到多个与该关键字对应的分词结果匹配的作为检索结果的倒序索引；

进一步的，所述检索装置还包括预测词典构建单元304，用于收集基本单词和常用词，构建文本词典；并对所述文本词典进行算法构建，形成带预测特征的预测词典；其中，所述预测词典中包括词、词前缀以及词|词前缀。

综上，本发明实施提供了一种分词方法及装置、检索方法及装置。其中，所述分词分词中，首先将待分词文本进行分词，并和与之对应的预测词典中的词进行匹配，得到分词结果和未登录字，并将分词结果和未登录字放入到分词列表中，然后以所述未登录字为基础，向前或向后截取一段文本作为与所述未登录字对应的未登录词，并判断所述未登录词是否已存在于所述分词列表中，当所述分词列表中没有所述未登录词时，将所述未登录词添加到所述分词列表中。该分词方法中对未登录词进行分词并添加到分词列表中，提高了分词的准确性，使得利用该分词列表构建的索引具有全面性、抗未登录词的特征，减少了对预测词典全面性的要求，且能够提高搜索命中概率。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种分词方法，其特征在于，所述分词方法包括：

2.如权利要求1所述的分词方法，其特征在于，在将待分词文本进行分词之前，所述分词方法还包括：

收集基本单词和常用词，构建文本词典；

3.如权利要求1所述的分词方法，其特征在于，所述方分词法还包括：将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中，并根据所述分词列表中的分词构建倒序索引。

4.一种检索方法，其特征在于，所述检索方法包括：

5.如权利要求4所述的检索方法，其特征在于，所述根据用于检索的关键词查询出与所述关键词对应的倒序索引，并取得对应的检索结果，包括：

6.一种分词装置，其特征在于，所述分词装置包括：

7.如权利要求6所述的分词装置，其特征在于，所述分词装置还包括预测词典构建单元，用于收集基本单词和常用词，构建文本词典；并对所述文本词典进行算法构建，形成带预测特征的预测词典；其中，所述预测词典中包括词、词前缀以及词|词前缀。

8.如权利要求6所述的分词装置，其特征在于，所述分词装置还包括排序单元，用于将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中，并根据所述分词列表中的分词构建倒序索引。

9.一种检索装置，其特征在于，所述检索装置包括：

10.如权要求11所述的检索装置，其特征在于，所述生成单元具体用于：