CN110276079A

CN110276079A - 一种词库建立方法、信息检索方法及对应的***

Info

Publication number: CN110276079A
Application number: CN201910568339.4A
Authority: CN
Inventors: 谷晓佳
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2019-09-24
Anticipated expiration: 2039-06-27
Also published as: CN110276079B

Abstract

本发明实施例公开了一种词库建立方法、信息检索方法及对应的***，其中，所述词库建立方法包括：根据字典库中每一个词汇和每一个所述词汇对应的具体解释，获取每一个所述词汇的关联词汇；对于每一个词汇，将该词汇和该词汇的关联词汇作为词汇组，保存于预先建立的词义库中；将每一个词汇和该词汇的关联词汇之间的分类逻辑关系保存于预先建立的分类关联库中。本发明实施例根据字典库的词汇和具体解释，将每一个词汇的关联词汇保存于词义库，以及将各词汇之间的分类逻辑关系保存于分类关联库中，可供信息检索时，对检索词进行词汇扩展，得到关联检索词，进而根据关联检索词进行检索，得到的检索结果比较全面，对初始结果进行了扩展。

Description

一种词库建立方法、信息检索方法及对应的***

技术领域

本发明实施例涉及信息检索技术领域，具体涉及一种词库建立方法、信息检索方法及对应的***。

背景技术

目前，常见的信息检索方法为，根据用户输入的检索词(也可以称为关键词)，搜索引擎根据检索词进行检索，并给出检索结果进行响应。该类搜索引擎对于关键词搜索，可以给出针对性较高的检索结果，大多情况下，针对输入的检索词，可以直接给出意见或结果答案。

但是通常来说，这种根据输入的检索词得出的检索结果的可扩展性较为有限，无法提供更好的判断和决策支持依据。

发明内容

为此，本发明实施例提供一种词库建立方法、信息检索方法及对应的***，以解决现有技术中由于检索词单一而导致的检索结果局限性大的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面，提供了一种词库建立方法，包括：

S1，根据字典库中每一个词汇和每一个所述词汇对应的具体解释，获取每一个所述词汇的关联词汇；

S2，对于每一个词汇，将该词汇和该词汇的关联词汇作为词汇组，保存于预先建立的词义库中；

S3，将每一个词汇和该词汇的关联词汇之间的分类逻辑关系保存于预先建立的分类关联库中。

进一步地，所述步骤S1具体包括：

S11，收集字典库中每一个词汇以及每一个词汇对应的具体解释；

S12，对每一个词汇的所述具体解释进行分词拆分，并根据其中的逻辑表征关系获取每一个词汇的关联词汇，其中，所述关联词汇包括每一个词汇的近义词、同义词、反义词、上义词和下义词；

对应的，所述步骤S2具体包括：

对于每一个词汇，将该词汇以及该词汇的近义词、同义词、反义词、上义词和下义词作为词汇组保存于词义库中，并选取其中的一个词汇作为元词汇。

进一步地，所述分类逻辑关系包括同义词、近义词、反义词、上义词、下义词和关键词。

进一步的，所述步骤S2后还包括：

a、收集字典库以外的语料材料，并使用中文分词方法对所述语料材料进行切分，得到多个分词；

b、对于每一个所述分词，访问所述词义库，若该分词不在所述词义库的任一词汇组中，则执行步骤a或者c；

c、对所述分词进行校验验证，将该分词纳入到已有的词汇组中或者新建词汇组对所述词义库进行更新，并将该分词作为新建的词汇组的元词汇。

根据本发明实施例的第二方面，提供了一种信息检索方法，包括：

S1’，根据输入的第一检索词，从词义库或分类关联库中查询所述第一检索词的关联检索词；

S2’，根据所述第一检索词的关联检索词进行检索，得到相应的检索结果；或者，根据输入的第二检索词进行检索，得到相应的检索结果；

其中，所述第二检索词为从所述第一检索词的关联检索词中选择的检索词，所述词义库和所述分类关联库是基于所述的词库建立方法建立的。

进一步地，所述步骤S1’具体包括：

根据所述第一检索词，在所述词义库或所述分类关联库中查询该第一检索词的同义词、近义词、反义词、上义词和下义词作为所述第一检索词的关联检索词。

进一步地，还包括：

以所述第一检索词为原始检索词，将所述第一检索词以及所述第一检索词的关联检索词以树状结构进行呈现；

以及将所述第一检索词和其关联检索词的分类逻辑关系以报表的形式呈现。

根据本发明实施例的第三个方面，提供了一种词库建立***，包括：

获取模块，用于根据字典库中每一个词汇和每一个所述词汇对应的具体解释，获取每一个所述词汇的关联词汇；

第一保存模块，用于对于每一个词汇，将该词汇和该词汇的关联词汇作为词汇组，保存于预先建立的词义库中；

第二保存模块，用于将每一个词汇和该词汇的关联词汇之间的分类逻辑关系保存于预先建立的分类关联库中。

根据本发明实施例的第四个方面，提供了一种信息检索***，包括：

查询模块，用于根据输入的第一检索词，从词义库或分类关联库中查询所述第一检索词的关联检索词；

检索模块，用于根据所述第一检索词的关联检索词进行检索，得到相应的检索结果；或者，用于根据输入的第二检索词进行检索，得到相应的检索结果；

根据本发明实施例的第五个方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现词库建立方法或信息检索方法。

本发明实施例具有如下优点：根据字典库的词汇和具体解释，将每一个词汇的关联词汇保存于词义库，以及将各词汇之间的分类逻辑关系保存于分类关联库中，可供信息检索时，对检索词进行词汇扩展，得到关联检索词，进而根据关联检索词进行检索，得到的检索结果比较全面，对初始结果进行了扩展。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明一个实施例提供的一种词库建立方法流程图；

图2为本发明一个实施例的词义库建立方法流程图；

图3为本发明一个实施例的词义库的更新方法流程图；

图4为本发明一个实施例的的一种信息检索方法流程图；

图5为本发明一个实施例的一种词库建立***连接框图；

图6为本发明一个实施例的一种信息检索***连接框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，提供了本发明一个实施例的一种词库建立方法，包括：S1，根据字典库中每一个词汇和每一个所述词汇对应的具体解释，获取每一个所述词汇的关联词汇；S2，对于每一个词汇，将该词汇和该词汇的关联词汇作为词汇组，保存于预先建立的词义库中；S3，将每一个词汇和该词汇的关联词汇之间的分类逻辑关系保存于预先建立的分类关联库中。

本发明实施例根据字典库的每一个词汇和每一个词汇对应的具体解释，解析出每一个词汇的关联词汇，将每一个词汇以及关联词汇保存于词义库，以及将各词汇之间的分类逻辑关系保存于分类关联库中，在进行供信息检索时，可根据原始检索词在词义库和分类关联库中找到原始检索词的关联词，对原始检索词进行词汇扩展，得到关联检索词，进而根据关联检索词进行检索，相比仅仅根据原始检索词得到的检索结果要全面，对检索结果进行了扩展。

参见图2，在本发明的一个实施例中，所述步骤S1具体包括：S11，收集字典库中每一个词汇以及每一个词汇对应的具体解释；S12，对每一个词汇的所述具体解释进行分词拆分，并根据其中的逻辑表征关系获取每一个词汇的关联词汇，其中，所述关联词汇包括每一个词汇的近义词、同义词、反义词、上义词、下义词。

对应的，所述步骤S2具体包括：对于每一个词汇，将该词汇以及该词汇的近义词、同义词、反义词、上义词和下义词作为词汇组保存于词义库中，并选取其中的一个词汇作为元词汇。

具体的，建立词义库的具体过程为，从字典库中，比如新华字典、现代汉语词典中收集每一个词汇和每一个词汇对应的具体解释。针对于每一个词汇，对于该词汇的具体解释采用中文分词组件进行拆分分词，过滤和获取分词结果。该过程可以加入人工校对、核对、纠正工作，从而形成较为可靠的基础字词分词表和字词过滤表，获取到{字词＝分词1，字词＝分词2，…，字词n}。到词汇的具体解释中，根据具体解释中的特定词汇，寻找出具体解释与词汇的相关性，包括词汇的上义词、下义词、同/近义词、反义词等词汇类别，汇总出每一个词汇的关联词汇集。

找出了每一个词汇的关联词汇后，对于每一个词汇，将该词汇和关联词汇作为词汇组保存于词义库中，并在词汇组中选择一个词汇作为该词汇组的元词汇，并将词汇组中每两个词汇之间的分类逻辑关系保存于分类关联库中。其中，两个词汇之间的分类逻辑关系包括同义词、近义词，反义词、上义词、下义词和关键词。

其中，词汇将分类逻辑关系表述格式为：[{类别＝具体词汇，原始词汇＝词汇1,目的词汇＝词汇2},{...},...]，其中，具体词汇指：上义词、下义词、同/近义词、反义词等。

其中，当具体词汇为上义词时，说明词汇1的上义词为词汇2或者词汇2为词汇1的下义词；具体词汇为下义词时，说明词汇1的下义词为词汇2或者词汇2为词汇1的下义词；具体词汇为同义词时，说明词汇1的同义词为词汇2或者词汇2为词汇1的同义词；具体词汇为反义词时，说明词汇1的反义词为词汇2或者词汇2为词汇1的反义词。

下面以几个具体的示例来说明本发明实施例中建立词义库、分类关联库以及关键词库的方法和过程，由于新华字典、现代汉语词典主要用于字词的解释，因此，使用相应词典主要获取词汇的上义词、下义词，根据特定的词汇“也叫”、“非”等获取同/近义词、反义词。如下所示：

示例一：“【自然规律】存在于自然界的客观事物内部的规律，也叫自然法则。”

获取上义词：解析出上义词，{类别＝上义词,原始词汇＝自然规律,目的词汇＝规律}，其含义为自然规律的上义词为规律。

获取同/近义词：例如：“也叫”，“也叫…或”，“是”，“就是”，“也说”后面可以粗略截取为同义词，示例：“自然规律】存在于自然界的客观事物内部的规律，也叫自然法则。”，解析出同/近义词关联，{类别＝同义词,原始词汇＝自然规律,目的词汇＝自然法则}，其含义为自然规律的同义词为自然法则。

该示例中获取到分类逻辑关系：[{类别＝同义词,原始词汇＝自然规律,目的词汇＝自然法则},{类别＝上义词,原始词汇＝自然规律,目的词汇＝规律}]；关键词：{自然规律＝[自然界,客观事物,规律]}，即{{类别＝关键词,原始词汇＝自然规律,目的词汇＝自然界},{类别＝关键词,原始词汇＝自然规律,目的词汇＝客观事物},{类别＝关键词,原始词汇＝自然规律,目的词汇＝规律}}，其含义为自然规律的关键词包含自然界，客观事物，规律。

示例二：“【自然科学】研究自然界各种物质和现象的科学。包括物理学、化学、动物学、植物学、矿物学、生理学、数学等”。

获取下义词：解释中包括的后面信息“物理学、化学、动物学、植物学、矿物学、生理学、数学”为词汇“自然科学”的下义词，解析出下义词关联，[{类别＝下义词,原始词汇＝自然科学,目的词汇＝物理学},{类别＝下义词,原始词汇＝自然科学,目的词汇＝化学},{类别＝下义词,原始词汇＝自然科学,目的词汇＝动物学},{类别＝下义词,原始词汇＝自然科学,目的词汇＝植物学},{类别＝下义词,原始词汇＝自然科学,目的词汇＝矿物学},{类别＝下义词,原始词汇＝自然科学,目的词汇＝生理学},{类别＝下义词,原始词汇＝自然科学,目的词汇＝数学}]。

该示例中获取到分类：[{类别＝下义词,原始词汇＝自然科学,目的词汇＝物理学},{类别＝下义词,原始词汇＝自然科学,目的词汇＝化学},{类别＝下义词,原始词汇＝自然科学,目的词汇＝动物学},{类别＝下义词,原始词汇＝自然科学,目的词汇＝植物学},{类别＝下义词,原始词汇＝自然科学,目的词汇＝矿物学},{类别＝下义词,原始词汇＝自然科学,目的词汇＝生理学},{类别＝下义词,原始词汇＝自然科学,目的词汇＝数学},{类别＝上义词,原始词汇＝自然科学,目的词汇＝科学}]，关键词：{自然科学＝[自然界,物质,现象,科学]}。

获取反义词：例如：“非”，“不”，“不是”，后面可以粗略截取为反义关系。进一步确认是否为反义词。示例：“【人造】人工制造的，非天然的：～纤维|～冰|～地球卫星。”，解析出反义词关联，{类别＝反义词,原始词汇＝人造,目的词汇＝天然}，其含义为人造的反义词为天然。

词汇的同/近义词、反义词可以查询同/近义词、反义词词典或语料库逻辑分析来获取基础的词汇关系，读取同/近义词、反义词词典获取词汇关联。同/近义词示例：[{类别＝同义词,原始词汇＝高兴,目的词汇＝喜悦},{类别＝同义词,原始词汇＝高兴,目的词汇＝欢喜}]。反义词示例：[{类别＝反义词,原始词汇＝高兴,目的词汇＝悲伤},{类别＝反义词,原始词汇＝高兴,目的词汇＝难过}]。

语料库逻辑分析主要根据逻辑词汇来拆分句子，获取到相同或者相反的含义。获取相反的含义时，即相同或相似含义的前件，对比获取顺承结果和转折结果，该两种结果粗略判定为相反。示例：“虽然这座桥已经建了很多年，但是她依然很坚固。”和“这座桥已经建了很多年，看起来一些松垮样子了”。其中“虽然这座桥已经建了很多年，但是她依然很坚固。”中“但是”后面为转折结果，提取出词汇“坚固”；“这座桥已经建了很多年，看起来一些松垮样子了。”后面为顺承结果，提取出词汇“松垮”。解析出反义词关联，{类别＝反义词,原始词汇＝坚固,目的词汇＝松垮}，其含义为坚固的反义词为松垮。

通过上述对各种字典和语料库逻辑分析，得到每一个词汇及每一个词汇的关联词汇(同/近义词，反义词，上义词，下义词等)，将每一个词汇和关联词汇作为一组词汇，即词汇组，并选取其中的一个词汇为元词汇，将各个词汇组保存于词义库中，并且各个词汇的分类逻辑关系保存于分类关联库中。还可以将每一个词汇的相关关键词保存于关键词库中，可以通过关键词库查询每一个词汇的相关关键词。

参见图3，所述步骤S2后还包括：a、收集字典库以外的语料材料，并使用中文分词方法对所述语料材料进行切分，得到多个分词；b、对于每一个所述分词，访问所述词义库，若该分词不在所述词义库的任一词汇组中，则执行步骤a或者c；c、对所述分词进行校验验证，将该分词纳入到已有的词汇组中或者新建词汇组对所述词义库进行更新，并将该分词作为新建的词汇组的元词汇。

上述建立词义库和分类关联库时使用的数据来源主要为各种字典，因此，基于各种字典建立的词义库和分类库的数据来源还不够全面，本发明实施例对数据来源进行丰富，不断对已经建立的词义库和分类关联库进行更新。

具体为，可采集或获取网站语料库，使用中文分词方法切分语料材料，获取分词结果；对于每个分词访问词义库，如果该分词在词义库的词汇组中，读取该词汇组中的元词汇，进而访问分类关联库，从而获取该分词的分类关联。

如果该词汇不在词汇组中，对该分词进一步拆分，拆分后在词义库和分类关联库中进行查询，作为人工校验的辅助输入信息。

对于该分词未在词汇组的所有词汇，采用人工对该词汇校验、纠错、验证，如果该词汇可以纳入到词义库中已有的词汇组中，比如，该词汇的关联词为某一词汇组中的词汇，则将该词汇纳入到已有的词汇组，获取元词汇，进而获取该词汇的分类关联；如果该词汇不属于任何词汇组，则新建词汇组，该词汇作为该词汇组的元词汇，将词汇组放入到词义库中，同时将该元词汇纳入到分类关联库中，从而获取该词汇的分类关联。

参见图4，提供了本发明一个实施例的一种信息检索方法，包括：S1’，根据输入的第一检索词，从词义库或分类关联库中查询所述第一检索词的关联检索词；S2’，根据所述第一检索词的关联检索词进行检索，得到相应的检索结果；或者，根据输入的第二检索词进行检索，得到相应的检索结果；其中，所述第二检索词为从所述第一检索词的关联检索词中选择的检索词，所述词义库和所述分类关联库是基于词库建立方法建立的。

在本发明一个实施例中，所述步骤S1’具体包括：根据所述第一检索词，在所述词义库或所述分类关联库中查询该第一检索词的同义词、近义词、反义词、上义词和下义词作为所述第一检索词的关联检索词。

上述各实施例建立了词义库、分类关联库以及关键词库，本发明实施例在进行信息检索时，根据输入的第一检索词，从词义库或分类关联库中查询第一检索词的关联检索词(主要是第一检索词的同/近义词，上义词，下义词)。然后根据第一检索词的关联检索词进行检索，得到检索结果，相比仅仅采用第一检索词进行检索得到的检索结果要全面得多；也可以根据需要从第一检索词的关联检索词中选取一部分检索词进行检索，有针对性地进行检索。

在本发明的一个实施例中，还包括：以所述第一检索词为原始检索词，将所述第一检索词以及所述第一检索词的关联检索词以树状结构进行呈现；以及将所述第一检索词和其关联检索词的分类逻辑关系以报表的形式呈现。

具体的，根据用户输入的第一检索词，从词义库中查询到第一检索词的关联检索词，即第一检索词的同/近义词、上义词、下义词、反义词等，将第一检索词和其关联检索词以树状结构进行呈现。以及在分类关联库中查询第一检索词和其关联检索词之间的分类逻辑关系以报表的形式呈现。也就是说将用户输入的第一检索词的相关信息呈现给用户，当用户进行检索时，可根据呈现的相关信息作为参考进行检索。

参见图5，提供了本发明一个实施例的词库建立***，包括获取模块51、第一保存模块52和第二保存模块53。

获取模块51，用于根据字典库中每一个词汇和每一个所述词汇对应的具体解释，获取每一个所述词汇的关联词汇。

第一保存模块52，用于对于每一个词汇，将该词汇和该词汇的关联词汇作为词汇组，保存于预先建立的词义库中。

第二保存模块53，用于将每一个词汇和该词汇的关联词汇之间的分类逻辑关系保存于预先建立的分类关联库中。

本发明实施例提供的一种词库建立***与前述实施例提供的一种词库建立方法相对应，本实施例提供的词库建立***的技术特征可参考前述实施例中词库建立方法的相关技术特征，在此不再赘述。

参见图6，提供了本发明一个实施例的一种信息检索***，包括查询模块61和检索模块62。

查询模块61，用于根据输入的第一检索词，从词义库或分类关联库中查询所述第一检索词的关联检索词。

检索模块62，用于根据所述第一检索词的关联检索词进行检索，得到相应的检索结果；或者，用于根据输入的第二检索词进行检索，得到相应的检索结果。

其中，所述第二检索词为从所述第一检索词的关联检索词中选择的检索词，所述词义库和所述分类关联库是基于上述各实施例所述的词库建立方法建立的。

本发明实施例提供的一种信息检索***与前述实施例提供的一种信息检索方法相对应，本实施例提供的信息检索***的技术特征可参考前述实施例中信息检索方法的相关技术特征，在此不再赘述。

在本发明的一个实施例中，还提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现词库建立方法或信息检索方法。

本发明提供的一种词库建立方法、信息检索方法及对应的***，根据字典库的词汇和具体解释，将每一个词汇的关联词汇保存于词义库，以及将各词汇之间的分类逻辑关系保存于分类关联库中；在进行信息检索时，可根据检索词在词义库和分类关联库找到检索词的关联检索词，对检索词进行词汇扩展，得到关联检索词，进而根据关联检索词进行检索，得到的检索结果比较全面，对初始结果进行了扩展；并且还将检索词的关联检索词以及检索词和关联检索词之间的分类逻辑关系呈现给用户，供用户参考，为用户的判断和决策支持提供依据。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种词库建立方法，其特征在于，包括：

2.根据权利要求1所述的词库建立方法，其特征在于，所述步骤S1具体包括：

对应的，所述步骤S2具体包括：

3.根据权利要求2所述的词库建立方法，其特征在于，所述分类逻辑关系包括同义词、近义词、反义词、上义词、下义词和关键词。

4.根据权利要求2所述的词库建立方法，其特征在于，所述步骤S2后还包括：

5.一种信息检索方法，其特征在于，包括：

其中，所述第二检索词为从所述第一检索词的关联检索词中选择的检索词，所述词义库和所述分类关联库是基于如权利要求1-4任一项所述的词库建立方法建立的。

6.根据权利要求5所述的信息检索方法，其特征在于，所述步骤S1’具体包括：

7.根据权利要求6所述的信息检索方法，其特征在于，还包括：

8.一种词库建立***，其特征在于，包括：

9.一种信息检索***，其特征在于，包括：

10.一种计算机存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时，实现词库建立方法或信息检索方法。