CN109815499B

CN109815499B - 信息关联方法和***

Info

Publication number: CN109815499B
Application number: CN201910073792.8A
Authority: CN
Inventors: 姚洲鹏
Original assignee: Hangzhou Fanews Technology Co ltd
Current assignee: Hangzhou Fanews Technology Co ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2023-05-23
Anticipated expiration: 2039-01-25
Also published as: CN109815499A

Abstract

本发明公开了一种信息关联方法和***，其中，该方法包含以下步骤：确定第一目标文献集并保存第一目标文献集构成目标文献库；提取第一目标文献集中的分词及每个分词所对应的词频并保存；设定关键词并在目标文献库中检索包含关键词的第二目标文献集；提取第二目标文献集中的分词及每个第二目标文献集中的分词所对应的词频；计算第二目标文献集中的分词与关键词之间的关联度；根据关联度对第二目标文献集中的分词进行排序；显示排序后的第二目标文献集中的分词。本发明的有益之处在于提供的信息关联方法建立包含第一目标文献集中的分词和其对应的词频的词库，可以快速从词库中提取相关信息，减少检索时间。

Description

信息关联方法和***

技术领域

本发明涉及一种信息关联方法和***。

背景技术

随着互联网行业越来越发达，信息检索越来越重要，特别对于媒体行业，经常需要通过关键词搜索与其相关的内容。

传统的检索方法，在通过关键词检索与其关联的词时，检索到的关联词与关键词之间的相关性不够准确，严重影响工作效率。

发明内容

为解决现有技术的不足，本发明提供了一种可以解决上述问题的信息关联方法和***。

为了实现上述目标，本发明采用如下的技术方案：

一种信息关联方法，包含以下步骤：

确定第一目标文献集并保存第一目标文献集构成目标文献库；

提取目标文献库中的第一目标文献集中的分词及每个第一目标文献集中的分词所对应的词频并保存第一目标文献集中的分词和其对应的词频构成词库；

设定关键词并在目标文献库中检索包含关键词的第二目标文献集；

提取第二目标文献集中的分词及每个第二目标文献集中的分词所对应的词频；

计算第二目标文献集中的分词与关键词之间的关联度；

根据关联度对第二目标文献集中的分词进行排序；

显示排序后的第二目标文献集中的分词。

进一步地，计算第二目标文献集中的分词与关键词之间的关联度的具体方法为通过下述公式计算每个第二目标文献集中的分词的分数并通过分数表述每个第二目标文献集中的分词与关键词的关联度：

score＝(subsetFreq/subsetSize-superFreq/superSize)*((subsetFreq/subsetSize)/(superFreq/superSize))*natureBoost*fieldBoost；

其中，subsetFreq表示第二目标文献集中的分词的词频，subsetSize表示全部第二目标文献集中的分词的词频的总和，superFreq表示第二目标文献集中的分词在第一目标文献集中的词频，superSize表示全部第一目标文献集中的分词的词频的总和，natureBoost表示第二目标文献集中的分词的词性权重，fieldBoost表示第二目标文献集中的分词的字段权重。

进一步地，获取natureBoost的具体方法为：

根据第二目标文献集中的分词在第二目标文献集中的词性求取平均值。

进一步地，获取fieldBosst的具体方法为：

根据第二目标文献集中的分词在第二目标文献集中的字段求取平均值。

进一步地，通过显示出的第二目标文献集中的分词在第二目标文集中获取包含第二目标文献集中的分词的第三目标文献集并显示第三目标文献集。

进一步地，计算第三目标文献集中的每个文献与关键词的关联度；

根据关联度对第三目标文献集进行排序；

显示排序后的第二目标文献集中的文献。

进一步地，显示排序后的第二目标文献集中的文献的具体方法为根据用户的设置显示排序后的第二目标文献集中的文献的数量。

一种信息关联***，信息关联***包含：

目标文献库模块，用于存储第一目标文献集；

第一处理模块，用于提取目标文献库模块中的第一目标文献集中的分词及每个第一目标文献集中的分词所对应的词频；

词库模块，用于保存第一处理模块提取的第一目标文献集中的分词和其对应的词频；

输入模块，用于供用户输入关键词；

检索模块，用于根据用户通过输入模块输入的关键词在目标文献库模块中检索包含关键词的第二目标文献集；

第二处理模块，用于提取第二目标文献集中的分词及每个第二目标文献集中的分词所对应的词频；

计算模块，用于计算第二目标文献集中的分词与关键词之间的关联度；

排序模块，用于根据关联度对第二目标文献集中的分词进行排序；

显示模块，用于显示排序后的第二目标文献集中的分词。

进一步地，计算模块通过下述公式计算每个第二目标文献集中的分词的分数并通过分数表述每个第二目标文献集中的分词与关键词的关联度：

进一步地，计算模块包括：

第一计算子模块，用于计算第二目标文献集中的分词的词性权重；

第二计算子模块，用于计算第二目标文献集中的分词的字段权重。

本发明的有益之处在于提供的信息关联方法建立包含第一目标文献集中的分词和其对应的词频的词库，可以快速从词库中提取相关信息，减少检索时间。

本发明的有益之处还在于提供的信息关联方法提供的优化的计算公式可以根据不同分词的词性和该分词出现在文献的不同字段设定不同的计算权值，使得最终计算出的分词的关联度更加贴合实际情况。

附图说明

图1是本发明的信息关联方法的示意图；

图2是本发明的信息关联***的示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

如图1所示为本发明的一种信息关联方法，包含以下步骤：S1：确定第一目标文献集并保存第一目标文献集构成目标文献库。S2:提取目标文献库中的第一目标文献集中的分词及每个第一目标文献集中的分词所对应的词频并保存第一目标文献集中的分词和其对应的词频构成词库。S3:设定关键词并在目标文献库中检索包含关键词的第二目标文献集。S4:提取第二目标文献集中的分词及每个第二目标文献集中的分词所对应的词频。S5:计算第二目标文献集中的分词与关键词之间的关联度。S6:根据关联度对第二目标文献集中的分词进行排序。S7:显示排序后的第二目标文献集中的分词。

对于S1：确定第一目标文献集并保存第一目标文献集构成目标文献库。

具体而言，首先建立目标文献库，该目标文献库中保存有由预先选取的文献构成的第一目标文献集。可以理解的是是，该第一目标文献集是不断变化的，比如间隔一定时间添加相关文献到所述目标文献库中以不断扩充该目标文献库。该周期可以根据实际工作需要进行设定，比如一个月，一个季度，等等。

对于S2:提取目标文献库中的第一目标文献集中的分词及每个第一目标文献集中的分词所对应的词频并保存第一目标文献集中的分词和其对应的词频构成词库。

具体而言，根据语义分析等方法分析处理该目标文献库中的第一目标文献集，将第一目标文献集拆分成一个个独立的分词，且统计出每一个独立的分词出现在第一目标文献集的次数作为每个分词的词频，最后再保存统计出的所有分词和分词对应的词频。

对于S3:设定关键词并在目标文献库中检索包含关键词的第二目标文献集。

具体而言，设定一个需要检索的关键词，在目标文献库中检索出所有包含该关键词的文献构第二目标文献集。

对于S4:提取第二目标文献集中的分词及每个第二目标文献集中的分词所对应的词频。

具体而言，与S2相似的，根据语义分析等方法分析处理该目标文献库中的第二目标文献集，得到第二目标文献集中的分词及每个分词所对应的词频。

对于S5:计算第二目标文献集中的分词与关键词之间的关联度。

当通过S4得到第二目标文献集中的分词及每个分词所对应的词频，进一步地计算出每个分词与之前设定的关键词的关联度，具体方法为通过下述公式计算每个第二目标文献集中的分词的分数并通过该分数表述每个第二目标文献集中的分词与关键词的关联度：

score＝(subsetFreq/subsetSize-superFreq/superSize)*((subsetFreq/subsetSize)/(superFreq/superSize))*natureBoost*fieldBoost，

其中，subsetFreq表示第二目标文献集中的分词的词频，subsetSize表示全部第二目标文献集中的分词的词频的总和，将每个第二目标文献集中的分词的词频相加可得，superFreq表示第二目标文献集中的分词在第一目标文献集中的词频，该数据可以从词库中直接获取，superSize表示全部第一目标文献集中的分词的词频总和，将第一目标文献集中的所有分词的词频相加可得。

natureBoost表示第二目标文献集中的分词的词性权重，获取natureBoost的具体方法为：根据第二目标文献集中的分词在第二目标文献集中的词性求取平均值。

可以理解的是，对于不同的分词，由于其词性不同，与关键词的相关度会有不同，对于同一个分词，当其词性不同时，其与关键词的相关度也会有所不同，因此，natureBoost的值是根据检索结果不断变换的。一般而言，名词的词性权重为大于等于0.85小于等于0.95，动词的词性权重为大于等于0.65小于等于0.85，形容词的词性权重为大于等于0.5小于等于0.7，副词的词性权重为大于等,0.35小于0.5。

在本实施例中，名词的词性权重为0.9，动词的词性权重设为0.8，形容词0.6，副词0.4当一个分词的词性为名词时，natureBoost的值为0.9，当一个分词既可以为名词又可以为动词时，根据语义分析出该分词在第二目标文献集中以名词形式出现m次，以动词形式出现n次，此时，natureBoost＝(0.9m+0.8n)/(m+n)，以此类推。以上即为根据第二目标文献集中的分词在第二目标文献集中的词性求取平均值。

fieldBoost表示第二目标文献集中的分词的字段权重，获取fieldBoost的具体方法为：根据第二目标文献集中的分词在第二目标文献集中的字段求取平均值。

可以理解的是，对于同一个分词，其出现在文献的标题中或正文中，该分词和关键词的关联度是不同的。一般而言，分词出现在文献的标题中时，其字段权重大于等于0.85小于0.95，分词出现在文献的正文中时，其字段权重大于等于0.6小于等于0.8。

在本实施例中，当分词出现在文献的标题中时，其字段权重为0.9，当分词出现在文献的正文中时，其字段权重为0.7，与前述natureBoost相似的，根据语义分析出该分词出现在第二目标文献集的文献的标题的次数为a，出现在第二目标文献集的文献的正文的次数为b，则此时，fieldBoost＝(0.9a+0.7b)/(a+b)。

对于S6:根据关联度对第二目标文献集中的分词进行排序。

具体而言，检索出的第二目标文献集中的文献数量可能较多，可以根据相关度对第二目标文献集中的文献进行排序，便于获取相关度更高的文献。

对于S7:显示排序后的第二目标文献集中的分词。

具体而言，经过排序后将相关文献显示出来以供用户查阅。

可以理解的是，检索出的第二目标文献集中的文献数量可能较多，全部显示可能出现很多关系不大的文献，因此，用户可以设定显示的文献的个数，比如设定显示关联度大于某一阈值的所有文献，或设定显示关联度排名前10或前100的相关文献，具体设定可以由用户根据实际情况设定。

当通过以上方法得到关键词的相关的分词时，可以通过分词从第二目标文献集中反向得到包含该分词的文献，这些文献构成第三目标文献集，并且通过计算得到每个文献与关键词的关联度，并根据该关联度对第三目标文献集进行排序，再将排序后的第三目标文献显示出来供用户查阅。计算第三目标文献集中的每个文献与关键词的关联度可以根据该分词在每个文献中的比重进行判断。

如图2所示，本发明还公开了一种信息关联***，用于应用上述公开的信息关联方法，该信息关联***包含：目标文献库模块1、第一处理模块2、词库模块3、输入模块4、检索模块5、第二处理模块6、计算模块7、排序模块8和显示模块9。具体而言，目标文献库模块1用于存储第一目标文献集，第一处理模块2用于提取目标文献库模块1中的第一目标文献集中的分词及每个第一目标文献集中的分词所对应的词频，词库模块3用于保存第一处理模块2提取的第一目标文献集中的分词和其对应的词频，输入模块4用于供用户输入关键词，检索模块5用于根据用户通过输入模块4输入的关键词在目标文献库模块1中检索包含关键词的第二目标文献集，第二处理模块6用于提取第二目标文献集中的分词及每个第二目标文献集中的分词所对应的词频，计算模块7用于计算第二目标文献集中的分词与关键词之间的关联度，排序模块8用于根据关联度对第二目标文献集中的分词进行排序，显示模块9用于显示排序后的第二目标文献集中的分词。

作为一种优选的实施方式，计算模块7包括：第一计算子模块和第二计算子模块。其中第一计算子模块用于计算第二目标文献集中的分词的词性权重，第二计算子模块用于计算第二目标文献集中的分词的字段权重。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种信息关联方法，其特征在于，包含以下步骤：

确定第一目标文献集并保存所述第一目标文献集构成目标文献库；

提取所述目标文献库中的第一目标文献集中的分词及每个所述第一目标文献集中的分词所对应的词频并保存所述第一目标文献集中的分词和其对应的词频构成词库；

设定关键词并在所述目标文献库中检索包含所述关键词的第二目标文献集；

提取所述第二目标文献集中的分词及每个所述第二目标文献集中的分词所对应的词频；

计算所述第二目标文献集中的分词与所述关键词之间的关联度；

根据关联度对所述第二目标文献集中的分词进行排序；

显示排序后的所述第二目标文献集中的分词；

计算所述第二目标文献集中的分词与所述关键词之间的关联度的具体方法为通过下述公式计算每个所述第二目标文献集中的分词的分数并通过所述分数表述每个所述第二目标文献集中的分词与所述关键词的关联度：

其中，subsetFreq表示所述第二目标文献集中的分词的词频，subsetSize表示全部所述第二目标文献集中的分词的词频总和，superFreq表示所述第二目标文献集中的分词在所述第一目标文献集中的词频的总和，superSize表示全部所述第一目标文献集中的分词的词频总和，natureBoost表示所述第二目标文献集中的分词的词性权重，fieldBoost表示所述第二目标文献集中的分词的字段权重。

2.根据权利要求1所述的信息关联方法，其特征在于，

获取natureBoost的具体方法为：

根据所述第二目标文献集中的分词在所述第二目标文献集中的词性求取平均值。

3.根据权利要求2所述的信息关联方法，其特征在于，

获取fieldBosst的具体方法为：

根据所述第二目标文献集中的分词在所述第二目标文献集中的字段求取平均值。

4.根据权利要求1所述的信息关联方法，其特征在于，

通过显示出的所述第二目标文献集中的分词在所述第二目标文献集中获取包含所述第二目标文献集中的分词的第三目标文献集并显示所述第三目标文献集。

5.根据权利要求4所述的信息关联方法，其特征在于，

计算所述第三目标文献集中的每个文献与所述关键词的关联度；

根据关联度对所述第三目标文献集进行排序；

显示排序后的所述第二目标文献集中的文献。

6.根据权利要求5所述的信息关联方法，其特征在于，

显示排序后的所述第二目标文献集中的文献的具体方法为根据用户的设置显示排序后的所述第二目标文献集中的文献的数量。

7.一种信息关联***，其特征在于，所述信息关联***包含：

目标文献库模块，用于存储第一目标文献集；

第一处理模块，用于提取所述目标文献库模块中的第一目标文献集中的分词及每个所述第一目标文献集中的分词所对应的词频；

词库模块，用于保存所述第一处理模块提取的所述第一目标文献集中的分词和其对应的词频；

输入模块，用于供用户输入关键词；

检索模块，用于根据用户通过所述输入模块输入的关键词在所述目标文献库模块中检索包含所述关键词的第二目标文献集；

第二处理模块，用于提取所述第二目标文献集中的分词及每个所述第二目标文献集中的分词所对应的词频；

计算模块，用于计算所述第二目标文献集中的分词与所述关键词之间的关联度；

排序模块，用于根据关联度对所述第二目标文献集中的分词进行排序；

显示模块，用于显示排序后的所述第二目标文献集中的分词；

所述计算模块通过下述公式计算每个所述第二目标文献集中的分词的分数并通过所述分数表述每个所述第二目标文献集中的分词与所述关键词的关联度：

8.根据权利要求7所述的信息关联***，其特征在于，

所述计算模块包括：

第一计算子模块，用于计算所述第二目标文献集中的分词的词性权重；

第二计算子模块，用于计算所述第二目标文献集中的分词的字段权重。