CN105138544A

CN105138544A - 一种重塑逻辑演绎链的搜索方法

Info

Publication number: CN105138544A
Application number: CN201510400998.9A
Authority: CN
Inventors: 宋晶
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2015-07-09
Filing date: 2015-07-09
Publication date: 2015-12-09
Anticipated expiration: 2035-07-09
Also published as: CN105138544B

Abstract

本发明公开了一种重塑逻辑演绎链的搜索方法，包括以下步骤：A、建立专业范畴标签库；B、建立逻辑特征词库；C、通过标签库与特征词库，将搜索词扩展成为关键词域；D、通过关键词域形成以具体逻辑分类为单元的文段库；E、将文段库中的数据内容优化关联组织成为逻辑树。本发明提供一种重塑逻辑演绎链的搜索方法，通过提供相关多源、异构信息的搜集整理、标注分拣、关联分析、数读展现等能力，辅助人大及其常委会、专委会及代表准确把握经济社会发展规律和现实社会利益矛盾，从而更好的提高立法的质量，使得立法能够与经济社会发展的新要求、人民群众的期待更加贴合。

Description

一种重塑逻辑演绎链的搜索方法

技术领域

本发明属于人大立法***知识保障搜索领域，特别涉及一种在人大立法时使用的重塑逻辑演绎链的搜索方法。

背景技术

现今的立法质量与经济社会发展的新要求、人民群众的新期待还存有差距。其主要表现为：1、中国特色***法律体系虽然已经形成，但还不够完善，仍存在着相关社会领域子法缺失、缺少配套规定和管理办法等问题。法律的规定相互矛盾、不明确、过于笼统、模棱两可、不严谨、难以贯彻实施、内容严重滞后。2、公民提出法案动议案及意见渠道急需拓宽，社会上具有政治参与要求和能力的公民未能有序地参与到政治体系和决策过程中来，未能完全将科学与民主贯彻于立法程序的各个环节。3、立法后评估工作尚未启动，无法检验立法质量，无法总结提炼规律性的内容用于指导今后的立法工作。4、参与立法工作的人大代表虽然是各行业精英，但受限于工作领域和专业范围的约束，往往难以准确理解把握审议表决的内容，无从做出正确决策，无法将数据和信息高效地演化重塑成为满足自身需要的知识、情报和方案。

当前民主法制信息化建设中的立法业务***主要针对立法工作的全过程进行痕迹管理，从立法建议的提出，立法规划、计划的产生，年度立法工作安排，起草法律草案前通过调研、论证、听证、座谈、网络等各种方式收集资料、征求意见、草拟大纲等各项准备工作，法律草案的起草工作，法律草案起草后的专门委员会、常委会和大会审议，以及审议过程中的征求意见工作，直到最后法律的通过和归档等。然而，上述信息化仅仅只是侧重于机关办公的自动化与业务流程的电子化，没有涉及到与立法内容相关的知识精炼和动态现状，没有知识保障信息机制、公众参与信息机制，对象信息交互机制等，也就无法支撑立法质量提升这一人大履职使命的完成；此外，由于采取的是独立封闭、粗放离散的建设方式，人大难以与政府、法院、检察院等相关政务部门形成协同互动和资源共享的集约化发展模式。

立法业务信息化的技术路径选择：

基于分类目录与层层点击查询的信息搜索，其特点是“求全面”。基于超链接分析与机器抓取技术的信息搜索，其特点是“求精准”。具有互动模式并尝试捕捉用户查询意图，且查询更加精准的信息搜索，其特点是“求专业”。

如果说上述三类信息搜索方式是将太平洋中的水变成了青海湖，那么人大立法***的技术路径则是下一代信息搜索引擎发展方向的主角，它呈现给用户的是一个动静活泼的青海湖生态***，为用户在认知上带来更加直观的体验。其通过人工智能与搜索技术相结合，实现概念定义、背景原因、发展状态、手段措施等多知识的智能关联，从而实现专业化、领域化和个性化搜索的目标，特点是“求理解”。

发明内容

本发明的目的在于克服上述立法信息不全面能掌控的问题，提供一种重塑逻辑演绎链的搜索方法，使人能准确把握经济社会发展规律和现实社会利益矛盾，以提高立法的质量。

为了实现上述目的，本发明采用以下技术方案实现：

一种重塑逻辑演绎链的搜索方法，包括以下步骤：

A、建立专业范畴标签库；

B、建立逻辑特征词库；

C、通过标签库与特征词库得到搜索词，将搜索词扩展成为关键词域；

D、通过关键词域形成以具体逻辑分类为单元的文段库；

E、将文段库中的数据内容优化关联组织成为逻辑树；

步骤A的具体方法是：收集整理与立法主题领域相关的法律法规、部门规章、政策规划和领导讲话，以及统计制度及其相关指标解释资料，提炼资料中的要素对象作为标签词，形成分类分级的标签词库；

步骤B的建立方法是对立法主题领域内的政府公文和学术论著在文段级予以标识，每个拥有明确标识的文段均视为数据库中的一个数据，并将每个词作为一个项目，使用类Apriori的关联规则算法挖掘出文段级的频繁词集，并以此作为词组库，将不同的词组库通过逻辑关系进行关联，最终建立逻辑特征词库；

步骤C采用Sunday字符串匹配的方法，将关键词投影至专业范畴标签词库中，叠加逻辑特征词组，最终形成关键词域；

步骤D利用关键词域中的不同关键词，在预置的网络资源库中匹配寻找相关信息，并形成符合逻辑特征词库中逻辑分类的文段库；

步骤E是通过相似聚类和最小树生成的优化关联方法，将文段组织拟合为认知适应性激励下的逻辑脉络树。

步骤B中的类Apriori的关联规则算法如下：

(1)产生频繁词集；扫描文献数据库产生一项频繁词集L₁；

(2)连接；在k次扫描时，其中k>1，采用递推的连接方法求k项频繁词集L_k，用L_k-1与自身作连接产生候选k项词集C_k；

(3)剪枝产生逻辑特征词库；设：c_k∈C_k，即c_k是一个候选k项词集，c_k-1是c_k的一个(k-1)项子词集，若满足c_k-1不属于L_k-1，则有c_k不属于L_k，即候选k项词集c_k应该从候选k项词集的集合C_k中删除，直至剪枝完毕最终得出逻辑特征词库F₁，F₂，F₃，……，F_n。

步骤C的具体计算方法如下：

(1)采用Sunday字符串匹配的方法，将含有立法搜索关键词的专业范畴标签词筛选出来(w_k1，w_k2，w_k3，……，w_kt)；

(2)以字符串连接的方式，将专业范畴标签词与旨在区分F＝(F_概念定义、F_背景原因、F_发展状态、F_手段措施)的逻辑特征词组进行叠加，形成关键词域(w_k1+F，w_k2+F，w_k3+F，……，w_kt+F)。

所述步骤E中的优化关联方法包括AP算法与类Prim最小生成树的构造算法两步。

所述AP算法的目标是将相似的文段归为一簇，不相似的文段划分到不同簇中；AP算法对文段划分不同簇的具体步骤如下：

(1)计算文段间的向量余弦值，并生成初始相似度矩阵S；

(2)分别计算文段间的Responsibility值和Availability值；

(3)评判S矩阵的对角线数值作为k点能否成为聚类中心，若该值越大，则这个点成为聚类中心的可能性就越大，即不断更新Responsibility值和Availability值；如果迭代次数超过设定的最大值或者当聚类中心在若干次迭代中不发生改变时终止计算，确定中心及各类的样本点；否则返回步骤(2)，继续计算。

文段间的向量余弦值的计算方法如下：

(1)面对归属于不同资料文献的文段，使用中文分词软件进行分词预处理，基于向量空间模型将文段表达为一组规范化正交词条矢量W_1j，W_2j，…，W_tj；W_ij＝TF_ij×IDF_i，TF表示词条i在文段j中出现的次数，表示逆文档频率，其中，N表示文段集合中所有的文段数目，n_i表示整个文段集合中出现过词条i的文段的总数；

(2)在概念定义、根源症结、发展状态、手段措施的各自范围内，以基于向量余弦值法的相似度计算，以及无需制定聚类数目的AffinityPropagation(AP)算法实现文段聚类；采用向量余弦值的方法计算文段相似度，对于文段集中的两个文段向量(W_1i，W_2i，…，W_ti)，(W_1j，W_2j，…，W_tj)，它们之间的向量余弦值为：

\cos (d_{i}, d_{j}) = \frac{Σ_{k = 1}^{m} (W_{i k} * W_{j k})}{\sqrt{Σ_{k = 1}^{m} W_{i k}^{2} * Σ_{k = 1}^{m} Σ_{k = 1}^{m} W_{j k}^{2}}};

其中，m为第i篇文档和第j篇文档共同的不重复的特征数量，W_ik表示第i篇文档中第k个特征项的权重，W_jk表示第j篇文档中第k个特征项的权重；当两向量余弦值越大时，两文本的相似度越高，既两个文本被归为同一类别的可能性越大。

所述类Prim最小生成树的构造算法，旨在演绎出逻辑脉络，是以所含文段被频繁检索的文章资源为思维链原点，选择与其根源症结属于同簇同类的文章资源，围绕概念定义、背景原因、发展状态、手段措施四大类节点进行逻辑脉络的演绎；该类Prim最小生成树的构造算法具体步骤如下：

(1)设置同簇同类文段间的逻辑为低权值，不属于同簇同类文段间的逻辑为高权值，同属一篇文章资源中的文段间逻辑权值适中；

(2)以根源症结文段开始，寻找当前该文段可以关联的所有逻辑关联；

(3)在已经寻找的逻辑关联中发现最小权值，这个逻辑关联必须有一个文段还没有访问过，将还没有访问的文段加入集合，记录添加的逻辑关联；

(4)寻找当前集合可以访问的所有逻辑关联，重复(2)的过程，直到没有新的文段可以加入；

(5)此时由所有逻辑关联构成的树即为逻辑脉络。

本发明较现有技术相比，具有以下优点及有益效果：

本发明通过各项算法完成对相关多源、异构信息的搜集整理、标注分拣、关联分析和数读的展现，辅助人大及其常委会、专委会及代表准确把握经济社会发展规律和现实社会利益矛盾，从而更好的提高立法的质量，使得立法能够与经济社会发展的新要求、人民群众的期待更加贴合。

附图说明

图1为本发明的步骤框图。

图2为本发明的步骤C的步骤框体。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

如图1、2所示，一种重塑逻辑演绎链的搜索方法，包括以下步骤：

一种重塑逻辑演绎链的搜索方法，包括以下步骤：

A、建立专业范畴标签库；

具体方法是：收集整理与立法主题领域相关的人大法律、行政法规、三定规定、部门规章、政策规划和领导讲话，并统计制度及其相关指标解释等资料，将资料中涉及到的主体、客体、行为以及其他要素对象作为标签词，以自顶向下、逐层分解的方式，按照业务用语习惯，不断细化专业词汇的内涵外延，形成分类分级的标签词库。

B、建立逻辑特征词库；

建立方法是先围绕社会领域在问题现象、根源症结、政策措施方面的逻辑分类，对相关联的资料文献在文段级予以标识，每个拥有明确标识的文段均视为数据库中的一个交易，每个词作为一个项目，在资料文献可映射为文献数据库的基础上，使用类Apriori的关联规则算法挖掘出文段级的频繁词集，即在文段中频繁同时出现的词，并将其收集整理，以此作为能够包含更多逻辑分类上下文信息的文档特征的词组库，进而完成逻辑特征词库的建立。

用Sunday字符串匹配的方法，将立法搜索关键词投影至以分类分级形式存在的专业范畴标签词库中，叠加旨在区分概念定义、背景原因、发展状态、手段措施的逻辑特征词组，最终形成关键词域；

D、通过关键词域形成以具体逻辑分类为单元的文段库；

以常规的搜索方法为基础，根据信源渠道及时间频度设置，周期性地抓取搜集与立法主题范围相关的一府两院工作动态、专业科学研究成果，以及知名微博、著名论坛上的互联网络舆情，并将其以文段为单元指向相应的逻辑特征，形成可动态更新的主题领域文段库；选择一府两院工作动态、专业科学研究成果，以及知名微博、著名论坛上的互联网络舆情进行更新主要是因为其资料文献的逻辑性更强，其所述更客观且让人更好的理解；

E、将文段库中的数据内容优化关联组织成为逻辑树；

通过优化关联方法，利用关键词域中的不同关键词匹配寻找、解析确定的相应文段及其所属文章资源。

步骤B中的类Apriori的关联规则算法如下：

(1)产生频繁词集；扫描文献数据库产生一项频繁词集L₁；

步骤C的具体计算方法如下：

其标签词与关键词域的匹配范围如下表所示：

表1

AP算法的目标是将相似的文段归为一簇，不相似的文段划分到不同簇中；AP算法对文段划分不同簇的具体步骤如下：

(1)计算文段间的向量余弦值，并生成初始相似度矩阵S；

(2)分别计算文段间的Responsibility值和Availability值；

文段间的向量余弦值的计算方法如下：

\cos (d_{i}, d_{j}) = \frac{Σ_{k = 1}^{m} (W_{i k} * W_{j k})}{\sqrt{Σ_{k = 1}^{m} W_{i k}^{2} * Σ_{k = 1}^{m} Σ_{k = 1}^{m} W_{j k}^{2}}};

类Prim最小生成树的构造算法，旨在演绎出逻辑脉络，是以所含文段被频繁检索的文章资源为思维链原点，选择与其根源症结属于同簇同类的文章资源，围绕概念定义、背景原因、发展状态、手段措施四大类节点进行逻辑脉络的演绎；该类Prim最小生成树的构造算法具体步骤如下：

(5)此时由所有逻辑关联构成的树即为逻辑脉络。

通过上述方法之后，在立法查询相关资料时仅需输入关键词就可得到整个逻辑树，该逻辑树包括了关键词的概念定义、根源症结、发展状态和手段措施，其内容由逻辑词库内的各项文段整合而成，能够让立法者能够快速的了解到相关的内容，进而大大提高了立法的质量，使得立法能够更好的贴合社会实际与社会发展的需求。

通过上述方法，便能很好的实现本发明。

Claims

1.一种重塑逻辑演绎链的搜索方法，其特征在于，包括以下步骤：

A、建立专业范畴标签库；

B、建立逻辑特征词库；

D、通过关键词域形成以具体逻辑分类为单元的文段库；

E、将文段库中的数据内容优化关联组织成为逻辑树；

2.根据权利要求1所述的一种重塑逻辑演绎链的搜索方法，其特征在于，步骤B中的类Apriori的关联规则算法如下：

(1)产生频繁词集；扫描文献数据库产生一项频繁词集L₁；

3.根据权利要求2所述的一种重塑逻辑演绎链的搜索方法，其特征在于，步骤C的具体计算方法如下：

4.根据权利要求3所述的一种重塑逻辑演绎链的搜索方法，其特征在于，所述步骤E中的优化关联方法包括AP算法与类Prim最小生成树的构造算法两步。

5.根据权利要求4所述的一种重塑逻辑演绎链的搜索方法，其特征在于，所述AP算法的目标是将相似的文段归为一簇，不相似的文段划分到不同簇中；AP算法对文段划分不同簇的具体步骤如下：

(1)计算文段间的向量余弦值，并生成初始相似度矩阵S；

(2)分别计算文段间的Responsibility值和Availability值；

6.根据权利要求5所述的一种重塑逻辑演绎链的搜索方法，其特征在于，文段间的向量余弦值的计算方法如下：

(2)在概念定义、根源症结、发展状态、手段措施的各自范围内，以基于向量余弦值法的相似度计算，以及无需制定聚类数目的AffinityPropagation(AP)算法实现文段聚类；采用向量余弦值的方法计算文段相似度，对于文段集中的两个文段向量它们之间的向量余弦值为：

\cos (d_{i}, d_{j}) = \frac{Σ_{k = 1}^{m} (W_{i k} * W_{j k})}{\sqrt{Σ_{k = 1}^{m} W_{i k}^{2} * Σ_{k = 1}^{m} Σ_{k = 1}^{m} W_{j k}^{2}}};

7.根据权利要求4所述的一种重塑逻辑演绎链的搜索方法，其特征在于，所述类Prim最小生成树的构造算法，旨在演绎出逻辑脉络，是以所含文段被频繁检索的文章资源为思维链原点，选择与其根源症结属于同簇同类的文章资源，围绕概念定义、背景原因、发展状态、手段措施四大类节点进行逻辑脉络的演绎；该类Prim最小生成树的构造算法具体步骤如下：

(5)此时由所有逻辑关联构成的树即为逻辑脉络。