CN111666401A

CN111666401A - 基于图结构的公文推荐方法、装置、计算机设备及介质

Info

Publication number: CN111666401A
Application number: CN202010475897.9A
Authority: CN
Inventors: 谢静文; 阮晓雯; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-15
Anticipated expiration: 2040-05-29
Also published as: WO2021114810A1; CN111666401B

Abstract

本发明涉及大数据领域，本发明公开了一种基于图结构的公文推荐方法、装置、计算机设备及介质。所述方法包括：获取多种公文，根据TF‑IDF筛选特征词语，并将该特征词语记录为与其对应的公文的关键词标签；通过公文的文本主题‑关键词的分布概率矩阵筛选出选取概率大于或等于预设概率的文本主题，并将筛选出的文本主题记录为与其对应的公文的主题标签；根据关键词标签和主题标签生成公文属性；获取公文的记录数据，通过Neo4j框架根据公文的记录数据和公文属性建立基于图结构的公文推荐库；接收到用户自公文推荐库中输入的检索内容，依据SimRank计算出的相似度的高低次序输出目标公文。本发明可向用户推荐出与用户输入的检索内容相关度最高的目标公文。

Description

基于图结构的公文推荐方法、装置、计算机设备及介质

技术领域

本发明涉及大数据领域的数据分析领域，尤其涉及一种基于图结构的公文推荐方法、装置、计算机设备及介质。

背景技术

目前常用公文推荐方法多数基于传统的搜索引擎，传统搜索引擎在对公文进行推荐时，通常基于公文相似度进行推荐，如此，可以推荐与用户相关度较高的公文，但在现有技术中，公文相似度的判定往往基于人工设定的单一标准进行确定，如此，由于人工设定的标准可能存在不准确的问题，因此将会导致传统搜索引擎在进行公文推荐时，会存在考虑不全面的问题，进而导致不能向用户推荐出与用户输入的内容相关度最高的公文，影响到用户体验效果。因此，本领域技术人员亟需寻找一种技术方案来解决上述提到的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种基于图结构的公文推荐方法、装置、计算机设备及介质，可向用户推荐出与用户输入的内容相关度最高的公文，进而提高用户体验效果。

一种基于图结构的公文推荐方法，包括：

获取具有不同公文类型的多种公文，根据TF-IDF基于预设的词语统计特征确定获取的所述公文中的特征词语，根据TF-IDF筛选出现频率大于或等于预设频率的特征词语，并将筛选出的所述特征词语记录为与其对应的所述公文的关键词标签；

将所述公文输入至预设的LDA主题模型，通过所述LDA主题模型计算所述公文中的文本主题-关键词的分布概率矩阵，再获取所述LDA主题模型根据所述公文的文本主题-关键词的分布概率矩阵筛选出的选取概率大于或等于预设概率的所述文本主题，并将筛选出的所述文本主题记录为与其对应的所述公文的主题标签；所述文本主题-关键词的分布概率矩阵中包含多个所述选取概率，所述选取概率是指所述公文中的关键词属于该公文的文本主题的概率；

根据所述关键词标签和所述主题标签生成公文属性；

根据每一种公文类型获取所述公文的记录数据，通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库；所述公文推荐库中包含多个图结构，一个所述图结构对应至少一种所述公文类型的所述公文，一个所述图结构中包含相互连接的多个节点；一个所述节点代表所述记录数据、所述关键词标签和所述主题标签中的一种；

接收到用户自所述公文推荐库中输入的检索内容，依据SimRank计算出的相似度的高低次序输出目标公文；所述相似度是指所述检索内容与所述节点的相似度。

一种基于图结构的公文推荐装置，包括：

第一记录模块，用于获取具有不同公文类型的多种公文，根据TF-IDF基于预设的词语统计特征确定获取的所述公文中的特征词语，根据TF-IDF筛选出现频率大于或等于预设频率的特征词语，并将筛选出的所述特征词语记录为与其对应的所述公文的关键词标签；

第二记录模块，用于将所述公文输入至预设的LDA主题模型，通过所述LDA主题模型计算所述公文中的文本主题-关键词的分布概率矩阵，再获取所述LDA主题模型根据所述公文的文本主题-关键词的分布概率矩阵筛选出的选取概率大于或等于预设概率的所述文本主题，并将筛选出的所述文本主题记录为与其对应的所述公文的主题标签；所述文本主题-关键词的分布概率矩阵中包含多个所述选取概率，所述选取概率是指所述公文中的关键词属于该公文的文本主题的概率；

第一生成模块，用于根据所述关键词标签和所述主题标签生成公文属性；

建立模块，用于根据每一种公文类型获取所述公文的记录数据，通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库；所述公文推荐库中包含多个图结构，一个所述图结构对应至少一种所述公文类型的所述公文，一个所述图结构中包含相互连接的多个节点；一个所述节点代表所述记录数据、所述关键词标签和所述主题标签中的一种；

计算模块，用于接收到用户自所述公文推荐库中输入的检索内容，依据SimRank计算出的相似度的高低次序输出目标公文；所述相似度是指所述检索内容与所述节点的相似度。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于图结构的公文推荐方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于图结构的公文推荐方法。

上述基于图结构的公文推荐方法、装置、计算机设备及介质，基于TF-IDF给出的关键词标签会相对比较客观，关键词标签是基于统计学方法而得到，进而能保证得到的关键词标签具有考虑全面和错误率低的优点，且给出的关键词标签数量为可控制状态，可保证关键词标签较为丰富；基于LDA主题模型给出的主题标签会相对比较客观，每一个关键词所对应的文本主题基于模型运算方法而得到，进而能保证得到的文本主题标签具有考虑全面和错误率低的优点；通过SimRank计算出用户输入的检索内容与节点之间的相似度，由于SimRank结合了多种公文的文本内的特征，因此可推荐出相关性较高的目标公文，提升推荐的准确度和效率，SimRank度量出的对象之间相似性更加符合人类的直觉判断，且以该相似度的高低去确定输出的目标公文的顺序，可提高用户的体验效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于图结构的公文推荐方法的一应用环境示意图；

图2是本发明一实施例中基于图结构的公文推荐方法的一流程图；

图3是本发明一实施例中基于图结构的公文推荐装置的结构示意图；

图4是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的基于图结构的公文推荐方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务器进行通信。其中，客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种基于图结构的公文推荐方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10，获取具有不同公文类型的多种公文，根据TF-IDF基于预设的词语统计特征确定获取的所述公文中的特征词语，根据TF-IDF筛选出现频率大于或等于预设频率的特征词语，并将筛选出的所述特征词语记录为与其对应的所述公文的关键词标签；

可理解地，公文为目前至少15种公文类型的公文，该公文类型包括但不限于命令、决定、公告、通告和通知等；TF-IDF(Term frequency–Inverse Document Frequency)是一种用于信息检索与数据挖掘的常用加权技术，可作为关键词提取手段，其中，TF指特征词语出现的频率，IDF指特征词语在其他公文中出现的频率；特征词语一般代指能代表本公文的公文内容的词语，像人称代词、语气助词和连接词一般不列入特征词语中，而像公文中的具体的执行动词可列入至特征词语中，具体可根据需求设置词语统计特征进而来决定需从公文获取的特征词语，因此本实施例中的词语统计特征是包括多种特征词语的特征，如特征词语中的执行动词对应的动词特征；特征词语的出现频率越高，则可说明该特征词语在公文中的代表性和重要性很高，可选地，预设频率可根据应用领域来设置，但由于部分特征词语会偏向于某个应用领域，因此在本实施例的公文领域中，预设频率的设置可令筛选出的特征词语的数量保持在10个左右，具体数量可按需求决定。在本实施例中，基于TF-IDF给出的关键词标签会相对比较客观，关键词标签是基于统计学方法而得到，进而能保证得到的关键词标签具有考虑全面和错误率低的优点，且给出的关键词标签数量为可控制状态，可保证关键词标签较为丰富。

S20，将所述公文输入至预设的LDA主题模型，通过所述LDA主题模型计算所述公文中的文本主题-关键词的分布概率矩阵，再获取所述LDA主题模型根据所述公文的文本主题-关键词的分布概率矩阵筛选出的选取概率大于或等于预设概率的所述文本主题，并将筛选出的所述文本主题记录为与其对应的所述公文的主题标签；所述文本主题-关键词的分布概率矩阵中包含多个所述选取概率，所述选取概率是指所述公文中的关键词属于该公文的文本主题的概率；

可理解地，LDA主题模型是一种文档主题生成模型，也是一个三层贝叶斯概率模型，该模型可从公文中提取到文本主题-关键词分布概率矩阵(主题-关键词分布矩阵由类间散布矩阵S_B和类内散布矩阵S_W计算得到，其中，该主题-关键词分布矩阵作为特征矩阵

；当有公文输入字预设的LDA主题模型，在预设的LDA主题模型中，可将公文的词嵌入特征与矩阵W相乘，并可得到公文的文本主题-关键词分布概率矩阵，其中，公文的词嵌入特征是利用wordembedding对公文进行词嵌入后的篇章特征，词嵌入是一种将公文中的关键词转换成数字向量的方法)，具体是通过LDA主题模型计算每一个关键词属于所有主题中任意一个主题的分布概率，并将该分布概率作为选取概率，其中，一个选取概率代表一个关键词与公文的文本主题关联的概率，接着通过LDA主题模型对比选取概率跟预设概率后，最后得到选取概率大于或等于预设概率且由LDA主题模型输出的文本主题；在本实施例的公文领域中，预设概率的设置可令筛选出的文本主题的数量保持在3个左右，具体数量按需求决定。在本实施例中，基于LDA主题模型给出的主题标签会相对比较客观，每一个关键词所对应的文本主题基于模型运算方法而得到，进而能保证得到的文本主题标签具有考虑全面和错误率低的优点。

S30，根据所述关键词标签和所述主题标签生成公文属性；

可理解地，公文属性可代表公文的关键属性，其中该公文属性包括关键词标签、主题标签、数学实体、公文来文时间和来文单位等。

S40，根据每一种公文类型获取所述公文的记录数据，通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库；所述公文推荐库中包含多个图结构，一个所述图结构对应至少一种所述公文类型的所述公文，一个所述图结构中包含相互连接的多个节点；一个所述节点代表所述记录数据、所述关键词标签和所述主题标签中的一种；

可理解地，记录数据是针对数据库而形成的与每一篇公文所对应的数据，其中，一条记录数据可对应一种公文类型的公文，该记录数据可包括公文中的整体内容数据；Neo4j框架是一个高性能的NOSQL图形数据库，它将结构化数据存储在网络上而不是数据表中，且Neo4j框架也可以被看作是一个高性能的图引擎，因此本实施例可借用该Neo4j框架建立起一个关于记录数据和公文属性的图结构的公文推荐库，其中，该基于图结构的公文推荐库包含多个图结构，每一个图结构可包含多个节点，且每一个图结构可指至少一种公文类型的公文，如将公文A作为一个节点，该节点分别与关键词标签为“人事调动至某个部门”对应的节点，与主题标签为“***”对应的节点相互关联，最后可形成人事调动至某个部门-公文A-***的图结构。在本实施例中，包含多个图结构的公文推荐库的工作效率优于传统数据库或传统的搜索引擎的工作效率，且在公文推荐库中存储过多的公文时，该公文推荐库的公文推荐效率并不会受到影响。

S50，接收到用户自所述公文推荐库中输入的检索内容，依据SimRank计算出的相似度的高低次序输出目标公文；所述相似度是指所述检索内容与所述节点的相似度。

可理解地，SimRank是一种基于图的拓扑结构信息来衡量任意两个对象间相似程度的模型，在此也可理解成一种计算方法，该模型或该方法是可嵌入至公文推荐库中，具体的计算过程为，获取用户自公文推荐库中的输入接口输入的检索内容，该检索内容可为多个目标关键词或公文名称等，此时，将该检索内容中的目标关键词或公文名称等都作为检索节点，通过SimRank计算出检索节点与图结构中各个节点之间的相似度，比如，公文A和检索节点总共有6个节点，其中2个节点共有，4个节点相似，此时，相似度为4/6＝0.67。在本实施例中，通过SimRank计算出检索内容与节点之间的相似度，由于SimRank结合了多种公文的文本内的特征(上述提到的记录数据和述公文属性)，因此可推荐出相关性较高的目标公文，提升推荐的准确度和效率,且SimRank度量出的对象之间相似性更加符合人类的直觉判断，且以该相似度的高低去确定输出的目标公文的顺序，可提高用户的体验效果。

进一步地，所述获取具有不同公文类型的多种公文之前，还包括：

通过已训练成功的BERT模型对所述公文的整体篇章结构进行分析，得到一个对所述公文的整体篇章结构的分析结果；所述整体篇章结构是指所述公文的各个组成结构，所述分析结果是对所述公文的各个所述组成结构的完整性和合理性进行判断的结果；

在所述分析结果为所述公文的其中一个组成结构不具备所述完整性或/和所述合理性时，从所述公文中提取出所述公文中缺失的所述组成结构或/和不合理的所述组成结构，以突出显示的形式标注出所述公文中缺失的所述组成结构或/和不合理的所述组成结构，并令预设数据接收方对该公文进行修改。

可理解地，BERT模型是一种可用于对公文的整体篇章结构和篇幅进行分析的语言表征模型，该BERT模型具体的训练过程为：首先需要训练公文中的组成结构对应的各个句子进行标注，如为训练文本整体篇章结构中相应段落的句子标注1-B，2-B，3-B，1-I,2-I.3-I，1可代表开头，2可代表论述，3可代表结尾，其中，开头、论述和结尾都为公文的组成结构，接着对BERT模型进行建模，且在对BERT模型训练之前可根据公文中已标注成功的句子对BERT模型中已有的词向量进行增强训练，以令词向量表征的分布更贴合于公文(在公文中的已标注的句子存在数量不足的现象，可跳过此增强训练)，且在对BERT模型训练时可通过bert-base的基础上对BERT模型不断进行微调以令词向量分布更加合理(目前BERT模型提供的预训练词向量是基于所有的中文语料进行训练的，因此得到的词向量分布和公文应用领域下的词向量分布有所区别，因此需对BERT模型进行微调以适应该公文应用领域)，最后对所有的词向量训练完成后(使得BERT模型输出能够刻画出语言的本质)，可选取BERT模型输出的[CLS]位置([CLS]位置所包含的是高位特征向量，包含有整句的语义信息)作为公文的组成结构分类(一种类别代表一个组成结构)的分类结果(本实施例也对BERT模型输出的分类结果进行进一步地修正，修正是为了解决分类结果中存在跳跃的组成结构，跳跃结构如1-B，1-I，3-B，2-B,2-I,3-B，其代表为开头-开头-结尾-论述-论述-结尾，修正的手段主要是调整各个组成结构的位置进行调整)，该分类结果输出的形式为不同公文的组成结构类别对应的概率，将分类结果中的各个概率与其预设阈值(主要是针对与公文中缺失的组成结构)作对比后，就可确定出该类别下的组成结构对应的句子是否具备完整性或/和合理性。在本实施例中，基于BERT模型可实现自主识别公文的组成结构，且在该BERT模型的识别过程中，该BERT模型存在使用方便的优点，不受公文篇幅长度的影响，可对公文进行结构拆解，且该BERT模型泛化能力强，可针对不同公文类型的公文，且该BERT模型输出的分析结果是在对整篇公文的多维度的组成结构进行分析后得到，且通过该BERT模型输出的分析结果还可以对各个组成结构中的成语使用数量和篇幅分布做进一步地分析。

进一步地，所述公文属性还包括数字实体；所述通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库之前，还包括：

通过预设规则模板中的目标实体表达式对所述公文进行数字实体搜索后定位出所述数字实体的目标位置，并通过所述预设规则模板中的抓取规则表达式从所述目标位置抓取所述数字实体。

可理解地，预设规则模板中存在的目标实体表达式是用于定位数字实体的目标位置，该目标实体表达式一般与数字实体存在关联关系，比如“该项目预计投资总金额为”，而预设规则模板中存在的抓取规则表达式是用于抓取数字实体，比如该数字实体为10000元。在本实施例中，基于预设规则模板抽取的数字实体可提高抓取效率和效果。上述方法同样适用于公文来文时间和来文单位的抓取。

进一步地，所述公文属性还包括公文来文时间和来文单位；所述通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库之前，还包括：

获取所述公文的公文内容，通过NLP模型从所述公文内容中识别出与时间组成成分对应的所述公文来文时间以及与单位组成成分对应的所述来文单位；

所述根据所述关键词标签和所述主题标签生成公文属性，包括：

根据所述公文来文时间、所述来文单位、所述关键词标签和所述主题标签生成所述公文属性。

可理解地，NLP模型是一种自然语言处理算法引擎。本实施例基于NLP模型能识别出各种所需的组成成分，进而识别到与组成成分对应的内容，其中，一种组成成分对应一种内容，如上述提到的与时间组成成分对应的公文来文时间以及与单位组成成分对应的来文单位。

进一步地，所述通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库，包括：

通过Neo4j框架中的创建节点语句依据节点属性搭建出与所述公文对应的各个节点；所述节点属性与所述记录数据和所述公文属性分别对应；

通过Neo4j框架中的创建关系语句依据预设关系搭建出各个所述节点之间的连接关系；所述预设关系与所述记录数据和所述公文属性分别对应；

通过Neo4j框架中的路径语句依据所述连接关系确定出所有所述节点的路径，建立完成基于图结构的所述公文推荐库。

可理解地，该创建节点语句用于搭建出节点，如A节点；该创建关系语句用于搭建除节点之间的连接关系，如A节点-B节点等；该路径语句用于确定两个节点之间的全部路径或最短路径，如A节点-B节点和A节点-C节点。本实施例主要是通过在Neo4j框架中运用执行语句以实现基于图结构的公文推荐库的建立。

进一步地，所述依据SimRank计算出的相似度的高低次序输出目标公文之后，还包括：

将按照所述相似度的高低依次输出的所述目标公文压缩至链接点中，并在所述用户选择至少一个所述链接点时，以预设视图形式完整呈现出所述链接点中对应的所述目标公文的公文内容；一个所述链接点分别与一篇所述目标公文对应。

可理解地，本实施例将目标公文压缩至链接点中，其中，一个链接点可存放于一篇目标公文全部的公文内容，因此本实施例可用于节省目标公文的展示资源，并可避免用户观看过多公文内容的目标公文而影响到用户的体验效果。

综上所述，上述提供了一种基于图结构的公文推荐方法，基于TF-IDF给出的关键词标签会相对比较客观，关键词标签是基于统计学方法而得到，进而能保证得到的关键词标签具有考虑全面和错误率低的优点，且给出的关键词标签数量为可控制状态，可保证关键词标签较为丰富；基于LDA主题模型给出的主题标签会相对比较客观，每一个关键词所对应的文本主题基于模型运算方法而得到，进而能保证得到的文本主题标签具有考虑全面和错误率低的优点；通过SimRank计算出用户输入的检索内容与节点之间的相似度，由于SimRank结合了多种公文的文本内的特征，因此可推荐出相关性较高的目标公文，提升推荐的准确度和效率；且SimRank度量出的对象之间相似性更加符合人类的直觉判断，且以该相似度的高低去确定输出的目标公文的顺序，可提高用户的体验效果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于图结构的公文推荐装置，该基于图结构的公文推荐装置与上述实施例中基于图结构的公文推荐方法一一对应。如图3所示，该基于图结构的公文推荐装置包括第一记录模块11、第二记录模块12、第一生成模块13、建立模块14和计算模块15。各功能模块详细说明如下：

第一记录模块11，用于获取具有不同公文类型的多种公文，根据TF-IDF基于预设的词语统计特征确定获取的所述公文中的特征词语，根据TF-IDF筛选出现频率大于或等于预设频率的特征词语，并将筛选出的所述特征词语记录为与其对应的所述公文的关键词标签；

第二记录模块12，用于将所述公文输入至预设的LDA主题模型，通过所述LDA主题模型计算所述公文中的文本主题-关键词的分布概率矩阵，再获取所述LDA主题模型根据所述公文的文本主题-关键词的分布概率矩阵筛选出的选取概率大于或等于预设概率的所述文本主题，并将筛选出的所述文本主题记录为与其对应的所述公文的主题标签；所述文本主题-关键词的分布概率矩阵中包含多个所述选取概率，所述选取概率是指所述公文中的关键词属于该公文的文本主题的概率；

第一生成模块13，用于根据所述关键词标签和所述主题标签生成公文属性；

建立模块14，用于根据每一种公文类型获取所述公文的记录数据，通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库；所述公文推荐库中包含多个图结构，一个所述图结构对应至少一种所述公文类型的所述公文，一个所述图结构中包含相互连接的多个节点；一个所述节点代表所述记录数据、所述关键词标签和所述主题标签中的一种；

计算模块15，用于接收到用户自所述公文推荐库中输入的检索内容，依据SimRank计算出的相似度的高低次序输出目标公文；所述相似度是指所述检索内容与所述节点的相似度。

进一步地，所述基于图结构的公文推荐装置还包括：

分析模块，用于通过已训练成功的BERT模型对所述公文的整体篇章结构进行分析，得到一个对所述公文的整体篇章结构的分析结果；所述整体篇章结构是指所述公文的各个组成结构，所述分析结果是对所述公文的各个所述组成结构的完整性和合理性进行判断的结果；

标注模块，用于在所述分析结果为所述公文的其中一个组成结构不具备所述完整性或/和所述合理性时，从所述公文中提取出所述公文中缺失的所述组成结构或/和不合理的所述组成结构，以突出显示的形式标注出所述公文中缺失的所述组成结构或/和不合理的所述组成结构，并令预设数据接收方对该公文进行修改。

进一步地，所述基于图结构的公文推荐装置还包括：

抓取模块，用于通过预设规则模板中的目标实体表达式对所述公文进行数字实体搜索后定位出所述数字实体的目标位置，并通过所述预设规则模板中的抓取规则表达式从所述目标位置抓取所述数字实体。

进一步地，所述基于图结构的公文推荐装置还包括：

识别模块，用于获取所述公文的公文内容，通过NLP模型从所述公文内容中识别出与时间组成成分对应的所述公文来文时间以及与单位组成成分对应的所述来文单位；

第二生成模块，用于根据所述公文来文时间、所述来文单位、所述关键词标签和所述主题标签生成所述公文属性。

进一步地，所述建立模块包括：

第一搭建子模块，用于通过Neo4j框架中的创建节点语句依据节点属性搭建出与所述公文对应的各个节点；所述节点属性与所述记录数据和所述公文属性分别对应；

第二搭建子模块，用于通过Neo4j框架中的创建关系语句依据预设关系搭建出各个所述节点之间的连接关系；所述预设关系与所述记录数据和所述公文属性分别对应；

建立子模块，用于通过Neo4j框架中的路径语句依据所述连接关系确定出所有所述节点的路径，建立完成基于图结构的所述公文推荐库。

进一步地，所述基于图结构的公文推荐装置还包括：

选择模块，用于将按照所述相似度的高低依次输出的所述目标公文压缩至链接点中，并在所述用户选择至少一个所述链接点时，以预设视图形式完整呈现出所述链接点中对应的所述目标公文的公文内容；一个所述链接点分别与一篇所述目标公文对应。

关于基于图结构的公文推荐装置的具体限定可以参见上文中对于基于图结构的公文推荐方法的限定，在此不再赘述。上述基于图结构的公文推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于图结构的公文推荐方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于图结构的公文推荐方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中基于图结构的公文推荐方法的步骤，例如图2所示的步骤S10至步骤S50。或者，处理器执行计算机程序时实现上述实施例中基于图结构的公文推荐装置的各模块/单元的功能，例如图3所示模块11至模块15的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中基于图结构的公文推荐方法的步骤，例如图2所示的步骤S10至步骤S50。或者，计算机程序被处理器执行时实现上述实施例中基于图结构的公文推荐装置的各模块/单元的功能，例如图3所示模块11至模块15的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于图结构的公文推荐方法，其特征在于，包括：

根据所述关键词标签和所述主题标签生成公文属性；

2.根据权利要求1所述的基于图结构的公文推荐方法，其特征在于，所述获取具有不同公文类型的多种公文之前，还包括：

3.根据权利要求1所述的基于图结构的公文推荐方法，其特征在于，所述公文属性还包括数字实体；所述通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库之前，还包括：

4.根据权利要求1所述的基于图结构的公文推荐方法，其特征在于，所述公文属性还包括公文来文时间和来文单位；所述通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库之前，还包括：

5.根据权利要求1所述的基于图结构的公文推荐方法，其特征在于，所述通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库，包括：

6.根据权利要求1所述的基于图结构的公文推荐方法，其特征在于，所述依据SimRank计算出的相似度的高低次序输出目标公文之后，还包括：

7.一种基于图结构的公文推荐装置，其特征在于，包括：

8.根据权利要求7所述的基于图结构的公文推荐装置，其特征在于，所述基于图结构的公文推荐装置还包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述基于图结构的公文推荐方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述基于图结构的公文推荐方法。