CN110489539A - 基于文档的智能办公文件推送技术 - Google Patents
基于文档的智能办公文件推送技术 Download PDFInfo
- Publication number
- CN110489539A CN110489539A CN201910771033.9A CN201910771033A CN110489539A CN 110489539 A CN110489539 A CN 110489539A CN 201910771033 A CN201910771033 A CN 201910771033A CN 110489539 A CN110489539 A CN 110489539A
- Authority
- CN
- China
- Prior art keywords
- document
- importance
- documents
- push
- office
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于文档的智能办公文件推送技术,所述技术包含文档特征提取、文档重要性排序以及文档推送的功能:特征提取模块主要负责提取原始文档中能够有效代表文档含义的特征向量;文档重要性采用卷积神经网络,通过历史数据的训练为文档进行重要性打分,并针对多文档进行重要性排序;文档推送依据***设定阈值,将排名靠前的文档推送或者高亮提醒用户,保证重要文档的优先处理。本发明基于Python语言开发,采用RESTful API的方式,通过与第三方办公***对接,能够有效的提升办公人员的办公效率。
Description
技术领域
本发明涉及基于用户画像的智能办公文件推送技术,研究面向智能办公自动化***的文档推荐和排序功能。
背景技术
办公自动化(OA,Office Automation)是一个企业除了生产控制之外的一切信息处理与管理的集合。不同的使用对象具有不同的功能:对企业高层领导来说,OA是决策支持***(DSS,Decision Support System),它运用科学的数学模型,结合企业内部/外部的信息,为企业领导的决策提供参考和依据;对于企业中层管理者来说,OA是信息管理***(IMS,Information Management System),它利用业务各环节提供的基础“数据”,提炼出有用的管理“信息”,把握业务进程,降低经营风险,提高经营效率;对于企业普通员工来说,OA是事务/业务处理***。OA为办公室人员提供良好的办公手段和环境,使之准确、高效,愉快地工作。
办公自动化的根本目的在于,能够更加准确的切入办公人员的需求要点,进而起到大幅度提高办公人员处理事务效率的作用。作为办公事务的核心内容,文件的有效运转和推送,对于***服务机构工作的正常流转起到了至关重要的作用。然而,随着电子化办公和信息***,OA出现了文档流转效率和文档处理能力之间的矛盾,即文档在部门与部门之间通过电子化方式加速了流转,但是也造成了由于文档处理速度不足或者文档处理策略不完善导致的多源头文档带来的文件堆积的问题,文档处理者和整个文档流转集合的处理能力处于瓶颈阶段。
基于上述问题,如何提高文档处理者的处理能力,规划更加高效的文档处理策略,成为突破文档处理速度瓶颈的关键性问题。目前,针对这一问题,并没有一个成熟的、实际有效的解决方法。但是,通过应用场景的迁移,新闻推荐、邮件过滤等服务类应用场景相对比较成熟,推荐算法和排序技术在这些应用场景中也得到了更加广泛的应用。在此基础上,结合OA中公文处理速度瓶颈的问题,引入推荐算法和排序技术,实现基于文档的智能办公文件推送,以公文处理中的相关指标作为依据,为公文处理者的公文处理策略起到指导性作用。
发明内容
基于文档特征的智能办公推送技术,采用卷积神经网络(CNN,ConvolutionalNeural Network),具备文档特征提取、文档重要性排序以及文档推送的功能,主要通过历史文档的特征提取和学习,为文档所属内容、时效性、文档源头等指标进行评价,采用加权的方法对文档整体的重要性进行打分,按照评分的高低进行排序并展示给文档办公人员。
基于文档的智能办公推送技术的特点在于:用于python语言作为开发语言,采用RESTFUL API的方式作为第三方开发接口,部署在办公自动化应用平台上。技术框架主要包括文档特征提取模块、文档重要性训练模块、文档重要性排序模块三个方面。其中,文档特征提取模块主要用于根据文档内容、文档标题和文档来源为文档标注合适的标签向量;文档重要性训练模块主要功能为对已经标注标签向量的文档输入到深度神经网络中,采用监督学习的方法对文档的重要性进行学习,生成网络模型;文档重要性排序模块主要针对将测试和实际应用中,将文档集合分别输入神经网络中,得到每一篇文档的重要性程度,并且按照重要性由高到低对文档进行排序。
本发明的优点在于:
1.所述基于文档的智能办公文件推送采用B/S架构,相比起C/S架构,具有***轻便,实时性强,移植性强,多任务并行的特点,尤其适合分布式全寿命自主保障验证***。
2.以文件为核心,通过将文件的标签向量转化为重要性指标的方式,对文件的重要性进行定量的刻画,用以满足对文件进行定量的训练和后续重要性排序起到决定性的作用。
3.基于文档的智能办公文件推送采用RESTful API访问数据资源。RESTful架构遵循统一接口原则,统一接口包含了一组受限的预定义的操作,通过使用相同的接口进行所有资源的访问。同时,按照HTTP方法的语义暴露的资源,接口具有幂等性的特性,提高了服务器在访问量大、网络不稳定时的安全性。
附图说明
图1为算法框架示意图
图2为文档特征提取流程图
图3为卷积神经网络基本结构图
具体实施方案
下面结果附图对本发明提供的文档的智能办公文件推送技术及其实现进行详细说明:
1.技术***框架
基于文档的智能办公文件推送及排序技术主要有三个模块构成:文档特征提取模块、文档重要性训练模块、文档重要性排序模块。本发明采用的技术框架如附图1所示。基本流程如下:
***中,针对已有历史文档数据,通过已有的自动化办公领域特有以及面向业务领域的词库,对每一个文件进行标签向量的构建,并根据专家知识以及相关领域的经验,对每一份文档进行标签标注,形成特征向量,并根据相关经验对文档进行评分,作为模型训练的依据。
模型训练首先构建神经网络的结构,根据特征提取的结果,分别将特征向量和重要性分数分别作为神经网络的输入和输出,不断进行深度神经网络的训练,得到相对比较准确的神经网络。
深度神经网络训练结束之后,线上将文档进行特征提取,得到特征向量之后作为神经网络的输入,得到输出的文档重要性,分别得到多个文档的重要性进行排序,为后续的文档重要性排序和推荐其他重要的指导作用。
2.文档特征提取
文档特征提取流程如图2所示。首先,在各种行业中,都会对应相应的语料库,根据***保存的历史文档,结合语料库得到更大的特征向量表。线上文档通过于特征向量表进行匹配,可以得到公文特有的文档特征,用于后续的训练和排序。
由文档到关键词之间的过程需要通过词向量的方式进行定位,针对这一过程,需要特定的算法对文档处理,才能够将数据进行分词和特征提取。这一过程采用的是根据词频、词语词之间的向量关系以及互信息的方式进行匹配的。
策划词向量之间的互信息如下表示:
还可以采用词跨度的形式进行计算:
一个文档中的词频可以采用这个词在文档中出现的频率决定,可以采用TF的值。假设一个词w在文本中出现了m词,而文本中词的总数为n,那么一个词的IDF是根据语料库得到的,表示这个词在整个语料中出现的频率。假设整个语料库中,包含词w的文本一共有M篇,语料中的文本已拥有N篇,则
由此可得词w的TF-IDF值为
TFIDFw=TFw×IDFw
采用textRank算法对关键词进行提取,步骤如下:
关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。textRank算法是利用局部词汇之间关系(共现窗口)对后续关键词进行排序,直接从文本本身抽取。其主要步骤如下:
1)把给定的文本T按照完整句子进行分割,即
2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即,其中是保留后的候选关键词。
3)构建候选关键词图G=(V,E),其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。
4)根据上面公式,迭代传播各节点的权重,直至收敛。
5)对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。
6)由(5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。例如,文本中有句子“Matlab code for plotting ambiguity function”,如果“Matlab”和“code”均属于候选关键词,则组合成“Matlab code”加入关键词序列。
3.文档特征训练
CNN的全称是Convolutional Neural Network,是一种前馈神经网络。由一个或多个卷积层、池化层以及顶部的全连接层组成,在图像处理领域表现出色。最近几年,在图像、声音、自然语言处理等领域,针对向量化数据的特征,具有良好的数据处理和训练的效果。所以,针对文档特征组成的向量,也具有很好的应用价值。
卷积神经网络主要用于提取卷积对象的局部特征,当卷积对象是自然语言文本时,比如一个句子,此时其局部特征是特定的关键词或关键短语,所以利用卷积神经网络作为特征提取器时相当于词袋模型,表示一个句子中是否出现过特定的关键词或关键短语。用在分类任务上,相当于提取出对于分类最有用的特征信息。
相比其他模型,卷积神经网络的参数更少。还有一个优点是卷积神经网络不存在序列依赖问题,可以并行计算。卷积神经网络的基本结构图如图3所示,首先,文档通过特征提取向量化,作为卷积神经网络的输入。输出采用基于先验知识的重要性评分,为了方便计算,将所有评分进行归一化处理,评分越接近1,说明重要性越高。卷积神经网络中的每一层都可以近似用如下公式来表示:
由于采用01之间的数值作为重要性评分,所以,采用sigmoid函数作为神经网络的激活函数较为合适。
Claims (3)
1.基于文档的智能办公文件推送技术,其特征在于:所述技术包含文档特征提取、文档重要性排序以及文档推送的功能;特征提取模块主要负责提取原始文档中能够有效代表文档含义的特征向量;文档重要性模块采用卷积神经网络,通过对历史文档和文档流转信息的训练为文档进行重要性打分,并针对多文档进行重要性排序;文档推送依据***设定阈值,将排名靠前的文档推送或者高亮提醒用户,保证重要文档的优先处理。
2.根据权利要求1所述的智能办公文件推送技术,其特征在于:基于B/S架构的思想,采用服务组件的概念,以RESTfulAPI的模式为第三方***提供接口,支持Windows***和类Linux***的国产麒麟***。
3.根据权利要求1所述的智能办公文件推送技术的实现流程,其特征在于:
第一步:针对历史文档数据以及文档流转,借助自动化办公领域特有的以及面向业务领域的词库,对每一份文档进行标签标注,形成特征向量。
第二步:构建卷积神经网络的结构,根据特征提取的关键词,分别将特征向量和重要性分数作为神经网络的输入和输出,进行深度卷积神经网络的训练,得到相对比较准确的神经网络。
第三步:深度神经网络训练结束得到文档重要性评分模型,在线对文档进行特征提取,输入到模型中得到特定文档的重要性评分。
第四步:多文档环境下,分别对单一文档进行重要性评分,依据评分由高到低对文档进行排序。以***中的重要性阈值作为基线,向用户推送重要性程度高的文档。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910771033.9A CN110489539A (zh) | 2019-08-21 | 2019-08-21 | 基于文档的智能办公文件推送技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910771033.9A CN110489539A (zh) | 2019-08-21 | 2019-08-21 | 基于文档的智能办公文件推送技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110489539A true CN110489539A (zh) | 2019-11-22 |
Family
ID=68551602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910771033.9A Pending CN110489539A (zh) | 2019-08-21 | 2019-08-21 | 基于文档的智能办公文件推送技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489539A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449525A (zh) * | 2021-07-08 | 2021-09-28 | 安徽商信政通信息技术股份有限公司 | 一种基于实体识别的文件智能流转方法及*** |
CN113918787A (zh) * | 2021-12-14 | 2022-01-11 | 江苏佳信环保咨询有限公司 | 一种环境影响评价文件管理方法及*** |
CN116796772A (zh) * | 2023-08-25 | 2023-09-22 | 北京思谨科技有限公司 | 一种动态rfid的智能文件柜控制*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657496A (zh) * | 2015-03-09 | 2015-05-27 | 杭州朗和科技有限公司 | 一种计算信息热度值的方法和设备 |
US20180081503A1 (en) * | 2016-09-19 | 2018-03-22 | Google Inc. | Recommending a document for a user to access |
CN109670183A (zh) * | 2018-12-21 | 2019-04-23 | 北京锐安科技有限公司 | 一种文本重要性的计算方法、装置、设备和存储介质 |
CN109766434A (zh) * | 2018-12-29 | 2019-05-17 | 北京百度网讯科技有限公司 | 摘要生成方法及装置 |
-
2019
- 2019-08-21 CN CN201910771033.9A patent/CN110489539A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657496A (zh) * | 2015-03-09 | 2015-05-27 | 杭州朗和科技有限公司 | 一种计算信息热度值的方法和设备 |
US20180081503A1 (en) * | 2016-09-19 | 2018-03-22 | Google Inc. | Recommending a document for a user to access |
CN109670183A (zh) * | 2018-12-21 | 2019-04-23 | 北京锐安科技有限公司 | 一种文本重要性的计算方法、装置、设备和存储介质 |
CN109766434A (zh) * | 2018-12-29 | 2019-05-17 | 北京百度网讯科技有限公司 | 摘要生成方法及装置 |
Non-Patent Citations (1)
Title |
---|
赵洪等: "基于大规模政府公文智能处理的知识发现及应用研究", 《情报学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449525A (zh) * | 2021-07-08 | 2021-09-28 | 安徽商信政通信息技术股份有限公司 | 一种基于实体识别的文件智能流转方法及*** |
CN113918787A (zh) * | 2021-12-14 | 2022-01-11 | 江苏佳信环保咨询有限公司 | 一种环境影响评价文件管理方法及*** |
CN116796772A (zh) * | 2023-08-25 | 2023-09-22 | 北京思谨科技有限公司 | 一种动态rfid的智能文件柜控制*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20160196336A1 (en) | Cognitive Interactive Search Based on Personalized User Model and Context | |
CN111222305A (zh) | 一种信息结构化方法和装置 | |
Lau et al. | Automatic domain ontology extraction for context-sensitive opinion mining | |
CN110489539A (zh) | 基于文档的智能办公文件推送技术 | |
Lavanya et al. | Twitter sentiment analysis using multi-class SVM | |
CN112784602B (zh) | 基于远程监督的新闻情感实体抽取方法 | |
Das et al. | A CV parser model using entity extraction process and big data tools | |
Shetty et al. | Auto text summarization with categorization and sentiment analysis | |
Lamba et al. | Sentiment analysis | |
CN114742071A (zh) | 基于图神经网络的汉越跨语言观点对象识别分析方法 | |
Manojkumar et al. | An experimental investigation on unsupervised text summarization for customer reviews | |
Hung | Vietnamese keyword extraction using hybrid deep learning methods | |
Swami et al. | Resume classifier and summarizer | |
EP2605150A1 (en) | Method for identifying the named entity that corresponds to an owner of a web page | |
CN108427769B (zh) | 一种基于社交网络的人物兴趣标签提取方法 | |
CN115048523A (zh) | 文本分类方法、装置、设备以及存储介质 | |
CN111753540B (zh) | 一种对于文本数据进行收集以进行自然语言处理nlp的方法及*** | |
Premakumara et al. | Application of Summarization and Sentiment Analysis in the Tourism domain | |
CN113641789A (zh) | 基于分层融合多头注意力网络和卷积网络的观点检索方法及*** | |
Chen et al. | Feature expansion using lexical ontology for opinion type detection in tourism reviews domain | |
Bhoir et al. | Resume Parser using hybrid approach to enhance the efficiency of Automated Recruitment Processes | |
Mahadik et al. | Aspect based opinion mining and ranking: Survey | |
CN110688453A (zh) | 基于资讯分类的场景应用方法、***、介质及设备 | |
Wambsganss et al. | Using Deep Learning for Extracting User-Generated Knowledge from Web Communities. | |
Habib et al. | Iot-based pervasive sentiment analysis: A fine-grained text normalization framework for context aware hybrid applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191122 |
|
RJ01 | Rejection of invention patent application after publication |