CN111626057B - 一种基于命名实体的公文判定方法及判定*** - Google Patents

一种基于命名实体的公文判定方法及判定*** Download PDF

Info

Publication number
CN111626057B
CN111626057B CN202010734108.9A CN202010734108A CN111626057B CN 111626057 B CN111626057 B CN 111626057B CN 202010734108 A CN202010734108 A CN 202010734108A CN 111626057 B CN111626057 B CN 111626057B
Authority
CN
China
Prior art keywords
text
word
judged
official document
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010734108.9A
Other languages
English (en)
Other versions
CN111626057A (zh
Inventor
李欢丽
张玉林
刘胜平
苗功勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhongfu Information Technology Co Ltd
Original Assignee
Nanjing Zhongfu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhongfu Information Technology Co Ltd filed Critical Nanjing Zhongfu Information Technology Co Ltd
Priority to CN202010734108.9A priority Critical patent/CN111626057B/zh
Publication of CN111626057A publication Critical patent/CN111626057A/zh
Application granted granted Critical
Publication of CN111626057B publication Critical patent/CN111626057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于命名实体的公文判定方法及判定***,该判定方法包括以下步骤:S1、采用预设方法对公文实体权重进行训练,并赋予每个公文实体相应的权重值;S2、获取待判定文本,并采用预设方法对待判定文本进行公文实体提取;S3、将待判定文本转化为关于公文实体的向量,并采用预设方法计算向量的分值;S4、将分值与预先设定的阀值进行对比,当分值超过阀值时,则确定待判定文本为公文;该判定***包括公文实体提取模块、公文实体权重训练模块和公文判定模块。有益效果:不仅解决了以往公文识别过程中特征词穷举不尽的现象,而且也解决了公文内容随着时代变迁词语的变化问题。

Description

一种基于命名实体的公文判定方法及判定***
技术领域
本发明涉及计算机算法技术领域,具体来说,涉及一种基于命名实体的公文判定方法及判定***。
背景技术
随着大数据时代的到来,电子公文和其他文种的文件充斥在互联网上。其中可能存在一些涉密文件,而公文作为党政机关进行日期工作的主要方式,是涉密文件最主要的来源。为确保国家保密工作的安全,从海量的文件中识别出公文刻不容缓。
目前公文判定的方法分为两类,一类是依据相关格式规定,如规定中对格式的要求可以分为版头、主题、版记、页码四个部分,进行公文判定。另一类是分类的思想,首先对公文文件和非公文进行训练,选取特征词向量,对待判定文档打分,分数大于预设阈值即判定为公文。
然而,第一种方法的缺点是若公文写作未按照相关规定书写,或者公文在流传过程中,原有格式丢失时,这种方法就不能有效筛选出公文。第二中方法的缺点是相关条例中规定的公文种类有15种,不同文种公文的特征词向量差异很大;另外,非公文文件数量更多,涉及范围更广,比如政治、经济、文化等。所以,很难获取适应不同行业范围的统一的特征词向量,使得公文判定准确率较低。
发明内容
针对相关技术中的问题,本发明提出一种基于命名实体的公文判定方法及判定***,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
根据本发明的一个方面,提供了一种基于命名实体的公文判定方法,该判定方法包括以下步骤:
S1、采用预设方法对公文实体权重进行训练,并赋予每个所述公文实体相应的权重值;
S2、获取待判定文本,并采用预设方法对所述待判定文本进行公文实体提取;
S3、将所述待判定文本转化为关于所述公文实体的向量,并采用预设方法计算所述向量的分值;
S4、将所述分值与预先设定的阀值进行对比,当所述分值超过所述阀值时,则确定所述待判定文本为公文;
其中,所述向量为t=(t1,t2,t3,t4,t5,t6,t7,t8),且计算所述向量的分值采用分值计算公式进行计算。
进一步的,所述S1采用预设方法对公文实体权重进行训练,并赋予每个所述公文实体相应的权重值包括以下步骤:
S11、获取相同数量的公文及非公文文本,并通过训练得到每篇文本的公文实体;
S12、赋予每个所述公文实体相应的权重值,记为权向量w=(1.0,1.0,0.6,1.0,0.8,1.0,1.0,1.0)。
进一步的,所述S2中采用预设方法对所述待判定文本进行公文实体提取包括以下步骤:
S21、对所述待判定文本进行秘密等级识别;
S22、对所述待判定文本进行公文标题识别;
S23、对所述待判定文本进行签发人识别。
进一步的,所述S21对所述待判定文本进行秘密等级识别具体包括以下步骤:
S211、输入待判定文本内容,并对所述待判定文本进行规范化处理;
S212、采用分词器***对所述待判定文本进行分词处理,并将分词后的所述待判定文本转化为一系列词的集合,记为w1w2...wn
S213、判定所述词wi是否为预先设定的秘密等级中心词,若不是,判断下一个词wi+1,否则进行S214;
S214、判断所述词左右边界是否为换行符\n、回车符\r或制表符\t,满足,则为秘密等级,否则不是。
进一步的,所述S22对所述待判定文本进行公文标题识别具体包括以下步骤:
S221、输入待判定文本内容,并对所述待判定文本进行规范化处理;
S222、采用分词器***对所述待判定文本进行分词处理,并将分词后的所述待判定文本转化为一系列词的集合,记为w’1w’2...w’n
S223、获取开始词和结束词下标,依次判断当前词w’i,i=1,2…n是否属于预设的公文标题类型,不属于,则继续下一个词判定,属于,则依次获取当前词的前一个词w’i-1,并判断w’i-1是否为预先设定的关键词,或者词性是否为政府机构,不满足,则继续判断前第二个词w’i-2,依次类推,最大判别长度是前30个词,即maxFromLen=30;
S224、假设从S223中获取的公文标题结束词下标为a,即w’a为一种公文文种,开始词下标为b,且b-a≤30,记标题的次序列w’a,w’a+1...w’b组成的字符串为s,若字符串s长度>minLen,则s是公文标题,否则,令i=i+1,重复S223和S224。
进一步的,所述S23对所述待判定文本进行签发人识别具体包括以下步骤:
S231、输入待判定文本内容,并对所述待判定文本进行规范化处理;
S232、采用分词器***对所述待判定文本进行分词处理,并将分词后的所述待判定文本转化为一系列词的集合,记为w”1w”2...w”n
S233、判断w”i是否为预先设定的中心词,若不是,则判断下一个词w”i+1,若是,则进行S234;
S234、判断w”i的下一个词w”i+1的词性是否为人名,若不是,则令i=i+1,并重复S233,若是,则进行S235;
S235、判断词左右边界是否为换行符\n、回车符\r或制表符\t,满足,则为签发人,否则,则不是。
进一步的,所述S21对所述待判定文本进行秘密等级识别还包括以下步骤:对所述待判定文本进行紧急程度和成文日期识别,其中,所述紧急程度的识别方法和所述成文日期的识别方法均与所述秘密等级识别的方法相同;
所述S22对所述待判定文本进行公文标题识别还包括以下步骤:对所述待判定文本进行主送机关和发文字号识别,其中,所述主送机关的识别方法和所述发文字号的识别方法均与所述公文标题的识别方法相同;
所述S23对所述待判定文本进行签发人识别还包括以下步骤:对所述待判定文本进行抄送识别,且所述抄送识别的方法与所述签发人的识别方法相同。
进一步的,所述S3中的所述分值计算公式为:
score=t*w,
其中,t表示向量,w表示权向量。
进一步的,所述S4中预先设定的阀值为2.0,当所述分值超过2.0时,则确定所述待判定文本为公文,否则所述待判定文本不为公文。
根据本发明的另一个方面,还提供了一种基于命名实体的公文判定***,包括:
公文实体权重训练模块,用于对相同数量的公文及非公文进行训练,获取每篇文本的公文实体,并赋予每个公文实体不同的权重值;
公文实体提取模块,用于获取待判定文本,并对所述待判定文本进行分词处理及公文实体识别;
公文判定模块,用于将文本转化成关于公文实体的向量,并通过计算该向量的分值来判断该文本是否属于公文,其中,所述向量的分值采用分值计算公式计算。
本发明的有益效果为:通过将每个公文属性看成一个公文实体,提出一种基于公文命名实体的公文判定方法,该方法可以将所有词按照词性化为一类,即形成词到词性的映射,并将词性为公文实体作为文本的特征,而不是用词作为特征,从而有效地解决了以往公文识别过程中特征词穷举不尽的现象,同时采用映射的方式也有效地解决了公文内容随着时代变迁词语的变化问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于命名实体的公文判定方法的流程示意图;
图2是根据本发明实施例的一种基于命名实体的公文判定***的结构示意图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了一种基于命名实体的公文判定方法及判定***。
现结合附图和具体实施方式对本发明进一步说明,如图1所示,根据本发明的一个实施例,提供了一种基于命名实体的公文判定方法,该判定方法包括以下步骤:
S1、采用预设方法对公文实体权重进行训练,并赋予每个所述公文实体相应的权重值;
其中,由于公文实体对判定公文其决定性作用,为了获取每个实体对判定结构的影响,所述S1具体包括以下步骤:
S11、获取相同数量的公文及非公文文本,并通过训练得到每篇文本的公文实体;
具体应用时,公文及非公文的数量均为1000篇,分别获取每篇文本的公文实体,统计结果如下表1所示:
表1公文实体训练结果统计表
Figure GDA0002696011990000051
Figure GDA0002696011990000061
对统计结果分析可知,成文日期和主送机关也可能存在于非公文中,而其他的公文实体,比如秘密等级、紧急程度、公文标题等,在非公文中出现的概率几乎为零,因此,每个公文实体的权重值赋予如下:
S12、赋予每个所述公文实体相应的权重值(见表1第四列),记为权向量w=(1.0,1.0,0.6,1.0,0.8,1.0,1.0,1.0)。
S2、获取待判定文本,并采用预设方法对所述待判定文本进行公文实体提取;
其中,所述S2中采用预设方法对所述待判定文本进行公文实体提取包括以下步骤:
S21、对所述待判定文本进行秘密等级识别;
具体的,所述S21包括以下步骤:
S211、输入待判定文本内容,并对所述待判定文本进行规范化处理;主要是去除文中的空白行;此外,考虑到无论是公文文档还是非公文文档中都可能存在大量的停用词,诸如语气词、助词、标点符号等,这些停用词不能够体现公文文档集或者是非公文文档集的特征,实际应用时,可通过预设的停用词表将公文文档集及非公文文档集中的停用词过滤掉。
S212、采用ansj分词器***对所述待判定文本进行分词处理,可同时实现中文分词和词性标注,并将分词后的所述待判定文本转化为一系列词的集合,记为w1w2...wn
S213、判定所述词wi是否为预先设定的秘密等级中心词(见表2所示),若不是,判断下一个词wi+1,否则进行S214;
S214、判断所述词左右边界是否为换行符\n、回车符\r或制表符\t,满足,则为秘密等级,否则不是。
此外,所述S21对所述待判定文本进行秘密等级识别还包括以下步骤:对所述待判定文本进行紧急程度和成文日期识别,其中,所述紧急程度的识别方法与所述秘密等级识别的方法相同,区别在于,所述紧急程度的识别方法中的中心词为“加急”、“特急”;所述成文日期的识别方法与所述秘密等级的识别方法相似,区别在于,所述成文日期的识别方法中中心词是判断当前词的词性是否为日期(date)。如“南京市人民政府\n2012年12月12日\n”。
为了方便理解本发明的上述技术方案,以下就本发明的公文实体表进行举例说明:
表2公文实体说明表一
公文实体 举例 中心词 左(右)边界词
秘密等级 秘密 秘密|机密|绝密 \n\r\t
紧急程度 加密 加急|特急 /
成文日期 2012年12月12日 date /
本实施例中通过分析公文标题构成特点发现,大多数公文标题由发文机关、事由(主要内容)和文种三要素组成。其中,事由位于发文机关和文种之间,是由“关于”引起的一个介词结构;发文机关可以省略。由此得出,公文标题开始标志多数为关键词“关于”或者词性为政府机构(gov)。以公文15个类型(文种)结尾,称为中心词。并且公文标题长度一般大于10个字符,记为minLen=10,因此,所述公文标题的识别步骤如下:
S22、对所述待判定文本进行公文标题识别;
具体的,所述S22包括以下步骤:
S221、输入待判定文本内容,并对所述待判定文本进行规范化处理;
S222、采用分词器***对所述待判定文本进行分词处理,并将分词后的所述待判定文本转化为一系列词的集合,记为w’1w’2...w’n
S223、获取开始词和结束词下标,依次判断当前词w’i,i=1,2…n是否属于预设的公文标题类型(见表3所示),不属于,则继续下一个词判定,属于,则依次获取当前词的前一个词w’i-1,并判断w’i-1是否为预先设定的关键词“关于”,或者词性是否为政府机构(见表5所示),不满足,则继续判断前第二个词w’i-2,依次类推,最大判别长度是前30个词,即maxFromLen=30;
S224、假设从S223中获取的公文标题结束词下标为a,即w’a为一种公文文种,开始词下标为b,且b-a≤30,记标题的次序列w’a,w’a+1,…w’b组成的字符串为s,若字符串s长度>minLen,则s是公文标题,否则,令i=i+1,重复S223和S224。
此外,所述S22对所述待判定文本进行公文标题识别还包括以下步骤:对所述待判定文本进行主送机关和发文字号识别,其中,所述主送机关的识别方法与所述公文标题的识别方法相似,区别在于,所述主送机关的识别方法中开始标志为关键词“各”,结束词为中文和英文冒号,字符串最短长度minLen为3,向前查找词个数maxFromLen为10,如“各乡镇(街道):”、“各街道办:”;所述发文字号的识别方法与所述公文标题的识别方法类似,区别在于,所述发文字号的识别方法中开始标志为各个省的简称(见表4所示),结束标志为关键字“号”,并且满足格式:省份简称+左括号+发文年+右括号+发文顺序号+“号”,其中左括号一般为“〔[【”,右括号为“〕]】”,比如“粤工信办函〔2019〕21号”、“苏人事处〔2019〕24号”,字符串最短长度minLen为8,向前查找词个数maxFromLen为10;
为了方便理解本发明的上述技术方案,以下就本发明的公文文种、发文字号的开始词及公文实体表进行举例说明:
表3公文文种
Figure GDA0002696011990000081
表4发文字号的开始词
Figure GDA0002696011990000082
Figure GDA0002696011990000091
表5公文实体说明表二
Figure GDA0002696011990000092
《条例》规定,“上行文应当标注签发人姓名”,格式为“签发人:人名”,比如“签发人:李彬”。因此,所述签发人的识别步骤如下:
S23、对所述待判定文本进行签发人识别。
具体的,所述S23对所述待判定文本进行签发人识别具体包括以下步骤:
S231、输入待判定文本内容,并对所述待判定文本进行规范化处理;
S232、采用分词器***对所述待判定文本进行分词处理,并将分词后的所述待判定文本转化为一系列词的集合,记为w”iw”2…w”n
S233、判断w”i是否为预先设定的中心词“签发”,若不是,则判断下一个词w”i+1,若是,则进行S234;
S234、判断w”i的下一个词w”i+1的词性是否为人名,若不是,则令i=i+1,并重复S233,若是,则进行S235;
S235、判断词左右边界是否为换行符\n、回车符\r或制表符\t,满足,则为签发人,否则,则不是。
此外,所述S23对所述待判定文本进行签发人识别还包括以下步骤:对所述待判定文本进行抄送识别,且所述抄送识别的方法与所述签发人的识别方法相似,所述抄送识别方法中的中心词为“抄送”,结束词为“政府机构(gov)”,如“抄送:南京市政府”。
S3、将所述待判定文本转化为关于所述公文实体的向量t=(t1,t2,t3,t4,t5,t6,t7,t8)其中,所述向量的每个分量具有不同的权重值,并采用预设方法计算所述向量的分值;
其中,所述S3中计算所述向量的分值通过以下计算公式得到:
score=t*w,
其中,t表示向量,w表示权向量。
S4、将所述分值与预先设定的阀值进行对比,当所述分值超过所述阀值时,则确定所述待判定文本为公文。
其中,所述S4中预先设定的阀值为2.0,当所述分值超过2.0时,则确定所述待判定文本为公文,否则所述待判定文本不为公文。例如:一篇包含公文标题、成文日期、发文字号的文本,其对应的文本向量t=(0,0,1,1,0,1,0,0),打分score=t*w=2.6,大于阀值2.0,即为公文。
根据本发明的另一个实施例,如图2所示,还提供了一种基于命名实体的公文判定***,其特征在于,包括:
公文实体权重训练模块,用于对相同数量的公文及非公文进行训练,获取每篇文本的公文实体,并赋予每个公文实体不同的权重值;
公文实体提取模块,用于获取待判定文本,并对所述待判定文本进行分词处理及公文实体识别;
公文判定模块,用于将文本转化成关于公文实体的向量,并通过计算该向量的分值来判断该文本是否属于公文,其中,所述向量的分值采用分值计算公式计算。
为了方便理解本发明的上述技术方案,以下就本发明在实际过程中的命名实体识别方法的原理进行详细说明。
命名实体识别方法主要有基于规则的方法、基于统计模型的方法和基于深度学习的方法。由于公文命名实体结构比较规范、命名规则比较统一等有利特点,本实施例中基于规则识别公文命名实体。下面依次介绍各个实体提取方法。
本实施例中主要根据词特征、词性特征、中心特征、左、右边界词特征的基于规则方法,识别公文命名实体。
词特征,文本分词产生的每个词本身就是一种特征,词特征能够完整反映文本的基本信息。词性特征,是用词的词性作为一种特征。
中心词特征:公文命名实体中通常包含一些特定名词或特定的词性,这些特定词或词性统称为命名实体的中心特征。中心词(或词性)的出现很大概率上预示着公文命名实体的出现。比如表3中公文标题中的15种文种和表5中发文机关词性通常为政府部门(gov)。
左、右边界词特征:通过对公文文本进行语法分析,发现公文命名实体的前面和后面有一些词(如\t\n)出现的概率很高,这些词统称为命名实体的左右边界词。因为公文命名实体通常单独成行,所以左右边界词通常为换行符\n、回车符\r、制表符\t。
综上所述,借助于本发明的上述技术方案,通过将每个公文属性看成一个公文实体,提出一种基于公文命名实体的公文判定方法,该方法可以将所有词按照词性化为一类,即形成词到词性的映射,并将词性为公文实体作为文本的特征,而不是用词作为特征,从而有效地解决了以往公文识别过程中特征词穷举不尽的现象,同时采用映射的方式也有效地解决了公文内容随着时代变迁词语的变化问题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于命名实体的公文判定方法,其特征在于,包括以下步骤:
S1、采用预设方法对公文实体权重进行训练,并赋予每个所述公文实体相应的权重值;
S2、获取待判定文本,并采用预设方法对所述待判定文本进行公文实体提取;
S3、将所述待判定文本转化为关于所述公文实体的向量,并采用预设方法计算所述向量的分值;
S4、将所述分值与预先设定的阈 值进行对比,当所述分值超过所述阈 值时,则确定所述待判定文本为公文;
其中,所述S2中采用预设方法对所述待判定文本进行公文实体提取包括以下步骤:
S21、对所述待判定文本进行秘密等级识别;具体包括以下步骤:
S211、输入待判定文本内容,并对所述待判定文本进行规范化处理;
S212、采用分词器***对所述待判定文本进行分词处理,并将分词后的所述待判定文本转化为一系列词的集合,记为w1w2…wn
S213、判定所述词wi是否为预先设定的秘密等级中心词,若不是,判断下一个词wi+1,否则进行S214;
S214、判断所述词左右边界是否为换行符\n、回车符\r或制表符\t,满足,则为秘密等级,否则不是;
S22、对所述待判定文本进行公文标题识别;具体包括以下步骤:
S221、输入待判定文本内容,并对所述待判定文本进行规范化处理;
S222、采用分词器***对所述待判定文本进行分词处理,并将分词后的所述待判定文本转化为一系列词的集合,记为w’1w’2…w’n
S223、获取开始词和结束词下标,依次判断当前词w’i,i=1,2…n是否属于预设的公文标题类型,不属于,则继续下一个词判定,属于,则依次获取当前词的前一个词w’i-1,并判断w’i-1是否为预先设定的关键词,或者词性是否为政府机构,不满足,则继续判断前第二个词w’i-2,依次类推,最大判别长度是前30个词,即maxFromLen=30;
S224、假设从S223中获取的公文标题结束词下标为a,即w’a为一种公文文种,开始词下标为b,且b-a≤30,记标题的次序列w’a,w’a+1,…w’b组成的字符串为s,若字符串s长度>minLen,则s是公文标题,否则,令i=i+1,重复S223和S224;
S23、对所述待判定文本进行签发人识别;具体包括以下步骤:
S231、输入待判定文本内容,并对所述待判定文本进行规范化处理;
S232、采用分词器***对所述待判定文本进行分词处理,并将分词后的所述待判定文本转化为一系列词的集合,记为w”1w”2…w”n
S233、判断w”i是否为预先设定的中心词,若不是,则判断下一个词w”i+1,若是,则进行S234;
S234、判断w”i的下一个词w”i+1的词性是否为人名,若不是,则令i=i+1,并重复S233,若是,则进行S235;
S235、判断词左右边界是否为换行符\n、回车符\r或制表符\t,满足,则为签发人,否则,则不是;
所述向量为t=(t1,t2,t3,t4,t5,t6,t7,t8),且计算所述向量的分值采用分值计算公式进行计算。
2.根据权利要求1所述的一种基于命名实体的公文判定方法,其特征在于,所述S1采用预设方法对公文实体权重进行训练,并赋予每个所述公文实体相应的权重值包括以下步骤:
S11、获取相同数量的公文及非公文文本,并通过训练得到每篇文本的公文实体;
S12、赋予每个所述公文实体相应的权重值,记为权向量w=(1.0,1.0,0.6,1.0,0.8,1.0,1.0,1.0)。
3.根据权利要求1所述的一种基于命名实体的公文判定方法,其特征在于,所述S21对所述待判定文本进行秘密等级识别还包括以下步骤:对所述待判定文本进行紧急程度和成文日期识别,其中,所述紧急程度的识别方法和所述成文日期的识别方法均与所述秘密等级识别的方法相同;
所述S22对所述待判定文本进行公文标题识别还包括以下步骤:对所述待判定文本进行主送机关和发文字号识别,其中,所述主送机关的识别方法和所述发文字号的识别方法均与所述公文标题的识别方法相同;
所述S23对所述待判定文本进行签发人识别还包括以下步骤:对所述待判定文本进行抄送识别,且所述抄送识别的方法与所述签发人的识别方法相同。
4.根据权利要求2所述的一种基于命名实体的公文判定方法,其特征在于,所述S3中的所述分值计算公式为:
score=t*w,
其中,t表示向量,w表示权向量。
5.根据权利要求1所述的一种基于命名实体的公文判定方法,其特征在于,所述S4中预先设定的阈 值为2.0,当所述分值超过2.0时,则确定所述待判定文本为公文,否则所述待判定文本不为公文。
6.一种基于命名实体的公文判定***,以实现权利要求1-5中任一项所述基于命名实体的公文判定方法的步骤,其特征在于,该***包括:
公文实体权重训练模块,用于对相同数量的公文及非公文进行训练,获取每篇文本的公文实体,并赋予每个公文实体不同的权重值;
公文实体提取模块,用于获取待判定文本,并对所述待判定文本进行分词处理及公文实体识别;
公文判定模块,用于将文本转化成关于公文实体的向量,并通过计算该向量的分值来判断该文本是否属于公文,其中,所述向量的分值采用分值计算公式计算。
CN202010734108.9A 2020-07-28 2020-07-28 一种基于命名实体的公文判定方法及判定*** Active CN111626057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010734108.9A CN111626057B (zh) 2020-07-28 2020-07-28 一种基于命名实体的公文判定方法及判定***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010734108.9A CN111626057B (zh) 2020-07-28 2020-07-28 一种基于命名实体的公文判定方法及判定***

Publications (2)

Publication Number Publication Date
CN111626057A CN111626057A (zh) 2020-09-04
CN111626057B true CN111626057B (zh) 2020-10-30

Family

ID=72271501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010734108.9A Active CN111626057B (zh) 2020-07-28 2020-07-28 一种基于命名实体的公文判定方法及判定***

Country Status (1)

Country Link
CN (1) CN111626057B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507968B (zh) * 2020-12-24 2024-03-05 成都网安科技发展有限公司 基于特征关联的公文文本识别方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100130184A1 (en) * 2008-11-25 2010-05-27 Fan Cros Hand-held device for adapting a noticing time based on weather forecast and method thereof
CN106649890A (zh) * 2017-02-07 2017-05-10 税云网络科技服务有限公司 数据存储方法和装置
CN109460555A (zh) * 2018-11-16 2019-03-12 南京中孚信息技术有限公司 公文判定方法、装置及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100130184A1 (en) * 2008-11-25 2010-05-27 Fan Cros Hand-held device for adapting a noticing time based on weather forecast and method thereof
CN106649890A (zh) * 2017-02-07 2017-05-10 税云网络科技服务有限公司 数据存储方法和装置
CN109460555A (zh) * 2018-11-16 2019-03-12 南京中孚信息技术有限公司 公文判定方法、装置及电子设备

Also Published As

Publication number Publication date
CN111626057A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
Sari et al. Topic or style? exploring the most useful features for authorship attribution
AU2020279921B2 (en) Representative document hierarchy generation
US7469251B2 (en) Extraction of information from documents
JP5008024B2 (ja) 風評情報抽出装置及び風評情報抽出方法
US8352857B2 (en) Methods and apparatuses for intra-document reference identification and resolution
US7310773B2 (en) Removal of extraneous text from electronic documents
EP1071023A2 (en) Apparatus and method for generating a summary according to hierarchical structure of topic
CN110795525A (zh) 文本结构化方法、装置、电子设备及计算机可读存储介质
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
CN111930929A (zh) 一种文章标题生成方法、装置及计算设备
US11615244B2 (en) Data extraction and ordering based on document layout analysis
CN112258144B (zh) 基于自动构建目标实体集的政策文件信息匹配和推送方法
CN108197119A (zh) 基于知识图谱的纸质档案数字化方法
Ha et al. Information extraction from scanned invoice images using text analysis and layout features
CN111626057B (zh) 一种基于命名实体的公文判定方法及判定***
CN117669513B (zh) 一种基于人工智能的数据管理***及方法
CN111553155B (zh) 基于语义结构的口令分词***及方法
Wang et al. Chinese-braille translation based on braille corpus
CN112036330A (zh) 一种文本识别方法、文本识别装置及可读存储介质
CN116450812A (zh) 文本抽取方法及装置
CN113836941B (zh) 一种合同导航方法及装置
CN112434531B (zh) 一种有格式法律文书的命名实体和属性识别方法及***
Ljajić et al. Comparison of the influence of different normalization methods on tweet sentiment analysis in the serbian language
CN111651598A (zh) 一种通过中心向量相似度匹配的垃圾文本审核装置和方法
CN115146187B (zh) 接口信息处理方法、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant