CN114117038A - 一种文档分类方法、装置、***及电子设备 - Google Patents
一种文档分类方法、装置、***及电子设备 Download PDFInfo
- Publication number
- CN114117038A CN114117038A CN202111307563.1A CN202111307563A CN114117038A CN 114117038 A CN114117038 A CN 114117038A CN 202111307563 A CN202111307563 A CN 202111307563A CN 114117038 A CN114117038 A CN 114117038A
- Authority
- CN
- China
- Prior art keywords
- classification
- document
- preset
- similarity
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000004364 calculation method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文档分类方法、装置、***及电子设备,其中,文档分类方法包括:对比候选词和预设分类的相似度,获得对比结果;其中,所述候选词从文档中提取;所述预设分类包括预设分类标签;以及当所述对比结果表示所述候选词与所述预设分类中任一个分类的相似度达到预设标准时,确定所述文档属于相似度达到预设标准的所述预设分类。本申请可以解决人工对文档分类效率过低的问题。
Description
技术领域
本申请涉及计算机应用技术领域,具体涉及一种文档分类方法、装置、***及电子设备。
背景技术
随着海量存储技术的发展,个人和企业中的数据量在快速增加。电子化的文档存储和管理也变为一个明显的问题。
如何对文档进行分类,把相似的文档,一个文档的多个版本能够自动归为一类,而不同的文档又能够明显区分,以便方面用户的管理、查找和阅读,变得十分有价值。
目前文档的分类一般还是通过人工手段进行整理和分类,这种方式效率较低。自动分类也大多是基于一些规则的方法进行分类,规则的创建和管理也是一个麻烦的问题。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种文档分类方法、装置、***及电子设备,可以解决人工对文档分类效率过低的问题。
根据本申请的一个方面,提供了一种文档分类方法,包括:对比候选词和预设分类的相似度,获得对比结果;其中,所述候选词从文档中提取;所述预设分类包括预设分类标签;以及当所述对比结果表示所述候选词与所述预设分类中任一个分类的相似度达到预设标准时,确定所述文档属于相似度达到预设标准的所述预设分类。
在一实施例中,所述文档分类方法还包括:获取预设分类标签;其中,所述预设分类标签包括多个层级数,所述层级数是预先设定;对所述候选词按照预设分类标签的层级数进行分层,形成所述候选词的层级标签,每个候选词的层级标签以该层级的候选词为特征;其中,所述对比候选词和预设分类的相似度,获得对比结果包括:对比所述候选词的层级标签和所述预设分类标签对应层级的相似度,获得对比结果。
在一实施例中,在对比所述候选词的层级标签和所述预设分类标签对应层级的相似度,获得对比结果之后,所述文档分类方法还包括:当所述对比结果表示所述候选词的层级标签和所述预设分类标签对应层级的相似度达到预设相似度时,确定所述文档属于所述预设分类标签的对应层级。
在一实施例中,在对比所述候选词的层级标签和所述预设分类标签对应层级的相似度,获得对比结果之后,所述文档分类方法还包括:当所述对比结果表示所述候选词的层级标签和所述预设分类标签对应层级的相似度小于所述预设相似度时,根据所述候选词的层级标签创建新的该层级分类标签,并把新的所述层级分类标签添加到所述预设分类标签的对应层级中。
在一实施例中,从所述文档中提取所述候选词的方法包括:根据所述文档的标题和所述文档的文本内容,提取多个关键词作为所述候选词。
在一实施例中,所述对所述候选词按照预设分类标签的层级数进行分层,形成所述候选词的层级标签包括:通过所述候选词之间的上下位关系或平行关系进行分层,形成所述候选词的层级标签。
在一实施例中,所述对比所述候选词的层级标签和所述预设分类标签对应层级的相似度,获得对比结果包括:对比所述候选词的层级标签中的候选词与所述预设分类标签对应层级中的词汇的相似度,获得对比结果。
根据本申请的另一个方面,提供了一种文档分类装置,包括:对比模块,用于对比候选词和预设分类的相似度,获得对比结果;其中,所述候选词从文档中提取;所述预设分类包括预设分类标签;以及确定模块,用于当所述对比结果表示所述候选词与所述预设分类中任一个分类的相似度达到预设标准时,确定所述文档属于所述相似度达到预设标准的所述预设分类。
根据本申请的另一个方面,提供了一种文档分类***,包括:文档输入器,用于接收输入的文档;文档提取器,用于对所述文档进行标题和文本内容识别;候选词关系提取器,用于提取所述文档的标题和文本内容的关键词,作为候选词,以及对所述候选词进行分层;相似度计算器,用于计算所述候选词与预设分类的相似度;分类记录器,用于记录所述预设分类标签和所述预设分类标签的层级关系;分类输出器,用于输出所述文档的分类信息;以及控制器,用于执行上述任一实施例所述的文档分类方法。
根据本申请的另一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一实施例所述的文档分类方法。
本申请提供的文档分类方法、装置、***及电子设备,可以通过提取关键词作为候选词的方法,对比目前已保存的预设分类中的关键词,进行相似度计算,通过相似度的大小来判断文档的分类,计算方式简单,计算效率高,对文档的分类较为准确,实现文档自动分类,提高文档分类的效率,降低人工分类可能出现问题的概率,以及解决人工对文档分类效率过低的问题。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本申请所适用的***图。
图2是本申请一示例性实施例提供的文档分类方法的流程示意图。
图3是本申请另一示例性实施例提供的文档分类方法的流程示意图。
图4是本申请一示例性实施例提供的文档分类方法的原理示意图。
图5是本申请一示例性实施例提供的文档分类装置的结构示意图。
图6是本申请另一示例性实施例提供的文档分类装置的结构示意图。
图7是本申请一示例性实施例提供的电子设备的结构图。
附图标记说明:31、文档输入器;32、文档提取器;33、候选词关系提取器;34、相似度计算器;35、分类记录器;36、分类输出器。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
示例性***
图1是本申请所适用的***图,如图1所示,本申请可以应用于一种文档分类***3,包括:文档输入器31,用于接收输入的文档;文档提取器32,用于对文档进行标题和文本内容识别;候选词关系提取器33,用于提取文档的标题和文本内容的关键词,作为候选词,以及对候选词进行分层;相似度计算器34,用于计算候选词与预设分类的相似度;分类记录器35,用于记录预设分类标签和预设分类标签的层级关系;分类输出器36,用于输出文档的分类信息;控制器,用于执行本申请提供的任一文档分类方法。
文档输入器31可以接收输入的电子文档,可以是各类格式,如文本、word、pdf等,输入的文件需要是下面的文档提取器32可以进行提取的文档。
文档提取器32,可以对输入的电子文档进行标题和文本内容的识别,对于无法识别的文件,可以只识别和提取文件名或者文件标题。
候选词关系提取器33,对文档的标题和文本内容提取多个关键词,将多个关键词作为候选词,对候选词之间的关系进行提取,根据候选词之间的关系建立多个层级标签。
相似度计算器34,用于计算候选词与预设分类的相似度,可以根据候选词和预设分类中的词汇进行相似度计算,也就是对两种词组进行相似度计算。
分类记录器35,用于记录预设分类的分类标签和标签的层级关系,即目前已经存在的分类信息,包括分类名称、层级关系和分类特征(即分类的关键词)等。
分类输出器36,最终输出输入文档的分类信息,可以将分类信息单独保存到一个数据库中,也可以将分类信息作为文档的属性保存,或者文档按照每层分类标签命名目录名,保存到指定的目录位置。
示例性方法
图2是本申请一示例性实施例提供的文档分类方法的流程示意图,如图2所示,该文档分类方法包括:
步骤110:对比候选词和预设分类的相似度,获得对比结果。
其中,候选词从文档中提取;预设分类包括预设分类标签。
预设分类是目前已经记录的分类标签及标签的层级关系,保存在分类记录器中。其中第一级分类标签可以是预先定义的,也可以不预定义。如果预定义一级标签,也需要指定一级标签的特征,可以是预先指定的一组特征词汇,或者通过一段预设的文本描述,进行关键词提取,然后形成一级分类标签的特征。标签的总层级数是预先定义的。
从每个待分类的文档中提取关键词作为候选词,对比候选词和代表预设分类的特征词汇,获得相似度结果。
步骤120:当对比结果表示候选词与预设分类中任一个分类的相似度达到预设标准时,确定文档属于相似度达到预设标准的预设分类。
候选词一般是一组词汇,预设分类的每个分类也是一组词汇,采用两组词汇相似度的算法,可以获得最大相似度所指定的分类。
本申请提供的文档分类方法,可以通过提取关键词作为候选词的方法,对比预设分类中的关键词,进行相似度计算,通过相似度的大小来判断文档的分类,计算方式简单,计算效率高,对文档的分类较为准确,提高文档自动分类的效率,降低人工分类可能出现问题的概率。
图3是本申请另一示例性实施例提供的文档分类方法的流程示意图,如图3所示,上述文档分类方法还可以包括:
步骤130:获取预设分类标签。
其中,预设分类标签包括多个层级数,层级数是预先设定的。
分类记录器会记录目前所有的分类标签和标签的层级。预设分类标签的层级数M是预先定义的。
步骤140:对候选词按照预设分类标签的层级数进行分层,形成候选词的层级标签,每个候选词的层级标签以该层级的候选词为特征。
针对待分类文档提取候选词,并根据所有候选词建立与预设分类标签数量相同的多个层级关系,通过该层级关系建立文档自身的1-M级层级标签,因此,基于文档的层级标签与现有已有分类标签的相似度,把该文档分类到所属的1-M级分类标签中。
对应的,上述步骤110可以调整为:
步骤111:对比候选词的层级标签和预设分类标签对应层级的相似度,获得对比结果。
对应的,可以基于文档层级标签与现有已有分类标签的相似度,把该文档分类到所属的1-M级分类标签中。对于文档自身的1-M级分类标签,首先判断每一级的候选词与目前预设分类中的同一级分类标签的相似度,如果相似度大于指定阈值,则认为该文档属于该分类标签;如果相似度小于指定阈值,则新增加一个该层次的分类标签。最终完成文档所在的1-M个层次分类。如果第一级分类标签是预先定义的,且不能新增,那么对于第一级分类可以不判断是否大于预设相似度,直接选择最大相似度的一级分类,也可以在一级分类中指定一个叫其它的分类,所有不大于预设相似度的情况,选择为其它分类。
两组词汇相似度计算时,可以基于一些通用的知识库,判断词组中同义词、相似词,提高相似度的计算精度。
在一实施例中,在上述步骤111之后,上述文档分类方法还可以包括:当对比结果表示候选词的层级标签和预设分类标签的相似度达到预设相似度时,确定文档属于预设分类标签的对应层级。
对于文档自身的1-M级分类标签,首先判断每一级的候选词与目前预设分类中的同一级分类标签的相似度,如果相似度达到预设相似度,则认为该文档属于该分类标签。
在一实施例中,在上述步骤111之后,上述文档分类方法还可以包括:当对比结果表示候选词的层级标签和预设分类标签对应层级的相似度小于预设相似度时,根据候选词的层级标签创建新的该层级分类标签,并把新的层级分类标签添加到预设分类标签的对应层级中。
对于文档自身的1-M级分类标签,首先判断每一级的候选词与目前已分类后的同一级分类标签的相似度,如果相似度没有达到预设相似度,则新增加一个该层次的分类标签。最终完成文档所在的1-M个层次分类。
分类记录器会记录目前每一层的所有子分类名称和特征,预设相似度一般可以选定为90%。对文档的某一层级的候选词与分类记录器中的所有子分类都进行相似度匹配,如果最大的相似度大于预设相似度,则该文档属于相似度最大的匹配分类;如果最大的相似度小于预设相似度,则基于该层级候选词新建一个分类标签,保存到分类记录器中,也设定该文档的该层层级标签即为这个新分类标签。每个新分类标签的名称可以是相关候选词的组合或者某种唯一性算法值,如HASH值,该分类标签的特征即为相关候选词。
在一实施例中,从文档中提取候选词的方法可以包括:根据文档的标题和文档的文本内容,提取多个关键词作为候选词。
在基于文档标题和内容提取关键词时,可以把标题作为文档内容的一部分进行关键词提取,也可以把标题和内容作为不同的权重进行关键词提取,放大文档标题在分类中的重要性。
例如,标题中的关键词优先级高于文档内容中的关键词,或者标题文字复制多遍,然后在合并文档内容进行关键词提取,这样可以提高标题的权重。
在一实施例中,上述步骤140可以调整为:通过候选词之间的上下位关系或平行关系进行分层,形成候选词的层级标签。
在对候选词建立层级关系时,可以基于一些通用的知识库,判断同义词、相似词,并形成候选词之间的上下位关系,或者平行关系,提高层级关系的准确性。候选词与预设层级的分类标签的相似度采用单词或者词汇相似度计算的方式进行判断。一组候选词之间的层次关系,采用自然语言中的关系抽取算法,通过建立关系之间的上下位关系和平行关系,形成2-M个层级关系,需要保证每层至少有一个候选词。然后对每个层级的候选词与目前预设的层级候选词进行相似度匹配。
在一实施例中,上述步骤111可以调整为:对比候选词的层级标签中的候选词与预设分类标签对应层级中的词汇的相似度,获得对比结果。
文档层级标签和分类标签的相似度计算可以通过对比两组词汇,候选词一般是一组词汇,预设分类也是一组词汇,采用两组词汇相似度的算法,可以获得最大相似度所指定的预设分类。
图4是本申请一示例性实施例提供的文档分类方法的原理示意图,如图4所示,预定义文档的一级分类目录(步骤48),以及一级分类的特征,也就是一级分类的标签是预设的。一级分类的特征,可以预先指定一组词汇为关键词,也可以通过一段文本描述,进行提取关键词。将一级分类的名称和特征其存入分类记录器中(步骤49)。预先给定标签层级数M,即在一级下面还有M-1个标签层级,但是一级分类下面的标签和标签层级都是根据本发明算法来自动生成的。
文档输入到文档输入器中(步骤41),对每个待分类的文档,提取文档标题和文档的文本内容(步骤42),采用关键词提取算法(步骤43),进一步在标题和文本内容中提取N个关键词作为候选词(步骤44)。一般M为3-6级比较常用,N通常选择为M的整数倍,这样每级的关键词个数可能接近,处理较简单。
提取标题和内容中关键词的方法不限,可以采用各种常见的关键词提取算法。可以把文档标题作为文档内容的一部分进行关键词提取,也可以把标题和内容作为不同的权重进行关键词提取,放大文档标题在分类中的重要性。比如标题中的关键词优先级高于文档内容中的关键词,或者标题文字复制多遍,然后在合并文档内容进行关键词提取,这样标题的权重会大一些。
进一步针对该文档的所有候选词也建立如上指定的M个层级关系(步骤46),通过该层级关系建立文档自身候选词的M级层级标签,这样该文档某个层级标签的特征是该文档候选词中的某些词。一组候选词之间的层次关系,采用自然语言中的关系提取算法(步骤45),通过建立关系之间的上下位关系和平行关系,形成1-M个层级关系,也就是形成1-M个层级标签,需要保证每层至少有一个候选词。
遍历每个层级标签内的候选词(步骤47),对每个层级的候选词与分类记录器中存储的目前预设的对应层级分类标签的关键词进行相似度匹配(步骤50)。两组词汇相似度计算时,可以基于一些通用的知识库,判断词组中同义词、相似词,提高相似度的计算精度。
判断每个层级的候选词与分类记录器中存储的目前预设的对应层级分类标签的关键词的最大相似度(步骤51),如果上述每层候选词与目前预设分类中对应层级的某个标签中的关键词相似度匹配最大的值大于预设相似度,则认为该文档属于该分类标签,选定分类记录器中的该层分类标签作为文档的层级标签(步骤56)。如果相似度小于指定阈值,且不是第一级,则用该层候选词为特征或者名称,新增加一个该层级的分类;如果相似度小于指定阈值,且目前是第一级,则选择最大相似度的一级分类,或者一级分类中有叫其它的分类,选择这个其它分类。
分类记录器会记录目前每一层的所有子分类名称和特征,预设相似度一般可以选定为90%。对文档的某一层级的候选词与分类记录器中对应层级的所有子分类都进行相似度匹配,如果最大的相似度大于预设相似度,则该文档属于相似度最大的匹配分类;如果最大的相似度小于预设相似度,先判断是否为一级分类(步骤52),对于非一级分类则基于该层级候选词新建一个分类标签(步骤53),保存新分类标签到分类记录器中对应的层级中(步骤54),也设定该文档的该层层级标签即为这个新分类标签,对于每个新分类的名称可以是相关候选词的组合或者某种唯一性算法值,如HASH值,该分类的特征即为相关候选词。
对于一级分类的判定,因为一级分类不能新增,所以可以不判断是否大于预设相似度,直接选择最大相似度的一级分类,也可以在一级分类中指定一个叫其它的分类,所有不大于预设相似度的情况,选择为其它分类(步骤55)。
检查遍历是否完成(步骤57),如果遍历没有完成,则执行步骤47,如果遍历已经完成,则输出文档分类结果(步骤58),完成所有层级的匹配和分类,最终完成文档所在的1-M个层级分类。
每个文档的候选词1-M的层级标签可以作为每个文档的文档名称,单独保存到一个数据库中,也可以作为文档的属性保存,或者文档按照每层分类名为目录名,保存到指定的目录位置。
示例性装置
图5是本申请一示例性实施例提供的文档分类装置的结构示意图,如图5所示,该文档分类装置8包括:对比模块81,用于对比候选词和预设分类的相似度,获得对比结果;其中,候选词从文档中提取;预设分类包括预设分类标签;以及确定模块82,用于当对比结果表示候选词与预设分类中任一个分类的相似度达到预设标准时,确定文档属于相似度达到预设标准的预设分类。
本申请提供的文档分类装置,可以通过对比模块81,对比候选词和预先设定好的预设分类中的关键词,并进行相似度计算,通过确定模块82,根据相似度的大小来判断文档的分类,计算方式简单,计算效率高,对文档的分类较为准确,提高文档自动分类的效率,降低人工分类可能出现问题的概率。
图6是本申请另一示例性实施例提供的文档分类装置的结构示意图。如图6所示,上述文档分类装置8还可以包括:获取模块83,用于获取预设分类标签;形成模块84,用于对候选词按照预设分类标签的层级数进行分层,形成候选词的层级标签,每个候选词的层级标签以该层级的候选词为特征;对应的,上述对比模块81可以进一步配置为:对比单元811,用于对比候选词的层级标签和预设分类标签对应层级的相似度,获得对比结果。
在一实施例中,如图6所示,上述文档分类装置8还可以配置为:当对比结果表示候选词的层级标签和预设分类标签的相似度达到预设相似度时,确定文档属于预设分类标签的对应层级。
在一实施例中,如图6所示,上述文档分类装置8还可以配置为:当对比结果表示候选词的层级标签和预设分类标签对应层级的相似度小于预设相似度时,根据候选词的层级标签创建新的该层级分类标签,并把新的层级分类标签添加到预设分类标签的对应层级中。
在一实施例中,如图6所示,上述文档分类装置8还可以配置为:根据文档的标题和文档的文本内容,提取多个关键词作为候选词。
在一实施例中,如图6所示,上述形成模块84还可以配置为:通过候选词之间的上下位关系或平行关系进行分层,形成候选词的层级标签。
在一实施例中,如图6所示,上述对比单元811还可以进一步配置为:对比候选词的层级标签中的候选词与预设分类标签对应层级中的词汇的相似度,获得对比结果。
示例性电子设备
下面,参考图7来描述根据本申请实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图7图示了根据本申请实施例的电子设备的框图。
如图7所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的文档分类方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。
在该电子设备是单机设备时,该输入装置13可以是通信网络连接器,用于从第一设备和第二设备接收所采集的输入信号。
此外,该输入装置13还可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图7中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种文档分类方法,其特征在于,包括:
对比候选词和预设分类的相似度,获得对比结果;其中,所述候选词从文档中提取;所述预设分类包括预设分类标签;以及
当所述对比结果表示所述候选词与所述预设分类中任一个分类的相似度达到预设标准时,确定所述文档属于相似度达到预设标准的所述预设分类。
2.根据权利要求1所述的文档分类方法,其特征在于,还包括:
获取预设分类标签;其中,所述预设分类标签包括多个层级数,所述层级数是预先设定;
对所述候选词按照预设分类标签的层级数进行分层,形成所述候选词的层级标签,每个候选词的层级标签以该层级的候选词为特征;
其中,所述对比候选词和预设分类的相似度,获得对比结果包括:
对比所述候选词的层级标签和所述预设分类标签对应层级的相似度,获得对比结果。
3.根据权利要求2所述的文档分类方法,其特征在于,在对比所述候选词的层级标签和所述预设分类标签对应层级的相似度,获得对比结果之后,还包括:
当所述对比结果表示所述候选词的层级标签和所述预设分类标签对应层级的相似度达到预设相似度时,确定所述文档属于所述预设分类标签的对应层级。
4.根据权利要求2所述的文档分类方法,其特征在于,在对比所述候选词的层级标签和所述预设分类标签对应层级的相似度,获得对比结果之后,还包括:
当所述对比结果表示所述候选词的层级标签和所述预设分类标签对应层级的相似度小于所述预设相似度时,根据所述候选词的层级标签创建新的该层级分类标签,并把新的所述层级分类标签添加到所述预设分类标签的对应层级中。
5.根据权利要求1所述的文档分类方法,其特征在于,从所述文档中提取所述候选词的方法包括:
根据所述文档的标题和所述文档的文本内容,提取多个关键词作为所述候选词。
6.根据权利要求2所述的文档分类方法,其特征在于,所述对所述候选词按照预设分类标签的层级数进行分层,形成所述候选词的层级标签包括:
通过所述候选词之间的上下位关系或平行关系进行分层,形成所述候选词的层级标签。
7.根据权利要求2所述的文档分类方法,其特征在于,所述对比所述候选词的层级标签和所述预设分类标签对应层级的相似度,获得对比结果包括:
对比所述候选词的层级标签中的候选词与所述预设分类标签对应层级中的词汇的相似度,获得对比结果。
8.一种文档分类装置,其特征在于,包括:
对比模块,用于对比候选词和预设分类的相似度,获得对比结果;其中,所述候选词从文档中提取;所述预设分类包括预设分类标签;以及
确定模块,用于当所述对比结果表示所述候选词与所述预设分类中任一个分类的相似度达到预设标准时,确定所述文档属于所述相似度达到预设标准的所述预设分类。
9.一种文档分类***,其特征在于,包括:
文档输入器,用于接收输入的文档;
文档提取器,用于对所述文档进行标题和文本内容识别;
候选词关系提取器,用于提取所述文档的标题和文本内容的关键词,作为候选词,以及对所述候选词进行分层;
相似度计算器,用于计算所述候选词与预设分类的相似度;
分类记录器,用于记录所述预设分类标签和所述预设分类标签的层级关系;
分类输出器,用于输出所述文档的分类信息;以及
控制器,用于执行上述权利要求1-7中任一所述的文档分类方法。
10.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-7任一所述的文档分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111307563.1A CN114117038A (zh) | 2021-11-05 | 2021-11-05 | 一种文档分类方法、装置、***及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111307563.1A CN114117038A (zh) | 2021-11-05 | 2021-11-05 | 一种文档分类方法、装置、***及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114117038A true CN114117038A (zh) | 2022-03-01 |
Family
ID=80380898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111307563.1A Withdrawn CN114117038A (zh) | 2021-11-05 | 2021-11-05 | 一种文档分类方法、装置、***及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114117038A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115048525A (zh) * | 2022-08-15 | 2022-09-13 | 有米科技股份有限公司 | 基于多元组的文本分类、文本分类模型训练的方法及装置 |
CN115688771A (zh) * | 2023-01-05 | 2023-02-03 | 京华信息科技股份有限公司 | 一种文书内容比对性能提升方法及*** |
-
2021
- 2021-11-05 CN CN202111307563.1A patent/CN114117038A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115048525A (zh) * | 2022-08-15 | 2022-09-13 | 有米科技股份有限公司 | 基于多元组的文本分类、文本分类模型训练的方法及装置 |
CN115688771A (zh) * | 2023-01-05 | 2023-02-03 | 京华信息科技股份有限公司 | 一种文书内容比对性能提升方法及*** |
CN115688771B (zh) * | 2023-01-05 | 2023-03-21 | 京华信息科技股份有限公司 | 一种文书内容比对性能提升方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947909B (zh) | 智能客服应答方法、设备、存储介质及装置 | |
CN111680490B (zh) | 一种跨模态的文档处理方法、装置及电子设备 | |
US20120136812A1 (en) | Method and system for machine-learning based optimization and customization of document similarities calculation | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN114117038A (zh) | 一种文档分类方法、装置、***及电子设备 | |
US20050138079A1 (en) | Processing, browsing and classifying an electronic document | |
KR20160149050A (ko) | 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법 | |
CN114491034B (zh) | 一种文本分类方法及智能设备 | |
CN114297140A (zh) | 一种基于人工智能的档案管理*** | |
CN115062148A (zh) | 一种基于数据库的风险控制方法 | |
CN111369294A (zh) | 软件造价估算方法及装置 | |
CN116701641B (zh) | 一种非结构化数据的分级分类方法及装置 | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN112699671B (zh) | 一种语言标注方法、装置、计算机设备和存储介质 | |
TWI793432B (zh) | 工程專案文件管理方法與系統 | |
US20230325601A1 (en) | System and method for intelligent generation of privilege logs | |
JP4703487B2 (ja) | 画像分類方法及び装置及びプログラム | |
CN116933130A (zh) | 一种基于大数据的企业行业分类方法、***、设备及介质 | |
EP4270239A1 (en) | Supervised machine learning method for matching unsupervised data | |
WO2019246252A1 (en) | Systems and methods for identifying and linking events in structured proceedings | |
CN115309995A (zh) | 一种基于需求文本的科技资源推送方法和装置 | |
JP5810937B2 (ja) | 管理プログラムおよび装置 | |
US11797592B2 (en) | Document classification method, document classifier, and recording medium | |
CN113793191B (zh) | 商品的匹配方法、装置及电子设备 | |
JP2004206468A (ja) | 文書管理システム及び文書管理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220301 |