CN113254634A - 一种基于相空间的档案分类方法及*** - Google Patents
一种基于相空间的档案分类方法及*** Download PDFInfo
- Publication number
- CN113254634A CN113254634A CN202110153675.XA CN202110153675A CN113254634A CN 113254634 A CN113254634 A CN 113254634A CN 202110153675 A CN202110153675 A CN 202110153675A CN 113254634 A CN113254634 A CN 113254634A
- Authority
- CN
- China
- Prior art keywords
- file
- data
- adopting
- text
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000013145 classification model Methods 0.000 claims abstract description 36
- 238000005516 engineering process Methods 0.000 claims abstract description 31
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000012706 support-vector machine Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000011156 evaluation Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000013075 data extraction Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 238000013144 data compression Methods 0.000 claims description 4
- 238000007726 management method Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 101150107801 Top2a gene Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于相空间的档案分类方法及***,所述档案分类方法包括以下步骤:采用文本分析技术和OCR技术读取档案内容;采用关键词抽取技术自动抽取档案关键词;针对档案文本采用word2vec提取特征,构建文本向量,同时考虑文本全局向量权重和自身关键词权重;采用聚类技术对档案数据进行压缩;采用支撑向量机文本分类技术根据档案内容建立档案分类模型,利用测试数据对模型进行评估,根据模型测试结果对模型进行调优;应用档案分类模型对未知类别档案数据进行类别划分。本发明解决了传统的档案管理技术无法对各类档案文本的非结构化和半结构化数据进行综合分析的技术问题,大大节省了人力。
Description
技术领域
本发明属于档案分类管理技术领域,尤其涉及一种基于相空间的档案分类方法及***。
背景技术
档案工作是社会各项事业不可或缺的组成部分,而信息化对档案工作影响巨大。采用文本分析技术,对档案文档进行智能管理,构筑智慧化、网络化的服务平台,形成完善的“智慧档案”应用体系,快捷方便地向社会各方提供所需的档案信息资源服务。构建档案智慧收集、智慧管理、智慧服务、智慧保护、智慧监督平台,实现基于电子文档一体化和业务数据仓储式管理。
随着生产规模和运营规模的不断扩大,我国各类大型科研机构和智库机构则拥有的是论文、调查报告、历史文献、学术专著等形式的知识。这些知识信息已经呈现出大数据的特征:首先是规模庞大,从TB级别甚至PB级,其次在形式上相当繁杂,例如纯文本,XML文件,Office文档,图像,音视频等。特别是对于比较久远的档案数据,没有电子版,只有纸质版,并且由于时间久远,保存的并不是特别完好,扫描之后通过OCR识别的结果达不到令人满意的程度,这些都直接影响这类档案的处理。
档案种类和内容都如此庞大,对档案进行类别划分就显得尤为重要,给档案划定准确的类别更方便对档案的管理和使用,但是单纯的靠人工分类比较花费时间,并且对档案进行类别划分不同人可能对标准的理解不同,分类结果也会不同,直接影响档案分类的准确性。文本分类技术是通过学习已知类别数据的分类规律,采用机器学习方法,从文本中抽取出能够体现文本特点的关键特征,抓取特征到类别之间的映射,用于对未知类别的数据进行处理。
对档案进行文本分类方法的核心思想是将档案文本数据分词,进行向量化,再采用挖掘方法进行建模,要想保留尽量多的信息,就需要保留较多的词语,这样无疑会导致字段数较多,支撑向量机方法引入结构风险最小化的理念,寻找分类边界上的支撑向量,仅用支撑向量来构建模型,所有这些构建思想决定了支撑向量机即便利用较少的数据样本,也可以得到别的方法更好的预测模型,并且模型具有更好的泛化推广能力。
因此,急需一种基于相空间的档案分类方法及***,采用文本分析技术,从电子档案中读取档案内容,采用分词技术对档案文本进行分词,自动提取关键词,采用word2vec对档案文本进行向量化,将档案文本权重与关键词权重综合考虑,采用聚类技术对档案文本数据进行压缩之后采用支撑向量机分类方法建立档案分类模型,对档案进行类别划分。
发明内容
为了解决上述技术问题,本发明提供一种基于相空间的档案分类方法及***,所述档案分类方法包括以下步骤:
步骤S1:采用文本分析技术和OCR技术读取档案内容;
步骤S2:采用关键词抽取技术自动抽取档案关键词;
步骤S3:针对档案文本采用word2vec提取特征,构建文本向量,同时考虑文本全局向量权重和自身关键词权重;
步骤S4:采用聚类技术对档案数据进行压缩;
步骤S5:采用支撑向量机文本分类技术根据档案内容建立档案分类模型,利用测试数据对模型进行评估,根据模型测试结果对模型进行调优;应用档案分类模型对未知类别档案数据进行类别划分。
优选的,所述步骤S1包括以下步骤:
步骤S11:对于普通的电子文档,采用文本分析技术直接读取档案内容;
步骤S12:对于纸质档案的扫描文件和图片档案,采用OCR技术识别图片档案内容。
优选的,所述步骤S2包括以下步骤:
步骤S21:采用分词技术对档案进行分词;
步骤S22:采用关键词抽取技术自动抽取档案关键词,用于构建文本向量。
优选的,所述步骤S3包括如下步骤:
步骤S31:针对已知类别的档案数据,对文本进行分词,进行0-1向量化;
步骤S32:采用word2vec对词语进行向量化,综合考虑文本全局信息和关键词权重信息。
优选的,所述步骤S4包括以下步骤:
步骤S41:根据相似性构建聚类特征树;
步骤S42:从聚类特征树中提取建模数据。
优选的,所述步骤S5包括以下步骤:
步骤S51:将数据集分为训练集和测试集;
步骤S52:利用训练集,采用基于数据压缩的支撑向量机方法建立档案分类模型;
步骤S53:利用测试集,对分类模型进行测试,根据测试结果对模型进行调优;
步骤S54:应用档案分类模型对未知类别档案数据进行分类。
优选的,所述档案分类***包括档案数据采集模块、档案数据抽取模块、档案数据分类建模模块、档案分类模型评估模块、档案分类模型使用模块;所述档案数据采集模块用于档案数据的采集,从电子文档中读取档案内容;所述档案数据抽取模块用于档案数据的分词以及关键词抽取;所述档案分类模型建模模块用于档案数据的分类,采用word2vec将词语进行向量化,既考虑单个档案文档全部词语的权重,又考虑关键词的权重,采用聚类思想将档案数据进行压缩,采用支撑向量机建立分类模型;所述档案分类模型评估模块,采用测试数据,对档案分类模型进评估,根据评估结果对模型进行调优;所述档案分类模型使用模块,利用建好的模型,对未知类别数据进行类别判别,将类别结果进行存储。
与现有技术相比,本发明的有益效果为:本发明不仅可以读取正常电子文档,还可以采用OCR识别技术读取图片数据,不仅考虑了档案全部词语的加权权重,还重点考虑了关键词的权重,使得信息更加全面,并且通过采用聚类对数据进行压缩,既考虑了数据的广泛性,又保留了主要数据的特征,使得模型的泛化能力更好,因此解决了传统的档案管理技术无法对各类档案文本的非结构化和半结构化数据进行综合分析的技术问题,大大节省了人力。
附图说明
图1为本发明的***结构示意图;
图2为本发明的总体流程图;
图3为本发明的数据压缩环节的数据处理流程图。
具体实施方式
以下结合附图对本发明做进一步描述:
实施例:
一种基于相空间的档案分类方法及***,如附图1所示,所述档案分类***包括档案数据采集模块、档案数据抽取模块、档案数据分类建模模块、档案分类模型评估模块、档案分类模型使用模块;所述档案数据采集模块用于档案数据的采集,从电子文档中读取档案内容;所述档案数据抽取模块用于档案数据的分词以及关键词抽取;所述档案分类模型建模模块用于档案数据的分类,采用word2vec将词语进行向量化,既考虑单个档案文档全部词语的权重,又考虑关键词的权重,采用聚类思想将档案数据进行压缩,采用支撑向量机建立分类模型;所述档案分类模型评估模块,采用测试数据,对档案分类模型进评估,根据评估结果对模型进行调优;所述档案分类模型使用模块,利用建好的模型,对未知类别数据进行类别判别,将类别结果进行存储。
如附图2所示,所述档案分类方法包括如下步骤:
步骤S1:对档案数据进行采集,采用文本分析技术读取档案内容;
步骤S11:对于普通的电子文档,采用文本分析技术直接读取档案内容;
步骤S12:对于纸质档案的扫描文件和图片档案,采用OCR技术识别图片档案内容;
其中OCR识别技术过程包括图像预处理、文字检测和文本识别;图像预处理采用基于CNN的神经网络作为特征提取手段;文字检测采用box标识出图像中所有文字位置;文本识别采用CRNN+CTC算法,首先CNN提取图像卷积特征,然后LSTM进一步提取图像卷积特征中的序列特征,最后引入CTC解决训练时字符无法对齐的问题;
步骤S2:对档案数据进行预处理,包括如下步骤:
步骤S21:对读取的档案文本数据进行分词,去除停用词;
步骤S22:针对档案文本采用关键词提取技术提取档案关键词;
步骤S3:对档案文本进行特征提取,这里采用word2vec方法,构建文本向量,包括以下步骤:
步骤S31:针对已知类别的档案数据,对一个文本的全部词语,进行0-1向量化;
步骤S32:采用word2vec的权重进行加权平均,提取文本的关键词的 word2vec的权重,将两部分权重组合起来,这样既考虑了单个文本全部词语的权重,保留了文本信息的完整性,又突出了关键词的权重信息;
步骤S4:如附图3所示,采用聚类技术对档案数据进行压缩,包括以下步骤:
步骤S41:从聚类特征树根节点开始遍历;
步骤S42:如果当前节点是叶子节点,转步骤S43,否则转步骤S46;
步骤S43:找到当前节点中与该条数据最近的子节点,计算将该条数据与此子节点的数据合并后的簇直径,如果簇直径小于阈值,则转步骤S44,否则转步骤S45;
步骤S44:将该条数据与最近的子节点进行合并;
步骤S45:该条数据作为当前节点的一个新的子节点,此时如果当前节点的子节点数超过一定阈值,当前节点就要拆分为两个节点,可以选择距离最远的两个子节点作为初始节点,将其它子节点根据距离远近分到合适的节点进行合并;
步骤S46:找到当前节点中与该条数据最近的子节点,将此孩子节点作为新的当前节点,转步骤S42。
对于新增的数据,可以在原来的聚类特征树上进行追加,而无需用全部数据重新构建聚类特征树。
从聚类特征树提取建模数据,由于支撑向量机是基于结构风险最小化原则的建模方法,通过寻找支撑向量,形成分类超平面来构建模型;基于此,可以对聚类特征树的叶子节点下的每一簇数据,计算其边界,取最有可能成为支撑向量的边界点作为支撑向量机的建模数据,从而实现数据压缩。
在本实施例中,边界具体计算方法通过下述例子加以说明:
假设某簇数据所含记录为:(-5,-4,-2),(-4,-6,-7),(-3,-2,0), (-2,-1,1),(-1,0,2),(0,1,3),(1,2,4),(2,3,5),(3,4,6),(4,5,7),(5,9,8), (6,7,9),则在每个维度上取Top2极大、极小值点:
第1维度极大点为(6,7,9),(5,9,8),极小点为:(-5,-4,-2),(-4,-6,-1),第2维度极大点为(5,9,8),(6,7,9),极小点为:(-4,-6,-1),(-5,-4,-2),第3维度极大点为(6,7,9),(5,9,8),极小点为:(-4,-6,-7),(-5,-4,-2)
最后选取的极值点取上述不同极值点的并集,共5条记录;
步骤S5:采用支撑向量机方法,构建档案分类模型;利用测试数据对模型进行评估,根据模型测试结果对模型进行调优;应用档案分类模型对未知类别档案数据进行类别划分。
本发明不仅可以读取正常电子文档,还可以采用OCR识别技术读取图片数据,不仅考虑了档案全部词语的加权权重,还重点考虑了关键词的权重,使得信息更加全面,并且通过采用聚类对数据进行压缩,既考虑了数据的广泛性,又保留了主要数据的特征,使得模型的泛化能力更好,因此解决了传统的档案管理技术无法对各类档案文本的非结构化和半结构化数据进行综合分析的技术问题,大大节省了人力。
利用本发明所述的技术方案,或本领域的技术人员在本发明技术方案的启发下,设计出类似的技术方案,而达到上述技术效果的,均是落入本发明的保护范围。
Claims (7)
1.一种基于相空间的档案分类方法及***,其特征在于,所述档案分类方法包括以下步骤:
步骤S1:采用文本分析技术和OCR技术读取档案内容;
步骤S2:采用关键词抽取技术自动抽取档案关键词;
步骤S3:针对档案文本采用word2vec提取特征,构建文本向量,同时考虑文本全局向量权重和自身关键词权重;
步骤S4:采用聚类技术对档案数据进行压缩;
步骤S5:采用支撑向量机文本分类技术根据档案内容建立档案分类模型,利用测试数据对模型进行评估,根据模型测试结果对模型进行调优;应用档案分类模型对未知类别档案数据进行类别划分。
2.如权利要求1所述的一种基于相空间的档案分类方法及***,其特征在于,所述步骤S1包括以下步骤:
步骤S11:对于普通的电子文档,采用文本分析技术直接读取档案内容;
步骤S12:对于纸质档案的扫描文件和图片档案,采用OCR技术识别图片档案内容。
3.如权利要求1所述的一种基于相空间的档案分类方法及***,其特征在于,所述步骤S2包括以下步骤:
步骤S21:采用分词技术对档案进行分词;
步骤S22:采用关键词抽取技术自动抽取档案关键词,用于构建文本向量。
4.如权利要求1所述的一种基于相空间的档案分类方法及***,其特征在于,所述步骤S3包括如下步骤:
步骤S31:针对已知类别的档案数据,对文本进行分词,进行0-1向量化;
步骤S32:采用word2vec对词语进行向量化,综合考虑文本全局信息和关键词权重信息。
5.如权利要求1所述的一种基于相空间的档案分类方法及***,其特征在于,所述步骤S4包括以下步骤:
步骤S41:根据相似性构建聚类特征树;
步骤S42:从聚类特征树中提取建模数据。
6.如权利要求1所述的一种基于相空间的档案分类方法及***,其特征在于,所述步骤S5包括以下步骤:
步骤S51:将数据集分为训练集和测试集;
步骤S52:利用训练集,采用基于数据压缩的支撑向量机方法建立档案分类模型;
步骤S53:利用测试集,对分类模型进行测试,根据测试结果对模型进行调优;
步骤S54:应用档案分类模型对未知类别档案数据进行分类。
7.如权利要求1所述的一种基于相空间的档案分类方法及***,其特征在于,所述档案分类***包括档案数据采集模块、档案数据抽取模块、档案数据分类建模模块、档案分类模型评估模块、档案分类模型使用模块;所述档案数据采集模块用于档案数据的采集,从电子文档中读取档案内容;所述档案数据抽取模块用于档案数据的分词以及关键词抽取;所述档案分类模型建模模块用于档案数据的分类,采用word2vec将词语进行向量化,既考虑单个档案文档全部词语的权重,又考虑关键词的权重,采用聚类思想将档案数据进行压缩,采用支撑向量机建立分类模型;所述档案分类模型评估模块,采用测试数据,对档案分类模型进评估,根据评估结果对模型进行调优;所述档案分类模型使用模块,利用建好的模型,对未知类别数据进行类别判别,将类别结果进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110153675.XA CN113254634A (zh) | 2021-02-04 | 2021-02-04 | 一种基于相空间的档案分类方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110153675.XA CN113254634A (zh) | 2021-02-04 | 2021-02-04 | 一种基于相空间的档案分类方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113254634A true CN113254634A (zh) | 2021-08-13 |
Family
ID=77180874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110153675.XA Pending CN113254634A (zh) | 2021-02-04 | 2021-02-04 | 一种基于相空间的档案分类方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254634A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254659A (zh) * | 2021-02-04 | 2021-08-13 | 天津德尔塔科技有限公司 | 一种基于知识图谱技术的档案研判方法及*** |
CN115794496A (zh) * | 2023-02-07 | 2023-03-14 | 中信天津金融科技服务有限公司 | 一种基于信息抽取的档案存储方法及*** |
CN116663549A (zh) * | 2023-05-18 | 2023-08-29 | 海南科技职业大学 | 一种基于企业档案的数字化管理方法、***及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744835A (zh) * | 2014-01-02 | 2014-04-23 | 上海大学 | 一种基于主题模型的文本关键词提取方法 |
CN105373583A (zh) * | 2015-10-12 | 2016-03-02 | 国家计算机网络与信息安全管理中心 | 基于数据压缩的支撑向量机建模方法 |
CN106095737A (zh) * | 2016-06-07 | 2016-11-09 | 杭州凡闻科技有限公司 | 文档相似度计算方法及相似文档全网检索跟踪方法 |
CN107122352A (zh) * | 2017-05-18 | 2017-09-01 | 成都四方伟业软件股份有限公司 | 一种基于k‑means、word2vec的抽取关键词的方法 |
CN107992633A (zh) * | 2018-01-09 | 2018-05-04 | 国网福建省电力有限公司 | 基于关键词特征的电子文档自动分类方法及*** |
CN108563636A (zh) * | 2018-04-04 | 2018-09-21 | 广州杰赛科技股份有限公司 | 提取文本关键词的方法、装置、设备及存储介质 |
CN108804641A (zh) * | 2018-06-05 | 2018-11-13 | 鼎易创展咨询(北京)有限公司 | 一种文本相似度的计算方法、装置、设备和存储介质 |
WO2019035765A1 (en) * | 2017-08-14 | 2019-02-21 | Dathena Science Pte. Ltd. | METHODS, AUTOMATIC LEARNING ENGINES AND FILE MANAGEMENT PLATFORM SYSTEMS FOR CONTENT AND DATA CONTEXT-SENSITIVE CLASSIFICATION AND FOR SECURITY MALFUNCTION DETECTION |
CN111104794A (zh) * | 2019-12-25 | 2020-05-05 | 同方知网(北京)技术有限公司 | 一种基于主题词的文本相似度匹配方法 |
CN111898384A (zh) * | 2020-05-30 | 2020-11-06 | 中国兵器科学研究院 | 一种文本情感识别方法、装置、存储介质及电子设备 |
-
2021
- 2021-02-04 CN CN202110153675.XA patent/CN113254634A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744835A (zh) * | 2014-01-02 | 2014-04-23 | 上海大学 | 一种基于主题模型的文本关键词提取方法 |
CN105373583A (zh) * | 2015-10-12 | 2016-03-02 | 国家计算机网络与信息安全管理中心 | 基于数据压缩的支撑向量机建模方法 |
CN106095737A (zh) * | 2016-06-07 | 2016-11-09 | 杭州凡闻科技有限公司 | 文档相似度计算方法及相似文档全网检索跟踪方法 |
CN107122352A (zh) * | 2017-05-18 | 2017-09-01 | 成都四方伟业软件股份有限公司 | 一种基于k‑means、word2vec的抽取关键词的方法 |
WO2019035765A1 (en) * | 2017-08-14 | 2019-02-21 | Dathena Science Pte. Ltd. | METHODS, AUTOMATIC LEARNING ENGINES AND FILE MANAGEMENT PLATFORM SYSTEMS FOR CONTENT AND DATA CONTEXT-SENSITIVE CLASSIFICATION AND FOR SECURITY MALFUNCTION DETECTION |
CN107992633A (zh) * | 2018-01-09 | 2018-05-04 | 国网福建省电力有限公司 | 基于关键词特征的电子文档自动分类方法及*** |
CN108563636A (zh) * | 2018-04-04 | 2018-09-21 | 广州杰赛科技股份有限公司 | 提取文本关键词的方法、装置、设备及存储介质 |
CN108804641A (zh) * | 2018-06-05 | 2018-11-13 | 鼎易创展咨询(北京)有限公司 | 一种文本相似度的计算方法、装置、设备和存储介质 |
CN111104794A (zh) * | 2019-12-25 | 2020-05-05 | 同方知网(北京)技术有限公司 | 一种基于主题词的文本相似度匹配方法 |
CN111898384A (zh) * | 2020-05-30 | 2020-11-06 | 中国兵器科学研究院 | 一种文本情感识别方法、装置、存储介质及电子设备 |
Non-Patent Citations (2)
Title |
---|
苏玉龙等: "基于关键词的文本向量化与分类算法研究", 《贵州大学学报(自然科学版)》 * |
陈杰等: "基于Word2vec的文档分类方法", 《计算机***应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254659A (zh) * | 2021-02-04 | 2021-08-13 | 天津德尔塔科技有限公司 | 一种基于知识图谱技术的档案研判方法及*** |
CN115794496A (zh) * | 2023-02-07 | 2023-03-14 | 中信天津金融科技服务有限公司 | 一种基于信息抽取的档案存储方法及*** |
CN116663549A (zh) * | 2023-05-18 | 2023-08-29 | 海南科技职业大学 | 一种基于企业档案的数字化管理方法、***及存储介质 |
CN116663549B (zh) * | 2023-05-18 | 2024-03-19 | 海南科技职业大学 | 一种基于企业档案的数字化管理方法、***及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635171B (zh) | 一种新闻节目智能标签的融合推理***和方法 | |
CN110597735B (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
CN108694225B (zh) | 一种图像搜索方法、特征向量的生成方法、装置及电子设备 | |
CN113254634A (zh) | 一种基于相空间的档案分类方法及*** | |
CN107562742B (zh) | 一种图像数据处理方法及装置 | |
CN106649490B (zh) | 一种基于深度特征的图像检索方法及装置 | |
US8620079B1 (en) | System and method for extracting information from documents | |
CN112347284B (zh) | 一种组合商标图像检索方法 | |
CN107577702B (zh) | 一种社交媒体中交通信息的辨别方法 | |
CN109508458A (zh) | 法律实体的识别方法及装置 | |
Van Phan et al. | A nom historical document recognition system for digital archiving | |
CN113190502A (zh) | 基于深度学习的档案管理方法 | |
CN114780746A (zh) | 基于知识图谱的文档检索方法及其相关设备 | |
CN105678244A (zh) | 一种基于改进编辑距离的近似视频检索方法 | |
CN115238081B (zh) | 一种文物智能识别方法、***及可读存储介质 | |
CN113449111A (zh) | 基于时空语义知识迁移的社会治理热点话题自动识别方法 | |
Rusiñol et al. | Flowchart recognition for non-textual information retrieval in patent search | |
CN116610818A (zh) | 一种输变电工程项目知识库的构建方法及*** | |
CN111860524A (zh) | 一种数字档案智能分类的装置及方法 | |
CN113222109A (zh) | 一种基于多源异构数据聚合技术的物联网边缘算法 | |
CN116186350B (zh) | 基于知识图谱和主题文本的输电线路工程搜索方法和装置 | |
CN112200212A (zh) | 一种基于人工智能的企业物资分类目录构建方法 | |
CN111460817A (zh) | 一种刑事法律文书相关法条的推荐方法和*** | |
CN116452353A (zh) | 一种财务数据管理方法及*** | |
CN115935042A (zh) | 一种基于融合模型的质押资产智能查重方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210813 |
|
RJ01 | Rejection of invention patent application after publication |