CN113254653B - 一种文本分类方法、***、设备及介质 - Google Patents

一种文本分类方法、***、设备及介质 Download PDF

Info

Publication number
CN113254653B
CN113254653B CN202110754670.2A CN202110754670A CN113254653B CN 113254653 B CN113254653 B CN 113254653B CN 202110754670 A CN202110754670 A CN 202110754670A CN 113254653 B CN113254653 B CN 113254653B
Authority
CN
China
Prior art keywords
text
feature vector
character
category
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110754670.2A
Other languages
English (en)
Other versions
CN113254653A (zh
Inventor
姚娟娟
钟南山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mingping Medical Data Technology Co ltd
Original Assignee
Mingpinyun Beijing Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mingpinyun Beijing Data Technology Co Ltd filed Critical Mingpinyun Beijing Data Technology Co Ltd
Priority to CN202110754670.2A priority Critical patent/CN113254653B/zh
Publication of CN113254653A publication Critical patent/CN113254653A/zh
Application granted granted Critical
Publication of CN113254653B publication Critical patent/CN113254653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文本分类方法、***、设备及介质,可以将准备存储至服务器或存储器中的文本数据作为待分类文本,然后再将待分类文本输入至预先生成的文本分类模型中,得到待分类文本的特征向量;同时,获取初始文本类别的中心点特征向量,并计算两个特征向量的相似度,然后判断计算出的相似度是否大于或等于第一阈值;若大于或等于第一阈值,则将待分类文本分类至初始文本类别中;若小于第一阈值,则新建一个文本类别,并将待分类文本分类至新建的文本类别。本发明改变了现有技术中的文本数据查找方式,能够减少从服务器或存储器中寻找对应文本数据的时间,提高文本数据的查找效率。

Description

一种文本分类方法、***、设备及介质
技术领域
本发明涉及数据识别技术领域,特别是涉及一种文本分类方法、***、设备及介质。
背景技术
目前,随着通信技术的发展,越来越多的单位或个人改变了某些文本数据的记录方式,选择将某些文本数据由线下记录改为线上记录,然后将在线上形成的文本数据存储至指定的服务器或存储器中。初始状态下,这些单位或个人在线上产生的文本数据量较少,所以,有需求的人员从服务器或存储器中寻找对应的文本数据时,所需要的时间较短。但是,随着时间的增长,这些单位或个人在线上形成的文本数据会逐渐增多,导致后期有需求的人员再从指定的服务器或存储器中寻找对应的文本数据时,不仅会花费大量的时间来寻找,而且寻找出的文本数据也可能与想要的不一致;并且,对于某些重要的文本数据,若将过半的时间都花费在寻找文本数据上,则可能会因为寻找时间过长,导致找到文本数据后,错过了对应的使用时间。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种文本分类方法、***、设备及介质,用于解决现有技术中寻找文本数据时花费时间长的问题。
为实现上述目的及其他相关目的,本发明提供一种文本分类方法,包括以下步骤:
获取待分类文本;
将所述待分类文本输入至预先生成的文本分类模型中,获取所述待分类文本的特征向量,记为第一特征向量;
获取初始文本类别的中心点特征向量,记为第二特征向量;
计算所述第一特征向量与所述第二特征向量的相似度,并判断所述相似度是否大于或等于第一阈值;
若大于或等于第一阈值,则将所述待分类文本分类至所述初始文本类别中形成第一文本类别,并根据所述第一特征向量和所述第二特征向量更新所述第一文本类别的中心点特征向量;
若小于第一阈值,则新建一个第二文本类别,并将所述待分类文本分类至新建的第二文本类别中,以及将所述第一特征向量作为所述第二文本类别的中心点特征向量。
可选地,生成所述文本分类模型的过程包括:
按照预设的文本提取规则从文本数据集中提取多个字符;
对提取出的多个字符进行合并或拆分,生成训练语料;
从所述训练语料中获取关键词,并根据所述关键词对所述训练语料进行类别标注;
利用类别标注后的训练语料对一个或多个深度神经网络进行训练,生成所述文本分类模型。
可选地,生成训练语料的过程包括:
获取训练文本数据,并对所述训练文本数据进行版式分析、文本检测和文本识别,生成文本数据集;
从目标字典中获取标准字符集合,并计算所述文本数据集中每个字符与所述标准字符集合中每个字符的编辑距离;
获取与所述文本数据集中每个字符编辑距离最近的标准字符,记为待提取字符;
获取所述文本数据集中每个字符在所述训练文本数据中的位置,并将所获取的位置与对应的待提取字符进行关联,形成文本提取规则;
利用所述文本提取规则从所述文本数据集中提取多个字符;
对提取出的多个字符进行合并或拆分,生成所述训练语料。
可选地,生成初始文本类别的过程包括:
对所述文本数据集进行词条切分,获取多个词条;
对每个词条中的字符进行框标注,获取对应的字符框;
对所有字符框进行颜色和编号标记,并将同一字符所对应的字符框标记相同颜色和相同编号;
获取每个字符在对应词条中的位置序号,并根据所述位置序号判断所述多个词条中是否存在字符框颜色和编号均相同的词条;若存在,则从相同的词条中选择其中一个词条进行保留,并删除其余的相同词条;若不存在,则保留对应的所有词条;
计算保留后的每个词条与所述关键词的编辑距离,并获取与所述关键词的编辑距离最近的前K个词条;
建立与所述前K个词条对应数量的文本类别,作为所述初始文本类别。
可选地,对每个词条中的字符进行框标注时,还包括:
判断同一词条中相邻两个字符所对应的字符框是否存在重叠;
若存在重叠,则获取其中一个字符框的锚点或关键点,并根据所述锚点或关键点来拖动对应的字符框,直至相邻两个字符所对应的字符框无重叠;
和/或,判断字符框的边界线是否与词条中的字符存在重叠;
若存在重叠,则获取对应字符框的锚点或关键点,根据所述锚点或关键点来拖动对应的字符框,直至字符框与对应的字符无重叠。
可选地,获取所述训练文本数据的过程包括:
利用文本识别模型对一个或多个样本图像进行文本识别,获取初始识别文本数据;
改变所述初始识别文本数据中的字体清晰度、字体间距、字体背景和字体类型,生成增强文本数据;
将所述初始识别文本数据和增强文本数据输入至生成对抗网络中,生成所述训练文本数据。
可选地,利用类别标注后的训练语料对一个或多个深度神经网络进行训练时,还包括:
获取每个深度神经网络的平滑损失和交叉熵损失;
对所述平滑损失和所述交叉熵损失进行加权计算,获取对应深度神经网络的总损失;
若所述总损失小于或等于第二阈值,则停止对深度神经网络的训练,生成文本分类模型;
若所述总损失大于第二阈值,则继续对深度神经网络进行迭代训练,直至生成文本分类模型。
本发明还提供一种文本分类***,包括有:
文本采集模块,用于获取待分类文本;
特征向量模块,用于将所述待分类文本输入至预先生成的文本分类模型中,获取所述待分类文本的特征向量,记为第一特征向量;以及用于获取初始文本类别的中心点特征向量,并记为第二特征向量;
相似度模块,用于计算所述第一特征向量与所述第二特征向量的相似度,并判断所述相似度是否大于或等于第一阈值;
第一分类模块,用于在所述第一特征向量与所述第二特征向量的相似度大于或等于第一阈值时,将所述待分类文本分类至所述初始文本类别中形成第一文本类别,并根据所述第一特征向量和所述第二特征向量更新所述第一文本类别的中心点特征向量;
第二分类模块,用于在所述第一特征向量与所述第二特征向量的相似度小于第一阈值时,新建一个第二文本类别,并将所述待分类文本分类至新建的第二文本类别中,以及将所述第一特征向量作为所述第二文本类别的中心点特征向量。
本发明还提供一种文本分类设备,包括:
处理器;和
存储有指令的计算机可读介质,当所述处理器执行所述指令时,使得所述设备执行如上述中任意一项所述的方法。
本发明还提供一种计算机可读介质,其上存储有指令,所述指令由处理器加载并执行如上述中任意一项所述的方法。
如上所述,本发明提供一种文本分类方法、***、设备及介质,具有以下有益效果:本发明可以将准备存储至服务器或存储器中的文本数据作为待分类文本,然后再将待分类文本输入至预先生成的文本分类模型中,得到待分类文本的特征向量;同时,获取初始文本类别的中心点特征向量,并计算两个特征向量的相似度,然后判断计算出的相似度是否大于或等于第一阈值;若大于或等于第一阈值,则将待分类文本分类至初始文本类别中;若小于第一阈值,则新建一个文本类别,并将待分类文本分类至新建的文本类别。由此可知,本发明可以先对待存储的文本数据进行分类,然后再对其进行存储,相当于本发明是对待存储的文本数据进行分类存储,从而使得有需求的人员在寻找文本数据时,可以先确定对应文本数据的检索索引,然后根据确定出的检索索引来寻找对应的文本类别以及该类别所包含的文本数据后,再从该类别所包含的文本数据中寻找想要的文本数据即可。相当于本发明改变了现有技术中的文本数据查找方式,即将从整个服务器或存储器中寻找文本数据的方式改变为从单个类别中查找文本数据,由于单个类别所包含的文本数据量是远远小于整个服务器或存储器所拥有的文本数据量,所以本发明减少了从服务器或存储器中寻找对应文本数据的时间,提高了文本数据的查找效率。
附图说明
图1为一实施例提供的文本分类方法的流程示意图。
图2为一实施例提供的相邻两个字符框存在重叠时的调整示意图。
图3为一实施例提供的字符框与字符存在重叠时的调整示意图。
图4为一实施例提供的文本分类***的硬件结构示意图。
图5为一实施例提供的文本分类设备的硬件结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种文本分类方法,包括以下步骤:
S100,获取待分类文本;
S200,将待分类文本输入至预先生成的文本分类模型中,获取待分类文本的特征向量,记为第一特征向量;
S300,获取初始文本类别的中心点特征向量,记为第二特征向量;
S400,计算第一特征向量与第二特征向量的相似度,并判断相似度是否大于或等于第一阈值;
S400-1,若大于或等于第一阈值,则将待分类文本分类至初始文本类别中形成第一文本类别,并根据第一特征向量和第二特征向量更新第一文本类别的中心点特征向量;
S400-2,若小于第一阈值,则新建一个第二文本类别,并将待分类文本分类至新建的第二文本类别中,以及将第一特征向量作为第二文本类别的中心点特征向量。
作为示例,本实施例可以将准备存储至服务器或存储器中的文本数据作为待分类文本,然后再将待分类文本输入至预先生成的文本分类模型中,得到待分类文本的特征向量;同时,获取初始文本类别的中心点特征向量,并计算两个特征向量的相似度,然后判断计算出的相似度是否大于或等于第一阈值;若大于或等于第一阈值,则将待分类文本分类至初始文本类别中;若小于第一阈值,则新建一个文本类别,并将待分类文本分类至新建的文本类别。其中,本实施例可以计算第一特征向量与第二特征向量的欧式距离,然后将计算出的欧式距离作为第一特征向量与第二特征向量的相似度值。
在本实施例中,待存储的文本数据可以是医生介绍资料、电子病历、药品说明书和医疗设备说明书等文本类资料。在一示例中,以药品A的说明书为例进行说明,首先,将待存储的药品A的说明书作为待分类文本,然后将其输入至预先生成的文本分类模型中,得到对应的特征向量,记为第一特征向量;再获取初始文本类别的中心特征向量,记为第二特征向量;计算第一特征向量与第二特征向量的相似度,并判断计算出的相似度是否大于或等于95%,若计算出的相似度大于或等于95%,则说明初始文本类别中存在与药品A的说明书相对应的文本类别,此时将药品A的说明书分类至初始文本类别中,形成第一文本类别,再将第一特征向量与第二特征向量进行融合,生成新的特征向量;以及将生成的新特征向量作为第一文本类别的中心点特征向量。其中,特征向量的融合包括但不限于:特征向量的相加、特征向量的相减和特征向量的求和。若计算出的相似度小于95%,则说明初始文本类别中不存在与药品A的说明书相对应的文本类别,则此时新建一个文本类别,记为第二文本类别,然后将药品A的说明书分类至第二文本类别中,再将对应的第一特征向量作为第二文本类别的中心点特征向量。具体地,若药品A的说明书中仅记载了药品A的保质期截止时间,则在相似度大于或等于95%时,初始文本类别中必然包含有与该截止时间相同的文本类别;反之,在相似度小于95%时,初始文本类别必然不包含与该截止时间相同的文本类别。此外,若药品B的说明书中也仅记载了药品B的保质期截止时间,则在对药品B的说明书进行分类时,可以将第一文本类别作为新的初始文本类别来对药品B的说明书进行分类,或者将最初的初始文本类别与第二文本类别进行合并后作为新的初始文本类别来对药品B的说明书进行分类。
在另一示例中,以医疗设备C的说明书为例进行说明,首先,将待存储的医疗设备C的说明书作为待分类文本,然后将其输入至预先生成的文本分类模型中,得到对应的特征向量,记为第一特征向量;再获取初始文本类别的中心特征向量,记为第二特征向量;计算第一特征向量与第二特征向量的相似度,并判断计算出的相似度是否大于或等于98%,若计算出的相似度大于或等于98%,则说明初始文本类别中存在与医疗设备C的说明书相对应的文本类别,此时将医疗设备C的说明书分类至初始文本类别中,形成第一文本类别,再将第一特征向量与第二特征向量进行融合,生成新的特征向量;以及将生成的新特征向量作为第一文本类别的中心点特征向量。其中,特征向量的融合包括但不限于:特征向量的相加、特征向量的相减和特征向量的求和。若计算出的相似度小于98%,则说明初始文本类别中不存在与医疗设备C的说明书相对应的文本类别,则此时新建一个文本类别,记为第二文本类别,然后将医疗设备C的说明书分类至第二文本类别中,再将对应的第一特征向量作为第二文本类别的中心点特征向量。具体地,若医疗设备C的说明书中仅记载了医疗设备C的用途文本,例如仅记载了:医疗设备C用于扫描人体组织结构,生成CT图像;则在相似度大于或等于98%时,初始文本类别中必然包含有与医疗设备C用途资料关联的文本类别;反之,在相似度小于98%时,初始文本类别必然不包含与医疗设备C用途资料关联的文本类别。
由此可知,本实施例可以先对待存储的文本数据进行分类,然后再对其进行存储,相当于本实施例是对待存储的文本数据进行分类存储,从而使得有需求的人员在寻找文本数据时,可以先确定对应文本数据的检索索引,然后根据确定出的检索索引来寻找对应的文本类别以及该类别所包含的文本数据后,再从该类别所包含的文本数据中寻找想要的文本数据即可。相当于本实施例改变了现有技术中的文本数据查找方式,即将从整个服务器或存储器中寻找文本数据的方式改变为从单个类别中查找文本数据,由于单个类别所包含的文本数据量是远远小于整个服务器或存储器所拥有的文本数据量,所以本实施例减少了从服务器或存储器中寻找对应文本数据的时间,提高了文本数据的查找效率。
根据上述记载,在一示例性实施例中,生成文本分类模型的过程包括:按照预设的文本提取规则从文本数据集中提取多个字符;对提取出的多个字符进行合并或拆分,生成训练语料;从训练语料中获取关键词,并根据关键词对训练语料进行类别标注;利用类别标注后的训练语料对一个或多个深度神经网络进行训练,生成文本分类模型。作为示例,本实施例生成的文本分类模型可以是FCN全卷积神经网络分割模型(Fully ConvolutionalNeural Networks for Semantic Segmentation)。其中,训练语料的生成过程包括:获取训练文本数据,并对训练文本数据进行版式分析、文本检测和文本识别,生成文本数据集;从目标字典中获取标准字符集合,并计算文本数据集中每个字符与标准字符集合中每个字符的编辑距离;获取与文本数据集中每个字符编辑距离最近的标准字符,记为待提取字符;获取文本数据集中每个字符在训练文本数据中的位置,并将所获取的位置与对应的待提取字符进行关联,形成文本提取规则;利用文本提取规则从文本数据集中提取多个字符;对提取出的多个字符进行合并或拆分,生成训练语料。本实施例中的目标字典是与待存储的文本资料对应的技术字典、词典、技术手册等。
作为示例,以药品A的说明书为例,首先利用相机拍摄药品A的说明书,然后将拍摄形成的图像作为训练样本图像;利用文本识别模型对训练样本图像进行识别,生成对应的文本识别数据;将生成的文本识别数据作为训练文本数据,然后对训练文本数据进行版式分析、文本检测和文本识别,得到对应的文本数据集;从药品词典、药品字典和/或药品手册中获取与药品A名词对应的标准字符集合,然后计算文本数据集中每个字符与标准字符集合中每个字符的编辑距离,其中,字符的笔画和字体类型越相似,两者的编辑距离越近;获取与文本数据集中每个字符编辑距离最近的标准字符,记为待提取字符;以及获取文本数据集中每个字符在训练文本数据中的位置,将所获取的位置与对应的待提取字符进行关联组合,形成对应的文本提取规则;即以标准字符为参考字符来确定文本数据集中的待提取字符,然后根据待提取字符在训练文本数据中的位置将其提取出来,从而得到多个字符;再对提取出的多个字符进行合并或拆分,形成对应的训练语料。由于提出的字符可能不符合技术名词的定义或者存在一些语法错误,所以本实施例提供对其进行合并或拆分,可以对提取出的多个字符进行初步纠正,从而保证在利用训练语料对一个或多个深度神经网络进行训练时的正确率。在利用药品A的说明书生成专门用于对药品A进行分类的文本分类模型时,从训练语料中提取出的关键词可以是药品A的名称、生产厂家、医疗用途等。
在一示例性实施例中,生成初始文本类别的过程包括:对文本数据集进行词条切分,获取多个词条;对每个词条中的字符进行框标注,获取对应的字符框;对所有字符框进行颜色和编号标记,并将同一字符所对应的字符框标记相同颜色和相同编号;获取每个字符在对应词条中的位置序号,并根据位置序号判断多个词条中是否存在字符框颜色和编号均相同的词条;若存在,则从相同的词条中选择其中一个词条进行保留,并删除其余的相同词条;若不存在,则保留对应的所有词条;计算保留后的每个词条与关键词的编辑距离,并获取与关键词的编辑距离最近的前K个词条;建立与前K个词条对应数量的文本类别,作为初始文本类别。作为示例,例如文本数据集中包括有“流行感冒药”、“伤寒感冒药”和“风湿疾病”等字符,则对“流行感冒药”、“伤寒感冒药”和“风湿疾病”进行词条切分,可以得到“流行”、“感冒药”、“伤寒”、“感冒药”、“风湿”和“疾病”6个词条;对每个词条中的字符进行框标注,得到对应的字符框。再对每个字符框进行颜色和编号标记,然后结合字符的位置序号判断进行词条切分后的多个词条是否存在相同的一个或多个词条。在本实施例中,对字符框进行颜色和编号标记时,将同一字符所对应的字符框标记相同颜色和相同编号。由于这6个词条中存在2个相同的词条,即存在2个“感冒药”词条,所以本实施例选择其中一个词条进行保留,然后删除另一个相同的词条。在删除相同的词条后,得到剩余的5个词条,即保留“流行”、“感冒药”、“伤寒”、“风湿”和“疾病”这5个词条;再计算这5个词条与所提取的关键词的编辑距离,然后选择编辑距离最近的前K个词条,建立初始文本类别。例如从训练语料中选取的关键词为“伤寒疼痛”、“风湿病”和“疾病”,则与这3个关键词编辑距离最近的词条为“伤寒”、“风湿”和“疾病”,此时从保留的5个词条中选取出“伤寒”、“风湿”和“疾病”这3个词条;由于此时的K值为3,所以建立3个文本类别,即建立一个“伤寒”文本类别,一个“风湿”文本类别和一个“疾病”文本类别,然后将这3个文本类别作为初始文本类别。
在一示例性实施例中,对每个词条中的字符进行框标注时,还包括:判断同一词条中相邻两个字符所对应的字符框是否存在重叠;若存在重叠,则获取其中一个字符框的锚点或关键点,并根据锚点或关键点来拖动对应的字符框,直至相邻两个字符所对应的字符框无重叠。作为示例,当字符框为矩形时,将矩形的4个顶点作为关键点,然后拖动其中一个字符框的关键点来改变字符框的框形区域,并在完成拖动后,使相邻两个字符所对应的字符框之间无重叠部分。如图2所示,当字符“风”所对应的字符框10与字符“湿”所对应的字符框20存在重叠时,可以选择拖动字符框10的关键点100来改变字符框10的框形区域,也可以选择拖动字符框20的关键点200来改变字符框20的框形区域,直至字符“风”所对应的字符框10与字符“湿”所对应的字符框20不存在重叠为止。在本实施例中,若相邻两个字符框存在重叠,则在对其中一个字符框进行颜色和编号标记时,可能错误标记到另一个字符框。例如在对字符“风”所对应的字符框10进行颜色和编号标记时,由于字符“湿”所对应的字符框20与其存在重叠,所以在选择字符框10时,可能会误点击到字符框20,从而将字符框10的颜色和编号标记至字符框20上。而本实施例通过调整字符框的框形区域后,可以避免两个相邻字符框出现重叠,从而可以避免错误标记的情形。
本实施例还可以判断字符框的边界线是否与词条中的字符存在重叠;若存在重叠,则获取对应字符框的锚点或关键点,根据锚点或关键点来拖动对应的字符框,直至字符框与对应的字符无重叠。作为示例,当字符框为矩形时,将矩形的4个顶点作为关键点,然后拖动字符框的关键点来改变字符框的框形区域,直至字符框与字符不存在重叠。如图3所示,当字符“疾”所对应的字符框30与其存在重叠时,可以通过拖动字符框30的关键点300来改变字符框30的框形区域,直至字符框30与字符“疾”不存在重叠为止。在本实施例中,若字符框的边界线与对应的字符存在重叠,则在对字符框进行颜色和编号标记时,可能会对字符标记上颜色和编号,从而干扰对字符的识别。而本实施例通过调整字符框的框形区域,可以避免出现字符框与字符的重叠。
在一示例性实施例中,获取训练文本数据的过程包括:利用文本识别模型对一个或多个样本图像进行文本识别,获取初始识别文本数据;改变初始识别文本数据中的字体清晰度、字体间距、字体背景和字体类型,生成增强文本数据;将初始识别文本数据和增强文本数据输入至生成对抗网络中,生成训练文本数据。本实施例中的文本识别模型可以是OCR字符识别模型(Optical Character Recognition , 光学字符识别,简称OCR)。本实施例通过改变初始识别文本数据中的字体清晰度、字体间距、字体背景和字体类型,可以生成增强文本数据,增加训练文本数据多样性,使得训练后的文本分类模型的鲁棒性更好。
在一示例性实施例中,利用类别标注后的训练语料对一个或多个深度神经网络进行训练时,还包括:获取每个深度神经网络的平滑损失和交叉熵损失;对平滑损失和交叉熵损失进行加权计算,获取对应深度神经网络的总损失;若总损失小于或等于第二阈值,则停止对深度神经网络的训练,生成文本分类模型;若总损失大于第二阈值,则继续对深度神经网络进行迭代训练,直至生成文本分类模型。作为示例,本实施例中的第二阈值可以为0.1,本实施例通过控制深度神经网络的训练损失来控制训练过程或次数,直至生成文本分类模型。
综上所述,本发明提供一种文本分类方法,可以将准备存储至服务器或存储器中的文本数据作为待分类文本,然后再将待分类文本输入至预先生成的文本分类模型中,得到待分类文本的特征向量;同时,获取初始文本类别的中心点特征向量,并计算两个特征向量的相似度,然后判断计算出的相似度是否大于或等于第一阈值;若大于或等于第一阈值,则将待分类文本分类至初始文本类别中;若小于第一阈值,则新建一个文本类别,并将待分类文本分类至新建的文本类别。由此可知,本方法可以先对待存储的文本数据进行分类,然后再对其进行存储,相当于本方法是对待存储的文本数据进行分类存储,从而使得有需求的人员在寻找文本数据时,可以先确定对应文本数据的检索索引,然后根据确定出的检索索引来寻找对应的文本类别以及该类别所包含的文本数据后,再从该类别所包含的文本数据中寻找想要的文本数据即可。相当于本方法改变了现有技术中的文本数据查找方式,即将从整个服务器或存储器中寻找文本数据的方式改变为从单个类别中查找文本数据,由于单个类别所包含的文本数据量是远远小于整个服务器或存储器所拥有的文本数据量,所以本方法减少了从服务器或存储器中寻找对应文本数据的时间,提高了文本数据的查找效率。
如图4所示,本发明还提供一种文本分类***,包括有:
文本采集模块M10,用于获取待分类文本;
特征向量模块M20,用于将待分类文本输入至预先生成的文本分类模型中,获取待分类文本的特征向量,记为第一特征向量;以及用于获取初始文本类别的中心点特征向量,并记为第二特征向量;
相似度模块M30,用于计算第一特征向量与第二特征向量的相似度,并判断相似度是否大于或等于第一阈值;
第一分类模块M40,用于在第一特征向量与第二特征向量的相似度大于或等于第一阈值时,将待分类文本分类至初始文本类别中形成第一文本类别,并根据第一特征向量和第二特征向量更新第一文本类别的中心点特征向量;
第二分类模块M50,用于在第一特征向量与第二特征向量的相似度小于第一阈值时,新建一个第二文本类别,并将待分类文本分类至新建的第二文本类别中,以及将第一特征向量作为第二文本类别的中心点特征向量。
作为示例,本实施例可以将准备存储至服务器或存储器中的文本数据作为待分类文本,然后再将待分类文本输入至预先生成的文本分类模型中,得到待分类文本的特征向量;同时,获取初始文本类别的中心点特征向量,并计算两个特征向量的相似度,然后判断计算出的相似度是否大于或等于第一阈值;若大于或等于第一阈值,则将待分类文本分类至初始文本类别中;若小于第一阈值,则新建一个文本类别,并将待分类文本分类至新建的文本类别。其中,本实施例可以计算第一特征向量与第二特征向量的欧式距离,然后将计算出的欧式距离作为第一特征向量与第二特征向量的相似度值。
在本实施例中,待存储的文本数据可以是医生介绍资料、电子病历、药品说明书和医疗设备说明书等文本类资料。在一示例中,以药品A的说明书为例进行说明,首先,将待存储的药品A的说明书作为待分类文本,然后将其输入至预先生成的文本分类模型中,得到对应的特征向量,记为第一特征向量;再获取初始文本类别的中心特征向量,记为第二特征向量;计算第一特征向量与第二特征向量的相似度,并判断计算出的相似度是否大于或等于95%,若计算出的相似度大于或等于95%,则说明初始文本类别中存在与药品A的说明书相对应的文本类别,此时将药品A的说明书分类至初始文本类别中,形成第一文本类别,再将第一特征向量与第二特征向量进行融合,生成新的特征向量;以及将生成的新特征向量作为第一文本类别的中心点特征向量。其中,特征向量的融合包括但不限于:特征向量的相加、特征向量的相减和特征向量的求和。若计算出的相似度小于95%,则说明初始文本类别中不存在与药品A的说明书相对应的文本类别,则此时新建一个文本类别,记为第二文本类别,然后将药品A的说明书分类至第二文本类别中,再将对应的第一特征向量作为第二文本类别的中心点特征向量。具体地,若药品A的说明书中仅记载了药品A的保质期截止时间,则在相似度大于或等于95%时,初始文本类别中必然包含有与该截止时间相同的文本类别;反之,在相似度小于95%时,初始文本类别必然不包含与该截止时间相同的文本类别。此外,若药品B的说明书中也仅记载了药品B的保质期截止时间,则在对药品B的说明书进行分类时,可以将第一文本类别作为新的初始文本类别来对药品B的说明书进行分类,或者将最初的初始文本类别与第二文本类别进行合并后作为新的初始文本类别来对药品B的说明书进行分类。
在另一示例中,以医疗设备C的说明书为例进行说明,首先,将待存储的医疗设备C的说明书作为待分类文本,然后将其输入至预先生成的文本分类模型中,得到对应的特征向量,记为第一特征向量;再获取初始文本类别的中心特征向量,记为第二特征向量;计算第一特征向量与第二特征向量的相似度,并判断计算出的相似度是否大于或等于98%,若计算出的相似度大于或等于98%,则说明初始文本类别中存在与医疗设备C的说明书相对应的文本类别,此时将医疗设备C的说明书分类至初始文本类别中,形成第一文本类别,再将第一特征向量与第二特征向量进行融合,生成新的特征向量;以及将生成的新特征向量作为第一文本类别的中心点特征向量。其中,特征向量的融合包括但不限于:特征向量的相加、特征向量的相减和特征向量的求和。若计算出的相似度小于98%,则说明初始文本类别中不存在与医疗设备C的说明书相对应的文本类别,则此时新建一个文本类别,记为第二文本类别,然后将医疗设备C的说明书分类至第二文本类别中,再将对应的第一特征向量作为第二文本类别的中心点特征向量。具体地,若医疗设备C的说明书中仅记载了医疗设备C的用途文本,例如仅记载了:医疗设备C用于扫描人体组织结构,生成CT图像;则在相似度大于或等于98%时,初始文本类别中必然包含有与医疗设备C用途资料关联的文本类别;反之,在相似度小于98%时,初始文本类别必然不包含与医疗设备C用途资料关联的文本类别。
由此可知,本实施例可以先对待存储的文本数据进行分类,然后再对其进行存储,相当于本实施例是对待存储的文本数据进行分类存储,从而使得有需求的人员在寻找文本数据时,可以先确定对应文本数据的检索索引,然后根据确定出的检索索引来寻找对应的文本类别以及该类别所包含的文本数据后,再从该类别所包含的文本数据中寻找想要的文本数据即可。相当于本实施例改变了现有技术中的文本数据查找方式,即将从整个服务器或存储器中寻找文本数据的方式改变为从单个类别中查找文本数据,由于单个类别所包含的文本数据量是远远小于整个服务器或存储器所拥有的文本数据量,所以本实施例减少了从服务器或存储器中寻找对应文本数据的时间,提高了文本数据的查找效率。
根据上述记载,在一示例性实施例中,生成文本分类模型的过程包括:按照预设的文本提取规则从文本数据集中提取多个字符;对提取出的多个字符进行合并或拆分,生成训练语料;从训练语料中获取关键词,并根据关键词对训练语料进行类别标注;利用类别标注后的训练语料对一个或多个深度神经网络进行训练,生成文本分类模型。作为示例,本实施例生成的文本分类模型可以是FCN全卷积神经网络分割模型(Fully ConvolutionalNeural Networks for Semantic Segmentation)。其中,训练语料的生成过程包括:获取训练文本数据,并对训练文本数据进行版式分析、文本检测和文本识别,生成文本数据集;从目标字典中获取标准字符集合,并计算文本数据集中每个字符与标准字符集合中每个字符的编辑距离;获取与文本数据集中每个字符编辑距离最近的标准字符,记为待提取字符;获取文本数据集中每个字符在训练文本数据中的位置,并将所获取的位置与对应的待提取字符进行关联,形成文本提取规则;利用文本提取规则从文本数据集中提取多个字符;对提取出的多个字符进行合并或拆分,生成训练语料。本实施例中的目标字典是与待存储的文本资料对应的技术字典、词典、技术手册等。
作为示例,以药品A的说明书为例,首先利用相机拍摄药品A的说明书,然后将拍摄形成的图像作为训练样本图像;利用文本识别模型对训练样本图像进行识别,生成对应的文本识别数据;将生成的文本识别数据作为训练文本数据,然后对训练文本数据进行版式分析、文本检测和文本识别,得到对应的文本数据集;从药品词典、药品字典和/或药品手册中获取与药品A名词对应的标准字符集合,然后计算文本数据集中每个字符与标准字符集合中每个字符的编辑距离,其中,字符的笔画和字体类型越相似,两者的编辑距离越近;获取与文本数据集中每个字符编辑距离最近的标准字符,记为待提取字符;以及获取文本数据集中每个字符在训练文本数据中的位置,将所获取的位置与对应的待提取字符进行关联组合,形成对应的文本提取规则;即以标准字符为参考字符来确定文本数据集中的待提取字符,然后根据待提取字符在训练文本数据中的位置将其提取出来,从而得到多个字符;再对提取出的多个字符进行合并或拆分,形成对应的训练语料。由于提出的字符可能不符合技术名词的定义或者存在一些语法错误,所以本实施例提供对其进行合并或拆分,可以对提取出的多个字符进行初步纠正,从而保证在利用训练语料对一个或多个深度神经网络进行训练时的正确率。在利用药品A的说明书生成专门用于对药品A进行分类的文本分类模型时,从训练语料中提取出的关键词可以是药品A的名称、生产厂家、医疗用途等。
在一示例性实施例中,生成初始文本类别的过程包括:对文本数据集进行词条切分,获取多个词条;对每个词条中的字符进行框标注,获取对应的字符框;对所有字符框进行颜色和编号标记,并将同一字符所对应的字符框标记相同颜色和相同编号;获取每个字符在对应词条中的位置序号,并根据位置序号判断多个词条中是否存在字符框颜色和编号均相同的词条;若存在,则从相同的词条中选择其中一个词条进行保留,并删除其余的相同词条;若不存在,则保留对应的所有词条;计算保留后的每个词条与关键词的编辑距离,并获取与关键词的编辑距离最近的前K个词条;建立与前K个词条对应数量的文本类别,作为初始文本类别。作为示例,例如文本数据集中包括有“流行感冒药”、“伤寒感冒药”和“风湿疾病”等字符,则对“流行感冒药”、“伤寒感冒药”和“风湿疾病”进行词条切分,可以得到“流行”、“感冒药”、“伤寒”、“感冒药”、“风湿”和“疾病”6个词条;对每个词条中的字符进行框标注,得到对应的字符框。再对每个字符框进行颜色和编号标记,然后结合字符的位置序号判断进行词条切分后的多个词条是否存在相同的一个或多个词条。在本实施例中,对字符框进行颜色和编号标记时,将同一字符所对应的字符框标记相同颜色和相同编号。由于这6个词条中存在2个相同的词条,即存在2个“感冒药”词条,所以本实施例选择其中一个词条进行保留,然后删除另一个相同的词条。在删除相同的词条后,得到剩余的5个词条,即保留“流行”、“感冒药”、“伤寒”、“风湿”和“疾病”这5个词条;再计算这5个词条与所提取的关键词的编辑距离,然后选择编辑距离最近的前K个词条,建立初始文本类别。例如从训练语料中选取的关键词为“伤寒疼痛”、“风湿病”和“疾病”,则与这3个关键词编辑距离最近的词条为“伤寒”、“风湿”和“疾病”,此时从保留的5个词条中选取出“伤寒”、“风湿”和“疾病”这3个词条;由于此时的K值为3,所以建立3个文本类别,即建立一个“伤寒”文本类别,一个“风湿”文本类别和一个“疾病”文本类别,然后将这3个文本类别作为初始文本类别。
在一示例性实施例中,对每个词条中的字符进行框标注时,还包括:判断同一词条中相邻两个字符所对应的字符框是否存在重叠;若存在重叠,则获取其中一个字符框的锚点或关键点,并根据锚点或关键点来拖动对应的字符框,直至相邻两个字符所对应的字符框无重叠。作为示例,当字符框为矩形时,将矩形的4个顶点作为关键点,然后拖动其中一个字符框的关键点来改变字符框的框形区域,并在完成拖动后,使相邻两个字符所对应的字符框之间无重叠部分。如图2所示,当字符“风”所对应的字符框10与字符“湿”所对应的字符框20存在重叠时,可以选择拖动字符框10的关键点100来改变字符框10的框形区域,也可以选择拖动字符框20的关键点200来改变字符框20的框形区域,直至字符“风”所对应的字符框10与字符“湿”所对应的字符框20不存在重叠为止。在本实施例中,若相邻两个字符框存在重叠,则在对其中一个字符框进行颜色和编号标记时,可能错误标记到另一个字符框。例如在对字符“风”所对应的字符框10进行颜色和编号标记时,由于字符“湿”所对应的字符框20与其存在重叠,所以在选择字符框10时,可能会误点击到字符框20,从而将字符框10的颜色和编号标记至字符框20上。而本实施例通过调整字符框的框形区域后,可以避免两个相邻字符框出现重叠,从而可以避免错误标记的情形。
本实施例还可以判断字符框的边界线是否与词条中的字符存在重叠;若存在重叠,则获取对应字符框的锚点或关键点,根据锚点或关键点来拖动对应的字符框,直至字符框与对应的字符无重叠。作为示例,当字符框为矩形时,将矩形的4个顶点作为关键点,然后拖动字符框的关键点来改变字符框的框形区域,直至字符框与字符不存在重叠。如图3所示,当字符“疾”所对应的字符框30与其存在重叠时,可以通过拖动字符框30的关键点300来改变字符框30的框形区域,直至字符框30与字符“疾”不存在重叠为止。在本实施例中,若字符框的边界线与对应的字符存在重叠,则在对字符框进行颜色和编号标记时,可能会对字符标记上颜色和编号,从而干扰对字符的识别。而本实施例通过调整字符框的框形区域,可以避免出现字符框与字符的重叠。
在一示例性实施例中,获取训练文本数据的过程包括:利用文本识别模型对一个或多个样本图像进行文本识别,获取初始识别文本数据;改变初始识别文本数据中的字体清晰度、字体间距、字体背景和字体类型,生成增强文本数据;将初始识别文本数据和增强文本数据输入至生成对抗网络中,生成训练文本数据。本实施例中的文本识别模型可以是OCR字符识别模型(Optical Character Recognition , 光学字符识别,简称OCR)。本实施例通过改变初始识别文本数据中的字体清晰度、字体间距、字体背景和字体类型,可以生成增强文本数据,增加训练文本数据多样性,使得训练后的文本分类模型的鲁棒性更好。
在一示例性实施例中,利用类别标注后的训练语料对一个或多个深度神经网络进行训练时,还包括:获取每个深度神经网络的平滑损失和交叉熵损失;对平滑损失和交叉熵损失进行加权计算,获取对应深度神经网络的总损失;若总损失小于或等于第二阈值,则停止对深度神经网络的训练,生成文本分类模型;若总损失大于第二阈值,则继续对深度神经网络进行迭代训练,直至生成文本分类模型。作为示例,本实施例中的第二阈值可以为0.1,本实施例通过控制深度神经网络的训练损失来控制训练过程或次数,直至生成文本分类模型。
综上所述,本发明提供一种文本分类***,可以将准备存储至服务器或存储器中的文本数据作为待分类文本,然后再将待分类文本输入至预先生成的文本分类模型中,得到待分类文本的特征向量;同时,获取初始文本类别的中心点特征向量,并计算两个特征向量的相似度,然后判断计算出的相似度是否大于或等于第一阈值;若大于或等于第一阈值,则将待分类文本分类至初始文本类别中;若小于第一阈值,则新建一个文本类别,并将待分类文本分类至新建的文本类别。由此可知,本***可以先对待存储的文本数据进行分类,然后再对其进行存储,相当于本***是对待存储的文本数据进行分类存储,从而使得有需求的人员在寻找文本数据时,可以先确定对应文本数据的检索索引,然后根据确定出的检索索引来寻找对应的文本类别以及该类别所包含的文本数据后,再从该类别所包含的文本数据中寻找想要的文本数据即可。相当于本***改变了现有技术中的文本数据查找方式,即将从整个服务器或存储器中寻找文本数据的方式改变为从单个类别中查找文本数据,由于单个类别所包含的文本数据量是远远小于整个服务器或存储器所拥有的文本数据量,所以本***减少了从服务器或存储器中寻找对应文本数据的时间,提高了文本数据的查找效率。
本申请实施例还提供了一种文本分类设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。图5示出了一种文本分类设备1000的结构示意图。参阅图5所示,电子设备1000包括:处理器1010、存储器1020、电源1030、显示单元1040、输入单元1060。
处理器1010是电子设备1000的控制中心,利用各种接口和线路连接各个部件,通过运行或执行存储在存储器1020内的软件程序和/或数据,执行电子设备1000的各种功能,从而对电子设备1000进行整体监控。本申请实施例中,处理器1010调用存储器1020中存储的计算机程序时执行如图1所述的方法。可选的,处理器1010可包括一个或多个处理单元;优选的,处理器1010可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用等,调制解调处理器主要处理无线通信。在一些实施例中,处理器、存储器、可以在单一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、各种应用等;存储数据区可存储根据电子设备1000的使用所创建的数据等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。
电子设备1000还包括给各个部件供电的电源1030(比如电池),电源可以通过电源管理***与处理器1010逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗等功能。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及电子设备1000的各种菜单等,本发明实施例中主要用于显示电子设备1000中各应用的显示界面以及显示界面中显示的文本、图片等对象。显示单元1040可以包括显示面板1050。显示面板1050可以采用液晶显示屏(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置。
输入单元1060可用于接收用户输入的数字或字符等信息。输入单元1060可包括触控面板1070以及其他输入设备1080。其中,触控面板1070,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板1070上或在触控面板1070附近的操作)。
具体的,触控面板1070可以检测用户的触摸操作,并检测触摸操作带来的信号,将这些信号转换成触点坐标,发送给处理器1010,并接收处理器1010发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1070。其他输入设备1080可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
当然,触控面板1070可覆盖显示面板1050,当触控面板1070检测到在其上或附近的触摸操作后,传送给处理器1010以确定触摸事件的类型,随后处理器1010根据触摸事件的类型在显示面板1050上提供相应的视觉输出。虽然在图5中,触控面板1070与显示面板1050是作为两个独立的部件来实现电子设备1000的输入和输出功能,但是在某些实施例中,可以将触控面板1070与显示面板1050集成而实现电子设备1000的输入和输出功能。
电子设备1000还可包括一个或多个传感器,例如压力传感器、重力加速度传感器、接近光传感器等。当然,根据具体应用中的需要,上述电子设备1000还可以包括摄像头等其它部件。
本申请实施例还提供了一种计算机可读存储介质,该存储介质中存储有指令,当一个或多个处理器执行所述指令时,使得上述设备能够执行本申请中如图1所述的方法。
本领域技术人员可以理解的是,图5仅仅是文本分类设备的举例,并不构成对该设备的限定,该设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时,可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。本领域内的技术人员应明白,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的,应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可应用至通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器中以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当理解的是,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等,但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一预设范围也可以被称为第二预设范围,类似地,第二预设范围也可以被称为第一预设范围。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (9)

1.一种文本分类方法,其特征在于,包括以下步骤:
获取待分类文本;
将所述待分类文本输入至预先生成的文本分类模型中,获取所述待分类文本的特征向量,记为第一特征向量;
获取初始文本类别的中心点特征向量,记为第二特征向量;
计算所述第一特征向量与所述第二特征向量的相似度,并判断所述相似度是否大于或等于第一阈值;
若大于或等于第一阈值,则将所述待分类文本分类至所述初始文本类别中形成第一文本类别,并根据所述第一特征向量和所述第二特征向量更新所述第一文本类别的中心点特征向量;
若小于第一阈值,则新建一个第二文本类别,并将所述待分类文本分类至新建的第二文本类别中,以及将所述第一特征向量作为所述第二文本类别的中心点特征向量;
生成初始文本类别的过程包括:
对文本数据集进行词条切分,获取多个词条;
对每个词条中的字符进行框标注,获取对应的字符框;
对所有字符框进行颜色和编号标记,并将同一字符所对应的字符框标记相同颜色和相同编号;
获取每个字符在对应词条中的位置序号,并根据所述位置序号判断所述多个词条中是否存在字符框颜色和编号均相同的词条;若存在,则从相同的词条中选择其中一个词条进行保留,并删除其余的相同词条;若不存在,则保留对应的所有词条;
计算保留后的每个词条与关键词的编辑距离,并获取与所述关键词的编辑距离最近的前K个词条;
建立与所述前K个词条对应数量的文本类别,作为所述初始文本类别。
2.根据权利要求1所述的文本分类方法,其特征在于,生成所述文本分类模型的过程包括:
按照预设的文本提取规则从文本数据集中提取多个字符;
对提取出的多个字符进行合并或拆分,生成训练语料;
从所述训练语料中获取关键词,并根据所述关键词对所述训练语料进行类别标注;
利用类别标注后的训练语料对一个或多个深度神经网络进行训练,生成所述文本分类模型。
3.根据权利要求2所述的文本分类方法,其特征在于,生成训练语料的过程包括:
获取训练文本数据,并对所述训练文本数据进行版式分析、文本检测和文本识别,生成文本数据集;
从目标字典中获取标准字符集合,并计算所述文本数据集中每个字符与所述标准字符集合中每个字符的编辑距离;
获取与所述文本数据集中每个字符编辑距离最近的标准字符,记为待提取字符;
获取所述文本数据集中每个字符在所述训练文本数据中的位置,并将所获取的位置与对应的待提取字符进行关联,形成文本提取规则;
利用所述文本提取规则从所述文本数据集中提取多个字符;
对提取出的多个字符进行合并或拆分,生成所述训练语料。
4.根据权利要求2或3所述的文本分类方法,其特征在于,对每个词条中的字符进行框标注时,还包括:
判断同一词条中相邻两个字符所对应的字符框是否存在重叠;
若存在重叠,则获取其中一个字符框的锚点或关键点,并根据所述锚点或关键点来拖动对应的字符框,直至相邻两个字符所对应的字符框无重叠;
和/或,判断字符框的边界线是否与词条中的字符存在重叠;
若存在重叠,则获取对应字符框的锚点或关键点,根据所述锚点或关键点来拖动对应的字符框,直至字符框与对应的字符无重叠。
5.根据权利要求3所述的文本分类方法,其特征在于,获取所述训练文本数据的过程包括:
利用文本识别模型对一个或多个样本图像进行文本识别,获取初始识别文本数据;
改变所述初始识别文本数据中的字体清晰度、字体间距、字体背景和字体类型,生成增强文本数据;
将所述初始识别文本数据和增强文本数据输入至生成对抗网络中,生成所述训练文本数据。
6.根据权利要求2所述的文本分类方法,其特征在于,利用类别标注后的训练语料对一个或多个深度神经网络进行训练时,还包括:
获取每个深度神经网络的平滑损失和交叉熵损失;
对所述平滑损失和所述交叉熵损失进行加权计算,获取对应深度神经网络的总损失;
若所述总损失小于或等于第二阈值,则停止对深度神经网络的训练,生成文本分类模型;
若所述总损失大于第二阈值,则继续对深度神经网络进行迭代训练,直至生成文本分类模型。
7.一种文本分类***,其特征在于,包括有:
文本采集模块,用于获取待分类文本;
特征向量模块,用于将所述待分类文本输入至预先生成的文本分类模型中,获取所述待分类文本的特征向量,记为第一特征向量;以及用于获取初始文本类别的中心点特征向量,并记为第二特征向量;
相似度模块,用于计算所述第一特征向量与所述第二特征向量的相似度,并判断所述相似度是否大于或等于第一阈值;
第一分类模块,用于在所述第一特征向量与所述第二特征向量的相似度大于或等于第一阈值时,将所述待分类文本分类至所述初始文本类别中形成第一文本类别,并根据所述第一特征向量和所述第二特征向量更新所述第一文本类别的中心点特征向量;
第二分类模块,用于在所述第一特征向量与所述第二特征向量的相似度小于第一阈值时,新建一个第二文本类别,并将所述待分类文本分类至新建的第二文本类别中,以及将所述第一特征向量作为所述第二文本类别的中心点特征向量;
所述特征向量模块中初始文本类别的生成过程包括:
对文本数据集进行词条切分,获取多个词条;
对每个词条中的字符进行框标注,获取对应的字符框;
对所有字符框进行颜色和编号标记,并将同一字符所对应的字符框标记相同颜色和相同编号;
获取每个字符在对应词条中的位置序号,并根据所述位置序号判断所述多个词条中是否存在字符框颜色和编号均相同的词条;若存在,则从相同的词条中选择其中一个词条进行保留,并删除其余的相同词条;若不存在,则保留对应的所有词条;
计算保留后的每个词条与关键词的编辑距离,并获取与所述关键词的编辑距离最近的前K个词条;
建立与所述前K个词条对应数量的文本类别,作为所述初始文本类别。
8.一种文本分类设备,其特征在于,包括:
处理器;和
存储有指令的计算机可读介质,当所述处理器执行所述指令时,使得所述设备执行如权利要求1至6中任意一项所述的方法。
9.一种计算机可读介质,其特征在于,其上存储有指令,所述指令由处理器加载并执行如权利要求1至6中任意一项所述的方法。
CN202110754670.2A 2021-07-05 2021-07-05 一种文本分类方法、***、设备及介质 Active CN113254653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110754670.2A CN113254653B (zh) 2021-07-05 2021-07-05 一种文本分类方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110754670.2A CN113254653B (zh) 2021-07-05 2021-07-05 一种文本分类方法、***、设备及介质

Publications (2)

Publication Number Publication Date
CN113254653A CN113254653A (zh) 2021-08-13
CN113254653B true CN113254653B (zh) 2021-12-21

Family

ID=77190589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110754670.2A Active CN113254653B (zh) 2021-07-05 2021-07-05 一种文本分类方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN113254653B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779259B (zh) * 2021-11-15 2022-03-18 太平金融科技服务(上海)有限公司 文本分类方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156865A (zh) * 2010-12-14 2011-08-17 上海合合信息科技发展有限公司 手写文本行字符切分方法、识别方法
CN110008343A (zh) * 2019-04-12 2019-07-12 深圳前海微众银行股份有限公司 文本分类方法、装置、设备及计算机可读存储介质
CN110413781A (zh) * 2019-07-19 2019-11-05 淮阴工学院 一种基于LD和ANN-SoftMax Regressor的中医药短文本多分类方法
CN111340023A (zh) * 2020-02-24 2020-06-26 创新奇智(上海)科技有限公司 文本识别方法及装置、电子设备、存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10169315B1 (en) * 2018-04-27 2019-01-01 Asapp, Inc. Removing personal information from text using a neural network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156865A (zh) * 2010-12-14 2011-08-17 上海合合信息科技发展有限公司 手写文本行字符切分方法、识别方法
CN110008343A (zh) * 2019-04-12 2019-07-12 深圳前海微众银行股份有限公司 文本分类方法、装置、设备及计算机可读存储介质
CN110413781A (zh) * 2019-07-19 2019-11-05 淮阴工学院 一种基于LD和ANN-SoftMax Regressor的中医药短文本多分类方法
CN111340023A (zh) * 2020-02-24 2020-06-26 创新奇智(上海)科技有限公司 文本识别方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN113254653A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
US20220319219A1 (en) Technologies for content analysis
RU2688271C2 (ru) Поиск изображений на естественном языке
KR102201658B1 (ko) 상호작용적 디지털 디스플레이
US8724908B2 (en) System and method for labeling a collection of images
US20130125069A1 (en) System and Method for Interactive Labeling of a Collection of Images
WO2021120834A1 (zh) 基于生物识别的手势识别方法、装置、计算机设备及介质
CN104932804B (zh) 一种智能虚拟装配动作识别方法
US11436282B2 (en) Methods, devices and media for providing search suggestions
CN107111608A (zh) 从语言输入数据自动生成n‑元和概念关系
US10620822B2 (en) Method and system for selecting and providing content of interest
US20120166472A1 (en) System and method for collaborative graphical searching with tangible query objects on a multi-touch table
KR20140064326A (ko) 태그 정보 저장 방법 및 장치와 태그 정보를 이용한 이미지 검색 방법 및 장치
CN108700994A (zh) 用于数字墨水交互性的***和方法
CN110178129A (zh) 生成用于图像处理操作的目标图像的语义表示的***和方法
CN113254653B (zh) 一种文本分类方法、***、设备及介质
Langenhan et al. The fingerprint of architecture-sketch-based design methods for researching building layouts through the semantic fingerprinting of floor plans
VanderHoeven et al. Robust motion recognition using gesture phase annotation
Lei et al. A new clothing image retrieval algorithm based on sketch component segmentation in mobile visual sensors
Langenhan et al. Sketch-based methods for researching building layouts through the semantic fingerprint of architecture
Liu et al. A sketch-based approach for interactive organization of video clips
Kim et al. The mapKurator system: A complete pipeline for extracting and linking text from historical maps
JP2016031721A (ja) 検索装置、方法及びプログラム
Hu et al. Learning a compact embedding for fine-grained few-shot static gesture recognition
JP5233424B2 (ja) 検索装置およびプログラム
Liang et al. Recommendation in motion: intelligent hypertouch garment design

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220708

Address after: 201615 room 1904, G60 Kechuang building, No. 650, Xinzhuan Road, Songjiang District, Shanghai

Patentee after: Shanghai Mingping Medical Data Technology Co.,Ltd.

Address before: 102400 no.86-n3557, Wanxing Road, Changyang, Fangshan District, Beijing

Patentee before: Mingpinyun (Beijing) data Technology Co.,Ltd.

TR01 Transfer of patent right