CN108875072B - 文本分类方法、装置、设备以及存储介质 - Google Patents

文本分类方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN108875072B
CN108875072B CN201810729166.5A CN201810729166A CN108875072B CN 108875072 B CN108875072 B CN 108875072B CN 201810729166 A CN201810729166 A CN 201810729166A CN 108875072 B CN108875072 B CN 108875072B
Authority
CN
China
Prior art keywords
text
distribution
classification
word
continuous multiple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810729166.5A
Other languages
English (en)
Other versions
CN108875072A (zh
Inventor
陈立
杨俊�
王珵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN201810729166.5A priority Critical patent/CN108875072B/zh
Publication of CN108875072A publication Critical patent/CN108875072A/zh
Application granted granted Critical
Publication of CN108875072B publication Critical patent/CN108875072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种文本分类方法、装置、设备以及存储介质。通过无监督机器学习方式学习第一文本集中的第一文本的各个单字和/或连续多字的分布表征;针对第二文本集中至少部分第二文本中的每个第二文本,基于学习到的第一文本集中对应单字和/或连续多字的分布表征,得到该第二文本中各个单字和/或连续多字的分布表征;至少以第二文本中各个单字和/或连续多字的分布表征为训练样本特征,以该第二文本的真实类别为训练样本标记,使用有监督机器学习方式进行训练,以得到分类模型;以及利用分类模型对第一文本的类别进行预测。由此,本发明可以实现在第一文本集中的第一文本缺少标注数据的情况下,对第一文本进行有效分类。

Description

文本分类方法、装置、设备以及存储介质
技术领域
本发明总体来说涉及机器学习技术领域,更具体地讲,涉及一种文本分类方法、装置、设备以及存储介质。
背景技术
针对文本分类问题,目前主要是采取有监督机器学习的方式训练分类模型。即根据场景构建数据集,标注数据集,然后再根据带标注数据,训练分类模型。训练过程中往往存在以下问题。
一方面,训练过程需要以对数据集中的数据进行标注为前提,而数据集的数量一般较大,使得标注成本极高,从而造成实践中难以构建大规模的训练数据。
另一方面,数据集中的文本往往千奇百怪,在进行分词时,由于词库受限,往往容易得到错误的分词结果,例如“千百度”可能会被切分为“千/百度”,这样会在构建模型时引入干扰特征,严重影响模型效果。
因此,需要一种新的文本分类方案,以解决上述至少一种问题。
发明内容
本发明的示例性实施例在于提供一种文本分类方法、装置、设备以及存储介质,以解决上述至少一种问题。
根据本发明的第一个方面,提出了一种文本分类方法,包括:通过无监督机器学习方式学习第一文本集中的第一文本的各个单字和/或连续多字的分布表征;针对第二文本集中至少部分第二文本中的每个第二文本,基于学习到的第一文本集中对应单字和/或连续多字的分布表征,得到该第二文本中各个单字和/或连续多字的分布表征;至少以第二文本中各个单字和/或连续多字的分布表征为训练样本特征,以该第二文本的真实类别为训练样本标记,使用有监督机器学习方式进行训练,以得到分类模型;以及利用分类模型对第一文本的类别进行预测。
可选地,第一文本与第二文本的内容相同或相似;并且/或者第一文本集中第一文本的数量大于第二文本集中第二文本的数量;并且/或者第一文本集中第一文本的数据分布不同于第二文本集中第二文本的数据分布。
可选地,分布表征为词向量。
可选地,连续多字包括不同字数的连续多字,并且,每个连续多字的分布表征等于连续多字中各个单字的分布表征之和。
可选地,利用分类模型对第一文本的类别进行预测的步骤包括:至少以第一文本中每个单字和/或连续多字的分布表征为预测样本特征,利用分类模型对第一文本的类别进行预测。
可选地,文本分类方法还包括:对第二文本进行分词处理,并获取每个分词的one-hot特征,其中,至少以第二文本中每个单字和/或连续多字的分布表征为训练样本特征的步骤包括:以第二文本中每个单字和/或连续多字的分布表征和第二文本中每个分词的one-hot特征为训练样本特征。
可选地,利用分类模型对第一文本的类别进行预测的步骤包括:对第一文本进行分词处理,并获取每个分词的one-hot特征;以第一文本中每个单字和/或连续多字的分布表征和第一文本中每个分词的one-hot特征为预测样本特征,利用分类模型对第一文本的类别进行预测。
可选地,文本分类方法,还包括:根据第一文本的分类需求,对分类模型的分类结果进行映射。
可选地,第一文本和第二文本均为商户名称,该方法用于对第一文本集中的商户名称进行关于经营类别的分类。
根据本发明的第二个方面,还提出了一种文本分类装置,包括:学习模块,用于通过无监督机器学习方式学习第一文本集中的第一文本的各个单字和/或连续多字的分布表征;获取模块,用于针对第二文本集中至少部分第二文本中的每个第二文本,基于学习到的第一文本集中对应单字和/或连续多字的分布表征,得到该第二文本中各个单字和/或连续多字的分布表征;训练模块,用于至少以第二文本中各个单字和/或连续多字的分布表征为训练样本特征,以该第二文本的真实类别为训练样本标记,使用有监督机器学习方式进行训练,以得到分类模型;以及预测模块,用于利用分类模型对第一文本的类别进行预测。
可选地,第一文本与第二文本的内容相同或相似,并且/或者第一文本集中第一文本的数量大于第二文本集中第二文本的数量,并且/或者第一文本集中第一文本的数据分布不同于第二文本集中第二文本的数据分布。
可选地,分布表征为词向量。
可选地,连续多字包括不同字数的连续多字,并且,每个连续多字的分布表征等于连续多字中各个单字的分布表征之和。
可选地,预测模块至少以第一文本中每个单字和/或连续多字的分布表征为预测样本特征,利用分类模型对第一文本的类别进行预测。
可选地,文本分类装置,还包括:特征获取模块,用于对第二文本进行分词处理,并获取每个分词的one-hot特征,其中,训练模块以第二文本中每个单字和/或连续多字的分布表征和第二文本中每个分词的one-hot特征为训练样本特征。
可选地,特征获取模块对第一文本进行分词处理,并获取每个分词的one-hot特征,预测模块以第一文本中每个单字和/或连续多字的分布表征和第一文本中每个分词的one-hot特征为预测样本特征,利用分类模型对第一文本的类别进行预测。
可选地,文本分类装置,还包括:映射模块,用于根据第一文本的分类需求,对分类模型的分类结果进行映射。
可选地,第一文本和第二文本均为商户名称,该装置用于对第一文本集中的商户名称进行关于经营类别的分类。
根据本发明的第三个方面,还提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如本发明第一个方面述及的方法。
根据本发明的第四个方面,还提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如本发明第一个方面述及的方法。
对于待分类的第一文本集,本发明通过无监督机器学习的方式学习第一文本集中的单字和/或连续多字的内在特征(如分布表征),并将学习到的特征迁移到真实类别已知的第二文本集内,并进行模型训练,并使用训练得到的模型对第一文本集中的第一文本进行分类。由此,本发明可以实现在第一文本集中的第一文本缺少标注数据的情况下,对第一文本进行有效分类。。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本发明示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1示出了根据本发明示例性实施例的文本分类方法的流程图。
图2示出了根据本发明的另一示例性实施例的文本分类方法的实现流程图。
图3示出了根据本发明示例性实施例的文本分类装置的框图。
图4示出了根据本发明示例性实施例的可用于实现上述文本分类方法的数据处理的计算设备的结构示意图。
具体实施方式
现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
图1示出了根据本发明示例性实施例的文本分类方法的流程图。
参见图1,在步骤S110,通过无监督机器学习方式学习第一文本集中的第一文本的各个单字和/或连续多字的分布表征。
第一文本集为待分类的文本的集合,第一文本集中的文本可以称为第一文本。此处主要是利用无监督机器学习方式(例如基于神经网络的方式)对第一文本集内的数据(即文本)的特征进行学习。具体地,可以以单字为粒度学习第一文本集中各个单字的分布表征,也可以以连续多字为粒度学习第一文本集中各个连续多字的分布表征,还可以分别以单字和连续多字为粒度同时学习第一文本集中各个单字和连续多字的分布表征。
连续多字可以包括不同字数的连续多字,如连续两字、连续三字等等。分布表征是通过无监督机器学习方式学习到的第一文本集中各个单字和/或连续多字的内在特征。作为示例,分布表征可以是词向量(Word Embedding),词向量是字词的向量化表示,可以利用词向量技术将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector),其中,词向量及其生成方式为成熟技术,此处不再赘述。
在同时学习第一文本集中各个单字和连续多字的分布表征的情况下,可以利用无监督机器学习方式分别独立学习单字的分布表征和连续多字的分布表征,也可以先利用无监督机器学习方式学习单字的分布表征,然后基于单字的分布表征得到连续多字的分布表征,如每个连续多字的分布表征可以等于该连续多字中各个单字的分布表征之和。
举例来说,可以以单字为粒度,构建一个字向量(即,char2vec)模型,来得到第一文本集中各个单字分布表征,并且可以同时以连续多字为粒度,构建另一个char2vec模型,来得到第一文本集中各个连续多字的分布表征。另外,也可以以单字为粒度,构建一个char2vec模型,来得到第一文本集中各个单字的分布表征,然后可以基于单字的分布表征构建连续多字的分布表征,如对于连续双字的分布表征,其构建方式可以为r(ab)=r(a)+r(b),其中,r(ab)为连续双字ab的分布表征,r(a)为单字a的分布表征,r(b)为单字b的分布表征,对于其它字数的连续多字(如连续三字),也可以通过这种构建方式构建其分布表征,此处不再赘述。
在步骤S120,针对第二文本集中至少部分第二文本中的每个第二文本,基于学习到的第一文本集中对应单字和/或连续多字的分布表征,得到该第二文本中各个单字和/或连续多字的分布表征。
在本发明中,第二文本集可以是真实类别已知的文本的集合,第二文本集中的文本可以称为第二文本。优选地,可以将内容与第一文本的内容相同或相似且真实类别已知的文本作为第二文本(这里,内容上的相同或相似可反映两个文本集之间的关联性,即,两个文本集并非是完全无关的内容,可以是部分相同或相似,甚至也可以是一个文本集为另一个文本集的子集);并且/或者,第二文集内第二文本的数量可以小于第一文本集中第一文本的数量(例如,第二文本的数量可远远小于第一文本的数量);并且/或者,第二文本集的数据分布可以不同于第一文本集(例如,两个文本集的分布存在一定程度的差异)。例如,第一文本集可以是待分类的商户名的集合,第二文本集可以是通过其它渠道获取的真实类别已知的商户名的集合。
本发明主要是基于迁移学习的理念,将第一文本集中学习到的单字和/或连续多字的分布表征迁移到第二文本集内,以得到至少部分第二文本中每个第二文本中各个单字和/或连续多字的分布表征。
具体来说,在以单字和/或连续多字为粒度学习到第一文本集中各个单字和/或连续多字的分布表征后,针对至少部分第二文本中的每个第二文本,可以同样以单字和/或连续多字为粒度,通过查找(如查表)的方式,得到对应的相同单字和/或连续多字在第一文本集中学习到的分布表征。
需要说明的是,在第二文本中的某个或某些单字或连续多字没有出现在第一文本集中的情况下,通过查找的方式无法找到这类单字或连续多字在第一文本集中学习到的分布表征。这种情况下,可以用一个特殊符号(如特定向量)代替这类单字或连续多字,该特殊符号可以作为这类单字或连续多字的分布表征;或者也可以忽略这类单字或连续多字;或者还可以抛弃具有这类单字或连续多字的第二文本。
在步骤S130,至少以第二文本中每个单字和/或连续多字的分布表征为训练样本特征,以第二文本的真实类别为训练样本标记,使用有监督机器学习方式进行训练,以得到分类模型。
在本发明的一个实施例中,可以仅以第二文本中每个单字和/或连续多字的分布表征为训练样本特征,以第二文本的真实类别为训练样本标记,使用有监督机器学习方式进行训练,以得到分类模型。
然而本发明的示例性实施并不受限于此,除了包括分布表征作为训练样本的特征之外,训练样本还可以包括任何其它特征
例如,在本发明的另一个实施例中,还可以对第二文本进行分词处理,并获取每个分词的one-hot(独热码)特征,然后可以以第二文本中每个单字和/或连续多字的分布表征和第二文本中每个分词的one-hot特征为训练样本特征,以第二文本的真实类别为训练样本标记,使用有监督机器学习方式进行训练,以得到分类模型。关于one-hot特征的概念及编码方式,为本领域成熟技术,此处不再赘述。
在步骤S140,利用分类模型对第一文本的类别进行预测。这里,可将第一文本按照分类模型的特征抽取规则进行特征抽取,以形成相应的预测样本,也就是说,按照与训练样本的特征抽取完全一致的方式,基于第一文本来生成预测样本。将预测样本提供给分类模型之后,即可以得到相应的预测结果,该预测结果可以直接作为分类结果,也可进行进一步处理之后得到最终的分类结果。
在训练分类模型时,训练样本的特征是通过将第一文本集中学习到的单字和/或连续多字的分布表征进行迁移得到的,相应地,训练得到的分类模型可以应用于第一文本集,即可以利用训练好的分类模型对第一文本集中的第一文本的类别进行预测。
具体地,可以至少以第一文本中每个单字和/或连续多字的分布表征为预测样本特征,利用分类模型对第一文本的类别进行预测。如上文所述,在训练分类模型时,训练样本特征可以包括第二文本中各个单字和/或连续多字的分布表征,并且还可以包括one-hot特征。因此,在利用分类模型对第一文本的类别进行预测时,根据训练样本特征的构成不同,第一文本的特征构成也不尽相同。
例如,在训练分类模型时,以第二文本中每个单字和/或连续多字的分布表征为训练样本特征的情况下,可以以第一文本中每个单字和/或连续多字的分布表征为预测样本特征,利用分类模型对第一文本的类别进行预测。再例如,在以第二文本中每个单字和/或连续多字的分布表征和第二文本中每个分词的one-hot特征为训练样本特征的情况下,可以对第一文本进行分词处理,并获取每个分词的one-hot特征,然后可以以第一文本中每个单字和/或连续多字的分布表征和第一文本中每个分词的one-hot特征为预测样本特征。其中,优选地,第一文本中分词的one-hot特征的编码方式与第二文本中分词的one-hot特征的编码方式相同,也就是说,同一分词在第一文本中的one-hot特征与其在第二文本中的one-hot特征相同。
如上文所述,第一文本集为待分类的文本的集合,第二文本集为真实类别已知的文本的集合。由于第二文本集中第二文本的真实类别与用户针对第一文本集的分类需求可能存在一定的差异,使得在使用训练好的分类模型对第一文本的类别进行预测时,预测得到的分类结果可能不能很好地满足特定的分类需求。有鉴于此,本发明提出,还可以根据第一文本的分类需求,对分类模型的分类结果进行映射,以使得通过映射得到的结果能够满足分类需求。举例来说,假设第一文本和第二文本均为商户名称,分类需求为对第一文本集中的商户名称进行关于经营类别的分类,第二文本集中的第二文本的真实类别是“中餐”、“西餐”、“医药健康”、“果菜生疏”等等。在使用训练好的分类模型对第一文本的类别进行预测,得到的预测结果是“中餐”或“西餐”时,可以将分类结果映射为“餐厅”或“餐饮”,以得到关于第一文本集中的商户名的经营类别的映射结果。
综上,对于待分类的第一文本集,本发明通过无监督机器学习的方式学习第一文本集中的单字和/或连续多字的内在特征(如分布表征),将学习到的特征迁移到真实类别已知的第二文本集内,进行模型训练,并使用训练得到的模型对第一文本集中的第一文本进行分类。由此,在第一文本集中的第一文本缺少标注数据的情况下,基于本发明可以实现对第一文本进行有效分类。
进一步地,本发明是以单字和/或连续多字为粒度,学习第一文本集中数据的内在特征,并将其迁移到第二文本集内的,不但可以丰富样本特征,还可以在一定程度上修复词本身的划分错误问题。
至此,结合图1就本发明的文本分类方法的基本实现原理及流程做了说明。下面以用于对商户名称进行关于经营类别的分类为例进行说明,应该知道,本发明的文本分类方法还可以适用于其它非商户名的文本分类场景,例如,新闻标题的主题分类、关于金融交易描述的类别划分等。
图2示出了根据本发明的另一示例性实施例的文本分类方法的实现流程图。
首先就本实施例涉及的若干名词概念进行说明。
迁移学习:当待学习的原始问题无法直接求解时,找寻一个可以求解的相似问题(即目标问题),并将解的方案以一定形式迁移到原始问题上。
原始问题:原始待学习的问题,属于文本分类问题,例如可以是针对商户名的关于经营类别的分类问题。
目标问题:待学习的问题。
原始域:解决问题的数据及任务的集合,在本发明中属于无标注数据,海量,与原始问题对应,上文述及的第一文本集可以看作原始域数据。
目标域:用以进行模型训练的数据及任务的集合,在本发明中属于带标注数据,中等数量,与目标问题对应,上文述及的第二文本集可以看作目标域数据。
如图2所示,可以首先从公开数据中获取一些带标签(即真实类别已知的)商户数据,如可以是某些商户分类比赛中的数据。这些数据往往数据量较小(几万条或几十万条),且与待分类的场景数据(即原始域数据)分布不一致。这些数据可以作为目标域数据待用。
对于海量待分类的商户数据(原始域数据),可以将每条数据按字粒度进行切分,例如,“江味龙虾馆”可以切分为“江/味/龙/虾/馆”的序列形式。根据按字粒度切分得到的待分类数据,可以构建char2vec模型,得到每个字的分布(distributed)表征,作为特征备用。根据得到的字的表征,还可以构建连续多字的分布表征,例如,双字的分布表征的构建方式为r(ab)=r(a)+r(b),其中,r(ab)为双字ab的分布表征,r(a)为单字a的分布表征,r(b)为单字b的分布表征。另外,还可以对原始域数据中的每条数据进行分词处理,并得到每个分词的one-hot特征。其中,单字的分布表征、双字的分布表征以及one-hot特征可以作为原始域数据的特征表达。
在得到原始域数据的特征表达后,可以将原始域数据中学习到的单字的分布表征和多字的分布表征迁移到目标域数据中,例如,可以将单字和双字的分布特征进行迁移。目标域数据中的特征包括三部分:(a)对目标域样本分词,词粒度的one-hot表征;(b)对目标域按字切分,字的分布表征;(b)对目标域按字切分,并组合相邻的多字,得到连续多字的分布表征。引入(b)、(c)的目的在于,通过单个字和双字的组合,可以将特征更丰富,并且避免由于分词错误导致的特征不足的情况。
由此,目标域数据中的每条数据的特征可以作为样本特征,标签可以作为样本标记,从而可以得到监督学习训练集。然后可以使用有监督机器学习的方式进行训练,以得到分类模型。
训练得到的分类模型,可以应用于原始域数据,对原始域数据中的每条数据的类别进行预测,并且还可以根据实际需求对分类模型的输出进行映射,以实现对原始域数据中待分类商户的分类。
可见,本发明提出了一种基于神经网络和迁移学习技术实现的文本分类方法,方法主要包括两部分,第一部分为特征学习,针对于无标注的场景数据(即原始域数据),学习其内在规律,构建特征;第二部分使用迁移学习,将学到的特征应用到带标签公开数据中(即目标域数据),进行模型训练,训练出的模型可以用于对无标注场景数据的类别进行预测,从而实现在缺少场景标注数据情况下有效进行分类。
以针对商户名分类为例,可以首先获取相对少量与商户名领域相关的、带标注的公开数据,然后使用无标注的场景内数据进行特征学习,如可以从单字和/或多字出发,学习出单字和/或多字的分布表征,并将其迁移到场景外的少量标注数据上,进行分类模型的训练,训练完成后再将模型应用于场景内数据,从而实现对商户名的有效分类。
本发明的文本分类方法还可以实现为一种文本分类装置。图3示出了根据本发明示例性实施例的文本分类装置的框图。其中,文本分类装置的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图3所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
下面就文本分类装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文相关描述,这里不再赘述。
参见图3,文本分类装置300包括学习模块310、获取模块320、训练模块330以及预测模块340。作为示例,第一文本和第二文本可以均为商户名称,该装置可以用于对第一文本集中的商户名称进行关于经营类别的分类。
学习模块310用于通过无监督机器学习方式学习第一文本集中的第一文本的各个单字和/或连续多字的分布表征。获取模块320用于基于学习到的第一文本集中对应单字和/或连续多字的分布表征,得到第二文本集中至少部分第二文本中每个第二文本中各个单字和/或连续多字的分布表征。训练模块330用于至少以第二文本中每个单字和/或连续多字的分布表征为训练样本特征,以该第二文本的真实类别为训练样本标记,使用有监督机器学习方式进行训练,以得到分类模型。预测模块340用于利用分类模型对第一文本的类别进行预测。
第一文本与第二文本的内容可以相同或相似,并且/或者第一文本集中第一文本的数量可以大于第二文本集中第二文本的数量,并且/或者第一文本集中第一文本的数据分布可以不同于第二文本集中第二文本的数据分布。其中,分布表征可以为词向量。连续多字可以包括不同字数的连续多字,并且,每个连续多字的分布表征等于连续多字中各个单字的分布表征之和。
作为示例,预测模块340可以至少以第一文本中每个单字和/或连续多字的分布表征为预测样本特征,利用分类模型对第一文本的类别进行预测。
如图3所示,文本分类装置300还可以可选地包括图中虚线框所示的特征获取模块350。特征获取模块350用于对第二文本进行分词处理,并获取每个分词的one-hot特征。其中,训练模块330可以以第二文本中每个单字和/或连续多字的分布表征和第二文本中每个分词的one-hot特征为训练样本特征。
并且,特征获取模块350可以对第一文本进行分词处理,并获取每个分词的one-hot特征,预测模块340可以以第一文本中每个单字和/或连续多字的分布表征和第一文本中每个分词的one-hot特征为预测样本特征,利用分类模型对第一文本的类别进行预测。
如图3所示,文本分类装置300还可选地包括图中虚线框所示的映射模块360。映射模块360用于根据第一文本的分类需求,对分类模型的预测结果进行映射。
图4示出了根据本发明示例性实施例的可用于实现上述文本分类方法的数据处理的计算设备的结构示意图。
参见图4,计算设备400包括存储器410和处理器420。
处理器420可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器420可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器420可以使用定制的电路实现,例如特定用途集成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA,Field Programmable Gate Arrays)。
存储器410可以包括各种类型的存储单元,例如***内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器420或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。***内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。***内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器410可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器410可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器410上存储有可执行代码,当可执行代码被处理器420执行时,可以使处理器420执行上文述及的文本分类方法。
上文中已经参考附图详细描述了根据本发明的文本分类方法、装置以及计算设备。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (20)

1.一种文本分类方法,其特征在于,包括:
通过无监督机器学习方式学习第一文本集中的第一文本的各个单字和/或连续多字的分布表征,所述分布表征为内在特征;
针对第二文本集中至少部分第二文本中的每个第二文本,基于学习到的所述第一文本集中对应单字和/或连续多字的分布表征,得到该第二文本中各个单字和/或连续多字的分布表征;
至少以所述第二文本中各个单字和/或连续多字的分布表征为训练样本特征,以该第二文本的真实类别为训练样本标记,使用有监督机器学习方式进行训练,以得到分类模型;以及
利用分类模型对所述第一文本的类别进行预测。
2.根据权利要求1所述的文本分类方法,其特征在于,
所述第一文本与所述第二文本的内容相同或相似;并且/或者
所述第一文本集中第一文本的数量大于所述第二文本集中第二文本的数量;并且/或者
所述第一文本集中第一文本的数据分布不同于所述第二文本集中第二文本的数据分布。
3.根据权利要求1所述的文本分类方法,其特征在于,
所述分布表征为词向量。
4.根据权利要求1所述的文本分类方法,其特征在于,
所述连续多字包括不同字数的连续多字,并且,
每个连续多字的分布表征等于所述连续多字中各个单字的分布表征之和。
5.根据权利要求1所述的文本分类方法,其特征在于,所述利用分类模型对所述第一文本的类别进行预测的步骤包括:
至少以所述第一文本中每个单字和/或连续多字的分布表征为预测样本特征,利用所述分类模型对所述第一文本的类别进行预测。
6.根据权利要求1所述的文本分类方法,其特征在于,还包括:
对所述第二文本进行分词处理,并获取每个分词的one-hot特征,
其中,所述至少以所述第二文本中每个单字和/或连续多字的分布表征为训练样本特征的步骤包括:以所述第二文本中每个单字和/或连续多字的分布表征和所述第二文本中每个分词的one-hot特征为训练样本特征。
7.根据权利要求6所述的文本分类方法,其特征在于,所述利用分类模型对所述第一文本的类别进行预测的步骤包括:
对所述第一文本进行分词处理,并获取每个分词的one-hot特征;
以所述第一文本中每个单字和/或连续多字的分布表征和所述第一文本中每个分词的one-hot特征为预测样本特征,利用所述分类模型对所述第一文本的类别进行预测。
8.根据权利要求1所述的文本分类方法,其特征在于,还包括:
根据所述第一文本的分类需求,对所述分类模型的分类结果进行映射。
9.根据权利要求1所述的文本分类方法,其特征在于,
所述第一文本和第二文本均为商户名称,该方法用于对所述第一文本集中的商户名称进行关于经营类别的分类。
10.一种文本分类装置,其特征在于,包括:
学习模块,用于通过无监督机器学习方式学习第一文本集中的第一文本的各个单字和/或连续多字的分布表征,所述分布表征为内在特征;
获取模块,用于针对第二文本集中至少部分第二文本中的每个第二文本,基于学习到的所述第一文本集中对应单字和/或连续多字的分布表征,得到该第二文本中各个单字和/或连续多字的分布表征;
训练模块,用于至少以所述第二文本中各个单字和/或连续多字的分布表征为训练样本特征,以该第二文本的真实类别为训练样本标记,使用有监督机器学习方式进行训练,以得到分类模型;以及
预测模块,用于利用分类模型对所述第一文本的类别进行预测。
11.根据权利要求10所述的文本分类装置,其特征在于,
所述第一文本与所述第二文本的内容相同或相似,并且/或者
所述第一文本集中第一文本的数量大于所述第二文本集中第二文本的数量,并且/或者
所述第一文本集中第一文本的数据分布不同于所述第二文本集中第二文本的数据分布。
12.根据权利要求10所述的文本分类装置,其特征在于,
所述分布表征为词向量。
13.根据权利要求10所述的文本分类装置,其特征在于,
所述连续多字包括不同字数的连续多字,并且,
每个连续多字的分布表征等于所述连续多字中各个单字的分布表征之和。
14.根据权利要求10所述的文本分类装置,其特征在于,
所述预测模块至少以所述第一文本中每个单字和/或连续多字的分布表征为预测样本特征,利用所述分类模型对所述第一文本的类别进行预测。
15.根据权利要求10所述的文本分类装置,其特征在于,还包括:
特征获取模块,用于对所述第二文本进行分词处理,并获取每个分词的one-hot特征,
其中,所述训练模块以所述第二文本中每个单字和/或连续多字的分布表征和所述第二文本中每个分词的one-hot特征为训练样本特征。
16.根据权利要求15所述的文本分类装置,其特征在于,
所述特征获取模块对所述第一文本进行分词处理,并获取每个分词的one-hot特征,
预测模块以所述第一文本中每个单字和/或连续多字的分布表征和所述第一文本中每个分词的one-hot特征为预测样本特征,利用所述分类模型对所述第一文本的类别进行预测。
17.根据权利要求10所述的文本分类装置,其特征在于,还包括:
映射模块,用于根据所述第一文本的分类需求,对所述分类模型的分类结果进行映射。
18.根据权利要求10所述的文本分类装置,其特征在于,
所述第一文本和第二文本均为商户名称,该装置用于对所述第一文本集中的商户名称进行关于经营类别的分类。
19.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-9中任何一项所述的方法。
20.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至9中任一项所述的方法。
CN201810729166.5A 2018-07-05 2018-07-05 文本分类方法、装置、设备以及存储介质 Active CN108875072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810729166.5A CN108875072B (zh) 2018-07-05 2018-07-05 文本分类方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810729166.5A CN108875072B (zh) 2018-07-05 2018-07-05 文本分类方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN108875072A CN108875072A (zh) 2018-11-23
CN108875072B true CN108875072B (zh) 2022-01-14

Family

ID=64298947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810729166.5A Active CN108875072B (zh) 2018-07-05 2018-07-05 文本分类方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN108875072B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614494B (zh) * 2018-12-29 2021-10-26 东软集团股份有限公司 一种文本分类方法及相关装置
CN110188798B (zh) * 2019-04-28 2023-08-08 创新先进技术有限公司 一种对象分类方法及模型训练方法和装置
WO2020220369A1 (en) 2019-05-01 2020-11-05 Microsoft Technology Licensing, Llc Method and system of utilizing unsupervised learning to improve text to content suggestions
US11429787B2 (en) 2019-05-01 2022-08-30 Microsoft Technology Licensing, Llc Method and system of utilizing unsupervised learning to improve text to content suggestions
WO2021168613A1 (en) 2020-02-24 2021-09-02 Yangtze Memory Technologies Co., Ltd. Systems and methods for semiconductor chip surface topography metrology
CN113008160B (zh) * 2020-02-24 2023-02-10 长江存储科技有限责任公司 用于半导体芯片表面形貌计量的***和方法
CN111406198B (zh) 2020-02-24 2021-02-19 长江存储科技有限责任公司 用于半导体芯片表面形貌计量的***和方法
WO2021168610A1 (en) 2020-02-24 2021-09-02 Yangtze Memory Technologies Co., Ltd. Systems having light source with extended spectrum for semiconductor chip surface topography metrology
CN111444686B (zh) * 2020-03-16 2023-07-25 武汉中科医疗科技工业技术研究院有限公司 医学数据标注方法、装置、存储介质及计算机设备
CN113761181B (zh) * 2020-06-15 2024-06-14 北京京东振世信息技术有限公司 一种文本分类方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326214A (zh) * 2016-08-29 2017-01-11 中译语通科技(北京)有限公司 一种基于迁移学习的跨语言情感分析方法及装置
CN107463658A (zh) * 2017-07-31 2017-12-12 广州市香港科大***研究院 文本分类方法及装置
CN107644057A (zh) * 2017-08-09 2018-01-30 天津大学 一种基于迁移学***衡文本分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897262A (zh) * 2016-12-09 2017-06-27 阿里巴巴集团控股有限公司 一种文本分类方法和装置以及处理方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326214A (zh) * 2016-08-29 2017-01-11 中译语通科技(北京)有限公司 一种基于迁移学习的跨语言情感分析方法及装置
CN107463658A (zh) * 2017-07-31 2017-12-12 广州市香港科大***研究院 文本分类方法及装置
CN107644057A (zh) * 2017-08-09 2018-01-30 天津大学 一种基于迁移学***衡文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《迁移学习在文本分类中的应用研究》;夏禹;《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》;20180315(第03期);第I138-2174页 *

Also Published As

Publication number Publication date
CN108875072A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108875072B (zh) 文本分类方法、装置、设备以及存储介质
CN109117848B (zh) 一种文本行字符识别方法、装置、介质和电子设备
Hu et al. Segmentation from natural language expressions
CN109902271B (zh) 基于迁移学习的文本数据标注方法、装置、终端及介质
CN107423278B (zh) 评价要素的识别方法、装置及***
WO2021258479A1 (zh) 一种基于图神经网络的网络攻击检测方法、***及装置
CN107168992A (zh) 基于人工智能的文章分类方法及装置、设备与可读介质
JP5534280B2 (ja) テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム
CN106852185A (zh) 基于字典的并行压缩编码器
CN110377727B (zh) 一种基于多任务学习的多标签文本分类方法和装置
CN110533018A (zh) 一种图像的分类方法及装置
CN114596566B (zh) 文本识别方法及相关装置
CN112101526A (zh) 基于知识蒸馏的模型训练方法及装置
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及***
CN111475651B (zh) 文本分类方法、计算设备及计算机存储介质
Lyu et al. The early Japanese books reorganization by combining image processing and deep learning
Nemade et al. Image segmentation using convolutional neural network for image annotation
Lopes et al. Exploring bert for aspect extraction in portuguese language
Liao et al. Doctr: Document transformer for structured information extraction in documents
CN112989043A (zh) 指代消解方法、装置、电子设备及可读存储介质
CN112395858A (zh) 融合试题数据和解答数据的多知识点标注方法和***
CN117727043A (zh) 信息重构模型的训练、图像检索方法、装置及设备
CN116701637A (zh) 一种基于clip的零样本文本分类方法、***及介质
Ali et al. Comparison Performance of Long Short-Term Memory and Convolution Neural Network Variants on Online Learning Tweet Sentiment Analysis
CN112785601A (zh) 一种图像分割方法、***、介质及电子终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant