CN111881295A - 文本分类模型训练方法及装置、文本标注方法及装置 - Google Patents

文本分类模型训练方法及装置、文本标注方法及装置 Download PDF

Info

Publication number
CN111881295A
CN111881295A CN202010761788.3A CN202010761788A CN111881295A CN 111881295 A CN111881295 A CN 111881295A CN 202010761788 A CN202010761788 A CN 202010761788A CN 111881295 A CN111881295 A CN 111881295A
Authority
CN
China
Prior art keywords
classification model
text classification
samples
sample
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010761788.3A
Other languages
English (en)
Other versions
CN111881295B (zh
Inventor
马小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Everbright Bank Co Ltd
Original Assignee
China Everbright Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Everbright Bank Co Ltd filed Critical China Everbright Bank Co Ltd
Priority to CN202010761788.3A priority Critical patent/CN111881295B/zh
Priority claimed from CN202010761788.3A external-priority patent/CN111881295B/zh
Publication of CN111881295A publication Critical patent/CN111881295A/zh
Application granted granted Critical
Publication of CN111881295B publication Critical patent/CN111881295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种文本分类模型训练方法及装置、文本标注方法及装置,其中,文本分类模型训练方法包括:通过第一样本集合生成第一文本分类模型与第二文本分类模型;其中,第一文本分类模型为一个或多个,第一样本集合中的样本为已标注样本;通过至少一个第一文本分类模型对第二样本集合中的样本进行标注,以将第二样本集合中符合第一预设条件的至少部分样本标记为第一循环样本;其中,第二样本集合中的样本为未标注样本;通过第一循环样本对于第二文本分类模型进行训练。通过本发明,解决了相关技术中文本进行标注的效率低下的问题,通过完成训练的第二文本分类模型即可达到显著改善文本标注效率的效果。

Description

文本分类模型训练方法及装置、文本标注方法及装置
技术领域
本发明实施例涉及自然语言处理领域,具体而言,涉及一种文本分类模型训练方法及装置、文本标注方法及装置。
背景技术
对文本数据样本进行标注与分析是自然语言处理(Natural LanguageProcessing,NLP)过程中的必要流程,文本标注分析的结果会直接影响自然语言处理在诸如金融、商业等领域内的应用结果。
相关技术中,实现上述文本标注分析的过程多为通过人工进行筛选,该人工筛选方式导致处理效率低下,标注日完成量通常在一百行到一千行之间,例如,对包含7476行数据的某样本集合,相关技术中单人处理需要花费近一月的时间。
针对上述相关技术中,文本进行标注的效率低下的问题,相关技术中尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本分类模型训练方法及装置、文本标注方法及装置,以至少解决相关技术中文本进行标注的效率低下的问题。
根据本发明的一个实施例,提供了一种文本分类模型训练方法,包括:
通过第一样本集合生成第一文本分类模型与第二文本分类模型;其中,所述第一文本分类模型为一个或多个,所述第一样本集合中的样本为已标注样本;
通过至少一个所述第一文本分类模型对第二样本集合中的样本进行标注,以将所述第二样本集合中符合第一预设条件的至少部分样本标记为第一循环样本;其中,所述第二样本集合中的样本为未标注样本;
通过所述第一循环样本对于第二文本分类模型进行训练。
根据本发明的另一个实施例,还提供了一种文本标注方法,包括上述实施例中所述的文本分类模型训练方法;所述文本标注方法包括:
通过完成训练后的所述第二文本分类模型对所述第二样本集合中的样本进行标注。
根据本发明的另一个实施例,还提供了一种文本分类模型训练装置,包括:
生成模块,用于通过第一样本集合生成第一文本分类模型与第二文本分类模型;其中,所述第一文本分类模型为一个或多个,所述第一样本集合中的样本为已标注样本;
循环模块,用于通过至少一个所述第一文本分类模型对第二样本集合中的样本进行标注,以将所述第二样本集合中符合第一预设条件的至少部分样本标记为第一循环样本;其中,所述第二样本集合中的样本为未标注样本;
训练模块,用于通过所述第一循环样本对于第二文本分类模型进行训练。
根据本发明的另一个实施例,还提供了一种文本标注装置,包括上述实施例中所述的文本分类模型训练装置;所述文本标注装置包括:
标注模块,用于通过完成训练后的所述第二文本分类模型对所述第二样本集合中的样本进行标注。
根据本发明的另一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的另一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明实施例,由于可通过第一样本集合生成一个或多个第一文本分类模型与第二文本分类模型,并进一步通过至少一个第一文本分类模型对第二样本集合中的样本进行标注,以将第二样本集合中符合第一预设条件的至少部分样本标记为第一循环样本,进而通过第一循环样本对于第二文本分类模型进行训练;其中,第二样本集合中的样本为未标注样本;其中,第一样本集合中的样本为已标注样本;第二样本集合中的样本为未标注样本。因此,本发明实施例可以解决相关技术中文本进行标注的效率低下的问题,通过完成训练的第二文本分类模型即可达到显著改善文本标注效率的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例提供的文本分类模型训练方法及装置、文本标注方法及装置的场景示意图;
图2是根据本发明实施例提供的终端设备的结构示意图;
图3是根据本发明实施例提供的文本分类模型训练方法的流程图;
图4是根据本发明实施例提供的文本标注方法的流程图;
图5是根据本发明实施例提供的文本分类模型训练装置的结构框图;
图6是根据本发明实施例提供的文本标注装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明的实施例。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
为进一步说明本发明实施例中的文本分类模型训练方法及装置、文本标注方法及装置的工作方式,以下对本发明实施例中的文本分类模型训练方法及装置、文本标注方法及装置的应用场景进行说明:
图1是根据本发明实施例提供的文本分类模型训练方法及装置、文本标注方法及装置的场景示意图,本发明实施例中的文本分类模型训练方法及文本标注方法可应用于如图1所示的***构架中。如图1所示,***架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解的是,图1中的终端设备、网络和服务器的数目仅仅是示意性的,根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
本发明实施例所提供的文本分类模型训练方法及文本标注方法通常由服务器105执行,相应地,本发明实施例中的文本分类模型训练装置及文本标注装置通常设置于服务器105中。但本领域技术人员容易理解的是,本发明实施例所提供的文本分类模型训练方法及文本标注方法也可以由终端设备101、102、103执行,相应的,文本数据标注装置也可以设置于终端设备101、102、103中,本发明实施例中对此不做特殊限定。
举例而言,在一示例性的实施例中,用户可通过终端设备101、102、103将第一样本集合与第二样本集合上传至服务器105,服务器105通过本发明实施例所提供的文本分类模型训练方法完成对文本分类模型的训练,并通过本发明实施例所提供的文本标注方法完成对文本的标注,并将标注后的文本传输给终端设备101、102、103等。
以上述终端设备为计算机为例进行说明,图2是根据本发明实施例提供的终端设备的结构示意图,如图2所示,计算机***200包括中央处理单元CPU201,其可以根据存储在只读存储器ROM202中的程序或者从存储部分208加载到随机访问存储器RAM203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有***操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出I/O接口205也连接至总线204。
上述I/O接口205还连接以下部件:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管CRT、液晶显示器LCD等以及扬声器等的输出部分207;包括硬盘等的存储部分208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入存储部分208。
根据本发明实施例提供的文本分类模型训练方法及文本标注方法的过程可以被实现为计算机软件程序。例如,在一示例性的实施例中,包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行文本分类模型训练方法及文本标注方法的程序代码。在示例性实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元CPU201执行时,执行本申请的方法和装置中限定的各种功能。
需要说明的是,本发明实施例中的计算机可读的存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读的存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器RAM、只读存储器ROM、可擦式可编程只读存储器EPROM或闪存、光纤、便携式紧凑磁盘只读存储器CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
以下对于本发明实施例中的文本分类模型训练方法及装置、文本标注方法及装置的工作方式进行阐述:
实施例1
根据本发明的一个实施例,提供了一种文本分类模型训练方法,图3是根据本发明实施例提供的文本分类模型训练方法的流程图,如图3所示,本实施例中的文本分类模型训练方法包括:
S102,通过第一样本集合生成第一文本分类模型与第二文本分类模型;其中,第一文本分类模型为一个或多个,第一样本集合中的样本为已标注样本;
S104,通过至少一个第一文本分类模型对第二样本集合中的样本进行标注,以将第二样本集合中符合第一预设条件的至少部分样本标记为第一循环样本;其中,第二样本集合中的样本为未标注样本;
S106,通过第一循环样本对于第二文本分类模型进行训练。
需要进一步说明的是,上述步骤S102中,由于第一样本集合中的样本为已标注样本,因此,即可根据第一样本集合中的已标注样本对预设的文本分类模型,例如,fasttext、textcnn、textrnn、transformer等进行训练,以得到第一文本分类模型与第二文本分类模型。需要说明的是,第一文本分类模型可以为一个,即通过第一样本集合生成了两个文本分类模型,对应第一文本分类模型与第二文本分类模型;第一文本分类模型也可以为多个,即通过第一样本集合生成了两个以上的文本分类模型,其中包括一个第二文本分类模型,除第二文本分类模型外的文本分类模型构成上述多个第一文本分类模型。当第一文本分类模型为多个时,多个第一文本分类模型之间可以互为不同的文本分类模型,即通过第一样本集合生成了多个相互不同的文本分类模型。
上述步骤S104中,通过至少一个第一文本分类模型对第二样本集合中的样本进行标注的过程中,当第一文本分类模型为多个时,可通过多个第一文本分类模型分别对于第二样本集合中的样本进行标注,并在每一个第一文本分类模型进行标注过程中选取出第二样本集合中符合第一预设条件的样本作为第一循环样本。由于该第一循环样本经过第一文本分类模型的标注,故即可通过该第一循环样本对第二文本分类模型进行训练。
需要进一步说明的是,本发明实施例中,第一文本分类模型与第二文本分类模型并不指示特定的文本分类模型,例如,步骤S102中通过第一样本集合生文本分类模型F1与F2,在步骤S104中,首先可将F1定义为第一文本分类模型,将F2定义为第二文本分类模型,以通过F1对第二样本集合中的样本进行标注,并标记出第一循环样本对F2进行训练。与此同时,也可以将F2定义为第一文本分类模型,将F1定义为第二文本分类模型,以通过F2对第二样本集合中的样本进行标注,并标记出第一循环样本对F1进行训练。
通过上述对不同文本分类模型的定义,本发明实施例的步骤S104即可实现对第一文本分类模型与第二文本分类模型的相互训练。
通过本发明实施例,由于可通过第一样本集合生成一个或多个第一文本分类模型与第二文本分类模型,并进一步通过至少一个第一文本分类模型对第二样本集合中的样本进行标注,以将第二样本集合中符合第一预设条件的至少部分样本标记为第一循环样本,进而通过第一循环样本对于第二文本分类模型进行训练;其中,第一样本集合中的样本为已标注样本;第二样本集合中的样本为未标注样本。以此,本发明实施例可通过第一循环样本对第二文本分类模型进行训练即可得到训练后的第二文本分类模型,进一步通过该训练后的第二文本分类模型对未标注的文本进行标注处理,即可实现对文本的自动标注处理。因此,本发明实施例可以解决相关技术中文本进行标注的效率低下的问题,通过完成训练的第二文本分类模型对于文本进行自动标注以替代相关技术中的人工标注的方式,即可达到显著改善文本标注效率的效果。
另一方面,本发明实施例通过第一文本分类模型与第二文本分类模型对于第二样本集合的交替标注与训练,以令最终得到的训练后的第二文本分类模型的标注精度较于人工标注以及单一文本分类器标注的方式可得以显著改善。
在一示例性实施例中,针对第一文本分类模型为一个的情形,本发明实施例中的文本分类模型训练方法包括:
通过第一样本集合生成第一文本分类模型与第二文本分类模型;
通过第一文本分类模型对第二样本集合中的样本进行标注,以将第二样本集合中分类可信度高于预设阈值的至少部分样本标记为第一循环样本;通过第二文本分类模型对第二样本集合中的样本进行标注,以将第二样本集合中分类可信度高于预设阈值的至少部分样本标记为第二循环样本;
根据第二循环样本对第一文本分类模型进行训练,根据第一循环样本对第二文本分类模型进行训练。
需要进一步说明的是,上述示例中,第一预设条件即为分类可信度高于预设阈值。
在一示例性实施例中,根据第二循环样本对第一文本分类模型进行训练,根据第一循环样本对第二文本分类模型进行训练之后,还包括:
循环执行以下操作,直至满足第二预设条件:
通过训练后的第一文本分类模型对第二样本集合中的样本进行标注,以将第二样本集合中分类可信度高于预设阈值的至少部分样本标记为第一循环样本;通过训练后的第二文本分类模型对第二样本集合中的样本进行标注,以将第二样本集合中分类可信度高于预设阈值的至少部分样本标记为第二循环样本;
根据第二循环样本对训练后的第一文本分类模型进行训练,根据第一循环样本对训练后的第二文本分类模型进行训练。
需要进一步说明的是,上述示例中,在根据第二循环样本对第一文本分类模型进行训练,根据第一循环样本对第二文本分类模型进行训练的过程中,第一文本分类模型与第二文本分类模型经过训练后,可再次循环进行分类与训练处理。举例而言,在第一文本分类模型(记为初始第一文本分类模型)对第二样本集合进行标注过程中以得到第一循环样本的前提下,可通过第一循环样本对于第二文本分类模型(记为初始第二文本分类模型)进行训练,训练后的第二文本分类模型记为一次训练第二文本分类模型。相应的,在第二文本分类模型(记为初始第二文本分类模型)对第二样本集合进行标注过程中以得到第二循环样本的前提下,可通过第二循环样本对于第一文本分类模型(记为初始第一文本分类模型)进行训练,训练后的第一文本分类模型记为一次训练第一文本分类模型。
上述示例中,则可进一步将一次训练第一文本分类模型与二次训练第一文本分类模型对第二分类模型进行重新标注处理,并在标注过程重新按照分类置信度选取出第一循环样本与第二循环样本。得到第一循环样本与第二循环样本,可再次通过第二循环样本对上述一次训练第一文本分类模型进行训练以得到二次训练第一文本分类模型,通过第一循环样本对上述一次训练第二文本分类模型进行训练以得到二次训练第二文本分类模型。
上述示例中,可进一步对二次训练第一文本分类模型与二次训练第二文本分类模型重复上述训练;以此往复,即实现对第一文本分类模型与第二文本分类模型的循环训练,直至满足第二预设条件。
在一示例性实施例中,第二预设条件包括以下至少之一:
第一文本分类模型与第二文本分类模型对第二样本集合中的样本分别进行标注的结果一致性的预测值大于或等于预设阈值;
循环的次数大于或等于预设阈值;
第二样本集合中的每一个样本均标记为第一循环样本和/或第二循环样本。
在一示例性实施例中,根据第二循环样本对第一文本分类模型进行训练,根据第一循环样本对第二文本分类模型进行训练,包括:
将第二循环样本作为第一文本分类模型的输入样本,将第二文本分类模型对第二循环样本的标注作为第一文本分类模型的输出样本,通过输入样本与输出样本对第一文本分类模型进行训练;
将第一循环样本作为第二文本分类模型的输入样本,将第一文本分类模型对第一循环样本的标注作为第二文本分类模型的输出样本,通过输入样本与输出样本对第二文本分类模型进行训练。
在一示例性实施例中,针对第一文本分类模型为多个的情形下,本发明实施例中的文本分类模型训练方法包括:
通过第一样本集合生成第一文本分类模型与第二文本分类模型;其中,第一文本分类模型为多个;
通过多个第一文本分类模型分别对第二样本集合中的样本进行标注,以将第二样本集合中多个第一文本分类模型标注一致的至少部分样本标记为第一循环样本;
通过第一循环样本对于第二文本分类模型进行训练。
需要进一步说明的是,上述示例中,通过第一样本集合生成第一文本分类模型与第二文本分类模型的过程中,设定存在两个第一文本分类模型F1与F2以及一个文本分类模型F3,则有,通过多个第一文本分类模型分别对第二样本集合中的样本进行标注的过程中,F1与F2分别对于第二样本集合中的样本进行标注,由于F1与F2可为不同的文本分类模型,故F1与F2对某一样本标注的结果可能一致也可能不一致;将F1与F2标注一致的样本标记为第一循环样本,即可通过该第一循环样本对F3进行训练。
根据前述说明,F1、F2、F3之间是可以重新赋值的,即将F1、F3定义为第一文本分类模型,将F2定义为第二文本分类模型,此时,重复上述过程,即通过F1与F3分别对于第二样本集合中的样本进行标注,将F1与F3标注一致的样本标记为第一循环样本,即可通过该第一循环样本对F2进行训练。类似的,还可以将F2、F3定义为第一文本分类模型,将F1定义为第二文本分类模型,此时,重复上述过程,即通过F2与F3分别对于第二样本集合中的样本进行标注,将F2与F3标注一致的样本标记为第一循环样本,即可通过该第一循环样本对F1进行训练。
至此,即可在存在多个第一文本分类模型的情形下,通过多个第一文本分类模型以确定第一循环样本,进而对第二文本分类模型进行训练。
需要进一步说明的是,上述训练的过程也可以是循环的,举例而言,对于训练后的F1、F2、F3,可重新通过其对于第二样本集合中的样本进行标注,以获取对应的第一循环样本,并再次进行训练,以此往复,直至满足第二预设条件。循环过程类似于上一个第一文本分类模型的情形,在此不再赘述。
需要进一步说明的是,上述示例中,第一预设条件即为多个第一文本分类模型对第二样本集合中的某样本的标注一致。
在一示例性实施例中,多个第一文本分类模型为不同的文本分类模型。
在一示例性实施例中,通过第一样本集合生成第一文本分类模型与第二文本分类模型,包括:
根据第一样本集合中的样本以及样本对应的标注,按照预设的分类模式生成第一文本分类模型与第二文本分类模型。
在一示例性实施例中,通过第一样本集合生成第一文本分类模型与第二文本分类模型之后,还包括:
通过第一文本分类模型对第二样本集合中的至少部分样本进行标注,并将误差小于预设阈值的样本放入至第一样本集合中;
通过第二文本分类模型对第二样本集合中的至少部分样本进行标注,并将误差小于预设阈值的样本放入至第一样本集合中。
为进一步说明本发明实施例中的文本分类模型训练方法,以下通过一示例性实施例进行说明:
S1,建立第一样本集合。通过人工或自动的方式对下述文本样本进行标注,标注后的文本样本即可构成第一样本集合。
第一样本集合包括:
“已标注样本01:公司主要从事细胞检测制备及存储、基因检测、体外诊断试剂和器械的研产销、以及生物基因、蛋白、抗体、医药中间体、实验用综合剂的研产销。已标注样本02:公司建立了独具特色的药物临床前研究服务、临床服务、药物警戒服务、优质实验动物的繁殖和销售以及基因编辑模式动物定制服务的产业链。已标注样本03:公司从事的业务主要由全过程设计咨询业务、工程总承包业务、绿色节能科技服务业务、工程检测业务、投资与产业结合业务五大板块组成。已标注样本04:公司主营业务为工程咨询与工程承包业务,覆盖公路、市政、建筑、水运等行业,主要提供公路、桥梁、隧道、岩土、机电、市政、建筑、港口与航道等领域的勘察、设计、咨询、试验检测、监理、施工、总承包等工程技术服务”。
上述第一样本集合中,针对各样本的标注为“公司主营业务”。
S2,通过上述第一样本集合对分别对fastText分类器与textCNN分类器进行训练,以得到第一文本分类模型F1与第二文本分类模型F2。
S3,通过第一文本分类模型F1对第二样本集合进行标注。
第二样本集合包括:
“未标注样本01:公司车身零部件产品主要指构成汽车白车身的冲压及焊接总成零部件,包括轮罩总成、柱类总成、天窗框总成、后端板总成、衣帽板总成、尾灯支架总成、侧围总成和中通道总成等,铝合金的冲压和总成零部件已经批量生产。未标注样本02:公司是一家集研产销全价值链、原料药与制剂一体化、多地域发展的综合性制药企业,主营化学原料药和制剂的研发、生产和销售业务。未标注样本03:公司专注于智能电网业务领域,专业从事智能电网配电、变电、用电、高低压开关及成套设备、分布式光伏发电设备等产品的研发、生产、销售和技术服务。未标注样本04:公司所从事的主要业务及经营模式公司主要业务涵盖液化天然气生产/销售与投资,能源技术工程服务,甲醇等能源化工产品生产、销售与贸易,煤炭的开采、洗选与贸易,以及生物制农兽药原料药及制剂的生产与销售。未标注样本05:公司主营的焊接与切割设备,分别被称为“钢铁缝纫机”和“钢铁剪刀”,是现代工业化生产中不可缺少的基础加工设备,只要用到金属材料加工的工业领域,就需要焊接与切割设备,其应用范围十分广泛。未标注样本06:公司主要业务公司的主要业务为从事轻型包装产品与重型包装产品的生产与销售,并为客户提供包装产品研发设计、整体包装方案优化、第三方采购与包装产品物流配送、供应商库存管理以及辅助包装作业等包装一体化服务”。
通过第一文本分类模型F1对第二样本集合进行标注后,其中,未标注样本02、未标注样本03、未标注样本04、未标注样本06的分类可信度高于预设阈值,故可对上述未标注样本02、未标注样本03、未标注样本04、未标注样本06进行标注后,作为第一循环样本。上述各第一循环样本的标注为“公司主营业务”。
S4,通过上述第一循环样本对于第二文本分类模型F2进行训练。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明的一个实施例,提供了一种文本标注方法,本实施例中的文本标注方法应用于实施例1中的文本分类模型训练方法训练所得的第二文本分类模型,图4是根据本发明实施例提供的文本标注方法的流程图,如图4所示,本实施例中的文本分类模型训练方法包括:
S202,通过第一样本集合生成第一文本分类模型与第二文本分类模型;其中,第一文本分类模型为一个或多个,第一样本集合中的样本为已标注样本;
S204,通过至少一个第一文本分类模型对第二样本集合中的样本进行标注,以将第二样本集合中符合第一预设条件的至少部分样本标记为第一循环样本;其中,第二样本集合中的样本为未标注样本;
S206,通过第一循环样本对于第二文本分类模型进行训练;
S208,通过完成训练后的第二文本分类模型对第二样本集合中的样本进行标注。
需要进一步说明的是,上述步骤S202至S206与实施例1中的步骤S102至S106对应,本实施例中步骤S202至S206记载的技术方案均可适用于实施例1中步骤S102至S106对应的示例性实施例,故在此不再赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例3
根据本发明的另一个实施例,还提供了一种文本分类模型训练装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本发明实施例的文本分类模型训练装置的结构框图,如图5所示,该装置包括:
生成模块302,用于通过第一样本集合生成第一文本分类模型与第二文本分类模型;其中,第一文本分类模型为一个或多个,第一样本集合中的样本为已标注样本;
循环模块304,用于通过至少一个第一文本分类模型对第二样本集合中的样本进行标注,以将第二样本集合中符合第一预设条件的至少部分样本标记为第一循环样本;其中,第二样本集合中的样本为未标注样本;
训练模块306,用于通过第一循环样本对于第二文本分类模型进行训练。
需要进一步说明的是,本实施例中的文本分类模型训练装置的技术效果与其余示例性实施例,均与实施例1中的文本分类模型训练方法相对应,故在此不再赘述。
在一示例性实施例中,本实施例中,生成模块302还用于,通过第一样本集合生成第一文本分类模型与第二文本分类模型;
循环模块304还用于,通过第一文本分类模型对第二样本集合中的样本进行标注,以将第二样本集合中分类可信度高于预设阈值的至少部分样本标记为第一循环样本;通过第二文本分类模型对第二样本集合中的样本进行标注,以将第二样本集合中分类可信度高于预设阈值的至少部分样本标记为第二循环样本;
训练模块306还用于,根据第二循环样本对第一文本分类模型进行训练,根据第一循环样本对第二文本分类模型进行训练。
在一示例性实施例中,根据第二循环样本对第一文本分类模型进行训练,根据第一循环样本对第二文本分类模型进行训练之后,还包括:
循环执行以下操作,直至满足第二预设条件:
通过训练后的第一文本分类模型对第二样本集合中的样本进行标注,以将第二样本集合中分类可信度高于预设阈值的至少部分样本标记为第一循环样本;通过训练后的第二文本分类模型对第二样本集合中的样本进行标注,以将第二样本集合中分类可信度高于预设阈值的至少部分样本标记为第二循环样本;
根据第二循环样本对训练后的第一文本分类模型进行训练,根据第一循环样本对训练后的第二文本分类模型进行训练。
在一示例性实施例中,第二预设条件包括以下至少之一:
第一文本分类模型与第二文本分类模型对第二样本集合中的样本分别进行标注的结果一致性的预测值大于或等于预设阈值;
循环的次数大于或等于预设阈值;
第二样本集合中的每一个样本均标记为第一循环样本和/或第二循环样本。
在一示例性实施例中,根据第二循环样本对第一文本分类模型进行训练,根据第一循环样本对第二文本分类模型进行训练,包括:
将第二循环样本作为第一文本分类模型的输入样本,将第二文本分类模型对第二循环样本的标注作为第一文本分类模型的输出样本,通过输入样本与输出样本对第一文本分类模型进行训练;
将第一循环样本作为第二文本分类模型的输入样本,将第一文本分类模型对第一循环样本的标注作为第二文本分类模型的输出样本,通过输入样本与输出样本对第二文本分类模型进行训练。
在一示例性实施例中,本实施例中,
生成模块302还用于,通过第一样本集合生成第一文本分类模型与第二文本分类模型;其中,第一文本分类模型为多个;
循环模块304还用于,通过多个第一文本分类模型分别对第二样本集合中的样本进行标注,以将第二样本集合中多个第一文本分类模型标注一致的至少部分样本标记为第一循环样本;
训练模块304还用于,通过第一循环样本对于第二文本分类模型进行训练。
在一示例性实施例中,多个第一文本分类模型为不同的文本分类模型。
在一示例性实施例中,通过第一样本集合生成第一文本分类模型与第二文本分类模型,包括:
根据第一样本集合中的样本以及样本对应的标注,按照预设的分类模式生成第一文本分类模型与第二文本分类模型。
在一示例性实施例中,通过第一样本集合生成第一文本分类模型与第二文本分类模型之后,还包括:
通过第一文本分类模型对第二样本集合中的至少部分样本进行标注,并将误差小于预设阈值的样本放入至第一样本集合中;
通过第二文本分类模型对第二样本集合中的至少部分样本进行标注,并将误差小于预设阈值的样本放入至第一样本集合中。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例4
根据本发明的另一个实施例,还提供了一种文本标注装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例中的文本标注装置应用于实施例3中的文本分类模型训练装置训练所得的第二文本分类模型,图6是根据本发明实施例的文本标注装置的结构框图,如图6所示,该装置包括:
生成模块402,用于通过第一样本集合生成第一文本分类模型与第二文本分类模型;其中,第一文本分类模型为一个或多个,第一样本集合中的样本为已标注样本;
循环模块404,用于通过至少一个第一文本分类模型对第二样本集合中的样本进行标注,以将第二样本集合中符合第一预设条件的至少部分样本标记为第一循环样本;其中,第二样本集合中的样本为未标注样本;
训练模块406,用于通过第一循环样本对于第二文本分类模型进行训练。
标注模块408,用于通过完成训练后的第二文本分类模型对第二样本集合中的样本进行标注。
需要进一步说明的是,上述生成模块402、循环模块404、训练模块406与实施例3中的生成模块302、循环模块304、训练模块306对应,本实施例中生成模块402、循环模块404、训练模块406均可适用于实施例1中生成模块302、循环模块304、训练模块306对应的示例性实施例,故在此不再赘述。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例5
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行上述实施例1与实施例2中步骤的计算机程序。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例6
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
在一个示例性实施例中,上述处理器可以被设置为通过计算机程序执行上述实施例1与实施例2中步骤。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种文本分类模型训练方法,其特征在于,所述方法包括:
通过第一样本集合生成第一文本分类模型与第二文本分类模型;其中,所述第一文本分类模型为一个或多个,所述第一样本集合中的样本为已标注样本;
通过至少一个所述第一文本分类模型对第二样本集合中的样本进行标注,以将所述第二样本集合中符合第一预设条件的至少部分样本标记为第一循环样本;其中,所述第二样本集合中的样本为未标注样本;
通过所述第一循环样本对于第二文本分类模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述第一文本分类模型为一个的情形下,所述方法包括:
通过所述第一样本集合生成所述第一文本分类模型与所述第二文本分类模型;
通过所述第一文本分类模型对所述第二样本集合中的样本进行标注,以将所述第二样本集合中分类可信度高于预设阈值的至少部分样本标记为所述第一循环样本;通过所述第二文本分类模型对所述第二样本集合中的样本进行标注,以将所述第二样本集合中分类可信度高于预设阈值的至少部分样本标记为第二循环样本;
根据所述第二循环样本对所述第一文本分类模型进行训练,根据所述第一循环样本对所述第二文本分类模型进行训练。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二循环样本对所述第一文本分类模型进行训练,根据所述第一循环样本对所述第二文本分类模型进行训练之后,还包括:
循环执行以下操作,直至满足第二预设条件:
通过训练后的所述第一文本分类模型对第二样本集合中的样本进行标注,以将所述第二样本集合中分类可信度高于预设阈值的至少部分样本标记为所述第一循环样本;通过训练后的所述第二文本分类模型对所述第二样本集合中的样本进行标注,以将所述第二样本集合中分类可信度高于预设阈值的至少部分样本标记为所述第二循环样本;
根据所述第二循环样本对训练后的所述第一文本分类模型进行训练,根据所述第一循环样本对训练后的所述第二文本分类模型进行训练。
4.根据权利要求3所述的方法,其特征在于,所述第二预设条件包括以下至少之一:
所述第一文本分类模型与所述第二文本分类模型对所述第二样本集合中的样本分别进行标注的结果一致性的预测值大于或等于预设阈值;
所述循环的次数大于或等于预设阈值;
所述第二样本集合中的每一个样本均标记为所述第一循环样本和/或所述第二循环样本。
5.根据权利要求2所述的方法,其特征在于,所述根据所述第二循环样本对所述第一文本分类模型进行训练,根据所述第一循环样本对所述第二文本分类模型进行训练,包括:
将所述第二循环样本作为所述第一文本分类模型的输入样本,将所述第二文本分类模型对所述第二循环样本的标注作为所述第一文本分类模型的输出样本,通过所述输入样本与所述输出样本对所述第一文本分类模型进行训练;
将所述第一循环样本作为所述第二文本分类模型的输入样本,将所述第一文本分类模型对所述第一循环样本的标注作为所述第二文本分类模型的输出样本,通过所述输入样本与所述输出样本对所述第二文本分类模型进行训练。
6.根据权利要求1所述的方法,其特征在于,所述第一文本分类模型为多个的情形下,所述方法包括:
通过第一样本集合生成所述第一文本分类模型与第二文本分类模型;其中,所述第一文本分类模型为多个;
通过多个所述第一文本分类模型分别对第二样本集合中的样本进行标注,以将所述第二样本集合中多个所述第一文本分类模型标注一致的至少部分样本标记为所述第一循环样本;
通过所述第一循环样本对于第二文本分类模型进行训练。
7.根据权利要求6所述的方法,其特征在于,多个所述第一文本分类模型为不同的文本分类模型。
8.根据权利要求1至7任一项中所述的方法,其特征在于,所述通过第一样本集合生成第一文本分类模型与第二文本分类模型,包括:
根据所述第一样本集合中的样本以及所述样本对应的标注,按照预设的分类模式生成第一文本分类模型与第二文本分类模型。
9.根据权利要求8所述的方法,其特征在于,所述通过第一样本集合生成第一文本分类模型与第二文本分类模型之后,还包括:
通过所述第一文本分类模型对所述第二样本集合中的至少部分样本进行标注,并将误差小于预设阈值的样本放入至所述第一样本集合中;
通过所述第二文本分类模型对所述第二样本集合中的至少部分样本进行标注,并将误差小于预设阈值的样本放入至所述第一样本集合中。
10.一种文本标注方法,其特征在于,包括权利要求1至9任一项中所述的文本分类模型训练方法;所述文本标注方法包括:
通过完成训练后的所述第二文本分类模型对所述第二样本集合中的样本进行标注。
11.一种文本分类模型训练装置,其特征在于,包括:
生成模块,用于通过第一样本集合生成第一文本分类模型与第二文本分类模型;其中,所述第一文本分类模型为一个或多个,所述第一样本集合中的样本为已标注样本;
循环模块,用于通过至少一个所述第一文本分类模型对第二样本集合中的样本进行标注,以将所述第二样本集合中符合第一预设条件的至少部分样本标记为第一循环样本;其中,所述第二样本集合中的样本为未标注样本;
训练模块,用于通过所述第一循环样本对于第二文本分类模型进行训练。
12.一种文本标注装置,其特征在于,包括权利要求11所述的文本分类模型训练装置;所述文本标注装置包括:
标注模块,用于通过完成训练后的所述第二文本分类模型对所述第二样本集合中的样本进行标注。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至9任一项中所述的方法,或执行权利要求10所述的方法。
14.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至9任一项中所述的方法,或执行权利要求10所述的方法。
CN202010761788.3A 2020-07-31 文本分类模型训练方法及装置、文本标注方法及装置 Active CN111881295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010761788.3A CN111881295B (zh) 2020-07-31 文本分类模型训练方法及装置、文本标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010761788.3A CN111881295B (zh) 2020-07-31 文本分类模型训练方法及装置、文本标注方法及装置

Publications (2)

Publication Number Publication Date
CN111881295A true CN111881295A (zh) 2020-11-03
CN111881295B CN111881295B (zh) 2024-08-02

Family

ID=

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241650A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 训练分类标准的训练方法和装置
CN109460795A (zh) * 2018-12-17 2019-03-12 北京三快在线科技有限公司 分类器训练方法、装置、电子设备及计算机可读介质
CN109582793A (zh) * 2018-11-23 2019-04-05 深圳前海微众银行股份有限公司 模型训练方法、客服***及数据标注***、可读存储介质
CN110110080A (zh) * 2019-03-29 2019-08-09 平安科技(深圳)有限公司 文本分类模型训练方法、装置、计算机设备及存储介质
CN110245235A (zh) * 2019-06-24 2019-09-17 杭州微洱网络科技有限公司 一种基于协同训练的文本分类辅助标注方法
CN110889463A (zh) * 2019-12-10 2020-03-17 北京奇艺世纪科技有限公司 一种样本标注方法、装置、服务器及机器可读存储介质
WO2020073507A1 (zh) * 2018-10-11 2020-04-16 平安科技(深圳)有限公司 一种文本分类方法及终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241650A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 训练分类标准的训练方法和装置
WO2020073507A1 (zh) * 2018-10-11 2020-04-16 平安科技(深圳)有限公司 一种文本分类方法及终端
CN109582793A (zh) * 2018-11-23 2019-04-05 深圳前海微众银行股份有限公司 模型训练方法、客服***及数据标注***、可读存储介质
CN109460795A (zh) * 2018-12-17 2019-03-12 北京三快在线科技有限公司 分类器训练方法、装置、电子设备及计算机可读介质
CN110110080A (zh) * 2019-03-29 2019-08-09 平安科技(深圳)有限公司 文本分类模型训练方法、装置、计算机设备及存储介质
CN110245235A (zh) * 2019-06-24 2019-09-17 杭州微洱网络科技有限公司 一种基于协同训练的文本分类辅助标注方法
CN110889463A (zh) * 2019-12-10 2020-03-17 北京奇艺世纪科技有限公司 一种样本标注方法、装置、服务器及机器可读存储介质

Similar Documents

Publication Publication Date Title
CN107479882B (zh) 投保页面的生成方法、生成装置、介质及电子设备
CN107832045A (zh) 跨编程语言接口转换的方法和装置
US20150066383A1 (en) Collapsible modular genomic pipeline
CN113435846A (zh) 业务流程编排方法、装置、计算机设备及存储介质
CN107895286A (zh) 理赔金额确定方法及装置、存储介质和电子设备
CN112328671A (zh) 一种数据格式转换方法、***、存储介质和设备
CN109582661B (zh) 数据结构化评估方法、装置、存储介质及电子设备
CN107256206A (zh) 字符流格式转换的方法和装置
CN107491382A (zh) 日志输出方法和装置
CN109815107A (zh) 自动化测试的方法和装置
Aiche et al. Workflows for automated downstream data analysis and visualization in large‐scale computational mass spectrometry
US20220198153A1 (en) Model training
US20070282579A1 (en) Computer System For Data Manipulation And Related Methods
US20220067659A1 (en) Research and development system and method
CN111383768B (zh) 医疗数据回归分析方法、装置、电子设备及计算机可读介质
CN112330502B (zh) 合同审核方法及装置、电子设备、存储介质
CN108845864A (zh) 一种基于spring框架的JVM垃圾回收方法和装置
CN111881295B (zh) 文本分类模型训练方法及装置、文本标注方法及装置
CN111881295A (zh) 文本分类模型训练方法及装置、文本标注方法及装置
CN117273335A (zh) 一种流程自动梳理方法、装置、设备和存储介质
CN108984221B (zh) 一种多平台用户行为日志的采集方法和装置
CN115526587A (zh) 一种海关报文的生成方法和装置
CN110764768A (zh) 一种模型对象与json对象互转的方法和装置
CN109901934A (zh) 生成接口帮助文档的方法和装置
CN113778401A (zh) 一种页面生成的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant