CN116738298B - 一种文本分类方法、***和存储介质 - Google Patents
一种文本分类方法、***和存储介质 Download PDFInfo
- Publication number
- CN116738298B CN116738298B CN202311028049.3A CN202311028049A CN116738298B CN 116738298 B CN116738298 B CN 116738298B CN 202311028049 A CN202311028049 A CN 202311028049A CN 116738298 B CN116738298 B CN 116738298B
- Authority
- CN
- China
- Prior art keywords
- text
- sample
- prompt
- type
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000012545 processing Methods 0.000 claims abstract description 87
- 238000013145 classification model Methods 0.000 claims description 163
- 238000012549 training Methods 0.000 claims description 88
- 230000008569 process Effects 0.000 claims description 33
- 230000036961 partial effect Effects 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 description 57
- 238000003058 natural language processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000012986 modification Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 11
- 230000002829 reductive effect Effects 0.000 description 10
- 230000004913 activation Effects 0.000 description 7
- 230000002779 inactivation Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000002372 labelling Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 230000007935 neutral effect Effects 0.000 description 5
- 230000008451 emotion Effects 0.000 description 4
- 238000011478 gradient descent method Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000000452 restraining effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241000272201 Columbiformes Species 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000579895 Chlorostilbon Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000010976 emerald Substances 0.000 description 1
- 229910052876 emerald Inorganic materials 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本分类方法、***和存储介质,所述方法包括:获取待处理文本的领域类型;获取包含领域类型的提示文本;处理待处理文本以及提示文本,得到待处理文本的结论类型。
Description
技术领域
本申请涉及文本处理领域,特别涉及一种文本分类方法、***和存储介质。
背景技术
根据应用场景的不同,作为NLP (Natural Language Processing,自然语言处理)中的一种基础任务,文本分类分为情感分析、主题判断、自然语言推理等。文本分类在金融领域中应用十分广泛,例如:金融参与者希望通过文本分类算法判断货币政策的情感倾向,进而来推测债券利率走向;或是利用文本分类算法分析金融资讯,判断市场情绪,从而达到预知股市波动的目的。
普通的文本分类方法直接将原始文本作为输入,文本的所属领域对文本分类模型并不可见,由此带来了语义相异问题。例如,“生产力增强”在通用领域中的情感倾向是积极的,但是对金融领域的情感倾向却是负向的。这是因为生产力的增强会引发银行利率上升,导致货币流动性降低,对股市而言是利空的。
由于金融领域标注数据十分有限,因此数据增强方法被常用来扩充训练数据。若标注数据本身的真实正确率就存在一定问题,那么使用标注数据制作的增强数据集则会传递原有的误差,甚至放大误差。
基于此,亟需一种应用范围更广的、更准确的文本分类方法。
发明内容
本说明书一个方面提供一种文本分类方法,所述方法包括:获取待处理文本的领域类型;获取包含所述领域类型的提示文本;处理所述待处理文本以及所述提示文本,得到所述待处理文本的结论类型。
本说明书另一个方面提供一种文本分类***,所述***包括:第一获取模块,用于获取待处理文本的领域类型;第二获取模块,用于获取包含所述领域类型的提示文本;确定模块,用于处理所述待处理文本以及所述提示文本,得到所述待处理文本的结论类型。
本说明书另一个方面提供一种计算机可读存储介质,其特征在于,所述存储介质存储计算机指令,当所述计算机指令被处理器执行时实现文本分类方法。
本说明书另一个方面提供一种文本分类模型训练方法,所述方法包括:获取第一类样本文本,所述第一类样本文本包括样本待处理文本、样本提示文本以及结论类型标签,所述样本提示文本包括所述样本文本的领域类型;通过所述文本分类模型处理所述第一类样本文本中的样本待处理文本和所述样本提示文本,得到对应于第一类样本文本的结论类型预测值;调整所述文本分类模型的参数,以减小对应于第一类样本文本的结论类型预测值和所述结论类型标签的差异。
本说明书另一个方面提供一种文本分类模型训练***,所述***包括:样本获取模块,用于获取第一类样本文本,所述第一类样本文本包括样本待处理文本、样本提示文本以及结论类型标签,所述样本提示文本包括所述样本待处理文本的领域类型;处理模块,用于通过所述文本分类模型处理所述第一类样本文本中的样本待处理文本和所述样本提示文本,得到对应于第一类样本文本的结论类型预测值;调参模块,用于调整所述文本分类模型的参数,以减小对应于第一类样本文本的结论类型预测值和所述结论类型标签的差异。
本说明书另一个方面提供一种计算机可读存储介质,其特征在于,所述存储介质存储计算机指令,当所述计算机指令被处理器执行时实现文本分类模型训练方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的文本分类的应用场景图;
图2是根据本说明书一些实施例所示的文本分类***的示例性模块图;
图3是根据本说明书一些实施例所示的文本分类模型训练***的示例性模块图;
图4是根据本说明书一些实施例所示的文本分类方法的示例性流程图;
图5是根据本说明书一些实施例所示的文本分类模型的示意图;
图6是根据本说明书一些实施例所示的文本分类模型的训练的示例性流程图;
图7是根据本说明书一些实施例所示的提示分类模型的结构示意图;
图8是根据本说明书一些实施例所示的领域分类模型训练的示例性流程图;
图9是根据本说明书一些实施例所示的提示分类模型训练的示例性流程图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本说明书中所使用的“***”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的***所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本说明书一些实施例所示的文本分类的应用场景图。
如图1所示,应用场景100可以包括:处理设备110可以处理从其他设备或***组成部分中获得的数据和/或信息。处理设备可以基于这些数据、信息和/或处理结果执行程序指令,以执行一个或多个本说明书中描述的功能。例如,处理设备110可以从用户终端130获取待处理文本。又例如,处理设备110可以对待处理文本进行处理,以获得待处理文本的领域类型。再例如,处理设备110还可以对待处理文本进行处理,得到待处理文本的提示文本、结论类型等。在一些实施例中,处理设备110可以包含一个或多个子处理设备(例如,单核处理设备或多核多芯处理设备)。
存储设备120可以用于存储数据和/或指令。例如,存储设备120可以存储待处理文本。又例如,存储设备120可以存储提示文本。存储设备120可以包括一个或多个存储组件,每个存储组件可以是一个独立的设备,也可以是其他设备的一部分。在一些实施例中,存储设备120可包括随机存取存储器(RAM)、只读存储器(ROM)、大容量存储器、可移动存储器、易失性读写存储器等或其任意组合。在一些实施例中,所述存储设备120可在云平台上实现。
用户终端130指用户所使用的一个或多个终端设备或软件。在一些实施例中,用户终端130可以用于与用户进行交互和显示。例如,用户终端130可以向用户显示待处理文本、提示文本和结论类型。又例如,用户终端130可以从用户获取用户输入的待处理文本。在一些实施例中,使用用户终端130的可以是一个或多个用户,可以包括直接使用服务的用户,也可以包括其他相关用户。在一些实施例中,用户终端130可以是移动设备130-1、平板计算机130-2、膝上型计算机130-3、台式计算机130-4等其他具有输入和/或输出功能的设备中的一种或其任意组合。
网络140可以连接***的各组成部分和/或连接***与外部资源部分。网络140使得各组成部分之间,以及与***之外其他部分之间可以进行通讯,促进数据和/或信息的交换。在一些实施例中,网络140可以是有线网络或无线网络中的任意一种或多种。各部分之间的网络连接可以是采用上述一种方式,也可以是采取多种方式。在一些实施例中,网络可以是点对点的、共享的、中心式的等各种拓扑结构或者多种拓扑结构的组合。在一些实施例中,网络140可以包括一个或以上网络接入点。例如,网络140可以包括有线或无线网络接入点,例如基站和/或网络交换点140-1、140-2…,通过这些进出点***的一个或多个组件可连接到网络140上以交换数据和/或信息。
在一些实施例中,处理设备110、用户终端130以及其他可能的***组成部分中可以包括存储设备120。在一些实施例中,用户终端130以及其他可能的***组成部分中可以包括处理设备110。
应该注意的是,上述描述仅出于说明性目的而提供,并不旨在限制本说明书的范围。对于本领域普通技术人员而言,在本说明书内容的指导下,可做出多种变化和修改。可以以各种方式组合本说明书描述的示例性实施例的特征、结构、方法和其他特征,以获取另外的和/或替代的示例性实施例。然而,这些变化与修改不会背离本说明书的范围。
图2是根据本说明书一些实施例所示的文本分类***的模块图。
如图2所示,文本分类***200可以包括第一获取模块210、第二获取模块220和确定模块230。
第一获取模块210可以用于获取待处理文本的领域类型。关于待处理文本的领域类型的获取的更多内容参考步骤410及其相关描述。
第二获取模块220可以用于获取包含领域类型的提示文本。关于包含领域类型的提示文本的获取的更多内容参考步骤420及其相关描述。
确定模块230可以用于处理待处理文本以及提示文本,得到待处理文本的结论类型。关于待处理文本以及提示文本的处理、待处理文本的结论类型的确定的更多内容参考步骤430及其相关描述。
图3是根据本说明书一些实施例所示的文本分类模型训练***的模块图。
如图3所示,文本分类模型训练***300可以包括样本获取模块310、处理模块320和调参模块330。
样本获取模块310可以用于获取第一类样本文本,第一类样本文本包括样本待处理文本、样本提示文本以及结论类型标签,样本提示文本包括样本待处理文本的领域类型。关于第一类样本文本的获取的更多内容参考步骤640及其相关描述。
处理模块320可以用于通过文本分类模型处理第一类样本文本中的样本待处理文本和样本提示文本,得到对应于第一类样本文本的结论类型预测值。关于结论类型预测值的确定的更多内容参考步骤660及其相关描述。
调参模块330可以用于调整文本分类模型的参数,以减小对应于第一类样本文本的结论类型预测值和结论类型标签的差异。关于文本分类模型的参数调整的更多内容参考步骤660及其相关描述。
图4是根据本说明书一些实施例所示的文本分类方法的示例性流程图。
在一些实施例中,流程400可以由处理设备110和/或文本分类***200实现。如图4所示,文本分类方法流程400可以包括:
步骤410,获取待处理文本的领域类型。具体地,步骤410可以由第一获取模块210执行。
待处理文本是指的是需要进行处理和分析的文本数据。待处理文本的来源可以是某些文章,例如,美联储或各国央行关于相关货币政策的文章。又例如,国家***关于经济数据的文章。再例如,***、银监会等发布的信息、监管要求等。
在一些实施例中,第一获取模块210可以把这些文章分句处理,将得到的每个句子作为一条待处理文本。应当了解的是,这些句子可能是相互独立的,而不是连续的或按照特定的顺序组成的,这些句子可能来自不同的文章或数据源。
领域类型是指待处理文本内容涉及的具体所属范畴,例如,领域类型可以是政策、经济、通胀以及货币等。
在一些实施例中,第一获取模块210可以通过领域分类模型处理待处理文本,得到待处理文本的领域类型。
领域分类模型是指用于对待处理文本的领域类型进行分类的模型。在一些实施例中,领域分类模型的输入是待处理文本,领域分类模型的输出是待处理文本的领域类型。
在一些实施例中,领域分类模型可以是但不限于支持向量机模型、Logistic回归模型、朴素贝叶斯分类模型、高斯分布贝叶斯分类模型、决策树模型、随机森林模型、KNN分类模型、神经网络模型等。
领域分类模型的训练参见图8及其说明。
在一些实施例中,第一获取模块210还可以通过其他方法获得待处理文本的领域类型。例如,第一获取模块210可以通过获取待处理文本和/或待处理文本来源文章的关键词,基于关键词确定待处理文本的领域类型。又例如,第一获取模块210可以基于待处理文本来源文章的发布渠道、作者等信息,得到待处理文本的领域类型。再例如,可以人工判断待处理文本的领域类型。
步骤420,获取包含领域类型的提示文本。具体地,步骤420可以由第二获取模块220执行。
提示文本是指包含提示性内容的文本。提示性内容可以包括领域类型信息等。
在一些实施例中,第二获取模块220可以获取提示文本模板,提示文本模板包括领域槽位。第二获取模块220可以基于提示文本模板完成包含领域类型的提示文本的构建。
提示文本模板是指预先定义好的文本结构或格式,其中包含一些占位符或变量,用于生成特定类型的提示文本。换言之,提示文本模板是一种通用化的文本框架,可以根据需要填充具体的内容(例如,领域类型),生成最终的提示文本。
在一些实施例中,第二获取模块220能够从存储设备120、处理设备110的存储单元等获取提示文本模板。在一些实施例中,第二获取模块220能够通过从存储设备、数据库读取和调用数据接口等方式获取得到提示文本模板。
在一些实施例中,提示文本模板包括领域槽位。领域槽位是指表示领域类型的字符和/或词语在提示文本中所占据的具***置,该位置一般在相应的提示文本模板中设置为固定的形式。例如,以下2个提示文本模板“…… which is<mask>for<class>andinterest rate”和“For the<class>and interest rates alike, …… ,which holds<mask>prospects”中,其中,“……”表示待处理文本的位置,“<class>”的位置即为领域槽位。
在一些实施例中,第二获取模块220可以在领域槽位中添加领域类型,得到提示文本。例如,在<class>位置填充economy,得到提示文本“…… which is<mask>for economyand interest rate”。
基于提示模板获取包含领域类型的提示文本,能够规范和优化提示文本的获取过程,提高处理效率和准确性。
在一些实施例中,第二获取模块220还可以通过其他方式获得包含领域类型的提示文本。例如,为待处理文本加前缀或后缀。前缀或后缀可以为可以表示领域类型的特定格式的词语或短语,例如,在待处理文本前加“[经济]”、"在经济方面"等。
包含领域类型的提示文本可以提供待处理文本的领域信息,提高文本处理在不同领域的准确性。
步骤430,处理待处理文本以及提示文本,得到待处理文本的结论类型。具体地,步骤430可以由确定模块230执行。
结论类型是指对目标指标产生不同影响或倾向的分类。目标指标可以包括利率、股指等。结常见的结论类型可以包括利好、利空和中性等。结论类型还可以包括鹰派、鸽派等。
在一些实施例中,确定模块230可以通过文本分类模型处理待处理文本以及提示文本,得到待处理文本的结论类型。具体的,确定模块230将待处理文本以及通过步骤420得到的包含领域类型的提示文本输入文本分类模型,机器学习模型进行处理后,输出待处理文本的结论类型。
在一些实施例中,文本分类模型的训练过程包括:训练文本分类模型预测出样本文本中被部分遮罩的内容,样本文本包括样本提示文本。
遮罩是指将样本文本中的某些词语或标记替换为特殊的掩码标记。被部分遮罩的内容是指包含特殊的掩码标记的文本。在一些实施例中,被部分遮罩的内容可以是提示文本。例如,提示文本“which is<mask>for economy and interest rate”中的一部分(<mask>位置的词语)被遮罩。
在一些实施例中,经过训练,文本分类模型能够预测出样本文本中被部分遮罩的内容。例如,将样本文本“We also see price increase, which is<mask>for economyand interest rate”输入文本分类模型,文本分类模型可以预测出“which is good foreconomy and interest rate”。
预测被部分遮罩的内容可以同时利用上文信息(句子中被遮罩词语左侧的部分),和下文信息(句子中被遮罩词语右侧的部分),从而更全面地理解文本。可以使文本分类模型在训练阶段学习到更丰富、更全面的语言表示。
在一些实施例中,文本分类模型的训练为预训练模型的下游任务。换言之,处理设备110可以进一步训练预训练模型,对预训练模型的参数进行微调,以得到文本分类模型,使其完成具体的文本任务要求。
预训练是指其生产方(如谷歌)在大规模文本数据上进行学习,让模型学习语言的一般性特征和语义表示,在预训练阶段,模型可以捕捉文本的上下文关系和语义信息。预训练模型通过大规模数据的学习,具备了对语言丰富的理解能力和表示能力。NLP(自然语言处理)领域中常见的预训练模型包括RoBERTa(Robustly Optimized BERT PretrainingApproach)、BERT(Bidirectional Encoder Representations from Transformers)、GPT(Generative Pre-trained Transformer)以及XLNet(eXtreme Language Understanding)等。预训练模型(例如,RoBERTa)的预训练过程包括:训练预训练模型预测出样本文本中被部分遮罩的内容。
不难看出,文本分类模型训练的任务形式与预训练模型的任务形式相同,二者都是预测出样本文本中被部分遮罩的内容。利用相同的任务形式,可以使预训练模型在大规模数据上学习到的通用特征能够被有效地迁移到文本分类任务中,从而提高文本分类任务的性能。
在一些实施例中,提示文本模板不仅包括领域槽位,还包括遮罩槽位。遮罩槽位是指被遮罩的字符和/或词语在提示文本中所占据的具***置,该位置一般在相应的提示文本模板中设置为固定的形式。在一些实施例中,提示文本中的遮罩槽位对应待处理文本的结论类型,换言之,提示文本中的表示结论类型的字符和/或词语被隐藏。
在一些实施例中,第二获取模块220可以在领域槽位中添加领域类型,并保持遮罩槽位的内容被隐藏,得到提示文本。例如,提示模板“…… which is<mask>for<class>andinterest rate”中,“<class>”的位置为领域槽位,<mask>的位置为遮罩槽位。在<class>位置填充economy,保持<mask>位置被隐藏,得到提示文本“…… which is<mask>foreconomy and interest rate”。
在一些实施例中,获取提示文本可以通过对应提示模板的函数完成。如公式所示,其中,/>表示对应/>对应的提示文本,/>表示第/>条待处理文本,,/>表示对应第j个提示模板的函数,/>表示总共定义的提示模板的数量,/>为/>的领域类型。
示例的,待处理文本为“We also see price increase”,/>为economy,提示文本模板/>为“…… which is<mask>for<class>and interest rate”,则通过函数,得到提示文本/>为“We also see price increase, which is<mask>foreconomy and interest rate”;提示文本模板/>为“For the<class>and interest ratesalike, …… ,which holds<mask>prospects”,则通过函数/>,得到提示文本为“For the economy and interest rates alike, we also see price increase,which holds<mask>prospects”。
将包含领域提示信息并隐藏结论类型的提示文本作为文本分类模型的输入,不仅可以使下游的文本分类任务与预训练模型的输入形式一致从而使预训练模型在大规模数据上学习到的通用特征可以被有效地迁移到文本分类任务中,还可以强化文本分类模型对领域知识的理解,使文本分类更准确。此外,通过对预训练模型进行微调得到文本分类模型,使其完成具体的文本任务要求,可以减少文本分类模型的训练成本,节省了时间和计算资源。
在一些实施例中,如图5所示,通过文本分类模型处理所待处理文本和提示文本,可以得到遮罩槽位对应的预测向量。
遮罩槽位对应的预测向量是指以向量形式表示的对应遮罩槽位的预测结果。在一些实施例中,该预测向量是维度为1×<Vocabulary size>的向量,其中,<Vocabulary size>为词表大小,该预测向量表示遮罩槽位对应的输出是词表中的每一个词的概率分布。
在一些实施例中,处理设备110可以基于预测向量确定待处理文本的结论类型。在一些实施例中,处理设备110可以基于标签映射,得到预测向量对应的结论类型。
标签映射是指根据一定的对应关系,将原始的标签内容(文本形式)与模型可识别并输入输出的内容进行匹配和索引。标签映射的输入是原来的分类标签,输出是人为定义好的一些表达利好、利空等的若干个token。例如,标签“利好”可以映射成的token可以是good、great或excellent,只要模型的输出是good、great或excellent中的一个,就认为模型输出的是“利好”。同理,标签“中性”可以映射成的token可以是normal、impartial或neutral, 标签“利空”可以映射成的token可以是bad、bearish或negtive。
可以理解,标签映射只能将标签映射为数量较少的token(token数记为n),而在实际应用中,词表中的词汇的数量可能比标签映射后得到的token数量大很多。在一些实施例中,处理设备110可以将维度为1×<Vocabulary size>的预测向量映射为维度为1×n的向量,该1×n的向量表示预测向量的语义为n个token中的每一个token的概率分布。在一些实施例中,处理设备110可以获取该1×n的向量中概率最大的token,并将该token对应的标签作为待处理文本的结论类型。
示例的,某个预测向量中对应“bullish”的概率最大,处理设备110可以将该预测向量映射为1×n的向量。该1×n的向量中,对应“good”的概率最大,而“good”对应的标签是“利好”,则可以得到该预测向量对应的结论类型为“利好”。
在一些实施例中,确定模块230可以将待处理文本以及提示文本输入文本分类模型,得到待处理文本的结论类型。关于文本分类模型的更多内容参见图5、图6。
在一些实施例中,确定模块230可以通过其他方法处理待处理文本以及提示文本,得到待处理文本的结论类型。例如,确定模块230可以获取待处理文本和提示文本中的关键词,通过关键词匹配的方法,确定待处理文本的结论类型。
图6是根据本说明书一些实施例所示的文本分类模型的的训练的示例性示意图。
在一些实施例中,文本分类模型的训练过程包括:训练文本分类模型预测出样本文本中被部分遮罩的内容,样本文本包括样本提示文本。在一些实施例中,经过训练,文本分类模型能够预测出样本文本中被部分遮罩的内容。例如,将样本文本“We also seeprice increase, which is<mask>for economy and interest rate”输入文本分类模型,文本分类模型可以预测出“which is good for economy and interest rate”。
如图6所示,文本分类模型的训练包括:
步骤610,预测未标注数据。
原始数据集,例如,原始货币政策数据集可以根据是否具有标签分为两个部分,即第一样本集D和第二样本集U。
第一样本集D包含了已经被人工或机器标注或者经过专家审核的样本数据,第一样本集D中的每个样本(第一类样本文本)都有相应的领域类型标签和结论类型标签。领域类型标签是指表明训练样本的领域类型的标签。结论类型标签是指对训练样本中所表达信息的类别进行分类的标签。结论类型标签用于表示训练样本对于某一特定事物或主题的倾向或态度。例如,结论类型标签可以是对利率的利好、利空或中性,也可以是鹰派或鸽派等倾向。
第二样本集U则是指没有被标记或审核的样本数据,第二样本集U中的每个样本(第二类样本文本)未标注领域类型和结论类型,换言之,第二类样本文本仅包括样本待处理文本。
在实际场景中,由于标注数据十分有限,因此需要扩充训练数据。在一些实施例中,处理设备110可以获取第二类样本文本,并对第二类样本文本的领域类型和结论类型做出预测,以扩充训练样本,使文本分类模型的训练数据充足。
第二类样本文本可以是训练集中未标注的分句,也可以是刚刚从数据源提取的、尚未加入训练集的文本,还可以是基于第一样本集中的样本待处理文本,通过词语替换、词组重组、语言模型生成等方法生成的样本待处理文本的近义和/或反义文本。在一些实施例中,第二样本集与第一样本集来自相同的数据源。
在一些实施例中,处理设备110能够从存储设备120、处理设备110的存储单元等获取第二类样本文本。在一些实施例中,处理设备110能够通过从存储设备、数据库读取,调用数据接口等方式获取得到第二类样本文本。
在一些实施例中,处理设备110通过训练好的领域分类模型对第二类样本文本进行处理,得到第二类样本文本的领域类型预测值。具体的,对于第二样本集,样本待处理文本集合为/>。利用领域分类模型得到领域类型预测值,并作为第二类样本文本的领域类型标签/>。
在一些实施例中,处理设备110通过训练好的提示分类模型得到第二类样本文本的结论类型预测值。提示分类模型的输入、输出、结构等参见图7及其说明、提示分类模型的训练参见图9及其说明。
步骤620,结果融合。
在一些实施例中,处理设备110可以利用两个以上提示分类模型分别处理相应第二类样本文本的样本待处理文本以及样本提示文本,得到结论类型软标签。
在一些实施例中,软标签仅用于区别真实标签,但其内容与具有标注的样本的标签一致。在又一些实施例中,软标签是指一种概率分布形式的标签,与硬标签(即只包含一个确定的类别)不同,软标签对每个结论类型分配一个概率值,表示该第二类样本文本属于该类别的可能性大小。例如,某样本待处理文本的结论类型的标签或硬标签为“利好”,该样本待处理文本的软标签可能为[0.8, 0.1, 0.1],表示该样本待处理文本的结论类型有80%的概率是“利好”,10%的概率是“中性”,10%的概率是“利空”。
使用软标签的方式相比于硬标签可以提升模型泛化性和鲁棒性,缓解数据增强带来的误差传播问题。
在一些实施例中,处理设备110可以获取分别对应于两个以上提示分类模型的两个以上提示文本模板;提示文本模板包括领域槽位和遮罩槽位,遮罩槽位对应结论类型。在一些实施例中,处理设备110可以参照步骤420中的方法,获取分别对应于两个以上提示分类模型的两个以上提示文本模板。
在一些实施例中,处理设备110可以分别在两个以上提示文本模板的领域槽位中添加相应样本待处理文本的领域类型,得到对应于不同提示分类模型的第二类样本文本的样本提示文本。在一些实施例中,处理设备110可以参照步骤420中的方法,基于提示文本模板得到第二类样本文本的样本提示文本。
在一些实施例中,分别对应于两个以上提示分类模型的两个以上提示文本模板具有不同的关键词和/或语序。在一些实施例中,文本分类模型的提示文本模板可以与提示分类模型的提示文本模板相同或不同。
在一些实施例中,处理设备110可以将两个以上提示分类模型得到的两个以上结论类型预测值通过加权方式融合,并将融合结果保存为结论类型软标签,得到新的标注数据。例如,对于未标注句子,句子/>对应的结论类型软标签/>可以通过公式/>获得,其中,/>为加权系数。
在一些实施例中,处理设备110可以通过取平均值的方式确定加权系数,也可以依赖实验结果,确定加权系数。例如,如果经实验得出某部分提示分类模型的提示效果较好,就赋予该部分提示分类模型的输出更大的加权系数。
由于两个以上提示分类模型分别在独立的提示上进行训练,提示之间不存在交互,且提示本身也是一种噪声,因此需要合并几种提示分类模型的预测结果,来保证高准确率。
步骤630,合并数据集。
经步骤620标注后的第二样本集可表示为句子/>,标签/>。
在一些实施例中,处理设备110可以将标注后的第二样本集与第一样本集/>合并,得到合并数据集/>。合并数据集/>中的句子为/>,表示为/>,结论类型标签为/>,表示为/>,领域类型标签为/>,表示为/>。
步骤640,获取样本提示文本。
在一些实施例中,对于第一类样本文本,领域信息直接由领域类型标签/>给出。样本获取模块310可以应用提示映射函数/>得到样本提示文本。
在一些实施例中,样本获取模块310可以获取文本分类模型对应的提示文本模板,提示文本模板包括领域槽位和遮罩槽位,遮罩槽位对应结论类型;在领域槽位中添加相应样本待处理文本的领域类型,得到第一类样本文本的样本提示文本。例如,样本获取模块310可以采用步骤420中相同或相似的方法基于文本分类模型对应的提示文本模板得到第一类样本文本的样本提示文本。
在一些实施例中,第一类训练样本中的或第二类训练样本中的样本待处理文本的领域类型通过领域分类模型处理第一类训练样本中的或第二类训练样本中的样本待处理文本得到。对于第一类样本文本,其领域类型标签可以通过人工标记和/或由领域分类模型预测得到。
对于第二类样本文本,其领域信息由领域分类模型/>预测得到,应用提示映射函数/>可得到样本提示文本。
步骤650,定义文本分类损失函数。
在一些实施例中,通过文本分类模型处理第一类样本文本中的样本待处理文本和样本提示文本,可以得到遮罩槽位对应的预测向量,以及对应于样本待处理文本和样本提示文本的文本预测向量,如BERT模型输出的CLS向量。在一些实施例中,处理设备110可以采用与步骤430中相同或相似的方法基于预测向量确定对应于第一类样本文本的结论类型预测值。处理设备110基于文本预测向量确定领域类型预测值。
在一些实施例中,文本分类损失函数的第一项反映对应于第一类样本文本和/或第二类样本文本的结论类型预测值和结论类型标签的差异,第二项反映对应于第一类样本文本和/或第二类样本文本的领域类型预测值和相应领域类型标签的差异。例如,处理设备110可以基于领域分类损失函数和结论分类损失函数构建文本分类损失函数。例如,文本分类损失函数可以如公式/>所示,其中,/>为控制系数,/>。/>为领域分类损失函数,可表示为/>。/>为结论分类损失函数,可表示为:/>。
其中,表示交叉熵损失函数,/>为文本分类模型/>的输出,/>表示领域类型标签,/>表示结论类型标签。
通过将领域分类损失函数作为文本分类损失函数的一部分,可以使文本分类模型在训练时,能够参考文本本身信息以及文本的领域信息,进而确保文本分类模型对文本的领域判断准确,保证文本分类模型输出的结论类型的正确性。
在一些实施例中,文本分类损失函数中,还包括正则项。正则项是通过在损失函数中添加惩罚项来对模型进行约束,从而减小参数的数值范围,降低模型的过拟合风险。
在一些实施例中,随机失活项和正则项可以结合使用,能够更加有效地提高模型的泛化能力,缓解过拟合的问题。
步骤660,训练文本分类模型。
在一些实施例中,处理设备110可以基于合并数据集中的训练样本(包括第一类样本文本和/或标注后的第二类样本文本)训练文本分类模型。
示例的,处理模块320可以通过文本分类模型处理训练样本中的样本待处理文本和样本提示文本,得到对应于训练样本的结论类型预测值。调参模块330可以调整文本分类模型的参数,以减小对应于训练样本的结论类型预测值和结论类型标签的差异。
在一些实施例中,调参模块330可以在合并数据集上对初始文本分类模型进行若干次迭代训练,得到训练后的文本分类模型。迭代训练的方法可以包括:计算文本分类损失函数的梯度,并通过梯度下降法迭代更新文本分类模型的参数,以减小结论类型预测值和结论类型标签的差异。梯度下降法可以包括标准梯度下降法和随机梯度下降法等。迭代训练中可以采用多种学习率衰减策略,例如,分段衰减、逆时衰减、指数衰减和自适应衰减等。当迭代终止条件满足时,可以结束迭代训练。迭代终止条件可以包括文本分类损失函数收敛或小于预设阈值、迭代轮次达到预设轮次等。
在一些实施例中,为进一步提升模型的准确率以及鲁棒性,调参模块330可以根据经验和/或需求调整学习率,从而训练得到最终的文本分类模型。
图7是根据本说明书一些实施例所示的提示分类模型的结构示意图。
如图7所示,提示分类模型的输入是待处理文本和提示文本,提示分类模型的输出包括待处理文本的领域类型和待处理文本的结论类型。提示分类模型包括自然语言处理模型、线性层、随机失活项、激活函数等。
自然语言处理模型用于自然语言处理任务的各种机器学习和深度学习模型。在一些实施例中,自然语言处理模型可以包括预训练语言模型(Pre-trained LanguageModels),例如,RoBERTa、BERT、GPT和XLNet等。在一些实施例中,自然语言处理模型还可以包括:词袋模型(Bag-of-Words Model)、词嵌入模型(Word Embedding Models)、长短期记忆网络(Long Short-Term Memory,LSTM)等。
线性层可以将输入数据与权重矩阵相乘,并加上偏置向量。在一些实施例中,线性层与自然语言处理模型连接,可以将自然语言处理模型的输出映射到最终的任务输出空间,例如情感分类或命名实体识别。
随机失活项是指在网络训练的过程中,随机丢弃一部分神经元,以此来减少神经元之间的依赖关系,带来泛化性能的提升。通过随机丢弃一部分神经元,强制网络学习到出现在样本中的不同特征的组合,从而减少神经元之间的依赖关系,防止过拟合的发生。
激活函数是一种非线性转换函数。常见的激活函数包括:Sigmoid函数、ReLU函数、激活函数、Tanh函数、Softmax函数等。激活函数的作用是引入非线性特性,使模型能够学习和表示复杂的数据模式和关系,以增加模型的表达能力和非线性拟合能力。
提示分类模型的主要任务是结论分类,例如,如图7右侧所示,通过自然语言处理模型、线性层、随机失活项、激活函数的处理,可以得到待处理文本的结论类型。但为了使提示分类模型充分理解领域知识,提示分类模型中可以加入一项领域分类子任务,例如,如图7左侧所示,通过自然语言处理模型、线性层、随机失活项、激活函数的处理,提示分类模型还可以输出待处理文本的领域类型。
在一些实施例中,文本分类模型与提示分类模型具有相同的模型结构。在一些实施例中,处理设备110可以根据不同提示模板,分别训练多个提示分类模型,利用训练好的多个提示分类模型对样本待处理文本(例如,第二类样本文本中的样本待处理文本)标识出结论类型标签。在一些实施例中,处理设备110可以利用由多个提示分类模型标注好的样本文本,训练文本分类模型。
图8是根据本说明书一些实施例所示的领域分类模型训练的示例性示意图。
如图8所示,在一些实施例中,领域分类模型的训练过程包括如下步骤:
步骤810,数据准备。
在一些实施例中,处理设备110基于第一样本集D训练领域分类模型。第一样本集D中的每个样本(第一类样本文本)都有相应的领域类型标签和结论类型标签。
首先,处理设备110对原始数据集进行数据清洗,数据清洗包括去除特殊字符、空格替换、标签检查等。标签检查是指对标签的标注内容进行错漏筛查,包括检查标签的字符有无错误或缺漏,并不检查标签跟样本之间的逻辑关系。在一些实施例中,可以先通过机器语言脚本自动化筛查一遍标签文本内容,如有问题,再由标注人员进行最终审定。
清洗后的第一样本集可表示为集合/>,其中/>表示标注数据集中的第/>个句子,n为标注数据集的长度;对应的标签可表示为集合/>,其中、/>分别表示第/>个句子对应的领域类型标签和结论类型标签。
其次,处理设备110将第一样本集随机拆分为训练集和测试集,分别表示为/>和/>,训练集用于领域分类模型的训练,测试集用于评估领域分类模型的性能和泛化能力。在一些实施例中,处理设备110可以按照70:30或80:20的比例对第一样本集/>进行划分,即训练集占总数据集的70%或80%,而测试集占标注数据集的30%或20%。当划分比例为80:20时,/>和/>的长度分别为/>以及/>。
步骤820,数据输入。
由于领域分类模型只涉及领域分类,不涉及结论分类。因此,领域分类模型的训练中,只使用训练样本的领域类型标签。
处理设备110将训练集中的样本,以及对应的标签/>。输入领域分类模型。
步骤830,定义领域分类损失函数。
在一些实施例中,领域分类的训练中,可以使用交叉熵损失函数、均方差损失函数等损失函数。
例如,设对于句子,领域分类模型/>输出为/>,/>表示交叉熵损失函数。则领域分类损失函数为:/>。
在一些实施例中,领域分类损失函数中,还包括正则项。正则项是通过在损失函数中添加惩罚项来对模型进行约束,从而减小参数的数值范围,降低模型的过拟合风险。
在一些实施例中,随机失活项和正则项可以结合使用,能够更加有效地提高模型的泛化能力,缓解过拟合的问题。
步骤840,训练领域分类模型。
在一些实施例中,处理设备110可以基于领域分类损失函数对领域分类模型的参数进行调整,以减小与/>之间的差异。例如,通过不断调整领域分类模型的参数,使得领域分类损失函数减小或最小化。
在一些实施例中,处理设备110可以通过与步骤420相同或类似的方法,获取样本待处理文本的提示文本,提示文本包含样本待处理文本的领域类型。
图9是根据本说明书一些实施例所示的提示分类模型训练的示例性示意图。
在一些实施例中,提示分类模型包括的训练过程包括:训练提示分类模型预测出样本文本中被部分遮罩的内容,样本文本包括样本提示文本;提示文本模板包括领域槽位和遮罩槽位,遮罩槽位对应结论类型。
步骤910,获取样本提示文本。
在一些实施例中,处理设备110可以通过与步骤420相同或类似的方法,获取样本文本的提示文本,提示文本包含样本文本的领域类型,提示文本中遮罩槽位对应结论类型,即结论类型被隐藏。
步骤920,定义提示分类损失函数。
在一些实施例中,处理设备110可以基于领域分类损失函数和结论分类损失函数构建提示分类损失函数。例如,提示分类损失函数可以如公式/>所示,其中,/>为控制系数,/>。/>为领域分类损失函数,可表示为/>。为结论分类损失函数,可表示为:/>。
其中,表示交叉熵损失函数,/>为提示分类模型/>的输出,/>表示领域类型标签,/>表示结论类型标签。
通过将领域分类损失函数作为提示分类损失函数的一部分,可以使提示分类模型在训练时,能够参考文本本身信息以及文本的领域信息,进而确保提示分类模型对句子的领域判断准确,保证提示分类模型输出的利率类型的正确性。
在一些实施例中,提示分类损失函数中,还包括正则项。正则项是通过在损失函数中添加惩罚项来对模型进行约束,从而减小参数的数值范围,降低模型的过拟合风险。
在一些实施例中,随机失活项和正则项可以结合使用,能够更加有效地提高模型的泛化能力,缓解过拟合的问题。
步骤930,训练提示分类模型。
在一些实施例中,处理设备110可以基于提示分类损失函数对提示分类模型的参数进行调整,以减小与/>之间的差异和/>与/>之间的差异。例如,通过不断调整提示分类模型的参数,使得提示分类损失函数减小或最小化。
在一些实施例中,处理设备110可以根据不同提示模板,分别训练多个提示分类模型,其中m为正整数。在一些实施例中,训练好的提示分类模型可以用于结论预测、扩充训练样本等。
应当注意,关于流程的以上描述仅是出于说明的目的而提供的,并且无意于限制本说明书的范围。对于本领域的普通技术人员来说,可以根据本说明书的描述,做出各种各样的变化和修改。然而,这些变化和修改不脱离本说明书的范围。上面呈现的流程的操作示意图是说明性的。在一些实施例中,可以利用一个或以上未描述的附加操作和/或未讨论的一个或以上操作来完成上述过程。例如,流程可以以程序或指令的形式存储在存储设备(例如,存储设备150、***的存储单元)中,当处理设备110和/或文本分类***200执行指令时,可以实现流程。另外,图中示出的和上面描述的流程的操作的顺序并非限制性的。
本说明书实施例可能带来的有益效果包括但不限于:(1)通过使用提示词为模型带来领域知识,并为模型加入领域分类损失函数,强化模型对领域知识的理解,使文本分类更准确;(2)通过提示模板,将下游分类任务目标与预训练任务对齐,解决预训练-微调不一致问题,以提高模型训练的效率和效果;(3)应用半监督学习,引入带软标签的新数据,同时提升模型准确率和鲁棒性。
需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“***”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行***、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的***组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的***。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (18)
1.一种文本分类方法,所述方法包括:
获取待处理文本的领域类型;
获取包含所述领域类型的提示文本;
通过文本分类模型处理所述待处理文本以及所述提示文本,得到所述待处理文本的结论类型;
所述文本分类模型通过利用样本文本对预训练模型进行微调获得,所述微调的过程包括:
获取样本文本,所述样本文本包括样本待处理文本;
获取分别对应于两个以上提示分类模型的两个以上提示文本模板;
分别在所述两个以上提示文本模板的领域槽位中添加相应样本待处理文本的领域类型,得到对应于不同提示分类模型的样本文本的样本提示文本;
利用所述两个以上提示分类模型分别处理相应所述样本文本的样本待处理文本以及样本提示文本,得到的两个以上结论类型预测值;
将所述两个以上结论类型预测值通过加权方式融合,并将融合结果保存为结论类型软标签;
通过所述文本分类模型处理所述样本文本中的样本待处理文本和所述样本提示文本,得到对应于所述样本文本的结论类型预测值;
调整所述文本分类模型的参数,以减小对应于所述样本文本的结论类型预测值和所述结论类型软标签的差异。
2.如权利要求1所述的方法,所述获取待处理文本的领域类型包括:
通过领域分类模型处理所述待处理文本,得到所述待处理文本的领域类型。
3.如权利要求1所述的方法,所述获取包含所述领域类型的提示文本包括:
获取提示文本模板,所述提示文本模板包括领域槽位;
在所述领域槽位中添加所述领域类型,得到所述提示文本。
4.如权利要求1所述的方法,所述利用样本文本对预训练模型进行微调包括:
训练所述文本分类模型预测出所述样本文本中被部分遮罩的内容。
5.如权利要求1所述的方法,所述获取包含所述领域类型的提示文本,包括:
获取提示文本模板,所述提示文本模板包括领域槽位和遮罩槽位,所述遮罩槽位对应结论类型;
在所述领域槽位中添加所述领域类型,得到所述提示文本。
6.如权利要求5所述的方法,所述通过文本分类模型处理所述待处理文本以及所述提示文本,得到所述待处理文本的结论类型,包括:
通过文本分类模型处理所述待处理文本和所述提示文本,得到所述遮罩槽位对应的预测向量;
基于所述预测向量确定所述待处理文本的结论类型。
7.一种文本分类模型训练方法,所述方法包括:
获取样本文本,所述样本文本包括样本待处理文本;
获取分别对应于两个以上提示分类模型的两个以上提示文本模板;
分别在所述两个以上提示文本模板的领域槽位中添加相应样本待处理文本的领域类型,得到对应于不同提示分类模型的样本文本的样本提示文本;
利用所述两个以上提示分类模型分别处理相应所述样本文本的样本待处理文本以及样本提示文本,得到的两个以上结论类型预测值;
将所述两个以上结论类型预测值通过加权方式融合,并将融合结果保存为结论类型软标签;
通过所述文本分类模型处理所述样本文本中的样本待处理文本和所述样本提示文本,得到对应于所述样本文本的结论类型预测值;
调整所述文本分类模型的参数,以减小对应于所述样本文本的结论类型预测值和所述结论类型软标签的差异。
8.如权利要求7所述的方法,所述文本分类模型的训练过程包括:
训练所述文本分类模型预测出所述样本文本中被部分遮罩的内容,所述样本文本包括样本提示文本。
9.如权利要求7所述的方法,所述样本文本包括第一类样本文本,所述方法还包括:
获取所述第一类样本文本,所述第一类样本文本包括样本待处理文本、样本提示文本、领域类型标签以及结论类型标签,所述样本提示文本包括所述样本待处理文本的领域类型;
获取文本分类模型对应的提示文本模板,所述提示文本模板包括领域槽位和遮罩槽位,所述遮罩槽位对应结论类型;
在所述领域槽位中添加相应样本待处理文本的领域类型,得到所述第一类样本文本的样本提示文本。
10.如权利要求7所述的方法,所述提示文本模板还包括遮罩槽位,所述遮罩槽位对应结论类型;所述通过所述文本分类模型处理所述样本文本中的样本待处理文本和所述样本提示文本,得到对应于所述样本文本的结论类型预测值,包括:
通过文本分类模型处理所述样本文本中的样本待处理文本和样本提示文本,得到所述遮罩槽位对应的预测向量;
基于所述预测向量确定对应于所述样本文本的结论类型预测值。
11.如权利要求7所述的方法,所述调整所述文本分类模型的参数,以减小对应于所述样本文本的结论类型预测值和所述结论类型软标签的差异,包括:
构建损失函数,所述损失函数反映对应于所述样本文本的结论类型预测值和所述结论类型软标签的差异;
调整所述文本分类模型的参数,以减小所述损失函数。
12.如权利要求7所述的方法,所述提示分类模型的训练过程包括:训练所述提示分类模型预测出样本文本中被部分遮罩的内容,所述样本文本包括样本提示文本;提示文本模板包括领域槽位和遮罩槽位,所述遮罩槽位对应结论类型。
13.如权利要求7所述的方法,分别对应于两个以上提示分类模型的两个以上提示文本模板具有不同的关键词和/或语序。
14.如权利要求7所述的方法,所述样本待处理文本的领域类型通过领域分类模型处理所述样本待处理文本得到。
15.一种文本分类***,所述***包括:
第一获取模块,用于获取待处理文本的领域类型;
第二获取模块,用于获取包含所述领域类型的提示文本;
确定模块,用于通过文本分类模型处理所述待处理文本以及所述提示文本,得到所述待处理文本的结论类型,所述文本分类模型通过利用样本文本对预训练模型进行微调获得,所述微调的过程包括:
获取样本文本,所述样本文本包括样本待处理文本;
获取分别对应于两个以上提示分类模型的两个以上提示文本模板;
分别在所述两个以上提示文本模板的领域槽位中添加相应样本待处理文本的领域类型,得到对应于不同提示分类模型的样本文本的样本提示文本;
利用所述两个以上提示分类模型分别处理相应所述样本文本的样本待处理文本以及样本提示文本,得到的两个以上结论类型预测值;
将所述两个以上结论类型预测值通过加权方式融合,并将融合结果保存为结论类型软标签;
通过所述文本分类模型处理所述样本文本中的样本待处理文本和所述样本提示文本,得到对应于所述样本文本的结论类型预测值;
调整所述文本分类模型的参数,以减小对应于所述样本文本的结论类型预测值和所述结论类型软标签的差异。
16.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1~6中任一项所述的文本分类的方法。
17.一种文本分类模型训练***,所述***包括:
样本获取模块,
用于获取样本文本,所述样本文本包括样本待处理文本;
获取分别对应于两个以上提示分类模型的两个以上提示文本模板;
分别在所述两个以上提示文本模板的领域槽位中添加相应样本待处理文本的领域类型,得到对应于不同提示分类模型的样本文本的样本提示文本;
利用所述两个以上提示分类模型分别处理相应所述样本文本的样本待处理文本以及样本提示文本,得到的两个以上结论类型预测值;
将所述两个以上结论类型预测值通过加权方式融合,并将融合结果保存为结论类型软标签;
处理模块,用于通过所述文本分类模型处理所述样本文本中的样本待处理文本和所述样本提示文本,得到对应于所述样本文本的结论类型预测值;
调参模块,用于调整所述文本分类模型的参数,以减小对应于所述样本文本的结论类型预测值和所述结论类型软标签的差异。
18.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求7~14中任一项所述的文本分类模型训练的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311028049.3A CN116738298B (zh) | 2023-08-16 | 2023-08-16 | 一种文本分类方法、***和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311028049.3A CN116738298B (zh) | 2023-08-16 | 2023-08-16 | 一种文本分类方法、***和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116738298A CN116738298A (zh) | 2023-09-12 |
CN116738298B true CN116738298B (zh) | 2023-11-24 |
Family
ID=87919075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311028049.3A Active CN116738298B (zh) | 2023-08-16 | 2023-08-16 | 一种文本分类方法、***和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116738298B (zh) |
Citations (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101876985A (zh) * | 2009-11-26 | 2010-11-03 | 西北工业大学 | 基于混合模型的web文本情感主题识别方法 |
JP2014056433A (ja) * | 2012-09-12 | 2014-03-27 | Multi Solution Co Ltd | 討論型ウェブ投稿プログラムおよびシステム |
GB201803464D0 (en) * | 2018-03-04 | 2018-04-18 | Cp Connections Ltd | Ability classification |
CN108446813A (zh) * | 2017-12-19 | 2018-08-24 | 清华大学 | 一种电商服务质量综合评价的方法 |
CN109543031A (zh) * | 2018-10-16 | 2019-03-29 | 华南理工大学 | 一种基于多任务对抗学习的文本分类方法 |
CN109800418A (zh) * | 2018-12-17 | 2019-05-24 | 北京百度网讯科技有限公司 | 文本处理方法、装置和存储介质 |
CN110032736A (zh) * | 2019-03-22 | 2019-07-19 | 深兰科技(上海)有限公司 | 一种文本分析方法、装置及存储介质 |
JP2019160134A (ja) * | 2018-03-16 | 2019-09-19 | 株式会社日立製作所 | 文章処理装置および文章処理方法 |
CN111125354A (zh) * | 2018-10-31 | 2020-05-08 | 北京国双科技有限公司 | 文本分类方法及装置 |
CN111274823A (zh) * | 2020-01-06 | 2020-06-12 | 科大讯飞(苏州)科技有限公司 | 一种文本语义理解的方法和相关装置 |
CN111428510A (zh) * | 2020-03-10 | 2020-07-17 | 蚌埠学院 | 一种基于口碑的p2p平台风险分析方法 |
CN111444709A (zh) * | 2020-03-09 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、存储介质及设备 |
CN112395414A (zh) * | 2019-08-16 | 2021-02-23 | 北京地平线机器人技术研发有限公司 | 文本分类方法和分类模型的训练方法、装置、介质和设备 |
CN112395417A (zh) * | 2020-11-18 | 2021-02-23 | 长沙学院 | 基于深度学习的网络舆情演化仿真方法及*** |
CN112434166A (zh) * | 2020-12-17 | 2021-03-02 | 网易传媒科技(北京)有限公司 | 基于时效性的文本分类方法、装置、设备及存储介质 |
CN113569001A (zh) * | 2021-01-29 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备及计算机可读存储介质 |
CN113672731A (zh) * | 2021-08-02 | 2021-11-19 | 北京中科闻歌科技股份有限公司 | 基于领域信息的情感分析方法、装置、设备及存储介质 |
CN113821590A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种文本类别的确定方法、相关装置以及设备 |
CN113961705A (zh) * | 2021-10-29 | 2022-01-21 | 聚好看科技股份有限公司 | 一种文本分类方法及服务器 |
CN114676255A (zh) * | 2022-03-29 | 2022-06-28 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备、存储介质及计算机程序产品 |
CN114942994A (zh) * | 2022-06-17 | 2022-08-26 | 平安科技(深圳)有限公司 | 文本分类方法、文本分类装置、电子设备及存储介质 |
CN115080750A (zh) * | 2022-08-16 | 2022-09-20 | 之江实验室 | 基于融合提示序列的弱监督文本分类方法、***和装置 |
CN115310425A (zh) * | 2022-10-08 | 2022-11-08 | 浙江浙里信征信有限公司 | 基于政策文本分类和关键信息识别的政策文本分析方法 |
CN115409017A (zh) * | 2022-09-02 | 2022-11-29 | 中国银行股份有限公司 | 一种客服交流文本挖掘方法和***、电子设备、存储介质 |
CN115495744A (zh) * | 2022-10-10 | 2022-12-20 | 北京天融信网络安全技术有限公司 | 威胁情报分类方法、装置、电子设备及存储介质 |
CN115688414A (zh) * | 2022-10-27 | 2023-02-03 | 北京理工大学 | 主题嵌入多掩码提示模板的假新闻检测方法 |
CN115994225A (zh) * | 2023-03-20 | 2023-04-21 | 北京百分点科技集团股份有限公司 | 文本的分类方法、装置、存储介质及电子设备 |
CN116152840A (zh) * | 2023-03-10 | 2023-05-23 | 京东方科技集团股份有限公司 | 文件分类方法、装置、设备和计算机存储介质 |
CN116304014A (zh) * | 2022-12-07 | 2023-06-23 | 阿里巴巴(中国)有限公司 | 训练实体类型识别模型的方法、实体类型识别方法及装置 |
CN116304717A (zh) * | 2023-05-09 | 2023-06-23 | 北京搜狐新媒体信息技术有限公司 | 文本分类方法及装置、存储介质及电子设备 |
CN116383382A (zh) * | 2023-03-15 | 2023-07-04 | 北京百度网讯科技有限公司 | 敏感信息的识别方法、装置、电子设备及存储介质 |
-
2023
- 2023-08-16 CN CN202311028049.3A patent/CN116738298B/zh active Active
Patent Citations (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101876985A (zh) * | 2009-11-26 | 2010-11-03 | 西北工业大学 | 基于混合模型的web文本情感主题识别方法 |
JP2014056433A (ja) * | 2012-09-12 | 2014-03-27 | Multi Solution Co Ltd | 討論型ウェブ投稿プログラムおよびシステム |
CN108446813A (zh) * | 2017-12-19 | 2018-08-24 | 清华大学 | 一种电商服务质量综合评价的方法 |
GB201803464D0 (en) * | 2018-03-04 | 2018-04-18 | Cp Connections Ltd | Ability classification |
JP2019160134A (ja) * | 2018-03-16 | 2019-09-19 | 株式会社日立製作所 | 文章処理装置および文章処理方法 |
CN109543031A (zh) * | 2018-10-16 | 2019-03-29 | 华南理工大学 | 一种基于多任务对抗学习的文本分类方法 |
CN111125354A (zh) * | 2018-10-31 | 2020-05-08 | 北京国双科技有限公司 | 文本分类方法及装置 |
CN109800418A (zh) * | 2018-12-17 | 2019-05-24 | 北京百度网讯科技有限公司 | 文本处理方法、装置和存储介质 |
CN110032736A (zh) * | 2019-03-22 | 2019-07-19 | 深兰科技(上海)有限公司 | 一种文本分析方法、装置及存储介质 |
CN112395414A (zh) * | 2019-08-16 | 2021-02-23 | 北京地平线机器人技术研发有限公司 | 文本分类方法和分类模型的训练方法、装置、介质和设备 |
CN111274823A (zh) * | 2020-01-06 | 2020-06-12 | 科大讯飞(苏州)科技有限公司 | 一种文本语义理解的方法和相关装置 |
CN111444709A (zh) * | 2020-03-09 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、存储介质及设备 |
CN111428510A (zh) * | 2020-03-10 | 2020-07-17 | 蚌埠学院 | 一种基于口碑的p2p平台风险分析方法 |
CN112395417A (zh) * | 2020-11-18 | 2021-02-23 | 长沙学院 | 基于深度学习的网络舆情演化仿真方法及*** |
CN112434166A (zh) * | 2020-12-17 | 2021-03-02 | 网易传媒科技(北京)有限公司 | 基于时效性的文本分类方法、装置、设备及存储介质 |
CN113569001A (zh) * | 2021-01-29 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备及计算机可读存储介质 |
CN113821590A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种文本类别的确定方法、相关装置以及设备 |
CN113672731A (zh) * | 2021-08-02 | 2021-11-19 | 北京中科闻歌科技股份有限公司 | 基于领域信息的情感分析方法、装置、设备及存储介质 |
CN113961705A (zh) * | 2021-10-29 | 2022-01-21 | 聚好看科技股份有限公司 | 一种文本分类方法及服务器 |
CN114676255A (zh) * | 2022-03-29 | 2022-06-28 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备、存储介质及计算机程序产品 |
CN114942994A (zh) * | 2022-06-17 | 2022-08-26 | 平安科技(深圳)有限公司 | 文本分类方法、文本分类装置、电子设备及存储介质 |
CN115080750A (zh) * | 2022-08-16 | 2022-09-20 | 之江实验室 | 基于融合提示序列的弱监督文本分类方法、***和装置 |
CN115409017A (zh) * | 2022-09-02 | 2022-11-29 | 中国银行股份有限公司 | 一种客服交流文本挖掘方法和***、电子设备、存储介质 |
CN115310425A (zh) * | 2022-10-08 | 2022-11-08 | 浙江浙里信征信有限公司 | 基于政策文本分类和关键信息识别的政策文本分析方法 |
CN115495744A (zh) * | 2022-10-10 | 2022-12-20 | 北京天融信网络安全技术有限公司 | 威胁情报分类方法、装置、电子设备及存储介质 |
CN115688414A (zh) * | 2022-10-27 | 2023-02-03 | 北京理工大学 | 主题嵌入多掩码提示模板的假新闻检测方法 |
CN116304014A (zh) * | 2022-12-07 | 2023-06-23 | 阿里巴巴(中国)有限公司 | 训练实体类型识别模型的方法、实体类型识别方法及装置 |
CN116152840A (zh) * | 2023-03-10 | 2023-05-23 | 京东方科技集团股份有限公司 | 文件分类方法、装置、设备和计算机存储介质 |
CN116383382A (zh) * | 2023-03-15 | 2023-07-04 | 北京百度网讯科技有限公司 | 敏感信息的识别方法、装置、电子设备及存储介质 |
CN115994225A (zh) * | 2023-03-20 | 2023-04-21 | 北京百分点科技集团股份有限公司 | 文本的分类方法、装置、存储介质及电子设备 |
CN116304717A (zh) * | 2023-05-09 | 2023-06-23 | 北京搜狐新媒体信息技术有限公司 | 文本分类方法及装置、存储介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
基于LSTM的商品评论情感分析;於雯;周武能;;计算机***应用;第27卷(第08期);第159-163页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116738298A (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | How to fine-tune bert for text classification? | |
Bhardwaj et al. | Sentiment analysis for Indian stock market prediction using Sensex and nifty | |
AU2021322785B2 (en) | Communication content tailoring | |
CN115310425B (zh) | 基于政策文本分类和关键信息识别的政策文本分析方法 | |
CN111177325B (zh) | 一种自动生成答案的方法和*** | |
CN111950295A (zh) | 一种训练自然语言处理模型的方法和*** | |
CN115956242A (zh) | 自动知识图谱构建 | |
Song et al. | Ada-boundary: accelerating DNN training via adaptive boundary batch selection | |
CN115455189A (zh) | 基于提示学习的政策文本分类方法 | |
Tang et al. | Layoutnuwa: Revealing the hidden layout expertise of large language models | |
Hong et al. | Knowledge-grounded dialogue modelling with dialogue-state tracking, domain tracking, and entity extraction | |
CN113761875A (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
Blümel et al. | Comparative analysis of classical and deep learning-based natural language processing for prioritizing customer complaints | |
CN116738298B (zh) | 一种文本分类方法、***和存储介质 | |
Sisodia et al. | Performance evaluation of learners for analyzing the hotel customer sentiments based on text reviews | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
Goossens et al. | Comparing the performance of GPT-3 with BERT for decision requirements modeling | |
Margiotta et al. | Knowledge-based neural pre-training for intelligent document management | |
Wahde et al. | An interpretable method for automated classification of spoken transcripts and written text | |
Kumar et al. | Transformer-based Models for Language Identification: A Comparative Study | |
Wang et al. | Sentence compression with reinforcement learning | |
KR102666388B1 (ko) | 유망기술 발전가능성 예측정보 생성 장치 및 방법 | |
CN117708351B (zh) | 基于深度学习的技术标辅助评审方法、***及存储介质 | |
CN111368526B (zh) | 一种序列标注方法和*** | |
US20220269858A1 (en) | Learning Rules and Dictionaries with Neuro-Symbolic Artificial Intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |