CN116244440B - 文本情感分类方法、装置、设备及介质 - Google Patents
文本情感分类方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116244440B CN116244440B CN202310224185.3A CN202310224185A CN116244440B CN 116244440 B CN116244440 B CN 116244440B CN 202310224185 A CN202310224185 A CN 202310224185A CN 116244440 B CN116244440 B CN 116244440B
- Authority
- CN
- China
- Prior art keywords
- model
- emotion
- text
- training
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 184
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000012549 training Methods 0.000 claims abstract description 140
- 238000013145 classification model Methods 0.000 claims description 36
- 238000012216 screening Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 19
- 230000000875 corresponding effect Effects 0.000 claims description 16
- 238000010801 machine learning Methods 0.000 claims description 16
- 238000003058 natural language processing Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 30
- 238000000605 extraction Methods 0.000 abstract description 8
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 description 15
- 238000002372 labelling Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000009826 distribution Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000009825 accumulation Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请适用于文本分类技术领域,提供了文本情感分类方法、装置、设备及介质,方法包括:获取输入文本;将输入文本输入至第一模型,得到语义特征;将语义特征输入至第二模型,得到情感分类结果;本申请分别通过第一模型和第二模型完成输入文本的语义特征提取和情感分类,从而将分类过程进行模块化分解,进而提升了第三模型和第四模型选用灵活性,可以根据输入文本所在领域、行业等属性进行针对性选用,在达到更好的训练效率的基础上,提升了第一模型和第二模型的预测准确性;进一步地,基于预训练的第三模型能够再次减少训练过程所需的数据量级和算力,降低文本情感分类的成本。
Description
技术领域
本申请属于文本分类技术领域,尤其涉及文本情感分类方法、装置、设备及介质。
背景技术
随着移动通信技术的发展和普及,人们已经习惯于通过网络、移动电话等载体表达情感和观点,比如电商网站上用户对商品的评价、以及社交媒体中用户对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值,在电商评价分类、评价分析与决策、以及舆情监控等应用中有非常广泛的应用。
例如,某公司可以监控电商网站或者社交媒体上广大用户对其品牌的评价,如果负面评价忽然增多,就可以优先处理,避免发展为风险点。
因此,非常有必要对用户表达的评价内容,进行正负面评价分析,即情感分类,以解决现有技术中存在的文本分类功能不全面的问题。
发明内容
本申请实施例提供了文本情感分类方法、装置、设备及介质,可以解决文本分类功能不全面的问题。
第一方面,本申请实施例提供了一种文本情感分类方法,包括:
获取输入文本;
将所述输入文本输入至第一模型,得到语义特征;
将所述语义特征输入至第二模型,得到情感分类结果;
其中,所述第一模型为通过样本训练第三模型得到的自然语言处理模型,且所述第一模型为用于以文本为输入得到语义特征的机器学习模型;所述第三模型为经过预训练的自然语言处理模型;
所述第二模型为通过样本训练第四模型得到的机器学习模型,且所述第二模型用于以语义特征为输入得到所述语义特征对应文本的情感分类结果。
该方法的有益效果在于:
分别通过第一模型和第二模型完成输入文本的语义特征提取和情感分类,从而将分类过程进行模块化分解,进而提升了第三模型和第四模型选用灵活性,可以根据输入文本所在领域、行业等属性进行针对性选用,在达到更好的训练效率的基础上,提升了第一模型和第二模型的预测准确性;进一步地,基于预训练的第三模型能够再次减少训练过程所需的数据量级和算力,降低文本情感分类的成本。
在第一方面的一种可能的实现方式中,所述第一模型和所述第二模型构成情感分类模型的至少一部分;所述情感分类模型基于种子样本数据迭代训练原始情感模型得到;所述原始情感模型包括所述第三模型和所述第四模型;
所述迭代训练包括:
获取带有标签的种子样本数据;
基于所述种子样本数据训练所述原始情感模型;
将未标注文本输入所述原始情感模型,得到带有置信度的候选分类结果;
添加置信度满足预设的筛选条件的所述候选分类结果至所述种子样本数据中,并返回所述基于所述种子样本数据训练所述原始情感模型的步骤,直至满足预设的迭代停止条件。
该方法的有益效果在于:
通过种子样本数据进行训练,并将候选分类结果中置信度满足预设筛选条件的部分作为带有标签的更新样本进行迭代训练,进一步扩充了训练样本的来源,减少了情感分类的训练数据成本,解决情感分类训练的冷启动问题。
在第一方面的一种可能的实现方式中,所述获取带有标签的种子样本数据的步骤包括:
获取多个情感词典;所述情感词典包括自然语言词汇和所述自然语言词汇的情感倾向标签;
融合所述多个情感词典中相同自然语言词汇的不同情感倾向标签,得到所述相同自然语言词汇的融合标签;
以所述多个情感词典中的自然语言词汇作为样本,以所述自然语言词汇的情感倾向标签或融合标签作为标签,构建所述带有标签的种子样本数据。
该方法的有益效果在于:
充分利用现有情感分析研究领域的知识积累构建初始的种子样本数据,并通过融合步骤将该知识积累中可能导致训练不收敛(或者收敛较慢,或者训练效果不佳)的问题予以解决,使得训练过程更具效率。
在第一方面的一种可能的实现方式中,所述添加置信度满足预设的筛选条件的所述候选分类结果至所述种子样本数据中的步骤包括:
获取待添加结果的类别和类别数量;所述待添加结果是置信度满足预设的筛选条件的所述候选分类结果;
根据所述类别和所述类别数量均衡所述待添加结果后,添加至所述种子样本数据中。
该方法的有益效果在于:
通过均衡样本类别的方式提成训练样本质量,避免了不均衡训练导致的训练不收敛(或者收敛较慢,或者训练效果不佳)的问题,使得训练过程更具效率。
在第一方面的一种可能的实现方式中,所述根据所述类别和所述类别数量均衡所述待添加结果的步骤包括:
对类别数量大于第一阈值的所述类别的待添加结果进行欠采样,对类别数量小于第二阈值的所述类别的待添加结果进行过采样;和/或,
对类别数量大于第一阈值的所述类别的待添加结果赋予第一权重,对类别数量小于第二阈值的所述类别的待添加结果赋予第二权重,所述第一权重小于所述第二权重。
该方法的有益效果在于:
通过对类别数量较高的类别执行欠采样和/或赋低权重、对类别数量较高的类别执行过采样和/或赋高权重的方式实现样本的均衡,最大程度地利用待添加结果执行迭代训练,提高了数据的使用效率。
在第一方面的一种可能的实现方式中,所述添加置信度满足预设的筛选条件的所述候选分类结果至所述种子样本数据中的步骤包括:
在第i次迭代中,添加对应文本长度属于第i区间的待添加结果至所述种子样本数据中;
其中,所述待添加结果是置信度满足预设的筛选条件的所述候选分类结果;所述第i区间的区间上限和/或区间下限与i的取值正相关。
该方法的有益效果在于:
通过在迭代训练中逐步引入更长文本,使得第一模型和第二模型能够循序渐进地由短文本分类过渡至长文本分类,这一过程中,短文本分类训练的反向传播参数能够为长文本分类训练提供良好的基础,避免了直接利用较长文本训练时可能导致的参数不收敛问题。
在第一方面的一种可能的实现方式中,所述添加置信度满足预设的筛选条件的所述候选分类结果至所述种子样本数据中的步骤包括:
在第j次迭代中,添加置信度属于第j区间的待添加结果至所述种子样本数据中;
其中,所述待添加结果是置信度满足预设的筛选条件的所述候选分类结果;所述第j区间的区间上限和/或区间下限与j的取值负相关。
该方法的有益效果在于:
通过在迭代训练中先行引入置信度较高的待添加文本,提升了每一次迭代训练中样本的可靠性,进而使得最终得到的第一模型和第二模型在推理过程中具有更好的分类预测准确性。
第二方面,本申请实施例提供了一种文本情感分类装置,包括:
获取模块,用于获取输入文本;
特征模块,用于将所述输入文本输入至第一模型,得到语义特征;
分类模块,用于将所述语义特征输入至第二模型,得到情感分类结果;
其中,所述第一模型为通过样本训练第三模型得到的自然语言处理模型,且所述第一模型为用于以文本为输入得到语义特征的机器学习模型;所述第三模型为经过预训练的自然语言处理模型;
所述第二模型为通过样本训练第四模型得到的机器学习模型,且所述第二模型用于以语义特征为输入得到所述语义特征对应文本的情感分类结果。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的文本情感分类方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的文本情感分类方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的文本情感分类方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的文本情感分类方法的流程示意图;
图2是本申请实施例提供的文本情感分类装置的结构示意图;
图3是本申请实施例提供的终端设备的结构示意图;
图4是本申请实施例提供的小样本学习框架示意图;
图5是本申请实施例提供的迭代流程示意图。
附图标记:
获取模块201;
特征模块202;
分类模块203;
终端设备30;
处理器301;
存储器302;
计算机程序303。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
文本情感分类可以利用自然语言处理技术,对诸如用户评价文本等的输入文本进行分析、处理、归纳和推理,自动判断该文本的情感正负倾向并给出相应的结果。
一些可选的情感分类方法包括:无监督学习的字典匹配方法、传统机器学习方法(基于TF-IDF词袋特征的分类方法,如朴素贝叶斯,决策树,支持向量机等),深度学习方法(基于词嵌入向量的神经网络模型,如LSTM,GRU,Transformer等)。
然而,这些方法或多或少的存在着一些限制和劣势:
无监督学习的字典匹配方法,虽然实现简单,但是情感分类的准确率较低,因此无法满足实际应用的要求。
监督学习方法(包括机器学习和深度学习)虽然可以实现较高的准确率,但是需要大量的标注数据,耗时耗力耗资源,大部分企业无力承担,阻碍情感分类的实际应用。
如图1所示,本申请实施例提供了一种文本情感分类方法,包括:
步骤102,获取输入文本;
步骤104,将所述输入文本输入至第一模型,得到语义特征;
步骤106,将所述语义特征输入至第二模型,得到情感分类结果;
其中,所述第一模型为通过样本训练第三模型得到的自然语言处理模型,且所述第一模型为用于以文本为输入得到语义特征的机器学习模型;所述第三模型为经过预训练的自然语言处理模型;
所述第二模型为通过样本训练第四模型得到的机器学习模型,且所述第二模型用于以语义特征为输入得到所述语义特征对应文本的情感分类结果。
本实施例中,输入文本为进行情感分类的基础文本,在一些具体的应用场景中,可以为基于互联网的用户评论文本、基于移动通信的语音转换文本、信件等传统纸质文件转换得到的文本等。
在一个可选的实施方式中,输入文本或输入文本的集合是针对某一事件、某一人物、某一商品等具体对象进行的评价文本,通过对输入文本或者输入文本的集合执行本实施例方法,能够得到这些文本的情感倾向性(即情感分类结果)。
作为示例而非限定,该情感倾向性的定义可以为:
二元定义,即一段输入文本的分类结果是非“正面情感”即“负面情感”的;
量化定义,即一段输入文本的分类结果为一个数值,且该数值的大或小分别对应有更正面的情感或更负面的情感,这一示例中,还可以设置一个情感转换点(例如0)作为正面情感和负面情感的分界。
概率定义,即一段输入文本的分类结果为一个概率分布,这一示例可以与量化定义或二元定义结合,从而给出量化值的概率分布或二元的概率分布。
本实施例中,第一模型是以文本为输入,进行特征提取得到语义特征的模型,在一些示例中,第一模型可以为以自然语言词汇为单位提取词的嵌入向量的模型。
未经训练时,第一模型可以以第三模型的形式存在,第三模型为经过预训练的机器学习模型,也就是说,第一模型可能经过了两次训练(预训练和情感分类训练),也可能仅经过了预训练一次训练(针对第四模型/第二模型进行的情感训练中被固定了参数)。
在一个可选的实施方式中,第三模型的预训练过程可能是与情感分类无关的自然语言特征提取训练,即第一模型、第三模型的功能在于对自然语言进行特征提取,可能并不涉及情感分类的功能,情感分类的功能完全由第二模型、第四模型实现。
由于这一实施方式中,第三模型的特殊性,可以考虑选用通用的自然语言处理模型。
由于自然语言的多样性和复杂性,众多应用,例如文本分类、文本摘要、机器翻译、智能问答等,都渴求一个通用的语言模型,具有语义的解析能力,可以理解为一个处理语言的神经中枢。然而,训练一个通用语言模型,需要海量数据和强大算力,这足以让绝大部分企业无力承担而望闻却步。幸运的是,头部巨型企业或者科研机构利用资源优势,把训练的通用语言模型,例如谷歌的BERT和百度文心ERNIE,开源给公众使用,从而解决了大部分公司数据量少、算力不足的问题。
本实施方式可以基于预训练的通用语言大模型(如BERT、ERNIE等)作为第三模型/第一模型,获取自然语言的通用语义表示,即词的嵌入向量,作为第二模型,即情感分类模型的输入特征。
在另一个相对的实施方式中,第三模型的预训练过程可能是与情感分类相关的自然语言特征提取训练,和/或,第三模型在情感训练过程中被设定了参数修正比例,从而使得情感训练只能对第三模型进行微调。
如图4第二点中展示的,第二模型、第四模型利用预训练语言大模型(第一模型、第三模型)的词嵌入向量,作为输入特征,可以利用不同算法构建情感分类模型(即第二模型、第四模型),例如传统机器学习方法(如朴素贝叶斯,决策树,支持向量机,GBDT等),或者深度学习方法(深度神经网络模型,循环神经网络模型,卷积神经网络模型,基于注意力机制的Transformer模型等)。可以根据具体实际应用场景,选择具体的分类模型。
通常而言,第四模型可以有如下两种选取确定方式。
第一种方式中,第四模型为未经训练的初始模型,初始模型的具体架构可以采用上述的朴素贝叶斯,决策树,支持向量机,GBDT等,或者可以采用深度神经网络模型,循环神经网络模型,卷积神经网络模型,基于注意力机制的Transformer模型等结构的深度学习模型。
值得说明的是,第一种方式中,不同的模型结构可能适应于不同的细分应用领域,即在一个可选的实施方式中,第四模型的具体架构是根据情感分类文本领域确定的。
第二种方式中,第四模型为经过预训练的情感分类模型,具体地,第四型既可以是用于以语义特征为输入得到所述语义特征对应文本的情感分类结果的模型,又可以是以语义特征为输入得到所述语义特征对应文本的其它指定分类结果的模型。
进一步地,第一模型和第二模型之间(第三模型与第四模型与之类似)存在着联合同步的关系,具体地:
下层的预训练语言大模型(第一模型)与上层情感分类模型(第二模型),共同构成最终的整体分类模型,在一些可选的实施方式中,整体分类模型还可能包括其它元素,如用于训练的多任务分支等。
在训练过程中,本实施例可以构建不同的训练方式:
一种方式是,把预训练语言大模型的参数固定,只用于输出词嵌入向量,作为上层模型的输入。
另外一种方式是,对预训练语言大模型的参数进行微调,与上层情感分类模型同步训练,使得预训练语言大模型更能适应当前的应用场景。
本实施例的有益效果在于:
分别通过第一模型和第二模型完成输入文本的语义特征提取和情感分类,从而将分类过程进行模块化分解,进而提升了第三模型和第四模型选用灵活性,可以根据输入文本所在领域、行业等属性进行针对性选用,在达到更好的训练效率的基础上,提升了第一模型和第二模型的预测准确性;进一步地,基于预训练的第三模型能够再次减少训练过程所需的数据量级和算力,降低文本情感分类的成本。
根据上述实施例,在又一实施例中:
所述第一模型和所述第二模型构成情感分类模型的至少一部分;所述情感分类模型基于种子样本数据迭代训练原始情感模型得到;所述原始情感模型包括所述第三模型和所述第四模型;
所述迭代训练包括:
获取带有标签的种子样本数据;
基于所述种子样本数据训练所述原始情感模型;
将未标注文本输入所述原始情感模型,得到带有置信度的候选分类结果;
添加置信度满足预设的筛选条件的所述候选分类结果至所述种子样本数据中,并返回所述基于所述种子样本数据训练所述原始情感模型的步骤,直至满足预设的迭代停止条件。
如图4第三点中展示的,本实施例针对如下问题提供解决方案:
基于无监督学习的字典匹配方法准确率较低,而监督学习方法需要大量的标注数据,非常耗资源,大部分企业无力承担。
由于利用情感词典等公开数据相对容易获取得到种子样本数据,并且各行业存在大量的未标注的文本数据。为此,本实施例仅利用种子训练数据,提出基于Bootstrap的小样本情感分类模型半监督学习方法(即迭代训练)。
具体地,本实施例中,种子样本数据先对第三模型、第四模型执行第1次迭代训练,得到第一中间模型;
基于第一中间模型,对未标注文本进行推理,得到第1次推理结果;其中,第1次推理结果包括对应的置信度;
将第1次推理结果中,置信度较高的(例如,大于某一预设阈值,或者,置信度较高的前N个推理结果)推理结果确定为更新样本;
通过更新样本训练第一中间模型,或者通过更新样本和初始种子样本数据(二者共同构成更新后的种子样本数据)训练第一中间模型,得到第二中间模型;
重复上述步骤,直至满足预设的迭代停止条件,例如达到预设的迭代次数,或者不存在合适的更新样本等。
本实施例的有益效果在于:
通过种子样本数据进行训练,并将候选分类结果中置信度满足预设筛选条件的部分作为带有标签的更新样本进行迭代训练,进一步扩充了训练样本的来源,减少了情感分类的训练数据成本,解决情感分类训练的冷启动问题。
根据上述任一实施例,在又一实施例中:
所述获取带有标签的种子样本数据的步骤包括:
获取多个情感词典;所述情感词典包括自然语言词汇和所述自然语言词汇的情感倾向标签;
融合所述多个情感词典中相同自然语言词汇的不同情感倾向标签,得到所述相同自然语言词汇的融合标签;
以所述多个情感词典中的自然语言词汇作为样本,以所述自然语言词汇的情感倾向标签或融合标签作为标签,构建所述带有标签的种子样本数据。
如图4第一点中展示的,本实施例的具体执行可以参考如下内容。
(1)收集情感词典:现有情感分析研究领域,积累了各种开源情感词典,包括通用的情感词典和专业领域的情感词典,例如电商情感词典。应尽量收集各种情感词典,充分利用现有的标注数据。
(2)处理冲突词条:各情感词典的条目可能存在情感冲突的情况,例如同一个词条,有些词典标注为正面,而其他词典标注为负面。可以利用不同方法解决冲突,例如简单删除冲突的词条、采用少数词典服从多数词典原则、计算正面或者负面的占比(即概率分布)、或者安排人工审核确认词条的情感倾向。
(3)融合情感词典:不同情感词典的冲突词条处理完之后,需要把所有词典的词条,融合为一个统一的情感词典,例如,每个词条可以简单分为正面或者负面。针对有些词典的词条不是简单分为正面或者负面,而是被分配了一个情感值,表示正面或者负面的强度,可以根据阈值简单转化为正面或者负面,也可以处理成正负面的概率分布,形成种子数据,作为小样本训练集。
本实施例的有益效果在于:
充分利用现有情感分析研究领域的知识积累构建初始的种子样本数据,并通过融合步骤将该知识积累中可能导致训练不收敛(或者收敛较慢,或者训练效果不佳)的问题予以解决,使得训练过程更具效率。
根据上述任一实施例,在又一实施例中:
所述添加置信度满足预设的筛选条件的所述候选分类结果至所述种子样本数据中的步骤包括:
获取待添加结果的类别和类别数量;所述待添加结果是置信度满足预设的筛选条件的所述候选分类结果;
根据所述类别和所述类别数量均衡所述待添加结果后,添加至所述种子样本数据中。
在本实施例结合上述实施例的方案中,利用当前样本训练情感分类模型(学习算法):
利用当前仅有的训练数据,初始时只有包含情感词典的小样本训练数据,然后基于优化算法训练情感分类模型。最常有的优化算法包括随机梯度下降(SGD)及其变体,例如AdaGrad,RMSProp,Adam等算法。在训练过程中,要特别注意样本在各个类别的数量分布。如果出现比例非常失衡的问题,可以利用采样技术或者设计样本权重解决。
本实施例的有益效果在于:
通过均衡样本类别的方式提成训练样本质量,避免了不均衡训练导致的训练不收敛(或者收敛较慢,或者训练效果不佳)的问题,使得训练过程更具效率。
根据上述任一实施例,在又一实施例中:
所述根据所述类别和所述类别数量均衡所述待添加结果的步骤包括:
对类别数量大于第一阈值的所述类别的待添加结果进行欠采样,对类别数量小于第二阈值的所述类别的待添加结果进行过采样;和/或,
对类别数量大于第一阈值的所述类别的待添加结果赋予第一权重,对类别数量小于第二阈值的所述类别的待添加结果赋予第二权重,所述第一权重小于所述第二权重。
对于过采样和欠采样的方式进行举例说明如下。
假定样本共有5个类别,即T1、T2、T3、T4、T5。这五个类别占样本总量的比例分别为60%、15%、10%、10%、5%。若直接采用原始样本进行训练,则可能出现样本不均衡的问题(例如训练后的模型针对T1类别的分类效果较好、而对T2至T5类别的分类效果不佳),为了解决这一问题,本实施例采用了过采样/欠采样、赋权的方法。
其中,过采样/欠采样的方案中,可以针对T1适用欠采样、针对T2至T5采用不同强度的过采样,以保证最终用于训练的样本类别均衡。
赋权的方案中,可以针对T1赋较低权重、针对T2至T5赋较高权重,以调整训练过程中各类别样本对模型的训练强度,进而达到均衡的效果。
进一步地,T2至T5的权重可以为相等的权重,这种情况下是考虑到T1的比例与T2至T5的比例差距较大,T2至T5之间的比例差距与之相比可以忽略;在另一些情况下,也可以根据T2至T5的占比,为其赋予不同的(例如与占比正相关的)权重。
本实施例的有益效果在于:
通过对类别数量较高的类别执行欠采样和/或赋低权重、对类别数量较高的类别执行过采样和/或赋高权重的方式实现样本的均衡,最大程度地利用待添加结果执行迭代训练,提高了数据的使用效率。
根据上述任一实施例,在又一实施例中:
所述添加置信度满足预设的筛选条件的所述候选分类结果至所述种子样本数据中的步骤包括:
在第i次迭代中,添加对应文本长度属于第i区间的待添加结果至所述种子样本数据中;
其中,所述待添加结果是置信度满足预设的筛选条件的所述候选分类结果;所述第i区间的区间上限和/或区间下限与i的取值正相关。
以区间上限与i的取值正相关的方案举例,第1次迭代中,区间上限可以为2;第2次迭代中,区间上限可以对应设置为3,并将第n次迭代的区间上限设定为n+1。这一示例的目的在于循序渐进地训练模型针对由短至长的文本的情感分类能力。
在上述示例的基础上可以理解,第n次迭代中,并不意味着仅有一个样本和标签参与到了训练中,即一次迭代在某些情况下可以理解一批次的训练过程,而不同次迭代中参与训练的样本和标签组数可能不同,例如针对区间为1至5闭区间的第1次迭代的训练中,参与训练的样本和标签组数可能相对更多(或更少),针对区间为10至15闭区间的第3次迭代的训练中,参与训练的样本和标签组数可能相对更少(或更多)。
可以理解,上述说明中的区间,是指参与至该次迭代中的训练样本的文本长度区间,即区间上限为参与至该次迭代中的训练样本的文本长度上限,区间下限为参与至该次迭代中的训练样本的文本长度下限。
在一个可选的实施方式中,可以根据文本字符长度排序未标注样本(文本长度选择算法):
获得情感分类模型后,用于预测未标注样本并输出置信度,即样本为正面或者负面的概率。由于以情感词典数据作为种子训练数据,而且这些种子数据的文本字符长度非常短,大部分仅为一个词,通常包含2到3个字符。如果利用情感词典训练的情感分类模型,直接用于预测很长的文本,预测输出的置信度未必可靠。因此,在Bootstrap过程中,根据未标注文本的字符长度,控制预测这些未标注文本的顺序,也就是控制将这些文本新增为标注数据的顺序。通过由短到长、循序渐进的方式,保证以情感词典为种子数据训练的情感分类模型,逐步能预测更长的未标注样本,最终能用于预测很长文本的情感分类。
具体地,将未标注文本按字符长度递增排序,然后可以按字符长度严格递增的顺序,或者把字符长度划分递增的区间,例如[1,5]、[6,10]、[11,15]……,从而确定当前考虑预测及新增的候选未标注样本集。也就是,待把较短文本充分新增完为标注数据之后,才考虑新增较长的文本为标注数据,从而保证情感分类模型的每次迭代的预测结果可靠。
本实施例的有益效果在于:
通过在迭代训练中逐步引入更长文本,使得第一模型和第二模型能够循序渐进地由短文本分类过渡至长文本分类,这一过程中,短文本分类训练的反向传播参数能够为长文本分类训练提供良好的基础,避免了直接利用较长文本训练时可能导致的参数不收敛问题。
根据上述任一实施例,在又一实施例中:
所述添加置信度满足预设的筛选条件的所述候选分类结果至所述种子样本数据中的步骤包括:
在第j次迭代中,添加置信度属于第j区间的待添加结果至所述种子样本数据中;
其中,所述待添加结果是置信度满足预设的筛选条件的所述候选分类结果;所述第j区间的区间上限和/或区间下限与j的取值负相关。
值得说明的是,上述关于第i区间的示例性说明同样能够应用至第j区间中。
在一个可选的实施方式中,选取未标注样本作为新增标注数据(置信度选择算法):
根据上述字符长度排序方案确定的当前候选未标注样本集,利用训练的情感分类模型,预测候选样本,并获得分为正面或者负面的置信度,即样本为正面或者负面的概率。然后根据预测置信度阈值选取样本,作为新标注样本,并加入现有训练数据。也就是高置信度的正面样本作为正类标注数据,高置信度的负面样本作为负类标注数据。
值得注意的是,这个置信度阈值为一个动态阈值,而非事先确定固定阈值。
具体地,为保证根据预测结果选取的标注样本可靠,需要严格控制每次迭代时选取的样本数量和置信度要求,例如只选取高置信度的少量样本,极端情况下每个分类每次只新增一个最高置信度的样本,并且置信度在99.5%-99.9%之间。并且在Bootstrap迭代时,为保证可以选取到所需的少量样本,置信度可以在这个区间从99.9%到99.5%逐步衰减,衰减方法有线性衰减或者指数衰减等。本实施方式通过每次谨慎新增少量标注样本和超高的置信度要求,保证每次Bootstrap迭代可靠,最终的情感分类模型具有很高准确率。
作为示例而非限定,利用当前样本训练情感分类模型(学习算法)、根据文本字符长度排序未标注样本(文本长度选择算法)、选取未标注样本作为新增标注数据(置信度选择算法)这三个步骤同样可以循环迭代,最终训练获得能满足应用需求的情感分类模型。
图5示出了该示例的迭代流程。
本实施例的有益效果在于:
通过在迭代训练中先行引入置信度较高的待添加文本,提升了每一次迭代训练中样本的可靠性,进而使得最终得到的第一模型和第二模型在推理过程中具有更好的分类预测准确性。
根据上述任一实施例,在又一实施例中:
所述迭代训练中,所述第三模型的参数被固定,所述第一模型与所述第三模型的参数相同。
本实施例的有益效果在于:
在第三模型的预训练数据量和算力消耗较高时,保留这部分语义特征提取参数,以避免迭代训练中相对少的样本量对第三模型/第一模型参数的过度修正。
下面将对本申请各实施例的综合优势进行说明:
(1)情感词典作为种子标注数据:通过充分利用现有情感分析研究领域的知识积累,在不进行标注数据情况下,也能训练基础的情感分类模型,从而降低情感模型的训练门槛,解决情感分类训练的冷启动问题。
其中,冷启动可以是在用于训练的样本和标签数量较少时的模型训练(即“启动”过程)。
(2)基于预训练语言大模型构建情感分类模型:从预训练语言大模型获取自然语言的通用语义表示,既降低后续针对特定场景训练情感分类模型的资源要求,包括海量数据和超强算力,又提高情感分类模型的训练效率和预测准确率。
(3)基于文本长度和预测置信度,设计Bootstrap学习流程:各行业存在大量的未标注的文本数据,基于Bootstrap学习流程,逐步把未标注数据,新增为标注样本,作为训练数据。这样避免训练情感分类模型对人工标注数据的要求,从而降低企业成本,促使情感分类的广泛应用。同时,通过按文本长度和置信度阈值,控制未标注数据新增为标注样本的顺序,保证情感分类模型的每次Bootstrap迭代的预测置信度可靠。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的文本情感分类方法,图2示出了本申请实施例提供的文本情感分类装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图2,该装置包括:
获取模块201,用于获取输入文本;
特征模块202,用于将所述输入文本输入至第一模型,得到语义特征;
分类模块203,用于将所述语义特征输入至第二模型,得到情感分类结果;
其中,所述第一模型为通过样本训练第三模型得到的自然语言处理模型,且所述第一模型为用于以文本为输入得到语义特征的机器学习模型;所述第三模型为经过预训练的自然语言处理模型;
所述第二模型为通过样本训练第四模型得到的机器学习模型,且所述第二模型用于以语义特征为输入得到所述语义特征对应文本的情感分类结果。
在一个可选的实施方式中,所述第一模型和所述第二模型构成情感分类模型的至少一部分;所述情感分类模型基于种子样本数据迭代训练原始情感模型得到;所述原始情感模型包括所述第三模型和所述第四模型;
所述装置还包括迭代训练模块,用于:
获取带有标签的种子样本数据;
基于所述种子样本数据训练所述原始情感模型;
将未标注文本输入所述原始情感模型,得到带有置信度的候选分类结果;
添加置信度满足预设的筛选条件的所述候选分类结果至所述种子样本数据中,并返回所述基于所述种子样本数据训练所述原始情感模型的步骤,直至满足预设的迭代停止条件。
在一个可选的实施方式中,所述迭代训练模块包括:
词典获取单元,用于:
获取多个情感词典;所述情感词典包括自然语言词汇和所述自然语言词汇的情感倾向标签;
融合所述多个情感词典中相同自然语言词汇的不同情感倾向标签,得到所述相同自然语言词汇的融合标签;
以所述多个情感词典中的自然语言词汇作为样本,以所述自然语言词汇的情感倾向标签或融合标签作为标签,构建所述带有标签的种子样本数据。
在一个可选的实施方式中,所述迭代训练模块包括:
均衡单元,用于:
获取待添加结果的类别和类别数量;所述待添加结果是置信度满足预设的筛选条件的所述候选分类结果;
根据所述类别和所述类别数量均衡所述待添加结果后,添加至所述种子样本数据中。
在一个可选的实施方式中,所述均衡单元包括:
采样均衡子单元,用于对类别数量大于第一阈值的所述类别的待添加结果进行欠采样,对类别数量小于第二阈值的所述类别的待添加结果进行过采样;
和/或,
权重均衡子单元,用于对类别数量大于第一阈值的所述类别的待添加结果赋予第一权重,对类别数量小于第二阈值的所述类别的待添加结果赋予第二权重,所述第一权重小于所述第二权重
在一个可选的实施方式中,所述迭代训练模块包括:
长度渐进单元,用于:
在第i次迭代中,添加对应文本长度属于第i区间的待添加结果至所述种子样本数据中;
其中,所述待添加结果是置信度满足预设的筛选条件的所述候选分类结果;所述第i区间的区间上限和/或区间下限与i的取值正相关。
在一个可选的实施方式中,所述迭代训练模块包括:
置信度渐退单元,用于:
在第j次迭代中,添加置信度属于第j区间的待添加结果至所述种子样本数据中;
其中,所述待添加结果是置信度满足预设的筛选条件的所述候选分类结果;所述第j区间的区间上限和/或区间下限与j的取值负相关。
在一个可选的实施方式中,所述迭代训练中,所述第三模型的参数被固定,所述第一模型与所述第三模型的参数相同。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种终端设备,如图3所示,该终端设备30包括:至少一个处理器301、存储器302以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序303,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (7)
1.一种文本情感分类方法,其特征在于,包括:
获取输入文本;
将所述输入文本输入至第一模型,得到语义特征;
将所述语义特征输入至第二模型,得到情感分类结果;
其中,所述第一模型为通过样本训练第三模型得到的自然语言处理模型,且所述第一模型为用于以文本为输入得到语义特征的机器学习模型;所述第三模型为经过预训练的自然语言处理模型;
所述第二模型为通过样本训练第四模型得到的机器学习模型,且所述第二模型用于以语义特征为输入得到所述语义特征对应文本的情感分类结果;所述第一模型和所述第二模型构成情感分类模型的至少一部分;所述情感分类模型基于种子样本数据迭代训练原始情感模型得到;所述原始情感模型包括所述第三模型和所述第四模型;
所述迭代训练包括:
获取带有标签的种子样本数据;
基于所述种子样本数据训练所述原始情感模型;
将未标注文本输入所述原始情感模型,得到带有置信度的候选分类结果;
添加置信度满足预设的筛选条件的所述候选分类结果至所述种子样本数据中,并返回所述基于所述种子样本数据训练所述原始情感模型的步骤,直至满足预设的迭代停止条件;
其中,所述添加置信度满足预设的筛选条件的所述候选分类结果至所述种子样本数据中的步骤包括:
获取待添加结果的类别和类别数量;所述待添加结果是置信度满足预设的筛选条件的所述候选分类结果;
根据所述类别和所述类别数量均衡所述待添加结果后,添加至所述种子样本数据中;
所述根据所述类别和所述类别数量均衡所述待添加结果的步骤包括:
对类别数量大于第一阈值的所述类别的待添加结果进行欠采样,对类别数量小于第二阈值的所述类别的待添加结果进行过采样;和/或,
对类别数量大于第一阈值的所述类别的待添加结果赋予第一权重,对类别数量小于第二阈值的所述类别的待添加结果赋予第二权重,所述第一权重小于所述第二权重。
2.如权利要求1所述的文本情感分类方法,其特征在于,所述获取带有标签的种子样本数据的步骤包括:
获取多个情感词典;所述情感词典包括自然语言词汇和所述自然语言词汇的情感倾向标签;
融合所述多个情感词典中相同自然语言词汇的不同情感倾向标签,得到所述相同自然语言词汇的融合标签;
以所述多个情感词典中的自然语言词汇作为样本,以所述自然语言词汇的情感倾向标签或融合标签作为标签,构建所述带有标签的种子样本数据。
3.如权利要求1或2所述的文本情感分类方法,其特征在于,所述添加置信度满足预设的筛选条件的所述候选分类结果至所述种子样本数据中的步骤包括:
在第i次迭代中,添加对应文本长度属于第i区间的待添加结果至所述种子样本数据中;
其中,所述待添加结果是置信度满足预设的筛选条件的所述候选分类结果;所述第i区间的区间上限和/或区间下限与i的取值正相关。
4.如权利要求1或2所述的文本情感分类方法,其特征在于,所述添加置信度满足预设的筛选条件的所述候选分类结果至所述种子样本数据中的步骤包括:
在第j次迭代中,添加置信度属于第j区间的待添加结果至所述种子样本数据中;
其中,所述待添加结果是置信度满足预设的筛选条件的所述候选分类结果;所述第j区间的区间上限和/或区间下限与j的取值负相关。
5.一种文本情感分类装置,其特征在于,包括:
获取模块,用于获取输入文本;
特征模块,用于将所述输入文本输入至第一模型,得到语义特征;
分类模块,用于将所述语义特征输入至第二模型,得到情感分类结果;
其中,所述第一模型为通过样本训练第三模型得到的自然语言处理模型,且所述第一模型为用于以文本为输入得到语义特征的机器学习模型;所述第三模型为经过预训练的自然语言处理模型;
所述第二模型为通过样本训练第四模型得到的机器学习模型,且所述第二模型用于以语义特征为输入得到所述语义特征对应文本的情感分类结果;所述第一模型和所述第二模型构成情感分类模型的至少一部分;所述情感分类模型基于种子样本数据迭代训练原始情感模型得到;所述原始情感模型包括所述第三模型和所述第四模型;
所述装置还包括迭代训练模块,用于:
获取带有标签的种子样本数据;
基于所述种子样本数据训练所述原始情感模型;
将未标注文本输入所述原始情感模型,得到带有置信度的候选分类结果;
添加置信度满足预设的筛选条件的所述候选分类结果至所述种子样本数据中,并返回所述基于所述种子样本数据训练所述原始情感模型的步骤,直至满足预设的迭代停止条件;
所述迭代训练模块包括:
均衡单元,用于:
获取待添加结果的类别和类别数量;所述待添加结果是置信度满足预设的筛选条件的所述候选分类结果;
根据所述类别和所述类别数量均衡所述待添加结果后,添加至所述种子样本数据中;
所述均衡单元包括:
采样均衡子单元,用于对类别数量大于第一阈值的所述类别的待添加结果进行欠采样,对类别数量小于第二阈值的所述类别的待添加结果进行过采样;
和/或,
权重均衡子单元,用于对类别数量大于第一阈值的所述类别的待添加结果赋予第一权重,对类别数量小于第二阈值的所述类别的待添加结果赋予第二权重,所述第一权重小于所述第二权重。
6.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的方法。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310224185.3A CN116244440B (zh) | 2023-02-28 | 2023-02-28 | 文本情感分类方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310224185.3A CN116244440B (zh) | 2023-02-28 | 2023-02-28 | 文本情感分类方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116244440A CN116244440A (zh) | 2023-06-09 |
CN116244440B true CN116244440B (zh) | 2024-02-13 |
Family
ID=86629404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310224185.3A Active CN116244440B (zh) | 2023-02-28 | 2023-02-28 | 文本情感分类方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116244440B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111930940A (zh) * | 2020-07-30 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 一种文本情感分类方法、装置、电子设备及存储介质 |
CN114416989A (zh) * | 2022-01-17 | 2022-04-29 | 马上消费金融股份有限公司 | 一种文本分类模型优化方法和装置 |
WO2022156065A1 (zh) * | 2021-01-21 | 2022-07-28 | 平安科技(深圳)有限公司 | 一种文本情感分析方法、装置、设备及存储介质 |
-
2023
- 2023-02-28 CN CN202310224185.3A patent/CN116244440B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111930940A (zh) * | 2020-07-30 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 一种文本情感分类方法、装置、电子设备及存储介质 |
WO2022156065A1 (zh) * | 2021-01-21 | 2022-07-28 | 平安科技(深圳)有限公司 | 一种文本情感分析方法、装置、设备及存储介质 |
CN114416989A (zh) * | 2022-01-17 | 2022-04-29 | 马上消费金融股份有限公司 | 一种文本分类模型优化方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116244440A (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN107291840B (zh) | 一种用户属性预测模型构建方法和装置 | |
CN111506732B (zh) | 一种文本多层次标签分类方法 | |
CN110298044B (zh) | 一种实体关系识别方法 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN113516198B (zh) | 一种基于记忆网络和图神经网络的文化资源文本分类方法 | |
CN112070138A (zh) | 多标签混合分类模型的构建方法、新闻分类方法及*** | |
CN115952291B (zh) | 基于多头自注意力及lstm的金融舆情分类方法及*** | |
CN113128227A (zh) | 实体抽取方法及装置 | |
CN110705255A (zh) | 检测语句之间的关联关系的方法和装置 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN113947086A (zh) | 样本数据生成方法、训练方法、语料生成方法和装置 | |
CN116595406A (zh) | 基于角色一致性的事件论元角色分类方法及*** | |
Kaur et al. | A review of artificial intelligence techniques for requirement engineering | |
CN114722198A (zh) | 产品分类编码确定方法、***及相关装置 | |
CN113239694B (zh) | 一种基于论元短语的论元角色识别的方法 | |
CN112667803A (zh) | 一种文本情感分类方法及装置 | |
CN117149940A (zh) | 事件论元抽取方法、装置 | |
CN116244440B (zh) | 文本情感分类方法、装置、设备及介质 | |
CN116384379A (zh) | 一种基于深度学习的中文临床术语标准化方法 | |
CN114648005B (zh) | 一种多任务联合学习的多片段机器阅读理解方法及装置 | |
CN109885827B (zh) | 一种基于深度学习的命名实体的识别方法和*** | |
CN109977227B (zh) | 基于特征编码的文本特征提取方法、***、装置 | |
CN113535946A (zh) | 基于深度学习的文本鉴别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |