CN114048754A - 一种融合上下文信息图卷积的中文短文本分类方法 - Google Patents

一种融合上下文信息图卷积的中文短文本分类方法 Download PDF

Info

Publication number
CN114048754A
CN114048754A CN202111540398.4A CN202111540398A CN114048754A CN 114048754 A CN114048754 A CN 114048754A CN 202111540398 A CN202111540398 A CN 202111540398A CN 114048754 A CN114048754 A CN 114048754A
Authority
CN
China
Prior art keywords
text
bilstm
nodes
context information
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111540398.4A
Other languages
English (en)
Inventor
胡俊清
杨志豪
施敬磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202111540398.4A priority Critical patent/CN114048754A/zh
Publication of CN114048754A publication Critical patent/CN114048754A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种融合上下文信息图卷积的中文短文本分类方法,属于文本分类技术领域。通过引入双向长短时记忆网络(BiLSTM),提出了BERT_BGCN短文本分类模型。本发明首先利用BERT对文本信息进行编码作为图节点的特征值;然后通过全局共享的点互信息量(PMI)关系作为节点间的边为每个文档构建一个单独的文本图;接着聚合图卷积网络和BiLSTM的输出形成融合上下文信息的特征矩阵输入到下一层的图卷积网络;最后输出到全连接层得到最终分类结果。本发明提出的文本分类方法可以弥补短文本中存在的特征稀疏问题,提高了中文短文本分类的准确性。

Description

一种融合上下文信息图卷积的中文短文本分类方法
技术领域
本发明涉及文本分类技术领域,具体涉及一种融合上下文信息图卷积的中文短文本分类方法。
背景技术
随着电子设备的普及和电商平台的崛起,海量用户在网上购物,商品评论文本急剧增加,如何对这些文本进行科学有效的分类管理成为热点研究问题之一。评论文本的正确分类可以影响用户的购买行为,同时也对商家和电商平台的营销决策起重要作用。
传统的CNN和RNN模型在处理非欧几里得数据时效果不佳,所以引入图卷积模型解决评论文本分类问题。评论文本一般不超过150个字符属于短文本的行列。由于GCN只聚合直接相邻节点的信息,在短文本中忽略了非常有用的词节点表示和词序中的语义信息,要想获得距离较长的上下文关系只有利用增加图卷积层数来解决。但经研究发现,GCN层数过多会导致极高空间复杂度的出现,使节点表征能力减弱。而且网络层数的增加也会使节点信息过度平滑,不利于文本分类。为了克服文本中上下文相关信息缺失的问题。
发明内容
本发明针对中文短文本特征提取中存在语义特征稀疏和上下文信息匮乏的问题,提供一种融合上下文信息图卷积的中文短文本分类方法,以提高对中文短文本分类的准确率。
本发明采用的技术方案是:一种融合上下文信息图卷积的中文短文本分类方法,包括如下步骤:
1)输入一个未分类的文本数据集,对其进行预处理,得到预处理后的数据集;
2)将预处理后的数据集送入BERT模型得到字向量;
3)计算节点之间的点互信息量PMI,为每个文本单独构建邻接矩阵;
4)将步骤2)得到的字向量输入至BiLSTM模型中,获得特征向量hBilstm,hBilstm为BiLSTM的输出,富含文本上下文语义信息,同时也将步骤2)得到的字向量和步骤3)构建的邻接矩阵输入至图卷积模型中获得特征向量hGCN,hGCN为图卷积的输出,包含文本的结构信息;
5)对hBilstm和hGCN进行特征融合得到融合上下文信息的特征矩阵hBGCN,hBGCN再通过图卷积层,最后通过全连接层实现降维;
6)利用分类器对降维后的特征向量进行分类。
具体地,步骤1)所述预处理包含去除重复部分、去非中文部分、删除停用词、去除乱码部分。
具体地,所述的步骤2)包括如下步骤:
2.1)利用已经训练好的BERT模型将步骤1)预处理后的数据集进行以字为单位的分词,得到固定长度的向量,所有固定长度的向量组成向量集;
2.2)将向量集输入token层、segment层、position层得到字向量编码、句子编码和位置编码;
2.3)将字向量编码、句子编码和位置编码聚合输入到BERT的双向transformer中得到字向量序列,也作为图卷积的初始特征矩阵。
具体地,所述的步骤3)包括如下步骤:
根据步骤1)预处理后的数据集中的每个字出现情况和整个语料库中的字共现情况在节点之间建立边。为了合理利用全局字共现信息,最常用的方法是使用一种关联度量即计算节点之间的点互信息量(PMI):
Figure BDA0003414080970000021
PMI(x;y)表示节点x和y的关联度。计算步骤1)预处理后的数据集的一条文本中x和y的概率分布一般采用的是滑动窗口的计算公式,即使用一个固定长度的滑动窗口在文本上滑动,统计滑动窗口中字出现的次数,记录滑动窗口总数目,通过节点在滑动窗口中单独出现的次数,以及共现的次数计算他们的概率分布:
Figure BDA0003414080970000022
Figure BDA0003414080970000023
其中,#W为滑动窗口的总数目,#W(x)为x出现在滑动窗口的次数,#W(x,y)为共同出现在滑动窗口的次数,P(x)为节点x出现在滑动窗口的概率,P(y)为节点y出现在滑动窗口的概率,P(x,y)为节点x和y共同出现在滑动窗口的概率。PMI大于0则认为两个节点有连接。有连接就可以构建邻接矩阵,具体的邻接矩阵Ax,y定义为:
Figure BDA0003414080970000031
具体的,所述的步骤5)中将通过BiLSTM和GCN模型得到的特征向量hBilstm和hGCN进行融合:
hBGCN=Concat(hBiLSTM,hGCN)
具体的,所述的步骤6)利用softmax层对步骤5降维后的特征向量进行概率计算,输出预测概率p={p1,p2,…pn},n表示分类的总数,pi,i=1,2,…,n。将概率最大pi的分类确定为该文本的类别。
本发明的有益效果是:使用了BERT模型对文本信息进行字符级编码作为图节点的特征值,得到生成语义信息丰富的动态字向量,使用图卷积可以更好的捕获文本的结构信息和节点间的长距离依赖关系,同时融合BiLSTM模型能解决中文短文本存在上下文语义信息匮乏的问题,得到更深层次的文本特征,提高分类任务的精确性。
附图说明
图1为本发明中的融合上下文信息图卷积的中文短文本分类模型;
图2为模型整体流程图;
图3为图卷积神经网络结构图;
图4为BiLSTM结构图。
具体实施方式
BERT语言模型:BERT模型是由谷歌公司基于bengio等人提出的注意力机制的思想,在Transformer的基础上开发的一种模型。本发明使用经过预训练BERT-Base-Chinese中的chines_L-12_H-768_A-12模型,将未被分类语料中按字切分的文本数据进行编码,输出将得到768维的特征向量作为节点的编码,比如“吃”这个字被表示为[-0.479102544,0.743044812,-0.245571120,…,-0.511284501]的768维向量。
图卷积神经网络模型:图卷积网络是一种能处理图数据进行深度学习的模型,它通过运算将邻居节点的特征聚合到自身节点,多次聚合后捕获到节点与高阶邻域信息的依赖关系。对于一个图G=(V,E),V表示为图中节点的集合,E为边的集合。图卷积网络层与层的传播形式如下所示:
Figure BDA0003414080970000041
Figure BDA0003414080970000042
其中
Figure BDA0003414080970000043
代表由邻接矩阵变换的拉普拉斯矩阵,A表示邻接矩阵,D表示度矩阵是由A得到,l表示GCN叠加层数,Hl+1表示l+1层GCN的输出,当l为0时,H1=X0,X0∈Rn×d是初始特征矩阵即第一层网络的输入,n为图中节点数,d代表每个节点特征的嵌入维度,m表示权重参数矩阵设置的维度,A∈Rn×n为邻接矩阵表示节点之间的关系,Wl∈Rd×m为第l层的权重参数矩阵。σ(·)为非线性激活函数,例如ReLU。
BiLSTM模型:BiLSTM是由前和由后分别训练LSTM,然后将两个LSTM的结果concat作为模型的输出。该模型能够同时保留“过去”和“未来”的文本信息,有效避免了LSTM模型在提取文本特征的过程中,只保留“过去”信息的弊端,增加了上下文特征的语义信息。
下面结合附图和具体实施例,对本发明作进一步描述。
实施例1:如图1所示,一种融合上下文信息图卷积的中文短文本分类方法,包括如下步骤:
1)输入一个未分类的文本数据集,对其进行预处理,得到预处理后的数据集;
2)将预处理后的数据集送入BERT模型得到字向量;
3)计算节点之间的点互信息量PMI,为每个文本单独构建邻接矩阵;
4)将步骤2)得到的字向量输入至BiLSTM模型中,获得特征向量hBilstm,hBilstm为BiLSTM的输出,富含文本上下文语义信息,同时也将步骤2)得到的字向量和步骤3)构建的邻接矩阵输入至图卷积模型中获得特征向量hGCN,hGCN为图卷积的输出,包含文本的结构信息;
5)对hBilstm和hGCN进行特征融合得到融合上下文信息的特征矩阵hBGCN,hBGCN再通过图卷积层,最后通过全连接层实现降维;
6)利用分类器对降维后的特征向量进行分类。
进一步地,步骤1)所述预处理主要包含去除重复部分、去非中文部分、删除停用词、去除乱码部分。
进一步地,所述的步骤2)包括如下步骤:
2.1)利用已经训练好的BERT模型将步骤1)预处理后的数据集进行以字为单位的分词,得到固定长度的向量,所有固定长度的向量组成向量集;
2.2)将向量集输入token层、segment层、position层得到字向量编码、句子编码和位置编码;
2.3)将字向量编码、句子编码和位置编码聚合输入到BERT的双向transformer中得到字向量序列,也作为图卷积的初始特征矩阵。
进一步地,所述的步骤3)包括如下步骤:
根据步骤1)预处理后的数据集中的每个字出现情况和整个语料库中的字共现情况在节点之间建立边。为了合理利用全局字共现信息,最常用的方法是使用一种关联度量即计算节点之间的点互信息量(PMI):
Figure BDA0003414080970000051
PMI(x;y)表示节点x和y的关联度。计算步骤1)预处理后的数据集的一条文本中x和y的概率分布一般采用的是滑动窗口的计算公式,即使用一个固定长度的滑动窗口在文本上滑动,统计滑动窗口中字出现的次数,记录滑动窗口总数目,通过节点在滑动窗口中单独出现的次数,以及共现的次数计算他们的概率分布:
Figure BDA0003414080970000052
Figure BDA0003414080970000053
其中,#W为滑动窗口的总数目,#W(x)为x出现在滑动窗口的次数,#W(x,y)为共同出现在滑动窗口的次数,P(x)为节点x出现在滑动窗口的概率,P(y)为节点y出现在滑动窗口的概率,P(x,y)为节点x和y共同出现在滑动窗口的概率。PMI大于0则认为两个节点有连接。有连接就可以构建邻接矩阵,具体的邻接矩阵Ax,y定义为:
Figure BDA0003414080970000061
具体的,所述的步骤5)中将通过BiLSTM和GCN模型得到的特征向量hBilstm和hGCN进行融合:
hBGCN=Concat(hBiLSTM,hGCN)
具体的,所述的步骤6)利用softmax层对步骤5降维后的特征向量进行概率计算,输出预测概率p={p1,p2,…pn},n表示分类的总数,pi,i=1,2,…,n。将概率最大pi的分类确定为该文本的类别。
实验环境和配置:
本仿真使用python3.7的运行环境,实验基于keras2.2.4和Tensorflow1.14.0深度学习框架构建,实验操作环境为Inter(R)Core(TM)i7-8700k,内存为8GB。
实验数据:
本发明的仿真使用了三个二分类数据集分别是谭松波酒店评论数据集、外卖评论数据集、京东网购评论数据集。其中谭松波酒店评论数据集来源于网络公开数据集包括投宿者对酒店服务的正反两面评论,整理的得到6000条样本数据,正样本3000条,负样本3000条,样本平均长度是150个字符。外卖评论数据集内容主要是包含了点餐用户对于食物味道的好坏,店家服务质量等方面的评价,目前有6000条数据,正样本3107条,负样本2893条,样本平均长度为38个字符。京东网购数据集包括买家对商品及卖家服务的正反两面评论,总共有4000条,其中正样本2000条,负样本2000条,样本评论长度为60个字符。
为验证融合上下文信息图卷积模型的有效性,在三个数据集上与其他模型LSTM、BiLSTM、Self-attention、BiGRU-Capsnet、GCN在准确率上做比较,实验结果如表1所示。
表1
Figure BDA0003414080970000062
对比结果如表1所示,在三个中文评论数据集上的实验结果证实了融合上下文信息图卷积模型的性能优于其他基线模型。本模型相较于普通GCN有一定提升。普通GCN在三个数据集上的精确度除了LSTM比其他几个基模型都低,分别为92.32%,82.51%,91.12%,这是因为GCN在情感分类中不能充分利用上下文依赖关系。在三个数据集上,与原始GCN相比引入BiLSTM的BERT_BGCN模型分别将精确度提高了1.32%,5.94%,3.04%,虽然两个模型的初始特征表示相同,但是本文模型利用BiLSTM进行特征提取具有很大的优势,说明模型引入BiLSTM确实丰富了GCN上下文语义相关性,提取出更深层次的特征提高分类性能。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.一种融合上下文信息图卷积的中文短文本分类方法,其特征在于:包括如下步骤:
1)输入一个未分类的文本数据集,对其进行预处理,得到预处理后的数据集;
2)将预处理后的数据集送入BERT模型得到字向量;
3)计算节点之间的点互信息量PMI,为每个文本单独构建邻接矩阵;
4)将步骤2)得到的字向量输入至BiLSTM模型中,获得特征向量hBilstm,hBilstm为BiLSTM的输出,富含文本上下文语义信息,同时也将步骤2)得到的字向量和步骤3)构建的邻接矩阵输入至图卷积模型中获得特征向量hGCN,hGCN为图卷积的输出,包含文本的结构信息;
5)对hBilstm和haCN进行特征融合得到融合上下文信息的特征矩阵hBGCN,hBGCN再通过图卷积层,最后通过全连接层实现降维;
6)利用分类器对降维后的特征向量进行分类。
2.根据权利要求1所述的一种融合上下文信息图卷积的中文短文本分类方法,其特征在于:步骤1)所述预处理包含去重、去非中文部分、删除停用词、去除乱码。
3.根据权利要求1所述的一种融合上下文信息图卷积的中文短文本分类方法,其特征在于:步骤2)包括如下步骤:
2.1)利用已经训练好的BERT模型将步骤1)预处理后的数据集进行以字为单位的分词,得到固定长度的向量,所有固定长度的向量组成向量集;
2.2)将向量集输入token层、segment层、position层得到字向量编码、句子编码和位置编码;
2.3)将字向量编码、句子编码和位置编码聚合输入到BERT的双向transformer中得到字向量序列,也作为图卷积的初始特征矩阵。
4.根据权利要求1所述的一种融合上下文信息图卷积的中文短文本分类方法,其特征在于:步骤3)具体为:
根据步骤1)预处理后的数据集中的每个字出现情况和整个语料库中的字共现情况在节点之间建立边,使用一种关联度量即计算节点之间的点互信息量PMI:
Figure FDA0003414080960000021
PMI(x;y)表示节点x和y的关联度,计算步骤1)预处理后的数据集的一条文本中x和y的概率分布采用的是滑动窗口的计算公式,即使用一个固定长度的滑动窗口在文本上滑动,统计滑动窗口中字出现的次数,记录滑动窗口总数目,通过节点在滑动窗口中单独出现的次数,以及共现的次数计算他们的概率分布:
Figure FDA0003414080960000022
Figure FDA0003414080960000023
其中,#W为滑动窗口的总数目,#W(x)为x出现在滑动窗口的次数,#W(x,y)为共同出现在滑动窗口的次数,P(x)为节点x出现在滑动窗口的概率,P(y)为节点y出现在滑动窗口的概率,P(x,y)为节点x和y共同出现在滑动窗口的概率,PMI大于0则认为两个节点有连接,有连接就构建邻接矩阵,具体的邻接矩阵Ax,y定义为:
Figure FDA0003414080960000024
5.根据权利要求1所述的一种融合上下文信息图卷积的中文短文本分类方法,其特征在于:步骤5)中将通过BiLSTM和GCN模型得到的特征向量hBilstm和hGCN进行融合:
hBGCN=Concat(hBiLSTM,hGCN)。
6.根据权利要求1所述的一种融合上下文信息图卷积的中文短文本分类方法,其特征在于:步骤6)利用softmax层对步骤5)降维后的特征向量进行概率计算,输出预测概率p={p1,p2,...pn},n表示分类的总数,pi,i=1,2,...,n,将概率最大pi的分类确定为该文本的类别。
CN202111540398.4A 2021-12-16 2021-12-16 一种融合上下文信息图卷积的中文短文本分类方法 Pending CN114048754A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111540398.4A CN114048754A (zh) 2021-12-16 2021-12-16 一种融合上下文信息图卷积的中文短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111540398.4A CN114048754A (zh) 2021-12-16 2021-12-16 一种融合上下文信息图卷积的中文短文本分类方法

Publications (1)

Publication Number Publication Date
CN114048754A true CN114048754A (zh) 2022-02-15

Family

ID=80213269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111540398.4A Pending CN114048754A (zh) 2021-12-16 2021-12-16 一种融合上下文信息图卷积的中文短文本分类方法

Country Status (1)

Country Link
CN (1) CN114048754A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050418A (zh) * 2023-03-02 2023-05-02 浙江工业大学 基于融合多层语义特征的命名实体识别方法、设备和介质
CN117556787A (zh) * 2024-01-11 2024-02-13 西湖大学 为自然语言文本序列生成目标文本序列的方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡俊清等: "融合上下文信息图卷积的中文短文本分类方法", 电视技术, vol. 45, no. 11, 15 November 2021 (2021-11-15), pages 83 - 87 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050418A (zh) * 2023-03-02 2023-05-02 浙江工业大学 基于融合多层语义特征的命名实体识别方法、设备和介质
CN116050418B (zh) * 2023-03-02 2023-10-31 浙江工业大学 基于融合多层语义特征的命名实体识别方法、设备和介质
CN117556787A (zh) * 2024-01-11 2024-02-13 西湖大学 为自然语言文本序列生成目标文本序列的方法和***
CN117556787B (zh) * 2024-01-11 2024-04-26 西湖大学 为自然语言文本序列生成目标文本序列的方法和***

Similar Documents

Publication Publication Date Title
CN109977413B (zh) 一种基于改进cnn-lda的情感分析方法
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
CN108763362B (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
US20220405480A1 (en) Text sentiment analysis method based on multi-level graph pooling
CN111274398B (zh) 一种方面级用户产品评论情感分析方法及***
Li et al. CLMLF: A contrastive learning and multi-layer fusion method for multimodal sentiment detection
CN108363695B (zh) 一种基于双向依赖语法树表征的用户评论属性抽取方法
CN111563164A (zh) 一种基于图神经网络的特定目标情感分类方法
CN107357793A (zh) 信息推荐方法和装置
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐***
CN112650929B (zh) 一种融入评论信息的图神经网络推荐方法
CN114048754A (zh) 一种融合上下文信息图卷积的中文短文本分类方法
CN111680488A (zh) 基于知识图谱多视角信息的跨语言实体对齐方法
CN113378573A (zh) 面向内容大数据的小样本关系抽取方法和装置
CN113076483A (zh) 基于案件要素异构图的舆情新闻抽取式摘要方法
CN115422939B (zh) 一种基于大数据的细粒度商品命名实体识别方法
CN116150480A (zh) 一种融合多模态评论信息的用户个性化需求预测方法
Rauf et al. Using BERT for checking the polarity of movie reviews
Jin et al. Multi-label sentiment analysis base on BERT with modified TF-IDF
CN115238191A (zh) 对象推荐方法以及装置
CN113204624B (zh) 一种多特征融合的文本情感分析模型及装置
CN114743029A (zh) 一种图像文本匹配的方法
Li et al. BERTtoCNN: Similarity-preserving enhanced knowledge distillation for stance detection
CN113158659A (zh) 一种基于司法文本的涉案财物计算方法
CN113761184A (zh) 文本数据的分类方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination